CN115455973A

CN115455973A - 一种基于真实世界研究的淋巴瘤研究数据库建设及应用方法

Info

Publication number: CN115455973A
Application number: CN202211402033.XA
Authority: CN
Inventors: 谢彦; 宋玉琴; 朱军; 米岚; 吴梦; 冯非儿; 甘伟; 王泽�
Original assignee: Beijing Cancer Hospital
Current assignee: Beijing Cancer Hospital
Priority date: 2022-11-10
Filing date: 2022-11-10
Publication date: 2022-12-09

Abstract

本申请公开了一种基于真实世界研究的淋巴瘤研究数据库建设及应用方法。其中方法包括，创建标准医学知识库，所述标准医学知识库用于界定数据库中数据元名称、值域/数据类型、数据加工方式；利用所述标准医学知识库结构化表达患者医疗电子文本，得到结构化数据；基于所述结构化数据，搭建多个数据库模块，所述多个数据库模块关联淋巴瘤诊疗周期；利用搜索引擎链接所述多个数据库模块。本申请通过将淋巴瘤患者的诊疗数据转化为科研可用的标准结构化数据，实现淋巴瘤诊治过程的真实世界数据到研究数据库的转化。

Description

一种基于真实世界研究的淋巴瘤研究数据库建设及应用方法

技术领域

本发明一般地涉及医疗领域。更具体地，本发明涉及一种基于真实世界研究的淋巴瘤研究数据库建设方法和一种基于真实世界研究的淋巴瘤研究数据库应用方法。

背景技术

现代医学中，将应用真实世界数据（Real World Data，RWD），进行真实世界研究（Real World Study，RWS）所产生的循证证据用于药械的研发和审批。然而，目前国内尚缺乏多人群适宜、循证证据可靠的临床研究设计，将产生的真实世界证据应用于药品上市后监测，支持上市后药品的安全性监管决策。医院的RWD主要来源于患者病历、检查检验报告、入院/出院记录、手术记录等，具有数据量庞大、异质性高、部分数据可及性弱的特点，还存在缺乏数据可操作性、标准性差、数据非结构化或者部分结构化等问题。因此，如何在数据结构标准化体系下，利用大数据和人工智能技术建立淋巴瘤研究数据库，提高真实世界数据质量，从而提升真实世界研究中循证医学证据产出的有效性和可靠性成为亟待解决的技术问题。

发明内容

为了至少解决上述背景技术部分所描述的技术问题，本发明提出了一种基于真实世界研究的淋巴瘤研究数据库建设及应用方法。利用本发明的方案，可以有效利用大数据和人工智能技术建立淋巴瘤研究数据库，提高真实世界数据质量，从而提升真实世界研究中循证医学证据产出的有效性和可靠性。鉴于此，本发明在如下的多个方面提供解决方案。

本发明的第一方面提供了一种基于真实世界研究的淋巴瘤研究数据库建设方法，包括：创建标准医学知识库，所述标准医学知识库用于界定数据库中数据元名称、值域/数据类型、数据加工方式；利用所述标准医学知识库结构化表达患者医疗电子文本，得到结构化数据；基于所述结构化数据，搭建多个数据库模块，所述多个数据库模块关联淋巴瘤诊疗周期；利用搜索引擎链接所述多个数据库模块。

在一个实施例中，所述结构化表达包含信息抽取步骤和变量映射步骤；所述信息抽取步骤用于基于所述标准医学知识库定义的标准化变量，提取所述患者医疗电子文本，得到识别结果；所述变量映射步骤用于将所述识别结果与标准化字段进行映射。

在一个实施例中，所述信息抽取步骤包括；医疗电子文本分类预测步骤，用于对所述医疗电子文本进行分类预测，以获取不同类型的所述医疗电子文本的章节分类信息；章节拆分步骤，用于依据所述章节分类信息，将所述医疗电子文本分为不同章节；信息抽取步骤，用于对所述不同章节进行分词和命名实体识别。

在一个实施例中，利用搜索引擎链接所述多个数据库模块，包括；通过搭建规范模型体系，将患者病历、影像、生物样本数据进行归类整合。

在一个实施例中，通过搭建规范模型体系，将患者病历、影像、生物样本数据进行归类整合具体包括;通过数据之间的关系按照门诊、急诊、住院的就诊次数据融合，同时分析医院就诊电子化数据缺失和无法关联情况；基于患者主索引进行患者唯一性匹配，基于患者主索引进行就诊信息整合功能，基于按照患者就诊类型、时间进行就诊时序展示，基于就诊时序进行患者数据归集；通过科室、日期选择器，对当前患者的历次就诊信息进行数据分类选择、融合选择。

在一个实施例中，还包括对所述淋巴瘤研究数据库按照专科病种和用户角色进行用户权限划分和分级授权管理，对隐私信息进行加密脱敏处理，具体为；用户权限划分，明确各级权限，分离信息系统管理权限和经办业务角色，对不同角色设置不同权限；分级授权，划分为科室主任、研究者、录入员角色等级；加密和脱敏，采用加密技术对个人信息字段进行加密。

本发明的第二方面提供了一种基于真实世界研究的淋巴瘤研究数据库应用方法，所述淋巴瘤研究数据库是基于真实世界研究的淋巴瘤研究数据库建设方法得到，所其特征在于，包括；建立研究人群，对所述淋巴瘤研究数据库进行多条件叠加检索，获取命中的就诊记录；人群特征分析，基于所述就诊记录分析患者在性别、确诊年龄、疾病分期以及有无B症状的变量分布差异。

利用本发明所提供的方案，通过将淋巴瘤患者的诊疗数据转化为科研可用的标准结构化数据，实现淋巴瘤诊治过程的真实世界数据到研究数据库的转化，是搭建淋巴瘤的电子病历与生物信息样本库网络的重要基础，为从现有医院业务系统数据实现真实世界研究提供了借鉴与参考。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，并且相同或对应的标号表示相同或对应的部分，其中：

图1是示出根据本发明实施例的淋巴瘤研究数据库建设方法示意图；

图2是示出根据本发明实施例的信号处理方法示意图；

图3是示出根据本发明实施例的信息提取步骤示意图；

图4是示出根据本发明实施例的淋巴瘤研究数据库应用方法示意图。

具体实施方式

下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

应当理解，本发明的权利要求、说明书及附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。本发明的说明书和权利要求书中使用的术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施方式的目的，而并不意在限定本发明。如在本发明说明书和权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解，在本发明说明书和权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当... 时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

下面结合附图来详细描述本发明的具体实施方式。

本发明的第一方面，提供了一种基于真实世界研究的淋巴瘤研究数据库建设方法。图1是示出根据本发明一个实施例的淋巴瘤研究数据库建设方法示意图。本发明一种基于真实世界研究的淋巴瘤研究数据库建设方法，可以实施为如下描述的步骤S100-S400：

S100，创建标准医学知识库，所述标准医学知识库用于界定数据库中数据元名称、值域/数据类型、数据加工方式；

S200，利用所述标准医学知识库结构化表达患者医疗电子文本，得到结构化数据；

S300，基于所述结构化数据，搭建多个数据库模块，所述多个数据库模块关联淋巴瘤诊疗周期；

S400，利用搜索引擎链接所述多个数据库模块。

在本发明一优选的实施例中，S100，创建标准医学知识库，所述标准医学知识库用于界定数据库中数据元名称、值域/数据类型、数据加工方式，具体包括：通过参考淋巴瘤的相关指南及国家和医疗行业标准（见表1），对数据库中数据元名称、值域/数据类型、数据加工方式进行初步界定，汇总淋巴瘤诊疗周期完整数据所涉及的知识点，搭建淋巴瘤知识库的结构。共设计1692 个标准化变量以及对应的解释和参考范围（见表2），涉及25 个模块，包括：基本信息，一诉五史，体格检查，实验室检查，治疗过程，随访情况，生物样本信息，基因数据等。

表1 部分参考的淋巴瘤诊疗指南及行业标准

表2 部分标准化变量以及参考范围和对应的解释

在本发明一优选的实施例中，S200，利用所述标准医学知识库结构化表达患者医疗电子文本，得到结构化数据，具体包括：回顾性抽取一预定时间段内就诊记录，入院诊断名称包含淋巴瘤的患者电子病历数据，并前瞻性地实时纳入新就诊患者电子病历数据。

应用目前大数据时代新兴的自然语言处理（Natural Language Processing，NLP）技术，通过语义识别、语义关系识别、核心词提取、标准医学知识库匹配、结构化关键词整理等功能，将病历文本中的描述性语言，基于已设计的标准化变量，经过人工智能系统智能处理后转化为更为准确、易处理的结构化数据表达，且把识别结果进行标准化归一处理，以机器可理解的结构化方式呈现。同时按照标准化变量设计进行前瞻性病例数据收集和增量数据导入。

在本发明一优选的实施例中，S300，基于所述结构化数据，搭建多个数据库模块，所述多个数据库模块关联淋巴瘤诊疗周期，具体包括：综合医院各业务系统数据，以淋巴瘤患者诊治过程产生的电子病历数据为主，围绕诊断、治疗、生物样本信息及随访等淋巴瘤的诊疗周期，结合领域专家的科研需求对数据库进行整体设计。

采用Hadoop集群、人工智能识别、自然语言处理等技术，将HIS 系统、PACS 系统、LIS 系统和生物信息样本库以及随访系统统一提取，形成淋巴瘤研究数据库的结构，包括数据与标准化变量的检索、诊疗视图以及患者病程的可视化、数据质量的评估等，搭建“基于电子病历系统的淋巴瘤数据库-生物样本信息库-延伸遗传信息库”的动态数据库。

在本发明一优选的实施例中，S400，利用搜索引擎链接所述多个数据库模块，具体包括：数据集成整合后，通过研发全方位、多维度的数据综合搜索引擎，开展复杂条件、递进式的病例数据查询和科研病例筛选，完成真实世界研究中需要的多条件叠加筛选出目标人群。另外可通过数据接口和患者 ID（作为身份标识号码），实现单个批量入组病例数据的一键式导入，同步完成需求变量的选取和入组队列的建立，从而减少手工填写数据至 CRF 表单的工作量，提高了数据收集整理的效率和质量。

本发明实施例中，所述结构化表达包含信息抽取步骤和变量映射步骤。请参见图2，图2是示出根据本发明一个实施例的结构化表达方法示意图。其中结构化表达可以实施为如下描述的步骤：

信息抽取步骤,用于基于所述标准医学知识库定义的标准化变量，提取所述患者医疗电子文本，得到识别结果；

变量映射步骤,用于将所述识别结果与标准化字段进行映射。

在本发明一优选的实施例中，为全面、准确地提取电子病历文本中的信息，本申请首先建立了淋巴瘤症状、疾病名称和治疗药物等相关的词典，汇总相关文本中医生的书写顺序，制定“正则表达式”，并制定“多层次实体关系抽取方案”即首先根据医疗文书内容，判别文书类别，之后根据制定的“正则表达式”，将文书分为不同的章节，同时根据建立的相关词典，对各章节文书进行信息抽取以及整合归一，最后对抽取的信息进行核对检查，回溯并修正其中存在的不规则数据，之后采用常规的结构化与非结构化数据清洗流程即数据的抽取、转换和加载(Extraction Transformation Loading，ELT)，实现医院底层数据表向标准化数据结构转换。针对预处理后的数据，将来源字段与标准化字段进行映射。

本发明的一优选实施例中，所述信息抽取步骤具体请参见图3，图3是示出根据本发明一个实施例的信息抽取步骤示意图。其中信息抽取步骤可以实施为如下描述的步骤：S211-S213。

步骤S211,医疗电子文本分类预测步骤，用于对所述医疗电子文本进行分类预测，以获取不同类型的所述医疗电子文本的章节分类信息；

步骤S212,章节拆分步骤，用于依据所述章节分类信息，将所述医疗电子文本分为不同章节；

步骤S213,信息抽取步骤，用于对所述不同章节进行分词和命名实体识别。

在本发明一优选的实施例中，步骤S211,医疗电子文本分类预测步骤。用于对所述医疗电子文本进行分类预测，以获取不同类型的所述医疗电子文本的章节分类信息。医疗电子文本相对于其他文本来说，对于一个电子模板的数据，数据格式规范，结构合理。内容上不同的文书类别，特征信息不同。如对于入院记录文书，最常见的就是包含“一诉五史”即包含“主诉、现病史、既往史、个人史、月经婚育史、家族史”等章节信息。而像会诊记录文书里面，则最常见的包含的章节有“会诊目的、会诊情况、会诊意见、会诊科室”等信息。从上面举例的两个文书里面本申请可以看出，他们的章节信息具有比较明显的区别。基于此，本申请采用了基于传统机器学习随机森林的方法来进行文书分类。该方法实现简单、训练速度快、能判断特征的重要程度等优点。在文书分类方案中主要分为三个部分：数据预处理、特征抽取、模型训练和使用：

数据预处理：根据不同的文本格式采用了不同的文书内容获取方法。HTML格式的数据读入内存后，根据规则替换处理得到段落数据

特征抽取：此环节根据不同的文本格式采用了不同的特征获取方法。这里说的特征是指文本内容中将参与分类的关键词特征。如“入院记录”文书里面的“现病史”、“主诉”、“既往史”等关键词

模型训练：主要涉及两个模型，分别是TF-IDF和随机森林模型。TF-IDF是用来将文本生成数字向量。参与运算的只能是数字，所以本申请需要将文本内容转换成数字才可以，这里就用到了TF-IDF。而随机森林模型，则是根据训练集，也就是标注好的文书类别进行训练得到的模型。

在本发明一优选的实施例中，步骤S212,章节拆分步骤。用于依据所述章节分类信息，将所述医疗电子文本分为不同章节。根据电子病历书写规范要求，不同类别的病历文书还会根据相应的行文规律被分为不同章节。例如，入院记录中包含主诉、现病史、既往史、个人史、婚育史、家族史等。每一章节所蕴含的疾病信息维度也不相同，以现病史为例，它是以时间为主线，按先后顺序对疾病进行描述。为进一步提高对不同章节文本信息抽取的效率和准确性，系统采用了“分类模型”方式，通过对医疗文档中各章节行文特点进行归纳、总结，构建适合的信息抽取模型，减少因章节分割错误导致的信息抽取丢失情况，保证数据的完整性和多维性。

在本发明一优选的实施例中，步骤S213,信息抽取步骤。用于对所述不同章节进行分词和命名实体识别。本申请采用“规则+深度学习模型”，对病历文书内容进行信息抽取。通过中文分词算法和深度学习序列标注算法，对病历的章节信息进行分词和命名实体识别，标注出重点关注的实体类别，如：疾病、症状、手术、检查、检验、药品、时间等实体。对标注好的命名实体结果，采用规则方式，在不同实体间建立联系，完成相同实体及不同实体语义关系的建立。

搭建模型映射库，首先根据医疗病历文书定义出文书分类模型，如“病案首页、入院记录、出院记录、检验单、检查报告”等，结合医疗业务将数据归类对应到不同的文书模型层级下，如“诊断名称”对应到“首页诊断”文书层级下。通过信息抽取流程后数据按照标准模型库进行归类存储，在变量应用环节根据模型定义的映射路径（如“首页诊断_诊断名称”）即可实现数据自动提取。

本发明实施例中，利用搜索引擎链接所述多个数据库模块，包括通过搭建规范模型体系，将患者病历、影像、生物样本数据进行归类整合。具体地，结合临床业务应用场景，搭建文档规范化处理体系。对于不规范病历相关文书，通过自然语言处理和特征识别，进行文档规范化整理。通过搭建规范模型体系，将患者病历、影像、生物样本等不同维度数据正进行归类整合，具体步骤包括：就诊次关联匹配、EMPI主索引建立、数据融合体系，通过多模块数据融合，为后续全方位、多维度的数据综合搜索引擎提供便利。

在本发明一优选的实施例中，通过搭建规范模型体系，将患者病历、影像、生物样本数据进行归类整合具体包括;通过数据之间的关系按照门诊、急诊、住院的就诊次数据融合，同时分析医院就诊电子化数据缺失和无法关联情况；基于患者主索引进行患者唯一性匹配，基于患者主索引进行就诊信息整合功能，基于按照患者就诊类型、时间进行就诊时序展示，基于就诊时序进行患者数据归集；通过科室、日期选择器，对当前患者的历次就诊信息进行数据分类选择、融合选择。结合临床业务应用场景，搭建文档规范化处理体系。对于不规范病历相关文书，通过自然语言处理和特征识别，进行文档规范化整理。通过搭建规范模型体系，将患者病历、影像、生物样本等不同维度数据正进行归类整合，具体步骤包括：就诊次关联匹配、EMPI主索引建立、数据融合体系，通过多模块数据融合，为后续全方位、多维度的数据综合搜索引擎提供便利。

1)就诊次关联匹配

通过数据之间的关系按照门诊、急诊、住院等就诊次数据融合，同时分析医院就诊电子化数据缺失和无法关联情况，并提出处理方案。

通过数据融合处理，可以查看就诊记录，而且可以对患者历次就诊记录进行回顾性查看，包括门诊和住院全部的就诊记录。将患者历次就诊信息按照时间序列方式，及每次就诊详细的医嘱、诊断、病历、手术等信息按照临床逻辑进行组织展现。

2)EMPI主索引建立

医院数据一般用医院自己的ID进行标识。但在有的医院内部，住院和门诊存在同一个用户具有多个ID的情况，例如非实名的就诊记录和实名的就诊记录可能是用不同的就诊卡形成的。

一般来说，可以采用身份证号作为患者的主索引ID，但实际数据中有些就诊记录不含有身份证号，因此需要进行匹配和映射。抽取服务支持患者匹配功能，支持基于患者主索引的患者唯一性匹配功能、支持基于患者主索引的就诊信息整合功能、支持按照患者就诊类型、时间展示就诊时序的功能、支持按照就诊时序进行患者数据归集的功能。

3)数据融合体系

可通过科室、日期选择器，对当前患者的历次就诊信息（基本信息、医嘱、检查报告、检验报告、病历文书、手术记录、护理信息等模块）进行数据分类选择、融合选择，在数据融合过程中，针对就诊电子化数据缺失和无法关联情况，可以结合临床实际业务进行整改与质量控制。

本发明实施例中，淋巴瘤专病库独立部署于医院内部，与外界网络不直接互通，可有效保障院内数据不外流。所有的院内数据均存储在医院的核心机房内，接受统一监管。同时使用数据库复制技术对生产系统数据库业务数据表进行复制，在建立的复制库上进行数据抽取和治理，保证对生产系统数据库性能无影响，不会影响医院业务系统的正常运营。并且为确保数据安全，按照专科病种和用户角色进行用户权限划分和分级授权管理，对隐私信息进行加密脱敏处理。因此，本发明的数据库管理模式还包括对所述淋巴瘤研究数据库按照专科病种和用户角色进行用户权限划分和分级授权管理，对隐私信息进行加密脱敏处理，具体为；用户权限划分，明确各级权限，分离信息系统管理权限和经办业务角色，对不同角色设置不同权限；分级授权，划分为科室主任、研究者、录入员角色等级；加密和脱敏，采用加密技术对个人信息字段进行加密。

1）用户权限划分层面

专病库明确各级权限，分离信息系统管理权限和经办业务角色，可以对不同角色设置不同权限。项目管理员建立专病队列研究，维护参与研究的中心、科室以及账号，并建立研究的角色，配置该角色拥有的可用功能以及操作、数据、隐私维度的权限。其中数据维度包含课题数据、科室数据以及个人数据，对于敏感数据，可以选择相应的数据单位，设置相应的隐私加密方式用于划分不同的角色权限，设定人员角色维护规则。并采用基于角色的方位控制策略，将人员归入不同角色。通过对用户以及角色的关联，实现平台管理的稳定性、数据的安全性、完整性，增强平台的灵活性。

2）分级授权层面

在专病队列研究中，可以分为划分为科室主任（PI）、研究者、录入员角色等级。

录入员采集自己患者的数据，无权查看其他患者数据，并且所涉及隐私信息如姓名、电话等加密显示，以及限制使用数据分析导出等功能。

研究者可查看所有采集的数据，对于加密脱敏的数据，在进行数据导出时需要发起申请流程，审批者通过之后可自行下载进行查看。

科室主任（PI）主要对研究队列的建立，CRF表单、执行方案、管理计划、随访任务的制定，以及研究者数据导出申请的审批授权。

3）加密和脱敏层面

淋巴瘤专病库对患者的隐私保护有多个维度措施，在存放个人信息时，采用加密技术对个人信息字段进行加密。对于无规则信息，通过全部加密形式。对于规则信息例如姓名：保留姓氏，对名称第二位之后进行加密。身份证号：倒数第5位到第10位之间进行加密显示；电话：第4到第7位关键号码信息进行加密。在展示界面中对于敏感数据的相对于字段采用数据脱敏技术，例如变形处理、星链加密展示，并限制用户的查询权限，最小够用原则，后台进行访问审计。实施脱敏、日志记录等控制措施，防范数据丢失、泄露、未授权访问等安全风险；

此外基于目前的规范与要求，淋巴瘤的专病数据库伦理由伦理委员会以不同的研究队列来进行立项确认。不同的课题研究小组也可利用先前其他课题组已整理完成的科研专病数据库中的数据，经授权后导出，实现数据的共享和再利用，以减少重复收集、重复随访和人力资源浪费。在淋巴瘤的专病数据管理中，打通数据的上中下游链条，从数据获取，数据脱敏，数据存储，数据使用，监管审计，以及个人隐私保护，制定统一数据出口，涵盖数据的全生命周期进行安全管控。

本发明的第二方面，提供了一种基于真实世界研究的淋巴瘤研究数据库应用方法。图4是示出根据本发明一个实施例的淋巴瘤研究数据库应用方法示意图。本发明一种基于真实世界研究的淋巴瘤研究数据库应用方法，可以实施为如下描述的步骤：

建立研究人群，对所述淋巴瘤研究数据库进行多条件叠加检索，获取命中的就诊记录；

人群特征分析，基于所述就诊记录分析患者在性别、确诊年龄、疾病分期以及有无B症状的变量分布差异。

本发明实施例中，建立研究人群是在开展真实世界研究过程中，研究者需要建立满足多条件的研究人群，因此数据库支持进行多个条件叠加检索，并显示命中的就诊记录，也可依据研究需求追加显示采用治疗方案前后的就诊记录，了解治疗前后检验检查指标的变化情况，根据研究目的建立对应的研究队列，选择需要的变量，进行描述性统计和研究建模，挖掘数据信息。在此，本申请以“研究维布妥昔单抗在淋巴瘤治疗中的应用情况”为例，建立研究人群。

本发明一优选实施例中，建立研究人群具体包括以下步骤：

1、确定检索条件

1.1 高级检索

高级检索主要用于精确匹配查询，通过AND和OR组合多个复杂逻辑表达式，以实现研究对象的准确定义。

高级检索同时还可以通过病例和患者两种维度进行检索。其中，病例维度检索可精确匹配到患者历次就诊中符合检索条件的就诊次病例，提取相关信息，精准针对具体病例进行科研分析。患者维度检索不局限于患者的各就诊次，精确匹配到符合检索条件的患者，获取患者全部诊疗信息，直观清晰的明确疾病在个体的发展进程。

除此之外，系统还通过对疾病、药品、症状、检查等词库的建立，实现多种同义词查询，保证数据检索的准确性和完整性。

1.2 ID人工导入批量检索

针对研究者在临床工作中独立标识的一些入组患者，支持通过人工导入的方式精准定位该研究人群。

人工导入检索方式主要用于根据住院号/ID号批量查询患者，导入成功后，系统会显示相应患者列表，而针对未查询到的住院号，系统也会在界面中列出。

2、筛选检索结果（研究对象筛选）

条件输入后，系统会检索出符合条件的患者以及相关病例，如需查看患者目标诊次前后相关联的全部其他门诊或住院记录，可展开查看，也可浏览某次就诊的全部临床数据、样本数据及基因数据，以便明确纳入研究的对象。

3、筛选研究变量

确定研究对象纳入范围后，需要选择本次研究的变量，即按照系统内的标准数据集进行分层分类勾选，如患者人口学信息、诊断信息、病史信息、检验检查信息以及生物样本信息等，以便开展后续统计分析。

4、数据质控

临床科研通常对数据质量要求很高，但实际中的医学数据存在很多质量问题，例如数据表示的不统一、数据不一致、数据不完整、错误数据等。数据质量严重影响着数据在疾控、临床、疾病预测等方面的适用性。

数据完整度主要度量数据项的缺失情况，对所研究变量的数据质量进行过程内的实时质控，避免到研究终末阶段，因数据质量不合格而带来的数据重复采集和研究周期拉长等问题。

数据异常质控主要展示研究样本的规范数据、不规范数据和空数据的数据情况，以及异常数据涉及的患者列表和数据值域详情，原始异常值等。

5、描述性统计分析

基于探索式分析，通过智能推荐图形、图表协同过滤、全维度数据钻取，辅助临床快速定位并发现问题。

5.1数据透视与钻取

系统包括：柱状图，折线图，直方图，词云图等11种可视化统计图表，可对所有的研究变量进行图表展示，能够自动匹配最合适的图形来展示数据分布情况。研究者也可根据需要自定义可视化展示：数值型数据的统计图中可以增加均数，中位数，四分位数等参考线；分类变量可以进行合并设置，从而帮助研究者发现数据规律。此外，系统支持变量进行二次分析，深入钻取，查看详细数据。

5.2交叉表

系统可通过对变量的简单拖拽，形成列联表，全程无需编写表达式，即可对变量进行分层统计描述。

5.3相关性分析

系统支持分析任意连续型变量之间的相关性，并给出各变量相关系数，并按相关系数大小以不同颜色进行标记。数据统计分析过程中，若变量相关性较高，需要进行降维处理或者考虑减少变量相关性对研究结果产生的影响。

6、研究建模

研究建模模块主要是通过R算法包集成，提供研究人群研究设计、统计分析模块，以流程引导的方式简单快捷地实现研究对象的分组、统计学处理和研究报告生成等功能。

6.1课题基本信息配置

课题基本信息配置主要填写该课题研究目的，选择所属研究类型，以及该研究持续时间。文本编辑框后面字符*代表必填项目，填写相关信息并选择相应课题PI，最后明确项目的启动和结束时间，完成课题基本信息配置。

6.2研究人群分组

根据课题研究目的，将人群按照不同的分组方式(想要研究的病种人群之间的区别)分成多个组别。分组方式可灵活选择，如将某个人群作为一组，对比两个或多个人群之间的差异；或在同一人群中，根据某一变量进行分组，如性别、年龄、是否感染、是否死亡等；在某一个具体的分组中，还可以根据其他变量进行亚组的划分，如“女性组”中根据年龄再分为“中年组”、“青年组”、“老年组”等，以支持不同层次、不同组别之间患者对比。

6.3统计模型选择

根据课题研究目的及分组情况，选择合适的统计模型。系统目前支持基于R的共医学上常用的统计模型，包括比较均值分析、非参检验、回归分析等，以满足医生的在线统计分析需求。

6.4统计学处理

确定统计模型后，可直接选择一个或多个检验变量，并根据检验变量类型的不同，选入合适的统计模型，如独立样本T检验适用于定量变量统计，而卡方检验适用于分类变量统计；通过任意切换置信分组，来实现一个或多个组间变量的差异对比，直接生成统计结果。

6.5模型结果展示与解读

针对每一个统计模型，生成结果后都会结合相关数据给出说明和解释，如出现多个P值，系统会提示哪一行作为最优参照结果。且有统计学意义的数据，系统都会用颜色标识处理。

本发明一优选实施例中，人群特征分析时依据制定的检索条件，检索出26名患者，排除分期方式数据缺失的2名患者，共有24名患者被纳入研究人群。根据患者的诊断名称将患者分为两组即霍奇金淋巴瘤组共有13名患者，非霍奇金淋巴瘤组共有11名患者。两组人群患者在性别、确诊年龄、疾病分期以及有无B症状的变量分布差异均无统计学意义，见表3。

表3霍奇金淋巴瘤组与非霍奇金淋巴瘤组患者特征分析

a:数据分析所用软件为R i386 4.1.2 ; b:Fisher确切概率法

虽然本说明书已经示出和描述了本发明的多个实施方式，但对于本领域技术人员显而易见的是，这样的实施方式是仅以示例的方式提供的。本领域技术人员在不偏离本发明思想和精神的情况下想到许多更改、改变和替代的方式。应当理解在实践本发明的过程中，可以采用本文所描述的本发明实施方式的各种替代方案。所附权利要求书旨在限定本发明的保护范围，并因此覆盖这些权利要求范围内的模块组成、等同或替代方案。

Claims

1.一种基于真实世界研究的淋巴瘤研究数据库建设方法，其特征在于，包括；

创建标准医学知识库，所述标准医学知识库用于界定数据库中数据元名称、值域/数据类型、数据加工方式；

利用所述标准医学知识库结构化表达患者医疗电子文本，得到结构化数据；

基于所述结构化数据，搭建多个数据库模块，所述多个数据库模块关联淋巴瘤诊疗周期；

利用搜索引擎链接所述多个数据库模块。

2.根据权利要求1所述的一种基于真实世界研究的淋巴瘤研究数据库建设方法，其特征在于，所述结构化表达包含信息抽取步骤和变量映射步骤；

所述信息抽取步骤用于基于所述标准医学知识库定义的标准化变量，提取所述患者医疗电子文本，得到识别结果；

所述变量映射步骤用于将所述识别结果与标准化字段进行映射。

3.根据权利要求2所述的一种基于真实世界研究的淋巴瘤研究数据库建设方法，其特征在于，所述信息抽取步骤包括；

医疗电子文本分类预测步骤，用于对所述医疗电子文本进行分类预测，以获取不同类型的所述医疗电子文本的章节分类信息；

章节拆分步骤，用于依据所述章节分类信息，将所述医疗电子文本分为不同章节；

信息抽取步骤，用于对所述不同章节进行分词和命名实体识别。

4.根据权利要求1所述的一种基于真实世界研究的淋巴瘤研究数据库建设方法，其特征在于，利用搜索引擎链接所述多个数据库模块，包括；

通过搭建规范模型体系，将患者病历、影像、生物样本数据进行归类整合。

5.据权利要求4所述的一种基于真实世界研究的淋巴瘤研究数据库建设方法，其特征在于，通过搭建规范模型体系，将患者病历、影像、生物样本数据进行归类整合具体包括;

通过数据之间的关系按照门诊、急诊、住院的就诊次数据融合，同时分析医院就诊电子化数据缺失和无法关联情况；

基于患者主索引进行患者唯一性匹配，基于患者主索引进行就诊信息整合功能，基于按照患者就诊类型、时间进行就诊时序展示，基于就诊时序进行患者数据归集；

通过科室、日期选择器，对当前患者的历次就诊信息进行数据分类选择、融合选择。

6.根据权利要求1所述的一种基于真实世界研究的淋巴瘤研究数据库建设方法，其特征在于，还包括对所述淋巴瘤研究数据库按照专科病种和用户角色进行用户权限划分和分级授权管理，对隐私信息进行加密脱敏处理，具体为；

用户权限划分，明确各级权限，分离信息系统管理权限和经办业务角色，对不同角色设置不同权限；

分级授权，划分为科室主任、研究者、录入员角色等级；

加密和脱敏，采用加密技术对个人信息字段进行加密。

7.一种基于真实世界研究的淋巴瘤研究数据库应用方法，所述淋巴瘤研究数据库是根据权利要求1-6任一项所述的基于真实世界研究的淋巴瘤研究数据库建设方法得到，所其特征在于，包括；