CN114400099A

CN114400099A - 疾病信息挖掘和检索方法、装置、电子设备和存储介质

Info

Publication number: CN114400099A
Application number: CN202111667367.5A
Authority: CN
Inventors: 周立运; 谢伟
Original assignee: Beijing Huabin Licheng Technology Co ltd
Current assignee: Beijing Huabin Licheng Technology Co ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-04-26

Abstract

本发明提供一种疾病信息挖掘和检索方法、装置、电子设备和存储介质，其中方法包括：获取待挖掘的各医学数据所包含的实体及其实体类别，所述实体类别属于预设类别，预设类别包括疾病、分期、病理、生物标志物和患者基线特征中的至少一种；基于各医学数据中包含的实体及其实体类别，以及预设类别之间的层级关系，构建各医学数据对应的树状图谱；对各树状图谱进行合并，并基于合并后的树状图谱确定对应疾病的分类体系，基于分类体系进行疾病信息挖掘。本发明提供的方法、装置、电子设备和存储介质，基于疾病、分期、病理、生物标志物和患者基线特征等多个层级构建疾病的分类体系，为精准定位适应症、制定医学策略等提供了条件。

Description

疾病信息挖掘和检索方法、装置、电子设备和存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种疾病信息挖掘和检索方法、装置、电子设备和存储介质。

背景技术

国际疾病分类(international Classification of diseases，ICD)是国际统一的疾病分类方法，它根据疾病的特性，将疾病分门别类，使其成为一个有序的组合。

ICD疾病分类主要按照解剖位置展开，分类颗粒度较粗，对于疾病的描述用词也较为宽泛，例如临床上常见的“非小细胞肺癌”，在ICD-10中仅体现为“支气管和肺的恶性肿瘤(肺癌、肺腺癌)”。而随着精准医学的发展，制药企业在新药临床试验中，往往会为其药物选择日趋精准的适应症开展研究。目前的ICD疾病分类体系，已然无法满足精准医学分类需求。

发明内容

本发明提供一种疾病信息挖掘和检索方法、装置、电子设备和存储介质，用以解决现有技术中疾病分类体系无法满足精准医学分类需求的问题。

本发明提供一种疾病信息挖掘方法，包括：

获取待挖掘的各医学数据所包含的实体及其实体类别，所述实体类别属于预设类别，所述预设类别包括疾病、分期、病理、生物标志物和患者基线特征中的至少一种；

基于各医学数据中包含的实体及其实体类别，以及所述预设类别之间的层级关系，构建各医学数据对应的树状图谱；

对各树状图谱进行合并，并基于合并后的树状图谱确定对应疾病的分类体系，基于所述分类体系进行疾病信息挖掘。

根据本发明提供的一种疾病信息挖掘方法，所述对各树状图谱进行合并，包括：

从标准实体字典中选取各树状图谱中的各实体的多个候选标准实体；

基于各树状图谱中的各实体及其多个候选标准实体之间的语义相关度，确定各树状图谱中的各实体的标准实体，并基于各树状图谱中的各实体的标准实体对各树状图谱进行标准化；

对标准化后的各树状图谱进行合并。

根据本发明提供的一种疾病信息挖掘方法，所述从标准实体字典中选取各树状图谱中的各实体的多个候选标准实体，包括：

基于标准实体字典中的各标准实体对于各树状图谱中的各实体的重要度，从所述标准实体字典中选取各树状图谱中的各实体的多个候选标准实体，所述重要度基于TF-IDF算法确定。

根据本发明提供的一种疾病信息挖掘方法，所述各树状图谱中的各实体及其多个候选标准实体之间的语义相关度基于如下步骤确定：

将任一树状图谱中的任一实体与任一候选标准实体拼接后输入到语义匹配模型中，得到所述语义匹配模型输出的所述任一实体与所述任一候选标准实体之间的语义相关度；

所述语义匹配模型是在语言模型的基础上微调得到的。

根据本发明提供的一种疾病信息挖掘方法，所述获取待挖掘的各医学数据所包含的实体及其实体类别，包括：

对图像和/或表格形式的医学数据进行区域分割，得到区域图像；

对所述区域图像进行文字识别，得到区域文本；

对所述区域文本进行预设类别的实体识别，得到各医学数据中包含的实体及其实体类别。

根据本发明提供的一种疾病信息挖掘方法，所述基于所述分类体系进行疾病信息挖掘，包括：

确定各疾病对应的多源数据；

对所述多源数据中的疾病信息文本进行实体识别，得到所述疾病信息文本中包含的实体；

将所述疾病信息文本中包含的实体与所述分类体系中包含的实体进行匹配，并基于匹配结果建立所述疾病信息文本与所述分类体系的连接关系。

根据本发明提供的一种疾病信息挖掘方法，所述将所述疾病信息文本中包含的实体与所述分类体系中包含的实体进行匹配，包括：

将所述疾病信息文本中包含的实体与所述分类体系中包含的当前粒度的实体进行匹配，若匹配未成功，则将所述分类体系中当前粒度的上一粒度更新为当前粒度进行匹配，直至匹配成功或所述当前粒度为所述分类体系中的最大粒度。

本发明提供一种检索方法，包括：

接收用户终端发送的待检索信息；

从疾病信息中，确定与所述待检索信息相关的目标信息，并将所述目标信息返回至所述用户终端，所述疾病信息是基于如上所述的疾病信息挖掘方法确定的。

本发明还提供一种疾病信息挖掘装置，包括：

实体获取单元，用于获取待挖掘的各医学数据所包含的实体及其实体类别，所述实体类别属于预设类别，所述预设类别包括疾病、分期、病理、生物标志物和患者基线特征中的至少一种；

图谱构建单元，用于基于各医学数据中包含的实体及其实体类别，以及所述预设类别之间的层级关系，构建各医学数据对应的树状图谱；

信息挖掘单元，用于对各树状图谱进行合并，并基于合并后的树状图谱确定对应疾病的分类体系，基于所述分类体系进行疾病信息挖掘。

本发明还提供一种检索装置，包括：

接收单元，用于接收用户终端发送的待检索信息；

检索单元，用于从疾病信息中，确定与所述待检索信息相关的目标信息，并将所述目标信息返回至所述用户终端，所述疾病信息是基于如上所述的疾病信息挖掘方法确定的。

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述疾病信息挖掘方法，或检索方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述疾病信息挖掘方法，或检索方法的步骤。

本发明提供的疾病信息挖掘和检索方法、装置、电子设备和存储介质，基于疾病、分期、病理、生物标志物和患者基线特征等多个层级，对医学数据进行实体识别并据此构建疾病的分类体系，由此实现能够满足精准医学需求的细化分类，据此进行疾病信息挖掘所得的结果，对于精准定位适应症、制定医学策略等提供了条件。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图简要地说明，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的疾病信息挖掘方法的流程示意图；

图2是本发明提供的树状图谱合并方法的流程示意图；

图3是本发明提供的疾病信息挖掘方法中步骤110的流程示意图；

图4是本发明提供的实例分割模型的训练样本示意图；

图5是本发明提供的图像类型下的实体获取方法的流程示意图；

图6是本发明提供的表格类型下的实体获取方法的流程示意图；

图7是本发明提供的检索方法的流程示意图；

图8是本发明提供的疾病信息挖掘装置的结构示意图；

图9是本发明提供的检索装置的结构示意图；

图10是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，ICD-10疾病命名规则比较适用于医学临床，并不适用于药物适应症、临床试验等。ICD疾病分类主要按照解剖位置展开，分类颗粒度较粗，对于疾病的描述用词也较为宽泛，例如临床上常见的“非小细胞肺癌”，在ICD-10中仅体现为“支气管和肺的恶性肿瘤(肺癌、肺腺癌)”。而随着精准医学的发展，制药企业在新药临床试验中，往往会为其药物选择日趋精准的适应症开展研究。其临床适应症的定义，已经远远超越ICD-10对疾病的分类原则，颗粒度更细，分类维度更加多样而丰富。

此外，传统新药研发数据库，例如Cortellis、Informa等，会广泛收集全球各种新药的研发动态。这些动态往往来源极为分散，而且多为非结构化数据。为了便于数据整合，这些传统数据库对药物适应症或疾病的定义往往会相对粗线条。举个例子，厚德奥科正在开展LP002的III期临床试验，其适应症为“经抗PD-1或PD-L1单抗治疗后出现疾病进展的局部进展或转移性的黑色素瘤，受试者不可以为来源于眼睛的恶性黑色素瘤”。而各家传统数据库在收录时，会将信息简化处理为，LP002的适应症为“黑色素瘤”，研发进度为临床III期。这种简化处理，对用户了解药物研发趋势、动态是具有足够价值的。但是，对于药企选择新药临床适应症、医学部门制订产品医学策略等，显然是完全无法适用的。

综上，随着医药行业步入精准医学时代，需要建立一套符合精准医学需求的细分疾病体系。

图1是本发明提供的疾病信息挖掘方法的流程示意图，如图1所示，该方法包括：

步骤110，获取待挖掘的各医学数据所包含的实体及其实体类别，所述实体类别属于预设类别，所述预设类别包括疾病、分期、病理、生物标志物和患者基线特征中的至少一种。

此处，待挖掘的医学数据，即可以用于疾病信息挖掘的医学数据，具体可以是临床指南数据、临床试验数据等。

为了便于从医学数据中获取到能够符合精准医学需求的疾病分类体系，可以预先设置在疾病层面下的多个维度的数据标准，即预设类别，预设类别可以包括疾病、分期、病理、生物标志物和患者基线特征中的至少一种，亦可以在上述疾病、分期、病理、生物标志物和患者基线特征中的至少一种的基础上，还包括其他维度的数据标准，例如预设类别可以包括疾病、分期、病理三个维度的数据标准，又例如预设类别可以包括疾病、分期、病理、生物标志物和患者基线特征共五个维度的数据标准。

其中，疾病即被诊断的疾病，以肺癌为例，疾病可以是非小细胞肺癌、小细胞肺癌等；分期包括临床分期，更进一步地基于肿瘤还有TNM分期，例如癌症的分期用来说明癌细胞是否扩散，如0期、I期、II期、III期或者IV期(0期和I期预后好，而IV期就是通常说的晚期癌症，说明癌细胞已经转移到了其它组织或器官)；病理即疾病发生发展的过程和原理，对于肺癌而言病理可以是腺癌、鳞癌等；生物标志物指可以标记系统、器官、组织、细胞及亚细胞结构或功能的改变或可能发生的改变的生化指标，如EGFR外显子20插入、KRAS G12C突变等；患者基线特征是研究人群在前瞻性研究中最开始时的健康状况，是研究对象在接受试验组或对照组干预措施前的初始状况，基线特征常常包括社会人口学特征、临床特征、实验室检查指标、以及疾病史和用药史等内容，如≥18岁、既往接受≥1线化疗等。

上述多个维度的预设类别，可以从不同方向对疾病进行细颗粒度的分类。据此，可以在确定待挖掘的医学数据之后，获取各医学数据中包含的上述各预设类别的实体，并且基于各医学数据的表示结构确定各医学数据中包含的上述各预设类别的实体之间的关系。

此处，获取医学数据所包含实体的方式，可以是通过实体识别实现，也可以通过规则匹配或者其他能够进行实体提取的方式实现，本发明实施例对此不作具体限定。医学数据中包含的上述各预设类别的实体之间的关系均是针对单一医学数据中包含的各实体而言的，且医学数据的表示结构可以视医学数据的数据类型而定，例如文本类型的医学数据，其表示结构可以根据文本中的大纲章节确定，图像或者表格类型的医学数据，其表示结构可以根据图像或者表格中各文字区域之间的位置关系确定，本发明实施例对此不作具体限定。

步骤120，基于各医学数据中包含的实体及其实体类别，以及所述预设类别之间的层级关系，构建各医学数据对应的树状图谱。

具体地，上述多个维度的预设类别，存在预先设置的层级关系，例如疾病可以是第一级，以此类推分期、病理、生物标志物和患者基线特征分别为第二级、第三级、第四级和第五级，逐级进行疾病分类的粒度细化。

以任一医学数据为例，可以将该医学数据中包含的各个实体的实体类别，与预先设定好的预设类别之间的层级关系进行对应，从而按照预设类别之间的层级关系，实现该医学数据中包含的各个实体的层级连接，得到该医学数据对应的树状图谱。

此处的树状图谱，即多叉树结构的图谱，例如树状图谱中可分有5层节点，对应于疾病、分期、病理、生物标志物和患者基线特征，每层节点均与上一层节点连接，由此得到的树状图谱中，第一层为疾病，第二层为疾病+分期，第三层为疾病+分期+病理，第四层为疾病+分期+病理+生物标志物，第五层为疾病+分期+病理+生物标志物+患者基线特征。其中，最底层的节点，即疾病+分期+病理+生物标志物+患者基线特征的表现方式，能够对于疾病进行细粒度的划分，以满足精准医学需求。

步骤130，对各树状图谱进行合并，并基于合并后的树状图谱确定对应疾病的分类体系，基于所述分类体系进行疾病信息挖掘。

具体地，各医学数据可以反映相同或者不同疾病的医学信息，且在反映同一疾病的医学信息时，各医学数据自己反映医学信息中不全面之处，可在其他医学数据中补全。例如针对同一疾病可能存在多个不同版本的临床指南数据，从而对应多个不同版本的临床指南数据的树状图谱。因此，在得到各医学数据的树状图谱之后，可以相同疾病下的树状图谱进行合并，合并之后的树状图谱能够更加全面地反映该种疾病在疾病、分期、病理、生物标志物和患者基线特征下的细分情况，可以将经过相同疾病合并之后的树状图谱作为该该种疾病的分类体系，从而能够从上述多个层次下实现对于该种疾病的细粒度划分。

在完成疾病分类体系的构建之后，即可在细粒度的分类体系下，关联各种来源的医学知识中与对应粒度的疾病相关的信息，从而实现基于分类体系的疾病信息挖掘。

本发明实施例提供的方法，基于疾病、分期、病理、生物标志物和患者基线特征等多个层级，对医学数据进行实体识别并据此构建疾病的分类体系，由此实现能够满足精准医学需求的细化分类，据此进行疾病信息挖掘所得的结果，对于精准定位适应症、制定医学策略等提供了条件。

在完成细粒度的疾病分类体系划分之后，亦会存在随之而来的问题，过细的适应症信息追踪、关联匹配，意味着更为庞大的追踪与数据维护成本。具体在疾病相关信息的匹配过程中，字符串越短，机器或人工匹配数据的准确度越高。过长过细的疾病命名，对机器匹配数据也带来较大困扰，无法采用已知方法实现良好的数据清洗与匹配效果。因此，还需要建立一套与之相适应的细分疾病数据清洗与匹配方法。

基于上述实施例，图2是本发明提供的树状图谱合并方法的流程示意图，如图2所示，步骤130中，对各树状图谱进行合并，包括：

步骤131，从标准实体字典中选取各树状图谱中的各实体的多个候选标准实体。

具体地，由于同一实体可能存在多种不同表达方式(例如，非小细胞肺癌，Non-Small Cell Lung Cancer)，因此需要对树状图谱中的各实体和对应的细分维度的标准实体字典中的标准实体词进行匹配，以实现树状图谱的标准化。

标准实体字典即由标准化的实体构成的字典，此处的标准实体字典可以涵盖上述包含疾病、分期、病理、生物标志物和患者基线特征在内的各个维度的标准化实体，也可以划分不同维度或者不同维度下某一预设类别的标准实体字典，例如可以包括标准疾病字典，标准疾病+分期字典，以及标准疾病+分期+病理字典，又例如可以包含标准疾病字典、标准疾病+分期字典、标准疾病+分期+病理字典、标准疾病+分期+病理+生物标志物字典以及标准疾病+分期+病理+生物标志物+患者基线特征字典。

在得到各树状图谱之后，即可基于各树状图谱中的各实体，从标准实体字典中选取各实体所对应的候选标准实体，具体可以是直接将标准实体字典中的所有实体或者相同实体类别的实体作为候选标准实体，也可以是将标准实体字典中与树状图谱中的实体在文本表示上类似的实体作为候选标准实体，本发明实施例对此不作具体限定。

此处，针对树状图谱中各实体选取得到的候选标准实体，可以理解为可能是树状图谱中实体的标准化表示方式的实体。候选标准实体的选取，能够有效缩小后续对树状图谱中的实体进行标准化所需的计算量。

步骤132，基于各树状图谱中的各实体及其多个候选标准实体之间的语义相关度，确定各树状图谱中的各实体的标准实体，并基于各树状图谱中的各实体的标准实体对各树状图谱进行标准化。

具体地，在得到树状图谱中各实体的候选标准实体之后，针对其中任一树状图谱中的任一实体，可以计算该实体及其各候选标准实体之间的语义相关度，此处的语义相关度用于反映该实体及其候选标准实体所反映语义的相关程度，具体可以分别对该实体及其候选标准实体进行语义编码，并基于编码所得的语义特征进行相关度计算，或者将该实体及其候选标准实体均输入到预先训练好的相关度计算模型中，以获取两者之间的语义相关度。

在得到树状图谱中的任一实体与该实体的各个候选标准实体之间的语义相关度，即可据此确定该实体的标准实体，例如可以从各候选标准实体中选取语义相关度最高的候选标准实体作为该实体的标准实体，或者从各候选标准实体中选取语义相关度大于预设阈值的候选标准实体作为该实体的标准实体，本发明实施例对此不作具体限定。

基于上述方式，即可得到各树状图谱中各实体的标准实体，应用标准实体替换对应实体，即可实现各树状图谱的标准化。

步骤133，对标准化后的各树状图谱进行合并。

具体地，完成标准化之后的各树状图谱中，各实体在表达相同的疾病分类时，其表述形式是一致的。此时再进行树状图谱合并，仅需要比对是否存在对应节点即可，例如可以将任一标准化后的树状图谱为基准，遍历相同疾病的标准化后的树状图谱，查看作为基准的树状图谱中是否存在遍历到的树状图谱中的各分期，如果不存在，则将遍历到的树状图谱中的分期的子树添加到作为基准的树状图谱中，如果存在，则继续查看该分期下的病理层级，以此类推直到所有叶子节点均完成遍历。

本发明实施例提供的方法，应用语义相关度进行实体匹配，有效避免了过长过细的疾病命名匹配为计算资源和匹配准确率带来的困扰，解决了细粒度的疾病命名匹配问题。

基于上述任一实施例，步骤131包括：

具体地，在从标准实体字典中筛选各树状图谱中的各实体的候选标准实体时，针对任一树状图谱中的任一实体而言，可以根据TF-IDF(term frequency–inverse documentfrequency)算法计算标准实体字典中的各标准实体对于该实体的重要度，并据此选取该实体的候选标准实体。此处，可以基于标准实体字典中的各标准实体对于该实体的重要度，选取重要度排名靠前的预设数量个标准实体，作为该实体的候选标准实体，还可以基于标准实体字典中的各标准实体对于该实体的重要度建立倒排索引，并结合建立的倒排索引和BM25算法，选取预设数量个标准实体作为该实体的候选标准实体。此处的预设数量可以是10、15或者20等。

特别地，如果通过上述方式无法得到实体的候选标准实体，即认为该实体无效。

基于上述任一实施例，步骤132中，所述各树状图谱中的各实体及其多个候选标准实体之间的语义相关度基于如下步骤确定：

所述语义匹配模型是在语言模型的基础上微调得到的。

此处，语义匹配模型用于对输入的两个实体进行语义匹配，并输出此两者的语义相关度。具体在对任一树状图谱中的任一实体与任一候选标准实体进行拼接时，可以采用[CLS]m[SEP]c的形式，其中m为树状图谱中的实体，c为该实体的候选标准实体，[CLS]为定界符，[SEP]为分隔符。

语义匹配模型可以是在语言模型的基础上微调得到的，此处的语言模型可以是预训练的BERT(Bidirectional Encoder Representation from Transformers)模型。由此得到的语义匹配模型，可以通过微调后的BERT模型对输入的[CLS]m[SEP]c进行语义提取，并将语义提取得到的[CLS]的向量输入到分类器中得到分类得分，即语义相关度。

在此之后，可以将语义相关度最高的候选标准实体作为该实体的标准实体。特别地，如果候选标准实体的语义相关度的最大值小于预设阈值，则认为该实体无效。此处的预设阈值，可以是人为设定的，也可以通过一个额外的标准测试集上的准确率进行确定。

本发明实施例提供的方法，通过TF-IDF算法和语义匹配模型对各实体进行标准实体匹配，有效避免了过长过细的疾病命名匹配为计算资源和匹配准确率带来的困扰，解决了细粒度的疾病命名匹配问题，保证了实体匹配的可靠性和准确性。

基于上述任一实施例，步骤130中的标准实体字典，可以包括3个层级的字典，即标准疾病字典，标准疾病+分期字典，以及标准疾病+分期+病理字典，也可以包括5个层级的字典，即标准疾病字典、标准疾病+分期字典、标准疾病+分期+病理字典、标准疾病+分期+病理+生物标志物字典以及标准疾病+分期+病理+生物标志物+患者基线特征字典。

上述标准实体字典，可以通过如下步骤获取：

首先，构建标准疾病字典、生物标志物字典；其次，基于每种疾病，构建每种疾病下对应的分期、病理、患者基线特征的标准字典。

具体地，

标准疾病字典：至少包括疾病中文名称、疾病英文名称、疾病缩写等；如，非小细胞肺癌，Non-Small Cell Lung Cancer，NSCLC。

病理字典：至少包括疾病名称、病理中文名、病理英文名、病理名称异名；如，非小细胞肺癌，鳞癌，squamous cell carcinoma，鳞状细胞癌。

生物标志物字典：至少包括生物标志物中文名称、英文名称、异名等；如：EGFR外显子20插入，EGFR exon 20insertion，EGFR ex 20插入。

分期字典：至少包括：疾病名称、疾病分期(进一步，基于肿瘤还包括TNM分期)；如：

疾病名称	分期	T分期	N分期	M分期
					小细胞肺癌	局限期	T1a\|T1mi\|T2a\|T3\|Tis\|T1b\|T1c\|T2b\|T4	N0\|N1\|N3\|N2	M0
小细胞肺癌	广泛期	T1a\|T1b\|T1c\|T2a\|T2b\|T3\|T4	N0\|N1\|N2\|N3	M1a\|M1b\|M1c

患者基线字典：至少包括疾病名称、患者基线特征中文、患者基线特征英文、异名；如：

疾病名称	患者基线特征	患者基线特征(英文)
			非小细胞肺癌	切缘阳性(R1)	margins positive(R1)
非小细胞肺癌	耐受手术	Operable

表中还可以包括患者基线特征的异名，如寡转移，寡进展。

基于上述任一实施例，针对文本形式的医学数据，步骤110包括：

获取所述医学数据中各语段的结构类型；

基于所述结构类型为主标题的语段，确定所述医学数据中包含的疾病，基于所述结构类型为次级标题的语段，确定所述医学数据的诊疗流程；

对所述结构类型为正文的语段进行预设类别的实体识别，确定所述医学数据中包含的实体及其实体类别。

具体地，在医学数据的数据类型为文本的情况下，医学数据中通常包含了疾病相关信息，其中疾病相关信息可以包括：疾病分型、病理、临床分期、生物标志物、患者基线特征中至少一个。因此，可以通过对医学数据中各语段进行结构分类，确定医学数据中各语段的结构类型，此处的结构分类可以是基于各语段的语义，或者基于各语段在医学数据中的位置、字体、大小、是否加粗等特征，进行分类得到的，由此得到的语段的结构类型可以是主标题、次级标题、三级标题或者正文等。具体进行结构分类，可以是根据预先设定好的规则进行规则匹配得到，也可以是输入到预先训练好的分类模型中得到输出，本发明实施例对此不作具体限定。

根据文本类型的医学数据中常见的排版方式，通常主标题的语段用于说明疾病名称，或者携带有疾病名称，主标题语段下的次级标题的语段，通常用于说明该主标题所指示疾病名称的诊疗流程，次级标题下的正文语段，通常用于说明该次级标题对应诊疗流程中的具体治疗方案。

基于上述排版方式，在得到各语段的结构类型之后，即可从中筛选出结构类型为主标题的语段，并将主标题确定为该医学数据中的疾病，随后将该主标题语段下的各个次级标题的语段，分别确定为该疾病下的诊疗流程。

接着，针对各个次级标题下的正文语段，可以通过实体提取的方式，获取正文语段中的实体，并基于此确定对应诊疗流程下的治疗方案，其中通常包含了疾病相关信息中各预设类别的实体。此处，进行实体提取可以通过mBert模型实现。

在完成上述实体识别之后，即可基于医学数据的疾病相关信息中的各预设类别的实体，构建医学数据的树状图谱。

基于上述任一实施例，图3是本发明提供的疾病信息挖掘方法中步骤110的流程示意图，如图3所示，步骤110包括：

步骤111，对图像和/或表格形式的医学数据进行区域分割，得到区域图像；

步骤112，对所述区域图像进行文字识别，得到区域文本；

步骤113，对所述区域文本进行预设类别的实体识别，得到各医学数据中包含的实体及其实体类别。

具体地，在医学数据的数据类型为图像的情况下，常见的排版方式是将医学数据中的医学内容以多叉树的形式呈现，而图像形式的医学数据亦可以理解为多叉树的图像，多叉树可以按照层级划分区域，因此针对图像类型的医学数据，可以进行区域分割。

此外，在医学数据的数据类型为表格的情况下，获取得到的表格形式的医学数据本质上依然是包含有表格的图像，相似地，可以将表格形式的医学数据理解为包含表格的图像，表格可以按照层级划分区域，即划分单元格，因此针对表格类型的医学数据，可以进行区域分割。

此处的区域划分，可以应用预先训练得到的实例分割模型实现，实例分割模型可以从图像中分割出包含疾病相关信息的区域，并且输出区域在图像中的位置，从而基于区域在图像中的位置截取该区域对应的区域图像，即得到区域图像。此处用于训练实例分割模型的训练样本如图4所示，即可以在图像形式的样本医学数据的多叉树上，人工标注出多叉树的每个节点所在的区域(图中以虚线框的形式示出)，此外还可以标注各节点所处的层级(图中以每列虚线框上方的“层级1”、……、“层级4”示出)，其中，层级1为最高层级，靠后序号的层级为靠前序号层级的下层，此处的层级可以理解为疾病、分期、病理、生物标志物和患者基线特征等维度的对应标识。由此训练所得的实例分割模型，不仅可以对图像进行区域分割，并且可以对输出区域进行层级分类，从而能够由此确定图像中包含的各区域图像，以及各区域图像所属的维度类别。

在完成区域分割之后，即可对分割所得的各区域图像进行文字识别(OpticalCharacter Recognition，OCR)，从而得到各区域图像中包含的文字，作为对应预设层级的区域文本。

在此基础上，对各区域文本进行预设类别的实体识别，得到各医学数据中包含的实体及其实体类别。此处的实体类别，即实体识别所得实体的类别，可以是在实体识别的过程中得到的，也可以是根据区域分割所得的区域对应的层级确定的，本发明实施例对此不作具体限定。

进一步地，预设类别的实体识别，可以应用IOB(inside，outside，begin)的方式对识别所得的实体及其实体类别进行标注，由此同时实现实体提取和实体分类，各预设类别的实体标注分别对应：

疾病B-DISEASE I-DISEASE

分期B-STAGE I-STAGE

病理B-PATHOLOGY I-PATHOLOGY

生物标志物B-BIOMARKER I-BIOMARKER

患者基线特征B-BASELINE I-BASELINE

不属于实体O

此外，上述标注方式还可以应用到文本类型的医学数据的实体识别中，本发明实施例对此不作具体限定。

例如，图5是本发明提供的图像类型下的实体获取方法的流程示意图，如图5所示，一个包含了多叉树的图像类型的医学数据，可以通过区域分割，得到图像中各区域位置，即各区域的掩膜mask，图5中分割得到的图像中黑色部分为掩膜，白色部分即分割所得的区域。在此基础上，进行图像剪裁，即可得到各区域图像，随后对上述各区域图像分别进行OCR识别，即可得到各区域图像中包含的区域文本，从而对各区域文本进行预设类别的实体识别，得到医学数据中包含的实体及其实体类别，据此实现医学数据的树状图谱构建。

基于上述任一实施例，在所述医学数据的数据类型为表格的情况下，步骤111包括：

对所述医学数据进行表格结构识别，得到所述医学数据的行列坐标；

基于所述行列坐标，对所述医学数据进行单元格分割，得到各单元格所对应的区域图像。

具体地，相较于图像类型的医学数据，表格类型的医学数据更加清晰地通过表格行列的形式对疾病相关信息进行了分割，因此在医学数据的数据类型为表格的情况下，对医学数据进行区域分割，可以延用表格本身的行列信息进行分割，具体可以对医学数据进行表格结构识别，从而定位医学数据的表格中本身具备的表格行列的位置，即行列坐标。此处，表格结构识别可以通过预先训练的表格识别模型实现，由此得到的行列坐标亦可以视为是表格中每个单元格的坐标。

在此基础上，即可基于行列坐标，对医学数据进行单元格分割，从而得到每个单元格的区域图像，此处的区域图像亦可以对应有预设层级。此处，单元格与预设层级之间的对应关系可以是预先设定好的，考虑到医学数据的表格形式相对单一，因此可以预先规定好不同表格中不同位置的单元格分别对应的预设层级，从而可以在完成单元格的定位分割之后，直接确定与该单元格对应的预设层级。

例如，针对表格类型的医学数据，可通过图6示出的流程，通过表格识别和图片裁剪得到每个单元格的区域图像，据此通过OCR识别得到各区域图像中包含的区域文本，从而对各区域文本进行预设类别的实体识别，得到医学数据中包含的实体及其实体类别，据此实现医学数据的树状图谱构建。

在完成针对疾病的分类体系构建之后，即可基于分类体系进行疾病信息挖掘，从而打通各个来源的数据之间的信息壁垒，实现多源信息的挖掘和整合。基于上述任一实施例，步骤130中，所述基于所述分类体系进行疾病信息挖掘，包括：

确定各疾病对应的多源数据；

具体地，以任一疾病为例，该疾病可以对应多源数据，此处的多源数据可以包括多个来源的数据，例如临床试验数据、临床结果数据、药品注册数据、流行病学数据、资讯数据中的任意多种。上述各个来源的数据中均包含对疾病进行描述的文本，即疾病信息文本，在得到多源数据之后，可以根据多源数据中各来源数据自身的数据结构，定位到多源数据中各来源数据的疾病信息文本。

在此基础上，即可对多源数据中的疾病信息文本进行实体识别，从而得到疾病信息文本中包含的实体。在得到疾病信息文本中包含的实体之后，即可将疾病信息文本中包含的实体与该疾病对应的分类体系中包含的实体进行匹配，以定位疾病信息文本中包含的实体在分类体系中的位置，即得到疾病信息文本中包含的实体在分类体系中相匹配的实体，并由此建立起相互匹配的两个实体之间的连接关系，即建立起分类体系中的节点与多源数据中的疾病信息文本之间的连接关系，从而在用户查询到分类体系中的某个节点时，可以连带得到与该节点存在连接关系的疾病信息文本所表述的信息。

并且，由于分类体系建立起了与多源数据中不同来源数据的疾病信息文本之间的连接关系，不同来源的数据也在分类体系这一基准下得以交互融合，从而打破了不同来源数据之间的信息壁垒，能够帮助用户筛选出有潜在研发机会的适应症，以降低研发风险和成本。

基于上述任一实施例，多源数据中的疾病信息文本，可以通过如下步骤确定：

针对多源数据中的临床试验数据，可以通过定位关键词“Condition ordisease”、“Inclusion Criteria”或者上述关键词的同义词，确定疾病信息文本，例如将上述关键词或者关键词的同义词所在的段落或者所在段落的邻段，作为疾病信息文本。

针对多源数据中的临床结果数据，可以先定位临床结果数据中的摘要部分，并且判断摘要部分的结构，如果摘要部分是4段式摘要，即包括introduction or background、Methods、Results、Conclusion4段，则将其中的“Methods”作为疾病信息文本；如果摘要部分是一段式，即可对一段式摘要进行文本分类，从而区分一段式摘要中的introduction orbackground、Methods、Results、Conclusion四部分内容，并将其中被分类为Methods的文本确定为疾病信息文本。

针对多源数据中的药品说明书，可以通过定位关键词“Indication and Usage”，将上述关键词所在的段落或者所在段落的邻段，作为疾病信息文本。

由此得到的与疾病的分类体系相关联的疾病信息文本，可以涵盖药品说明书中获取的上市药品数据，临床数据中获取的在研药物、对照组药物，临床试验结果数据获取的在研药物的疗效数据(长期或短期获益率，例如肿瘤患者的客观缓解率ORR)、不良反应数据、不良反应发生率(尤其是严重不良反应)，从流行病学文献中获取发明率、患者人数、就诊率、发病人数历年变化趋势等信息。

此外，还可以基于临床试验数据、临床试验结果数据获取临床结果评价，并进一步计算其临床结果成功率，在此基础上将临床结果评价和临床结构成功率与分类体系下的细分适应症之间建立连接关系。

基于上述任一实施例，所述将所述疾病信息文本中包含的实体与所述分类体系中包含的实体进行匹配，包括：

具体地，疾病信息文本与分类体系之间的连接关系的建立，需要依赖疾病信息文本中的实体和分类体系中的实体进行匹配实现：

此处针对任意两个实体的匹配方式，可以参见对同一疾病下各医学数据的树状图谱进行合并时所采用的方法，即先通过TF-IDF算法计算标准实体字典中各标准实体对于需要匹配的实体的重要度，从而从标准实体字典中选取出需要匹配的实体的多个候选标准实体，再将需要匹配的实体及其多个候选标准实体成对拼接输入到语义匹配模型中，以计算需要匹配的实体和各候选标准实体之间的语义相关度，并将语义相关度最高的候选标准实体确定为需要匹配的实体的标准实体，从而实现需要匹配的实体的标准化，此后可以通过判断标准化之后的实体与分类体系中的实体是否一致，判断此两者是否匹配成功。

在将疾病信息文本中的实体与分类体系中的各实体进行匹配的过程中，可以逐层进行匹配，即优选采用下位细分疾病进行匹配，首先从最细粒度，即最低层级的实体开始进行匹配，或者也可以认为从分类体系所对应的多叉树的叶子节点处开始匹配，如果在当前粒度或者层级上未能得到与疾病信息文本中的实体相匹配的实体，即可进一步应用当前粒度或者层级的上一粒度或者层级上的实体进行配，直至匹配成功或分类体系遍历完成。

基于上述任一实施例，图7是本发明提供的检索方法的流程示意图，如图7所示，该方法包括：

步骤710，接收用户终端发送的待检索信息。

步骤720，从疾病信息中，确定与所述待检索信息相关的目标信息，并将所述目标信息返回至所述用户终端，所述疾病信息是基于上述疾病信息挖掘方法确定的。

具体地，各种版本、各种来源的医学数据，可以通过上述实施例进行分类体系建立并就此进行疾病信息挖掘，从而实现细粒度疾病分类下的疾病信息梳理。与细粒度的分类体系关联的疾病信息，为进行信息查找定位和筛查存在潜在研发机会的适应症提供了便利。并且，在此基础上，可以构建检索系统，以便于疾病信息的快速查找。

用户可以通过智能手机、电脑、平板电脑等形式的用户终端输入待检索信息，并且将待检索信息发送到用于检索的服务端。此处的待检索信息可以是上述疾病、分期、病理、生物标志物和患者基线特征5个维度中任意一个或者多个维度下的信息，也可以是针对疾病的描述性语句，本发明实施例对此不作具体限定。

在接收到待检索信息后，即可从待检索信息中提取得到各个维度的待检索实体，然后从疾病信息挖掘得到的与各疾病的分类体系关联的疾病信息中，确定出与待检索信息相关的目标信息，例如，针对包含了各个维度下的信息的待检索信息，可以直接基于其中各维度下的实体，在各疾病的分类体系中查找对应的目标适应症，并将与目标适应症之间存在连接关系的疾病信息文本与目标适应症一并作为目标信息；又例如，针对包含了描述性语句的待检索信息，可以对描述性语句进行语义提取，从而得到描述性语句中涉及的待检索实体，在各疾病的分类体系中查找对应的目标适应症，并将与目标适应症之间存在连接关系的疾病信息文本与目标适应症一并作为目标信息。

进一步地，在从疾病信息中确定目标信息的过程中，上述疾病信息挖掘方法中确定的各疾病的分类体系中的各细分适应症，均可以作为检索时的主字段、主库表或者主索引，从而构建疾病临床需求、药物疗效评价、药物审评模型、药品研发竞争格局等数据产品，便于用户快速检索查询上述各种信息。

此处的目标信息可以包含待检索信息所指的目标适应症下对应的多源的疾病信息文本，例如可以包含目标适应症下对应的已上市药物数据、临床试验数据、临床结果数据、流行病学数据等，具体可以包含药品说明书中获取的上市药品数据，临床数据中获取的在研药物、对照组药物，临床试验结果数据获取的在研药物的疗效数据(长期或短期获益率，例如肿瘤患者的客观缓解率ORR)、不良反应数据、不良反应发生率(尤其是严重不良反应)，从流行病学文献中获取发明率、患者人数、就诊率、发病人数历年变化趋势等信息中的一种或者多种，还可以包含临床结果评价或者和临床结果成功率等。此处，目标信息所包含的信息来源亦可以由用户基于使用目的可自行选择需要，本发明实施例对此不作具体限定。

在得到目标信息之后，即可将目标信息返回到用户终端，此后用户即可通过用户终端查看待检索信息相对应的目标信息，从而筛选尚未满足临床需求、存在潜在研发机会的适应症、高效制定医学策略等，达到降低研发风险和成本的目的。此外，针对目标信息中涵盖的信息，可以对同基线水平药物安全性、疗效和临床试验成功率数据进行分析统计，实现药物智能审评，助力新药开发。

基于上述任一实施例，图8是本发明提供的疾病信息挖掘装置的结构示意图，如图8所示，该装置包括：

实体获取单元810，用于获取待挖掘的各医学数据所包含的实体及其实体类别，所述实体类别属于预设类别，所述预设类别包括疾病、分期、病理、生物标志物和患者基线特征中的至少一种；

图谱构建单元820，用于基于各医学数据中包含的实体及其实体类别，以及所述预设类别之间的层级关系，构建各医学数据对应的树状图谱；

信息挖掘单元830，用于对各树状图谱进行合并，并基于合并后的树状图谱确定对应疾病的分类体系，基于所述分类体系进行疾病信息挖掘。

本发明实施例提供的装置，基于疾病、分期、病理、生物标志物和患者基线特征等多个层级，对医学数据进行实体识别并据此构建疾病的分类体系，由此实现能够满足精准医学需求的细化分类，据此进行疾病信息挖掘所得的结果，对于精准定位适应症、制定医学策略等提供了条件。

基于上述任一实施例，信息挖掘单元830包括合并子单元，用于：

对标准化后的各树状图谱进行合并。

基于上述任一实施例，合并子单元用于：

基于上述任一实施例，合并子单元还用于：

所述语义匹配模型是在语言模型的基础上微调得到的。

基于上述任一实施例，实体获取单元810用于：

对所述区域图像进行文字识别，得到区域文本；

基于上述任一实施例，信息挖掘单元830包括挖掘子单元，用于：

确定各疾病对应的多源数据；

基于上述任一实施例，挖掘子单元用于：

基于上述任一实施例，图9是本发明提供的检索装置的结构示意图，如图9所示，该装置包括：

接收单元910，用于接收用户终端发送的待检索信息；

检索单元920，用于从疾病信息中，确定与所述待检索信息相关的目标信息，并将所述目标信息返回至所述用户终端，所述疾病信息是基于疾病信息挖掘方法确定的。

本发明实施例提供的装置。通过待检索信息检索相对应的目标信息，从而帮助用户筛选尚未满足临床需求、存在潜在研发机会的适应症、高效制定医学策略，达到降低研发风险和成本的目的。

图10示例了一种电子设备的实体结构示意图，如图10所示，该电子设备可以包括：处理器(processor)1010、通信接口(Communications Interface)1020、存储器(memory)1030和通信总线1040，其中，处理器1010，通信接口1020，存储器1030通过通信总线1040完成相互间的通信。处理器1010可以调用存储器1030中的逻辑指令，以执行疾病信息挖掘方法，该方法包括：

此外，处理器1010可以调用存储器1030中的逻辑指令，以执行检索方法，该方法包括：

接收用户终端发送的待检索信息；

从疾病信息中，确定与所述待检索信息相关的目标信息，并将所述目标信息返回至所述用户终端，所述疾病信息是基于疾病信息挖掘方法确定的。

此外，上述的存储器1030中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的疾病信息挖掘方法，该方法包括：

计算机还能够执行上述各方法所提供的检索方法，该方法包括：

接收用户终端发送的待检索信息；

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的疾病信息挖掘方法，该方法包括：

该计算机程序被处理器执行时实现以执行上述各提供的检索方法，该方法包括：

接收用户终端发送的待检索信息；

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种疾病信息挖掘方法，其特征在于，包括：

2.根据权利要求1所述的疾病信息挖掘方法，其特征在于，所述对各树状图谱进行合并，包括：

对标准化后的各树状图谱进行合并。

3.根据权利要求2所述的疾病信息挖掘方法，其特征在于，所述从标准实体字典中选取各树状图谱中的各实体的多个候选标准实体，包括：

4.根据权利要求2所述的疾病信息挖掘方法，其特征在于，所述各树状图谱中的各实体及其多个候选标准实体之间的语义相关度基于如下步骤确定：

所述语义匹配模型是在语言模型的基础上微调得到的。

5.根据权利要求1至4中任一项所述的疾病信息挖掘方法，其特征在于，所述获取待挖掘的各医学数据所包含的实体及其实体类别，包括：

对所述区域图像进行文字识别，得到区域文本；

6.根据权利要求1至4中任一项所述的疾病信息挖掘方法，其特征在于，所述基于所述分类体系进行疾病信息挖掘，包括：

确定各疾病对应的多源数据；

7.根据权利要求6所述的疾病信息挖掘方法，其特征在于，所述将所述疾病信息文本中包含的实体与所述分类体系中包含的实体进行匹配，包括：

8.一种检索方法，其特征在于，包括：

接收用户终端发送的待检索信息；

从疾病信息中，确定与所述待检索信息相关的目标信息，并将所述目标信息返回至所述用户终端，所述疾病信息是基于如权利要求1至7中任一项所述的疾病信息挖掘方法确定的。

9.一种疾病信息挖掘装置，其特征在于，包括：

10.一种检索装置，其特征在于，包括：

接收单元，用于接收用户终端发送的待检索信息；

检索单元，用于从疾病信息中，确定与所述待检索信息相关的目标信息，并将所述目标信息返回至所述用户终端，所述疾病信息是基于如权利要求1至7中任一项所述的疾病信息挖掘方法确定的。