CN113963804A

CN113963804A - 医学数据关系挖掘方法及装置

Info

Publication number: CN113963804A
Application number: CN202111306561.0A
Authority: CN
Inventors: 焦增涛
Original assignee: Tianjin Happy Life Technology Co ltd; Tianjin Xinkaixin Life Technology Co ltd
Current assignee: Beijing Yiyiyun Technology Co ltd
Priority date: 2018-11-09
Filing date: 2018-11-09
Publication date: 2022-01-21
Also published as: CN109300550B; CN109300550A

Abstract

本发明是关于一种医学数据关系挖掘方法及装置、电子设备和计算机可读介质。该方法包括：获取目标文本中的第一医学数据和第二医学数据，第一医学数据和第二医学数据通过实体识别算法从目标文本中抽取出来；获取第一医学数据的本身特征、第二医学数据的本身特征、第一医学数据和第二医学数据的周边文本特征、句法依存分析特征和句子形态特征中的至少一种，以获得第一医学数据和第二医学数据的特征向量；将特征向量输入至训练好的分类模型，判定第一医学数据和第二医学数据之间的目标关系。本发明能够高效地识别出临床病例文本中的医学数据之间的关系，提升了医学数据关系挖掘的效率，以利于进一步的数据统计分析。

Description

医学数据关系挖掘方法及装置

本申请是以2018年11月09日提交的题为“医学数据关系挖掘方法及装置”的中国专利申请201811330207.X的分案申请。

技术领域

本发明涉及医疗信息抽取领域，具体而言，涉及一种医学数据关系挖掘方法及医疗处理装置、电子设备和计算机可读介质。

背景技术

临床病例文本中，许多信息是以长文本的形式记录，不便于后续的统计分析任务。临床病例结构化可以解决这类技术问题。其中，医学术语在长文本中的关系挖掘是临床数据结构化非常重要的一个步骤。

现有技术中，存在人工抽象规则的方法和基于自然语言处理中文本句法依存分析的方法进行医学数据关系挖掘。

但上述人工抽象规则的方法中人工规则是一种一刀切的方法，效果依赖于规则的细致程度。上述基于自然语言处理中文本句法依存分析的方法，针对特定领域训练的话，标注成本非常高，所以在临床病例中很少有直接的应用。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本发明的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明的目的在于提供一种医学数据关系挖掘方法及医学数据关系挖掘装置，能够高效地识别出临床病例文本中的医学数据之间的关系，提升了医学数据关系挖掘的效率。

根据本发明的一个方面，提供一种医学数据关系挖掘方法，包括：获取目标文本中的第一医学数据和第二医学数据，所述第一医学数据和所述第二医学数据通过实体识别算法从所述目标文本中抽取出来；获取所述第一医学数据的本身特征、所述第二医学数据的本身特征、所述第一医学数据和所述第二医学数据的周边文本特征、句法依存分析特征和句子形态特征中的至少一种，以获得所述第一医学数据和所述第二医学数据的特征向量；将所述特征向量输入至训练好的分类模型，判定所述第一医学数据和所述第二医学数据之间的目标关系。

在本发明的一种示例性实施例中，所述目标关系包括否定词与医学数据关系、时间与医学数据关系、数值与医学数据关系、解剖部位与医学数据关系、动作与医学数据关系、亲属与医学数据关系中的任意一种。

在本发明的一种示例性实施例中，所述第一医学数据的本身特征包括以下特征中的至少一种：所述第一医学数据是否为一个诊断；所述第一医学数据是否为一个解剖部位；所述第一医学数据是否为一个症状；所述第一医学数据是否为一个病变词；所述第一医学数据是否为否定词；所述第一医学数据是否包含动词；所述第一医学数据是否包含数字；所述第一医学数据是否长度是否大于预设字节；所述第一医学数据是否包含时间词。

在本发明的一种示例性实施例中，所述周边文本特征包括所述第一医学数据的前面信息文本特征、所述第二医学数据的后面信息文本特征、所述第一医学数据和所述第二医学数据之间文本特征中的至少一种。

在本发明的一种示例性实施例中，所述第一医学数据的前面信息文本特征包括以下特征中的至少一种：所述第一医学数据前面预设个词内是否有句号；所述第一医学数据前面所述预设个词内是否有逗号；所述第一医学数据前面所述预设个词内是否有空格或者顿号；所述第一医学数据前面所述预设个词内是否有否定词；所述第一医学数据前面所述预设个词内是否有只向后作用否定词；所述第一医学数据前面所述预设个词内是否有“伴”；所述第一医学数据前面所述预设个词内是否有“偶”；所述第一医学数据前面所述预设个词内是否有省略词；所述第一医学数据前面所述预设个词内是否有表示行为的动词；所述第一医学数据前面所述预设个词内是否有诊断；所述第一医学数据前面所述预设个词内是否有解剖部位；所述第一医学数据前面所述预设个词内是否症状；所述第一医学数据前面所述预设个词内是否有病变词；所述第一医学数据前面所述预设个词内是否有连续概念标点分割的模式；所述第一医学数据前面所述预设个词内是否有时间；所述第一医学数据前面所述预设个词内是否有数字；所述第一医学数据前面所述预设个词内是否有动词。

在本发明的一种示例性实施例中，所述第一医学数据和所述第二医学数据之间文本特征包括以下特征中的至少一种：所述第一医学数据和所述第二医学数据之间的距离；所述第一医学数据和所述第二医学数据之间的顺序；所述第一医学数据和所述第二医学数据之间句号的个数；所述第一医学数据和所述第二医学数据之间逗号的个数；所述第一医学数据和所述第二医学数据之间空格或者顿号的个数；所述第一医学数据和所述第二医学数据之间是否有“伴”；所述第一医学数据和所述第二医学数据之间是否有“偶”；所述第一医学数据和所述第二医学数据之间是否有表示行为的动词；所述第一医学数据和所述第二医学数据之间是否有只向后作用的否定词；所述第一医学数据和所述第二医学数据之间是否有省略词；所述第一医学数据和所述第二医学数据之间是否有否定词；所述第一医学数据和所述第二医学数据之间是否有诊断；所述第一医学数据和所述第二医学数据之间是否有解剖部位；所述第一医学数据和所述第二医学数据之间是否症状；所述第一医学数据和所述第二医学数据之间是否有病变词；所述第一医学数据和所述第二医学数据之间是否有连续概念标点分割的模式；所述第一医学数据和所述第二医学数据之间是否有数字；所述第一医学数据和所述第二医学数据之间是否有时间；所述第一医学数据和所述第二医学数据之间是否有动词。

在本发明的一种示例性实施例中，所述句法依存分析特征包括以下特征中的至少一种：所述第一医学数据和所述第二医学数据之间是否父子关系；所述第一医学数据和所述第二医学数据之间依存树上路径长度；所述第一医学数据和所述第二医学数据之间路径上是否有主谓关系边；所述第一医学数据和所述第二医学数据之间路径上是否有动宾关系边；所述第一医学数据和所述第二医学数据之间路径上是否有定中关系或者状中结构边；所述第一医学数据和所述第二医学数据之间路径上第一条边是否动宾关系或者主谓关系；所述第一医学数据和所述第二医学数据之间路径上第一条边是否定中关系或者状中结构；所述第一医学数据和所述第二医学数据之间路径上最后一条边是否动宾关系或者主谓关系；所述第一医学数据和所述第二医学数据之间路径上最后一条边是否动宾关系或者主谓关系。

在本发明的一种示例性实施例中，所述句子形态特征包括以下特征中的至少一种：所述第一医学数据和所述第二医学数据是否在一个段落中；所述第一医学数据和所述第二医学数据是否在一个句子中；所述第一医学数据和所述第二医学数据是否在一个子句中；所述第一医学数据和所述第二医学数据是否在一个段落中，且中间不存在与第一医学数据同类或者与第二医学数据同类的其他医学数据；所述第一医学数据和所述第二医学数据是否在一个句子中，且中间不存在与第一医学数据同类或者与第二医学数据同类的其他医学数据；所述第一医学数据和所述第二医学数据是否在一个子句中，且中间不存在与第一医学数据同类或者与第二医学数据同类的其他医学数据。

根据本发明的一个方面，提供一种医学数据关系挖掘装置，包括：医学数据获取模块，配置为获取目标文本中的第一医学数据和第二医学数据，所述第一医学数据和所述第二医学数据通过实体识别算法从所述目标文本中抽取出来；特征抽取模块，配置为获取所述第一医学数据的本身特征、所述第二医学数据的本身特征、所述第一医学数据和所述第二医学数据的周边文本特征、句法依存分析特征和句子形态特征中的至少一种，以获得所述第一医学数据和所述第二医学数据的特征向量；目标关系判定模块，配置为将所述特征向量输入至训练好的分类模型，判定所述第一医学数据和所述第二医学数据之间的目标关系。

根据本发明的一个方面，提供一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现上述任一实施例所述的医学数据关系挖掘方法。

根据本发明的一个方面，提供一种电子设备，包括：一个或多个处理器；存储装置，配置为存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现上述任一实施例所述的医学数据关系挖掘方法。

本发明的一种示例性实施例中的医学数据关系挖掘方法及医学数据关系挖掘装置，通过获取目标文本中的第一医学数据和第二医学数据；并对所述第一医学数据和所述第二医学数据进行特征抽取，获得所述第一医学数据和所述第二医学数据的特征向量；再将所述特征向量输入至训练好的分类模型，判定所述第一医学数据和所述第二医学数据之间的目标关系，能够高效地识别出临床病例文本中的医学数据之间的关系，提升了医学数据关系挖掘的效率，以利于进一步的数据统计分析。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

通过参照附图来详细描述其示例实施例，本发明的上述和其它特征及优点将变得更加明显。

图1示出根据本发明一示例性实施例的医学数据关系挖掘方法的流程图；

图2示出根据本发明一示例性实施例的分类模型特征集合的示意图；

图3示出根据本发明另一示例性实施例的医学数据关系挖掘方法的流程图；

图4示出根据本发明又一示例性实施例的医学数据关系挖掘方法的流程图；

图5示出根据本发明再一示例性实施例的医学数据关系挖掘方法的流程图；

图6示出根据本发明一示例性实施例的医学数据关系挖掘装置的框图；

图7示出了可以应用本发明实施例的医学数据关系挖掘方法或医学数据关系挖掘装置的示例性系统架构的示意图；

图8示出了适于用来实现本发明实施例的电子设备的结构示意图。

具体实施例

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本发明将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本发明的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而没有所述特定细节中的一个或更多，或者可以采用其它的方法、组元、材料、装置、步骤等。在其它情况下，不详细示出或描述公知结构、方法、装置、实现、材料或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个软件硬化的模块中实现这些功能实体或功能实体的一部分，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

现有技术中，采用了以下三类方法进行医学数据关系挖掘：

第一类方法：人工抽象规则的方法。从文本形态上判断医学数据之间是否满足某种关系，进而判定医学数据之间关系是否成立。例如，判断两个医学数据是否在一个逗号分隔的句子内等。

上述第一类方法至少存在以下缺点：人工规则是一种一刀切的方法，效果依赖于规则的细致程度；人工成本高；对于新的数据，有规则无法覆盖的风险；规则之间可能存在冲突互斥。

第二类方法：基于自然语言处理中文本句法依存分析的方法。句法依存分析是自然语言处理的一项经典任务，可以判断句子中各词语之间是否满足主谓关系、动宾关系、修饰关系等语法关系。基于依存分析的结构，判断医学数据是否满足目标关系。

上述第二类方法至少存在以下缺点：是一种比较理想的方法，不过当前业界中文句法依存分析模型本身效果一般，针对特定领域训练的话，标注成本非常高，所以在临床病例中很少有直接的应用。

第三类方法：诊断特定的医学数据关系，训练分类模型。根据任务目标，标注临床病例中医学数据关系的样本，用一些通用的机器学习分类模型进行分类，判断目标关系是否成立。

上述第三类方法是一种相对可行的方法，针对特定关系类型，特定应用领域，标注训练语料进行分类，判断对应关系是否成立。不过这类方法需要针对每种医学术语关系、每个应用场景，进行针对性的标注和训练，结果不具有扩展性。

本发明实施例中，医学数据也可以称之为临床数据，可以是医学术语，其中医学术语指的是在医学研究或者医学事件中可以表征明确医学概念的词语，临床数据的定义需要结合具体的临床任务定义，如“母亲”在特定任务中，一些类似于“父亲”、“母亲”等词语也可以是该特定医学任务的关注对象，即也可以是医学术语。

本发明实施例中，医学数据关系类型挖掘是指临床病例中长文本中展现的医疗信息，通常会有多个医学术语或者医学术语与其他词的组合搭配表示。

例如，家族史：“父亲体健，母亲已故，死于肺癌”，其中的关键医疗信息为：

亲属：母亲家族疾病：肺癌

医学数据关系指的就是从文本中挖掘出肺癌是母亲患的，而不是父亲的疾病。

本发明提出了一种医学数据关系挖掘方法，可以用于医学数据之间的关系类型抽象，并用机器学习来解决识别的方法。

本示例实施例中，首先提供了一种医学数据关系挖掘方法。参考图1中所示，该医学数据关系挖掘方法包括以下步骤：

在步骤S110中，获取目标文本中的第一医学数据和第二医学数据，所述第一医学数据和所述第二医学数据通过实体识别算法从所述目标文本中抽取出来。

本发明实施例中，所述目标文本可以是待挖掘的临床病例，可以通过一套实体识别算法将A和B从临床病例的长文本中抽取出来，具体的实体识别算法可以参照现有技术，在此不再详述。

在步骤S120中，获取所述第一医学数据的本身特征、所述第二医学数据的本身特征、所述第一医学数据和所述第二医学数据的周边文本特征、句法依存分析特征和句子形态特征中的至少一种，以获得所述第一医学数据和所述第二医学数据的特征向量。

在示例性实施例中，所述对所述第一医学数据和所述第二医学数据进行特征抽取，可以包括：获取所述第一医学数据的本身特征、所述第二医学数据的本身特征、所述第一医学数据和所述第二医学数据的周边文本特征、依存分析特征和句子形态特征等中的至少一种。

在示例性实施例中，所述第一医学数据的本身特征可以包括以下特征中的至少一种：所述第一医学数据是否为一个诊断；所述第一医学数据是否为一个解剖部位；所述第一医学数据是否为一个症状；所述第一医学数据是否为一个病变词；所述第一医学数据是否为否定词；所述第一医学数据是否包含动词；所述第一医学数据是否包含数字；所述第一医学数据是否长度是否大于预设字节；所述第一医学数据是否包含时间词。

在示例性实施例中，所述周边文本特征可以包括所述第一医学数据的前面信息文本特征、所述第二医学数据的后面信息文本特征、所述第一医学数据和所述第二医学数据之间文本特征等中的至少一种。

在示例性实施例中，所述第一医学数据的前面信息文本特征可以包括以下特征中的至少一种：所述第一医学数据前面预设个词内是否有句号；所述第一医学数据前面所述预设个词内是否有逗号；所述第一医学数据前面所述预设个词内是否有空格或者顿号；所述第一医学数据前面所述预设个词内是否有否定词；所述第一医学数据前面所述预设个词内是否有只向后作用否定词；所述第一医学数据前面所述预设个词内是否有“伴”；所述第一医学数据前面所述预设个词内是否有“偶”；所述第一医学数据前面所述预设个词内是否有省略词；所述第一医学数据前面所述预设个词内是否有表示行为的动词；所述第一医学数据前面所述预设个词内是否有诊断；所述第一医学数据前面所述预设个词内是否有解剖部位；所述第一医学数据前面所述预设个词内是否症状；所述第一医学数据前面所述预设个词内是否有病变词；所述第一医学数据前面所述预设个词内是否有连续概念标点分割的模式；所述第一医学数据前面所述预设个词内是否有时间；所述第一医学数据前面所述预设个词内是否有数字；所述第一医学数据前面所述预设个词内是否有动词。

在示例性实施例中，所述第一医学数据和所述第二医学数据之间文本特征可以包括以下特征中的至少一种：所述第一医学数据和所述第二医学数据之间的距离；所述第一医学数据和所述第二医学数据之间的顺序；所述第一医学数据和所述第二医学数据之间句号的个数；所述第一医学数据和所述第二医学数据之间逗号的个数；所述第一医学数据和所述第二医学数据之间空格或者顿号的个数；所述第一医学数据和所述第二医学数据之间是否有“伴”；所述第一医学数据和所述第二医学数据之间是否有“偶”；所述第一医学数据和所述第二医学数据之间是否有表示行为的动词；所述第一医学数据和所述第二医学数据之间是否有只向后作用的否定词；所述第一医学数据和所述第二医学数据之间是否有省略词；所述第一医学数据和所述第二医学数据之间是否有否定词；所述第一医学数据和所述第二医学数据之间是否有诊断；所述第一医学数据和所述第二医学数据之间是否有解剖部位；所述第一医学数据和所述第二医学数据之间是否症状；所述第一医学数据和所述第二医学数据之间是否有病变词；所述第一医学数据和所述第二医学数据之间是否有连续概念标点分割的模式；所述第一医学数据和所述第二医学数据之间是否有数字；所述第一医学数据和所述第二医学数据之间是否有时间；所述第一医学数据和所述第二医学数据之间是否有动词。

在示例性实施例中，所述依存分析特征可以包括以下特征中的至少一种：所述第一医学数据和所述第二医学数据之间是否父子关系；所述第一医学数据和所述第二医学数据之间依存树上路径长度；所述第一医学数据和所述第二医学数据之间路径上是否有主谓关系边；所述第一医学数据和所述第二医学数据之间路径上是否有动宾关系边；所述第一医学数据和所述第二医学数据之间路径上是否有定中关系或者状中结构边；所述第一医学数据和所述第二医学数据之间路径上第一条边是否动宾关系或者主谓关系；所述第一医学数据和所述第二医学数据之间路径上第一条边是否定中关系或者状中结构；所述第一医学数据和所述第二医学数据之间路径上最后一条边是否动宾关系或者主谓关系；所述第一医学数据和所述第二医学数据之间路径上最后一条边是否动宾关系或者主谓关系。

在示例性实施例中，所述句子形态特征可以包括以下特征中的至少一种：所述第一医学数据和所述第二医学数据是否在一个段落中；所述第一医学数据和所述第二医学数据是否在一个句子中；所述第一医学数据和所述第二医学数据是否在一个子句中；所述第一医学数据和所述第二医学数据是否在一个段落中，且中间不存在与第一医学数据同类或者与第二医学数据同类的其他医学数据；所述第一医学数据和所述第二医学数据是否在一个句子中，且中间不存在与第一医学数据同类或者与第二医学数据同类的其他医学数据；所述第一医学数据和所述第二医学数据是否在一个子句中，且中间不存在与第一医学数据同类或者与第二医学数据同类的其他医学数据。

在步骤S130中，将所述特征向量输入至训练好的分类模型，判定所述第一医学数据和所述第二医学数据之间的目标关系。

在示例性实施例中，所述目标关系可以包括否定词与医学数据关系、时间与医学数据关系、数值与医学数据关系、解剖部位与医学数据关系、动作与医学数据关系、亲属与医学数据关系等中的任意一种。

在示例性实施例中，预先抽象医学数据关系类别体系。可以从临床数据和医学需求出发，对于两个医学数据的关系，可以抽象为以下几类，如表1所示：

表1医学数据类别体系

需要说明的是，医学数据之间的关系类型并不限定于上述表1中所例举的几种，类别体系也可以从其他角度划分，基本要求是有明确的语义类型，并且能覆盖大部分医学数据关系，例如固定一个医学数据，第二个医学数据进一步分组。具体的一个例子，否定关系：否定词作为A固定，B的类型是任意的。

其中，有明确的语义类型是指关系类型抽象，例如：否定关系、时间关系、数值关系、动作关系等，明确语义类型。

根据本示例实施例中的医学数据关系挖掘方法，通过获取目标文本中的第一医学数据和第二医学数据；并对所述第一医学数据和所述第二医学数据进行特征抽取，获得所述第一医学数据和所述第二医学数据的特征向量；再将所述特征向量输入至训练好的分类模型，判定所述第一医学数据和所述第二医学数据之间的目标关系，能够高效地识别出临床病例文本中的医学数据之间的关系，提升了医学数据关系挖掘的效率，以利于进一步的数据统计分析。

如图2所示，本发明实施例中，设计的分类模型特征集合可以包括AB本身特征、周边文本特征、句法依存分析特征和句子形态特征。

其中所述AB本身特征又可以包括A本身特征和B本身特征。

所述周边文本特征又可以包括A左边文本特征(也可以称之为A前面信息文本特征)、B右边文本特征(也可以称之为B后面信息文本特征)和AB之间文本特征。

例如，特征集合可以包含如下信息(这里以两个医学数据为例，第一医学数据用A表示，第二医学数据用B表示)：

表2特征集合

需要说明的是，上述表2中具体特征值的计算方式可能有变化，如可以在第一医学数据A两边的其他距离内搜索第二医学数据B，即不限定为上述表格中的10个词。在具体的医学任务中，可以根据需要调整上述表格中的数据形态，优化具体数字，本发明对此不作限定。

依存语法通过分析语言单位内成分之间的依存关系揭示其句法结构，主张句子中核心动词是支配其它成分的中心成分，而它本身却不受其它任何成分的支配，所有受支配成分都以某种依存关系从属于支配者。句子成分间相互支配与被支配、依存与被依存的现象普遍存在于汉语的词汇(合成语)、短语、单句、复合直到句群的各级能够独立运用的语言单位之中，这一特点为依存关系的普遍性，依存句法分析可以反映出句子各成分之间的语义修饰关系，它可以获得长距离的搭配信息，并与句子成分的物理位置无关。

上述表2中涉及的依存句法分析标注关系及含义如下表3：

关系类型	标识(Tag)	描述(description)
			主谓关系	SBV	subject-verb
动宾关系	VOB	直接宾语，verb-object
			定中关系	ATT	attribute
状中结构	ADV	adverbial

表3句法依存关系

需要说明的是，在现有技术中是直接使用依存分析得出的语法结构，按语法结构模板抽取目标关系，而本发明实施例中是把关键语法结构作为分类模型的特征，通过数据驱动，自动学习。

本发明实施例中，在临床病例结构化任务中，从长文本中挖掘医学数据关系，提供一种兼具效果和通用性的方法。若分类模型采用二分类分类模型，其基本思路是将医学数据关系抽象为一个二分类问题。

下面以分类模型为二分类分类模型为例进行说明。如图3所示，本发明实施方式提供的医学数据关系挖掘方法可以包括以下步骤。

在步骤S310中，根据目标医学任务，确定目标关系。

本发明实施例中，这里的目标关系是已知的，对于一个具体的医学任务，会按照任务本身进行任务拆解，得出目标关系。

在步骤S320中，获取训练语料中具有所述目标关系的第一训练医学数据和第二训练医学数据。

在步骤S330中，对所述训练语料中的所述第一训练医学数据和所述第二训练医学数据进行标注。

例如，“父亲患糖尿病，母亲体健”，可以标注为：

“父亲”“糖尿病” 1

“母亲”“糖尿病” 0

在步骤S340中，抽取所述第一训练医学数据和所述第二训练医学数据的特征，获得所述第一训练医学数据和所述第二训练医学数据的特征向量。

本发明实施例中，可以根据上述表2例举的特征集合进行特征抽取，例如满足条件则相应位的取值为1，不满足则相应位设置为0，如AB本身特征中，A为一个诊断，则特征向量的第一位为1，A不为一个诊断，则特征向量的第一位为0；A为一个解剖部位，则特征向量的第二位为1，A不为一个解剖部位，则特征向量的第二位为0；以此类推。把各维度特征值平铺，特定特征值放在向量中固定位置，则形成特征向量。

需要说明的是，特征向量各位的取值可以实际需求进行设置，并不限定于此上述的“1”和“0”。

在步骤S350中，利用所述第一训练医学数据和所述第二训练医学数据的特征向量训练二分类分类模型。

在步骤S360中，获取目标文本中的第一医学数据和第二医学数据。

在步骤S370中，对所述第一医学数据和所述第二医学数据进行特征抽取，获得所述第一医学数据和所述第二医学数据的特征向量。

在步骤S380中，将所述第一医学数据和所述第二医学数据的特征向量输入至训练好的二分类分类模型，判定所述第一医学数据和所述第二医学数据之间的所述目标关系是否成立。

下面还是以分类模型为二分类分类模型为例进行说明。如图4所示，本发明实施方式提供的医学数据关系挖掘方法可以包括以下步骤。

在步骤S410中，抽象医学数据关系类别体系。

本发明实施例中，预先定义类别体系，根据具体的医学任务，确定目标分类。可以用于之后根据目标标注训练语料。

在步骤S420中，设计分类模型特征集合。

本发明实施例中，所述特征集合可以包括医学数据本身特征、周边文本特征、句法依存关系特征、句子形态特征等中的至少一种。

在步骤S430中，训练二分类分类模型。

本发明实施例中，基于上述步骤S410中定义的医学数据关系类型，标注目标关系训练语料；然后按步骤S420中定义的特征，对训练语料进行特征抽取，长文本进行向量化表示；之后，使用分类模型训练向量化好的训练语料。

本发明实施例中，可以使用决策树模型、朴素贝叶斯模型、支持向量机、深度学习等任意一种。

在步骤S440中，医学数据关系分类。

本发明实施例中，对于新的临床数据即目标文本，可以按步骤S420中定义的特征进行特征抽取，形成向量化的表示，输入到上述步骤S430训练好的分类模型，二分类判断目标关系是否成立。

在另一些实施例中，也可以将问题本身抽象为多分类，分类模型直接输出给定两个医学数据的具体关系。

下面以分类模型为多分类分类模型为例进行说明。如图5所示，本发明实施方式提供的医学数据关系挖掘方法可以包括以下步骤。

在步骤S510中，获取训练语料中的第一训练医学数据和第二训练医学数据。

在步骤S520中，对所述训练语料中的所述第一训练医学数据和所述第二训练医学数据进行标注，其中标注的内容包括所述第一训练医学数据和所述第二训练医学数据之间的目标关系。

本发明实施例中，由于采用多分类方式，直接输入病例长文本的特征向量，多分类分类模型即可直接输出A和B之间的目标关系。因此，需要改变训练语料的标注方式，即多分类标注需要标注具体的关系类型，而不是特定关系类型的一个是否标注。

在步骤S530中，抽取所述第一训练医学数据和所述第二训练医学数据的特征，获得所述第一训练医学数据和所述第二训练医学数据的特征向量。

在步骤S540中，利用所述第一训练医学数据和所述第二训练医学数据的特征向量训练多分类分类模型。

在步骤S550中，获取目标文本中的第一医学数据和第二医学数据。

在步骤S560中，对所述第一医学数据和所述第二医学数据进行特征抽取，获得所述第一医学数据和所述第二医学数据的特征向量。

在步骤S570中，将所述第一医学数据和所述第二医学数据的特征向量输入至训练好的二分类分类模型，输出所述第一医学数据和所述第二医学数据之间的目标关系。

本发明实施方式提供的医学数据关系挖掘方法，一方面，通过设计通用的医学数据关系体系，训练的模型可复用，提高了新临床数据结构化的效率，从而可以提升医学数据关系挖掘的效果，提升医学数据关系挖掘的效率，使得数据价值可以积累，且随着标注数据的增加，关系识别效果会越来越好，历史数据可积累；另一方面，本发明实施例中类型抽象具有通用性，模型效果具有扩展性，不是一个关系训练一个模型，标注工作极大减轻；因此，能够解决传统规则方法对临床病例数据的覆盖问题和规则冲突问题；也可以解决基于句法依存分析技术的结构化准确率低的问题。

需要说明的是，尽管在附图中以特定顺序描述了本发明中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

图6示出了根据本发明另一示例性实施例的医学数据关系挖掘装置600的框图。

如图6所述，医学数据关系挖掘装置600包括：医学数据获取模块610、特征抽取模块620以及目标关系判定模块630。其中：

医学数据获取模块610可以配置为获取目标文本中的第一医学数据和第二医学数据，第一医学数据和第二医学数据通过实体识别算法从所述目标文本中抽取出来。

特征抽取模块620可以配置为获取第一医学数据的本身特征、第二医学数据的本身特征、第一医学数据和第二医学数据的周边文本特征、句法依存分析特征和句子形态特征中的至少一种，以获得所述第一医学数据和所述第二医学数据的特征向量。

目标关系判定模块630可以配置为将所述特征向量输入至训练好的分类模型，判定所述第一医学数据和所述第二医学数据之间的目标关系。

在示例性实施例中，所述第一医学数据的本身特征包括以下特征中的至少一种：所述第一医学数据是否为一个诊断；所述第一医学数据是否为一个解剖部位；所述第一医学数据是否为一个症状；所述第一医学数据是否为一个病变词；所述第一医学数据是否为否定词；所述第一医学数据是否包含动词；所述第一医学数据是否包含数字；所述第一医学数据是否长度是否大于预设字节；所述第一医学数据是否包含时间词。

在示例性实施例中，所述周边文本特征包括所述第一医学数据的前面信息文本特征、所述第二医学数据的后面信息文本特征、所述第一医学数据和所述第二医学数据之间文本特征中的至少一种。

在示例性实施例中，所述第一医学数据的前面信息文本特征包括以下特征中的至少一种：所述第一医学数据前面预设个词内是否有句号；所述第一医学数据前面所述预设个词内是否有逗号；所述第一医学数据前面所述预设个词内是否有空格或者顿号；所述第一医学数据前面所述预设个词内是否有否定词；所述第一医学数据前面所述预设个词内是否有只向后作用否定词；所述第一医学数据前面所述预设个词内是否有“伴”；所述第一医学数据前面所述预设个词内是否有“偶”；所述第一医学数据前面所述预设个词内是否有省略词；所述第一医学数据前面所述预设个词内是否有表示行为的动词；所述第一医学数据前面所述预设个词内是否有诊断；所述第一医学数据前面所述预设个词内是否有解剖部位；所述第一医学数据前面所述预设个词内是否症状；所述第一医学数据前面所述预设个词内是否有病变词；所述第一医学数据前面所述预设个词内是否有连续概念标点分割的模式；所述第一医学数据前面所述预设个词内是否有时间；所述第一医学数据前面所述预设个词内是否有数字；所述第一医学数据前面所述预设个词内是否有动词。

在示例性实施例中，所述第一医学数据和所述第二医学数据之间文本特征包括以下特征中的至少一种：所述第一医学数据和所述第二医学数据之间的距离；所述第一医学数据和所述第二医学数据之间的顺序；所述第一医学数据和所述第二医学数据之间句号的个数；所述第一医学数据和所述第二医学数据之间逗号的个数；所述第一医学数据和所述第二医学数据之间空格或者顿号的个数；所述第一医学数据和所述第二医学数据之间是否有“伴”；所述第一医学数据和所述第二医学数据之间是否有“偶”；所述第一医学数据和所述第二医学数据之间是否有表示行为的动词；所述第一医学数据和所述第二医学数据之间是否有只向后作用的否定词；所述第一医学数据和所述第二医学数据之间是否有省略词；所述第一医学数据和所述第二医学数据之间是否有否定词；所述第一医学数据和所述第二医学数据之间是否有诊断；所述第一医学数据和所述第二医学数据之间是否有解剖部位；所述第一医学数据和所述第二医学数据之间是否症状；所述第一医学数据和所述第二医学数据之间是否有病变词；所述第一医学数据和所述第二医学数据之间是否有连续概念标点分割的模式；所述第一医学数据和所述第二医学数据之间是否有数字；所述第一医学数据和所述第二医学数据之间是否有时间；所述第一医学数据和所述第二医学数据之间是否有动词。

在示例性实施例中，所述句子形态特征包括以下特征中的至少一种：所述第一医学数据和所述第二医学数据是否在一个段落中；所述第一医学数据和所述第二医学数据是否在一个句子中；所述第一医学数据和所述第二医学数据是否在一个子句中；所述第一医学数据和所述第二医学数据是否在一个段落中，且中间不存在与第一医学数据同类或者与第二医学数据同类的其他医学数据；所述第一医学数据和所述第二医学数据是否在一个句子中，且中间不存在与第一医学数据同类或者与第二医学数据同类的其他医学数据；所述第一医学数据和所述第二医学数据是否在一个子句中，且中间不存在与第一医学数据同类或者与第二医学数据同类的其他医学数据。

由于本发明的示例实施例的医学数据关系挖掘装置600的各个功能模块与上述医学数据关系挖掘方法的示例实施例的步骤对应，因此在此不再赘述。

应当注意，尽管在上文详细描述中提及了医学数据关系挖掘装置的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

图7示出了可以应用本发明实施例的医学数据关系挖掘方法或医学数据关系挖掘装置的示例性系统架构100的示意图。

如图7所示，系统架构100可以包括终端设备101、102、103中的一种或多种，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

应该理解，图7中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、便携式计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器。例如用户利用终端设备103(也可以是终端设备101或102)向服务器105发送请求。服务器105可以基于该请求中携带的相关信息，在数据库中检索到匹配的搜索结果，并将搜索结果反馈给终端设备103，进而用户可以基于终端设备103上显示的内容进行观看。

需要说明的是，图8示出的电子设备200仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，电子设备200包括中央处理单元(CPU)201，其可以根据存储在只读存储器(ROM)202中的程序或者从存储部分208加载到随机访问存储器(RAM)203中的程序而执行各种适当的动作和处理。在RAM 203中，还存储有系统操作所需的各种程序和数据。CPU201、ROM 202以及RAM 203通过总线204彼此相连。输入/输出(I/O)接口205也连接至总线204。

以下部件连接至I/O接口205：包括键盘、鼠标等的输入部分206；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分207；包括硬盘等的存储部分208；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络执行通信处理。驱动器210也根据需要连接至I/O接口205。可拆卸介质211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器210上，以便于从其上读出的计算机程序根据需要被安装入存储部分208。

特别地，根据本发明的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分209从网络上被下载和安装，和/或从可拆卸介质211被安装。在该计算机程序被中央处理单元(CPU)201执行时，执行本申请的方法和/或装置中限定的各种功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的方法、装置和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。例如，所述的电子设备可以实现如图1所示的各个步骤。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本发明实施例的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施例。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种医学数据关系挖掘方法，其特征在于，包括：

获取目标文本中的第一医学数据和第二医学数据，所述第一医学数据和所述第二医学数据通过实体识别算法从所述目标文本中抽取出来；

获取所述第一医学数据的本身特征、所述第二医学数据的本身特征、所述第一医学数据和所述第二医学数据的周边文本特征、句法依存分析特征和句子形态特征中的至少一种，以获得所述第一医学数据和所述第二医学数据的特征向量；

将所述特征向量输入至训练好的分类模型，判定所述第一医学数据和所述第二医学数据之间的目标关系。

2.根据权利要求1所述的医学数据关系挖掘方法，其特征在于，所述目标关系包括否定词与医学数据关系、时间与医学数据关系、数值与医学数据关系、解剖部位与医学数据关系、动作与医学数据关系、亲属与医学数据关系中的任意一种。

3.根据权利要求1所述的医学数据关系挖掘方法，其特征在于，所述第一医学数据的本身特征包括以下特征中的至少一种：

所述第一医学数据是否为一个诊断；

所述第一医学数据是否为一个解剖部位；

所述第一医学数据是否为一个症状；

所述第一医学数据是否为一个病变词；

所述第一医学数据是否为否定词；

所述第一医学数据是否包含动词；

所述第一医学数据是否包含数字；

所述第一医学数据是否长度是否大于预设字节；

所述第一医学数据是否包含时间词。

4.根据权利要求1所述的医学数据关系挖掘方法，其特征在于，所述周边文本特征包括所述第一医学数据的前面信息文本特征、所述第二医学数据的后面信息文本特征、所述第一医学数据和所述第二医学数据之间文本特征中的至少一种。

5.根据权利要求4所述的医学数据关系挖掘方法，其特征在于，所述第一医学数据的前面信息文本特征包括以下特征中的至少一种：

所述第一医学数据前面预设个词内是否有句号；

所述第一医学数据前面所述预设个词内是否有逗号；

所述第一医学数据前面所述预设个词内是否有空格或者顿号；

所述第一医学数据前面所述预设个词内是否有否定词；

所述第一医学数据前面所述预设个词内是否有只向后作用否定词；

所述第一医学数据前面所述预设个词内是否有“伴”；

所述第一医学数据前面所述预设个词内是否有“偶”；

所述第一医学数据前面所述预设个词内是否有省略词；

所述第一医学数据前面所述预设个词内是否有表示行为的动词；

所述第一医学数据前面所述预设个词内是否有诊断；

所述第一医学数据前面所述预设个词内是否有解剖部位；

所述第一医学数据前面所述预设个词内是否症状；

所述第一医学数据前面所述预设个词内是否有病变词；

所述第一医学数据前面所述预设个词内是否有连续概念标点分割的模式；

所述第一医学数据前面所述预设个词内是否有时间；

所述第一医学数据前面所述预设个词内是否有数字；

所述第一医学数据前面所述预设个词内是否有动词。

6.根据权利要求4所述的医学数据关系挖掘方法，其特征在于，所述第一医学数据和所述第二医学数据之间文本特征包括以下特征中的至少一种：

所述第一医学数据和所述第二医学数据之间的距离；

所述第一医学数据和所述第二医学数据之间的顺序；

所述第一医学数据和所述第二医学数据之间句号的个数；

所述第一医学数据和所述第二医学数据之间逗号的个数；

所述第一医学数据和所述第二医学数据之间空格或者顿号的个数；

所述第一医学数据和所述第二医学数据之间是否有“伴”；

所述第一医学数据和所述第二医学数据之间是否有“偶”；

所述第一医学数据和所述第二医学数据之间是否有表示行为的动词；

所述第一医学数据和所述第二医学数据之间是否有只向后作用的否定词；

所述第一医学数据和所述第二医学数据之间是否有省略词；

所述第一医学数据和所述第二医学数据之间是否有否定词；

所述第一医学数据和所述第二医学数据之间是否有诊断；

所述第一医学数据和所述第二医学数据之间是否有解剖部位；

所述第一医学数据和所述第二医学数据之间是否症状；

所述第一医学数据和所述第二医学数据之间是否有病变词；

所述第一医学数据和所述第二医学数据之间是否有连续概念标点分割的模式；

所述第一医学数据和所述第二医学数据之间是否有数字；

所述第一医学数据和所述第二医学数据之间是否有时间；

所述第一医学数据和所述第二医学数据之间是否有动词。

7.根据权利要求1所述的医学数据关系挖掘方法，其特征在于，所述句子形态特征包括以下特征中的至少一种：

所述第一医学数据和所述第二医学数据是否在一个段落中；

所述第一医学数据和所述第二医学数据是否在一个句子中；

所述第一医学数据和所述第二医学数据是否在一个子句中；

所述第一医学数据和所述第二医学数据是否在一个段落中，且中间不存在与第一医学数据同类或者与第二医学数据同类的其他医学数据；

所述第一医学数据和所述第二医学数据是否在一个句子中，且中间不存在与第一医学数据同类或者与第二医学数据同类的其他医学数据；

所述第一医学数据和所述第二医学数据是否在一个子句中，且中间不存在与第一医学数据同类或者与第二医学数据同类的其他医学数据。

8.一种医学数据关系挖掘装置，其特征在于，包括：

医学数据获取模块，配置为获取目标文本中的第一医学数据和第二医学数据，所述第一医学数据和所述第二医学数据通过实体识别算法从所述目标文本中抽取出来；

特征抽取模块，配置为获取所述第一医学数据的本身特征、所述第二医学数据的本身特征、所述第一医学数据和所述第二医学数据的周边文本特征、句法依存分析特征和句子形态特征中的至少一种，以获得所述第一医学数据和所述第二医学数据的特征向量；

目标关系判定模块，配置为将所述特征向量输入至训练好的分类模型，判定所述第一医学数据和所述第二医学数据之间的目标关系。

9.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至7任一项所述的医学数据关系挖掘方法。

10.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，配置为存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至7任一项所述的医学数据关系挖掘方法。