CN111191035A

CN111191035A - 一种识别肺癌临床数据库文本实体的方法及装置

Info

Publication number: CN111191035A
Application number: CN201911396284.XA
Authority: CN
Inventors: 李为民; 倪浩; 王成弟; 刘丹; 任鹏伟; 邵俊; 郑永升; 石磊; 梁平
Original assignee: Hangzhou Yitu Healthcare Technology Co ltd; West China Hospital of Sichuan University
Current assignee: Hangzhou Yitu Healthcare Technology Co ltd; West China Hospital of Sichuan University
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-05-22
Anticipated expiration: 2039-12-30
Also published as: CN111191035B

Abstract

本申请公开了一种识别肺癌临床数据库文本实体的方法及装置，用以提高获取关系分类的效率，所述方法包括：接收肺癌临床数据库文本信息；基于预设实体集生成与所述肺癌临床数据库文本信息对应的实体相关的多个问题；基于Attention机制确定所述多个问题所对应的问题分类以及所述实体之间的关系分类。采用本申请所公开的方案，能够同时确定实体相关的多个问题对应的问题分类以及实体之间的关系分类，而无需等待实体抽取步骤之后再确定关系分类，因此，提高了获取关系分类的效率，进而提高了识别肺癌临床数据库文本实体的效率。

Description

一种识别肺癌临床数据库文本实体的方法及装置

技术领域

本申请涉及人工智能领域，特别涉及一种识别肺癌临床数据库文本实体的方法及装置。

背景技术

从文本信息中抽取实体和对实体进行关系分类是识别文本实体的主要方式，是进行语义理解的前提。例如，当文本信息为一份关于肺癌的临床病历信息时，该病历信息中记载了“XX患者5年前右肺诊断出肺癌，进行了肺叶切除术”，可以从里面抽取出“右肺”、“肺癌”、“肺叶切除术”等实体，并且可以基于这些实体进行关系分类，例如，分类出“肺癌”和“右肺”的关系为部位关系，这样就可以知道该患者在什么部位患了些什么疾病，做了什么手术等。

现有技术中，在识别文本实体时，实体抽取和关系分类是需要分先后顺序进行的，首先需要进行实体抽取，然后再基于抽取的实体进行关系分类。也就是说，在对实体进行关系分类之前，需要等待实体抽取结束，然后基于抽取出的实体进行关系分类，因此，识别文本实体的效率较低，因此，在识别文本实体时，特别是在识别肺癌临床数据库文本实体时，如何提高实体的问题分类和关系分类的识别效率，从而提高识别文本实体的效率，是一亟待解决的技术问题。

发明内容

本申请实施例的目的在于提供一种识别肺癌临床数据库文本实体的方法及装置，用以提高获取关系分类的效率。

本申请实施例提供一种识别肺癌临床数据库文本实体的方法，包括：

接收肺癌临床数据库文本信息；

基于预设实体集生成与所述肺癌临床数据库文本信息对应的实体相关的多个问题；

基于Attention机制确定所述多个问题所对应的问题分类以及所述实体之间的关系分类。

本申请的有益效果在于：能够同时确定实体相关的多个问题对应的问题分类以及实体之间的关系分类，而无需等待实体抽取步骤之后再确定关系分类，因此，提高了获取关系分类的效率，进而提高了识别肺癌临床数据库文本实体的效率。

在一个实施例中，基于预设实体集生成与所述肺癌临床数据库文本信息对应的实体相关的多个问题，包括：

计算预设实体集与所述肺癌临床数据库文本信息的相关度；

确定所述预设实体集中与所述肺癌临床数据库文本信息的相关度大于预设值的多个实体为所述肺癌临床数据库文本信息对应的实体；

根据所述肺癌临床数据库文本信息对应的实体生成与所述实体相关的多个问题。

在一个实施例中，所述基于Attention机制确定所述多个问题所对应的问题分类以及所述实体之间的关系分类，包括：

将所述肺癌临床数据库文本信息转化成第一特征向量；

将所述多个问题转化成多个第二特征向量；

基于Attention机制对第一特征特征向量以及所述多个第二特征向量进行计算，得到用于表征所述第一特征向量和第二特征向量之间的关系的多个向量序列；

将所述多个向量序列进行融合，以得到融合向量；

根据所述融合向量确定所述多个问题分别对应的问题分类以及所述实体之间的关系分类。

在一个实施例中，基于Attention机制对第一特征特征向量以及所述多个第二特征向量进行计算，得到用于表征所述第一特征向量和第二特征向量之间的关系的多个向量序列，包括：

基于Attention机制计算各个第二特征向量与所述第一特征向量之间的依赖关系；

根据所述各个第二特征向量与所述第一特征向量之间的依赖关系获得用于表征所述第一特征向量和第二特征向量之间的关系的多个向量序列。

在一个实施例中，所述将所述多个向量序列进行融合，以得到融合向量，包括：

将所述多个向量序列输入到LSTM网络中；

通过LSTM网络对所述多个向量序列进行融合编码，以得到融合向量。

在一个实施例中，根据所述融合向量确定所述多个问题分别对应的问题分类以及所述实体之间的关系分类，包括：

根据所述融合向量计算所述多个问题与所述肺癌临床数据库文本信息的相关程度；

确定与所述肺癌临床数据库文本信息的相关程度大于预设阈值的问题所对应的问题分类为是；

确定与所述肺癌临床数据库文本信息的相关程度小于预设阈值的问题所对应的问题分类为否；

根据所述融合向量计算多个实体对应各个预设关系分类的概率值；

确定最大概率值对应的关系分类为所述实体之间的关系分类。

本申请实施例还提供一种识别文本实体的方法，包括：

获取文本信息；

枚举与所述文本信息对应的实体相关的多个问题；

本申请的有益效果在于：能够同时确定实体相关的多个问题对应的问题分类以及实体之间的关系分类，而无需等待实体抽取步骤之后再确定关系分类，因此，提高了获取关系分类的效率，进而提高了识别文本实体的效率。

在一个实施例中，枚举与所述文本信息对应的实体相关的多个问题，包括：

基于预存储的医学术语对所述文本信息中的信息进行分词，得到所述文本信息对应的实体；

根据所述文本信息对应的实体枚举与所述实体相关的多个问题。

本实施例的有益效果在于：基于预存储的医学术语进行分词，从而使得分词结果都由医疗实体组成，使得实体的获取更加准确。

计算预设实体集与所述文本信息的相关度；

确定所述预设实体集中与所述文本信息的相关度大于预设值的多个实体为所述文本信息对应的实体；

将所述文本信息转化成第一特征向量；

将所述多个问题转化成多个第二特征向量；

将所述多个向量序列进行融合，以得到融合向量；

将所述多个向量序列输入到LSTM网络中；

根据所述融合向量计算所述多个问题与所述文本信息的相关程度；

确定与所述文本信息的相关程度大于预设阈值的问题所对应的问题分类为是；

确定与所述文本信息的相关程度小于预设阈值的问题所对应的问题分类为否；

本申请实施例还提供一种识别肺癌临床数据库文本实体的装置，包括：

接收模块，用于接收肺癌临床数据库文本信息；

生成模块，用于基于预设实体集生成与所述肺癌临床数据库文本信息对应的实体相关的多个问题；

确定模块，用于基于Attention机制确定所述多个问题所对应的问题分类以及所述实体之间的关系分类。

在一个实施例中，所述生成模块，包括：

计算子模块，用于计算预设实体集与所述肺癌临床数据库文本信息的相关度；

第一确定子模块，用于确定所述预设实体集中与所述肺癌临床数据库文本信息的相关度大于预设值的多个实体为所述肺癌临床数据库文本信息对应的实体；

生成子模块，用于根据所述肺癌临床数据库文本信息对应的实体生成与所述实体相关的多个问题。

在一个实施例中，所述确定模块，包括：

第一转化子模块，将所述肺癌临床数据库文本信息转化成第一特征向量；

第二转化子模块，将所述多个问题转化成多个第二特征向量；

计算子模块，基于Attention机制对第一特征特征向量以及所述多个第二特征向量进行计算，得到用于表征所述第一特征向量和第二特征向量之间的关系的多个向量序列；

融合子模块，将所述多个向量序列进行融合，以得到融合向量；

第二确定子模块，用于根据所述融合向量确定所述多个问题分别对应的问题分类以及所述实体之间的关系分类。

在一个实施例中，所述计算子模块，具体用于：

在一个实施例中，所述融合子模块，具体用于：

将所述多个向量序列输入到LSTM网络中；

在一个实施例中，所述第二确定子模块，具体用于：

本申请实施例还提供一种识别文本实体的装置，包括：

获取模块，用于获取文本信息；

枚举模块，用于枚举与所述文本信息对应的实体相关的多个问题；

在一个实施例中，所述枚举模块，包括：

分词子模块，用于基于预存储的医学术语对所述文本信息中的信息进行分词，得到所述文本信息对应的实体；

枚举子模块，用于根据所述文本信息对应的实体枚举与所述实体相关的多个问题。

在一个实施例中，所述确定模块，包括：

第一转化子模块，用于将所述文本信息转化成第一特征向量；

第二转化子模块，用于将所述多个问题转化成多个第二特征向量；

计算子模块，用于基于Attention机制对第一特征特征向量以及所述多个第二特征向量进行计算，得到用于表征所述第一特征向量和第二特征向量之间的关系的多个向量序列；

融合子模块，用于将所述多个向量序列进行融合，以得到融合向量；

确定子模块，用于根据所述融合向量确定所述多个问题分别对应的问题分类以及所述实体之间的关系分类。

本申请实施例还提供一种识别文本实体的装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取文本信息；

枚举与所述文本信息对应的实体相关的问题；

本申请实施例还提供一种非临时性可读存储介质，当所述存储介质中的指令由设备内的处理器执行时，使得所述设备能够执行一种识别文本实体的方法，所述方法包括：

获取文本信息；

枚举与所述文本信息对应的实体相关的问题；

附图说明

图1为本申请实施例的一种识别肺癌临床数据库文本实体的方法的流程图；

图2为本申请实施例的一种识别文本实体的方法的流程图；

图3A为本申请实施例的一种识别文本实体的方法的流程图；

图3B为本申请实施例确定实体相关的问题分类及关系分类的模型示意图；

图4为本申请实施例的一种识别文本实体的方法的流程图；

图5为本申请实施例的一种识别肺癌临床数据库文本实体的装置的框图；

图6为本申请实施例的一种识别文本实体的装置的框图；

图7为本申请实施例的一种识别文本实体的装置的框图；

图8为本申请实施例的一种识别文本实体的装置的框图。

具体实施方式

此处参考附图描述本申请的各种方案以及特征。

应理解的是，可以对此处申请的实施例做出各种修改。因此，上述说明书不应该视为限制，而仅是作为实施例的范例。本领域的技术人员将想到在本申请的范围和精神内的其他修改。

包含在说明书中并构成说明书的一部分的附图示出了本申请的实施例，并且与上面给出的对本申请的大致描述以及下面给出的对实施例的详细描述一起用于解释本申请的原理。

通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述，本申请的这些和其它特性将会变得显而易见。

还应当理解，尽管已经参照一些具体实例对本申请进行了描述，但本领域技术人员能够确定地实现本申请的很多其它等效形式，它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。

当结合附图时，鉴于以下详细说明，本申请的上述和其他方面、特征和优势将变得更为显而易见。

此后参照附图描述本申请的具体实施例；然而，应当理解，所申请的实施例仅仅是本申请的实例，其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本申请模糊不清。因此，本文所申请的具体的结构性和功能性细节并非意在限定，而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本申请。

本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”，其均可指代根据本申请的相同或不同实施例中的一个或多个。

图1为本申请实施例的一种识别肺癌临床数据库文本实体的方法，该方法可用于识别肺癌临床数据库文本信息的设备，该方法包括以下步骤S11-S13：

在步骤S11中，接收肺癌临床数据库文本信息；

在步骤S12中，基于预设实体集生成与肺癌临床数据库文本信息对应的实体相关的多个问题；

在步骤S13中，基于Attention机制确定多个问题所对应的问题分类以及实体之间的关系分类。

本实施例中，接收肺癌临床数据库文本信息；

具体的，可以是接收医院的医疗系统发送的需要进行识别的肺癌临床数据库文本信息，其中，该肺癌临床数据库文本信息是指记录有肺癌临床数据的结构化文本。例如，该文本包含如下信息：“XX患者5年前右肺诊断出肺癌，进行了肺叶切除术”。

基于预设实体集生成与肺癌临床数据库文本信息对应的实体相关的多个问题；

本地存储有预设实体集，该预设实体集中包含多个实体，例如，预存储有小肠、大肠、左肺、右肺、结肠、肠炎、肺癌、肠炎等实体，计算该预设实体集和上述肺癌临床数据库文本信息(“XX患者5年前右肺诊断出肺癌，进行了肺叶切除术”)的相关度，最后确定与肺癌临床数据库文本信息相关度大于预设值的目标实体为“右肺”和“肺癌”，即“右肺”和“肺癌”为与肺癌临床数据库文本信息对应的两个实体，根据与肺癌临床数据库文本信息对应的这两个实体生成与这两个实体相关的多个问题。

生成的问题如下：肺癌临床数据库文本信息中是否有“右肺”，肺癌临床数据库文本信息中是否有“肺癌”。

在枚举出这两个问题之后，基于Attention机制确定多个问题所对应的问题分类以及实体之间的关系分类。

该问题分类为“是”和“否”，而关系分类则包括部位关系，医疗手段关系等。

在一个实施例中，上述步骤S12可被实施为如下步骤A1-A3：

在步骤A1中，计算预设实体集与肺癌临床数据库文本信息的相关度；

在步骤A2中，确定预设实体集中与肺癌临床数据库文本信息的相关度大于预设值的多个实体为肺癌临床数据库文本信息对应的实体；

在步骤A3中，根据肺癌临床数据库文本信息对应的实体生成与实体相关的多个问题。

在一个实施例中，上述步骤S13可被实施为如下步骤B1-B5：

在步骤B1中，将肺癌临床数据库文本信息转化成第一特征向量；

在步骤B2中，将多个问题转化成多个第二特征向量；

在步骤B3中，基于Attention机制对第一特征特征向量以及多个第二特征向量进行计算，得到用于表征第一特征向量和第二特征向量之间的关系的多个向量序列；

在步骤B4中，将多个向量序列进行融合，以得到融合向量；

在步骤B5中，根据融合向量确定多个问题分别对应的问题分类以及实体之间的关系分类。

在一个实施例中，上述步骤B3可被实施为如下步骤C1-C2，包括：

在步骤C1中，基于Attention机制计算各个第二特征向量与第一特征向量之间的依赖关系；

在步骤C2中，根据各个第二特征向量与第一特征向量之间的依赖关系获得用于表征第一特征向量和第二特征向量之间的关系的多个向量序列。

在一个实施例中，上述步骤B4可被实施为如下步骤D1-D2：

在步骤D1中，将多个向量序列输入到LSTM网络中；

在步骤D2中，通过LSTM网络对多个向量序列进行融合编码，以得到融合向量。

在一个实施例中，上述步骤B5可被实施为如下步骤E1-E5：

在步骤E1中，根据融合向量计算多个问题与肺癌临床数据库文本信息的相关程度；

在步骤E2中，确定与肺癌临床数据库文本信息的相关程度大于预设阈值的问题所对应的问题分类为是；

在步骤E3中，确定与肺癌临床数据库文本信息的相关程度小于预设阈值的问题所对应的问题分类为否；

在步骤E4中，根据融合向量计算多个实体对应各个预设关系分类的概率值；

在步骤E5中，确定最大概率值对应的关系分类为实体之间的关系分类。

图2为本申请实施例的一种识别文本实体的方法，该方法可用于识别文本信息的设备，该方法包括以下步骤S21-S23：

在步骤S21中，获取文本信息；

在步骤S22中，枚举与所述文本信息对应的实体相关的多个问题；

在步骤S23中，基于Attention机制确定多个问题所对应的问题分类以及实体之间的关系分类。

本实施例中，获取文本信息；

该文本信息可以是病历文本信息，也可以是其他类型的文本信息，以病历信息为例，该病历信息可以为“XX患者5年前右肺诊断出肺癌，进行了肺叶切除术”，枚举与该文本信息对应的实体相关的多个问题，例如，第一个问题为“文本信息中是否存在右肺”，第二个问题为“文本信息中是否存在肺癌”。

需要说明的是，枚举与所述文本信息对应的实体相关的多个问题可以是用户基于文本信息中所记载的进行人工枚举，也可以是自动进行枚举，而自动进行枚举可以通过如下方式实现：

方式一

通过分词方式确定文本信息对应的实体，然后根据确定的实体自动枚举与实体相关的多个问题，当通过分词方式自动枚举时，基于预存储的医学术语对文本信息中的信息进行分词，得到文本信息对应的实体，根据实体枚举与实体相关的多个问题。

当然，如果文本信息所在文本不是病历文本，而是其他类型的文本时，也可以根据该文本相关领域的术语词典进行分词，或者基于常规分词机制进行分词。

方式二

可以通过预设一实体集，然后计算预设实体集与所述文本信息的相关度；确定所述预设实体集中与所述文本信息的相关度大于预设值的多个实体为所述文本信息对应的实体；根据所述文本信息对应的实体枚举与所述实体相关的多个问题。

在一个实施例中，上述步骤S22可被实施为如下步骤F1-F2：

在步骤F1中，基于预存储的医学术语对文本信息中的信息进行分词，得到文本信息对应的实体；

在步骤F2中，根据所述文本信息对应的实体枚举与所述实体相关的多个问题。

本实施例中，基于预存储的医学术语对文本信息中的信息进行分词，得到文本信息对应的实体；该预存储的医学术语可以是基于汉化版的国际医学用语词典中获取的医学术语。根据文本信息对应的实体枚举与实体相关的多个问题。

举例而言，该文本信息为“XX患者5年前右肺诊断出肺癌，进行了肺叶切除术”，其中，“右肺”、“肺癌”、“肺叶切除术”为医学术语，因此，抽取出来的三个实体为“右肺”、“肺癌”、“肺叶切除术”。此时，可以枚举与这三个实体相关的问题。

在一个实施例中，上述步骤S22可被实施为如下步骤G1-G3：

在步骤G1中，计算预设实体集与所述文本信息的相关度；

在步骤G2中，确定所述预设实体集中与所述文本信息的相关度大于预设值的多个实体为所述文本信息对应的实体；

在步骤G3中，根据所述文本信息对应的实体枚举与所述实体相关的多个问题。

举例而言，本实施例中，本地存储有预设实体集，该预设实体集中包含多个实体，例如，预存储有小肠、大肠、左肺、右肺、结肠、肠炎、肺癌、肠炎等实体，而文本信息为“XX患者5年前右肺诊断出肺癌，进行了肺叶切除术”。计算预设实体集与文本信息的相关度，最后确定与文本信息相关度大于预设值的目标实体为“右肺”和“肺癌”，即“右肺”和“肺癌”为与文本信息对应的两个实体，根据与文本信息对应的这两个实体枚举与这两个实体相关的多个问题。例如，文本信息中是否有“右肺”，文本信息中是否有“肺癌”。

在一个实施例中，如图3A所示，上述步骤S23可被实施为如下步骤S31-S35：

在步骤S31中，将文本信息转化成第一特征向量；

在步骤S32中，将多个问题转化成多个第二特征向量；

在步骤S33中，基于Attention机制对第一特征特征向量以及多个第二特征向量进行计算，得到用于表征第一特征向量和第二特征向量之间的关系的多个向量序列；

在步骤S34中，将多个向量序列进行融合，以得到融合向量；

在步骤S35中，根据融合向量确定多个问题分别对应的问题分类以及实体之间的关系分类。

本实施例中，可以将文本信息转化成第一特征向量；将多个问题转化成多个第二特征向量；这样做的作用是使得转化后的文本信息和多个问题可以被如计算机、手机、平板电脑、智能穿戴设备等一系列计算处理能力的智能设备识别。在将文本信息转化成第一特征向量，且将多个问题转化成多个第二特征向量之后，基于Attention机制对第一特征特征向量以及多个第二特征向量进行计算，得到用于表征第一特征向量和第二特征向量之间的关系的多个向量序列；然后将上述多个向量序列进行融合，以得到融合向量；根据融合向量确定多个问题分别对应的问题分类以及实体之间的关系分类。

Attention机制是一种能让模型对重要信息重点关注并充分学习吸收的技术，能够作用于任何序列模型中。

基于Attention机制确定多个问题所对应的问题分类以及实体之间的关系分类通过两个步骤实现：第一步：针对单个问题来讲，建立该问题对应的第二特征向量和文本信息对应的第一特征向量中每一维向量的注意力权重；第二步：将注意力权重向量进行softmax归一化，并与文本信息对应的第一特征向量中所有的词向量进行线性加权。形成用于表征第一特征向量和第二特征向量之间的关系的多个向量序列。其中，向量的每一维元素都是一个概率值。

具体的，可以构建一个模型来实现上述实施例的功能，构建的模型示意图如图3B所示，该模型从下向上依次为：

输入层：用于输入通过步骤S21获取的文本信息，以及与该文本信息中的实体相关的多个问题。

例如，文本信息为“XX患者5年前右肺诊断出肺癌，进行了肺叶切除术”，根据文本信息枚举两个问题，第一个问题为“文本信息中是否有右肺”；第二个问题为“文本信息中是否有肺癌”。将该文本信息和枚举的两个问题输入到输入层。

第二层是编码层，由双向的LSTM(Long Short-Term Memory，长短期记忆)网络构成：用于执行上述步骤S21-S22，即用于将文本信息转化成第一特征向量，以及将多个问题转化成多个第二特征向量。具体的，将文本信息以及枚举的多个问题经过双向的LSTM网络，从该LSTM网络的输出层得到第一特征向量以及多个第二特征向量。

第三层是Attention层，用于对第一特征向量和第二特征向量的关系进行计算，并输出用于表征第一特征向量和第二特征向量的关系的向量序列。

第四层也是编码层，由双向的LSTM网络构成，与第二层所不同的是，第四层用于对Attention层输出的向量序列进行融合编码，从而形成融合向量。并将融合向量输出。

第五层是输出层，用于根据第四层输出的融合向量确定多个问题分别对应的问题分类以及实体之间的关系分类，然后将多个问题分别对应的问题分类以及实体之间的关系分类输出，根据计算得到：最终输出的第一个问题对应的问题分类为“是”；输出的第二个问题对应的问题分类为“是”；输出的关系分类为“部位关系”。

需要说明的是，由于根据融合向量确定问题分类和实体之间的关系分类是通过同一个模型去计算的，所以，问题分类的确定步骤和关系分类的确定步骤是同步进行的，即在模型学习过程中，既可以学习到问题分类相关的知识，也可以学习到关系分类的知识，因此，两类知识在学习过程中，参数是共享的，进而，二者可以起到相互帮助的作用，例如，识别“肺癌”和“右肺”的时候，因为有部位关系分类的信息存在，使得模型会抑制把“右肺”识别成其它实体的可能性。

也就是说，在确定问题分类和关系分类过程中，两种确定方案之间的中间步骤是可以相互印证的。问题分类时，关系分类学习过程中的参数可以传递到问题分类步骤中，问题分类步骤可以参考关系分类学习过程中的参数进行问题分类，同样的道理，在关系分类时，问题分类学习过程的参数可以传递到关系分类步骤中，关系分类步骤也可以参考问题分类的参数进行关系分类。从而提升对文本信息实体识别的准确度。

在一个实施例中，上述步骤S33可被实施为如下步骤H1-H2，包括：

在步骤H1中，基于Attention机制计算各个第二特征向量与第一特征向量之间的依赖关系；

在步骤H2中，根据各个第二特征向量与第一特征向量之间的依赖关系获得用于表征第一特征向量和第二特征向量之间的关系的多个向量序列。

本实施例中，基于Attention机制计算各个第二特征向量与第一特征向量之间的依赖关系，然后根据该依赖关系获得表征第一特征向量、多个第二特征向量分别存在的关系的多个向量序列，其中，每个向量序列表征第一特征向量和多个第二特征向量中的其中一个之间的关系。

本实施例巧妙地利用了Attention机制，计算出输入的第一特征向量和多个第二特征向量之间的关系。由于第一特征向量是由文本信息转化而来的，而第二特征向量是由枚举的实体相关的问题转化而来的，因此，计算出第一特征向量和第二特征向量之间的关系，相当于得到了各个实体相关的问题与文本信息的关系，从而可以参照文本信息得到实体之间的关系分类，另外，计算出第一特征向量和第二特征向量之间的关系，也相当于得到实体与问题之间的关系，即问题的答案，故可以得到实体相关的问题分类，因此，计算出输入的第一特征向量和第二特征向量之间的关系，可以同时确定实体相关的问题分类以及实体之间的关系分类。

在一个实施例中，上述步骤S34可被实施为如下步骤I1-I2：

在步骤I1中，将多个向量序列输入到LSTM网络中；

在步骤I2中，通过LSTM网络对多个向量序列进行融合编码，以得到融合向量。

在一个实施例中，如图4所示，上述步骤S35可被实施为如下步骤S41-S45，包括：

在步骤S41中，根据融合向量计算多个问题与文本信息的相关程度；

在步骤S42中，确定与文本信息的相关程度大于预设阈值的问题所对应的问题分类为是；

在步骤S43中，确定与文本信息的相关程度小于预设阈值的问题所对应的问题分类为否；

在步骤S44中，根据所述融合向量计算多个实体对应各个预设关系分类的概率值；

在步骤S45中，确定最大概率值对应的关系分类为实体之间的关系分类。

本实施例中，由于融合向量是由表征第一特征向量和第二特征向量之间的关系的多个向量序列构成的，而第一特征向量是由目标病历转化成的，第二特征向量是由枚举的问题转化成的，可以理解为融合向量中包含了多个问题与文本信息之间的关系，因此，可以根据该融合向量计算多个问题与文本信息的相关程度。可以理解的是，相关程度越大，说明枚举的问题出现在目标病历中的概率也就越大，而问题分类包括肯定分类(即结果为是)和否定分类(即结果为否)，因此，可以预先设置一阈值，然后确定文本信息的相关程度大于预设阈值的问题所对应的问题分类为是；确定与文本信息的相关程度小于预设阈值的问题所对应的问题分类为否。

另外，在计算关系分类时，可以根据所述融合向量分别计算多个实体对应各个预设关系分类的概率值；确定最大概率值对应的关系分类为实体之间的关系分类。

图5为本申请实施例的一种识别肺癌临床数据库文本实体的装置，该装置可用于识别肺癌临床数据库文本信息的设备，该装置包括以下模块：

接收模块51，用于接收肺癌临床数据库文本信息；

生成模块52，用于基于预设实体集生成与所述肺癌临床数据库文本信息对应的实体相关的多个问题；

确定模块53，用于基于Attention机制确定所述多个问题所对应的问题分类以及所述实体之间的关系分类。

在一个实施例中，所述生成模块52，包括：

在一个实施例中，所述确定模块53，包括：

在一个实施例中，所述计算子模块，具体用于：

在一个实施例中，所述融合子模块，具体用于：

将所述多个向量序列输入到LSTM网络中；

在一个实施例中，所述第二确定子模块，具体用于：

图6为本申请实施例的一种识别文本实体的装置，该装置可用于识别文本信息的设备，该装置包括以下模块：

获取模块61，用于获取文本信息；

枚举模块62，用于枚举与所述文本信息对应的实体相关的多个问题；

确定模块63，用于基于Attention机制确定所述多个问题所对应的问题分类以及所述实体之间的关系分类。

在一个实施例中，如图7所示，枚举模块62，包括：

分词子模块71，用于基于预存储的医学术语对文本信息中的信息进行分词，得到文本信息对应的实体；

枚举子模块72，用于根据所述文本信息对应的实体枚举与所述实体相关的多个问题。

在一个实施例中，如图8所示，确定模块63，包括：

第一转化子模块81，用于将文本信息转化成第一特征向量；

第二转化子模块82，用于将多个问题转化成多个第二特征向量；

计算子模块83，用于基于Attention机制对第一特征特征向量以及多个第二特征向量进行计算，得到用于表征第一特征向量和第二特征向量之间的关系的多个向量序列；

融合子模块84，用于将多个向量序列进行融合，以得到融合向量；

确定子模块85，用于根据融合向量确定多个问题分别对应的问题分类以及实体之间的关系分类。

本申请实施例还提供一种识别文本实体的装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取文本信息；

枚举与所述文本信息对应的实体相关的问题；

获取文本信息；

枚举与所述文本信息对应的实体相关的问题；

以上实施例仅为本申请的示例性实施例，不用于限制本申请，本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内，对本申请做出各种修改或等同替换，这种修改或等同替换也应视为落在本申请的保护范围内。

Claims

1.一种识别肺癌临床数据库文本实体的方法，其特征在于，包括：

接收肺癌临床数据库文本信息；

2.一种识别文本实体的方法，其特征在于，包括：

获取文本信息；

枚举与所述文本信息对应的实体相关的多个问题；

3.如权利要求2所述的方法，其特征在于，枚举与所述文本信息对应的实体相关的多个问题，包括：

4.如权利要求2所述的方法，其特征在于，枚举与所述文本信息对应的实体相关的多个问题，包括：

计算预设实体集与所述文本信息的相关度；

5.如权利要求2所述的方法，其特征在于，所述基于Attention机制确定所述多个问题所对应的问题分类以及所述实体之间的关系分类，包括：

将所述文本信息转化成第一特征向量；

将所述多个问题转化成多个第二特征向量；

将所述多个向量序列进行融合，以得到融合向量；

6.如权利要求5所述的方法，其特征在于，基于Attention机制对第一特征特征向量以及所述多个第二特征向量进行计算，得到用于表征所述第一特征向量和第二特征向量之间的关系的多个向量序列，包括：

7.如权利要求5所述的方法，其特征在于，所述将所述多个向量序列进行融合，以得到融合向量，包括：

将所述多个向量序列输入到LSTM网络中；

8.如权利要求5-7任意一项所述的方法，其特征在于，根据所述融合向量确定所述多个问题分别对应的问题分类以及所述实体之间的关系分类，包括：

9.一种识别肺癌临床数据库文本实体的装置，其特征在于，包括：

接收模块，用于接收肺癌临床数据库文本信息；

10.一种识别文本实体的装置，其特征在于，包括：

获取模块，用于获取文本信息；