CN111191035A - 一种识别肺癌临床数据库文本实体的方法及装置 - Google Patents

一种识别肺癌临床数据库文本实体的方法及装置 Download PDF

Info

Publication number
CN111191035A
CN111191035A CN201911396284.XA CN201911396284A CN111191035A CN 111191035 A CN111191035 A CN 111191035A CN 201911396284 A CN201911396284 A CN 201911396284A CN 111191035 A CN111191035 A CN 111191035A
Authority
CN
China
Prior art keywords
text information
entities
vector
entity
lung cancer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911396284.XA
Other languages
English (en)
Other versions
CN111191035B (zh
Inventor
李为民
倪浩
王成弟
刘丹
任鹏伟
邵俊
郑永升
石磊
梁平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yitu Healthcare Technology Co ltd
West China Hospital of Sichuan University
Original Assignee
Hangzhou Yitu Healthcare Technology Co ltd
West China Hospital of Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yitu Healthcare Technology Co ltd, West China Hospital of Sichuan University filed Critical Hangzhou Yitu Healthcare Technology Co ltd
Priority to CN201911396284.XA priority Critical patent/CN111191035B/zh
Publication of CN111191035A publication Critical patent/CN111191035A/zh
Application granted granted Critical
Publication of CN111191035B publication Critical patent/CN111191035B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种识别肺癌临床数据库文本实体的方法及装置,用以提高获取关系分类的效率,所述方法包括:接收肺癌临床数据库文本信息;基于预设实体集生成与所述肺癌临床数据库文本信息对应的实体相关的多个问题;基于Attention机制确定所述多个问题所对应的问题分类以及所述实体之间的关系分类。采用本申请所公开的方案,能够同时确定实体相关的多个问题对应的问题分类以及实体之间的关系分类,而无需等待实体抽取步骤之后再确定关系分类,因此,提高了获取关系分类的效率,进而提高了识别肺癌临床数据库文本实体的效率。

Description

一种识别肺癌临床数据库文本实体的方法及装置
技术领域
本申请涉及人工智能领域,特别涉及一种识别肺癌临床数据库文本实体的方法及装置。
背景技术
从文本信息中抽取实体和对实体进行关系分类是识别文本实体的主要方式,是进行语义理解的前提。例如,当文本信息为一份关于肺癌的临床病历信息时,该病历信息中记载了“XX患者5年前右肺诊断出肺癌,进行了肺叶切除术”,可以从里面抽取出“右肺”、“肺癌”、“肺叶切除术”等实体,并且可以基于这些实体进行关系分类,例如,分类出“肺癌”和“右肺”的关系为部位关系,这样就可以知道该患者在什么部位患了些什么疾病,做了什么手术等。
现有技术中,在识别文本实体时,实体抽取和关系分类是需要分先后顺序进行的,首先需要进行实体抽取,然后再基于抽取的实体进行关系分类。也就是说,在对实体进行关系分类之前,需要等待实体抽取结束,然后基于抽取出的实体进行关系分类,因此,识别文本实体的效率较低,因此,在识别文本实体时,特别是在识别肺癌临床数据库文本实体时,如何提高实体的问题分类和关系分类的识别效率,从而提高识别文本实体的效率,是一亟待解决的技术问题。
发明内容
本申请实施例的目的在于提供一种识别肺癌临床数据库文本实体的方法及装置,用以提高获取关系分类的效率。
本申请实施例提供一种识别肺癌临床数据库文本实体的方法,包括:
接收肺癌临床数据库文本信息;
基于预设实体集生成与所述肺癌临床数据库文本信息对应的实体相关的多个问题;
基于Attention机制确定所述多个问题所对应的问题分类以及所述实体之间的关系分类。
本申请的有益效果在于:能够同时确定实体相关的多个问题对应的问题分类以及实体之间的关系分类,而无需等待实体抽取步骤之后再确定关系分类,因此,提高了获取关系分类的效率,进而提高了识别肺癌临床数据库文本实体的效率。
在一个实施例中,基于预设实体集生成与所述肺癌临床数据库文本信息对应的实体相关的多个问题,包括:
计算预设实体集与所述肺癌临床数据库文本信息的相关度;
确定所述预设实体集中与所述肺癌临床数据库文本信息的相关度大于预设值的多个实体为所述肺癌临床数据库文本信息对应的实体;
根据所述肺癌临床数据库文本信息对应的实体生成与所述实体相关的多个问题。
在一个实施例中,所述基于Attention机制确定所述多个问题所对应的问题分类以及所述实体之间的关系分类,包括:
将所述肺癌临床数据库文本信息转化成第一特征向量;
将所述多个问题转化成多个第二特征向量;
基于Attention机制对第一特征特征向量以及所述多个第二特征向量进行计算,得到用于表征所述第一特征向量和第二特征向量之间的关系的多个向量序列;
将所述多个向量序列进行融合,以得到融合向量;
根据所述融合向量确定所述多个问题分别对应的问题分类以及所述实体之间的关系分类。
在一个实施例中,基于Attention机制对第一特征特征向量以及所述多个第二特征向量进行计算,得到用于表征所述第一特征向量和第二特征向量之间的关系的多个向量序列,包括:
基于Attention机制计算各个第二特征向量与所述第一特征向量之间的依赖关系;
根据所述各个第二特征向量与所述第一特征向量之间的依赖关系获得用于表征所述第一特征向量和第二特征向量之间的关系的多个向量序列。
在一个实施例中,所述将所述多个向量序列进行融合,以得到融合向量,包括:
将所述多个向量序列输入到LSTM网络中;
通过LSTM网络对所述多个向量序列进行融合编码,以得到融合向量。
在一个实施例中,根据所述融合向量确定所述多个问题分别对应的问题分类以及所述实体之间的关系分类,包括:
根据所述融合向量计算所述多个问题与所述肺癌临床数据库文本信息的相关程度;
确定与所述肺癌临床数据库文本信息的相关程度大于预设阈值的问题所对应的问题分类为是;
确定与所述肺癌临床数据库文本信息的相关程度小于预设阈值的问题所对应的问题分类为否;
根据所述融合向量计算多个实体对应各个预设关系分类的概率值;
确定最大概率值对应的关系分类为所述实体之间的关系分类。
本申请实施例还提供一种识别文本实体的方法,包括:
获取文本信息;
枚举与所述文本信息对应的实体相关的多个问题;
基于Attention机制确定所述多个问题所对应的问题分类以及所述实体之间的关系分类。
本申请的有益效果在于:能够同时确定实体相关的多个问题对应的问题分类以及实体之间的关系分类,而无需等待实体抽取步骤之后再确定关系分类,因此,提高了获取关系分类的效率,进而提高了识别文本实体的效率。
在一个实施例中,枚举与所述文本信息对应的实体相关的多个问题,包括:
基于预存储的医学术语对所述文本信息中的信息进行分词,得到所述文本信息对应的实体;
根据所述文本信息对应的实体枚举与所述实体相关的多个问题。
本实施例的有益效果在于:基于预存储的医学术语进行分词,从而使得分词结果都由医疗实体组成,使得实体的获取更加准确。
在一个实施例中,枚举与所述文本信息对应的实体相关的多个问题,包括:
计算预设实体集与所述文本信息的相关度;
确定所述预设实体集中与所述文本信息的相关度大于预设值的多个实体为所述文本信息对应的实体;
根据所述文本信息对应的实体枚举与所述实体相关的多个问题。
在一个实施例中,所述基于Attention机制确定所述多个问题所对应的问题分类以及所述实体之间的关系分类,包括:
将所述文本信息转化成第一特征向量;
将所述多个问题转化成多个第二特征向量;
基于Attention机制对第一特征特征向量以及所述多个第二特征向量进行计算,得到用于表征所述第一特征向量和第二特征向量之间的关系的多个向量序列;
将所述多个向量序列进行融合,以得到融合向量;
根据所述融合向量确定所述多个问题分别对应的问题分类以及所述实体之间的关系分类。
在一个实施例中,基于Attention机制对第一特征特征向量以及所述多个第二特征向量进行计算,得到用于表征所述第一特征向量和第二特征向量之间的关系的多个向量序列,包括:
基于Attention机制计算各个第二特征向量与所述第一特征向量之间的依赖关系;
根据所述各个第二特征向量与所述第一特征向量之间的依赖关系获得用于表征所述第一特征向量和第二特征向量之间的关系的多个向量序列。
在一个实施例中,所述将所述多个向量序列进行融合,以得到融合向量,包括:
将所述多个向量序列输入到LSTM网络中;
通过LSTM网络对所述多个向量序列进行融合编码,以得到融合向量。
在一个实施例中,根据所述融合向量确定所述多个问题分别对应的问题分类以及所述实体之间的关系分类,包括:
根据所述融合向量计算所述多个问题与所述文本信息的相关程度;
确定与所述文本信息的相关程度大于预设阈值的问题所对应的问题分类为是;
确定与所述文本信息的相关程度小于预设阈值的问题所对应的问题分类为否;
根据所述融合向量计算多个实体对应各个预设关系分类的概率值;
确定最大概率值对应的关系分类为所述实体之间的关系分类。
本申请实施例还提供一种识别肺癌临床数据库文本实体的装置,包括:
接收模块,用于接收肺癌临床数据库文本信息;
生成模块,用于基于预设实体集生成与所述肺癌临床数据库文本信息对应的实体相关的多个问题;
确定模块,用于基于Attention机制确定所述多个问题所对应的问题分类以及所述实体之间的关系分类。
在一个实施例中,所述生成模块,包括:
计算子模块,用于计算预设实体集与所述肺癌临床数据库文本信息的相关度;
第一确定子模块,用于确定所述预设实体集中与所述肺癌临床数据库文本信息的相关度大于预设值的多个实体为所述肺癌临床数据库文本信息对应的实体;
生成子模块,用于根据所述肺癌临床数据库文本信息对应的实体生成与所述实体相关的多个问题。
在一个实施例中,所述确定模块,包括:
第一转化子模块,将所述肺癌临床数据库文本信息转化成第一特征向量;
第二转化子模块,将所述多个问题转化成多个第二特征向量;
计算子模块,基于Attention机制对第一特征特征向量以及所述多个第二特征向量进行计算,得到用于表征所述第一特征向量和第二特征向量之间的关系的多个向量序列;
融合子模块,将所述多个向量序列进行融合,以得到融合向量;
第二确定子模块,用于根据所述融合向量确定所述多个问题分别对应的问题分类以及所述实体之间的关系分类。
在一个实施例中,所述计算子模块,具体用于:
基于Attention机制计算各个第二特征向量与所述第一特征向量之间的依赖关系;
根据所述各个第二特征向量与所述第一特征向量之间的依赖关系获得用于表征所述第一特征向量和第二特征向量之间的关系的多个向量序列。
在一个实施例中,所述融合子模块,具体用于:
将所述多个向量序列输入到LSTM网络中;
通过LSTM网络对所述多个向量序列进行融合编码,以得到融合向量。
在一个实施例中,所述第二确定子模块,具体用于:
根据所述融合向量计算所述多个问题与所述肺癌临床数据库文本信息的相关程度;
确定与所述肺癌临床数据库文本信息的相关程度大于预设阈值的问题所对应的问题分类为是;
确定与所述肺癌临床数据库文本信息的相关程度小于预设阈值的问题所对应的问题分类为否;
根据所述融合向量计算多个实体对应各个预设关系分类的概率值;
确定最大概率值对应的关系分类为所述实体之间的关系分类。
本申请实施例还提供一种识别文本实体的装置,包括:
获取模块,用于获取文本信息;
枚举模块,用于枚举与所述文本信息对应的实体相关的多个问题;
确定模块,用于基于Attention机制确定所述多个问题所对应的问题分类以及所述实体之间的关系分类。
在一个实施例中,所述枚举模块,包括:
分词子模块,用于基于预存储的医学术语对所述文本信息中的信息进行分词,得到所述文本信息对应的实体;
枚举子模块,用于根据所述文本信息对应的实体枚举与所述实体相关的多个问题。
在一个实施例中,所述确定模块,包括:
第一转化子模块,用于将所述文本信息转化成第一特征向量;
第二转化子模块,用于将所述多个问题转化成多个第二特征向量;
计算子模块,用于基于Attention机制对第一特征特征向量以及所述多个第二特征向量进行计算,得到用于表征所述第一特征向量和第二特征向量之间的关系的多个向量序列;
融合子模块,用于将所述多个向量序列进行融合,以得到融合向量;
确定子模块,用于根据所述融合向量确定所述多个问题分别对应的问题分类以及所述实体之间的关系分类。
本申请实施例还提供一种识别文本实体的装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取文本信息;
枚举与所述文本信息对应的实体相关的问题;
基于Attention机制确定所述多个问题所对应的问题分类以及所述实体之间的关系分类。
本申请实施例还提供一种非临时性可读存储介质,当所述存储介质中的指令由设备内的处理器执行时,使得所述设备能够执行一种识别文本实体的方法,所述方法包括:
获取文本信息;
枚举与所述文本信息对应的实体相关的问题;
基于Attention机制确定所述多个问题所对应的问题分类以及所述实体之间的关系分类。
附图说明
图1为本申请实施例的一种识别肺癌临床数据库文本实体的方法的流程图;
图2为本申请实施例的一种识别文本实体的方法的流程图;
图3A为本申请实施例的一种识别文本实体的方法的流程图;
图3B为本申请实施例确定实体相关的问题分类及关系分类的模型示意图;
图4为本申请实施例的一种识别文本实体的方法的流程图;
图5为本申请实施例的一种识别肺癌临床数据库文本实体的装置的框图;
图6为本申请实施例的一种识别文本实体的装置的框图;
图7为本申请实施例的一种识别文本实体的装置的框图;
图8为本申请实施例的一种识别文本实体的装置的框图。
具体实施方式
此处参考附图描述本申请的各种方案以及特征。
应理解的是,可以对此处申请的实施例做出各种修改。因此,上述说明书不应该视为限制,而仅是作为实施例的范例。本领域的技术人员将想到在本申请的范围和精神内的其他修改。
包含在说明书中并构成说明书的一部分的附图示出了本申请的实施例,并且与上面给出的对本申请的大致描述以及下面给出的对实施例的详细描述一起用于解释本申请的原理。
通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述,本申请的这些和其它特性将会变得显而易见。
还应当理解,尽管已经参照一些具体实例对本申请进行了描述,但本领域技术人员能够确定地实现本申请的很多其它等效形式,它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。
当结合附图时,鉴于以下详细说明,本申请的上述和其他方面、特征和优势将变得更为显而易见。
此后参照附图描述本申请的具体实施例;然而,应当理解,所申请的实施例仅仅是本申请的实例,其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本申请模糊不清。因此,本文所申请的具体的结构性和功能性细节并非意在限定,而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本申请。
本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”,其均可指代根据本申请的相同或不同实施例中的一个或多个。
图1为本申请实施例的一种识别肺癌临床数据库文本实体的方法,该方法可用于识别肺癌临床数据库文本信息的设备,该方法包括以下步骤S11-S13:
在步骤S11中,接收肺癌临床数据库文本信息;
在步骤S12中,基于预设实体集生成与肺癌临床数据库文本信息对应的实体相关的多个问题;
在步骤S13中,基于Attention机制确定多个问题所对应的问题分类以及实体之间的关系分类。
本实施例中,接收肺癌临床数据库文本信息;
具体的,可以是接收医院的医疗系统发送的需要进行识别的肺癌临床数据库文本信息,其中,该肺癌临床数据库文本信息是指记录有肺癌临床数据的结构化文本。例如,该文本包含如下信息:“XX患者5年前右肺诊断出肺癌,进行了肺叶切除术”。
基于预设实体集生成与肺癌临床数据库文本信息对应的实体相关的多个问题;
本地存储有预设实体集,该预设实体集中包含多个实体,例如,预存储有小肠、大肠、左肺、右肺、结肠、肠炎、肺癌、肠炎等实体,计算该预设实体集和上述肺癌临床数据库文本信息(“XX患者5年前右肺诊断出肺癌,进行了肺叶切除术”)的相关度,最后确定与肺癌临床数据库文本信息相关度大于预设值的目标实体为“右肺”和“肺癌”,即“右肺”和“肺癌”为与肺癌临床数据库文本信息对应的两个实体,根据与肺癌临床数据库文本信息对应的这两个实体生成与这两个实体相关的多个问题。
生成的问题如下:肺癌临床数据库文本信息中是否有“右肺”,肺癌临床数据库文本信息中是否有“肺癌”。
在枚举出这两个问题之后,基于Attention机制确定多个问题所对应的问题分类以及实体之间的关系分类。
该问题分类为“是”和“否”,而关系分类则包括部位关系,医疗手段关系等。
本申请的有益效果在于:能够同时确定实体相关的多个问题对应的问题分类以及实体之间的关系分类,而无需等待实体抽取步骤之后再确定关系分类,因此,提高了获取关系分类的效率,进而提高了识别文本实体的效率。
在一个实施例中,上述步骤S12可被实施为如下步骤A1-A3:
在步骤A1中,计算预设实体集与肺癌临床数据库文本信息的相关度;
在步骤A2中,确定预设实体集中与肺癌临床数据库文本信息的相关度大于预设值的多个实体为肺癌临床数据库文本信息对应的实体;
在步骤A3中,根据肺癌临床数据库文本信息对应的实体生成与实体相关的多个问题。
在一个实施例中,上述步骤S13可被实施为如下步骤B1-B5:
在步骤B1中,将肺癌临床数据库文本信息转化成第一特征向量;
在步骤B2中,将多个问题转化成多个第二特征向量;
在步骤B3中,基于Attention机制对第一特征特征向量以及多个第二特征向量进行计算,得到用于表征第一特征向量和第二特征向量之间的关系的多个向量序列;
在步骤B4中,将多个向量序列进行融合,以得到融合向量;
在步骤B5中,根据融合向量确定多个问题分别对应的问题分类以及实体之间的关系分类。
在一个实施例中,上述步骤B3可被实施为如下步骤C1-C2,包括:
在步骤C1中,基于Attention机制计算各个第二特征向量与第一特征向量之间的依赖关系;
在步骤C2中,根据各个第二特征向量与第一特征向量之间的依赖关系获得用于表征第一特征向量和第二特征向量之间的关系的多个向量序列。
在一个实施例中,上述步骤B4可被实施为如下步骤D1-D2:
在步骤D1中,将多个向量序列输入到LSTM网络中;
在步骤D2中,通过LSTM网络对多个向量序列进行融合编码,以得到融合向量。
在一个实施例中,上述步骤B5可被实施为如下步骤E1-E5:
在步骤E1中,根据融合向量计算多个问题与肺癌临床数据库文本信息的相关程度;
在步骤E2中,确定与肺癌临床数据库文本信息的相关程度大于预设阈值的问题所对应的问题分类为是;
在步骤E3中,确定与肺癌临床数据库文本信息的相关程度小于预设阈值的问题所对应的问题分类为否;
在步骤E4中,根据融合向量计算多个实体对应各个预设关系分类的概率值;
在步骤E5中,确定最大概率值对应的关系分类为实体之间的关系分类。
图2为本申请实施例的一种识别文本实体的方法,该方法可用于识别文本信息的设备,该方法包括以下步骤S21-S23:
在步骤S21中,获取文本信息;
在步骤S22中,枚举与所述文本信息对应的实体相关的多个问题;
在步骤S23中,基于Attention机制确定多个问题所对应的问题分类以及实体之间的关系分类。
本实施例中,获取文本信息;
该文本信息可以是病历文本信息,也可以是其他类型的文本信息,以病历信息为例,该病历信息可以为“XX患者5年前右肺诊断出肺癌,进行了肺叶切除术”,枚举与该文本信息对应的实体相关的多个问题,例如,第一个问题为“文本信息中是否存在右肺”,第二个问题为“文本信息中是否存在肺癌”。
需要说明的是,枚举与所述文本信息对应的实体相关的多个问题可以是用户基于文本信息中所记载的进行人工枚举,也可以是自动进行枚举,而自动进行枚举可以通过如下方式实现:
方式一
通过分词方式确定文本信息对应的实体,然后根据确定的实体自动枚举与实体相关的多个问题,当通过分词方式自动枚举时,基于预存储的医学术语对文本信息中的信息进行分词,得到文本信息对应的实体,根据实体枚举与实体相关的多个问题。
当然,如果文本信息所在文本不是病历文本,而是其他类型的文本时,也可以根据该文本相关领域的术语词典进行分词,或者基于常规分词机制进行分词。
方式二
可以通过预设一实体集,然后计算预设实体集与所述文本信息的相关度;确定所述预设实体集中与所述文本信息的相关度大于预设值的多个实体为所述文本信息对应的实体;根据所述文本信息对应的实体枚举与所述实体相关的多个问题。
在枚举出这两个问题之后,基于Attention机制确定多个问题所对应的问题分类以及实体之间的关系分类。
该问题分类为“是”和“否”,而关系分类则包括部位关系,医疗手段关系等。
本申请的有益效果在于:能够同时确定实体相关的多个问题对应的问题分类以及实体之间的关系分类,而无需等待实体抽取步骤之后再确定关系分类,因此,提高了获取关系分类的效率,进而提高了识别文本实体的效率。
在一个实施例中,上述步骤S22可被实施为如下步骤F1-F2:
在步骤F1中,基于预存储的医学术语对文本信息中的信息进行分词,得到文本信息对应的实体;
在步骤F2中,根据所述文本信息对应的实体枚举与所述实体相关的多个问题。
本实施例中,基于预存储的医学术语对文本信息中的信息进行分词,得到文本信息对应的实体;该预存储的医学术语可以是基于汉化版的国际医学用语词典中获取的医学术语。根据文本信息对应的实体枚举与实体相关的多个问题。
举例而言,该文本信息为“XX患者5年前右肺诊断出肺癌,进行了肺叶切除术”,其中,“右肺”、“肺癌”、“肺叶切除术”为医学术语,因此,抽取出来的三个实体为“右肺”、“肺癌”、“肺叶切除术”。此时,可以枚举与这三个实体相关的问题。
本实施例的有益效果在于:基于预存储的医学术语进行分词,从而使得分词结果都由医疗实体组成,使得实体的获取更加准确。
在一个实施例中,上述步骤S22可被实施为如下步骤G1-G3:
在步骤G1中,计算预设实体集与所述文本信息的相关度;
在步骤G2中,确定所述预设实体集中与所述文本信息的相关度大于预设值的多个实体为所述文本信息对应的实体;
在步骤G3中,根据所述文本信息对应的实体枚举与所述实体相关的多个问题。
举例而言,本实施例中,本地存储有预设实体集,该预设实体集中包含多个实体,例如,预存储有小肠、大肠、左肺、右肺、结肠、肠炎、肺癌、肠炎等实体,而文本信息为“XX患者5年前右肺诊断出肺癌,进行了肺叶切除术”。计算预设实体集与文本信息的相关度,最后确定与文本信息相关度大于预设值的目标实体为“右肺”和“肺癌”,即“右肺”和“肺癌”为与文本信息对应的两个实体,根据与文本信息对应的这两个实体枚举与这两个实体相关的多个问题。例如,文本信息中是否有“右肺”,文本信息中是否有“肺癌”。
在一个实施例中,如图3A所示,上述步骤S23可被实施为如下步骤S31-S35:
在步骤S31中,将文本信息转化成第一特征向量;
在步骤S32中,将多个问题转化成多个第二特征向量;
在步骤S33中,基于Attention机制对第一特征特征向量以及多个第二特征向量进行计算,得到用于表征第一特征向量和第二特征向量之间的关系的多个向量序列;
在步骤S34中,将多个向量序列进行融合,以得到融合向量;
在步骤S35中,根据融合向量确定多个问题分别对应的问题分类以及实体之间的关系分类。
本实施例中,可以将文本信息转化成第一特征向量;将多个问题转化成多个第二特征向量;这样做的作用是使得转化后的文本信息和多个问题可以被如计算机、手机、平板电脑、智能穿戴设备等一系列计算处理能力的智能设备识别。在将文本信息转化成第一特征向量,且将多个问题转化成多个第二特征向量之后,基于Attention机制对第一特征特征向量以及多个第二特征向量进行计算,得到用于表征第一特征向量和第二特征向量之间的关系的多个向量序列;然后将上述多个向量序列进行融合,以得到融合向量;根据融合向量确定多个问题分别对应的问题分类以及实体之间的关系分类。
Attention机制是一种能让模型对重要信息重点关注并充分学习吸收的技术,能够作用于任何序列模型中。
基于Attention机制确定多个问题所对应的问题分类以及实体之间的关系分类通过两个步骤实现:第一步:针对单个问题来讲,建立该问题对应的第二特征向量和文本信息对应的第一特征向量中每一维向量的注意力权重;第二步:将注意力权重向量进行softmax归一化,并与文本信息对应的第一特征向量中所有的词向量进行线性加权。形成用于表征第一特征向量和第二特征向量之间的关系的多个向量序列。其中,向量的每一维元素都是一个概率值。
具体的,可以构建一个模型来实现上述实施例的功能,构建的模型示意图如图3B所示,该模型从下向上依次为:
输入层:用于输入通过步骤S21获取的文本信息,以及与该文本信息中的实体相关的多个问题。
例如,文本信息为“XX患者5年前右肺诊断出肺癌,进行了肺叶切除术”,根据文本信息枚举两个问题,第一个问题为“文本信息中是否有右肺”;第二个问题为“文本信息中是否有肺癌”。将该文本信息和枚举的两个问题输入到输入层。
第二层是编码层,由双向的LSTM(Long Short-Term Memory,长短期记忆)网络构成:用于执行上述步骤S21-S22,即用于将文本信息转化成第一特征向量,以及将多个问题转化成多个第二特征向量。具体的,将文本信息以及枚举的多个问题经过双向的LSTM网络,从该LSTM网络的输出层得到第一特征向量以及多个第二特征向量。
第三层是Attention层,用于对第一特征向量和第二特征向量的关系进行计算,并输出用于表征第一特征向量和第二特征向量的关系的向量序列。
第四层也是编码层,由双向的LSTM网络构成,与第二层所不同的是,第四层用于对Attention层输出的向量序列进行融合编码,从而形成融合向量。并将融合向量输出。
第五层是输出层,用于根据第四层输出的融合向量确定多个问题分别对应的问题分类以及实体之间的关系分类,然后将多个问题分别对应的问题分类以及实体之间的关系分类输出,根据计算得到:最终输出的第一个问题对应的问题分类为“是”;输出的第二个问题对应的问题分类为“是”;输出的关系分类为“部位关系”。
需要说明的是,由于根据融合向量确定问题分类和实体之间的关系分类是通过同一个模型去计算的,所以,问题分类的确定步骤和关系分类的确定步骤是同步进行的,即在模型学习过程中,既可以学习到问题分类相关的知识,也可以学习到关系分类的知识,因此,两类知识在学习过程中,参数是共享的,进而,二者可以起到相互帮助的作用,例如,识别“肺癌”和“右肺”的时候,因为有部位关系分类的信息存在,使得模型会抑制把“右肺”识别成其它实体的可能性。
也就是说,在确定问题分类和关系分类过程中,两种确定方案之间的中间步骤是可以相互印证的。问题分类时,关系分类学习过程中的参数可以传递到问题分类步骤中,问题分类步骤可以参考关系分类学习过程中的参数进行问题分类,同样的道理,在关系分类时,问题分类学习过程的参数可以传递到关系分类步骤中,关系分类步骤也可以参考问题分类的参数进行关系分类。从而提升对文本信息实体识别的准确度。
在一个实施例中,上述步骤S33可被实施为如下步骤H1-H2,包括:
在步骤H1中,基于Attention机制计算各个第二特征向量与第一特征向量之间的依赖关系;
在步骤H2中,根据各个第二特征向量与第一特征向量之间的依赖关系获得用于表征第一特征向量和第二特征向量之间的关系的多个向量序列。
本实施例中,基于Attention机制计算各个第二特征向量与第一特征向量之间的依赖关系,然后根据该依赖关系获得表征第一特征向量、多个第二特征向量分别存在的关系的多个向量序列,其中,每个向量序列表征第一特征向量和多个第二特征向量中的其中一个之间的关系。
本实施例巧妙地利用了Attention机制,计算出输入的第一特征向量和多个第二特征向量之间的关系。由于第一特征向量是由文本信息转化而来的,而第二特征向量是由枚举的实体相关的问题转化而来的,因此,计算出第一特征向量和第二特征向量之间的关系,相当于得到了各个实体相关的问题与文本信息的关系,从而可以参照文本信息得到实体之间的关系分类,另外,计算出第一特征向量和第二特征向量之间的关系,也相当于得到实体与问题之间的关系,即问题的答案,故可以得到实体相关的问题分类,因此,计算出输入的第一特征向量和第二特征向量之间的关系,可以同时确定实体相关的问题分类以及实体之间的关系分类。
在一个实施例中,上述步骤S34可被实施为如下步骤I1-I2:
在步骤I1中,将多个向量序列输入到LSTM网络中;
在步骤I2中,通过LSTM网络对多个向量序列进行融合编码,以得到融合向量。
在一个实施例中,如图4所示,上述步骤S35可被实施为如下步骤S41-S45,包括:
在步骤S41中,根据融合向量计算多个问题与文本信息的相关程度;
在步骤S42中,确定与文本信息的相关程度大于预设阈值的问题所对应的问题分类为是;
在步骤S43中,确定与文本信息的相关程度小于预设阈值的问题所对应的问题分类为否;
在步骤S44中,根据所述融合向量计算多个实体对应各个预设关系分类的概率值;
在步骤S45中,确定最大概率值对应的关系分类为实体之间的关系分类。
本实施例中,由于融合向量是由表征第一特征向量和第二特征向量之间的关系的多个向量序列构成的,而第一特征向量是由目标病历转化成的,第二特征向量是由枚举的问题转化成的,可以理解为融合向量中包含了多个问题与文本信息之间的关系,因此,可以根据该融合向量计算多个问题与文本信息的相关程度。可以理解的是,相关程度越大,说明枚举的问题出现在目标病历中的概率也就越大,而问题分类包括肯定分类(即结果为是)和否定分类(即结果为否),因此,可以预先设置一阈值,然后确定文本信息的相关程度大于预设阈值的问题所对应的问题分类为是;确定与文本信息的相关程度小于预设阈值的问题所对应的问题分类为否。
另外,在计算关系分类时,可以根据所述融合向量分别计算多个实体对应各个预设关系分类的概率值;确定最大概率值对应的关系分类为实体之间的关系分类。
图5为本申请实施例的一种识别肺癌临床数据库文本实体的装置,该装置可用于识别肺癌临床数据库文本信息的设备,该装置包括以下模块:
接收模块51,用于接收肺癌临床数据库文本信息;
生成模块52,用于基于预设实体集生成与所述肺癌临床数据库文本信息对应的实体相关的多个问题;
确定模块53,用于基于Attention机制确定所述多个问题所对应的问题分类以及所述实体之间的关系分类。
在一个实施例中,所述生成模块52,包括:
计算子模块,用于计算预设实体集与所述肺癌临床数据库文本信息的相关度;
第一确定子模块,用于确定所述预设实体集中与所述肺癌临床数据库文本信息的相关度大于预设值的多个实体为所述肺癌临床数据库文本信息对应的实体;
生成子模块,用于根据所述肺癌临床数据库文本信息对应的实体生成与所述实体相关的多个问题。
在一个实施例中,所述确定模块53,包括:
第一转化子模块,将所述肺癌临床数据库文本信息转化成第一特征向量;
第二转化子模块,将所述多个问题转化成多个第二特征向量;
计算子模块,基于Attention机制对第一特征特征向量以及所述多个第二特征向量进行计算,得到用于表征所述第一特征向量和第二特征向量之间的关系的多个向量序列;
融合子模块,将所述多个向量序列进行融合,以得到融合向量;
第二确定子模块,用于根据所述融合向量确定所述多个问题分别对应的问题分类以及所述实体之间的关系分类。
在一个实施例中,所述计算子模块,具体用于:
基于Attention机制计算各个第二特征向量与所述第一特征向量之间的依赖关系;
根据所述各个第二特征向量与所述第一特征向量之间的依赖关系获得用于表征所述第一特征向量和第二特征向量之间的关系的多个向量序列。
在一个实施例中,所述融合子模块,具体用于:
将所述多个向量序列输入到LSTM网络中;
通过LSTM网络对所述多个向量序列进行融合编码,以得到融合向量。
在一个实施例中,所述第二确定子模块,具体用于:
根据所述融合向量计算所述多个问题与所述肺癌临床数据库文本信息的相关程度;
确定与所述肺癌临床数据库文本信息的相关程度大于预设阈值的问题所对应的问题分类为是;
确定与所述肺癌临床数据库文本信息的相关程度小于预设阈值的问题所对应的问题分类为否;
根据所述融合向量计算多个实体对应各个预设关系分类的概率值;
确定最大概率值对应的关系分类为所述实体之间的关系分类。
图6为本申请实施例的一种识别文本实体的装置,该装置可用于识别文本信息的设备,该装置包括以下模块:
获取模块61,用于获取文本信息;
枚举模块62,用于枚举与所述文本信息对应的实体相关的多个问题;
确定模块63,用于基于Attention机制确定所述多个问题所对应的问题分类以及所述实体之间的关系分类。
在一个实施例中,如图7所示,枚举模块62,包括:
分词子模块71,用于基于预存储的医学术语对文本信息中的信息进行分词,得到文本信息对应的实体;
枚举子模块72,用于根据所述文本信息对应的实体枚举与所述实体相关的多个问题。
在一个实施例中,如图8所示,确定模块63,包括:
第一转化子模块81,用于将文本信息转化成第一特征向量;
第二转化子模块82,用于将多个问题转化成多个第二特征向量;
计算子模块83,用于基于Attention机制对第一特征特征向量以及多个第二特征向量进行计算,得到用于表征第一特征向量和第二特征向量之间的关系的多个向量序列;
融合子模块84,用于将多个向量序列进行融合,以得到融合向量;
确定子模块85,用于根据融合向量确定多个问题分别对应的问题分类以及实体之间的关系分类。
本申请实施例还提供一种识别文本实体的装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取文本信息;
枚举与所述文本信息对应的实体相关的问题;
基于Attention机制确定所述多个问题所对应的问题分类以及所述实体之间的关系分类。
本申请实施例还提供一种非临时性可读存储介质,当所述存储介质中的指令由设备内的处理器执行时,使得所述设备能够执行一种识别文本实体的方法,所述方法包括:
获取文本信息;
枚举与所述文本信息对应的实体相关的问题;
基于Attention机制确定所述多个问题所对应的问题分类以及所述实体之间的关系分类。
以上实施例仅为本申请的示例性实施例,不用于限制本申请,本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内,对本申请做出各种修改或等同替换,这种修改或等同替换也应视为落在本申请的保护范围内。

Claims (10)

1.一种识别肺癌临床数据库文本实体的方法,其特征在于,包括:
接收肺癌临床数据库文本信息;
基于预设实体集生成与所述肺癌临床数据库文本信息对应的实体相关的多个问题;
基于Attention机制确定所述多个问题所对应的问题分类以及所述实体之间的关系分类。
2.一种识别文本实体的方法,其特征在于,包括:
获取文本信息;
枚举与所述文本信息对应的实体相关的多个问题;
基于Attention机制确定所述多个问题所对应的问题分类以及所述实体之间的关系分类。
3.如权利要求2所述的方法,其特征在于,枚举与所述文本信息对应的实体相关的多个问题,包括:
基于预存储的医学术语对所述文本信息中的信息进行分词,得到所述文本信息对应的实体;
根据所述文本信息对应的实体枚举与所述实体相关的多个问题。
4.如权利要求2所述的方法,其特征在于,枚举与所述文本信息对应的实体相关的多个问题,包括:
计算预设实体集与所述文本信息的相关度;
确定所述预设实体集中与所述文本信息的相关度大于预设值的多个实体为所述文本信息对应的实体;
根据所述文本信息对应的实体枚举与所述实体相关的多个问题。
5.如权利要求2所述的方法,其特征在于,所述基于Attention机制确定所述多个问题所对应的问题分类以及所述实体之间的关系分类,包括:
将所述文本信息转化成第一特征向量;
将所述多个问题转化成多个第二特征向量;
基于Attention机制对第一特征特征向量以及所述多个第二特征向量进行计算,得到用于表征所述第一特征向量和第二特征向量之间的关系的多个向量序列;
将所述多个向量序列进行融合,以得到融合向量;
根据所述融合向量确定所述多个问题分别对应的问题分类以及所述实体之间的关系分类。
6.如权利要求5所述的方法,其特征在于,基于Attention机制对第一特征特征向量以及所述多个第二特征向量进行计算,得到用于表征所述第一特征向量和第二特征向量之间的关系的多个向量序列,包括:
基于Attention机制计算各个第二特征向量与所述第一特征向量之间的依赖关系;
根据所述各个第二特征向量与所述第一特征向量之间的依赖关系获得用于表征所述第一特征向量和第二特征向量之间的关系的多个向量序列。
7.如权利要求5所述的方法,其特征在于,所述将所述多个向量序列进行融合,以得到融合向量,包括:
将所述多个向量序列输入到LSTM网络中;
通过LSTM网络对所述多个向量序列进行融合编码,以得到融合向量。
8.如权利要求5-7任意一项所述的方法,其特征在于,根据所述融合向量确定所述多个问题分别对应的问题分类以及所述实体之间的关系分类,包括:
根据所述融合向量计算所述多个问题与所述文本信息的相关程度;
确定与所述文本信息的相关程度大于预设阈值的问题所对应的问题分类为是;
确定与所述文本信息的相关程度小于预设阈值的问题所对应的问题分类为否;
根据所述融合向量计算多个实体对应各个预设关系分类的概率值;
确定最大概率值对应的关系分类为所述实体之间的关系分类。
9.一种识别肺癌临床数据库文本实体的装置,其特征在于,包括:
接收模块,用于接收肺癌临床数据库文本信息;
生成模块,用于基于预设实体集生成与所述肺癌临床数据库文本信息对应的实体相关的多个问题;
确定模块,用于基于Attention机制确定所述多个问题所对应的问题分类以及所述实体之间的关系分类。
10.一种识别文本实体的装置,其特征在于,包括:
获取模块,用于获取文本信息;
枚举模块,用于枚举与所述文本信息对应的实体相关的多个问题;
确定模块,用于基于Attention机制确定所述多个问题所对应的问题分类以及所述实体之间的关系分类。
CN201911396284.XA 2019-12-30 2019-12-30 一种识别肺癌临床数据库文本实体的方法及装置 Active CN111191035B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911396284.XA CN111191035B (zh) 2019-12-30 2019-12-30 一种识别肺癌临床数据库文本实体的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911396284.XA CN111191035B (zh) 2019-12-30 2019-12-30 一种识别肺癌临床数据库文本实体的方法及装置

Publications (2)

Publication Number Publication Date
CN111191035A true CN111191035A (zh) 2020-05-22
CN111191035B CN111191035B (zh) 2022-07-19

Family

ID=70707906

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911396284.XA Active CN111191035B (zh) 2019-12-30 2019-12-30 一种识别肺癌临床数据库文本实体的方法及装置

Country Status (1)

Country Link
CN (1) CN111191035B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112687328A (zh) * 2021-03-12 2021-04-20 北京贝瑞和康生物技术有限公司 确定临床描述信息的表型信息的方法、设备和介质
CN112784801A (zh) * 2021-02-03 2021-05-11 紫东信息科技(苏州)有限公司 基于文本和图片的双模态胃部疾病分类方法及装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562752A (zh) * 2016-06-30 2018-01-09 富士通株式会社 对实体词的语义关系进行分类的方法、装置和电子设备
US20180018320A1 (en) * 2016-07-12 2018-01-18 International Business Machines Corporation Text Classifier Operation
CN108536754A (zh) * 2018-03-14 2018-09-14 四川大学 基于blstm和注意力机制的电子病历实体关系抽取方法
CN109522557A (zh) * 2018-11-16 2019-03-26 中山大学 文本关系抽取模型的训练方法、装置及可读存储介质
CN109783618A (zh) * 2018-12-11 2019-05-21 北京大学 基于注意力机制神经网络的药物实体关系抽取方法及系统
CN109800411A (zh) * 2018-12-03 2019-05-24 哈尔滨工业大学(深圳) 临床医疗实体及其属性抽取方法
CN110019839A (zh) * 2018-01-03 2019-07-16 中国科学院计算技术研究所 基于神经网络和远程监督的医学知识图谱构建方法和系统
CN110297908A (zh) * 2019-07-01 2019-10-01 中国医学科学院医学信息研究所 诊疗方案预测方法及装置
CN110532360A (zh) * 2019-07-19 2019-12-03 平安科技(深圳)有限公司 医疗领域知识图谱问答处理方法、装置、设备及存储介质
CN110570920A (zh) * 2019-08-20 2019-12-13 华东理工大学 一种基于集中注意力模型的实体、关系联合学习方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562752A (zh) * 2016-06-30 2018-01-09 富士通株式会社 对实体词的语义关系进行分类的方法、装置和电子设备
US20180018320A1 (en) * 2016-07-12 2018-01-18 International Business Machines Corporation Text Classifier Operation
CN110019839A (zh) * 2018-01-03 2019-07-16 中国科学院计算技术研究所 基于神经网络和远程监督的医学知识图谱构建方法和系统
CN108536754A (zh) * 2018-03-14 2018-09-14 四川大学 基于blstm和注意力机制的电子病历实体关系抽取方法
CN109522557A (zh) * 2018-11-16 2019-03-26 中山大学 文本关系抽取模型的训练方法、装置及可读存储介质
CN109800411A (zh) * 2018-12-03 2019-05-24 哈尔滨工业大学(深圳) 临床医疗实体及其属性抽取方法
CN109783618A (zh) * 2018-12-11 2019-05-21 北京大学 基于注意力机制神经网络的药物实体关系抽取方法及系统
CN110297908A (zh) * 2019-07-01 2019-10-01 中国医学科学院医学信息研究所 诊疗方案预测方法及装置
CN110532360A (zh) * 2019-07-19 2019-12-03 平安科技(深圳)有限公司 医疗领域知识图谱问答处理方法、装置、设备及存储介质
CN110570920A (zh) * 2019-08-20 2019-12-13 华东理工大学 一种基于集中注意力模型的实体、关系联合学习方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
RUICHU CAI ET AL.: "An CNN-LSTM Attention Approach to Understanding User Query Intent from Online Health Communities", 《2017 IEEE INTERNATIONAL CONFERENCE ON DATA MINING WORKSHOPS》 *
ZHICHANG ZHANG ET AL.: "Attention-based deep residual learning network for entity relation extraction in Chinese EMRs", 《BMC MEDICAL INFORMATICS AND DECISION MAKING》 *
花树雯: "基于LSTM和LDA模型的患者情感分析研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
黄梦醒 等: "基于电子病历的实体识别和知识图谱构建的研究", 《计算机应用研究》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784801A (zh) * 2021-02-03 2021-05-11 紫东信息科技(苏州)有限公司 基于文本和图片的双模态胃部疾病分类方法及装置
CN112687328A (zh) * 2021-03-12 2021-04-20 北京贝瑞和康生物技术有限公司 确定临床描述信息的表型信息的方法、设备和介质

Also Published As

Publication number Publication date
CN111191035B (zh) 2022-07-19

Similar Documents

Publication Publication Date Title
CN109447242B (zh) 基于迭代学习的图像描述重生成系统及方法
CN111949802B (zh) 医学领域知识图谱的构建方法、装置、设备及存储介质
CN110796199B (zh) 一种图像处理方法、装置以及电子医疗设备
CN112765370B (zh) 知识图谱的实体对齐方法、装置、计算机设备和存储介质
WO2021243903A1 (zh) 自然语言至结构化查询语言的转换方法及系统
CN111444346B (zh) 一种用于文本分类的词向量对抗样本生成方法及装置
CN111191035B (zh) 一种识别肺癌临床数据库文本实体的方法及装置
CN112200664A (zh) 基于ernie模型和dcnn模型的还款预测方法
CN117746078B (zh) 一种基于用户自定义类别的物体检测方法及系统
CN114330499A (zh) 分类模型的训练方法、装置、设备、存储介质及程序产品
CN110990498A (zh) 一种基于fcm算法的数据融合方法
CN115545041B (zh) 一种增强医疗语句语义向量表示的模型构造方法及系统
CN112200772A (zh) 痘痘检测设备
Gao et al. A hierarchical recurrent approach to predict scene graphs from a visual‐attention‐oriented perspective
CN116304042A (zh) 一种基于多模态特征自适应融合的虚假新闻检测方法
CN118098482A (zh) 基于5g技术的智慧医疗管理系统及方法
CN117315249A (zh) 指代图像分割模型训练和分割方法、系统、设备及介质
CN114996466A (zh) 一种医学标准映射模型的建立方法、系统及使用方法
CN114926742A (zh) 一种基于二阶注意力机制的回环检测及优化方法
CN114707007A (zh) 一种图像文本检索方法、装置及计算机存储介质
CN116611439B (zh) 医疗信息抽取方法、装置、电子设备及存储介质
CN112016592B (zh) 基于交叉领域类别感知的领域适应语义分割方法及装置
CN112257746A (zh) 痘痘类型识别模型训练方法、识别方法及相关装置
CN112199531A (zh) 一种基于哈希算法和邻域图的跨模态检索方法及装置
CN111652164A (zh) 基于全局-局部特征增强的孤立词手语识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant