CN111435410A - 用于医疗文本的关系抽取方法及其装置 - Google Patents

用于医疗文本的关系抽取方法及其装置 Download PDF

Info

Publication number
CN111435410A
CN111435410A CN201910032125.5A CN201910032125A CN111435410A CN 111435410 A CN111435410 A CN 111435410A CN 201910032125 A CN201910032125 A CN 201910032125A CN 111435410 A CN111435410 A CN 111435410A
Authority
CN
China
Prior art keywords
training
vector
text
vectors
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910032125.5A
Other languages
English (en)
Other versions
CN111435410B (zh
Inventor
仇伟
陈漠沙
李林琳
司罗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910032125.5A priority Critical patent/CN111435410B/zh
Publication of CN111435410A publication Critical patent/CN111435410A/zh
Application granted granted Critical
Publication of CN111435410B publication Critical patent/CN111435410B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种用于医疗文本的关系抽取方法及其装置,所述方法包括:通过与所述医疗文本对应的结构,获取与所述医疗文本对应的文本向量,其中,所述结构包括医疗文本到待测分句到待测分词的结构并且所述文本向量包括由各个分词向量构成的各个分句向量;将所述文本向量输入至机器学习模型组件,获取与所述文本向量对应的关系向量,其中,所述机器学习模型组件根据多个训练文本向量以及与所述多个训练文本向量分别对应的多个训练关系向量之间的对应关系进行机器学习得到的。采用本申请,可利用机器学习模型组件实现对医疗文本的关系抽取,实现了自动抽取医疗文本中的关系且降低了噪声。

Description

用于医疗文本的关系抽取方法及其装置
技术领域
本申请涉及计算机领域,尤其涉及一种用于医疗文本的关系抽取方法及其装置。
背景技术
关系抽取是信息抽取的主要任务之一。为了实现关系抽取,通常会对句子的关系进行人工标注,随后抽取词法、句法以及语义特征,最后利用这些数据对有监督的分类器进行训练,以实现关系抽取,但这种方法需要花费大量人力以及时间进行人工标注。因此,需要一种自动执行关系抽取的技术方案。
发明内容
本申请的主要目的之一在于提供一种关系抽取方法及其装置,旨在解决以上提到的自动执行关系抽取的问题。
本申请的示例性实施例提供一种用于医疗文本的关系抽取方法,所述方法包括:通过与所述医疗文本对应的结构,获取与所述医疗文本对应的文本向量,其中,所述结构包括医疗文本到待测分句到待测分词的结构并且所述文本向量包括由各个分词向量构成的各个分句向量;将所述文本向量输入至机器学习模型组件,获取与所述文本向量对应的关系向量,其中,所述机器学习模型组件根据多个训练文本向量以及与所述多个训练文本向量分别对应的多个训练关系向量之间的对应关系进行机器学习得到的。
本申请的另一示例性实施例提供一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述指令被执行时实现上述方法。
本申请的另一示例性实施例提供一种用于医疗文本的关系抽取装置,所述装置包括处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:。本申请示例性实施例采用的上述至少一个技术方案能够达到以下有益效果:
本申请的示例性实施例的用于医疗文本的关系抽取方法可利用训练好的机器学习模型组件直接获取与医疗文本对应的关系向量,无需浪费大量人力并且准确率高。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请的示例性实施例的用于医疗文本的关系抽取系统的示图;
图2是根据本申请的示例性实施例的用于医疗文本的关系抽取方法的流程图;
图3是根据本申请的示例性实施例的对医疗文本执行关系抽取方法的场景图;
图4是根据本申请的示例性实施例的用于医疗文本的关系抽取装置的框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在介绍本申请的示例性实施例前,为了方便本领域技术人员更好的理解本申请,首先对本申请中涉及的术语进行解释。
信息抽取将无结构的文本转化为结构化或半结构化的信息并以数据库的形式存储,以供用户查询以及进一步分析利用。信息抽取包括实体识别、关系抽取以及事件抽取三方面。本申请涉及信息抽取中的关系抽取。
关系抽取是指识别文本中的各个实体之间的关系,可以以三元组的形式来表示,以本申请所涉及的医疗文本中的关系抽取为例,<实体1,关系,实体2>、<药,治疗,疾病>、<药,引发,不良反应>。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图1是根据本申请的示例性实施例的用于医疗文本的关系抽取系统的示图。出于描述的目的,所绘的体系结构仅为合适环境的一个示例,并非对本申请的使用范围或功能提出任何局限。也不应将该计算系统解释为对图1所示的任一组件或其组合具有任何依赖或需求。
本申请的原理可以使用其它通用或专用计算或通信环境或配置来操作。适用于本申请的众所周知的计算系统、环境和配置的示例包括但不限于,个人计算机、服务器,多处理器系统、基于微处理的系统、小型机、大型计算机、以及包括任一上述系统或设备的分布式计算环境。
在其最基本的配置中,图1中的关系抽取系统100至少包括:一个或多个客户端104以及对所述一个或多个客户端104发送的医疗文本执行关系抽取处理的服务器102。服务器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置、用于存储数据的存储装置以及与客户端通信的传输装置;客户端104可以包括:微处理器MCU、与服务器通信的传输装置、与用户交互的显示装置。在本说明书和权利要求书中,“系统”也可以被定义为能够执行软件、固件或微码来实现功能的任何硬件组件或硬件组件的组合,所述关系抽取系统100甚至可以是分布式的,以实现分布式功能。
如本申请所使用的,术语“模块”、“组件”或“单元”可以指在所述关系抽取系统100上执行的软件对象或例程。此处所描述的不同组件、模块、单元、引擎和服务可被实现为在关系抽取系统100上执行(例如,作为单独的线程)的对象或进程。尽管此处所描述的系统和方法较佳地以软件来实现,但是硬件或软件和硬件的组合的实现也是可能并被构想的。
在实际处理中,医生或病人可利用客户端104输入或查阅例如电子病历,所述电子病历中包括用于描述用户病情的医疗文本,随后这些医疗文本可被存储在服务器200上。此时,服务器102可从服务器200上获取这些医疗文本并对这些医疗文本进行关系抽取。应注意,存在这样一种情况:由服务器200利用本申请的示例性实施例的用于医疗文本的关系抽取方法对存储在其上的医疗文本执行关系抽取。这种方式虽然可行,但在实施中,执行电子病历等的自动看诊/存储装置与执行后续处理的装置由于供应商或运算量大等原因通常由不同主体执行。
如图1所示,客户端104可不直接与服务器102连接,也就是说,客户端104可将用户(例如,患者、医生、护士等)输入的医疗文本发送到相应的服务器200(例如,电子病历管理装置),随后,服务器200可将所述医疗文本数据发送到服务器102,最后,服务器102可根据本申请的示例性实施例的关系抽取方法对所述文本数据执行关系抽取。以下将结合图2至图3具体解释服务器102执行关系抽取的操作。
在对图2示出的流程图进行详细描述之前,应注意,在本申请中执行文本抽取的最小级别/单位是段落,若需要对由多个段落形成的文本执行处理时,可先对所述文本执行分段处理,随后对每一段落执行所述方法。
图2是根据本申请的示例性实施例的用于医疗文本的关系抽取方法。如图2所示,在步骤S210,通过与所述医疗文本对应的结构,获取与所述医疗文本对应的文本向量,其中,所述结构包括医疗文本到待测分句到待测分词的结构并且所述文本向量包括由各个分词向量构成的各个分句向量。应注意,所述医疗文本是指用于描述用户的病情的文本。在本申请中,所述医疗文本以段落为单位存储。根据本申请的示例性实施例,可对整个医疗文本执行所述方法,但是这样可能运算量会比较大且效果不佳,因此,可将以自然段存储的医疗文本作为执行客体。
以下将参照图3具体描述步骤S210。如图3所述,可先获取与所述医疗文本对应的结构,其中,所述结构包括医疗文本到待测分句到待测分词的结构。换言之,可将所述医疗文本按段落划分,随后,将每个段落按分句进行划分,最后,将每个分句按照分词/字进行划分,最终形成以分词/字为最小单位的结构。最终,可获取与所述医疗文本对应的矩阵
Figure BDA0001944613830000051
其中dw代表每个分词向量,|V|代表矩阵中分词的个数。
应注意,为了防止误分词,可预先对大量预料样本进行统计得到医疗语料中的专有名词及物理词汇,此外,在这过程中,可去除无用分词,无用分词可包括低频分词/字,并且和/或者,无用分词包括停用分词(这里,停用词既可以指示字,也可以指示分词)。也就是说,可以去除输入文本中的低频分词/字和停用分词。其中,低频分词/字可以是预先对大量预料样本进行统计得到的出现概率比较低的分词或字。停用分词可以通过查找停用词库的方式确定。其中,停用词库可以是预先基于预定的规则生成的,例如,可以将“的”、“地”、“得”等词列入停用词库。在此过程中,所涉及的分句/分词处理可利用本领域已知的分句/分词方法实现,在此将不再赘述。
随后,基于所述结构,确定与各个待测分词分别对应的各个分词向量。具体来说,可对获取的各个待测词语执行词嵌入处理,生成与各个待测词语对应的各个分词向量,最后通过利用各个分词向量生成与各个待测分句对应的各个分句向量,获取与所述医疗文本对应的文本向量。
根据本申请的示例实施例,为了利用分词之间的相邻关系,在确定分词向量时,可采用以下步骤:对各个待测分词执行词嵌入处理,获取与各个待测分词对应的各个分词映射向量;利用各个分词映射向量以及与所述各个待测分词分别对应的相邻待测分词对应的相邻分词映射向量,生成与所述各个待测分词对应的各个分词向量。
在步骤S220,将所述文本向量输入至机器学习模型组件中,获取与所述文本向量对应的关系向量,其中,所述机器学习模型组件根据多个训练文本向量以及与所述多个训练文本向量分别对应的多个训练关系向量之间的对应关系进行机器学习得到的。根据本申请的示例性实施例,所述机器学习模型组件至少包括残差卷积神经网络组组件。具体来说,可将在步骤S210中获取的各个分句向量输入至残差卷积神经网络组件,获取与各个分句向量对应的分句输出向量。应注意,所述残差卷积神经网络组件可以是单个也可以是多个,如果残差卷积神经网络组件为单个,则将所述分句向量顺序输入到残差卷积神经网络组件中,而如果残差卷积神经网络组件的数量与分句数量对应,则可将多个分句向量同时输入到这些残差卷积神经网络组件中。
对于每一个残差卷积神经网络组件,在经过卷积层执行卷积操作后,可按照如下公式1作为激活层的激活函数执行非线性激活操作:
F(xi)=f(w·xi+b) 公式1
其中,xi表示分句向量,w代表权重矩阵,b代表偏移向量。之后将非线性激活的输出向量F(xi)输入到残差层,按照如下公式2进行计算,得到残差层的输出向量P(xi):
P(xi)=xi+F(xi) 公式2
其中,xi表示分句向量,F(xi)代表非线性激活的输出。随后,将残差层的输出向量P(xi)进行最大池化操作,获得残差层输出向量P(xi)的最大维度值
Figure BDA0001944613830000061
其中max(P(xi))代表对于残差层的输出向量P(xi)进行最大池化操作。最后,将所述多个分句向量经过残差卷积神经网络组件的最大池化操作后的输出合并,得到多个分句对应的输出向量
Figure BDA0001944613830000062
其中,m为分句数量,
Figure BDA0001944613830000063
为第i个分句向量的最大池化输出。
此外,所述机器学习模型组件还包括注意力网络组件,也就是说,所述机器学习模型组件可以是通过注意力网络组件与残差卷积神经网络组件耦合而获得的。
随后,将多个分句对应的输出向量
Figure BDA0001944613830000071
输入到注意力网络组件中,获取与各个分句输出向量对应的权重。具体来说,可利用以下公式3计算注意力权重:
Figure BDA0001944613830000072
其中,M(qi)代表将第i个分句对应的输出向量qi与相应权重矩阵相乘运算,n代表分句数量。最后,利用各个分句输出向量与对应的权重,获取与所述医疗文本对应的关系向量。
以上处理建立在已经对所述机器学习模型组件训练后的结果,也就是说,在对医疗文本执行关系提取前,需要对所述机器学习模型组件进行训练。以下将对训练阶段进行描述。
对所述机器学习模型组件进行训练的思路是将训练集中的输入数据输入到所述机器学习模型组件,所述机器学习模型组件的参数为初始默认参数,随后获得预测数据,利用所述预测数据与训练集中的输出数据之间差异,调节所述机器学习模型组件中的各个参数,最终完成对所述机器学习模型组件的训练。
具体来说,所述机器学习模型组件被设置为按照下述方式训练得到:获取多个训练文本向量以及与所述多个训练文本向量分别对应的多个训练关系向量;构建机器学习模型组件,其中,所述机器学习模型组件中设置有训练参数。所述机器学习模型组件可以是以上提到的注意力网络组件与残差卷积神经网络组件耦合而获得的,因此,所述训练参数包括与注意力网络组件对应的参数和与残差卷积神经网络组件对应的参数。根据本申请的示例性实施例,所述训练参数包括以上提到的残差卷积神经网络组件对应的权重矩阵、偏移参数等以及与注意力网络组件对应的权重矩阵等参数。
接下来,利用所述多个训练文本向量以及与所述多个训练文本向量分别对应的多个训练关系向量之间的对应关系对所述机器学习模型组件进行训练,调整所述训练参数,直至所述机器学习模型组件达到设定的要求。
具体来说,将所述多个训练文本向量以及与所述多个训练文本向量分别对应的多个训练关系向量按照文本对应存储成多个样本数据,其中,每个样本数据包括与单个训练文本向量对应的多个训练分句向量和训练关系向量。每个样本数据中的多个训练分句向量输入到所述机器学习模型组件后,通过残差卷积神经网络组件处理后获取到多个训练分句输出向量,将所述多个训练分句输出向量输入到注意力网络组件,获取预测向量;通过预测向量与训练关系向量之间的差异,调整与所述机器学习模型组件对应的训练参数,使得将所述输入向量输入到所述机器学习模型组件的情况下获取到输出向量。
最后,通过利用全部的样本数据对所述机器学习模型组件进行训练来调整所述训练参数,直到所述机器学习模型组件达到设定的要求。在本申请中,所述设定的要求可以是指曲线下面积(Area Under roc Curve,AUC)达到预设阈值,比如,95%。经过测试,所述机器学习模型组件的AUC可达到95.52%。
根据本申请的示例性实施例,可将所述关系向量转换为以与所述医疗文本对应的文字表达的关系。具体来说,可预先对不同的训练关系向量进行标注,随后,可利用这些训练关系向量与标注之间的对应关系,将所述关系向量转换为以文字表达的关系(标注),这样,用户可直观地看出所述医疗文本的关系。
以上已经参照图2,详细地描述了根据本申请的示例性实施例的用于医疗文本的关系抽取方法。为了更形象地描述所述方法,以下将通过图3对其进行详细描述。
图3是根据本申请的示例性实施例的对医疗文本执行关系抽取方法的场景图。
图3中的医疗段落可在分句层面上被划分为多个分句,然后可将每个分句划分为多个分词,应注意,在对分句或分词进行划分的过程中,可采用本领域现有的分词和分句手段执行。随后,如图3所示,针对第一分句,可将第一分句中的每个分词转换为预定维数的向量,例如,可使用词嵌入等技术将每个分词转换为预定维数的向量,最终获得与第一分句对应的分句向量(d1、d2…dr)。这样针对多个分句,可分别获得多个分句向量。
在图3中,可将这些分句向量分别输入到残差卷积神经网络组件,以获得与每个分句向量对应的输出向量。虽然图3中仅利用了单个残差卷积神经网络组件,但在实际应用中,可采用与分句向量数量相等的残差卷积神经网络组件分别对分句执行处理。
最后,如图3所示,可将从残差卷积神经网络组件输出的各个输出向量输入到注意力组件中,获取关系向量,其中,关系向量包括每个分句的输出向量与权重组合,也就是说,所述关系向量是各个分句的分句向量与对应权重相乘后的结果。
综上可述,根据本申请的示例性实施例的用于医疗文本的关系抽取方法可利用训练好的机器学习模型组件直接获取与医疗文本对应的关系向量,无需浪费大量人力并且准确率高。更进一步地,所述机器学习模型组件可利用残差卷积神经网络,挖掘出更深层次的信息,同时通过注意力网络组件对分句设置权重,提高所述机器学习模型组件对于噪声的消除能力。更进一步地,所述分词可采用邻近分词向量共同表示,这样可充分利用每个分词的位置关系,从而能够更准确地表达所述分词。更进一步地,可采用多种卷积神经网络组件并行的方式对所述分句执行处理,从而能够提高运算速度。更进一步地,可将所述关系向量转换为以文字表达的关系,从而能够使用户直观地知晓所述医疗文本的关系。
以上已经参照图2和图3对根据本申请的示例性实施例的关系抽取方法进行了描述,为了更清楚地明白本申请的示例性实施例的发明构思,以下将参照图4描述本申请的示例性实施例的用于医疗文本的关系抽取装置的框图。本领域普通技术人员将理解:图4中的装置仅示出了与本示例性实施例相关的组件,所述装置中还包括除了图4中示出的组件之外的通用组件。
图4示出本申请的示例性实施例的用于医疗文本的关系抽取装置的框图。应注意,所述装置可以是如图1中所示的用于运行根据本申请的示例性实施例的用于医疗文本的关系抽取方法的服务器102。参考图4,在硬件层面,该装置包括处理器、内部总线和计算机可读存储介质,其中,所述计算机可读存储介质包括易失性存储器和非易失性存储器。处理器从非易失性存储器中读取对应的计算机程序然后运行。当然,除了软件实现方式之外,本申请并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
具体来说,所述处理器执行以下操作:通过与所述医疗文本对应的结构,获取与所述医疗文本对应的文本向量,其中,所述结构包括医疗文本到待测分句到待测分词的结构并且所述文本向量包括由各个分词向量构成的各个分句向量;将所述文本向量输入至机器学习模型组件,获取与所述文本向量对应的关系向量,其中,所述机器学习模型组件根据多个训练文本向量以及与所述多个训练文本向量分别对应的多个训练关系向量之间的对应关系进行机器学习得到的。
可选地,所述机器学习模型组件至少包括残差卷积神经网络组件。
可选地,所述处理器在实现步骤将所述文本向量输入至机器学习模型组件包括:将构成所述文本向量的各个分句向量输入至残差卷积神经网络组件,获取与各个分句向量对应的各个分句输出向量作为所述关系向量。
可选地,所述机器学习模型组件还包括注意力网络组件。
可选地,所述处理器还可实现步骤:将各个分句输出向量输入至注意力网络组件,获取与各个分句输出向量对应的权重;利用各个分句输出向量与对应的各个权重,获取与所述文本向量对应的关系向量。
可选地,所述处理器在实现步骤获取与所述医疗文本对应的文本向量包括:对各个待测分词执行词嵌入处理,获取与各个待测分词对应的各个分词映射向量;利用各个分词映射向量以及与所述各个待测分词分别对应的相邻待测分词对应的相邻分词映射向量,生成与所述各个待测分词对应的各个分词向量;获取由与各个分词向量构成的文本向量。
可选地,所述机器学习模型组件被设置为按照下述方式训练得到:获取多个训练文本向量以及与所述多个训练文本向量分别对应的多个训练关系向量;构建机器学习模型组件,其中,所述机器学习模型组件中设置有训练参数;利用所述多个训练文本向量以及与所述多个训练文本向量分别对应的多个训练关系向量之间的对应关系对所述机器学习模型组件进行训练,调整所述训练参数,直至所述机器学习模型组件达到设定的要求。
可选地,所述处理器在实现步骤将所述文本向量输入至机器学习模型组件中获取与所述文本向量对应的关系向量包括:将构成所述文本向量的各个分句向量输入至残差卷积神经网络组件,获取与各个分句向量对应的分句输出向量;将各个分句输出向量输入至注意力网络组件,获取与各个分句输出向量对应的权重;利用各个分句输出向量与对应的各个权重,获取与所述文本向量对应的关系向量。
可选地,所述处理器在实现步骤利用所述多个训练文本向量以及与所述多个训练文本向量分别对应的多个训练关系向量之间的对应关系对所述机器学习模型组件进行训练,调整所述训练参数直至所述机器学习模型组件达到设定的要求包括:将所述多个训练文本向量以及与所述多个训练文本向量分别对应的多个训练关系向量按照文本对应存储成多个样本数据,其中,每个样本数据包括与单个训练文本向量对应的多个训练分句向量和训练关系向量;每个样本数据中的多个训练分句向量输入到所述机器学习模型组件后,通过残差卷积神经网络组件处理后获取到多个训练分句输出向量,将所述多个训练分句输出向量输入到注意力网络组件,获取与所述多个训练分句输出向量分别对应的多个训练分句权重,利用所述多个训练分句权重与训练分句输出向量,获取与所述训练文本向量对应的预测向量,利用所述预测向量与训练关系向量之间的差异,调整与所述机器学习模型组件对应的训练参数,使得将所述输入向量输入到所述机器学习模型组件的情况下获取到输出向量;通过利用全部的样本数据对所述机器学习模型组件进行训练来调整所述训练参数,直到所述机器学习模型组件达到设定的要求。
可选地,所述处理器在实现步骤在获取与所述文本向量对应的关系向量后包括:将所述关系向量转换为以与所述医疗文本对应的文字表达的关系。
综上可述,根据本申请的示例性实施例的用于医疗文本的关系抽取装置可利用训练好的机器学习模型组件直接获取与医疗文本对应的关系向量,无需浪费大量人力并且准确率高。更进一步地,所述机器学习模型组件可利用残差卷积神经网络,挖掘出更深层次的信息,同时通过注意力网络组件对分句设置权重,提高所述机器学习模型组件对于噪声的消除能力。更进一步地,所述分词可采用邻近分词向量共同表示,这样可充分利用每个分词的位置关系,从而能够更准确地表达所述分词。更进一步地,可采用多种卷积神经网络组件并行的方式对所述分句执行处理,从而能够提高运算速度。更进一步地,可将所述关系向量转换为以文字表达的关系,从而能够使用户直观地知晓所述医疗文本的关系。
需要说明的是,实施例1所提供方法的各步骤的执行主体均可以是同一设备,或者,该方法也由不同设备作为执行主体。比如,步骤21和步骤22的执行主体可以为设备1,步骤23的执行主体可以为设备2;又比如,步骤21的执行主体可以为设备1,步骤22和步骤23的执行主体可以为设备2;等等。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (11)

1.一种用于医疗文本的关系抽取方法,其特征在于,包括:
通过与所述医疗文本对应的结构,获取与所述医疗文本对应的文本向量,其中,所述结构包括医疗文本到待测分句到待测分词的结构并且所述文本向量包括由各个分词向量构成的各个分句向量;
将所述文本向量输入至机器学习模型组件,获取与所述文本向量对应的关系向量,其中,所述机器学习模型组件根据多个训练文本向量以及与所述多个训练文本向量分别对应的多个训练关系向量之间的对应关系进行机器学习得到的。
2.如权利要求1所述的方法,其特征在于,所述机器学习模型组件至少包括残差卷积神经网络组件。
3.如权利要求2所述的方法,其特征在于,将所述文本向量输入至机器学习模型组件包括:
将构成所述文本向量的各个分句向量输入至残差卷积神经网络组件,获取与各个分句向量对应的各个分句输出向量作为所述关系向量。
4.如权利要求3所述的方法,其特征在于,所述机器学习模型组件还包括注意力网络组件。
5.如权利要求4所述的方法,其特征在于,还包括:
将各个分句输出向量输入至注意力网络组件,获取与各个分句输出向量对应的权重;
利用各个分句输出向量与对应的各个权重,获取与所述文本向量对应的关系向量。
6.如权利要求1所述的方法,其特征在于,获取与所述医疗文本对应的文本向量包括:
对各个待测分词执行词嵌入处理,获取与各个待测分词对应的各个分词映射向量;
利用各个分词映射向量以及与所述各个待测分词分别对应的相邻待测分词对应的相邻分词映射向量,生成与所述各个待测分词对应的各个分词向量;
获取由与各个分词向量构成的文本向量。
7.如权利要求5所述的方法,其特征在于,所述机器学习模型组件被设置为按照下述方式训练得到:
获取多个训练文本向量以及与所述多个训练文本向量分别对应的多个训练关系向量;
构建机器学习模型组件,其中,所述机器学习模型组件中设置有训练参数;
利用所述多个训练文本向量以及与所述多个训练文本向量分别对应的多个训练关系向量之间的对应关系对所述机器学习模型组件进行训练,调整所述训练参数,直至所述机器学习模型组件达到设定的要求。
8.如权利要求7所述的方法,其特征在于,对所述机器学习模型组件进行训练包括:
将所述多个训练文本向量以及与所述多个训练文本向量分别对应的多个训练关系向量按照文本对应存储成多个样本数据,其中,每个样本数据包括与单个训练文本向量对应的多个训练分句向量和训练关系向量;
每个样本数据中的多个训练分句向量输入到所述机器学习模型组件后,通过残差卷积神经网络组件处理后获取到多个训练分句输出向量,将所述多个训练分句输出向量输入到注意力网络组件,获取与所述多个训练分句输出向量分别对应的多个训练分句权重,利用所述多个训练分句权重与训练分句输出向量,获取与所述训练文本向量对应的预测向量,利用所述预测向量与训练关系向量之间的差异,调整与所述机器学习模型组件对应的训练参数,使得将所述输入向量输入到所述机器学习模型组件的情况下获取到输出向量;
通过利用全部的样本数据对所述机器学习模型组件进行训练来调整所述训练参数,直到所述机器学习模型组件达到设定的要求。
9.如权利要求1所述的方法,其特征在于,还包括:
将所述关系向量转换为以与所述医疗文本对应的文字表达的关系。
10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述指令被执行时实现权利要求1至9中的任一权利要求所述的方法。
11.一种用于医疗文本的关系抽取装置,其特征在于,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行权利要求1至9中的任一权利要求所述的方法。
CN201910032125.5A 2019-01-14 2019-01-14 用于医疗文本的关系抽取方法及其装置 Active CN111435410B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910032125.5A CN111435410B (zh) 2019-01-14 2019-01-14 用于医疗文本的关系抽取方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910032125.5A CN111435410B (zh) 2019-01-14 2019-01-14 用于医疗文本的关系抽取方法及其装置

Publications (2)

Publication Number Publication Date
CN111435410A true CN111435410A (zh) 2020-07-21
CN111435410B CN111435410B (zh) 2023-04-14

Family

ID=71580537

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910032125.5A Active CN111435410B (zh) 2019-01-14 2019-01-14 用于医疗文本的关系抽取方法及其装置

Country Status (1)

Country Link
CN (1) CN111435410B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380866A (zh) * 2020-11-25 2021-02-19 厦门市美亚柏科信息股份有限公司 一种文本话题标签生成方法、终端设备及存储介质
CN112599211A (zh) * 2020-12-25 2021-04-02 中电云脑(天津)科技有限公司 一种医疗实体关系抽取方法及装置
CN113076421A (zh) * 2021-04-02 2021-07-06 西安交通大学 一种社交噪音文本实体关系抽取优化方法及系统
CN113515591A (zh) * 2021-04-22 2021-10-19 平安科技(深圳)有限公司 文本不良信息识别方法、装置、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160329044A1 (en) * 2015-05-08 2016-11-10 International Business Machines Corporation Semi-supervised learning of word embeddings
CN106446526A (zh) * 2016-08-31 2017-02-22 北京千安哲信息技术有限公司 电子病历实体关系抽取方法及装置
CN106649275A (zh) * 2016-12-28 2017-05-10 成都数联铭品科技有限公司 基于词性信息和卷积神经网络的关系抽取方法
CN106815192A (zh) * 2015-11-27 2017-06-09 北京国双科技有限公司 模型训练方法及装置和语句情感识别方法及装置
GB201805293D0 (en) * 2018-03-29 2018-05-16 Benevolentai Tech Limited Attention filtering for multiple instance learning
CN108182976A (zh) * 2017-12-28 2018-06-19 西安交通大学 一种基于神经网络的临床医学信息提取方法
CN108491680A (zh) * 2018-03-07 2018-09-04 安庆师范大学 基于残差网络和注意力机制的药物关系抽取方法
CN108829678A (zh) * 2018-06-20 2018-11-16 广东外语外贸大学 一种汉语国际教育领域命名实体识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160329044A1 (en) * 2015-05-08 2016-11-10 International Business Machines Corporation Semi-supervised learning of word embeddings
CN106815192A (zh) * 2015-11-27 2017-06-09 北京国双科技有限公司 模型训练方法及装置和语句情感识别方法及装置
CN106446526A (zh) * 2016-08-31 2017-02-22 北京千安哲信息技术有限公司 电子病历实体关系抽取方法及装置
CN106649275A (zh) * 2016-12-28 2017-05-10 成都数联铭品科技有限公司 基于词性信息和卷积神经网络的关系抽取方法
CN108182976A (zh) * 2017-12-28 2018-06-19 西安交通大学 一种基于神经网络的临床医学信息提取方法
CN108491680A (zh) * 2018-03-07 2018-09-04 安庆师范大学 基于残差网络和注意力机制的药物关系抽取方法
GB201805293D0 (en) * 2018-03-29 2018-05-16 Benevolentai Tech Limited Attention filtering for multiple instance learning
CN108829678A (zh) * 2018-06-20 2018-11-16 广东外语外贸大学 一种汉语国际教育领域命名实体识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BENABDALLAH, A.1 等: "Extraction of terms and semantic relationships from Arabic texts for automatic construction of an ontology" *
刘凯 等: "基于卷积神经网络的中文医疗弱监督关系抽取" *
李枫林 等: "基于深度学习框架的实体关系抽取研究进展" *
王磊 等: "基于Spark的海量文本评论情感分析" *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380866A (zh) * 2020-11-25 2021-02-19 厦门市美亚柏科信息股份有限公司 一种文本话题标签生成方法、终端设备及存储介质
CN112599211A (zh) * 2020-12-25 2021-04-02 中电云脑(天津)科技有限公司 一种医疗实体关系抽取方法及装置
CN112599211B (zh) * 2020-12-25 2023-03-21 中电云脑(天津)科技有限公司 一种医疗实体关系抽取方法及装置
CN113076421A (zh) * 2021-04-02 2021-07-06 西安交通大学 一种社交噪音文本实体关系抽取优化方法及系统
CN113076421B (zh) * 2021-04-02 2023-03-28 西安交通大学 一种社交噪音文本实体关系抽取优化方法及系统
CN113515591A (zh) * 2021-04-22 2021-10-19 平安科技(深圳)有限公司 文本不良信息识别方法、装置、电子设备及存储介质
CN113515591B (zh) * 2021-04-22 2024-03-15 平安科技(深圳)有限公司 文本不良信息识别方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111435410B (zh) 2023-04-14

Similar Documents

Publication Publication Date Title
CN111435410B (zh) 用于医疗文本的关系抽取方法及其装置
US10592837B2 (en) Identifying security risks via analysis of multi-level analytical records
US8457950B1 (en) System and method for coreference resolution
CN109815487B (zh) 文本质检方法、电子装置、计算机设备及存储介质
US9135240B2 (en) Latent semantic analysis for application in a question answer system
CN111539197B (zh) 文本匹配方法和装置以及计算机系统和可读存储介质
US20180025092A1 (en) Modular memoization, tracking and train-data management of feature extraction
US11249960B2 (en) Transforming data for a target schema
CN111832312B (zh) 文本处理方法、装置、设备和存储介质
CN111613341B (zh) 基于语义成分的实体链接方法及装置
CN111199157B (zh) 一种文本数据处理方法及其装置
CN111563380A (zh) 一种命名实体识别方法及其装置
CN112420145A (zh) 电子病历文书数据处理方法、装置及计算机可读存储介质
US20190361980A1 (en) Inferring confidence and need for natural language processing of input data
CN114021563A (zh) 医疗信息中数据的抽取方法、装置、设备和存储介质
US11803796B2 (en) System, method, electronic device, and storage medium for identifying risk event based on social information
CN111061927B (zh) 数据处理方法、装置及电子设备
CN111597336A (zh) 训练文本的处理方法、装置、电子设备及可读存储介质
CN109993190B (zh) 一种本体匹配方法、装置和计算机存储介质
CN114090619B (zh) 自然语言的查询处理方法及装置
US20160292282A1 (en) Detecting and responding to single entity intent queries
US11120060B2 (en) Efficient resolution of syntactic patterns in question and answer (QA) pairs in an n-ary focus cognitive QA system
US20210050107A1 (en) Medical treatment management
CN111666770A (zh) 一种语义匹配方法及装置
CN111708884A (zh) 文本分类方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant