CN111192692B - 一种实体关系的确定方法、装置、电子设备及存储介质 - Google Patents

一种实体关系的确定方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111192692B
CN111192692B CN202010001760.XA CN202010001760A CN111192692B CN 111192692 B CN111192692 B CN 111192692B CN 202010001760 A CN202010001760 A CN 202010001760A CN 111192692 B CN111192692 B CN 111192692B
Authority
CN
China
Prior art keywords
text
word
predicted
vector
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010001760.XA
Other languages
English (en)
Other versions
CN111192692A (zh
Inventor
付天宇
沈宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai United Imaging Intelligent Healthcare Co Ltd
Original Assignee
Shanghai United Imaging Intelligent Healthcare Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai United Imaging Intelligent Healthcare Co Ltd filed Critical Shanghai United Imaging Intelligent Healthcare Co Ltd
Priority to CN202010001760.XA priority Critical patent/CN111192692B/zh
Publication of CN111192692A publication Critical patent/CN111192692A/zh
Application granted granted Critical
Publication of CN111192692B publication Critical patent/CN111192692B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Abstract

本申请公开了一种实体关系的确定方法、装置、电子设备及存储介质,所述方法包括:确定包含实体集的待预测文本,将待预测文本转换成字向量序列,待预测文本中的字与字向量序列中的字向量一一对应,基于待预测文本确定待预测文本的字相对于实体集中实体的首字和尾字的位置向量集,将位置向量集和字向量序列中的每个字向量进行拼接,得到特征向量,基于训练后的关系识别模型对特征向量进行关系识别,得到待预测文本中的实体集对应的关系信息,如此,可以提高各个领域信息中实体关系的确定效率。

Description

一种实体关系的确定方法、装置、电子设备及存储介质
技术领域
本申请涉及互联网技术领域,尤其涉及一种实体关系的确定方法、装置、电子设备及存储介质。
背景技术
随着信息化的大力推进,对于各个领域数据的结构化信息提取变得尤为重要,比如医疗领域,通信领域,音乐领域等等。举个例子,电子病历作为医疗领域中一种主要数据来源,从中提取出结构化信息是实现医疗信息化的一个重要途径,且有助于医疗知识图谱的构建与电子病历的二次研究使用。实体关系抽取作为电子病历结构化信息抽取的核心任务之一,其任务是从给定的电子病历文本中自动地识别出给定的实体对间存在怎样的语义关系。
传统的电子病历实体关系抽取方法主要是基于规则的模板匹配法与基于特征的统计学习方法。其中,基于规则的方法首先根据相应领域的文本语料,人工总结归纳出相应的规则模板,然后通过模板匹配的方法进行实体关系抽取。而基于特征的统计学习方法则首先根据经验,人工提取出各种词法与句法特征,然后将特征转换为向量表示,最后通过计算特征向量之间的相似度来进行实体关系抽取。虽然这些方法在某些情况下可以取得较好的抽取结果,但严重依赖于手工制作的规则模板与特征的质量,泛化能力差,且需要消耗大量的人力以设计合适模板或特征。
发明内容
本申请实施例提供了一种实体关系的确定方法、装置、电子设备及存储介质,可以提高各个领域信息中实体关系的确定效率。
一方面,本申请实施例提供了一种实体关系的确定方法,该方法包括:
确定包含实体集的待预测文本;
将待预测文本转换成字向量序列;待预测文本中的字与字向量序列中的字向量一一对应;
基于待预测文本确定待预测文本的字相对于实体集中实体的首字和尾字的位置向量集;
将位置向量集和字向量序列中的每个字向量进行拼接,得到特征向量;
基于训练后的关系识别模型对特征向量进行关系识别,得到待预测文本中的实体集对应的关系信息。
另一方面提供了一种实体关系的确定装置,该装置包括:
文本确定模块,用于确定包含实体集的待预测文本;
转换模块,用于将待预测文本转换成字向量序列;待预测文本中的字与字向量序列中的字向量一一对应;
位置向量确定模块,用于基于待预测文本确定待预测文本的字相对于实体集中实体的首字和尾字的位置向量集;
拼接模块,用于将位置向量集和字向量序列中的每个字向量进行拼接,得到特征向量;
识别模块,用于基于训练后的关系识别模型对特征向量进行关系识别,得到待预测文本中的实体集对应的关系信息。
另一方面提供了一种电子设备,该电子设备包括处理器和存储器,存储器中存储有至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行实体关系的确定方法。
另一方面提供了一种计算机可读存储介质,计算机存储介质中存储有至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行以实现实体关系的确定方法。
本申请实施例提供的实体关系的确定方法、装置、电子设备及存储介质,具有如下技术效果:
确定包含实体集的待预测文本;将待预测文本转换成字向量序列;待预测文本中的字与字向量序列中的字向量一一对应;基于待预测文本确定待预测文本的字相对于实体集中实体的首字和尾字的位置向量集;将位置向量集和字向量序列中的每个字向量进行拼接,得到特征向量;基于训练后的关系识别模型对特征向量进行关系识别,得到待预测文本中的实体集对应的关系信息,如此,可以提高各个领域信息中实体关系的确定效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本申请实施例提供的一种应用环境的示意图;
图2是本申请实施例提供的一种实体关系的确定方法的流程示意图;
图3是本申请实施例提供的一种实体关系的确定方法的流程示意图;
图4是本申请实施例提供的一种实体关系的确定方法的流程示意图;
图5是本申请实施例提供的一种确定位置向量集的流程示意图;
图6是本申请实施例提供的一种带有位置长度特征信息的字向量序列的示意图;
图7是本申请实施例提供的一种关系识别模型的结构示意图;
图8是本申请实施例提供的一种关系识别模型的训练流程图;
图9是本申请实施例提供的一种实体关系的确定装置的结构示意图;
图10是本申请实施例提供的一种实体关系的确定方法的服务器的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
请参阅图1,图1是本申请实施例提供的一种应用环境的示意图,包括服务器101和终端设备102,其中,服务器101是可以通过关系识别模型对拼接后的字向量序列进行关系识别,得到实体集对应的关系信息的服务器,且服务器101可以为下游的终端设备102提供实体关系识别的服务器。比如,终端设备102获取包含实体集的待预测文本后,可以向服务器101上传该待预测文本,以使服务器101可以对该待预测文本进行关系识别处理。
具体的,服务器101确定包含实体集的待预测文本,将待预测文本转换成字向量序列,其中,待预测文本中的字与字向量序列中的字向量一一对应。随后,服务器101基于待预测文本确定待预测文本的字相对于实体集中实体的首字和尾字的位置向量集,并将位置向量集和字向量序列中的每个字向量进行拼接,得到特征向量。服务器101基于训练后的关系识别模型对特征向量进行关系识别,得到待预测文本中的实体集对应的关系信息。
本申请实施例中,执行主语可以是图1所示的服务器,还可以是一个服务器平台或者服务器集群,该平台或者集群中可以包括多个服务器。比如,第一服务器获取终端设备102发送的待预测文本后,可以将待预测文本转换成字向量序列,其中,待预测文本中的字与字向量序列中的字向量一一对应。
第二服务器可以基于待预测文本确定待预测文本的字相对于实体集中实体的首字和尾字的位置向量集,并将位置向量集和字向量序列中的每个字向量进行拼接,得到特征向量。
第三服务器接收到第二服务器发送的特征向量,可以基于训练后的关系识别模型对特征向量进行关系识别,得到待预测文本中的实体集对应的关系信息。如此,通过上述3个服务器就得到了待预测文本中的实体集对应的关系信息。
本申请实施例中,服务器101和终端设备102可以通过无线链路连接。
本申请实施例中,第一服务器,第二服务器和第三服务器之间可以通过无线链路连接,还可以通过有线链路连接。通信链路类型的选择可以根据实际的应用情况和应用环境而定。可选的,第一服务器,第二服务器和第三服务器可以被设置在同一个空间内。
本申请实施例中。服务器101还可以是计算机终端或者类似的运算装置。终端设备102可以是智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、智能可穿戴设备等类型的实体设备;其中,智能可穿戴设备可以包括智能手环、智能手表、智能眼镜、智能头盔等。当然,所述终端设备102并不限于上述具有一定实体的电子设备,其还可以为运行于上述电子设备中的软体,例如,所述终端设备102可以为服务商提供给用户的网页页面或应用。
以下介绍本申请一种实体关系的确定方法的具体实施例,图2是本申请实施例提供的一种实体关系的确定方法的流程示意图,本说明书提供了如实施例或流程图的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示,该方法可以包括:
S201:确定包含实体集的待预测文本。
本申请实施例中,步骤S201是服务器获取待预测文本的步骤,该待预测文中包含有实体集,该实体集中至少包括2个实体。可选的,若该实体集中包括2个实体,则确定这2个实体,也就是实体对对应的关系信息。可选的,若该实体集包括3个实体,则可以直接确定这3个实体对应的关系信息,或者,服务器可以分别确定这3个实体中两两组成的实体对的关系信息,随后通过3个关系信息最终确定这3个实体对应的关系信息。下面将以实体集中包括2个实体为例进行举例说明。
可选的,待预测文本可以是任何领域内的文本,比如医学科学领域,音乐领域,通信科学领域等等,下面将以医学科学领域为例进行举例说明。
本申请实施例中,如何确定包含实体集的待预测文本,可以如图3所示,具体包括以下步骤:
S2011:获取待处理病历。
本申请实施例中,待处理病历可以是电子病历,还可以是纸质病历。服务器可以对纸质病历进行扫描,得到纸质病历对应的电子版本。
S2013:从待处理病历中确定实体集;实体集的任两个实体之间间隔的字的数量小于等于预设数值。
由于上文中提及以实体集中包含2个实体进行举例说明,因此,该步骤中确定的是实体对,其中,该实体对之间间隔的字的数量小于等于预设数值。其中,该预设数值可以根据实际情况而定,比如预设数值为5。设置预设数值的意义在于对实体对的确定做一定的限制,因为随着实体对间隔越远,实体对之间有关系的可能也越小。减少相隔较远的实体对的关系信息的确定可以减少服务器对实体对关系识别的工作量。
S2015:从待处理病历中截取包含实体集的文本。
具体的,服务器可以将实体对中的两个实体为开头和结尾从待处理病历中截取文本。
S2017:对文本进行扩充处理,得到包含实体集的待预测文本。
服务器可以在实体对中的头实体的前面添加若干字,在尾实体的后面添加若干字,得到待预测文本。
或者步骤S2015和步骤S2017可以直接表示为截取包含实体集的文本,就可以得到待预测文本。
S203:将待预测文本转换成字向量序列;待预测文本中的字与字向量序列中的字向量一一对应。
本申请实施例中,服务器可以根据预先构建的字典将待预测文本转换成字向量序列,如图4所示,构建字典的步骤可以在步骤S201之前,包括:
S2001:获取病历样本集;
S2003:确定病历样本集对应的字集以及字集中每个字的出现次数;
服务器确定病历样本集中出现的所有的字,以及每个字出现的次数。
S2005:根据每个字的出现次数和预设的排列顺序对字集中的字进行排序,得到字典。
服务器可以根据出现的次数由多到少或者由少到多将所有的字进行排序,并根据排序后的字的位置赋予每个字唯一的ID,将排序后的字集确定为字典。
如此,步骤S203的内容可以更新为根据预先构建的字典将待预测文本转换成字向量序列,待预测文本中的字与字向量序列中的字向量一一对应。
假设字典中的字的个数为1000个,待预测文本为“控制血糖是延缓糖尿病进展及其并发症发生的重要措施之一”。转换之后的每个字向量的维数和字典中的字的个数一致,为1000。可选的,字典中第一个字的ID可以表示为D0,字典中最后一个字的ID为D999。假设待预测文本中的“的”字是字典中第一个字,则“的”的ID就是D0,且“的”的字向量为[100…0],包括在第一维的“1”和在其他维的999个“0”。假设待预测文本中的“控”字是字典中第100个字,则“控”的ID就是D99,且“控”的字向量为[00…010…0],包括在第100维的“1”和在其他维的999个“0”。该待预测文本的其他字可以按照上述描述转换成字向量,如此,服务器可以得到该待预测文本对应的26个1000维的字向量,且该26个字向量根据待预测文本的字处于的位置组成字向量序列。
本申请实施例中,由于转换成的字向量的维数较大,如果直接处理字向量,计算量比较大,为了减少计算量,服务器可以对字向量序列中的每个字向量进行降维处理,得到降维后的字向量序列。
一种可选的实施方式中,服务器将每个字向量乘以训练后的字向量降维矩阵Mc,得到降维后的字向量V组成的字向量序列。比如,降维后的字向量的维数可以是8维。
S205:基于待预测文本确定待预测文本的字相对于实体集中实体的首字和尾字的位置向量集。
本申请实施例中,服务器可以先确定头实体和尾实体的位置,然后服务器基于待预测文本确定待预测文本的字相对于实体对中头实体的首字和尾字的第一位置向量和第二位置向量;基于待预测文本确定待预测文本的字相对于实体对中尾实体的首字和尾字的第三位置向量和第四位置向量。第一位置向量、第二位置向量、第三位置向量和第四位置向量组成位置向量集。
继续上述的例子继续阐述,假设待预测文本“控制血糖是延缓糖尿病进展及其并发症发生的重要措施之一”的头实体和尾实体分别是“血糖”和“糖尿病”。基于待预测文本,服务器确定的待预测文本的字相对于头实体的首字“血”的第一位置向量Hs为[-2-1 0 1 23 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23],表明“血”所在位置的数值为0,其他字所在位置的数值基于“血”字对应的0确定。同理可得,基于待预测文本,服务器确定的待预测文本的字相对于头实体的尾字“糖”的第二位置向量He为[-3-2-1 0 1 2 34 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22];基于待预测文本,服务器确定的待预测文本的字相对于尾实体的首字“糖”的第三位置向量Ts为[-7-6-5-4-3-2-1 0 1 23 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18];基于待预测文本,服务器确定的待预测文本的字相对于尾实体的尾字“病”的第四位置向量Te为[-9-8-7-6-5-4-3-2-1 0 1 2 3 4 56 7 8 9 10 11 12 13 14 15 16]。
S207:将位置向量集和字向量序列中的每个字向量进行拼接,得到特征向量。
若字向量序列中的每个字向量已经经过降维处理,则服务器将位置向量集和降维后的字向量序列的每个字向量进行拼接,得到特征向量。也就是说,服务器将第一位置向量、第二位置向量、第三位置向量、第四位置向量和降维后的字向量序列中的每个字向量进行拼接,得到特征向量。。
为了统一服务器的处理标准,使得基于不同的待预测文本得到的位置向量集中的位置向量的维数是一致的,服务器可以设置一个预设维数。比如30维。如此,服务器若在确定位置向量集中的位置向量的维数与预设维数不一致的时候,可以对位置向量集中的位置向量进行维数增添或者维数截断处理。比如,服务器将上述例子中第一位置向量、第二位置向量、第三位置向量和第四位置向量的维数由26维添加至30维,最终得到新的第一位置向量[-2-1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 2424 24],新的第二位置向量[-3-2-1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 1819 20 21 22 23 23 23 23],新的第三位置向量[-7-6-5-4-3-2-1 0 1 2 3 4 5 6 7 8 910 11 12 13 14 15 16 17 18 19 19 19 19],新的第四位置向量[-9 -8 -7 -6 -5 -4 -3-2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 17 17 17]。假设位置向量集中的位置向量的维数是32维,则服务器将每个位置向量的最后两个数值删除。比如,有个32维的位置向量为[-2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 2223 24 25 26 27 28 29],由于该位置向量的维数超过预设维数30,进行截断处理后得到[-2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 2627]。
一种可选的实施方式中,服务器还可以对位置向量集中的位置向量进行降维处理,服务器先初始化对头实体对应的位置向量进行降维的降维矩阵Mh和对尾实体对应的位置向量进行降维的降维矩阵Ms。服务器将第一位置向量和第二位置向量分别乘以降维矩阵Mh,将第三位置向量和第四位置向量分别乘以降维矩阵Ms,得到降维后的位置向量组成的位置向量集。比如,每个降维后的位置向量的维数为1维。其中,降维矩阵Mh和降维矩阵Ms可以是同一个降维矩阵。本申请实施例中,基于上述例子的步骤S205的具体的实施方案可见图5。
如此,服务器可以将降维后的位置向量集和降维后的字向量序列中的每个字向量进行拼接,得到带有位置长度特征信息的特征向量,如图6示例,每个字向量拼接位置向量结合后得到的带有位置长度信息的向量的维数为12维。
S209:基于训练后的关系识别模型对特征向量进行关系识别,得到待预测文本中的实体集对应的关系信息。
也就是说,服务器可以基于训练后的关系识别模型对带有位置长度特征信息的特征向量进行关系识别,得到待预测文本中的实体集对应的关系信息。
本申请实施例中,关系识别模型是一种机器学习模型,机器学习(MachineLearning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。机器学习可以分为有监督的机器学习,无监督的机器学习和半监督的机器学习。
本申请实施例中,该关系识别模型包括第一子模型、第二子模型和第三子模型。如图7所示,第一子模型和第二子模型是并联连接,且第一子模型的输出层和第二子模型的输出层分别与第三子模型的输入层连接。
第一子模型可以是循环神经网络(Recurrent Neural Network,RNN)模型或者长短期记忆网络(Long Short-Term Memory,LSTM)或者门控循环单元(Gated RecurrentUnit,GRU),其中,第一子模型可以包括注意力机制层,服务器将带有位置长度特征信息的特征向量输入第一子模型后,可以从第一子模型的输出端得到带有注意力权重信息的第一特征向量。
第二子模型可以是卷积神经网络(Convolutional Neural Network,CNN)模型或者脉冲耦合神经网络(Pulse Coupled Neural Network,PCNN)模型。其中,第二子模型包括分段最大池化层,还可以包括多个卷积层。服务器将带有位置长度特征信息的特征向量输入第二子模型后,经过多个卷积层和分段最大池化层后,可以得到带有文本特征信息的第二特征向量。可选的,在进行卷积和池化之前,可以如图6所示,可以根据两个实体的起始位置和结束位置将字向量序列中的字向量分为5个部分,生成对应的掩码图。
第三子模型包括全连接层,服务器利用第三子模型对第一特征向量和第二特征向量进行拼接,得到联合特征向量;并基于第三子模型的全连接层对联合特征向量进行识别,得到待预测文本中的实体集对应的关系信息。基于上述例子,服务器就可以确定待预测文本“控制血糖是延缓糖尿病进展及其并发症发生的重要措施之一”中的实体对“血糖”和“糖尿病”对应的关系信息。
一种可选的实施方式中,关系信息可以包括具体的关系信息和每个关系信息对应的概率值,比如最终得到的关系信息可以包括:有关系-97%,没有关系-3%。
本申请实施例中,关系识别模型的训练方式可以是有监督的,无监督的或者半监督的。
图8提供一种有监督的关系识别模型的训练方法,,包括:
S801:服务器获取样本数据集,样本数据集包括多个样本文本中每个样本文本对应的带有位置长度特征信息的特征向量和每个样本文本中实体集对应的标签关系信息;
其中,每个样本文本对应的带有位置长度特征信息的特征向量的确定可以参考上文中待预测文本对应的带有位置长度特征信息的特征向量的确定,每个样本文本中实体集对应的标签关系信息是通过打标签确定的。
S803:服务器构建预设机器学习模型,初始化预设机器学习模型的模型参数,将预设机器学习模型确定为当前机器学习模型;
S805:服务器基于当前机器学习模型,对带有位置长度特征信息的特征向量进行实体关系预测操作,确定带有位置长度特征信息的特征向量对应的预测关系信息;
S807:服务器基于带有位置长度特征信息的特征向量对应的预测关系信息和标签关系信息,确定损失值;
S809:当损失值大于预设阈值时,转至步骤S811;否则转至步骤S813;
S811:服务器基于损失值进行反向传播,对当前机器学习模型进行更新以得到更新后的机器学习模型,将更新后的机器学习模型重新确定为当前机器学习模型;转至步骤S805;
S813:服务器确定损失值小于或等于预设阈值时,将当前机器学习模型确定为关系识别模型。
现有技术中,位置特征最初是为基于词的实体关系抽取任务设计的,对于中文实体关系抽取来说,基于词向量的算法需要首先对句子进行分词,而分词又会带来很多问题:与英文根据空格就能很明显、直接地识别每个英文词不同,中文中并不存在这样的词语分隔符,这也使得中文分词变得比较困难,且现在的分词技术还存在很多问题,分词不当产生的错误会导致自然语言处理(Natural Language Processing,NLP)任务出现偏差;
第一点:根据齐普夫定律,很多中文词的出现频率都非常低,这使得模型难以学习到词语的语义信息;
第二点:词语数的增加会使模型参数增多,数据稀疏很容易引起过拟合问题;
第三点:由于维护大规模的词语-向量表存在难度,很多词语都会被处理为未登录词向量(Out Of Vocabulary,OOV)问题,进一步限制了模型的学习能力;
第四点:分词产生的收益效果尚不明确。
而本申请涉及的方案:基于字向量、双重位置特征和深度学习技术来进行中文电子病历中的实体关系抽取,在使用字向量作为句子特征的基础上,使用了一个新的双重位置特征,避免了使用词向量作为句子特征所带来的分词误差,即不带来额外的参数的同时也能解决的单位置特征不能表征实体长度的问题。
本申请的技术特征优势主要体现在:
第一点:本申请使用字向量,不需对句子进行分词,避免了分词所带来的误差对后续关系抽取任务带来的影响。
第二点:相对于分词所产生的极大量的词汇,常用汉字就几千个,这就极大的减少了向量表的规模。
第三点:相对于词模型,极大的减少了模型的参数,且数据词模型要稠密很多。
第四点:相对于词模型存在的OOV问题,字模型极大的缓解了这个问题。
第五点:本申请所使用的双重位置特征既可以表征中文实体的位置信息也可以表征中文实体的长度信息。
本申请实施例还提供了一种实体关系的确定装置,图9是本申请实施例提供的一种实体关系的确定装置的结构示意图,如图9所示,该装置包括:
文本确定模块901用于确定包含实体集的待预测文本;
转换模块902用于将待预测文本转换成字向量序列;待预测文本中的字与字向量序列中的字向量一一对应;
位置向量确定模块903用于基于待预测文本确定待预测文本的字相对于实体集中实体的首字和尾字的位置向量集;
拼接模块904用于将位置向量集和字向量序列中的每个字向量进行拼接,得到特征向量;
识别模块905用于基于训练后的关系识别模型对特征向量进行关系识别,得到待预测文本中的实体集对应的关系信息。
在一种可选的实施方式中,
关系识别模型包括第一子模型、第二子模型和第三子模型;
第一子模型包括注意力机制层,第二子模型包括分段最大池化层,第三子模型包括全连接层;
第一子模型和第二子模型并联连接,且第一子模型的输出层和第二子模型的输出层分别与第三子模型的输入层连接。
在一种可选的实施方式中,该装置还包括:
识别模块905用于将特征向量输入第一子模型,得到带有注意力权重信息的第一特征向量;将特征向量输入第二子模型,得到带有文本特征信息的第二特征向量;将第一特征向量和第二特征向量输入第三子模型,利用第三子模型对第一特征向量和第二特征向量进行拼接,得到联合特征向量;基于第三子模型的全连接层对联合特征向量进行识别,得到待预测文本中的实体集对应的关系信息。
在一种可选的实施方式中,该装置还包括字典构建模块:
转换模块902用于根据预先构建的字典将待预测文本转换成字向量序列,
字典构建模块用于获取病历样本集;确定病历样本集对应的字集以及字集中每个字的出现次数;根据每个字的出现次数和预设的排列顺序对字集中的字进行排序,得到字典。
在一种可选的实施方式中,该装置还包括:
文本确定模块901用于获取待处理病历;从待处理病历中确定实体集;实体集的任两个实体之间间隔的字的数量小于等于预设数值;从待处理病历中截取包含实体集的文本;对文本进行扩充处理,得到包含实体集的待预测文本。
在一种可选的实施方式中,该装置还包括:
拼接模块904用于对字向量序列中的每个字向量进行降维处理,得到降维后的字向量序列;将位置向量集和降维后的字向量序列的每个字向量进行拼接。
在一种可选的实施方式中,该装置还包括:
截断处理模块,用于若位置向量集中的位置向量的维数与预设维数不一致,对位置向量集中的位置向量进行维数增添或者维数截断处理。
本申请实施例中的装置与方法实施例基于同样地申请构思。
本申请实施例所提供的方法实施例可以在计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例,图10是本申请实施例提供的一种实体关系的确定方法的服务器的硬件结构框图。如图10所示,该服务器1000可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,CPU)1010(处理器1010可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1030,一个或一个以上存储应用程序1023或数据1022的存储介质1020(例如一个或一个以上海量存储设备)。其中,存储器1030和存储介质1020可以是短暂存储或持久存储。存储在存储介质1020的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1010可以设置为与存储介质1020通信,在服务器1000上执行存储介质1020中的一系列指令操作。服务器1000还可以包括一个或一个以上电源1060,一个或一个以上有线或无线网络接口1050,一个或一个以上输入输出接口1040,和/或,一个或一个以上操作系统1021,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
输入输出接口1040可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器1000的通信供应商提供的无线网络。在一个实例中,输入输出接口1040包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,输入输出接口1040可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
本领域普通技术人员可以理解,图10所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器1000还可包括比图10中所示更多或者更少的组件,或者具有与图10所示不同的配置。
本申请的实施例还提供了一种计算机存储介质,所述计算机存储介质可设置于服务器之中以保存用于实现方法实施例中一种实体关系的确定方法相关的至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述实体关系的确定方法。
可选地,在本实施例中,上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
由上述本申请提供的实体关系的确定方法、设备或存储介质的实施例可见,本申请中通过确定包含实体集的待预测文本,将待预测文本转换成字向量序列,待预测文本中的字与字向量序列中的字向量一一对应,基于待预测文本确定待预测文本的字相对于实体集中实体的首字和尾字的位置向量集,将位置向量集和字向量序列中的每个字向量进行拼接,得到特征向量,基于训练后的关系识别模型对特征向量进行关系识别,得到待预测文本中的实体集对应的关系信息,如此,可以提高各个领域信息中实体关系的确定效率。
需要说明的是:上述本申请实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种实体关系的确定方法,其特征在于,所述方法包括:
确定包含实体集的待预测文本;
将所述待预测文本转换成字向量序列;所述待预测文本中的字与所述字向量序列中的字向量一一对应;
基于所述待预测文本确定所述待预测文本的字相对于所述实体集中实体的首字和尾字的位置向量集;所述位置向量集包括所述待预测文本的字相对于所述实体集中实体的首字的第一位置向量,以及所述待预测文本的字相对于所述实体集中实体的尾字的第二位置向量;
将所述位置向量集和所述字向量序列中的每个字向量进行拼接,得到特征向量;
基于训练后的关系识别模型对所述特征向量进行关系识别,得到所述待预测文本中的所述实体集对应的关系信息。
2.根据权利要求1所述的方法,其特征在于,所述关系识别模型包括第一子模型、第二子模型和第三子模型;
所述第一子模型包括注意力机制层,所述第二子模型包括分段最大池化层,所述第三子模型包括全连接层;
所述第一子模型和所述第二子模型并联连接,且所述第一子模型的输出层和第二子模型的输出层分别与第三子模型的输入层连接。
3.根据权利要求2所述的方法,其特征在于,所述基于训练后的关系识别模型对所述特征向量进行关系识别,得到所述待预测文本中的所述实体集对应的关系信息,包括:
将所述特征向量输入所述第一子模型,得到带有注意力权重信息的第一特征向量;
将所述特征向量输入所述第二子模型,得到带有文本特征信息的第二特征向量;
将所述第一特征向量和所述第二特征向量输入所述第三子模型,利用所述第三子模型对所述第一特征向量和所述第二特征向量进行拼接,得到联合特征向量;
基于所述第三子模型的全连接层对所述联合特征向量进行识别,得到所述待预测文本中的所述实体集对应的关系信息。
4.根据权利要求1所述的方法,其特征在于,所述将所述待预测文本转换成字向量序列,包括:
根据预先构建的字典将所述待预测文本转换成字向量序列;
构建所述字典的步骤包括:
获取病历样本集;
确定病历样本集对应的字集以及所述字集中每个字的出现次数;
根据所述每个字的出现次数和预设的排列顺序对所述字集中的字进行排序,得到所述字典。
5.根据权利要求1所述的方法,其特征在于,所述确定包含实体集的待预测文本,包括:
获取待处理病历;
从所述待处理病历中确定实体集;所述实体集的任两个实体之间间隔的字的数量小于等于预设数值;
从所述待处理病历中截取包含所述实体集的文本;
对所述文本进行扩充处理,得到包含所述实体集的待预测文本。
6.根据权利要求1所述的方法,其特征在于,所述基于所述待预测文本确定所述待预测文本的字相对于所述实体集中实体的首字和尾字的位置向量集之前,还包括:
对所述字向量序列中的每个字向量进行降维处理,得到降维后的字向量序列;
所述将所述位置向量集和所述字向量序列中的每个字向量进行拼接,包括:
将所述位置向量集和所述降维后的字向量序列的每个字向量进行拼接。
7.根据权利要求6所述的方法,其特征在于,所述将所述位置向量集和所述字向量序列中的每个字向量进行拼接之前,还包括:
若所述位置向量集中的位置向量的维数与预设维数不一致,对所述位置向量集中的位置向量进行维数增添或者维数截断处理。
8.一种实体关系的确定装置,其特征在于,所述装置包括:
文本确定模块,用于确定包含实体集的待预测文本;
转换模块,用于将所述待预测文本转换成字向量序列;所述待预测文本中的字与所述字向量序列中的字向量一一对应;
位置向量确定模块,用于基于所述待预测文本确定所述待预测文本的字相对于所述实体集中实体的首字和尾字的位置向量集;所述位置向量集包括所述待预测文本的字相对于所述实体集中实体的首字的第一位置向量,以及所述待预测文本的字相对于所述实体集中实体的尾字的第二位置向量;
拼接模块,用于将所述位置向量集和所述字向量序列中的每个字向量进行拼接,得到特征向量;
识别模块,用于基于训练后的关系识别模型对所述特征向量进行关系识别,得到所述待预测文本中的所述实体集对应的关系信息。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行如权利要求1-7任一项所述的实体关系的确定方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由处理器加载并执行以实现如权利要求1-7任一项所述的实体关系的确定方法。
CN202010001760.XA 2020-01-02 2020-01-02 一种实体关系的确定方法、装置、电子设备及存储介质 Active CN111192692B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010001760.XA CN111192692B (zh) 2020-01-02 2020-01-02 一种实体关系的确定方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010001760.XA CN111192692B (zh) 2020-01-02 2020-01-02 一种实体关系的确定方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111192692A CN111192692A (zh) 2020-05-22
CN111192692B true CN111192692B (zh) 2023-12-08

Family

ID=70709737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010001760.XA Active CN111192692B (zh) 2020-01-02 2020-01-02 一种实体关系的确定方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111192692B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112052668A (zh) * 2020-08-13 2020-12-08 丰图科技(深圳)有限公司 地址文本识别模型的训练方法、地址的预测方法及装置
CN112214987B (zh) * 2020-09-08 2023-02-03 深圳价值在线信息科技股份有限公司 一种信息提取方法、提取装置、终端设备及可读存储介质
CN112199954B (zh) * 2020-10-10 2023-11-10 平安科技(深圳)有限公司 基于语音语义的疾病实体匹配方法、装置及计算机设备
CN114372454A (zh) * 2020-10-14 2022-04-19 腾讯科技(深圳)有限公司 文本信息抽取方法、模型训练方法、装置及存储介质
CN112446215B (zh) * 2020-12-14 2024-03-22 云南电网有限责任公司电力科学研究院 一种实体关系联合抽取方法
CN112542223A (zh) * 2020-12-21 2021-03-23 西南科技大学 一种从中文电子病历构建医疗知识图谱的半监督学习方法
CN112860816A (zh) * 2021-03-01 2021-05-28 三维通信股份有限公司 药物实体对的相互作用关系检测模型构建方法和检测方法
CN113761215A (zh) * 2021-03-25 2021-12-07 中科天玑数据科技股份有限公司 一种基于反馈自学习的动态字典库生成方法
CN113743120B (zh) * 2021-09-07 2023-07-11 亿咖通(湖北)技术有限公司 语句处理方法及装置
CN114780691B (zh) * 2022-06-21 2022-12-02 安徽讯飞医疗股份有限公司 模型预训练及自然语言处理方法、装置、设备及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106354710A (zh) * 2016-08-18 2017-01-25 清华大学 一种神经网络关系抽取方法
CN106649275A (zh) * 2016-12-28 2017-05-10 成都数联铭品科技有限公司 基于词性信息和卷积神经网络的关系抽取方法
CN106855853A (zh) * 2016-12-28 2017-06-16 成都数联铭品科技有限公司 基于深度神经网络的实体关系抽取系统
WO2018032937A1 (zh) * 2016-08-19 2018-02-22 中兴通讯股份有限公司 一种文本信息分类方法及其装置
CN107832400A (zh) * 2017-11-01 2018-03-23 山东大学 一种基于位置的lstm和cnn联合模型进行关系分类的方法
CN108664473A (zh) * 2018-05-11 2018-10-16 平安科技(深圳)有限公司 文本关键信息的识别方法、电子装置及可读存储介质
CN109388807A (zh) * 2018-10-30 2019-02-26 中山大学 电子病历命名实体识别的方法、装置及存储介质
CN109522557A (zh) * 2018-11-16 2019-03-26 中山大学 文本关系抽取模型的训练方法、装置及可读存储介质
CN109871544A (zh) * 2019-03-25 2019-06-11 平安科技(深圳)有限公司 基于中文病历的实体识别方法、装置、设备及存储介质
WO2019174422A1 (zh) * 2018-03-16 2019-09-19 北京国双科技有限公司 实体关联关系的分析方法及相关装置
WO2019214145A1 (zh) * 2018-05-10 2019-11-14 平安科技(深圳)有限公司 文本情绪分析方法、装置及存储介质
CN110457677A (zh) * 2019-06-26 2019-11-15 平安科技(深圳)有限公司 实体关系识别方法及装置、存储介质、计算机设备
WO2019232861A1 (zh) * 2018-06-04 2019-12-12 平安科技(深圳)有限公司 手写模型训练方法、文本识别方法、装置、设备及介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8370128B2 (en) * 2008-09-30 2013-02-05 Xerox Corporation Semantically-driven extraction of relations between named entities
CN107301170B (zh) * 2017-06-19 2020-12-22 北京百度网讯科技有限公司 基于人工智能的切分语句的方法和装置

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106354710A (zh) * 2016-08-18 2017-01-25 清华大学 一种神经网络关系抽取方法
WO2018032937A1 (zh) * 2016-08-19 2018-02-22 中兴通讯股份有限公司 一种文本信息分类方法及其装置
CN106649275A (zh) * 2016-12-28 2017-05-10 成都数联铭品科技有限公司 基于词性信息和卷积神经网络的关系抽取方法
CN106855853A (zh) * 2016-12-28 2017-06-16 成都数联铭品科技有限公司 基于深度神经网络的实体关系抽取系统
CN107832400A (zh) * 2017-11-01 2018-03-23 山东大学 一种基于位置的lstm和cnn联合模型进行关系分类的方法
WO2019174422A1 (zh) * 2018-03-16 2019-09-19 北京国双科技有限公司 实体关联关系的分析方法及相关装置
WO2019214145A1 (zh) * 2018-05-10 2019-11-14 平安科技(深圳)有限公司 文本情绪分析方法、装置及存储介质
CN108664473A (zh) * 2018-05-11 2018-10-16 平安科技(深圳)有限公司 文本关键信息的识别方法、电子装置及可读存储介质
WO2019214149A1 (zh) * 2018-05-11 2019-11-14 平安科技(深圳)有限公司 文本关键信息的识别方法、电子装置及可读存储介质
WO2019232861A1 (zh) * 2018-06-04 2019-12-12 平安科技(深圳)有限公司 手写模型训练方法、文本识别方法、装置、设备及介质
CN109388807A (zh) * 2018-10-30 2019-02-26 中山大学 电子病历命名实体识别的方法、装置及存储介质
CN109522557A (zh) * 2018-11-16 2019-03-26 中山大学 文本关系抽取模型的训练方法、装置及可读存储介质
CN109871544A (zh) * 2019-03-25 2019-06-11 平安科技(深圳)有限公司 基于中文病历的实体识别方法、装置、设备及存储介质
CN110457677A (zh) * 2019-06-26 2019-11-15 平安科技(深圳)有限公司 实体关系识别方法及装置、存储介质、计算机设备

Also Published As

Publication number Publication date
CN111192692A (zh) 2020-05-22

Similar Documents

Publication Publication Date Title
CN111192692B (zh) 一种实体关系的确定方法、装置、电子设备及存储介质
US20230100376A1 (en) Text sentence processing method and apparatus, computer device, and storage medium
US11501182B2 (en) Method and apparatus for generating model
CN110457708B (zh) 基于人工智能的词汇挖掘方法、装置、服务器及存储介质
CN113127624B (zh) 问答模型的训练方法及装置
CN112084789B (zh) 文本处理方法、装置、设备及存储介质
CN110162766B (zh) 词向量更新方法和装置
CN111310440A (zh) 文本的纠错方法、装置和系统
CN112883193A (zh) 一种文本分类模型的训练方法、装置、设备以及可读介质
CN110825843A (zh) 适于金融领域的训练方法、问答方法、装置及存储介质
WO2021052137A1 (zh) 情绪向量的生成方法及装置
Banik et al. Gru based named entity recognition system for bangla online newspapers
CN112149427B (zh) 动词短语蕴含图谱的构建方法及相关设备
EP4170542A2 (en) Method for sample augmentation
CN116258137A (zh) 文本纠错方法、装置、设备和存储介质
CN112528654A (zh) 自然语言处理方法、装置及电子设备
CN110969005B (zh) 一种确定实体语料之间的相似性的方法及装置
CN110807097A (zh) 分析数据的方法和装置
CN114372454A (zh) 文本信息抽取方法、模型训练方法、装置及存储介质
CN112349294A (zh) 语音处理方法及装置、计算机可读介质、电子设备
CN115600595A (zh) 一种实体关系抽取方法、系统、设备及可读存储介质
CN115062123A (zh) 一种对话生成系统的知识库问答对生成方法
CN115221897A (zh) 一种翻译模型训练方法、信息翻译方法及相关设备
Chen et al. Reinforced zero-shot cross-lingual neural headline generation
CN113886521A (zh) 一种基于相似词汇表的文本关系自动标注方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant