CN110472239A - 实体链接模型的训练方法、装置及电子设备 - Google Patents
实体链接模型的训练方法、装置及电子设备 Download PDFInfo
- Publication number
- CN110472239A CN110472239A CN201910678070.5A CN201910678070A CN110472239A CN 110472239 A CN110472239 A CN 110472239A CN 201910678070 A CN201910678070 A CN 201910678070A CN 110472239 A CN110472239 A CN 110472239A
- Authority
- CN
- China
- Prior art keywords
- entity
- illness
- organ
- sample
- mentioned
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 187
- 238000000034 method Methods 0.000 title claims abstract description 73
- 210000000056 organ Anatomy 0.000 claims abstract description 137
- 230000006870 function Effects 0.000 claims abstract description 95
- 239000000126 substance Substances 0.000 claims abstract description 63
- 238000000605 extraction Methods 0.000 claims abstract description 31
- 239000013598 vector Substances 0.000 claims description 111
- 238000013528 artificial neural network Methods 0.000 claims description 28
- 230000007787 long-term memory Effects 0.000 claims description 24
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 17
- 201000010099 disease Diseases 0.000 claims description 16
- 230000004044 response Effects 0.000 claims description 6
- 238000003780 insertion Methods 0.000 claims description 3
- 230000037431 insertion Effects 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 abstract description 9
- 230000010365 information processing Effects 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 21
- 238000005516 engineering process Methods 0.000 description 20
- 230000015654 memory Effects 0.000 description 11
- 238000013473 artificial intelligence Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 208000024891 symptom Diseases 0.000 description 9
- 238000004590 computer program Methods 0.000 description 8
- 230000006854 communication Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000000875 corresponding effect Effects 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 206010037660 Pyrexia Diseases 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 241000282326 Felis catus Species 0.000 description 3
- 206010068319 Oropharyngeal pain Diseases 0.000 description 3
- 201000007100 Pharyngitis Diseases 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 210000003800 pharynx Anatomy 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000005291 magnetic effect Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 210000002216 heart Anatomy 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000155 melt Substances 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 231100000862 numbness Toxicity 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 210000002784 stomach Anatomy 0.000 description 1
- 208000011580 syndromic disease Diseases 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本公开涉及自然语言处理技术领域,提供了一种实体链接模型的训练方法、装置,以及电子设备。其中,该方法包括:确定关于病症实体的第一训练样本,以及确定关于器官实体的第二训练样本;基于实体链接模型,对第一训练样本和第二训练样本进行特征提取,得到关于病症实体和器官实体的公共特征、病症实体特征和器官实体特征;根据公共特征和病症实体特征确定第一损失函数,以及根据公共特征和器官实体特征确定第二损失函数;根据第一损失函数和第二损失函数确定实体链接模型的模型参数,得到训练后的结合病症和器官的实体链接模型。通过本技术方案训练得到的实体链接模型的信息处理效率高。
Description
技术领域
本公开涉及自然语言处理的技术领域,具体而言,涉及一种实体链接模型的训练方法、多任务实体链接模型的训练装置,以及实现上述实体链接模型的训练方法的电子设备。
背景技术
自然语言的处理过程中经常会遇到表达多样性问题和歧义性问题。其中,表达多样性问题是指,对于同一语义具有不同种表达的文本表达方式。歧义性问题是指,同一种表达方式可能具有多种不同的语义。
为了解决自然语言处理过程中的上述问题,实体链接技术应运而生。具体的,实体链接是指将自然语言中的文本与知识库中的条目进行链接。例如,在智能问答系统中,根据用户输入的咨询问题,通过实体链接技术获取与上述咨询问题关联度较高的相关实体,进一步将相关实体作为对用户的应答输出给用户。
相关技术中,通过训练某一任务a的实体链接模型A,进而用户可以基于训练后的实体链接模型A,获取其咨询关于任务a的答复。进一步地,还可以通过训练另一任务b的实体链接模型B,从而用户可以基于训练后的实体链接模型B,获取其咨询关于任务b的答复。
然而,相关技术提供的实体链接模型的信息处理效率较低。
需要说明的是,上述背景技术部分公开的信息仅用于加强对本公开的背景的理解。
发明内容
本公开的目的在于提供一种实体链接模型的训练方法及装置,以及实现上述实体链接模型的训练方法的电子设备,进而至少在一定程度上提高实体链接模型的信息处理效率。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一个方面,提供一种实体链接模型的训练方法,包括:确定关于病症实体的第一训练样本,以及确定关于器官实体的第二训练样本;基于实体链接模型,对上述第一训练样本和上述第二训练样本进行特征提取,得到关于病症实体和器官实体的公共特征、病症实体特征和器官实体特征;根据上述公共特征和上述病症实体特征确定第一损失函数,以及根据上述公共特征和上述器官实体特征确定第二损失函数;以及,根据上述第一损失函数和上述第二损失函数确定上述实体链接模型的模型参数,得到训练后的结合病症和器官的实体链接模型。
在本公开的一些实施例中,基于前述方案,上述确定关于病症实体的第一训练样本,以及确定关于器官实体的第二训练样本,包括:根据病症相关的第一语句获取病症实体正样本和病症实体负样本;获取上述第一语句的字向量和词向量、上述病症实体正样本的字向量和词向量以及上述病症实体负样本的字向量和词向量,得到上述第一训练样本;根据器官相关的第二语句获取器官实体正样本和器官实体负样本;以及,获取上述第二语句的字向量和词向量、上述器官实体正样本的字向量和词向量以及上述器官实体负样本的字向量和词向量,得到上述第二训练样本。
在本公开的一些实施例中,基于前述方案,上述根据病症相关的第一语句获取病症实体正样本和病症实体负样本,包括:从预设的实体库中获取与上述第一语句相关的病症实体,得到上述病症实体正样本;以及,从上述实体库中获取与上述病症实体正样本相似度小于第一阈值的实体,得到上述病症实体负样本。
在本公开的一些实施例中,基于前述方案,上述获取上述第一语句的字向量和词向量、上述病症实体正样本的字向量和词向量以及上述病症实体负样本的字向量和词向量,包括:对上述第一语句、上述病症实体正样本以及上述病症实体负样本分别采用词向量嵌入方式,获取上述字向量和上述词向量。
在本公开的一些实施例中,基于前述方案,上述基于实体链接模型,对上述第一训练样本和上述第二训练样本进行特征提取,得到关于病症实体和器官实体的公共特征、病症实体特征和器官实体特征,包括:将上述第一训练样本和上述第二训练样本输入第一双向长短期记忆神经网络进行特征提取,得到上述公共特征;将上述第一训练样本输入第二双向长短期记忆神经网络进行特征提取,得到病症实体特征;以及,将上述第二训练样本输入第三双向长短期记忆神经网络进行特征提取,得到器官实体特征。
在本公开的一些实施例中,基于前述方案,上述根据上述公共特征和上述病症实体特征确定第一损失函数,包括:确定上述公共特征和上述病症实体的第一拼接特征;计算上述第一拼接特征与上述病症实体正样本的第一余弦值,以及计算上述第一拼接特征与上述病症实体负样本的第二余弦值;以及,根据上述第一余弦值和上述第二余弦值确定上述第一损失函数。
在本公开的一些实施例中,基于前述方案,上述根据上述公共特征和上述器官实体特征确定第二损失函数,包括:确定上述公共特征和上述器官实体的第二拼接特征;计算上述第二拼接特征与上述器官实体正样本的第三余弦值,以及计算上述第二拼接特征与上述器官实体负样本的第四余弦值;以及,根据上述第三余弦值和上述第四余弦值确定上述第二损失函数。
在本公开的一些实施例中,基于前述方案,上述根据上述第一损失函数和上述第二损失函数确定上述实体链接模型的模型参数,包括:响应于上述第一损失函数和上述第二损失函数之和小于第二阈值,获取上述第一双向长短期记忆神经网络、上述第二双向长短期记忆神经网络以及上述第三双向长短期记忆神经网络的当前模型参数。
根据本公开的一个方面,提供了一种实体链接模型的训练装置,该装置包括:样本确定模块,被配置为确定关于病症实体的第一训练样本,以及确定关于器官实体的第二训练样本;特征提取模块,被配置为基于实体链接模型,对所述第一训练样本和所述第二训练样本进行特征提取,得到关于病症实体和器官实体的公共特征、病症实体特征和器官实体特征;损失函数确定模块,被配置为根据所述公共特征和所述病症实体特征确定第一损失函数,以及根据所述公共特征和所述器官实体特征确定第二损失函数;以及,模型参数确定模块,被配置为根据所述第一损失函数和所述第二损失函数确定所述实体链接模型的模型参数得到训练后的结合病症和器官的实体链接模型。
在本公开的一些实施例中,基于前述方案,上述样本确定模块,包括:正负样本获取单元和训练样本确定单元。
其中,上述正负样本获取单元,被配置为:根据病症相关的第一语句获取病症实体正样本和病症实体负样本;上述训练样本确定单元,被配置为:获取上述第一语句的字向量和词向量、上述病症实体正样本的字向量和词向量以及上述病症实体负样本的字向量和词向量,得到上述第一训练样本;上述正负样本获取单元,还被配置为:根据器官相关的第二语句获取器官实体正样本和器官实体负样本;以及,上述训练样本确定单元,还被配置为:获取上述第二语句的字向量和词向量、上述器官实体正样本的字向量和词向量以及上述器官实体负样本的字向量和词向量,得到上述第二训练样本。
在本公开的一些实施例中,基于前述方案,上述正负样本获取单元,具体被配置为:从预设的实体库中获取与上述第一语句相关的病症实体,得到上述病症实体正样本;以及,从上述实体库中获取与上述病症实体正样本相似度小于第一阈值的实体,得到上述病症实体负样本。
在本公开的一些实施例中,基于前述方案,上述训练样本确定单元,具体被配置为:对上述第一语句、上述病症实体正样本以及上述病症实体负样本分别采用词向量嵌入方式,获取上述字向量和上述词向量。
在本公开的一些实施例中,基于前述方案,上述特征提取模块,具体被配置为:将上述第一训练样本和上述第二训练样本输入第一双向长短期记忆神经网络进行特征提取,得到上述公共特征;将上述第一训练样本输入第二双向长短期记忆神经网络进行特征提取,得到病症实体特征;以及,将上述第二训练样本输入第三双向长短期记忆神经网络进行特征提取,得到器官实体特征。
在本公开的一些实施例中,基于前述方案,上述损失函数确定模块,具体被配置为:确定上述公共特征和上述病症实体的第一拼接特征;计算上述第一拼接特征与上述病症实体正样本的第一余弦值,以及计算上述第一拼接特征与上述病症实体负样本的第二余弦值;以及,根据上述第一余弦值和上述第二余弦值确定上述第一损失函数。
在本公开的一些实施例中,基于前述方案,上述损失函数确定模块,具体还被配置为:确定上述公共特征和上述器官实体的第二拼接特征;计算上述第二拼接特征与上述器官实体正样本的第三余弦值,以及计算上述第二拼接特征与上述器官实体负样本的第四余弦值;以及,根据上述第三余弦值和上述第四余弦值确定上述第二损失函数。
在示例性的实施例中,基于前述方案,上述模型参数确定模块,具体还被配置为:响应于上述第一损失函数和上述第二损失函数之和小于第二阈值,获取上述第一双向长短期记忆神经网络、上述第二双向长短期记忆神经网络以及上述第三双向长短期记忆神经网络的当前模型参数。
根据本公开的一个方面,提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的实体链接模型的训练方法。
根据本公开的一个方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述第一方面所述的实体链接模型的训练方法。
由上述技术方案可知,本公开示例性实施例中的实体链接模型的训练方法、实体链接模型的训练装置、计算机存储介质及电子设备至少具备以下优点和积极效果:
在本公开的一些实施例所提供的技术方案中,实体链接模型的训练集包含关于多任务的训练信息,具体包括关于病症实体的第一训练样本和关于器官实体的第二训练样本。然后,基于实体链接模型,对上述训练集进行特征提取,得到关于病症实体和器官实体的公共特征、病症实体特征和器官实体特征。进一步地,根据公共特征和病症实体特征确定第一损失函数,根据公共特征和器官实体特征确定第二损失函数。最终,根据两损失函数确定实体链接模型的模型参数,得到训练后的结合病症和器官的实体链接模型。由于训练集中包含病症和器官两方面信息,因此通过上述训练集训练实体链接模型,在使得模型学习病症实体的分类的同时,还学习器官实体的分类。鉴于上述两方面的学习确定模型参数,使得训练后的模型在确定实体链接过程中,同时考虑了病症实体信息和器官实体信息,有利于提升信息处理效率。
本公开应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了可以应用本公开实施例的技术方案的示例性系统架构的示意图;
图2示出本公开一示例性实施例中实体链接模型的训练方法的流程示意图;
图3示出本公开一示例性实施例中实体链接模型的结构示意图;
图4示出了本公开一示例性实施例中训练样本的确定方法的流程示意图;
图5示出了根据本公开一实施例的标签确定方法的流程示意图;
图6示出本公开一示例性实施例中特征提取方法的流程示意图;
图7示出本公开一示例性实施例中第一损失函数的确定方法的流程示意图;
图8示出本公开一示例性实施例中第二损失函数的确定方法的流程示意图;
图9示出本公开一示例性实施例中实体链接模型的训练装置的结构示意图;以及,
图10示出本公开示例性实施例中电子设备的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
人工智能(Artificial Intelligence,简称:AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
自然语言处理(Nature Language processing,简称:NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,简称:ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本公开实施例提供的方案涉及人工智能的自然语言处理和机器学习等技术,具体通过如下实施例进行说明:
图1示出了可以应用本公开实施例的技术方案的示例性系统架构的示意图。
图1示出了可以应用本公开实施例的一种展示信息的处理方法及装置的示例性应用环境的系统架构的示意图。
如图1所示,系统架构100可以包括终端设备101、102、103中的一个或多个,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是具有显示屏的各种电子设备,包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等,服务器105还可以为云服务器。
本公开实施例所提供的实体链接模型的训练方法一般由服务器105执行,相应地,实体链接模型的训练装置一般设置于服务器105中。但本领域技术人员容易理解的是,本公开实施例所提供的实体链接模型的训练方法也可以由终端设备101、102、103执行,相应的,实体链接模型的训练装置也可以设置于终端设备101、102、103中,本示例性实施例中对此不做特殊限定。
举例而言,在一种示例性实施例中,可以是服务器105确定关于病症实体的第一训练样本,以及确定关于器官实体的第二训练样本;基于实体链接模型,对所述第一训练样本和所述第二训练样本进行特征提取,得到关于病症实体和器官实体的公共特征、病症实体特征和器官实体特征;根据所述公共特征和所述病症实体特征确定第一损失函数,以及根据所述公共特征和所述器官实体特征确定第二损失函数;根据所述第一损失函数和所述第二损失函数确定所述实体链接模型的模型参数,得到训练后的结合病症和器官的实体链接模型。最终,可以将训练后的多任务实体链接模型发送至终端设备101、102、103,终端设备101、102、103可以根据多任务实体链接模型,从而基于终端设备101、102、103将接收到的关于咨询短文本映射到实体库中的标准实体(如,病症实体和/或器官实体)上。
在自然语言处理的技术领域中,相关技术中提供的病症实体链接方法或器官实体链接方法中,均是首先训练一可以实现单独实体链接任务的模型,进而通过此模型来实现实体链接任务。例如,首先训练一可以实现病症实体链接任务的模型,通过此模型接收关于病症的咨询短文本,进一步地,通过此模型来实现病症实体链接任务。又例如,首先训练一可以实现器官实体链接任务的模型,通过此模型接收关于器官的咨询短文本,进一步地,通过此模型来实现器官实体链接任务。
然而,相关技术中提供的上述方案存在以下问题:
1)泛化性不强。在数据量较小的情况下,现有的单一任务的模型获取到的数据特征较小,导致模型的泛化性不强。
2)模型占用空间大。现有的技术如果需要完成两个任务(如症状预测,身体部位预测),则需要两个模型,而本方案只需一个模型即可完成。
针对相关技术中存在的上述问题,发明人提出来一种实体链接模型的训练方法及装置,以及实现上述方法的电子设备。本技术方案通过组合型的模型结构将症状实体链接模型与器官实体链接模型相结合训练,从而实现使用一模型完成症状与部位实体链接的多实体链接任务,进而至少在一定程度上克服现有的相关技术中所存在的缺陷。
图2示出本公开一示例性实施例中实体链接模型的训练方法的流程示意图。参考图2,该实施例提供的实体链接模型的训练方法,包括:
步骤S210,确定关于病症实体的第一训练样本,以及确定关于器官实体的第二训练样本;
步骤S220,基于实体链接模型,对所述第一训练样本和所述第二训练样本进行特征提取,得到关于病症实体和器官实体的公共特征、病症实体特征和器官实体特征;
步骤S230,根据所述公共特征和所述病症实体特征确定第一损失函数,以及根据所述公共特征和所述器官实体特征确定第二损失函数;以及,
步骤S240,根据所述第一损失函数和所述第二损失函数确定所述实体链接模型的模型参数,得到训练后的结合病症和器官的实体链接模型。
根据图2所示实施例提供的技术方案训练后的实体链接模型的可以用于多任务的实体链接。因此本技术方案提供的模型训练方法中,上述训练集中包含病症和器官两方面信息,通过上述训练集训练实体链接模型,在使得模型学习病症实体的分类的同时,还学习器官实体的分类。鉴于上述两方面的学习确定模型参数,使得训练后的模型在确定实体链接过程中,同时考虑了病症实体信息和器官实体信息,有利于提升信息处理效率。
以下对图2所示实施例的各个步骤的具体实施方式进行详细阐述:
在示例性的实施例中,以智能问答系统为例进行说明。例如,用户以文本输入或语音问答等方式向智能问答系统提出关于病情的咨询问题,智能问答系统接收上述咨询问题之后,输出与上述咨询问题相关的病症实体和/或器官实体。其中,上述病症实体和上述器官实体可以是预先规范化后的实体。例如,上述病症实体可以包含:肿、疼痛、结节、麻木等;上述器官实体可以包含:胃、心脏、肺、喉咙等。示例性的,预先规范化后的标准实体(包括:器官实体和病症实体)组成实体库。
通过本技术方案提供的模型训练方法得到的结合病症和器官的多任务实体链接模型,当接收到用户提出的咨询文本,可快速确定与上述咨询文本对应的病症实体和/或器官实体,从而为用户提供病症与器官两方面的答复,有利于提升答复的全面性,全面的答复信息有利于用户全方位了解其所咨询的问题,进而提升用户的咨询体验。
示例性的,用户的咨询问题为“这几天喉咙痛”,当通过本技术方案提供的模型训练方法得到多任务实体链接模型接收到上述咨询文本后,可以为用户提供匹配率较高的实体作为回复内容。例如,模型输出可以为“喉咙”(器官特征实体)和“疼痛”(病症特征实体)。
在示例性的实施例中,图3示出本公开一示例性实施例中实体链接模型的结构示意图。参考图3,本技术方案中,将第一训练样本31和第二训练样本32输入至实体链接模型300中,通过模型进行相关特征提取以及根据提取到的特征确定损失函数,来实现对实体链接模型300的训练。
在示例性的实施例中,在步骤S210中确定将的信息组:[第一语句;病症实体正样本;病症实体负样本]31,以及信息组[第二语句;器官实体正样本;器官实体负样本]32,输入至实体链接模型300,以通过字词向量嵌入层310对上述信息组进行处理之后,得到关于病症实体的第一训练样本33和关于器官实体的第二训练样本34。
示例性的,图4示出了本公开一示例性实施例中训练样本的确定方法的流程示意图。具体的,本实施例可以作为步骤S210的具体实施方式,参考图4,该方法包括步骤S410-步骤S440。
在步骤S410中,根据病症相关的第一语句获取病症实体正样本和病症实体负样本;以及,在步骤S420中,获取所述第一语句的字向量和词向量、所述病症实体正样本的字向量和词向量以及所述病症实体负样本的字向量和词向量,得到所述第一训练样本。
其中,步骤S410和步骤S420是获取上述第一训练样本31的一种具体实施方式。
在示例性的实施例中,可以通过获取一信息组合:[第一语句;病症实体正样本;病症实体负样本]31来确定一组训练样本。其中,信息组合中的“第一语句”为实体链接模型的输入。
本示例性的实施方式中,对上述第一语句进行词向量嵌入处理,得到可用于模型输入的数值化信息。其中,上述第一语句可以是一段语音信息,也可以是一段文本信息。本示例性实施例中对于这些均不做特殊限定。示例性的,以上述第一语句为一段语音为例进行说明。
首先,需获取语音对应的语句文本。然后,一方面,将语句文本进行分词处理获取多个词形式的文本;另一方面,将语句文本进行分词处理获取多个字形势的文本。更进一步地,为了方便进行拟合算法,可以通过字词向量嵌入层310将上述字文本数值化得到字向量,以及将上述词文本数值化得到词向量。最终,确定多个数值化的word embedding。
示例性的,上述第一语句的语句文本:感冒发烧几天。经过分词并以空格分隔每个词得到:
字形式文本:[感冒发烧几天],和,
词形式文本:[感冒感冒发烧发烧几天]。
其中,词形式的文本为结巴分词的结果。另外,根据同一语句文本得到的词形式的文本长度和字形式文本长度相同,以进一步方便地将字向量和对应的词向量进行拼接。
进一步地,采用字词向量嵌入层310分别处理上述词形式的文本和字形式文本,得到字向量与词向量。示例性的,将关于同一语句的字向量和词向量的拼接,得到[batcsize,sentence len,2*embedding size]大小的矩阵,用于作为实体链接模型的输入。
其中,字词向量嵌入层310的输出矩阵中,模型训练过程中,训练文本按批参与训练,batch_size表示参与训练的一批样本包含的句子个数;sentence len表示每个句子的单词个数;一个词向量/字向量的长度为embedding size,由于本技术方案中将词向量和对应的字向量拼接,所以上述矩阵参数为2*embedding size。
在示例性的实施例中,图5示出了根据本公开一实施例的标签确定方法的流程示意图。具体可以作为确定上述病症实体正样本和病症实体负样本的具体实施方式。
参考图5,该实施例提供的方法包括以下步骤。
步骤S510,从预设的实体库中获取与所述第一语句相关的病症实体,得到所述病症实体正样本;以及,步骤S520,从所述实体库中获取与所述病症实体正样本相似度小于第一阈值的实体,得到所述病症实体负样本。
在示例性的实施例中,在模型训练阶段,上述信息组合中的“病症实体正样本”为关于上述第一语句的目标输出,“病症实体负样本”为关于上述第一语句所不期待的输出。示例性的,从实体库中确定上述病症实体正样本和病症实体负样本,其中,实体库是根据预先规范化后的标准实体(包括:器官实体和病症实体)组成的。
示例性的,上述负样本为与正样本之间相似度小于第一阈值的实体,也就是说,负样本应是与上述正样本不同的数据。具体的,病症实体负样本的构造方式可以是:从上述实体库中,除上述病症实体正样本之外,随机抽取实体而确定。病症实体负样本的构造方式还可以是:选择与病症实体正样本的相似度在预设范围(a,b)内的实体,其中,b值为小于等于上述第一阈值的值。也就是说,将与正样本较为相似的实体作为负样本,从而有利于提升模型的预测准确度。
示例性的,在确定训练集时,可以随机抽取上述两种方式获得的病症实体负样本。
继续参考图4,在步骤S430中,根据器官相关的第二语句获取器官实体正样本和器官实体负样本;以及,在步骤S440中,获取所述第二语句的字向量和词向量、所述器官实体正样本的字向量和词向量以及所述器官实体负样本的字向量和词向量,得到所述第二训练样本。
其中,步骤S430和步骤S440是获取上述第二训练样本的一种具体实施方式。需要说明的是,获取上述第一训练样本(步骤S410和步骤S420)与获取上述第二训练样本(步骤S430和步骤S440)的执行顺序不分先后。
在示例性的实施例中,类似于获取上述第一训练样本的实施方式,可以通过获取一信息组合:[第二语句;器官实体正样本;器官实体负样本]来确定一组训练样本。其中,关于对“第二语句”的数值化处理的具体实施方式,以及关于确定“器官实体正样本”、“器官实体负样本”的具体实施方式,均与上述步骤S410、步骤S420的具体实施方式相同,在此不再赘述。
在图4和图5所示实施例提供的技术方案中,采用字向量和词向量相结合的方式确定训练样本,有利于提升语义获取能力,进而,提升实体链接模型的预测准确度。
在示例性的实施例中,参考图2,确定上述第一训练样本和第二训练样本之后,在步骤S220中,基于实体链接模型,对所述第一训练样本和所述第二训练样本进行特征提取,得到关于病症实体和器官实体的公共特征、病症实体特征和器官实体特征。
示例性的,图6示出本公开一示例性实施例中特征提取方法的流程示意图。具体可以作为步骤S220的一种具体实施方式。参考图6,该实施例提供的方法包括步骤S610-步骤S630。
在步骤S610中,将所述第一训练样本和所述第二训练样本输入第一双向长短期记忆神经网络进行特征提取,得到所述公共特征。
在示例性的实施例中,参考图3,将上述第一训练样本33和上述第二训练样本34输入第一双向长短期记忆神经网络(Bi-directional Long Short-Term Memory,简称:BiLSTM)330进行特征提取,得到上述公共特征35。
其中,LSTM是循环神经网络(Recurrent Neural Network,简称:RNN)的一种网络。LSTM适合用于有时序特征的文本数据的建模。通过训练过程LSTM可以学到记忆哪些信息和遗忘哪些信息,从而LSTM能够捕捉到较长距离的依赖关系。但是利用LSTM对句子进行建模时存在:无法编码从后到前的信息的问题。而BiLSTM由前向LSTM与后向LSTM组合而成,通过BiLSTM可以更好的捕捉双向的语义依赖。因此,本技术方案采用BiLSTM,以提升训练后的实体链接模型的预测准确度。
在示例性的实施例中,通过第一BiLSTM 330提取症状文本与部位文本的公共特征。例如:“喉咙痛”可以作为为症状文本与部位文本的公共特征。第一BiLSTM 330的输出矩阵大小:[batc size,sentence len,hidden size]。对于输入文本的第i个字,其输出的公共特征为Mi=Bilstm(Vi),其中,Vi为关于第一训练样本33和第二训练样本34的第i个字词向量嵌入层310的输出。
其中,模型训练过程中,训练文本按批参与训练,batch_size表示参与训练的一批样本包含的句子个数;sentence len表示每个句子的单词个数;hidden size表示隐藏层单元个数。
在步骤S620中,将所述第一训练样本输入第二双向长短期记忆神经网络进行特征提取,得到病症实体特征。
在示例性的实施例中,参考图3,将上述第一训练样本33输入第二BiLSTM 320进行特征提取,得到上述病症实体特征35。
在示例性的实施例中,通过第二BiLSTM 320提取症状实体特征。第二BiLSTM 320的输出矩阵大小:[batch size,sentence len,hidden size*2]。对于输入文本的第i个字,其输出的病症实体特征为Di=Bilstm(di),di为关于第一训练样本33的第i个字词向量嵌入层310的输出。
在步骤S630中,将所述第二训练样本输入第三双向长短期记忆神经网络进行特征提取,得到器官实体特征。
在示例性的实施例中,参考图3,将上述第二训练样本34输入第三BiLSTM 340进行特征提取,得到上述器官实体特征36。
在示例性的实施例中,通过第三BiLSTM 340提取器官实体特征。第三BiLSTM 340的输出矩阵大小:[batchsize,sentence len,hidden size*2]。对于输入文本的第i个字词向量,其输出的器官实体特征为Oi=Bilstm(oi),oi为关于第二训练样本34的第i个字词向量嵌入层310的输出。
在图6示出实施例提供的技术方案中,疾病实体特征提取层与器官实体特征提取层由两个独立的BilSTM模型组成,分别提取各自的模型的特征。从而,通过一次模型训练过程可以实现病症实体预测任务和器官实体预测任务。与相关技术中每个实体预测任务需训练一单独的模型相比较可见,通过本技术方案得到的多任务实体链接模型的泛化能力较强,且训练后的模型占用空间较小。
在示例性的实施例中,参考图2,确定特征提取之后,在步骤S230中,根据所述公共特征和所述病症实体特征确定第一损失函数。
示例性的,图7示出本公开一示例性实施例中第一损失函数的确定方法的流程示意图。参考图7,该实施例提供的方法包括步骤S710-步骤S730。
在步骤S710中,确定所述公共特征和所述病症实体的第一拼接特征。
在示例性的实施例中,对于提取到的疾病实体特征Di经过一层Attention计算,得到向量:ADi=Attention(Di)。进一步地,将Attention计算疾病实体特征与公共特征Mi=Bilstm(Vi)拼接,得到第一拼接特征:SDi=ADi⊕Mi。
在步骤S720中,计算所述第一拼接特征与所述病症实体正样本的第一余弦值,以及计算所述第一拼接特征与所述病症实体负样本的第二余弦值;以及,在步骤S730中,根据所述第一余弦值和所述第二余弦值确定所述第一损失函数。
在示例性的实施例中,第一拼接特征SDi与上述病症实体正样本Di +间的语义相似度用余弦相似度来计算,具体的,得到第一余弦值为:cos<SDi,Di +>。第一拼接特征SDi与上述病症实体负样本Di -间的语义相似度用余弦相似度来计算,具体的,得到第二余弦值为:cos<SDi,Di ->。根据上述第一余弦值和上述第二余弦值确定的第一损失函数为:
Loss1=max(0,margin-(cos<SDi,Di +>-cos<SDi,Di ->))
其中,margin为预先设定的阈值,表示希望训练模型以使得:拼接特征与实体正样本的相似度要比拼接特征与实体负样本的相似度高,且两相似度差值高于阈值margin。可见,该目标函数的训练结果是:拼接特征和实体正样本的语义向量在语义空间的分布位置s1,要比拼接特征和实体负样本的语义分布空间距离s2要近,即s1小于s2。以使得训练后的模型输出更加靠近实体正样本,从而提升训练后的模型的预测准确度。
示例性的,图8示出本公开一示例性实施例中第二损失函数的确定方法的流程示意图。参考图8,该实施例提供的方法包括:
步骤S810,确定所述公共特征和所述器官实体的第二拼接特征;步骤S820,计算所述第二拼接特征与所述器官实体正样本的第三余弦值,以及计算所述第二拼接特征与所述器官实体负样本的第四余弦值;以及,步骤S830,根据所述第三余弦值和所述第四余弦值确定所述第二损失函数。
在示例性的实施例中,对于提取到的器官实体特征经过一层Attention计算,得到向量:AOi=Attention(Oi)。进一步地,将Attention计算器官实体特征与公共特征Mi=Bilstm(Vi)拼接,得到第一拼接特征:SOi=AOi⊕Mi。
在示例性的实施例中,第二拼接特征SOi与上述器官实体正样本Oi +间的语义相似度用余弦相似度来计算,具体的,得到第三余弦值为:cos<SOi,Oi +>。第二拼接特征SOi与上述器官实体负样本Oi -间的语义相似度用余弦相似度来计算,具体的,得到第四余弦值为:cos<SOi,Oi ->。根据上述第三余弦值和上述第四余弦值确定的第二损失函数为:
Loss2=max(0,margin-(cos<SOi,Oi +>-cos<SOi,Oi ->))
在示例性的实施例中,参考图2,确定损失函数确定之后,执行步骤S240中,根据所述第一损失函数和所述第二损失函数确定所述实体链接模型的模型参数,得到训练后的结合病症和器官的实体链接模型。
示例性的,通过Total loss=αLoss1+βLoss2表示模型的整体损失函数,其中,α和β为根据实际情况确定的系数。进一步地,根据确定的α和β设定Total loss需满足的阈值λ。在训练模型的过程中,当Total loss需满足上述阈值λ时,说明模型训练结果满足预设要求,可以获取当前模型参数作为训练好的模型参数。
在示例性的实施例中,对于训练好的实体链接模型进行测试,包括以下步骤:
Step 1.利用训练好的模型计算出实体库里所有症状与器官的语义特量。另外,由于训练过程采用余弦相似度来衡量文本间的相关程度,而计算一次余弦相似度需要计算向量除法,导致运算量比较大。因此,需要将上述语义特征向量归一化,以少运算量。
Step 2.对于测试集里面的每一个语句(如,今天喉咙痛,是不是感冒了),利用模型计算出其语义特征向量,进一步进行归一化。然后再将上述语句对应的语义特征向量点乘实体库里所有实体特征向量,则模型返回相关程度最高的答案。如,针对上述测试集中的语句,模型返回结果可以是“喉咙,感冒”(器官特征实体和病症特征实体)。
示例性的,对于相同的预测任务,本实施例提供的多任务实体链接模型,与相关技术提供的单一任务实体链接模型相比,两者的预测准确率如表1所示:
表1
模型 | 准确率 |
单任务症状实体链接 | 0.73 |
多任务症状实体链接 | 0.81 |
根据上表可见,本实施例提供的多任务实体链接模型大大提高了模型的泛化能力。同时,相比于相关技术提供的单任务实体链接模型,减少了模型占用空间。
本领域技术人员可以理解实现上述实施方式的全部或部分步骤被实现为由处理器,(包括GPU/CPU)执行的计算机程序。在该计算机程序被GPU/CPU执行时,执行本公开提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中,该存储介质可以是只读存储器,磁盘或光盘等。
此外,需要注意的是,上述附图仅是根据本公开示例性实施方式的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
以下通过图9介绍本公开的目标模型的训练装置实施例,可以用于执行本公开上述的目标模型的训练方法。
图9示出本公开示例性实施例中实体链接模型的训练装置的结构示意图。如图9所示,上述实体链接模型的训练装置900包括:样本确定模块901、特征提取模块902、损失函数确定模块903以及模型参数确定模块904。
其中,上述样本确定模块901,被配置为确定关于病症实体的第一训练样本,以及确定关于器官实体的第二训练样本;上述特征提取模块902,被配置为基于实体链接模型,对上述第一训练样本和上述第二训练样本进行特征提取,得到关于病症实体和器官实体的公共特征、病症实体特征和器官实体特征;上述损失函数确定模块903,被配置为根据上述公共特征和上述病症实体特征确定第一损失函数,以及根据上述公共特征和上述器官实体特征确定第二损失函数;以及,上述模型参数确定模块904,被配置为根据上述第一损失函数和上述第二损失函数确定上述实体链接模型的模型参数。
在示例性的实施例中,基于前述方案,上述样本确定模块901,包括:正负样本获取单元和训练样本确定单元。
其中,上述正负样本获取单元,被配置为:根据病症相关的第一语句获取病症实体正样本和病症实体负样本;上述训练样本确定单元,被配置为:获取上述第一语句的字向量和词向量、上述病症实体正样本的字向量和词向量以及上述病症实体负样本的字向量和词向量,得到上述第一训练样本;上述正负样本获取单元,还被配置为:根据器官相关的第二语句获取器官实体正样本和器官实体负样本;以及,上述训练样本确定单元,还被配置为:获取上述第二语句的字向量和词向量、上述器官实体正样本的字向量和词向量以及上述器官实体负样本的字向量和词向量,得到上述第二训练样本。
在示例性的实施例中,基于前述方案,上述正负样本获取单元,具体被配置为:从预设的实体库中获取与上述第一语句相关的病症实体,得到上述病症实体正样本;以及,从上述实体库中获取与上述病症实体正样本相似度小于第一阈值的实体,得到上述病症实体负样本。
在示例性的实施例中,基于前述方案,上述训练样本确定单元,具体被配置为:对上述第一语句、上述病症实体正样本以及上述病症实体负样本分别采用词向量嵌入方式,获取上述字向量和上述词向量。
在示例性的实施例中,基于前述方案,上述特征提取模块902,具体被配置为:将上述第一训练样本和上述第二训练样本输入第一双向长短期记忆神经网络进行特征提取,得到上述公共特征;将上述第一训练样本输入第二双向长短期记忆神经网络进行特征提取,得到病症实体特征;以及,将上述第二训练样本输入第三双向长短期记忆神经网络进行特征提取,得到器官实体特征。
在示例性的实施例中,基于前述方案,上述损失函数确定模块903,具体被配置为:确定上述公共特征和上述病症实体的第一拼接特征;计算上述第一拼接特征与上述病症实体正样本的第一余弦值,以及计算上述第一拼接特征与上述病症实体负样本的第二余弦值;以及,根据上述第一余弦值和上述第二余弦值确定上述第一损失函数。
在示例性的实施例中,基于前述方案,上述损失函数确定模块903,具体还被配置为:确定上述公共特征和上述器官实体的第二拼接特征;计算上述第二拼接特征与上述器官实体正样本的第三余弦值,以及计算上述第二拼接特征与上述器官实体负样本的第四余弦值;以及,根据上述第三余弦值和上述第四余弦值确定上述第二损失函数。
在示例性的实施例中,基于前述方案,上述模型参数确定模块904,具体还被配置为:响应于上述第一损失函数和上述第二损失函数之和小于第二阈值,获取上述第一双向长短期记忆神经网络、上述第二双向长短期记忆神经网络以及上述第三双向长短期记忆神经网络的当前模型参数。
上述实体链接模型的训练装置中各单元的具体细节已经上述实体链接模型的训练方法中进行了详细的描述,因此此处不再赘述。
图10示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图10示出的电子设备的计算机系统1000仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图10所示,计算机系统1000包括处理器1001,其中处理器1001又具体可以包括:图像处理单元(Graphics Processing Unit,简称:GPU)和中央处理单元(CentralProcessing Unit,简称:CPU),其可以根据存储在只读存储器(Read-Only Memory,简称:ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(Random Access Memory,简称:RAM)1003中的程序而执行各种适当的动作和处理。在RAM 1003中,还存储有系统操作所需的各种程序和数据。处理器1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(Input/Output,简称:I/O)接口1005也连接至总线1004。
以下部件连接至I/O接口1005:包括键盘、鼠标等的输入部分1006;包括诸如阴极射线管(Cathode Ray Tube,简称:CRT)、液晶显示器(Liquid Crystal Display,简称:LCD)等以及扬声器等的输出部分1007;包括硬盘等的存储部分1008;以及包括诸如局域网(Local Area Network,简称:LAN)卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010上,以便于从其上读出的计算机程序根据需要被安装入存储部分1008。
特别地,根据本公开的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011被安装。在该计算机程序被处理器1001执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本公开实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。
例如,所述的电子设备可以实现如图2中所示的:步骤S210,确定关于病症实体的第一训练样本,以及确定关于器官实体的第二训练样本;步骤S220,基于实体链接模型,对所述第一训练样本和所述第二训练样本进行特征提取,得到关于病症实体和器官实体的公共特征、病症实体特征和器官实体特征;步骤S230,根据所述公共特征和所述病症实体特征确定第一损失函数,以及根据所述公共特征和所述器官实体特征确定第二损失函数;以及,步骤S240,根据所述第一损失函数和所述第二损失函数确定所述实体链接模型的模型参数,得到训练后的结合病症和器官的实体链接模型。
又如,所述的电子设备可以实现如图3至图8中任意一图所示的各个步骤。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (10)
1.一种实体链接模型的训练方法,其特征在于,包括:
确定关于病症实体的第一训练样本,以及确定关于器官实体的第二训练样本;
基于实体链接模型,对所述第一训练样本和所述第二训练样本进行特征提取,得到关于病症实体和器官实体的公共特征、病症实体特征和器官实体特征;
根据所述公共特征和所述病症实体特征确定第一损失函数,以及根据所述公共特征和所述器官实体特征确定第二损失函数;
根据所述第一损失函数和所述第二损失函数确定所述实体链接模型的模型参数,得到训练后的结合病症和器官的实体链接模型。
2.根据权利要求1所述的实体链接模型的训练方法,其特征在于,所述确定关于病症实体的第一训练样本,以及确定关于器官实体的第二训练样本,包括:
根据病症相关的第一语句获取病症实体正样本和病症实体负样本;
获取所述第一语句的字向量和词向量、所述病症实体正样本的字向量和词向量以及所述病症实体负样本的字向量和词向量,得到所述第一训练样本;
根据器官相关的第二语句获取器官实体正样本和器官实体负样本;
获取所述第二语句的字向量和词向量、所述器官实体正样本的字向量和词向量以及所述器官实体负样本的字向量和词向量,得到所述第二训练样本。
3.根据权利要求2所述的实体链接模型的训练方法,其特征在于,所述根据病症相关的第一语句获取病症实体正样本和病症实体负样本,包括:
从预设的实体库中获取与所述第一语句相关的病症实体,得到所述病症实体正样本;
从所述实体库中获取与所述病症实体正样本相似度小于第一阈值的实体,得到所述病症实体负样本。
4.根据权利要求2所述的实体链接模型的训练方法,其特征在于,所述获取所述第一语句的字向量和词向量、所述病症实体正样本的字向量和词向量以及所述病症实体负样本的字向量和词向量,包括:
对所述第一语句、所述病症实体正样本以及所述病症实体负样本分别采用词向量嵌入方式,获取所述字向量和所述词向量。
5.根据权利要求2至4中任意一项所述的实体链接模型的训练方法,其特征在于,所述基于实体链接模型,对所述第一训练样本和所述第二训练样本进行特征提取,得到关于病症实体和器官实体的公共特征、病症实体特征和器官实体特征,包括:
将所述第一训练样本和所述第二训练样本输入第一双向长短期记忆神经网络进行特征提取,得到所述公共特征;
将所述第一训练样本输入第二双向长短期记忆神经网络进行特征提取,得到病症实体特征;
将所述第二训练样本输入第三双向长短期记忆神经网络进行特征提取,得到器官实体特征。
6.根据权利要求5所述的实体链接模型的训练方法,其特征在于,所述根据所述公共特征和所述病症实体特征确定第一损失函数,包括:
确定所述公共特征和所述病症实体的第一拼接特征;
计算所述第一拼接特征与所述病症实体正样本的第一余弦值,以及计算所述第一拼接特征与所述病症实体负样本的第二余弦值;
根据所述第一余弦值和所述第二余弦值确定所述第一损失函数。
7.根据权利要求5所述的实体链接模型的训练方法,其特征在于,所述根据所述公共特征和所述器官实体特征确定第二损失函数,包括:
确定所述公共特征和所述器官实体的第二拼接特征;
计算所述第二拼接特征与所述器官实体正样本的第三余弦值,以及计算所述第二拼接特征与所述器官实体负样本的第四余弦值;
根据所述第三余弦值和所述第四余弦值确定所述第二损失函数。
8.根据权利要求5所述的实体链接模型的训练方法,其特征在于,所述根据所述第一损失函数和所述第二损失函数确定所述实体链接模型的模型参数,包括:
响应于所述第一损失函数和所述第二损失函数之和小于第二阈值,获取所述第一双向长短期记忆神经网络、所述第二双向长短期记忆神经网络以及所述第三双向长短期记忆神经网络的当前模型参数。
9.一种实体链接模型的训练装置,其特征在于,所述装置包括:
样本确定模块,被配置为确定关于病症实体的第一训练样本,以及确定关于器官实体的第二训练样本;
特征提取模块,被配置为基于实体链接模型,对所述第一训练样本和所述第二训练样本进行特征提取,得到关于病症实体和器官实体的公共特征、病症实体特征和器官实体特征;
损失函数确定模块,被配置为根据所述公共特征和所述病症实体特征确定第一损失函数,以及根据所述公共特征和所述器官实体特征确定第二损失函数;
模型参数确定模块,被配置为根据所述第一损失函数和所述第二损失函数确定所述实体链接模型的模型参数,得到训练后的结合病症和器官的实体链接模型。
10.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至8中任意一项所述的实体链接模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910678070.5A CN110472239B (zh) | 2019-07-25 | 2019-07-25 | 实体链接模型的训练方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910678070.5A CN110472239B (zh) | 2019-07-25 | 2019-07-25 | 实体链接模型的训练方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110472239A true CN110472239A (zh) | 2019-11-19 |
CN110472239B CN110472239B (zh) | 2024-06-18 |
Family
ID=68509764
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910678070.5A Active CN110472239B (zh) | 2019-07-25 | 2019-07-25 | 实体链接模型的训练方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110472239B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460091A (zh) * | 2020-03-09 | 2020-07-28 | 杭州麦歌算法科技有限公司 | 医学短文本数据负样例采样方法及医学诊断标准术语映射模型训练方法 |
CN112328710A (zh) * | 2020-11-26 | 2021-02-05 | 北京百度网讯科技有限公司 | 实体信息处理方法、装置、电子设备和存储介质 |
CN114239583A (zh) * | 2021-12-15 | 2022-03-25 | 北京百度网讯科技有限公司 | 实体链指模型的训练及实体链指方法、装置、设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180046764A1 (en) * | 2016-08-10 | 2018-02-15 | Talix, Inc. | Health information system for searching, analyzing and annotating patient data |
CN109062983A (zh) * | 2018-07-02 | 2018-12-21 | 北京妙医佳信息技术有限公司 | 用于医学健康知识图谱的命名实体识别方法及系统 |
CN109522551A (zh) * | 2018-11-09 | 2019-03-26 | 天津新开心生活科技有限公司 | 实体链接方法、装置、存储介质及电子设备 |
-
2019
- 2019-07-25 CN CN201910678070.5A patent/CN110472239B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180046764A1 (en) * | 2016-08-10 | 2018-02-15 | Talix, Inc. | Health information system for searching, analyzing and annotating patient data |
CN109062983A (zh) * | 2018-07-02 | 2018-12-21 | 北京妙医佳信息技术有限公司 | 用于医学健康知识图谱的命名实体识别方法及系统 |
CN109522551A (zh) * | 2018-11-09 | 2019-03-26 | 天津新开心生活科技有限公司 | 实体链接方法、装置、存储介质及电子设备 |
Non-Patent Citations (4)
Title |
---|
QINAN HU等: "End-to-End syndrome differentiation of Yin deficiency and Yang deficiency in traditional Chinese medicine", COMPUTER METHODS AND PROGRAMS IN BIOMEDICINE, 30 June 2019 (2019-06-30) * |
刘凯;符海东;邹玉薇;顾进广;: "基于卷积神经网络的中文医疗弱监督关系抽取", 计算机科学, no. 10, 15 October 2017 (2017-10-15) * |
杨锦锋;关毅;何彬;曲春燕;于秋滨;刘雅欣;赵永杰;: "中文电子病历命名实体和实体关系语料库构建", 软件学报, vol. 27, no. 11, 30 November 2016 (2016-11-30) * |
韩普;马健;张嘉明;刘亦卓;: "基于多数据源融合的医疗知识图谱框架构建研究", 现代情报, no. 06, 30 May 2019 (2019-05-30) * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460091A (zh) * | 2020-03-09 | 2020-07-28 | 杭州麦歌算法科技有限公司 | 医学短文本数据负样例采样方法及医学诊断标准术语映射模型训练方法 |
CN111460091B (zh) * | 2020-03-09 | 2023-10-27 | 杭州麦歌算法科技有限公司 | 医学短文本数据负样例采样方法及医学诊断标准术语映射模型训练方法 |
CN112328710A (zh) * | 2020-11-26 | 2021-02-05 | 北京百度网讯科技有限公司 | 实体信息处理方法、装置、电子设备和存储介质 |
CN112328710B (zh) * | 2020-11-26 | 2024-06-11 | 北京百度网讯科技有限公司 | 实体信息处理方法、装置、电子设备和存储介质 |
CN114239583A (zh) * | 2021-12-15 | 2022-03-25 | 北京百度网讯科技有限公司 | 实体链指模型的训练及实体链指方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110472239B (zh) | 2024-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112131366B (zh) | 训练文本分类模型及文本分类的方法、装置及存储介质 | |
CN111897941B (zh) | 对话生成方法、网络训练方法、装置、存储介质及设备 | |
CN111339255B (zh) | 目标情感分析的方法、模型训练方法、介质和设备 | |
WO2022007823A1 (zh) | 一种文本数据处理方法及装置 | |
Cheng et al. | Facial expression recognition method based on improved VGG convolutional neural network | |
CN109033068A (zh) | 基于注意力机制的用于阅读理解的方法、装置和电子设备 | |
CN109726396A (zh) | 问答文本的语义匹配方法、装置、介质及电子设备 | |
CN110532571A (zh) | 文本处理方法及相关装置 | |
CN109887587A (zh) | 智能分诊方法、系统、装置及存储介质 | |
CN108846077A (zh) | 问答文本的语义匹配方法、装置、介质及电子设备 | |
CN110472239A (zh) | 实体链接模型的训练方法、装置及电子设备 | |
CN110489582A (zh) | 个性化展示图像的生成方法及装置、电子设备 | |
CN110368690A (zh) | 游戏决策模型训练方法、游戏策略生成方法及装置 | |
CN110457718A (zh) | 一种文本生成方法、装置、计算机设备及存储介质 | |
CN113822064A (zh) | 一种文本风格迁移方法、装置、电子设备和存储介质 | |
CN109710760A (zh) | 短文本的聚类方法、装置、介质及电子设备 | |
CN110162594A (zh) | 文本数据的观点生成方法、装置及电子设备 | |
CN114648032B (zh) | 语义理解模型的训练方法、装置和计算机设备 | |
Chen et al. | An augmented reality question answering system based on ensemble neural networks | |
Xiong et al. | DGI: recognition of textual entailment via dynamic gate matching | |
CN113761156A (zh) | 人机交互对话的数据处理方法、装置、介质及电子设备 | |
CN111931503B (zh) | 信息抽取方法及装置、设备、计算机可读存储介质 | |
CN117216223A (zh) | 对话文本的生成方法和装置、存储介质及电子设备 | |
CN116109449A (zh) | 一种数据处理方法及相关设备 | |
US20240203569A1 (en) | Intelligent triage method and device, storage medium and electronic device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |