CN110427624B - 实体关系抽取方法及装置 - Google Patents

实体关系抽取方法及装置 Download PDF

Info

Publication number
CN110427624B
CN110427624B CN201910692845.4A CN201910692845A CN110427624B CN 110427624 B CN110427624 B CN 110427624B CN 201910692845 A CN201910692845 A CN 201910692845A CN 110427624 B CN110427624 B CN 110427624B
Authority
CN
China
Prior art keywords
entity
neural network
network model
relationship
entity relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910692845.4A
Other languages
English (en)
Other versions
CN110427624A (zh
Inventor
晋小玲
郭方园
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910692845.4A priority Critical patent/CN110427624B/zh
Publication of CN110427624A publication Critical patent/CN110427624A/zh
Application granted granted Critical
Publication of CN110427624B publication Critical patent/CN110427624B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种实体关系抽取方法及装置。该方法包括:根据人工标注的训练样本集合X0和实体关系对集合ER0,对SE‑LSTM初始化网络进行训练,得到神经网络模型NN0,实体关系对集合ER0为将训练样本集合X0输入到SE‑LSTM网络得到的输出;获取训练样本集合Xi;根据实体关系对集合ER0和关系集合获取实体关系对集合ERi,关系集合根据训练样本集合X0构建,关系集合中的元素为互为重叠的实体关系;根据训练样本集合Xi和实体关系对集合ERi,对SE‑LSTM初始化网络进行轮流训练,得到神经网络模型NNi,并得到由神经网络模型NN0和神经网络模型NNi组成的神经网络模型集合;根据神经网络模型集合进行实体关系抽取。从而,解决了重叠实体关系的抽取问题。

Description

实体关系抽取方法及装置
技术领域
本发明涉及数据处理和数据挖掘技术领域,尤其涉及一种实体关系抽取方法及装置。
背景技术
信息抽取是指从一段自然语言文本中抽取实体、事件、关系等类型的信息,形成结构化数据存入数据库中以供用户查询和使用的过程。实体关系抽取作为信息抽取、自然语言理解、信息检索等领域的核心任务和重要环节,能够从文本中识别实体并抽取实体之间的语义关系。信息抽取技术主要应用于机器学习和自然语言处理任务之,包括知识图谱的构建及补全、信息检索以及问答系统等。
实体关系为一对实体之间的一个语义关系,重叠实体关系是指一对实体存在一个以上的语义关系,例如马云即是阿里巴巴的创建者,也是阿里巴巴的首席执行官。现有的实体关系抽取方法中,主要是根据人工标注的训练数据进行训练得到模型,根据该模型进行实体关系抽取,其中人工标注的训练数据由文本和文本对应的实体关系组成。
现有技术中只能抽取实体关系,不能抽取重叠实体关系。
发明内容
本发明提供一种实体关系抽取方法及装置,以解决重叠实体关系的抽取问题。
第一方面,本发明提供一种实体关系抽取方法,包括:
根据人工标注的训练样本集合X0和实体关系对集合ER0,对句子嵌入-长短期记忆网络SE-LSTM初始化网络进行第一次训练,得到神经网络模型NN0,其中,所述实体关系对集合ER0为将所述训练样本集合X0输入到所述SE-LSTM网络得到的输出,实体关系对包括一个实体对和实体关系;
获取训练样本集合Xi,i=1…n,所述训练样本集合Xi的元素为训练样本集合Xi-1的文本中置信度小于第一预设阈值的文本;
根据所述实体关系对集合ER0和关系集合获取实体关系对集合ERi,i=1…m,所述关系集合根据所述训练样本集合X0构建,所述关系集合中的元素为互为重叠的实体关系;
根据训练样本集合Xi和实体关系对集合ERi,对SE-LSTM初始化网络进行轮流训练,得到神经网络模型NNi,i=1…m,并得到由所述神经网络模型NN0和神经网络模型NNi组成的神经网络模型集合;
根据所述神经网络模型集合进行实体关系抽取。
可选的,所述获取训练样本集合Xi,包括:
通过神经网络模型NNi-1获取训练样本集合X i-1中各个文本的置信度,将置信度小于所述第一预设阈值的文本作为训练样本集合Xi的元素。
可选的,所述根据所述实体关系对集合ER0和关系集合获取实体关系对集合ERi,包括:
将实体关系对集合ER0中的实体关系对的实体关系替换为所述关系集合中除所述实体关系对集合ER0中的实体关系之外的一个实体关系,得到实体关系对集合ER1
若所述关系集合中还有未替换过的元素,则将实体关系对集合ER0中的实体关系对的实体关系替换为所述关系集合中除所述实体关系对集合ER 0和ER 1中的实体关系之外的一个实体关系,得到实体关系对集合ER2
继续上述替换过程,直到将所述关系集合中的元素替换完。
可选的,所述方法还包括:
将待处理文本输入到所述神经网络模型集合中,得到多个实体关系抽取结果;
根据多个实体关系抽取结果获取所述待处理文本对应于每一个神经网络模型的置信度,并获取置信度最高的神经网络模型;
若最高置信度大于第二预设阈值,则将所述待处理文本加入所述训练样本集合X0,得到新的训练样本集合,根据新的训练样本集合重新训练置信度最高的神经网络模型并替换神经网络模型集合中的元素,得到新的神经网络模型集合。
可选的,所述方法还包括:
若最高置信度小于所述第二预设阈值,舍弃所述待处理文本。
可选的,所述方法还包括:
将所述待处理文本输入到新的神经网络模型集合中,得到多个实体关系抽取结果;
根据多个实体关系抽取结果获取待处理文本对应于新的神经网络模型集合中每一个神经网络模型的置信度,确定出置信度最高的神经网络模型对应的实体关系抽取结果;
若置信度最高的神经网络模型对应的实体关系抽取结果的准确率大于预设值,则将置信度最高的神经网络模型对应的实体关系抽取结果作为最终的输出,并结束训练。
可选的,所述根据人工标注的训练样本集合X0和实体关系对集合ER0,对句子嵌入-长短期记忆网络SE-LSTM初始化网络进行第一次训练之前,还包括:
根据所述训练样本集合X0构建所述关系集合。
第二方面,本发明提供一种实体关系抽取装置,包括:
训练模块,用于根据人工标注的训练样本集合X0和实体关系对集合ER0,对句子嵌入-长短期记忆网络SE-LSTM初始化网络进行第一次训练,得到神经网络模型NN0,其中,所述实体关系对集合ER0为将所述训练样本集合X0输入到所述SE-LSTM网络得到的输出,实体关系对包括一个实体对和实体关系;
第一获取模块,用于获取训练样本集合Xi,i=1…m,所述训练样本集合Xi的元素为训练样本集合Xi-1的文本中置信度小于第一预设阈值的文本;
第二获取模块,用于根据所述实体关系对集合ER0和关系集合获取实体关系对集合ERi,i=1…m,所述关系集合根据所述训练样本集合X0构建,所述关系集合中的元素为互为重叠的实体关系;
所述训练模块还用于:根据训练样本集合Xi和实体关系对集合ERi,对SE-LSTM初始化网络进行轮流训练,得到神经网络模型NNi,i=1…m,并得到由所述神经网络模型NN0和神经网络模型NNi组成的神经网络模型集合;
抽取模块,用于根据所述神经网络模型集合进行实体关系抽取。
可选的,所述第一获取模块用于:
通过神经网络模型NNi-1获取训练样本集合X i-1中各个文本的置信度,将置信度小于所述第一预设阈值的文本作为训练样本集合Xi的元素。
可选的,所述第二获取模块用于:
将实体关系对集合ER0中的实体关系对的实体关系替换为所述关系集合中除所述实体关系对集合ER0中的实体关系之外的一个实体关系,得到实体关系对集合ER1
若所述关系集合中还有未替换过的元素,则将实体关系对集合ER0中的实体关系对的实体关系替换为所述关系集合中除所述实体关系对集合ER 0和ER 1中的实体关系之外的一个实体关系,得到实体关系对集合ER2
继续上述替换过程,直到将所述关系集合中的元素替换完。
可选的,所述装置还包括:
处理模块,用于将待处理文本输入到所述神经网络模型集合中,得到多个实体关系抽取结果;
根据多个实体关系抽取结果获取所述待处理文本对应于每一个神经网络模型的置信度,并获取置信度最高的神经网络模型;
若最高置信度大于第二预设阈值,则将所述待处理文本加入所述训练样本集合X0,得到新的训练样本集合,根据新的训练样本集合重新训练置信度最高的神经网络模型并替换神经网络模型集合中的元素,得到新的神经网络模型集合。
可选的,所述处理模块还用于:
若最高置信度小于所述第二预设阈值,舍弃所述待处理文本。
可选的,所述处理模块还用于:
将所述待处理文本输入到新的神经网络模型集合中,得到多个实体关系抽取结果;
根据多个实体关系抽取结果获取待处理文本对应于新的神经网络模型集合中每一个神经网络模型的置信度,确定出置信度最高的神经网络模型对应的实体关系抽取结果;
若置信度最高的神经网络模型对应的实体关系抽取结果的准确率大于预设值,则将置信度最高的神经网络模型对应的实体关系抽取结果作为最终的输出,并结束训练。
可选的,所述第一获取模块还用于:
在所述训练模块根据人工标注的训练样本集合X0和实体关系对集合ER0,对句子嵌入-长短期记忆网络SE-LSTM初始化网络进行第一次训练之前,根据所述训练样本集合X0构建所述关系集合。
本发明提供的实体关系抽取方法及装置,通过根据人工标注的训练样本集合X0和实体关系对集合ER0,对SE-LSTM初始化网络进行训练,得到神经网络模型NN0,接着获取训练样本集合Xi,根据实体关系对集合ER0和关系集合获取实体关系对集合ERi,i=1…m,其中的关系集合根据训练样本集合X0构建,关系集合中的元素为互为重叠的实体关系。然后根据训练样本集合Xi和实体关系对集合ERi,对SE-LSTM初始化网络进行轮流训练,得到神经网络模型NNi,i=1…m,并得到由神经网络模型NN0和神经网络模型NNi组成的神经网络模型集合,最后根据神经网络模型集合进行实体关系抽取。本实施例中,通过对重叠实体关系分别训练一个神经网络模型,从而在根据所训练的神经网络模型集合进行实体关系抽取时,可以抽取重叠实体关系,解决了重叠实体关系的抽取问题。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实体关系抽取方法实施例一的流程图;
图2为本发明实体关系抽取方法实施例二的流程图;
图3为本发明实体关系抽取方法实施例三的流程图;
图4为本发明实体关系抽取方法中神经网络半监督训练过程示意图;
图5为本发明实体关系抽取装置实施例一的结构示意图;
图6为本发明实体关系抽取装置实施例二的结构示意图;
图7为本发明提供的电子设备的硬件结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
首先,下面对本发明实施例中的部分用语进行解释说明,以便于本领域技术人员理解。
1、重叠实体关系,指一对实体存在一个以上的语义关系,例如A是B的‘妻子’,A也是B的‘朋友’,‘妻子’和‘朋友’为重叠实体关系。
2、实体关系对,包括一个实体对和实体关系,例如(A,B,创建)为一个实体关系对,其中A和B为一个实体对,实体关系为‘创建’。
3、句子嵌入-长短期记忆网络(Sentence EmbeddingLong Short-Term Memorynetworks,SE-LSTM),SE-LSTM网络由3部分组成:(1)LSTM网络抽取实体对方向性信息;(2)卷积神经网络(Convolutional Neural Networks,CNN)提取文本整体信息;(3)特征融合,最后,将LSTM隐藏层单元以及CNN的非线性单元相融合,通过Softmax层来标注实体对对应的关系。将一个文本输入到SE-LSTM网络得到的输出为一个实体关系对。
其中,卷积神经网络,是人工神经网络的一种,已成为当前语音分析和图像识别领域的研究热点。它的权值共享网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。该优点在网络的输入是多维图像时表现的更为明显,使图像可以直接作为网络的输入,避免了传统识别算法中复杂的特征提取和数据重建过程。卷积网络是为识别二维形状而特殊设计的一个多层感知器,这种网络结构对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性。
4、“多个”是指两个或两个以上,其它量词与之类似。字符“/”一般表示前后关联对象是一种“或”的关系。“以上”或“以下”等所描述的范围包括边界点。“第一”、“第二”等,仅用于区分所描述的对象,不具有任何顺序或技术含义。
本发明实施例中,通过训练多个神经网络模型,对重叠实体关系分别训练一个神经网络模型,从而在根据所训练的神经网络模型集合进行实体关系抽取时,可以抽取重叠实体关系,解决了重叠实体关系的抽取问题。进一步地,通过利用高置信度样本训练神经网络模型,提高了实体关系抽取的准确率。下面,通过具体实施例,对本发明实施例的实体关系抽取方法的具体实现过程进行详细说明。
图1为本发明实体关系抽取方法实施例一的流程图,本实施例中的执行主体可以为实体关系抽取装置,如图1所示,本实施例的方法可以包括:
S101、根据人工标注的训练样本集合X0和实体关系对集合ER0,对SE-LSTM初始化网络进行训练,得到第一神经网络模型,其中,实体关系对集合ER0为将训练样本集合X0输入到SE-LSTM网络得到的输出,实体关系对包括一个实体对和实体关系。
具体地,人工标注的训练样本集合X0包括多个文本(即句子),例如训练样本集合为X0={xi|i=1…n},其中xi表示文本。其中,实体关系对集合ER0为将训练样本集合X0输入到SE-LSTM网络得到的输出,例如实体关系对集合ER0中的一个实体关系对为{ei,ej,ri,0},ei和ej为一个实体对,ri,0为实体关系,一个文本输入到SE-LSTM网络得到的输出可以是一个实体关系对或多个实体关系对。
S102、获取训练样本集合Xi,i=1…n,训练样本集合Xi的元素为训练样本集合Xi-1的文本中置信度小于第一预设阈值的文本。
具体地,作为一种可实施的方式,获取训练样本集合Xi,可以为:通过神经网络模型NNi-1获取训练样本集合Xi-1中各个文本的置信度,将置信度小于第一预设阈值的文本作为训练样本集合Xi的元素,可选的,第一预设阈值可以设为0.5,还可以是根据轮训结果设置,例如若关系集合已经轮训完,还剩下低于第一预设阈值的训练样本,则可以降低第一预设阈值。其中,得到神经网络模型NN0后,即可通过神经网络模型NN0得到训练样本集合X0中各个文本的置信度,例如获取训练样本集合X0={xi|i=1…n}的置信度为{pi|i=1…n},第一预设阈值为α,将pi<α的文本提取出来作为训练样本集合X1的元素,得到训练样本集合X1={xi|i=1…m}。
其中,在人工标注训练样本集合X0时,就可以根据训练样本集合X0构建关系集合,例如关系集合为{ri,j},关系集合中的元素为重叠实体关系,例如关系集合为{朋友,妻子},‘妻子’和‘朋友’为重叠实体关系。
S103、根据实体关系对集合ER0和关系集合获取实体关系对集合ERi,i=1…m,关系集合根据训练样本集合X0构建,关系集合中的元素为互为重叠的实体关系。
具体地,根据实体关系对集合ER0和关系集合获取实体关系对集合ERi,可以为:将实体关系对集合ER0中的实体关系对的实体关系替换为关系集合中除实体关系对集合ER0中的实体关系之外的一个实体关系,得到实体关系对集合ER1;若关系集合中还有未替换过的元素,则将实体关系对集合ER0中的实体关系对的实体关系替换为关系集合中除实体关系对集合ER0和ER1中的实体关系之外的一个实体关系,得到实体关系对集合ER2;继续上述替换过程,直到将关系集合中的元素替换完。例如,将实体关系对集合ER0中的一个实体关系对{ei,ej,ri,0}中的ri,0使用关系集合{ri,j}中的其他值进行替换,得到替换后的实体关系对{ei,ej,ri,1},对实体关系对集合ER0中全部实体关系对的实体关系替换完成后,得到实体关系对集合ER1
S104、根据训练样本集合Xi和实体关系对集合ERi,对SE-LSTM初始化网络进行轮流训练,得到神经网络模型NNi,i=1…m,并得到由神经网络模型NN0和神经网络模型NNi组成的神经网络模型集合。
以关系集合中的元素为3个为例,得到神经网络模型NN1后,接着:
通过神经网络模型NN1获取训练样本集合X1中各个文本的置信度,将置信度小于第一预设阈值的文本作为训练样本集合X2的元素。根据关系集合对实体关系对集合ER0中的实体关系对的实体关系进行替换,得到实体关系对集合ER2,以关系集合中的元素为3个为例,使用关系集合中的第三个元素替换实体关系对集合ER0中的实体关系对的实体关系,例如将实体关系对集合ER0中的一个实体关系对{ei,ej,ri,0}中的ri,0使用关系集合{ri,j}中的其他值ri,2进行替换,得到替换后的实体关系对{ei,ej,ri,2}。然后,根据训练样本集合X2和实体关系对集合ER2,对SE-LSTM初始化网络进行训练,得到神经网络模型NN2。最终,得神经网络模型集合{NN0,NN1,NN2}。
S105、根据神经网络模型集合进行实体关系抽取。
具体地,在通过执行S101-S105之后,得到神经网络模型集合,此时就可以投入到实际使用中,输入待处理文本到神经网络模型集合,输出即为抽取的实体关系。
本实施例提供的实体关系抽取方法,通过根据人工标注的训练样本集合X0和实体关系对集合ER0,对SE-LSTM初始化网络进行训练,得到神经网络模型NN0,接着获取训练样本集合Xi,根据实体关系对集合ER0和关系集合获取实体关系对集合ERi,i=1…m,其中的关系集合根据训练样本集合X0构建,关系集合中的元素为互为重叠的实体关系。然后根据训练样本集合Xi和实体关系对集合ERi,对SE-LSTM初始化网络进行轮流训练,得到神经网络模型NNi,i=1…m,并得到由神经网络模型NN0和神经网络模型NNi组成的神经网络模型集合,最后根据神经网络模型集合进行实体关系抽取。本实施例中,通过对重叠实体关系分别训练一个神经网络模型,从而在根据所训练的神经网络模型集合进行实体关系抽取时,可以抽取重叠实体关系,解决了重叠实体关系的抽取问题。
图2为本发明实体关系抽取方法实施例二的流程图,本实施例中的执行主体可以为实体关系抽取装置,如图2所示,本实施例的方法在图1所示实施例的基础上,进一步地,还可以包括神经网络半监督的训练过程,可以有效的利用高置信度样本训练神经网络模型,提高了实体关系抽取的准确率。
具体地,本实施例的方法可以包括:
S201、根据人工标注的训练样本集合X0和实体关系对集合ER0,对SE-LSTM初始化网络进行训练,得到第一神经网络模型,其中,实体关系对集合ER0为将训练样本集合X0输入到SE-LSTM网络得到的输出,实体关系对包括一个实体对和实体关系。
S202、获取训练样本集合Xi,i=1…n,训练样本集合Xi的元素为训练样本集合Xi-1的文本中置信度小于第一预设阈值的文本。
S203、根据实体关系对集合ER0和关系集合获取实体关系对集合ERi,i=1…m,关系集合根据训练样本集合X0构建,关系集合中的元素为互为重叠的实体关系。
S204、根据训练样本集合Xi和实体关系对集合ERi,对SE-LSTM初始化网络进行轮流训练,得到神经网络模型NNi,i=1…m,并得到由神经网络模型NN0和神经网络模型NNi组成的神经网络模型集合。
S205、根据神经网络模型集合进行实体关系抽取。
具体地,S201~S205与上述实施例所示的S101~S105相同,具体的实现方式类似,此处不再赘述。
S206、将待处理文本输入到神经网络模型集合中,得到多个实体关系抽取结果,根据多个实体关系抽取结果获取待处理文本对应于神经网络模型集合中每一个神经网络模型的置信度,并获取置信度最高的神经网络模型。
具体地,待处理文本可以是实际应用的文本,不是人工标注的文本。
S207、若最高置信度大于第二预设阈值,则将待处理文本加入训练样本集合X0,得到新的训练样本集合,根据新的训练样本集合重新训练置信度最高的神经网络模型并替换神经网络模型集合中的元素,得到新的神经网络模型集合;若最高置信度小于第二预设阈值,舍弃待处理文本。
其中,第二预设阈值可以设置为0.5,还可以是根据实际情况设置为其它值。
S208、根据新的神经网络模型集合进行实体关系抽取。
具体地,输入待处理文本到新的神经网络模型集合,输出即为抽取的实体关系。
可选的,本实施例的方法还包括:
将待处理文本输入到新的神经网络模型集合中,得到多个实体关系抽取结果;
根据多个实体关系抽取结果获取待处理文本对应于新的神经网络模型集合中每一个神经网络模型的置信度,确定出置信度最高的神经网络模型对应的实体关系抽取结果;
若置信度最高的神经网络模型对应的实体关系抽取结果的准确率大于预设值,则将置信度最高的神经网络模型对应的实体关系抽取结果作为最终的输出,并结束训练。
本实施例提供的实体关系抽取方法,通过对重叠实体关系分别训练一个神经网络模型,从而在根据所训练的神经网络模型集合进行实体关系抽取时,可以抽取重叠实体关系,解决了重叠实体关系的抽取问题。并且,在得到神经网络模型集合之后,将待处理文本输入到神经网络模型集合中,得到多个实体关系抽取结果,根据多个实体关系抽取结果获取待处理文本对应于神经网络模型集合中每一个神经网络模型的置信度,并获取置信度最高的神经网络模型。若最高置信度大于第二预设阈值,则将待处理文本加入训练样本集合X0,得到新的训练样本集合,并根据新的训练样本集合重新训练置信度最高的神经网络模型并替换神经网络模型集合中的元素,得到新的神经网络模型集合。通过神经网络半监督的训练过程,可以有效的利用高置信度样本训练神经网络模型,提高了实体关系抽取的准确率。
下面采用一个具体的实施例,对图1和图2所示方法实施例的技术方案进行详细说明。
图3为本发明实体关系抽取方法实施例三的流程图,如图3所示,本实施例的方法可以包括:
S301、对人工标注的训练样本集合X0进行预处理,并根据训练样本集合X0构建关系集合R,关系集合中的元素为重叠实体关系。
具体地,将训练样本集合X0的文本依次输入到SE-LSTM网络得到实体关系对集合ER0。具体来说,人工标注的训练样本集合X0包括多个文本(即句子),本实施例中例如训练样本集合为X0={xi|i=1…n},其中xi表示文本,实体关系对集合ER0中的一个实体关系对为{ei,ej,ri,0},ei和ej为一个实体对,ri,0为实体关系,一个文本输入到SE-LSTM网络得到的输出可以是一个实体关系对或多个实体关系对。
其中,在人工标注训练样本集合X0时,就可以根据训练样本集合X0构建关系集合,本实施例中例如关系集合为R={ri,j},关系集合中的元素为重叠实体关系,例如关系集合为{朋友,妻子},‘妻子’和‘朋友’为重叠实体关系。
S302、根据训练样本集合X0获取训练样本集合Xi,根据实体关系对集合ER0和关系集合获取实体关系对集合ERi
S303、根据训练样本集合Xi和实体关系对集合ERi,对SE-LSTM初始化网络进行轮流训练,得到神经网络模型NNi
具体地,在第一次训练时,训练样本集合为X0,实体关系对集合为ER0。根据训练样本集合X0和实体关系对集合ER0,对SE-LSTM初始化网络进行训练,得到神经网络模型NN0
接着,轮询关系集合R,若R中的元素个数大于1,则通过神经网络模型NN0获取训练样本集合X0中各个文本的置信度{pi|i=1…n},将pi<α的文本提取出来作为训练样本集合X1的元素,得到训练样本集合X1={xi|i=1…m}。其中,α例如为0.5。Pi<α
获取实体关系对集合ERi,具体为:将实体关系对集合ER0中的一个实体关系对{ei,ej,ri,0}中的ri,0使用关系集合{ri,j}中的其他值进行替换,得到替换后的实体关系对{ei,ej,ri,1}。
下一次轮训时的过程类似,例如在第二次训练时,根据训练样本集合X1和实体关系对集合ER1,对SE-LSTM初始化网络进行训练,得到神经网络模型NN1。接着,继续轮训关系集合R,若R中的元素个数大于1,则通过神经网络模型NN1获取训练样本集合X1中各个文本的置信度{pi|i=1…n},将pi<α的文本提取出来作为训练样本集合X2的元素,得到训练样本集合X2={xi|i=1…k}。根据上述替换过程获取实体关系对集合ER2,在第三次训练时,根据训练样本集合X2和实体关系对集合ER2,对SE-LSTM初始化网络进行训练,得到神经网络模型NN2
轮训关系集合R,当关系集合R中所有的重叠实体关系都已替换完时,结束训练。
图3所示的过程为神经网络模型集合的训练过程示意图,得到神经网络模型集合{NNi}之后,根据神经网络模型集合{NNi}进行实体关系抽取。
在图3所示实施例的基础上,进一步地,还可以包括神经网络半监督的训练过程,可以有效的利用高置信度样本训练神经网络模型,提高了实体关系抽取的准确率。下面结合图4来说明详细的过程,图4为本发明实体关系抽取方法中神经网络半监督训练过程示意图,如图4所示,可以包括:
S401、将待处理文本输入到神经网络模型集合。
S402、轮训神经网络模型集合,得到多个实体关系抽取结果。
S403、根据多个实体关系抽取结果获取待处理文本对应于神经网络模型集合中每一个神经网络模型的置信度,并获取置信度最高的神经网络模型NNk
S404、判断置信度是否大于第二预设阈值γ,若是则执行S405,若否则执行S407。
S405、重新训练神经网络模型NNk
具体地,将待处理文本加入训练样本集合X0,得到新的训练样本集合,并根据新的训练样本集合重新训练神经网络模型NNk
S406、将神经网络模型集合中的神经网络模型NNk替换为重新训练的神经网络模型NNk,得到新的神经网络模型集合,轮训该新的神经网络模型集合,得到多个实体关系抽取结果,若置信度最高的神经网络模型对应的实体关系抽取结果的准确率大于预设值,则将置信度最高的神经网络模型对应的实体关系抽取结果作为最终的输出,并结束训练。
S407、舍弃待处理文本,继续下一条待处理文本的处理。
图5为本发明实体关系抽取装置实施例一的结构示意图,如图5所示,本实施例的装置可以包括:训练模块11、第一获取模块12、第二获取模块13和抽取模块14,其中,训练模块11用于根据人工标注的训练样本集合X0和实体关系对集合ER0,对句子嵌入-长短期记忆网络SE-LSTM初始化网络进行第一次训练,得到神经网络模型NN0,其中,实体关系对集合ER0为将训练样本集合X0输入到SE-LSTM网络得到的输出,实体关系对包括一个实体对和实体关系;第一获取模块12用于获取训练样本集合Xi,i=1…m,训练样本集合Xi的元素为训练样本集合Xi-1的文本中置信度小于第一预设阈值的文本;第二获取模块13用于根据实体关系对集合ER0和关系集合获取实体关系对集合ERi,i=1…m,关系集合根据训练样本集合X0构建,关系集合中的元素为互为重叠的实体关系;训练模块11还用于:根据训练样本集合Xi和实体关系对集合ERi,对SE-LSTM初始化网络进行轮流训练,得到神经网络模型NNi,i=1…m,并得到由神经网络模型NN0和神经网络模型NNi组成的神经网络模型集合;抽取模块14用于根据神经网络模型集合进行实体关系抽取。
可选的,第一获取模块12用于:通过神经网络模型NNi-1获取训练样本集合X i-1中各个文本的置信度,将置信度小于第一预设阈值的文本作为训练样本集合Xi的元素。
可选的,第二获取模块13用于:将实体关系对集合ER0中的实体关系对的实体关系替换为关系集合中除实体关系对集合ER0中的实体关系之外的一个实体关系,得到实体关系对集合ER1
若关系集合中还有未替换过的元素,则将实体关系对集合ER0中的实体关系对的实体关系替换为关系集合中除实体关系对集合ER 0和ER 1中的实体关系之外的一个实体关系,得到实体关系对集合ER2
继续上述替换过程,直到将关系集合中的元素替换完。
本发明实施例提供的实体关系抽取装置,可执行上述方法实施例,其具体实现原理和技术效果,可参见上述方法实施例,本实施例此处不再赘述。
图6为本发明实体关系抽取装置实施例二的结构示意图,如图6所示,本实施例的装置在图5所示装置的基础上,进一步地,还可以包括:处理模块15,处理模块15用于将待处理文本输入到神经网络模型集合中,得到多个实体关系抽取结果;根据多个实体关系抽取结果获取待处理文本对应于每一个神经网络模型的置信度,并获取置信度最高的神经网络模型;若最高置信度大于第二预设阈值,则将待处理文本加入训练样本集合X0,得到新的训练样本集合,根据新的训练样本集合重新训练置信度最高的神经网络模型并替换神经网络模型集合中的元素,得到新的神经网络模型集合。
可选的,处理模块15还用于:若最高置信度小于第二预设阈值,舍弃待处理文本。
可选的,处理模块15还用于将待处理文本输入到新的神经网络模型集合中,得到多个实体关系抽取结果;根据多个实体关系抽取结果获取待处理文本对应于新的神经网络模型集合中每一个神经网络模型的置信度,确定出置信度最高的神经网络模型对应的实体关系抽取结果;若置信度最高的神经网络模型对应的实体关系抽取结果的准确率大于预设值,则将置信度最高的神经网络模型对应的实体关系抽取结果作为最终的输出,并结束训练。
可选的,第一获取模块12还用于:
在训练模块11根据人工标注的训练样本集合X0和实体关系对集合ER0,对句子嵌入-长短期记忆网络SE-LSTM初始化网络进行第一次训练之前,根据训练样本集合X0构建关系集合。
本发明实施例提供的实体关系抽取装置,可执行上述方法实施例,其具体实现原理和技术效果,可参见上述方法实施例,本实施例此处不再赘述。
本发明中可以根据上述方法示例对实体关系抽取装置进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本发明各实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
图7为本发明提供的电子设备的硬件结构示意图。如图7所示,该电子设备60,用于实现上述任一方法实施例中对应于实体关系抽取装置的操作,本实施例的电子设备60可以包括:存储器61和处理器62;
存储器61,用于存储计算机程序;
处理器62,用于执行存储器存储的计算机程序,以实现上述实施例中的实体关系抽取方法。具体可以参见前述方法实施例中的相关描述。
可选地,存储器61既可以是独立的,也可以跟处理器62集成在一起。
当存储器61是独立于处理器62之外的器件时,电子设备60还可以包括:
总线63,用于连接存储器61和处理器62。
可选地,本实施例还包括:通信接口64,该通信接口64可以通过总线63与处理器62连接。处理器62可以控制通信接口64来实现电子设备60的上述的接收和发送的功能。
本实施例提供的电子设备可用于执行上述的实体关系抽取方法,其实现方式和技术效果类似,本实施例此处不再赘述。
本发明还提供一种计算机可读存储介质,计算机可读存储介质包括计算机程序,计算机程序用于实现如上实施例中的实体关系抽取方法。
在上述实施例中,存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
上述计算机可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (14)

1.一种实体关系抽取方法,其特征在于,包括:
根据人工标注的训练样本集合X0和实体关系对集合ER0,对句子嵌入-长短期记忆网络SE-LSTM初始化网络进行第一次训练,得到神经网络模型NN0,其中,所述实体关系对集合ER0为将所述训练样本集合X0输入到所述SE-LSTM网络得到的输出,实体关系对包括一个实体对和实体关系;
获取训练样本集合Xi,i=1…n,所述训练样本集合Xi的元素为通过神经网络模型NNi-1获取的训练样本集合Xi-1的文本中置信度小于第一预设阈值的文本;
根据所述实体关系对集合ER0至ERi-1、以及关系集合获取实体关系对集合ERi,i=1…m,所述关系集合根据所述训练样本集合X0构建,所述关系集合中的元素为互为重叠的实体关系;所述ERi是将实体关系对集合ER0中的实体关系对的实体关系替换为所述关系集合中的目标实体关系后得到的,所述目标实体关系与实体关系对集合ER0至ERi-1中的实体关系不同;
根据训练样本集合Xi和实体关系对集合ERi,对SE-LSTM初始化网络进行轮流训练,得到神经网络模型NNi,i=1…m,并得到由所述神经网络模型NN0和神经网络模型NNi组成的神经网络模型集合;
根据所述神经网络模型集合进行实体关系抽取。
2.根据权利要求1所述的方法,其特征在于,所述根据所述实体关系对集合ER0和关系集合获取实体关系对集合ERi,包括:
将实体关系对集合ER0中的实体关系对的实体关系替换为所述关系集合中除所述实体关系对集合ER0中的实体关系之外的一个实体关系,得到实体关系对集合ER1
若所述关系集合中还有未替换过的元素,则将实体关系对集合ER0中的实体关系对的实体关系替换为所述关系集合中除所述实体关系对集合ER 0和ER 1中的实体关系之外的一个实体关系,得到实体关系对集合ER2
继续上述替换过程,直到将所述关系集合中的元素替换完。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
将待处理文本输入到所述神经网络模型集合中,得到多个实体关系抽取结果;
根据多个实体关系抽取结果获取所述待处理文本对应于每一个神经网络模型的置信度,并获取置信度最高的神经网络模型;
若最高置信度大于第二预设阈值,则将所述待处理文本加入所述训练样本集合X0,得到新的训练样本集合,根据新的训练样本集合重新训练置信度最高的神经网络模型并替换神经网络模型集合中的元素,得到新的神经网络模型集合。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
若最高置信度小于所述第二预设阈值,舍弃所述待处理文本。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
将所述待处理文本输入到新的神经网络模型集合中,得到多个实体关系抽取结果;
根据多个实体关系抽取结果获取待处理文本对应于新的神经网络模型集合中每一个神经网络模型的置信度,确定出置信度最高的神经网络模型对应的实体关系抽取结果;
若置信度最高的神经网络模型对应的实体关系抽取结果的准确率大于预设值,则将置信度最高的神经网络模型对应的实体关系抽取结果作为最终的输出,并结束训练。
6.根据权利要求1所述的方法,其特征在于,所述根据人工标注的训练样本集合X0和实体关系对集合ER0,对句子嵌入-长短期记忆网络SE-LSTM初始化网络进行第一次训练之前,还包括:
根据所述训练样本集合X0构建所述关系集合。
7.一种实体关系抽取装置,其特征在于,包括:
训练模块,用于根据人工标注的训练样本集合X0和实体关系对集合ER0,对句子嵌入-长短期记忆网络SE-LSTM初始化网络进行第一次训练,得到神经网络模型NN0,其中,所述实体关系对集合ER0为将所述训练样本集合X0输入到所述SE-LSTM网络得到的输出,实体关系对包括一个实体对和实体关系;
第一获取模块,用于获取训练样本集合Xi,i=1…m,所述训练样本集合Xi的元素为通过神经网络模型NNi-1获取的训练样本集合Xi-1的文本中置信度小于第一预设阈值的文本;
第二获取模块,用于根据所述实体关系对集合ER0至ERi-1、以及关系集合获取实体关系对集合ERi,i=1…m,所述关系集合根据所述训练样本集合X0构建,所述关系集合中的元素为互为重叠的实体关系;所述ERi是将实体关系对集合ER0中的实体关系对的实体关系替换为所述关系集合中的目标实体关系后得到的,所述目标实体关系与实体关系对集合ER0至ERi-1中的实体关系不同;
所述训练模块还用于:根据训练样本集合Xi和实体关系对集合ERi,对SE-LSTM初始化网络进行轮流训练,得到神经网络模型NNi,i=1…m,并得到由所述神经网络模型NN0和神经网络模型NNi组成的神经网络模型集合;
抽取模块,用于根据所述神经网络模型集合进行实体关系抽取。
8.根据权利要求7所述的装置,其特征在于,所述第二获取模块用于:
将实体关系对集合ER0中的实体关系对的实体关系替换为所述关系集合中除所述实体关系对集合ER0中的实体关系之外的一个实体关系,得到实体关系对集合ER1
若所述关系集合中还有未替换过的元素,则将实体关系对集合ER0中的实体关系对的实体关系替换为所述关系集合中除所述实体关系对集合ER 0和ER 1中的实体关系之外的一个实体关系,得到实体关系对集合ER2
继续上述替换过程,直到将所述关系集合中的元素替换完。
9.根据权利要求7或8所述的装置,其特征在于,所述装置还包括:
处理模块,用于将待处理文本输入到所述神经网络模型集合中,得到多个实体关系抽取结果;
根据多个实体关系抽取结果获取所述待处理文本对应于每一个神经网络模型的置信度,并获取置信度最高的神经网络模型;
若最高置信度大于第二预设阈值,则将所述待处理文本加入所述训练样本集合X0,得到新的训练样本集合,根据新的训练样本集合重新训练置信度最高的神经网络模型并替换神经网络模型集合中的元素,得到新的神经网络模型集合。
10.根据权利要求9所述的装置,其特征在于,所述处理模块还用于:
若最高置信度小于所述第二预设阈值,舍弃所述待处理文本。
11.根据权利要求9所述的装置,其特征在于,所述处理模块还用于:
将所述待处理文本输入到新的神经网络模型集合中,得到多个实体关系抽取结果;
根据多个实体关系抽取结果获取待处理文本对应于新的神经网络模型集合中每一个神经网络模型的置信度,确定出置信度最高的神经网络模型对应的实体关系抽取结果;
若置信度最高的神经网络模型对应的实体关系抽取结果的准确率大于预设值,则将置信度最高的神经网络模型对应的实体关系抽取结果作为最终的输出,并结束训练。
12.根据权利要求7所述的装置,其特征在于,所述第一获取模块还用于:
在所述训练模块根据人工标注的训练样本集合X0和实体关系对集合ER0,对句子嵌入-长短期记忆网络SE-LSTM初始化网络进行第一次训练之前,根据所述训练样本集合X0构建所述关系集合。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-6任一项所述的实体关系抽取方法。
14.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行1-6任一项所述的实体关系抽取方法。
CN201910692845.4A 2019-07-30 2019-07-30 实体关系抽取方法及装置 Active CN110427624B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910692845.4A CN110427624B (zh) 2019-07-30 2019-07-30 实体关系抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910692845.4A CN110427624B (zh) 2019-07-30 2019-07-30 实体关系抽取方法及装置

Publications (2)

Publication Number Publication Date
CN110427624A CN110427624A (zh) 2019-11-08
CN110427624B true CN110427624B (zh) 2023-04-25

Family

ID=68413095

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910692845.4A Active CN110427624B (zh) 2019-07-30 2019-07-30 实体关系抽取方法及装置

Country Status (1)

Country Link
CN (1) CN110427624B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274412A (zh) * 2020-01-22 2020-06-12 腾讯科技(深圳)有限公司 信息提取方法、信息提取模型训练方法、装置及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095872A (zh) * 2016-06-07 2016-11-09 北京高地信息技术有限公司 用于智能问答系统的答案排序方法及装置
CN107077463A (zh) * 2014-10-02 2017-08-18 微软技术许可有限责任公司 远程监督关系提取器
CN107943847A (zh) * 2017-11-02 2018-04-20 平安科技(深圳)有限公司 企业关系提取方法、装置及存储介质
CN108021557A (zh) * 2017-12-25 2018-05-11 北京牡丹电子集团有限责任公司数字电视技术中心 基于深度学习的不规则实体识别方法
CN108280062A (zh) * 2018-01-19 2018-07-13 北京邮电大学 基于深度学习的实体和实体关系识别方法及装置
CN109063159A (zh) * 2018-08-13 2018-12-21 桂林电子科技大学 一种基于神经网络的实体关系抽取方法
CN109710923A (zh) * 2018-12-06 2019-05-03 浙江大学 基于跨媒体信息的跨语言实体匹配方法
CN109902303A (zh) * 2019-03-01 2019-06-18 腾讯科技(深圳)有限公司 一种实体识别方法及相关设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9984772B2 (en) * 2016-04-07 2018-05-29 Siemens Healthcare Gmbh Image analytics question answering
US10489439B2 (en) * 2016-04-14 2019-11-26 Xerox Corporation System and method for entity extraction from semi-structured text documents
US11409791B2 (en) * 2016-06-10 2022-08-09 Disney Enterprises, Inc. Joint heterogeneous language-vision embeddings for video tagging and search

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107077463A (zh) * 2014-10-02 2017-08-18 微软技术许可有限责任公司 远程监督关系提取器
CN106095872A (zh) * 2016-06-07 2016-11-09 北京高地信息技术有限公司 用于智能问答系统的答案排序方法及装置
CN107943847A (zh) * 2017-11-02 2018-04-20 平安科技(深圳)有限公司 企业关系提取方法、装置及存储介质
CN108021557A (zh) * 2017-12-25 2018-05-11 北京牡丹电子集团有限责任公司数字电视技术中心 基于深度学习的不规则实体识别方法
CN108280062A (zh) * 2018-01-19 2018-07-13 北京邮电大学 基于深度学习的实体和实体关系识别方法及装置
CN109063159A (zh) * 2018-08-13 2018-12-21 桂林电子科技大学 一种基于神经网络的实体关系抽取方法
CN109710923A (zh) * 2018-12-06 2019-05-03 浙江大学 基于跨媒体信息的跨语言实体匹配方法
CN109902303A (zh) * 2019-03-01 2019-06-18 腾讯科技(深圳)有限公司 一种实体识别方法及相关设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Deep Sentence Embedding Using Long Short-Term Memory Networks: Analysis and Application to Information Retrieval";Hamid Palangi et al;《 IEEE/ACM Transactions on Audio, Speech, and Language Processing》;20160121;第1-25页 *
"Distant supervised relation extraction via long short term memory networks with sentence embedding";He D et al;《Intelligent Data Analysis》;20171010;第21卷(第5期);第1213-1231页 *
"深度学习实体关系抽取研究综述";鄂海红 等;《软件学报》;20190328;第30卷(第6期);第1793-1818页 *

Also Published As

Publication number Publication date
CN110427624A (zh) 2019-11-08

Similar Documents

Publication Publication Date Title
JP6956177B2 (ja) キーワード抽出方法、コンピュータ装置及び記憶媒体
CN109902307B (zh) 命名实体识别方法、命名实体识别模型的训练方法及装置
CN109190110A (zh) 一种命名实体识别模型的训练方法、系统及电子设备
CN110717034A (zh) 一种本体构建方法及装置
CN110704640A (zh) 一种知识图谱的表示学习方法及装置
CN110490081B (zh) 一种基于聚焦权重矩阵与变尺度语义分割神经网络的遥感对象解译方法
CN113254648A (zh) 一种基于多层次图池化的文本情感分析方法
JP7292657B2 (ja) データ処理方法、データ処理装置、コンピュータプログラム及び電子装置
CN110427486B (zh) 身体病况文本的分类方法、装置及设备
CN110472049B (zh) 疾病筛查文本分类方法、计算机设备和可读存储介质
CN111723870B (zh) 基于人工智能的数据集获取方法、装置、设备和介质
CN112201359A (zh) 基于人工智能的重症问诊数据识别方法及装置
CN110968664A (zh) 一种文书检索方法、装置、设备及介质
CN112347254A (zh) 新闻文本的分类方法、装置、计算机设备和存储介质
CN112883736A (zh) 医疗实体关系抽取方法和装置
CN111160034A (zh) 一种实体词的标注方法、装置、存储介质及设备
CN110427624B (zh) 实体关系抽取方法及装置
CN113627159B (zh) 纠错模型的训练数据确定方法、装置、介质及产品
CN113806489A (zh) 用于数据集创建的方法、电子设备和计算机程序产品
CN109657710B (zh) 数据筛选方法、装置、服务器及存储介质
Fan et al. A medical pre-diagnosis system for histopathological image of breast cancer
CN115762721A (zh) 一种基于计算机视觉技术的医疗影像质控方法和系统
CN112766387B (zh) 一种训练数据的纠错方法、装置、设备及存储介质
CN111401055B (zh) 从金融资讯提取脉络信息的方法和装置
CN113610080A (zh) 基于跨模态感知的敏感图像识别方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant