CN111324743A - 文本关系抽取的方法、装置、计算机设备及存储介质 - Google Patents

文本关系抽取的方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN111324743A
CN111324743A CN202010092616.1A CN202010092616A CN111324743A CN 111324743 A CN111324743 A CN 111324743A CN 202010092616 A CN202010092616 A CN 202010092616A CN 111324743 A CN111324743 A CN 111324743A
Authority
CN
China
Prior art keywords
entity
text
relationship
extraction model
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010092616.1A
Other languages
English (en)
Inventor
朱昱锦
徐国强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202010092616.1A priority Critical patent/CN111324743A/zh
Publication of CN111324743A publication Critical patent/CN111324743A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文本关系抽取的方法、装置、计算机设备及存储介质,涉及计算机技术领域,可解决在进行文本关系抽取时,工作量大、文本抽取效率低的问题。其中方法包括:训练用于提取文本中实体类的实体抽取模型;利用符合预设标准的所述实体抽取模型提取待抽取文本中的各个目标实体;基于全组合方法构建目标实体对,并将所述目标实体对输入至关系抽取模型中,获取得到对应的关系识别结果;利用阅读理解模型对所述关系识别结果进行验证;若判定各个所述目标实体对对应的关系识别结果均通过验证,则整合输出所述关系识别结果。本申请适用于对文本关系的抽取。

Description

文本关系抽取的方法、装置、计算机设备及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及到一种文本关系抽取的方法、装置、计算机设备及存储介质。
背景技术
关系抽取技术用于判断在给定的一段上下文中出现的两个实体的关系类型,再构成关系三元组,即(实体A,实体B,A与B的关系)。由于类型需要事先确定,因此关系抽取可被视为包含实体抽取与关系分类两个步骤。
目前关系抽取技术多用于信息抽取与对话领域,结合命名实体发现、槽填充等技术抽取指定的关系三元组。
然而利用现有方法进行关系抽取分类时,需要预先人工筛选出用于关系分类的目标实体,而当目标实体不明确时,则无法进行有效的关系抽取,效率较低,从而也加大了关系抽取模型的工作量。
发明内容
有鉴于此,本申请提供了一种文本关系抽取的方法、装置、计算机设备及存储介质,主要目的在于解决在进行文本关系抽取时,工作量大、抽取效率低的问题。
根据本申请的一个方面,提供了一种文本关系抽取的方法,该方法包括:
训练用于提取文本中实体类的实体抽取模型;
利用符合预设标准的所述实体抽取模型提取待抽取文本中的各个目标实体;
基于全组合方法构建目标实体对,并将所述目标实体对输入至关系抽取模型中,获取得到对应的关系识别结果;
利用阅读理解模型对所述关系识别结果进行验证;
若判定各个所述目标实体对对应的关系识别结果均通过验证,则整合输出所述关系识别结果。
根据本申请的另一个方面,提供了一种文本关系抽取的装置,该装置包括:
训练模块,用于训练用于提取文本中实体类的实体抽取模型;
提取模块,用于利用符合预设标准的所述实体抽取模型提取待抽取文本中的各个目标实体;
获取模块,用于基于全组合方法构建目标实体对,并将所述目标实体对输入至关系抽取模型中,获取得到对应的关系识别结果;
验证模块,用于利用阅读理解模型对所述关系识别结果进行验证;
输出模块,用于若判定各个所述目标实体对对应的关系识别结果均通过验证,则整合输出所述关系识别结果。
根据本申请的又一个方面,提供了一种非易失性可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述文本关系抽取的方法。
根据本申请的再一个方面,提供了一种计算机设备,包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述文本关系抽取的方法。
借由上述技术方案,本申请提供的一种文本关系抽取的方法、装置、计算机设备及存储介质,与目前普遍采用的关系三元组的抽取方式相比,本申请可预先训练好用于提取文本中实体类的实体抽取模型,在进行文本关系抽取时,首先将待抽取文本输入至实体抽取模型中,可快速查找出所有候选实体,大幅增加召回率。之后根据全组合方法对提取出的实体进行两两配对,并将各个实体对依次输入至关系抽取模型中,以便获取得到各个实体之间的关系类型,最后利用阅读理解模型对关系抽取模型输出的关系识别结果进行二次验证,在验证通过时,整合输出关系识别结果。在本申请中,可自动识别出各个目标实体,整个工作过程不需要人工参与,降低了工作量的同时也保证了关系抽取的准确度,并且提高了工作效率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本地申请的不当限定。在附图中:
图1示出了本申请实施例提供的一种文本关系抽取的方法的流程示意图;
图2示出了本申请实施例提供的另一种文本关系抽取的方法的流程示意图;
图3示出了本申请实施例提供的一种文本关系抽取的装置的结构示意图;
图4示出了本申请实施例提供的另一种文本关系抽取的装置的结构示意图。
具体实施方式
下文将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合。
针对目前在进行文本关系的抽取时,工作量大、抽取效率低的问题,本申请实施例提供了一种文本关系抽取的方法,如图1所示,该方法包括:
101、训练用于提取文本中实体类的实体抽取模型。
对于本实施例,在具体的应用场景中,需要预先训练生成实体抽取模型用于自动提取文本中所包含的实体类。其中,实体快速抽取模型主要是基于Jieba自然语言处理库对文本进行分词并作词性分析处理;实体是指具有可描述意义的单词或短语,通常可以是人名、地名、组织机构名、产品名称,或者在某个领域内具有一定含义的内容,比如医学领域内疾病、药物、生物体名称,或者法律学涉及到的专有词汇等。
102、利用符合预设标准的实体抽取模型提取待抽取文本中的各个目标实体。
其中,预设标准为实体抽取模型的输出误差小于预设阈值,预设阈值的数值范围为大于0且小于等于1,具体数值的大小可根据实际应用场景进行设定,设定的预设阈值越小,代表实体抽取模型的训练精度越高。
103、基于全组合方法构建目标实体对,并将目标实体对输入至关系抽取模型中,获取得到对应的关系识别结果。
在具体的应用场景中,实体与实体之间并不是相互独立的,往往存在一定的关联。例如“马云”和“阿里巴巴”分别属于实体中的人名和机构名,将他们作为目标实体对输入至关系抽取模型中,即可获取得到对应的关系识别结果。
104、利用阅读理解模型对关系识别结果进行验证。
其中,阅读理解模型可为QANet模型,该模型输入上下文与问题,输出预测的答案的起点与终点坐标信息,中间使用了多头自注意力结构,该结构的本质是一个Transformer模块,里面由卷积神经网络取代传统的序列神经网络结构,对计算注意力所需的查询字段、关键字段、内容字段作处理。
105、若判定各个目标实体对对应的关系识别结果均通过验证,则整合输出关系识别结果。
对于本实施例,在具体的应用场景中,由于同一个待抽取文本中可能包含多个实体,进而能够组合成多个实体对,需要说明的是,实体A与实体B、实体B与实体A是两种不同的配对,得到的关系类型是不一样的。在获取到各个实体对的关系识别结果后,需要分别验证各个关系识别结果是否正确,在判定各个目标实体对对应的关系识别结果均通过验证时,再整合输出关系识别结果。
通过本实施例中文本关系抽取的方法,可通过预先训练好用于提取文本中实体类的实体抽取模型,在进行文本关系抽取时,首先将待抽取文本输入至实体抽取模型中,可快速查找出所有候选实体,大幅增加召回率。之后根据全组合方法对提取出的实体进行两两配对,并将各个实体对依次输入至关系抽取模型中,以便获取得到各个实体之间的关系类型,最后利用阅读理解模型对关系抽取模型输出的关系识别结果进行二次验证,在验证通过时,整合输出关系识别结果。在本申请中,可自动识别出各个目标实体,整个工作过程不需要人工参与,降低了工作量的同时也保证了关系抽取的准确度,并且提高了工作效率。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例中的具体实施过程,提供了另一种文本关系抽取的方法,如图2所示,该方法包括:
201、对训练集文本中所包含的实体类进行词性标注。
对于本实施例,在具体的应用场景中,可利用jieba.posseg模块基于ICTCLAS汉语词性标注集来进行词性标注,进而确定出分词后每个实体类的词性。
202、将标注处理后的训练集文本输入至实体抽取模型中,训练实体抽取模型利用Jibba自然语言处理库对文本作词性分析,并根据单词词性划分出所有实体类。
其中,Jibba自然语言处理库中包含了超大规模的语料数据,包含349,046条词语,每一行对应一个词语,包含词语、词数、词性三部分。
203、若确定实体抽取模型的输出误差小于预设阈值,则判定实体抽取模型通过训练。
例如,设定预设阈值为0.2%,若确定实体抽取模型的输出误差为0.1%,因实体抽取模型的识别误差符合预设标准,故可判定实体抽取模型通过训练。
204、若确定实体抽取模型的输出误差大于或等于预设阈值,则判定实体抽取模型未通过训练,利用预先标注好词性的实体类重复修正训练实体抽取模型,以使实体抽取模型满足预设标准。
例如,设定预设阈值为0.2%,若确定实体抽取模型的输出误差为0.4%,因实体抽取模型的识别误差不符合预设标准,故可判定实体抽取模型未通过训练,进而可预先标注好词性的实体类重复修正训练实体抽取模型,以调整实体抽取模型的输出误差小于0.2%。
205、利用符合预设标准的实体抽取模型提取待抽取文本中的各个目标实体。
对于本实施例,在具体的应用场景中,实施例步骤205具体可以包括:加载词典文件,识别待抽取文本中各个词段;基于各个词段构建有向无环图;根据有向无环图计算每个节点到语句结束位置的最大路径概率,并确定概率最大时节点对应词段的最优结束位置;在最优结束位置处切分待抽取文本,以便获取得到各个目标实体。
例如,输入的待抽取文本为“有意见分歧”,在利用实体抽取模型抽取目标实体时,首先会构建短语的有向无环图DAG。查词典进行字符串匹配的过程中,可能会出现好几种可能的切分方式,将这些组合构成有向无环图,如可构成两条路径:1)、①有意③/见④/分歧;2)、①有②/意见④/分歧,根据两条路径对应的有向无环图可确定出各个词的开始位置和可能的结束位置。之后计算对应同一个词的不同结束位置的概率,将概率最大的结束位置确定为最优结束位置。其中,每个词的概率=字典中该词的词数/字典总词数。若确定待抽取文本中词段的开始位置为①,可识别到对应的结束位置有两个,分别为:②和③,则可计算两处结束位置对应的概率,若“有”对应的概率大于“有意”,则可确定②位置对应为①位置的最优结束位置,之后基于同样的方法确定出其他开始位置对应的最优结束位置,如确定④位置对应为②位置的最优结束位置,之后可在最优结束位置处切分待抽取文本,获取得到目标实体为“有”、“意见”、“分歧”。
206、基于支持向量机创建用于识别目标实体对关系类型的分类器。
相应的,支持向量机分类器(Support Vector Machine,SVM)的训练过程采用一对一法(one-versus-one,简称OVO SVMs或者pairwise),具体可为:
若设定k类样本,在任意两类样本之间设计一个支持向量机分类器SVM,因此k个类别的样本就需要设计k(k-1)/2个SVM。当对目标实体对进行分类时,最后输出概率最大的类别即为该目标实体对的关系类型。
207、利用关系抽取模型将待抽取文本转化为数值矩阵。
其中,关系抽取模型可分为嵌入层Embedding、编码Encoding、Selector与Classifier四部分。
在具体的应用场景中,Embedding将输入的文本以单词为单位转换为数值矩阵,矩阵行数为文本单词数,列数为每个单词转化后的向量维度。其中,除了使用传统的WordEmbedding转换技术外,还用到Position Embedding技术。Word Embedding技术使用现有的开源库genism生成,利用skip-gram原理,本质是利用语言模型的信息获取词汇间的关系数据。Position Embedding则是简单使用数字与正负号表示当前词前后词的信息。具体为:获取提前录入的两个实体的位置信息;计算其他单词与该实体的距离,其中,计算方法采用简单的位置计数。当前词右侧第一个词标记为1,第二个词为2,类似地,左侧第一个词标记为-1,第二个词为-2,距离则是标记的值的绝对值。另外,会设置一个距离上限k,即取左右k个词即可,更外围的词不予考虑。一般k取5;按近大远小规则归一化后获得各单词的权值;其中,近大远小规则是指距离最短时配置的权重较大,距离较近时配置的权重较小;即距离为1的词权重最大,距离为k的词权重最小。最终,将由Word Embedding和Position Embedding求得的词向量按照拼接规则拼接,组成最终的Embedding。拼接规则是指两个向量首尾相接,若Word Embedding是长度为128的向量,Position Embedding长度为32,那么拼接后的向量长度为128+32=160。
208、确定待抽取文本被目标实体对中两个目标实体划分而成的三个文本段,根据数值矩阵提取三个文本段对应的特征向量。
对于本实施例,可利用关系抽取模型中Encoding层提取特征向量,其中,Encoding层由Piecewise-CNN(PCNN)层构成,上下文输入时被两个实体分为三段(例如一句话为ABCDEFGHIJKLMN,其中D和K是实体,那么句子分为三部分:ABCD,DEFGHIJK,KLMN),PCNN使用1维卷积捕捉每段每个单词向量的信息,再带入最大池化层计算,获取三段提取到的特征向量,最后把这三段向量拼接起来。
209、将特征向量输入至分类器中,利用分类器判定目标实体对所属的关系类型。
对于本实施例,在具体的应用场景中,实施例步骤209具体可以包括:确定特征向量对应各个维度的概率,其中,不同维度对应不同的关系类型;将对应概率最大的关系类型确定为目标实体对所属的关系类型。
相应的,可利用关系抽取模型中Classifier层判断当前两个实体被分为不同指定关系类型时的概率(例如50类分类问题,输出是一个50维的向量,第i个位置值表示预测为第i类关系的概率),最终输出概率最大的那类作为预测结果。
具体计算公式可为:
Figure BDA0002384208500000081
其中,xi是指输入的实体,yi是指具体的实体类别,P是指在W的条件下,对输入实体xi进行分类,计算出的xi属于第yi类的概率。利用上述计算公式,可分别计算出当前实体对应所属各个类别的概率,以便进一步将概率最大的类别确定为该实体对应的目标类别。
相应的,为了对关系抽取模型输出的结果进行验证,保证识别准确度,本实施例具体还可以包括:获取包含样本问题及其在样本文本中对应目标答案的训练样本;将训练样本输入阅读理解模型中,生成样本问题的预测答案;确定预测答案相对于目标答案的准确度损失;基于准确度损失确定损失函数,利用损失函数对阅读理解模型进行优化。
210、利用目标实体对中的一个目标实体以及根据关系抽取模型获取到的关系识别结果自动构造验证问题,将验证问题与待抽取文本输入阅读理解模型中,获取输出结果。
例如,设关系三元组为(A,R,B),其中A与B是目标实体,R是关系抽取模型输出到的关系识别结果。首先用目标实体A与关系R构造问题。例如,构造问题可为:A为《软件体的生命周期》,B为特德姜,A与B的关系R是“书籍-作者”,那么可以构造问题:《软件体的生命周期》的作者是谁?正确答案:特德姜。再将问题与待抽取文本带入阅读理解模型,获取输出结果。
211、将输出结果与目标实体对中的另一个目标实体进行匹配,若匹配成功,则确定目标实体对对应的关系识别结果通过验证。
例如,基于实施例步骤210的实施例,若阅读理解模型输出答案为B_qa,对比B与B_qa,若B包含于B_qa,则可确定目标实体对对应的关系识别结果通过验证。
212、若判定匹配失败,则输出判定错误的提示信息。
其中,提示信息可包括展示页面的文字提示信息、图片提示信息、音频提示信息、视频提示信息、灯光提示信息、震动提示信息等。
213、若判定各个目标实体对对应的关系识别结果均通过验证,则整合输出关系识别结果。
对于本实施例,在具体的应用场景中,在判定各个目标实体对对应的关系识别结果均通过验证后,可整合输出各个目标实体对的关系识别结果,具体可设置统一的数据整合格式,如可设定按照各个目标实体在待抽取文本中的排列顺序对关系识别结果进行排列整合,之后将整合结果输出页面。
通过上述文本关系抽取的方法,可利用Jieba自然语言处理库预先训练好用于提取文本中实体类的实体抽取模型,在进行文本关系抽取时,首先将待抽取文本输入至满足预设标准实体抽取模型中,可快速查找出所有候选实体,大幅增加召回率。之后根据全组合方法对提取出的实体进行两两配对,并将各个实体对依次输入至关系抽取模型中,以便获取得到各个实体之间的关系类型,应用到了Position Embedding、PCNN与注意力等技术,并加入注意力机制,可更好地保留文本上下文信息。最后将获取到的关系三元组代入阅读理解模型中,用于对关系抽取模型预测结果的增强和验证,可保证模型用于关系抽取的准确性。在判定通过验证时,整合输出关系识别结果。在本申请中,可自动识别出各个目标实体,整个工作过程不需要人工参与,降低了工作量的同时也保证了关系类型的识别率,并且提高了工作效率。
进一步的,作为图1和图2所示方法的具体体现,本申请实施例提供了一种文本关系抽取的装置,如图3所示,该装置包括:训练模块31、提取模块32、获取模块33、验证模块34、输出模块35。
训练模块31,用于训练用于提取文本中实体类的实体抽取模型;
提取模块32,用于利用符合预设标准的实体抽取模型提取待抽取文本中的各个目标实体;
获取模块33,用于基于全组合方法构建目标实体对,并将目标实体对输入至关系抽取模型中,获取得到对应的关系识别结果;
验证模块34,用于利用阅读理解模型对关系识别结果进行验证;
输出模块35,用于若判定各个目标实体对对应的关系识别结果均通过验证,则整合输出关系识别结果。
在具体的与应用场景中,为了训练得到用于提取文本中实体类的实体抽取模型,训练模块31,具体用于对训练集文本中所包含的实体类进行词性标注;将标注处理后的训练集文本输入至实体抽取模型中,训练实体抽取模型利用Jieba自然语言处理库对文本作词性分析,并根据单词词性划分出所有实体类;若确定实体抽取模型的输出误差小于预设阈值,则判定实体抽取模型通过训练;若确定实体抽取模型的输出误差大于或等于预设阈值,则判定实体抽取模型未通过训练,利用预先标注好词性的实体类重复修正训练实体抽取模型,以使实体抽取模型满足预设标准。
相应的,为了利用符合预设标准的实体抽取模型提取出待抽取文本中的各个目标实体,提取模块32,具体用于加载词典文件,识别待抽取文本中各个词段;基于各个词段构建有向无环图;根据有向无环图计算每个节点到语句结束位置的最大路径概率,并确定概率最大时节点对应词段的最优结束位置;在最优结束位置处切分待抽取文本,以便获取得到各个目标实体。
在具体的应用场景中,为了获取得到目标实体对对应的关系识别结果,获取模块33,具体用于基于支持向量机创建用于识别目标实体对关系类型的分类器;利用关系抽取模型将待抽取文本转化为数值矩阵;确定待抽取文本被目标实体对中两个目标实体划分而成的三个文本段,根据数值矩阵提取三个文本段对应的特征向量;将特征向量输入至分类器中,利用分类器判定目标实体对所属的关系类型。
相应的,为了判定出目标实体对所属的关系类型,获取模块33,具体用于确定特征向量对应各个维度的概率,其中,不同维度对应不同的关系类型;将对应概率最大的关系类型确定为目标实体对所属的关系类型。
在具体的应用场景中,为了训练得到用于对关系抽取模型预测结果的增强和验证的阅读理解模型,如图4所示,本装置还包括:输入模块36、确定模块37、优化模块38。
获取模块33,还用于获取包含样本问题及其在样本文本中对应目标答案的训练样本;
输入模块36,用于将训练样本输入阅读理解模型中,生成样本问题的预测答案;
确定模块37,用于确定预测答案相对于目标答案的准确度损失;
优化模块38,用于基于准确度损失确定损失函数,利用损失函数对阅读理解模型进行优化。
相应的,为了利用阅读理解模型对关系识别结果进行验证,验证模块34,具体用于利用目标实体对中的一个目标实体以及根据关系抽取模型获取到的关系识别结果自动构造验证问题,将验证问题与待抽取文本输入阅读理解模型中,获取输出结果;将输出结果与目标实体对中的另一个目标实体进行匹配,若匹配成功,则确定目标实体对对应的关系识别结果通过验证;若判定匹配失败,则输出判定错误的提示信息。
需要说明的是,本实施例提供的一种文本关系抽取的装置所涉及各功能单元的其它相应描述,可以参考图1至图2中的对应描述,在此不再赘述。
基于上述如图1和图2所示方法,相应的,本申请实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述如图1和图2所示的文本关系抽取的方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景的方法。
基于上述如图1、图2所示的方法,以及图3、图4所示的虚拟装置实施例,为了实现上述目的,本申请实施例还提供了一种计算机设备,具体可以为个人计算机、服务器、网络设备等,该实体设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1和图2所示的文本关系抽取的方法。
可选地,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的计算机设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
非易失性可读存储介质中还可以包括操作系统、网络通信模块。操作系统是文本关系抽取的实体设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现非易失性可读存储介质内部各组件之间的通信,以及与该实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可利用Jieba自然语言处理库预先训练好用于提取文本中实体类的实体抽取模型,在进行文本关系抽取时,首先将待抽取文本输入至满足预设标准实体抽取模型中,可快速查找出所有候选实体,大幅增加召回率。之后根据全组合方法对提取出的实体进行两两配对,并将各个实体对依次输入至关系抽取模型中,以便获取得到各个实体之间的关系类型,应用到了Position Embedding、PCNN与注意力等技术,并加入注意力机制,可更好地保留文本上下文信息。最后将获取到的关系三元组代入阅读理解模型中,用于对关系抽取模型预测结果的增强和验证,可保证模型用于关系抽取的准确性。在判定通过验证时,整合输出关系识别结果。在本申请中,可自动识别出各个目标实体,整个工作过程不需要人工参与,降低了工作量的同时也保证了关系类型的识别率,并且提高了工作效率。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims (10)

1.一种文本关系抽取的方法,其特征在于,包括:
训练用于提取文本中实体类的实体抽取模型;
利用符合预设标准的所述实体抽取模型提取待抽取文本中的各个目标实体;
基于全组合方法构建目标实体对,并将所述目标实体对输入至关系抽取模型中,获取得到对应的关系识别结果;
利用阅读理解模型对所述关系识别结果进行验证;
若判定各个所述目标实体对对应的关系识别结果均通过验证,则整合输出所述关系识别结果。
2.根据权利要求1所述的方法,其特征在于,所述训练用于提取文本中实体类的实体抽取模型,具体包括:
对训练集文本中所包含的实体类进行词性标注;
将标注处理后的所述训练集文本输入至实体抽取模型中,训练所述实体抽取模型利用Jieba自然语言处理库对文本作词性分析,并根据单词词性划分出所有实体类;
若确定所述实体抽取模型的输出误差小于预设阈值,则判定所述实体抽取模型通过训练;
若确定所述实体抽取模型的输出误差大于或等于所述预设阈值,则判定所述实体抽取模型未通过训练,利用预先标注好词性的实体类重复修正训练所述实体抽取模型,以使所述实体抽取模型满足所述预设标准。
3.根据权利要求2所述的方法,其特征在于,所述利用符合预设标准的所述实体抽取模型提取待抽取文本中的各个目标实体,具体包括:
加载词典文件,识别所述待抽取文本中各个词段;
基于所述各个词段构建有向无环图;
根据所述有向无环图计算每个节点到语句结束位置的最大路径概率,并确定概率最大时节点对应词段的最优结束位置;
在所述最优结束位置处切分所述待抽取文本,以便获取得到各个所述目标实体。
4.根据权利要求3所述的方法,其特征在于,所述基于全组合方法构建目标实体对,并将所述目标实体对输入至关系抽取模型中,获取得到对应的关系识别结果,具体包括:
基于支持向量机创建用于识别所述目标实体对关系类型的分类器;
利用关系抽取模型将所述待抽取文本转化为数值矩阵;
确定所述待抽取文本被所述目标实体对中两个目标实体划分而成的三个文本段,根据所述数值矩阵提取所述三个文本段对应的特征向量;
将所述特征向量输入至所述分类器中,利用所述分类器判定所述目标实体对所属的关系类型。
5.根据权利要求4所述的方法,其特征在于,所述将所述特征向量输入至所述分类器中,利用所述分类器判定所述目标实体对所属的关系类型,具体包括:
确定所述特征向量对应各个维度的概率,其中,不同维度对应不同的关系类型;
将对应概率最大的关系类型确定为所述目标实体对所属的关系类型。
6.根据权利要求5所述的方法,其特征在于,在所述利用阅读理解模型对所述关系识别结果进行验证之前,具体还包括:
获取包含样本问题及其在样本文本中对应目标答案的训练样本;
将所述训练样本输入阅读理解模型中,生成所述样本问题的预测答案;
确定所述预测答案相对于所述目标答案的准确度损失;
基于所述准确度损失确定损失函数,利用所述损失函数对所述阅读理解模型进行优化。
7.根据权利要求6所述的方法,其特征在于,所述利用阅读理解模型对所述关系识别结果进行验证,具体包括:
利用所述目标实体对中的一个目标实体以及根据所述关系抽取模型获取到的关系识别结果自动构造验证问题,将所述验证问题与所述待抽取文本输入所述阅读理解模型中,获取输出结果;
将所述输出结果与所述目标实体对中的另一个目标实体进行匹配,若匹配成功,则确定所述目标实体对对应的关系识别结果通过验证;
若判定匹配失败,则输出判定错误的提示信息。
8.一种文本关系抽取的装置,其特征在于,包括:
训练模块,用于训练用于提取文本中实体类的实体抽取模型;
提取模块,用于利用符合预设标准的所述实体抽取模型提取待抽取文本中的各个目标实体;
获取模块,用于基于全组合方法构建目标实体对,并将所述目标实体对输入至关系抽取模型中,获取得到对应的关系识别结果;
验证模块,用于利用阅读理解模型对所述关系识别结果进行验证;
输出模块,用于若判定各个所述目标实体对对应的关系识别结果均通过验证,则整合输出所述关系识别结果。
9.一种非易失性可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至7中任一项所述的文本关系抽取的方法。
10.一种计算机设备,包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7中任一项所述的文本关系抽取的方法。
CN202010092616.1A 2020-02-14 2020-02-14 文本关系抽取的方法、装置、计算机设备及存储介质 Pending CN111324743A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010092616.1A CN111324743A (zh) 2020-02-14 2020-02-14 文本关系抽取的方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010092616.1A CN111324743A (zh) 2020-02-14 2020-02-14 文本关系抽取的方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN111324743A true CN111324743A (zh) 2020-06-23

Family

ID=71168951

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010092616.1A Pending CN111324743A (zh) 2020-02-14 2020-02-14 文本关系抽取的方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN111324743A (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753099A (zh) * 2020-06-28 2020-10-09 中国农业科学院农业信息研究所 一种基于知识图谱增强档案实体关联度的方法及系统
CN111931503A (zh) * 2020-08-04 2020-11-13 腾讯科技(深圳)有限公司 信息抽取方法及装置、设备、计算机可读存储介质
CN111985238A (zh) * 2020-06-30 2020-11-24 联想(北京)有限公司 一种答案生成方法及设备
CN112069319A (zh) * 2020-09-10 2020-12-11 杭州中奥科技有限公司 文本抽取方法、装置、计算机设备和可读存储介质
CN112364166A (zh) * 2020-11-02 2021-02-12 北京中科凡语科技有限公司 关系抽取模型的建立方法以及关系抽取方法
CN112559770A (zh) * 2020-12-15 2021-03-26 北京邮电大学 文本数据的关系抽取方法、装置、设备及可读存储介质
CN112560491A (zh) * 2020-12-11 2021-03-26 北京百炼智能科技有限公司 一种基于ai技术的信息抽取方法、装置和存储介质
CN112732993A (zh) * 2020-12-31 2021-04-30 京东数字科技控股股份有限公司 数据处理方法、装置、计算机设备和存储介质
CN112819622A (zh) * 2021-01-26 2021-05-18 深圳价值在线信息科技股份有限公司 一种信息的实体关系联合抽取方法、装置及终端设备
CN113051356A (zh) * 2021-04-21 2021-06-29 深圳壹账通智能科技有限公司 开放关系抽取方法、装置、电子设备及存储介质
CN113064973A (zh) * 2021-04-12 2021-07-02 平安国际智慧城市科技股份有限公司 文本分类方法、装置、设备及存储介质
CN113157880A (zh) * 2021-03-25 2021-07-23 科大讯飞股份有限公司 一种要素内容获取方法、装置、设备及存储介质
CN113312907A (zh) * 2021-06-18 2021-08-27 广东工业大学 基于混合神经网络的远程监督关系抽取方法及装置
WO2021169354A1 (zh) * 2020-09-04 2021-09-02 平安科技(深圳)有限公司 医学特定指称及其关系的抽取方法、系统及装置
CN113723074A (zh) * 2021-08-27 2021-11-30 国网山东省电力公司信息通信公司 一种基于证据检验增强的文档级关系抽取方法
CN113743121A (zh) * 2021-09-08 2021-12-03 平安科技(深圳)有限公司 长文本实体关系抽取方法、装置、计算机设备及存储介质
CN113901151A (zh) * 2021-09-30 2022-01-07 北京有竹居网络技术有限公司 用于关系抽取的方法、装置、设备和介质
CN114372462A (zh) * 2021-12-15 2022-04-19 城云科技(中国)有限公司 事件陈述文本的关键信息提取方法、装置及应用
CN114386411A (zh) * 2020-10-16 2022-04-22 北京金山数字娱乐科技有限公司 一种关系抽取方法及装置
WO2022198868A1 (zh) * 2021-03-26 2022-09-29 深圳壹账通智能科技有限公司 开放式实体关系的抽取方法、装置、设备及存储介质
CN115438658A (zh) * 2022-11-08 2022-12-06 浙江大华技术股份有限公司 一种实体识别方法、识别模型的训练方法和相关装置
CN115545578A (zh) * 2022-12-01 2022-12-30 南京迈能能源科技有限公司 一种电力调度操作指令信息抽取方法及系统

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326300A (zh) * 2015-07-02 2017-01-11 富士通株式会社 信息处理方法以及信息处理设备
CN107038155A (zh) * 2017-04-23 2017-08-11 四川用联信息技术有限公司 基于改进的小世界网络模型实现文本特征的提取方法
CN108763353A (zh) * 2018-05-14 2018-11-06 中山大学 基于规则和远程监督的百度百科关系三元组抽取方法
CN108829722A (zh) * 2018-05-08 2018-11-16 国家计算机网络与信息安全管理中心 一种远程监督的Dual-Attention关系分类方法及系统
CN108920465A (zh) * 2018-07-13 2018-11-30 福州大学 一种基于句法语义的农业领域关系抽取方法
CN109271529A (zh) * 2018-10-10 2019-01-25 内蒙古大学 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法
CN109508420A (zh) * 2018-11-26 2019-03-22 北京羽扇智信息科技有限公司 一种知识图谱属性的清洗方法及装置
CN109635124A (zh) * 2018-11-30 2019-04-16 北京大学 一种结合背景知识的远程监督关系抽取方法
CN110019839A (zh) * 2018-01-03 2019-07-16 中国科学院计算技术研究所 基于神经网络和远程监督的医学知识图谱构建方法和系统
CN110162792A (zh) * 2019-05-24 2019-08-23 国家电网有限公司 电网数据管理方法及装置
CN110348535A (zh) * 2019-07-17 2019-10-18 北京金山数字娱乐科技有限公司 一种视觉问答模型训练方法及装置
CN110427623A (zh) * 2019-07-24 2019-11-08 深圳追一科技有限公司 半结构化文档知识抽取方法、装置、电子设备及存储介质
CN110442689A (zh) * 2019-06-25 2019-11-12 平安科技(深圳)有限公司 一种问答关系排序方法、装置、计算机设备及存储介质
CN110555084A (zh) * 2019-08-26 2019-12-10 电子科技大学 基于pcnn和多层注意力的远程监督关系分类方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326300A (zh) * 2015-07-02 2017-01-11 富士通株式会社 信息处理方法以及信息处理设备
CN107038155A (zh) * 2017-04-23 2017-08-11 四川用联信息技术有限公司 基于改进的小世界网络模型实现文本特征的提取方法
CN110019839A (zh) * 2018-01-03 2019-07-16 中国科学院计算技术研究所 基于神经网络和远程监督的医学知识图谱构建方法和系统
CN108829722A (zh) * 2018-05-08 2018-11-16 国家计算机网络与信息安全管理中心 一种远程监督的Dual-Attention关系分类方法及系统
CN108763353A (zh) * 2018-05-14 2018-11-06 中山大学 基于规则和远程监督的百度百科关系三元组抽取方法
CN108920465A (zh) * 2018-07-13 2018-11-30 福州大学 一种基于句法语义的农业领域关系抽取方法
CN109271529A (zh) * 2018-10-10 2019-01-25 内蒙古大学 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法
CN109508420A (zh) * 2018-11-26 2019-03-22 北京羽扇智信息科技有限公司 一种知识图谱属性的清洗方法及装置
CN109635124A (zh) * 2018-11-30 2019-04-16 北京大学 一种结合背景知识的远程监督关系抽取方法
CN110162792A (zh) * 2019-05-24 2019-08-23 国家电网有限公司 电网数据管理方法及装置
CN110442689A (zh) * 2019-06-25 2019-11-12 平安科技(深圳)有限公司 一种问答关系排序方法、装置、计算机设备及存储介质
CN110348535A (zh) * 2019-07-17 2019-10-18 北京金山数字娱乐科技有限公司 一种视觉问答模型训练方法及装置
CN110427623A (zh) * 2019-07-24 2019-11-08 深圳追一科技有限公司 半结构化文档知识抽取方法、装置、电子设备及存储介质
CN110555084A (zh) * 2019-08-26 2019-12-10 电子科技大学 基于pcnn和多层注意力的远程监督关系分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
朱娜娜等: "《面向图书馆数字参考咨询的人机对话模型》", 《图书情报工作》 *
朱娜娜等: "《面向图书馆数字参考咨询的人机对话模型》", 《图书情报工作》, 21 March 2019 (2019-03-21), pages 2 *

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753099A (zh) * 2020-06-28 2020-10-09 中国农业科学院农业信息研究所 一种基于知识图谱增强档案实体关联度的方法及系统
CN111753099B (zh) * 2020-06-28 2023-11-21 中国农业科学院农业信息研究所 一种基于知识图谱增强档案实体关联度的方法及系统
CN111985238A (zh) * 2020-06-30 2020-11-24 联想(北京)有限公司 一种答案生成方法及设备
CN111931503A (zh) * 2020-08-04 2020-11-13 腾讯科技(深圳)有限公司 信息抽取方法及装置、设备、计算机可读存储介质
CN111931503B (zh) * 2020-08-04 2024-01-26 腾讯科技(深圳)有限公司 信息抽取方法及装置、设备、计算机可读存储介质
WO2021169354A1 (zh) * 2020-09-04 2021-09-02 平安科技(深圳)有限公司 医学特定指称及其关系的抽取方法、系统及装置
CN112069319A (zh) * 2020-09-10 2020-12-11 杭州中奥科技有限公司 文本抽取方法、装置、计算机设备和可读存储介质
CN112069319B (zh) * 2020-09-10 2024-03-22 杭州中奥科技有限公司 文本抽取方法、装置、计算机设备和可读存储介质
CN114386411A (zh) * 2020-10-16 2022-04-22 北京金山数字娱乐科技有限公司 一种关系抽取方法及装置
CN112364166A (zh) * 2020-11-02 2021-02-12 北京中科凡语科技有限公司 关系抽取模型的建立方法以及关系抽取方法
CN112560491B (zh) * 2020-12-11 2024-03-19 北京百炼智能科技有限公司 一种基于ai技术的信息抽取方法、装置和存储介质
CN112560491A (zh) * 2020-12-11 2021-03-26 北京百炼智能科技有限公司 一种基于ai技术的信息抽取方法、装置和存储介质
CN112559770A (zh) * 2020-12-15 2021-03-26 北京邮电大学 文本数据的关系抽取方法、装置、设备及可读存储介质
CN112732993B (zh) * 2020-12-31 2024-03-08 京东科技控股股份有限公司 数据处理方法、装置、计算机设备和存储介质
CN112732993A (zh) * 2020-12-31 2021-04-30 京东数字科技控股股份有限公司 数据处理方法、装置、计算机设备和存储介质
CN112819622A (zh) * 2021-01-26 2021-05-18 深圳价值在线信息科技股份有限公司 一种信息的实体关系联合抽取方法、装置及终端设备
CN112819622B (zh) * 2021-01-26 2023-10-17 深圳价值在线信息科技股份有限公司 一种信息的实体关系联合抽取方法、装置及终端设备
CN113157880A (zh) * 2021-03-25 2021-07-23 科大讯飞股份有限公司 一种要素内容获取方法、装置、设备及存储介质
CN113157880B (zh) * 2021-03-25 2023-01-17 科大讯飞股份有限公司 一种要素内容获取方法、装置、设备及存储介质
WO2022198868A1 (zh) * 2021-03-26 2022-09-29 深圳壹账通智能科技有限公司 开放式实体关系的抽取方法、装置、设备及存储介质
CN113064973A (zh) * 2021-04-12 2021-07-02 平安国际智慧城市科技股份有限公司 文本分类方法、装置、设备及存储介质
CN113051356B (zh) * 2021-04-21 2023-05-30 深圳壹账通智能科技有限公司 开放关系抽取方法、装置、电子设备及存储介质
CN113051356A (zh) * 2021-04-21 2021-06-29 深圳壹账通智能科技有限公司 开放关系抽取方法、装置、电子设备及存储介质
CN113312907A (zh) * 2021-06-18 2021-08-27 广东工业大学 基于混合神经网络的远程监督关系抽取方法及装置
CN113723074B (zh) * 2021-08-27 2023-04-18 国网山东省电力公司信息通信公司 一种基于证据检验增强的文档级关系抽取方法
CN113723074A (zh) * 2021-08-27 2021-11-30 国网山东省电力公司信息通信公司 一种基于证据检验增强的文档级关系抽取方法
CN113743121B (zh) * 2021-09-08 2023-11-21 平安科技(深圳)有限公司 长文本实体关系抽取方法、装置、计算机设备及存储介质
CN113743121A (zh) * 2021-09-08 2021-12-03 平安科技(深圳)有限公司 长文本实体关系抽取方法、装置、计算机设备及存储介质
CN113901151B (zh) * 2021-09-30 2023-07-04 北京有竹居网络技术有限公司 用于关系抽取的方法、装置、设备和介质
CN113901151A (zh) * 2021-09-30 2022-01-07 北京有竹居网络技术有限公司 用于关系抽取的方法、装置、设备和介质
CN114372462A (zh) * 2021-12-15 2022-04-19 城云科技(中国)有限公司 事件陈述文本的关键信息提取方法、装置及应用
CN115438658A (zh) * 2022-11-08 2022-12-06 浙江大华技术股份有限公司 一种实体识别方法、识别模型的训练方法和相关装置
CN115545578A (zh) * 2022-12-01 2022-12-30 南京迈能能源科技有限公司 一种电力调度操作指令信息抽取方法及系统

Similar Documents

Publication Publication Date Title
CN111324743A (zh) 文本关系抽取的方法、装置、计算机设备及存储介质
CN112242187B (zh) 基于知识图谱表征学习的医疗方案推荐系统及方法
US11062090B2 (en) Method and apparatus for mining general text content, server, and storage medium
CN110781276B (zh) 文本抽取方法、装置、设备及存储介质
CN110489538B (zh) 基于人工智能的语句应答方法、装置及电子设备
EP3832519A1 (en) Method and apparatus for evaluating translation quality
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
CN110795552B (zh) 一种训练样本生成方法、装置、电子设备及存储介质
US20220253599A1 (en) Answer classifier and representation generator for question-answering system, and computer program for training the representation generator
CN112632226B (zh) 基于法律知识图谱的语义搜索方法、装置和电子设备
CN112287069B (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN112036168B (zh) 事件主体识别模型优化方法、装置、设备及可读存储介质
CN112487139A (zh) 基于文本的自动出题方法、装置及计算机设备
CN111274797A (zh) 用于终端的意图识别方法、装置、设备及存储介质
CN110222168B (zh) 一种数据处理的方法及相关装置
CN110222328B (zh) 基于神经网络的分词和词类标注方法、装置、设备及存储介质
CN111144102B (zh) 用于识别语句中实体的方法、装置和电子设备
CN110399547B (zh) 用于更新模型参数的方法、装置、设备和存储介质
CN110852071B (zh) 知识点检测方法、装置、设备及可读存储介质
CN112581327A (zh) 基于知识图谱的法律推荐方法、装置和电子设备
CN110659392B (zh) 检索方法及装置、存储介质
CN109408175B (zh) 通用高性能深度学习计算引擎中的实时交互方法及系统
CN113220854B (zh) 机器阅读理解的智能对话方法及装置
CN113505786A (zh) 试题拍照评判方法、装置及电子设备
CN110362592B (zh) 裁决指引信息推送方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination