CN112395880B - 结构化三元组的纠错方法、装置、计算机设备及存储介质 - Google Patents

结构化三元组的纠错方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN112395880B
CN112395880B CN202011306572.4A CN202011306572A CN112395880B CN 112395880 B CN112395880 B CN 112395880B CN 202011306572 A CN202011306572 A CN 202011306572A CN 112395880 B CN112395880 B CN 112395880B
Authority
CN
China
Prior art keywords
triple
knowledge
character
triple knowledge
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011306572.4A
Other languages
English (en)
Other versions
CN112395880A (zh
Inventor
程华东
张翔
侯翠琴
李剑锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202011306572.4A priority Critical patent/CN112395880B/zh
Publication of CN112395880A publication Critical patent/CN112395880A/zh
Priority to PCT/CN2021/097097 priority patent/WO2022105181A1/zh
Application granted granted Critical
Publication of CN112395880B publication Critical patent/CN112395880B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了结构化三元组的纠错方法、装置、计算机设备及存储介质,方法包括:构建三元组样本集;将所述三元组样本集中的样本输入至预设的GPT2语言模型,并利用所述GPT2语言模型对所述三元组样本集中的样本进行识别,输出拼接的三元组知识集合Y,其中,三元组知识集合包括若干子三元组知识;根据预设规则对三元组知识集合Y进行切分,得到多个单个的目标三元组知识并输出。本发明通过GPT2语言模型生成正确的三元组,准确率高、效率高,并且所需标注数据量较低,可减少人工标注的成本。

Description

结构化三元组的纠错方法、装置、计算机设备及存储介质
技术领域
本发明涉及人工智能技术领域,特别涉及结构化三元组的纠错方法、装置、计算机设备及存储介质。
背景技术
在知识结构化或者构建知识图谱的过程中,需要获取三元组知识。通常的方法通过信息抽取的方式先识别出实体、再识别实体与实体之间的关系,这类方法由于关系集合是固定的,并且通过命名实体识别模型识别实体通常具有很高的准确率,所以不存在关系错误的问题。但是,这一类的方法都需要大量的人工标注模型训练语料,而且需要丰富的领域知识。各语料环境中存在大量的三元组知识,比如百度百科的infobox的数据、表格数据都是由专业人士编纂的具有高质量领域知识的结构化知识,但这类知识的缺点是格式不统一,专业人士在编纂时没有统一的要求,由于每个人对知识理解的偏差,这类数据存在一定的错误,且目前没有高效准确的方法对此进行纠错。
发明内容
本发明的目的是提供结构化三元组的纠错方法、装置、计算机设备及存储介质,旨在解决现有技术中结构化三元组知识的错误难以纠正的问题。
第一方面,本发明实施例提供一种结构化三元组的纠错方法,其中,包括:
构建三元组样本集;
将所述三元组样本集中的样本输入至预设的GPT2语言模型,并利用所述GPT2语言模型对所述三元组样本集中的样本进行识别,输出拼接的三元组知识集合Y,其中,所述三元组知识集合包括若干子三元组知识;
根据预设规则对所述三元组知识集合Y进行切分,得到多个单个的目标三元组知识并输出。
第二方面,本发明实施例提供一种结构化三元组的纠错装置,其中,包括:
构建单元,用于构建三元组样本集;
识别输出单元,用于将所述三元组样本集中的样本输入至预设的GPT2语言模型,并利用所述GPT2语言模型对所述三元组样本集中的样本进行识别,输出拼接的三元组知识集合Y,其中,所述三元组知识集合包括若干子三元组知识;
切分单元,用于根据预设规则对所述三元组知识集合Y进行切分,得到多个单个的目标三元组知识并输出。
第三方面,本发明实施例提供一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如第一方面所述的结构化三元组的纠错方法。
第四方面,本发明实施例提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如第一方面所述的结构化三元组的纠错方法。
本发明实施例提供了结构化三元组的纠错方法、装置、计算机设备及存储介质,方法包括:构建三元组样本集;将所述三元组样本集中的样本输入至预设的GPT2语言模型,并利用所述GPT2语言模型对所述三元组样本集中的样本进行识别,输出拼接的三元组知识集合Y,其中,所述三元组知识集合包括若干子三元组知识;根据预设规则对所述三元组知识集合Y进行切分,得到多个单个的目标三元组知识并输出。本发明实施例通过GPT2语言模型来生成正确的三元组,其准确率高、效率高,并且所需标注数据量较低,可减少人工标注的成本。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的结构化三元组的纠错方法的流程示意图;
图2为本发明实施例提供的结构化三元组的纠错方法的子流程示意图;
图3为本发明实施例提供的结构化三元组的纠错方法的又一子流程示意图;
图4为本发明实施例提供的结构化三元组的纠错方法的又一子流程示意图;
图5为本发明实施例提供的结构化三元组的纠错方法的又一子流程示意图;
图6为本发明实施例提供的结构化三元组的纠错方法的又一子流程示意图;
图7为本发明实施例提供的结构化三元组的纠错装置的示意性框图;
图8为本发明实施例提供的结构化三元组的纠错装置的子单元示意性框图;
图9为本发明实施例提供的结构化三元组的纠错装置的又一子单元示意性框图;
图10为本发明实施例提供的结构化三元组的纠错装置的又一子单元示意性框图;
图11为本发明实施例提供的结构化三元组的纠错装置的又一子单元示意性框图;
图12为本发明实施例提供的结构化三元组的纠错装置的又一子单元示意性框图;
图13为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1为本发明实施例一种结构化三元组的纠错方法的流程示意图,其包括步骤S101~S103:
S101、构建三元组样本集;
本发明实施例中三元组样本集中的样本结构为X=(head-entity,s-relation,s-real),其中,head-entity表示三元组知识样本X的原始头实体,s-relation表示三元组知识样本X的原始关系,s-real表示三元组知识样本X的原始尾实体,其中的原始关系即代表属性。
例如对于一个三元组知识样本(宝积庵,1925年住持僧,正信),head-entity=宝积庵,s-relation=1925年住持僧,s-real=正信。可以看到将head-entity,s-relation,s-real拼接在一起是一句简单、不缺失成分的句子,如宝积庵1925年住持僧正信,这句话虽然是个句子,但是不太通顺,为了解决上述问题,本发明实施例采用GPT2语言模型来识别出这类错误的关系。
S102、将所述三元组样本集中的样本输入至预设的GPT2语言模型,并利用所述GPT2语言模型对所述三元组样本集中的样本进行识别,输出拼接的三元组知识集合Y,其中,所述三元组知识集合包括若干子三元组知识;
本发明实施例中,利用三元组样本集中的样本对所述GPT2语言模型进行学习训练,即利用GPT2语言模型对所述三元组样本集中的样本进行识别,从而输出正确的三元组知识。
在一实施例中,所述步骤S102包括步骤S201~S205:
S201、分别在所述三元组知识样本的原始头实体、原始关系和原始尾实体之间插入分隔符;
例如所述分隔符为<s>,表示空格,因为本发明实施例的目的是纠错,需要使用<s>来表示三元组构成句子之间的间隔。
这样,三元组知识样本X的结构为:X=head-entity+<s>+s-relation+<s>+s-real。
S202、在所述三元组知识样本的原始尾实体之后添加界定符号,并在所述原始尾实体与所述界定符号之间插入所述分隔符;
例如所述界定符号为<MASK>,所述分隔符为<s>。
这样,三元组知识样本X的结构变为:X=head-entity+<s>+s-relation+<s>+s-real+<s>+<MASK>。
界定符号表示三元组知识样本X编码结束,开始预测Y。
S203、从所述界定符号之后,利用所述三元组知识样本自回归预测与所述界定符号相邻的第一字符,并在所述第一字符后添加所述分隔符;
S204、从所述第一字符开始,每次将前一个字符与所述三元组知识样本进行拼接并自回归预测当前字符,并在所述当前字符后添加所述分隔符,并在每次形成一个子三元组知识时,以一个间隔符代替对应的分隔符,直到预测到终止符<T>的位置,停止预测;
当检测到界定符号时,即开始预测第一字符next_1,具体可将该第一字符next_1添加到所述界定符号之后,并在所述第一字符next_1后添加分隔符<s>,然后在后续步骤中继续预测第二字符next_2及后续的字符。
在一实施例中,如图3所示,所述每次将前一个字符与所述三元组知识样本进行拼接并自回归预测当前字符,包括步骤S301~S304:
S301、从嵌入矩阵中查找各备选字符对应的嵌入向量,并为所述嵌入向量引入用于表示顺序的位置编码,得到位置编码矩阵;
本步骤中,是从嵌入矩阵中查找到各个备选字符对应的嵌入向量,并且为嵌入向量引入位置编码,该位置编码可以表示嵌入向量的顺序,从而得到由位置编码构成的位置编码矩阵。
S302、将各所述备选字符输入至自注意力层,然后传递至神经网络层,输出特征向量;
此步骤是将各备选字符输入到自注意力层,将自注意力层的处理结果传递到神经网络层,通过所述神经网络层输出特征向量。
在一实施例中,所述步骤S302包括:
将各所述备选字符输入至多个transformer模块中输出得到特征向量;其中,上一个transformer模块输出的特征向量作为当前transformer模块的输入,且经过当前transformer模块的自注意力层处理之后,将处理结果传递至所述当前transformer模块的神经网络层处理,输出得到当前transformer模块的特征向量
具体的,将各所述备选字符输入至第一个transformer模块,经过所述第一个transformer模块的自注意力层处理之后,将处理结果传递至所述第一个transformer模块的神经网络层处理,得到第一特征向量;
本发明实施例中,是通过多个transformer模块来完成特征向量的输出。具体的,对于第一个transformer模块,可以先经过其自注意力层处理,然后将处理结果传递到其神经网络层处理,得到对应的第一特征向量。
将所述第一特征向量输入至第二个transformer模块,经过所述第二个transformer模块的自注意力层处理之后,将处理结果传递至所述第二个transformer模块的神经网络层处理,得到第二特征向量;
对于第一个特征向量,其可输入到第二个transformer模块,然后经过与第一transformer模块同样的处理,从而得到第二特征向量。对于第二特征向量,其会输入到第三个transformer模块,然后经过与第一transformer模块同样的处理,从而得到第三特征向量,以此类推,经过最后一个transformer模块的处理之后,便得到最终的特征向量。
S303、根据所述位置编码矩阵的位置编码查找对应的嵌入向量,并将所述特征向量乘以对应的嵌入向量,得到注意力得分;
此步骤中,将备选字符对应的嵌入向量与特征向量相乘,便得到该备选字符的注意力得分。通过上述方式,便可得到多个备选字符的注意力得分。
S304、根据各所述备选字符的注意力得分选取一个注意力得分高的字符作为预测到的当前字符。
根据各个备选字符的注意力得分,来选取一个字符作为预测到的当前字符。选取的方式,可以有多种,下面提供两种方式来选取。
在一实施例中,如图4所示,所述步骤S304包括步骤S401~S402:
S401、获取各所述备选字符的注意力得分;
S402、选取注意力得分最高的一个备选字符作为预测到的当前字符。
在本实施例中,直接根据注意力得分的高低来进行选取,即选择其中注意力得分最高的一个备选字符作为预测到的当前字符。
在一实施例中,如图5所示,所述步骤S304包括步骤S501~S502:
S501、选取注意力得分超过预设得分阈值的多个备选字符;
S502、对所选取的多个备选字符的注意力得分进行归一化,将归一化后的值作为概率,并按照所述概率从所选取的多个备选字符随机选择一个备选字符作为预测到的当前字符。
在本实施例中,是先根据预设得分阈值选择多个备选字符,这些备选字符实际上都比较贴近真实值,所以本发明实施例先将这些备选字符的注意力得分进行归一化,然后将归一化后的值作为概率,然后按照各个备选字符的概率进行随机选择,概率高的选中的机会大,概率低的选中的机会小,这样这些备选字符都有被选中的机会,只是概率不同,这样可以选择一个备选字符作为预测到的当前字符。
本步骤中,可以将第一字符next_1与所述三元组知识样本X进行拼接,然后按照前述预测第一字符next_1同样的方式,来预测第二字符next_2。
本步骤中,可以将第二字符next_2与所述三元组知识样本X进行拼接,然后按照前述预测第一字符next_1同样的方式,来预测第三字符next_3。
本发明实施例每次在预测下一个字符时,都在其后添加分隔符。
以此类推,并在每次形成一个子三元组知识时,以一个间隔符代替对应的分隔符,直到预测到终止符<T>的位置。
<T>表示终止符,在预测阶段根据这个符号来结束模型的预测。
由于一个原始的三元组知识可以生成多条新的三元组知识,所以采用间隔符表示新的三元组知识相互之间的间隔,以便后续根据这个符号分割字符串得到需要的三元组知识。所述间隔符可以是<SEP>。
S205、将所有预测到的字符进行拼接,得到三元组知识集合Y。
本发明实施例中,将预测得到的所有字符拼接在一起,可以得到三元组知识集合Y=next_1,next_2,…,next_K。
S103、根据预设规则对所述三元组知识集合Y进行切分,得到多个单个的目标三元组知识并输出。
本发明实施例可以对所述三元组知识集合Y进行切分,切分的方式可以按照前述插入的符号来进行。
在一实施例中,如图6所示,所述步骤S103包括步骤S601~S602:
S601、按照所述间隔符对所述三元组知识集合Y进行切分,得到多个单个的目标三元组知识;
首先,所述间隔符的作用是分隔单个三元组知识,所以先根据间隔符的位置,来切分得到多个单个的目标三元组知识。
S602、根据所述分隔符对每个所述单个的目标三元组知识进行切分,得到每个所述单个的目标三元组知识的头实体、关系和尾实体。
此步骤中,对于单个的目标三元组知识而言,可以利用所述分隔符来进行切分,从而得到目标三元组知识的头实体、关系(即属性)和尾实体。
以表1为例,其中包含了多个错误的结构化三元组。
表1
Figure BDA0002788483140000081
在表1中,(禅佛寺石窟,占地面积,长15米,宽4米,高5米)三元组知识中占地面积是错误的,因为占地面积的尾实体应该是多少平方。这个三元组中包含三条三元组知识(禅佛寺石窟,深,15米)、(禅佛寺石窟,宽,4米)、(禅佛寺石窟,高,5米),占地面积数据可以基于这三个属性进行推理:占地面积=长*宽,还可以得到新三元组知识:体积=长*宽*高。
经过本发明实施例的纠错方法,最终得到如下表2所示的新的三元组知识。
表2
Figure BDA0002788483140000091
Figure BDA0002788483140000101
请参阅图7,图7为本发明实施例一种结构化三元组的纠错装置的示意性框图,所述结构化三元组的纠错装置700包括:
构建单元701,用于构建三元组样本集;
识别输出单元702,用于将所述三元组样本集中的样本输入至预设的GPT2语言模型,并利用所述GPT2语言模型对所述三元组样本集中的样本进行识别,输出拼接的三元组知识集合Y,其中,所述三元组知识集合包括若干子三元组知识;
切分单元703,用于根据预设规则对所述三元组知识集合Y进行切分,得到多个单个的目标三元组知识并输出。
在一实施例中,如图8所示,所述识别输出单元702包括:
第一插入单元801,用于分别在所述三元组知识样本的原始头实体、原始关系和原始尾实体之间插入分隔符;
第二插入单元802,用于在所述三元组知识样本的原始尾实体之后添加界定符号,并在所述原始尾实体与所述界定符号之间插入所述分隔符;
第一预测单元803,用于从所述界定符号之后,利用所述三元组知识样本自回归预测与所述界定符号相邻的第一字符,并在所述第一字符后添加所述分隔符;
第二预测单元804,用于从所述第一字符开始,每次将前一个字符与所述三元组知识样本进行拼接并自回归预测当前字符,并在所述当前字符后添加所述分隔符,并在每次形成一个子三元组知识时,以一个间隔符代替对应的分隔符,直到预测到终止符<T>的位置,停止预测;
拼接单元805,用于将所有预测到的字符进行拼接,得到三元组知识集合Y。
在一实施例中,如图9所示,所述切分单元703包括:
第一切分单元901,用于按照所述间隔符对所述三元组知识集合Y进行切分,得到多个单个的目标三元组知识;
第二切分单元902,用于根据所述分隔符对每个所述单个的目标三元组知识进行切分,得到每个所述单个的目标三元组知识的头实体、关系和尾实体。
在一实施例中,如图10所示,所述第二预测单元804包括:
查找单元1001,用于从嵌入矩阵中查找各备选字符对应的嵌入向量,并为所述嵌入向量引入用于表示顺序的位置编码,得到位置编码矩阵;
特征处理单元1002,用于将各所述备选字符输入至自注意力层,然后传递至神经网络层,输出特征向量;
注意力计算单元1003,用于根据所述位置编码矩阵的位置编码查找对应的嵌入向量,并将所述特征向量乘以对应的嵌入向量,得到注意力得分;
选取单元1004,用于根据各所述备选字符的注意力得分选取一个注意力得分高的字符作为预测到的当前字符。
在一实施例中,所述特征处理单元1002包括:
transformer处理单元,用于将各所述备选字符输入至多个transformer模块中输出得到特征向量;其中,上一个transformer模块输出的特征向量作为当前transformer模块的输入,且经过当前transformer模块的自注意力层处理之后,将处理结果传递至所述当前transformer模块的神经网络层处理,输出得到当前transformer模块的特征向量。
在一实施例中,如图11所示,所述选取单元1004包括:
注意力得分获取单元1101,用于获取各所述备选字符的注意力得分;
第一选取单元1102,用于选取注意力得分最高的一个备选字符作为预测到的当前字符。
在一实施例中,如图12所示,所述选取单元1004包括:
备选字符筛选单元1201,用于选取注意力得分超过预设得分阈值的多个备选字符;
第二选取单元1202,用于对所选取的多个备选字符的注意力得分进行归一化,将归一化后的值作为概率,并按照所述概率从所选取的多个备选字符随机选择一个备选字符作为预测到的当前字符。
本发明实施例提供的装置,通过GPT2语言模型来生成正确的三元组,其准确率高、效率高,并且所需标注数据量较低,可减少人工标注的成本。
上述结构化三元组的纠错装置700可以实现为计算机程序的形式,该计算机程序可以在如图13所示的计算机设备上运行。
请参阅图13,图13是本发明实施例提供的计算机设备的示意性框图。该计算机设备1300是服务器,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图13,该计算机设备1300包括通过系统总线1301连接的处理器1302、存储器和网络接口1305,其中,存储器可以包括非易失性存储介质1303和内存储器1304。
该非易失性存储介质1303可存储操作系统13031和计算机程序13032。该计算机程序13032被执行时,可使得处理器1302执行结构化三元组的纠错方法。
该处理器1302用于提供计算和控制能力,支撑整个计算机设备1300的运行。
该内存储器1304为非易失性存储介质1303中的计算机程序13032的运行提供环境,该计算机程序13032被处理器1302执行时,可使得处理器1302执行结构化三元组的纠错方法。
该网络接口1305用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图13中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备1300的限定,具体的计算机设备1300可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器1302用于运行存储在存储器中的计算机程序13032,以实现如下功能:构建三元组样本集;将所述三元组样本集中的样本输入至预设的GPT2语言模型,并利用所述GPT2语言模型对所述三元组样本集中的样本进行识别,输出拼接的三元组知识集合Y,其中,三元组知识集合包括若干子三元组知识;根据预设规则对三元组知识集合Y进行切分,得到多个单个的目标三元组知识并输出。
本领域技术人员可以理解,图13中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图13所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器1302可以是中央处理单元(CentralProcessing Unit,CPU),该处理器1302还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现以下步骤:构建三元组样本集;将所述三元组样本集中的样本输入至预设的GPT2语言模型,并利用所述GPT2语言模型对所述三元组样本集中的样本进行识别,输出拼接的三元组知识集合Y,其中,三元组知识集合包括若干子三元组知识;根据预设规则对三元组知识集合Y进行切分,得到多个单个的目标三元组知识并输出。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (8)

1.一种结构化三元组的纠错方法,其特征在于,包括:
构建三元组样本集;
将所述三元组样本集中的三元组知识样本输入至预设的GPT2语言模型,并利用所述GPT2语言模型对所述三元组样本集中的三元组知识样本进行识别,输出拼接的三元组知识集合Y,其中,所述三元组知识集合包括若干子三元组知识,一个三元组知识样本生成多条子三元组知识;
根据预设规则对所述三元组知识集合Y进行切分,得到多个单个的目标三元组知识并输出;
所述将所述三元组样本集中的三元组知识样本输入至预设的GPT2语言模型,并利用所述GPT2语言模型对所述三元组样本集中的三元组知识样本进行识别,输出拼接的三元组知识集合Y,其中,所述三元组知识集合包括若干子三元组知识,包括:
分别在所述三元组知识样本的原始头实体、原始关系和原始尾实体之间插入分隔符;
在所述三元组知识样本的原始尾实体之后添加界定符号,并在所述原始尾实体与所述界定符号之间插入所述分隔符;
从所述界定符号之后,利用所述三元组知识样本自回归预测与所述界定符号相邻的第一字符,并在所述第一字符后添加所述分隔符;
从所述第一字符开始,每次将前一个字符与所述三元组知识样本进行拼接并自回归预测当前字符,并在所述当前字符后添加所述分隔符,并在每次形成一个子三元组知识时,以一个间隔符代替对应的分隔符,直到预测到终止符<T>的位置,停止预测;
将所有预测到的字符进行拼接,得到三元组知识集合Y;
所述每次将前一个字符与所述三元组知识样本进行拼接并自回归预测当前字符,包括:
从嵌入矩阵中查找各备选字符对应的嵌入向量,并为所述嵌入向量引入用于表示顺序的位置编码,得到位置编码矩阵;
将各所述备选字符输入至自注意力层,然后传递至神经网络层,输出特征向量;
根据所述位置编码矩阵的位置编码查找对应的嵌入向量,并将所述特征向量乘以对应的嵌入向量,得到注意力得分;
根据各所述备选字符的注意力得分选取一个注意力得分高的字符作为预测到的当前字符。
2.根据权利要求1所述的结构化三元组的纠错方法,其特征在于,所述根据预设规则对所述三元组知识集合Y进行切分,得到多个单个的目标三元组知识并输出,包括:
按照所述间隔符对所述三元组知识集合Y进行切分,得到多个单个的目标三元组知识;
根据所述分隔符对每个所述单个的目标三元组知识进行切分,得到每个所述单个的目标三元组知识的头实体、关系和尾实体。
3.根据权利要求1所述的结构化三元组的纠错方法,其特征在于,所述根据各所述备选字符的注意力得分选取一个注意力得分高的字符作为预测到的当前字符,包括:
获取各所述备选字符的注意力得分;
选取注意力得分最高的一个备选字符作为预测到的当前字符。
4.根据权利要求1所述的结构化三元组的纠错方法,其特征在于,所述根据各所述备选字符的注意力得分选取一个注意力得分高的字符作为预测到的当前字符,包括:
选取注意力得分超过预设得分阈值的多个备选字符;
对所选取的多个备选字符的注意力得分进行归一化,将归一化后的值作为概率,并按照所述概率从所选取的多个备选字符随机选择一个备选字符作为预测到的当前字符。
5.根据权利要求1所述的结构化三元组的纠错方法,其特征在于,所述将各所述备选字符输入至自注意力层,然后传递至神经网络层,输出特征向量,包括:
将各所述备选字符输入至多个transformer模块中输出得到特征向量;其中,上一个transformer模块输出的特征向量作为当前transformer模块的输入,且经过当前transformer模块的自注意力层处理之后,将处理结果传递至所述当前transformer模块的神经网络层处理,输出得到当前transformer模块的特征向量。
6.一种结构化三元组的纠错装置,其特征在于,包括:
构建单元,用于构建三元组样本集;
识别输出单元,用于将所述三元组样本集中的三元组知识样本输入至预设的GPT2语言模型,并利用所述GPT2语言模型对所述三元组样本集中的三元组知识样本进行识别,输出拼接的三元组知识集合Y,其中,所述三元组知识集合包括若干子三元组知识,一个三元组知识样本生成多条子三元组知识;
切分单元,用于根据预设规则对所述三元组知识集合Y进行切分,得到多个单个的目标三元组知识并输出;
所述识别输出单元包括:
第一插入单元,用于分别在所述三元组知识样本的原始头实体、原始关系和原始尾实体之间插入分隔符;
第二插入单元,用于在所述三元组知识样本的原始尾实体之后添加界定符号,并在所述原始尾实体与所述界定符号之间插入所述分隔符;
第一预测单元,用于从所述界定符号之后,利用所述三元组知识样本自回归预测与所述界定符号相邻的第一字符,并在所述第一字符后添加所述分隔符;
第二预测单元,用于从所述第一字符开始,每次将前一个字符与所述三元组知识样本进行拼接并自回归预测当前字符,并在所述当前字符后添加所述分隔符,并在每次形成一个子三元组知识时,以一个间隔符代替对应的分隔符,直到预测到终止符<T>的位置,停止预测;
拼接单元,用于将所有预测到的字符进行拼接,得到三元组知识集合Y;
所述第二预测单元包括:
查找单元,用于从嵌入矩阵中查找各备选字符对应的嵌入向量,并为所述嵌入向量引入用于表示顺序的位置编码,得到位置编码矩阵;
特征处理单元,用于将各所述备选字符输入至自注意力层,然后传递至神经网络层,输出特征向量;
注意力计算单元,用于根据所述位置编码矩阵的位置编码查找对应的嵌入向量,并将所述特征向量乘以对应的嵌入向量,得到注意力得分;
选取单元,用于根据各所述备选字符的注意力得分选取一个注意力得分高的字符作为预测到的当前字符。
7.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的结构化三元组的纠错方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至5任一项所述的结构化三元组的纠错方法。
CN202011306572.4A 2020-11-19 2020-11-19 结构化三元组的纠错方法、装置、计算机设备及存储介质 Active CN112395880B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011306572.4A CN112395880B (zh) 2020-11-19 2020-11-19 结构化三元组的纠错方法、装置、计算机设备及存储介质
PCT/CN2021/097097 WO2022105181A1 (zh) 2020-11-19 2021-05-31 结构化三元组的纠错方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011306572.4A CN112395880B (zh) 2020-11-19 2020-11-19 结构化三元组的纠错方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN112395880A CN112395880A (zh) 2021-02-23
CN112395880B true CN112395880B (zh) 2022-02-11

Family

ID=74606750

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011306572.4A Active CN112395880B (zh) 2020-11-19 2020-11-19 结构化三元组的纠错方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN112395880B (zh)
WO (1) WO2022105181A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395880B (zh) * 2020-11-19 2022-02-11 平安科技(深圳)有限公司 结构化三元组的纠错方法、装置、计算机设备及存储介质
CN115545006B (zh) * 2022-10-10 2024-02-13 清华大学 规则脚本生成方法、装置、计算机设备及介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107783960B (zh) * 2017-10-23 2021-07-23 百度在线网络技术(北京)有限公司 用于抽取信息的方法、装置和设备
EP3483746A1 (en) * 2017-11-09 2019-05-15 Snips Methods and devices for generating data to train a natural language understanding component
CN109902171B (zh) * 2019-01-30 2020-12-25 中国地质大学(武汉) 基于分层知识图谱注意力模型的文本关系抽取方法及系统
CN110609986B (zh) * 2019-09-30 2022-04-05 哈尔滨工业大学 一种基于预训练的结构化数据生成文本的方法
CN110825882B (zh) * 2019-10-09 2022-03-01 西安交通大学 一种基于知识图谱的信息系统管理方法
CN111476031A (zh) * 2020-03-11 2020-07-31 重庆邮电大学 一种基于Lattice-LSTM的改进中文命名实体识别方法
CN111507083B (zh) * 2020-06-19 2023-12-12 科大讯飞(苏州)科技有限公司 文本解析方法、装置、设备及存储介质
CN112395880B (zh) * 2020-11-19 2022-02-11 平安科技(深圳)有限公司 结构化三元组的纠错方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
WO2022105181A1 (zh) 2022-05-27
CN112395880A (zh) 2021-02-23

Similar Documents

Publication Publication Date Title
CN111309915B (zh) 联合学习的自然语言训练方法、系统、设备及存储介质
CN111222317B (zh) 序列标注方法、系统和计算机设备
CN111222305B (zh) 一种信息结构化方法和装置
CN110020424B (zh) 合同信息的提取方法、装置和文本信息的提取方法
CN110795938B (zh) 文本序列分词方法、装置及存储介质
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
CN110717039A (zh) 文本分类方法和装置、电子设备、计算机可读存储介质
CN111444320A (zh) 文本检索方法、装置、计算机设备和存储介质
CN111581229A (zh) Sql语句的生成方法、装置、计算机设备及存储介质
CN112395880B (zh) 结构化三元组的纠错方法、装置、计算机设备及存储介质
WO2023045184A1 (zh) 一种文本类别识别方法、装置、计算机设备及介质
CN114026556A (zh) 义素预测方法、计算机设备和存储介质背景
CN112668333A (zh) 命名实体的识别方法和设备、以及计算机可读存储介质
CN114626380A (zh) 实体识别的方法和装置、电子设备和存储介质
CN110263345B (zh) 关键词提取方法、装置及存储介质
CN113204956B (zh) 多模型训练方法、摘要分段方法、文本分段方法及装置
CN110852071A (zh) 知识点检测方法、装置、设备及可读存储介质
CN112599211B (zh) 一种医疗实体关系抽取方法及装置
CN114911814A (zh) 一种基于知识资源库更新的咨询服务方法及系统
CN111339776B (zh) 简历解析方法、装置、电子设备和计算机可读存储介质
CN111967253A (zh) 一种实体消歧方法、装置、计算机设备及存储介质
CN115526177A (zh) 对象关联模型的训练
CN113011162A (zh) 一种指代消解方法、装置、电子设备及介质
CN111753548A (zh) 信息获取方法及装置、计算机存储介质、电子设备
US11868737B2 (en) Method and server for processing text sequence for machine processing task

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40041524

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant