CN113627193A - 中文文本中指代关系的确定方法、装置、设备及介质 - Google Patents

中文文本中指代关系的确定方法、装置、设备及介质 Download PDF

Info

Publication number
CN113627193A
CN113627193A CN202110926242.3A CN202110926242A CN113627193A CN 113627193 A CN113627193 A CN 113627193A CN 202110926242 A CN202110926242 A CN 202110926242A CN 113627193 A CN113627193 A CN 113627193A
Authority
CN
China
Prior art keywords
target
attention
matrix
pronoun
chinese text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110926242.3A
Other languages
English (en)
Other versions
CN113627193B (zh
Inventor
吴予豪
张健
纪达麒
陈运文
王子豪
王璐
邱家辉
韩伟
陈志刚
唐家英
徐雪帆
刘光启
王子
李宏亮
刘正欢
冯雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Datagrand Information Technology Shanghai Co ltd
Original Assignee
Datagrand Information Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Datagrand Information Technology Shanghai Co ltd filed Critical Datagrand Information Technology Shanghai Co ltd
Priority to CN202110926242.3A priority Critical patent/CN113627193B/zh
Publication of CN113627193A publication Critical patent/CN113627193A/zh
Application granted granted Critical
Publication of CN113627193B publication Critical patent/CN113627193B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种中文文本中指代关系的确定方法、装置、设备及介质。该方法包括:获取目标中文文本,目标中文文本中包括待确定指代关系的目标名词和目标代词;将目标中文文本输入至预训练的,基于注意力机制的语义模型中,获取语义模型针对所述目标中文文本形成的至少一个注意力矩阵;根据各注意力矩阵,获取目标名词和目标代词之间的注意力指标,并根据注意力指标,确定目标代词和目标名词之间是否存在指代关系。通过本发明实施例的技术方案,能够直接对输入的目标中文文本数据进行预测,判断目标名词和目标代词间是否存在指代关系,不需要构建复杂的训练样本,也无需训练复杂的指代关系确定模型,提高了指代关系的判断效率。

Description

中文文本中指代关系的确定方法、装置、设备及介质
技术领域
本发明实施例涉及自然语言处理领域,尤其涉及一种中文文本中指代关系的确定方法、装置、设备及介质。
背景技术
自然语言中经常会出现一条文本中的若干段短语指代同一个人或事物的情况。当这些信息出现时,人类往往可以根据已有的知识和上下文信息发现它们代表的是共同的内容。然而,使用计算机进行语言分析,理解文中每个名词和代词间的指代关系,是一个比较困难的课题。
现有技术中通常使用构造监督学习的算法识别一段文本中指代相同对象的部分,即使用一套标注好的数据集训练一个能够处理指定问题的模型。
然而,最终识别结果与监督学习的数据集中正确标注的数据数量有密切关系,正确标注数据越多,则模型的预测也就越准,导致不但要有标注人员去支持大量的数据标注工作,还需花费大量成本对计算机进行配置;此外,由于中文文本的结构和表达更加灵活,在分词上容易出现错误,词性标注和语法分析也很复杂,导致现有的英文指代关系确定方案无法直接应用至中文。
发明内容
本发明实施例提供一种中文文本中指代关系的确定方法、装置、设备及介质,以简单、高效的方法实现对中文文本中名词和代词间的指代关系的确定。
第一方面,本发明实施例提供了一种中文文本中指代关系的确定方法,包括:
获取目标中文文本,目标中文文本中包括待确定指代关系的目标名词和目标代词;
将目标中文文本输入至预训练的,基于注意力机制的语义模型中,获取语义模型针对所述目标中文文本形成的至少一个注意力矩阵;
根据各注意力矩阵,获取目标名词和目标代词之间的注意力指标,并根据所述注意力指标,确定目标代词和目标名词之间是否存在指代关系。
第二方面,本发明实施例还提供了一种中文文本中指代关系的确定装置,该装置包括:
目标中文文本获取模块,用于获取目标中文文本,目标中文文本中包括待确定指代关系的目标名词和目标代词;
注意力矩阵形成模块,用于将目标中文文本输入至预训练的,基于注意力机制的语义模型中,获取语义模型针对所述目标中文文本形成的至少一个注意力矩阵;
指代关系判定模块,用于根据各注意力矩阵,获取目标名词和目标代词之间的注意力指标,并根据所述注意力指标,确定目标代词和目标名词之间是否存在指代关系。
第三方面,本发明实施例还提供了一种计算机设备,所述计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任一实施例所述的方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如本发明任一实施例所述的方法。
本发明实施例的技术方案,通过从基于注意力机制的语义模型中获取的目标中文文本的注意力矩阵,获取目标名词和目标代词之间的注意力指标,并根据注意力指标判定目标代词和目标名词之间是否存在指代关系,本发明实施例的技术方案在无需构建复杂的训练样本,也无需训练得到复杂的指代关系确定模型的前提下,仅使用已经成熟应用的语义模型,即可获取中文文本中指定名词和指定代词之间的关联关系,进而可以简单、高效的实现对中文文本中名词和代词间的指代关系的确定,提高了中文指代关系的确定效率。
附图说明
图1是本发明实施例一中的一种中文文本中指代关系的确定方法的流程图;
图2是本发明实施例二中的一种中文文本中指代关系的确定方法的流程图;
图3是本发明实施例三中的一种中文文本中指代关系的确定方法的流程图;
图4是本发明实施例四中的一种中文文本中指代关系的确定装置的结构示意图;
图5是本发明实施例五中的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种中文文本中指代关系的确定方法的流程图,本实施例可适用于对中文文本中代词和名词间的指代关系进行确定的情况,该方法可以由中文文本中指代关系的确定装置来执行,该装置可采用硬件和/或软件的方式实现,并一般可以集成在具有数据处理功能的计算机设备中,例如,终端或者服务器等,所述方法具体包括如下步骤:
S110、获取目标中文文本。
其中,目标中文文本中包括待确定指代关系的目标名词和目标代词,通常一个目标中文文本中包含一个目标名词和一个目标代词,目标代词出现在目标名词之后;目标中文文本由N个字符组成,目标名词为目标中文文本的一个子字符串,目标代词也为目标中文文本的一个子字符串。
其中,目标名词可以为目标中文文本中的一个或者多个字符,目标代词可以为目标中文文本中的一个或者多个字符,在所述目标中文文本中,目标名词位于目标代词之前。
S120、将目标中文文本输入至预训练的,基于注意力机制的语义模型中,获取语义模型针对所述目标中文文本形成的至少一个注意力矩阵。
其中,语义模型指的是已经预先在大量中文文本数据上基于注意力机制进行预训练的模型,例如,对中文优化过的BERT(Bidirectional Encoder Representations fromTransformers,基于转换器的双向编码表征)模型。
典型的,该BERT模型可以具体为:chinese-bert-wwm-ext(chinese-bidirectional encoder representations from transformer-whole word masking-extension,基于转换器的双向编码表征的中文全词覆盖扩展)模型。
在本实施例中,由于该语义模型是基于注意力机制实现的模型,因此,该语义模型中一般包括有一个或者多个自注意力层,当该语义模型中输入有一个中文文本进行相应的语义识别时,可以在语义模型的每个自注意力层中形成一个或者多个注意力矩阵。
其中,每个注意力矩阵均可用于衡量输入的各中文文本中各字符之间的注意力关系。例如,输入至语义模型中的中文文本为“早上好”,则在该语义模型的每个自注意力层中,均形成形如下表所示的一个或者多个注意力矩阵:
Figure BDA0003209378110000051
其中,注意力矩阵中的每个矩阵元素,反映了输入的中文文本中任意两个字符之间的注意力大小,可以理解的是,两个字符之间的注意力值越高,两者的关联性也越高。
在本发明实施例中,发明人正是通过了创造性的劳动,发现了现有的、基于注意力机制的语义模型可以直接获取中文字符间的注意力值,进而直接使用上述中文字符间的注意力值,挖掘得到指定名词和指定代词之间的注意力关系,进而有效判断该指定代词和指定名字之间是否存在指代关系。
S130、根据各注意力矩阵,获取目标名词和目标代词之间的注意力指标,并根据所述注意力指标,确定目标代词和目标名词之间是否存在指代关系。
其中,注意力指标指的是通过对各注意力矩阵进行数据处理后所得出的,用于衡量目标代词和目标名词之间的关联性的指标。
可以理解的是,目标代词与目标名词之间的注意力指标越大,或者说越明显高于目标代词与目标中文文本中其他字符或者词语的注意力大小,目标代词和目标名字之间存在指代关系的概率也越大,基于此,可以设定匹配的评价规则,基于该注意力指标,确定目标代词和目标名词之间是否存在指代关系。
本发明实施例的技术方案,通过从基于注意力机制的语义模型中获取的目标中文文本的注意力矩阵,获取目标名词和目标代词之间的注意力指标,并根据注意力指标判定目标代词和目标名词之间是否存在指代关系,本发明实施例的技术方案在无需构建复杂的训练样本,也无需训练得到复杂的指代关系确定模型的前提下,仅使用已经成熟应用的语义模型,即可获取中文文本中指定名词和指定代词之间的关联关系,进而可以简单、高效的实现对中文文本中名词和代词间的指代关系的确定,提高了中文指代关系的确定效率。
实施例二
图2为本发明实施例二提供的一种中文文本中指代关系的确定方法的流程图。本实施例以上述实施例为基础进行细化,在本实施例中,将获取语义模型针对目标中文文本形成的至少一个注意力矩阵,具体为:在所述语义模型中,以末位的多头自注意力层为起点,获取设定数量的目标多头自注意力层;获取各所述目标多头自注意力层中的包括的全部注意力头对应的各注意力矩阵。相应的,如图2所示,该方法包括以下具体步骤:
S210、获取目标中文文本。
S220、将目标中文文本输入至预训练的,基于注意力机制的语义模型中。
可选的,所述语义模型为基于Transformer的双向编码器表示模型经过中文文本优化训练后得到的模型;
所述语义模型包括至少两个多头自注意力层,每个多头自注意力层中包括多个注意力头,每个注意力头对应一个注意力矩阵;
其中,所述注意力矩阵中不同位置的矩阵元素,用于反映所述目标中文文本中不同位置的中文字符之间的注意力大小。
S230、在所述语义模型中,以末位的多头自注意力层为起点,获取设定数量的目标多头自注意力层。
由于所述语义模型通过多头自注意力层可实现注意力机制,该注意力机制可使语义模型关注到目标中文文本内容之间的联系,所以需要抽取语义模型中自注意力层的输出来判断目标名词与目标代词之间的相关性。根据实验结果显示,语义模型的高层多头自注意力层相较于低层,对目标名词与目标代词之间相关性的理解能力更好,而同一层内的注意力头关注的内容没有明显的规律。因此,本实施例以末位的多头自注意力层为起点来获取设定数量的目标多头自注意力层。
其中,设定数量可根据实际操作中的相关要求而设定,本实施例对此不进行限制。
S240、获取各所述目标多头自注意力层中的包括的全部注意力头对应的各注意力矩阵。
示例性的,以末位的多头自注意力层为起点获取设定数量的目标多头自注意力层后,截取设定数量的目标多头自注意力层中的全部注意力头,即可获取每个注意力头对应的注意力矩阵。
在一个具体的例子中,所述语义模型为chinese-bert-wwm-ext模型,该模型包括12个多头自注意力层,每个多头自注意力层中包括12个注意力头。相应的,可以取9-12层的全部12个注意力头,共得到4*12个注意力矩阵。
S250、根据各注意力矩阵,获取目标名词和目标代词之间的注意力指标,并根据所述注意力指标,确定目标代词和目标名词之间是否存在指代关系。
本发明实施例的技术方案,通过以末位的多头自注意力层为起点获取设定数量的目标多头自注意力层,使得最终获取的注意力指标更加准确,提高了指代关系判断结果的准确率。
实施例三
图3为本发明实施例三提供的一种中文文本中指代关系的确定方法的流程图。本实施例以上述实施例为基础进行细化,其中,根据各注意力矩阵,获取目标名词和目标代词之间的注意力指标,可以具体为:对至少两个注意力矩阵进行汇总计算,形成目标注意力矩阵;在所述目标注意力矩阵中,根据所述目标代词所在的至少一个矩阵行,以及所述目标代词所在的至少一个矩阵列,形成截短注意力矩阵;根据所述截短注意力矩阵,形成与所述目标代词匹配的截短注意力向量;根据所述目标名词所在的矩阵列,在所述截短注意力向量中截取得到目标代词和目标名词之间的注意力指标,注意力指标中包括至少一个注意力数值。
如图3所示,该方法包括以下具体步骤:
S310、获取目标中文文本。
S320、将目标中文文本输入至预训练的,基于注意力机制的语义模型中,获取语义模型针对所述目标中文文本形成的至少一个注意力矩阵。
S330、对至少两个注意力矩阵进行汇总计算,形成目标注意力矩阵。
其中,所述目标注意力矩阵指的是由多个注意力矩阵汇总计算所得的注意力矩阵,所述汇总计算即对各注意力矩阵的相应位置进行汇总。示例性的,可以对各注意力矩阵的相应位置直接进行汇总,还可以根据各注意力矩阵的重要程度为各注意力矩阵分配不同的权重后再进行汇总,通常,越靠后的注意力矩阵越重要,所分配的权重也越大。本实施例对此不进行限制。
具体的,对至少两个注意力矩阵进行汇总计算,形成目标注意力矩阵的方式可以为:
可选的,对至少两个注意力矩阵进行汇总计算,形成目标注意力矩阵,包括:
将各所述注意力矩阵中,与同一矩阵位置对应的各矩阵元素进行对应相加,形成所述目标注意力矩阵。
示例性的,以两个注意力矩阵进行汇总计算为例,假设第一个注意力矩阵
Figure BDA0003209378110000091
第二个注意力矩阵
Figure BDA0003209378110000092
则所述目标注意力矩阵
Figure BDA0003209378110000093
S340、在所述目标注意力矩阵中,根据所述目标代词所在的至少一个矩阵行,以及所述目标代词所在的至少一个矩阵列,形成截短注意力矩阵。
由于目标名词必然在目标代词之前,而在确定目标代词和目标名字之间的指代关系时,是无需参考目标代词之后的其他文本字符的,若对目标中文文本中的全部字符均进行对比将会耗费大量的时间,故本实施例以目标代词所在的矩阵行以及矩阵列为标准,对目标注意力矩阵进行截短。
其中,所述截短指的是根据目标代词所在的至少一个矩阵行以及矩阵列,对目标注意力矩阵进行降维的操作,使得目标注意力矩阵中的数据在不影响最终判断结果的基础上减小,提高了方法的效率。
截短注意力矩阵指的是根据目标代词所在的至少一个矩阵行以及矩阵列所形成的,对目标注意力矩阵进行截短操作后的注意力矩阵。示例性的,现有一个目标注意力矩阵C,该目标注意力矩阵的含义如下表所示:
Figure BDA0003209378110000101
现根据目标代词的所在行即所在列,截短出代表“他们”的注意力矩阵D,则所述截短注意力矩阵
Figure BDA0003209378110000102
S350、根据所述截短注意力矩阵,形成与所述目标代词匹配的截短注意力向量。
可选的,根据所述截短注意力矩阵,形成与所述目标代词匹配的截短注意力向量,包括:
如果确定所述截短注意力矩阵包括多个矩阵行,则将每个矩阵行中,与同一矩阵位置对应的各矩阵元素进行对应相加,形成所述截短注意力向量。
接上述示例,已知截短注意力矩阵
Figure BDA0003209378110000111
将每个矩阵行中与同一矩阵位置对应的各矩阵元素进行对应相加,则形成的所述截短注意力向量U=[C4,1+C5,1C4,2+C5,2.......C4,7+C5,7C4,8+C5,8]。
S360、根据所述目标名词所在的矩阵列,在所述截短注意力向量中截取得到目标代词和目标名词之间的注意力指标,注意力指标中包括至少一个注意力数值。
具体的,根据目标名词所在的矩阵列,在含有目标代词对目标中文文本中每个名词的注意力的向量中即可获得目标代词和目标名词之间的注意力指标。所述注意力指标中包括至少一个注意力数值,注意力数值的个数取决于目标代词所指代的目标名词中所含字符的个数。
接上述示例,已知所述目标名词为“同事”,对应两个字符,则在截短注意力向量中根据目标名词所在的矩阵列截取得到的目标代词和目标名词之间的注意力指标即为(C4,1+C5,1),(C4,2+C5,2)这两个注意力数值。
S370、根据所述注意力指标,确定目标代词和目标名词之间是否存在指代关系。
可选的,根据所述注意力指标,确定目标代词和目标名词之间是否存在指代关系,包括:
根据所述截短注意力向量中记录的所述目标代词与所述目标中文文本中各字符之间的注意力关系,以及所述注意力指标中记录的所述目标代词与所述目标名词之间的注意力关系,确定目标名词和目标代词之间是否存在指代关系。
可选的,根据所述截短注意力向量中记录的所述目标代词与所述目标中文文本中各字符之间的注意力关系,以及所述注意力指标中记录的所述目标代词与所述目标名词之间的注意力关系,确定目标名词和目标代词之间是否存在指代关系,包括:
根据所述截短注意力向量中包括的各注意力数值,计算得到多个不同点位的分位数;如果根据所述注意力指标中的各注意力数值以及各点位的分位数,确定满足预设的全部的数值判断条件,则确定目标名词和目标代词之间存在指代关系。
其中,不同点位的分位数指的是所述点位在向量中的百分位数值,例如,设定v_n为向量V的n%分位数值。数值判断条件指的是预先设定的用于对注意力数值进行判断的条件。
示例性的,将包含目标代词和目标名词间注意力数值的截短注意力向量记为v,目标代词对目标名词的注意力指标记为V*,则详细的数值判断条件可如下表所示:
数值判断条件
1 V*首项不小于v_90或V*末项不小于v_90
2 V*首项大于v_50或V*末项不小于v_50
3 V*最大值大于v_95
4 V*均值大于v_50
具体的,获取截短注意力向量V后,将截短注意力向量V从小到大或从大到小进行排序,再计算出V中各点位的分位数,之后将目标代词对目标名词的注意力数值V*与各点位的分位数根据数值判断条件进行比较,只有当数值判断条件全部通过时目标代词与目标名词间的指代关系则可判定为存在,否则不存在。
本发明实施例的技术方案,通过根据截短注意力向量截取得到目标代词和目标名词之间的注意力指标,提高了中文文本中指代关系的确定方法的工作效率。
实施例四
图4为本发明实施例四提供的一种中文文本中指代关系的确定装置的结构示意图,该装置可以执行上述各实施例中涉及到的中文文本中指代关系的确定方法。该装置可采用软件和/或硬件的方式实现,如图4所示,所述中文文本中指代关系的确定装置具体包括:目标中文文本获取模块410、注意力矩阵形成模块420、指代关系判定模块430。
其中,目标中文文本获取模块410,用于获取目标中文文本,目标中文文本中包括待确定指代关系的目标名词和目标代词;
注意力矩阵形成模块420,用于将目标中文文本输入至预训练的,基于注意力机制的语义模型中,获取语义模型针对所述目标中文文本形成的至少一个注意力矩阵;
指代关系判定模块430,用于根据各注意力矩阵,获取目标名词和目标代词之间的注意力指标,并根据所述注意力指标,确定目标代词和目标名词之间是否存在指代关系。
本发明实施例的技术方案,通过从基于注意力机制的语义模型中获取的目标中文文本的注意力矩阵,获取目标名词和目标代词之间的注意力指标,并根据注意力指标判定目标代词和目标名词之间是否存在指代关系,本发明实施例的技术方案在无需构建复杂的训练样本,也无需训练得到复杂的指代关系确定模型的前提下,仅使用已经成熟应用的语义模型,即可获取中文文本中指定名词和指定代词之间的关联关系,进而可以简单、高效的实现对中文文本中名词和代词间的指代关系的确定,提高了中文指代关系的确定效率。
可选的,所述语义模型为基于Transformer的双向编码器表示模型经过中文文本优化训练后得到的模型;
所述语义模型包括至少两个多头自注意力层,每个多头自注意力层中包括多个注意力头,每个注意力头对应一个注意力矩阵;
其中,所述注意力矩阵中不同位置的矩阵元素,用于反映所述目标中文文本中不同位置的中文字符之间的注意力大小。
可选的,注意力矩阵形成模块420具体可以用于,在所述语义模型中,以末位的多头自注意力层为起点,获取设定数量的目标多头自注意力层;获取各所述目标多头自注意力层中的包括的全部注意力头对应的各注意力矩阵。
可选的,指代关系判定模块430具体可以包括:目标注意力矩阵形成单元、截短注意力矩阵形成单元、截短注意力向量形成单元以及注意力指标截取单元;
其中,目标注意力矩阵形成单元,用于对至少两个注意力矩阵进行汇总计算,形成目标注意力矩阵;
截短注意力矩阵形成单元,用于在所述目标注意力矩阵中,根据所述目标代词所在的至少一个矩阵行,以及所述目标代词所在的至少一个矩阵列,形成截短注意力矩阵;
截短注意力向量形成单元,用于根据所述截短注意力矩阵,形成与所述目标代词匹配的截短注意力向量;
注意力指标截取单元,用于根据所述目标名词所在的矩阵列,在所述截短注意力向量中截取得到目标代词和目标名词之间的注意力指标,注意力指标中包括至少一个注意力数值。
可选的,目标注意力矩阵形成单元可具体用于将各所述注意力矩阵中,与同一矩阵位置对应的各矩阵元素进行对应相加,形成所述目标注意力矩阵;和/或
截短注意力向量形成单元可具体用于如果确定所述截短注意力矩阵包括多个矩阵行,则将每个矩阵行中,与同一矩阵位置对应的各矩阵元素进行对应相加,形成所述截短注意力向量。
可选的,指代关系判定模块430还可以包括指代关系判定单元,用于根据所述截短注意力向量中记录的所述目标代词与所述目标中文文本中各字符之间的注意力关系,以及所述注意力指标中记录的所述目标代词与所述目标名词之间的注意力关系,确定目标名词和目标代词之间是否存在指代关系。
可选的,指代关系判定单元,具体可以用于根据所述截短注意力向量中包括的各注意力数值,计算得到多个不同点位的分位数;如果根据所述注意力指标中的各注意力数值以及各点位的分位数,确定满足预设的全部的数值判断条件,则确定目标名词和目标代词之间存在指代关系。
本发明实施例所提供的中文文本中指代关系的确定装置可执行本发明任意实施例所提供的中文文本中指代关系的确定方法,具备执行方法相应的功能模块和有益效果。
实施例五
图5为本发明实施例五提供的一种计算机设备的结构示意图,如图5所示,该计算机设备包括处理器510、存储器520、输入装置530和输出装置540;计算机设备中处理器510的数量可以是一个或多个,图5中以一个处理器510为例;计算机设备中的处理器510、存储器520、输入装置530和输出装置540可以通过总线或其他方式连接,图5中以通过总线连接为例。
存储器520作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的中文文本中指代关系的确定方法对应的程序指令/模块(例如,中文文本中指代关系的确定装置中的目标中文文本获取模块410、注意力矩阵形成模块420和指代关系判定模块430)。处理器510通过运行存储在存储器520中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述的中文文本中指代关系的确定方法。
存储器520可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器520可进一步包括相对于处理器510远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置530可用于接收输入的数字或字符信息,以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备。
实施例六
本发明实施例六还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种中文文本中指代关系的确定方法,该方法包括:
获取目标中文文本,目标中文文本中包括待确定指代关系的目标名词和目标代词;
将目标中文文本输入至预训练的,基于注意力机制的语义模型中,获取语义模型针对所述目标中文文本形成的至少一个注意力矩阵;
根据各注意力矩阵,获取目标名词和目标代词之间的注意力指标,并根据所述注意力指标,确定目标代词和目标名词之间是否存在指代关系。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的中文文本中指代关系的确定方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述中文文本中指代关系的确定装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种中文文本中指代关系的确定方法,其特征在于,包括:
获取目标中文文本,目标中文文本中包括待确定指代关系的目标名词和目标代词;
将目标中文文本输入至预训练的,基于注意力机制的语义模型中,获取语义模型针对所述目标中文文本形成的至少一个注意力矩阵;
根据各注意力矩阵,获取目标名词和目标代词之间的注意力指标,并根据所述注意力指标,确定目标代词和目标名词之间是否存在指代关系。
2.根据权利要求1所述的方法,其特征在于:所述语义模型为基于Transformer的双向编码器表示模型经过中文文本优化训练后得到的模型;
所述语义模型包括至少两个多头自注意力层,每个多头自注意力层中包括多个注意力头,每个注意力头对应一个注意力矩阵;
其中,所述注意力矩阵中不同位置的矩阵元素,用于反映所述目标中文文本中不同位置的中文字符之间的注意力大小。
3.根据权利要求2所述的方法,其特征在于,获取语义模型针对目标中文文本形成的至少一个注意力矩阵,包括:
在所述语义模型中,以末位的多头自注意力层为起点,获取设定数量的目标多头自注意力层;
获取各所述目标多头自注意力层中的包括的全部注意力头对应的各注意力矩阵。
4.根据权利要求1所述的方法,其特征在于,根据各注意力矩阵,获取目标名词和目标代词之间的注意力指标,包括:
对至少两个注意力矩阵进行汇总计算,形成目标注意力矩阵;
在所述目标注意力矩阵中,根据所述目标代词所在的至少一个矩阵行,以及所述目标代词所在的至少一个矩阵列,形成截短注意力矩阵;
根据所述截短注意力矩阵,形成与所述目标代词匹配的截短注意力向量;
根据所述目标名词所在的矩阵列,在所述截短注意力向量中截取得到目标代词和目标名词之间的注意力指标,注意力指标中包括至少一个注意力数值。
5.根据权利要求4所述的方法,其特征在于,对至少两个注意力矩阵进行汇总计算,形成目标注意力矩阵,包括:
将各所述注意力矩阵中,与同一矩阵位置对应的各矩阵元素进行对应相加,形成所述目标注意力矩阵;和/或
根据所述截短注意力矩阵,形成与所述目标代词匹配的截短注意力向量,包括:
如果确定所述截短注意力矩阵包括多个矩阵行,则将每个矩阵行中,与同一矩阵位置对应的各矩阵元素进行对应相加,形成所述截短注意力向量。
6.根据权利要求4所述的方法,其特征在于,根据所述注意力指标,确定目标代词和目标名词之间是否存在指代关系,包括:
根据所述截短注意力向量中记录的所述目标代词与所述目标中文文本中各字符之间的注意力关系,以及所述注意力指标中记录的所述目标代词与所述目标名词之间的注意力关系,确定目标名词和目标代词之间是否存在指代关系。
7.根据权利要求6所述的方法,其特征在于,根据所述截短注意力向量中记录的所述目标代词与所述目标中文文本中各字符之间的注意力关系,以及所述注意力指标中记录的所述目标代词与所述目标名词之间的注意力关系,确定目标名词和目标代词之间是否存在指代关系,包括:
根据所述截短注意力向量中包括的各注意力数值,计算得到多个不同点位的分位数;
如果根据所述注意力指标中的各注意力数值以及各点位的分位数,确定满足预设的全部的数值判断条件,则确定目标名词和目标代词之间存在指代关系。
8.一种中文文本中指代关系的确定装置,其特征在于,包括:
目标中文文本获取模块,用于获取目标中文文本,目标中文文本中包括待确定指代关系的目标名词和目标代词;
注意力矩阵形成模块,用于将目标中文文本输入至预训练的,基于注意力机制的语义模型中,获取语义模型针对所述目标中文文本形成的至少一个注意力矩阵;
指代关系判定模块,用于根据各注意力矩阵,获取目标名词和目标代词之间的注意力指标,并根据所述注意力指标,确定目标代词和目标名词之间是否存在指代关系。
9.一种计算机设备,其特征在于,所述计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN202110926242.3A 2021-08-12 2021-08-12 中文文本中指代关系的确定方法、装置、设备及介质 Active CN113627193B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110926242.3A CN113627193B (zh) 2021-08-12 2021-08-12 中文文本中指代关系的确定方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110926242.3A CN113627193B (zh) 2021-08-12 2021-08-12 中文文本中指代关系的确定方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN113627193A true CN113627193A (zh) 2021-11-09
CN113627193B CN113627193B (zh) 2024-03-29

Family

ID=78385212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110926242.3A Active CN113627193B (zh) 2021-08-12 2021-08-12 中文文本中指代关系的确定方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN113627193B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9514098B1 (en) * 2013-12-09 2016-12-06 Google Inc. Iteratively learning coreference embeddings of noun phrases using feature representations that include distributed word representations of the noun phrases
CN111259666A (zh) * 2020-01-15 2020-06-09 上海勃池信息技术有限公司 一种结合多头自注意力机制的cnn文本分类方法
CN111310458A (zh) * 2020-03-20 2020-06-19 广东工业大学 一种基于多特征融合的主观题自动评分方法
CN112699693A (zh) * 2021-01-18 2021-04-23 上海明略人工智能(集团)有限公司 一种机器翻译方法及机器翻译装置
US20210158206A1 (en) * 2019-11-25 2021-05-27 Sap Se Attention mechanism for natural language processing

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9514098B1 (en) * 2013-12-09 2016-12-06 Google Inc. Iteratively learning coreference embeddings of noun phrases using feature representations that include distributed word representations of the noun phrases
US20210158206A1 (en) * 2019-11-25 2021-05-27 Sap Se Attention mechanism for natural language processing
CN111259666A (zh) * 2020-01-15 2020-06-09 上海勃池信息技术有限公司 一种结合多头自注意力机制的cnn文本分类方法
CN111310458A (zh) * 2020-03-20 2020-06-19 广东工业大学 一种基于多特征融合的主观题自动评分方法
CN112699693A (zh) * 2021-01-18 2021-04-23 上海明略人工智能(集团)有限公司 一种机器翻译方法及机器翻译装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ASHISH VASWANI: "Attention Is All You Need", 《ARXIV》, pages 2 *
BEN KANTOR: "Coreference Resolution with Entity Equalization", 《PROCEEDINGS OF THE 57TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》, pages 674 *
申资卓;: "基于预训练语言模型的中文零指代消解", 信息通信, no. 05 *

Also Published As

Publication number Publication date
CN113627193B (zh) 2024-03-29

Similar Documents

Publication Publication Date Title
CN108959246B (zh) 基于改进的注意力机制的答案选择方法、装置和电子设备
CN113110988B (zh) 利用定义的输入格式来测试应用
CN112395385B (zh) 基于人工智能的文本生成方法、装置、计算机设备及介质
CN111967264B (zh) 一种命名实体识别方法
EP3992812A1 (en) Log management method and apparatus, network device and readable storage medium
US11409374B2 (en) Method and device for input prediction
CN112163424A (zh) 数据的标注方法、装置、设备和介质
CN109800427B (zh) 一种分词方法、装置、终端及计算机可读存储介质
CN110276009B (zh) 一种联想词的推荐方法、装置、电子设备及存储介质
CN111259262A (zh) 一种信息检索方法、装置、设备及介质
CN110941951A (zh) 文本相似度计算方法、装置、介质及电子设备
CN114090794A (zh) 基于人工智能的事理图谱构建方法及相关设备
CN110874536A (zh) 语料质量评估模型生成方法和双语句对互译质量评估方法
EP4060526A1 (en) Text processing method and device
CN115438650B (zh) 融合多源特征的合同文本纠错方法、系统、设备及介质
CN111767717A (zh) 印尼语的语法纠错方法、装置、设备及存储介质
CN114861635B (zh) 一种中文拼写纠错方法、装置、设备及存储介质
CN109284497B (zh) 用于识别自然语言的医疗文本中的医疗实体的方法和装置
CN109597881B (zh) 匹配度确定方法、装置、设备和介质
CN112417875B (zh) 配置信息的更新方法、装置、计算机设备及介质
US20220365955A1 (en) Search platform for unstructured interaction summaries
CN108628826B (zh) 候选词评估方法、装置、计算机设备和存储介质
CN112559725A (zh) 文本匹配方法、装置、终端和存储介质
CN111161730B (zh) 语音指令匹配方法、装置、设备及存储介质
CN112527967A (zh) 文本匹配方法、装置、终端和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Country or region after: China

Address after: Room 501, 502, 503, No. 66 Boxia Road, China (Shanghai) Pilot Free Trade Zone, Pudong New Area, Shanghai, March 2012

Applicant after: Daguan Data Co.,Ltd.

Address before: Room 301, 303 and 304, block B, 112 liangxiu Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai, 201203

Applicant before: DATAGRAND INFORMATION TECHNOLOGY (SHANGHAI) Co.,Ltd.

Country or region before: China

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant