CN110889288A

CN110889288A - 中文实体链接方法以及装置、文本处理方法、设备、存储介质

Info

Publication number: CN110889288A
Application number: CN201911132388.XA
Authority: CN
Inventors: 宋仲伟
Original assignee: Quantum Data Polymerization Beijing Technology Co Ltd
Current assignee: Quantum Data Polymerization Beijing Technology Co Ltd
Priority date: 2019-11-18
Filing date: 2019-11-18
Publication date: 2020-03-17

Abstract

本申请公开了一种中文实体链接方法以及装置、文本处理方法、设备、存储介质。该方法包括：在数据集中通过学习得到匹配模型，以使所述数据集中的目标语句文本、实体指代项以及候选实体对通过所述匹配模型得到三者之间的匹配度；根据匹配结果，选择与所述实体指代项含义相近的所述候选实体。本申请解决了中文短文本语义匮乏和数据集短缺情况下，命名实体链接效果不佳的技术问题。通过本申请针对中文短文本的特殊语料情况提供了实现中文实体链接任务的有效技术方案。

Description

中文实体链接方法以及装置、文本处理方法、设备、存储介质

技术领域

本申请涉及文本处理领域，具体而言，涉及一种中文实体链接方法以及装置、文本处理方法、设备、存储介质。

背景技术

命名实体链接是自然语言处理的一个关键任务，主要用于翻译、对话、问答等任务的预处理过程。而命名实体链接的目标之一是进行实体消歧，该任务是从指代项对应的多个候选实体中选择意思最相近的一个实体进行链接。

缺点在于：现有的方法无法解决中文短文本语义匮乏和数据集短缺情况下，命名实体链接问题。

针对相关技术中中文短文本语义匮乏和数据集短缺情况下，命名实体链接效果不佳的问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种中文实体链接方法以及装置、文本处理方法、设备、存储介质，以解决中文短文本语义匮乏和数据集短缺情况下，命名实体链接效果不佳的问题。

为了实现上述目的，根据本申请的一个方面，提供了一种中文实体链接方法。

根据本申请的中文实体链接方法包括：在数据集中通过学习得到匹配模型，以使所述数据集中的目标语句文本、实体指代项以及候选实体对通过所述匹配模型得到三者之间的匹配度；根据匹配结果，选择与所述实体指代项含义相近的所述候选实体。

进一步地，在数据集中通过学习得到匹配模型包括：

采用jieba分词工具将文本切分为不同词组，通过Bert模型和门控循环单元生成对应的词向量；

将所述实体指代项和所述候选实体对，分别通过Bert模型和门控循环单元生成对应的词向量。

进一步地，在数据集中通过学习得到匹配模型包括：

将词向量分别通过交叉匹配矩阵，获取得到所述语句文本、实体指代项以及候选实体关系密切的语义；

所述交叉匹配矩阵至少包括：词-候选实体对、词-实体指代项对和实体指代项-候选实体对的三组交叉匹配矩阵。

进一步地，在数据集中通过学习得到匹配模型包括：

通过卷积池化操作，提取文本中包含的重要信息，并将其编码得到一个匹配向量；其中所述匹配向量是语义提成后的匹配向量；

通过门控循环单元序列累加得到的多个匹配向量，，并将多个所述匹配向量通过归一化函数输出目标语句文本、实体指代项以及候选实体三者的最终匹配值。

进一步地，用于短文本的中文实体链接。

为了实现上述目的，根据本申请的另一个方面，提供了一种中文实体链接方法，包括：响应于文本实体链接处理请求，在数据集中通过学习得到匹配模型，以使所述数据集中的目标语句文本、实体指代项以及候选实体对通过所述匹配模型得到三者之间的匹配度；按照匹配结果，选择出与所述实体指代项含义相近的所述候选实体。

为了实现上述目的，根据本申请的又一个方面，提供了一种文本处理方法，采用所述的中文实体链接方法进行短文本预处理。

为了实现上述目的，根据本申请的另一方面，提供了一种中文实体链接装置。

根据本申请的中文实体链接装置包括：匹配模块，用于在数据集中通过学习得到匹配模型，以使所述数据集中的目标语句文本、实体指代项以及候选实体对通过所述匹配模型得到三者之间的匹配度；选择模块，用于根据匹配结果，选择与所述实体指代项含义最相近的所述候选实体。

为了实现上述目的，还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的中文实体链接方法的步骤。

为了实现上述目的，还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述的中文实体链接方法的步骤。

在本申请实施例中中文实体链接方法以及装置、文本处理方法、设备、存储介质，采用在数据集中通过学习得到匹配模型，以使所述数据集中的目标语句文本、实体指代项以及候选实体对通过所述匹配模型得到三者之间的匹配度的方式，通过根据匹配结果，选择与所述实体指代项含义相近的所述候选实体，达到了针对短文本情形下的中文命名实体链接任务的目的，从而实现了适合中文短文本的特殊语料情况的技术效果，进而解决了中文短文本语义匮乏和数据集短缺情况下，命名实体链接效果不佳的的技术问题。

此外，本申请中的方案在中文数据及上验证了本发明技术方案，相比传统的LSTM，bi-LSTM，GRU，bi-GRU以及之前提到的现有方案(Mueller and Durrett,2018)效果都有显著提升。对比传统神经网络，我们的模型在最初即采用三种匹配矩阵深度抽取文本、实体指代项和候选实体之间的关系，并且五层模型构建完美的挖掘了中文语义信息。此外，Bert模型的优秀的向量表示能力为本申请的技术也起到一定的促进作用。综上所述，本申请中的CMN模型展示了卓越的性能。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的中文实体链接方法流程示意图；

图2是根据本申请实施例的中文实体链接方法流程示意图；

图3是根据本申请实施例的中文实体链接装置结构示意图；

图4是根据本申请实施例的基于多交叉匹配网络的实体链接网络模型结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中，术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例，并非用于限定所指示的装置、元件或组成部分必须具有特定方位，或以特定方位进行构造和操作。

并且，上述部分术语除了可以用于表示方位或位置关系以外，还可能用于表示其他含义，例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言，可以根据具体情况理解这些术语在本申请中的具体含义。

此外，术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如，可以是固定连接，可拆卸连接，或整体式构造；可以是机械连接，或电连接；可以是直接相连，或者是通过中间媒介间接相连，又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

如图1所示，该方法包括如下的步骤S101至步骤S102：

步骤S101，在数据集中通过学习得到匹配模型，以使所述数据集中的目标语句文本、实体指代项以及候选实体对通过所述匹配模型得到三者之间的匹配度；

考虑到现有技术方案不合适短文本情况，特征的收集需要结合上下文语义和文本特征得到，短文本不能很好的提取特征，所以该技术不适合短文本情况。此外，以指代项为中心将一个完整文本的左右两部分分开向量化，并不能很好的获取文本的语义。此外，仅针对英文数据集进行的处理，不能直接应用到中文数据集中，不能很好的应对中文特征。

基于上述考量，本申请中的在数据集中除了英文数据以外还有中文数据。在所述数据集中通过学习得到匹配模型，通过匹配模型使所述数据集中的目标语句文本、实体指代项以及候选实体对通过所述匹配模型得到三者之间的匹配度。

需要注意的是，通过学习得到匹配模型的过程流程可以通过先设计匹配模型，然后通过数据集训练匹配模型参数，再修改完善匹配模型，最后得到最终的性能最好的匹配模型，在本申请的实施例中并不进行具体限定。

具体地，以中文数据为例，目标是在中文数据集D下，学习一个匹配模型g(s,m,c)，使任意的词-指代项-候选实体对都可以通过这个匹配模型测量得到一个s，m，c之间的匹配度。

步骤S102，根据匹配结果，选择与所述实体指代项含义相近的所述候选实体。

根据所述匹配结果，选择与所述实体指代项含义相近的所述候选实体。

可选地，可将Bert方法应用于实体链接任务的文本、指代项和候选实体的知识表示中。

可选地，采用基于多交叉匹配矩阵，并应用于文本、指代项和候选实体的关系模型中。

可选地，将多交叉匹配网络应用于所述中文实体链接任务中。

通过上述系列操作，多交叉匹配模型很好的获取了文本中的词向量、实体指代项以及候选实体中的重要语义信息，并过滤了噪声，便于选择和实体指代项意义最相近的候选实体。

从以上的描述中，可以看出，本申请实现了如下技术效果：

在本申请实施例中，采用在数据集中通过学习得到匹配模型，以使所述数据集中的目标语句文本、实体指代项以及候选实体对通过所述匹配模型得到三者之间的匹配度的方式，通过根据匹配结果，选择与所述实体指代项含义相近的所述候选实体，达到了针对短文本情形下的中文命名实体链接任务的目的，从而实现了适合中文短文本的特殊语料情况的技术效果，进而解决了中文短文本语义匮乏和数据集短缺情况下，命名实体链接效果不佳的的技术问题。

根据本申请实施例，作为本实施例中的优选，在数据集中通过学习得到匹配模型包括：将文本切分为不同词组，通过Bert模型和门控循环单元生成对应的词向量；将所述实体指代项和所述候选实体对，分别通过Bert模型和门控循环单元生成对应的词向量。

具体地，采用jieba分词工具将短文本切分为不同词组，通过Bert模型和一个GRU门控循环单元生成对应的词向量，实体指代项和候选实体也是通过相同的向量化操作得到词向量。

根据本申请实施例，作为本实施例中的优选，在数据集中通过学习得到匹配模型包括：将词向量分别通过交叉匹配矩阵，得到得到所述语句文本、实体指代项以及候选实体关系密切的语义；所述交叉匹配矩阵至少包括：词-候选实体对、词-实体指代项对和实体指代项-候选实体对的三组交叉匹配矩阵。

具体地，在得到词向量之后，在第二层将词向量分别通过三组交叉匹配矩阵，包括：词-候选实体对、词-实体指代项对和实体指代项-候选实体对，我们通过这三组交叉匹配可以在文本中获取更丰富的语义。

根据本申请实施例，作为本实施例中的优选，在数据集中通过学习得到匹配模型包括：通过卷积池化操作，提取文本中包含的重要信息，并将其编码得到一个匹配向量；其中所述匹配向量是语义提成后的匹配向量；

通过门控循环单元序列累加得到的多个匹配向量，并将多个所述匹配向量通过归一化函数输出目标语句文本、实体指代项以及候选实体三者的最终匹配值。

具体地，基于卷积池化层的处理，通过卷积池化操作提取文本中包含的重要信息，并将其编码得到一个匹配向量；之后再通过GRU门控循环单元序列累加得到的多个匹配向量；将得到的隐藏层状态输入最后一层去计算最终的匹配得分。

根据本申请实施例，作为本实施例中的优选，用于短文本的中文实体链接。

在本申请的另一实施例中，如图2所示，还提供了中文实体链接方法，包括：

步骤S201，响应于文本实体链接处理请求，在数据集中通过学习得到匹配模型，以使所述数据集中的目标语句文本、实体指代项以及候选实体对通过所述匹配模型得到三者之间的匹配度；

在服务器端响应于文本实体链接处理请求，在数据集中通过学习得到匹配模型，以使所述数据集中的目标语句文本、实体指代项以及候选实体对通过所述匹配模型得到三者之间的匹配度。

基于上述考量，本申请中的在数据集中除了英文数据以外，还有中文数据。在所述数据集中通过学习得到匹配模型，通过匹配模型使所述数据集中的目标语句文本、实体指代项以及候选实体对通过所述匹配模型得到三者之间的匹配度。

步骤S202，按照匹配结果，选择出与所述实体指代项含义相近的所述候选实体。

在服务器端按照匹配结果，选择出与所述实体指代项含义相近的所述候选实体。

在本申请的另一实施例中，还提供了一种文本处理方法，采用所述的中文实体链接方法进行短文本预处理，可用于由短文本构成的网络语料库中。比如，新闻标题、社交媒体、搜索问句、网页标题等。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

根据本申请实施例，还提供了一种用于实施上述中文实体链接方法的中文实体链接装置，如图3所示，该装置包括：匹配模块10，用于在数据集中通过学习得到匹配模型，以使所述数据集中的目标语句文本、实体指代项以及候选实体对通过所述匹配模型得到三者之间的匹配度；选择模块11，用于根据匹配结果，选择与所述实体指代项含义最相近的所述候选实体。

本申请实施例的匹配模块10中考虑到现有技术方案不合适短文本情况，特征的收集需要结合上下文语义和文本特征得到，短文本不能很好的提取特征，所以该技术不适合短文本情况。此外，以指代项为中心将一个完整文本的左右两部分分开向量化，并不能很好的获取文本的语义。此外，仅针对英文数据集进行的处理，不能直接应用到中文数据集中，不能很好的应对中文特征。

本申请实施例的选择模块11中根据所述匹配结果，选择与所述实体指代项含义相近的所述候选实体。

通过上述模块，多交叉匹配模型很好的获取了文本中的词向量、实体指代项以及候选实体中的重要语义信息，并过滤了噪声，便于选择和实体指代项意义最相近的候选实体。

请参考图4，是基于多交叉匹配的实体链接网络模型。

假设中文数据集格式为

其中

代表一段文本包含

个词，m_i表示文本中的实体指代项，c_i表示第i个候选实体，y_i∈{0,1}表示输出标签；当y_i＝1代表候选实体c_i是和实体s_i意义最相近的候选实体，当y_i＝0则反之。

目标是在中文数据集D下，学习一个匹配模型g(s,m,c)，使任意的词-指代项-候选实体对都可以通过这个匹配模型测量得到一个s，m，c之间的匹配度。

如图4所示，是基于多交叉匹配的实体链接网络模型。其中，指代项“小米”来自“全力助力小米种植业转型”，小米的候选实体包含：小米(北京小米科技有限责任公司)、小米(禾本科狗尾草属一年生草本)、小米(电视剧《武林外传》中人物)。

在本申请的实施例中提出一种多交叉匹配网络，称为：CMN。如图4所示。CMN由五层组成，第一层将短文本切分为不同词组，通过Bert型和一个GRU门控循环单元生成对应的词向量，实体指代项和候选实体也是通过相同的向量化操作得到词向量；得到词向量之后，在第二层将词向量分别通过三组交叉匹配矩阵，包括：词-候选实体对、词-实体指代项对和实体指代项-候选实体对，我们通过这三组交叉匹配可以在文本中获取更丰富的语义；第三层是卷积池化层，在本层通过卷积池化操作提取文本中包含的重要信息，并将其编码得到一个匹配向量；第四层通过GRU单元序列累加得到的多个匹配向量；将得到的隐藏层状态输入最后一层去计算最终的匹配得分。具体描述如下：

首先，文本s中包含若干个词w，一个实体指代项m和一个对应的候选实体c，在第一层对w,s和c的词向量表示，分别采用如下形式：w＝e_w，m＝e_m和c＝e_c，并且e_w,e_m,e_c∈R^d,d表示词向量的维数。为得到词向量，首先使用谷歌推出的Bert模型得到序列向量{v_t}，然后通过一个GRU单元进一步编码向量，并获得记录重要语义的隐藏单元{h_t}。词向量的维度为768，是采用已经训练好的中文语料模型。

其次，在第二层是构建多交叉匹配相似度矩阵M_f∈R^d×d(f＝1,2,3)，M₁表示w和c之间的相似度，M₂表示w和m之间的相似度，M₃表示m和c之间的相似度。其中

d维的M₁，M₂，M₃矩阵定义如下：

这些相似度矩阵有三个输出通道，随之将其输出通过一个卷积池化层来提取匹配信息并编码成一个匹配信息v。z^(l,f)表示第l层的f类型输出端口的特征映射，其中z^(0,f)＝M_f。第三层，我们首先进行卷积操作，我们采用窗口大小

并定义z^(l,f)：

其中σ(·)是ReLU函数，W^(l,f)和b^l为参数，F_l-1表示第(l-1)层特征数。然后进行池化操作，使用

和

作为池化操作的宽度和高度，公式如下：

最终特征的输出向量被映射到低维空间中去，得到匹配向量[v₁,...,v_n]。该向量作为第四层的输入，通过一个GRU单元，得到输出隐藏向量[h′₁,...,h′_n]。第四层有三个功能，首先累加三个匹配对的信息，然后提取文本中序列词组的依赖性关系，最后过滤噪音信息保留重要数据。[h′₁,...,h′_n]作为第五层的输入，我们定义匹配得分g(s,m,c)公式如下：

其中W_d1、W_d2、W_d、b_d1、b_d2是参数，t_s是在训练中习得的虚拟文本向量，h_i是[h′₁,...,h′_n]的第i个隐藏状态，

是词w的最终隐藏状态。匹配预测方法采用了注意力机制来动态计算匹配得分。

最后，采用交叉熵损失函数来取得更优化的g(s,m,c)函数，定义如下：

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种中文实体链接方法，其特征在于，包括：

在数据集中通过学习得到匹配模型，以使所述数据集中的目标语句文本、实体指代项以及候选实体对通过所述匹配模型得到三者之间的匹配度；

根据匹配结果，选择与所述实体指代项含义相近的所述候选实体。

2.根据权利要求1所述的中文实体链接方法，其特征在于，在数据集中通过学习得到匹配模型包括：

3.根据权利要求1所述的中文实体链接方法，其特征在于，在数据集中通过学习得到匹配模型包括：

将词向量分别通过交叉匹配矩阵，得到所述语句文本、实体指代项以及候选实体关系密切的语义；

4.根据权利要求1所述的中文实体链接方法，其特征在于，在数据集中通过学习得到匹配模型包括：

通过卷积池化操作，提取文本中包含的重要信息，并将其编码得到一个匹配向量，其中所述匹配向量是语义提升后的匹配向量；

5.根据权利要求1所述的中文实体链接方法，其特征在于，用于短文本的中文实体链接。

6.一种中文实体链接方法，其特征在于，包括：

响应于文本实体链接处理请求，在数据集中通过学习得到匹配模型，以使所述数据集中的目标语句文本、实体指代项以及候选实体对通过所述匹配模型得到三者之间的匹配度；

按照匹配结果，选择出与所述实体指代项含义相近的所述候选实体。

7.一种文本处理方法，其特征在于，采用如权利要求1至5任一项所述的中文实体链接方法进行短文本预处理。

8.一种中文实体链接装置，其特征在于，包括：

匹配模块，用于在数据集中通过学习得到匹配模型，以使所述数据集中的目标语句文本、实体指代项以及候选实体对通过所述匹配模型得到三者之间的匹配度；

选择模块，用于根据匹配结果，选择与所述实体指代项含义最相近的所述候选实体。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至5任一项所述的中文实体链接方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至5任一项所述的中文实体链接方法的步骤。