CN109446517B

CN109446517B - 指代消解方法、电子装置及计算机可读存储介质

Info

Publication number: CN109446517B
Application number: CN201811168621.5A
Authority: CN
Inventors: 赵峰; 杜展; 王健宗; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-10-08
Filing date: 2018-10-08
Publication date: 2022-07-05
Anticipated expiration: 2038-10-08
Also published as: CN109446517A; WO2020073664A1

Abstract

本发明涉及大数据分析，提供一种指代消解方法，包括：对文本进行分词得到指代集合及候选先行集合；根据特征指标构建指代词和候选先行词之间的特征向量；模拟指代词、权重矩阵和候选先行集合子集的分类情况，将每种分类情况对应的特征向量输入分类模型，得到每个指代词对应的权重矩阵和候选先行词子集；采用排序模型对候选先行词子集中各候选先行词按照设定规则进行排序，得到每个指代词对应的先行词和权重；在聚类决策中考虑排序模型权重对指代同一先行词的不同指代词进行聚类，得到指代簇。本发明还提出了一种电子装置及计算机可读存储介质。本发明通过模型套叠引入一个能够结合指代对信息和实体层面信息的指代消解，提高了识别的正确率。

Description

指代消解方法、电子装置及计算机可读存储介质

技术领域

本发明涉及文本处理技术领域，更为具体地，涉及一种指代消解方法、电子装置及计算机可读存储介质。

背景技术

指代消解，即辨认在文本中哪些指代指的是同一个真实世界中的实体的任务，是文本理解中的一个重要方面，有着广泛的应用。很多指代消解的方法都是用学习一个定义在指代对上的计分函数来做出共指(两个指代词指的是同一实体)的判断。然而，这样的方法没有用到实体层次的信息，即指代之间的特征。

发明内容

鉴于上述问题，本发明的目的是提供一种结合实体层次的信息，提高识别的正确率的指代消解方法、电子装置和计算机可读存储介质。

为了实现上述目的，本发明提供一种电子装置，所述电子装置包括存储器和处理器，所述存储器中包括指代消解程序，所述指代消解程序被所述处理器执行时实现如下步骤：

对文本进行分词，得到指代集合及候选先行集合；

根据特征指标构建每个指代词和每个候选先行词之间的特征向量，所述特征指标包括距离特征、语法特征、语义特征和基于规则特征中的一种或多种；

模拟各指代词在各种权重矩阵下的指代各候选先行集合子集的分类情况，将每一种分类情况对应的特征向量输入分类模型，得到每个指代词对应的分类模型的权重矩阵和候选先行词子集；

采用排序模型对每个指代词的上述候选先行词子集中各候选先行词按照设定规则进行排序，得到每个指代词对应的先行词和权重；

在聚类决策中考虑上述排序模型的权重对指代同一先行词的不同指代词进行聚类，得到指代簇。

优选地，所述分类模型的训练步骤包括：

构建每一个指代词对应的候选先行集合的各子集的特征向量矩阵；

构建第一权重矩阵，所述第一权重矩阵的元素个数和候选先行集合元素个数相同；

根据下式(1)构建每个指代词和每个候选先行集合的子集的共指概率模型

其中，

为指代词m_j和候选先行组合的子集A_i在权重矩阵下θ_i的共指概率，f(A_i,m_j)为指代词m_j对应的候选先行组合的子集A_i的特征向量矩阵；

将每一个候选先行词作为一类，通过优化损失函数得到分类模型；

根据已指代消解的文本构建训练集，所述训练集包括训练指代集合及每个指代词的正确先行词集合和错误先行词集合；

将训练集代入共指概率模型和分类模型，得到分类模型的第一权重矩阵中各权重的值。

优选地，所述聚类模型的聚类步骤包括：

根据下式(4)构建指代对分数模型

其中，D表示决策，θ_e为经过排序模型后未指代消解的指代同一先行词的两个指代词与各自的候选先行词之间的权重构成的权重矩阵，f_e(D)为决策D下，所述两个指代词之间的特征函数，

为在决策D下，所述两个指代词之间的指代对分数；

以指代同一先行词的多个指代词中的任一个指代词为中心词，判断其他指代词与中心词的指代对分数是否满足设定条件，将满足设定条件的其他指代词和中心词进行合并，得到属于同一先行词的指代簇。

此外，为了实现上述目的，本发明还提供一种指代消解方法，包括：

对文本进行分词，得到指代集合及候选先行集合；

在聚类模型聚类决策中考虑上述排序模型的权重对指代同一先行词的不同指代词进行聚类，得到指代簇。

此外，为了实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中包括指代消解程序，所述指代消解程序被处理器执行时，实现上述的指代消解方法的步骤。

本发明所述指代消解方法、电子装置和计算机可读存储介质采用分类模型、排序模型和聚类模型的套叠根据指代词之间的特征构建指代簇，通过模型套叠引入一个能够结合指代对信息和实体层面信息的指代消解，提高了识别的正确率。

附图说明

通过参考以下结合附图的说明，并且随着对本发明的更全面理解，本发明的其它目的及结果将更加明白及易于理解。在附图中：

图1是本发明指代消解方法较佳实施例的应用环境示意图；

图2是图1中指代消解程序较佳实施例的模块示意图；

图3是本发明指代消解方法较佳实施例的流程图。

在所有附图中相同的标号指示相似或相应的特征或功能。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下将结合附图对本发明的具体实施例进行详细描述。

本发明提供一种指代消解方法，应用于一种电子装置1。参照图1所示，为本发明指代消解方法较佳实施例的应用环境示意图。

在本实施例中，电子装置1可以是服务器、手机、平板电脑、便携计算机、桌上型计算机等具有运算功能的终端设备。

该电子装置1包括存储器11、处理器12、网络接口13及通信总线14。

存储器11包括至少一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器11等的非易失性存储介质。在一些实施例中，所述可读存储介质可以是所述电子装置1的内部存储单元，例如该电子装置1的硬盘。在另一些实施例中，所述可读存储介质也可以是所述电子装置1的外部存储器11，例如所述电子装置1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。

在本实施例中，所述存储器11的可读存储介质通常用于存储安装于所述电子装置1的指代消解程序10、文本样本库及预先训练好的分类模型、排序模型、聚类模型等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)，微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行指代消解程序10等。

网络接口13可选地可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该电子装置1与其他电子设备之间建立通信连接。

通信总线14用于实现这些组件之间的连接通信。

图1仅示出了具有组件11-14的电子装置1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

可选地，该电子装置1还可以包括用户接口，用户接口可以包括输入单元比如键盘(Keyboard)、语音输入装置比如麦克风(microphone)等具有语音识别功能的设备、语音输出装置比如音响、耳机等，可选地用户接口还可以包括标准的有线接口、无线接口。

可选地，该电子装置1还可以包括显示器，显示器也可以称为显示屏或显示单元。

在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode，OLED)触摸器等。显示器用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。

可选地，该电子装置1还包括触摸传感器。所述触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外，这里所述的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且，所述触摸传感器不仅包括接触式的触摸传感器，也可包括接近式的触摸传感器等。此外，所述触摸传感器可以为单个传感器，也可以为例如阵列布置的多个传感器。

可选地，该电子装置1还可以包括逻辑门电路，传感器、音频电路等等，在此不再赘述。

在图1所示的装置实施例中，作为一种计算机存储介质的存储器11中可以包括操作系统、以及指代消解程序10；处理器12执行存储器11中存储的指代消解程序10时实现如下步骤：

对文本进行分词，得到指代集合及候选先行集合；

在聚类模型的聚类决策中考虑上述排序模型的权重对指代同一先行词的不同指代词进行聚类，得到指代簇。

上述指代消解程序10使用实体层面的信息可以在做出共回指(回指，指代的是上文提及的内容)的决定时用上共预指(预指，指代是下文将要提及的内容)的信息，例如，如果发现“A”和“他”是共指，那么这个信息将在决定“A”和“BA”还是“CA”是共指时起作用，也就是说“A”指“BA”，而不是“CA”。

优选地，所述分类模型的训练步骤包括：

其中，

优选地，所述聚类模型的聚类步骤包括：

根据下式(4)构建指代对分数模型

其中，D表示决策，例如可以为均方根误差等，θ_e为经过排序模型后未指代消解的指代同一先行词的两个指代词与各自的候选先行词之间的权重构成的权重矩阵，f_e(D)为决策D下，所述两个指代词之间的特征函数，例如决策D为均方根误差时，f_e(D)为两个指代词之间的均方根误差函数，

为在决策D下，所述两个指代词之间的指代对分数；

在其他实施例中，指代消解程序10还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由处理器12执行，以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。参照图2所示，为图1中指代消解程序10较佳实施例的功能模块图。所述指代消解程序10可以被分割为：

分词模块110，对文本进行分词，得到指代集合及候选先行集合；

向量转化模块120，根据特征指标构建每个指代词和每个候选先行词之间的特征向量，所述特征指标包括距离特征、语法特征、语义特征和基于规则特征中的一种或多种，所述距离特征可以是指代词和候选先行词在句子中的距离，所述语法特征包括指代下名词短语的数量、词类标签等，所述予以特征包括命名实体类型、说话人识别等，所述基于规则的特征包括准确或部分字符串的匹配规则；

分类模块130，模拟各指代词在各种权重矩阵下的指代各候选先行集合子集的分类情况，将每一种分类情况对应的特征向量输入分类模型，得到每个指代词对应的分类模型的权重矩阵和候选先行词子集；

排序模块140，采用排序模型对每个指代词的上述候选先行词子集中各候选先行词按照设定规则进行排序，得到每个指代词对应的先行词和权重；

聚类模块150，在聚类决策中考虑上述排序模型的权重对指代同一先行词的不同指代词进行聚类，得到指代簇。

此外，本发明还提供一种指代消解方法。参照图3所示，为本发明指代消解方法较佳实施例的流程图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，指代消解方法包括：

步骤S1，对文本进行分词，得到指代集合M及候选先行集合A，

M＝[m₁,m₂,…m_n]

A＝[a₁,a₂,…a_w]

其中，m_n为第n个指代词，a_w为第w个候选先行词；

步骤S2，特征抽取步骤，根据特征指标构建每个指代词和每个候选先行词之间的特征向量，所述特征指标包括距离特征、语法特征、语义特征和基于规则特征中的一种或多种；

步骤S3，将特征向量输入分类模型，得到每个指代词在分类模型的权重矩阵下的候选先行词组合；

步骤S4，采用排序模型对每个指代词的上述候选先行词组合按照设定规则进行排序，得到每个指代词在排序模型的权重下的先行词；

步骤S5，在聚类模型的聚类决策中考虑上述排序模型的权重对指代同一先行词的不同指代词进行聚类，得到指代簇。

在步骤S3中，包括分类模型的训练步骤和未指代消解的文本的分类步骤，其中，所述分类模型的训练步骤包括：

构建第一权重矩阵，所述第一权重矩阵的元素个数和候选先行集合元素个数相同，θ^T＝[θ₁,θ₂,…θ_w]；

根据下式(1)构建每个指代词和每个候选先行集合的子集的共指概率模型，例如，用对数几率回归分类器给一个指代m和候选先行词a赋予一个概率，表示两个指代是共指的似然。如果指代m没有先行词，那么候选先行词a可以取空值(NA)值，

其中，

为指代词m_j和候选先行组合的子集A_i在权重矩阵下θ_i的共指概率，f(A_i,m_j)为指代词m_j对应的候选先行组合的子集A_i的特征向量矩阵，T代表矩阵转置例如，

将每一个候选先行词作为一类，通过优化损失函数得到分类模型，具体地，在分类模型中独立地考虑每对指代对，目标是为每一个指代匹配到尽可能多的候选先行词，每一个候选先行词作为一个类；

将训练集代入共指概率模型和分类模型，得到分类模型的第一权重矩阵中各权重的值通过优化损失函数，得到分类模型，例如，通过在训练数据集上使用梯度下降等优化方法，得到分类模型的第一权重矩阵，即分类模型参数。

所述未指代消解的文本的分类步骤包括：

将经过分词和特征抽取的未指代消解的文本的指代集合和特征向量代入训练后的共指概率模型和分类模型，得到每个指代词在分类模型的权重矩阵下的候选先行词组合，例如，指代词m₁在权重矩阵

下的候选先行词组合[a₁ a₃]，指代词m₂在权重矩阵

下的候选先行词组合[a₁ a₂ a₃]。

优选地，所述分类模型的优化损失函数通过下式(2)使用梯度下降的优化方法优化，

其中，C是分类(Classification)模型与其他模型区分的标志，θ_C表示待优化的分类模型的第一权重矩阵，L_C(θ_C)表示分类模型的第一权重矩阵为θ_C时，所造成的损失，T(m)表示指代词m的正确先行词集合，F(m)表示指代词m的错误先行词集合，通过最小化负的加入L1正则化的条件对数似然函数(损失函数)得到分类模型，λ为正则化参数。

在步骤S4中，在排序模型中，某一个指代词的所有候选先行词是同时被考虑并且是彼此竞争的，目的是找到当前指代的一个最好的先行词，也就是说，经过分类模型为文本中每个指代词，建立了一个包含所有可能的候选先行词的集合，排序模型从候选先行词的集合中选出最好的一个先行词。所述排序模型进行排序的设定规则为候选先行词在正确先行词集合中最高分和在错误先行词中的最高分的两者间间隔最大，具体地，通过优化损失函数来得到排序模型，包括：

根据下式(3)构建排序模型的损失函数，

其中，r是排序模型与其他模型区分的标志，θ_r表示待优化的排序模型的第二权重矩阵，L_r(θ_r)表示排序模型的第一权重矩阵为θ_C时，所造成的损失；

通过训练集采用优化方法得到排序模型的第二权重矩阵，例如，通过在训练数据集上使用梯度下降等优化方法，得到排序模型的第二权重矩阵，即排序模型参数。

在步骤S5中，构建一个基于指代簇而不是指代对的实体中心的模型，首先应用分类模型和排序模型迭代，建立起指向同一实体的指代簇(指代对的集合)，采用的是凝聚的层次聚类的方法，从点作为个体簇开始，每一步合并两个最接近的簇，直到所有的簇合并为一个(层次的最上层)，或者达到一个终止条件。从有限状态自动机的角度来考虑，以每个指代都是在一个单元素的簇的状态为起始状态，每一步观察当前状态s，从状态转移集合中选一个处理D，合并两个已存在的簇，到达一个新状态，然后进行迭代。以实体为中心是在于建立能代表实体的指代对的集合(簇)，然后如果它们指代同一个实体的化就对它们进行合并，具体地，所述聚类模型的聚类步骤包括：

根据下式(4)构建指代对分数模型

其中，D表示决策，例如可以为均方根误差等，_θe为经过排序模型后未指代消解的指代同一先行词的两个指代词与各自的候选先行词之间的权重构成的权重矩阵，f_e(D)为决策D下，所述两个指代词之间的特征函数，例如决策D为均方根误差时，f_e(D)为两个指代词之间的均方根误差函数，

为在决策D下，所述两个指代词之间的指代对分数；

以指代同一先行词的多个指代词中的任一个指代词为中心词，判断其他指代词与中心词的指代对分数是否满足设定条件，将满足设定条件的其他指代词和中心词进行合并，得到属于同一先行词的指代簇，例如初始化C→初始聚类，每个指代词自成一簇

其中，C[m_i]表示指代词m_i的聚类，即与m_i代的是同一实体的所有指代词的集合，

(C[m_i],C[m_j])表示当采取的决策是合并C[m_i],C[m_j]时(即D＝merge(C[m_i],C[m_j])),决策D的概率值。

优选地，还包括判断步骤，判断指代词和其对应的先行词之间的共指概率是否大于设定阈值，删除不大于设定阈值的指代词，例如，聚类模型的输入为文档M中的指代词，参数为θ_C指代对层次的分类器和参数为_θe的处理及截止阈值y，输出为聚类C，具体地，聚类模型的聚类程序如下：初始化指代对的列表P→[]

for每对指代对(m_i,m_j)∈M²(i＜j)do

if p_θ(m_i,m_j)＞y,then

P·append((m_i,m_j))

根据

将P降序排序

其中，p_θ(m_i,m_j)表示m_i作为候选先行词，m_j作为指代词，二者是共指的概率，θ为θ_C，为分类模型的参数矩阵。

进一步，优选地，按照共指概率的降序对经过判断步骤后的指代同一先行词的指代词进行排序，将共指概率最高的指代词作为中心词。

本发明之计算机可读存储介质的具体实施方式与上述指代消解方法、电子装置的具体实施方式大致相同，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。