CN109446517B - 指代消解方法、电子装置及计算机可读存储介质 - Google Patents

指代消解方法、电子装置及计算机可读存储介质 Download PDF

Info

Publication number
CN109446517B
CN109446517B CN201811168621.5A CN201811168621A CN109446517B CN 109446517 B CN109446517 B CN 109446517B CN 201811168621 A CN201811168621 A CN 201811168621A CN 109446517 B CN109446517 B CN 109446517B
Authority
CN
China
Prior art keywords
antecedent
candidate
model
word
subset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811168621.5A
Other languages
English (en)
Other versions
CN109446517A (zh
Inventor
赵峰
杜展
王健宗
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201811168621.5A priority Critical patent/CN109446517B/zh
Publication of CN109446517A publication Critical patent/CN109446517A/zh
Priority to PCT/CN2019/089147 priority patent/WO2020073664A1/zh
Application granted granted Critical
Publication of CN109446517B publication Critical patent/CN109446517B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及大数据分析,提供一种指代消解方法,包括:对文本进行分词得到指代集合及候选先行集合;根据特征指标构建指代词和候选先行词之间的特征向量;模拟指代词、权重矩阵和候选先行集合子集的分类情况,将每种分类情况对应的特征向量输入分类模型,得到每个指代词对应的权重矩阵和候选先行词子集;采用排序模型对候选先行词子集中各候选先行词按照设定规则进行排序,得到每个指代词对应的先行词和权重;在聚类决策中考虑排序模型权重对指代同一先行词的不同指代词进行聚类,得到指代簇。本发明还提出了一种电子装置及计算机可读存储介质。本发明通过模型套叠引入一个能够结合指代对信息和实体层面信息的指代消解,提高了识别的正确率。

Description

指代消解方法、电子装置及计算机可读存储介质
技术领域
本发明涉及文本处理技术领域,更为具体地,涉及一种指代消解方法、电子装置及计算机可读存储介质。
背景技术
指代消解,即辨认在文本中哪些指代指的是同一个真实世界中的实体的任务,是文本理解中的一个重要方面,有着广泛的应用。很多指代消解的方法都是用学习一个定义在指代对上的计分函数来做出共指(两个指代词指的是同一实体)的判断。然而,这样的方法没有用到实体层次的信息,即指代之间的特征。
发明内容
鉴于上述问题,本发明的目的是提供一种结合实体层次的信息,提高识别的正确率的指代消解方法、电子装置和计算机可读存储介质。
为了实现上述目的,本发明提供一种电子装置,所述电子装置包括存储器和处理器,所述存储器中包括指代消解程序,所述指代消解程序被所述处理器执行时实现如下步骤:
对文本进行分词,得到指代集合及候选先行集合;
根据特征指标构建每个指代词和每个候选先行词之间的特征向量,所述特征指标包括距离特征、语法特征、语义特征和基于规则特征中的一种或多种;
模拟各指代词在各种权重矩阵下的指代各候选先行集合子集的分类情况,将每一种分类情况对应的特征向量输入分类模型,得到每个指代词对应的分类模型的权重矩阵和候选先行词子集;
采用排序模型对每个指代词的上述候选先行词子集中各候选先行词按照设定规则进行排序,得到每个指代词对应的先行词和权重;
在聚类决策中考虑上述排序模型的权重对指代同一先行词的不同指代词进行聚类,得到指代簇。
优选地,所述分类模型的训练步骤包括:
构建每一个指代词对应的候选先行集合的各子集的特征向量矩阵;
构建第一权重矩阵,所述第一权重矩阵的元素个数和候选先行集合元素个数相同;
根据下式(1)构建每个指代词和每个候选先行集合的子集的共指概率模型
Figure GDA0003652388810000021
其中,
Figure GDA0003652388810000024
为指代词mj和候选先行组合的子集Ai在权重矩阵下θi的共指概率,f(Ai,mj)为指代词mj对应的候选先行组合的子集Ai的特征向量矩阵;
将每一个候选先行词作为一类,通过优化损失函数得到分类模型;
根据已指代消解的文本构建训练集,所述训练集包括训练指代集合及每个指代词的正确先行词集合和错误先行词集合;
将训练集代入共指概率模型和分类模型,得到分类模型的第一权重矩阵中各权重的值。
优选地,所述聚类模型的聚类步骤包括:
根据下式(4)构建指代对分数模型
Figure GDA0003652388810000022
其中,D表示决策,θe为经过排序模型后未指代消解的指代同一先行词的两个指代词与各自的候选先行词之间的权重构成的权重矩阵,fe(D)为决策D下,所述两个指代词之间的特征函数,
Figure GDA0003652388810000023
为在决策D下,所述两个指代词之间的指代对分数;
以指代同一先行词的多个指代词中的任一个指代词为中心词,判断其他指代词与中心词的指代对分数是否满足设定条件,将满足设定条件的其他指代词和中心词进行合并,得到属于同一先行词的指代簇。
此外,为了实现上述目的,本发明还提供一种指代消解方法,包括:
对文本进行分词,得到指代集合及候选先行集合;
根据特征指标构建每个指代词和每个候选先行词之间的特征向量,所述特征指标包括距离特征、语法特征、语义特征和基于规则特征中的一种或多种;
模拟各指代词在各种权重矩阵下的指代各候选先行集合子集的分类情况,将每一种分类情况对应的特征向量输入分类模型,得到每个指代词对应的分类模型的权重矩阵和候选先行词子集;
采用排序模型对每个指代词的上述候选先行词子集中各候选先行词按照设定规则进行排序,得到每个指代词对应的先行词和权重;
在聚类模型聚类决策中考虑上述排序模型的权重对指代同一先行词的不同指代词进行聚类,得到指代簇。
此外,为了实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中包括指代消解程序,所述指代消解程序被处理器执行时,实现上述的指代消解方法的步骤。
本发明所述指代消解方法、电子装置和计算机可读存储介质采用分类模型、排序模型和聚类模型的套叠根据指代词之间的特征构建指代簇,通过模型套叠引入一个能够结合指代对信息和实体层面信息的指代消解,提高了识别的正确率。
附图说明
通过参考以下结合附图的说明,并且随着对本发明的更全面理解,本发明的其它目的及结果将更加明白及易于理解。在附图中:
图1是本发明指代消解方法较佳实施例的应用环境示意图;
图2是图1中指代消解程序较佳实施例的模块示意图;
图3是本发明指代消解方法较佳实施例的流程图。
在所有附图中相同的标号指示相似或相应的特征或功能。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下将结合附图对本发明的具体实施例进行详细描述。
本发明提供一种指代消解方法,应用于一种电子装置1。参照图1所示,为本发明指代消解方法较佳实施例的应用环境示意图。
在本实施例中,电子装置1可以是服务器、手机、平板电脑、便携计算机、桌上型计算机等具有运算功能的终端设备。
该电子装置1包括存储器11、处理器12、网络接口13及通信总线14。
存储器11包括至少一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器11等的非易失性存储介质。在一些实施例中,所述可读存储介质可以是所述电子装置1的内部存储单元,例如该电子装置1的硬盘。在另一些实施例中,所述可读存储介质也可以是所述电子装置1的外部存储器11,例如所述电子装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
在本实施例中,所述存储器11的可读存储介质通常用于存储安装于所述电子装置1的指代消解程序10、文本样本库及预先训练好的分类模型、排序模型、聚类模型等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行指代消解程序10等。
网络接口13可选地可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该电子装置1与其他电子设备之间建立通信连接。
通信总线14用于实现这些组件之间的连接通信。
图1仅示出了具有组件11-14的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
可选地,该电子装置1还可以包括用户接口,用户接口可以包括输入单元比如键盘(Keyboard)、语音输入装置比如麦克风(microphone)等具有语音识别功能的设备、语音输出装置比如音响、耳机等,可选地用户接口还可以包括标准的有线接口、无线接口。
可选地,该电子装置1还可以包括显示器,显示器也可以称为显示屏或显示单元。
在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。显示器用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。
可选地,该电子装置1还包括触摸传感器。所述触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外,这里所述的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且,所述触摸传感器不仅包括接触式的触摸传感器,也可包括接近式的触摸传感器等。此外,所述触摸传感器可以为单个传感器,也可以为例如阵列布置的多个传感器。
可选地,该电子装置1还可以包括逻辑门电路,传感器、音频电路等等,在此不再赘述。
在图1所示的装置实施例中,作为一种计算机存储介质的存储器11中可以包括操作系统、以及指代消解程序10;处理器12执行存储器11中存储的指代消解程序10时实现如下步骤:
对文本进行分词,得到指代集合及候选先行集合;
根据特征指标构建每个指代词和每个候选先行词之间的特征向量,所述特征指标包括距离特征、语法特征、语义特征和基于规则特征中的一种或多种;
模拟各指代词在各种权重矩阵下的指代各候选先行集合子集的分类情况,将每一种分类情况对应的特征向量输入分类模型,得到每个指代词对应的分类模型的权重矩阵和候选先行词子集;
采用排序模型对每个指代词的上述候选先行词子集中各候选先行词按照设定规则进行排序,得到每个指代词对应的先行词和权重;
在聚类模型的聚类决策中考虑上述排序模型的权重对指代同一先行词的不同指代词进行聚类,得到指代簇。
上述指代消解程序10使用实体层面的信息可以在做出共回指(回指,指代的是上文提及的内容)的决定时用上共预指(预指,指代是下文将要提及的内容)的信息,例如,如果发现“A”和“他”是共指,那么这个信息将在决定“A”和“BA”还是“CA”是共指时起作用,也就是说“A”指“BA”,而不是“CA”。
优选地,所述分类模型的训练步骤包括:
构建每一个指代词对应的候选先行集合的各子集的特征向量矩阵;
构建第一权重矩阵,所述第一权重矩阵的元素个数和候选先行集合元素个数相同;
根据下式(1)构建每个指代词和每个候选先行集合的子集的共指概率模型
Figure GDA0003652388810000061
其中,
Figure GDA0003652388810000064
为指代词mj和候选先行组合的子集Ai在权重矩阵下θi的共指概率,f(Ai,mj)为指代词mj对应的候选先行组合的子集Ai的特征向量矩阵;
将每一个候选先行词作为一类,通过优化损失函数得到分类模型;
根据已指代消解的文本构建训练集,所述训练集包括训练指代集合及每个指代词的正确先行词集合和错误先行词集合;
将训练集代入共指概率模型和分类模型,得到分类模型的第一权重矩阵中各权重的值。
优选地,所述聚类模型的聚类步骤包括:
根据下式(4)构建指代对分数模型
Figure GDA0003652388810000062
其中,D表示决策,例如可以为均方根误差等,θe为经过排序模型后未指代消解的指代同一先行词的两个指代词与各自的候选先行词之间的权重构成的权重矩阵,fe(D)为决策D下,所述两个指代词之间的特征函数,例如决策D为均方根误差时,fe(D)为两个指代词之间的均方根误差函数,
Figure GDA0003652388810000063
为在决策D下,所述两个指代词之间的指代对分数;
以指代同一先行词的多个指代词中的任一个指代词为中心词,判断其他指代词与中心词的指代对分数是否满足设定条件,将满足设定条件的其他指代词和中心词进行合并,得到属于同一先行词的指代簇。
在其他实施例中,指代消解程序10还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由处理器12执行,以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。参照图2所示,为图1中指代消解程序10较佳实施例的功能模块图。所述指代消解程序10可以被分割为:
分词模块110,对文本进行分词,得到指代集合及候选先行集合;
向量转化模块120,根据特征指标构建每个指代词和每个候选先行词之间的特征向量,所述特征指标包括距离特征、语法特征、语义特征和基于规则特征中的一种或多种,所述距离特征可以是指代词和候选先行词在句子中的距离,所述语法特征包括指代下名词短语的数量、词类标签等,所述予以特征包括命名实体类型、说话人识别等,所述基于规则的特征包括准确或部分字符串的匹配规则;
分类模块130,模拟各指代词在各种权重矩阵下的指代各候选先行集合子集的分类情况,将每一种分类情况对应的特征向量输入分类模型,得到每个指代词对应的分类模型的权重矩阵和候选先行词子集;
排序模块140,采用排序模型对每个指代词的上述候选先行词子集中各候选先行词按照设定规则进行排序,得到每个指代词对应的先行词和权重;
聚类模块150,在聚类决策中考虑上述排序模型的权重对指代同一先行词的不同指代词进行聚类,得到指代簇。
此外,本发明还提供一种指代消解方法。参照图3所示,为本发明指代消解方法较佳实施例的流程图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,指代消解方法包括:
步骤S1,对文本进行分词,得到指代集合M及候选先行集合A,
M=[m1,m2,…mn]
A=[a1,a2,…aw]
其中,mn为第n个指代词,aw为第w个候选先行词;
步骤S2,特征抽取步骤,根据特征指标构建每个指代词和每个候选先行词之间的特征向量,所述特征指标包括距离特征、语法特征、语义特征和基于规则特征中的一种或多种;
步骤S3,将特征向量输入分类模型,得到每个指代词在分类模型的权重矩阵下的候选先行词组合;
步骤S4,采用排序模型对每个指代词的上述候选先行词组合按照设定规则进行排序,得到每个指代词在排序模型的权重下的先行词;
步骤S5,在聚类模型的聚类决策中考虑上述排序模型的权重对指代同一先行词的不同指代词进行聚类,得到指代簇。
在步骤S3中,包括分类模型的训练步骤和未指代消解的文本的分类步骤,其中,所述分类模型的训练步骤包括:
构建每一个指代词对应的候选先行集合的各子集的特征向量矩阵;
构建第一权重矩阵,所述第一权重矩阵的元素个数和候选先行集合元素个数相同,θT=[θ12,…θw];
根据下式(1)构建每个指代词和每个候选先行集合的子集的共指概率模型,例如,用对数几率回归分类器给一个指代m和候选先行词a赋予一个概率,表示两个指代是共指的似然。如果指代m没有先行词,那么候选先行词a可以取空值(NA)值,
Figure GDA0003652388810000081
其中,
Figure GDA0003652388810000083
为指代词mj和候选先行组合的子集Ai在权重矩阵下θi的共指概率,f(Ai,mj)为指代词mj对应的候选先行组合的子集Ai的特征向量矩阵,T代表矩阵转置例如,
Figure GDA0003652388810000082
将每一个候选先行词作为一类,通过优化损失函数得到分类模型,具体地,在分类模型中独立地考虑每对指代对,目标是为每一个指代匹配到尽可能多的候选先行词,每一个候选先行词作为一个类;
根据已指代消解的文本构建训练集,所述训练集包括训练指代集合及每个指代词的正确先行词集合和错误先行词集合;
将训练集代入共指概率模型和分类模型,得到分类模型的第一权重矩阵中各权重的值通过优化损失函数,得到分类模型,例如,通过在训练数据集上使用梯度下降等优化方法,得到分类模型的第一权重矩阵,即分类模型参数。
所述未指代消解的文本的分类步骤包括:
将经过分词和特征抽取的未指代消解的文本的指代集合和特征向量代入训练后的共指概率模型和分类模型,得到每个指代词在分类模型的权重矩阵下的候选先行词组合,例如,指代词m1在权重矩阵
Figure GDA0003652388810000091
下的候选先行词组合[a1 a3],指代词m2在权重矩阵
Figure GDA0003652388810000092
下的候选先行词组合[a1 a2 a3]。
优选地,所述分类模型的优化损失函数通过下式(2)使用梯度下降的优化方法优化,
Figure GDA0003652388810000094
其中,C是分类(Classification)模型与其他模型区分的标志,θC表示待优化的分类模型的第一权重矩阵,LCC)表示分类模型的第一权重矩阵为θC时,所造成的损失,T(m)表示指代词m的正确先行词集合,F(m)表示指代词m的错误先行词集合,通过最小化负的加入L1正则化的条件对数似然函数(损失函数)得到分类模型,λ为正则化参数。
在步骤S4中,在排序模型中,某一个指代词的所有候选先行词是同时被考虑并且是彼此竞争的,目的是找到当前指代的一个最好的先行词,也就是说,经过分类模型为文本中每个指代词,建立了一个包含所有可能的候选先行词的集合,排序模型从候选先行词的集合中选出最好的一个先行词。所述排序模型进行排序的设定规则为候选先行词在正确先行词集合中最高分和在错误先行词中的最高分的两者间间隔最大,具体地,通过优化损失函数来得到排序模型,包括:
根据下式(3)构建排序模型的损失函数,
Figure GDA0003652388810000093
其中,r是排序模型与其他模型区分的标志,θr表示待优化的排序模型的第二权重矩阵,Lrr)表示排序模型的第一权重矩阵为θC时,所造成的损失;
通过训练集采用优化方法得到排序模型的第二权重矩阵,例如,通过在训练数据集上使用梯度下降等优化方法,得到排序模型的第二权重矩阵,即排序模型参数。
在步骤S5中,构建一个基于指代簇而不是指代对的实体中心的模型,首先应用分类模型和排序模型迭代,建立起指向同一实体的指代簇(指代对的集合),采用的是凝聚的层次聚类的方法,从点作为个体簇开始,每一步合并两个最接近的簇,直到所有的簇合并为一个(层次的最上层),或者达到一个终止条件。从有限状态自动机的角度来考虑,以每个指代都是在一个单元素的簇的状态为起始状态,每一步观察当前状态s,从状态转移集合中选一个处理D,合并两个已存在的簇,到达一个新状态,然后进行迭代。以实体为中心是在于建立能代表实体的指代对的集合(簇),然后如果它们指代同一个实体的化就对它们进行合并,具体地,所述聚类模型的聚类步骤包括:
根据下式(4)构建指代对分数模型
Figure GDA0003652388810000101
其中,D表示决策,例如可以为均方根误差等,θe为经过排序模型后未指代消解的指代同一先行词的两个指代词与各自的候选先行词之间的权重构成的权重矩阵,fe(D)为决策D下,所述两个指代词之间的特征函数,例如决策D为均方根误差时,fe(D)为两个指代词之间的均方根误差函数,
Figure GDA0003652388810000102
为在决策D下,所述两个指代词之间的指代对分数;
以指代同一先行词的多个指代词中的任一个指代词为中心词,判断其他指代词与中心词的指代对分数是否满足设定条件,将满足设定条件的其他指代词和中心词进行合并,得到属于同一先行词的指代簇,例如初始化C→初始聚类,每个指代词自成一簇
Figure GDA0003652388810000103
其中,C[mi]表示指代词mi的聚类,即与mi代的是同一实体的所有指代词的集合,
Figure GDA0003652388810000111
(C[mi],C[mj])表示当采取的决策是合并C[mi],C[mj]时(即D=merge(C[mi],C[mj])),决策D的概率值。
优选地,还包括判断步骤,判断指代词和其对应的先行词之间的共指概率是否大于设定阈值,删除不大于设定阈值的指代词,例如,聚类模型的输入为文档M中的指代词,参数为θC指代对层次的分类器和参数为θe的处理及截止阈值y,输出为聚类C,具体地,聚类模型的聚类程序如下:初始化指代对的列表P→[]
for每对指代对(mi,mj)∈M2(i<j)do
if pθ(mi,mj)>y,then
P·append((mi,mj))
根据
Figure GDA0003652388810000112
将P降序排序
其中,pθ(mi,mj)表示mi作为候选先行词,mj作为指代词,二者是共指的概率,θ为θC,为分类模型的参数矩阵。
进一步,优选地,按照共指概率的降序对经过判断步骤后的指代同一先行词的指代词进行排序,将共指概率最高的指代词作为中心词。
本发明之计算机可读存储介质的具体实施方式与上述指代消解方法、电子装置的具体实施方式大致相同,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种指代消解方法,应用于电子装置,其特征在于,所述方法包括:
对文本进行分词,得到指代集合及候选先行集合;
根据特征指标构建每个指代词和每个候选先行词之间的特征向量,所述特征指标包括距离特征、语法特征、语义特征和基于规则特征中的一种或多种;
模拟各指代词在各种权重矩阵下的指代各候选先行集合子集的分类情况,将每一种分类情况对应的特征向量输入分类模型,得到每个指代词对应的分类模型的权重矩阵和候选先行词子集;
采用排序模型对每个指代词的上述候选先行词子集中各候选先行词按照设定规则进行排序,得到每个指代词对应的先行词和权重;
在聚类模型聚类决策中考虑上述排序模型的权重对指代同一先行词的不同指代词进行聚类,得到指代簇;
其中,所述分类模型的训练步骤包括:
构建每一个指代词对应的候选先行集合的各子集的特征向量矩阵;
构建第一权重矩阵,所述第一权重矩阵的元素个数和候选先行集合元素个数相同;
构建每个指代词和每个候选先行集合的子集的共指概率模型;
将每一个候选先行词作为一类,通过优化损失函数得到分类模型;
根据已指代消解的文本构建训练集,所述训练集包括训练指代集合及每个指代词的正确先行词集合和错误先行词集合;
将训练集代入共指概率模型和分类模型,得到分类模型的第一权重矩阵中各权重的值。
2.根据权利要求1所述的指代消解方法,其特征在于,根据下式(1)构建所述共指概率模型:
Figure FDA0003637905910000011
其中,
Figure FDA0003637905910000012
为指代词mj和候选先行组合的子集Ai在权重矩阵下θi的共指概率,f(Ai,mj)为指代词mj对应的候选先行组合的子集Ai的特征向量矩阵。
3.根据权利要求2所述的指代消解方法,其特征在于,所述分类模型的优化损失函数通过下式(2)使用梯度下降的优化方法优化,
Figure FDA0003637905910000021
其中,C是分类模型与其他模型区分的标志,θC表示待优化的分类模型的第一权重矩阵,LCC)表示分类模型的第一权重矩阵为θC时,所造成的损失,T(m)表示指代词m的正确先行词集合,F(m)表示指代词m的错误先行词集合,λ为正则化参数,M为指代集合。
4.根据权利要求1所述的指代消解方法,其特征在于,所述排序模型进行排序的设定规则为候选先行词在正确先行词集合中最高分和在错误先行词中的最高分的两者间间隔最大。
5.根据权利要求1所述的指代消解方法,其特征在于,所述聚类模型的聚类步骤包括:
根据下式(4)构建指代对分数模型
Figure FDA0003637905910000022
其中,D表示决策,θe为经过排序模型后未指代消解的指代同一先行词的两个指代词与各自的候选先行词之间的权重构成的权重矩阵,fe(D)为决策D下,所述两个指代词之间的特征函数,
Figure FDA0003637905910000023
为在决策D下,所述两个指代词之间的指代对分数;
以指代同一先行词的多个指代词中的任一个指代词为中心词,判断其他指代词与中心词的指代对分数是否满足设定条件,将满足设定条件的其他指代词和中心词进行合并,得到属于同一先行词的指代簇。
6.根据权利要求5所述的指代消解方法,其特征在于,所述聚类模型的聚类步骤还包括:
判断指代词和其对应的先行词之间的共指概率是否大于设定阈值,删除不大于设定阈值的指代词。
7.一种电子装置,其特征在于,所述电子装置包括存储器和处理器,所述存储器中包括指代消解程序,所述指代消解程序被所述处理器执行时实现如下步骤:
对文本进行分词,得到指代集合及候选先行集合;
根据特征指标构建每个指代词和每个候选先行词之间的特征向量,所述特征指标包括距离特征、语法特征、语义特征和基于规则特征中的一种或多种;
模拟各指代词在各种权重矩阵下的指代各候选先行集合子集的分类情况,将每一种分类情况对应的特征向量输入分类模型,得到每个指代词对应的分类模型的权重矩阵和候选先行词子集;
采用排序模型对每个指代词的上述候选先行词子集中各候选先行词按照设定规则进行排序,得到每个指代词对应的先行词和权重;
在聚类决策中考虑上述排序模型的权重对指代同一先行词的不同指代词进行聚类,得到指代簇;
其中,所述分类模型的训练步骤包括:
构建每一个指代词对应的候选先行集合的各子集的特征向量矩阵;
构建第一权重矩阵,所述第一权重矩阵的元素个数和候选先行集合元素个数相同;
构建每个指代词和每个候选先行集合的子集的共指概率模型;
将每一个候选先行词作为一类,通过优化损失函数得到分类模型;
根据已指代消解的文本构建训练集,所述训练集包括训练指代集合及每个指代词的正确先行词集合和错误先行词集合;
将训练集代入共指概率模型和分类模型,得到分类模型的第一权重矩阵中各权重的值。
8.根据权利要求7所述的电子装置,其特征在于,根据下式(1)构建所述共指概率模型:
Figure FDA0003637905910000031
其中,
Figure FDA0003637905910000032
为指代词mj和候选先行组合的子集Ai在权重矩阵下θi的共指概率,f(Ai,mj)为指代词mj对应的候选先行组合的子集Ai的特征向量矩阵。
9.根据权利要求7所述的电子装置,其特征在于,所述聚类模型的聚类步骤包括:
根据下式(4)构建指代对分数模型
Figure FDA0003637905910000041
其中,D表示决策,θe为经过排序模型后未指代消解的指代同一先行词的两个指代词与各自的候选先行词之间的权重构成的权重矩阵,fe(D)为决策D下,所述两个指代词之间的特征函数,
Figure FDA0003637905910000042
为在决策D下,所述两个指代词之间的指代对分数;
以指代同一先行词的多个指代词中的任一个指代词为中心词,判断其他指代词与中心词的指代对分数是否满足设定条件,将满足设定条件的其他指代词和中心词进行合并,得到属于同一先行词的指代簇。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括指代消解程序,所述指代消解程序被处理器执行时,实现如权利要求1至6中任一项所述的指代消解方法的步骤。
CN201811168621.5A 2018-10-08 2018-10-08 指代消解方法、电子装置及计算机可读存储介质 Active CN109446517B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201811168621.5A CN109446517B (zh) 2018-10-08 2018-10-08 指代消解方法、电子装置及计算机可读存储介质
PCT/CN2019/089147 WO2020073664A1 (zh) 2018-10-08 2019-05-30 指代消解方法、电子装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811168621.5A CN109446517B (zh) 2018-10-08 2018-10-08 指代消解方法、电子装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN109446517A CN109446517A (zh) 2019-03-08
CN109446517B true CN109446517B (zh) 2022-07-05

Family

ID=65546350

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811168621.5A Active CN109446517B (zh) 2018-10-08 2018-10-08 指代消解方法、电子装置及计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN109446517B (zh)
WO (1) WO2020073664A1 (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446517B (zh) * 2018-10-08 2022-07-05 平安科技(深圳)有限公司 指代消解方法、电子装置及计算机可读存储介质
CN110134944A (zh) * 2019-04-08 2019-08-16 国家计算机网络与信息安全管理中心 一种基于强化学习的指代消解方法
CN110162600B (zh) * 2019-05-20 2024-01-30 腾讯科技(深圳)有限公司 一种信息处理的方法、会话响应的方法及装置
CN112740200B (zh) 2019-07-25 2024-05-03 百度时代网络技术(北京)有限公司 用于基于共指消解的端到端深度强化学习的系统和方法
CN110909548B (zh) * 2019-10-10 2024-03-12 平安科技(深圳)有限公司 中文命名实体识别方法、装置及计算机可读存储介质
CN113297843B (zh) * 2020-02-24 2023-01-13 华为技术有限公司 指代消解的方法、装置及电子设备
CN111522909B (zh) * 2020-04-10 2024-04-02 海信视像科技股份有限公司 一种语音交互方法及服务器
CN111611807B (zh) * 2020-05-18 2022-12-09 北京邮电大学 一种基于神经网络的关键词提取方法、装置及电子设备
CN111626042B (zh) * 2020-05-28 2023-07-21 成都网安科技发展有限公司 指代消解方法及装置
CN112183060B (zh) * 2020-09-28 2022-05-10 重庆工商大学 多轮对话系统的指代消解方法
US11645465B2 (en) 2020-12-10 2023-05-09 International Business Machines Corporation Anaphora resolution for enhanced context switching
CN112633014B (zh) * 2020-12-11 2024-04-05 厦门渊亭信息科技有限公司 一种基于神经网络的长文本指代消解方法和装置
CN113011162B (zh) * 2021-03-18 2023-07-28 北京奇艺世纪科技有限公司 一种指代消解方法、装置、电子设备及介质
CN113343980B (zh) * 2021-06-10 2023-06-09 西安邮电大学 自然场景文本检测方法及系统
CN113283240B (zh) * 2021-06-18 2023-07-07 竹间智能科技(上海)有限公司 共指消解方法及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294322A (zh) * 2016-08-04 2017-01-04 哈尔滨工业大学 一种基于lstm的汉语零指代消解方法
CN107209759A (zh) * 2015-01-23 2017-09-26 国立研究开发法人情报通信研究机构 注解辅助装置及用于其的计算机程序
CN107402913A (zh) * 2016-05-20 2017-11-28 腾讯科技(深圳)有限公司 先行词的确定方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9497153B2 (en) * 2014-01-30 2016-11-15 Google Inc. Associating a segment of an electronic message with one or more segment addressees
CN105302794B (zh) * 2015-10-30 2018-08-07 苏州大学 一种中文同指事件识别方法及系统
US20170286382A1 (en) * 2016-04-01 2017-10-05 International Business Machines Corporation Persisting annotations applied to an electronic hosted whiteboard
CN109446517B (zh) * 2018-10-08 2022-07-05 平安科技(深圳)有限公司 指代消解方法、电子装置及计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107209759A (zh) * 2015-01-23 2017-09-26 国立研究开发法人情报通信研究机构 注解辅助装置及用于其的计算机程序
CN107402913A (zh) * 2016-05-20 2017-11-28 腾讯科技(深圳)有限公司 先行词的确定方法和装置
CN106294322A (zh) * 2016-08-04 2017-01-04 哈尔滨工业大学 一种基于lstm的汉语零指代消解方法

Also Published As

Publication number Publication date
CN109446517A (zh) 2019-03-08
WO2020073664A1 (zh) 2020-04-16

Similar Documents

Publication Publication Date Title
CN109446517B (zh) 指代消解方法、电子装置及计算机可读存储介质
CN109241524B (zh) 语义解析方法及装置、计算机可读存储介质、电子设备
CN108717406B (zh) 文本情绪分析方法、装置及存储介质
CN108647205B (zh) 细粒度情感分析模型构建方法、设备及可读存储介质
CN109960726B (zh) 文本分类模型构建方法、装置、终端及存储介质
CN109471944B (zh) 文本分类模型的训练方法、装置及可读存储介质
CN107209861A (zh) 使用否定数据优化多类别多媒体数据分类
CN111324771B (zh) 视频标签的确定方法、装置、电子设备及存储介质
CN113297975A (zh) 表格结构识别的方法、装置、存储介质及电子设备
CN111177326A (zh) 基于精标注文本的关键信息抽取方法、装置及存储介质
CN110442857B (zh) 情感智能判断方法、装置及计算机可读存储介质
CN110162771B (zh) 事件触发词的识别方法、装置、电子设备
WO2021208727A1 (zh) 基于人工智能的文本错误检测方法、装置、计算机设备
CN111898374B (zh) 文本识别方法、装置、存储介质和电子设备
CN106708929B (zh) 视频节目的搜索方法和装置
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
CN112613324A (zh) 语义情绪识别方法、装置、设备及存储介质
CN110619051A (zh) 问题语句分类方法、装置、电子设备及存储介质
CN112395385A (zh) 基于人工智能的文本生成方法、装置、计算机设备及介质
CN112395421B (zh) 课程标签的生成方法、装置、计算机设备及介质
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN112597300A (zh) 文本聚类方法、装置、终端设备及存储介质
CN110287311A (zh) 文本分类方法及装置、存储介质、计算机设备
CN114330343A (zh) 词性感知嵌套命名实体识别方法、系统、设备和存储介质
CN106570196B (zh) 视频节目的搜索方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant