CN113011162B - 一种指代消解方法、装置、电子设备及介质 - Google Patents

一种指代消解方法、装置、电子设备及介质 Download PDF

Info

Publication number
CN113011162B
CN113011162B CN202110291727.XA CN202110291727A CN113011162B CN 113011162 B CN113011162 B CN 113011162B CN 202110291727 A CN202110291727 A CN 202110291727A CN 113011162 B CN113011162 B CN 113011162B
Authority
CN
China
Prior art keywords
sample
person
text
sentence
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110291727.XA
Other languages
English (en)
Other versions
CN113011162A (zh
Inventor
郭梦非
张徵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN202110291727.XA priority Critical patent/CN113011162B/zh
Publication of CN113011162A publication Critical patent/CN113011162A/zh
Application granted granted Critical
Publication of CN113011162B publication Critical patent/CN113011162B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明实施例提供了一种指代消解方法、装置、电子设备及介质,涉及数据分析技术领域,能够提高指代消解的准确度。本发明实施例包括:识别待预测文本中的人名,将识别出的人名构建为候选集。然后从候选集中选择至少两个待预测人名,分别构建每个待预测人名对应的预测样本;预测样本包括:样本标签和将待预测文本中的第三人称代词替换为第一数量个指定标识符后得到的文本,第一数量为预测样本对应的待预测人名包括的字数,预测样本的样本标签为预测样本对应的待预测人名。将预测样本输入指代消解模型,并获取指代消解模型输出的第三人称代词指代每个样本标签的概率,将概率最高的样本标签确定为第三人称代词指代的人名。

Description

一种指代消解方法、装置、电子设备及介质
技术领域
本发明涉及数据分析技术领域,特别是涉及一种指代消解方法、装置、电子设备及介质。
背景技术
在审阅海量的文学作品时,经常借用大数据和算法基础工具对文学作品进行评估分析,例如分析小说中各角色的戏份占比得到各角色的重要程度,以及分析各角色的性格等。但是文学作品中存在大量的第三人称代词,在对文学作品进行分析时,如果不能准确地识别第三人称代词所指代的角色,即不能准确地进行指代消解,则分析结果将大打折扣。
目前常规的方式是利用携带标注的语料训练深度学习网络,得到能够进行指代消解的分类模型。但是语料的标注依赖人工操作,需要耗费大量的时间和人力成本,因此有标注的语料较少,使得分类模型的训练缺少足够的训练样本,导致利用分类模型进行指代消解的准确度较低。
发明内容
本发明实施例的目的在于提供一种指代消解方法、装置、电子设备及介质,以实现提高指代消解的准确度。具体技术方案如下:
第一方面,本发明实施例提供了一种指代消解方法,所述方法包括:
识别待预测文本中的人名,将识别出的人名构建为候选集,所述待预测文本包括至少两个人名和一个第三人称代词;
从所述候选集中选择至少两个待预测人名,分别构建每个待预测人名对应的预测样本;其中,所述预测样本包括:样本标签和将所述待预测文本中的所述第三人称代词替换为第一数量个指定标识符后得到的文本,所述第一数量为所述预测样本对应的待预测人名包括的字数,所述预测样本包括的样本标签为所述预测样本对应的待预测人名;
将构建的各预测样本输入指代消解模型,并获取所述指代消解模型输出的所述第三人称代词指代每个样本标签的概率,将概率最高的样本标签确定为所述第三人称代词指代的人名;
其中,所述指代消解模型为基于样本训练集对神经网络模型进行训练得到的模型,所述样本训练集包括多组训练样本,每组训练样本包括正样本和负样本,所述正样本包括:正样本标签和将样本文本中的一个所述正样本标签替换为第二数量个指定字符后得到的文本,所述正样本标签为所述样本文本中出现至少两次的人名,所述第二数量为所述正样本标签对应的人名包括的字数;所述负样本包括:负样本标签和将所述样本文本中的一个所述正样本标签替换为第三数量个指定字符后得到的文本,所述负样本标签为所述样本文本中出现一次的人名,所述第三数量为所述样本文本中出现一次的人名包括的字数,所述样本文本中被替换的正样本标签位于所述样本文本包括的各人名第一次出现的位置之后。
可选的,所述指代消解模型通过以下步骤训练获得:
将所述样本训练集中的一组训练样本输入所述神经网络模型;
获取所述神经网络模型的输出结果,所述输出结果包括正样本中的指定标识符为正样本标签的概率以及负样本中的指定标识符为负样本标签的概率;
根据所述正样本中的指定标识符为正样本标签的概率以及所述负样本中的指定标识符为负样本标签的概率,计算损失函数值;
根据所述损失函数值,确定所述神经网络模型是否收敛;
若所述神经网络模型未收敛,则根据所述损失函数值更新所述神经网络模型的网络参数,并返回所述将所述样本训练集中的一组训练样本输入所述神经网络模型的步骤;
若所述神经网络模型收敛,则将当前的神经网络模型作为所述指代消解模型。
可选的,所述样本训练集通过以下步骤构建:
选择预设文学作品中的一个句子作为目标句子;
将所述目标句子包括的字符数与预设长度阈值进行比较;
如果所述目标句子包括的字符数大于预设长度阈值,则将预设文学作品中与所述目标句子相邻的下一个句子作为目标句子,并返回将所述目标句子包括的字符数与预设长度阈值进行比较的步骤;
如果所述目标句子包括的字符数等于所述预设长度阈值,则在所述目标句子满足预设样本条件的情况下,将所述目标句子作为一个样本文本,并将预设文学作品中与所述目标句子相邻的下一个句子作为目标句子,并返回将所述目标句子包括的字符数与预设长度阈值进行比较的步骤;所述预设样本条件包括:样本文本中存在多个不同的人名,其中一个人名出现至少两次且其中一次出现位置位于所述多个不同的人名第一次出现的位置之后;
如果所述目标句子包括的字符数小于所述预设长度阈值,则依次将所述预设文学作品中,所述目标句子之后的每个句子包括的字符数与所述目标句子包括的字符数进行累加,每累加一个句子包括的字符数,判断累加值是否大于或者等于所述预设长度阈值,直至得到的累加值大于或者等于所述预设长度阈值;
如果得到的累加值等于所述预设长度阈值,则将所述目标句子和累加的句子作为候选样本;或者,如果得到的累加值大于所述预设长度阈值,则将所述目标句子和累加的句子中除最后一个句子之外的句子作为候选样本;
在所述候选样本满足所述预设样本条件的情况下,将所述候选样本作为一个样本文本;并将预设文学作品中与所述候选样本相邻的下一个句子作为目标句子,并返回将所述目标句子包括的字符数与预设长度阈值进行比较的步骤;
分别针对每个样本文本生成一组训练样本,得到所述样本训练集。
可选的,所述根据所述正样本中的指定标识符为正样本标签的概率以及所述负样本中的指定标识符为负样本标签的概率,计算损失函数值,包括:
通过以下公式,计算所述损失函数值:
L=-logP(A|t1)+α·max(0,logP(B|t2)-logP(A|t1)+β)
其中,L为所述损失函数值,P(A|t1)为所述正样本t1中的指定标识符为正样本标签A的概率,P(B|t2)为所述负样本t2中的指定标识符为负样本标签B的概率,α和β为预设超参数。
可选的,所述从所述候选集中选择至少两个待预测人名,包括:
对所述候选集中的每个人名与所述第三人称代词之间的关系进行依存句法分析,并对所述候选集中的每个人名进行性别识别;
将与所述第三人称代词之间符合依存关系、且与所述第三人称代词指代的人名性别相同的至少两个人名作为待预测人名。
第二方面,本发明实施例提供了一种指代消解装置,所述装置包括:
识别模块,用于识别待预测文本中的人名,将识别出的人名构建为候选集,所述待预测文本包括至少两个人名和一个第三人称代词;
构建模块,用于从所述候选集中选择至少两个待预测人名,分别构建每个待预测人名对应的预测样本;其中,所述预测样本包括:样本标签和将所述待预测文本中的所述第三人称代词替换为第一数量个指定标识符后得到的文本,所述第一数量为所述预测样本对应的待预测人名包括的字数,所述预测样本包括的样本标签为所述预测样本对应的待预测人名;
获取模块,用于将构建的各预测样本输入指代消解模型,并获取所述指代消解模型输出的所述第三人称代词指代每个样本标签的概率,将概率最高的样本标签确定为所述第三人称代词指代的人名;
其中,所述指代消解模型为基于样本训练集对神经网络模型进行训练得到的模型,所述样本训练集包括多组训练样本,每组训练样本包括正样本和负样本,所述正样本包括:正样本标签和将样本文本中的一个所述正样本标签替换为第二数量个指定字符后得到的文本,所述正样本标签为所述样本文本中出现至少两次的人名,所述第二数量为所述正样本标签对应的人名包括的字数;所述负样本包括:负样本标签和将所述样本文本中的一个所述正样本标签替换为第三数量个指定字符后得到的文本,所述负样本标签为所述样本文本中出现一次的人名,所述第三数量为所述样本文本中出现一次的人名包括的字数,所述样本文本中被替换的正样本标签位于所述样本文本包括的各人名第一次出现的位置之后。
可选的,所述装置还包括训练模块;所述训练模块,用于:
将所述样本训练集中的一组训练样本输入所述神经网络模型;
获取所述神经网络模型的输出结果,所述输出结果包括正样本中的指定标识符为正样本标签的概率以及负样本中的指定标识符为负样本标签的概率;
根据所述正样本中的指定标识符为正样本标签的概率以及所述负样本中的指定标识符为负样本标签的概率,计算损失函数值;
根据所述损失函数值,确定所述神经网络模型是否收敛;
若所述神经网络模型未收敛,则根据所述损失函数值更新所述神经网络模型的网络参数,并返回所述将所述样本训练集中的一组训练样本输入所述神经网络模型的步骤;
若所述神经网络模型收敛,则将当前的神经网络模型作为所述指代消解模型。
可选的,所述构建模块,还用于:
选择预设文学作品中的一个句子作为目标句子;
将所述目标句子包括的字符数与预设长度阈值进行比较;
如果所述目标句子包括的字符数大于预设长度阈值,则将预设文学作品中与所述目标句子相邻的下一个句子作为目标句子,并返回将所述目标句子包括的字符数与预设长度阈值进行比较的步骤;
如果所述目标句子包括的字符数等于所述预设长度阈值,则在所述目标句子满足预设样本条件的情况下,将所述目标句子作为一个样本文本,并将预设文学作品中与所述目标句子相邻的下一个句子作为目标句子,并返回将所述目标句子包括的字符数与预设长度阈值进行比较的步骤;所述预设样本条件包括:样本文本中存在多个不同的人名,其中一个人名出现至少两次且其中一次出现位置位于所述多个不同的人名第一次出现的位置之后;
如果所述目标句子包括的字符数小于所述预设长度阈值,则依次将所述预设文学作品中,所述目标句子之后的每个句子包括的字符数与所述目标句子包括的字符数进行累加,每累加一个句子包括的字符数,判断累加值是否大于或者等于所述预设长度阈值,直至得到的累加值大于或者等于所述预设长度阈值;
如果得到的累加值等于所述预设长度阈值,则将所述目标句子和累加的句子作为候选样本;或者,如果得到的累加值大于所述预设长度阈值,则将所述目标句子和累加的句子中除最后一个句子之外的句子作为候选样本;
在所述候选样本满足所述预设样本条件的情况下,将所述候选样本作为一个样本文本;并将预设文学作品中与所述候选样本相邻的下一个句子作为目标句子,并返回将所述目标句子包括的字符数与预设长度阈值进行比较的步骤;
分别针对每个样本文本生成一组训练样本,得到所述样本训练集。
可选的,所述训练模块,具体用于:
通过以下公式,计算所述损失函数值:
L=-logP(A|t1)+α·max(0,logP(B|t2)-logP(A|t1)+β)
其中,L为所述损失函数值,P(A|t1)为所述正样本t1中的指定标识符为正样本标签A的概率,P(B|t2)为所述负样本t2中的指定标识符为负样本标签B的概率,α和β为预设超参数。
可选的,所述构建模块,具体用于:
对所述候选集中的每个人名与所述第三人称代词之间的关系进行依存句法分析,并对所述候选集中的每个人名进行性别识别;
将与所述第三人称代词之间符合依存关系、且与所述第三人称代词指代的人名性别相同的至少两个人名作为待预测人名。
第三方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一指代消解方法的步骤。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一指代消解方法的步骤。
第五方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一指代消解方法的步骤。
本发明实施例提供的指代消解方法、装置、电子设备及介质,通过利用指代消解模型识别待预测文本中的第三人称代词指代的人名,完成指代消解。由于指代消解模型基于样本训练集训练获得,且样本训练集中的正样本包括:正样本标签和将样本文本中的一个正样本标签替换为正样本标签对应的人名包括的字数个指定字符后得到的文本,正样本标签为样本文本中出现至少两次的人名;负样本包括:负样本标签和将样本文本中的一个正样本标签替换为样本文本中出现一次的人名包括的字数个指定字符后得到的文本,负样本标签为所述样本文本中出现一次的人名。由于正样本标签为样本文本中被替换的人名,负样本标签为样本文本中与被替换人名不同的另一个人名,即训练指定消解模型的正负样本标签可以从样本文本中获得,对正负样本的标注不依赖人工判断,因此节省了人工标记耗费的人力成本和时间。而且由于训练样本是自动生成的,因此能够自动生成足够的训练样本训练神经网络模型,进而得到准确度较高的指代消解模型,因此本发明实施例能够提高指代消解的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例提供的一种指代消解方法的流程图;
图2为本发明实施例提供的一种指代消解模型训练方法的流程图;
图3为本发明实施例提供的一种构建样本训练集的方法流程图;
图4为本发明实施例提供的一种指代消解方法的流程示意图;
图5为本发明实施例提供的一种指代消解装置的结构示意图;
图6为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
为了提高指代消解的准确度,本发明实施例提供了一种指代消解方法,可以应用于电子设备,例如电子设备为:服务器、手机或者计算机等具备文本处理能力的设备。如图1所示,该方法包括如下步骤:
S101,识别待预测文本中的人名,将识别出的人名构建为候选集。
S102,从候选集中选择至少两个待预测人名,分别构建每个待预测人名对应的预测样本。
其中,预测样本包括:样本标签和将待预测文本中的第三人称代词替换为第一数量个指定标识符后得到的文本,第一数量为预测样本对应的待预测人名包括的字数,预测样本包括的样本标签为待预测文本对应的待预测人名。
S103,将构建的各预测样本输入指代消解模型,并获取指代消解模型输出的第三人称代词指代每个样本标签的概率,将概率最高的样本标签确定为第三人称代词指代的人名。
其中,指代消解模型为基于样本训练集对神经网络模型进行训练得到的模型。样本训练集包括多组训练样本,每组训练样本包括正样本和负样本,正样本包括:正样本标签和将样本文本中的一个正样本标签替换为第二数量个指定字符后得到的文本,正样本标签为样本文本中出现至少两次的人名,第二数量为正样本标签对应的人名包括的字数;负样本包括:负样本标签和将样本文本中的一个正样本标签替换为第三数量个指定字符后得到的文本,负样本标签为所述样本文本中出现一次的人名,第三数量为样本文本中出现一次的人名包括的字数,而且样本文本中被替换的正样本标签位于样本文本包括的各人名第一次出现的位置之后。
本发明实施例提供的指代消解方法,通过利用指代消解模型识别待预测文本中的第三人称代词指代的人名,完成指代消解。由于指代消解模型基于样本训练集训练获得,且样本训练集中的正样本包括:正样本标签和将样本文本中的一个正样本标签替换为正样本标签对应的人名包括的字数个指定字符后得到的文本,正样本标签为样本文本中出现至少两次的人名;负样本包括:负样本标签和将样本文本中的一个正样本标签替换为样本文本中出现一次的人名包括的字数个指定字符后得到的文本,负样本标签为所述样本文本中出现一次的人名。由于正样本标签为样本文本中被替换的人名,负样本标签为样本文本中与被替换人名不同的另一个人名,即训练指定消解模型的正负样本标签可以从样本文本中获得,对正负样本的标注不依赖人工判断,因此节省了人工标记耗费的人力成本和时间。而且由于训练样本是自动生成的,因此能够自动生成足够的训练样本训练神经网络模型,进而得到准确度较高的指代消解模型,因此本发明实施例能够提高指代消解的准确度。
针对上述S101,作为示例,可以识别文本中的姓氏,选择姓氏后长度为2或3的字符串,并将选择的字符串匹配名字词典,若选择的字符串与名字词典匹配,则确定姓氏与选择字符串为一个人名。也可以采用相关技术中的其他识别人名的方法,本发明实施例对此不作限定。
其中,待预测文本包括至少两个人名和一个第三人称代词。例如,第三人称代词包括:他和她。
例如,待预测文本为:“欧阳锋知道郭靖不会相信他已经利用了黄蓉去找周伯通”,待预测文本中的人名包括:欧阳锋、郭靖、黄蓉和周伯通,人名组成的候选集为:“欧阳锋”、“郭靖”、“黄蓉”、“周伯通”。
针对上述S102,在本发明实施例中,若候选集中只有一个人名,则可以将候选集中的人名确定为第三人称代词指定的人名。若候选集中的人名数量超过一个,则可以将各人名均作为待预测人名。
例如,待预测文本为:“欧阳锋知道郭靖不会相信他”,候选集为:“欧阳锋”、“郭靖”。从候选集中选择“欧阳锋”和“郭靖”。
针对“欧阳锋”构建的预测样本为:(Tokens_1:[“[CLS]”,“欧”,“阳”,“锋”,知”,“道”,“郭”,“靖”,“不”,“会”,“相”,“信”,“[MASK]”,“[MASK]”,“[MASK]”,“[SEP]”],label:欧阳锋)。其中,Tokens_1表示样本1,[CLS]为样本的开始标识符,[SEP]为样本的结尾标识符,[MASK]为指定标识符,label表示样本的标签。
针对“郭靖”构建的预测样本为:(Tokens_2:[“[CLS]”,“欧”,“阳”,“锋”,知”,“道”,“郭”,“靖”,“不”,“会”,“相”,“信”,“[MASK]”,“[MASK]”,“[SEP]”],label:郭靖)。
针对上述S103,例如,指代消解模型输出结果为:P(欧阳锋|tokens_1)=0.6,P(郭靖|tokens_2)=0.4,其中,P(欧阳锋|tokens_1)表示样本1中的第三人称代词指代“欧阳锋”的概率,P(郭靖|tokens_2)表示样本2中的第三人称代词指代“郭靖”的概率。0.6>0.2,因此确定待预测文本中第三人称代词指代的人名为“欧阳锋”。
在本发明实施例中,从候选集中选择待预测人名时,可以先从候选集中筛选出满足条件的待预测人名,再从满足条件的待预测人名中选择人名。基于此,上述S102从候选集中选择至少两个待预测人名的方式可以实现为:对候选集中的每个人名与第三人称代词之间的关系进行依存句法分析,并对候选集中的每个人名进行性别识别。然后将与第三人称代词之间符合依存关系、且与第三人称代词指代的人名性别相同的至少两个人名作为待预测人名。
依存句法分析可以分析词语之间的依存关系,即分析词语之间在句法上的搭配关系,这种搭配关系与语义相关联。
性别识别可以确定人名表示的人的性别。
在本发明实施例中,第三人称代词“她”指代的人名性别为女;第三人称代词“他”指代的人名性别为男。
在本发明实施例中,在进行依存句法分析和性别识别后,若与第三人称代词之间符合依存关系、且与第三人称代词指代的人名性别相同的人名只有一个,则将该人名确定为第三人称代词指代的人名。若与第三人称代词之间符合依存关系、且与第三人称代词指代的人名性别相同的人名超过一个,则将与第三人称代词之间符合依存关系、且与第三人称代词指代的人名性别相同的各人名,均作为待预测人名。
例如,待预测文本为:“欧阳锋知道郭靖不会相信他已经利用了黄蓉去找周伯通”,候选集为:“欧阳锋”、“郭靖”、“黄蓉”、“周伯通”。假设“黄蓉”和“他”指代的人名性别不同,“周伯通”与“他”之间不符合依存关系,而“欧阳锋”/“郭靖”与“他”之间符合依存关系、且与“他”指代的人名性别相同,因此选择“欧阳锋”和“郭靖”作为待预测人名。
由于本发明实施例能够先分析待预测文本中的人名与第三人称代词之间的依存关系,并识别待预测文本中的人名表示的人的性别,进而将与第三人称代词之间符合依存关系、且与第三人称代词指代的人名性别相同的人名作为待预测人名。从而避免选择与第三人称代词之间不满足依存关系、或者与第三人称代词指代的人名性别不同的人名,而导致构建这些人名对应的预测样本,及识别这些预测样本所消耗的时间,提高了指代消解的效率。
如图2所示,上述S103中的指代消解模型可以通过以下步骤训练获得:
S201,将样本训练集中的一组训练样本输入神经网络模型。
在本发明实施例中,获得指代消解模型可采用微调(Fine-tune)训练方式,即在预先训练好的神经网络模型的基础上进行微调。即S202中的神经网络模型可以为预先训练好的神经网络模型,该神经网络模型能够初步进行指代消解,但指代消解结果准确度还需要进一步提升。例如,可以利用人工标注的样本对来自变压器的双向编码表示(Bidirectional Encoder Representation from Transformers,BERT)模型进行预训练,得到训练好的BERT神经网络模型。然后再利用图2所示的方式,对训练好的BERT神经网络模型进行训练,得到指代消解模型。
其中,微调可以为仅调整神经网络模型的部分网络层的网络参数,或者也可以调整各网络层的网络参数。
S202,获取神经网络模型的输出结果。其中,输出结果包括正样本中的指定标识符为正样本标签的概率以及负样本中的指定标识符为负样本标签的概率。
S203,根据正样本中的指定标识符为正样本标签的概率以及负样本中的指定标识符为负样本标签的概率,计算损失函数值。
一种实施方式中,可以通过公式(1),计算损失函数值:
L=-logP(A|t1)+α·max(0,logP(B|t2)-logP(A|t1)+β) (1)
其中,L为损失函数值,P(A|t1)为正样本t1中的指定标识符为正样本标签A的概率,P(B|t2)为负样本t2中的指定标识符为负样本标签B的概率,α和β为预设超参数。
指代消解模型输出的P(A|t1)为正样本中的指定标识符为正样本标签包括的各字符的平均概率,P(B|t2)为负样本中的指定标识符为负样本标签包括的各字符的平均概率。例如,P(欧阳锋|tokens_1)=([P(欧|tokens_1)+P(阳|tokens_1)+P(锋|tokens_1)])/3。
从公式(1)中可以看出,当(logP(B|t2)-logP(A|t1)+β)>0时,L=αlogP(B|t2)-(α+1)logP(A|t1)+αβ。由于P(A|t1)∈[0,1]且P(B|t2)∈[0,1],所以当L越接近0时,logP(B|t2)越小,即P(B|t2)越接近0;而且当L越接近0时,logP(A|t1)越大,即P(A|t1)越接近1。
当(logP(B|t2)-logP(A|t1)+β)≤0时,L=-logP(A|t1)。由于P(A|t1)∈[0,1],所以当L越接近0时,logP(A|t1)越小,即P(A|t1)越接近1。
可见本发明实施例中,当损失函数L越接近0,P(B|t2)越接近0且P(A|t1)越接近1。因此在神经网络模型训练过程中最小化损失函数,即使得神经网络模型输出的P(A|t1)的值更大,且输出的P(B|t2)的值更小,因此提高了指代消解模型的识别准确度。
S204,根据损失函数值,确定神经网络模型是否收敛。若神经网络模型未收敛,则执行S205;若神经网络模型收敛,则执行S206。
一种实施方式中,可以确定本次计算的损失函数值和模型迭代过程中上一次计算的损失函数值之间的差值是否小于预设差值。若是,则确定神经网络模型收敛,若否,则神经网络模型未收敛。
另一种实施方式中,可以确定本次计算的损失函数值是否小于预设阈值。若是,则确定神经网络模型收敛,若否,则神经网络模型未收敛。
S205,根据损失函数值更新神经网络模型的网络参数,并返回S201。
一种实施方式中,以最小化损失函数为目标,利用梯度下降的方式,更新神经网络模型的网络参数。
S206,将当前的神经网络模型作为指代消解模型。
由于本发明实施例中可以对无标注的文本进行自动标注,实现了自动确定正负样本标签,从而在训练神经网络模型时采用有监督训练的方式,使得模型在训练过程中的识别结果更准确,提高了训练得到的指代消解模型的识别准确性和有效性。
同时,利用预先训练好的模型进行fine-tune训练,能够有效节省训练模型所消耗的资源和时间成本。
在本发明实施例中,上述样本训练集的构建过程如图3所示,构建样本训练集的方式包括如下步骤:
S301,选择预设文学作品中的一个句子作为目标句子。
例如,文学作品包括:小说、剧本、新闻等。
一种实施方式中,可以从预设文学作品正文内容的第一个句子开始,将第一个句子作为目标句子。
可选的,可以通过文学作品中的标点符号,识别文学作品中每个完整的句子。例如,若识别到句号、感叹号、问号,或者识别到下引号与句号、下引号与感叹号、下引号与问号的组合,则确定一个句子结束。
S302,将目标句子包括的字符数与预设长度阈值进行比较。
例如,预设长度阈值为256个字符。
S303,如果目标句子包括的字符数大于预设长度阈值,则将预设文学作品中与目标句子相邻的下一个句子作为目标句子,并返回S302。
在本发明实施例中,对于长度过长的句子,由于这种句子中包括的字数过多,因此句法结构较复杂,加重了模型的识别复杂度,不利于模型学习指代消解,因此不利用这种句子构建训练样本。
S304,如果目标句子包括的字符数等于预设长度阈值,则在目标句子满足预设样本条件的情况下,将目标句子作为一个样本文本,并将预设文学作品中与目标句子相邻的下一个句子作为目标句子,并返回S302。
其中,预设样本条件包括:样本文本中存在多个不同的人名,其中一个人名出现至少两次且其中一次出现位置位于多个不同的人名第一次出现的位置之后。
S305,如果目标句子包括的字符数小于预设长度阈值,则依次将预设文学作品中,目标句子之后的每个句子包括的字符数与目标句子包括的字符数进行累加,每累加一个句子包括的字符数,判断累加值是否大于或者等于预设长度阈值,直至得到的累加值大于或者等于预设长度阈值。
S306,如果得到的累加值等于预设长度阈值,则将目标句子和累加的句子作为候选样本;或者,如果得到的累加值大于预设长度阈值,则将目标句子和累加的句子中除最后一个句子之外的句子作为候选样本。
结合S301-S306举例,假设文学作品包括:句子1、句子2和句子3,其中句子1的字符数为100,句子2的字符数为120,字符3的字符数为150,预设长度阈值为256。将句子1作为目标句子,句子1的字符数100<256,则累加句子1和句子2的字符总数为220<256,继续累加句子1、句子2和句子3的字符总数为370>256,因此将句子1和句子2作为候选样本。
S307,在候选样本满足预设样本条件的情况下,将候选样本作为一个样本文本;并将预设文学作品中与候选样本相邻的下一个句子作为目标句子,并返回S302。
在本发明实施例中,在S303、S304和S307返回S302之前,均可以判断当前是否满足停止迭代条件,在满足时,执行S308,在不满足时,返回S302。
其中,停止迭代条件包括:识别到当前文学作品正文内容的最后一句、或者当前确定的样本文本数量达到预设数量。
例如,假设停止迭代条件为当前确定的样本文本数量达到预设数量,若当前文学作品的正文内容均识别完毕时当前确定的样本文本数量还未达到预设数量,则将下一个文学作品的第一个句子作为目标句子,并返回S302。
S308,分别针对每个样本文本生成一组训练样本,得到样本训练集。
在上述S303、S304和S307之后,若当前满足停止迭代条件,则均可执行S308。
一种实施方式中,针对每个样本文本,将样本文本中出现至少两次的人名作为正样本标签,并将样本文本中出现一次的人名作为负样本标签;将样本文本中的一个正样本标签替换为第二数量个指定字符后得到的文本,作为正样本包括的文本;将样本文本中的一个正样本标签替换为第三数量个指定字符后得到的文本,作为负样本包括的文本。其中,样本文本中被替换的正样本标签位于样本文本包括的各人名第一次出现的位置之后。
可选的,若位于样本文本包括的各人名第一次出现的位置之后的正样本标签有多个,可以按照顺序选择其中一个,或者随机选择其中一个,或者按照预设概率选择其中一个。
例如,样本文本为“欧阳锋指着黄蓉说:“如果你不去找郭靖,我就去找郭靖,还是你想跟我一起找郭靖?””该样本文本中包括三个人名,分别为“欧阳锋”、“黄蓉”、“郭靖”。其中,“郭靖”出现三次且“郭靖”后两次出现的位置均位于“欧阳锋”、“黄蓉”和“郭靖”第一次出现的位置之后。在构建训练样本时,可以替换第二次出现的“郭靖”,或者替换第三次出现的“郭靖”,或者还可以按照第二次出现的“郭靖”和第三次出现的“郭靖”各50%的概率,确定被替换的“郭靖”。
在本发明实施例中,每组训练样本包括的负样本数量可以为一个或多个。在样本文本中出现一次的人名有多个的情况下,可以选择其中部分人名,分别作为一个负样本标签,或者也可以将样本文本中出现一次的人名均分别作为一个负样本标签,然后针对每个负样本标签构建一个负样本。
例如,一个样本文本为:“欧阳锋打了郭靖一拳,然后欧阳锋说:“交出九阴真经,不然继续打你”。然后,二人打了起来。”其中,“欧阳锋”出现两次,“郭靖”出现一次,将“欧阳锋”作为正样本标签,将“郭靖”作为负样本标签。
正样本为:(Tokens_1:[“[CLS]”,“欧”,“阳”,“锋”,“打”,“了”,“郭”,“靖”,“一”,“拳”,“,”,“然”,“后”,“[MASK]”,“[MASK]”,“[MASK]”,“说”,“:”,““”,“交”,“出”,“九”,“阴”,“真”,“经”,“,”,“不”,“然”,“继”,“续”,“打”,“你”,“””,“。”,“然”,“后”,“,”,“二”,“人”,“打”,“了”,“起”,“来”,“[SEP]”],label:欧阳锋)
负样本为:(Tokens_2:[“[CLS]”,“欧”,“阳”,“锋”,“打”,“了”,“郭”,“靖”,“一”,“拳”,“,”,“然”,“后”,“[MASK]”,“[MASK]”,“说”,“:”,““”,“交”,“出”,“九”,“阴”,“真”,“经”,“,”,“不”,“然”,“继”,“续”,“打”,“你”,“””,“。”,“然”,“后”,“,”,“二”,“人”,“打”,“了”,“起”,“来”,“[SEP]”],label:郭靖)
由于本发明实施例能够对无标注的小说、剧本等文学作品进行自动标注,节省了大量人工标注训练语料所消耗的时间和人力成本。
如图4所示,以下对本发明实施例提供的指代消解方法的整体流程进行说明,以上述预设文学作品为小说为例,该方法具体包括以下步骤:
步骤一,从无标注小说中提取多个样本文本,并针对每个样本文本生成一组训练样本,得到有标注训练样本。
其中,无标注小说包括的文本内容未添加样本标签。
针对每个样本文本生成一组训练样本的方法可参考上述实施例中的相关描述,此处不再赘述。
步骤二,利用有标注训练样本对BERT预训练模型进行fine-tune训练,得到指代消解模型。
步骤三,从文学作品中提取待预测文本,并针对待预测文本生成一组预测样本。
步骤四,将预测样本输入指代消解模型,得到指代消解结果。
由于本发明实施例能够自动对样本进行标注,进而自动生成足够多的训练样本,使得利用足够的训练样本训练得到的指代消解模型进行指代消解的准确度更高,因此能够提高对文学作品进行评估分析的精确度,提高评分分析系统的服务质量,进而有利于提高文学作品的质量水平。
基于相同的发明构思,对应于上述方法实施例,本发明实施例提供了一种指代消解装置,如图5所示,该装置包括:识别模块501、构建模块502和获取模块503;
识别模块501,用于识别待预测文本中的人名,将识别出的人名构建为候选集,待预测文本包括至少两个人名和一个第三人称代词;
构建模块502,用于从候选集中选择至少两个待预测人名,分别构建每个待预测人名对应的预测样本;其中,预测样本包括:样本标签和将待预测文本中的第三人称代词替换为第一数量个指定标识符后得到的文本,第一数量为预测样本对应的待预测人名包括的字数,预测样本包括的样本标签为预测样本对应的待预测人名;
获取模块503,用于将构建的各预测样本输入指代消解模型,并获取指代消解模型输出的第三人称代词指代每个样本标签的概率,将概率最高的样本标签确定为第三人称代词指代的人名;
其中,指代消解模型为基于样本训练集对神经网络模型进行训练得到的模型,样本训练集包括多组训练样本,每组训练样本包括正样本和负样本,正样本包括:正样本标签和将样本文本中的一个正样本标签替换为第二数量个指定字符后得到的文本,正样本标签为样本文本中出现至少两次的人名,第二数量为正样本标签对应的人名包括的字数;负样本包括:负样本标签和将样本文本中的一个正样本标签替换为第三数量个指定字符后得到的文本,负样本标签为样本文本中出现一次的人名,第三数量为样本文本中出现一次的人名包括的字数,样本文本中被替换的正样本标签位于样本文本包括的各人名第一次出现的位置之后。
可选的,该装置还包括训练模块;训练模块,用于:
将样本训练集中的一组训练样本输入神经网络模型;
获取神经网络模型的输出结果,输出结果包括正样本中的指定标识符为正样本标签的概率以及负样本中的指定标识符为负样本标签的概率;
根据正样本中的指定标识符为正样本标签的概率以及负样本中的指定标识符为负样本标签的概率,计算损失函数值;
根据损失函数值,确定神经网络模型是否收敛;
若神经网络模型未收敛,则根据损失函数值更新神经网络模型的网络参数,并返回将样本训练集中的一组训练样本输入神经网络模型的步骤;
若神经网络模型收敛,则将当前的神经网络模型作为指代消解模型。
可选的,构建模块502,还用于:
选择预设文学作品中的一个句子作为目标句子;
将目标句子包括的字符数与预设长度阈值进行比较;
如果目标句子包括的字符数大于预设长度阈值,则将预设文学作品中与目标句子相邻的下一个句子作为目标句子,并返回将目标句子包括的字符数与预设长度阈值进行比较的步骤;
如果目标句子包括的字符数等于预设长度阈值,则在目标句子满足预设样本条件的情况下,将目标句子作为一个样本文本,并将预设文学作品中与目标句子相邻的下一个句子作为目标句子,并返回将目标句子包括的字符数与预设长度阈值进行比较的步骤;预设样本条件包括:样本文本中存在多个不同的人名,其中一个人名出现至少两次且其中一次出现位置位于多个不同的人名第一次出现的位置之后;
如果目标句子包括的字符数小于预设长度阈值,则依次将预设文学作品中,目标句子之后的每个句子包括的字符数与目标句子包括的字符数进行累加,每累加一个句子包括的字符数,判断累加值是否大于或者等于预设长度阈值,直至得到的累加值大于或者等于预设长度阈值;
如果得到的累加值等于预设长度阈值,则将目标句子和累加的句子作为候选样本;或者,如果得到的累加值大于预设长度阈值,则将目标句子和累加的句子中除最后一个句子之外的句子作为候选样本;
在候选样本满足预设样本条件的情况下,将候选样本作为一个样本文本;并将预设文学作品中与候选样本相邻的下一个句子作为目标句子,并返回将目标句子包括的字符数与预设长度阈值进行比较的步骤;
分别针对每个样本文本生成一组训练样本,得到样本训练集。
可选的,训练模块,具体用于:
通过以下公式,计算损失函数值:
L=-logP(A|t1)+α·max(0,logP(B|t2)-logP(A|t1)+β)
其中,L为损失函数值,P(A|t1)为正样本t1中的指定标识符为正样本标签A的概率,P(B|t2)为负样本t2中的指定标识符为负样本标签B的概率,α和β为预设超参数。
可选的,构建模块502,具体用于:
对候选集中的每个人名与第三人称代词之间的关系进行依存句法分析,并对候选集中的每个人名进行性别识别;
将与第三人称代词之间符合依存关系、且与第三人称代词指代的人名性别相同的至少两个人名作为待预测人名。
本发明实施例还提供了一种电子设备,如图6所示,包括处理器601、通信接口602、存储器603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信,
存储器603,用于存放计算机程序;
处理器601,用于执行存储器603上所存放的程序时,实现上述方法实施例中的方法步骤。
上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述实施例中任一所述的指代消解方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的指代消解方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (12)

1.一种指代消解方法,其特征在于,所述方法包括:
识别待预测文本中的人名,将识别出的人名构建为候选集,所述待预测文本包括至少两个人名和一个第三人称代词;
从所述候选集中选择至少两个待预测人名,分别构建每个待预测人名对应的预测样本;其中,所述预测样本包括:样本标签和将所述待预测文本中的所述第三人称代词替换为第一数量个指定标识符后得到的文本,所述第一数量为所述预测样本对应的待预测人名包括的字数,所述预测样本包括的样本标签为所述预测样本对应的待预测人名;
将构建的各预测样本输入指代消解模型,并获取所述指代消解模型输出的所述第三人称代词指代每个样本标签的概率,将概率最高的样本标签确定为所述第三人称代词指代的人名;
其中,所述指代消解模型为基于样本训练集对神经网络模型进行训练得到的模型,所述样本训练集包括多组训练样本,每组训练样本包括正样本和负样本,所述正样本包括:正样本标签和将样本文本中的一个所述正样本标签替换为第二数量个指定字符后得到的文本,所述正样本标签为所述样本文本中出现至少两次的人名,所述第二数量为所述正样本标签对应的人名包括的字数;所述负样本包括:负样本标签和将所述样本文本中的一个所述正样本标签替换为第三数量个指定字符后得到的文本,所述负样本标签为所述样本文本中出现一次的人名,所述第三数量为所述样本文本中出现一次的人名包括的字数,所述样本文本中被替换的正样本标签位于所述样本文本包括的各人名第一次出现的位置之后;
所述样本训练集通过以下步骤构建:
选择预设文学作品中的一个句子作为目标句子;
将所述目标句子包括的字符数与预设长度阈值进行比较;
如果所述目标句子包括的字符数大于预设长度阈值,则将预设文学作品中与所述目标句子相邻的下一个句子作为目标句子,并返回将所述目标句子包括的字符数与预设长度阈值进行比较的步骤;
如果所述目标句子包括的字符数等于所述预设长度阈值,则在所述目标句子满足预设样本条件的情况下,将所述目标句子作为一个样本文本,并将预设文学作品中与所述目标句子相邻的下一个句子作为目标句子,并返回将所述目标句子包括的字符数与预设长度阈值进行比较的步骤;所述预设样本条件包括:样本文本中存在多个不同的人名,其中一个人名出现至少两次且其中一次出现位置位于所述多个不同的人名第一次出现的位置之后;
分别针对每个样本文本生成一组训练样本,得到所述样本训练集。
2.根据权利要求1所述的方法,其特征在于,所述指代消解模型通过以下步骤训练获得:
将所述样本训练集中的一组训练样本输入所述神经网络模型;
获取所述神经网络模型的输出结果,所述输出结果包括正样本中的指定标识符为正样本标签的概率以及负样本中的指定标识符为负样本标签的概率;
根据所述正样本中的指定标识符为正样本标签的概率以及所述负样本中的指定标识符为负样本标签的概率,计算损失函数值;
根据所述损失函数值,确定所述神经网络模型是否收敛;
若所述神经网络模型未收敛,则根据所述损失函数值更新所述神经网络模型的网络参数,并返回所述将所述样本训练集中的一组训练样本输入所述神经网络模型的步骤;
若所述神经网络模型收敛,则将当前的神经网络模型作为所述指代消解模型。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
如果所述目标句子包括的字符数小于所述预设长度阈值,则依次将所述预设文学作品中,所述目标句子之后的每个句子包括的字符数与所述目标句子包括的字符数进行累加,每累加一个句子包括的字符数,判断累加值是否大于或者等于所述预设长度阈值,直至得到的累加值大于或者等于所述预设长度阈值;
如果得到的累加值等于所述预设长度阈值,则将所述目标句子和累加的句子作为候选样本;或者,如果得到的累加值大于所述预设长度阈值,则将所述目标句子和累加的句子中除最后一个句子之外的句子作为候选样本;
在所述候选样本满足所述预设样本条件的情况下,将所述候选样本作为一个样本文本;并将预设文学作品中与所述候选样本相邻的下一个句子作为目标句子,并返回将所述目标句子包括的字符数与预设长度阈值进行比较的步骤。
4.根据权利要求2所述的方法,其特征在于,所述根据所述正样本中的指定标识符为正样本标签的概率以及所述负样本中的指定标识符为负样本标签的概率,计算损失函数值,包括:
通过以下公式,计算所述损失函数值:
L=-logP(A|t1)+α·max(0,logP(B|t2)-logP(A|t1)+β)
其中,L为所述损失函数值,P(A|t1)为所述正样本t1中的指定标识符为正样本标签A的概率,P(B|t2)为所述负样本t2中的指定标识符为负样本标签B的概率,α和β为预设超参数。
5.根据权利要求1、2或4所述的方法,其特征在于,所述从所述候选集中选择至少两个待预测人名,包括:
对所述候选集中的每个人名与所述第三人称代词之间的关系进行依存句法分析,并对所述候选集中的每个人名进行性别识别;
将与所述第三人称代词之间符合依存关系、且与所述第三人称代词指代的人名性别相同的至少两个人名作为待预测人名。
6.一种指代消解装置,其特征在于,所述装置包括:
识别模块,用于识别待预测文本中的人名,将识别出的人名构建为候选集,所述待预测文本包括至少两个人名和一个第三人称代词;
构建模块,用于从所述候选集中选择至少两个待预测人名,分别构建每个待预测人名对应的预测样本;其中,所述预测样本包括:样本标签和将所述待预测文本中的所述第三人称代词替换为第一数量个指定标识符后得到的文本,所述第一数量为所述预测样本对应的待预测人名包括的字数,所述预测样本包括的样本标签为所述预测样本对应的待预测人名;
获取模块,用于将构建的各预测样本输入指代消解模型,并获取所述指代消解模型输出的所述第三人称代词指代每个样本标签的概率,将概率最高的样本标签确定为所述第三人称代词指代的人名;
其中,所述指代消解模型为基于样本训练集对神经网络模型进行训练得到的模型,所述样本训练集包括多组训练样本,每组训练样本包括正样本和负样本,所述正样本包括:正样本标签和将样本文本中的一个所述正样本标签替换为第二数量个指定字符后得到的文本,所述正样本标签为所述样本文本中出现至少两次的人名,所述第二数量为所述正样本标签对应的人名包括的字数;所述负样本包括:负样本标签和将所述样本文本中的一个所述正样本标签替换为第三数量个指定字符后得到的文本,所述负样本标签为所述样本文本中出现一次的人名,所述第三数量为所述样本文本中出现一次的人名包括的字数,所述样本文本中被替换的正样本标签位于所述样本文本包括的各人名第一次出现的位置之后;
所述构建模块,还用于:
选择预设文学作品中的一个句子作为目标句子;
将所述目标句子包括的字符数与预设长度阈值进行比较;
如果所述目标句子包括的字符数大于预设长度阈值,则将预设文学作品中与所述目标句子相邻的下一个句子作为目标句子,并返回将所述目标句子包括的字符数与预设长度阈值进行比较的步骤;
如果所述目标句子包括的字符数等于所述预设长度阈值,则在所述目标句子满足预设样本条件的情况下,将所述目标句子作为一个样本文本,并将预设文学作品中与所述目标句子相邻的下一个句子作为目标句子,并返回将所述目标句子包括的字符数与预设长度阈值进行比较的步骤;所述预设样本条件包括:样本文本中存在多个不同的人名,其中一个人名出现至少两次且其中一次出现位置位于所述多个不同的人名第一次出现的位置之后;
分别针对每个样本文本生成一组训练样本,得到所述样本训练集。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括训练模块;所述训练模块,用于:
将所述样本训练集中的一组训练样本输入所述神经网络模型;
获取所述神经网络模型的输出结果,所述输出结果包括正样本中的指定标识符为正样本标签的概率以及负样本中的指定标识符为负样本标签的概率;
根据所述正样本中的指定标识符为正样本标签的概率以及所述负样本中的指定标识符为负样本标签的概率,计算损失函数值;
根据所述损失函数值,确定所述神经网络模型是否收敛;
若所述神经网络模型未收敛,则根据所述损失函数值更新所述神经网络模型的网络参数,并返回所述将所述样本训练集中的一组训练样本输入所述神经网络模型的步骤;
若所述神经网络模型收敛,则将当前的神经网络模型作为所述指代消解模型。
8.根据权利要求6或7所述的装置,其特征在于,所述构建模块,还用于:
如果所述目标句子包括的字符数小于所述预设长度阈值,则依次将所述预设文学作品中,所述目标句子之后的每个句子包括的字符数与所述目标句子包括的字符数进行累加,每累加一个句子包括的字符数,判断累加值是否大于或者等于所述预设长度阈值,直至得到的累加值大于或者等于所述预设长度阈值;
如果得到的累加值等于所述预设长度阈值,则将所述目标句子和累加的句子作为候选样本;或者,如果得到的累加值大于所述预设长度阈值,则将所述目标句子和累加的句子中除最后一个句子之外的句子作为候选样本;
在所述候选样本满足所述预设样本条件的情况下,将所述候选样本作为一个样本文本;并将预设文学作品中与所述候选样本相邻的下一个句子作为目标句子,并返回将所述目标句子包括的字符数与预设长度阈值进行比较的步骤。
9.根据权利要求7所述的装置,其特征在于,所述训练模块,具体用于:
通过以下公式,计算所述损失函数值:
L=-logP(A|t1)+α·max(0,logP(B|t2)-logP(A|t1)+β)
其中,L为所述损失函数值,P(A|t1)为所述正样本t1中的指定标识符为正样本标签A的概率,P(B|t2)为所述负样本t2中的指定标识符为负样本标签B的概率,α和β为预设超参数。
10.根据权利要求6、7或9所述的装置,其特征在于,所述构建模块,具体用于:
对所述候选集中的每个人名与所述第三人称代词之间的关系进行依存句法分析,并对所述候选集中的每个人名进行性别识别;
将与所述第三人称代词之间符合依存关系、且与所述第三人称代词指代的人名性别相同的至少两个人名作为待预测人名。
11.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-5任一项所述的方法步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-5任一项所述的方法步骤。
CN202110291727.XA 2021-03-18 2021-03-18 一种指代消解方法、装置、电子设备及介质 Active CN113011162B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110291727.XA CN113011162B (zh) 2021-03-18 2021-03-18 一种指代消解方法、装置、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110291727.XA CN113011162B (zh) 2021-03-18 2021-03-18 一种指代消解方法、装置、电子设备及介质

Publications (2)

Publication Number Publication Date
CN113011162A CN113011162A (zh) 2021-06-22
CN113011162B true CN113011162B (zh) 2023-07-28

Family

ID=76409744

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110291727.XA Active CN113011162B (zh) 2021-03-18 2021-03-18 一种指代消解方法、装置、电子设备及介质

Country Status (1)

Country Link
CN (1) CN113011162B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116108862B (zh) * 2023-04-07 2023-07-25 北京澜舟科技有限公司 篇章级机器翻译模型构建方法、系统及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462053A (zh) * 2013-09-22 2015-03-25 江苏金鸽网络科技有限公司 一种文本内的基于语义特征的人称代词指代消解方法
CN109446517A (zh) * 2018-10-08 2019-03-08 平安科技(深圳)有限公司 指代消解方法、电子装置及计算机可读存储介质
CN110413996A (zh) * 2019-07-15 2019-11-05 阿里巴巴集团控股有限公司 构造零指代消解语料的方法及装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110123967A1 (en) * 2009-11-24 2011-05-26 Xerox Corporation Dialog system for comprehension evaluation
RU2601166C2 (ru) * 2015-03-19 2016-10-27 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Разрешение анафоры на основе технологии глубинного анализа
JP6727610B2 (ja) * 2016-09-05 2020-07-22 国立研究開発法人情報通信研究機構 文脈解析装置及びそのためのコンピュータプログラム
US10366161B2 (en) * 2017-08-02 2019-07-30 International Business Machines Corporation Anaphora resolution for medical text with machine learning and relevance feedback
CN111858860B (zh) * 2019-04-19 2023-08-29 百度在线网络技术(北京)有限公司 搜索信息处理方法及系统、服务器、计算机可读介质
CN110674630B (zh) * 2019-09-24 2023-03-21 北京明略软件系统有限公司 指代消解方法和装置、电子设备及存储介质
CN111626042B (zh) * 2020-05-28 2023-07-21 成都网安科技发展有限公司 指代消解方法及装置
CN112001190A (zh) * 2020-07-20 2020-11-27 北京百度网讯科技有限公司 自然语言处理模型的训练方法、装置、设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462053A (zh) * 2013-09-22 2015-03-25 江苏金鸽网络科技有限公司 一种文本内的基于语义特征的人称代词指代消解方法
CN109446517A (zh) * 2018-10-08 2019-03-08 平安科技(深圳)有限公司 指代消解方法、电子装置及计算机可读存储介质
CN110413996A (zh) * 2019-07-15 2019-11-05 阿里巴巴集团控股有限公司 构造零指代消解语料的方法及装置

Also Published As

Publication number Publication date
CN113011162A (zh) 2021-06-22

Similar Documents

Publication Publication Date Title
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN108121700B (zh) 一种关键词提取方法、装置及电子设备
CN110727779A (zh) 基于多模型融合的问答方法及系统
TW202020691A (zh) 特徵詞的確定方法、裝置和伺服器
CN107102993B (zh) 一种用户诉求分析方法和装置
CN111651996A (zh) 摘要生成方法、装置、电子设备及存储介质
CN110580308B (zh) 信息审核方法及装置、电子设备、存储介质
CN110298041B (zh) 垃圾文本过滤方法、装置、电子设备及存储介质
CN111783443A (zh) 文本扰动检测方法、扰动还原方法、扰动处理方法和装置
CN113553412B (zh) 问答处理方法、装置、电子设备和存储介质
CN113420822B (zh) 模型训练方法和装置、文本预测方法和装置
CN113672708A (zh) 语言模型训练方法、问答对生成方法、装置及设备
CN110874536A (zh) 语料质量评估模型生成方法和双语句对互译质量评估方法
CN115310443A (zh) 模型训练方法、信息分类方法、装置、设备及存储介质
CN112668333A (zh) 命名实体的识别方法和设备、以及计算机可读存储介质
CN113742733A (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN115099239B (zh) 一种资源识别方法、装置、设备以及存储介质
CN115359799A (zh) 语音识别方法、训练方法、装置、电子设备及存储介质
CN112464655A (zh) 中文字符和拼音相结合的词向量表示方法、装置、介质
CN113204956B (zh) 多模型训练方法、摘要分段方法、文本分段方法及装置
CN113011162B (zh) 一种指代消解方法、装置、电子设备及介质
CN111079433A (zh) 一种事件抽取方法、装置及电子设备
CN112633007B (zh) 一种语义理解模型构建方法及装置、语义理解方法及装置
CN112948573B (zh) 文本标签的提取方法、装置、设备和计算机存储介质
CN111783424B (zh) 一种文本分句方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant