CN112131343B

CN112131343B - 一种中文小说对话人物识别方法

Info

Publication number: CN112131343B
Application number: CN202010961450.2A
Authority: CN
Inventors: 王子; 赵海秀; 王彦青; 朱征帅; 白新宇
Original assignee: Xinxun Digital Technology Hangzhou Co ltd
Current assignee: Xinxun Digital Technology Hangzhou Co ltd
Priority date: 2020-09-14
Filing date: 2020-09-14
Publication date: 2023-07-07
Anticipated expiration: 2040-09-14
Also published as: CN112131343A

Abstract

一种中文小说对话人物识别方法，包括：步骤一、抽取对话之前、后若干句话，构成关联文本，提取所有人物名作为候选人；步骤二、选取对话之前及之后的各一句话，判断主语中是否有人物名，如果是，则对话人物是主语中人物名，如果否，则继续下一步；步骤三、判断主语中是否有人称代词，如果是，则继续步骤四，如果否，则继续步骤五；步骤四、将主语中人称代词和候选人性别匹配，判断性别一致的候选人数量是否为1，如果是，则对话人物是性别一致的候选人，如果否，则继续步骤五；步骤五、计算每个候选人的候选向量，输入MLP网络，获得候选人得分，对话人物是得分最高候选人。本发明属于信息技术领域，能实现对中文小说中对话人物的自动精准识别。

Description

一种中文小说对话人物识别方法

技术领域

本发明涉及一种中文小说对话人物识别方法，属于网络通信技术领域。

背景技术

随着移动互联网的发展，阅读中文小说日益成为人们日常生活的重要娱乐方式。然而，人们已经不仅仅满足于阅读中文小说所带来的享受，还更希望于中文有声小说带来听觉上的体验。语音的三要素为信息、音色和韵律，有声小说的自动合成过程中信息即为小说对话的文本信息，音色指的是说话者本身特点，韵律指的是声音的高低、快慢等，利用NLP相关技术识别出小说中对话的说话者，就可以根据说话者的性格、性别等特点进行相关的音色合成，从而为有声小说的自动合成做基础。

目前，对中文小说中对话人物的识别主要有以下两种技术方案：

(1)基于规则判断的规则方法，该方法首先对中心对话前后的十句话进行抽取，形成一个21句话作为一条中心对话的context，然后用依存句法分析器StandFord parse对中心对话前后符合的语句进行句法解析，获得相应的主语和宾语，最后运用Actor、Best、Next、Last speaker规则，分别代表句法解析出的最可能的主语Actor、context中出现最多的人物名Best、其次多的人物名Next和上句话预测的结果Last speaker，再加上相关的冒号等基础规则加以判断。该技术方案对于中心对话有明确主语人物即依存句法解析可以完美解析出主人物名的情形下，准确率较高，但是对于无明确主语或者人称代词作为主语的情形下，规则判断的准确率和随机猜测几乎无区别，另外规则判断较为依赖于句子的依存句法解析的性能，这使得规则判断方法较为笨重且难以很准确的移植。

(2)基于特征向量的特征工程方法，该方法根据候选人的位置、性别等信息，抽取共十六条对应的特征，分别如下：中心对话在整个小说的下标、context中该候选人出现在对话中的次数、context中该候选人出现在平话中的次数、该候选人是否出现在中心对话中、该候选人作为主语出现的次数、该候选人作为宾语出现的次数、和该候选人相关说话动词的数量、上个动词特征出现在说话次列表中的个数、该候选人的性别、context中出现女她的个数、context中出现男他的个数、该中心对话是否为轮询模式、提及该候选人最近的文本是否是对话、提及该候选人的最近文本离中心对话的距离、提及该候选人的最近文本是否以句号结尾、以及提及该候选人的最近文本是否以冒号结尾，然后将抽取到的十六个特征向量过神经网络，取候选人得分最大值作为识别结果。该技术方案中，特征向量的制作为手动选取，无法充分表达候选人所在位置的前后语义信息，结果的好坏严重依赖于手动选择的特征向量的质量，手动选择的结果往往较刻板，因而面临着无法全面表示候选者的语义等特征信息的困境。

因此，如何能实现对中文小说中对话人物的自动精准识别，已成为技术人员急需解决的技术问题。

发明内容

有鉴于此，本发明的目的是提供一种中文小说对话人物识别方法，能实现对中文小说中对话人物的自动精准识别。

为了达到上述目的，本发明提供了一种中文小说对话人物识别方法，包括有：

步骤一、从中文小说中抽取中心对话之前、及之后的若干句话，并由中心对话和抽取的所有句话构成中心对话关联文本，然后从中心对话关联文本中提取所有人物名作为候选人，由所有候选人构成候选人集合；

步骤二、从中文小说中选取中心对话之前、及之后的各一句话，并对选取的这2句话通过依存句法解析来获取其中的主语，然后判断这2句话中的主语是否存在有人物名，如果是，则中心对话的人物是主语中存在的人物名，本流程结束；如果否，则继续下一步；

步骤三、判断这2句话中的主语是否存在有人称代词，如果是，则继续步骤四；如果否，则继续步骤五；

步骤四、将主语中存在的人称代词和候选人集合中每个候选人的性别进行匹配，并计算候选人集合中和主语中存在的人称代词的性别一致的候选人数量，判断数量是否为1，如果是，则中心对话的人物是和主语中存在的人称代词的性别一致的候选人，本流程结束；如果否，则继续步骤五；

步骤五、采用BERT词向量的预训练模型，计算中心对话关联文本的每句话中的每个字的编码向量，然后根据候选人在每句话中的出现位置，计算候选人集合中每个候选人的候选向量，再将所有候选人的候选向量输入MLP网络，最后输出获得每个候选人的得分，中心对话的人物即是得分最高的候选人，

步骤五中，采用BERT词向量的预训练模型，计算中心对话关联文本的每句话中的每个字的编码向量，然后根据候选人在每句话中的出现位置，计算候选人集合中每个候选人的候选向量，进一步包括有：

步骤51、采用BERT词向量的预训练模型，计算中心对话关联文本的每句话中的每个字的编码向量；

步骤52、根据候选人在每句话中的出现位置，为每个候选人分别提取其在中心对话关联文本的每句话中对应的字的编码向量，并由候选人在所有句话中对应的字的编码向量构成每个候选人的语义特征向量，如果候选人在其中一句话中没有出现，则该候选人在该句话中对应的字的编码向量使用全0表示；

步骤53、采用Attention机制，为中心对话关联文本中的每句话设置对应的权重系数，并由所有权重系数构成权重向量Att_vec，然后将权重向量通过softmax进行归一化处理；

步骤54、将每个候选人的语义特征向量和权重向量进行加权求平均计算，从而获得每个候选人的候选向量。

与现有技术相比，本发明的有益效果是：本发明根据依存句法解析的结果将对话分成了四类，分别为：有明确人物名作为主语的对话、人称代词性别唯一匹配候选人作为主语的对话、人称代词性别多匹配候选人作为主语的对话以及其他无任何特征作为主语的对话，并针对后两种对话类型使用加入Attention机制的BERT词向量方法，从而能实现各种对话类型下的人物精准识别，实验结果表明，本方法相较于现有技术具有更高的准确率；本发明对中心对话关联文本进行整体的BERT编码，充分表达了各个文本字之间的语义关系，将此BERT对候选人的编码用于候选人的表示上，从而能够充分表达候选人的位置等语义信息，相较于规则判断的规则法和特征向量的特征工程方法，本发明使用词向量的方法更为灵活可用，同时对语义的信息能够较好的表达，可移植性也较高；对一条中心对话关联文本内的文本进行一个权重加成，形成对应的Attention权重，可以作为对候选人位置信息表达的补充。

附图说明

图1是本发明一种中文小说对话人物识别方法的流程图。

图2是图1步骤五的具体操作流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

本发明的目的在于将一条中心对话归属于小说中的某个人物，从而可以方便的进行语音的自动合成。如图1所示，本发明一种中文小说对话人物识别方法，包括有：

步骤五、采用BERT词向量的预训练模型，计算中心对话关联文本的每句话中的每个字的编码向量，然后根据候选人在每句话中的出现位置，计算候选人集合中每个候选人的候选向量，再将所有候选人的候选向量输入MLP网络(即多层神经网络)，最后输出获得每个候选人的得分，中心对话的人物即是得分最高的候选人。

步骤一还可以进一步包括有：

步骤11、从中心对话关联文本中去除无任何人物名和人称代词的句子；

步骤12、将中心对话关联文本中所有的人物别名统一替换成其对应的人物主名；

步骤13、为中心对话关联文本中的每个人物名分配一个唯一的字母标识符，然后将中心对话关联文本中的所有人物名正则替换成各自的字母标识符；

例如：根据人物名的出现次序，按照英文字母顺序递增为每个人物名分配一个字母标识符：A、B、C、D、…；

步骤14、运用正则表达式，将中心对话关联文本中所有和说话相关的动词统一替换成“说”。

步骤一中，一条中心对话的说话者出现的位置会在中心对话的附近，出现在中心对话前的若干句和最多后一句，中心对话后语句的多条选取无疑增加了候选人的数量，增大了判断误差，同时，前面若干句的选择方面，选择过多会引起候选人的增多引起的噪声，选择过少又涉及无法完全覆盖说话者的情形，本发明在经过若干次实验之后，抽取中心对话之前的10句、及之后的1句话，准确率较高。为了解决依存句法解析上主人物名字分离和BERT向量字表示的情形，需要对人物名和说话动词做相应的数据增强，将人物名包括别名用字母代替，说话动词全部替换成“说”，实验表明，数据增强的引入也极大地提高了识别的准确率。

对话的形成通常为主语说话人向另一个人物宾语发出，通过依存句法解析，可以解析出一条对话对应的主语和宾语。本发明选择StandFord的依存句法解析器，步骤二可以进一步包括有：

步骤21、在中文小说中，选取在中心对话之前以冒号结尾的一句话、中心对话之后以句号结尾的一句话；

在中心对话之前的一句话，如果是说话动作的语句，那么一定是以冒号结尾的，如：孙少平对着郝红梅说：“这本书你拿回家看吧！”，如果前一句话非冒号结尾，就无必要进行解析；中心对话之后的一句话，必须要以句号结尾才行，比如：“真的吗”金波惊讶的说道。如果后一句话非句号结尾，也没必要进行解析；

步骤22、将选取的2句话分别通过StandFord的解析器进行依存句法解析，以解析获得相应的主语和宾语，如果不存在，则解析为空。

StandFord parse依存句法解析结果可以分为四类：有明确人物名作为主语的对话(Explicit Speaker)、人称代词性别唯一匹配候选人作为主语的对话(Pronoun One)、人称代词性别多匹配候选人作为主语的对话(Pronoun Many)以及其他无任何特征作为主语的对话(Implicit Speaker)。具体实例可以如下表所示：

如图2所示，步骤五可以进一步包括有：

步骤54、将每个候选人的语义特征向量和权重向量进行加权求平均计算，从而获得每个候选人的候选向量；

步骤55、从中心对话关联文本的每句话中提取其包含的所有候选人，并由其包含的所有候选人的候选向量构成每句话的候选向量；

步骤56、构建一个两层的MLP网络，将中心对话关联文本中所有句话的候选向量输入至MLP网络，然后再将MLP网络输出的每句话分别对应的输出值进行局部的softmax，从而获得每句话中所有候选人的得分，从中心对话的所有候选人的得分中挑选得分最高的候选人，所挑选出的候选人即是中心对话的人物。

在梯度反向传播中，选用随机梯度下降SGD,更新两层MLP和权重向量Att_vec的参数。由于此任务和一般的分类任务的不同，损失函数和准确率函数计算的时候具有局部性原理，即将每条中心对话中的候选人之间进行比较，将加入Attention机制的BERT词向量模型的输出作为每条中心对话的候选人对应的输出，最后将每条中心对话的候选人的输出进行局部的softmax,从而得到一条中心对话中的每个候选人的得分输出。

上述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种中文小说对话人物识别方法，其特征在于，包括有：

2.根据权利要求1所述的方法，其特征在于，步骤一进一步包括有：

步骤11、从中心对话关联文本中去除无人物名和人称代词的句子；

步骤14、运用正则表达式，将中心对话关联文本中所有和说话相关的动词统一替换成说。

3.根据权利要求1所述的方法，其特征在于，步骤一中，抽取中心对话之前的10句、及之后的1句话。

4.根据权利要求1所述的方法，其特征在于，步骤二进一步包括有：

5.根据权利要求1所述的方法，其特征在于，步骤五中，将所有候选人的候选向量输入MLP网络，最后输出获得每个候选人的得分，中心对话的人物即是得分最高的候选人，进一步包括有：

从中心对话关联文本的每句话中提取其包含的所有候选人，并由其包含的所有候选人的候选向量构成每句话的候选向量；

构建一个两层的MLP网络，将中心对话关联文本中所有句话的候选向量输入至MLP网络，然后再将MLP网络输出的每句话分别对应的输出值进行局部的softmax，从而获得每句话中所有候选人的得分，从中心对话的所有候选人的得分中挑选得分最高的候选人，所挑选出的候选人即是中心对话的人物。