CN113326347A

CN113326347A - 一种句法信息感知的作者归属方法

Info

Publication number: CN113326347A
Application number: CN202110554637.5A
Authority: CN
Inventors: 邵杰; 刘建博; 张嘉昇
Original assignee: Sichuan Artificial Intelligence Research Institute Yibin
Current assignee: Sichuan Artificial Intelligence Research Institute Yibin
Priority date: 2021-05-21
Filing date: 2021-05-21
Publication date: 2021-08-31
Anticipated expiration: 2041-05-21
Also published as: CN113326347B

Abstract

本发明公开了一种句法信息感知的作者归属方法，涉及文本作者识别领域，本发明首先使用句法依赖树来解决作者归属任务。将依赖关系输入到图卷积神经网络中提取句子的句结构。由于句法成分树中路径的标签会增大数据量和计算难度，本发明使用的句法依赖树数据量小，计算简单，效果明显。本发明使用图卷积神经网络从文本的依赖树中提取语法表示形式，并使用字符来收集内容表示形式。结果表明，本发明性能优于所有最新的方法，并且具有更好的捕获用于短文本作者归属任务的语法信息的能力。文本的语法表示形式可以帮助克服短文本作者归属任务的挑战，同时也可以在长文本上取得很好的效果。

Description

一种句法信息感知的作者归属方法

技术领域

本发明涉及文本作者识别领域，具体涉及一种句法信息感知的作者归属方法。

背景技术

作者归属是一个被广泛研究的问题，是通过学习作者的写作风格从候选作者中预测匿名文本的作者的任务。作者归属的应用场景广泛，例如：剽窃调查和检测（书籍，文案抄袭等），文学科学与教育（作者身份争议文献的作者归属）。随着计算机系统，智能手机和网络的普及极大的改变了我们传递信息的方式。

而且如今的社交媒体软件繁多，每天会产生数以亿计的文本数据，在社交媒体上的作者归属也有很大的应用前景，例如：网络犯罪调查（例如，网络钓鱼诈骗，垃圾邮件和非法信息传播等），网络营销（利用用户的风格属性定向推销）。

发明内容

针对现有技术中的上述不足，本发明提供的一种句法信息感知的作者归属方法可以准确快速的找到文本的真实作者。

为了达到上述发明目的，本发明采用的技术方案为：

提供一种句法信息感知的作者归属方法，其包括以下步骤：

S1、预处理文本并获取预处理后文本的字符集合和表征单词间依赖关系的邻接矩阵；

S2、通过卷积神经网络得到文本的字符集合的字符特征实值向量；

S3、通过双向循环神经网络获取文本单词的单词级隐状态表征；

S4、将一条文本中表征单词间依赖关系的邻接矩阵和每个单词级隐状态表征作为图卷积神经网络的输入，获取该文本对应的单词实值向量；

S5、将一条文本中的单词实值向量求平均得到该文本的句法特征实值向量；

S6、将句法特征实值向量与字符特征实值向量进行拼接得到的向量作为代表作者写作风格的表征向量；

S7、通过比较代表作者写作风格的表征向量来确定文本的作者归属。

进一步地，步骤S1的具体方法为：

将文本预处理为字符数据，获取字符集合，并通过斯坦福核心自然语言处理工具包获取文本中单词间的依赖关系，即获得表征单词间依赖关系的邻接矩阵。

进一步地，步骤S2的具体方法包括以下子步骤：

S2-1、对同一条文本的所有字符进行向量嵌入，获取该文本的字符集合中每个字符的嵌入向量得到输入矩阵X，

；其中嵌入向量通过初始化获取，所有嵌入向量符合均匀分布；R表示向量空间，n表示字符的个数，d表示维度；

S2-2、根据公式：

对输入的第i个卷积的字符向量

进行过滤器窗口宽度为w的卷积运算，得到第i个字符向量

对应的输出特征

；其中过滤器窗口宽度w的取值为3、4和5；

；W和b为学习参数，即常数；

表示relu激活函数；

S2-3、根据公式：

对输出特征

进行最大池操作，得到操作结果

；其中

表示最大池操作；

S2-4、根据所有字符向量的操作结果获取关联度最大的字符向量，并将关联度最大的字符向量在过滤器窗口宽度分别为3、4和5时对应的卷积运算输出特征进行拼接，将拼接结果作为该文本的字符集合的字符特征实值向量。

进一步地，步骤S3的具体方法包括以下子步骤：

S3-1、对同一条文本的所有单词进行向量嵌入，获取该文本所有单词的嵌入向量得到输入矩阵E；其中嵌入向量通过初始化获取，所有嵌入向量符合均匀分布；

S3-2、根据公式：

通过双向循环神经网络获取第j个文本单词的单词级隐状态表征

；其中

为正向循环神经网络，

为反向循环神经网络；

表示拼接操作；

为前j个文本单词序列；

为第j个文本单词至第n个文本单词的序列。

进一步地，步骤S4的具体方法为：

根据公式：

对一条文本中表征单词间依赖关系的邻接矩阵和每个单词级隐状态表征进行f+1次图卷积运算，得到该文本对应的单词实值向量

；其中

表示图卷积运算，

表示relu激活函数；H表示单词级隐状态表征；A表示表征单词间依赖关系的邻接矩阵；

，f≥0；

表示图卷积运算的初始值，

为可学习参数，即常数。

进一步地，步骤S7的具体方法包括以下子步骤：

S7-1、通过随机失活层对代表作者写作风格的表征向量进行随机失活，得到随机失活后的向量O；

S7-2、将向量O输入全连接层，获取该文本属于所有候选作者中作者u的置信度

；

S7-3、根据公式：

获取该文本是作者u的概率

；其中e为自然常数，

表示所有候选作者的概率累加值；

S7-4、将概率最大的作者作为该文本的真实作者。

本发明的有益效果为：

1、本发明将文本的字符特征和句子结构特征相结合作为作者的写作风格特征，避免了使用单一特征缺失一些特征的问题。

2、本发明首先使用句法依赖树来解决作者归属任务。句法依赖树代表着句子中单词间的依赖关系，代表着句子的结构，而句子的结构属于作者的写作风格。将依赖关系输入到图卷积神经网络中提取句子的句结构。由于句法成分树中路径的标签会增大数据量和计算难度，本发明使用的句法依赖树数据量小，计算简单，效果明显。

附图说明

图1为本发明的流程示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，该句法信息感知的作者归属方法包括以下步骤：

步骤S1的具体方法为：

步骤S2的具体方法包括以下子步骤：

S2-2、根据公式：

对输入的第i个卷积的字符向量

进行过滤器窗口宽度为w的卷积运算，得到第i个字符向量

对应的输出特征

；其中过滤器窗口宽度w的取值为3、4和5；

；W和b为学习参数，即常数；

表示relu激活函数；

S2-3、根据公式：

对输出特征

进行最大池操作，得到操作结果

；其中

表示最大池操作；

步骤S3的具体方法包括以下子步骤：

S3-2、根据公式：

；其中

为正向循环神经网络，

为反向循环神经网络；

表示拼接操作；

为前j个文本单词序列；

为第j个文本单词至第n个文本单词的序列。

步骤S4的具体方法为：

根据公式：

；其中

表示图卷积运算，

，f≥0；

表示图卷积运算的初始值，

为可学习参数，即常数。

步骤S7的具体方法包括以下子步骤：

；

S7-3、根据公式：

获取该文本是作者u的概率

；其中e为自然常数，

表示所有候选作者的概率累加值；

S7-4、将概率最大的作者作为该文本的真实作者。

在本发明的一个实施例中，采用两个常用的社交媒体短文本数据集：Twitter有7026位作者，每位作者120推文；Weibo有9819位作者，每位作者120推文。另外三个长文本数据集：CCAT10有10位作者，每位作者100条新闻故事；CCAT50有50位作者，每位作者100条推文故事；IMDB62有62位作者，每位作者1000条文章。

本发明与现有效果最好的短文本作者归属方法对比，现有方法包括TOS方法、N-gram CNN方法、LSTM方法、DeepStyle方法、iur方法和Syntax-CNN。

TOS方法‘Sari, Y., Stevenson, M., Vlachos, A.: Topic or style

exploring the most useful features for authorship attribution. In:Proceedings of the 27th International Conference on ComputationalLinguistics, COLING 2018. pp. 343–353 (2018)’导出基于内容和风格的表征以训练逻辑回归分类器。

N-gram CNN方法‘Shrestha, P., Sierra, S., Gonz´alez, F.A., Montes-y-G´omez, M., Rosso, P., Solorio, T.: Convolutional neural networks forauthorship attribution of short texts. In: Proceedings of the 15th Conferenceof the European Chapter of the Association for Computational Linguistics,EACL 2017, Volume 2: Short Papers. pp. 669–674 (2017)’使用不同窗口来提取字符特征。

LSTM方法是在字符级别训练长短时记忆网络。

Syntax-CNN方法‘Zhang, R., Hu, Z., Guo, H., Mao, Y.: Syntax encodingwith application in authorship attribution. In: Proceedings of the 2018Conference on Empirical Methods in Natural Language Processing. pp. 2742–2753(2018)’使用字符和句法成分树获得作者的风格特征。

DeepStyle方法‘Hu, Z., Lee, R.K., Wang, L., Lim, E., Dai, B.:Deepstyle: User style embedding for authorship attribution of short texts.In: Web and Big Data - 4th International Joint Conference, APWeb-WAIM 2020,Proceedings, Part II. pp. 221–229 (2020)’使用三元组损失函数学习作者风格的嵌入并映射到向量空间。

iur方法‘Andrews, N., Bishop, M.: Learning invariant representationsof social media users. In: Proceedings of the 2019 Conference on EmpiricalMethods in Natural Language Processing and the 9th International JointConference on Natural Language Processing, EMNLP-IJCNLP 2019. pp. 1684–1695(2019)’是学习从社交媒体上的作者活动的短暂事件到向量空间的映射。

由表1（数值越大越好）可以看出，本方法社交短文本数据集上比现有的方法都要好。其中P@X表示预测的前X个最高概率的作者中有正确作者的准确率。

表1：本方法在社交媒体短文本数据集上的效果

为了验证本方法在长文本上的分类效果，实验选择了在作者归属任务中使用广泛的三个长文本数据集，并选择了最先进的几个方法，并得到了在这三个数据集上的效果。

SVM with most frequent 3-grams方法‘Plakias, S., Stamatatos, E.:Tensor space models for authorship identification. In:ArtificialIntelligence: Theories, Models and Applications, 5th Hellenic Conference onAI, SETN 2008, Proceedings. pp. 239–249 (2008)’使用2500个最常用的字符训练支持向量机（SVM）算法。

Continuous n-gram representations方法‘Sari, Y., Vlachos, A.,Stevenson, M.: Continuous n-gram representations for authorship attribution.In: Proceedings of the 15th Conference of the European Chapter of theAssociation for Computational Linguistics, EACL 2017, Volume 2: Short Papers.pp. 267–273 (2017)’使用字符的连续表示解决作者归属任务。由表2可以看出（数值越大越好），本发明在长文本数据集上的效果优于目前最先进的方法，这证明了本发明在长文本数据集上同样能取得好的效果。其中表2中的数据表示方法在数据集中的预测准确率。

表2：本方法在长文本数据集上的效果

综上所述，本发明使用图卷积神经网络从文本的依赖树中提取语法表示形式，并使用字符来收集内容表示形式。结果表明，本发明性能优于所有最新的方法，并且具有更好的捕获用于短文本作者归属任务的语法信息的能力。文本的语法表示形式可以帮助克服短文本作者归属任务的挑战，同时也可以在长文本上取得很好的效果。