CN110489551B

CN110489551B - 一种基于写作习惯的作者识别方法

Info

Publication number: CN110489551B
Application number: CN201910640120.0A
Authority: CN
Inventors: 刘刚; 王凯; 李涛
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2019-07-16
Filing date: 2019-07-16
Publication date: 2023-05-30
Anticipated expiration: 2039-07-16
Also published as: CN110489551A

Abstract

本发明涉及信息技术领域，具体涉及的是一种基于写作习惯的作者识别方法，目的是为了提供一种基于写作习惯的作者识别方法，分为三个阶段：首先，语料预处理，然后通过Bi‑GRU进行双向特征提取，在特征提取的过程中加入分段池化和平均池化相结合的池化层，再通过MLP隐层进行全连接和高阶特征抽取；然后，在相似度计算过程中提出联合损失，通过相似度计算和预测损失结果联合计算损失值，得出结果；最后将作者识别框架与传统的svm和朴素贝叶斯进行对比。本发明与传统方法相比具有高效计算能力，适合解决含大规模数据和参数的优化问题，解决的全联接结果参数过多，特征集过大的问题，使神经网络朝着风格的方向收敛，具有科学性和有效性。

Description

一种基于写作习惯的作者识别方法

技术领域

本发明涉及信息技术领域，具体涉及的是一种基于写作习惯的作者识别方法。

背景技术

作者识别是对匿名的作品进行作者的判定，该技术不仅仅能运用在原创性检测，还可以运用到匿名反动言论、匿名微薄、文学作品作者识别等方向。早些年作者识别的主要语料就是文学的作品，研究的语言也是各种各样的，包含中文、英语、法语、俄语等。研究的成果也是非常的显著。这些年随着大数据的出现，网络的进步，人工智能的发展，对作者的识别慢慢的更加多维化，相应的方法适用的范围也更加普遍。

早期的研究主要就是定量的研究，研究的方法比较单一，只能针对同一文章的作者进行设别。传统的文本作者识别在海量文本数据处理过程中存在效率与成本的问题,近几年随着神经网络的发展，各种各样的神经网络都被引入到作者识别中来。在作者识别领域，至今为止比较流行的领域就是作者鉴定技术。支持向量机的引用，通过分类器将文档归属到所属的作者并取得了不错的成绩。这个方法可以有效的对长文档进行作者识别和文档的分类，但是对于短文档的效果较差。

发明内容

本发明的目的是为了提供一种比传统方法更具有优势的基于写作习惯的作者识别技术。

为实现本发明的目的，采用的技术方案是：

一种基于写作习惯的作者识别方法，可以分为三个阶段：

第一阶段：语料预处理，然后通过Bi-GRU进行双向特征提取，在特征提取的过程中加入分段池化和平均池化相结合的池化层，在通过MLP隐层进行全连接和高阶特征抽取；

第二阶段：决策网络分为相似度计算和联合损失函数，在相似度计算过程中提出联合损失，通过相似度计算和预测损失结果联合计算损失值；

第三阶段：将作者识别框架与传统的svm和朴素贝叶斯进行对比。

所述语料预处理为对文本进行分词处理，通过中文维基GloVe词向量作为预处理词向量输入。

所述Bi-GRU算法使用双向神经网络，利用更新门和重置门的特征判断提取特征的去留，并在Bi-GRU算法中对虚词加入attention机制。

所述MLP隐层分为全连接和softmax分类。

所述高阶特征提取是利用词语级别的词向量，以训练好的词向量空间模型作为文档的输入。

所述联合损失是根据相似度计算的结果进行损失计算，相似损失公式为：

sim-loss＝max(sim-loss)²

其中，sim代表相似度计算的结果。

所述预测损失是根据预测时的准确定乘以相似度结果得到的，最后得出:

其中,sim-loss和pre-loss都是为维度的损失向量最后求和，去平均值后的损失值。

与现有技术相比，本发明的有益效果为；

本发明与传统方法相比具有高效计算能力，适合解决含大规模数据和参数的优化问题，解决的全联接结果参数过多，特征集过大的问题，使神经网络朝着风格的方向收敛，具有科学性和有效性。

附图说明

图1为作者识别框架ARTW。

图2为ARTW数据流。

图3为高阶特征提取结构图。

图4为Bi-GRU神经网络。

图5为MLP结构图。

具体实施方式

本发明涉及信息技术领域，具体涉及的是一种基于写作习惯的作者识别方法，目的是为了提供一种比传统方法更具有优势的基于写作习惯的作者识别技术。

为实现本发明的目的，采用的技术方案是：

一种基于写作习惯的作者识别方法，可以分为三个阶段：

第一阶段：语料预处理，然后通过Bi-GRU进行双向特征提取，在特征提取的过程中有加入分段池化和平均池化相结合的池化层，在通过MLP隐层进行全连接和高阶特征抽取；

第二阶段：决策网络分为相似度计算和联合损失函数，在相似度计算过程中提出了联合损失，通过相似度计算和预测损失结果联合计算损失值，得出结果；

所述MLP隐层分为全连接和softmax分类。

sim-loss＝max(sim-loss)²

其中，sim代表相似度计算的结果。

与现有技术相比，本发明的有益效果为；

进一步描述如下，一种基于写作习惯的作者识别方法：

1.语料的预处理

首先对文本进行分词处理，分词结果采用的是jieba分词，记录下分词结果和词性，通过中文维基GloVe词向量作为预处理词向量输入。GloVe词向量结果的最后一维度加上词性标记编码，0位置代表词性为动词，名词，形容词等不能代表作者写作风格的词，设置其他编码代表词性为感叹词，代词，语气词等词性的词。采用批量输入并且利用利用GPU(图像处理器)的并行计算的优势，加速模型的训练速度。由于批量处理具有固定长度作为输入，因此输入超过设定的固定长度，则会截断输入。如果输入未达到固定长度，则会在末尾增加几个“magic words”。“magic words”是一个特殊符号，因为GloVe词向量是一个50维度的向量，所以每一次补位多是0，不会有一个词向量全是0，为了消除“magic words”对结果的影响，在输出处掩盖这些词，使得错误的反向传播忽略这些“magic words”并且仅从网络中提取“true words”。最后借用维基百科训练的词向量结果作为GRU神经网络输入的词向量。该结果被保存下来，对文本进行与处理后去文件中匹配相应的词向量结果，作为神经网络的输入。

2.高阶特征提取

使用了Bi-GRU算法，该算法使用了双向神经网络，使用双向GRU通过两个方向提取文本特征，利用更新门和重置门的特征判断提取特征的去留。在Bi-GRU算法中对虚词加入了attention机制，使神经网络朝着风格的方向收敛，尽量减小主题的影响。使用当前流行的adam优化算法，加快算法的收敛。

在Bi-GRU循环神经网络，层内循环时，首先初始化初始时刻为0，在t时刻网络的输入时基于t-1时刻的输出，在不同的时刻GRU神经网络会输出隐藏层的输出值,得到结果作为句子的特征向量，输入到下一个网络中。可以通过这样的方式实现循环网络的学习，可以得到句子词语之间的前后信息。层间传递时，首先初始化初始时刻为0，上一层每一时刻，在层与层之间会发生dropout，dropout是控制正常工作时的节点个数，同时删除无用节点，dropout不会发生在层与层内，同时在在反向传播的过程中，输入为上一次提取的输出的反向，输入到反向层进行反向特征提取，表示神经网络输入，表示输出，具体公式为：

Z_t＝σ(ω^(z)χ_t+U^(z)h_t-1+b^(z))

r_t＝σ(ω^(r)χ_t+U^(r)h_t-1+b^(r))

h_t＝(1-Z_t)h_t+Z_th_t-1

在算法收敛和参数优化使用的是adam优化算法代替随即梯度下降算法，adam算法更好的减少算法优化的参数，令模型收敛更加迅速。adam的高效计算能力，适合解决含大规模数据和参数的优化问题。

3.分段池化

在隐藏层和MLP隐层中间加入池化的作用是使结果特征在不受影响的情况下使特征减少，从而减少训练中的参数数量，在下一步的MLP隐层中可以缩小全联接的参数和规模。本课题处理数据量较大，所有采用分布式的思想，使用分段池化结合平均池化。平均池化是对领域内的特征点求平均值。解决的全联接结果参数过多，特征集过大的问题。

在分段池化过程中，对上一层的特征提取的结果作为输入，通过两个实体分为三个部分，再通过平均池化。最后再把平均池化结果拼接起来。

4.MLP隐层

设计的MLP层有可以分为全连接和softmax分类。全连接的主要目的是提升模型的拟合能力，并且进一步的抽取更有价值的特征。MLP隐层的每一个节点都与上一层的节点相连接，用来把之前隐藏层提取的特征整合起来，并且提取更有价值的特征，由于全连接的特征，一般全连接的参数也很多。在向前计算的过程中，是一个线性加权求和的过程，使用tanh函数在每一次输出的过程中都对前一层每一个节点乘以一个权重加上相应的偏向。

softmax分类分过程首先将GRU隐含层的输出信息经过全连接得出结果，经过非线性变化得到隐含层的结果，根据词性标注信息随机初始化注意力机制矩阵进行乘法运算并且进行对其归一化，使用softmax函数，最后得到参数权重，最终通过得到该词语注意力权重向量。

在作者识别层也可以说是softmax层之前添加一个非线性层，将所有向量降维映射到一个长度为C的向量中。最后进行作者识别技术。

5.联合损失函数

联合损失是根据相似度计算的结果进行损失计算，在孪生神经网络中肯定要考虑数据对的情况，本次损失函数先对训练文档求一个normal的相似度结果，以nor相似度结果作为临界值，sim代表相似度计算的结果，相似损失公式为：

sim-loss＝max(sim-loss)²

预测损失是根据预测时的准确定乘以相似度结果得到的，其中True代表实际值，1表示相同作者，0表示不同作者。Pre表示预测值，其中1表示相同作者，0表示不同作者。最后得出

其中sim-loss和pre-loss都是为维度的损失向量最后求和，去平均着作为最后的损失值。使用对比损失函数主要是判断降维技术对结果的影响，空间中有两个相似的点，降维之后有仍然比较近，但是空间中两个不相似的点，降维之后有可能改变其相似关系，通过对比损失评判模型有效性的一个方法。通过降维处理之后后，相似度文本仍然具有相似性，不相似的文本也同样不具有相似性。

对比损失函数可以很好的表达样本的匹配程度，也能够很好用于训练提取特征的模型。当true＝pre时，表示样本相似，损失函数剩下sim-loss，即原本相似的样本公式，如果在特征空间的相似度较大，则说明当前的模型不好，因此加大损失，相反欧式距离较少，则说明模型优异，因此减小损失。而当true！＝pre时，表示样本不相似.

6.相似度结果输出

相似度计算是将MLP隐层的结果通过激活函数计算，就可以得到两个比较稳当的特征提取结果，一般特征提取结果为128维度的向量，向量经过激活函数处理会在(0,1)之间。衡量特征相似度的指标会使用欧式距离、汉明距离、余弦相似度等。

在相似度算法的选择上也有相应的考虑，在空间词向量模型中，存在大量空间距离相等的情况，所以使用欧式距离不能显示向量的差异度。使用汉明距离是通过变换次数得到相似度情况，对于高阶特征提取的结果进行相似度计算。

得到余弦相似度的结果集合和Bi-GRU预测的结果进行作者识别，这里会分别得到Bi-GRU预测的结果是否是同一作者和相应的相似度结果。会得的风格裂缝分段的每一个部分和每一个署名作者的相似度结果，最后取相似度最高的并且预测结果为“是”的映射关系作为最终的结果。

综上所述，本发明涉及信息技术领域，具体涉及的是一种基于写作习惯的作者识别方法，目的是为了提供一种基于写作习惯的作者识别方法，分为三个阶段：首先，语料预处理，然后通过Bi-GRU进行双向特征提取，在特征提取的过程中有加入分段池化和平均池化相结合的池化层，再通过MLP隐层进行全连接和高阶特征抽取；然后，在相似度计算过程中提出了联合损失，通过相似度计算和预测损失结果联合计算损失值，得出结果；最后将作者识别框架与传统的svm和朴素贝叶斯进行对比。本发明与传统方法相比具有高效计算能力，适合解决含大规模数据和参数的优化问题，解决的全联接结果参数过多，特征集过大的问题，使神经网络朝着风格的方向收敛，具有科学性和有效性。

Claims

1.一种基于写作习惯的作者识别方法，其特征在于，可以分为三个阶段：

(1)语料预处理，然后通过Bi-GRU进行双向特征提取，在特征提取的过程中加入分段池化和平均池化相结合的池化层，再通过MLP隐层进行全连接和高阶特征抽取；所述语料预处理为对文本进行分词处理，通过中文维基GloVe词向量作为预处理词向量输入；

(2)决策网络分为相似度计算和联合损失函数，在相似度计算过程中提出联合损失，通过相似度计算和预测损失结果联合计算损失值；

(3)将作者识别框架与传统的svm和朴素贝叶斯进行对比；

sim-loss＝max(sim-loss)²

其中，sim代表相似度计算的结果；

所述预测损失是根据预测时的准确度乘以相似度结果得到的，最后得出：

2.根据权利要求1所述的一种基于写作习惯的作者识别方法，其特征在于：所述Bi-GRU算法使用双向神经网络，利用更新门和重置门的特征判断提取特征的去留，并在Bi-GRU算法中对虚词加入attention机制。

3.根据权利要求1所述的一种基于写作习惯的作者识别方法，其特征在于：所述MLP隐层分为全连接和softmax分类。

4.根据权利要求1所述的一种基于写作习惯的作者识别方法，其特征在于：所述高阶特征提取是利用词语级别的词向量，以训练好的词向量空间模型作为文档的输入。