CN102880631A

CN102880631A - 一种基于双层分类模型的中文作者识别方法及其装置

Info

Publication number: CN102880631A
Application number: CN2012102312827A
Authority: CN
Inventors: 刘玉玲; 万晶
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2012-07-05
Filing date: 2012-07-05
Publication date: 2013-01-16

Abstract

本发明涉及一种基于双层分类模型的中文作者识别方法及其装置，属于信息安全领域。针对作者个数较多造成的识别准确率低下的问题，在作者识别模型中添加一个作者分组层，将每位作者表示成作者向量，使用聚类算法对作者进行分组；第二层为作者识别层，在该层提取依存关系、虚词、标点符号以及词性标记作为特征，在组内进行作者识别。使用本发明的方法或装置，可以有效解决作者个数较多而导致识别准确率下降的问题；同时，提出的基于主成分分析方法的特征降维和优化方法，可以解决高维特征向量中包含的噪声影响识别准确率的问题。本发明可以应用于文学作品的作者考证领域，也可以应用于版权保护等信息安全领域。

Description

一种基于双层分类模型的中文作者识别方法及其装置

技术领域

本发明涉及中文自然语言处理领域以及中文作者识别领域，尤指一种基于双层分类模型的中文作者识别方法及其装置。

背景技术

近年来，抄袭剽窃之风在文学创作、论文写作等学术领域愈演愈烈。比如上海发生数起国家社会科学基金项目论文抄袭剽窃事件；80后作家郭敬明的《梦里花落知多少》涉嫌抄袭；吉林省文联摄影家协会常务副主席桑玉柱涉嫌剽窃冒用他人作品；清华大学中文系教授、《读书》杂志前任主编汪晖写于20多年前的博士论文《反抗绝望》，被南京大学中文系教授王彬彬指出存在多处抄袭；之后，学坛宿儒朱学勤也被人指责有“剽窃”行为。

与此同时，随着信息时代的到来，尤其是因特网的普及，通过网络产生的版权问题也逐渐进入人们的视野，比如中国新闻出版网上发表的一则关于博客文章剽窃造成侵权的新闻。据法院调查统计显示，自1999年北京市法院审理了我国首例网络著作权案件后，2009年的网络著作权案件已占全部著作权案件的47.6%，达到1800余件，成为北京市法院知识产权案件的重要组成部分。除此之外，通过网络产生的安全问题也越来越引起人们的重视，早在二十世纪九十年代初，美国的银行企业就出现过电子邮件欺诈的案例。另外还有大量邮件滥用的现象，比如通过电子邮件进行恐怖威胁、传播病毒、色情等非法活动。由于邮件服务器不会对发信人身份的合法性做任何检查，一旦被不法分子利用，用户的利益和正常的经济秩序将会受到很大的负面影响。

作者识别(Authorship Identification)是给定一个待判定作者的作品，比如一篇文章、一封邮件甚至是一段文字，通过作品涉及到的争议作者所著的其他作品推测作者写作风格，并与待判定归属的作品风格进行比较，从而识别出真正的作者。在现实世界中的法证领域，可以利用指纹来识别个人，而作者识别则是利用作品字里行间的蛛丝马迹来进行识别。

作者识别是一个应用广泛的研究领域，可以应用于中外文学作品的作者考证领域，也可以应用于版权保护、恶意邮件识别等信息安全领域。通过分析作品的写作风格来推测作者这一工作，很早以前就有国外的一些语言学家开始进行研究了。国内关于作者识别的研究起步相对较晚，并且由于中文的特殊性，对于中文作者识别的研究相对较少，对于能有效区分不同中文作品写作风格的特征并不多，可以说有效的中文作品特征的发现目前还处于探索阶段。同时该领域中现有大多数方法存在的问题是识别的准确率很大程度上依赖于训练分类器的作者数目，作者数目在10个到20个以内一般能够取得比较理想的效果，但是一旦作者数目持续增大，将会造成识别准确率的下降，因此实际的应用性受到了限制。

本发明针对中文作品以及中文作者识别研究中存在的上述问题，将中文自然语言处理领域中的概念和技术应用于中文作者识别研究中，实现了一种基于双层分类模型的中文作者识别方法和装置。

发明内容

本发明旨在针对中文，发掘出新的有效特征；解决高维特征向量中包含的噪声导致识别准确率下降的问题；以及当作者个数比较多(大于20个)造成的识别准确率低下的问题。

本发明采用如下方案：

针对作者个数超过20个的情况，实现一种基于双层分类模型的中文作者识别方法及其装置。双层分类作者识别模型如图1所示：

第一层为作者分组层，作者分组层所做的工作是使用聚类算法将作者分成若干组，每个组中包含若干作者，每个组内的作者个数远小于原始作者个数。假设给定一篇待识别的作品，属于相同组的作者被预先标记成相同的类别，通过分类器的处理预测该作品属于哪个类别，也就是哪一个分组。本发明针对该层提出一种基于词义的中文作者表示方法，通过作者作品中表达的词义上的相似性先对作者进行分组，使得每一组中作者数目相对较少(一般不超过20个)。本发明根据《同义词词林》、《哈工大同义词词林扩展版》选取了88个中类标记在作品中出现的频数作为作者向量的特征。该层的工作原理是：对作者进行聚类，我们关注的是找到作者与作者之间的相同或相似的部分，比如说作者的作品常涉及到哪些事物，一般说来，作者所撰写的大多数作品内容与他们自身的专业知识结构或者个人的阅历和偏好是相关的。有些作者倾向于关注人物情感或者心理方面的描写，有些作者倾向于关注撰写历史时事评论，有些作者倾向于关注撰写文学理论或社会活动。为了尽量找到作者之间写作的相同或相似之处，同时又能够刻画出每个作者自身的一些写作特点，我们以作者作品中所包含词语的词义为出发点，考虑作品中所包含的词义，以及各词义所属的抽象种类(比如人、物、时间空间、政治、军事、管理等)，通过这些抽象种类来表示作者特征。

第二层为作者识别层，作者识别层所做的工作是，根据上一层作者分组层预测待识别作品属于哪一分组的结果，通过分类器识别出该作品属于分组中的具体哪一位作者。识别在组内相对较少的作者数中进行，可以解决当作者个数很多时导致识别准确率下降的问题。本发明在该层中提取出24种依存关系作为句法层上的有效特征，与虚词、标点符号、词性标记相结合构成一个大特征集，同时针对大量特征中包含的无用属性或噪音导致识别准确率下降的情况，采用主成分分析方法(Principal Component Analysis, PCA)对特征集进行优化。然后根据作者分组层的结果，对组内作者进行进一步识别。

需要指出的是，作者分组层和作者识别层分别进行一次分类处理，因此本发明在整个识别过程中，一共进行两次分类处理。

本发明提出的方法实现的总体步骤如下：

第一步：语料收集。给出一篇待识别的作品，为了识别出真正的作者，需要收集所有潜在作者的作品，这些作品集也就构成了作者识别中的语料库。为了方便后面进行分类训练和测试，在进行特征提取之前，把每位作者的作品按一定比例(比如6:4或7:3)分成训练集和测试集。

第二步：作者分组。作者分组流程如图2所示。首先使用词义标记模块，以每位作者的作品集为单位，对每篇作品进行词义标记。词义标记的部分结果如图3所示；然后使用计算模块计算每篇文档中词义标记(词义标记按照字母顺序进行先后计数)所出现的频数，并且对每位作者的所有作品中词义标记频数分别进行累加和规格化处理(规格化处理的目的是忽略作品长度不同以及每位作者作品数不同带来的影响)，从而最终得到对应的作者向量，将每个作者向量存储在同一个文档中，构成一个作者向量库。作者向量库如图4所示；最后使用k-means聚类算法对作者向量库中的作者向量进行聚类，得到作者聚类，即分组结果。图5为weka中的聚类结果示意图。

第三步：作者识别。作者识别的整体框架如图6所示。

首先使用特征提取器提取出有效的特征。具体是依据预先选定的能够有效表示作者写作风格的特征集，使用中文处理模块对作品进行分句、分词、词性标注以及依存语法分析等；使用计算模块对每个特征所对应的标记在每篇作品中出现的频数进行计数，利用向量空间模型将每篇作品表示成一个特征向量，特征向量的维数就是特征集中包含的特征个数，将计算模块的输出结果保存起来，这样每篇作品都会对应一个特征向量。特征提取器如图7所示。

如果涉及到高维特征向量，使用基于PCA的特征优化器来对输入的高维特征向量进行降维和优化。输出的是高维特征向量经过优化得到的维数较低的特征向量。

最后使用分类器来生成识别模型。分类器的输入分为两部分，一部分是训练特征向量集，一部分是测试特征向量集。训练特征向量集用来训练分类器，测试向量集用来验证分类的准确率。分类器的输出是训练好的识别模型，这个模型可以用来对未知的作品进行作者识别。

附图说明

图1为双层分类中文作者识别模型示意图

图2为作者分组层流程示意图

图3为词义标记的部分结果示意图

图4为作者向量库的部分结果示意图

图5为weka中的聚类结果示意图

图6作者识别层框架示意图

图7特征提取器示意图

图8 分词、词性标记的部分结果示意图

图9 依存语法分析的部分结果示意图

具体实施方式

为使本发明的目的、技术方案更加清晰，下面对本发明具体实施方式进行详细说明。

基于双层分类模型的中文作者识别方法的具体步骤如下：

第一步，获取作者向量。使用词义标记模块对中文作品中的词语进行词义标记。词义标记模块的输入是一篇作品，通过调用哈工大社会计算与信息检索研究中心免费共享的语言技术平台（LTP）的全文词义消歧模块，在对作品中的语句进行标注之后，将标注的结果保存在新的文档中。

对于每篇进行了词义标注的文档，计算模块将其作为输入，提取出每篇文档中88个词义标记(88个词义标记按照字母顺序进行先后计数)所出现的频数，并且对每位作者的所有作品中这88个词义标记频数分别进行累加和规格化处理(规格化处理的目的是忽略作品长度不同以及每位作者作品数不同带来的影响)，从而最终得到对应的作者向量：

，其中，，m表示作者的作品数，s_i,j表示第i个词义标记在第j篇作品中出现的频数，t_j表示该作者第j篇作品中出现的所有词义标记的总频数。对于每一个作者对应的作者向量进行保存，形成一个作者向量库(这里的作者向量库是一个文档，里面包含了每位作者对应的作者向量)，为后面的作者分组操作提供依据。

这一步对应的算法如下：

第二步，作者分组。对于第一步得到的作者向量库，使用数据挖掘工具Weka中实现的K-means聚类工具来进行作者分组。

使用Weka进行K-means进行聚类之前，需要设置两个参数：聚类数，即分组数，以及种子值。聚类结果通常包含一行说明：“Within cluster sum of squared errors: 127.57525001735931”,这是评价聚类好坏的标准，其中的数值越小，说明同一簇中实例之间的距离越小。

在实验过程中，可以对种子值进行调整，不同的种子值得到的上述数值也不同，通过多个种子值的测试可得到满意的聚类结果，即保证每个簇中实例之间的距离较小，并且包含的实例个数相差不大。

第三步，作者分组层分类。根据第二步得到的分组结果，将属于相同组的作者作品对应的特征向量按照libsvm数据格式标记成相同的类别，训练分类器，得到作者分组层的分类模型。给定一篇待识别的作品，提取出对应的特征向量，根据得到的分类模型，预测出该作品属于哪一组。

第四步，组内作者识别。

(1)特征提取。将中国科学院开发的中文词法分析系统(Institute of Computing Technology Chinese Lexical Analysis, ICTCLAS) 和哈尔滨工业大学信息检索实验室开发的中文自然语言处理模块(Linguistic Process module, LP) 结合起来构成中文处理模块分别完成词法分析和句法分析的功能。原始作品通过ICTCLAS处理以后，会重新生成一个文档，其中包含了分词、词性标记的结果，部分结果如图8所示。可以根据该结果提取出原始作品中包含的虚词、标点符号、词性标注的信息。为了获取作品的依存语法的信息，本发明使用LP模块来完成此项功能。部分依存语法分析的结果如图9所示。

使用计算模块计算每个特征在每篇作品中出现的频数。它的输入是中文处理模块的输出，即经过分词、词性标注、依存语法分析等步骤处理过的文档。经过中文处理模块的处理以后，每个特征都会有其对应的标记。计算模块对每个特征所对应的标记在每篇作品中出现的频数进行计数，将结果保存起来，这样每篇作品都会对应一个特征向量，这些特征向量就是计算模块的输出。在这里需要提到的是，考虑到特征频数和作品的长度有关，为了消除作品长度对特征频数的影响，在得到每个特征的频数以后，计算模块会同时进行一个规格化的处理。规格化处理说明如下：

给定一个特征向量：

x = (x_{1}, x_{2} . . . . . . . . x_{N})

其中，N表示特征向量的元素个数，即特征个数，那么通过规格化处理，可以得到一个规格化向量：

。其中，

，分子x_i表示第i个特征在每篇作品中出现的频数，分母

表示每篇作品中所有特征出现频数的总和。

表示第i个特征在所有出现的特征中所占的百分比。

(2)特征优化。特征提取以后，每篇作品对应一个特征向量，如果把每类特征结合起来，特征向量的维数是960，本发明使用特征优化器进行特征的降维和优化。设有n个样本，每个样本有p个指标(即特征)，特征向量集记为{F₁,F₂,…,F_p}，使用f_i,j表示第j个样本的第i个特征项F_i的特征值(1≤i≤p，1≤j≤n)。具体步骤如下：

(a)数据标准化。对于n个样本，每个样本有p个特征，可以得到一个矩阵X=(x_ij)_n×p，其中x_ij表示第i个样本的第j个特征。使用标准化处理的计算公式：

z_{ij} = \frac{x_{ij} - {\overset{&OverBar;}{x}}_{j}}{σ_{X_{j}}}, (i &NotEqual; j, i = j = 1,2, . . ., p) - - - (1)

对矩阵进行标准化处理，其中

是X_j的算术平均数，

是X_j的标准差。并记Z=(z_ij)_n×p为标准化之后的数据矩阵。

(b)得到关联矩阵。第i个特征项的特征平均值定义为：

E (F_{i}) = \frac{1}{n} Σ_{j = 1}^{n} f_{i, j} - - - (2)

F_i和F_j之间的相关系数定义为:

ρ (F_{i}, F_{j}) = \frac{E {[F_{i} - E (F_{i})] [F_{j} - E (F_{j})]}}{{(E {{[F_{i} - E (F_{i})]}^{2}})}^{1 / 2} {(E {[F_{j} - E (F_{j})]^{2}})}^{1 / 2}} - - - (3)

根据特征平均值和相关系数，可以得到特征项F₁,F₂,…,F_p的关联矩阵:

R = {(ρ (F_{i}, F_{j}))}_{p \times p} - - - (4)

(c)获取主成分。对关联矩阵R进行特征分解得到对应的特征根λ_j (j=1,2,…,p)和特征向量γ_i=(γ_i1,γ_i2,…,γ_ip)，利用公式P_i=γ_i·Z(i-1,2,…,p)得到第i个主成分的值。

(d)确定新的特征项的个数m。如果有k个主成分的值大于0，那么将k的值赋给m。

(e)得到优化了的特征项集合P={P₁,P₂,…,P_m}。

(3)作者识别。使用libsvm作为分类器，对特征向量进行分类(即识别)。

分类器的输入分为两部分，一部分是训练特征向量集，一部分是测试特征向量集。训练特征向量集用来训练分类器，测试向量集用来验证分类的准确率。输入的向量集合中的每一个向量都由特征向量和其对应的类别组成。类别一般使用1或-1等数字来表示，比如说作者A的类别使用1表示，作者B的类别使用-1表示。libsvm支持的数据格式为：[label][index1]:[value1] [intdex2]:[value2]…，其中，label代表特征向量所属类别，index是顺序索引，通常是连续的整数，value表示特征值，一般为实数。

分类器的输出是训练好的识别模型，这个模型可以用来对未知的作品进行作者识别。

Claims

1.一种基于双层分类模型的中文作者识别方法及其装置，利用双层分类作者识别模型，即在传统的作者识别层之前添加一个作者分组层：

a. 在第一层作者分组层中提出一种基于词义的中文作者表示方法，将每位作者表示成对应的作者向量，使用聚类算法对作者进行分组，使得每一组中作者数目相对较少(一般不超过20个)；

b. 第二层为作者识别层，根据作者分组层得到的结果，将自然语言处理中的依存语法关系作为句法层次的有效特征，同时结合已有的虚词、标点符号和词性频数构成一个大特征集对中文作品进行识别，对于大量特征产生的噪声所导致识别准确率下降的问题，利用主成分分析方法对特征集进行降维和优化，在组内进行作者识别，得到最终的识别结果。

2.根据权利要求1所述的方法，其特征在于，作者分组层的操作步骤如下：

a. 首先使用哈工大社会计算与信息检索研究中心免费共享的语言技术平台LTP包含的词义消歧模块来完成作者分组层中词义标记模块的功能，以每位作者的作品集为单位，对每篇作品进行词义标记；词义标记模块的输入是中文作品，输出是进行了词义标记的作品文档；

b. 计算每篇文档中词义标记(词义标记按照字母顺序进行先后计数)所出现的频数，并且对每位作者的所有作品中词义标记频数分别进行累加和规格化处理(规格化处理的目的是忽略作品长度不同以及每位作者作品数不同带来的影响)，从而最终得到对应的作者向量，将每个作者向量存储在同一个文档中，构成一个作者向量库；

c. 使用数据挖掘工具weka中自带的k-means聚类算法对作者向量库中的作者向量进行聚类，得到作者分组结果。

3.根据权利要求1所述的方法，其特征在于，作者识别层的过程如下：

a.中文处理模块使用中科院计算所开发的汉语分词系统ICTCLAS对输入的作品进行词法分析，使用LTP进行依存语法分析；

b.获取虚词、标点符号、词性标记和依存关系的频数并进行规格化，得到每篇作品的特征向量；

c. 对于特征向量维数比较高的情况，可以使用基于PCA的特征优化器对特征向量进行降维和优化；

d. 使用libsvm对输入的训练特征向量和测试特征向量进行学习和测试，得到识别的准确率。

4.根据权利要求2所述的方法，其特征在于，作者分组层使用聚类算法将作者分成若干组，每个组中包含若干作者，每个组内的作者个数远小于原始的作者个数，并且每个分组包含数目合理的作者；假设原本有20位作者，我们将这20位作者分为3组，那么比较合理的聚类结果(即分组结果)是每个组包含5-8位作者，如果一个组内出现只包含1位作者的情况，那么对分类器的训练学习是不利的，很可能会影响分类预测的准确率。

5.根据权利要求2所述的方法，其特征在于，得到聚类(分组)结果以后，属于相同组的作者被预先标记成相同的类别，提取每篇作品的特征(比如虚词、标点符号、词性标记和依存关系等)，特征向量与对应的作者所属类别相同；比如作者1有30篇作品，根据聚类结果，该作者属于簇0，那么这30篇作品对应的30个特征向量也被事先标记为0，作为分类器的输入；给定一篇待识别的作品，使用特征提取器得到该作品对应的特征向量，然后利用分类器在作者分组层分类中得到的模型来预测该特征向量，也就是该作品属于哪一个类别，即属于哪一组。

6.根据权利要求2所述的方法，其特征在于，作者分组层分类过程中，由于涉及到的作者数和样本数比较多，可以将多类特征相结合以提高该层分类的准确率。

7.根据权利要求3所述的方法，其特征在于，当涉及到高维特征向量造成识别准确率下降的情况，使用基于PCA的特征优化器可以对高维特征向量进行降维和优化；将优化以后的特征向量作为libsvm分类器的输入；如果特征向量维数并不高，那么可以跳过特征优化，直接将原始的特征向量作为分类器的输入。