CN110472228A

CN110472228A - 一种基于作者写作风格的裂缝检测方法

Info

Publication number: CN110472228A
Application number: CN201910618530.5A
Authority: CN
Inventors: 刘刚; 王凯; 李涛
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2019-07-10
Filing date: 2019-07-10
Publication date: 2019-11-19
Anticipated expiration: 2039-07-10
Also published as: CN110472228B

Abstract

本发明属于机器学习技术领域，具体涉及一种基于作者写作风格的裂缝检测方法。写作风格指的是文学作品上表现出来自己独有的、鲜明的、隐藏的风貌和格调。它受到作家主观写作习惯的影响，也受到客观的地理位置、语言、题材、民族、创作时代的影响。风格裂缝表示写作风格发生转变的位置，风格裂缝的识别是通过风格特征提取来实现的，分别从词、句、情感多方面的考虑风格特征，本发明使用了7个具有代表性的文本特征，利用多特征融合与机器学习算法相结合，以滑动窗口为基准，确定风格裂缝位置。写作风格是一个人写作习惯的养成，通过该发明可以对一篇文章的原创性进行判定，并经过实验证实了该方法的有效性。

Description

一种基于作者写作风格的裂缝检测方法

技术领域

本发明属于机器学习技术领域，具体涉及一种基于作者写作风格的裂缝检测方法。

背景技术

风格特征提取最早是对单特征进行研究，随着单特征不能满足实验结果，多特征融合也应运而生。近年来机器学习和神经网络的发展，把机器学习和神经网络的算法引入到风格提取和作者识别中，并且取得了好的结果。由于中文的多变和困难，所以在对中文的风格提取上，比外文的风格提取明显更加困难，中文需要考虑到分词系统的准确性，句子结构也比较复杂。尽管中文的风格提取比外文更困难，但对于风格的研究仍然同样受到了广泛的关注。

文本分割技术对一个文章根据文章的某些特征把文章分成几个独立的片段。文本分段技术在文本预处理，自然语言处理中占用很重要的比重。由于文本分段的目的不同，所以使用的方法也有所不同。现有的分割技术大致可分为基于词汇聚集的分割方法，基于语言特征的分割方法，基于概率统计的分割方法。

发明内容

本发明的目的是提供一种基于作者写作风格的裂缝检测方法。

本发明的目的是这样实现的：

一种基于作者写作风格的裂缝检测方法，具体步骤如下：

(1)预处理；

(2)单风格特征提取；

(3)参数权重法确定风格裂缝；

(4)基于风格特征的风格聚裂，判断风格裂缝。

所述的预处理是针对所选用的语料库通过句子拆分和粗粒度分词之后，进行标点过滤。

所述的单风格特征提取包括单维特征和多维特征；单维特征包括词长度、平均句子长度、情感偏向，多维特征包括词汇特征、符号特征、同义词、虚词。

所述的参数权重法是通过对所有参数权重进行遍历，对参数进行调优，最后找出每个特征的最优参数；虚词和同义词降维之后分别选用同一组参数作为权重。

所述的参数权重法确定风格裂缝是在得到最优参数权重的基础上，通过欧几里得计算距离得到滑动窗口对每一个窗口的相似度，根据部分权重的相似度差异，判断风格是否相似，最后在风格差异太大并且是断尾的位置上记一次风格裂缝。

所述的基于风格特征的风格聚裂，判断风格裂缝是先提取出文章每一个段落的风格特征，把风格特征参数组成向量作为K-means++算法的输入，输入当前文档给出的作者个数N；K的取值从1到2N；通过轮廓系数评价最优K；通过这个K值，进行迭代收敛；通过这个收敛结果，找出风格裂缝位置，最后输出。

本发明的有益效果在于可以对一篇文章的原创性进行判定，并经过实验证实了该方法的有效性。

附图说明

图1风格裂缝识别结构图

图2情感算法流程图

图3同义词向量特征获取结构图

图4虚词向量生成步骤

具体实施方式

下面结合附图对本发明做进一步描述。

本发明的目的是这样实现的：

根据文章的写作风格特征进行裂缝识别，该发明的技术路线及工作流程可以分为四个阶段。第一阶段，对语料库进行句子拆分和粗粒度分词的预处理；第二阶段，进行文章的特征提取；第三阶段，利用参数权重技术确定特征的权重参数，必要时舍去作用较小的特征，在文本风格特征差异较为明显处，标注风格裂缝。第四阶段通过筛选的风格向量作为K-means++算法的输入，利用滑动窗口进行风格特征识别，进一步找出风格裂缝的位置。

(1)风格特征提取

文体风格特征是指能够代表作者写作习惯的文档的属性，对于文档风格特征提取主要是通过词汇特征、语法特征、结构特征、语义特征等。通过风格特征的提取结果可以表示一名作者的写作习惯和写作风格。

(2)滑动窗口与风格裂缝的确定

滑动窗口以多个句子为一个整体，进行风格特征识别。每次向下滑动一个句子，对每个窗口进行风格统计，当风格发生转变的时候，每次风格和上一次发生的结果有逐渐的变化，直到风格相似度又趋近不变，则这个位置发生过风格裂缝。风格裂缝识别是通过风格特征提取的结果，利用的是多特征融合和无监督的机器学习算法相结合的方法。

本发明进一步描述如下：一种基于作者写作风格的裂缝检测方法，包括：通过提取文本的写作特征，对文本进行裂缝检测，找出多作者文章中不同作者的写作转换位置，借此为依据，在不借助外力词库的情况下，可根据风格裂缝进行中文内部的剽窃检测。风格裂缝识别首先是对文章的风格特征进行提取，之后借助滑动窗口思想，利用机器学习算法进行文本切割。

针对作者的写作风格的界定，本发明提出了中文写作习惯的单维特征和多维特征。并针对文本风格特点对特征内容进行有效性提取，结合两种特征的优点，进行多特征融合。

针对文本的风格裂缝识别，本发明主要提出了两个方法，分别是基于参数权重法和基于K-means++算法，参数权重法可以分析每一个特征提取的有效性，在特征差异明显处记录风格裂缝；而K-means++是一个无监督的方法，使用风格特征结合K-means++算法进行风格特征聚类，最后确定风格裂缝位置。

1.预处理

首先针对所选用的新闻语料通过粗粒度分词预处理之后，进行标点过滤。

2.单风格特征提取

词长度：计算每一个分词结果之后的词包含几个字，在英文上是统计字母个数，把词长度作为最后分类的一个参数。

平均句子长度：统计句子包含有几个汉字和标点，统计出每一个句子的长度，再平均求和。平均句子长度以“。”、“！”和“？”为标记，统计句子中长度字数的平均值作为最后的一个维度。

情感偏向：考虑句子中的情感词，程度词，否定词以及感叹词，根据这些词的出现与否以及出现次数进行处理，得出这句话的一个积极分值，一个消极分值。

词汇特征：分别包括分词处理后统计的总词数，两个字的词，三个字的词，四个字的词个数，自造词/总词数，感叹词/总次数，不同词个数/总次数，词汇密度。这八个结果作为最后计算的八个维度。

特殊标点符号：统计冒号，分号，千百分号，单位符号，左右引号，左右括号，叹号，省略号，破折号，问号和顿号。

同义词：特征的提取以新闻集作为基准训练集，通过遍历整个哈工大同义词林，删除出现次数过小和过大的同义词，对同义词进行同义词向量统计，出现一次加一，最后删除同义词向量中的所有未出现的同义词。这里面需要删除在测试集没出现过的同义词，从而减小实验误差。对测试集出现的词，训练集未出现的时候，使用平滑技术，增加实验的准确性，并且存成相应的格式。

虚词：通过自定义虚词表作为基准，对虚词表的虚词使用情况进行计算。首先制作虚词表，虚词表来源是《现在汉语虚词词典》，虚词表中一共有840个虚词，和同义词表相同，虚词表维度过大，虚词表中含有一些生僻和不常用的虚词，会影响结果的计算。以新闻集为基准，对虚词表的虚词进行TF-IDF统计，删除TF-IDF过低。通过多次清洗，最后精简到230个虚词。选用230个虚词首先能控制在一个合理的维度中，其次这230个虚词能体现虚词在新闻集中的重要程度，最后形成一个虚词TF-IDF词对表作为备用。

至此，完成了风格特征提取。特征提取包括单维特征词长度(1维度)、平均句子长度(1维度)、情感偏向(1维度)，多维特征词汇特征(8维度)、符号特征(11维度)、同义词(维度不定)、虚词(维度不定)。符号特征提取过程中需要删除一些频率为0的结果的干扰，所以维度最多为11。同义词和虚词特征提取过程中，与同样需要删除参数为0的词的干扰，所以维度是根据实际情况为准。但是由于每个滑动窗口的词汇量有限，经过实验发现同义词和虚词维度也不会太高，但是为了保证多维特征能保证在一个标准上，所以对同义词和虚词仍然需要进行降维处理。

3.参数权重法确定风格裂缝

参数权重法首先对所有参数权重进行遍历，通过多组新闻集进行遍历，对参数进行调优，最后找出每个特征的最优参数，虚词和同义词降维之后分别选用同一组参数作为权重，在训练过程中选中新闻集合作为语料库。经过实验，由于参数特征提取时间过长，所以适当缩小新闻集进行实验。

算法描述：首先对新闻集进行预处理，对新闻集合进行特征提取，把新闻集打乱顺序存到文件里，在其他特征参数权重不变的情况下，这里面借用控制变量法的思想，首先控制词长度参数从0.01到0.99进行计算，其他参数为0.5，得到在其他参数不变的情况下参数的最优值，最优值是两篇文本相似度最低为标准，接下来在其他参数不变的情况下，以平均句子长度参数从0.01到0.99进行计算，得到的最优值，以此遍历所有的参数，接下来都以上一次参数最优的结果为基准，继续上面的方法进行循环，直到参数最优值不变为止，得到参数权重组，这一步骤的目的是为了通过参数权重法发现每一个参数的有效性，删除无效参数的影响。得到的参数权重组，发现其中一些参数权重过小，则删除这个参数，也就是删除这个风格特征。这类特征对结果起到积极影响较小，但是会影响实验的效率，所以删除这些风格特征。

在得到最优参数权重的基础上，通过滑动窗口对每一个窗口进行相似度计算，选用的方法是欧几里得计算距离，选用欧几里得是因为它可以根据部分权重的相似度差异，判断整体差异，这样可以根据几个特征风格差异太大，判断风格不相似，最后在风格差异太大的地方，并且是断尾的位置记一次风格裂缝。并且通过风格裂缝进行分段。

4.基于风格特征的风格聚裂，判断风格裂缝

通过参数权重法确定的最终风格特征结果，利用K-means++的无监督聚类方法，对新闻文本进行裂缝识别。

算法描述：首先提取出文章每一个段落的风格特征，把风格特征系数组成向量作为K-means++算法的输入，输入当前文档给出的作者个数N；K的取值从1到2N；通过轮廓系数评价最优K；通过这个K值，进行迭代收敛；通过这个收敛结果，找出风格裂缝位置，最后输出。

综上所述：本发明属于机器学习技术领域，具体涉及一种基于作者写作风格的裂缝检测方法。写作风格指的是文学作品上表现出来自己独有的、鲜明的、隐藏的风貌和格调。它受到作家主观写作习惯的影响，也受到客观的地理位置、语言、题材、民族、创作时代的影响。风格裂缝表示写作风格发生转变的位置，风格裂缝的识别是通过风格特征提取来实现的，分别从词、句、情感多方面的考虑风格特征，本发明使用了7个具有代表性的文本特征，利用多特征融合与机器学习算法相结合，以滑动窗口为基准，确定风格裂缝位置。写作风格是一个人写作习惯的养成，通过该发明可以对一篇文章的原创性进行判定，并经过实验证实了该方法的有效性。

Claims

1.一种基于作者写作风格的裂缝检测方法，其特征在于：具体步骤如下：

(1)预处理；

(2)单风格特征提取；

(3)参数权重法确定风格裂缝；

(4)基于风格特征的风格聚裂，判断风格裂缝。

2.根据权利要求1所述的一种基于作者写作风格的裂缝检测方法，其特征在于：所述的预处理是针对所选用的语料库通过句子拆分和粗粒度分词之后，进行标点过滤。

3.根据权利要求1所述的一种基于作者写作风格的裂缝检测方法，其特征在于：所述的单风格特征提取包括单维特征和多维特征；单维特征包括词长度、平均句子长度、情感偏向，多维特征包括词汇特征、符号特征、同义词、虚词。

4.根据权利要求1所述的一种基于作者写作风格的裂缝检测方法，其特征在于：所述的参数权重法是通过对所有参数权重进行遍历，对参数进行调优，最后找出每个特征的最优参数；虚词和同义词降维之后分别选用同一组参数作为权重。

5.根据权利要求1所述的一种基于作者写作风格的裂缝检测方法，其特征在于：所述的参数权重法确定风格裂缝是在得到最优参数权重的基础上，通过欧几里得计算距离得到滑动窗口对每一个窗口的相似度，根据部分权重的相似度差异，判断风格是否相似，最后在风格差异太大并且是断尾的位置上记一次风格裂缝。

6.根据权利要求1所述的一种基于作者写作风格的裂缝检测方法，其特征在于：所述的基于风格特征的风格聚裂，判断风格裂缝是先提取出文章每一个段落的风格特征，把风格特征参数组成向量作为K-means++算法的输入，输入当前文档给出的作者个数N；K的取值从1到2N；通过轮廓系数评价最优K；通过这个K值，进行迭代收敛；通过这个收敛结果，找出风格裂缝位置，最后输出。