CN108804422A

CN108804422A - 一种科技论文文本建模方法

Info

Publication number: CN108804422A
Application number: CN201810525111.2A
Authority: CN
Inventors: 路永和; 周月鹏; 罗嘉仪; 翟媛媛; 郑雅文
Original assignee: National Sun Yat Sen University
Current assignee: National Sun Yat Sen University
Priority date: 2018-05-28
Filing date: 2018-05-28
Publication date: 2018-11-13
Anticipated expiration: 2038-05-28
Also published as: CN108804422B

Abstract

传统的TF‑IDF权重计算方法对特征词的词性、所处文章位置、词在类间分布等特点考虑不足。本发明认为在考虑特征词的不同特点如词性、位置等时候，应当使用不同加权方法对TF‑IDF进行改进。因此首先对科技论文的不同结构进行分类，区分出随着文本长度增加而同比例增加的结构，如摘要、前言、正文、结语等结构和随着文本长度增加而长度不变的结构，如标题、关键字、段落标题等结构。然后对前者使用乘法进行加权，对后者使用加法进行加权，最终得到基于科技论文结构的改进TF‑IDF权重计算公式。在传统TF‑IDF权重计算过程中合理使用位置影响参数来进行两类结构不同方式的加权，解决了传统方法中未考虑特征词的位置信息这一缺点。

Description

一种科技论文文本建模方法

技术领域

本发明涉及计算机科学与技术领域，更具体地，涉及一种科技论文文本建模方法。

背景技术

现有的对科技论文进行分析的技术主要是由各大学术数据库网站提供的基于关键词的知识主题趋势分析、基于引文统计的论文引文分析等。传统的基于关键词或统计信息的处理方法已不能满足对大量科技论文的内在规律的发现。

在主题识别过程中，学科与学科之间的区分度大而较容易进行主题识别。但对于学科内部的主题信息，其区分度小且交叉程度大，并且随着学科的发展而动态变化，使得难以提前进行主题的识别。传统的基于关键词共现的主题识别方法未考虑科技论文全文信息，分析深度有限。科技论文区别与一般文本的地方在于有固定的行文规范，其全文信息主要包括标题、摘要、关键字、段落标题、前言、正文、结语、参考文献等。

许多学者对传统的TF-IDF权重计算方法提出改进的办法，都认为TF-IDF方法对特征词的某些特点考虑不足，如路永和(路永和,王鸿滨.文本分类中受词性影响的特征权重计算方法[J].现代图书情报技术,2015,31(4):18-25.)等人引入词性改进特征权重计算方法，进而影响文本特征权重的取值，在引入词性的特征权重计算方法中，采用粒子群算法迭代计算最优词性权重。兰均(兰均,施化吉,李星毅,等.基于特征词复合权重的关联网页分类[J].计算机科学,2011,38(3):187-190.)等人利用网页标签信息所体现的位置特征计算特征词的复合权重，并以此权重为基础建立分类规则，对网页进行分类。路永和(路永和,李焰锋.改进TF-IDF算法的文本特征项权值计算方法[J].图书情报工作,2013,57(3):90-95.)等人从特征项重要性和类别区分能力出发，研究文本分类中向量化时的特征权重计算。

综合已有研究分析，科技论文具有固定的行文规范，有特定的文本结构，是一种半结构化数据，而出现在不同结构的词对于科技论文的表示程度是不同的。例如“甲”词出现在摘要或者关键词中，“乙”词只出现在正文中，则对于该篇科技论文，“甲”词应当比“乙”词具有更大的表示能力，在特征词权重计算时应赋予更大的权重。传统的TF-IDF权重计算方法只统计特征词的词频和文档频率，没有考虑该词所出现的位置信息。

发明内容

本发明旨在提出一种更有效的科技论文文本建模方法，结合科技论文的结构位置信息，提出一种基于科技论文结构的改进TF-IDF权重计算方法，利用词所在的结构位置信息计算位置影响系数，并使用和声搜索算法进行系数的寻优，以更好的进行科技论文的文本表示。

为实现以上发明目的，采用的技术方案是：

一种科技论文文本建模方法，包括以下步骤：

阶段一、预处理：

Step1.导入科技论文集，经过格式转换、结构识别和数据清洗构成未分词数据库；

Step2.抽取关键词集，结合结巴分词系统进行文本分词，然后去停用词，利用词性过滤以后，完成科技论文数据库的构建；

Step3.通过word2vec计算特征词的词向量，利用k-means聚类算法进行词聚类，然后基于word2vec的特征构造方法构造主题特征；

阶段二、优化位置参数

Step4.初始化6个位置影响参数的最优数值，其中标题、关键字、段落标题、摘要、前言、结语的参数取值范围为[0,1]，设置和声搜索算法的记忆思考概率HMCR，音调调整概率PAR、步长bw、迭代次数；

Step5.从解空间中随机产生HMS个和声和对应的优化目标函数值放入HM；

Step6.HS通过记忆思考、音调调整、随机选取的机理在每次迭代中产生一个新解；

Step7.判断新解是否优于HM内的最差解，若是，则将新的解替换最差解，得到新的HM；

Step8.重复Step6到Step8，直到达到最大的迭代次数或满足停止准则后结束循环，输出最优解；

Step9.利用k-means算法对产生的最优解进行聚类，利用CH指标和轮廓系数对聚类效果进行评判；

Step10.完成一次聚类分析，等待下一个科技论文集的到达，转步骤Step1。

优选地，所述Step6通过记忆思考、音调调整、随机选取产生新解的具体机理如下：

①记忆思考：以HMCR概率随机对HM的某些解分量进行保留，即新产生的是以HMCR的概率从记忆库中第i个解分量的集合X_i＝{x_1i，x_2i，…，x_HMSi，}中随机选择；

②音调调整：对记忆思考中得到的解分量按概率PAR进行扰动，得到音调调整后产生的新解分量；扰动原则为：

其中，等式右边的是扰动前新解的第i个解分量；bw为带宽；rand()为-1到1的随机数，表示与邻近的值；

③随机选取：新产生的是以1-HMCR的概率从可行解空间中随机选择的。

优选地，收集科技论文数据，得到由PDF文件格式的科技论文所组成的科技论文文本集；然后，使用PDF2Text工具进行文本集格式转换，同时根据科技论文不同结构中文本字号大小信息，自动识别出科技论文的各个结构，并进行数据清洗以去除无法识别结构的论文，构成未分词数据库。

与现有技术相比，本发明的有益效果是：

(1)传统的向量空间模型是将每个单独的特征词作为向量空间中的每个特征项，它假设空间中各个维度是正交的，即对应的特征词之间是相互独立的，而这恰恰忽略了特征词之间的语义关联信息。本发明提出基于word2vec的科技论文主题特征构造方法，首先利用word2vec计算全部特征词的词向量并进行聚类，然后将聚类后形成的多个特征词集合抽象为多个主题特征，以作为向量空间中的特征项，最后针对构造的主题特征进行相应的权重计算。

(2)传统的TF-IDF权重计算方法对特征词的词性、所处文章位置、词在类间分布等特点考虑不足。本发明认为在考虑特征词的不同特点如词性、位置等时候，应当使用不同加权方法对TF-IDF进行改进。特征词的不同特点应分为两类：一类是会随着文本长度的增加而同比例增加的，如词性特点。一个词作为不同词性在文本中出现的次数随着文本长度增加而保持比例不变，例如一个词作为名词出现的概率是不会文本长度增加而改变的；另一类则是不会随着文本长度的增加而增加的，如位置特点。因此首先对科技论文的不同结构进行分类，区分出随着文本长度增加而同比例增加的结构，如摘要、前言、正文、结语等结构和随着文本长度增加而长度不变的结构，如标题、关键字、段落标题等结构。然后对前者使用乘法进行加权，对后者使用加法进行加权，最终得到基于科技论文结构的改进TF-IDF权重计算公式。在传统TF-IDF权重计算过程中合理使用位置影响参数来进行两类结构不同方式的加权，解决了传统方法中未考虑特征词的位置信息这一缺点。

附图说明

图1为方法的流程示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

以下结合附图和实施例对本发明做进一步的阐述。

下面结合附图对本发明做进一步的说明，在本实施方式中以情报学学科中的10个核心期刊科技论文文本建模为例。

如图1，科技论文文本建模方法，首先进行科技论文的预处理，经过数据清洗、抽取关键词、去停用词和词性过滤以后，完成科技论文数据库的构建，再通过word2vec将科技论文文档转换为词向量文件，进行词聚类，然后构造主题特征，然后送入参数优化阶段。在参数优化阶段，利用和声搜索算法，先设置初始的位置影响参数，产生新的解后与和声库中的解进行对比，如果优于和声库中最差的解，则替换最差解，然后继续产生新解进行对比，直到循环结束，输出6个最优的位置影响参数。

其基于和声算法改进的TF-IDF算法具体步骤如下：

输入：下载并整理好的科技论文集

输出：聚类效果好的位置参数

阶段一、预处理：

阶段二、优化位置参数

Step4.初始化6个位置影响参数的最优数值，其中标题、关键字、段落标题、摘要、前言、结语的参数取值范围为[0,1]，设置和声搜索算法的记忆思考概率HMCR为0.8，音调调整概率PAR为0.3，步长bw为0.1，迭代次数为200次。

Step5.从解空间中随机产生HMS个和声(初始解)和对应的优化目标函数值放入HM；

Step8.重复Step6到Step8，直到达到最大的迭代次数或满足停止准则后结束循环，输出最优解。

Step9.利用k-means算法对产生的最优解进行聚类，利用CH指标和轮廓系数对聚类效果进行评判。

在本实施方式中，将本发明的科技论文文本建模方法应用于情报学的10个核心期刊，具体如下：

(1)从CSSCI中选择情报学的10个核心来源期刊，所有期刊按照时间范围2011年-2015年，共5年的论文进行人工下载。初始下载的论文总数共有15923篇。

(2)在普通文本中，传统的预处理过程主要集中在文本分词和去除停用词这两方面，但是对于科技论文文本，由于具有与普通文本不同的特点，需要对科技论文进行有别于传统方式的预处理，主要包括三个方面：

1)科技论文的文件格式。科技论文一般以PDF文件格式进行保存，不能直接对其进行文本处理，需要先将PDF文件格式转化为适合文本处理的文本格式；

2)科技论文的结构特点。科技论文具有标题、摘要、关键词等结构，若考虑全文信息则还包括段落标题、前言、结语等结构，这决定了科技论文比普通文本包含更多的信息。在预处理过程中自动识别出科技论文不同结构的文本内容，将对后续的文本处理具有很大帮助；

3)科技论文的关键词信息。科技论文具有人为标引的关键词，关键词一般表达了某种特定的语义信息且不可再分。在对科技论文进行文本分词时，抽取整个文本集的关键词集后作为用户词典导入分词系统，将可以提高分词效果。

(3)利用word2vec计算全部特征词的词向量并进行聚类，然后将聚类后形成的多个特征词集合抽象为多个主题特征，以作为向量空间中的特征项，最后针对构造的主题特征进行相应的权重计算。详细步骤如下：

1)首先利用word2vec计算整个科技论文文本集中所有特征词的词向量；

2)依据所得的词向量，对所有特征词进行k-means聚类；

3)聚类完成后，将每个簇所代表的特征词集合当作一个抽象主题，称为主题特征，作为科技论文文本向量空间中的特征项；

4)对于每篇科技论文，计算其在向量空间中对应每个主题特征的权重，进行主题特征的加权。

(4)利用和声搜索算法对科技论文不同部分的权重系数进行寻优操作，具体步骤如下：

1)初始化6个位置影响参数的最优数值，其中标题、摘要、关键字、前言、段落标题、结语的参数取值范围为[0,1]，设置和声搜索算法的记忆思考概率HMCR为0.8，音调调整概率PAR为0.3，步长bw为0.1，迭代次数为200次；

2)从解空间中随机产生HMS个和声(初始解)和对应的优化目标函数值放入HM；

3)HS通过记忆思考、音调调整、随机选取的机理在每次迭代中产生一个新解；

4)判断新解是否优于HM内的最差解，若是，则将新的解替换最差解，得到一个新解

5)重复上述两部分操作，直到达到最大的迭代次数或满足停止准则后结束循环，输出最优解。

实施例1

(1)案例分析科技论文集

从CSSCI中选择情报学的10个核心来源期刊，分别为：《情报科学》、《情报理论与实践》、《情报学报》、《情报杂志》、《情报资料工作》、《图书情报工作》、《图书情报知识》、《图书与情报》、《现代情报》、《现代图书情报技术》。所有期刊按照时间范围2011年-2015年，共5年的论文进行人工下载。初始下载的论文总数共有15923篇。

(2)评价方法

在给定同样的文本集、聚类方法、聚类个数的条件下，使用不同的文本建模方法会得到不同的聚类内部评价指标。如果某个文本建模方法得到的聚类内部评价指标越优秀，即簇间距离越大而簇内距离越小，表示文本越紧密，则表明这个文本建模方法也越优秀、越能代表该文本。反之则越不能代表该文本。在实验中将对不同建模方法进行聚类研究，通过聚类内部评价指标中的CH指标和轮廓系数来对文本建模的效果进行对比。CH指标定义为：

其中，z是整个数据集的均值，z_j是第j簇C_j的均值。

轮廓系数结合了类内凝聚度和类间分离度的度量，并通过计算样本个体的轮廓系数从而得到整体聚类轮廓系数。对于数据集中的样本d_i，假设d_i被聚到簇A中，则其轮廓系数s_i计算公式如下：

其中，a_i表示样本d_i与同簇A中除d_i外每个样本的平均距离；对于任意的另外一簇C，令D(i,C)表示样本d_i与簇C中任一样本的平均距离，b_i为取d_i与簇C中任一样本的平均距离的最小值，即

轮廓系数s_i的值介于[-1,1]，当a_i＜b_i时，d_i的轮廓系数值为正；反之为负。s_i＝1时，表示d_i被分配到了一个完全正确的簇中，此时与其他簇中的对象相异性最大；s_i＝0时，表示d_i分类不明显；s_i＝-1时，表示d_i被分配到一个错误的簇中；s_i越趋近于1代表簇内凝聚度和簇间分离度越优。

然后计算整体聚类的轮廓系数：对于整体数据集的某次聚类而言，其轮廓系数s_k定义如下：

其中，n为数据集中样本个数，k为聚类数。s_k也可称为平均轮廓系数，可以采用s_k进行聚类有效性分析。

(3)效果分析

1)特征选择方法对聚类效果的实验对比：一般的特征选择方法是传统的DF特征选择方法，本文采用不同维数的word2vec特征构造方法，聚类效果综合评价如表1所示：

表1不同方法聚类效果综合评价表

不同的特征方法	最优k值	CH指标	轮廓系数
				DF_50-99	无	无	无
DF_100-999	无	无	无
				word2vec_10	9	3468	0.3567
word2vec_25	22	1196	0.2987
				word2vec_50	32-40	604(k＝36)	0.2608(k＝36)
word2vec_100	50-66	321(k＝58)	0.2297(k＝58)
				word2vec_250	无	无	无
word2vec_500	无	无	无

当使用word2vec主题特征构造方法构造出10个特征且k值为9时聚类效果最好，CH指标达到3468，轮廓系数达到0.3567，两者均是所有方法中最高的。聚类效果次之的则是使用word2vec主题特征构造方法构造出25个特征且k值为22时，此时CH指标达到1196，轮廓系数达到0.2987。实验结果表明，在使用经典的DF方法不能得到有效聚类的情况下，使用基于word2vec的主题特征构造方法在较低维度上如10、25时能进行有效的聚类，在一般维度如50、100维中也能得到比DF特征选择方法好的聚类效果。

2)传统权重计算和改进权重计算方法的比较：采用基于科技论文结构的改进TF-IDF权重计算方法与传统的TF-IDF权重计算方法进行实验对比。由于实验目的包括得到情报学学科领域的科技论文隐含的主题信息，所以把对比实验建立在上文聚类效果较好的方法基础上，即使用word2vec构造主题特征且维数为10、25、50、100维的情况。

表2传统与改进权重计算方法聚类效果对比表

在实验中改进权重计算方法所对应的经过和声搜索算法寻优后的位置影响参数如下表3所示：

表3最优位置影响参数设定表

主题特征维度	摘要	引言	结语	正文	标题	关键词	段落标题
								10	4	0	0	1	0	0.9	0
25	8	1.2	1.5	1	0.1	0.9	0.1
								50	3.4	1.3	1	1	0.03	0.9	0.08
100	4	1.9	0.4	1	0.15	0.95	0.04

在主题特征维数为10、25、50、100维时，使用基于科技论文结构的改进TF-IDF权重计算方法都比传统的TF-IDF权重计算方法在聚类中的效果有所提高。当主题特征维数为10时，提高的幅度最大，轮廓系数增加了0.14，提高了40％，CH指标增加了2011，提高了57％；当主题特征维数为25时，提高的幅度次之，轮廓系数增加了0.1，提高了34％，CH指标增加了410，提高了34％。当主题特征维数为50和100时两个指标也有一定幅度的提高，这表明了改进权重计算方法的有效性。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种科技论文文本建模方法，其特征在于：包括以下步骤：

阶段一、预处理：

阶段二、优化位置参数

2.根据权利要求1所述的科技论文文本建模方法，其特征在于：所述Step6通过记忆思考、音调调整、随机选取产生新解的具体机理如下：

3.根据权利要求1所述的科技论文文本建模方法，其特征在于：所述Step1的具体过程为：收集科技论文数据，得到由PDF文件格式的科技论文所组成的科技论文文本集；然后，使用PDF2Text工具进行文本集格式转换，同时根据科技论文不同结构中文本字号大小信息，自动识别出科技论文的各个结构，并进行数据清洗以去除无法识别结构的论文，构成未分词数据库。