CN110598972A

CN110598972A - 一种基于自然语言处理的计量采集研究方向趋势分析方法

Info

Publication number: CN110598972A
Application number: CN201910682879.5A
Authority: CN
Inventors: 麻吕斌; 窦建; 张海龙; 卢继哲; 郑国权; 王伟峰; 韩蕾
Original assignee: State Grid Corp of China SGCC; State Grid Zhejiang Electric Power Co Ltd; China Electric Power Research Institute Co Ltd CEPRI; Zhejiang Huayun Information Technology Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Zhejiang Electric Power Co Ltd; China Electric Power Research Institute Co Ltd CEPRI; Zhejiang Huayun Information Technology Co Ltd
Priority date: 2019-07-26
Filing date: 2019-07-26
Publication date: 2019-12-20
Anticipated expiration: 2039-07-26
Also published as: CN110598972B

Abstract

本发明公开了一种基于自然语言处理的计量采集研究方向趋势分析方法，涉及自然语言处理领域。目前，传统的人力查询、阅读和分析等，难以准确分析新技术发展趋势。本发明包括以下几个步骤：(1)设计爬虫程序，获取计量采集领域核心期刊论文；(2)采用统计语言模型，对所获取论文文本内容进行分词处理；(3)通过词性标注，滤除停用词；(4)结合TF‑IDF和TextRank方法，从候选词库中提取关键词；(5)判断关键词之间的相关性，对表达同一对象的不同词汇进行合并；(6)基于提取和合并结果，绘制相应研究热点的演变动态图。本技术方案能更好地适应现今日益庞大的文献数据库资源，并从中快速、智能地提炼出计量采集相关研究方向的研究热点。

Description

一种基于自然语言处理的计量采集研究方向趋势分析方法

技术领域

本发明涉及自然语言处理领域,，尤其涉及一种基于自然语言处理的计量采集研究方向趋势分析方法。

背景技术

电能是现代社会中普遍使用的能源，无论是工业、商业、农业、公共事业还是日常人民生活，都离不开电能。电能的计量采集，是指对消耗的电能进行准确的测量。电能的计量采集是电力生产、营销以及电网安全运行的重要环节，是发、供、用电三方结算的依据。电能计量采集结果的真实性和准确性，直接影响到电能结算的公平与公正，关系到电力企业和居民用户的切身经济利益。因此，如何提高计量采集的准确性与及时性，开发智能的计量采集系统，已经成为新一代信息技术条件下企业信息化的重要课题。目前，电力公司及相关部门已经将计量采集作为一项重要的研究内容列入到公司发展战略规划中，以促进计量信息化的发展。

为了制定合理、更具发展价值的战略方案，电力公司决策人首先需要充分了解计量采集相关专业的国内外研究热点，把握计量采集相关专业的研究趋势。然而，随着科学技术的持续发展和完善，计量采集技术得到多元化的发展，新的计量采集方法不断涌现。单纯地依靠人力查询、阅读大量科技文献杯水车薪。如何运用科学的方法、技术和手段对文献进行综合分析，从庞大的文献数据库资源中，快速、智能地获悉计量采集相关研究方向的研究热点，理清研究方向演化历程，把握其发展态势及未来趋势，预测出潜力研究方向，对于电力企业制定发展战略规划具有重要意义。

但纵观国内外研究现状，我们发现传统的研究方向趋势分析方法首先需要确定出可能影响目标变量取值的决策变量和影响因素，然后再做出模型假设以进行数据的统计分析。这类方法对模型的精确性要求较高，在复杂情况下可能难以满足新技术发展趋势分析的要求。此外，由于领域的不断发展及新领域的不断产生，技术发展的不确定性因素越来越多，技术趋势分析的难度也变得越来越大，这就迫切要求我们建立一套系统、智能的研究方向趋势分析方法，有效地洞悉国内外在计量采集方面的研究动态、演化历程和趋势，以制定合理的战略方案。

发明内容

本发明要解决的技术问题和提出的技术任务是对现有技术方案进行完善与改进，提供一种基于自然语言处理的计量采集研究方向趋势分析方法，以达到能有效了解国内外在计量采集方面的研究动态、演化历程和趋势的目的。为此，本发明采取以下技术方案。

一种基于自然语言处理的计量采集研究方向趋势分析方法，包括以下步骤：

1)采用爬虫程序，获取计量采集领域核心期刊论文；

2)采用统计语言模型，对所获取论文进行分词处理；

3)通过词性标注，滤除停用词；

4)结合TF-IDF和TextRank方法，从候选词库中提取关键词；

5)判断关键词之间的相关性，对表达同一对象的不同词汇进行合并；

6)基于提取和合并结果，绘制相应研究热点的演变动态，得到计量采集研究方向趋势。

本技术方案能更好地适应现今日益庞大的文献数据库资源，并从中快速、智能地提炼出计量采集相关研究方向的研究热点。

作为优选技术手段：在步骤1)中，选择CNKI作为中文文献统计来源，以主题中包含“计量采集”作为检索条件，爬取数据库中收录的所有发表于选定的电气领域核心期刊的相关文献，再根据年份将其进行分类。

作为优选技术手段：步骤2)，包括以下子步骤：

201)基于现有的词典生成句子中汉字所有可能成词情况所构成的有向无环图，筛查所爬取的文献的关键词，并将自主提取的关键词加入分词的自定义词典中；

202)采用动态规划查找最大概率路径，找出基于词频的最大切分组合；

当一个句子S有以下多种分词方法：

A₁,A₂,…,A_m

……

B₁,B₂,…,B_n

若：P(A₁,A₂,…,A_m)＝max(P(A₁,A₂,…,A_m),…,P(B₁,B₂,…,B_n))

则认为：A₁,A₂,…,A_m是最好的分词方法；

在分词处理时采用A₁,A₂,…,A_m作为分词结果。

作为优选技术手段：在步骤3)中，在进行分词处理之后，文本被表示成一个词语集合的形式，将其中对文本内容识别无意义的词通过词性标注进行滤除，无意义的词包括介词、连词、助词和标点。

作为优选技术手段：步骤4)，包括以下子步骤：

401)计算TF-IDF权重

TF(Term Frequency)用于反应同一篇文献中不同词汇所占比重；IDF(InverseDocument Frequency)用于给那些在大多数文献中普遍出现的词较小的权重，给仅在少部分文献中出现的词较大的权重；

TF-IDF为词频-逆文本频率，用于解决TF提取到常规词的问题。

给定一个文献集合C，对于词w_i，其在某一篇文献c中的TF-IDF的计算方法为：

其中，F_c(w_i)表示词w_i在文献c中出现的频次，N_c表示文献c的总词数，|C|表示文献总数，|C(w_i)|表示文献集合C中出现词w_i的文献数。因此如果一个词在某一篇文献中的词频越大，并且越少出现在其他文献中，其TF-IDF值就越大；

402)计算TextRank权重

TextRank为基于图的排序算法。对于文献c，将其视为一个带权有向图G＝(V,E)，由点集合V和边集合E组成；计算TextRank权重时，首先将所有候选关键词作为图的点集合，随机初始化节点权重，通过迭代计算，根据马尔可夫链平稳性，关键词的重要性最终会收敛到一个稳定值，该稳定值即为TextRank权重；TextRank迭代计算的公式如下：

其中，d∈(0,1)为阻尼因子，允许从一个顶点到另一个顶点的随机转换；N(w_i)表示与w_i相连的单词集合；

403)结合401)和402)中的计算结果，确定关键词

为集合TF-IDF和TextRank方法各自的优势并规避其劣势，结合它们的度量结果来决定每个词的最终权重，并取一篇文献中总权重位于前5的词语作为该文献的关键词，公式如下：

W(w_i)＝αW_TF-IDF(w_i)+(1-α)W_TextRank(w_i)

其中，α∈(0,1)为加权系数，W_TF-IDF(w_i)和W_TextRank(w_i)分别表示词w_i由TF-IDF方法和TextRank方法计算得到的权重值。

作为优选技术手段：d取为0.85；α取为0.5。

作为优选技术手段：在步骤5)中，对于相同概念的同义词进行归并，并重新计算词权重，同义词关系包括一个词语为另一个词语的子概念、对应的中/英文及缩略词、表达同一意思的两个不同词语。

作为优选技术手段：对于判定为同义词的两个词语，若它们表意完全相同，则保留总词频较高的词语并将其词频与另一个词的词频叠加作为其新词频；若一个概念为另一个概念的子概念，则对这两个词都进行保留并按一定的比例将子概念的词频折算后叠加到母概念的词频上；对于中文词及其对应中文缩略词或英文词及其对应英文缩略词，通过直接检验它们之间是否符合规律来进行判定；对于中文词及其对应英文缩略词，则需要通过接入翻译工具来获取中文词的对应英文词后再进行判定；缩略词只选择出现在同一篇文献中的关键词进行两两比对。

作为优选技术手段：在步骤6)中，为避免论文数波动对结果造成影响，将各年各关键词的词频与相应年份论文数的比值相对其最大值作归一化的结果作为新的词频，得到最近10年间各年度词频最高的十个热点词，及这些热点词的词频变化情况。

有益效果：

本技术方案利用大数据和基于语言处理的方法，研究了功率测量和数据采集领域的研究热点检测问题。结合使用基于TF-IDF和基于TextRank的关键字提取技术进行初步热点检测，并进一步使用word2vec模型合并同义词以获得更准确的检测结果。本技术方案能更好地适应现今日益庞大的文献数据库资源，并从中快速、智能地提炼出计量采集相关研究方向的研究热点。通过将该方法应用于功率测量和数据采集领域的文献，获得了该领域过去多年的年度研究热点，并得到热点的演变趋势。有效地洞悉国内外在计量采集方面的研究动态、演化历程和趋势，以制定合理的战略方案。结果可为该领域的从业人员提供参考。

附图说明

图说明

图1为本发明的算法流程图；

图2为本发明提取出的近10年计量采集领域的长期热门研究方向的发展动态；

图3为本发明提取出的近10年计量采集领域的新兴热门研究方向的发展动态；

图4为本发明提取出的近10年计量采集领域的所有热门研究方向的发展动态。

图5为本发明的有向无环图举例。

具体实施方式

以下结合说明书附图对本发明的技术方案做进一步的详细说明。

如图1所示，基于自然语言处理的计量采集研究方向趋势分析方法的具体实现步骤如下：

(1)设计爬虫程序，获取计量采集领域核心期刊论文

选择CNKI作为中文文献统计来源，以主题中包含“计量采集”作为检索条件，爬取数据库中收录的所有发表于人为选定的电气领域核心期刊的相关文献，再根据年份将其进行分类。

(2)采用统计语言模型，对所获取论文进行分词处理

ⅰ.基于现有的词典生成句子中汉字所有可能成词情况所构成的有向无环图；

有向无环图，如图5所示，例：对于文本“经常有意见分歧”，根据词典及每个词出现的概率，可以得到所有可能成词情况：

即：

词	经	常	有	意	见	分	歧	经常	意见	分歧	有意见
												概率	0.05	0.001	0.1	0.05	0.05	0.1	0.001	0.1	0.2	0.1	0.1

对于一个专业领域而言，其中的许多热点词是以复合词的形式存在的，以其他渠道的语料训练得到的分词模型往往无法覆盖其中所涉及的所有词汇，这可能会导致分词粒度过细，从而使得实际的热点词被排除于候选词库之外。为解决这个问题，我们将所爬取的文献中由人工自主提取的关键词加入分词的自定义词典中。

ⅱ.采用动态规划查找最大概率路径，找出基于词频的最大切分组合假定一个句子S有以下几种分词方法：

A₁,A₂,…,A_m

……

B₁,B₂,…,B_n

那么最好的一种分词方法应该保证分完词后这个句子出现的概率最大。也就是说，如果A₁,A₂,…,A_m是最好的分词方法，那么其概率满足

P(A₁,A₂,…,A_m)＝max(P(A₁,A₂,…,A_m),…,P(B₁,B₂,…,B_n))

(3)通过词性标注，滤除停用词

在进行分词处理之后，文本被表示成一个词语集合的形式，其中存在着一些介词、连词、助词和标点等对文本内容的识别没有太大意义的词，若加入运算，不仅会增加文本处理的复杂性，浪费计算机处理的时间，还可能对结果造成负面的影响。这些词被称为停用词，我们通过词性标注来对其进行滤除。

(4)结合TF-IDF和TextRank方法，从候选词库中提取关键词

ⅰ.计算TF-IDF权重

直观的，在一篇文献中出现频次高的词，比那些出现频次少的词更加重要。TF(Term Frequency)即反应了同一篇文献中不同词汇所占比重。但仅利用TF进行关键词提取的效果不是很好，常提取出在绝大多数文献中普遍出现的词。IDF(Inverse DocumentFrequency)则给那些在大多数文献中普遍出现的词较小的权重，给仅在少部分文献中出现的词较大的权重。因此TF-IDF，即词频-逆文本频率，有效地解决了TF提取到常规词的问题。

其中，F_c(w_i)表示词w_i在文献c中出现的频次，N_c表示文献c的总词数，|C|表示文献总数，|C(w_i)|表示文献集合C中出现词w_i的文献数。因此如果一个词在某一篇文献中的词频越大，并且越少出现在其他文献中，其TF-IDF值就越大。

ⅱ.计算TextRank权重

Textrank是一种基于图的排序算法，其基本思想是“推荐”。TextRank认为，在一篇文章中大多数词都是为了表达同一主题服务的，它们之间具有一定的语义关系。如果在一篇文档中与词汇A有语义关系的词汇越多，即更多的词汇“推荐”A，则A的重要性就可能越大，排名就越高。而实际上每个词汇的重要性不同，因此当不同的词汇对A进行推荐时，排名高的词汇所占的权重也应该越高。

基于上述思想，TextRank模型可以表示为一个带权有向图G＝(V,E)，由点集合V和边集合E组成。首先将所有候选关键词作为图的点集合，随机初始化节点权重，通过迭代计算，根据马尔可夫链平稳性，关键词的重要性最终会收敛到一个稳定值。TextRank迭代计算的公式如下：

其中，d∈(0,1)为阻尼因子，允许从一个顶点到另一个顶点的随机转换；N(w_i)表示与w_i相连的单词集合。

ⅲ.结合ⅰ和ⅱ中的计算结果，确定关键词

W(w_i)＝αW_TF-IDF(w_i)+(1-α)W_TextRank(w_i)

其中，α∈(0,1)为加权系数，W_TF-IDF(w_i)和W_TextRank(w_i)分别表示词w_i由TF-IDF方法和TextRank方法计算得到的权重值。本方法中α取为0.5。

(5)判断关键词之间的相关性，对表达同一对象的不同词汇进行合并

对于相同概念，不同作者在撰写论文时可能采用不同的词汇进行表述。而当这样的情况大量出现却未对其进行有效处理时，就会对趋势分析的结果造成极大的影响。因此，对同义词进行归并，并重新计算词权重是十分必要的。

本方法主要考虑以下几种同义词关系：

①一个词语为另一个词语的子概念，如“变压器”-“油浸式变压器”等。此类同义词往往在字面上呈现出包含关系，但也要注意对“不”、“非”、“否”等否定性前缀进行排查。

②对应的中/英文及缩略词表达方式。中文文献中较少出现英文关键词，但却较可能出现中/英文缩略词的情况，如“旋转变压器”-“旋变”和“广域测量系统”-“WAMS”等；而英文文献中较常出现英文缩略词，如“Wide Area Measurement System”和“WAMS”等。对于中文词及其对应中文缩略词(或英文词及其对应英文缩略词)，可以直接检验它们之间是否符合一定规律来进行判定；对于中文词及其对应英文缩略词，则需要通过接入翻译工具API来获取中文词的对应英文词后再进行判定。由于缩略词经常存在一词多义现象，且翻译软件可能会对访问数进行限制，因此我们只选择出现在同一篇文献中的关键词进行两两比对，因其之间更可能具有某种联系。

③表达同一意思的两个不同词语，如“火电厂”-“燃煤电厂”等。基于出现在相同语境中的词具有相似语义这一假说，采取词向量技术依据目标词与上下文之间的关系可将其编码成一个低维稠密的实数向量，这些向量之间的空间距离即反映了词之间的语义相似度。

对于判定为同义词的两个词语，若它们表意完全相同，则保留总词频较高的词语并将其词频与另一个词的词频叠加作为其新词频；若一个概念为另一个概念的子概念，则对这两个词都进行保留并按一定的比例将子概念的词频折算后叠加到母概念的词频上。

(6)基于提取和合并结果，绘制相应研究热点的演变动态

为避免论文数波动对结果造成影响，将各年各关键词的词频与相应年份论文数的比值相对其最大值作归一化的结果作为新的词频，得到最近10年间各年度词频最高的十个热点词，及这些热点词的词频变化情况。

为了验证本发明的性能，我们提供相应的预测实验。

实施案例

表1.电气领域中文核心期刊

选择如表1中所示的32种电气领域核心期刊，爬取CNKI数据库中收录的近10年(即2008-2017年)发表于上述期刊中以“计量采集”为主题的相关文献，再对每一年份的文献分别进行以下工作：

(1)采用统计语言模型，对文献内容进行分词处理；

(2)通过词性标注，从分词结果中滤除停用词；

(3)结合TF-IDF和TextRank方法，从候选词库中提取关键词；

(4)判断关键词之间的相关性，对表达同一对象的不同词汇进行合并；

(5)将各年各关键词的词频与相应年份论文数的比值相对其最大值作归一化的结果作为新的词频。

对各年词频进行降序排列后选取词频位于前十的词作为该年的热点词，如表2所示。

表2. 2008-2017年计量采集领域中文热点词

这些关键词的词频变化情况如表3所示。

表3. 2008-2017年计量采集领域中文热点词变化情况

实验结果表明，本方法有效地提取出了计量采集领域的研究热点，如“在线监测”和“局部放电”等长期占据热门地位的研究方向，如图2所示，以及如“配电网”、“故障诊断”、“绝缘子”、“断路器”、“大数据”等近年来学界的重点研究对象，如图3所示。同时也可以看出，随着计量采集领域研究的深入，词频最高的前十个关键词的极值，即最高词频和最低词频之间的差异是逐渐缩小的，如图4所示，说明研究者们也不再过分专注于某个或某几个研究方向，对各方向的研究资源投入开始趋于均衡，这也符合我们对学科领域演化趋势的预期。

以上图1所示的一种基于自然语言处理的计量采集研究方向趋势分析方法是本发明的具体实施例，已经体现出本发明实质性特点和进步，可根据实际的使用需要，在本发明的启示下，对其进行形状、结构等方面的等同修改，均在本方案的保护范围之列。

Claims

1.一种基于自然语言处理的计量采集研究方向趋势分析方法，其特征在于包括以下步骤：

1)采用爬虫程序，获取计量采集领域核心期刊论文；

2)采用统计语言模型，对所获取论文进行分词处理；

3)通过词性标注，滤除停用词；

4)结合TF-IDF和TextRank方法，从候选词库中提取关键词；

2.根据权利要求1所述的一种基于自然语言处理的计量采集研究方向趋势分析方法，其特征在于：在步骤1)中，选择CNKI作为中文文献统计来源，以主题中包含“计量采集”作为检索条件，爬取数据库中收录的所有发表于选定的电气领域核心期刊的相关文献，再根据年份将其进行分类。

3.根据权利要求1所述的一种基于自然语言处理的计量采集研究方向趋势分析方法，其特征在于：步骤2)，包括以下子步骤：

当一个句子S有以下多种分词方法：

A₁，A₂，…，A_m

……

B₁，B₂，…，B_n

若：P(A₁，A₂，…，A_m)＝max(P(A₁，A₂，…，A_m)，…，P(B₁，B₂，…，B_n))

则认为：A₁，A₂，…，A_m是最好的分词方法；

在分词处理时采用A₁，A₂，…，A_m作为分词结果。

4.根据权利要求1所述的一种基于自然语言处理的计量采集研究方向趋势分析方法，其特征在于：在步骤3)中，在进行分词处理之后，文本被表示成一个词语集合的形式，将其中对文本内容识别无意义的词通过词性标注进行滤除，无意义的词包括介词、连词、助词和标点。

5.根据权利要求4所述的一种基于自然语言处理的计量采集研究方向趋势分析方法，其特征在于：步骤4)，包括以下子步骤：

401)计算TF-IDF权重

TF-IDF为词频-逆文本频率，用于解决TF提取到常规词的问题。

其中，F_c(w_i)表示词w_i在文献c中出现的频次，N_c表示文献c的总词数，|C|表示文献总数，|C(w_i)l表示文献集合C中出现词w_i的文献数；因此如果一个词在某一篇文献中的词频越大，并且越少出现在其他文献中，其TF-IDF值就越大；

402)计算TextRank权重

TextRank为基于图的排序算法。对于文献c，将其视为一个带权有向图G＝(V，E)，由点集合y和边集合E组成；计算TextRank权重时，首先将所有候选关键词作为图的点集合，随机初始化节点权重，通过迭代计算，根据马尔可夫链平稳性，关键词的重要性最终会收敛到一个稳定值，该稳定值即为TextRank权重；TextRank迭代计算的公式如下：

其中，d∈(0，1)为阻尼因子，允许从一个顶点到另一个顶点的随机转换；N(w_i)表示与w_i相连的单词集合；

403)结合401)和402)中的计算结果，确定关键词

W(w_i)＝αW_TF-IDF(w_i)+(1-α)W_TextRank(w_i)

其中，α∈(0，1)为加权系数，W_TF-IDF(w_i)和W_TextRank(w_i)分别表示词w_i由TF-IDF方法和TextRank方法计算得到的权重值。

6.根据权利要求5所述的一种基于自然语言处理的计量采集研究方向趋势分析方法，其特征在于：d取为0.85；α取为0.5。

7.根据权利要求1所述的一种基于自然语言处理的计量采集研究方向趋势分析方法，其特征在于：在步骤5)中，对于相同概念的同义词进行归并，并重新计算词权重，同义词关系包括一个词语为另一个词语的子概念、对应的中/英文及缩略词、表达同一意思的两个不同词语。

8.根据权利要求1所述的一种基于自然语言处理的计量采集研究方向趋势分析方法，其特征在于：对于判定为同义词的两个词语，若它们表意完全相同，则保留总词频较高的词语并将其词频与另一个词的词频叠加作为其新词频；若一个概念为另一个概念的子概念，则对这两个词都进行保留并按一定的比例将子概念的词频折算后叠加到母概念的词频上；对于中文词及其对应中文缩略词或英文词及其对应英文缩略词，通过直接检验它们之间是否符合规律来进行判定；对于中文词及其对应英文缩略词，则需要通过接入翻译工具来获取中文词的对应英文词后再进行判定；缩略词只选择出现在同一篇文献中的关键词进行两两比对。

9.根据权利要求1所述的一种基于自然语言处理的计量采集研究方向趋势分析方法，其特征在于：在步骤6)中，为避免论文数波动对结果造成影响，将各年各关键词的词频与相应年份论文数的比值相对其最大值作归一化的结果作为新的词频，得到最近10年间各年度词频最高的十个热点词，及这些热点词的词频变化情况。