CN110598972A - 一种基于自然语言处理的计量采集研究方向趋势分析方法 - Google Patents
一种基于自然语言处理的计量采集研究方向趋势分析方法 Download PDFInfo
- Publication number
- CN110598972A CN110598972A CN201910682879.5A CN201910682879A CN110598972A CN 110598972 A CN110598972 A CN 110598972A CN 201910682879 A CN201910682879 A CN 201910682879A CN 110598972 A CN110598972 A CN 110598972A
- Authority
- CN
- China
- Prior art keywords
- words
- word
- idf
- textrank
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000005259 measurement Methods 0.000 title claims abstract description 48
- 238000011160 research Methods 0.000 title claims abstract description 46
- 238000004458 analytical method Methods 0.000 title claims abstract description 14
- 238000003058 natural language processing Methods 0.000 title claims abstract description 11
- 238000000034 method Methods 0.000 claims abstract description 56
- 230000011218 segmentation Effects 0.000 claims abstract description 28
- 238000012545 processing Methods 0.000 claims abstract description 11
- 239000000284 extract Substances 0.000 claims abstract description 6
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 238000001914 filtration Methods 0.000 claims abstract description 5
- 230000014509 gene expression Effects 0.000 claims description 7
- 230000008901 benefit Effects 0.000 claims description 5
- 230000005684 electric field Effects 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 4
- 230000009193 crawling Effects 0.000 claims description 4
- 238000013016 damping Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000012216 screening Methods 0.000 claims description 2
- 238000011161 development Methods 0.000 abstract description 13
- 230000018109 developmental process Effects 0.000 abstract description 13
- 238000005516 engineering process Methods 0.000 abstract description 7
- 230000008569 process Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000012212 insulator Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0637—Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
- G06Q10/06375—Prediction of business process outcome or impact based on a proposed change
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- Databases & Information Systems (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于自然语言处理的计量采集研究方向趋势分析方法,涉及自然语言处理领域。目前,传统的人力查询、阅读和分析等,难以准确分析新技术发展趋势。本发明包括以下几个步骤:(1)设计爬虫程序,获取计量采集领域核心期刊论文;(2)采用统计语言模型,对所获取论文文本内容进行分词处理;(3)通过词性标注,滤除停用词;(4)结合TF‑IDF和TextRank方法,从候选词库中提取关键词;(5)判断关键词之间的相关性,对表达同一对象的不同词汇进行合并;(6)基于提取和合并结果,绘制相应研究热点的演变动态图。本技术方案能更好地适应现今日益庞大的文献数据库资源,并从中快速、智能地提炼出计量采集相关研究方向的研究热点。
Description
技术领域
本发明涉及自然语言处理领域,,尤其涉及一种基于自然语言处理的计量采集研究方向趋势分析方法。
背景技术
电能是现代社会中普遍使用的能源,无论是工业、商业、农业、公共事业还是日常人民生活,都离不开电能。电能的计量采集,是指对消耗的电能进行准确的测量。电能的计量采集是电力生产、营销以及电网安全运行的重要环节,是发、供、用电三方结算的依据。电能计量采集结果的真实性和准确性,直接影响到电能结算的公平与公正,关系到电力企业和居民用户的切身经济利益。因此,如何提高计量采集的准确性与及时性,开发智能的计量采集系统,已经成为新一代信息技术条件下企业信息化的重要课题。目前,电力公司及相关部门已经将计量采集作为一项重要的研究内容列入到公司发展战略规划中,以促进计量信息化的发展。
为了制定合理、更具发展价值的战略方案,电力公司决策人首先需要充分了解计量采集相关专业的国内外研究热点,把握计量采集相关专业的研究趋势。然而,随着科学技术的持续发展和完善,计量采集技术得到多元化的发展,新的计量采集方法不断涌现。单纯地依靠人力查询、阅读大量科技文献杯水车薪。如何运用科学的方法、技术和手段对文献进行综合分析,从庞大的文献数据库资源中,快速、智能地获悉计量采集相关研究方向的研究热点,理清研究方向演化历程,把握其发展态势及未来趋势,预测出潜力研究方向,对于电力企业制定发展战略规划具有重要意义。
但纵观国内外研究现状,我们发现传统的研究方向趋势分析方法首先需要确定出可能影响目标变量取值的决策变量和影响因素,然后再做出模型假设以进行数据的统计分析。这类方法对模型的精确性要求较高,在复杂情况下可能难以满足新技术发展趋势分析的要求。此外,由于领域的不断发展及新领域的不断产生,技术发展的不确定性因素越来越多,技术趋势分析的难度也变得越来越大,这就迫切要求我们建立一套系统、智能的研究方向趋势分析方法,有效地洞悉国内外在计量采集方面的研究动态、演化历程和趋势,以制定合理的战略方案。
发明内容
本发明要解决的技术问题和提出的技术任务是对现有技术方案进行完善与改进,提供一种基于自然语言处理的计量采集研究方向趋势分析方法,以达到能有效了解国内外在计量采集方面的研究动态、演化历程和趋势的目的。为此,本发明采取以下技术方案。
一种基于自然语言处理的计量采集研究方向趋势分析方法,包括以下步骤:
1)采用爬虫程序,获取计量采集领域核心期刊论文;
2)采用统计语言模型,对所获取论文进行分词处理;
3)通过词性标注,滤除停用词;
4)结合TF-IDF和TextRank方法,从候选词库中提取关键词;
5)判断关键词之间的相关性,对表达同一对象的不同词汇进行合并;
6)基于提取和合并结果,绘制相应研究热点的演变动态,得到计量采集研究方向趋势。
本技术方案能更好地适应现今日益庞大的文献数据库资源,并从中快速、智能地提炼出计量采集相关研究方向的研究热点。
作为优选技术手段:在步骤1)中,选择CNKI作为中文文献统计来源,以主题中包含“计量采集”作为检索条件,爬取数据库中收录的所有发表于选定的电气领域核心期刊的相关文献,再根据年份将其进行分类。
作为优选技术手段:步骤2),包括以下子步骤:
201)基于现有的词典生成句子中汉字所有可能成词情况所构成的有向无环图,筛查所爬取的文献的关键词,并将自主提取的关键词加入分词的自定义词典中;
202)采用动态规划查找最大概率路径,找出基于词频的最大切分组合;
当一个句子S有以下多种分词方法:
A1,A2,…,Am
……
B1,B2,…,Bn
若:P(A1,A2,…,Am)=max(P(A1,A2,…,Am),…,P(B1,B2,…,Bn))
则认为:A1,A2,…,Am是最好的分词方法;
在分词处理时采用A1,A2,…,Am作为分词结果。
作为优选技术手段:在步骤3)中,在进行分词处理之后,文本被表示成一个词语集合的形式,将其中对文本内容识别无意义的词通过词性标注进行滤除,无意义的词包括介词、连词、助词和标点。
作为优选技术手段:步骤4),包括以下子步骤:
401)计算TF-IDF权重
TF(Term Frequency)用于反应同一篇文献中不同词汇所占比重;IDF(InverseDocument Frequency)用于给那些在大多数文献中普遍出现的词较小的权重,给仅在少部分文献中出现的词较大的权重;
TF-IDF为词频-逆文本频率,用于解决TF提取到常规词的问题。
给定一个文献集合C,对于词wi,其在某一篇文献c中的TF-IDF的计算方法为:
其中,Fc(wi)表示词wi在文献c中出现的频次,Nc表示文献c的总词数,|C|表示文献总数,|C(wi)|表示文献集合C中出现词wi的文献数。因此如果一个词在某一篇文献中的词频越大,并且越少出现在其他文献中,其TF-IDF值就越大;
402)计算TextRank权重
TextRank为基于图的排序算法。对于文献c,将其视为一个带权有向图G=(V,E),由点集合V和边集合E组成;计算TextRank权重时,首先将所有候选关键词作为图的点集合,随机初始化节点权重,通过迭代计算,根据马尔可夫链平稳性,关键词的重要性最终会收敛到一个稳定值,该稳定值即为TextRank权重;TextRank迭代计算的公式如下:
其中,d∈(0,1)为阻尼因子,允许从一个顶点到另一个顶点的随机转换;N(wi)表示与wi相连的单词集合;
403)结合401)和402)中的计算结果,确定关键词
为集合TF-IDF和TextRank方法各自的优势并规避其劣势,结合它们的度量结果来决定每个词的最终权重,并取一篇文献中总权重位于前5的词语作为该文献的关键词,公式如下:
W(wi)=αWTF-IDF(wi)+(1-α)WTextRank(wi)
其中,α∈(0,1)为加权系数,WTF-IDF(wi)和WTextRank(wi)分别表示词wi由TF-IDF方法和TextRank方法计算得到的权重值。
作为优选技术手段:d取为0.85;α取为0.5。
作为优选技术手段:在步骤5)中,对于相同概念的同义词进行归并,并重新计算词权重,同义词关系包括一个词语为另一个词语的子概念、对应的中/英文及缩略词、表达同一意思的两个不同词语。
作为优选技术手段:对于判定为同义词的两个词语,若它们表意完全相同,则保留总词频较高的词语并将其词频与另一个词的词频叠加作为其新词频;若一个概念为另一个概念的子概念,则对这两个词都进行保留并按一定的比例将子概念的词频折算后叠加到母概念的词频上;对于中文词及其对应中文缩略词或英文词及其对应英文缩略词,通过直接检验它们之间是否符合规律来进行判定;对于中文词及其对应英文缩略词,则需要通过接入翻译工具来获取中文词的对应英文词后再进行判定;缩略词只选择出现在同一篇文献中的关键词进行两两比对。
作为优选技术手段:在步骤6)中,为避免论文数波动对结果造成影响,将各年各关键词的词频与相应年份论文数的比值相对其最大值作归一化的结果作为新的词频,得到最近10年间各年度词频最高的十个热点词,及这些热点词的词频变化情况。
有益效果:
本技术方案利用大数据和基于语言处理的方法,研究了功率测量和数据采集领域的研究热点检测问题。结合使用基于TF-IDF和基于TextRank的关键字提取技术进行初步热点检测,并进一步使用word2vec模型合并同义词以获得更准确的检测结果。本技术方案能更好地适应现今日益庞大的文献数据库资源,并从中快速、智能地提炼出计量采集相关研究方向的研究热点。通过将该方法应用于功率测量和数据采集领域的文献,获得了该领域过去多年的年度研究热点,并得到热点的演变趋势。有效地洞悉国内外在计量采集方面的研究动态、演化历程和趋势,以制定合理的战略方案。结果可为该领域的从业人员提供参考。
附图说明
图说明
图1为本发明的算法流程图;
图2为本发明提取出的近10年计量采集领域的长期热门研究方向的发展动态;
图3为本发明提取出的近10年计量采集领域的新兴热门研究方向的发展动态;
图4为本发明提取出的近10年计量采集领域的所有热门研究方向的发展动态。
图5为本发明的有向无环图举例。
具体实施方式
以下结合说明书附图对本发明的技术方案做进一步的详细说明。
如图1所示,基于自然语言处理的计量采集研究方向趋势分析方法的具体实现步骤如下:
(1)设计爬虫程序,获取计量采集领域核心期刊论文
选择CNKI作为中文文献统计来源,以主题中包含“计量采集”作为检索条件,爬取数据库中收录的所有发表于人为选定的电气领域核心期刊的相关文献,再根据年份将其进行分类。
(2)采用统计语言模型,对所获取论文进行分词处理
ⅰ.基于现有的词典生成句子中汉字所有可能成词情况所构成的有向无环图;
有向无环图,如图5所示,例:对于文本“经常有意见分歧”,根据词典及每个词出现的概率,可以得到所有可能成词情况:
即:
词 | 经 | 常 | 有 | 意 | 见 | 分 | 歧 | 经常 | 意见 | 分歧 | 有意见 |
概率 | 0.05 | 0.001 | 0.1 | 0.05 | 0.05 | 0.1 | 0.001 | 0.1 | 0.2 | 0.1 | 0.1 |
对于一个专业领域而言,其中的许多热点词是以复合词的形式存在的,以其他渠道的语料训练得到的分词模型往往无法覆盖其中所涉及的所有词汇,这可能会导致分词粒度过细,从而使得实际的热点词被排除于候选词库之外。为解决这个问题,我们将所爬取的文献中由人工自主提取的关键词加入分词的自定义词典中。
ⅱ.采用动态规划查找最大概率路径,找出基于词频的最大切分组合假定一个句子S有以下几种分词方法:
A1,A2,…,Am
……
B1,B2,…,Bn
那么最好的一种分词方法应该保证分完词后这个句子出现的概率最大。也就是说,如果A1,A2,…,Am是最好的分词方法,那么其概率满足
P(A1,A2,…,Am)=max(P(A1,A2,…,Am),…,P(B1,B2,…,Bn))
(3)通过词性标注,滤除停用词
在进行分词处理之后,文本被表示成一个词语集合的形式,其中存在着一些介词、连词、助词和标点等对文本内容的识别没有太大意义的词,若加入运算,不仅会增加文本处理的复杂性,浪费计算机处理的时间,还可能对结果造成负面的影响。这些词被称为停用词,我们通过词性标注来对其进行滤除。
(4)结合TF-IDF和TextRank方法,从候选词库中提取关键词
ⅰ.计算TF-IDF权重
直观的,在一篇文献中出现频次高的词,比那些出现频次少的词更加重要。TF(Term Frequency)即反应了同一篇文献中不同词汇所占比重。但仅利用TF进行关键词提取的效果不是很好,常提取出在绝大多数文献中普遍出现的词。IDF(Inverse DocumentFrequency)则给那些在大多数文献中普遍出现的词较小的权重,给仅在少部分文献中出现的词较大的权重。因此TF-IDF,即词频-逆文本频率,有效地解决了TF提取到常规词的问题。
给定一个文献集合C,对于词wi,其在某一篇文献c中的TF-IDF的计算方法为:
其中,Fc(wi)表示词wi在文献c中出现的频次,Nc表示文献c的总词数,|C|表示文献总数,|C(wi)|表示文献集合C中出现词wi的文献数。因此如果一个词在某一篇文献中的词频越大,并且越少出现在其他文献中,其TF-IDF值就越大。
ⅱ.计算TextRank权重
Textrank是一种基于图的排序算法,其基本思想是“推荐”。TextRank认为,在一篇文章中大多数词都是为了表达同一主题服务的,它们之间具有一定的语义关系。如果在一篇文档中与词汇A有语义关系的词汇越多,即更多的词汇“推荐”A,则A的重要性就可能越大,排名就越高。而实际上每个词汇的重要性不同,因此当不同的词汇对A进行推荐时,排名高的词汇所占的权重也应该越高。
基于上述思想,TextRank模型可以表示为一个带权有向图G=(V,E),由点集合V和边集合E组成。首先将所有候选关键词作为图的点集合,随机初始化节点权重,通过迭代计算,根据马尔可夫链平稳性,关键词的重要性最终会收敛到一个稳定值。TextRank迭代计算的公式如下:
其中,d∈(0,1)为阻尼因子,允许从一个顶点到另一个顶点的随机转换;N(wi)表示与wi相连的单词集合。
ⅲ.结合ⅰ和ⅱ中的计算结果,确定关键词
为集合TF-IDF和TextRank方法各自的优势并规避其劣势,结合它们的度量结果来决定每个词的最终权重,并取一篇文献中总权重位于前5的词语作为该文献的关键词,公式如下:
W(wi)=αWTF-IDF(wi)+(1-α)WTextRank(wi)
其中,α∈(0,1)为加权系数,WTF-IDF(wi)和WTextRank(wi)分别表示词wi由TF-IDF方法和TextRank方法计算得到的权重值。本方法中α取为0.5。
(5)判断关键词之间的相关性,对表达同一对象的不同词汇进行合并
对于相同概念,不同作者在撰写论文时可能采用不同的词汇进行表述。而当这样的情况大量出现却未对其进行有效处理时,就会对趋势分析的结果造成极大的影响。因此,对同义词进行归并,并重新计算词权重是十分必要的。
本方法主要考虑以下几种同义词关系:
①一个词语为另一个词语的子概念,如“变压器”-“油浸式变压器”等。此类同义词往往在字面上呈现出包含关系,但也要注意对“不”、“非”、“否”等否定性前缀进行排查。
②对应的中/英文及缩略词表达方式。中文文献中较少出现英文关键词,但却较可能出现中/英文缩略词的情况,如“旋转变压器”-“旋变”和“广域测量系统”-“WAMS”等;而英文文献中较常出现英文缩略词,如“Wide Area Measurement System”和“WAMS”等。对于中文词及其对应中文缩略词(或英文词及其对应英文缩略词),可以直接检验它们之间是否符合一定规律来进行判定;对于中文词及其对应英文缩略词,则需要通过接入翻译工具API来获取中文词的对应英文词后再进行判定。由于缩略词经常存在一词多义现象,且翻译软件可能会对访问数进行限制,因此我们只选择出现在同一篇文献中的关键词进行两两比对,因其之间更可能具有某种联系。
③表达同一意思的两个不同词语,如“火电厂”-“燃煤电厂”等。基于出现在相同语境中的词具有相似语义这一假说,采取词向量技术依据目标词与上下文之间的关系可将其编码成一个低维稠密的实数向量,这些向量之间的空间距离即反映了词之间的语义相似度。
对于判定为同义词的两个词语,若它们表意完全相同,则保留总词频较高的词语并将其词频与另一个词的词频叠加作为其新词频;若一个概念为另一个概念的子概念,则对这两个词都进行保留并按一定的比例将子概念的词频折算后叠加到母概念的词频上。
(6)基于提取和合并结果,绘制相应研究热点的演变动态
为避免论文数波动对结果造成影响,将各年各关键词的词频与相应年份论文数的比值相对其最大值作归一化的结果作为新的词频,得到最近10年间各年度词频最高的十个热点词,及这些热点词的词频变化情况。
为了验证本发明的性能,我们提供相应的预测实验。
实施案例
表1.电气领域中文核心期刊
选择如表1中所示的32种电气领域核心期刊,爬取CNKI数据库中收录的近10年(即2008-2017年)发表于上述期刊中以“计量采集”为主题的相关文献,再对每一年份的文献分别进行以下工作:
(1)采用统计语言模型,对文献内容进行分词处理;
(2)通过词性标注,从分词结果中滤除停用词;
(3)结合TF-IDF和TextRank方法,从候选词库中提取关键词;
(4)判断关键词之间的相关性,对表达同一对象的不同词汇进行合并;
(5)将各年各关键词的词频与相应年份论文数的比值相对其最大值作归一化的结果作为新的词频。
对各年词频进行降序排列后选取词频位于前十的词作为该年的热点词,如表2所示。
表2. 2008-2017年计量采集领域中文热点词
这些关键词的词频变化情况如表3所示。
表3. 2008-2017年计量采集领域中文热点词变化情况
实验结果表明,本方法有效地提取出了计量采集领域的研究热点,如“在线监测”和“局部放电”等长期占据热门地位的研究方向,如图2所示,以及如“配电网”、“故障诊断”、“绝缘子”、“断路器”、“大数据”等近年来学界的重点研究对象,如图3所示。同时也可以看出,随着计量采集领域研究的深入,词频最高的前十个关键词的极值,即最高词频和最低词频之间的差异是逐渐缩小的,如图4所示,说明研究者们也不再过分专注于某个或某几个研究方向,对各方向的研究资源投入开始趋于均衡,这也符合我们对学科领域演化趋势的预期。
以上图1所示的一种基于自然语言处理的计量采集研究方向趋势分析方法是本发明的具体实施例,已经体现出本发明实质性特点和进步,可根据实际的使用需要,在本发明的启示下,对其进行形状、结构等方面的等同修改,均在本方案的保护范围之列。
Claims (9)
1.一种基于自然语言处理的计量采集研究方向趋势分析方法,其特征在于包括以下步骤:
1)采用爬虫程序,获取计量采集领域核心期刊论文;
2)采用统计语言模型,对所获取论文进行分词处理;
3)通过词性标注,滤除停用词;
4)结合TF-IDF和TextRank方法,从候选词库中提取关键词;
5)判断关键词之间的相关性,对表达同一对象的不同词汇进行合并;
6)基于提取和合并结果,绘制相应研究热点的演变动态,得到计量采集研究方向趋势。
2.根据权利要求1所述的一种基于自然语言处理的计量采集研究方向趋势分析方法,其特征在于:在步骤1)中,选择CNKI作为中文文献统计来源,以主题中包含“计量采集”作为检索条件,爬取数据库中收录的所有发表于选定的电气领域核心期刊的相关文献,再根据年份将其进行分类。
3.根据权利要求1所述的一种基于自然语言处理的计量采集研究方向趋势分析方法,其特征在于:步骤2),包括以下子步骤:
201)基于现有的词典生成句子中汉字所有可能成词情况所构成的有向无环图,筛查所爬取的文献的关键词,并将自主提取的关键词加入分词的自定义词典中;
202)采用动态规划查找最大概率路径,找出基于词频的最大切分组合;
当一个句子S有以下多种分词方法:
A1,A2,…,Am
……
B1,B2,…,Bn
若:P(A1,A2,…,Am)=max(P(A1,A2,…,Am),…,P(B1,B2,…,Bn))
则认为:A1,A2,…,Am是最好的分词方法;
在分词处理时采用A1,A2,…,Am作为分词结果。
4.根据权利要求1所述的一种基于自然语言处理的计量采集研究方向趋势分析方法,其特征在于:在步骤3)中,在进行分词处理之后,文本被表示成一个词语集合的形式,将其中对文本内容识别无意义的词通过词性标注进行滤除,无意义的词包括介词、连词、助词和标点。
5.根据权利要求4所述的一种基于自然语言处理的计量采集研究方向趋势分析方法,其特征在于:步骤4),包括以下子步骤:
401)计算TF-IDF权重
TF(Term Frequency)用于反应同一篇文献中不同词汇所占比重;IDF(InverseDocument Frequency)用于给那些在大多数文献中普遍出现的词较小的权重,给仅在少部分文献中出现的词较大的权重;
TF-IDF为词频-逆文本频率,用于解决TF提取到常规词的问题。
给定一个文献集合C,对于词wi,其在某一篇文献c中的TF-IDF的计算方法为:
其中,Fc(wi)表示词wi在文献c中出现的频次,Nc表示文献c的总词数,|C|表示文献总数,|C(wi)l表示文献集合C中出现词wi的文献数;因此如果一个词在某一篇文献中的词频越大,并且越少出现在其他文献中,其TF-IDF值就越大;
402)计算TextRank权重
TextRank为基于图的排序算法。对于文献c,将其视为一个带权有向图G=(V,E),由点集合y和边集合E组成;计算TextRank权重时,首先将所有候选关键词作为图的点集合,随机初始化节点权重,通过迭代计算,根据马尔可夫链平稳性,关键词的重要性最终会收敛到一个稳定值,该稳定值即为TextRank权重;TextRank迭代计算的公式如下:
其中,d∈(0,1)为阻尼因子,允许从一个顶点到另一个顶点的随机转换;N(wi)表示与wi相连的单词集合;
403)结合401)和402)中的计算结果,确定关键词
为集合TF-IDF和TextRank方法各自的优势并规避其劣势,结合它们的度量结果来决定每个词的最终权重,并取一篇文献中总权重位于前5的词语作为该文献的关键词,公式如下:
W(wi)=αWTF-IDF(wi)+(1-α)WTextRank(wi)
其中,α∈(0,1)为加权系数,WTF-IDF(wi)和WTextRank(wi)分别表示词wi由TF-IDF方法和TextRank方法计算得到的权重值。
6.根据权利要求5所述的一种基于自然语言处理的计量采集研究方向趋势分析方法,其特征在于:d取为0.85;α取为0.5。
7.根据权利要求1所述的一种基于自然语言处理的计量采集研究方向趋势分析方法,其特征在于:在步骤5)中,对于相同概念的同义词进行归并,并重新计算词权重,同义词关系包括一个词语为另一个词语的子概念、对应的中/英文及缩略词、表达同一意思的两个不同词语。
8.根据权利要求1所述的一种基于自然语言处理的计量采集研究方向趋势分析方法,其特征在于:对于判定为同义词的两个词语,若它们表意完全相同,则保留总词频较高的词语并将其词频与另一个词的词频叠加作为其新词频;若一个概念为另一个概念的子概念,则对这两个词都进行保留并按一定的比例将子概念的词频折算后叠加到母概念的词频上;对于中文词及其对应中文缩略词或英文词及其对应英文缩略词,通过直接检验它们之间是否符合规律来进行判定;对于中文词及其对应英文缩略词,则需要通过接入翻译工具来获取中文词的对应英文词后再进行判定;缩略词只选择出现在同一篇文献中的关键词进行两两比对。
9.根据权利要求1所述的一种基于自然语言处理的计量采集研究方向趋势分析方法,其特征在于:在步骤6)中,为避免论文数波动对结果造成影响,将各年各关键词的词频与相应年份论文数的比值相对其最大值作归一化的结果作为新的词频,得到最近10年间各年度词频最高的十个热点词,及这些热点词的词频变化情况。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910682879.5A CN110598972B (zh) | 2019-07-26 | 2019-07-26 | 一种基于自然语言处理的计量采集研究方向趋势分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910682879.5A CN110598972B (zh) | 2019-07-26 | 2019-07-26 | 一种基于自然语言处理的计量采集研究方向趋势分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110598972A true CN110598972A (zh) | 2019-12-20 |
CN110598972B CN110598972B (zh) | 2023-01-20 |
Family
ID=68853172
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910682879.5A Active CN110598972B (zh) | 2019-07-26 | 2019-07-26 | 一种基于自然语言处理的计量采集研究方向趋势分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110598972B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111090732A (zh) * | 2019-12-23 | 2020-05-01 | 创意信息技术股份有限公司 | 一种电力服务信息热点提取方法、装置和电子设备 |
CN111125315A (zh) * | 2019-12-25 | 2020-05-08 | 北京中技华软科技服务有限公司 | 一种技术趋势预测方法和系统 |
CN111782772A (zh) * | 2020-07-24 | 2020-10-16 | 平安银行股份有限公司 | 基于ocr技术的文本自动生成方法、装置、设备及介质 |
CN111930463A (zh) * | 2020-09-23 | 2020-11-13 | 杭州橙鹰数据技术有限公司 | 展示方法及装置 |
CN111985211A (zh) * | 2020-09-01 | 2020-11-24 | 中国民航科学技术研究院 | 民航安全领域的本体概念获取方法、装置及存储介质 |
CN112364601A (zh) * | 2020-10-28 | 2021-02-12 | 南阳理工学院 | 基于TF-IDF算法和TextRank算法的智能阅卷方法及装置 |
CN112733538A (zh) * | 2021-01-19 | 2021-04-30 | 广东工业大学 | 一种基于文本的本体构建方法及装置 |
CN114331766A (zh) * | 2022-01-05 | 2022-04-12 | 中国科学技术信息研究所 | 专利技术核心度的确定方法、装置、电子设备及存储介质 |
CN116402048A (zh) * | 2023-06-02 | 2023-07-07 | 布比(北京)网络技术有限公司 | 一种可解释的区块链应用趋势分析方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6385611B1 (en) * | 1999-05-07 | 2002-05-07 | Carlos Cardona | System and method for database retrieval, indexing and statistical analysis |
WO2017084267A1 (zh) * | 2015-11-18 | 2017-05-26 | 乐视控股(北京)有限公司 | 一种关键词提取方法和装置 |
CN108763196A (zh) * | 2018-05-03 | 2018-11-06 | 上海海事大学 | 一种基于pmi的关键字提取方法 |
CN108959378A (zh) * | 2018-05-28 | 2018-12-07 | 天津大学 | 文献热点的可视化分析方法 |
-
2019
- 2019-07-26 CN CN201910682879.5A patent/CN110598972B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6385611B1 (en) * | 1999-05-07 | 2002-05-07 | Carlos Cardona | System and method for database retrieval, indexing and statistical analysis |
WO2017084267A1 (zh) * | 2015-11-18 | 2017-05-26 | 乐视控股(北京)有限公司 | 一种关键词提取方法和装置 |
CN108763196A (zh) * | 2018-05-03 | 2018-11-06 | 上海海事大学 | 一种基于pmi的关键字提取方法 |
CN108959378A (zh) * | 2018-05-28 | 2018-12-07 | 天津大学 | 文献热点的可视化分析方法 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111090732A (zh) * | 2019-12-23 | 2020-05-01 | 创意信息技术股份有限公司 | 一种电力服务信息热点提取方法、装置和电子设备 |
CN111125315B (zh) * | 2019-12-25 | 2023-04-07 | 北京本应科技有限公司 | 一种技术趋势预测方法和系统 |
CN111125315A (zh) * | 2019-12-25 | 2020-05-08 | 北京中技华软科技服务有限公司 | 一种技术趋势预测方法和系统 |
WO2021128529A1 (zh) * | 2019-12-25 | 2021-07-01 | 北京中技华软科技服务有限公司 | 一种技术趋势预测方法和系统 |
CN111782772A (zh) * | 2020-07-24 | 2020-10-16 | 平安银行股份有限公司 | 基于ocr技术的文本自动生成方法、装置、设备及介质 |
CN111985211A (zh) * | 2020-09-01 | 2020-11-24 | 中国民航科学技术研究院 | 民航安全领域的本体概念获取方法、装置及存储介质 |
CN111930463A (zh) * | 2020-09-23 | 2020-11-13 | 杭州橙鹰数据技术有限公司 | 展示方法及装置 |
CN112364601A (zh) * | 2020-10-28 | 2021-02-12 | 南阳理工学院 | 基于TF-IDF算法和TextRank算法的智能阅卷方法及装置 |
CN112733538A (zh) * | 2021-01-19 | 2021-04-30 | 广东工业大学 | 一种基于文本的本体构建方法及装置 |
CN114331766B (zh) * | 2022-01-05 | 2022-07-08 | 中国科学技术信息研究所 | 专利技术核心度的确定方法、装置、电子设备及存储介质 |
CN114331766A (zh) * | 2022-01-05 | 2022-04-12 | 中国科学技术信息研究所 | 专利技术核心度的确定方法、装置、电子设备及存储介质 |
CN116402048A (zh) * | 2023-06-02 | 2023-07-07 | 布比(北京)网络技术有限公司 | 一种可解释的区块链应用趋势分析方法及系统 |
CN116402048B (zh) * | 2023-06-02 | 2023-10-10 | 布比(北京)网络技术有限公司 | 一种可解释的区块链应用趋势分析方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110598972B (zh) | 2023-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110598972B (zh) | 一种基于自然语言处理的计量采集研究方向趋势分析方法 | |
Liu et al. | Full‐text citation analysis: A new method to enhance scholarly networks | |
Hamborg et al. | Automated identification of media bias by word choice and labeling in news articles | |
Phan et al. | Aspect-level sentiment analysis using CNN over BERT-GCN | |
Huang et al. | A patent keywords extraction method using TextRank model with prior public knowledge | |
CN104778157A (zh) | 一种多文档摘要句的生成方法 | |
Xi et al. | Global encoding for long Chinese text summarization | |
Xu et al. | Improving pseudo-relevance feedback with neural network-based word representations | |
CN104679784A (zh) | 一种o2b智能搜索方法及系统 | |
Wang et al. | A semantic query expansion-based patent retrieval approach | |
Zhu | Bibliometric analysis of patent infringement retrieval model based on self-organizing map neural network algorithm | |
Guo et al. | Multifeature fusion keyword extraction algorithm based on textrank | |
Costa et al. | Semantic enrichment of product data supported by machine learning techniques | |
Jing et al. | GeoGAT: Graph model based on attention mechanism for geographic text classification | |
Tian et al. | Automatic extraction method for specific domain terms based on structural features and mutual information | |
Hu et al. | A classification model of power operation inspection defect texts based on graph convolutional network | |
Ma et al. | A Phrase Topic Model Based on Distributed Representation. | |
Meng | [Retracted] Text Clustering and Economic Analysis of Free Trade Zone Governance Strategies Based on Random Matrix and Subject Analysis | |
Niu et al. | Word embedding based edit distance | |
Perez-Guadarrama et al. | A fuzzy approach to improve an unsupervised automatic keyphrase extraction process | |
Ge et al. | Chinese news hot subtopic discovery and recommendation method based on key phrase and the LDA model | |
Zou et al. | An improved model for spam user identification | |
Zhou et al. | Unsupervised technical phrase extraction by incorporating structure and position information | |
Alboni et al. | The search for topics related to electric mobility: a comparative analysis of some of the most widely used methods in the literature | |
Lejun et al. | Analysis of Literary based on Deep Emotional Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |