CN109766408A - 综合词位置因素和词频因素的文本关键词权重计算方法 - Google Patents

综合词位置因素和词频因素的文本关键词权重计算方法 Download PDF

Info

Publication number
CN109766408A
CN109766408A CN201811471124.2A CN201811471124A CN109766408A CN 109766408 A CN109766408 A CN 109766408A CN 201811471124 A CN201811471124 A CN 201811471124A CN 109766408 A CN109766408 A CN 109766408A
Authority
CN
China
Prior art keywords
word
text
factor
candidate keywords
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811471124.2A
Other languages
English (en)
Inventor
骆祥峰
陈雪
陈光勇
王鹏
张惠然
王小飞
魏晓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN201811471124.2A priority Critical patent/CN109766408A/zh
Publication of CN109766408A publication Critical patent/CN109766408A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种综合词位置因素和词频因素的文本关键词权重计算方法,该方法具体步骤如下:(1)打开单篇文本,将其段落进行重新组合形成新文本;(2)对新文本进行预处理,包括分词和去除停用词,余下词作为候选关键词构建候选关键词矩阵;(3)利用调和级数综合词位置因素和词频因素计算每个候选关键词的权重;(4)输出每个候选关键词对应的权重。该方法充分利用文本结构信息,即融合文本中词位置因素和词频因素,能够在不依赖领域文本集的前提下只针对单篇文本对关键词的权重进行计算;该方法比TFIDF和TEXTRANK简便易操作,效果好,并且能够兼具TFIDF和TEXTRANK的功能。

Description

综合词位置因素和词频因素的文本关键词权重计算方法
技术领域
本发明涉及一种综合词位置因素和词频因素的文本关键词权重计算方法,具体是涉及采用调和级数综合词位置因素和词频因素对词的权重进行计算,提高标题及首尾两段的词的权重,并且使得每个词随着词频增加,该词出现位置处的权重减小。
背景技术
目前应用最广的关键词提取算法是向量空间模型。向量空间模型将文本表示成一个权值向量,向量中的每一项均由一个词组成,而每个词的权重由TFIDF方法确定。其中TFIDF方法用词权重公式计算一个词对于文集中的单篇文本的重要程度。TFIDF方法的词权重就是词频TF(Term Frequency)与逆文档频率IDF(Inverse Document Frequency)的乘积。TFIDF具体公式如下:TFIDFi=TFi×IDFi=TFi×log(N/ni),其中,TFi为词i的词频,即词i在文本中出现的次数;IDFi为词i的逆文档频率,它由log(N/ni)计算;N为文本集的文本总数;ni为文本集中包含词i的文本数。但是使用向量空间模型结合TFIDF方法对文本进行表示时,存在以下不足:
(1)向量空间模型把文本看成词的集合,把词与词之间的关系看成是独立的,这样就损失了文本段落结构体现出的信息。
(2)TFIDF方法在计算词频时,没有考虑它们所处位置因素对其权重的影响,而单独考虑出现次数或共现次数,并不足以表达其实际权重。
(3)TFIDF方法在计算词的逆文档频率时,需要依赖领域文本集,无法针对单篇的文本,而领域文集的质量和规模对于词权重计算及关键词抽取产生巨大影响。
发明内容
本发明的目的在于针对现有的向量空间模型、TFIDF方法及TEXTRANK的不足,提供一种文本的关键词权重计算方法。该方法利用调和级数综合词位置因素和词频因素对词的权重进行综合计算,并且只针对单篇文本,无需文本的领域知识或领域文本集作为辅助,也无需迭代收敛过程。
为了达到上述的目的,本发明的构思如下:文本中每个词的权重是每次该词出现处的位置权重累加和。处于文本不同位置的同一个词的在每个位置处的权重不同,由该词出现的位置和该词已出现的次数共同决定。比如在标题中出现的词的权重最高,并且在文本中首尾两段总结概括性的句子中出现的词的权重应高于中间段落出现的词。因此本发明采用调和级数综合词位置因素和词频因素对词的权重进行计算,提高标题及首尾两段的词的权重,并且使得每个词随着词频增加,该词出现位置处的权重减小。
根据上述的发明思想,本发明采用下述技术方案:
一种综合词位置因素和词频因素的文本关键词权重计算方法,其特征在于该方法的具体步骤如下:
a.将带计算的文本的段落进行重新组合形成新文本;
b.对步骤a所得新文本进行预处理,即进行分词和去除停用词,余下词作为候选关键词构建候选关键词矩阵;
c.利用调和级数综合词位置因素和词频因素计算步骤b所得的每个候选关键词的权重;
d.输出每个候选关键词对应的权重。
上述步骤a的具体步骤为:原文本的题目作为新文本的第一段;原文本首尾两段分别作为新文本的第二段和第三段;原文本的其他按照原顺序合并成一段,因此新文本共有4段。
上述步骤b的具体步骤为:将构建候选关键词矩阵记为A[i][j],记录每个词出现的在每一段的次数,i∈[0,3],i对应表示新文本的1到4段;j∈[1,n],j表示每个候选关键词,n为候选关键词的总数。
上述步骤c的具体步骤为:利用调和级数综合词位置因素和词频因素计算每个候选关键词j的权重,其计算公式如下:
其中,表示候选关键词j在前三段的权重,表示候选关键词j在第4段的权重。
本发明的文本关键词权重计算方法与现有的技术相比较,具有如下突出优点:在没有领域文本集,无法确定关键词在文本集中的区分能力的情况下,能够通过扫描单篇文本,用关键词的出现次数与出现位置来确定关键词的权重;使用出现次数和位置对关键词权重进行计算,简单且效果好;由于调和级数法中的对数是可扩展的数量级,因此能够兼具TFIDF的功能,而且比TFIDF更加简便。
附图说明
图1是本发明的一种文本的关键词权重计算方法的流程图。
具体实施方式
以下结合附图对本发明的实施例作进一步的说明。
本实施例以IEEE Transactions on Parallel and Distributed Systems期刊的文章《HRing:A Structured P2P Overlay Based on Harmonic Series》为例。如图1所示,一种文本的表示模型,其步骤如下:
S1.打开单篇文本,将其段落进行重新组合形成新文本。原文本的题目作为新文本的第一段;原文本的首尾两段分别作为新文本的第二段和第三段;原文本的其他按照原顺序合并成一段。因此新文本共有4段。
S2.对新文本进行预处理,包括分词和去除停用词,余下词作为候选关键词,构建候选关键词矩阵A[i][j]记录每个词出现的在每一段的次数,i∈[0,3],i对应表示新文本的1到4段。j∈[1,n]表示第j个候选关键词,n为候选关键词的总数。
S3.利用调和级数综合词位置因素和词频因素计算每个候选关键词j的权重为
其中,表示候选关键词j在前三段的权重,
表示候选关键词j在第4段的权重。
S4.输出每个候选关键词对应的权重B[j],j∈[1,n]表示第j个候选关键词,n为候选关键词的总数。

Claims (4)

1.一种综合词位置因素和词频因素的文本关键词权重计算方法,其特征在于该方法的具体步骤如下:
a.将带计算的文本的段落进行重新组合形成新文本;
b.对步骤a所得新文本进行预处理,即进行分词和去除停用词,余下词作为候选关键词构建候选关键词矩阵;
c.利用调和级数综合词位置因素和词频因素计算步骤b所得的每个候选关键词的权重;
d.输出每个候选关键词对应的权重。
2.根据权利要求1所述的综合词位置因素和词频因素的文本关键词权重计算方法,其特征在于所述步骤a的具体步骤为:原文本的题目作为新文本的第一段;原文本首尾两段分别作为新文本的第二段和第三段;原文本的其他按照原顺序合并成一段,因此新文本共有4段。
3.根据权利要求1所述的综合词位置因素和词频因素的文本关键词权重计算方法,其特征在于所述步骤b的具体步骤为:将构建候选关键词矩阵记为A[i][j],记录每个词出现的在每一段的次数,i∈[0,3],i对应表示新文本的1到4段;j∈[1,n],j表示每个候选关键词,n为候选关键词的总数。
4.根据权利要求1所述的综合词位置因素和词频因素的文本关键词权重计算方法,其特征在于所述步骤c的具体步骤为:利用调和级数综合词位置因素和词频因素计算每个候选关键词j的权重,其计算公式如下:
其中,表示候选关键词j在前三段的权重,表示候选关键词j在第4段的权重。
CN201811471124.2A 2018-12-04 2018-12-04 综合词位置因素和词频因素的文本关键词权重计算方法 Pending CN109766408A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811471124.2A CN109766408A (zh) 2018-12-04 2018-12-04 综合词位置因素和词频因素的文本关键词权重计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811471124.2A CN109766408A (zh) 2018-12-04 2018-12-04 综合词位置因素和词频因素的文本关键词权重计算方法

Publications (1)

Publication Number Publication Date
CN109766408A true CN109766408A (zh) 2019-05-17

Family

ID=66451227

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811471124.2A Pending CN109766408A (zh) 2018-12-04 2018-12-04 综合词位置因素和词频因素的文本关键词权重计算方法

Country Status (1)

Country Link
CN (1) CN109766408A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457708A (zh) * 2019-08-16 2019-11-15 腾讯科技(深圳)有限公司 基于人工智能的词汇挖掘方法、装置、服务器及存储介质
CN111104793A (zh) * 2019-12-19 2020-05-05 浙江工商大学 一种短文本主题确定方法
CN111611342A (zh) * 2020-04-09 2020-09-01 中南大学 一种获取词项段落关联权重的方法和装置
CN112256843A (zh) * 2020-12-22 2021-01-22 华东交通大学 一种基于tf-idf方法优化的新闻关键词提取方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102629266A (zh) * 2012-03-08 2012-08-08 上海大学 一种基于调和级数的文本图结构表示模型
CN103559310A (zh) * 2013-11-18 2014-02-05 广东利为网络科技有限公司 一种从文章中提取关键词的方法
CN105893410A (zh) * 2015-11-18 2016-08-24 乐视网信息技术(北京)股份有限公司 一种关键词提取方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102629266A (zh) * 2012-03-08 2012-08-08 上海大学 一种基于调和级数的文本图结构表示模型
CN103559310A (zh) * 2013-11-18 2014-02-05 广东利为网络科技有限公司 一种从文章中提取关键词的方法
CN105893410A (zh) * 2015-11-18 2016-08-24 乐视网信息技术(北京)股份有限公司 一种关键词提取方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
陈雪: "A Text Representation Method Based on Harmonic Series", 《2012 IEEE 11TH INTERNATIONAL CONFERENCE ON TRUST,SECURITY AND PRIVACY IN COMPUTING AND COMMUNICATIONS》 *
高英虎: "面向学术搜索系统的用户需求发现模型", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457708A (zh) * 2019-08-16 2019-11-15 腾讯科技(深圳)有限公司 基于人工智能的词汇挖掘方法、装置、服务器及存储介质
CN110457708B (zh) * 2019-08-16 2023-05-16 腾讯科技(深圳)有限公司 基于人工智能的词汇挖掘方法、装置、服务器及存储介质
CN111104793A (zh) * 2019-12-19 2020-05-05 浙江工商大学 一种短文本主题确定方法
CN111611342A (zh) * 2020-04-09 2020-09-01 中南大学 一种获取词项段落关联权重的方法和装置
CN111611342B (zh) * 2020-04-09 2023-04-18 中南大学 一种获取词项段落关联权重的方法和装置
CN112256843A (zh) * 2020-12-22 2021-01-22 华东交通大学 一种基于tf-idf方法优化的新闻关键词提取方法及系统

Similar Documents

Publication Publication Date Title
Papagiannopoulou et al. Local word vectors guiding keyphrase extraction
CN109766408A (zh) 综合词位置因素和词频因素的文本关键词权重计算方法
US11714831B2 (en) Data processing and classification
Hai et al. Identifying features in opinion mining via intrinsic and extrinsic domain relevance
CN103049435B (zh) 文本细粒度情感分析方法及装置
EP2798540B1 (en) Extracting search-focused key n-grams and/or phrases for relevance rankings in searches
Bansal et al. Hybrid attribute based sentiment classification of online reviews for consumer intelligence
CN111897970A (zh) 基于知识图谱的文本比对方法、装置、设备及存储介质
CN107784092A (zh) 一种推荐热词的方法、服务器及计算机可读介质
CN108509474A (zh) 搜索信息的同义词扩展方法及装置
Alharbi et al. Evaluation of sentiment analysis via word embedding and RNN variants for Amazon online reviews
US20080195631A1 (en) System and method for determining web page quality using collective inference based on local and global information
Heu et al. FoDoSu: multi-document summarization exploiting semantic analysis based on social Folksonomy
CN106844350A (zh) 一种短文本语义相似度的计算方法
CN111753167B (zh) 搜索处理方法、装置、计算机设备和介质
Li et al. A holistic model of mining product aspects and associated sentiments from online reviews
CN103473217B (zh) 从文本中抽取关键词的方法和装置
CN109408802A (zh) 一种提升句向量语义的方法、系统及存储介质
CN105095430A (zh) 构建词语网络及抽取关键词的方法和装置
CN114254201A (zh) 一种科技项目评审专家的推荐方法
CN114997288A (zh) 一种设计资源关联方法
CN110569355B (zh) 一种基于词块的观点目标抽取和目标情感分类联合方法及系统
CN116521906A (zh) 元描述生成方法及其装置、设备、介质
CN108228566A (zh) 多文档关键词自动抽取方法及系统、计算机程序
Manojkumar et al. An experimental investigation on unsupervised text summarization for customer reviews

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190517

RJ01 Rejection of invention patent application after publication