CN106372064B - 一种文本挖掘的特征词权重计算方法 - Google Patents
一种文本挖掘的特征词权重计算方法 Download PDFInfo
- Publication number
- CN106372064B CN106372064B CN201611020416.5A CN201611020416A CN106372064B CN 106372064 B CN106372064 B CN 106372064B CN 201611020416 A CN201611020416 A CN 201611020416A CN 106372064 B CN106372064 B CN 106372064B
- Authority
- CN
- China
- Prior art keywords
- feature
- text
- participle
- association
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种文本挖掘的特征权重计算方法,将文本特征词的向量表征为分布式表达的实数值向量;根据表征特征词的分布式表达实数值向量,计算获取与该特征词关联度较大的特征词集;通过TextRank算法计算特征词的权重时,将两两特征词间的关联度加入到特征值权重的计算中;通过TextRank算法计算与该特征词关联度较大的其他特征词权重,即特征词集,并同样在计算中加入两两特征词间的关联度。采用本发明的技术方案,可以显著提高文本特征词权重的计算准确率,并能应用于文本的特征词抓取,文本分类和文本聚类中。
Description
技术领域
本发明是对现有的一种文本挖掘的特征权重计算方法的改进,可应用于文本的特征词抓取,文本分类和文本聚类中。
背景技术
在当今的信息互联网时代,海量的文本信息在时刻涌现,而基于机器学习的文本挖掘技术变得尤为重要。在自然语言处理中,将文本表示成向量空间模型(VSM:VectorSpace Model)是文本挖掘的基础。而在建立向量空间模型的过程中,特征权重的表示尤为重要,权重表示的优劣将直接影响到文本分类的精确度。在文本特征权重计算研究中,学者们已提出多种有效的方法,其中TextRank算法由于相对简单,且有较高的准确率和召回率,是使用最广泛的权重表示方法之一。
TextRank算法基于PageRank,用于为文本生成关键字和摘要。其论文是:MihalceaR,Tarau P.TextRank:Bringing order into texts[C].Association for ComputationalLinguistics,2004.PageRank最开始用来计算网页的重要性。整个www可以看作一张有向图图,节点是网页。如果网页A存在到网页B的链接,那么有一条从网页A指向网页B的有向边。构造完图后,使用下面的公式:
S(Vi)是网页i的中重要性(PR值)。d是阻尼系数,一般设置为0.85。In(Vi)是存在指向网页i的链接的网页集合。Out(Vj)是网页j中的链接存在的链接指向的网页的集合。|Out(Vj)|是集合中元素的个数。
PageRank需要使用上面的公式多次迭代才能得到结果。初始时,可以设置每个网页的重要性为1。上面公式等号左边计算的结果是迭代后网页i的PR值,等号右边用到的PR值全是迭代前的。
使用TextRank提取关键字,是将原文本拆分为句子,在每个句子中过滤掉停用词(可选),并只保留指定词性的单词(可选)。由此可以得到句子的集合和单词的集合。每个单词作为pagerank中的一个节点。设定窗口大小为k,假设一个句子依次由下面的单词组成:
Sentence={w1,w2,w3,w4,w5,...,wn}
w1,w2,...,wk、w2,w3,...,wk+1、w3,w4,...,wk+2等都是一个窗口。在一个窗口中的任两个单词对应的节点之间存在一个无向无权的边。
基于上面构成图,可以计算出每个单词节点的重要性。最重要的若干单词可以作为关键词。
Word2vec是Google在2013年年中开源的一款将词表征为实数值向量的高效工具,其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为K维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。Word2vec输出的词向量可以被用来做很多NLP相关的工作,比如聚类、找同义词、词性分析等等。如果换个思路,把词当做特征,那么Word2vec就可以把特征映射到K维向量空间,可以为文本数据寻求更加深层次的特征表示。
Word2vec使用的是Distributed representation的词向量表示方式。Distributed representation最早由Hinton在1986年提出。其基本思想是通过训练将每个词映射成K维实数向量(K一般为模型中的超参数),通过词之间的距离(比如cosine相似度、欧氏距离等)来判断它们之间的语义相似度。
发明内容
本发明提出了一种基于Word2Vec改进的TextRank算法用于文本的特征值计算方法包括:
步骤1、将文本特征词的向量表征为分布式表达的实数值向量;
步骤2、根据表征特征词的分布式表达实数值向量,计算获取与该特征词关联度较大的特征词集;
步骤3、通过TextRank算法计算特征词的权重时,将两两特征词间的关联度加入到特征值权重的计算中;
步骤4、通过TextRank算法计算与该特征词关联度较大的其他特征词权重,即特征词集,并同样在计算中加入两两特征词间的关联度。
作为优选,所述的特征词是文本中最能代表其所在文本主题的分词,在特征词权重计算中,特征词对其所在文本主题关联越大,其权重越高。
作为优选,步骤3为基于Word2Vec改进的TextRank算法用于文本的特征值计算方法,其中将两两特征词间的关联度加入到TextRank特征值权重计算公式如下:
S(Vi)是分词Vi的重要性(PR值);d是阻尼系数,一般设置为0.85;ln(Vi)是存在指向分词Vi的分词集合;Out(Vi)是分词j中存在的指向的分词的集合;|Out(Vi)|是集合中元素的个数;Sim(Vi,Vj)为通过Word2Vec计算得到的Vi与Vj之间的相似度。
作为优选,步骤4为基于Word2Vec改进的TextRank算法用于文本的特征值计算方法,其中通过TextRank算法计算与该特征词关联度较大的其他特征词权重,即特征词集的权重,并同样在计算中加入两两特征词间的关联度,其公式如下:
分词Vim是分词Vi通过Word2Vec计算得到的与分词Vi关联度较高的前n个分词之一,即:{Vi,{Vi1,Vi2,Vi3,...,Vin}},Vim∈{Vi1,Vi2,Vi3,...,Vin};S(Vim)是分词Vim的重要性(PR值);d是阻尼系数,一般设置为0.85;ln(Vi)是存在指向分词Vi的分词集合;Out(Vi)是分词j中存在的指向的分词的集合;|Out(Vi)|是集合中元素的个数;Sim(Vim,Vj)为通过Word2Vec计算得到的Vim与Vj之间的相似度。
改进的计算方法主要有两点:
1、在原算法的计算中增加了两个分词之间相似度这一变量(Sim),可以增加相近词投票的权重,减少无关词投票的权重。
2、在分词Vj给分词Vi投票时,添加了对分词Vi相近词的投票。
本发明相对于原有的基于TextRank算法计算特征词权重的方法,在原有的算法基础上加入了特征词间的关联度,可以显著提高文本特征词权重的计算准确率,并能应用于文本的特征词抓取,文本分类和文本聚类中,具有商业实用价值。
附图说明
结合附图,从下面对本发明实施例的详细描述,将更好地理解本发明,附图中类似的标号指示类似的部分,其中:
图1示出了根据基于Word2Vec改进的TextRank算法用于文本的特征值计算方法做特征词权重计算的简要流程框图。
具体实施方式
下面将详细描述本发明各个方面的特征和示例性实施例。下面的描述涵盖了许多具体细节,以便提供对本发明的全面理解。但是,对于本领域技术人员来说显而易见的是,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更清楚的理解。本发明绝不限于下面所提出的任何具体配置和算法,而是在不脱离本发明的精神的前提下覆盖了相关元素、部件和算法的任何修改、替换和改进。
如图1所示,根据本发明一个基于Word2Vec改进的TextRank算法用于文本的特征值计算方法包括输入语料S1,语料清洗(去重,过滤质量差的语料等)S2,分词操作并去掉停用词S3,使用word2vec算法训练词向量并保存S4,将处理后的测试文本中的分词通过word2vec查找并设置每个分词对应的词向量S5,通过word2vec,根据每个分词的词向量查找与其关联度最高的前n个,并组成键值对集合S6,使用改进的TextRank方法计算分词权重S7,分词权重变化幅度是否趋于平稳S8等。它们的功能如下:
输入语料S1是训练语料和测试语料的入口。Word2Vec是一种无监督的机器学习算法,通过大量的训练语料和测试语料来生成每个分词的向量。此处的训练语料是在步骤使用word2vec算法训练词向量并保存S4中使用。
训练语料清洗(去重,过滤质量差的语料等)S2是对训练语料的处理,去掉训练语料中重复的文本,并过滤掉质量差(文本内容少,或无关内容太多)的语料,通过步骤S2的处理,可以提升word2vec在生成词向量时的效果。
分词操作并去掉停用词S3是对测试语料的操作,通过去掉文本中的停用词可以提高基于Word2Vec改进的TextRank算法用于文本的特征值计算质量,提升对高质量特征词的认知。
使用word2vec算法训练词向量并保存S4是通过Google在2013年年中开源的一款将词表征为实数值向量的高效工具word2vec,通过训练语料和测试语料,把对文本内容的处理简化为K维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度,是将处理后的测试文本中的分词通过word2vec查找并设置每个分词对应的词向量S5的基础。
将处理后的测试文本中的分词通过word2vec查找并设置每个分词对应的词向量S5是通过训练将每个词映射成K维实数向量(K一般为模型中的超参数)。
通过word2vec,根据每个分词的词向量查找与其关联度最高的前n个,并组成键值对集合S6是通过表示词的词向量之间的距离(比如cosine相似度、欧氏距离等)来判断它们之间的语义相似度,并组成键值对集合,即:{Vi,{Vi1,Vi2,Vi3,...,Vin}}。
使用改进的TextRank方法计算分词权重S7是通过基于Word2Vec改进的TextRank算法用于文本的特征值计算方法,即通过公式2和公式3进行文本的特征值权重计算。
分词权重变化幅度是否趋于平稳S8是对每次使用改进的TextRank方法计算分词权重S7后,分词权重的变化进行判断。如果分词权重变化幅度小于设定的阈值,则终止循环,否则重复使用改进的TextRank方法计算分词权重S7,直至权重变化幅度小于设定的阈值。
本发明可以以其他的具体形式实现,而不脱离其精神和本质特征。当前的实施例在所有方面都被看作是示例性的而非限定性的,本发明的范围由所附权利要求而非上述描述定义,并且,落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。
Claims (2)
1.一种文本挖掘的特征权重计算方法,包括:
步骤1、将文本特征词的向量表征为分布式表达的实数值向量;
步骤2、根据表征特征词的分布式表达实数值向量,计算获取与该特征词关联度较大的特征词集;
步骤3、通过TextRank算法计算特征词的权重时,将两两特征词间的关联度加入到特征值权重的计算中;其中,步骤3为基于Word2Vec改进的TextRank算法用于文本的特征值计算方法,其中将两两特征词间的关联度加入到TextRank特征值权重计算公式如下:
S(Vi)是分词Vi的重要性(PR值);d是阻尼系数,一般设置为0.85;ln(Vi)是存在指向分词Vi的分词集合;Out(Vi)是分词j中存在的指向的分词的集合;|Out(Vi)|是集合中元素的个数;Sim(Vi,Vj)为通过Word2Vec计算得到的Vi与Vj之间的相似度;
步骤4、通过TextRank算法计算与该特征词关联度较大的其他特征词权重,即特征词集,并同样在计算中加入两两特征词间的关联度;其中,步骤4为基于Word2Vec改进的TextRank算法用于文本的特征值计算方法,其中通过TextRank算法计算与该特征词关联度较大的其他特征词权重,即特征词集的权重,并同样在计算中加入两两特征词间的关联度,其公式如下:
分词Vim是分词Vi通过Word2Vec计算得到的与分词Vi关联度较高的前n个分词之一,即:{Vi,{Vi1,Vi2,Vi3,...,Vin}},Vim∈{Vi1,Vi2,Vi3,...,Vin};S(Vim)是分词Vim的重要性(PR值);d是阻尼系数,一般设置为0.85;ln(Vi)是存在指向分词Vi的分词集合;Out(Vi)是分词j中存在的指向的分词的集合;|Out(Vi)|是集合中元素的个数;Sim(Vim,Vj)为通过Word2Vec计算得到的Vim与Vj之间的相似度。
2.根据权利要求1所述的文本挖掘的特征权重计算方法,其特征在于,所述的特征词是文本中最能代表其所在文本主题的分词,在特征词权重计算中,特征词对其所在文本主题关联越大,其权重越高。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611020416.5A CN106372064B (zh) | 2016-11-18 | 2016-11-18 | 一种文本挖掘的特征词权重计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611020416.5A CN106372064B (zh) | 2016-11-18 | 2016-11-18 | 一种文本挖掘的特征词权重计算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106372064A CN106372064A (zh) | 2017-02-01 |
CN106372064B true CN106372064B (zh) | 2019-04-19 |
Family
ID=57891783
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611020416.5A Active CN106372064B (zh) | 2016-11-18 | 2016-11-18 | 一种文本挖掘的特征词权重计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106372064B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106997382B (zh) * | 2017-03-22 | 2020-12-01 | 山东大学 | 基于大数据的创新创意标签自动标注方法及系统 |
CN107122350B (zh) * | 2017-04-27 | 2021-02-05 | 北京易麦克科技有限公司 | 一种多段落文本的特征抽取系统的方法 |
CN107193803B (zh) * | 2017-05-26 | 2020-07-10 | 北京东方科诺科技发展有限公司 | 一种基于语义的特定任务文本关键词提取方法 |
CN107704503A (zh) * | 2017-08-29 | 2018-02-16 | 平安科技(深圳)有限公司 | 用户关键词提取装置、方法及计算机可读存储介质 |
CN109241277B (zh) * | 2018-07-18 | 2022-05-17 | 北京航天云路有限公司 | 基于新闻关键词的文本向量加权的方法及系统 |
CN108920466A (zh) * | 2018-07-27 | 2018-11-30 | 杭州电子科技大学 | 一种基于word2vec和TextRank的科技文本关键词提取方法 |
CN109376352B (zh) * | 2018-08-28 | 2022-11-29 | 中山大学 | 一种基于word2vec和语义相似度的专利文本建模方法 |
CN110263343B (zh) * | 2019-06-24 | 2021-06-15 | 北京理工大学 | 基于短语向量的关键词抽取方法及系统 |
CN110852097B (zh) * | 2019-10-15 | 2022-02-01 | 平安科技(深圳)有限公司 | 特征词提取方法、文本相似度计算方法、装置和设备 |
CN113282698A (zh) * | 2021-06-07 | 2021-08-20 | 中国科学院地理科学与资源研究所 | 一种生态文明地理知识标准化知识库的构建方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298588A (zh) * | 2010-06-25 | 2011-12-28 | 株式会社理光 | 从非结构化文档中抽取对象的方法和装置 |
CN105740229A (zh) * | 2016-01-26 | 2016-07-06 | 中国人民解放军国防科学技术大学 | 关键词提取的方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7809548B2 (en) * | 2004-06-14 | 2010-10-05 | University Of North Texas | Graph-based ranking algorithms for text processing |
-
2016
- 2016-11-18 CN CN201611020416.5A patent/CN106372064B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298588A (zh) * | 2010-06-25 | 2011-12-28 | 株式会社理光 | 从非结构化文档中抽取对象的方法和装置 |
CN105740229A (zh) * | 2016-01-26 | 2016-07-06 | 中国人民解放军国防科学技术大学 | 关键词提取的方法及装置 |
Non-Patent Citations (2)
Title |
---|
Research on Keyword Extraction Based on Word2Vec Weighted TextRank;Yujun Wen 等;《2016 2nd IEEE International Conference on Computer and Communications》;20161017;第2109-2111页 |
融合Word2vec与TextRank的关键词抽取;宁建飞 等;《现代图书情报技术》;20160630(第6期);全文 |
Also Published As
Publication number | Publication date |
---|---|
CN106372064A (zh) | 2017-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106372064B (zh) | 一种文本挖掘的特征词权重计算方法 | |
CN107451126A (zh) | 一种近义词筛选方法及系统 | |
CN107463607B (zh) | 结合词向量和自举学习的领域实体上下位关系获取与组织方法 | |
CN105893410A (zh) | 一种关键词提取方法和装置 | |
CN107391614A (zh) | 一种基于wmd的中文问答匹配方法 | |
CN100489863C (zh) | 一种新词发现方法和系统 | |
CN104573046A (zh) | 一种基于词向量的评论分析方法及系统 | |
CN103617290B (zh) | 中文机器阅读系统 | |
CN105843796A (zh) | 一种微博情感倾向分析方法及装置 | |
CN105138570A (zh) | 网络言论数据疑似犯罪度计算方法 | |
US11551114B2 (en) | Method and apparatus for recommending test question, and intelligent device | |
CN103365974A (zh) | 一种基于相关词主题的语义消歧方法和系统 | |
CN110866125A (zh) | 基于bert算法模型的知识图谱构建系统 | |
CN108073571A (zh) | 一种多语言文本质量评估方法及系统、智能文本处理系统 | |
CN105893362A (zh) | 获取知识点语义向量的方法、确定相关知识点的方法及系统 | |
CN105608075A (zh) | 一种相关知识点的获取方法及系统 | |
CN107180026A (zh) | 一种基于词嵌入语义映射的事件短语学习方法及装置 | |
CN108062351A (zh) | 关于特定主题类别的文本摘要提取方法、可读存储介质 | |
Kumar et al. | Performance analysis of keyword extraction algorithms assessing extractive text summarization | |
CN112883182A (zh) | 一种基于机器阅读的问答匹配方法及装置 | |
CN107526721A (zh) | 一种对电商产品评论词汇的歧义消除方法及装置 | |
CN112434533A (zh) | 实体消歧方法、装置、电子设备及计算机可读存储介质 | |
CN113468339A (zh) | 基于知识图谱的标签提取方法、系统、电子设备及介质 | |
CN106970919B (zh) | 新词组发现的方法及装置 | |
Nehar et al. | An efficient stemming for arabic text classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20210611 Address after: 200335 Room 301, building 1, 111 Fuquan Road, Changning District, Shanghai Patentee after: SHANGHAI DIGITAL CHINA INFORMATION TECHNOLOGY SERVICE Co.,Ltd. Address before: 100124 No. 100 Chaoyang District Ping Tian Park, Beijing Patentee before: Beijing University of Technology |