CN107562717B - 一种基于Word2Vec与词共现相结合的文本关键词抽取方法 - Google Patents

一种基于Word2Vec与词共现相结合的文本关键词抽取方法 Download PDF

Info

Publication number
CN107562717B
CN107562717B CN201710605900.2A CN201710605900A CN107562717B CN 107562717 B CN107562717 B CN 107562717B CN 201710605900 A CN201710605900 A CN 201710605900A CN 107562717 B CN107562717 B CN 107562717B
Authority
CN
China
Prior art keywords
word
vocabulary
occurrence
candidate set
combination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710605900.2A
Other languages
English (en)
Other versions
CN107562717A (zh
Inventor
李晓飞
刘佳雯
韩光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN201710605900.2A priority Critical patent/CN107562717B/zh
Publication of CN107562717A publication Critical patent/CN107562717A/zh
Application granted granted Critical
Publication of CN107562717B publication Critical patent/CN107562717B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于Word2Vec与词共现相结合的文本关键词抽取方法,采用ICTCLAS分词系统对文本进行分词和词性标注得到词汇集合;然后对词汇集合进行预处理,将不合理的词汇组合过滤,得到初步候选集;将初步候选集放置到训练好的Word2Vec模型中得到词向量表,计算词向量表中词向量间的距离,对初步候选集进行kmeans聚类得到关键词的二次候选集,根据词向量距离得到二次候选集在初步候选集中的词共现率;不同词汇长度赋予不同的权值,根据词共现率、词汇长度得到相应的权重,根据权重排序,排名靠前的m个即为最终的关键词。本发明采用Word2Vec生成的词向量进行聚类,再结合词共现等基本特征提取文本关键词,提取的关键词更准确,可以适应不同文本的关键词抽取。

Description

一种基于Word2Vec与词共现相结合的文本关键词抽取方法
技术领域
本发明涉及自然语言处理技术领域,特别是一种基于Word2Vec与词共现相结合的文本关键词抽取方法。
背景技术
关键词提取就是从文本中把跟这篇文章意义最相关的一些词汇抽取出来。这些词汇也可以极大的概括文章的主要内容和中心思想。作者在写论文时一般都要求提供若干关键词,这样可以极大的方便读者来确定该论文是否为所需要的论文,达到预览的效果。
传统的关键词标注,主要是通过人工完成。一般是邀请领域专家对一些特定文档进行阅读,然后根据文本内容,选取一些词作为关键词。这样做的好处是,关键词的精确性比较髙,一般与文章内容非常契合,具有很强的代表性。但是人工标注的一个主要问题是效率太低,传统文本量下,可以采用人工标注,但是在大数据时代,数据爆炸式增长,人工标注无法有效应对如此巨量的数据,使用计算机进行自动关键词抽取成为了主流选择。
关键词抽取算法的不断发展,使得关键词自动标注的准确率不断提高,但是这与人工关键词自动标注相比,依旧显得过低。已有的一些研巧表明,准确率和召回率评价上,一般只有30%-40%,这使得如何进一步提高关键词抽取的效果,成为十分有意义的研究议题。
早期的关键词提取算法使用词频、词性、词在文章中位置等属性来表示词汇,然后根据某个规则计算出每个词的得分,选择得分高的词作为关键词,效果并不理想。除了基于得分的关键词提取方法之外,还有一类是基于机器学习的关键词提取方法。相对于基于得分的方法而言,这些方法虽然利用了数据集中的信息,但是并没有改变词的表示方式。其中词的特征仍然是词的词性、词频等,这种表示方式忽略了词汇之间的语义联系,比如同义词、反义词等。因此不论是聚类还是分类过程中,词汇的特征并不能给出关于词汇语义充分信息,所以这些关键词提取算法的准确率并不理想。
综上,传统的关键词抽取方法存在关键词抽取的效果不佳、关键词抽取效率低的问题。
发明内容
本发明所要解决的技术问题是克服现有技术的不足而提供一种基于Word2Vec与词共现相结合的文本关键词抽取方法,本发明采用Word2Vec生成的词向量进行词间相似度计算而后聚类,再结合词共现等基本特征提取文本关键词,所提取的关键词更加准确,可以较好适应不同文本的关键词抽取。
本发明为解决上述技术问题采用以下技术方案:
根据本发明提出的一种基于Word2Vec与词共现相结合的文本关键词抽取方法,包括以下步骤:
步骤A、将文本分为若干子句,对子句进行分词,同时进行词性标注得到词汇集合;
步骤B、对词汇集合进行预处理,具体如下:
扫描每个子句中的词汇,对相连词汇进行扫描组合得到词汇组合;
根据停用词表,将虚词和以虚词为开头或结尾的词汇组合进行过滤,得到初步候选集D1
步骤C、将初步候选集D1输入到训练好的Word2Vec模型中,得到词向量表;计算词向量表中每个词向量与其余词向量的语义距离,采用该语义距离,对初步候选集D1进行kmeans聚类;
步骤D、聚类后得到多个类别,删除类别中词汇和词汇组合数少于设定值的类别,然后选取每个类别中靠近聚类中心的多个词汇和词汇组合作为关键词的二次候选集D2,利用二次候选集D2中每个词汇和词汇组合的词向量计算词汇和词汇组合在每个子句中的相似共现,根据存在相似共现的子句的数量占总子句数量之比得到二次候选集D2在初步候选集D1中的词共现率;
步骤E、对于二次候选集D2中的词汇和词汇组合,不同词汇和词汇组合长度赋予不同的权值,根据词共现率、词汇长度得到权重,根据权重排序,排名前m个权重所对应的词汇和词汇组合即为最终的关键词,权重的总个数为M,m为整数,0<(m÷M)<20%。
作为本发明所述的一种基于Word2Vec与词共现相结合的文本关键词抽取方法进一步优化方案,步骤A中,根据截断符号将文本分为若干子句;分词和词性标注采用的是ICTCLAS分词系统对子句进行处理得到词汇集合。
作为本发明所述的一种基于Word2Vec与词共现相结合的文本关键词抽取方法进一步优化方案,截断符号包括句号、问号、逗号和数字。
作为本发明所述的一种基于Word2Vec与词共现相结合的文本关键词抽取方法进一步优化方案,虚词包括副词、介词、连词、助词、叹词和拟声词,步骤B中最大的词汇组合的长度N是预设的。
作为本发明所述的一种基于Word2Vec与词共现相结合的文本关键词抽取方法进一步优化方案,步骤B中,词汇组合是指在一句话中,以一个词汇为基准,将该词汇前后相连的n个词汇进行组合,组合出所有的词汇组合,n小于等于N。
作为本发明所述的一种基于Word2Vec与词共现相结合的文本关键词抽取方法进一步优化方案,2<N<5。
作为本发明所述的一种基于Word2Vec与词共现相结合的文本关键词抽取方法进一步优化方案,所述步骤C中计算词向量表中每个词向量与其余词向量的语义距离,具体如下:采用欧式距离、余弦距离、线性平移距离以及TD-IDF线性平移距离这四种距离计算方法分别计算词向量表中每个词向量与其余词向量的距离,然后对这四种距离计算结果取算数平均得到算数平均语义距离,该算数平均语义距离即为语义距离。
作为本发明所述的一种基于Word2Vec与词共现相结合的文本关键词抽取方法进一步优化方案,步骤C中的Word2Vec模型是通过如下过程得到的:
训练Word2Vec模型,训练模型的语料来自于维基百科,对该语料进行分词,词性标注,词汇集合预处理,最终得到所需的Word2Vec模型。
作为本发明所述的一种基于Word2Vec与词共现相结合的文本关键词抽取方法进一步优化方案,利用二次候选集D2中每个词汇和词汇组合的词向量计算词汇和词汇组合在每个子句中的相似共现,根据存在相似共现的子句的数量占总子句数量之比得到二次候选集D2在初步候选集D1中的词共现率;具体如下:
以初步候选集D1中的每一子句为一个单位,利用二次候选集D2中每个词汇和词汇组合的词向量计算二次候选集D2中每个词汇和词汇组合与每个子句中词汇和词汇组合的语义距离,根据语义距离对二次候选集D2中每个词汇和词汇组合计算词汇和词汇组合与每个子句中的词汇和词汇组合在每个子句中的相似共现,根据存在相似共现的子句的数量占总子句数量之比得到二次候选集D2在初步候选集D1中的词共现率CoO。
作为本发明所述的一种基于Word2Vec与词共现相结合的文本关键词抽取方法进一步优化方案,所述词共现率是指词汇和汇组合与文本中其他词汇和词汇组合的相似共现所占文中所有语义环境的比例,语义环境是一句话或是一个段落。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:本发明将词汇特征投影在一个更抽象的空间中,并在该空间中进行关键词的初步筛选,再结合词汇和词汇组合在文本中词共现、词汇长度等基本特征作为二次关键词筛选,所提取的关键词效果佳、关键词抽取效率高,可以较好适应不同文本的关键词抽取。
附图说明
图1是一种基于Word2Vec与共现相结合的文本关键词抽取的整体流程图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
图1为本发明方法的整体流程图,参照图1,本实施例中所述基于Word2Vec与词共现相结合的文本关键词抽取方法,该方法包括以下步骤:详细流程如下:
步骤A):将文本分为若干子句,对子句进行分词,同时进行词性标注得到词汇集合;
步骤B):然后对词汇集合进行预处理,对相连词汇进行扫描得到词汇组合,根据停用词表,将语气词,助词和以这些词为开头的不合理的词汇和词汇组合等进行过滤,得到初步候选集D1
步骤C):将初步候选集词D1输入到训练好Word2Vec模型中,得到词向量表,采用四种不同的距离计算方法计算词向量表中每个词向量与其余词向量的距离,然后对这四种距离计算结果取算数平均得到算数平均语义距离,对处理好的候选集D1进行kmeans聚类;
步骤D):聚类后形成多个类别,选取每个类别中靠近聚类中心的多个词汇和词汇组合作为关键词的二次候选集D2,回到初步候选集D1当中,根据二次候选集D2中每个词汇和词汇组合的词向量计算词汇和词汇组合在每句话中的相似共现,得到二次候选集D2在初步候选集D1中的词共现率;
步骤E):对于二次候选集D2中的词汇和词汇组合,不同词汇和词汇组合的长度赋予不同的权值,根据词共现率、词汇长度得到相应的权重,根据权重排序,排名前m=5个权重所对应的词汇和词汇组合即为最终的关键词。
其中步骤A中,所述的分词和词性标注采用的是ICTCLAS分词系统对文本进行处理得到词汇集合。
在本实施例中,步骤B,具体按照下述步骤实现:
步骤B.1),根据特定的截断符号如句号,问号,逗号,数字把文本分为若干子句;
步骤B.2),扫描子句得到词汇组合,例如句子w0w1w2w3w4w5最大组合数为3,则词汇组合有10个,分别为w0w1w2,w1w2w3,w2w3w4,w3w4w5,w3w4w5,w0w1,w1w2,w2w3,w3w4,w4w5,其中wi表示分词系统得到的词汇;
步骤B.3),根据停用词表扫描词汇和词汇组合,将虚词和以虚词为开头或结尾的词汇和词汇组合进行过滤得到初步候选集D1,所述虚词包括副词、介词、连词、助词、叹词、拟声词等。
在本实施例中,步骤C,具体按照下述步骤实现:
步骤C.1),训练Word2Vec模型,训练模型的语料来自于维基百科,搜狗的中文新闻语料库,针对语料需进行分词,词性标注,词汇组合预处理工作,训练过程中采用skip-gram模型,训练窗口的大小为8,采样阈值设定为1e-4,设置最低频率为5,如果一个词汇和词汇组合在文本中出现的次数小于该阈值,那么该词汇和词汇组合就会被舍弃,最终得到目标领域的Word2Vec模型;
步骤C.2),将初步候选集D1代入Word2Vec模型,得到初步候选集D1的词向量表;
步骤C.3),分别采用欧式距离,余弦距离,线性平移距离以及TD-IDF线性平移距离这四种距离计算方法分别计算词向量表中每个词向量与其余词向量的距离,然后对以上四种距离计算结果取算数平均得到算数平均语义距离,然后对初步候选集D1进行kmeans聚类,从初步候选集D1中任意选择多个对象作为初始聚类中心,根据每个聚类对象的均值,计算每个对象与这些对象的距离,并根据最小距离重新对相应对象进行划分,重新计算每个有变化聚类的均值,计算标准测度函数,当满足一定条件时,如函数收敛时则算法终止,否则重新根据每个聚类对象的均值重新进行划分,得到多个类别。
在本实施例中,步骤D,具体按照下述步骤实现:
步骤D.1),聚类完成后,删除类中词汇和词汇组合少于10个的类别,这是为了避免少数与文章中心思想不相关的词汇和词汇组合聚成一类的情况;
步骤D.2),针对词汇和词汇组合大于10个的类,选取靠近聚类中心三个词汇和词汇组合组成二次候选集D2,二次候选集D2中有30个词汇和词汇组合;
步骤D.3),以初步候选集D1中的每一子句为一个单位,利用词向量计算二次候选集D2中每个词汇和词汇组合与每个子句中的词汇和词汇组合的语义距离,从全文来看,当有越多的子句中存在与该词汇和词汇组合的语义距离相近的词汇和词汇组合,则该词汇和词汇组合的相似共现程度越高,表示该词汇和词汇组合越加重要,计算出二次候选集D2中每个词汇和词汇组合在初步候选集D1中每个词汇和词汇组合的词共现率CoO,词共现率CoO是指候选关键词与其他候选关键词共现的数量所占文中所有语义环境的比例,语义环境语义环境可以是一句话,也可以是一个段落。本实施例中是一句话的共现。
其中:
Figure BDA0001358321240000061
Figure BDA0001358321240000062
CoO(ki,D1)表示文本D1中候选关键词ki的词共现率。Co(ki,kj)表示关键词ki和kj在同一句话中是否存在相似共现共现,Sentence(D1)表示文本D1中语义环境的数量,本实施例中为句子的数量。
在本实施例中,步骤E,具体按照下述步骤实现:
步骤E.1),对于二次候选集D2中的词汇和词汇组合,不同词汇长度赋予不同的权值Wl,长度越长赋予的权值越高,本实施例中
Figure BDA0001358321240000063
步骤E.2),根据词共现率CoO,权值Wl,计算最终的权值W=Wl×CoO,对权值进行排序,排名前6个权重所对应的词汇和词汇组合即为最终的关键词。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替代,都应当视为属于本发明的保护范围。

Claims (6)

1.一种基于Word2Vec与词共现相结合的文本关键词抽取方法,其特征在于,包括以下步骤:
步骤A、将文本分为若干子句,对子句进行分词,同时进行词性标注得到词汇集合;
步骤B、对词汇集合进行预处理,具体如下:
扫描每个子句中的词汇,对相连词汇进行扫描组合得到词汇组合;
根据停用词表,将虚词和以虚词为开头或结尾的词汇组合进行过滤,得到初步候选集D 1
步骤C、将初步候选集D 1输入到训练好的Word2Vec模型中,得到词向量表;计算词向量表中每个词向量与其余词向量的语义距离,采用该语义距离,对初步候选集D 1进行kmeans聚类;
步骤D、聚类后得到多个类别,删除类别中词汇和词汇组合数少于设定值的类别,然后选取每个类别中靠近聚类中心的多个词汇和词汇组合作为关键词的二次候选集D 2,利用二次候选集D 2中每个词汇和词汇组合的词向量计算词汇和词汇组合在每个子句中的相似共现,根据存在相似共现的子句的数量占总子句数量之比得到二次候选集D 2在初步候选集D 1中的词共现率;
利用二次候选集D 2中每个词汇和词汇组合的词向量计算词汇和词汇组合在每个子句中的相似共现,根据存在相似共现的子句的数量占总子句数量之比得到二次候选集D 2在初步候选集D 1中的词共现率,具体如下:
以初步候选集D 1中的每一子句为一个单位,利用二次候选集D 2中每个词汇和词汇组合的词向量计算二次候选集D 2中每个词汇和词汇组合与每个子句中词汇和词汇组合的语义距离,根据语义距离对二次候选集D 2中每个词汇和词汇组合计算词汇和词汇组合与每个子句中的词汇和词汇组合在每个子句中的相似共现,根据存在相似共现的子句的数量占总子句数量之比得到二次候选集D 2在初步候选集D 1中的词共现率CoO
步骤E、对于二次候选集D 2中的词汇和词汇组合,不同词汇和词汇组合长度赋予不同的权值,根据词共现率、词汇长度得到权重,根据权重排序,排名前m个权重所对应的词汇和词汇组合即为最终的关键词,权重的总个数为M,m为整数,0<(m÷M)<20%;
步骤B中,词汇组合是指在一句话中,以一个词汇为基准,将该词汇前后相连的n个词汇进行组合,组合出所有的词汇组合,n小于等于N;
所述步骤C中计算词向量表中每个词向量与其余词向量的语义距离,具体如下:采用欧式距离、余弦距离、线性平移距离以及TD-IDF线性平移距离这四种距离计算方法分别计算词向量表中每个词向量与其余词向量的距离,然后对这四种距离计算结果取算数平均得到算数平均语义距离,该算数平均语义距离即为语义距离;
所述词共现率是指词汇和汇组合与文本中其他词汇和词汇组合的相似共现所占文中所有语义环境的比例,语义环境是一句话或是一个段落。
2.根据权利要求1所述的一种基于Word2Vec与词共现相结合的文本关键词抽取方法,其特征在于,步骤A中,根据截断符号将文本分为若干子句;分词和词性标注采用的是ICTCLAS分词系统对子句进行处理得到词汇集合。
3.根据权利要求2所述的一种基于Word2Vec与词共现相结合的文本关键词抽取方法,其特征在于,截断符号包括句号、问号、逗号和数字。
4.根据权利要求1所述的一种基于Word2Vec与词共现相结合的文本关键词抽取方法,其特征在于,虚词包括副词、介词、连词、助词、叹词和拟声词,步骤B中最大的词汇组合的长度N是预设的。
5.根据权利要求4所述的一种基于Word2Vec与词共现相结合的文本关键词抽取方法,其特征在于,2<N<5。
6.根据权利要求1所述的一种基于Word2Vec与词共现相结合的文本关键词抽取方法,其特征在于,步骤C中的Word2Vec模型是通过如下过程得到的:
训练Word2Vec模型,训练模型的语料来自于维基百科,对该语料进行分词,词性标注,词汇集合预处理,最终得到所需的Word2Vec模型。
CN201710605900.2A 2017-07-24 2017-07-24 一种基于Word2Vec与词共现相结合的文本关键词抽取方法 Active CN107562717B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710605900.2A CN107562717B (zh) 2017-07-24 2017-07-24 一种基于Word2Vec与词共现相结合的文本关键词抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710605900.2A CN107562717B (zh) 2017-07-24 2017-07-24 一种基于Word2Vec与词共现相结合的文本关键词抽取方法

Publications (2)

Publication Number Publication Date
CN107562717A CN107562717A (zh) 2018-01-09
CN107562717B true CN107562717B (zh) 2021-08-03

Family

ID=60974158

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710605900.2A Active CN107562717B (zh) 2017-07-24 2017-07-24 一种基于Word2Vec与词共现相结合的文本关键词抽取方法

Country Status (1)

Country Link
CN (1) CN107562717B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108388597A (zh) * 2018-02-01 2018-08-10 深圳市鹰硕技术有限公司 会议摘要生成方法以及装置
CN108681564B (zh) * 2018-04-28 2021-06-29 北京京东尚科信息技术有限公司 关键词和答案的确定方法、装置和计算机可读存储介质
CN108804423B (zh) * 2018-05-30 2023-09-08 深圳平安医疗健康科技服务有限公司 医疗文本特征提取与自动匹配方法和系统
CN108875065B (zh) * 2018-07-02 2021-07-06 电子科技大学 一种基于内容的印尼新闻网页推荐方法
CN108959263B (zh) * 2018-07-11 2022-06-03 北京奇艺世纪科技有限公司 一种词条权重计算模型训练方法及装置
CN108959269B (zh) * 2018-07-27 2019-07-05 首都师范大学 一种语句自动排序方法及装置
CN110969018A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 案情描述要素提取方法、机器学习模型获得方法及装置
CN109408819B (zh) * 2018-10-16 2023-05-16 吉奥时空信息技术股份有限公司 一种基于自然语言处理技术的核心地名提取方法及装置
CN111859898B (zh) * 2019-04-16 2024-01-16 中森云链(成都)科技有限责任公司 一种基于隐藏关联网络的多领域文本隐式特征抽取方法及计算机存储介质
US11397859B2 (en) 2019-09-11 2022-07-26 International Business Machines Corporation Progressive collocation for real-time discourse
CN111078838B (zh) * 2019-12-13 2023-08-18 北京小米智能科技有限公司 关键词提取方法、关键词提取装置及电子设备
CN111859910B (zh) * 2020-07-15 2022-03-18 山西大学 一种用于语义角色识别的融合位置信息的词特征表示方法
CN112214511A (zh) * 2020-10-10 2021-01-12 南通大学 一种基于wtp-wcd算法的api推荐方法
CN112786024B (zh) * 2020-12-28 2022-05-24 华南理工大学 水处理领域无专业语音数据条件下的语音命令识别方法
CN113239668B (zh) * 2021-05-31 2023-06-23 平安科技(深圳)有限公司 关键词智能提取方法、装置、计算机设备及存储介质
CN113673223A (zh) * 2021-08-25 2021-11-19 北京智通云联科技有限公司 一种基于语义相似性的关键词抽取方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8131735B2 (en) * 2009-07-02 2012-03-06 Battelle Memorial Institute Rapid automatic keyword extraction for information retrieval and analysis
CN105302882A (zh) * 2015-10-14 2016-02-03 东软集团股份有限公司 获取关键词的方法及装置
CN105426361A (zh) * 2015-12-02 2016-03-23 上海智臻智能网络科技股份有限公司 关键词提取方法及装置
CN106021272A (zh) * 2016-04-04 2016-10-12 上海大学 基于分布式表达词向量计算的关键词自动提取方法
CN106776713A (zh) * 2016-11-03 2017-05-31 中山大学 一种基于词向量语义分析的海量短文本聚类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8131735B2 (en) * 2009-07-02 2012-03-06 Battelle Memorial Institute Rapid automatic keyword extraction for information retrieval and analysis
CN105302882A (zh) * 2015-10-14 2016-02-03 东软集团股份有限公司 获取关键词的方法及装置
CN105426361A (zh) * 2015-12-02 2016-03-23 上海智臻智能网络科技股份有限公司 关键词提取方法及装置
CN106021272A (zh) * 2016-04-04 2016-10-12 上海大学 基于分布式表达词向量计算的关键词自动提取方法
CN106776713A (zh) * 2016-11-03 2017-05-31 中山大学 一种基于词向量语义分析的海量短文本聚类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于词共现的关键词抽取算法研究;郭建波;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160615;论文第30页至第35页、附图3.1至3.3、表3.1 *
融合Word2vec与TextRank的关键词抽取研究;宁建飞等;《现代图书情报技术》;20160625;第21页左栏第6段 *

Also Published As

Publication number Publication date
CN107562717A (zh) 2018-01-09

Similar Documents

Publication Publication Date Title
CN107562717B (zh) 一种基于Word2Vec与词共现相结合的文本关键词抽取方法
CN111177365B (zh) 一种基于图模型的无监督自动文摘提取方法
CN109299480B (zh) 基于上下文语境的术语翻译方法及装置
US11379668B2 (en) Topic models with sentiment priors based on distributed representations
CN109960756B (zh) 新闻事件信息归纳方法
CN111125349A (zh) 基于词频和语义的图模型文本摘要生成方法
CN112989802B (zh) 一种弹幕关键词提取方法、装置、设备及介质
WO2021035921A1 (zh) 基于χ 2-C的文本相似度计算方法
CN108073571B (zh) 一种多语言文本质量评估方法及系统、智能文本处理系统
CN109255022B (zh) 一种用于网络文章的摘要自动提取方法
CN110674296B (zh) 一种基于关键词的资讯摘要提取方法及系统
CN114065758A (zh) 一种基于超图随机游走的文档关键词抽取方法
CN109766547B (zh) 一种句子相似度计算方法
CN109241277A (zh) 基于新闻关键词的文本向量加权的方法及系统
CN111694927A (zh) 一种基于改进词移距离算法的文档自动评阅方法
Zhang et al. Research on keyword extraction of Word2vec model in Chinese corpus
CN110399483A (zh) 一种主题分类方法、装置、电子设备及可读存储介质
CN111626042B (zh) 指代消解方法及装置
CN110321434A (zh) 一种基于词义消歧卷积神经网络的文本分类方法
CN114996444A (zh) 一种新闻自动摘要方法及系统
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN111259156A (zh) 一种面向时间序列的热点聚类方法
Cai et al. Indonesian automatic text summarization based on a new clustering method in sentence level
CN113111653B (zh) 一种基于Word2Vec和句法依存树的文本特征构造方法
CN108763229B (zh) 一种基于特征性句干提取的机器翻译方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant