CN106599269A - 关键词提取方法及装置 - Google Patents
关键词提取方法及装置 Download PDFInfo
- Publication number
- CN106599269A CN106599269A CN201611201643.8A CN201611201643A CN106599269A CN 106599269 A CN106599269 A CN 106599269A CN 201611201643 A CN201611201643 A CN 201611201643A CN 106599269 A CN106599269 A CN 106599269A
- Authority
- CN
- China
- Prior art keywords
- word
- clustering
- cluster
- clusters
- weighted value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种关键词提取方法及装置,涉及文本处理技术领域,主要目的在于解决关键词提取冗余度较高的问题,本发明的主要技术方案为:获取目标文档中各个词语分别对应的词向量;根据预置聚类算法对向量化的词语进行聚类得到聚簇,所述聚簇中词语的语义相同或相近;计算所述聚簇中各个词语的权重值;将各个聚簇内权重值最高的词语确定为所述目标文档的关键词。本发明主要用于从目标文档中提取关键词。
Description
技术领域
本发明涉及文本处理技术领域,特别是涉及一种关键词提取方法及装置。
背景技术
关键词提取是从给定的文本中提取出能反映文本主旨信息的词或短语,关键词提取在自动摘要、文本挖掘、信息检索中发挥着重要作用,尤其是实现自动标注的关键方法。
目前,主要基于统计的关键词提取方法获取目标文档中的关键词,如通过平均频率*比例文档频率(Average Term Frequency*Proportional Document Frequency,ATF*PDF)方法从目标文档提取关键词,即根据词语在整个文档中的平均词频ATF,及词语的比例文档频率PDF提取关键词。
但是,若目标文档中存在多个词频较高的同义词,如在一篇主题中表达一种语义的“职工”、“人员”、“个人”出现的频率均较高,将会造成关键词语义信息的冗余,因此现有关键词提取的冗余度较高。
发明内容
有鉴于此,本发明提供一种关键词提取方法及装置,主要目的在于解决关键词提取冗余度较高的问题。
依据本发明一个方面,提供了一种关键词提取方法,包括:
获取目标文档中各个词语分别对应的词向量;
根据预置聚类算法对向量化的词语进行聚类得到聚簇,所述聚簇中词语的语义相同或相近;
计算所述聚簇中各个词语的权重值;
将各个聚簇内权重值最高的词语确定为所述目标文档的关键词。
具体的,所述根据预置聚类算法对向量化的词语进行聚类得到聚簇包括:
基于密度的方法对向量化的词语进行初始聚类中心的选择;
以所述初始聚类中心为初始中心点,基于距离的聚类算法K-means对向量化的词语进行聚类得到聚簇。
具体的,所述计算所述聚簇中各个词语的权重值包括:
根据所述聚簇内各个词语距所述初始中心点的距离,和/或所述目标文档中词语的基于统计的关键词提取方法ATF*PDF值,确定聚簇中各个词语的权重值。
具体的,所述根据所述聚簇内各个词语距所述初始中心点的距离和所述目标文档中词语的ATF*PDF值,确定聚簇中各个词语的权重值包括:
设置所述词语距所述初始中心点的距离对应的权重系数、所述词语的ATF*PDF值对应的权重系数;
将所述词语距所述初始中心点的距离及其权重系数的乘积与所述词语的ATF*PDF值及其权重系数的乘积相加,确定聚簇中各个词语的权重值。
具体的,所述将各个聚簇内权重值最高的词语确定为所述目标文档的关键词包括:
根据聚簇内包含的词语个数和/或聚簇中心的语义偏移量计算各个聚簇的重要性;所述聚簇中心的语义偏移量为迭代终止时聚簇的中心点与聚簇的初始中心点的差值的绝对值;
依据所述重要性对聚簇进行排序;
从重要性排名符合预置条件的聚簇中提取权重值最高的词语;
将所述提取的词语作为所述目标文档的关键词。
具体的,所述根据聚簇内包含的词语个数和聚簇中心的语义偏移量计算各个聚簇的重要性包括:
设置所述聚簇内包含的词语个数对应的权重系数、所述聚簇中心的语义偏移量对应的权重系数;
将所述聚簇内包含的词语个数及其权重系数的乘积与所述聚簇中心的语义偏移量及其权重系数的乘积相加,确定各个聚簇的重要性。
依据本发明另一个方面,提供了一种关键词提取装置,包括:
获取单元,用于获取目标文档中各个词语分别对应的词向量;
聚类单元,用于根据预置聚类算法对向量化的词语进行聚类得到聚簇,所述聚簇中词语的语义相同或相近;
计算单元,用于计算所述聚簇中各个词语的权重值;
确定单元,用于将各个聚簇内权重值最高的词语确定为所述目标文档的关键词。
具体的,所述聚类单元包括:
选择模块,用于基于密度的方法对向量化的词语进行初始聚类中心的选择;
聚类模块,用于以所述初始聚类中心为初始中心点,基于距离的聚类算法K-means对向量化的词语进行聚类得到聚簇。
所述计算单元,具体用于根据所述聚簇内各个词语距所述初始中心点的距离,和/或所述目标文档中词语的基于统计的关键词提取方法ATF*PDF值,确定聚簇中各个词语的权重值。
具体的,所述计算单元包括:
设置模块,用于设置所述词语距所述初始中心点的距离对应的权重系数、所述词语的ATF*PDF值对应的权重系数;
计算模块,用于将所述词语距所述初始中心点的距离及其权重系数的乘积与所述词语的ATF*PDF值及其权重系数的乘积相加,确定聚簇中各个词语的权重值。
具体的,所述确定单元包括:
计算模块,用于根据聚簇内包含的词语个数和/或聚簇中心的语义偏移量计算各个聚簇的重要性;所述聚簇中心的语义偏移量为迭代终止时聚簇的中心点与聚簇的初始中心点的差值的绝对值;
排序模块,用于依据所述重要性对聚簇进行排序;
提取模块,用于从重要性排名符合预置条件的聚簇中提取权重值最高的词语;
确定模块,用于将所述提取的词语作为所述目标文档的关键词。
具体的,所述计算模块包括:
设置子模块,用于设置所述聚簇内包含的词语个数对应的权重系数、所述聚簇中心的语义偏移量对应的权重系数;
确定子模块,用于将所述聚簇内包含的词语个数及其权重系数的乘积与所述聚簇中心的语义偏移量及其权重系数的乘积相加,确定各个聚簇的重要性。
本发明提供的一种关键词提取方法及装置,与目前基于统计的关键词提取方法获取目标文档中的关键词相比,本发明根据聚类算法对向量化的词语进行聚类得到聚簇,由于得到的聚簇中词语的语义相同或相近,因此将各个聚簇内重要程度最高的词语确定为目标文档的关键词,可解决提取的关键词语义信息冗余的问题。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种关键词提取方法流程图;
图2示出了本发明实施例提供的另一种关键词提取方法流程图;
图3示出了本发明实施例提供的一种关键词提取装置结构框图;
图4示出了本发明实施例提供的另一种关键词提取装置结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种关键词提取方法,如图1所示,该方法包括:
101、获取目标文档中各个词语分别对应的词向量。
其中,获取目标文档中各个词语分别对应的词向量具体过程为:首先对目标文档进行分词,然后过滤分词结果中的无意义的词、停用词,接着通过词向量模型(word2vec)获取过滤结果中各个词语分别对应的词向量。需要说明的是,由于通过词向量模型得到的词向量可以表达词语的语义信息,语义相似的两个词语,其对应的词向量也很相似,其中,向量的相似度值具体可以采用向量的余弦公式或向量的欧几里得距离公式计算得到,本发明实施例不做具体限定。
102、根据预置聚类算法对向量化的词语进行聚类得到聚簇。
其中,所述聚簇中词语的语义相同或相近,所述预置聚类算法具体可以为基于密度的聚类算法,基于距离的聚类算法,基于划分聚类算法,基于层次聚类算法,基于网格的聚类算法,基于神经网络的聚类算法,基于统计学的聚类算法等,本发明实施例不做具体限定。
在本发明实施例中,通过词向量模型对向量化的词语进行聚类得到多个聚簇,每个聚簇代表具有一类语义的词语集合,即通过向量化的词语进行聚类得到多个代表不同语义的聚簇,再在每个聚簇中选择具有代表性的词语,这样就避免了提取关键词的冗余性,使关键词提取内容更加丰富。
103、计算所述聚簇中各个词语的权重值。
其中,词语的权重值用于表示词语在聚簇中的重要程度,本发明实施例可通过词语在目标文档中出现的频率计算聚簇中各个词语的权重值,可以通过词语在聚簇中出现的频率计算聚簇中各个词语的权重值,还可以通过平均频率*比例文档频率(Average TermFrequency*Proportional Document Frequency,ATF*PDF)计算计算聚簇中各个词语的权重值,本发明实施例不做具体限定。
104、将各个聚簇内权重值最高的词语确定为所述目标文档的关键词。
需要说明的是,由于每个聚簇代表一类语义的词语聚合,聚簇内权重值最高的词语能够准确的代表该聚簇的语义,因此本发明实施例将各个聚簇内权重值最高的词语确定为目标文档的关键词,可使提取的关键词内容更加丰富,避免了提取关键词的冗余性。
本发明实施例提供以一种关键词提取方法,与目前基于统计的关键词提取方法获取目标文档中的关键词相比,本发明根据聚类算法对向量化的词语进行聚类得到聚簇,由于得到的聚簇中词语的语义相同或相近,因此将各个聚簇内重要程度最高的词语确定为目标文档的关键词,可解决提取的关键词语义信息冗余的问题。
本发明实施例提供了另一种关键词提取方法,如图2所示,该方法包括:
201、获取目标文档中各个词语分别对应的词向量。
其中,关于步骤201获取目标文档中各个词语分别对应的词向量的详细描述,可参考图1中对应步骤的描述,本发明实施例在此不再赘述。
202、基于密度的方法对向量化的词语进行初始聚类中心的选择。
需要说明的是,由于基于密度方法选取的初始聚类中心,可避免随机选择到噪声数据点,提高聚类效果,因此本发明实施例通过基于密度方式得到初始聚类中心,以在后续步骤中通过该初始聚类中心对向量化的词语进行聚类得到聚簇。
基于密度的初始聚类中心选择原理是,假设类簇的中心由一些局部密度比较低的点围绕,并且这些点距离其他高局部密度的点的距离都比较大。定义两个变量,局部密度ρi以及到高局部密度点的距离σi,具体计算公式如下所示:
其中,ρi表示词语i的密度,ρi等于所有与词语i距离小于dc的词语个数,dij表示词语i到词语j之间距离,dc表示阈值半径,当dij小于dc时,X(x)值为1,否则为0。σi表示比词语i密度大的词语中,与词语i距离最近的词语j之间的距离值。需要说明的是,阈值半径dc可以通过人工设定,或者选取使得各点的紧邻点的数量为总数点的1%-2%时的dc值,本发明实施例不做具体限定。
203、以所述初始聚类中心为初始中心点,基于距离的聚类算法K-means对向量化的词语进行聚类得到聚簇。
在本发明实施例中,对向量化的词语聚类的目的就是将语义相近的词语聚类一堆,由向量化的词语得到几个聚簇,就说明该向量化词语对应的目标文档中就表达了几个语义。对于本发明实施例,通过向量化的词语进行聚类得到聚簇,然后从得到的聚簇中提取关键词,使得提取的关键词能最大化包含目标文档中的所有语义,提高了关键词的提取精度。
在本发明实施例中,以得到的初始聚类中心为初始中心点,基于距离的聚类算法对向量化的词语进行聚类得到聚簇,通过上述基于密度方式解决了使用K-means算法的初始聚类中心点选择困难问题,提高了向量化词语的聚簇效果。
204、根据所述聚簇内各个词语距所述初始中心点的距离,和/或所述目标文档中词语的基于统计的关键词提取方法ATF*PDF值,确定聚簇中各个词语的权重值。
对于本发明实施例,可单独通过聚簇内各个词语距所述初始中心点的距离确定聚簇中各个词语的权重值,通过目标文档中词语的基于统计的关键词提取方法(AverageTerm Frequency*Proportional Document Frequency,ATF*PDF)确定聚簇中各个词语的权重值,还可通过组合聚簇内各个词语距所述初始中心点的距离和目标文档中词语ATF*PDF值确定聚簇中各个词语的权重值,本发明实施例不做具体限定。
具体的,通过聚簇内各个词语距所述初始中心点的距离确定聚簇中各个词语的权重值,可通过下述公式求得:
DisFCen(w,ci)=|Vector(w)-Centerinitial(ci)|
其中,Vector(w)表示词语w的词向量,Centerinitial(ci)表示聚簇ci的初始中心点,该公式表示词语w与聚簇ci中心向量之间的距离,词语w距离聚簇ci中心向量越近,它在聚簇ci中的重要度越高。在本发明实施例中,具体可以采用向量的余弦计算方式或向量的欧几里得距离公式,计算词语w与聚簇ci中心向量之间的距离。
具体的,通过目标文档中词语的ATF*PDF值,确定聚簇中各个词语的权重值,可通过下述公式求得:
其中,N表示文档中句子的个数,ni表示文档中包含词i的句子数,n为第j个句子的词表大小,即句子中包含的不重复词语的个数,这里需要先将句子中的停用词去掉后,在统计不重复词语的个数。tfji为词语i在句子j中的词频。ATF*PDF公式由两部分组成,一部分是词语在整个文档中的平均词频ATF,另一部分是词语的比例文档频率PDF即eni/N。在多文档提取关键词任务时是基于关键词在各文档中的词频,而在单文档中提取关键词时是基于关键词在文档句子中的词频。在单文档提取关键词任务中,文档中每个句子的大小不同,句子越长词语在句子中出现的次数就可能越多,为了降低句子大小对词频的影响,对词语在每个句子中的词频进行归一化,然后取词语在文档句子集中词频的平均值作为词语在文档中的词频。同时词语存在的句子数不同,对文档主题的反映度也不同,词语的句子频率越大,就越可能反映文档的主题,PDF给在较多句子中出现的词语以更大的权重,为词语句子频率的指数级。
对于本发明实施例,所述根据所述聚簇内各个词语距所述初始中心点的距离和所述目标文档中词语的ATF*PDF值,确定聚簇中各个词语的权重值包括:设置所述词语距所述初始中心点的距离对应的权重系数、所述词语的ATF*PDF值对应的权重系数;将所述词语距所述初始中心点的距离及其权重系数的乘积与所述词语的ATF*PDF值及其权重系数的乘积相加,确定聚簇中各个词语的权重值。其中,词语的ATF*PDF值对应的权重系数为为0<β<1,β值一般通过做实验得到,即选择使结果达到最好时的参数值作为β的最终值,词语距所述初始中心点的距离对应的权重系数为1-β。
具体的,本发明实施例通过下述公式计算聚簇中各个词语的权重值:
ScoreInCluster(w,ci)=β*ATF*PDF(wi)+(1-β)*DisFCen(w,ci)
其中,ATF*PDF(wi)为目标文档中词语的ATF*PDF值,DisFCen(w,ci)为聚簇内各个词语距所述初始中心点的距离,1-β为词语距所述初始中心点的距离对应的权重系数,β为词语的ATF*PDF值对应的权重系数。
205、根据聚簇内包含的词语个数和/或聚簇中心的语义偏移量计算各个聚簇的重要性。
其中,所述聚簇中心的语义偏移量为迭代终止时聚簇的中心点与聚簇的初始中心点的差值的绝对值,具体可通过下述公式求得:
CluSemanticOffSet(ci)=|Centerfinal(ci)-Centerinitial(ci)|
上述公式中,CluSemanticOffSet(ci)表示聚簇中心的语义偏移量,Centerfinal(ci)表示迭代终止时的聚簇ci的中心点,Centerinitial(ci)表示聚簇ci的初始中心点。
对于本发明实施例,所述根据聚簇内包含的词语个数和聚簇中心的语义偏移量计算各个聚簇的重要性包括:设置所述聚簇内包含的词语个数对应的权重系数、所述聚簇中心的语义偏移量对应的权重系数;将所述聚簇内包含的词语个数及其权重系数的乘积与所述聚簇中心的语义偏移量及其权重系数的乘积相加,确定各个聚簇的重要性。其中,聚簇中心的语义偏移量对应的权重系数为0<α<1,α值一般通过做实验得到,即选择使结果达到最好时的参数值作为α的最终值,聚簇内包含的词语个数对应的权重系数为1-α。
ClusterScore(ci)=α*SemanticOffSet(ci)+(1-α)*ClusterNum(ci)
上述公式中,SemanticOffSet(ci)为聚簇中心的语义偏移量,ClusterNum(ci)为聚簇ci所包含词语的数量。α为聚簇中心的语义偏移量对应的权重系数,1-α为聚簇内包含的词语个数对应的权重系数。
206、依据所述重要性对聚簇进行排序。
207、从重要性排名符合预置条件的聚簇中提取权重值最高的词语。
对于本发明实施例,依据重要性对聚簇进行排序,然后根据排序依次从每个聚簇中选取出来最重要的词语最为关键词,这样得到的关键词是有序的,当需要限制提取出来关键词个数的时候,就会优先选择重要性较高的聚簇,如从重要性前五名的聚簇中提取权重值最高的词语,即选择5个词语作为目标文档的关键词。
208、将所述提取的词语作为所述目标文档的关键词。
本发明实施例提供另一种关键词提取方法,通过根据聚簇内各个词语距所述初始中心点的距离和目标文档中词语的基于统计的关键词提取方法ATF*PDF值,确定聚簇中各个词语的权重值,解决了K-means算法的初始聚类中心点选择困难等问题,提高了向量化词语的聚簇效果。并且本发明实施例在根据向量化的词语进行聚类得到聚簇后,依据重要性对聚簇进行排序,然后根据排序依次从每个聚簇中选取出来最重要的词语最为关键词,这样得到的关键词是有序的,当需要限制提取出来关键词个数的时候,就会优先选择重要性较高的聚簇。
进一步的,作为对上述图1所示方法的实现,本发明实施例提供了一种关键词提取装置,如图3所示,该装置包括:获取单元31,聚类单元32,计算单元33,确定单元34。其中,
获取单元31,用于获取目标文档中各个词语分别对应的词向量;
其中,获取目标文档中各个词语分别对应的词向量具体过程为:首先对目标文档进行分词,然后过滤分词结果中的无意义的词、停用词,接着通过词向量模型(word2vec)获取过滤结果中各个词语分别对应的词向量。需要说明的是,由于通过词向量模型得到的词向量可以表达词语的语义信息,语义相似的两个词语,其对应的词向量也很相似,其中,向量的相似度值具体可以采用向量的余弦公式或向量的欧几里得距离公式计算得到,本发明实施例不做具体限定。
聚类单元32,用于根据预置聚类算法对向量化的词语进行聚类得到聚簇,所述聚簇中词语的语义相同或相近;
其中,所述聚簇中词语的语义相同或相近,所述预置聚类算法具体可以为基于密度的聚类算法,基于距离的聚类算法,基于划分聚类算法,基于层次聚类算法,基于网格的聚类算法,基于神经网络的聚类算法,基于统计学的聚类算法等,本发明实施例不做具体限定。
在本发明实施例中,通过词向量模型对向量化的词语进行聚类得到多个聚簇,每个聚簇代表具有一类语义的词语集合,即通过向量化的词语进行聚类得到多个代表不同语义的聚簇,再在每个聚簇中选择具有代表性的词语,这样就避免了提取关键词的冗余性,使关键词提取内容更加丰富。
计算单元33,用于计算所述聚簇中各个词语的权重值;
其中,词语的权重值用于表示词语在聚簇中的重要程度,本发明实施例可通过词语在目标文档中出现的频率计算聚簇中各个词语的权重值,可以通过词语在聚簇中出现的频率计算聚簇中各个词语的权重值,还可以通过平均频率*比例文档频率(Average TermFrequency*Proportional Document Frequency,ATF*PDF)计算计算聚簇中各个词语的权重值,本发明实施例不做具体限定。
确定单元34,用于将各个聚簇内权重值最高的词语确定为所述目标文档的关键词。需要说明的是,由于每个聚簇代表一类语义的词语聚合,聚簇内权重值最高的词语能够准确的代表该聚簇的语义,因此本发明实施例将各个聚簇内权重值最高的词语确定为目标文档的关键词,可使提取的关键词内容更加丰富,避免了提取关键词的冗余性。
需要说明的是,本发明实施例提供的一种关键词提取装置所涉及各功能单元的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。
本发明实施例提供一种关键词提取装置,与目前基于统计的关键词提取方法获取目标文档中的关键词相比,本发明根据聚类算法对向量化的词语进行聚类得到聚簇,由于得到的聚簇中词语的语义相同或相近,因此将各个聚簇内重要程度最高的词语确定为目标文档的关键词,可解决提取的关键词语义信息冗余的问题。
进一步地,本发明实施例提供另一种关键词提取装置,如图4所示,所述装置包括:获取单元41,聚类单元42,计算单元43,确定单元44。其中,
获取单元41,用于获取目标文档中各个词语分别对应的词向量;
聚类单元42,用于根据预置聚类算法对向量化的词语进行聚类得到聚簇,所述聚簇中词语的语义相同或相近;
计算单元43,用于计算所述聚簇中各个词语的权重值;
确定单元44,用于将各个聚簇内权重值最高的词语确定为所述目标文档的关键词。
具体的,所述聚类单元42包括:
选择模块421,用于基于密度方法对向量化的词语进行初始聚类中心的选择;
需要说明的是,由于基于密度方法选取的初始聚类中心,可避免随机选择到噪声数据点,提高聚类效果,因此本发明实施例通过基于密度方法对向量化的词语进行初始聚类中心的选择,以在后续步骤中通过该初始聚类中心对向量化的词语进行聚类得到聚簇。
聚类模块422,用于以所述初始聚类中心为初始中心点,基于距离的聚类算法K-means对向量化的词语进行聚类得到聚簇。
在本发明实施例中,对向量化的词语聚类的目的就是将语义相近的词语聚类一堆,由向量化的词语得到几个聚簇,就说明该向量化词语对应的目标文档中就表达了几个语义。对于本发明实施例,通过向量化的词语进行聚类得到聚簇,然后从得到的聚簇中提取关键词,使得提取的关键词能最大化包含目标文档中的所有语义,提高了关键词的提取精度。
所述计算单元43,具体用于根据所述聚簇内各个词语距所述初始中心点的距离,和/或所述目标文档中词语的基于统计的关键词提取方法ATF*PDF值,确定聚簇中各个词语的权重值。
对于本发明实施例,可单独通过聚簇内各个词语距所述初始中心点的距离确定聚簇中各个词语的权重值,通过目标文档中词语的基于统计的关键词提取方法(AverageTerm Frequency*Proportional Document Frequency,ATF*PDF)确定聚簇中各个词语的权重值,还可通过组合聚簇内各个词语距所述初始中心点的距离和目标文档中词语ATF*PDF值确定聚簇中各个词语的权重值,本发明实施例不做具体限定。
具体的,通过聚簇内各个词语距所述初始中心点的距离确定聚簇中各个词语的权重值,可通过下述公式求得:
DisFCen(w,ci)=|Vector(w)-Centerinitial(ci)|
其中,Vector(w)表示词语w的词向量,Centerinitial(ci)表示聚簇ci的初始中心点,该公式表示词语w与聚簇ci中心向量之间的距离,词语w距离聚簇ci中心向量越近,它在聚簇ci中的重要度越高。在本发明实施例中,具体可以采用向量的余弦计算方式或向量的欧几里得距离公式,计算词语w与聚簇ci中心向量之间的距离。
所述计算单元43包括:
设置模块431,用于设置所述词语距所述初始中心点的距离对应的权重系数、所述词语的ATF*PDF值对应的权重系数;
计算模块432,用于将所述词语距所述初始中心点的距离及其权重系数的乘积与所述词语的ATF*PDF值及其权重系数的乘积相加,确定聚簇中各个词语的权重值。其中,词语的ATF*PDF值对应的权重系数为为0<β<1,β值一般通过做实验得到,即选择使结果达到最好时的参数值作为β的最终值,词语距所述初始中心点的距离对应的权重系数为1-β。
具体的,本发明实施例通过下述公式计算聚簇中各个词语的权重值:
ScoreInCluster(w,ci)=β*ATF*PDF(wi)+(1-β)*DisFCen(w,ci)
其中,ATF*PDF(wi)为目标文档中词语的ATF*PDF值,DisFCen(w,ci)为聚簇内各个词语距所述初始中心点的距离,1-β为词语距所述初始中心点的距离对应的权重系数,β为词语的ATF*PDF值对应的权重系数。
所述确定单元44包括:
计算模块441,用于根据聚簇内包含的词语个数和/或聚簇中心的语义偏移量计算各个聚簇的重要性;所述聚簇中心的语义偏移量为迭代终止时聚簇的中心点与聚簇的初始中心点的差值的绝对值;具体可通过下述公式求得:
CluSemanticOffSet(ci)=|Centerfinal(ci)-Centerinitial(ci)|
上述公式中,CluSemanticOffSet(ci)表示聚簇中心的语义偏移量,Centerfinal(ci)表示迭代终止时的聚簇ci的中心点,Centerinitial(ci)表示聚簇ci的初始中心点。
排序模块442,用于依据所述重要性对聚簇进行排序;
提取模块443,用于从重要性排名符合预置条件的聚簇中提取权重值最高的词语;
对于本发明实施例,依据重要性对聚簇进行排序,然后根据排序依次从每个聚簇中选取出来最重要的词语最为关键词,这样得到的关键词是有序的,当需要限制提取出来关键词个数的时候,就会优先选择重要性较高的聚簇,如从重要性前五名的聚簇中提取权重值最高的词语,即选择5个词语作为目标文档的关键词。
确定模块444,用于将所述提取的词语作为所述目标文档的关键词。
所述计算模块441包括:
设置子模块,用于设置所述聚簇内包含的词语个数对应的权重系数、所述聚簇中心的语义偏移量对应的权重系数;
确定子模块,用于将所述聚簇内包含的词语个数及其权重系数的乘积与所述聚簇中心的语义偏移量及其权重系数的乘积相加,确定各个聚簇的重要性。其中,聚簇中心的语义偏移量对应的权重系数为0<α<1,α值一般通过做实验得到,即选择使结果达到最好时的参数值作为α的最终值,聚簇内包含的词语个数对应的权重系数为1-α。
ClusterScore(ci)=α*SemanticOffSet(ci)+(1-α)*ClusterNum(ci)
上述公式中,SemanticOffSet(ci)为聚簇中心的语义偏移量,ClusterNum(ci)为聚簇ci所包含词语的数量。α为聚簇中心的语义偏移量对应的权重系数,1-α为聚簇内包含的词语个数对应的权重系数。
需要说明的是,本发明实施例提供的另一种关键词提取装置所涉及各功能单元的其他相应描述,可以参考图2所示方法的对应描述,在此不再赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。
本发明实施例提供另一种关键词提取装置,通过根据聚簇内各个词语距所述初始中心点的距离和目标文档中词语的基于统计的关键词提取方法ATF*PDF值,确定聚簇中各个词语的权重值,解决了K-means算法的初始聚类中心点选择困难等问题,提高了向量化词语的聚簇效果。并且本发明实施例在根据向量化的词语进行聚类得到聚簇后,依据重要性对聚簇进行排序,然后根据排序依次从每个聚簇中选取出来最重要的词语最为关键词,这样得到的关键词是有序的,当需要限制提取出来关键词个数的时候,就会优先选择重要性较高的聚簇。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的关键词提取方法及装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (10)
1.一种关键词提取方法,其特征在于,包括:
获取目标文档中各个词语分别对应的词向量;
根据预置聚类算法对向量化的词语进行聚类得到聚簇,所述聚簇中词语的语义相同或相近;
计算所述聚簇中各个词语的权重值;
将各个聚簇内权重值最高的词语确定为所述目标文档的关键词。
2.根据权利要求1所述的方法,其特征在于,所述根据预置聚类算法对向量化的词语进行聚类得到聚簇包括:
基于密度的方法对向量化的词语进行初始聚类中心的选择;
以所述初始聚类中心为初始中心点,基于距离的聚类算法K-means对向量化的词语进行聚类得到聚簇。
3.根据权利要求2所述的方法,其特征在于,所述计算所述聚簇中各个词语的权重值包括:
根据所述聚簇内各个词语距所述初始中心点的距离,和/或所述目标文档中词语的基于统计的关键词提取方法ATF*PDF值,确定聚簇中各个词语的权重值。
4.根据权利要求3所述的方法,其特征在于,所述根据所述聚簇内各个词语距所述初始中心点的距离和所述目标文档中词语的ATF*PDF值,确定聚簇中各个词语的权重值包括:
设置所述词语距所述初始中心点的距离对应的权重系数、所述词语的ATF*PDF值对应的权重系数;
将所述词语距所述初始中心点的距离及其权重系数的乘积与所述词语的ATF*PDF值及其权重系数的乘积相加,确定聚簇中各个词语的权重值。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述将各个聚簇内权重值最高的词语确定为所述目标文档的关键词包括:
根据聚簇内包含的词语个数和/或聚簇中心的语义偏移量计算各个聚簇的重要性;所述聚簇中心的语义偏移量为迭代终止时聚簇的中心点与聚簇的初始中心点的差值的绝对值;
依据所述重要性对聚簇进行排序;
从重要性排名符合预置条件的聚簇中提取权重值最高的词语;
将所述提取的词语作为所述目标文档的关键词。
6.根据权利要求5所述方法,其特征在于,所述根据聚簇内包含的词语个数和聚簇中心的语义偏移量计算各个聚簇的重要性包括:
设置所述聚簇内包含的词语个数对应的权重系数、所述聚簇中心的语义偏移量对应的权重系数;
将所述聚簇内包含的词语个数及其权重系数的乘积与所述聚簇中心的语义偏移量及其权重系数的乘积相加,确定各个聚簇的重要性。
7.一种关键词提取装置,其特征在于,包括:
获取单元,用于获取目标文档中各个词语分别对应的词向量;
聚类单元,用于根据预置聚类算法对向量化的词语进行聚类得到聚簇,所述聚簇中词语的语义相同或相近;
计算单元,用于计算所述聚簇中各个词语的权重值;
确定单元,用于将各个聚簇内权重值最高的词语确定为所述目标文档的关键词。
8.根据权利要求7所述的装置,其特征在于,所述聚类单元包括:
选择模块,用于基于密度的方法对向量化的词语进行初始聚类中心的选择;
聚类模块,用于以所述初始聚类中心为初始中心点,基于距离的聚类算法K-means对向量化的词语进行聚类得到聚簇。
9.根据权利要求8所述的装置,其特征在于,所述计算单元,具体用于根据所述聚簇内各个词语距所述初始中心点的距离,和/或所述目标文档中词语的基于统计的关键词提取方法ATF*PDF值,确定聚簇中各个词语的权重值。
10.根据权利要求9所述的装置,其特征在于,所述计算单元包括:
设置模块,用于设置所述词语距所述初始中心点的距离对应的权重系数、所述词语的ATF*PDF值对应的权重系数;
计算模块,用于将所述词语距所述初始中心点的距离及其权重系数的乘积与所述词语的ATF*PDF值及其权重系数的乘积相加,确定聚簇中各个词语的权重值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611201643.8A CN106599269B (zh) | 2016-12-22 | 2016-12-22 | 关键词提取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611201643.8A CN106599269B (zh) | 2016-12-22 | 2016-12-22 | 关键词提取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106599269A true CN106599269A (zh) | 2017-04-26 |
CN106599269B CN106599269B (zh) | 2019-12-03 |
Family
ID=58603049
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611201643.8A Active CN106599269B (zh) | 2016-12-22 | 2016-12-22 | 关键词提取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106599269B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107343043A (zh) * | 2017-07-04 | 2017-11-10 | 冯贵良 | 一种医疗服务信息精准发布的方法和发布服务器 |
CN107861948A (zh) * | 2017-11-16 | 2018-03-30 | 百度在线网络技术(北京)有限公司 | 一种标签提取方法、装置、设备和介质 |
CN108280173A (zh) * | 2018-01-22 | 2018-07-13 | 深圳市和讯华谷信息技术有限公司 | 一种非结构化文本的关键信息挖掘方法、介质及设备 |
CN108388597A (zh) * | 2018-02-01 | 2018-08-10 | 深圳市鹰硕技术有限公司 | 会议摘要生成方法以及装置 |
CN110032724A (zh) * | 2018-12-19 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 用于识别用户意图的方法及装置 |
CN110442855A (zh) * | 2019-04-10 | 2019-11-12 | 北京捷通华声科技股份有限公司 | 一种语音分析方法和系统 |
CN111078884A (zh) * | 2019-12-13 | 2020-04-28 | 北京小米智能科技有限公司 | 一种关键词提取方法、装置及介质 |
CN111078838A (zh) * | 2019-12-13 | 2020-04-28 | 北京小米智能科技有限公司 | 关键词提取方法、关键词提取装置及电子设备 |
CN111325523A (zh) * | 2020-02-29 | 2020-06-23 | 重庆百事得大牛机器人有限公司 | 一种法律援助资格认定管理系统及方法 |
CN111858908A (zh) * | 2020-03-03 | 2020-10-30 | 北京市计算中心 | 一种摘报文本生成方法、装置、服务器及可读存储介质 |
CN112052396A (zh) * | 2020-09-28 | 2020-12-08 | 中国平安人寿保险股份有限公司 | 课程匹配方法、系统、计算机设备和存储介质 |
CN113127636A (zh) * | 2019-12-31 | 2021-07-16 | 北京国双科技有限公司 | 一种文本聚类类簇中心点选取方法及装置 |
CN113283502A (zh) * | 2021-05-24 | 2021-08-20 | 平安国际融资租赁有限公司 | 基于聚类的设备状态阈值确定方法和装置 |
CN116523320A (zh) * | 2023-07-04 | 2023-08-01 | 山东省标准化研究院(Wto/Tbt山东咨询工作站) | 基于互联网大数据的知识产权风险智能分析方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298576A (zh) * | 2010-06-25 | 2011-12-28 | 株式会社理光 | 文档关键词生成方法和装置 |
CN105243129A (zh) * | 2015-09-30 | 2016-01-13 | 清华大学深圳研究生院 | 商品属性特征词聚类方法 |
CN105302882A (zh) * | 2015-10-14 | 2016-02-03 | 东软集团股份有限公司 | 获取关键词的方法及装置 |
-
2016
- 2016-12-22 CN CN201611201643.8A patent/CN106599269B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298576A (zh) * | 2010-06-25 | 2011-12-28 | 株式会社理光 | 文档关键词生成方法和装置 |
CN105243129A (zh) * | 2015-09-30 | 2016-01-13 | 清华大学深圳研究生院 | 商品属性特征词聚类方法 |
CN105302882A (zh) * | 2015-10-14 | 2016-02-03 | 东软集团股份有限公司 | 获取关键词的方法及装置 |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107343043A (zh) * | 2017-07-04 | 2017-11-10 | 冯贵良 | 一种医疗服务信息精准发布的方法和发布服务器 |
CN107861948A (zh) * | 2017-11-16 | 2018-03-30 | 百度在线网络技术(北京)有限公司 | 一种标签提取方法、装置、设备和介质 |
CN108280173B (zh) * | 2018-01-22 | 2021-05-11 | 深圳市和讯华谷信息技术有限公司 | 一种非结构化文本的关键信息挖掘方法、介质及设备 |
CN108280173A (zh) * | 2018-01-22 | 2018-07-13 | 深圳市和讯华谷信息技术有限公司 | 一种非结构化文本的关键信息挖掘方法、介质及设备 |
CN108388597A (zh) * | 2018-02-01 | 2018-08-10 | 深圳市鹰硕技术有限公司 | 会议摘要生成方法以及装置 |
WO2019148585A1 (zh) * | 2018-02-01 | 2019-08-08 | 深圳市鹰硕技术有限公司 | 会议摘要生成方法以及装置 |
CN110032724B (zh) * | 2018-12-19 | 2022-11-25 | 阿里巴巴集团控股有限公司 | 用于识别用户意图的方法及装置 |
CN110032724A (zh) * | 2018-12-19 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 用于识别用户意图的方法及装置 |
CN110442855A (zh) * | 2019-04-10 | 2019-11-12 | 北京捷通华声科技股份有限公司 | 一种语音分析方法和系统 |
CN110442855B (zh) * | 2019-04-10 | 2023-11-07 | 北京捷通华声科技股份有限公司 | 一种语音分析方法和系统 |
CN111078884B (zh) * | 2019-12-13 | 2023-08-15 | 北京小米智能科技有限公司 | 一种关键词提取方法、装置及介质 |
CN111078838A (zh) * | 2019-12-13 | 2020-04-28 | 北京小米智能科技有限公司 | 关键词提取方法、关键词提取装置及电子设备 |
CN111078884A (zh) * | 2019-12-13 | 2020-04-28 | 北京小米智能科技有限公司 | 一种关键词提取方法、装置及介质 |
CN111078838B (zh) * | 2019-12-13 | 2023-08-18 | 北京小米智能科技有限公司 | 关键词提取方法、关键词提取装置及电子设备 |
CN113127636B (zh) * | 2019-12-31 | 2024-02-13 | 北京国双科技有限公司 | 一种文本聚类类簇中心点选取方法及装置 |
CN113127636A (zh) * | 2019-12-31 | 2021-07-16 | 北京国双科技有限公司 | 一种文本聚类类簇中心点选取方法及装置 |
CN111325523A (zh) * | 2020-02-29 | 2020-06-23 | 重庆百事得大牛机器人有限公司 | 一种法律援助资格认定管理系统及方法 |
CN111858908A (zh) * | 2020-03-03 | 2020-10-30 | 北京市计算中心 | 一种摘报文本生成方法、装置、服务器及可读存储介质 |
CN112052396A (zh) * | 2020-09-28 | 2020-12-08 | 中国平安人寿保险股份有限公司 | 课程匹配方法、系统、计算机设备和存储介质 |
CN113283502A (zh) * | 2021-05-24 | 2021-08-20 | 平安国际融资租赁有限公司 | 基于聚类的设备状态阈值确定方法和装置 |
CN116523320A (zh) * | 2023-07-04 | 2023-08-01 | 山东省标准化研究院(Wto/Tbt山东咨询工作站) | 基于互联网大数据的知识产权风险智能分析方法 |
CN116523320B (zh) * | 2023-07-04 | 2023-09-12 | 山东省标准化研究院(Wto/Tbt山东咨询工作站) | 基于互联网大数据的知识产权风险智能分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106599269B (zh) | 2019-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106599269A (zh) | 关键词提取方法及装置 | |
CN106547734B (zh) | 一种问句信息处理方法及装置 | |
CN103778205B (zh) | 一种基于互信息的商品分类方法和系统 | |
US20160170966A1 (en) | Methods and systems for automated language identification | |
CN108052500B (zh) | 一种基于语义分析的文本关键信息提取方法及装置 | |
CN109739978A (zh) | 一种文本聚类方法、文本聚类装置及终端设备 | |
CN105224682B (zh) | 新词发现方法及装置 | |
CN108664512B (zh) | 文本对象分类方法及装置 | |
CN109492213B (zh) | 句子相似度计算方法和装置 | |
CN109325146B (zh) | 一种视频推荐方法、装置、存储介质和服务器 | |
Handani et al. | Sentiment analysis for go-jek on google play store | |
CN110032650B (zh) | 一种训练样本数据的生成方法、装置及电子设备 | |
CN110750640A (zh) | 基于神经网络模型的文本数据分类方法、装置及存储介质 | |
CN105653701B (zh) | 模型生成方法及装置、词语赋权方法及装置 | |
CN110688452B (zh) | 一种文本语义相似度评估方法、系统、介质和设备 | |
CN104933044B (zh) | 应用卸载原因的分类方法及分类装置 | |
CN106598949B (zh) | 一种词语对文本贡献度的确定方法及装置 | |
CN109684476A (zh) | 一种文本分类方法、文本分类装置及终端设备 | |
CN111046282B (zh) | 文本标签设置方法、装置、介质以及电子设备 | |
CN108182182A (zh) | 翻译数据库中文档匹配方法、装置及计算机可读存储介质 | |
CN108875065A (zh) | 一种基于内容的印尼新闻网页推荐方法 | |
Al Mostakim et al. | Bangla content categorization using text based supervised learning methods | |
CN104408036B (zh) | 关联话题的识别方法和装置 | |
CN109471953A (zh) | 一种语音数据检索方法及终端设备 | |
CN106503273A (zh) | 一种iOS设备数据分析系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |