CN108038099A

CN108038099A - 基于词聚类的低频关键词识别方法

Info

Publication number: CN108038099A
Application number: CN201711228193.6A
Authority: CN
Inventors: 陈艳平; 刘莎; 黄瑞章
Original assignee: Guizhou University
Current assignee: Guizhou University
Priority date: 2017-11-29
Filing date: 2017-11-29
Publication date: 2018-05-15
Anticipated expiration: 2037-11-29
Also published as: CN108038099B

Abstract

本发明公开了一种基于词聚类的低频关键词识别方法。本发明提出了3个创新点：(1)提出一种区别于传统方法的低频关键词词识别方法，该方法利用关键词的语义结构信息进行识别，能有效缓解低频关键词识别中上下文特征稀疏的问题。(2)提出一种基于词聚类的关键词语义结构生成方法，该方法利用词聚类后的词类标签替换候选关键词，然后选择出现次数多的标签模式作为语义结构。(3)针对相同语义结构下的低频关键词，提出一种面向低频关键词的排序方法，该方法利用文档信息对低频词进行排序。因此，本发明以网页自设置的关键词进行匹配，不需要训练数据，也不需要进行样本学习，脱离了网站结构的限制，具有较好的通用性。

Description

基于词聚类的低频关键词识别方法

技术领域

本发明涉及计算机应用技术领域，尤其是一种自然语言处理、数据挖掘方法。

背景技术

目前关键词的识别技术主要有三种方法。第一种方法基于词之间的互信息，利用单词在文本中出现的相对概率来进行识别。经常共现的词具有较高的内聚性，因为使用上的习惯，容易形成关键词。第二种方法通过抽取候选关键词周围的特征，利用机器学习的方法来进行判断。第三种方法利用语法解析工具，通过关键词在句子中担任的语法角色来进行识别。前两种方法需要候选关键词有较高的出现频率，从而提供更多的文本上下文信息，增加识别的性能。第三种方式可以识别一些出现频率较低的关键词，但其性能受制于现有句法解析工具的性能，实用性差。在这一领域，低频关键词相关领域的研究和应用中往往被忽略。其难点主要有三个方面。首先，低频关键词的各个部分之间的内聚性弱，无法计算它们之间的互信息。其次，由于低频关键词之间的组合从概率的角度评价具有随机性，难以采用标注的方式来使用机器学习的方法。最后，低频关键词也存在表示方面的问题，由于出现次数少，缺少上下文信息，难以通过现有表示方法(如：Word2Vector)来对其进行表示。所以，目前仍没有相关方面的研究和应用。

目前，为了解决以上技术问题，产生了许多相应的方法。专利《一种关键词抽取方法》公开了一种关键词抽取方法，该方法包括：对文本进行预处理；基于预处理后的文本，统计词频和词对的共现信息；将词频大于或等于门限值的词作为候选关键词；根据词对的共现信息，计算各候选关键词对文本的重要性；根据计算结果，对候选关键词进行排序，将前N个候选关键词作为文本的关键词，其中，N大于等于1。该方法能够实现独立于任何领域，不受文本篇幅长短影响的关键词抽取。专利《关键词的抽取方法及装置》中提出了一种关键词的抽取方法及装置。该方法包括：获取待处理文本，其中，待处理文本包括多个待处理语句；对待处理文本执行候选关键词抽取，得到候选关键词；分别获取候选关键词在多个待处理语句中的位置信息；以及根据候选关键词在多个待处理语句中的位置信息，对多个待处理语句执行目标关键词抽取，得到目标关键词。该专利解决了现有技术中关键词抽取方法的抽取结果存在不一致的技术问题。而《基于Word2Vec和Query log抽取关键词方法》中公开了一种基于Word2Vec和Query log抽取关键词方法。该方法可针对特定领域文本迅速高效地提取出质量较为理想的关键词，避免引入口语化词汇且提取出的关键词质量高。此外，《一种基于图的关键词抽取方法》中提出了一种基于图的关键词抽取方法，该方法包括以下步骤：对文本信息进行预处理，预处理包括分词处理、词性标注处理和命名实体识别处理；计算节点特征，以及计算词汇的统计关系和词汇的语义关系；根据节点特征计算节点权重，以及根据词汇的统计关系和词汇的语义关系计算边权重；根据节点权重和边权重计算候选词的分值；根据候选词的分值排序结果以及文本大小信息确定该文本的关键词。它提出的一种基于图的关键词抽取方法，不需要标注语料，而且可以通过对TextRank算法基于候选词特征增加节点权重、基于词汇语义关系改进边权重，可以以较低成本提高关键词抽取的准确率。还有，专利《在文本中抽取关键词的装置和方法》公开了一种在文本中抽取关键词的装置和方法。所述方法包括：对文本进行预处理，包括根据标点符号将原始文本切分为段的集合；统计预处理后的文本的词语频率和基于段的词对的共现次数；根据统计结果，选择词语频率大于或等于2的词语构成候选关键词的集合；结合词对的共现次数和词对间规范化点互信息来对候选关键词进行评分；根据评分结果从高到低对候选关键词进行排序，返回排序在前的预定数量的候选关键词作为文本的关键词。专利《基于主题模型的文档关键词抽取方法及其系统》公开了一种基于主题模型的文档关键词抽取方法及其系统，其中文档关键词抽取方法包括下列步骤：文档信息预处理、文档结构图构建、文档主题分布提取、单词权重提取、关键词生成；其中文档关键词抽取系统包括下列模块：文档信息预处理模块、文档结构图构建模块、文档主题分布提取模块、单词权重提取模块、关键词生成模块。本发明可以使得提取出来的关键词更加合理、与文档的主题更加密切；具有解决了目前关键词提取领域的部分不足之处，使文档总结达到更好的效果，方便用户迅速了解文档的概要。专利《一种基于关键词匹配的正文抽取方法》公开了一种基于关键词匹配的正文抽取方法，通过统计网页源代码Keywords标签中的关键词并以该关键词建立标准库，再构建相应的DOM树；层次遍历DOM树，统计DOM树中所有节点包含关键词的数量，以节点与其父节点所含关键词数量的比率关系来计算节点的关键词权重，并通过对节点子女最大关键词权重的判断，有效甄别并定位包含正文文本的正文节点，完成正文抽取；针对关键词匹配方法不能有效抽取的短文本问题，提出相似度匹配方法，其将段落文本和页面标题转换成8位二进制数据，通过海明距离判断相似性实现短文本的正文抽取。

以上公开的均是关于关键词的抽取方法，它们往往考虑的是文档、图等关键词的抽取方法，而忽略了低频关键词也可以进行关键词的识别。本专利特别突出的点主要有两个，一是用到词聚类的方法将单个的词映射到一个带语义的向量空间。在该空间中，语义上相近的词其欧拉距离也很接近，利用欧拉距离进行单词的聚类；二是提出了一种与传统方法不同的低频关键词也可以用来识别关键词的想法，打破了常规思路，在技术上得到了重大突破。

发明内容

本发明的目的是提供了一种基于词聚类的低频关键词识别方法，它不需要训练数据，也不需要进行样本学习，脱离了网站结构的限制，具有较好的通用性，以克服现有技术的不足。

本发明是这样实现的：基于词聚类的低频关键词识别方法，包括如下步骤：

1)利用词聚类后的语义标签生成关键词的语义结构；

2)对语义结构进行排序后，选择感兴趣的语义结构作为要抽取关键词的模板，从而匹配出候选的低频关键词；

3)根据低频关键词同文档中主题的关联性，对同一语义结构中的关键词进行排序，识别出有效的低频关键词。

所述的步骤1)的具体方案是，词聚类后，每个词类用一个标签表示，代表该类词在语义空间中的语义；然后，利用标签替换候选关键词中的单词，生成关键词的语义结构。

所述步骤2)中对语义结构进行排序是，利用每个语义结构中所包含的关键词的个数对语义结构进行排序。

所述步骤3)中对关键词进行排序的具体方案是，根据低频关键词同文档主题的相关性，采用低频关键词中的各个单词在文档集中的上下文信息对低频关键词进行排序。

传统的关键词识别方法可简单分成三步：候选词生成，候选词过滤和候选词评分。在传统方法中，经过候选词生成和候选词过滤后只保留出现频率高的词进行评分和排序。在本专利提出的方法中，利用候选词生成和候选词过滤，我们保留出现频率很低的候选关键词。本专利公开的方法主要涉及第三步的候选词评分。首先利用句子结构信息去捕获低频关键词的潜在结构，然后采用无监督方法去对低频关键词进行评分和排序。其思路为：基于大规模、无标注的文本数据(如新闻语料、法院判决书等)，利用自然语言处理中的词聚类的方法(Word2Vector方法)将单个的词映射到一个带语义的向量空间。在该空间中，语义上相近的词其欧拉距离也很接近。然后，利用欧拉距离进行单词的聚类，属于同一词类的词，语义上也相近。通过对该空间中的词类进行模式的识别，可以得到关键词的语义结构，从而支撑低频关键词的识别。

有益效果

与现有技术相比，本发明提出了3个创新点：(1)提出一种区别于传统方法的低频关键词词识别方法，该方法利用关键词的语义结构信息进行识别，能有效缓解低频关键词识别中上下文特征稀疏的问题。(2)提出一种基于词聚类的关键词语义结构生成方法，该方法利用词聚类后的词类标签替换候选关键词，然后选择出现次数多的标签模式作为语义结构。(3)针对相同语义结构下的低频关键词，提出一种面向低频关键词的排序方法，该方法利用文档信息对低频词进行排序。因此，本发明以网页自设置的关键词进行匹配，不需要训练数据，也不需要进行样本学习，脱离了网站结构的限制，具有较好的通用性。

附图说明

附图1为本发明的实施例的低频关键词识别架构图。

具体实施方式

本发明的实施例：基于词聚类的低频关键词识别方法，包括三个步骤：词义结构生成、词义结构排序和关键词排序。这三步是识别低频关键词的核心。具体如下所述：

1.词义结构生成

词义结构生成基于自然语言处理中的词聚类或分类的方法。常用的有以下三种：①利用外部知识库(如WorldNet、HowNet和Cyc等)直接获得词的语义类别。该方法的缺点是知识库的构建困难且难以更新。②利用机器学习中的分类器识别单词的词类。该方法需要标注一定数量的数据集，对分类器进行训练。当单词的类别比较多时，该方法难以适用。③采用无监督聚类的方法。该方法利用大规模无标注的数据集进行训练，利用单词出现的上下文信息将单词自动聚为不同的类别。相对来说，聚类的方法性能较弱，但是训练数据容易获取，词类别数量的选择也比较灵活。

本实施例基于自然语言处理中的词聚类方法，将单个的词映射到一个带语义的向量空间。在该空间中，语义上相近的词其欧拉距离也很接近。然后，利用欧拉距离进行单词的聚类，属于同一词类的词，语义上也相近。每个词类用一个标签表示，代表该类词在语义空间中的语义。然后，利用标签替换候选关键词中的所有单词，生成关键词的语义结构。

2.词义结构排序

在文档中，相对于低频关键词，其词义结构具有较高的出现频率，可以用来判断一个语义机构是否有效。通过词义结构生成，可以得到关键词的语义结构，表示关键词的使用模式。如果词聚类的个数为K，允许的语义结构长度为n，则可能参数的语义结构的数量为Kⁿ个。为了减少噪音，需要对其进行排序。

低频关键词的出现次数非常少，上下文信息稀疏。每个低频关键词所对应的词义结构包含很多关键词。语义结构的排序可以使用多种排序方法。本实施例采用每个语义结构所对应的关键词的数量作为评价的指标。

3.关键词排序

因为低频关键词的上下文信息稀疏，难以利用其上下文信息对单个词义结构下的不同低频关键词进行排序。本专利采用低频关键词中的各个单词在文档集中的上下文信息对低频关键词进行排序。比如“香醋板栗”为低频关键词，出现频率低，上下文信息稀疏。但是单词“香醋”和“板栗”在文档中的出现频率却比较高。利用这些单词在整个文档集中的上下文信息，可以根据其同文档主题的相关性进行排序。具体步骤如下：

1)利用无监督文档聚类的方法，比如Latent Dirichlet Allocation(LDA)或K-nearest，对文档集进行聚类。

2)文档聚类的结果是K个主题相关的文档簇，K的值由人工设定。同一文档簇中的文档通常具有相似的文档主题。通过人工方式选择感兴趣的主题，作为低频关键词排序的参考。

3)为了对低频关键词进行排序，首先生成该关键词对应的向量V_i，该向量由下面的公式给出：

其中P_i表示当前排序的关键词，W_i表示构成该关键词中的单词，V_Wi表示单词W_i在文档集中的上下文信息(该词多次出现的周围的词特征)所构成的向量。则，对V_i的评分可以由下面公式给出：

其中V_t为文档聚类后人工选择的文档簇所生产的词频向量，表示感兴趣的主题。V_b表示用全部文档集中的词频生成背景向量。分别计算每个关键词对向量V_i的评分，即可得到低频关键词的排序。

Claims

1.一种基于词聚类的低频关键词识别方法，其特征在于：包括如下步骤：

1)利用词聚类后的语义标签生成关键词的语义结构；

2.根据权利要求1所述的基于词聚类的低频关键词识别方法，其特征在于：所述的步骤1)的具体方案是，词聚类后，每个词类用一个标签表示，代表该类词在语义空间中的语义；然后，利用标签替换候选关键词中的单词，生成关键词的语义结构。

3.根据权利要求1所述的基于词聚类的低频关键词识别方法，其特征在于：所述步骤2)中对语义结构进行排序是，利用每个语义结构中所包含的关键词的个数对语义结构进行排序。

4.根据权利要求1所述的基于词聚类的低频关键词识别方法，其特征在于：所述步骤3)中对关键词进行排序的具体方案是，根据低频关键词同文档主题的相关性，采用低频关键词中的各个单词在文档集中的上下文信息对低频关键词进行排序。