CN108132930A

CN108132930A - 特征词提取方法及装置

Info

Publication number: CN108132930A
Application number: CN201711446082.2A
Authority: CN
Inventors: 郭庆; 张建磊; 宋怀明
Original assignee: Dawning Information Industry Beijing Co Ltd
Current assignee: Dawning Information Industry Beijing Co Ltd
Priority date: 2017-12-27
Filing date: 2017-12-27
Publication date: 2018-06-08

Abstract

本发明公开了一种特征词提取方法及装置，该特征词提取方法包括：利用TF‑IDF加权方法对文本的词语集合中的词语进行权重计算得到词语权重；根据文本中的同义词生成同义词集合，并根据词语权重对同义词集合中的同义词进行合并加权；根据合并加权后的权重值生成候选特征词集合以选取特征词。上述技术方案基于TF‑IDF方法，实现了一种优化的文本的特征词提取方法，并具有较好的分析效果。

Description

特征词提取方法及装置

技术领域

本发明涉及数据处理技术领域，具体来说，涉及一种特征词提取方法及装置。

背景技术

新闻特征词提取是从新闻稿件中提取能代表新闻主旨的词汇，特征词可以很好的概况新闻的主要内容和特征，降低文本处理的复杂度，并可被进一步用于新闻聚类等后续文本处理。最常用的技术之一是TF-IDF(Term Frequency-Inverse Document Frequency)，它是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。

TF-IDF的简单结构并不能有效地反映词汇或短语的重要程度和特征值的分布情况，所以TF-IDF的精度并不是很高，主要表现在：未考虑词语之间的关联关系。该方法以特征独立为理论基础，在计算词语权重时没有考虑词语之间的关联关系，不能将那些与其他词具有关联关系的词语区别对待，实际上这些词语更能代表文本内容，应该具有更高的权重。

发明内容

针对相关技术中存在的问题，本发明提出一种特征词提取方法及装置，能够在词语关联关系方面进行改进。

本发明的技术方案是这样实现的：

根据本发明的一个方面，提供了一种特征词提取方法，包括：

利用TF-IDF加权方法对文本的词语集合中的词语进行权重计算得到词语权重；

根据文本中的同义词生成同义词集合，并根据词语权重对同义词集合中的同义词进行合并加权；

根据合并加权后的权重值生成候选特征词集合以选取特征词。

根据本发明的实施例，在生成候选特征词集合之后，还包括：判断候选特征词是否在关联词词库中；若候选特征词在关联词词库中，则判断候选特征词的关联词中是否存在非候选特征词；若候选特征词的关联词中存在非候选特征词，则根据候选特征词和非候选特征词的关联度对权重值进行调整。

根据本发明的实施例，其中，若候选特征词不在关联词词库中，则不对权重值进行调整；若候选特征词的关联词中不存在非候选特征词，则不对权重值进行调整。

根据本发明的实施例，在对权重值进行调整之后还包括选取特征词，选取特征词具体包括：对调整后的权重值由高至低进行排序，并将调整后的权重值大于设定阈值的候选特征词作为文本的特征词。

根据本发明的实施例，根据合并加权后的权重值生成候选特征词集合，具体包括：将权重值大于设定阈值的词语作为候选特征词，并将候选特征词的集合作为特征候选词集合。

根据本发明的另一方面，提供了一种特征词提取装置，包括：权重计算模块，利用TF-IDF加权方法对文本的词语集合中的词语进行权重计算得到词语权重；合并模块，用于根据文本中的同义词生成同义词集合，并根据词语权重对同义词集合中的同义词进行合并加权；选取模块，用于根据合并加权后的权重值生成候选特征词集合以选取特征词。

在一个实施例中，特征词提取装置还可包括：判断模块，用于判断候选特征词是否在关联词词库中；若候选特征词在关联词词库中，则判断候选特征词的关联词中是否存在非候选特征词；权重调整模块，用于在候选特征词的关联词中存在非候选特征词时，根据候选特征词和非候选特征词的关联度对权重值进行调整。

在一个实施例中，其中，判断模块若判断候选特征词不在关联词词库中，则权重调整模块不对权重值进行调整；判断模块若判断候选特征词的关联词中不存在非候选特征词，则权重调整模块不对权重值进行调整。

在一个实施例中，特征词提取装置还可包括：特征词确定模块，用于对调整后的权重值由高至低进行排序，并将调整后的权重值大于设定阈值的候选特征词作为文本的特征词。

在一个实施例中，选取模块包括：选取子模块，用于将权重值大于设定阈值的词语作为候选特征词，并将候选特征词的集合作为特征候选词集合。

本发明的上述技术方案，基于TF-IDF方法，设计并实现了一种优化的文本的特征词提取方法，具有较好的分析效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的新闻稿件特征词提取的主流程；

图2是根据本发明实施例的特征词提取方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

新闻稿件特征词提取方法的主流程如图1所示，是基于第三方词库和分词工具以及特征词提取算法，来实现对新闻稿件特征词的提取。

其中新闻稿件特征词提取目的是提取出能较好代表新闻稿件内容的特征项。目前文本特征词提取的方法主要可以该概括为基于语义分析的方法和基于统计的方法，其中基于统计的方法中应用较广的是基于TF-IDF(Term Frequency-Inverse DocumentFrequency)的方法。

TF-IDF方法将TF和IDF结合起来，以一篇文本中某词语出现的频率和文本集合中包含词语的文本数量作为评价指标来衡量该词语对文本内容的代表程度。其中TF是指词语在某篇文本中出现的频率，频率越大，则表示该词语对这篇文本的表示贡献越大，表示对文本中某一次与局部重要性的度量。IDF为倒排序文本频率，表示某一词语在整个文本集中的分布情况，文本集合中含有该词语的文本数量越少，则该词语越能区分文本的不同类别，IDF能够通过提高文本集中少见词语的重要性来增加文本分类的区分度。

TF-IDF方法利用基于词频的TF-IDF方法的特征词提取存在一定的不足，在一定程度上影响文本特征词提取的精度，在本发明提供的特征词提取方法主要在词语关联关系方面进行了改进。

如图2所示，根据本发明的实施例提供了一种特征词提取方法200，大体上包括以下步骤：

步骤S210，利用TF-IDF加权方法对文本的词语集合中的词语进行权重计算得到词语权重。这里的文本可以是新闻稿件，也可以是其他需要进行特征词提取的文档，以下示例性的以文本为新闻稿件来进行说明。

步骤S220，根据新闻稿件中的同义词生成同义词集合，并根据词语权重对同义词集合中的同义词进行合并加权。

步骤S230，根据合并加权后的权重值生成候选特征词集合以选取特征词。

本发明的上述技术方案，基于TF-IDF方法，设计并实现了一种优化的文本的特征词提取方法200，具有较好的分析效果。

具体的，继续结合图2所示。可在步骤S205处对新闻稿件进行预处理来得到新闻稿件的词语集合。步骤S205具体包括：调用第三方分词工具，对新闻稿件进行分词；结合未登录词词库、弃用词词库对分词结果进行去噪处理；得到新闻稿件的词语集合。

在步骤S210处计算词语权重，利用TF-IDF方法对处理后的词语集合中的词语进行权重计算，并按照权重值从高到低进行排序。

在步骤S220处进行同义词合并，具体包括：根据同义词词库的数据，将新闻稿件中出现的同义词作为一个集合，在TF-IDF方法计算的词语权重的基础上对同义词及其相关词进行权重调整，通过相似度对同义词集合中的同义词进行了合并加权。

在步骤S230处进行候选特征词提取，可具体包括：将权重值大于设定阈值的词语作为候选特征词，并将所有候选特征词的集合作为特征候选词集合。

在图2所示的实施例中，本发明的特征词提取方法200还包括进行候选特征词权重调整的步骤S240。

具体的在步骤S240处，判断候选特征词是否在关联词词库中；若候选特征词在关联词词库中，则判断候选特征词的关联词中是否存在非候选特征词；若候选特征词的关联词中存在非候选特征词，则根据候选特征词和非候选特征词的关联度对权重值进行调整。

另外在步骤S240中，若候选特征词不在关联词词库中，则不对权重值进行调整；若候选特征词的关联词中不存在非候选特征词，则不对权重值进行调整。

在本实施例中，在步骤S240之后还可包括选取特征词(或可称为特征词确定)的步骤S250，在步骤S250处，对调整后的权重值由高至低进行排序，并将调整后的权重值大于设定阈值的候选特征词作为新闻稿件的特征词。

综上所述，本发明的特征词提取方法弥补了传统TF-IDF方法的不足，综合考虑了词语权重的计算和调整模式，对新闻稿件的特征词提取具有较好的效果。可广泛应用与新闻稿件的内容处理，并为后续文本相似度与文本聚类提供良好的理论基础。

根据本发明的实施例，还提供了一种特征词提取装置，包括：权重计算模块，利用TF-IDF加权方法对文本的词语集合中的词语进行权重计算得到词语权重；合并模块，用于根据文本中的同义词生成同义词集合，并根据词语权重对同义词集合中的同义词进行合并加权；选取模块，用于根据合并加权后的权重值生成候选特征词集合以选取特征词。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种特征词提取方法，其特征在于，包括：

根据文本中的同义词生成同义词集合，并根据所述词语权重对所述同义词集合中的同义词进行合并加权；

2.根据权利要求1所述的特征词提取方法，其特征在于，在生成候选特征词集合之后，还包括：

判断候选特征词是否在关联词词库中；

若所述候选特征词在所述关联词词库中，则判断所述候选特征词的关联词中是否存在非候选特征词；

若所述候选特征词的关联词中存在非候选特征词，则根据所述候选特征词和所述非候选特征词的关联度对所述权重值进行调整。

3.根据权利要求2所述的特征词提取方法，其特征在于，其中，

若所述候选特征词不在所述关联词词库中，则不对所述权重值进行调整；

若所述候选特征词的关联词中不存在非候选特征词，则不对所述权重值进行调整。

4.根据权利要求2所述的特征词提取方法，其特征在于，在对所述权重值进行调整之后还包括选取特征词，选取特征词具体包括：

对调整后的权重值由高至低进行排序，并将调整后的所述权重值大于设定阈值的候选特征词作为文本的所述特征词。

5.根据权利要求1所述的特征词提取方法，其特征在于，根据合并加权后的权重值生成候选特征词集合，具体包括：

将所述权重值大于设定阈值的词语作为候选特征词，并将所述候选特征词的集合作为特征候选词集合。

6.一种特征词提取装置，其特征在于，包括：

权重计算模块，利用TF-IDF加权方法对文本的词语集合中的词语进行权重计算得到词语权重；

合并模块，用于根据文本中的同义词生成同义词集合，并根据所述词语权重对所述同义词集合中的同义词进行合并加权；

选取模块，用于根据合并加权后的权重值生成候选特征词集合以选取特征词。

7.根据权利要求6所述的特征词提取装置，其特征在于，还包括：

判断模块，用于判断候选特征词是否在关联词词库中；若所述候选特征词在所述关联词词库中，则判断所述候选特征词的关联词中是否存在非候选特征词；

权重调整模块，用于在所述候选特征词的关联词中存在非候选特征词时，根据所述候选特征词和所述非候选特征词的关联度对所述权重值进行调整。

8.根据权利要求7所述的特征词提取装置，其特征在于，其中，

所述判断模块若判断所述候选特征词不在所述关联词词库中，则所述权重调整模块不对所述权重值进行调整；

所述判断模块若判断所述候选特征词的关联词中不存在非候选特征词，则所述权重调整模块不对所述权重值进行调整。

9.根据权利要求7所述的特征词提取装置，其特征在于，还包括：

特征词确定模块，用于对调整后的权重值由高至低进行排序，并将调整后的所述权重值大于设定阈值的候选特征词作为文本的特征词。

10.根据权利要求6所述的特征词提取装置，其特征在于，所述选取模块包括：

选取子模块，用于将所述权重值大于设定阈值的词语作为候选特征词，并将所述候选特征词的集合作为特征候选词集合。