CN110377724A

CN110377724A - 一种基于数据挖掘的语料库关键词自动抽取算法

Info

Publication number: CN110377724A
Application number: CN201910583074.5A
Authority: CN
Inventors: 刘家祥
Original assignee: Central Mdt Infotech Ltd Of United States Of Xiamen
Current assignee: Central Mdt Infotech Ltd Of United States Of Xiamen
Priority date: 2019-07-01
Filing date: 2019-07-01
Publication date: 2019-10-25

Abstract

一种基于数据挖掘的语料库关键词自动抽取算法，包括以下步骤：获取待处理文本；对获取的文本进行分词处理；对分词集合中的词语进行词性标注和词义标注；对分词集合进行去词处理；统计词频和词对的共现信息；设置词频阈值，并判断词汇集合中词语的词频是否大于词频阈值；生成候选关键词集合；获取各候选关键词在文本中的位置信息；计算各候选关键词在文本中的权重值；设置权重值阈值，并判断各候选关键词的计算结果是否大于权重值阈值；生成关键词集合。本发明优化了语料库关键词抽取算法，操作简便，能够自动从语料库中抽取关键词，省时省力，显著提高了关键词抽取的准确性。

Description

一种基于数据挖掘的语料库关键词自动抽取算法

技术领域

本发明涉及语料库关键词抽取技术领域，尤其涉及一种基于数据挖掘的语料库关键词自动抽取算法。

背景技术

现有的语料库关键词抽取算法较为复杂，难以快速的从其中抽取所需数据，不能自动从语料库中抽取关键词，抽取过程耗费的时间长，抽取效率低，抽取关键词的准确性也有待提高。

发明内容

(一)发明目的

为解决背景技术中存在的技术问题，本发明提出一种基于数据挖掘的语料库关键词自动抽取算法，优化了语料库关键词抽取算法，操作简便，能够自动从语料库中抽取关键词，省时省力，显著提高了关键词抽取的准确性。

(二)技术方案

为解决上述问题，本发明提出了一种基于数据挖掘的语料库关键词自动抽取算法，包括以下步骤：

S1、获取待处理文本；

S2、对获取的文本进行分词处理，获得分词集合；

S3、对分词集合中的词语进行词性标注和词义标注；

S4、对分词集合进行去词处理，获得词汇集合；

S5、基于词汇集合，统计词频和词对的共现信息；

S6、设置词频阈值，并判断词汇集合中词语的词频是否大于词频阈值；若词汇的词频小于或等于词频阈值，则剔除该词汇；

S7、对符合条件的词汇进行归纳整理，并生成候选关键词集合；

S8、获取各候选关键词在文本中的位置信息；

S9、根据词频、词对共现信息以及候选关键词所处位置信息，计算各候选关键词在文本中的权重值；

S10、设置权重值阈值，并判断各候选关键词的计算结果是否大于权重值阈值；若词汇的权重值小于或等于权重值阈值，则剔除该词汇；

S11、对符合条件的词汇进行归纳整理，并生成关键词集合。

优选的，S2的具体步骤如下：

将获取的文本分割成多个切分段落；

将每个切分段落分割成多个句子；

对每个句子分词并得到词的序列。

优选的，在S2中，通过jieba工具实现分词处理。

优选的，在S4中，通过stopwords工具实现去词处理。

优选的，在S4中，所要去除的词语包括停用词、语气词、HTML/XML标记、数字、时间和噪音词。

优选的，在S5中，统计词对的共现信息具体步骤如下：

对于每一个词对，根据构成词对的两个词在同一切分段落中的距离，计算该词对在切分段落中的共现次数，将该词对在所有切分段落中的共现次数累加，得到该词对在文本中的共现次数。

优选的，在S8中，其具体步骤如下：

分别获取候选关键词在各语句中的位置信息；

分别获取多个语句在文本中的位置信息；

基于候选关键词在各语句的位置信息和语句在文本中的位置信息，分别确定候选关键词在文本中的位置信息。

优选的，在S9中，计算各候选关键词在文本中的权重值的方法如下：

根据卡方检验公式计算各候选关键词对文本内容的语义相关程度，得到各候选关键词对文本的权重值。

本发明的上述技术方案具有如下有益的技术效果：

首先获取待处理文本；然后对获取的文本进行分词处理，获得分词集合；之后对分词集合中的词语进行词性标注和词义标注；然后对分词集合进行去词处理，获得词汇集合；之后基于词汇集合，统计词频和词对的共现信息；然后设置词频阈值，并判断词汇集合中词语的词频是否大于词频阈值，若词汇的词频小于或等于词频阈值，则剔除该词汇；之后对符合条件的词汇进行归纳整理，并生成候选关键词集合；然后获取各候选关键词在文本中的位置信息；之后计算各候选关键词在文本中的权重值；然后设置权重值阈值，并判断各候选关键词的计算结果是否大于权重值阈值，若词汇的权重值小于或等于权重值阈值，则剔除该词汇；最后对符合条件的词汇进行归纳整理，并生成关键词集合；

本发明优化了语料库关键词抽取算法，操作简便，能够自动从语料库中抽取关键词，省时省力，显著提高了关键词抽取的准确性。

附图说明

图1为本发明提出的一种基于数据挖掘的语料库关键词自动抽取算法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

如图1所示，本发明提出的一种基于数据挖掘的语料库关键词自动抽取算法，包括以下步骤：

S1、获取待处理文本；

S2、对获取的文本进行分词处理，获得分词集合；

S3、对分词集合中的词语进行词性标注和词义标注；

S4、对分词集合进行去词处理，获得词汇集合；

S5、基于词汇集合，统计词频和词对的共现信息；

S8、获取各候选关键词在文本中的位置信息；

S11、对符合条件的词汇进行归纳整理，并生成关键词集合。

在一个可选的实施例中，S2的具体步骤如下：

将获取的文本分割成多个切分段落；将每个切分段落分割成多个句子；对每个句子分词并得到词的序列。

在一个可选的实施例中，在S2中，通过jieba工具实现分词处理。

在一个可选的实施例中，在S4中，通过stopwords工具实现去词处理。

在一个可选的实施例中，在S4中，所要去除的词语包括停用词、语气词、 HTML/XML标记、数字、时间和噪音词。

在一个可选的实施例中，在S5中，统计词对的共现信息具体步骤如下：对于每一个词对，根据构成词对的两个词在同一切分段落中的距离，计算该词对在切分段落中的共现次数，将该词对在所有切分段落中的共现次数累加，得到该词对在文本中的共现次数。

在一个可选的实施例中，在S8中，其具体步骤如下：分别获取候选关键词在各语句中的位置信息；分别获取多个语句在文本中的位置信息；基于候选关键词在各语句的位置信息和语句在文本中的位置信息，分别确定候选关键词在文本中的位置信息。

在一个可选的实施例中，在S9中，计算各候选关键词在文本中的权重值的方法如下：根据卡方检验公式计算各候选关键词对文本内容的语义相关程度，得到各候选关键词对文本的权重值。

本发明中，首先获取待处理文本；然后对获取的文本进行分词处理，通过 jieba工具实现分词处理并获得分词集合，具体步骤为：将获取的文本分割成多个切分段落，将每个切分段落分割成多个句子，对每个句子分词并得到词的序列；

之后对分词集合中的词语进行词性标注和词义标注；然后对分词集合进行去词处理，通过stopwords工具实现去词处理并获得词汇集合，所要去除的词语包括停用词、语气词、HTML/XML标记、数字、时间和噪音词；之后基于词汇集合，统计词频和词对的共现信息，其中，统计词对的共现信息具体步骤为：对于每一个词对，根据构成词对的两个词在同一切分段落中的距离，计算该词对在切分段落中的共现次数，将该词对在所有切分段落中的共现次数累加，得到该词对在文本中的共现次数；

然后设置词频阈值，并判断词汇集合中词语的词频是否大于词频阈值，若词汇的词频小于或等于词频阈值，则剔除该词汇；之后对符合条件的词汇进行归纳整理，并生成候选关键词集合；然后获取各候选关键词在文本中的位置信息，具体步骤为：分别获取候选关键词在各语句中的位置信息，分别获取多个语句在文本中的位置信息，基于候选关键词在各语句的位置信息和语句在文本中的位置信息，分别确定各候选关键词在文本中的位置信息；

之后根据词频、词对共现信息以及候选关键词所处位置信息，计算各候选关键词在文本中的权重值，根据卡方检验公式计算各候选关键词对文本内容的语义相关程度，以此得到各候选关键词对文本的权重值；然后设置权重值阈值，并判断各候选关键词的计算结果是否大于权重值阈值，若词汇的权重值小于或等于权重值阈值，则剔除该词汇；最后对符合条件的词汇进行归纳整理，并生成关键词集合；

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于数据挖掘的语料库关键词自动抽取算法，其特征在于，包括以下步骤：

S1、获取待处理文本；

S2、对获取的文本进行分词处理，获得分词集合；

S3、对分词集合中的词语进行词性标注和词义标注；

S4、对分词集合进行去词处理，获得词汇集合；

S5、基于词汇集合，统计词频和词对的共现信息；

S8、获取各候选关键词在文本中的位置信息；

S11、对符合条件的词汇进行归纳整理，并生成关键词集合。

2.根据权利要求1所述的一种基于数据挖掘的语料库关键词自动抽取算法，其特征在于，S2的具体步骤如下：

将获取的文本分割成多个切分段落；

将每个切分段落分割成多个句子；

对每个句子分词并得到词的序列。

3.根据权利要求1所述的一种基于数据挖掘的语料库关键词自动抽取算法，其特征在于，在S2中，通过jieba工具实现分词处理。

4.根据权利要求1所述的一种基于数据挖掘的语料库关键词自动抽取算法，其特征在于，在S4中，通过stopwords工具实现去词处理。

5.根据权利要求1所述的一种基于数据挖掘的语料库关键词自动抽取算法，其特征在于，在S4中，所要去除的词语包括停用词、语气词、HTML/XML标记、数字、时间和噪音词。

6.根据权利要求1所述的一种基于数据挖掘的语料库关键词自动抽取算法，其特征在于，在S5中，统计词对的共现信息具体步骤如下：

7.根据权利要求1所述的一种基于数据挖掘的语料库关键词自动抽取算法，其特征在于，在S8中，其具体步骤如下：

分别获取候选关键词在各语句中的位置信息；

分别获取多个语句在文本中的位置信息；

8.根据权利要求1所述的一种基于数据挖掘的语料库关键词自动抽取算法，其特征在于，在S9中，计算各候选关键词在文本中的权重值的方法如下：