CN107861944A

CN107861944A - 一种基于Word2Vec的文本标签提取方法及装置

Info

Publication number: CN107861944A
Application number: CN201711001712.5A
Authority: CN
Inventors: 余虎; 张郭强; 林伟亮
Original assignee: Guangdong Eshore Technology Co Ltd
Current assignee: Guangdong Eshore Technology Co Ltd
Priority date: 2017-10-24
Filing date: 2017-10-24
Publication date: 2018-03-30

Abstract

本发明公开一种基于Word2Vec的文本标签提取方法及装置，所述方法包括：获取所述文本的文本数据；对所述文本数据进行分词处理；根据Word2Vec算法对所述的分词处理结果进行向量转换，得到分词结果向量；根据标签库对所述分词结果向量进行匹配识别，将成功匹配的向量的标签加入标签队列；根据标签映射库对所述分词结果向量进行匹配识别，将成功匹配的向量映射到对应的映射标签上，将映射标签加入到标签队列；输出标签队列里的文本标签。本发明的技术方案通过使用Word2Vec，把词转换为向量，可以对近义词，同义词进行统一标签处理。此外，还可以把归属到同一标签的不同描述通过映射关系归一到同一个标签中。

Description

一种基于Word2Vec的文本标签提取方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于Word2Vec的文本标签提取方法及装置。

背景技术

当今互联网每天都会产生海量新闻资讯，个人阅读理解新闻资讯的能力是有限的，然而，互联网用户需要了解网络上都发生了哪些事件、讨论了哪些事件，比如金融行业分析师、投资人士需要查阅大量资讯来了解当前行业热点事件，才能了解到与热点事件关联的新闻有哪些。对于一句话，人可以通过自己的知识来明白哪些是词，哪些不是词，但要让计算机也能理解，其处理过程就是分词算法。目前，常见的中文分词项目有word分词,SCWS,FudanNLP,ICTCLAS,HTTPCWS,CC-CEDICT,IK,Paoding,MMSEG4J,盘古分词。

Word2Vec是Google在2013年开源的一个将词表转为向量的算法，其利用神经网络，可以通过训练，将词映射到K维度空间向量，甚至对于表示词的向量进行操作还能和语义相对应，由于其简单和高效引起了很多人的关注。现有技术中，通常都是直接进行全文匹配，这样会对一些组合词的识别会出现问题。例如：对“的士”进行全文匹配的时候，会把含有“的士高”的文本也打上该标签，导致无法处理关联标签，同义标签的问题。

有鉴于此，有必要提出对目前的文本标签提取技术进行进一步的改进。

发明内容

为解决上述至少一技术问题，本发明的主要目的是提供一种基于Word2Vec的文本标签提取方法及装置。

为实现上述目的，本发明采用的一个技术方案为：提供一种基于Word2Vec的文本标签提取方法，所述基于Word2Vec的文本标签提取方法包括如下步骤：

S10、获取所述文本的文本数据；

S20、对所述文本数据进行分词处理；

S30、根据Word2Vec算法对所述的分词处理结果进行向量转换，得到分词结果向量；

S40、根据标签库对所述分词结果向量进行匹配识别，将成功匹配的向量的标签加入标签队列；

S50、根据标签映射库对所述分词结果向量进行匹配识别，将成功匹配的向量映射到对应的映射标签上，将映射标签加入到标签队列；

S60、输出标签队列里的文本标签。

在一具体实施例中，所述步骤S20具体包括如下步骤：

S202、根据分词计算方法，将文本数据拆分成词组；

S204、根据词性，删除副词，助词，标点符号等弱词性的词；

S206、将词组与停用词库进行对比，删除停用词库包含的词；

S208、输出分词词组。

在一具体实施例中，所述步骤S30具体包括如下步骤：

S302、根据互联网信息，获取文本语料；

S304、删除停用词，分词；

S306、根据Word2Vec算法，使用所述文本语料进行训练，构造出词转换成向量的词向量表；

S308、对所述分词词组使用词向量表进行向量转换，得到对应的分词结果向量。

在一具体实施例中，所述步骤S40具体包括如下步骤：

S402、按顺序取出一个分词结果向量；

S404、将所述分词结果向量与标签库进行对比，若存在有向量完全匹配的标签，或者与标签库向量差异在最小差异值范围内的标签，则把该标签加入标签队列；

S406、若分词结果没有处理完，则重复步骤S402。

在一具体实施例中，所述步骤S50具体包括如下步骤：

S502、按顺序取出一个分词结果向量；

S504、将分词结果向量与映射标签库进行对比，如果有向量完全匹配的标签，或者与映射标签库向量差异在最小差异值范围内的，则把映射标签加入标签队列；

S506、若分词结果没有处理完，则重复步骤S502。

为实现上述目的，本发明采用的另一个技术方案为：提供一种基于Word2Vec的文本标签提取装置，所述基于Word2Vec的文本标签提取装置包括：

获取模块，用于获取所述文本的文本数据；

分词处理模块，用于对所述文本数据进行分词处理；

向量转换模块，用于根据Word2Vec算法对所述的分词处理结果进行向量转换，得到分词结果向量；

标签库匹配模块，用于根据标签库对所述分词结果向量进行匹配识别，将成功匹配的向量的标签加入标签队列；

标签映射库匹配模块，用于根据标签映射库对所述分词结果向量进行匹配识别，将成功匹配的向量映射到对应的映射标签上，将映射标签加入到标签队列；

输出模块，用于输出标签队列里的文本标签。

在一具体实施例中，所述分词处理模块具体包括：

拆分模块，用于根据分词计算方法，将文本数据拆分成词组；

第一删除模块，用于根据词性，删除副词，助词，标点符号等弱词性的词；

第二删除模块，用于将词组与停用词库进行对比，删除停用词库包含的词；

输出词组模块，用于输出分词词组。

在一具体实施例中，所述向量转换模块具体包括：

获取语料模块，用于根据互联网信息，获取文本语料；

第三删除模块，用于删除停用词，分词；

构造模块，用于根据Word2Vec算法，使用所述文本语料进行训练，构造出词转换成向量的词向量表；

分词向量转换模块，用于对所述分词词组使用词向量表进行向量转换，得到对应的分词结果向量。

在一具体实施例中，所述标签库匹配模块具体用于：

按顺序取出一个分词结果向量；将所述分词结果向量与标签库进行对比，若存在有向量完全匹配的标签，或者与标签库向量差异在最小差异值范围内的标签，则把该标签加入标签队列；若分词结果没有处理完，则重复上述步骤。

在一具体实施例中，所述标签映射库匹配模块具体用于：

按顺序取出一个分词结果向量；将分词结果向量与映射标签库进行对比，如果存在有向量完全匹配的标签，或者与映射标签库向量差异在最小差异值范围内的，则把映射标签加入标签队列；若分词结果没有处理完，则重复上述步骤。

本发明的技术方案通过使用Word2Vec，把词转换为向量，可以对近义词，同义词进行统一标签处理，有效地处理了同义词和近义词的问题。此外，还引入标签映射处理流程，可以把归属到同一标签的不同描述通过映射关系归一到同一个标签中，使其最后提取的标签具有更加广泛的意义。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明一实施例的一种基于Word2Vec的文本标签提取方法的方法流程图；

图2为本发明另一实施例的一种基于Word2Vec的文本标签提取方法的方法流程图；

图3为本发明一实施例的一种基于Word2Vec的文本标签提取装置模块方框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

参考图1，在本发明的一个具体的实施例中，提供了一种基于Word2Vec的文本标签提取方法，所述基于Word2Vec的文本标签提取方法包括如下步骤：

S10、获取所述文本的文本数据；

S20、对所述文本数据进行分词处理；

S60、输出标签队列里的文本标签。

具体地，此处的Word2Vec模型是一个模型文件，是所有词向量化表示的模型文件。训练这个模型要给他输入大量的文档，文档越多，模型一般越准确。它由google公司提供的开源模型。其训练方法与使用方法可以按该模型的常用方法进行。

对所述文本数据进行分词处理，具体地，包括根据分词计算方法，将文本数据拆分成词组；根据词性，删除副词，助词，标点符号等弱词性的词；将词组与停用词库进行对比，删除停用词库包含的词；输出分词词组。

之后再通过经训练的Word2Vec模型对分词处理后的文本进行向量匹配，可以提高所得结果与标签词的相关度。该方法结合了Word2Vec模型并且过滤了副词，助词以及弱词性文本，实现了对文档于标签相关度的匹配，提高匹配准确性，提高了用户根据某一新出现的词语，获取相关文档时的准确性，提高用户检索准确性，降低误检率。避免了出现类似对“的士”进行全文匹配的时候，会把含有“的士高”的文本也打上该标签的情况。

值得说明的是本发明公开的文本和标签语义关联方法，是基于人的概念认知建立的关联，即不仅能通过同义词关联文档标签，还能够通过子概念关联文档标签，定义为提及语义关联。提及语义关联更吻合于语言习惯，即当文档内容提及了标签的子概念，应该被认为文档与标签关联，比如文档中出现“洗衣机”应该认为关联“家用电器”标签，文档出现“曲酒”应该认为关联“白酒”标签等等。通过扩大对同义词的提取范围，从而实现对一些仅出现在新闻文章中的新词同义词或相关词的及时提取或获得。避免了对此类新词的遗漏问题的出现。此外，还可以将同一类的词映射到更广义的词，比如，将“鸡油”、“鸭油”、“猪油”映射到“动物油”，使得提取的标签更加广义。

参考图2，在一具体实施例中，所述步骤S20具体包括如下步骤：

S202、根据分词计算方法，将文本数据拆分成词组；

S204、根据词性，删除副词，助词，标点符号等弱词性的词；

S206、将词组与停用词库进行对比，删除停用词库包含的词；

S208、输出分词词组。

在本实施例中，具体说明了对所述文本数据进行分词处理的整个过程，该过程可以删除副词，助词，标点符号等弱词性的词；并且可以删除停用词库包含的词，现实了文本的过滤预处理，提高用户检索准确性，降低误检率。避免了出现类似对“的士”进行全文匹配的时候，会把含有“的士高”的文本也打上该标签的情况。

在一具体实施例中，所述步骤S30具体包括如下步骤：

S302、根据互联网信息，获取文本语料；

S304、删除停用词，分词；

在本实施例中，具体说明了向量转换的过程，Word2Vec模型是一个模型文件，是所有词向量化表示的模型文件。训练这个模型要给他输入大量的文档，文档越多，模型一般越准确。它由google公司提供的开源模型。其训练方法与使用方法可以按该模型的常用方法进行。通过这种向量转换的方式，实现了对同义词以及近义词的统一标签处理。

在一具体实施例中，所述步骤S40具体包括如下步骤：

S402、按顺序取出一个分词结果向量；

S406、若分词结果没有处理完，则重复步骤S402。

在本实施例中，具体说明了标签库匹配的原则，具体的匹配原则为，若存在有向量完全匹配的标签，或者与标签库向量差异在最小差异值范围内的标签，则把该标签加入标签队列。并且依次处理所有的分词结果向量。这种匹配原则实现了对同义词以及近义词的统一标签处理。

在一具体实施例中，所述步骤S50具体包括如下步骤：

S502、按顺序取出一个分词结果向量；

S506、若分词结果没有处理完，则重复步骤S502。

在本实施例中，具体说明了映射标签库的匹配原则，具体的匹配原则为，有向量完全匹配的标签，或者与映射标签库向量差异在最小差异值范围内的，则把映射标签加入标签队列。并且依次处理所有的分词结果向量。这种匹配原则实现了把归属到同一标签的不同描述通过映射关系归一到同一个标签中。

参考图3，在本发明的一个实施例中提供一种基于Word2Vec的文本标签提取装置，所述基于Word2Vec的文本标签提取装置包括：

获取模块10，用于获取所述文本的文本数据；

分词处理模块20，用于对所述文本数据进行分词处理；

向量转换模块30，用于根据Word2Vec算法对所述的分词处理结果进行向量转换，得到分词结果向量；

标签库匹配模块40，用于根据标签库对所述分词结果向量进行匹配识别，将成功匹配的向量的标签加入标签队列；

标签映射库匹配模块50，用于根据标签映射库对所述分词结果向量进行匹配识别，将成功匹配的向量映射到对应的映射标签上，将映射标签加入到标签队列；

输出模块60，用于输出标签队列里的文本标签。

本发明的技术方案分词处理模块20，用于对所述文本数据进行分词处理，然后通过向量转换模块30使用Word2Vec，把词转换为向量，并且使用标签库匹配模块40，对所述分词结果向量进行匹配识别，实现了对近义词，同义词进行统一标签处理，有效地处理了同义词和近义词的问题。此外，还引入了标签映射库匹配模块50，根据标签映射库对所述分词结果向量进行匹配识别，将成功匹配的向量映射到对应的映射标签上，将映射标签加入到标签队列还引入标签映射处理流程，可以实现把归属到同一标签的不同描述通过映射关系归一到同一个标签中，使其最后提取的标签具有更加广泛的意义。

在一具体实施例中，所述分词处理模块20具体包括：

拆分模块201，用于根据分词计算方法，将文本数据拆分成词组；

第一删除模块202，用于根据词性，删除副词，助词，标点符号等弱词性的词；

第二删除模块203，用于将词组与停用词库进行对比，删除停用词库包含的词；

输出词组模块204，用于输出分词词组。

在本实施例中，具体说明了对所述文本数据进行分词处理的整个过程，第一删除模块202可以删除副词，助词，标点符号等弱词性的词；第二删除模块203可以删除停用词库包含的词，现实了文本的过滤预处理，提高用户检索准确性，降低误检率。避免了出现类似对“的士”进行全文匹配的时候，会把含有“的士高”的文本也打上该标签的情况。

在一具体实施例中，所述向量转换模块30具体包括：

获取语料模块301，用于根据互联网信息，获取文本语料；

第三删除模块302，用于删除停用词，分词；

构造模块303，用于根据Word2Vec算法，使用所述文本语料进行训练，构造出词转换成向量的词向量表；

分词向量转换模块304，用于对所述分词词组使用词向量表进行向量转换，得到对应的分词结果向量。

在一具体实施例中，所述标签库匹配模块40具体用于：

在本实施例中，具体说明了标签库匹配模块40内的标签库匹配的原则，具体的匹配原则为，若存在有向量完全匹配的标签，或者与标签库向量差异在最小差异值范围内的标签，则把该标签加入标签队列。并且依次处理所有的分词结果向量。这种匹配原则实现了对同义词以及近义词的统一标签处理。

在一具体实施例中，所述标签映射库匹配模块50具体用于：

在本实施例中，具体说明了映射标签库匹配模块50内的匹配原则，具体的匹配原则为，有向量完全匹配的标签，或者与映射标签库向量差异在最小差异值范围内的，则把映射标签加入标签队列。并且依次处理所有的分词结果向量。这种匹配原则实现了把归属到同一标签的不同描述通过映射关系归一到同一个标签中。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种基于Word2Vec的文本标签提取方法，其特征在于，所述基于Word2Vec的文本标签提取方法包括如下步骤：

S10、获取所述文本的文本数据；

S20、对所述文本数据进行分词处理；

S60、输出标签队列里的文本标签。

2.如权利要求1所述的一种基于Word2Vec的文本标签提取方法，其特征在于，所述步骤S20具体包括如下步骤：

S202、根据分词计算方法，将文本数据拆分成词组；

S204、根据词性，删除副词，助词，标点符号等弱词性的词；

S206、将词组与停用词库进行对比，删除停用词库包含的词；

S208、输出分词词组。

3.如权利要求2所述的一种基于Word2Vec的文本标签提取方法，其特征在于，所述步骤S30具体包括如下步骤：

S302、根据互联网信息，获取文本语料；

S304、删除停用词，分词；

4.如权利要求3所述的一种基于Word2Vec的文本标签提取方法，其特征在于，所述步骤S40具体包括如下步骤：

S402、按顺序取出一个分词结果向量；

S406、若分词结果没有处理完，则重复步骤S402。

5.如权利要求4所述的一种基于Word2Vec的文本标签提取方法，其特征在于，所述步骤S50具体包括如下步骤：

S502、按顺序取出一个分词结果向量；

S504、将分词结果向量与映射标签库进行对比，如果有向量完全匹配的标签，或者映射标签库向量差异在最小差异值范围内的，则把映射标签加入标签队列；

S506、若分词结果没有处理完，则重复步骤S502。

6.一种基于Word2Vec的文本标签提取装置，其特征在于，所述基于Word2Vec的文本标签提取装置包括：

获取模块，用于获取所述文本的文本数据；

分词处理模块，用于对所述文本数据进行分词处理；

输出模块，用于输出标签队列里的文本标签。

7.如权利要求6所述的一种基于Word2Vec的文本标签提取装置，其特征在于，所述分词处理模块具体包括：

输出词组模块，用于输出分词词组。

8.如权利要求7所述的一种基于Word2Vec的文本标签提取装置，其特征在于，所述向量转换模块具体包括：

获取语料模块，用于根据互联网信息，获取文本语料；

第三删除模块，用于删除停用词，分词；

9.如权利要求8所述的一种基于Word2Vec的文本标签提取装置，其特征在于，所述标签库匹配模块具体用于：

10.如权利要求9所述的一种基于Word2Vec的文本标签提取装置，其特征在于，所述标签映射库匹配模块具体用于：