CN111859924A

CN111859924A - 一种基于word2vec模型构建词网的方法和装置

Info

Publication number: CN111859924A
Application number: CN202010703335.5A
Authority: CN
Inventors: 张辉; 杨玺
Original assignee: Inspur Cloud Information Technology Co Ltd
Current assignee: Inspur Cloud Information Technology Co Ltd
Priority date: 2020-07-21
Filing date: 2020-07-21
Publication date: 2020-10-30
Anticipated expiration: 2040-07-21
Also published as: CN111859924B

Abstract

本发明提供一种基于word2vec模型构建词网的方法和装置，属于词网构建技术领域，本发明包括词网数据清洗功能、词网模型构建功能与词网数据动态添加功能。通过对科技产出的关键词、摘要、名称数据结合相关停用词进行切词分词处理等数据清洗处理形成基本词库，然后针对基本词库采取word2vec网络模型对数据进行编码以及空间定位操作，通过持续迭代训练将数据收敛，最终形成词网数据库。在已构建词网数据库的基础上，支持动态加入相关词的功能。通过对新词的关联属性与词网中已有词进行对比，并计算新词的空间向量平均值，得到新词在词网空间中的相对位置，最终实现词网数据的更新。

Description

一种基于word2vec模型构建词网的方法和装置

技术领域

本发明涉及词网构建技术，尤其涉及一种基于word2vec模型构建词网的方法和装置。

背景技术

现有的词网构建技术及方案有很多种，但大多方案词与词间的关系比较单一，造成整个词网的网络结构较为简单，且当新词加入词网时，需要重新训练，扩展性不足。

发明内容

为了解决以上技术问题，本发明提供了一种基于word2vec模型构建词网的方法，为基于word2vec模型结合自然语言技术优化词网的准确度、词网的构建效率、词网的扩展性以及丰富词网的网络结构。有效优化及提升基于词网数据实现的相关词云展现、数据标引及数据打标签等应用场景的准确度。

本发明的技术方案是：

一种基于word2vec模型构建词网的方法，基于自然语言处理技术，经过对数据通过停用词、切词、词频统计等一系列操作对数据进行清洗，通过word2vec网络模型对词进行深度挖掘和训练，结合词向量建立词与词间的关联关系，通过持续迭代不断丰富词网的网络结构，并且针对新进词，通过与词网比对更新词网，增强了词网的更新迭代效率和扩展性。

通过对科技产出的关键词、摘要、名称数据结合相关停用词进行切词分词处理等数据清洗处理形成基本词库，然后针对基本词库采取word2vec网络模型对数据进行编码以及空间定位操作，通过持续迭代训练将数据收敛，最终形成词网数据库。

进一步的，

在已构建词网数据库的基础上，支持动态加入相关词的功能；通过对新词的关联属性与词网中已有词进行对比，并计算新词的空间向量平均值，得到新词在词网空间中的相对位置，最终实现词网数据的更新。

本发明还公开了一种基于word2vec模型构建词网的装置，包括词网数据清洗组件、词网模型构建组件与词网数据动态添加组件。

(1)在词网数据清洗组件中，采取数据分词、数据规范化、词频统计的清洗方式将文本数据转化为可训练数据；

(2)在词网模型构建组件中，采取word2vec网络模型对数据进行编码以及空间定位操作；

(3)词网数据动态添加组件，解决新兴词汇快速加入词网的功能。

进一步的，

(1)在词网数据清洗组件中，

输入数据源采用科技产出数据，选取近十年的文本数据，统一格式后存入数据库进行统一处理，在数据库中对源数据的摘要以及关键词进行提取，利用jieba全模式切词，将摘要中所有的可以成词的词语扫描出来，并使用特定的关键词网进行更加细致的筛选，与数据关键词合并，得到相关联的字符组，引入停用词表对字符组停用词进行初步清洗，将初步清洗后的数据引入深度清洗流程，进行大小写规范，低频词筛除与替换，建立词组索引，清洗无效或数据量过少数据，将数据编码统计词频存入词网数据库，并组成清洗后的有效数据进行关联关系提取形成数组并划分训练集与测试集，将所有集合存入训练数据库。

(2)在词网模型构建组件中，引入word2vec网络模型中的CBOW模型，将高维度的one-hot词向量嵌入到低维并赋予其语义相似性，运用CBOW类train的核心方法，实现了CBOW的前向传播过程和反向传播算法。

rain方法需要传入中心词的one-hot向量和它one-hot向量表示的语境列表，传入one-hot向量事实上也就是传入索引值。

运用设置的初始嵌入向量维度，关联词范围最小值与最大值，负采样数以及迭代次数，构建序贯模型，添加嵌入层，这些样本将以id的形式输入到以很小的随机权重值初始化的通用嵌入层，每个样本都会被嵌入层转化为特定形式的空间向量；

之后将每一段样本生成的向量矩阵送入lambda层，计算所有向量平均值；均值数据再经过激活函数为softmax的全连接层，将输出向量的最大值以概率形式标注得到具有最大概率值的目标词以便提取这些目标词的空间位置；

在词向量循环中迭代，将数据进行迭代，判断收敛趋势是否达标与有效，当学习率比较小的时候，可以训练出更优的权重向量。但是较小的学习率也意味着更长的训练时间，而且如果是非凸问题则还有可能会陷入局部解中。若趋势收敛过慢，则调整模型参数重新迭代。若达标待模型迭代完成将模型存入模型网络数据库用来之后更新迭代，将生成的词网数据存入词网数据库用来提供之后的服务并结束此组件。

进一步的，

(3)词网数据动态添加组件中，新兴词汇入网在已得到词网中根据新新词汇与新兴词汇出现的文本进行之前的数据处理操作，完成数据清洗与分词采取词向量平均的方式将生僻词与新兴词汇动态添加进词网数据库，丰富词网容量。

首先对新进数据进行关键词提取，得到相关联的词组，在已经训练好的词网数据中找到该关联词组的位置，并对已出现密集度高的关键词进行空间向量平均值计算，得到新兴词汇在空间中的相对位置，并根据此相对位置确定新兴词汇所在领域，并与输入领域进行对比，若无问题，将此词汇与词汇相对位置存入词网数据，若领域有偏差则重新提取高密度关键词阈值。全部词汇写入完成后将数据归档，结束此组件。

本发明的有益效果是

本发明创造的基于word2vec模型构建词网的方法和装置是以自然语言处理技术为核心，运用更少的维度，更快的速度与更强的通用性，通过对词网的搭建逐步提高词网数据的范围与精度。在之后的开发中可以利用构建的词网数据，根据输入的实体数据的关键词、研究方向以及摘要信息，在词网数据数据库中寻找各关键词所对应的空间向量值，并分组进行空间向量平均值的操作，得到关键词的相对位置，并输出至标签数据库。根据各标签数据库中向量余弦夹角判断各实体数据的关联关系。并以此为基础对各零散单元进行统一标注，构建智能单元分析体系，实现了有效的离散单元挖掘分析与处理功能，提高了科技信息的价值与信息获取精度。

附图说明

图1是本发明的系统流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如附图1所示。整体可分为三大组件，分别为词网数据清洗组件、词网模型构建组件与词网数据动态添加组件，技术实现方案如下：

(1)在词网数据清洗组件中，采取数据分词、数据规范化、词频统计等清洗方式将文本数据转化为可训练数据。输入数据源采用科技产出数据，选取近十年的科技产出论文、报告、专利等文本数据，统一格式后存入数据库进行统一处理，在数据库中对源数据的摘要以及关键词进行提取，利用jieba全模式切词，将摘要中所有的可以成词的词语扫描出来，并使用特定的关键词网进行更加细致的筛选，与数据关键词合并，得到相关联的字符组，引入停用词表对字符组停用词进行初步清洗，将初步清洗后的数据引入深度清洗流程，进行大小写规范，低频词筛除与替换，建立词组索引，清洗无效或数据量过少数据，将数据编码统计词频存入词网数据库，并组成清洗后的有效数据进行关联关系提取形成数组并划分训练集与测试集，将所有集合存入训练数据库。

(2)在词网模型构建组件中，采取word2vec网络模型对数据进行编码以及空间定位操作。引入word2vec网络模型中的CBOW模型，将高维度的one-hot词向量嵌入到低维并赋予其语义相似性，运用CBOW类train的核心方法，实现了CBOW的前向传播过程和反向传播算法。

为了提高复用性，train方法需要传入中心词的one-hot向量和它one-hot向量表示的语境列表。由于one-hot向量及其稀疏且仅与字符在词典中的位置有关，因而传入one-hot向量事实上也就是传入索引值。

运用设置的初始嵌入向量维度，关联词范围最小值与最大值，负采样数以及迭代次数，构建序贯模型，添加嵌入层，这些样本将以id的形式输入到以很小的随机权重值初始化的通用嵌入层，每个样本都会被嵌入层转化为特定形式的空间向量。

之后将每一段样本生成的向量矩阵送入lambda层，计算所有向量平均值。均值数据再经过激活函数为softmax的全连接层，将输出向量的最大值以概率形式标注得到具有最大概率值的目标词以便提取这些目标词的空间位置。

(3)词网数据动态添加组件解决了新兴词汇快速加入词网的功能。新兴词汇入网不需要整个网络重新运算，在已得到词网中根据新新词汇与新兴词汇出现的文本进行之前的数据处理操作，完成数据清洗与分词采取词向量平均的方式将生僻词与新兴词汇动态添加进词网数据库，丰富词网容量。首先对新进数据进行关键词提取，得到相关联的词组，在已经训练好的词网数据中找到该关联词组的位置，并对已出现密集度高的关键词进行空间向量平均值计算，得到新兴词汇在空间中的相对位置，并根据此相对位置确定新兴词汇所在领域，并与输入领域进行对比，若无问题，将此词汇与词汇相对位置存入词网数据，若领域有偏差则重新提取高密度关键词阈值。全部词汇写入完成后将数据归档，结束此组件。

以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种基于word2vec模型构建词网的方法，其特征在于，

基于自然语言处理技术，经过对数据通过停用词、切词、词频统计一系列操作对数据进行清洗，通过word2vec网络模型对词进行挖掘和训练，结合词向量建立词与词间的关联关系，通过持续迭代不断丰富词网的网络结构，并且针对新进词，通过与词网比对更新词网。

2.根据权利要求1所述的方法，其特征在于，

3.根据权利要求2所述的方法，其特征在于，

4.一种基于word2vec模型构建词网的装置，其特征在于，

包括词网数据清洗组件、词网模型构建组件与词网数据动态添加组件，

(1)词网数据清洗组件，采取数据分词、数据规范化、词频统计的清洗方式将文本数据转化为可训练数据；

(2)词网模型构建组件，采取word2vec网络模型对数据进行编码以及空间定位操作；

5.根据权利要求4所述的装置，其特征在于，

(1)在词网数据清洗组件中，输入数据源采用科技产出数据，选取近十年的文本数据，统一格式后存入数据库进行统一处理，在数据库中对源数据的摘要以及关键词进行提取，利用jieba全模式切词，将摘要中所有的可以成词的词语扫描出来，并使用特定的关键词网进行更加细致的筛选，与数据关键词合并，得到相关联的字符组，引入停用词表对字符组停用词进行初步清洗，将初步清洗后的数据引入深度清洗流程，进行大小写规范，低频词筛除与替换，建立词组索引，清洗无效数据，将数据编码统计词频存入词网数据库，并组成清洗后的有效数据进行关联关系提取形成数组并划分训练集与测试集，将所有集合存入训练数据库。

6.根据权利要求4所述的装置，其特征在于，

7.根据权利要求6所述的装置，其特征在于，

之后将每一段样本生成的向量矩阵送入lambda层，计算所有向量平均值；均值数据再经过激活函数为softmax的全连接层，将输出向量的最大值以概率形式标注得到具有最大概率值的目标词以便提取这些目标词的空间位置。

8.根据权利要求7所述的装置，其特征在于，

在词向量循环中迭代，将数据进行迭代，判断收敛趋势是否达标与有效，若迭代5w轮次，通过损失函数计算差值小于200，则调整模型参数重新迭代；若达标待模型迭代完成将模型存入模型网络数据库用来之后更新迭代，将生成的词网数据存入词网数据库用来提供之后的服务并结束此组件。

9.根据权利要求4所述的装置，其特征在于，

10.根据权利要求9所述的装置，其特征在于，