CN107291693A - 一种改进词向量模型的语义计算方法 - Google Patents

一种改进词向量模型的语义计算方法 Download PDF

Info

Publication number
CN107291693A
CN107291693A CN201710452382.5A CN201710452382A CN107291693A CN 107291693 A CN107291693 A CN 107291693A CN 201710452382 A CN201710452382 A CN 201710452382A CN 107291693 A CN107291693 A CN 107291693A
Authority
CN
China
Prior art keywords
word
vector
speech
semantic
semantic computation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710452382.5A
Other languages
English (en)
Other versions
CN107291693B (zh
Inventor
刘志煌
刘冶
李宏浩
傅自豪
邝秋华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou He Da Da Data Technology Co Ltd
Original Assignee
Guangzhou He Da Da Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou He Da Da Data Technology Co Ltd filed Critical Guangzhou He Da Da Data Technology Co Ltd
Priority to CN201710452382.5A priority Critical patent/CN107291693B/zh
Publication of CN107291693A publication Critical patent/CN107291693A/zh
Application granted granted Critical
Publication of CN107291693B publication Critical patent/CN107291693B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data

Abstract

本发明提供一种改进词向量模型的语义计算方法,包括以下步骤:S1:语料预处理;S2:词性标注,对语料预处理后得到的词语进行标注词性;S3:向量初始化,对词性标注后得到的词语和词性进行向量化;S4:上下文向量整合,对词语的上下文词语向量及词性向量进行计算整合;S5:构建哈夫曼树并训练网络,优化目标函数并判断误差是否达到阈值;S6:向量获取,获取词语向量和词性向量;S7:向量应用,应用词语向量和词性向量进行语义计算。相比于现有技术,本发明在向量中加入了词性的因素,并对现有的Word2vec模型进行改进。同时,根据该改进后的模型进行了创新的应用,拓展了Word2vec进行语义计算的功能。

Description

一种改进词向量模型的语义计算方法
技术领域
本发明涉及信息科学领域,具体是一种改进Word2vec词向量模型的语义计算方法及系统。
背景技术
将自然语言交给机器学习算法来处理,需要将语言进行数学化处理,词向量化就是一种 方式。进行词向量化最简单的方式为独热码表示法(One-hot Representation),该方法通过创 建一个词表库,并对词库中的每个词进行顺序编号来赋予每个词一个向量,向量的分量只有 一个1,其他全为0。这种词向量表示法有2个缺点:(1)容易产生维数灾难;(2)不能很 好的刻画词与词之间的相似性,即语义鸿沟。为了克服这种缺陷,Hinton在1986年提出分布 式表示方法(Distributed Representation),其基本思想是通过训练将每个词映射成一个固定 长度的k维实数短向量(k为正整数),然后将所有向量映射到向量空间,每个向量对应空 间上的一个点,在空间上计算向量与向量之间的距离,就可以判断它们之间的相似度。分布 式表示法的一种生成词向量的方式是利用神经网络算法,该方法通过训练神经网络最终得到 词向量和语言模型。Bengio于2003年提出神经网络语言模型(NeuralNetwork Language Model),其核心思想是利用神经网络建立N-Gram语言模型,将每个词表示成一个浮点向量, 然后作为神经网络的输入,通过随机梯度算法对神经网络参数进行训练,训练完成之后同时 得到语言模型和词向量。
目前比较广泛应用的词向量化方法是基于Word2vec去训练得到词向量模型,Word2vec 训练词向量的过程,就是构建一个多层神经网络,然后在给定文本中获得对应的输入和输出, 在训练过程中不断修正神经网络中的参数,最终得到词向量。Word2vec的核心模型就是 CBOW模型(Continuous Bag-of-Words Model)和Skip-gram模型(ContinuousSkip-gram Model), CBOW模型是根据当前词上下文的2n个词来预测当前词(设词窗大小为n),它的输入是周 围词向量之和,输出是当前词词向量;而Skip-gram模型是根据当前词本身来预测周围有哪 些词,它的输入是当前词词向量,输出是上下文的词向量。传统Word2vec训练词向量的效果, 在语义功能上体现为简单的线性关系,比如说:“男人-皇帝=女人-皇后”、“医生-手术=老师- 教学”等,正是由于这个特性,使得Word2vec生成的词向量具有初步的语义推理能力。
然而,现有技术中的Word2vec没有充分考虑词性因素,而词性是训练词向量的重要信息, 因为词性本身就涵盖了语义信息和语法规则,利用词性信息可以很好的结合词语的搭配顺序、 规律和关系,比如形容词后面可以加名词而不能加副词,因而影响了模型对语义的深层理解。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供了一种加入词性向量因素的改进Word2vec词向量模型的语义计算方法及系统。
本发明通过以下的方案实现:一种改进词向量模型的语义计算方法,包括以下步骤:S1: 语料预处理,对语料进行清理,规范化,分词操作;
S2:词性标注,对语料预处理后得到的词语进行标注词性;
S3:向量初始化,对词性标注后得到的词语和词性进行向量化;
S4:上下文向量整合,对词语的上下文词语向量及词性向量进行计算整合;
S5:构建哈夫曼树并训练网络,优化目标函数并判断误差是否达到阈值;
S6:向量获取,获取词语向量和词性向量。
S7:向量应用,应用词语向量和词性向量进行语义计算。
作为本发明的进一步改进,所述步骤S1中,具体包括:
S11:去除无关字符,包括去除标点符号和乱码;
S12:统一表达规范,将中文语料都转为中文简体,英文语料统一为英文小写;
S13:分词,使用jieba分词中的搜索引擎分词模式进行分词。
作为本发明的进一步改进,所述步骤S2中采用jieba分词词典进行词性标注。
作为本发明的进一步改进,所述步骤S3中,具体为:首先设定向量的维度,然后使用服 从均匀分布的数据填充向量的每一维度。
作为本发明的进一步改进,所述步骤S5中,具体包括:
S51:构建哈夫曼树,该哈夫曼树的叶子节点为词向量;
S52:判断误差是否达到阈值,若未达到阈值,就继续训练网络,并返回步骤S4;若达到 阈值,就停止训练,并执行步骤S6。
作为本发明的进一步改进,还包括步骤S7:对词语向量和词性向量进行应用,具体包括:
S71:词语向量余弦相似度的语义计算,输出常用词的前N个相似词,所述前N为正整 数;
S72:词语和词性的语义计算,输出常用词对应的向量和词性向量的和的相似词;
S73:词语语义范围的语义计算,选取若干个情感类型的情感词,递归找出各个情感词相 关的词语,并绘制关系图。
本发明还提供了一种词向量的语义计算系统,其包括:
语料预处理模块,用于进行语料预处理;
词性标注模块,用于对每个词的词性进行标注;
向量初始化模块,用于对词语向量和词性向量进行随机向量化;
上下文向量整合模块,用于将词语向量和词性向量求和,求和的结果除以词语个数得到 向量均值,向量均值与中心词的词性向量取差值得到向量整合结果;
中心词向量调整模块,用于对中心词向量进行调整,优化目标函数;
向量获取模块,用于获取词语向量和词性向量。
作为本发明的进一步改进,所述语料预处理模块包括:
无关字符去除子模块,用于去除无关字符,包括去除标点符号和乱码;
表达规范子模块,用于统一表达规范,将中文语料都转为中文简体,英文语料统一为英 文小写;
分词子模块,用于使用jieba分词中的搜索引擎分词模式进行分词。
作为本发明的进一步改进,所述词性标注模块采用jieba分词词典进行词性标注。
作为本发明的进一步改进,所述向量初始化模块通过设定向量的维度,然后使用服从均 匀分布的数据填充向量的每一维度。
作为本发明的进一步改进,所述中心词向量调整模块包括:
训练子模块,用于构建哈夫曼树,该哈夫曼树的叶子节点为词向量;
误差判断子模块,用于判断误差是否达到阈值,若未达到阈值,就继续训练网络;若达 到阈值,就停止训练。
作为本发明的进一步改进,还包括向量应用模块,用于对词语向量和词性向量进行应用; 所述向量应用模块包括:
词语向量余弦相似度的语义计算子模块,用于输出常用词的前N个相似词,所述前N为 正整数;
词语和词性的语义计算子模块,用于输出常用词对应的向量和词性向量的和的相似词;
词语语义范围的语义计算子模块,用于选取若干个情感类型的情感词,递归找出各个情 感词相关的词语,并绘制关系图。
相比于现有技术,本发明加入了词性向量的考虑,并且根据现有的Word2vec模型进行改 进。同时,根据该改进后的模型进行了创新的应用,拓展了Word2vec进行语义计算的功能。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1是本发明的改进词向量模型的语义计算方法的步骤流程图。
图2是现有技术的CBOW和Skip-gram模型示意图。
图3是现有技术的CBOW模型的结构图。
图4是本发明改进后的模型示意图。
图5是本发明改进后的结构图。
图6是输出层的原理示意图。
图7是情感相关词语的关系图
图8是本发明的语义计算系统的框图。
具体实施方式
以下结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
本发明为了解决现有技术的缺陷,提供了一种改进Word2vec词向量模型的语义计算方法 及系统。
具体通过以下实施例进行介绍:
首先,先对本发明的改进词向量模型的语义计算方法的整体流程进行介绍。具体请参阅 图1,其为本发明的改进词向量模型的语义计算方法的步骤流程图。本发明提供了一种改进 词向量模型的语义计算方法,包括以下步骤:
S1:语料预处理。具体的所述步骤S1中包括:
S11:去除无关字符,包括去除标点符号和乱码。
S12:统一表达规范,将中文语料都转为中文简体,英文语料统一为英文小写。
S13:分词,使用jieba分词中的搜索引擎分词模式进行分词。
S2:词性标注,对语料预处理后得到的词语进行标注词性。具体的,所述步骤S2中采用 jieba分词词典进行词性标注,可以标注句子分词后每个词的词性,词性标注集采用北大计算 所词性标注集,属于基于统计模型的标注方法。
S3:向量初始化,对词性标注后得到的词语和词性进行向量化所述步骤S3中,具体为: 首先设定向量的维度,然后使用服从均匀分布的数据填充向量的每一维度。
S4:上下文向量整合,对词语的上下文词语向量及词性向量进行计算整合,具体为:将 词语向量和词性向量求和,求和的结果除以词语个数得到向量均值,向量均值与中心词的词 性向量取差值得到向量整合结果。
S5:构建哈夫曼树并训练网络,优化目标函数并判断误差是否达到阈值;所述步骤S5 中,具体包括:
S51:构建哈夫曼树,该哈夫曼树的叶子节点为词向量。
S52:判断误差是否达到阈值,若未达到阈值,就继续训练网络,并返回步骤S4;若达到 阈值,就停止训练,并执行步骤S6。
S6:向量获取,获取词语向量和词性向量。
S7:对词语向量和词性向量进行应用。具体的,所述步骤S7包括:
S71:词语向量余弦相似度的语义计算,输出常用词的前N个相似词,所述前N为正整 数。
S72:词语和词性的语义计算,输出常用词对应的向量和词性向量的和的相似词。
S73:词语语义范围的语义计算,选取若干个情感类型的情感词,递归找出各个情感词相 关的词语,并绘制关系图。
以下具体介绍本发明的具体原理和过程:
首先,本发明需要针对现有的Word2vec词向量化模型进行改进,具体的改进步骤如下:
步骤1.首先建立词语与词性的词典。
现有的词向量训练方法,无论是神经概率语言模型还是Word2vec,都没有考虑词性,这 对训练词向量来说是一种信息缺失。因此在本发明中,以CBOW模型为例,输入上下文的词 性向量并且将它们加入到训练的过程中,成为与上下文词向量共同预测当前词词向量的重要 信息,所以跟传统方法不同,一开始要先对语料中所有的词分别构建词语和词性一一对应的 词典。
另外,如果加入词性训练仅从改变语料方面考虑而不改模型和源码,可以直接导入由词 语和词性先后一一对应的混合语料,在训练模型设置窗口词时将窗口设置为原来的2倍,其 他训练参数不变,因为在jieba分词中每一个词都附带而且唯一匹配一个词性,这种改语料不 改模型的方法跟本发明中通过改模型的方法有所不同。
步骤2.初始化词向量的同时,通过同样的方法来初始化词性向量。
在以往的方法中,用神经网络训练得到词向量的第一步便是随机初始化词向量,然后投 入神经网络中训练,进而不断调整各种参数包括词向量本身,本发明以初始化词向量的方法 来随机初始化词性向量,目的是让词向量和词性向量保持维度相等
步骤3.模型训练过程加入词性向量的考虑。
原来的Word2vec中用的两个重要模型——CBOW模型(Continuous Bag-of-WordsModel) 和Skip-gram模型(Continuous Skip-gram Model)。请同时参阅图2,其为现有技术的CBOW 和Skip-gram模型示意图。两个模型都包含三层:输入层、投影层和输出层,CBOW模型是 在已知当前词Wt的上下文Wt-2,Wt-1,Wt+1,Wt+2的前提下,预测当前词Wt,而Skip-gram模型则相反,是在已知当前词Wt的前提下,预测上下文Wt-2,Wt-1,Wt+1,Wt+2。对于这两个模 型,Word2vec给出了两套框架,分别基于层次Softmax(Hierarchical Softmax)和负采样(Negative Sampling)来设计。
进一步再参阅图3,其为现有技术的CBOW模型的结构图。
该结构包含三层:输入层、投影层和输出层。
1.输入层:包含Context(w)中2n个词的词向量V(Context(W)1),V(Context(W)2),…, V(Context(W)2n)。
2.投影层:将输入层的2n个词向量做求和累加,即
3.输出层:输出层对应一棵二叉树,以语料中出现过的词为叶子节点,以各词在语料中 出现的次数作为权值构造出来的哈夫曼树,利用哈夫曼树上每一个分支都当做一次二分类, 每一次分类就产生一个概率,将这些概率乘起来就是所需的p(w|Context(w))。
本发明针对已有的Word2vec方法进行改进,加入对词性因素的考虑,对于使用CBOW 模型的Word2vec,改进后的模型如图4和图5所示,其分别为改进后的模型示意图和结构图。
其中W表示词Word,F表示词性Flag。
假设Context(w)由w前后各n个词和对应的n个词性共同构成,以样本(Context(w),w) 为例,对这四个层做简要说明。
1.输出层(Input Layer):选择窗口词的时候抽出每个窗口词以及它的词性所对应的向 量,包含Context(w)中2n个词语向量V(Context(W)1),V(Context(W)2),…,V(Context(W)2n) 以及这些词对应的2n个词性向量V(Context(F)1),V(Context(F)2),…,V(Context(F)2n)。
2.投影层(Projection Layer):将输入层的2n个词向量和对应的2n个词性向量做求和 累加,即将词向量和词性向量共同构成的窗口内所有向量求和,为
3.整合层(Subtraction Layer):词语向量和词性向量求和,求和的结果除以词语个数得 到向量均值,引入整合层,用于减去中心词的词性向量,向量均值与中心词的词性向量取差 值得到向量整合结果Nw
4.输出层(Output Layer):输出层对应一棵二叉树,以语料中出现过的词为叶子节点, 以各词在语料中出现的次数当权值构造出来的哈夫曼树,利用哈夫曼树上每一个分支都当做 一次二分类,每一次分类就产生一个概率,将这些概率乘起来就是所需的p(w|Context(w))。
接着,在对现有的Word2vec模型进行改进后,需要对模型进行训练,其中对于CBOW模型来说,训练过程的步骤如下:
步骤1.随机初始化词向量和词性向量,使用服从均匀分布的数据填充向量的每一维度。
步骤2.将中心词的上下文窗口内的词语和词性向量累加求和,因为上下文已经考虑了词 性,所以该向量实际上是融合了词性的向量因素的一个结果。
步骤3.求和累加之后,除以词语个数得到向量均值,向量均值与中心词的词性向量取差 值得到向量整合结果。
步骤4.构建哈夫曼树,构建哈夫曼树的叶子节点是词向量而不包括词性向量,原因是哈 夫曼树是以各词在语料中出现的次数作为权值来构造,相比单独的词语来说,词性出现的次 数要多得多,因为一个词性对应很多个词,如果也用词性构造哈夫曼树,就会出现不合理的 情况,平摊误差的时候只平摊给词向量,词性向量不进行更新,因为上下文的词和词性向量 的索引是一一对应的,而改进方案的目的是对词向量进行更新,词性向量本身相当于“催化剂” 的作用,用于影响词向量的优化过程,它本身的参数不进行优化。
步骤5.判断误差是否达到阈值,若未达到阈值,就继续训练网络,若达到阈值,就停止 训练。
步骤6.向量获取,分别输出词语及其词性向量。
请同时参阅图6,其为输出层的原理示意图,以下具体输出层概率计算的原理:
层次Softmax(Hierachical Softmax)是一种对输出层进行优化的策略,它利用哈夫曼树 来计算概率值,语料的词以出现的次数当权值来构造哈夫曼树,叶子节点为N个,分别对应 词典中的词,相对应的非叶子节点就有N-1个,假设约定将权值较大的子节点放在左边并且 编码为1,将权值较小的子节点放在右边并且编码为0,将一个节点分类时,分到左边为负类, 分到右边为正类,那么逻辑回归得到一个节点被分为正类的概率为:
被分为负类的概率为:对于每一个叶子节点都有一条 从根节点到它的路径,这个路径要经过若干个中间节点,每个中间节点都当做一次二分类, 每一次分类就产生一个概率,将这些概率乘起来就是所需的p(w|Context(w))。例如对于出现 次数为3的这个叶子节点,从根节点到这个节点中间共经历了4次分支(在这里用有向边来 表示),将每次分类结果的概率写出来就是:
1.第一次:
2.第二次:
3.第三次:
4.第四次:
哈夫曼树中必有一条从根节点到词w的唯一路径,计算叶节点的概率就是将路径上每个 分类器的概率相乘,对于词典的每个词w,假设pw表示从根节点到w对应节点路径,lw表 示pw中包含节点的个数,表示词w的哈夫曼编码,表示路径中非叶子节点对应的向量,故:
其中
经过推导得到对数似然函数之后,求最大概率,而关于该输出层的概率计算,在改进后 的模型中,也采用相同的原理。
以下结合具体例子,针对改进后的Word2vec模型的应用和效果进行说明:
本发明改进的Word2vec方法,利用词性向量提供更加丰富的信息,在训练词向量的过程 中加入词性的考虑。
例如对于句子,“我很喜欢做数学题”,如果按照经典Word2vec的CBOW模型方法,就是用前面3个词“我很喜欢做”去预测下一个词也就是第4个词“数学题”,现在加入词性的信息变成“我pron(指示代词)很喜欢adv(副词)做v(动词)数学题n(名词)”, 原来是4个词,现在加上词对应的词性提供的向量信息,共同来预测第4个词。特别地,词 性是事先随机初始化之后的,在调整优化的时候没有优化这些向量。
改进词向量模型之后,本发明从模型的效果上证明本方法拓展了Word2vec在语义计算上 的功能。
另外,本发明用多种方法来检验词向量化的效果,同时将改进后的模型做了创新的应用, 包括词语和词性的语义计算、词语语义范围的语义计算,跟改进前的Word2vec方法结果做对 比证明,本装置拓展了Word2vec在语义计算上的功能,丰富了词向量的语义信息。本发明的 词向量方法,效果优于改进前Word2vec的词向量化方法,检验方法如下:
1.词语向量余弦相似度的语义计算,输出常用词的前N个相似词,输出相似度进行对比。
2.词语和词性的语义计算,输出常用词对应的向量和词性向量的和的相似词,观察是否 有语义的规律。
例如:
打 对应向量 [2.1,-1.2,0.3]
v(动词) 对应向量 [0.2,-3.0,-2.0]
打+v(动词) 求和之后 [2.3,-4.2,-1.7]
假如“打”输出一个向量,“v(动词)”也输出一个向量那么“打”(向量)+“v” (向量)的结果去找前N个相似词,输出的是球(打球)、架(打架)等名词,而避免出现 其他词性或者像“打太阳”这种不符合语义的名词“太阳”这类情况。
3.测试模型得到少量常用词的前N个相似词及相似度,以相似度的平均值降序排序,观 察语义的相似度是否与向量的相似度正相关。
例如:
通过降序排序后:
4.词语语义范围的语义计算,选取若干个情感类型的情感词,递归找出各个情感词相关 的尽可能多且质量高的词语,并绘制关系图,如图7所示。
这个是通过多层嵌套的方法去寻找某领域相似词的关系,从而来拓展情感词典,比如说 原来的情感词典没办法找到“蓝瘦”、“香菇”这种情感新词,通过这种方法,能够较好地 扩充情感词典。
加入词性的词向量改进模型,拓展了Word2vec在语义计算上的功能,丰富了词向量的语 义信息,可以结合词向量和词性向量进行语义计算。
另外,请同时参阅图8,其为本发明的语义计算系统的框图。本发明还提供了一种词向 量的语义计算系统,其包括:语料预处理模块1,词性标注模块2,向量初始化模块3,上下 文向量整合模块4,中心词向量调整模块5,向量获取模块6,向量应用模块7。
所述语料预处理模块1,用于进行语料预处理。
所述词性标注模块2,用于对每个词的词性进行标注。具体的,所述词性标注模块采用 jieba分词词典进行词性标注。
所述向量初始化模块3,用于对词语向量和词性向量进行随机向量化。具体的,所述向 量初始化模块通过设定向量的维度,然后使用服从均匀分布的数据填充向量的每一维度。
所述上下文向量整合模块4,用于将词语向量和词性向量求和,求和的结果除以词语个 数得到向量均值,向量均值与中心词的词性向量取差值得到向量整合结果。
所述中心词向量调整模块5,用于构建哈夫曼树并训练网络,优化目标函数并判断误差 是否达到阈值。
所述向量获取模块6,用于获取词语向量和词性向量。
所述向量应用模块7,用于对词语向量和词性向量进行应用。
进一步,所述语料预处理模块1包括:无关字符去除子模块11、表达规范子模块12和 分词子模块13。
所述无关字符去除子模块11,用于去除无关字符,包括去除标点符号和乱码。
所述表达规范子模块12,用于统一表达规范,将中文语料都转为中文简体、英文语料统 一为英文小写。
所述分词子模块13,用于使用jieba分词中的搜索引擎分词模式进行分词。
进一步,所述中心词向量调整模块5包括:构建子模块51和误差判断子模块52。
所述构建子模块51,用于构建哈夫曼树,该哈夫曼树的叶子节点为词向量。
所述误差判断子模块52,用于判断误差是否达到阈值,若未达到阈值,就继续训练网络; 若达到阈值,就停止训练。
进一步,所述向量应用模块7包括:词语向量余弦相似度的语义计算子模块71、词语和 词性的语义计算子模块72和词语语义范围的语义计算子模块73。
所述词语向量余弦相似度的语义计算子模块71,用于输出常用词的前N个相似词,所述 前N为正整数。
所述词语和词性的语义计算子模块72,用于输出常用词对应的向量和词性向量的和的相 似词。
所述词语语义范围的语义计算子模块73,用于选取若干个情感类型的情感词,递归找出 各个情感词相关的词语,并绘制关系图。
本发明中的词向量的语义计算系统与上述的哈弗曼树改进词向量模型的语义计算方法的 原理相同,故这里就不赘述。
相比于现有技术,本发明加入了词性向量因素的考虑,并根据现有的Word2vec模型进行 改进。同时,根据该改进后的模型进行了创新的应用,拓展了Word2vec进行语义计算的功能。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制, 其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应 为等效的置换方式,都包含在本发明的保护范围之内。

Claims (8)

1.一种改进词向量模型的语义计算方法,其特征在于:包括以下步骤:
S1:语料预处理,对语料进行清理,规范化,分词操作;
S2:词性标注,对语料预处理后得到的词语进行标注词性;
S3:向量初始化,对词性标注后得到的词语和词性进行向量化;
S4:上下文向量整合,对词语的上下文词语向量及词性向量进行计算整合;
S5:构建哈夫曼树并训练网络,优化目标函数并判断误差是否达到阈值;
S6:向量获取,获取词语向量和词性向量;
S7:向量应用,应用词语向量和词性向量进行语义计算。
2.根据权利要求1所述改进词向量模型的语义计算方法,其特征在于:所述步骤S1中,具体包括:
S11:去除无关字符,包括去除标点符号和乱码;
S12:统一表达规范,将中文语料都转为中文简体,将英文语料统一为英文小写;
S13:分词,使用jieba分词中的搜索引擎分词模式进行分词。
3.根据权利要求1所述改进词向量模型的语义计算方法,其特征在于:所述步骤S2中,具体为:对语料中分词后的每个词语采用jieba分词词典进行词性标注。
4.根据权利要求1所述改进词向量模型的语义计算方法,其特征在于:所述步骤S3中,具体为:对词语向量和词性向量进行随机向量化,首先设定向量的维度,然后使用服从均匀分布的数据填充向量的每一维度。
5.根据权利要求1所述改进词向量模型的语义计算方法,其特征在于:所述步骤S4中,具体为:将词语向量和词性向量求和,求和的结果除以词语个数得到向量均值,向量均值与中心词的词性向量取差值得到向量整合结果。
6.根据权利要求1所述改进词向量模型的语义计算方法,其特征在于:所述步骤S5中,具体包括:
S51:构建哈夫曼树,该哈夫曼树的叶子节点为词向量;
S52:判断误差是否达到阈值,若未达到阈值,则继续训练网络,并返回步骤S4;若达到阈值,则停止训练,并执行步骤S6。
7.根据权利要求1所述改进词向量模型的语义计算方法,其特征在于:所述步骤S6中,具体为:从训练好的哈夫曼树中得到词语向量和词性向量。
8.根据权利要求1所述改进词向量模型的语义计算方法,其特征在于:所述步骤S7中,具体包括:
S71:词语向量余弦相似度的语义计算,输出给定词的前N个相似词,所述前N为正整数,从而找到与给定词相似的词语;
S72:词语和词性的语义计算,输出给定词对应的向量和给定词性对应的向量的和的相似词,从而找到与给定词相关的词性为给定词性的词语;
S73:词语语义范围的语义计算,选取若干个词语,递归找出与选取词语相关的词语,并绘制词语间的关系图,从而了解选取词语的语义范围。
CN201710452382.5A 2017-06-15 2017-06-15 一种改进词向量模型的语义计算方法 Active CN107291693B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710452382.5A CN107291693B (zh) 2017-06-15 2017-06-15 一种改进词向量模型的语义计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710452382.5A CN107291693B (zh) 2017-06-15 2017-06-15 一种改进词向量模型的语义计算方法

Publications (2)

Publication Number Publication Date
CN107291693A true CN107291693A (zh) 2017-10-24
CN107291693B CN107291693B (zh) 2021-01-12

Family

ID=60097437

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710452382.5A Active CN107291693B (zh) 2017-06-15 2017-06-15 一种改进词向量模型的语义计算方法

Country Status (1)

Country Link
CN (1) CN107291693B (zh)

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107967258A (zh) * 2017-11-23 2018-04-27 广州艾媒数聚信息咨询股份有限公司 文本信息的情感分析方法和系统
CN108038105A (zh) * 2017-12-22 2018-05-15 中科鼎富(北京)科技发展有限公司 一种对未登录词生成仿真词向量的方法及装置
CN108062307A (zh) * 2018-01-04 2018-05-22 中国科学技术大学 基于词嵌入模型的文本语义隐写分析方法
CN108153730A (zh) * 2017-12-25 2018-06-12 北京奇艺世纪科技有限公司 一种多义词词向量训练方法及装置
CN108170676A (zh) * 2017-12-27 2018-06-15 百度在线网络技术(北京)有限公司 故事创作的方法、系统和终端
CN108268449A (zh) * 2018-02-10 2018-07-10 北京工业大学 一种基于词项聚类的文本语义标签抽取方法
CN108628831A (zh) * 2018-05-04 2018-10-09 中南大学 一种查重方法
CN108628834A (zh) * 2018-05-14 2018-10-09 国家计算机网络与信息安全管理中心 一种基于句法依存关系的词语表示学习方法
CN108763487A (zh) * 2018-05-30 2018-11-06 华南理工大学 一种基于Mean Shift的融合词性和句子信息的词表示方法
CN108804423A (zh) * 2018-05-30 2018-11-13 平安医疗健康管理股份有限公司 医疗文本特征提取与自动匹配方法和系统
CN109086270A (zh) * 2018-07-24 2018-12-25 重庆大学 基于古诗词语料向量化的自动作诗系统及其方法
CN109271632A (zh) * 2018-09-14 2019-01-25 重庆邂智科技有限公司 一种监督的词向量学习方法
CN109271635A (zh) * 2018-09-18 2019-01-25 中山大学 一种嵌入外部词典信息的词向量改进方法
CN109523082A (zh) * 2018-11-20 2019-03-26 广东机场白云信息科技有限公司 一种基于cnn-lstm航班正常放行率预测的方法
CN109657061A (zh) * 2018-12-21 2019-04-19 合肥工业大学 一种针对海量多词短文本的集成分类方法
CN109710921A (zh) * 2018-12-06 2019-05-03 深圳市中农易讯信息技术有限公司 词语相似度的计算方法、装置、计算机设备及存储介质
CN109739978A (zh) * 2018-12-11 2019-05-10 中科恒运股份有限公司 一种文本聚类方法、文本聚类装置及终端设备
CN109767817A (zh) * 2019-01-16 2019-05-17 南通大学 一种基于神经网络语言模型的药物潜在不良反应发现方法
CN109829149A (zh) * 2017-11-23 2019-05-31 中国移动通信有限公司研究院 一种词向量模型的生成方法及装置、设备、存储介质
CN109858013A (zh) * 2018-06-01 2019-06-07 安徽省泰岳祥升软件有限公司 一种有监督的词向量训练方法及装置
CN109902283A (zh) * 2018-05-03 2019-06-18 华为技术有限公司 一种信息输出方法及装置
CN109918651A (zh) * 2019-02-14 2019-06-21 北京小米智能科技有限公司 同义词性模板获取方法及装置
CN110059310A (zh) * 2018-01-19 2019-07-26 腾讯科技(深圳)有限公司 上位词网络的扩充方法及装置、电子设备、存储介质
CN110083825A (zh) * 2019-03-21 2019-08-02 昆明理工大学 一种基于gru模型的老挝语情感分析方法
CN110264311A (zh) * 2019-05-30 2019-09-20 佛山科学技术学院 一种基于深度学习的商业推广信息精准推荐方法及系统
CN110298016A (zh) * 2018-03-21 2019-10-01 普天信息技术有限公司 一种词性标注方法及装置
CN110348001A (zh) * 2018-04-04 2019-10-18 腾讯科技(深圳)有限公司 一种词向量训练方法和服务器
CN110377899A (zh) * 2019-05-30 2019-10-25 北京达佳互联信息技术有限公司 一种确定词语词性的方法、装置及电子设备
CN110413779A (zh) * 2019-07-16 2019-11-05 深圳供电局有限公司 一种针对电力行业的词向量训练方法及其系统、介质
CN110705274A (zh) * 2019-09-06 2020-01-17 电子科技大学 基于实时学习的融合型词义嵌入方法
CN110807646A (zh) * 2018-08-06 2020-02-18 北京京东尚科信息技术有限公司 数据分析方法、装置和计算机可读存储介质
CN110908523A (zh) * 2018-09-14 2020-03-24 北京搜狗科技发展有限公司 一种输入方法及装置
CN110929511A (zh) * 2018-09-04 2020-03-27 清华大学 一种基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法
CN111144129A (zh) * 2019-12-26 2020-05-12 成都航天科工大数据研究院有限公司 一种基于自回归与自编码的语义相似度获取方法
CN111613331A (zh) * 2020-05-21 2020-09-01 安徽理工大学 一种基于随机森林和word2vec的矿工营养代谢评估方法及系统
CN111625647A (zh) * 2020-05-25 2020-09-04 红船科技(广州)有限公司 一种无监督的新闻自动分类方法
CN111708886A (zh) * 2020-06-11 2020-09-25 国网天津市电力公司 一种基于数据驱动的舆情分析终端及舆情文本分析方法
CN112528629A (zh) * 2019-08-29 2021-03-19 上海卓繁信息技术股份有限公司 语句通顺度判别方法及系统
CN113643703A (zh) * 2021-08-06 2021-11-12 西北工业大学 一种语音驱动虚拟人的口令理解方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5748973A (en) * 1994-07-15 1998-05-05 George Mason University Advanced integrated requirements engineering system for CE-based requirements assessment
US20090089058A1 (en) * 2007-10-02 2009-04-02 Jerome Bellegarda Part-of-speech tagging using latent analogy
CN104462066A (zh) * 2014-12-24 2015-03-25 北京百度网讯科技有限公司 语义角色标注方法及装置
CN104899304A (zh) * 2015-06-12 2015-09-09 北京京东尚科信息技术有限公司 命名实体识别方法及装置
CN105243129A (zh) * 2015-09-30 2016-01-13 清华大学深圳研究生院 商品属性特征词聚类方法
CN105955951A (zh) * 2016-04-29 2016-09-21 中山大学 一种消息过滤的方法及装置
CN106202065A (zh) * 2016-06-30 2016-12-07 中央民族大学 一种跨语言话题检测方法及系统
CN106502994A (zh) * 2016-11-29 2017-03-15 上海智臻智能网络科技股份有限公司 一种文本的关键词提取的方法和装置
CN106815194A (zh) * 2015-11-27 2017-06-09 北京国双科技有限公司 模型训练方法及装置和关键词识别方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5748973A (en) * 1994-07-15 1998-05-05 George Mason University Advanced integrated requirements engineering system for CE-based requirements assessment
US20090089058A1 (en) * 2007-10-02 2009-04-02 Jerome Bellegarda Part-of-speech tagging using latent analogy
CN104462066A (zh) * 2014-12-24 2015-03-25 北京百度网讯科技有限公司 语义角色标注方法及装置
CN104899304A (zh) * 2015-06-12 2015-09-09 北京京东尚科信息技术有限公司 命名实体识别方法及装置
CN105243129A (zh) * 2015-09-30 2016-01-13 清华大学深圳研究生院 商品属性特征词聚类方法
CN106815194A (zh) * 2015-11-27 2017-06-09 北京国双科技有限公司 模型训练方法及装置和关键词识别方法及装置
CN105955951A (zh) * 2016-04-29 2016-09-21 中山大学 一种消息过滤的方法及装置
CN106202065A (zh) * 2016-06-30 2016-12-07 中央民族大学 一种跨语言话题检测方法及系统
CN106502994A (zh) * 2016-11-29 2017-03-15 上海智臻智能网络科技股份有限公司 一种文本的关键词提取的方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ACHMAD F. ABKA 等: "Evaluating the use of word embeddings for part-of-speech tagging in Bahasa Indonesia", 《2016 INTERNATIONAL CONFERENCE ON COMPUTER, CONTROL, INFORMATICS AND ITS APPLICATIONS》 *
于洁: "Skip-Gram模型融合词向量投影的微博新词发现", 《计算机系统应用》 *
廖健 等: "基于增强字向量的微博观点句情感极性分类方法", 《郑州大学学报(理学版)》 *

Cited By (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107967258A (zh) * 2017-11-23 2018-04-27 广州艾媒数聚信息咨询股份有限公司 文本信息的情感分析方法和系统
CN109829149A (zh) * 2017-11-23 2019-05-31 中国移动通信有限公司研究院 一种词向量模型的生成方法及装置、设备、存储介质
CN107967258B (zh) * 2017-11-23 2021-09-17 广州艾媒数聚信息咨询股份有限公司 文本信息的情感分析方法和系统
CN108038105B (zh) * 2017-12-22 2020-06-05 中科鼎富(北京)科技发展有限公司 一种对未登录词生成仿真词向量的方法及装置
CN108038105A (zh) * 2017-12-22 2018-05-15 中科鼎富(北京)科技发展有限公司 一种对未登录词生成仿真词向量的方法及装置
CN108153730A (zh) * 2017-12-25 2018-06-12 北京奇艺世纪科技有限公司 一种多义词词向量训练方法及装置
CN108170676A (zh) * 2017-12-27 2018-06-15 百度在线网络技术(北京)有限公司 故事创作的方法、系统和终端
CN108062307A (zh) * 2018-01-04 2018-05-22 中国科学技术大学 基于词嵌入模型的文本语义隐写分析方法
CN110059310B (zh) * 2018-01-19 2022-10-28 腾讯科技(深圳)有限公司 上位词网络的扩充方法及装置、电子设备、存储介质
CN110059310A (zh) * 2018-01-19 2019-07-26 腾讯科技(深圳)有限公司 上位词网络的扩充方法及装置、电子设备、存储介质
CN108268449A (zh) * 2018-02-10 2018-07-10 北京工业大学 一种基于词项聚类的文本语义标签抽取方法
CN110298016A (zh) * 2018-03-21 2019-10-01 普天信息技术有限公司 一种词性标注方法及装置
CN110348001A (zh) * 2018-04-04 2019-10-18 腾讯科技(深圳)有限公司 一种词向量训练方法和服务器
CN110348001B (zh) * 2018-04-04 2022-11-25 腾讯科技(深圳)有限公司 一种词向量训练方法和服务器
CN109902283A (zh) * 2018-05-03 2019-06-18 华为技术有限公司 一种信息输出方法及装置
CN108628831A (zh) * 2018-05-04 2018-10-09 中南大学 一种查重方法
CN108628834A (zh) * 2018-05-14 2018-10-09 国家计算机网络与信息安全管理中心 一种基于句法依存关系的词语表示学习方法
CN108628834B (zh) * 2018-05-14 2022-04-15 国家计算机网络与信息安全管理中心 一种基于句法依存关系的词语表示学习方法
CN108763487A (zh) * 2018-05-30 2018-11-06 华南理工大学 一种基于Mean Shift的融合词性和句子信息的词表示方法
CN108804423A (zh) * 2018-05-30 2018-11-13 平安医疗健康管理股份有限公司 医疗文本特征提取与自动匹配方法和系统
CN108804423B (zh) * 2018-05-30 2023-09-08 深圳平安医疗健康科技服务有限公司 医疗文本特征提取与自动匹配方法和系统
CN109858013A (zh) * 2018-06-01 2019-06-07 安徽省泰岳祥升软件有限公司 一种有监督的词向量训练方法及装置
CN109858013B (zh) * 2018-06-01 2022-12-16 安徽省泰岳祥升软件有限公司 一种有监督的词向量训练方法及装置
CN109086270B (zh) * 2018-07-24 2022-03-01 重庆大学 基于古诗词语料向量化的自动作诗系统及其方法
CN109086270A (zh) * 2018-07-24 2018-12-25 重庆大学 基于古诗词语料向量化的自动作诗系统及其方法
CN110807646A (zh) * 2018-08-06 2020-02-18 北京京东尚科信息技术有限公司 数据分析方法、装置和计算机可读存储介质
CN110929511B (zh) * 2018-09-04 2021-12-17 清华大学 一种基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法
CN110929511A (zh) * 2018-09-04 2020-03-27 清华大学 一种基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法
CN109271632A (zh) * 2018-09-14 2019-01-25 重庆邂智科技有限公司 一种监督的词向量学习方法
CN110908523A (zh) * 2018-09-14 2020-03-24 北京搜狗科技发展有限公司 一种输入方法及装置
CN109271635A (zh) * 2018-09-18 2019-01-25 中山大学 一种嵌入外部词典信息的词向量改进方法
CN109271635B (zh) * 2018-09-18 2023-02-07 中山大学 一种嵌入外部词典信息的词向量改进方法
CN109523082A (zh) * 2018-11-20 2019-03-26 广东机场白云信息科技有限公司 一种基于cnn-lstm航班正常放行率预测的方法
CN109523082B (zh) * 2018-11-20 2023-12-22 广东机场白云信息科技股份有限公司 一种基于cnn-lstm航班正常放行率预测的方法
CN109710921A (zh) * 2018-12-06 2019-05-03 深圳市中农易讯信息技术有限公司 词语相似度的计算方法、装置、计算机设备及存储介质
CN109739978A (zh) * 2018-12-11 2019-05-10 中科恒运股份有限公司 一种文本聚类方法、文本聚类装置及终端设备
CN109657061A (zh) * 2018-12-21 2019-04-19 合肥工业大学 一种针对海量多词短文本的集成分类方法
CN109657061B (zh) * 2018-12-21 2020-11-27 合肥工业大学 一种针对海量多词短文本的集成分类方法
CN109767817B (zh) * 2019-01-16 2023-05-30 南通大学 一种基于神经网络语言模型的药物潜在不良反应发现方法
CN109767817A (zh) * 2019-01-16 2019-05-17 南通大学 一种基于神经网络语言模型的药物潜在不良反应发现方法
CN109918651A (zh) * 2019-02-14 2019-06-21 北京小米智能科技有限公司 同义词性模板获取方法及装置
CN109918651B (zh) * 2019-02-14 2023-05-02 北京小米智能科技有限公司 同义词性模板获取方法及装置
CN110083825A (zh) * 2019-03-21 2019-08-02 昆明理工大学 一种基于gru模型的老挝语情感分析方法
CN110264311B (zh) * 2019-05-30 2023-04-18 佛山科学技术学院 一种基于深度学习的商业推广信息精准推荐方法及系统
CN110377899A (zh) * 2019-05-30 2019-10-25 北京达佳互联信息技术有限公司 一种确定词语词性的方法、装置及电子设备
CN110264311A (zh) * 2019-05-30 2019-09-20 佛山科学技术学院 一种基于深度学习的商业推广信息精准推荐方法及系统
CN110413779B (zh) * 2019-07-16 2022-05-03 深圳供电局有限公司 一种针对电力行业的词向量训练方法及其系统、介质
CN110413779A (zh) * 2019-07-16 2019-11-05 深圳供电局有限公司 一种针对电力行业的词向量训练方法及其系统、介质
CN112528629A (zh) * 2019-08-29 2021-03-19 上海卓繁信息技术股份有限公司 语句通顺度判别方法及系统
CN110705274A (zh) * 2019-09-06 2020-01-17 电子科技大学 基于实时学习的融合型词义嵌入方法
CN110705274B (zh) * 2019-09-06 2023-03-24 电子科技大学 基于实时学习的融合型词义嵌入方法
CN111144129B (zh) * 2019-12-26 2023-06-06 成都航天科工大数据研究院有限公司 一种基于自回归与自编码的语义相似度获取方法
CN111144129A (zh) * 2019-12-26 2020-05-12 成都航天科工大数据研究院有限公司 一种基于自回归与自编码的语义相似度获取方法
CN111613331A (zh) * 2020-05-21 2020-09-01 安徽理工大学 一种基于随机森林和word2vec的矿工营养代谢评估方法及系统
CN111625647B (zh) * 2020-05-25 2023-05-02 王旭 一种无监督的新闻自动分类方法
CN111625647A (zh) * 2020-05-25 2020-09-04 红船科技(广州)有限公司 一种无监督的新闻自动分类方法
CN111708886A (zh) * 2020-06-11 2020-09-25 国网天津市电力公司 一种基于数据驱动的舆情分析终端及舆情文本分析方法
CN113643703A (zh) * 2021-08-06 2021-11-12 西北工业大学 一种语音驱动虚拟人的口令理解方法
CN113643703B (zh) * 2021-08-06 2024-02-27 西北工业大学 一种语音驱动虚拟人的口令理解方法

Also Published As

Publication number Publication date
CN107291693B (zh) 2021-01-12

Similar Documents

Publication Publication Date Title
CN107291693A (zh) 一种改进词向量模型的语义计算方法
CN106202010B (zh) 基于深度神经网络构建法律文本语法树的方法和装置
CN110377686B (zh) 一种基于深度神经网络模型的地址信息特征抽取方法
CN107229610B (zh) 一种情感数据的分析方法及装置
CN109544524A (zh) 一种基于注意力机制的多属性图像美学评价系统
CN108280064A (zh) 分词、词性标注、实体识别及句法分析的联合处理方法
CN109783817A (zh) 一种基于深度强化学习的文本语义相似计算模型
CN106547735A (zh) 基于深度学习的上下文感知的动态词或字向量的构建及使用方法
Hong et al. Sentiment analysis with deeply learned distributed representations of variable length texts
CN108268449A (zh) 一种基于词项聚类的文本语义标签抽取方法
CN115393692A (zh) 基于生成式预训练语言模型的联想文本到图像生成方法
CN107766320A (zh) 一种中文代词消解模型建立方法及装置
CN110427616A (zh) 一种基于深度学习的文本情感分析方法
CN110765755A (zh) 一种基于双重选择门的语义相似度特征提取方法
CN106997341A (zh) 一种创新方案匹配方法、装置、服务器及系统
CN108647191A (zh) 一种基于有监督情感文本和词向量的情感词典构建方法
CN107679225A (zh) 一种基于关键词的回复生成方法
Fu et al. Long short-term memory network over rhetorical structure theory for sentence-level sentiment analysis
CN110457661A (zh) 自然语言生成方法、装置、设备及存储介质
CN108363685B (zh) 基于递归变分自编码模型的自媒体数据文本表示方法
CN108519976A (zh) 基于神经网络生成大规模情感词典的方法
CN113255366A (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN114254645A (zh) 一种人工智能辅助写作系统
CN112579794B (zh) 一种为中英文单词对预测义原树的方法及系统
CN115422939B (zh) 一种基于大数据的细粒度商品命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant