CN107291693B - 一种改进词向量模型的语义计算方法 - Google Patents
一种改进词向量模型的语义计算方法 Download PDFInfo
- Publication number
- CN107291693B CN107291693B CN201710452382.5A CN201710452382A CN107291693B CN 107291693 B CN107291693 B CN 107291693B CN 201710452382 A CN201710452382 A CN 201710452382A CN 107291693 B CN107291693 B CN 107291693B
- Authority
- CN
- China
- Prior art keywords
- speech
- vector
- word
- words
- vectors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种改进词向量模型的语义计算方法,包括以下步骤:S1:语料预处理;S2:词性标注,对语料预处理后得到的词语进行标注词性;S3:向量初始化,对词性标注后得到的词语和词性进行向量化;S4:上下文向量整合,对词语的上下文词语向量及词性向量进行计算整合;S5:构建哈夫曼树并训练网络,优化目标函数并判断误差是否达到阈值;S6:向量获取,获取词语向量和词性向量;S7:向量应用,应用词语向量和词性向量进行语义计算。相比于现有技术,本发明在向量中加入了词性的因素,并对现有的Word2vec模型进行改进。同时,根据该改进后的模型进行了创新的应用,拓展了Word2vec进行语义计算的功能。
Description
技术领域
本发明涉及信息科学领域,具体是一种改进Word2vec词向量模型的语义计算方法及系统。
背景技术
将自然语言交给机器学习算法来处理,需要将语言进行数学化处理,词向量化就是一种方式。进行词向量化最简单的方式为独热码表示法(One-hot Representation),该方法通过创建一个词表库,并对词库中的每个词进行顺序编号来赋予每个词一个向量,向量的分量只有一个1,其他全为0。这种词向量表示法有2个缺点:(1)容易产生维数灾难;(2)不能很好的刻画词与词之间的相似性,即语义鸿沟。为了克服这种缺陷,Hinton在1986年提出分布式表示方法(Distributed Representation),其基本思想是通过训练将每个词映射成一个固定长度的k维实数短向量(k为正整数),然后将所有向量映射到向量空间,每个向量对应空间上的一个点,在空间上计算向量与向量之间的距离,就可以判断它们之间的相似度。分布式表示法的一种生成词向量的方式是利用神经网络算法,该方法通过训练神经网络最终得到词向量和语言模型。Bengio于2003年提出神经网络语言模型(NeuralNetwork Language Model),其核心思想是利用神经网络建立N-Gram语言模型,将每个词表示成一个浮点向量,然后作为神经网络的输入,通过随机梯度算法对神经网络参数进行训练,训练完成之后同时得到语言模型和词向量。
目前比较广泛应用的词向量化方法是基于Word2vec去训练得到词向量模型,Word2vec训练词向量的过程,就是构建一个多层神经网络,然后在给定文本中获得对应的输入和输出,在训练过程中不断修正神经网络中的参数,最终得到词向量。Word2vec的核心模型就是CBOW模型(Continuous Bag-of-Words Model)和Skip-gram模型(ContinuousSkip-gram Model),CBOW模型是根据当前词上下文的2n个词来预测当前词(设词窗大小为n),它的输入是周围词向量之和,输出是当前词词向量;而Skip-gram模型是根据当前词本身来预测周围有哪些词,它的输入是当前词词向量,输出是上下文的词向量。传统Word2vec训练词向量的效果,在语义功能上体现为简单的线性关系,比如说:“男人-皇帝=女人-皇后”、“医生-手术=老师-教学”等,正是由于这个特性,使得Word2vec生成的词向量具有初步的语义推理能力。
然而,现有技术中的Word2vec没有充分考虑词性因素,而词性是训练词向量的重要信息,因为词性本身就涵盖了语义信息和语法规则,利用词性信息可以很好的结合词语的搭配顺序、规律和关系,比如形容词后面可以加名词而不能加副词,因而影响了模型对语义的深层理解。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供了一种加入词性向量因素的改进Word2vec词向量模型的语义计算方法及系统。
本发明通过以下的方案实现:一种改进词向量模型的语义计算方法,包括以下步骤:S1:语料预处理,对语料进行清理,规范化,分词操作;
S2:词性标注,对语料预处理后得到的词语进行标注词性;
S3:向量初始化,对词性标注后得到的词语和词性进行向量化;
S4:上下文向量整合,将词语向量和词性向量求和,求和的结果除以词语个数得到向量均值,向量均值与中心词的词性向量取差值得到向量整合结果;
S5:构建哈夫曼树并训练网络,优化目标函数并判断误差是否达到阈值;
S6:向量获取,获取词语向量和词性向量。
S7:向量应用,应用词语向量和词性向量进行语义计算。
作为本发明的进一步改进,所述步骤S1中,具体包括:
S11:去除无关字符,包括去除标点符号和乱码;
S12:统一表达规范,将中文语料都转为中文简体,英文语料统一为英文小写;
S13:分词,使用jieba分词中的搜索引擎分词模式进行分词。
作为本发明的进一步改进,所述步骤S2中采用jieba分词词典进行词性标注。
作为本发明的进一步改进,所述步骤S3中,具体为:首先设定向量的维度,然后使用服从均匀分布的数据填充向量的每一维度。
作为本发明的进一步改进,所述步骤S5中,具体包括:
S51:构建哈夫曼树,该哈夫曼树的叶子节点为词向量;
S52:判断误差是否达到阈值,若未达到阈值,就继续训练网络,并返回步骤S4;若达到阈值,就停止训练,并执行步骤S6。
作为本发明的进一步改进,还包括步骤S7:对词语向量和词性向量进行应用,具体包括:
S71:词语向量余弦相似度的语义计算,输出常用词的前N个相似词,所述前N为正整数;
S72:词语和词性的语义计算,输出常用词对应的向量和词性向量的和的相似词;
S73:词语语义范围的语义计算,选取若干个情感类型的情感词,递归找出各个情感词相关的词语,并绘制关系图。
本发明还提供了一种词向量的语义计算系统,其包括:
语料预处理模块,用于进行语料预处理;
词性标注模块,用于对每个词的词性进行标注;
向量初始化模块,用于对词语向量和词性向量进行随机向量化;
上下文向量整合模块,用于将词语向量和词性向量求和,求和的结果除以词语个数得到向量均值,向量均值与中心词的词性向量取差值得到向量整合结果;
中心词向量调整模块,用于对中心词向量进行调整,优化目标函数;
向量获取模块,用于获取词语向量和词性向量。
作为本发明的进一步改进,所述语料预处理模块包括:
无关字符去除子模块,用于去除无关字符,包括去除标点符号和乱码;
表达规范子模块,用于统一表达规范,将中文语料都转为中文简体,英文语料统一为英文小写;
分词子模块,用于使用jieba分词中的搜索引擎分词模式进行分词。
作为本发明的进一步改进,所述词性标注模块采用jieba分词词典进行词性标注。
作为本发明的进一步改进,所述向量初始化模块通过设定向量的维度,然后使用服从均匀分布的数据填充向量的每一维度。
作为本发明的进一步改进,所述中心词向量调整模块包括:
训练子模块,用于构建哈夫曼树,该哈夫曼树的叶子节点为词向量;
误差判断子模块,用于判断误差是否达到阈值,若未达到阈值,就继续训练网络;若达到阈值,就停止训练。
作为本发明的进一步改进,还包括向量应用模块,用于对词语向量和词性向量进行应用;所述向量应用模块包括:
词语向量余弦相似度的语义计算子模块,用于输出常用词的前N个相似词,所述前N为正整数;
词语和词性的语义计算子模块,用于输出常用词对应的向量和词性向量的和的相似词;
词语语义范围的语义计算子模块,用于选取若干个情感类型的情感词,递归找出各个情感词相关的词语,并绘制关系图。
相比于现有技术,本发明加入了词性向量的考虑,并且根据现有的Word2vec模型进行改进。同时,根据该改进后的模型进行了创新的应用,拓展了Word2vec进行语义计算的功能。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1是本发明的改进词向量模型的语义计算方法的步骤流程图。
图2是现有技术的CBOW和Skip-gram模型示意图。
图3是现有技术的CBOW模型的结构图。
图4是本发明改进后的模型示意图。
图5是本发明改进后的结构图。
图6是输出层的原理示意图。
图7是情感相关词语的关系图。
图8是本发明的语义计算系统的框图。
具体实施方式
以下结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
本发明为了解决现有技术的缺陷,提供了一种改进Word2vec词向量模型的语义计算方法及系统。
具体通过以下实施例进行介绍:
首先,先对本发明的改进词向量模型的语义计算方法的整体流程进行介绍。具体请参阅图1,其为本发明的改进词向量模型的语义计算方法的步骤流程图。本发明提供了一种改进词向量模型的语义计算方法,包括以下步骤:
S1:语料预处理。具体的所述步骤S1中包括:
S11:去除无关字符,包括去除标点符号和乱码。
S12:统一表达规范,将中文语料都转为中文简体,英文语料统一为英文小写。
S13:分词,使用jieba分词中的搜索引擎分词模式进行分词。
S2:词性标注,对语料预处理后得到的词语进行标注词性。具体的,所述步骤S2中采用jieba分词词典进行词性标注,可以标注句子分词后每个词的词性,词性标注集采用北大计算所词性标注集,属于基于统计模型的标注方法。
S3:向量初始化,对词性标注后得到的词语和词性进行向量化所述步骤S3中,具体为:首先设定向量的维度,然后使用服从均匀分布的数据填充向量的每一维度。
S4:上下文向量整合,对词语的上下文词语向量及词性向量进行计算整合,具体为:将词语向量和词性向量求和,求和的结果除以词语个数得到向量均值,向量均值与中心词的词性向量取差值得到向量整合结果。
S5:构建哈夫曼树并训练网络,优化目标函数并判断误差是否达到阈值;所述步骤S5中,具体包括:
S51:构建哈夫曼树,该哈夫曼树的叶子节点为词向量。
S52:判断误差是否达到阈值,若未达到阈值,就继续训练网络,并返回步骤S4;若达到阈值,就停止训练,并执行步骤S6。
S6:向量获取,获取词语向量和词性向量。
S7:对词语向量和词性向量进行应用。具体的,所述步骤S7包括:
S71:词语向量余弦相似度的语义计算,输出常用词的前N个相似词,所述前N为正整数。
S72:词语和词性的语义计算,输出常用词对应的向量和词性向量的和的相似词。
S73:词语语义范围的语义计算,选取若干个情感类型的情感词,递归找出各个情感词相关的词语,并绘制关系图。
以下具体介绍本发明的具体原理和过程:
首先,本发明需要针对现有的Word2vec词向量化模型进行改进,具体的改进步骤如下:
步骤1.首先建立词语与词性的词典。
现有的词向量训练方法,无论是神经概率语言模型还是Word2vec,都没有考虑词性,这对训练词向量来说是一种信息缺失。因此在本发明中,以CBOW模型为例,输入上下文的词性向量并且将它们加入到训练的过程中,成为与上下文词向量共同预测当前词词向量的重要信息,所以跟传统方法不同,一开始要先对语料中所有的词分别构建词语和词性一一对应的词典。
另外,如果加入词性训练仅从改变语料方面考虑而不改模型和源码,可以直接导入由词语和词性先后一一对应的混合语料,在训练模型设置窗口词时将窗口设置为原来的2倍,其他训练参数不变,因为在jieba分词中每一个词都附带而且唯一匹配一个词性,这种改语料不改模型的方法跟本发明中通过改模型的方法有所不同。
步骤2.初始化词向量的同时,通过同样的方法来初始化词性向量。
在以往的方法中,用神经网络训练得到词向量的第一步便是随机初始化词向量,然后投入神经网络中训练,进而不断调整各种参数包括词向量本身,本发明以初始化词向量的方法来随机初始化词性向量,目的是让词向量和词性向量保持维度相等
步骤3.模型训练过程加入词性向量的考虑。
原来的Word2vec中用的两个重要模型——CBOW模型(Continuous Bag-of-WordsModel)和Skip-gram模型(Continuous Skip-gram Model)。请同时参阅图2,其为现有技术的CBOW和Skip-gram模型示意图。两个模型都包含三层:输入层、投影层和输出层,CBOW模型是在已知当前词Wt的上下文Wt-2,Wt-1,Wt+1,Wt+2的前提下,预测当前词Wt,而Skip-gram模型则相反,是在已知当前词Wt的前提下,预测上下文Wt-2,Wt-1,Wt+1,Wt+2。对于这两个模型,Word2vec给出了两套框架,分别基于层次Softmax(Hierarchical Softmax)和负采样(Negative Sampling)来设计。
进一步再参阅图3,其为现有技术的CBOW模型的结构图。
该结构包含三层:输入层、投影层和输出层。
1.输入层:包含Context(w)中2n个词的词向量V(Context(W)1),V(Context(W)2),…,V(Context(W)2n)。
3.输出层:输出层对应一棵二叉树,以语料中出现过的词为叶子节点,以各词在语料中出现的次数作为权值构造出来的哈夫曼树,利用哈夫曼树上每一个分支都当做一次二分类,每一次分类就产生一个概率,将这些概率乘起来就是所需的p(w|Context(w))。
本发明针对已有的Word2vec方法进行改进,加入对词性因素的考虑,对于使用CBOW模型的Word2vec,改进后的模型如图4和图5所示,其分别为改进后的模型示意图和结构图。
其中W表示词Word,F表示词性Flag。
假设Context(w)由w前后各n个词和对应的n个词性共同构成,以样本(Context(w),w)为例,对这四个层做简要说明。
1.输出层(Input Layer):选择窗口词的时候抽出每个窗口词以及它的词性所对应的向量,包含Context(w)中2n个词语向量V(Context(W)1),V(Context(W)2),…,V(Context(W)2n)以及这些词对应的2n个词性向量V(Context(F)1),V(Context(F)2),…,V(Context(F)2n)。
3.整合层(Subtraction Layer):词语向量和词性向量求和,求和的结果除以词语个数得到向量均值,引入整合层,用于减去中心词的词性向量,向量均值与中心词的词性向量取差值得到向量整合结果Nw。
4.输出层(Output Layer):输出层对应一棵二叉树,以语料中出现过的词为叶子节点,以各词在语料中出现的次数当权值构造出来的哈夫曼树,利用哈夫曼树上每一个分支都当做一次二分类,每一次分类就产生一个概率,将这些概率乘起来就是所需的p(w|Context(w))。
接着,在对现有的Word2vec模型进行改进后,需要对模型进行训练,其中对于CBOW模型来说,训练过程的步骤如下:
步骤1.随机初始化词向量和词性向量,使用服从均匀分布的数据填充向量的每一维度。
步骤2.将中心词的上下文窗口内的词语和词性向量累加求和,因为上下文已经考虑了词性,所以该向量实际上是融合了词性的向量因素的一个结果。
步骤3.求和累加之后,除以词语个数得到向量均值,向量均值与中心词的词性向量取差值得到向量整合结果。
步骤4.构建哈夫曼树,构建哈夫曼树的叶子节点是词向量而不包括词性向量,原因是哈夫曼树是以各词在语料中出现的次数作为权值来构造,相比单独的词语来说,词性出现的次数要多得多,因为一个词性对应很多个词,如果也用词性构造哈夫曼树,就会出现不合理的情况,平摊误差的时候只平摊给词向量,词性向量不进行更新,因为上下文的词和词性向量的索引是一一对应的,而改进方案的目的是对词向量进行更新,词性向量本身相当于“催化剂”的作用,用于影响词向量的优化过程,它本身的参数不进行优化。
步骤5.判断误差是否达到阈值,若未达到阈值,就继续训练网络,若达到阈值,就停止训练。
步骤6.向量获取,分别输出词语及其词性向量。
请同时参阅图6,其为输出层的原理示意图,以下具体输出层概率计算的原理:
层次Softmax(Hierachical Softmax)是一种对输出层进行优化的策略,它利用哈夫曼树来计算概率值,语料的词以出现的次数当权值来构造哈夫曼树,叶子节点为N个,分别对应词典中的词,相对应的非叶子节点就有N-1个,假设约定将权值较大的子节点放在左边并且编码为1,将权值较小的子节点放在右边并且编码为0,将一个节点分类时,分到左边为负类,分到右边为正类,那么逻辑回归得到一个节点被分为正类的概率为:
被分为负类的概率为:对于每一个叶子节点都有一条从根节点到它的路径,这个路径要经过若干个中间节点,每个中间节点都当做一次二分类,每一次分类就产生一个概率,将这些概率乘起来就是所需的p(w|Context(w))。例如对于出现次数为3的这个叶子节点,从根节点到这个节点中间共经历了4次分支(在这里用有向边来表示),将每次分类结果的概率写出来就是:
哈夫曼树中必有一条从根节点到词w的唯一路径,计算叶节点的概率就是将路径上每个分类器的概率相乘,对于词典的每个词w,假设pw表示从根节点到w对应节点路径,lw表示pw中包含节点的个数,表示词w的哈夫曼编码,表示路径中非叶子节点对应的向量,故:
经过推导得到对数似然函数之后,求最大概率,而关于该输出层的概率计算,在改进后的模型中,也采用相同的原理。
以下结合具体例子,针对改进后的Word2vec模型的应用和效果进行说明:
本发明改进的Word2vec方法,利用词性向量提供更加丰富的信息,在训练词向量的过程中加入词性的考虑。
例如对于句子,“我很喜欢做数学题”,如果按照经典Word2vec的CBOW模型方法,就是用前面3个词“我很喜欢做”去预测下一个词也就是第4个词“数学题”,现在加入词性的信息变成“我pron(指示代词)很喜欢adv(副词)做v(动词)数学题n(名词)”,原来是4个词,现在加上词对应的词性提供的向量信息,共同来预测第4个词。特别地,词性是事先随机初始化之后的,在调整优化的时候没有优化这些向量。
改进词向量模型之后,本发明从模型的效果上证明本方法拓展了Word2vec在语义计算上的功能。
另外,本发明用多种方法来检验词向量化的效果,同时将改进后的模型做了创新的应用,包括词语和词性的语义计算、词语语义范围的语义计算,跟改进前的Word2vec方法结果做对比证明,本装置拓展了Word2vec在语义计算上的功能,丰富了词向量的语义信息。本发明的词向量方法,效果优于改进前Word2vec的词向量化方法,检验方法如下:
1.词语向量余弦相似度的语义计算,输出常用词的前N个相似词,输出相似度进行对比。
2.词语和词性的语义计算,输出常用词对应的向量和词性向量的和的相似词,观察是否有语义的规律。
例如:
打 对应向量[2.1,-1.2,0.3]
v(动词) 对应向量[0.2,-3.0,-2.0]
打+v(动词) 求和之后[2.3,-4.2,-1.7]
假如“打”输出一个向量,“v(动词)”也输出一个向量那么“打”(向量)+“v”(向量)的结果去找前N个相似词,输出的是球(打球)、架(打架)等名词,而避免出现其他词性或者像“打太阳”这种不符合语义的名词“太阳”这类情况。
3.测试模型得到少量常用词的前N个相似词及相似度,以相似度的平均值降序排序,观察语义的相似度是否与向量的相似度正相关。
例如:
平定 一统 0.8 秀水 0.4 攻打 0.3 相似度平均值 0.5
沉静 高傲 0.7 干练 0.6 恬静 0.5 相似度平均值 0.6
假借 冒用 0.5 卖血 0.4 诬陷 0.3 相似度平均值 0.4
通过降序排序后:
沉静 高傲 0.7 干练 0.6 恬静 0.5 相似度平均值 0.6
平定 一统 0.8 秀水 0.4 攻打 0.3 相似度平均值 0.5
假借 冒用 0.5 卖血 0.4 诬陷 0.3 相似度平均值 0.4
4.词语语义范围的语义计算,选取若干个情感类型的情感词,递归找出各个情感词相关的尽可能多且质量高的词语,并绘制关系图,如图7所示。
这个是通过多层嵌套的方法去寻找某领域相似词的关系,从而来拓展情感词典,比如说原来的情感词典没办法找到“蓝瘦”、“香菇”这种情感新词,通过这种方法,能够较好地扩充情感词典。
加入词性的词向量改进模型,拓展了Word2vec在语义计算上的功能,丰富了词向量的语义信息,可以结合词向量和词性向量进行语义计算。
另外,请同时参阅图8,其为本发明的语义计算系统的框图。本发明还提供了一种词向量的语义计算系统,其包括:语料预处理模块1,词性标注模块2,向量初始化模块3,上下文向量整合模块4,中心词向量调整模块5,向量获取模块6,向量应用模块7。
所述语料预处理模块1,用于进行语料预处理。
所述词性标注模块2,用于对每个词的词性进行标注。具体的,所述词性标注模块采用jieba分词词典进行词性标注。
所述向量初始化模块3,用于对词语向量和词性向量进行随机向量化。具体的,所述向量初始化模块通过设定向量的维度,然后使用服从均匀分布的数据填充向量的每一维度。
所述上下文向量整合模块4,用于将词语向量和词性向量求和,求和的结果除以词语个数得到向量均值,向量均值与中心词的词性向量取差值得到向量整合结果。
所述中心词向量调整模块5,用于构建哈夫曼树并训练网络,优化目标函数并判断误差是否达到阈值。
所述向量获取模块6,用于获取词语向量和词性向量。
所述向量应用模块7,用于对词语向量和词性向量进行应用。
进一步,所述语料预处理模块1包括:无关字符去除子模块11、表达规范子模块12和分词子模块13。
所述无关字符去除子模块11,用于去除无关字符,包括去除标点符号和乱码。
所述表达规范子模块12,用于统一表达规范,将中文语料都转为中文简体、英文语料统一为英文小写。
所述分词子模块13,用于使用jieba分词中的搜索引擎分词模式进行分词。
进一步,所述中心词向量调整模块5包括:构建子模块51和误差判断子模块52。
所述构建子模块51,用于构建哈夫曼树,该哈夫曼树的叶子节点为词向量。
所述误差判断子模块52,用于判断误差是否达到阈值,若未达到阈值,就继续训练网络;若达到阈值,就停止训练。
进一步,所述向量应用模块7包括:词语向量余弦相似度的语义计算子模块71、词语和词性的语义计算子模块72和词语语义范围的语义计算子模块73。
所述词语向量余弦相似度的语义计算子模块71,用于输出常用词的前N个相似词,所述前N为正整数。
所述词语和词性的语义计算子模块72,用于输出常用词对应的向量和词性向量的和的相似词。
所述词语语义范围的语义计算子模块73,用于选取若干个情感类型的情感词,递归找出各个情感词相关的词语,并绘制关系图。
本发明中的词向量的语义计算系统与上述的哈弗曼树改进词向量模型的语义计算方法的原理相同,故这里就不赘述。
相比于现有技术,本发明加入了词性向量因素的考虑,并根据现有的Word2vec模型进行改进。同时,根据该改进后的模型进行了创新的应用,拓展了Word2vec进行语义计算的功能。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (7)
1.一种改进词向量模型的语义计算方法,其特征在于:包括以下步骤:
S1:语料预处理,对语料进行清理,规范化,分词操作;
S2:词性标注,对语料预处理后得到的词语进行标注词性;
S3:向量初始化,对词性标注后得到的词语和词性进行向量化;
S4:上下文向量整合,将词语向量和词性向量求和,求和的结果除以词语个数得到向量均值,向量均值与中心词的词性向量取差值得到向量整合结果;
S5:构建哈夫曼树并训练网络,优化目标函数并判断误差是否达到阈值;
S6:向量获取,获取词语向量和词性向量;
S7:向量应用,应用词语向量和词性向量进行语义计算。
2.根据权利要求1所述改进词向量模型的语义计算方法,其特征在于:所述步骤S1中,具体包括:
S11:去除无关字符,包括去除标点符号和乱码;
S12:统一表达规范,将中文语料都转为中文简体,将英文语料统一为英文小写;
S13:分词,使用jieba分词中的搜索引擎分词模式进行分词。
3.根据权利要求1所述改进词向量模型的语义计算方法,其特征在于:所述步骤S2中,具体为:对语料中分词后的每个词语采用jieba分词词典进行词性标注。
4.根据权利要求1所述改进词向量模型的语义计算方法,其特征在于:所述步骤S3中,具体为:对词语向量和词性向量进行随机向量化,首先设定向量的维度,然后使用服从均匀分布的数据填充向量的每一维度。
5.根据权利要求1所述改进词向量模型的语义计算方法,其特征在于:所述步骤S5中,具体包括:
S51:构建哈夫曼树,该哈夫曼树的叶子节点为词向量;
S52:判断误差是否达到阈值,若未达到阈值,则继续训练网络,并返回步骤S4;若达到阈值,则停止训练,并执行步骤S6。
6.根据权利要求1所述改进词向量模型的语义计算方法,其特征在于:所述步骤S6中,具体为:从训练好的哈夫曼树中得到词语向量和词性向量。
7.根据权利要求1所述改进词向量模型的语义计算方法,其特征在于:所述步骤S7中,具体包括:
S71:词语向量余弦相似度的语义计算,输出给定词的前N个相似词,所述前N为正整数,从而找到与给定词相似的词语;
S72:词语和词性的语义计算,输出给定词对应的向量和给定词性对应的向量的和的相似词,从而找到与给定词相关的词性为给定词性的词语;
S73:词语语义范围的语义计算,选取若干个词语,递归找出与选取词语相关的词语,并绘制词语间的关系图,从而了解选取词语的语义范围。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710452382.5A CN107291693B (zh) | 2017-06-15 | 2017-06-15 | 一种改进词向量模型的语义计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710452382.5A CN107291693B (zh) | 2017-06-15 | 2017-06-15 | 一种改进词向量模型的语义计算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107291693A CN107291693A (zh) | 2017-10-24 |
CN107291693B true CN107291693B (zh) | 2021-01-12 |
Family
ID=60097437
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710452382.5A Active CN107291693B (zh) | 2017-06-15 | 2017-06-15 | 一种改进词向量模型的语义计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107291693B (zh) |
Families Citing this family (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107967258B (zh) * | 2017-11-23 | 2021-09-17 | 广州艾媒数聚信息咨询股份有限公司 | 文本信息的情感分析方法和系统 |
CN109829149A (zh) * | 2017-11-23 | 2019-05-31 | 中国移动通信有限公司研究院 | 一种词向量模型的生成方法及装置、设备、存储介质 |
CN108038105B (zh) * | 2017-12-22 | 2020-06-05 | 中科鼎富(北京)科技发展有限公司 | 一种对未登录词生成仿真词向量的方法及装置 |
CN108153730A (zh) * | 2017-12-25 | 2018-06-12 | 北京奇艺世纪科技有限公司 | 一种多义词词向量训练方法及装置 |
CN108170676B (zh) * | 2017-12-27 | 2019-05-10 | 百度在线网络技术(北京)有限公司 | 故事创作的方法、系统和终端 |
CN108062307B (zh) * | 2018-01-04 | 2020-08-25 | 中国科学技术大学 | 基于词嵌入模型的文本语义隐写分析方法 |
CN110059310B (zh) * | 2018-01-19 | 2022-10-28 | 腾讯科技(深圳)有限公司 | 上位词网络的扩充方法及装置、电子设备、存储介质 |
CN108268449A (zh) * | 2018-02-10 | 2018-07-10 | 北京工业大学 | 一种基于词项聚类的文本语义标签抽取方法 |
CN110298016A (zh) * | 2018-03-21 | 2019-10-01 | 普天信息技术有限公司 | 一种词性标注方法及装置 |
CN110348001B (zh) * | 2018-04-04 | 2022-11-25 | 腾讯科技(深圳)有限公司 | 一种词向量训练方法和服务器 |
CN109902283B (zh) * | 2018-05-03 | 2023-06-06 | 华为技术有限公司 | 一种信息输出方法及装置 |
CN108628831A (zh) * | 2018-05-04 | 2018-10-09 | 中南大学 | 一种查重方法 |
CN108628834B (zh) * | 2018-05-14 | 2022-04-15 | 国家计算机网络与信息安全管理中心 | 一种基于句法依存关系的词语表示学习方法 |
CN108763487B (zh) * | 2018-05-30 | 2021-08-10 | 华南理工大学 | 一种基于Mean Shift的融合词性和句子信息的词表示方法 |
CN108804423B (zh) * | 2018-05-30 | 2023-09-08 | 深圳平安医疗健康科技服务有限公司 | 医疗文本特征提取与自动匹配方法和系统 |
CN108776655A (zh) * | 2018-06-01 | 2018-11-09 | 北京玄科技有限公司 | 一种有监督的词向量训练方法及装置 |
CN109086270B (zh) * | 2018-07-24 | 2022-03-01 | 重庆大学 | 基于古诗词语料向量化的自动作诗系统及其方法 |
CN110807646A (zh) * | 2018-08-06 | 2020-02-18 | 北京京东尚科信息技术有限公司 | 数据分析方法、装置和计算机可读存储介质 |
CN110929511B (zh) * | 2018-09-04 | 2021-12-17 | 清华大学 | 一种基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法 |
CN110908523A (zh) * | 2018-09-14 | 2020-03-24 | 北京搜狗科技发展有限公司 | 一种输入方法及装置 |
CN109271632B (zh) * | 2018-09-14 | 2023-05-26 | 重庆邂智科技有限公司 | 一种监督的词向量学习方法 |
CN109271635B (zh) * | 2018-09-18 | 2023-02-07 | 中山大学 | 一种嵌入外部词典信息的词向量改进方法 |
CN109523082B (zh) * | 2018-11-20 | 2023-12-22 | 广东机场白云信息科技股份有限公司 | 一种基于cnn-lstm航班正常放行率预测的方法 |
CN109710921B (zh) * | 2018-12-06 | 2023-05-26 | 深圳市中农易讯信息技术有限公司 | 词语相似度的计算方法、装置、计算机设备及存储介质 |
CN109739978A (zh) * | 2018-12-11 | 2019-05-10 | 中科恒运股份有限公司 | 一种文本聚类方法、文本聚类装置及终端设备 |
CN109657061B (zh) * | 2018-12-21 | 2020-11-27 | 合肥工业大学 | 一种针对海量多词短文本的集成分类方法 |
CN109767817B (zh) * | 2019-01-16 | 2023-05-30 | 南通大学 | 一种基于神经网络语言模型的药物潜在不良反应发现方法 |
CN109918651B (zh) * | 2019-02-14 | 2023-05-02 | 北京小米智能科技有限公司 | 同义词性模板获取方法及装置 |
CN110083825A (zh) * | 2019-03-21 | 2019-08-02 | 昆明理工大学 | 一种基于gru模型的老挝语情感分析方法 |
CN110264311B (zh) * | 2019-05-30 | 2023-04-18 | 佛山科学技术学院 | 一种基于深度学习的商业推广信息精准推荐方法及系统 |
CN110377899A (zh) * | 2019-05-30 | 2019-10-25 | 北京达佳互联信息技术有限公司 | 一种确定词语词性的方法、装置及电子设备 |
CN110413779B (zh) * | 2019-07-16 | 2022-05-03 | 深圳供电局有限公司 | 一种针对电力行业的词向量训练方法及其系统、介质 |
CN112528629A (zh) * | 2019-08-29 | 2021-03-19 | 上海卓繁信息技术股份有限公司 | 语句通顺度判别方法及系统 |
CN110705274B (zh) * | 2019-09-06 | 2023-03-24 | 电子科技大学 | 基于实时学习的融合型词义嵌入方法 |
CN111144129B (zh) * | 2019-12-26 | 2023-06-06 | 成都航天科工大数据研究院有限公司 | 一种基于自回归与自编码的语义相似度获取方法 |
CN111613331A (zh) * | 2020-05-21 | 2020-09-01 | 安徽理工大学 | 一种基于随机森林和word2vec的矿工营养代谢评估方法及系统 |
CN111625647B (zh) * | 2020-05-25 | 2023-05-02 | 王旭 | 一种无监督的新闻自动分类方法 |
CN111708886A (zh) * | 2020-06-11 | 2020-09-25 | 国网天津市电力公司 | 一种基于数据驱动的舆情分析终端及舆情文本分析方法 |
CN113643703B (zh) * | 2021-08-06 | 2024-02-27 | 西北工业大学 | 一种语音驱动虚拟人的口令理解方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462066A (zh) * | 2014-12-24 | 2015-03-25 | 北京百度网讯科技有限公司 | 语义角色标注方法及装置 |
CN104899304A (zh) * | 2015-06-12 | 2015-09-09 | 北京京东尚科信息技术有限公司 | 命名实体识别方法及装置 |
CN105243129A (zh) * | 2015-09-30 | 2016-01-13 | 清华大学深圳研究生院 | 商品属性特征词聚类方法 |
CN105955951A (zh) * | 2016-04-29 | 2016-09-21 | 中山大学 | 一种消息过滤的方法及装置 |
CN106202065A (zh) * | 2016-06-30 | 2016-12-07 | 中央民族大学 | 一种跨语言话题检测方法及系统 |
CN106502994A (zh) * | 2016-11-29 | 2017-03-15 | 上海智臻智能网络科技股份有限公司 | 一种文本的关键词提取的方法和装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5748973A (en) * | 1994-07-15 | 1998-05-05 | George Mason University | Advanced integrated requirements engineering system for CE-based requirements assessment |
US9053089B2 (en) * | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
CN106815194A (zh) * | 2015-11-27 | 2017-06-09 | 北京国双科技有限公司 | 模型训练方法及装置和关键词识别方法及装置 |
-
2017
- 2017-06-15 CN CN201710452382.5A patent/CN107291693B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462066A (zh) * | 2014-12-24 | 2015-03-25 | 北京百度网讯科技有限公司 | 语义角色标注方法及装置 |
CN104899304A (zh) * | 2015-06-12 | 2015-09-09 | 北京京东尚科信息技术有限公司 | 命名实体识别方法及装置 |
CN105243129A (zh) * | 2015-09-30 | 2016-01-13 | 清华大学深圳研究生院 | 商品属性特征词聚类方法 |
CN105955951A (zh) * | 2016-04-29 | 2016-09-21 | 中山大学 | 一种消息过滤的方法及装置 |
CN106202065A (zh) * | 2016-06-30 | 2016-12-07 | 中央民族大学 | 一种跨语言话题检测方法及系统 |
CN106502994A (zh) * | 2016-11-29 | 2017-03-15 | 上海智臻智能网络科技股份有限公司 | 一种文本的关键词提取的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107291693A (zh) | 2017-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107291693B (zh) | 一种改进词向量模型的语义计算方法 | |
CN106202010B (zh) | 基于深度神经网络构建法律文本语法树的方法和装置 | |
CN109325229B (zh) | 一种利用语义信息计算文本相似度的方法 | |
CN108363695B (zh) | 一种基于双向依赖语法树表征的用户评论属性抽取方法 | |
CN110737763A (zh) | 一种融合知识图谱和深度学习的中文智能问答系统及方法 | |
CN107273913B (zh) | 一种基于多特征融合的短文本相似度计算方法 | |
CN106569998A (zh) | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 | |
CN107885721A (zh) | 一种基于lstm的命名实体识别方法 | |
CN107480143A (zh) | 基于上下文相关性的对话话题分割方法和系统 | |
CN110222163A (zh) | 一种融合cnn与双向lstm的智能问答方法及系统 | |
CN111858932A (zh) | 基于Transformer的多重特征中英文情感分类方法及系统 | |
CN114565104A (zh) | 语言模型的预训练方法、结果推荐方法及相关装置 | |
CN110427616B (zh) | 一种基于深度学习的文本情感分析方法 | |
CN107273352B (zh) | 一种基于Zolu函数的词嵌入学习模型及训练方法 | |
CN110851604A (zh) | 一种文本分类方法、装置、电子设备及存储介质 | |
CN106844348B (zh) | 一种汉语句子功能成分分析方法 | |
CN113704416B (zh) | 词义消歧方法、装置、电子设备及计算机可读存储介质 | |
CN110765755A (zh) | 一种基于双重选择门的语义相似度特征提取方法 | |
CN112784532A (zh) | 用于短文本情感分类的多头注意力记忆网络 | |
CN111274794A (zh) | 一种基于传递的同义词扩展方法 | |
CN114757184B (zh) | 实现航空领域知识问答的方法和系统 | |
CN110750642A (zh) | 一种基于cnn的中文关系分类方法及系统 | |
CN111339772B (zh) | 俄语文本情感分析方法、电子设备和存储介质 | |
CN111507093A (zh) | 一种基于相似字典的文本攻击方法、装置及存储介质 | |
CN108363685B (zh) | 基于递归变分自编码模型的自媒体数据文本表示方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |