CN110532395B - 一种基于语义嵌入的词向量改进模型的建立方法 - Google Patents

一种基于语义嵌入的词向量改进模型的建立方法 Download PDF

Info

Publication number
CN110532395B
CN110532395B CN201910395662.6A CN201910395662A CN110532395B CN 110532395 B CN110532395 B CN 110532395B CN 201910395662 A CN201910395662 A CN 201910395662A CN 110532395 B CN110532395 B CN 110532395B
Authority
CN
China
Prior art keywords
word
vector
representing
cluster
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910395662.6A
Other languages
English (en)
Other versions
CN110532395A (zh
Inventor
张雷
唐思雨
潘元元
路千惠
谢俊元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201910395662.6A priority Critical patent/CN110532395B/zh
Publication of CN110532395A publication Critical patent/CN110532395A/zh
Application granted granted Critical
Publication of CN110532395B publication Critical patent/CN110532395B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于语义嵌入的词向量改进模型的建立方法,包含如下步骤:1)双向长短期记忆网络训练阶段;2)上下文向量计算阶段:将句子和目标单词t输入步骤1训练好的双向长短期记忆网络中,求得上下文向量;3)上下文向量语义聚类阶段:a使用余弦相似度计算当前的上下文向量和单词t每个语义簇中心相似度;b使用贝叶斯非参数统计模型计算当前上下文向量归属为的类簇的概率P;c最大化P值并求出该值对应的类簇;c对当前上下文向量归属的类簇中心进行偏移;4)语义向量计算阶段。本发明利用神经网络和贝叶斯非参数统计方法为解决了当前词向量模型无法解决单词存在的一词多义问题。

Description

一种基于语义嵌入的词向量改进模型的建立方法
技术领域
本发明涉及一种改进的词向量模型的建立方法,该方法建立的模型解决了当前使用的词向量模型无法表示出多义词的多个语义问题。
背景技术
当下,互联网已经成为人们获取信息和发布信息的重要方式。网络平台上的信息往往蕴含着巨大的价值,怎样中海量的文本信息中提取出有价值的内容是计算机学科关注的重点问题之一。深度学习技术的发展提高了计算机对数据的处理能力也促进了自然语言学习领域的发展。而使用深度学习进行自然语言处理时,一个不可或缺的过程就是词的向量化表示。在单词表示上,应用最广泛的是word2vec词向量模型。该模型有Skip-Gram和CBOW两种结构,通过神经网络对单词和上下文之间的联系进行建模,每个单词唯一对应于词向量空间中的一个向量。
目前使用较广泛的词向量模型都是使用词语和向量一一对应的方式,及假设词语只有一个固定的语义。但是在自然语言中,多义词的比重达到42%。人在阅读时对于多义词语义的判断依赖于自身的知识储备和推理能力,但是对于机器来说,很难分辨多义词在具体语境下代表的含义。
词向量在表示多义词方面表示不足限制影响了其在一些NLP应用中的准确度。在语境中,词的语义表达会受到上下文、语法结构、词序等因素影响。为了克服这个问题,语义向量发展而来。按照词的多义性,词向量空间中的单词可以对应到多个语义空间向量中。
发明内容
发明目的:考虑到传统词向量表示方法对于多义词表示的欠缺,本发明提供一种基于语义嵌入的词向量改进模型的建立方法,本发明结合双向长短期神经网络、神经张量网络、贝叶斯非参数构造的过程,构建了一个完整的多义词语义归纳、语义表示和语义消歧模型。首先通过大规模语料库训练双向长短期神经网络参数,然后将目标单词的所有上下文送入神经网络求出对应的上下文词向量,并根据上下文向量之间的余弦相似度构造贝叶斯非参数聚类,聚类的类簇代表单词不同的语义,对每个类簇使用单隐层神经网络训练对应的语义向量。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于语义嵌入的词向量改进模型的建立方法,包括如下步骤:
步骤1,双向长短期记忆网络训练阶段:获取维基百科数据集,抽取数据集中网页的文本内容作为训练使用的语料库;删除语料库中长度小于10个单词或者大于60个单词的语句;对抽取出来的语句统计各个单词,建立统计词表;使用自然语言处理包NLTK删除句子中停用词;根据统计词表删除出现较少的罕见词,将预处理好的句子和目标单词送入神经网络模型biLSTM中进行训练;
步骤2,上下文向量计算阶段:对于单词wt,抽取在语料库中所有含有wt的句子C={c1,c2,…,cN};N表示在语料库中所有含有wt的句子数,将所有含有wt的句子送入训练好的神经网络模型biLSTM中计算上下文向量和全局词向量,上下文向量为{vc(wt,1),vc(wt,2),…,vc(wt,i),…,vc(wt,N)},i=1至N,全局词向量为vg(wt);对于每个上下文向量vc(wt,i)先计算vc(wt,i)和每个已有类簇中心的余弦相似度;根据余弦相似度使用贝叶斯非参数模型PYP-CRP计算vc(wt,i)所属的类簇k;
Figure BDA0002058085840000021
其中,s1,s2,…,si-1为已有的每个实例语义分配类别,计算方法是令t分别为当前的各个类簇t={1,2,…K},
Figure BDA0002058085840000023
为si和st的余弦相似度,
Figure BDA0002058085840000022
为si属于st的概率,取其中能得到最大概率的k值表示所属类簇,si表示第i个上下文向量归属的类簇,d表示中国餐馆过程(Chinese Restaurant Process,CRP)中的参数,θ表示中国餐馆过程中的参数,G0表示狄利克雷过程,K表示当前的类簇数目,nt表示第t个类簇中已有的实例数目;
步骤3,语义归纳阶段:对每个上下文向量vc(wt,i),进行以下的计算:先计算vc(wt,i)和每个已有类簇中心的余弦相似度,之后使用贝叶斯非参数模型PYP-CRP计算vc(wt,i)归属于的每个类簇的概率{p(vi,1),p(vi,2),…,p(vi,K)}以及vc(wt,i)对应于新的语义簇的概率p(vi,K+1),K表示当前已有类簇数量;取其中的最大值对应的类簇k作为vc(wt,i)归属的语义簇;如果k大于当前已有类簇数量K,需要增加类簇,并使用vc(wt,k)初始化该类簇中心,使用vg(wt)初始化该类簇对应语义向量vs(wt,i);如果k小于K,则对第k个类簇中心进行偏移;
步骤4,语义向量训练阶段:当前选择的类簇k对应的语义向量为vs(wt,i),将vs(wt,i)和上下文单词{vg(c1),vg(c2),…,vg(cN)}输入单隐层神经网络,通过误差反向传播方法和负采样调节神经网络权重,完成模型的建立。
优选的:步骤1中神经网络模型biLSTM的建立过程如下:
步骤1a),将句子单词{w1,w2,…,wN}转化为One-hot表示,One-hot含义为词的离散表示,该算法将每个词表示为一个长度固定的向量,长度为词典的大小,是一种稀疏向量。该向量只有一个维度为1,对应位置为词在词典中的索引;
步骤1b),对于每个句子,当目标单词为wt时,输入目标单词位置t和wt所在语句的向量化表示{w1,w2,…,wN},使用{w1,w2,…,wt-1}和{wt+1,wt+2,…,wN}作为目标单词的上文特征和下文特征输入双向长短期记忆网络,wt作为目标输入;
步骤1c),神经网络模型biLSTM为两条反方向的LSTM神经网络,LSTM中的转换过程表示为:
Figure BDA0002058085840000031
ft=σ(Wf·X+bf)
it=σ(Wi·X+bi)
ot=σ(Wo·X+bo)
ct=ft⊙ct-1+ir⊙tanh(Wc·X+bc)
ht=ot⊙tanh(ci)
其中,X表示当前输入序列,ht-1表示上一时刻输出值,xt表示当前时刻值,ft表示遗忘门,σ表示sigmoid激活函数,Wf表示遗忘门权重矩阵,bf表示遗忘门偏移量,it表示输入门,Wi表示输入门权重矩阵,bi表示输入门偏移量,ot表示输出门,Wo表示输出门权重矩阵,bo表示输出门偏移量,ct表示细胞状态,⊙表示矩阵乘法,tanh()表示激活函数。
步骤1d)、双向长短期网络的输出分别为lLS和rLS;lLS和rLS分别表示目标单词的上文特征和下文特征,通过神经张量网络将上文特征和下文特征进行结合,神经张量网络算法过程如下:
Figure BDA0002058085840000041
其中,lLS和rLS为双向长短期记忆网络的输出,T为神经张量网络权重矩阵,v表示神经张量网络输出,W表示权重矩阵,b表示偏移量;
在训练神经网络时需要使用负采样方法,损失函数为:
Figure BDA0002058085840000042
其中,E表示损失函数,σ表示激活函数,
Figure BDA0002058085840000043
为目标单词,
Figure BDA0002058085840000044
为目标单词所在上下文,
Figure BDA0002058085840000045
为词表中的非目标单词;
负采样本着单词出现频率越高采样概率越大的原则,使用的算法是:
Figure BDA0002058085840000046
其中,P(w)表示单词w被采样的概率,counter表示单词w出现的次数,w表示被抽样的单词,α表示需设置的参数,u表示目标文档中的单词,D表示目标文档,α=0.75;
使用自适应时刻估计算法更新权重,输出已经训练好的biLSTM神经网络结构参数用于后续上下文向量的计算;
优选的:步骤1a)中One-hot处理过程为:
l←E([w1,w2,...wi-1])
r←E([wi+1,w2,...wn])
Figure BDA0002058085840000047
其中,l表示上文,E([w1,w2,...wi-1])表示使用One-hot编码单词序列[w1,w2,...wi-1],←表示赋值,r表示下文,表示One-hot编码单词序列[wi+1,w2,...wn],
Figure BDA0002058085840000048
表示目标值,E(wi)表示使用One-hot编码wi
优选的:步骤2中余弦相似度公式为:
Figure BDA0002058085840000051
其中,sim(x,y)表示x和y的余弦相似度,m表示向量维度数目,xi表示x在第i个维度的值,yi表示y在第i个维度的值。
步骤2中所述的贝叶斯非参数模PYP-CRP计算过程如下:
Figure BDA0002058085840000052
其中,P表示第i个实例属于第k个类簇的概率,si表示第i个实例所属类簇,S-i表示实例中去除第i个以外的其它实例,d表示中国餐馆过程(CRP)的参数,θ表示中国餐馆过程中的参数,i表示第i个实例,Ck表示第k个类簇中已有的实例数目,K表示已有的类簇总数目,δk为上下文向量和类簇中心的余弦相似度;计算出实例i属于每个类簇的概率,选择概率最大的类簇k;此时分为两种情况:第一种为k<K,需要对选中类簇k进行偏移;第二种为k=K+1,需要添加一个类簇并使用vc(wt,k)初始化该类簇中心,使用vg(wt)初始化该类簇对应语义向量vs(wt,i),对于单词wt的所有上下文向量{vc(wt,1),vc(wt,2),…,vc(wt,N)},都要由该公式计算该上下文向量应归属的类簇;
PYP-CRP为使用中国餐馆过程构建的双参数狄利克雷过程分布,中国餐馆过程描述为如果分布G服从狄利克雷过程分布,序列g1,g2,…是G生成的独立同分布序列,在已知g1,g2,…,gn-1的情况下,第n个样本采样的过程称为中国餐馆过程:
Figure BDA0002058085840000053
其中,其中,λ表示中国餐馆过程中的参数,H表示服从狄利克雷过程,
Figure BDA0002058085840000054
表示第i个值属于第k个类簇的倾向。
采样过程相当于在一家中餐馆,餐桌数量为无限多,对于每位来餐厅的顾客gi,用φk表示供选择的餐桌,对于每一位刚进入餐馆的顾客来说,选择餐桌φk的概率正比于该餐桌上的顾客mk,或者是以正比于λ的概率选择一张新餐桌因此称为中国餐馆过程。
优选的:步骤4中所述的单隐层神经网络训练的具体过程如下:
步骤4a),输入当前选择的类簇k对应的语义向量为vs(wt,i)以及vs(wt,i)的上下文单词{vg(c1),vg(c2),…,vg(cN)},vg(ci)表示上下文单词i的全局向量,目标函数为:
Figure BDA0002058085840000061
其中,J表示目标函数,P表示概率值,Ci表示上下文,c表示上下文中的单词,D表示目标文档,vec(c)表示向量化上下文中的单词,wi表示目标单词,-Ci表示不在目标文档中,c′表示采样的单词。
步骤4b),进行负采样,采样概率计算公式为:
Figure BDA0002058085840000062
其中,P(wi)表示w被采样的概率,V表示词表大小,α表示需要设置的参数;
步骤4c)通过误差反向传播方法调节神经网络权重。
优选的:步骤4b)的具体过程如下:语义向量为vs(wt,st),单词c出现在wt表示的语义为st的概率表示为:
Figure BDA0002058085840000063
单词c不出现在wt表示的语义为st的概率表示为:
P(D=0|vs(wt,st),vg(c))=1-P(D=1|vs(wt,st),vg(c))
其中,P(D=0|vs(wt,st),vg(c))表示单词c出现在wt表示的语义为st的概率,P(D=0|vs(wt,st),vg(c))表示单词c不出现在wt表示的语义为st的概率。
优选的:α为0.75。
本发明相比现有技术,具有以下有益效果:
本发明通过使用双向长短期记忆神经网络和神经张量网络对目标单词上下文特征进行提取,相比于当前训练方法能更好地捕捉到上下文的单词顺序特征,并且拥有距离目标单词越近所占特征比重越大的特点。此外,使用贝叶斯非参数构造聚类过程,可以不用事先指定每个单词的语义数目,类簇数目会根据词语复杂性进行调整。该发明主要分成两个部分,第一部分是用于获取上下文特征的biLSTM结构,经过语料库训练可以得到上下文向量和词向量。得到的上下文向量用于语义归纳中对语义簇进行初始化及更新,词向量则用于语义表示的计算。在biLSTM结构中,为了更好地连接上下文特征,本文加入了神经张量网络对biLSTM结构进行优化。第二部分的功能是语义归纳和语义表示。语义归纳在计算时使用贝叶斯非参数构造方法。该发明不仅能更好地获取到单词的上下文特征信息,还能根据单词语义复杂度对单词语义数目进行调整,在语义表示和语义归纳上都相比于现有模型有更好的效果。
附图说明
图1是发明的整体流程图
图2是上下文词向量训练流程图
图3是上下文词向量训练模型图
图4是语义归纳过程图示
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种基于语义嵌入的词向量改进模型的建立方法,如图1-4所示,该方法主要包括三个阶段,分别是:上下文向量训练阶段,语义归纳阶段和语义表示阶段。具体包括以下步骤包括如下步骤:
1)上下文向量训练阶段,(图1中1-3步骤):如图2、3所示,
1)-a处理大规模语料库,提取文本内容,删除长度小于10或者大于60的语句。
1)-b构建语料库词表,去除语句中的停用词和罕见词,停用词使用自然语言处理包NLTK3.0直接去除,罕见词使用UNK代替;
1)-c对于语料库中的每个句子,将句子单词{w1,w2,…,wN}转化为One-hot表示。当目标单词为wt时,输入目标单词位置t,将wt所在句子的{w1,w2,…,wt-1}和{wt+1,wt+2,…,wN}分别作为双向长短期记忆网络的两个方向作为输入,wt作为目标输入;
其中1)-c中神经网络的训练过程具体如下:
将两个方向的输入分别表示为l和r,那么经过One-hot处理可以表示为:
l←E([w1,w2,…wi-1])
r←E([wi+1,w2,...wn])
Figure BDA0002058085840000083
其中,E()表示将单词使用One-hot表示。
在长短期记忆网络中的转化可以表示为:
Figure BDA0002058085840000081
ft=σ(Wf·X+bf)
it=σ(Wi·X+bi)
ot=σ(Wo·X+bo)
ct=ft⊙ct-1+ir⊙tanh(Wc·X+bc)
ht=ot⊙tanh(ci)
其中d是上下文向量维数,dw是输入向量维数。设置该发明中的d和dw维度为300。
双向长短期网络的输出分别为iLS和rLS。iLS和rLS分别表示目标单词的上文特征和下文特征,需要通过神经张量网络进行特征的融合。
其中在神经张量网络部分使用的计算为:
Figure BDA0002058085840000082
其中lLS和rLS为双向长短期神经网络的两个方向输出,神经张量网络中的参数T,W,b需要通过训练得到。
在训练神经网络时需要使用负采样方法,损失函数为:
Figure BDA0002058085840000091
其中为
Figure BDA0002058085840000092
目标单词,
Figure BDA0002058085840000093
为目标单词所在上下文,
Figure BDA0002058085840000094
为词表中的非目标单词。
负采样本着单词出现频率越高采样概率越大的原则,使用的算法是:
Figure BDA0002058085840000095
其中α=0.75;
1)-d使用自适应时刻估计(Adaptive Moment Estimation)算法更新权重。
1)-e输出已经训练好的biLSTM神经网络结构参数用于后续上下文向量的计算
1)-f结束;
2)语义归纳阶段,(图1中5-10步骤),如图4所示:
2)-a对于单词wt,抽取在语料库中所有含有wt的句子C={c1,c2,…,cN};
2)-b将所有含有wt的句子C={c1,c2,…,cN}送入训练好的biLSTM中计算上下文向量和全局词向量,上下文向量为{vc(wt,1),vc(wt,2),…,vc(wt,N)},全局词向量为vg(wt);
2)-c对于每个上下文向量vc(wt,i)先计算vc(wt,i)和每个已有类簇中心的余弦相似度;
其中2)-c中,计算余弦相似度的方法是:
Figure BDA0002058085840000096
2)-d之后使用贝叶斯非参数模型PYP-CRP计算vc(wt,i)所属的类簇k;
Figure BDA0002058085840000097
Figure BDA0002058085840000098
其中s1,s2,...,si-1为已有的每个实例语义分配类别。计算方法是令t分别为当前的各个类簇即t={1,2,…K},
Figure BDA00020580858400000910
为si和st的余弦相似度,
Figure BDA0002058085840000099
为si属于st的概率。取其中能得到最大概率的k值表示所属类簇。
PYP-CRP为使用中国餐馆过程(Chinese Restaurant Process,CRP)构建的双参数狄利克雷过程分布(Pitman-Yor Process,PYP),是一种非参数贝叶斯模型。该方法可以用于上下文向量的聚类。中国餐馆过程可以描述为如果分布G服从狄利克雷过程分布,序列g1,g2,…是G生成的独立同分布序列。在已知g1,g2,…,gi-1的情况下,第i个样本采样的过程称为中国餐馆过程:
Figure BDA0002058085840000101
过程相当于在一家中餐馆,餐桌数量为无限多。对于每位来餐厅的顾客gi,用φk表示供选择的餐桌,对于每一位刚进入餐馆的顾客来说,选择餐桌φk的概率正比于该餐桌上的顾客mk,或者是以正比于λ的概率选择一张新餐桌。
步骤2)-e根据得到的k值更新对应类簇的中心向量和语义向量;
步骤2)-e-1)如果k大于当前已有类簇数量K,需要增加类簇,并使用vc(wt,k)初始化该类簇中心,使用vg(wt)初始化该类簇对应语义向量vs(wt,i);
步骤2)-e-2)如果k小于K,则对第k个类簇中心进行偏移。
步骤2)-e-3)的偏移方法为c(wt,i)为选中的类簇,vcontext为上下文向量,那么有
c(wt,i)=c(wt,i)+vcontext
3)语义向量计算阶段,(图1中11-13步骤):
3)-a当前选择的类簇k对应的语义向量为vs(wt,i),将vs(wt,i)和上下文单词{vg(c1),vg(c2),…,vg(cN)}输入单隐层神经网络;
3)-b进行负采样,采样概率计算公式为:
Figure BDA0002058085840000102
设置其中的α为0.75;
步骤3)-b的具体过程如下:语义向量为vs(wt,st),单词c出现在wt表示的语义为st的概率可以表示为:
Figure BDA0002058085840000111
单词c不出现在wt表示的语义为st的概率可以表示为:
P(D=0|vs(wt,st),vg(c))=1-P(D=1|vs(wt,st),vg(c))
3)-c通过误差反向传播方法调节神经网络权重。
3)-d结束。
本发明采用了双向长短期记忆网络和神经张量网络提取每个词汇在语料库中所有上下文特征,并利用贝叶斯非参数构造聚类过程对上下文特征聚类得到不同的语义簇,使用单隐层神经网络训练每个语义簇的语义向量表示作为每个单词的语义向量。该发明解决了当下的词向量不能有效表示多义词问题。本发明通过对多义词建立词汇和语义一对多关系将当前的词向量细化为语义向量,将义词的每个语义映射为向量空间中对应的一个向量。这种方法相比于现有算法有利于消除句子中单词的歧义有助于对句子语义的理解。在具体使用时,需要选择多义词对应的向量中概率最大的语义向量作为对应的语义向量值。这种方法对于解决自然语言理解问题中多义词带来的困难有很好的效果。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (5)

1.一种基于语义嵌入的词向量改进模型的建立方法,其特征在于,包括如下步骤:
步骤1,双向长短期记忆网络训练阶段:获取维基百科数据集,抽取数据集中网页的文本内容作为训练使用的语料库;删除语料库中长度小于10个单词或者大于60个单词的语句;对抽取出来的语句统计各个单词,建立统计词表;使用自然语言处理包NLTK删除句子中停用词;根据统计词表删除出现的罕见词,将预处理好的句子和目标单词送入神经网络模型biLSTM中进行训练;
步骤2,上下文向量计算阶段:对于单词wt,抽取在语料库中所有含有wt的句子C={c1,c2,…,cN};N表示在语料库中所有含有wt的句子数,将所有含有wt的句子送入训练好的神经网络模型biLSTM中计算上下文向量和全局词向量,上下文向量为{vc(wt,1),vc(wt,2),…,vc(wt,i),…,vc(wt,N)},i=1至N,全局词向量为vg(wt);对于每个上下文向量vc(wt,i)先计算vc(wt,i)和每个已有类簇中心的余弦相似度;根据余弦相似度使用贝叶斯非参数模型PYP-CRP计算vc(wt,i)所属的类簇k;
Figure FDA0003212569410000011
其中,s1,s2,...,si-1为已有的每个实例语义分配类别,计算方法是令t分别为当前的各个类簇t={1,2,…K},
Figure FDA0003212569410000012
为si和st的余弦相似度,
Figure FDA0003212569410000013
为si属于st的概率,取其中能得到最大概率的k值表示所属类簇,si表示第i个上下文向量归属的类簇,d表示中国餐馆过程中的参数,θ表示中国餐馆过程中的参数,G0表示狄利克雷过程,K表示当前的类簇数目,nt表示第t个类簇中已有的实例数目;
所述的贝叶斯非参数模PYP-CRP计算过程如下:
Figure FDA0003212569410000014
其中,P表示第i个实例属于第k个类簇的概率,si表示第i个实例所属类簇,S-i表示实例中去除第i个以外的其它实例,d表示中国餐馆过程的参数,θ表示中国餐馆过程中的参数,i表示第i个实例,Ck表示第k个类簇中已有的实例数目,K表示已有的类簇总数目,δk为上下文向量和类簇中心的余弦相似度;计算出实例i属于每个类簇的概率,选择概率最大的类簇k;此时分为两种情况:第一种为k<K,需要对选中类簇k进行偏移;第二种为k=K+1,需要添加一个类簇并使用vc(wt,k)初始化该类簇中心,使用vg(wt)初始化该类簇对应语义向量vs(wt,i),对于单词wt的所有上下文向量{vc(wt,1),vc(wt,2),…,vc(wt,N)},都要由该公式计算该上下文向量应归属的类簇;
PYP-CRP为使用中国餐馆过程构建的双参数狄利克雷过程分布,中国餐馆过程描述为如果分布G服从狄利克雷过程分布,序列g1,g2,…是G生成的独立同分布序列,在已知g1,g2,…,gn-1的情况下,第n个样本采样的过程称为中国餐馆过程:
Figure FDA0003212569410000021
其中,λ表示中国餐馆过程中的参数,H表示服从狄利克雷过程,
Figure FDA0003212569410000022
表示第i个值属于第k个类簇的倾向;
步骤3,语义归纳阶段:如果k大于当前已有类簇数量K,需要增加类簇,并使用vc(wt,k)初始化该类簇中心,使用vg(wt)初始化该类簇对应语义向量vs(wt,i);如果k小于K,则对第k个类簇中心进行偏移;
步骤4,语义向量训练阶段:当前选择的类簇k对应的语义向量为vs(wt,i),将vs(wt,i)和上下文单词{vg(c1),vg(c2),…,vg(cN)}输入单隐层神经网络,通过误差反向传播方法和负采样调节神经网络权重,完成模型的建立;
所述的单隐层神经网络训练的具体过程如下:
步骤4a),输入当前选择的类簇k对应的语义向量为vs(wt,i)以及vs(wt,i)的上下文单词{vg(c1),vg(c2),…,vg(cN)},vg(ci)表示上下文单词i的全局向量,目标函数为:
Figure FDA0003212569410000023
其中,J表示目标函数,P表示概率值,Ci表示上下文,c表示上下文中的单词,D表示目标文档,vec(c)表示向量化上下文中的单词,wi表示目标单词,-Ci表示不在目标文档中,c′表示采样的单词;
步骤4b),进行负采样,采样概率计算公式为:
Figure FDA0003212569410000031
其中,P(wi)表示w被采样的概率,V表示词表大小,α表示需要设置的参数;
步骤4b)的具体过程如下:语义向量为vs(wt,st),单词c出现在wt表示的语义为st的概率表示为:
Figure FDA0003212569410000032
单词c不出现在wt表示的语义为st的概率表示为:
P(D=0|vs(wt,st),vg(c))=1-P(D=1|vs(wt,st),vg(c))
其中,P(D=0|vs(wt,st),vg(c))表示单词c出现在wt表示的语义为st的概率,P(D=0|vs(wt,st),vg(c))表示单词c不出现在wt表示的语义为st的概率;
步骤4c)通过误差反向传播方法调节神经网络权重。
2.根据权利要求1所述基于语义嵌入的词向量改进模型的建立方法,其特征在于:步骤1中神经网络模型biLSTM的建立过程如下:
步骤1a),将句子单词{w1,w2,…,wN}转化为One-hot表示,One-hot为词的离散表示,
步骤1b),对于每个句子,当目标单词为wt时,输入目标单词位置t和wt所在语句的向量化表示{w1,w2,…,wN},使用{w1,w2,…,wt-1}和{wt+1,wt+2,…,wN}作为目标单词的上文特征和下文特征输入双向长短期记忆网络,wt作为目标输入;
步骤1c),神经网络模型biLSTM为两条反方向的LSTM神经网络,LSTM中的转换过程表示为:
Figure FDA0003212569410000041
ft=σ(Wf·X+bf)
it=σ(Wi·X+bi)
ot=σ(Wo·X+bo)
ct=ft⊙ct-1+it⊙tanh(Wc·X+bc)
ht=ot⊙tanh(ct)
其中,X表示当前输入序列,ht-1表示上一时刻输出值,xt表示当前时刻值,ft表示遗忘门,σ表示sigmoid激活函数,Wf表示遗忘门权重矩阵,bf表示遗忘门偏移量,it表示输入门,Wi表示输入门权重矩阵,bi表示输入门偏移量,ot表示输出门,Wo表示输出门权重矩阵,bo表示输出门偏移量,ct表示细胞状态,⊙表示矩阵乘法,tanh()表示激活函数;
步骤1d)、双向长短期网络的输出分别为lLS和rLS;lLS和rLS分别表示目标单词的上文特征和下文特征,通过神经张量网络将上文特征和下文特征进行结合,神经张量网络算法过程如下:
Figure FDA0003212569410000042
其中,l表示上文,lLST表示目标单词的上文特征转置,T为神经张量网络权重矩阵,v表示神经张量网络输出,W表示权重矩阵,b表示偏移量;
在训练神经网络时需要使用负采样方法,损失函数为:
Figure FDA0003212569410000043
其中,E表示损失函数,σ表示激活函数,
Figure FDA0003212569410000044
为目标单词,
Figure FDA0003212569410000045
为目标单词所在上下文,
Figure FDA0003212569410000046
为词表中的非目标单词;
负采样本着单词出现频率越高采样概率越大的原则,使用的算法是:
Figure FDA0003212569410000051
其中,P(w)表示单词w被采样的概率,counter表示单词w出现的次数,w表示被抽样的单词,α表示需设置的参数,u表示目标文档中的单词,D表示目标文档;
使用自适应时刻估计算法更新权重,输出已经训练好的biLSTM神经网络结构参数用于后续上下文向量的计算。
3.根据权利要求2所述基于语义嵌入的词向量改进模型的建立方法,其特征在于:步骤1a)中One-hot处理过程为:
l←E([w1,w2,...wi-1])
r←E([wi+1,w2,...wn])
Figure FDA0003212569410000054
其中,l表示上文,E([w1,w2,...wi-1])表示使用One-hot编码单词序列[w1,w2,...wi-1],←表示赋值,r表示下文,表示One-hot编码单词序列[wi+1,w2,...wn],
Figure FDA0003212569410000053
表示目标值,E(wi)表示使用One-hot编码wi
4.根据权利要求3所述基于语义嵌入的词向量改进模型的建立方法,其特征在于:步骤2中余弦相似度公式为:
Figure FDA0003212569410000052
其中,sim(x,y)表示x和y的余弦相似度,m表示向量维度数目,xi表示x在第i个维度的值,yi表示y在第i个维度的值。
5.根据权利要求4所述基于语义嵌入的词向量改进模型的建立方法,其特征在于:需设置的参数α为0.75。
CN201910395662.6A 2019-05-13 2019-05-13 一种基于语义嵌入的词向量改进模型的建立方法 Active CN110532395B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910395662.6A CN110532395B (zh) 2019-05-13 2019-05-13 一种基于语义嵌入的词向量改进模型的建立方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910395662.6A CN110532395B (zh) 2019-05-13 2019-05-13 一种基于语义嵌入的词向量改进模型的建立方法

Publications (2)

Publication Number Publication Date
CN110532395A CN110532395A (zh) 2019-12-03
CN110532395B true CN110532395B (zh) 2021-09-28

Family

ID=68659278

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910395662.6A Active CN110532395B (zh) 2019-05-13 2019-05-13 一种基于语义嵌入的词向量改进模型的建立方法

Country Status (1)

Country Link
CN (1) CN110532395B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732903A (zh) * 2020-09-19 2021-04-30 中国人民解放军战略支援部队信息工程大学 即时通信信息取证过程中证据分类方法及系统
CN113268565B (zh) * 2021-04-27 2022-03-25 山东大学 一种基于概念文本的词向量快速生成方法和装置
CN115827856B (zh) * 2022-07-26 2023-06-20 国家国防科技工业局军工项目审核中心 一种基于计算机的军工领域消息的传递方法
CN117349275B (zh) * 2023-12-04 2024-03-01 中电数创(北京)科技有限公司 一种基于大语言模型的文本结构化方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984526A (zh) * 2018-07-10 2018-12-11 北京理工大学 一种基于深度学习的文档主题向量抽取方法
CN109033307A (zh) * 2018-07-17 2018-12-18 华北水利水电大学 基于crp聚类的词语多原型向量表示及词义消歧方法
CN109241535A (zh) * 2018-09-17 2019-01-18 北京神州泰岳软件股份有限公司 一种多语义监督的词向量训练方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11222253B2 (en) * 2016-11-03 2022-01-11 Salesforce.Com, Inc. Deep neural network model for processing data through multiple linguistic task hierarchies

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984526A (zh) * 2018-07-10 2018-12-11 北京理工大学 一种基于深度学习的文档主题向量抽取方法
CN109033307A (zh) * 2018-07-17 2018-12-18 华北水利水电大学 基于crp聚类的词语多原型向量表示及词义消歧方法
CN109241535A (zh) * 2018-09-17 2019-01-18 北京神州泰岳软件股份有限公司 一种多语义监督的词向量训练方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Efficient Non-parametric Estimation of Multiple Embeddings per Word in Vector Space;Arvind Neelakantan;Jeevan Shankar;Alexandre Passos;《Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing》;20150424;全文 *
基于神经网络语言模型的分布式词向量研究进展;郁可人;傅云斌;董启文;《华东师范大学学报(自然科学版)》;20170930(第5期);全文 *

Also Published As

Publication number Publication date
CN110532395A (zh) 2019-12-03

Similar Documents

Publication Publication Date Title
CN108733792B (zh) 一种实体关系抽取方法
CN110532395B (zh) 一种基于语义嵌入的词向量改进模型的建立方法
CN108984745B (zh) 一种融合多知识图谱的神经网络文本分类方法
CN108595632B (zh) 一种融合摘要与主体特征的混合神经网络文本分类方法
CN113792818B (zh) 意图分类方法、装置、电子设备及计算机可读存储介质
CN107832400B (zh) 一种基于位置的lstm和cnn联合模型进行关系分类的方法
CN109992629B (zh) 一种融合实体类型约束的神经网络关系抽取方法及系统
CN110222163A (zh) 一种融合cnn与双向lstm的智能问答方法及系统
CN111027595B (zh) 双阶段语义词向量生成方法
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及系统
JP7139626B2 (ja) フレーズ生成関係性推定モデル学習装置、フレーズ生成装置、方法、及びプログラム
CN110765755A (zh) 一种基于双重选择门的语义相似度特征提取方法
CN110263343B (zh) 基于短语向量的关键词抽取方法及系统
CN113987147A (zh) 样本处理方法及装置
CN113283236B (zh) 一种复杂中文文本中的实体消歧方法
CN113255366B (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN111368542A (zh) 一种基于递归神经网络的文本语言关联抽取方法和系统
CN113821635A (zh) 一种用于金融领域的文本摘要的生成方法及系统
CN115130538A (zh) 文本分类模型的训练方法、文本处理的方法、设备及介质
CN110569355B (zh) 一种基于词块的观点目标抽取和目标情感分类联合方法及系统
CN113821590A (zh) 一种文本类别的确定方法、相关装置以及设备
CN113076744A (zh) 一种基于卷积神经网络的文物知识关系抽取方法
CN116680575B (zh) 模型处理方法、装置、设备及存储介质
CN113435208A (zh) 学生模型的训练方法、装置及电子设备
CN113761192A (zh) 文本处理方法、文本处理装置及文本处理设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant