CN108228554A - 基于语义表示模型来生成词向量的方法、装置和电子设备 - Google Patents

基于语义表示模型来生成词向量的方法、装置和电子设备 Download PDF

Info

Publication number
CN108228554A
CN108228554A CN201611128785.6A CN201611128785A CN108228554A CN 108228554 A CN108228554 A CN 108228554A CN 201611128785 A CN201611128785 A CN 201611128785A CN 108228554 A CN108228554 A CN 108228554A
Authority
CN
China
Prior art keywords
language
term vector
weight matrix
word
hidden state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611128785.6A
Other languages
English (en)
Inventor
张姝
孙俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201611128785.6A priority Critical patent/CN108228554A/zh
Publication of CN108228554A publication Critical patent/CN108228554A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本申请的实施例提供一种基于语义表示模型来生成词向量的方法、装置和电子设备,该方法通过对源语言和目标语言的隐含状态值进行均值匹配来构建语义表示模型的损失函数,并且,在基于损失函数而调整语义表示模型的过程中,能够在双语共享的K维词向量空间中,分别得到源语言的词向量和目标语言的词向量,从而使得语义接近的源语言的词语与目标语言的词语所对应的词向量也彼此接近。根据本申请实施例,无需借助于跨语言监督,就能够实现源语言和目标语言的跨语言表示。

Description

基于语义表示模型来生成词向量的方法、装置和电子设备
技术领域
本申请涉及信息技术领域,尤其涉及一种基于语义表示模型来生成词向量的方法、装置和电子设备。
背景技术
自然语言理解的问题要转化为机器学习的问题,首先需要将自然语言的符号数学化,即,将词表示为数字。
最直观的词表示方法是One-hot Representation,这种方法把每个词表示为一个很长的向量,这个向量的维度是词表大小,其中绝大多数元素为0,只有一个维度的值为1,这个值为1的维度就代表了当前的词。
例如,“话筒”的向量为[0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 ...],“麦克”向量为[0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 ...]。
One-hot Representation的词表示方法存在一个重要的问题,那就是“词汇鸿沟”现象,即,任意两个词的向量都是孤立的。所以,光从词的向量中看不出这些词是否有关系。
在自然语言处理领域,通常使用的词向量并不是用One-hot Representation表示的高维度的词向量,而是低维实数向量,例如,[0.792,-0.177,-0.107,0.109,-0.542,...]。这种低维实数向量的维度通常是50或100。基于特定的语义表示模型,一个词可以被表示为n维空间中的一个低维实数向量,并且,对于同一个词,采用不同的语义表示模型,会得到不同的低维实数向量。
用低维实数向量作为词向量来表示词的情况下,语义相近的词所对应的向量在空间中也会比较接近,例如,“电脑”和“计算机”的词向量比较接近。此外,语义表示还有很多有趣的性质,比如表示“国王”的词向量减去表示“男人”的词向量,再加上表示“女人”的词向量,计算结果得到的向量与表示“女王”的词向量非常接近。
常用的用于获得低维实数向量的语义表示模型,例如可以是连续词袋(ContinuousBag-of-Words Model,CBOW)模型,或SKIP模型等。
下面,对连续词袋(CBOW)模型进行简单说明:
图1是CBOW模型的一个示意图,如图1所示,CBOW模型100至少包括输入层101,隐含层103,输出层105,第一权重矩阵W和第二权重矩阵M。
在CBOW模型中,语料集D是一系列词语对(pairs)所构成的集合,该集合中有N个词语对,第i个词语对可以被表示为(xi,yi),其中,N是自然数,i为整数,且0≤i<N。在第i个词语对中,yi是中心词,xi是由该中心词的Ci个上下文词语所构成的集合,即其中,j为自然数,且j≤Ci。yi,xi∈(1,2,…,V),其中,V是语料集D所处的词典中词语的数量,即词典的规模。
例如,该第i个词语对为(the,cats,sit,on,the,mat),其中,sit是中心词yi,该中心词yi的Ci个上下文词语所构成的集合xi=(the,cats,on,the,mat)。
在CBOW模型的输入层101,xi中的每一个词语xij可以被表示为用One-hotRepresentation表示的词向量即,集合xi可以被表示为向量集合CBOW模型中的第一权重矩阵W可以把输入层的每一个词向量转化为K维的实数向量,该K维的实数向量被输入到CBOW模型的隐含层,其中,第一权重矩阵W是K×V的矩阵。
在CBOW的隐含层103中,对向量集合中的所有词向量取平均,作为隐含层的隐含状态值,隐含状态值例如可以被表示为下式(1):
隐含状态值可以被第二权重矩阵M转化为V维的向量其中,该第二权重矩阵M是V×K的矩阵。向量例如可以被表示为下式(2):
在CBOW模型中,输出层105可以对向量进行归一化(normalized)处理,得到归一化向量该归一化向量的每一个元素的值能反映在给定上下文集合xi的情况下,中心词为词典中相应词语的概率,例如,中的元素Or与词典中第r个词对应,元素与词典中的词yi对应。其中,输出层对向量进行的归一化(normalized)处理例如可以是基于soft-max函数的处理。
在CBOW模型中,在给定上下文集合xi的情况下,中心词为yi的概率可以表示为下式(3):
其中,该概率P(yi|xi,W,M)也与第一权重矩阵W和第二权重矩阵M相关。
在CBOW模型中,可以构建与概率P(yi|xi,W,M)有关的损失函数L,并调整W和M,以使得该损失函数最小化,例如,可以基于下式(4)来调整W和M:
在CBOW模型中,可以使用语料集D中的语料,基于梯度下降算法(gradientdescentalgorithm)进行多次迭代来调整W和M。
在CBOW模型中,可以使用调整后的第一权重矩阵W将语料集D中的词语转化为K维的实数向量,由此,能够将V维的词向量转化为K维的词向量。
应该注意,上面对技术背景的介绍只是为了方便对本申请的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本申请的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。
发明内容
在现有技术中,为了进行词典抽取、机器翻译等任务,经常需要将不同语言的词向量进行对应,以实现跨语言表示(cross-lingual representation)。这些不同的语言可以被分别称为源(source)语言和目标(target)语言。通常,在基于语义表示模型而获得了源语言的词向量和目标语言的词向量之后,需要进一步借助于跨语言监督(cross-lingualsupervision)来实现不同语言的词向量之间的对应。跨语言监督例如需要设定种子词汇(seed lexicon)、词级对齐(word-level alignments)、句子级对齐(sentence-levelalignments)、文档级对齐(document-level alignments)等。
本申请的发明人发现,在现有技术中,由于在将不同语言的词向量进行对应的过程中,需要借助于跨语言监督,所以限制了跨语言表示(cross-lingual representation)的发展和应用。
本申请的实施例提供一种基于语义表示模型来生成词向量的方法、装置和电子设备,通过对源语言和目标语言的隐含状态值进行均值匹配来构建语义表示模型的损失函数,并且,在基于损失函数而调整语义表示模型的过程中,能够在双语共享的K维词向量空间中,分别得到源语言的词向量和目标语言的词向量,从而使得语义接近的源语言的词语与目标语言的词语所分别对应的词向量也彼此接近。由此,无需借助于跨语言监督,就能够实现源语言和目标语言的跨语言表示。
根据本申请实施例的第一方面,提供一种基于语义表示模型来生成词向量的方法,用于在K维词向量空间中生成源(source)语言的词向量和目标(target)语言的词向量,所述语义表示模型至少包括输入层,隐含层,输出层,第一权重矩阵W和第二权重矩阵M,其中,所述输入层被输入语料的中心词语的各上下文词语的第一词向量,所述第一词向量被所述第一权重矩阵W转化为第二词向量,所述隐含层根据所述第二词向量生成隐含状态值,所述隐含状态值被所述第二权重矩阵M转化为第三向量,所述输出层对所述第三向量进行处理并输出;
其特征在于,该方法包括:
基于输入到所述输入层的源语言的词语所对应的第一词向量,得到源语言的隐含状态值的均值和方差基于输入到所述输入层的目标语言的词语所对应的第一词向量,得到目标语言的隐含状态值的均值和方差
基于源语言的隐含状态值的均值和方差以及目标语言的隐含状态值的均值和方差构建损失函数,并基于使所述损失函数最小的原则,调整所述第一权重矩阵W和所述第二权重矩阵M;以及
基于调整后的第一权重矩阵W,将输入到所述输入层的源语言的词语所对应的第一词向量转化为第二词向量,以及将输入到所述输入层的目标语言的词语所对应的第一词向量转化为第二词向量。
根据本申请实施例的第二方面,提供一种基于语义表示模型来生成词向量的装置,用于在K维词向量空间中生成源(source)语言的词向量和目标(target)语言的词向量,所述语义表示模型至少包括输入层,隐含层,输出层,第一权重矩阵W和第二权重矩阵M,其中,所述输入层被输入语料的中心词语的各上下文词语的第一词向量,所述第一词向量被所述第一权重矩阵W转化为第二词向量,所述隐含层根据所述第二词向量生成隐含状态值,所述隐含状态值被所述第二权重矩阵M转化为第三向量,所述输出层对所述第三向量进行处理并输出;
其特征在于,该装置包括:
第一获取单元,其基于输入到所述输入层的源语言的词语所对应的第一词向量,得到源语言的隐含状态值的均值和方差基于输入到所述输入层的目标语言的词语所对应的第一词向量,得到目标语言的隐含状态值的均值和方差
第一调整单元,其基于源语言的隐含状态值的均值和方差以及目标语言的隐含状态值的均值和方差构建损失函数,并基于使所述损失函数最小的原则,调整所述第一权重矩阵W和所述第二权重矩阵M;以及
第一转化单元,其基于调整后的第一权重矩阵W,将输入到所述输入层的源语言的词语所对应的第一词向量转化为第二词向量,以及将输入到所述输入层的目标语言的词语所对应的第一词向量转化为第二词向量。
根据本申请实施例的第三方面,提供一种电子设备,包括本申请实施例第二方面所述的基于语义表示模型来生成词向量的装置。
本申请的有益效果在于:无需借助于跨语言监督,就能够实现源语言和目标语言的跨语言表示。
参照后文的说明和附图,详细公开了本发明的特定实施方式,指明了本发明的原理可以被采用的方式。应该理解,本发明的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内,本发明的实施方式包括许多改变、修改和等同。
针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在,但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。
附图说明
所包括的附图用来提供对本发明实施例的进一步的理解,其构成了说明书的一部分,用于例示本发明的实施方式,并与文字描述一起来阐释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是CBOW模型的一个示意图;
图2是本申请实施例1的语义表示模型的一个示意图;
图3是实施例1的基于语义表示模型来生成词向量的方法的一个示意图;
图4是本实施例2的基于语义表示模型来生成词向量的装置的一个示意图;
图5是本申请实施例3的电子设备的一个构成示意图。
具体实施方式
参照附图,通过下面的说明书,本发明的前述以及其它特征将变得明显。在说明书和附图中,具体公开了本发明的特定实施方式,其表明了其中可以采用本发明的原则的部分实施方式,应了解的是,本发明不限于所描述的实施方式,相反,本发明包括落入所附权利要求的范围内的全部修改、变型以及等同物。
实施例1
本申请实施例1提供一种基于语义表示模型来生成词向量的方法,用于在K维词向量空间中生成源(source)语言的实数词向量和目标(target)语言的实数词向量。
图2是本实施例1的语义表示模型的一个示意图。如图2所示,在本实施例中,语义表示模型200至少包括输入层201,隐含层203,输出层205,第一权重矩阵W和第二权重矩阵M,其中,输入层201被输入语料的中心词语的各上下文词语的第一词向量,该第一词向量被第一权重矩阵W转化为第二词向量,隐含层203根据第二词向量生成隐含状态值,该隐含状态值被第二权重矩阵M转化为第三向量,输出层205对该第三向量进行处理并输出。
图3是实施例1的基于语义表示模型200来生成词向量的方法的一个示意图,如图3所示,该方法包括:
步骤301、基于输入到所述输入层的源语言的语料所对应的第一词向量,得到源语言的隐含状态值的均值和方差基于输入到所述输入层的目标语言的语料所对应的第一词向量,得到目标语言的隐含状态值的均值和方差
步骤302、基于源语言的隐含状态值的均值和方差以及目标语言的隐含状态值的均值和方差构建损失函数,并基于使所述损失函数最小的原则,调整所述第一权重矩阵W和所述第二权重矩阵M;以及
步骤303、基于调整后的第一权重矩阵W,将输入到所述输入层的源语言的语料所对应的第一词向量转化为第二词向量,以及将输入到所述输入层的目标语言的语料所对应的第一词向量转化为第二词向量。
根据本实施例,通过对源语言和目标语言的隐含状态值进行均值匹配来构建语义表示模型的损失函数,并且,在基于损失函数而调整权重矩阵的过程中,能够在双语共享的K维词向量空间中,分别得到源语言的词向量和目标语言的词向量,从而使得语义接近的源语言的词语与目标语言的词语所分别对应的词向量也彼此接近。由此,无需借助于跨语言监督,就能够实现源语言和目标语言的跨语言表示。
在本实施例中,关于语义表示模型200的详细说明可以参考现有技术,此处不再赘述。
在本实施例中,语义表示模型200例如可以是连续词袋(Continuous Bag-of-WordsModel,CBOW)模型,或SKIP模型等。
下面,以连续词袋(CBOW)模型为例,说明本实施例的方法的具体实施方式,但是本实施例并不限于此,本实施例的方法同样可以基于其它的语义表示模型来实施。
在本实施例中,源语言语料集Ds是源语言的一系列词语对(pairs)所构成的集合,该集合中可以有Ns个词语对,第is个词语对可以被表示为(xis,yis),其中,Ns是自然数,is为整数,且0≤is<Ns。在第is个词语对中,yis是中心词,xis是由该中心词的Cis个上下文词语所构成的集合,即xis=(xis1,xis2,…,xisjs,…,xisCis),其中,js为自然数,且js≤Cis。yis,xis∈(1,2,…,Vs),其中,Vs是源语言的语料集Ds所处的源语言词典中词语的数量,即源语言的词典的规模。
在本实施例中,目标语言语料集Dt是目标语言的一系列词语对(pairs)所构成的集合,该集合中可以有Nt个词语对,第it个词语对可以被表示为(xit,yit),其中,Nt是自然数,it为整数,且0≤it<Nt。在第it个词语对中,yit是中心词,xit是由该中心词的Cit个上下文词语所构成的集合,即xit=(xit1,xit2,…,xitjt,…,xitCit),其中,jt为自然数,且jt≤Cit。yit,xit∈(1,2,…,Vt),其中,Vt是目标语言的语料集Dt所处的目标语言词典中词语的数量,即目标语言的词典的规模。
在CBOW模型的输入层,源语言的xis中的每一个词语xisjs可以被表示为用One-hotRepresentation表示的第一词向量目标语言的xit中的每一个词语xitjt可以被表示为用One-hot Representation表示的第一词向量
在本实施例中,第一权重矩阵W可以是K×V的矩阵,第二权重矩阵M可以是V×K的矩阵,其中,V=Vs+Vt。
在本实施例的步骤301中,CBOW模型中的第一权重矩阵W可以把输入到输入层的源语言的语料的每一个词向量转化为K维的实数向量,即源语言的第二词向量,由此,集合xis可以被表示为向量集合
在本实施例中,源语言的词语对应的各K维的第二词向量被输入到语义模型的隐含层。在CBOW模型的隐含层中,可以对向量集合中的所有词向量取平均,作为源语言对应的隐含层的隐含状态值隐含状态值例如可以基于上式(1)来得到。
在本实施例中,源语言的隐含状态值的均值和方差分别表示为下式(5)和(6):
在本实施例中,可以采用与上式(5)、(6)相似的表示式来表示目标语言的隐含状态值的均值和方差
在本实施例中,由上式(5)、(6)可知,为了得到需要得到出源语言的语料集Ds中所有词语的第二词向量,这一任务难度较大。为了简化处理,在步骤301中,可以采用如下的方式来估计
其中,在对该语义表示模型进行第g次迭代时所使用的源语言的词语对为 其中,g为自然数;分别是对该语义表示模型进行第g次迭代时所使用的源语言的隐含状态值的均值和方差;分别是对该语义表示模型进行第(g-1)次迭代时所使用的源语言的隐含状态值的均值和方差;scountg-1是截止到对该语义表示模型进行第g-1次迭代为止,所使用的源语言的词语对的总数量,其中,被使用的源语言的词语对的数量每增加1,scountg-1的值也增加1,此外,scountg-1可具有最大值,该最大值例如为100000,即,当scountg-1到达最大值以后,即使被使用的源语言的词语对的数量继续增加,scountg-1的值也不再增加。
在本实施例中,可以设定的初始值都为0,即如下式(9)、(10)所示:
在本实施例中,可以基于与上式(7)、(8)、(9)、(10)相似的公式来估计
在本实施例的步骤302中,可以基于源语言的隐含状态值的均值和方差以及目标语言的隐含状态值的均值和方差来构建损失函数L’,并基于使该损失函数L’最小的原则,调整第一权重矩阵W和第二权重矩阵M,例如,可以根据下式(11)来调整W和M:
其中,L(W,M,xi,yi)的表示式可以参见上式(4),在式(11)中,(xi,yi)是来自于源语言的语料集Ds或目标语言的语料集Dt中的词语对,可以表示前述的(xis,yis)或(xit,yit);λm和λv分别为常数,表示均值的差异,表示方差的差异,的表达式可以分别是下式(12)、(13):
在本实施例中,f是小于K的自然数,f是K维向量的第f个元素的编号。
在本实施例的步骤S302中,可以使用损失函数L’相对于隐含状态值的梯度,通过多次迭代来调整W和M,以使第一权重矩阵W和第二权重矩阵M符合上式(11)的要求,例如,损失函数L’相对于隐含状态值的梯度可以表示为下式(14):
其中,的表达式可以结合上式(7)、(8)得到,如下式(15)所示:
在式(14)、(15)中,xi可以表示前述的xis或xit
在本实施例中,对于源语言来说,当来自于源语言的语料集Ds中的词语对(xi,yi)被用于调整W和M的情况下,可以在步骤301中基于上式(7)、(8)计算并且,在步骤302中,基于当前的目标语言的语料集Dt中的词语对所对应的以及在步骤301中计算出的根据上式(14)、(15)来计算损失函数的梯度,并基于损失函数的梯度进行处理,以调整W和M,其中,基于损失函数的梯度进行的处理例如可以是标准的后向传播算法(standard back propagation algorithm)。对于目标语言来说,当来自于目标语言的语料集Dt中的新的词语对被用于调整W和M的情况下,可以采用与源语言类似的方式来调整W和M。由此,能够以使得源语言的隐含状态值的分布与目标语言的隐含状态值的分布更为接近作为目标,来调整W和M。
在本实施例的步骤302中,在使用损失函数L’相对于隐含状态值的梯度调整W和M的过程中,可以在语义表示模型200的输出层205,针对源语言的词典和目标语言的词典分别进行负采样(Negative Sampling),即,双语负采样(BilingualNegativeSampling)。
在本实施例中,对目标语言进行负采样的样本例如为yit n。在源语言的语料集Ds中,中心词yis的上下文是xis,为了避免在给定源语言的上下文xis的情况下负采样的样本yit n与源语言的中心词yis的翻译相同,负采样的样本yit n需满足下式(16):
其中,BS为预定的阈值;r(yis)和r(yit n)分别是源语言的中心词yis出现频率的阶次(frequency rank)和目标语言的负采样的样本yit n出现频率的阶次,Vs和Vt分别是源语言的词典规模和目标语言的词典规模。在本实施例中,r(yis)和r(yit n)的计算方式例如可以参考非专利文献1(Malte Nuhn,Arne Mauser,and Hermann Ney.2012.Decipheringforeign language by combining language models and context vectors.InProceedings of the 50th Annual Meeting of the Association for ComputationalLinguistics (Volume 1:Long Papers),pages 156–164,Jeju Island,Korea,July.Association for Computational Linguistics.)
在本实施例中,基于对目标语言进行负采样的样本来调整W和M的方式可以参考现有技术,本实施例不再赘述。
在本实施例中,对源语言进行负采样的说明可以参照上述对目标语言进行负采样的说明。此外,在本实施例中,基于对源语言进行负采样的样本来调整W和M的过程可以参考现有技术,本实施例不再赘述。
在本实施例中,通过双语负采样,能够降低运算开销,提高运算效率。
在本实施例的步骤303中,可以基于调整后的第一权重矩阵W,将输入到输入层301的源语言的语料所对应的第一词向量转化为第二词向量,以及将输入到输入层的目标语言的语料所对应的第一词向量转化为第二词向量,由此,源语言的词语所对应的第二词向量和目标语言的语料所对应的第二词向量能够具有相似分布。
根据本实施例,语义接近的源语言的词语与目标语言的词语所分别对应的第二词向量也彼此接近。由此,无需借助于跨语言监督,就能够实现源语言和目标语言的跨语言表示。
实施例2
本申请实施例2提供一种基于语义表示模型来生成词向量的装置,与实施例1的方法对应。
图4是本实施例2的基于语义表示模型来生成词向量的装置的一个示意图,如图4所示,该装置400包括获得单元401,调整单元402,以及转化单元403。
其中,获取单元401基于输入到所述输入层的源语言的词语所对应的第一词向量,得到源语言的隐含状态值的均值和方差基于输入到所述输入层的目标语言的词语所对应的第一词向量,得到目标语言的隐含状态值的均值和方差调整单元402基于源语言的隐含状态值的均值和方差以及目标语言的隐含状态值的均值和方差构建损失函数,并基于使所述损失函数最小的原则,调整所述第一权重矩阵W和所述第二权重矩阵M;转化单元403基于调整后的权重矩阵W,将输入到所述输入层的源语言的词语所对应的第一词向量转化为第二词向量,以及将输入到所述输入层的目标语言的词语所对应的第一词向量转化为第二词向量。
对于本实施例中各单元的说明可参考实施例1中对方法的各步骤的说明,此处不再重复。
在本实施例中,通过对源语言和目标语言的隐含状态值进行均值匹配来构建语义表示模型的损失函数,并且,在基于损失函数而调整权重矩阵的过程中,能够在双语共享的K维词向量空间中,分别得到源语言的词向量和目标语言的词向量,从而使得语义接近的源语言的词语与目标语言的词语所分别对应的词向量也彼此接近。由此,无需借助于跨语言监督,就能够实现源语言和目标语言的跨语言表示。
实施例3
本申请实施例3提供一种电子设备,所述电子设备包括:如实施例2所述的基于语义表示模型来生成词向量的装置。
图5是本申请实施例3的电子设备的一个构成示意图。如图5所示,电子设备500可以包括:中央处理器(CPU)501和存储器502;存储器502耦合到中央处理器501。其中该存储器502可存储各种数据;此外还存储基于语义表示模型来生成词向量的程序,并且在中央处理器501的控制下执行该程序。
在一个实施方式中,基于语义表示模型来生成词向量的装置的功能可以被集成到中央处理器501中。
其中,中央处理器501可以被配置为:
基于输入到所述输入层的源语言的词语所对应的第一词向量,得到源语言的隐含状态值的均值和方差基于输入到所述输入层的目标语言的词语所对应的第一词向量,得到目标语言的隐含状态值的均值和方差
基于源语言的隐含状态值的均值和方差以及目标语言的隐含状态值的均值和方差构建损失函数,并基于使所述损失函数最小的原则,调整所述第一权重矩阵W和所述第二权重矩阵M;以及
基于调整后的第一权重矩阵W,将输入到所述输入层的源语言的词语所对应的第一词向量转化为第二词向量,以及将输入到所述输入层的目标语言的词语所对应的第一词向量转化为第二词向量。
在本实施例中,中央处理器501还可以被配置为:
所述损失函数反映源语言的隐含状态值的均值与目标语言的隐含状态值的均值之间的差异,以及源语言的隐含状态值的方差和目标语言的隐含状态值的方差之间的差异。
在本实施例中,中央处理器501还可以被配置为:
基于所述损失函数相对于隐含状态值的梯度,调整所述第一权重矩阵W和所述第二权重矩阵M。
在本实施例中,中央处理器501还可以被配置为:
在所述语义表示模型的所述输出层对源语言的词典和目标语言的词典分别进行负采样,并基于负采样的样本调整所述第一权重矩阵W和所述第二权重矩阵M。
此外,如图5所示,电子设备500还可以包括:输入输出单元503和显示单元504等;其中,上述部件的功能与现有技术类似,此处不再赘述。值得注意的是,电子设备500也并不是必须要包括图5中所示的所有部件;此外,电子设备500还可以包括图5中没有示出的部件,可以参考现有技术。
本申请实施例还提供一种计算机可读程序,其中当在基于语义表示模型来生成词向量的装置或电子设备中执行所述程序时,所述程序使得所述装置或电子设备执行实施例1所述的方法。
本申请实施例还提供一种存储有计算机可读程序的存储介质,其中,所述存储介质存储上述计算机可读程序,所述计算机可读程序使得基于语义表示模型来生成词向量的装置或电子设备执行实施例1所述的方法。
结合本发明实施例描述的装置可直接体现为硬件、由处理器执行的软件模块或二者组合。例如,图4中所示的功能框图中的一个或多个和/或功能框图的一个或多个组合,既可以对应于计算机程序流程的各个软件模块,亦可以对应于各个硬件模块。这些软件模块,可以分别对应于实施例1所示的各个步骤。这些硬件模块例如可利用现场可编程门阵列(FPGA)将这些软件模块固化而实现。
软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域已知的任何其它形式的存储介质。可以将一种存储介质耦接至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息;或者该存储介质可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该软件模块可以存储在移动终端的存储器中,也可以存储在可插入移动终端的存储卡中。例如,若设备(例如移动终端)采用的是较大容量的MEGA-SIM卡或者大容量的闪存装置,则该软件模块可存储在该MEGA-SIM卡或者大容量的闪存装置中。
针对图4描述的功能框图中的一个或多个和/或功能框图的一个或多个组合,可以实现为用于执行本申请所描述功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑器件、分立硬件组件、或者其任意适当组合。针对图4描述的功能框图中的一个或多个和/或功能框图的一个或多个组合,还可以实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器、与DSP通信结合的一个或多个微处理器或者任何其它这种配置。
以上结合具体的实施方式对本申请进行了描述,但本领域技术人员应该清楚,这些描述都是示例性的,并不是对本申请保护范围的限制。本领域技术人员可以根据本申请的原理对本申请做出各种变型和修改,这些变型和修改也在本申请的范围内。

Claims (9)

1.一种基于语义表示模型来生成词向量的方法,用于在K维词向量空间中生成源(source)语言的词向量和目标(target)语言的词向量,所述语义表示模型至少包括输入层,隐含层,输出层,第一权重矩阵W和第二权重矩阵M,其中,所述输入层被输入语料的中心词语的各上下文词语的第一词向量,所述第一词向量被所述第一权重矩阵W转化为第二词向量,所述隐含层根据所述第二词向量生成隐含状态值,所述隐含状态值被所述第二权重矩阵M转化为第三向量,所述输出层对所述第三向量进行处理并输出;
其特征在于,该方法包括:
基于输入到所述输入层的源语言的词语所对应的第一词向量,得到源语言的隐含状态值的均值和方差基于输入到所述输入层的目标语言的词语所对应的第一词向量,得到目标语言的隐含状态值的均值和方差
基于源语言的隐含状态值的均值和方差以及目标语言的隐含状态值的均值和方差构建损失函数,并基于使所述损失函数最小的原则,调整所述第一权重矩阵W和所述第二权重矩阵M;以及
基于调整后的第一权重矩阵W,将输入到所述输入层的源语言的词语所对应的第一词向量转化为第二词向量,以及将输入到所述输入层的目标语言的词语所对应的第一词向量转化为第二词向量。
2.如权利要求1所述的方法,其中,
所述损失函数反映源语言的隐含状态值的均值与目标语言的隐含状态值的均值之间的差异,以及源语言的隐含状态值的方差和目标语言的隐含状态值的方差之间的差异。
3.如权利要求1所述的方法,其中,调整所述第一权重矩阵W和所述第二权重矩阵M包括:
基于所述损失函数相对于隐含状态值的梯度,调整所述第一权重矩阵W和所述第二权重矩阵M。
4.如权利要求1所述的方法,其中,调整所述第一权重矩阵W和所述第二权重矩阵M包括:
在所述语义表示模型的所述输出层,针对源语言的词典和目标语言的词典分别进行负采样,并基于负采样的结果调整所述第一权重矩阵W和所述第二权重矩阵M。
5.一种基于语义表示模型来生成词向量的装置,用于在K维词向量空间中生成源(source)语言的词向量和目标(target)语言的词向量,所述语义表示模型至少包括输入层,隐含层,输出层,第一权重矩阵W和第二权重矩阵M,其中,所述输入层被输入语料的中心词语的各上下文词语的第一词向量,所述第一词向量被所述第一权重矩阵W转化为第二词向量,所述隐含层根据所述第二词向量生成隐含状态值,所述隐含状态值被所述第二权重矩阵M转化为第三向量,所述输出层对所述第三向量进行处理并输出;
其特征在于,该装置包括:
第一获取单元,其基于输入到所述输入层的源语言的词语所对应的第一词向量,得到源语言的隐含状态值的均值和方差基于输入到所述输入层的目标语言的词语所对应的第一词向量,得到目标语言的隐含状态值的均值和方差
第一调整单元,其基于源语言的隐含状态值的均值和方差以及目标语言的隐含状态值的均值和方差构建损失函数,并基于使所述损失函数最小的原则,调整所述第一权重矩阵W和所述第二权重矩阵M;以及
第一转化单元,其基于调整后的第一权重矩阵W,将输入到所述输入层的源语言的词语所对应的第一词向量转化为第二词向量,以及将输入到所述输入层的目标语言的词语所对应的第一词向量转化为第二词向量。
6.如权利要求5所述的装置,其中,
所述损失函数反映源语言的隐含状态值的均值与目标语言的隐含状态值的均值之间的差异,以及源语言的隐含状态值的方差和目标语言的隐含状态值的方差之间的差异。
7.如权利要求5所述的装置,其中,
所述第一调整单元基于所述损失函数相对于隐含状态值的梯度,调整所述第一权重矩阵W和所述第二权重矩阵M。
8.如权利要求5所述的装置,其中,
所述第一调整单元在所述语义表示模型的所述输出层针对源语言的词典和目标语言的词典分别进行负采样,并基于负采样的结果调整所述第一权重矩阵W和所述第二权重矩阵M。
9.一种电子设备,包括权利要求5-8中任一项所述的装置。
CN201611128785.6A 2016-12-09 2016-12-09 基于语义表示模型来生成词向量的方法、装置和电子设备 Pending CN108228554A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611128785.6A CN108228554A (zh) 2016-12-09 2016-12-09 基于语义表示模型来生成词向量的方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611128785.6A CN108228554A (zh) 2016-12-09 2016-12-09 基于语义表示模型来生成词向量的方法、装置和电子设备

Publications (1)

Publication Number Publication Date
CN108228554A true CN108228554A (zh) 2018-06-29

Family

ID=62638752

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611128785.6A Pending CN108228554A (zh) 2016-12-09 2016-12-09 基于语义表示模型来生成词向量的方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN108228554A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165288A (zh) * 2018-09-17 2019-01-08 北京神州泰岳软件股份有限公司 一种多语义监督的词向量训练方法及装置
CN109271635A (zh) * 2018-09-18 2019-01-25 中山大学 一种嵌入外部词典信息的词向量改进方法
CN109271497A (zh) * 2018-08-31 2019-01-25 华南理工大学 一种基于词向量的事件驱动服务匹配方法
CN109597988A (zh) * 2018-10-31 2019-04-09 清华大学 跨语言的词汇义原预测方法、装置与电子设备
CN110795936A (zh) * 2019-08-14 2020-02-14 腾讯科技(深圳)有限公司 词向量的获取方法和装置、存储介质及电子装置
CN112560472A (zh) * 2019-09-26 2021-03-26 腾讯科技(深圳)有限公司 一种识别敏感信息的方法及装置
US20220366331A1 (en) * 2021-05-14 2022-11-17 Sap Se Persona-driven assistive suite

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090248394A1 (en) * 2008-03-25 2009-10-01 Ruhi Sarikaya Machine translation in continuous space
CN104102630A (zh) * 2014-07-16 2014-10-15 复旦大学 一种针对中文社交网络中中英文混合文本的规范方法
CN105446958A (zh) * 2014-07-18 2016-03-30 富士通株式会社 词对齐方法和词对齐设备
CN105512114A (zh) * 2015-12-14 2016-04-20 清华大学 平行句对的筛选方法和系统
CN105930318A (zh) * 2016-04-11 2016-09-07 深圳大学 一种词向量训练方法及系统
CN106126507A (zh) * 2016-06-22 2016-11-16 哈尔滨工业大学深圳研究生院 一种基于字符编码的深度神经翻译方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090248394A1 (en) * 2008-03-25 2009-10-01 Ruhi Sarikaya Machine translation in continuous space
CN104102630A (zh) * 2014-07-16 2014-10-15 复旦大学 一种针对中文社交网络中中英文混合文本的规范方法
CN105446958A (zh) * 2014-07-18 2016-03-30 富士通株式会社 词对齐方法和词对齐设备
CN105512114A (zh) * 2015-12-14 2016-04-20 清华大学 平行句对的筛选方法和系统
CN105930318A (zh) * 2016-04-11 2016-09-07 深圳大学 一种词向量训练方法及系统
CN106126507A (zh) * 2016-06-22 2016-11-16 哈尔滨工业大学深圳研究生院 一种基于字符编码的深度神经翻译方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
IVAN VULIĆ: "Monolingual and Cross-Lingual Information Retrieval Models Based on (Bilingual) Word Embeddings", 《PROCEEDINGS OF THE 38TH INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL》 *
OFIR PRESS: "Using the Output Embedding to Improve Language Models", 《HTTPS://ARXIV.ORG/ABS/1608.05859》 *
朱泽德: "网络双语语料挖掘关键技术研究", 《中国博士学位论文全文数据库信息科技辑》 *
莫媛媛 等: "基于深层神经网络(DNN)的汉-越双语词语对齐方法", 《山东大学学报(理学版)》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271497A (zh) * 2018-08-31 2019-01-25 华南理工大学 一种基于词向量的事件驱动服务匹配方法
CN109271497B (zh) * 2018-08-31 2021-10-26 华南理工大学 一种基于词向量的事件驱动服务匹配方法
CN109165288A (zh) * 2018-09-17 2019-01-08 北京神州泰岳软件股份有限公司 一种多语义监督的词向量训练方法及装置
CN109165288B (zh) * 2018-09-17 2019-08-27 北京神州泰岳软件股份有限公司 一种多语义监督的词向量训练方法及装置
CN109271635A (zh) * 2018-09-18 2019-01-25 中山大学 一种嵌入外部词典信息的词向量改进方法
CN109271635B (zh) * 2018-09-18 2023-02-07 中山大学 一种嵌入外部词典信息的词向量改进方法
CN109597988B (zh) * 2018-10-31 2020-04-28 清华大学 跨语言的词汇义原预测方法、装置与电子设备
CN109597988A (zh) * 2018-10-31 2019-04-09 清华大学 跨语言的词汇义原预测方法、装置与电子设备
CN110795936A (zh) * 2019-08-14 2020-02-14 腾讯科技(深圳)有限公司 词向量的获取方法和装置、存储介质及电子装置
CN110795936B (zh) * 2019-08-14 2023-09-22 腾讯科技(深圳)有限公司 词向量的获取方法和装置、存储介质及电子装置
CN112560472A (zh) * 2019-09-26 2021-03-26 腾讯科技(深圳)有限公司 一种识别敏感信息的方法及装置
CN112560472B (zh) * 2019-09-26 2023-07-11 腾讯科技(深圳)有限公司 一种识别敏感信息的方法及装置
US20220366331A1 (en) * 2021-05-14 2022-11-17 Sap Se Persona-driven assistive suite

Similar Documents

Publication Publication Date Title
CN108228554A (zh) 基于语义表示模型来生成词向量的方法、装置和电子设备
EP3435247A1 (en) Electronic device and method for text processing
Clark et al. Simple and effective multi-paragraph reading comprehension
CN108563636A (zh) 提取文本关键词的方法、装置、设备及存储介质
Vulić et al. Bilingual distributed word representations from document-aligned comparable data
KR101799681B1 (ko) 어휘 의미망 및 단어 임베딩을 이용한 동형이의어 분별 장치 및 방법
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
JP2021532499A (ja) 機械学習に基づく医療データ分類方法、装置、コンピュータデバイス及び記憶媒体
He et al. Cross-modal subspace learning via pairwise constraints
WO2022068314A1 (zh) 神经网络训练的方法、神经网络的压缩方法以及相关设备
CN111951805A (zh) 一种文本数据处理方法及装置
CN112329460B (zh) 文本的主题聚类方法、装置、设备及存储介质
CN109117474B (zh) 语句相似度的计算方法、装置及存储介质
Synnaeve et al. Learning words from images and speech
Gopi Digital speech processing using Matlab
CN107193806B (zh) 一种词汇义原的自动预测方法及装置
CN109684476A (zh) 一种文本分类方法、文本分类装置及终端设备
CN109726291B (zh) 分类模型的损失函数优化方法、装置及样本分类方法
US11373043B2 (en) Technique for generating and utilizing virtual fingerprint representing text data
CN110489423A (zh) 一种信息抽取的方法、装置、存储介质及电子设备
Österlund et al. Factorization of latent variables in distributional semantic models
CN110046344B (zh) 添加分隔符的方法及终端设备
JP2020098592A (ja) ウェブページ内容を抽出する方法、装置及び記憶媒体
Zhang et al. Multi-document extractive summarization using window-based sentence representation
CN112287667A (zh) 一种文本生成方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180629

WD01 Invention patent application deemed withdrawn after publication