CN106802888B - 词向量训练方法和装置 - Google Patents

词向量训练方法和装置 Download PDF

Info

Publication number
CN106802888B
CN106802888B CN201710023520.8A CN201710023520A CN106802888B CN 106802888 B CN106802888 B CN 106802888B CN 201710023520 A CN201710023520 A CN 201710023520A CN 106802888 B CN106802888 B CN 106802888B
Authority
CN
China
Prior art keywords
vocabulary
library
new
old
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710023520.8A
Other languages
English (en)
Other versions
CN106802888A (zh
Inventor
李建欣
刘垚鹏
彭浩
陈汉腾
张日崇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Aeronautics and Astronautics
Original Assignee
Beijing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Aeronautics and Astronautics filed Critical Beijing University of Aeronautics and Astronautics
Priority to CN201710023520.8A priority Critical patent/CN106802888B/zh
Publication of CN106802888A publication Critical patent/CN106802888A/zh
Application granted granted Critical
Publication of CN106802888B publication Critical patent/CN106802888B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Abstract

本发明提供一种词向量训练方法和装置,其中词向量训练方法包括:获取新增词汇库,新增词汇库中的词汇与旧词汇库中的词汇构成新词汇库,旧词汇库中的词汇对应有旧词向量;对新词汇库中的词汇进行初始化处理,使得新词汇库中属于旧词汇库中的词汇的词向量为旧词向量,新词汇库中属于新增词汇库中的词汇词向量为随机词向量;根据旧词汇库对应的噪声分布和新词汇库对应的噪声分布分别对新词汇库中词汇的词向量进行更新。本发明提供的词向量训练方法和装置,减少了训练词向量时的计算量。

Description

词向量训练方法和装置
技术领域
本发明涉及机器学习技术,尤其涉及一种词向量训练方法和装置。
背景技术
在机器学习技术中,为了使机器理解人类语言的含义,神经网络语言模型的词表示工具将人类语言中的每个词汇都转换成词向量的形式,使得计算机能够通过词向量学习到人类语言中每个词汇的含义。
现有技术中,词表示工具通过学习词汇库中的所有的词汇得到各个词汇的词向量。
采用现有技术,当词汇库中加入新的词汇后,由于每个词出现的频率发生了变化,需要重新学习新的词汇库中的所有的词汇,以得到各个词汇新的词向量,训练词向量时的计算量较大。
发明内容
本发明提供一种词向量训练方法和装置,减少了词向量训练时的计算量。
本发明提供一种词向量训练方法,包括:
获取新增词汇库,所述新增词汇库中的词汇与旧词汇库中的词汇构成新词汇库,所述旧词汇库中的词汇对应有旧词向量;
对所述新词汇库中的词汇进行初始化处理,使得所述新词汇库中属于所述旧词汇库中的词汇的词向量为旧词向量,所述新词汇库中属于所述新增词汇库中的词汇词向量为随机词向量;
根据所述旧词汇库对应的噪声分布和所述新词汇库对应的噪声分布分别对所述新词汇库中词汇的词向量进行更新。
在本发明一实施例中,所述根据所述旧词汇库对应的噪声分布和所述新词汇库对应的噪声分布分别对所述新词汇库中词汇的词向量进行更新,包括:
获取第一词汇对应的预设目标函数,所述第一词汇为所述新词汇库中的词汇;
根据所述第一词汇在所述旧词汇库的属性和在所述新词汇库的属性对所述预设目标函数进行梯度处理,得到所述第一词汇对应的词向量。
在本发明一实施例中,所述获取第一词汇对应的预设目标函数,包括:
若所述第一词汇属于所述旧词汇库,则根据Skip-gram模型的原始目标函数对所述第一词汇进行因式分解,得到所述第一词汇对应的预设目标函数;
若所述第一词汇属于所述新增词汇库,则所述第一词汇对应的预设目标函数为所述Skip-gram模型的原始目标函数。
在本发明一实施例中,所述获取所述第一词汇对应的预设目标函数,包括:
若所述第一词汇属于所述旧词汇库,则根据CBOW模型的原始目标函数对所述第一词汇进行因式分解,得到所述第一词汇对应的预设目标函数;
若所述第一词汇属于所述新增词汇库,则所述第一词汇对应的预设目标函数为所述CBOW模型的原始目标函数。
在本发明一实施例中,所述根据Skip-gram模型的原始目标函数对所述第一词汇进行因式分解,得到所述第一词汇对应的预设目标函数,包括:根据
Figure GDA0002251536150000021
对所述第一词汇因式分解,其中,w表示所述第一词汇,W表示所述旧词汇库,NEG(w)表示处理所述第一词汇w时生成的负样本子集,
Figure GDA0002251536150000022
表示w的上下文,
Figure GDA0002251536150000023
表示所述第一词汇w的目标函数,Context(w)表示所述
Figure GDA0002251536150000024
对应的词汇库。
在本发明一实施例中,所述根据CBOW模型的原始目标函数对所述第一词汇进行因式分解,得到所述第一词汇对应的预设目标函数,包括:根据
Figure GDA0002251536150000031
对所述第一词汇因式分解,其中,w表示所述第一词汇,W表示所述旧词汇库,NEG(w)表示处理所述第一词汇w时生成的负样本子集,l(w,u)表示所述第一词汇w的目标函数。
在本发明一实施例中,所述根据所述第一词汇在所述旧词汇库的属性和在所述新词汇库的属性对所述预设目标函数进行梯度处理,得到所述第一词汇对应的词向量,包括:
获取所述第一词汇在旧词汇库中的权重参数len(w)和所述第一词汇在所述新词汇库中的权重参数len'(w),获取D(u)=sgn(len'(w)-len(w)),其中,
Figure GDA0002251536150000032
Figure GDA0002251536150000033
D为根据W构造的词典。D'为根据W'构造的词典,counter(w)表示w在新词汇库中出现的次数,当D(u)为-1时,通过随机梯度下降抵消所述第一词汇重复出现的贡献,当D(u)为1时,通过梯度上升来恢复所述第一词汇的噪声分布,并根据得到所述第一词汇对应的词向量,Lw(u)表示是否命中,参数v'(w)表示所述第一词汇的词向量,θu表示参数向量,η'表示学习率。
在本发明一实施例中,所述根据所述第一词汇在所述旧词汇库的属性和在所述新词汇库的属性对所述预设目标函数进行梯度处理,得到所述第一词汇对应的词向量,包括:
获取所述第一词汇在旧词汇库中的权重参数len(w)和所述第一词汇在所述新词汇库中的权重参数len'(w),获取D(u)=sgn(len'(w)-len(w)),其中,
Figure GDA0002251536150000041
Figure GDA0002251536150000042
D为根据W构造的词典。D'为根据W'构造的词典,counter(w)表示w在新词汇库中出现的次数,当D(u)为-1时,通过随机梯度下降抵消所述第一词汇重复出现的贡献,当D(u)为1时,通过梯度上升来恢复所述第一词汇的噪声分布,并根据得到所述第一词汇对应的词向量,Lw(u)表示是否命中,参数XW表示所述第一词汇上下文中单词向量相加之和,v'(w)表示所述第一词汇的词向量,θu表示参数向量,η'表示学习率。
本发明提供一种词向量训练装置,包括:
获取模块,所述获取模块用于获取新增词汇库,所述新增词汇库中的词汇与旧词汇库中的词汇构成新词汇库,所述旧词汇库中的词汇对应有旧词向量;
初始化模块,所述初始化模块用于对所述新词汇库中的词汇进行初始化处理,使得所述新词汇库中属于所述旧词汇库中的词汇的词向量为旧词向量,所述新词汇库中属于所述新增词汇库中的词汇词向量为随机词向量;
更新模块,所述更新模块用于根据所述旧词汇库对应的噪声分布和所述新词汇库对应的噪声分布分别对所述新词汇库中词汇的词向量进行更新。
在本发明一实施例中,所述更新模块具体用于,
获取第一词汇对应的预设目标函数,所述第一词汇为所述新词汇库中的词汇;
根据所述第一词汇在所述旧词汇库的属性和在所述新词汇库的属性对所述预设目标函数进行梯度处理,得到所述第一词汇对应的词向量。
本发明提供一种词向量训练方法和装置,其中词向量训练方法包括:获取新增词汇库,新增词汇库中的词汇与旧词汇库中的词汇构成新词汇库,旧词汇库中的词汇对应有旧词向量;对新词汇库中的词汇进行初始化处理,使得新词汇库中属于旧词汇库中的词汇的词向量为旧词向量,新词汇库中属于新增词汇库中的词汇词向量为随机词向量;根据旧词汇库对应的噪声分布和新词汇库对应的噪声分布分别对新词汇库中词汇的词向量进行更新。本发明提供的词向量训练方法和装置,减少了训练词向量时的计算量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明词向量训练方法实施例一的流程示意图;
图2为本发明词向量训练装置实施例一的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
本发明词向量训练方法和装置都应用于基于Negative Sampling负采样模型的word2vec词表示系统。
图1为本发明词向量训练方法实施例一的流程示意图,如图1所示,本实施例词向量训练方法包括以下步骤:
S101:获取新增词汇库,新增词汇库中的词汇与旧词汇库中的词汇构成新词汇库,旧词汇库中的词汇对应有旧词向量。
具体地,旧词汇库中的词汇已被训练为对应的旧词向量,新增词汇库的词汇未训练相对应的词向量。例如:旧词汇库中为现有的已训练词向量的词汇库,新增词汇库包括新增的词汇,此时将已训练词向量的旧词汇库中的词汇与新增的词汇合并为新词汇库。
S102:对新词汇库中的词汇进行初始化处理,使得新词汇库中属于旧词汇库中的词汇的词向量为旧词向量,新词汇库中属于新增词汇库中的词汇词向量为随机词向量。
例如:记旧词汇库为W,其中,旧词汇库中的词汇已训练得到对应的词向量记为v(w),新增词汇库为△W,则新词汇库为W’=W+△W,记旧词汇库W的噪声分布为T,新词汇库W’的噪声分布为T’。则判断新词汇库中的第一词汇w,若w在旧词汇库W中,证明w已经在旧词汇库中训练过对应的词向量,则不再对该词进行训练,而是继承原有的v(w);若新词汇库中的第一词汇w在新增词汇库中,即属于新增词汇,则随机初始化w对应的词向量。即:
Figure GDA0002251536150000071
其中,v'(w)是新词汇库中的词汇对应的词向量,v(w)是旧词汇库中的词汇对应的词向量。新词汇库中的每个词汇都对应一个参数向量,此时也和词向量一起进行初始化,其中,若w在旧词汇库W中,则继承原有的参数向量;若w在新增词汇库中,则将参数向量初始化为零向量。即:
Figure GDA0002251536150000072
其中,θ'w是新词汇库中的词汇对应的参数向量,θw是旧词汇库中的词汇对应的参数向量。
S103:根据旧词汇库对应的噪声分布和新词汇库对应的噪声分布分别对新词汇库中词汇的词向量进行更新。
具体地,分别获取旧词汇库对应的噪声分布和新词汇库对应的噪声分布,其中,噪声分布即为词向量训练过程中,每个词在词汇库中的分布。第二旧词汇库中的词汇已训练得到对应的词向量,新增词汇库中的词汇为新增词汇,未训练对应的词向量,由于新词汇库中与旧词汇库中有相同的词汇的词频都发生了改变,而词频越高的词汇越容易在词向量训练过程中被采样,噪声分布对词频的细微变化十分敏感,则需要将新增词汇库与旧词汇库合并为新词汇库后,通过新词汇库计算新词汇库中每一个词汇对应的词向量。
本实施例中,通过旧词汇库对应的噪声分布和新词汇库对应的噪声分布更新得到新词汇库中的词汇对应的词向量,从而不需要重新训练得到新词汇库中的词汇对应的词向量,减少了训练词向量时的计算量。其中,新增词汇库中词汇数量越少,则词向量的训练过程越快,和现有技术中将新词汇库整体训练词向量的方法相比可以达到60倍的加速比。
进一步地,在上述实施例中,S103包括:获取第一词汇对应的预设目标函数,第一词汇为新词汇库中的词汇;根据第一词汇在旧词汇库的属性和在新词汇库的属性对预设目标函数进行梯度处理,得到第一词汇对应的词向量。
其中,获取第一词汇对应的预设目标函数一种可能的实现方式为:若第一词汇属于旧词汇库,则根据Skip-gram模型的原始目标函数对第一词汇进行因式分解,得到第一词汇对应的预设目标函数;若第一词汇属于新增词汇库,则第一词汇对应的预设目标函数为Skip-gram模型的原始目标函数。
具体地,根据Skip-gram模型的原始目标函数对第一词汇进行因式分解包括:将第一词汇切分为W’=W∪△W,并根据编码相同的部分和不同的部分通过如下公式对W中的每个词进行因式分解:
Figure GDA0002251536150000081
其中,J'SG表示因式分解的结果,
Figure GDA0002251536150000082
NEG(w)为处理词汇w时生成的负样本子集,具体地,
Figure GDA0002251536150000083
表示w的上下文,Context(w)表示
Figure GDA0002251536150000084
在对应的词汇库,Lw(u)表示是否命中,
Figure GDA0002251536150000085
v(w)表示词向量,θu表示参数向量。
具体地,在新词汇库中的第一词汇在进行词向量训练时,若第一词汇属于旧词汇库,则不需要重复训练之前的全量计算负采样的部分,即公式三的第一部分;若第一词汇在旧词汇库和新增词汇库合并后的负采样权重系数不变则不需要再进行多余的计算,否则根据公式三和公式四计算得到的权重系数如果增大,则进行梯度上升,根据公式三和公式四计算得到的权重系数如果减小,则梯度下降;若第一词汇仅在新增词汇库中出现,则使用Skip-gram模型的原始目标函数,并执行梯度上升。
则在本实施例中,根据第一词汇在旧词汇库的属性和在新词汇库的属性对预设目标函数进行梯度处理,得到第一词汇对应的词向量,包括:
根据第一词汇在新词汇库对应的噪声分布和旧词汇库对应的噪声分布对预设目标函数进行梯度处理,得到第一词汇对应的词向量包括:计算负采样过程中的权重参数,根据权重参数确定梯度上升或提取下降,并通过确定的梯度上升或梯度下降的方式更新S102中初始化的词向量v'(w)和参数向量θ'w,以得到最终的新词汇库中的词汇对应的词向量。
具体地,通过以下公式计算负采样过程中的权重参数:当w∈W时,
Figure GDA0002251536150000091
当w∈W'时,
Figure GDA0002251536150000092
其中,D为根据W构造的词典。D'为根据W'构造的词典,counter(w)表示w在新词汇库中出现的次数。
记D(u)=sgn(len'(w)-len(w)),其中,D(u)为正采样或负采样的标识,用于标识使用梯度上升或梯度下降的方式更新初始化的词向量v'(w)。其中,当权重参数满足len(w)>len'(w),即D(u)为-1时,需要随机梯度下降抵消第一词汇重复出现的贡献;反之当权重参数满足len(w)<len'(w),即D(u)为1时,通过梯度上升来恢复噪声分布。
词向量v'(w)和参数向量θ'w的更新公式为:
θ'u=θ'u+D(u)·η'[Lw(u)-σ(v'(w)Tθ'u)]v'(w)——公式六
进一步地,在上述实施例中,获取第一词汇对应的预设目标函数另一种可能的实现方式为:若第一词汇属于旧词汇库,则根据CBOW模型的原始目标函数对第一词汇进行因式分解,得到第一词汇对应的预设目标函数;若第一词汇属于新增词汇库,则第一词汇对应的预设目标函数为CBOW模型的原始目标函数。
具体地,根据CBOW模型的原始目标函数对第一词汇进行因式分解包括:将第一词汇切分为W’=W∪△W,并根据编码相同的部分和不同的部分通过如下公式对W中的每个词进行因式分解:
Figure GDA0002251536150000101
其中,J'CBOW表示因式分解的结果,
Figure GDA0002251536150000102
,NEG(w)为处理词汇w时生成的负样本子集,具体地,XW表示上下文中单词向量相加之和,Lw(u)表示是否命中,v(w)表示词向量,θu表示参数向量。
具体地,在新词汇库中的第一词汇在进行词向量训练时,若第一词汇属于旧词汇库,则不需要重复训练之前的全量计算负采样的部分,即公式八的第一部分;若第一词汇在旧词汇库和新增词汇库合并后的负采样权重系数不变则不需要再进行多余的计算,否则根据公式四和公式五计算得到的权重系数如果增大,则进行梯度上升,根据公式四和公式五计算得到的权重系数如果减小,则梯度下降;若第一词汇仅在新增词汇库中出现,则使用CBOW模型的原始目标函数,并执行梯度上升。
则在本实施例中,根据第一词汇在旧词汇库的属性和在新词汇库的属性对预设目标函数进行梯度处理,得到第一词汇对应的词向量,包括:
根据第一词汇在新词汇库对应的噪声分布和旧词汇库对应的噪声分布对预设目标函数进行梯度处理,得到第一词汇对应的词向量包括:计算负采样过程中的权重参数,根据权重参数确定梯度上升或提取下降,并通过确定的梯度上升或梯度下降的方式更新S102中初始化的词向量v'(w)和参数向量θ'w,以得到最终的新词汇库中的词汇对应的词向量。
具体地,通过以下公式计算负采样过程中的权重参数:当w∈W时,
当w∈W'时,
Figure GDA0002251536150000111
其中,D为根据W构造的词典。D'为根据W'构造的词典,counter(w)表示w在新词汇库中出现的次数。
记D(u)=sgn(len'(w)-len(w)),其中,D(u)为正采样或负采样的标识,用于标识使用梯度上升或梯度下降的方式更新初始化的词向量v'(w)。其中,当权重参数满足len(w)>len'(w),即D(u)为-1时,需要随机梯度下降抵消第一词汇重复出现的贡献;反之当权重参数满足len(w)<len'(w),即D(u)为1时,通过梯度上升来恢复噪声分布。
词向量v'(w)和参数向量θ'w的更新公式为:
Figure GDA0002251536150000112
具体地,在公式六、公式七、公式九和公式十中,η'表示学习率。初始学习率η0=0.025,在每训练完1000个词的词向量后,按照公式十一对学习率进行调整:
Figure GDA0002251536150000114
其中,word_count_actual表示当前已经处理的词汇数量,train_words=∑w∈ Dcounter(w),counter(w)表示w在新词汇库中出现的次数。counter(w)表示w在新词汇库中出现的次数。train_words需要加1是工程上放置分母为零。同时对公式十一引入阈值ηmin=10-4·η0防止出现学习率过小的情况。
图2为本发明词向量训练装置实施例一的结构示意图。如图2所示,本实施例词向量训练装置包括:获取模块201、初始化模块202和更新模块203。其中,获取模块201用于获取新增词汇库,新增词汇库中的词汇与旧词汇库中的词汇构成新词汇库,旧词汇库中的词汇对应有旧词向量;初始化模块202用于对新词汇库中的词汇进行初始化处理,使得新词汇库中属于旧词汇库中的词汇的词向量为旧词向量,新词汇库中属于新增词汇库中的词汇词向量为随机词向量;更新模块203用于根据旧词汇库对应的噪声分布和新词汇库对应的噪声分布分别对新词汇库中词汇的词向量进行更新。
进一步地,在上述实施例中,更新模块具体用于,获取第一词汇对应的预设目标函数,第一词汇为新词汇库中的词汇;根据第一词汇在旧词汇库的属性和在新词汇库的属性对预设目标函数进行梯度处理,得到第一词汇对应的词向量。
本实施例的装置对应地可用于执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (6)

1.一种词向量训练方法,其特征在于,包括:
获取新增词汇库,所述新增词汇库中的词汇与旧词汇库中的词汇构成新词汇库,所述旧词汇库中的词汇对应有旧词向量;
对所述新词汇库中的词汇进行初始化处理,使得所述新词汇库中属于所述旧词汇库中的词汇的词向量为旧词向量,所述新词汇库中属于所述新增词汇库中的词汇词向量为随机词向量;
根据所述旧词汇库对应的噪声分布和所述新词汇库对应的噪声分布分别对所述新词汇库中词汇的词向量进行更新;
所述根据所述旧词汇库对应的噪声分布和所述新词汇库对应的噪声分布分别对所述新词汇库中词汇的词向量进行更新,包括:
获取第一词汇对应的预设目标函数,所述第一词汇为所述新词汇库中的词汇;
根据所述第一词汇在所述旧词汇库的属性和在所述新词汇库的属性对所述预设目标函数进行梯度处理,得到所述第一词汇对应的词向量;
所述获取第一词汇对应的预设目标函数,包括:
若所述第一词汇属于所述旧词汇库,则根据Skip-gram模型的原始目标函数对所述第一词汇进行因式分解,得到所述第一词汇对应的预设目标函数;
若所述第一词汇属于所述新增词汇库,则所述第一词汇对应的预设目标函数为所述Skip-gram模型的原始目标函数;
或者,所述获取所述第一词汇对应的预设目标函数,包括:
若所述第一词汇属于所述旧词汇库,则根据CBOW模型的原始目标函数对所述第一词汇进行因式分解,得到所述第一词汇对应的预设目标函数;
若所述第一词汇属于所述新增词汇库,则所述第一词汇对应的预设目标函数为所述CBOW模型的原始目标函数。
2.根据权利要求1所述的方法,其特征在于,所述根据Skip-gram模型的原始目标函数对所述第一词汇进行因式分解,得到所述第一词汇对应的预设目标函数,包括:根据
Figure FDA0002251536140000021
对所述第一词汇因式分解,其中,w表示所述第一词汇,W表示所述旧词汇库,NEG(w)表示处理所述旧词汇库的词汇时生成的负样本子集,NEG'(w)表示处理所述新词汇库的词汇时生成的负样本子集,△NEG(w)表示处理所述新增词汇库的词汇时生成的负样本子集,
Figure FDA0002251536140000022
表示w的上下文,
Figure FDA0002251536140000023
表示所述第一词汇w的目标函数,所述与所述skip-gram模型的原始目标函数是相同的函数,Context(w)表示所述对应的词汇库。
3.根据权利要求1所述的方法,其特征在于,所述根据CBOW模型的原始目标函数对所述第一词汇进行因式分解,得到所述第一词汇对应的预设目标函数,包括:根据
Figure FDA0002251536140000026
对所述第一词汇因式分解,其中,w表示所述第一词汇,W表示所述旧词汇库,NEG(w)表示处理所述旧词汇库的词汇时生成的负样本子集,NEG'(w)表示处理所述新词汇库的词汇时生成的负样本子集,△NEG(w)表示处理所述新增词库的词汇时生成的负样本子集,l(w,u)表示所述第一词汇w的目标函数,所述∑∑l(w,u)与所述CBOW模型的原始目标函数是相同的函数。
4.根据权利要求2所述的方法,其特征在于,所述根据所述第一词汇在所述旧词汇库的属性和在所述新词汇库的属性对所述预设目标函数进行梯度处理,得到所述第一词汇对应的词向量,包括:
获取所述第一词汇在旧词汇库中的权重参数len(w)和所述第一词汇在所述新词汇库中的权重参数len'(w),获取D(u)=sgn(len'(w)-len(w)),其中,
Figure FDA0002251536140000031
Figure FDA0002251536140000032
W'表示所述新词汇库,D为根据W构造的词典;D'为根据W'构造的词典,u为属于D和D'中的词汇,counter(w)表示w在新词汇库中出现的次数,counter(u)表示u在新词汇库中出现的次数,当D(u)为-1时,通过随机梯度下降抵消所述第一词汇重复出现的贡献,当D(u)为1时,通过梯度上升来恢复所述第一词汇的噪声分布,并根据
Figure FDA0002251536140000033
得到所述第一词汇对应的词向量,Lw(u)表示是否命中,参数
Figure FDA0002251536140000034
v'(w)表示所述第一词汇的词向量,θ′u表示参数向量,η'表示学习率。
5.根据权利要求3所述的方法,其特征在于,所述根据所述第一词汇在所述旧词汇库的属性和在所述新词汇库的属性对所述预设目标函数进行梯度处理,得到所述第一词汇对应的词向量,包括:
获取所述第一词汇在旧词汇库中的权重参数len(w)和所述第一词汇在所述新词汇库中的权重参数len'(w),获取D(u)=sgn(len'(w)-len(w)),其中,
Figure FDA0002251536140000035
W'表示所述新词汇库,D为根据W构造的词典;D'为根据W'构造的词典,u为属于D和D'中的词汇,counter(w)表示w在新词汇库中出现的次数,counter(u)表示u在新词汇库中出现的次数,当D(u)为-1时,通过随机梯度下降抵消所述第一词汇重复出现的贡献,当D(u)为1时,通过梯度上升来恢复所述第一词汇的噪声分布,并根据
Figure FDA0002251536140000042
得到所述第一词汇对应的词向量,Lw(u)表示是否命中,参数
Figure FDA0002251536140000043
XW表示所述第一词汇上下文中单词向量相加之和,v'(w)表示所述第一词汇的词向量,θ′u表示参数向量,η'表示学习率。
6.一种词向量训练装置,其特征在于,包括:
获取模块,所述获取模块用于获取新增词汇库,所述新增词汇库中的词汇与旧词汇库中的词汇构成新词汇库,所述旧词汇库中的词汇对应有旧词向量;
初始化模块,所述初始化模块用于对所述新词汇库中的词汇进行初始化处理,使得所述新词汇库中属于所述旧词汇库中的词汇的词向量为旧词向量,所述新词汇库中属于所述新增词汇库中的词汇词向量为随机词向量;
更新模块,所述更新模块用于根据所述旧词汇库对应的噪声分布和所述新词汇库对应的噪声分布分别对所述新词汇库中词汇的词向量进行更新;
所述更新模块具体用于,
获取第一词汇对应的预设目标函数,所述第一词汇为所述新词汇库中的词汇;
根据所述第一词汇在所述旧词汇库的属性和在所述新词汇库的属性对所述预设目标函数进行梯度处理,得到所述第一词汇对应的词向量;
所述获取第一词汇对应的预设目标函数,包括:
若所述第一词汇属于所述旧词汇库,则根据Skip-gram模型的原始目标函数对所述第一词汇进行因式分解,得到所述第一词汇对应的预设目标函数;
若所述第一词汇属于所述新增词汇库,则所述第一词汇对应的预设目标函数为所述Skip-gram模型的原始目标函数。
CN201710023520.8A 2017-01-12 2017-01-12 词向量训练方法和装置 Active CN106802888B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710023520.8A CN106802888B (zh) 2017-01-12 2017-01-12 词向量训练方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710023520.8A CN106802888B (zh) 2017-01-12 2017-01-12 词向量训练方法和装置

Publications (2)

Publication Number Publication Date
CN106802888A CN106802888A (zh) 2017-06-06
CN106802888B true CN106802888B (zh) 2020-01-24

Family

ID=58985516

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710023520.8A Active CN106802888B (zh) 2017-01-12 2017-01-12 词向量训练方法和装置

Country Status (1)

Country Link
CN (1) CN106802888B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107957989B9 (zh) * 2017-10-23 2021-01-12 创新先进技术有限公司 基于集群的词向量处理方法、装置以及设备
CN108170663A (zh) 2017-11-14 2018-06-15 阿里巴巴集团控股有限公司 基于集群的词向量处理方法、装置以及设备
CN108563639B (zh) * 2018-04-17 2021-09-17 内蒙古工业大学 一种基于循环神经网络的蒙古语语言模型
CN110852077B (zh) * 2019-11-13 2023-03-31 泰康保险集团股份有限公司 动态调整Word2Vec模型词典的方法、装置、介质及电子设备
CN111680494B (zh) * 2020-04-27 2023-05-12 平安科技(深圳)有限公司 相似文本的生成方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740349B (zh) * 2016-01-25 2019-03-08 重庆邮电大学 一种结合Doc2vec和卷积神经网络的情感分类方法
CN106055623A (zh) * 2016-05-26 2016-10-26 《中国学术期刊(光盘版)》电子杂志社有限公司 一种跨语言推荐方法和系统

Also Published As

Publication number Publication date
CN106802888A (zh) 2017-06-06

Similar Documents

Publication Publication Date Title
CN106802888B (zh) 词向量训练方法和装置
TWI698807B (zh) 以類別為基礎修剪之人工類神經網路
EP3260996A1 (en) Dialogue act estimation method, dialogue act estimation apparatus, and storage medium
CN105810193B (zh) 训练语言模型的方法和设备及识别语言的方法和设备
CN108090470B (zh) 一种人脸对齐方法及装置
KR102399535B1 (ko) 음성 인식을 위한 학습 방법 및 장치
CN105229725B (zh) 多语言深神经网络
CN110349597B (zh) 一种语音检测方法及装置
CN117787346A (zh) 前馈生成式神经网络
JP6831343B2 (ja) 学習装置、学習方法及び学習プログラム
CN106897265B (zh) 词向量训练方法及装置
KR20200128938A (ko) 모델 학습 방법 및 장치
WO2019198306A1 (ja) 推定装置、学習装置、推定方法、学習方法及びプログラム
CN106340297A (zh) 一种基于云计算与置信度计算的语音识别方法与系统
CN107220281B (zh) 一种音乐分类方法及装置
CN110751260A (zh) 电子设备、任务处理的方法以及训练神经网络的方法
CN110275928B (zh) 迭代式实体关系抽取方法
CN112348073A (zh) 一种多音字识别方法、装置、电子设备及存储介质
CN115511069A (zh) 神经网络的训练方法、数据处理方法、设备及存储介质
CN111653274A (zh) 唤醒词识别的方法、装置及存储介质
CN102237082B (zh) 语音识别系统的自适应方法
CN109871448B (zh) 一种短文本分类的方法及系统
Saleem et al. A discriminative unsupervised method for speaker recognition using deep learning
CN113889085A (zh) 语音识别方法、装置、设备、存储介质及程序产品
Vanhainen et al. Pattern discovery in continuous speech using block diagonal infinite HMM

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant