CN109948140A - 一种词向量嵌入方法及装置 - Google Patents

一种词向量嵌入方法及装置 Download PDF

Info

Publication number
CN109948140A
CN109948140A CN201711386882.XA CN201711386882A CN109948140A CN 109948140 A CN109948140 A CN 109948140A CN 201711386882 A CN201711386882 A CN 201711386882A CN 109948140 A CN109948140 A CN 109948140A
Authority
CN
China
Prior art keywords
term vector
word
vector
target word
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711386882.XA
Other languages
English (en)
Other versions
CN109948140B (zh
Inventor
张鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Putian Information Technology Co Ltd
Original Assignee
Putian Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Putian Information Technology Co Ltd filed Critical Putian Information Technology Co Ltd
Priority to CN201711386882.XA priority Critical patent/CN109948140B/zh
Publication of CN109948140A publication Critical patent/CN109948140A/zh
Application granted granted Critical
Publication of CN109948140B publication Critical patent/CN109948140B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本发明实施例提供一种词向量嵌入方法及装置。所述方法包括:获取目标词所在句子中与预先训练的词向量库相匹配的每个词语的参考词向量;根据所述参考词向量,确定所述目标词的初始词向量;根据所述初始词向量和向量嵌入模型W2V训练所述目标词对应的目标语料集,确定所述目标词的嵌入词向量。本发明实施例提供的词向量嵌入方法,在初始化阶段就赋予目标词先验知识,即使语料集较小或者目标词在预训练语料集中未出现的情况下,也能通过向量嵌入模型训练出合理的目标词向量,使目标词的嵌入向量更接近目标词的真实语义,解决了小语料集的词向量嵌入不合理的问题,提高了词向量嵌入的准确率,进而提高了向量嵌入模型的效率。

Description

一种词向量嵌入方法及装置
技术领域
本发明实施例涉及自然语言处理技术领域,具体涉及一种词向量嵌入方法及装置。
背景技术
向量嵌入(Word2Vec,W2V)是一种自然语言处理(Natural Language Processing,NLP)方法,W2V将文本中所有的词向量化,这样就可以定量的度量词与词之间的关系,挖掘词之间的联系。目前通用的向量嵌入工具主要包括连续词袋模型(Continuous Bag-of-Words Model,CBOW)和Skip-Gram模型。CBOW模型的训练输入是目标词的上下文相关的词对应的词向量,输出目标词的词向量。Skip-Gram模型和CBOW的思路相反,假设相似的单词拥有相似的语境,根据当前单词预测语境,输入是目标词的一个词向量,输出是目标词对应的上下文词向量。
Skip-Gram首先对句子中的目标词的词向量进行随机初始化,而后Skip-Gram去寻找参数集合θ来最大化如下条件概率:
其中vc和vw分别是文本c和词w的列向量,维度为d,C是语料库中所有语境中的词构成的集合,即,词典。c’是C中文本,参数θ是vc和vw中每一维度的具体取值,p(c|w)表示词w在文本c中出现的概率,通过训练得到词的向量表示vw能够使得条件概率p(c|w)最大化,则vw是w的较好的向量表示。Skip-Gram通过最大化条件概率,使得词和语境之间的对应关系最大化,进而满足了基本假设:相似的单词拥有相似的语境,而满足条件概率最大的词向量,也就成为了该词语义的合理表示。
Skip-Gram是在拥有足够大的语料库基础上进行训练的,目标词在语料库中出现的次数较多或者目标词出现的语境与其语义相关性较大,因而Skip-Gram在理论上能够获得足够好的嵌入向量。
然而对于小规模公司或偏僻领域,语料库较小,目标词在语料库中出现的次数较少,甚至未出现在语料库中,使用Skip-Gram随机初始化词向量进行训练,导致词向量嵌入不合理,影响了Skip-Gram模型的性能。
发明内容
针对现有技术中的缺陷,本发明实施例提供了一种词向量嵌入方法及装置。
第一方面,本发明实施例提供一种词向量嵌入方法,包括:
获取目标词所在句子中与预先训练的词向量库相匹配的每个词语的参考词向量;
根据所述参考词向量,确定所述目标词的初始词向量;
根据所述初始词向量和向量嵌入模型W2V训练所述目标词对应的目标语料集,确定所述目标词的嵌入词向量。
第二方面,本发明实施例提供一种词向量嵌入装置,包括:
获取模块,用于获取目标词所在句子中与预先训练的词向量库相匹配的每个词语的参考词向量;
初始化模块,用于根据所述参考词向量,确定所述目标词的初始词向量;
训练模块,用于根据所述初始词向量和向量嵌入模型W2V训练所述目标词对应的目标语料集,确定所述目标词的嵌入词向量。
第三方面,本发明实施例提供一种电子设备,包括:
存储器和处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如下方法:获取目标词所在句子中与预先训练的词向量库相匹配的每个词语的参考词向量;根据所述参考词向量,确定所述目标词的初始词向量;根据所述初始词向量和向量嵌入模型W2V训练所述目标词对应的目标语料集,确定所述目标词的嵌入词向量。
第四方面,本发明实施例提供一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如下方法:获取目标词所在句子中与预先训练的词向量库相匹配的每个词语的参考词向量;根据所述参考词向量,确定所述目标词的初始词向量;根据所述初始词向量和向量嵌入模型W2V训练所述目标词对应的目标语料集,确定所述目标词的嵌入词向量。
本发明实施例提供的词向量嵌入方法,根据目标词所在句子中词语的参考词向量确定目标词的初始化词向量,在初始化阶段就赋予目标词先验知识,即使语料集较小或者目标词在预训练语料集中未出现的情况下,也能通过向量嵌入模型训练出合理的目标词向量,使目标词的嵌入向量更接近目标词的真实语义,解决了小语料集的词向量嵌入不合理的问题,提高了词向量嵌入的准确率,进而提高了向量嵌入模型的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的词向量嵌入方法流程示意图;
图2为本发明实施例提供的词向量嵌入装置的结构示意图;
图3为本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的词向量嵌入方法流程示意图,如图1所示,该方法包括:
步骤S11、获取目标词所在句子中与预先训练的词向量库相匹配的每个词语的参考词向量;
具体地,向量嵌入是将文本中所有的词向量化,由于向量嵌入是根据词语的语境预测词向量,同一个词语在不同句子中语义可能不相同,因此当需要对目标词进行向量化时,需要给出包括目标词所在的一个或多个句子。然后对句子进行分词处理,确定出句子中的每个词语,这些词语中包括目标词。其中分词方法有很多种,例如通过监督学习方法确定分词模型,根据分词模型对句子进行分词处理等。确定目标词所在句子中的每个词语之后,将每个词语与预先训练的词向量库进行匹配,即查找预先训练的词向量库中是否有该词语对应的参考词向量,若有,则获取该词语对应的参考词向量。
例如,目标词为“虚宗量”,其所在句子为“虚宗量贝塞尔方程的解”,句子中的词语包括:“虚宗量”、“贝塞尔”、“方程”、“的”和“解”,然后用这些词语匹配预先训练的词向量库,查找到“方程”、“的”和“解”对应的参考词向量。
步骤S12、根据所述参考词向量,确定所述目标词的初始词向量;
具体地,根据句子中匹配预先训练的词向量库的词语的参考词向量,确定目标词的初始词向量,其中,参考词向量为经过W2V模型预训练后得的词向量,初始词向量为进行向量嵌入训练时的输入参数,W2V模型训练过程就是已知初始词向量,根据条件概率对初始词向量不断优化,为目标词寻找最合理的词向量。这样,目标词的初始词向量包含了句子信息,不同于现有的向量嵌入模型使用随机初始化方法确定目标词的初始词向量,在本发明实施例中,根据目标词所在句子中的词语的参考词向量确定目标词的初始词向量,在初始化阶段就赋予目标词先验知识,这样,即使目标语料集较小,目标词在目标语料集出现次数较少甚至在目标语料集中未出现,也能训练出比较合理的目标词向量。例如,使用“方程”、“的”和“解”对应的参考词向量确定目标词的初始词向量,初始词向量就包括了“方程”、“的”和“解”的语义信息。
步骤S13、根据所述初始词向量和向量嵌入模型W2V训练所述目标词对应的目标语料集,确定所述目标词的嵌入词向量。
具体地,确定目标词的初始词向量之后,对目标词对应的目标语料集进行训练,目标语料集为目标词对应的专业领域的语料集,例如目标词为“虚宗量”,对应的目标语料集为物理学语料集,物理学语料集可以是现有的已经存在的物理学语料集,也可以是从互联网收集整理的物理学语料集,例如,根据维基百科获取物理学语料集,该物理学语料集中包括目标词“虚宗量”。
之后,使用向量嵌入模型W2V训练目标语料集,例如,使用Skip-Gram模型训练目标语料集,确定目标词与句子的条件概率最大化时目标词对应的词向量,该词向量为目标词通过W2V模型训练后确定的嵌入词向量。由于在初始化过程中就赋予了目标词先验知识,又经过了目标语料集的向量嵌入模型训练,目标词最终得到的嵌入词向量能够更加合理地表示目标词,进而通过词向量进行词语分类或检索等其他应用的准确度也会相应提高。
本发明实施例提供的词向量嵌入方法,根据目标词所在句子中词语的参考词向量确定目标词的初始化词向量,在初始化阶段就赋予目标词先验知识,即使语料集较小或者目标词在预训练语料集中未出现的情况下,也能通过向量嵌入模型训练出合理的目标词向量,使目标词的嵌入向量更接近目标词的真实语义,解决了小语料集的词向量嵌入不合理的问题,提高了词向量嵌入的准确率,进而提高了向量嵌入模型的效率。
在上述实施例的基础上,进一步地,所述词向量库通过下述方法确定:
获取预训练语料集,所述预训练语料集大于所述目标语料集并且与所述目标语料集相交;
对所述预训练语料集中的每个预训练语料进行分词处理,确定所述预训练语料集的预训练词典;
根据向量嵌入模型W2V训练所述预训练语料集,确定所述预训练词典中每个词语的参考词向量;
根据所述参考词向量确定词向量库。
具体地,在对目标词进行初始化时,可以采用迁移学习(Transfer Learning)方法,迁移学习是将从一个环境中学到的知识用来帮助新环境中的学习任务。因此,可以在一个现有的足够大的语料集上对词向量进行预训练,该语料集记为预训练语料集,预训练语料集与目标词对应的目标语料集有一定的交集,但不需要完全包含,可以包含目标词,也可以不包含目标词,例如,目标语料集为物理语料集,那么预训练语料集可以为已有的语料集中增加一部分物理语料,其中已有的语料集可以是通过互联网收集整理的,也可以是向量嵌入领域已有的训练集,这些都是比较大的语料集,通过现有的向量嵌入模型能够获得好的嵌入词向量。通过在大语料集中增加目标语料集中部分目标语料,使得训练得到的词向量包括了目标语料对应的语境,该预训练语料集上训练后得到的词向量具有一定的普适性,但不能直接用于小语料集的研究分析,只能用于初始化,因为不同的专业领域往往对应着不同的语料集,语料集不够大的原因是因为领域偏僻或较新,专业领域内经常存在只在本领域内使用的专用词,例如史瓦西黑洞解一般只在物理学领域使用,在生物学领域的语料集是不会出现的,因此通过其他语料集获取的词向量在本领域内不能直接使用,否则会影响词语的语义。
获取到预训练语料集之后,对预训练语料集中的每个预训练语料进行分词处理,得到预训练语料集的预训练词典,之后根据向量嵌入模型W2V训练预训练语料集,确定预训练词典中每个词语的参考词向量,例如为预训练词典中的每个词语随机初始化一个初始化词向量,使用Skip-Gram模型训练预训练语料集,确定预训练词典中每个词语的参考词向量,将参考词向量和预训练词典关联后,生成词向量库,这样,在词向量库中就包含了部分目标语料集中的词语的词向量。由于这些词语的向量嵌入训练集中包括了部分目标语料,因而这些词语的词向量能够较好地表达词语的语义。
确定词向量库之后,就可以采用迁移学习方法,将学习到的词向量用于初始化目标词向量。
本发明实施例提供的词向量嵌入方法,通过对与目标语料集相交的大语料集进行预训练,得到词向量库,使得词向量库中目标语料集对应的词语的词向量更加合理,根据目标词所在句子中词语的参考词向量确定目标词的初始化词向量,在初始化阶段就赋予目标词先验知识,即使语料集较小或者目标词在预训练语料集中未出现的情况下,也能通过向量嵌入模型训练出合理的目标词向量,使目标词的嵌入向量更接近目标词的真实语义,解决了小语料集的词向量嵌入不合理的问题,提高了词向量嵌入的准确率,进而提高了向量嵌入模型的效率。
在上述各实施例的基础上,进一步地,所述获取目标词所在句子中与预先训练的词向量库相匹配的每个词语的参考词向量,包括:
根据目标词匹配所述预训练词典,若匹配成功,则获取所述目标词在所述词向量库中的第一参考词向量;
相应地,所述根据所述参考词向量,确定所述目标词的初始词向量,包括:
将所述第一参考词向量作为所述目标词的初始词向量。
具体地,首先用目标词查找词向量库中的预训练词典,如果在预训练词典中查找到目标词,那么目标词也称为集内词,则获取目标词在词向量库的参考词向量,记为第一参考词向量,将第一参考词向量作为目标词的初始词向量,之后根据初始词向量和向量嵌入模型对目标语料集进行训练,确定目标词的嵌入词向量,由于目标词在预训练语料集中出现,并且预训练语料集通过训练后的词向量较合理,因此可以直接作为目标词的初始词向量,通过目标语料集再次进行训练后,得到的词向量更加精确。
本发明实施例提供的词向量嵌入方法,对大语料集中存在的目标词采用迁移学习方法,将大语料集中的参考词向量用来初始化小语料集中的词向量,在初始化阶段就赋予目标词先验知识,即使语料集较小或者目标词在预训练语料集中未出现的情况下,也能通过向量嵌入模型训练出合理的目标词向量,使目标词的嵌入向量更接近目标词的真实语义,解决了小语料集的词向量嵌入不合理的问题,提高了词向量嵌入的准确率,进而提高了向量嵌入模型的效率。
在上述各实施例的基础上,进一步地,所述获取目标词所在句子中与预先训练的词向量库相匹配的每个词语的参考词向量,包括:
根据目标词匹配所述预训练词典,若匹配失败,则根据预设窗口确定所述句子中所述目标词的上下文词;
根据所述上下文词中的每个词语匹配所述预训练词典,确定匹配成功的上下文词在所述词向量库中的第二参考词向量;
相应地,所述根据所述参考词向量,确定所述目标词的初始词向量,包括:
计算所述第二参考词向量的加和平均向量,将所述加和平均向量作为所述目标词的初始词向量。
具体地,首先用目标词查找词向量库中的预训练词典,如果在预训练词典中没有查找到目标词,那么目标词也称为集外词,对于集外词,则根据预设窗口确定句子中目标词的上下文词,然后用上下文词查找预训练词典,对能查找到的上下文词,获取其参考词向量,记为第二参考词向量,之后计算能找到的所有上下文词的第二参考词向量之和,再求平均,得到加和平均向量,将加和平均向量作为目标词的初始词向量,这样,初始词向量就包含了句子整体的信息。
例如预设窗口大小设置为3,则目标词的上下文词为句子中目标词的前三个词和后三个词,若句子为“虚宗量贝塞尔方程的解”,目标词为“虚宗量”,由于预设窗口大小为3,目标词的上下文词为“贝塞尔”、“方程”和“的”,然后用上下文词查找预训练词典,找到“方程”和“的”对应的参考词向量L1和L2,那么“虚宗量”的初始词向量为(L1+L2)/2。
在实际应用中,对于预设窗口内存在多个集外词情况,可以设置优先级,对于首先计算出的集外词的初始词向量,可以用来计算之后的集外词的初始词向量。例如“虚宗量贝塞尔方程的解”中“虚宗量”和“贝赛尔”都是集外词,“虚宗量”的上下文词为“贝塞尔”、“方程”和“的”,“贝赛尔”的上下文词为“虚宗量”、“方程”、“的”和“解”,在进行“虚宗量”词向量初始化时,由于“贝赛尔”属于集外词,因此使用“方程”和“的”的参考词向量L1和L2进行计算,得到(L1+L2)/2,当进行“贝赛尔”词向量初始化时,由于“虚宗量”已经计算出初始词向量,可以直接使用,若“解”的参考词向量为L3,那么“贝赛尔”的初始词向量为[(L1+L2)/2+L1+L2+L3]/4。这样对于集外词,初始化时也赋予了句子整体信息,使词向量初始化更加合理。
本发明实施例提供的词向量嵌入方法,对大语料集中不存在的目标词采用上下文词向量加和平均方法初始化小语料集中的词向量,在初始化阶段就赋予目标词句子整体信息和先验知识,即使语料集较小或者目标词在预训练语料集中未出现的情况下,也能通过向量嵌入模型训练出合理的目标词向量,使目标词的嵌入向量更接近目标词的真实语义,解决了小语料集的词向量嵌入不合理的问题,进一步提高了词向量嵌入的准确率,进而提高了向量嵌入模型的效率。
在上述各实施例的基础上,进一步地,所述方法还包括:
根据预先训练的字向量库,获取目标词中每个文字的参考字向量;
相应地,所述根据所述参考词向量,确定所述目标词的初始词向量,包括:
根据所述参考字向量和所述参考词向量,确定所述目标词的初始词向量。
具体地,除了通过句子中的上下文词来预测目标词之外,还可以根据目标词中的文字信息预测目标词,首先通过训练得到一个字向量库,例如,获取预训练语料集,使得该预训练语料集与目标语料集相交,并尽可能地包含更多的文字,这样,通过预训练语料集中的每个文字,就可得到预训练字典,然后对预训练字典中的每个文字采用向量嵌入模型W2V进行训练,得到每个文字的参考字向量,将参考字向量与预训练字典关联,得到参考字向量库。
之后获得目标词中每个文字的参考字向量,将参考字向量与参考词向量加和平均后,作为目标词的初始化词向量,这样目标词的初始化词向量既包括了句子信息又包括了目标词内部信息,使初始化词向量更接近目标词真实语义,进而嵌入向量质量更好。结合以上两部分的向量和平均,在初始化时已经为集外词赋予了很多先验的知识,这样再结合大的学习率、参数衰减或选择学习等学习方式则可以为该集外词获得更好的向量表示。
例如目标词为“虚宗量”,其中的文字为“虚”、“宗”和“量”,对应的参考字向量分别为M1、M2和M3,上下文词为L1和L2,在实际应用中,为了便于向量加和平均,可以在预训练时将词向量的维度与字向量的维度设置为相同的数值,那么“虚宗量”的初始化词向量为(M1+M2+M3+L1+L2)/5。
本发明实施例提供的词向量嵌入方法,对大语料集中不存在的目标词采用上下文词向量和字向量加和平均方法初始化小语料集中的词向量,在初始化阶段就赋予目标词句子整体信息和先验知识,即使语料集较小或者目标词在预训练语料集中未出现的情况下,也能通过向量嵌入模型训练出合理的目标词向量,使目标词的嵌入向量更接近目标词的真实语义,解决了小语料集的词向量嵌入不合理的问题,进一步提高了词向量嵌入的准确率,进而提高了向量嵌入模型的效率。
图2为本发明实施例提供的词向量嵌入装置的结构示意图,如图2所示,该装置包括:获取模块21、初始化模块22和训练模块23,其中:
获取模块21用于获取目标词所在句子中与预先训练的词向量库相匹配的每个词语的参考词向量;初始化模块22用于根据所述参考词向量,确定所述目标词的初始词向量;训练模块23用于根据所述初始词向量和向量嵌入模型W2V训练所述目标词对应的目标语料集,确定所述目标词的嵌入词向量。
具体地,获取模块21对目标词所在句子进行分词处理,确定出句子中的每个词语,将每个词语与预先训练的词向量库进行匹配,即查找预先训练的词向量库中是否有该词语对应的参考词向量,若有,则获取该词语对应的参考词向量。初始化模块22根据句子中匹配预先训练的词向量库的词语的参考词向量,确定目标词的初始词向量,其中,参考词向量为经过W2V模型预训练后得的词向量,初始词向量为进行向量嵌入训练时的输入参数,W2V模型训练过程就是已知初始词向量,根据条件概率对初始词向量不断优化,为目标词寻找最合理的词向量。这样,目标词的初始词向量包含了句子信息,在初始化阶段就赋予目标词先验知识,即使目标语料集较小,目标词在目标语料集出现次数较少甚至在目标语料集中未出现,也能训练出比较合理的目标词向量。训练模块23对目标词对应的目标语料集进行训练,目标语料集为目标词对应的专业领域的语料集。例如,使用Skip-Gram模型训练目标语料集,确定目标词与句子的条件概率最大化时目标词对应的词向量,该词向量为目标词通过W2V模型训练后确定的嵌入词向量。由于在初始化过程中就赋予了目标词先验知识,又经过了目标语料集的向量嵌入模型训练,目标词最终得到的嵌入词向量能够更加合理地表示目标词,进而通过词向量进行词语分类或检索等其他应用的准确度也会相应提高。本发明实施例提供的装置,用于实现上述方法,其功能具体参照上述方法实施例,此处不再赘述。
本发明实施例提供的词向量嵌入装置,根据目标词所在句子中词语的参考词向量确定目标词的初始化词向量,在初始化阶段就赋予目标词先验知识,即使语料集较小或者目标词在预训练语料集中未出现的情况下,也能通过向量嵌入模型训练出合理的目标词向量,使目标词的嵌入向量更接近目标词的真实语义,解决了小语料集的词向量嵌入不合理的问题,提高了词向量嵌入的准确率,进而提高了向量嵌入模型的效率。
在上述实施例的基础上,进一步地,所述获取模块具体用于:
根据目标词匹配所述预训练词典,若匹配成功,则获取所述目标词在所述词向量库中的第一参考词向量;
相应地,所述初始化模块具体用于:
将所述第一参考词向量作为所述目标词的初始词向量。
具体地,获取模块首先用目标词查找词向量库中的预训练词典,如果在预训练词典中查找到目标词,那么目标词也称为集内词,则获取目标词在词向量库的参考词向量,记为第一参考词向量,初始化模块将第一参考词向量作为目标词的初始词向量,之后根据初始词向量和向量嵌入模型对目标语料集进行训练,确定目标词的嵌入词向量,由于目标词在预训练语料集中出现,并且预训练语料集通过训练后的词向量较合理,因此可以直接作为目标词的初始词向量,通过目标语料集再次进行训练后,得到的词向量更加精确。本发明实施例提供的装置,用于实现上述方法,其功能具体参照上述方法实施例,此处不再赘述。
本发明实施例提供的词向量嵌入装置,对大语料集中存在的目标词采用迁移学习方法,将大语料集中的参考词向量用来初始化小语料集中的词向量,在初始化阶段就赋予目标词先验知识,即使语料集较小或者目标词在预训练语料集中未出现的情况下,也能通过向量嵌入模型训练出合理的目标词向量,使目标词的嵌入向量更接近目标词的真实语义,解决了小语料集的词向量嵌入不合理的问题,提高了词向量嵌入的准确率,进而提高了向量嵌入模型的效率。
在上述各实施例的基础上,进一步地,所述获取模块包括:
匹配单元,用于根据目标词匹配所述预训练词典,若匹配失败,则根据预设窗口确定所述句子中所述目标词的上下文词;
获取单元,用于根据所述上下文词中的每个词语匹配所述预训练词典,确定匹配成功的上下文词在所述词向量库中的第二参考词向量;
相应地,所述初始化模块具体用于:
计算所述第二参考词向量的加和平均向量,将所述加和平均向量作为所述目标词的初始词向量。
具体地,匹配单元首先用目标词查找词向量库中的预训练词典,如果在预训练词典中没有查找到目标词,那么目标词也称为集外词,对于集外词,匹配单元根据预设窗口确定句子中目标词的上下文词,获取单元用上下文词查找预训练词典,对能查找到的上下文词,获取其参考词向量,记为第二参考词向量,之后初始化模块计算能找到的所有上下文词的第二参考词向量之和,再求平均,得到加和平均向量,将加和平均向量作为目标词的初始词向量,这样,初始词向量就包含了句子整体的信息。本发明实施例提供的装置,用于实现上述方法,其功能具体参照上述方法实施例,此处不再赘述。
本发明实施例提供的词向量嵌入装置,对大语料集中不存在的目标词采用上下文词向量加和平均方法初始化小语料集中的词向量,在初始化阶段就赋予目标词句子整体信息和先验知识,即使语料集较小或者目标词在预训练语料集中未出现的情况下,也能通过向量嵌入模型训练出合理的目标词向量,使目标词的嵌入向量更接近目标词的真实语义,解决了小语料集的词向量嵌入不合理的问题,进一步提高了词向量嵌入的准确率,进而提高了向量嵌入模型的效率。
图3为本发明实施例提供的电子设备的结构示意图,如图3所示,所述设备包括:处理器(processor)31、存储器(memory)32和总线33;
其中,处理器31和存储器32通过所述总线33完成相互间的通信;
处理器31用于调用存储器32中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:获取目标词所在句子中与预先训练的词向量库相匹配的每个词语的参考词向量;根据所述参考词向量,确定所述目标词的初始词向量;根据所述初始词向量和向量嵌入模型W2V训练所述目标词对应的目标语料集,确定所述目标词的嵌入词向量。
本发明实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:获取目标词所在句子中与预先训练的词向量库相匹配的每个词语的参考词向量;根据所述参考词向量,确定所述目标词的初始词向量;根据所述初始词向量和向量嵌入模型W2V训练所述目标词对应的目标语料集,确定所述目标词的嵌入词向量。
本发明实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:获取目标词所在句子中与预先训练的词向量库相匹配的每个词语的参考词向量;根据所述参考词向量,确定所述目标词的初始词向量;根据所述初始词向量和向量嵌入模型W2V训练所述目标词对应的目标语料集,确定所述目标词的嵌入词向量。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置等实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上各实施例仅用以说明本发明的实施例的技术方案,而非对其限制;尽管参照前述各实施例对本发明的实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明的实施例各实施例技术方案的范围。

Claims (10)

1.一种词向量嵌入方法,其特征在于,包括:
获取目标词所在句子中与预先训练的词向量库相匹配的每个词语的参考词向量;
根据所述参考词向量,确定所述目标词的初始词向量;
根据所述初始词向量和向量嵌入模型W2V训练所述目标词对应的目标语料集,确定所述目标词的嵌入词向量。
2.根据权利要求1所述的方法,其特征在于,所述词向量库通过下述方法确定:
获取预训练语料集,所述预训练语料集大于所述目标语料集并且与所述目标语料集相交;
对所述预训练语料集中的每个预训练语料进行分词处理,确定所述预训练语料集的预训练词典;
根据向量嵌入模型W2V训练所述预训练语料集,确定所述预训练词典中每个词语的参考词向量;
根据所述参考词向量和所述预训练词典确定词向量库。
3.根据权利要求2所述的方法,其特征在于,所述获取目标词所在句子中与预先训练的词向量库相匹配的每个词语的参考词向量,包括:
根据目标词匹配所述预训练词典,若匹配成功,则获取所述目标词在所述词向量库中的第一参考词向量;
相应地,所述根据所述参考词向量,确定所述目标词的初始词向量,包括:
将所述第一参考词向量作为所述目标词的初始词向量。
4.根据权利要求2所述的方法,其特征在于,所述获取目标词所在句子中与预先训练的词向量库相匹配的每个词语的参考词向量,包括:
根据目标词匹配所述预训练词典,若匹配失败,则根据预设窗口确定所述句子中所述目标词的上下文词;
根据所述上下文词中的每个词语匹配所述预训练词典,确定匹配成功的上下文词在所述词向量库中的第二参考词向量;
相应地,所述根据所述参考词向量,确定所述目标词的初始词向量,包括:
计算所述第二参考词向量的加和平均向量,将所述加和平均向量作为所述目标词的初始词向量。
5.根据权利要求1-4任一所述的方法,其特征在于,所述方法还包括:
根据预先训练的字向量库,获取目标词中每个文字的参考字向量;
相应地,所述根据所述参考词向量,确定所述目标词的初始词向量,包括:
根据所述参考字向量和所述参考词向量,确定所述目标词的初始词向量。
6.一种词向量嵌入装置,其特征在于,包括:
获取模块,用于获取目标词所在句子中与预先训练的词向量库相匹配的每个词语的参考词向量;
初始化模块,用于根据所述参考词向量,确定所述目标词的初始词向量;
训练模块,用于根据所述初始词向量和向量嵌入模型W2V训练所述目标词对应的目标语料集,确定所述目标词的嵌入词向量。
7.根据权利要求6所述的装置,其特征在于,所述获取模块具体用于:
根据目标词匹配所述预训练词典,若匹配成功,则获取所述目标词在所述词向量库中的第一参考词向量;
相应地,所述初始化模块具体用于:
将所述第一参考词向量作为所述目标词的初始词向量。
8.根据权利要求6所述的装置,其特征在于,所述获取模块包括:
匹配单元,用于根据目标词匹配所述预训练词典,若匹配失败,则根据预设窗口确定所述句子中所述目标词的上下文词;
获取单元,用于根据所述上下文词中的每个词语匹配所述预训练词典,确定匹配成功的上下文词在所述词向量库中的第二参考词向量;
相应地,所述初始化模块具体用于:
计算所述第二参考词向量的加和平均向量,将所述加和平均向量作为所述目标词的初始词向量。
9.一种电子设备,其特征在于,包括:
存储器和处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至5任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一所述的方法。
CN201711386882.XA 2017-12-20 2017-12-20 一种词向量嵌入方法及装置 Active CN109948140B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711386882.XA CN109948140B (zh) 2017-12-20 2017-12-20 一种词向量嵌入方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711386882.XA CN109948140B (zh) 2017-12-20 2017-12-20 一种词向量嵌入方法及装置

Publications (2)

Publication Number Publication Date
CN109948140A true CN109948140A (zh) 2019-06-28
CN109948140B CN109948140B (zh) 2023-06-23

Family

ID=67005213

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711386882.XA Active CN109948140B (zh) 2017-12-20 2017-12-20 一种词向量嵌入方法及装置

Country Status (1)

Country Link
CN (1) CN109948140B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717039A (zh) * 2019-09-17 2020-01-21 平安科技(深圳)有限公司 文本分类方法和装置、电子设备、计算机可读存储介质
CN110852112A (zh) * 2019-11-08 2020-02-28 语联网(武汉)信息技术有限公司 词向量嵌入方法及装置
CN111222335A (zh) * 2019-11-27 2020-06-02 上海眼控科技股份有限公司 语料修正方法、装置、计算机设备和计算机可读存储介质
CN111563384A (zh) * 2020-04-22 2020-08-21 华南理工大学 面向电商产品的评价对象识别方法、装置及存储介质
CN113128224A (zh) * 2019-12-30 2021-07-16 北京阿博茨科技有限公司 一种中文纠错方法、装置、设备以及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170031899A1 (en) * 2015-07-31 2017-02-02 Samsung Electronics Co., Ltd. Apparatus and method for determining translation word
CN106502985A (zh) * 2016-10-20 2017-03-15 清华大学 一种用于生成标题的神经网络建模方法及装置
CN106649818A (zh) * 2016-12-29 2017-05-10 北京奇虎科技有限公司 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN107330023A (zh) * 2017-06-21 2017-11-07 北京百度网讯科技有限公司 基于关注点的文本内容推荐方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170031899A1 (en) * 2015-07-31 2017-02-02 Samsung Electronics Co., Ltd. Apparatus and method for determining translation word
CN106502985A (zh) * 2016-10-20 2017-03-15 清华大学 一种用于生成标题的神经网络建模方法及装置
CN106649818A (zh) * 2016-12-29 2017-05-10 北京奇虎科技有限公司 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN107330023A (zh) * 2017-06-21 2017-11-07 北京百度网讯科技有限公司 基于关注点的文本内容推荐方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵等: "一种面向短文本分类的基于词嵌技术的改进模型的设计", 《仪器仪表用户》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717039A (zh) * 2019-09-17 2020-01-21 平安科技(深圳)有限公司 文本分类方法和装置、电子设备、计算机可读存储介质
CN110717039B (zh) * 2019-09-17 2023-10-13 平安科技(深圳)有限公司 文本分类方法和装置、电子设备、计算机可读存储介质
CN110852112A (zh) * 2019-11-08 2020-02-28 语联网(武汉)信息技术有限公司 词向量嵌入方法及装置
CN110852112B (zh) * 2019-11-08 2023-05-05 语联网(武汉)信息技术有限公司 词向量嵌入方法及装置
CN111222335A (zh) * 2019-11-27 2020-06-02 上海眼控科技股份有限公司 语料修正方法、装置、计算机设备和计算机可读存储介质
CN113128224A (zh) * 2019-12-30 2021-07-16 北京阿博茨科技有限公司 一种中文纠错方法、装置、设备以及可读存储介质
CN113128224B (zh) * 2019-12-30 2024-01-09 北京阿博茨科技有限公司 一种中文纠错方法、装置、设备以及可读存储介质
CN111563384A (zh) * 2020-04-22 2020-08-21 华南理工大学 面向电商产品的评价对象识别方法、装置及存储介质
CN111563384B (zh) * 2020-04-22 2022-10-25 华南理工大学 面向电商产品的评价对象识别方法、装置及存储介质

Also Published As

Publication number Publication date
CN109948140B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
CN109948140A (zh) 一种词向量嵌入方法及装置
KR102350543B1 (ko) 시맨틱 표현 모델의 처리 방법, 장치, 전자 기기 및 저장 매체
CN106227721B (zh) 汉语韵律层级结构预测系统
CN106599269B (zh) 关键词提取方法及装置
CN105531703B (zh) 创建主题同义词的方法、计算机可读存储介质和系统
CN110457708B (zh) 基于人工智能的词汇挖掘方法、装置、服务器及存储介质
CN110502738A (zh) 中文命名实体识别方法、装置、设备和查询系统
CN109635273A (zh) 文本关键词提取方法、装置、设备及存储介质
CN110427463A (zh) 搜索语句响应方法、装置及服务器和存储介质
CN112084327A (zh) 在保留语义的同时对稀疏标注的文本文档的分类
CN109213868A (zh) 基于卷积注意力机制网络的实体级别情感分类方法
CN108228758A (zh) 一种文本分类方法及装置
CN113590776B (zh) 基于知识图谱的文本处理方法、装置、电子设备及介质
CN111143569A (zh) 一种数据处理方法、装置及计算机可读存储介质
CN112052668A (zh) 地址文本识别模型的训练方法、地址的预测方法及装置
US11934441B2 (en) Generative ontology learning and natural language processing with predictive language models
CN109598517A (zh) 商品通关处理、对象的处理及其类别预测方法和装置
CN109086265A (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN110008463A (zh) 用于事件抽取的方法、装置和计算机可读介质
Dunn Frequency vs. association for constraint selection in usage-based construction grammar
JP2018005690A (ja) 情報処理装置及びプログラム
CN109657056A (zh) 目标样本获取方法、装置、存储介质及电子设备
CN110929532B (zh) 数据处理方法、装置、设备及存储介质
CN113033194B (zh) 语义表示图模型的训练方法、装置、设备和存储介质
CN109960730A (zh) 一种基于特征扩展的短文本分类方法、装置以及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant