CN109271633A - 一种单语义监督的词向量训练方法及装置 - Google Patents

一种单语义监督的词向量训练方法及装置 Download PDF

Info

Publication number
CN109271633A
CN109271633A CN201811081872.XA CN201811081872A CN109271633A CN 109271633 A CN109271633 A CN 109271633A CN 201811081872 A CN201811081872 A CN 201811081872A CN 109271633 A CN109271633 A CN 109271633A
Authority
CN
China
Prior art keywords
vector
word
term vector
semantic
term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811081872.XA
Other languages
English (en)
Other versions
CN109271633B (zh
Inventor
杨凯程
李健铨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dinfo Beijing Science Development Co ltd
Original Assignee
Beijing Shenzhou Taiyue Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shenzhou Taiyue Software Co Ltd filed Critical Beijing Shenzhou Taiyue Software Co Ltd
Priority to CN201811081872.XA priority Critical patent/CN109271633B/zh
Publication of CN109271633A publication Critical patent/CN109271633A/zh
Application granted granted Critical
Publication of CN109271633B publication Critical patent/CN109271633B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提供了一种单语义监督的词向量训练方法及装置,在词向量训练的过程中,首先,根据中心词的每个语义所包含义原的义原向量,生成每个语义的加权语义向量;然后,选取中心词的一个语义的所述加权语义向量作为引导向量;然后,构造从所述引导向量到中心词的词向量之间的距离损失函数;最后,根据所述距离损失函数监督中心词的词向量在词向量模型训练时的迭代更新方向,从而使中心词的词向量在训练过程中朝着中心词的单个语义靠拢。从而,解决了现有技术中的词向量训练方法得到的词向量在表达词的极性、类别方面存在欠缺,无法表达出词语的真实语义的问题。

Description

一种单语义监督的词向量训练方法及装置
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种单语义监督的词向量训练方法及装置。
背景技术
随着自然语言处理技术的发展,基于自然语言处理技术建立起来的智能问答系统也得到了广泛的应用,常用的智能问答系统例如聊天机器人,能够根据用户输入的聊天内容,自动生成相应地应答。
现有技术中,智能问答系统根据不同的技术手段可以分为检索式智能问答系统和生成式智能问答系统。基于检索的方法需要定义知识库,存储需要的回复和一些启发式的方法,根据输入和上下文挑选合适的回复,因而不能生成新的回复文本。启发式方法可以是简单的基于规则的表达式去匹配,也可以是复杂的一系列的机器学习方法的组合,使生成式智能问答系统具备在接收到用户输入句子后,回答内容不限于已有的知识的能力。
在自然语言处理技术领域,要将自然语言交给机器学习中的算法来处理,首先需要将自然语言数学化,词向量就是将自然语言数学化的一种方式。现有技术中,诸如使用CBOW、Skip-gram等模型训练的词向量能够形成一个词向量空间。在词向量空间中,除去语义空间中大小,正反(极性、方向),词向量空间分布≈语义空间分布。
现有技术中,通过使用以CBOW为代表的训练模型训练出来的词向量在表达能力上有欠缺,导致在对词进行相似度计算的时候,无论是以词向量的欧式距离还是余弦距离表达词的相似度,总存在着以下的问题:语义相反的词之间的距离反而比语义相同的词之间的距离近,例如“提升”和“降低”;此外,对于属于同一类的词,也不能保证相似度计算的准确,例如“苹果”和“香蕉”;以及,对于不同类别的词,也不能体现出区别性,例如水果类的词和动物类的词。可见,现有技术的词向量训练方法得到的词向量在表达词的极性、类别方面存在欠缺,无法表达出词语的真实语义。
发明内容
本申请实施例提供了一种单语义监督的词向量训练方法及装置,以解决现有技术中存在的问题。
第一方面,本申请实施例提供了一种单语义监督的词向量训练方法,包括:
根据中心词的每个语义所包含义原的义原向量,生成每个语义的加权语义向量;
选取中心词的一个语义的所述加权语义向量作为引导向量;
构造从所述引导向量到中心词的词向量之间的距离损失函数;
根据所述距离损失函数监督中心词的词向量在词向量模型训练时的迭代更新方向。
第二方面,本申请实施例提供了一种单语义监督的词向量训练装置,包括:
加权语义向量表达模块,用于根据中心词的每个语义所包含义原的义原向量,生成每个语义的加权语义向量;
引导向量表达模块,用于选取中心词的一个语义的所述加权语义向量作为引导向量;
距离损失构造模块,用于构造从所述引导向量到中心词的词向量之间的距离损失函数;
监督模块,用于根据所述距离损失函数监督中心词的词向量在词向量模型训练时的迭代更新方向。
由以上技术方案可知,本申请实施例提供了一种单语义监督的词向量训练方法及装置,在词向量训练的过程中,首先,根据中心词的每个语义所包含义原的义原向量,生成每个语义的加权语义向量;然后,选取中心词的一个语义的所述加权语义向量作为引导向量;然后,构造从所述引导向量到中心词的词向量之间的距离损失函数;最后,根据所述距离损失函数监督中心词的词向量在词向量模型训练时的迭代更新方向,从而使中心词的词向量在训练过程中朝着中心词的单个语义靠拢。从而,解决了现有技术中的词向量训练方法得到的词向量在表达词的极性、类别方面存在欠缺,无法表达出词语的真实语义的问题。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出了现有技术的词向量模型基本结构的示意图;
图2为本申请实施例示出的一种单语义监督的词向量训练方法的流程图;
图3为本申请实施例示出的一种单语义监督的词向量训练方法步骤S1的流程图;
图4为本申请实施例示出的一种单语义监督的词向量训练方法步骤S4的流程图;
图5为本申请实施例示出的一种单语义监督的词向量训练方法的生成输出向量的流程图;
图6为本申请实施例示出的一种单语义监督的词向量训练方法步骤S51的流程图;
图7为本申请实施例示出的一种单语义监督的词向量训练方法的迁徙流程图;
图8为本申请实施例示出的一种单语义监督的词向量训练装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
在自然语言处理技术领域,要将自然语言交给机器学习中的算法来处理,首先需要将自然语言数学化,词向量就是将自然语言数学化表示的一种方式。
One-hot型词向量就是将自然语言数学化表示的一种方式,One-hot型词向量是一个高维度的词向量,其维度表示词库中词的数量,将词库中的词按照一定顺序排列,每个维度就表示一个词,因此,在One-hot型词向量中,只有一个维度为1,其余维度均为0。
例如,词库中有1000个词,“苹果”是这个词库中的第3个词,“香蕉”是这个词库中的第4个词,那么,对于这个词库中的词来说,One-hot型词向量就是一个1000维向量,其中:
苹果=[0,0,1,0,0,0,0……]
香蕉=[0,0,0,1,0,0,0……]
One-hot型词向量看似实现了自然语言数学化表示,但是,在文本匹配、文本分类等应用领域,通常涉及到词之间语义的相似度计算。而One-hot型的每个维度独立表示一个词,无法体现词之间的语义相似关系,例如:“苹果”和“香蕉”同表示水果,如果用词向量的余弦距离表示词的语义相似关系,在One-hot型词向量的表示方法下,“苹果”和“香蕉”的余弦相似度为0,无法表达出任何语义相似关系。
在One-hot型词向量无法表达词之间的相似关系的情况下,本领域技术人员主要使用Distributed Representation型词向量作为将自然语言数学化表示。这种词向量是一种低维度的词向量,可以看作是构造了一个低维度的词向量空间,每个词作为词向量空间中的一个点,语义越相近的词,在词向量空间中的距离越近,这种词向量表现为下面的形式:[0.792,-0.177,-0.107,0.109,-0.542,…]。
现有技术中,本领域技术人员通过训练Word2vec的相关词向量模型,得到上述形式的低维词向量。这些词向量模型本质上构建了一个从词本身到词的语义的映射,现有技术中,本领域技术人员将中心词或上下词作为词向量模型的输入,将上下词或中心词作为词向量模型的输出,以训练词向量。需要补充说明的是,中心词和上下词均为相对概念,一个分词既可以是中心词也同时是其他分词的上下词。
具体地,图1示出了现有技术的词向量模型基本结构的示意图。如图1所示,词向量模型的基本结构可以看作是反向设置的两层神经网络,包括输入层、隐含层和输出层,其中,W1表示词向量模型中输入层到隐含层的神经网络权重,W2表示词向量模型中隐含层到输出层的神经网络权重。目前,现有技术的词向量训练模型主要有两种,一种是skip-gram模型,这种模型以中心词的词向量作为输入,预测上下词的词向量;另一种是CBOW模型,这种模型以上下词的词向量作为输入,预测中心词的词向量。
词向量模型的训练是一个迭代过程。在一种迭代过程中,被预测的词向量在输出层得到训练结果,这个训练结果与输出层输入的中心词或上下词的词向量之间存在误差,根据这个误差在每一轮迭代过程中利用反向传播算法更新词向量模型的隐含层权重,从而实现词向量的不断迭代更新。
由上述现有技术可知,当词向量模型skip-gram模型时,上下词的词向量训练结果向中心词的词向量靠拢,因此,现有技术训练出的词向量会出现下面的情形:
例如,训练样本中有以下语料:
产品销量同比去年提升15个百分点
产品价格同比去年下降10个百分点
在上面的样本中,上下词“提升”和“下降”语义相反,但是,由于现有技术中上下词的词向量向中心词的词向量靠拢(例如:中心词为“去年”),因此,通过现有技术的词向量训练方法得到的“提升”和“下降”的词向量可能会具有很近的距离,甚至比他们的同义词距离更近,从而无法体现出语义相反的两个词的区别性。此外,不难理解,即使是距离相近的同一类的词,例如“苹果”“香蕉”由于它们的中心词可能不属于同一类(例如:“种植”“采摘”等动词),因此,训练得到的“苹果”“香蕉”的词向量也不能保证距离上的相近。
可见,现有技术的词向量训练方法,在词向量的表示上无法有效地表达词的极性,即:同类词不能表达出相似性,不同类词不能表达出区别性。因此,现有技术训练出的词向量不能很好地贴近词的真实语义。
目前,词向量被广泛地应用于人工智能领域的文本分类或语音问答等任务中。例如,在文本分类领域,本领域技术人员可以收集大量的语料文本,并对语料文本进行分类标注;然后,将分类标注后的语料文本进行分词,并根据每个分词对应的词向量得到语料文本的词向量序列;然后,将语料文本的词向量序列和分类标注结果输入到例如Sequence toSequence模型(序列到序列的模型)等基于神经网络的分类模型中,以训练分类模型,使分类模型具备文本分类能力。其中,分类模型中可以视作一个词向量空间,该词向量空间的维度等于词向量的维度,每个词向量可以对应词向量空间中的一个坐标点,每个类别的语料文本的词向量序列分别对应词向量空间中一个集中区域内的坐标点的集合。那么,在使用分类模型进行文本分类时,将待分类文本的词向量序列输入到分类模型中,使词向量模型判别待分类文本的词向量序列分布在词向量空间的哪个区域,与哪个分类对应的区域距离最近,从而给出预测的分类结果。
在上述分类模型中,如果使用的词向量的质量不高,例如词向量不能有效地表达词的极性,会导致语义差别大的词向量在词向量空间中的距离较近,或者语义差别小的词向量在词向量空间中的距离较远,从而降低分类模型的质量,因此词向量质量的高低是决定文本分类或语音问答准确性的基础条件。
为了解决现有技术中存在的问题,本申请实施例提供了一种单语义监督的词向量训练方法及装置。
为了便于本领域技术人员理解本申请的技术方案,在对本申请提供的技术方案进行详细描述之前,首先对本申请涉及到的一些专业概念做出具体解释。
首先,训练词向量需要使用样本语料,样本语料可以是一个或多个文本段落、句子等。在训练词向量之前,首先需要对样本语料进行分词,那么,在样本语料的分词结果中,如果以其中一个分词作为中心词,则该中心词的前C(C为大于或等于1的整数)个分词和后C个分词就可以称为该中心词的上下词。
具体地,预设一个取词窗口值C,用于定义上下词的取词范围和数量,C值为整数,且C大于或等于1。当位于中心词前方和后方的分词数量均大于C时,获取的上下词的数量为2C;当位于中心词前方或后方的分词数量小于C时,在分词数量小于C的方向取到所有的分词为止,此时上下词的数量小于2C。
示例地,中心词为“苹果”,分词序列为:我想买一个苹果电脑
当C=1时,上下词为“一个”和“电脑”。
当C=2时,从“苹果”的前方取到上下词“想买”和“一个”;从“苹果”的后方取到上下词“电脑”;因此,从分词序列中取到的上下词为“想买”“一个”“电脑”。
进一步地,包括中心词和上下词在内的分词均可以包括多个语义,每个语义可进一步第分割成多个原子语义,原子语义是表达语义的不可继续分割的最小单位,也称为义原。其中,中心词和上下词的语义和义原可以从HowNet(知网)中获得。知网是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。在知网中,义原是最基本的、不易于再分割的意义的最小单位,一个词可以有多个语义,每个语义可以包含多个义原。例如:中心词“苹果”共有两个语义,即“电脑”和“水果”,其中,例如“电脑”包含义原“样式值”“能”“携带”“特定牌子”。在知网,相对于词语的数量来说,义原的数量十分有限,且词语的语义均可以细分为知网中的几个义原,所以不同词语的语义中,义原会存在交叉。因此,如果用义原向量去生成分词的语义向量,不仅能够表达出分词的真实语义,还能够体现出不同分词的语义之间的关系。
下面结合附图,对本申请实施例提供的技术方案做具体说明。
下面是本申请的方法实施例。
参见图2,为本申请实施例示出的一种单语义监督的词向量训练方法的流程图,如图2所示,所述方法包括以下步骤:
步骤S1,根据中心词的每个语义所包含义原的义原向量,生成每个语义的加权语义向量。
其中,义原向量在词向量模型训练开始前随机生成,并在训练过程中不断迭代更新。加权语义向量可以通过对语义所包含的义原的义原向量进行加权求和得到。
在知网中,义原的数量很少(约2000个),通过义原向量生成的加权语义向量能够很好地表达语义之间的相近关系,例如:加权语义向量A由a、b、c三个义原向量生成,加权语义向量B由a、d、e三个义原向量生成,两个加权语义向量中均包含义原向量a,因此,这两个加权语义向量所对应的语义存在相近成分。
进一步参见图3,为本申请实施例示出的一种单语义监督的词向量训练方法步骤S1的流程图,在本实施例或本申请其他某些实施例的一种可选择的实施方式中,步骤S1可以包括以下步骤:
步骤S11,根据中心词的每个语义的义原数量,设置每个语义的义原权重。
本申请实施例中,基本思路是:根据中心词的每个语义拥有的义原的数量确定义原权重,即:语义中义原数量越多,每个义原的权重就越小,语义中义原数量越少,每个义原的权重就越大。示例地,中心词共有N个语义,如果第j(1≤j≤N)个语义中义原的数量为M,且每个语义的义原的总权重为1,那么,第j个语义中每个义原的义原权重就为1/M,即:对每个语义中的义原设置相同的义原权重,义原权重的数值等于义原数量的倒数。
步骤S12,根据所述义原权重,对每个语义中的所述义原向量进行加权求和,生成每个语义的所述加权语义向量。
本申请实施例中,基本思路是:首先,随机对义原向量进行初始化赋值,然后,将义原向量乘以其对应的义原权重,从而得到义原向量的加权,然后,义原向量的加权求和,得到加权语义向量。
示例地,中心词第j个语义的第k个义原向量为那么该义原向量的加权为:
如果将中心词第j个语义的加权语义向量表示为那么,的计算方法为:
容易理解的是,现有技术中在训练词向量的方法,通常是以上下词作为中心词的语义,使中心词向上下词靠拢,或者,是以中心词作为上下词的语义,使上下词向中心词靠拢,由于上下词和中心词的词向量都是随机初始化生成的,因此,现有技术训练出的词向量无法表达出中心词和上下词的真实语义,因此词向量的质量不高。而本申请中,中心词的加权语义向量是通过对义原向量加权得到,能够表达中心词的真实语义。
步骤S2,选取中心词的一个语义的所述加权语义向量作为引导向量。
本申请实施例中,引导向量用于在词向量训练过程中引导中心词的词向量的迭代更新方向,使中心词的词向量的迭代方向朝着中心词的其中一个语义靠拢,而不是如现有技术那样朝着上下词的词向量靠拢,从而,使本申请实施例的技术方案训练得到中心词的词向量能够表达出中心词的真实语义,从而,本申请实施例的技术方案训练得到的词向量在应用于智能问答、文本匹配和文本分类等自然语言处理等任务中时,能够有更好的表现。
在一种可选择的实施方式中,步骤S2可以包括:
步骤S21,随机选取中心词的一个语义的所述加权语义向量作为所述引导向量。
其中,随机选取中心词的一个加权语义向量作为引导向量,使词向量训练过程中,中心词的每个加权语义向量都可能被随机选择到,能够在保证中心词的词向量向中心词的单一语义靠拢的同时,又体现出一定的丰富性,从而,使训练出的词向量用于智能问答等领域时,智能问答系统生成的结果具有多样性。
在另一种可选择的实施方式中,步骤S2可以包括:
步骤S22,获取中心词的义原数量最少的语义。
步骤S23,从中心词的义原数量最少的语义中随机选择一个语义的所述加权语义向量作为所述引导向量。
示例地,中心词共有A、B、C,共三个语义,其中,A包含a、b、c三个义原,B包含d、e两个义原,C包含f、g两个义原,因此,中心词的义原数量最少的语义有B和C,然后,进一步从B和C中随机选择一个语义的加权语义向量作为引导向量。
其中,选取中心词的义原数量最少的加权语义向量作为引导向量,能够使训练得到的中心词的词向量唯一性更高,从而减小语义损失,使词向量表达的语义更专注,从而,在训练出的词向量用于文本匹配等领域时,使匹配结果更准确、更收敛。
步骤S3,构造从所述引导向量到中心词的词向量之间的距离损失函数。
为了解决现有技术中的词向量训练方法得到的词向量在表达词的极性和类别上的缺陷,本申请实施例不使用上下词的词向量作为中心词的词向量的迭代目标,而是使用了在步骤S2中生成的引导向量,构造从中心词的词向量到引导向量之间的距离损失函数,由于引导向量取自中心词的一个加权语义向量,因此,本申请实施例构造的距离损失函数,建立起了中心词的词向量与中心词的其中一个真实语义之间的联系,引导中心词的词向量朝着贴近中心词的一个真实语义的方向去迭代更新。因此,本申请实施例训练得到的词向量能够表达出中心词的真实语义,弥补了现有技术中存在的词向量表达词的极性和类别上的缺陷。
具体地,获取中心词的词向量与引导向量的余弦距离,将所述余弦距离作为距离损失函数。
其中,所述余弦距离函数可以是如下形式:
其中:cosθ为余弦距离;Ai表示引导向量第i维的值;Bi表示中心词的词向量第i维的值;n表示词向量的预设维度,例如,当词向量的维度为200维时,n=200。
步骤S4,根据所述距离损失函数监督中心词的词向量在词向量模型训练时的迭代更新方向。
现有技术是使用上下词的词向量去监督中心词的词向量在词向量模型训练时的迭更新代方向。本申请实施例中,基本思路是使用距离损失函数替代上下词的词向量,从而使词向量模型训练的中心词的词向量朝着引导向量去迭代,进而使训练生成的中心词的词向量朝着中心词的一个真实语义去靠拢,解决现有技术的词向量训练方法得到的词向量在表达词的极性、类别方面存在欠缺,无法体现出词语的真实语义的问题。
进一步参见图4,为本申请实施例示出的一种单语义监督的词向量训练方法步骤S4的流程图,在本实施例或本发明其他某些实施例的一种可选择的实施方式中,步骤S4可以包括以下步骤:
步骤S41,获取所述距离损失函数对词向量模型中每个连接权重的偏导。
例如CBOW、Skip-gram等词向量模型的基本结构可以看作是两个反向连接的神经网络,其中,词向量模型的隐含层权重就是这个神经网络的每个网络节点的连接权重,其训练词向量的过程就是在迭代中不断更新其连接权重,使神经网络的输出结果趋近于减小距离损失函数的过程。因此,本申请实施例的基本思路是:为了更新这些连接权重,首先获取词向量模型中每个连接权重的偏导。
步骤S42,根据所述偏导更新所述连接权重。
其中,每个连接权重的偏导反应了每个连接权重对距离损失函数的影响值。在步骤S42中,通过使用链式法则将每个连接权重的偏导进行反向传播,从而获取到词向量模型的输出层到隐含层、以及隐含层到输入层的连接权重对距离损失函数的影响值。
具体地,在更新连接权重的过程中可设置神经网络的学习速率,可以在迭代的初期设置一个较大的学习速率,然后在迭代过程中使学习速率不断衰减,防止学习速度过快而导致连接权重的更新陷入随机跳动、局部最小值或发散。
步骤S43,在下一轮迭代中,使用更新后的所述连接权重更新中心词的词向量。
通过词向量模型的连接权重的不断更新,中心词的词向量也在训练中不断更新,最终生成能够用于到生产环境中的词向量。
另外,在现有技术中的词向量模型,通常以中心词的词向量作为输入,以上下词的词向量作为输出,或者,以上下词的词向量作为输入,以中心词的词向量作为输出。由于中心词的词向量和上下词的词向量均为随机生成的词向量,因此,这样的词向量在表达词的语义和语境上均存在缺陷。为了克服上述缺陷,本申请示例提供的技术方案中,词向量模型以中心词的词向量作为输入,以输出向量作为输出。
参见图5,为本申请实施例示出的一种单语义监督的词向量训练方法的生成输出向量的流程图。下面结合图5具体介绍输出向量的生成方法,包括以下步骤:
步骤S51,根据上下词的词向量生成中心词的语境向量。
一个分词通常包含多个语义,这个分词在一个句子中具体表现出哪个语义与其所处的语境有一定的关系,本申请实施例中的语境向量表达的就是中心词的语境。
进一步参见图6,为本申请实施例示出的一种单语义监督的词向量训练方法步骤S51的流程图,在本实施例或本发明其他某些实施例的一种可选择的实施方式中,步骤S51可以包括以下步骤:
步骤S511,根据预设的窗口大小确定中心词的预设数量的上下词。
具体地,预设一个取词窗口值C,用于定义上下词的取词范围和数量,C值为整数,且C大于或等于1。当位于中心词前方和后方的分词数量均大于C时,获取的上下词的数量为2C;当位于中心词前方或后方的分词数量小于C时,在分词数量小于C的方向取到所有的分词为止,此时上下词的数量小于2C。
示例地,中心词为“苹果”,分词序列为:我想买一个苹果电脑
当C=1时,上下词为“一个”和“电脑”。
当C=2时,从“苹果”的前方取到上下词“想买”和“一个”;从“苹果”的后方取到上下词“电脑”;因此,从分词序列中取到的上下词为“想买”“一个”“电脑”。
步骤S512,对上下词的词向量加权求和,生成所述语境向量。
本申请实施例中,可以设置用于对上下词的词向量进行加权的语境权重。
作为一种可选择的实施方式,可对所有上下词设置相同的语境权重,即:当上下词的数量为Q时,每个上下词的语境权重为1/Q。
作为另一种可选择的实施方式,可根据上下词与中心词的距离为上下词设置不同的语境权重,即:对与中心词距离更近的上下词设置较大的语境权重,对与中心词距离更远的上下词设置较小的语境权重。
例如:中心词为“苹果”,分词序列为:我想买一个苹果电脑,上下词为“想买”“一个”“电脑”。其中,“一个”和“电脑”与中心词“苹果”相邻,认为距离为1,“想买”与中心词“苹果”间隔一个分词,认为距离为2;因此,为“一个”和“电脑”设置较大的语境权重,例如0.35,以及,为“想买”设置较小的语境权重,例如0.3。容易理解的是,本申请实施例中,对上下词设置的不同语境权重的具体值仅作为示意性的示例,不构成对本实施例的具体限定,本领域普通技术人员在本实施例提供的技术思路的启示下,可以根据上下词的数量以及上下词距离中心词的距离对上下词设置满足需要的语境权重,可以在此处使用的这些设计都没有背离本发明的精神和保护范围。
在确定了语境权重的基础上,可以使用以下公式生成所述语境向量:
Tc=T’1,×H1+……T’Q×HQ
其中:Tc为中心词的语境向量,Q为上下词的数量,T’1~T’Q分别Q个上下词的词向量,H1~HQ分别为Q个上下词的语境权重。
当H1~HQ相等,即每个上下词的语境权重均为1/Q时,上面的公式可以写成:
其中,Ti’为中心词的第i个上下词的词向量,1≤i≤Q。
步骤S52,分别获取所述语境向量与中心词的每个所述加权语义向量的关注系数。
具体地,可以使用以下公式生成每个随机语义向量的关注系数:
其中:中心词共有N个语义;表示中心词第j个语义的随机语义向量的关注系数,1≤j≤N;Tc为语境向量;为中心词第j个语义的随机语义向量;为中心词第p个语义的随机语义向量,1≤p≤N:为中心词的语境向量与中心词的第j个语义的加权语义向量的相似度;表示对中心词第j个语义对应的相似度取e为底的对数;表示分别对中心词每个语义对应的相似度取e为底的对数,然后求和。
步骤S53,根据所述关注系数,对中心词的语义向量进行加权求和,生成中心词的输出向量。
本申请实施例中,基本思路是使用所述关注系数对中心词的语义向量进行加权,并对加权结果进行求和,将求和结果作为中心词的输出向量。其中,中心词的语义向量与中心词的加权语义向量是不同的概念,中心词的语义向量是随机初始化生成的,并且在词向量模型的训练过程中迭代更新,而中心词的加权语义向量是由义原向量加权得到的。
具体地,可以用以下公式生成中心词的输出向量。
Wt为中心词的输出向量;N为中心词语义的数量;为中心词第j个语义的加权语义向量的关注系数;为中心词的第j个语义的语义向量。
本申请实施例中,输出向量能够表达出中心词的语境对中心词的语义的影响,因此,使用本申请生成的输出向量作为词向量模型的输出,能够使训练得到的中心词的词向量在很好地表达词的极性和类别的同时,还能表达出语境对语义的影响,因此词向量的质量更高。
此外,由于在词向量训练过程中,在对义原向量、语义向量和词向量进行初始化之后,这些向量的数值在迭代过程中是不断发生变化的,因此,整个词向量模型将会是一个不断更新学习的不稳定模型。为了能够使词向量模型趋于稳定,使词向量稳定地朝着引导向量的方向去迭代更新,本申请实施例在步骤S4之后,还可以包括迁徙流程。
参见图7,为本申请实施例示出的一种单语义监督的词向量训练方法的迁徙流程图,具体以下步骤:
步骤S61,在词向量模型完成预设次数的迭代之后,提取词向量模型产生的词向量和义原向量。
具体地,在词向量模型完成一定次数的迭代之后,词向量模型训练产生的词向量和义原向量已经能够达到用于生产环境(例如:用于进行文本分类,智能问答等生产环境中)的标准,此时,本申请实施例中,词向量模型产生的词向量和义原向量提取出来,作为词向量模型的迁徙学习的素材。
步骤S62,将提取到的词向量和义原向量作为词向量模型继续训练的输入参数。
具体地,本申请实施例中,将提取到的词向量和义原向量作为词向量模型继续训练的输入参数,以替代词向量模型训练时使用的随机产生的初始参数。
此外,提取到的词向量和义原向量还可以迁徙到其他词向量模型,作为其他词向量模型的初始参数,可以大大节省词向量词向量训练时间和提高训练生成的词向量的质量。
步骤S63,当词向量模型继续训练时,固定义原向量的值,使词向量模型在迭代更新时仅更新词向量的值。
具体地,由于语义向量和词向量均由义原向量产生,因此,如果固定义原向量的值,就等于固定了词向量模型的根基,词向量模型就会趋于稳定,从而词向量可以稳定地朝着引导向量的方向更新,提高词向量的质量。
由以上技术方案可知,本申请实施例提供了一种单语义监督的词向量训练方法,在词向量训练的过程中,首先,根据中心词的每个语义所包含义原的义原向量,生成每个语义的加权语义向量;然后,选取中心词的一个语义的所述加权语义向量作为引导向量;然后,构造从所述引导向量到中心词的词向量之间的距离损失函数;最后,根据所述距离损失函数监督中心词的词向量在词向量模型训练时的迭代更新方向,从而使中心词的词向量在训练过程中朝着中心词的单个语义靠拢。从而,解决了现有技术中的词向量训练方法得到的词向量在表达词的极性、类别方面存在欠缺,无法表达出词语的真实语义的问题。
下面是本申请的装置实施例,可用于执行本申请的方法实施例,该装置包括用于执行本申请的方法实施例的各个步骤的软件模块。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
参见图8,为本申请实施例示出的一种单语义监督的词向量训练装置的示意图,如图8所示,所述装置包括:
加权语义向量表达模块71,用于根据中心词的每个语义所包含义原的义原向量,生成每个语义的加权语义向量;
引导向量表达模块72,用于选取中心词的一个语义的所述加权语义向量作为引导向量;
距离损失构造模块73,用于构造从所述引导向量到中心词的词向量之间的距离损失函数;
监督模块74,用于根据所述距离损失函数监督中心词的词向量在词向量模型训练时的迭代更新方向。
由以上技术方案可知,本申请实施例提供了一种单语义监督的词向量训练装置,在词向量训练的过程中,首先,根据中心词的每个语义所包含义原的义原向量,生成每个语义的加权语义向量;然后,选取中心词的一个语义的所述加权语义向量作为引导向量;然后,构造从所述引导向量到中心词的词向量之间的距离损失函数;最后,根据所述距离损失函数监督中心词的词向量在词向量模型训练时的迭代更新方向,从而使中心词的词向量在训练过程中朝着中心词的单个语义靠拢。从而,解决了现有技术中的词向量训练方法得到的词向量在表达词的极性、类别方面存在欠缺,无法表达出词语的真实语义的问题。
关于上述实施例中的装置,其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本申请可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
本领域技术人员在考虑说明书及实践这里公开的申请后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (10)

1.一种单语义监督的词向量训练方法,其特征在于,包括:
根据中心词的每个语义所包含义原的义原向量,生成每个语义的加权语义向量;
选取中心词的一个语义的所述加权语义向量作为引导向量;
构造从所述引导向量到中心词的词向量之间的距离损失函数;
根据所述距离损失函数监督中心词的词向量在词向量模型训练时的迭代更新方向。
2.根据权利要求1所述的方法,其特征在于,所述根据中心词的每个语义所包含义原的义原向量,生成每个语义的加权语义向量,包括:
根据中心词的每个语义的义原数量,设置每个语义的义原权重;
根据所述义原权重,对每个语义中的所述义原向量进行加权求和,生成每个语义的所述加权语义向量。
3.根据权利要求1所述的方法,其特征在于,所述选取中心词的一个语义的所述加权语义向量作为引导向量,包括:
随机选取中心词的一个语义的所述加权语义向量作为所述引导向量。
4.根据权利要求1所述的方法,其特征在于,所述选取中心词的一个语义的所述加权语义向量作为引导向量,包括:
获取中心词的义原数量最少的语义;
从中心词的义原数量最少的语义中随机选择一个语义的所述加权语义向量作为所述引导向量。
5.根据权利要求1所述的方法,其特征在于,所述构造从引导向量到中心词的词向量之间的距离损失函数,包括:
获取中心词的词向量与所述引导向量的余弦距离,将所述余弦距离作为所述距离损失函数。
6.根据权利要求1所述的方法,其特征在于,所述根据所述距离损失函数监督中心词的词向量在词向量模型训练时的迭代更新方向之后,还包括:
在词向量模型完成预设次数的迭代之后,提取词向量模型产生的词向量和义原向量;
将提取到的词向量和义原向量作为词向量模型继续训练的输入参数;
当词向量模型继续训练时,固定义原向量的值,使词向量模型在迭代更新时仅更新词向量的值。
7.根据权利要求1所述的方法,其特征在于,还包括:
根据上下词的词向量生成中心词的语境向量;
分别获取所述语境向量与中心词的每个所述加权语义向量的关注系数;
根据所述关注系数,对中心词的语义向量进行加权求和,生成中心词的输出向量;
其中,所述词向量模型以上下词的词向量作为输入,以所述输出向量作为输出。
8.根据权利要求7所述的方法,其特征在于,所述根据上下词的词向量生成中心词的语境向量,包括:
根据预设的窗口大小确定中心词的预设数量的上下词;
对上下词的词向量加权求和,生成所述语境向量。
9.根据权利要求1所述的方法,其特征在于,所述根据所述距离损失函数监督中心词的词向量在词向量模型训练时的迭代更新方向,包括:
获取所述距离损失函数对词向量模型中每个连接权重的偏导;
根据所述偏导更新所述连接权重;
在下一轮迭代中,使用更新后的所述连接权重更新中心词的词向量。
10.一种单语义监督的词向量训练装置,其特征在于,包括:
加权语义向量表达模块,用于根据中心词的每个语义所包含义原的义原向量,生成每个语义的加权语义向量;
引导向量表达模块,用于选取中心词的一个语义的所述加权语义向量作为引导向量;
距离损失构造模块,用于构造从所述引导向量到中心词的词向量之间的距离损失函数;
监督模块,用于根据所述距离损失函数监督中心词的词向量在词向量模型训练时的迭代更新方向。
CN201811081872.XA 2018-09-17 2018-09-17 一种单语义监督的词向量训练方法及装置 Active CN109271633B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811081872.XA CN109271633B (zh) 2018-09-17 2018-09-17 一种单语义监督的词向量训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811081872.XA CN109271633B (zh) 2018-09-17 2018-09-17 一种单语义监督的词向量训练方法及装置

Publications (2)

Publication Number Publication Date
CN109271633A true CN109271633A (zh) 2019-01-25
CN109271633B CN109271633B (zh) 2023-08-18

Family

ID=65188780

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811081872.XA Active CN109271633B (zh) 2018-09-17 2018-09-17 一种单语义监督的词向量训练方法及装置

Country Status (1)

Country Link
CN (1) CN109271633B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111090743A (zh) * 2019-11-26 2020-05-01 华南师范大学 一种基于词嵌入和多值形式概念分析的论文推荐方法及装置
CN112270379A (zh) * 2020-11-13 2021-01-26 北京百度网讯科技有限公司 分类模型的训练方法、样本分类方法、装置和设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6604094B1 (en) * 2000-05-25 2003-08-05 Symbionautics Corporation Simulating human intelligence in computers using natural language dialog
CN107193806A (zh) * 2017-06-08 2017-09-22 清华大学 一种词汇义原的自动预测方法及装置
CN107239443A (zh) * 2017-05-09 2017-10-10 清华大学 一种词向量学习模型的训练方法及服务器
CN107730003A (zh) * 2017-10-23 2018-02-23 华中科技大学 一种支持多电器类型高精度的nilm实现方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6604094B1 (en) * 2000-05-25 2003-08-05 Symbionautics Corporation Simulating human intelligence in computers using natural language dialog
CN107239443A (zh) * 2017-05-09 2017-10-10 清华大学 一种词向量学习模型的训练方法及服务器
CN107193806A (zh) * 2017-06-08 2017-09-22 清华大学 一种词汇义原的自动预测方法及装置
CN107730003A (zh) * 2017-10-23 2018-02-23 华中科技大学 一种支持多电器类型高精度的nilm实现方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杜坤: "基于语义加权的中文文本相似度计算研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111090743A (zh) * 2019-11-26 2020-05-01 华南师范大学 一种基于词嵌入和多值形式概念分析的论文推荐方法及装置
CN111090743B (zh) * 2019-11-26 2023-05-09 华南师范大学 一种基于词嵌入和多值形式概念分析的论文推荐方法及装置
CN112270379A (zh) * 2020-11-13 2021-01-26 北京百度网讯科技有限公司 分类模型的训练方法、样本分类方法、装置和设备
CN112270379B (zh) * 2020-11-13 2023-09-19 北京百度网讯科技有限公司 分类模型的训练方法、样本分类方法、装置和设备

Also Published As

Publication number Publication date
CN109271633B (zh) 2023-08-18

Similar Documents

Publication Publication Date Title
CN109165288B (zh) 一种多语义监督的词向量训练方法及装置
Gharehchopogh et al. Slime mould algorithm: A comprehensive survey of its variants and applications
Rautray et al. Cat swarm optimization based evolutionary framework for multi document summarization
CN106779087B (zh) 一种通用机器学习数据分析平台
CN109960800A (zh) 基于主动学习的弱监督文本分类方法及装置
CN113254667A (zh) 基于深度学习模型的科技人物知识图谱构建方法、装置及终端
Nadimi-Shahraki et al. A systematic review of the whale optimization algorithm: theoretical foundation, improvements, and hybridizations
CN104881689B (zh) 一种多标签主动学习分类方法及系统
CN109543031A (zh) 一种基于多任务对抗学习的文本分类方法
CN110348579A (zh) 一种领域自适应迁移特征方法及系统
CN109299459A (zh) 一种单语义监督的词向量训练方法及装置
Cao et al. A bat-inspired approach to define transition rules for a cellular automaton model used to simulate urban expansion
CN110825850B (zh) 一种自然语言主题分类方法及装置
CN109308323A (zh) 一种因果关系知识库的构建方法、装置及设备
CN109614618A (zh) 基于多语义的集外词处理方法及装置
CN109858013A (zh) 一种有监督的词向量训练方法及装置
Liu et al. Prediction intervals for granular data streams based on evolving type-2 fuzzy granular neural network dynamic ensemble
CN108491515A (zh) 一种用于校园心理咨询的句对匹配度预测方法
CN111710428A (zh) 一种建模全局和局部上下文交互的生物医学文本表示方法
CN109271633A (zh) 一种单语义监督的词向量训练方法及装置
Hung et al. A Dynamic Adaptive Self-Organising Hybrid Model for Text Clustering.
CN109241535B (zh) 一种多语义监督的词向量训练方法及装置
CN116757195B (zh) 一种基于提示学习的隐性情感识别方法
CN116720519B (zh) 一种苗医药命名实体识别方法
Vasić et al. Predicting student's learning outcome from Learning Management system logs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20190905

Address after: Room 630, 6th floor, Block A, Wanliu Xingui Building, 28 Wanquanzhuang Road, Haidian District, Beijing

Applicant after: DINFO (BEIJING) SCIENCE DEVELOPMENT Co.,Ltd.

Address before: Room 601, Block A, Wanliu Xingui Building, 28 Wanquanzhuang Road, Haidian District, Beijing

Applicant before: ULTRAPOWER SOFTWARE Co.,Ltd.

TA01 Transfer of patent application right
CB02 Change of applicant information

Address after: 230000 zone B, 19th floor, building A1, 3333 Xiyou Road, hi tech Zone, Hefei City, Anhui Province

Applicant after: Dingfu Intelligent Technology Co.,Ltd.

Address before: Room 630, 6th floor, Block A, Wanliu Xingui Building, 28 Wanquanzhuang Road, Haidian District, Beijing

Applicant before: DINFO (BEIJING) SCIENCE DEVELOPMENT Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant