CN107239443A - 一种词向量学习模型的训练方法及服务器 - Google Patents

一种词向量学习模型的训练方法及服务器 Download PDF

Info

Publication number
CN107239443A
CN107239443A CN201710322632.3A CN201710322632A CN107239443A CN 107239443 A CN107239443 A CN 107239443A CN 201710322632 A CN201710322632 A CN 201710322632A CN 107239443 A CN107239443 A CN 107239443A
Authority
CN
China
Prior art keywords
word
vector
meaning
justice
term vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710322632.3A
Other languages
English (en)
Inventor
谢若冰
牛艺霖
刘知远
孙茂松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201710322632.3A priority Critical patent/CN107239443A/zh
Publication of CN107239443A publication Critical patent/CN107239443A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供一种词向量学习模型的训练方法及服务器,所述方法包括:获取训练样本文本中单词对应的词义向量和义原向量;根据所述词义向量或所述义原向量表示所述训练样本文本中的词向量;将由所述词义向量或所述义原向量表示的词向量代入已有的词向量学习模型,并进行模型训练。所述服务器执行上述方法。本发明实施例提供的词向量学习模型的训练方法及服务器,通过义原向量或词义向量表示词向量,并训练由词义向量或义原向量表示的词向量对应的词向量学习模型,使其能够充分地表达单词的语义信息。

Description

一种词向量学习模型的训练方法及服务器
技术领域
本发明实施例涉及机器学习技术领域,具体涉及一种词向量学习模型的训练方法及服务器。
背景技术
义原是单词的最小语义单元,可以使用有限个义原描述数量庞大的中文单词的语义。对于每个单词来说,这个单词拥有的义原并没有直观的表现出来,为了进行相应的研究,一些研究人员对每个单词进行了人工标注,通过语言学的知识来为每个单词分配一个或多个义原,并由此形成了一个知识库HowNet(知网)。
词向量是指将单词向量化,词向量包括有不同的维数,每一维数描述了单词的一种特征,将单词转化为词向量可以帮助计算机去理解自然语言,现有技术通过对词向量学习模型进行训练,来预测单词语义信息。但是上述词向量学习模型中的词向量没有关系到单词的最小语义单元——义原,因此,不能充分地表达单词的语义信息。
因此,如何通过义原向量或词义向量训练词向量学习模型中的词向量,使其能够充分地表达单词的语义信息,成为亟须解决的问题。
发明内容
针对现有技术存在的问题,本发明实施例提供一种词向量学习模型的训练方法及服务器。
第一方面,本发明实施例提供一种词向量学习模型的训练方法,所述方法包括:
获取训练样本文本中单词对应的词义向量和义原向量;
根据所述词义向量或所述义原向量表示所述训练样本文本中的词向量;
将由所述词义向量或所述义原向量表示的词向量代入已有的词向量学习模型,并进行模型训练。
第二方面,本发明实施例提供一种词向量学习模型的训练服务器,所述服务器包括:
获取模块,用于获取训练样本文本中单词对应的词义向量和义原向量;
表示模块,用于根据所述词义向量或所述义原向量表示所述训练样本文本中的词向量;
代入模块,用于将由所述词义向量或所述义原向量表示的词向量代入已有的词向量学习模型,并进行模型训练。
第三方面,本发明实施例提供另一种词向量学习模型的训练服务器,包括:处理器、存储器和总线,其中,
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如下方法:
获取训练样本文本中单词对应的词义向量和义原向量;
根据所述词义向量或所述义原向量表示所述训练样本文本中的词向量;
将由所述词义向量或所述义原向量表示的词向量代入已有的词向量学习模型,并进行模型训练。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,包括:
所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如下方法:
获取训练样本文本中单词对应的词义向量和义原向量;
根据所述词义向量或所述义原向量表示所述训练样本文本中的词向量;
将由所述词义向量或所述义原向量表示的词向量代入已有的词向量学习模型,并进行模型训练。
本发明实施例提供的词向量学习模型的训练方法及服务器,通过义原向量或词义向量表示词向量,并训练由词义向量或义原向量表示的词向量对应的词向量学习模型,使其能够充分地表达单词的语义信息。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例词向量学习模型的训练方法流程示意图;
图2为本发明实施例词向量学习模型的训练服务器结构示意图;
图3为本发明实施例提供的服务器实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例词向量学习模型的训练方法流程示意图,如图1所示,本发明实施例提供的一种词向量学习模型的训练方法,包括以下步骤:
S1:获取训练样本文本中单词对应的词义向量和义原向量。
具体的,服务器获取训练样本文本中单词对应的词义向量和义原向量。需要说明的是:词向量学习模型使用之前需要先进行单词词向量的训练,训练要使用训练样本文本,训练样本文本包括有可作为样本的单词对应的词义向量和义原向量,下面举例说明词义向量和义原向量,以单词“苹果”为例:词义向量可以代表苹果品牌、水果中的苹果;其中代表苹果品牌的词义向量还包括有多个义原向量,如:电脑、手机、方便携带、样式值等最小化的语义单元,即单词词向量、词义向量和义原向量之间的关系是:词向量可以包括一个或多个词义向量;一个词义向量可以包括一个或多个义原向量。可以从知识库HowNet(知网)的原始词集中获取到训练样本文本中单词对应的义原。
S2:根据所述词义向量或所述义原向量表示所述训练样本文本中的词向量。
具体的,服务器根据所述词义向量或所述义原向量表示所述训练样本文本中的词向量。从上述实施例的说明可以看出:用词义向量或义原向量表示词向量,能够使得词向量所表示的语义信息更加丰富。
S3:将由所述词义向量或所述义原向量表示的词向量代入已有的词向量学习模型,并进行模型训练。
具体的,服务器将由所述词义向量或所述义原向量表示的词向量代入已有的词向量学习模型,并进行模型训练。已有的词向量学习模型包括有Skip-gram模型等,进行模型训练的方法可以有多种,可以采用后向传播计算参数的梯度,并使用该梯度更新参数,更新的参数可以包括更新词向量、义原向量等。
本发明实施例提供的词向量学习模型的训练方法,通过义原向量或词义向量表示词向量,并训练由词义向量或义原向量表示的词向量对应的词向量学习模型,使其能够充分地表达单词的语义信息。
在上述实施例的基础上,所述根据所述词义向量或所述义原向量表示所述训练样本文本中的词向量,包括:
在所述训练样本文本中选择一个句子中的一个单词作为目标单词wi
具体的,服务器在所述训练样本文本中选择一个句子中的一个单词作为目标单词wi。可以按顺序或随机选择句子和句子中的单词,选择一个句子中的一个单词作为目标单词wi,用词义向量或义原向量表示后,再依次选择该句子中的每一个单词作为目标单词wi,再用词义向量或义原向量表示,直至完成该句子中所有单词用词义向量或义原向量表示,然后在训练样本文本中遍历所有的句子,重复上述的将每一个句子中所有单词用词义向量或义原向量表示的步骤,直至完成训练样本文本中所有单词用词义向量或义原向量表示。
用所述目标单词wi对应的义原向量总和的平均值表示所述目标单词wi的词向量。
具体的,服务器用所述目标单词wi对应的义原向量总和的平均值表示所述目标单词wi的词向量。可以采用如下公式进行计算:
其中,m代表目标单词wi的义原向量总数量,S(wi)表示目标单词wi的词义向量集合,X(s)表示其中一个词义向量中的义原向量集合,x表示义原向量。简单来说,就是用目标单词wi的义原向量的平均值表示目标单词wi的词向量。
本发明实施例提供的词向量学习模型的训练方法,通过用目标单词对应的义原向量总和的平均值表示目标单词的词向量,并训练义原向量总和的平均值表示目标单词的词向量对应的词向量学习模型,使其能够充分地表达目标单词的语义信息。
在上述实施例的基础上,所述根据所述词义向量或所述义原向量表示所述训练样本文本中的词向量,包括:
在所述训练样本文本中选择一个句子中的一个单词作为目标单词wi
具体的,服务器在所述训练样本文本中选择一个句子中的一个单词作为目标单词wi。可参照上述实施例的说明,此处不再赘述。
将所述目标单词wi的前K个与后K个单词组成所述目标单词wi的上下文单词,前K个与后K个单词组成的上下文单词的集合记为C(wi)。
具体的,服务器将所述目标单词wi的前K个与后K个单词组成所述目标单词wi的上下文单词,前K个与后K个单词组成的上下文单词的集合记为C(wi)。需要说明的是,如果目标单词wi位于该句子中的句首,则将所述目标单词wi的后K个单词组成所述目标单词wi的上下文单词,如果目标单词wi所在的位置与句首单词之间的单词数不足K个,则将目标单词wi与句首单词之间的所有单词和后K个单词组成所述目标单词wi的上下文单词;如果目标单词wi位于该句子中的句尾,则将所述目标单词wi的前K个单词组成所述目标单词wi的上下文单词,如果目标单词wi所在的位置与句尾单词之间的单词数不足K个,则将目标单词wi与句尾单词之间的所有单词和前K个单词组成所述目标单词wi的上下文单词。
用所述目标单词wi对应的词义向量的加权平均值表示所述目标单词wi的词向量。
具体的,服务器用所述目标单词wi对应的词义向量的加权平均值表示所述目标单词wi的词向量。可以采用如下公式进行计算:
其中,att(s)表示目标单词wi中的一个词义向量的权值,s表示的是词义向量,S(wi)表示目标单词wi的词义向量集合、|S(wi)|表示目标单词wi的词义向量集合总值。
特定的一个词义向量的权值的计算公式为:
其中,att(sj)表示目标单词wi第j个词义向量的权值,w表示上下文单词的平均词向量,表示第j个词义向量的所有义原向量的平均值,k的取值范围是1~|S(wi)|。
其中特定的一个的计算公式为:
其中,x是这个词义向量中的一个义原向量、X(sj)是这个词义向量的所有义原向量集合、|X(sj)|是这个词义向量的所有义原向量集合总值。
其中w的计算公式为:
其中,wc表示前K个与后K个单词组成的上下文单词中的一个、C(wi)表示前K个与后K个单词组成的上下文单词的集合、其中分母中的2K的具体数值需要根据上述实施例中目标单词wi位于该句子中的句首、句尾等不同情况作相应的调整,以使分母数值等于上下文单词总个数。
或,
用与所述目标单词wi对应的权重最大的词义向量表示所述目标单词wi的词向量。
具体的,服务器用与所述目标单词wi对应的权重最大的词义向量表示所述目标单词wi的词向量。可以依次根据上述的公式:
计算每一个词义向量的权值,将其中权值最大的词义向量表示所述目标单词wi的词向量。
本发明实施例提供的词向量学习模型的训练方法,通过用目标单词对应的词义向量的加权平均值或权重最大的词义向量表示目标单词的词向量,并训练表示后的词向量学习模型,考虑了上下文对于目标单词的影响,能够结合上下文的语义判断目标单词的语义。
在上述实施例的基础上,所述方法还包括:
在所述上下文单词的集合C(wi)中选择一个上下文单词wc,用与所述上下文单词wc对应的词义向量的加权平均值表示所述上下文单词wc的词向量。
具体的,服务器在所述上下文单词的集合C(wi)中选择一个上下文单词wc,用与所述上下文单词wc对应的词义向量的加权平均值表示所述上下文单词wc的词向量。可以采用如下公式进行计算:
其中,att(s)表示目标单词wi的上下文单词wc中的一个词义向量的权值,s表示的是词义向量,S(wc)表示目标单词wi的上下文单词wc的词向量集合、|S(wc)|表示目标单词wi的上下文单词wc的词义向量集合总值。
特定的一个词义向量的权值的计算公式为:
其中,att(sj)表示目标单词wi的上下文单词wc中的第j个词义向量的权值,wi表示上下文单词对应的目标单词,表示第j个词义向量的所有义原向量的平均值,k的取值范围是1~|S(wc)|、|S(wc)|表示目标单词wi的上下文单词wc的词向量集合总值。
其中特定的一个的计算公式为:
其中,x是这个词义向量中的一个义原向量、X(sj)是这个词义向量的所有义原向量集合、|X(sj)|是这个词义向量的所有义原向量集合总值。
本发明实施例提供的词向量学习模型的训练方法,通过上下文单词对应的词义向量的加权平均值表示所述上下文单词的词向量,并训练表示后的词向量学习模型,能够充分地表达上下文单词的语义信息。
在上述实施例的基础上,所述方法还包括:
将所述目标单词wi的前K′个与后K′个单词组成所述目标单词wi的上下文单词,前K′个与后K′个单词组成的上下文单词的集合记为C′(wi),其中K′<K。
具体的,服务器将所述目标单词wi的前K′个与后K′个单词组成所述目标单词wi的上下文单词,前K′个与后K′个单词组成的上下文单词的集合记为C′(wi),其中K′<K。一般来说,选择最靠近目标单词wi的几个上下文单词已经足够表示目标单词wi的准确语义,使用更多的词反而可能引入更多误差,因此,可以选择更少的、距离更近的一些单词作为目标单词wi上下文的单词。
用所述目标单词wi对应的词义向量的加权平均值表示所述目标单词wi的词向量。
具体的,服务器用所述目标单词wi对应的词义向量的加权平均值表示所述目标单词wi的词向量。需要说明的是:将计算w的公式变更如下:
具体步骤及说明可参照上述实施例,不再赘述。
本发明实施例提供的词向量学习模型的训练方法,通过前K′个与后K′个单词组成的上下文单词对应的词义向量的加权平均值表示上下文单词的词向量,并训练表示后的词向量学习模型,不仅考虑了上下文单词对于目标单词的影响,还能够更加准确表示目标单词的语义。
在上述实施例的基础上,所述将由所述词义向量或所述义原向量表示的词向量代入已有的词向量学习模型,包括:
将由所述义原向量或词义向量表示的所述目标单词wi代入公式:
中的wi
或,
将由所述词义向量表示的所述上下文单词wc代入上述公式中的wc
或,
将由所述词义向量的加权平均值表示的目标单词wi代入上述公式中的wi;所述词义向量的加权平均值由公式 或由公式进行计算;
其中,wc是目标单词wi的上下文单词、C(wi)是前K个与后K个单词组成的目标单词wi的上下文单词的集合、C‘(wi)是前K′个与后K′个单词组成的目标单词wi的上下文单词的集合、K′<K、W是训练样本文本中单词对应的词义向量和义原向量所在的原始词集,所述原始词集从知网中获取、wi是目标单词、w′i是包括所述目标单词wi在内的所有目标单词集。
具体的,服务器将公式:
代入公式:
中的wi
或,
将公式:
或由公式:
计算出的权值最大的词义向量
代入公式:
中的wc
或,
将由所述词义向量的加权平均值表示的目标单词wi代入上述公式中的wi;所述词义向量的加权平均值由公式 或由公式进行计算;
其中,wc是目标单词wi的上下文单词、C(wi)是前K个与后K个单词组成的目标单词wi的上下文单词的集合、C‘(wi)是前K′个与后K′个单词组成的目标单词wi的上下文单词的集合、K′<K、W是训练样本文本中单词对应的词义向量和义原向量所在的原始词集,所述原始词集从知网中获取、该知网可以是上文中提及的知识库HowNet、wi是目标单词、w′i是包括所述目标单词wi在内的所有目标单词集。
本发明实施例提供的词向量学习模型的训练方法,通过将由词义向量或义原向量表示的词向量代入词向量学习模型,进一步实现单词的语义信息表达的充分性。
图2为本发明实施例词向量学习模型的训练服务器结构示意图,如图2所示,本发明实施例提供了一种词向量学习模型的训练服务器,包括获取模块1、表示模块2和代入模块3,其中:
获取模块1用于获取训练样本文本中单词对应的词义向量和义原向量,表示模块2用于根据所述词义向量或所述义原向量表示所述训练样本文本中的词向量,代入模块3用于将由所述词义向量或所述义原向量表示的词向量代入已有的词向量学习模型,并进行模型训练。
具体的,获取模块1用于获取训练样本文本中单词对应的词义向量和义原向量,获取模块1将词义向量和义原向量发送给表示模块2,表示模块2用于根据所述词义向量或所述义原向量表示所述训练样本文本中的词向量,表示模块2将根据词义向量或义原向量表示的词向量代入模块3,代入模块3用于将由所述词义向量或所述义原向量表示的词向量代入已有的词向量学习模型,并进行模型训练。
本发明实施例提供的词向量学习模型的训练服务器,通过义原向量或词义向量表示词向量,并训练由词义向量或义原向量表示的词向量对应的词向量学习模型,使其能够充分地表达单词的语义信息。
在上述实施例的基础上,所述表示模块2具体用于:
在所述训练样本文本中选择一个句子中的一个单词作为目标单词wi;用所述目标单词wi对应的义原向量总和的平均值表示所述目标单词wi的词向量。
具体的,所述表示模块2具体用于:
在所述训练样本文本中选择一个句子中的一个单词作为目标单词wi;用所述目标单词wi对应的义原向量总和的平均值表示所述目标单词wi的词向量。
本发明实施例提供的词向量学习模型的训练服务器,通过用目标单词对应的义原向量总和的平均值表示目标单词的词向量,并训练义原向量总和的平均值表示目标单词的词向量对应的词向量学习模型,使其能够充分地表达目标单词的语义信息。
本发明实施例提供的词向量学习模型的服务器具体可以用于执行上述各方法实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
图3为本发明实施例提供的服务器实体结构示意图,如图3所示,所述服务器包括:处理器(processor)301、存储器(memory)302和总线303;
其中,所述处理器301、存储器302通过总线303完成相互间的通信;
所述处理器301用于调用所述存储器302中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:获取训练样本文本中单词对应的词义向量和义原向量;根据所述词义向量或所述义原向量表示所述训练样本文本中的词向量;将由所述词义向量或所述义原向量表示的词向量代入已有的词向量学习模型,并进行模型训练。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:获取训练样本文本中单词对应的词义向量和义原向量;根据所述词义向量或所述义原向量表示所述训练样本文本中的词向量;将由所述词义向量或所述义原向量表示的词向量代入已有的词向量学习模型,并进行模型训练。
本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:获取训练样本文本中单词对应的词义向量和义原向量;根据所述词义向量或所述义原向量表示所述训练样本文本中的词向量;将由所述词义向量或所述义原向量表示的词向量代入已有的词向量学习模型,并进行模型训练。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的服务器等实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上各实施例仅用以说明本发明的实施例的技术方案,而非对其限制;尽管参照前述各实施例对本发明的实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明的实施例各实施例技术方案的范围。

Claims (10)

1.一种词向量学习模型的训练方法,其特征在于,包括:
获取训练样本文本中单词对应的词义向量和义原向量;
根据所述词义向量或所述义原向量表示所述训练样本文本中的词向量;
将由所述词义向量或所述义原向量表示的词向量代入已有的词向量学习模型,并进行模型训练。
2.根据权利要求1所述的方法,其特征在于,所述根据所述词义向量或所述义原向量表示所述训练样本文本中的词向量,包括:
在所述训练样本文本中选择一个句子中的一个单词作为目标单词wi
用所述目标单词wi对应的义原向量总和的平均值表示所述目标单词wi的词向量。
3.根据权利要求1所述的方法,其特征在于,所述根据所述词义向量或所述义原向量表示所述训练样本文本中的词向量,包括:
在所述训练样本文本中选择一个句子中的一个单词作为目标单词wi
将所述目标单词wi的前K个与后K个单词组成所述目标单词wi的上下文单词,前K个与后K个单词组成的上下文单词的集合记为C(wi);
用所述目标单词wi对应的词义向量的加权平均值表示所述目标单词wi的词向量;
或,
用与所述目标单词wi对应的权重最大的词义向量表示所述目标单词wi的词向量。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
在所述上下文单词的集合C(wi)中选择一个上下文单词wc,用与所述上下文单词wc对应的词义向量的加权平均值表示所述上下文单词wc的词向量。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
将所述目标单词wi的前K′个与后K′个单词组成所述目标单词wi的上下文单词,前K′个与后K′个单词组成的上下文单词的集合记为C′(wi),其中K′<K;
用所述目标单词wi对应的词义向量的加权平均值表示所述目标单词wi的词向量。
6.根据权利要求1至5任一所述的方法,其特征在于,所述将由所述词义向量或所述义原向量表示的词向量代入已有的词向量学习模型,包括:
将由所述义原向量或词义向量表示的所述目标单词wi代入公式:
<mrow> <munder> <mo>&amp;Pi;</mo> <mrow> <msub> <mi>w</mi> <mi>c</mi> </msub> <mo>&amp;Element;</mo> <mi>C</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </munder> <mfrac> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>w</mi> <mi>c</mi> <mi>T</mi> </msubsup> <mo>&amp;CenterDot;</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mo>&amp;Sigma;</mo> <mrow> <msubsup> <mi>w</mi> <mi>i</mi> <mo>&amp;prime;</mo> </msubsup> <mo>&amp;Element;</mo> <mi>W</mi> </mrow> </msub> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>w</mi> <mi>c</mi> <mi>T</mi> </msubsup> <mo>&amp;CenterDot;</mo> <msubsup> <mi>w</mi> <mi>i</mi> <mo>&amp;prime;</mo> </msubsup> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
中的wi
或,
将由所述词义向量表示的所述上下文单词wc代入上述公式中的wc
或,
将由所述词义向量的加权平均值表示的目标单词wi代入上述公式中的wi;所述词义向量的加权平均值由公式 或由公式进行计算;
其中,wc是目标单词wi的上下文单词、C(wi)是前K个与后K个单词组成的目标单词wi的上下文单词的集合、C‘(wi)是前K′个与后K′个单词组成的目标单词wi的上下文单词的集合、K′<K、W是训练样本文本中单词对应的词义向量和义原向量所在的原始词集,所述原始词集从知网中获取、wi是目标单词、w′i是包括所述目标单词wi在内的所有目标单词集。
7.一种词向量学习模型的训练服务器,其特征在于,包括:
获取模块,用于获取训练样本文本中单词对应的词义向量和义原向量;
表示模块,用于根据所述词义向量或所述义原向量表示所述训练样本文本中的词向量;
代入模块,用于将由所述词义向量或所述义原向量表示的词向量代入已有的词向量学习模型,并进行模型训练。
8.根据权利要求7所述的服务器,其特征在于,所述表示模块具体用于:
在所述训练样本文本中选择一个句子中的一个单词作为目标单词wi
用所述目标单词wi对应的义原向量总和的平均值表示所述目标单词wi的词向量。
9.一种词向量学习模型的训练服务器,其特征在于,包括:处理器、存储器和总线,其中,
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至6任一所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至6任一所述的方法。
CN201710322632.3A 2017-05-09 2017-05-09 一种词向量学习模型的训练方法及服务器 Pending CN107239443A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710322632.3A CN107239443A (zh) 2017-05-09 2017-05-09 一种词向量学习模型的训练方法及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710322632.3A CN107239443A (zh) 2017-05-09 2017-05-09 一种词向量学习模型的训练方法及服务器

Publications (1)

Publication Number Publication Date
CN107239443A true CN107239443A (zh) 2017-10-10

Family

ID=59984242

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710322632.3A Pending CN107239443A (zh) 2017-05-09 2017-05-09 一种词向量学习模型的训练方法及服务器

Country Status (1)

Country Link
CN (1) CN107239443A (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107957989A (zh) * 2017-10-23 2018-04-24 阿里巴巴集团控股有限公司 基于集群的词向量处理方法、装置以及设备
CN108647785A (zh) * 2018-05-17 2018-10-12 普强信息技术(北京)有限公司 一种神经网络自动建模方法、装置及存储介质
CN109190123A (zh) * 2018-09-14 2019-01-11 北京字节跳动网络技术有限公司 用于输出信息的方法和装置
CN109241535A (zh) * 2018-09-17 2019-01-18 北京神州泰岳软件股份有限公司 一种多语义监督的词向量训练方法及装置
CN109271633A (zh) * 2018-09-17 2019-01-25 北京神州泰岳软件股份有限公司 一种单语义监督的词向量训练方法及装置
CN109299459A (zh) * 2018-09-17 2019-02-01 北京神州泰岳软件股份有限公司 一种单语义监督的词向量训练方法及装置
CN109446518A (zh) * 2018-10-09 2019-03-08 清华大学 语言模型的解码方法及解码器
CN109597988A (zh) * 2018-10-31 2019-04-09 清华大学 跨语言的词汇义原预测方法、装置与电子设备
CN109635294A (zh) * 2018-06-01 2019-04-16 安徽省泰岳祥升软件有限公司 基于单语义的未登录词处理方法、智能问答方法及装置
CN109710921A (zh) * 2018-12-06 2019-05-03 深圳市中农易讯信息技术有限公司 词语相似度的计算方法、装置、计算机设备及存储介质
CN109726386A (zh) * 2017-10-30 2019-05-07 中国移动通信有限公司研究院 一种词向量模型生成方法、装置和计算机可读存储介质
CN109740163A (zh) * 2019-01-09 2019-05-10 安徽省泰岳祥升软件有限公司 应用于深度学习模型的语义表示资源生成方法及装置
CN109783727A (zh) * 2018-12-24 2019-05-21 东软集团股份有限公司 检索推荐方法、装置、计算机可读存储介质及电子设备
CN109829149A (zh) * 2017-11-23 2019-05-31 中国移动通信有限公司研究院 一种词向量模型的生成方法及装置、设备、存储介质
CN110348001A (zh) * 2018-04-04 2019-10-18 腾讯科技(深圳)有限公司 一种词向量训练方法和服务器
CN111124141A (zh) * 2018-10-12 2020-05-08 北京搜狗科技发展有限公司 一种用于确定候选项的神经网络模型训练方法和装置
US10846483B2 (en) 2017-11-14 2020-11-24 Advanced New Technologies Co., Ltd. Method, device, and apparatus for word vector processing based on clusters
CN112579794A (zh) * 2020-12-25 2021-03-30 清华大学 一种为中英文单词对预测义原树的方法及系统
US11562145B2 (en) * 2018-02-01 2023-01-24 Tencent Technology (Shenzhen) Company Limited Text classification method, computer device, and storage medium

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5243520A (en) * 1990-08-21 1993-09-07 General Electric Company Sense discrimination system and method
CN105786782A (zh) * 2016-03-25 2016-07-20 北京搜狗科技发展有限公司 一种词向量的训练方法和装置
CN105930318A (zh) * 2016-04-11 2016-09-07 深圳大学 一种词向量训练方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5243520A (en) * 1990-08-21 1993-09-07 General Electric Company Sense discrimination system and method
CN105786782A (zh) * 2016-03-25 2016-07-20 北京搜狗科技发展有限公司 一种词向量的训练方法和装置
CN105930318A (zh) * 2016-04-11 2016-09-07 深圳大学 一种词向量训练方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YAN WANG ET AL.: "Incorporating Linguistic Knowledge for Learning Distributed Word Representations", 《PLOS ONE》 *
唐共波等: "基于知网义原词向量表示的无监督词义消歧方法", 《中文信息学报》 *
孙茂松等: "借重于人工知识库的词和义项的向量表示以Hownet为例", 《中文信息学报》 *

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019080615A1 (zh) * 2017-10-23 2019-05-02 阿里巴巴集团控股有限公司 基于集群的词向量处理方法、装置以及设备
CN107957989A (zh) * 2017-10-23 2018-04-24 阿里巴巴集团控股有限公司 基于集群的词向量处理方法、装置以及设备
US10769383B2 (en) 2017-10-23 2020-09-08 Alibaba Group Holding Limited Cluster-based word vector processing method, device, and apparatus
CN107957989B (zh) * 2017-10-23 2020-11-17 创新先进技术有限公司 基于集群的词向量处理方法、装置以及设备
CN107957989B9 (zh) * 2017-10-23 2021-01-12 创新先进技术有限公司 基于集群的词向量处理方法、装置以及设备
TWI721310B (zh) * 2017-10-23 2021-03-11 開曼群島商創新先進技術有限公司 基於集群的詞向量處理方法、裝置以及設備
CN109726386A (zh) * 2017-10-30 2019-05-07 中国移动通信有限公司研究院 一种词向量模型生成方法、装置和计算机可读存储介质
CN109726386B (zh) * 2017-10-30 2023-05-09 中国移动通信有限公司研究院 一种词向量模型生成方法、装置和计算机可读存储介质
US10846483B2 (en) 2017-11-14 2020-11-24 Advanced New Technologies Co., Ltd. Method, device, and apparatus for word vector processing based on clusters
CN109829149A (zh) * 2017-11-23 2019-05-31 中国移动通信有限公司研究院 一种词向量模型的生成方法及装置、设备、存储介质
US11562145B2 (en) * 2018-02-01 2023-01-24 Tencent Technology (Shenzhen) Company Limited Text classification method, computer device, and storage medium
CN110348001B (zh) * 2018-04-04 2022-11-25 腾讯科技(深圳)有限公司 一种词向量训练方法和服务器
CN110348001A (zh) * 2018-04-04 2019-10-18 腾讯科技(深圳)有限公司 一种词向量训练方法和服务器
CN108647785A (zh) * 2018-05-17 2018-10-12 普强信息技术(北京)有限公司 一种神经网络自动建模方法、装置及存储介质
CN109635294A (zh) * 2018-06-01 2019-04-16 安徽省泰岳祥升软件有限公司 基于单语义的未登录词处理方法、智能问答方法及装置
CN109190123B (zh) * 2018-09-14 2020-03-27 北京字节跳动网络技术有限公司 用于输出信息的方法和装置
CN109190123A (zh) * 2018-09-14 2019-01-11 北京字节跳动网络技术有限公司 用于输出信息的方法和装置
CN109299459A (zh) * 2018-09-17 2019-02-01 北京神州泰岳软件股份有限公司 一种单语义监督的词向量训练方法及装置
CN109299459B (zh) * 2018-09-17 2023-08-22 北京神州泰岳软件股份有限公司 一种单语义监督的词向量训练方法及装置
CN109271633B (zh) * 2018-09-17 2023-08-18 鼎富智能科技有限公司 一种单语义监督的词向量训练方法及装置
CN109241535A (zh) * 2018-09-17 2019-01-18 北京神州泰岳软件股份有限公司 一种多语义监督的词向量训练方法及装置
CN109271633A (zh) * 2018-09-17 2019-01-25 北京神州泰岳软件股份有限公司 一种单语义监督的词向量训练方法及装置
CN109446518B (zh) * 2018-10-09 2020-06-02 清华大学 语言模型的解码方法及解码器
CN109446518A (zh) * 2018-10-09 2019-03-08 清华大学 语言模型的解码方法及解码器
CN111124141A (zh) * 2018-10-12 2020-05-08 北京搜狗科技发展有限公司 一种用于确定候选项的神经网络模型训练方法和装置
CN111124141B (zh) * 2018-10-12 2024-07-23 北京搜狗科技发展有限公司 一种用于确定候选项的神经网络模型训练方法和装置
CN109597988A (zh) * 2018-10-31 2019-04-09 清华大学 跨语言的词汇义原预测方法、装置与电子设备
CN109597988B (zh) * 2018-10-31 2020-04-28 清华大学 跨语言的词汇义原预测方法、装置与电子设备
CN109710921A (zh) * 2018-12-06 2019-05-03 深圳市中农易讯信息技术有限公司 词语相似度的计算方法、装置、计算机设备及存储介质
CN109783727A (zh) * 2018-12-24 2019-05-21 东软集团股份有限公司 检索推荐方法、装置、计算机可读存储介质及电子设备
CN109740163A (zh) * 2019-01-09 2019-05-10 安徽省泰岳祥升软件有限公司 应用于深度学习模型的语义表示资源生成方法及装置
CN112579794A (zh) * 2020-12-25 2021-03-30 清华大学 一种为中英文单词对预测义原树的方法及系统

Similar Documents

Publication Publication Date Title
CN107239443A (zh) 一种词向量学习模型的训练方法及服务器
CN110489755A (zh) 文本生成方法和装置
CN109871532A (zh) 文本主题提取方法、装置及存储介质
CN108665175A (zh) 一种保险业务风险预测的处理方法、装置及处理设备
CN107239802A (zh) 一种图像分类方法及装置
CN110287480A (zh) 一种命名实体识别方法、装置、存储介质及终端设备
CN107967255A (zh) 一种判定文本相似性的方法和系统
CN104598611B (zh) 对搜索条目进行排序的方法及系统
CN108090169A (zh) 问句扩展方法及装置、存储介质、终端
CN109977234A (zh) 一种基于主题关键词过滤的知识图谱补全方法
CN108763535A (zh) 信息获取方法及装置
CN109299258A (zh) 一种舆情事件检测方法、装置及设备
CN106910497A (zh) 一种中文词语发音预测方法及装置
CN109800307A (zh) 产品评价的分析方法、装置、计算机设备及存储介质
CN109471915A (zh) 一种文本评价方法、装置、设备以及可读存储介质
CN106527757A (zh) 一种输入纠错方法及装置
CN106897559A (zh) 一种面向多数据源的症状体征类实体识别方法及装置
CN107977364A (zh) 维语子词切分方法及装置
CN108090520A (zh) 意图识别模型的训练方法、系统、装置及可读存储介质
CN110019736A (zh) 基于语言模型的问答匹配方法、系统、设备及存储介质
CN106897254A (zh) 一种网络表示学习方法
CN110263328A (zh) 一种学科能力类型标注方法、装置、存储介质及终端设备
CN107544960A (zh) 一种基于变量绑定和关系激活的推理方法
CN107437111A (zh) 基于神经网络的数据处理方法、介质、装置和计算设备
CN109902157A (zh) 一种训练样本有效性检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171010