CN110795936B - 词向量的获取方法和装置、存储介质及电子装置 - Google Patents

词向量的获取方法和装置、存储介质及电子装置 Download PDF

Info

Publication number
CN110795936B
CN110795936B CN201910750220.9A CN201910750220A CN110795936B CN 110795936 B CN110795936 B CN 110795936B CN 201910750220 A CN201910750220 A CN 201910750220A CN 110795936 B CN110795936 B CN 110795936B
Authority
CN
China
Prior art keywords
target
word
anchor
words
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910750220.9A
Other languages
English (en)
Other versions
CN110795936A (zh
Inventor
黄引刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910750220.9A priority Critical patent/CN110795936B/zh
Publication of CN110795936A publication Critical patent/CN110795936A/zh
Application granted granted Critical
Publication of CN110795936B publication Critical patent/CN110795936B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种词向量的获取方法和装置、存储介质及电子装置。其中,该方法包括:获取待识别的第一语料;将该第一语料合并到第二语料中,得到目标语料,对该目标语料进行切词,得到多个目标词语,获取该多个目标词语中每个目标词语对应的目标词向量,及该多个目标词语中两两目标词语之间的权重,根据该权重及该目标词向量,确定与该目标语料对应的损失值;在该损失值小于第二阈值的情况下,确定该候选非锚点词向量为与该非锚点词匹配的目标非锚点词向量。采用使用锚点词的稳定词向量计算非锚点词的词向量的方式,使得对于新增语料的词语的词向量学习结果较为稳定,进而解决了相关技术中由于数据更新导致的计算的词向量不稳定的技术问题。

Description

词向量的获取方法和装置、存储介质及电子装置
技术领域
本发明涉及互联网领域,具体而言,涉及一种词向量的获取方法和装置、存储介质及电子装置。
背景技术
相关技术中的互联网经常有新词出现,所以词向量需要经常的重新训练更新,但是已有的词向量的学习方法,每运行一次,对于相同的词语学出的向量与上一次有很大不同,非常不稳定。
例如在相关技术中的金融应用场景,要求模型尽可能的稳定,词向量,作为金融模型的输入特征,如果特征不稳定,必然导致模型不稳定。以及对于描述用户画像的场景时,如年龄、性别、学历等,如果上个月和这个月预测结果不一样,是不合理的,需要尽量避免,而词向量作为一个重要的输入特征,词向量的稳定性直接影响模型的稳定性。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种词向量的获取方法和装置、存储介质及电子装置,以至少解决相关技术中由于数据更新导致的计算的词向量不稳定的技术问题。
根据本发明实施例的一个方面,提供了一种词向量的获取方法,包括:获取待识别的第一语料;将所述第一语料合并到第二语料中,得到目标语料,其中,所述第二语料中包括锚点词集合,所述锚点词集合中锚点词的词频大于第一阈值,每个所述锚点词将分别生成对应的锚点词向量;对所述目标语料进行切词,得到多个目标词语,其中,所述多个目标词语包括:所述锚点词及非锚点词;获取所述多个目标词语中每个目标词语对应的目标词向量,及所述多个目标词语中两两目标词语之间的权重,其中,所述目标词向量包括:所述锚点词向量,及为所述非锚点词随机生成的候选非锚点词向量;根据所述权重及所述目标词向量,确定与所述目标语料对应的损失值;在所述损失值小于第二阈值的情况下,确定所述候选非锚点词向量为与所述非锚点词匹配的目标非锚点词向量。
根据本申请的另一个实施例,还提供了一种词向量的获取装置,包括:第一获取模块,用于获取待识别的第一语料;第二获取模块,用于将所述第一语料合并到第二语料中,得到目标语料,其中,所述第二语料中包括锚点词集合,所述锚点词集合中锚点词的词频大于第一阈值,每个所述锚点词将分别生成对应的锚点词向量;第三获取模块,用于对所述目标语料进行切词,得到多个目标词语,其中,所述多个目标词语包括:所述锚点词及非锚点词;第四获取模块,用于获取所述多个目标词语中每个目标词语对应的目标词向量,及所述多个目标词语中两两目标词语之间的权重,其中,所述目标词向量包括:所述锚点词向量,及为所述非锚点词随机生成的候选非锚点词向量;第一确定模块,用于根据所述权重及所述目标词向量,确定与所述目标语料对应的损失值;第二确定模块,用于在所述损失值小于第二阈值的情况下,确定所述候选非锚点词向量为与所述非锚点词匹配的目标非锚点词向量。
可选地,所述第一确定模块在根据所述权重及所述目标词向量,确定与所述目标语料对应的损失值之后,还用于在所述损失值大于所述第二阈值的情况下,更新为所述非锚点词随机生成的所述候选非锚点词向量,得到更新后的所述候选非锚点词向量;利用更新后的所述候选非锚点词向量和所述锚点词向量,及所述权重,更新所述损失值。
可选的,所述第四获取模块还用于获取每个所述目标词语的出现次数及所述多个目标词语中两两目标词语为相邻词语的相邻次数;根据所述出现次数及所述相邻次数确定所述权重。
可选地,所述第四获取模块还用于通过以下公式确定所述目标语料中目标词语wi和目标词语wj之间的所述权重:
其中:所述/>为所述目标词语wi和所述目标词语wj作为前后连续相邻词语在一起出现的次数;所述/>所述/>其中,/>为所述目标词语wi出现的次数,所述/>为所述wj出现的次数,所述N是所述目标语料中所述多个目标词语出现的总次数;
其中,所述g(cos距离(vi,vj))是所述目标词语wi对应的目标词向量vi和所述目标词语wj对应的目标词向量vj之间的余弦距离,其中,在所述vi,vj任一个不存在时,所述g(cos距离(vi,vj))=1。
可选地,所述第一确定模块还用于将每两个相邻词语的所述权重,和该两个相邻词语的所述目标词向量的余弦距离作为目标损失函数的输入,得到所述目标损失函数输出的所述损失值,其中,所述目标损失函数与所述权重呈负相关,所述目标损失函数与所述余弦距离呈负相关。
可选地,所述第一确定模块还用于通过以下公式根据所述权重及所述目标词向量,确定与所述目标语料对应的损失值:
其中,所述now_N用于表示所述目标语料中目标词语的总个数;所述neighbor(i)用于表示与目标词语wi前后相邻连续在一起出现的相邻词语;所述wij为所述目标词语wi和目标词语wj之间的权重;所述xk_vi用于表示所述目标词语wi的目标词向量;所述xk_vj用于表示所述目标词语wj的目标词向量;所述用于表示所述xk_vi和所述Xk_Vj之间的余弦距离。
可选地,每个所述锚点词将分别生成对应的锚点词向量,包括:使用BERT算法生成所述锚点词对应的锚点词向量;获取所述多个目标词语中每个目标词语对应的目标词向量,包括:在所述目标词语为非锚点词时,为所述目标词语随机生成一个多维向量,其中,所述多维向量与所述锚点词向量的维度个数相同,每个维度的取值为-1到1之间的随机值。
可选地,包括:将所述目标语料中的不属于所述锚点词集合中的词语记为第三词语;在所述第三词语的词频高于所述第一阈值时,将所述第三词语加入到所述锚点词集合中。
根据本发明实施例的又一方面,还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述词向量的获取方法。
根据本发明实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的词向量的获取方法。
在本发明实施例中,获取待识别的第一语料;将所述第一语料合并到第二语料中,得到目标语料,其中,所述第二语料中包括锚点词集合,所述锚点词集合中锚点词的词频大于第一阈值,每个所述锚点词将分别生成对应的锚点词向量;对所述目标语料进行切词,得到多个目标词语,其中,所述多个目标词语包括:所述锚点词及非锚点词;获取所述多个目标词语中每个目标词语对应的目标词向量,及所述多个目标词语中两两目标词语之间的权重,其中,所述目标词向量包括:所述锚点词向量,及为所述非锚点词随机生成的候选非锚点词向量;根据所述权重及所述目标词向量,确定与所述目标语料对应的损失值;在所述损失值小于第二阈值的情况下,确定所述候选非锚点词向量为与所述非锚点词匹配的目标非锚点词向量。采用使用锚点词的稳定词向量计算非锚点词的词向量的方式,使得对于新增语料的词语的词向量学习结果较为稳定,进而解决了相关技术中由于数据更新导致的计算的词向量不稳定的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本申请实施例的词向量的获取方法的环境示意图;
图2是根据本申请实施例的词向量的获取方法的应用场景示意图;
图3是根据本申请实施例的词向量的获取方法的流程图;
图4是根据本申请实施例的学习词向量的方法流程图;
图5是根据本申请实施例的词向量的获取装置结构图;
图6是根据本申请实施例的词向量的获取方法的电子装置结构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例的一个方面,提供了一种词向量的获取方法,可选地,作为一种可选的实施方式,上述词向量的获取方法可以但不限于应用于如图1所示的环境中。
可选地,在本实施例中,上述词向量的获取方法可以但不限于应用于服务器104中,用于协助应用客户端对所发布的词向量的获取方法执行查找判定处理,服务器可以包括数据库和处理引擎。其中,上述应用客户端可以但不限于运行在用户设备102中,该用户设备102可以但不限于为手机、平板电脑、笔记本电脑、PC机等支持运行应用客户端的终端设备,用户设备可以包括显示器,处理器,存储器。上述服务器104和用户设备102可以但不限于通过网络实现数据交互,上述网络可以包括但不限于无线网络或有线网络。其中,该无线网络包括:蓝牙、WIFI及其他实现无线通信的网络。上述有线网络可以包括但不限于:广域网、城域网、局域网。上述仅是一种示例,本实施例中对此不作任何限定。
本申请实施例中的词向量的获取方法的应用场景如图2所示,包括以下步骤:
步骤S202,接收到请求计算词的词向量;
步骤S204,使用本申请实施例中的记载的方案计算出稳定的词向量;
步骤S206,输出该词的词向量。
可选地,作为一种可选的实施方式,如图3所示,上述词向量的获取方法包括以下步骤:
步骤S302,获取待识别的第一语料;
该第一语料可以是互联网上新发布的语料。例如新闻文本,维基百科,社交资讯等。
步骤S304,将该第一语料合并到第二语料中,得到目标语料,其中,该第二语料中包括锚点词集合,该锚点词集合中锚点词的词频大于第一阈值,每个该锚点词将分别生成对应的锚点词向量;
词语的词频大于第一阈值,代表着该词语的词含义稳定性较大,当词频达到一定的程度时,默认该词语的含义得到了充分的表现。
可以使用相关技术中的BERT(Bidirectional Encoder Representation fromTransformers)模型来计算出锚点词的词向量。
步骤S306,对该目标语料进行切词,得到多个目标词语,其中,该多个目标词语包括:该锚点词及非锚点词;
此处的非锚点词主要是由于新增的第一语料产生的,本方案的技术目的是计算出非锚点词的词向量。
步骤S308,获取该多个目标词语中每个目标词语对应的目标词向量,及该多个目标词语中两两目标词语之间的权重,其中,该目标词向量包括:该锚点词向量,及为该非锚点词随机生成的候选非锚点词向量;
步骤S3010,根据该权重及该目标词向量,确定与该目标语料对应的损失值;可以通过损失函数的来计算出损失值。
步骤S3012,在该损失值小于第二阈值的情况下,确定该候选非锚点词向量为与该非锚点词匹配的目标非锚点词向量。
采用使用锚点词的稳定词向量计算非锚点词的词向量的方式,使得对于新增语料的词语的词向量学习结果较为稳定,进而解决了相关技术中由于数据更新导致的计算的词向量不稳定的技术问题。
可选地,在根据该权重及该目标词向量,确定与该目标语料对应的损失值之后,在该损失值大于该第二阈值的情况下,更新为该非锚点词随机生成的该候选非锚点词向量,得到更新后的该候选非锚点词向量;利用更新后的该候选非锚点词向量和该锚点词向量,及该权重,更新该损失值。采用该方案,不断更新非锚点词的候选非锚点词向量,直到获取到损失值的最小值或者满足条件的损失值,则输出当前的候选非锚点词向量作为非锚点词的输出向量。
可选地,获取该多个目标词语中两两目标词语之间的权重包括:获取每个该目标词语的出现次数及该多个目标词语中两两目标词语为相邻词语的相邻次数;根据该出现次数及该相邻次数确定该权重。采用该方案,在计算词语之间的权重时,充分考虑词语之间的相关性,例如是否为邻居词语等,从而得到更为准确的计算结果。
可选地,根据该出现次数及该相邻次数确定该权重,包括:通过以下公式确定该目标语料中目标词语wi和目标词语wj之间的该权重:
其中:该/>为该目标词语wi和该目标词语wj作为前后连续相邻词语在一起出现的次数;该/>该/>其中,/>为该目标词语wi出现的次数,该/>为该wj出现的次数,该N是该目标语料中该多个目标词语出现的总次数;
其中,该g(cos距离(vi,vj))是该目标词语wi对应的目标词向量vi和该目标词语wj对应的目标词向量vj之间的余弦距离,其中,在该vi,vj任一个不存在时,该g(cos距离(vi,vj))=1。
可选地,根据该权重及该目标词向量,确定与该目标语料对应的损失值,包括:将每两个相邻词语的该权重,和该两个相邻词语的该目标词向量的余弦距离作为目标损失函数的输入,得到该目标损失函数输出的该损失值,其中,该目标损失函数与该权重呈负相关,该目标损失函数与该余弦距离呈负相关。采用该方案,通过计算损失函数的方式获取到符合条件的损失值。
可选地,根据该权重及该目标词向量,确定与该目标语料对应的损失值,包括:通过以下公式根据该权重及该目标词向量,确定与该目标语料对应的损失值:
其中,该now_N用于表示该目标语料中目标词语的总个数;该neighbor(i)用于表示与目标词语wi前后相邻连续在一起出现的相邻词语;该wij为该目标词语wi和目标词语wj之间的权重;该xk_vi用于表示该目标词语wi的目标词向量;该xk_vj用于表示该目标词语wj的目标词向量;该用于表示该xk_vi和该xk_vj之间的余弦距离。
可选地,包括:每个该锚点词将分别生成对应的锚点词向量,包括:使用BERT算法生成该锚点词对应的锚点词向量;获取该多个目标词语中每个目标词语对应的目标词向量,包括:在该目标词语为非锚点词时,为该目标词语随机生成一个多维向量,其中,该多维向量与该锚点词向量的维度个数相同,每个维度的取值为-1到1之间的随机值。采用该方案,使用BERT模型计算出锚点词向量,并一直作为对应锚点词的词向量。通过随机生成的方式生成非锚点词的词向量。
可选地,包括:将该目标语料中的不属于该锚点词集合中的词语记为第三词语;在该第三词语的词频高于该第一阈值时,将该第三词语加入到该锚点词集合中。采用该方案,不断更新锚点词集合,使得可以依据更多的稳定词向量去计算新增语料中的非锚点词的词向量。
下面结合本申请另一个实施例进行说明,本申请另一个实施例的学习词向量的方法如图4所示,包括以下步骤:
步骤S401,从互联网或其他设备中,获取的大量文本,作为语料Q1。文本来源如:新闻文本,维基百科,社交资讯等;
步骤S402,对语料文本切词,统计词频,按词频大小从大到小排序;
形式示意如下:<用户,10000>
<客户,9998>
<w,cnt>。
步骤S403,选取词含义稳定的词作为锚点词,锚点词集合记为W0
计算其中cnt(wj)表示词wj的词频;
词含义稳定的定义:大于阈值,即词频pj>=T(其中T是一个自定义的常数,0<=T<=1);
词含义稳定的含义:当词频达到一定的程度,默认该词的含义得到了充分的表现。
步骤S404,基于BERT模型,训练出每一个词的向量(K维向量)
BERT模型:google 2019推出的一个算法,可准确计算出每一个词wi的向量vi
步骤S405,对于锚点词集合W0中的每一个词的wi,赋值给变量x0_vi
步骤S406,假定现在是第k次从互联网或其他设备中,获取一批最新的文本Mk,和已有的语料合并,作为新语料Q2。
步骤S407,对新语料切词,统计词频,按词频大小从大到小排序。
步骤S408,对于锚点词集合中Wk-1中的每一个词wi,赋值xk-1_vi给xk-vi。其中,Wk-1是第k-1次获取到新语料后的锚点词集合。
对于非锚点词xk_vj的向量,随机初始化一个K维向量(K是词向量的维度),向量每一个维度,从-1到1之间随机取值。
在本方案中,上一轮的一个词是锚点词,下一轮训练时依然是锚点词
步骤S409,对语料Q2切词,建立词图,词wi和词wj之间的权重wi,j
计算公式如下:
其中:
为语料中,词wi和词wj连续在一起出现的次数;
其中,为词wi出现的次数;
为词wj出现的次数;
N是当前语料中词语出现的总的次数;
cos距离(xk_vi,xk_vj)指的是词向量之间的的cos余弦距离;其中,函数g(cos距离(xk_vi,xk_vj)):当向量xk_vi,xk_vj都存在的时候,那么g(cos距离(xk_vi,xk_vj))=cos距离(xk_vi,xk_vj);否则值为1。
步骤S4010,从词图中,学习非锚点词集合中的词的向量(如新词的向量)
定义损失函数
其中:
now_N指的是当前语料中词语的总个数;
neighbor(i)指的是词wi的所有邻居词;
wij是两个词语之间的词图权重;
xk_vi:表示第k次语料后,词wi的向量;
xk_vj:表示第k次语料后,词wj的向量;
即xk_vi和xk_vj之间的余弦距离;
其中如果xk_vi属于锚点词的话,那么锚点词的向量是已知的;
如果xk_vi不属于锚点词的话,那么这词的向量是未知的,需要通过训练学习到。
训练学习过程如下:
对于非锚点词xk_vi的向量,随机初始化一个K维向量(K是词向量的维度),向量每一个维度,从-1到1之间随机取值。
使用随机梯度算法,计算出损失值loss值最小或者满足一定条件时,非锚点词xk_vi的对应的向量,作为非锚点词的输出向量。
步骤S4011,更新锚点词集合Wk。对于锚点词集合中Wk-1中的每一个词wi,加入Wk。对于非锚点词集合中Wk-1中的每一个词wj,如果大于阈值,那么该词也加入Wk
步骤S4012,对于锚点词集合Wk中的每一个词vi,保存xk_vi作为该词的稳定向量。
步骤S4013,如获取到新的训练文本语料,重复上述步骤S407~步骤S4013,更新训练获取新词的向量,同时保证锚点词的向量稳定不变。
相关技术中的词向量的学习方法,每次有新的语料,训练学习完,词向量和以前训练的词向量的值完全不一样。采用本申请的技术方案,相比相关技术中的计算词向量的方法,由于锚点词的词向量不变,保证了最后学习到新词或非高频词也是相对稳定的。从而可以快速学习到新语料中新词的语义,又能保证词向量的稳定性,适用于要求模型稳定的场景,如金融应用场景。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
根据本发明实施例的另一个方面,还提供了一种用于实施上述词向量的获取方法的词向量的获取装置。如图5所示,该装置包括:
第一获取模块502,用于获取待识别的第一语料;
第二获取模块504,用于将该第一语料合并到第二语料中,得到目标语料,其中,该第二语料中包括锚点词集合,该锚点词集合中锚点词的词频大于第一阈值,每个该锚点词将分别生成对应的锚点词向量;
第三获取模块506,用于对该目标语料进行切词,得到多个目标词语,其中,该多个目标词语包括:该锚点词及非锚点词;
第四获取模块508,用于获取该多个目标词语中每个目标词语对应的目标词向量,及该多个目标词语中两两目标词语之间的权重,其中,该目标词向量包括:该锚点词向量,及为该非锚点词随机生成的候选非锚点词向量;
第一确定模块5010,用于根据该权重及该目标词向量,确定与该目标语料对应的损失值;
第二确定模块5012,用于在该损失值小于第二阈值的情况下,确定该候选非锚点词向量为与该非锚点词匹配的目标非锚点词向量。
可选地,该第一确定模块5010在根据该权重及该目标词向量,确定与该目标语料对应的损失值之后,还用于在该损失值大于该第二阈值的情况下,更新为该非锚点词随机生成的该候选非锚点词向量,得到更新后的该候选非锚点词向量;利用更新后的该候选非锚点词向量和该锚点词向量,及该权重,更新该损失值。
可选的,该第四获取模块508还用于获取每个该目标词语的出现次数及该多个目标词语中两两目标词语为相邻词语的相邻次数;根据该出现次数及该相邻次数确定该权重。
可选地,该第四获取模块508还用于通过以下公式确定该目标语料中目标词语wi和目标词语wj之间的该权重:
其中:该/>为该目标词语wi和该目标词语wj作为前后连续相邻词语在一起出现的次数;该/>该/>其中,/>为该目标词语wi出现的次数,该/>为该wj出现的次数,该N是该目标语料中该多个目标词语出现的总次数;
其中,该g(cos距离(vi,vj))是该目标词语wi对应的目标词向量vi和该目标词语wj对应的目标词向量vj之间的余弦距离,其中,在该vi,vj任一个不存在时,该g(cos距离(vi,vj))=1。
可选地,该第一确定模块5010还用于将每两个相邻词语的该权重,和该两个相邻词语的该目标词向量的余弦距离作为目标损失函数的输入,得到该目标损失函数输出的该损失值,其中,该目标损失函数与该权重呈负相关,该目标损失函数与该余弦距离呈负相关。
可选地,该第一确定模块5010还用于通过以下公式根据该权重及该目标词向量,确定与该目标语料对应的损失值:
其中,该now_N用于表示该目标语料中目标词语的总个数;该neighbor(i)用于表示与目标词语wi前后相邻连续在一起出现的相邻词语;该wij为该目标词语wi和目标词语wj之间的权重;该xk_vi用于表示该目标词语wi的目标词向量;该xk_vj用于表示该目标词语wj的目标词向量;该用于表示该xk_vi和该xk_vj之间的余弦距离。
可选地,每个该锚点词将分别生成对应的锚点词向量,包括:使用BERT算法生成该锚点词对应的锚点词向量;获取该多个目标词语中每个目标词语对应的目标词向量,包括:在该目标词语为非锚点词时,为该目标词语随机生成一个多维向量,其中,该多维向量与该锚点词向量的维度个数相同,每个维度的取值为-1到1之间的随机值。
可选地,包括:将该目标语料中的不属于该锚点词集合中的词语记为第三词语;在该第三词语的词频高于该第一阈值时,将该第三词语加入到该锚点词集合中。
根据本发明实施例的又一个方面,还提供了一种用于实施上述词向量的获取方法的电子装置,如图6所示,该电子装置包括存储器602和处理器604,该存储器602中存储有计算机程序,该处理器604被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取待识别的第一语料;
S2,将该第一语料合并到第二语料中,得到目标语料,其中,该第二语料中包括锚点词集合,该锚点词集合中锚点词的词频大于第一阈值,每个该锚点词将分别生成对应的锚点词向量;
S3,对该目标语料进行切词,得到多个目标词语,其中,该多个目标词语包括:该锚点词及非锚点词;
S4,获取该多个目标词语中每个目标词语对应的目标词向量,及该多个目标词语中两两目标词语之间的权重,其中,该目标词向量包括:该锚点词向量,及为该非锚点词随机生成的候选非锚点词向量;
S5,根据该权重及该目标词向量,确定与该目标语料对应的损失值;
S6,在该损失值小于第二阈值的情况下,确定该候选非锚点词向量为与该非锚点词匹配的目标非锚点词向量。
可选地,本领域普通技术人员可以理解,图6所示的结构仅为示意,电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图6其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图6中所示更多或者更少的组件(如网络接口等),或者具有与图6所示不同的配置。
其中,存储器602可用于存储软件程序以及模块,如本发明实施例中的词向量的获取方法和装置对应的程序指令/模块,处理器604通过运行存储在存储器602内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的词向量的获取方法。存储器602可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器602可进一步包括相对于处理器604远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器602具体可以但不限于用于存储锚点词向量等信息。作为一种示例,如图6所示,上述存储器602中可以但不限于包括上述词向量的获取装置中的第一获取模块502、第二获取模块504、第三获取模块506、第四获取模块508,第一确定模块5010,第二确定模拟考5012。此外,还可以包括但不限于上述词向量的获取装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置606用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置606包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置606为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子装置还包括:显示器608,用于显示上述输出的词向量获取结果;和连接总线610,用于连接上述电子装置中的各个模块部件。
根据本发明的实施例的又一方面,还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (9)

1.一种词向量的获取方法,其特征在于,包括:
获取待识别的第一语料;
将所述第一语料合并到第二语料中,得到目标语料,其中,所述第二语料中包括锚点词集合,所述锚点词集合中锚点词的词频大于第一阈值,每个所述锚点词将分别生成对应的锚点词向量;
对所述目标语料进行切词,得到多个目标词语,其中,所述多个目标词语包括:所述锚点词及非锚点词;
获取所述多个目标词语中每个目标词语对应的目标词向量,及每个所述目标词语的出现次数和所述多个目标词语中两两目标词语为相邻词语的相邻次数,根据所述出现次数及所述相邻次数确定所述多个目标词语中两两目标词语之间的权重,其中,所述目标词向量包括:所述锚点词向量,及为所述非锚点词随机生成的候选非锚点词向量;
将每两个相邻词语的所述权重,和该两个相邻词语各自对应的所述目标词向量之间的余弦距离作为目标损失函数的输入,得到所述目标损失函数输出的损失值,其中,所述目标损失函数与所述权重呈负相关,所述目标损失函数与所述余弦距离呈负相关;在所述损失值小于第二阈值的情况下,确定所述候选非锚点词向量为与所述非锚点词匹配的目标非锚点词向量。
2.根据权利要求1所述的方法,其特征在于,在根据所述权重及所述目标词向量,确定与所述目标语料对应的损失值之后,还包括:
在所述损失值大于所述第二阈值的情况下,更新为所述非锚点词随机生成的所述候选非锚点词向量,得到更新后的所述候选非锚点词向量;
利用更新后的所述候选非锚点词向量和所述锚点词向量,及所述权重,更新所述损失值。
3.根据权利要求1所述的方法,其特征在于,根据所述出现次数及所述相邻次数确定所述权重,包括:
通过以下公式确定所述目标语料中目标词语wi和目标词语wj之间的所述权重:
其中:所述/>为所述目标词语wi和所述目标词语wj作为前后连续相邻词语在一起出现的次数;所述/>所述/>其中,为所述目标词语wi出现的次数,所述/>为所述wj出现的次数,所述N是所述目标语料中所述多个目标词语出现的总次数;
其中,所述g(cos距离(vi,vj))是所述目标词语wi对应的目标词向量vi和所述目标词语wj对应的目标词向量vj之间的余弦距离,其中,在所述vi,vj任一个不存在时,所述g(cos距离(vi,vj))=1。
4.根据权利要求1所述的方法,其特征在于,根据所述权重及所述目标词向量,确定与所述目标语料对应的损失值,包括:
通过以下公式根据所述权重及所述目标词向量,确定与所述目标语料对应的损失值:
其中,所述now_N用于表示所述目标语料中目标词语的总个数;所述neighbor(i)用于表示与目标词语wi前后相邻连续在一起出现的相邻词语;所述wij为所述目标词语wi和目标词语wj之间的权重;所述xk_vi用于表示所述目标词语wi的目标词向量;所述xk_vj用于表示所述目标词语wj的目标词向量;所述用于表示所述xk_vi和所述xk_vj之间的余弦距离。
5.根据权利要求1所述的方法,其特征在于,包括:
每个所述锚点词将分别生成对应的锚点词向量,包括:使用BERT算法生成所述锚点词对应的锚点词向量;
获取所述多个目标词语中每个目标词语对应的目标词向量,包括:
在所述目标词语为非锚点词时,为所述目标词语随机生成一个多维向量,其中,所述多维向量与所述锚点词向量的维度个数相同,每个维度的取值为-1到1之间的随机值。
6.根据权利要求1所述的方法,其特征在于,包括:
将所述目标语料中的不属于所述锚点词集合中的词语记为第三词语;
在所述第三词语的词频高于所述第一阈值时,将所述第三词语加入到所述锚点词集合中。
7.一种词向量的获取装置,其特征在于,包括:
第一获取模块,用于获取待识别的第一语料;
第二获取模块,用于将所述第一语料合并到第二语料中,得到目标语料,其中,所述第二语料中包括锚点词集合,所述锚点词集合中锚点词的词频大于第一阈值,每个所述锚点词将分别生成对应的锚点词向量;
第三获取模块,用于对所述目标语料进行切词,得到多个目标词语,其中,所述多个目标词语包括:所述锚点词及非锚点词;
第四获取模块,用于获取所述多个目标词语中每个目标词语对应的目标词向量,及每个所述目标词语的出现次数和所述多个目标词语中两两目标词语为相邻词语的相邻次数,根据所述出现次数及所述相邻次数确定所述多个目标词语中两两目标词语之间的权重,其中,所述目标词向量包括:所述锚点词向量,及为所述非锚点词随机生成的候选非锚点词向量;
第一确定模块,将每两个相邻词语的所述权重,和该两个相邻词语各自对应的所述目标词向量之间的余弦距离作为目标损失函数的输入,得到所述目标损失函数输出的损失值,其中,所述目标损失函数与所述权重呈负相关,所述目标损失函数与所述余弦距离呈负相关;
第二确定模块,用于在所述损失值小于第二阈值的情况下,确定所述候选非锚点词向量为与所述非锚点词匹配的目标非锚点词向量。
8.一种存储介质,所述存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至6任一项中所述的方法。
9.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至6任一项中所述的方法。
CN201910750220.9A 2019-08-14 2019-08-14 词向量的获取方法和装置、存储介质及电子装置 Active CN110795936B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910750220.9A CN110795936B (zh) 2019-08-14 2019-08-14 词向量的获取方法和装置、存储介质及电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910750220.9A CN110795936B (zh) 2019-08-14 2019-08-14 词向量的获取方法和装置、存储介质及电子装置

Publications (2)

Publication Number Publication Date
CN110795936A CN110795936A (zh) 2020-02-14
CN110795936B true CN110795936B (zh) 2023-09-22

Family

ID=69427032

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910750220.9A Active CN110795936B (zh) 2019-08-14 2019-08-14 词向量的获取方法和装置、存储介质及电子装置

Country Status (1)

Country Link
CN (1) CN110795936B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995805A (zh) * 2014-06-05 2014-08-20 神华集团有限责任公司 面向文本大数据的词语处理方法
CN104462378A (zh) * 2014-12-09 2015-03-25 北京国双科技有限公司 用于文本识别的数据处理方法及装置
CN107102981A (zh) * 2016-02-19 2017-08-29 腾讯科技(深圳)有限公司 词向量生成方法和装置
CN108228554A (zh) * 2016-12-09 2018-06-29 富士通株式会社 基于语义表示模型来生成词向量的方法、装置和电子设备
CN108829822A (zh) * 2018-06-12 2018-11-16 腾讯科技(深圳)有限公司 媒体内容的推荐方法和装置、存储介质、电子装置
CN109325231A (zh) * 2018-09-21 2019-02-12 中山大学 一种多任务模型生成词向量的方法
CN109766544A (zh) * 2018-12-24 2019-05-17 中国科学院合肥物质科学研究院 基于lda和词向量的文档关键词抽取方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9792534B2 (en) * 2016-01-13 2017-10-17 Adobe Systems Incorporated Semantic natural language vector space

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995805A (zh) * 2014-06-05 2014-08-20 神华集团有限责任公司 面向文本大数据的词语处理方法
CN104462378A (zh) * 2014-12-09 2015-03-25 北京国双科技有限公司 用于文本识别的数据处理方法及装置
CN107102981A (zh) * 2016-02-19 2017-08-29 腾讯科技(深圳)有限公司 词向量生成方法和装置
CN108228554A (zh) * 2016-12-09 2018-06-29 富士通株式会社 基于语义表示模型来生成词向量的方法、装置和电子设备
CN108829822A (zh) * 2018-06-12 2018-11-16 腾讯科技(深圳)有限公司 媒体内容的推荐方法和装置、存储介质、电子装置
CN109325231A (zh) * 2018-09-21 2019-02-12 中山大学 一种多任务模型生成词向量的方法
CN109766544A (zh) * 2018-12-24 2019-05-17 中国科学院合肥物质科学研究院 基于lda和词向量的文档关键词抽取方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"TYING WORD VECTORS AND WORD CLASSIFIERS : A LOSS FRAMEWORK FOR LANGUAGE MODELING";Hakan Inan等;《arXiv》;第1-13页 *
"基于监督学习的情感词向量生成的研究与应用";张文哲;《中国优秀硕士学位论文全文数据库 信息科技辑》(第10期);全文 *

Also Published As

Publication number Publication date
CN110795936A (zh) 2020-02-14

Similar Documents

Publication Publication Date Title
CN109902708B (zh) 一种推荐模型训练方法及相关装置
CN108804633B (zh) 基于行为语义知识网络的内容推荐方法
CN110929206B (zh) 点击率预估方法、装置、计算机可读存储介质和设备
JP7343568B2 (ja) 機械学習のためのハイパーパラメータの識別および適用
CN106503022B (zh) 推送推荐信息的方法和装置
US11694109B2 (en) Data processing apparatus for accessing shared memory in processing structured data for modifying a parameter vector data structure
JP5789204B2 (ja) マルチリレーショナル環境において項目を推薦するためのシステム及び方法
CN108763398B (zh) 数据库配置参数处理方法、装置、计算机设备和存储介质
Ji et al. Addressing cold-start: Scalable recommendation with tags and keywords
US11030265B2 (en) Cross-platform data matching method and apparatus, computer device and storage medium
CN107590243A (zh) 基于随机游走和多样性图排序的个性化服务推荐方法
US20210312261A1 (en) Neural network search method and related apparatus
JP2007317068A (ja) リコメンド装置およびリコメンドシステム
CN108320026B (zh) 机器学习模型训练方法和装置
KR101356948B1 (ko) Sns에서 사회적 이웃의 관심사와 사회적 활동의 토픽을 통해 사용자 관심사를 추론하는 방법 및 그 시스템
CN111159563B (zh) 用户兴趣点信息的确定方法、装置、设备及存储介质
JP5662299B2 (ja) 情報推薦装置及び方法及び装置及びプログラム
CN111783810A (zh) 用于确定用户的属性信息的方法和装置
CN109992659B (zh) 用于文本排序的方法和装置
US11669727B2 (en) Information processing device, neural network design method, and recording medium
US11397786B2 (en) Method and system of personalized blending for content recommendation
CN110795936B (zh) 词向量的获取方法和装置、存储介质及电子装置
CN109886299B (zh) 一种用户画像方法、装置、可读存储介质及终端设备
CN111489196A (zh) 基于深度学习网络的预测方法、装置、电子设备及介质
KR102323424B1 (ko) 관측평점과 유사도 그래프를 활용한 추천 알고리즘의 평점 예측 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40021098

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant