CN110321552A

CN110321552A - 词向量构建方法、装置、介质及电子设备

Info

Publication number: CN110321552A
Application number: CN201910462774.9A
Authority: CN
Inventors: 崔勇; 杨光; 杨雪松
Original assignee: Taikang Asset Management Co Ltd; Taikang Insurance Group Co Ltd
Current assignee: Taikang Asset Management Co Ltd; Taikang Insurance Group Co Ltd
Priority date: 2019-05-30
Filing date: 2019-05-30
Publication date: 2019-10-11

Abstract

本发明实施例公开了一种词向量构建方法、装置、介质及电子设备，所述词向量构建方法用于构建未包含在训练好的Word2Vec模型词典中的新词的词向量，所述词向量构建方法包括：在包含所述新词的相关语料文本中，获得在所述新词的上下文中出现的相关词；根据所述相关词的词向量构建所述新词的词向量。本发明可以高效、经济地计算新词的词向量，并且得到的新词的词向量表达接近该新词的语义信息。此外，将新词的词向量作为重新训练或增量训练的初始化值，可以让训练更快、更有效地进行。

Description

词向量构建方法、装置、介质及电子设备

技术领域

本发明涉及语言建模技术领域，具体而言，涉及一种词向量构建方法、装置、介质及电子设备，用于构建未包含在训练好的Word2Vec模型词典中的新词的词向量。

背景技术

近年来，为了将自然语言应用于语义分析、情绪走势分析、信息检索等领域，人们通常会先将词语(简称词)表达成一维或多维的词向量，再利用计算设备对该词向量进行进一步的处理。Google公司在2013年开放了Word2Vec技术，用于根据给定的语料库训练词向量。训练完成后，所得到的Word2Vec模型词典可以用来映射(语料库中包含的)词到一个词向量，从而实现快速的词向量建模。

然而，随着网络新词汇、新主题的不断涌现以及大量新语料文本的出现，已经训练好的Word2Vec模型词典中可能不包含新出现的新词，目前解决这一问题的方法是利用这些新的语料文本重新训练模型，或者在已有模型的基础上增量式地训练模型。由于训练模型时需要多次遍历语料文本并且进行大量的数值计算，因此带来低效、耗时、成本高等问题。

发明内容

为解决上述现有技术中存在的问题，根据本发明的一个实施例，提供一种词向量构建方法，所述方法用于构建未包含在训练好的Word2Vec模型词典中的新词的词向量，包括：在包含所述新词的相关语料文本中，获得在所述新词的上下文中出现的相关词；以及，根据所述相关词的词向量构建所述新词的词向量。

上述方法中，在包含所述新词的相关语料文本中，获得在所述新词的上下文中出现的相关词包括：对所述相关语料文本进行分词操作，得到词序列；以及，在所述词序列中，获取在所述新词之前和之后出现的预定数量的词作为所述相关词。

上述方法中，根据所述相关词的词向量构建所述新词的词向量包括：在训练好的Word2Vec模型词典中查找所述相关词对应的词向量，将找到对应的词向量的相关词作为实际关联词加入所述新词的上下文相关词列表；以及，获得所述上下文相关词列表中的实际关联词对应的词向量，根据所获得的词向量计算所述新词的词向量。

上述方法中，根据所获得的实际关联词对应的词向量计算所述新词的词向量可以包括：将所获得的词向量的平均值作为所述新词的词向量。

上述方法中，根据所获得的实际关联词对应的词向量计算所述新词的词向量可以包括：记录所述实际关联词在所述新词的上下文中出现的次数；以及，根据下式计算所述新词的词向量：

其中，WV_i表示新词i的词向量，List_i表示新词i的上下文相关词列表，WV_j表示新词i的实际关联词j在训练好的Word2Vec模型词典中对应的词向量，w_j表示实际关联词j在新词i的上下文中出现的次数与List_i中所有实际关联词在新词i的上下文中出现的次数总和的比值。

上述方法中，根据所获得的实际关联词对应的词向量计算所述新词的词向量可以包括：记录所述实际关联词与所述新词的平均距离；以及，根据下式计算所述新词的词向量：

其中，WV_i表示新词i的词向量，List_i表示新词i的上下文相关词列表，WV_j表示新词i的实际关联词j在训练好的Word2Vec模型词典中对应的词向量，v_j表示实际关联词j和新词i的平均距离的倒数与List_i中所有实际关联词和新词i的平均距离的倒数之和的比值。

根据本发明的一个实施例，还提供一种Word2Vec模型词典的更新方法，包括：获取待生成词向量的新词；根据上述的词向量构建方法构建所述新词的词向量；以及，将所述新词和所述新词的词向量加入所述Word2Vec模型词典。

根据本发明的一个实施例，还提供一种词向量构建装置，所述装置用于构建未包含在训练好的Word2Vec模型中的新词的词向量，所述装置包括：

相关词获取模块，用于在包含所述新词的相关语料文本中，获得在所述新词的上下文中出现的相关词；

词向量构建模块，用于根据所述相关词的词向量构建所述新词的词向量。

根据本发明的一个实施例，还提供一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述词向量构建方法或Word2Vec模型词典的更新方法。

根据本发明的一个实施例，还提供一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个计算机程序，当所述一个或多个计算机程序被所述一个或多个处理器执行时，使得所述电子设备实现上述词向量构建方法或Word2Vec模型词典的更新方法。

本发明实施例提供的技术方案具有以下有益效果：

利用新词在语料文本中的上下文相关词以及训练好的Word2Vec模型词典来为新词构建词向量，该过程仅需对包含新词的语料文本进行一次遍历，实现了高效、经济地计算新词的词向量；此外，由于上下文相关词和新词在语义上有相关性，因此所得到的新词的词向量表达接近该新词的语义信息。在未来重新训练模型或者增量训练模型时，所得到的新词的词向量可以作为重新/增量训练的初始化值，从而让训练更快、更有效地进行。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示意性示出了根据本发明一个实施例的词向量构建方法的流程图；

图2示意性示出了根据本发明一个实施例的在包含新词的相关语料文本中获得在该新词的上下文中出现的相关词的方法的流程图；

图3示意性示出了根据本发明一个实施例的根据相关词的词向量构建新词的词向量的方法的流程图；

图4示意性示出了根据本发明一个实施例的Word2Vec模型词典的更新方法的流程图；

图5示意性示出了根据本发明一个实施例的词向量构建装置的框图；

图6示意性示出了根据本发明一个实施例的Word2Vec模型词典的更新装置的框图；

图7示意性示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本发明的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

对于已经训练好的Word2Vec模型词典中不包含的新词而言，由于这些新词在语料文本中的出现频率比较低，重新训练Word2Vec模型或者增量训练Word2Vec模型都会造成效率低而成本高的问题，此外，鉴于Word2Vec算法的核心思想在于一个词的语义是由其上下文相关词所共同决定的，因此在构建新词的词向量时，可以基于该新词的上下文相关词的词向量进行构建，从而得到符合该新词的语义的词向量。

有鉴于此，根据本发明的一个实施例，提供一种词向量构建方法，该词向量构建方法用于构建未包含在训练好的Word2Vec模型词典中的新词的词向量，该方法可以在具有计算功能和存储功能的电子设备处执行，该电子设备可以位于客户端或者服务器处。

图1示意性地示出了根据本发明一个实施例的词向量构建方法的流程图，概括而言，包括：在包含待构建词向量的新词的相关语料文本中，获得在所述新词的上下文中出现的相关词；以及，根据相关词的词向量构建所述新词的词向量。下文将参照图1详细描述该词向量构建方法的各个步骤：

步骤S101.在包含新词的相关语料文本中，获得在该新词的上下文中出现的相关词。参见图2，步骤S101包括如下的子步骤：

步骤S1011.获取新词(或称目标新词)以及包含该新词的相关语料文本。

其中，新词指的是未包含在训练好的Word2Vec模型词典中的词；训练好的Word2Vec模型词典中包含经训练得到的多个词以及每个词所对应的词向量；相关语料文本既可以是曾经训练过的语料文本(即用于训练已训练好的Word2Vec模型词典的语料文本)，也可以是新增的语料文本，这些语料文本可以来自于不同的领域。

步骤S1012.将相关语料文本进行分词操作，得到词序列。

步骤S1013.在词序列中获取在所述新词之前和之后出现的n(n为正整数)个词，作为新词的相关词(即新词的上下文相关词)。其中，某些相关词可能会多次出现在新词的上下文中，因此，还记录在相关语料文本中，相关词在新词的上下文中出现的次数。

具体地，遍历所述词序列，若匹配到新词，则根据一个预设的窗口大小，获取在词序列内该新词前一个窗口和后一个窗口内的词作为该新词的相关词。优选地，预设的窗口大小为7，则在匹配到新词时，获取该新词在相关语料文本中的前七个词和后七个词作为新词的相关词。如果某个相关词在窗口内第一次出现，则将该相关词在新词的上下文中出现的次数设置为1；如果不是第一次出现，则将该相关词在新词的上下文中出现的次数加1。

步骤S102.根据新词的相关词的词向量构建该新词的词向量。参见图3，步骤S102包括如下子步骤：

步骤S1021.加载训练好的Word2Vec模型词典。

步骤S1022.构造新词的上下文相关词列表。

对于新词的所有相关词中的每个相关词，在训练好的Word2Vec模型词典中查找该相关词以及对应的词向量，如果找到对应的词向量则将该相关词作为实际关联词加入所述新词的上下文相关词列表，并在列表中记录该相关词在所述新词的上下文中出现的次数，以及记录该相关词在Word2Vec模型词典中所对应的词向量。如果没找到，则舍弃该相关词不进行记录。

步骤S1023.根据上下文相关词列表中的实际关联词对应的词向量计算新词的词向量。

具体地，获得所述上下文相关词列表中的实际关联词对应的词向量，将所获得的词向量进行加权平均，以得到新词的词向量。其中，词向量的权重为对应的实际关联词在新词的上下文中出现的次数与上下文相关词列表中所有实际关联词在新词的上下文中出现的次数总和的比值，具体参见下式：

其中，WV_i表示新词i的词向量，List_i表示新词i的上下文相关词列表，WV_j表示新词i的实际关联词j在Word2Vec模型词典中对应的词向量，w_j表示实际关联词j在新词i的上下文中出现的次数与List_i中所有实际关联词在新词i的上下文中出现的次数总和的比值。

根据上述的实施例，仅需要对包含新词的语料文本进行一次遍历，因此与重新训练/增量训练模型相比，上述实施例提供的词向量构建方法更为高效和经济。计算时考虑了新词的上下文信息，因此所得到的新词的词向量表达接近该新词的语义信息。此外，在未来重新训练模型或者增量训练模型时，所得到的新词的词向量可以作为重新/增量训练的初始化值，从而让训练更快、更有效地进行。

在上述实施例中，需要记录相关词在新词的上下文中出现的次数，用于计算新词的词向量。在另一个实施例中，为了进一步提高效率、节省计算资源，也可以不记录相关词在新词上下文中出现的次数，而是以新词的上下文相关词列表中的所有实际关联词对应的词向量的平均值作为新词的词向量。

在另一个实施例中，可以记录相关词与新词的平均距离，用于计算新词的词向量。举例而言，在获得新词上下文中出现的相关词时，并非记录相关词出现的次数，而是记录每个相关词与新词的距离d(距离d表示新词与该相关词之间间隔了d-1个词)；如果在训练好的Word2Vec模型词典中找到相关词对应的词向量，则除了在上下文相关词列表中记录该相关词(即实际关联词)和对应的词向量，则还要记录该相关词与新词的平均距离；在计算新词的词向量时，将新词的上下文相关词列表中的实际关联词所对应的词向量进行加权平均，其中，词向量的权重为：对应的实际关联词和新词的平均距离的倒数与上下文相关词列表中所有实际关联词和新词的平均距离的倒数之和的比值，具体参见下式：

其中，WV_i表示新词i的词向量，List_i表示新词i的上下文相关词列表，WV_j表示新词i的实际关联词j在Word2Vec模型词典中对应的词向量，v_j表示实际关联词j和新词i的平均距离的倒数与List_i中所有实际关联词和新词i的平均距离的倒数之和的比值。

根据本发明的一个实施例，还提供一种Word2Vec模型词典的更新方法，该方法可以在具有计算功能和存储功能的电子设备处执行，该电子设备可以位于客户端或者服务器处。

图4示意性地示出了根据本发明一个实施例的Word2Vec模型词典的更新方法的流程图，下文将参照图4详细描述该方法的各个步骤：

步骤S201.获取待生成词向量的新词。

步骤S202.构建所述新词的词向量，包括如下的子步骤：

步骤S2021.在包含新词的相关语料文本中，获得在该新词的上下文中出现的相关词。

具体地，获取新词以及包含该新词的相关语料文本；将相关语料文本进行分词操作，得到词序列；以及，在词序列中获取在所述新词之前和之后出现的n(n为正整数)个词，作为新词的相关词。

步骤S2022.根据新词的相关词的词向量构建该新词的词向量。

具体地，加载训练好的Word2Vec模型词典；构造新词的上下文相关词列表；以及，根据新词的上下文相关词列表中的实际关联词对应的词向量计算新词的词向量。

步骤S203.将新词和新词的词向量加入Word2Vec模型词典，实现对word2Vec模型词典的更新。

以下结合附图介绍本发明的装置实施例。

根据本发明的一个实施例，还提供一种词向量构建装置。图5示出了该词向量构建装置500的框图，该装置包括：相关词获取模块501和词向量构建模块502。其中，相关词获取模块501用于在包含新词的相关语料文本中，获得在该新词的上下文中出现的相关词；词向量构建模块502用于根据新词的相关词的词向量构建该新词的词向量。

由于本实施例的词向量构建装置的各个功能模块与上文结合图1-3描述的词向量构建方法的实施例的步骤对应，因此对于本装置实施例中未披露的细节，请参照结合图1-3描述的词向量构建方法的实施例。

根据本发明的一个实施例，还提供一种Word2Vec模型词典的更新装置。图6示出了该Word2Vec模型词典的更新装置600的框图，如图6所示，该装置包括：新词获取模块601，新词向量构建模块602，以及更新模块603。其中，新词获取模块601用于获取待生成词向量的新词；词向量构建模块602用于构建新词的词向量；以及更新模块603用于将新词和新词的词向量加入Word2Vec模型词典，实现对word2Vec模型词典的更新。

由于本实施例的Word2Vec模型词典的更新装置的各个功能模块与上文结合图4描述的Word2Vec模型词典的更新方法的实施例的步骤对应，因此对于本装置实施例中未披露的细节，请参照结合图4描述的Word2Vec模型词典的更新方法的实施例。

根据本发明的一个实施例，还提供一种适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。参见图7，计算机系统700包括总线705，耦合到总线705的设备之间可以快速地传输信息。处理器701与总线705耦合，用于执行由计算机程序代码所指定的一组动作或操作，处理器701可以单独地或者与其他设备组合实现为机械、电、磁、光、量子或者化学部件等。

计算机系统700还包括耦合到总线705的存储器703，存储器703(例如，RAM或者其他动态存储设备)存储可由计算机系统700改变的数据，包括实现上述实施例所述的词向量构建方法以及Word2Vec模型词典的更新方法的指令或计算机程序。当处理器701执行该指令或计算机程序时，使得计算机系统700能够实现上述实施例中描述的词向量构建方法和Word2Vec模型词典的更新方法，例如，可以实现如图1-4中所示的各个步骤。存储器703还可以存储处理器701执行指令或计算机程序期间产生的临时数据，以及系统操作所需的各种程序和数据。计算机系统700还包括耦合到总线705的只读存储器702以及非易失性储存设备708，例如磁盘或光盘等，用于存储当计算机系统700被关闭或掉电时也能持续的数据。

计算机系统700还包括诸如键盘、传感器等的输入设备706，以及诸如阴极射线管(CRT)、液晶显示器(LCD)、打印机等的输出设备707。计算机系统700还包括耦合到总线705的通信接口704，通信接口704可以提供对外部设备的单向或双向的通信耦合。例如，通信接口704可以是并行端口、串行端口、电话调制解调器或者局域网(LAN)卡。计算机系统700还包括耦合到总线705的驱动设备709以及可拆卸设备710，诸如磁盘、光盘、磁光盘、半导体存储器等等，其根据需要安装在驱动设备709上，以便于从其上读出的计算机程序根据需要被安装入储存设备708。

根据本发明的另一个实施例，还提供一种计算机可读介质，该计算机可读介质可以是上述计算机系统700中所包含的，也可以是单独存在而未装配入该计算机系统700中的。该计算机可读介质承载有一个或者多个计算机程序或者指令，当所述一个或者多个计算机程序或者指令被处理器执行时，使得该计算机系统700实现上述实施例中所述的词向量构建方法和Word2Vec模型词典的更新方法。需要说明的是，计算机可读介质指的是向处理器501提供数据的任意介质，这种介质可以采取任意形式，包括但不限于，计算机可读存储介质(例如，非易失性介质、易失性介质)以及传输介质。其中，非易失性介质诸如包括光盘或磁盘，例如储存设备708；易失性介质例如包括存储器704。传输介质例如包括同轴电缆、铜线、光纤电缆以及在没有电缆和线缆的情况下通过空间的载波，例如声波和电磁波，包括无线电、光和红外波。计算机可读介质的一般形式包括：软盘、柔性盘、硬盘、磁带、任意其它磁介质、CD-ROM、CDRW、DVD、任意其它光介质、穿孔卡片、纸带、光标记表单、具有孔或其它光可识别标识的图案的任意其它物理介质、RAM、PROM、EPROM、FLASH-EPROM、任意其它存储器芯片或磁带盒、载波、或计算机可读取的任意其它介质。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种词向量构建方法，所述方法用于构建未包含在训练好的Word2Vec模型词典中的新词的词向量，所述方法包括：

在包含所述新词的相关语料文本中，获得在所述新词的上下文中出现的相关词；

根据所述相关词的词向量构建所述新词的词向量。

2.根据权利要求1所述的方法，其特征在于，在包含所述新词的相关语料文本中，获得在所述新词的上下文中出现的相关词包括：

对所述相关语料文本进行分词操作，得到词序列；

在所述词序列中，获取在所述新词之前和之后出现的预定数量的词作为所述相关词。

3.根据权利要求1或2所述的方法，其特征在于，根据所述相关词的词向量构建所述新词的词向量包括：

在训练好的Word2Vec模型词典中查找所述相关词对应的词向量，将找到对应的词向量的相关词作为实际关联词加入所述新词的上下文相关词列表；

获得所述上下文相关词列表中的实际关联词对应的词向量，根据所获得的实际关联词对应的词向量计算所述新词的词向量。

4.根据权利要求3所述的方法，其特征在于，根据所获得的实际关联词对应的词向量计算所述新词的词向量包括：

将所获得的实际关联词对应的词向量的平均值作为所述新词的词向量。

5.根据权利要求3所述的方法，其特征在于，根据所获得的实际关联词对应的词向量计算所述新词的词向量包括：

记录所述实际关联词在所述新词的上下文中出现的次数；以及，

根据下式计算所述新词的词向量：

6.根据权利要求3所述的方法，其特征在于，根据所获得的实际关联词对应的词向量计算所述新词的词向量包括：

记录所述实际关联词与所述新词的平均距离；以及，

根据下式计算所述新词的词向量：

7.一种Word2Vec模型词典的更新方法，包括：

获取待生成词向量的新词；

根据权利要求1-6中任一项所述的词向量构建方法构建所述新词的词向量；

将所述新词和所述新词的词向量加入所述Word2Vec模型词典。

8.一种词向量构建装置，所述装置用于构建未包含在训练好的Word2Vec模型中的新词的词向量，所述装置包括：

9.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。

10.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个计算机程序，当所述一个或多个计算机程序被所述一个或多个处理器执行时，使得所述电子设备实现如权利要求1至7中任一项所述的方法。