CN112528646B

CN112528646B - 词向量生成方法、终端设备及计算机可读存储介质

Info

Publication number: CN112528646B
Application number: CN202011416194.5A
Authority: CN
Inventors: 熊为星
Original assignee: Ubtech Robotics Corp
Current assignee: Ubtech Robotics Corp
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2023-04-18
Anticipated expiration: 2040-12-07
Also published as: CN112528646A

Abstract

本申请适用于终端技术领域，尤其涉及一种词向量生成方法、终端设备及计算机可读存储介质。所述词向量生成方法，在需要生成目标词对应的目标词向量时，可以先确定目标词对应的初始词向量、图像特征向量以及音频特征向量。然后，可以根据目标词对应的初始词向量、图像特征向量、音频特征向量以及预设权重矩阵生成目标词对应的目标词向量。即本申请实施例通过结合文本信息、图像信息以及声音信息来进行词向量的生成，使得所生成的词向量具有丰富的特征信息，可以充分体现词的属性特征，以为后续的自然语言处理提供更可靠的词向量，提高自然语言处理的准确性，极大地扩展了自然语言处理的应用范围。

Description

词向量生成方法、终端设备及计算机可读存储介质

技术领域

本申请属于终端技术领域，尤其涉及词向量生成方法、终端设备及计算机可读存储介质。

背景技术

在自然语言处理中，为了让计算机可以理解词的含义，需要将词转换成词向量。词向量是词的向量化表示，具有相似含义的词往往具有相似的向量化表示。目前，主要是通过训练大量的文本信息来构建每个词对应的词向量。由于词的文本信息并不能充分体现词的属性特征，因此仅基于文本信息所生成的词向量的特征信息较少，无法充分体现词的属性特征，使得自然语言处理的准确性较低，影响自然语言处理技术的广泛应用。

发明内容

本申请实施例提供了一种词向量生成方法、装置、终端设备及计算机可读存储介质，可以丰富词向量的特征信息，使得词向量可以充分体现出词的属性特征，从而提高自然语言处理的准确性。

第一方面，本申请实施例提供了一种词向量生成方法，包括：

获取目标词，并确定所述目标词对应的初始词向量；

确定所述目标词对应的图像特征向量，以及确定所述目标词对应的音频特征向量；

根据所述目标词对应的初始词向量、图像特征向量、音频特征向量以及预设权重矩阵生成所述目标词对应的目标词向量。

在第一方面的一种可能的实现方式中，在所述确定所述目标词对应的图像特征向量，以及确定所述目标词对应的音频特征向量之前，可以包括：

构建词汇表，所述词汇表中包括多个预设词；

针对每一个预设词，获取所述预设词对应的图像和音频；

根据所述预设词对应的图像构建所述预设词对应的图像特征向量，并根据所述预设词对应的音频构建所述预设词对应的音频特征向量。

示例性的，所述预设词对应的图像包括多张，所述根据所述预设词对应的图像构建所述预设词对应的图像特征向量，可以包括：

将所述预设词对应的多张图像分别输入至预设的图像识别模型，获取所述图像识别模型的第一目标网络层提取的初始图像特征向量，所述第一目标网络层为所述图像识别模型的最后一层网络；

对各所述初始图像特征向量进行聚类分析，确定第一聚类中心点；

获取各所述初始图像特征向量与所述第一聚类中心点之间的第一距离，并根据所述第一距离选取第一预设数量的初始图像特征向量；

对所述第一预设数量的初始图像特征向量进行均值计算，并将计算得到的均值图像特征向量确定为所述预设词对应的图像特征向量。

具体地，所述对各所述初始图像特征向量进行聚类分析，确定第一聚类中心点，可以包括：

分别将各所述初始图像特征向量确定为初始聚类中心点，获取其他初始图像特征向量与所述初始聚类中心点之间的第二距离，并将各所述第二距离进行相加，得到各所述初始聚类中心点对应的距离和；

将最小距离和对应的初始聚类中心点确定为所述第一聚类中心点。

示例性的，所述预设词对应的音频包括多个，所述根据所述预设词对应的音频构建所述预设词对应的音频特征向量，可以包括：

获取所述预设词对应的各音频的Fbank特征，并将各所述Fbank特征分别输入至预设的语音识别模型，获取所述语音识别模型的第二目标网络层提取的初始音频特征向量，所述第二目标网络层为所述语音识别模型的最后一层网络；

对各所述初始音频特征向量进行聚类分析，确定第二聚类中心点；

获取各所述初始音频特征向量与所述第二聚类中心点之间的第三距离，并根据所述第三距离选取第二预设数量的初始音频特征向量；

对所述第二预设数量的初始音频特征向量进行均值计算，并将计算得到的均值音频特征向量确定为所述预设词对应的音频特征向量。

在第一方面的一种可能的实现方式中，在所述根据所述目标词对应的初始词向量、图像特征向量、音频特征向量以及预设权重矩阵生成所述目标词对应的目标词向量之前，可以包括：

获取训练文本，并对所述训练文本进行分词处理，得到各训练词；

确定中心训练词，并获取所述中心训练词对应的初始词向量和所述中心训练词对应的相关训练词，所述中心训练词为所述各训练词中的任一训练词；

获取所述相关训练词对应的初始词向量、图像特征向量以及音频特征向量，并对所述相关训练词对应的初始词向量、图像特征向量以及音频特征向量进行组合，得到所述相关训练词对应的第一训练向量；

将所述第一训练向量输入至第一词向量模型进行处理，得到所述第一词向量模型输出的第一训练结果；

根据所述第一训练结果和所述中心训练词对应的初始词向量确定所述第一词向量模型的第一训练误差；

当所述第一训练误差不满足第一预设条件时，调整所述第一词向量模型的第一模型参数，并返回执行所述获取训练文本，并对所述训练文本进行分词处理，得到各训练词的步骤以及后续步骤，所述第一模型参数包括所述预设权重矩阵，所述预设权重矩阵为所述第一词向量模型的输入层与隐藏层之间的权重矩阵；

当所述第一训练误差满足所述第一预设条件时，得到所述预设权重矩阵。

在第一方面的另一种可能的实现方式中，在所述根据所述目标词对应的初始词向量、图像特征向量、音频特征向量以及预设权重矩阵生成所述目标词对应的目标词向量之前，可以包括：

确定中心训练词，获取所述中心训练词对应的相关训练词以及所述相关训练词对应的初始词向量，所述中心训练词为所述各训练词中的任一训练词；

获取所述中心训练词对应的初始词向量、图像特征向量以及音频特征向量，并对所述中心训练词对应的初始词向量、图像特征向量以及音频特征向量进行组合，得到所述中心训练词对应的第二训练向量；

将所述第二训练向量输入至第二词向量模型进行处理，得到所述第二词向量模型输出的第二训练结果；

根据所述第二训练结果和所述相关训练词对应的初始词向量确定所述第二词向量模型的第二训练误差；

当所述第二训练误差不满足第二预设条件时，调整所述第二词向量模型的第二模型参数，并返回执行所述获取训练文本，并对所述训练文本进行分词处理，得到各训练词的步骤以及后续步骤，所述第二模型参数包括所述预设权重矩阵，所述预设权重矩阵为所述第二词向量模型的输入层与隐藏层之间的权重矩阵；

当所述第二训练误差满足所述第二预设条件时，得到所述预设权重矩阵。

具体地，所述根据所述目标词对应的初始词向量、图像特征向量、音频特征向量以及预设权重矩阵生成所述目标词对应的目标词向量，可以包括：

对所述目标词对应的初始词向量、图像特征向量以及音频特征向量进行组合，得到所述目标词对应的组合向量；

将所述组合向量与所述预设权重矩阵进行相乘处理，得到所述目标词对应的目标词向量。

第二方面，本申请实施例提供了一种词向量生成装置，包括：

目标词获取模块，用于获取目标词，并确定所述目标词对应的初始词向量；

特征向量确定模块，用于确定所述目标词对应的图像特征向量，以及确定所述目标词对应的音频特征向量；

词向量生成模块，用于根据所述目标词对应的初始词向量、图像特征向量、音频特征向量以及预设权重矩阵生成所述目标词对应的目标词向量。

第三方面，本申请实施例提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面中任一项所述的词向量生成方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面中任一项所述的词向量生成方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面中任一项所述的词向量生成方法。

可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

本申请实施例与现有技术相比存在的有益效果是：

本申请实施例中，在需要生成目标词对应的目标词向量时，可以先确定目标词对应的初始词向量、图像特征向量以及音频特征向量。然后，可以根据目标词对应的初始词向量、图像特征向量、音频特征向量以及预设权重矩阵生成目标词对应的目标词向量。即本申请实施例通过结合文本信息、图像信息以及声音信息来进行词向量的生成，使得所生成的词向量具有丰富的特征信息，可以充分体现词的属性特征，以为后续的自然语言处理提供更可靠的词向量，提高自然语言处理的准确性，极大地扩展了自然语言处理的应用范围。

附图说明

图1是本申请实施例提供的词向量生成方法的示意性流程图；

图2是本申请实施例构建预设词对应的图像特征向量的示意性流程图；

图3是本申请实施例构建预设词对应的音频特征向量的示意性流程图；

图4是本申请一实施例涉及的第一词向量模型的结构示意图；

图5是本申请一实施例训练第一词向量模型的示意性流程图；

图6是本申请另一实施例涉及的第二词向量模型的结构示意图；

图7是本申请另一实施例训练第二词向量模型的示意性流程图；

图8是本申请实施例提供的词向量生成装置的结构示意图；

图9是本申请实施例提供的终端设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

本申请实施例提供的词向量生成方法可以应用于终端设备，终端设备可以为手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、笔记本电脑、超级移动个人计算机(ultra－mobile personalcomputer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)、云端服务器等，本申请实施例对终端设备的具体类型不作任何限制。

请参阅图1，图1示出了本申请实施例提供的词向量生成方法的示意性流程图。如图1所示，所述词向量生成方法可以包括：

S101、获取目标词，并确定所述目标词对应的初始词向量。

其中，目标词可以为某一输入文本中的任一词，例如，可以为文本分类任务中，待分类文本中的任一词；例如，可以为语义匹配任务中，待匹配文本中的任一词。

本申请实施例中，目标词对应的初始词向量可以为该目标词对应的独热one－hot编码。one－hot编码的维度可以根据词汇表的词数量w确定。例如当词汇表的词数量w为6，且目标词位于词汇表的第3个时，该目标词对应的初始词向量可以为[0，0，1，0，0，0]。

S102、确定所述目标词对应的图像特征向量，以及确定所述目标词对应的音频特征向量。

本申请实施例中，可以事先构建词汇表，并构建词汇表中各预设词对应的图像特征向量和音频特征向量。目标词可以为词汇表中的任一预设词。因此在获取目标词后，可以直接从事先构建的图像特征向量和音频特征向量中，获取目标词对应的图像特征向量和音频特征向量。

具体地，可以从维基百科的中文开放数据集中获取数据源，并对获取的数据源进行标点符号和停用词的去除处理。然后，对数据源进行分词处理，得到多个词。随后，获取这多个词中词频大于或者等于预设值的w个预设词，并根据w个预设词构建词汇表。例如，可以根据w个预设词的词频从高至低的顺序来构建词汇表，即在词汇表中，词频越高的预设词，排序越靠前，词频越低的预设词，排序越靠后。假定，词A的词频为5，词B的词频为6，则词A可以为词汇表中的第8个词，词B可以为词汇表中的第7个词。或者，可以根据w个预设词的词频从低至高的顺序来构建词汇表，即在词汇表中，词频越低的预设词，排序越靠前，词频越高的预设词，排序越靠后。

其中，词频是指该词在所有数据源中出现的总次数。预设值可以根据具体情况进行设置，例如可以将预设值设置为3。即词汇表中的预设词可以为数据源中出现的总次数大于或者等于3的词。

在构建词汇表后，针对词汇表中的每一个预设词，可以获取该预设词对应的图像和音频。然后，可以根据该预设词对应的图像构建该预设词对应的图像特征向量以及根据该预设词对应的音频构建该预设词对应的音频特征向量。下面首先对任一预设词对应的图像特征向量的构建过程进行描述。

请参阅图2，图2示出了本申请实施例构建预设词对应的图像特征向量的示意性流程图。如图2所示，所述根据所述预设词对应的图像构建所述预设词对应的图像特征向量，可以包括：

S201、将所述预设词对应的多张图像分别输入至预设的图像识别模型，获取所述图像识别模型的第一目标网络层提取的初始图像特征向量，所述第一目标网络层为所述图像识别模型的最后一层网络。

本申请实施例中，可以通过图像搜索来获取该预设词对应的图像，例如可以将该预设词输入至预设搜索引擎的图像搜索框中，得到一系列与该预设词对应的图像。然后，下载搜索出的前100张图像。在此，可以通过爬虫进行图像的自动化下载。随后，可以对下载的100张图像进行分析，选出与该预设词的词义表达较近的50张图像，以防止噪声影响图像特征向量的构建。由于下载的各图像的像素大小不同，为方便进行图像特征的提取，可以将各图像裁剪至统一像素，例如裁剪至224＊224。最后，可以将裁剪后的各图像分别输入至预设的图像识别模型，并可以将该图像识别模型的第一目标网络层所提取出的特征向量，确定为该图像对应的初始图像特征向量，以得到该预设词对应的50个初始图像特征向量。

其中，预设的图像识别模型可以为基于VGG16网络结构的图像识别模型。图像识别模型的第一目标网络层为VGG16网络结构的最后一层，VGG16网络结构的最后一层可以为一全连接层，该全连接层可以具有1000个隐藏节点，因此各图像对应的初始图像特征向量可以为1＊1000维的向量。即该预设词可以具有50个1＊1000维的初始图像特征向量。

S202、对各所述初始图像特征向量进行聚类分析，确定第一聚类中心点。

S203、获取各所述初始图像特征向量与所述第一聚类中心点之间的第一距离，并根据所述第一距离选取第一预设数量的初始图像特征向量。

S204、对所述第一预设数量的初始图像特征向量进行均值计算，并将计算得到的均值图像特征向量确定为所述预设词对应的图像特征向量。

对于S202至S204，本申请实施例可以将该预设词对应的50个初始图像特征向量分别作为初始聚类中心点。对于每一个初始聚类中心，获取其他初始图像特征向量与该初始聚类中心点之间的第二距离。例如，第二距离可以为各初始图像特征向量与该初始距离中心点之间的欧几里得距离，后续描述的距离均可以为欧几里得距离。然后，将该初始聚类中心点对应的各第二距离进行相加，得到该初始聚类中心点对应的距离和。最后，在获取所有初始聚类中心点对应的距离和之后，可以将最小距离和对应的初始聚类中心点确定为第一聚类中心点。

在确定第一聚类中心点后，可以获取各初始图像特征向量与该第一聚类中心点之间的第一距离，并选取第一距离最小的第一预设数量的初始图像特征向量。然后，对选取的第一预设数量的初始图像特征向量进行均值计算，并将计算得到的均值图像特征向量确定为该预设词对应的图像特征向量。即将第一预设数量的各初始图像特征向量中相同维度对应的值进行相加，并将相加之和分别除以第一预设数量，得到各个维度对应的平均值，将各维度对应的平均值所构成的均值图像特征向量确定该预设词对应的图像特征向量。其中，第一预设数量可以根据具体情况确定，例如可以将第一预设数量确定为30。

例如，当第一预设数量为3，且所选取出的初始图像特征向量为[2，3，5，6，……，6]、[3，3，2，4，……，4]和[1，3，2，2，……，5]时，该预设词对应的图像特征向量可以为[2，3，3，4，……，5]。

需要说明的是，前述描述的图像识别模型为基于VGG16网络结构仅作示意性解释，不应理解为对本申请实施例的限制，本申请实施例当然也可以使用精度更高的网络结构来构建图像识别模型。

下面对任一预设词对应的音频特征向量的构建过程进行描述。

请参阅图3，图3示出了本申请实施例构建预设词对应的音频特征向量的示意性流程图。如图3所示，所述根据所述预设词对应的音频构建所述预设词对应的音频特征向量，可以包括：

S301、获取所述预设词对应的各音频的Fbank特征，并将各所述Fbank特征分别输入至预设的语音识别模型，获取所述语音识别模型的第二目标网络层提取的初始音频特征向量，所述第二目标网络层为所述语音识别模型的最后一层网络。

本申请实施例中，可以找50个年龄、性别分布均匀的人在5个不同的场景中进行该预设词的朗读并录音，得到250份的音频。其中，录音过程中可以使用多种录音设备进行录音。然后，可以对录取的各音频进行处理，例如，可以使用Audacity音频编辑软件进行编辑，去除音频中的空白部分，以得到相对纯净的音频。随后，可以对各音频进行分帧处理，即可以将各音频分成一个个小段，以方便进行语音分析，并对分帧后的各音频进行快速傅里叶变换，得到能量谱。最后，可以通过梅尔滤波器组对能量谱进行滤波，以得到各音频对应的filterbank(FBank)特征。

在得到各音频对应的FBank特征后，可以将各FBank特征分别输入至预设的语音识别模型，并将该语音识别模型的第二目标网络层所提取出的特征向量，确定为该音频对应的初始音频特征向量，以得到该预设词对应的250个初始音频特征向量。

其中，预设的语音识别模型可以为基于VGG16网络结构的语音识别模型。语音识别模型的第二目标网络层为VGG16网络结构的最后一层，VGG16网络结构的最后一层可以为一全连接层，该全连接层可以具有1000个隐藏节点，因此各音频对应的初始音频特征向量可以为1＊1000维的向量。即该预设词可以具有250个1＊1000维的初始音频特征向量。

可以理解的是，上述对FBank特征的提取过程仅作简要说明，本申请实施例中可以通过现有的提取方法来进行FBbank特征的具体提取。另外，上述对录音人数和场景个数的描述仅作示意性解释，不应理解为对本申请实施例的限制，本申请实施例中，当然可以根据具体情况进行录音人数和场景个数的确定，例如，可以将录音人数确定为60或者70等任一数值，将场景个数确定为4或者6等任一数值。

S302、对各所述初始音频特征向量进行聚类分析，确定第二聚类中心点。

S303、获取各所述初始音频特征向量与所述第二聚类中心点之间的第三距离，并根据所述第三距离选取第二预设数量的初始音频特征向量。

S304、对所述第二预设数量的初始音频特征向量进行均值计算，并将计算得到的均值音频特征向量确定为所述预设词对应的音频特征向量。

对于S302至S304，本申请实施例可以将该预设词对应的250个初始音频特征向量分别作为初始聚类中心点。对每一个初始聚类中心，获取其他初始音频特征向量与该初始聚类中心点之间的第四距离。然后，将该初始聚类中心点对应的各第四距离进行相加，得到该初始聚类中心点对应的距离和。最后，在获取所有初始聚类中心点对应的距离和之后，可以将最小距离和对应的初始聚类中心点确定为第二聚类中心点。

在确定第二聚类中心点后，可以获取各初始音频特征向量与该第二聚类中心点之间的第三距离，并可以选取第三距离最小的第二预设数量的初始音频特征向量。然后，对选取的第二预设数量的初始音频特征向量进行均值计算，并将计算得到的均值音频特征向量确定为该预设词对应的音频特征向量。即将第二预设数量的各初始音频特征向量中相同维度所对应的值进行相加，并将相加之和分别除以第二预设数量，得到各个维度对应的平均值，将各维度对应的平均值所构成的均值音频特征向量确定该预设词对应的音频特征向量。其中，第二预设数量可以根据具体情况确定，例如可以将第二预设数量确定为30。

需要说明的是，前述描述的语音识别模型为基于VGG16网络结构仅作示意性解释，不应理解为对本申请实施例的限制，本申请实施例当然也可以使用精度更高的网络结构来构建语音识别模型。

下面对预设权重矩阵的获取过程进行描述。

在一个示例中，可以通过训练文本训练第一词向量模型来得到预设权重矩阵。其中，第一词向量模型可以为连续词袋模型(continuous bag－of－words model，CBOW)。训练第一词向量模型是指对第一词向量模型的第一模型参数进行调整优化的过程。第一词向量模型的第一模型参数可以包括输入层与隐藏层之间的权重矩阵，以及隐藏层与输出层之间的权重矩阵。预设权重矩阵可以为输入层与隐藏层之间的权重矩阵。

请参阅图4，图4示出了第一词向量模型的结构示意图。如图4所示，第一词向量模型可以包括输入层401、隐藏层402以及输出层403。其中，输入层401与隐藏层402之间的权重矩阵的维度可以为(w+2000)＊N，N为隐藏层402中神经元的个数。N可以根据词汇表中的词数量w确定。具体地，当w较大时，N可以相对较大，当w较小时，N可以相对较小。隐藏层402与输出层403之间的权重矩阵的维度可以为N＊w。

输入层401用于输入上下文的词对应的第一训练向量。隐藏层402用于对各第一训练向量进行处理，得到中间训练向量，并将中间训练向量传递给输出层403。具体的，隐藏层402可以将各第一训练向量与预设权重矩阵(即输入层401与隐藏层402之间的权重矩阵)相乘后进行相加，得到中间训练向量，并将中间训练向量传递给输出层403。输出层403将中间训练向量乘以隐藏层402与输出层403之间的权重矩阵，得到最终输出的第一训练结果，第一训练结果为1＊w维的向量。

请参阅图5，图5示出了训练第一词向量模型，得到预设权重矩阵的示意性流程图。如图5所示，在所述根据所述目标词对应的初始词向量、图像特征向量、音频特征向量以及预设权重矩阵生成所述目标词对应的目标词向量之前，可以包括：

S501、获取训练文本，并对所述训练文本进行分词处理，得到各训练词。

S502、确定中心训练词，并获取所述中心训练词对应的初始词向量和所述中心训练词对应的相关训练词，所述中心训练词为所述各训练词中的任一训练词。

对于S501和S502，本申请实施例中，可以采用现有的分词技术对训练文本进行分词处理。其中，一个训练文本可以为一句话。中心训练词对应的相关训练词是指训练文本中该中心训练词的上下文所对应的词。中心训练词对应的相关训练词的数量可以自定义设置。具体地，可以通过设置中心训练词一侧的词的数量来设置相关训练词的数量。例如，当将中心训练词一侧的词的数量设置为2时，即可以将中心训练词左侧的两个词和中心训练词右侧的两个词，共四个词确定为该中心训练词对应的相关训练词。例如，当将中心训练词一侧的词的数量设置为1时，即可以将中心训练词左侧的一个词和中心训练词右侧的一个词，共两个词确定为该中心训练词对应的相关训练词。

示例性的，可以将训练文本中的每一个训练词分别确定为中心训练词，来进行CBOW的训练。示例性的，对于每一个训练文本，可以将该训练文本中的一个或者多个训练词确定为中心训练词，来进行CBOW的训练。

其中，中心训练词对应的初始词向量可以为该中心训练词对应的one－hot编码。one－hot编码的维度可以根据前述的词汇表的词数量w确定，即中心训练词对应的初始词向量可以为1＊w维的向量。

S503、获取所述相关训练词对应的初始词向量、图像特征向量以及音频特征向量，并对所述相关训练词对应的初始词向量、图像特征向量以及音频特征向量进行组合，得到所述相关训练词对应的第一训练向量。

S504、将所述第一训练向量输入至第一词向量模型进行处理，得到所述第一词向量模型输出的第一训练结果。

其中，相关训练词对应的初始词向量也可以为该相关训练词对应的one－hot编码。one－hot编码的维度可以根据前述的词汇表的词数量w确定，即各相关训练词对应的初始词向量可以为1＊w维的向量。各相关训练词一般为前述的词汇表中的任一预设词，因此，本申请实施例中，可以直接获取各相关训练词对应的图像特征向量和音频特征向量。

在获取任一相关训练词对应的初始词向量、图像特征向量以及音频特征向量后，可以将该相关训练词对应的初始词向量、图像特征向量以及音频特征向量进行拼接得到该相关训练词对应的第一训练向量，即各相关训练词对应的第一训练向量可以为1＊(w+1000+1000)的向量。

可以理解的是，CBOW可以根据多个相关训练词来预测与这多个相关训练词对应的中心训练词。本申请实施例中，可以将中心训练词对应的多个相关训练词所对应的第一训练向量分别输入至第一词向量模型(即CBOW)的输入层401。第一词向量模型的输入层401可以将各相关训练词对应的第一训练向量分别传递至隐藏层402。隐藏层402将各第一训练向量与预设权重矩阵(即输入层401与隐藏层402之间的权重矩阵)相乘后进行相加，得到中间训练向量，并将中间训练向量传递至输出层403。输出层403将中间训练向量乘以隐藏层402与输出层403之间的权重矩阵，得到最终输出的第一训练结果，第一训练结果为1＊w维的向量。

S505、根据所述第一训练结果和所述中心训练词对应的初始词向量确定所述第一词向量模型的第一训练误差。

S506、判断所述第一训练误差是否满足第一预设条件。

S507、当所述第一训练误差不满足第一预设条件时，调整所述第一词向量模型的第一模型参数，并返回执行所述获取训练文本，并对所述训练文本进行分词处理，得到各训练词的步骤以及后续步骤，所述第一模型参数包括所述预设权重矩阵，所述预设权重矩阵为所述第一词向量模型的输入层与隐藏层之间的权重矩阵。

S508、当所述第一训练误差满足所述第一预设条件时，得到所述预设权重矩阵。

对于S505至S508，在得到第一词向量模型输出的第一训练结果后，可以将该第一训练结果与该中心训练词对应的初始词向量进行对比，以此确定第一词向量模型的第一训练误差。具体地，可以使用交叉熵作为代价函数。即可以将第一训练结果与该中心训练词对应的初始词向量之间的交叉熵作为第一词向量模型的第一训练误差。

应理解，当第一训练误差不满足第一预设条件时，可以通过梯度下降法更新第一词向量模型的第一模型参数，即更新输入层401与隐藏层402之间的权重矩阵，以及更新隐藏层402与输出层403之间的权重矩阵。第一预设条件可以为第一训练误差小于指定值。该指定值可以根据具体情况确定。然后，再通过训练文本进行第一词向量模型的训练，直至第一训练误差满足第一预设条件为止，得到训练完成的第一词向量模型，从而得到预设权重矩阵。

在另一个示例中，可以通过训练文本训练第二词向量模型来得到预设权重矩阵。其中，第二词向量模型可以为Skip－Gram模型。训练第二词向量模型是指对第二词向量模型的第二模型参数进行调整优化的过程。第二词向量模型的第二模型参数可以包括输入层与隐藏层之间的权重矩阵，以及隐藏层与输出层之间的权重矩阵。预设权重矩阵可以为输入层与隐藏层之间的权重矩阵。

请参阅图6，图6示出了第二词向量模型的结构示意图。如图6所示，第二词向量模型可以包括输入层601、隐藏层602以及输出层603。其中，输入层601与隐藏层602之间的权重矩阵的维度可以为(w+2000)＊N，N为隐藏层602中神经元的个数。N可以根据词汇表中的词数量w确定。具体地，当w较大时，N可以相对较大，当w较小时，N可以相对较小。隐藏层602与输出层603之间的权重矩阵的维度可以为N＊w。

输入层601用于输入中心训练词对应的第二训练向量。隐藏层602用于对第二训练向量进行处理，得到中间训练向量，并将中间训练向量传递给输出层603。具体的，隐藏层602可以将第二训练向量与预设权重矩阵(即输入层601与隐藏层602之间的权重矩阵)进行相乘，得到中间训练向量，并将中间训练向量传递给输出层603。输出层603将中间训练向量乘以隐藏层602与输出层603之间的权重矩阵，得到最终输出的各第二训练结果，各第二训练结果分别为1＊w维的向量。

请参阅图7，图7示出了训练第二词向量模型，得到预设权重矩阵的示意性流程图。如图7所示，在所述根据所述目标词对应的初始词向量、图像特征向量、音频特征向量以及预设权重矩阵生成所述目标词对应的目标词向量之前，可以包括：

S701、获取训练文本，并对所述训练文本进行分词处理，得到各训练词；

S702、确定中心训练词，并获取所述中心训练词对应的相关训练词以及所述相关训练词对应的初始词向量，所述中心训练词为所述各训练词中的任一个；

其中，S701与前述的S501相似，S702与前述的S502相似，基本原理相同，为简明起见，在此不再赘述。

S703、获取所述中心训练词对应的初始词向量、图像特征向量以及音频特征向量，并对所述中心训练词对应的初始词向量、图像特征向量以及音频特征向量进行组合，得到所述中心训练词对应的第二训练向量；

S704、将所述第二训练向量输入至第二词向量模型进行处理，得到所述第二词向量模型输出的第二训练结果；

其中，中心训练词对应的初始词向量也可以为该中心训练词对应的one－hot编码。中心训练词一般为前述的词汇表中的任一预设词，因此，本申请实施例中，可以直接获取中心训练词对应的图像特征向量和音频特征向量，然后可以对中心训练词对应的初始词向量、图像特征向量以及音频特征向量进行拼接得到中心训练词对应的第二训练向量，即第二训练向量可以为1＊(w+1000+1000)的向量。

可以理解的是，Skip－Gram模型可以根据中心训练词来预测与该中心训练词对应的多个相关训练词。

本申请实施例中，可以将中心训练词对应的第二训练向量输入至第二词向量模型(即Skip－Gram模型)的输入层601。第二词向量模型的输入层601可以将中心训练词对应的第二训练向量传递至隐藏层602。隐藏层602可以将第二训练向量与预设权重矩阵(即输入层601与隐藏层602之间的权重矩阵)进行相乘，得到中间训练向量，并将中间训练向量传递至输出层603。输出层603将中间训练向量乘以隐藏层602与输出层603之间的权重矩阵，得到最终输出的各第二训练结果，各第二训练结果均为1＊w维的向量。

S705、根据所述第二训练结果和所述相关训练词对应的初始词向量确定所述第二词向量模型的第二训练误差。

S706、判断所述第二训练误差是否满足第二预设条件。

S707、当所述第二训练误差不满足第二预设条件时，调整所述第二词向量模型的第二模型参数，并返回执行所述获取训练文本，并对所述训练文本进行分词处理，得到各训练词的步骤以及后续步骤，所述第二模型参数包括所述预设权重矩阵，所述预设权重矩阵为所述第二词向量模型的输入层与隐藏层之间的权重矩阵；

S708、当所述第二训练误差满足所述第二预设条件时，得到所述预设权重矩阵。

对于S705至S708，在得到第二词向量模型输出的各第二训练结果后，可以将各第二训练结果分别与该中心训练词对应的各相关训练词的初始词向量进行对比，以此确定第二词向量模型的第二训练误差。当第二训练误差不满足第二预设条件时，可以通过梯度下降法更新第二词向量模型的第二模型参数，即更新输入层601与隐藏层602之间的权重矩阵，以及更新隐藏层602与输出层603之间的权重矩阵。第二预设条件可以为第二训练误差小于指定值。该指定值可以根据具体情况确定。然后，再通过训练文本进行第二词向量模型的训练，直至第二训练误差满足第二预设条件为止，得到训练完成的第二词向量模型，从而得到预设权重矩阵。

S103、根据所述目标词对应的初始词向量、图像特征向量、音频特征向量以及预设权重矩阵生成所述目标词对应的目标词向量。

具体地，可以对目标词对应的初始词向量、图像特征向量以及音频特征向量进行组合，得到目标词对应的组合向量；然后，将组合向量与预设权重矩阵进行相乘处理，得到目标词对应的目标词向量。其中，对目标词对应的初始词向量、图像特征向量以及音频特征向量进行组合，可以是将目标词对应的初始词向量、图像特征向量以及音频特征向量进行拼接，得到1＊(w+1000+1000)的组合向量。

本申请实施例中，在需要生成目标词对应的目标词向量时，可以先确定目标词对应的初始词向量、目标词对应的图像特征向量以及确定目标词对应的音频特征向量。然后，可以根据目标词对应的初始词向量、图像特征向量、音频特征向量以及预设权重矩阵生成目标词对应的目标词向量。即本申请实施例通过结合文本信息、图像信息以及声音信息来进行词向量的生成，使得所生成的词向量具有丰富的特征信息，可以充分体现词的属性特征，以为后续的自然语言处理提供更可靠的词向量，提高自然语言处理的准确性，极大地扩展了自然语言处理的应用范围。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例所述的词向量生成方法，图8示出了本申请实施例提供的词向量生成装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

参照图8，所述词向量生成装置，可以包括：

目标词获取模块801，用于获取目标词，并确定所述目标词对应的初始词向量；

特征向量确定模块802，用于确定所述目标词对应的图像特征向量，以及确定所述目标词对应的音频特征向量；

词向量生成模块803，用于根据所述目标词对应的初始词向量、图像特征向量、音频特征向量以及预设权重矩阵生成所述目标词对应的目标词向量。

在一种可能的实现方式中，所述词向量生成装置，还可以包括：

词汇表构建模块，用于构建词汇表，所述词汇表中包括多个预设词；

图像音频获取模块，用于针对每一个预设词，获取所述预设词对应的图像和音频；

特征向量构建模块，用于根据所述预设词对应的图像构建所述预设词对应的图像特征向量，并根据所述预设词对应的音频构建所述预设词对应的音频特征向量。

示例性的，所述预设词对应的图像包括多张，所述特征向量构建模块，可以包括：

图像输入单元，用于将所述预设词对应的多张图像分别输入至预设的图像识别模型，获取所述图像识别模型的第一目标网络层提取的初始图像特征向量，所述第一目标网络层为所述图像识别模型的最后一层网络；

第一聚类分析单元，用于对各所述初始图像特征向量进行聚类分析，确定第一聚类中心点；

第一距离获取单元，用于获取各所述初始图像特征向量与所述第一聚类中心点之间的第一距离，并根据所述第一距离选取第一预设数量的初始图像特征向量；

图像特征向量构建单元，用于对所述第一预设数量的初始图像特征向量进行均值计算，并将计算得到的均值图像特征向量确定为所述预设词对应的图像特征向量。

具体地，所述第一聚类分析单元，具体用于分别将各所述初始图像特征向量确定为初始聚类中心点，获取其他初始图像特征向量与所述初始聚类中心点之间的第二距离，并将各所述第二距离进行相加，得到各所述初始聚类中心点对应的距离和；将最小距离和对应的初始聚类中心点确定为所述第一聚类中心点。

示例性的，所述预设词对应的音频包括多个，所述特征向量构建模块，还可以包括：

音频输入单元，用于获取所述预设词对应的各音频的Fbank特征，并将各所述Fbank特征分别输入至预设的语音识别模型，获取所述语音识别模型的第二目标网络层提取的初始音频特征向量，所述第二目标网络层为所述语音识别模型的最后一层网络；

第二聚类分析单元，用于对各所述初始音频特征向量进行聚类分析，确定第二聚类中心点；

第三距离获取单元，用于获取各所述初始音频特征向量与所述第二聚类中心点之间的第三距离，并根据所述第三距离选取第二预设数量的初始音频特征向量；

音频特征向量构建单元，用于对所述第二预设数量的初始音频特征向量进行均值计算，并将计算得到的均值音频特征向量确定为所述预设词对应的音频特征向量。

第一训练文本获取模块，用于获取训练文本，并对所述训练文本进行分词处理，得到各训练词；

第一中心训练词确定模块，用于确定中心训练词，并获取所述中心训练词对应的初始词向量和所述中心训练词对应的相关训练词，所述中心训练词为所述各训练词中的任一训练词；

第一训练向量获取模块，用于获取所述相关训练词对应的初始词向量、图像特征向量以及音频特征向量，并对所述相关训练词对应的初始词向量、图像特征向量以及音频特征向量进行组合，得到所述相关训练词对应的第一训练向量；

第一训练结果获取模块，用于将所述第一训练向量输入至第一词向量模型进行处理，得到所述第一词向量模型输出的第一训练结果；

第一训练误差确定模块，用于根据所述第一训练结果和所述中心训练词对应的初始词向量确定所述第一词向量模型的第一训练误差；

第一模型参数调整模块，用于当所述第一训练误差不满足第一预设条件时，调整所述第一词向量模型的第一模型参数，并返回执行所述获取训练文本，并对所述训练文本进行分词处理，得到各训练词的步骤以及后续步骤，所述第一模型参数包括所述预设权重矩阵，所述预设权重矩阵为所述第一词向量模型的输入层与隐藏层之间的权重矩阵；

第一预设权重矩阵获取模块，用于当所述第一训练误差满足所述第一预设条件时，得到所述预设权重矩阵。

在另一种可能的实现方式中，所述词向量生成装置，还可以包括：

第二训练文本获取模块，用于获取训练文本，并对所述训练文本进行分词处理，得到各训练词；

第二中心训练词确定模块，用于确定中心训练词，获取所述中心训练词对应的相关训练词以及所述相关训练词对应的初始词向量，所述中心训练词为所述各训练词中的任一训练词；

第二训练向量获取模块，用于获取所述中心训练词对应的初始词向量、图像特征向量以及音频特征向量，并对所述中心训练词对应的初始词向量、图像特征向量以及音频特征向量进行组合，得到所述中心训练词对应的第二训练向量；

第二训练结果获取模块，用于将所述第二训练向量输入至第二词向量模型进行处理，得到所述第二词向量模型输出的第二训练结果；

第二训练误差确定模块，用于根据所述第二训练结果和所述相关训练词对应的初始词向量确定所述第二词向量模型的第二训练误差；

第二模型参数调整模块，用于当所述第二训练误差不满足第二预设条件时，调整所述第二词向量模型的第二模型参数，并返回执行所述获取训练文本，并对所述训练文本进行分词处理，得到各训练词的步骤以及后续步骤，所述第二模型参数包括所述预设权重矩阵，所述预设权重矩阵为所述第二词向量模型的输入层与隐藏层之间的权重矩阵；

第二预设权重矩阵获取模块，用于当所述第二训练误差满足所述第二预设条件时，得到所述预设权重矩阵。

具体地，所述词向量生成模块803，可以包括：

向量组合单元，用于对所述目标词对应的初始词向量、图像特征向量以及音频特征向量进行组合，得到所述目标词对应的组合向量；

词向量生成单元，用于将所述组合向量与所述预设权重矩阵进行相乘处理，得到所述目标词对应的目标词向量。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

图9为本申请一实施例提供的终端设备的结构示意图。如图9所示，该实施例的终端设备9包括：至少一个处理器90(图9中仅示出一个)、存储器91以及存储在所述存储器91中并可在所述至少一个处理器90上运行的计算机程序92，所述处理器90执行所述计算机程序92时实现上述任意各个词向量生成方法实施例中的步骤。

该终端设备可包括，但不仅限于，处理器90、存储器91。本领域技术人员可以理解，图9仅仅是终端设备9的举例，并不构成对终端设备9的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括输入输出设备、网络接入设备等。

所述处理器90可以是中央处理单元(central processing unit，CPU)，该处理器90还可以是其他通用处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(field－programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器91在一些实施例中可以是所述终端设备9的内部存储单元，例如终端设备9的硬盘或内存。所述存储器91在另一些实施例中也可以是所述终端设备9的外部存储设备，例如所述终端设备9上配备的插接式硬盘，智能存储卡(smart media card，SMC)，安全数字(secure digital，SD)卡，闪存卡(flash card)等。进一步地，所述存储器91还可以既包括所述终端设备9的内部存储单元也包括外部存储设备。所述存储器91用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器91还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行时可实现上述各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质至少可以包括：能够将计算机程序代码携带到装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(read－only memory，ROM，)、随机存取存储器(random accessmemory，RAM，)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读存储介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种词向量生成方法，其特征在于，包括：

获取目标词，并确定所述目标词对应的初始词向量；

根据所述目标词对应的初始词向量、图像特征向量、音频特征向量以及预设权重矩阵生成所述目标词对应的目标词向量；

其中，在所述确定所述目标词对应的图像特征向量，以及确定所述目标词对应的音频特征向量之前包括：

构建词汇表，所述词汇表中包括多个预设词；

针对每一个预设词，获取所述预设词对应的图像和音频，所述预设词对应的图像包括多张；

对所述第一预设数量的初始图像特征向量进行均值计算，并将计算得到的均值图像特征向量确定为所述预设词对应的图像特征向量；

根据所述预设词对应的音频构建所述预设词对应的音频特征向量。

2.如权利要求1所述的词向量生成方法，其特征在于，所述对各所述初始图像特征向量进行聚类分析，确定第一聚类中心点包括：

3.如权利要求1所述的词向量生成方法，其特征在于，所述预设词对应的音频包括多个，所述根据所述预设词对应的音频构建所述预设词对应的音频特征向量包括：

4.如权利要求1所述的词向量生成方法，其特征在于，在所述根据所述目标词对应的初始词向量、图像特征向量、音频特征向量以及预设权重矩阵生成所述目标词对应的目标词向量之前，包括：

5.如权利要求1所述的词向量生成方法，其特征在于，在所述根据所述目标词对应的初始词向量、图像特征向量、音频特征向量以及预设权重矩阵生成所述目标词对应的目标词向量之前，包括：

6.如权利要求1至5任一项所述的词向量生成方法，其特征在于，所述根据所述目标词对应的初始词向量、图像特征向量、音频特征向量以及预设权重矩阵生成所述目标词对应的目标词向量包括：

7.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的词向量生成方法。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的词向量生成方法。