CN112597278A

CN112597278A - 一种语义信息融合方法、装置、电子设备及存储介质

Info

Publication number: CN112597278A
Application number: CN202011573556.1A
Authority: CN
Inventors: 任亮; 傅雨梅; 文齐辉; 车倩
Original assignee: Beijing Zhiyin Intelligent Technology Co ltd
Current assignee: Beijing Zhiyin Intelligent Technology Co ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-04-02
Anticipated expiration: 2040-12-25
Also published as: CN112597278B

Abstract

本申请实施例提供一种语义信息融合方法、装置、电子设备及存储介质，涉及语义信息融合技术领域。该方法包括利用语言模型根据每个类别单词对应的第一词嵌入向量获取句子的第二词嵌入向量；通过语料库获得每个类别单词对应的视觉特征描述；根据所述视觉特征描述获取融合视觉特征的句嵌入向量；将所述第二词嵌入向量和所述句嵌入向量按照预设的比例系数进行融合，以生成融合视觉特征后的词嵌入向量，在原有类别单词的词嵌入向量基础上，补充其他类别的视觉特征信息，从而缓解语义间隔造成的影响，解决现有方法中导致语义间隔的问题。

Description

一种语义信息融合方法、装置、电子设备及存储介质

技术领域

本申请涉及语义信息融合技术领域，具体而言，涉及一种语义信息融合方法、装置、电子设备及存储介质。

背景技术

目前在零样本图像分类任务中常使用词嵌入向量和属性向量这两种语义向量来表征类别，但普遍具有单词可能会产生歧义性和词嵌入向量与类别的视觉特征没有必然联系两个问题，从而导致语义间隔问题。

发明内容

本申请实施例的目的在于提供一种语义信息融合方法、装置、电子设备及存储介质，在原有类别单词的词嵌入向量基础上，补充其他类别的视觉特征信息，从而缓解语义间隔造成的影响，解决现有方法中导致语义间隔的问题。

本申请实施例提供了一种语义信息融合方法，所述方法包括：

利用语言模型根据每个类别单词对应的第一词嵌入向量获取句子的第二词嵌入向量；

通过语料库获得每个类别单词对应的视觉特征描述；

根据所述视觉特征描述获取融合视觉特征的句嵌入向量；

将所述第二词嵌入向量和所述句嵌入向量按照预设的比例系数进行融合，以生成融合视觉特征后的词嵌入向量。

在上述实现过程中，通过SIF算法融入视觉特征信息生成的词嵌入向量不仅具有较强的语义性，且在语义空间中与相近的类别也会更加相似，有效缓解语义间隔带来的影响。

进一步地，所述利用语言模型根据每个类别单词对应的第一词嵌入向量获取句子的第二词嵌入向量，包括：

通过Word2Vec模型或GloVe模型获取每个类别单词的第一词嵌入向量；

根据所述第一词嵌入向量利用词袋模型获取句子的第二词嵌入向量；

所述第二词嵌入向量表示为：

其中，v_s表示所述句子的第二词嵌入向量，n表示所述句子中的单词总数，v_i表示所述句子的第i个单词的第一词嵌入向量。

在上述实现过程中，词袋模型不需要考虑文法以及单词的顺序，将一句话或一段文本中的所有单词的第一词嵌入向量取平均值用来作为整个类别的类别语义向量，因此计算简单高效，且减少高频词汇的贡献，增加低频词汇的贡献，从而反映句子主题。

进一步地，所述通过语料库获得每个类别单词对应的视觉特征描述，包括：

通过爬虫的方式采集网络数据库中的视觉特征信息，以生成语料库；

获取所述语料库中的每个类别单词对应的视觉特征描述。

在上述实现过程中，通过爬虫可采集到每个类别单词对应的视觉特征描述。

进一步地，所述根据所述视觉特征描述获取融合视觉特征的句嵌入向量，包括：

对所述视觉特征描述进行学习，以获取所述视觉特征描述的第三词嵌入向量；

利用Sent2Vec模型并结合n-gram的词和所述第三词嵌入向量，以获得所述句嵌入向量；

所述句嵌入向量表示为：

其中，R(W)表示句子W中出现n-gram的列表，v_w表示单词w的第三词嵌入向量，v_W表示句子W的句嵌入向量。

在上述实现过程中，Sent2Vec模型是用于学习句子嵌入的无监督模型，通过临近词的词嵌入向量平均值来预测中间词的词嵌入向量，在Sent2Vec模型中引入n-gram的情形，将句子中所有n-gram的词向量计算出的平均值作为句嵌入向量。

进一步地，所述将所述第二词嵌入向量和所述句嵌入向量按照预设的比例系数进行融合，以生成融合视觉特征后的词嵌入向量，包括：

获取所述比例系数，以生成词嵌入向量；

所述词嵌入向量表示为：

v_f＝αv_we+(1-α)v_s；

其中，v_f表示所述词嵌入向量，v_s表示所述第二词嵌入向量，v_we表示句嵌入向量，α表示所述第二词嵌入向量和所述句嵌入向量融合的比例系数。

在上述实现过程中，通过比例系数将两种语义向量进行融合，得到融合视觉特征后的词嵌入向量。

本申请实施例还提供一种语义信息融合装置，所述装置包括：

词向量获取模块，用于利用语言模型根据每个类别单词对应的第一词嵌入向量获取句子的第二词嵌入向量；

视觉特征描述获取模块，用于通过语料库获得每个类别单词对应的视觉特征描述；

句向量获取模块，用于根据所述视觉特征描述获取融合视觉特征的句嵌入向量；

融合模块，用于将所述第二词嵌入向量和所述句嵌入向量按照预设的比例系数进行融合，以生成融合视觉特征后的词嵌入向量。

在上述实现过程中，通过语义融合的SIF算法，通过融合视觉特征信息从而缓解语义间隔问题带来的影响。

进一步地，所述句向量获取模块包括：

学习模块，用于对所述视觉特征描述进行学习，以获取所述视觉特征描述的第三词嵌入向量；

句向量获取模块，用于利用Sent2Vec模型并结合n-gram的词和所述第三词嵌入向量，以获得所述句嵌入向量；

所述句嵌入向量表示为：

在上述实现过程中，对语料库中的视觉特征进行学习，获得融合视觉特征的句嵌入向量表示。

进一步地，所述融合模块包括：

获取所述比例系数，以生成词嵌入向量；

所述词嵌入向量表示为：

v_f＝αv_we+(1-α)v_s；

在上述实现过程中，通过比例系数将两种向量进行合理融合，获得融合视觉特征的词嵌入向量表示。

本申请实施例提供一种电子设备，所述电子设备包括存储器以及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行上述中任一项所述的语义信息融合方法。

本申请实施例还提供一种可读存储介质，所述可读存储介质中存储有计算机程序指令，所述计算机程序指令被一处理器读取并运行时，执行上述中任一项所述的语义信息融合方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种语义信息融合方法的流程图；

图2为本申请实施例提供的生成第二词嵌入向量的流程图；

图3为本申请实施例提供的生成视觉特征描述的流程图；

图4为本申请实施例提供的获得句嵌入向量的流程图；

图5-图6为本申请实施例提供的其中一种使用SIF算法前后对比图；

图7-图8为本申请实施例提供的另一种使用SIF算法前后对比图；

图9为本申请实施例提供的语义信息融合装置的结构框图；

图10为本申请实施例提供的语义信息融合装置的整体结构框图。

图标：

100-词向量获取模块；101-第一词嵌入向量模块；102-第二词嵌入向量模块；200-视觉特征描述模块；201-语料库模块；202-视觉特征描述获取模块；300-句向量模块；301-学习模块；302-句向量获取模块；400-融合模块。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

实施例1

请参看图1，图1为本申请实施例提供的一种语义信息融合方法的流程图。该方法基于SIF算法(Semantic Information Fusion，语义信息融合)实现，具体包括以下步骤：

步骤S100：利用语言模型根据每个类别单词对应的第一词嵌入向量获取句子的第二词嵌入向量；

如图2所示，为生成第二词嵌入向量的流程图，该步骤具体可以包括：

步骤S101：通过Word2Vec模型或GloVe模型获取每个类别单词的第一词嵌入向量；

步骤S102：根据所述第一词嵌入向量利用词袋模型获取句子的第二词嵌入向量；

所述第二词嵌入向量表示为：

通过Word2Vec或GloVe等语言模型获取每个类别单词对应的第一词嵌入向量；利用BOW模型(Bag-of-words，词袋模型)获取句子的第二词嵌入向量时，词袋模型的表达方式不考虑文法以及词的顺序，是将一句话或一段文本中的所有单词的第一词嵌入向量取平均值用来作为整个类别的类别语义向量，以用于后续计算。

该利用词袋模型获取第二词嵌入向量的方法不仅能取得一定效果，而且计算十分简单、高效。这样的词向量构建方法能使常用高频词对表现的句子或文本贡献减少，相反能够突出低频词如颜色、大小等，更能反映句子的主题。在下文中用于对外部百科数据进行视觉特征描述中的停用词的去除，以更好地基于有用特征信息生成句子的词向量表示。

步骤S200：通过语料库获得每个类别单词对应的视觉特征描述；

如图3所示，为生成视觉特征描述的流程图，该步骤具体可以包括：

步骤S201：通过爬虫的方式采集网络数据库中的视觉特征信息，以生成语料库；

步骤S202：获取所述语料库中的每个类别单词对应的视觉特征描述。

通过爬虫工具对维基百科、百度百科等外部网络数据库中的视觉特征信息，生成语料库，抽取每个每个类别单词对应的视觉特征描述。

步骤S300：根据所述视觉特征描述获取融合视觉特征的句嵌入向量；

具体地，如图4所示，为获得句嵌入向量的流程图，该步骤可以包括：

步骤S301：对所述视觉特征描述进行学习，以获取所述视觉特征描述的第三词嵌入向量；

利用步骤S100所述的方法，对语料库中的视觉特征描述进行学习，得到融合视觉特征的第三词嵌入向量。

步骤S302：利用Sent2Vec模型并结合n-gram的词和所述第三词嵌入向量，以获得所述句嵌入向量；

所述句嵌入向量表示为：

其中，R(W)表示句子W中出现n-gram(包含uni-gram)的列表，v_w表示单词w的第三词嵌入向量，v_W表示句子W的句嵌入向量。

n-gram为单词的n元，即是多个连续单词的集合，Sent2Vec模型是用于学习句子嵌入的无监督模型，概念上是C-BOW模型的扩展。通常的Sent2Vec模型是利用临近词的词嵌入向量平均值来预测中间词的词嵌入向量的，而本申请中的Sent2Vec模型中则引入n-gram的情况，将每句话中所有n-gram的词向量计算出的平均值作为这句话的句嵌入向量。

步骤S400：将所述第二词嵌入向量和所述句嵌入向量按照预设的比例系数进行融合，以生成融合视觉特征后的词嵌入向量。

具体地，获取所述比例系数，以生成词嵌入向量；

所述词嵌入向量表示为：

v_f＝αv_we+(1-α)v_s；

将第二词嵌入向量和句嵌入向量按照一定的比例系数融合在一起，得到该类别融合视觉特征的词嵌入向量表示。

通过SIF算法将视觉特征描述信息融入后获得的每个类别的句嵌入向量不仅具有强语义性，其在语义空间中与相近的类别看起来也会更加相似。如图5-图6所示，分别为其中一种使用SIF算法前后对比图，以苹果公司的“Apple”和水果“apple”为例，经过SIF算法融合信息后的类别嵌入向量经t-SNE降维后的分布，与图5相比图6中“apple”与水果的联系更加紧密了，而“Apple”与“apple”之间的距离也得到了适当的延长，没有再出现图5中的突出现象，由此表明，经SIF融合视觉特征信息后，类别歧义性确实得到了有效的缓解。

对于词向量与类别视觉特征没有必然联系的问题，如图7-图8所示，分别为另一种使用SIF算法前后对比图，图5为经过SIF算法融合信息进行了改进，明显能发现，“salad”、“soup”和“cooked”之间的距离都有增加，其中“salad”比较靠近一些蔬菜类，而“cooked”也更靠近了肉类食品。

综上，加入类别的视觉特征可实现上述效果，并且经过SIF算法融合视觉特征信息后的类别语义嵌入向量，与属性向量和词嵌入向量等都是独立于零样本学习模型，因此在应用融合后的类别语义嵌入向量时，直接替换或拼接原有的属性向量和词嵌入向量即可，应用过程十分简单，并且应用后效果也能得到一定的提升。这种方法也具有一定的泛用性，对于大多数零样本学习模型均适用。

因此，本申请中的基于语义信息融合的SIF算法，在原有类别的词嵌入向量基础之上，补充类别的视觉特征信息，从而缓解了语义间隔问题带来的影响；SIF算法解决了零样本训练中的两类问题，使用Sent2Vec和词袋模型获得基于视觉特征的句嵌入向量，按一定比例融入类别单词的第二词嵌入向量补充了视觉特征信息，有效缓解了语义间隔带来的问题。

实施例2

本申请实施例提供一种语义信息融合装置，应用于实施例1所述的语义信息融合方法，如图9所示，为语义信息融合装置的结构框图，所述装置包括：

词向量获取模块100，用于利用语言模型根据每个类别单词对应的第一词嵌入向量获取句子的第二词嵌入向量；

视觉特征描述模块200，用于通过语料库获得每个类别单词对应的视觉特征描述；

句向量模块300，用于根据所述视觉特征描述获取融合视觉特征的句嵌入向量；

融合模块400，用于将所述第二词嵌入向量和所述句嵌入向量按照预设的比例系数进行融合，以生成融合视觉特征后的词嵌入向量。

如图10所示，为语义信息融合装置的整体结构框图，其中，词向量获取模块100具体可以包括：

第一词嵌入向量模块101，用于通过Word2Vec模型或GloVe模型获取每个类别单词的第一词嵌入向量；

第二词嵌入向量模块102，用于根据所述第一词嵌入向量利用词袋模型获取句子的第二词嵌入向量；

所述第二词嵌入向量表示为：

视觉特征描述模块200包括：

语料库模块201，用于通过爬虫的方式采集网络数据库中的视觉特征信息，以生成语料库；

视觉特征描述获取模块202，用于获取所述语料库中的每个类别单词对应的视觉特征描述。

所述句向量模块300包括：

学习模块301，用于对所述视觉特征描述进行学习，以获取所述视觉特征描述的第三词嵌入向量；

句向量获取模块302，用于利用Sent2Vec模型并结合n-gram的词和所述第三词嵌入向量，以获得所述句嵌入向量；

所述句嵌入向量表示为：

所述融合模块400的具体实现过程如下：

获取所述比例系数，以生成词嵌入向量；其中，所述词嵌入向量可以表示为：

v_f＝αv_we+(1-α)v_s；

通过在原有类别单词的词嵌入向量基础上，补充其他类别的视觉特征信息，从而缓解语义间隔造成的影响，解决现有方法中导致语义间隔的问题。

本申请实施例还提供一种电子设备，所述电子设备包括存储器以及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行实施例1所述的语义信息融合方法。

本申请实施例还提供一种可读存储介质，所述可读存储介质中存储有计算机程序指令，所述计算机程序指令被一处理器读取并运行时，执行施例1所述的语义信息融合方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种语义信息融合方法，其特征在于，所述方法包括：

通过语料库获得每个类别单词对应的视觉特征描述；

根据所述视觉特征描述获取融合视觉特征的句嵌入向量；

2.根据权利要求1所述的语义信息融合方法，其特征在于，所述利用语言模型根据每个类别单词对应的第一词嵌入向量获取句子的第二词嵌入向量，包括：

所述第二词嵌入向量表示为：

3.根据权利要求1所述的语义信息融合方法，其特征在于，所述通过语料库获得每个类别单词对应的视觉特征描述，包括：

获取所述语料库中的每个类别单词对应的视觉特征描述。

4.根据权利要求1所述的语义信息融合方法，其特征在于，所述根据所述视觉特征描述获取融合视觉特征的句嵌入向量，包括：

所述句嵌入向量表示为：

其中，R(W)表示句子W中出现n-gram的列表，v_w表示单词w的第一词嵌入向量，v_W表示句子W的句嵌入向量。

5.根据权利要求4所述的语义信息融合方法，其特征在于，所述将所述第二词嵌入向量和所述句嵌入向量按照预设的比例系数进行融合，以生成融合视觉特征后的词嵌入向量，包括：

获取所述比例系数，以生成词嵌入向量；

所述词嵌入向量表示为：

v_f＝αv_we+(1-α)v_s；

6.一种语义信息融合装置，其特征在于，所述装置包括：

7.根据权利要求6所述的语义信息融合装置，其特征在于，所述句向量获取模块包括：

所述句嵌入向量表示为：

8.根据权利要求7所述的语义信息融合装置，其特征在于，所述融合模块包括：

获取所述比例系数，以生成词嵌入向量；

所述词嵌入向量表示为：

v_f＝αv_we+(1-α)v_s；

9.一种电子设备，其特征在于，所述电子设备包括存储器以及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行根据权利要求1至5中任一项所述的语义信息融合方法。

10.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序指令，所述计算机程序指令被一处理器读取并运行时，执行权利要求1至5任一项所述的语义信息融合方法。