CN108647705B

CN108647705B - 基于图像和文本语义相似度的图像语义消歧方法和装置

Info

Publication number: CN108647705B
Application number: CN201810368937.2A
Authority: CN
Inventors: 李浥东; 汪敏; 郎丛妍; 王涛; 冯松鹤; 董雅茹
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2018-04-23
Filing date: 2018-04-23
Publication date: 2019-04-05
Anticipated expiration: 2038-04-23
Also published as: CN108647705A

Abstract

本发明提供了一种基于图像和文本语义相似度的图像语义消歧方法和装置。该方法包括：将一个多义词的一个意思用一个均值向量表示，使用图像显著性标签对待处理图像进行标注，得到待处理图像的标签，将待处理图像的标签和图像内容转换成向量的形式，得到待处理图像的融合向量；使用余弦相似度分别计算出待处理图像的融合向量与每个均值向量之间的相似度，找出相似度最大的均值向量，将该相似性最高的均值向量对应的意思确定为待处理图像的正确解释。本发明采用图像、文本结合的方法，将图像转换为向量，解决了图像翻译和图像查询歧义的问题，并开创性地实现了有效消除图像歧义性。大大提高了图像查询和解释的准确性，降低了图像解释的错误率。

Description

基于图像和文本语义相似度的图像语义消歧方法和装置

技术领域

本发明涉及图像语义消歧技术领域，尤其涉及一种基于图像和文本语义相似度的图像语义消歧方法和装置。

背景技术

词义消歧是计算语言学领域的基础性关键研究课题，作为一个"中间任务"，直接关系到信息检索、机器翻译、文本分类、语音识别等语言处理应用系统的效率和成败。多义词的词义消歧是为了解决自然语言中同形异义词语在不同上下文环境中的义项标注问题。多义词分布的普遍性决定了多义词词义消歧任务必然成为多种应用问题的关注焦点之一，诸如机器翻译、信息检索、自然语言内容语义分析、语法分析、语音识别和文语转换。据统计，在信息检索中引入部分多义词消歧技术以后，可使其整个系统的正确率明显提高。可见，只要涉及自然语言的计算机应用，多义词的词义消歧工作就是不可回避的基础问题。

多义词的词义消歧广泛用于自然语言处理领域：给定词和它的上下文，就能知道正确的意思，也就是说相同的英文单词有不同中文意思。然而，图像依然存在歧义问题。人们在这一方面的研究非常少。现在我们查询带有‘apple’的图像，就会有多种电脑，手机，还是可以食用的苹果。这往往会带给我们不必要的信息。因此，需要一种对图像的一词多义进行语义消歧的方法。

发明内容

本发明的实施例提供了一种基于图像和文本语义相似度的图像语义消歧方法和装置，以实现有效地对图像的一词多义进行语义消歧。

为了实现上述目的，本发明采取了如下技术方案。

根据本发明的一个方面，提供了一种基于图像和文本语义相似度的图像语义消歧方法，将一个多义词的一个意思用一个均值向量表示，将所有的均值向量，以及每个均值向量对应的多义词的意思关联存储在均值向量数据库中，所述的方法具体包括：

使用图像显著性标签对待处理图像进行标注，得到待处理图像的标签，并标出待处理图像的图像内容，将所述待处理图像的标签和图像内容转换成向量的形式，得到所述待处理图像的融合向量；

使用余弦相似度分别计算出所述待处理图像的融合向量与所述均值向量数据库中的每个均值向量之间的相似度，找出相似度最大的均值向量，将该相似性最高的均值向量对应的意思确定为所述待处理图像的正确解释。

进一步地，所述的将一个多义词的一个意思用一个均值向量表示，将所有的均值向量，以及每个均值向量对应的多义词的意思关联存储在均值向量数据库中，包括：

根据给定的多义词查询WordNet词典，得到所述多义词对应的所有的词义和每个词义对应的意思，根据不同的意思查询图像数据库，分别找到每个意思对应的图像，再通过卷积神经网络的VGG16网络结构的fc7特征层得到图像的特征向量，将所述多义词的同一个意思对应多个特征向量进行平均池化处理，得到均值向量；

所述平均池化处理的计算公式为：

S_c为均值向量，n为特征向量总数，I(q)为同一个多义词的同一个解释q对应的特征向量集，c_i为特征向量；

重新选取新的多义词，按照上述处理过程得到所述新的多义词的每个意思对应的均值向量，重新进行上述处理过程，依次选取设定数量的多义词，得到每个多义词的每个意思对应的均值向量，将所有的均值向量，以及每个均值向量对应的多义词的意思关联存储在均值向量数据库中。

进一步地，所述的使用图像显著性标签对待处理图像进行标注，得到待处理图像的标签，并标出待处理图像的图像内容，包括：

利用已知的图像组成训练样本图像，利用图像视觉显著性分析法对每一幅训练样本图像进行显著性分析，使用卷积神经网络、长短期记忆和/或递归神经网络的NeuralTalk算法对所述训练样本图像生成自然语言的描述，得到图像显著性标签；

选取具有多义词歧义性的待处理图像，使用图像显著性标签对所述待处理图像进行标注，得到待处理图像的标签，并使用neuraltalk标出待处理图像的图像内容，所述待处理图像的标签和图像内容都为文本形式。

进一步地，所述的将所述待处理图像的标签和图像内容转换成向量的形式，得到所述待处理图像的融合向量，包括：

对所述文本形式的待处理图像的标签和图像内容进行预处理，使用谷歌开源的提取深度学习特征的工具—word2vec训练预处理后的标签和图像内容的文本，将文本中的词语转换成向量的形式，将每个词语训练成d维向量，将d维向量进行平均池化处理得到均值向量；

基于所述均值向量分别得到所述待处理图像的标签对应的图像标签向量，以及图像内容对应的图像内容标注向量，使用word2vc工具将所述标签向量、图像内容标注向量进行融合处理，得到待处理图像的融合向量；

所述融合处理的计算公式为：

i_m＝λ_ti_t+λ_ci_c

其中i_m，i_t，i_c分别为融合向量、图像标签向量、图像内容标注向量，λ_t，λ_c为设定的参数。

进一步地，所述的使用余弦相似度分别计算出所述待处理图像的融合向量与所述均值向量数据库中的每个均值向量之间的相似度，找出相似度最大的均值向量，将该相似性最高的均值向量对应的意思确定为所述待处理图像的正确解释，包括：

使用余弦相似度分别计算出所述待处理图像的融合向量与所述均值向量数据库中的每个均值向量之间的相似度，找出相似度最大的均值向量，并根据均值向量数据库中存储的信息得到所述相似性最高的均值向量对应的意思，将该相似性最高的均值向量对应的意思确定为上述待处理图像的正确解释。

根据本发明的另一个方面，提供了一种基于图像和文本语义相似度的图像语义消歧装置，包括：

语义处理模块，用于将一个多义词的一个意思用一个均值向量表示，将所有的均值向量，以及每个均值向量对应的多义词的意思关联存储在均值向量数据库中；

图像处理模块，用于使用图像显著性标签对待处理图像进行标注，得到待处理图像的标签，并标出待处理图像的图像内容，将所述待处理图像的标签和图像内容转换成向量的形式，得到所述待处理图像的融合向量；

图像词义消歧处理模块，用于使用余弦相似度分别计算出所述待处理图像的融合向量与所述均值向量数据库中的每个均值向量之间的相似度，找出相似度最大的均值向量，将该相似性最高的均值向量对应的意思确定为所述待处理图像的正确解释。

进一步地，所述的语义处理模块，具体用于根据给定的多义词查询WordNet词典，得到所述多义词对应的所有的词义和每个词义对应的意思，根据不同的意思查询图像数据库，分别找到每个意思对应的图像，再通过卷积神经网络的VGG16网络结构的fc7特征层得到图像的特征向量，将所述多义词的同一个意思对应多个特征向量进行平均池化处理，得到均值向量；

所述平均池化处理的计算公式为：

进一步地，所述的图像处理模块，包括：

图像标注处理模块，具体用于利用已知的图像组成训练样本图像，利用图像视觉显著性分析法对每一幅训练样本图像进行显著性分析，使用卷积神经网络、长短期记忆和/或递归神经网络的NeuralTalk算法对所述训练样本图像生成自然语言的描述，得到图像显著性标签；选取具有多义词歧义性的待处理图像，使用图像显著性标签对所述待处理图像进行标注，得到待处理图像的标签，并使用neuraltalk标出待处理图像的图像内容，所述待处理图像的标签和图像内容都为文本形式；

图像向量化处理模块，具体用于对所述文本形式的待处理图像的标签和图像内容进行预处理，使用谷歌开源的提取深度学习特征的工具—word2vec训练预处理后的标签和图像内容的文本，将文本中的词语转换成向量的形式，将每个词语训练成d维向量，将d维向量进行平均池化处理得到均值向量；基于所述均值向量分别得到所述待处理图像的标签对应的图像标签向量，以及图像内容对应的图像内容标注向量，使用word2vc工具将所述标签向量、图像内容标注向量进行融合处理，得到待处理图像的融合向量；

所述融合处理的计算公式为：

i_m＝λ_ti_t+λ_ci_c

进一步地，所述的图像词义消歧处理模块，具体用于使用余弦相似度分别计算出所述待处理图像的融合向量与所述均值向量数据库中的每个均值向量之间的相似度，找出相似度最大的均值向量，并根据均值向量数据库中存储的信息得到所述相似性最高的均值向量对应的意思，将该相似性最高的均值向量对应的意思确定为上述待处理图像的正确解释。

由上述本发明的实施例提供的技术方案可以看出，本发明实施例提供的基于图像和文本语义相似度的图像语义消歧的方法和装置，采用图像、文本结合的方法，将图像转换为向量，解决了图像翻译和图像查询歧义的问题，开创性地实现了对图像的一词多义进行有效地语义消歧。大大提高了图像查询和解释的准确性，降低了图像解释的错误率。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于图像和文本语义相似度的图像语义消歧方法和系统流程图；

图2为本发明实施例提供的一种语义处理模块的处理过程实例示意图；

图3为本发明实施例提供的一种基于图像和文本语义相似度的图像语义消歧装置的结构图，包括：语义处理模块31，图像处理模块32，图像词义消歧处理模块33。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

实施例一

本发明实施例提供的一种基于图像和文本语义相似度的图像语义消歧方法的处理流程如图1所示，包括以下步骤：

步骤1：使用图像显著性标签对待处理图像进行标注，得到待处理图像的标签，并标出待处理图像的图像内容。

利用大量已知的图像组成训练样本图像，利用图像视觉显著性分析法对每一幅训练样本图像进行显著性分析，使用卷积神经网络CNN、长短期记忆LSTM和/或递归神经网络RNN的NeuralTalk算法对训练样本图像生成自然语言的描述，得到图像显著性标签。

搜集大量具有多义词歧义性的图像，如带有苹果的图像，分为苹果电脑，手机还是食用苹果，并将同一个多义词的同一类图像放在同一个数据集中。然后，将所有的数据集进行集中，得到同义词图像样本集。

从上述同义词图像样本集中选取待处理图像，使用图像显著性标签对上述待处理图像进行标注，得到待处理图像的标签，并使用neuraltalk工具标出待处理图像的图像内容，上述待处理图像的标签和图像内容都为文本形式。

步骤2：将待处理图像的标签和图像内容转换成向量的形式，分别得到标签向量、图像内容标注向量，将上述标签向量、图像内容标注向量进行融合处理，得到待处理图像的融合向量。

对上述文本形式的待处理图像的标签和图像内容进行预处理，使用谷歌开源的提取深度学习特征的工具—word2vec训练预处理后的标签和图像内容的文本，将文本中的词语转换成向量的形式。将每个词语训练成d维向量，然后，将d维向量进行mean pooling(平均池化)处理得到均值向量，得到所有词语的向量表达文件vectors.bin文件，d为可调参数,通常取d＝200。

基于上述均值向量可以分别得到上述待处理图像的标签对应的图像标签向量，以及图像内容对应的图像内容标注向量。然后，使用word2vc工具将上述标签向量、图像内容标注向量进行融合处理，得到待处理图像的融合向量。其中将标签向量与图像内容标注向量融合的算法为i_m＝λ_ti_t+λ_ci_c,其中i_m，i_t，i_c分别为融合向量、图像标签向量、图像内容标注向量，λ_t，λ_c为由经验所得的参数。

步骤3：将一个多义词的一个意思用一个均值向量表示，将所有的均值向量，以及每个均值向量对应的多义词的意思关联存储在均值向量数据库中。

该步骤可以通过语义处理模块实现，语义处理模块要实现基于图像的语义表达，利用图像识别模块的图像数据库和具有上下文关系的语义数据库，使得特定语义对应于数据库特定图像，将特定语义与图像建立链接，

根据给定的多义词查询WordNet词典，得到上述多义词对应的所有的词义和每个词义对应的意思。根据不同的意思查询图像数据库，找到相应图像。再通过卷积神经网络的VGG16网络结构的fc7特征层得到图像的4096维度的特征向量。一个多义词的同一个意思会对应多个特征向量，需要将多个特征向量进行mean pooling(平均池化)处理，得到均值向量，这样一个多义词的一个意思只用一个均值向量表示。

所述平均池化处理的计算公式为：

S_c为均值向量，n为特征向量总数，I(q)为同一个多义词的同一个解释q对应的特征向量集，c_i为特征向量。

重新选取新的多义词，按照上述处理过程得到上述新的多义词的每个意思对应的均值向量。重新进行上述处理过程，依次选取设定数量的多义词，得到每个多义词的每个意思对应的均值向量。然后，将所有的均值向量，以及每个均值向量对应的多义词的意思关联存储在均值向量数据库中。

图2为本发明实施例提供的一种语义处理模块的处理过程实例示意图。给定一多义词bat，查询WordNet词典，找到bat的所有多义词性词义chiropteran，squash racket，cricket bat，然后从数据集中找到每一个词义对应的多张图像，使用VGG16模型生成每一个图像的特征向量，最后进行融合，得到每个词义的唯一的均值向量。

步骤4：使用余弦相似度分别计算出所述待处理图像的融合向量与所述均值向量数据库中的每个均值向量之间的相似度，将该相似性最高的均值向量对应的意思确定为所述待处理图像的正确解释。

使用余弦相似度分别计算出上述待处理图像的融合向量与上述均值向量数据库中的每个均值向量之间的相似度，找出相似度最大的均值向量，并根据均值向量数据库中存储的信息得到上述相似性最高的均值向量对应的意思，将该相似性最高的均值向量对应的意思确定为上述待处理图像的正确解释。

上述相似度的计算公式如下：

其中，a为待处理图像的融合向量，b₁,b₂,b₃...为各个均值向量，n为均值向量总数，cosθ为相似度值。

本领域技术人员应能理解上述相似度的计算公式仅为举例，其他现有的或今后可能出现的相似度的计算公式如可适用于本发明实施例，也应包含在本发明保护范围以内，并在此以引用方式包含于此。

实施例二

该实施例提供的一种基于图像和文本语义相似度的图像语义消歧装置的结构如图3所示，包括如下的模块：

语义处理模块31，用于将一个多义词的一个意思用一个均值向量表示，将所有的均值向量，以及每个均值向量对应的多义词的意思关联存储在均值向量数据库中；

图像处理模块32，用于使用图像显著性标签对待处理图像进行标注，得到待处理图像的标签，并标出待处理图像的图像内容，将所述待处理图像的标签和图像内容转换成向量的形式，得到所述待处理图像的融合向量；

图像词义消歧处理模块33，用于使用余弦相似度分别计算出所述待处理图像的融合向量与所述均值向量数据库中的每个均值向量之间的相似度，找出相似度最大的均值向量，将该相似性最高的均值向量对应的意思确定为所述待处理图像的正确解释。

进一步地，所述的语义处理模块31，具体用于根据给定的多义词查询WordNet词典，得到所述多义词对应的所有的词义和每个词义对应的意思，根据不同的意思查询图像数据库，分别找到每个意思对应的图像，再通过卷积神经网络的VGG16网络结构的fc7特征层得到图像的特征向量，将所述多义词的同一个意思对应多个特征向量进行平均池化处理，得到均值向量；

所述平均池化处理的计算公式为：

进一步地，所述的图像处理模块32，具体包括：

所述融合处理的计算公式为：

i_m＝λ_ti_t+λ_ci_c

进一步地，所述的图像词义消歧处理模块33，具体用于使用余弦相似度分别计算出所述待处理图像的融合向量与所述均值向量数据库中的每个均值向量之间的相似度，找出相似度最大的均值向量，并根据均值向量数据库中存储的信息得到所述相似性最高的均值向量对应的意思，将该相似性最高的均值向量对应的意思确定为上述待处理图像的正确解释。

用本发明实施例的装置进行基于图像和文本语义相似度的图像语义消歧的具体过程与前述方法实施例类似，此处不再赘述。

综上所述，本发明实施例提供的基于图像和文本语义相似度的图像语义消歧的方法和装置，采用图像、文本结合的方法，将图像转换为向量，解决了图像翻译和图像查询歧义的问题，开创性地实现了对图像的一词多义进行有效地语义消歧。大大提高了图像查询和解释的准确性，降低了图像解释的错误率。

本实施例提供的装置中的所有模块都是完全自动的，不需要人工干预，因此可以嵌入到各类Web图像查询系统中去。此外，本装置还可以作为子装置嵌入到通用情景分析系统中，具有广泛的应用前景。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于图像和文本语义相似度的图像语义消歧方法，其特征在于，将一个多义词的一个意思用一个均值向量表示，将每个均值向量，以及每个均值向量对应的多义词的意思关联存储在均值向量数据库中，所述的方法具体包括：

2.根据权利要求1所述的方法，其特征在于，所述的将一个多义词的一个意思用一个均值向量表示，将每个均值向量，以及每个均值向量对应的多义词的意思关联存储在均值向量数据库中，包括：

所述平均池化处理的计算公式为：

3.根据权利要求1或2所述的方法，其特征在于，所述的使用图像显著性标签对待处理图像进行标注，得到待处理图像的标签，并标出待处理图像的图像内容，包括：

4.根据权利要求3所述的方法，其特征在于，所述的将所述待处理图像的标签和图像内容转换成向量的形式，得到所述待处理图像的融合向量，包括：

所述融合处理的计算公式为：

i_m＝λ_ti_t+λ_ci_c

5.根据权利要求4所述的方法，其特征在于，所述的使用余弦相似度分别计算出所述待处理图像的融合向量与所述均值向量数据库中的每个均值向量之间的相似度，找出相似度最大的均值向量，将该相似性最高的均值向量对应的意思确定为所述待处理图像的正确解释，包括：

6.一种基于图像和文本语义相似度的图像语义消歧装置，其特征在于，包括：

语义处理模块，用于将一个多义词的一个意思用一个均值向量表示，将每个均值向量，以及每个均值向量对应的多义词的意思关联存储在均值向量数据库中；

7.根据权利要求6所述的装置，其特征在于：

所述的语义处理模块，具体用于根据给定的多义词查询WordNet词典，得到所述多义词对应的所有的词义和每个词义对应的意思，根据不同的意思查询图像数据库，分别找到每个意思对应的图像，再通过卷积神经网络的VGG16网络结构的fc7特征层得到图像的特征向量，将所述多义词的同一个意思对应多个特征向量进行平均池化处理，得到均值向量；

所述平均池化处理的计算公式为：

8.根据权利要求6或7所述的装置，其特征在于，所述的图像处理模块，包括：

所述融合处理的计算公式为：

i_m＝λ_ti_t+λ_ci_c

9.根据权利要求8所述的装置，其特征在于：

所述的图像词义消歧处理模块，具体用于使用余弦相似度分别计算出所述待处理图像的融合向量与所述均值向量数据库中的每个均值向量之间的相似度，找出相似度最大的均值向量，并根据均值向量数据库中存储的信息得到所述相似性最高的均值向量对应的意思，将该相似性最高的均值向量对应的意思确定为上述待处理图像的正确解释。