CN112529986B

CN112529986B - 图文相关性的计算模型建立方法、计算方法及装置

Info

Publication number: CN112529986B
Application number: CN201910891325.6A
Authority: CN
Inventors: 王巧华; 刘林; 阴凉; 唐楠; 李小康; 任峰; 张人愉; 祁小玉; 殷睿阳
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-09-19
Filing date: 2019-09-19
Publication date: 2023-09-22
Anticipated expiration: 2039-09-19
Also published as: CN112529986A

Abstract

本申请公开了图文相关性的计算模型建立方法、计算方法及装置，涉及计算机领域。具体实现方案为：将图像样本输入第一神经网络，将文本样本输入第二神经网络；将图像样本的表示向量和文本样本的表示向量输入第三神经网络的输入端，第三神经网络的输入端包括全连接层；第一、第二和第三神经网络形成初始化模型，利用图像样本和文本样本对初始化模型进行训练，得到图文相关性的计算模型。将目标图像和目标文本输入上述模型，即可得出相关性值。通过上述方案，以整体模型来进行相关性的计算。在训练时整体模型中的三个神经网络联动训练，打破模型之间的壁垒，提高相关性计算的准确度。

Description

图文相关性的计算模型建立方法、计算方法及装置

技术领域

本申请涉及一种计算机领域，尤其涉及一种图文相关性的计算模型建立方法、计算方法及装置。

背景技术

在信息富媒体化的时代，图像作为一种重要的富媒体元素，将图像和文字配合使用，可以提供更加便捷高效的信息传达和获取方式。但如何确认图像和文字是否正确匹配是一个问题，人工确认的方式通常耗时费力。

对此，现有技术分别采用成熟的图像特征模型和文字特征模型得到目标图像和目标文字的表示向量，再利用匹配度模型得出二者的相关性。由于模型的成熟度、使用场景等约束，准确率偏低。

发明内容

本申请实施例提供一种图文相关性的计算模型建立方法、计算方法及装置，以解决现有技术中的一个或多个技术问题。

第一方面，本申请实施例提供了一种图文相关性的计算模型建立方法，包括：

将图像样本输入第一神经网络，将文本样本输入第二神经网络；

第一神经网络的输出端输出图像样本的表示向量，第二神经网络的输出端输出文本样本的表示向量；

将图像样本的表示向量和文本样本的表示向量输入第三神经网络的输入端，第三神经网络的输入端包括全连接层；

第一神经网络、第二神经网络和第三神经网络形成初始化模型，利用图像样本和文本样本对初始化模型进行训练，得到图文相关性的计算模型；

图文相关性的计算模型输出图像样本和文本样本的相关性值。

通过上述方案，第三神经网络的全连接层将第一神经网络和第二神经网络联系起来，构成一个端到端的整体模型。以整体模型来进行相关性的计算。在训练时，整体模型中的三个神经网络联动训练，可以打破模型之间的壁垒，提高相关性计算的准确度。

在一种实施方式中，第二神经网络包括：语义表示网络和上下文关联网络，语义表示网络用于得到文本样本的语义特征表示向量，上下文关联网络用于得到文本的上下文关联特征表示向量；

将语义表示网络所输出的向量中的N个元素，分别输入至上下文关联网络的N个节点，N个节点连续，N为大于0的正整数；

将上下文关联网络的第N个节点所输出的向量作为文本样本的表示向量。

通过上述方案，将语义表示网络和上下文关联网络连接起来。第二神经网络的输出不只有文本样本的语义特征，还包括有文本样本的上下文特征的约束，从而文本的表示向量对于文本的表示更为准确。

在一种实施方式中，还包括：

在元素的数量多于节点数量的情况下，根据节点的数量，选择对应数量的元素，作为N个元素。

通过上述方案，对上下文关联网络设定节点数量，可以利于其网络的训练。如果每次训练按照不同节点数量进行，有可能导致网络训练的结果不准确或训练耗时更长。

在一种实施方式中，还包括：

在元素的数量少于节点数量的情况下，将未接收到元素的节点的输入值设置为0。

通过上述方案，在语义表示网络所输出的向量中的元素数量少于节点数量的情况下，可以对未接到向量的节点的输入置0，相当于不训练该节点。由此可以提高该网络训练的精度。如果该节点的输入不置0，则会继续进行上下文关联训练，导致最终的精度受到影响。

在一种实施方式中，第二神经网络包括语义表示网络；

将语义表示网络所输出的向量作为文本样本的表示向量。

通过上述方案，相比于语义表示网络和上下文关联网络组合所形成的第二神经网络，以语义表示网络作为第二神经网络可以降低网络的复杂程度，从而可以以较少的时间完成对网络的训练。

在一种实施方式中，利用图像样本和文本样本对初始化模型进行训练，得到图文相关性的计算模型，包括：

获取图像样本和文本样本的相关性值的标签；

调整第一神经网络、第二神经网络和第三神经网络的参数，使相关性值与标签的差值在预设范围内。

通过上述方案，根据相关性值与标签的差值整体调整初始化模型中的所有参数，可以对该模型进行整体训练。打破模型之间的壁垒，提高相关性计算的准确度。

第二方面，本申请实施例提供了一种图文相关性计算方法，包括：

将目标图像和目标文本输入图文相关性计算模型，得到目标图像和目标文本的相关性值；

图文相关性计算模型是通上述任一方法建立的模型。

第三方面，本申请实施例提供了一种图文相关性的计算模型建立的装置，包括：

样本输入模型，用于将图像样本输入第一神经网络，将文本样本输入第二神经网络；第一神经网络的输出端输出图像样本的表示向量，第二神经网络的输出端输出文本样本的表示向量；

初始化模型建立模块，用于将图像样本的表示向量和文本样本的表示向量输入第三神经网络的输入端，第三神经网络的输入端包括全连接层；

第一神经网络、第二神经网络和第三神经网络形成初始化模型；

训练模块，用于利用图像样本和文本样本对初始化模型进行训练，得到图文相关性的计算模型，图文相关性的计算模型输出所述图像样本和所述文本样本的相关性值。

初始化模型建立模块包括：

第一执行模块子模块，用于将语义表示网络所输出的向量中的N个元素，分别输入至上下文关联网络的N个节点，N个节点连续，N为大于0的正整数；

第二执行模块子模块，用于将上下文关联网络的第N个节点所输出的向量作为文本样本的表示向量。

在一种实施方式中，初始化模型建立模块还包括：

第三执行模块子模块，用于在元素的数量多于节点数量的情况下，根据节点的数量，选择对应数量的元素，作为N个元素。

在一种实施方式中，初始化模型建立模块还包括：

第四执行模块子模块，用于在元素的数量少于节点数量的情况下，将未接收到元素的节点的输入值设置为0。

在一种实施方式中，该训练模块包括：

标签获取子模块，用于获取图像样本和文本样本的相关性值的标签；

参数调整子模块，用于调整第一神经网络、第二神经网络和第三神经网络的参数，使相关性值与标签的差值在预设范围内。

第四方面，本申请实施例提供了一种图文相关性计算装置，包括：

相关性值获取模块，用于将目标图像和目标文本输入图文相关性计算模型，得到目标图像和目标文本的相关性值；

该图文相关性计算模型是通过上述装置建立的模型。

第五方面，本申请提供一种电子设备，该电子设备的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，该装置的结构中包括处理器和存储器，该存储器用于存储支持该装置执行上述图文相关性的计算模型建立方法、图文相关性的计算方法的程序，该处理器被配置为用于执行该存储器中存储的程序。该装置还可以包括通信接口，用于与其他设备或通信网络通信。

第六方面，本申请实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质，用于存储图文相关性的计算模型建立方法、图文相关性的计算方法的装置所用的计算机软件指令，其包括用于执行上述图文相关性的计算模型建立方法、计算方法所涉及的程序。

第七方面，本申请实施例提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如上所述的方法。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的示意图；

图2是根据本申请第一实施例的示意图；

图3是根据本申请第一实施例的示意图；

图4是根据本申请第二实施例的示意图；

图5是根据本申请第三实施例的示意图；

图6是根据本申请第三实施例的示意图；

图7是根据本申请第三实施例的示意图；

图8是根据本申请第四实施例的示意图；

图9是用来实现本申请实施例的图文相关性的计算模型建立方法、计算方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1示出本申请图文信息相关性计算模型的建立方法的流程图。如图1所示，该方法包括以下步骤：

S101：将图像样本输入第一神经网络，将文本样本输入第二神经网络；

第一神经网络的输出端输出图像样本的表示向量，第二神经网络的输出端输出文本样本的表示向量。

S102：将图像样本的表示向量和文本样本的表示向量输入第三神经网络的输入端，第三神经网络的输入端包括全连接层；

S103：利用图像样本和文本样本对初始化模型进行训练，得到图文相关性的计算模型，图文相关性的计算模型输出图像样本和文本样本的相关性值。

第一神经网络可以用于处理图像样本，得到图像样本的特征向量作为图像样本的表示向量。例如，第一神经网络可以包括残差网络(ResNet50)、视觉几何组(VGGNet，VisualGeometry Group)等像素特征提取模型。第一神经网络的输入端接收图像样本，通过卷积层和池化层的处理，最终输出图像样本的表示向量。

以残差网络为例，该网络可以包括图像输入层和至少一个卷积层。图像输入层可以对输入的图像样本进行解码处理，得到图像样本的像素值。至少一个卷积层可以对经过解码后的图像样本进行卷积处理，得到图像样本的像素特征值。利用多个卷积层，可以得到图像样本的不同维度的像素特征值。在每个卷积层后，还可以连接池化层，池化层可以对卷积层输出的图像样本的尺寸进行压缩。

图像样本经过卷积层和池化层的处理后，可以得到n₁*n₂共n个特征区域。该图像样本的表示向量可以为：{v₁，v₂，…，v_n}。其中v_n可以表示第n个特征区域的表示向量。

第二神经网络可以用于处理文本样本，得到文本样本中的各个分词的特征向量，该特征向量可以作为文本样本的表示向量。该分词可以是单个字符或者是词、短语等。

例如，第二神经网络对接收的文本样本进行分词处理，并以编码形式表示每个分词。为每个以编码形式表示的分词初始化一个多维度的向量。上述过程将分词以向量形式表示的过程可以称为字嵌入(Word Embedding)过程。

经过第二神经网络的编码器层(Transformer)，可以对输入文本中的每个分词向量进行运算，得到反映出每个分词的特征的向量。分词的特征可以是该分词在文本样本中的语义或在自然科学中的语义等。

文本样本经过第二神经网络后，文本样本的表示向量可以表示为：{T₁，T₂，…，T_n}。其中，T_n可以表示文本样本中第n个分词的表示向量。

分别将图像样本的表示向量和文本样本的表示向量输入第三神经网络的输入层。该输入层可以是全连接层(Fully Connected Layer)，全连接层的每一个结点都与上一层的所有结点连接，用于把上一层的所有结点提取到的特征关联起来。即，第三神经网络的输入层分别与第一神经网络和第二神经网络的输出端的所有节点连接。

例如，第一神经网络的输出端可以是第一神经网络的任一层池化层。为获得更好的效果，第一神经网络的输出端可以是最后一层池化层。第二神经网络的输出端可以是任意一层编码器层，也可以是该神经网络最终的输出层。

通过第三神经网络的全连接层，可以将第一神经网络、第二神经网络和第三神经网络组成一个端到端(end-to-end)模型。第三神经网络的输出端作为该端到端模型的输出端，输出图像样本和文本样本的相关性值。

端到端模型的原理包括：端到端模型的输入端接收图像样本和文本样本，直接在端到端模型的输出端得到一个结果。该结果与真实结果(图像样本和文本样本的标签)相比较会存在一个误差。这个误差会在端到端模型中的每一层进行反向传播，每一层的参数都会根据这个误差进行调整，直到端到端模型的输出收敛或达到预期的效果才结束。调整过程的所有操作都包含在端到端模型的内部，不再分成多个模块处理。

由于端到端模型是一个整体模型，在训练时整体模型中的三个神经网络联动训练，可以打破模型之间的壁垒，提高相关性计算的准确度。

语义表示网络可以包括知识增强的语义表示(ERNIE，Enhanced Representationfrom kNowledge IntEgration)模型或基于转换器的双向编码表示(BERT，BidirectionalEncoder Representation from Transformers)模型等。

以知识增强的语义表示模型为例说明，例如，输入的文本样本为“新版捕鱼游戏”。输入该模型后，得到该文本的起始位置、字符编码和结束位置。例如，可以得到[CLS]、“新”、“版”、“捕”、“鱼”、“游”、“戏”、[SEP]。

其中，[CLS]和[SEP]可以分别表示文本样本的起始位置和结束位置，这两个位置的编码可以分别表示为[1]、[2]。每一个字符可以以编码形式表示为：[102]、[5374]、[203]、[56]、[7583]、[3329]。如图2所示，上述各编码对应图中的[CLS]、[Tok₁]、……、[Tok_N]、[SEP]。[Tok_N]可以表示第N个字符的编码。

对每个字符的编码进行多维度映射，得到每个编码的向量。例如，中文中的常用字可以包括3000个，则可以将每个字符的编码进行3000个维度的映射。以一个3000维的向量表示这个字符。每个编码的向量对应图2中的E₁、……、E_N。E_N可以表示第N个字符的向量。

通过编码器(对应图2中的Trm)网络对各个字符的向量进行计算，得到每个字符的语义特征。该语义特征表示向量可以表示每个字符在文本中语义特征，也可以表示每个字符的在自然科学中的特征。自然科学可以包括文化、地理、经济等。

以每个字符在文本中特征为例，例如，“游”、“戏”每个字在中文中有单独含义。在文本中，两个字符组合在一起又是另一种含义。可以将“游戏”作为一个整体含义，即，“游”、“戏”这两个字会展示出符合游戏语境的向量。

以每个字符在不同知识体系下的特征为例，通过地理知识可知“哈尔滨”属于一个地名，但“尔”字本身有很多种意思，则可以使“尔”具有在地名维度的向量表示。

经过编码器的计算，知识增强的语义表示模型最终输出的向量中可以包括N个元素，即对应图2中的T₁～T_N。

上下文关联网络可以包括双向长短期记忆(LSTM，Long Short-Term Memory)模型、循环神经网络(RNN，Recurrent Neural Network)等。

以双向长短期记忆模型为例说明，该模型可以包括N个连续的节点，即对应图2中的H₁、……、H_n。例如，该模型中包括H_n-1、H_n和H_n+1三个连续的节点。其中，第n个节点的输入可以包括第n-1个节点的隐含层的输出以及第n个节接收的外部的向量。第n个节点根据输入计算出与当前的各节点之间的关联，并将该关联以向量形式作为第n个节点的隐含层的输出。

例如，N个连续的节点，第1个节点接收的外部的向量为“新”字符对应的向量、第2个节点接收的外部的向量为“版”字符对应的向量。以此类推，第6个节点接收的外部的向量为“戏”字符对应的向量。

第3个节点还需第2个节点的隐含层的输出，该隐含层的输出表示“版”字符的上下文关联特征。第3个节点根据其接收的向量可以得到第3个节点和在其之前的各个节点的上下文关联特征，该特征通过第3个节点的隐含层输出。

通过上述方案，将语义表示网络和上下文关联网络连接起来。第二神经网络的输出不只有文本样本的语义特征，还包括文本样本的上下文特征的约束，从而文本样本的特征向量可以对文本样本有一个更准确的描述。

在一种实施方式中，该方法还包括：

可以设定上下文关联网络的节点的数量，例如，上下文关联网络可以包括70个节点。在语义表示网络所输出的向量中的元素超过该数量的情况下，可以对语义表示网络所输出的向量中的元素的数量进行调整。

例如，语义表示网络所输出的向量中包括100个元素，则可以取前70个元素或任意70个元素，分别输入到70个节点中。

通过上述方案，对上下文关联网络设定节点数量，可以利于其网络的训练。如果按照不同节点数量训练(第一次训练70个节点，第二次训练60个节点)，有可能导致网络训练的结果不准确或训练耗时更长。

在一种实施方式中，该方法还包括：

例如，上下文关联网络可以包括70个节点。语义表示网络所输出的向量中的元素是50个。则可以根据向量中的结束字符([SEP])确定结束位置。即，可以自上下文关联网络的第51个节点至第70个节点的输入全部设置为0。

通过上述方案，在语义表示网络所输出的向量中的元素数量少于节点数量的情况下，可以对节点的输入置0，相当于不训练该节点。由此可以提高该网络训练的精度。如果该节点的输入不置0，则会继续进行上下文关联训练，导致最终的精度受到影响。

在一种实施方式中，所述第二神经网络包括语义表示网络。

将语义表示网络所输出的向量作为文本样本的表示向量。

通过上述方案，相比于语义表示网络和上下文关联网络组合所形成的第二神经网络，以语义表示网络作为第二神经网络可以降低网络的复杂程度，从而可以以较少的时间完成对网络进行训练。

如图3所示，在一种实施方式中，步骤S103进一步包括：

S1031：获取图像样本和文本样本的相关性值的标签；

S1032：调整第一神经网络、第二神经网络和第三神经网络的参数，使相关性值与标签的差值在预设范围内。

通过将图像样本和文本样本输入由第一神经网络、第二神经网络和第三神经网络组成的初始化模型，该模型最终会输出图像样本和文本样本的相关性值。

利用图像样本和文本样本相关度值的标签可以对该相关性值进行检验。例如，图像样本和文本样本相关度值的标签可以包括正样本(+1)和负样本(0)。

根据相关性值和该标签的差值，将该差值在初始化模型中的每一层进行反向传播，每一层的参数表示都会根据这个差值进行调整。最终该差值在预设范围内的情况下，表示对于该初始化模型的训练过程结束。

图4示出本申请图文相关性计算方法的流程图。如图4所示，该方法包括以下步骤：

S401：将目标图像和目标文本输入图文相关性计算模型，得到目标图像和目标文本的相关性值；

图文相关性的计算模型是通过图文相关性的计算模型建立方法建立的模型。

由于图文相关性的计算模型是一个端到端形式的整体模型，在训练时，整体模型中的三个神经网络联动训练得到的，可以打破模型之间的壁垒，提高相关性值的准确度。

图5示出本申请图文信息相关性计算模型的建立装置的示意图。如图5所示，该装置包括：

样本输入模型501，用于将图像样本输入第一神经网络，将文本样本输入第二神经网络；第一神经网络的输出端输出图像样本的表示向量，第二神经网络的输出端输出文本样本的表示向量；

初始化模型建立模块502，用于将图像样本的表示向量和文本样本的表示向量输入第三神经网络的输入端，第三神经网络的输入端包括全连接层；第一神经网络、第二神经网络和第三神经网络形成初始化模型；

训练模块503，用于利用图像样本和文本样本对初始化模型进行训练，得到图文相关性的计算模型，图文相关性的计算模型输出图像样本和文本样本的相关性值。

如图6所示，在一种实施方式中，第二神经网络包括：语义表示网络和上下文关联网络，语义表示网络用于得到文本样本的语义特征表示向量，上下文关联网络用于得到文本的上下文关联特征表示向量；

初始化模型建立模块502包括：

第一执行子模块5021，用于将语义表示网络所输出的向量中的N个元素，分别输入至上下文关联网络的N个节点，N个节点连续，N为大于0的正整数；

第二执行子模块5022，用于将上下文关联网络的第N个节点所输出的向量作为文本样本的表示向量。

在一种实施方式中，初始化模型建立模块502还包括：

第三执行子模块，用于在元素的数量多于节点数量的情况下，根据节点的数量，选择对应数量的元素，作为N个元素。

在一种实施方式中，初始化模型建立模块502还包括：

第四执行子模块，用于在元素的数量少于节点数量的情况下，将未接收到元素的节点的输入值设置为0。

在一种实施方式中，第二神经网络包括语义表示网络；

将语义表示网络所输出的向量作为文本样本的表示向量。

如图7所示，在一种实施方式中，训练模块503包括：

标签获取子模块5031，用于获取图像样本和文本样本的相关性值的标签；

参数调整子模块5032，用于调整第一神经网络、第二神经网络和第三神经网络的参数，使相关性值与标签的差值在预设范围内。

图8示出本申请图文相关性的计算装置，该装置包括：

相关性值获取模块801，用于将目标图像和目标文本输入图文相关性计算模型，得到所述目标图像和所述目标文本的相关性值；

所述图文相关性计算模型是通过前述方法建立的模型。

根据本申请的实施例，本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

如图9所示，是根据本申请实施例的图文相关性的计算模型建立方法、计算方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图9所示，该电子设备包括：一个或多个处理器910、存储器920，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示图形用户界面(Graphical User Interface，GUI)的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图9中以一个处理器910为例。

存储器920即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的图文相关性的计算模型建立方法、计算的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的图文相关性的计算模型建立方法、计算方法。

存储器920作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的图文相关性的计算模型建立方法、计算方法对应的程序指令/模块(例如，附图5所示的样本输入模型501、初始化模型建立模块502和训练模块503)。处理器910通过运行存储在存储器920中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的图文相关性的计算模型建立方法、计算方法。

存储器920可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据图文相关性的计算模型建立方法、计算方法的电子设备的使用所创建的数据等。此外，存储器920可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器920可选包括相对于处理器910远程设置的存储器，这些远程存储器可以通过网络连接至图文相关性的计算模型建立方法、计算方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

图文相关性的计算模型建立方法、计算方法的电子设备还可以包括：输入装置930和输出装置940。处理器910、存储器920、输入装置930和输出装置940可以通过总线或者其他方式连接，图9中以通过总线连接为例。

输入装置930可接收输入的数字或字符信息，以及产生与图文相关性的计算模型建立方法、计算方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置940可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(Liquid Crystal Display，LCD)、发光二极管(Light Emitting Diode，LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用集成电路(Application Specific Integrated Circuits，ASIC)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(programmable logic device，PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(Cathode Ray Tube，阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，通过第三神经网络的全连接层将获取图片特征的第一神经网络和获取本文特征的第二神经网络联系起来，构成一个(端到端的)整体模型。以整体模型来进行相关性的计算。

由于是整体模型，在训练时整体模型中的三个神经网络联动训练，可以打破模型之间的壁垒，提高相关性计算的准确度。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种图文相关性的计算模型建立方法，其特征在于，包括：

所述第一神经网络的输出端输出所述图像样本的表示向量，所述第二神经网络的输出端输出所述文本样本的表示向量；

将所述图像样本的表示向量和所述文本样本的表示向量输入第三神经网络的输入端，所述第三神经网络的输入端包括全连接层；

所述第一神经网络、所述第二神经网络和所述第三神经网络形成初始化模型；其中，所述第一神经网络、所述第二神经网络和所述第三神经网络组成一个端到端模型；所述第三神经网络的输出端作为所述端到端模型的输出端，输出图像样本和文本样本的相关性值；

利用图像样本和文本样本对所述初始化模型进行训练，得到图文相关性的计算模型，所述图文相关性的计算模型输出所述图像样本和所述文本样本的相关性值。

2.根据权利要求1所述的方法，其特征在于，所述第二神经网络包括：语义表示网络和上下文关联网络，所述语义表示网络用于得到文本样本的语义特征表示向量，所述上下文关联网络用于得到文本的上下文关联特征表示向量；

将所述语义表示网络所输出的向量中的N个元素，分别输入至所述上下文关联网络的N个节点，所述N个节点连续，N为大于0的正整数；

将所述上下文关联网络的第N个节点所输出的向量作为所述文本样本的表示向量。

3.根据权利要求2所述的方法，其特征在于，还包括：

在所述元素的数量多于所述节点数量的情况下，根据所述节点的数量，选择对应数量的元素，作为所述N个元素。

4.根据权利要求2或3所述的方法，其特征在于，还包括：

在所述元素的数量少于所述节点数量的情况下，将未接收到所述元素的节点的输入值设置为0。

5.根据权利要求1所述的方法，其特征在于，所述第二神经网络包括语义表示网络；

将所述语义表示网络所输出的向量作为所述文本样本的表示向量。

6.根据权利要求1所述的方法，其特征在于，所述利用图像样本和文本样本对所述初始化模型进行训练，得到图文相关性的计算模型，包括：

获取所述图像样本和所述文本样本的相关性值的标签；

调整所述第一神经网络、所述第二神经网络和所述第三神经网络的参数，使所述相关性值与所述标签的差值在预设范围内。

7.一种图文相关性的计算方法，其特征在于，包括：

将目标图像和目标文本输入图文相关性的计算模型，得到所述目标图像和所述目标文本的相关性值；

所述图文相关性的计算模型是通过权利要求1~6任一所述方法建立的模型。

8.一种图文相关性的计算模型建立的装置，其特征在于，包括：

样本输入模型，用于将图像样本输入第一神经网络，将文本样本输入第二神经网络；所述第一神经网络的输出端输出所述图像样本的表示向量，所述第二神经网络的输出端输出所述文本样本的表示向量；

初始化模型建立模块，用于将所述图像样本的表示向量和所述文本样本的表示向量输入第三神经网络的输入端，所述第三神经网络的输入端包括全连接层；

训练模块，用于利用图像样本和文本样本对所述初始化模型进行训练，得到图文相关性的计算模型，所述图文相关性的计算模型输出所述图像样本和所述文本样本的相关性值。

9.根据权利要求8所述的装置，其特征在于，所述第二神经网络包括：语义表示网络和上下文关联网络，所述语义表示网络用于得到文本样本的语义特征表示向量，所述上下文关联网络用于得到文本的上下文关联特征表示向量；

所述初始化模型建立模块包括：

第一执行子模块，用于将所述语义表示网络所输出的向量中的N个元素，分别输入至所述上下文关联网络的N个节点，所述N个节点连续，N为大于0的正整数；

第二执行子模块，用于将所述上下文关联网络的第N个节点所输出的向量作为所述文本样本的表示向量。

10.根据权利要求9所述的装置，其特征在于，所述初始化模型建立模块，还包括：

第三执行子模块，用于在所述元素的数量多于所述节点数量的情况下，根据所述节点的数量，选择对应数量的元素，作为所述N个元素。

11.根据权利要求9或10所述的装置，其特征在于，所述初始化模型建立模块，还包括：

第四执行子模块，用于在所述元素的数量少于所述节点数量的情况下，将未接收到所述元素的节点的输入值设置为0。

12.根据权利要求8所述的装置，其特征在于，所述训练模块，包括：

标签获取子模块，用于获取所述图像样本和所述文本样本的相关性值的标签；

参数调整子模块，用于调整所述第一神经网络、所述第二神经网络和所述第三神经网络的参数，使所述相关性值与所述标签的差值在预设范围内。

13.一种图文相关性的计算装置，其特征在于，包括：

相关性值获取模块，用于将目标图像和目标文本输入图文相关性的计算模型，得到所述目标图像和所述目标文本的相关性值；

所述图文相关性的计算模型是通过权利要求8~12任一所述装置建立的模型。

14. 一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

15. 一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求7中所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。