CN113495971A

CN113495971A - 一种数据转换模型的优化方法、装置和电子设备

Info

Publication number: CN113495971A
Application number: CN202010268770.XA
Authority: CN
Inventors: 殷睿阳; 李小康; 张人愉; 王鲁光; 王巧华; 许青; 阴凉; 刘林; 唐楠
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2020-04-08
Filing date: 2020-04-08
Publication date: 2021-10-12
Anticipated expiration: 2040-04-08
Also published as: CN113495971B

Abstract

本申请公开了一种数据转换模型的优化方法、装置和电子设备，涉及计算机计算领域中的人工智能领域。具体实现方案为：一种数据转换模型的优化方法，包括：获取第一样本，其中，所述第一样本包括第一像素矩阵和第一文本，所述第一像素矩阵为第一图片的像素矩阵，所述第一文本所表示的语义与所述第一图片匹配；基于所述第一样本、第一优化函数和第一预设关系，对数据转换模型进行优化，得到第一目标数据转换模型。本申请实施例提供的一种数据转换模型的优化方法、装置和电子设备，可以解决现有技术中存在图片与文本之间的对应效果差的问题。

Description

一种数据转换模型的优化方法、装置和电子设备

技术领域

本申请涉及计算机计算领域中的人工智能领域，具体涉及一种数据转换模型的优化方法、装置和电子设备。

背景技术

现有技术中，在对文本进行配图时，通常是基于文本在图片库中进行查询，以查询与文本相匹配的图片，其中，图片库中的大多数图片都设有对应的文字描述信息，这样，通过将文本与图片的文字描述信息进行匹配，即可查询到与文本相匹配的图片。

可见，现有技术中在对文本进行配图时，通常是基于图片的文字描述信息建立图片与文本之间的对应关系。然而，当图片库中的图片不存在文字描述信息或者图片的文字描述信息对图片的描述不准确，将导致基于文本无法查询到与文本匹配的图片，或者查询到与文本不匹配的图片。可见，现有技术中存在图片与文本之间的对应效果差的问题。

发明内容

本申请提供一种数据转换模型的优化方法、装置和电子设备，以解决现有技术中存在图片与文本之间的对应效果差的问题。

第一方面，本申请提供一种数据转换模型的优化方法，包括：

获取第一样本，其中，所述第一样本包括第一像素矩阵和第一文本，所述第一像素矩阵为第一图片的像素矩阵，所述第一文本所表示的语义与所述第一图片匹配；

基于所述第一样本、第一优化函数和第一预设关系，对数据转换模型进行优化，得到第一目标数据转换模型；

其中，所述第一目标数据转换模型用于转换所述第一像素矩阵得到第一图片向量，以及，转换所述第一文本得到第一文本向量，且所述第一图片向量和所述第一文本向量满足第一预设关系。

这样，通过对数据转换模型进行优化得到第一目标数据转换模型，使得第一目标数据转换模型可以将存在对应关系的图片和文本，转换成同一模态的图片向量和文本向量，并且所转换得到的图片向量和文本向量之间满足第一预设关系。这样，当需要对文本进行配图时，仅需通过第一目标数据转换模型将文本转换成文本向量，并基于第一预设关系，即可确定与文本向量对应的图片向量，从而确定与文本匹配的图片。该过程中，由于建立的是图片与文本之间的直接对应关系，从而避免了因引入文字描述信息而导致的图片与文本之间的对应效果差的问题。

可选地，所述对数据转换模型进行优化，得到第一目标数据转换模型之后，所述方法还包括：

获取第二样本，所述第二样本包括第二像素矩阵，所述第二像素矩阵为第二图片的像素矩阵，所述第一文本所表示的语义与所述第二图片不匹配，且所述第二图片包括所述第一文本中的实体；

基于所述第一样本、所述第二样本、第二优化函数和第二预设关系，对所述第一目标数据转换模型进行优化，得到第二目标数据转换模型；

其中，所述第二目标数据转换模型用于转换所述第一像素矩阵得到第二图片向量，转换所述第一文本得到第二文本向量，以及，转换第二像素矩阵得到第三图片向量，且所述第二图片向量、所述第二文本向量和所述第三图片向量之间满足所述第二预设关系。

该实施方式中，通过判断图片向量与文本向量之间的距离，即可确定与文本匹配的图片，同时，可以确定与文本相近但不匹配的图片，从而进一步提高基于文本进行配图时的准确性

可选地，所述对所述第一目标数据转换模型进行优化，得到第二目标数据转换模型之后，所述方法还包括：

基于所述第一文本、第二图片、第三优化函数和第三预设关系，对所述第二目标数据转换模型进行优化，得到第三目标数据转换模型；

其中，所述第三目标数据转换模型用于转换所述第一文本得到第三文本向量，以及，转换第二图片得到第四图片向量，且所述第第三文本向量与所述第四图片向量之间满足所述第三预设关系。

该实施方式中，通过第三预设关系进一步拉远经过转换得到的第四图片向量与第三文本向量之间的距离。这样，在基于文本匹配与文本对应的图片时，可以有效的避免与文本比较相近但不匹配的图片造成对匹配结果的干扰。

可选地，所述第一预设关系为所述第一图片向量和第一文本向量之间的距离小于第一预设值。

该实施方式中，通过将相匹配的第一图片向量和第一文本向量之间的距离优化至小于第一预设值，这样，在基于文本在上述图片库中查询与文本匹配的图片时，可以先将文本利用上述第一目标数据转换模型转换为文本向量，并在所述图片库中查询与所述文本向量的距离小于第一预设值的图片向量，从而查询到与文本相匹配的图片。

可选地，所述第二预设关系为第一距离值与第二距离值之间的差值大于第二预设值，其中，所述第一距离值为所述第二图片向量与所述第二文本向量之间的距离值，所述第二距离值为所述第三图片向量与所述第二文本向量之间的距离值。

该实施方式中，通过将第一距离值与第二距离值之间的差值优化至大于第二预设值，从而进一步拉远了第二图片向量与第三图片向量之间的距离。这样，在基于文本匹配与文本对应的图片时，可以进一步避免与文本比较相近但不匹配的图片造成对匹配结果的干扰。

可选地，所述第三预设关系为所述第四图片向量与所述第三文本向量之间的距离大于第三预设值。

该实施方式中，通过将第四图片向量与第三文本向量之间的距离优化至大于第三预设值，从而进一步拉远了第一文本与第二图片之间的距离。这样，在基于文本匹配与文本对应的图片时，可以进一步避免与文本比较相近但不匹配的图片造成对匹配结果的干扰。

第二方面，本申请提供一种数据转换模型的优化装置，包括：

获取模块，用于获取第一样本，其中，所述第一样本包括第一像素矩阵和第一文本，所述第一像素矩阵为第一图片的像素矩阵，所述第一文本所表示的语义与所述第一图片匹配；

优化模块，用于基于所述第一样本、第一优化函数和第一预设关系，对数据转换模型进行优化，得到第一目标数据转换模型；

可选地，所述获取模块，还用于获取第二样本，所述第二样本包括第二像素矩阵，所述第二像素矩阵为第二图片的像素矩阵，所述第一文本所表示的语义与所述第二图片不匹配，且所述第二图片包括所述第一文本中的实体；

所述优化模块，还用于基于所述第一样本、所述第二样本、第二优化函数和第二预设关系，对所述第一目标数据转换模型进行优化，得到第二目标数据转换模型；

可选地，所述优化模块，还用于基于所述第一文本、第二图片、第三优化函数和第三预设关系，对所述第二目标数据转换模型进行优化，得到第三目标数据转换模型；

第三方面，本申请提供一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请提供的数据转换模型的优化方法。

第四方面，本申请提供一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本申请提供的数据转换模型的优化方法。

上述申请中的一个实施例具有如下优点或有益效果：通过对数据转换模型进行优化得到第一目标数据转换模型，使得第一目标数据转换模型可以将存在对应关系的图片和文本，转换成同一模态的图片向量和文本向量，并且所转换得到的图片向量和文本向量之间满足第一预设关系。这样，当需要对文本进行配图时，仅需通过第一目标数据转换模型将文本转换成文本向量，并基于第一预设关系，即可确定与文本向量对应的图片向量，从而确定与文本匹配的图片。该过程中，由于建立的是图片与文本之间的直接对应关系，从而避免了因引入文字描述信息而导致的图片与文本之间的对应效果差的问题。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是本申请实施例中所提供的数据转换模型的优化方法的流程图之一；

图2是本申请实施例中所提供的数据转换模型的优化方法的流程图之二；

图3是本申请实施例中所提供的数据转换模型的优化装置的结构示意图；

图4是用来实现本申请实施例的数据转换模型的优化方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

请参见图1，图1是本申请实施例提供的一种数据转换模型的优化方法，包括：

步骤S101、获取第一样本，其中，所述第一样本包括第一像素矩阵和第一文本，所述第一像素矩阵为第一图片的像素矩阵，所述第一文本所表示的语义与所述第一图片匹配。

上述第一像素矩阵可以是通过对第一图片进行识别得到的像素矩阵，上述第一文本可以是广告文本、新闻文本等常用于与图片同时展示的文本。上述第一文本所表示的语义与所述第一图片匹配可以是指：第一文本所描绘的内容即为第一图片所展示的内容。例如，当所述第一文本为广告语“鲜花同城速递”时，所述第一图片可以为鲜花的图片。上述第一文本所表示的语义与所述第一图片匹配也可以是指：第一文本所描绘的内容与第一图片所展示的内容相对应，例如，第一文本描述的是某一产品的广告语，而第一图片展示的则是该产品的图像。

步骤S102、基于所述第一样本、第一优化函数和所述第一预设关系，对数据转换模型进行优化，得到第一目标数据转换模型；其中，所述第一目标数据转换模型用于转换所述第一像素矩阵得到第一图片向量，以及，转换所述第一文本得到第一文本向量，且所述第一图片向量和所述第一文本向量满足第一预设关系。

上述第一图片向量与第一文本向量之间满足所述第一预设关系可以是指：所述第一图片向量与第一文本向量之间的距离为一个定值或者在一定的预设范围之内。通过优化得到的第一目标数据转换模型可以将存在对应关系的图片和文本，转换成同一模态的图片向量和文本向量，并且所转换得到的图片向量和文本向量之间满足第一预设关系，以便于通过第一目标数据转换模型建立第一文本与第一图片之间的直接对应关系。

上述数据转换模型可以包括用于接收像素矩阵、并用于将像素矩阵转换为图片向量的图片侧，以及用于接收文本、并用于将文本转换为文本向量的文本侧。具体而言，可以在模型内搭建不同的网络结构，以实现上述图片侧和文本侧的相应功能。例如，上述数据转换模型可以是基于深度学习技术的联合学习模型，该联合学习模型可以包括用于将像素矩阵转换为图片向量的图片转换模型和用于将文本转换为文本向量的文本转换模型。其中，所述图片转换模型可以采用卷积神经网络(Convolutional Neural Networks，CNN)的RESNET-50模型，通过将第一像素矩阵输入该RESNET-50模型，由RESNET-50模型将像素矩阵转换为图片向量，该图片向量可以包含第一图片的完整信息。所述文本转换模型可以采用基于知识增强的ERNIE模型，通过将第一文本输入ERNIE模型，由ERNIE模型输出的分类(classification，CLS)向量作为文本向量，该文本向量包含第一文本的完整信息。

上述第一优化函数可以是常见的损失函数，例如，可以是交叉熵(cross entropy)损失函数，通过该cross entropy损失函数可以对数据转换模型所输出的文本向量与图片向量之间的相关性关系进行优化。

其中，可以将所述第一预设关系作为所述第一优化函数对数据转换模型进行优化的优化目标。具体而言，可以基于所述第一样本、第一优化函数和所述第一预设关系对所述数据转换模型进行N次优化，直至所述数据转换模型基于所述第一样本输出的图片向量和文本向量之间满足所述第一预设关系，从而得到所述第一目标数据转换机模型。

可选地，所述基于所述第一样本、第一优化函数和所述第一预设关系，对数据转换模型进行N次优化，得到第一目标数据转换模型，包括：

基于所述第一样本和所述第一优化函数，对所述数据转换模型进行i次优化，得到第i个数据转换模型，其中，1≤i≤N；

基于所述第i个数据转换模型和所述第一样本，得到第i个文本向量和第i个图片向量，其中，所述第i个图片向量为所述第i个标数据转换模型对所述第一像素矩阵进行转换得到的向量，所述第i个文本向量为所述第i个目标数据转换模型对所述第一文本进行转换得到的向量；

若第i个文本向量和第i个图片向量满足所述第一预设关系，则确定所述第i个数据转换模型为所述第一目标数据转换模型；

若第i个文本向量和第i个图片向量不满足所述第一预设关系，则重复执行基于所述第一样本和所述第一优化函数，对所述数据转换模型进行i次优化，且所述i加1。

此外，本实施例中，在对数据转换模型进行优化得到第一目标数据转换模型后，可以根据第一目标数据转换模型建立配图库。例如，以建立广告文本的配图库为例，其具体建立过程如下：首先，可以获取若干组原始数据，其中，每组原始数据中均包括一张广告图片和一个与该广告图片对应的广告文本，并将所述若干组原始数据分别输入所述第一目标数据转换模型进行转换，即可得到若干个向量组，其中，每个向量组包括一个图片向量和一个文本向量，且每个向量组中的图片向量和文本向量之间均存在上述第一预设关系。然后，将所获取到的所有图片向量分别存入所述配图库，并建立每个图片向量与该图片向量所对应的图片之间的映射关系，例如，可以基于ANN算法HNSW为图片向量建立索引，从而完成图片向量与该图片向量所对应的图片之间的映射关系的建立。这样，当需要对广告文本进行配图时，仅需将广告文本转换为对应的文本向量，基于该文本向量和所述第一预设关系，即可在所述配图库中查询到与所述广告文本对应图片向量，并基于该图片向量与广告图片的映射关系，即可查询到至少一张广告图片。

下文以对上述若干组原始数据中的其中一组原始数据进行处理的过程为例，对上述处理过程进行具体说明：获取一组原始数据，然后，通过对该原始数据中的广告图片进行识别得到广告图片的像素矩阵，将广告图片的像素矩阵和对应的广告文本，输入所述第一目标数据转换模型，由第一目标数据转换模型进行转换对应的向量组，该向量组包括一个图片向量和一个文本向量，然后将该图片向量存入所述配图库，同时建立所述广告图片与该图片向量之间的映射关系，从而完成一组原始数据的处理过程。按照该方法依次对上述若干组原始数据进行处理，即可完成所述配图库的建立。应当理解地，上述若干组原始数据可以是现有的可以获取到的所有广告文本与广告图片所形成的原始数据，以确保所建立的配图库所容纳的数据量足够大。

本申请实施例中，通过对数据转换模型进行优化得到第一目标数据转换模型，使得第一目标数据转换模型可以将存在对应关系的图片和文本，转换成同一模态的图片向量和文本向量，并且所转换得到的图片向量和文本向量之间满足第一预设关系。这样，当需要对文本进行配图时，仅需通过第一目标数据转换模型将文本转换成文本向量，并基于第一预设关系，即可确定与文本向量对应的图片向量，从而确定与文本匹配的图片。该过程中，由于建立的是图片与文本之间的直接对应关系，从而避免了因引入文字描述信息而导致的图片与文本之间的对应效果差的问题。

上述第一预设关系可以是第一文本向量与第一图片向量之间的距离关系。由于本实施例中需要优化第一文本向量与第一图片向量之间的相关关系，因此，第一文本向量与第一图片向量之间的距离越小，其相关性越大，基于此，可以将所述第一预设关系设置为第一文本向量与第一图片向量之间的距离小于第一预设值，该距离可以是余弦距离。

可选地，所述第一图片向量和所述第一文本向量之间满足所述第一预设关系，所述第一预设关系为所述第一图片向量和第一文本向量之间的距离小于第一预设值。

具体地，通过将相匹配的第一图片向量和第一文本向量之间的距离优化至小于第一预设值，这样，在基于文本在上述图片库中查询与文本匹配的图片时，可以先将文本利用上述第一目标数据转换模型转换为文本向量，并在所述图片库中查询与所述文本向量的距离小于第一预设值的图片向量，从而查询到与文本相匹配的图片。

上述第二像素矩阵可以是通过对第二图片进行识别得到的像素矩阵。可以将所述第一文本中视为三元组数据，三元组的数据形式为：(第一实体，关系，第二实体)，其中，所述第一文本中的实体既可以是该三元组数据中的第一实体也可以是第二实体。

上述第一文本所表示的语义与所述第一图片匹配可以是指：第一文本所描绘的内容即为第一图片所展示的内容。所述第一文本所表示的语义与所述第二图片不匹配，且所述第二图片包括所述第一文本中的实体可以是指：所述第一文本所描述的内容与所述第二图片所展示的内容不同，但所述第一文本所描述的内容中的对象与所述第二图片所展示的相同。例如，当所述第一文本为广告语“鲜花同城速递”时，所述第一图片可以为鲜花的图片，此时，所述第二图片可以为包含花朵的刺绣图片，由于“鲜花同城速递”是关于鲜花的广告，因此，第一图片所展示的鲜花图片与该第一文本相匹配，而第二图片虽然展示的也是关于花的图片，然而其展示的是刺绣上的花朵的图片，通常不会将其任务与上述第一文本相匹配的广告图片，因此，第一文本所表示的语义与所述第二图片不匹配，而第二图片所展示的也是花的图片，故第二图片包括所述第一文本中的实体。

上述第二图片可以是与第一图片较为接近的图片，然而，其与第一文本之间不匹配，通过优化得到第二目标数据转换模型，使得第二目标数据转换模型在接收到第一样本和第二样本时，在优化第一文本与第一图片之间的相关性关系的同时，优化第一文本与第二图片之间的不相关性关系。

具体地，所述第二图片向量、第二文本向量和第三图片向量之间满足第二预设关系可以是指：第二图片向量与第二文本向量之间的距离与第三图片向量与第二文本向量之间距离不同。例如，可以将所述第二图片向量与第二文本向量之间的距离优化至小于第三图片向量与第二文本向量之间距离。这样，通过判断图片向量与文本向量之间的距离，即可确定与文本匹配的图片，同时，可以确定与文本相近但不匹配的图片，从而进一步提高基于文本进行配图时的准确性。

此外，本实施例中，在对数据转换模型进行优化得到第二目标数据转换模型后，可以根据第二目标数据转换模型建立配图库。其中，根据第二目标数据转换模型建立配图库的具体过程与上述第一目标数据转换模型建立配图库的过程类似，在此不再予以赘述。

具体地，根据第二目标数据转换模型建立的配图库相对于根据第一目标数据转换模型建立的配图库而言，可以进一步区分与文本不匹配的图片，从而提高配图的效果。

应当说明的是，由于所述本实施例是在第一目标数据转换模型的基础上进一步进行优化，因此，所述第二图片向量与第二文本向量之间同样满足上述第一预设关系。本实施例中的第二预设值应当大于上述第一预设值。具体地，由于第一预设关系所指示的距离值区间是第二图片向量与第二文本向量之间的距离小于第一预设值；而所述第二预设关系实际上约束的是第二图片向量与第三图片向量之间的距离大于第二预设值，因此，为了避免第三图片向量与第二文本之间的距离满足第一预设关系所指示的距离值区间，通过将所述第二预设值设置为大于上述第一预设值，从而避免第二目标数据转换模型将不匹配的第二文本向量与第三图片向量之间的距离优化至符合匹配条件，从而进一步提高了基于本实施例所提供的第二目标数据转换模型所建立的图片库的图片匹配的准确性。

具体地，通过将第一距离值与第二距离值之间的差值优化至大于第二预设值，从而进一步拉远了第二图片向量与第三图片向量之间的距离。这样，在基于文本匹配与文本对应的图片时，可以进一步避免与文本比较相近但不匹配的图片造成对匹配结果的干扰。

本实施例中的第三优化函数可以与第一优化函数采用相同的优化函数，基于第三优化函数对所述第二数据转换模型的进行优化过程与基于第一优化函数对所述数据转换模型进行优化的过程类似。其区别在于，基于第一优化函数对所述数据转换模型进行优化的优化目标在于建立第一文本与第一图片之间的匹配关系，而基于第三优化函数对所述第二数据转换模型的进行优化的优化目标在于建立第一文本与第二图片之间的不匹配关系。

其中，所述第三预设关系可以是指第一文本与第二图片不匹配的关系。具体而言，可以通过第三预设关系进一步拉远经过转换得到的第四图片向量与第三文本向量之间的距离。这样，在基于文本匹配与文本对应的图片时，可以有效的避免与文本比较相近但不匹配的图片造成对匹配结果的干扰。

具体地，通过将第四图片向量与第三文本向量之间的距离优化至大于第三预设值，从而进一步拉远了第一文本与第二图片之间的距离。这样，在基于文本匹配与文本对应的图片时，可以进一步避免与文本比较相近但不匹配的图片造成对匹配结果的干扰。

请参见图2，图2为本申请实施例提供的一种数据转换模型的优化方法的流程图，所述数据转换模型包括用于接收像素矩阵、并用于将像素矩阵转换为图片向量的图片侧，以及用于接收文本、并用于将文本转换为文本向量的文本侧。具体而言，本实施例中所述数据转换模型为基于深度学习技术的联合学习模型，该联合学习模型包括用于将像素矩阵转换为图片向量的图片转换模型和用于将文本转换为文本向量的文本转换模型。其中，所述图片转换模型可以采用CNN卷积网络的RESNET-50模型，通过将像素矩阵输入该RESNET-50模型，由RESNET-50模型将像素矩阵转换为图片向量。所述文本转换模型可以采用基于知识增强的ERNIE模型，通过将文本输入ERNIE模型，由ERNIE模型输出的CLS向量作为文本向量。

进一步地，在完成所述数据转换模型搭建后，如图2所示，可以将所述第一像素矩阵和第二像素矩阵分别输入RESNET-50模型，由RESNET-50模型将所述第一像素矩阵和第二像素矩阵分别转换为第一图片向量和第二图片向量，并将所述第一文本输入所述ERNIE模型，由ERNIE模型将第一文本转换成第一文本向量。然后按照上述实施例中提供的优化方法分别对所述数据转换模型进行优化，其具体优化过程如下：首先，通过第一优化函数对所述数据转换模型进行优化，直至所述数据转换模型输出的第一图片向量与第二图片向量之间的距离小于第一预设值，优化后得到所述第一目标数据转换模型。然后，通过第二优化函数对所述第一目标数据转换模型进行优化，直至第一距离值与第二距离值之间的差值大于第二预设值，其中，所述第一距离值为所述第一图片向量与所述第一文本向量之间的距离值，所述第二距离值为所述第二图片向量与所述第一文本向量之间的距离值，优化后得到第二目标数据转换模型。最后，通过第三优化函数对所述第二目标数据转换模型优化，直至所述第二图片向量与所述第一文本向量之间的距离大于第三预设值。将经过三个优化函数优化得到的第三目标数据转换模型作为最终优化后的目标数据转换模型，基于该目标数据转换模型可以建立用于对广告文本进行配图的配图库，其具体建立过程已在上述实施例中进行了说明，为避免重复，在此不再予以赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

请参见图3，图3是本申请实施例提供的一种数据转换模型的优化装置，包括：

获取模块301，用于获取第一样本，其中，所述第一样本包括第一像素矩阵和第一文本，所述第一像素矩阵为第一图片的像素矩阵，所述第一文本所表示的语义与所述第一图片匹配；

优化模块302，用于基于所述第一样本、第一优化函数和第一预设关系，对数据转换模型进行优化，得到第一目标数据转换模型；

可选地，所述获取模块301，还用于获取第二样本，所述第二样本包括第二像素矩阵，所述第二像素矩阵为第二图片的像素矩阵，所述第一文本所表示的语义与所述第二图片不匹配，且所述第二图片包括所述第一文本中的实体；

所述优化模块302，还用于基于所述第一样本、所述第二样本、第二优化函数和第二预设关系，对所述第一目标数据转换模型进行优化，得到第二目标数据转换模型；

可选地，所述优化模块302，还用于基于所述第一文本、第二图片、第三优化函数和第三预设关系，对所述第二目标数据转换模型进行优化，得到第三目标数据转换模型；

本实施例提供的装置能够实现图1-2所示的方法实施例中实现的各个过程，且可以达到相同有益效果，为避免重复，这里不再赘述。

如图4所示，是根据本申请实施例的数据转换模型的优化方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图4所示，该电子设备包括：一个或多个处理器401、存储器402，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图4中以一个处理器401为例。

存储器402即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的数据转换模型的优化方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的数据转换模型的优化方法。

存储器402作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的数据转换模型的优化方法对应的程序指令/模块(例如，附图3所示的获取模块301和优化模块302)。处理器401通过运行存储在存储器402中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的数据转换模型的优化方法。

存储器402可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据数据转换模型的优化方法的电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器402可选包括相对于处理器401远程设置的存储器，这些远程存储器可以通过网络连接至数据转换模型的优化方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

数据转换模型的优化方法的电子设备还可以包括：输入装置403和输出装置404。处理器401、存储器402、输入装置403和输出装置404可以通过总线或者其他方式连接，图4中以通过总线连接为例。

输入装置403可接收输入的数字或字符信息，以及产生与数据转换模型的优化方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置404可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，本申请实施例中，通过对数据转换模型进行优化得到第一目标数据转换模型，使得第一目标数据转换模型可以将存在对应关系的图片和文本，转换成同一模态的图片向量和文本向量，并且所转换得到的图片向量和文本向量之间满足第一预设关系。这样，当需要对文本进行配图时，仅需通过第一目标数据转换模型将文本转换成文本向量，并基于第一预设关系，即可确定与文本向量对应的图片向量，从而确定与文本匹配的图片。该过程中，由于建立的是图片与文本之间的直接对应关系，从而避免了因引入文字描述信息而导致的图片与文本之间的对应效果差的问题。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种数据转换模型的优化方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对数据转换模型进行优化，得到第一目标数据转换模型之后，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述第一目标数据转换模型进行优化，得到第二目标数据转换模型之后，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述第一预设关系为所述第一图片向量和第一文本向量之间的距离小于第一预设值。

5.根据权利要求2所述的方法，其特征在于，所述第二预设关系为第一距离值与第二距离值之间的差值大于第二预设值，其中，所述第一距离值为所述第二图片向量与所述第二文本向量之间的距离值，所述第二距离值为所述第三图片向量与所述第二文本向量之间的距离值。

6.根据权利要求3所述的方法，其特征在于，所述第三预设关系为所述第四图片向量与所述第三文本向量之间的距离大于第三预设值。

7.一种数据转换模型的优化装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述获取模块，还用于获取第二样本，所述第二样本包括第二像素矩阵，所述第二像素矩阵为第二图片的像素矩阵，所述第一文本所表示的语义与所述第二图片不匹配，且所述第二图片包括所述第一文本中的实体；

9.根据权利要求8所述的装置，其特征在于，所述优化模块，还用于基于所述第一文本、第二图片、第三优化函数和第三预设关系，对所述第二目标数据转换模型进行优化，得到第三目标数据转换模型；

10.根据权利要求7所述的装置，其特征在于，所述第一预设关系为所述第一图片向量和第一文本向量之间的距离小于第一预设值。

11.根据权利要求8所述的装置，其特征在于，所述第二预设关系为第一距离值与第二距离值之间的差值大于第二预设值，其中，所述第一距离值为所述第二图片向量与所述第二文本向量之间的距离值，所述第二距离值为所述第三图片向量与所述第二文本向量之间的距离值。

12.根据权利要求9所述的装置，其特征在于，所述第三预设关系为所述第四图片向量与所述第三文本向量之间的距离大于第三预设值。

13.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。