CN112988976A

CN112988976A - 搜索方法、搜索装置、电子设备、存储介质和程序产品

Info

Publication number: CN112988976A
Application number: CN202110431059.6A
Authority: CN
Inventors: 程洲
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-04-21
Filing date: 2021-04-21
Publication date: 2021-06-18

Abstract

本公开提供了一种搜索方法、搜索装置、电子设备、存储介质和程序产品，涉及搜索领域和人工智能领域，尤其涉及以图搜图领域和机器学习领域。该方法包括：获取图像文本对集合，其中图像文本对集合为基于输入图像通过以图搜图得到的搜索结果；确定图像文本对集合中的第一图像文本对中的第一文本与图像文本对集合中的第二图像文本对中的第二文本的文本相似度；以及基于文本相似度，确定第一图像文本对与第二图像文本对的图像文本对相似度。利用上述方法，可以通过确定搜索结果中的多个图像文本对中的文本之间的文本相似度来确定图像文本对之间的图像文本对相似度，从而支持对搜索结果进行排序等操作，以及支持基于图像文本对相似度来训练各种模型，因而可以提升用户使用搜索工具时的用户体验。

Description

搜索方法、搜索装置、电子设备、存储介质和程序产品

技术领域

本公开涉及计算机技术，并且更具体地，涉及搜索方法、搜索装置、电子设备、计算机可读存储介质和计算机程序产品，可以用于搜索领域和人工智能领域等领域，尤其可以用于以图搜图领域和机器学习领域等领域。

背景技术

当今互联网生活中广泛存在着基于输入的图像来搜索与之相关联的、包括匹配的图像和相关联的文本的网页信息的搜索诉求，因此多个公司的多种产品已经被开发用于实现前述的、可以被称为以图搜图的搜索请求。用于以图搜图的产品的主要技术方案包括分析输入的、要被搜索的图像的特征、基于要被搜索的图像的特征来与数据库中的现有图像的特征进行比对，并且基于搜索到的相关联的图像来拉取与图像对应的网页，并且对拉取的网页进行展现。在以图搜图的上述过程中，对拉取的网页进行排序展现极大程度上影响了相关产品的最终质量。

然而，传统的用于以图搜图的产品在对拉取的网页进行排序展现时存在很大的局限性，从而使得用户难以直观地看到最为接近的、或者被合理排序的搜索结果，进而影响用户使用搜索工具针对输入图像进行搜索操作时的用户体验。

发明内容

根据本公开的实施例，提供了一种搜索方法、搜索装置、电子设备、计算机可读存储介质和计算机程序产品。

在本公开的第一方面中，提供了一种搜索方法，包括：获取图像文本对集合，其中图像文本对集合为基于输入图像通过以图搜图得到的搜索结果；确定图像文本对集合中的第一图像文本对中的第一文本与图像文本对集合中的第二图像文本对中的第二文本的文本相似度；以及基于文本相似度，确定第一图像文本对与第二图像文本对的图像文本对相似度。

在本公开的第二方面中，提供了一种搜索装置，包括：获取模块，被配置为获取图像文本对集合，其中图像文本对集合为基于输入图像通过以图搜图得到的搜索结果；第一文本相似度确定模块，被配置为确定图像文本对集合中的第一图像文本对中的第一文本与图像文本对集合中的第二图像文本对中的第二文本的文本相似度；以及第一图像文本对相似度确定模块，被配置为基于文本相似度，确定第一图像文本对与第二图像文本对的图像文本对相似度。

在本公开的第三方面中，提供了一种电子设备，包括至少一个处理器；以及与至少一个处理器通信连接的存储器；其中存储器存储有可被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器能够实现根据本公开的第一方面的方法。

在本公开的第四方面中，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机实现根据本公开的第一方面的方法。

在本公开的第五方面中，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时，执行根据本公开的第一方面的方法。

利用根据本申请的技术，提供了一种搜索方法，利用该方法，可以通过确定搜索结果中的多个图像文本对中的文本之间的文本相似度来确定图像文本对之间的图像文本对相似度，从而支持对搜索结果进行排序等操作，以及支持基于图像文本对相似度来训练各种模型，因而可以提升用户使用搜索工具时的用户体验。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

通过结合附图对本公开示例性实施例进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中在本公开示例性实施例中，相同的参考标号通常代表相同部件。应当理解，附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示出了可以在其中实现本公开的某些实施例中的搜索方法的搜索环境100的示意性框图；

图2示出了根据本公开实施例的搜索方法200的流程图；

图3示出了根据本公开实施例的搜索方法300的流程图；

图4示出了根据本公开实施例的搜索方法400的流程图；

图5示出了根据本公开的实施例的搜索装置500的示意性框图；以及

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。

在各个附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如以上在背景技术中所描述的，传统的用于以图搜图的产品在对拉取的网页进行排序展现时存在很大的局限性，从而使得用户难以直观地看到最为接近的、或者被合理排序的搜索结果，进而影响用户使用搜索工具针对输入图像进行搜索操作时的用户体验。

例如，在传统技术中，可以采取两种方式来对搜索结果进行排序展现。

第一种方式涉及采取结果网页文本与搜索请求图之间的图文相关性技术。图文相关性的技术包括学术数据集上广泛的图像与文本相关性技术，主要是提取图像特征、提取文本特征、设计特定的相关性打分网络，基于标注的相关性数据进行图像与文本相关性打分拟合。

第二种方式涉及参照例如搜索的文本和检索返回的结果文本的相关性的文本搜索相关性的方式。文本搜索相关性方式被迁移到以图搜图场景上，使用提取图像特征的方法替换提取搜索文本特征的方法，提取结果页文本特征的方法和相关性打分方法基本不变，同时，相关性的训练上也参照学习排序(Learning to Rank)的方式，通过构建不同相关性的图文对来训练排序模型。

然而，上述两种方式都存在明显的缺陷。

第一种方式涉及特定的图文相关性模型，在人工构建的图文相关性数据上进行训练的模型可能取得不错效果，但是在例如以图搜图的来源网页的搜索场景下，的图文相关性需求和一般性图文相关性需求并不一致。具体而言，以图搜索场景需要对海量、广谱的图文数据进行相关性区分，搜索场景的结果数据通常达到数百亿的例如网页标题的文本规模，图像也几乎覆盖所有网络图像，在数据的规模和多样性上都比任何特定的图文相关性任务要大，是典型的大数据场景。此外，以图搜图场景的排序候选文本大多与图像存在相关性，只是相关性强弱不同，这和学术上将相关文本分成几档相关性然后人工构建不同相关性文本比较的任务不同。再者，人工构建的图文相关性通常不涉及用户行为，搜索场景下的用户点击行为数据不会被用于训练图文相关性模型，而海量用户查看点击行为数据本身就构成数据优势。

第二种方式涉及基于文本搜索相关的技术，其被迁移到以图搜图搜索场景下以训练图文相关性模型，进而改进结果页的相关性。一般而言，文本搜索场景图文相关性训练通过构建搜索文本与对应被点击网页标题作为正样本、对应展现但未点击网页标题作为负样本，通过对正负样本打分并确保正样本打分高于负样本来训练相关性模型，实现相关性排序。以图搜图场景图文相关性训练则使用用户图加被点击网页标题作为正样本、图加未被点击网页标题作为负样本，然后其他类似文本搜索的方法包括对图像文本提特征、预估正负样本打分、训练排序目标。这种方法存在以下问题。首先，在相关不相关数据的构建上，单纯地基于是否点击导致二值化结果，例如，点击就相关、不点就不相关，由于某些结果相关但是用户也不会点击，这些相关结果被当做不相关的样本而给模型训练带来大量噪声。此外，单纯使用例如包括损失函数的比较模型来训练目标函数，不仅收敛慢、效果也较差。再者，一些基于分类模型加预估正样本的方法缺乏对弱相关样本的区分性，从而导致排序打分区分度较低。

为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个问题，本公开的实施例提出了一种搜索方法，利用该方法，可以通过确定搜索结果中的多个图像文本对中的文本之间的文本相似度来确定图像文本对之间的图像文本对相似度，从而支持对搜索结果进行排序等操作，以及支持基于图像文本对相似度来训练各种模型，因而可以提升用户使用搜索工具时的用户体验。

图1示出了可以在其中实现本公开的某些实施例中的搜索方法的搜索环境100的示意性框图。根据本公开的一个或多个实施例，搜索环境100可以是云环境。如图1中所示，搜索环境100包括计算设备110。在搜索环境100中，输入数据120作为计算设备110的输入被提供给计算设备110。输入数据120例如可以包括要进行以图搜图操作的输入图像、作为基于输入图像通过以图搜图得到的搜索结果的图像文本对集合、用户对图像文本对集合中的满意的图像文本对的选择、要利用输入图像和图像文本对集合进行训练的搜索模型和排序模型以及训练搜索模型和排序模型所需的数据等。

根据本公开的一个或多个实施例，当用户进行以图搜图搜索时，用户首先提供一张图像作为输入图像，并且以图搜图搜索引擎可以按照例如网页等形式来提供与输入图像匹配的多张图像以及与这多张图像相关联的多个文本。多张图像中的每张图像例如可以有一个或多个相关联的文本。而后，多张图像和多个文本被配对，并且以图像文本对的形式作为以图搜图搜索引擎的输出提供给用户。多张图像中的每张图像例如可以与和这张图像相关联的多个文本组成多个图像文本对。换言之，与一张图像相关联的多个文本中的每个文本都可以与这张图像组成一个图像文本对。

计算设备110可以针对图像文本对集合，基于用户对满意的图像文本对的选择，来确定图像文本对集合中的图像文本对与用户满意的图像文本对的文本之间的文本相似度，并且进而基于文本相似度来确定图像文本对集合中的图像文本对与用户满意的图像文本对之间的图像文本对相似度。而后，计算设备110可以基于所确定的图像文本对相似度来对图像文本对集合中的图像文本对进行排序，并且可以基于图像文本对相似度来训练搜索模型和排序模型。

应当理解，搜索环境100仅仅是示例性而不是限制性的，并且其是可扩展的，其中可以包括更多的计算设备110，并且可以向计算设备110提供更多的输入数据120，从而使得可以满足更多用户同时利用更多的计算设备110，甚至利用更多的输入数据120来同时或者非同时地确定图像文本对集合中的图像文本对与用户满意的图像文本对之间的图像文本对相似度的需求。

在图1所示的搜索环境100中，输入数据120向计算设备110的输入可以通过网络来进行。

图2示出了根据本公开的实施例的搜索方法200的流程图。具体而言，搜索方法200可以由图1中所示的搜索环境100中的计算设备110来执行。应当理解的是，搜索方法200还可以包括未示出的附加操作和/或可以省略所示出的操作，本公开的范围在此方面不受限制。

在框202，计算设备110获取图像文本对集合。根据本公开的一个或多个实施例，计算设备110通过接收输入数据120来获取图像文本对集合，并且图像文本对集合例如是基于输入图像通过以图搜图得到的搜索结果。

在框204，计算设备110确定图像文本对集合中的第一图像文本对中的第一文本与图像文本对集合中的第二图像文本对中的第二文本的文本相似度。根据本公开的一个或多个实施例，图像文本对集合中的第一图像文本对可以是用户选择的满意的图像文本对，该用户满意的图像文本对例如是包括用户认为与输入图像最相似或者相关的图像或者用户认为与输入图像最相似或者相关的文本的图像文本。

根据本公开的一个或多个实施例，计算设备110可以通过执行如下操作来确定第一文本与第二文本的文本相似度：首先，计算设备110以字为单位，确定第一文本中、与第二文本中所包括的内容相同的第一部分；而后，计算设备110确定第一部分的字数与第一文本的字数的第一比值；接着，计算设备110以字为单位，确定第二文本中、与第一文本中所包括的内容相同的第二部分；然后，计算设备110确定第二部分的字数与第二文本的字数的第二比值；最后，计算设备110将第一比值与第二比值的乘积确定为第一文本与第二文本的文本相似度。

举例而言，第一文本例如是包括“动漫X引领国风潮电影”这10个字的文本，第二文本例如是包括“最新动漫国风电影引领国风潮”这11个字的文本。可以看到，第一文本中的“动漫”、“引领国风潮”和“电影”这9个字都被包括在第二文本中，因此第一部分可以包括“动漫”、“引领国风潮”和“电影”，并且第一比值是9/10。此外，第二文本中的“动漫”、“国风”、“电影”和“引领国风潮”这11个字都被包括在第一文本中，因此第二部分可以包括“动漫”、“国风”、“电影”和“引领国风潮”，并且第二比值是11/13。由此可知，第一比值和第二比值的乘积为9/10和11/13的乘积，其值为99/130，约等于0.76。因此，第一文本与第二文本的文本相似度为0.76。

根据本公开的一个或多个实施例，在确定第一部分和第二部分时，可以分别以至少两个连续字为单位。换言之，如果第一文本是“妈妈的玻璃茶杯”并且第二文本是“奶奶的搪瓷茶杯”，则尽管在这两个文本之间存在相同的“的”字，但由于“的”仅是一个字，因此“的”字将不被确定为第一部分或者第二部分中的一部分，而是只有作为两个连续字的“茶杯”分别被确定为第一部分和第二部分中的一部分，此时第一文本和第二文本的相似度为(2/7)*(2/7)＝4/49，约等于0.08。

根据本公开的一个或多个实施例，在确定两个文本的文本相似度时，可以采取从前往后遍历的方式，通过确定连续匹配子串占比乘积来确定文本相似度。例如，假设有第一文本A和第二文本B两个文本，对第一文本A按照例如字、词和字节等单位从前往后遍历，针对其中第i次遍历有A[i]。同样从前往后遍历第二文本B，针对第j次遍历有B[j]，如果B[j]等于A[i]，则i加一，j加一分别得到B[i+1]，A[j+1]，如果B[j+1]等于A[i+1]则继续比较A、B的下一个遍历单元，直到被比较单元不相等等或者文本A、B至少一个遍历结束，此时得到B从位置j开始与A从位置i开始连续匹配的子串b、a(a和b内容是一样的，但是分别在A、B的不同位置，如果匹配长度等于1则舍弃该此子串)。当A遍历完成，会得到A、B上的连续匹配子串集合sa、sb。sa中子串在第一文本A中的并集占第一文本A的比例构成Ra，同理sb中子串在第二文本B中文本的并集占第二文本B的比例构成Rb。因此，第一文本A和第二文本B的相似度为Sim(A，B)＝Ra*Rb。

继续以第一文本是包括“动漫X引领国风潮电影”这10个字的文本并且第二文本是包括“最新动漫国风电影引领国风潮”这11个字的文本为例来说明从前往后遍历的方式。在这一示例中，选择匹配单元为字粒度。第一个为第一文本中的“动”，第二文本中字符从前往后遇到“动”字时，第一文本取下一个“漫”字，第二文本取下一个“漫”字，二者相同，则再下一个字“X”与“国”不相等则终止，得到第二文本、第一文本匹配子串“动漫”，其中第二文本中的“动漫”即为b，第一文本中的“动漫”即为a。匹配完本次后第一文本的“动”字继续从第二文本的“动”字后面继续寻找相同的字符，直到第二文本尾结束。第一文本的“动”后的“漫”继续执行匹配，从第二文本的第一位开始找到第一个“漫”字，然后分别下一个字“X”与“国”不同，此次只匹配到一个“漫”，匹配长度为1，舍弃此次匹配。类似地，可以得到“引领国风潮”(a2,b2)，“国风”(a3,b3)，“国风潮”(a5,b5)，“电影”(a4,b4)。现在开始计算Ra、Rb，sb即为b1、b2、b3、b4、b5，sb中子串在B文本中的并集占文本B的比例为b1、b3、b4、b2长度之和除以B的长度(b1长度2，b3长度2，b4长度2，b2长度5，B长度为11，此处b5在B上属于b2的一部分，因此b2与b5在B文本的并集为b2，其中并集的概念同集合并集概念一致，Rb＝(2+2+2+5)/13＝11/13；类似地，Ra＝(2+5+2)/10＝9/10,其为a1长度2，a2长度5，a4长度2之和除以A长度10，a3、a5与a2在A上的并集与a2等价，a1、a4与a2无交叉部分，所以a1、a2、a3、a4、a5的交集与a1、a2、a4的交集等价。Sim(A，B)＝Ra*Rb＝(11/13)*(9/10)＝99/130，约等于0.76。

在框206，计算设备110基于在框204确定的第一文本与第二文本的文本相似度，确定第一图像文本对与第二图像文本对的图像文本对相似度。根据本公开的一个或多个实施例，由于第一图像文本对于第二图像文本对中的图像可能完全相同或者非常相似，因此计算设备110可以将第一文本与第二文本的文本相似度确定为第一图像文本对与第二图像文本对的图像文本对相似度。

图3示出了根据本公开的实施例的搜索方法300的流程图。具体而言，搜索方法300也可以由图1中所示的搜索环境100中的计算设备110来执行。应当理解的是，搜索方法300还可以包括未示出的附加操作和/或可以省略所示出的操作，本公开的范围在此方面不受限制。

在框302，计算设备110获取图像文本对集合。根据本公开的一个或多个实施例，计算设备110通过接收输入数据120来获取图像文本对集合，并且图像文本对集合例如是基于输入图像通过以图搜图得到的搜索结果。框302所涉及的步骤的具体内容与框202中所涉及的步骤的具体内容相同，在此不再赘述。

在框304，计算设备110确定图像文本对集合中的第一图像文本对中的第一文本与图像文本对集合中的第二图像文本对中的第二文本的文本相似度。根据本公开的一个或多个实施例，图像文本对集合中的第一图像文本对可以是用户选择的满意的图像文本对，该用户满意的图像文本对例如是包括用户认为与输入图像最相似或者相关的图像或者用户认为与输入图像最相似或者相关的文本的图像文本。框304所涉及的步骤的具体内容与框204中所涉及的步骤的具体内容相同，在此不再赘述。

在框306，计算设备110确定图像文本对集合中的第一图像文本对中的第一图像与图像文本对集合中的第二图像文本对中的第二图像的图像相似度。根据本公开的一个或多个实施例，计算设备110可以采取用于比对图像之间的相似度的各种方式来确定第一图像与第二图像的图像相似度。例如，计算设备110可以采用针对第一图像和第二图像分别获取一维第一向量和一维第二向量，并且比较第一向量和第二向量的相似度的方式，来确定第一图像与第二图像的图像相似度。

在框308，计算设备110基于在框304确定的第一文本与第二文本的文本相似度和在框306确定的第一图像与第二图像的图像相似度，确定第一图像文本对与第二图像文本对的图像文本对相似度。根据本公开的一些实施例，计算设备110可以将第一文本与第二文本的文本相似度和第一图像与第二图像的图像相似度的乘积确定为第一图像文本对与第二图像文本对的图像文本对相似度。根据本公开的另一些实施例，计算设备110可以将第一文本与第二文本的文本相似度和第一图像与第二图像的图像相似度的和确定为第一图像文本对与第二图像文本对的图像文本对相似度。根据本公开的又一些实施例，计算设备110可以将第一文本与第二文本的文本相似度和第一图像与第二图像的图像相似度的加权和确定为第一图像文本对与第二图像文本对的图像文本对相似度。在用户主要通过图像文本对中的文本来选择满意的图像文本对的情况中，可以相对于第一图像与第二图像的图像相似度，给予第一文本与第二文本的文本相似度更高的权重。根据本公开的又一些实施例，计算设备110可以将第一文本与第二文本的文本相似度和第一图像与第二图像的图像相似度的加权和确定为第一图像文本对与第二图像文本对的图像文本对相似度。

图4示出了根据本公开的实施例的搜索方法400的流程图。具体而言，搜索方法400也可以由图1中所示的搜索环境100中的计算设备110来执行。应当理解的是，搜索方法400还可以包括未示出的附加操作和/或可以省略所示出的操作，本公开的范围在此方面不受限制。

在框402，计算设备110获取图像文本对集合。根据本公开的一个或多个实施例，计算设备110通过接收输入数据120来获取图像文本对集合，并且图像文本对集合例如是基于输入图像通过以图搜图得到的搜索结果。框402所涉及的步骤的具体内容与框202和框302中所涉及的步骤的具体内容相同，在此不再赘述。

在框404，计算设备110计算设备110确定图像文本对集合中的第一图像文本对中的第一文本与图像文本对集合中的多个第二图像文本对中的多个第二文本的多个文本相似度。根据本公开的一个或多个实施例，图像文本对集合中的第一图像文本对可以是用户选择的满意的图像文本对，该用户满意的图像文本对例如是包括用户认为与输入图像最相似或者相关的图像或者用户认为与输入图像最相似或者相关的文本的图像文本。多个第二图像文本对可以例如是基于输入图像通过以图搜图得到的搜索结果中，除了用户选择的满意的第一图像文本对之外的其他所有图像文本对或者它们中的一些图像文本对。确定第一文本与多个第二文本的多个文本相似度的具体内容与框204和框304中所涉及的步骤的具体内容非常相似，在此不再赘述。

在框406，计算设备110基于在框404确定的第一文本与多个第二文本的多个文本相似度，确定第一图像文本对与多个第二图像文本对的多个图像文本对相似度。根据本公开的一个或多个实施例，由于第一图像文本对于第二图像文本对中的图像可能完全相同或者非常相似，因此计算设备110可以将第一文本与多个第二文本的多个文本相似度确定为第一图像文本对与多个第二图像文本对的多个图像文本对相似度。确定第一图像文本对与多个第二图像文本对的多个图像文本对相似度的具体内容与框206中所涉及的步骤的具体内容非常相似，在此不再赘述。

在框408，计算设备110将第一图像文本对和多个第二图像文本对中的、图像文本对相似度高于相似度阈值的第二图像文本对确定为正样本。根据本公开的一个或多个实施例，参照前述的、第一文本是包括“动漫X引领国风潮电影”这10个字的文本并且第二文本是包括“最新动漫国风电影引领国风潮”这11个字的文本的示例，第一图像文本对与多个第二图像文本对的多个图像文本对相似度可以是0或者小于1的小数。当第一图像文本对与一个第二图像文本对没有任何字或者词相同时，它们的相似度为0。当第一图像文本对与一个第二图像文本对完全相同时，它们的相似度为1。容易想到的，当第一图像文本对的第一文本中有70％的内容都出现在第二图像文本对的第二文本中，并且第二图像文本对的第二文本中有70％的内容都出现在第一图像文本对的第一文本中时，它们的相似度为70％*70％＝0.49。因此，例如可以将相似度阈值设定为0.5，此时计算设备110会将多个第二图像文本对中的、图像文本对相似度高于0.5的第二图像文本对确定为正样本。

在框410，计算设备110将多个第二图像文本对中的、图像文本对相似度不高于相似度阈值的第二图像文本对确定为负样本。根据本公开的一些实施例，例如可以将相似度阈值设定为0.5，此时计算设备110会将多个第二图像文本对中的、图像文本对相似度不高于0.5的第二图像文本对确定为负样本。根据本公开的另一些实施例，计算设备110可以将多个第二图像文本对中的、除了被确定为正样本之外的第二图像文本对确定为负样本。

在框412，计算设备110利用在框408确定的正样本和在框410确定的负样本来训练搜索模型，使得搜索模型能够基于输入图像来从图像文本对集合选择出第一图像文本对和图像文本对相似度高于相似度阈值的第二图像文本对。根据本公开的一个或多个实施例，可以使用一个正样本和一个负样本组成一个正负样本对，然后计算设备110可以使用正负样本对来训练搜索模型。在利用大量正负样本对训练搜索模型完成之后，搜索模型可以针对输入图像，从数据库中选择作为正样本的图像文本对作为输出，从而使得作为输出的图像文本对与输入图像的相关性更高。

在框414，计算设备110利用多个第二图像文本对和在框406确定的多个图像文本对相似度来训练排序模型，使得排序模型能够基于输入图像来按照多个图像文本对相似度来对多个第二图像文本对排序。根据本公开的一个或多个实施例，可以使用多个第二图像文本对中的每两个第二图像文本对来训练排序模型，其中图像文本对相似度更高的第二图像文本对作为正样本，另一第二图像文本对作为负样本，然后计算设备110可以使用正负样本对来训练搜索模型。在利用大量正负样本对训练搜索模型完成之后，搜索模型可以针对输入图像，对作为搜索结果的图像文本对集合中的图像文本对进行排序，从而使得基于用户的历史选择而被确定的、图像文本对相似度更高的图像文本对在排序中的顺序更靠前。

根据本公开的一个或多个实施例，在训练排序模型时，可以首先按照不同的相似度阈值将具有不同图像文本对相似度的多个第二图像文本对按照不同的相似度区间划分为多个子集。例如，可以将相似度在0.5和1之间的图像文本对划分为最高相似度子集，将相似度在0.1和0.5之间的图像文本对划分为中等相似度子集，并且将相似度低于0.1的图像文本对划分为低相似度子集。此时，可以在训练排序模型时，分别从不同的两个相似度子集中取出一个图像文本对作为输入来训练排序模型，从而使得排序模型可以针对输入图像，使来自相似度更高的子集的图像文本对在排序中的顺序更靠前。采取这种分区间的方式可以减少计算量，从而使得训练排序模型时可以更为高效，同时也不会过多影响训练的效果。

应当理解，由于图像文本对集合中的第一图像文本对是用户选择的满意的图像文本对，因此第一图像文本对在对图像文本对集合进行排序时会被排在第一位，因此实际上仅需要对图像文本对集合中的多个第二图像文本对进行排序即可。

根据本公开的一些实施例，框414中所涉及的步骤可以和框408至框412中所涉及的步骤并行存在，从而使得计算设备可以在训练搜索模型的同时训练排序模型。

根据本公开的另一些实施例，在方法400中也可以不包括框408至框412，而是仅包括框414，此时方法400仅涉及训练排序模型。

根据本公开的又一些实施例，框414也可以作为框408至框412的补充。此时，搜索模型和排序模型可以被视为一个统一的综合模型，该综合模型在被训练完毕后，可以首先针对输入图像，从数据库中选择作为正样本的图像文本对作为输出，并且而后对选择出的正样本进行排序，从而使得在被选择的正样本中，基于用户的历史选择而被确定的、图像文本对相似度更高的图像文本对在排序中的顺序更靠前。由于图像文本对集合中的所有图像文本对来训练排序模型所需的训练时间较长，训练开销较大。因此，采取这种方式，可以大大减少最终训练排序模型所需的训练时间，训练开销也会更小。

在一个具体示例中，当训练搜索模型时，针对图像文本对集合中的图像可以选择任一神经网络，其能够对单张图像输出一个一维向量，比如resnet50、Inception-resnet-v2等；类似的，针对图像文本对集合中的文本可以选择任一神经网络，其能够对一个文本输出一个一维向量，比如LSTM、BERT、ERNIE等；图像神经网络和文本神经网络的最终输出向量的大小是一致的，比如都是[1,128]的大小。训练的输入为图像-文本正样本-文本负样本数据对，一次训练输入多个随机抽样的数据对。训练过程可以包括：对输入图像使用前述图像神经网络提取特征，比如N个图像最终得到N个[1,128]的特征向量，对文本使用前述文本神经网络提取特征，最终得到N个数据对，其含有N个图像，同时含有2N个文本(文本正负样本)，从而则得到2N个[1,128]的文本特征向量。计算每个图像特征向量与每个文本特征向量的内积，共得到2*N*N个内积，对于一个图像，其与所有文本的内积构成一个[1,2N]的向量，基于该向量并以对应正样本位置为标签(label)求其交叉熵损失，然后使用反向传播算法完成对图像、文本神经网络的权重更新，直到效果收敛到基本不再提高，模型训练结束。

在一个具体示例中，当训练排序模型时，输入为多个图像-强文本-弱文本数据对(比如M个)，强文本和弱文本按照相似度来划分。而后，使用图像神经网络和文本神经网络分别获得M个图像特征和2M个文本特征；对于每个图像特征，其与所有2M个文本特征求内积或者余弦相似度，从而得到2M个值。从这些值中挑出对应强样本文本特征(tp)和对应弱样本文本特征的值(tn)，再从与其他图像对应的强样本文本特征计算的值中挑出最大值(fp)，类似地挑出与其他图像对应弱样本文本特征计算的值中的最大值(fn)，tp与tn、tp与fp、tn与fn为三个数值对，分别输入带间距的排序损失(Margin Rank Loss)中计算损失值，然后使用反向传播算法完成对图像、文本特征提取网络的权重更新，直到效果收敛到基本不再提高，模型训练结束。

以上参考图1至图4描述了与可以在其中实现本公开的某些实施例中的搜索方法的搜索环境100、根据本公开实施例的搜索方法200、根据本公开实施例的搜索方法300以及根据本公开实施例的搜索方法400的相关内容。应当理解，上述描述是为了更好地展示本公开中所记载的内容，而不是以任何方式进行限制。

应当理解，本公开的上述各个附图中所采用的各种元件的数目和物理量的大小仅为举例，而并不是对本公开的保护范围的限制。上述数目和大小可以根据需要而被任意设置，而不会对本公开的实施方式的正常实施产生影响。

上文已经参见图1至图4描述了根据本公开的实施方式的搜索方法200、搜索方法300以及搜索方法400的细节。在下文中，将参见图5描述搜索装置中的各个模块。

图5是根据本公开实施例的搜索装置500的示意性框图。如图5所示，搜索装置500包括：获取模块510，被配置为获取图像文本对集合；第一文本相似度确定模块520，被配置为确定图像文本对集合中的第一图像文本对中的第一文本与图像文本对集合中的第二图像文本对中的第二文本的文本相似度；以及第一图像文本对相似度确定模块530，被配置为基于文本相似度，确定第一图像文本对与第二图像文本对的图像文本对相似度。

在一个或多个实施例中，其中第一文本相似度确定模块520包括：第二文本相似度确定模块(未示出)，被配置为基于第一文本和第二文本之间的相同部分来确定文本相似度。

在一个或多个实施例中，其中第二文本相似度确定模块包括：第一部分确定模块(未示出)，被配置为以字为单位，确定第一文本中、与第二文本中所包括的内容相同的第一部分；第一比值确定模块(未示出)，被配置为确定第一部分的字数与第一文本的字数的第一比值；第二部分确定模块(未示出)，被配置为以字为单位，确定第二文本中、与第一文本中所包括的内容相同的第二部分；第二比值确定模块(未示出)，被配置为确定第二部分的字数与第二文本的字数的第二比值；以及第三文本相似度确定模块(未示出)，被配置为将第一比值与第二比值的乘积确定为文本相似度。

在一个或多个实施例中，其中：第一部分确定模块包括第三部分确定模块(未示出)，被配置为以至少两个连续字为单位，确定第一文本中、与第二文本中所包括的内容相同的第一部分；并且第二部分确定模块包括第四部分确定模块(未示出)，被配置为以至少两个连续字为单位，确定第二文本中、与第一文本中所包括的内容相同的第二部分。

在一个或多个实施例中，其中第一图像文本对相似度确定模块530包括：图像相似度确定模块(未示出)，被配置为确定第一图像文本对中的第一图像与第二图像文本对中的第二图像的图像相似度；以及第二图像文本对相似度确定模块(未示出)，被配置为基于文本相似度和图像相似度，确定第一图像文本对与第二图像文本对的图像文本对相似度。

在一个或多个实施例中，其中：第二图像文本对包括多个第二图像文本对；第一文本相似度确定模块520包括第四文本相似度确定模块(未示出)，被配置为确定第一文本与多个第二图像文本中的多个第二文本的多个文本相似度；并且第一图像文本对相似度确定模块530包括第三图像文本对相似度确定模块(未示出)，被配置为确定第一图像文本对与多个第二图像文本对的多个图像文本对相似度。

在一个或多个实施例中，其中图像文本对集合为基于输入图像通过以图搜图得到的搜索结果，搜索装置500还包括：正样本确定模块(未示出)，被配置为将第一图像文本对和多个第二图像文本对中的、图像文本对相似度高于相似度阈值的第二图像文本对确定为正样本；负样本确定模块(未示出)，被配置为将多个第二图像文本对中的、图像文本对相似度不高于相似度阈值的第二图像文本对确定为负样本；以及搜索模型训练模块(未示出)，被配置为利用正样本和负样本来训练搜索模型，使得搜索模型能够基于输入图像来从图像文本对集合选择出第一图像文本对和图像文本对相似度高于相似度阈值的第二图像文本对。

在一个或多个实施例中，搜索装置500还包括：排序模型训练模块(未示出)，被配置为利用多个第二图像文本对和多个图像文本对相似度来训练排序模型，使得排序模型能够基于输入图像来按照多个图像文本对相似度来对多个第二图像文本对排序。

通过以上参考图1至图5的描述，根据本公开的实施方式的技术方案相对于传统方案具有诸多优点。例如，利用根据本公开的实施例的技术方案，可以通过确定搜索结果中的多个图像文本对中的文本之间的文本相似度来确定图像文本对之间的图像文本对相似度，从而支持对搜索结果进行排序等操作，以及支持基于图像文本对相似度来训练各种模型，因而可以提升用户使用搜索工具时的用户体验。经过试验，当根据本公开的实施方式的技术方案被应用于以图搜图时，可以使得搜索结果中所展现的搜索结果的相关性提高10％以上。此外，根据本公开的实施方式的技术方案也可以有助于更快地完成针对搜索模型和排序模型的训练，从而能够明显减少训练前述模型所需要使用的计算资源和存储资源。

根据本公开的实施例，本公开还提供了一种电子设备、一种计算机可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。例如，如图1所示的计算设备110和如图5所示的搜索装置500可以由电子设备600来实施。电子设备600旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如方法200、300和400。例如，在一些实施例中，方法200、300和400可以被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的方法200、300和400的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法200、300和400。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种搜索方法，包括：

获取图像文本对集合，其中所述图像文本对集合为基于输入图像通过以图搜图得到的搜索结果；

确定所述图像文本对集合中的第一图像文本对中的第一文本与所述图像文本对集合中的第二图像文本对中的第二文本的文本相似度；以及

基于所述文本相似度，确定所述第一图像文本对与所述第二图像文本对的图像文本对相似度。

2.根据权利要求1所述的方法，其中确定所述文本相似度包括：

基于所述第一文本和所述第二文本之间的相同部分来确定所述文本相似度。

3.根据权利要求2所述的方法，其中确定所述文本相似度包括：

以字为单位，确定所述第一文本中、与所述第二文本中所包括的内容相同的第一部分；

确定所述第一部分的字数与所述第一文本的字数的第一比值；

以字为单位，确定所述第二文本中、与所述第一文本中所包括的内容相同的第二部分；

确定所述第二部分的字数与所述第二文本的字数的第二比值；以及

将所述第一比值与所述第二比值的乘积确定为所述文本相似度。

4.根据权利要求3所述的方法，其中：

确定所述第一部分包括以至少两个连续字为单位，确定所述第一文本中、与所述第二文本中所包括的内容相同的所述第一部分；并且

确定所述第二部分包括以至少两个连续字为单位，确定所述第二文本中、与所述第一文本中所包括的内容相同的所述第二部分。

5.根据权利要求1所述的方法，其中确定所述图像文本对相似度包括：

确定所述第一图像文本对中的第一图像与所述第二图像文本对中的第二图像的图像相似度；以及

基于所述文本相似度和所述图像相似度，确定所述第一图像文本对与所述第二图像文本对的所述图像文本对相似度。

6.根据权利要求1所述的方法，其中：

所述第二图像文本对包括多个第二图像文本对；

确定所述文本相似度包括确定所述第一文本与所述多个第二图像文本中的多个第二文本的多个文本相似度；并且

确定所述图像文本对相似度包括确定所述第一图像文本对与所述多个第二图像文本对的多个图像文本对相似度。

7.根据权利要求6所述的方法，还包括：

将所述第一图像文本对和所述多个第二图像文本对中的、图像文本对相似度高于相似度阈值的第二图像文本对确定为正样本；

将所述多个第二图像文本对中的、所述图像文本对相似度不高于所述相似度阈值的第二图像文本对确定为负样本；以及

利用所述正样本和所述负样本来训练搜索模型，使得所述搜索模型能够基于所述输入图像来从所述图像文本对集合选择出所述第一图像文本对和所述图像文本对相似度高于所述相似度阈值的所述第二图像文本对。

8.根据权利要求6或7所述的方法，还包括：

利用所述多个第二图像文本对和所述多个图像文本对相似度来训练排序模型，使得所述排序模型能够基于所述输入图像来按照所述多个图像文本对相似度来对所述多个第二图像文本对排序。

9.一种搜索装置，包括：

获取模块，被配置为获取图像文本对集合，其中所述图像文本对集合为基于输入图像通过以图搜图得到的搜索结果；

第一文本相似度确定模块，被配置为确定所述图像文本对集合中的第一图像文本对中的第一文本与所述图像文本对集合中的第二图像文本对中的第二文本的文本相似度；以及

第一图像文本对相似度确定模块，被配置为基于所述文本相似度，确定所述第一图像文本对与所述第二图像文本对的图像文本对相似度。

10.根据权利要求9所述的装置，其中所述第一文本相似度确定模块包括：

第二文本相似度确定模块，被配置为基于所述第一文本和所述第二文本之间的相同部分来确定所述文本相似度。

11.根据权利要求10所述的装置，其中所述第二文本相似度确定模块包括：

第一部分确定模块，被配置为以字为单位，确定所述第一文本中、与所述第二文本中所包括的内容相同的第一部分；

第一比值确定模块，被配置为确定所述第一部分的字数与所述第一文本的字数的第一比值；

第二部分确定模块，被配置为以字为单位，确定所述第二文本中、与所述第一文本中所包括的内容相同的第二部分；

第二比值确定模块，被配置为确定所述第二部分的字数与所述第二文本的字数的第二比值；以及

第三文本相似度确定模块，被配置为将所述第一比值与所述第二比值的乘积确定为所述文本相似度。

12.根据权利要求11所述的装置，其中：

所述第一部分确定模块包括第三部分确定模块，被配置为以至少两个连续字为单位，确定所述第一文本中、与所述第二文本中所包括的内容相同的所述第一部分；并且

所述第二部分确定模块包括第四部分确定模块，被配置为以至少两个连续字为单位，确定所述第二文本中、与所述第一文本中所包括的内容相同的所述第二部分。

13.根据权利要求9所述的装置，其中所述第一图像文本对相似度确定模块包括：

图像相似度确定模块，被配置为确定所述第一图像文本对中的第一图像与所述第二图像文本对中的第二图像的图像相似度；以及

第二图像文本对相似度确定模块，被配置为基于所述文本相似度和所述图像相似度，确定所述第一图像文本对与所述第二图像文本对的所述图像文本对相似度。

14.根据权利要求9所述的装置，其中：

所述第二图像文本对包括多个第二图像文本对；

所述第一文本相似度确定模块包括第四文本相似度确定模块，被配置为确定所述第一文本与所述多个第二图像文本中的多个第二文本的多个文本相似度；并且

所述第一图像文本对相似度确定模块包括第三图像文本对相似度确定模块，被配置为确定所述第一图像文本对与所述多个第二图像文本对的多个图像文本对相似度。

15.根据权利要求14所述的装置，还包括：

正样本确定模块，被配置为将所述第一图像文本对和所述多个第二图像文本对中的、图像文本对相似度高于相似度阈值的第二图像文本对确定为正样本；

负样本确定模块，被配置为将所述多个第二图像文本对中的、所述图像文本对相似度不高于所述相似度阈值的第二图像文本对确定为负样本；以及

搜索模型训练模块，被配置为利用所述正样本和所述负样本来训练搜索模型，使得所述搜索模型能够基于所述输入图像来从所述图像文本对集合选择出所述第一图像文本对和所述图像文本对相似度高于所述相似度阈值的所述第二图像文本对。

16.根据权利要求14或15所述的装置，还包括：

排序模型训练模块，被配置为利用所述多个第二图像文本对和所述多个图像文本对相似度来训练排序模型，使得所述排序模型能够基于所述输入图像来按照所述多个图像文本对相似度来对所述多个第二图像文本对排序。

17.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。

19.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时，执行权利要求1-8中任一项所述的方法。