CN114299295A

CN114299295A - 一种数据处理方法及相关装置

Info

Publication number: CN114299295A
Application number: CN202111454455.7A
Authority: CN
Inventors: 黄剑辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-12-01
Filing date: 2021-12-01
Publication date: 2022-04-08

Abstract

本申请实施例公开了一种人工智能领域的数据处理方法及相关装置，其中该方法包括：获取目标图像和目标描述数据；针对目标图像，确定该目标图像中的目标区域，并获取目标区域对应的图像特征，目标区域是目标图像中包括参考识别对象的区域；针对目标描述数据，获取该目标描述数据对应的数据特征；根据目标图像中所述目标区域对应的图像特征、以及目标描述数据对应的数据特征，确定目标图像与目标描述数据之间的匹配性检测结果，该匹配性检测结果用于表征目标图像与目标描述数据之间的匹配程度。该方法在检测图像与相关描述数据之间的匹配性时，能够有效地提高匹配性检测结果的准确度。

Description

一种数据处理方法及相关装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种数据处理方法及相关装置。

背景技术

如今，很多应用场景均存在检测图像与相关描述数据是否匹配的需求。例如，在基于网络爬虫从网页数据中爬取到的视频和视频标题构建视频索引数据的场景中，由于部分网页数据(如小程序html网页)的结构不够规范，容易在解析网页数据的过程中提取错视频或者视频标题，为了避免基于提取错的视频或者视频标题构建视频索引数据，通常需要在构建视频索引数据前，检测所提取出的视频与视频标题之间是否匹配。

相关技术中，针对所要检测的图像和相关描述数据，通常利用图像特征提取模型提取图像的整体特征，利用与相关描述数据的数据类型对应的特征提取模型提取相关描述数据的特征，进而，根据该图像的整体特征和该相关描述数据的特征，检测该图像与该相关描述数据是否匹配。

然而，上述匹配性检测方法在实际应用中的效果欠佳，通过上述匹配性检测方法得到的检测结果往往并不准确，在很多情况下，容易将实际不具有匹配关系的图像和描述数据误识别为具有匹配关系。

发明内容

本申请实施例提供了一种数据处理方法及相关装置，在检测图像与相关描述数据之间的匹配性时，能够有效地提高匹配性检测结果的准确度。

有鉴于此，本申请第一方面提供了一种数据处理方法，所述方法包括：

获取目标图像和目标描述数据；

针对所述目标图像，确定所述目标图像中的目标区域，并获取所述目标区域对应的图像特征；所述目标区域是所述目标图像中包括参考识别对象的区域；

针对所述目标描述数据，获取所述目标描述数据对应的数据特征；

根据所述目标图像中所述目标区域对应的图像特征、以及所述目标描述数据对应的数据特征，确定所述目标图像与所述目标描述数据之间的匹配性检测结果；所述匹配性检测结果用于表征所述目标图像与所述目标描述数据之间的匹配程度。

本申请第二方面提供了一种数据处理装置，所述装置包括：

数据获取模块，用于获取目标图像和目标描述数据；

第一特征提取模块，用于针对所述目标图像，确定所述目标图像中的目标区域，并获取所述目标区域对应的图像特征；所述目标区域是所述目标图像中包括参考识别对象的区域；

第二特征提取模块，用于针对所述目标描述数据，获取所述目标描述数据对应的数据特征；

匹配性检测模块，用于根据所述目标图像中所述目标区域对应的图像特征、以及所述目标描述数据对应的数据特征，确定所述目标图像与所述目标描述数据之间的匹配性检测结果；所述匹配性检测结果用于表征所述目标图像与所述目标描述数据之间的匹配程度。

本申请第三方面提供了一种计算机设备，所述设备包括处理器以及存储器：

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序，执行如上述第一方面所述的数据处理方法的步骤。

本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述第一方面所述的数据处理方法的步骤。

本申请第五方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述第一方面所述的数据处理方法的步骤。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例提供了一种数据处理方法，该方法在检测图像与相关描述数据之间的匹配性时，创新性地利用了图像的细粒度特征作为匹配性检测的依据。具体的，在本申请实施例提供的数据处理方法中，先获取所需检测的目标图像和目标描述数据；针对该目标图像确定其中包括参考识别对象的目标区域，并获取目标区域对应的图像特征；针对目标描述数据，确定该目标描述数据对应的数据特征；进而，根据目标图像中目标区域对应的图像特征和目标描述数据对应的数据特征，确定目标图像与目标描述数据之间的匹配程度，也即确定目标图像与目标描述数据之间的匹配性检测结果。上述数据处理方法检测目标图像与目标描述数据之间的匹配程度时，使用的是目标图像中目标区域对应的图像特征，相比目标图像的整体特征而言，目标图像中目标区域对应的图像特征属于细粒度图像特征，此类细粒度图像特征通常能更精准地反映图像实际表达的信息，对于相似的图像，使用此类细粒度图像特征也能有效地将其区分开来；基于该细粒度图像特征检测图像与相关描述数据之间的匹配性，能更准确地检测图像实际表达的信息与相关描述数据表达的信息是否匹配，从而保证产生的匹配性检测结果更准确。

附图说明

图1为本申请实施例提供的数据处理方法的应用场景示意图；

图2为本申请实施例提供的数据处理方法的流程示意图；

图3为本申请实施例提供的匹配性检测模型的训练方法的流程示意图；

图4为本申请实施例提供的一种示例性的训练样本示意图；

图5为本申请实施例提供的一种示例性的模型训练架构示意图；

图6为本申请实施例提供的第一种数据处理装置的结构示意图；

图7为本申请实施例提供的第二种数据处理装置的结构示意图；

图8为本申请实施例提供的第三种数据处理装置的结构示意图；

图9为本申请实施例提供的第四种数据处理装置的结构示意图；

图10为本申请实施例提供的终端设备的结构示意图；

图11为本申请实施例提供的服务器的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

计算机视觉技术(Computer Vision，CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

本申请实施例提供的方案涉及人工智能的计算机视觉技术，具体通过如下实施例进行说明：

相关技术中，检测图像与相关描述数据之间的匹配性时，通常直接利用图像特征提取模型(如Resnet152模型等)提取图像的整体特征，进而根据该图像的整体特征与相关描述数据的特征，确定图像与相关描述数据之间是否匹配。

经本申请发明人研究发现，上述匹配性检测方法只关注了图像的粗粒度信息，而忽略了图像的细粒度信息。但是在很多实际情况下，图像的粗粒度信息难以准确地反映图像实际表达的内容，只有依靠图像的细粒度信息才能获知图像实际表达的内容；例如，对于相同类型的游戏而言，其游戏画面的相似度往往很高，如果只根据游戏画面的整体特征进行区分，往往难以将此类游戏画面区分开，但是如果根据游戏画面中细节元素的表现形式进行区分，则很容易将此类游戏画面区分开。相应地，检测图像与相关描述数据之间的匹配性时，对于整体相似度较高、但是实际表达内容并不相同的图像而言，往往难以准确地识别其与相关描述数据之间的匹配性；例如，对于相同类型的游戏A和游戏B而言，容易将游戏A的游戏画面与游戏B的相关描述数据误检测为具有匹配性。

为了解决上述相关技术存在的问题，本申请实施例提供了一种数据处理方法，该方法创新性地利用图像的细粒度特征作为匹配性检测的依据，从而有效地提高了最终产生的匹配性检测结果的准确性。

具体的，在本申请实施例提供的数据处理方法中，先获取目标图像和目标描述数据。针对该目标图像，确定该目标图像中包括参考识别对象的目标区域，并获取目标区域对应的图像特征。针对该目标描述数据，获取该目标描述数据对应的数据特征。进而，根据该目标图像中目标区域对应的图像特征和该目标描述数据对应的数据特征，确定该目标图像与该目标描述数据之间的匹配性检测结果，也即确定该目标图像与该目标描述数据之间的匹配程度。

上述数据处理方法检测目标图像与目标描述数据之间的匹配程度时，使用的是目标图像中目标区域对应的图像特征，相比目标图像的整体特征而言，目标图像中目标区域对应的图像特征属于细粒度图像特征，此类细粒度图像特征通常能更精准地反映图像实际表达的信息，对于相似的图像，使用此类细粒度图像特征也能有效地将其区分开来；基于该细粒度图像特征检测图像与相关描述数据之间的匹配性，能更准确地检测图像实际表达的信息与相关描述数据表达的信息是否匹配，从而保证产生的匹配性检测结果更准确。

应理解，本申请实施例提供的数据处理方法可以由具备数据处理能力的计算机设备执行，该计算机设备可以是终端设备或服务器。其中，终端设备具体可以为计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)等；服务器具体可以为应用服务器或Web服务器，在实际部署时，可以为独立服务器，也可以为由多个物理服务器构成的集群服务器或云服务器。本申请实施例涉及的图像、描述数据、匹配性检测结果等数据，可以保存于区块链上。

为了便于理解本申请实施例提供的数据处理方法，下面以该数据处理方法的执行主体为服务器为例，对该数据处理方法的应用场景进行示例性介绍。

参见图1，图1为本申请实施例提供的数据处理方法的应用场景示意图。如图1所示，该应用场景中包括服务器110和数据库120，服务器110可以通过网络从数据库120中调取数据，或者数据库120也可以集成在服务器110中。其中，服务器110用于执行本申请实施例提供的数据处理方法，以检测图像与相关描述数据之间的匹配程度；数据库120用于存储从网页数据中爬取到的图像和相关描述数据。

在实际应用中，网络爬虫可以从网页数据中爬取图像和相关描述数据，此处所爬取的图像包括但不限于静态图片、动态图片、视频等图像数据，所爬取的相关描述数据包括但不限于文本、图像(如视频的封面图片等)、语音等数据。网络爬虫从网页数据中爬取到图像和相关描述数据后，可以将爬取到的图像和相关描述数据对应地存储至数据库120；例如，对于从同一网页中爬取到的图像和相关描述数据，可以构建二者之间的对应关系，并将这二者及其之间的对应关系存储至数据库120中。

当需要检测从网页数据中爬取到的图像和相关描述数据之间的匹配程度时，服务器110可以从数据库120中调取具有对应关系的图像和相关描述数据，所调取的图像可以被视为目标图像，所调取的相关描述数据可以被视为目标描述数据。

针对目标图像，服务器110可以确定该目标图像中包括参考识别对象的目标区域，并获取该目标区域对应的图像特征。示例性的，服务器110可以利用预先训练好的目标检测模型处理该目标图像，在该目标图像中确定若干可能包括参考识别对象的候选区域，提取这些候选区域各自对应的图像特征；然后，根据所提取出各候选区域各自对应的图像特征，确定各候选区域各自对应的分类概率，该分类概率能够表征其对应的候选区域中的内容属于参考类别(即参考识别对象所属的类别)的概率；进而，根据各候选区域各自对应的分类概率从各候选区域中选出目标区域，并相应地将所选出的候选区域对应的图像特征视为目标区域对应的图像特征。

针对目标描述数据，服务器110可以获取该目标描述数据对应的数据特征。示例性的，服务器110可以调用与目标描述数据的数据类型对应的数据特征提取模型，利用该数据特征提取模型对目标描述数据进行特征提取处理，以得到目标描述数据对应的数据特征；例如，假设目标描述数据为目标文本，则服务器110可以调用文本语义识别模型对该目标文本进行特征提取处理，得到该目标文本对应的文本特征。

进而，服务器110可以根据上述目标图像中目标区域对应的图像特征、以及目标描述数据对应的数据特征，确定该目标图像与该目标描述数据之间的匹配性检测结果，即确定该目标图像与该目标描述数据之间的匹配程度。

应理解，图1所示的应用场景仅为示例，在实际应用中，服务器110除了可以用于对从网页数据中爬取的图像和相关描述数据检测二者之间的匹配性外，还可以用于在其它应用场景中检测图像和相关描述数据之间的匹配性，例如，针对用户上传的图像和相关描述数据检测二者之间的匹配性，等等。此外，本申请实施例提供的数据处理方法还可以由终端设备执行，或者由终端设备和服务器协同执行。在此不对本申请实施例提供的数据处理方法的应用场景做任何限定。

下面通过方法实施例对本申请提供的数据处理方法进行详细介绍。

参见图2，图2为本申请实施例提供的数据处理方法的流程示意图。为了便于描述，下述实施例仍以该数据处理方法的执行主体为服务器为例进行介绍。如图2所示，该数据处理方法包括以下步骤：

步骤201：获取目标图像和目标描述数据。

当服务器需要检测某图像与其对应的相关描述数据之间的匹配程度时，服务器可以获取该图像以及其对应的相关描述数据，并将所获取的图像视为目标图像，将所获取的相关描述数据视为目标描述数据。

需要说明的是，目标图像具体可以为单独的静态图片，也可以为动态图片、或者动态图片中的某一帧或多帧静态图片，还可以为视频、或者视频中的一帧或多帧视频帧，本申请在此不对目标图像的表现形式做任何限定。

应理解，当目标图像为目标视频中的一帧或多帧视频帧时，服务器可以采用关键帧抽取算法从目标视频中抽取上述目标图像。例如，服务器可以直接将目标视频中的首个视频帧作为目标图像；又例如，服务器可以针对目标视频中的各视频帧进行聚类，进而根据聚类结果从目标视频中选取目标图像。本申请在此不对服务器从目标视频中抽取目标图像的方式做任何限定。

需要说明的是，目标描述数据是用于描述目标图像的数据。该目标描述数据具体可以为目标文本；例如，可以是目标图像的标题，也可以是与目标图像所属于同一网页或者资讯文档的文本数据，还可以是用户发布目标图像时编辑的配文，等等；本申请在此不对该目标文本做任何限定。该目标描述数据具体也可以为参考图像；例如，在目标图像为目标视频的情况下，参考图像可以为该目标视频的封面图像、或者该目标视频对应的宣传图像，等等，本申请在此不对该参考图像做任何限定。该目标描述数据具体还可以为目标语音；例如，针对目标图像配置的描述语音信号，等等；本申请在此也不对该目标语音做任何限定。当然，在实际应用中，目标描述数据除了可以为以上介绍的目标文本、参考图像和目标语音外，还可以为其它形式的数据，本申请在此不对该目标描述数据做任何限定。

在一种可能的实现方式中，当本申请实施例提供的数据处理方法应用在构建图像索引数据的场景中时，服务器可以从数据库中获取目标图像和目标描述数据。示例性的，当服务器需要基于从网页数据中爬取的图像和相关描述数据构建图像索引数据时，服务器可以从数据库中提取具有对应关系的图像和相关描述数据，进而将所提取出的图像视为目标图像，将所提取出的相关描述数据视为目标描述数据；此处的数据库即是用于存储网络爬虫从网页数据中爬取到的图像和相关描述数据的数据库，该数据库中还存储有图像与相关描述数据之间的对应关系，通常情况下，对于从同一网页数据中爬取到的图像和相关描述数据，即可认为二者之间具有对应关系。当然，在该种应用场景中，服务器也可以直接获取网络爬虫从某网页数据中爬取到的图像和相关描述数据，并将二者相应地视为目标图像和目标描述数据。

在另一种可能的实现方式中，当本申请实施例提供的数据处理方法应用在校验用户上传的多媒体信息的场景中时，服务器可以获取终端设备上传的多媒体信息中的图像和相关描述数据，并将二者相应地视为目标图像和目标描述数据；上述多媒体信息例如可以为用户上传的视频(其中包括视频和视频对应的标题或描述文本)，又例如可以为用户上传的资讯信息(其中包括图像和图像对应的描述文本)，等等，本申请在此不对该多媒体信息做任何限定。示例性的，用户可以通过终端设备上运行的目标应用程序，编辑既包括图像又包括相关描述数据的多媒体信息，并在完成对于该多媒体信息的编辑操作后，选择发布该多媒体信息；终端设备响应于用户针对该多媒体信息触发的发布操作，相应地将该多媒体信息传输给服务器；服务器发布该多媒体信息前，可以先对该多媒体信息中的图像和相关描述数据进行校验，以检测二者之间的匹配程度，以便根据该检测结果确定对于该多媒体信息采取的发布方式。

应理解，上述本申请实施例提供的数据处理方法的应用场景仅为示例，在实际应用中，本申请实施例提供的数据处理方法还可以应用于其它应用场景，本申请在此不对该数据处理方法适用的应用场景做任何限定。相应地，在不同的应用场景中，服务器可以采用对应的方式获取目标图像和目标描述数据，本申请在此也不对目标图像和目标描述数据的获取方式做任何限定。

步骤202：针对所述目标图像，确定所述目标图像中的目标区域，并获取所述目标区域对应的图像特征；所述目标区域是所述目标图像中包括参考识别对象的区域。

对于所获取的目标图像，服务器需要确定该目标图像中包括参考识别对象的目标区域；此处的参考识别对象是指目标图像中较为重要的前景对象；例如，对于用于反映游戏画面的目标图像而言，参考识别对象可以是游戏画面中的前景虚拟元素，如虚拟角色、虚拟建筑、游戏辅助元素(如地图、控件等)等。服务器还需要获取目标图像中目标区域对应的图像特征，以便后续基于目标区域对应的图像特征，检测目标图像与目标描述数据之间的匹配程度。

需要说明的是，目标图像中可以包括一个目标区域，也可以包括多个目标区域；通常情况下，服务器可以设定目标区域的数量，进而在该目标图像中提取对应数量的目标区域，例如，可以设定目标区域的数量为20，相应地服务器从目标图像中提取20个目标区域。本申请在此不对目标图像中的目标区域的数量做任何限定。目标区域对应的图像特征可以是通过目标检测模型对目标图像进行目标检测处理，在此过程中针对所检测到的目标区域提取出的图像特征，该目标区域对应的图像特征通常为embedding特征。

在一种可能的实现方式中，服务器可以通过以下方式确定目标图像中的目标区域，并获取目标区域对应的图像特征：在目标图像中确定多个候选区域，确定这多个候选区域各自对应的图像特征；并根据这多个候选区域各自对应的图像特征，确定这多个候选区域各自对应的分类概率，该分类概率用于表征其对应的候选区域中的内容属于参考类别的概率，该参考类别是参考识别对象所属的类别；进而，根据这多个候选区域各自对应的分类概率，从这多个候选区域中选出目标区域，并获取目标区域对应的图像特征。

示例性的，服务器可以在目标图像中提取预设数量的候选区域，如提取200个候选区域。然后，针对每个候选区域确定其对应的图像特征，并根据该候选区域对应的图像特征确定其对应的分类概率；例如，服务器可以预先根据所要识别的参考识别对象设定若干参考类别，相应地，针对每个候选区域，服务器可以根据该候选区域对应的图像特征，确定该候选图像属于每种参考类别的概率，即分类概率；应理解，候选区域属于某种参考类别的概率越高，则说明该候选区域中包括的内容属于该种参考类别对应的参考识别对象的可能性越大。进而，服务器可以根据多个候选区域各自对应的分类概率，从这多个候选区域中选出目标区域；例如，服务器可以从多个候选区域中选出所对应的分类概率较高的候选区域，作为目标区域；并获取所选出的候选区域对应的图像特征，作为目标区域对应的图像特征。

为了便于理解上述实现过程，下面以目标图像是用于反映游戏画面的图像为例，对上述实现过程进行示例性介绍。对于反映游戏画面的图像而言，服务器可以预先设定参考类别包括前景虚拟元素和虚拟控件图标；对于目标图像，服务器可以先在该目标图像中确定200个候选区域，并提取这200个候选区域各自对应的图像特征；然后，针对每个候选区域，服务器可以根据该候选区域对应的图像特征，确定该候选区域属于前景虚拟元素的分类概率、以及属于虚拟控件图标的分类概率，并从该候选区域属于前景虚拟元素的分类概率和属于虚拟控件图标的分类概率中，选取较大的一个分类概率作为该候选区域对应的目标分类概率；进而，服务器可以根据各候选区域各自对应的目标分类概率，按照目标分类概率从大到小的顺序排列各候选区域，最终选取排序靠前的20个候选区域作为目标区域，并获取这20个候选区域各自对应的图像特征，作为目标区域对应的图像特征。

作为一种示例，服务器可以通过以下方式在目标图像中确定候选区域，并确定候选区域对应的图像特征和分类概率：服务器可以通过第一目标检测模型中的卷积网络，对目标图像进行特征提取处理，得到该目标图像对应的目标特征图；通过该第一目标检测模型中的区域生成网络，在该目标图像中生成多个候选区域；将多个候选区域分别映射至目标特征图上。然后，通过第一目标检测模型中的区域池化层，根据多个候选区域在该目标特征图上的映射特征，确定这多个候选区域各自对应的图像特征。进而，通过该第一目标检测模型中的分类网络，根据多个候选区域各自对应的图像特征，确定这多个候选区域各自对应的分类概率；并通过高第一目标检测模型中的边框回归网络，调整多个候选区域各自的位置。

具体的，服务器可以选取预先基于大规模通用图像训练集训练好的faster-rcnn模型，作为上述第一目标检测模型。将目标图像输入faster-rcnn模型中后，faster-rcnn模型中的卷积网络(Convolutional Neural Network，CNN)，将对该目标图像进行特征提取，得到该目标图像对应的目标特征图feature maps。然后，faster-rcnn模型中的区域生成网络(Region Proposal Network，RPN)，可以根据上述目标特征图，在目标图像中生成多个候选区域，此处的候选区域也可以理解为建议区域窗口region proposal。进而，faster-rcnn模型可以相应地将多个候选区域映射到卷积网络输出的目标图像对应的目标特征图上，并通过faster-rcnn模型中的区域池化(Region of Interest pooling)层，根据多个候选区域各自在目标特征图上的映射特征，生成每个候选区域对应的固定尺寸的特征图，即每个候选区域对应的图像特征。最终，通过faster-rcnn模型中的分类网络，根据各候选区域各自对应的图像特征，确定各候选区域各自对应的分类概率，并通过faster-rcnn模型中的边框回归网络，调整各候选区域各自的位置；训练上述分类网络和边框回归(bounding boxregression)网络时，可以使用softmax Loss(探测分类概率)和Smooth L1 Loss(探测边框回归)对分类网络和边框回归网络进行联合训练。

作为另一种示例，服务器可以通过以下方式在目标图像中确定候选区域，并确定候选区域对应的图像特征和分类概率：服务器可以通过选择性搜索算法，在目标图像中提取多个候选区域；然后，通过第二目标检测模型中的卷积网络，对多个候选区域分别进行特征提取处理，得到多个候选区域各自对应的图像特征；进而，通过第二目标检测模型中的支持向量机，根据多个候选区域各自对应的图像特征，确定多个候选区域各自对应的分类概率；通过第二目标检测模型中的边框回归网络，调整多个候选区域各自的位置。

具体的，服务器可以选取预先基于大规模通用图像训练集训练好的rcnn模型，作为上述第二目标检测模型。将目标图像输入rcnn模型中后，rcnn模型可以先利用选择性搜索(selective search)算法在目标图像中从上至下提取2000个左右的候选区域，即建议区域窗口region proposal。然后，将每个候选区域缩放至227*227的大小，并输入至rcnn模型中的卷积网络，获取该卷积网络输出的图像特征作为该候选区域对应的图像特征。进而，针对每个候选区域，通过rcnn模型中的支持向量机(Support Vector Machine，SVM)，对该候选区域进行分类得到该候选区域对应的分类概率；对于已完成分类的候选区域，可以进一步通过rcnn模型中的边框回归网络进行边框回归处理，利用bounding box回归值矫正候选区域的位置，确定候选区域的标准位置。

作为又一种示例，服务器可以通过以下方式在目标图像中确定候选区域，并确定候选区域对应的图像特征和分类概率：服务器可以通过选择性搜索算法，在目标图像中提取多个候选区域；通过第三目标检测模型中的卷积网络，对目标图像进行特征提取处理，得到目标图像对应的目标特征图；将这多个候选区域分别映射至目标特征图上；通过第三目标检测模型中的区域池化层，根据多个候选区域在目标特征图上的映射特征，确定多个候选区域各自对应的图像特征；通过第三目标检测模型中的分类网络，根据多个候选区域各自对应的图像特征，确定多个候选区域各自对应的分类概率；并通过第三目标检测模型中的边框回归网络，调整多个候选区域各自的位置。

具体的，服务器可以选取预先基于大规模通用图像训练集训练好的fast-rcnn模型，作为上述第三目标检测模型。将目标图像输入fast-rcnn模型中后，fast-rcnn模型先利用选择性搜索(selective search)算法在目标图像中从上至下提取2000个左右的候选区域，即建议区域窗口region proposal。此外，fast-rcnn模型对于输入的目标图像，可以通过其中的卷积网络对其进行特征提取，得到该目标图像对应的目标特征图feature map。选取出候选区域、获得目标特征图后，fast-rcnn模型可以把候选区域映射至目标特征图feature map上，进而通过fast-rcnn模型中的的区域池化(Region of Interest pooling)层，根据多个候选区域各自在目标特征图上的映射特征，生成每个候选区域对应的固定尺寸的特征图，即每个候选区域对应的图像特征。最终，通过fast-rcnn模型中的分类网络，根据各候选区域各自对应的图像特征，确定各候选区域各自对应的分类概率，并通过fast-rcnn模型中的边框回归网络，调整各候选区域各自的位置；训练上述分类网络和边框回归网络时，可以使用softmax Loss(探测分类概率)和Smooth L1 Loss(探测边框回归)对分类网络和边框回归网络进行联合训练。

应理解，在实际应用中，除了可以使用上述faster-rcnn模型、rcnn模型和fast-rcnn模型，在目标图像中确定目标区域以及目标区域对应的图像特征外，也可以使用其它类型的目标检测模型，确定目标图像中的目标区域以及目标区域对应的图像特征，还可以采用多种图像处理模型的组合，确定目标图像中的目标区域以及目标区域对应的图像特征，本申请在此不对确定目标图像中的目标区域以及目标区域对应的图像特征的方式做任何限定。

步骤203：针对所述目标描述数据，获取所述目标描述数据对应的数据特征。

对于所获取的目标描述数据，服务器需要确定该目标描述数据对应的数据特征。示例性的，服务器可以采用与目标描述数据的数据类型对应的特征提取模型，对该目标描述数据进行特征提取处理，得到目标描述数据对应的数据特征。

正如上文所提及的，服务器所获取的目标描述数据具体可以为目标文本、参考图像和目标语音中的至少一种，相应地，当目标描述数据分别为目标文本、参考图像和目标语音时，服务器可以通过以下方式获取目标描述数据对应的数据特征。

当目标描述数据为目标文本时，服务器可以通过文本语义识别模型，根据该目标文本，确定该目标文本对应的文本特征。具体的，服务器可以调用预先基于通用文本训练集训练好的文本语义识别模型，如BERT(Bidirectional Encoder Representations fromTransformers)模型、ELECTRA(Efficiently Learning an Encoder that ClassifiesToken Replacements Accurately)模型等，对目标文本进行特征提取处理，得到该目标文本中各文本片段各自对应的文本特征，此处的文本片段例如可以为字、词或短语；进而，根据该目标文本中各文本片段各自对应的文本特征，确定该目标文本对应的文本特征。

当目标描述数据为参考图像时，服务器可以通过图像特征提取模型，根据该参考图像，确定该参考图像对应的图像特征。作为一种示例，服务器可以采用用于提取图像整体特征的图像特征提取模型，如Resnet152模型等，对参考图像进行特征提取处理，得到该参考图像对应的整体图像特征，作为该参考图像对应的图像特征。作为另一种示例，服务器也可以采用上述步骤202中介绍的方式，通过目标检测模型，如faster-rcnn模型、rcnn模型、fast-rcnn模型等，确定参考图像中包括参考识别对象的目标区域，并提取该目标区域对应的图像特征，作为该参考图像对应的图像特征。

当目标描述数据为目标语音时，服务器可以通过语义特征提取算法，根据该目标语音，确定该目标语音对应的语音特征。示例性的，服务器可以采用线性预测分析(LinearPrediction Coefficients，LPC)算法、感知线性预测系数(Perceptual LinearPredictive，PLP)算法、线性预测倒谱系数(Linear Predictive Cepstral Coefficient，LPCC)算法、梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)算法等，对目标语音进行处理，从而得到服务器可以处理的语音特征。

应理解，当目标描述数据为其它类型的描述数据时，服务器可以采用其对应的特征提取方式，对其进行特征提取处理，得到该目标描述数据对应的数据特征，本申请在此不对获取目标描述数据对应的数据特征的方式做任何限定。

需要说明的是，服务器可以先执行步骤202、后执行步骤203，也可以先执行步骤203、后执行步骤202，还可以同时执行步骤202和步骤203，本申请在此不对步骤202和步骤203的执行顺序做任何限定。

步骤204：根据所述目标图像中所述目标区域对应的图像特征、以及所述目标描述数据对应的数据特征，确定所述目标图像与所述目标描述数据之间的匹配性检测结果；所述匹配性检测结果用于表征所述目标图像与所述目标描述数据之间的匹配程度。

服务器确定出目标图像中目标区域对应的图像特征、以及目标描述数据对应的数据特征后，可以进一步根据目标区域对应的图像特征以及目标描述数据对应的数据特征，确定该目标图像与该目标描述数据之间的匹配性检测结果，即确定该目标图像与该目标描述数据之间的匹配程度，该目标图像与该目标描述数据是否匹配。

在一种可能的实现方式中，服务器可以拼接目标区域对应的图像特征和目标描述数据对应的数据特征，得到融合特征；进而，通过匹配性检测模型，根据该融合特征，确定目标图像与目标描述数据之间的匹配性检测结果。

具体的，服务器可以将通过步骤202获得的目标区域对应的图像特征与通过步骤203获得的目标描述数据对应的数据特征拼接起来，得到一个融合有目标区域对应的图像特征和目标描述数据对应的数据特征的融合特征。然后，将该融合特征输入预先训练好的匹配性检测模型，该匹配性检测模型通过对该融合特征进行分析处理，将相应地输出该目标图像与该目标描述数据之间的匹配性结果；例如，该匹配性检测模型可以输出0或1，输出0则表示该目标图像与该目标描述数据不匹配，输出1则表示该目标图像与该目标描述数据匹配。

当目标图像中包括多个目标区域时，针对每个目标区域，服务器可以拼接该目标区域对应的图像特征和目标描述数据对应的数据特征，得到该目标区域对应的融合特征；相应地，通过匹配性检测模型确定匹配性检测结果时，服务器可以通过该匹配性检测模型，根据多个目标区域各自对应的融合特征，确定该目标图像与目标描述数据之间的匹配性检测结果。

示例性的，假设目标图像中包括20个目标区域，20个目标区域各自对应的图像特征分别为box_1、box_2、……、box_20；并且假设目标描述数据为目标图像的标题Title，通过BERT模型对该Title进行语义特征提取处理，得到对应的文本特征CLS_embedding＝BERT(Title)。针对第i(i等于1至20)个目标区域，服务器可以将第i个目标区域对应的图像特征box_i与CLS_embedding拼接起来，得到该第i个目标区域对应的融合特征Fusion_i＝[CLS_embedding:box_i]。然后，服务器可以将每个目标区域对应的融合特征输入匹配性检测模型，通过匹配性检测模型中的全连接层对输入的Fusion_i进行映射操作，将得到第i个目标区域对应的映射特征Logits_i＝FC(Fusion_i)，该映射特征例如可以是三维的交互特征，如Logits_i＝[logits_i1,logits_i2,logits_i3]；进而，匹配性检测模型可以拼接20个目标区域各自对应的映射特征，得到最终的映射特征表示Logit，并基于该映射特征表示Logit，确定目标图像与其标题之间的匹配性检测结果。

上文步骤201中介绍了目标图像可以为目标视频中的关键视频帧，并且目标视频中可以包括一个或多个关键视频帧，在该种情况下，服务器可以根据目标视频中包括的各关键视频帧中的目标区域对应的图像特征、以及目标描述数据对应的数据特征，确定目标融合特征；进而，根据该目标融合特征，确定该关键视频帧与目标描述数据之间的匹配性检测结果，并将该匹配性检测结果作为该目标视频与目标描述数据之间的匹配性检测结果。

示例性的，假设目标视频中包括多个关键视频帧，且每个关键视频帧中均包括20个目标区域；在该种情况下，服务器可以通过步骤202，针对目标视频中的每个关键视频帧，确定其中各目标区域各自对应的图像特征。确定目标视频与目标描述数据之间的匹配性检测结果时，针对每个关键视频帧，服务器可以确定该关键视频帧中各目标区域各自对应的融合特征，即针对该关键视频帧中的每个目标区域，将该目标区域对应的图像特征与该目标描述数据对应的数据特征拼接起来，得到该目标区域对应的融合特征；进而拼接该关键视频帧中各目标区域各自对应的融合特征，得到该关键视频帧对应的融合特征；进而，服务器可以拼接各关键视频帧各自对应的融合特征，得到目标融合特征。最终，可以将该目标融合特征输入匹配性检测模型，该匹配性检测模型对该目标融合特征进行分析处理，将相应地输出匹配性检测结果，该匹配性检测结果本质上是目标视频与目标描述数据之间的匹配性检测结果。

应理解，当目标视频中仅包括一个关键视频帧时，服务器可以直接拼接该关键视频帧中各目标区域各自对应的融合特征，得到目标融合特征；进而基于该目标融合特征，确定目标视频与目标描述数据之间的匹配性检测结果。

应理解，上述确定目标图像与目标描述数据之间的匹配性检测结果的方式仅为示例，在实际应用中，服务器也可以采用其它方式确定目标图像与目标描述数据之间的匹配性检测结果；例如，服务器可以采用对应的特征转换方式，对目标区域对应的图像特征和目标描述数据对应的数据特征分别进行转换处理，以使转换后的目标区域对应的图像特征与转换后的目标描述数据对应的数据特征具有可对比性，进而，服务器可以通过计算两种转换后的特征之间的匹配度，获得目标图像与目标描述数据之间的匹配性检测结果；本申请在此不对确定目标图像与目标描述数据之间的匹配性检测结果的方式做任何限定。

此外，本申请实施例还提供了一种用于训练上述实施例中提及的匹配性检测模型的方法，下面对该匹配性检测模型的训练方法进行介绍。

参见图3，图3为本申请实施例提供的匹配性检测模型的训练方法的流程示意图。为了便于描述，下述实施例仍以该匹配性检测模型训练方法的执行主体为服务器为例进行介绍。如图3所示，该匹配性检测模型训练方法包括以下步骤：

步骤301：获取训练样本；所述训练样本包括训练图像中训练目标区域对应的图像特征、训练描述数据对应的数据特征、以及所述训练图像与所述训练描述数据之间的标注匹配关系。

服务器训练匹配性检测模型前，需要先获取适当数量的用于训练该匹配性检测模型的训练样本。所获取的训练样本中需要包括：训练图像中训练目标区域对应的图像特征、训练描述数据对应的数据特征、以及训练图像与训练描述数据之间的标注匹配关系，该标注匹配关系能够准确地反映训练图像与训练描述数据之间是否匹配。

与图2所示实施例中介绍的目标图像相类似，训练图像具体可以为单独的静态图片，也可以为动态图片、或者动态图片中的某一帧或多帧静态图片，还可以为视频、或者视频中的一帧或多帧视频帧，本申请在此不对训练图像的表现形式做任何限定。训练图像中的训练目标区域以及训练目标区域对应的图像特征的确定方式，具体可以参见图2所示实施例中步骤202介绍的在目标图像中确定目标区域的方式、以及确定目标区域对应的图像特征的方式。

与图2所示实施例中介绍的目标描述数据相类似，训练描述数据是用于描述训练图像的数据，该训练描述数据具体可以是文本、图像、语音中的任一种数据。训练描述数据对应的数据特征的确定方式，具体可以参见图2所示实施例中步骤203介绍的确定目标描述数据对应的数据特征的方式。

图4为本申请实施例提供的一种示例性的训练样本示意图。如图4所示，每个训练样本中包括训练视频中关键视频帧中各目标区域各自对应的图像特征(即e0、e1、e2、e3、……，分别代表第0个、第1个、第2个、第3个、……目标区域各自对应的图像特征)、训练视频的视频标题对应的文本特征、以及标注匹配关系(0或者1，0表示训练视频与其标题不匹配，1表示训练视频与其标题匹配)。基于图4所示的训练样本，可以训练用于检测视频与其视频标题是否匹配的匹配性检测模型。

应理解，若要训练用于检测图像与其它类型的描述数据是否匹配的匹配性检测模型，训练样本中应包括训练图像中目标区域对应的图像特征、与其它类型的描述数据对应的数据特征。

步骤302：通过待训练的初始匹配性检测模型，根据所述训练样本中所述训练目标区域对应的图像特征以及所述训练描述数据对应的数据特征，确定所述训练图像与所述训练描述数据之间的预测匹配关系。

进而，服务器可以利用通过步骤301获取到的训练样本，对初始匹配性检测模型进行训练；该初始匹配性检测模型是图2所示实施例中实际使用的匹配性检测模型的训练基础，该初始匹配性检测模型与实际使用的匹配性检测模型结构相同，但该初始匹配性检测模型的模型参数是初始化赋值的。

具体训练时，服务器可以将训练样本中训练图像中训练目标区域对应的图像特征与训练描述数据对应的数据特征拼接起来，得到融合特征；当训练图像中包括多个训练目标区域时，服务器可以针对每个训练目标区域，将该训练目标区域对应的图像特征与训练描述数据对应的数据特征拼接起来，得到该训练目标区域对应的融合特征。进而，服务器可以将各训练目标区域各自对应的融合特征输入初始匹配性检测模型，该初始匹配性检测模型通过对输入的融合特征进行分析处理，可以相应地输出训练图像与训练描述数据之间的预测匹配关系。

图5为本申请实施例提供的一种示例性的模型训练架构示意图。如图5所示，当所训练的匹配性检测模型用于检测视频与视频标题是否匹配的模型时，服务器可以获取通过faster-rcnn模型针对训练图像确定的各训练目标区域各自对应的图像特征，以及获取通过BERT模型针对训练文本数据确定的该训练文本数据对应的文本特征；然后，针对每个训练目标区域，服务器可以将其对应的图像特征与训练文本数据对应的文本特征拼接起来，得到该训练目标区域对应的融合特征；然后，服务器可以将各个训练目标区域各自对应的融合特征输入所要训练的初始匹配性检测模型，该初始匹配性模型中的全连接层可以先对各个训练目标区域各自对应的融合特征分别进行映射处理，得到各融合特征各自对应的映射特征，该映射特征例如可以为三维的交互特征；进而，初始匹配性检测模型可以拼接各融合特征各自对应的映射特征，得到最终的映射表达；最终，该初始匹配性检测模型可以将该最终的映射表达输入分类层进行二分类处理，从而得到预测匹配关系，0表示预测结果为训练图像与训练文本数据不匹配，1表示预测结果为训练图像与训练文本数据相匹配。

步骤303：根据所述预测匹配关系以及所述训练样本中的所述标注匹配关系，构建损失函数。

服务器获取到初始匹配性检测模型输出的预测匹配关系后，可以根据该预测匹配关系与训练样本中的标注匹配关系，构建损失函数。所构建的损失函数具体可以是负对数损失函数，具体的构建公式如下：

其中，loss_cls1即为所构建的损失函数；y_i表示第i个类别对应的标注匹配关系，a_i表示第i个类别对应的预测匹配关系。

步骤304：基于所述损失函数，调整所述初始匹配性检测模型的模型参数。

服务器构建出损失函数后，可以将使该损失函数最小化或收敛作为训练目标，通过梯度下降算法调整初始匹配性检测模型的模型参数。

步骤305：当确定所述初始匹配性检测模型满足训练结束条件时，将所述初始匹配性检测模型作为所述匹配性检测模型。

在实际应用中，服务器可以基于不同的训练样本迭代执行多次步骤302至步骤304，直至确定所训练的初始匹配性检测模型满足训练结束条件为止，此时，可以将该满足训练结束条件的初始匹配性检测模型视为可以投入实际使用的匹配性检测模型，即图2所示实施例中步骤204中使用的匹配性检测模型。

应理解，上述训练结束条件例如可以为初始匹配性检测模型的预测准确率达到预设准确率阈值；即服务器可以利用测试样本集(其中包括的测试样本的形式与上文介绍的训练样本的形式相同)，对所训练的初始匹配性检测模型进行测试，以检测该初始匹配性检测模型的预测准确率是否达到预测准确率阈值。上述训练结束条件又例如可以为初始匹配性检测模型的预测准确率不再有明显提高；即服务器可以利用测试样本集，对通过不同训练轮次训练得到的初始匹配性检测模型进行测试，以检测各训练轮次训练得到的初始匹配性检测模型的预测准确率，并判断通过不同训练轮次训练得到的初始匹配性检测模型的预测准确率之间的差距是否超过预设差距阈值，若未超过，则可认为该初始匹配性检测模型的预测准确率不再有明显提高。上述训练结束条件再例如可以为对该初始匹配性检测模型的迭代训练轮次达到预设轮次阈值，本申请在此不对该训练结束条件做任何限定。

如此，通过上述方式训练匹配性检测模型，可以保证所训练的匹配性检测模型能够较好地基于细粒度的图像特征和相关描述数据的数据特征，检测图像与相关描述数据之间的匹配性，从而为本申请实施例提供的数据处理方法提供基本的技术支撑。

针对上文描述的数据处理方法，本申请还提供了对应的数据处理装置，以使上述数据处理方法在实际中得以应用及实现。

参见图6，图6是与上文图2所示的数据处理方法对应的一种数据处理装置600的结构示意图。如图6所示，该数据处理装置600包括：

数据获取模块601，用于获取目标图像和目标描述数据；

第一特征提取模块602，用于针对所述目标图像，确定所述目标图像中的目标区域，并获取所述目标区域对应的图像特征；所述目标区域是所述目标图像中包括参考识别对象的区域；

第二特征提取模块603，用于针对所述目标描述数据，获取所述目标描述数据对应的数据特征；

匹配性检测模块604，用于根据所述目标图像中所述目标区域对应的图像特征、以及所述目标描述数据对应的数据特征，确定所述目标图像与所述目标描述数据之间的匹配性检测结果；所述匹配性检测结果用于表征所述目标图像与所述目标描述数据之间的匹配程度。

可选的，在图6所示的数据处理装置的基础上，参见图7，图7为本申请实施例提供的另一种数据处理装置700的结构示意图。如图7所示，所述第一特征提取模块602包括：

特征提取子模块701，用于在所述目标图像中确定多个候选区域，确定所述多个候选区域各自对应的图像特征；并根据所述多个候选区域各自对应的图像特征，确定所述多个候选区域各自对应的分类概率；所述分类概率用于表征其对应的候选区域中的内容属于参考类别的概率，所述参考类别是所述参考识别对象所属的类别；

筛选子模块702，用于根据所述多个候选区域各自对应的分类概率，从所述多个候选区域中选出所述目标区域，并获取所述目标区域对应的图像特征。

可选的，在图7所示的数据处理装置的基础上，所述特征提取子模块701具体用于：

通过第一目标检测模型中的卷积网络，对所述目标图像进行特征提取处理，得到所述目标图像对应的目标特征图；通过所述第一目标检测模型中的区域生成网络，在所述目标图像中生成所述多个候选区域；

将所述多个候选区域分别映射至所述目标特征图上；

通过所述第一目标检测模型中的区域池化层，根据所述多个候选区域在所述目标特征图上的映射特征，确定所述多个候选区域各自对应的图像特征；

通过所述第一目标检测模型中的分类网络，根据所述多个候选区域各自对应的图像特征，确定所述多个候选区域各自对应的分类概率；并通过所述第一目标检测模型中的边框回归网络，调整所述多个候选区域各自的位置。

通过选择性搜索算法，在所述目标图像中提取所述多个候选区域；

通过第二目标检测模型中的卷积网络，对所述多个候选区域分别进行特征提取处理，得到所述多个候选区域各自对应的图像特征；

通过所述第二目标检测模型中的支持向量机，根据所述多个候选区域各自对应的图像特征，确定所述多个候选区域各自对应的分类概率；通过所述第二目标检测模型中的边框回归网络，调整所述多个候选区域各自的位置。

通过第三目标检测模型中的卷积网络，对所述目标图像进行特征提取处理，得到所述目标图像对应的目标特征图；

将所述多个候选区域分别映射至所述目标特征图上；

通过所述第三目标检测模型中的区域池化层，根据所述多个候选区域在所述目标特征图上的映射特征，确定所述多个候选区域各自对应的图像特征；

通过所述第三目标检测模型中的分类网络，根据所述多个候选区域各自对应的图像特征，确定所述多个候选区域各自对应的分类概率；并通过所述第三目标检测模型中的边框回归网络，调整所述多个候选区域各自的位置。

可选的，在图6所示的数据处理装置的基础上，所述第二特征提取模块603具体用于通过以下至少一种方式，获取所述目标描述数据对应的数据特征：

当所述目标描述数据为目标文本时，通过文本语义识别模型，根据所述目标文本，确定所述目标文本对应的文本特征；

当所述目标描述数据为参考图像时，通过图像特征提取模型，根据所述参考图像，确定所述参考图像对应的图像特征；

当所述目标描述数据为目标语音时，通过语音特征提取算法，根据所述目标语音，确定所述目标语音对应的语音特征。

可选的，在图6所示的数据处理装置的基础上，当所述目标图像是所述目标视频中的关键视频帧时，所述匹配性检测模块604具体用于：

根据所述目标视频包括的各所述关键视频帧中所述目标区域对应的图像特征、以及所述目标描述数据对应的数据特征，确定目标融合特征；

根据所述目标融合特征，确定各所述关键视频帧与所述目标描述数据之间的匹配性检测结果；将所述匹配性检测结果作为所述目标视频与所述目标描述数据之间的匹配性检测结果。

可选的，在图6所示的数据处理装置的基础上，参见图8，图8为本申请实施例提供的另一种数据处理装置800的结构示意图。如图8所示，所述匹配性检测模块604包括：

特征融合子模块801，用于拼接所述目标区域对应的图像特征和所述目标描述数据对应的数据特征，得到融合特征；

检测子模块802，用于通过匹配性检测模型，根据所述融合特征，确定所述目标图像与所述目标描述数据之间的匹配性检测结果。

可选的，在图8所示的数据处理装置的基础上，当所述目标图像中包括多个所述目标区域时，所述特征融合子模块801具体用于：

针对每个所述目标区域，拼接所述目标区域对应的图像特征和所述目标描述数据对应的数据特征，得到所述目标区域对应的融合特征；

所述检测子模块802具体用于：

通过所述匹配性检测模型，根据多个所述目标区域各自对应的融合特征，确定所述目标图像与所述目标描述数据之间的匹配性检测结果。

可选的，在图8所示的数据处理装置的基础上，参见图9，图9为本申请实施例提供的另一种数据处理装置900的结构示意图，如图9所示，所述装置还包括模型训练模块901，所述模型训练模块901用于：

获取训练样本；所述训练样本包括训练图像中训练目标区域对应的图像特征、训练描述数据对应的数据特征、以及所述训练图像与所述训练描述数据之间的标注匹配关系；

通过待训练的初始匹配性检测模型，根据所述训练样本中所述训练目标区域对应的图像特征以及所述训练描述数据对应的数据特征，确定所述训练图像与所述训练描述数据之间的预测匹配关系；

根据所述预测匹配关系以及所述训练样本中的所述标注匹配关系，构建损失函数；

基于所述损失函数，调整所述初始匹配性检测模型的模型参数；

当确定所述初始匹配性检测模型满足训练结束条件时，将所述初始匹配性检测模型作为所述匹配性检测模型。

上述数据处理装置检测目标图像与目标描述数据之间的匹配程度时，使用的是目标图像中目标区域对应的图像特征，相比目标图像的整体特征而言，目标图像中目标区域对应的图像特征属于细粒度图像特征，此类细粒度图像特征通常能更精准地反映图像实际表达的信息，对于相似的图像，使用此类细粒度图像特征也能有效地将其区分开来；基于该细粒度图像特征检测图像与相关描述数据之间的匹配性，能更准确地检测图像实际表达的信息与相关描述数据表达的信息是否匹配，从而保证产生的匹配性检测结果更准确。

本申请实施例还提供了一种用于检测数据匹配性的计算机设备，该设备具体可以是终端设备或者服务器，下面将从硬件实体化的角度对本申请实施例提供的终端设备和服务器进行介绍。

参见图10，图10是本申请实施例提供的终端设备的结构示意图。如图10所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理、销售终端(Point ofSales，POS)、车载电脑等任意终端设备，以终端为计算机为例：

图10示出的是与本申请实施例提供的终端相关的计算机的部分结构的框图。参考图10，计算机包括：射频(Radio Frequency，RF)电路1010、存储器1020、输入单元1030(其中包括触控面板1031和其他输入设备1032)、显示单元1040(其中包括显示面板1041)、传感器1050、音频电路1060(其可以连接扬声器1061和传声器1062)、无线保真(wirelessfidelity，WiFi)模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解，图10中示出的计算机结构并不构成对计算机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储器1020可用于存储软件程序以及模块，处理器1080通过运行存储在存储器1020的软件程序以及模块，从而执行计算机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器1080是计算机的控制中心，利用各种接口和线路连接整个计算机的各个部分，通过运行或执行存储在存储器1020内的软件程序和/或模块，以及调用存储在存储器1020内的数据，执行计算机的各种功能和处理数据，从而对计算机进行整体监控。可选的，处理器1080可包括一个或多个处理单元；优选的，处理器1080可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1080中。

在本申请实施例中，该终端所包括的处理器1080还具有以下功能：

获取目标图像和目标描述数据；

可选的，所述处理器1080还用于执行本申请实施例提供的数据处理方法的任意一种实现方式的步骤。

参见图11，图11为本申请实施例提供的一种服务器1100的结构示意图。该服务器1100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1122(例如，一个或一个以上处理器)和存储器1132，一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中，存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1122可以设置为与存储介质1130通信，在服务器1100上执行存储介质1130中的一系列指令操作。

服务器1100还可以包括一个或一个以上电源1126，一个或一个以上有线或无线网络接口1150，一个或一个以上输入输出接口1158，和/或，一个或一个以上操作系统，例如Windows Server^TM，Mac OS X^TM，Unix^TM,Linux^TM，FreeBSD^TM等等。

上述实施例中由服务器所执行的步骤可以基于该图11所示的服务器结构。

其中，CPU 1122用于执行如下步骤：

获取目标图像和目标描述数据；

可选的，CPU 1122还可以用于执行本申请实施例提供的数据处理方法的任意一种实现方式的步骤。

本申请实施例还提供一种计算机可读存储介质，用于存储计算机程序，该计算机程序用于执行前述各个实施例所述的一种数据处理方法中的任意一种实施方式。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前述各个实施例所述的一种数据处理方法中的任意一种实施方式。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储计算机程序的介质。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获取目标图像和目标描述数据；

2.根据权利要求1所述的方法，其特征在于，所述针对所述目标图像，确定所述目标图像中的目标区域，并获取所述目标区域对应的图像特征，包括：

在所述目标图像中确定多个候选区域，确定所述多个候选区域各自对应的图像特征；并根据所述多个候选区域各自对应的图像特征，确定所述多个候选区域各自对应的分类概率；所述分类概率用于表征其对应的候选区域中的内容属于参考类别的概率，所述参考类别是所述参考识别对象所属的类别；

根据所述多个候选区域各自对应的分类概率，从所述多个候选区域中选出所述目标区域，并获取所述目标区域对应的图像特征。

3.根据权利要求2所述的方法，其特征在于，所述在所述目标图像中确定多个候选区域，确定所述多个候选区域各自对应的图像特征；并根据所述多个候选区域各自对应的图像特征，确定所述多个候选区域各自对应的分类概率，包括：

将所述多个候选区域分别映射至所述目标特征图上；

4.根据权利要求2所述的方法，其特征在于，所述在所述目标图像中确定多个候选区域，确定所述多个候选区域各自对应的图像特征；并根据所述多个候选区域各自对应的图像特征，确定所述多个候选区域各自对应的分类概率，包括：

5.根据权利要求2所述的方法，其特征在于，所述在所述目标图像中确定多个候选区域，确定所述多个候选区域各自对应的图像特征；并根据所述多个候选区域各自对应的图像特征，确定所述多个候选区域各自对应的分类概率，包括：

将所述多个候选区域分别映射至所述目标特征图上；

6.根据权利要求1所述的方法，其特征在于，所述针对所述目标描述数据，获取所述目标描述数据对应的数据特征，包括以下至少一种：

7.根据权利要求1所述的方法，其特征在于，当所述目标图像是所述目标视频中的关键视频帧时，所述根据所述目标图像中所述目标区域对应的图像特征、以及所述目标描述数据对应的数据特征，确定所述目标图像与所述目标描述数据之间的匹配性检测结果，包括：

8.根据权利要求1所述的方法，其特征在于，所述根据所述目标图像中所述目标区域对应的图像特征、以及所述目标描述数据对应的数据特征，确定所述目标图像与所述目标描述数据之间的匹配性检测结果，包括：

拼接所述目标区域对应的图像特征和所述目标描述数据对应的数据特征，得到融合特征；

通过匹配性检测模型，根据所述融合特征，确定所述目标图像与所述目标描述数据之间的匹配性检测结果。

9.根据权利要求8所述的方法，其特征在于，当所述目标图像中包括多个所述目标区域时，所述拼接所述目标区域对应的图像特征和所述目标描述数据对应的数据特征，得到融合特征，包括：

所述通过匹配性检测模型，根据所述融合特征，确定所述目标图像与所述目标描述数据之间的匹配性检测结果，包括：

10.根据权利要求8或9所述的方法，其特征在于，所述匹配性检测模型是通过以下方式训练的：

11.一种数据处理装置，其特征在于，所述装置包括：

数据获取模块，用于获取目标图像和目标描述数据；

12.根据权利要求11所述的装置，其特征在于，所述第一特征提取模块包括：

特征提取子模块，用于在所述目标图像中确定多个候选区域，确定所述多个候选区域各自对应的图像特征；并根据所述多个候选区域各自对应的图像特征，确定所述多个候选区域各自对应的分类概率；所述分类概率用于表征其对应的候选区域中的内容属于参考类别的概率，所述参考类别是所述参考识别对象所属的类别；

筛选子模块，用于根据所述多个候选区域各自对应的分类概率，从所述多个候选区域中选出所述目标区域，并获取所述目标区域对应的图像特征。

13.一种计算机设备，其特征在于，所述设备包括处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序执行权利要求1至10中任一项所述的数据处理方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1至10中任一项所述的数据处理方法。

15.一种计算机程序产品，包括计算机程序或者指令，其特征在于，所述计算机程序或者所述指令被处理器执行时，实现权利要求1至10中任一项所述的数据处理方法。