CN112231347A

CN112231347A - 一种数据处理方法、装置、计算机设备及存储介质

Info

Publication number: CN112231347A
Application number: CN202011261127.0A
Authority: CN
Inventors: 杨洁; 陈绍毅; 廖梦; 徐进; 王志平
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-11-12
Filing date: 2020-11-12
Publication date: 2021-01-15

Abstract

本申请实施例公开了一种数据处理方法、装置、计算机设备及存储介质，该方法包括：获取用于将搜索业务数据和待匹配业务数据进行匹配的多模态匹配模型；通过文本特征学习器，对搜索业务数据的第一特征提取向量和第一模态业务数据的第二特征提取向量进行第一学习处理，得到第一学习结果；通过多模态特征学习器，对第一特征提取向量和第二模态业务数据的第三特征提取向量进行第二学习处理，得到第二学习结果；通过预测生成器将第一学习结果中的学习向量与第二学习结果中的学习向量进行拼接处理，得到向量拼接结果；向量拼接结果用于指示对搜索业务数据和待匹配业务数据之间的匹配度进行预测。采用本申请实施例，可以提高预测结果的准确性。

Description

一种数据处理方法、装置、计算机设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种数据处理方法、装置、计算机设备及存储介质。

背景技术

目前在业务搜索场景中，用户可以在应用客户端中录入自己感兴趣的业务数据(例如，文本数据a)，此时，计算机设备往往会通过文本匹配的方式为该用户搜索与该文本数据a具备较高文本匹配度的目标匹配数据(例如，业务数据b)。可以理解的是，计算机设备在对文本数据a与业务数据b进行匹配的过程中，需要确定该文本数据a的特征向量1，以及业务数据b中的文本(例如，标题文本)的特征向量2，进而可以通过确定特征向量1和特征向量2之间的相似距离，来确定文本数据a和业务数据b之间的相似度。

由此可见，现有的文本匹配方式，需要从业务数据b中提取标题文本的特征向量，并直接将该标题文本的特征向量作为用于表征整个业务数据b的特征向量，因此，在进行单一地文本匹配的过程中，会导致最终搜索到的目标匹配数据的存在较大误差，从而降低了预测结果的准确性。

发明内容

本申请实施例提供一种数据处理方法、装置、计算机设备及存储介质，可以提高预测结果的准确性。

本申请实施例一方面提供一种数据处理方法，包括：

获取用于将搜索业务数据和待匹配业务数据进行匹配的多模态匹配模型；多模态匹配模型包括特征学习器以及预测生成器；待匹配业务数据中包括第一模态业务数据和第二模态业务数据；

通过特征学习器中的文本特征学习器，对搜索业务数据的第一特征提取向量和第一模态业务数据的第二特征提取向量进行第一学习处理，得到第一学习结果；第一学习结果中的学习向量是由文本全局信息向量和文本局部细粒度向量所得到的；文本全局信息向量是基于文本特征学习器的第一全局特征学习层中的第一多尺度卷积核所得到的；文本局部细粒度向量是基于文本特征学习器的第一局部特征学习层所得到的；

通过特征学习器中的多模态特征学习器，对第一特征提取向量和第二模态业务数据的第三特征提取向量进行第二学习处理，得到第二学习结果；第二学习结果中的学习向量是由多模态全局信息向量和多模态局部细粒度向量所得到的；多模态全局信息向量是基于多模态特征学习器的第二全局特征学习层中的第二多尺度卷积核所得到的；多模态局部细粒度向量是基于多模态特征学习器的第二局部特征学习层所得到的；

通过预测生成器将第一学习结果中的学习向量与第二学习结果中的学习向量进行拼接处理，得到向量拼接结果；向量拼接结果用于指示对搜索业务数据和待匹配业务数据之间的匹配度进行预测。

本申请实施例一方面提供一种数据处理方法，包括：

获取用于训练多模态训练模型的样本数据组；样本数据组包括第一类型样本数据组以及第二类型样本数据组；第一类型样本数据组为具有样本标签信息的样本数据组；第二类型样本数据组为不具有样本标签信息的样本数据组；样本标签信息用于指示第一类型样本数据组之间的匹配度；

将样本数据组输入至多模态训练模型，由多模态训练模型输出样本数据组之间的预测结果，将预测结果作为预测标签信息；多模态训练模型包括样本特征提取器、样本特征学习器以及样本预测生成器；

获取样本数据组对应的样本拼接向量，基于样本拼接向量、多模态训练模型的模型损失函数以及与多模态训练模型相关联的期望条件，确定样本数据组的最佳扰动量；

基于最佳扰动量以及样本拼接向量，生成样本数据组对应的对抗样本数据，基于对抗样本数据、模型损失函数，对多模态训练模型进行迭代训练，得到模型训练结果；

当模型训练结果指示迭代训练后的多模态训练模型满足模型收敛条件时，将满足模型收敛条件的多模态训练模型作为用于预测业务数据组之间的匹配度的多模态匹配模型。

本申请实施例一方面提供一种数据处理装置，包括：

模型获取模块，用于获取用于将搜索业务数据和待匹配业务数据进行匹配的多模态匹配模型；多模态匹配模型包括特征学习器以及预测生成器；待匹配业务数据中包括第一模态业务数据和第二模态业务数据；

第一学习处理模块，用于通过特征学习器中的文本特征学习器，对搜索业务数据的第一特征提取向量和第一模态业务数据的第二特征提取向量进行第一学习处理，得到第一学习结果；第一学习结果中的学习向量是由文本全局信息向量和文本局部细粒度向量所得到的；文本全局信息向量是基于文本特征学习器的第一全局特征学习层中的第一多尺度卷积核所得到的；文本局部细粒度向量是基于文本特征学习器的第一局部特征学习层所得到的；

第二学习处理模块，用于通过特征学习器中的多模态特征学习器，对第一特征提取向量和第二模态业务数据的第三特征提取向量进行第二学习处理，得到第二学习结果；第二学习结果中的学习向量是由多模态全局信息向量和多模态局部细粒度向量所得到的；多模态全局信息向量是基于多模态特征学习器的第二全局特征学习层中的第二多尺度卷积核所得到的；多模态局部细粒度向量是基于多模态特征学习器的第二局部特征学习层所得到的；

拼接处理模块，用于通过预测生成器将第一学习结果中的学习向量与第二学习结果中的学习向量进行拼接处理，得到向量拼接结果；向量拼接结果用于指示对搜索业务数据和待匹配业务数据之间的匹配度进行预测。

其中，该装置还包括：

请求获取模块，用于获取用户终端发送的包括搜索业务数据的业务搜索请求；业务搜索请求为用户终端在应用客户端中响应针对搜索显示界面中的搜索控件的触发操作时所生成的；搜索业务数据是由用户终端从搜索显示界面的搜索区域中所获取到的；

数据获取模块，用于基于业务搜索请求，从视频数据库中获取具有第一业务类型的业务数据，将具有第一业务类型的业务数据作为第一模态业务数据，以及从视频数据库中获取具有第二业务类型的业务数据，将具有第二业务类型的业务数据作为第二模态业务数据；第一业务类型不同于第二业务类型；

待匹配业务数据确定模块，用于将第一模态业务数据和第二模态业务数据所共同映射的业务数据作为待匹配业务数据。

其中，若搜索业务数据的业务类型为第一业务类型，且第一业务类型属于文本类型，则第二业务类型包括以下至少一种业务类型：视频类型或者图片类型；多模态匹配模型包括特征提取器；特征提取器包括词向量提取网络和残差网络；

该装置还包括：

待编码文本数据确定模块，用于将搜索业务数据和第一模态业务数据作为待编码文本数据；

向量提取模块，用于通过词向量提取网络，从待编码文本数据中提取得到特征提取向量；特征提取向量包括从搜索业务数据中所提取到的第一特征提取向量，以及从第一模态业务数据中所提取到的第二特征提取向量；

抽帧处理模块，用于对第二模态业务数据进行抽帧处理得到视频帧，将视频帧输入至残差网络中，由残差网络提取得到第二模态业务数据对应的第三特征提取向量。

其中，该向量提取模块包括：

预处理单元，用于对待编码文本数据进行预处理，将预处理后的待编码文本数据作为待匹配文本数据，按照文本词表对待匹配文本数据进行字符分割处理，得到待匹配文本数据对应的字信息序列以及字位置序列；待匹配文本数据中的总字数为H；H为正整数；

目标字获取单元，用于从字信息序列中，遍历获取待匹配文本数据的第k个字对应的字信息，将所获取到的字信息作为目标字信息，从字位置序列中获取目标字信息对应的字位置信息，将所获取到的字位置信息作为目标字位置信息；k为小于或者等于H的正整数；

向量提取单元，用于将目标字信息输入至词向量提取网络中，由词向量提取网络提取出第k个字对应的目标字信息向量，将目标字位置信息输入至词向量提取网络中，由词向量提取网络提取出第k个字对应的目标字位置向量；词向量提取网络是基于文本词表所训练的；

特征提取向量确定单元，用于基于目标字信息向量以及目标字位置向量，得到第k个字对应的特征提取向量，直到k的值为H时，得到待匹配文本数据对应的特征提取向量。

其中，特征学习器包括与文本特征学习器相关联的第一多层感知机；文本特征学习器包括第一双向隐藏编码层、第一全局特征学习层以及第一局部特征学习层；

该第一学习处理模块包括：

文本初始向量确定单元，用于将搜索业务数据的第一特征提取向量和第一模态业务数据的第二特征提取向量分别输入至第一双向隐藏编码层，得到第一特征提取向量对应的第一初始隐藏向量，以及第二特征提取向量对应的第二初始隐藏向量；

文本全局向量确定单元，用于基于第一初始隐藏向量、第二初始隐藏向量以及第一全局特征学习层，得到第一特征提取向量对应的第一全局信息向量，以及第二特征提取向量对应的第二全局信息向量，将第一全局信息向量和第二全局信息向量作为文本全局信息向量；

文本局部向量确定单元，用于基于第一初始隐藏向量、第二初始隐藏向量以及第一局部特征学习层，得到第一特征提取向量对应的第一局部细粒度向量，以及第二特征提取向量对应的第二局部细粒度向量，将第一局部细粒度向量和第二局部细粒度向量作为文本局部细粒度向量；

文本输出向量确定单元，用于基于文本全局信息向量以及文本局部细粒度向量，得到第一特征提取向量对应的第一输出向量，以及第二特征提取向量对应的第二输出向量；

第一学习结果确定单元，用于将第一输出向量输入至第一多层感知机，得到第一特征提取向量对应的第一学习向量，且将第二输出向量输入至第一多层感知机，得到第二特征提取向量对应的第二学习向量，将第一学习向量与第二学习向量作为第一学习结果。

其中，该文本全局向量确定单元包括：

初始隐藏向量确定子单元，用于将第一初始隐藏向量和第二初始隐藏向量分别作为待匹配文本数据对应的初始隐藏向量；初始隐藏向量为具有H行的隐藏向量矩阵；H是由待匹配文本数据中的总字数所得到的；隐藏向量矩阵中包括隐藏向量p_k；隐藏向量p_k为从待匹配文本数据中遍历获取到的第k个字所对应的隐藏向量；k为小于或者等于H的正整数；

卷积核获取子单元，用于将初始隐藏向量输入至第一全局特征学习层，获取与第一全局特征学习层相关联的第一多尺度卷积核；第一多尺度卷积核包括N个第一类型卷积核和(N-1)个第二类型卷积核；N为大于1的正整数；

卷积特征确定子单元，用于将初始隐藏向量分别输入N个第一类型卷积核，得到N个第一卷积特征，在N个第一卷积特征中获取第一类型卷积特征和第二类型卷积特征；通过(N-1)个第二类型卷积核分别对第二类型卷积特征进行卷积处理，得到(N-1)个第二卷积特征；

池化特征确定子单元，用于将第一类型卷积特征和(N-1)个第二卷积特征输入至平均池化层，得到第k个字所对应的池化特征，直到k的值为H时，得到待匹配文本数据中的每个字分别对应的池化特征；

全局向量确定子单元，用于将待匹配文本数据中的每个字分别对应的池化特征输入至连接层，得到待匹配文本数据对应的文本全局信息向量；文本全局信息向量包括第一特征提取向量对应的第一全局信息向量，以及第二特征提取向量对应的第二全局信息向量。

其中，第一初始隐藏向量为具有m行的隐藏向量矩阵；第二初始隐藏向量为具有n行的隐藏向量矩阵；m是由与搜索业务数据相关联的总字数所得到的；n是由与第一模态业务数据相关联的总字数所得到的；

文本局部向量确定单元包括：

隐藏向量获取子单元，用于将第一初始隐藏向量、第二初始隐藏向量输入至第一局部特征学习层，从与业务搜索数据相关联的第一初始隐藏向量中，遍历获取第i个字对应的隐藏向量p_ai以及第u个字对应的隐藏向量p_au，从与第一模态业务数据相关联的第二初始隐藏向量中，遍历获取第j个字对应的隐藏向量p_bj以及第v个字对应的隐藏向量p_bv；i和u均为小于或者等于m的正整数；j和v均为小于或者等于n的正整数；

局部权重确定子单元，用于确定隐藏向量p_ai与隐藏向量p_bj之间的第一局部权重e_ij，确定隐藏向量p_ai与隐藏向量p_bv之间的第二局部权重e_iv，确定隐藏向量p_au与隐藏向量p_bj之间的第三局部权重e_uj；

第一局部向量确定子单元，用于基于第一局部权重e_ij、第二局部权重e_iv以及隐藏向量p_bj，确定第i个字对应的第一中间隐藏向量

直到i的值为m时，得到m个第一中间隐藏向量，基于m个第一中间隐藏向量，得到第一特征提取向量对应的第一局部细粒度向量；

第二局部向量确定子单元，用于基于第一局部权重e_ij、第三局部权重e_uj以及隐藏向量p_ai，确定第j个字对应的第二中间隐藏向量

直到j的值为n时，得到n个第二中间隐藏向量，基于n个第二中间隐藏向量，得到第二特征提取向量对应的第二局部细粒度向量；

文本局部向量确定子单元，用于将第一局部细粒度向量和第二局部细粒度向量作为文本局部细粒度向量。

其中，特征学习器包括与多模态特征学习器相关联的第二多层感知机；多模态特征学习器包括第二双向隐藏编码层、第二全局特征学习层以及第二局部特征学习层；

该第二学习处理模块包括：

多模态初始向量确定单元，用于将第一特征提取向量和第二模态业务数据的第三特征提取向量分别输入至第二双向隐藏编码层，得到第三特征提取向量对应的第三初始隐藏向量以及第一特征提取向量对应的第四初始隐藏向量；

多模态全局向量确定单元，用于基于第三初始隐藏向量、第四初始隐藏向量以及第二全局特征学习层，得到第三特征提取向量对应的第三全局信息向量，以及第一特征提取向量对应的第四全局信息向量，将第三全局信息向量和第四全局信息向量作为多模态全局信息向量；

多模态局部向量确定单元，用于基于第三初始隐藏向量、第四初始隐藏向量以及第二局部特征学习层，得到第三特征提取向量对应的第三局部细粒度向量，以及第一特征提取向量对应的第四局部细粒度向量，将第三局部细粒度向量和第四局部细粒度向量作为多模态局部细粒度向量；

多模态输出向量确定单元，用于基于多模态全局信息向量以及多模态局部细粒度向量，得到第三特征提取向量对应的第三输出向量，以及第一特征提取向量对应的第四输出向量；

第二学习结果确定单元，用于将第三输出向量输入至第二多层感知机，得到第三特征提取向量对应的第三学习向量，且将第四输出向量输入至第二多层感知机，得到第一特征提取向量对应的第四学习向量，将第三学习向量和第四学习向量作为第二学习结果。

其中，第一学习结果中的学习向量包括第一特征提取向量对应的第一学习向量、第二特征提取向量对应的第二学习向量；第二学习结果中的学习向量包括第三特征提取向量对应的第三学习向量、第一特征提取向量对应的第四学习向量；

该拼接处理模块包括：

拼接处理单元，用于通过预测生成器，将第一学习向量与第四学习向量进行拼接处理，得到第一拼接向量，且将第二学习向量与第三学习向量进行拼接处理，得到第二拼接向量；

拼接结果确定单元，用于将第一拼接向量和第二拼接向量，作为向量拼接结果。

其中，该装置还包括：

搜索结果确定模块，用于在搜索业务数据和待匹配业务数据之间的匹配度指示搜索业务数据与待匹配业务数据匹配成功时，将待匹配业务数据作为业务搜索请求对应的业务搜索结果；

搜索结果推送模块，用于将业务搜索结果推送至用户终端，以使用户终端将显示界面由搜索显示界面切换至业务数据展示界面，且将业务搜索结果输出至业务数据展示界面。

本申请实施例一方面提供一种数据处理装置，包括：

样本获取模块，用于获取用于训练多模态训练模型的样本数据组；样本数据组包括第一类型样本数据组以及第二类型样本数据组；第一类型样本数据组为具有样本标签信息的样本数据组；第二类型样本数据组为不具有样本标签信息的样本数据组；样本标签信息用于指示第一类型样本数据组之间的匹配度；

预测结果输出模块，用于将样本数据组输入至多模态训练模型，由多模态训练模型输出样本数据组之间的预测结果，将预测结果作为预测标签信息；多模态训练模型包括样本特征提取器、样本特征学习器以及样本预测生成器；

最佳扰动量确定模块，用于获取样本数据组对应的样本拼接向量，基于样本拼接向量、多模态训练模型的模型损失函数以及与多模态训练模型相关联的期望条件，确定样本数据组的最佳扰动量；

迭代训练模块，用于基于最佳扰动量以及样本拼接向量，生成样本数据组对应的对抗样本数据，基于对抗样本数据、模型损失函数，对多模态训练模型进行迭代训练，得到模型训练结果；

模型确定模块，用于当模型训练结果指示迭代训练后的多模态训练模型满足模型收敛条件时，将满足模型收敛条件的多模态训练模型作为用于预测业务数据组之间的匹配度的多模态匹配模型。

其中，该最佳扰动量确定模块包括：

获取单元，用于获取样本数据组对应的样本拼接向量，且获取多模态训练模型的模型参数；

初始扰动量确定单元，用于基于样本拼接向量、预测标签信息、模型参数以及多模态训练模型的模型损失函数，确定样本数据组对应的初始扰动量；

最佳扰动量确定单元，用于获取与多模态训练模型相关联的期望条件，在检测到初始扰动量中存在满足期望条件的初始扰动量时，将满足期望条件的初始扰动量作为样本数据组的最佳扰动量。

本申请一方面提供了一种计算机设备，包括：处理器、存储器、网络接口；

该处理器与存储器、网络接口相连，其中，网络接口用于提供数据通信功能，该存储器用于存储计算机程序，该处理器用于调用该计算机程序，以执行本申请实施例中上述一方面中的方法。

本申请一方面提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令当被处理器执行时，执行本申请实施例中上述一方面中的方法。

本申请一方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述一方面中的方法。

在本申请实施例中，计算机设备在获取到业务搜索数据和包括第一模态业务数据和第二模态业务数据的待匹配业务数据时，可以获取多模态匹配模型。这里的多模态匹配模型可以包括特征学习器以及预测生成器。进一步地，该计算机设备可以通过特征学习器中的文本特征学习器，对搜索业务数据的第一特征提取向量和第一模态业务数据的第二特征提取向量进行第一学习处理，得到第一学习结果，以充分学习搜索业务数据和第一模态业务数据之间的文本特征。与此同时，该计算机设备还可以通过特征学习器中的多模态特征学习器，对第一特征提取向量和第二模态业务数据的第三特征提取向量进行第二学习处理，得到第二学习结果，以学习该搜索业务数据与第二模态业务数据之间的多模态特征。进一步地，该计算机设备根据第一学习结果中的学习向量和第二学习结果中的学习向量进行拼接处理，从而可以快速且准确的表示出搜索业务数据与待匹配业务数据的特征向量(即向量拼接结果)，进而可以在基于该向量拼接结果，预测该搜索业务数据与待匹配业务数据之间的匹配度时，有效提高预测结果的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种网络架构的结构示意图；

图2是本申请实施例提供的一种数据交互的场景示意图；

图3是本申请实施例提供的一种数据处理方法的流程示意图；

图4是本申请实施例提供的一种确定搜索业务数据的场景示意图；

图5a是本申请实施例提供的一种文本特征学习器的结构示意图；

图5b是本申请实施例提供的一种全局特征学习层的结构示意图；

图6是本申请实施例提供的一种显示业务搜索结果的场景示意图；

图7是本申请实施例提供的一种训练多模态匹配模型的方法流程示意图；

图8是本申请实施例提供的一种数据处理装置的结构示意图；

图9是本申请实施例提供的一种计算机设备的示意图；

图10是本申请实施例提供的一种数据处理装置的结构示意图；

图11是本申请实施例提供的一种计算机设备的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参见图1，图1是本申请实施例提供的一种网络架构的结构示意图。如图1所示，该网络架构可以包括服务器10和用户终端集群。该用户终端集群可以包括一个或者多个用户终端，这里将不对用户终端的数量进行限制。如图1所示，具体可以包括用户终端100a、用户终端100b、用户终端100c、…、用户终端100n。如图1所示，用户终端100a、用户终端100b、用户终端100c、…、用户终端100n可以分别与上述服务器10进行网络连接，以便于每个用户终端可以通过该网络连接与服务器10进行数据交互。

其中，该用户终端集群中的每个用户终端均可以包括：智能手机、平板电脑、笔记本电脑、桌上型电脑、可穿戴设备、智能家居、头戴设备等具有数据处理功能的智能终端。应当理解，如图1所示的用户终端集群中的每个用户终端均可以安装有目标应用(即应用客户端)，当该应用客户端运行于各用户终端中时，可以分别与上述图1所示的服务器10之间进行数据交互。其中，该应用客户端可以包含社交客户端、多媒体客户端(例如，视频客户端)、娱乐客户端(例如，游戏客户端)、教育客户端、直播客户端、购物客户端等具有业务搜索功能的应用客户端。其中，该应用客户端可以为独立的客户端，也可以为集成在某客户端(例如，社交客户端、教育客户端以及多媒体客户端等)中的嵌入式子客户端，在此不做限定。

如图1所示，本申请实施例中的服务器10可以为该应用客户端对应的服务器。该服务器10可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

为便于理解，本申请实施例可以在图1所示的多个用户终端中选择一个用户终端作为目标用户终端。例如，本申请实施例可以将图1所示的用户终端100a作为目标用户终端，该目标用户终端中可以集成有具备该业务搜索功能的目标应用(即应用客户端)。此时，该目标用户终端可以通过该应用客户端对应的业务数据平台与服务器10之间实现数据交互。

应当理解，本申请实施例中的数据处理方法可以涉及人工智能领域中的机器学习方向。可以理解的是，所谓人工智能(Artificial Intelligence，简称AI)是指利用数字计算机或者数据计算机控制的计算机设备(例如，图1所示服务器10)来进行模拟、延伸和扩展人的智能的理论、方法、技术以及应用系统的一门新的技术科学。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等方向。

其中，机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

可以理解的是，本申请实施例中的多模态匹配模型在搜索场景下具有重要的应用价值。应当理解，该多模态匹配模型可以用于预测业务数据组(例如，搜索业务数据和待匹配业务数据这两种业务数据所构成的数据组)之间的匹配度。其中，该多模态匹配模型所匹配的业务数据可以包括以下至少一种业务类型：文本类型、视频类型以及图片类型等。

例如，在购物搜索场景中，目标用户终端(例如，用户终端100a)可以获取目标用户在应用客户端(例如，购物客户端)中所输入的搜索业务数据(例如，与保温杯相关联的文本数据或者图片数据)，进而可以将该搜索业务数据发送至该购物客户端对应的服务器(例如，服务器10)。此时，该服务器10可以通过该多模态匹配模型，快速且准确的搜索出该搜索业务数据相匹配的业务数据(例如，某保温杯购买链接数据)，并将搜索到的业务数据推送到目标用户终端，以使目标用户可以挑选出心仪的产品。

可选的，在阅读搜索场景中，目标用户终端(例如，用户终端100a)可以获取目标用户在应用客户端(例如，社交客户端)中所输入的搜索业务数据(例如，与篮球相关联的标题文本数据)，进而可以将该搜索业务数据发送至该社交客户端对应的服务器(例如，服务器10)。此时，该服务器10可以通过该多模态匹配模型，快速且准确的搜索出该搜索业务数据相匹配的业务数据(例如，与篮球相关联的视频数据)，并将搜索到的业务数据推送到目标用户终端，以使目标用户能够阅览到感兴趣的视频数据，从而可以提高用户黏度。

可选的，在视频搜索场景中，目标用户终端(例如，用户终端100a)可以获取目标用户在应用客户端(例如，视频客户端)中正在观看的视频数据，并将所观看的视频数据作为搜索业务数据(例如，与猫相关联的视频数据1)，进而可以将该搜索业务数据发送至该视频客户端对应的服务器(例如，服务器10)。此时，该服务器10可以通过该多模态匹配模型，快速且准确的搜索出该搜索业务数据相匹配的业务数据(例如，与猫相关联的视频数据2)，并将搜索到的业务数据推送到目标用户终端，进而可以提高目标用户的搜索体验。

进一步地，请参见图2，图2是本申请实施例提供的一种数据交互的场景示意图。如图2所示，本申请实施例中的计算机设备可以为如图2所示的服务器2B，该服务器2B可以为上述图1所示的服务器10。本申请实施例中的用户终端2A可以为上述图1所示的用户终端集群中的任意一个，例如，用户终端100a。

应当理解，用户终端2A对应的用户可以在该用户终端的应用客户端中的搜索显示界面中搜索自己感兴趣的内容(例如，文本数据1)，该用户终端2A可以将用户所搜索的内容作为搜索业务数据，进而可以基于该搜索业务数据生成业务搜索请求。进一步地，该用户终端2A可以将该业务搜索请求发送至图2所示的服务器2B。此时，该服务器2B可以基于该业务搜索请求，从视频数据库中获取包括第一模态业务数据(例如，文本数据2)和第二模态业务数据(例如，视频数据3)的待匹配业务数据。其中，文本数据2可以为视频数据3对应的标题文本。

进一步地，该服务器2B可以获取用于将搜索业务数据和待匹配业务数据进行匹配的多模态匹配模型。其中，如图2所示，该多模态匹配模型可以包括特征提取器(Featureextraction，简称FE)、特征学习器(Feature learner and perceptron，简称FLP)以及预测生成器(Prediction and generato，简称PG)。应当理解，该计算机设备可以通过该特征提取器中的词向量提取网络，从该搜索业务数据中提取得到第一特征提取向量，从该第一模态业务数据中提取得到第二特征提取向量。与此同时，该计算机设备可以通过该特征提取器中的残差网络，从该第二模态业务数据中提取得到第三特征提取向量。

如图2所示，特征学习器可以包括文本特征学习器(learner and perceptron fortext，简称FLPT)以及与文本特征学习器相关联的多层感知机(Multilayer Perceptron，简称MLP)。其中，本申请实施例可以将与文本特征学习器相关联的多层感知机称之为第一多层感知机。应当理解，该计算机设备可以通过该文本特征学习器以及第一多层感知机，对该第一特征提取向量和该第二特征提取向量进行第一学习处理，以得到第一学习结果。其中，第一学习结果中的学习向量可以包括第一特征提取向量对应的第一学习向量、第二特征提取向量对应的第二学习向量。第一学习结果中的学习向量是由文本全局信息向量和文本局部细粒度向量所得到的；这里的文本全局信息向量(例如，第一特征提取向量对应的第一全局信息向量和第二特征提取向量对应的第二全局信息向量)是基于文本特征学习器的第一全局特征学习层中的第一多尺度卷积核所得到的；这里的文本局部细粒度向量(例如，第一特征提取向量对应的第一局部细粒度向量和第二特征提取向量对应的第二局部细粒度向量)是基于文本特征学习器的第一局部特征学习层所得到的。

如图2所示，特征学习器还可以包括多模态特征学习器(Feature learner andperceptron for multi-type，简称FLPM)以及与该多模态特征学习器相关联的多层感知机。其中，本申请实施例可以将与多模态特征学习器相关联的多层感知机称之为第二多层感知机。应当理解，该计算机设备可以通过该多模态特征学习器以及该第二多层感知机，对该第一特征提取向量和该第三特征提取向量进行第二学习处理，以得到第二学习结果。其中，第二学习结果中的学习向量可以包括第三特征提取向量对应的第三学习向量、第一特征提取向量对应的第四学习向量。第二学习结果中的学习向量可以是由多模态全局信息向量和多模态局部细粒度向量所得到的；这里的多模态全局信息向量(例如，第三特征提取向量对应的第三全局信息向量和第一特征提取向量对应的第四全局信息向量)是基于多模态特征学习器的第二全局特征学习层中的第二多尺度卷积核所得到的；这里的多模态局部细粒度向量(例如，第三特征提取向量对应的第三局部细粒度向量和第一特征提取向量对应的第四局部细粒度向量)是基于多模态特征学习器的第二局部特征学习层所得到的。

进一步地，该计算机设备可以通过该预测生成器中的多模态向量拼接层，将第一学习结果中的学习向量与第二学习结果中的学习向量进行拼接处理，以得到向量拼接结果。可以理解的是，该计算机设备可以将该第一学习向量与该第四学习向量进行拼接处理，得到第一拼接向量，且将该第二学习向量与该第三学习向量进行拼接处理，得到第二拼接向量。此时，该计算机设备可以将该第一拼接向量和该第二拼接向量输入至该预测生成器中的多层感知机中，从而可以对该搜索业务数据和该待匹配业务数据之间的匹配度进行预测，得到预测结果。其中，本申请实施例可以将预测生成器中的多层感知机称之为第三多层感知机。

可以理解的是，当该预测结果指示该搜索业务数据与该待匹配业务数据匹配成功时，该计算机设备可以将该待匹配业务数据作为业务搜索请求对应的业务搜索结果，进而可以将该业务搜索结果返回至该用户终端2A，以使该用户终端2A可以将该业务搜索结果输出在该应用客户端的业务数据展示界面。当该预测结果指示该搜索业务数据与该待匹配业务数据匹配失败时，该计算机设备可以继续从视频数据库中获取一个新的待匹配业务数据，以将该搜索业务数据与这一新的待匹配业务数据进行匹配。

由此可见，本申请实施例中的服务器2B可以通过多模态匹配模型，深度学习搜索业务数据和待匹配业务数据之间的深层语义信息，可以有效地将文本类型、视频类型或者图片类型等业务数据的语义信息映射到同一语义空间，可以分别提取出搜索业务数据与待匹配业务数据的语义特征，进而可以使得搜索业务数据与待匹配业务数据在匹配时的准确性得以提升，从而提高了预测结果的准确性，使得用户可以更准确的搜索到与搜索业务数据相匹配的业务搜索结果。

其中，计算机设备通过多模态匹配模型，对搜索业务数据和待匹配业务数据之间的匹配度进行预测的具体实现方式可以参见下述图3-图7所对应的实施例。

进一步地，请参见图3，图3是本申请实施例提供的一种数据处理方法的流程示意图。如图3所示，该方法可以由具有匹配度预测功能的计算机设备执行，该计算机设备可以为用户终端(例如，上述图1所示的用户终端100a)，也可以为服务器(例如，上述图1所示的服务器10)，在此不做限定。为便于理解，本申请实施例以该方法由服务器执行为例进行说明，该方法至少可以包括以下步骤S101-步骤S104：

步骤S101，获取用于将搜索业务数据和待匹配业务数据进行匹配的多模态匹配模型。

具体地，具有匹配度预测功能的计算机设备可以在获取到搜索业务数据时，从视频数据库中获取与该搜索业务数据进行匹配的业务数据。其中，本申请实施例可以将与搜索业务数据进行匹配的业务数据称之为待匹配业务数据。进一步地，该计算机设备可以加载多模态匹配模型，以将该搜索业务数据和待匹配业务数据进行匹配。

应当理解，运行有应用客户端的用户终端(例如，图1所示的用户终端100a)对应的用户可以在访问应用客户端时，针对该应用客户端的应用显示界面中的搜索页面切换控件(例如，“搜一搜”控件)执行触发操作，以使该用户终端的显示界面由该应用显示界面切换至搜索显示界面。其中，该触发操作可以包括点击、长按等接触性操作，也可以包括语音、手势等非接触性操作，在此不做限定。进一步地，该用户终端可以获取该用户所感兴趣的搜索业务数据。其中，该搜索业务数据可以为该用户通过语音或者点击等方式输入至该搜索区域中的业务数据，可选的，该搜索业务数据还可以为该用户在该搜索显示界面的热门榜单中针对某一感兴趣的热点标题执行触发操作后所确定的业务数据。在该用户针对该搜索显示界面中的搜索控件执行触发操作时，该用户终端可以响应该触发操作，生成包括该搜索业务数据的业务搜索请求，进而可以将该业务搜索请求发送至计算机设备。

为便于理解，进一步地，请参见图4，图4是本申请实施例提供的一种确定搜索业务数据的场景示意图。如图4所示，本申请实施例中的用户终端可以为运行有应用客户端(例如，社交客户端)的用户终端，该用户终端可以为上述图1所示用户终端集群中的任意一个用户终端，例如，用户终端100a。

应当理解，本申请实施例中的应用显示界面400a中可以包括搜索页面切换控件(例如，“搜一搜”控件)。当用户终端对应的用户需要搜索感兴趣的业务数据时，用户可以针对该搜索页面切换控件执行触发操作。此时，该用户终端可以响应该触发操作，将显示界面由应用显示界面400a切换至搜索显示界面400b。如图4所示，该用户可以在搜索显示界面400b的搜索区域中通过语音或者点击输入等方式确定感兴趣的业务数据，进而可以在输入完成时对搜索控件执行触发操作，以使该用户终端可以响应该触发操作，将搜索区域中的业务数据作为搜索业务数据，以生成用于向应用客户端对应的计算机设备发送的业务搜索请求。

应当理解，该搜索显示界面400b中还可以显示当前热度较高的标题所构成的热门榜单。其中，该热门榜单中可以包括多个标题，如图4所示，该热门榜单中可以具体包括标题1、标题2、标题3以及标题4。可选的，该用户还可以直接在该热门榜单中针对某一感兴趣的业务数据(例如，标题1)执行触发操作，进而可以使得该用户终端响应该触发操作，从而可以将与该触发操作相关联的标题1作为搜索业务数据，以生成用于向应用客户端对应的计算机设备所发送的业务搜索请求。例如，该标题1可以为“我爱中国”。

进一步地，该计算机设备在接收到该业务搜索请求时，可以基于该业务搜索请求获取待匹配业务数据。其中，该待匹配业务数据可以为文本类型的业务数据，也可以为图片类型的业务数据，还可以为包括文本类型和视频类型的业务数据，这里在此不做限定。本申请实施例中的待匹配业务数据可以以包括文本类型和视频类型的业务数据为例，用以阐述通过该多模态匹配模型对搜索业务数据和待匹配业务数据之间的匹配度进行匹配。

可以理解的是，该计算机设备可以从视频数据库中获取具有第一业务类型的业务数据，将具有该第一业务类型(例如，文本类型)的业务数据作为第一模态业务数据，以及从该视频数据库中获取具有第二业务类型(例如，视频类型)的业务数据，将具有该第二业务类型的业务数据作为第二模态业务数据。其中，该第一业务类型不同于该第二业务类型。进一步地，该计算机设备可以将该第一模态业务数据和该第二模态业务数据所共同映射的业务数据作为待匹配业务数据。此时，该计算机设备可以获取用于将搜索业务数据和待匹配业务数据进行匹配的多模态匹配模型。其中，该多模态匹配模型可以包括特征提取器、特征学习器以及预测生成器。

其中，若该搜索业务数据的业务类型为该第一业务类型，且该第一业务类型属于文本类型，则该第二业务类型包括以下至少一种业务类型：视频类型或者图片类型。例如，本申请实施例中的搜索业务数据可以为文本数据1，该第一模态业务数据可以为文本数据2，该第二模态业务数据可以为视频数据3。其中，文本数据2可以为视频数据3对应的标题文本。该文本数据2和视频数据3所共同映射的业务数据可以作为待匹配业务数据。

可以理解的是，该计算机设备可以将该搜索业务数据和该第一模态业务数据作为待编码文本数据，进而可以通过该特征提取器中的词向量提取网络，从该待编码文本数据中提取得到特征提取向量。其中，该特征提取向量可以包括从该搜索业务数据中所提取到的第一特征提取向量，以及从该第一模态业务数据中所提取到的第二特征提取向量。与此同时，该计算机设备还可以对该第二模态业务数据进行抽帧处理得到视频帧，进而可以将该视频帧输入至该特征提取器中的残差网络中，由该残差网络提取得到该第二模态业务数据对应的第三特征提取向量。

应当理解，该计算机设备可以将搜索业务数据和第一模态业务数据作为待编码文本数据，进而可以对该待编码文本数据进行预处理，以将预处理后的待编码文本数据作为待匹配文本数据。其中，该待匹配文本数据可以包括对搜索业务数据(例如，文本数据1)进行预处理后所得到的待匹配文本数据a，以及对第一模态业务数据(例如，文本数据2)进行预处理后所得到的待匹配文本数据b。

其中，这里的预处理可以包括特殊符号处理、英文大小写转换、繁简字体同一等。进一步地，该计算机设备在待匹配文本数据的特征表示上，可以考虑待匹配文本数据的字粒度特征，可以加载分词模型以及文本词表(例如，Word2Vec词表)，对该待匹配文本数据进行字符分割处理，得到该待匹配文本数据对应的字信息序列以及字位置序列。其中，这里的分词模型可以为预先训练好的分词模型，也可以为采用qq分词模型等其他类型的分词模型，在此不做限定。

可以理解的是，该多模态匹配模型的特征提取器可以包括词向量提取网络以及残差网络。这里的词向量提取网络可以用于对文本类型的业务数据进行特征提取。例如，该词向量提取网络可以为Word2Vec模型、GloVe模型或者fastText模型等所构成的网络。这里的残差网络可以用于对图片类型的业务数据进行特征提取。例如，该残差网络可以为Resnet152神经网络。因此，该特征提取器的构建，可以有效的提取多种业务类型(例如，文本类型、视频类型以及图片类型)的业务数据对应的特征提取向量，从而可以得到更为丰富的特征表示，进而使得后续匹配的准确性得以提升。

其中，该待匹配文本数据中的总字数为H；这里的H可以为正整数。值得关注的是，该待匹配文本数据的长度过长(即总字数过多)可能会导致该计算机设备在特征提取时出现梯度过大或者过小的情况。为了解决该问题，该计算机设备可以设定该待匹配文本数据的最大长度(例如，128)。当该待匹配文本数据的总字数大于该最大长度时，该计算机设备可以对该待匹配文本数据进行截断，得到多个序列，进而可以拼接所提取到的每个序列的特征提取向量，以得到该待匹配文本数据的特征提取向量。可选的，该计算机设备还可以对待匹配文本数据进行摘要提取等，以将待匹配文本数据压缩至最大长度以内，从而对压缩后的待匹配文本数据进行特征提取。

应当理解，该计算机设备可以从该待匹配文本数据的字信息序列中，遍历获取该待匹配文本数据的第k个字对应的字信息，并可以将所获取到的字信息作为目标字信息。与此同时，该计算机设备还可以从该字位置序列中获取该目标字信息对应的字位置信息，并可以将所获取到的字位置信息作为目标字位置信息。其中，这里的k可以为小于或者等于H的正整数。应当理解，该计算机设备可以将该目标字信息输入至该词向量提取网络中，由该词向量提取网络提取出该第k个字对应的目标字信息向量，将该目标字位置信息输入至该词向量提取网络中，由该词向量提取网络提取出该第k个字对应的目标字位置向量。其中，该词向量提取网络可以是基于该文本词表所训练的。进一步地，该计算机设备可以基于该目标字信息向量以及该目标字位置向量，得到该第k个字对应的特征提取向量，直到该k的值为H时，得到该待匹配文本数据对应的特征提取向量。

例如，这里的待匹配文本数据可以为“我爱中国”，经过字符分割处理所得到的字信息序列可以为“我”、“爱”、“中”、“国”。该计算机设备可以从该字信息序列中遍历获取该待匹配文本数据中第1个字对应的字信息(例如，“我”)，并可以将所获取到的字信息作为目标字信息。与此同时，该计算机设备还可以从字符分割处理后所得到的字位置序列中获取该目标字信息对应的字位置信息(例如，“1”)，并可以将所获取到的字位置信息作为目标字位置信息。此时，该计算机设备可以将“我”这个目标字信息输入至该词向量提取网络中，由该词向量提取网络提取出“我”对应的目标字信息向量(例如，300维)。进一步地，该计算机设备可以将“我”对应的目标字位置信息“1”输入至该词向量提取网络中，由该词向量提取网络提取出“我”对应的目标字位置向量。此时，该计算机设备可以对“我”对应的目标字信息向量以及“我”对应的目标字位置向量进行叠加求和取平均处理，得到“我”对应的特征提取向量。

由此可知，该特征提取器可以提取待匹配文本数据(例如，待匹配文本数据a或者待匹配文本数据b)的字信息特征(即字信息向量)，换言之，该计算机设备可以提取待匹配文本数据中完整的数字和英文单词特征，避免了拆分数字和英文单词带来的语义信息损失。此外，该计算机设备还可以提取了待匹配文本的字位置特征(即字位置向量)，使得后续能够更加准确的匹配搜索业务数据和待匹配业务数据。

应当理解，该计算机设备还可以对该第二模态业务数据(例如，视频数据3)进行抽帧处理得到视频帧，进而可以将该视频帧输入至该特征提取器中的残差网络中，由该残差网络提取得到该第二模态业务数据对应的第三特征提取向量。

例如，该计算机设备可以每隔1秒中抽取一帧，得到视频数据3对应的视频帧。可以理解的是，该视频帧的总数目过多时，也会导致特征该计算机设备在特征提取时出现梯度过大或者过小的情况。为了解决该问题，该计算机设备可以设定该视频帧的最大帧数(例如，128)。当该计算机设备对视频数据3进行抽帧处理后所得到的视频帧的总数目大于最大帧数时，该计算机设备可以从该视频帧中均匀等间隔的抽取待删除视频帧，并将待删除视频帧进行删除。

其中，该计算机设备可以确定视频帧的总数目与待删除视频帧数的比值。若该比值为奇数，则该计算机设备可以将最中间的视频帧作为待删除视频帧。例如，该计算机设备对视频数据3进行抽帧处理后所得到的视频帧的总数目为200帧时，可以确定待删除视频帧数为72帧。此时，该计算机设备可以确定总数目与待删除视频帧数的比值(例如，2.7，取整即为3)，换言之，该计算机设备可以200帧视频帧中，每3帧中确定一帧待删除视频帧。比如，这3帧视频帧分别可以为视频帧1、视频帧2以及视频帧3，此时，该计算机设备可以将最中间的视频帧(即视频帧2)作为待删除视频帧。可选的，若该比值为偶数(例如，4)，则该计算机设备可以任意选择中间靠左或靠右的视频帧作为待删除视频帧。比如，这4帧视频帧分别可以为视频帧1、视频帧2、视频帧3以及视频帧4，此时，该计算机设备可以选择视频帧2或者视频帧3中的任意一个作为待删除视频帧。

因此，经过该多模态匹配模型的特征提取器，该计算机设备可以从搜索业务数据(例如，文本a)中提取到的第一特征提取向量。例如，该第一特征提取向量可以表示为w₁，w₂，…，w_m。其中，m是由与文本a相关联的总字数所得到的。该计算机设备可以从第一模态业务数据(例如，文本b)中提取到第二特征提取向量。该第二特征提取向量可以表示为q₁，q₂，…，q_n。其中，n是由与文本a相关联的总字数所得到的。该计算机设备可以从第二模态业务数据(例如，视频c)中提取到第三特征提取向量。该第三特征提取向量可以表示为r₁，r₂，…，r_o。其中，o是由与视频c相关联的总帧数所得到的。

步骤S102，通过特征学习器中的文本特征学习器，对搜索业务数据的第一特征提取向量和第一模态业务数据的第二特征提取向量进行第一学习处理，得到第一学习结果。

其中，该多模态匹配模型中的特征学习器可以包括文本特征学习器以及与该文本特征学习器相关联的第一多层感知机。该文本特征学习器可以包括第一双向隐藏编码层、第一全局特征学习层以及第一局部特征学习层。具体地，该计算机设备可以将该搜索业务数据的第一特征提取向量和该第一模态业务数据的第二特征提取向量分别输入至第一双向隐藏编码层，得到该第一特征提取向量对应的第一初始隐藏向量，以及该第二特征提取向量对应的第二初始隐藏向量。进一步地，该计算机设备可以基于该第一初始隐藏向量、该第二初始隐藏向量以及该第一全局特征学习层，得到第一特征提取向量对应的第一全局信息向量，以及第二特征提取向量对应的第二全局信息向量，将第一全局信息向量和第二全局信息向量作为文本全局信息向量；与此同时，该计算机设备可以基于第一初始隐藏向量、第二初始隐藏向量以及第一局部特征学习层，得到第一特征提取向量对应的第一局部细粒度向量，以及第二特征提取向量对应的第二局部细粒度向量，将第一局部细粒度向量和第二局部细粒度向量作为文本局部细粒度向量。进一步地，该计算机设备可以基于文本全局信息向量以及文本局部细粒度向量，得到第一特征提取向量对应的第一输出向量，以及第二特征提取向量对应的第二输出向量。此时，该计算机设备可以将该第一输出向量输入至该第一多层感知机，得到该第一特征提取向量对应的第一学习向量，并且可以将该第二输出向量输入至该第一多层感知机，得到该第二特征提取向量对应的第二学习向量，进而可以将第一学习向量与第二学习向量作为第一学习结果。

其中，由于该文本特征学习器会涉及到第一特征提取向量和第二特征提取向量这两个输入源，因此本申请实施例可以采用结构上就能区分两个输入源的双塔模型框架，并且可以在该双塔模型框架的基础上做出改进，从而可以使得该文本特征学习器能够得到更好的学习效果和学习效率。

进一步地，请参见图5a，图5a是本申请实施例提供的一种文本特征学习器的结构示意图。如图5a所示，本申请实施例中的文本特征学习器可以包括双向隐藏编码层511、全局特征学习层512以及局部特征学习层513。

其中，可以理解的是，图5a所示的文本特征学习器中的双向隐藏编码层511(即第一双向隐藏编码层)可以用于将特征提取向量编码成隐藏状态，例如，计算机设备可以将与搜索业务数据相关联的第一特征提取向量编码成第一初始隐藏向量，将与待匹配业务数据相关联的第二特征提取向量编码成第二初始隐藏向量。该第一双向隐藏编码层能够更好的学习到输入到多模态匹配模型中的业务数据(搜索业务数据或者待匹配业务数据)之间的隐藏状态的向量表示(即初始隐藏向量)，进而使得学习到的语义特征更加抽象、更有鲁棒性。例如，该双向隐藏编码层可以为双向长短记忆网络(Bi-directional Long Short-TermMemory，简称BiLSTM网络)、门控递归单元(Bi-directional Gated Recurrent Unit，简称BiGRU)或者循环神经网络(简称CNN网络)等。

应当理解，图5a所示的全局特征学习层512可以为用于学习全局特征的改进网中网结构(Enhanced Network In Network Structure，简称ENIN结构)。其中，本申请实施例中的文本特征学习器可以利用ENIN结构，增加大尺度的卷积核，使得学习到的特征有更强的抽象性和鲁棒性。换言之，计算机设备可以将由双向隐藏编码层511所得到的初始隐藏向量(即第一初始隐藏向量和第二初始隐藏向量)输入至全局特征学习层512，以得到文本全局信息向量。这里的文本全局信息向量可以包括该第一特征提取向量对应的第一全局信息向量，以及该第二特征提取向量对应的第二全局信息向量。

图5a所示的局部特征学习层513可以为用于学习局部细粒度特征的注意力学习机制层。例如，计算机设备可以将由双向隐藏编码层511所得到的初始隐藏向量(即第一初始隐藏向量和第二初始隐藏向量)输入至局部特征学习层513，以得到文本局部细粒度向量。这里的文本局部细粒度向量可以包括该第一特征提取向量对应的第一局部细粒度向量，以及该第二特征提取向量对应的第二局部细粒度向量。

进一步地，计算机设备可以将通过全局信息特征学习层512得到的文本全局信息向量以及通过局部特征学习层513得到的对应特征提取向量的文本局部细粒度向量进行叠加求和处理，以得到输出向量。这里的输出向量可以包括第一特征提取向量对应的第一输出向量，以及第二特征提取向量对应的第二输出向量。其中，第一输出向量可以为该计算机设备将第一全局信息向量和第一局部细粒度向量进行叠加求和处理后所得到的，第二输出向量可以为该计算机设备将第二全局信息向量和第二局部细粒度向量进行叠加求和处理后所得到的。

其中，可以理解的是，该计算机设备将特征提取向量输入至第一双向隐藏编码层，得到对应的初始隐藏向量的计算公式可以如下述公式(1)和公式(2)所示：

其中，w_i是指从待匹配文本数据a对应的第一特征提取向量所获取的第i个字对应的词向量。m可以为该待匹配文本数据a的总字数。p_ai是指待匹配文本数据a中第i个字对应的隐藏向量。本申请实施例的第一初始隐藏向量可以是由待匹配文本数据a的m个字的隐藏向量所构成的隐藏向量矩阵p_a。

其中，q_j是指从待匹配文本数据b对应的第二特征提取向量所获取的第j个字对应的词向量。n可以为该待匹配文本数据b的总字数。p_bj是指待匹配文本数据b中第j个字对应的隐藏向量。本申请实施例的第二初始隐藏向量可以是由待匹配文本数据b的n个字的隐藏向量所构成的隐藏向量矩阵p_b。

进一步地，该计算机设备可以将该第一初始隐藏向量和该第二初始隐藏向量分别作为待匹配文本数据对应的初始隐藏向量，将该初始隐藏向量输入至该第一全局特征学习层，得到该待匹配文本数据对应的全局信息向量。具体地，该计算机设备得到待匹配文本数据对应的全局信息向量的计算公式可以如下述公式(3)所示：

x＝ENIN(p)， (3)

其中，p可以为该待匹配文本数据对应的初始隐藏向量。x可以表示待匹配文本数据对应的全局信息向量。

可以理解的是，该初始隐藏向量可以为具有H行D列的隐藏向量矩阵，这里的H可以是由该待匹配文本数据中的总字数所得到的。这里的D可以为对该待匹配文本数据进行特征提取所得到的向量维度。该隐藏向量矩阵中可以包括隐藏向量p_k。该隐藏向量p_k可以为从该待匹配文本数据中遍历获取到的第k个字所对应的隐藏向量；这里的k可以为小于或者等于H的正整数。

应当理解，该计算机设备可以将该初始隐藏向量输入至该第一全局特征学习层，获取与该第一全局特征学习层相关联的第一多尺度卷积核。具体地，该计算机设备将初始隐藏向量输入至第一多尺度卷积核中进行卷积计算的公式可以如下述公式(4)所示：

其中，w表示卷积核的大小，W_f为对应的卷积核所指定的权重大小，b为指定的偏差量，ReLU()是激活函数。p_k:k+w-1表示待匹配文本数据中第k个字对应的隐藏向量到第k+w-1个字对应的隐藏向量所构成的向量矩阵。

表示该待匹配文本数据中的第k个字在该卷积核中进行卷积计算后所得到的卷积特征。应当理解，若该初始隐藏向量为H行D列的隐藏向量矩阵，则通过上述公式(4)所示的卷积核进行卷积计算后所得到的卷积特征为(H-w+1)行(D-w+1)列的矩阵。

其中，该计算机设备所获取的第一多尺度卷积核可以包括N个第一类型卷积核和(N-1)个第二类型卷积核。这里的N可以为大于1的正整数。应当理解，该第一类型卷积核可以为不改变卷积尺寸的卷积核，例如，1*1卷积核。该第二类型卷积核可以为改变卷积尺寸的卷积核，例如，2*2卷积核、3*3卷积核或者4*4卷积核等。

进一步地，该计算机设备可以将初始隐藏向量分别输入该N个第一类型卷积核，得到N个第一卷积特征。此时，该计算机设备可以从这N个第一卷积特征中获取一个用于直接输入至平均池化层的第一卷积特征，并可以将所获取到的这个第一卷积特征称之为第一类型卷积特征。与此同时，该计算机设备可以获取将除该第一类型卷积特征之外的(N-1)个第一卷积特征，进而可以将这(N-1)个第一卷积特征称之为第二类型卷积特征。

应当理解，该计算机设备可以通过该(N-1)个第二类型卷积核分别对该第二类型卷积特征进行卷积处理，得到(N-1)个第二卷积特征。进一步地，该计算机设备可以将该第一类型卷积特征和该(N-1)个第二卷积特征输入至平均池化层，从而得到该第k个字所对应的池化特征，直到该k的值为H时，得到该待匹配文本数据中的每个字分别对应的池化特征。可以理解的是，该计算机设备可以将该待匹配文本数据中的每个字分别对应的池化特征输入至连接层，得到该待匹配文本数据对应的全局信息向量。

为便于理解，进一步地，请参见图5b，图5b是本申请实施例提供的一种全局特征学习层的结构示意图。如图5b所示，本申请实施例的全局特征学习层可以为上述图5a所示的全局特征学习层512。本申请实施例中与该全局特征学习层相关联的第一多尺度卷积核可以包括N个第一类型卷积核和(N-1)个第二类型卷积核。以N＝4为例，图5b所示的第一多尺度卷积核可以包括4个第一类型卷积核和3个第二类型卷积核。这4个第一类型卷积核均为1*1卷积核，具体可以包括卷积核51a、卷积核52a、卷积核53a以及卷积核54a。这3个第二类型卷积核具体可以包括卷积核55b(例如，2*2卷积核)、卷积核56b(例如，3*3卷积核)以及卷积核57b(例如，4*4卷积核)。

应当理解，计算机设备可以将待匹配文本数据对应的初始隐藏向量(例如，10*300的隐藏向量矩阵)分别输入至这4个第一类型卷积核中，直到该k的值为10时，得到对应的4个10*300的第一卷积特征。其中，这4个第一卷积特征可以包括通过卷积核51a所得到的卷积特征1、通过卷积核52a所得到的卷积特征2、通过卷积核53a所得到的卷积特征3、以及通过卷积核54a所得到的卷积特征4。

此时，该计算机设备可以从这4个第一卷积特征中获取卷积特征1作为第一类型卷积特征，将除卷积特征1之外的3个第一卷积特征(例如，卷积特征2、卷积特征3以及卷积特征4)作为第二类型卷积特征。进一步地，该计算机设备可以将卷积特征2输入至卷积核55b中，直到该k的值为10时，得到9*299的卷积特征5。同理，该计算机设备可以将卷积特征3输入至卷积核56b中，直到该k的值为10时，得到8*298的卷积特征6，并且可以将卷积特征4输入至卷积核57b中，直到该k的值为10时，得到7*297的卷积特征7。

进一步地，该计算机设备可以将卷积特征1、卷积特征5、卷积特征6以及卷积特征7输入至图5b所示的平均池化层，通过填充数字0获取卷积尺寸相同的4个卷积特征，进而可以对填充后的4个卷积特征进行平均处理，从而得到该待匹配文本数据中的每个字分别对应的池化特征。此时，该计算机设备可以将该待匹配文本数据中的每个字分别对应的池化特征输入至连接层，得到该待匹配文本数据对应的全局信息向量。

与此同时，该计算机设备可以基于该第一初始隐藏向量、该第二初始隐藏向量以及该第一局部特征学习层，得到与该搜索业务数据相关联的第一局部细粒度向量，以及与该第一模态业务数据相关联的第二局部细粒度向量。

其中，该第一初始隐藏向量可以为具有m行的隐藏向量矩阵。这里的m是由与该搜索业务数据相关联的总字数所得到的，换言之，这里的m为待匹配文本数据a的总字数。该第二初始隐藏向量可以为具有n行的隐藏向量矩阵；这里的n可以是由与该第一模态业务数据相关联的总字数所得到的，换言之，这里的n为待匹配文本数据b的总字数。

该计算机设备可以将该第一初始隐藏向量、该第二初始隐藏向量输入至该第一局部特征学习层，从与该业务搜索数据相关联的第一初始隐藏向量中，遍历获取第i个字对应的隐藏向量p_ai以及第u个字对应的隐藏向量p_au。其中，这里的i和u均可以为小于或者等于m的正整数。与此同时，计算机设备可以从与该第一模态业务数据相关联的该第二初始隐藏向量中，遍历获取第j个字对应的隐藏向量p_bj以及第v个字对应的隐藏向量p_bv。这里的j和该v均为小于或者等于该n的正整数。

具体地，该计算机设备确定局部权重的计算公式可以如下述公式(5)所示：

其中，p_ai是指待匹配文本数据a中第i个字对应的隐藏向量，p_bj是指待匹配文本数据b中第j个字对应的隐藏向量。e_ij是指隐藏向量p_ai与该隐藏向量p_bj之间的局部权重。

可以理解的是，该计算机设备可以通过上述公式(5)确定该隐藏向量p_ai与该隐藏向量p_bj之间的第一局部权重e_ij，该隐藏向量p_ai与该隐藏向量p_bv之间的第二局部权重e_iv，以及该隐藏向量p_au与该隐藏向量p_bj之间的第三局部权重e_uj。

应当理解，该计算机设备可以基于该第一局部权重e_ij、该第二局部权重e_iv以及隐藏向量p_bj，确定第i个字对应的第一中间隐藏向量

直到该i的值为m时，得到m个第一中间隐藏向量，进而可以基于该m个第一中间隐藏向量，得到与该搜索业务数据相关联的第一局部细粒度向量。同理，该计算机设备可以基于该第一局部权重e_ij、该第三局部权重e_uj以及隐藏向量p_ai，确定第j个字对应的第二中间隐藏向量

直到该j的值为n时，得到n个第二中间隐藏向量，进而可以基于该n个第二中间隐藏向量，得到与该第一模态业务数据相关联的第二局部细粒度向量。

具体地，该计算机设备确定局部细粒度向量的计算公式可以如下述公式(6)至公式(9)所示：

其中，

表示待匹配文本数据a中第i个字对应的中间隐藏向量。

表示待匹配文本数据b中第j个字对应的中间隐藏向量。y_a表示待匹配文本数据a对应的局部细粒度向量，y_b表示待匹配文本数据b对应的局部细粒度向量。

应当理解，该计算机设备可以对该第一全局信息向量以及该第一局部细粒度向量进行叠加求和处理，得到该第一特征提取向量对应的第一输出向量，并可以对该第二全局信息向量以及该第二局部细粒度向量进行叠加求和处理，得到该第二特征提取向量对应的第二输出向量。

具体地，该计算机设备确定输出向量的计算公式可以如下述公式(10)至公式(11)所示：

f_a＝[y_a+x_a]， (10)

f_b＝[y_b+x_b]， (11)

其中，y_a表示待匹配文本数据a对应的局部细粒度向量，x_a表示待匹配文本数据a对应的全局信息向量，f_a是待匹配文本数据a经过文本特征学习器所得到的输出向量。y_b表示待匹配文本数据b对应的局部细粒度向量，x_b表示待匹配文本数据b对应的全局信息向量矩阵，f_b是待匹配文本数据b经过文本特征学习器所得到的输出向量。

进一步地，该计算机设备可以将该第一输出向量输入至该第一多层感知机，得到该第一特征提取向量对应的第一学习向量，且将该第二输出向量输入至该第一多层感知机，得到该第二特征提取向量对应的第二学习向量，进而可以将第一学习向量和第二学习向量作为第一学习结果。

具体地，该计算机设备确定学习向量的计算公式可以如下述公式(12)和公式(13)所示：

z_a＝MLP(f_a)， (12)

z_b＝MLP(f_b)， (13)

其中，f_a是待匹配文本数据a经过文本特征学习器所得到的输出向量，z_a是待匹配文本数据a经过第一多层感知机所得到的学习向量，f_b是待匹配文本数据b经过文本特征学习器所得到的输出向量，z_b是待匹配文本数据b经过第一多层感知机所得到的学习向量。

步骤S103，通过特征学习器中的多模态特征学习器，对第一特征提取向量和第二模态业务数据的第三特征提取向量进行第二学习处理，得到第二学习结果。

其中，该多模态匹配模型中的特征学习器还可以包括多模态特征学习器以及与该多模态特征学习器相关联的第二多层感知机。该多模态特征学习器可以包括第二双向隐藏编码层、第二全局特征学习层以及第二局部特征学习层。具体地，该计算机设备将该第一特征提取向量和该第三特征提取向量分别输入至该第二双向隐藏编码层，得到该第三特征提取向量对应的第三初始隐藏向量以及该第一特征提取向量对应的第四初始隐藏向量。进一步地，该计算机设备可以基于第三初始隐藏向量、第四初始隐藏向量以及第二全局特征学习层，得到第三特征提取向量对应的第三全局信息向量，以及第一特征提取向量对应的第四全局信息向量，且将第三全局信息向量和第四全局信息向量作为多模态全局信息向量。与此同时，该计算机设备可以基于第三初始隐藏向量、第四初始隐藏向量以及第二局部特征学习层，得到第三特征提取向量对应的第三局部细粒度向量，以及第一特征提取向量对应的第四局部细粒度向量，进而可以将第三局部细粒度向量和第四局部细粒度向量作为多模态局部细粒度向量。进一步地，该计算机设备可以基于多模态全局信息向量以及多模态局部细粒度向量，得到第三特征提取向量对应的第三输出向量，以及第一特征提取向量对应的第四输出向量。此时，该计算机设备可以将该第三输出向量输入至该第二多层感知机，得到该第三特征提取向量对应的第三学习向量，且将该第四输出向量输入至该第二多层感知机，得到该第一特征提取向量对应的第四学习向量，进而可以将第三学习向量和第四学习向量作为第二学习结果。

其中，该计算机设备得到第三学习向量和第四学习向量的具体实施方式可以参见上述步骤S102中得到第一学习向量和第二学习向量的具体实施方式，在此将不再继续进行赘述。

步骤S104，通过预测生成器将第一学习结果中的学习向量与第二学习结果中的学习向量进行拼接处理，得到向量拼接结果。

其中，第一学习结果中的学习向量可以包括第一特征提取向量对应的第一学习向量、第二特征提取向量对应的第二学习向量；第二学习结果中的学习向量可以包括第三特征提取向量对应的第三学习向量、第一特征提取向量对应的第四学习向量。应当理解，该计算机设备可以通过预测生成器中的多模态向量拼接层，将第一学习向量和第四学习向量进行拼接处理，从而可以得到搜索业务数据对应的第一拼接向量。同理，该计算机设备可以将第二学习向量与第三学习向量进行拼接处理，从而可以得到待匹配业务数据对应的第二拼接向量。这里的向量拼接结果可以用于指示对搜索业务数据和待匹配业务数据之间的匹配度进行预测。

应当理解，该计算机设备得到拼接向量的计算公式可以参见下述公式(14)和公式(15)：

l_a＝[z_a；s_a]， (14)

l_b＝[z_b；s_c]， (15)

其中，z_a是与搜索业务数据相关联的待匹配文本数据a经过与文本特征学习器相关联的第一多层感知机所得到的学习向量(即第一学习向量)，s_a是待匹配文本数据a经过与多模态特征学习器相关联的第二多层感知机所得到的学习向量(即第四学习向量)，l_a是指与搜索业务数据相关联的拼接向量(即第一拼接向量)。z_b是与第一模态业务数据相关联的待匹配文本数据b经过与文本特征学习器相关联的第一多层感知机所得到的学习向量(即第二学习向量)，s_c是与第二模态业务数据相关联的视频帧经过与多模态特征学习器相关联的第二多层感知机所得到的学习向量(即第三学习向量)，l_b是指与待匹配业务数据相关联的拼接向量(即第二拼接向量)。

其中，该计算机设备通过文本特征学习器，能够学习到搜索业务数据(例如，文本数据1)与第一模态业务数据(例如，文本数据2)之间的特征，通过多模态特征学习器能够学习到搜索业务数据和第二模态业务数据(例如，视频数据3)之间的特征，因此该计算机设备可以有效学习到多模态信息，进而可以更准确的预测搜索业务数据与待匹配业务数据之间的匹配度。

进一步地，该计算机设备可以将第一拼接向量和第二拼接向量输入至预测生成器中的第三多层感知机中，以对搜索业务数据和待匹配业务数据之间的匹配度进行预测。进一步地，该计算机设备可以获取由该第三多层感知机所输出的预测结果(即分类结果)。若该分类结果指示的匹配度为第一匹配度(例如，1)，则该计算机设备可以确定该搜索业务数据与该待匹配业务数据匹配成功。若该分类结果指示的匹配度为第二匹配度(例如，0)，则该计算机设备可以确定该搜索业务数据与该待匹配业务数据匹配失败。

应当理解，该计算机设备确定搜索业务数据与待匹配业务数据的分类结果g可以如下述公式(16)所示：

g＝MLP[l_a；l_b]， (16)

其中，l_a是指与搜索业务数据相关联的拼接向量(即第一拼接向量)。l_b是指与待匹配业务数据相关联的拼接向量(即第二拼接向量)。

可以理解的是，在该搜索业务数据和该待匹配业务数据之间的匹配度指示该搜索业务数据与该待匹配业务数据匹配成功时，该计算机设备可以将该待匹配业务数据作为该业务搜索请求对应的业务搜索结果，进而可以将该业务搜索结果推送至该用户终端。此时，该用户终端可以将显示界面由该搜索显示界面切换至业务数据展示界面，且将该业务搜索结果输出至该业务数据展示界面。

可选的，该计算机设备可以离线获取当前热门榜单中的多个热门话题，进通过多模态匹配模型，从视频数据库中分别确定与这多个热门话题相匹配的热门视频数据。进一步地，该计算机设备可以基于该热门视频数据生成一个热门列表。当计算机设备所预测的与搜索业务数据相匹配的业务数据(例如，业务数据X)存在于该热门列表中，此时，该计算机设备可以将该业务数据X优先推送给用户终端，以使用户终端可以将该业务数据X优先展示在该用户终端的业务数据展示界面。

为便于理解，进一步地，请参见表1，表1是本申请实施例提供的一种热门列表。其中，表1中可以包括话题标识、簇标识、标题、热度分数、热度因子、发表时间以及更新时间等，在此不做限定。

表1

为便于理解，进一步地，请参见图6，图6是本申请实施例提供的一种显示业务搜索结果的场景示意图。本申请实施例中的计算机设备可以为如图6所示的服务器6B，该服务器6B可以为上述图1所示的服务器10。本申请实施例中的用户终端6A可以为上述图1所示的用户终端集群中的任意一个，例如，用户终端100a。

如图6所示，该用户终端6A中所运行的应用客户端的搜索显示界面600中可以显示当前热度较高的标题所构成的热门榜单。其中，该热门榜单中可以包括多个标题，如图6所示，该热门榜单中可以具体包括标题1、标题2、标题3以及标题4。可以理解的是，该用户终端6A对应的用户a可以直接在该热门榜单中针对某一感兴趣的业务数据(例如，标题1)执行触发操作，进而可以使得该用户终端6A响应该触发操作，从而可以将与该触发操作相关联的标题1作为搜索业务数据，以生成用于向该应用客户端对应的服务器6B所发送的业务搜索请求。例如，该标题1可以为“元旦晚会演唱歌手”。

在该服务器6B接收到该业务搜索请求时，可以搜索到与该标题1这一搜索业务数据相匹配的待匹配业务数据。这里的待匹配业务数据可以为文本类型、视频类型或者图片类型。其中，本申请实施例中的待匹配业务数据可以以视频类型的业务数据为例。例如，该服务器6B可以在获取到用户终端6A所发送的搜索业务数据(例如，“元旦晚会演唱歌手”)时，从视频数据库中获取待匹配业务数据，进而可以获取多模态匹配模型，对搜索业务数据和待匹配业务数据之间的匹配度进行预测。

可以理解的是，在该搜索业务数据和该待匹配业务数据之间的匹配度指示该搜索业务数据与该待匹配业务数据匹配成功时，该服务器6B可以将该待匹配业务数据作为该业务搜索请求对应的业务搜索结果。其中，该服务器6B所确定的业务搜索结果可以包括多个(以2个为例)，具体可以包括业务搜索结果1(例如，某歌手X在元旦晚会上的唱歌视频)以及业务搜索结果2(例如，某歌手Y在元旦晚会上的唱歌视频)。

此时，该服务器6B可以将业务搜索结果1和业务搜索结果2这两个业务搜索结果推送至该用户终端6A，以使该用户终端6A可以将显示界面由该搜索显示界面600切换至业务数据展示界面(例如，图6所示的业务数据展示界面610)，且将这两个业务搜索结果输出至该业务数据展示界面600，以使该用户a可以便捷的获取到所感兴趣的视频类型的业务数据，从而提升用户的搜索体验。

进一步地，请参见图7，图7是本申请实施例提供的一种训练多模态匹配模型的方法流程示意图。如图7所示，该方法可以由具有匹配度预测功能的计算机设备执行，该计算机设备可以为用户终端(例如，上述图1所示的用户终端100a)，也可以为服务器(例如，上述图1所示的服务器10)，在此不做限定。该方法至少可以包括以下步骤S201-步骤S205：

步骤S201，获取用于训练多模态训练模型的样本数据组。

具体地，该计算机设备可以获取用于训练多模态训练模型的样本数据组。其中，该样本数据组可以包括第一类型样本数据组以及第二类型样本数据组。这里的第一类型样本数据组可以为具有样本标签信息的样本数据组；这里的第二类型样本数据组可以为不具有样本标签信息的样本数据组。该样本标签信息用于指示该第一类型样本数据组之间的匹配度。

应当理解，为了得到更好的识别效果，本申请实施例可以使用第一类型样本数据组对多模态训练模型进行初始训练，从而可以得到初始训练完成后的多模态训练模型(例如，多模态训练模型1)。进一步地，该计算机设备可以通过多模态训练模型1，对第二类型样本数据组进行预测，将预测得到的预测结果作为该第二类型样本数据组的样本标签信息。此时，该计算机设备可以将预测后的第二类型样本数据组和第一类型样本数据组，按照一定比例(例如，1:9,1:4,3:7等比例)混合，并将混合后的样本数据组作为新的训练样本数据组，重新对多模态训练模型1进行训练，多次重复该过程，可使得提升模型的预测效果。

步骤S202，将样本数据组输入至多模态训练模型，由多模态训练模型输出样本数据组之间的预测结果，将预测结果作为预测标签信息。

其中，该多模态训练模型可以包括样本特征提取器、样本特征学习器以及样本预测生成器。

步骤S203，获取样本数据组对应的样本拼接向量，基于样本拼接向量、多模态训练模型的模型损失函数以及与多模态训练模型相关联的期望条件，确定样本数据组的最佳扰动量。

具体地，该计算机设备可以获取该样本数据组对应的样本拼接向量，且获取多模态训练模型的模型参数；进而可以基于样本拼接向量、预测标签信息、模型参数以及多模态训练模型的模型损失函数，确定样本数据组对应的初始扰动量。进一步地，该计算机设备可以获取与多模态训练模型相关联的期望条件，在检测到初始扰动量中存在满足期望条件的初始扰动量时，将满足期望条件的初始扰动量作为样本数据组的最佳扰动量。

应当理解，为了有效提高多模态训练模型的鲁棒性以及模型的泛化能力，该计算机设备可以对该多模态训练模型中的模型损失函数进行改进，在对抗训练学习层中加入对抗训练过程。其中，对抗训练中关键的是需要找到对抗样本，这里的对抗样本通常是对样本拼接向量添加一定的扰动来构造，然后进行模型训练，从而使得最终得到的多模态匹配模型具有识别对抗样本的能力。

具体地，本申请实施例所涉及的期望条件可以如下述公式(17)所示：

其中，该公式可以分为两部分，一个是内部模型损失函数的最大化，一个是外部风险的最小化。内部max是为了找到最有效的扰动，使模型出错(攻击)，外部min是为了基于该攻击适应，找到最鲁棒性的模型参数。这里的

是对多模态向量拼接层进行扰动所得到的初始扰动量，D代表样本数据组，g为该样本数据组的预测标签信息，L(l_o+Δl_o,g；θ)是指单个样本数据组的损失函数，_Ω是扰动空间，θ是多模态训练模型的模型参数，l_o是样本数据组的样本拼接向量。这里的E是数学期望。

步骤S204，基于最佳扰动量以及样本拼接向量，生成样本数据组对应的对抗样本数据，基于对抗样本数据、模型损失函数，对多模态训练模型进行迭代训练，得到模型训练结果。

可以理解的是，该计算机设备可以采用合适的优化器对该多模态训练模型的模型参数进行调整。该优化器可以为GD优化器，SGD优化器，Momentum优化器，RMSProp优化器和Adam优化器等任意一种或多种优化器。其中，本申请实施例可以以训练速度较快的Adam优化器为例，对该多模态训练模型的模型参数进行更新，使得在整个数据分布的期望还是最小。该Adam优化器主要作用于模型网络结构的输出层，该Adam优化器不仅具有实现简单、计算高效，对内存需求少的优点，还适用于梯度稀疏或梯度存在很大噪声的问题。其中，该多模态训练模型中的特征学习器的最大步数可以设定为10，学习率可以设定为0.015。

步骤S205，当模型训练结果指示迭代训练后的多模态训练模型满足模型收敛条件时，将满足模型收敛条件的多模态训练模型作为用于预测业务数据组之间的匹配度的多模态匹配模型。

具体地，当模型训练结果指示迭代训练后的多模态训练模型满足模型收敛条件时，该计算机设备可以将满足模型收敛条件的多模态训练模型作为用于预测匹配度的多模态匹配模型。当该模型训练结果指示迭代训练后的多模态训练模型的模型损失函数不满足模型收敛条件时，该计算机设备将该迭代训练后的多模态训练模型作为多模态过渡模型，进而可以基于不满足该模型收敛条件的模型损失函数，对该多模态过渡模型的模型参数进行调整，直到调整后的多模态过渡模型满足该模型收敛条件时，该计算机设备可以将满足该模型匹配条件的多模态过渡模型作为用于预测匹配度的多模态匹配模型。

其中，本申请实施例采用半监督学习机制，将预测后的第二类型样本数据组和第一类型样本数据组，按照一定比例混合，并将混合后的样本数据组作为新的训练样本数据组，对多模态训练模型进行重新训练，在训练完成时可以得到满足模型收敛条件的多模态匹配模型。这样得到的多模态匹配模型可以在更大的样本空间中学习到更多的特征，进而使得该多模态匹配模型的模型参数更具鲁棒性，从而有效提高模型准确率。

进一步地，请参见图8，图8是本申请实施例提供的一种数据处理装置的结构示意图。如图8所示，该数据处理装置1可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如，该数据处理装置1为一个应用软件；该数据处理装置1可以用于执行本申请实施例提供的方法中的相应步骤。如图8所示，该数据处理装置1可以运行于具有匹配度预测功能的计算机设备。该数据处理装置1可以包括：模型获取模块11，第一学习处理模块12，第二学习处理模块13，拼接处理模块14，请求获取模块15，数据获取模块16，待匹配业务数据确定模块17，待编码文本数据确定模块18，向量提取模块19，抽帧处理模块20，搜索结果确定模块21以及搜索结果推送模块22。

该模型获取模块11，用于获取用于将搜索业务数据和待匹配业务数据进行匹配的多模态匹配模型；多模态匹配模型包括特征学习器以及预测生成器；待匹配业务数据中包括第一模态业务数据和第二模态业务数据；

该第一学习处理模块12，用于通过特征学习器中的文本特征学习器，对搜索业务数据的第一特征提取向量和第一模态业务数据的第二特征提取向量进行第一学习处理，得到第一学习结果；第一学习结果中的学习向量是由文本全局信息向量和文本局部细粒度向量所得到的；文本全局信息向量是基于文本特征学习器的第一全局特征学习层中的第一多尺度卷积核所得到的；文本局部细粒度向量是基于文本特征学习器的第一局部特征学习层所得到的。

该第一学习处理模块12包括：文本初始向量确定单元121，文本全局向量确定单元122，文本局部向量确定单元123，文本输出向量确定单元124以及第一学习结果确定单元125。

该文本初始向量确定单元121，用于将搜索业务数据的第一特征提取向量和第一模态业务数据的第二特征提取向量分别输入至第一双向隐藏编码层，得到第一特征提取向量对应的第一初始隐藏向量，以及第二特征提取向量对应的第二初始隐藏向量；

该文本全局向量确定单元122，用于基于第一初始隐藏向量、第二初始隐藏向量以及第一全局特征学习层，得到第一特征提取向量对应的第一全局信息向量，以及第二特征提取向量对应的第二全局信息向量，将第一全局信息向量和第二全局信息向量作为文本全局信息向量。

其中，该文本全局向量确定单元122包括：初始隐藏向量确定子单元1221，卷积核获取子单元1222，卷积特征确定子单元1223，池化特征确定子单元1224以及全局向量确定子单元1225。

该初始隐藏向量确定子单元1221，用于将第一初始隐藏向量和第二初始隐藏向量分别作为待匹配文本数据对应的初始隐藏向量；初始隐藏向量为具有H行的隐藏向量矩阵；H是由待匹配文本数据中的总字数所得到的；隐藏向量矩阵中包括隐藏向量p_k；隐藏向量p_k为从待匹配文本数据中遍历获取到的第k个字所对应的隐藏向量；k为小于或者等于H的正整数；

该卷积核获取子单元1222，用于将初始隐藏向量输入至第一全局特征学习层，获取与第一全局特征学习层相关联的第一多尺度卷积核；第一多尺度卷积核包括N个第一类型卷积核和(N-1)个第二类型卷积核；N为大于1的正整数；

该卷积特征确定子单元1223，用于将初始隐藏向量分别输入N个第一类型卷积核，得到N个第一卷积特征，在N个第一卷积特征中获取第一类型卷积特征和第二类型卷积特征；通过(N-1)个第二类型卷积核分别对第二类型卷积特征进行卷积处理，得到(N-1)个第二卷积特征；

该池化特征确定子单元1224，用于将第一类型卷积特征和(N-1)个第二卷积特征输入至平均池化层，得到第k个字所对应的池化特征，直到k的值为H时，得到待匹配文本数据中的每个字分别对应的池化特征；

该全局向量确定子单元1225，用于将待匹配文本数据中的每个字分别对应的池化特征输入至连接层，得到待匹配文本数据对应的文本全局信息向量；文本全局信息向量包括第一特征提取向量对应的第一全局信息向量，以及第二特征提取向量对应的第二全局信息向量。

其中，该初始隐藏向量确定子单元1221，卷积核获取子单元1222，卷积特征确定子单元1223，池化特征确定子单元1224以及全局向量确定子单元1225的具体实现方式可以参见上述图5b所对应实施例中对文本全局信息向量的描述，这里将不再继续进行赘述。

该文本局部向量确定单元123，用于基于第一初始隐藏向量、第二初始隐藏向量以及第一局部特征学习层，得到第一特征提取向量对应的第一局部细粒度向量，以及第二特征提取向量对应的第二局部细粒度向量，将第一局部细粒度向量和第二局部细粒度向量作为文本局部细粒度向量。

该文本局部向量确定单元123包括：隐藏向量获取子单元1231，局部权重确定子单元1232，第一局部向量确定子单元1233，第二局部向量确定子单元1234以及文本局部向量确定子单元1235。

该隐藏向量获取子单元1231，用于将第一初始隐藏向量、第二初始隐藏向量输入至第一局部特征学习层，从与业务搜索数据相关联的第一初始隐藏向量中，遍历获取第i个字对应的隐藏向量p_ai以及第u个字对应的隐藏向量p_au，从与第一模态业务数据相关联的第二初始隐藏向量中，遍历获取第j个字对应的隐藏向量p_bj以及第v个字对应的隐藏向量p_bv；i和u均为小于或者等于m的正整数；j和v均为小于或者等于n的正整数；

该局部权重确定子单元1232，用于确定隐藏向量p_ai与隐藏向量p_bj之间的第一局部权重e_ij，确定隐藏向量p_ai与隐藏向量p_bv之间的第二局部权重e_iv，确定隐藏向量p_au与隐藏向量p_bj之间的第三局部权重e_uj；

该第一局部向量确定子单元1233，用于基于第一局部权重e_ij、第二局部权重e_iv以及隐藏向量p_bj，确定第i个字对应的第一中间隐藏向量

该第二局部向量确定子单元1234，用于基于第一局部权重e_ij、第三局部权重e_uj以及隐藏向量p_ai，确定第j个字对应的第二中间隐藏向量

该文本局部向量确定子单元1235，用于将第一局部细粒度向量和第二局部细粒度向量作为文本局部细粒度向量。

其中，该隐藏向量获取子单元1231，局部权重确定子单元1232，第一局部向量确定子单元1233，第二局部向量确定子单元1234以及文本局部向量确定子单元1235的具体实现方式可以参见上述图5b所对应实施例中对局部细粒度向量的描述，这里将不再继续进行赘述。

该文本输出向量确定单元124，用于基于文本全局信息向量以及文本局部细粒度向量，得到第一特征提取向量对应的第一输出向量，以及第二特征提取向量对应的第二输出向量；

该第一学习结果确定单元125，用于将第一输出向量输入至第一多层感知机，得到第一特征提取向量对应的第一学习向量，且将第二输出向量输入至第一多层感知机，得到第二特征提取向量对应的第二学习向量，将第一学习向量与第二学习向量作为第一学习结果。

其中，该文本初始向量确定单元121，文本全局向量确定单元122，文本局部向量确定单元123，文本输出向量确定单元124以及第一学习结果确定单元125的具体实现方式可以参见上述图3所对应实施例中对步骤S102的描述，这里将不再继续进行赘述。

该第二学习处理模块13，用于通过特征学习器中的多模态特征学习器，对第一特征提取向量和第二模态业务数据的第三特征提取向量进行第二学习处理，得到第二学习结果；第二学习结果中的学习向量是由多模态全局信息向量和多模态局部细粒度向量所得到的；多模态全局信息向量是基于多模态特征学习器的第二全局特征学习层中的第二多尺度卷积核所得到的；多模态局部细粒度向量是基于多模态特征学习器的第二局部特征学习层所得到的。

该第二学习处理模块13包括：多模态初始向量确定单元131，多模态全局向量确定单元132，多模态局部向量确定单元133，多模态输出向量确定单元134以及第二学习结果确定单元135。

该多模态初始向量确定单元131，用于将第一特征提取向量和第二模态业务数据的第三特征提取向量分别输入至多模态特征学习器中的第二双向隐藏编码层，得到第三特征提取向量对应的第三初始隐藏向量以及第一特征提取向量对应的第四初始隐藏向量；

该多模态全局向量确定单元132，用于基于第三初始隐藏向量、第四初始隐藏向量以及第二全局特征学习层，得到第三特征提取向量对应的第三全局信息向量，以及第一特征提取向量对应的第四全局信息向量，将第三全局信息向量和第四全局信息向量作为多模态全局信息向量；

该多模态局部向量确定单元133，用于基于第三初始隐藏向量、第四初始隐藏向量以及第二局部特征学习层，得到第三特征提取向量对应的第三局部细粒度向量，以及第一特征提取向量对应的第四局部细粒度向量，将第三局部细粒度向量和第四局部细粒度向量作为多模态局部细粒度向量；

该多模态输出向量确定单元134，用于基于多模态全局信息向量以及多模态局部细粒度向量，得到第三特征提取向量对应的第三输出向量，以及第一特征提取向量对应的第四输出向量；

该第二学习结果确定单元135，用于将第三输出向量输入至第二多层感知机，得到第三特征提取向量对应的第三学习向量，且将第四输出向量输入至第二多层感知机，得到第一特征提取向量对应的第四学习向量，将第三学习向量和第四学习向量作为第二学习结果。

其中，该多模态初始向量确定单元131，多模态全局向量确定单元132，多模态局部向量确定单元133，多模态输出向量确定单元134以及第二学习结果确定单元135的具体实现方式可以参见上述图3所对应实施例中对步骤S103的描述，这里将不再继续进行赘述。

该拼接处理模块14，用于通过预测生成器将第一学习结果中的学习向量与第二学习结果中的学习向量进行拼接处理，得到向量拼接结果；向量拼接结果用于指示对搜索业务数据和待匹配业务数据之间的匹配度进行预测。

该拼接处理模块14包括：拼接处理单元141以及拼接结果确定单元142。

该拼接处理单元141，用于通过预测生成器，将第一学习向量与第四学习向量进行拼接处理，得到第一拼接向量，且将第二学习向量与第三学习向量进行拼接处理，得到第二拼接向量；

该拼接结果确定单元142，用于将第一拼接向量和第二拼接向量，作为向量拼接结果。

其中，该拼接处理单元141以及拼接结果确定单元142的具体实现方式可以参见上述图3所对应实施例中对步骤S104的描述，这里将不再继续进行赘述。

该请求获取模块15，用于获取用户终端发送的包括搜索业务数据的业务搜索请求；业务搜索请求为用户终端在应用客户端中响应针对搜索显示界面中的搜索控件的触发操作时所生成的；搜索业务数据是由用户终端从搜索显示界面的搜索区域中所获取到的；

该数据获取模块16，用于基于业务搜索请求，从视频数据库中获取具有第一业务类型的业务数据，将具有第一业务类型的业务数据作为第一模态业务数据，以及从视频数据库中获取具有第二业务类型的业务数据，将具有第二业务类型的业务数据作为第二模态业务数据；第一业务类型不同于第二业务类型；

该待匹配业务数据确定模块17，用于将第一模态业务数据和第二模态业务数据所共同映射的业务数据作为待匹配业务数据。

该待编码文本数据确定模块18，用于将搜索业务数据和第一模态业务数据作为待编码文本数据；

该向量提取模块19，用于通过词向量提取网络，从待编码文本数据中提取得到特征提取向量；特征提取向量包括从搜索业务数据中所提取到的第一特征提取向量，以及从第一模态业务数据中所提取到的第二特征提取向量。

其中，该向量提取模块19包括：预处理单元191，目标字获取单元192，向量提取单元193以及特征提取向量确定单元194。

该预处理单元191，用于对待编码文本数据进行预处理，将预处理后的待编码文本数据作为待匹配文本数据，按照文本词表对待匹配文本数据进行字符分割处理，得到待匹配文本数据对应的字信息序列以及字位置序列；待匹配文本数据中的总字数为H；H为正整数；

该目标字获取单元192，用于从字信息序列中，遍历获取待匹配文本数据的第k个字对应的字信息，将所获取到的字信息作为目标字信息，从字位置序列中获取目标字信息对应的字位置信息，将所获取到的字位置信息作为目标字位置信息；k为小于或者等于H的正整数；

该向量提取单元193，用于将目标字信息输入至词向量提取网络中，由词向量提取网络提取出第k个字对应的目标字信息向量，将目标字位置信息输入至词向量提取网络中，由词向量提取网络提取出第k个字对应的目标字位置向量；词向量提取网络是基于文本词表所训练的；

该特征提取向量确定单元194，用于基于目标字信息向量以及目标字位置向量，得到第k个字对应的特征提取向量，直到k的值为H时，得到待匹配文本数据对应的特征提取向量。

其中，该预处理单元191，目标字获取单元192，向量提取单元193以及特征提取向量确定单元194的具体实现方式可以参见上述图3所对应实施例中对特征提取器的描述，这里将不再继续进行赘述。

该抽帧处理模块20，用于对第二模态业务数据进行抽帧处理得到视频帧，将视频帧输入至残差网络中，由残差网络提取得到第二模态业务数据对应的第三特征提取向量。

该搜索结果确定模块21，用于在搜索业务数据和待匹配业务数据之间的匹配度指示搜索业务数据与待匹配业务数据匹配成功时，将待匹配业务数据作为业务搜索请求对应的业务搜索结果；

该搜索结果推送模块22，用于将业务搜索结果推送至用户终端，以使用户终端将显示界面由搜索显示界面切换至业务数据展示界面，且将业务搜索结果输出至业务数据展示界面。

其中，该模型获取模块11，第一学习处理模块12，第二学习处理模块13，拼接处理模块14，请求获取模块15，数据获取模块16，待匹配业务数据确定模块17，待编码文本数据确定模块18，向量提取模块19，抽帧处理模块20，搜索结果确定模块21以及搜索结果推送模块22的具体实现方式可以参见上述图3所对应实施例中对步骤S101-步骤S104的描述，这里将不再继续进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

进一步地，请参见图9，图9是本申请实施例提供的一种计算机设备的示意图。如图9所示，该计算机设备1000可以为上述图2对应实施例中的服务器2B，该计算机设备1000可以包括：至少一个处理器1001，例如CPU，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，网络接口1004可选地可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选地还可以是至少一个位于远离前述处理器1001的存储装置。如图9所示，作为一种计算机存储介质的存储器1005可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图9所示的计算机设备1000中，网络接口1004主要用于与用户终端进行网络通信；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

应当理解，本申请实施例中所描述的计算机设备1000可执行前文图3和图7所对应实施例中对该数据处理方法的描述，也可执行前文图8所对应实施例中对该数据处理装置1的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且该计算机可读存储介质中存储有前文提及的数据处理装置1所执行的计算机程序，且该计算机程序包括程序指令，当该处理器执行该程序指令时，能够执行前文图3或者图7所对应实施例中对该数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。作为示例，程序指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行，分布在多个地点且通过通信网络互连的多个计算设备可以组成区块链系统。

进一步地，请参见图10，图10是本申请实施例提供的一种数据处理装置的结构示意图。如图10所示，该数据处理装置2可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如，该数据处理装置2为一个应用软件；该数据处理装置2可以用于执行本申请实施例提供的方法中的相应步骤。如图10所示，该数据处理装置2可以运行于计算机设备。该数据处理装置2可以包括：样本获取模块100，预测结果输出模块200，最佳扰动量确定模块300，迭代训练模块400以及模型确定模块500。

该样本获取模块100，用于获取用于训练多模态训练模型的样本数据组；样本数据组包括第一类型样本数据组以及第二类型样本数据组；第一类型样本数据组为具有样本标签信息的样本数据组；第二类型样本数据组为不具有样本标签信息的样本数据组；样本标签信息用于指示第一类型样本数据组之间的匹配度；

该预测结果输出模块200，用于将样本数据组输入至多模态训练模型，由多模态训练模型输出样本数据组之间的预测结果，将预测结果作为预测标签信息；多模态训练模型包括样本特征提取器、样本特征学习器以及样本预测生成器；

该最佳扰动量确定模块300，用于获取样本数据组对应的样本拼接向量，基于样本拼接向量、多模态训练模型的模型损失函数以及与多模态训练模型相关联的期望条件，确定样本数据组的最佳扰动量。

其中，该最佳扰动量确定模块300包括：获取单元3010，初始扰动量确定单元3020以及最佳扰动量确定单元3030。

该获取单元3010，用于获取样本数据组对应的样本拼接向量，且获取多模态训练模型的模型参数；

该初始扰动量确定单元3020，用于基于样本拼接向量、预测标签信息、模型参数以及多模态训练模型的模型损失函数，确定样本数据组对应的初始扰动量；

该最佳扰动量确定单元3030，用于获取与多模态训练模型相关联的期望条件，在检测到初始扰动量中存在满足期望条件的初始扰动量时，将满足期望条件的初始扰动量作为样本数据组的最佳扰动量。

其中，该获取单元3010，初始扰动量确定单元3020以及最佳扰动量确定单元3030的具体实现方式可以参见上述图7所对应实施例中对步骤S203的描述，这里将不再继续进行赘述。

该迭代训练模块400，用于基于最佳扰动量以及样本拼接向量，生成样本数据组对应的对抗样本数据，基于对抗样本数据、模型损失函数，对多模态训练模型进行迭代训练，得到模型训练结果；

该模型确定模块500，用于当模型训练结果指示迭代训练后的多模态训练模型满足模型收敛条件时，将满足模型收敛条件的多模态训练模型作为用于预测业务数据组之间的匹配度的多模态匹配模型。

其中，该样本获取模块100，预测结果输出模块200，最佳扰动量确定模块300，迭代训练模块400以及模型确定模块500的具体实现方式可以参见上述图7所对应实施例中对步骤S201-步骤S205的描述，这里将不再继续进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

进一步地，请参见图11，图11是本申请实施例提供的一种计算机设备的示意图。如图11所示的计算机设备3000可以包括：至少一个处理器3001，例如CPU，至少一个网络接口3004，用户接口3003，存储器3005，至少一个通信总线3002。其中，通信总线3002用于实现这些组件之间的连接通信。其中，网络接口3004可选地可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器3005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器3005可选地还可以是至少一个位于远离前述处理器3001的存储装置。如图11所示，作为一种计算机存储介质的存储器3005可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图11所示的计算机设备3000中，网络接口3004主要用于提供网络通信功能；而用户接口3003主要用于为用户提供输入的接口；而处理器3001可以用于调用存储器3005中存储的设备控制应用程序，以实现：

应当理解，本申请实施例中所描述的计算机设备3000可执行前文图7所对应实施例中对该数据处理方法的描述，也可执行前文图10所对应实施例中对该数据处理装置2的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且上述计算机可读存储介质中存储有前文提及的计算机设备3000所执行的计算机程序，且上述计算机程序包括程序指令，当上述处理器执行上述程序指令时，能够执行前文图7所对应实施例中对上述数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

本申请一方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备可执行前文图3或者图7所对应实施例中对数据处理方法的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，上述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种数据处理方法，其特征在于，包括：

获取用于将搜索业务数据和待匹配业务数据进行匹配的多模态匹配模型；所述多模态匹配模型包括特征学习器以及预测生成器；所述待匹配业务数据中包括第一模态业务数据和第二模态业务数据；

通过所述特征学习器中的文本特征学习器，对所述搜索业务数据的第一特征提取向量和所述第一模态业务数据的第二特征提取向量进行第一学习处理，得到第一学习结果；所述第一学习结果中的学习向量是由文本全局信息向量和文本局部细粒度向量所得到的；所述文本全局信息向量是基于所述文本特征学习器的第一全局特征学习层中的第一多尺度卷积核所得到的；所述文本局部细粒度向量是基于所述文本特征学习器的第一局部特征学习层所得到的；

通过所述特征学习器中的多模态特征学习器，对所述第一特征提取向量和所述第二模态业务数据的第三特征提取向量进行第二学习处理，得到第二学习结果；所述第二学习结果中的学习向量是由多模态全局信息向量和多模态局部细粒度向量所得到的；所述多模态全局信息向量是基于所述多模态特征学习器的第二全局特征学习层中的第二多尺度卷积核所得到的；所述多模态局部细粒度向量是基于所述多模态特征学习器的第二局部特征学习层所得到的；

通过所述预测生成器将所述第一学习结果中的学习向量与所述第二学习结果中的学习向量进行拼接处理，得到向量拼接结果；所述向量拼接结果用于指示对所述搜索业务数据和所述待匹配业务数据之间的匹配度进行预测。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取用户终端发送的包括搜索业务数据的业务搜索请求；所述业务搜索请求为所述用户终端在应用客户端中响应针对搜索显示界面中的搜索控件的触发操作时所生成的；所述搜索业务数据是由所述用户终端从所述搜索显示界面的搜索区域中所获取到的；

基于所述业务搜索请求，从视频数据库中获取具有第一业务类型的业务数据，将具有所述第一业务类型的业务数据作为第一模态业务数据，以及从所述视频数据库中获取具有第二业务类型的业务数据，将具有所述第二业务类型的业务数据作为第二模态业务数据；所述第一业务类型不同于所述第二业务类型；

将所述第一模态业务数据和所述第二模态业务数据所共同映射的业务数据作为待匹配业务数据。

3.根据权利要求2所述的方法，其特征在于，若所述搜索业务数据的业务类型为所述第一业务类型，且所述第一业务类型属于文本类型，则所述第二业务类型包括以下至少一种业务类型：视频类型或者图片类型；所述多模态匹配模型包括特征提取器；所述特征提取器包括词向量提取网络和残差网络；

所述方法还包括：

将所述搜索业务数据和所述第一模态业务数据作为待编码文本数据；

通过所述词向量提取网络，从所述待编码文本数据中提取得到特征提取向量；所述特征提取向量包括从所述搜索业务数据中所提取到的第一特征提取向量，以及从所述第一模态业务数据中所提取到的第二特征提取向量；

对所述第二模态业务数据进行抽帧处理得到视频帧，将所述视频帧输入至所述残差网络中，由所述残差网络提取得到所述第二模态业务数据对应的第三特征提取向量。

4.根据权利要求3所述的方法，其特征在于，所述通过所述词向量提取网络，从所述待编码文本数据中提取得到特征提取向量，包括：

对所述待编码文本数据进行预处理，将预处理后的待编码文本数据作为待匹配文本数据，按照文本词表对所述待匹配文本数据进行字符分割处理，得到所述待匹配文本数据对应的字信息序列以及字位置序列；所述待匹配文本数据中的总字数为H；所述H为正整数；

从所述字信息序列中，遍历获取所述待匹配文本数据的第k个字对应的字信息，将所获取到的字信息作为目标字信息，从所述字位置序列中获取所述目标字信息对应的字位置信息，将所获取到的字位置信息作为目标字位置信息；所述k为小于或者等于H的正整数；

将所述目标字信息输入至所述词向量提取网络中，由所述词向量提取网络提取出所述第k个字对应的目标字信息向量，将所述目标字位置信息输入至所述词向量提取网络中，由所述词向量提取网络提取出所述第k个字对应的目标字位置向量；所述词向量提取网络是基于所述文本词表所训练的；

基于所述目标字信息向量以及所述目标字位置向量，得到所述第k个字对应的特征提取向量，直到所述k的值为H时，得到所述待匹配文本数据对应的特征提取向量。

5.根据权利要求1所述的方法，其特征在于，所述特征学习器包括与所述文本特征学习器相关联的第一多层感知机；所述文本特征学习器包括第一双向隐藏编码层、第一全局特征学习层以及第一局部特征学习层；

所述通过所述特征学习器中的文本特征学习器，对所述搜索业务数据的第一特征提取向量和所述第一模态业务数据的第二特征提取向量进行第一学习处理，得到第一学习结果，包括：

将所述搜索业务数据的第一特征提取向量和所述第一模态业务数据的第二特征提取向量分别输入至所述第一双向隐藏编码层，得到所述第一特征提取向量对应的第一初始隐藏向量，以及所述第二特征提取向量对应的第二初始隐藏向量；

基于所述第一初始隐藏向量、所述第二初始隐藏向量以及所述第一全局特征学习层，得到所述第一特征提取向量对应的第一全局信息向量，以及所述第二特征提取向量对应的第二全局信息向量，将所述第一全局信息向量和所述第二全局信息向量作为文本全局信息向量；

基于所述第一初始隐藏向量、所述第二初始隐藏向量以及所述第一局部特征学习层，得到所述第一特征提取向量对应的第一局部细粒度向量，以及所述第二特征提取向量对应的第二局部细粒度向量，将所述第一局部细粒度向量和所述第二局部细粒度向量作为文本局部细粒度向量；

基于所述文本全局信息向量以及所述文本局部细粒度向量，得到所述第一特征提取向量对应的第一输出向量，以及所述第二特征提取向量对应的第二输出向量；

将所述第一输出向量输入至所述第一多层感知机，得到所述第一特征提取向量对应的第一学习向量，且将所述第二输出向量输入至所述第一多层感知机，得到所述第二特征提取向量对应的第二学习向量，将所述第一学习向量与所述第二学习向量作为第一学习结果。

6.根据权利要求5所述的方法，其特征在于，所述基于所述第一初始隐藏向量、所述第二初始隐藏向量以及所述第一全局特征学习层，得到所述第一特征提取向量对应的第一全局信息向量，以及所述第二特征提取向量对应的第二全局信息向量，将所述第一全局信息向量和所述第二全局信息向量作为文本全局信息向量，包括：

将所述第一初始隐藏向量和所述第二初始隐藏向量分别作为待匹配文本数据对应的初始隐藏向量；所述初始隐藏向量为具有H行的隐藏向量矩阵；所述H是由所述待匹配文本数据中的总字数所得到的；所述隐藏向量矩阵中包括隐藏向量p_k；所述隐藏向量p_k为从所述待匹配文本数据中遍历获取到的第k个字所对应的隐藏向量；所述k为小于或者等于H的正整数；

将所述初始隐藏向量输入至所述第一全局特征学习层，获取与所述第一全局特征学习层相关联的第一多尺度卷积核；所述第一多尺度卷积核包括N个第一类型卷积核和(N-1)个第二类型卷积核；所述N为大于1的正整数；

将初始隐藏向量分别输入所述N个第一类型卷积核，得到N个第一卷积特征，在所述N个第一卷积特征中获取第一类型卷积特征和第二类型卷积特征；通过所述(N-1)个第二类型卷积核分别对所述第二类型卷积特征进行卷积处理，得到(N-1)个第二卷积特征；

将所述第一类型卷积特征和所述(N-1)个第二卷积特征输入至平均池化层，得到所述第k个字所对应的池化特征，直到所述k的值为H时，得到所述待匹配文本数据中的每个字分别对应的池化特征；

将所述待匹配文本数据中的每个字分别对应的池化特征输入至连接层，得到所述待匹配文本数据对应的文本全局信息向量；所述文本全局信息向量包括所述第一特征提取向量对应的第一全局信息向量，以及所述第二特征提取向量对应的第二全局信息向量。

7.根据权利要求5所述的方法，其特征在于，所述第一初始隐藏向量为具有m行的隐藏向量矩阵；所述第二初始隐藏向量为具有n行的隐藏向量矩阵；所述m是由与所述搜索业务数据相关联的总字数所得到的；所述n是由与所述第一模态业务数据相关联的总字数所得到的；

所述基于所述第一初始隐藏向量、所述第二初始隐藏向量以及所述第一局部特征学习层，得到所述第一特征提取向量对应的第一局部细粒度向量，以及所述第二特征提取向量对应的第二局部细粒度向量，将所述第一局部细粒度向量和所述第二局部细粒度向量作为文本局部细粒度向量，包括：

将所述第一初始隐藏向量、所述第二初始隐藏向量输入至所述第一局部特征学习层，从与所述业务搜索数据相关联的所述第一初始隐藏向量中，遍历获取第i个字对应的隐藏向量p_ai以及第u个字对应的隐藏向量p_au，从与所述第一模态业务数据相关联的所述第二初始隐藏向量中，遍历获取第j个字对应的隐藏向量p_bj以及第v个字对应的隐藏向量p_bv；所述i和所述u均为小于或者等于所述m的正整数；所述j和所述v均为小于或者等于所述n的正整数；

确定所述隐藏向量p_ai与所述隐藏向量p_bj之间的第一局部权重e_ij，确定所述隐藏向量p_ai与所述隐藏向量p_bv之间的第二局部权重e_iv，确定所述隐藏向量p_au与所述隐藏向量p_bj之间的第三局部权重e_uj；

基于所述第一局部权重e_ij、所述第二局部权重e_iv以及隐藏向量p_bj，确定第i个字对应的第一中间隐藏向量

直到所述i的值为m时，得到m个第一中间隐藏向量，基于所述m个第一中间隐藏向量，得到所述第一特征提取向量对应的第一局部细粒度向量；

基于所述第一局部权重e_ij、所述第三局部权重e_uj以及隐藏向量p_ai，确定第j个字对应的第二中间隐藏向量

直到所述j的值为n时，得到n个第二中间隐藏向量，基于所述n个第二中间隐藏向量，得到所述第二特征提取向量对应的第二局部细粒度向量；

将所述第一局部细粒度向量和所述第二局部细粒度向量作为文本局部细粒度向量。

8.根据权利要求1所述的方法，其特征在于，所述特征学习器包括与所述多模态特征学习器相关联的第二多层感知机；所述多模态特征学习器包括第二双向隐藏编码层、第二全局特征学习层以及第二局部特征学习层；

所述通过所述特征学习器中的多模态特征学习器，对所述第一特征提取向量和所述第二模态业务数据的第三特征提取向量进行第二学习处理，得到第二学习结果，包括：

将所述第一特征提取向量和所述第三特征提取向量分别输入至所述第二双向隐藏编码层，得到所述第二模态业务数据的第三特征提取向量对应的第三初始隐藏向量以及所述第一特征提取向量对应的第四初始隐藏向量；

基于所述第三初始隐藏向量、所述第四初始隐藏向量以及所述第二全局特征学习层，得到所述第三特征提取向量对应的第三全局信息向量，以及所述第一特征提取向量对应的第四全局信息向量，将所述第三全局信息向量和所述第四全局信息向量作为多模态全局信息向量；

基于所述第三初始隐藏向量、所述第四初始隐藏向量以及所述第二局部特征学习层，得到所述第三特征提取向量对应的第三局部细粒度向量，以及所述第一特征提取向量对应的第四局部细粒度向量，将所述第三局部细粒度向量和所述第四局部细粒度向量作为多模态局部细粒度向量；

基于所述多模态全局信息向量以及所述多模态局部细粒度向量，得到所述第三特征提取向量对应的第三输出向量，以及所述第一特征提取向量对应的第四输出向量；

将所述第三输出向量输入至所述第二多层感知机，得到所述第三特征提取向量对应的第三学习向量，且将所述第四输出向量输入至所述第二多层感知机，得到所述第一特征提取向量对应的第四学习向量，将所述第三学习向量和所述第四学习向量作为第二学习结果。

9.根据权利要求1所述的方法，其特征在于，所述第一学习结果中的学习向量包括所述第一特征提取向量对应的第一学习向量、所述第二特征提取向量对应的第二学习向量；所述第二学习结果中的学习向量包括所述第三特征提取向量对应的第三学习向量、所述第一特征提取向量对应的第四学习向量；

通过所述预测生成器将所述第一学习结果中的学习向量与所述第二学习结果中的学习向量进行拼接处理，得到向量拼接结果，包括：

通过所述预测生成器，将所述第一学习向量与所述第四学习向量进行拼接处理，得到第一拼接向量，且将所述第二学习向量与所述第三学习向量进行拼接处理，得到第二拼接向量；

将所述第一拼接向量和所述第二拼接向量，作为向量拼接结果。

10.一种数据处理方法，其特征在于，包括：

获取用于训练多模态训练模型的样本数据组；所述样本数据组包括第一类型样本数据组以及第二类型样本数据组；所述第一类型样本数据组为具有样本标签信息的样本数据组；所述第二类型样本数据组为不具有样本标签信息的样本数据组；所述样本标签信息用于指示所述第一类型样本数据组之间的匹配度；

将所述样本数据组输入至所述多模态训练模型，由所述多模态训练模型输出所述样本数据组之间的预测结果，将所述预测结果作为预测标签信息；所述多模态训练模型包括样本特征提取器、样本特征学习器以及样本预测生成器；

获取所述样本数据组对应的样本拼接向量，基于所述样本拼接向量、所述多模态训练模型的模型损失函数以及与所述多模态训练模型相关联的期望条件，确定所述样本数据组的最佳扰动量；

基于所述所述最佳扰动量以及所述样本拼接向量，生成所述样本数据组对应的对抗样本数据，基于所述对抗样本数据、所述模型损失函数，对所述多模态训练模型进行迭代训练，得到模型训练结果；

当所述模型训练结果指示迭代训练后的多模态训练模型满足模型收敛条件时，将满足所述模型收敛条件的多模态训练模型作为用于预测业务数据组之间的匹配度的多模态匹配模型。

11.根据权利要求10所述的方法，其特征在于，所述获取所述样本数据组对应的样本拼接向量，基于所述样本拼接向量、所述多模态训练模型的模型损失函数以及与所述多模态训练模型相关联的期望条件，确定所述样本数据组的最佳扰动量，包括：

获取所述样本数据组对应的样本拼接向量，且获取多模态训练模型的模型参数；

基于所述样本拼接向量、所述预测标签信息、所述模型参数以及所述多模态训练模型的模型损失函数，确定所述样本数据组对应的初始扰动量；

获取与所述多模态训练模型相关联的期望条件，在检测到所述初始扰动量中存在满足所述期望条件的初始扰动量时，将满足所述期望条件的初始扰动量作为所述样本数据组的最佳扰动量。

12.一种数据处理装置，其特征在于，包括：

模型获取模块，用于获取用于将搜索业务数据和待匹配业务数据进行匹配的多模态匹配模型；所述多模态匹配模型包括特征学习器以及预测生成器；所述待匹配业务数据中包括第一模态业务数据和第二模态业务数据；

第一学习处理模块，用于通过所述特征学习器中的文本特征学习器，对所述搜索业务数据的第一特征提取向量和所述第一模态业务数据的第二特征提取向量进行第一学习处理，得到第一学习结果；所述第一学习结果中的学习向量是由文本全局信息向量和文本局部细粒度向量所得到的；所述文本全局信息向量是基于所述文本特征学习器的第一全局特征学习层中的第一多尺度卷积核所得到的；所述文本局部细粒度向量是基于所述文本特征学习器的第一局部特征学习层所得到的；

第二学习处理模块，用于通过所述特征学习器中的多模态特征学习器，对所述第一特征提取向量和所述第二模态业务数据的第三特征提取向量进行第二学习处理，得到第二学习结果；所述第二学习结果中的学习向量是由多模态全局信息向量和多模态局部细粒度向量所得到的；所述多模态全局信息向量是基于所述多模态特征学习器的第二全局特征学习层中的第二多尺度卷积核所得到的；所述多模态局部细粒度向量是基于所述多模态特征学习器的第二局部特征学习层所得到的；

拼接处理模块，用于通过所述预测生成器将所述第一学习结果中的学习向量与所述第二学习结果中的学习向量进行拼接处理，得到向量拼接结果；所述向量拼接结果用于指示对所述搜索业务数据和所述待匹配业务数据之间的匹配度进行预测。

13.一种数据处理装置，其特征在于，包括：

样本获取模块，用于获取用于训练多模态训练模型的样本数据组；所述样本数据组包括第一类型样本数据组以及第二类型样本数据组；所述第一类型样本数据组为具有样本标签信息的样本数据组；所述第二类型样本数据组为不具有样本标签信息的样本数据组；所述样本标签信息用于指示所述第一类型样本数据组之间的匹配度；

预测结果输出模块，用于将所述样本数据组输入至所述多模态训练模型，由所述多模态训练模型输出所述样本数据组之间的预测结果，将所述预测结果作为预测标签信息；所述多模态训练模型包括样本特征提取器、样本特征学习器以及样本预测生成器；

最佳扰动量确定模块，用于获取所述样本数据组对应的样本拼接向量，基于所述样本拼接向量、所述多模态训练模型的模型损失函数以及与所述多模态训练模型相关联的期望条件，确定所述样本数据组的最佳扰动量；

迭代训练模块，用于基于所述最佳扰动量以及所述样本拼接向量，生成所述样本数据组对应的对抗样本数据，基于所述对抗样本数据、所述模型损失函数，对所述多模态训练模型进行迭代训练，得到模型训练结果；

模型确定模块，用于当所述模型训练结果指示迭代训练后的多模态训练模型满足模型收敛条件时，将满足所述模型收敛条件的多模态训练模型作为用于预测业务数据组之间的匹配度的多模态匹配模型。

14.一种计算机设备，其特征在于，包括：处理器、存储器、网络接口；

所述处理器与存储器、网络接口相连，其中，网络接口用于提供数据通信功能，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以执行权利要求1-11任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时，执行权利要求1-11任一项所述的方法。