CN112085120B

CN112085120B - 多媒体数据的处理方法、装置、电子设备及存储介质

Info

Publication number: CN112085120B
Application number: CN202010981296.5A
Authority: CN
Inventors: 康战辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-09-17
Filing date: 2020-09-17
Publication date: 2024-01-02
Anticipated expiration: 2040-09-17
Also published as: CN112085120A

Abstract

本申请实施例提供了一种多媒体数据的处理方法、装置、电子设备及存储介质，涉及人工智能领域中的计算机视觉技术、自然语言处理技术以及机器学习。该方法包括：获取第一多媒体数据和第二多媒体数据；获取第一多媒体数据对应的第一图像和第一文本信息，以及第二多媒体数据对应的第二图像和第二文本信息；确定第一图像和第二图像的图像相似度，以及确定第一文本信息和第二文本信息的文本相似度；基于图像相似度和文本相似度，确定第一多媒体数据和第二多媒体数据的相似度。本申请所提供的技术方案，通过多媒体数据对应的图像的图像相似度和文本信息对应的文本相似度，来确定多媒体数据的相似度，由此得到的多媒体数据的相似度的准确性更高。

Description

多媒体数据的处理方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，具体而言，本申请涉及一种多媒体数据的处理方法、装置、电子设备及存储介质。

背景技术

随着多媒体信息技术和网络通信技术的发展，在线观看包含图片、文本形式的多媒体数据已经深入到人们的日常生活当中。用户可以通过各种多媒体数据发布平台观看多媒体数据，多媒体数据的内容也多种多样，包括新闻、娱乐、旅游、商品销售、艺术欣赏等，用户通过观看多媒体数据了解各类信息，使得信息获取更加便捷。

在对多媒体数据进行处理时，例如，对多媒体数据内容进行聚类、搜索，以及根据已有多媒体数据推送相关的多媒体数据时，都需要计算多媒体数据之间的相似度。现有技术中，计算多媒体数据的相似度时，通过标题来计算相似度，认为两个标题之间相似度高的多媒体数据内容也具有较高相似度，但是该方式的判断结果通常不够准确。

发明内容

本申请提供了一种多媒体数据的处理方法、装置及电子设备，可以解决现有技术中存在的问题。

本申请实施例提供的具体技术方案如下：

一方面，本申请实施例提供了一种多媒体数据的处理方法，该方法包括：

获取第一多媒体数据和第二多媒体数据；

获取第一多媒体数据对应的第一图像和第一文本信息，以及第二多媒体数据对应的第二图像和第二文本信息；

确定第一图像和第二图像的图像相似度，以及确定第一文本信息和第二文本信息的文本相似度；

基于图像相似度和文本相似度，确定第一多媒体数据和第二多媒体数据的相似度。

另一方面，本申请实施例提供了一种多媒体数据的处理方法，该方法包括：

获取待处理的多个多媒体数据；

确定多个多媒体数据之间的相似度；

根据相似度对多个多媒体数据进行相应的处理；

其中，相似度是根据本申请第一方面所示的方法确定的。

本发明实施例还提供了一种多媒体数据的处理装置，该装置包括：

第一获取模块，用于获取第一多媒体数据和第二多媒体数据；

第二获取模块，用于获取第一多媒体数据对应的第一图像和第一文本信息，以及第二多媒体数据对应的第二图像和第二文本信息；

第一确定模块，用于确定第一图像和第二图像的图像相似度，以及确定第一文本信息和第二文本信息的文本相似度；

第二确定模块，用于基于图像相似度和文本相似度，确定第一媒体数据和第二多媒体数据的相似度。

获取模块，用于获取待处理的多个多媒体数据；

确定模块，用于确定多个多媒体数据之间的相似度；

处理模块，用于根据相似度对多个多媒体数据进行相应的处理；

其中，相似度是根据本申请第一方面所示的方法确定的。

本发明实施例还提供了一种电子设备，该电子设备包括一个或多个处理器；存储器；一个或多个计算机程序，其中一个或多个计算机程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序被配置用于执行如本申请的第一方面所示的方法。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质用于存储计算机程序，当计算机程序在处理器上运行时，使得处理器可以执行如本申请的第一方面所示的方法。

本申请提供的技术方案带来的有益效果是：

本申请提供了一种多媒体数据的处理方法、装置及电子设备，获取第一多媒体数据和第二多媒体数据、第一多媒体数据对应的第一图像和第一文本信息、以及第二多媒体数据对应的第二图像和第二文本信息，通过第一多媒体数据和第二多媒体数据分别对应的图像的图像相似度，以及分别对应的文本信息的文本相似度，来确定第一多媒体数据和第二多媒体数据的相似度，由于通过多媒体数据对应的图像和文本信息两个方面内容确定多媒体数据的相似度，由此得到的多媒体数据的相似度的准确性更高。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1a为现有技术中的用户发布的多媒体数据的示意图；

图1b为现有技术中的用户发布的多媒体数据的示意图；

图1c为现有技术中的用户发布的多媒体数据的示意图；

图2为本申请实施例提供的一种多媒体数据的处理方法的流程示意图；

图3为本申请实施例提供的通过神经网络模型获取文本特征的示意图；

图4为本申请实施例提供的通过神经网络模型获取图像特征的示意图；

图5为本申请实施例提供的一种多媒体数据的处理方法的流程示意图；

图6为本申请实施例提供的多媒体数据的处理装置的结构示意图；

图7为本申请实施例提供的多媒体数据的处理装置的结构示意图；

图8为本申请实施例提供的一种电子设备的结构示意图；

图9为本申请实施例提供的短视频推送系统结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本申请技术方案的执行主体为计算机设备，包括但不限于服务器、个人电脑、笔记本电脑、平板电脑、智能手机等。计算机设备包括用户设备与网络设备。其中，用户设备包括但不限于电脑、智能手机、PAD等；网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或于云计算的由大量计算机或网络服务器构成的云，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中，计算机设备可单独运行来实现本申请，也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本申请。其中，计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

语音处理技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请实施例提供的方案涉及人工智能的计算机视觉技术、自然语言处理技术以及机器学习/深度学习等技术，具体通过如下实施例进行说明。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

现有技术中，在确定包含图片、文本、视频等形式的多媒体数据的相似度时，通常通过多媒体数据的标题信息的相似度来确定多媒体数据的相似度，然而，标题相似度高的多媒体数据，实际内容相似度并不高。如图1a所示，用户名为“克拉玛依的春天”的用户，发布了多媒体数据1，其中包括图片1和标题信息1，标题信息1的内容为“广州塔公园。希望疫情早点结束，大家都可以平安度过！”如图1b所示，用户名为“哎呀哈”的用户，发布了多媒体数据2，其中包括图片2和标题信息2，标题信息2的内容为“疫情过去后我们一起去看广州塔吧”，根据标题信息1和标题信息2的相似度，确定多媒体数据1和多媒体数据2为相似多媒体数据。然而，从多媒体数据1中的图片1和多媒体数据2的图片2来看，多媒体数据1和多媒体数据2的内容并不相似。但是，标题信息不相似的多媒体数据，其实际有可能是相似多媒体数据。如图1c所示，用户名为“Frankie熙客”的用户，发布了多媒体数据3，其中包括图片3和标题信息3，标题信息3的内容为“动态壁纸这个比例，我尽力了。”多媒体数据2和多媒体数据3相比，标题信息2和标题信息3并不相似，但是，从多媒体数据2中的图片2和多媒体数据3的图片3来看，多媒体数据2和多媒体数据3的内容相似。

由此可见，现有技术中通过文本标题相似度确定短内容相似度的方法，准确性不高。

本申请技术方案中，通过多媒体数据对应的图像，以及包括文本标题的文本信息两个方面内容，确定多媒体数据的相似度，由此得到的多媒体数据的相似度的准确性更高。

本申请实施例提供了一种多媒体数据的处理方法，该方法的执行主体可以为任一电子设备，可选的，可以是服务器，如图2所示，该方法包括：

步骤S101，获取第一多媒体数据和第二多媒体数据。

其中，第一多媒体数据、第二多媒体数据可以包括但不限于图像、文本、视频等形式的数据。第一多媒体数据和第二多媒体数据可以是需要进行处理的任意两个多媒体数据，多媒体数据的来源本申请实施例不做限定，如可以是数据库中预先存储的各个多媒体数据中的任意两个数据，也可以是从各个用户设备接收到的多个多媒体数据中的任意两个数据。

可以理解的是，对于不同的应用场景，上述多媒体数据的类型可以不同，如在视频播放应用程序中，上述多媒体数据可以是视频。

步骤S102，获取第一多媒体数据对应的第一图像和第一文本信息，以及第二多媒体数据对应的第二图像和第二文本信息。

分别从第一多媒体数据、第二多媒体数据中提取各自对应的图像和文本信息。

在一种可能的实现方式中，对于第一多媒体数据和第二多媒体数据中的每一多媒体数据，多媒体数据对应的文本信息包括标题信息。

在实际应用中，多媒体数据对应的文本信息可以包括多媒体数据的标题信息、话题标签等多种类型的文本信息，标题信息可以是多媒体数据中与图像内容相关的，对图像进行描述的文本信息。服务器对多媒体数据进行解析之后，过滤掉表情图像，得到多媒体数据对应的文本信息，可以从文本信息中提取标题信息，或者提取话题标签对应的文本信息。

在一种可能的实现方式中，对于第一多媒体数据和第二多媒体数据中的每一多媒体数据，若多媒体数据为视频数据，多媒体数据对应的图像包括视频数据对应的封面图像。

在实际应用中，多媒体数据可以为图像、文本、视频等形式的数据，其中，图像可以是单帧图像，也可以是由多帧图像组成的动态图像；视频可以是播放时间不超过预设时间的短视频，也可以是播放时间超过预设时间的长视频。多媒体数据对应的图像包括视频数据对应的封面图像，也就是视频的第一帧图像。

可选的，若多媒体数据为视频时，多媒体数据对应的图像除了可以是封面图像之外，还可以是视频的各帧图像，或者预设数量的帧图像。

步骤S103，确定第一图像和第二图像的图像相似度，以及确定第一文本信息和第二文本信息的文本相似度。

对于各多媒体数据各自对应的文本信息的文本相似度的具体计算方式，见如下实施例。

在一种可能的实现方式中，确定第一文本信息和第二文本信息的文本相似度，包括：

获取第一文本信息和第二文本信息各自对应的文本特征；

基于第一文本信息和第二文本信息各自对应的文本特征，确定第一文本信息和第二文本信息的文本相似度。

在实际应用中，将第一文本信息、第二文本信息进行分词处理，将分词处理后的各文本信息通过预先训练好的神经网络模型转换成特征向量(即文本特征)的形式，然后计算各特征向量的相似度，作为各文本信息的文本相似度。

其中，用于提取文本特征的神经网络模型的具体模型结构本申请实施例不做限定，可以根据实际需求选择和配置。

在一示例中，通过如图3所示的word2vec(word to vector，单词转向量)模型(包括输入层、隐藏层、输出层)，将分词处理后的文本信息转换成特征向量的形式。首先，将分词后的文本信息输入word2vec模型的输入层，由于神经网络模型只接受数值型的输入，故不能直接将每个单词直接输入到一个神经网络中，需要一种针对神经网络模型的单词表示方式，针对分词得到的所有不同的单词构建一个词汇表，然后将词汇表中的每个单词以独热(One-Hot)编码的方式进行表示。比如，现在有一个大小为10000的词汇表，需要为每个单词构建一个One-Hot向量，要求每个单词对应的当前单词的位置为1(如图3中所示的“→”所指的“1”)，其他所有位置为0，得到10000个长度为10000的向量，其中每个向量都只有一个位置为1。

将每个单词的One-Hot向量输入到输入层之后，将输入层输出的向量输入到隐藏层，隐藏层由多个线性神经元组成，例如，可以是300个线性神经元，经过隐藏层处理之后得到的向量，进入输出层进行处理后输出，输出层由多个线性神经元组成，例如，可以是10000个线性神经元，输出层的归一化分类器将隐藏层输出的向量进行归一化处理，输出层的输出是每个单词对应的一个10000维的向量，表示针对输入单词，词汇表中所有的单词出现在输入单词附近的预测概率，作为文本特征向量。

另外，在得到两个多媒体数据的文本特征向量之后，计算两个多媒体数据的文本特征向量的相似度，具体可以是计算各特征向量的余弦相似度，也可以是其他计算两个向量的相似度的方法，例如，皮尔逊相关系数、欧几里得距离等，本申请对此不做限定。

在一种可能的实现方式中，对于第一多媒体数据和第二多媒体数据中的每一多媒体数据，多媒体数据对应的文本信息包括至少一个话题标签；确定第一文本信息和第二文本信息的文本相似度，包括：

确定第一文本信息和第二文本信息各自对应的至少一个话题标签的文本相似度。

在实际应用中，多媒体数据对应的文本信息除了标题信息之外，还可以包括话题标签(即hashtag)对应的文本信息，每个多媒体数据对应的文本信息中包括至少一个话题标签。通常情况下，话题标签用符号“#”来表示，话题标签对应的文本信息可以是在文本中的位置在“#”后面的文本信息，或者两个“#”之间的文本信息，例如，#广州##广州塔#，其中，第一个话题标签、第二个话题标签对应的文本信息为“广州”，第三个话题标签、第四个话题标签对应的文本信息为“广州塔”。与标题信息相比，由于多媒体数据的内容是与话题标签对应的话题相关的，因此，话题标签对应的文本信息与多媒体数据的内容相关度更高。在确定各多媒体数据的文本相似度时，可以计算各多媒体数据对应的至少一个话题标签的文本相似度，也就是至少一个话题标签对应的文本信息的文本相似度，作为各多媒体数据对应的文本信息的文本相似度。

当多媒体数据对应的文本信息中包括多个话题标签时，确定各多媒体数据的文本相似度时，如何确定选择哪些话题标签对应的文本信息，具体见如下实施例。

在一种可能的实现方式中，该方法还包括：

对于第一多媒体数据和第二多媒体数据中的每一多媒体数据，获取多媒体数据的文本信息的各话题标签、以及各话题标签的排序信息；

根据排序信息，将各话题标签中排序靠前的设定数量的话题标签确定为至少一个话题标签。

在实际应用中，当多媒体数据对应的文本信息中包括多个话题标签时，根据各话题标签的位置，确定各话题标签的排序信息，排序越靠前的话题标签对应的文本信息，与多媒体数据的主体相关度越高，因此，将各话题标签中排序靠前的设定数量的话题标签确定为至少一个话题标签，选择这些话题标签对应的文本信息计算相似度，作为各多媒体数据对应文本信息的文本相似度。

在一示例中，选择各多媒体数据对应的文本信息中排序在前三位的话题标签对应的文本信息计算相似度，将每个话题标签对应的文本向量表示为一个200维的特征向量，则得到每个多媒体数据对应的3个200维的特征向量，将这3个200维的特征向量中各维度的值求平均值，得到一个由平均值组成的200维的特征向量，作为多媒体数据对应的文本信息的特征向量，利用这个特征向量计算各多媒体数据对应的文本信息的文本相似度。

在一种可能的实现方式中，确定第一图像和第二图像的图像相似度，包括：

获取第一图像和第二图像各自对应的图像特征；

基于第一图像和第二图像各自对应的图像特征，确定第一图像和第二图像的图像相似度。

在实际应用中，从第一图像、第二图像中提取各图像的图像特征，图像特征可以是特征向量的形式，计算各特征向量的相似度，作为各图像的图像相似度。其中，可以通过神经网络模型提取第一图像和第二图像的图像特征，神经网络模型的具体网络结构本申请实施例不做限定。

在一示例中，可以通过如图4所示的ImageNet数据集的AlexNet分类预训练模型，提取各图像的特征向量。该模型的输入为待处理图像(第一图像或第二图像)，该示例中，待处理图像为尺寸为227×227的RGB三个通道的图像，本示例中，该待处理图像可以首先经过卷积核尺寸为11×11，步长为4的卷积层(图中所示的卷积)进行卷积处理(如图中所示的卷积，卷积核尺寸为11×11，步长为4)，得到96个55×55大小的特征图；对得到的特征图可以通过最大池化层进行降采样处理(如图中所示的最大池化，采样尺寸(即pool_size)为3×3，步长为2)，得到96个27×27大小的特征图；之后该特征图再经过卷积处理(如图中所示的“卷积”，卷积核为5×5，步长为2)，得到256个27×27大小的特征图；对得到的特征图进行降采样处理(如图中所示的“最大池化”，卷积核为3×3，步长为2)，得到256个13×13大小的特征图；之后该特征图再经过卷积处理(如图中所示的“卷积”，卷积核为3×3，步长为2)，得到384个13×13大小的特征图；之后该特征图再经过卷积处理(如图中所示的“卷积”，卷积核为3×3，步长为1)，得到384个13×13大小的特征图；之后该特征图再经过卷积处理(如图中所示的“卷积”，卷积核为3×3，步长为1)，得到256个13×13大小的特征图；对得到的特征图进行降采样处理(如图中所示的“最大池化”，卷积核为3×3，步长为2)，得到256个6×6大小的特征图，也就是9216维的特征向量；然后通过神经元个数为4096个的全连接层对9216维的特征向量进行全连接处理，得到4096维的特征向量，再将输出的特征图采用4096个神经元进行全连接处理，得到4096维的特征向量，对于AlexNet分类预训练模型而言，模型还包括连接在最后一个全连接层之后的分类层，如图中所示的Softmax，该分类层用于基于最后一个全连接层提取的特征图实现对待处理图像的分类，该示例中，类别总数为图中所示的1000。本申请实施例中，对于第一图像和第二图像而言，只需要获取图像的图像特征，因此，在采用基于本示例中的AlexNet分类预训练模型的网络模型进行图像特征提取时，无需最后的分类层，即可以将最后一个全连接层输出的特征图作为图像的图像特征。

另外，计算各特征向量的相似度具体可以是计算各特征向量的余弦相似度，也可以是其他计算两个向量的相似度的方法，例如，皮尔逊相关系数、欧几里得距离等，本申请对此不做限定。

步骤S104，基于图像相似度和文本相似度，确定第一多媒体数据和第二多媒体数据的相似度。

具体的，计算第一多媒体数据和第二多媒体数据的相似度时，可以根据图像相似度和文本相似度来计算。可以分别设置图像相似度和文本相似度对应的权重，根据图像相似度和文本相似度，以及图像相似度和文本相似度各自对应的权重，确定第一多媒体数据和第二多媒体数据的相似度。

在一示例中，可以通过以下公式(1)计算第一多媒体数据和第二多媒体数据的相似度Sim(VT_i,VT_j)：

Sim(VT_i,VT_j)＝α*consin(V_i,Vj)+(1-α)*consin(T_i,Tj)(1)

其中，VT_i表示第一多媒体数据；VT_j表示第二多媒体数据；Sim(VT_i,VT_j)表示第一多媒体数据和第二多媒体数据的相似度；V_i表示第一多媒体数据对应的第一图像的特征向量；Vj表示第二多媒体数据对应的第二图像的特征向量；consin(V_i,Vj)表示第一图像和第二图像的余弦相似度(图像相似度的一种可选计算方案)；α表示图像相似度对应的权重；consin(T_i,Tj)表示第一文本信息和第二文本信息的余弦相似度(文本相似度的一种可选计算方案)；1-α表示文本相似度对应的权重。

另外，在根据相似度计算结果确定第一多媒体数据和第二多媒体数据是否相似时，可以根据预先设置的相似度阈值K来确定，若Sim(VT_i,VT_j)>K，则认为第一多媒体数据和第二多媒体数据相似。其中，K为正整数，例如，k＝0.8。

本申请提供的多媒体数据的处理方法，获取第一多媒体数据和第二多媒体数据、第一多媒体数据对应的第一图像和第一文本信息、以及第二多媒体数据对应的第二图像和第二文本信息，通过第一多媒体数据和第二多媒体数据分别对应的图像的图像相似度，以及分别对应的文本信息的文本相似度，来确定第一多媒体数据和第二多媒体数据的相似度，由于通过多媒体数据对应的图像和文本信息两个方面内容确定多媒体数据的相似度，由此得到的多媒体数据的相似度的准确性更高。

本申请上述实施例的多媒体数据处理方法，可以应用在多媒体数据的聚类、搜索，以及根据已有多媒体数据推送相关的多媒体数据的应用场景中，具体见如下实施例。

本申请实施例提供了一种多媒体数据的处理方法，如图5所示，该方法包括：

步骤S201，获取待处理的多个多媒体数据；

其中，多媒体数据可以包括但不限于图像、文本、视频等形式的数据。多媒体数据的来源本申请实施例不做限定，如可以是数据库中预先存储的各个多媒体数据中的任意两个数据，也可以是从各个用户设备接收到的多个多媒体数据中的任意两个数据。

步骤S202，确定多个多媒体数据之间的相似度；

具体的，获取各多媒体数据对应的图像和文本信息，确定各图像的图像相似度，以及各文本信息的文本相似度，基于文本相似度和图像相似度，确定各多媒体数据之间的相似度。

确定多个多媒体数据之间的相似度的具体实现方式与图2对应实施例中的确定第一多媒体数据和第二多媒体数据的相似度的实现方式相同，此处不再赘述。

步骤S203，根据相似度对多个多媒体数据进行相应的处理。

根据相似度对多个多媒体数据进行相应的处理的处理方式可以包括聚类、搜索，以及根据已有多媒体数据推送相关的多媒体数据，具体见如下实施例。

在一种可能的实现方式中，根据相似度对多个多媒体数据进行相应的处理，包括：

根据相似度对多个多媒体数据进行聚类。

在实际应用中，可以根据相似度对多个多媒体数据进行聚类，将相似度在预设范围内的多媒体数据聚为一类，从而得到不同类别的多媒体数据。

在一示例中，可以根据相似度将多个多媒体数据分成新闻类、娱乐类、健康类、生活类等。

在一种可能的实现方式中，多个多媒体数据包括一个目标多媒体数据和至少一个候选多媒体数据，其中，目标多媒体数据为查询请求对应的多媒体数据或者已推送的多媒体数据，确定多个多媒体数据之间的相似度，包括：

确定目标多媒体数据与各候选多媒体数据之间的相似度；

根据相似度对多个多媒体数据进行相应的处理，包括：

根据相似度从至少一个候选多媒体数据中确定查询请求对应的查询结果，将查询结果提供给请求发送方，或者，

根据相似度从至少一个候选多媒体数据中确定已推送的多媒体数据对应的待推送的多媒体数据，推送待推送的多媒体数据。

在实际应用中，多个多媒体数据可以包括一个目标多媒体数据和至少一个候选多媒体数据，其中，目标多媒体数据为查询请求对应的多媒体数据，可以基于查询请求对应的多媒体数据查询与该多媒体数据的相似度在预设范围内的候选多媒体数据；目标多媒体数据还可以为已推送的多媒体数据，根据已推送的多媒体数据，确定与该多媒体数据的相似度在预设范围内的候选多媒体数据推送给用户；目标多媒体数据还可以为用户设备当前正在播放的多媒体数据，根据当前正在播放的多媒体数据，确定与该多媒体数据的相似度在预设范围内的候选多媒体数据向用户推送。

本申请提供的多媒体数据的处理方法，通过多个待处理的多媒体数据的相似度，对多个多媒体数据进行相应的处理，可以解决对多个待处理的多媒体数据进行聚类、搜索，以及根据已有多媒体数据推送相关的多媒体数据的问题。

下面通过具体的实施例对本申请技术方案在具体的应用场景中的实现过程进行详细说明。

在一个具体的实施例中，将本申请技术方案应用在短视频推送场景中，其中，短视频为视频播放总长度在预设的时间范围内的视频，例如，15秒。图9示出了的短视频推送系统的结构示意图，短视频推送系统包括推送服务器、用户终端1、用户终端2，图9以两个用户终端为例进行示意，用户终端的具体数量可以根据具体需要确定，在此不做限定。用户终端1、用户终端2可以为短视频类的应用程序的客户端，推送服务器为用户终端1、用户终端2推送用户感兴趣的短视频。对于一个用户而言，该应用场景中的第一多媒体数据为已经推送给用户的短视频，第二多媒体数据为各候选的待推送的短视频中的任一短视频，基于本申请的技术方案，能够确定出最终要推送给用户的至少一个短视频，下面基于本申请的方案进行处理的流程如下：

以用户终端1对应的用户1为例进行说明，获取已经推送给用户1的短视频，用户1点击播放过该短视频，或者用户1点赞过该短视频，再或者用户1点击播放该短视频的播放时长达到预设时间。要再为用户1推送类似的短视频，则获取各候选的待推送的短视频；分别从已经推送给用户1的短视频和各候选的待推送的短视频中提取封面图像和话题标签；当各短视频中的话题标签有多个时，按照顺序选择排在前三位的话题标签作为该短视频对应的话题标签。分别计算已推送的短视频和各候选的待推送的短视频对应的封面图像的相似度和对应的话题标签的相似度，根据已推送的短视频和各候选的待推送的短视频分别对应的封面图像的图像相似度和话题标签的文本相似度，确定已推送的短视频和各候选的待推送的短视频之间的相似度。将相似度的值按照从大到小的顺序进行排序，将排在前面的10个相似度对应的候选短视频作为待推送的短视频，将这10个待推送的短视频推送给用户1。

在另一个具体的实施例中，将本申请技术方案应用在视频(也可以是图像)搜索的场景中。用户可以通过用户终端发起查询请求(如用户可以针对用户终端的用户界面中所显示的一个视频发起“查相似”的请求，该“查相似”的请求即可作为用户的一个查询请求)，该查询请求中可以包括一个视频(如上述“查相似”的请求所对应的视频)标识，用户终端将该查询请求发送给服务器，服务器可以根据该查询请求为用户从各候选视频确定出查询结果，并将查询结果通过用户终端提供给用户，该场景中，第一多媒体数据即查询请求所针对的视频，第二多媒体数据即上述各候选视频，具体的，该应用场景对应的数据处理流程如下：

服务器基于查询请求中的视频标识，获取该视频标识所对应的视频(简称为目标视频)的封面图像和话题标签，同样的，对于各候选视频，可以获取到各候选视频的封面图像和话题标签，对于每一候选视频，可以基于目标视频和该候选视频的封面图像和话题标签，确定出该候选视频与目标视频对应的图像相似度和文本相似度，并基于图像相似度和文本相似度，确定出目标视频和该候选视频的视频相似度。在确定出各候选视频对应的视频相似度之后，可以将相似度由大到小排序中相似度较大(如前5个)的若干个相似度对应的候选视频确定为视频查询结果，并将这若干个候选视频通过用户终端展示给用户。

基于与图2中所示方法相同的原理，本公开的实施例中还提供了一种多媒体数据的处理装置60，如图6所示，该多媒体数据的处理装置60包括：

第一获取模块61，用于获取第一多媒体数据和第二多媒体数据；

第二获取模块62，用于获取第一多媒体数据对应的第一图像和第一文本信息，以及第二多媒体数据对应的第二图像和第二文本信息；

第一确定模块63，用于确定第一图像和第二图像的图像相似度，以及确定第一文本信息和第二文本信息的文本相似度；

第二确定模块64，用于基于图像相似度和文本相似度，确定第一媒体数据和第二多媒体数据的相似度。

在一种可能的实现方式中，对于第一多媒体数据和第二多媒体数据中的每一多媒体数据，多媒体数据对应的文本信息包括至少一个话题标签；第一确定模块63在确定第一文本信息和第二文本信息的文本相似度时，用于：

在一种可能的实现方式中，多媒体数据的处理装置60还包括排序模块，用于：

在一种可能的实现方式中，第一确定模块63在确定第一图像和第二图像的图像相似度时，用于：

获取第一图像和第二图像各自对应的图像特征；

在一种可能的实现方式中，第一确定模块63在确定第一文本信息和第二文本信息的文本相似度时，用于：

获取第一文本信息和第二文本信息各自对应的文本特征；

本公开实施例的多媒体数据的处理装置可执行本公开的实施例所提供的与图2对应的多媒体数据的处理方法，其实现原理相类似，本公开实施例中的多媒体数据的处理装置中的各模块所执行的动作是与本公开实施例中的多媒体数据的处理方法中的步骤相对应的，对于多媒体数据的处理装置的各模块的详细功能描述具体可以参见前文中所示的对应的多媒体数据的处理方法中的描述，此处不再赘述。

本申请实施例提供的多媒体数据的处理装置，获取第一多媒体数据和第二多媒体数据、第一多媒体数据对应的第一图像和第一文本信息、以及第二多媒体数据对应的第二图像和第二文本信息，通过第一多媒体数据和第二多媒体数据分别对应的图像的图像相似度，以及分别对应的文本信息的文本相似度，来确定第一多媒体数据和第二多媒体数据的相似度，由于通过多媒体数据对应的图像和文本信息两个方面内容确定多媒体数据的相似度，由此得到的多媒体数据的相似度的准确性更高。

基于与图5中所示方法相同的原理，本公开的实施例中还提供了一种多媒体数据的处理装置70，如图7所示，该多媒体数据的处理装置70包括：

获取模块71，用于获取待处理的多个多媒体数据；

确定模块72，用于确定多个多媒体数据之间的相似度；

处理模块73，用于根据相似度对多个多媒体数据进行相应的处理。

在一种可能的实现方式中，处理模块73具体用于：

根据相似度对多个多媒体数据进行聚类。

在一种可能的实现方式中，多个多媒体数据包括一个目标多媒体数据和至少一个候选多媒体数据，其中，目标多媒体数据为查询请求对应的多媒体数据或者已推送的多媒体数据，确定模块72具体用于：

确定目标多媒体数据与各候选多媒体数据之间的相似度；

处理模块73具体用于：

本公开实施例的多媒体数据的处理装置可执行本公开的实施例所提供的与图5对应的多媒体数据的处理方法，其实现原理相类似，本公开实施例中的多媒体数据的处理装置中的各模块所执行的动作是与本公开实施例中的多媒体数据的处理方法中的步骤相对应的，对于多媒体数据的处理装置的各模块的详细功能描述具体可以参见前文中所示的对应的多媒体数据的处理方法中的描述，此处不再赘述。

本申请实施例提供的多媒体数据的处理装置，通过多个待处理的多媒体数据的相似度，对多个多媒体数据进行相应的处理，可以解决对多个待处理的多媒体数据进行聚类、搜索，以及根据已有多媒体数据推送相关的多媒体数据的问题。

上述实施例从虚拟模块的角度介绍了多媒体数据的处理装置，下述从实体模块的角度介绍一种电子设备，具体如下所示：

本申请实施例提供了一种电子设备，如图8所示，图8所示的电子设备8000包括：处理器8001和存储器8003。其中，处理器8001和存储器8003相连，如通过总线8002相连。可选地，电子设备8000还可以包括收发器8004。需要说明的是，实际应用中收发器8004不限于一个，该电子设备8000的结构并不构成对本申请实施例的限定。

处理器8001可以是CPU，通用处理器，GPU，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器8001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线8002可包括一通路，在上述组件之间传送信息。总线8002可以是PCI总线或EISA总线等。总线8002可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器8003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器8003用于存储执行本申请方案的应用程序代码，并由处理器8001来控制执行。处理器8001用于执行存储器8003中存储的应用程序代码，以实现前述任一方法实施例所示的内容。

本申请实施例提供了一种电子设备，本申请实施例中的电子设备包括：一个或多个处理器；存储器；一个或多个计算机程序，其中一个或多个计算机程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序被处理器执行时，获取第一多媒体数据和第二多媒体数据；获取第一多媒体数据对应的第一图像和第一文本信息，以及第二多媒体数据对应的第二图像和第二文本信息；确定第一图像和第二图像的图像相似度，以及确定第一文本信息和第二文本信息的文本相似度；基于图像相似度和文本相似度，确定第一多媒体数据和第二多媒体数据的相似度。或者

获取待处理的多个多媒体数据；确定多个多媒体数据之间的相似度；根据相似度对多个多媒体数据进行相应的处理。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当计算机程序在处理器上运行时，使得处理器可以执行前述方法实施例中相应内容。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述多媒体数据处理方法的各种可选实现方式中提供的方法。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种多媒体数据的处理方法，其特征在于，所述方法包括：

获取第一多媒体数据和第二多媒体数据；

获取所述第一多媒体数据对应的第一图像和第一文本信息，以及所述第二多媒体数据对应的第二图像和第二文本信息，所述第一文本信息和所述第二文本信息包括各自对应的多媒体数据的标题信息和话题标签；

确定所述第一图像和所述第二图像的图像相似度，以及确定所述第一文本信息和所述第二文本信息的文本相似度；

基于所述图像相似度和所述文本相似度，确定所述第一多媒体数据和所述第二多媒体数据的相似度。

2.根据权利要求1所述的方法，其特征在于，对于所述第一多媒体数据和所述第二多媒体数据中的每一多媒体数据，所述多媒体数据对应的文本信息包括至少一个话题标签；所述确定所述第一文本信息和所述第二文本信息的文本相似度，包括：

确定所述第一文本信息和所述第二文本信息各自对应的至少一个话题标签的文本相似度。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

对于所述第一多媒体数据和所述第二多媒体数据中的每一多媒体数据，获取所述多媒体数据的文本信息的各话题标签、以及各话题标签的排序信息；

根据所述排序信息，将所述各话题标签中排序靠前的设定数量的话题标签确定为所述至少一个话题标签。

4.根据权利要求1所述的方法，其特征在于，对于所述第一多媒体数据和所述第二多媒体数据中的每一多媒体数据，所述多媒体数据对应的文本信息包括标题信息。

5.根据权利要求1-4任一项所述的方法，其特征在于，对于所述第一多媒体数据和所述第二多媒体数据中的每一多媒体数据，若所述多媒体数据为视频数据，所述多媒体数据对应的图像包括所述视频数据对应的封面图像。

6.根据权利要求1至4中任一项所述的方法，其特征在于，所述确定所述第一图像和所述第二图像的图像相似度，包括：

获取所述第一图像和所述第二图像各自对应的图像特征；

基于所述第一图像和所述第二图像各自对应的图像特征，确定所述第一图像和所述第二图像的图像相似度。

7.根据权利要求1所述的方法，其特征在于，所述确定所述第一文本信息和所述第二文本信息的文本相似度，包括：

获取所述第一文本信息和所述第二文本信息各自对应的文本特征；

基于所述第一文本信息和所述第二文本信息各自对应的文本特征，确定所述第一文本信息和所述第二文本信息的文本相似度。

8.一种多媒体数据的处理方法，其特征在于，所述方法包括：

获取待处理的多个多媒体数据；

确定所述多个多媒体数据之间的相似度；

根据所述相似度对所述多个多媒体数据进行相应的处理；

其中，所述相似度是根据权利要求1-7任一项所述的方法确定的。

9.根据权利要求8所述的方法，其特征在于，所述根据所述相似度对所述多个多媒体数据进行相应的处理，包括：

根据所述相似度对所述多个多媒体数据进行聚类。

10.根据权利要求8所述的方法，其特征在于，所述多个多媒体数据包括一个目标多媒体数据和至少一个候选多媒体数据，其中，所述目标多媒体数据为查询请求对应的多媒体数据或者已推送的多媒体数据，所述确定所述多个多媒体数据之间的相似度，包括：

确定所述目标多媒体数据与各候选多媒体数据之间的相似度；

所述根据所述相似度对所述多个多媒体数据进行相应的处理，包括：

根据所述相似度从所述至少一个候选多媒体数据中确定所述查询请求对应的查询结果，将查询结果提供给请求发送方，或者，

根据所述相似度从所述至少一个候选多媒体数据中确定所述已推送的多媒体数据对应的待推送的多媒体数据，推送所述待推送的多媒体数据。

11.一种多媒体数据的处理装置，其特征在于，所述装置包括：

第二获取模块，用于获取所述第一多媒体数据对应的第一图像和第一文本信息，以及所述第二多媒体数据对应的第二图像和第二文本信息，所述第一文本信息和所述第二文本信息包括各自对应的多媒体数据的标题信息和话题标签；

第一确定模块，用于确定所述第一图像和所述第二图像的图像相似度，以及确定所述第一文本信息和所述第二文本信息的文本相似度；

第二确定模块，用于基于所述图像相似度和所述文本相似度，确定所述第一媒体数据和所述第二多媒体数据的相似度。

12.一种多媒体数据的处理装置，其特征在于，所述装置包括：

获取模块，用于获取待处理的多个多媒体数据；

确定模块，用于确定所述多个多媒体数据之间的相似度；

处理模块，用于根据所述相似度对所述多个多媒体数据进行相应的处理；

13.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储器；

一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序被配置用于执行根据权利要求1～10任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，当所述计算机程序在处理器上运行时，使得所述处理器可以执行权利要求1～10任一项所述的方法。