CN117034182A

CN117034182A - 媒体数据识别方法、设备、存储介质及计算机程序产品

Info

Publication number: CN117034182A
Application number: CN202211291250.6A
Authority: CN
Inventors: 刘刚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-10-20
Filing date: 2022-10-20
Publication date: 2023-11-10

Abstract

本申请实施例涉及互联网领域，公开了媒体数据识别方法、设备、存储介质及计算机程序产品，该方法包括：对目标媒体数据进行内容特征提取，得到目标媒体数据的内容特征；确定提供目标媒体数据的发布对象的属性信息，并对属性信息进行对象特征提取，得到目标媒体数据的对象特征，其中，对象特征用于指示发布对象的对象属性；基于内容特征和对象特征，对目标媒体数据的互动特征进行预测处理，以识别得到目标媒体数据的互动特征，其中，互动特征用于指示浏览目标媒体数据的消费对象对目标媒体数据的互动程度。采用本申请实施例，可预测得到媒体数据的互动特征，以提高媒体数据的分发精准度。

Description

媒体数据识别方法、设备、存储介质及计算机程序产品

技术领域

本申请涉及互联网领域，尤其涉及媒体数据识别方法、设备、存储介质及计算机程序产品。

背景技术

在互联网快速发展的时代，随着媒体数据生产的门槛降低，无论是图文、音频还是视频内容在移动互联网时代获得了飞速的发展。这些媒体数据通常包括来自自媒体或机构的专业生产内容(Professional Generated Content，PGC)，以及用户生成内容(UserGenerated Content，UGC)。同时，这些媒体数据也通过发布平台获得了快速的传播。当前在媒体数据分发过程中，通常依据的是媒体数据的标题或者数据类型等数据特征，也就是说，媒体数据分发过程中依据的数据特征有限，导致媒体数据的分发精准度较低。

发明内容

本申请实施例提供了一种媒体数据识别方法、设备、存储介质及计算机产品，可以预测得到媒体数据的互动特征，以提高媒体数据的分发精准度。

一方面，本申请实施例提供了一种媒体数据识别方法，所述方法包括：

对目标媒体数据进行内容特征提取，得到所述目标媒体数据的内容特征；

确定提供所述目标媒体数据的发布对象的属性信息，并对所述属性信息进行对象特征提取，得到所述目标媒体数据的对象特征，其中，所述对象特征用于指示所述发布对象的对象属性；

基于所述内容特征和所述对象特征，对所述目标媒体数据的互动特征进行预测处理，以识别得到所述目标媒体数据的互动特征，其中，所述互动特征用于指示浏览所述目标媒体数据的消费对象对所述目标媒体数据的互动程度。

一方面，本申请实施例提供了一种媒体数据识别装置，所述装置包括：

特征提取单元，用于对目标媒体数据进行内容特征提取，得到所述目标媒体数据的内容特征；

所述特征提取单元，还用于确定提供所述目标媒体数据的发布对象的属性信息，并对所述属性信息进行对象特征提取，得到所述目标媒体数据的对象特征，其中，所述对象特征用于指示所述发布对象的对象属性；

处理单元，用于基于所述内容特征和所述对象特征，对所述目标媒体数据的互动特征进行预测处理，以识别得到所述目标媒体数据的互动特征，其中，所述互动特征用于指示浏览所述目标媒体数据的消费对象对所述目标媒体数据的互动程度。

另一方面，本申请实施例提供了一种计算机设备，所述计算机设备包括输入接口和输出接口，所述计算机设备还包括：

处理器，适于实现一条或多条计算机程序；以及，

计算机存储介质，所述计算机存储介质存储有一条或多条计算机程序，所述一条或多条计算机程序适于由所述处理器加载并执行上述媒体数据识别方法。

另一方面，本申请实施例提供了一种计算机存储介质，所述计算机存储介质存储有一条或多条计算机程序，所述一条或多条计算机程序适于由处理器加载并执行上述媒体数据识别方法。

另一方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述媒体数据识别方法。

在本申请实施例中，由于同一个互动特征的媒体数据在创作和内容特征上往往会有一定的共性，基于此，本申请实施例基于目标媒体数据的内容特征和对象特征，对目标媒体数据的互动特征进行预测处理，可预估目标媒体数据通过发布平台分发至消费对象后，消费对象对目标媒体数据的互动程度。预估得到的消费对象对目标媒体数据的互动程度可应用于目标媒体数据的冷启动，以提高媒体数据的分发精准度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种媒体数据识别方法的流程示意图；

图2是本申请实施例提供的一种媒体数据识别模型的结构示意图；

图3是本申请实施例提供的一种训练样本的采集方式的示意图；

图4是本申请实施例提供的另一种媒体数据识别方法的流程示意图；

图5是本申请实施例提供的一种模型训练装置的结构示意图；

图6是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术(Computer Vision，CV)、语音处理技术、自然语言处理技术以及机器学习(Machine Learning，ML)/深度学习(Deep Learning，DL)等几大方向。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

基于上述所提及的机器学习技术，本申请实施例提供了一种媒体数据识别方案，可以对目标媒体数据进行内容特征提取，得到目标媒体数据的内容特征，并确定提供目标媒体数据的发布对象的属性信息，并对该属性信息进行对象特征提取，得到目标媒体数据的对象特征，然后基于内容特征和对象特征，对目标媒体数据的互动特征进行预测处理，以识别得到目标媒体数据的互动特征。

为了便于对本申请的理解，下面对相关名词进行解释说明。

目标媒体数据，指的是来自自媒体或机构的PGC，或者UGC，也就是可推荐给用户浏览的内容。目标媒体数据可以包括待发布至发布平台的媒体数据或者已发布至发布平台的媒体数据，具体不受本申请实施例的限定。目标媒体数据的数据类型可以包括图像、文本、音频或者视频等，换句话说，目标媒体数据可以包括图像、文本、音频或者视频等中的一种或者多种。在目标媒体数据包括视频的情况下，发布平台通常将视频以Feeds流的形式分发给用户。

内容特征，用于指示目标媒体数据的数据内容。具体的，内容特征可以包括内容广度特征和内容深度特征。内容广度特征可以包括如下一种或者多种：目标媒体数据的内容标题、内容分类、内容标签、封面图、数据类型以及内容质量等级等。如果目标媒体数据包括音频或者视频，内容广度特征还可以包括音频时长，视频时长等。如果目标媒体数据包括图像或者文本，内容广度特征还可以包括图像或者文本中的文字，图片数量，图像或者文本的内容长度，内容长度可以理解为图像或者文本在发布至消费对象后，显示在消费用户的计算机设备的显示屏幕中的屏数。内容深度特征可以包括多模态内容特征，例如视觉模态内容特征、音频模态内容特征以及文本模态内容特征。视觉模态内容特征可以指的是对视频中的各帧图像进行特征提取得到的图像特征。音频模态内容特征可以指的是对音频进行预处理得到梅尔频谱图，然后对梅尔频谱图进行特征提取得到的音频特征。文本模态内容特征可以指的是对图像或者文本中的文字、内容标题、内容分类或内容标签等进行特征提取得到的文本特征。

发布对象，指的是提供媒体数据的对象，例如自媒体、机构或者原创用户等。消费对象，指的是浏览媒体数据的对象。在本申请实施例中，发布对象可以通过账号登录至发布平台，在生成目标媒体数据之后，可以将目标媒体数据发布至发布平台，目标媒体数据可以通过发布平台发送至消费对象，消费对象通过账号登录至发布平台之后可以浏览该目标媒体数据，也可以对目标媒体数据进行互动，例如对目标媒体数据进行评论、分享、点赞、收藏等。

属性信息，可以包括用于表征发布对象的身份或者兴趣爱好等信息。示例性的，属性信息可以包括发布对象的账号等级或者粉丝数量等。

对象特征，用于指示发布对象的对象属性。对象特征可以包括账号等级或者账号粉丝等级等。账号等级可以指的是发布对象在账号注册或者认证的时候的初始化等级，账号等级越高，表明该发布对象的级别越高，举例来说，账号等级可以分为1至5级，5级表明账号等级最高，可以包括权威媒体账号，例如人民日报或者新华网等。账号粉丝等级可以表征账号受欢迎的程度，账号粉丝等级越高，表明该账号越受粉丝欢迎，例如粉丝数量小于1000人，账号粉丝等级为0；粉丝数量位于[1000，10000]区间内，账号粉丝等级为1级；粉丝数量位于(10000，50000]区间内，账号粉丝等级为2级；……；粉丝数量大于3000万人，账号粉丝等级为10级。

互动特征，用于指示浏览目标媒体数据的消费对象对目标数据的互动程度。互动特征可以包括如下一种或者多种：高评论、高分享、高点赞、高收藏等。高评论指的是：发布平台发布该目标媒体数据之后，对该目标媒体数据进行评论操作的消费对象较多，即对该目标媒体数据进行评论操作的消费对象的数量大于未对该目标媒体数据进行评论操作的消费对象的数量。同理，高分享指的是：发布平台发布该目标媒体数据之后，对该目标媒体数据进行分享操作的消费对象较多，即对该目标媒体数据进行分享操作的消费对象的数量大于未对该目标媒体数据进行分享操作的消费对象的数量。高点赞指的是：发布平台发布该目标媒体数据之后，对该目标媒体数据进行点赞操作的消费对象较多，即对该目标媒体数据进行点赞操作的消费对象的数量大于未对该目标媒体数据进行点赞操作的消费对象的数量。高收藏指的是：发布平台发布该目标媒体数据之后，对该目标媒体数据进行收藏操作的消费对象较多，即对该目标媒体数据进行收藏操作的消费对象的数量大于未对该目标媒体数据进行收藏操作的消费对象的数量。

可选的，互动特征也可以包括如下一种或者多种：低评论、低分享、低点赞、低收藏等。低评论指的是：发布平台发布该目标媒体数据之后，对该目标媒体数据进行评论操作的消费对象较少，即对该目标媒体数据进行评论操作的消费对象的数量小于未对该目标媒体数据进行评论操作的消费对象的数量。低分享指的是：发布平台发布该目标媒体数据之后，对该目标媒体数据进行分享操作的消费对象较少，即对该目标媒体数据进行分享操作的消费对象的数量小于未对该目标媒体数据进行分享操作的消费对象的数量。低点赞指的是：发布平台发布该目标媒体数据之后，对该目标媒体数据进行点赞操作的消费对象较少，即对该目标媒体数据进行点赞操作的消费对象的数量小于未对该目标媒体数据进行点赞操作的消费对象的数量。低收藏指的是：发布平台发布该目标媒体数据之后，对该目标媒体数据进行收藏操作的消费对象较少，即对该目标媒体数据进行收藏操作的消费对象的数量小于未对该目标媒体数据进行收藏操作的消费对象的数量。

经研究发现，同一个互动特征的媒体数据在创作和内容特征上往往会有一定的共性，基于此，本申请实施例基于内容特征和对象特征，对目标媒体数据的互动特征进行预测处理，可预估目标媒体数据通过发布平台分发至消费对象后，消费对象对目标媒体数据的互动程度，例如预测目标媒体数据的互动特征包括高评论、高分享、高点赞、高收藏中的一种或者多种，又如，预测目标媒体数据的互动特征包括低评论、低分享、低点赞、低收藏中的一种或者多种，等等。

在一种应用场景中，发布平台通过预测目标媒体数据的互动特征，能够更好地提前发现高互动(例如高评论、高分享、高点赞、高收藏等)的媒体数据。然后在进行媒体数据推荐时，可以加速高互动的媒体数据的分发和扩散，以便更快获得流量和收益，可激励发布对象的创作热情，增加内容供给和作者活跃度。同时，由于高互动的媒体数据能够更快获得流量和收益，那么可以激发消费对象向发布对象跃迁转变，扩大发布对象的数量，从而增加发布平台产品的自传播力，以及增加媒体数据的供给，降低媒体数据引入的成本。示例性的，本申请实施例中的跃迁转变过程可以为：消费对象->点赞对象->关注/订阅对象->分享对象->评论对象->发布对象。

在另一种应用场景中，发布平台通过预测目标媒体数据的互动特征，能够帮助推荐引擎进行分发优化，量化各互动行为的业务价值，挖掘高互动媒体数据，创造更多播放量与互动率的媒体数据，活跃大盘的互动氛围，提升用户的粘性和留存率，让发布平台更多用户是媒体数据的生产者，同时也是媒体数据的消费者。

在具体实现中，本申请实施例提出的媒体数据识别方案可以由计算机设备执行，该计算机设备可以为终端设备或者服务器；此处的终端设备可包括但不限于：计算机、智能手机、平板电脑、笔记本电脑、智能家电、车载终端、智能可穿戴设备等；此处的服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。进一步可选的，本申请实施例提出的媒体数据识别方案还可以由其他有计算力的计算机设备单独或协同执行，本申请实施例不做限制。

参见图1，为本申请实施例提供的一种媒体数据识别方法的流程示意图。图1所示的媒体数据识别方法可由计算机设备执行，也可以由其他有计算力的计算机设备单独或协同执行，本申请实施例以计算机设备为例。图1所示的媒体数据识别方法可包括如下步骤：

S101，对目标媒体数据进行内容特征提取，得到目标媒体数据的内容特征。

具体实现中，计算机设备在需要对目标媒体数据进行互动特征预测时，可以对目标媒体数据进行内容特征提取，得到目标媒体数据的内容特征。在一个示例中，计算机设备可以在获取到任一发布对象提交的媒体数据后，实时将该媒体数据作为目标媒体数据，并对目标媒体数据进行内容特征提取，得到目标媒体数据的内容特征。在另一个示例中，计算机设备获取任一发布对象提交的媒体数据后，可以将该媒体数据存储到存储空间中，然后在到达互动特征预测周期时，将存储空间中的媒体数据作为目标媒体数据，对目标媒体数据进行内容特征提取，得到目标媒体数据的内容特征。计算机设备还可以在识别得到任一目标媒体数据的互动特征之后，将该任一目标媒体数据从存储空间中删除。存储空间可以包括缓存、外部存储器(例如云存储器)或者数据库等，具体不受本申请实施例的限定。在另一个示例中，计算机设备可以在分发某个媒体数据之后，从该媒体数据的分发时间开始经过预设时间段之前，将该媒体数据作为目标媒体数据，对目标媒体数据进行内容特征提取，得到目标媒体数据的内容特征。

在一个实施例中，计算机设备可以提取目标媒体数据的多模态特征，然后通过跨模态融合的方式得到目标媒体数据的内容特征。具体的，计算机设备可以获取目标媒体数据在至少两个数据维度的数据内容，其中，任一数据维度的数据内容包括音频信息、视频信息或者文本信息，然后对目标媒体数据在各个维度的数据内容进行内容特征提取，以得到目标媒体数据的至少两个模态内容特征，将至少两个模态内容特征进行融合处理，得到目标媒体数据的内容特征。

可选的，在至少两个数据维度的数据内容包括视频信息的情况下，计算机设备得到的目标媒体数据的至少两个模态内容特征可以包括视觉模态特征。示例性的，视觉模态特征可以包括视频信息的嵌入(embedding)向量，嵌入向量就是用一个低维向量表征一个视频，具体的，可以从视频中抽取视频关键帧，两个嵌入的“距离”代表两个视频关键帧的距离，进而可以计算视频关键帧的相似度，本申请实施例中的嵌入向量是基于内容的“隐式”特征。举例来说，视频信息由视频帧序列组成，计算机设备可以通过深度行为识别网络(Temporal Segment Networks，TSN)抽帧，以抽取到视频关键帧，然后通过(ShiftedWindows Transformer，SwinT)(一种采用非重叠的窗口进行自注意力计算的模型)对视频关键帧提取图像特征，进而使用Youtub8M-NeXtVLad的网络比赛模型的中间层得到图像特征向量，最后通过图像特征向量加平均得到视频信息的嵌入向量。NeXtVLad大规模视频分类任务中，将帧级别特征聚合成视频级别特征的模型结构，基本思想是，在进行NetVLAD聚合之前，先将高维特征分解为一组相对低维向量。其中，NetVlad是YouTube 8M视频理解比赛(主要给YouTube的视频打标签)中提出来的一个网络结构，主要分为三个部分：特征的输入，视频的特征提取，模型的分类阶段。

嵌入向量可以包含两层含义，即表征学习(representation learning)特征和度量学习(metric learning)特征。其中，表征学习特征指的是低维的稠密特征，可以通过一维数组表示，例如视频信息的嵌入向量可以是128个维度(float)。度量学习特征可以理解为相似性度量的向量，两个向量的“距离”代表两个物体的“相似性”。

可选的，在至少两个数据维度的数据内容包括音频信息或者视频信息的情况下，计算机设备得到的目标媒体数据的至少两个模态内容特征可以包括音频模态特征。具体的，计算机设备可以对音频做预处理得到梅尔频谱图，然后使用VGGish模型(VGGish模型是在YouTube的AudioSet数据集上预训练得到的模型，AudioSet数据集指的是谷歌发布的大规模音频数据集)对梅尔频谱图提取特征，之后采用NextVlad得到视频级音频特征。示例性的，可以先对音频文件做一系列的预处理，通常选取视频前10分钟的16kHz的音频，使用25ms的汉明时窗，10ms的帧移对音频进行短时傅里叶变换得到频谱图，随后将频谱图映射到64阶梅尔滤波器组中计算得到梅尔声谱。梅尔声谱特征以960ms的时长组帧，帧间没有重叠，每一帧时长10ms，包含64个梅尔频带。采用Vggish作为特征提取器，它对场景类的声音事件有较强的特别表达能力。本申请实施例中，增加音频模态特征后，对动作片、音乐等媒体数据的语义建模后预测互动特征的准确率有明显的提升。

可选的，在至少两个数据维度的数据内容包括文本信息的情况下，计算机设备得到的目标媒体数据的至少两个模态内容特征可以包括文本模态特征。具体的，计算机设备可以获取目标媒体数据的标题，标签和一二级分类(通常是指视频或者图文内容的一二级分类，通常是由专门的分类模型按照分类树结构采用有监督学习的方式得到，或者是人工标记)，使用LICHEES模型(基于信息流大规模文本语料的预料训练Bert模型，能够更好对信息流文本预料提取语义特征)对文本信息进行建模，进而提取文本模态特征。

可选的，在至少两个数据维度的数据内容包括图像信息的情况下，计算机设备得到的目标媒体数据的至少两个模态内容特征可以包括图像模态特征。例如，计算机设备可以获取图像信息的封面图，然后采用Transformer模型对封面图进行特征提取，得到封面图特征。其中，Transformer模型是Google提出的一种自然语言处理(Natural LanguageProcessing，NLP)经典模型，Transformer模型使用了自注意力(Self-Attention)机制，使得模型可以并行化训练，而且能够拥有全局信息。

S102，确定提供目标媒体数据的发布对象的属性信息，并对属性信息进行对象特征提取，得到目标媒体数据的对象特征。

举例来说，计算机设备可以获取提供目标媒体数据的发布对象的属性信息，该属性信息可以包括该发布对象的账号等级和粉丝数量，然后获取该粉丝数量所属粉丝数量区间对应的账号粉丝等级，进而将该账号等级和账号粉丝等级作为目标媒体数据的对象特征。其中，上述属性信息包含但不限定于账号等级和粉丝数量，对象特征包含但不限定于账号等级和账号粉丝等级，例如属性信息还可以包括该发布对象的兴趣爱好、购物记录等，对象特征包含但不限定于感兴趣类型和购物类型等，具体不受本申请实施例的限定。

在本申请的具体实施方式中，涉及到的对象(例如发布对象、消费对象)可以指的是用户，涉及到用户相关的数据，例如属性信息等，当本申请实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守当地法律法规和标准。

S103，基于内容特征和对象特征，对目标媒体数据的互动特征进行预测处理，以识别得到目标媒体数据的互动特征。

具体实现中，计算机设备可以基于目标媒体数据的内容特征和对象特征，预测得到目标媒体数据的互动特征，例如，假设目标媒体数据的内容特征指示目标媒体数据涉及热度较高的话题，目标媒体数据的对象特征指示提供目标媒体数据的发布对象的账号等级和账号粉丝等级较高，那么预测得到的目标媒体数据的互动特征包括高分享特征，也就是说，目标媒体数据分发至消费对象之后，对目标媒体数据进行分享操作的消费对象的数量极有可能大于未对目标媒体数据进行分享操作的消费对象的数量。

在本申请实施例中，计算机设备识别得到的目标媒体数据的互动特征可以包括至少一个互动维度的互动特征，互动维度指的是与消费对象对媒体数据进行的操作匹配的维度。例如至少一个互动维度可以包括评论维度、分享维度、点赞维度或者收藏维度等，评论维度的互动特征可以包括高评论特征或者低评论特征，分享维度的互动特征可以包括高分享特征或者低分享特征，点赞维度的互动特征可以包括高点赞特征或者低点赞特征，收藏维度的互动特征可以包括高收藏特征或者低收藏特征。基于此，计算机设备识别得到的目标媒体数据的互动特征可以包括如下一种或者多种：高评论特征，高分享特征，高点赞特征，高收藏特征，低评论特征，低分享特征，低点赞特征，低收藏特征。

在一个实施例中，计算机设备可以基于内容特征和对象特征，对目标媒体数据的互动特征进行预测处理，以识别得到目标媒体数据的互动特征，以及目标媒体数据的互动特征的预测概率。例如，假设计算机设备基于目标媒体数据的内容特征和对象特征，预测得到目标媒体数据的互动特征包括高分享特征和高评论特征，其中高分享特征的预测概率为70％，高评论特征的预测概率为90％，那么就表明目标媒体数据分发至消费对象之后，对目标媒体数据进行分享操作的消费对象的数量较多的概率为70％，对目标媒体数据进行评论操作的消费对象的数量较多的概率为90％。

本申请实施例中，对目标媒体数据进行内容特征提取，得到目标媒体数据的内容特征，确定提供目标媒体数据的发布对象的属性信息，并对属性信息进行对象特征提取，得到目标媒体数据的对象特征，基于内容特征和对象特征，对目标媒体数据的互动特征进行预测处理，以识别得到目标媒体数据的互动特征，可预测得到目标媒体数据的互动特征，以便应用于媒体数据的冷启动(即高互动的媒体数据可以加速分发和扩散)，以及促进发布对象生成媒体数据。

参见图2，为本申请实施例提供的一种媒体数据识别模型的结构示意图。媒体数据识别模型可以用于对目标媒体数据的互动特征进行预测处理，以识别得到目标媒体数据的互动特征。具体的，可以对目标媒体数据进行内容特征提取，得到目标媒体数据的内容特征，确定提供目标媒体数据的发布对象的属性信息，并对属性信息进行对象特征提取，得到目标媒体数据的对象特征，基于内容特征和对象特征，对目标媒体数据的互动特征进行预测处理，以识别得到目标媒体数据的互动特征。如图2所示，可以确定提供目标媒体数据的发布对象的属性信息，并对属性信息进行对象特征提取，得到目标媒体数据的对象特征，并获取目标媒体数据的内容广度特征(例如图文长度、视频时长或内容质量等级等)，以及目标媒体数据的内容深度特征(例如视觉模态特征、音频模态特征或者文本模态特征)，然后对对象特征、内容广度特征和内容深度特征进行跨模态融合处理，预测得到目标媒体数据的互动特征。

参见图3，为本申请实施例提供的一种训练样本的采集方式的示意图。本申请实施例可以通过统计分析的方式利用操作行为互动统计信息构造训练样本。任一媒体数据分发至消费对象之后，消费对象的客户端如果检测到消费对象对该媒体数据存在互动行为，那么客户端可以生成该媒体数据的消费互动日志，并将该消费互动日志发送至计算机设备。举例来说，计算机设备可以接收客户端发送的至少一个数据类型的媒体数据的消费互动日志，示例性的，消费互动日志的数据格式可以为(t，uid_i，vid_v，exp_i，v，clk_i，v，Comment_i，v，Share_i，v，Great_i，v，CoUect_i，v)，其中t为行为上报时间戳，uid_i表示用户i，vid_v表示媒体数据v，exp_i，v表示视频v对用户i的曝光次数，clk_i，v为用户i对视频v的点击播放次数，Comment_i，v则为用户i对视频v的评论次数，Share_i，v则为用户i对视频v的分享次数，Great_i，v则为用户i对视频v的点赞次数，Collect_i，v则为用户i对视频v的收藏次数。

计算机设备可以基于消费互动日志确定用户对媒体数据的互动程度，互动程度可以通过互动率衡量，例如，假设互动率包括评论率，那么计算机设备可以获取各个消费对象对该媒体数据的评论次数总和，以及该媒体数据对各个消费对象的曝光次数总和，将评论次数总和与曝光次数总和的比值，作为该媒体数据的评论率。同理，媒体数据的分享率可以指的是：各个消费对象对该媒体数据的分享次数总和，与该媒体数据对各个消费对象的曝光次数总和的比值。媒体数据的点赞率可以指的是：各个消费对象对该媒体数据的点赞次数总和，与该媒体数据对各个消费对象的曝光次数总和的比值。媒体数据的收藏率可以指的是：各个消费对象对该媒体数据的收藏次数总和，与该媒体数据对各个消费对象的曝光次数总和的比值。然后计算机设备可以基于至少一个消费对象对该媒体数据的消费互动日志，确定该媒体数据的互动特征，进而生成用于指示该互动特征的特征标签，以构建训练样本。

本申请实施例中，计算机设备可以确定业务目标，然后基于业务目标构建训练样本。例如，业务目标可以为：通过训练得到的媒体数据识别模型预测媒体数据在至少一个维度的互动特征。例如，假设业务目标包括：通过训练得到的媒体数据识别模型预测媒体数据在评论维度的互动特征，那么计算机设备可以采集存在评论行为的消费互动日志，以构建训练样本。又如，假设业务目标包括：通过训练得到的媒体数据识别模型预测媒体数据在评论维度和分享维度的互动特征，那么计算机设备可以采集存在评论行为和/或分享行为的消费互动日志，以构建训练样本。又如，业务目标可以为：在媒体数据在任一维度的互动率大于预设比例阈值的情况下，判定媒体数据在该维度的互动特征为高互动特征，即通过训练得到的媒体数据识别模型预测媒体数据是否存在至少一个维度的互动率大于预设比例阈值的互动特征。例如，假设业务目标包括：查找分享率可能大于预设比例阈值的媒体数据，那么计算机设备可以采集存在分享行为的消费互动日志，基于分享率大于预设比例阈值的媒体数据对应的消费互动日志构建正样本，基于分享率小于预设比例阈值的媒体数据对应的消费互动日志，构建负样本。其中，预设比例阈值可以为预先设定的固定比例，例如70％或者80％等。可选的，预设比例阈值也可以指的是动态比例，例如将平均互动率与预设步长相加得到的比例，平均互动率指的是不同维度的互动率的均值。

在一个实施例中，消费互动日志可以是从至少一个发布平台获取的，基于此构建的训练样本的分布更加广泛，训练得到的媒体数据识别模型也会有更好的泛化特性。

在一个实施例中，因为不同数据类型的媒体数据的互动程度是存在差异的，为了确保训练得到的媒体数据识别模型可以预测不同数据类型的媒体数据的互动特征，训练样本可以包括多个数据类型的媒体数据。

基于上述媒体数据识别方法的相关实施例，本申请实施例提供了另一种媒体数据识别方法。参见图4，为本申请实施例提供的另一种媒体数据识别方法的流程示意图。图4所示的媒体数据识别方法可由计算机设备执行，也可以由其他有计算力的计算机设备单独或协同执行，本申请实施例以计算机设备为例。图4所示的媒体数据识别方法可包括如下步骤：

S401，获取训练样本，训练样本包括训练数据，提供训练数据的发布对象的属性信息以及训练数据的特征标签。

其中，特征标签可以用于指示训练数据的参考互动特征。举例来说，对该训练数据进行分享操作的消费对象的数量大于未对该训练数据进行分享操作的消费对象的数量，那么表明消费对象对该训练数据的分享程度较高，该训练数据的参考互动特征可以包括高分享特征，进而可以生成用于指示训练数据的参考互动特征包括高分享特征的特征标签。

在一个实施例中，计算机设备可以采集在历史时间段内存在互动行为的发布数据(例如图3所述的消费互动日志)，并基于采集的各个发布数据在历史时间段的互动行为数据，统计各个发布数据的互动率，在采集的发布数据中选取互动率大于第一预设比例阈值的第一发布数据，基于第一发布数据的互动率，生成第一发布数据的特征标签，其中，第一发布数据的特征标签指示的互动特征与第一发布数据的互动率匹配，进而生成包含第一发布数据，提供第一发布数据的发布对象的属性信息以及第一发布数据的特征标签的训练样本，其中上述训练样本为正样本。

在一种实现方式中，计算机设备可以在采集的发布数据中选取互动率小于或等于第一预设比例阈值的第二发布数据，基于第二发布数据的互动率，生成第二发布数据的特征标签，其中，第二发布数据的特征标签指示的互动特征与第二发布数据的互动率匹配，进而生成包含第二发布数据，提供第二发布数据的发布对象的属性信息以及第二发布数据的特征标签的训练样本，其中该训练样本为负样本。

在一种实现方式中，计算机设备可以采集在历史时间段内存在互动行为的发布数据，并基于采集的各个发布数据在历史时间段的互动行为数据，统计各个发布数据在预设业务目标指示的互动维度的互动率，基于各个发布数据在预设业务目标指示的互动维度的互动率，生成各个发布数据的特征标签，其中，各个发布数据的特征标签指示的互动特征与第一发布数据在预设业务目标指示的互动维度的互动率匹配，进而生成包含各个发布数据，提供各个发布数据的发布对象的属性信息以及各个发布数据的特征标签的训练样本。

S402，对训练数据进行内容特征提取，得到训练数据的内容特征。

计算机设备对训练数据进行内容特征提取的方式和上述实施例中对目标媒体数据进行内容特征提取的方式相同，具体可参见图1中步骤S101的相关描述，本申请实施例不再赘述。

S403，对提供训练数据的发布对象的属性信息进行对象特征提取，得到训练数据的对象特征。

计算机设备对提供训练数据的发布对象的属性信息进行对象特征提取的方式和上述实施例中对提供目标媒体数据的发布对象的属性信息进行对象特征提取的方式相同，具体可参见图1中步骤S201的相关描述，本申请实施例不再赘述。

S404，调用初始数据识别模型，基于训练数据的内容特征和训练数据的对象特征，对训练数据的互动特征进行预测处理，以识别得到训练数据的互动特征。

S405，按照减小训练数据的互动特征和特征标签指示的参考互动特征的差异的方向，对初始数据识别模型进行训练，得到媒体数据识别模型。

本申请实施例中，计算机设备可以根据训练数据的互动特征和特征标签指示的参考互动特征，得到初始数据识别模型的损失值，该损失值可以用于表征训练数据的互动特征和特征标签指示的参考互动特征的差异。然后，计算机设备可以基于该损失值对初始数据识别模型的模型参数进行调整，得到媒体数据识别模型。

S406，对目标媒体数据进行内容特征提取，得到目标媒体数据的内容特征。

S407，确定提供目标媒体数据的发布对象的属性信息，并对属性信息进行对象特征提取，得到目标媒体数据的对象特征。

S408，调用媒体数据识别模型，基于内容特征和对象特征，对目标媒体数据的互动特征进行预测处理，以识别得到目标媒体数据的互动特征。

在一种实现方式中，如果第一预设比例阈值指的是：预设业务目标指示的互动维度的比例阈值，那么计算机设备可以调用媒体数据识别模型，基于内容特征和对象特征，预测目标媒体数据在预设业务目标指示的互动维度的目标互动率，当目标互动率大于第一预设比例阈值时，确定目标媒体数据的互动特征包括预设业务目标指示的互动维度的互动特征。

在一种实现方式中，如果业务目标指的是预测媒体数据在指定互动维度的互动特征，那么计算机设备可以基于内容特征和对象特征，预测目标媒体数据在预设业务目标指示的互动维度的互动率，当互动率高于第二预设比例阈值时，确定目标媒体数据的互动特征包括预设业务目标指示的互动维度的互动特征。其中，第二预设比例阈值可以为预先设定的比例，不同互动维度的第二预设比例阈值可以相同，也可以不同，具体不受本申请实施例的限制。

本申请实施例中，利用用户不同互动行为(例如评论、分享、点赞、收藏)的特性，对媒体数据进行不同互动程度的分解，得到不同互动维度的高互动特征的样本数据，然后结合样本数据的内容特征和对象特征，训练得到媒体数据识别模型，进而可通过调用媒体数据识别模型的方式预测目标媒体数据的互动特征，可提高互动特征的预测效率和预测准确度。

基于上述媒体数据识别方法的相关描述，本申请还公开了一种媒体数据识别装置。该媒体数据识别装置可以是运行与上述所提及的计算机设备中的一个计算机程序(包括程序代码)。该媒体数据识别装置可以执行如图1和图4所示的媒体数据识别方法，请参见图5，该媒体数据识别装置至少可以包括：特征提取单元501和处理单元502。

特征提取单元501，用于对目标媒体数据进行内容特征提取，得到所述目标媒体数据的内容特征；

所述特征提取单元501，还用于确定提供所述目标媒体数据的发布对象的属性信息，并对所述属性信息进行对象特征提取，得到所述目标媒体数据的对象特征，其中，所述对象特征用于指示所述发布对象的对象属性；

处理单元502，用于基于所述内容特征和所述对象特征，对所述目标媒体数据的互动特征进行预测处理，以识别得到所述目标媒体数据的互动特征，其中，所述互动特征用于指示浏览所述目标媒体数据的消费对象对所述目标媒体数据的互动程度。

在一种实施方式中，特征提取单元501在对目标媒体数据进行内容特征提取，得到所述目标媒体数据的内容特征时，具体可用于执行如下操作：

获取所述目标媒体数据在至少两个数据维度的数据内容，其中，任一数据维度的数据内容包括音频信息、视频信息或者文本信息；

对所述目标媒体数据在各个维度的数据内容进行内容特征提取，以得到所述目标媒体数据的至少两个模态内容特征；

将所述至少两个模态内容特征进行融合处理，得到所述目标媒体数据的内容特征。

在又一种实施方式中，互动特征是调用数据识别模型基于所述内容特征和所述对象特征，对所述目标媒体数据的互动特征进行预测处理得到的；所述媒体数据识别装置还可以包括获取单元503，其中：

获取单元503，用于获取训练样本，所述训练样本包括训练数据，提供所述训练数据的发布对象的属性信息以及所述训练数据的特征标签，所述特征标签用于指示所述训练数据的参考互动特征；

特征提取单元501，还用于对所述训练数据进行内容特征提取，得到所述训练数据的内容特征；

特征提取单元501，还用于对提供所述训练数据的发布对象的属性信息进行对象特征提取，得到所述训练数据的对象特征；

处理单元502，还用于调用初始数据识别模型，基于所述训练数据的内容特征和所述训练数据的对象特征，对所述训练数据的互动特征进行预测处理，以识别得到所述训练数据的互动特征；

处理单元502，还用于按照减小所述训练数据的互动特征和所述特征标签指示的参考互动特征的差异的方向，对所述初始数据识别模型进行训练，得到所述数据识别模型。

在又一种实施方式中，获取单元503在获取训练样本时，具体可用于执行以下操作：

采集在历史时间段内存在互动行为的发布数据，并基于采集的各个发布数据在所述历史时间段的互动行为数据，统计所述各个发布数据的互动率；

在所述采集的发布数据中选取互动率大于第一预设比例阈值的第一发布数据；

基于所述第一发布数据的互动率，生成所述第一发布数据的特征标签，其中，所述第一发布数据的特征标签指示的互动特征与所述第一发布数据的互动率匹配；

生成包含所述第一发布数据，提供所述第一发布数据的发布对象的属性信息以及所述第一发布数据的特征标签的训练样本，其中所述训练样本为正样本。

在又一种实施方式中，获取单元503在获取训练样本时，还用于执行以下操作：

在所述采集的发布数据中选取互动率小于或等于所述第一预设比例阈值的第二发布数据；

基于所述第二发布数据的互动率，生成所述第二发布数据的特征标签，其中，所述第二发布数据的特征标签指示的互动特征与所述第二发布数据的互动率匹配；

生成包含所述第二发布数据，提供所述第二发布数据的发布对象的属性信息以及所述第二发布数据的特征标签的训练样本，其中所述训练样本为负样本。

在又一种实施方式中，第一预设比例阈值指的是：预设业务目标指示的互动维度的比例阈值；

所述处理单元502在基于所述内容特征和所述对象特征，对所述目标媒体数据的互动特征进行预测处理，以识别得到所述目标媒体数据的互动特征时，具体用于执行以下操作：

基于所述内容特征和所述对象特征，预测所述目标媒体数据在所述预设业务目标指示的互动维度的目标互动率；

当所述目标互动率大于所述第一预设比例阈值时，确定所述目标媒体数据的互动特征包括所述预设业务目标指示的互动维度的互动特征。

在又一种实施方式中，所述获取单元503在获取训练样本时，具体可用于执行以下操作：

采集在历史时间段内存在互动行为的发布数据，并基于采集的各个发布数据在所述历史时间段的互动行为数据，统计所述各个发布数据在预设业务目标指示的互动维度的互动率；

基于所述各个发布数据在预设业务目标指示的互动维度的互动率，生成所述各个发布数据的特征标签，其中，所述各个发布数据的特征标签指示的互动特征与所述第一发布数据在预设业务目标指示的互动维度的互动率匹配；

生成包含所述各个发布数据，提供所述各个发布数据的发布对象的属性信息以及所述各个发布数据的特征标签的训练样本。

在又一种实施方式中，所述处理单元502在基于所述内容特征和所述对象特征，对所述目标媒体数据的互动特征进行预测处理，以识别得到所述目标媒体数据的互动特征时，具体可以用于执行以下操作：

基于所述内容特征和所述对象特征，预测所述目标媒体数据在所述预设业务目标指示的互动维度的互动率；

当所述互动率高于第二预设比例阈值时，确定所述目标媒体数据的互动特征包括所述预设业务目标指示的互动维度的互动特征。

基于所述内容特征和所述对象特征，对所述目标媒体数据的互动特征进行预测处理，以识别得到所述目标媒体数据的互动特征，以及所述目标媒体数据的互动特征的预测概率。

根据本申请的一个实施例，图1和图4所示的方法所涉及各个步骤可以是由图5所示的媒体数据识别装置中的各个单元来执行的。

根据本申请的另一个实施例，图5所示的媒体数据识别装置中的各个单元是基于逻辑功能划分的，上述各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。在本申请的其它实施例中，上述基于媒体数据识别装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本申请的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机设备的通用计算设备上，运行能够执行如图1或图4所示的方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图5所示的媒体数据识别装置，以及来实现本申请实施例的媒体数据识别方法。计算机程序可以记载于例如计算机存储介质上，并通过计算机存储介质装载于上述计算机设备中，并在其中运行。

基于上述的方法实施例以及装置实施例，本申请还提供了一种计算机设备。参见图6，为本申请实施例提供的一种计算机设备的结构示意图。图6所示的计算机设备可至少包括处理器601、通信接口602以及计算机存储介质603。其中，处理器601、通信接口602以及计算机存储介质603可通过总线或其他方式连接。

计算机存储介质603可以存储在计算机设备的存储器中，计算机存储介质603用于存储计算机程序，计算机程序包括程序指令，处理器601用于执行计算机存储介质603存储的程序指令。处理器601(或称CPU(Central Processing Unit，中央处理器))是计算机设备的计算核心以及控制核心，其适于实现一条或多条指令，具体适于加载并执行一条或多条指令从而实现上述媒体数据识别方法流程或相应功能。

本申请实施例还提供了一种计算机存储介质(Memory)，计算机存储介质是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括计算机设备中的内置存储介质，当然也可以包括计算机设备所支持的扩展存储介质。计算机存储介质提供存储空间，该存储空间存储了计算机设备的操作系统。并且，在该存储空间中还存放了适于被处理器601加载并执行的一条或多条的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机存储介质可以是高速随机存取存储器(random access memory，RAM)存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器的计算机存储介质。

在一个实施例中，可由处理器601加载并执行计算机存储介质603中存放的一条或多条指令，以实现上述有关图1和图4的媒体数据识别方法实施例中的方法的相应步骤，具体实现中，计算机存储介质603中的一条或多条指令由处理器601加载并执行如下步骤：

处理器601对目标媒体数据进行内容特征提取，得到所述目标媒体数据的内容特征；

处理器601确定提供所述目标媒体数据的发布对象的属性信息，并对所述属性信息进行对象特征提取，得到所述目标媒体数据的对象特征，其中，所述对象特征用于指示所述发布对象的对象属性；

处理器601基于所述内容特征和所述对象特征，对所述目标媒体数据的互动特征进行预测处理，以识别得到所述目标媒体数据的互动特征，其中，所述互动特征用于指示浏览所述目标媒体数据的消费对象对所述目标媒体数据的互动程度。

在一个实施例中，所述处理器601在对目标媒体数据进行内容特征提取，得到所述目标媒体数据的内容特征时，具体可用于执行如下操作：

在一个实施例中，互动特征是处理器601调用数据识别模型基于所述内容特征和所述对象特征，对所述目标媒体数据的互动特征进行预测处理得到的；处理器601还用于执行以下操作：

获取训练样本，所述训练样本包括训练数据，提供所述训练数据的发布对象的属性信息以及所述训练数据的特征标签，所述特征标签用于指示所述训练数据的参考互动特征；

对所述训练数据进行内容特征提取，得到所述训练数据的内容特征；

对提供所述训练数据的发布对象的属性信息进行对象特征提取，得到所述训练数据的对象特征；

调用初始数据识别模型，基于所述训练数据的内容特征和所述训练数据的对象特征，对所述训练数据的互动特征进行预测处理，以识别得到所述训练数据的互动特征；

按照减小所述训练数据的互动特征和所述特征标签指示的参考互动特征的差异的方向，对所述初始数据识别模型进行训练，得到所述数据识别模型。

在一个实施例中，所述处理器601在获取训练样本时，具体可用于执行以下操作：

在一个实施例中，所述处理器601在获取训练样本时，还用于执行以下操作：

在一个实施例中，第一预设比例阈值指的是：预设业务目标指示的互动维度的比例阈值；

所述处理器601在基于所述内容特征和所述对象特征，对所述目标媒体数据的互动特征进行预测处理，以识别得到所述目标媒体数据的互动特征时，具体用于执行以下操作：

在一个实施例中，所述处理器601在基于所述内容特征和所述对象特征，对所述目标媒体数据的互动特征进行预测处理，以识别得到所述目标媒体数据的互动特征时，具体可以用于执行以下操作：

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述如图1和图4所示的方法实施例。其中，计算机可读存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种媒体数据识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对目标媒体数据进行内容特征提取，得到所述目标媒体数据的内容特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述互动特征是调用数据识别模型基于所述内容特征和所述对象特征，对所述目标媒体数据的互动特征进行预测处理得到的；所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述获取训练样本，包括：

5.根据权利要求3所述的方法，其特征在于，所述获取训练样本还包括：

6.根据权利要求4或5所述的方法，其特征在于，所述第一预设比例阈值指的是：预设业务目标指示的互动维度的比例阈值；

所述基于所述内容特征和所述对象特征，对所述目标媒体数据的互动特征进行预测处理，以识别得到所述目标媒体数据的互动特征，包括：

7.根据权利要求3所述的方法，其特征在于，所述获取训练样本，包括：

8.根据权利要求7所述的方法，其特征在于，所述基于所述内容特征和所述对象特征，对所述目标媒体数据的互动特征进行预测处理，以识别得到所述目标媒体数据的互动特征，包括：

9.根据权利要求1所述的方法，其特征在于，所述基于所述内容特征和所述对象特征，对所述目标媒体数据的互动特征进行预测处理，以识别得到所述目标媒体数据的互动特征，包括：

10.一种媒体数据识别装置，其特征在于，包括：

11.一种计算机设备，其特征在于，包括：

处理器，所述处理器适于实现一条或多条计算机程序；

计算机存储介质，所述计算机存储介质存储有一条或多条计算机程序，所述一条或多条计算机程序适于由所述处理器加载并执行如权利要求1-9任一项所述的媒体数据识别方法。

12.一种计算机存储介质，其特征在于，所述计算机存储介质存储有一条或多条计算机程序，所述一条或多条计算机程序适于由处理器加载并执行如权利要求1-9任一项所述的媒体数据识别方法。

13.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序适于由处理器加载并执行如权利要求1-9任一项所述的媒体数据识别方法。