CN112100442A

CN112100442A - 用户倾向性识别方法、装置、设备及存储介质

Info

Publication number: CN112100442A
Application number: CN202011269224.4A
Authority: CN
Inventors: 梁涛; 张晗; 马连洋; 衡阵
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-11-13
Filing date: 2020-11-13
Publication date: 2020-12-18
Anticipated expiration: 2040-11-13
Also published as: CN112100442B

Abstract

本发明提供一种用户倾向性识别方法、装置、设备及存储介质，该方法包括：获取待识别多媒体数据的标题信息和封面图像信息；基于多媒体倾向性识别模型中的文本特征提取层，对标题信息进行特征提取，得到文本倾向性特征提取结果；基于该模型中的图像特征提取层对封面图像信息进行特征提取，得到视觉倾向性特征提取结果；基于该模型中的第一全连接层，对文本倾向性特征提取结果和视觉倾向性特征提取结果进行倾向性识别，得到目标用户对待识别多媒体数据的倾向性识别结果。本发明涉及人工智能领域的深度学习和计算机视觉技术以及云中的大数据技术，其能够提高目标用户对多媒体数据的倾向性识别的准确率，从而实现多媒体数据的精准推荐。

Description

用户倾向性识别方法、装置、设备及存储介质

技术领域

本发明属于计算机技术领域，具体涉及一种用户倾向性识别方法、装置、设备及存储介质。

背景技术

随着互联网和多媒体技术的飞速发展，网络上的多媒体数据（比如，视频）的数量和种类呈现急剧增长的态势，然而由于不同用户群体的兴趣爱好、关注领域以及个人经历等方面的不同，往往导致不同的用户群体具有不同的多媒体选择倾向，如何识别不同用户群体对多媒体数据的倾向性，从而从大规模的多媒体数据中找到不同用户群体所喜欢或感兴趣的内容，是当前多媒体应用领域面临的重要问题。

现有技术对用户多媒体倾向性识别的方法大多是基于字幕或视频帧来提取相应的倾向性信息特征，再基于所提取的倾向性信息特征来进行用户倾向性识别。但是现有技术只使用了多媒体数据的单一内容信息，多媒体信息的利用率不够充分，导致用户对多媒体数据的倾向性识别的准确率较低。

发明内容

为了提高用户对多媒体数据的倾向性识别的准确率，本发明提供一种用户倾向性识别方法、装置、设备及存储介质。

一方面，本发明提出了一种用户倾向性识别方法，所述方法包括：

获取待识别多媒体数据；

获取所述待识别多媒体数据的标题信息和封面图像信息；

基于目标用户对应的多媒体倾向性识别模型中的文本特征提取层，对所述标题信息进行特征提取，得到文本倾向性特征提取结果；

基于所述多媒体倾向性识别模型中的图像特征提取层对所述封面图像信息进行特征提取，得到视觉倾向性特征提取结果；

基于所述多媒体倾向性识别模型中的第一全连接层，对所述文本倾向性特征提取结果和所述视觉倾向性特征提取结果进行用户倾向性识别，得到所述目标用户对所述待识别多媒体数据的倾向性识别结果。

另一方面，本发明实施例提供了一种用户倾向性识别装置，所述装置包括：

第一获取模块，用于获取待识别多媒体数据；

第二获取模块，用于获取所述待识别多媒体数据的标题信息和封面图像信息；

文本特征提取模块，用于基于目标用户对应的多媒体倾向性识别模型中的文本特征提取层，对所述标题信息进行特征提取，得到文本倾向性特征提取结果；

图像特征提取模块，用于基于所述多媒体倾向性识别模型中的图像特征提取层对所述封面图像信息进行特征提取，得到视觉倾向性特征提取结果；

识别模块，用于基于所述多媒体倾向性识别模型中的第一全连接层，对所述文本倾向性特征提取结果和所述视觉倾向性特征提取结果进行用户倾向性识别，得到所述目标用户对所述待识别多媒体数据的倾向性识别结果。

另一方面，本发明提出了一种用户倾向性识别设备，所述设备包括：处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述所述的用户倾向性识别方法。

另一方面，本发明提出了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如上述所述的用户倾向性识别方法。

本发明实施例提出的用户倾向性识别方法、装置、设备及存储介质，对待识别多媒体数据采用层次化处理方式，其不仅从该待识别多媒体数据的标题信息层次中挖掘用户倾向性信特征，还从多媒体数据的封面图像信息层次中挖掘用户倾向性特征，然后将从不同层次挖掘出的倾向性信息进行融合，得到目标用户对待识别多媒体数据的倾向性识别结果。本发明采用层次化信息处理方式，增加了获取用户倾向性信息的途径，使得多媒体数据的信息被充分利用，从而提高用户对待识别多媒体数据的倾向性识别的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本发明实施例提供的一种用户倾向性识别方法的实施环境示意图。

图2是本发明实施例提供的一种用户倾向性识别方法的流程示意图。

图3是本发明实施例提供的一种获取多媒体倾向性识别模型的流程示意图。

图4是本发明实施例提供的一种样本多媒体数据的数据结构示意图。

图5是本发明实施例提供的一种用户倾向性识别方法的整体结构示意图。

图6是本发明实施例提供的一种全连接层的结构示意图。

图7是本发明实施例提供的另一种用户倾向性识别方法的流程示意图。

图8是本发明实施例提供的一种多媒体类型识别的流程示意图。

图9是本发明实施例提供的区块链系统的一个可选的结构示意图。

图10是本发明实施例提供的区块结构的一个可选的示意图。

图11是本发明实施例提供的一种用户倾向性识别装置的结构框图。

图12是本发明实施例提供的一种服务器的硬件结构框图。

具体实施方式

随着人工智能(Artificial Intelligence, AI)的研究和进步，AI在多个领域展开研究和应用。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习、自动驾驶等几大方向。

具体地，本发明实施例涉及AI中的计算机视觉技术和机器学习技术。其中，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

具体地，本发明实施例涉及AI中的计算机视觉中的视频语义理解技术和机器学习中的深度学习技术。

云技术（Cloud technology）是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。具体地，云技术包括安全、大数据、数据库、行业应用、网络、存储、管理工具、计算等技术领域。

具体地，本发明实施例涉及云技术中的大数据技术。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，倾向性在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

图1是本发明实施例提供的一种用户倾向性识别方法的实施环境示意图。如图1所示，该实施环境至少可以包括终端01和服务器02，终端01和服务器02可以通过有线或无线通信方式进行直接或间接地连接，本发明在此不做限制。比如，终端01通过有线或无线通信方式向服务器02上传待识别多媒体数据等，服务器02通过有线或无线通信方式向终端01反馈目标用户对该待识别多媒体数据的倾向性识别结果等。

具体地，终端01可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。服务器02可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

需要说明的是，图1仅仅是一种示例。

图2是本发明实施例提供的一种用户倾向性识别方法的流程示意图。该方法可以用于图1中的实施环境中。本说明书提供了如实施例或模块图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行（例如并行处理器或者多线程处理的环境）。具体的如图2所示，该方法可以包括：

S101.获取待识别多媒体数据。

S103.获取待识别多媒体数据的标题信息和封面图像信息。

本发明实施例中，在需要确定目标用户对某一待识别多媒体数据的倾向性时，可以从该待识别多媒体数据中获取相应的标题信息和封面图像信息。

该待识别多媒体数据是多种媒体的综合，一般包括文本，声音和图像等多种媒体形式。本发明实施例中的待识别多媒体数据具体可以为视频。

具体地，该目标用户可以为某一用户群体，例如，学生用户群体、男性用户群体、女性用户群体等。

具体地，该倾向性是指目标用户对该待识别多媒体数据的喜欢（感兴趣）或不喜欢（不感兴趣）。

具体地，该标题信息是指该多媒体数据上出现的文本，其以文本的形式涵盖了视频内容的主旨大意。以该多媒体数据为视频为例，若该视频为教授学生如何快速熟记英语单词的视频，则相应的标题信息可以为“xx分钟内熟记xx个英语单词”，若该视频为教授女性用户如何简单的化彩妆的视频，则相应的标题信息可以为“简易的彩妆教程”。该标题信息可以出现在用户刚打开视频的第一帧画面上，也可以出现在该视频的所有帧画面上。

具体地，该封面图像信息以图像的形式描述了多媒体内容的主要场景和人物。以该多媒体信息为视频为例，由于视频中可以有多帧，则可以预先对该视频中的所有帧进行关键帧抽取、评估，从而选取最能够描述该视频内容的主要场景和人物的画面作为该封面图像信息。

本发明实施例中，在S101之前，该方法还包括获取多媒体倾向性识别模型的步骤，如图3所示，获取该多媒体倾向性识别模型可以包括：

S201.获取目标用户对应的样本多媒体数据，样本多媒体数据标注有多媒体类型标签和多媒体倾向性标签。

S203.获取样本多媒体数据的样本标题信息和样本封面图像信息。

S205.基于样本标题信息和样本封面图像信息对神经网络进行多媒体倾向性的识别训练，得到目标多媒体倾向性预测结果。

S207.基于样本标题信息和样本封面图像信息对神经网络进行多媒体类型的识别训练，得到目标多媒体类型预测结果。

具体地，S207可以包括：

基于样本标题信息对神经网络进行多媒体类型的识别训练，得到第一多媒体类型预测结果。

基于样本封面图像信息对神经网络进行多媒体类型的识别训练，得到第二多媒体类型预测结果。

将第一多媒体类型预测结果和第二多媒体类型预测结果作为目标多媒体类型预测结果。

S209.根据目标多媒体倾向性预测结果与多媒体倾向性标签确定目标倾向性损失值，根据目标多媒体类型预测结果与多媒体类型标签确定目标类型损失值。

具体地，S209中的根据目标多媒体类型预测结果与多媒体类型标签确定目标类型损失值可以进一步包括：

根据第一多媒体类型预测结果与多媒体类型标签确定第一类型损失值。

根据第二多媒体类型预测结果与多媒体类型标签确定第二类型损失值。

将第一类型损失值与第二类型损失值的和，作为目标类型损失值。

S2011.将目标倾向性损失值与目标类型损失值的和，作为目标损失值。

S2013.在目标损失值不满足预设条件时，调整神经网络的参数，重复上述识别训练的步骤。

S2015.在目标损失值满足预设条件时，将当前的神经网络作为多媒体倾向性识别模型，多媒体倾向性识别模型包括文本特征提取层、图像特征提取层、第一全连接层、第二全连接层、第三全连接层和第四全连接层。

本发明实施例中，在S101之前，需要预先训练出该多媒体倾向性识别模型，为了提高识别过程中用户对多媒体数据的倾向性识别的准确率，本发明实施例提供了一种基于多媒体信息层次多任务的用户倾向性识别方法，该方法可以将整个模型学习过程划分为两个视频信息层次的倾向性挖掘过程，一个是基于视频标题的文本信息来挖掘用户倾向性信息，另一个是基于视频封面图像的视觉信息来挖掘用户倾向性信息，并且每种层次信息的倾向性信息挖掘又可以划分为主辅两个学习支路，主学习任务进行用户视频倾向性识别，辅学习任务进行视频类型识别，两个学习任务在模型训练过程中进行信息互补，并通过辅任务学习将视频数据自身的属性特征引入，指导模型在处理不同类型视频的时候能够更有针对性的进行倾向性识别，从而提高用户视频倾向性识别的精度。

以下以目标用户为学生群体、多媒体数据为视频为例，对多媒体倾向性识别模型的过程进行介绍：

1）收集学生群体在历史时间段内观看过的视频，将收集到的视频作为样本多媒体数据。该收集到的视频的数量为多个，则可以提取每个视频中的样本标题信息和样本封面图像信息。

2）对收集到的视频标注多媒体类型标签（比如，电视剧、娱乐、网红达人），并对收集到的视频标注多媒体倾向性标签（比如，可以将目标用户观看时长大于预设时长阈值的视频或目标用户点赞的视频或目标用户收藏的视频或目标用户转发的视频或目标用户下载的视频标注为目标用户喜欢的视频，可以将目标用户观看时长小于预设时长阈值的视频或目标用户标注不喜欢的视频标注为用户不喜欢的视频）。本发明所涉及的数据形式是以当个视频为基本单位的，图4所示为一种样本多媒体数据的数据结构示意图，如图4所示，一个样本多媒体数据可以包括样本标题信息、样本封面图像信息、多媒体类型标签和多媒体倾向性标签。

3）图5所示为本发明实施例提供的用户倾向性识别方法的整体结构示意图（即该神经网络的结构示意图）。如图5所示，该整体结构示意图可以包括文本特征提取层、图像特征提取层、第一全连接层、第一逻辑回归层、第二全连接层、第二逻辑回归层、第三全连接层、第三逻辑回归层、第四全连接层、第四逻辑回归层。其中，全连接层的英文名称为FullyConnected Layer，缩写为FC，逻辑回归层的英文名称为softmax。

在一个具体的实施例中，该文本特征提取层可以为双向长短期记忆网络（Bi-directional Long Short Term Memory，Bi-LSTM），该图像特征提取层可以为卷积神经网络（Convolutional Neural Networks，CNN）。

在一个具体的实施例中，该第一全连接层、第二全连接层、第三全连接层和第四全连接层的结构示意图均可以如图6所示。该全连接层中的每个节点均与上一层的所有节点相连，用于把前边提取到的特征综合起来。将拼接后的长向量输入到全连接层，该全连接层对输入向量进行如下非线性变换并输出：

，

其中，f为图6中的全连接层节点，为激活函数，W为权重矩阵，b为偏置常量，X为全连接层的输入，Y为全连接层的输出。

在一个具体的实施例中，该第一逻辑回归层、第二逻辑回归层、第三逻辑回归层和第四逻辑回归层用于将相应的全连接层的输出结果转化为用户倾向性识别结果（即用户喜欢或不喜欢），计算公式如下：

，

其中，

，

为全连接层输出，W、b为该层待训练参数。

主学习任务（如上述S205和S209所述）：基于样本标题信息和样本封面图像信息对神经网络进行多媒体倾向性的识别训练，得到目标多媒体倾向性预测结果，并根据目标多媒体倾向性预测结果与多媒体倾向性标签确定目标倾向性损失值（LOSS）。

具体可以为：继续如图5所示，可以将样本标题信息拆分为多个样本词，对该多个样本词分别进行词向量分析，得到该样本标题信息对应的多个样本词向量，将该多个样本词向量输入到Bi-LSTM中的文本特征提取层进行用户倾向性特征提取，得到文本样本倾向性特提取结果。将样本封面图像信息进行预处理后，输入CNN进行用户倾向性特征提取，得到视觉样本倾向性提取结果。接着将该文本样本倾向性特提取结果和视觉样本倾向性提取结果一起输入到第一全连接层和第一逻辑回归层进行用户倾向性识别，得到目标多媒体倾向性预测结果。最后根据该目标多媒体倾向性预测结果与该多媒体倾向性标签，产生目标倾向性损失值（LOSS）。

辅学习任务（如上述S207和S209所述）：基于样本标题信息和样本封面图像信息对神经网络进行多媒体类型的识别训练，得到目标多媒体类型预测结果。

需要说明的是，该辅学习任务既包含标题信息子任务的输出，也可以包含封面图像信息子任务的输出。

对于样本标题信息：该样本标题信息的多媒体类型的识别训练任务又可以划分为两个分支，分别为Bi-LSTM网络前后进行类型识别。

其中，继续如图5所示，Bi-LSTM网络前的类型识别过程可以为：将多个样本词向量输入该神经网络中的第二全连接层和第二逻辑回归层进行多媒体类型的识别训练，得到相应的多媒体类型预测结果，并基于该多媒体类型预测结果与该多媒体类型标签确定类型损失值（LOSS_1）。

继续如图5所示，Bi-LSTM网络后的类型识别过程可以为：将文本样本倾向性特提取结果输入到第三全连接层和第三逻辑回归层进行多媒体类型的识别训练，得到多媒体类型预测结果，基于该多媒体类型预测结果与该多媒体类型标签确定类型损失值（LOSS_2）。Bi-LSTM网络前后进行类型识别得到的多媒体类型预测结果对应于S207中的第一多媒体类型预测结果，该LOSS_1和LOSS_2对应于S209中的第一类型损失值。

本发明实施例对样本标题信息进行Bi-LSTM网络前后的类型识别过程的好处在于：Bi-LSTM网络前的类型识别是将所有词向量进行相加后，可以表示该样本标题信息的全局信息，通过该全局信息可以大致判断出该视频大概是什么类型，但是Bi-LSTM网络前的类型识别只能考虑到该样本标题信息的一部分，因为其更注重的是每个单词的词的意思，比如，标题中含有电影，则根据该标题，大概可以认为该视频的类型为电影，但是并不能够表示这个样本标题信息的上下文信息，因此，需要通过Bi-LSTM捕获该样本标题信息的上下文之间的关系，这样就可以捕获到该样本标题信息的更全的信息，从而提高标题信息层次的多媒体类型识别的准确率。

对于样本封面图像信息：继续如图5所示，可以将该视觉样本倾向性提取结果输入到第四全连接层和第四逻辑回归层进行多媒体类型的识别训练，得到S207中的第二多媒体类型预测结果，将该第二多媒体类型预测结果与多媒体类型标签确定S209中的第二类型损失值（LOSS_3）。

将该LOSS_1、LOSS_2和LOSS_3的和，作为S209中的目标类型损失值。

如S2011所述，可以将目标倾向性损失值与目标类型损失值的和，作为该目标损失值。具体可以为将目标类型损失值乘以相应的权重，然后再与该目标倾向损失值相加，得到该目标损失值。更具体地，可以确定LOSS_1、LOSS_2和LOSS_3各自对应的权重，将LOSS_1、LOSS_2和LOSS_3乘以各自对应的权重，然后再与该目标倾向损失值相加得到该目标损失值。

在该目标损失值不满足预设条件时，调整该神经网络的参数，重复上述识别训练的步骤。

在该目标损失值满足预设条件时，模型训练过程结束，并将当前的神经网络作为该多媒体倾向性识别模型。该训练好的多媒体倾向性识别模型具备对多媒体信息进行多层次多任务功能（即文本信息层次的主任务识别功能+辅任务识别功能，视觉信息层次的主任务识别功能+辅任务识别功能），具体地，该训练好的多媒体倾向性识别模型可以包括文本特征提取层、图像特征提取层、第一全连接层、第一逻辑回归层、第二全连接层、第二逻辑回归层、第三全连接层、第三逻辑回归层、第四全连接层和第四逻辑回归层。

需要说明的是，虽然该训练好的多媒体倾向性识别模型具备对多媒体信息进行多层次多任务功能，但在实际使用该多媒体倾向性识别模型的时候，可以同时使用该多媒体倾向性识别模型的主任务识别功能+辅任务识别功能，当然也可以仅使用该多媒体倾向性识别模型的主任务识别功能或辅任务识别功能。

在一个具体的实施例中，也可以仅对样本多媒体数据的样本标题信息和样本封面图像信息进行上述的主任务识别训练，得到仅具有对多媒体数据进行用户倾向性识别的模型。

需要说明的是，由于不同目标用户所喜欢或感兴趣的多媒体数据并不相同，因此，针对不同的目标用户可以训练出不同的多媒体倾向性识别模型，例如，学生群体对应的多媒体倾向性识别模型、男性用户群体对应的多媒体倾向性识别模型、女性用户群体对应的多媒体倾向性识别模型等。

S105.基于目标用户对应的多媒体倾向性识别模型中的文本特征提取层，对标题信息进行特征提取，得到文本倾向性特征提取结果。

本发明实施例中，首先确定目标用户的类型，针对不同的目标用户，获取不同目标用户对应的多媒体倾向性识别模型，并通过该多媒体倾向性识别模型进行后续识别处理过程。

本发明实施例中，由于标题信息是由多个词组成的，模型无法直接对词进行处理，为了提高文本倾向性特征提取结果的可行性和准确率。在S105之前该方法还可以包括：S104：对标题信息进行词向量处理。具体地，如图7所示，该S104可以包括：

S10401.将标题信息拆分为多个目标词。

S10403.对多个目标词分别进行词向量分析，得到标题信息对应的多个目标词向量。

相应地，以文本特征提取层为Bi-LSTM为例，则S105可以包括：基于文本特征提取层，对该标题信息对应的多个目标词向量进行用户倾向性特征提取，得到文本倾向性特征提取结果。

如上所述，由于Bi-LSTM是由前向LSTM和后向LSTM组合而成，通过Bi-LSTM可以充分考虑各个目标词在该标题信息中的前后顺序，更好地捕获双向的语义依赖，从而提获取高文本倾向性特征提取结果的准确率，进而提高用户对该多媒体数据的倾向性识别的准确率。

S107.基于多媒体倾向性识别模型中的图像特征提取层对封面图像信息进行特征提取，得到视觉倾向性特征提取结果。

具体地，S107可以包括：

基于图像特征提取层，对封面图像信息进行语义信息提取，得到语义信息提取结果。

基于语义信息提取结果，确定视觉倾向性特征提取结果。

本发明实施例中，为了提高视觉倾向性特征提取结果的准确率，在S107之前，还可以预先对该封面图像信息进行预处理，该预处理可以包括但不限于：重采样处理、归一化处理等。

该图像特征提取层可以为CNN，则在预处理过程之后，可以将该预处理后的封面图像信息输入到该多媒体倾向性识别模型中的CNN中进行图像语义处理，得到该语义信息提取结果（即该图像中的内容），根据该图像中的内容确定视觉倾向性特征提取结果。

S109.基于多媒体倾向性识别模型中的第一全连接层，对文本倾向性特征提取结果和视觉倾向性特征提取结果进行用户倾向性识别，得到目标用户对待识别多媒体数据的倾向性识别结果。

本发明实施例中，在得到文本倾向性特征提取结果和视觉倾向性特征提取结果之后，可以将二者一起输入第一全连接层进行用户倾向性识别，得到该目标用户对该待识别多媒体数据的倾向性识别结果，比如，喜欢或不喜欢。

如上所述，在使用该训练好的模型进行用户倾向性识别训练过程中，所涉及的数据是以单个多媒体数据（比如，视频）为基础的，每个多媒体数据的标题信息和封面图像信息作为该多媒体倾向性识别模型的输入，同时目标用户对该待识别多媒体数据的倾向性（喜欢、不喜欢）作为该多媒体倾向性识别模型的输出。

在一个具体的实施例中，为了提高用户对多媒体数据的倾向性识别结果的确定的准确率，在上述用户倾向性识别的基础上，可以增加多媒体类型的识别，从而为多媒体倾向性识别提供互补信息，辅助多媒体倾向性学习更充分的倾向性信息特征，使得整体的倾向性识别过程中能够考虑到多媒体本身类型的属性信息，从而可以针对不同类型的多媒体进行用户视频倾向性识别，从而更精准的进行用户多媒体倾向性识别。图8所示为本发明实施例提供的一种多媒体类型识别的流程示意图，如图8所示，该方法还可以包括：

S301.基于多媒体倾向性识别模型中的第二全连接层，对多个目标词向量进行多媒体类型识别，得到第一多媒体类型识别结果。

S303.基于多媒体倾向性识别模型中的第三全连接层，对文本倾向性特征提取结果进行多媒体类型识别，得到第二多媒体类型识别结果。

以文本特征提取层为Bi-LST为例，则本发明实施例中的S301相当于是进行Bi-LSTM网络前的类型识别，S303相当于是进行Bi-LSTM网络后的类型识别，与上述模型训练过程类型，Bi-LSTM网络前的类型识别是将所有词向量进行相加后，可以表示该标题信息的全局信息，通过该全局信息可以大致判断出该待识别多媒体数据大概是什么类型，但是Bi-LSTM网络前的类型识别只能考虑到该样本标题信息的一部分，因为其更注重的是每个单词的词的意思，其并不能够表示这个样本标题信息的上下文信息，因此，需要通过Bi-LSTM捕获该样本标题信息的上下文之间的关系，这样就可以捕获到该标题信息的更全的信息，从而提高标题信息层次的多媒体类型识别的准确率。

S305.基于多媒体倾向性识别模型中的第四全连接层，对视觉倾向性特征提取结果进行多媒体类型识别，得到第三多媒体类型识别结果。

S307.基于多媒体倾向性识别模型对第一多媒体类型识别结果、第二多媒体类型识别结果和第三多媒体类型识别结果进行处理，得到待识别多媒体数据的多媒体类型。

如上所述，由于本申请可以是基于多任务的学习方式，该待识别多媒体数据的所属的类型也可以作为该多媒体倾向性识别模型的子任务的输出。

本发明实施例中，在得到目标用户对待识别多媒体数据的倾向性识别结果和多媒体类型之后，可以以此为基础向目标用户推荐该待识别多媒体数据。

在一个可行的实施例中，S101中的待识别多媒体数据、S103中的标题信息和封面图像信息、S2011中的目标损失值、S105中的文本倾向性特征提取结果、S107中的视觉倾向性特征提取结果、S109中的倾向性识别结果中的至少在一个可以存储于区块链系统中。参见图9，图9所示是本发明实施例提供的区块链系统的一个可选的结构示意图，多个节点之间形成组成的点对点（Peer To Peer，P2P）网络，P2P 协议是一个运行在传输控制协议（Transmission Control Protocol ，TCP）协议之上的应用层协议。在区块链系统中，任何机器如服务器、终端都可以加入而成为节点，节点包括硬件层、中间层、操作系统层和应用层。

参见图9示出的区块链系统中各节点的功能，涉及的功能包括：

1）路由，节点具有的基本功能，用于支持节点之间的通信。

节点除具有路由功能外，还可以具有以下功能：

2）应用，用于部署在区块链中，根据实际业务需求而实现特定业务，记录实现功能相关的数据形成记录数据，在记录数据中携带数字签名以表示任务数据的来源，将记录数据发送到区块链系统中的其他节点，供其他节点在验证记录数据来源以及完整性成功时，将记录数据添加到临时区块中。

3）区块链，包括一系列按照产生的先后时间顺序相互接续的区块（Block），新区块一旦加入到区块链中就不会再被移除，区块中记录了区块链系统中节点提交的记录数据。

参见图10，图10为本发明实施例提供的区块结构（Block Structure）一个可选的示意图，每个区块中包括本区块存储交易记录的哈希值（本区块的哈希值）、以及前一区块的哈希值，各区块通过哈希值连接形成区块链。另外，区块中还可以包括有区块生成时的时间戳等信息。区块链（Blockchain），本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块。

本发明实施例提供的一种用户倾向性识别方法，具有如下有益效果：

1）本发明实施例，利用多媒体信息层次多任务学习的方式进行用户视频倾向性识别，从视频标题和视频封面这两个信息层次中挖掘用户倾向性信息，增加了获取用户倾向性信息的途径，同时在每一个层次信息内容中，将整个倾向性识别过程划分成用户视频倾向性识别主任务和视频类型识别辅任务，两个学习任务识别过程中进行信息互补，并通过辅任务学习将视频数据自身的属性特征引入，指导模型在处理不同类型的多媒体时能够更有针对性关注于此类型的多媒体自身属性信息，从而有利于模型更精确地进行多媒体倾向性识别。

2）本发明实施例对样本标题信息进行Bi-LSTM网络前后的类型识别过程，Bi-LSTM网络前的类型识别可以表示该标题信息的全局信息，通过该全局信息可以大致判断出该视频大概是什么类型，但是其并不能够表示该标题信息的上下文信息，因此，需要通过Bi-LSTM捕获该样本标题信息的上下文之间的关系，这样就可以捕获到该样本标题信息的更全的信息，从而提高标题信息层次的多媒体类型识别的准确率。

如图11所示，本发明实施例还提供了一种用户倾向性识别装置，该装置可以至少包括：

第一获取模块401，可以用于获取待识别多媒体数据。

第二获取模块403，可以用于获取待识别多媒体数据的标题信息和封面图像信息。

文本特征提取模块405，可以用于基于目标用户对应的多媒体倾向性识别模型中的文本特征提取层，对标题信息进行特征提取，得到文本倾向性特征提取结果。

图像特征提取模块407，可以用于基于多媒体倾向性识别模型中的图像特征提取层对封面图像信息进行特征提取，得到视觉倾向性特征提取结果。

识别模块409，可以用于基于多媒体倾向性识别模型中的第一全连接层，对文本倾向性特征提取结果和视觉倾向性特征提取结果进行用户倾向性识别，得到目标用户对待识别多媒体数据的倾向性识别结果。

本发明实施例中，该装置还可以包括：拆分模块，可以用于将标题信息拆分为多个目标词。

词向量分析模块，可以用于对多个目标词分别进行词向量分析，得到标题信息对应的多个目标词向量。

相应地，该文本特征提取模块405，可以用于基于文本特征提取层，对标题信息对应的多个目标词向量进行特征提取，得到文本倾向性特征提取结果。

具体地，图像特征提取模块407可以包括：

语义信息提取单元，可以用于基于图像特征提取层，对封面图像信息进行语义信息提取，得到语义信息提取结果。

视觉倾向性特征提取结果确定单元，可以用于基于语义信息提取结果，确定视觉倾向性特征提取结果。

具体地，该装置还可以包括：

第一多媒体类型识别结果获取模块，可以用于基于多媒体倾向性识别模型中的第二全连接层，对多个目标词向量进行多媒体类型识别，得到第一多媒体类型识别结果。

第二多媒体类型识别结果获取模块，可以用于基于多媒体倾向性识别模型中的第三全连接层，对文本倾向性特征提取结果进行多媒体类型识别，得到第二多媒体类型识别结果。

第三多媒体类型识别结果获取模块，可以用于基于多媒体倾向性识别模型中的第四全连接层，对视觉倾向性特征提取结果进行多媒体类型识别，得到第三多媒体类型识别结果。

多媒体类型确定模块，可以用于基于多媒体倾向性识别模型对第一多媒体类型识别结果、第二多媒体类型识别结果和第三多媒体类型识别结果进行处理，得到待识别多媒体数据的多媒体类型。

具体地，该装置还可以包括多媒体倾向性识别模型的获取模块，该多媒体倾向性识别模型的获取模块可以包括：

样本多媒体数据获取单元，可以用于获取目标用户对应的样本多媒体数据，样本多媒体数据标注有多媒体类型标签和多媒体倾向性标签。

样本信息获取单元，可以用于获取样本多媒体数据的样本标题信息和样本封面图像信息。

目标多媒体倾向性预测结果获取单元，可以用于基于样本标题信息和样本封面图像信息对神经网络进行多媒体倾向性的识别训练，得到目标多媒体倾向性预测结果。

目标多媒体类型预测结果获取单元，可以用于基于样本标题信息和样本封面图像信息对神经网络进行多媒体类型的识别训练，得到目标多媒体类型预测结果。

目标类型损失值确定单元，可以用于根据目标多媒体倾向性预测结果与多媒体倾向性标签确定目标倾向性损失值，根据目标多媒体类型预测结果与多媒体类型标签确定目标类型损失值。

目标损失值确定单元，可以用于将目标倾向性损失值与目标类型损失值的和，作为目标损失值。

调整单元，可以用于在目标损失值不满足预设条件时，调整神经网络的参数，重复上述识别训练的步骤。

多媒体倾向性识别模型确定单元，可以用于在目标损失值满足预设条件时，将当前的神经网络作为多媒体倾向性识别模型，多媒体倾向性识别模型包括文本特征提取层、图像特征提取层、第一全连接层、第二全连接层、第三全连接层和第四全连接层。

具体地，该目标多媒体类型预测结果获取单元可以进一步包括：

第一多媒体类型预测结果获取子单元，可以用于基于样本标题信息对神经网络进行多媒体类型的识别训练，得到第一多媒体类型预测结果。

第二多媒体类型预测结果获取子单元，可以用于基于样本封面图像信息对神经网络进行多媒体类型的识别训练，得到第二多媒体类型预测结果。

类型预测结果确定子单元，可以用于将第一多媒体类型预测结果和第二多媒体类型预测结果作为目标多媒体类型预测结果。

具体地，该目标类型损失值确定单元可以进一步包括：

第一类型损失值确定子单元，可以用于据第一多媒体类型预测结果与多媒体类型标签确定第一类型损失值。

第二类型损失值确定子单元，可以用于根据第二多媒体类型预测结果与多媒体类型标签确定第二类型损失值。

类型损失值确定子单元，可以用于将第一类型损失值与第二类型损失值的和，作为目标类型损失值。

需要说明的是，本发明实施例提供的装置实施例与上述方法实施例基于相同的发明构思。

本发明实施例还提供了一种用户倾向性识别设备，该设备包括处理器和存储器，存储器中存储有至少一条指令或至少一段程序，至少一条指令或至少一段程序由处理器加载并执行以实现如上述方法实施例提供的用户倾向性识别方法。

本发明的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质可设置于终端之中以保存用于实现方法实施例中一种用户倾向性识别方法相关的至少一条指令或至少一段程序，至少一条指令或至少一段程序由处理器加载并执行以实现如上述方法实施例提供的用户倾向性识别方法。

可选地，在本说明书实施例中，存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书实施例存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用程序以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。

本发明实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方法实施例提供的用户倾向性识别方法。

本发明实施例所提供的用户倾向性识别方法实施例可以在终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例，图12是本发明实施例提供的一种用户倾向性识别方法的服务器的硬件结构框图。如图12所示，该服务器500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器（Central ProcessingUnits，CPU）510（中央处理器510可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置）、用于存储数据的存储器530，一个或一个以上存储应用程序523或数据522的存储介质520（例如一个或一个以上海量存储设备）。其中，存储器530和存储介质520可以是短暂存储或持久存储。存储在存储介质520的程序可以包括一个或一个以上模块，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器510可以设置为与存储介质520通信，在服务器500上执行存储介质520中的一系列指令操作。服务器500还可以包括一个或一个以上电源560，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口540，和/或，一个或一个以上操作系统521，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等等。

输入输出接口540可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器500的通信供应商提供的无线网络。在一个实例中，输入输出接口540包括一个网络适配器（Network Interface Controller，NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，输入输出接口540可以为射频（RadioFrequency，RF）模块，其用于通过无线方式与互联网进行通讯。

本领域普通技术人员可以理解，图12所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，服务器500还可包括比图12中所示更多或者更少的组件，或者具有与图12所示不同的配置。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和服务器实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用户倾向性识别方法，其特征在于，所述方法包括：

获取待识别多媒体数据；

获取所述待识别多媒体数据的标题信息和封面图像信息；

2.根据权利要求1所述的方法，其特征在于，在所述基于目标用户对应的多媒体倾向性识别模型中的文本特征提取层，对所述标题信息进行特征提取，得到文本倾向性特征提取结果之前，所述方法包括：

将所述标题信息拆分为多个目标词；

对所述多个目标词分别进行词向量分析，得到所述标题信息对应的多个目标词向量；

相应地，所述基于目标用户对应的多媒体倾向性识别模型中的文本特征提取层，对所述标题信息进行特征提取，得到文本倾向性特征提取结果，包括：

基于所述文本特征提取层，对所述标题信息对应的多个目标词向量进行特征提取，得到所述文本倾向性特征提取结果。

3.根据权利要求1所述的方法，其特征在于，所述基于所述多媒体倾向性识别模型中的图像特征提取层对所述封面图像信息进行特征提取，得到视觉倾向性特征提取结果，包括：

基于所述图像特征提取层，对所述封面图像信息进行语义信息提取，得到语义信息提取结果；

基于所述语义信息提取结果，确定所述视觉倾向性特征提取结果。

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

基于所述多媒体倾向性识别模型中的第二全连接层，对所述多个目标词向量进行多媒体类型识别，得到第一多媒体类型识别结果；

基于所述多媒体倾向性识别模型中的第三全连接层，对所述文本倾向性特征提取结果进行多媒体类型识别，得到第二多媒体类型识别结果；

基于所述多媒体倾向性识别模型中的第四全连接层，对所述视觉倾向性特征提取结果进行多媒体类型识别，得到第三多媒体类型识别结果；

基于所述多媒体倾向性识别模型对所述第一多媒体类型识别结果、所述第二多媒体类型识别结果和所述第三多媒体类型识别结果进行处理，得到所述待识别多媒体数据的多媒体类型。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括获取所述多媒体倾向性识别模型的步骤，所述获取所述多媒体倾向性识别模型包括：

获取所述目标用户对应的样本多媒体数据，所述样本多媒体数据标注有多媒体类型标签和多媒体倾向性标签；

获取所述样本多媒体数据的样本标题信息和样本封面图像信息；

基于所述样本标题信息和所述样本封面图像信息对神经网络进行多媒体倾向性的识别训练，得到目标多媒体倾向性预测结果；

基于所述样本标题信息和所述样本封面图像信息对所述神经网络进行多媒体类型的识别训练，得到目标多媒体类型预测结果；

根据所述目标多媒体倾向性预测结果与所述多媒体倾向性标签确定目标倾向性损失值，根据所述目标多媒体类型预测结果与所述多媒体类型标签确定目标类型损失值；

将所述目标倾向性损失值与所述目标类型损失值的和，作为目标损失值；

在所述目标损失值不满足预设条件时，调整所述神经网络的参数，重复上述识别训练的步骤；

在所述目标损失值满足所述预设条件时，将当前的神经网络作为所述多媒体倾向性识别模型，所述多媒体倾向性识别模型包括所述文本特征提取层、所述图像特征提取层、所述第一全连接层、所述第二全连接层、所述第三全连接层和所述第四全连接层。

6.根据权利要求5所述的方法，其特征在于，所述基于所述样本标题信息和所述样本封面图像信息对所述神经网络进行多媒体类型的识别训练，得到目标多媒体类型预测结果，包括：

基于所述样本标题信息对所述神经网络进行多媒体类型的识别训练，得到第一多媒体类型预测结果；

基于所述样本封面图像信息对所述神经网络进行多媒体类型的识别训练，得到第二多媒体类型预测结果；

将所述第一多媒体类型预测结果和所述第二多媒体类型预测结果作为所述目标多媒体类型预测结果。

7.根据权利要求6所述的方法，其特征在于，所述根据所述目标多媒体类型预测结果与所述多媒体类型标签确定目标类型损失值，包括：

根据所述第一多媒体类型预测结果与所述多媒体类型标签确定第一类型损失值；

根据所述第二多媒体类型预测结果与所述多媒体类型标签确定第二类型损失值；

将所述第一类型损失值与所述第二类型损失值的和，作为所述目标类型损失值。

8.一种用户倾向性识别装置，其特征在于，所述装置包括：

第一获取模块，用于获取待识别多媒体数据；

9.一种用户倾向性识别设备，其特征在于，所述设备包括：处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1至7任一所述的用户倾向性识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1至7任一所述的用户倾向性识别方法。