CN112579884B - 一种用户偏好估计方法及装置 - Google Patents

一种用户偏好估计方法及装置 Download PDF

Info

Publication number
CN112579884B
CN112579884B CN202011356494.9A CN202011356494A CN112579884B CN 112579884 B CN112579884 B CN 112579884B CN 202011356494 A CN202011356494 A CN 202011356494A CN 112579884 B CN112579884 B CN 112579884B
Authority
CN
China
Prior art keywords
user preference
submodel
content information
classification
feature extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011356494.9A
Other languages
English (en)
Other versions
CN112579884A (zh
Inventor
梁涛
张晗
马连洋
衡阵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011356494.9A priority Critical patent/CN112579884B/zh
Publication of CN112579884A publication Critical patent/CN112579884A/zh
Application granted granted Critical
Publication of CN112579884B publication Critical patent/CN112579884B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及计算机领域,特别涉及人工智能技术领域,公开了一种用户偏好估计方法及装置,用以提高用户偏好预测准确率,该方法包括:获得待预测的多媒体内容的内容信息;将内容信息输入特征提取子模型,得到内容信息归属类别对应的目标内容特征;将目标内容特征输入偏好估计子模型,获得内容信息的目标用户偏好预测结果,偏好估计子模型和特征提取子模型中的至少一个子模型,是基于分类模型对样本内容信息的预测分类结果和实际归属类别之间的损失、以及基于所述用户偏好模型对样本内容信息的用户偏好预测结果和实际预测结果之间的损失进行参数调整获得的。模型在进行用户偏好估计时,引入多媒体内容归属类别对用户偏好的影响,提高了准确率。

Description

一种用户偏好估计方法及装置
技术领域
本申请涉及计算机领域,特别涉及人工智能技术领域,公开了一种用户偏好估计方法及装置。
背景技术
随着大数据时代的到来,互联网上存在着海量的多媒体内容(如视频、音乐、图像等),使用用户偏好模型对海量的多媒体内容进行用户偏好预测,将预测结果为用户感兴趣的多媒体内容推送给用户。但传统的用户偏好模型只能从多媒体内容的文本信息(如标题、字幕等)或视觉信息(如视频帧等)中提取用户偏好特征,再基于用户偏好特征进行预测用户对多媒体内容是否感兴趣。
可是同一用户对不同类型的多媒体内容的偏好是不同的,不同用户对同一类型的多媒体内容的偏好也是不同的,仅采用上述识别方法,是不能很好地预测出用户对某一类多媒体内容的偏好。
发明内容
本申请实施例提供一种用户偏好估计方法及装置,用以提高用户偏好预测准确率。
本申请实施例提供的一种用户偏好估计方法,基于用户偏好模型对用户偏好进行估计,所述用户偏好模型包括特征提取子模型和偏好估计子模型,所述方法包括:
获得待预测的多媒体内容的内容信息;
将所述内容信息输入所述特征提取子模型,得到所述内容信息归属类别对应的目标内容特征;
将所述目标内容特征输入所述偏好估计子模型,获得所述内容信息的目标用户偏好预测结果,所述偏好估计子模型和所述特征提取子模型之中的至少一个子模型,是基于分类模型对样本内容信息的预测分类结果和实际归属类别之间的损失、以及基于所述用户偏好模型对所述样本内容信息的用户偏好预测结果和实际预测结果之间的损失进行参数调整获得的。
本申请实施例提供的一种用户偏好估计装置,基于用户偏好模型对用户偏好进行估计,装置包括:
获取单元,用于获得待预测的多媒体内容的内容信息;
特征提取单元,用于采用特征提取子模块,根据所述内容信息得到所述内容信息归属类别对应的目标内容特征;
偏好估计单元,用于采用偏好估计子模型,根据所述目标内容特征获得所述内容信息的目标用户偏好预测结果,所述偏好估计子模型和所述特征提取子模型之中的至少一个子模型,是基于分类模型对样本内容信息的预测分类结果和实际归属类别之间的损失、以及基于所述用户偏好模型对所述样本内容信息的用户偏好预测结果和实际预测结果之间的损失进行参数调整获得的。
可选的,所述训练单元用于:
利用所述总损失,确定所述特征提取子模型中权重矩阵的第一梯度,并按照所述第一梯度的方向对所述特征提取子模型的参数进行调整;或者
利用所述总损失,确定所述偏好估计子模型的第二梯度,并按照所述第二梯度的方向对所述偏好估计子模型的参数进行调整;或者
利用所述总损失,确定所述特征提取子模型中权重矩阵的第一梯度和所述用户偏好模型的第二梯度,按照所述第一梯度的方向对所述特征提取子模型的参数进行调整,并按照所述第二梯度的方向所述偏好估计子模型的参数进行调整。
本申请实施例提供的一种电子设备,包括处理器和存储器,其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行上述任意一种用户偏好估计方法的步骤。
本申请实施例提供一种计算机可读存储介质,其包括程序代码,当所述程序代码在电子设备上运行时,所述程序代码用于使所述电子设备执行上述任意一种用户偏好估计方法的步骤。
本申请有益效果如下:
本申请实施例提供了一种用户偏好估计方法及装置,基于用户偏好模型对用户偏好进行估计,用户偏好模型包括特征提取子模型和偏好估计子模型,该方法包括:获得待预测的多媒体内容的内容信息;将内容信息输入特征提取子模型,得到内容信息归属类别对应的目标内容特征;将目标内容特征输入偏好估计子模型,获得内容信息的目标用户偏好预测结果,偏好估计子模型和特征提取子模型中的至少一个子模型,是基于分类模型对样本内容信息的预测分类结果和实际归属类别之间的损失、以及基于所述用户偏好模型对样本内容信息的用户偏好预测结果和实际预测结果之间的损失进行参数调整获得的。在训练过程中,引入多媒体内容归属类别这一属性,以使用户偏好模型同时学习到类别和用户偏好两种属性;这样,在使用过程中,用户偏好模型才可以从待预测的多媒体内容的内容信息中提取出归属类别对应的特征,更好地预测出用户对不同类别多媒体内容的偏好程度,提高用户偏好预测准确率。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例中应用场景的一个可选的示意图;
图2为本申请实施例中训练用户偏好模型的流程示意图;
图3为本申请实施例中的一种视频对应的图像序列的示意图;
图4a为本申请实施例中的Bi_LSTM的架构示意图;
图4b为本申请实施例中的传统RNN隐藏层的架构示意图;
图4c为本申请实施例中的Bi_LSTM隐藏层的架构示意图;
图5为本申请实施例中的一种空洞卷积方法的示意图;
图6a为具体实施例一的用户偏好模型的架构示意图;
图6b为具体实施例一的训练用户偏好模型的流程示意图;
图7a为具体实施例二的用户偏好模型的架构示意图;
图7b为具体实施例二的训练用户偏好模型的流程示意图;
图8为本申请实施例中的用户偏好估计的流程示意图;
图9为本申请实施例中的一种用户偏好估计装置的架构示意图;
图10为本申请实施例中的一种电子设备的一个硬件组成结构示意图;
图11为本申请实施例中的一个计算装置的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请技术方案的一部分实施例,而不是全部的实施例。基于本申请文件中记载的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请技术方案保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
本发明实施例中术语“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
以下对本申请实施例中的部分用语进行解释说明,以便于本领域技术人员理解。
1、人工智能(Artificial Intelligence, AI):
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术;人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。随着人工智能技术研究和进步,人工智能在多个领域展开研究和应用,例如常见的智能家居、智能客服、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、机器人、智能医疗等,相信随着技术的发展,人工智能将在更多的领域得到应用,并发挥越来越重要的价值。
2、自然语言处理(Nature Language processing, NLP):
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
3、机器学习(Machine Learning, ML):
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
4、多任务学习:
多任务学习是利用在相似任务上训练的模型作为模型初始点在原本任务上进行再训练的方法,通过共享模型学到的知识,迁移学习可以加快模型的学习效率并提高模型的泛化性。
5、双向长短期记忆网络(Bidirection Long Short-Term Memory,Bi_LSTM):
Bi_LSTM是一种时间递归神经网络,主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题而设计的网络。
6、快速梯度下降法(Fast Gradient Method,FGM):
快速梯度下降法通过向梯度上升的方向调整用户偏好模型的参数,不断优化用户偏好模型,以使该模型输出的用户偏好预测结果不断逼近用户偏好实际结果。
下面对本申请实施例的设计思想进行简要介绍。
随着大数据时代的到来,互联网上存在着海量的视频、音乐、图像、新闻资讯等多媒体内容,通常是使用推荐系统对海量多媒体内容进行过滤、筛选,将用户可能感兴趣的多媒体内容推荐给使用者,而在整个推送过程中,最重要的是对用户偏好的预测。
通常是使用多媒体内容的文本信息(如标题、字幕等)、或者视觉信息(如视频封面、视频帧等)训练用户偏好模型的,这样在使用已训练的用户偏好模型时,该模型只能从文本信息或视觉信息中提取用户偏好特征,再基于用户偏好特征进行预测,获得多媒体内容的用户偏好预测结果。但是同一用户对不同类型的多媒体内容的偏好是不同的,不同用户对同一类型的多媒体内容的偏好也是不同的,但采用上述识别方法,不能很好地预测出用户对某一类多媒体内容的偏好,降低了用户偏好模型的预测准确率。
有鉴于此,本申请实施例提供了一种新的用户偏好估计方法。基于用户偏好模型对用户偏好进行估计,用户偏好模型包括特征提取子模型和偏好估计子模型,该方法包括:获得待预测的多媒体内容的内容信息;将内容信息输入特征提取子模型,得到内容信息归属类别对应的目标内容特征;将目标内容特征输入偏好估计子模型,获得内容信息的目标用户偏好预测结果,偏好估计子模型和特征提取子模型中的至少一个子模型,是基于分类模型对样本内容信息的预测分类结果和实际归属类别之间的损失、以及基于所述用户偏好模型对样本内容信息的用户偏好预测结果和实际预测结果之间的损失进行参数调整获得的。在训练过程中,引入多媒体内容归属类别这一属性,以使用户偏好模型同时学习到类别和用户偏好两种属性;这样,在使用过程中,用户偏好模型才可以从待预测的多媒体内容的内容信息中提取出归属类别对应的特征,更好地预测出用户对不同类别多媒体内容的偏好程度,提高用户偏好预测准确率。
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
如图1所示,其为本申请实施例的应用场景示意图。该应用场景图中包括两个终端设备110和一个服务器130,可通过终端设备110登录应用操作界面120。终端设备110与服务器130之间可以通过通信网络进行通信。
在一种可选的实施方式中,通信网络是有线网络或无线网络。终端设备110以及服务器130可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
在本申请实施例中,终端设备110为用户使用的电子设备,该电子设备可以是个人计算机、手机、平板电脑、笔记本、电子书阅读器、智能家居等具有一定计算能力并且运行有即时通讯类软件及网站或者社交类软件及网站的计算机设备。各终端设备110通过无线网络与服务器130,服务器130可以是独立的物理服务器130,也可以是多个物理服务器130构成的服务器130集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器130。
其中,本申请实施例中的用户偏好模型可以部署在终端设备上,也可以部署在服务器上。由于用户偏好模型只能由后端的服务器完成训练操作,因此,当用户偏好模型部署在终端设备上时,终端设备接收服务器发送的已训练的用户偏好模型,卸载本地上原先安装的用户偏好模型,把已训练的用户偏好模型安装在本地上,这样当终端设备获取到待预测的多媒体内容的内容信息时,可以将内容信息输入用户偏好模型,获得内容信息的用户偏好预测结果。当用户偏好模型部署在服务器上时,服务器从训练数据集中获取多媒体内容的训练样本,该训练样本包括样本内容信息、训练样本的用户偏好实际结果和实际分类结果;将样本内容信息输入特征提取子模型得到样本内容信息的内容特征,并将内容特征输入偏好估计子模型获得样本内容信息的用户偏好预测结果;将内容特征输入分类模型,确定样本内容信息的预测分类结果;再基于用户偏好预测结果与用户偏好实际结果之间的第一损失,以及预测分类结果与实际分类结果之间的第二损失,确定总损失;基于总损失对特征提取子模型和偏好估计子模型中至少一个模型的参数进行调整,直至总损失满足收敛条件,得到已训练的用户偏好模型。在完成对用户偏好模型的训练后,服务器终端设备可以接收终端设备获取的待预测的多媒体内容的内容信息,将内容信息输入用户偏好模型,获得内容信息的用户偏好预测结果,之后服务器再将用户偏好预测结果返回给终端设备。
为了便于理解,本申请实施例先介绍用户偏好模型的训练过程。参阅图2所示,是本申请实施例提供的训练用户偏好模型的实施流程图,该方法的具体实施流程如下:
S201:从训练数据集中获取多媒体内容的训练样本,该训练样本包括样本内容信息、训练样本的用户偏好实际结果和实际分类结果。
其中,多媒体内容指所有数字传输的资源,包括图片、文字、声音、视频、动画,还有衍生的一些表现方式,比如flash(固态存储器与动画编辑器)、vrml(Virtual RealityModeling Language,虚拟现实建模语言)、交互媒体、游戏、网页等都属于多媒体内容。而在本申请实施例中,多媒体内容可以是指文字类多媒体内容,例如新闻资讯、公众号文章等;多媒体内容也可以是指包含图像内容的多媒体内容,例如视频、动画、动态图片或是照片等。
其中,动态图片是指当一组特定的静态图像以指定的频率切换而产生某种动态效果的图片。网络上常见的表现形式是Gif(Graphics Interchange Format,图像互换格式)动画,它是通过对多图层的图片,按时间进行不同的切换,从而达到动画的效果。在下文中也可简称为动图。
在本申请实施例中,若多媒体内容为文字类多媒体内容时,对应的样本内容信息为多媒体内容的文本信息和图像序列之一的任意组合。例如,当多媒体内容为新闻资讯时,该条新闻资讯的标题、文章内容构成了文本信息,而该条新闻资讯中插入的图片、动图、视频构成了图片序列。
考虑到视频一般都具有一定的时长,会包含连续多帧图像,因而图像序列可以是一组,也可以是多组,具体可根据视频段的时间长短来确定。每一组图像序列是从视频的不同视频段中获得,其中,图像序列中图像的数量是一定的,具体可依据实际情况进行限定。此外若一个动画或者是动态图片等也包含不少于N帧图像时,也可看作是视频。具体的,对于单张图片而言,其所包含的图像数量N=1。对于动态图片而言,一般情况下包含的图像的数量小于一组图像序列中应该包含的图像的数量,例如在一组图像序列包含30张图像,而动态图片中包含的静态图像有5张,此时则可通过复制、插帧等方式,构建一组包含30张图像的图像序列。
此外,需要说明的是,若在复制过程中出现了图像信息损耗等情况时,还可进一步对出现图像信息损耗的复制图像进行图像恢复,或者是舍弃出现问题的复制图像,重新复制等,以尽量保证图像信息的完整性,减小误差带来的影响。
本申请实施例中是以一组图像序列包含30张图像为例进行举例说明的。例如,一个时长20秒,帧率为30帧每秒的视频,可将该视频拆分成20组图像序列,每组图像序列包括一秒钟视频对应的30帧图像,即30张序列图片。
此外,除了上述所列举的以秒为时间周期划分图像序列时,将一秒钟视频包含的30帧图像划分为一组图像序列的方式之外,也可采用抽帧等方式,即每隔几帧图像进行一次抽帧,例如一秒钟30帧图像中,每5帧中抽取一帧,则一秒钟视频段可抽取出6帧图像。5秒的视频段一共可抽取30帧图像,组成一组图像序列,则20秒的视频对应的图像序列一共有4组。
参阅图3所示,其为本申请实施例中的一种视频对应的图像序列的示意图。该图中示出的是一个时长为5秒的视频,以1秒为时间间隔,可将该视频划分为5个视频段,一个视频段时长为1秒,这样该视频一共对应有5组图像序列,如图3所示的图像序列1、图像序列2、图像序列3、图像序列4和图像序列5。其中,每组图像序列包含30张图像,即每一秒钟视频段中的30帧连续的图像。
需要说明的是,上述实施例中所列举的对于视频而言构建图像序列的方式只是举例说明,实际上任何一种从多媒体内容的至少一个视频段中获得图像序列的方式都适用于本申请实施例,在此不做具体限定。
在本申请实施例中,若多媒体内容为包含图像内容的多媒体内容时,对应的样本内容信息可以为多媒体内容的文本信息和图像序列之一的任意组合。例如,多媒体内容为视频时,视频的标题、字幕构成了文本信息,而视频封面、视频帧构成了图像序列。
训练样本的用户偏好实际结果表示用户对多媒体内容的真实偏好,例如,用户喜欢看纪实类电影,不喜欢看搞笑综艺。训练样本的实际分类结果表示多媒体内容归属的类别,是一种多媒体内容自身的属性,例如,这个视频属于电视剧片段节选。在本申请实施例中,用户偏好实际结果和实际分类结果都是作为训练数据,对应的概率通常为1,即在训练过程中将用户偏好实际结果和实际分类结果都看做是正样本。
S202:将样本内容信息输入特征提取子模型得到样本内容信息的内容特征,并将内容特征输入偏好估计子模型获得样本内容信息的用户偏好预测结果。
在步骤201中提及了样本内容信息可为文本信息和图像序列之一的任意组合,因此,针对不同的样本内容信息其提取方式也会有所不同。
(1)当样本内容信息为多媒体内容的文本信息,特征提取子模型包括第一特征提取网络和第二特征提取网络。
首先,基于第一特征提取网络对文本信息进行分词处理,得到对应的词列表,并对词列表进行向量化处理,确定每一个词对应的词向量,得到词向量矩阵。
具体地,可对文本进行清洗,利用分词工具对文本分词,再利用词袋法、TF-IDF等方法将文本表示成向量形式再将其输入分类器如SVM、决策树等以得到最终结果。
其次,基于第二特征提取网络对词向量矩阵进行语义挖掘处理,得到内容特征。
RNN是一种循环神经网络,广泛应用于计算机视觉技术、自然语言处理技术等方向,这种网络的本质特征是在处理单元之间既有内部的反馈连接、又有前馈连接,相比于前馈神经网络来说,RNN在计算过程中具有更强的动态行为和计算能力。正是由于RNN的这一特性,导致RNN很容易出现长期依赖(Long-Term Dependencies)问题——即当前的系统状态不仅受到前一时刻的系统状态影响,还可能受到很长时间之前的系统状态影响。例如,让RNN从“这块冰糖味道真
Figure DEST_PATH_IMAGE002
”这句话里预测下一个词,是很容易得出“甜”这个词的;如果让RNN从“他吃了一口菜,被辣得流出了眼泪,满脸通红。旁边的人赶紧给他倒了一杯凉水,他咕咚咕咚地喝了两口,才逐渐恢复正常。他气愤地说道:‘这个菜味道真
Figure DEST_PATH_IMAGE001
’”这段话里预测下一个词,RNN是很难输出“辣”这个词的。
为了克服上述提及的长期依赖问题,本申请实施例的第二特征网络采用Bi_LSTM对词向量矩阵进行语义挖掘处理。参阅图4a所示,Bi_LSTM也是一种特殊的循环神经网络,是由两个传统RNN组成的,一个正向RNN是利用过去的信息,另一个逆向RNN是利用未来的信息,这样在时刻t既可以使用t-1时刻的信息,还可以利用t+1时刻的信息,相对于单向LSTM来说,Bi_LSTM同时利用过去时刻和未来时刻的信息,输出的预测结果会更加准确。如图4a所示的传统RNN的每个神经元中只有一个tanh层;如图4b所示的Bi_LSTM的每个神经元包括遗忘门、输入门、输出门以及tanh层,利用门结构消除或者增加信息到神经元的能力,使得整个Bi_LSTM能够记住长期的信息。
参阅图4b所示的结构示意图,对Bi_LSTM的正向RNN上任意一个神经元的使用进行介绍。
首先,将上一个神经元输出的语义向量
Figure DEST_PATH_IMAGE003
和当前神经元输入的词向量
Figure DEST_PATH_IMAGE004
作为 输入,通过遗忘门得到上一个神经元的记忆细胞状态
Figure DEST_PATH_IMAGE005
被遗忘的概率
Figure DEST_PATH_IMAGE006
Figure 958752DEST_PATH_IMAGE006
的计算方式 如公式(1)所示。其中,1表示完全保留,而0表示完全舍弃。
Figure DEST_PATH_IMAGE007
公式(1);
其次,将上一个神经元输出的语义向量
Figure 610313DEST_PATH_IMAGE003
和当前神经元输入的词向量
Figure 124471DEST_PATH_IMAGE004
作为 输入,通过输入门得到当前神经元的记忆细胞状态
Figure DEST_PATH_IMAGE008
被保留的概率
Figure DEST_PATH_IMAGE009
,并使用
Figure 113156DEST_PATH_IMAGE009
计算当前 神经元被保留下来的记忆细胞状态
Figure 661949DEST_PATH_IMAGE008
。具体地,
Figure 218832DEST_PATH_IMAGE009
的计算方式如公式(2)所示,
Figure 846385DEST_PATH_IMAGE008
的计算公 式如公式(3)所示。
利用
Figure 45285DEST_PATH_IMAGE005
Figure 448584DEST_PATH_IMAGE008
对当前神经元的记忆细胞状态进行更新,更新后的记忆细胞状态 为
Figure DEST_PATH_IMAGE010
Figure 910790DEST_PATH_IMAGE010
的计算公式如公式(4)所示。
Figure DEST_PATH_IMAGE011
公式(2);
Figure DEST_PATH_IMAGE012
公式(3);
Figure DEST_PATH_IMAGE013
公式(4);
最后,将上一个神经元输出的语义向量
Figure 993015DEST_PATH_IMAGE003
和当前神经元输入的词向量
Figure 464448DEST_PATH_IMAGE004
作为 输入,通过输出门得到
Figure 987833DEST_PATH_IMAGE010
被保留下来的记忆细胞状态的概率
Figure DEST_PATH_IMAGE014
Figure 11153DEST_PATH_IMAGE014
的计算公式如公式(5)所 示
以及,将
Figure 252778DEST_PATH_IMAGE010
通过激活函数tanh处理后与
Figure 262322DEST_PATH_IMAGE014
相乘,得到当前神经元输出的语义向量
Figure DEST_PATH_IMAGE015
Figure 499269DEST_PATH_IMAGE015
的计算方式如公式(6)所示。
Figure DEST_PATH_IMAGE016
公式(5);
Figure DEST_PATH_IMAGE017
公式(6);
本申请实施例的偏好估计子模型是由全连接层和Softmax层连接组成,其中,全连接层在整个卷积神经网络中起到“分类器”的作用,如果说卷积层、池化层和激活函数层等操作是将原始数据映射到隐层特征空间的话,全连接层则起到将学到的“分布式特征表示”映射到样本标记空间的作用;Softmax层的作用是将全连接层输出的内容特征归属于不同用户偏好的概率映射到(0,1)的区间内。
(2)当样本内容信息为多媒体内容的图像序列,特征提取子模型包括残差学习子模型和第三特征提取网络。
首先,利用残差学习子模型对图像序列中的各个图像进行特征提取,确定每一张图像对应的图像向量,得到图像向量矩阵。
参阅图5所示,残差学习子模型是一种结合ResNet(Deep residual network,深度残差网络)和DC(Dilated Convolution,空洞卷积)的网络结构,既能减少模型的训练量级,又能保证图像通过残差学习被充分理解。
其次,基于第三特征提取网络对图像向量矩阵进行图像内容分析处理,得到内容特征。
同样地,为了解决RNN的长期依赖问题,第三特征提取网络采用了另一个Bi_LSTM对图像向量矩阵进行图像内容分析处理,而Bi_LSTM的处理过程可以参照上述对词向量矩阵的处理描述,在此不再赘述了。
(3)当样本内容信息既包括多媒体内容的文本信息,又包括多媒体内容的图像序列时,将文本信息输入到第一特征提取网络中,转换得到对应的词向量矩阵,并将词向量矩阵输入到第二特征提取网络中进行语义挖掘处理,得到内容特征;同时将图像序列输入到残差学习子模块中,获得对应的图像向量矩阵,并将图像向量矩阵输入到第三特征提取网络中进行图像内容分析处理,得到内容矩阵;将文本信息的内容特征和图像序列的内容特征拼接在一起,生成新的内容矩阵。
S203:将内容特征输入分类模型,确定样本内容信息的预测分类结果。
在步骤201中提及了样本内容信息可为文本信息和图像序列之一的任意组合,因此,针对不同的样本内容信息会使用不同的分类模型进行预测。
(1)当样本内容信息为多媒体内容的文本信息时,本申请实施例中的分类模型包括第一分类模型和第二分类模型。将词向量矩阵输入第一分类模型获得第一预测分类结果,并将内容特征输入第二分类模型获得第二预测分类结果。
第一分类模型是用来识别文本信息中可能影响用户偏好的类别词语,第二分类模型是用来识别文本信息中可能影响用户偏好的类别语句。第一分类模型和第二分类模型的网络架构是一样的,均由全连接层和Softmax层连接组成,其中,全连接层在整个卷积神经网络中起到“分类器”的作用,如果说卷积层、池化层和激活函数层等操作是将原始数据映射到隐层特征空间的话,全连接层则起到将学到的“分布式特征表示”映射到样本标记空间的作用;Softmax层的作用是将全连接层输出的多媒体内容归属于各个类别的概率映射到(0,1)的区间内。
(2)当样本内容信息为多媒体内容的图像序列时,本申请实施例中的分类模型包括第三分类模型和第四分类模型。将图像向量矩阵输入第一分类模型获得第三预测分类结果,并将内容特征输入第四分类模型获得第四预测分类结果。
同样地,第一分类模型是用来识别文本信息中可能影响用户偏好的单张类别图像,第二分类模型是用来识别文本信息中可能影响用户偏好的至少一组类别图像序列。第三分类模型和第四分类模型的网络架构也是由全连接层和Softmax层连接组成,其中,全连接层在整个卷积神经网络中起到“分类器”的作用,如果说卷积层、池化层和激活函数层等操作是将原始数据映射到隐层特征空间的话,全连接层则起到将学到的“分布式特征表示”映射到样本标记空间的作用;Softmax层的作用是将全连接层输出的多媒体内容归属于各个类别的概率映射到(0,1)的区间内。
(3)当样本内容信息既包括多媒体内容的文本信息,又包括多媒体内容的图像序列时,使用第一分类模型和第二分类模型对文本信息进行分类,以及使用第三分类模型和第四分类模型对图像序列进行分类。
S204:基于用户偏好预测结果与用户偏好实际结果之间的第一损失,以及预测分类结果与实际分类结果之间的第二损失,确定总损失。
(1)当样本内容信息为多媒体内容的文本信息时。
使用用户偏好模型的损失函数,确定用户偏好预测结果与用户偏好实际结果之间的第一损失;使用第一分类模型的损失函数确定第一预测分类结果与所述实际分类结果之间的损失,以及,使用第二分类模型的损失函数确定第二预测分类结果与所述实际分类结果之间的损失,将上述两个分类模型的损失总和确定为预测分类结果与实际分类结果之间的第二损失。
(2)当样本内容信息为多媒体内容的图像序列时。
使用用户偏好模型的损失函数,确定用户偏好预测结果与用户偏好实际结果之间的第一损失;使用第三分类模型的损失函数确定第三预测分类结果与所述实际分类结果之间的损失,以及使用第四分类模型的损失函数确定第四预测分类结果与所述实际分类结果之间的损失,将上述两个分类模型的损失总和确定为预测分类结果与实际分类结果之间的第二损失。
(3)当样本内容信息既包括多媒体内容的文本信息,又包括多媒体内容的图像序列时,将两个用户偏好模型的损失总和确定为用户偏好预测结果与用户偏好实际结果之间的第一损失,将上述四个分类模型的损失总和确定为预测分类结果与实际分类结果之间的第二损失。
S205:基于总损失对特征提取子模型和偏好估计子模型中至少一个模型的参数进行调整,直至总损失满足收敛条件,得到已训练的用户偏好模型。
具体地,利用总损失,确定特征提取子模型中权重矩阵的第一梯度,并按照第一梯度的方向对特征提取子模型的参数进行调整;或者
利用总损失,确定偏好估计子模型的第二梯度,并按照第二梯度的方向对偏好估计子模型的参数进行调整;或者
利用总损失,确定特征提取子模型中权重矩阵的第一梯度和用户偏好模型的第二梯度,按照第一梯度的方向对特征提取子模型的参数进行调整,并按照第二梯度的方向偏好估计子模型的参数进行调整,直至总损失收敛至预设的期望值时,判定用户偏好模型训练完毕。
其中,特征提取子模型中只需要对采用Bi_LSTM网络架构的第二特征提取网络和第四特征提取网络的参数进行调整,而偏好估计子模型是需要对全连接层和Softmax层的参数都进行调整的。
为了便于理解,还提供了两个具体实施例描述训练用户偏好模型的方法。
具体实施例一:以视频标题、视频类别为训练样本,对用户偏好模型进行训练。参阅图6a所示,为具体实施例一的用户偏好模型的架构示意图,参阅图6b所示,为具体实施例一的模型训练的流程示意图。
S601:从训练数据集中获取视频的训练样本,该训练样本包括视频标题、视频的用户偏好实际结果和视频的实际分类结果;
S602:利用分词工具对视频标题进行分词处理,得到对应的词列表,并对词列表进行向量化处理,确定每一个词对应的词向量,得到词向量矩阵;
S603:将词向量矩阵输入Bi_LSTM获得视频标题的内容特征;
S604:将内容特征输入偏好估计子模型获得视频的用户偏好预测结果;
S605:将词向量矩阵输入第一分类模型获得第一预测分类结果,将内容特征输入第二分类模型获得第二预测分类结果;
S606:基于用户偏好预测结果与用户偏好实际结果之间的第一损失,以及预测分类结果与实际分类结果之间的第二损失,确定总损失,其中第二损失包括第一预测分类结果与实际分类结果之间的损失,和第二预测分类结果与实际分类结果之间的损失;
S607:基于总损失对Bi_LSTM和偏好估计子模型中至少一个模型的参数进行调整,直至总损失满足收敛条件,得到已训练的用户偏好模型。
具体实施例二:以视频的图像序列、视频类别为训练样本,对用户偏好模型进行训练。参阅图7a所示,为具体实施例二的用户偏好模型的架构示意图,参阅图7b所示,为具体实施例二的模型训练的流程示意图。
S701:从训练数据集中获取视频的训练样本,该训练样本包括视频的图像序列、视频的用户偏好实际结果和视频的实际分类结果;
S702:利用残差学习子模型对图像序列中的各个图像进行特征提取,确定每一张图像对应的图像向量,得到图像向量矩阵;
S703:将图像向量矩阵输入Bi_LSTM获得图像序列的内容特征;
S704:将内容特征输入偏好估计子模型获得视频的用户偏好预测结果;
S705:将图像向量矩阵输入第三分类模型获得第三预测分类结果,将内容特征输入第四分类模型获得第四预测分类结果;
S706:基于用户偏好预测结果与用户偏好实际结果之间的第一损失,以及预测分类结果与实际分类结果之间的第二损失,确定总损失,其中第二损失包括第三预测分类结果与实际分类结果之间的损失,和第四预测分类结果与实际分类结果之间的损失;
S707:基于总损失对Bi_LSTM和偏好估计子模型中至少一个模型的参数进行调整,直至总损失满足收敛条件,得到已训练的用户偏好模型。
经过上述步骤201~205完成了用户偏好模型的训练,再使用已训练的用户偏好模型对用户偏好进行估计。参阅图8所示,为本申请实施例提供的用户偏好估计的流程示意图。
S801:获得待预测的多媒体内容的内容信息;
S802:将内容信息输入特征提取子模型,得到内容信息归属类别对应的目标内容特征;
S803:将目标内容特征输入偏好估计子模型,获得内容信息的目标用户偏好预测结果,偏好估计子模型和特征提取子模型之中的至少一个子模型,是基于分类模型对样本内容信息的预测分类结果和实际归属类别之间的损失、以及基于用户偏好模型对样本内容信息的用户偏好预测结果和实际预测结果之间的损失进行参数调整获得的。
与上述方法实施例基于同一发明构思,本申请实施例还提供了一种用户偏好估计装置的架构示意图,基于用户偏好模型对用户偏好进行估计,参阅图9所示,该装置900包括:
获取单元901,用于获得待预测的多媒体内容的内容信息;
特征提取单元902,用于采用特征提取子模型,根据所述内容信息得到所述内容信息归属类别对应的目标内容特征;
偏好估计单元903,用于采用偏好估计子模型,根据所述目标内容特征获得所述内容信息的目标用户偏好预测结果,所述偏好估计子模型和所述特征提取子模型之中的至少一个子模型,是基于分类模型对样本内容信息的预测分类结果和实际归属类别之间的损失、以及基于所述用户偏好模型对所述样本内容信息的用户偏好预测结果和实际预测结果之间的损失进行参数调整获得的。
可选的,所述装置还包括训练单元904,所述训练单元904用于根据对所述特征提取子模型和所述偏好估计子模型进行训练,训练方法包括:
从训练数据集中获取多媒体内容的训练样本,所述训练样本包括样本内容信息、训练样本的用户偏好实际结果和实际分类结果;
将所述样本内容信息输入所述特征提取子模型得到所述样本内容信息的内容特征,并将所述内容特征输入所述偏好估计子模型获得所述样本内容信息的用户偏好预测结果;
将所述内容特征输入分类模型,确定所述样本内容信息的预测分类结果;
基于所述用户偏好预测结果与所述用户偏好实际结果之间的第一损失,以及所述预测分类结果与所述实际分类结果之间的第二损失,确定总损失;
基于所述总损失对所述特征提取子模型和所述偏好估计子模型中至少一个模型的参数进行调整,直至所述总损失满足收敛条件,得到已训练的用户偏好模型。
可选的,所述样本内容信息为所述多媒体内容的文本信息,所述特征提取子模型包括第一特征提取网络和第二特征提取网络,其中:
所述训练单元904具体用于:
基于所述第一特征提取网络对所述文本信息进行分词处理,得到对应的词列表,并对所述词列表进行向量化处理,确定每一个词对应的词向量,得到词向量矩阵;
基于所述第二特征提取网络对所述词向量矩阵进行语义挖掘处理,得到所述内容特征。
可选的,所述分类模型包括第一分类模型和第二分类模型,所述训练单元904具体用于:
将所述词向量矩阵输入所述第一分类模型获得第一预测分类结果,并将所述内容特征输入所述第二分类模型获得第二预测分类结果;
所述预测分类结果与所述实际分类结果之间的第二损失,具体包括:所述第一预测分类结果与所述实际分类结果之间的损失,和所述第二预测分类结果与所述实际分类结果之间的损失。
可选的,所述样本内容信息为所述多媒体内容的图像序列时,所述特征提取网络包括残差学习子模型和第三特征提取网络,所述训练单元903具体用于:
利用残差学习子模型对所述图像序列中的各个图像进行特征提取,确定每一张图像对应的图像向量,得到图像向量矩阵;
基于所述第三特征提取网络对所述图像向量矩阵进行图像内容分析处理,得到所述内容特征。
可选的,所述分类模型包括第三分类模型和第四分类模型,所述训练单元904具体用于:
将所述图像向量矩阵输入所述第三分类模型获得第三预测分类结果,并将所述内容特征输入所述第四分类模型获得第四预测分类结果;
所述预测分类结果与所述实际分类结果之间的第二损失,具体包括:所述第三预测分类结果与所述实际分类结果之间的损失,和所述第四预测分类结果与所述实际分类结果之间的损失。
可选的,所述训练单元904用于:
利用所述总损失,确定所述特征提取子模型中权重矩阵的第一梯度,并按照所述第一梯度的方向对所述特征提取子模型的参数进行调整;或者
利用所述总损失,确定所述偏好估计子模型的第二梯度,并按照所述第二梯度的方向对所述偏好估计子模型的参数进行调整;或者
利用所述总损失,确定所述特征提取子模型中权重矩阵的第一梯度和所述用户偏好模型的第二梯度,按照所述第一梯度的方向对所述特征提取子模型的参数进行调整,并按照所述第二梯度的方向所述偏好估计子模型的参数进行调整。
在介绍了本申请示例性实施方式的用户偏好估计方法和装置之后,接下来,介绍根据本申请的另一示例性实施方式的电子设备。
所属技术领域的技术人员能够理解,本申请的各个方面可以实现为系统、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
与上述方法实施例基于同一发明构思,本申请实施例中还提供了一种电子设备,参阅图10所示,电子设备1000可以至少包括处理器1001、以及存储器1002。其中,所述存储器1002存储有程序代码,当所述程序代码被所述处理器1001执行时,使得所述处理器1001执行上述任意一种用户偏好估计方法的步骤。
在一些可能的实施方式中,根据本申请的计算装置可以至少包括至少一个处理器、以及至少一个存储器。其中,存储器存储有程序代码,当程序代码被处理器执行时,使得处理器执行本说明书上述描述的用户偏好估计方法中的步骤。例如,处理器可以执行如图8所示的步骤。
下面参照图11来描述根据本申请的这种实施方式的计算装置110。图11的计算装置110仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图11,计算装置110以通用计算装置的形式表现。计算装置110的组件可以包括但不限于:上述至少一个处理单元111、上述至少一个存储单元112、连接不同系统组件(包括存储单元112和处理单元111)的总线113。
总线113表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储单元112可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)1121和/或高速缓存存储单元1122,还可以进一步包括只读存储器(ROM)1123。
存储单元112还可以包括具有一组(至少一个)程序模块1124的程序/实用工具1125,这样的程序模块1124包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
计算装置110也可以与一个或多个外部设备114(例如键盘、指向设备等)通信,还可与一个或者多个使得用户能与计算装置110交互的设备通信,和/或与使得该计算装置110能与一个或多个其它计算装置进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口115进行。并且,计算装置110还可以通过网络适配器116与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器116通过总线113与用于计算装置110的其它模块通信。应当理解,尽管图中未示出,可以结合计算装置110使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
与上述方法实施例基于同一发明构思,本申请提供的训练用户偏好模型的方法或者用户偏好估计的方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在电子设备上运行时,程序代码用于使电子设备执行本说明书上述描述的根据本申请各种示例性实施方式的训练用户偏好模型的方法中的步骤或用户偏好估计的方法中的步骤,例如,电子设备可以执行如图2或图8中所示的步骤。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (15)

1.一种用户偏好估计方法,其特征在于,基于用户偏好模型对用户偏好进行估计,所述用户偏好模型包括特征提取子模型和偏好估计子模型,所述方法包括:
获得待预测的多媒体内容的内容信息;
将所述内容信息输入所述特征提取子模型,得到所述内容信息归属类别对应的目标内容特征;
将所述目标内容特征输入所述偏好估计子模型,获得所述内容信息的目标用户偏好预测结果,所述偏好估计子模型和所述特征提取子模型之中的至少一个子模型,是基于分类模型对样本内容信息的预测分类结果和实际归属类别之间的损失、以及基于所述用户偏好模型对所述样本内容信息的用户偏好预测结果和实际预测结果之间的损失进行参数调整获得的,所述分类模型包括用于识别所述样本内容信息中影响用户偏好的类别词语和单张类别图像中至少一种的分类模型,以及用于识别所述样本内容信息中影响用户偏好的类别语句和至少一组类别图像序列中至少一种的分类模型。
2.如权利要求1所述的方法,其特征在于,所述偏好估计子模型和所述特征提取子模型之中的至少一个子模型,是基于分类模型对样本内容信息的预测分类结果和实际归属类别之间的损失、以及基于所述用户偏好模型对所述样本内容信息的用户偏好预测结果和实际预测结果之间的损失进行参数调整获得的,具体包括:
从训练数据集中获取多媒体内容的训练样本,所述训练样本包括样本内容信息、训练样本的用户偏好实际结果和实际分类结果;
将所述样本内容信息输入所述特征提取子模型得到所述样本内容信息的内容特征,并将所述内容特征输入所述偏好估计子模型获得所述样本内容信息的用户偏好预测结果;
将所述内容特征输入分类模型,确定所述样本内容信息的预测分类结果;
基于所述用户偏好预测结果与所述用户偏好实际结果之间的第一损失,以及所述预测分类结果与所述实际分类结果之间的第二损失,确定总损失;
基于所述总损失对所述特征提取子模型和所述偏好估计子模型中至少一个模型的参数进行调整,直至所述总损失满足收敛条件,得到已训练的用户偏好模型。
3.如权利要求2所述的方法,其特征在于,所述样本内容信息为所述多媒体内容的文本信息,所述特征提取子模型包括第一特征提取网络和第二特征提取网络,其中:
所述将所述样本内容信息输入所述特征提取子模型得到所述样本内容信息的内容特征,具体包括:
基于所述第一特征提取网络对所述文本信息进行分词处理,得到对应的词列表,并对所述词列表进行向量化处理,确定每一个词对应的词向量,得到词向量矩阵;
基于所述第二特征提取网络对所述词向量矩阵进行语义挖掘处理,得到所述内容特征。
4.如权利要求3所述的方法,其特征在于,所述分类模型包括第一分类模型和第二分类模型,所述预测分类结果具体包括:
将所述词向量矩阵输入所述第一分类模型获得第一预测分类结果,并将所述内容特征输入所述第二分类模型获得第二预测分类结果;
所述预测分类结果与所述实际分类结果之间的第二损失,具体包括:所述第一预测分类结果与所述实际分类结果之间的损失,和所述第二预测分类结果与所述实际分类结果之间的损失。
5.如权利要求2所述的方法,其特征在于,所述样本内容信息为所述多媒体内容的图像序列时,特征提取网络包括残差学习子模型和第三特征提取网络,所述将所述样本内容信息输入所述特征提取子模型得到所述样本内容信息的内容特征,具体包括:
利用残差学习子模型对所述图像序列中的各个图像进行特征提取,确定每一张图像对应的图像向量,得到图像向量矩阵;
基于所述第三特征提取网络对所述图像向量矩阵进行图像内容分析处理,得到所述内容特征。
6.如权利要求5所述的方法,其特征在于,所述分类模型包括第三分类模型和第四分类模型,所述预测分类结果具体包括:
将所述图像向量矩阵输入所述第三分类模型获得第三预测分类结果,并将所述内容特征输入所述第四分类模型获得第四预测分类结果;
所述预测分类结果与所述实际分类结果之间的第二损失,具体包括:所述第三预测分类结果与所述实际分类结果之间的损失,和所述第四预测分类结果与所述实际分类结果之间的损失。
7.如权利要求2所述的方法,其特征在于,基于所述总损失对所述特征提取子模型和所述偏好估计子模型中至少一个模型的参数进行调整,包括:
利用所述总损失,确定所述特征提取子模型中权重矩阵的第一梯度,并按照所述第一梯度的方向对所述特征提取子模型的参数进行调整;或者
利用所述总损失,确定所述偏好估计子模型的第二梯度,并按照所述第二梯度的方向对所述偏好估计子模型的参数进行调整;或者
利用所述总损失,确定特征提取子模型中权重矩阵的第一梯度和所述用户偏好模型的第二梯度,按照所述第一梯度的方向对所述特征提取子模型的参数进行调整,并按照所述第二梯度的方向所述偏好估计子模型的参数进行调整。
8.一种用户偏好估计装置,其特征在于,基于用户偏好模型对用户偏好进行估计,装置包括:
获取单元,用于获得待预测的多媒体内容的内容信息;
特征提取单元,用于采用特征提取子模型,根据所述内容信息得到所述内容信息归属类别对应的目标内容特征;
偏好估计单元,用于采用偏好估计子模型,根据所述目标内容特征获得所述内容信息的目标用户偏好预测结果,所述偏好估计子模型和所述特征提取子模型之中的至少一个子模型,是基于分类模型对样本内容信息的预测分类结果和实际归属类别之间的损失、以及基于所述用户偏好模型对所述样本内容信息的用户偏好预测结果和实际预测结果之间的损失进行参数调整获得的,所述分类模型包括用于识别所述样本内容信息中影响用户偏好的类别词语和单张类别图像中至少一种的分类模型,以及用于识别所述样本内容信息中影响用户偏好的类别语句和至少一组类别图像序列中至少一种的分类模型。
9.如权利要求8所述的装置,其特征在于,所述装置还包括训练单元,所述训练单元用于根据对所述特征提取子模型和所述偏好估计子模型进行训练,训练方法包括:
从训练数据集中获取多媒体内容的训练样本,所述训练样本包括样本内容信息、训练样本的用户偏好实际结果和实际分类结果;
将所述样本内容信息输入所述特征提取子模型得到所述样本内容信息的内容特征,并将所述内容特征输入所述偏好估计子模型获得所述样本内容信息的用户偏好预测结果;
将所述内容特征输入分类模型,确定所述样本内容信息的预测分类结果;
基于所述用户偏好预测结果与所述用户偏好实际结果之间的第一损失,以及所述预测分类结果与所述实际分类结果之间的第二损失,确定总损失;
基于所述总损失对所述特征提取子模型和所述偏好估计子模型中至少一个模型的参数进行调整,直至所述总损失满足收敛条件,得到已训练的用户偏好模型。
10.如权利要求9所述的装置,其特征在于,所述样本内容信息为所述多媒体内容的文本信息,所述特征提取子模型包括第一特征提取网络和第二特征提取网络,其中:
所述训练单元具体用于:
基于所述第一特征提取网络对所述文本信息进行分词处理,得到对应的词列表,并对所述词列表进行向量化处理,确定每一个词对应的词向量,得到词向量矩阵;
基于所述第二特征提取网络对所述词向量矩阵进行语义挖掘处理,得到所述内容特征。
11.如权利要求10所述的装置,其特征在于,所述分类模型包括第一分类模型和第二分类模型,所述训练单元具体用于:
将所述词向量矩阵输入所述第一分类模型获得第一预测分类结果,并将所述内容特征输入所述第二分类模型获得第二预测分类结果;
所述预测分类结果与所述实际分类结果之间的第二损失,具体包括:所述第一预测分类结果与所述实际分类结果之间的损失,和所述第二预测分类结果与所述实际分类结果之间的损失。
12.如权利要求9所述的装置,其特征在于,所述样本内容信息为所述多媒体内容的图像序列时,特征提取网络包括残差学习子模型和第三特征提取网络,所述训练单元具体用于:
利用残差学习子模型对所述图像序列中的各个图像进行特征提取,确定每一张图像对应的图像向量,得到图像向量矩阵;
基于所述第三特征提取网络对所述图像向量矩阵进行图像内容分析处理,得到所述内容特征。
13.如权利要求12所述的装置,其特征在于,所述分类模型包括第三分类模型和第四分类模型,所述训练单元具体用于:
将所述图像向量矩阵输入所述第三分类模型获得第三预测分类结果,并将所述内容特征输入所述第四分类模型获得第四预测分类结果;
所述预测分类结果与所述实际分类结果之间的第二损失,具体包括:所述第三预测分类结果与所述实际分类结果之间的损失,和所述第四预测分类结果与所述实际分类结果之间的损失。
14.一种电子设备,其特征在于,其包括处理器和存储器,其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行权利要求1~7中任一所述方法的步骤。
15.一种计算机可读存储介质,其特征在于,其包括程序代码,当所述程序代码在电子设备上运行时,所述程序代码用于使所述电子设备执行权利要求1~7中任一所述方法的步骤。
CN202011356494.9A 2020-11-27 2020-11-27 一种用户偏好估计方法及装置 Active CN112579884B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011356494.9A CN112579884B (zh) 2020-11-27 2020-11-27 一种用户偏好估计方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011356494.9A CN112579884B (zh) 2020-11-27 2020-11-27 一种用户偏好估计方法及装置

Publications (2)

Publication Number Publication Date
CN112579884A CN112579884A (zh) 2021-03-30
CN112579884B true CN112579884B (zh) 2022-11-04

Family

ID=75123943

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011356494.9A Active CN112579884B (zh) 2020-11-27 2020-11-27 一种用户偏好估计方法及装置

Country Status (1)

Country Link
CN (1) CN112579884B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113158565B (zh) * 2021-04-21 2023-05-23 兰州里丰正维智能科技有限公司 一种获取水氮策略的人工智能方法、系统和电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914885A (zh) * 2020-06-19 2020-11-10 合肥工业大学 基于深度学习的多任务人格预测方法和系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503236B (zh) * 2016-10-28 2020-09-11 北京百度网讯科技有限公司 基于人工智能的问题分类方法以及装置
CN107911719B (zh) * 2017-10-30 2019-11-08 中国科学院自动化研究所 视频动态推荐装置
CN110414432B (zh) * 2019-07-29 2023-05-16 腾讯科技(深圳)有限公司 对象识别模型的训练方法、对象识别方法及相应的装置
CN111192237B (zh) * 2019-12-16 2023-05-02 重庆大学 一种基于深度学习的涂胶检测系统和方法
CN111309910A (zh) * 2020-02-13 2020-06-19 南京云问网络技术有限公司 文本信息挖掘方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914885A (zh) * 2020-06-19 2020-11-10 合肥工业大学 基于深度学习的多任务人格预测方法和系统

Also Published As

Publication number Publication date
CN112579884A (zh) 2021-03-30

Similar Documents

Publication Publication Date Title
CN111931062B (zh) 一种信息推荐模型的训练方法和相关装置
CN111177575A (zh) 一种内容推荐方法、装置、电子设备和存储介质
CN112163165A (zh) 信息推荐方法、装置、设备及计算机可读存储介质
CN110234018B (zh) 多媒体内容描述生成方法、训练方法、装置、设备及介质
CN112307351A (zh) 用户行为的模型训练、推荐方法、装置和设备
CN110166802B (zh) 弹幕处理方法、装置及存储介质
CN112818251B (zh) 视频推荐方法、装置、电子设备以及存储介质
CN112131430A (zh) 视频聚类方法、装置、存储介质和电子设备
CN114201516B (zh) 一种用户画像构建的方法、信息推荐的方法以及相关装置
CN111949886A (zh) 一种用于信息推荐的样本数据生成方法和相关装置
CN112165639B (zh) 内容分发方法、装置、电子设备以及存储介质
CN111625715A (zh) 信息提取方法、装置、电子设备及存储介质
CN112149604A (zh) 视频特征提取模型的训练方法、视频推荐方法及装置
US11653071B2 (en) Responsive video content alteration
CN112579884B (zh) 一种用户偏好估计方法及装置
CN115640449A (zh) 媒体对象推荐方法、装置、计算机设备和存储介质
CN116628345B (zh) 一种内容推荐方法、装置、电子设备和存储介质
CN113407776A (zh) 标签推荐方法、装置、标签推荐模型的训练方法和介质
CN116932862A (zh) 冷启动对象推荐方法、装置、计算机设备和存储介质
CN114357301A (zh) 数据处理方法、设备及可读存储介质
CN113704544A (zh) 一种视频分类方法、装置、电子设备和存储介质
CN114970494A (zh) 一种评论生成方法、装置、电子设备和存储介质
CN113761272A (zh) 一种数据处理方法、设备以及计算机可读存储介质
CN112231572A (zh) 用户特征的提取方法、装置、设备及存储介质
CN118013060B (zh) 数据处理方法、装置、设备、存储介质及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40040761

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant