CN114417159A - 内容质量评估方法、模型训练方法及相关装置 - Google Patents

内容质量评估方法、模型训练方法及相关装置 Download PDF

Info

Publication number
CN114417159A
CN114417159A CN202210064882.2A CN202210064882A CN114417159A CN 114417159 A CN114417159 A CN 114417159A CN 202210064882 A CN202210064882 A CN 202210064882A CN 114417159 A CN114417159 A CN 114417159A
Authority
CN
China
Prior art keywords
score
characteristic
quality
classification
media
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210064882.2A
Other languages
English (en)
Inventor
赵向洋
王哲
覃志奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Himalaya Technology Co ltd
Original Assignee
Shanghai Himalaya Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Himalaya Technology Co ltd filed Critical Shanghai Himalaya Technology Co ltd
Priority to CN202210064882.2A priority Critical patent/CN114417159A/zh
Publication of CN114417159A publication Critical patent/CN114417159A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供的内容质量评估方法、模型训练方法及相关装置中;评估设备获取媒体资源的历史统计信息以及媒体资源的固有属性信息,然后,通过预先训练的评分模型综合上述因素对媒体资源的内容质量进行合理评估,从而获得更为准确、合理的目标得分,用于评估用户对媒体资源的喜好程度。

Description

内容质量评估方法、模型训练方法及相关装置
技术领域
本申请涉及数据处理领域,具体而言,涉及一种内容质量评估方法、模型训练方法及相关装置。
背景技术
随着互联网、移动互联网的快速发展,互联网平台上媒体资源的数量急剧增大,并且同质化(标题相同或者简介类似)内容数量较多,如何对这些媒体资源进行量化分析,确定媒体资源的内容质量是一个非常关键和紧急的任务。
目前在对媒体资源进行量化分析时,多依赖于媒体资源的浏览统计信息;而研究发现,浏览统计信息并不能客观反映媒体资源的内容质量,且存在一定的滞后性。
发明内容
为了克服现有技术中的至少一个不足,本申请提供一种内容质量评估方法及相关装置,包括:
第一方面,本申请提供一种内容质量评估方法,应用于评估设备,所述方法包括:
获取媒体资源的第一特征以及第二特征,其中,所述第一特征包括所述媒体资源的浏览统计信息,所述第二特征包括所述媒体资源的固有属性信息;
将所述第一特征以及所述第二特征输入到预先训练的评分模型,获得所述媒体资源的目标得分,其中,所述目标得分用于评估用户对所述媒体资源的喜好程度。
第二方面,本申请提供一种内容质量评估装置,应用于评估设备,所述内容质量评估装置包括:
特征模块,用于获取媒体资源的第一特征以及第二特征,其中,所述第一特征包括所述媒体资源的浏览统计信息,所述第二特征包括所述媒体资源的固有属性信息;
评分模块,用于将所述第一特征以及所述第二特征输入到预先训练的评分模型,获得所述媒体资源的目标得分,其中,所述目标得分用于评估用户对所述媒体资源的喜好程度。
第三方面,本申请提供一种评估设备,所述评估设备包括处理器以及存储器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,实现所述的内容质量评估方法。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现所述的内容质量评估方法。
相对于现有技术而言,本申请具有以下有益效果:
本申请提供的内容质量评估方法、模型训练方法及相关装置中;评估设备获取媒体资源的历史统计信息以及媒体资源的固有属性信息,然后,通过预先训练的评分模型综合上述因素对媒体资源的内容质量进行合理评估,从而获得更为准确、合理的目标得分,用于评估用户对媒体资源的喜好程度。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的评估设备的结构框图;
图2为本申请实施例提供的内容质量评估方法流程示意图;
图3为本申请实施例提供的模型训练方法流程示意图;
图4为本申请实施例提供的内容质量评估装置结构框图;
图5为本申请实施例提供的模型训练方法原理示意图。
图标:120-存储器;130-处理器;140-通信单元;201-特征模块;202-评分模块。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
目前在对媒体资源进行量化分析时,多依赖于媒体资源的浏览统计信息;而研究发现,浏览统计信息并不能客观反映媒体资源的内容质量,且存在一定的滞后性。
例如,浏览统计信息可以包括媒体资源的历史播放量、订阅数量、点击量、留存率等。虽然上述浏览统计信息能够在一定程度上反映媒体资源的质量,例如,历史播放量、订阅数量、点击量、留存率等数据较大时,说明对应的媒体资源具有较高的内容质量,受到观众的喜爱;但是,上述浏览统计信息可以通过不合规的方式进行提高,例如,通过水军提高媒体资源的浏览统计信息。
此外,对于一些新创作的媒体资源,难以在短时间内获得足够多的浏览统计信息,也即是说,媒体资源短时间内的浏览统计信息不具有客观的参考意义。因此,仅依靠媒体资源的浏览统计信息,并不能客观反映媒体资源的内容质量。
鉴于此,本实施例提供一种应用于评估设备的内容质量评估方法。该方法中,评估设备获取媒体资源的历史统计信息以及媒体资源的固有属性信息,然后,通过预先训练的评分模型综合上述因素对媒体资源的内容质量进行合理评估,从而获得更为准确、合理的目标得分,用于评估用户对媒体资源的喜好程度。
其中,该评估设备可以是服务器,服务器的类型可以是,但不限于,Web(网站)服务器、FTP(File Transfer Protocol,文件传输协议)服务器、数据处理服务器等。此外,该服务器可以是单个服务器,也可以是服务器组。服务器组可以是集中式的,也可以是分布式的(例如,服务器可以是分布式系统)。在一些实施例中,服务器相对于用户终端,可以是本地的、也可以是远程的。在一些实施例中,服务器可以在云平台上实现;仅作为示例,云平台可以包括私有云、公有云、混合云、社区云(community cloud)、分布式云、跨云(inter-cloud)、多云(multi-cloud)等,或者它们的任意组合。在一些实施例中,服务器可以在具有一个或多个组件的电子设备上实现。
如图1所示,本实施例提供的评估设备结构框图中,该评估设备可以包括存储器120、处理器130、通信单元140。该存储器120、处理器130以及通信单元140各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
其中,该存储器120可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器120用于存储程序,该处理器130在接收到执行指令后,执行该程序。
该通信单元140用于通过网络收发数据。网络可以包括有线网络、无线网络、光纤网络、远程通信网络、内联网、因特网、局域网(Local Area Network,LAN)、广域网(WideArea Network,WAN)、无线局域网(Wireless Local Area Networks,WLAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、公共电话交换网(Public Switched Telephone Network,PSTN)、蓝牙网络、ZigBee网络、或近场通信(NearField Communication,NFC)网络等,或其任意组合。在一些实施例中,网络可以包括一个或多个网络接入点。例如,网络可以包括有线或无线网络接入点,例如基站和/或网络交换节点,服务请求处理系统的一个或多个组件可以通过该接入点连接到网络以交换数据和/或信息。
该处理器130可能是一种集成电路芯片,具有信号的处理能力,并且,该处理器可以包括一个或多个处理核(例如,单核处理器或多核处理器)。仅作为举例,上述处理器可以包括中央处理单元(Central Processing Unit,CPU)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、专用指令集处理器(Application SpecificInstruction-set Processor,ASIP)、图形处理单元(Graphics Processing Unit,GPU)、物理处理单元(Physics Processing Unit,PPU)、数字信号处理器(Digital SignalProcessor,DSP)、现场可编程门阵列(Field Programmable Gate Array,FPGA)、可编程逻辑器件(Programmable Logic Device,PLD)、控制器、微控制器单元、简化指令集计算机(Reduced Instruction Set Computing,RISC)、或微处理器等,或其任意组合。
在上述相关介绍的基础上,下面结合图2所示的流程示意图,对本实施例所提供方法进行详细阐述。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。如图2所示,该内容质量评估方法包括:
S101A,获取媒体资源的第一特征以及第二特征。
其中,第一特征包括媒体资源的浏览统计信息,第二特征包括媒体资源的固有属性信息;而该固有属性信息可以包括媒体资源的属性信息以及媒体资源对应创作人员的属性信息。
值得注意的是,本实施例中的媒体资源可以是,但不限于,视频、图片、音频等。在一些实施方式中,该视频可以是短视频、电影、记录片、电视剧、新闻视频等;该图片可以是风景照片、人物照片、艺术照片等;该音频可以是音乐单曲、有声小说、有声故事等。
而对于不同种类的媒体资源,本领域技术人员可根据需要选取相应的浏览统计信息以及固有属性信息。以有声小说为例,小说的浏览统计信息可以包括小说的周播放量、日播放量、订阅数量、用户点击量等信息。
小说对应媒体资源的属性信息可以包括专辑类型、版权类型、付费类型、声音数量、音频质量、音频时长等。
其中,专辑类型表示小说所属的类别,例如,都市、言情、恐怖等。版权类型则表示小说内容的版权信息。付费类型表示该有声小说是否免费,其中,有声小说是否付费能够在一定程度反映该有声小说的内容质量。声音数量则表示有声小说中的声源数量,包括主播数量、背景音乐数量等。音频质量表示有声小说是否清晰、完整、主播口音、音频码率等。
小说对应创作人员的属性信息可以包括主播的主播粉丝数量、主播等级、主播价值,其中,主播价值是平台按照主播的历史数据对主播的进行量化评价时所提供的参考数值。
S102A,将第一特征以及第二特征输入到预先训练的评分模型,获得媒体资源的目标得分。
其中,目标得分用于评估用户对媒体资源的喜好程度。
应理解的是,由于媒体资源的特征来源包括浏览统计信息以及媒体内容的固有属性信息,因此,不仅特征类别多样,而且特征数量较为庞大,而不同的特征之间存在交互关系。
相关技术中,可以使用预设数学公式计算媒体资源的目标得分,但是需要人工构造特征,并且,由于特征之间的高维交互,求解这些高维项的系数难度非常大。而本实施例中,则使用基于深度学习的评分模型学习特征之间的低维和高维特征交互关联信息,从而获得更为准确、合理的目标得分。
研究还发现,基于深度学习的评分模型为分类模型,也即是说,该评分模型针对输入的第一特征以及第二特征,输出的是媒体资源与不同质量得分之间的匹配程度,也就意味着,多个媒体资源分别与同一质量得分的匹配程度最大时,多个媒体资源则具有相同的目标得分。
示例性的,假定该评分模型可以针对媒体资源输出10个分类概率,分别表示与10个质量得分之间的匹配程度;其中,10个质量得分按照从小到大顺序依次是0分、1分、2分、3分、4分、5分、6分、7分、8分、9分。但应理解的是,媒体内容的内容质量与质量得分的大小成正相关,因此,基于本实施例,本领域技术人员可以根据需要对质量得分的数量以及数值进项适应性调整,其不需要付出创造性的贡献。
假定有2个媒体资源,分别表示为资源A以及资源B。其中,当评估设备将资源A的第一特征以及第二特征输入到评分模型中,输出的10个分类概率如表1所示:
表1
0 1 2 3 4 5 6 7 8 9
0.002 0.004 0.001 0.003 0.06 0.52 0.39 0.012 0.005 0.003
当评估设备将资源B的第一特征以及第二特征输入到评分模型中,输出的10个分类概率如表2所示:
表2
0 1 2 3 4 5 6 7 8 9
0.001 0.003 0.004 0.002 0.01 0.73 0.24 0.002 0.003 0.005
由此可见,资源A与资源B均与5分的质量得分最为匹配,而本实施例需要对同一质量得分的媒体资源进行更小颗粒度的评估,因此,需要将分类问题转换成回归问题。
作为可选地实施方式,步骤S102可以通过以下实施方式将分类问题转换成回归问题,从而获得媒体资源的目标得分:
S102-1,将第一特征以及第二特征输入到预先训练的评分模型,获得评分模型输出的多个分类概率。
其中,多个分类概率分别表示媒体资源与不同质量得分之间的匹配程度。
S102-1,根据多个分类概率以及多个分类概率分别对应的质量得分,获得媒体资源的目标得分。
其中,基础得分在目标得分中的占比最高,基础得分表示多个分类概率中最大分类概率对应的质量得分。
因此,通过上述实施方式,评估设备将媒体资源所有分类概率中最大分类概率对应的质量得分作为基础得分,并在基础得分的基础上进行调整获得目标得分,使得基础得分在中的目标得分中的占比最高,由于,基础得分在目标得分中的占比最高,因此,将分类问题转换成回归问题的过程中,使
得基础得分在目标得分中占据主导地位。
而调整幅度则依赖于最大分类概率以外的其他分类概率以及对应的质量得分,因此,可选地实施方式中,步骤S102-1可以通过以下实施方式对基础得分进行调整:
S102-1-1,根据多个分类概率,将最大分类概率对应的质量得分作为基础得分。
S102-1-2,根据剩余分类概率以及剩余分类概率各自对应的质量得分,获得期望得分。
其中,剩余分类概率未包括最大分类概率。
S102-1-3,将基础得分与期望得分之和,作为目标得分。
因此,上述实施方式中,评分设备根据剩余分类概率以及剩余分类概率各自对应的质量得分计算期望得分,用于对基础得分进行调整。
而本实施例的目的在于,对同一质量得分的媒体资源进行更小颗粒度的评估,也就意味着最终的目标得分需要在基础得分的基础上有一定提高,但调整幅度则与剩余分类概率的分布状况相关,具体表现为,与较大质量得分相匹配的概率越大,调整的幅度则越大。
示例性的,继续以上述示例中的资源A与资源B为例。由上述实施例中的表1以及表2可知,资源A以及资源B分别与5分的质量得分之间匹配程度最高,因此,在对资源A以及资源B的基础得分进行调整时,将6分、7分、8分、9分所对应的分类概率视为剩余分类概率,若剩余分类概率之和越大,则对基础得分调整的幅度越大。
其中,针对资源A,6分、7分、8分、9分所对应的剩余分类概率之和为0.39+0.012+0.005+0.003=0.41。
针对资源B,6分、7分、8分、9分所对应的剩余分类概率之和为0.24+0.002+0.003+0.005=0.25。
由于资源A的剩余分类概率之和大于资源B的分类概率之和,也就意味着资源A的内容质量在一定程度上优于资源B的内容质量,因此,需要提供一种计算方式,使得资源A的目标得分大于资源B的目标得分。
为了达到这一目的,本实施例以最大分类概率所对应的质量得分不同,采用不同的方式计算媒体资源的期望得分,具体可选地实施方式为:
若最大分类概率对应的质量得分为最大质量得分,则通过以下表达式计算期望得分E:
E=pmax*(1-f(S))
Figure BDA0003479912660000101
若最大分类概率对应的质量得分非最大质量得分,则通过以下表达式计算期望得分E:
E=f(S)
Figure BDA0003479912660000102
式中,i表示将所有质量得分按照从小到大的顺序进行排列之后的顺序编号,n表示质量得分的数量,f(S)表示通过双曲正切函数对S进行运算,pmax表示最大分类概率,si表示第i个质量得分,smax表示最大质量得分,pi表示第i总质量得分对应的分类概率。
为使得本领域技术人员对以上计算方式的目的以及优点更加清楚,继续以上述0-9分的质量得分为例进行说明。通过上述期望得分的计算方式,若最大分类概率对应的基础得分是9分时,由于9分是最大质量得分,因此,与0-8分相匹配的分类概率视为剩余分类概率,则剩余分类概率之和越大,期望得分越小。
当最大分类概率对应的基础得分不是9分,而是0-8分中的任意一个时;则将大于基础得分的质量得分所对应分类概率视为剩余分类概率,并且,剩余分类概率之和越大,期望得分越大。
例如,假定最大分类概率对应的基础得分为5分时,则质量得分6-9分大于基础得分,若与6-9分相匹配的剩余分类概率之和越大,相应的期望得分越大。
此外,本实施例所使用的双曲正切函数的表达式为:
Figure BDA0003479912660000111
基于与内容质量评估方法相同的发明构思,本实施例还提供有相关的装置,包括:
本实施例还提供一种内容质量评估装置,应用于评估设备。内容质量评估装置包括至少一个可以软件形式存储于存储器中的功能模块。如图3所示,从功能上划分,内容质量评估装置可以包括:
特征模块201,用于获取媒体资源的第一特征以及第二特征,其中,第一特征包括媒体资源的浏览统计信息,第二特征包括媒体资源的固有属性信息。
本实施例中,该特征模块201用于实现图2中的步骤S101A,关于该特征模块201的详细描述,可以参见步骤S101A的详细描述。
评分模块202,用于将第一特征以及第二特征输入到预先训练的评分模型,获得媒体资源的目标得分,其中,目标得分用于评估用户对媒体资源的喜好程度。
本实施例中,该评分模块202用于实现图2中的步骤S102A,关于该特征模块201的详细描述可以参见步骤S102A的详细描述。
应理解的是,一些实施例中,内容质量评估装置还可以包括其他功能模块或者子模块,用于实现内容质量评估方法的其他步骤或者子步骤。其他实施方式中,上述特征模块201以及评分模块202同样可以用于实现内容质量评估方法的其他步骤或者子步骤。
本实施例还提供一种评估设备,评估设备包括处理器以及存储器,存储器存储有计算机程序,计算机程序被处理器执行时,实现所述的内容质量评估方法。
本实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时,实现所述的内容质量评估方法。
本实施例还提供一种应用于模型训练设备的模型训练方法,用于对神经网络模型进行训练,获得上述评估模型。如图4所示,该模型训练方法包括:
S101B,获取样本资源的第一样本特征以及第二样本特征。
其中,第一样本特征包括样本资源的浏览统计信息,第二样本特征包括样本资源的固有属性信息;
S102B,将第一样本特征以及第二样本特征输入到神经网络模型进行训练,获得评分模型。
也即是说,本实施例在模型训练期间使用包括样本资源的浏览统计信息的第一样本特征,以及包括样本资源的固有属性信息的第二样本特征,训练神经模型发掘特征之间存在交互关系,使得训练后的评分模型能够对媒体资源的内容质量进行更为客观合理的评价。
作为一种可选地实施方式,该神经网络模型DeepFM模型。而应理解的是,由于DeepFM算法有效的结合了因子分解机与神经网络在特征学习中的优点,以达到同时提取到低阶组合特征与高阶组合特征,所以越来越被广泛使用。
其中,DeepFM模型包括FM和DNN两部分,FM部分用于对一阶特征以及由一阶特征两两组合而成的二阶特征进行特征的提取,DNN部分用于对由输入的一阶特征进行全连接等操作形成的高阶特征进行特征的提取。由于DeepFM模型为本领域现有技术,因此,其具体结构本实施例不再进行赘述,下面重点结合一具体示例对其训练过程进行详细介绍。
假定该样本资源为有声小说专辑,先将专辑自动打上标签,该标签用于定义整数类型的质量得分,分数范围为0-9分,对应的标签依次为整数0-9,其中,0对应的质量得分为0分,9对应的质量得分为9分。
模型训练设备选取专辑浏览统计信息以及固有属性信息共计15个特征,通过特征工程将15个特征转化为向量形式的特征向量,确定每个特征的维度。
然后,模型训练设备将特征向量输入DeepFM模型,由于DNN部分和FM部分共享输入,因此,DeepFM模型对输入特征向量分别进行处理,得到输出两个输出向量,并将两个输出向量相加,将求和向量输入到一个全连接层,最终,得到10个质量得分各自的分类概率,并根据10个质量得分各自的分类概率计算专辑的目标得分。
如图5所示,详细的训练流程可以包括下列步骤:
(1)定义标签的特征字段,即选取6个字段用于对专辑打上分类标签,标签标识包括整数0-9,用于标记10个类别。
(2)定义输入的特征字段,并通过特征工程处理,将专辑的特征都转化为离散型变量(又名index)。
其中,连续型特征采用分位点划分,离散型特征采用聚类方法划分。所谓连续型特征,表示特征难以进行分类的特征,例如,专辑的播放数量、专辑收藏数量等。以专辑的播放数量为例,本实施例对其进行分位点划分,0-1000的播放量用数字1进行标识,1001-10000的播放量用数字2进行标识,10001-100000的播放量用数字3进行标识;100000以上的播放量用于数字4进行标识。
所示离散型特征,表示特征本身具有类别属性。例如,专辑的种类、专辑的付费类型等。以专辑的种类为例,将都市类型的专辑用于数字1标识;将言情类型的专辑用数字2进行标识;将恐怖类型的专辑用数字3进行标识。
(3)将所有辑进划分为训练集、验证集和测试集,然后,将训练集的离散型变量进行映射计算,采用DNN部分和FM部分分别编码得到两个向量,将向量权重求和得到最终输出求和向量。
(4)将求和向量输入下一层连接的全连接层,对求和向量进行分类,得到专辑的10个分类概率,分别表示与0-9这10个质量得分之间的匹配程度。
(5)采用交叉熵损失函数作为目标函数,计算质量得分的预测概率和真实概率之间的函数损失,然后,使用梯度下降的方法最小化目标函数,从而实现对模型进行训练。
其中,训练期间采用训练集计算损失函数,验证集调整模型的超参数、验证模型的拟合能力,测试集用来评估最终模型的泛化能力。
(6)将训练完成的DeepFM模型作为评分模型,用来预测专辑得到不同质量得分的分类概率,然后,将最大分类概率对应的质量得分作为基础得分,使用剩余分类概率计算期望得分,两者相加得到专辑的目标得分。
需要说明的是,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。此外,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
还应该理解到,本实施例所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的各种实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种内容质量评估方法,其特征在于,应用于评估设备,所述方法包括:
获取媒体资源的第一特征以及第二特征,其中,所述第一特征包括所述媒体资源的浏览统计信息,所述第二特征包括所述媒体资源的固有属性信息;
将所述第一特征以及所述第二特征输入到预先训练的评分模型,获得所述媒体资源的目标得分,其中,所述目标得分用于评估用户对所述媒体资源的喜好程度。
2.根据权利要求1所述的内容质量评估方法,其特征在于,所述将所述第一特征以及所述第二特征输入到预先训练的评分模型,获得所述媒体资源的目标得分,包括:
将所述第一特征以及所述第二特征输入到预先训练的评分模型,获得所述评分模型输出的多个分类概率,其中,所述多个分类概率分别表示所述媒体资源与不同质量得分之间的匹配程度;
根据所述多个分类概率以及所述多个分类概率分别对应的质量得分,获得所述媒体资源的目标得分,其中,基础得分在所述目标得分中的占比最高,所述基础得分表示所述多个分类概率中最大分类概率对应的质量得分。
3.根据权利要求2所述的内容质量评估方法,其特征在于,所述根据所述多个分类概率以及所述多个分类概率分别对应的质量得分,获得所述媒体资源的目标得分,包括:
根据所述多个分类概率,将所述最大分类概率对应的质量得分作为所述基础得分;
根据剩余分类概率以及所述剩余分类概率各自对应的质量得分,获得期望得分,其中,所述剩余分类概率未包括所述最大分类概率;
将所述基础得分与所述期望得分之和,作为所述目标得分。
4.根据权利要求1所述的内容质量评估方法,其特征在于,所述根据剩余分类概率以及所述剩余分类概率各自对应的质量得分,获得期望得分,包括:
若所述最大分类概率对应的质量得分为最大质量得分,则通过以下表达式计算所述期望得分E:
E=pmax*(1-f(S))
Figure FDA0003479912650000021
若所述最大分类概率对应的质量得分非最大质量得分,则通过以下表达式计算所述期望得分E:
E=f(S)
Figure FDA0003479912650000022
式中,i表示将所有质量得分按照从小到大的顺序进行排列之后的顺序编号,n表示质量得分的数量,f(S)表示通过双曲正切函数对S进行运算,pmax表示所述最大分类概率,si表示第i个质量得分,smax表示所述最大质量得分,pi表示第i总质量得分对应的分类概率。
5.根据权利要求1所述的内容质量评估方法,其特征在于,所述固有属性信息包括所述媒体资源的属性信息以及所述媒体资源对应创作人员的属性信息。
6.一种模型训练方法,其特征在于,应用于模型训练设备,所述方法包括:
获取样本资源的第一样本特征以及第二样本特征,其中,所述第一样本特征包括所述样本资源的浏览统计信息,所述第二样本特征包括所述样本资源的固有属性信息;
将所述第一样本特征以及第二样本特征输入到神经网络模型进行训练,获得评分模型。
7.根据权利要求6所述的模型训练方法,其特征在于,所述神经网络模型为DeepFM模型。
8.一种内容质量评估装置,其特征在于,应用于评估设备,所述内容质量评估装置包括:
特征模块,用于获取媒体资源的第一特征以及第二特征,其中,所述第一特征包括所述媒体资源的浏览统计信息,所述第二特征包括所述媒体资源的固有属性信息;
评分模块,用于将所述第一特征以及所述第二特征输入到预先训练的评分模型,获得所述媒体资源的目标得分,其中,所述目标得分用于评估用户对所述媒体资源的喜好程度。
9.一种评估设备,其特征在于,所述评估设备包括处理器以及存储器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,实现权利要求1-5任意一项所述的内容质量评估方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现权利要求1-5任意一项所述的内容质量评估方法。
CN202210064882.2A 2022-01-20 2022-01-20 内容质量评估方法、模型训练方法及相关装置 Pending CN114417159A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210064882.2A CN114417159A (zh) 2022-01-20 2022-01-20 内容质量评估方法、模型训练方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210064882.2A CN114417159A (zh) 2022-01-20 2022-01-20 内容质量评估方法、模型训练方法及相关装置

Publications (1)

Publication Number Publication Date
CN114417159A true CN114417159A (zh) 2022-04-29

Family

ID=81275272

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210064882.2A Pending CN114417159A (zh) 2022-01-20 2022-01-20 内容质量评估方法、模型训练方法及相关装置

Country Status (1)

Country Link
CN (1) CN114417159A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115081890A (zh) * 2022-06-27 2022-09-20 湖北中烟工业有限责任公司 一种卷烟配方模块质量监测系统、方法及相关组件

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107888950A (zh) * 2017-11-09 2018-04-06 福州瑞芯微电子股份有限公司 一种推荐视频的方法和系统
CN110121110A (zh) * 2019-05-07 2019-08-13 北京奇艺世纪科技有限公司 视频质量评估方法、设备、视频处理设备及介质
CN113392218A (zh) * 2021-07-12 2021-09-14 北京百度网讯科技有限公司 文本质量评估模型的训练方法和确定文本质量的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107888950A (zh) * 2017-11-09 2018-04-06 福州瑞芯微电子股份有限公司 一种推荐视频的方法和系统
CN110121110A (zh) * 2019-05-07 2019-08-13 北京奇艺世纪科技有限公司 视频质量评估方法、设备、视频处理设备及介质
CN113392218A (zh) * 2021-07-12 2021-09-14 北京百度网讯科技有限公司 文本质量评估模型的训练方法和确定文本质量的方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115081890A (zh) * 2022-06-27 2022-09-20 湖北中烟工业有限责任公司 一种卷烟配方模块质量监测系统、方法及相关组件

Similar Documents

Publication Publication Date Title
CN109492772B (zh) 生成信息的方法和装置
CN109446430B (zh) 产品推荐的方法、装置、计算机设备及可读存储介质
CN107451267B (zh) 一种基于Spark平台的分布式推荐方法
CN113516522B (zh) 媒体资源推荐方法、多目标融合模型的训练方法及装置
JP6414363B2 (ja) 予測システム、方法およびプログラム
CN112153426B (zh) 一种内容账号管理方法、装置、计算机设备及存储介质
CN106203103B (zh) 文件的病毒检测方法及装置
CN106354856B (zh) 基于人工智能的深度神经网络强化搜索方法和装置
CN115511501A (zh) 一种数据处理方法、计算机设备以及可读存储介质
CN110008397A (zh) 一种推荐模型训练方法及装置
WO2017159402A1 (ja) 共クラスタリングシステム、方法およびプログラム
CN109902823A (zh) 一种基于生成对抗网络的模型训练方法及设备
CN114417159A (zh) 内容质量评估方法、模型训练方法及相关装置
CN113850669A (zh) 用户分群方法、装置、计算机设备及计算机可读存储介质
CN113591881A (zh) 基于模型融合的意图识别方法、装置、电子设备及介质
CN117436679A (zh) 一种元宇宙资源匹配方法及其系统
CN115131052A (zh) 一种数据处理方法、计算机设备和存储介质
CN113011911A (zh) 基于人工智能的数据预测方法、装置、介质及电子设备
CN114092162B (zh) 推荐质量确定方法、推荐质量确定模型的训练方法及装置
CN113448876B (zh) 一种业务测试方法、装置、计算机设备及存储介质
CN113742495B (zh) 基于预测模型的评级特征权重确定方法及装置、电子设备
CN111784377B (zh) 用于生成信息的方法和装置
CN114741592A (zh) 一种基于多模型融合的产品推荐方法、设备及介质
CN114463590A (zh) 信息处理方法、装置、设备、存储介质及程序产品
CN109308565B (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination