CN112291625B - 信息质量处理方法、装置、电子设备及存储介质 - Google Patents
信息质量处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112291625B CN112291625B CN202011112884.1A CN202011112884A CN112291625B CN 112291625 B CN112291625 B CN 112291625B CN 202011112884 A CN202011112884 A CN 202011112884A CN 112291625 B CN112291625 B CN 112291625B
- Authority
- CN
- China
- Prior art keywords
- information
- activity
- low
- information operation
- operation record
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims abstract description 63
- 238000003672 processing method Methods 0.000 title claims abstract description 34
- 230000000694 effects Effects 0.000 claims abstract description 143
- 238000000034 method Methods 0.000 claims abstract description 32
- 230000008859 change Effects 0.000 claims abstract description 14
- 230000015654 memory Effects 0.000 claims description 23
- 230000001174 ascending effect Effects 0.000 claims description 14
- 238000010801 machine learning Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 8
- 238000005516 engineering process Methods 0.000 abstract description 3
- 230000000875 corresponding effect Effects 0.000 description 90
- 238000010586 diagram Methods 0.000 description 13
- 238000002372 labelling Methods 0.000 description 7
- 230000006399 behavior Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000013441 quality evaluation Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000001303 quality assessment method Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4667—Processing of monitored end-user data, e.g. trend analysis based on the log file of viewer selections
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/442—Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
- H04N21/44213—Monitoring of end-user related data
- H04N21/44222—Analytics of user selections, e.g. selection of programs or purchase activity
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4668—Learning process for intelligent management, e.g. learning user preferences for recommending movies for recommending content, e.g. movies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/812—Monomedia components thereof involving advertisement data
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Social Psychology (AREA)
- Computer Networks & Wireless Communication (AREA)
- Business, Economics & Management (AREA)
- Marketing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种信息质量处理方法、装置、电子设备及计算机可读存储介质;涉及人工智能技术;方法包括:确定操作信息的活跃度低于低活跃度阈值的多个低活跃度对象,并获取所述多个低活跃度对象对应的信息操作记录;基于每个所述信息操作记录包括的操作数据,对所述信息操作记录标记分组特征,并基于每个所述信息操作记录被标记的分组特征,将所述每个所述信息操作记录分配到对应的分组;基于每个所述分组中的信息操作记录所对应的对象的活跃度变化趋势,对所述信息操作记录所对应的信息标记样本类型;基于每个所述信息在不同分组中被标记为不同样本类型的统计数据,确定所述信息的质量参数。通过本申请,能够准确评估信息对应低活跃对象质量参数。
Description
技术领域
本申请涉及人工智能技术,尤其涉及一种信息质量处理方法、装置、电子设备及计算机可读存储介质。
背景技术
人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。
推荐系统是人工智能的重要应用方向,人工智能普遍用于信息的质量评估以实现信息的有效和精准推荐。人们可以通过互联网获取各种各样的信息,人们花费在互联网上的时间越来越多。互联网逐渐成为众多商家投放信息的重要途径,为了达到更好的信息推荐效果,对信息的质量评估变得越来越重要。
以对广告视频进行质量评估为例,相关技术中,仅仅根据点击次数、被观看时长来衡量广告视频的质量,而点击次数、被观看时长均来源于中高活跃对象产生的操作行为,并不能代表低活跃对象,仅仅根据中高活跃度对象产生的操作行为对广告视频进行质量评估的结果不够准确。因此,相关技术中缺乏能够准确度量反映用户对信息的偏好程度的信息质量的评估方法。
发明内容
本申请实施例提供一种信息质量处理方法、装置、电子设备及计算机可读存储介质,能够准确评估信息对应低活跃对象质量参数。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种信息质量处理方法,包括:
确定操作信息的活跃度低于低活跃度阈值的多个低活跃度对象,并获取所述多个低活跃度对象对应的信息操作记录;
基于每个所述信息操作记录包括的操作数据,对所述信息操作记录标记分组特征,并基于每个所述信息操作记录被标记的分组特征,将所述每个所述信息操作记录分配到对应的分组;
基于每个所述分组中的信息操作记录所对应的对象的活跃度变化趋势,对所述信息操作记录所对应的信息标记样本类型;
基于每个所述信息在不同分组中被标记为不同样本类型的统计数据,确定所述信息的质量参数。
本申请实施例提供一种信息质量处理装置,包括:
获取模块,用于确定操作信息的活跃度低于低活跃度阈值的多个低活跃度对象,并获取所述多个低活跃度对象对应的信息操作记录;
分组模块,用于基于每个所述信息操作记录包括的操作数据,对所述信息操作记录标记分组特征,并基于每个所述信息操作记录被标记的分组特征,将所述每个所述信息操作记录分配到对应的分组;
标记模块,用于基于每个所述分组中的信息操作记录所对应的对象的活跃度变化趋势,对所述信息操作记录所对应的信息标记样本类型;
统计模块,用于基于每个所述信息在不同分组中被标记为不同样本类型的统计数据,确定所述信息的质量参数。
在上述方案中,所述获取模块,还用于获取任意对象的多个周期的操作数据;
将每个所述周期的操作数据与操作数据阈值比较,以确定满足活跃条件的活跃周期;
当所述多个周期中满足活跃条件的活跃周期的数量低于低活跃度阈值时,确定所述对象为所述低活跃度对象。
在上述方案中,本申请实施例提供的一种信息质量处理装置,还包括:
第一删除模块,用于遍历每个所述低活跃度对象对应的信息操作记录包括的操作数据;
当所述低活跃度对象所对应的操作数据处于特征区间之外时,删除所述低活跃度对象对应的信息操作记录;
其中,所述特征区间是不同的所述分组特征的子区间的并集。
在上述方案中,所述分组模块,还用于将特征区间划分为多个子区间,并为所述多个子区间分配一一对应的分组特征;
遍历每个所述信息操作记录,并针对遍历的所述信息操作记录执行以下处理:
确定与所述信息操作记录包括的操作数据匹配的子区间,针对所述信息操作记录标记所述匹配的子区间对应的分组特征。
在上述方案中,所述分组模块,还用于建立与多个所述分组特征一一对应的多个分组;
遍历每个所述信息操作记录,以执行以下处理:确定所述信息操作记录被标记的分组特征所对应的分组,并将所述信息操作记录分配到所确定的分组中。
在上述方案中,所述标记模块,还用于遍历每个所述分组中的信息操作记录,并针对所遍历的信息操作记录执行以下处理:
当所述信息操作记录所对应的对象在前t+1个周期的活跃度未呈上升趋势时,根据所述信息操作记录确定第t个周期中所述对象所参与的会话,将所述对象在所述会话的结束阶段中操作的信息标记为负样本;
其中,t为大于或等于1的整数。
在上述方案中,所述标记模块,还用于遍历每个所述分组中的信息操作记录,并针对所遍历的信息操作记录执行以下处理:
当所述信息操作记录所对应的对象在前t+1个周期的活跃度呈上升趋势时,根据所述信息操作记录确定第t个周期中所述对象所参与的会话,将所述对象在所述会话的中间阶段中操作的信息标记为正样本;
其中,t为大于或等于1的整数。
在上述方案中,所述确定模块,还用于遍历每个所述信息以执行以下处理:
确定所述在不同分组中被标记为正样本的次数,确定所述信息在所述不同分组中被标记为正样本的次数的第一加和;
确定所述在不同分组中被标记为负样本的次数,确定所述信息在所述不同分组中被标记为负样本的次数的第二加和;
确定所述第一加和与所述第二加和的差值,并将所述差值与所述第二加和的比值作为所述信息对应所述低活跃度用户的质量参数。
在上述方案中,所述统计模块,还用于确定操作所述信息的活跃度高于所述低活跃度阈值且低于高活跃度阈值的多个中活跃度对象,确定操作所述信息的活跃度高于所述高活跃度阈值的多个高活跃度对象;
针对每个所述信息执行以下处理:
将所述信息对应所述低活跃度对象的质量参数、所述信息对应所述中活跃度对象的质量参数、所述信息对应所述高活跃度对象的质量参数进行加权求和,将所述加权求和的结果作为所述信息的最终质量参数。
在上述方案中,本申请实施例提供的一种信息质量处理装置,还包括:
第二删除模块,用于遍历每个所述分组中的信息操作记录对应的信息被标记的样本类型,以确定每个分组的信息操作记录对应的信息中正样本的数量和负样本的数量;
将所述正样本的数量和负样本的数量之间的比例作为所述分组的样本比例,删除所具有的样本比例大于比例阈值的分组中的信息操作记录。
在上述方案中,本申请实施例提供的一种信息质量处理装置,还包括:
映射模块,用于以不同活跃度的对象的特征、以及所述不同活跃度的对象所操作的信息的特征为样本数据,以所述信息的质量参数为标记数据,训练用于质量分析的机器学习模型;
通过训练好的所述机器学习模型提取目标用户和目标信息的特征,并将所提取的特征映射为所述目标信息的质量参数。
在上述方案中,本申请实施例提供的一种信息质量处理装置,还包括:
推荐模块,用于接收推荐信息请求,获取与发送所述推荐信息请求的对象的特征匹配的多个候选信息;
在所述多个候选信息中过滤掉质量参数低于质量参数阈值的候选信息;
基于过滤后的候选信息响应所述推荐信息请求。
本申请实施例提供一种信息质量处理装置,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的信息质量处理方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于被处理器执行时,实现本申请实施例提供的信息质量处理方法。
本申请实施例具有以下有益效果:
通过对低活跃度对象进行获取、分组、标记以及统计处理,得到基于低活跃度对象确定的信息的质量参数,以低活跃度对象活跃度变化趋势作为牵引指标评估信息质量,相比仅仅根据反映高活跃度对象喜好的操作时长和操作数量等统计数据确定的方式更准确;通过低活跃度对象的操作数据进行质量评估,进一步更准确地度量信息的质量。
附图说明
图1是本申请实施例提供的信息质量处理系统100的一个架构示意图;
图2是本申请实施例提供的信息质量处理的终端的结构示意图;
图3A是本申请实施例提供的信息质量处理方法的一个流程示意图;
图3B是本申请实施例提供的信息质量处理方法的一个流程示意图;
图3C是本申请实施例提供的信息质量处理方法的一个流程示意图;
图4是本申请实施例提供的视频质量处理方法的流程示意图;
图5A是本申请实施例提供的归因系统对视频示例的标注情况的示意图;
图5B是本申请实施例提供的归因系统对视频示例的标注情况的示意图;
图6A是本申请实施例提供的归因系统对视频示例的标注情况的示意图;
图6B是本申请实施例提供的归因系统对视频示例的标注情况的示意图;
图7A是本申请实施例提供的归因系统对视频示例的标注情况的示意图;
图7B是本申请实施例提供的归因系统对视频示例的标注情况的示意图;
图8是本申请实施例提供的按照本申请实施例的方法测试得到的视频客户端视频内容的示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)会话(Session):对象在客户端中有连续行为的时间段,例如,行为间隔小于30分钟。
2)低活跃度用户,即活跃度低于低活跃度阈值的对象,例如,每周的活跃天数不足2天的用户。
相关技术中,对信息质量的度量通常通过以下两种方式进行评估:1)通过信息的标题吸引力和影响力评估信息质量:以时长、点击等数据作为牵引指标,构建多目标深度学习模型(例如深度分解机Deep FM(Deep&FM,Deep&Fact orization Machines))。2)通过信息内容的理解评估信息质量,以信息为视频为例,以人工标注视频为训练数据,使用融合视频帧和音频序列的视频分类模型对视频进行分类以确定视频质量,视频质量包括是否清晰、抖动以及有令人不适的画面等。
相关技术的上述方法在实际应用过程中,会出现以下问题:1)由于二八效应的存在,Deep FM网络模型所用的大量点击、时长数据均来源于中高活跃对象产生的操作数据,并不能代表低活跃对象,仅仅根据中高活跃度对象产生的操作数据得到信息质量评估结果不够准确;而且点击或时长等操作数据与对象是否满意没有必然的因果关系。2)基于信息的内容理解的信息质量模型只能识别出有明显问题的信息,难以满足用户对信息的要求,更难以提高用户的满意度。
针对上述问题,本申请实施例提供一种信息质量处理方法、装置、电子设备和计算机可读存储介质,能够准确评估信息对应低活跃对象质量参数,下面说明本申请实施例提供的信息质量处理设备的示例性应用,本申请实施例提供的信息质量处理设备可以实施为笔记本电脑,平板电脑,台式计算机,机顶盒,移动设备等各种类型的用户终端,也可以实施为服务器。下面,将说明设备实施为终端时示例性应用。
参见图1,图1是本申请实施例提供的信息质量处理系统100的一个架构示意图,为实现支撑一个信息质量处理应用,终端(示例性示出了终端400-1和终端400-2)通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。
终端用于获取信息操作记录,将信息操作记录发送至服务器200,以得到服务器返回的该信息操作记录中信息的质量参数,以根据信息的质量参数选择优质的信息,并将其在客户端的图形界面中显示给终端用户,以提升终端用户的满意度。
服务器200用于接收终端发送的信息操作记录,对该信息操作记录进行获取(获取低活跃度对象的信息操作记录)、分组、标记以及统计处理,以确定出信息的质量参数。
在一些实施例中,终端本地执行本申请实施例提供的信息质量处理方法来确定信息的质量参数,例如,终端根据终端用户的操作信息的活跃度获取低活跃度对象对应的信息操作记录,在终端本地对信息操作记录进行分组、标记以及统计一系列处理,以得到信息的质量参数,并根据信息的质量参数选择出优质的信息,在客户端的图形界面中显示给终端用户。
在另一些实施例中,终端也可以通过网络300向服务器200发送信息操作数据,并调用服务器200提供本申请实施例提供的信息质量处理功能,服务器200通过本申请实施例提供的信息质量处理方法对信息操作记录进行分组、标记以及统计一系列处理,以得到信息的质量参数,例如,终端统计用户的信息操作记录通过网络300发送给服务器200,服务器接收到信息操作记录后,筛选出低活跃度对象对应的信息操作记录,并对其进行分组、标记以及统计一系列处理,得到各信息的质量参数以返回给终端,终端能够根据大量信息的质量参数选择出优质信息以显示给终端用户,或者,服务器200也可以直接给出优质信息返回给终端。
在一些实施例中,服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。
本申请实施例可以广泛应用于信息质量处理场景中,以信息为视频为例,在视频客户端中,视频客户端获取用户的海量视频观看记录,对其进行获取、分组、标记以及统计一系列处理,以得到各视频的质量参数,以提升评估视频质量的准确度;该信息质量处理系统100还可以应用于推荐系统中,将得到的视频质量参数输入推荐系统中,以使推荐系统将质量较优的视频推荐给用户,以提高用户对视频及视频客户端的满意度,该得到的视频质量参数也可以存储在服务器中,后续供推荐系统离线使用。除此以外,与信息质量处理相关的场景都属于本申请的潜在应用场景。
下面对本申请实施例提供的信息质量处理方法的电子设备的硬件结构做详细说明。以电子设备为图1示出的终端(如终端400-1和终端400-2)为例,参见图2,图2是本申请实施例提供的信息质量处理的终端的结构示意图,图2所示的终端包括:至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。终端中的各个组件通过总线系统440耦合在一起。可理解,总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统440。
处理器410可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器450可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。
存储器450包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Me mory),易失性存储器可以是随机存取存储器(RAM,Random Access Memor y)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。
在一些实施例中,存储器450能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统451,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块452,用于经由一个或多个(有线或无线)网络接口420到达其他计算设备,示例性的网络接口420包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
呈现模块453,用于经由一个或多个与用户接口430相关联的输出装置431(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块454,用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的信息质量处理装置可以采用软件方式实现,图2示出了存储在存储器450中的信息质量处理装置455,其可以是程序和插件等形式的软件,包括以下软件模块:获取模块4551、分组模块4552、标记模块4553、统计模块4554、第一删除模块4555、第二删除模块4556、映射模块4557和推荐模块4558,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
可以理解的是,本申请实施例提供的信息质量处理方法可以由电子设备执行,电子设备包括但不限于服务器或终端。下面将结合本申请实施例提供的终端的示例性应用和实施,说明本申请实施例提供的信息质量处理方法。
参见图3A,图3A是本申请实施例提供的信息质量处理方法的一个流程示意图,将结合图3A示出的步骤进行说明。
在步骤101中,确定操作信息的活跃度低于低活跃度阈值的多个低活跃度对象,并获取多个低活跃度对象对应的信息操作记录。
在一些实施例中,确定操作信息的活跃度低于活跃度阈值的多个低活跃度对象,可以通过以下方式实现:获取任意对象的多个周期的操作数据;将每个周期的操作数据与操作数据阈值比较,以确定满足活跃条件的活跃周期;当多个周期中满足活跃条件的活跃周期的数量低于低活跃度阈值时,确定对象为低活跃度对象。
需要说明的是,信息操作记录,包括对象标识、信息标识、操作数据(对象标识对应的对象操作信息标识对应的信息的数据)。
作为示例,以用户观看视频的应用场景为例,低活跃度对象即为低活跃度用户,操作即为观看,信息即为视频,操作数据包括观看视频时的停留时长、点击视频次数等,信息操作记录即为用户标识对应的用户观看视频标识对应的视频的数据。获取任意用户的多个周期的停留时长或点击次数;当每个周期的停留时长大于时长阈值或点击次数大于次数阈值,确定该周期是否满足活跃条件,进而确定出统计时间内的活跃周期;当统计时间中满足活跃条件的活跃周期的数量低于低活跃度阈值时,确定用户为低活跃度用户。其中,统计时间可以包括多个周期,例如,以一天为周期,统计时间可以为一周、一个月或一年等,低活跃度阈值可以为2次。
在本申请实施例中,独立计算低活跃度对象的统计数据,相比仅仅反映高活跃度对象喜好的操作时长和操作数量等统计数据,加入低活跃度对象的统计数据确定信息质量,其结果更准确,能够提升整体用户的满意度。
在步骤102中,基于每个信息操作记录包括的操作数据,对信息操作记录标记分组特征,并基于每个信息操作记录被标记的分组特征,将每个信息操作记录分配到对应的分组。
在一些实施例中,基于每个信息操作记录包括的操作数据,对信息操作记录标记分组特征,可以通过以下方式实现:将特征区间划分为多个子区间,并为多个子区间分配一一对应的分组特征;遍历每个信息操作记录,并针对遍历的信息操作记录执行以下处理:确定与信息操作记录包括的操作数据匹配的子区间,针对信息操作记录标记匹配的子区间对应的分组特征。
作为示例,对信息操作记录标记分组特征可以是在信息操作记录中添加分组特征的字段。即信息操作记录,包括对象标识、信息标识、操作数据、分组特征。
举例来说,以操作数据为停留时长为例,假设特征区间为[100,500],即大于或等于100秒至小于或等于500秒,将第一子区间为[100,200),即大于或等于100秒至小于200秒,为第一子区间分配分组特征1;第二子区间为[200,300),即大于或等于200秒至小于300秒,为第二子区间分配分组特征2;第三子区间为[300,400),即大于或等于300秒至小于400秒,为第三子区间分配分组特征3;第四子区间为[400,500],即大于或等于400秒至小于或等于500秒,为第四子区间分配分组特征4;假设信息操作记录1中的用户1观看视频1的停留时长为100秒,信息操作记录2中的用户2观看视频1的停留时长为200秒,信息操作记录3中的用户2观看视频2的停留时长为300秒;遍历每个信息操作记录,将信息操作记录1的分组特征标记为1,将信息操作记录2的分组特征标记为2,将信息操作记录3的分组特征标记为3。
在一些实施例中,基于每个信息操作记录被标记的分组特征,将每个信息操作记录分配到对应的分组,可以通过以下方式实现:建立与多个分组特征一一对应的多个分组;遍历每个信息操作记录,以执行以下处理:确定信息操作记录被标记的分组特征所对应的分组,并将信息操作记录分配到所确定的分组中。
举例来说,建立与分组特征1、2、3、4一一对应的第一分组、第二分组、第三分组以及第四分组,遍历每个信息操作记录,将信息操作记录1分配到第一分组,将信息操作记录2分配到第二分组,将信息操作记录3分配到第三分组。
在一些实施例中,在基于每个信息操作记录包括的操作数据,对信息操作记录标记分组特征之前,还可以执行以下步骤:遍历每个低活跃度对象对应的信息操作记录包括的操作数据;当低活跃度对象所对应的操作数据处于特征区间之外时,删除低活跃度对象对应的信息操作记录;其中,特征区间是不同的分组特征的子区间的并集。
需要说明的是,操作数据包括停留时长、操作次数至少之一;当操作数据仅包括停留时长时,遍历每个低活跃度对象对应的信息操作记录包括的停留时长;当低活跃度对象操作信息的停留时长处于特征区间之外时,删除低活跃度对象对应的信息操作记录;当操作数据仅包括操作次数时,遍历每个低活跃度对象对应的信息操作记录包括的操作次数;当低活跃度对象操作信息的操作次数小于次数阈值时,删除低活跃度对象对应的信息操作记录;当操作数据包括停留时长和操作次数时,遍历每个低活跃度对象对应的信息操作记录包括的停留时长和操作次数;当低活跃度对象操作信息的停留时长处于特征区间之外、且低活跃度对象操作信息的操作次数小于次数阈值时,删除低活跃度对象对应的信息操作记录。
在本申请实施例中,在基于每个信息操作记录包括的操作数据,对信息操作记录标记分组特征之前,进行对低活跃度对象的过滤操作,过滤掉那些停留时长过长或过短、操作次数过少的低活跃度对象,以获取有效的低活跃度对象,以提升后续对低活跃度对象进行处理的效率。
在步骤103中,基于每个分组中的信息操作记录所对应的对象的活跃度变化趋势,对信息操作记录所对应的信息标记样本类型。
在一些实施例中,参见图3B,图3B是本申请实施例提供的信息质量处理方法的一个流程示意图,基于图3A,图3B示出的步骤103可以通过步骤1031以及步骤1032实现,将结合各步骤进行说明。
步骤1031,遍历每个分组中的信息操作记录,并针对所遍历的信息操作记录执行以下处理:当信息操作记录所对应的对象在前t+1个周期的活跃度未呈上升趋势时,根据信息操作记录确定第t个周期中对象所参与的会话,将对象在会话的结束阶段中操作的信息标记为负样本;其中,t为大于或等于1的整数。
步骤1032,遍历每个分组中的信息操作记录,并针对所遍历的信息操作记录执行以下处理:当信息操作记录所对应的对象在前t+1个周期的活跃度呈上升趋势时,根据信息操作记录确定第t个周期中对象所参与的会话,将对象在会话的中间阶段中操作的信息标记为正样本;其中,t为大于或等于1的整数。
举例来说,以用户观看视频的应用场景为例,遍历每个分组中的视频观看记录,并针对所遍历的视频观看记录执行以下处理:当视频观看记录包括的用户在前t+1个周期的活跃度未呈上升趋势时,统计视频观看记录中第t个周期中用户所参与的全部或部分会话,将用户在会话的结束阶段中观看的视频标记为负样本。这里会话的结束阶段可以是会话的最后1分钟,会话的最后10%的时间段,会话的最后一条或多条视频等。
在本申请实施例中,以低活跃用户活跃度变化趋势作为牵引指标评估信息质量,相比仅仅根据反映高活跃度对象喜好的操作时长和操作数量等统计数据确定的方式更准确;根据低活跃度对象的行为的时序信息(操作信息处于会话的时序阶段的信息)标记样本,进行质量评估,进一步更准确地度量信息的质量,共同提升低活跃度对象对信息的满意度。
在步骤104中,基于每个信息在不同分组中被标记为不同样本类型的统计数据,确定信息的质量参数。
在一些实施例中,基于每个信息在不同分组中被标记为不同样本类型的统计数据,确定信息的质量参数,可以通过以下方式实现:遍历每个信息以执行以下处理:确定在不同分组中被标记为正样本的次数,确定信息在不同分组中被标记为正样本的次数的第一加和;确定在不同分组中被标记为负样本的次数,确定信息在不同分组中被标记为负样本的次数的第二加和;确定第一加和与第二加和的差值,并将差值与第二加和的比值作为信息对应低活跃度用户的质量参数。需要说明的是,这里的样本类型包括正样本和负样本。
在一些示例中,基于海量的信息操作记录确定的信息的质量参数,建立包括对象标识、信息标识以及质量参数的数据库,以响应前端的查询请求。以发送推送信息请求为例,前端发送对象标识,后台将对象标识和数据库中待推荐信息的标识组成查询对(包括对象标识和信息标识),在数据库中查询对象针对信息的评分,过滤掉评分低的信息,将过滤后的待推荐信息返回用户前端展示。
在另一些示例中,筛选出那些过滤掉的低分的信息供运维人员分析出低分原因。以低分信息的对象特征、信息特征和质量参数为样本数据,以低分原因为标注数据,训练低分类型模型;通过训练好的低分类型模型,结合对象特征、信息特征和质量参数,来预测低分原因;模型的输入为:低分信息的对象特征、信息特征和质量参数,预测低分信息针对各个候选的低分原因的概率,将最大概率的低分原因作为低分原因。
在另一些实施例中,基于每个信息在不同分组中被标记为不同样本类型的统计数据,确定信息的质量参数,可以通过以下方式实现:确定操作信息的活跃度高于低活跃度阈值且低于高活跃度阈值的多个中活跃度对象,确定操作信息的活跃度高于高活跃度阈值的多个高活跃度对象;针对每个信息执行以下处理:将信息对应低活跃度对象的质量参数、信息对应中活跃度对象的质量参数、信息对应高活跃度对象的质量参数进行加权求和,将加权求和的结果作为信息的最终质量参数。
在一些示例中,基于每个信息在不同分组中被标记为不同样本类型的统计数据确定信息的质量参数,可以通过以下方式实现:确定操作信息的活跃度高于低活跃度阈值且低于高活跃度阈值的多个中活跃度对象,并获取多个中活跃度对象对应的信息操作记录;确定操作信息的活跃度高于高活跃度阈值的多个高活跃度对象,并获取多个高活跃度对象对应的信息操作记录;根据多个高活跃度对象的信息操作记录所包括的操作数据,包括点击次数或观看时长,确定信息对应高活跃度对象的质量参数;其中,质量参数与操作数据正相关;根据多个中活跃度对象的信息操作记录所包括的操作数据,包括点击次数或观看时长,确定信息对应中活跃度对象的质量参数;其中,质量参数与操作数据正相关;针对每个信息执行以下处理:将信息对应低活跃度对象的质量参数、信息对应中活跃度对象的质量参数、信息对应高活跃度对象的质量参数进行加权求和,将加权求和的结果作为信息的最终质量参数。
在一些实施例中,在基于每个分组中的信息操作记录所对应的对象的活跃度变化趋势,对信息操作记录所对应的信息标记样本类型之后,还可以执行以下步骤:遍历每个分组中的信息操作记录对应的信息被标记的样本类型,以确定每个分组的信息操作记录对应的信息中正样本的数量和负样本的数量;将正样本的数量和负样本的数量之间的比例作为分组的样本比例,删除所具有的样本比例大于比例阈值的分组中的信息操作记录。
举例来说,统计每个分组中的信息操作记录,计算出信息操作记录整体正样本:负样本比例为a,基于操作数据分组,计算出各分组的正样本:负样本比例,即第一分组、第二分组、第三分组和第四分组所具有的正负样本的比例分别为x1、x2、x3、x4。当的绝对值大于比例阈值时,过滤掉该分组下所有信息操作记录,这里n的取值为1、2、3、4。
在本申请实施例中,对信息操作记录在不同分组中的分布进行校验,让其具有的正负样本在不同分组中的比例尽量相同,能够使得信息质量评估结果更准确,并加快了处理效率。
在一些实施例中,在基于每个信息在不同分组中被标记为不同样本类型的统计数据,确定信息的质量参数之后,还可以执行以下步骤:以不同活跃度的对象的特征、以及不同活跃度的对象所操作的信息的特征为样本数据,以信息的质量参数为标记数据,训练用于质量分析的机器学习模型;通过训练好的机器学习模型提取目标对象和目标信息的特征,并将所提取的特征映射为目标信息的质量参数。
需要说明的是,标记数据相当于是基于对象、信息、质量参数进行学习,即通过学习样本信息包括的对象的特征、信息的特征和质量参数的特征,映射出目标信息的质量参数。以机器学习模型应用于预测<用户,视频>粒度的视频的评分,输入机器学习模型的是用户特征和视频特征,从而预测用户针对视频的评分。
在本申请实施例中,基于海量的信息操作记录,通过学习已被操作过的信息的特征,考虑对象的整体性,能够准确预测出任意信息(已被操作过和未被操作过)的视频满意度;其信息质量处理方法可以以在线服务的方式供业务方使用,输入为对象标识和信息标识,即能够返回预测的信息质量参数。
在一些实施例中,基于图3A,参见图3C,图3C是本申请实施例提供的信息质量处理方法的一个流程示意图,图3C示出了在步骤104之后,还可以执行步骤105至步骤107,将结合各步骤进行说明。
在步骤105中,接收推荐信息请求,获取与发送推荐信息请求的对象的特征匹配的多个候选信息。
在步骤106中,在多个候选信息中过滤掉质量参数低于质量参数阈值的候选信息。
在步骤107中,基于过滤后的候选信息响应推荐信息请求。
作为示例,以视频客户端为例,将本申请实施例提供的信息质量处理方法应用于视频客户端,当视频客户端预测用户对候选视频的满意度(即质量参数)较低时,则不给该用户展现该视频。
在本申请实施例中,将本申请实施例提供的信息质量处理方法应用于推荐系统,在推荐系统中将优质信息推荐给对象,以提高用户对视频及视频客户端的满意度;其信息质量处理结果也可以存储在服务器中,后续供推荐系统离线使用。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。以信息为视频为例,在视频客户端中,视频客户端获取用户的海量视频观看记录,通过执行本申请实施例提供的视频质量处理方法以得到各视频的质量参数,以提升评估视频质量的准确度;将得到的视频质量参数输入推荐系统中,以使推荐系统将质量较优的视频推荐给用户,以提升用户对视频及视频客户端的满意度。下面针对本申请实施例提供的视频质量处理方法进行详细说明,参见图4,图4是本申请实施例提供的视频质量处理方法的流程示意图,本申请实施例提供的视频质量处理方法包括:
步骤201:选取低活跃度用户。举例来说,用活跃天数衡量活跃度,确定周活跃天数为1天或2天的用户为低活跃度用户,周活跃天数为3天或4天的用户为中活跃度用户,周活跃天数为4天以上的用户为中高活跃度用户。选取t周中的低活跃度用户,其中,如果某用户t+1周变为中活跃度用户或高活跃度用户,则该用户标记为活跃度呈上升趋势,否则标记为活跃度呈未上升趋势。
步骤202:过滤停留时长过短和过长的用户。对步骤201中选取的低活跃度用户进行过滤,保留停留时长在特征区间且观看视频大于1条的用户;举例来说,特征区间可以是100秒-500秒。
步骤203:基于停留时长对用户所对应的视频观看记录进行分组,对视频观看记录标记分组特征。基于停留时长标记视频观看记录的分组特征;举例来说,当观看记录的停留时长为100-200秒时,将其分组特征标记为1;当观看记录的停留时长为200-300秒时,将其分组特征标记为2;当观看记录的停留时长为300-400秒时,将其分组特征标记为3;当观看记录的停留时长为400-500秒时,将其分组特征标记为4。
需要说明的是,分组中视频的观看记录包括:视频标识和用户标识;举例来说,假设一条观看记录为aij,i为用户的序号,j为视频的序号,观看记录表征用户i观看视频j;遍历观看记录,根据观看记录对应的用户i观看视频j的停留时长对观看记录aij进行分组。i为从1开始递增的整数且最大值为I,j为从1开始递增的整数且最大值为J;遍历的方式包括:第一种:遍历视频j(用户从1开始递增最大值为I),用户1观看的视频1,用户1观看的视频2,…,用户1观看的视频J;用户2观看的视频1,用户2观看的视频2,用户2观看的视频J,…,直至遍历完用户I观看的视频J。第二种:遍历用户i(视频从1开始递增最大值为J),用户1观看的视频1,用户2观看的视频1,…,用户I观看的视频1;用户1观看的视频2,用户2观看的视频2,用户I观看的视频2,…,直至遍历完用户I观看的视频J。
步骤204:标记正样本。对过滤后用户的观看行为(即操作数据)进行分析,前t+1周的活跃度呈上升趋势的用户在第t周中某天所参与的某个会话Ses sion的中间阶段的视频记为正样本。其中,t为大于或等于1的整数。
在一些实施例中,针对步骤203中的每个分组,遍历分组中的视频观看记录,确定视频观看记录对应用户前t+1周的活跃度呈上升趋势,进而确定视频所在会话是否满足标记为正样本的条件(用户在所参与会话的中间阶段中观看的视频),将用户在所参与会话的中间阶段(例如中间1分钟,中间10%的时间段或非最后一条视频等)中观看的视频标记为正样本。
步骤205:标记负样本。前t+1周的活跃度呈未上升趋势的用户在第t周中某天所参与的某个会话的结束阶段的视频记为负样本。
在一些实施例中,针对步骤203中的每个分组,遍历分组中的视频观看记录,确定视频观看记录对应用户前t+1周的活跃度呈未上升趋势,进而确定视频所在会话是否满足标记为负样本的条件(用户在所参与会话的中间阶段中观看的信息);将用户在所参与会话的中间阶段(例如最后1分钟,最后10%的时间段,最后一条或多条等)中观看的视频标记为负样本。
步骤206:对数据分布进行校验,让正负样本在不同分组中的比例基本相同。遍历每个分组中的视频观看记录,统计每个分组中的视频观看记录对应的视频被标记为正、负样本的比例,当某一分组中的正样本与负样本的比例大于所有分组中的正样本与负样本的比例,删除该分组中的所有视频观看记录。
假设视频观看记录整体正样本:负样本比例为a,基于停留时长分组后,各分组的正样本:负样本比例分别为x1,x2,x3,x4。当的绝对值大于比例阈值时,过滤掉该分组下所有视频观看记录,这里n的取值为1、2、3、4,举例来说比例阈值可以为0.2。
步骤207:计算视频粒度正负样本占比差异,形成评分。遍历筛选后的分组中的视频观看记录,统计筛选后的分组中的视频观看记录对应的视频中正、负样本的数量,根据每个视频中正负样本的数量之间的比例计算评分,
步骤208:通过示例case分析验证方法的合理性。参见图5-7,图5-7是本申请实施例提供的归因系统对视频示例的标注情况的示意图。可见,通过本申请实施例的方法挖掘出了导致低分视频低分的原因,图5A是竖版转横版的正确版式501,图5B是竖版转横版的错误版式502,通过归因系统得到该视频的低分原因为版式错误;图6A是包含低俗内容601的视频示例,图6B是包含正常内容602内容的视频示例,通过归因系统得到该视频的低分原因为包含低俗内容;图7A是清晰度不佳701的视频示例,图7B是清晰度良好702的视频示例,通过归因系统得到该视频的低分原因为清晰度不佳。参见图8,图8是本申请实施例提供的按照本申请实施例的方法得到的视频客户端的示意图。可见,按照通过步骤208验证通过的方法得到的视频客户端显示的视频801、视频802、视频803均为质量较优的视频。
值得说明的是,步骤201中活跃度也可以用活跃时间衡量,确定活跃时间低于低活跃时间阈值的用户为低活跃用户;步骤203中的分组的依据,除了按照停留时长进行分组外,还可以根据其他属性,如点击次数等操作数据。
在本申请实施例中,建立了细粒度用户活跃度变化牵引下的归因体系,包括:独有的图文、视频体验量化标准,主要是挖掘低活跃度用户及其对图文、视频的评分方式。从而,能够挖掘出低分的图文、视频,进而通过对低分图文、视频分析发现导致低分的多个类型的问题(例如版式缺乏优化、包括令人不适内容、视频不清晰等)。
下面继续说明本申请实施例提供的信息质量处理装置455的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器450的信息质量处理装置455中的软件模块可以包括:
获取模块4551,用于确定操作信息的活跃度低于低活跃度阈值的多个低活跃度对象,并获取多个低活跃度对象对应的信息操作记录;分组模块4552,用于基于每个信息操作记录包括的操作数据,对信息操作记录标记分组特征,并基于每个信息操作记录被标记的分组特征,将每个信息操作记录分配到对应的分组;标记模块4553,用于基于每个分组中的信息操作记录所对应的对象的活跃度变化趋势,对信息操作记录所对应的信息标记样本类型;统计模块4554,用于基于每个信息在不同分组中被标记为不同样本类型的统计数据,确定信息的质量参数。
在一些实施例中,获取模块4551,还用于获取任意对象的多个周期的操作数据;将每个周期的操作数据与操作数据阈值比较,以确定满足活跃条件的活跃周期;当多个周期中满足活跃条件的活跃周期的数量低于低活跃度阈值时,确定对象为低活跃度对象。
在一些实施例中,本申请实施例提供的一种信息质量处理装置,还包括:第一删除模块4555,用于遍历每个低活跃度对象对应的信息操作记录包括的操作数据;当低活跃度对象所对应的操作数据处于特征区间之外时,删除低活跃度对象对应的信息操作记录;其中,特征区间是不同的分组特征的子区间的并集。
在一些实施例中,分组模块4552,还用于将特征区间划分为多个子区间,并为多个子区间分配一一对应的分组特征;遍历每个信息操作记录,并针对遍历的信息操作记录执行以下处理:确定与信息操作记录包括的操作数据匹配的子区间,针对信息操作记录标记匹配的子区间对应的分组特征。
在一些实施例中,分组模块4552,还用于建立与多个分组特征一一对应的多个分组;遍历每个信息操作记录,以执行以下处理:确定信息操作记录被标记的分组特征所对应的分组,并将信息操作记录分配到所确定的分组中。
在一些实施例中,标记模块4553,还用于遍历每个分组中的信息操作记录,并针对所遍历的信息操作记录执行以下处理:当信息操作记录所对应的对象在前t+1个周期的活跃度未呈上升趋势时,根据信息操作记录确定第t个周期中对象所参与的会话,将对象在会话的结束阶段中操作的信息标记为负样本;其中,t为大于或等于1的整数。
在一些实施例中,标记模块4553,还用于遍历每个分组中的信息操作记录,并针对所遍历的信息操作记录执行以下处理:当信息操作记录所对应的对象在前t+1个周期的活跃度呈上升趋势时,根据信息操作记录确定第t个周期中对象所参与的会话,将对象在会话的中间阶段中操作的信息标记为正样本;其中,t为大于或等于1的整数。
在一些实施例中,统计模块4554,还用于遍历每个信息以执行以下处理:确定在不同分组中被标记为正样本的次数,确定信息在不同分组中被标记为正样本的次数的第一加和;确定在不同分组中被标记为负样本的次数,确定信息在不同分组中被标记为负样本的次数的第二加和;确定第一加和与第二加和的差值,并将差值与第二加和的比值作为信息对应低活跃度用户的质量参数。
在一些实施例中,统计模块4554,还用于确定操作信息的活跃度高于低活跃度阈值且低于高活跃度阈值的多个中活跃度对象,确定操作信息的活跃度高于高活跃度阈值的多个高活跃度对象;针对每个信息执行以下处理:将信息对应低活跃度对象的质量参数、信息对应所述中活跃度对象的质量参数、信息对应高活跃度对象的质量参数进行加权求和,将加权求和的结果作为信息的最终质量参数。
在一些实施例中,本申请实施例提供的一种信息质量处理装置,还包括:第二删除模块4556,用于遍历每个分组中的信息操作记录对应的信息被标记的样本类型,以确定每个分组的信息操作记录对应的信息中正样本的数量和负样本的数量;将正样本的数量和负样本的数量之间的比例作为分组的样本比例,删除所具有的样本比例大于比例阈值的分组中的信息操作记录。
在一些实施例中,本申请实施例提供的一种信息质量处理装置,还包括:映射模块4557,用于以不同活跃度的对象的特征、以及不同活跃度的对象所操作的信息的特征为样本数据,以信息的质量参数为标记数据,训练用于质量分析的机器学习模型;通过训练好的机器学习模型提取目标对象和目标信息的特征,并将所提取的特征映射为目标信息的质量参数。
在一些实施例中,本申请实施例提供的一种信息质量处理装置,还包括:推荐模块4558,用于接收推荐信息请求,获取与发送推荐信息请求的对象的特征匹配的多个候选信息;在多个候选信息中过滤掉质量参数低于质量参数阈值的候选信息;基于过滤后的候选信息响应推荐信息请求。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例上述的信息质量处理方法。
本申请实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的方法,例如,如图3A、3B、3C示出的信息质量处理方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
综上所述,通过本申请实施例独立计算低活跃度对象的统计数据,相比仅仅反映高活跃度对象喜好的操作时长和操作数量等统计数据,加入低活跃度对象的统计数据确定信息质量,其结果更准确,能够提升整体用户的满意度;在基于每个信息操作记录包括的操作数据,对信息操作记录标记分组特征之前,进行对低活跃度对象的过滤操作,过滤掉那些停留时长过长或过短、操作次数过少的低活跃度对象,以获取有效的低活跃度对象,以提升后续对低活跃度对象进行处理的效率;基于海量的信息操作记录,通过学习已被操作过的信息的特征,考虑对象的整体性,能够准确预测出任意信息(已被操作过和未被操作过)的视频满意度;其信息质量处理方法可以以在线服务的方式供业务方使用,输入为对象标识和信息标识,即能够返回预测的信息质量参数;将本申请实施例提供的信息质量处理方法应用于推荐系统,在推荐系统中将优质信息推荐给对象,以提高用户对视频及视频客户端的满意度;其信息质量处理结果也可以存储在服务器中,后续供推荐系统离线使用。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。
Claims (15)
1.一种信息质量处理方法,其特征在于,包括:
确定操作信息的活跃度低于低活跃度阈值的多个低活跃度对象,并获取所述多个低活跃度对象对应的信息操作记录;
基于每个所述信息操作记录包括的操作数据,对所述信息操作记录标记分组特征,并基于每个所述信息操作记录被标记的分组特征,将所述每个所述信息操作记录分配到对应的分组;
基于每个所述分组中的信息操作记录所对应的对象的活跃度变化趋势,对所述信息操作记录所对应的信息标记样本类型;
基于每个所述信息在不同分组中被标记为不同样本类型的统计数据,确定所述信息的质量参数。
2.根据权利要求1所述的方法,其特征在于,所述确定操作信息的活跃度低于活跃度阈值的多个低活跃度对象,包括:
获取任意对象的多个周期的操作数据;
将每个所述周期的操作数据与操作数据阈值比较,以确定满足活跃条件的活跃周期;
当所述多个周期中满足活跃条件的活跃周期的数量低于低活跃度阈值时,确定所述对象为所述低活跃度对象。
3.根据权利要求1所述的方法,其特征在于,在基于每个所述信息操作记录包括的操作数据,对所述信息操作记录标记分组特征之前,所述方法还包括:
遍历每个所述低活跃度对象对应的信息操作记录包括的操作数据;
当所述低活跃度对象所对应的操作数据处于特征区间之外时,删除所述低活跃度对象对应的信息操作记录;
其中,所述特征区间是不同的所述分组特征的子区间的并集。
4.根据权利要求1所述的方法,其特征在于,所述基于每个所述信息操作记录包括的操作数据,对所述信息操作记录标记分组特征,包括:
将特征区间划分为多个子区间,并为所述多个子区间分配一一对应的分组特征;
遍历每个所述信息操作记录,并针对遍历的所述信息操作记录执行以下处理:
确定与所述信息操作记录包括的操作数据匹配的子区间,针对所述信息操作记录标记所述匹配的子区间对应的分组特征。
5.根据权利要求1所述的方法,其特征在于,所述基于每个所述信息操作记录被标记的分组特征,将所述每个所述信息操作记录分配到对应的分组,包括:
建立与多个所述分组特征一一对应的多个分组;
遍历每个所述信息操作记录,以执行以下处理:确定所述信息操作记录被标记的分组特征所对应的分组,并将所述信息操作记录分配到所确定的分组中。
6.根据权利要求1所述的方法,其特征在于,所述基于每个所述分组中的信息操作记录所对应的对象的活跃度变化趋势,对所述信息操作记录所对应的信息的标记样本类型,包括:
遍历每个所述分组中的信息操作记录,并针对所遍历的信息操作记录执行以下处理:
当所述信息操作记录所对应的对象在前t+1个周期的活跃度未呈上升趋势时,根据所述信息操作记录确定第t个周期中所述对象所参与的会话,将所述对象在所述会话的结束阶段中操作的信息标记为负样本;
其中,t为大于或等于1的整数。
7.根据权利要求1所述的方法,其特征在于,所述基于每个所述分组中的信息操作记录所对应的对象的活跃度变化趋势,对所述信息操作记录所对应的信息的标记样本类型,包括:
遍历每个所述分组中的信息操作记录,并针对所遍历的信息操作记录执行以下处理:
当所述信息操作记录所对应的对象在前t+1个周期的活跃度呈上升趋势时,根据所述信息操作记录确定第t个周期中所述对象所参与的会话,将所述对象在所述会话的中间阶段中操作的信息标记为正样本;
其中,t为大于或等于1的整数。
8.根据权利要求1所述的方法,其特征在于,所述基于每个所述信息在不同分组中被标记为不同样本类型的统计数据,确定所述信息的质量参数,包括:
遍历每个所述信息以执行以下处理:
确定所述在不同分组中被标记为正样本的次数,确定所述信息在所述不同分组中被标记为正样本的次数的第一加和;
确定所述在不同分组中被标记为负样本的次数,确定所述信息在所述不同分组中被标记为负样本的次数的第二加和;
确定所述第一加和与所述第二加和的差值,并将所述差值与所述第二加和的比值作为所述信息对应所述低活跃度对象的质量参数。
9.根据权利要求8所述的方法,其特征在于,所述基于每个所述信息在不同分组中被标记为不同样本类型的统计数据,确定所述信息的质量参数,包括:
确定操作所述信息的活跃度高于所述低活跃度阈值且低于高活跃度阈值的多个中活跃度对象,确定操作所述信息的活跃度高于所述高活跃度阈值的多个高活跃度对象;
针对每个所述信息执行以下处理:
将所述信息对应所述低活跃度对象的质量参数、所述信息对应所述中活跃度对象的质量参数、所述信息对应所述高活跃度对象的质量参数进行加权求和,将所述加权求和的结果作为所述信息的最终质量参数。
10.根据权利要求1至9任一项所述的方法,其特征在于,在基于每个所述分组中的信息操作记录所对应的对象的活跃度变化趋势,对所述信息操作记录所对应的信息标记样本类型之后,还包括:
遍历每个所述分组中的信息操作记录对应的信息被标记的样本类型,以确定每个分组的信息操作记录对应的信息中正样本的数量和负样本的数量;
将所述正样本的数量和负样本的数量之间的比例作为所述分组的样本比例,删除所具有的样本比例大于比例阈值的分组中的信息操作记录。
11.根据权利要求1至9任一项所述的方法,其特征在于,所述方法还包括:
以不同活跃度的对象的特征、以及所述不同活跃度的对象所操作的信息的特征为样本数据,以所述信息的质量参数为标记数据,训练用于质量分析的机器学习模型;
通过训练好的所述机器学习模型提取目标对象和目标信息的特征,并将所提取的特征映射为所述目标信息的质量参数。
12.根据权利要求1至9任一项所述的方法,其特征在于,所述方法还包括:
接收推荐信息请求,获取与发送所述推荐信息请求的对象的特征匹配的多个候选信息;
在所述多个候选信息中过滤掉质量参数低于质量参数阈值的候选信息;
基于过滤后的候选信息响应所述推荐信息请求。
13.一种信息质量处理装置,其特征在于,包括:
获取模块,用于确定操作信息的活跃度低于低活跃度阈值的多个低活跃度对象,并获取所述多个低活跃度对象对应的信息操作记录;
分组模块,用于基于每个所述信息操作记录包括的操作数据,对所述信息操作记录标记分组特征,并基于每个所述信息操作记录被标记的分组特征,将所述每个所述信息操作记录分配到对应的分组;
标记模块,用于基于每个所述分组中的信息操作记录所对应的对象的活跃度变化趋势,对所述信息操作记录所对应的信息标记样本类型;
统计模块,用于基于每个所述信息在不同分组中被标记为不同样本类型的统计数据,确定所述信息的质量参数。
14.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至12任一项所述的信息质量处理方法。
15.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于被处理器执行时,实现权利要求1至12任一项所述的信息质量处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011112884.1A CN112291625B (zh) | 2020-10-16 | 2020-10-16 | 信息质量处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011112884.1A CN112291625B (zh) | 2020-10-16 | 2020-10-16 | 信息质量处理方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112291625A CN112291625A (zh) | 2021-01-29 |
CN112291625B true CN112291625B (zh) | 2024-03-01 |
Family
ID=74497485
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011112884.1A Active CN112291625B (zh) | 2020-10-16 | 2020-10-16 | 信息质量处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112291625B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114343592B (zh) * | 2022-01-25 | 2023-06-20 | 广东省第二人民医院(广东省卫生应急医院) | 一种即时体温与心律关联护理监控方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0312894D0 (en) * | 2003-06-05 | 2003-07-09 | Ibm | Liveness monitoring in a publish/subscribe messaging system |
CN101478450A (zh) * | 2009-02-12 | 2009-07-08 | 阿里巴巴集团控股有限公司 | 一种网络用户活跃度的监控方法和服务器 |
CN101483557A (zh) * | 2009-03-03 | 2009-07-15 | 中兴通讯股份有限公司 | 一种用于深度报文检测设备的日志统计、保存方法和系统 |
CN103870454A (zh) * | 2012-12-07 | 2014-06-18 | 盛乐信息技术(上海)有限公司 | 数据推荐方法及系统 |
CN107370614A (zh) * | 2016-05-13 | 2017-11-21 | 北京京东尚科信息技术有限公司 | 网络用户活跃度评估方法和预测方法 |
-
2020
- 2020-10-16 CN CN202011112884.1A patent/CN112291625B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0312894D0 (en) * | 2003-06-05 | 2003-07-09 | Ibm | Liveness monitoring in a publish/subscribe messaging system |
CN101478450A (zh) * | 2009-02-12 | 2009-07-08 | 阿里巴巴集团控股有限公司 | 一种网络用户活跃度的监控方法和服务器 |
CN101483557A (zh) * | 2009-03-03 | 2009-07-15 | 中兴通讯股份有限公司 | 一种用于深度报文检测设备的日志统计、保存方法和系统 |
CN103870454A (zh) * | 2012-12-07 | 2014-06-18 | 盛乐信息技术(上海)有限公司 | 数据推荐方法及系统 |
CN107370614A (zh) * | 2016-05-13 | 2017-11-21 | 北京京东尚科信息技术有限公司 | 网络用户活跃度评估方法和预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112291625A (zh) | 2021-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109241425B (zh) | 一种资源推荐方法、装置、设备及存储介质 | |
US20220414600A1 (en) | System and methods for improved meeting engagement | |
CN109635155B (zh) | 为用户推送视频的方法、装置、电子设备及存储介质 | |
US10592074B2 (en) | Systems and methods for analyzing visual content items | |
CN109688479B (zh) | 一种弹幕显示方法、弹幕显示装置和弹幕显示服务器 | |
CN110598016A (zh) | 一种多媒体信息推荐的方法、装置、设备和介质 | |
CA3076109A1 (en) | Methods and systems for creating a data-driven attribution model for assigning attribution credit to a plurality of events | |
US20210232706A1 (en) | Generating behavioral profiles | |
CN103686237A (zh) | 推荐视频资源的方法及系统 | |
CN106469202A (zh) | 一种影视大数据平台的数据分析方法 | |
CN105095465B (zh) | 一种信息推荐方法、系统及装置 | |
CN113420181A (zh) | 视频推荐方法、装置、计算机设备和存储介质 | |
CN110991789A (zh) | 置信区间的确定方法和装置、存储介质及电子装置 | |
CN112291625B (zh) | 信息质量处理方法、装置、电子设备及存储介质 | |
CN111523068A (zh) | 页面配置方法、装置、服务器及存储介质 | |
CN113297486B (zh) | 一种点击率预测方法及相关装置 | |
CN113821574A (zh) | 用户行为分类方法和装置及存储介质 | |
CN112770126A (zh) | 直播间的推送方法、装置、服务器及存储介质 | |
CN112465565A (zh) | 一种基于机器学习的用户画像预测的方法及装置 | |
CN116208579A (zh) | 信息推送方法、装置、设备以及存储介质 | |
CN116070018A (zh) | 基于移动终端的大数据分析方法及系统 | |
CN113792211A (zh) | 一种资源推送处理方法、装置、电子设备及存储介质 | |
CN114205320A (zh) | 消息显示方法和装置、电子设备及存储介质 | |
CN109309875B (zh) | 一种在智能电视上展示用户行为特征模型的方法 | |
CN113590942A (zh) | 一种短视频自动化推荐方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40038191 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |