CN110413881A - 一种识别标签准确性的方法、装置、网络设备和存储介质 - Google Patents

一种识别标签准确性的方法、装置、网络设备和存储介质 Download PDF

Info

Publication number
CN110413881A
CN110413881A CN201910626033.XA CN201910626033A CN110413881A CN 110413881 A CN110413881 A CN 110413881A CN 201910626033 A CN201910626033 A CN 201910626033A CN 110413881 A CN110413881 A CN 110413881A
Authority
CN
China
Prior art keywords
proposed algorithm
data
difference
label
valid data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910626033.XA
Other languages
English (en)
Other versions
CN110413881B (zh
Inventor
白雪峰
程文文
白肇强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910626033.XA priority Critical patent/CN110413881B/zh
Publication of CN110413881A publication Critical patent/CN110413881A/zh
Application granted granted Critical
Publication of CN110413881B publication Critical patent/CN110413881B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种识别标签准确性的方法、装置、网络设备和存储介质;本发明实施例在获取待识别标签的全量数据后,采集所述全量数据经过不同推荐算法推荐后得到的用户行为数据,基于所述用户行为数据,获取各个推荐算法的对应的后验数据,根据各个推荐算法对应的后验数据,确定各个推荐算法对应的有效数据,计算各个推荐算法对应的有效数据之间的差值,若所述差值超过预设第一阈值时,则确定所述待识别标签不准确。由于该方案使用自动化数据分析可以识别网络上信息对应标签的准确性,且基于标签的全量数据进行识别,因此识别准确率较高。

Description

一种识别标签准确性的方法、装置、网络设备和存储介质
技术领域
本发明涉及通信技术领域,具体涉及一种识别标签准确性的方法、装置、网络设备和存储介质。
背景技术
随着互联网规模的不断扩大,其内在信息或物品快速增长,用户需要花费大量的时间才能找到自己想要信息或物品,这种浏览大量无关的信息或物品过程无疑会花费用户大量时间,因此根据用户需求进行信息或物品推荐的推荐系统应运而生。但是推荐系统进行推荐时,首先需要对信息或者物品有一定的识别能力,现在是人工识别物品后对其进行标签(TAG)的标注,而标签的准确性直接影响到推荐系统的冷启动以及推荐效果。那么,如何去校验标签的准确性,现有技术主要是通过人工筛查的方式抽样对标签进行评测。
在对现有技术的研究和实践过程中,本发明的发明人发现,现有方案中人工筛查无法覆盖每天入库的全量信息或物品,导致标签的识别准确率不高。
发明内容
本发明实施例提供一种识别标签准确性的方法、装置、网络设备和存储介质,可以提高标签识别的准确率。
本发明实施例提供一种识别标签准确性的方法,包括:
获取待识别标签的全量数据;
采集所述全量数据经过不同推荐算法推荐后得到的用户行为数据;
基于所述用户行为数据,获取各个推荐算法的对应的后验数据;
根据各个推荐算法对应的后验数据,确定各个推荐算法对应的有效数据;
计算各个推荐算法对应的有效数据之间的差值,若所述差值超过预设第一阈值时,则确定所述待识别标签不准确。
相应的,本发明实施例还提供一种识别标签准确性的装置,包括:
第一获取单元,用于获取待识别标签的全量数据;
采集单元,用于采集所述全量数据经过不同推荐算法推荐后得到的用户行为数据;
第二获取单元,用于基于所述用户行为数据,获取各个推荐算法的对应的后验数据;
确定单元,用于根据各个推荐算法对应的后验数据,确定各个推荐算法对应的有效数据;
计算单元,用于计算各个推荐算法对应的有效数据之间的差值,若所述差值超过预设第一阈值时,则确定所述待识别标签不准确。
可选的,在一些实施例中,所述识别标签准确性的装置还包括:
筛选单元,用于筛选出所述各个推荐算法对应的后验数据中的总曝光次数;
对比单元,用于将所述总曝光次数与预设四阈值进行对比。
可选的,在一些实施例中,所述采集单元具体用于根据所述全量数据,获取所述待识别标签在不同推荐算法下的用户行为数据报表;
在所述用户行为数据报表中提取用户行为数据。
可选的,在一些实施例中,所述确定单元包括提取子单元、第一筛选子单元、第二筛选子单元和第一计算子单元;
提取子单元,用于在所述后验数据中提取各个推荐算法对应的曝光数据;
第一筛选子单元,用于在所述曝光数据中筛选曝光时间超过预设第二阈值的第一曝光次数;
第二筛选子单元,用于在所述剩余曝光次数中筛选曝光时间的比例超过预设第三阈值的第二曝光次数,所述剩余曝光次数包括各个推荐算法对应的后验数据中总曝光次数与第一曝光次数的差值;
第一计算子单元,用于计算所述有效曝光次数与所述总曝光次数之比,得到各个推荐算法对应的有效数据。
可选的,在一些实施例中,所述计算单元包括:分类子单元、第二计算子单元和对比子单元。
分类子单元,用于对各个推荐算法进行分类,得到多个类型的推荐算法,所述多个类型的推荐算法包括用于标签推荐的第一类型推荐算法和用于协同推荐的第二类型推荐算法;
第二计算子单元,用于根据推荐算法的类型,计算不同类型的推荐算法对应的有效数据之间差值;
对比子单元,用于将所述差值与预设第一阈值进行对比,当所述差值超过预设第一阈值时,则确定所述待识别标签不准确。
相应的,本发明实施例还提供一种网络设备,包括处理器和存储器,所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序实现本发明实施例提供的识别标签准确性的方法。
相应的,本发明实施例还提供一种存储介质,所述存储介质存储有指令,所述指令被处理器执行时实现本发明实施例提供的识别标签准确性的方法。
本发明实施例获取待识别标签的全量数据,采集所述全量数据经过不同推荐算法推荐后得到的用户行为数据,基于所述用户行为数据,获取各个推荐算法的对应的后验数据,根据各个推荐算法对应的后验数据,确定各个推荐算法对应的有效数据,计算各个推荐算法对应的有效数据之间的差值,若所述差值超过预设第一阈值时,则确定所述待识别标签不准确。该方案可以提高标签识别的准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的识别标签准确性的方法的场景示意图;
图2是本发明实施例提供的识别标签准确性的方法的流程示意图;
图3是本发明实施例提供的识别标签准确性的方法的另一流程示意图;
图4是本发明实施例提供的识别标签准确性的装置的结构示意图;
图5是本发明实施例提供的识别标签准确性的装置的确定单元的结构示意图;
图6是本发明实施例提供的识别标签准确性的装置的计算单元结构示意图;
图7是本发明实施例提供的识别标签准确性的装置的另一结构示意图;
图8是本发明实施例提供的网络设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种识别标签准确性的方法、装置、网络设备和存储介质。其中,该识别标签准确性的装置可以集成在网络设备中,该网络设备可以是服务器,也可以是终端等设备。
例如,参见图1,以该识别标签准确性的装置具体集成在网络设备为例,首先获取待识别标签的全量数据,采集该全量数据经过不同推荐算法推荐后得到的用户行为数据,然后,基于该用户行为数据,获取各个推荐算法对应的后验数据,然后,根据各个推荐算法对应的后验数据,确定各个推荐算法对应的有效数据,最后,计算各个推荐算法对应的有效数据之间的差值,若该差值超过预设第一阈值时,则确定待识别标签不准确。由于该方案使用自动化数据分析可以识别网络上信息对应标签的准确性,且基于标签的全量数据进行识别,因此识别准确率较高。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
在本实施例中,将从识别标签准确性的装置的角度进行描述,该识别标签准确性的装置具体可以集成在网络设备如终端或服务器等设备中。
一种识别标签准确性的方法,包括:获取待识别标签的全量数据,采集该全量数据经过不同推荐算法推荐后得到的用户行为数据,基于该用户行为数据,获取各个推荐算法对应的后验数据,根据各个推荐算法对应的后验数据,确定各个推荐算法对应的有效数据,计算各个推荐算法对应的有效数据之间的差值,若该差值超过预设第一阈值时,则确定待识别标签不准确。
如图2所示,该识别标签准确性的装置的具体流程可以如下:
101、获取待识别标签的全量数据。
其中,全量数据可以包括待识别标签中内容的全部数据,例如,内容(音视频、图像和文本信息等)的播放时间、播放频次、播放长度和互动信息等数据。
其中,待识别标签可以包括在推荐系统中,人工对网络上的物品或内容进行识别和鉴定,根据识别和鉴定结果给内容进行标签的标注,例如,人工观看内容为NBA的篮球比赛视频时,给该视频标注为“NBA”等。
例如,获取待识别标签的全量数据的方式有多种。比如,可以通过提取内容播放系统的后台数据来获取,也可以通过提取内容推荐系统后台的互动数据和播放数据来获取。
例如,通过提取内容推荐系统后台的互动数据和播放数据来获取待识别标签的全量数据具体过程可以包括获取推荐系统上所有用户在内容推荐页面和内容播放页面产生的内容曝光、播放和互动数据。确定需要识别的标签,得到待识别标签。根据得到的待识别标签,在所有用户产生的内容曝光、播放和互动数据中查询到待识别标签对应的全量数据,将查询到的待识别标签对应的全量数据提取并存储。
102、采集全量数据经过不同推荐算法推荐后得到的用户行为数据。
其中,用户行为数据可以包括记录用户对推荐系统推荐的内容做出的各种行为,比如对内容的浏览、点击、评分、点赞或互动等行为。用户行为数据可以存储在推荐系统后台的日志中,也可以存储在服务器的数据库中。
例如,在待识别标签对应的全量数据中查询不同推荐算法的行为数据,根据查询结果生成对应的用户行为数据报表,在用户行为数据报表中提取各个推荐算法对应的用户行为数据。
103、基于用户行为数据,获取各个推荐算法对应的后验数据。
其中,后验数据可以包括物品或内容经过推荐系统展示给用户后,产生的现网数据,比如点击率、播放率和曝光数量等数据。
其中,推荐算法可以包括基于内容的推荐和协同过滤推荐两种推荐类型的算法。比如标签推荐算法(TAG)和协同推荐算法(CF)等。
例如,可以按照用户对推荐内容的动作类型分类,可以分成评价、互动和曝光等数据。将分类好的数据进行存储,存储的方式也可以包括多种,比如采用python(一种面向对象的动态类型语言的计算机程序设计语言)进行存储,也可以存储或缓存到服务器中,得到不同推荐算法的后验数据。
104、根据各个推荐算法对应的后验数据,确定各个推荐算法对应的有效数据。
其中,有效数据可以包括推荐系统推荐内容的有效曝光次数与该内容的总曝光次数的比值。
所谓曝光,指的是用户对推荐系统推荐内容点击、查看或者播放等曝光动作。而有效曝光指的是曝光时间超过预设曝光时间的曝光次数,比如,该推荐内容被用户播放的时间超过预设时间,等等。当然有效曝光还可以包括曝光比例超过预设曝光比例的曝光次数的情况,其中曝光比例可以包括曝光时间与该内容全部曝光需要的时间的比值,比如,该推荐内容被用户播放了80秒,该推荐内容全部播放完成需要100秒,则该推荐内容的曝光比例为80%。
针对不同的“曝光”,有效数据的计算方式也会有所不同。比如,以曝光具体为播放为例,则此时,有效数据则可以为推荐系统的推荐内容的有效播放次数与该内容的总播放次数之比。又比如,若曝光为“点击”动作,则有效数据可以为推荐系统的推荐内容的有效点击次数与该内容的总点击次数之比,以此类推,等等。
例如,可以在各个推荐算法对应的后验数据中提取对应的曝光数据,比如,曝光数据中可以包括曝光次数、曝光长度、曝光时间等数据。在该曝光数据中筛选出曝光时间超过预设第二阈值的第一曝光次数,比如,预设第二阈值为20秒,在该曝光数据中筛选出曝光时间超过20秒的曝光次数。
在剩余曝光次数中筛选曝光时间的比例超过预设第三阈值的第二曝光次数。其中,该剩余曝光次数包括各个推荐算法对应的后验数据中总曝光次数与第一曝光次数的差值,比如,总的曝光次数为1000次,筛选的第一曝光次数为400次,则在剩下600次曝光中筛选出曝光时间的曝光比例超过预设第三阈值的第二曝光次数。比如,预设第三阈值为80%,在该曝光数据的剩余曝光次数中筛选曝光时间与推荐系统推荐的内容全部曝光需要的时间之间的比值超过80%的曝光次数。
将各个推荐算法对应的第一曝光次数和第二曝光次数相加,得到各个推荐算法对应的有效曝光次数。
例如,按照预设策略对有效曝光次数进行计算,得到各个推荐算法对应的有效数据。具体可以包括,将筛选得出各个推荐算法的有效曝光次数代入有效数据的计算公式中进行计算,该计算公式可以为:有效数据=该推荐算法下推荐内容有效曝光次数/该推荐内容总曝光次数。其中,推荐内容的总曝光次数已在后验数据中提取出来。经过计算,得到各个推荐算法的有效数据,其中有效数据可以为推荐内容的有效播放率、有效点击率和有效阅读完成度。比如,推荐算法1的推荐内容的有效曝光次数为300次,该推荐内容总的曝光次数为500次,则推荐算法1的推荐内容的有效数据为0.6。
其中,对各个推荐算法对应的后验数据中的总曝光次数可以进行检验,当总曝光次数超过曝光阈值时,计算各个推荐算法对应的有效数据,即步骤“根据各个推荐算法对应的后验数据,确定各个推荐算法对应的有效数据”之前还包括:
(1)提取各个推荐算法对应后验数据中的总曝光次数。
例如,在各个推荐算法的后验数据中提取推荐内容的总曝光次数,比如,推荐内容为视频时,提取该视频在各个推荐算法中的对应的总播放次数。其中各个推荐算法对应的总曝光次数在推荐系统中相对独立,可以相同也可以不相同,以实际曝光情况为准。
(2)将各个推荐算法对应的总曝光次数与预设第四阈值进行对比,当各个推荐算法对应的总曝光次数超过预设第四阈值时,对各个推荐算法对应的后验数据进行计算。
例如,将提取到的各个推荐算法对应的总曝光次数与预设第四阈值进行对比,当各个推荐算法中至少存在两个推荐算法对应的总曝光次数超过预设第四阈值时,对超过预设第四阈值的总曝光次数对应的推荐算法的后验数据进行计算。比如,当预设第四阈值为1000次时,推荐算法1的总曝光次数为1500次,推荐算法2的总曝光次数为900次,推荐算法3的总曝光次数为700次,此时三个推荐算法对应的总曝光次数中只有一个推荐算法的总曝光次数超过了预设第四阈值,则此时不用再对推荐算法1、推荐算法2和推荐算法3进行计算,这种情况下无法判断该推荐内容对应标签的准确性。如果,预设第四阈值仍为1000次,推荐算法1的总曝光次数为1500次,推荐算法2的总曝光次数为1200次,推荐算法3的总曝光次数为700次,此时三个推荐算法对应的总曝光次数中存在两个推荐算法对应的总曝光次数超过预设第四阈值,则对推荐算法1和推荐算法2对应的后验数据进行计算,得出推荐算法1和推荐算法2对应的有效数据。如果,预设第四阈值还是1000次,推荐算法1的总曝光次数为1500次,推荐算法2的总曝光次数为1200次,推荐算法3的总曝光次数为1100次,此时全部推荐算法对应的总曝光次数都超过预设第四阈值,则对全部推荐算法对应的后验数据进行计算,得出全部推荐算法对应的有效数据。
其中,预设第四阈值为一个定值,这个定值可以为大于0的任意值,预设第四阈值的设定可以根据实际应用情况进行预设。
105、计算各个推荐算法对应的有效数据之间的差值,若该差值超过预设第一阈值时,则确定待识别标签不准确。
S1、根据推荐算法的类型,计算不同类型推荐算法的有效数据之间的差值。
例如,将推荐算法进行分类,其中,进行分类的推荐算法的总曝光次数是需要超过预设第四阈值的,对总曝光次数超过预设第四阈值的各个推荐算法进行分类,可以分为用于标签推荐的第一类型推荐算法和用于协同推荐的第二类型推荐算法,计算各个第二类型推荐算法的有效数据与各个第一类型推荐算法的有效数据的差值,计算差值的公式为各个第二类型推荐算法的有效数据减去各个第一类型推荐算法的有效数据,将相减结果作为各个第二类型推荐算法的有效数据与各个第一类型推荐算法的有效数据的差值。
其中总曝光次数超过预设第四阈值的各个推荐算法至少包括2种及以上。其中,第二类型推荐算法的有效数据与第一类型推荐算法的有效数据之间的差值的数量至少包括一个,也可以为多个。比如,各个推荐算法可以包括推荐算法1、推荐算法2和推荐算法3,当推荐算法1、推荐算法2和推荐算法3都属于第一类型推荐算法或者第二类型推荐算法时,无法判断该推荐内容的标签的准确性;当推荐算法1和推荐算法2属于第一类型推荐算法,推荐算法3属于第二类型推荐算法时,计算推荐算法3与推荐算法2之间的差值,计算推荐算法3与推荐算法2之间的差值。
S2、将所述有效数据之间的差值与预设第一阈值进行对比,当所述有效数据的差值超过预设第一阈值时,则确定所述待识别标签不准确。
例如,将计算出的第二类型推荐算法的有效数据减去第一类型推荐算法的有效数据的差值与预设第一阈值进行对比可以包括多种对比方式。具体可以如下:
(1)计算出的第二类型推荐算法的有效数据减去第一类型推荐算法的有效数据只存在一个差值。
例如,当计算出的第二类型推荐算法的有效数据减去第一类型推荐算法的有效数据只存在一个差值时,将该差值与预设第一阈值进行对比,当该差值超过预设第一阈值时,则确定待识别标签不准确。
(2)计算出的第二类型推荐算法的有效数据减去第一类型推荐算法的有效数据存在两个或以上的差值。
例如,当计算出的第二类型推荐算法的有效数据减去第一类型推荐算法的有效数据存在两个或以上的差值时,此时对比的方式又可以包括多种方式,具体可以如下:
A1、对各个差值进行加权,得到一个第二类型推荐算法的有效数据与第一类型推荐算法的有效数据的差值,当该差值超过预设第一阈值时,则确定待识别标签不准确。
例如,按照推荐算法的不同,对不同类型推荐算法的有效数据的差值赋予加权系数,将各个差值乘以对应的加权系数,得到第二类型推荐算法的有效数据与第一类型推荐算法的有效数据的差值,将得到的第二类型推荐算法的有效数据与第一类型推荐算法的有效数据的差值与预设第一阈值进行对比,当该差值超过预设第一阈值时,则确定待识别标签不准确。
A2、将各个有效数据的差值与预设第一阈值进行对比,当各个有效数据的差值中至少有一个超过预设第一阈值时,则确定所述待识别标签不准确。
例如,将各个有效数据的差值与预设第一阈值进行对比,当各个有效数据的差值中至少有一个超过预设第一阈值时,则确定待识别标签不准确,比如,各个有效数据的差值中包括差值1、差值2和差值3,当这三个差值中至少有一个差值超过预设第一阈值时,则确定待识别标签不准确。
由以上可知,本实施例在获取待识别标签的全量数据;采集该全量数据经过不同推荐算法推荐后得到的用户行为数据;基于该用户行为数据,获取各个推荐算法的对应的后验数据;然后,根据各个推荐算法对应的后验数据,确定各个推荐算法对应的有效数据;计算各个推荐算法对应的有效数据之间的差值,若该差值超过预设第一阈值时,则确定待识别标签不准确。由于该方案使用自动化数据分析可以识别网络上信息对应标签的准确性,且基于标签的全量数据进行识别,因此识别准确率较高。
根据上一个实施例所描述的方法,以下将举例作进一步详细说明。
在本实施例中,将以该识别标签准确性的装置具体集成在网络设备,待识别标签为推荐系统中推荐视频的标签,推荐算法对应的有效数据具体为推荐视频的有效播放率为例进行说明。
如图3所示,一种识别标签准确性的方法,具体流程可以如下:
201、网络设备获取待识别标签的全量数据
其中,全量数据可以包括待识别标签中内容的全部数据,例如,推荐视频的播放时间、播放频次、播放长度和互动信息等数据。
其中,待识别标签可以为在推荐系统中,人工对互联网上的视频内容进行识别和鉴定,根据识别和鉴定结果给视频进行标签的标注,例如,人工观看内容为NBA的篮球比赛视频时,给该视频标注为“NBA”,又例如,人工观看视频内容为西游记的视频时,给该视频标注为“西游记”等。
例如,获取待识别标签的全量数据的方式有多种。比如,可以通过提取视频播放系统的后台数据来获取,也可以通过提取视频推荐系统后台的互动数据和播放数据来获取。
例如,网络设备通过提取视频推荐系统后台的互动数据和播放数据来获取待识别标签的全量数据具体过程可以包括:网络设备获取推荐系统上所有用户在视频推荐页面和视频播放页面产生的视频曝光、播放和互动数据。确定需要识别的标签,得到待识别标签,利用hiveSQL在所有用户产生的视频曝光、播放和互动数据中查询到待识别标签对应的全量数据,将查询到的待识别标签对应的全量数据提取并存储。
其中,hiveSQL中的hive是一种底层封装了Hadoop(分布式文件系统)的数据仓库处理工具,SQL(Structured Query Language)为结构化数据查询语言,hiveSQL为在数据仓库中使用结构化数据查询语言的一种数据查询工具,在本实施例中用于在所有用户产生的视频曝光、播放和互动数据仓库中查询待识别标签对应的全量数据。
202、网络设备采集全量数据经过不同推荐算法推荐后得到的用户行为数据。
其中,用户行为数据可以包括记录用户对推荐系统推荐的视频做出的各种行为,比如对视频的浏览、点击、评分、点赞或互动等行为。用户行为数据可以存储在推荐系统后台的日志中,也可以存储在服务器的数据库中。
例如,网络设备在待识别标签对应的全量数据中查询不同推荐算法的行为数据,根据查询结果生成对应的用户行为数据报表,在用户行为数据报表中提取各个推荐算法对应的用户行为数据。
203、基于用户行为数据,网络设备获取各个推荐算法对应的后验数据。
其中,后验数据可以包括互联网上的视频经过推荐系统展示给用户后,产生的现网数据,比如点击率、播放率和曝光数量等数据。
其中,推荐算法可以包括基于内容的推荐和协同过滤推荐两种推荐类型的算法。比如标签推荐算法(TAG)和协同推荐算法(CF)等。
例如,网络设备可以按照用户对推荐视频的动作类型分类,可以分成评价、互动和曝光等数据。将分类好的数据进行存储,存储的方式也可以包括多种,比如采用python(一种面向对象的动态类型语言的计算机程序设计语言)进行存储,也可以存储或缓存到服务器中,得到不同推荐算法的后验数据。
204、网络设备提取各个推荐算法对应后验数据中的总播放次数。
例如,网络设备在各个推荐算法的后验数据中提取推荐视频的总播放次数,其中各个推荐算法对应的总播放次数在推荐系统中相对独立,可以相同也可以不相同,以实际播放情况为准。
205、当各个推荐算法对应的曝光次数超过预设第四阈值时,网络设备对各个推荐算法对应的后验数据进行计算,得到对应的有效播放率。
其中,有效播放率可以包括推荐系统推荐视频的有效播放次数与该视频的总播放次数的比值。
其中有效播放可以包括播放时间超过预设播放时间的播放次数,比如,该推荐的视频被用户播放的时间超过预设时间,还可以包括播放比例超过预设播放比例的播放次数,比如该推荐视频被用户播放的时间超过该视频总时长的80%,其中播放比例可以包括播放时间与该视频全部播放完需要的时间的比值,比如该推荐视频被用户播放了80秒,该推荐视频播放完成需要100秒,则播放比例为80%。
例如,网络设备将提取到的各个推荐算法对应的总播放次数与预设第四阈值进行对比,当各个推荐算法中至少存在两个推荐算法对应的总播放次数超过预设第四阈值时,对超过预设第四阈值的总播放次数对应的推荐算法的后验数据进行计算。比如,当预设第四阈值为1000次时,推荐算法1的总播放次数为1500次,推荐算法2的总播放次数为900次,推荐算法3的总播放次数为700次,此时三个推荐算法对应的总播放次数中只有一个推荐算法的总播放次数超过了预设第四阈值,则此时不用再对推荐算法1、推荐算法2和推荐算法3进行计算,这种情况下无法判断该推荐视频对应标签的准确性。如果,预设第四阈值仍为1000次,推荐算法1的总播放次数为1500次,推荐算法2的总播放次数为1200次,推荐算法3的总播放次数为700次,此时三个推荐算法对应的总播放次数中存在两个推荐算法对应的总播放次数超过预设第四阈值,则对推荐算法1和推荐算法2对应的后验数据进行计算,得出推荐算法1和推荐算法2对应的有效播放率。如果,预设第四阈值还是1000次,推荐算法1的总播放次数为1500次,推荐算法2的总播放次数为1200次,推荐算法3的总播放次数为1100次,此时全部推荐算法对应的总播放次数都超过预设第四阈值,则对全部推荐算法对应的后验数据进行计算,得出全部推荐算法对应的有效播放率。
例如,网络设备在各个推荐算法对应的后验数据中提取对应的播放数据,比如,播放数据中可以播放次数、播放长度、播放时间等数据。在该播放数据中筛选出播放时间超过预设第二阈值的第一播放次数,比如,预设第二阈值为20秒,在该播放数据中筛选出播放时间超过20秒的播放次数。
在剩余播放次数中筛选播放时间的播放比例超过预设第三阈值的第二曝光次数,其中,该剩余播放次数包括各个推荐算法对应的后验数据中总播放次数与第一播放次数的差值,比如,总的播放次数为1000次,筛选的第一播放次数为400次,则在剩下600次播放中筛选出播放时间的播放比例超过预设第三阈值的第二曝光次数,比如,预设第三阈值为80%,在该播放数据的剩余播放次数中筛选播放时间与推荐系统推荐的内容全部播放需要的时间之间的比值超过80%的播放次数。将各个推荐算法对应的第一播放次数和第二播放次数相加,得到各个推荐算法对应的有效播放次数。比如,在推荐算法1中,播放时间超过预设第二阈值的第一曝光次数为100次,在剩余播放次数中,播放比例超过预设第三阈值的第二曝光次数为200次,则该推荐算法1的有效曝光次数为300次。
例如,网络设备按照预设策略对有效播放次数进行计算,得到各个推荐算法对应的有效播放率。具体可以包括,将筛选得出各个推荐算法的有效播放次数代入有效播放率的计算公式中进行计算,该计算公式可以为:有效播放率=该推荐算法下推荐视频有效播放次数/该推荐视频总播放次数。其中,推荐视频的总播放次数已在后验数据中提取出来。经过计算,得到各个推荐算法的有效播放率。比如,推荐算法1推荐内容的有效播放次数为300次,该推荐视频总播放次数为500次,则推荐算法1推荐视频的有效播放率为0.6。
206、网络设备根据推荐算法的类型,计算不同类型推荐算法的有效播放率之间的差值。
例如,网络设备将推荐算法进行分类,其中,进行分类的推荐算法的总曝光次数是需要超过预设第四阈值的,对总曝光次数超过预设第四阈值的各个推荐算法进行分类,可以分为用于标签推荐的第一类型推荐算法和用于协同推荐的第二类型推荐算法,计算各个第二类型推荐算法的有效播放率与各个第一类型推荐算法的有效播放率的差值,计算该差值的公式为各个第二类型推荐算法的有效播放率减去各个第一类型推荐算法的有效播放率,得到各个第二类型推荐算法的有效播放率与各个第一类型推荐算法的有效播放率的差值,其中该差值为第二类型推荐算法中的一个推荐算法对应的有效播放率和第一类型算法中的一个推荐算法对应的有效播放率两两相减得到的。
其中总播放次数超过预设第四阈值的各个推荐算法至少包括2种及以上。其中,第二类型推荐算法的有效播放率与第一类型推荐算法的有效播放率之间的差值的数量至少包括一个,也可以为多个。比如,各个推荐算法可以包括推荐算法1、推荐算法2和推荐算法3,当推荐算法1、推荐算法2和推荐算法3都属于第一类型推荐算法或者第二类型推荐算法时,无法判断该推荐视频标签的准确性;当推荐算法1和推荐算法2属于第一类型推荐算法,推荐算法3属于第二类型推荐算法时,计算推荐算法3与推荐算法2之间的差值,计算推荐算法3与推荐算法2之间的差值。
207、网络设备将不同类型推荐算法的有效播放率之间的差值与预设第一阈值进行对比,当所述有效数据的差值超过预设第一阈值时,则确定所述待识别标签不准确。
例如,网络设备将计算出的第二类型推荐算法的有效播放率减去第一类型推荐算法的有效播放率的差值与预设第一阈值进行对比可以包括多种对比方式。具体可以如下:
(1)计算出的第二类型推荐算法的有效播放率减去第一类型推荐算法的有效播放率只存在一个差值。
例如,当计算出的第二类型推荐算法的有效播放率减去第一类型推荐算法的有效播放率只存在一个差值时,网络设备将该差值与预设第一阈值进行对比,当该差值超过预设第一阈值时,则确定待识别标签不准确。
(2)计算出的第二类型推荐算法的有效播放率减去第一类型推荐算法的有效播放率存在两个或以上的差值。
例如,当计算出的第二类型推荐算法的有效播放率减去第一类型推荐算法的有效播放率存在两个或以上的差值时,此时网络设备进行对比的方式又可以包括多种方式,具体可以如下:
B1、网络设备对各个差值进行加权,得到一个第二类型推荐算法的有效播放率与第一类型推荐算法的有效播放率的差值,当该差值超过预设第一阈值时,则确定待识别标签不准确。
例如,网络设备对各个差值进行加权,得到一个第二类型推荐算法的有效播放率与第一类型推荐算法的有效播放率的差值。比如,第一类型推荐算法中包含推荐算法1和推荐算法2,第二类型推荐算法中包含推荐算法3,推荐算法3的有效数播放率减去推荐算法1的有效播放率,得到有效播放率的差值1,推荐算法3的有效数据减去推荐算法2的有效播放率,得到有效播放率的差值2,按照推荐算法的权重对差值1和差值2进行加权,比如将差值1的加权系数定为X1,将差值2的加权系数定为X2,如果差值的数量超过两个,可以继续设定加权系数X3-Xn,其中加权系数之和为1,且加权系数的值根据实际应用情况进行设定。将各个差值乘以对应的加权系数,得到一个第二类型推荐算法的有效播放率与第一类型推荐算法的有效播放率的差值Y。将得到的该差值Y与预设第一阈值进行对比,当该差值Y超过预设第一阈值时,则确定待识别标签不准确。
B2、网络设备将各个有效播放率的差值与预设第一阈值进行对比,当各个有效播放率的差值中至少有一个超过预设第一阈值时,则确定所述待识别标签不准确。
例如,网络设备将各个有效播放率的差值与预设第一阈值进行对比,当各个有效播放率的差值中至少有一个超过预设第一阈值时,则确定所述待识别标签不准确,比如,各个有效播放率的差值包括差值1、差值2和差值3,如果差值1为0.4,差值2为0.6,差值3为0.3,预设第一阈值为0.5,将差值1、差值2和差值3分别与预设第一阈值进行对比,此时差值2超过预设第一阈值,则待识别标签不准确;如果差值1为0.6,差值2为0.6,差值3为0.3,此时差值1和差值2都超过第一预设阈值,则待识别标签不准确;如果差值1为0.3,差值2为0.4,差值3为0.3,此时差值1、差值2和差值3都未超过预设第一阈值,则待识别标签标注准确。
由以上可知,本实施例在网络设备获取待识别标签的全量数据,采集该全量数据经过不同推荐算法推荐后得到的用户行为数据,然后,基于该用户行为数据,获取各个推荐算法的对应的后验数据,然后,根据各个推荐算法对应的后验数据,确定各个推荐算法对应的有效数据,计算各个推荐算法对应的有效数据之间的差值,若该差值超过预设第一阈值时,则确定待识别标签不准确。由于该方案使用自动化数据分析可以识别网络上视频对应标签的准确性,且基于标签的全量数据进行识别,因此准确率较高。
为了更好的实施以上方法,本发明实施例还提供一种识别标签准确性的装置,该识别标签准确性的装置可以集成在网络设备中,该网络设备可以包括服务器和终端等设备。
例如,参考图4,该识别标签准确性的装置可以包括第一获取单元301、采集单元302、第二获取单元303、确定单元304和计算单元305,如下:
(1)第一获取单元301;
第一获取单元301,用于获取待识别标签的全量数据;
其中,全量数据可以包括待识别标签中内容的全部数据,例如,内容(音视频、图像和文本信息等)的播放时间、播放频次、播放长度和播放互动信息等数据。
例如,获取单元301,具体可用于获取推荐系统上所有用户在内容推荐页面和内容播放页面产生的内容曝光、播放和互动数据。确定需要识别的标签,得到待识别标签,利用hiveSQL在所有用户产生的内容曝光、播放和互动数据中查询到待识别标签对应的全量数据,将查询到的待识别标签对应的全量数据提取并存储。
(2)采集单元302;
采集单元302,用于采集全量数据经过不同推荐算法推荐后得到的用户行为数据;
其中,用户行为数据可以包括记录用户对推荐系统推荐的内容做出的各种行为,比如对内容的浏览、点击、评分、点赞或互动等行为。
例如,采集单元302,具体可用于在待识别标签对应的全量数据中查询不同推荐算法的行为数据,根据查询结果生成对应的用户行为数据报表,在用户行为数据报表中提取各个推荐算法对应的用户行为数据。
(3)第二获取单元303;
第二获取单元303,用于基于所述用户行为数据,获取各个推荐算法的对应的后验数据;
其中,后验数据可以包括物品或内容经过推荐系统展示给用户后,产生的现网数据,比如点击率、播放率和曝光数量等数据。
例如,第二获取单元303,具体可用于按照用户对推荐内容的动作类型分类,可以分成评价、互动和曝光等数据,根据分类结果,获取不同推荐算法的后验数据。
(3)确定单元304;
确定单元304,用于根据各个推荐算法对应的后验数据,确定各个推荐算法对应的有效数据;
其中,有效数据可以包括推荐系统推荐内容的有效曝光次数与该内容的总曝光次数的比值。其中曝光可以为用户对推荐系统推荐内容的点击、查看或播放等曝光动作。
其中,确定单元304可以包括提取子单元3041、第一筛选子单元3042、第二筛选子单元3043和计算子单元3044,如图5所示,具体如下:
提取子单元3041,用于在各个推荐算法的后验数据中提取对应的曝光数据;
第一筛选子单元3042,用于在各个推荐算法的曝光数据中筛选曝光时间超过预设第二阈值的第一曝光次数;
第二筛选子单元3043,用于在剩余曝光次数中筛选曝光时间的比例超过预设第三阈值的第二曝光次数,其中,剩余曝光次数可以包括各个推荐算法对应的后验数据中总曝光次数与第一曝光次数的差值,曝光比例可以包括曝光时间与该内容全部曝光需要的时间的比值;
第一计算子单元3044,用于计算有效曝光次数与总曝光次数之比,得到各个推荐算法对应的有效数据。
例如,提取子单元3041在各个推荐算法的后验数据中提取对应的曝光数据,一方面,第一筛选子单元3042在各个推荐算法的曝光数据中筛选曝光时间超过预设第二阈值的第一曝光次数,另一方面,第二筛选子单元3043在各个推荐算法的剩余曝光次数中筛选曝光时间的比例超过预设第三阈值的第二曝光次数,第一计算子单元3044计算有效曝光次数与总曝光次数之比,得到各个推荐算法对应的有效数据,其中有效曝光次数可以为第一曝光次数和第二曝光次数之和。
(4)计算单元305;
计算单元305,用于计算各个推荐算法对应的有效数据之间的差值,若该差值超过预设第一阈值时,则确定待识别标签不准确。
其中,计算单元305可以包括分类子单元3051、第二计算子单元3052和对比子单元3053,如图6所示,具体如下:
分类子单元3051,用于对各个推荐算法进行分类,得到多个类型的推荐算法,所述多个类型的推荐算法包括用于标签推荐的第一类型推荐算法和用于协同推荐的第二类型推荐算法;
第二计算子单元3052,用于按推荐算法的类型,计算不同类型的推荐算法对应的有效数据之间差值;
对比子单元3053,用于将有效数据之间的差值与预设第一阈值进行对比,当所述差值超过预设第一阈值时,则确定所述待识别标签不准确。
例如,分类子单元3051对各个推荐算法进行分类,可以分为用于标签推荐的第一类型推荐算法和用于协同推荐的第二类型推荐算法,第二计算子单元3052用于根据推荐算法的类型,计算不同类型的推荐算法对应的有效数据之间差值,对比子单元3053将计算出的第二类型推荐算法的有效数据减去第一类型推荐算法的有效数据得到的差值与预设第一阈值进行对比,当该差值超过预设第一阈值时,则确定待识别标签不准确。
在一实施例中,参考图7,该识别标签准确性的装置还可以包括提取单元306和对比单元307,如下:
(1)提取单元306;
提取单元306,用于提取所述各个推荐算法对应的后验数据中的总曝光次数;
例如,提取单元306,具体用于在各个推荐算法的后验数据中提取推荐内容的总曝光次数,比如,推荐内容为视频时,提取该视频在各个推荐算法中的对应的总播放次数。
(2)对比单元307;
对比单元307,用于将总曝光次数与预设四阈值进行对比。
例如,对比单元307,具体用于将提取单元306提取到的各个推荐算法对应的总曝光次数与预设第四阈值进行对比,当各个推荐算法中至少存在两个推荐算法对应的总曝光次数超过预设第四阈值时,对超过预设第四阈值的总曝光次数对应的推荐算法的后验数据进行计算。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不作赘述。
由以上可知,本实施例的识别标签准确性的装置由第一获取单元301获取待识别标签的全量数据,可以由采集单元302采集全量数据经过不同推荐算法推荐后得到的用户行为数据,基于用户行为数据,第二获取单元303获取各个推荐算法的后验数据,然后,确定单元304根据各个推荐算法对应的后验数据,确定各个推荐算法对应的有效数据,由计算单元305对不同类型的推荐算法对应的有效数据的差值进行计算,当该差值超过预设第一阈值时,则确定待识别标签不准确。其中,在确定单元304确定各个推荐算法对应的有效数据之前,还可以由提取单元306提取各个推荐算法对应的后验数据中的总曝光次数,对比单元307将该总曝光次数与预设第四阈值进行对比,当各个推荐算法对应的总曝光次数超过预设第四阈值时,确定单元304确定各个推荐算法对应的有效数据。该方案使用自动化数据分析可以识别网络上推荐内容对应标签的准确性,且基于标签的全量数据进行识别,因此识别准确率较高。
本发明实施例还提供一种网络设备,如图8所示,其示出了本发明实施例所涉及的网络设备的结构示意图,具体来讲:
该网络设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图8中示出的网络设备结构并不构成对网络设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该网络设备的控制中心,利用各种接口和线路连接整个网络设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行网络设备的各种功能和处理数据,从而对网络设备进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据网络设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
网络设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该网络设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,网络设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,网络设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取待识别标签的全量数据,采集该全量数据经过不同推荐算法推荐后得到的用户行为数据,基于用户行为数据,获取各个推荐算法对应的后验数据,根据各个推荐算法对应的后验数据,确定各个推荐算法对应的有效数据,计算各个推荐算法对应的有效数据之间的差值,若该差值超过预设第一阈值时,则确定待识别标签不准确。
例如,具体可以确定需要识别的标签,得到待识别标签,查询待识别标签对应的全量数据,在待识别标签对应的全量数据中查询不同推荐算法的行为数据,根据查询结果生成对应的用户行为数据报表,在用户行为数据报表中提取各个推荐算法对应的用户行为数据,对提取到的用户行为数据进行分类,根据分类结果,获取不同推荐算法的后验数据,然后,在各个推荐算法对应的后验数据中提取对应的曝光数据,在各个推荐算法对应的曝光数据中提取推荐内容的总曝光次数,将各个推荐算法对应的总曝光次数与预设第四阈值进行对比,当各个推荐算法对应的总曝光次数超过预设第四阈值时,在该曝光数据中筛选出曝光时间超过预设第二阈值的第一曝光次数,在剩余曝光次数中筛选曝光时间的比例超过预设第三阈值的第二曝光次数,将各个推荐算法对应的第一曝光次数和第二曝光次数相加,得到各个推荐算法对应的有效曝光次数,将筛选得出各个推荐算法的有效曝光次数代入有效数据的计算公式中进行计算,得到各个推荐算法的有效数据,然后,将总曝光次数超过预设第四阈值的各个推荐算法进行分类,计算不同类型推荐算法的有效数据之间的差值,将计算出的不同类型推荐算法的有效数据之间的差值与预设第一阈值进行对比,当该差值超过预设第一阈值时,则确定待识别标签不准确。
以上各个操作的具体实施可参见前面的实施例,在此不做赘述。
由以上可知,本实施例的网络设备获取待识别标签的全量数据,采集该全量数据经过不同推荐算法推荐后得到的用户行为数据,基于用户行为数据,获取各个推荐算法对应的后验数据,然后,对各个推荐算法对应的后验数据进行计算,得到各个推荐算法对应的有效数据,最后,计算各个推荐算法对应的有效数据之间的差值,若所述差值超过预设第一阈值时,则确定所述待识别标签不准确。该方案使用自动化数据分析可以识别网络上推荐内容对应标签的准确性,且基于标签的全量数据进行识别,因此识别准确率较高。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关硬件来完成,该指令可以存储与一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种识别标签准确性的方法中的步骤。例如,该指令可以执行如下步骤:
获取待识别标签的全量数据,采集该全量数据经过不同推荐算法推荐后得到的用户行为数据,基于用户行为数据,获取各个推荐算法对应的后验数据,根据各个推荐算法对应的后验数据,确定各个推荐算法对应的有效数据,计算各个推荐算法对应的有效数据之间的差值,若该差值超过预设第一阈值时,则确定待识别标签不准确。
例如,具体可以确定需要识别的标签,得到待识别标签,查询待识别标签对应的全量数据,在待识别标签对应的全量数据中查询不同推荐算法的行为数据,根据查询结果生成对应的用户行为数据报表,在用户行为数据报表中提取各个推荐算法对应的用户行为数据,对提取到的用户行为数据进行分类,根据分类结果,获取不同推荐算法的后验数据,然后,在各个推荐算法对应的后验数据中提取对应的曝光数据,在各个推荐算法对应的曝光数据中提取推荐内容的总曝光次数,将各个推荐算法对应的总曝光次数与预设第四阈值进行对比,当各个推荐算法对应的总曝光次数超过预设第四阈值时,在该曝光数据中筛选出曝光时间超过预设第二阈值的第一曝光次数,在剩余曝光次数中筛选曝光时间的比例超过预设第三阈值的第二曝光次数,将各个推荐算法对应的第一曝光次数和第二曝光次数相加,得到各个推荐算法对应的有效曝光次数,将筛选得出各个推荐算法的有效曝光次数代入有效数据的计算公式中进行计算,得到各个推荐算法的有效数据,然后,将总曝光次数超过预设第四阈值的各个推荐算法进行分类,计算不同类型推荐算法的有效数据之间的差值,将计算出的不同类型推荐算法的有效数据之间的差值与预设第一阈值进行对比,当该差值超过预设第一阈值时,则确定待识别标签不准确。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本发明实施例所提供的任一种识别标签准确性的方法中的步骤,因此,可以实现本发明实施例所提供的任一种识别标签准确性的方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本发明实施例所提供的一种识别标签准确性的方法、装置、网络设备和存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (15)

1.一种识别标签准确性的方法,其特征在于,包括:
获取待识别标签的全量数据;
采集所述全量数据经过不同推荐算法推荐后得到的用户行为数据;
基于所述用户行为数据,获取各个推荐算法的对应的后验数据;
根据各个推荐算法对应的后验数据,确定各个推荐算法对应的有效数据;
计算各个推荐算法对应的有效数据之间的差值,若所述差值超过预设第一阈值时,则确定所述待识别标签不准确。
2.根据权利要求1所述的识别标签准确性的方法,其特征在于,所述根据各个推荐算法对应的后验数据,确定各个推荐算法对应的有效数据的步骤包括:
在所述后验数据中筛选出各个推荐算法对应的有效曝光次数;
按照预设策略对所述有效曝光次数进行计算,确定各个推荐算法对应的有效数据。
3.根据权利要求2所述的识别标签准确性的方法,其特征在于,所述在所述后验数据中筛选出各个推荐算法对应的有效曝光次数的步骤包括:
在所述后验数据中提取各个推荐算法对应的曝光数据;
在所述曝光数据中筛选曝光时间超过预设第二阈值的第一曝光次数;
基于所述第一曝光次数,在剩余曝光次数中筛选曝光时间的比例超过预设第三阈值的第二曝光次数,所述剩余曝光次数包括各个推荐算法对应的后验数据中总曝光次数与第一曝光次数的差值;
将各个推荐算法对应的所述第一曝光次数和所述第二曝光次数相加,得到所述各个推荐算法对应的有效曝光次数。
4.根据权利要求2所述的识别标签准确性的方法,其特征在于,所述按照预设策略对所述有效曝光次数进行计算,确定各个推荐算法对应的有效数据的步骤包括:
获取所述各个推荐算法对应的曝光数据中的总曝光次数;
计算所述有效曝光次数与所述总曝光次数之比,确定各个推荐算法对应的有效数据。
5.根据权利要求2至4任一项所述的识别标签准确性的方法,其特征在于,所述根据各个推荐算法对应的后验数据,确定各个推荐算法对应的有效数据的步骤包括
筛选出所述各个推荐算法对应的后验数据中的总曝光次数;
将所述总曝光次数与预设第四阈值进行对比;
当各个推荐算法对应的总曝光次数超过预设第四阈值时,根据各个推荐算法对应的后验数据,确定各个推荐算法对应的有效数据。
6.根据权利要求1至4任一项所述的识别标签准确性的方法,其特征在于,所述计算各个推荐算法对应的有效数据之间的差值,若所述差值超过预设第一阈值时,则确定所述待识别标签不准确的步骤包括:
根据推荐算法的类型,计算不同类型的推荐算法对应的有效数据之间差值;
将所述有效数据之间的差值与预设第一阈值进行对比,当所述有效数据的差值超过预设第一阈值时,则确定所述待识别标签不准确。
7.根据权利要求6所述的识别标签准确性的方法,其特征在于,所述根据推荐算法的类型,计算不同类型的推荐算法对应的有效数据之间差值的步骤包括:
对各个推荐算法进行分类,得到多个类型的推荐算法,所述多个类型的推荐算法包括用于标签推荐的第一类型推荐算法和用于协同推荐的第二类型推荐算法;
计算第二类型推荐算法的有效数据与第一类型推荐算法的有效数据的差值。
8.根据权利要求7所述的识别标签准确性的方法,其特征在于,所述计算第二类型推荐算法的有效数据与第一类型推荐算法的有效数据的差值的步骤包括:
将所述第二类型推荐算法中各个推荐算法对应的有效数据分别与所述第一类型推荐算法中各个推荐算法对应的有效数据相减;
对相减得到的结果进行加权,得到第二类型推荐算法的有效数据与第一类型推荐算法的有效数据的差值。
9.根据权利要求7所述的识别标签准确性的方法,其特征在于,所述计算第二类型推荐算法的有效数据与第一类型推荐算法的有效数据的差值的步骤包括:
将所述第二类型推荐算法中各个推荐算法对应的有效数据分别与所述第一类型推荐算法中各个推荐算法对应的有效数据相减;
将相减得到的结果作为第二类型推荐算法的有效数据与第一类型推荐算法的有效数据的差值;
所述将所述有效数据之间的差值与预设第一阈值进行对比,当所述有效数据的差值超过预设第一阈值时,则确定所述待识别标签不准确,包括:当所述有效数据的差值的数量为多个时,将所述多个有效数据的差值与预设第一阈值进行对比,当所述多个有效数据的差值中至少有一个超过预设第一阈值时,则确定所述待识别标签不准确。
10.根据权利要求1至4任一项所述的识别标签准确性的方法,其特征在于,所述采集所述全量数据经过不同推荐算法推荐后得到的用户行为数据的步骤包括:
根据所述全量数据,获取所述待识别标签在不同推荐算法下的用户行为数据报表;
在所述用户行为数据报表中提取用户行为数据。
11.根据权利要求1所述的识别标签准确性的方法,其特征在于,所述基于所述用户行为数据,获取各个推荐算法对应的后验数据的步骤包括:
对所述用户行为数据进行分类;
根据所述分类结果,获取各个推荐算法对应的后验数据。
12.一种识别标签准确性的装置,其特征在于,包括:
第一获取单元,用于获取待识别标签的全量数据;
采集单元,用于采集所述全量数据经过不同推荐算法推荐后得到的用户行为数据;
第二获取单元,用于基于所述用户行为数据,获取各个推荐算法的对应的后验数据;
确定单元,用于根据各个推荐算法对应的后验数据,确定各个推荐算法对应的有效数据;
计算单元,用于计算各个推荐算法对应的有效数据之间的差值,若所述差值超过预设第一阈值时,则确定所述待识别标签不准确。
13.根据权利要求12所述的识别标签准确性的装置,其特征在于,还包括:
筛选单元,用于筛选出所述各个推荐算法对应的后验数据中的总曝光次数;
对比单元,用于将所述总曝光次数与预设四阈值进行对比。
14.一种网络设备,其特征在于,包括存储器和处理器;所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序,以执行权利要求1至11任一项所述的识别标签准确性的方法中的操作。
15.一种存储介质,其特征在于,所述存储介质有多条指令,所述指令适于处理器进行加载,以执行权利要求1至11任一项所述的识别信息标签准确性方法中的步骤。
CN201910626033.XA 2019-07-11 2019-07-11 一种识别标签准确性的方法、装置、网络设备和存储介质 Active CN110413881B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910626033.XA CN110413881B (zh) 2019-07-11 2019-07-11 一种识别标签准确性的方法、装置、网络设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910626033.XA CN110413881B (zh) 2019-07-11 2019-07-11 一种识别标签准确性的方法、装置、网络设备和存储介质

Publications (2)

Publication Number Publication Date
CN110413881A true CN110413881A (zh) 2019-11-05
CN110413881B CN110413881B (zh) 2023-10-20

Family

ID=68361139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910626033.XA Active CN110413881B (zh) 2019-07-11 2019-07-11 一种识别标签准确性的方法、装置、网络设备和存储介质

Country Status (1)

Country Link
CN (1) CN110413881B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111522993A (zh) * 2020-04-08 2020-08-11 咪咕文化科技有限公司 标签有效性管理方法、装置、网络设备及存储介质
CN111901158A (zh) * 2020-07-14 2020-11-06 广东科徕尼智能科技有限公司 一种智能家居配网故障数据分析方法、设备及存储介质
CN113469109A (zh) * 2021-07-16 2021-10-01 阿波罗智联(北京)科技有限公司 交通灯识别结果处理方法、装置、路侧设备及云控平台

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294497A (zh) * 2015-06-09 2017-01-04 深圳市腾讯计算机系统有限公司 信息推荐方法和装置
CN107688606A (zh) * 2017-07-26 2018-02-13 北京三快在线科技有限公司 一种推荐信息的获取方法及装置,电子设备
CN107844525A (zh) * 2017-10-12 2018-03-27 广州艾媒数聚信息咨询股份有限公司 一种基于用户行为的资讯个性化推荐方法、系统及装置
CN109657138A (zh) * 2018-12-10 2019-04-19 深圳墨世科技有限公司 一种视频推荐方法、装置、电子设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294497A (zh) * 2015-06-09 2017-01-04 深圳市腾讯计算机系统有限公司 信息推荐方法和装置
CN107688606A (zh) * 2017-07-26 2018-02-13 北京三快在线科技有限公司 一种推荐信息的获取方法及装置,电子设备
CN107844525A (zh) * 2017-10-12 2018-03-27 广州艾媒数聚信息咨询股份有限公司 一种基于用户行为的资讯个性化推荐方法、系统及装置
CN109657138A (zh) * 2018-12-10 2019-04-19 深圳墨世科技有限公司 一种视频推荐方法、装置、电子设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111522993A (zh) * 2020-04-08 2020-08-11 咪咕文化科技有限公司 标签有效性管理方法、装置、网络设备及存储介质
CN111522993B (zh) * 2020-04-08 2023-08-15 咪咕文化科技有限公司 标签有效性管理方法、装置、网络设备及存储介质
CN111901158A (zh) * 2020-07-14 2020-11-06 广东科徕尼智能科技有限公司 一种智能家居配网故障数据分析方法、设备及存储介质
CN113469109A (zh) * 2021-07-16 2021-10-01 阿波罗智联(北京)科技有限公司 交通灯识别结果处理方法、装置、路侧设备及云控平台

Also Published As

Publication number Publication date
CN110413881B (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
CN110413881A (zh) 一种识别标签准确性的方法、装置、网络设备和存储介质
CN103886081A (zh) 一种信息发送方法及系统
CN108875768A (zh) 数据标注方法、装置和系统及存储介质
CN111125429B (zh) 一种视频推送方法、装置和计算机可读存储介质
CN111191111B (zh) 内容推荐方法、装置及存储介质
KR102464783B1 (ko) 소비자의 비정형 평가 정보를 이용한 소비자 니즈 분석 방법 및 장치
CN106649647A (zh) 基于人工智能的搜索结果排序方法和装置
CN108765177A (zh) 核保方法及核保系统
CN110334356A (zh) 文章质量的确定方法、文章筛选方法、以及相应的装置
CN110119477A (zh) 一种信息推送方法、装置和存储介质
CN106462632A (zh) 具有内容规范层的媒体商店
CN106919588A (zh) 一种应用程序搜索系统及方法
CN111242318A (zh) 基于异构特征库的业务模型训练方法及装置
CN109978624A (zh) 信息处理方法、电子设备及计算机可读存储介质
JP6377917B2 (ja) 画像検索装置及び画像検索プログラム
JP2006053616A (ja) サーバ装置、webサイト推奨方法およびプログラム
Lin et al. A dataset and baselines for e-commerce product categorization
CN107430590A (zh) 数据比较
CN113127720A (zh) 一种热搜词确定方法及装置
KR102028356B1 (ko) 코멘트 기반의 광고 추천 장치 및 방법
CN110188277A (zh) 一种资源的推荐方法及装置
JP2020102021A (ja) 文書検索プログラム、文書検索方法および文書検索システム
CN107092600B (zh) 一种信息识别方法及装置
CN108595498A (zh) 问题反馈方法及装置
CN116842936A (zh) 关键词识别方法、装置、电子设备和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant