CN113434746B - 基于用户标签的数据处理方法、终端设备及存储介质 - Google Patents

基于用户标签的数据处理方法、终端设备及存储介质 Download PDF

Info

Publication number
CN113434746B
CN113434746B CN202110707306.0A CN202110707306A CN113434746B CN 113434746 B CN113434746 B CN 113434746B CN 202110707306 A CN202110707306 A CN 202110707306A CN 113434746 B CN113434746 B CN 113434746B
Authority
CN
China
Prior art keywords
user
label
tag
total
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110707306.0A
Other languages
English (en)
Other versions
CN113434746A (zh
Inventor
余辉
马万铮
王志国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Coocaa Network Technology Co Ltd
Original Assignee
Shenzhen Coocaa Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Coocaa Network Technology Co Ltd filed Critical Shenzhen Coocaa Network Technology Co Ltd
Priority to CN202110707306.0A priority Critical patent/CN113434746B/zh
Publication of CN113434746A publication Critical patent/CN113434746A/zh
Application granted granted Critical
Publication of CN113434746B publication Critical patent/CN113434746B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于用户标签的数据处理方法,所述基于用户标签的数据处理方法包括以下步骤:获取用户总标签的标签值类型,并基于所述标签值类型对应的预设算法计算出所述用户总标签的标签完备率;其中,所述用户总标签包括所有用户的用户标签;获取所述用户总标签的标签属性类型,并基于所述标签属性类型对应的预设计算规则,计算出所述用户总标签的标签准确率;基于所述标签完备率、所述标签准确率和预设的标签质量评估规则,确定出所述用户总标签的标签质量。本发明公开的基于用户标签的数据处理方法可解决现有用户标签的质量难以得到保证的技术问题。

Description

基于用户标签的数据处理方法、终端设备及存储介质
技术领域
本发明属于用户画像技术领域,具体涉及一种基于用户标签的数据处理方法、终端设备及存储介质。
背景技术
随着互联网技术的发展,智能设备的用户量呈爆发式增长,为了对数量庞大的用户群进行高效管理,用户标签应运而生。用户标签有助于更快速准确地提炼用户信息、定位用户群体,从而帮助运营人员更有针对性地为不同的用户提供个性化服务。
然而,目前用户标签的完整性和准确性难以得到保证,在用户标签质量参差不齐的情况下,将极大降低对用户群体进行判断及定位的效率和精准性,导致运营人员后续难以有效地为各个用户群体提供针对性服务。
发明内容
为了克服现有技术的上述缺点,本发明的目的在于提供一种基于用户标签的数据处理方法,旨在解决现有用户标签的质量难以得到保证的技术问题。
本发明为达到其目的,所采用的技术方案如下:
一种基于用户标签的数据处理方法,所述基于用户标签的数据处理方法包括以下步骤:
获取用户总标签的标签值类型,并基于所述标签值类型对应的预设算法计算出所述用户总标签的标签完备率;其中,所述用户总标签包括所有用户的用户标签;
获取所述用户总标签的标签属性类型,并基于所述标签属性类型对应的预设计算规则,计算出所述用户总标签的标签准确率;
基于所述标签完备率、所述标签准确率和预设的标签质量评估规则,确定出所述用户总标签的标签质量。
进一步地,所述获取所述用户总标签的标签属性类型,并基于所述标签属性类型对应的预设计算规则计算出所述用户总标签的标签准确率的步骤,包括:
当所述用户总标签的标签属性类型为事实标签时,获取多个抽取用户的MAC地址、真机数据信息以及与所述用户总标签相对应的若干个第一数据来源表;其中,若干个所述第一数据来源表包括所有用户的用户事实数据信息;
确定每一所述第一数据来源表中与所述MAC地址相匹配的所述用户事实数据信息的匹配数量;
将每一所述抽取用户的所述真机数据信息分别与各个所述第一数据来源表中与所述MAC地址相匹配的所述用户事实数据信息一一进行比对,得到第一匹配结果,所述第一匹配结果包括匹配成功和匹配失败;
统计每一所述第一数据来源表中所述第一匹配结果为匹配成功的所述用户事实数据信息的成功数量,并基于每一所述第一数据来源表中的所述成功数量与每一所述第一数据来源表中的所述匹配数量,分别计算出一个相对应的第一匹配率;
基于若干个所述第一匹配率以及预定算法计算出所述用户总标签的标签准确率。
进一步地,所述获取所述用户总标签的标签属性类型,并基于所述标签属性类型对应的预设计算规则计算出所述用户总标签的标签准确率的步骤,包括:
当所述用户总标签的标签属性类型为模型标签时,获取多个抽取用户的MAC地址、真实行为信息以及与所述用户总标签相对应的若干个第二数据来源表;其中,若干个所述第二数据来源表包括所有用户的用户模型数据信息;
确定每一所述第二数据来源表中与所述MAC地址相匹配的所述用户模型数据信息的匹配数量;
将每一所述抽取用户的所述真实行为信息分别与各个所述第二数据来源表中与所述MAC地址相匹配的所述用户模型数据信息一一进行比对,得到第二匹配结果,所述第二匹配结果包括匹配成功和匹配失败;
统计每一所述第二数据来源表中所述第二匹配结果为匹配成功的所述用户模型数据信息的成功数量,并基于每一所述第二数据来源表中的所述成功数量与每一所述第二数据来源表中的所述匹配数量,分别计算出一个相对应的第二匹配率;
基于若干个所述第二匹配率以及预定算法计算出所述用户总标签的标签准确率。
进一步地,所述获取所述用户总标签的标签属性类型,并基于所述标签属性类型对应的预设计算规则计算出所述用户总标签的标签准确率的步骤,包括:
当所述用户总标签的标签属性类型为预测标签时,获取多个抽取用户的MAC地址、真实行为信息以及与所述用户总标签相对应的若干个第三数据来源表;其中,若干个所述第三数据来源表包括所有用户的用户模型数据信息;
确定每一所述第三数据来源表中与所述MAC地址相匹配的所述用户模型数据信息的匹配数量;
将每一所述抽取用户的所述真实行为信息分别与各个所述第三数据来源表中与所述MAC地址相匹配的所述用户模型数据信息一一进行比对,得到第三匹配结果,所述第三匹配结果包括匹配成功和匹配失败;
统计每一所述第三数据来源表中所述第三匹配结果为匹配成功的所述用户模型数据信息的成功数量,并基于每一所述第三数据来源表中的所述成功数量与每一所述第三数据来源表中的所述匹配数量,分别计算出一个相对应的第三匹配率;
基于若干个所述第三匹配率以及预定算法计算出所述用户总标签的标签准确率。
进一步地,所述获取所述用户总标签的标签属性类型,并基于所述标签属性类型对应的预设计算规则计算出所述用户总标签的标签准确率的步骤,包括:
当所述用户总标签的标签属性类型为预测标签时,获取多个抽取用户的MAC地址、真实个人信息以及所述所有用户的用户标签;
确定所述所有用户的用户标签中与所述MAC地址相匹配的所述用户标签的匹配数量;
将每一所述抽取用户的真实个人信息分别与所述所有用户的用户标签中与所述MAC地址相匹配的所述用户标签一一进行比对,得到第四匹配结果,所述第四匹配结果包括匹配成功和匹配失败;
统计所述第四匹配结果为匹配成功的所述用户标签的成功数量,并基于所述成功数量与所述匹配数量,计算出所述用户总标签的标签准确率。
进一步地,所述获取用户总标签的标签值类型,并基于所述标签值类型对应的预设算法计算出所述用户总标签的标签完备率的步骤之前,还包括以下步骤:
获取数据来源表,将所述数据来源表输入至预设的标签生成模型中,以生成所述所有用户的用户标签。
进一步地,所述用户总标签的所述标签值类型为字符串型、数值型、布尔型、时间型中的任意一种;所述获取用户总标签的标签值类型,并基于所述标签值类型对应的预设算法计算出所述用户总标签的标签完备率的步骤,包括:
当所述用户总标签的所述标签值类型为所述字符串型时,基于所述字符串型对应的所述预设算法计算出所述用户总标签的标签完备率;
当所述用户总标签的所述标签值类型为所述数值型时,基于所述数值型对应的所述预设算法计算出所述用户总标签的标签完备率;
当所述用户总标签的所述标签值类型为所述布尔型时,基于所述布尔型对应的所述预设算法计算出所述用户总标签的标签完备率;
所述用户总标签的所述标签值类型为所述时间型时,基于所述时间型对应的所述预设算法计算出所述用户总标签的标签完备率。
进一步地,所述基于所述标签完备率、所述标签准确率和预设的标签质量评估规则,确定出所述用户总标签的标签质量的步骤,包括:
获取预设的标签完整性权值表,并从所述标签完整性权值表中挑选出与所述标签完备率相对应的完备率评分;
获取预设的标签准确性权值表,并从所述标签准确性权值表中挑选出与所述标签准确率相对应的准确率评分;
根据所述完备率评分和所述准确率评分,确定所述用户总标签的标签质量;其中,所述标签质量包括优质、中等和低等。
对应地,本发明还提出一种终端设备,所述终端设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基于用户标签的数据处理程序,所述基于用户标签的数据处理程序配置为实现如前述的基于用户标签的数据处理方法的步骤。
对应地,本发明还提出一种存储介质,所述存储介质上存储有基于用户标签的数据处理程序,所述基于用户标签的数据处理程序被处理器执行时实现如前述的基于用户标签的数据处理方法的步骤。
与现有技术相比,本发明的有益效果是:
本发明提出的基于用户标签的数据处理方法,通过基于需评估的用户总标签的标签值类型对应的预设算法计算出该用户总标签的标签完备率,然后基于该用户总标签的标签属性类型对应的预设计算规则计算出该用户总标签的标签准确率,最后基于计算出的标签完备率和标签准确率,结合预设的标签质量评估规则确定出该用户总标签的标签质量,从而实现了用户标签的质量筛选,使得开发人员能够据此针对性地挑选出质量较高的用户标签以及对存在问题的用户标签进行整改,因此有效解决了现有用户标签的质量难以得到保证的技术问题,大大提升了用户标签的总体质量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明一实施例中基于用户标签的数据处理方法的流程示意图;
图2为本发明一实施例中标签准确率的计算逻辑演练图;
图3为本发明另一实施例中标签准确率的计算逻辑演练图;
图4为本发明又一实施例中标签准确率的计算逻辑演练图;
图5为本发明一实施例中的标签完整性权值表及标签准确性权值表的示意图;
图6为本发明一实施例中标签等级表的示意图;
图7为本发明实施例方案涉及的硬件运行环境的终端设备结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图7所示,图7是本发明实施例方案涉及的硬件运行环境的终端设备的结构示意图。
本实施例的终端设备可以是一种智能电视机、手机、平板电脑等具有存储功能的终端设备。
如图7所示,该终端设备可以包括:处理器1001,例如CPU,通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元(比如键盘(Keyboard)),可选的用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图7中示出的终端设备并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图7所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于用户标签的数据处理程序。
在如图7所示的终端设备中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要包括输入单元比如键盘,键盘包括无线键盘和有线键盘,用于连接客户端,与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的基于用户标签的数据处理程序,并执行下述任一实施例中的基于用户标签的数据处理方法中的操作。
基于上述硬件结构,提出本发明的基于用户标签的数据处理方法实施例。
参照图1,本发明一实施例提供一种基于用户标签的数据处理方法,该基于用户标签的数据处理方法包括以下步骤:
S100,获取用户总标签的标签值类型,并基于所述标签值类型对应的预设算法计算出所述用户总标签的标签完备率;其中,所述用户总标签包括所有用户的用户标签;
S200,获取所述用户总标签的标签属性类型,并基于所述标签属性类型对应的预设计算规则,计算出所述用户总标签的标签准确率;
S300,基于所述标签完备率、所述标签准确率和预设的标签质量评估规则,确定出所述用户总标签的标签质量。
进一步地,在一个示例性的实施例中,所述获取用户总标签的标签值类型,并基于所述标签值类型对应的预设算法计算出所述用户总标签的标签完备率的步骤之前,还包括以下步骤:
获取数据来源表,将所述数据来源表输入至预设的标签生成模型中,以生成所述所有用户的用户标签。
为便于对该基于用户标签的数据处理方法的具体流程及逻辑关系等进行阐述,本实施例及后续拓展的各个实施例均以智能电视OTT行业(OTT指通过互联网向用户提供各种应用服务,这种服务由运营商之外的第三方提供。用在电视业上是指通过公共网络向用户提供内容分发业务)中基于用户标签的数据处理方法为例来进行说明。
用户标签本质上就是用于刻画用户的种种特征,对于智能电视OTT行业而言就是电视用户的电视机参数、用户个人情况、收视情况、节目类型偏好等,用户标签可帮助OTT行业开发人员更准确地把控不同用户群体的特质与倾向,从而有针对性地为其提供个性化服务。
用户总标签是所有用户的用户标签的集合。比如,现系统中总共记录有100万个用户,每个用户都有一个属于自己的“包年VIP购买次数”用户标签,而“包年VIP购买次数”用户总标签则代表这100万个用户各自的“包年VIP购买次数”用户标签的集合。对“包年VIP购买次数”用户总标签进行标签质量评估,实际上就是评估:对于所有用户而言,“包年VIP购买次数”这一用户标签的总体质量情况;即根据对各个用户的“包年VIP购买次数”用户标签的评估结果来综合确定“包年VIP购买次数”这一用户总标签的标签质量。
开发人员在制作用户标签时,由于无法与用户或电视机供货厂家直接接触(或通过直接接触来获取用户数据的成本过高),因此通常采用间接的方式来获取用户数据(如通过搜索引擎获取,或通过其它网络途径调取用户行为日志、用户设备日志、用户应用日志等),然后将获取到的用户数据经过归纳整理制成数据来源表,数据来源表上记录了用于生成某个用户总标签所需的所有用户的用户数据,即数据来源表是制作用户标签的原材料。对应某个用户总标签的数据来源表可能有一张或多张,有多张数据来源表的原因可能是每张表分别由不同部门的开发人员所提供、或者每张表是分别通过不同的方式搜集到的、或者每张表分别对应不同的用户群体(可能存在多张数据来源表中有重复的用户,即各张数据来源表中的用户存在交叉重叠的情况)。但无论对应某个用户总标签的数据来源表是一张或多张,均在预设的标签生成模型的处理范畴内,在开发人员制作用户标签时,均是通过将该用户总标签所对应的若干张数据来源表输入至预设的标签生成模型中,通过加工处理以最终生成该用户总标签下各个用户的用户标签。
标签完整性和标签准确性是用于判断用户总标签质量的两大指标,具体地:
标签完整性指的是对于某个用户总标签而言,其所包含的用户标签在系统中是否齐全,是否有某个用户的这一用户标签存在缺失或无效的情况。具体地,用户标签不完整可能由于模型设计不完整,数据条目不完整(例如数据记录丢失或不可用,数据属性不完整等)而引起,从而导致某些用户缺失某个用户标签的情况发生。
用户总标签的标签完备率指的是对于某个用户总标签(如区县)而言,系统中所存储的用户未缺失该用户标签的概率。举例来说,在系统中,若用户A的用户标签显示的是:广东省,广州市,荔湾区;用户B的用户标签显示的是:江苏省,南京市;用户C的用户标签显示的是:湖北省;则说明对于省份、城市、区县这三个用户总标签来说,用户A的用户标签是完整的,而用户B和用户C的用户标签均是不完整的(用户B缺失了“区县”这一用户标签,用户C缺失了“城市”和“区县”这两个用户标签),如果系统中总共只有A、B、C三个用户,那么“省份”这个用户总标签的标签完备率是100%,“城市”和“区县”这两个用户总标签的标签完备率均不足100%(城市用户标签有一个用户缺失,区县用户标签有两个用户缺失),且省份用户总标签的标签完整性高于城市用户总标签的标签完整性,城市用户总标签的标签完整性高于区县用户总标签的标签完整性。由此可见,标签完整性表征的就是用户总标签下所有用户的该用户标签的完整程度;而标签完备率则是根据缺失用户标签的用户数量来对标签完整性进行评判的量化指标,是评估用户总标签的标签完整性的依据。
在计算用户总标签的标签完备率时,首先获取用户总标签的标签值类型(包括数值型、字符串型等),具体可通过在编程语言中调用函数来实现,若确定当前所要评估的用户总标签为字符串型,则调用对应字符串型的预设算法来计算出标签完备率,预设算法可包括获取数据、统计并提取所需的数据、按预设的计算公式对提取的数据进行计算等具体操作,此处不一一赘述。
标签准确性表征的是用户标签与该用户的实际情况相吻合的程度,对某个用户总标签进行标签准确性评估,实际上就是对该用户总标签下各个用户标签与各个用户实际情况的相吻合程度进行评估。用户总标签的标签准确率则是评判该吻合程度的量化指标。
举例来说,在系统中,若用户A的“每周观看综艺节目的总时长”用户标签显示的是4-6小时,用户A的“家庭人口”用户标签显示的是三口之家;用户B的“每周观看综艺节目的总时长”用户标签显示的是2-3小时,用户B的“家庭人口”用户标签显示的是四口之家。而实际上用户A是两口之家,每周观看综艺节目不超过1小时;用户B是四口之家,每周观看综艺节目6小时以上。如果系统中总共只有A、B两个用户,那么“家庭人口”这个用户总标签的标签准确率要高于“每周观看综艺节目的总时长”这个用户总标签的标签准确率(“家庭人口”用户总标签下只有用户A的用户标签出错,“每周观看综艺节目的总时长”用户总标签下用户A和用户B的用户标签均出错),因此“家庭人口”用户总标签的标签准确性高于“每周观看综艺节目的总时长”用户总标签的标签准确性。
在计算用户总标签的标签准确率时,首先获取用户总标签的标签属性类型(包括事实标签等),具体可通过在编程语言中调用函数来实现,亦可通过查找系统中存储的用户总标签一览表以获知当前要评估的用户总标签属于哪个标签属性类型。若确定当前所要评估的用户总标签为事实标签,则调用对应事实标签的预设计算规则来计算出标签准确率,预设计算规则可包括获取数据、统计并提取所需的数据、按预设的计算公式对提取的数据进行计算等具体操作,此处不一一赘述。
评估人员在得到某个用户总标签的标签完备率和标签准确率后,基于预设的标签质量评估规则,确定出用户总标签的标签质量。具体地,标签质量评估规则可以是将标签完备率和标签准确率整合为一个最终的数值结果,如将二者相加、相乘,或者将二者加权后相加、相乘等,并基于最终的结果进行标签质量评定;也可以直接对标签完备率和标签准确率分别进行评分,并根据预设的阈值判定规则得出最终的标签质量评定结果;当然亦可不局限于上述规则,只要能获得最终的标签质量,均在本实施例的保护范围内。
由此可见,本实施例所提供的基于用户标签的数据处理方法,通过基于需评估的用户总标签的标签值类型对应的预设算法计算出该用户总标签的标签完备率,然后基于该用户总标签的标签属性类型对应的预设计算规则计算出该用户总标签的标签准确率,最后基于计算出的标签完备率和标签准确率,结合预设的标签质量评估规则确定出该用户总标签的标签质量,从而实现了用户标签的质量筛选,使得开发人员能够据此针对性地挑选出质量较高的用户标签以及对存在问题的用户标签进行整改,因此有效解决了现有用户标签的质量难以得到保证的技术问题,大大提升了用户标签的总体质量。
进一步地,在一个示例性的实施例中,所述获取所述用户总标签的标签属性类型,并基于所述标签属性类型对应的预设计算规则计算出所述用户总标签的标签准确率的步骤,包括:
S211,当所述用户总标签的标签属性类型为事实标签时,获取多个抽取用户的MAC地址、真机数据信息以及与所述用户总标签相对应的若干个第一数据来源表;其中,若干个所述第一数据来源表包括所有用户的用户事实数据信息;
S212,确定每一所述第一数据来源表中与所述MAC地址相匹配的所述用户事实数据信息的匹配数量;
S213,将每一所述抽取用户的所述真机数据信息分别与各个所述第一数据来源表中与所述MAC地址相匹配的所述用户事实数据信息一一进行比对,得到第一匹配结果,所述第一匹配结果包括匹配成功和匹配失败;
S214,统计每一所述第一数据来源表中所述第一匹配结果为匹配成功的所述用户事实数据信息的成功数量,并基于每一所述第一数据来源表中的所述成功数量与每一所述第一数据来源表中的所述匹配数量,分别计算出一个相对应的第一匹配率;
S215,基于若干个所述第一匹配率以及预定算法计算出所述用户总标签的标签准确率。
在本实施例中,事实标签所反映的是既定的客观事实,以智能电视OTT行业为例,事实标签包括用户所购买的电视机的机型、机芯、尺寸、价格、IP等,亦包括用户在智能电视上留存有记录的真实操作(购买包月会员的次数、激活电视主页的时间、最近一次登录的时间等)等。事实标签是从数据来源表中直接提取得到的,不需经过加工处理,因此,通过校验数据来源表的准确性,即可判断由数据来源表直接生成的事实标签的质量。
以下对本实施例的流程分步进行具体说明:
S211,当所述用户总标签的标签属性类型为事实标签时,获取多个抽取用户的MAC地址、真机数据信息以及与所述用户总标签相对应的若干个第一数据来源表;其中,若干个所述第一数据来源表包括所有用户的用户事实数据信息。
当目前要评估的用户总标签的标签属性类型为事实标签时,从所有用户中抽取一批用户,所抽取的用户来源应尽可能丰富,应涵盖尽可能多地域、群体等,如可选择10个具有代表性的城市,每个城市抽取1000名涵盖各个阶层的用户。每个用户都拥有一个专属的MAC地址,MAC地址与用户一一对应,通过定位MAC地址即可快速确定用户。真机数据信息是用户目前使用的真实电视机的参数信息以及用户在电视终端上留下记录的操作信息,即电视机的真实机型、机芯、尺寸、价格等,以及用户的在线记录、激活记录、购买VIP记录等。真机数据信息可通过上门拜访用户或通过电话、线上等方式联系用户以获知,也可从电视机厂家处获取用户的购买记录以获知,而需要获取用户所在地域或地址信息时,可通过使用高德地图、谷歌地图等权威地图软件来获知,总之能获取到真实的真机信息以作为后续计算标签准确率的依据即可,具体的获取方式在此不一一赘述,已获取的真机数据信息可保存于系统中以便后续对该用户总标签作二次校验时直接调用。而获取第一数据来源表,则是获取与当前所要评估的用户总标签相对应的数据来源表,第一数据来源表中包括所有用户的用户事实数据信息,即第一数据来源表中记录有如前述的用于制作所有用户的事实标签所需的所有原始数据信息(通过多个部门、多种途径间接获得的)。
S212,确定每一所述第一数据来源表中与所述MAC地址相匹配的所述用户事实数据信息的匹配数量。
根据前面所述,每个抽取用户都具有一个专属的MAC地址,在第一数据来源表中针对各个MAC地址进行连接查询,即可快速将各个抽取用户与第一数据来源表中所有与之相对应的用户事实数据信息匹配上,然后统计每一个第一数据来源表中可与抽取用户的MAC地址匹配上的数量,得到若干个(与第一数据来源表的数量一致)匹配数量,如总共有两个第一数据来源表,第一个第一数据来源表中有863个用户事实数据可与抽取用户的MAC地址匹配上,第二个第一数据来源表中有924个用户事实数据可与抽取用户的MAC地址匹配上,则最后得到863、924两个匹配数量。
S213,将每一所述抽取用户的所述真机数据信息分别与各个所述第一数据来源表中与所述MAC地址相匹配的所述用户事实数据信息一一进行比对,得到第一匹配结果,所述第一匹配结果包括匹配成功和匹配失败。
通过MAC地址使第一数据来源表中的用户事实数据信息与抽取用户匹配上之后,需将抽取用户的真机数据信息与第一数据来源表中的用户事实数据信息进行比对,若二者一致或真机数据信息落入用户事实数据信息所覆盖的范围内,则认为匹配成功;若二者不一致或真机数据信息超出用户事实数据信息所覆盖的范围,则认为匹配失败。
S214,统计每一所述第一数据来源表中所述第一匹配结果为匹配成功的所述用户事实数据信息的成功数量,并基于每一所述第一数据来源表中的所述成功数量与每一所述第一数据来源表中的所述匹配数量,分别计算出一个相对应的第一匹配率。
如总共有两个第一数据来源表,第一个第一数据来源表中有863个用户事实数据可与抽取用户的MAC地址匹配上,其中781个用户事实数据的匹配结果为匹配成功,82个用户事实数据的匹配结果为匹配失败;第二个第一数据来源表中有924个用户事实数据可与抽取用户的MAC地址匹配上,其中695个用户事实数据的匹配结果为匹配成功,229个用户事实数据的匹配结果为匹配失败;则最后得到863、924两个匹配数量以及781、695两个成功数量。在计算第一匹配率时,可采用如下计算公式:
每个第一数据来源表的第一匹配率=该第一数据来源表的成功数量/该第一数据来源表的匹配数量*100%。
应用到上述例子中,即781/863*100%、695/924*100%,最终基于每个第一数据来源表分别得到一个第一匹配率(本例中为两个,即781/863*100%和695/924*100%)。在具体实施过程中并不局限于二者直接相除的方式,只需最终能得到可反映匹配成功比例的结果即可。
S215,基于若干个所述第一匹配率以及预定算法计算出所述用户总标签的标签准确率。
可选地,对若干个第一匹配率取平均值以得出用户总标签的标签准确率。当然,在具体实施过程中,亦可根据各个第一数据来源表的重要程度及权威程度(如其中某张第一数据来源表获取用户原始数据的方式更合理、更接近真实数据,则可认为这张第一数据来源表对于最终的标签准确率计算结果更为重要),为各个第一数据来源表分配不同的权重来进行计算,甚至可直接忽略某些无用数据过多的第一数据来源表,不将其纳入最终标签准确率的计算过程。
参照图2,现设定需进行质量评估的用户总标签为机型,抽取用户数量为10个,第一数据来源表为3张,通过该示意图对本实施例的数据处理流程进行还原:
图示性地,第一数据来源表A中包含8条用户事实数据信息,其中有6条用户事实数据信息与抽取用户的MAC地址相匹配,通过将该6条用户事实数据信息与相对应的用户的真机数据信息进行比对,发现其中有3条一致,即匹配成功的数量为3条,则第一匹配率A=3/6*100%=50%;第一数据来源表B中包含8条用户事实数据信息,其中有7条用户事实数据信息与抽取用户的MAC地址相匹配,通过将该7条用户事实数据信息与相对应的用户的真机数据信息进行比对,发现其中有4条一致,即匹配成功的数量为4条,则第一匹配率B=4/7*100%=57%;第一数据来源表C中包含8条用户事实数据信息,其中有8条用户事实数据信息与抽取用户的MAC地址相匹配,通过将该8条用户事实数据信息与相对应的用户的真机数据信息进行比对,发现其中有6条一致,即匹配成功的数量为6条,则第一匹配率C=6/8*100%=75%。由此,则标签准确率为第一匹配率A、第一匹配率B、第一匹配率C的平均值,即标签准确率=(50%+57%+75%)/3=60.6%。
需要指出的是,图2所示的数据处理方式以用于帮助理解本实施所提供的当用户总标签的标签属性类型为事实标签时,获得标签准确率的具体过程,并非对本实施例的具体实施方式进行限定。
进一步地,在一个示例性的实施例中,所述获取所述用户总标签的标签属性类型,并基于所述标签属性类型对应的预设计算规则计算出所述用户总标签的标签准确率的步骤,包括:
S221,当所述用户总标签的标签属性类型为模型标签时,获取多个抽取用户的MAC地址、真实行为信息以及与所述用户总标签相对应的若干个第二数据来源表;其中,若干个所述第二数据来源表包括所有用户的用户模型数据信息;
S222,确定每一所述第二数据来源表中与所述MAC地址相匹配的所述用户模型数据信息的匹配数量;
S223,将每一所述抽取用户的所述真实行为信息分别与各个所述第二数据来源表中与所述MAC地址相匹配的所述用户模型数据信息一一进行比对,得到第二匹配结果,所述第二匹配结果包括匹配成功和匹配失败;
S224,统计每一所述第二数据来源表中所述第二匹配结果为匹配成功的所述用户模型数据信息的成功数量,并基于每一所述第二数据来源表中的所述成功数量与每一所述第二数据来源表中的所述匹配数量,分别计算出一个相对应的第二匹配率;
S225,基于若干个所述第二匹配率以及预定算法计算出所述用户总标签的标签准确率。
在本实施例中,以智能电视OTT行业为例,模型标签包括用户在某个时间段内的收视情况、在某个时间段内的电视购物情况、一天中的主要收视时段、某类节目的收视时长等。对于模型标签而言,没有直接与之相对应的数据,需要通过规则进行定义,模型标签需利用数据来源表中直接获取的数据,加上算法模型,通过计算以最终生成。因此,通过校验数据来源表的准确性,可判断由数据来源表以及算法模型所生成的模型标签的质量。
以下对本实施例的流程分步进行具体说明:
S221,当所述用户总标签的标签属性类型为模型标签时,获取多个抽取用户的MAC地址、真实行为信息以及与所述用户总标签相对应的若干个第二数据来源表;其中,若干个所述第二数据来源表包括所有用户的用户模型数据信息。
当目前要评估的用户总标签的标签属性类型为模型标签时,从所有用户中抽取一批用户,所抽取的用户来源应尽可能丰富,应涵盖尽可能多地域、群体等,如可选择10个具有代表性的城市,每个城市抽取1000名涵盖各个阶层的用户。每个用户都拥有一个专属的MAC地址,MAC地址与用户一一对应,通过定位MAC地址即可快速确定用户。真实行为信息代表用户真实的行为,即用户在什么时段收看体育节目、在工作日进行电视购物的情况、在周末收看综艺节目的情况等。真实行为信息可通过测试机触发用户行为以获取(即在某一时段监控用户会收看什么类型的节目等),但由于该方式需耗费较多时间成本,因此也可采用线上、线下的问卷调查或调用客服对用户进行回访的方式获知,亦可将以上两种方式结合。总之能获取到用户的真实信息以作为后续计算标签准确率的依据即可,具体的获取方式在此不一一赘述,已获取的真实行为信息可保存于系统中以便后续对该用户总标签作二次校验时直接调用。而获取第二数据来源表,则是获取与当前所要评估的用户总标签相对应的数据来源表,第二数据来源表中包括所有用户的用户模型数据信息,即第二数据来源表中记录有如前述的用于制作所有用户的模型标签所需的所有原始数据信息(通过多个部门、多种途径间接获得的)。
S222,确定每一所述第二数据来源表中与所述MAC地址相匹配的所述用户模型数据信息的匹配数量。
根据前面所述,每个抽取用户都具有一个专属的MAC地址,在第二数据来源表中针对各个MAC地址进行连接查询,即可快速将各个抽取用户与第二数据来源表中所有与之相对应的用户模型数据信息匹配上,然后统计每一个第二数据来源表中可与抽取用户的MAC地址匹配上的数量,得到若干个(与第二数据来源表的数量一致)匹配数量,如总共有两个第二数据来源表,第一个第二数据来源表中有863个用户模型数据可与抽取用户的MAC地址匹配上,第二个第二数据来源表中有924个用户模型数据可与抽取用户的MAC地址匹配上,则最后得到863、924两个匹配数量。
S223,将每一所述抽取用户的所述真实行为信息分别与各个所述第二数据来源表中与所述MAC地址相匹配的所述用户模型数据信息一一进行比对,得到第二匹配结果,所述第二匹配结果包括匹配成功和匹配失败。
通过MAC地址使第二数据来源表中的用户模型数据信息与抽取用户匹配上之后,需将抽取用户的真实行为信息与第二数据来源表中的用户模型数据信息进行比对,若二者一致或真实行为信息落入用户模型数据信息所覆盖的范围内(真实行为信息为周末下午收看2小时的体育节目,用户模型数据信息为周末下午收看1~3小时的体育节目),则认为匹配成功;若二者不一致或真实行为信息超出用户模型数据信息所覆盖的范围,则认为匹配失败。
S224,统计每一所述第二数据来源表中所述第二匹配结果为匹配成功的所述用户模型数据信息的成功数量,并基于每一所述第二数据来源表中的所述成功数量与每一所述第二数据来源表中的所述匹配数量,分别计算出一个相对应的第二匹配率。
如总共有两个第二数据来源表,第一个第二数据来源表中有863个用户模型数据可与抽取用户的MAC地址匹配上,其中781个用户模型数据的匹配结果为匹配成功,82个用户模型数据的匹配结果为匹配失败;第二个第二数据来源表中有924个用户模型数据可与抽取用户的MAC地址匹配上,其中695个用户模型数据的匹配结果为匹配成功,229个用户模型数据的匹配结果为匹配失败;则最后得到863、924两个匹配数量以及781、695两个成功数量。在计算第二匹配率时,可采用如下计算公式:
每个第二数据来源表的第二匹配率=该第二数据来源表的成功数量/该第二数据来源表的匹配数量*100%。
应用到上述例子中,即781/863*100%、695/924*100%,最终基于每个第二数据来源表分别得到一个第二匹配率(本例中为两个,即781/863*100%和695/924*100%)。在具体实施过程中并不局限于二者直接相除的方式,只需最终能得到可反映匹配成功比例的结果即可。
S225,基于若干个所述第二匹配率以及预定算法计算出所述用户总标签的标签准确率。
可选地,对若干个第二匹配率取平均值以得出用户总标签的标签准确率。当然,在具体实施过程中,亦可根据各个第二数据来源表的重要程度及权威程度(如其中某张第二数据来源表获取用户原始数据的方式更合理、更接近真实数据,则可认为这张第二数据来源表对于最终的标签准确率计算结果更为重要),为各个第二数据来源表分配不同的权重来进行计算,甚至可直接忽略某些无用数据过多的第二数据来源表,不将其纳入最终标签准确率的计算过程。
参照图3,现设定需进行质量评估的用户总标签为周末下午收视,抽取用户数量为10个,第二数据来源表为1张,通过该示意图对本实施例的数据处理流程进行还原:
图示性地,第二数据来源表中包含12条用户模型数据信息,其中有10条用户模型数据信息与抽取用户的MAC地址相匹配,通过将该10条用户模型数据信息与相对应的用户的真实行为信息进行比对,发现其中有6条一致,即匹配成功的数量为6条,则第二匹配率=6/10*100%=60%。由于只有一张第二数据来源表,故标签准确率=第二匹配率=60%。
当第二数据来源表为多张时,获取标签准确率的方式参见图2所示的方式,此处不再另举例子说明。
需要指出的是,图3所示的数据处理方式以用于帮助理解本实施所提供的当用户总标签的标签属性类型为模型标签时,获得标签准确率的具体过程,并非对本实施例的具体实施方式进行限定。
进一步地,在一个示例性的实施例中,所述获取所述用户总标签的标签属性类型,并基于所述标签属性类型对应的预设计算规则计算出所述用户总标签的标签准确率的步骤,包括:
S231,当所述用户总标签的标签属性类型为预测标签时,获取多个抽取用户的MAC地址、真实行为信息以及与所述用户总标签相对应的若干个第三数据来源表;其中,若干个所述第三数据来源表包括所有用户的用户模型数据信息;
S232,确定每一所述第三数据来源表中与所述MAC地址相匹配的所述用户模型数据信息的匹配数量;
S233,将每一所述抽取用户的所述真实行为信息分别与各个所述第三数据来源表中与所述MAC地址相匹配的所述用户模型数据信息一一进行比对,得到第三匹配结果,所述第三匹配结果包括匹配成功和匹配失败;
S234,统计每一所述第三数据来源表中所述第三匹配结果为匹配成功的所述用户模型数据信息的成功数量,并基于每一所述第三数据来源表中的所述成功数量与每一所述第三数据来源表中的所述匹配数量,分别计算出一个相对应的第三匹配率;
S235,基于若干个所述第三匹配率以及预定算法计算出所述用户总标签的标签准确率。
在本实施例中,预测标签即参考已有的用户数据来预测用户的偏好或用户的个人情况,以智能电视OTT行业为例,预测标签包括用户的家庭人口、有无孩子、是否处于备孕期、居住的小区类型、是否为音乐爱好者或直播从业者等。对于预测标签而言,没有直接与之相对应的数据,需要综合数据、算法模型及预设的阈值规则来得到,具体地,需获取数据来源表中的用户模型数据,再利用预设的阈值规则对用户模型数据进行加工处理后才能得到。阈值规则即对已获取的用户模型数据进行阈值判定所遵循的规则,举例来说,用户模型数据为“用户A在每个工作日晚上都会收看1~2小时歌唱选秀节目”,而阈值规则为“当用户一周内收看音乐节目达到1小时的天数超过3天时,判定用户为音乐爱好者”,则根据用户模型数据和阈值规则,最终用户A生成了“音乐爱好者”这一用户标签。由此可见,预测标签是由用户模型数据和阈值规则共同决定的,因此,通过校验数据来源表的准确性、或者校验阈值规则的准确性、或者同时校验二者的准确性,均可在一定程度上判断预测标签的质量。
在本实施例中是对数据来源表的准确性进行校验,以下对本实施例的流程分步进行具体说明:
S231,当所述用户总标签的标签属性类型为预测标签时,获取多个抽取用户的MAC地址、真实行为信息以及与所述用户总标签相对应的若干个第三数据来源表;其中,若干个所述第三数据来源表包括所有用户的用户模型数据信息。
当目前要评估的用户总标签的标签属性类型为预测标签时,从所有用户中抽取一批用户,所抽取的用户来源应尽可能丰富,应涵盖尽可能多地域、群体等,如可选择10个具有代表性的城市,每个城市抽取1000名涵盖各个阶层的用户。每个用户都拥有一个专属的MAC地址,MAC地址与用户一一对应,通过定位MAC地址即可快速确定用户。真实行为信息代表用户真实的行为,即用户在什么时段收看体育节目、在工作日进行电视购物的情况、在周末收看综艺节目的情况等。真实行为信息可通过测试机触发用户行为以获取(即在某一时段监控用户会收看什么类型的节目等),但由于该方式需耗费较多时间成本,因此也可采用线上、线下的问卷调查或调用客服对用户进行回访的方式获知,亦可将以上两种方式结合。总之能获取到用户的真实信息以作为后续计算标签准确率的依据即可,具体的获取方式在此不一一赘述,已获取的真实行为信息可保存于系统中以便后续对该用户总标签作二次校验时直接调用。而获取第三数据来源表,则是获取与当前所要评估的用户总标签相对应的数据来源表,第三数据来源表中包括所有用户的用户模型数据信息,即第三数据来源表中记录有如前述的用于制作所有用户的模型标签所需的所有原始数据信息(通过多个部门、多种途径间接获得的)。
S232,确定每一所述第三数据来源表中与所述MAC地址相匹配的所述用户模型数据信息的匹配数量。
根据前面所述,每个抽取用户都具有一个专属的MAC地址,在第三数据来源表中针对各个MAC地址进行连接查询,即可快速将各个抽取用户与第三数据来源表中所有与之相对应的用户模型数据信息匹配上,然后统计每一个第三数据来源表中可与抽取用户的MAC地址匹配上的数量,得到若干个(与第三数据来源表的数量一致)匹配数量,如总共有两个第三数据来源表,第一个第三数据来源表中有863个用户模型数据可与抽取用户的MAC地址匹配上,第二个第三数据来源表中有924个用户模型数据可与抽取用户的MAC地址匹配上,则最后得到863、924两个匹配数量。
S233,将每一所述抽取用户的所述真实行为信息分别与各个所述第三数据来源表中与所述MAC地址相匹配的所述用户模型数据信息一一进行比对,得到第三匹配结果,所述第三匹配结果包括匹配成功和匹配失败。
通过MAC地址使第三数据来源表中的用户模型数据信息与抽取用户匹配上之后,需将抽取用户的真实行为信息与第三数据来源表中的用户模型数据信息进行比对,若二者一致或真实行为信息落入用户模型数据信息所覆盖的范围内(真实行为信息为周末下午收看2小时的体育节目,用户模型数据信息为周末下午收看1~3小时的体育节目),则认为匹配成功;若二者不一致或真实行为信息超出用户模型数据信息所覆盖的范围,则认为匹配失败。
S234,统计每一所述第三数据来源表中所述第三匹配结果为匹配成功的所述用户模型数据信息的成功数量,并基于每一所述第三数据来源表中的所述成功数量与每一所述第三数据来源表中的所述匹配数量,分别计算出一个相对应的第三匹配率。
如总共有两个第三数据来源表,第一个第三数据来源表中有863个用户模型数据可与抽取用户的MAC地址匹配上,其中781个用户模型数据的匹配结果为匹配成功,82个用户模型数据的匹配结果为匹配失败;第二个第三数据来源表中有924个用户模型数据可与抽取用户的MAC地址匹配上,其中695个用户模型数据的匹配结果为匹配成功,229个用户模型数据的匹配结果为匹配失败;则最后得到863、924两个匹配数量以及781、695两个成功数量。在计算第三匹配率时,可采用如下计算公式:
每个第三数据来源表的第三匹配率=该第三数据来源表的成功数量/该第三数据来源表的匹配数量*100%。
应用到上述例子中,即781/863*100%、695/924*100%,最终基于每个第三数据来源表分别得到一个第三匹配率(本例中为两个,即781/863*100%和695/924*100%)。在具体实施过程中并不局限于二者直接相除的方式,只需最终能得到可反映匹配成功比例的结果即可。
S235,基于若干个所述第三匹配率以及预定算法计算出所述用户总标签的标签准确率。
可选地,对若干个第三匹配率取平均值以得出用户总标签的标签准确率。当然,在具体实施过程中,亦可根据各个第三数据来源表的重要程度及权威程度(如其中某张第三数据来源表获取用户原始数据的方式更合理、更接近真实数据,则可认为这张第三数据来源表对于最终的标签准确率计算结果更为重要),为各个第三数据来源表分配不同的权重来进行计算,甚至可直接忽略某些无用数据过多的第三数据来源表,不将其纳入最终标签准确率的计算过程。
进一步地,在另一个示例性的实施例中,所述获取所述用户总标签的标签属性类型,并基于所述标签属性类型对应的预设计算规则计算出所述用户总标签的标签准确率的步骤,包括:
S241,当所述用户总标签的标签属性类型为预测标签时,获取多个抽取用户的MAC地址、真实个人信息以及所述所有用户的用户标签;
S242,确定所述所有用户的用户标签中与所述MAC地址相匹配的所述用户标签的匹配数量;
S243,将每一所述抽取用户的真实个人信息分别与所述所有用户的用户标签中与所述MAC地址相匹配的所述用户标签一一进行比对,得到第四匹配结果,所述第四匹配结果包括匹配成功和匹配失败;
S244,统计所述第四匹配结果为匹配成功的所述用户标签的成功数量,并基于所述成功数量与所述匹配数量,计算出所述用户总标签的标签准确率。
根据上一实施例所述,预测标签是由用户模型数据和阈值规则共同决定的,因此,通过校验数据来源表的准确性、或者校验阈值规则的准确性、或者同时校验二者的准确性,均可在一定程度上判断预测标签的质量。经过上一实施例中对第三数据来源表的准确性进行校验的过程后,若最终得出用户总标签的标签准确性达到预想要求,则说明第三数据来源表所记录的用户模型数据准确性满足要求。而此时若要确认最终生成的预测标签同样满足准确性要求,仅仅靠用户模型数据的校验结果来判断并不可靠,还需对阈值规则进行校验。具体地,本实施例将最终生成的用户标签与用户的真实个人信息直接进行比对,若在用户模型数据的准确性满足要求情况下,通过本实施例的方式计算出的标签准确率与上一实施例得出的标签准确率相差较大,则说明阈值规则出现问题,需进行调整。
以下对本实施例的流程分步进行具体说明:
S241,当所述用户总标签的标签属性类型为预测标签时,获取多个抽取用户的MAC地址、真实个人信息以及所述所有用户的用户标签。
当目前要评估的用户总标签的标签属性类型为预测标签时,从所有用户中抽取一批用户,所抽取的用户来源应尽可能丰富,应涵盖尽可能多地域、群体等,如可选择10个具有代表性的城市,每个城市抽取1000名涵盖各个阶层的用户。每个用户都拥有一个专属的MAC地址,MAC地址与用户一一对应,通过定位MAC地址即可快速确定用户。真实个人信息即用户的真实家庭成员情况、有无孩子、是否处于备孕期、居住的小区类型、是否为音乐爱好者或直播从业者等。真实个人信息可通过上门拜访客户、采用线上、线下的问卷调查、调用客服对用户进行回访、调用网络资源查询用户资料等方式获知,在具体实施过程中,能获取到用户的真实信息以作为后续计算标签准确率的依据即可,具体的获取方式在此不一一赘述,已获取的真实个人信息可保存于系统中以便后续对该用户总标签作二次校验时直接调用。而获取所有用户的用户标签,具体可为将已存储在系统中的所有用户的用户标签调取出来。
S242,确定所述所有用户的用户标签中与所述MAC地址相匹配的所述用户标签的匹配数量。
根据前面所述,每个抽取用户都具有一个专属的MAC地址,将系统中存储的所有用户的用户标签针对各个MAC地址进行连接查询,即可快速将各个抽取用户与系统中存储的用户标签匹配上,然后统计系统中可与抽取用户的MAC地址匹配上的用户标签数量,得到匹配数量。
S243,将每一所述抽取用户的真实个人信息分别与所述所有用户的用户标签中与所述MAC地址相匹配的所述用户标签一一进行比对,得到第四匹配结果,所述第四匹配结果包括匹配成功和匹配失败。
通过MAC地址使系统中存储的用户标签与抽取用户匹配上之后,需将抽取用户的真实个人信息与系统中存储的用户标签进行比对,若二者一致或真实个人信息落入用户标签所覆盖的范围内(真实个人信息为用户现居住在T小区,用户标签为高档小区,而T小区属于高档小区),则认为匹配成功;若二者不一致或真实个人信息超出用户标签所覆盖的范围,则认为匹配失败。
S244,统计所述第四匹配结果为匹配成功的所述用户标签的成功数量,并基于所述成功数量与所述匹配数量,计算出所述用户总标签的标签准确率。
本实施例在计算用户总标签的标签准确率时,可采用如下计算公式:
用户总标签的标签准确率=成功数量/匹配数量*100%。
参照图4,现设定需进行质量评估的用户总标签为有孩子的家庭,抽取用户数量为5个,通过该示意图对本实施例的数据处理流程进行还原:
图示性地,系统中存储有8个用户标签,其中有5个用户标签与抽取用户的MAC地址相匹配,通过将该5个用户标签与相对应的用户的真实个人信息进行比对,发现其中有4个一致,即匹配成功的数量为4个,故标签准确率=4/5*100%=80%。
需要指出的是,图4所示的数据处理方式以用于帮助理解本实施所提供的当用户总标签的标签属性类型为预测标签时,获得标签准确率的具体过程,并非对本实施例的具体实施方式进行限定。
本实施例通过将存储在系统中的用户标签与用户的真实个人信息直接进行比对,可在上一实施例已对数据来源表中用户模型数据的准确性校验完毕的情况下,进一步帮助开发人员对阈值规则的准确性进行判断,从而提高了对于预测标签的准确性校验精度,亦有助于开发人员更有针对性地对生成用户标签的各要素进行相应调整。
进一步地,在一个示例性的实施例中,所述用户总标签的所述标签值类型为字符串型、数值型、布尔型、时间型中的任意一种;所述获取用户总标签的标签值类型,并基于所述标签值类型对应的预设算法计算出所述用户总标签的标签完备率的步骤,包括:
当所述用户总标签的所述标签值类型为所述字符串型时,基于所述字符串型对应的所述预设算法计算出所述用户总标签的标签完备率;
当所述用户总标签的所述标签值类型为所述数值型时,基于所述数值型对应的所述预设算法计算出所述用户总标签的标签完备率;
当所述用户总标签的所述标签值类型为所述布尔型时,基于所述布尔型对应的所述预设算法计算出所述用户总标签的标签完备率;
所述用户总标签的所述标签值类型为所述时间型时,基于所述时间型对应的所述预设算法计算出所述用户总标签的标签完备率。
在本实施例中,用户总标签下的各个用户标签在JAVA、C++等编程语言中显示为可被计算机语言所识读的标签值,字符串型、数值型、布尔型、时间型均为编程语言中的变量类型,每个用户标签的标签值均属于上述四种变量类型中的任意一种。在具体实施过程中,可对系统中的所有用户进行用户标签完整性校验,亦可通过抽样方式,从系统中抽取一部分用户来进行用户标签完整性校验。
针对各种类型对应的预设算法,以下提供一种可采用的计算公式:
字符串型:某个用户总标签的标签完备率=(在该用户总标签下,用户标签的标签值不为空、NULL、未知的数量)/系统中储存的用户总数量*100%;或者,某个用户总标签的标签完备率=(在该用户总标签下,抽取的用户标签的标签值不为空、NULL、未知的数量)/抽取的用户数量*100%;
数值型:某个用户总标签的标签完备率=(在该用户总标签下,用户标签的标签值不为空、NULL、未知的数量)/系统中储存的用户总数量*100%;或者,某个用户总标签的标签完备率=(在该用户总标签下,抽取的用户标签的标签值不为空、NULL、未知的数量)/抽取的用户数量*100%;
布尔型:某个用户总标签的标签完备率=(在该用户总标签下,用户标签的标签值为1的数量)/系统中储存的用户总数量*100%;或者,某个用户总标签的标签完备率=(在该用户总标签下,抽取的用户标签的标签值为1的数量)/抽取的用户数量*100%;
时间型:某个用户总标签的标签完备率=(在该用户总标签下,用户标签的标签值不为空、NULL、未知的数量)/系统中储存的用户总数量*100%;或者,某个用户总标签的标签完备率=(在该用户总标签下,抽取的用户标签的标签值不为空、NULL、未知的数量)/抽取的用户数量*100%。
需要指出的是,在具体实施过程中,可根据实际情况对上述计算公式进行适应性增减及调整,只要经计算能得出用户总标签的标签完备率即可,并不局限于本实施例所提供的形式。
进一步地,在一个示例性的实施例中,所述基于所述标签完备率、所述标签准确率和预设的标签质量评估规则,确定出所述用户总标签的标签质量的步骤,包括:
S310,获取预设的标签完整性权值表,并从所述标签完整性权值表中挑选出与所述标签完备率相对应的完备率评分;
S320,获取预设的标签准确性权值表,并从所述标签准确性权值表中挑选出与所述标签准确率相对应的准确率评分;
S330,根据所述完备率评分和所述准确率评分,确定所述用户总标签的标签质量;其中,所述标签质量包括优质、中等和低等。
在本实施例中,标签完整性权值表和标签准确性权值表可预先存储于系统中,并在需要时调用。标签完整性权值表中包括多个用户总标签的标签完备率范围及与之相对应的完备率评分,标签准确性权值表中包括多个用户总标签的标签准确率范围及与之相对应的准确率评分。具体地,图5提供了一种标签完整性权值表及标签准确性权值表,参照该表,若当前需评估的用户总标签的标签值类型为布尔型,标签属性类型为模型标签,标签完备率为85%,标签准确率为90%,则最终得出的完备率评分为30,准确率评分为50。当然,在具体实施过程中,可根据实际情况设置标签完整性权值表和标签准确性权值表的具体数值及计算方式,并不局限于图5所提供的形式。
在得出完备率评分和准确率评分后,可选择将二者直接相加以得出标签总分,并根据预设的标签等级表(表中包括三个标签总分范围及与之相对应的标签质量),挑选出与标签总分相对应的标签质量。具体地,图6提供了一种标签等级表,参照该表,若当前需评估的用户总标签的完备率评分为30,准确率评分为50,相加后的标签总分为80分,则最终得出的标签质量为中等。
在具体实施过程中,计算标签总分时并不局限于上述直接相加的方式,亦可采用其它计算公式将完备率评分和准确率评分整合为标签总分,标签等级表同样不局限于图6所提供的形式,可根据实际需要增加或减少标签质量的数量(不局限于优质、中等和低等)以及调整表中的具体数值。当然,亦可针对完备率评分和准确率评分,分别设置一个相对应的标签等级表,并根据由此得出的两个标签质量,通过预设算法的处理后得出最终的标签质量。总之,只要达到通过用户总标签的标签完备率和标签准确率评定出该用户总标签的标签质量的效果即可,本实施例对具体的操作方式不作限定。
对应地,本发明一实施例还提供一种存储介质,其为计算机可读的存储介质,其上存储有基于用户标签的数据处理程序,基于用户标签的数据处理程序被处理器执行时实现上述任一实施例中的基于用户标签的数据处理方法的步骤。
在本实施例中,上述存储介质可以包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(RandomAccessMemory,随机存储器)、EPROM(Erasable Programmable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片等各种可以存储程序代码的介质。
显然,本领域的技术人员应当理解,上述的本发明各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
需要说明的是,本发明公开的基于用户标签的数据处理方法、终端设备及存储介质的其它内容可参见现有技术,在此不再赘述。
另外,需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
以上所述,仅是本发明的可选实施例而已,并非对本发明作任何形式上的限制,故凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (9)

1.一种基于用户标签的数据处理方法,其特征在于,所述基于用户标签的数据处理方法包括以下步骤:
获取用户总标签的标签值类型,并基于所述标签值类型对应的预设算法计算出所述用户总标签的标签完备率;其中,所述用户总标签包括所有用户的用户标签;
获取所述用户总标签的标签属性类型;
当所述用户总标签的标签属性类型为预测标签时,获取多个抽取用户的MAC地址、真实个人信息以及所述所有用户的用户标签;
确定所述所有用户的用户标签中与所述MAC地址相匹配的所述用户标签的匹配数量;将每一所述抽取用户的真实个人信息分别与所述所有用户的用户标签中与所述MAC地址相匹配的所述用户标签一一进行比对,得到第四匹配结果,所述第四匹配结果包括匹配成功和匹配失败;
统计所述第四匹配结果为匹配成功的所述用户标签的成功数量,并基于所述成功数量与所述匹配数量,计算出所述用户总标签的标签准确率;
基于所述标签完备率、所述标签准确率和预设的标签质量评估规则,确定出所述用户总标签的标签质量。
2.根据权利要求1所述的基于用户标签的数据处理方法,其特征在于,所述获取所述用户总标签的标签属性类型,并基于所述标签属性类型对应的预设计算规则计算出所述用户总标签的标签准确率的步骤,包括:
当所述用户总标签的标签属性类型为事实标签时,获取多个抽取用户的MAC地址、真机数据信息以及与所述用户总标签相对应的若干个第一数据来源表;其中,若干个所述第一数据来源表包括所有用户的用户事实数据信息;
确定每一所述第一数据来源表中与所述MAC地址相匹配的所述用户事实数据信息的匹配数量;
将每一所述抽取用户的所述真机数据信息分别与各个所述第一数据来源表中与所述MAC地址相匹配的所述用户事实数据信息一一进行比对,得到第一匹配结果,所述第一匹配结果包括匹配成功和匹配失败;
统计每一所述第一数据来源表中所述第一匹配结果为匹配成功的所述用户事实数据信息的成功数量,并基于每一所述第一数据来源表中的所述成功数量与每一所述第一数据来源表中的所述匹配数量,分别计算出一个相对应的第一匹配率;
基于若干个所述第一匹配率以及预定算法计算出所述用户总标签的标签准确率。
3.根据权利要求1所述的基于用户标签的数据处理方法,其特征在于,所述获取所述用户总标签的标签属性类型,并基于所述标签属性类型对应的预设计算规则计算出所述用户总标签的标签准确率的步骤,包括:
当所述用户总标签的标签属性类型为模型标签时,获取多个抽取用户的MAC地址、真实行为信息以及与所述用户总标签相对应的若干个第二数据来源表;其中,若干个所述第二数据来源表包括所有用户的用户模型数据信息;
确定每一所述第二数据来源表中与所述MAC地址相匹配的所述用户模型数据信息的匹配数量;
将每一所述抽取用户的所述真实行为信息分别与各个所述第二数据来源表中与所述MAC地址相匹配的所述用户模型数据信息一一进行比对,得到第二匹配结果,所述第二匹配结果包括匹配成功和匹配失败;
统计每一所述第二数据来源表中所述第二匹配结果为匹配成功的所述用户模型数据信息的成功数量,并基于每一所述第二数据来源表中的所述成功数量与每一所述第二数据来源表中的所述匹配数量,分别计算出一个相对应的第二匹配率;
基于若干个所述第二匹配率以及预定算法计算出所述用户总标签的标签准确率。
4.根据权利要求1所述的基于用户标签的数据处理方法,其特征在于,所述获取所述用户总标签的标签属性类型,并基于所述标签属性类型对应的预设计算规则计算出所述用户总标签的标签准确率的步骤,包括:
当所述用户总标签的标签属性类型为预测标签时,获取多个抽取用户的MAC地址、真实行为信息以及与所述用户总标签相对应的若干个第三数据来源表;其中,若干个所述第三数据来源表包括所有用户的用户模型数据信息;
确定每一所述第三数据来源表中与所述MAC地址相匹配的所述用户模型数据信息的匹配数量;
将每一所述抽取用户的所述真实行为信息分别与各个所述第三数据来源表中与所述MAC地址相匹配的所述用户模型数据信息一一进行比对,得到第三匹配结果,所述第三匹配结果包括匹配成功和匹配失败;
统计每一所述第三数据来源表中所述第三匹配结果为匹配成功的所述用户模型数据信息的成功数量,并基于每一所述第三数据来源表中的所述成功数量与每一所述第三数据来源表中的所述匹配数量,分别计算出一个相对应的第三匹配率;
基于若干个所述第三匹配率以及预定算法计算出所述用户总标签的标签准确率。
5.根据权利要求1至4中任一项所述的基于用户标签的数据处理方法,其特征在于,所述获取用户总标签的标签值类型,并基于所述标签值类型对应的预设算法计算出所述用户总标签的标签完备率的步骤之前,还包括以下步骤:
获取数据来源表,将所述数据来源表输入至预设的标签生成模型中,以生成所述所有用户的用户标签。
6.根据权利要求1所述的基于用户标签的数据处理方法,其特征在于,所述用户总标签的所述标签值类型为字符串型、数值型、布尔型、时间型中的任意一种;所述获取用户总标签的标签值类型,并基于所述标签值类型对应的预设算法计算出所述用户总标签的标签完备率的步骤,包括:
当所述用户总标签的所述标签值类型为所述字符串型时,基于所述字符串型对应的所述预设算法计算出所述用户总标签的标签完备率;
当所述用户总标签的所述标签值类型为所述数值型时,基于所述数值型对应的所述预设算法计算出所述用户总标签的标签完备率;
当所述用户总标签的所述标签值类型为所述布尔型时,基于所述布尔型对应的所述预设算法计算出所述用户总标签的标签完备率;
所述用户总标签的所述标签值类型为所述时间型时,基于所述时间型对应的所述预设算法计算出所述用户总标签的标签完备率。
7.根据权利要求1所述的基于用户标签的数据处理方法,其特征在于,所述基于所述标签完备率、所述标签准确率和预设的标签质量评估规则,确定出所述用户总标签的标签质量的步骤,包括:
获取预设的标签完整性权值表,并从所述标签完整性权值表中挑选出与所述标签完备率相对应的完备率评分;
获取预设的标签准确性权值表,并从所述标签准确性权值表中挑选出与所述标签准确率相对应的准确率评分;
根据所述完备率评分和所述准确率评分,确定所述用户总标签的标签质量;其中,所述标签质量包括优质、中等和低等。
8.一种终端设备,其特征在于,所述终端设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基于用户标签的数据处理程序,所述基于用户标签的数据处理程序配置为实现如权利要求1至7中任一项所述的基于用户标签的数据处理方法的步骤。
9.一种存储介质,其特征在于,所述存储介质上存储有基于用户标签的数据处理程序,所述基于用户标签的数据处理程序被处理器执行时实现如权利要求1至7中任一项所述的基于用户标签的数据处理方法的步骤。
CN202110707306.0A 2021-06-23 2021-06-23 基于用户标签的数据处理方法、终端设备及存储介质 Active CN113434746B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110707306.0A CN113434746B (zh) 2021-06-23 2021-06-23 基于用户标签的数据处理方法、终端设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110707306.0A CN113434746B (zh) 2021-06-23 2021-06-23 基于用户标签的数据处理方法、终端设备及存储介质

Publications (2)

Publication Number Publication Date
CN113434746A CN113434746A (zh) 2021-09-24
CN113434746B true CN113434746B (zh) 2023-10-13

Family

ID=77754104

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110707306.0A Active CN113434746B (zh) 2021-06-23 2021-06-23 基于用户标签的数据处理方法、终端设备及存储介质

Country Status (1)

Country Link
CN (1) CN113434746B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114268838B (zh) * 2021-12-15 2023-12-26 深圳市酷开网络科技股份有限公司 基于ott用户画像中家庭成员画像处理方法及装置
CN115134668A (zh) * 2022-03-14 2022-09-30 深圳市酷开网络科技股份有限公司 基于ott的家庭成员年龄段及家庭结构划分方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919625A (zh) * 2015-12-28 2017-07-04 中国移动通信集团公司 一种互联网用户属性识别方法和装置
CN107633257A (zh) * 2017-08-15 2018-01-26 上海数据交易中心有限公司 数据质量评估方法及装置、计算机可读存储介质、终端
CN108038131A (zh) * 2017-11-17 2018-05-15 上海数据交易中心有限公司 数据质量分析预处理方法及装置、存储介质、终端
CN111881175A (zh) * 2020-07-07 2020-11-03 腾讯科技(深圳)有限公司 一种标签模型验证方法、装置及设备
CN112000748A (zh) * 2020-07-14 2020-11-27 北京神州泰岳智能数据技术有限公司 一种数据处理方法、装置、电子设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7953736B2 (en) * 2007-01-04 2011-05-31 Intersect Ptp, Inc. Relevancy rating of tags
US11972329B2 (en) * 2018-12-31 2024-04-30 Xerox Corporation Method and system for similarity-based multi-label learning

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919625A (zh) * 2015-12-28 2017-07-04 中国移动通信集团公司 一种互联网用户属性识别方法和装置
CN107633257A (zh) * 2017-08-15 2018-01-26 上海数据交易中心有限公司 数据质量评估方法及装置、计算机可读存储介质、终端
CN108038131A (zh) * 2017-11-17 2018-05-15 上海数据交易中心有限公司 数据质量分析预处理方法及装置、存储介质、终端
CN111881175A (zh) * 2020-07-07 2020-11-03 腾讯科技(深圳)有限公司 一种标签模型验证方法、装置及设备
CN112000748A (zh) * 2020-07-14 2020-11-27 北京神州泰岳智能数据技术有限公司 一种数据处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113434746A (zh) 2021-09-24

Similar Documents

Publication Publication Date Title
CN113434746B (zh) 基于用户标签的数据处理方法、终端设备及存储介质
TW201415366A (zh) 於行動裝置上預載資訊之系統與方法
CN108416616A (zh) 投诉举报类别的排序方法和装置
JP2019512764A (ja) ユーザ地理的ロケーションのタイプを識別するための方法および装置
CN101311898B (zh) 软件构件可信度评价方法和系统
CN111523035B (zh) App浏览内容的推荐方法、装置、服务器和介质
CN107545018B (zh) 在基于反馈的系统效能确定中的时延降低
CN110674408A (zh) 业务平台、训练样本的实时生成方法及装置
CN111177568B (zh) 基于多源数据的对象推送方法、电子装置及存储介质
US20150262264A1 (en) Confidence in online reviews
CN113034241B (zh) 一种产品信息推荐方法及计算机设备
CN113010795B (zh) 用户动态画像生成方法、系统、存储介质及电子设备
CN112686717B (zh) 一种广告召回的数据处理方法及系统
CN105989066A (zh) 一种信息处理方法和装置
JP7015927B2 (ja) 学習モデル適用システム、学習モデル適用方法、及びプログラム
CN110743169B (zh) 基于区块链的防作弊方法及系统
CN112346951B (zh) 业务的测试方法及装置
CN109711656B (zh) 多系统关联预警方法、装置、设备及计算机可读存储介质
CN117708418A (zh) 应用推荐方法、装置、计算机设备和存储介质
CN110751526A (zh) 广告推送方法、装置、计算机设备以及存储介质
JP6961148B1 (ja) 情報処理システム、及び情報処理方法
CN113672660A (zh) 一种数据查询方法、装置及设备
CN115203577B (zh) 对象推荐方法、对象推荐模型的训练方法及装置
JP6833235B1 (ja) 情報処理システム、及び情報処理方法
CN118233851B (zh) 一种5g消息推送任务管理系统、方法、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant