CN110807148B - 设备标识过滤方法、装置、电子设备和存储介质 - Google Patents

设备标识过滤方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN110807148B
CN110807148B CN201910949915.XA CN201910949915A CN110807148B CN 110807148 B CN110807148 B CN 110807148B CN 201910949915 A CN201910949915 A CN 201910949915A CN 110807148 B CN110807148 B CN 110807148B
Authority
CN
China
Prior art keywords
equipment
pair
identifier
equipment identifier
filtered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910949915.XA
Other languages
English (en)
Other versions
CN110807148A (zh
Inventor
孙杰
郑桦炯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910949915.XA priority Critical patent/CN110807148B/zh
Publication of CN110807148A publication Critical patent/CN110807148A/zh
Application granted granted Critical
Publication of CN110807148B publication Critical patent/CN110807148B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提出一种设备标识过滤方法、装置、电子设备和存储介质,其中,方法包括:通过获取目标设备的多个设备标识对;对多个设备标识对进行预处理生成待过滤设备标识对;按照预设过滤规则对待过滤设备标识对进行过滤处理,生成目标设备的目标设备标识对。解决了现有技术中对用户设备进行标识的准确性不高,导致不能够准确为用户提供个性化服务或者相关推荐的技术问题,通过按照预设过滤规则对设备标识对进行过滤处理,提升了用户理解的可信度,从而提高个性化服务质量。

Description

设备标识过滤方法、装置、电子设备和存储介质
技术领域
本申请涉及互联网技术领域,尤其涉及一种设备标识过滤方法、装置、电子设备和存储介质。
背景技术
目前,为了实现为用户提供个性化服务或者相关推荐,可以通过标识用户设备来采集用户的相关信息进行用户理解。
因此,在对用户分析过程中最为基础的是对用户设备的标识,也就是说,理解用户设备的相关信息是对用户理解的关键,对设备的准确了解主要依赖于采集到的设备标识的准确性,然而,在通过多数据源采集到的设备标识中包含了很多噪声,异常数据等,使得对用户设备进行标识的准确性不高,导致不能够准确为用户提供个性化服务或者相关推荐。
发明内容
本申请旨在至少在一定程度上解决上述相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种设备标识过滤方法,解决了现有技术中对用户设备进行标识的准确性不高,导致不能够准确为用户提供个性化服务或者相关推荐的技术问题,通过按照预设过滤规则对设备标识对进行过滤处理,提升了用户理解的可信度,从而提高个性化服务质量。
本申请的第二个目的在于提出一种设备标识过滤装置。
本申请的第三个目的在于提出一种计算机设备。
本申请的第四个目的在于提出一种非临时性计算机可读存储介质。
为达上述目的,本申请第一方面实施例提出了一种设备标识过滤方法,包括:获取目标设备的多个设备标识对;对所述多个设备标识对进行预处理生成待过滤设备标识对;按照预设过滤规则对所述待过滤设备标识对进行过滤处理,生成所述目标设备的目标设备标识对。
另外,本申请实施例的设备标识过滤方法,还具有如下附加的技术特征:
可选地,所述对所述多个设备标识对进行预处理生成待过滤设备标识对,包括:检测所述多个设备标识对中每一个设备标识是否符合预设标识生成规则;将不符合所述预设标识生成规则对应的设备标识从所述多个设备标识对中删除生成待处理设备标识对;对所述待处理设备标识对中每一个设备标识的属性信息进行归一化处理生成所述待过滤设备标识对。
可选地,所述按照预设过滤规则对所述待过滤设备标识对进行过滤处理,生成所述目标设备的目标设备标识对,包括:确定每一对待过滤设备标识对中同一类型的第一设备标识,并获取与所述第一设备标识关联的第二设备标识的关联个数;若所述关联个数大于预设个数阈值,则删除所述第一设备标识和所述第二设备标识组成的待过滤设备标识对,生成所述目标设备的目标设备标识对。
可选地,所述按照预设过滤规则对所述待过滤设备标识对进行过滤处理,生成所述目标设备的目标设备标识对,包括:确定每一对待过滤设备标识对中第一设备标识,并获取与所述第一设备标识关联的多个不同的第二设备标识;对所述多个不同的第二设备标识按照生存周期从大到小进行排序;若判断与最长生存周期对应的第二设备标识存在时间冲突的目标第二设备标识,则删除所述目标第二设备标识组成的待过滤设备标识对,生成所述目标设备的目标设备标识对。
可选地,所述按照预设过滤规则对所述待过滤设备标识对进行过滤处理,生成所述目标设备的目标设备标识对,包括:获取每一对待过滤设备标识对的正反向出现次数和出现时间;根据预设排比函数根据所述正反向出现次数和出现时间对所述每一对待过滤设备标识对进行排序;选择排序后的前预设阈值个数个设备标识对为正常,删除剩下的待过滤设备标识对,生成所述目标设备的目标设备标识对。
可选地,所述按照预设过滤规则对所述待过滤设备标识对进行过滤处理,生成所述目标设备的目标设备标识对,包括:获取每一对待过滤设备标识对中每一设备标识对应的属性值;将所述每一设备标识对应的属性值的个数大于预设阈值的设备标识对进行删除,生成所述目标设备的目标设备标识对。
可选地,所述按照预设过滤规则对所述待过滤设备标识对进行过滤处理,生成所述目标设备的目标设备标识对,包括:根据预设规则从所述待过滤设备标识对中确定基准第二设备标识;获取所述基准第二设备标识对应的预设数值地址位置信息;将其它第二设备标识的地理位置分别与所述预设数值地址位置信息进行比对;若无交集,则删除无交集的第二设备标识组成的待过滤设备标识对,生成所述目标设备的目标设备标识对。
为达上述目的,本申请第二方面实施例提出了一种设备标识过滤装置,包括:获取模块,用于获取目标设备的多个设备标识对;处理模块,用于对所述多个设备标识对进行预处理生成待过滤设备标识对;过滤模块,用于按照预设过滤规则对所述待过滤设备标识对进行过滤处理,生成所述目标设备的目标设备标识对。
另外,本申请实施例的设备标识过滤装置,还具有如下附加的技术特征:
可选地,所述处理模块,具体用于:检测所述多个设备标识对中每一个设备标识是否符合预设标识生成规则;将不符合所述预设标识生成规则对应的设备标识从所述多个设备标识对中删除生成待处理设备标识对;对所述待处理设备标识对中每一个设备标识的属性信息进行归一化处理生成所述待过滤设备标识对。
可选地,所述过滤模块,具体用于:确定每一对待过滤设备标识对中同一类型的第一设备标识,并获取与所述第一设备标识关联的第二设备标识的关联个数;若所述关联个数大于预设个数阈值,则删除所述第一设备标识和所述第二设备标识组成的待过滤设备标识对,生成所述目标设备的目标设备标识对。
可选地,所述过滤模块,具体用于:确定每一对待过滤设备标识对中第一设备标识,并获取所述第一设备标识关联的多个不同的第二设备标识;对所述多个不同的第二设备标识按照生存周期从大到小进行排序;若判断与最长生存周期对应的第二设备标识存在时间冲突的目标第二设备标识,则删除所述目标第二设备标识组成的待过滤设备标识对,生成所述目标设备的目标设备标识对。
可选地,所述过滤模块,具体用于:获取每一对待过滤设备标识对的正反向出现次数和出现时间;根据预设排比函数根据所述正反向出现次数和出现时间对所述每一对待过滤设备标识对进行排序;选择排序后的前预设阈值个数个设备标识对为正常,删除剩下的待过滤设备标识对,生成所述目标设备的目标设备标识对。
可选地,所述过滤模块,具体用于:获取每一对待过滤设备标识对中每一设备标识对应的属性值;将所述每一设备标识对应的属性值的个数大于预设阈值的设备标识对进行删除,生成所述目标设备的目标设备标识对。
可选地,所述过滤模块,具体用于:根据预设规则从所述待过滤设备标识对中确定基准第二设备标识;获取所述基准第二设备标识对应的预设数值地址位置信息;将其它第二设备标识的地理位置分别与所述预设数值地址位置信息进行比对;若无交集,则删除无交集的第二设备标识组成的待过滤设备标识对,生成所述目标设备的目标设备标识对。
为达上述目的,本申请第三方面实施例提出了一种计算机设备,包括:处理器和存储器;其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如第一方面实施例所述的设备标识过滤方法。
为达上述目的,本申请第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面实施例所述的设备标识过滤方法。
为达上述目的,本申请第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,实现如第一方面实施例所述的设备标识过滤方法。
本申请实施例提供的技术方案可以包含如下的有益效果:
通过获取目标设备的多个设备标识对;对多个设备标识对进行预处理生成待过滤设备标识对;按照预设过滤规则对待过滤设备标识对进行过滤处理,生成目标设备的目标设备标识对。解决了现有技术中对用户设备进行标识的准确性不高,导致不能够准确为用户提供个性化服务或者相关推荐的技术问题,通过按照预设过滤规则对设备标识对进行过滤处理,提升了用户理解的可信度,从而提高个性化服务质量。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本申请一个实施例的设备标识过滤方法的流程图;
图2是根据本申请一个实施例的设备标识对的示例图;
图3是根据本申请一个实施例的设备标识过滤的示例图;
图4是根据本申请另一个实施例的设备标识过滤方法的流程图;
图5是根据本申请又一个实施例的设备标识过滤方法的流程图;
图6是根据本申请再一个实施例的设备标识过滤方法的流程图;
图7是根据本申请还一个实施例的设备标识过滤方法的流程图;
图8是根据本申请还一个实施例的设备标识过滤方法的流程图;
图9是根据本申请还一个实施例的位置反作弊规则的示例图;
图10是根据本申请一个实施例的设备标识过滤装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的设备标识过滤方法、装置、电子设备和存储介质。
针对背景技术中提到的,现有技术中对用户设备进行标识的准确性不高,导致不能够准确为用户提供个性化服务或者相关推荐的技术问题,本申请提出了一种设备标识过滤的方法,通过获取目标设备的多个设备标识对;对多个设备标识对进行预处理生成待过滤设备标识对;按照预设过滤规则对待过滤设备标识对进行过滤处理,生成目标设备的目标设备标识对,提升了用户理解的可信度,从而提高个性化服务质量。
具体而言,图1是根据本申请一个实施例的设备标识过滤方法的流程图,如图1所示,该方法包括:
步骤101,获取目标设备的多个设备标识对。
步骤102,对多个设备标识对进行预处理生成待过滤设备标识对。
具体地,目标设备可以是安卓系统设备也可以是IOS系统设备等,可以理解的是,目标设备上的设备标识不止一种,因此本申请所提出的设备标识过滤方法主要针对的是多数据源采集到的目标设备的多个设备标识对,通过识别并过滤噪声和异常数据。
其中,设备标识有很多种,比如Andorid设备上,浏览器cookie中的baiduid,
浏览器cookie中的cproid,能够收集到的wlan的macid,能够收集到的imei,通过统一机制生成的cuid;再比如iOS设备上浏览器cookie中的baiduid,浏览器cookie中的cproid,能够收集到的wlan的macid,能够收集到的imei,能够在应用收集到的idfa,不同应用收集到的idfv,通过统一机制生成的cuid等。
因此,可以看出同一台目标设备上的设备标识不止一种,另外由于cookie类的不稳定性,同一台目标设备上cookie类的设备标识会产生多个,同时在多数据源的采集下,各种设备标识都处于隔离状态,对于同一台目标设备采集到的信息可能存在冲突现象,因此需要进行预处理。
具体地,用户的每条日志中会同时收集到多种设备标识,这些设备ID两两的关系是直接关联设备标识对,可以尽可能多源头采集大量丰富的设备标识对,如图2,通过设备标识采集器采集SDK1,APP1,APP2等数据源头采集设备上的设备标识对。
需要说明的是,设备标识对采集器在采集设备标识对的同时,可以采集到手机品牌、设备型号、活跃的时间、系统及版本、浏览器、搜索的查询语句、IP、地理位置等信息。
其中,对多个设备标识对进行预处理生成待过滤设备标识对主要包括对采集的设备标识对数据中的设备标识进行清洗,以及对设备标识属性进行归一化等操作。
作为一种可能实现方式,检测多个设备标识对中每一个设备标识是否符合预设标识生成规则,将不符合预设标识生成规则对应的设备标识从多个设备标识对中删除生成待处理设备标识对,对待处理设备标识对中每一个设备标识的属性信息进行归一化处理生成待过滤设备标识对。
具体地,每一个设备标识都有一定的生成规则,若采集到的设备标识不符合相应的生成规则,那么该设备标识很大可能性是一个不合法的数据,对于硬件设备标识,通常是使用统一的规则,而主动生成的XID,YID等,遵循规则基础上由服务提供商自由指定值,例如:设备标识为MAC地址通常表示为12个16进制数,每2个16进制数之间用冒号隔开,如08:00:20:0A:8C:6D就是一个MAC地址,其中,前6位16进制数08:00:20代表网络硬件制造商的编号,它是由IEEE分配,而后3位16进制数0A:8C:6D代表该制造厂商所制造的某个网络产品。
具体地,由于采集到的设备标识的属性较多,且每种属性值不统一,不利于数据计算,而且归一到数字也可以减少存储,因此对多种属性(os、os_version、vendor、model、browser等)的值分别进行归一化,例如:在系统维度上,采取0表示未采集到系统信息,1表示ANDROID,2表示IOS,3表示WINDOWS等。
步骤103,按照预设过滤规则对待过滤设备标识对进行过滤处理,生成目标设备的目标设备标识对。
具体地,预设过滤规则有很多种,比如可以是预设阈值反作弊规则、预设时序反作弊规则、预设频度反作弊规则、预设属性反作弊规则和预设位置反作弊规则等,可以根据实际应用需要进行选择一种或者多种对待过滤设备标识对进行过滤处理。
比如图3所示,得到预处理之后得到待过滤设备标识对后,分别通过预设阈值反作弊规则、预设时序反作弊规则、预设频度反作弊规则、预设属性反作弊规则和预设位置反作弊规则进行处理生成目标设备标识对。
综上,本申请实施例的设备标识过滤方法,通过获取目标设备的多个设备标识对;对多个设备标识对进行预处理生成待过滤设备标识对;按照预设过滤规则对待过滤设备标识对进行过滤处理,生成目标设备的目标设备标识对。解决了现有技术中对用户设备进行标识的准确性不高,导致不能够准确为用户提供个性化服务或者相关推荐的技术问题,通过按照预设过滤规则对设备标识对进行过滤处理,提升了用户理解的可信度,从而提高个性化服务质量。
基于上述实施例的描述可以了解可以根据实际应用需要进行选择预设阈值反作弊规则、预设时序反作弊规则、预设频度反作弊规则、预设属性反作弊规则和预设位置反作弊规则中一种或者多种对待过滤设备标识对进行过滤处理,为了本领域人员更加清楚上述各个过滤规则如何进行具体过滤处理,下面结合图4-图8进行详细描述。
如图4所示,通过预设阈值反作弊规则对待过滤设备标识对进行过滤,包括:
步骤201,确定每一对待过滤设备标识对中同一类型的第一设备标识,并获取与第一设备标识关联的第二设备标识的关联个数。
步骤202,若关联个数大于预设个数阈值,则删除第一设备标识和第二设备标识组成的待过滤设备标识对,生成目标设备的目标设备标识对。
具体地,阈值反作弊规则主要针对的待过滤设备标识对存在极端异常的情况,若对于同一个XID类型的第一设备标识XID1,其关联的第二设备标识YID类型的YID1个数超过了预设个数阈值,则标记XID1所关联的所有YID类型的设备标识为作弊,在进行预设个数阈值设定的时候相对比较宽松,只有关联的设备标识数目极端异常才会命中,确保设备标识对的准确性。
如图5所示,通过预设时序反作弊规则对待过滤设备标识对进行过滤,包括:
步骤301,确定每一对待过滤设备标识对中第一设备标识,并获取第一设备标识关联的多个不同的第二设备标识。
步骤302,对多个不同的第二设备标识按照生存周期从大到小进行排序。
步骤303,若判断与最长生存周期对应的第二设备标识存在时间冲突的目标第二设备标识,则删除目标第二设备标识组成的待过滤设备标识对,生成目标设备的目标设备标识对。
具体地,时序反作弊规则是基于待过滤设备标识对出现的时序的唯一性,即对于XID-YID,同一个第一设备标识XID关联了多个不同的第二设备标识YID,那么这些YID在时间上应该是不会重叠的,如存在重合,那么这些不同的XID-YID必定有异常数据,对此,首先会对同一个XID下所有的YID按照生存周期从大到小进行排序,随后循环遍历,若与长周期的待过滤设备标识对时间冲突,则标记为时序作弊,考虑采集器的延迟等问题,可以设置冲突的宽容度阈值。举例说明如下:
同一个cproid会关联多个baiduid,这些baiduid在时序上会交叉(重叠)出现,于是加入了时序反作弊,时序反作弊可以理解为:保存同一个cproid下,所有baiduid的最早出现时间(start_time),最晚出现时间(end_time),及生存周期(life_time=end_time-start_time),根据生存周期长短对同一个cproid下的所有baiduid按照从大到小进行排序,生存周期最长的排在最前,循环遍历,若与最长周期的baiduid存在时间冲突,则将该设备标识标记为作弊,冲突宽容度可以根据需要设置比如为2天(考虑日志延迟等问题)。
如图6所示,通过预设频度反作弊规则对待过滤设备标识对进行过滤,包括:
步骤401,获取每一对待过滤设备标识对的正反向出现次数和出现时间。
步骤402,根据预设排比函数根据正反向出现次数和出现时间对每一对待过滤设备标识对进行排序。
步骤403,选择排序后的前预设阈值个数个设备标识对为正常,删除剩下的待过滤设备标识对,生成目标设备的目标设备标识对。
具体地,频度反作弊规则是根据同一台目标设备上不同设备标识类型生成个数的限制,如MAC地址,一个目标设备上的MAC地址是唯一的,若采集到的CUID-MAC对中,同一个CUID对应两个不同的MAC地址,那么其中的一个MAC肯定是异常的,但是对于同一个MAC,由于CUID的是服务商自行生成的,而且可以发生改变,那么同一个MAC可能会对应多个不同的CUID,因此在做频度反作弊处理的时候,会对待过滤设备标识对进行正反双向地反作弊,对于超出频度的待过滤设备标识对根据其出现次数和出现时间进行选取。
举例说明如下:cproid<->baiduid正反向都会做频度反作弊,比如正向超过100或者反向超过5时,则需要根据频度进行抽取,未抽取到的均标记为作弊,通过预设排比函数根据正反向出现次数和出现时间对待过滤设备标识对排好序,然后选取排序后的排在最前面的阈值个数(比如正向100,反向5)个设备标识对作为正常设备标识对,排在后面的均标记为作弊并进行删除处理。
如图7所示,通过预设属性反作弊规则对待过滤设备标识对进行过滤,包括:
步骤501,获取每一对待过滤设备标识对中每一设备标识对应的属性值。
步骤502将每一设备标识对应的属性值的个数大于预设阈值的设备标识对进行删除,生成目标设备的目标设备标识对。
具体地,属性反作弊规则是利用待过滤设备标识的重要属性:操作系统(os),设备品牌(device),浏览器(browser)信息定位异常数据。
其中,browser信息只处理与cookie id(baiduid,cproid,superid)有关的ID对,属性反作弊分为设备标识对的属性反作弊和单设备标识的反作弊,设备标识对的反作弊:在数据正确的情况下,单个设备标识对中os,device和browser只出现一个值(none和undefined),出现多个值即为作弊数据。
然而,通过历史数据发现,设备标识对的属性值中存在其他信息,比如部分属性值因此来自不同的数据源,不同的数据源的日志中使用的规范没有统一标准而存在其他信息,再比如部分属性值因为在设备标识对存在数据库库时进行解析出现字段错误而存在其他信息。
需要说明的是,为了缓解上述问题,可以对已经发现问题的属性值进行了隔离,隔离方法分为两类:判断属性值为未常用属性值,并跟其他属性值有严重冲突,则确认该属性值为错误的属性值(例如sony,rtke os)归为undefined;判断属性值为常用属性值,并存在冲突的错误属性值已经修正为正确的属性值,例如,浏览器edge和chrome冲突,把错误的chrome修改为edge。对属性问题进行隔离后,若一个设备标识中一个属性(os,device,browser)出现多个属性值,该设备标识对被认为作弊数据。
其中,可以进行单设备标识的反作弊,在设备标识对的反作弊后,进行单设备标识的反作弊,在理想情况下,单个设备标识(除pi相关的设备标识)连接的所有设备标识中,os,device,browser,imei的值只有一个(除去none,undefined,browser属性仅用于cookieid)。
同样由于设备标识对的属性值中存在其他信息的问题,对已经发现的错误属性进行了隔离,采取的方式与上述相同。对于os,device,browser属性,由于经过设备标识对的反作弊,单设备标识对中最多只会出现一个非none,undefined值。在单设备标识连接的所有设备标识对中,选取一个主属性值,属性值不等于none,undefined,主属性值的设备标识对被认为是作弊数据。选取主属性值的原则:对每个设备标识对的出现的属性值进行投票,投票值=a1*p1+......+an*pn;其中p1、...、pn指设备标识对在每种数据源中出现的次数,a1、...、an指该数据源的权重值,数据源权重值目的是重视在可信数据源中的出现次数,减少在不可信数据源中出现次数的影响。如果某个属性值非none和undefined并且大于所有投票值*一个阈值(0.7),该属性值被认为是主属性值。
如图8所示,通过预设位置反作弊规则对待过滤设备标识对进行过滤,包括:
步骤601,根据预设规则从待过滤设备标识对中确定基准第二设备标识。
步骤602,获取基准第二设备标识对应的预设数值地址位置信息。
步骤603,将其它第二设备标识的地理位置分别与预设数值地址位置信息进行比对。
步骤604,若无交集,则删除无交集的第二设备标识组成的待过滤设备标识对,生成目标设备的目标设备标识对。
具体地,位置反作弊规则主要针对的是地址位置的反作弊,这种反作弊针对的非cookie类的ID PIAR,如MAC-CUID,这类ID PAIR比cookie类的要稳定,因此地理位置不会出现跳变的现象。比如图9所示,对于同一个MAC,首先会根据一定规则(活跃周数最多/活跃次数/最多字母序最小)选取CUID为BASE_CUID,拿到这个BASE_CUID下的TOP3地址位置信息,然后将所有与该MAC关联的其他CUID的地理位置分别与BASE_CUID的地理位置进行比对,将地理位置与BASE_CUID的地理位置没有交集的设备标识对标记为作弊。
由此,通过上述各个预设过滤规则对设备标识对进行过滤处理,提升了用户理解的可信度,从而提高个性化服务质量。
为了实现上述实施例,本申请还提出了一种设备标识过滤装置。图10是根据本申请一个实施例的设备标识过滤装置的结构示意图,如图10所示,该设备标识过滤装置包括:获取模块110、处理模块120和过滤模块130,其中,
获取模块110,用于获取目标设备的多个设备标识对。
处理模块120,用于对所述多个设备标识对进行预处理生成待过滤设备标识对。
过滤模块130,用于按照预设过滤规则对所述待过滤设备标识对进行过滤处理,生成所述目标设备的目标设备标识对。
在本申请的一个实施例中,所述处理模块120,具体用于:检测所述多个设备标识对中每一个设备标识是否符合预设标识生成规则;将不符合所述预设标识生成规则对应的设备标识从所述多个设备标识对中删除生成待处理设备标识对;对所述待处理设备标识对中每一个设备标识的属性信息进行归一化处理生成所述待过滤设备标识对。
在本申请的一个实施例中,所述过滤模块130,具体用于:确定每一对待过滤设备标识对中同一类型的第一设备标识,并获取与第一设备标识关联的第二设备标识的关联个数;若所述关联个数大于预设个数阈值,则删除所述第一设备标识和所述第二设备标识组成的待过滤设备标识对,生成所述目标设备的目标设备标识对。
在本申请的一个实施例中,所述过滤模块130,具体用于:确定每一对待过滤设备标识对中第一设备标识,并获取与第一设备标识关联的多个不同的第二设备标识;对所述多个不同的第二设备标识按照生存周期从大到小进行排序;若判断与最长生存周期对应的第二设备标识存在时间冲突的目标第二设备标识,则删除所述目标第二设备标识组成的待过滤设备标识对,生成所述目标设备的目标设备标识对。
在本申请的一个实施例中,所述过滤模块130,具体用于:获取每一对待过滤设备标识对的正反向出现次数和出现时间;根据预设排比函数根据所述正反向出现次数和出现时间对每一对待过滤设备标识对进行排序;选择排序后的前预设阈值个数个设备标识对为正常,删除剩下的待过滤设备标识对,生成所述目标设备的目标设备标识对。
在本申请的一个实施例中,所述过滤模块130,具体用于:获取每一对待过滤设备标识对中每一设备标识对应的属性值;将所述每一设备标识对应的属性值的个数大于预设阈值的设备标识对进行删除,生成所述目标设备的目标设备标识对。
在本申请的一个实施例中,所述过滤模块130,具体用于:根据预设规则从所述待过滤设备标识对中确定基准第二设备标识;获取所述基准第二设备标识对应的预设数值地址位置信息;将其它第二设备标识的地理位置分别与所述预设数值地址位置信息进行比对;若无交集,则删除无交集的第二设备标识组成的待过滤设备标识对,生成所述目标设备的目标设备标识对。
需要说明的是,前述对设备标识过滤方法实施例的解释说明也适用于该实施例的设备标识过滤装置,此处不再赘述。
综上,本申请实施例的设备标识过滤装置,通过获取目标设备的多个设备标识对;对多个设备标识对进行预处理生成待过滤设备标识对;按照预设过滤规则对待过滤设备标识对进行过滤处理,生成目标设备的目标设备标识对。解决了现有技术中对用户设备进行标识的准确性不高,导致不能够准确为用户提供个性化服务或者相关推荐的技术问题,通过按照预设过滤规则对设备标识对进行过滤处理,提升了用户理解的可信度,从而提高个性化服务质量。
为了实现上述实施例,本申请还提出一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时,实现如前述实施例所描述的设备标识过滤方法。
为了实现上述实施例,本申请还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述方法实施例所描述的设备标识过滤方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (14)

1.一种设备标识过滤方法,其特征在于,包括以下步骤:
获取目标设备的多个设备标识对;
对所述多个设备标识对进行预处理生成待过滤设备标识对;
按照预设过滤规则对所述待过滤设备标识对进行过滤处理,生成所述目标设备的目标设备标识对;所述对所述多个设备标识对进行预处理生成待过滤设备标识对,包括:
检测所述多个设备标识对中每一个设备标识是否符合预设标识生成规则;
将不符合所述预设标识生成规则对应的设备标识从所述多个设备标识对中删除生成待处理设备标识对;
对所述待处理设备标识对中每一个设备标识的属性信息进行归一化处理生成所述待过滤设备标识对。
2.如权利要求1所述的方法,其特征在于,所述按照预设过滤规则对所述待过滤设备标识对进行过滤处理,生成所述目标设备的目标设备标识对,包括:
确定每一对待过滤设备标识对中同一类型的第一设备标识,并获取与所述第一设备标识关联的第二设备标识的关联个数;
若所述关联个数大于预设个数阈值,则删除所述第一设备标识和所述第二设备标识组成的待过滤设备标识对,生成所述目标设备的目标设备标识对。
3.如权利要求1所述的方法,其特征在于,所述按照预设过滤规则对所述待过滤设备标识对进行过滤处理,生成所述目标设备的目标设备标识对,包括:
确定每一对待过滤设备标识对中第一设备标识,并获取与所述第一设备标识关联的多个不同的第二设备标识;
对所述多个不同的第二设备标识按照生存周期从大到小进行排序;
若判断与最长生存周期对应的第二设备标识存在时间冲突的目标第二设备标识,则删除所述目标第二设备标识组成的待过滤设备标识对,生成所述目标设备的目标设备标识对。
4.如权利要求1所述的方法,其特征在于,所述按照预设过滤规则对所述待过滤设备标识对进行过滤处理,生成所述目标设备的目标设备标识对,包括:
获取每一对待过滤设备标识对的正反向出现次数和出现时间;
根据预设排比函数根据所述正反向出现次数和出现时间对所述每一对待过滤设备标识对进行排序;
选择排序后的前预设阈值个数个设备标识对为正常,删除剩下的待过滤设备标识对,生成所述目标设备的目标设备标识对。
5.如权利要求1所述的方法,其特征在于,所述按照预设过滤规则对所述待过滤设备标识对进行过滤处理,生成所述目标设备的目标设备标识对,包括:
获取每一对待过滤设备标识对中每一设备标识对应的属性值;
将所述每一设备标识对应的属性值的个数大于预设阈值的设备标识对进行删除,生成所述目标设备的目标设备标识对。
6.如权利要求1所述的方法,其特征在于,所述按照预设过滤规则对所述待过滤设备标识对进行过滤处理,生成所述目标设备的目标设备标识对,包括:
根据预设规则从所述待过滤设备标识对中确定基准第二设备标识;
获取所述基准第二设备标识对应的预设数值地址位置信息;
将其它第二设备标识的地理位置分别与所述预设数值地址位置信息进行比对;
若无交集,则删除无交集的第二设备标识组成的待过滤设备标识对,生成所述目标设备的目标设备标识对。
7.一种设备标识过滤装置,其特征在于,包括:
获取模块,用于获取目标设备的多个设备标识对;
处理模块,用于对所述多个设备标识对进行预处理生成待过滤设备标识对;
过滤模块,用于按照预设过滤规则对所述待过滤设备标识对进行过滤处理,生成所述目标设备的目标设备标识对;
所述处理模块,具体用于:
检测所述多个设备标识对中每一个设备标识是否符合预设标识生成规则;
将不符合所述预设标识生成规则对应的设备标识从所述多个设备标识对中删除生成待处理设备标识对;
对所述待处理设备标识对中每一个设备标识的属性信息进行归一化处理生成所述待过滤设备标识对。
8.如权利要求7所述的装置,其特征在于,所述过滤模块,具体用于:
确定每一对待过滤设备标识对中同一类型的第一设备标识,并获取与所述第一设备标识关联的第二设备标识的关联个数;
若所述关联个数大于预设个数阈值,则删除所述第一设备标识和所述第二设备标识组成的待过滤设备标识对,生成所述目标设备的目标设备标识对。
9.如权利要求7所述的装置,其特征在于,所述过滤模块,具体用于:
确定每一对待过滤设备标识对中第一设备标识,并获取与所述第一设备标识关联的多个不同的第二设备标识;
对所述多个不同的第二设备标识按照生存周期从大到小进行排序;
若判断与最长生存周期对应的第二设备标识存在时间冲突的目标第二设备标识,则删除所述目标第二设备标识组成的待过滤设备标识对,生成所述目标设备的目标设备标识对。
10.如权利要求7所述的装置,其特征在于,所述过滤模块,具体用于:
获取每一对待过滤设备标识对的正反向出现次数和出现时间;
根据预设排比函数根据所述正反向出现次数和出现时间对所述每一对待过滤设备标识对进行排序;
选择排序后的前预设阈值个数个设备标识对为正常,删除剩下的待过滤设备标识对,生成所述目标设备的目标设备标识对。
11.如权利要求7所述的装置,其特征在于,所述过滤模块,具体用于:
获取每一对待过滤设备标识对中每一设备标识对应的属性值;
将所述每一设备标识对应的属性值的个数大于预设阈值的设备标识对进行删除,生成所述目标设备的目标设备标识对。
12.如权利要求7所述的装置,其特征在于,所述过滤模块,具体用于:
根据预设规则从所述待过滤设备标识对中确定基准第二设备标识;
获取所述基准第二设备标识对应的预设数值地址位置信息;
将其它第二设备标识的地理位置分别与所述预设数值地址位置信息进行比对;
若无交集,则删除无交集的第二设备标识组成的待过滤设备标识对,生成所述目标设备的目标设备标识对。
13.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-6任一所述的设备标识过滤方法。
14.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6任一所述的设备标识过滤方法。
CN201910949915.XA 2019-10-08 2019-10-08 设备标识过滤方法、装置、电子设备和存储介质 Active CN110807148B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910949915.XA CN110807148B (zh) 2019-10-08 2019-10-08 设备标识过滤方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910949915.XA CN110807148B (zh) 2019-10-08 2019-10-08 设备标识过滤方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN110807148A CN110807148A (zh) 2020-02-18
CN110807148B true CN110807148B (zh) 2022-09-27

Family

ID=69487987

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910949915.XA Active CN110807148B (zh) 2019-10-08 2019-10-08 设备标识过滤方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN110807148B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114626104B (zh) * 2022-03-11 2024-07-19 北京奇艺世纪科技有限公司 一种设备标识选择方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105513030A (zh) * 2014-09-24 2016-04-20 联想(北京)有限公司 一种信息处理方法、装置及电子设备
CN106254147A (zh) * 2016-09-08 2016-12-21 珠海全志科技股份有限公司 一种用于Wi‑Fi网络的配置方法、物联网终端和控制端
CN106650783A (zh) * 2015-10-30 2017-05-10 李静涛 用于移动终端数据分类、生成、匹配的方法、装置及系统
CN107341389A (zh) * 2017-06-26 2017-11-10 北京洋浦伟业科技发展有限公司 防止设备复用的方法及装置
CN108197050A (zh) * 2018-01-02 2018-06-22 联想(北京)有限公司 一种设备识别方法、装置及系统
CN109905411A (zh) * 2019-04-25 2019-06-18 北京腾云天下科技有限公司 一种异常用户识别方法、装置和计算设备
CN110019759A (zh) * 2017-10-27 2019-07-16 腾讯科技(深圳)有限公司 用户分群处理方法、装置、计算机设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100208631A1 (en) * 2009-02-17 2010-08-19 The Regents Of The University Of California Inaudible methods, apparatus and systems for jointly transmitting and processing, analog-digital information

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105513030A (zh) * 2014-09-24 2016-04-20 联想(北京)有限公司 一种信息处理方法、装置及电子设备
CN106650783A (zh) * 2015-10-30 2017-05-10 李静涛 用于移动终端数据分类、生成、匹配的方法、装置及系统
CN106254147A (zh) * 2016-09-08 2016-12-21 珠海全志科技股份有限公司 一种用于Wi‑Fi网络的配置方法、物联网终端和控制端
CN107341389A (zh) * 2017-06-26 2017-11-10 北京洋浦伟业科技发展有限公司 防止设备复用的方法及装置
CN110019759A (zh) * 2017-10-27 2019-07-16 腾讯科技(深圳)有限公司 用户分群处理方法、装置、计算机设备和存储介质
CN108197050A (zh) * 2018-01-02 2018-06-22 联想(北京)有限公司 一种设备识别方法、装置及系统
CN109905411A (zh) * 2019-04-25 2019-06-18 北京腾云天下科技有限公司 一种异常用户识别方法、装置和计算设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
家庭开放平台终端管理设计方案研究;修梅婷;《电信技术》;20150831;第82-89页 *

Also Published As

Publication number Publication date
CN110807148A (zh) 2020-02-18

Similar Documents

Publication Publication Date Title
US11158143B2 (en) Vehicle diagnostic method and device, and computer readable storage medium
CN107483381B (zh) 关联账户的监控方法及装置
CN105187230B (zh) 服务器的切换方法及装置
CN110716539B (zh) 一种故障诊断分析方法和装置
CN107368513B (zh) 客户端数据库更新的方法及装置
CN110807148B (zh) 设备标识过滤方法、装置、电子设备和存储介质
CN108039960B (zh) 配置信息下发方法及服务器
CN110401899A (zh) 音频测试方法及相关装置
CN112988780A (zh) 数据校核方法和装置、存储介质及电子设备
CN109947846B (zh) 交易数据处理方法、装置、计算机设备和存储介质
CN112182579B (zh) 进程名单生成方法及装置、异常进程检测方法及装置
CN112637888B (zh) 覆盖空洞区域识别方法、装置、设备及可读存储介质
CN108197050A (zh) 一种设备识别方法、装置及系统
CN109981573B (zh) 安全事件响应方法及装置
CN112600715B (zh) 配网操作的分析方法及装置、存储介质、电子装置
CN110825609A (zh) 服务的测试方法、装置和系统
CN109840259B (zh) 数据查询方法、装置、电子设备及可读存储介质
CN111632384A (zh) 游戏在线数检测方法、装置、设备及存储介质
CN114116729B (zh) 一种测试数据的处理方法和设备
CN112019644B (zh) 一种确定ip地址的归属信息的方法、系统、介质和设备
CN112905169B (zh) 一种自动化定位命名空间引用问题的方法及装置
CN106372233A (zh) 数据集合存储方法及装置
CN112148459B (zh) 节点关联数据的处理方法、装置、可读介质以及设备
CN114896280B (zh) 一种数据查询方法和系统
CN116431677B (zh) 基于内存数据库的数据路由方法、系统和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant