CN112541015B - 匿名用户的识别方法、装置及电子设备 - Google Patents
匿名用户的识别方法、装置及电子设备 Download PDFInfo
- Publication number
- CN112541015B CN112541015B CN202011350232.1A CN202011350232A CN112541015B CN 112541015 B CN112541015 B CN 112541015B CN 202011350232 A CN202011350232 A CN 202011350232A CN 112541015 B CN112541015 B CN 112541015B
- Authority
- CN
- China
- Prior art keywords
- identifier
- time
- identifiers
- user
- anonymous
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000000875 corresponding effect Effects 0.000 claims description 78
- 230000006870 function Effects 0.000 claims description 70
- 238000003860 storage Methods 0.000 claims description 70
- 230000002596 correlated effect Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 13
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2477—Temporal data queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本申请公开了一种匿名用户的识别方法、装置及电子设备,该方法包括:获取用户的历史访问数据,并从中提取用户的第一标识和第二标识;其中,第一标识和第二标识分别为用于表征用户的唯一性标识和非唯一性标识;获取各个第一标识与各个第二标识之间的使用信息;根据使用信息,对各个第一标识和各个第二标识进行配对,以获取未配对成功的第二标识,其中,未配对成功的第二标识对应的用户为匿名用户。由此,本申请避免了因用户的标识不唯一且具有交叉性导致匿名用户识别准确率极低且身份识别不及时的问题,提高了匿名用户识别过程中的有效性、可靠性及准确性。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种匿名用户的识别方法、装置及电子设备。
背景技术
目前,在互联网和大数据技术的应用中,用户的识别和归一处理是用户行为分析和个性化服务的基础。特别地,准确、可靠的匿名用户识别,能够对互联网公司的精准营销以及智能推荐等业务带来极大的帮助。
现有技术中,通常采用将用户行为分析信息与比较用户标识信息进行匹配,并在识别两者的行为特征或者标识信息相似度达到一定阈值时,判断为同一用户。然而,由于用户标识的不唯一性及可交叉性,导致匿名用户身份识别过程中存在身份识别准确率低、可靠性差的技术问题。由此,如何提高匿名用户识别过程中的准确率及可靠性,已成为了重要的研究方向之一。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种匿名用户的识别方法,用于解决现有匿名用户的识别方法中存在的身份识别准确率低、可靠性差的技术问题。
本发明的第二个目的在于提出一种匿名用户的识别装置。
本发明的第三个目的在于提出一种电子设备。
本发明的第四个目的在于提出一种计算机可读存储介质。
为了实现上述目的,本申请第一方面实施例提供了一种匿名用户的识别方法,所述方法包括以下步骤:获取用户的历史访问数据,并从中提取用户的第一标识和第二标识;其中,所述第一标识和所述第二标识分别为用于表征用户的唯一性标识和非唯一性标识;获取各个所述第一标识与各个所述第二标识之间的使用信息;根据所述使用信息,对各个所述第一标识和各个所述第二标识进行配对,以获取未配对成功的第二标识,其中,所述未配对成功的第二标识对应的用户为匿名用户。
另外,根据本申请上述实施例的匿名用户的识别方法还可以具有如下附加的技术特征:
根据本申请的一个实施例,所述获取各个所述第一标识与各个所述第二标识之间的使用信息,包括:针对任一第一标识,获取所述任一第一标识使用各个所述第二标识的使用时刻;获取所述使用时间与当前时刻的时间间隔,以及每个时间间隔对应的所述任一第一标识使用各个所述第二标识的使用次数。
根据本申请的一个实施例,所述根据各个所述使用信息,对各个所述第一标识和各个所述第二标识进行配对,包括:针对所述任一第一标识,根据所述任一第一标识对应的所述时间间隔和所述使用次数,获取所述任一第一标识在各个所述第二标识上的使用得分;针对任一第二标识,对各个所述第一标识在所述任一第二标识上的所述使用得分进行排序,建立所述使用得分最高的第一标识与所述任一第二标识的匹配关系。
根据本申请的一个实施例,还包括:若存在多个所述使用得分最高的第一标识,获取每个所述使用得分最高的第一标识使用所述任一第二标识的使用时刻,选择所述使用时刻最晚的第一标识与所述任一第二标识建议配对关系。
根据本申请的一个实施例,所述根据所述任一第一标识对应的所述时间间隔和所述使用次数,获取所述任一第一标识在各个所述第二标识上的使用得分,包括:基于所述时间间隔和预先构建的时间衰减函数,获取在各个所述时间间隔下各个所述第二标识对应的时间权重;根据各个所述时间间隔对应的所述时间权重,对各个所述时间间隔对应的所述任一第一标识在各个所述第二标识上的所述使用次数进行加权求和,以获取所述任一第一标识在各个所述第二标识上的使用得分。
根据本申请的一个实施例,所述基于所述时间间隔和预先构建的时间衰减函数,获取在各个所述时间间隔下各个所述第二标识对应的时间权重之前,还包括:获取所述历史访问数据所属的应用场景,基于所述应用场景的时效性要求,确定所述时间衰减函数的第一函数参数,其中,所述第一函数参数的取值与所述时效性要求成正相关;获取任一第二标识在每个所述时间间隔下的使用人数,基于所述使用人数,确定所述时间衰减函数在每个所述时间间隔下的第二函数参数,其中,所述第二函数参数与所述使用人数成正相关。
根据本申请的一个实施例,所述获取未配对成功的第二标识之后,还包括:
针对所述非匿名用户,根据所述非匿名用户的所述第一标识所配对的所述第二标识,生成所述非匿名用户对应的存储码;针对所述匿名用户,根据所述未配对成功的第二标识,生成所述匿名用户对应的所述存储码;按照预设的存储结构对所述存储码、所述第一标识以及所述第二标识进行关联存储,其中,所述匿名用户的所述第一标识在存储时取值为空。
根据本申请的一个实施例,所述存储结构中还包括类型字段,所述类型字段用于表征所述标识码的生成类型。
本申请第一方面实施例提供了匿名用户的识别方法,可以通过获取用户的历史访问数据,并从中提取用户的第一标识和第二标识,然后获取各个第一标识与各个第二标识之间的使用信息,进而根据使用信息,对各个第一标识和各个第二标识进行配对,以获取未配对成功的第二标识。由此,本申请能够根据用户的第一标识和第二标识,通过配对将未与非匿名用户配对成功的第二标识对应的用户,确定为匿名用户,避免了因用户的标识不唯一且具有交叉性导致匿名用户识别准确率极低以及身份识别不及时的问题,提高了匿名用户识别过程中的有效性、可靠性及准确性。
为了实现上述目的,本申请第二方面实施例提供了一种匿名用户的识别装置,所述匿名用户的识别装置,包括:第一获取模块,用于获取用户的历史访问数据,并从中提取用户的第一标识和第二标识;其中,所述第一标识和所述第二标识分别为用于表征用户的唯一性标识和非唯一性标识;第二获取模块,用于获取各个所述第一标识与各个所述第二标识之间的使用信息;第三获取模块,用于根据所述使用信息,对各个所述第一标识和各个所述第二标识进行配对,以获取未配对成功的第二标识,其中,所述未配对成功的第二标识对应的用户为匿名用户。
另外,根据本申请上述实施例的匿名用户的识别装置还可以具有如下附加的技术特征:
根据本申请的一个实施例,所述第二获取模块,包括:第一获取子模块,用于针对任一第一标识,获取所述任一第一标识使用各个所述第二标识的使用时刻;第二获取子模块,用于获取所述使用时间与当前时刻的时间间隔,以及每个时间间隔对应的所述任一第一标识使用各个所述第二标识的使用次数。
根据本申请的一个实施例,所述第三获取模块,包括:第三获取子模块,用于针对所述任一第一标识,根据所述任一第一标识对应的所述时间间隔和所述使用次数,获取所述任一第一标识在各个所述第二标识上的使用得分;关系建立子模块,用于针对任一第二标识,对各个所述第一标识在所述任一第二标识上的所述使用得分进行排序,建立所述使用得分最高的第一标识与所述任一第二标识的匹配关系。
根据本申请的一个实施例,还包括:选择模块,用于若存在多个所述使用得分最高的第一标识,获取每个所述使用得分最高的第一标识使用所述任一第二标识的使用时刻,选择所述使用时刻最晚的第一标识与所述任一第二标识建议配对关系。
根据本申请的一个实施例,所述第三获取子模块,包括:第一获取单元,用于基于所述时间间隔和预先构建的时间衰减函数,获取在各个所述时间间隔下各个所述第二标识对应的时间权重;计算单元,用于根据各个所述时间间隔对应的所述时间权重,对各个所述时间间隔对应的所述任一第一标识在各个所述第二标识上的所述使用次数进行加权求和,以获取所述任一第一标识在各个所述第二标识上的使用得分。
根据本申请的一个实施例,所述第一获取单元,还用于:获取所述历史访问数据所属的应用场景,基于所述应用场景的时效性要求,确定所述时间衰减函数的第一函数参数,其中,所述第一函数参数的取值与所述时效性要求成正相关;获取任一第二标识在每个所述时间间隔下的使用人数,基于所述使用人数,确定所述时间衰减函数在每个所述时间间隔下的第二函数参数,其中,所述第二函数参数与所述使用人数成正相关。
根据本申请的一个实施例,还包括:第一生成模块,用于针对所述非匿名用户,根据所述非匿名用户的所述第一标识所配对的所述第二标识,生成所述非匿名用户对应的存储码;第二生成模块,用于针对所述匿名用户,根据所述未配对成功的第二标识,生成所述匿名用户对应的所述存储码;存储模块,用于按照预设的存储结构对所述存储码、所述第一标识以及所述第二标识进行关联存储,其中,所述匿名用户的所述第一标识在存储时取值为空。
根据本申请的一个实施例,所述存储结构中还包括类型字段,所述类型字段用于表征所述标识码的生成类型。
本申请第二方面实施例提供了匿名用户的识别装置,可以通过获取用户的历史访问数据,并从中提取用户的第一标识和第二标识,然后获取各个第一标识与各个第二标识之间的使用信息,进而根据使用信息,对各个第一标识和各个第二标识进行配对,以获取未配对成功的第二标识。由此,本申请能够根据用户的第一标识和第二标识,通过配对将未与非匿名用户配对成功的第二标识对应的用户,确定为匿名用户,避免了因用户的标识不唯一且具有交叉性导致匿名用户识别准确率极低以及身份识别不及时的问题,提高了匿名用户识别过程中的有效性、可靠性及准确性。
为了实现上述目的,本申请第三方面实施例提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时,实现如本申请第一方面实施例中任一项所述的匿名用户的识别方法。
为了实现上述目的,本申请第四方面实施例提供了一种计算机可读存储介质,该程序被处理器执行时实现如本申请第一方面实施例中任一项所述的匿名用户的识别方法。
附图说明
图1为本申请一个实施例公开的匿名用户的识别方法的流程示意图;
图2为本申请另一个实施例公开的匿名用户的识别方法的流程示意图;
图3为本申请另一个实施例公开的匿名用户的识别方法的流程示意图;
图4为本申请另一个实施例公开的匿名用户的识别方法的流程示意图;
图5为本申请另一个实施例公开的匿名用户的识别方法的流程示意图;
图6为本申请另一个实施例公开的匿名用户的识别方法的流程示意图;
图7为本申请一个实施例公开的匿名用户的识别装置的示意图;
图8为本申请另一个实施例公开的匿名用户的识别装置的示意图;
图9为本申请另一个实施例公开的匿名用户的识别装置的示意图;
图10为本申请另一个实施例公开的匿名用户的识别装置的示意图;
图11为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了更好的理解上述技术方案,下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
下面参照附图描述根据本申请实施例提出的匿名用户的识别方法、装置及电子设备。
图1为本申请一个实施例公开的匿名用户的识别方法的流程示意图。
S101、获取用户的历史访问数据,并从中提取用户的第一标识和第二标识;其中,第一标识和第二标识分别为用于表征用户的唯一性标识和非唯一性标识。
其中,用户,指的是非匿名登录的用户,即以注册身份登录的用户。
其中,第一标识,指的是用户的注册标识等用于表征用户的唯一性标识,例如用户的注册账号、身份证号、手机号及邮箱等。
其中,第二标识,指的是用户的访问标识等用于表征用户的非唯一性标识,例如用户的登录设备信息、所使用的浏览器信息等。
本申请实施例中,用户可以以注册身份或者匿名身份进行登录并访问,相关历史访问数据会被自动存储。例如,用户甲曾以注册身份和匿名身份多次登录并访问网站甲,此种情况下,其注册账号、身份证号、手机号、邮箱地址、登录设备信息、所使用的浏览器信息以及访问时间等访问数据,均会被应用系统存储,每次存储的访问数据即为该用户的历史访问数据。相应的,可以获取预设条件内用户的历史访问数据,并从中提取用户的第一标识和第二标识,需要说明的是,本申请实施例中所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
其中,预设条件可以根据实际情况进行设定,例如,可以设定预设条件为预设时间段,即区间[T1~T2],以获取预设时间段内用户的历史访问数据,并从中提取用户的第一标识和第二标识。
S102、获取各个第一标识与各个第二标识之间的使用信息。
本申请实施例中,在提取到用户的第一标识和第二标识后,可以通过第一标识信息,将第一标识和第二标识进行关联,以获取各个第一标识与各个第二标识之间的使用信息。
可选地,可以根据任一第一标识,逐一与各个第二标识进行关联,然后根据剩余第一标识中的任意一个第一标识,再次逐一与各个第二标识进行关联,直至完成各个第一标识与各个第二标识的关联,以获取各个第一标识与各个第二标识之间的使用信息。
S103、根据使用信息,对各个第一标识和各个第二标识进行配对,以获取未配对成功的第二标识,其中,未配对成功的第二标识对应的用户为匿名用户。
需要说明的是,基于第二标识的不唯一性,不同用户之间的第二标识可能存在交叉的情况。例如,用户甲于时间甲以注册身份登录并访问网站甲,与此同时,用户乙也于时间甲以匿名身份登录并访问网站甲,此种情况下,用户甲和用户乙的第二标识是一致的。
由此,本申请中,在获取到使用信息后,可以对各个第一标识和各个第二标识进行配对,以获取未配对成功的第二标识,未配对成功的第二标识对应的用户则为匿名用户。
根据本申请提出的匿名用户的识别方法,可以通过获取用户的历史访问数据,并从中提取用户的第一标识和第二标识,然后获取各个第一标识与各个第二标识之间的使用信息,进而根据使用信息,对各个第一标识和各个第二标识进行配对,以获取未配对成功的第二标识。由此,本申请能够根据用户的第一标识和第二标识,通过配对将未与非匿名用户配对成功的第二标识对应的用户,确定为匿名用户,避免了因用户的标识不唯一且具有交叉性导致匿名用户识别准确率极低以及身份识别不及时的问题,提高了匿名用户识别过程中的有效性、可靠性及准确性。
需要说明的是,本申请中,在试图获取各个第一标识与各个第二标识之间的使用信息时,可以针对任一第一标识,分别获取使用时刻、时间间隔和使用次数等使用信息。
作为一种可能的实现方式,如图2所示,上述步骤S102中,获取各个第一标识与各个第二标识之间的使用信息的过程,具体包括以下步骤:
S201、针对任一第一标识,获取任一第一标识使用各个第二标识的使用时刻。
举例而言,获取到2个第一标识,分别为:注册账号甲和注册账号乙;获取到2个第二标识,分别为:登录设备A和登录设备B。针对注册账号甲,于2000年1月1日13时10分使用登录设备A登录了网站甲,并于同日21时10分使用登录设备B登录了网站甲;针对注册账号乙,于2000年1月2日15时10分使用登录设备A登录了网站甲。此种情况下,获取到注册账号甲使用登录设备A和登录设备B的使用时刻分别为:2000年1月1日13时10分和2000年1月1日21时10分;获取到注册账号乙使用登录设备A的使用时刻为:2000年1月2日15时10分。
S202、获取使用时刻与当前时刻的时间间隔,以及每个时间间隔对应的任一第一标识使用各个第二标识的使用次数。
举例而言,当前时刻为2000年1月2日21时10分,获取到注册账号甲使用登录设备A和登录设备B的使用时刻分别为:2000年1月1日13时10分和2000年1月1日21时10分;获取到注册账号乙使用登录设备A的使用时刻为:2000年1月2日15时10分。此种情况下,使用时刻与当前时刻的时间间隔,以及每个时间间隔对应的任一第一标识使用各个第二标识的使用次数分别为:32小时内注册账号甲使用登录设备A共计1次,24小时内注册账号甲使用登录设备B共计1次,以及6小时内注册账号乙使用登录设备A共计1次。
需要说明的是,本申请中,对于时间间隔的时间粒度设定不作限定,可以根据实际情况进行选择。例如,可以设定时间间隔的时间粒度为分钟、小时、日、周等。
需要说明的是,在获取到使用次数之前,可以将各个第二标识在每个时间间隔内的使用人数与预先设定的每个时间间隔对应的使用人数阈值进行比较,以作为过滤条件,对第二标识是否可靠进行判定。
可选地,若使用人数达到使用人数阈值,说明该第二标识不可靠,则可以丢弃该第二标识;若使用人数未达到使用人数阈值,说明该第二标识可靠,则可以将该第二标识计入计算。
举例而言,针对第二标识甲,时间间隔7天对应的使用人数阈值为3人,此种情况下,若获取到的7天内的使用人数高达10人,则可以丢弃该第二标识甲,不计入计算。
根据本申请提出的匿名用户的识别方法,可以通过针对任一第一标识,获取任一第一标识使用各个第二标识的使用时刻,并获取使用时刻与当前时刻的时间间隔,以及每个时间间隔对应的任一第一标识使用各个第二标识的使用次数,使得能够将第一标识与第二标识进行关联,从而准确地获取到任一第一标识与各个第二标识之间的使用信息。
需要说明的是,本申请中,在试图根据各个使用信息,对各个第一标识和各个第二标识进行配对时,可以基于时间衰减函数,动态地对各个第一标识和各个第二标识进行配对。
作为一种可能的实现方式,如图3所示,上述步骤S103中,根据各个使用信息,对各个第一标识和各个第二标识进行配对的过程,具体包括以下步骤:
S301、针对任一第一标识,根据任一第一标识对应的时间间隔和使用次数,获取任一第一标识在各个第二标识上的使用得分。
作为一种可能的实现方式,如图4所示,上述步骤S301中,根据任一第一标识对应的时间间隔和使用次数,获取任一第一标识在各个第二标识上的使用得分的过程,具体包括以下步骤:
S401、基于时间间隔和预先构建的时间衰减函数,获取在各个时间间隔下各个第二标识对应的时间权重。
本申请实施例中,可以预先构建以为底的指数函数,将其作为时间衰减函数。其中,为各个时间间隔下各个第二标识对应的时间权重,为重力因子,的取值越大,时间衰减越快;为获取到的时间间隔;的取值越大,时间衰减也越快。
S402、根据各个时间间隔对应的时间权重,对各个时间间隔对应的任一第一标识在各个第二标识上的使用次数进行加权求和,以获取任一第一标识在各个第二标识上的使用得分。
本申请实施例中,可以基于时间间隔和预先构建的时间衰减函数,采用如下公式获取在各个时间间隔下各个第二标识对应的时间权重:
其中,表示第一标识在第二标识下的使用得分,表示时间间隔对应的时间权重,表示时间间隔对应的任一第一标识在第二标识上的使用次数。
需要说明的是,在试图基于时间间隔和预先构建的时间衰减函数,获取在各个时间间隔下各个第二标识对应的时间权重之前,可以根据历史访问数据所属的应用场景和任一第二标识在每个时间间隔下的使用人数,获取时间衰减函数的相关函数参数。
作为一种可能的实现方式,如图5所示,具体包括以下步骤:
S501、获取历史访问数据所属的应用场景,基于应用场景的时效性要求,确定时间衰减函数的第一函数参数,其中,第一函数参数的取值与时效性要求成正相关。
其中,第一函数参数可以为重力因子。
本申请实施例中,能够针对不同应用场景的不同时效性要求,动态地确定匹配的时间衰减函数的第一函数参数。可选地,若应用场景的时效性要求较高,则可以选取取值较大的第一函数参数,以加快时间衰减的速度;若应用场景的时效性要求较低,则可以选取取值较小的第一函数参数,以减慢时间衰减的速度。
S502、获取任一第二标识在每个时间间隔下的使用人数,基于使用人数,确定时间衰减函数在每个时间间隔下的第二函数参数,其中,第二函数参数与使用人数成正相关。
其中,第二函数参数可以为。
本申请实施例中,能够针对任一第二标识在每个时间间隔下的不同使用人数,动态地确定匹配的时间衰减函数的第二函数参数。可选地,若针对任一第二标识在每个时间间隔下的使用人数较多,则可以选取取值较大的第二函数参数,以加快时间衰减的速度;若针对任一第二标识在每个时间间隔下的使用人数较少,则可以选取取值较小的第二函数参数,以减慢时间衰减的速度。
S302、针对任一第二标识,对各个第一标识在任一第二标识上的使用得分进行排序,建立使用得分最高的第一标识与任一第二标识的匹配关系。
可选地,可以对各个第一标识在任一第二标识上的使用得分进行降序排列,以获取排名第一的使用得分,即最高的使用得分,然后建立使用得分最高的第一标识与任一第二标识的匹配关系。
需要说明的是,若存在多个使用得分最高的第一标识,则可以获取每个使用得分最高的第一标识使用任一第二标识的使用时刻,并从中选择使用时刻最晚的第一标识,进而建立使用时刻最晚的第一标识与任一第二标识建议配对关系。
根据本申请提出的匿名用户的识别方法,可以通过对函数参数进行动态调整,以确保时间损失函数能够与应用场景的时效性要求以及使用人数相匹配,避免了自定义预设时间段导致时间间隔过大的问题,从而确保了时间的差异性。进一步地,通过得分高低将第一标识对应的用户与第二标识进行匹配,解决了同一个第二标识被多个用户使用时的分配问题,使得第二标识能够对应单个用户、单个用户能够对应至少一个第二标识,同时还能够动态地调整及更新两者之间的关系。
进一步地,在获取未配对成功的第二标识之后,可以对匿名用户和非匿名用户的标识进行整合及归一处理,并进行关联存储。
作为一种可能的实现方式,如图6所示,具体包括以下步骤:
S601、针对非匿名用户,根据非匿名用户的第一标识所配对的第二标识,生成非匿名用户对应的存储码。
本申请实施例中,可以根据非匿名用户的第一标识所配对的第二标识,生成非匿名用户对应的存储码,以得到非匿名用户对应的存储码集合。
举例而言,针对非匿名用户,根据非匿名用户的第一标识所配对的第二标识,可以生成非匿名用户对应的存储码c11~c1n,此时,可以得到非匿名用户对应的存储码集合C1{c11,c12,c13,……,c1n}。
S602、针对匿名用户,根据未配对成功的第二标识,生成匿名用户对应的存储码。
本申请实施例中,可以根据非匿名用户的第一标识所配对的第二标识,生成非匿名用户对应的存储码,以得到非匿名用户对应的存储码集合。
举例而言,针对非匿名用户,根据非匿名用户的第一标识所配对的第二标识,可以生成非匿名用户对应的存储码c21~c2n,此时,可以得到非匿名用户对应的存储码集合C2{c21,c22,c23,……,c2n}。
S603、按照预设的存储结构对存储码、第一标识以及第二标识进行关联存储,其中,匿名用户的第一标识在存储时取值为空。
需要说明的是,本申请中对于存储结构的具体设定方式不作限定,可以根据实际情况进行选择。例如,存储结构中可以包括主键、第一标识、第二标识等。
进一步地,为了便于区分和筛选,本申请中预先设定的存储结构中还可以包括:类型字段(Type),以表征标识码的生成类型。
可选地,针对非匿名用户和匿名用户,预先设定的存储结构中可以包括2个类型字段,以表征标识码的生成类型;可选地,为了增强适应性,可以设定存储结构中包括至少3个类型字段,以表征标识码的生成类型;举例而言,可以设置存储结构中包括取值为1~3,共3个类型字段,其中,Type取值为1表示非匿名用户且该非匿名用户的标识码是由用户注册的唯一性标识生成的,Type取值为2表示匿名用户且该匿名用户的标识码是通过设备信息生成的,以及Type取值为3表示匿名用户且该匿名用户的标识码是通过浏览器指纹生成的。
本申请实施例中,可以按照预设的存储结构,对存储码、第一标识以及第二标识进行关联存储。其中,匿名用户的第一标识在存储时取值为空。
举例而言,如表1所示,预先设定的存储结构中包括:作为主键的归一身份标识号(Identity Document,简称ID)、类型字段Type、系统分配的注册ID(UID)、手机号(Mobile)、邮箱地址(Email)、系统生成的唯一序列号(Unique ID)、设备序列号(Device ID)、微信等第三方生成的Union ID以及浏览器指纹(Finger Print,简称FP)等。进一步地,可以按照表1所示的存储结构,对存储码、第一标识以及第二标识进行关联存储。
表1
需要说明的是,本申请中,在完成关联存储后,可以将待识别的用户的第二标识与前述池中存储的信息进行比较,并将其识别为能够与其匹配的用户,从而完成匿名用户的识别。
根据本申请提出的匿名用户的识别方法,可以通过根据非匿名用户的第一标识所配对的第二标识,生成非匿名用户对应的存储码,并根据未配对成功的第二标识,生成匿名用户对应的存储码,进而按照预设的存储结构进行关联存储。由此,本申请中能够对第一标识和第二标识进行关联存储,并且记录未关联的匿名用户,丰富了用户的数据集。
基于同一申请构思,本申请实施例还提供了一种匿名用户的识别方法对应的装置。
图7为本申请实施例提供的匿名用户的识别装置的结构示意图。如图7所示,该匿名用户的识别装置1000,包括:第一获取模块110、第二获取模块120和第三获取模块130。
其中,第一获取模块110,用于获取用户的历史访问数据,并从中提取用户的第一标识和第二标识;其中,所述第一标识和所述第二标识分别为用于表征用户的唯一性标识和非唯一性标识;第二获取模块120,用于获取各个所述第一标识与各个所述第二标识之间的使用信息;第三获取模块130,用于根据所述使用信息,对各个所述第一标识和各个所述第二标识进行配对,以获取未配对成功的第二标识,其中,所述未配对成功的第二标识对应的用户为匿名用户。
根据本申请的一个实施例,如图8所示,图7中的第二获取模块120,包括:
第一获取子模块121,用于针对任一第一标识,获取所述任一第一标识使用各个所述第二标识的使用时刻;
第二获取子模块122,用于获取所述使用时间与当前时刻的时间间隔,以及每个时间间隔对应的所述任一第一标识使用各个所述第二标识的使用次数。
根据本申请的一个实施例,如图9所示,图7中的第三获取模块130,包括:
第三获取子模块131,用于针对所述任一第一标识,根据所述任一第一标识对应的所述时间间隔和所述使用次数,获取所述任一第一标识在各个所述第二标识上的使用得分;
关系建立子模块132,用于针对任一第二标识,对各个所述第一标识在所述任一第二标识上的所述使用得分进行排序,建立所述使用得分最高的第一标识与所述任一第二标识的匹配关系。
根据本申请的一个实施例,如图10所示,图7中的匿名用户的识别装置1000,还包括:
选择模块140,用于若存在多个所述使用得分最高的第一标识,获取每个所述使用得分最高的第一标识使用所述任一第二标识的使用时刻,选择所述使用时刻最晚的第一标识与所述任一第二标识建议配对关系。
根据本申请的一个实施例,如图9所示,第三获取子模块131,包括:
第一获取单元1311,用于基于所述时间间隔和预先构建的时间衰减函数,获取在各个所述时间间隔下各个所述第二标识对应的时间权重;
计算单元1312,用于根据各个所述时间间隔对应的所述时间权重,对各个所述时间间隔对应的所述任一第一标识在各个所述第二标识上的所述使用次数进行加权求和,以获取所述任一第一标识在各个所述第二标识上的使用得分。
根据本申请的一个实施例,图7中的第一获取模块110,进一步用于:获取所述历史访问数据所属的应用场景,基于所述应用场景的时效性要求,确定所述时间衰减函数的第一函数参数,其中,所述第一函数参数的取值与所述时效性要求成正相关;获取任一第二标识在每个所述时间间隔下的使用人数,基于所述使用人数,确定所述时间衰减函数在每个所述时间间隔下的第二函数参数,其中,所述第二函数参数与所述使用人数成正相关。
根据本申请的一个实施例,如图10所示,图7中的匿名用户的识别装置1000,还包括:
第一生成模块150,用于针对所述非匿名用户,根据所述非匿名用户的所述第一标识所配对的所述第二标识,生成所述非匿名用户对应的存储码;
第二生成模块160,用于针对所述匿名用户,根据所述未配对成功的第二标识,生成所述匿名用户对应的所述存储码;
存储模块170,用于按照预设的存储结构对所述存储码、所述第一标识以及所述第二标识进行关联存储,其中,所述匿名用户的所述第一标识在存储时取值为空。
根据本申请的一个实施例,存储结构中还包括类型字段,所述类型字段用于表征所述标识码的生成类型。
根据本申请提出的匿名用户的识别方法,可以通过获取用户的历史访问数据,并从中提取用户的第一标识和第二标识,然后获取各个第一标识与各个第二标识之间的使用信息,进而根据使用信息,对各个第一标识和各个第二标识进行配对,以获取未配对成功的第二标识。由此,本申请能够根据用户的第一标识和第二标识,通过配对将未与非匿名用户配对成功的第二标识对应的用户,确定为匿名用户,避免了因用户的标识不唯一且具有交叉性导致匿名用户识别准确率极低以及身份识别不及时的问题,提高了匿名用户识别过程中的有效性、可靠性及准确性。
基于同一申请构思,本申请实施例还提供了一种电子设备。
图11为本申请实施例提供的电子设备的结构示意图。如图11所示,该电子设备2000,包括存储器201、处理器202及存储在存储器201上并可在处理器202上运行的计算机程序,处理器执行程序时,实现前述的匿名用户的识别方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本申请可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本发
明的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种匿名用户的识别方法,其特征在于,包括:
获取用户的历史访问数据,并从中提取用户的第一标识和第二标识;其中,所述第一标识和所述第二标识分别为用于表征用户的唯一性标识和非唯一性标识;
获取各个所述第一标识与各个所述第二标识之间的使用信息;
根据所述使用信息,对各个所述第一标识和各个所述第二标识进行配对,以获取未配对成功的第二标识,其中,所述未配对成功的第二标识对应的用户为匿名用户;
其中,所述获取各个所述第一标识与各个所述第二标识之间的使用信息,包括:
针对任一第一标识,获取所述任一第一标识使用各个所述第二标识的使用时刻;
获取所述使用时刻与当前时刻的时间间隔,以及每个时间间隔对应的所述任一第一标识使用各个所述第二标识的使用次数;
所述根据各个所述使用信息,对各个所述第一标识和各个所述第二标识进行配对,包括:
针对所述任一第一标识,根据所述任一第一标识对应的所述时间间隔和所述使用次数,获取所述任一第一标识在各个所述第二标识上的使用得分;
针对任一第二标识,对各个所述第一标识在所述任一第二标识上的所述使用得分进行排序,建立所述使用得分最高的第一标识与所述任一第二标识的匹配关系;
其中,所述根据所述任一第一标识对应的所述时间间隔和所述使用次数,获取所述任一第一标识在各个所述第二标识上的使用得分,包括:
获取所述历史访问数据所属的应用场景,基于所述应用场景的时效性要求,确定所述时间衰减函数的第一函数参数,其中,所述第一函数参数的取值与所述时效性要求成正相关;
获取任一第二标识在每个所述时间间隔下的使用人数,基于所述使用人数,确定所述时间衰减函数在每个所述时间间隔下的第二函数参数,其中,所述第二函数参数与所述使用人数成正相关;
基于所述时间间隔和预先构建的时间衰减函数,获取在各个所述时间间隔下各个所述第二标识对应的时间权重;
根据各个所述时间间隔对应的所述时间权重,对各个所述时间间隔对应的所述任一第一标识在各个所述第二标识上的所述使用次数进行加权求和,以获取所述任一第一标识在各个所述第二标识上的使用得分;
其中,所述加权求和的公式为:
其中,score(i,j)表示第一标识i在第二标识j下的使用得分,R△t表示第△t个时间间隔对应的时间权重,表示第△t个时间间隔对应的任一第一标识i在第二标识j上的使用次数,α表示第一函数参数,△t表示获取到的时间间隔,ω表示第二函数参数。
2.根据权利要求1所述的方法,其特征在于,还包括:
若存在多个所述使用得分最高的第一标识,获取每个所述使用得分最高的第一标识使用所述任一第二标识的使用时刻,选择所述使用时刻最晚的第一标识与所述任一第二标识建立配对关系。
3.根据权利要求1-2任一项所述的方法,其特征在于,所述获取未配对成功的第二标识之后,还包括:
针对非匿名用户,根据所述非匿名用户的所述第一标识所配对的所述第二标识,生成所述非匿名用户对应的存储码;
针对所述匿名用户,根据所述未配对成功的第二标识,生成所述匿名用户对应的所述存储码;
按照预设的存储结构对所述存储码、所述第一标识以及所述第二标识进行关联存储,其中,所述匿名用户的所述第一标识在存储时取值为空。
4.根据权利要求3所述的方法,其特征在于,所述存储结构中还包括类型字段,所述类型字段用于表征标识码的生成类型。
5.一种匿名用户的识别装置,其特征在于,包括:
第一获取模块,用于获取用户的历史访问数据,并从中提取用户的第一标识和第二标识;其中,所述第一标识和所述第二标识分别为用于表征用户的唯一性标识和非唯一性标识;
第二获取模块,用于获取各个所述第一标识与各个所述第二标识之间的使用信息;
第三获取模块,用于根据所述使用信息,对各个所述第一标识和各个所述第二标识进行配对,以获取未配对成功的第二标识,其中,所述未配对成功的第二标识对应的用户为匿名用户;
其中,所述第二获取模块,包括:
第一获取子模块,用于针对任一第一标识,获取所述任一第一标识使用各个所述第二标识的使用时刻;
第二获取子模块,用于获取所述使用时间与当前时刻的时间间隔,以及每个时间间隔对应的所述任一第一标识使用各个所述第二标识的使用次数;
所述第三获取模块,包括:
第三获取子模块,用于针对所述任一第一标识,根据所述任一第一标识对应的所述时间间隔和所述使用次数,获取所述任一第一标识在各个所述第二标识上的使用得分;
关系建立子模块,用于针对任一第二标识,对各个所述第一标识在所述任一第二标识上的所述使用得分进行排序,建立所述使用得分最高的第一标识与所述任一第二标识的匹配关系;
其中,所述第三获取子模块,包括:
第一获取单元,用于获取所述历史访问数据所属的应用场景,基于所述应用场景的时效性要求,确定所述时间衰减函数的第一函数参数,其中,所述第一函数参数的取值与所述时效性要求成正相关;
获取任一第二标识在每个所述时间间隔下的使用人数,基于所述使用人数,确定所述时间衰减函数在每个所述时间间隔下的第二函数参数,其中,所述第二函数参数与所述使用人数成正相关;
基于所述时间间隔和预先构建的时间衰减函数,获取在各个所述时间间隔下各个所述第二标识对应的时间权重;
计算单元,用于根据各个所述时间间隔对应的所述时间权重,对各个所述时间间隔对应的所述任一第一标识在各个所述第二标识上的所述使用次数进行加权求和,以获取所述任一第一标识在各个所述第二标识上的使用得分;
其中,所述加权求和的公式为:
其中,score(i,j)表示第一标识i在第二标识j下的使用得分,R△t表示第△t个时间间隔对应的时间权重,表示第△t个时间间隔对应的任一第一标识i在第二标识j上的使用次数,α表示第一函数参数,△t表示获取到的时间间隔,ω表示第二函数参数。
6.根据权利要求5所述的装置,其特征在于,还包括:
选择模块,用于若存在多个所述使用得分最高的第一标识,获取每个所述使用得分最高的第一标识使用所述任一第二标识的使用时刻,选择所述使用时刻最晚的第一标识与所述任一第二标识建立配对关系。
7.根据权利要求5-6任一项所述的装置,其特征在于,还包括:
第一生成模块,用于针对非匿名用户,根据所述非匿名用户的所述第一标识所配对的所述第二标识,生成所述非匿名用户对应的存储码;
第二生成模块,用于针对所述匿名用户,根据所述未配对成功的第二标识,生成所述匿名用户对应的所述存储码;
存储模块,用于按照预设的存储结构对所述存储码、所述第一标识以及所述第二标识进行关联存储,其中,所述匿名用户的所述第一标识在存储时取值为空。
8.根据权利要求7所述的装置,其特征在于,所述存储结构中还包括类型字段,所述类型字段用于表征标识码的生成类型。
9.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时,实现如权利要求1-4中任一项所述的匿名用户的识别方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一项所述的匿名用户的识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011350232.1A CN112541015B (zh) | 2020-11-26 | 2020-11-26 | 匿名用户的识别方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011350232.1A CN112541015B (zh) | 2020-11-26 | 2020-11-26 | 匿名用户的识别方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112541015A CN112541015A (zh) | 2021-03-23 |
CN112541015B true CN112541015B (zh) | 2023-05-16 |
Family
ID=75016833
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011350232.1A Active CN112541015B (zh) | 2020-11-26 | 2020-11-26 | 匿名用户的识别方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112541015B (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006005122A1 (en) * | 2004-07-08 | 2006-01-19 | Marshal Saul Rubinstein | Location based matching and communications system |
CN104685523B (zh) * | 2012-08-27 | 2019-03-05 | 蓝凯股份有限公司 | 用于移动用户的简档噪声匿名性 |
CN108322317B (zh) * | 2017-01-16 | 2022-07-29 | 腾讯科技(深圳)有限公司 | 一种账号识别关联方法及服务器 |
CN110633405B (zh) * | 2018-06-01 | 2024-07-16 | 北京京东尚科信息技术有限公司 | 用于推送信息的方法和装置 |
CN111368013B (zh) * | 2020-06-01 | 2020-09-25 | 深圳市卡牛科技有限公司 | 基于多账户的统一标识方法、系统、设备和存储介质 |
-
2020
- 2020-11-26 CN CN202011350232.1A patent/CN112541015B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112541015A (zh) | 2021-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103164416B (zh) | 一种用户关系的识别方法及设备 | |
CN111709052B (zh) | 一种隐私数据识别和处理方法、装置、设备和可读介质 | |
CN105335409B (zh) | 一种目标用户的确定方法、设备和网络服务器 | |
CN105677831A (zh) | 一种确定推荐商户的方法及装置 | |
CN107809371B (zh) | 共享资源显示方法及装置 | |
CN117114514B (zh) | 一种基于大数据的人才信息分析管理方法、系统及装置 | |
CN101957845B (zh) | 一种在线应用系统及其实现方法 | |
CN105491444A (zh) | 一种数据识别处理方法以及装置 | |
CN108920479B (zh) | 针对两微一端跨信源账号推荐方法 | |
CN108416684A (zh) | 一种账号主体的可信程度评估方法、装置及服务器 | |
CN108304539A (zh) | 人才数据库建立方法、装置及存储介质 | |
CN112632409A (zh) | 同一用户识别方法、装置、计算机设备和存储介质 | |
CN108335165A (zh) | 兴趣标签确定方法和装置 | |
CN109636378B (zh) | 账户识别方法和装置、电子设备 | |
CN103593355A (zh) | 用户原创内容的推荐方法及推荐装置 | |
CN110942066A (zh) | 票据核对方法及装置 | |
CN110807667A (zh) | 一种激活沉睡客户的方法和装置 | |
CN112541015B (zh) | 匿名用户的识别方法、装置及电子设备 | |
CN107818390A (zh) | 一种考核要求生成方法及装置 | |
US20190304040A1 (en) | System and Method for Vetting Potential Jurors | |
CN107203561B (zh) | 一种数据处理方法和设备 | |
CN114757729A (zh) | 交易请求的处理方法、装置、终端设备和存储介质 | |
CN106301880B (zh) | 一种确定网络关系稳定度、互联网业务推荐方法和设备 | |
JPWO2019187107A1 (ja) | 情報処理装置、制御方法、及びプログラム | |
CN111382263B (zh) | 数据处理方法、装置和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |