CN111506802A - 一种用户信息修正方法、装置、计算机设备及存储介质 - Google Patents

一种用户信息修正方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN111506802A
CN111506802A CN202010182246.0A CN202010182246A CN111506802A CN 111506802 A CN111506802 A CN 111506802A CN 202010182246 A CN202010182246 A CN 202010182246A CN 111506802 A CN111506802 A CN 111506802A
Authority
CN
China
Prior art keywords
function
analyzed
user
sample
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010182246.0A
Other languages
English (en)
Inventor
董萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202010182246.0A priority Critical patent/CN111506802A/zh
Publication of CN111506802A publication Critical patent/CN111506802A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种用户信息修正方法、装置、计算机设备及存储介质,其中,方法部分包括:实时监视客户端的历史浏览信息,基于所述历史浏览信息,获取被分析用户的页面跳转轨迹,对页面跳转轨迹中的每一个页面设置对应的功能埋点,将预设时间内的所有页面跳转轨迹进行合并,形成被分析行为轨迹,获取每一功能埋点对应的重要值,再根据重要值,获取被分析用户与预设的历史浏览信息库中的样本用户之间的相似度,并根据相似度来获取被分析用户信息,根据所述被分析用户信息对所述被分析用户的原始用户信息进行修正,避免了用户在填写用户信息时有意不填、随意填写或者填写错误的问题,从而提高用户信息获取的准确度。

Description

一种用户信息修正方法、装置、计算机设备及存储介质
技术领域
本发明涉及数据处理领域,尤其涉及一种用户信息修正方法、装置、计算机设备及存储介质。
背景技术
在互联网时代,信息呈爆炸式增长,信息渠道多而杂乱。而大部分的(Application,App)智能手机的第三方应用程序只能获取某一方面的信息,对,例如征用信息的APP可以获取信用等级,餐饮的APP可以获取饮食偏好等等。
然而,当前众多智能手机的第三方应用程序为了减少增加用户体验感,从而减少用户填写注册信息的强制要求。当然,还会有一部分用户为了保护自己的隐私,另一部分用户为了方便而进行随意填写,甚至还会有部分用户不慎填写错误,因此用户填写的注册信息未必是准确的用户信息,从而导致很难获取到准确的用户信息。
发明内容
本发明提供一种用户信息修正方法、装置、计算机设备及存储介质,以解决很难获取到准确的用户信息的问题。
一种用户信息修正方法,包括:
实时监视客户端的历史浏览信息;
基于所述历史浏览信息,获取被分析用户的页面跳转轨迹;
对所述页面跳转轨迹中的每一个页面设置对应的功能埋点;
将预设时间内的所述被分析用户的所有所述页面跳转轨迹进行合并,形成被分析行为轨迹;
获取所述被分析行为轨迹中的每一功能埋点对应的重要值;
根据每一所述功能埋点对应的重要值,获取所述被分析用户与预设的历史浏览信息库中的样本用户之间的相似度;
利用所述被分析用户与所述样本用户之间的相似度,获取被分析用户信息;
根据所述被分析用户信息对所述被分析用户的原始用户信息进行修正。一种用户信息修正装置,包括:
信息监视模块,实时监视客户端的历史浏览信息;
第一获取模块,基于所述历史浏览信息,获取被分析用户的页面跳转轨迹;
设置模块,对所述页面跳转轨迹中的每一个页面设置对应的功能埋点;
合并模块,将预设时间内的所述被分析用户的所有所述页面跳转轨迹进行合并,形成被分析行为轨迹;
第二获取模块,获取所述被分析行为轨迹中的每一功能埋点对应的重要值;
第三获取模块,根据每一所述功能埋点对应的重要值,获取所述被分析用户与预设的历史浏览信息库中的样本用户之间的相似度;
第四获取模块,利用所述被分析用户与所述样本用户之间的所述相似度,获取被分析用户信息;
修正模块,根据所述被分析用户信息对所述被分析用户的原始用户信息进行修正。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述用户信息修正方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述用户信息修正方法的步骤。
上述用户信息修正方法、装置、计算机设备及存储介质,所实现的其中一个方案中,实时监视客户端的历史浏览信息,所述历史浏览信息包括被分析用户的页面跳转轨迹,对所述页面跳转轨迹中的每一个页面设置对应的功能埋点,将预设时间内的所述被分析用户的所有所述页面跳转轨迹进行合并,形成被分析行为轨迹,获取所述被分析行为轨迹中的每一功能埋点对应的重要值,再根据每一所述功能埋点对应的重要值,获取被分析用户与预设的历史浏览信息库中的样本用户之间的相似度,并根据两者之间的相似度来获取被分析用户信息,最后根据所述被分析用户信息对所述被分析用户的原始用户信息进行修正,避免了用户在填写用户信息时有意不填、随意填写或者填写错误的问题,从而提高用户信息获取的准确度。
附图说明
为了更清楚地说明本发明的技术方案,下面将对本发明的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中用户信息修正方法的一应用环境示意图;
图2是本发明一实施例中用户信息修正方法的一流程图;
图3是本发明一实施例中用户信息修正方法的另一流程图;
图4是本发明一实施例中用户信息修正方法的另一流程图;
图5是本发明一实施例中用户信息修正方法的另一流程图;
图6是本发明一实施例中用户信息修正方法的另一流程图;
图7是本发明一实施例中用户信息修正方法的另一流程图;
图8是本发明一实施例中用户信息修正装置的一原理框图;
图9是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的用户信息修正方法,可应用在如图1的应用环境中,服务端通过网络与客户端进行通信。
实时监视客户端的历史浏览信息;基于所述历史浏览信息,获取被分析用户的页面跳转轨迹;对所述页面跳转轨迹中的每一个页面设置对应的功能埋点;将预设时间内的所述被分析用户的所有所述页面跳转轨迹进行合并,形成被分析行为轨迹;获取所述被分析行为轨迹中的每一功能埋点对应的重要值;根据每一所述功能埋点对应的重要值,获取被分析用户与预设的历史浏览信息库中的样本用户之间的相似度;利用被分析用户与样本用户之间的所述相似度,获取被分析用户信息;根据所述被分析用户信息对所述被分析用户的原始用户信息进行修正。其中,该客户端可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种用户信息修正方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
S10:实时监视客户端的历史浏览信息。
历史浏览信息是指用户在页面浏览器或者手机App在浏览的过程中服务端所收集的用户浏览所产生的相关信息,其中,历史浏览信息包括页面信息和历史浏览时间。页面信息是指用户在浏览的过程中用户的某一次行为操作的信息。历史浏览时间为用户在浏览的过程中进行某一次行为操作时的时间。例如:页面信息为打开金管家app页面、打开生活页面、打开日用洗护页面等。
S20:基于所述历史浏览信息,获取被分析用户的页面跳转轨迹。
页面跳转轨迹是指在某一段时间内用户浏览页面从某一个页面跳转到另一页面的行为轨迹。具体地,本方案根据历史浏览数据中的历史浏览时间,对历史浏览数据中的页面数据进行合并,获取被分析用户的页面跳转轨迹。
例如,被分析用户在2:20时浏览过:打开某app页面A、被分析用户在2:21时浏览过生活页面B2、被分析用户在2:22时浏览过日用洗护页面C1、被分析用户在2:23时浏览过页面D1、被分析用户在2:24时浏览过页面E2、被分析用户在2:25时浏览过页面F1、被分析用户在2:26时浏览过页面G3等;则基于历史浏览数据中的历史浏览时间,对历史浏览数据页面数据进行合并,获取被分析用户的页面跳转轨迹GJ1:打开某app页面A→页面B2→页面C1→页面D1→页面E2→页面F1→页面G3,也即合成的页面跳转轨迹为GJ1:A→B2→C1→D1→E2→F1→G3。
S30:对所述页面跳转轨迹中的每一个页面设置对应的功能埋点。
功能埋点是指对用户在浏览的过程中某一次行为操作进行捕获、标记的相关技术。例如:打开某app页面A设置功能埋点为1,生活页面B2设置功能埋点为2、打开页面C1设置功能埋点为3、打开页面D1设置功能埋点为4、打开页面E2设置功能埋点为5、打开页面F1设置功能埋点为6、打开页面G3设置功能埋点为7等,也即每一个页面设置对应的功能埋点为A:1,B2:2,C1:3,D1:4,E2:5,F1:6,G3:7。
S40:将预设时间内的所述被分析用户的所有所述页面跳转轨迹进行合并,形成被分析行为轨迹。
预设的时间是一个预设的时间值,可选地,该预设时间可以为一天、一个月、一年等。被分析行为轨迹为在预设时间内被分析用户曾经浏览过的页面的所有行为轨迹。
将预设的时间内的所有所述页面跳转轨迹进行合并,形成被分析行为轨迹。例如,一个月内页面跳转轨迹包括GJ1、GJ2、GJ3,将一个月内的所有所述页面跳转轨迹进行合并,形成被分析行为轨迹为:GJ1→GJ2→GJ3。
S50:获取所述被分析行为轨迹中的每一功能埋点对应的重要值。
其中,每一功能埋点对应的重要值表征的是在当前被分析行为轨迹中,埋有功能埋点的页面被触发跳转的可能性,也可以理解为埋有功能埋点的页面被触发跳转的概率。重要值为显示被分析行为轨迹中的每一功能埋点重要程度的值。可选地,例如,功能埋点1的重要值为0.25,功能埋点2的重要值为0.05,功能埋点3的重要值为0.20,功能埋点4的重要值为0.10,功能埋点5的重要值为0.05,功能埋点6的重要值为0.15,功能埋点7的重要值为0.20。重要值的不同,表征在埋有功能埋点的页面被触发跳转的概率不同。
S60:根据每一所述功能埋点对应的重要值,获取被分析用户与预设的历史浏览信息库中的样本用户之间的相似度。
预设的历史浏览信息库为预设的数据库,预设的历史浏览信息库包括样本用户的用户信息、样本用户的样本行为轨迹、样本用户总数、存在功能埋点的样本用户数等。
相似度为被分析用户与预设的历史浏览数据库中的样本用户之间的相似程度。可选地,基于每一功能埋点的重要值,获取被分析用户的被分析行为轨迹的第一向量,也即第一向量为被分析用户向量;从预设的历史浏览数据库中,获取样本用户的样本行为轨迹;获取样本用户的样本行为轨迹的第二向量,也即第二向量为样本用户向量;对被分析用户的被分析行为轨迹的第一向量与样本用户的样本行为轨迹的第二向量进行计算,得到被分析用户与样本用户之间的相似度。
S70:利用所述被分析用户与所述样本用户之间的所述相似度,获取被分析用户信息。
判断被分析用户与样本用户之间的所述相似度是否小于预设的阈值;若被分析用户与样本用户之间的相似度小于所述预设的阈值,则对相似度小于预设的阈值的样本用户进行去除处理,获取经过去除处理后得到的目标样本用户;对所述目标样本用户进行聚类分析,获取被分析聚类群体;对所述被分析聚类群体的样本用户信息进行统计,获取统计结果;根据所述统计结果,获取被分析用户信息。
S80:根据所述被分析用户信息对所述被分析用户的原始用户信息进行修正。
修正包括更正和补充。例如,被分析用户信息的性别为男性,被分析用户的原始用户信息为女性,则对被分析用户的原始用户信息中的性别进行更正,将其性别更正为男性;被分析用户信息的性别为男性,被分析用户的原始用户信息未填写,则对被分析用户的原始用户信息中的性别进行补充,将其性别补充为男性。
在图2对应的实施例中,实时监视客户端的历史浏览信息,所述历史浏览信息包括被分析用户的页面跳转轨迹,对所述页面跳转轨迹中的每一个页面设置对应的功能埋点,将预设时间内的所述被分析用户的所有所述页面跳转轨迹进行合并,形成被分析行为轨迹,获取所述被分析行为轨迹中的每一功能埋点对应的重要值,再根据每一所述功能埋点对应的重要值,获取被分析用户与预设的历史浏览信息库中的样本用户之间的相似度,并根据两者之间的相似度来获取被分析用户信息,最后根据所述被分析用户信息对所述被分析用户的原始用户信息进行修正,避免了用户在填写用户信息时有意不填、随意填写或者填写错误的问题,从而提高用户信息获取的准确度。
在一实施例中,如图3所示,在步骤S50中,也即所述获取所述被分析行为轨迹中的每一功能埋点对应的重要值,包括如下步骤:
S51:根据所述被分析行为轨迹,获取被分析用户的总功能埋点数,和所述总功能埋点数的每一功能埋点对应的触发次数。
被分析用户的总功能埋点数为被分析用户的行为轨迹中的所有有效的功能埋点对应的触发次数的总和。
例如,被分析行为轨迹为:GJ1→GJ2→GJ3,其中,GJ1的总功能埋点数为12,GJ2的总功能埋点数为10,GJ3的总功能埋点数为10,则分析用户的总功能埋点数为12+10+10=32。
在一实施例中,如图4所示,在步骤S51中,也即所述根据所述被分析行为轨迹,获取被分析用户的总功能埋点数,包括如下步骤:
S511:判断所述功能埋点对应的触发次数是否小于预设的触发阈值。
预设的触发阈值为预设的触发数值,例如,预设的触发阈值2。则判断所述功能埋点对应的触发次数是否小于2。
S512:若所述功能埋点对应的触发次数小于所述预设的触发阈值,则去除所述功能埋点对应的触发次数小于所述预设的触发阈值的功能埋点,获取到经过所述去除后得到的目标功能埋点数。
例如,被分析行为轨迹为GJ1,GJ1:A→B2→C1→D1→E2→F1→G3,假设被分析用户触发功能埋点A的次数为1次,功能埋点C1的次数为3次,功能埋点D1的次数为3次,功能埋点E2的次数为2次,功能埋点F1的次数为1次,功能埋点G3的次数为2次,也即功能埋点A和功能埋点F1的次数均为1且小于2,因此,去除功能埋点A和功能埋点F1,获取到经过所述去除后得到的目标功能埋点数为3+3+2+2=10。
S513:将所述目标功能埋点数作为所述被分析用户的总功能埋点数。
在图4对应的实施例中,对功能埋点对应的触发次数小于预设的触发阈值进行去除处理,留下去除后的目标功能埋点数,再根据去除后的目标功能埋点数,重新获取所述被分析用户的目标总功能埋点数,能够去除低频功能埋点,减少数据计算量,提高数据处理效率。
S52:从所述预设的历史浏览信息库中,获取样本用户总数和存在所述功能埋点的样本用户数。
样本用户总数是指历史浏览信息库中样本用户的全部数量。
例如,预设的历史浏览信息库中包含有50个样本用户,其中存在所述功能埋点的样本用户数有5个。
S53:采用如下(term frequency–inverse document frequency,TFIDF)加权公式,对所述被分析行为轨迹中的每一功能埋点进行计算,得到每一所述功能埋点的重要值。
TFIDF=TF*IDF;
其中,TFIDF为每一所述功能埋点的重要值,TF为每一所述功能埋点的触发频率,IDF为每一所述功能埋点的逆文档频率,TF=为所述总功能埋点中每一所述功能埋点对应的触发次数/被分析用户中的所述总功能埋点数,IDF=所述样本用户总数/存在所述功能埋点的样本用户数。
在图3对应的实施例中,采用TFIDF加权公式,对被分析行为轨迹中的每一功能埋点进行计算,得到每一所述功能埋点的重要值;根据每一所述功能埋点的重要值来判断每一所述功能埋点的重要程度。
在一实施例中,如图5所示,在步骤S60中,也即所述根据每一所述功能埋点对应的重要值,获取所述被分析用户与预设的历史浏览信息库中的样本用户之间的相似度,包括如下步骤:
S61:根据每一所述功能埋点对应的重要值,获取被分析用户的被分析行为轨迹的第一向量。
第一向量里的元素为每个所述功能埋点的重要值。例如,功能埋点1的重要值α1为0.25,功能埋点2的重要值α2为0.05,功能埋点3的重要值α3为0.20,功能埋点4的重要值α4为0.10,功能埋点5的重要值α5为0.05,功能埋点6的重要值α6为0.15,功能埋点7的重要值α7为0.20;则被分析用户的被分析行为轨迹的第一向量A=(0.25,0.05,0.20,0.10,0.05,0.15,0.20)。
S62:从所述预设的历史浏览信息库中,获取样本用户的样本行为轨迹。
样本行为轨迹为在预设时间内样本用户曾经浏览过的页面的所有行为轨迹。
S63:获取所述样本用户的样本行为轨迹的第二向量。
第二向量从样本用户的样本行为轨迹中获取得到,其中第二向量的获取方式与第一向量的获取方式相同。例如,样本用户的样本行为轨迹的第二向量B=(0.20,0.10,0.10,0.20,0.05,0.15,0.20)。
S64:对被分析用户的被分析行为轨迹的第一向量与样本用户的样本行为轨迹的第二向量进行计算,得到被分析用户与样本用户之间的相似度。
例如采用如下相似度计算公式:
Figure BDA0002412972220000111
其中,A为被分析用户的被分析行为轨迹的第一向量,B为样本用户的样本行为轨迹的第二向量;|A|为被分析用户的被分析行为轨迹的第一向量的长度,|B|为样本用户的样本行为轨迹的第二向量的长度。
第一向量的长度为被分析行为轨迹的功能埋点的总和,第二向量的长度为样本用户的样本行为轨迹的功能埋点的总和。
例如,第一向量A=(α1,α2,α3,α4,α5,α6,α7),B=(β1,β2,β3,β4,β5,β6,β7),则
Figure BDA0002412972220000112
Figure BDA0002412972220000113
被分析用户与样本用户之间的相似度采用(Python)计算机程序设计语言中(Gensim)开源的第三方Python工具包中的(similarities)相似点方法进行计算。进一步地,将被分析用户与多个样本用户之间的相似度结果导入(hive)数据仓库工具中,通过hive对相似度进行排序以及统计。
在图5对应的实施例中,所述相似度计算公式,对被分析用户的被分析行为轨迹的第一向量与样本用户的样本行为轨迹的第二向量进行计算,得到被分析用户与样本用户之间的相似度,根据所述相似度来判断被分析用户与样本用户之间的相似程度,提高了用户偏好获取的精确度。
在一实施例中,如图6所示,在步骤S70中,也即所述利用被分析用户与样本用户之间的所述相似度,获取被分析用户信息,包括如下步骤:
S71:判断被分析用户与样本用户之间的所述相似度是否小于预设的阈值。
预设的阈值为预设的数值,例如,预设的阈值为0.6。
S72:若被分析用户与样本用户之间的相似度小于所述预设的阈值,则对相似度小于预设的阈值的样本用户进行去除处理,获取经过去除处理后得到的目标样本用户。
例如,样本用户a与被分析用户的相似度为0.5,样本用户b与被分析用户的相似度为0.7,判断被分析用户与样本用户之间的相似度是否小于预设的阈值0.6,0.5小于0.6,0.7大于0.6,则对相似度为0.5的样本用户a进行去除处理,获取经过去除处理后得到的目标样本用户b。
S73:对所述目标样本用户进行聚类分析,获取被分析聚类群体。
其中,聚类群体是指具有相同或者相似特征的群体,被分析聚类群体是指被分析用户所属的聚类群体。对所述目标样本用户采用聚类算法进行聚类分析,获取多个聚类群体,再获取被分析用户所属的被分析聚类群体。具体地,聚类算法是指采用特定特征作为用户之间相似性的评价指标以进行的聚类;聚类算法可以是(Density-Based SpatialClustering of Applications with Noise,DBSCAN)聚类算法和/或(k-means clusteringalgorithm)K均值聚类算法。
例如,所述目标样本用户包括P1、P2、P3、P4、K1、K2、K3等等,其中,采用所属地特征作为相似度的评价指标,将目标样本用户进行聚类分析,获取聚类群体,聚类群体包括P群体和K群体,其中,P群体包括P1、P2、P3、P4,K群体包括K1、K2、K3;P群体中的用户所属地均在深圳,K群体中的用户所属地均在广州,被分析聚类群体为P群体。
S74:对所述被分析聚类群体的样本用户信息进行统计,获取统计结果。
样本用户信息是指被分析聚类群体中的样本用户的基本信息,例如,性别、年龄段、偏好等。对聚类群体的样本用户信息进行统计,例如P群体包括P1、P2、P3、P4,其中P1为男性、P2为女性、P3为女性、P4为未知性别,则统计结果为P群体中男性为25%、女性为50%、未知性别为25%,同理,其中P1年龄段为10-15岁、P2年龄段为10-15岁、P3年龄段为16-26岁、P4年龄段为16-26岁,则统计结果为P群体中年龄段10-15岁为50%、年龄段16-26岁为50%。
S75:根据所述统计结果,获取被分析用户信息。
其中,分析被分析用户的信息包括性别、年龄段、偏好等。基于所述统计结果,分析被分析用户的信息,例如,则统计结果为P群体中男性为25%、女性为50%、未知性别为25%,则分析出被分析用户的性别为女性;统计结果为P群体中年龄段为10-15岁为50%、年龄段为16-26岁为50%,年龄段为10-15岁的占比与年龄段为16-26岁的占比相等,则分析出被分析用户的年龄段为未知。
在图6对应的实施例中,对分析用户与样本用户之间的相似度小于预设的阈值的样本用户进行去除,获取经过去除处理后得到的目标样本用户,能够去除相似度低的目标样本用户,减少用户信息修正量,提高分析效率;再对目标样本用户进行聚类分析,获取被分析聚类群体,再对被分析聚类群体进行统计,获取被分析用户的信息,针对被分析聚类群体来分析被分析用户的信息,可提高用户信息获取的准确度。
在一实施例中,如图7所示,在步骤S80之后,也即根据所述被分析用户信息对所述被分析用户的原始用户信息进行修正之后,还包括如下步骤:
S91:基于所述被分析行为轨迹,获取每一功能埋点到另一功能埋点的转移次数。
转移次数为从某一页面跳转到另一页面的次数。基于所述被分析行为轨迹,获取每一功能埋点到另一功能埋点的转移次数。
例如,被分析行为轨迹为GJ1→GJ2→GJ3→GJ4→GJ5,其中GJ1、GJ2、GJ3、GJ4、GJ5中的所有功能埋点包括A、B、C、D、E,其中,功能埋点A跳转到B的次数为3次,功能埋点A跳转到C的次数为2次,功能埋点A跳转到D的次数为1次,功能埋点A跳转到E的次数为0次等。基于马尔科夫转移矩阵统计每个功能埋点到下一功能埋点出现的频次,获取所有功能埋点的转移矩阵,则可以用如下转移矩阵表表示A、B、C、D、E之间的转移次数。如下表1所示。
A B C D E
A 0 3 2 1 0
B 2 0 4 1 0
C 5 0 0 0 1
D 0 1 0 0 4
E 3 2 0 0 0
表1
S92:采用转移概率矩阵,对所述转移次数进行计算,得到转移概率矩阵,其中转移概率矩阵的特征包括0≤Pij≤1和Pij为第i个功能埋点到第j个功能埋点的转移概率,Pij=第i个功能埋点到第j个功能埋点的转移次数/被分析用户的总功能埋点数,n为被分析用户的总功能埋点数。
例如,第i个功能埋点为第A个功能埋点,第j个功能埋点为第B个功能埋点,则PAB为第A个功能埋点到第B个功能埋点的转移概率=第A个功能埋点到第B个功能埋点的转移次数/被分析用户的总功能埋点数,即PAB=3/6=0.5,同理,PAA=0/6=0,PAC=3/6=0.3,PAD=1/6=0.2,PAE=0/6=0。可以用如下转移概率矩阵表示A、B、C、D、E之间的转移概率,如下表2所示。
A B C D E
A 0 0.5 0.3 0.2 0
B 0.3 0 0.6 0.1 0
C 0.8 0 0 0 0.2
D 0 0.2 0 0 0.8
E 0.6 0.4 0 0 0
表2
S93:从所述转移概率矩阵中,获取每一功能埋点到另一功能埋点的转移概率。
例如,从所述转移概率矩阵中,可获取第C个功能埋点到第A个功能埋点的转移概率为0.8。
S94:若所述转移概率超过预设的概率阈值,则对该功能埋点到另一功能埋点对应的页面进行页面顺序调整。
预设的概率阈值为一个预设的数值,可选地,该预设的概率阈值为0.5。具体地,若某一功能埋点到另一功能埋点的转移概率超过预设的概率阈值,则获取该功能埋点到另一功能埋点的页面,并根据转移概率的数值大小对所述页面进行排序。
例如,第B个功能埋点到第C个功能埋点的转移概率为0.6,0.6大于0.5,则获取第B个功能埋点到第C个功能埋点对应的页面①,同理,第D个功能埋点到第E个功能埋点的转移概率为0.8,则获取第D个功能埋点到第E个功能埋点对应的页面②,因为0.8大于0.6,所以页面②的顺序比页面①的顺序靠前。
在图7对应的实施例中,采用转移概率矩阵,对所述转移次数进行计算,得到转移概率矩阵,再从转移概率矩阵中获取每一功能埋点到另一功能埋点的转移概率,通过转移概率矩阵来判断每一功能埋点到另一功能埋点的转移概率,再获取高转移概率的页面,将高转移概率的页面进行页面顺序调整,提高了页面获取的精确度。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明的实施过程构成任何限定。
在一实施例中,提供一种用户信息修正装置,该用户信息修正装置与上述实施例中用户信息修正方法一一对应。如图8所示,该用户信息修正装置包括信息监视模块10、第一获取模块20、设置模块30、合并模块40、第二获取模块50、第三获取模块60、第四获取模块70和修正模块80。各功能模块详细说明如下:
信息监视模块10,实时监视客户端的历史浏览信息;
第一获取模块20,基于所述历史浏览信息,获取被分析用户的页面跳转轨迹;
设置模块30,对所述页面跳转轨迹中的每一个页面设置对应的功能埋点;
合并模块40,将预设时间内的所述被分析用户的所有所述页面跳转轨迹进行合并,形成被分析行为轨迹;
第二获取模块50,获取所述被分析行为轨迹中的每一功能埋点对应的重要值;
第三获取模块60,根据每一所述功能埋点对应的重要值,获取所述被分析用户与预设的历史浏览信息库中的样本用户之间的相似度;
第四获取模块70,利用所述被分析用户与所述样本用户之间的所述相似度,获取被分析用户信息;
修正模块80,根据所述被分析用户信息对所述被分析用户的原始用户信息进行修正。
所述第二获取模块50,具体用于:
根据所述被分析行为轨迹,获取所述被分析用户的总功能埋点数,和所述总功能埋点数的每一功能埋点对应的触发次数;
从所述预设的历史浏览信息库中,获取样本用户总数和存在所述功能埋点的样本用户数;
采用如下TF-IDF加权公式,对所述被分析行为轨迹中的每一功能埋点进行计算,得到每一所述功能埋点的重要值。
TFIDF=TF*IDF;
其中,TFIDF为每一所述功能埋点的重要值,TF为每一所述功能埋点的触发频率,IDF为每一所述功能埋点的逆文档频率,TF=为所述总功能埋点中每一所述功能埋点对应的触发次数/被分析用户中的所述总功能埋点数,IDF=所述样本用户总数/存在所述功能埋点的样本用户数。
关于用户信息修正装置的具体限定可以参见上文中对于用户信息修正方法的限定,在此不再赘述。上述用户信息修正装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储被分析用户的页面跳转轨迹、功能埋点、被分析行为轨迹、每一功能埋点对应的重要值、被分析用户与样本用户之间的相似度、被分析用户信息等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种用户信息修正方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
实时监视客户端的历史浏览信息;
基于所述历史浏览信息,获取被分析用户的页面跳转轨迹;
对所述页面跳转轨迹中的每一个页面设置对应的功能埋点;
将预设时间内的所述被分析用户的所有所述页面跳转轨迹进行合并,形成被分析行为轨迹;
获取所述被分析行为轨迹中的每一功能埋点对应的重要值;
根据每一所述功能埋点对应的重要值,获取所述被分析用户与预设的历史浏览信息库中的样本用户之间的相似度;
利用所述被分析用户与所述样本用户之间的相似度,获取被分析用户信息;
根据所述被分析用户信息对所述被分析用户的原始用户信息进行修正。在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
实时监视客户端的历史浏览信息;
基于所述历史浏览信息,获取被分析用户的页面跳转轨迹;
对所述页面跳转轨迹中的每一个页面设置对应的功能埋点;
将预设时间内的所述被分析用户的所有所述页面跳转轨迹进行合并,形成被分析行为轨迹;
获取所述被分析行为轨迹中的每一功能埋点对应的重要值;
根据每一所述功能埋点对应的重要值,获取所述被分析用户与预设的历史浏览信息库中的样本用户之间的相似度;
利用所述被分析用户与所述样本用户之间的相似度,获取被分析用户信息;
根据所述被分析用户信息对所述被分析用户的原始用户信息进行修正。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种用户信息修正方法,其特征在于,包括:
实时监视客户端的历史浏览信息;
基于所述历史浏览信息,获取被分析用户的页面跳转轨迹;
对所述页面跳转轨迹中的每一个页面设置对应的功能埋点;
将预设时间内的所述被分析用户的所有所述页面跳转轨迹进行合并,形成被分析行为轨迹;
获取所述被分析行为轨迹中的每一功能埋点对应的重要值;
根据每一所述功能埋点对应的重要值,获取所述被分析用户与预设的历史浏览信息库中的样本用户之间的相似度;
利用所述被分析用户与所述样本用户之间的相似度,获取被分析用户信息;
根据所述被分析用户信息对所述被分析用户的原始用户信息进行修正。
2.如权利要求1所述的用户信息修正方法,其特征在于,所述获取所述被分析行为轨迹中的每一功能埋点对应的重要值,包括以下步骤:
根据所述被分析行为轨迹,获取所述被分析用户的总功能埋点数,和所述总功能埋点数的每一功能埋点对应的触发次数;
从所述预设的历史浏览信息库中,获取样本用户总数和存在所述功能埋点的样本用户数;
采用如下TF-IDF加权公式,对所述被分析行为轨迹中的每一功能埋点进行计算,得到每一所述功能埋点的重要值;
TFIDF=TF*IDF;
其中,TFIDF为每一所述功能埋点的重要值,TF为每一所述功能埋点的触发频率,IDF为每一所述功能埋点的逆文档频率,TF=为所述总功能埋点中每一所述功能埋点对应的触发次数/被分析用户中的所述总功能埋点数,IDF=所述样本用户总数/存在所述功能埋点的样本用户数。
3.如权利要求2所述的用户信息修正方法,其特征在于,所述根据所述被分析行为轨迹,获取所述被分析用户的总功能埋点数,包括:
判断所述功能埋点对应的触发次数是否小于预设的触发阈值;
若所述功能埋点对应的触发次数小于所述预设的触发阈值,则去除所述功能埋点对应的触发次数小于所述预设的触发阈值的功能埋点,获取到经过所述去除后得到的目标功能埋点数;
将所述目标功能埋点数作为所述被分析用户的总功能埋点数。
4.如权利要求1所述的用户信息修正方法,其特征在于,所述根据每一所述功能埋点对应的重要值,获取所述被分析用户与预设的历史浏览信息库中的样本用户之间的相似度,包括:
根据每一所述功能埋点对应的重要值,获取所述被分析用户的被分析行为轨迹的第一向量;
从所述预设的历史浏览信息库中,获取样本用户的样本行为轨迹;
获取所述样本用户的样本行为轨迹的第二向量;
对所述被分析用户的被分析行为轨迹的第一向量与所述样本用户的样本行为轨迹的第二向量进行计算,得到所述被分析用户与所述样本用户之间的相似度。
5.如权利要求1所述的用户信息修正方法,其特征在于,所述利用所述被分析用户与所述样本用户之间的相似度,获取被分析用户信息,包括:
判断所述被分析用户与所述样本用户之间的所述相似度是否小于预设的阈值;
若所述被分析用户与所述样本用户之间的相似度小于所述预设的阈值,则对所述相似度小于预设的阈值的样本用户进行去除处理,获取经过去除处理后得到的目标样本用户;
对所述目标样本用户进行聚类分析,获取被分析聚类群体;
对所述被分析聚类群体的样本用户信息进行统计,获取统计结果;
根据所述统计结果,获取被分析用户信息。
6.如权利要求1所述的用户信息修正方法,其特征在于,所述根据所述被分析用户信息对所述被分析用户的原始用户信息进行修正之后,还包括:
基于所述被分析行为轨迹,获取每一功能埋点到另一功能埋点的转移次数;
采用转移概率矩阵,对所述转移次数进行计算,得到转移概率矩阵,其中转移概率矩阵的特征包括0≤Pij≤1和
Figure FDA0002412972210000031
Pij为第i个功能埋点到第j个功能埋点的转移概率,Pij=第i个功能埋点到第j个功能埋点的转移次数/被分析用户的总功能埋点数,n为被分析用户的总功能埋点数;
从所述转移概率矩阵中,获取每一功能埋点到另一功能埋点的转移概率;
若所述转移概率超过预设的概率阈值,则对该功能埋点到另一功能埋点对应的页面进行页面顺序调整。
7.一种用户信息修正装置,其特征在于,包括:
信息监视模块,实时监视客户端的历史浏览信息;
第一获取模块,基于所述历史浏览信息,获取被分析用户的页面跳转轨迹;
设置模块,对所述页面跳转轨迹中的每一个页面设置对应的功能埋点;
合并模块,将预设时间内的所述被分析用户的所有所述页面跳转轨迹进行合并,形成被分析行为轨迹;
第二获取模块,获取所述被分析行为轨迹中的每一功能埋点对应的重要值;
第三获取模块,根据每一所述功能埋点对应的重要值,获取所述被分析用户与预设的历史浏览信息库中的样本用户之间的相似度;
第四获取模块,利用所述被分析用户与所述样本用户之间的所述相似度,获取被分析用户信息;
修正模块,根据所述被分析用户信息对所述被分析用户的原始用户信息进行修正。
8.如权利要求7所述的用户信息修正装置,其特征在于,所述第一获取模块,具体用于:
根据所述被分析行为轨迹,获取所述被分析用户的总功能埋点数,和所述总功能埋点数的每一功能埋点对应的触发次数;
从所述预设的历史浏览信息库中,获取样本用户总数和存在所述功能埋点的样本用户数;
采用如下TF-IDF加权公式,对所述被分析行为轨迹中的每一功能埋点进行计算,得到每一所述功能埋点的重要值;
TFIDF=TF*IDF;
其中,TFIDF为每一所述功能埋点的重要值,TF为每一所述功能埋点的触发频率,IDF为每一所述功能埋点的逆文档频率,TF=为所述总功能埋点中每一所述功能埋点对应的触发次数/被分析用户中的所述总功能埋点数,IDF=所述样本用户总数/存在所述功能埋点的样本用户数。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述用户信息修正方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述用户信息修正方法的步骤。
CN202010182246.0A 2020-03-16 2020-03-16 一种用户信息修正方法、装置、计算机设备及存储介质 Pending CN111506802A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010182246.0A CN111506802A (zh) 2020-03-16 2020-03-16 一种用户信息修正方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010182246.0A CN111506802A (zh) 2020-03-16 2020-03-16 一种用户信息修正方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN111506802A true CN111506802A (zh) 2020-08-07

Family

ID=71869125

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010182246.0A Pending CN111506802A (zh) 2020-03-16 2020-03-16 一种用户信息修正方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN111506802A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117252703A (zh) * 2023-11-20 2023-12-19 杭州联海网络科技有限公司 一种面向金融客户的营销规则生成方法和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117252703A (zh) * 2023-11-20 2023-12-19 杭州联海网络科技有限公司 一种面向金融客户的营销规则生成方法和系统
CN117252703B (zh) * 2023-11-20 2024-02-09 杭州联海网络科技有限公司 一种面向金融客户的营销规则生成方法和系统

Similar Documents

Publication Publication Date Title
US11567989B2 (en) Media unit retrieval and related processes
US9092725B2 (en) Classifying attribute data intervals
WO2021012790A1 (zh) 页面数据生成方法、装置、计算机设备及存储介质
CN106874253A (zh) 识别敏感信息的方法及装置
CN110198464B (zh) 语音智能播报方法、装置、计算机设备及存储介质
CN108182633B (zh) 贷款数据处理方法、装置、计算机设备和存储介质
WO2020253364A1 (zh) 基于大数据分析的信息推送方法、装置、设备及存储介质
CN115862088A (zh) 一种身份识别方法及装置
CN107450808B (zh) 一种浏览器的鼠标指针定位方法及计算设备
WO2020253369A1 (zh) 生成兴趣标签的方法、装置、计算机设备和存储介质
CN111209929A (zh) 访问数据处理方法、装置、计算机设备及存储介质
CN115408696A (zh) 应用识别方法及电子设备
CN111506802A (zh) 一种用户信息修正方法、装置、计算机设备及存储介质
CN111369148A (zh) 对象指标的监测方法、电子装置及存储介质
CN111651666A (zh) 用户主题推荐方法、装置、计算机设备及存储介质
CN114547257B (zh) 类案匹配方法、装置、计算机设备及存储介质
CN113408730B (zh) 因果关系生成方法、装置及电子设备
CN113703993A (zh) 服务消息处理方法、装置及设备
CN112214506B (zh) 一种信息采集方法、装置及存储介质
CN115359575A (zh) 身份识别方法、装置和计算机设备
CN111259050A (zh) 用户操作轨迹记录方法、装置、计算机设备及存储介质
CN104376021A (zh) 文件推荐系统及方法
Li et al. Evaluation of Internet Addiction Exercise Intervention Effect for Teenagers Based on Intelligent Psychological Strategy Technology
CN112131607B (zh) 资源数据处理方法、装置、计算机设备和存储介质
CN110717503A (zh) 一种分类方法、装置、电子设备及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination