CN104615658B - 一种确定用户身份的方法 - Google Patents
一种确定用户身份的方法 Download PDFInfo
- Publication number
- CN104615658B CN104615658B CN201410855473.XA CN201410855473A CN104615658B CN 104615658 B CN104615658 B CN 104615658B CN 201410855473 A CN201410855473 A CN 201410855473A CN 104615658 B CN104615658 B CN 104615658B
- Authority
- CN
- China
- Prior art keywords
- user
- digraph
- identity
- node
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种确定用户身份的方法,所述方法包括:获取与用户操作相关的日志数据;根据获取的日志数据,确定每个用户的操作特征;根据操作特征对用户划分群组,其中,将操作特征相同或者相似的用户划分至同一组群;获取每个组群中的一个用户的身份;将所述一个用户的身份确定为所述一个用户所在的组群的用户所属的身份。
Description
技术领域
本发明涉及海量计算机数据处理技术,尤其涉及一种基于日志数据确定用户身份的方法。
背景技术
现有的用户身份识别方主要有两种:一种是由业务员手动式确定用户的身份,业务员从相互合作的业务伙伴手中直接拿到身份数据,构成身份数据库;另一种是由用户自主选择确定身份,设置若干身份选项,然后,在用户使用产品前引导用户自主选择一个身份。
这两种方法都存在明显的缺点和不足。业务员手动式确定身份方法效率十分低下,当用户量增加到很大量级后单单依靠手工完成身份确认,也不再可能;而且由于往往存在一个账户多个人同时使用的情况,依靠业务员只能够确定其中的一个,无法自动发现其他子账户,造成身份确认不全面;另外,手动式确认方法对于身份数据的更新十分困难,每次用户身份发生变化都需要业务员及时修改,时效性很差。用户自主选择身份的方法同样也存在诸多缺点,该方法的用户的参与度较低,很多用户不愿意确认自己的身份;其二是数据可信度差,用户往往出于自我保护的心态而虚报身份。
因此现有技术还存在缺陷,亟待改进。
发明内容
为克服现有技术的不足,本发明提供一种确定用户身份的方法。
根据本发明的一方面,提供一种确定用户身份的方法,所述方法包括:获取与用户操作相关的日志数据;根据获取的日志数据,确定每个用户的操作特征;根据操作特征对用户划分群组,其中,将操作特征相同或者相似的用户划分至同一组群;获取每个组群中的一个用户的身份;将所述一个用户的身份确定为所述一个用户所在的组群的用户所属的身份。
优选地,所述与用户操作相关的日志数据至少包括以下信息:用户的标识、用户的操作类型、用户的操作标识以及用户的操作时间。
优选地,所述确定每个用户的操作特征的步骤包括:从获取的日志数据中,提取每个用户的操作信息;基于提取的操作信息,构建每个用户的操作的有向图;从构建的有向图中,提取每个用户的操作的有向图的特征;将提取的每个用户的操作的有向图的特征确定为每个用户的操作特征。
优选地,所述构建每个用户的操作的有向图的步骤包括:针对同一用户确定与提取的操作信息对应的节点;将操作上存在预定的先后执行关系的两个节点之间的连线确定为有向边,并且该有向边的操作时间较早的节点指向该有向边的操作时间较晚的节点;基于确定的节点以及有向边,构建该用户的操作的有向图。
优选地,当任意两个节点之间的操作时间间隔不大于第一阈值时,确定所述两个节点之间的操作存在预定的先后执行关系。
优选地,所述有向图的特征至少包括以下信息之一:有向图的出度、有向图的入度、有向图的边数以及有向图的节点个数。
优选地,所述将操作特征相同或者相似的用户划分至同一组群的步骤包括:采用聚类分析的方法,将操作特征相同或者相似的用户划分至同一组群。
优选地,所述聚类分析的方法为KMeans算法。
优选地,所述方法还包括:通过预定的报表形式,显示划分的各个组群的用户所属的身份及划分的各个组群所占的用户比例。
本发明不仅克服了手动确定身份的效率低下、辨别度低、更新困难等缺点,而且还弥补了用户自主选择身份方法的参与度低、可信度差的缺点。
附图说明
图1是示出根据本发明的示例性实施例的确定用户身份的方法的流程图;
图2是示出根据本发明的示例性实施例的某用户的操作的有向图的模型示意图;
图3是示出根据本发明的示例性实施例的划分的各个组群的聚类示意图。
具体实施方式
以下,参照附图来详细说明本发明的实施例。
图1示出了本发明一种确定用户身份的方法的优选实施例的流程图。
参照图1,在步骤110中,获取与用户操作相关的日志数据。
通常,在各种设备中运行的日志除了记录有各种类型的错误(error)、警告(warning)、通知(info)、调试(debug)、网络地址(IP)、统一资源定位符(URL)、客户端类型、线程号、文件名、行号、函数名等信息之外,还可能记录有与用户操作有关的各种信息,例如,用户的标识(ID)、用户的操作类型、用户的操作标识(ID)以及用户的操作时间。
为了对各种用户的行为进行数据分析,可通过获取与用户操作相关的日志数据,来获取用户的操作信息。
具体实施时,可通过特定的API(Application Programming Interface,应用程序编程接口)接口获取与用户操作相关的日志数据,也可以直接从指定位置的日志文件或者数据库中,获取与用户操作相关的日志数据。
在步骤120中,根据获取的日志数据,确定每个用户的操作特征。
为了更好地刻画和反映出每个用户的行为特征,可采用有向图结构来描述每个用户的操作行为,在一个示例性实施中,可从获取的日志数据中,提取每个用户的操作信息(即,用户的标识(ID)、用户的操作类型、用户的操作标识(ID)以及用户的操作时间等);基于提取的操作信息,构建每个用户的操作的有向图;然后,从构建的有向图中,提取每个用户的操作的有向图的特征;将提取的每个用户的操作的有向图的特征确定为每个用户的操作特征。
考虑到同一用户的前后两个操作存在一定的紧密关系,因此,在一个构建有向图的可选实施例中,可针对同一用户确定与提取的操作信息对应的节点;将操作上存在预定的先后执行关系的两个节点之间的连线确定为有向边,并且该有向边的操作时间较早的节点指向该有向边的操作时间较晚的节点;基于确定的节点以及有向边,构建该用户的操作的有向图。
此外,在上述实施例中,还包括:在将操作上存在预定先后执行关系的两个节点之间的连线确定为有向边之前,针对确定的节点确定任意两个节点之间的操作是否存在预定的先后执行关系。具体实施时,可通过设定前后两个操作之间的时间阈值,来确定这两个操作之间是否存在先后执行关系。例如,当任意两个节点之间的操作时间间隔不大于第一阈值时,确定所述两个节点之间的操作存在预定的先后执行关系。
应该理解,本发明不限于采用有向图结构来描述每个用户的操作行为,其它有助于描述用户操作行为的数据结构,也均可应用于本发明。
另外,还需要说明的是,在本发明中提取的有向图的特征可以是有向图的出度、有向图的入度、有向图的边数以及有向图的节点个数,也可以是这些信息的组合。其中,有向图的出度为从该有向图中的所有节点出发的有向边(out-edge)的数目;有向图的入度为进入该有向图中的所有节点的有向边(in-edge)的数目。
以下结合附图对本发明的上述实施过程作进一步的说明。
图3是示出了根据本发明的示例性实施例的某用户的操作的有向图的模型示意图。图中所示的1、2、3、4、5分别表示该用户的各个操作信息对应的节点(Vertex)编号,其中,节点0指向节点3的连线表示节点0的用户操作先于节点3的用户操作执行,节点1指向节点2的连线表示节点1的用户操作先于节点2的用户操作执行,节点0指向节点5的连线表示节点0的用户操作先于节点5的用户操作执行,节点5指向节点4的连线表示节点5的用户操作先于节点4的用户操作执行,节点3指向节点2的连线表示节点3的用户操作先于节点2的用户操作执行。
基于图3所示的信息,可构建出该用户的操作的有向图G(V,E),该有向图G(V,E)至少包括节点集V(G)和有向边E(G)集,并具体表示如下:
V(G)={V1,V2,V3,V4,V5}
E(G)={<V0,V3>,<V1,V2>,<V0,V5>,<V5,V4>,<V3,V2>}
其中,V1,V2,V3,V4,V5分别表示该用户的操作的有向图G(V,E)中的各个节点,<V0,V3>,<V1,V2>,<V0,V5>,<V5,V4>,<V3,V2>分别表示该用户的操作的有向图G(V,E)中的各个有向边,其中,节点V0指向节点V3,节点V1指向节点V2,节点V0指向节点V5,节点V5指向节点V4,节点V3指向节点V2。
根据上述的有向图,可以分别确定出该有向图的顶点数(Num_v)、有向图的边数(Num_e)、有向图的入度(ID)以及有向图的出度(OD):
Num_v(G)=6
Num_e(G)=5
ID(G)=ID(V0)+ID(V1)+ID(V2)+ID(V3)+ID(V4)=5
OD(G)=OD(V0)+OD(V1)+OD(V2)+OD(V3)+OD(V4)=5
类似地,可采用上述同样的方法,确定出其他用户的操作特征,继而确定出每个用户的操作特征。
在步骤130中,根据操作特征对用户划分群组,其中,将操作特征相同或者相似的用户划分至同一组群。
具体实施时,可采用各种现有的聚类分析(例如,KMeans聚类算法)的方法,将操作特征相同或者相似的用户划分至同一组群。
在步骤140中,获取每个组群中的一个用户的身份。
具体实施时,可基于已知的用户的身份,确定出该用户的组群所属的身份。在一个可选的实施例中,可通过查询数据库已有的用户信息或者用户的认证信息,获取划分的同一组群中的一个用户的身份。
除此之外,也可由专家根据业务经验列出可能的用户身份,例如:主管,财务人员,销售人员等等,然后,从所有用户中随机抽取部分(比如:1%)的用户,根据专家经验判断出这些用户所属的身份,并将其标注到这些用户对应的属性特征上,以便用于获取划分的同一组群中的一个用户的身份。
在步骤150中,将所述一个用户的身份确定为所述一个用户所在的组群的用户所属的身份。
图3是示出根据本发明的示例性实施例的划分的各个组群的聚类示意图。图中所示301为左侧组群中的一个用户对应的有向图,图中所示302为右侧组群中的一个用户对应的有向图。当301所示有向图的用户的身份为主管时,可确定图中所示左侧组群所属的身份为主管人员;类似地,当302所示有向图的用户的身份为销售时,可确定图中所示左侧组群所属的身份为销售人员。
此外,在图1所示的实施例中,所述方法还包括:通过预定的报表形式(例如,各种饼图、柱状图、线形图),显示划分的各个组群的用户所属的身份及划分的各个组群所占的用户比例。通过这些报表可了解具有不同身份的人的比例关系以及用户的大致构成。
与现有技术相比,本发明不仅克服了手动确定身份的效率低下、辨别度低、更新困难等缺点,同时还弥补了用户自主选择身份方法的参与度低、可信度差的缺点。此外,利用日志来识别用户身份,还可以有效地检测出一个账户被多个用户同时使用的情况。
尽管已参照优选实施例为和描述了本发明,但本领域技术人员应该理解,在不脱离由权利要求限定的本发明的精神和范围的情况下,可以对这些实施例进行各种改变和变换。
Claims (4)
1.一种确定用户身份的方法,其特征在于,包括:
获取与用户操作相关的日志数据;
根据获取的日志数据,确定每个用户的操作特征;
根据操作特征对用户划分群组,其中,将操作特征相同或者相似的用户划分至同一组群;
获取每个组群中的一个用户的身份;
将所述一个用户的身份确定为所述一个用户所在的组群的用户所属的身份;
所述与用户操作相关的日志数据至少包括以下信息:
用户的标识、用户的操作类型、用户的操作标识以及用户的操作时间;
所述确定每个用户的操作特征的步骤包括:
从获取的日志数据中,提取每个用户的操作信息;
基于提取的操作信息,构建每个用户的操作的有向图;
从构建的有向图中,提取每个用户的操作的有向图的特征;
将提取的每个用户的操作的有向图的特征确定为每个用户的操作特征;
所述构建每个用户的操作的有向图的步骤包括:
针对同一用户确定与提取的操作信息对应的节点;
将操作上存在预定的先后执行关系的两个节点之间的连线确定为有向边,并且该有向边的操作时间较早的节点指向该有向边的操作时间较晚的节点;
基于确定的节点以及有向边,构建该用户的操作的有向图;
所述将操作特征相同或者相似的用户划分至同一组群的步骤包括:
采用聚类分析的方法,将操作特征相同或者相似的用户划分至同一组群;
所述聚类分析的方法为KMeans算法。
2.如权利要求1所述的方法,其特征在于,
当任意两个节点之间的操作时间间隔不大于第一阈值时,确定所述两个节点之间的操作存在预定的先后执行关系。
3.如权利要求1所述的方法,其特征在于,所述有向图的特征至少包括以下信息之一:
有向图的出度、有向图的入度、有向图的边数以及有向图的节点个数。
4.如权利要求1~3任一项所述的方法,其特征在于,还包括:
通过预定的报表形式,显示划分的各个组群的用户所属的身份及划分的各个组群所占的用户比例。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410855473.XA CN104615658B (zh) | 2014-12-31 | 2014-12-31 | 一种确定用户身份的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410855473.XA CN104615658B (zh) | 2014-12-31 | 2014-12-31 | 一种确定用户身份的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104615658A CN104615658A (zh) | 2015-05-13 |
CN104615658B true CN104615658B (zh) | 2018-01-16 |
Family
ID=53150102
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410855473.XA Active CN104615658B (zh) | 2014-12-31 | 2014-12-31 | 一种确定用户身份的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104615658B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105224606B (zh) * | 2015-09-02 | 2019-04-02 | 新浪网技术(中国)有限公司 | 一种用户标识的处理方法及装置 |
CN105227352B (zh) * | 2015-09-02 | 2019-03-19 | 新浪网技术(中国)有限公司 | 一种用户标识集的更新方法及装置 |
CN105373614B (zh) * | 2015-11-24 | 2018-09-28 | 中国科学院深圳先进技术研究院 | 一种基于用户账号的子用户识别方法及系统 |
CN106815241B (zh) * | 2015-11-30 | 2020-10-30 | 腾讯科技(北京)有限公司 | 一种信息处理方法及终端 |
CN111506889B (zh) | 2017-07-27 | 2023-05-02 | 创新先进技术有限公司 | 一种基于相似用户组的用户验证方法及装置 |
CN107623715B (zh) * | 2017-08-08 | 2020-06-09 | 阿里巴巴集团控股有限公司 | 一种身份信息获取方法和装置 |
CN110278175B (zh) | 2018-03-14 | 2020-06-02 | 阿里巴巴集团控股有限公司 | 图结构模型训练、垃圾账户识别方法、装置以及设备 |
CN110599278B (zh) * | 2018-06-12 | 2022-07-22 | 百度在线网络技术(北京)有限公司 | 聚合设备标识符的方法、装置和计算机存储介质 |
CN109597844B (zh) * | 2019-01-31 | 2020-12-22 | 中科人工智能创新技术研究院(青岛)有限公司 | 基于深度神经网络与图网络的核心用户挖掘方法及系统 |
CN110929049B (zh) * | 2019-12-02 | 2023-05-26 | 北京明略软件系统有限公司 | 一种用户账号识别方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101355504A (zh) * | 2008-08-14 | 2009-01-28 | 成都市华为赛门铁克科技有限公司 | 一种用户行为的确定方法和装置 |
CN102254028A (zh) * | 2011-07-22 | 2011-11-23 | 青岛理工大学 | 一种集成属性和结构相似性的个性化商品推荐方法和系统 |
CN103731738A (zh) * | 2014-01-23 | 2014-04-16 | 哈尔滨理工大学 | 基于用户群组行为分析的视频推荐方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103377262B (zh) * | 2012-04-28 | 2017-09-12 | 国际商业机器公司 | 对用户进行分组的方法和装置 |
-
2014
- 2014-12-31 CN CN201410855473.XA patent/CN104615658B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101355504A (zh) * | 2008-08-14 | 2009-01-28 | 成都市华为赛门铁克科技有限公司 | 一种用户行为的确定方法和装置 |
CN102254028A (zh) * | 2011-07-22 | 2011-11-23 | 青岛理工大学 | 一种集成属性和结构相似性的个性化商品推荐方法和系统 |
CN103731738A (zh) * | 2014-01-23 | 2014-04-16 | 哈尔滨理工大学 | 基于用户群组行为分析的视频推荐方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN104615658A (zh) | 2015-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104615658B (zh) | 一种确定用户身份的方法 | |
CN105335400B (zh) | 针对用户的提问意图获取答案信息的方法及装置 | |
CN105550248B (zh) | 用户信息挖掘方法及装置 | |
CN105556554A (zh) | 多个设备相关性 | |
CN108256706B (zh) | 任务分配方法和装置 | |
Tabourier et al. | Predicting links in ego-networks using temporal information | |
US20130275416A1 (en) | Scoring of resource groups | |
JP2013242706A5 (zh) | ||
CN106055630A (zh) | 日志存储的方法及装置 | |
CN104272327B (zh) | 作业管理方法以及管理系统 | |
CN108228441A (zh) | 一种应用程序评测报告的生成方法、装置以及评测报告 | |
Backiel et al. | Combining local and social network classifiers to improve churn prediction | |
CN112750030A (zh) | 风险模式识别方法、装置、设备及计算机可读存储介质 | |
US20090150380A1 (en) | System and method for processing social relation oriented service | |
Modani et al. | Cdr analysis based telco churn prediction and customer behavior insights: A case study | |
Page et al. | Measuring networked social privacy | |
CN106611339B (zh) | 种子用户筛选方法、产品的用户影响力评价方法及装置 | |
CN108921433B (zh) | 基于业务连续性的风险定量分析系统 | |
JP5350319B2 (ja) | 友人推薦装置及び方法及びプログラム | |
US10063646B2 (en) | Content distribution system, content distribution method, and non-transitory computer readable storage medium | |
CN105718564A (zh) | 推广行为的检测方法及装置 | |
JPWO2016135883A1 (ja) | サービス設計支援システムおよびサービス設計支援方法 | |
CN111382343B (zh) | 一种标签体系生成方法及装置 | |
JP2017187902A (ja) | 業務フロー分析プログラム、業務フロー分析方法、および業務フロー分析装置 | |
JP4176691B2 (ja) | 問題作成プログラムおよび問題作成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |