CN114255050A - 一种识别业务异常用户的方法、装置和电子设备 - Google Patents
一种识别业务异常用户的方法、装置和电子设备 Download PDFInfo
- Publication number
- CN114255050A CN114255050A CN202111572003.9A CN202111572003A CN114255050A CN 114255050 A CN114255050 A CN 114255050A CN 202111572003 A CN202111572003 A CN 202111572003A CN 114255050 A CN114255050 A CN 114255050A
- Authority
- CN
- China
- Prior art keywords
- communities
- community
- user
- abnormal
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 86
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000009467 reduction Effects 0.000 claims abstract description 55
- 230000007704 transition Effects 0.000 claims abstract description 39
- 230000005012 migration Effects 0.000 claims description 12
- 238000013508 migration Methods 0.000 claims description 12
- 238000005295 random walk Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 4
- 238000012546 transfer Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 239000010410 layer Substances 0.000 description 7
- 238000004590 computer program Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000002355 dual-layer Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 208000001613 Gambling Diseases 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/018—Certifying business or products
- G06Q30/0185—Product, service or business identity fraud
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Human Resources & Organizations (AREA)
- Bioinformatics & Computational Biology (AREA)
- Primary Health Care (AREA)
- Life Sciences & Earth Sciences (AREA)
- Tourism & Hospitality (AREA)
- Evolutionary Computation (AREA)
- Entrepreneurship & Innovation (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书实施例提供一种识别业务异常用户的方法,获取多个用户信息,将单个用户划分作社群,计算社群之间的关联信息设置转移概率,在社群之间进行随机游走生成游走序列,按照游走序列中的节点顺序依次计算将相邻节点进行社群归并所产生的信息熵减幅,根据信息熵减幅进行社群归并,并将归并后的社群进行迭代,直至迭代后的游走序列中相邻节点进行社群归并所产生的信息熵减幅满足预设条件,得到归并后的聚类社群,利用聚类社群识别业务中的异常用户。通过根据社群之间的关联信息设置转移概率,实现了有关联的游走,通过计算信息熵减幅,实现了精准的社群划分,用其进行异常用户的识别,提高了识别准确率,降低了风险,提高了业务安全性。
Description
技术领域
本申请涉及计算机领域,尤其涉及一种识别业务异常用户的方法、装置和电子设备。
背景技术
在提供业务时,往往会存在一些异常用户通过欺诈来骗取资源,对于这些异常用户,需要进行精准的识别,以降低风险提高业务安全性。
然而,目前的方法,多是通过对用户个人的属性信息进行机器学习和预测,来判断他是不是异常用户,这种方式识别异常用户的准确率有待提升。
因此,有必要提供一种方法,以提高异常用户识别准确率降低风险提高业务安全性。
发明内容
本说明书实施例提供一种识别业务异常用户的方法、装置和电子设备,用以降低风险提高业务安全性。
本说明书实施例提供一种识别业务异常用户的方法,包括:
获取业务中多个用户的用户信息,将单个用户划分作社群;
根据用户信息计算社群之间的关联信息,根据社群之间的关联信息设置转移概率;
利用所述转移概率在所述社群之间进行随机游走,根据游走时经过的社群节点生成游走序列;
按照所述游走序列中的节点顺序依次计算将相邻节点进行社群归并所产生的信息熵减幅;
根据所述信息熵减幅进行社群归并,并将归并后的社群进行迭代,直至迭代后的游走序列中相邻节点进行社群归并所产生的信息熵减幅满足预设条件,得到归并后的聚类社群;
利用所述聚类社群识别业务中的异常用户。
可选地,所述利用所述聚类社群识别业务中的异常用户,包括:
识别包含异常用户的聚类社群,并将包含所述异常用户的聚类社群作为目标聚类社群;
获取待识别用户,将所述待识别用户与所有所述聚类社群进行聚类,判断所述待识别用户是否聚类到所述目标聚类社群中,若是,则将所述待识别用户标为异常用户。
可选地,所述根据社群之间的关联信息设置转移概率,包括:
对不同关联属性下的关联信息分别设置关联权重,结合设置的关联权重计算并设置转移概率。
可选地,还包括:
统计各个聚类社群对异常用户的识别准确率,根据聚类社群对异常用户的识别准确率调整关联权重。
可选地,所述关联属性包括:性别、年龄、行业和户籍。
可选地,所述按照所述游走序列中的节点顺序依次计算将相邻节点进行社群归并所产生的信息熵减幅,包括:
对所述游走序列中的各社群节点进行双层编码,得到双层标识,利用各社群节点的双层标识计算将两个相邻节点进行社群归并所产生的信息熵减幅。
可选地,所述利用所述聚类社群识别业务中的异常用户,包括:
利用所述聚类社群训练异常用户识别模型,利用训练的异常用户识别模型识别异常用户。
可选地,所述利用训练的异常用户识别模型识别异常用户,包括:
获取待识别用户,进行聚类,得到待识别用户客群,利用所述异常用户识别模型以客群为单位判断所述待识别用户客群是否异常。
可选地,所述信息熵减幅满足预设条件,包括:信息熵减幅在多种归并方式中最大。
本说明书实施例还提供一种识别业务异常用户的装置,包括:
社群划分模块,获取业务中多个用户的用户信息,将单个用户划分作社群;
转移概率模块,根据用户信息计算社群之间的关联信息,根据社群之间的关联信息设置转移概率;
游走序列模块,利用所述转移概率在所述社群之间进行随机游走,根据游走时经过的社群节点生成游走序列;
归并模块,按照所述游走序列中的节点顺序依次计算将相邻节点进行社群归并所产生的信息熵减幅;
根据所述信息熵减幅进行社群归并,并将归并后的社群进行迭代,直至迭代后的游走序列中相邻节点进行社群归并所产生的信息熵减幅满足预设条件,得到归并后的聚类社群;
识别模块,利用所述聚类社群识别业务中的异常用户。
本说明书实施例还提供一种电子设备,其中,该电子设备包括:
处理器;以及,
存储计算机可执行程序的存储器,所述可执行程序在被执行时使所述处理器执行上述任一项方法。
本说明书实施例还提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现上述任一项方法。
本说明书实施例提供的各种技术方案通过获取多个用户信息,将单个用户划分作社群,计算社群之间的关联信息设置转移概率,在社群之间进行随机游走生成游走序列,按照游走序列中的节点顺序依次计算将相邻节点进行社群归并所产生的信息熵减幅,根据信息熵减幅进行社群归并,并将归并后的社群进行迭代,直至迭代后的游走序列中相邻节点进行社群归并所产生的信息熵减幅满足预设条件,得到归并后的聚类社群,利用聚类社群识别业务中的异常用户。通过根据社群之间的关联信息设置转移概率,实现了有关联的游走,通过计算信息熵减幅,实现了精准的社群划分,用其进行异常用户的识别,提高了识别准确率,提高了异常用户识别准确率,降低了风险提高了业务安全性。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本说明书实施例提供的一种识别业务异常用户的方法的原理示意图;
图2为本说明书实施例提供的一种识别业务异常用户的装置的结构示意图;
图3为本说明书实施例提供的一种电子设备的结构示意图;
图4为本说明书实施例提供的一种计算机可读介质的原理示意图。
具体实施方式
现在将参考附图更全面地描述本发明的示例性实施例。然而,示例性实施例能够以多种形式实施,且不应被理解为本发明仅限于在此阐述的实施例。相反,提供这些示例性实施例能够使得本发明更加全面和完整,更加便于将发明构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的元件、组件或部分,因而将省略对它们的重复描述。
在符合本发明的技术构思的前提下,在某个特定的实施例中描述的特征、结构、特性或其他细节不排除可以以合适的方式结合在一个或更多其他的实施例中。
在对于具体实施例的描述中,本发明描述的特征、结构、特性或其他细节是为了使本领域的技术人员对实施例进行充分理解。但是,并不排除本领域技术人员可以实践本发明的技术方案而没有特定特征、结构、特性或其他细节的一个或更多。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
术语“和/或”或者“及/或”包括相关联的列出项目中的任一个或多者的所有组合。
图1为本说明书实施例提供的一种识别业务异常用户的方法的原理示意图,该方法可以包括:
S101:获取业务中多个用户的用户信息,将单个用户划分作社群。
在本说明书实施例中,为了挖掘到异常用户的社群关系,我们可以采用社群发现算法来挖掘异常用户的社群。
而挖掘社群的方式有很多种,传统的方式是进行聚类,然而这种方式很难挖掘出深藏的新型社群聚合特征,而且计算量大,对于存在上百亿级别边关系的大网,落地非常非常困难,即使能落地,消耗或占用的资源也是非常大,往往性价比不高。
获取业务中多个用户的用户信息,可以是确定业务中的历史用户,获取其性别、年龄、行业和户籍等信息,还可以是其偏好,业务行为事件等信息,在此不作详细阐述。
S102:根据用户信息计算社群之间的关联信息,根据社群之间的关联信息设置转移概率。
传功的社区发现算法,是利用用户间相似程度设置转移概率,然而这种方式无法兼顾用户之间的亲密度。
因此,在本说明书实施例中,我们可以根据社群之间的关联信息来设置转移概率,这里由于将单个用户划分作社群,因此,实际上社群之间的关联信息就是用户间的关联信息。
这里的关联关系,可以是业务上的关联,所述关联属性包括:性别、年龄、行业和户籍。
所述根据社群之间的关联信息设置转移概率,包括:
对不同关联属性下的关联信息分别设置关联权重,结合设置的关联权重计算并设置转移概率。
通过设置权重,能够把握住其主要作用的关联,更准确地反映人与人的亲密程度。
在本说明书实施例中,还可以包括:根据社群下的用户和转移概率构建关系网节点和边关系,边的长度可以表示用户之间的关联性,边越短表示关联性程度越高,可以直接将边的长度做为转移概率。
当然,也可以是每个用户为作为一个节点,以存在相同关联关系的用户进行边关系的构建,比如,存在相同wifi、相同ip、相同设备、有共同推荐人、紧急联系人、联系人1和联系人2的用户之间构建边关系,此处的wifi、相同ip、设备、推荐人、紧急联系人、联系人1和联系人2即关联信息,当然,也可以是更多其他的关联关系,而只要满足预设关联信息相同即将两个用户之间构建边关系,实现对不同用户之间的链接形成关系网。
构建出的关系网可以抽象为一个有向图,每个用户是图上的一个点,而图上的任意两个点都有至少一个边;而计算不同用户之间的转移概率可以通过计算用户之间的相似度,然后获取边关系中具有相同关联信息的数量对应的权重系数,将该权重系数与相似度相乘得到该转移概率。其中,边关系中具有相同关联性信息的数量越多,对应的权重系数越大。
S103:利用所述转移概率在所述社群之间进行随机游走,根据游走时经过的社群节点生成游走序列。
为了减小计算量,我们可以采取双层编码的方式对用户的社群进行编码。
其中第一个编码代表对象的社群类别(社群标识),第二个编码代表在该社群类别内的编号。这样,就可以缩小编码数据量,从而减小计算过程的计算量。
双层编码技术在现有技术中已有公开在此不做详细阐述。
其中,随机游走可以是根据转移概率进行游走,也可以是指结合转移概率和随机产生的随机数进行游走,确定当前节点与哪个节点亲密度最高,这样,遍历下来,就可以得到包含所有节点的游走序列。
通过根据转移概率进行游走,使得亲密度最高的节点相邻,从而在后续进行社群归并时,只需要将相邻节点进行归并即可。
S104:按照所述游走序列中的节点顺序依次计算将相邻节点进行社群归并所产生的信息熵减幅。
可选地,所述按照所述游走序列中的节点顺序依次计算将相邻节点进行社群归并所产生的信息熵减幅,包括:
对所述游走序列中的各社群节点进行双层编码,得到双层标识,利用各社群节点的双层标识计算将两个相邻节点进行社群归并所产生的信息熵减幅。
其中,信息熵可以是指按照双层编码对各用户进行记录所需的数据量之和。
这样,如果信息熵减幅较大,就说明当前的社群归并方式较为合理,能够有效减小计算量,因此,我们可以按照这种方式迭代归并,知道得到数量较少的社群。
S105:根据所述信息熵减幅进行社群归并,并将归并后的社群进行迭代,直至迭代后的游走序列中相邻节点进行社群归并所产生的信息熵减幅满足预设条件,得到归并后的聚类社群。
可选地,所述信息熵减幅满足预设条件,包括:信息熵减幅在多种归并方式中最大。
比如,一个序列中有十个节点,遍历十个节点,第一次先将前两个节点合并,计算信息熵减幅为a,接着将第二个和第三个节点归并,计算得到熵减幅为1.1a,按次规律依次进行,最后将第9个节点与第十个节点进行归并,计算得到熵减幅为1.5a,于是,算法自动按照最后一种归并方式进行归并,而第一各节点与第二个节点,第二个节点与第三个节点,暂时不进行归并。这样,就能够得到最合理的归并方式,最有利于降低计算量。
在进行此次归并后,进行多次迭代,也就是按照归并后的节点和社群重新进行编码,去掉多余的编码,再次计算转移概率,并按照所述转移概率随机游走生成游走序列,以及计算信息熵减幅。
这里的信息熵,可以理解为社群类别编码和类内编码的加权编码长度。信息熵减幅是指类别编码和类内编码的加权编码长度的下降值。如果信息熵减幅为0,那么就不进行社群归并,而是让相邻节点依然归属于其当前各自的社群,不进行社群编码的合并。
S106:利用所述聚类社群识别业务中的异常用户。
获取多个用户信息,将单个用户划分作社群,计算社群之间的关联信息设置转移概率,在社群之间进行随机游走生成游走序列,按照游走序列中的节点顺序依次计算将相邻节点进行社群归并所产生的信息熵减幅,根据信息熵减幅进行社群归并,并将归并后的社群进行迭代,直至迭代后的游走序列中相邻节点进行社群归并所产生的信息熵减幅满足预设条件,得到归并后的聚类社群,利用聚类社群识别业务中的异常用户。通过根据社群之间的关联信息设置转移概率,实现了有关联的游走,通过计算信息熵减幅,实现了精准的社群划分,用其进行异常用户的识别,提高了识别准确率,降低了风险提高了业务安全性。
可选地,所述利用所述聚类社群识别业务中的异常用户,包括:
识别包含异常用户的聚类社群,并将包含所述异常用户的聚类社群作为目标聚类社群;
获取待识别用户,将所述待识别用户与所有所述聚类社群进行聚类,判断所述待识别用户是否聚类到所述目标聚类社群中,若是,则将所述待识别用户标为异常用户。
其中,打标可以是设置标签。具体的,我们可以由人工识别异常用户,确定异常用户所处的聚类社群,将该聚类社群作为异常社群并设置标签,或者,通过其他成熟的异常用户识别系统或方法来识别我们聚类社群中的各个用户,并确定聚类社群中的异常用户,然后对包含异常用户的聚类社群作为异常社群并设置标签。
比如,可以根据社群的伪冒特征、赌博特征、团案特征设置标签。
这样,在后续进行聚类分析时,如果待识别用户信息能够自动聚类到异常社群,就说明这个用户大概率是异常的风险用户。
当然,为了不断进行调优,我们还可以收集聚类社群对异常用户的识别准确率。
因此,在本说明书实施例中,该方法还可以包括:
统计各个聚类社群对异常用户的识别准确率,根据聚类社群对异常用户的识别准确率调整关联权重。
在调整关联权重之后,根据调整后的关联权重调整转移概率,并基于调整后的转移概率重复上述步骤S103-105,得到新的聚类社群。
这样,就能够不断挖掘出哪些关联属性信息最有利于识别异常用户。
当然,由于得到了聚类社群,因此我们还可以用其训练模型,来识别异常用户。
因此,所述利用所述聚类社群识别业务中的异常用户,包括:
利用所述聚类社群训练异常用户识别模型,利用训练的异常用户识别模型识别异常用户。
具体的,可以用机器学习的方式来训练异常用户识别模型,也可以用回归的方式来训练。
为了提高识别效率,我们可以以客群为单位进行异常用户的识别。
因此,在本说明书实施例中,所述利用训练的异常用户识别模型识别异常用户,可以包括:
获取待识别用户,进行聚类,得到待识别用户客群,利用所述异常用户识别模型以客群为单位判断所述待识别用户客群是否异常。
具体的,可以将客群输入到异常用户识别模型,预测客群的标签。
在实际应用时,先输入数据集然后选择相同wifi,相同ip、相同设备、有共同推荐人、紧急联系人、联系人1、联系人2作为边关系;形成每个边关系的关系转移概率矩阵C;对于数据集中的每个样本,执行以下步骤:计算(xi,xj)的相似度获取该边关系eij对应的关系概率转移矩阵的系数,用dij与Cij的乘积作随机跳转概率。
然后对图里面的节点进行随机游走,得到一个序列,并且尝试社群归并(按顺序把节点赋予和当前节点相连接的邻居节点),计算类别编码和类内编码的加权编码长度(记作LM),取类别编码和类内编码的加权编码长度下最大的社群作为当前节点的社群,如果类别编码和类内编码的加权编码长度没有降低,则当前节点的社群仍是它本身,重复这一步骤直至类别编码和类内编码的加权编码长度无法继续变化,便得到了最终的聚类社群。
图2为本说明书实施例提供的一种识别业务异常用户的装置的结构示意图,该装置可以包括:
社群划分模块201,获取业务中多个用户的用户信息,将单个用户划分作社群;
转移概率模块202,根据用户信息计算社群之间的关联信息,根据社群之间的关联信息设置转移概率;
游走序列模块203,利用所述转移概率在所述社群之间进行随机游走,根据游走时经过的社群节点生成游走序列;
归并模块204,按照所述游走序列中的节点顺序依次计算将相邻节点进行社群归并所产生的信息熵减幅;
根据所述信息熵减幅进行社群归并,并将归并后的社群进行迭代,直至迭代后的游走序列中相邻节点进行社群归并所产生的信息熵减幅满足预设条件,得到归并后的聚类社群;
识别模块205,利用所述聚类社群识别业务中的异常用户。
该装置通过获取多个用户信息,将单个用户划分作社群,计算社群之间的关联信息设置转移概率,在社群之间进行随机游走生成游走序列,按照游走序列中的节点顺序依次计算将相邻节点进行社群归并所产生的信息熵减幅,根据信息熵减幅进行社群归并,并将归并后的社群进行迭代,直至迭代后的游走序列中相邻节点进行社群归并所产生的信息熵减幅满足预设条件,得到归并后的聚类社群,利用聚类社群识别业务中的异常用户。通过根据社群之间的关联信息设置转移概率,实现了有关联的游走,通过计算信息熵减幅,实现了精准的社群划分,用其进行异常用户的识别,提高了识别准确率,降低了风险提高了业务安全性。
基于同一发明构思,本说明书实施例还提供一种电子设备。
下面描述本发明的电子设备实施例,该电子设备可以视为对于上述本发明的方法和装置实施例的具体实体实施方式。对于本发明电子设备实施例中描述的细节,应视为对于上述方法或装置实施例的补充;对于在本发明电子设备实施例中未披露的细节,可以参照上述方法或装置实施例来实现。
图3为本说明书实施例提供的一种电子设备的结构示意图。下面参照图3来描述根据本发明该实施例的电子设备300。图3显示的电子设备300仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,电子设备300以通用计算设备的形式表现。电子设备300的组件可以包括但不限于:至少一个处理单元310、至少一个存储单元320、连接不同系统组件(包括存储单元320和处理单元310)的总线330、显示单元340等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元310执行,使得所述处理单元310执行本说明书上述处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元310可以执行如图1所示的步骤。
所述存储单元320可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)3201和/或高速缓存存储单元3202,还可以进一步包括只读存储单元(ROM)3203。
所述存储单元320还可以包括具有一组(至少一个)程序模块3205的程序/实用工具3204,这样的程序模块3205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线330可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备300也可以与一个或多个外部设备400(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备300交互的设备通信,和/或与使得该电子设备300能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口350进行。并且,电子设备300还可以通过网络适配器360与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器360可以通过总线330与电子设备300的其它模块通信。应当明白,尽管图3中未示出,可以结合电子设备300使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,本发明描述的示例性实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个计算机可读的存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明的上述方法。当所述计算机程序被一个数据处理设备执行时,使得该计算机可读介质能够实现本发明的上述方法,即:如图1所示的方法。
图4为本说明书实施例提供的一种计算机可读介质的原理示意图。
实现图1所示方法的计算机程序可以存储于一个或多个计算机可读介质上。计算机可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
综上所述,本发明可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)等通用数据处理设备来实现根据本发明实施例中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,本发明不与任何特定计算机、虚拟装置或者电子设备固有相关,各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (12)
1.一种识别业务异常用户的方法,其特征在于,包括:
获取业务中多个用户的用户信息,将单个用户划分作社群;
根据用户信息计算社群之间的关联信息,根据社群之间的关联信息设置转移概率;
利用所述转移概率在所述社群之间进行随机游走,根据游走时经过的社群节点生成游走序列;
按照所述游走序列中的节点顺序依次计算将相邻节点进行社群归并所产生的信息熵减幅;
根据所述信息熵减幅进行社群归并,并将归并后的社群进行迭代,直至迭代后的游走序列中相邻节点进行社群归并所产生的信息熵减幅满足预设条件,得到归并后的聚类社群;
利用所述聚类社群识别业务中的异常用户。
2.根据权利要求1所述的方法,其特征在于,所述利用所述聚类社群识别业务中的异常用户,包括:
识别包含异常用户的聚类社群,并将包含所异常用户的聚类社群作为目标聚类社群;
获取待识别用户,将所述待识别用户与所有所述聚类社群进行聚类,判断所述待识别用户是否聚类到所述目标聚类社群中,若是,则将所述待识别用户标为异常用户。
3.根据权利要求1-2中任一项所述的方法,其特征在于,所述根据社群之间的关联信息设置转移概率,包括:
对不同关联属性下的关联信息分别设置关联权重,结合设置的关联权重计算并设置转移概率。
4.根据权利要求1-3中任一项所述的方法,其特征在于,还包括:
统计各个聚类社群对异常用户的识别准确率,根据聚类社群对异常用户的识别准确率调整关联权重。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述关联属性包括:性别、年龄、行业和户籍。
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述按照所述游走序列中的节点顺序依次计算将相邻节点进行社群归并所产生的信息熵减幅,包括:
对所述游走序列中的各社群节点进行双层编码,得到双层标识,利用各社群节点的双层标识计算将两个相邻节点进行社群归并所产生的信息熵减幅。
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述利用所述聚类社群识别业务中的异常用户,包括:
利用所述聚类社群训练异常用户识别模型,利用训练的异常用户识别模型识别异常用户。
8.根据权利要求1-7中任一项所述的方法,其特征在于,所述利用训练的异常用户识别模型识别异常用户,包括:
获取待识别用户,进行聚类,得到待识别用户客群,利用所述异常用户识别模型以客群为单位判断所述待识别用户客群是否异常。
9.根据权利要求1-8中任一项所述的方法,其特征在于,所述信息熵减幅满足预设条件,包括:信息熵减幅在多种归并方式中最大。
10.一种识别业务异常用户的装置,其特征在于,包括:
社群划分模块,获取业务中多个用户的用户信息,将单个用户划分作社群;
转移概率模块,根据用户信息计算社群之间的关联信息,根据社群之间的关联信息设置转移概率;
游走序列模块,利用所述转移概率在所述社群之间进行随机游走,根据游走时经过的社群节点生成游走序列;
归并模块,按照所述游走序列中的节点顺序依次计算将相邻节点进行社群归并所产生的信息熵减幅;
根据所述信息熵减幅进行社群归并,并将归并后的社群进行迭代,直至迭代后的游走序列中相邻节点进行社群归并所产生的信息熵减幅满足预设条件,得到归并后的聚类社群;
识别模块,利用所述聚类社群识别业务中的异常用户。
11.一种电子设备,其中,该电子设备包括:
处理器;以及,存储计算机可执行程序的存储器,所述可执行程序在被执行时使所述处理器执行根据权利要求1-9中任一项所述的方法。
12.一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现权利要求1-9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111572003.9A CN114255050A (zh) | 2021-12-21 | 2021-12-21 | 一种识别业务异常用户的方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111572003.9A CN114255050A (zh) | 2021-12-21 | 2021-12-21 | 一种识别业务异常用户的方法、装置和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114255050A true CN114255050A (zh) | 2022-03-29 |
Family
ID=80793740
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111572003.9A Pending CN114255050A (zh) | 2021-12-21 | 2021-12-21 | 一种识别业务异常用户的方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114255050A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115293861A (zh) * | 2022-10-09 | 2022-11-04 | 连连银通电子支付有限公司 | 一种商品识别方法、装置、电子设备及存储介质 |
CN116090525A (zh) * | 2022-11-15 | 2023-05-09 | 广东工业大学 | 基于层次随机游走采样策略的嵌入向量表示方法及系统 |
-
2021
- 2021-12-21 CN CN202111572003.9A patent/CN114255050A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115293861A (zh) * | 2022-10-09 | 2022-11-04 | 连连银通电子支付有限公司 | 一种商品识别方法、装置、电子设备及存储介质 |
CN116090525A (zh) * | 2022-11-15 | 2023-05-09 | 广东工业大学 | 基于层次随机游走采样策略的嵌入向量表示方法及系统 |
CN116090525B (zh) * | 2022-11-15 | 2024-02-13 | 广东工业大学 | 基于层次随机游走采样策略的嵌入向量表示方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11315132B2 (en) | Customer journey prediction and customer segmentation | |
Cui et al. | On positional and structural node features for graph neural networks on non-attributed graphs | |
CN109492772B (zh) | 生成信息的方法和装置 | |
US20100161643A1 (en) | Segmentation of interleaved query missions into query chains | |
US20210166150A1 (en) | Integrated bottom-up segmentation for semi-supervised image segmentation | |
CN111966904B (zh) | 基于多用户画像模型的信息推荐方法和相关装置 | |
CN112148987A (zh) | 基于目标对象活跃度的消息推送方法及相关设备 | |
CN111199474B (zh) | 一种基于双方网络图数据的风险预测方法、装置和电子设备 | |
US20230289828A1 (en) | Data processing method, computer device, and readable storage medium | |
CN111723292B (zh) | 基于图神经网络的推荐方法、系统、电子设备及存储介质 | |
Ay et al. | FC-Kmeans: Fixed-centered K-means algorithm | |
CN114255050A (zh) | 一种识别业务异常用户的方法、装置和电子设备 | |
CN105225135B (zh) | 潜力客户识别方法以及装置 | |
CN107507028A (zh) | 用户偏好确定方法、装置、设备及存储介质 | |
US9858526B2 (en) | Method and system using association rules to form custom lists of cookies | |
Brito et al. | An iterative local search approach applied to the optimal stratification problem | |
CN111209351B (zh) | 对象关系预测、对象推荐方法及装置、电子设备、介质 | |
CN113705698B (zh) | 基于点击行为预测的信息推送方法及装置 | |
Liu et al. | Extracting, ranking, and evaluating quality features of web services through user review sentiment analysis | |
US20230230081A1 (en) | Account identification method, apparatus, electronic device and computer readable medium | |
CN111325578B (zh) | 预测模型的样本确定方法及装置、介质和设备 | |
CN110348581B (zh) | 用户特征群中用户特征寻优方法、装置、介质及电子设备 | |
CN117370651A (zh) | 一种基于全局多行为依赖的SaaS服务推荐方法 | |
JP2005222445A (ja) | データマイニングにおける情報処理方法及び解析装置 | |
CN116127189A (zh) | 用户运营方法、装置、设备以及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |