CN113205117B - 社区划分方法、装置、计算机设备及存储介质 - Google Patents

社区划分方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113205117B
CN113205117B CN202110407944.0A CN202110407944A CN113205117B CN 113205117 B CN113205117 B CN 113205117B CN 202110407944 A CN202110407944 A CN 202110407944A CN 113205117 B CN113205117 B CN 113205117B
Authority
CN
China
Prior art keywords
community
learning model
unsupervised learning
information entropy
updated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110407944.0A
Other languages
English (en)
Other versions
CN113205117A (zh
Inventor
路遥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Soxinda Beijing Data Technology Co ltd
Original Assignee
Soxinda Beijing Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Soxinda Beijing Data Technology Co ltd filed Critical Soxinda Beijing Data Technology Co ltd
Priority to CN202110407944.0A priority Critical patent/CN113205117B/zh
Publication of CN113205117A publication Critical patent/CN113205117A/zh
Application granted granted Critical
Publication of CN113205117B publication Critical patent/CN113205117B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种社区划分方法、装置、计算机设备及存储介质,该方法包括:调用无监督学习模型对用户群进行社区划分;对划分的多个社区进行分类纯度计算,获得每个所述社区对应的信息熵;根据所述信息熵,对所述无监督学习模型的参数进行更新;调用参数更新后的所述无监督学习模型再次进行社区划分,并返回执行所述对划分的多个社区进行分类纯度计算,获得每个所述社区对应的信息熵的步骤,直至确定所述无监督学习模型更新完毕;调用更新完毕的所述无监督学习模型对待划分用户进行社区划分,输出社区划分结果。通过信息熵对无监督学习模型进行导向性的调参,基于调参后的无监督学习模型进行社区划分,提高了社区划分的准确度。

Description

社区划分方法、装置、计算机设备及存储介质
技术领域
本申请涉及计算机技术领域,具体涉及一种社区划分方法、装置、计算机设备及存储介质。
背景技术
社会网络(social network)是由许多节点构成的一种社会结构,节点通常是指个人或组织,社会网络代表各种社会关系,社会网络关注的是人们之间的互动和联系,社会互动会影响人们的社会行为。在社会网络中,有的用户之间的连接较为紧密,有的用户之间的连接关系较为稀疏,在这样的网络中,连接较为紧密的部分可以被看成一个社区,其内部的节点之间有较为紧密的连接,而在两个社区间则相对连接较为稀疏,这便称为社区结构。
目前,常用的社区划分方法包括Louvain算法,初始时将每个节点当作一个社区,然后依次将每个节点与之相邻节点合并在一起,计算它们的模块度增益,如果模块度增益大于0,就将该节点放入该相邻节点所在社区,依此直至算法稳定,即所有节点所属社区不再变化。采用该方法虽然实现了社区划分,但社区划分的准确度并不高。
发明内容
本申请实施例提供一种社区划分方法、装置、计算机设备及存储介质,可以提高社区划分的准确度。
第一方面,本申请实施例提供了一种社区划分方法,包括:
调用无监督学习模型对用户群进行社区划分;
对划分的多个社区进行分类纯度计算,获得每个所述社区对应的信息熵;
根据所述信息熵,对所述无监督学习模型的参数进行更新;
调用参数更新后的所述无监督学习模型再次进行社区划分,并返回执行所述对划分的多个社区进行分类纯度计算,获得每个所述社区对应的信息熵的步骤,直至确定所述无监督学习模型更新完毕;
调用更新完毕的所述无监督学习模型对待划分用户进行社区划分,输出社区划分结果。
第二方面,本申请实施例还提供了一种社区划分装置,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时执行上述的社区划分方法。
第三方面,本申请实施例还提供了一种计算机设备,所述计算机设备包括上述的社区划分装置。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序被处理器执行时使所述处理器实现上述的社区划分方法。
本申请实施例提供了一种社区划分方法、装置、计算机设备及存储介质,通过调用无监督学习模型对用户群进行社区划分,并对划分的多个社区进行分类纯度计算,获得每个社区对应的信息熵,根据每个社区对应的信息熵,对无监督学习模型的参数进行更新,调用参数更新后的无监督学习模型再次进行社区划分,并再次获得划分的社区对应的信息熵,根据信息熵再次对无监督学习模型的参数进行更新,直至确定无监督学习模型更新完毕,之后,调用更新完毕的无监督学习模型对待划分用户进行社区划分,并输出社区划分结果。由于采用信息熵对无监督学习模型进行了导向性的参数更新,获得了高精度的无监督学习模型,因此,基于该无监督学习模型进行社区划分,提高了社区划分的准确度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种社区划分方法的步骤示意流程图;
图2是本申请实施例提供的一种对划分的多个社区进行分类纯度计算,获得每个所述社区对应的信息熵的步骤示意流程图;
图3是本申请实施例提供的一种根据所述用户数据信息,对每个所述社区进行用户的分类纯度计算,获得每个所述社区对应的所述信息熵的步骤示意流程图;
图4是本申请一实施例提供的一种对Louvain模型进行调参的流程示意图;
图5是本申请一实施例提供的一种社区划分装置的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
社会网络是由许多节点构成的一种社会结构,节点通常是指个人或组织,社会网络代表各种社会关系,社会网络关注的是人们之间的互动和联系,社会互动会影响人们的社会行为。在社会网络中,有的用户之间的连接较为紧密,有的用户之间的连接关系较为稀疏,在这样的网络中,连接较为紧密的部分可以被看成一个社区,其内部的节点之间有较为紧密的连接,而在两个社区间则相对连接较为稀疏,这便称为社区结构。
目前,常用的社区划分方法包括Louvain算法,初始时将每个节点当作一个社区,然后依次将每个节点与之相邻节点合并在一起,计算它们的模块度增益,如果模块度增益大于0,就将该节点放入该相邻节点所在社区,依此直至算法稳定,即所有节点所属社区不再变化。采用该方法虽然实现了社区划分,但社区划分的准确度并不高。
为了解决上述问题,本申请的实施例提供了一种社区划分方法、装置、计算机设备及存储介质,用于实现提高社区划分的准确度。
请参阅图1,图1是本申请一实施例提供的社区划分方法的流程示意图。其中,该社区划分方法可以应用于上述的社区划分装置、计算机设备中。以下将以社区划分方法应用于计算机设备中为例进行详细说明。
如图1所示,该社区划分方法具体包括步骤S101至步骤S105。
S101、调用无监督学习模型对用户群进行社区划分。
其中,无监督学习模型包括但不限于Louvain模型。通过获取用户群对应的样本数据,该样本数据包括但不限于三元组数据,如节点、关系、属性三元组数据。以用户群为银行客户为例,可以通过查询银行中的图数据库,获取银行客户的三元组数据,作为样本数据。
将获得的样本数据输入无监督学习模型中,对用户群进行社区划分。如将样本数据输入Louvain模型中,对用户群进行社区划分,获得社区划分的结果。
S102、对划分的多个社区进行分类纯度计算,获得每个所述社区对应的信息熵。
为了提高社区划分的准确度,对上述步骤中社区划分的结果进行评估。在一实施方式中,通过对划分的多个社区进行分类纯度计算,获得多个社区中每个社区对应的信息熵。其中。信息熵表征社区分类的混乱程度,信息熵与社区分类的混乱程度正相关,信息熵越低,社区分类的混乱程度越低,也即社区划分的准确度越高;反之,信息熵越高,社区分类的混乱程度越高,也即社区划分的准确度越低。
示例性的,在进行社区划分后,可从划分的多个社区中选取若干个社区来进行社区划分结果的评估。例如,选取前十名风险最大的社区来对社区划分的结果进行评估。具体地,对选取的若干个社区进行分类纯度计算,获得该若干个社区中每个社区对应的信息熵。
在一些实施例中,如图2所示,步骤S102具体可以包括子步骤S1021和子步骤S1022。
S1021、获取每个所述社区中的用户的用户数据信息。
其中,用户数据信息包括用户的信用评分数据、征信数据中至少一种。例如,通过银行系统获取划分的各个社区中的用户的信用评分数据、征信数据等用户数据信息。
S1022、根据所述用户数据信息,对每个所述社区进行用户的分类纯度计算,获得每个所述社区对应的所述信息熵。
根据用户数据信息,可以对用户进行正常用户和风险用户的标记,用来对社区划分的结果进行评估。示例性的,通过根据用户数据信息,对各个社区进行用户的分类纯度计算,获得每个社区对应的信息熵,基于信息熵对社区划分的结果进行评估。
在一些实施例中,如图3所示,步骤S1022具体可以包括子步骤S1021和子步骤S1022。
S10221、根据所述用户数据信息,确定每个所述社区中的每个用户对应为不同用户类型的概率。
其中,用户类型包括正常用户、风险用户等。例如,对于某个划分的社区中的任意一个用户,根据获取到的该用户的用户数据信息,确定该用户为正常用户的概率为p(x1),对应地,该用户为风险用户的概率为p(x2),其中,p(x1)和p(x2)之和为1。若用户的信用评分数据、征信数据越佳,则p(x1)的值越大,p(x2)值越小;反之,则p(x1)的值越小,p(x2)值越大。
依此,确定出每个社区中各个用户i对应为正常用户的概率p(xi1)和风险用户的概率p(xi2)。
S10222、根据所述概率,对每个所述社区进行用户的分类纯度计算,获得每个所述社区对应的所述信息熵。
确定了每个社区中各个用户i对应为正常用户的概率p(xi1)和风险用户的概率p(xi2)之后,分别对每个社区进行用户的分类纯度计算,获得每个社区对应的信息熵H(X)。
示例性的,按照以下公式进行每个社区对应的信息熵H(X)计算:
Figure BDA0003023028460000051
信息熵H(X)作为社区划分结果的评估指标,能够衡量社区分类的混乱程度,混乱程度越低,信息熵H(X)的值就越低,说明对用户进行社区划分的结果越准确。
S103、根据所述信息熵,对所述无监督学习模型的参数进行更新。
获得各个社区对应的信息熵H(X)后,根据各个社区对应的信息熵H(X),若其中存在较大值的信息熵H(X),也即说明无监督学习模型对用户进行社区划分的结果不够准确。此时,根据各个社区对应的信息熵H(X),对无监督学习模型的参数进行调整更新。
S104、调用参数更新后的所述无监督学习模型再次进行社区划分,并返回执行所述步骤S102。
也即,在无监督学习模型更新后,通过更新的无监督学习模型再次进行社区划分,并根据新划分的社区,确定每个社区对应的信息熵H(X)。具体操作过程可参考上述步骤中所述,在此不再赘述。
基于获得的最新的信息熵H(X),确定无监督学习模型是否可以满足要求,也即调用无监督学习模型进行社区划分的准确度是否达到要求。若满足要求,则无监督学习模型更新完毕。反之,则需要继续根据信息熵H(X),对无监督学习模型的参数进行调整更新。
示例性的,每当重新基于更新的无监督学习模型进行社区划分,并获得划分的社区对应的信息熵后,将当前获得的信息熵与前一次获得的信息熵进行比较。若当前获得的信息熵低于前一次获得的信息熵,则确定无监督学习模型的精度提高,无监督学习模型的调参方向是正确的。
示例性的,针对于划分的多个社区对应的多个信息熵,若当前获得的多个信息熵总体上相比前一次获得的多个信息熵降低,则无监督学习模型的调参方向是正确的,无监督学习模型的精度提高。
示例性的,当无监督学习模型的精度达到预设要求时,例如,无监督学习模型的精度达到银行对反欺诈团伙检测的需求时,确定无监督学习模型更新完毕。
示例性的,若计算获得的每个社区对应的信息熵均小于预设阈值,确定无监督学习模型更新完毕。例如,划分的社区对应的信息熵为0,即分类纯度最高,一个社区中的所有用户都为同一种用户类型,此时,确定无监督学习模型更新完毕。
需要说明的是,该预设阈值的具体数值可根据实际情况进行灵活设置,在此不做限定。
下面以无监督学习模型为Louvain模型为例,对Louvain模型的更新进行举例说明。如图4所示,Louvain模型的更新流程如下:
步骤1、采集用户群的样本数据X1、X2、X3......Xn;
步骤2、将样本数据X1、X2、X3......Xn输入Louvain模型,进行社区划分处理;
步骤3、输出社区划分结果;
步骤4、计算划分的社区对应的信息熵,判断信息熵是否满足阈值要求或者分类纯度是否达到要求;
步骤5、若否,则根据信息熵,对Louvain模型的参数进行调整更新,并重新返回步骤2,循环上述步骤,直至信息熵满足阈值要求或者分类纯度达到要求,Louvain模型更新完毕。
S105、当确定所述无监督学习模型更新完毕后,调用更新完毕的所述无监督学习模型对待划分用户进行社区划分,输出社区划分结果。
当确定无监督学习模型更新完毕后,采用该更新完毕的无监督学习模型,对待进行社区划分的若干用户进行社区划分操作,并输出社区划分结果。例如,在计算机设备上显示各个社区划分结果。
上述实施例通过调用无监督学习模型对用户群进行社区划分,并对划分的多个社区进行分类纯度计算,获得每个社区对应的信息熵,根据每个社区对应的信息熵,对无监督学习模型的参数进行更新,调用参数更新后的无监督学习模型再次进行社区划分,并再次获得划分的社区对应的信息熵,根据信息熵再次对无监督学习模型的参数进行更新,直至确定无监督学习模型更新完毕,之后,调用更新完毕的无监督学习模型对待划分用户进行社区划分,并输出社区划分结果。由于采用信息熵对无监督学习模型进行了导向性的参数更新,获得了高精度的无监督学习模型,因此,基于该无监督学习模型进行社区划分,提高了社区划分的准确度。
请参阅图5,图5为本申请实施例提供的一种社区划分装置的示意性框图。如图5所示,社区划分装置500可以包括处理器510和存储器520。处理器510和存储器520通过总线连接,该总线比如为I2C(Inter-integrated Circuit)总线。
具体地,处理器510可以是微控制单元(Micro-controller Unit,MCU)、中央处理单元(Central Processing Unit,CPU)或数字信号处理器(Digital Signal Processor,DSP)等。
具体地,存储器520可以是Flash芯片、只读存储器(ROM,Read-Only Memory)磁盘、光盘、U盘或移动硬盘等。
其中,所述处理器用于运行存储在存储器中的计算机程序,并在执行所述计算机程序时实现如下步骤:
调用无监督学习模型对用户群进行社区划分;
对划分的多个社区进行分类纯度计算,获得每个所述社区对应的信息熵;
根据所述信息熵,对所述无监督学习模型的参数进行更新;
调用参数更新后的所述无监督学习模型再次进行社区划分,并返回执行所述对划分的多个社区进行分类纯度计算,获得每个所述社区对应的信息熵的步骤,直至确定所述无监督学习模型更新完毕;
调用更新完毕的所述无监督学习模型对待划分用户进行社区划分,输出社区划分结果。
在一些实施例中,所述信息熵表征社区分类的混乱程度,所述信息熵越低,社区分类的混乱程度越低。
在一些实施例中,所述处理器在实现所述对划分的多个社区进行分类纯度计算,获得每个所述社区对应的信息熵时,用于实现:
获取每个所述社区中的用户的用户数据信息;
根据所述用户数据信息,对每个所述社区进行用户的分类纯度计算,获得每个所述社区对应的所述信息熵。
在一些实施例中,所述处理器在实现所述根据所述用户数据信息,对每个所述社区进行用户的分类纯度计算,获得每个所述社区对应的所述信息熵时,用于实现:
根据所述用户数据信息,确定每个所述社区中的每个用户对应为不同用户类型的概率;
根据所述概率,对每个所述社区进行用户的分类纯度计算,获得每个所述社区对应的所述信息熵。
在一些实施例中,所述用户数据信息包括信用评分数据、征信数据中至少一种,所述用户类型包括正常用户、风险用户。
在一些实施例中,所述处理器在实现所述确定所述无监督学习模型更新完毕时,用于实现:
当所述无监督学习模型的精度达到预设要求时,确定所述无监督学习模型更新完毕;或
当每个所述社区对应的所述信息熵小于预设阈值时,确定所述无监督学习模型更新完毕。
在一些实施例中,所述处理器还用于实现:
每当获得所述信息熵后,将当前获得的所述信息熵与前一次获得的所述信息熵进行比较;
若当前获得的所述信息熵低于前一次获得的所述信息熵,则确定所述无监督学习模型的精度提高,所述无监督学习模型的调参方向正确。
上述实施例通过调用无监督学习模型对用户群进行社区划分,并对划分的多个社区进行分类纯度计算,获得每个社区对应的信息熵,根据每个社区对应的信息熵,对无监督学习模型的参数进行更新,调用参数更新后的无监督学习模型再次进行社区划分,并再次获得划分的社区对应的信息熵,根据信息熵再次对无监督学习模型的参数进行更新,直至确定无监督学习模型更新完毕,之后,调用更新完毕的无监督学习模型对待划分用户进行社区划分,并输出社区划分结果。由于采用信息熵对无监督学习模型进行了导向性的参数更新,获得了高精度的无监督学习模型,因此,基于该无监督学习模型进行社区划分,提高了社区划分的准确度。
本申请的实施例中还提供一种计算机设备,该计算机设备包括上述实施例中的社区划分装置500。计算机设备通过调用无监督学习模型对用户群进行社区划分,并对划分的多个社区进行分类纯度计算,获得每个社区对应的信息熵,根据每个社区对应的信息熵,对无监督学习模型的参数进行更新,调用参数更新后的无监督学习模型再次进行社区划分,并再次获得划分的社区对应的信息熵,根据信息熵再次对无监督学习模型的参数进行更新,直至确定无监督学习模型更新完毕,之后,调用更新完毕的无监督学习模型对待划分用户进行社区划分,并输出社区划分结果。具体操作可参考本申请实施例提供的社区划分方法的步骤,在此不再赘述。
由于该计算机设备可以执行本申请实施例所提供的任一种社区划分方法,因此,可以实现本申请实施例所提供的任一种社区划分方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
本申请的实施例中还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序中包括程序指令,所述处理器执行所述程序指令,实现上述实施例提供的社区划分方法的步骤。例如,该计算机程序被处理器加载,可以执行如下步骤:
调用无监督学习模型对用户群进行社区划分;
对划分的多个社区进行分类纯度计算,获得每个所述社区对应的信息熵;
根据所述信息熵,对所述无监督学习模型的参数进行更新;
调用参数更新后的所述无监督学习模型再次进行社区划分,并返回执行所述对划分的多个社区进行分类纯度计算,获得每个所述社区对应的信息熵的步骤,直至确定所述无监督学习模型更新完毕;
调用更新完毕的所述无监督学习模型对待划分用户进行社区划分,输出社区划分结果。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,计算机可读存储介质可以是前述实施例的社区划分装置或计算机设备的内部存储单元,例如社区划分装置或计算机设备的硬盘或内存。计算机可读存储介质也可以是社区划分装置或计算机设备的外部存储设备,例如社区划分装置或计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
由于该计算机可读存储介质中所存储的计算机程序,可以执行本申请实施例所提供的任一种社区划分方法,因此,可以实现本申请实施例所提供的任一种社区划分方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。以上所述,仅是本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (6)

1.一种社区划分方法,其特征在于,包括:
调用无监督学习模型对用户群进行社区划分;所述用户群为银行客户,通过查询银行中的图数据库,获取银行客户的三元组数据,作为样本数据,将所述样本数据输入所述无监督学习模型中,对用户群进行社区划分;
对划分的多个社区进行分类纯度计算,获得每个所述社区对应的信息熵,所述信息熵表征社区分类的混乱程度,所述信息熵越低,社区分类的混乱程度越低;
根据所述信息熵,对所述无监督学习模型的参数进行更新;
调用参数更新后的所述无监督学习模型再次进行社区划分,并返回执行所述对划分的多个社区进行分类纯度计算,获得每个所述社区对应的信息熵的步骤,直至确定所述无监督学习模型更新完毕;
调用更新完毕的所述无监督学习模型对待划分用户进行社区划分,输出社区划分结果;
其中,所述对划分的多个社区进行分类纯度计算,获得每个所述社区对应的信息熵,包括:
获取每个所述社区中的用户的用户数据信息;
根据所述用户数据信息,确定每个所述社区中的每个用户对应为不同用户类型的概率;所述用户数据信息包括信用评分数据、征信数据中至少一种,所述用户类型包括正常用户、风险用户;
根据所述概率,对每个所述社区进行用户的分类纯度计算,获得每个所述社区对应的所述信息熵。
2.根据权利要求1所述的方法,其特征在于,所述确定所述无监督学习模型更新完毕,包括:
当所述无监督学习模型的精度达到预设要求时,确定所述无监督学习模型更新完毕;或
当每个所述社区对应的所述信息熵小于预设阈值时,确定所述无监督学习模型更新完毕。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
每当获得所述信息熵后,将当前获得的所述信息熵与前一次获得的所述信息熵进行比较;
若当前获得的所述信息熵低于前一次获得的所述信息熵,则确定所述无监督学习模型的精度提高,所述无监督学习模型的调参方向正确。
4.一种社区划分装置,其特征在于,所述社区划分装置包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时执行如权利要求1至3中任一项所述的社区划分方法。
5.一种计算机设备,其特征在于,所述计算机设备包括如权利要求4所述的社区划分装置。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1至3中任一项所述的社区划分方法。
CN202110407944.0A 2021-04-15 2021-04-15 社区划分方法、装置、计算机设备及存储介质 Active CN113205117B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110407944.0A CN113205117B (zh) 2021-04-15 2021-04-15 社区划分方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110407944.0A CN113205117B (zh) 2021-04-15 2021-04-15 社区划分方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN113205117A CN113205117A (zh) 2021-08-03
CN113205117B true CN113205117B (zh) 2023-07-04

Family

ID=77027074

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110407944.0A Active CN113205117B (zh) 2021-04-15 2021-04-15 社区划分方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113205117B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810288A (zh) * 2014-02-25 2014-05-21 西安电子科技大学 基于聚类算法对异构社会网络进行社区检测的方法
CN107784598A (zh) * 2017-11-21 2018-03-09 山西大学 一种网络社区发现方法
CN109933657A (zh) * 2019-03-21 2019-06-25 中山大学 一种基于用户特征优化的主题挖掘情感分析方法
WO2019184325A1 (zh) * 2018-03-28 2019-10-03 华南理工大学 基于平均互信息的社区划分质量评价方法及系统
CN110442800A (zh) * 2019-07-22 2019-11-12 哈尔滨工程大学 一种融合节点属性和图结构的半监督社区发现方法
CN110765320A (zh) * 2019-10-23 2020-02-07 腾讯科技(深圳)有限公司 数据处理方法、装置、存储介质和计算机设备
CN111028092A (zh) * 2020-03-06 2020-04-17 中邮消费金融有限公司 基于Louvain算法的社区发现方法、计算机设备及其可读存储介质
CN111309788A (zh) * 2020-03-08 2020-06-19 山西大学 一种银行客户交易网络的社区结构发现方法及系统
CN111770047A (zh) * 2020-05-07 2020-10-13 拉扎斯网络科技(上海)有限公司 异常群体的检测方法、装置及设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2019370896A1 (en) * 2018-10-31 2021-06-17 Ancestry.Com Dna, Llc Estimation of phenotypes using DNA, pedigree, and historical data

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810288A (zh) * 2014-02-25 2014-05-21 西安电子科技大学 基于聚类算法对异构社会网络进行社区检测的方法
CN107784598A (zh) * 2017-11-21 2018-03-09 山西大学 一种网络社区发现方法
WO2019184325A1 (zh) * 2018-03-28 2019-10-03 华南理工大学 基于平均互信息的社区划分质量评价方法及系统
CN109933657A (zh) * 2019-03-21 2019-06-25 中山大学 一种基于用户特征优化的主题挖掘情感分析方法
CN110442800A (zh) * 2019-07-22 2019-11-12 哈尔滨工程大学 一种融合节点属性和图结构的半监督社区发现方法
CN110765320A (zh) * 2019-10-23 2020-02-07 腾讯科技(深圳)有限公司 数据处理方法、装置、存储介质和计算机设备
CN111028092A (zh) * 2020-03-06 2020-04-17 中邮消费金融有限公司 基于Louvain算法的社区发现方法、计算机设备及其可读存储介质
CN111309788A (zh) * 2020-03-08 2020-06-19 山西大学 一种银行客户交易网络的社区结构发现方法及系统
CN111770047A (zh) * 2020-05-07 2020-10-13 拉扎斯网络科技(上海)有限公司 异常群体的检测方法、装置及设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Memetic algorithm using node entropy and partition entropy for community detection in networks;Krista Rizman 等;Information Sciences;第38-49页 *
基于信息熵和局部相关性的多标签传播重叠社区发现算法;张昌理等;小型微型计算机系统;第37卷(第8期);第1645-1670页 *
基于迭代框架的主动链接选择半监督社区发现算法;陈嶷瑛;柴变芳;李文斌;贺毅朝;吴聪聪;;计算机应用(11);第53-57页 *
融合图卷积网络模型的无监督社区检测算法;姜东明等;计算机工程与应用;第56卷(第20期);第59-66页 *

Also Published As

Publication number Publication date
CN113205117A (zh) 2021-08-03

Similar Documents

Publication Publication Date Title
CN109859054B (zh) 网络社团挖掘方法、装置、计算机设备及存储介质
CN112365987A (zh) 诊断数据异常检测方法、装置、计算机设备及存储介质
JP7294369B2 (ja) 情報処理に用いられる方法、装置、電子機器及びプログラム
CN107247873B (zh) 一种差异甲基化位点识别方法
WO2019102984A1 (ja) 学習装置及び学習方法、識別装置及び識別方法、プログラム並びに記録媒体
CN113379301A (zh) 通过决策树模型对用户进行分类的方法、装置和设备
EP3452916A1 (en) Large scale social graph segmentation
CN111783830A (zh) 基于oct的视网膜分类方法、装置、计算机设备及存储介质
CN111414528B (zh) 确定设备标识的方法、装置、存储介质及电子设备
CN113205117B (zh) 社区划分方法、装置、计算机设备及存储介质
CN112528703B (zh) 一种识别表格结构的方法、装置及电子设备
CN112148880A (zh) 一种客服对话语料聚类方法、系统、设备及存储介质
CN113448876B (zh) 一种业务测试方法、装置、计算机设备及存储介质
CN113011153B (zh) 文本相关性检测方法、装置、设备及存储介质
CN112561569B (zh) 基于双模型的到店预测方法、系统、电子设备及存储介质
KR102323424B1 (ko) 관측평점과 유사도 그래프를 활용한 추천 알고리즘의 평점 예측 방법
CN112613762A (zh) 基于知识图谱的集团评级方法、装置和电子设备
CN115146890A (zh) 企业运营风险告警方法、装置、计算机设备和存储介质
CN111859917A (zh) 主题模型构建方法、设备及计算机可读存储介质
CN113723522B (zh) 异常用户的识别方法、装置、电子设备以及存储介质
CN107545347A (zh) 用于防控风险的属性确定方法、装置及服务器
CN110569498A (zh) 一种复合词识别方法及相关装置
US20240095286A1 (en) Information processing apparatus, classification method, and storage medium
CN116257760B (zh) 一种数据划分方法、系统、设备及计算机可读存储介质
CN112348583B (zh) 用户偏好生成方法与生成系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant