CN115964549A - 一种社群挖掘方法、装置、设备及存储介质 - Google Patents

一种社群挖掘方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115964549A
CN115964549A CN202310233765.9A CN202310233765A CN115964549A CN 115964549 A CN115964549 A CN 115964549A CN 202310233765 A CN202310233765 A CN 202310233765A CN 115964549 A CN115964549 A CN 115964549A
Authority
CN
China
Prior art keywords
account
accounts
business
service
dimensional feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310233765.9A
Other languages
English (en)
Other versions
CN115964549B (zh
Inventor
王茸茸
郭尧昱
孙悦
蔡准
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Trusfort Technology Co ltd
Original Assignee
Beijing Trusfort Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Trusfort Technology Co ltd filed Critical Beijing Trusfort Technology Co ltd
Priority to CN202310233765.9A priority Critical patent/CN115964549B/zh
Publication of CN115964549A publication Critical patent/CN115964549A/zh
Application granted granted Critical
Publication of CN115964549B publication Critical patent/CN115964549B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种社群挖掘方法、装置、设备及存储介质,涉及计算机技术领域。方法主要包括:获取多条交互数据,交互数据用于记录业务账户之间的交互行为,业务账户包括普通账户和标注账户;根据多条交互数据,提取业务账户对应的交互特征,交互特征包括自身账户特征、邻居账户特征和交互流向特征;根据图神经网络,对交互特征进行特征聚合,得到业务账户对应的高维特征向量;根据高维特征向量,对业务账户进行筛选,得到目标账户,目标账户为与标注账户的整体相似度大于第一预设阈值,或与普通账户的整体差异度大于第二预设阈值的业务账户;根据层次聚类算法和目标账户,生成针对业务账户的社群挖掘结果。

Description

一种社群挖掘方法、装置、设备及存储介质
技术领域
本公开涉及计算机技术领域,尤其涉及一种社群挖掘方法、装置、设备及存储介质。
背景技术
在现有技术中,一方面依靠专家规则来进行社群挖掘,专家需要不断特定的手段进行研究,从而更新专家规则,这会消耗大量的人力和资源,而且专家规则也难以精确识别越来越隐蔽的特定行为,因此社群挖掘的准确率不高;另一方面依靠计算连通分量来进行社群挖掘,但这种方式不仅计算复杂度高,而且容易产生包含冗余节点的特大社群,导致社群挖掘的准确率降低。
发明内容
本公开提供了一种社群挖掘方法、装置、设备及存储介质,以至少解决现有技术中存在的以上技术问题。
根据本公开的第一方面,提供了一种社群挖掘方法,该方法包括:获取多条交互数据,所述交互数据用于记录业务账户之间的交互行为,所述业务账户包括普通账户和标注账户;根据多条所述交互数据,提取所述业务账户对应的交互特征,所述交互特征包括自身账户特征、邻居账户特征和交互流向特征;根据图神经网络,对所述交互特征进行特征聚合,得到所述业务账户对应的高维特征向量;根据所述高维特征向量,对所述业务账户进行筛选,得到目标账户,所述目标账户为与所述标注账户的整体相似度大于第一预设阈值,或与所述普通账户的整体差异度大于第二预设阈值的业务账户;根据层次聚类算法和所述目标账户,生成针对所述业务账户的社群挖掘结果。
在一可实施方式中,所述根据多条所述交互数据,提取所述业务账户对应的交互特征,包括:构建多条所述交互数据对应的网络拓扑图,所述网络拓扑图的节点为所述业务账户,所述网络拓扑图的边表示业务账户之间的交互信息;根据所述网络拓扑图,提取所述业务账户对应的自身账户特征、邻居账户特征和交互流向特征。
在一可实施方式中,所述根据图神经网络,对所述交互特征进行特征聚合,得到所述业务账户对应的高维特征向量,包括:对所述邻居账户特征进行均值聚合,得到所述业务账户对应的聚合邻居账户特征;根据长短期记忆神经网络,对所述交互流向特征进行聚合,得到所述业务账户对应的聚合交互流向特征;对所述自身账户特征、所述聚合邻居账户特征和所述聚合交互流向特征进行拼接,得到所述业务账户对应的拼接特征;根据所述图神经网络,对所述拼接特征进行特征向量提取,得到所述业务账户对应的高维特征向量。
在一可实施方式中,所述根据所述高维特征向量,对所述业务账户进行筛选,得到目标账户,包括:根据所述高维特征向量,计算所述业务账户与所述标注账户的整体相似度;根据所述高维特征向量,计算所述业务账户与所述普通账户的整体差异度;根据所述整体相似度和所述整体差异度,对所述业务账户进行筛选,得到所述目标账户。
在一可实施方式中,所述根据所述高维特征向量,计算所述业务账户与所述标注账户的整体相似度,包括:计算所述业务账户对应的高维特征向量与所有所述标注账户对应的高维特征向量的相似度,得到第一计算结果;统计大于第三预设阈值的第一计算结果的数量,得到第一统计结果;根据所述第一统计结果和所述标注账户的数量,计算所述整体相似度。
在一可实施方式中,所述根据所述高维特征向量,计算所述业务账户与所述普通账户的整体差异度,包括:计算所述业务账户对应的高维特征向量与所有所述普通账户对应的高维特征向量的相似度,得到第二计算结果;统计小于第四预设阈值的第二计算结果的数量,得到第二统计结果;根据所述第二统计结果和所述普通账户的数量,计算所述整体差异度。
在一可实施方式中,所述根据层次聚类算法和所述目标账户,生成针对所述业务账户的社群挖掘结果,包括:根据所述层次聚类算法,对所述目标账户对应的高维特征向量进行聚类,得到聚类结果;根据所述聚类结果,生成针对所述业务账户的社群挖掘结果。
根据本公开的第二方面,提供了一种社群挖掘装置,该装置包括:获取模块,用于获取多条交互数据,所述交互数据用于记录业务账户之间的交互行为,所述业务账户包括普通账户和标注账户;提取模块,用于根据多条所述交互数据,提取所述业务账户对应的交互特征,所述交互特征包括自身账户特征、邻居账户特征和交互流向特征;聚合模块,用于根据图神经网络,对所述交互特征进行特征聚合,得到所述业务账户对应的高维特征向量;筛选模块,用于根据所述高维特征向量,对所述业务账户进行筛选,得到目标账户,所述目标账户为与所述标注账户的整体相似度大于第一预设阈值,或与所述普通账户的整体差异度大于第二预设阈值的业务账户;生成模块,用于根据层次聚类算法和所述目标账户,生成针对所述业务账户的社群挖掘结果。
根据本公开的第三方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开所述的方法。
根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行本公开所述的方法。
本公开的一种社群挖掘方法、装置、设备及存储介质,首先获取多条交互数据,交互数据用于记录业务账户之间的交互行为,业务账户包括普通账户和标注账户,然后根据多条交互数据,提取业务账户对应的交互特征,交互特征包括自身账户特征、邻居账户特征和交互流向特征,并根据图神经网络,对交互特征进行特征聚合,得到业务账户对应的高维特征向量,最后根据高维特征向量,筛选出与标注账户的整体相似度大于第一预设阈值,或与普通账户的整体差异度大于第二预设阈值的目标账户,并根据层次聚类算法和目标账户,生成针对业务账户的社群挖掘结果。由此,基于图神经网络,对业务账户对应的自身账户特征、邻居账户特征和交互流向特征进行聚合,得到业务账户对应的高维特征向量,高维特征向量可以更好地表征账户的各个维度特征,后续利用高维特征向量,可以筛选出更加准确的目标账户,而且基于层次聚类算法,对目标账户进行聚类,可以避免出现包含冗余节点的特大社群,进一步提高社群挖掘的准确率,另外,本申请的方法可以自动进行社群挖掘,减少了人力和资源的消耗。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1示出了本公开第一实施例的一种社群挖掘方法的流程示意图;
图2示出了本公开第二实施例的网络拓扑图的结构示意图;
图3示出了本公开第三实施例的一种社群挖掘方法的流程示意图;
图4示出了本公开第四实施例的一种社群挖掘方法的流程示意图;
图5示出了本公开第五实施例的聚类二叉树的结构示意图;
图6示出了本公开第六实施例的一种社群挖掘装置的结构示意图;
图7示出了本公开实施例一种电子设备的组成结构示意图。
具体实施方式
为使本公开的目的、特征、优点能够更加的明显和易懂,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而非全部实施例。基于本公开中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
图1示出了本公开第一实施例的一种社群挖掘方法的流程示意图,如图1所示,该方法主要包括:
步骤S101,获取多条交互数据。
在本实施例中,首先需要获取多条交互数据,其中,交互数据用于记录业务账户之间的交互行为,业务账户包括普通账户和标注账户。具体地,一条交互数据可以包括业务账户的标识信息,例如身份证号、账号和卡号等,还可以包括业务账户之间的交互流向、交互数量和交互时间等。需要强调的是,交互数据并非单指金融交互数据,而是泛指任何领域中用于记录业务账户之间交互行为的数据,例如在金融领域中,交互数据可以包括业务账户对应的卡号、转账流向、转账金额、转账时间和对方业务账户对应的卡号等,标注账户可以为被标注为经常进行欺诈操作的黑产账户,普通账户可以为未被标注为黑产账户的业务账户;在互联网领域中,交互数据可以包括业务账户对应的账号、消息流向、消息形式、消息发送时间和对方业务账户对应的账号等,消息形式可以为文字、图片、链接等,标注账户可以为被标注为经常发布广告的广告账户,普通账户为未被标注为广告账户的业务账户。当然,交互数据还可以来自其他领域,本公开不对交互数据的所属的领域进行限定。
步骤S102,根据多条交互数据,提取业务账户对应的交互特征。
在本实施例中,还需要从多条交互数据中提取每个业务账户对应的交互特征,交互特征包括自身账户特征、邻居账户特征和交互流向特征。具体地,自身账户特征为业务账户自身对应的特征数据,以金融领域为例,自身账户特征可以包括业务账户的邻居账户数量、邻居账户对应的银行数量、入账总次数、出账总次数、入账总金额、出账总金额、入账总次数与出账总次数的比值、入账总金额与出账总金额的比值、转账标识序列、转账时间序列和转账金额序列等,以互联网领域为例,自身账户特征可以包括业务账户的邻居账户数量、邻居账户对应的网络平台数量、接收消息总次数、发送消息总次数、接收消息中消息形式的种类数、发送消息中消息形式的种类数、接收消息总次数与发送消息总次数的比值、接收消息中消息形式的种类数与发送消息中消息形式的种类数的比值、消息标识序列、消息时间序列和消息形式序列等;邻居账户特征为业务账户的邻居账户对应的特征数据;交互流向特征为业务账户与其对应的邻居账户之间的交互行为数据,以金融领域为例,若业务账户1与业务账户2互为邻居账户,则业务账户1的交互流向特征可以包括业务账户1与业务账户2之间的转账时间序列和转账金额序列等,以互联网领域为例,若业务账户3与业务账户4互为邻居账户,则业务账户3的交互流向特征可以包括业务账户3与业务账户4之间的消息标识序列和消息时间序列等。
在一可实施方式中,以金融领域为例,转账标识序列为业务账户按照时间先后排序的转账标识,若出账的标识为-1,入账的标识为1,则一个业务账户的转账标识序列可以为[1,-1,1,-1];转账时间序列为业务账户按照时间先后排序的转账时间,转账时间可以精确到秒级,一个业务账户随时间变化的转账时间序列特征可以为[20220929142001,20220929142003],20220929142001表示2022年09月29日14时20分01秒;转账金额序列为业务账户按照时间先后排序的转账金额序列,其中,出账金额可以为负数,入账金额可以为正数,例如,一个业务账户随时间变化的转账金额序列特征可以为[100,-100,100,-100]。
在一可实施方式中,以互联网领域为例,消息标识序列为业务账户按照时间先后排序的消息标识,若发送消息的标识为-1,接收消息的标识为1,则一个业务账户的消息标识序列可以为[1,-1,1,-1];消息时间序列为业务账户按照时间先后排序的消息接收或发送时间,消息接收或发送时间可以精确到秒级,一个业务账户随时间变化的消息时间序列特征可以为[20220929142001,20220929142003],20220929142001表示2022年09月29日14时20分01秒;消息形式序列为业务账户按照时间先后排序的消息形式序列,若消息形式包括文字、图片和链接,且文字以W1表示,图片以P1表示,链接以L1表示,则一个业务账户随时间变化的消息形式序列可以为[W1,L1,W1,P1]。
步骤S103,根据图神经网络,对交互特征进行特征聚合,得到业务账户对应的高维特征向量。
在本实施例中,提取到业务账户对应的交互特征之后,将业务账户对应的交互特征输入至图神经网络,由图神经网络对每个业务账户对应的自身账户特征、邻居账户特征和交互流向特征进行特征聚合,从而得到每个业务账户对应的高维特征向量。具体地,图神经网络的各个网络层都有对应的聚合函数,可以根据聚合函数对交互特征进行逐层聚合,得到高维特征向量。
步骤S104,根据高维特征向量,对业务账户进行筛选,得到目标账户。
在本实施例中,还需要根据高维特征向量,对业务账户进行筛选,得到目标账户,其中,目标账户为与标注账户的整体相似度大于第一预设阈值,或与普通账户的整体差异度大于第二预设阈值的业务账户。具体地,在进行社群挖掘时,需要挖掘的目标账户主要分为两类,一类是与标注账户高度相似的业务账户,另一类是与普通账户差异很大的业务账户,因此,可以根据高维特征向量,计算业务账户与标注账户的整体相似度,若整体相似度大于第一预设阈值,则将该业务账户确定为目标账户;还可以根据高维特征向量,计算业务账户与普通账户的整体差异度,若整体差异度大于第二预设阈值,则将该业务账户确定为目标账户,其中,第一预设阈值和第二预设阈值可以根据实际情况自行设定,且第一预设阈值与第二预设阈值可以相同也可以不同。
步骤S105,根据层次聚类算法和目标账户,生成针对业务账户的社群挖掘结果。
在本实施例中,筛选得到目标账户之后,可以将目标账户对应的高维特征向量输入至层次聚类算法中进行聚类,并根据聚类结果生成针对业务账户的社群挖掘结果。具体地,层次聚类算法的聚类结果可以通过聚类二叉树的形式显示,聚类二叉树的每一层都可作为社群挖掘结果,因此,可以根据实际情况对聚类二叉树进行截断,从而得到节点数量较为合理的社群挖掘结果。
在本公开第一实施例中,基于图神经网络,对业务账户对应的自身账户特征、邻居账户特征和交互流向特征进行聚合,得到业务账户对应的高维特征向量,高维特征向量可以更好地表征账户的各个维度特征,后续利用高维特征向量,可以筛选出更加准确的目标账户,而且基于层次聚类算法,对目标账户进行聚类,可以避免出现包含冗余节点的特大社群,进一步提高社群挖掘的准确率,另外,本申请的方法可以自动进行社群挖掘,减少了人力和资源的消耗。
在本公开第二实施例中,步骤S102主要包括:
构建多条交互数据对应的网络拓扑图,网络拓扑图的节点为业务账户,网络拓扑图的边表示业务账户之间的交互信息;根据网络拓扑图,提取业务账户对应的自身账户特征、邻居账户特征和交互流向特征。
在本实施例中,需要提取业务账户对应的交互特征,首先可以构建多条交互数据对应的网络拓扑图,网络拓扑图的节点为业务账户,网络拓扑图的边表示业务账户之间的交互信息,然后根据网络拓扑图,提取业务账户对应的自身账户特征、邻居账户特征和交互流向特征。
图2示出了本公开第二实施例的网络拓扑图的结构示意图,如图2所示,其中,节点A、B、C、D、E、F、G分别对应一个业务账户,每个业务账户的邻居账户可以为与其一度关联的业务账户,即网络拓扑图中与其直接相连的业务账户,以业务账户A为例,其邻居账户可以为业务账户B、业务账户C和业务账户D,在实际应用过程中,若业务账户对应的一度关联账户较多,还可以根据预设采样比例对该业务账户的一度关联账户进行采样,例如设置预设采样比例为0.4,对业务账户A对应的一度关联账户进行采样得到业务账户B,则可将业务账户B作为业务账户A的邻居账户;业务账户A与其邻居账户B之间的边a具有边属性,该边属性记录有业务账户A与业务账户B之间的所有交互信息,在金融领域中,边a的边属性记录的交互信息可以包括业务账户A与业务账户B之间的转账时间序列和转账金额序列等;在互联网领域中,边a的边属性记录的交互信息可以包括业务账户A与业务账户B之间的消息时间序列和消息标识序列等。由此可见,在构建好多条交互数据对应的网络拓扑图之后,可以根据网络拓扑图确定业务账户的邻居账户,从而提取到业务账户的邻居账户特征,并且可以提取业务账户与其邻居账户之间的边属性作为业务账户的交互流向特征。
图3示出了本公开第三实施例的一种社群挖掘方法的流程示意图,如图3所示,步骤S103主要包括:
步骤S201,对邻居账户特征进行均值聚合,得到业务账户对应的聚合邻居账户特征。
在本实施例中,首先可以对业务账户对应的所有邻居账户特征进行聚合,从而得到业务账户对应的聚合邻居账户特征。具体地,业务账户对应的各个邻居账户特征中的特征数据多为数值型数据,以金融领域为例,邻居账户特征可以包括邻居账户的入账总次数、出账总次数、入账总金额、出账总金额等;以互联网领域为例,邻居账户特征可以包括邻居账户的接收消息总次数、发送消息总次数、接收消息中消息形式的种类数、发送消息中消息形式的种类数等,因此,可以对邻居账户特征进行均值聚合,从而得到业务账户对应的聚合邻居账户特征。
在一可实施方式中,可以根据如下公式对邻居账户特征进行均值聚合:,其中,为聚合邻居特征,分别为业务账户的多个邻居账户特征,表示对多个邻居账户特征求均值。
步骤S202,根据长短期记忆神经网络,对交互流向特征进行聚合,得到业务账户对应的聚合交互流向特征。
在本实施例中,还需要根据长短期记忆神经网络(LSTM,Long Short-TermMemory),对交互流向特征进行聚合,得到业务账户对应的聚合交互流向特征。具体地,业务账户的交互流向特征表征业务账户与其邻居账户之间随时间变化的属性,以金融领域为例,交互流向特征可以为业务账户与其邻居账户之间的转账时间序列和转账金额序列等;以互联网领域为例,交互流向特征可以为业务账户与其邻居账户之间的消息标识序列和消息时间序列等,因此,为了学习交互流向特征随时间变化的特征,需要根据LSTM网络对交互流向特征进行聚合。
在一可实施方式中,可以根据如下公式对交互流向特征进行聚合:,其中,为业务账户对应的聚合交互流向特征,分别为业务账户对应的多个交互流向特征,表示利用LSTM网络对多个交互流向特征进行特征提取。
步骤S203,对自身账户特征、聚合邻居账户特征和聚合交互流向特征进行拼接,得到业务账户对应的拼接特征。
步骤S204,根据图神经网络,对拼接特征进行特征向量提取,得到业务账户对应的高维特征向量。
在本实施例中,可以对自身账户特征、聚合邻居账户特征和聚合交互流向特征进行拼接,得到业务账户对应的拼接特征,然后根据图神经网络,对拼接特征进行特征向量提取,得到业务账户对应的高维特征向量。
在一可实施方式中,可以根据如下公式对自身账户特征、聚合邻居账户特征和聚合交互流向特征进行拼接:
,其中,表示业务账户对应的拼接特征,表示业务账户的自身账户特征,表示业务账户的聚合邻居账户特征,表示业务账户的聚合交互流向特征,表示对自身账户特征、聚合邻居账户特征和聚合交互流向特征进行拼接。
在一可实施方式中,可以根据如下公式对拼接特征进行特征向量提取:,其中,表示业务账户对应的高维特征向量,表示激活函数,激活函数可以为sigmoid、Relu等,为图神经网络需要学习的参数矩阵,表示业务账户对应的拼接特征。
在本公开第三实施例中,首先对邻居账户特征进行均值聚合,得到业务账户对应的聚合邻居账户特征,然后根据长短期记忆神经网络,对交互流向特征进行聚合,得到业务账户对应的聚合交互流向特征,可以更好地学习交互流向特征随时间变化的特点,最后对自身账户特征、聚合邻居账户特征和聚合交互流向特征进行拼接,得到业务账户对应的拼接特征,并根据图神经网络,对拼接特征进行特征向量提取,得到业务账户对应的高维特征向量,高维特征向量可以更好地表征业务账户的自身属性以及其关联关系等多个维度的特点,后续根据高维特征向量对业务账户进行筛选,可以得到更加准确的目标账户。
图4示出了本公开第四实施例的一种社群挖掘方法的流程示意图,如图4所示,步骤S104主要包括:
步骤S301,根据高维特征向量,计算业务账户与标注账户的整体相似度。
在本实施例中,首先需要根据高维特征向量,计算业务账户与标注账户的整体相似度,整体相似度表征业务账户与所有标注账户的相似度。
在一可实施方式中,首先可以计算业务账户对应的高维特征向量与所有标注账户对应的高维特征向量的相似度,得到第一计算结果,然后统计大于第三预设阈值的第一计算结果的数量,得到第一统计结果,最后根据第一统计结果和标注账户的数量,计算整体相似度。具体地,可以根据余弦相似度公式和基于欧氏距离的相似度公式等,计算业务账户对应的高维特征向量与所有标注账户对应的高维特征向量的相似度;第三预设阈值可以根据实际情况进行设定。
在一可实施方式中,可以根据如下公式计算整体相似度:,其中,表示整体相似度,表示第一统计结果,表示标注账户的数量。
步骤S302,根据高维特征向量,计算业务账户与普通账户的整体差异度。
在本实施例中,还需要根据高维特征向量,计算业务账户与普通账户的整体差异度,整体差异度表征业务账户与所有普通账户的差异度。
在一可实施方式中,首先可以计算业务账户对应的高维特征向量与所有普通账户对应的高维特征向量的相似度,得到第二计算结果,然后统计小于第四预设阈值的第二计算结果的数量,得到第二统计结果,最后根据第二统计结果和普通账户的数量,计算整体差异度。具体地,可以根据余弦相似度公式和基于欧氏距离的相似度公式等,计算业务账户对应的高维特征向量与所有普通账户对应的高维特征向量的相似度;第四预设阈值可以根据实际情况进行设定,第四预设阈值与第三预设阈值可以相同也可以不同。
在一可实施方式中,可以根据如下公式计算整体差异度:,其中,表示整体差异度,表示第二统计结果,表示普通账户的数量。
步骤S303,根据整体相似度和整体差异度,对业务账户进行筛选,得到目标账户。
在本实施例中,计算得到整体相似度和整体差异度之后,可以筛选出与标注账户的整体相似度大于第一预设阈值,或与普通账户的整体差异度大于第二预设阈值的业务账户,并将筛选出的业务账户作为目标账户。
在本公开第四实施例中,根据业务账户与标注账户的整体相似度以及业务账户与普通账户的整体差异度,对业务账户进行筛选,可以更加全面的筛选出目标账户。
在本公开第五实施例中,步骤S105主要包括:
根据层次聚类算法,对目标账户对应的高维特征向量进行聚类,得到聚类结果;根据聚类结果,生成针对业务账户的社群挖掘结果。
在本实施例中,可以将目标账户对应的高维特征向量输入至层次聚类算法中,对目标账户进行聚类,得到聚类结果,并根据聚类结果,生成针对业务账户的社群挖掘结果。具体地,聚类结果可以通过聚类二叉树的形式显示,聚类二叉树的每一层都可作为社群挖掘结果,因此,可以根据实际情况对聚类二叉树进行截断,从而得到节点数量较为合理的社群挖掘结果。
图5示出了本公开第五实施例的聚类二叉树的结构示意图,如图5所示,其中,H、I、J、K、L、M、N分别对应目标账户,若从图5中虚线b处对该聚类二叉树进行截断,则得到的社群挖掘结果包括:由目标账户H和目标账户I组成的第一社群、由目标账户J和目标账户K组成的第二社群、由目标账户L和目标账户M组成的第三社群、由目标账户N组成的第四社群。具体地,由于虚线b的高度可以决定社群中目标账户的数量,因此,在实际应用过程中,可以根据实际情况确定虚线b的位置,从而保证得到目标账户数量较为合理的社群挖掘结果。
在本公开第五实施例中,基于层次聚类算法,对目标账户进行聚类,可以避免出现包含冗余节点的特大社群,进一步提高社群挖掘的准确率
图6示出了本公开第六实施例的一种社群挖掘装置的结构示意图,如图6所示,该装置主要包括:
获取模块10,用于获取多条交互数据,交互数据用于记录业务账户之间的交互行为,业务账户包括普通账户和标注账户;提取模块11,用于根据多条交互数据,提取业务账户对应的交互特征,交互特征包括自身账户特征、邻居账户特征和交互流向特征;聚合模块12,用于根据图神经网络,对交互特征进行特征聚合,得到业务账户对应的高维特征向量;筛选模块13,用于根据高维特征向量,对业务账户进行筛选,得到目标账户,目标账户为与标注账户的整体相似度大于第一预设阈值,或与普通账户的整体差异度大于第二预设阈值的业务账户;生成模块14,用于根据层次聚类算法和目标账户,生成针对业务账户的社群挖掘结果。
在一可实施方式中,提取模块11包括:构建子模块,用于构建多条交互数据对应的网络拓扑图,网络拓扑图的节点为业务账户,网络拓扑图的边表示业务账户之间的交互信息;提取子模块,用于根据网络拓扑图,提取业务账户对应的自身账户特征、邻居账户特征和交互流向特征。
在一可实施方式中,聚合模块12包括:第一聚合子模块,用于对邻居账户特征进行均值聚合,得到业务账户对应的聚合邻居账户特征;第二聚合子模块,用于根据长短期记忆神经网络,对交互流向特征进行聚合,得到业务账户对应的聚合交互流向特征;拼接子模块,用于对自身账户特征、聚合邻居账户特征和聚合交互流向特征进行拼接,得到业务账户对应的拼接特征;向量提取子模块,用于根据图神经网络,对拼接特征进行特征向量提取,得到业务账户对应的高维特征向量。
在一可实施方式中,筛选模块13包括:第一计算子模块,用于根据高维特征向量,计算业务账户与标注账户的整体相似度;第二计算子模块,用于根据高维特征向量,计算业务账户与普通账户的整体差异度;筛选子模块,用于根据整体相似度和整体差异度,对业务账户进行筛选,得到目标账户。
在一可实施方式中,第一计算子模块包括:第一计算单元,用于计算业务账户对应的高维特征向量与所有标注账户对应的高维特征向量的相似度,得到第一计算结果;第一统计单元,用于统计大于第三预设阈值的第一计算结果的数量,得到第一统计结果;第二计算单元,用于根据第一统计结果和标注账户的数量,计算整体相似度。
在一可实施方式中,第二计算子模块包括:第三计算单元,用于计算业务账户对应的高维特征向量与所有普通账户对应的高维特征向量的相似度,得到第二计算结果;第二统计单元,用于统计小于第四预设阈值的第二计算结果的数量,得到第二统计结果;第四计算单元,用于根据第二统计结果和普通账户的数量,计算整体差异度。
在一可实施方式中,生成模块14包括:聚类子模块,用于根据层次聚类算法,对目标账户对应的高维特征向量进行聚类,得到聚类结果;生成子模块,用于根据聚类结果,生成针对业务账户的社群挖掘结果。
根据本公开的实施例,本公开还提供了一种电子设备和一种可读存储介质。
图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如一种社群挖掘方法。例如,在一些实施例中,一种社群挖掘方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的一种社群挖掘方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行一种社群挖掘方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本公开的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
以上所述,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种社群挖掘方法,其特征在于,所述方法包括:
获取多条交互数据,所述交互数据用于记录业务账户之间的交互行为,所述业务账户包括普通账户和标注账户;
根据多条所述交互数据,提取所述业务账户对应的交互特征,所述交互特征包括自身账户特征、邻居账户特征和交互流向特征;
根据图神经网络,对所述交互特征进行特征聚合,得到所述业务账户对应的高维特征向量;
根据所述高维特征向量,对所述业务账户进行筛选,得到目标账户,所述目标账户为与所述标注账户的整体相似度大于第一预设阈值,或与所述普通账户的整体差异度大于第二预设阈值的业务账户;
根据层次聚类算法和所述目标账户,生成针对所述业务账户的社群挖掘结果。
2.根据权利要求1所述的方法,其特征在于,所述根据多条所述交互数据,提取所述业务账户对应的交互特征,包括:
构建多条所述交互数据对应的网络拓扑图,所述网络拓扑图的节点为所述业务账户,所述网络拓扑图的边表示业务账户之间的交互信息;
根据所述网络拓扑图,提取所述业务账户对应的自身账户特征、邻居账户特征和交互流向特征。
3.根据权利要求1所述的方法,其特征在于,所述根据图神经网络,对所述交互特征进行特征聚合,得到所述业务账户对应的高维特征向量,包括:
对所述邻居账户特征进行均值聚合,得到所述业务账户对应的聚合邻居账户特征;
根据长短期记忆神经网络,对所述交互流向特征进行聚合,得到所述业务账户对应的聚合交互流向特征;
对所述自身账户特征、所述聚合邻居账户特征和所述聚合交互流向特征进行拼接,得到所述业务账户对应的拼接特征;
根据所述图神经网络,对所述拼接特征进行特征向量提取,得到所述业务账户对应的高维特征向量。
4.根据权利要求1所述的方法,其特征在于,所述根据所述高维特征向量,对所述业务账户进行筛选,得到目标账户,包括:
根据所述高维特征向量,计算所述业务账户与所述标注账户的整体相似度;
根据所述高维特征向量,计算所述业务账户与所述普通账户的整体差异度;
根据所述整体相似度和所述整体差异度,对所述业务账户进行筛选,得到所述目标账户。
5.根据权利要求4所述的方法,其特征在于,所述根据所述高维特征向量,计算所述业务账户与所述标注账户的整体相似度,包括:
计算所述业务账户对应的高维特征向量与所有所述标注账户对应的高维特征向量的相似度,得到第一计算结果;
统计大于第三预设阈值的第一计算结果的数量,得到第一统计结果;
根据所述第一统计结果和所述标注账户的数量,计算所述整体相似度。
6.根据权利要求4所述的方法,其特征在于,所述根据所述高维特征向量,计算所述业务账户与所述普通账户的整体差异度,包括:
计算所述业务账户对应的高维特征向量与所有所述普通账户对应的高维特征向量的相似度,得到第二计算结果;
统计小于第四预设阈值的第二计算结果的数量,得到第二统计结果;
根据所述第二统计结果和所述普通账户的数量,计算所述整体差异度。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述根据层次聚类算法和所述目标账户,生成针对所述业务账户的社群挖掘结果,包括:
根据所述层次聚类算法,对所述目标账户对应的高维特征向量进行聚类,得到聚类结果;
根据所述聚类结果,生成针对所述业务账户的社群挖掘结果。
8.一种社群挖掘装置,其特征在于,所述装置包括:
获取模块,用于获取多条交互数据,所述交互数据用于记录业务账户之间的交互行为,所述业务账户包括普通账户和标注账户;
提取模块,用于根据多条所述交互数据,提取所述业务账户对应的交互特征,所述交互特征包括自身账户特征、邻居账户特征和交互流向特征;
聚合模块,用于根据图神经网络,对所述交互特征进行特征聚合,得到所述业务账户对应的高维特征向量;
筛选模块,用于根据所述高维特征向量,对所述业务账户进行筛选,得到目标账户,所述目标账户为与所述标注账户的整体相似度大于第一预设阈值,或与所述普通账户的整体差异度大于第二预设阈值的业务账户;
生成模块,用于根据层次聚类算法和所述目标账户,生成针对所述业务账户的社群挖掘结果。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使计算机执行根据权利要求1-7中任一项所述的方法。
CN202310233765.9A 2023-03-03 2023-03-03 一种社群挖掘方法、装置、设备及存储介质 Active CN115964549B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310233765.9A CN115964549B (zh) 2023-03-03 2023-03-03 一种社群挖掘方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310233765.9A CN115964549B (zh) 2023-03-03 2023-03-03 一种社群挖掘方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN115964549A true CN115964549A (zh) 2023-04-14
CN115964549B CN115964549B (zh) 2023-06-06

Family

ID=85888673

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310233765.9A Active CN115964549B (zh) 2023-03-03 2023-03-03 一种社群挖掘方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115964549B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170105869A (ko) * 2016-03-10 2017-09-20 이덕구 통합시산표를 이용한 회계처리방법 및 회계처리시스템
CN113641906A (zh) * 2021-08-16 2021-11-12 公安部第三研究所 基于资金交易关系数据实现相似目标人员识别处理的系统、方法、装置、处理器及其介质
CN113689218A (zh) * 2021-08-06 2021-11-23 上海浦东发展银行股份有限公司 风险账户的识别方法、装置、计算机设备和存储介质
CN114741433A (zh) * 2022-06-09 2022-07-12 北京芯盾时代科技有限公司 一种社群挖掘方法、装置、设备及存储介质
CN115049397A (zh) * 2021-03-09 2022-09-13 腾讯科技(深圳)有限公司 识别社交网络中的风险账户的方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170105869A (ko) * 2016-03-10 2017-09-20 이덕구 통합시산표를 이용한 회계처리방법 및 회계처리시스템
CN115049397A (zh) * 2021-03-09 2022-09-13 腾讯科技(深圳)有限公司 识别社交网络中的风险账户的方法及装置
CN113689218A (zh) * 2021-08-06 2021-11-23 上海浦东发展银行股份有限公司 风险账户的识别方法、装置、计算机设备和存储介质
CN113641906A (zh) * 2021-08-16 2021-11-12 公安部第三研究所 基于资金交易关系数据实现相似目标人员识别处理的系统、方法、装置、处理器及其介质
CN114741433A (zh) * 2022-06-09 2022-07-12 北京芯盾时代科技有限公司 一种社群挖掘方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN115964549B (zh) 2023-06-06

Similar Documents

Publication Publication Date Title
CN112148987B (zh) 基于目标对象活跃度的消息推送方法及相关设备
CN113360580B (zh) 基于知识图谱的异常事件检测方法、装置、设备及介质
CN115293332A (zh) 一种图神经网络的训练方法、装置、设备及存储介质
CN115358392A (zh) 深度学习网络的训练方法、文本检测方法及装置
CN115632874A (zh) 一种实体对象的威胁检测方法、装置、设备及存储介质
CN114090601B (zh) 一种数据筛选方法、装置、设备以及存储介质
CN113326173B (zh) 一种告警消息的处理方法、装置及设备
WO2019095569A1 (zh) 基于微博财经事件的金融分析方法、应用服务器及计算机可读存储介质
CN113592293A (zh) 风险识别处理方法、电子设备及计算机可读存储介质
CN106779899B (zh) 恶意订单识别方法及装置
CN114741433B (zh) 一种社群挖掘方法、装置、设备及存储介质
CN116955856A (zh) 信息展示方法、装置、电子设备以及存储介质
CN115964549B (zh) 一种社群挖掘方法、装置、设备及存储介质
CN113850072A (zh) 文本情感分析方法、情感分析模型训练方法、装置、设备及介质
CN114021642A (zh) 数据处理方法、装置、电子设备和存储介质
CN114547448B (zh) 数据处理、模型训练方法、装置、设备、存储介质及程序
CN116051287B (zh) 一种数据的分析方法、装置、电子设备及存储介质
CN113255710B (zh) 手机号码分类方法、装置、设备及存储介质
CN117668833A (zh) 异常操作识别方法、装置、电子设备以及存储介质
CN117495525A (zh) 数据处理方法、装置、设备、存储介质及程序产品
CN114862592A (zh) 图节点类别获取的方法、装置及电子设备
CN116629992A (zh) 操作风险识别方法、模型的训练方法、装置、设备及介质
CN113221034A (zh) 数据泛化方法、装置、电子设备和存储介质
CN115439214A (zh) 信用描述文本生成方法、装置、电子设备及存储介质
CN114565402A (zh) 信息推荐方法、装置以及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant