CN110033031B - 群组检测方法、装置、计算设备和机器可读存储介质 - Google Patents

群组检测方法、装置、计算设备和机器可读存储介质 Download PDF

Info

Publication number
CN110033031B
CN110033031B CN201910237978.2A CN201910237978A CN110033031B CN 110033031 B CN110033031 B CN 110033031B CN 201910237978 A CN201910237978 A CN 201910237978A CN 110033031 B CN110033031 B CN 110033031B
Authority
CN
China
Prior art keywords
group
current
current target
user
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910237978.2A
Other languages
English (en)
Other versions
CN110033031A (zh
Inventor
苗加成
章鹏
向彪
严欢
杨程远
苏煜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Advanced New Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced New Technologies Co Ltd filed Critical Advanced New Technologies Co Ltd
Priority to CN201910237978.2A priority Critical patent/CN110033031B/zh
Publication of CN110033031A publication Critical patent/CN110033031A/zh
Application granted granted Critical
Publication of CN110033031B publication Critical patent/CN110033031B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了用于群组检测的方法,包括:接收当前原始用户数据;基于所述当前原始用户数据,确定当前目标样本;基于所述当前目标样本,提取用户特征;分别采用多种群组划分算法,基于所述用户特征来对与所述当前目标样本相关联的用户进行群组划分,以得到分别与所述多种群组划分算法对应的多个群组划分结果;将所述多个群组划分结果进行融合,以得到单一群组划分结果,其中,所述单一群组划分结果包括对与所述当前目标样本相关联的用户划分得到的n个当前目标群组。可见,本发明实施例中的多种群组划分算法能够覆盖更加多样的群组模式,使得最终得到的群组划分结果更为准确,从而能够更好地适应复杂大数据场景。

Description

群组检测方法、装置、计算设备和机器可读存储介质
技术领域
本发明涉及机器学习领域,具体地,本发明涉及用于群组检测的方法、装置、计算设备和机器可读存储介质。
背景技术
群组检测通常是指从大量用户中识别若干组模式相同或相似的用户,也就是将这些用户划分为若干群组,每个群组中的用户应当具有相同或相似的模式。实际应用中,群组模式非常多样,而现有的群组检测方法通常仅覆盖有限的群组模式,在复杂大数据场景下难以取得理想的群组检测效果。
发明内容
考虑到现有技术的上述问题,本发明的实施例提供了用于群组检测的方法、装置、计算设备和机器可读存储介质。
一方面,本发明实施例提供了一种用于群组检测的方法,包括:接收当前原始用户数据;基于所述当前原始用户数据,确定当前目标样本;基于所述当前目标样本,提取用户特征;分别采用多种群组划分算法,基于所述用户特征来对与所述当前目标样本相关联的用户进行群组划分,以得到分别与所述多种群组划分算法对应的多个群组划分结果;将所述多个群组划分结果进行融合,以得到单一群组划分结果,其中,所述单一群组划分结果包括对与所述当前目标样本相关联的用户划分得到的n个当前目标群组,n为正整数。
另一方面,本发明实施例提供了一种用于群组检测的装置,包括:接收单元,用于接收当前原始用户数据;样本确定单元,用于基于所述当前原始用户数据,确定当前目标样本;提取单元,用于基于所述当前目标样本,提取用户特征;划分单元,用于分别采用多种群组划分算法,基于所述用户特征来对与所述当前目标样本相关联的用户进行群组划分,以得到分别与所述多种群组划分算法对应的多个群组划分结果;融合单元,用于将所述多个群组划分结果进行融合,以得到单一群组划分结果,其中,所述单一群组划分结果包括对与所述当前目标样本相关联的用户划分得到的n个当前目标群组,n为正整数。
另一方面,本发明实施例提供了一种计算设备,包括:至少一个处理器;与所述至少一个处理器进行通信的存储器,其上存储有可执行指令,所述可执行指令在被所述至少一个处理器执行时使得所述至少一个处理器实现上述方法。
另一方面,本发明实施例提供了一种机器可读存储介质,其存储有可执行指令,所述可执行指令在被机器执行时使得所述机器实现上述方法。
在本发明实施例中,采用多种群组划分算法对当前目前样本相关联的用户进行群组划分,从而得到多个群组划分结果,进而将多个群组划分结果进行融合来得到单一群组划分结果。可见,本发明实施例中的多种群组划分算法能够覆盖更加多样的群组模式,使得最终得到的群组划分结果更为准确,从而能够更好地适应复杂大数据场景。
附图说明
下文将以明确易懂的方式,通过对优选实施例的说明并结合附图来对本发明上述特性、技术特征、优点及其实现方式予以进一步说明,其中:
图1是根据本发明实施例的用于群组检测的方法的示意性流程图。
图2是根据本发明实施例的用于群组检测的方法的示意性流程图。
图3是根据本发明实施例的用于群组检测的装置的示意性框图。
图4是根据本发明实施例的用于群组检测的计算设备的硬件结构图。
具体实施方式
现在将参考示例实施方式讨论本文描述的主题。应当理解的是,讨论这些实施方式仅是为了使得本领域技术人员能够更好地理解并且由此实现本文描述的主题,并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本发明的保护范围的情况下,对所讨论的元素的功能和排列进行改变。各个示例可以根据需要,省略、替代或者添加各种过程或组件。例如,所描述的方法可以按照与所描述的顺序不同的顺序来执行,以及可以添加、省略或者组合各个步骤。
群组检测是指从大量用户中识别若干群组,每个群组中的用户具有相同或相似的模式。目前,通常是针对给定数据集,通过某种算法对该数据集进行处理,从而将相关联的用户分为若干群组,然后输出划分结果。虽然这样的方式实现简单,但是在实际应用中,群组模式通常是复杂多样的,而单一算法覆盖的群组模式非常有限,所以导致群组划分效果不理想。
对此,本发明实施例提供了一种用于群组检测的技术方案。本发明实施例的技术方案可以应用于推荐、营销、安全等各个领域。
下面将结合具体实施例来描述该技术方案。
图1是根据本发明实施例的用于群组检测的方法的示意性流程图。
如图1所示,在步骤110中,接收当前原始用户数据。
在步骤120中,基于当前原始用户数据,确定当前目标样本。
在步骤130中,基于当前目标样本,提取用户特征。
在步骤140中,分别采用多种群组划分算法,基于用户特征来对与当前目标样本相关联的用户进行群组划分,以得到分别与多种群组划分算法对应的多个群组划分结果。
在步骤150中,将多个群组划分结果进行融合,以得到单一群组划分结果。单一群组划分结果可以包括对与当前目标样本相关联的用户划分得到的n个当前目标群组,n为正整数。
在本发明实施例中,采用多种群组划分算法对当前目前样本相关联的用户进行群组划分,从而得到多个群组划分结果,进而将多个群组划分结果进行融合来得到单一群组划分结果。可见,与单一算法相比,多种群组划分算法能够覆盖更加多样的群组模式,使得最终得到的群组划分结果更为准确,从而能够更好地适应复杂大数据场景。
在本发明实施例中,原始用户数据可以是在用户粒度上所收集的信息,比如,用户属性数据、用户行为数据等等。例如,原始用户数据可以在某个预定长度的时间段内收集的。
在基于原始用户数据选择目标样本之后,可以从目标样本中提取用户特征。例如,可以基于应用场景、常见的群组模式、涉及的相关数据和变量,来提取用户特征。比如,根据具体应用场景,用户特征可以分为若干类。比如,在金融安全领域中,用户特征可以包括用户基本属性特征、用户行为特征、用户风险特征等等。
可以理解的是,多种群组划分算法可以包括两种或更多种群组划分算法。本发明实施例对于算法的数量并不作限定。初始地(比如在首次进行群组检测时),多种群组划分算法以及算法的数量可以结合应用场景来确定。例如,可以分别评估各种可用的群组划分算法的性能,从这些算法中选择满足某个预定条件的算法。算法的数量可以根据实际需求来确定。
每种群组划分算法可以独立地对与当前目标样本相关联的用户进行群组划分,得到相应的群组划分结果,其在本文中也可以称为基础群组划分结果。基础群组划分结果可以包括互不相交的至少一个群组。
在一个实施例中,多种群组划分算法之间的区别可以包括以下至少一个方面:算法原理、算法参数、目标样本采样方式。例如,目标样本采样方式可以包括一次全部采样或多次部分随机采样。例如,算法原理可以包括基于谱聚类的算法、基于统计推断的算法、基于最优化图分割的算法等等本领域中各种适用的算法原理。
可见,通过在算法原理、算法参数、目标样本采样方式等方面进行区分,能够产生覆盖更加多样的群组模式的多种群组划分算法,从而能够有效地适应复杂大数据场景。
例如,多种群组划分算法可以是通过以下方式来产生的:
(1)多种群组划分算法可以基于相同的算法原理,但是各种群组划分算法分别采用不同的算法参数。比如,假设有5种群组划分算法,它们都是基于相同的算法原理,在该算法原理中,存在参数A。假设参数A的取值范围可以为0-100,可以等间隔的取[20,40,60,80,100]5个值,每种算法可以使用其中一个值。可以理解的是,各种群组划分算法采用的算法参数可以根据实际应用场景或者经验等来设定。
(2)多种群组划分算法可以基于相同的算法原理和参数,但是每种群组划分算法独立地对当前目标样本进行多次部分随机有放回采样。在这种情况下,各种群组划分算法之间的区别在于选取的样本不同。比如,某种群组划分算法可以对当前目标样本进行6次随机采样,每次选择2/3的当前目标样本,然后利用部分样本的群组划分结果来对整个当前目标样本进行预测,得到基础群组划分结果。
(3)多种群组划分算法可以分别基于不同的算法原理。
(4)在算法原理、算法参数或样本采样方式中的任一方面或多个方面进行变化,来产生多种群组划分算法。
在一个实施例中,在步骤150中,可以通过多种方式将多个群组划分结果进行融合,得到单一群组划分结果。例如,可以采用多种现有的融合算法来进行结果融合。比如,这些融合算法可以包括基于特征的融合算法、基于样本相似性矩阵的融合算法、基于cluster相似矩阵的融合算法、基于样本-cluster二步图的融合算法等等。本发明实施例对此不作限定。
在另一实施例中,针对上述n个当前目标群组,可以确定其各自的评价指标信息。群组评价指标可以根据具体的应用场景来预先设定。比如,群组评价指标可以包括紧密程度、群组模块度、群组用户数、群组已知黑用户、群组涉及的金额等各种指标。
可以基于评价指标信息,从n个当前目标群组中选择至少一个当前目标群组,然后确定所选择的至少一个当前目标群组的打标结果。
在一些场景中,可以对所有n个当前目标群组进行打标。
在一些场景中,可能并不是对所有n个当前目标群组都感兴趣,或者并不是所有n个当前目标群组都与该场景有着强关联性。那么,可以基于评价指标信息从n个当前目标群组中选择至少一个当前目标群组,然后对这至少一个当前目标群组进行打标。例如,可以基于某个感兴趣的评价指标对n个当前目标群组进行排序。然后,可以选取前k个当前目标群组进行打标。
可以通过如下的操作来得到打标结果:为具有相同模式的用户分配相同的标签,而对于与任何其它用户都不具有相同模式的用户,不分配标签。此处所说的模式可以根据实际应用场景来设定,比如该模式可以是指用户行为模式、用户属性模式等等。该打标过程也可以称为“在线打标”。
为了便于理解,此处举个例子。应当理解的是,此处的例子并不对本发明实施例的范围造成任何限制。
假设存在2个当前目标群组,此处称为群组A和群组B。群组A可以包括5个用户,群组B可以包括5个用户。在该例子中,假设群组A中的用户2和用户3以及群组B中的用户1至用户5都具有相同的模式,为了便于描述,此处将该模式称为模式1。那么,可以为他们分配相同的标签“group1”。
假设群组A中的用户4和用户5具有相同的模式,为了便于描述,此处将该模式称为模式2,其中模式2不同于模式1。那么,可以为群组A中的用户4和用户5分配相同的标签“group2”。
假设群组A中的用户1与其它用户都不具有相同的模式,则可以不为其分配标签(即可以为空)。
这样,群组A的打标结果可以如下:
用户1:空;
用户2和用户3:group1
用户4和用户5:group2。
群组B的打标结果可以如下:
用户1至用户5:group1。
在一个实施例中,可以建立数据库,该数据库可以用于表示标签与模式之间的映射关系。这样,在为相同模式的用户分配标签时,可以在该数据库中查找先前是否已经存在与这种模式相对应的标签,如果存在的话,可以将已有标签分配给用户。如果不存在的话,可以说明这是一种新模式,则可以分配新标签,然后可以将该新标签以及该新标签与新模式的映射关系存储到该数据库中。
此外,还可以对n个当前目标群组划分的性能进行评价。例如,性能评价指标可以包括:Adjusted Rand index(调整兰德指数)、Normalized Mutual Information(归一化互信息)、Adjusted Mutual Information(调整互信息)、Fowlkes-Mallows scores(Fowlkes-Mallows分数)等。性能评价结果可以用于辅助评价群组划分算法的性能。
如前所述,传统群组检测方法仅关注单次群组划分和性能评估,也就是说这种方法实际上是静态的,群组检测结果仅能覆盖一定时间段内的样本。然而,在实际应用中,数据通常是动态的,即随着时间持续产生,这导致群组模式也是动态变化的,而固定的传统群组检测方法无法适应这种动态变化的场景。
为此,在本发明实施例的技术方案中,引入了反馈机制,使得能够更好地适应复杂大规模数据动态变化的场景。
为了便于说明,在本发明实施例中,可以将上面描述的针对当前原始用户数据的一系列处理过程称为本次群组检测。
在一个实施例中,可以将每次群组检测的打标结果反馈到下一次群组检测中,这样可以结合每次群组检测的打标结果来确定下一次群组检测的目标样本。
从上述可知,虽然通过多种群组划分算法得到的单一群组划分结果已经给出了n个当前目标群组,但是这样的群组划分可能并不是完全符合实际的应用场景。例如,真实具有相同模式的用户可能被划分到了不同的群组中,或者与其它用户都不具有相同模式的用户被划分到了相同的群组中。这样,通过结合在线打标过程,能够不断地调整优化后续的群组检测结果。
例如,对于本次群组检测而言,可以结合上一次群组检测的打标结果来确定当前目标样本。
具体地,可以从当前原始用户数据中选择部分或全部数据作为第一部分目标样本。
可以基于上一次群组检测的打标结果来确定第二部分目标样本。例如,上一次群组检测的打标结果可以包括上一次群组检测得到的m个先前目标群组的打标结果。该打标结果可以是通过以下操作来得到的:为m个先前目标群组中的具有相同模式的用户分配相同的标签,而对于与任何其它用户都不具有相同模式的用户,不分配标签。此处,为了便于描述,将上一次群组检测中使用的目标样本称为先前目标样本,以区别于本次群组检测中的当前目标样本。
基于m个先前目标群组的打标结果,可以从先前目标样本中选择第二部分目标样本。那么,当前目标样本可以包括第一部分目标样本和第二部分目标样本。
通常,群组的模式是多变的,例如,有些群组模式是在短时间内产生的,而有些群组模式是分布在一定的时间窗口内的。该实施例可以更加适用于群组模式分布在一定时间窗口内的场景。在本实施例中,将先前目标样本中的一部分样本用作当前目标样本的一部分,即通过引入历史的打标样本,能够将一定时间窗口内具有相同模式的所有用户聚集在一起,从而能够优化群组检测性能。
在另一实施例中,第一部分目标样本可以是根据具体应用场景,从当前原始用户数据中选取的。或者,第一部分目标样本可以是从当前原始用户数据中随机选取的。
在另一实施例中,第一部分目标样本可以是结合有监督模型来选择的。也就是说,当前目标样本可以是基于有监督模型的分析结果和上一次群组检测的打标结果来确定的。
例如,可以构建能够用于对与原始用户数据相关联的用户进行分配的有监督模型。该有监督模型可以是二分类模型,例如用于区分样本是否是关注的目标样本。比如,在安全领域中,通常关注的是欺诈样本,而非欺诈样本并不是所关注的。所以,构建的有监督模型可以检测某个样本是否是欺诈样本。基于有监督模型的分析结果,可以初步过滤掉非欺诈样本。
可以利用有监督模型对当前原始用户数据进行分析,然后基于分析结果,从当前原始用户数据中选择部分或全部数据作为第一部分目标样本。例如,通过有监督模型对当前原始用户数据的分析结果,可以知道当前原始用户数据中的一部分数据是所关注的,而另一部分数据并不是关注的,则可以将关注的数据提取出来作为第一部分目标样本。
可见,通过结合有监督模型来对当前原始用户数据进行初步分析,并且结合上一次群组检测中的部分样本,来确定当前目标样本,不仅能够选取当前原始用户数据中关注度较高的样本,而且能够将数据的动态变化考虑进来,从而覆盖更加多样的群组模式,有效地使用数据动态变化的场景。
在一个实施例中,可以结合有监督模型来确定当前目标样本。例如,可以利用有监督模型对当前原始用户数据进行分析,然后基于分析结果,从当前原始用户数据中选择部分或全部数据作为当前目标样本。这样,通过利用有监督模型来初步分析原始用户数据,能够优化对目标样本的选取,从而能够提升群组性能。
在另一实施例中,可以在每次群组检测之后,利用目标群组的打标结果来更新有监督模型。例如,本次群组检测所使用的有监督模型可以是基于上一次群组检测的m个先前目标群组的打标结果来更新的。这样,能够不断优化有监督模型,由此能够不断优化对目标样本的选取,从而提升群组性能。
可以理解的是,在首次进行群组检测时,此时还没有上一次群组检测的结果反馈。可以采取多种方式来确定当前目标样本。例如,可以随机地或者根据实际需求从当前原始用户数据中选取部分或全部数据作为当前目标样本。再例如,可以结合初始有监督模型的分析结果,从从当前原始用户数据中选取部分或全部数据作为当前目标样本。
此外,还可以在群组划分算法确定中引入反馈机制。例如,可以基于上一次群组检测中的m个先前目标群组的打标结果,来确定本次群组检测中的多种群组划分算法。
例如,可以基于上一次群组检测的打标结果,调整群组划分算法的算法原理、算法参数或样本采样方式等。比如,可以选择新的算法,或者调整参数的取值范围,或者将一次全部采样改为多次部分随机采样,或者调整部分随机采样的次数或者比例等等。具体对群组划分算法的调整可以基于上一次群组检测的打标结果,结合实际经验来完成。
可见,在本实施例中,通过结合上一次群组检测的结果来调整本次群组检测的多种群组划分算法,能够不断地优化群组划分结果,从而能够稳定或者进一步提升群组性能。
在另一实施例中,可以针对每个当前目标群组,输出该当前目标群组内的各个用户之间的网络关系图,以便直观地呈现给需要使用该群组划分结果的使用方。例如,网络关系图可以包括用户-用户网络图、用户-特征网络图等。这种方式可以称为“图形化展示”。通过图形化展示,使得使用方能够直观地看到群组检测结果,或者将其方便地用于其它应用中。
在另一实施例中,可以输出各个当前目标群组的模式信息。每个当前目标群组模式信息可以指示该当前目标群组的模式。这样,在出现新用户时,可以基于各个当前目标群组的模式信息来确定该新用户所属的群组。例如,可以将新用户的模式与各个当前目标群组的模式进行比对,如果找到模式相同或相似度大于某个条件的群组,则可以确定该新用户属于该群组。如果没有找到,则该新用户为未知模式用户。
在另一实施例中,如果存在在线打标过程,那么通过打标结果,可以确定所存在的p种模式,p为正整数。这样,可以输出p种模式的模式信息,在出现新用户时,可以基于各种模式的模式信息来确定新用户所属的模式,从而来对新用户进行预测。
这种方式也可以称为“在线预测”。通过在线预测,可以实时帮助使用方快速地判断新用户所属的群组或模式,从而更好地进行后续的决策。
从上述描述可以看出,在本发明实施例中,通过并行采用多种群组划分算法并且将各个群组划分结果融合来进行群组检测,能够覆盖更加多样的群组模式。此外,在本发明实施例中,引入了各种反馈机制,例如,通过上一次群组检测结果和有监督模型来动态调整目标样本和群组划分算法,从而能够不断优化群组划分结果,从而能够稳定/提升群组性能。此外,在本发明实施例中,通过群组在线打标、图形化展示、在线预测、打标结果反馈、有监督模型、无监督方式等等协同实现群组检测,从而提供了完整的动态无监督群组检测的通用解决方案。
下面将结合具体例子来详细描述本发明实施例。应当理解的是,以下例子仅是为了帮助本领域技术人员更好地理解本发明实施例,而非限制本发明实施例的范围。
图2是根据本发明实施例的用于群组检测的方法的示意性流程图。
如图2所示,在步骤201中,可以接收原始用户数据。
在步骤202中,可以基于原始用户数据,确定当前目标样本。
如前所述,确定当前目标样本可以采用多种方式来实现。
在一个实施例中,可以随机从原始用户数据中选择部分或全部数据作为当前目标样本。
在另一实施例中,可以从原始用户数据中选择部分或全部数据作为第一部分目标样本,并且可以基于上一次群组检测的打标结果来从上一次群组检测针对的先前目标样本中选择第二部分目标样本。然后,可以将第一部分目标样本和第二部分目标样本作为当前目标样本。例如,在图2中,该方式通过步骤210示出。
在另一实施例中,可以基于有监督模型的分析结果来确定当前目标样本,如步骤211中所示。
在另一实施例中,可以基于有监督模型的分析结果和上一次群组检测的打标结果来确定当前目标样本,如步骤210和211所示。
可以理解的是,在首次进行群组检测时,此时还没有上一次群组检测的结果反馈。可以采取多种方式来确定当前目标样本。例如,可以随机地或者根据实际需求从当前原始用户数据中选取部分或全部数据作为当前目标样本。再例如,可以结合初始有监督模型的分析结果,从当前原始用户数据中选取部分或全部数据作为当前目标样本。
此外,在存在有监督模型的情况下,可以基于每次群组检测的打标结果来更新有监督模型,如步骤213所示。
在步骤203中,可以基于当前目标样本,提取用户特征。
在步骤204中,可以分别采用多种群组划分算法,基于用户特征来对与当前目标样本相关联的用户进行群组划分,以得到分别与多种群组划分算法对应的多个群组划分结果。
例如,如图2中所示,可以采用K种群组划分算法,K为大于1的正整数。K种群组划分算法之间的区别可以包括算法原理、算法参数、目标样本采样方式等一个或多个方面。
在一个实施例中,可以基于上一次群组检测的打标结果,来确定K种群组划分算法,如步骤212所示。例如,可以基于上一次群组检测的打标结果,选择的新的算法、调整参数取值范围、改变采样方式等等。
在步骤205中,可以将K种群组划分算法得到的K个群组划分结果进行融合,得到单一群组划分结果。例如,单一群组划分结果可以包括n个目标群组。
在步骤206中,可以确定n个目标群组的评价指标信息。例如,评价指标可以是与具体的应用场景、业务需求相关联。
在步骤207中,可以对n个目标群组进行打标,得到打标结果。
在步骤208中,可以输出各个目标群组内的用户间的网络关系图。
在步骤209中,可以输出各个目标群组的模式信息,以用于在线预测;或者可以输出通过打标结果得到的各种模式的模式信息,以用于在线预测。
从上述描述可以看出,在本发明实施例中,通过并行采用多种群组划分算法并且将各个群组划分结果融合来进行群组检测,能够覆盖更加多样的群组模式。此外,在本发明实施例中,引入了各种反馈机制,例如,通过上一次群组检测结果和有监督模型来动态调整目标样本和群组划分算法,从而能够不断优化群组划分结果,从而能够稳定/提升群组性能。此外,在本发明实施例中,通过群组在线打标、图形化展示、在线预测、打标结果反馈、有监督模型、无监督方式等等协同实现群组检测,从而提供了完整的动态无监督群组检测的通用解决方案。
图3是根据本发明实施例的用于群组检测的装置的示意性框图。
如图3所示,装置300可以包括接收单元301、样本确定单元302、提取单元303、划分单元304和融合单元305。
接收单元301接收当前原始用户数据。样本确定单元302基于当前原始用户数据,确定当前目标样本。提取单元303基于当前目标样本,提取用户特征。划分单元304分别采用多种群组划分算法,基于用户特征来对与当前目标样本相关联的用户进行群组划分,以得到分别与多种群组划分算法对应的多个群组划分结果。融合单元305将多个群组划分结果进行融合,以得到单一群组划分结果,其中,单一群组划分结果包括对与当前目标样本相关联的用户划分得到的n个当前目标群组,n为正整数。
在本发明实施例中,采用多种群组划分算法对当前目前样本相关联的用户进行群组划分,从而得到多个群组划分结果,进而将多个群组划分结果进行融合来得到单一群组划分结果。可见,多种群组划分算法能够覆盖更加多样的群组模式,使得最终得到的群组划分结果更为准确,从而能够更好地适应复杂大数据场景。
在一个实施例中,多种群组划分算法之间的区别可以包括以下至少一方面:算法原理、算法参数、目标样本采样方式。
在另一实施例中,目标样本采样方式可以包括一次全部采样或者多次部分随机采样。
在另一实施例中,样本确定单元302可以从当前原始用户数据中选择部分或全部数据作为第一部分目标样本。样本确定单元302可以基于本次群组检测之前的上一次群组检测中得到的m个先前目标群组的打标结果,从上一次群组检测所针对的先前目标样本中选择第二部分目标样本。m个先前目标群组的打标结果可以是通过以下操作得到的:为m个先前目标群组中的具有相同模式的用户分配相同的标签,而对于与任何其它用户都不具有相同模式的用户,不分配标签。样本确定单元302可以将第一部分目标样本和第二部分目标样本作为当前目标样本。
在另一实施例中,样本确定单元302可以利用有监督模型对当前原始用户数据进行分析,其中,有监督模型被构建用于对与原始用户数据相关联的用户进行分类。样本确定单元302可以基于分析结果,从当前原始用户数据中选择部分或全部数据作为第一部分目标样本。
在另一实施例中,样本确定单元302可以利用有监督模型对当前原始用户数据进行分析,其中,有监督模型被构建用于对与原始用户数据相关联的用户进行分类。样本确定单元302可以基于分析结果,从当前原始用户数据中选择部分或全部数据作为当前目标样本。
在另一实施例中,装置300还可以包括指标确定单元306和打标单元307。
指标确定单元306可以确定n个当前目标群组各自的评价指标信息。打标单元307可以得到至少一个当前目标群组的打标结果。至少一个当前目标群组可以是基于n个当前目前群组各自的评价指标信息来选择的。至少一个当前目标群组的打标结果可以是通过以下操作来得到的:为至少一个当前目标群组中的具有相同模式的用户分配相同的标签,而对于与任何其它用户都不具有相同模式的用户,不分配标签。
打标结果可以用于在后续群组检测中确定后续目标样本和后续群组划分算法。
此外,在另一实施例中,装置300还可以包括更新单元308。更新单元308可以基于至少一个当前目标群组的打标结果,对有监督模型进行更新。
在另一实施例中,装置300还可以包括算法确定单元309。算法确定单元309可以基于在本次群组检测之前的上一次群组检测中得到的m个先前目标群组的打标结果,确定多种群组划分算法,其中,m个先前目标群组的打标结果可以是通过以下操作得到的:为m个先前目标群组中的具有相同模式的用户分配相同的标签,而对于与任何其它用户都不具有相同模式的用户,不分配标签。
在另一实施例中,装置300还可以包括图形输出单元310。图形输出单元310可以输出n个当前目标群组中的每个当前目标群组内的各个用户之间的网络关系图。
在另一实施例中,装置300还可以包括模式输出单元311。模式输出单元311可以输出n个当前目标群组各自的模式信息,以便在出现新用户时确定新用户所属的群组。或者,模式输出单元311可以基于n个当前目标群组中的至少一个当前目标群组的打标结果,输出通过至少一个当前目标群组的打标结果得到的p种模式的模式信息,以便在出现新用户时确定新用户所属的模式,其中,p为正整数。至少一个当前目标群组的打标结果可以是通过以下操作来得到的:为至少一个当前目标群组中的具有相同模式的用户分配相同的标签,而对于与任何其它用户都不具有相同模式的用户,不分配标签。
装置300的各个单元可以执行图1至2的方法实施例中的相应步骤,因此,为了描述的简洁,装置300的各个单元的具体操作和功能此处不再赘述。
上述装置300可以采用硬件实现,也可以采用软件实现,或者可以通过软硬件的组合来实现。例如,装置300在采用软件实现时,是通过其所在设备的处理器将存储器(比如非易失性存储器)中对应的可执行指令读取到内存中运行形成的。
图4是根据本发明实施例的用于群组检测的计算设备的硬件结构图。如图4所示,计算设备400可以包括至少一个处理器410、存储器420、内存430和通信接口440,并且至少一个处理器410、存储器420、内存430和通信接口440经由总线450连接在一起。至少一个处理器410执行在存储器420中存储或编码的至少一个可执行指令(即,上述以软件形式实现的元素)。
在一个实施例中,在存储器420中存储的可执行指令在被至少一个处理器410执行时,使得计算设备实现以上结合图1-3描述的各种操作和功能。为了描述的简洁,此处不再赘述。
计算设备400可以采用本领域任何适用的形式来实现,例如,其包括但不限于台式计算机、膝上型计算机、智能电话、平板计算机、消费电子设备、可穿戴智能设备等等。
本发明实施例还提供了一种机器可读存储介质。该机器可读存储介质可以存储有可执行指令,可执行指令在被机器执行时使得机器实现上面参照图1至2描述的方法实施例的具体过程。
例如,机器可读存储介质可以包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、电可擦除可编程只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、静态随机存取存储器(Static Random Access Memory,SRAM)、硬盘、闪存等等。
应当理解的是,上述各流程和各装置结构图中不是所有的步骤和单元都是必须的,可以根据实际的需要省略某些步骤或单元。各步骤的执行次序不是固定的,可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构,也可以是逻辑结构,即,一些单元可能由同一物理实体实现,或者,一些单元可能分别由多个物理实体实现,或者,一些单元可以由多个独立设备中的某些组件共同实现。
提供了上述描述,是为了本领域任何技术人员能够实现或者使用本发明实施例。对于本领域普通技术人员来说,对本发明实施例进行的各种修改将是显而易见的,并且可以在不脱离本发明的保护范围的情况下,将本文所定义的一般性原理应用于其它变型。因此,本发明并不限于本文所描述的示例和设计,而是具有与本文公开的原理和新颖特征相一致的最广范围。

Claims (18)

1.一种用于群组检测的方法,包括:
接收当前原始用户数据;
基于所述当前原始用户数据,确定当前目标样本;
基于所述当前目标样本,提取用户特征;
分别采用多种群组划分算法,基于所述用户特征来对与所述当前目标样本相关联的用户进行群组划分,以得到分别与所述多种群组划分算法对应的多个群组划分结果;
将所述多个群组划分结果进行融合,以得到单一群组划分结果,其中,所述单一群组划分结果包括对与所述当前目标样本相关联的用户划分得到的n个当前目标群组,n为正整数,
其中,所述群组检测是本次群组检测,所述基于所述当前原始用户数据确定当前目标样本包括:
从所述当前原始用户数据中选择部分或全部数据作为第一部分目标样本;
基于所述本次群组检测之前的上一次群组检测中得到的m个先前目标群组的打标结果,从所述上一次群组检测所针对的先前目标样本中选择第二部分目标样本,其中,所述m个先前目标群组的打标结果是通过以下操作来得到的:为所述m个先前目标群组中的具有相同模式的用户分配相同的标签,而对于与任何其它用户都不具有相同模式的用户,不分配标签;
将所述第一部分目标样本和所述第二部分目标样本作为所述当前目标样本。
2.根据权利要求1所述的方法,其中,所述多种群组划分算法之间的区别包括以下至少一方面:
算法原理、算法参数、目标样本采样方式。
3.根据权利要求2所述的方法,其中,所述目标样本采样方式包括一次全部采样或者多次部分随机采样。
4.根据权利要求1所述的方法,其中,所述从所述当前原始用户数据中选择部分或全部数据作为第一部分目标样本包括:
利用有监督模型对所述当前原始用户数据进行分析,其中,所述有监督模型被构建用于对与原始用户数据相关联的用户进行分类;
基于分析结果,从所述当前原始用户数据中选择部分或全部数据作为第一部分目标样本。
5.根据权利要求4所述的方法,还包括:
确定所述n个当前目标群组各自的评价指标信息;
得到所述n个当前目标群组中的至少一个当前目标群组的打标结果,其中,所述至少一个当前目标群组是基于所述n个当前目前群组各自的评价指标信息来选择的,所述至少一个当前目标群组的打标结果是通过以下操作来得到的:为所述至少一个当前目标群组中的具有相同模式的用户分配相同的标签,而对于与任何其它用户都不具有相同模式的用户,不分配标签;
基于所述至少一个当前目标群组的打标结果,对所述有监督模型进行更新。
6.根据权利要求1至5中任一项所述的方法,还包括:
基于在所述本次群组检测之前的上一次群组检测中得到的m个先前目标群组的打标结果,确定所述多种群组划分算法,其中,所述m个先前目标群组的打标结果是通过以下操作得到的:为所述m个先前目标群组中的具有相同模式的用户分配相同的标签,而对于与任何其它用户都不具有相同模式的用户,不分配标签。
7.根据权利要求1至5中任一项所述的方法,还包括:
输出所述n个当前目标群组中的每个当前目标群组内的各个用户之间的网络关系图。
8.根据权利要求1至5中任一项所述的方法,还包括:
输出所述n个当前目标群组各自的模式信息,以便在出现新用户时确定所述新用户所属的群组;或者
基于所述n个当前目标群组中的至少一个当前目标群组的打标结果,输出通过所述至少一个当前目标群组的打标结果得到的p种模式的模式信息,以便在出现新用户时确定所述新用户所属的模式,其中,p为正整数,所述至少一个当前目标群组的打标结果是通过以下操作来得到的:为所述至少一个当前目标群组中的具有相同模式的用户分配相同的标签,而对于与任何其它用户都不具有相同模式的用户,不分配标签。
9.一种用于群组检测的装置,包括:
接收单元,用于接收当前原始用户数据;
样本确定单元,用于基于所述当前原始用户数据,确定当前目标样本;
提取单元,用于基于所述当前目标样本,提取用户特征;
划分单元,用于分别采用多种群组划分算法,基于所述用户特征来对与所述当前目标样本相关联的用户进行群组划分,以得到分别与所述多种群组划分算法对应的多个群组划分结果;
融合单元,用于将所述多个群组划分结果进行融合,以得到单一群组划分结果,其中,所述单一群组划分结果包括对与所述当前目标样本相关联的用户划分得到的n个当前目标群组,n为正整数,
其中,所述群组检测是本次群组检测,在基于所述当前原始用户数据确定当前目标样本时,所述样本确定单元具体用于:
从所述当前原始用户数据中选择部分或全部数据作为第一部分目标样本;
基于所述本次群组检测之前的上一次群组检测中得到的m个先前目标群组的打标结果,从所述上一次群组检测所针对的先前目标样本中选择第二部分目标样本,其中,所述m个先前目标群组的打标结果是通过以下操作得到的:为所述m个先前目标群组中的具有相同模式的用户分配相同的标签,而对于与任何其它用户都不具有相同模式的用户,不分配标签;
将所述第一部分目标样本和所述第二部分目标样本作为所述当前目标样本。
10.根据权利要求9所述的装置,其中,所述多种群组划分算法之间的区别包括以下至少一方面:
算法原理、算法参数、目标样本采样方式。
11.根据权利要求10所述的装置,其中,所述目标样本采样方式包括一次全部采样或者多次部分随机采样。
12.根据权利要求9所述的装置,其中,在从所述当前原始用户数据中选择部分或全部数据作为第一部分目标样本时,所述样本确定单元具体用于:
利用有监督模型对所述当前原始用户数据进行分析,其中,所述有监督模型被构建用于对与原始用户数据相关联的用户进行分类;
基于分析结果,从所述当前原始用户数据中选择部分或全部数据作为第一部分目标样本。
13.根据权利要求12所述的装置,还包括:
指标确定单元,用于确定所述n个当前目标群组各自的评价指标信息;
打标单元,用于得到所述n个当前目标群组中的至少一个当前目标群组的打标结果,其中,所述至少一个当前目标群组是基于所述n个当前目前群组各自的评价指标信息来选择的,所述至少一个当前目标群组的打标结果是通过以下操作来得到的:为所述至少一个当前目标群组中的具有相同模式的用户分配相同的标签,而对于与任何其它用户都不具有相同模式的用户,不分配标签;
更新单元,用于基于所述至少一个当前目标群组的打标结果,对所述有监督模型进行更新。
14.根据权利要求9至13中任一项所述的装置,还包括:
算法确定单元,用于基于在所述本次群组检测之前的上一次群组检测中得到的m个先前目标群组的打标结果,确定所述多种群组划分算法,其中,所述m个先前目标群组的打标结果是通过以下操作得到的:为所述m个先前目标群组中的具有相同模式的用户分配相同的标签,而对于与任何其它用户都不具有相同模式的用户,不分配标签。
15.根据权利要求9至13中任一项所述的装置,还包括:
图形输出单元,用于输出所述n个当前目标群组中的每个当前目标群组内的各个用户之间的网络关系图。
16.根据权利要求9至13中任一项所述的装置,还包括:
模式输出单元,用于:
输出所述n个当前目标群组各自的模式信息,以便在出现新用户时确定所述新用户所属的群组;或者
基于所述n个当前目标群组中的至少一个当前目标群组的打标结果,输出通过所述至少一个当前目标群组的打标结果得到的p种模式的模式信息,以便在出现新用户时确定所述新用户所属的模式,其中,p为正整数,所述至少一个当前目标群组的打标结果是通过以下操作来得到的:为所述至少一个当前目标群组中的具有相同模式的用户分配相同的标签,而对于与任何其它用户都不具有相同模式的用户,不分配标签。
17.一种计算设备,包括:
至少一个处理器;
与所述至少一个处理器进行通信的存储器,其上存储有可执行指令,所述可执行指令在被所述至少一个处理器执行时使得所述至少一个处理器实现根据权利要求1至8中任一项所述的方法。
18.一种机器可读存储介质,其存储有可执行指令,所述可执行指令在被机器执行时使得所述机器实现根据权利要求1至8中任一项所述的方法。
CN201910237978.2A 2019-03-27 2019-03-27 群组检测方法、装置、计算设备和机器可读存储介质 Active CN110033031B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910237978.2A CN110033031B (zh) 2019-03-27 2019-03-27 群组检测方法、装置、计算设备和机器可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910237978.2A CN110033031B (zh) 2019-03-27 2019-03-27 群组检测方法、装置、计算设备和机器可读存储介质

Publications (2)

Publication Number Publication Date
CN110033031A CN110033031A (zh) 2019-07-19
CN110033031B true CN110033031B (zh) 2023-04-18

Family

ID=67236798

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910237978.2A Active CN110033031B (zh) 2019-03-27 2019-03-27 群组检测方法、装置、计算设备和机器可读存储介质

Country Status (1)

Country Link
CN (1) CN110033031B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781379A (zh) * 2019-09-09 2020-02-11 深圳壹账通智能科技有限公司 信息推荐方法、装置、计算机设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103093394A (zh) * 2013-01-23 2013-05-08 广东电网公司信息中心 一种基于用户用电负荷数据细分的聚类融合方法
CN105848097A (zh) * 2016-06-23 2016-08-10 华中科技大学 一种d2d下基于信道相关性的用户群组划分方法
CN106528804A (zh) * 2016-11-14 2017-03-22 南京邮电大学 一种基于模糊聚类的用户分群方法
CN108573274A (zh) * 2018-03-06 2018-09-25 华南理工大学 一种基于数据稳定性的选择性聚类集成方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10242258B2 (en) * 2015-09-30 2019-03-26 Microsoft Technology Licensing, Llc Organizational data enrichment

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103093394A (zh) * 2013-01-23 2013-05-08 广东电网公司信息中心 一种基于用户用电负荷数据细分的聚类融合方法
CN105848097A (zh) * 2016-06-23 2016-08-10 华中科技大学 一种d2d下基于信道相关性的用户群组划分方法
CN106528804A (zh) * 2016-11-14 2017-03-22 南京邮电大学 一种基于模糊聚类的用户分群方法
CN108573274A (zh) * 2018-03-06 2018-09-25 华南理工大学 一种基于数据稳定性的选择性聚类集成方法

Also Published As

Publication number Publication date
CN110033031A (zh) 2019-07-19

Similar Documents

Publication Publication Date Title
Aria et al. A comparison among interpretative proposals for Random Forests
Ostapowicz et al. Detecting fraudulent accounts on blockchain: A supervised approach
WO2018103456A1 (zh) 一种基于特征匹配网络的社团划分方法、装置及电子设备
US8805836B2 (en) Fuzzy tagging method and apparatus
Bonner et al. Exploring the semantic content of unsupervised graph embeddings: An empirical study
Kumar et al. Analysis of classifier algorithms to detect anti-money laundering
Amancio et al. Topological-collaborative approach for disambiguating authors’ names in collaborative networks
Li et al. Discover and mitigate unknown biases with debiasing alternate networks
CN109886284B (zh) 基于层次化聚类的欺诈检测方法及系统
CN110929525B (zh) 一种网贷风险行为分析检测方法、装置、设备和存储介质
Braun et al. Improving card fraud detection through suspicious pattern discovery
Soh et al. Predicting credit card fraud on a imbalanced data
Lee et al. Smart Robust Feature Selection (SoFt) for imbalanced and heterogeneous data
CN110033031B (zh) 群组检测方法、装置、计算设备和机器可读存储介质
Huang et al. A topic-based unsupervised learning approach for online underground market exploration
JP2021018466A (ja) ルール抽出装置、情報処理装置、ルール抽出方法及びルール抽出プログラム
CN115439928A (zh) 一种操作行为识别方法及装置
Li et al. Feature proposal model on multidimensional data clustering and its application
CN116861226A (zh) 一种数据处理的方法以及相关装置
CN113837836A (zh) 模型推荐方法、装置、设备及存储介质
Abinaya et al. Effective Feature Selection For High Dimensional Data using Fast Algorithm
Xiao et al. Explainable fraud detection for few labeled time series data
Viswanatha et al. Online Fraud Detection Using Machine Learning Approach
Almas et al. Enhancing the performance of decision tree: A research study of dealing with unbalanced data
Johnpaul et al. Representational primitives using trend based global features for time series classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200929

Address after: English genus

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: English genus

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200929

Address after: English genus

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant