CN110083791B - 目标群组检测方法、装置、计算机设备及存储介质 - Google Patents

目标群组检测方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110083791B
CN110083791B CN201910367835.3A CN201910367835A CN110083791B CN 110083791 B CN110083791 B CN 110083791B CN 201910367835 A CN201910367835 A CN 201910367835A CN 110083791 B CN110083791 B CN 110083791B
Authority
CN
China
Prior art keywords
feature
group
matrix
user
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910367835.3A
Other languages
English (en)
Other versions
CN110083791A (zh
Inventor
陈啟柱
陈振
黄剑飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN201910367835.3A priority Critical patent/CN110083791B/zh
Publication of CN110083791A publication Critical patent/CN110083791A/zh
Priority to PCT/CN2019/118114 priority patent/WO2020224222A1/zh
Application granted granted Critical
Publication of CN110083791B publication Critical patent/CN110083791B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种目标群组检测方法、装置、计算机设备及存储介质,属于网络安全技术领域。所述方法包括:对待检测数据中每个特征列进行分组,得到多个特征组,根据多个特征列对应的指示矩阵与特征关联矩阵,获取相似度矩阵,根据所述相似度矩阵进行聚类,得到多个用户组,根据所述多个特征组和所述多个用户组进行检测,确定所述多个用户组中的目标群组,所述目标群组为具有目标特性的群组。相较于仅依赖社交关系以及标签来对用户进行分组,本发明对用户的各个特征维度都进行了分组,获取了包含用户之间的相似度的相似度矩阵,通过对相似度矩阵聚类得到的多个用户组进行检测,从而确定出具有目标特性的群组,准确率较高,检测效果好。

Description

目标群组检测方法、装置、计算机设备及存储介质
技术领域
本发明涉及网络安全技术领域,特别涉及一种目标群组检测方法、装置、计算机设备及存储介质。
背景技术
随着互联网技术的快速发展,互联网已经与人们的生活息息相关,然而互联网在给人们的生活带来了极大便利的同时,也给不法分子带来了可乘之机。例如,互联网欺诈案例越来越多,且往往是团伙作案,由于互联网的特性,实施诈骗犯罪的团伙往往使用高科技手段掩饰团伙成员之间的关系,且具有案件类型复杂多变、技术手段更新迭代快、成团成规模、数据量大等特征,导致反欺诈工作困难重重。
现阶段通常采用基于无监督学习的方式来进行欺诈人群的检测,通过待检测人群的社交关系来判定待检测人群是否有欺诈行为。
然而上述技术存在的问题是,由于技术不成熟,对标签具有弱依赖,且依据的是社交关系,导致欺诈人群检测效果不好。
发明内容
本发明实施例提供了一种目标群组检测方法、装置、计算机设备及存储介质,能够解决由于技术不成熟,标签具有弱依赖,且依据的是社交关系,导致欺诈人群检测效果不好的问题。该技术方案如下:
一方面,提供了一种目标群组检测方法,该方法包括:
对待检测数据中每个特征列进行分组,得到多个特征组,所述每个特征列对应至少一个特征组,所述每个特征列包括不同用户的同一特征维度的特征;
根据多个特征列对应的指示矩阵与特征关联矩阵,获取相似度矩阵,所述相似度矩阵中的元素为多个用户中用户之间的相似度,其中,每个特征列的特征关联矩阵的元素用于表示所述每个特征列中特征组之间的相似度,每个特征列的指示矩阵的元素用于指示所述多个用户所属的特征组;
根据所述相似度矩阵进行聚类,得到多个用户组;
根据所述多个特征组和所述多个用户组进行检测,确定所述多个用户组中的目标群组,所述目标群组为具有目标特性的群组。
在一种可能的实现方式中,所述根据多个特征列对应的指示矩阵与特征关联矩阵,获取相似度矩阵之前,所述方法还包括:
获取每个所述特征列对应的指示矩阵,得到多个指示矩阵;
将每个指示矩阵输入特征关联函数中,得到对应的特征关联矩阵,所述特征关联函数用于通过机器学习的方式根据所述指示矩阵中的元素获取对应的特征关联矩阵。
在另一种可能的实现方式中,所述根据多个特征列对应的指示矩阵与特征关联矩阵,获取相似度矩阵,包括:
将多个特征列对应的指示矩阵和特征关联矩阵输入相似度计算函数中,得到相似度矩阵,所述相似度计算函数用于根据所述指示矩阵的元素和所述特征关联矩阵的元素获取所述多个用户中用户之间的相似度。
在另一种可能的实现方式中,所述根据所述多个特征组和所述多个用户组进行检测,确定所述多个用户组中的目标群组,所述目标群组为具有目标特性的群组,包括:
根据所述多个特征组和所述多个用户作为节点,在满足目标条件的节点之间创建边,得到图模型;
根据所述多个用户组对所述图模型进行特征提取,得到多个群组特征矩阵,每个用户组对应一个群组特征矩阵;
根据所述多个群组特征矩阵,得到对应的多个特征向量;
根据所述多个特征向量,确定所述多个用户组中的目标群组,所述目标群组为具有目标特性的群组。
在另一种可能的实现方式中,所述在满足目标条件的节点之间创建边,得到图模型,包括:
在满足第一条件的特征组对应的节点和用户对应的节点之间创建第一边,所述第一边的权重为所述用户和所述特征组之间的从属关系;
在满足第二条件的所述特征组对应的节点之间创建第二边,所述第二边的权重为所述特征组之间的相似度;
在满足第三条件的所述用户对应的节点之间创建第三边,所述第三边的权重为所述用户之间的相似度,得到图模型。
在另一种可能的实现方式中,所述根据所述多个用户组对所述图模型进行特征提取,得到多个群组特征矩阵,每个用户组对应一个群组特征矩阵,包括:
对于所述多个用户组中的每个用户组,获取所述每个用户组对应的群组特征图,所述群组特征图为所述图模型的一部分;
对所述每个群组特征图中的每个节点进行特征提取,得到对应的群组特征矩阵,所述群组特征矩阵中的元素为所述群组特征图中节点的特征。
在另一种可能的实现方式中,所述根据所述多个特征向量,确定所述多个用户组中的目标群组,所述目标群组为具有目标特性的群组,包括:
根据所述多个特征向量,获取平均特征向量,所述平均特征向量为所述多个特征向量的平均值;
根据所述平均特征向量和每个用户组对应的群组特征矩阵的特征向量,获取每个用户组的评估值;
对于每个用户组,当所述用户组的评估值大于目标阈值时,判定所述用户组为目标群组,所述目标群组为具有目标特性的群组;当所述用户组的评估值不大于所述目标阈值时,判定所述用户组为不是目标群组。
一方面,提供了一种目标群组检测装置,该装置包括:
分组模块,被配置为对待检测数据中每个特征列进行分组,得到多个特征组,所述每个特征列对应至少一个特征组,所述每个特征列包括不同用户的同一特征维度的特征;
第一获取模块,被配置为根据多个特征列对应的指示矩阵与特征关联矩阵,获取相似度矩阵,所述相似度矩阵中的元素为多个用户中用户之间的相似度,其中,每个特征列的特征关联矩阵的元素用于表示所述每个特征列中特征组之间的相似度,每个特征列的指示矩阵的元素用于指示所述多个用户所属的特征组;
聚类模块,被配置为根据所述相似度矩阵进行聚类,得到多个用户组;
检测模块,被配置为根据所述多个特征组和所述多个用户组进行检测,确定所述多个用户组中的目标群组,所述目标群组为具有目标特性的群组。
在一种可能的实现方式中,所述装置还包括:
第二获取模块,被配置为获取每个所述特征列对应的指示矩阵,得到多个指示矩阵;
输入模块,被配置为将每个指示矩阵输入特征关联函数中,得到对应的特征关联矩阵,所述特征关联函数用于通过机器学习的方式根据所述指示矩阵中的元素获取对应的特征关联矩阵。
在另一种可能的实现方式中,所述第一获取模块,还被配置为将多个特征列对应的指示矩阵和特征关联矩阵输入相似度计算函数中,得到相似度矩阵,所述相似度计算函数用于根据所述指示矩阵的元素和所述特征关联矩阵的元素获取所述多个用户中用户之间的相似度。
在另一种可能的实现方式中,所述检测模块,还被配置为根据所述多个特征组和所述多个用户作为节点,在满足目标条件的节点之间创建边,得到图模型;根据所述多个用户组对所述图模型进行特征提取,得到多个群组特征矩阵,每个用户组对应一个群组特征矩阵;根据所述多个群组特征矩阵,得到对应的多个特征向量;根据所述多个特征向量,确定所述多个用户组中的目标群组,所述目标群组为具有目标特性的群组。
在另一种可能的实现方式中,所述在检测模块,还被配置为在满足第一条件的特征组对应的节点和用户对应的节点之间创建第一边,所述第一边的权重为所述用户和所述特征组之间的从属关系;在满足第二条件的所述特征组对应的节点之间创建第二边,所述第二边的权重为所述特征组之间的相似度;在满足第三条件的所述用户对应的节点之间创建第三边,所述第三边的权重为所述用户之间的相似度,得到图模型。
在另一种可能的实现方式中,所述检测模块,还被配置为对于所述多个用户组中的每个用户组,获取所述每个用户组对应的群组特征图,所述群组特征图为所述图模型的一部分;对所述每个群组特征图中的每个节点进行特征提取,得到对应的群组特征矩阵,所述群组特征矩阵中的元素为所述群组特征图中节点的特征。
在另一种可能的实现方式中,还被配置为根据所述多个特征向量,获取平均特征向量,所述平均特征向量为所述多个特征向量的平均值;根据所述平均特征向量和每个用户组对应的群组特征矩阵的特征向量,获取每个用户组的评估值;对于每个用户组,当所述用户组的评估值大于目标阈值时,判定所述用户组为目标群组,所述目标群组为具有目标特性的群组;当所述用户组的评估值不大于所述目标阈值时,判定所述用户组为不是目标群组。
一方面,提供了一种计算机设备,该计算机设备包括一个或多个处理器和一个或多个存储器,该一个或多个存储器中存储有至少一条指令,该至少一条指令由该一个或多个处理器加载并执行以实现如上述任一种可能实现方式的目标群组检测方法所执行的操作。
一方面,提供了一种计算机可读存储介质,该存储介质中存储有至少一条指令,该至少一条指令由处理器加载并执行以实现如上述任一种可能实现方式的目标群组检测方法所执行的操作。
本发明实施例提供的技术方案带来的有益效果至少包括:
通过对待检测数据中每个特征列进行分组,得到多个特征组,根据多个特征列对应的指示矩阵与特征关联矩阵,获取相似度矩阵,根据相似度矩阵进行聚类,得到多个用户组;根据多个特征组和多个用户组进行检测,确定多个用户组中的目标群组,目标群组为具有目标特性的群组。相较于仅依赖社交关系以及标签来对用户进行分组,本发明对用户的各个特征维度都进行了分组,获取了包含用户之间的相似度的相似度矩阵,通过对相似度矩阵聚类得到的多个用户组进行检测,从而确定出具有目标特性的群组,准确率较高,检测效果好。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的待检测数据的示意图;
图2是本发明实施例提供的一种目标群组检测方法的流程图;
图3是本发明实施例提供的另一种目标群组检测方法的流程图
图4是本发明实施例提供的一种图模型的示意图;
图5是本发明实施例提供的一种群组特征图的示意图;
图6是本发明实施例提供的一种目标群组检测装置的示意图;
图7是本发明实施例提供的一种计算机设备的结构框图;
图8是本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明实施例可以应用于在用户中选择出具有目标特性的群组的场景。上述用户可以是经过筛选的用户,也可以是未经过筛选的用户,还可以是某个区域的用户,或者是具有一定联系的用户,本发明对此不进行限制。上述目标特性,可以为具有某种特定行为特性,如欺诈行为,也可以为具有某种特定属性特性等。首先获取上述用户的待检测数据,上述待检测数据可以为一个数据表格,该数据表格的每行为一个用户的多个特征,该数据表格的每列为用户的一个特征维度,每个用户具有相同的特征维度。
例如,图1是本发明实施例提供的一种待检测数据的示意图。参见图1所示,每行数据代表一个用户,包括10个用户,每个用户具有唯一标识userid,以及phone、city、uuid三个特征维度。
图2是本发明实施例提供的一种目标群组检测方法的流程图。参见图2,该实施例包括:
在步骤201中,计算机设备对待检测数据中每个特征列进行分组,得到多个特征组。
其中,每个特征列对应至少一个特征组,每个特征列包括不同用户的同一特征维度的特征。
在步骤202中,计算机设备根据多个特征列对应的指示矩阵与特征关联矩阵,获取相似度矩阵。
其中,相似度矩阵中的元素为多个用户中用户之间的相似度,每个特征列的特征关联矩阵的元素用于表示每个特征列中特征组之间的相似度,每个特征列的指示矩阵的元素用于指示多个用户所属的特征组。
在步骤203中,计算机设备根据相似度矩阵进行聚类,得到多个用户组。
在步骤204中,计算机设备根据多个特征组和多个用户组进行检测,确定多个用户组中的目标群组,目标群组为具有目标特性的群组。
本发明实施例提供的方法,通过对待检测数据中每个特征列进行分组,得到多个特征组,根据多个特征列对应的指示矩阵与特征关联矩阵,获取相似度矩阵,根据相似度矩阵进行聚类,得到多个用户组;根据多个特征组和多个用户组进行检测,确定多个用户组中的目标群组,目标群组为具有目标特性的群组。相较于仅依赖社交关系以及标签来对用户进行分组,本发明对用户的各个特征维度都进行了分组,获取了包含用户之间的相似度的相似度矩阵,通过对相似度矩阵聚类得到的多个用户组进行检测,从而确定出具有目标特性的群组,准确率较高,检测效果好。
图3是本发明实施例提供的另一种目标群组检测方法的流程图。参见图3,该实施例包括:
在步骤301中,计算机设备对待检测数据中每个特征列进行分组,得到多个特征组。
其中,每个特征列对应至少一个特征组,每个特征列包括不同用户的同一特征维度的特征。
上述待检测数据可以是具有N+1行M+1列的数据,其中,待检测数据的第一行为属性行,可以是表格的表头,也可以是数据库的字段,还可以为空,本公开对此不进行具体限制;N为大于零的正整数,N行中的每一行可以代表一个用户或者任何一个待检测的个体,本公开以每行代表一个用户为例进行说明,则该待检测数据中包括N个用户的数据;待检测数据的最左侧一列为唯一标识列,用于区分不同的个体,当个体为用户时,用于区分不同的用户;M为大于零的正整数,从第二列开始的M列中的每一列可以代表一个特征维度,即该待检测数据中包括M个特征维度,且每个用户都具有相同的特征维度。每个特征维度所对应的列可以称为特征列,对于其中任意一个特征列,该特征列中保存的都是用户同一特征维度的特征数据。
步骤301在实现时,计算机设备可以根据预设的规则对每个特征列进行分组,每个特征列可以被分成至少一个特征组,即对于其中任意一个特征列,该特征列可以被分为两个特征组或者三个特征组或者更多特征组。
在一种可能的实现方式中,上述对每个特征列进行分组的过程可以是对每个特征列的数据进行分桶的过程,每个特征组对应一个桶,每个特征列对应至少一个桶。
例如,以图1中的待检测数据为例,该待检测数据具有11行4列的数据,包括10个用户和3个特征维度,每个用户都有3个特征维度,这3个特征维度分别为phone、city和uuid,分别对应一个特征列。计算机设备对每个特征列进行分桶。例如,对phone维度对应的特征列进行分桶时,将以134、135和136开头的数据划分为一个桶,将以170和171开头的数据划分为一个桶,将剩余的数据划分为一个桶,得到三个桶。对city维度对应的特征列进行分桶时,将北京和天津划分为一个桶,将重庆和成都划分为一个桶,得到两个桶。对uuid维度对应的特征列进行分组时,将c0**87划分为一个桶,将NULL划分为一个桶,剩余的F6**32划分为一个桶,得到三个桶。这样一共得到了八个桶。
在步骤302中,计算机设备获取每个特征列对应的指示矩阵。
上述每个特征列对应的指示矩阵也可以说是每个特征维度对应的指示矩阵。对于每个特征列,计算机设备根据用户的特征是否包含在该特征列的特征组里来构造该特征列对应的指示矩阵,其中,每个特征列对应的指示矩阵的元素用于指示多个用户所属的特征组,一个元素用于代表一个用户。
例如,在步骤301中,对图1中的待测试数据中每个特征列进行分组,得到八个特征组。其中,phone维度对应的特征列,被分为三个特征组,为了便于说明称为p1、p2和p3,其中p1包括以134、135和136开头的数据,p2包括以170和171开头的数据,p3包括以156、131和130开头的数据。userid为0、1、2和3的用户具有的特征包含在p1中,userid为4、5和6的用户具有的特征包含在p2中,userid为7、8和9的用户具有的特征包含在p3中。由此可以获取以下指示矩阵Aphone
Figure BDA0002048807720000091
其中,Aphone的第一行元素表示前四个用户的phone维度的特征属于特征组p1,即userid为0、1、2和3的用户的phone维度的特征属于特征组p1;Aphone的第二行元素表示中间三个用户的phone维度的特征属于特征组p2,即userid为4、5和6的用户的phone维度的特征属于特征组p2;Aphone的第三行元素表示最后三个用户phone维度的特征属于特征组p3,即userid为7、8和9的用户的phone维度的特征属于特征组p3。
相应的,可以通过与获取phone维度对应的指示矩阵Aphone同理的方式,获取city维度对应的指示矩阵Acity和uuid维度对应的指示矩阵Auuid
Figure BDA0002048807720000092
Figure BDA0002048807720000093
在步骤303中,计算机设备将每个指示矩阵输入到特征关联函数中,得到对应的特征关联矩阵,该特征关联函数用于通过机器学习的方式根据指示矩阵中的元素获取对应的特征关联矩阵。
由于每个特征列对应一个指示矩阵,相应的每个特征列也对应一个特征关联矩阵。其中,每个特征列的特征关联矩阵的元素用于表示每个特征列中特征组之间的相似度。
对于M个特征纬度中的第m个特征纬度对应的特征列,计算机设备将第m个特征纬度对应的指示矩阵Am带入特征关联函数f(Qm)中,其中m为大于零的正整数。
Figure BDA0002048807720000094
其中,K为训练样本的个数,对第k个样本,
Figure BDA0002048807720000095
和Sk是已知的,
Figure BDA0002048807720000096
相当于上述的Aphone、Acity和Auuid,Sk可以为取值为0-1的方阵。
需要说明的是,上述K个训练样本是指,当待检测数据的数据量非常大时,可以将待检测数据按照行划分为K个训练样本,每个训练样本包含一定数量行的数据,每个训练样本包含的行数可以相同,即每个训练样本包含
Figure BDA0002048807720000097
行的数据;每个训练样本包含的行数也可以不同。
在一种可能的实现方式中,可以通过专家经验来设置每个特征列对应的特征关联矩阵,计算机设备获取输入的特征关联矩阵,该方式适用于待检测数据的行和列的数量较少的情况,例如行和列的数量均不大于20或者行和列的数量均不大于50时等,本发明对此不进行具体限制。
例如,以图1中的待检测数据,以及步骤302中获取的指示矩阵Aphone、Acity和Auuid为例,phone特征维度对应的特征列对应的特征关联矩阵为Qphone,Qphone中的元素为特征组之间的相似度,即p1、p2和p3之间的相似度。
Figure BDA0002048807720000101
其中,q12表示p1和p2之间的相似度,q23表示p2和p3之间的相似度,以此类推。Qphone的取值可以根据专家经验获得,也可以根据上述特征关联函数f(Qm)获得,这里示例性的给出了一组Qphone的取值,仅是为了便于说明。q11代表p1的自相似度,设为0.7,q22代表p2的自相似度,设为0.7,q33代表p3的自相似度,设为0.9,其他相似度设置为:q12=q21=0.2,q13=q31=0.5,q23=q32=0.2。由此可获取以下特征关联矩阵Qphone
Figure BDA0002048807720000102
相应的,可以通过同样的方式,获取特征关联矩阵Qcity和Quuid
Figure BDA0002048807720000103
Figure BDA0002048807720000104
在步骤304中,计算机设备根据多个特征列对应的指示矩阵与特征关联矩阵,获取相似度矩阵。
计算机设备将多个特征列对应的指示矩阵和特征关联矩阵输入相似度计算函数中,得到相似度矩阵,相似度计算函数用于根据指示矩阵的元素和特征关联矩阵的元素获取多个用户中用户之间的相似度。即,相似度矩阵中的元素为多个用户中用户之间的相似度。
对于待检测数据中包含的M个特征维度,每个特征维度对应一个指示矩阵,每个特征维度对应一个特征关联矩阵,即计算机设备从待检测数据中获取到了M个指示矩阵以及M个特征关联矩阵,且M个指示矩阵和M个特征关联矩阵一一对应。计算机设备将M个指示矩阵和M个特征关联矩阵,输入相似度计算函数中,该相似度计算函数可以为优化问题,求取其中的最优解,得到相似度矩阵。
相似度计算函数:
Figure BDA0002048807720000111
该相似度计算函数的最优解为:
Figure BDA0002048807720000112
其中,S表示待求取的相似度矩阵,Qm表示M个特征关联矩阵中的第m个特征关联矩阵,Am表示M指示矩阵中的第m个指示矩阵。
例如,以图1中的待检测数据,步骤302中获取到的指示矩阵Aphone、Acity和Auuid以及步骤303中获取到的特征关联矩阵Qphone、Qcity和Quuid为例。将上述三个指示矩阵和三个特征关联矩阵输入相似度计算函数中,得到相似度矩阵S。
Figure BDA0002048807720000113
在步骤305中,计算机设备根据相似度矩阵进行聚类,得到多个用户组。
计算机设备基于聚类算法对上述步骤304中获取到的相似度矩阵进行聚类,对待检测数据中的用户进行分组,得到多个用户组,每个用户组中包含至少一个用户,且同一个用户不会属于不同的用户组,即用户组之间不相互重叠。用户组的个数可以用D来表示。
需要说明的是,聚类算法可以为谱聚类、基于模块度的Girvan-Newman(格莱文-纽曼)社团发现算法或者Fast Newman(快速纽曼)社区算法等,聚类算法的选择可以根据实际场景由聚类配置文件进行确定,该聚类配置文件用于配置聚类参数。
在一种可能的实现方式中,当聚类得到的用户组中包含的用户少于第一用户数量阈值时,可以对用户组进行合并操作,将用户数量较少的用户组合并到与其相似性较高的用户组去,这样可以避免由于过度拆分,导致相似性较高的用户分布在不同的群组中,合并后的用户组更符合实际情况;当聚类得到的用户组中包含的用户大于第二用户数量阈值时,可以对用户组进行拆分操作,将用户数量交较多的用户组进行进一步的拆分,这样可以对用户进行更细致的划分,相似度粒度会更精细些,使得最终的检测结果更加准确。其中,第一用户数量阈值可以为3、5或者8等,第二用户数量阈值可以为15、25或者30等,本公开对此不进行具体限制。
在步骤306中,计算机设备根据多个特征组和多个用户组进行检测,确定多个用户组中的目标群组,目标群组为具有目标特性的群组。
计算机设备获取到多个用户组后,基于步骤301中获取的多个特征组,进行检测,相应的,本步骤可以通过以下步骤(1)至(4)来实现。
(1)计算机设备根据多个特征组和多个用户作为节点,在满足目标条件的节点之间创建边,得到图模型。
首先,计算机设备在构造图模型时,将特征组和用户均作为图模型的节点。
然后,在满足第一条件的特征组对应的节点和用户对应的节点之间创建第一边,第一边的权重为用户和特征组之间的从属关系。由于指示矩阵中的元素用于指示用户的特征和特征组之间的从属关系,因此计算机设备创建第一边时可以根据上述步骤中获得的指示矩阵来创建。当一个用户的某个特征包含在一个特征组中时,在该用户和该用户组之间创建第一边。在一种可能的实现方式中,可以将指示矩阵的元素值作为第一边的权重。在另一种可能的实现方式中,将第一边的权重均设置为1。在另一种可能的实现方式中,可以仅根据指示矩阵来创建特征组对应的节点与用户对应的节点之间的第一边,第一边的权重可以根据特征维度的重要性进行设定,对于重要性较高的特征维度,第一边的权重可以设置为较大的值,对于重要性较低的特征维度,第一边的权重可以设置为较小的值。
例如,根据指示矩阵Aphone可以创建userid为0、1、2和3的用户对应的节点与特征组p1之间的第一边,还可以创建userid为4、5和6的用户对应的节点与特征组p2之间的第一边,还可以创建userid为7、8和9的用户对应的节点与特征组p3之间的第一边。根据指示矩阵Aphone的元素值,将上述第一边的权重设置为1。或者,根据特征维度的重要性,将第一边的权重设置为0.7、0.5或1.3等任一值。
再然后,在满足第二条件的特征组对应的节点之间创建第二边,第二边的权重为特征组之间的相似度。由于特征关联矩阵中的元素用于表示每个特征列中特征组之间的相似度,因此计算机设备创建第二边时,可以根据上述步骤中获得的特征关联矩阵来创建。在一种可能的实现方式中,当两个特征组之间的相似度不为零时,在该两个特征组对应的节点之间创建第二边。在另一种可能的实现方式中,当两个特征组之间的相似度大于预设的特征组相似度阈值时,在该两个特征组对应的节点之间创建第二边。在另一种可能的实现方式中,可以仅在同一特征维度下的特征组对应的节点之间创建第二边。在另一种可能的实现方式中,可以在全部获得的特征组对应的节点之间创建第二边。本发明实施例中,是在相似度不为零的且属于同一特征维度的两个特征组的对应的节点之间创建第二边。
例如,根据特征关联矩阵Qphone可以创建特征组p1和特征组p2对应的节点之间的第二边,该第二边的权重为0.2;可以创建特征组p1和特征组p3对应的节点之间的第二边,该第二边的权重为0.5;可以创建特征组p2和特征组p3对应的节点之间的第二边,该第二边的权重为0.2。
再然后,在满足第三条件的用户对应的节点之间创建第三边,第三边的权重为用户之间的相似度。由于相似度矩阵中的元素为多个用户中用户之间的相似度,因此计算机设备创建第三边是,可以根据上述步骤中获得的相似度矩阵来创建。在一种可能的实现方式中,当两个用户之间的相似度不为零时,在该两个用户对应的节点之间创建第三边。在另一个可能的实现方式中,当两个用户之间的相似度大于预设的用户相似度阈值时,在该两个用户对应的节点之间创建第三边。
例如,根据相似度矩阵S,可以创建图1所示的待检测数据中包含的10个用户之间的第三边,userid为0的用户和userid为2的用户之间的相似度为(2.05×(1/3)),创建userid为0的用户和userid为2的用户对应的节点之间的第三边,该第三边的权重为(2.05×(1/3));userid为1的用户和userid为5的用户之间的相似度为(0.7×(1/3)),创建userid为1的用户和userid为5的用户对应的节点之间的第三边,该第三边的权重为(0.7×(1/3));依次创建10个用户两两之间的第三边。
例如,参考图4所示,图4是本发明实施例提供的一种图模型的示意图,该图模型根据图1中的待检测数据构造而成。图模型中包括10个用户节点,分别为节点0、节点1、节点2、节点3、节点4、节点5、节点6、节点7、节点8和节点9,还包括8个特征组节点,分别为phone特征维度对应的特征列划分出的特征组对应的节点p1、节点p2和节点p3,city特征维度对应的特征列划分出的特征组对应的节点c1和节点c2,以及uuid特征维度对应的特征列划分出的特征组对应的节点u1、节点u2和节点u3。图4所示的图模型中画出了第一边和第二边,但是并未画出用户对应的节点之间的第三边。
需要说明的是,上述第一边、第二边和第三边仅是为了便于说明和区分不同的边而设定的,不存在顺序关系,并且上述第一边、第二边和第三边的创建顺序不固定,可以先创建其中任意一个,本发明对此不进行具体限定。
(2)计算机设备根据多个用户组对图模型进行特征提取,得到多个群组特征矩阵,每个用户组对应一个群组特征矩阵。
对于多个用户组中的每个用户组,计算机设备从图模型中获取每个用户组对应的群组特征图,该群组特征图为图模型的一部分,仅包括该用户组中的用户对应的节点以及特征组对应节点,节点个数可以表示为T。
计算机设备获取多个群组特征图后,对每个群组特征图中的每个节点进行特征提取,得到对应的群组特征矩阵,群组特征矩阵中的元素为群组特征图中节点的特征。在提取每个节点的特征时,提取每个节点的Egonet(Egocentric Network,以自我为中心的)特征,每个节点的Egonet特征包括:该节点的邻居节点个数,该节点关联边的权重之和以及以该节点为顶点的三角形个数之和等。提取的特征的个数可以表示为E,E为大于零的正整数,例如可以为3个、5个或者8个,本公开对此不进行具体限制。
计算机设备提取每个群组特征图中节点的特征后,可以得到一个T×E的群组特征矩阵,从而得到多个群组特征矩阵。
例如,一个用户组中包括userid为0、4、7的三个用户,从图4所示的图模型中获取该用户组对应的群组特征图,如图5所示,为本发明实施例提供的一种群组特征图的示意图,包括节点0、节点4、节点7、节点p1、节点p2、节点p3、节点c1、节点c2、节点u1、节点u2和节点u3。其中节点0提取到的Egonet特征有:5个邻居节点、权重之和(4.71×(1/3))以及两个三角形。得到一个11×3的群组特征矩阵。
(3)计算机设备根据多个群组特征矩阵,得到对应的多个特征向量。
计算机设备在获取到多个群组特征矩阵后,对于每个群组特征矩阵,计算器特征向量,得到多个特征向量。在一种可能的实现方式中,可以通过SVD(Singular ValueDecomposition,奇异值分解)原理对上述群组特征矩阵进行分解,得到该群组特征矩阵的主特征向量,将该主特征向量作为该群组特征矩阵的特征向量,其中,该特征向量可以为列向量,该列向量的维度为(E×1)。
(4)计算机设备根据多个特征向量,确定多个用户组中的目标群组,目标群组为具有目标特性的群组。
计算机设备获取到多个特征向量后,根据该多个特征向量,从多个用户组中确定具有目标特性的群组。相应的,本步骤可以通过以下步骤(4-1)至(4-3)来实现。
(4-1)计算机设备根据多个特征向量,计算多个特征向量的平均值,从而获取到平均特征向量,其中,平均特征向量即为多个特征向量的平均值,平均特征向量可以表示为Vavg
(4-2)计算机设备根据平均特征向量和每个用户组对应的群组特征矩阵的特征向量,获取每个用户组的评估值。
计算机设备获取到平均特征向量和群组特征矩阵的特征向量后,获取每个用户组的评估值Z。对于D个用户组中的第d个用户组,其对应的群组特征矩阵的特征向量可以表示为Vd,则第d个用户组的评估值Zd可以表示为:
Figure BDA0002048807720000151
(4-3)对于每个用户组,计算机设备当用户组的评估值大于目标阈值时,判定用户组为目标群组,目标群组为具有目标特性的群组;当用户组的评估值不大于目标阈值时,判定用户组为不是目标群组。
需要说明的是,上述目标阈值可以为0到2之间的值,该目标阈值可以根据实际应用场景进行设定,本发明对此不进行具体限制。
在本发明实施例中,通过对待检测数据中每个特征列进行分组,得到多个特征组,根据多个特征列对应的指示矩阵与特征关联矩阵,获取相似度矩阵,根据相似度矩阵进行聚类,得到多个用户组;根据多个特征组和多个用户组进行检测,确定多个用户组中的目标群组,目标群组为具有目标特性的群组。相较于仅依赖社交关系以及标签来对用户进行分组,本发明对用户的各个特征维度都进行了分组,获取了包含用户之间的相似度的相似度矩阵,通过对相似度矩阵聚类得到的多个用户组进行检测,从而确定出具有目标特性的群组,准确率较高,检测效果好。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
图6是本发明实施例提供的一种目标群组检测装置的示意图。参见图6,该装置包括:分组模块601、第一获取模块602、聚类模块603和检测模块604。
分组模块601,被配置为对待检测数据中每个特征列进行分组,得到多个特征组,每个特征列对应至少一个特征组,每个特征列包括不同用户的同一特征维度的特征;
第一获取模块602,被配置为根据多个特征列对应的指示矩阵与特征关联矩阵,获取相似度矩阵,相似度矩阵中的元素为多个用户中用户之间的相似度,其中,每个特征列的特征关联矩阵的元素用于表示每个特征列中特征组之间的相似度,每个特征列的指示矩阵的元素用于指示多个用户所属的特征组;
聚类模块603,被配置为根据相似度矩阵进行聚类,得到多个用户组;
检测模块604,被配置为根据多个特征组和多个用户组进行检测,确定多个用户组中的目标群组,目标群组为具有目标特性的群组。
在一种可能的实现方式中,装置还包括:
第二获取模块,被配置为获取每个特征列对应的指示矩阵,得到多个指示矩阵;
输入模块,被配置为将每个指示矩阵输入特征关联函数中,得到对应的特征关联矩阵,特征关联函数用于通过机器学习的方式根据指示矩阵中的元素获取对应的特征关联矩阵。
在另一种可能的实现方式中,第一获取模块602,还被配置为将多个特征列对应的指示矩阵和特征关联矩阵输入相似度计算函数中,得到相似度矩阵,相似度计算函数用于根据指示矩阵的元素和特征关联矩阵的元素获取多个用户中用户之间的相似度。
在另一种可能的实现方式中,检测模块604,还被配置为根据多个特征组和多个用户作为节点,在满足目标条件的节点之间创建边,得到图模型;根据多个用户组对图模型进行特征提取,得到多个群组特征矩阵,每个用户组对应一个群组特征矩阵;根据多个群组特征矩阵,得到对应的多个特征向量;根据多个特征向量,确定多个用户组中的目标群组,目标群组为具有目标特性的群组。
在另一种可能的实现方式中,在检测模块604,还被配置为在满足第一条件的特征组对应的节点和用户对应的节点之间创建第一边,第一边的权重为用户和特征组之间的从属关系;在满足第二条件的特征组对应的节点之间创建第二边,第二边的权重为特征组之间的相似度;在满足第三条件的用户对应的节点之间创建第三边,第三边的权重为用户之间的相似度,得到图模型。
在另一种可能的实现方式中,检测模块604,还被配置为对于多个用户组中的每个用户组,获取每个用户组对应的群组特征图,群组特征图为图模型的一部分;对每个群组特征图中的每个节点进行特征提取,得到对应的群组特征矩阵,群组特征矩阵中的元素为群组特征图中节点的特征。
在另一种可能的实现方式中,还被配置为根据多个特征向量,获取平均特征向量,平均特征向量为多个特征向量的平均值;根据平均特征向量和每个用户组对应的群组特征矩阵的特征向量,获取每个用户组的评估值;对于每个用户组,当用户组的评估值大于目标阈值时,判定用户组为目标群组,目标群组为具有目标特性的群组;当用户组的评估值不大于目标阈值时,判定用户组为不是目标群组。
在本发明实施例中,通过对待检测数据中每个特征列进行分组,得到多个特征组,根据多个特征列对应的指示矩阵与特征关联矩阵,获取相似度矩阵,根据相似度矩阵进行聚类,得到多个用户组;根据多个特征组和多个用户组进行检测,确定多个用户组中的目标群组,目标群组为具有目标特性的群组。相较于仅依赖社交关系以及标签来对用户进行分组,本发明对用户的各个特征维度都进行了分组,获取了包含用户之间的相似度的相似度矩阵,通过对相似度矩阵聚类得到的多个用户组进行检测,从而确定出具有目标特性的群组,准确率较高,检测效果好。
需要说明的是:上述实施例提供的目标群组检测装置在检测目标群组时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将计算机设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的目标群组检测装置与目标群组检测方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图7是本发明实施例提供的计算机设备700的结构框图。该计算机设备700可以是:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。计算机设备700还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,计算机设备700包括有:处理器701和存储器702。
处理器701可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器701可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器701也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器701可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器701还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器702可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器702还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器702中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器701所执行以实现本申请中方法实施例提供的目标群组检测方法。
在一些实施例中,计算机设备700还可选包括有:外围设备接口703和至少一个外围设备。处理器701、存储器702和外围设备接口703之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口703相连。具体地,外围设备包括:射频电路704、触摸显示屏705、摄像头706、音频电路707、定位组件708和电源709中的至少一种。
外围设备接口703可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器701和存储器702。在一些实施例中,处理器701、存储器702和外围设备接口703被集成在同一芯片或电路板上;在一些其他实施例中,处理器701、存储器702和外围设备接口703中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路704用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路704将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路704包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路704可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。显示屏705用于显示UI(UserInterface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏705是触摸显示屏时,显示屏705还具有采集在显示屏705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器701进行处理。此时,显示屏705还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏705可以为一个,设置计算机设备700的前面板;在另一些实施例中,显示屏705可以为至少两个,分别设置在计算机设备700的不同表面或呈折叠设计;在再一些实施例中,显示屏705可以是柔性显示屏,设置在计算机设备700的弯曲表面上或折叠面上。甚至,显示屏705还可以设置成非矩形的不规则图形,也即异形屏。显示屏705可以采用LCD(Liquid CrystalDisplay,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件706用于采集图像或视频。可选地,摄像头组件706包括前置摄像头和后置摄像头。通常,前置摄像头设置在计算机设备的前面板,后置摄像头设置在计算机设备的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件706还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器701进行处理,或者输入至射频电路704以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在计算机设备700的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器701或射频电路704的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路707还可以包括耳机插孔。
定位组件708用于定位计算机设备700的当前地理位置,以实现导航或LBS(Location Based Service,基于位置的服务)。定位组件708可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
电源709用于为计算机设备700中的各个组件进行供电。电源709可以是交流电、直流电、一次性电池或可充电电池。当电源709包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,计算机设备700还包括有一个或多个传感器710。该一个或多个传感器710包括但不限于:加速度传感器711、陀螺仪传感器712、压力传感器713、指纹传感器714、光学传感器715以及接近传感器716。
加速度传感器711可以检测以计算机设备700建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器711可以用于检测重力加速度在三个坐标轴上的分量。处理器701可以根据加速度传感器711采集的重力加速度信号,控制触摸显示屏705以横向视图或纵向视图进行用户界面的显示。加速度传感器711还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器712可以检测计算机设备700的机体方向及转动角度,陀螺仪传感器712可以与加速度传感器711协同采集用户对计算机设备700的3D动作。处理器701根据陀螺仪传感器712采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器713可以设置在计算机设备700的侧边框和/或触摸显示屏705的下层。当压力传感器713设置在计算机设备700的侧边框时,可以检测用户对计算机设备700的握持信号,由处理器701根据压力传感器713采集的握持信号进行左右手识别或快捷操作。当压力传感器713设置在触摸显示屏705的下层时,由处理器701根据用户对触摸显示屏705的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器714用于采集用户的指纹,由处理器701根据指纹传感器714采集到的指纹识别用户的身份,或者,由指纹传感器714根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器701授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器714可以被设置计算机设备700的正面、背面或侧面。当计算机设备700上设置有物理按键或厂商Logo时,指纹传感器714可以与物理按键或厂商Logo集成在一起。
光学传感器715用于采集环境光强度。在一个实施例中,处理器701可以根据光学传感器715采集的环境光强度,控制触摸显示屏705的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏705的显示亮度;当环境光强度较低时,调低触摸显示屏705的显示亮度。在另一个实施例中,处理器701还可以根据光学传感器715采集的环境光强度,动态调整摄像头组件706的拍摄参数。
接近传感器716,也称距离传感器,通常设置在计算机设备700的前面板。接近传感器716用于采集用户与计算机设备700的正面之间的距离。在一个实施例中,当接近传感器716检测到用户与计算机设备700的正面之间的距离逐渐变小时,由处理器701控制触摸显示屏705从亮屏状态切换为息屏状态;当接近传感器716检测到用户与计算机设备700的正面之间的距离逐渐变大时,由处理器701控制触摸显示屏705从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图7中示出的结构并不构成对计算机设备700的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图8是本发明实施例提供的一种计算机设备的结构示意图,该计算机设备800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)801和一个或一个以上的存储器802,其中,该存储器802中存储有至少一条指令,该至少一条指令由该处理器801加载并执行以实现上述各个方法实施例提供的方法。当然,该计算机设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该计算机设备还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由计算机设备中的处理器执行以完成上述实施例中目标群组检测方法。例如,该计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种目标群组检测方法,其特征在于,所述方法包括:
对待检测数据中每个特征列进行分组,得到多个特征组,所述每个特征列对应至少一个特征组,所述每个特征列包括不同用户的同一特征维度的特征;
根据多个特征列分别对应的指示矩阵与特征关联矩阵,获取相似度矩阵,所述相似度矩阵中的元素为多个用户中用户之间的相似度,其中,每个特征列的特征关联矩阵的元素用于表示所述每个特征列中特征组之间的相似度,每个特征列的指示矩阵的元素用于指示所述多个用户所属的特征组;
根据所述相似度矩阵进行聚类,得到多个用户组;
根据所述多个特征组和所述多个用户组进行检测,确定所述多个用户组中的目标群组,所述目标群组为具有目标特性的群组。
2.根据权利要求1所述的方法,其特征在于,所述根据多个特征列分别对应的指示矩阵与特征关联矩阵,获取相似度矩阵之前,所述方法还包括:
获取每个所述特征列对应的指示矩阵,得到多个指示矩阵;
将每个指示矩阵输入特征关联函数中,得到对应的特征关联矩阵,所述特征关联函数用于通过机器学习的方式根据所述指示矩阵中的元素获取对应的特征关联矩阵。
3.根据权利要求1所述的方法,其特征在于,所述根据多个特征列分别对应的指示矩阵与特征关联矩阵,获取相似度矩阵,包括:
将多个特征列分别对应的指示矩阵和特征关联矩阵输入相似度计算函数中,得到相似度矩阵,所述相似度计算函数用于根据所述指示矩阵的元素和所述特征关联矩阵的元素获取所述多个用户中用户之间的相似度。
4.根据权利要求1所述的方法,其特征在于,所述根据所述多个特征组和所述多个用户组进行检测,确定所述多个用户组中的目标群组,所述目标群组为具有目标特性的群组,包括:
根据所述多个特征组和所述多个用户作为节点,在满足目标条件的节点之间创建边,得到图模型;
根据所述多个用户组对所述图模型进行特征提取,得到多个群组特征矩阵,每个用户组对应一个群组特征矩阵;
根据所述多个群组特征矩阵,得到对应的多个特征向量;
根据所述多个特征向量,确定所述多个用户组中的目标群组,所述目标群组为具有目标特性的群组。
5.根据权利要求4所述的方法,其特征在于,所述在满足目标条件的节点之间创建边,得到图模型,包括:
在满足第一条件的特征组对应的节点和用户对应的节点之间创建第一边,所述第一边的权重为所述用户和所述特征组之间的从属关系;
在满足第二条件的所述特征组对应的节点之间创建第二边,所述第二边的权重为所述特征组之间的相似度;
在满足第三条件的所述用户对应的节点之间创建第三边,所述第三边的权重为所述用户之间的相似度,得到图模型。
6.根据权利要求4所述的方法,其特征在于,所述根据所述多个用户组对所述图模型进行特征提取,得到多个群组特征矩阵,每个用户组对应一个群组特征矩阵,包括:
对于所述多个用户组中的每个用户组,获取所述每个用户组对应的群组特征图,所述群组特征图为所述图模型的一部分;
对所述每个群组特征图中的每个节点进行特征提取,得到对应的群组特征矩阵,所述群组特征矩阵中的元素为所述群组特征图中节点的特征。
7.根据权利要求4所述的方法,其特征在于,所述根据所述多个特征向量,确定所述多个用户组中的目标群组,所述目标群组为具有目标特性的群组,包括:
根据所述多个特征向量,获取平均特征向量,所述平均特征向量为所述多个特征向量的平均值;
根据所述平均特征向量和每个用户组对应的群组特征矩阵的特征向量,获取每个用户组的评估值;
对于每个用户组,当所述用户组的评估值大于目标阈值时,判定所述用户组为目标群组,所述目标群组为具有目标特性的群组;当所述用户组的评估值不大于所述目标阈值时,判定所述用户组为不是目标群组。
8.一种目标群组检测装置,其特征在于,所述装置包括:
分组模块,被配置为对待检测数据中每个特征列进行分组,得到多个特征组,所述每个特征列对应至少一个特征组,所述每个特征列包括不同用户的同一特征维度的特征;
第一获取模块,被配置为根据多个特征列分别对应的指示矩阵与特征关联矩阵,获取相似度矩阵,所述相似度矩阵中的元素为多个用户中用户之间的相似度,其中,每个特征列的特征关联矩阵的元素用于表示所述每个特征列中特征组之间的相似度,每个特征列的指示矩阵的元素用于指示所述多个用户所属的特征组;
聚类模块,被配置为根据所述相似度矩阵进行聚类,得到多个用户组;
检测模块,被配置为根据所述多个特征组和所述多个用户组进行检测,确定所述多个用户组中的目标群组,所述目标群组为具有目标特性的群组。
9.一种计算机设备,其特征在于,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条指令,所述至少一条指令由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求7任一项所述的目标群组检测方法所执行的操作。
10.一种非临时性计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至权利要求7任一项所述的目标群组检测方法所执行的操作。
CN201910367835.3A 2019-05-05 2019-05-05 目标群组检测方法、装置、计算机设备及存储介质 Active CN110083791B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910367835.3A CN110083791B (zh) 2019-05-05 2019-05-05 目标群组检测方法、装置、计算机设备及存储介质
PCT/CN2019/118114 WO2020224222A1 (zh) 2019-05-05 2019-11-13 目标群组检测方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910367835.3A CN110083791B (zh) 2019-05-05 2019-05-05 目标群组检测方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN110083791A CN110083791A (zh) 2019-08-02
CN110083791B true CN110083791B (zh) 2020-04-24

Family

ID=67418624

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910367835.3A Active CN110083791B (zh) 2019-05-05 2019-05-05 目标群组检测方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN110083791B (zh)
WO (1) WO2020224222A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083791B (zh) * 2019-05-05 2020-04-24 北京三快在线科技有限公司 目标群组检测方法、装置、计算机设备及存储介质
CN110602101B (zh) * 2019-09-16 2021-01-01 北京三快在线科技有限公司 网络异常群组的确定方法、装置、设备及存储介质
CN110781247B (zh) * 2019-09-23 2021-11-26 华为技术有限公司 向量聚类方法、装置及存储介质
CN111401959B (zh) * 2020-03-18 2023-09-29 多点(深圳)数字科技有限公司 风险群体的预测方法、装置、计算机设备及存储介质
CN111753154B (zh) * 2020-06-22 2024-03-19 北京三快在线科技有限公司 用户数据处理方法、装置、服务器及计算机可读存储介质
CN111598713B (zh) * 2020-07-24 2021-12-14 北京淇瑀信息科技有限公司 基于相似度权重更新的团伙识别方法、装置及电子设备
CN112540749B (zh) * 2020-11-16 2023-10-24 南方电网数字平台科技(广东)有限公司 微服务划分方法、装置、计算机设备和可读存储介质
CN114764480A (zh) * 2021-01-04 2022-07-19 腾讯科技(深圳)有限公司 群组类型识别方法、装置、计算机设备及介质
CN112925990B (zh) * 2021-02-26 2022-09-06 上海哔哩哔哩科技有限公司 目标群体分类方法及装置
CN112905476B (zh) * 2021-03-12 2023-08-11 网易(杭州)网络有限公司 测试的执行方法及装置、电子设备、存储介质
CN113205183B (zh) * 2021-04-23 2024-05-14 北京达佳互联信息技术有限公司 物品推荐网络训练方法、装置、电子设备及存储介质
CN113378020A (zh) * 2021-06-08 2021-09-10 深圳Tcl新技术有限公司 相似观影用户的获取方法、设备和计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104008165A (zh) * 2014-05-29 2014-08-27 华东师范大学 一种基于网络拓扑结构和节点属性的社团检测方法
WO2016191822A1 (en) * 2015-06-02 2016-12-08 Ecocraft Systems Pty Ltd Personal safety device
CN107426177A (zh) * 2017-06-13 2017-12-01 努比亚技术有限公司 一种用户行为聚类分析方法及终端、计算机可读存储介质
CN107786943A (zh) * 2017-11-15 2018-03-09 北京腾云天下科技有限公司 一种用户分群方法及计算设备
CN109117943A (zh) * 2018-07-24 2019-01-01 中国科学技术大学 利用多属性信息增强网络表征学习的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083791B (zh) * 2019-05-05 2020-04-24 北京三快在线科技有限公司 目标群组检测方法、装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104008165A (zh) * 2014-05-29 2014-08-27 华东师范大学 一种基于网络拓扑结构和节点属性的社团检测方法
WO2016191822A1 (en) * 2015-06-02 2016-12-08 Ecocraft Systems Pty Ltd Personal safety device
CN107426177A (zh) * 2017-06-13 2017-12-01 努比亚技术有限公司 一种用户行为聚类分析方法及终端、计算机可读存储介质
CN107786943A (zh) * 2017-11-15 2018-03-09 北京腾云天下科技有限公司 一种用户分群方法及计算设备
CN109117943A (zh) * 2018-07-24 2019-01-01 中国科学技术大学 利用多属性信息增强网络表征学习的方法

Also Published As

Publication number Publication date
WO2020224222A1 (zh) 2020-11-12
CN110083791A (zh) 2019-08-02

Similar Documents

Publication Publication Date Title
CN110083791B (zh) 目标群组检测方法、装置、计算机设备及存储介质
CN110097019B (zh) 字符识别方法、装置、计算机设备以及存储介质
CN111079576B (zh) 活体检测方法、装置、设备及存储介质
CN110222789B (zh) 图像识别方法及存储介质
CN109815150B (zh) 应用测试方法、装置、电子设备及存储介质
CN110059652B (zh) 人脸图像处理方法、装置及存储介质
CN110807361A (zh) 人体识别方法、装置、计算机设备及存储介质
CN111104980B (zh) 确定分类结果的方法、装置、设备及存储介质
CN108320756B (zh) 一种检测音频是否是纯音乐音频的方法和装置
CN112581358B (zh) 图像处理模型的训练方法、图像处理方法及装置
CN110570460A (zh) 目标跟踪方法、装置、计算机设备及计算机可读存储介质
CN110675412A (zh) 图像分割方法、图像分割模型的训练方法、装置及设备
CN110705614A (zh) 模型训练方法、装置、电子设备及存储介质
CN113918767A (zh) 视频片段定位方法、装置、设备及存储介质
CN110991445B (zh) 竖排文字识别方法、装置、设备及介质
CN112989198B (zh) 推送内容的确定方法、装置、设备及计算机可读存储介质
CN113570510A (zh) 图像处理方法、装置、设备及存储介质
CN110232417B (zh) 图像识别方法、装置、计算机设备及计算机可读存储介质
CN113343709B (zh) 意图识别模型的训练方法、意图识别方法、装置及设备
CN113822916B (zh) 图像匹配方法、装置、设备及可读存储介质
CN109117895A (zh) 数据聚类方法、装置及存储介质
CN114897158A (zh) 数据处理模型的训练方法、数据处理方法、装置及设备
CN109388732B (zh) 音乐地图的生成和显示方法、装置及存储介质
CN113762054A (zh) 图像识别方法、装置、设备及可读存储介质
CN111858983A (zh) 图片类别的确定方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant