CN112184267A - 发现服务应用中的用户群的方法、装置、设备和介质 - Google Patents

发现服务应用中的用户群的方法、装置、设备和介质 Download PDF

Info

Publication number
CN112184267A
CN112184267A CN202011166075.9A CN202011166075A CN112184267A CN 112184267 A CN112184267 A CN 112184267A CN 202011166075 A CN202011166075 A CN 202011166075A CN 112184267 A CN112184267 A CN 112184267A
Authority
CN
China
Prior art keywords
user
orders
service
graph
users
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011166075.9A
Other languages
English (en)
Inventor
俞怡
蔡民超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Priority to CN202011166075.9A priority Critical patent/CN112184267A/zh
Publication of CN112184267A publication Critical patent/CN112184267A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/018Certifying business or products
    • G06Q30/0185Product, service or business identity fraud
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • G06F16/244Grouping and aggregation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24554Unary operations; Data partitioning operations
    • G06F16/24556Aggregation; Duplicate elimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0207Discounts or incentives, e.g. coupons or rebates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0633Lists, e.g. purchase orders, compilation or processing
    • G06Q30/0635Processing of requisition or of purchase orders

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Game Theory and Decision Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开的实施例涉及用于发现服务应用中的用户群的方法、装置、设备和介质。在此公开的方法包括:基于多个用户使用所述服务应用的多个订单来产生用户图,所述用户图的节点表示用户,所述用户图的边的两个节点分别表示订单的服务发起方用户和服务接收方用户,所述边的权重表示相应用户彼此之间产生的订单的数目;以及根据所述边的所述权重来聚合所述用户图中的所述节点,以获得所述用户图的一个或多个子图,每个子图代表一个用户群。根据本公开,将服务应用中的订单转换为图,并基于图使用聚合算法发现其中的团伙作弊人员,实现了高效的反作弊技术。

Description

发现服务应用中的用户群的方法、装置、设备和介质
技术领域
本公开的各实现方式总体上涉及互联网技术领域,更具体地,涉及用于发现服务应用中的用户群的方法、装置、电子设备和计算机可读存储介质。
背景技术
在互联网应用中,常常通过发放优惠券的形式增加鼓励用户使用该互联网应用的服务。例如,在交通出行应用的货运业务中,优惠券与奖励十分丰厚,如订单价格为30元,公司优惠券补贴29.99元,乘客仅需要花1分钱就可以完成一笔订单,而司机仍可得到正常订单收入。因此为获取更多利益,许多司机会进行刷单行为,薅取大量优惠券,导致应用服务方利益受损。因此,需要进行必要的风险管控,发现其中的作弊用户和团伙,防止公司利益受到侵害。
发明内容
本公开的实施例提供了一种用于发现服务应用中的用户群的技术方案。
在本公开的第一方面,提供了一种用于发现服务应用中的用户群的方法,包括:基于多个用户使用所述服务应用的多个订单来产生用户图,所述用户图的节点表示用户,所述用户图的边的两个节点分别表示订单的服务发起方用户和服务接收方用户,所述边的权重表示相应用户彼此之间产生的订单的数目;以及根据所述边的所述权重来聚合所述用户图中的所述节点,以获得所述图的一个或多个子图,每个子图代表一个用户群。
在本公开的第二方面,提供了一种用于发现服务应用中的用户群的装置,包括:用户图生成单元,被配置用于基于多个用户使用所述服务应用的多个订单来产生用户图,所述用户图的节点表示用户,所述用户图的边的两个节点分别表示订单的服务发起方用户和服务接收方用户,所述边的权重表示相应用户彼此之间产生的订单的数目;以及聚合单元,被配置用于根据所述边的所述权重来聚合所述用户图中的所述节点,以获得所述图的一个或多个子图,每个子图代表一个用户群置
在本公开的第三方面,提供了一种电子设备,包括:处理器和存储器;其中存储器用于存储一条或多条计算机指令,其中一条或多条计算机指令被处理器执行以实现根据本公开的第一方面的方法。
在本公开的第四方面,提供了一种计算机可读存储介质,其上存储有一条或多条计算机指令,其中一条或多条计算机指令被处理器执行实现根据本公开的第一方面的方法。
本公开的实施例将服务应用中的订单转换为图,并基于图使用聚合算法发现其中的团伙作弊人员,实现了高效的反作弊技术。
附图说明
结合附图并参考以下详细说明,本公开各实现方式的特征、优点及其他方面将变得更加明显,在此以示例性而非限制性的方式示出了本公开的若干实现方式。在附图中:
图1示出了根据本公开实施例的用于发现服务应用中的用户群的方法的示例流程图;
图2A示出了根据本公开的实施例的用户信息表的示例字段;
图2B示出了根据本公开的实施例的订单明细表的示例字段;
图3示出了根据本公开的实施例的用于发现服务应用中的用户群的装置的示例框图;以及
图4示意性示出了根据本公开的示例性实现的计算设备的框图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实现。虽然附图中显示了本公开的优选实现,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实现所限制。相反,提供这些实现是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
在本文中使用的术语“订单”是指,基于互联网的服务应用的至少两个已注册用户借助该服务应用,通过发送服务请求、接收服务请求的方式形成的服务。该服务包括但不限于乘客和司机的出行服务、购买实体或虚拟商品的买卖服务等。
在本文中使用的术语“作弊”是指,基于互联网的服务应用的用户为了获取不当利益而做出的任何行为,包括但不限于,生成非正当订单,生成大量订单,以及任何其他获取不当利益的行为。
在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实现”和“一个实现”表示“至少一个示例实现”。术语“另一实现”表示“至少一个另外的实现”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
为了推广其服务,互联网应用的运营商经常会向用户发放优惠券或奖励。例如,在交通出行应用的货运业务的推广过程中,优惠券与奖励十分丰厚,如订单价格为30元,公司优惠券补贴29.99元,乘客仅需要花1分钱就可以完成一笔订单,而司机仍可得到正常订单收入。因此为获取更多利益,许多司机会进行刷单行为,薅取公司优惠券。此外,货运司机在拥有司机账号的同时,可能还会拥有多个乘客账号,或者私下与多位乘客联合,在没有货运需求的情况下用乘客账号发单,司机抢单后即可开始刷单行为。该场景有其场景特点,例如,乘客和司机是多对多关系,呈现团伙特征,甚至部分司机与乘客实际为同人关系,比如司机和乘客具有相同的手机号、手机设备号、微信号、支付宝账号等。
现有的反作弊技术一般通过真身信息和刷单次数阈值实现。真身信息包括手机号、移动设备号(例如,手机的IMEI)、微信账号、微信支付账号、支付宝账号、支付宝支付账号、身份证等。一般业务线中会限制同一个身份证不允许同时作为订单的司机和乘客,但对其他真身信息只能做事后判断。如司机A与乘客B账号共享同一个支付宝账号,且司机A与乘客B有频繁成单行为,则认定他们存在高概率刷单行为。其次,现有场景主要用刷单次数阈值识别作弊,通过规定同一对司机与乘客成单量阈值来实现。如司机A与乘客B在1天内完成的订单量超过了10次,则认定他们存在高概率刷单行为。
然而,上述方法只能进行个别识别并处理,无法得到整个团伙信息,执行效率低。对于刷单次数阈值的方法,作弊团伙可以通过尝试探索出阈值限定,容易摸清策略规律,躲避策略,进而将刷单次数限定在阈值内。
鉴于以上,需要一种高效且不容易规避的方法来识别出作弊团伙,以减少应用运营商的损失。本公开提出了一种发现服务应用中的用户群的方法,其能够识别出在服务应用中实施作弊行为的团伙。根据本公开的实施例,可以基于司机与乘客之间的订单关系,结合彼此之间的订单次数,使用基于图的社区发现算法对进行作弊团伙识别。
图1示出了根据本公开的实施例的用于发现服务应用中的用户群的方法100的示例流程图,包括:在步骤110,基于多个用户使用服务应用的多个订单来产生用户图,用户图的节点表示用户,用户图的边的两个节点分别表示订单的服务发起方用户和服务接收方用户,边的权重表示相应用户彼此之间产生的订单的数目。方法100还包括:在步骤120,根据边的权重来聚合用户图中的节点,以获得用户图的一个或多个子图,每个子图代表一个用户群。
以下详细说明生成用户图的步骤110。在执行步骤110之前,可以从数据库中获取的用户信息表和订单明细表,并对所获取的表进行数据清洗、数据筛选、数据降维等预处理过程,以生成用于构建用户图的订单数据集。
数据预处理包括但不限于去除表中的重复数据、空值数据、异常数据等,从表中选取算法所需要字段。由于数据表往往包括大量冗余信息,需要通过数据清洗并选取所需字段,以减少数据冗余,提高算法的运行效率。将使用这些表自身的信息,以及这些表之间的交叉匹配信息来判断推荐人是否具有较高的作弊嫌疑。
图2A示出了根据本公开的实施例的用户信息表210的示例字段。如图2A所示,经过数据预处理之后,用户信息表210可以包括与用户真实身份相关联的信息,包括但不限于:用户ID、真实姓名、身份证号、手机号、经加密的手机号(例如,md5加密)、移动设备号(例如,手机的IMEI)、社交网络应用ID(例如微信账号等)、支付应用ID(例如支付宝账号、银行借记卡或信用卡账号等)、生物特征(例如,加密的人脸识别特征、指纹特征等)、或者其他与用户的真实身份信息相关联的信息。需要说明的是,在服务应用内,除了唯一标识用户的用户ID之外,用户信息表210中的其他属性或字段均可以具有多个值。例如,用户可以具有与其相关联的多个手机号(及相关联的加密的手机号)、多台移动设备号、多个社交网络用户ID、多个支付应用ID等。另外,在一些实施例中,用户ID可以分为多种类型,例如,乘客ID和司机ID,乘客ID仅能够用于发起服务请求,而司机ID仅能够用于接受服务请求。而且,在一些实施例中,可以使用诸如真实姓名、身份证号、手机号的标识等来注册乘客ID和司机ID二者,从而一个标识可能对应于应用内的多个用户ID。
如图2B所示,经过数据预处理之后,订单明细表220可以包括但不限于:订单ID、乘客ID、乘客信息(例如,经加密的手机号)、司机ID、司机信息(例如,经加密的手机号)、订单状态、开始/完成时间、订单时长、起点位置、终点位置、订单里程、订单费用、优惠券金额等。订单ID是订单明细表220的主键,用于唯一标识订单。在交通出行应用中,乘客ID和司机ID可以表示应用内的用户彼此之间形成的出行订单中的两类用户ID。例如,应用内的一个用户可以发起用车请求,响应于该用户请求被另一个用户接受产生订单,发起用车请求的用户ID可以被记录为乘客ID,而接受请求的用户ID可以被记录为司机ID,反之亦然。由此可以看出,通过用于唯一标识应用内的用户的用户ID信息,可以实现跨用户信息表210和订单明细表220之间的信息查询。订单明细表220中的其他信息,例如订单状态、开始/完成时间、订单时长、起点位置、终点位置、订单里程、订单费用、优惠券金额等信息,可以用于检查该订单是否是非正常订单,由此可以判断订单是否为非正常订单。
根据本公开的实施例,可以对订单明细表220进行过滤操作。例如,在本发明的应用场景中,由于作弊行为的目的是获取订单优惠券或奖励,进行套现,因此可以限定过滤后的订单明细表中的订单具有大于或等于预设阈值Ck的优惠券金额。另外,还可以过滤订单的状态为已完成订单。在一个实施例中,可以选择一段时间内的订单进行作弊分析,例如,可以限定订单的开始或完成时间在指定的时间窗内,例如10天,但不限于此,由此可以获取这10天内的订单。
根据本公开的实施例,可以使用生成订单的服务请求方和服务接收方不可相同的用户信息作为主键,例如,司机、乘客的主键可以用md5加密的手机号表示。替代地,还可以使用其他真身信息,例如,身份证号等。由于在生成订单、且司机ID和乘客ID是两种不同类型的ID(即,乘客ID仅用于发起订单,司机ID仅用于接受订单)的场景中,乘客与司机有可能角色互换,如甲用手机号注册了司机账号D1,用同一手机号注册了乘客账号P1;乙用手机号注册了司机账号D2,用同一手机号注册了乘客账号P2。(P1,D2),(P2,D1)其实均为真实身份(甲,乙)的联合刷单。因此,作弊团伙识别中,用手机号等真身信息作为主键可能更为合理,增加了团伙识别的准确性。
在一个实施例中,在订单明细表220包括用户的经加密的手机号的情况下,可以从订单明细表220产生用于构建用户图的订单数据集,数据集中的每个元素具有例如(司机D,乘客P,订单量)的形式,其中,司机D和乘客P可以是相应用户的经加密手机号,作为唯一标识符。替代地,在订单明细表220不包括用户的经加密的手机号的情况下,可以使用司机ID或乘客ID,在用户信息表210中查询到相应的经加密的手机号,由此形成用于构建用户图的订单数据集,其中包括(司机D,乘客P,订单量)的元素。
另外,在统计过程中,可能存在商户大量发单的真实需求,可能存在商户与司机确有高成单量的正常现象。为避免商户误认为作弊团伙,在统计过程中可以预先排除商户名单。
此外,根据本公开的实施例,在形成订单数据集时,还可以设置阈值Tc,使得用于构建用户图的订单数据集(司机D,乘客P,成单量N)中只包括成单量大于阈值Tc的司乘数据集,阈值Tc可以取3次,但不限于此。由此,可以避免用户图中的过多噪声,提高了识别精度。
根据本公开的实施例,可以使用上述订单数据集(司机D,乘客P,成单量N)来生成用户图。例如,针对订单数据集中的每个元素,司机D和乘客P可以映射到用户图上的节点,成单量映射到用户图上这两个节点之间的边,作为边的权重。根据本公开的实施例,如用户图上的节点和节点之间没有边,表示这两个节点之间没有形成过订单;用户图上的节点和节点之间的边的权重表示这两个用户之间形成过的订单的数目。需要注意的是,在本发明的场景中,司机与乘客有可能角色互换,因此这里不区分司机与乘客,使用md5加密手机号作为用户图中的节点。在这种情况下,在订单数据集中的司机和乘客角色互换的元素可以叠加,即,边的权重为这两个元素中的成单量N之和。例如,订单数据集上具有元素E1(a,b,成单量N1),即,b作为乘客,a作为司机的订单有N1次),元素E2(b,a,成单量N2),即,a作为乘客,b作为司机的订单有N2次,其中a和b是加密的手机号。这时,节点a和节点b之间的边的权重可以为N1+N2。换句话说,边的权重表示相应用户作为服务发起方或服务接收方中任一个形成的订单数目的和。由此,产生的用户图可以为无向图。
如方法100的步骤120所述,根据边的权重来聚合用户图中的所述节点,以获得所述用户图的一个或多个子图,每个子图代表一个用户群。根据本公开的实施例,可以使用作弊团伙识别模型对节点进行图算法聚类,得到聚类结果可以为用户图的一个或多个子图,每个子图代表一个用户群,即团伙识别结果。在一个实施例中,聚类结果可以为加密的手机号形成的集合;替代地,在聚类结果另一个{D1,D2,D3,P1,P2,P3,P4,P5,P6,P7}的形式,即团伙成员包括多个乘客与司机。可以理解,结合图2A所示的用户信息表220,可以利用加密的手机号查询到相应的乘客ID和司机ID。
根据本公开的实施例,图聚类算法可以是例如社区发现算法LOUVAIN算法,但不限于此。LOUVAIN算法可以以社区的模块度(modularity)为目标函数Q,最大化整个社区网络的模块度,即让整个社区网络呈现出模块聚集,即一个或多个子图(也可以称为社区)的结构。以下简要描述LOUVAIN算法的步骤:
1)将图中的每个节点看成一个独立的社区,初始时社区的数目与节点个数相同;
2)对每个节点i,依次尝试把节点i分配到其每个邻居节点所在的社区,计算分配前与分配后的模块度变化Delta Q,并记录Delta Q最大的那个邻居节点,如果maxDelta Q>0,则把节点i分配Delta Q最大的那个邻居节点所在的社区,否则保持不变;
3)重复2),直到所有节点的所属社区不再变化;
4)对图进行压缩,将所有在同一个社区的节点压缩成一个新节点,社区内节点之间的边的权重转化为新节点的环的权重,社区间的边权重转化为新节点间的边权重;
5)重复1)直到整个图的模块度不再发生变化。
根据本公开的实施例模块度Q可以至少部分地基于一个或多个子图内部的边的权重之和以及一个或多个子图之间的边的权重之和来计算。由此,通过最大化模块度Q能够将边权重较大的相邻节点聚类到相同的用户群。
需要的注意的是,针对用户图聚类算法,需要收集训练时所需要的训练集数据和本发明实现的作弊团伙模型上线后所需的输入数据。训练数据集除了从数据库中获取的订单明细表,还包括验证步骤,通过验证可以获得的司机乘客是否确实联合作弊数据。由于只有团伙成员数量较大的团伙才有刷单识别的意义,在得到团伙识别结果的用户群后,可以导出用户群中的节点数量大于或等于预设阈值Ng的用户群,将认定为作弊团伙。替代地,也可以导出团伙数量低于阈值Ng的用户群。
根据本公开的实施例,验证可以是线下验证,包括验证用户群内的司机和乘客是否存在多对多的订单关系,即是否为团伙关系。例如,可以求出用户群内的边数和节点数,基于用户群内的边数和节点数之间的关系,确定是否存在多对多的订单关系。可以理解,在用户群的子图中,对于给定的节点数,边数越多,则存在多对多的订单关系的可能性越大。可以设置与节点数相关的函数,将用户群的边数与该函数进行比较,用于线下验证用户群是否存在多对多的订单关系。
另外,线下验证还可以包括验证用户群内的用户之间的订单是否为非正常订单(即团伙成员是否作弊)。非正常订单具有以下任一项或多项:订单的服务发起方用户和服务接收方用户具有相同的社交属性、订单起点和终点重合或接近、订单时长过短、订单里程过短、异地发单、子图(用户群)内的起点和终点聚集的多个订单。例如,可以参照图2B所述的订单明细表220来验证非正常订单。
通过验证可以获得由当前的作弊团伙模型得到的用户群的准确率、精确率、召回率作为验证结果。根据本公开的实施例,模型的准确率、精确率和召回率可以用于进一步调节模型参数,提高模型的准确率和精确率,降低召回率。例如,在LOUVAIN算法可以通过调节resolution参数改变社区的规模尺寸,也可以调节用户群的成员数量阈值Ng,来获得更准确的作弊团伙。
由上,通过对模型进行多次迭代优化,获得可上线的作弊团伙识别模型。例如,在收集到上线后所需的输入数据,例如10天内的订单明细表之后,将相应的(司机D,乘客P,成单量N)的订单数据集输入训练好的团伙识别模型。可以根据如图1所述的方法100来发现服务应用中的用户群。所识别出的用户群可以包括加密的手机号的集合、服务应用的用户ID(包括乘客ID和司机ID)的集合。
图3示出了根据本公开的实施例的用于发现服务应用中的用户群的装置300的示例框图。装置300包括:用户图生成单元310,被配置用于基于多个用户使用所述服务应用的多个订单来产生用户图,用户图的节点表示用户,用户图的边的两个节点分别表示订单的服务发起方用户和服务接收方用户,边的权重表示相应用户彼此之间产生的订单的数目;以及,聚合单元320,被配置用于根据边的权重来聚合用户图中的节点,以获得用户图的一个或多个子图,每个子图代表一个用户群。
根据本公开的实施例,用户图的节点可以由与用户真实身份相关联的信息来标识,例如,手机号(未加密或经加密)、移动设备号、社交网络应用ID、支付应用ID、生物特征等。如上所述,在作弊团伙识别中,用这种与真实身份相关联的信息作为主键可能更为合理,增加了团伙识别的准确性。
根据本公开的实施例,边的权重可以表示相应用户作为服务发起方或服务接收方中任一个形成的订单数目的和。在一些情况下,服务发起方和服务接收方的角色可能互换,因此,可以将它们的订单数据相加作为边的权重,由此可以生成无向图。
根据本公开的实施例,边的权重可以至少大于或等于第一阈值。在一些情况下,可以过滤掉订单数较少的节点,去除噪声,从而能够提高执行效率和精度。
根据本公开的实施例,每个子图中包括的节点的数目大于或等于第二阈值。由于只有团伙成员数量较大的团伙才有刷单识别的意义,在得到团伙识别结果的用户群后,可以导出用户群中的节点数量大于或等于预设阈值的用户群,将认定为作弊团伙。
根据本公开的实施例,其中聚合可以包括:初始化使得每个节点属于自身构成的子图;迭代地遍历用户图中的每个节点,通过使得用户图的模块度最大化,确定是否要将当前节点并入与其相连的节点所属的其他子图,其中模块度至少部分地基于一个或多个子图内部的边的权重之和以及一个或多个子图之间的边的权重之和来计算。
根据本公开的实施例,装置300还可以包括验证单元330,其被配置用于验证所述用户群内的用户在使用所述应用中是否存在非正常订单以基于验证的结果来调整所述聚合的参数。例如,可以通过验证用户群内的用户是否具有非正常订单,确定聚合的准确率、精确率、召回率,从而调整所述聚合的参数,即,通过验证可以进一步调节模型参数,提高模型的准确率和精确率,降低召回率。
根据本公开的实施例,非正常订单可以包括以下任一项或多项:服务发起方用户和服务接收方用户具有相同的社交属性的订单,起点和终点重合或接近的订单,时长过短的订单,里程过短的订单,所述用户群内的起点和终点聚集的多个订单。
装置300中所包括的单元可以利用各种方式来实现,包括软件、硬件、固件或其任意组合。在一些实施例中,一个或多个单元可以使用软件和/或固件来实现,例如存储在存储介质上的机器可执行指令。除了机器可执行指令之外或者作为替代,装置300中的部分或者全部单元可以至少部分地由一个或多个硬件逻辑组件来实现。作为示例而非限制,可以使用的示范类型的硬件逻辑组件包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD),等等。
图4示出了其中可以实施本公开的一个或多个实施例的计算设备/服务器400的框图。应当理解,图4所示出的计算设备/服务器400仅仅是示例性的,而不应当构成对本文所描述的实施例的功能和范围的任何限制。
如图4所示,计算设备/服务器400是通用计算设备的形式。计算设备/服务器400的组件可以包括但不限于一个或多个处理器或处理单元410、存储器420、存储设备430、一个或多个通信单元440、一个或多个输入设备450以及一个或多个输出设备460。处理单元410可以是实际或虚拟处理器并且能够根据存储器420中存储的程序来执行各种处理。在多处理器系统中,多个处理单元并行执行计算机可执行指令,以提高计算设备/服务器400的并行处理能力。
计算设备/服务器400通常包括多个计算机存储介质。这样的介质可以是计算设备/服务器400可访问的任何可以获得的介质,包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器420可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如,只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或它们的某种组合。存储设备430可以是可拆卸或不可拆卸的介质,并且可以包括机器可读介质,诸如闪存驱动、磁盘或者任何其他介质,其可以能够用于存储信息和/或数据(例如用于训练的训练数据)并且可以在计算设备/服务器400内被访问。
计算设备/服务器400可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图4中示出,可以提供用于从可拆卸、非易失性磁盘(例如“软盘”)进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中,每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。存储器420可以包括计算机程序产品425,其具有一个或多个程序模块,这些程序模块被配置为执行本公开的各种实施例的各种方法或动作。
通信单元440实现通过通信介质与其他计算设备进行通信。附加地,计算设备/服务器400的组件的功能可以以单个计算集群或多个计算机器来实现,这些计算机器能够通过通信连接进行通信。因此,计算设备/服务器400可以使用与一个或多个其他服务器、网络个人计算机(PC)或者另一个网络节点的逻辑连接来在联网环境中进行操作。
输入设备450可以是一个或多个输入设备,例如鼠标、键盘、追踪球等。输出设备460可以是一个或多个输出设备,例如显示器、扬声器、打印机等。计算设备/服务器400还可以根据需要通过通信单元440与一个或多个外部设备(未示出)进行通信,外部设备诸如存储设备、显示设备等,与一个或多个使得用户与计算设备/服务器400交互的设备进行通信,或者与使得计算设备/服务器700与一个或多个其他计算设备通信的任何设备(例如,网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。
根据本公开的示例性实现方式,提供了一种计算机可读存储介质,其上存储有一条或多条计算机指令,其中一条或多条计算机指令被处理器执行以实现上文描述的方法。
这里参照根据本公开实现的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上,使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实现的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实现,上述说明是示例性的,并非穷尽性的,并且也不限于所公开的各实现。在不偏离所说明的各实现的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实现的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其他普通技术人员能理解本文公开的各实现。

Claims (18)

1.一种用于发现服务应用中的用户群的方法,包括:
基于多个用户使用所述服务应用的多个订单来产生用户图,所述用户图的节点表示用户,所述用户图的边的两个节点分别表示订单的服务发起方用户和服务接收方用户,所述边的权重表示相应用户彼此之间产生的订单的数目;以及
根据所述边的所述权重来聚合所述用户图中的所述节点,以获得所述用户图的一个或多个子图,每个子图代表一个用户群。
2.根据权利要求1所述的方法,其中,所述用户图的节点由与用户真实身份相关联的信息来标识。
3.根据权利要求1所述的方法,其中,所述边的权重表示相应用户在使用所述应用中作为服务发起方或服务接收方而形成的订单数目的和。
4.根据权利要求1所述的方法,其中,所述边的权重至少大于或等于第一阈值。
5.根据权利要求1所述的方法,其中,每个子图中包括的节点的数目大于或等于第二阈值。
6.根据权利要求1所述的方法,其中,所述聚合包括:
初始化使得每个节点属于自身构成的子图;
迭代地遍历所述用户图中的每个节点,通过使得所述用户图的模块度最大化,确定是否要将当前节点并入与其相连的节点所属的其他子图,其中所述模块度至少部分地基于所述一个或多个子图内部的边的权重之和以及所述一个或多个子图之间的边的权重之和来计算。
7.根据权利要求1所述的方法,还包括:
验证所述用户群内的用户在使用所述应用中是否存在非正常订单以基于所述验证的结果来调整所述聚合的参数。
8.根据权利要求7所述的方法,其中,所述应用为车辆服务应用,并且其中所述非正常订单包括以下任一项或多项:服务发起方用户和服务接收方用户具有相同的社交属性的订单,起点和终点重合或接近的订单,时长过短的订单,里程过短的订单,所述用户群内的起点和终点聚集的多个订单。
9.一种发现服务应用中的用户群的装置,包括:
用户图生成单元,被配置用于基于多个用户使用所述服务应用的多个订单来产生用户图,所述用户图的节点表示用户,所述用户图的边的两个节点分别表示订单的服务发起方用户和服务接收方用户,所述边的权重表示相应用户彼此之间产生的订单的数目;以及
聚合单元,被配置用于根据所述边的所述权重来聚合所述用户图中的所述节点,以获得所述用户图的一个或多个子图,每个子图代表一个用户群。
10.根据权利要求9所述的装置,其中,所述用户图的节点由与用户真实身份相关联的信息来标识。
11.根据权利要求9所述的装置,其中,所述边的权重表示相应用户在使用所述应用中作为服务发起方或服务接收方而形成的订单数目的和。
12.根据权利要求9所述的装置,其中,所述边的权重至少大于或等于第一阈值。
13.根据权利要求9所述的装置,其中,每个子图中包括的节点的数目大于或等于第二阈值。
14.根据权利要求9所述的装置,其中,所述聚合单元还被配置用于:
初始化使得每个节点属于自身构成的子图;以及
迭代地遍历所述用户图中的每个节点,通过使得所述用户图的模块度最大化,确定是否要将当前节点并入与其相连的节点所属的其他子图,其中所述模块度至少部分地基于所述一个或多个子图内部的边的权重之和以及所述一个或多个子图之间的边的权重之和来计算。
15.根据权利要求1所述的装置,还包括:
验证单元,被配置为验证所述用户群内的用户在使用所述应用中是否存在非正常订单,以基于所述验证的结果来调整所述聚合的参数。
16.根据权利要求15所述的装置,其中,所述非正常订单包括以下任一项或多项:服务发起方用户和服务接收方用户具有相同的社交属性的订单,起点和终点重合或接近的订单,时长过短的订单,里程过短的订单,所述用户群内的起点和终点聚集的多个订单。
17.一种电子设备,包括:
处理器;以及
存储器,耦合至所述处理器并且包含存储于其上的指令,所述指令在由所述处理器执行时使所述电子设备执行根据权利要求1至8中任一项所述的方法。
18.一种计算机可读存储介质,其上存储有一条或多条计算机指令,其中所述一条或多条计算机指令被处理器执行以实现根据权利要求1至8中任一项所述的方法。
CN202011166075.9A 2020-10-27 2020-10-27 发现服务应用中的用户群的方法、装置、设备和介质 Pending CN112184267A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011166075.9A CN112184267A (zh) 2020-10-27 2020-10-27 发现服务应用中的用户群的方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011166075.9A CN112184267A (zh) 2020-10-27 2020-10-27 发现服务应用中的用户群的方法、装置、设备和介质

Publications (1)

Publication Number Publication Date
CN112184267A true CN112184267A (zh) 2021-01-05

Family

ID=73922277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011166075.9A Pending CN112184267A (zh) 2020-10-27 2020-10-27 发现服务应用中的用户群的方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN112184267A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112967105A (zh) * 2021-03-03 2021-06-15 北京嘀嘀无限科技发展有限公司 订单信息的处理方法、设备、存储介质及计算机程序产品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108295476A (zh) * 2018-03-06 2018-07-20 网易(杭州)网络有限公司 确定异常交互账户的方法和装置
CN109598563A (zh) * 2019-01-24 2019-04-09 北京三快在线科技有限公司 刷单检测方法、装置、存储介质和电子设备
CN110751493A (zh) * 2019-10-11 2020-02-04 支付宝(杭州)信息技术有限公司 基于历史预约订单的风险防控方法以及装置
US10554665B1 (en) * 2019-02-28 2020-02-04 Sailpoint Technologies, Inc. System and method for role mining in identity management artificial intelligence systems using cluster based analysis of network identity graphs
CN111523831A (zh) * 2020-07-03 2020-08-11 支付宝(杭州)信息技术有限公司 风险团伙的识别方法、装置、存储介质和计算机设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108295476A (zh) * 2018-03-06 2018-07-20 网易(杭州)网络有限公司 确定异常交互账户的方法和装置
CN109598563A (zh) * 2019-01-24 2019-04-09 北京三快在线科技有限公司 刷单检测方法、装置、存储介质和电子设备
US10554665B1 (en) * 2019-02-28 2020-02-04 Sailpoint Technologies, Inc. System and method for role mining in identity management artificial intelligence systems using cluster based analysis of network identity graphs
CN110751493A (zh) * 2019-10-11 2020-02-04 支付宝(杭州)信息技术有限公司 基于历史预约订单的风险防控方法以及装置
CN111523831A (zh) * 2020-07-03 2020-08-11 支付宝(杭州)信息技术有限公司 风险团伙的识别方法、装置、存储介质和计算机设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112967105A (zh) * 2021-03-03 2021-06-15 北京嘀嘀无限科技发展有限公司 订单信息的处理方法、设备、存储介质及计算机程序产品

Similar Documents

Publication Publication Date Title
US11276014B2 (en) Mint-and-burn blockchain-based feedback-communication protocol
Chen et al. Towards model-based pricing for machine learning in a data marketplace
US11321717B2 (en) System and method for analyzing transaction nodes using visual analytics
US11017329B2 (en) Dampening token allocations based on non-organic subscriber behaviors
US10163056B2 (en) Systems and methods for partitioning sets of features for a Bayesian classifier
WO2018098598A1 (en) Digital banking platform and architecture
CN109690539A (zh) 自清理令牌库
CN105335852B (zh) 用于对欺诈性电子交易的增强型检测的系统和方法
CN111367965B (zh) 目标对象确定方法、装置、电子设备及存储介质
CN112184334A (zh) 用于确定问题用户的方法、装置、设备和介质
WO2016187045A1 (en) Method and system for attributing transactions to an account
CN102208061A (zh) 数据核销处理装置和数据核销处理方法
CN112184267A (zh) 发现服务应用中的用户群的方法、装置、设备和介质
Nalepa et al. Adaptive guided ejection search for pickup and delivery with time windows
US10607300B1 (en) Ad hoc electronic messaging using financial transaction data
AU2018306317A1 (en) System and method for detecting and responding to transaction patterns
CN117094764A (zh) 银行积分处理方法及装置
WO2022072626A1 (en) Dampening token allocations based on non-organic subscriber behaviors
CN109389487A (zh) 一种评估用户还款风险的方法和装置
CN113055401B (zh) 一种企业业务的授权处理方法及装置
CN111932368B (zh) 一种信用卡发卡系统及其构建方法、装置
US20230080661A1 (en) Dynamic augmenting of relevance rankings using data from external ratings sources
US11200518B2 (en) Network effect classification
CN114240685A (zh) 一种基于关系网络的高净值客户信息处理方法及系统
CN117372111A (zh) 资源处理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination