CN111782813A - 一种用户社群的评价方法、装置及设备 - Google Patents

一种用户社群的评价方法、装置及设备 Download PDF

Info

Publication number
CN111782813A
CN111782813A CN202010647688.8A CN202010647688A CN111782813A CN 111782813 A CN111782813 A CN 111782813A CN 202010647688 A CN202010647688 A CN 202010647688A CN 111782813 A CN111782813 A CN 111782813A
Authority
CN
China
Prior art keywords
users
information
merchants
community
comment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010647688.8A
Other languages
English (en)
Other versions
CN111782813B (zh
Inventor
陈永环
侯辉超
张正雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010647688.8A priority Critical patent/CN111782813B/zh
Publication of CN111782813A publication Critical patent/CN111782813A/zh
Application granted granted Critical
Publication of CN111782813B publication Critical patent/CN111782813B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0639Item locations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Tourism & Hospitality (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例公开了一种用户社群的评价方法、装置及设备,该方法包括获取多个不同用户对商户的评论信息;基于所述多个不同用户对商户的评论信息,构建用户与商户之间的二部图,其中,所述二部图中的节点基于用户和商户确定,所述二部图中的边线基于用户对商户的评论信息确定;基于所述多个不同用户的信息、相应商户的信息和所述用户与商户之间的二部图进行图嵌入Graph Embedding处理,得到所述多个不同用户的嵌入Embedding特征;基于所述多个不同用户的Embedding特征,对所述多个不同用户进行聚类,得到分簇的用户社群;针对每个所述分簇的用户社群,基于所述分簇的用户社群中用户对商户的评论信息,确定所述分簇的用户社群是否为恶意评论社群。

Description

一种用户社群的评价方法、装置及设备
技术领域
本说明书涉及计算机技术领域,尤其涉及一种用户社群的评价方法、装置及设备。
背景技术
伴随着数字生活的兴起,网络黑灰产也愈发猖獗,主要体现在黑灰产的团伙化,比如对某商户的某商品进行恶意评论或评价,例如用户的评论信息中包含涉及赌博类或信息推广类等不良信息。如果单从评论信息的内容维度进行上述风险防控,由于评论信息是用户主观输入的信息,因此评论信息存在变形快、对抗快等防控难点,难以及时对恶意的评论信息进行识别,因此需要从账号主体维度对进行恶意评论的用户社群进行打击,尤其是对存在恶意评论风险较大的用户社群进行重点打击,因此急需建设恶意评论的用户社群的挖掘能力。
恶意评论的用户社群的挖掘方法,通常可以根据用户账户之间的介质关系进行构图,然后,可以采用如Louvain算法、I-Louvain算法、FRAUDAR算法、LPA算法或InfoMap算法对不同的用户进行社群划分,但是,上述方式下黑灰产账户进行风险的对抗,很多账户之间不存在介质关系,因此应用范围存在较大的局限性,因此,需要提供一种更优的用户社群的挖掘方案,从而可以对用户社群中的存在的恶意评论社群进行快速和准确的挖掘。
发明内容
本说明书实施例的目的是提供一种更优的用户社群的挖掘方案,从而可以对用户社群中的存在的恶意评论社群进行快速和准确的挖掘。
为了实现上述技术方案,本说明书实施例是这样实现的:
本说明书实施例提供的一种用户社群的评价方法,所述方法包括:获取多个不同用户对商户的评论信息。基于所述多个不同用户对商户的评论信息,构建用户与商户之间的二部图,其中,所述二部图中的节点基于用户和商户确定,所述二部图中的边线基于用户对商户的评论信息确定。基于所述多个不同用户的信息、相应商户的信息和所述用户与商户之间的二部图进行图嵌入GraphEmbedding处理,得到所述多个不同用户的嵌入Embedding特征。基于所述多个不同用户的Embedding特征,对所述多个不同用户进行聚类,得到分簇的用户社群。针对每个所述分簇的用户社群,基于所述分簇的用户社群中用户对商户的评论信息,确定所述分簇的用户社群是否为恶意评论社群。
本说明书实施例提供的一种用户社群的评价装置,所述装置包括:评论信息获取模块,获取多个不同用户对商户的评论信息。二部图构架模块,基于所述多个不同用户对商户的评论信息,构建用户与商户之间的二部图,其中,所述二部图中的节点基于用户和商户确定,所述二部图中的边线基于用户对商户的评论信息确定。图嵌入模块,基于所述多个不同用户的信息、相应商户的信息和所述用户与商户之间的二部图进行图嵌入GraphEmbedding处理,得到所述多个不同用户的嵌入Embedding特征。聚类模块,基于所述多个不同用户的Embedding特征,对所述多个不同用户进行聚类,得到分簇的用户社群。用户社群评价模块,针对每个所述分簇的用户社群,基于所述分簇的用户社群中用户对商户的评论信息,确定所述分簇的用户社群是否为恶意评论社群。
本说明书实施例提供的一种用户社群的评价设备,所述用户社群的评价设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:获取多个不同用户对商户的评论信息。基于所述多个不同用户对商户的评论信息,构建用户与商户之间的二部图,其中,所述二部图中的节点基于用户和商户确定,所述二部图中的边线基于用户对商户的评论信息确定。基于所述多个不同用户的信息、相应商户的信息和所述用户与商户之间的二部图进行图嵌入Graph Embedding处理,得到所述多个不同用户的嵌入Embedding特征。基于所述多个不同用户的Embedding特征,对所述多个不同用户进行聚类,得到分簇的用户社群。针对每个所述分簇的用户社群,基于所述分簇的用户社群中用户对商户的评论信息,确定所述分簇的用户社群是否为恶意评论社群。
本说明书实施例还提供了一种存储介质,其中,所述存储介质用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:获取多个不同用户对商户的评论信息。基于所述多个不同用户对商户的评论信息,构建用户与商户之间的二部图,其中,所述二部图中的节点基于用户和商户确定,所述二部图中的边线基于用户对商户的评论信息确定。基于所述多个不同用户的信息、相应商户的信息和所述用户与商户之间的二部图进行图嵌入Graph Embedding处理,得到所述多个不同用户的嵌入Embedding特征。基于所述多个不同用户的Embedding特征,对所述多个不同用户进行聚类,得到分簇的用户社群。针对每个所述分簇的用户社群,基于所述分簇的用户社群中用户对商户的评论信息,确定所述分簇的用户社群是否为恶意评论社群。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一种用户社群的评价方法实施例;
图2为本说明书一种二部图的结构示意图;
图3为本说明书另一种用户社群的评价方法实施例;
图4为本说明书一种用户社群的评价装置实施例;
图5为本说明书一种用户社群的评价设备实施例。
具体实施方式
本说明书实施例提供一种用户社群的评价方法、装置及设备。
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
实施例一
如图1所示,本说明书实施例提供一种用户社群的评价方法,该方法的执行主体可以为终端设备或服务器,其中,该服务器可以是独立的一个服务器,还可以是由多个服务器构成的服务器集群等,该服务器可以是如金融业务或网络购物业务等的后台服务器,也可以是某应用程序的后台服务器等。该终端设备可以如手机或平板电脑等移动终端设备,还可以如个人计算机等设备。本说明书实施例中以执行主体为服务器为例进行详细说明,对于终端设备的情况,可以参见下述相关内容,在此不再赘述。该方法可以应用于具有评论体系的应用系统中。该方法具体可以包括以下步骤:
在步骤S102中,获取多个不同用户对商户的评论信息。
其中,用户可以是购买某商户的某商品的任意用户,或者,对某商户进行评论或对某商户的某一个或多个商品进行评论的任意用户。商户可以是在线下实体店铺的商户,也可以是某网络购物平台中的商户等。评论信息可以是某用户对某商户和/或该商户的商品进行评论或评价的相关信息,该评论信息中可以包括多种不同的评论项目,如商户的服务、商品的描述、商品的使用体验、商品质量等,不同的评论项目对应的评论信息可以不同,不同用户对同一商户或同一商品的同一评论项目的评论信息可以不同,此外,评论信息中还可以不存在上述评论项目,而仅是用户对商户提供服务的过程中的主观评论或评价或用户对该商户的商品的购买过程中的主观评论或评价等,例如“质感很好,应该是正品,包装也是齐全的没有破损,这个价格已经是性价比最高的了!很满意!”。
在实施中,伴随着数字生活的兴起,网络黑灰产也愈发猖獗,主要体现在黑灰产的团伙化,比如对某商户的某商品进行恶意评论或评价,例如用户的评论信息中包含涉及赌博类或信息推广类等不良信息。如果单从评论信息的内容维度进行上述风险防控,由于评论信息是用户主观输入的信息,因此评论信息存在变形快、对抗快等防控难点,难以及时对恶意的评论信息进行识别,因此需要从账号主体维度对进行恶意评论的用户社群进行打击,尤其是对存在恶意评论风险较大的用户社群进行重点打击,因此急需建设恶意评论的用户社群的挖掘能力。
恶意评论的用户社群的挖掘方法,通常可以根据用户账户之间的介质关系进行构图,然后,可以采用如Louvain算法、I-Louvain算法、FRAUDAR算法、LPA算法或InfoMap算法对不同的用户进行社群划分,但是,上述方式下黑灰产账户进行风险的对抗,很多账户之间不存在介质关系,因此应用范围存在较大的局限性,因此,需要提供一种更优的用户社群的挖掘方案,从而可以对用户社群中的存在的恶意评论社群进行快速和准确的挖掘。本说明书实施例提供一种可实现的技术方案,具体可以包括以下内容:
为了从对商户或商户的商品进行评论的信息中挖掘出恶意评论社群,进而打击相应的网络黑灰产,可以从预定的网络购物平台中获取多个不同用户对商户的评论信息,或者,也可以是从某一个商户的网站中获取多个不同用户对该商户的评论信息或从预先指定的多个不同商户的网站中分别获取多个不同用户对商户的评论信息等。其中,可以是对某一个或多个不同商户的评论信息,也可以是对同一商户的不同商品的评论信息等,例如,用户A对商户1的评论信息A1,用户A对商户2的评论信息A2,用户B对商户1的评论信息B1,用户B对商户2的评论信息B2;用户A对商户1的商品a的评论信息A11,用户A对商户2的商品b的评论信息A22,用户B对商户1的商品a的评论信息B11,用户B对商户2的商品b的评论信息B22等。
需要说明的是,上述获取多个不同用户对商户的评论信息的处理可以是获取预定时间段内多个不同用户对商户的评论信息,还可以是当前网络购物平台或相应的网站中已存在的评论信息,具体可以根据实际情况设定,本说明书实施例对此不做限定。基于上述内容,获取的评论信息可以是对某一指定商户的评论信息,进一步的,可以是对某一指定商户的某一个或多个商品的评论信息,或者,也可以是对指定的多个不同商户的评论信息,进一步的,可以是对指定的多个不同商户中每个商户的某一个或多个商品的评论信息等,具体可以根据实际情况设定,本说明书实施例对此不做限定。此外,获取的评论信息不仅仅可以包括评论内容的信息,还可以包括评论信息的数量(可以包括针对某一指定商户的评论信息的数量等)。
在步骤S104中,基于多个不同用户对商户的评论信息,构建用户与商户之间的二部图,其中,该二部图中的节点基于用户和商户确定,该二部图中的边线基于用户对商户的评论信息确定。
其中,二部图也可以称为二分图,二部图是图论中的一种特殊模型,二部图可以是能够将顶点(或可以称为节点)集分割为两个互不相交的子集,并且图中每条边线依附的两个节点都分别属于上述两个互不相交的子集,上述两个互不相交的子集内的节点不相邻。基于上述内容,二部图中可以包括节点(即上述的顶点)和边线,节点可以基于用户和商户确定,在实际应用中,可以将一个用户作为一个节点,一个商户作为一个节点,由用户构建的节点与由商户构建的节点可以分别位于两个互不相交的子集,边线可以基于用户对商户的评论信息确定,例如某用户对某商户的评论次数(即评论信息的数量等),若某用户对某商户的评论次数大于或等于1,则该用户的节点与该商户的节点之间存在边线,若某用户对某商户的评论次数为0,则该用户的节点与该商户的节点之间不存在边线等,在实际应用中,上述方式仅是一种可选的方式,在实际应用中,还可以包括多种不同的边线构建方式,具体可以根据实际情况设定,本说明书实施例对此不做限定。
在实施中,通过上述方式得到多个不同用户对商户的评论信息后,可以从中获取包含的用户的相关信息,如用户标识(具体如用户的账号、昵称等),此外,还可以从中获取包含的商户的相关信息,如商户标识(具体如上述的账号、名称等),可以基于获取的用户的相关信息和商户的相关信息分别构建用户对应的节点和商户对应的节点,并可以将构建的用户对应的节点和商户对应的节点作为二部图中两个互不相交的节点集,然后,可以以每个用户是否对每个商户进行评论(可以通过是否存在该用户对该商户的评论信息的方式进行判断,如果存在该用户对该商户的评论信息,则判定该用户对该商户进行评论,如果不存在该用户对该商户的评论信息,则判定该用户未对该商户进行评论)来确定二部图中的边线,即如果某用户对某商户进行评论,则该用户与该商户之间存在一条边线,如果某用户对某商户未进行评论,则该用户与该商户之间不存在边线,通过上述方式可以得到不同用户与商户之间的边线,基于得到的边线、上述用户对应的节点和商户对应的节点,可以得到用户与商户之间的二部图。
如图2所示的二部图,左侧为用户对应的节点的集合,包括用户A、用户B、用户C…,右侧为用户对应的节点的集合,包括商户1、商户2、商户3…,上述两个集合作为二部图中两个互不相交的节点集。其中,用户A与商户2之间的连线、用户A与商户3之间的连线、用户B与商户1之间的连线、用户C与商户2之间的连线等均为二部图中边线。
需要说明的是,二部图中的边线不仅可以表示用户对该商户进行了评论,还可以为每条边线设置权重,该权重可以通过多种方式设定,例如可以基于不同用户的评论权重设定,其中的用户的评论权重可以预先根据实际情况设定,例如可以根据用户在历史评论中的用户的真实程度、可信程度、重要程度等设定,在实际应用中,可以直接将用户的评论权重作为相应边线的权重,或者,还可以将用户的评论次数作为相应边线的权重等,具体可以根据实际情况设定,本说明书实施例对此不做限定。
在步骤S106中,基于多个不同用户的信息、相应商户的信息和上述用户与商户之间的二部图进行图嵌入Graph Embedding处理,得到多个不同用户的嵌入Embedding特征。
其中,图嵌入Graph Embedding处理可以是一种将图数据(通常为高维度的稠密矩阵)映射为低维度的稠密向量的处理过程,图嵌入Graph Embedding需要捕捉到图的拓扑结构,节点与节点之间的关系,以及其他的信息(如其它图或边线等)。如果有更多的信息被表示出来,则下游的任务将会获得更好的表现,在嵌入的过程中可以存在一种共识,即向量空间中保持连接的节点彼此靠近,基于此,还提出了拉普拉斯特征映射(LaplacianEigenmaps)和局部线性嵌入(Locally Linear Embedding,LLE)等。图嵌入GraphEmbedding可以分为两种,即节点嵌入和图嵌入,当需要在图级别(graph-level)上进行预测或者整个图结构预测,需要将整个图表示为一个向量进行嵌入表示。图嵌入GraphEmbedding是将整个图用一个向量表示的方法,以Graph2vec方式为例,Graph2vec方式是基于Skip-Gram模型的思想,把整个图编码到向量空间。Graph2vec方式可以包括以下处理:采样并重新标记图中的所有子图,子图是出现在所选节点周围的一组节点,子图中的节点距离所选择的边线小于预定距离阈值;训练Skip-Gram模型,经过训练,可以最大程度地预测输入中存在于图中的子图的概率;通过在输入处提供子图的标识索引向量来计算图嵌入Graph Embedding等。
在实施中,通过上述步骤S104的处理可以得到用户与商户之间的二部图,为了能够使得后续的处理结果更加准确、更加有效,可以获取上述二部图中包含的多个不同用户的相关信息,例如用户发布的评论信息、用户的账户信息、用户的买家信用信息等,此外,还可以获取上述二部图中包含的商户的相关信息,例如商户的账户信息、商户所属的类型(如具有实体店铺的商户、网络销售商户等)、商户销售的商品的相关信息等。可以基于用户与商户之间的二部图(可以包括其中的用户对应的节点、商户对应的节点和边线),并结合用户的相关信息和商户的相关信息,可以进行Graph Embedding处理,以Graph2vec方式为例,可以采样并重新标记二部图中的所有子图,子图是出现在所选节点周围的一组节点,子图中的节点距离所选择的边线小于预定距离阈值,然后,可以训练Skip-Gram模型,经过训练,可以最大程度地预测输入中存在于二部图中的子图的概率,最后,通过在输入处提供子图的标识索引向量计算Graph Embedding,从而得到多个不同用户的嵌入Embedding特征。
需要说明的是,上述进行图嵌入Graph Embedding处理的方式仅是一种可选的方式,在实际应用中,还可以包括多种不同的实现方式,具体可以根据实际情况设定,本说明书实施例对此不做限定。
在步骤S108中,基于多个不同用户的Embedding特征,对多个不同用户进行聚类,得到分簇的用户社群。
在实施中,可以根据实际情况预先设定聚类的算法,如DBSCAN算法、OPTICS算法、DENCLUE算法等。通过上述步骤S106的处理得到多个不同用户的Embedding特征后,可以基于多个不同用户的Embedding特征对用户进行聚类处理,从而将属于同一类型(如具有相同的某一个属性或多个不同属性)的用户聚合为一个分簇,例如,以OPTICS算法为例,可以将多个不同用户的Embedding特征作为OPTICS算法的输入数据,并可以将每个Embedding特征作为一个节点,确定Embedding特征之间的可达距离和核心距离等,可以建立两个队列,有序队列(核心节点及该核心节点的直接密度可达节点),结果队列;从多个不同用户的Embedding特征对应的节点中选择一个未处理且未核心对象的节点,将该节点放入结果队列,该节点的直接密度可达节点放入有序队列,直接密度可达节点并按可达距离升序排列;如果有序序列为空,则回到上一步骤,否则从有序队列中取出第一个节点;判断该节点是否为核心点,若不是,则回到上一步骤,若是,则将该节点存入结果队列;该节点是核心点,确定其所有直接密度可达节点,并将该节点放入有序队列,且将有序队列中的节点按照可达距离重新排序,如果该节点已经在有序队列中且新的可达距离小于预定阈值,则更新该节点的可达距离,重复上述处理过程,直至有序队列为空为止,最终可以得到经过分簇的用户社群。
在步骤S110中,针对每个分簇的用户社群,基于分簇的用户社群中用户对商户的评论信息,确定分簇的用户社群是否为恶意评论社群。
在实施中,可以预先设定恶意评论信息所具备的特征或特性,例如,恶意评论信息中包含某中或多种不同的关键词、关键语句、关键语义或语句结构等,具体可以根据实际情况设定,本说明书实施例对此不做限定,可以基于该特征或特性来判断评论信息是否为恶意评论信息。通过上述步骤S108的处理得到一个或多个分簇的用户社群后,可以从中任选一个分簇的用户社群,然后,可以获取该分簇的用户社群中用户对商户的评论信息,可以分别对该分簇的用户社群中每个用户对商户的评论信息进行分析,如通过预先设定的恶意评论信息所具备的特征或特性,分别对该分簇的用户社群中每个用户对商户的评论信息进行分析,确定用户对商户的评论信息中是否具备上述特征或特性,如果某用户对商户的评论信息中具备上述特征或特性,则可以将该评论信息标记为恶意评论信息。通过上述处理方式可以确定每个分簇的用户社群中用户对商户的评论信息中包括恶意评论信息的数量,如果某个分簇的用户社群中用户对商户的评论信息中包括恶意评论信息的数量超过预先设定的阈值,则可以将该分簇的用户社群确定为恶意评论社群,如果该分簇的用户社群中用户对商户的评论信息中包括恶意评论信息的数量未超过预先设定的阈值,则可以继续对其它分簇的用户社群进行判断,直到对所有的分簇的用户社群判定完毕为止,最终可以得到上述一个或多个分簇的用户社群中包含恶意评论社群的数量。还可以将确定的恶意评论社群的相关信息提供给技术人员,以便技术人员对恶意评论社群中的用户进行如警告、冻结账户等处理。
本说明书实施例提供一种用户社群的评价方法,通过获取多个不同用户对商户的评论信息,基于多个不同用户对商户的评论信息,构建用户与商户之间的二部图,其中,二部图中的节点基于用户和商户确定,二部图中的边线基于用户对商户的评论信息确定,这样通过引入二部图进行恶意评论社群的挖掘,克服了相关技术中用户不存在介质关系的难点,并通过用户对商户的评论信息进行二部图中节点和边线的构建,从而提高了恶意评论社群的挖掘精度。此外,基于多个不同用户的信息、相应商户的信息和用户与商户之间的二部图进行图嵌入Graph Embedding处理,得到多个不同用户的嵌入Embedding特征,并基于多个不同用户的Embedding特征,对多个不同用户进行聚类,得到分簇的用户社群,针对每个分簇的用户社群,基于分簇的用户社群中用户对商户的评论信息,确定分簇的用户社群是否为恶意评论社群,这样,可以同时融合用户对商户的评论信息、相应的商户的信息进行Embedding处理,并同时融合二部图中的关联关系,进行节点的Embeding处理,这样业务上同时融合了用户对商户的评论信息,可以直接采用聚类算法进行聚类得到分簇的用户社群,然后预测该分簇的用户社群为恶意评论社群的概率,从而挖掘出恶意评论社群,进一步提高了恶意评论社群的挖掘精度。
实施例二
如图3所示,本说明书实施例提供一种用户社群的评价方法,该方法的执行主体可以为终端设备或服务器,其中,该服务器可以是独立的一个服务器,还可以是由多个服务器构成的服务器集群等,该服务器可以是如金融业务或网络购物业务等的后台服务器,也可以是某应用程序的后台服务器等。该终端设备可以如手机或平板电脑等移动终端设备,还可以如个人计算机等设备。本说明书实施例中以执行主体为服务器为例进行详细说明,对于终端设备的情况,可以参见下述相关内容,在此不再赘述。该方法可以应用于具有评论体系的应用系统中。该方法具体可以包括以下步骤:
在步骤S302中,获取多个不同用户对商户的评论信息。
在步骤S304中,基于多个不同用户对商户的评论信息,构建用户与商户之间的二部图。
其中,二部图中的节点可以分别为用户和商户,可以如图2所示。可以将用户对商户进行评论的评论次数作为二部图中相应的节点之间的边线的构建条件,即如果某用户对某商户进行评论的评论次数超过1次,则可以确定该用户对应的节点与该商户对应的节点之间可以构建边线。此外,还可以将用户对商户进行评论的评论次数(可以通过用户对商户的评论信息的数量确定)作为二部图中相应的节点之间的边线对应的权重,例如,如图2中的用户A对商户2的评论次数为2,则可以基于该评论次数2设定相应的节点之间的边线对应的权重,具体如权重为2或基于评论次数2进行相应的计算得到的数值作为权重等。通过上述方式可以得到用户与商户之间的二部图,二部图的具体形式可以参见图2所示。在实际应用中,还可以包括多种不同的二部图构建方式,上述方式仅是一种可选的可实现的方式,具体可以根据实际情况设定。
上述构建用户与商户之间的二部图的具体处理过程可以参见上述实施例一中的相关内容,在此不再赘述。
在步骤S306中,获取多个不同用户的信息,以及相应商户的信息,该用户的信息中至少包括用户对商户的评论信息,该商户的信息包括该商户所属的类型、该商户的商品对应的品类信息、该商户所处的位置信息中的一项或多项。
在实施中,为了能够使得后续的处理结果更加准确、更加有效,可以获取上述二部图中包含的多个不同用户的相关信息,以及相应商户的信息,其中,多个不同用户的相关信息和相应商户的信息可以以文本信息的方式获取,即可以获取用户对商户的评论信息对应的文本信息、商户所属的类型的文本信息、该商户的商品对应的品类的文本信息、该商户所处的位置的文本信息等。
在步骤S308中,分别对多个不同用户的信息进行嵌入Embedding处理,得到每个用户对应的第一预定维度的特征,并分别对相应商户的信息进行Embedding处理,得到每个商户对应的第二预定维度的特征。
其中,第一预定维度与第二预定维度的数值可以相同,也可以不同,例如,第一预定维度与第二预定维度的数值均为300或500等,或者,第一预定维度的数值为300,第二预定维度的数值为500等。Embedding处理可以是用一个低维度的向量表示一个对象,该对象可以是物体、词语、商品或电影等,Embedding处理对应的向量的性质是能使距离相近的向量对应的对象有相近的含义,比如Embedding(复仇者联盟)和Embedding(钢铁侠)之间的距离会很接近,但Embedding(复仇者联盟)和Embedding(乱世佳人)的距离就会较远,
在实施中,可以分别对多个不同用户的信息(即用户对商户的评论信息对应的文本信息)进行Embedding处理,得到每个用户对应的第一预定维度的特征,如分别对多个不同用户的信息进行Embedding处理,可以得到每个用户对应的300维度的特征等。此外,还可以分别对相应商户的信息(商户所属的类型的文本信息、该商户的商品对应的品类的文本信息、该商户所处的位置的文本信息等)进行Embedding处理,得到每个商户对应的第二预定维度的特征,如分别对相应商户的信息进行Embedding处理,可以得每个商户对应的300维度的特征等。
上述多维度的特征可以如下表1所示。
表1
节点 特征1 特征2 特征3 特征4 特征5 特征N
节点1 F11 F12 F13 F14 F15 F1N
节点2 F21 F22 F23 F24 F25 F2N
节点3 F31 F32 F33 F34 F35 F3N
节点4 F41 F42 F43 F44 F45 F4N
其中,还可以包括边线的特征,可以如表2所示。
表2
Figure BDA0002573721500000111
Figure BDA0002573721500000121
在实际应用中,可以通过多种不同的方式对相关信息进行Embedding处理,以下提供一种可选的处理方式,具体可以包括以下内容:通过预定的BERT模型,分别对相应商户的信息进行Embedding处理;通过预定的BERT模型,分别对多个不同用户的信息进行Embedding处理。
其中,BERT模型可以是通过在海量的语料的基础上运行自监督学习方法为词学习一个好的特征表示,其中的自监督学习是指在没有人工标注的数据上运行的监督学习。在以后特定的NLP任务中,可以直接使用BERT模型对应的特征表示词嵌入特征,BERT模型提供的是一个供其它任务迁移学习的模型,该模型可以根据任务微调或者固定之后作为特征提取器。BERT模型的网络架构中可以包括多层Transformer结构,其特点是抛弃了传统的RNN和CNN,通过Attention机制将任意位置的两个词的距离转换成1,从而有效的解决了NLP中的长期依赖问题。Transformer可以是一个Encoder-Decoder的结构,由若干个编码器和解码器堆叠形成,其中的编码器可以由Multi-Head Attention和一个全连接组成,用于将输入语料转化成特征向量。其中的解码器的输入为编码器的输出及已经预测的结果,由Masked Multi-Head Attention,Multi-Head Attention以及一个全连接组成,用于输出最后结果的条件概率。BERT模型输入的编码向量可以是3个嵌入特征的单位和,该三个词嵌入特征可以是WordPiece嵌入、位置嵌入和分割嵌入,其中的WordPiece嵌入可以是指将词语划分成一组有限的公共子词单元,能在词语的有效性和字符的灵活性之间取得一个折中的平衡,其中的位置嵌入可以是指将词语的位置信息编码成特征向量,其中的分割嵌入可以用于区分两个句子。BERT模型可以是一个多任务模型,它的任务是由两个自监督任务组成,即MLM(Masked Language Model)和NSP(Next Sentence Prediction)。
在步骤S310中,基于每个用户对应的第一预定维度的特征、每个商户对应的第二预定维度的特征和用户与商户之间的二部图进行Graph Embedding处理,得到多个不同用户的Embedding特征。
在实施中,由于每个用户对应的第一预定维度的特征相比于用户的信息更加有代表性且重要性突出,相应的,每个商户对应的第二预定维度的特征相比于商户的信息也更加有代表性且重要性突出,因此,可以使用每个用户对应的第一预定维度的特征代替用户的信息,并使用每个商户对应的第二预定维度的特征代替商户的信息,基于用户与商户之间的二部图中的关联关系(即边线的连接关系等),并可以结合每个用户对应的第一预定维度的特征和每个商户对应的第二预定维度的特征进行Graph Embedding处理,得到多个不同用户的Embedding特征,具体的进行Graph Embedding处理的过程可以参见上述实施例一中的相关内容,在此不再赘述。
此外,在实际应用中还可以通过多种方式进行图嵌入Graph Embedding处理,以下提供一种可选的方式,则上述实施例一中步骤S106的处理可以通过以下方式实现:基于多个不同用户的信息、相应商户的信息和用户与商户之间的二部图,通过预定的GraphSage模型进行图嵌入Graph Embedding处理,得到多个不同用户的嵌入Embedding特征。
其中,GraphSage模型可以是针对整个网络的节点的网络结构以及特征的信息提取,GraphSage模型可以将节点的邻居信息也聚合进节点内,能够更好地表示节点的结构特征,GraphSage模型逐层对节点的嵌入进行聚合,下一层的嵌入由上一层的嵌入转化而来,假设其网络的层数为K,其主要思想可以分成以下两个步骤:
在步骤A2中,对于候选节点集合的每个节点,以该节点为中心对该节点的邻居节点进行固定数目的均匀抽样,若节点的邻居节点数目不足该固定数目,则对其邻居节点进行重复采样,从而保证网络结构的一致性。
在步骤A4中,每一层节点的嵌入均由下一层的节点及其邻居节点的嵌入聚合而成,聚合的方式可以如均值、长短时记忆、最大池化等方式,聚合的节点嵌入经过非线性的矩阵变换能够得到新的节点嵌入表示。
在实施中,分别通过上述方式得到多个不同用户的信息、相应商户的信息和用户与商户之间的二部图后,可以基于上述GraphSage模型的相关处理方式,对多个不同用户的信息、相应商户的信息和用户与商户之间的二部图进行图嵌入Graph Embedding处理,最终可以得到多个不同用户的嵌入Embedding特征。
基于上述相关内容,对于对多个不同用户的信息进行嵌入Embedding处理,得到每个用户对应的第一预定维度的特征,并分别对相应商户的信息进行Embedding处理,得到每个商户对应的第二预定维度的特征的情况,还可以通过下述方式得到多个不同用户的嵌入Embedding特征,具体可以包括以下内容:基于每个用户对应的第一预定维度的特征、每个商户对应的第二预定维度的特征和用户与商户之间的二部图,通过预定的GraphSage模型进行图嵌入Graph Embedding处理,得到多个不同用户的嵌入Embedding特征。
上述处理的具体处理过程可以参见上述相关内容,在此不再赘述。
在步骤S312中,基于多个不同用户的Embedding特征,通过DBscan聚类算法对多个不同用户进行聚类,得到分簇的用户社群。
其中,DBscan聚类算法可以是由密度可达关系导出的最大密度相连的对象集合,即为最终聚类的一个类别或者一个簇。DBscan聚类算法对应的簇中可以有一个或者多个核心对象,如果只有一个核心对象,则上述簇中其他的非核心对象都在该核心对象的预定邻域中,如果存在多个核心对象,则上述簇中的任意一个核心对象的预定邻域中一定存在一个其他的核心对象,否则这两个核心对象无法密度可达,核心对象的预定邻域中的所有的对象的集合组成一个DBSCAN聚类簇。DBscan聚类算法可以任意选择一个没有类别的核心对象作为种子,然后找到该核心对象能够密度可达的对象集合,即为一个聚类簇,接着可以继续选择另一个没有类别的核心对象来寻找密度可达的对象集合,从而可以得到另一个聚类簇,一直所有核心对象均具备类别为止。
在实施中,可以基于多个不同用户的Embedding特征,可以从中任选一个Embedding特征,然后可以以选择的Embedding特征作为种子,然后找到该选择的Embedding特征能够密度可达的其它Embedding特征,通过上述DBscan聚类算法对多个不同用户进行聚类,即可以将该选择的Embedding特征能够密度可达的其它Embedding特征聚为一个类别或聚类簇,从而得到分簇的用户社群。
在步骤S314中,针对每个分簇的用户社群,基于该分簇的用户社群中用户对商户的评论信息,确定该分簇的用户社群为恶意评论社群的概率。
在实施中,可以从得到的一个或多个分簇的用户社群中任选一个分簇的用户社群,对于选择的分簇的用户社群,可以执行下述处理:获取该分簇的用户社群中用户对商户的评论信息,然后,可以分别对该分簇的用户社群中每个用户对商户的评论信息进行分析,确定上述评论信息中包含恶意评论信息的数量,并可以将上述评论信息中包含恶意评论信息的数量与上述评论信息的总数量的比值作为该分簇的用户社群为恶意评论社群的概率,例如,该分簇的用户社群中用户对商户的评论信息中包括80个恶意评论信息,该分簇的用户社群中用户对商户的评论信息的总数量为100,则该分簇的用户社群为恶意评论社群的概率可以为80/100=0.8。
需要说明的是,上述确定该分簇的用户社群为恶意评论社群的概率的方式仅是一种可选的可实现的方式,在实际应用中,还可以包括多种不同的实现方式,具体可以根据实际情况设定,本说明书实施例对此不做限定。
针对上述确定该分簇的用户社群为恶意评论社群的概率的方式,本说明书实施例再提供一种可选的方式,具体可以包括以下内容:将上述分簇的用户社群中用户对商户的评论信息输入到预先训练的预测模型中,得到该分簇的用户社群为恶意评论社群的概率,该预测模型为通过监督学习的方式和用户对商户的历史评论信息训练得到。
在实施中,可以根据实际情况获取用户对商户的历史评论信息,在实际应用中,可以通过多种不同的方式获取用户对商户的历史评论信息,例如可以通过购买的方式获取用户对商户的历史评论信息,或者,可以通过奖励的方式请求用户上传对商户的历史评论信息等,具体可以根据实际情况设定,本说明书实施例对此不做限定。通过上述方式获取到用户对商户的历史评论信息后,可以对历史评论信息进行标注,从而标注出恶意的历史评论信息和非恶意的历史评论信息。可以预先设定预测算法,该预测算法可以包括多种,例如随机森林算法或神经网络算法等,具体可以根据实际情况设定。然后,可以基于标注的历史评论信息,通过监督学习的方式和上述预测算法构建相应的预测模型,并可以通过监督学习的方式,基于标注的历史评论信息对上述预测模型进行训练,得到训练后的预测模型。
通过上述方式得到分簇的用户社群中用户对商户的评论信息后,可以将上述分簇的用户社群中用户对商户的评论信息输入到预先训练的预测模型中,得到该分簇的用户社群为恶意评论社群的概率,通过上述方式,可以确定每个分簇的用户社群为恶意评论社群的概率。
在步骤S316中,如果确定的概率大于预设的第一概率阈值,则确定该分簇的用户社群为恶意评论社群。
其中,第一概率阈值可以根据实际情况设定,具体如0.99或0.9等。
在实施中,如果确定的概率足够大,如确定的概率大于预设的第一概率阈值(如确定的概率大于0.99或0.9),则可以确定该分簇的用户社群为恶意评论社群。
在步骤S318中,如果确定的概率处于预设的概率范围内,则将该分簇的用户社群的相关信息提供给预定检测方,以使预定检测方判定该分簇的用户社群是否为恶意评论社群,第一概率阈值大于预设的概率范围内的概率值。
其中,预设的概率范围可以根据实际情况设定,具体如(0.6,0.9)或(0.5,0.85)等。
在实施中,如果确定的概率处于预设的概率范围内,则此时可能无法确定该分簇的用户社群是否为恶意评论社群,需要进一步判断该分簇的用户社群是否为恶意评论社群,此时,可以将该分簇的用户社群的相关信息提供给预定检测方,预定检测方可以基于预先设定的检测方式,对该分簇的用户社群进行进一步的检测,从而判定该分簇的用户社群是否为恶意评论社群,得到相应的结果。可以将确定的恶意评论社群的相关信息提供给技术人员,以便技术人员对恶意评论社群中的用户进行如警告、冻结账户等处理。
本说明书实施例提供一种用户社群的评价方法,通过获取多个不同用户对商户的评论信息,基于多个不同用户对商户的评论信息,构建用户与商户之间的二部图,其中,二部图中的节点基于用户和商户确定,二部图中的边线基于用户对商户的评论信息确定,这样通过引入二部图进行恶意评论社群的挖掘,克服了相关技术中用户不存在介质关系的难点,并通过用户对商户的评论信息进行二部图中节点和边线的构建,从而提高了恶意评论社群的挖掘精度。此外,基于多个不同用户的信息、相应商户的信息和用户与商户之间的二部图进行图嵌入Graph Embedding处理,得到多个不同用户的嵌入Embedding特征,并基于多个不同用户的Embedding特征,对多个不同用户进行聚类,得到分簇的用户社群,针对每个分簇的用户社群,基于分簇的用户社群中用户对商户的评论信息,确定分簇的用户社群是否为恶意评论社群,这样,可以同时融合用户对商户的评论信息、相应的商户的信息进行Embedding处理,并同时融合二部图中的关联关系,进行节点的Embeding处理,这样业务上同时融合了用户对商户的评论信息,可以直接采用聚类算法进行聚类得到分簇的用户社群,然后预测该分簇的用户社群为恶意评论社群的概率,从而挖掘出恶意评论社群,进一步提高了恶意评论社群的挖掘精度。
此外,通过引入用户评论信息、用户的信息和商户的信息或预定维度的特征,进行Embedding处理,并同时融入二部图的结构信息,通过GraphSage模型进行节点的Embeding处理,这样业务上同时融合了用户评论信息的相似性,以及用户和商品的评论的关系信息,可以直接采用DBscan聚类算法进行聚类得到分簇的用户社群,然后再采用监督学习,预测该分簇的用户社群为恶意评论社群的概率,从而挖掘出恶意评论社群,进一步提高了恶意评论社群的挖掘精度。
实施例三
以上为本说明书实施例提供的用户社群的评价方法,基于同样的思路,本说明书实施例还提供一种用户社群的评价装置,如图4所示。
该用户社群的评价装置包括:评论信息获取模块401、二部图构架模块402、图嵌入模块403、聚类模块404和用户社群评价模块405,其中:
评论信息获取模块401,获取多个不同用户对商户的评论信息;
二部图构架模块402,基于所述多个不同用户对商户的评论信息,构建用户与商户之间的二部图,其中,所述二部图中的节点基于用户和商户确定,所述二部图中的边线基于用户对商户的评论信息确定;
图嵌入模块403,基于所述多个不同用户的信息、相应商户的信息和所述用户与商户之间的二部图进行图嵌入Graph Embedding处理,得到所述多个不同用户的嵌入Embedding特征;
聚类模块404,基于所述多个不同用户的Embedding特征,对所述多个不同用户进行聚类,得到分簇的用户社群;
用户社群评价模块405,针对每个所述分簇的用户社群,基于所述分簇的用户社群中用户对商户的评论信息,确定所述分簇的用户社群是否为恶意评论社群。
本说明书实施例中,所述二部图中的节点分别为用户和商户,将用户对商户进行评论的评论次数作为所述二部图中相应的节点之间的边线的构建条件,并将用户对商户进行评论的评论次数作为所述二部图中相应的节点之间的边线对应的权重。
本说明书实施例中,所述装置还包括:
第一信息获取模块,获取所述多个不同用户的信息,以及相应商户的信息,所述用户的信息中至少包括用户对商户的评论信息,所述商户的信息包括所述商户所属的类型、所述商户的商品对应的品类信息、所述商户所处的位置信息中的一项或多项;
所述图嵌入模块403,包括:
信息处理单元,分别对所述多个不同用户的信息进行嵌入Embedding处理,得到每个用户对应的第一预定维度的特征,并分别对所述相应商户的信息进行Embedding处理,得到每个商户对应的第二预定维度的特征;
图嵌入单元,基于每个用户对应的第一预定维度的特征、每个商户对应的第二预定维度的特征和所述用户与商户之间的二部图进行Graph Embedding处理,得到所述多个不同用户的Embedding特征。
本说明书实施例中,所述信息处理单元通过预定的BERT模型,分别对所述多个不同用户的信息进行Embedding处理;和/或,通过预定的BERT模型,分别对所述相应商户的信息进行Embedding处理。
本说明书实施例中,所述图嵌入模块403,基于所述多个不同用户的信息、相应商户的信息和所述用户与商户之间的二部图,通过预定的GraphSage模型进行图嵌入GraphEmbedding处理,得到所述多个不同用户的嵌入Embedding特征。
本说明书实施例中,所述聚类模块404,基于所述多个不同用户的Embedding特征,通过DBscan聚类算法对所述多个不同用户进行聚类,得到分簇的用户社群。
本说明书实施例中,所述用户社群评价模块405,包括:
概率确定单元,基于所述分簇的用户社群中用户对商户的评论信息,确定所述分簇的用户社群为恶意评论社群的概率;
用户社群评价单元,如果确定的概率大于预设的第一概率阈值,则确定所述分簇的用户社群为恶意评论社群。
本说明书实施例中,所述用户社群评价模块405,将所述分簇的用户社群中用户对商户的评论信息输入到预先训练的预测模型中,得到所述分簇的用户社群为恶意评论社群的概率,所述预测模型为通过监督学习的方式和用户对商户的历史评论信息训练得到。
本说明书实施例中,所述装置还包括:
社群判定模块,如果确定的概率处于预设的概率范围内,则将所述分簇的用户社群的相关信息提供给预定检测方,以使预定检测方判定所述分簇的用户社群是否为恶意评论社群,所述第一概率阈值大于所述预设的概率范围内的概率值。
本说明书实施例提供一种用户社群的评价装置,通过获取多个不同用户对商户的评论信息,基于多个不同用户对商户的评论信息,构建用户与商户之间的二部图,其中,二部图中的节点基于用户和商户确定,二部图中的边线基于用户对商户的评论信息确定,这样通过引入二部图进行恶意评论社群的挖掘,克服了相关技术中用户不存在介质关系的难点,并通过用户对商户的评论信息进行二部图中节点和边线的构建,从而提高了恶意评论社群的挖掘精度。此外,基于多个不同用户的信息、相应商户的信息和用户与商户之间的二部图进行图嵌入Graph Embedding处理,得到多个不同用户的嵌入Embedding特征,并基于多个不同用户的Embedding特征,对多个不同用户进行聚类,得到分簇的用户社群,针对每个分簇的用户社群,基于分簇的用户社群中用户对商户的评论信息,确定分簇的用户社群是否为恶意评论社群,这样,可以同时融合用户对商户的评论信息、相应的商户的信息进行Embedding处理,并同时融合二部图中的关联关系,进行节点的Embeding处理,这样业务上同时融合了用户对商户的评论信息,可以直接采用聚类算法进行聚类得到分簇的用户社群,然后预测该分簇的用户社群为恶意评论社群的概率,从而挖掘出恶意评论社群,进一步提高了恶意评论社群的挖掘精度。
此外,通过引入用户评论信息、用户的信息和商户的信息或预定维度的特征,进行Embedding处理,并同时融入二部图的结构信息,通过GraphSage模型进行节点的Embeding处理,这样业务上同时融合了用户评论信息的相似性,以及用户和商品的评论的关系信息,可以直接采用DBscan聚类算法进行聚类得到分簇的用户社群,然后再采用监督学习,预测该分簇的用户社群为恶意评论社群的概率,从而挖掘出恶意评论社群,进一步提高了恶意评论社群的挖掘精度。
实施例四
以上为本说明书实施例提供的用户社群的评价装置,基于同样的思路,本说明书实施例还提供一种用户社群的评价设备,如图5所示。
所述用户社群的评价设备可以为上述实施例提供的终端设备或服务器。
用户社群的评价设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器501和存储器502,存储器502中可以存储有一个或一个以上存储应用程序或数据。其中,存储器502可以是短暂存储或持久存储。存储在存储器502的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对用户社群的评价设备中的一系列计算机可执行指令。更进一步地,处理器501可以设置为与存储器502通信,在用户社群的评价设备上执行存储器502中的一系列计算机可执行指令。用户社群的评价设备还可以包括一个或一个以上电源503,一个或一个以上有线或无线网络接口504,一个或一个以上输入输出接口505,一个或一个以上键盘506。
具体在本实施例中,用户社群的评价设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对用户社群的评价设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取多个不同用户对商户的评论信息;
基于所述多个不同用户对商户的评论信息,构建用户与商户之间的二部图,其中,所述二部图中的节点基于用户和商户确定,所述二部图中的边线基于用户对商户的评论信息确定;
基于所述多个不同用户的信息、相应商户的信息和所述用户与商户之间的二部图进行图嵌入Graph Embedding处理,得到所述多个不同用户的嵌入Embedding特征;
基于所述多个不同用户的Embedding特征,对所述多个不同用户进行聚类,得到分簇的用户社群;
针对每个所述分簇的用户社群,基于所述分簇的用户社群中用户对商户的评论信息,确定所述分簇的用户社群是否为恶意评论社群。
本说明书实施例中,所述二部图中的节点分别为用户和商户,将用户对商户进行评论的评论次数作为所述二部图中相应的节点之间的边线的构建条件,并将用户对商户进行评论的评论次数作为所述二部图中相应的节点之间的边线对应的权重。
本说明书实施例中,还包括:
获取所述多个不同用户的信息,以及相应商户的信息,所述用户的信息中至少包括用户对商户的评论信息,所述商户的信息包括所述商户所属的类型、所述商户的商品对应的品类信息、所述商户所处的位置信息中的一项或多项;
所述基于所述多个不同用户的信息、相应商户的信息和所述用户与商户之间的二部图进行图嵌入Graph Embedding处理,得到所述多个不同用户的嵌入Embedding特征,包括:
分别对所述多个不同用户的信息进行嵌入Embedding处理,得到每个用户对应的第一预定维度的特征,并分别对所述相应商户的信息进行Embedding处理,得到每个商户对应的第二预定维度的特征;
基于每个用户对应的第一预定维度的特征、每个商户对应的第二预定维度的特征和所述用户与商户之间的二部图进行Graph Embedding处理,得到所述多个不同用户的Embedding特征。
本说明书实施例中,所述分别对所述多个不同用户的信息进行Embedding处理和分别对所述相应商户的信息进行Embedding处理,包括:
通过预定的BERT模型,分别对所述多个不同用户的信息进行Embedding处理;和/或,
通过预定的BERT模型,分别对所述相应商户的信息进行Embedding处理。
本说明书实施例中,所述基于所述多个不同用户的信息、相应商户的信息和所述用户与商户之间的二部图进行图嵌入Graph Embedding处理,得到所述多个不同用户的嵌入Embedding特征,包括:
基于所述多个不同用户的信息、相应商户的信息和所述用户与商户之间的二部图,通过预定的GraphSage模型进行图嵌入Graph Embedding处理,得到所述多个不同用户的嵌入Embedding特征。
本说明书实施例中,所述基于所述多个不同用户的Embedding特征,对所述多个不同用户进行聚类,得到分簇的用户社群,包括:
基于所述多个不同用户的Embedding特征,通过DBscan聚类算法对所述多个不同用户进行聚类,得到分簇的用户社群。
本说明书实施例中,所述基于所述分簇的用户社群中用户对商户的评论信息,确定所述分簇的用户社群是否为恶意评论社群,包括:
基于所述分簇的用户社群中用户对商户的评论信息,确定所述分簇的用户社群为恶意评论社群的概率;
如果确定的概率大于预设的第一概率阈值,则确定所述分簇的用户社群为恶意评论社群。
本说明书实施例中,所述基于所述分簇的用户社群中用户对商户的评论信息,确定所述分簇的用户社群为恶意评论社群的概率,包括:
将所述分簇的用户社群中用户对商户的评论信息输入到预先训练的预测模型中,得到所述分簇的用户社群为恶意评论社群的概率,所述预测模型为通过监督学习的方式和用户对商户的历史评论信息训练得到。
本说明书实施例中,还包括:
如果确定的概率处于预设的概率范围内,则将所述分簇的用户社群的相关信息提供给预定检测方,以使预定检测方判定所述分簇的用户社群是否为恶意评论社群,所述第一概率阈值大于所述预设的概率范围内的概率值。
本说明书实施例提供一种用户社群的评价设备,通过获取多个不同用户对商户的评论信息,基于多个不同用户对商户的评论信息,构建用户与商户之间的二部图,其中,二部图中的节点基于用户和商户确定,二部图中的边线基于用户对商户的评论信息确定,这样通过引入二部图进行恶意评论社群的挖掘,克服了相关技术中用户不存在介质关系的难点,并通过用户对商户的评论信息进行二部图中节点和边线的构建,从而提高了恶意评论社群的挖掘精度。此外,基于多个不同用户的信息、相应商户的信息和用户与商户之间的二部图进行图嵌入Graph Embedding处理,得到多个不同用户的嵌入Embedding特征,并基于多个不同用户的Embedding特征,对多个不同用户进行聚类,得到分簇的用户社群,针对每个分簇的用户社群,基于分簇的用户社群中用户对商户的评论信息,确定分簇的用户社群是否为恶意评论社群,这样,可以同时融合用户对商户的评论信息、相应的商户的信息进行Embedding处理,并同时融合二部图中的关联关系,进行节点的Embeding处理,这样业务上同时融合了用户对商户的评论信息,可以直接采用聚类算法进行聚类得到分簇的用户社群,然后预测该分簇的用户社群为恶意评论社群的概率,从而挖掘出恶意评论社群,进一步提高了恶意评论社群的挖掘精度。
此外,通过引入用户评论信息、用户的信息和商户的信息或预定维度的特征,进行Embedding处理,并同时融入二部图的结构信息,通过GraphSage模型进行节点的Embeding处理,这样业务上同时融合了用户评论信息的相似性,以及用户和商品的评论的关系信息,可以直接采用DBscan聚类算法进行聚类得到分簇的用户社群,然后再采用监督学习,预测该分簇的用户社群为恶意评论社群的概率,从而挖掘出恶意评论社群,进一步提高了恶意评论社群的挖掘精度。
实施例五
进一步地,基于上述图1至图3所示的方法,本说明书一个或多个实施例还提供了一种存储介质,用于存储计算机可执行指令信息,一种具体的实施例中,该存储介质可以为U盘、光盘、硬盘等,该存储介质存储的计算机可执行指令信息在被处理器执行时,能实现以下流程:
获取多个不同用户对商户的评论信息;
基于所述多个不同用户对商户的评论信息,构建用户与商户之间的二部图,其中,所述二部图中的节点基于用户和商户确定,所述二部图中的边线基于用户对商户的评论信息确定;
基于所述多个不同用户的信息、相应商户的信息和所述用户与商户之间的二部图进行图嵌入Graph Embedding处理,得到所述多个不同用户的嵌入Embedding特征;
基于所述多个不同用户的Embedding特征,对所述多个不同用户进行聚类,得到分簇的用户社群;
针对每个所述分簇的用户社群,基于所述分簇的用户社群中用户对商户的评论信息,确定所述分簇的用户社群是否为恶意评论社群。
本说明书实施例中,所述二部图中的节点分别为用户和商户,将用户对商户进行评论的评论次数作为所述二部图中相应的节点之间的边线的构建条件,并将用户对商户进行评论的评论次数作为所述二部图中相应的节点之间的边线对应的权重。
本说明书实施例中,还包括:
获取所述多个不同用户的信息,以及相应商户的信息,所述用户的信息中至少包括用户对商户的评论信息,所述商户的信息包括所述商户所属的类型、所述商户的商品对应的品类信息、所述商户所处的位置信息中的一项或多项;
所述基于所述多个不同用户的信息、相应商户的信息和所述用户与商户之间的二部图进行图嵌入Graph Embedding处理,得到所述多个不同用户的嵌入Embedding特征,包括:
分别对所述多个不同用户的信息进行嵌入Embedding处理,得到每个用户对应的第一预定维度的特征,并分别对所述相应商户的信息进行Embedding处理,得到每个商户对应的第二预定维度的特征;
基于每个用户对应的第一预定维度的特征、每个商户对应的第二预定维度的特征和所述用户与商户之间的二部图进行Graph Embedding处理,得到所述多个不同用户的Embedding特征。
本说明书实施例中,所述分别对所述多个不同用户的信息进行Embedding处理和分别对所述相应商户的信息进行Embedding处理,包括:
通过预定的BERT模型,分别对所述多个不同用户的信息进行Embedding处理;和/或,
通过预定的BERT模型,分别对所述相应商户的信息进行Embedding处理。
本说明书实施例中,所述基于所述多个不同用户的信息、相应商户的信息和所述用户与商户之间的二部图进行图嵌入Graph Embedding处理,得到所述多个不同用户的嵌入Embedding特征,包括:
基于所述多个不同用户的信息、相应商户的信息和所述用户与商户之间的二部图,通过预定的GraphSage模型进行图嵌入Graph Embedding处理,得到所述多个不同用户的嵌入Embedding特征。
本说明书实施例中,所述基于所述多个不同用户的Embedding特征,对所述多个不同用户进行聚类,得到分簇的用户社群,包括:
基于所述多个不同用户的Embedding特征,通过DBscan聚类算法对所述多个不同用户进行聚类,得到分簇的用户社群。
本说明书实施例中,所述基于所述分簇的用户社群中用户对商户的评论信息,确定所述分簇的用户社群是否为恶意评论社群,包括:
基于所述分簇的用户社群中用户对商户的评论信息,确定所述分簇的用户社群为恶意评论社群的概率;
如果确定的概率大于预设的第一概率阈值,则确定所述分簇的用户社群为恶意评论社群。
本说明书实施例中,所述基于所述分簇的用户社群中用户对商户的评论信息,确定所述分簇的用户社群为恶意评论社群的概率,包括:
将所述分簇的用户社群中用户对商户的评论信息输入到预先训练的预测模型中,得到所述分簇的用户社群为恶意评论社群的概率,所述预测模型为通过监督学习的方式和用户对商户的历史评论信息训练得到。
本说明书实施例中,还包括:
如果确定的概率处于预设的概率范围内,则将所述分簇的用户社群的相关信息提供给预定检测方,以使预定检测方判定所述分簇的用户社群是否为恶意评论社群,所述第一概率阈值大于所述预设的概率范围内的概率值。
本说明书实施例提供一种存储介质,通过获取多个不同用户对商户的评论信息,基于多个不同用户对商户的评论信息,构建用户与商户之间的二部图,其中,二部图中的节点基于用户和商户确定,二部图中的边线基于用户对商户的评论信息确定,这样通过引入二部图进行恶意评论社群的挖掘,克服了相关技术中用户不存在介质关系的难点,并通过用户对商户的评论信息进行二部图中节点和边线的构建,从而提高了恶意评论社群的挖掘精度。此外,基于多个不同用户的信息、相应商户的信息和用户与商户之间的二部图进行图嵌入Graph Embedding处理,得到多个不同用户的嵌入Embedding特征,并基于多个不同用户的Embedding特征,对多个不同用户进行聚类,得到分簇的用户社群,针对每个分簇的用户社群,基于分簇的用户社群中用户对商户的评论信息,确定分簇的用户社群是否为恶意评论社群,这样,可以同时融合用户对商户的评论信息、相应的商户的信息进行Embedding处理,并同时融合二部图中的关联关系,进行节点的Embeding处理,这样业务上同时融合了用户对商户的评论信息,可以直接采用聚类算法进行聚类得到分簇的用户社群,然后预测该分簇的用户社群为恶意评论社群的概率,从而挖掘出恶意评论社群,进一步提高了恶意评论社群的挖掘精度。
此外,通过引入用户评论信息、用户的信息和商户的信息或预定维度的特征,进行Embedding处理,并同时融入二部图的结构信息,通过GraphSage模型进行节点的Embeding处理,这样业务上同时融合了用户评论信息的相似性,以及用户和商品的评论的关系信息,可以直接采用DBscan聚类算法进行聚类得到分簇的用户社群,然后再采用监督学习,预测该分簇的用户社群为恶意评论社群的概率,从而挖掘出恶意评论社群,进一步提高了恶意评论社群的挖掘精度。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书的实施例是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程用户社群的评价设备的处理器以产生一个机器,使得通过计算机或其他可编程用户社群的评价设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程用户社群的评价设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程用户社群的评价设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

Claims (16)

1.一种用户社群的评价方法,所述方法包括:
获取多个不同用户对商户的评论信息;
基于所述多个不同用户对商户的评论信息,构建用户与商户之间的二部图,其中,所述二部图中的节点基于用户和商户确定,所述二部图中的边线基于用户对商户的评论信息确定;
基于所述多个不同用户的信息、相应商户的信息和所述用户与商户之间的二部图进行图嵌入Graph Embedding处理,得到所述多个不同用户的嵌入Embedding特征;
基于所述多个不同用户的Embedding特征,对所述多个不同用户进行聚类,得到分簇的用户社群;
针对每个所述分簇的用户社群,基于所述分簇的用户社群中用户对商户的评论信息,确定所述分簇的用户社群是否为恶意评论社群。
2.根据权利要求1所述的方法,所述二部图中的节点分别为用户和商户,将用户对商户进行评论的评论次数作为所述二部图中相应的节点之间的边线的构建条件,并将用户对商户进行评论的评论次数作为所述二部图中相应的节点之间的边线对应的权重。
3.根据权利要求1或2所述的方法,所述方法还包括:
获取所述多个不同用户的信息,以及相应商户的信息,所述用户的信息中至少包括用户对商户的评论信息,所述商户的信息包括所述商户所属的类型、所述商户的商品对应的品类信息、所述商户所处的位置信息中的一项或多项;
所述基于所述多个不同用户的信息、相应商户的信息和所述用户与商户之间的二部图进行图嵌入Graph Embedding处理,得到所述多个不同用户的嵌入Embedding特征,包括:
分别对所述多个不同用户的信息进行嵌入Embedding处理,得到每个用户对应的第一预定维度的特征,并分别对所述相应商户的信息进行Embedding处理,得到每个商户对应的第二预定维度的特征;
基于每个用户对应的第一预定维度的特征、每个商户对应的第二预定维度的特征和所述用户与商户之间的二部图进行Graph Embedding处理,得到所述多个不同用户的Embedding特征。
4.根据权利要求3所述的方法,所述分别对所述多个不同用户的信息进行Embedding处理和分别对所述相应商户的信息进行Embedding处理,包括:
通过预定的BERT模型,分别对所述多个不同用户的信息进行Embedding处理;和/或,
通过预定的BERT模型,分别对所述相应商户的信息进行Embedding处理。
5.根据权利要求4所述的方法,所述基于所述多个不同用户的信息、相应商户的信息和所述用户与商户之间的二部图进行图嵌入Graph Embedding处理,得到所述多个不同用户的嵌入Embedding特征,包括:
基于所述多个不同用户的信息、相应商户的信息和所述用户与商户之间的二部图,通过预定的GraphSage模型进行图嵌入Graph Embedding处理,得到所述多个不同用户的嵌入Embedding特征。
6.根据权利要求1所述的方法,所述基于所述多个不同用户的Embedding特征,对所述多个不同用户进行聚类,得到分簇的用户社群,包括:
基于所述多个不同用户的Embedding特征,通过DBscan聚类算法对所述多个不同用户进行聚类,得到分簇的用户社群。
7.根据权利要求1所述的方法,所述基于所述分簇的用户社群中用户对商户的评论信息,确定所述分簇的用户社群是否为恶意评论社群,包括:
基于所述分簇的用户社群中用户对商户的评论信息,确定所述分簇的用户社群为恶意评论社群的概率;
如果确定的概率大于预设的第一概率阈值,则确定所述分簇的用户社群为恶意评论社群。
8.根据权利要求7所述的方法,所述基于所述分簇的用户社群中用户对商户的评论信息,确定所述分簇的用户社群为恶意评论社群的概率,包括:
将所述分簇的用户社群中用户对商户的评论信息输入到预先训练的预测模型中,得到所述分簇的用户社群为恶意评论社群的概率,所述预测模型为通过监督学习的方式和用户对商户的历史评论信息训练得到。
9.根据权利要求7所述的方法,所述方法还包括:
如果确定的概率处于预设的概率范围内,则将所述分簇的用户社群的相关信息提供给预定检测方,以使预定检测方判定所述分簇的用户社群是否为恶意评论社群,所述第一概率阈值大于所述预设的概率范围内的概率值。
10.一种用户社群的评价装置,所述装置包括:
评论信息获取模块,获取多个不同用户对商户的评论信息;
二部图构架模块,基于所述多个不同用户对商户的评论信息,构建用户与商户之间的二部图,其中,所述二部图中的节点基于用户和商户确定,所述二部图中的边线基于用户对商户的评论信息确定;
图嵌入模块,基于所述多个不同用户的信息、相应商户的信息和所述用户与商户之间的二部图进行图嵌入Graph Embedding处理,得到所述多个不同用户的嵌入Embedding特征;
聚类模块,基于所述多个不同用户的Embedding特征,对所述多个不同用户进行聚类,得到分簇的用户社群;
用户社群评价模块,针对每个所述分簇的用户社群,基于所述分簇的用户社群中用户对商户的评论信息,确定所述分簇的用户社群是否为恶意评论社群。
11.根据权利要求10所述的装置,所述二部图中的节点分别为用户和商户,将用户对商户进行评论的评论次数作为所述二部图中相应的节点之间的边线的构建条件,并将用户对商户进行评论的评论次数作为所述二部图中相应的节点之间的边线对应的权重。
12.根据权利要求10或11所述的装置,所述装置还包括:
第一信息获取模块,获取所述多个不同用户的信息,以及相应商户的信息,所述用户的信息中至少包括用户对商户的评论信息,所述商户的信息包括所述商户所属的类型、所述商户的商品对应的品类信息、所述商户所处的位置信息中的一项或多项;
所述图嵌入模块,包括:
信息处理单元,分别对所述多个不同用户的信息进行嵌入Embedding处理,得到每个用户对应的第一预定维度的特征,并分别对所述相应商户的信息进行Embedding处理,得到每个商户对应的第二预定维度的特征;
图嵌入单元,基于每个用户对应的第一预定维度的特征、每个商户对应的第二预定维度的特征和所述用户与商户之间的二部图进行Graph Embedding处理,得到所述多个不同用户的Embedding特征。
13.根据权利要求12所述的装置,所述信息处理单元通过预定的BERT模型,分别对所述多个不同用户的信息进行Embedding处理;和/或,通过预定的BERT模型,分别对所述相应商户的信息进行Embedding处理。
14.根据权利要求10所述的装置,所述用户社群评价模块,包括:
概率确定单元,基于所述分簇的用户社群中用户对商户的评论信息,确定所述分簇的用户社群为恶意评论社群的概率;
用户社群评价单元,如果确定的概率大于预设的第一概率阈值,则确定所述分簇的用户社群为恶意评论社群。
15.一种用户社群的评价设备,所述用户社群的评价设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取多个不同用户对商户的评论信息;
基于所述多个不同用户对商户的评论信息,构建用户与商户之间的二部图,其中,所述二部图中的节点基于用户和商户确定,所述二部图中的边线基于用户对商户的评论信息确定;
基于所述多个不同用户的信息、相应商户的信息和所述用户与商户之间的二部图进行图嵌入Graph Embedding处理,得到所述多个不同用户的嵌入Embedding特征;
基于所述多个不同用户的Embedding特征,对所述多个不同用户进行聚类,得到分簇的用户社群;
针对每个所述分簇的用户社群,基于所述分簇的用户社群中用户对商户的评论信息,确定所述分簇的用户社群是否为恶意评论社群。
16.一种存储介质,所述存储介质用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:
获取多个不同用户对商户的评论信息;
基于所述多个不同用户对商户的评论信息,构建用户与商户之间的二部图,其中,所述二部图中的节点基于用户和商户确定,所述二部图中的边线基于用户对商户的评论信息确定;
基于所述多个不同用户的信息、相应商户的信息和所述用户与商户之间的二部图进行图嵌入Graph Embedding处理,得到所述多个不同用户的嵌入Embedding特征;
基于所述多个不同用户的Embedding特征,对所述多个不同用户进行聚类,得到分簇的用户社群;
针对每个所述分簇的用户社群,基于所述分簇的用户社群中用户对商户的评论信息,确定所述分簇的用户社群是否为恶意评论社群。
CN202010647688.8A 2020-07-07 2020-07-07 一种用户社群的评价方法、装置及设备 Active CN111782813B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010647688.8A CN111782813B (zh) 2020-07-07 2020-07-07 一种用户社群的评价方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010647688.8A CN111782813B (zh) 2020-07-07 2020-07-07 一种用户社群的评价方法、装置及设备

Publications (2)

Publication Number Publication Date
CN111782813A true CN111782813A (zh) 2020-10-16
CN111782813B CN111782813B (zh) 2023-10-31

Family

ID=72758212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010647688.8A Active CN111782813B (zh) 2020-07-07 2020-07-07 一种用户社群的评价方法、装置及设备

Country Status (1)

Country Link
CN (1) CN111782813B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116846596A (zh) * 2023-05-31 2023-10-03 北京数美时代科技有限公司 一种恶意账号的识别方法、系统、介质及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019141072A1 (zh) * 2018-01-22 2019-07-25 阿里巴巴集团控股有限公司 店铺信息推荐方法、装置及客户端
CN110781971A (zh) * 2019-10-31 2020-02-11 支付宝(杭州)信息技术有限公司 一种商户类型识别方法、装置、设备和可读介质
CN111259133A (zh) * 2020-01-17 2020-06-09 成都信息工程大学 一种融合多信息的个性化推荐方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019141072A1 (zh) * 2018-01-22 2019-07-25 阿里巴巴集团控股有限公司 店铺信息推荐方法、装置及客户端
CN110781971A (zh) * 2019-10-31 2020-02-11 支付宝(杭州)信息技术有限公司 一种商户类型识别方法、装置、设备和可读介质
CN111259133A (zh) * 2020-01-17 2020-06-09 成都信息工程大学 一种融合多信息的个性化推荐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘敏;王向前;李慧宗;张宝隆;: "基于文本挖掘的网络商品评论情感分析", 辽宁工业大学学报(自然科学版), no. 05 *
王宇;李秀秀;: "基于电子商务评论的商家信誉维度构建", 数据分析与知识发现, no. 08 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116846596A (zh) * 2023-05-31 2023-10-03 北京数美时代科技有限公司 一种恶意账号的识别方法、系统、介质及设备
CN116846596B (zh) * 2023-05-31 2024-01-30 北京数美时代科技有限公司 一种恶意账号的识别方法、系统、介质及设备

Also Published As

Publication number Publication date
CN111782813B (zh) 2023-10-31

Similar Documents

Publication Publication Date Title
RU2628431C1 (ru) Подбор параметров текстового классификатора на основе семантических признаков
RU2628436C1 (ru) Классификация текстов на естественном языке на основе семантических признаков
US8457950B1 (en) System and method for coreference resolution
CN109508879B (zh) 一种风险的识别方法、装置及设备
CN110020427B (zh) 策略确定方法和装置
CN113139052B (zh) 基于图神经网络特征聚合的谣言检测方法及装置
CN111680506A (zh) 数据库表的外键映射方法、装置、电子设备和存储介质
Aralikatte et al. Fault in your stars: an analysis of android app reviews
CN110263817B (zh) 一种基于用户账号的风险等级划分方法及装置
CN109492401B (zh) 一种内容载体风险检测方法、装置、设备及介质
CN108229564B (zh) 一种数据的处理方法、装置及设备
CN111782813B (zh) 一种用户社群的评价方法、装置及设备
CN116308738B (zh) 一种模型训练的方法、业务风控的方法及装置
Tijare et al. Correlation between k-means clustering and topic modeling methods on twitter datasets
US20200380405A1 (en) Data exposure for transparency in artificial intelligence
CN110851600A (zh) 基于深度学习的文本数据处理方法及装置
CN108595395B (zh) 一种昵称的生成方法、装置及设备
CN113255857B (zh) 一种图形码的风险检测方法、装置及设备
Denli et al. Geoscience language processing for exploration
CN114115878A (zh) 一种工作流节点推荐方法及装置
CN110321433B (zh) 确定文本类别的方法及装置
CN115700555A (zh) 模型训练方法、预测方法、装置和电子设备
US20200311472A1 (en) Comprehensive Data Science Solution for Segmentation Analysis
Van Le et al. An efficient pretopological approach for document clustering
Chelyshev et al. Information System for Automatic News Text Classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40039453

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant