CN103838759B - 基于sns环境的非正常行为过滤方法及装置 - Google Patents

基于sns环境的非正常行为过滤方法及装置 Download PDF

Info

Publication number
CN103838759B
CN103838759B CN201210484445.2A CN201210484445A CN103838759B CN 103838759 B CN103838759 B CN 103838759B CN 201210484445 A CN201210484445 A CN 201210484445A CN 103838759 B CN103838759 B CN 103838759B
Authority
CN
China
Prior art keywords
information
behavior
behavioral
improper
ontology
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210484445.2A
Other languages
English (en)
Other versions
CN103838759A (zh
Inventor
夏立
杨含飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taobao China Software Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201210484445.2A priority Critical patent/CN103838759B/zh
Publication of CN103838759A publication Critical patent/CN103838759A/zh
Application granted granted Critical
Publication of CN103838759B publication Critical patent/CN103838759B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于SNS环境中的非正常行为过滤方法及装置。在SNS环境中,服务器获得SNS服务器针对待辨识行为的行为主体所记录的行为数据、关系类型数据和包含信息本体接收对象的信息数据,分别确定用于表征行为特征的行为参数值,行为主体的各个关系类型在行为主体的所有关系类型中的关系占比值,以及用于表征信息本体的接收对象分布的发散度,并根据上述行为参数值、关系占比值、以及发散度确定行为主体是否执行了非正常行为,从而彻底地甄别SNS环境系统中执行非正常行为的行为主体,并对非正常行为进行过滤。

Description

基于SNS环境的非正常行为过滤方法及装置
技术领域
本申请涉及数据处理领域,尤其涉及一种基于SNS环境系统的非正常行为过滤方法及装置。
背景技术
SNS(Social Networking Services),即社会性网络服务,用户终端可以利用该服务建立一个关系网。以微博这个弱SNS关系环境为例,用户终端利用SNS建立关系网的方式简单来说就是,用户终端A作为一个行为主体可以通过加关注,加粉丝,发私信或发评论与其他用户终端产生关系,关系类型可以包括单向关注、双向关注、单向粉丝和无任何关系等。其中,与用户终端A的关系类型为单向关注、双向关注和单向粉丝的其他用户终端构成了用户终端A的关系网,而与用户终端A为无任何关系的用户终端不在用户终端A的关系网内。
在SNS环境(即可以为用户提供SNS的环境,一般是指基于SNS服务器所构建的一个可以允许用户享受SNS的环境,比如基于微博服务器所构建的允许用户发微博的SNS环境等)中,用户终端除了可以实现通过执行一系列的行为,例如加关注,加粉丝,建立自己的关系网外,还可以实现通过发私信、发评论与关系网内和关系网外的用户终端进行信息互动。通常情况下,SNS服务器可以记录每个用户终端,即每个行为主体产生的信息数据,行为数据和关系类型数据。其中,信息数据包括行为主体发出的信息主体以及各信息主体对应的接收对象的信息;行为数据包括SNS环境中的行为主体所执行的无信息主体的行为的信息(例如加关注,加好友)和行为作用对象的信息;关系类型数据包括行为主体与信息主体接收对象的关系类型,以及行为主体与行为作用对象的关系类型。
在SNS盛起的同时,也产生了一些用户通过SNS进行非正常行为信息传播,或执行非正常行为的情况,例如垃圾邮件、垃圾短信、垃圾消息等。由于基于SNS所建立的关系网的网状结构特点,在加快用户信息流动的同时,也使非正常行为信息传播更快速,非正常行为影响更广泛。
一般来讲,非正常行为信息可以包括:(1)、未经用户同意,任何以推销产品、服务、地产等为目的的广告,或者以提供投资机会或者交易机会为目的的商业信息;(2)、各种虚假、不实的信息;(3)频繁的未经请求的单方面信息,例如频繁发送的微博私信。而非正常行为则是指SNS环境系统中非正常的用户交互行为,比如频繁的加关注,加好友等。
传统的非正常行为鉴别技术一般都是通过对信息数据的信息本体进行分析,从而确定该信息数据是否为非正常行为信息,进一步确定该信息数据对应的行为主体是否为非正常行为用户。但发送非正常行为信息的行为主体可以通过不断地修改信息的文本内容来实现逃避信息被识别为非正常行为信息,从而逃脱自身被识别为非正常行为用户。可见,传统的非正常行为鉴别技术存在较大漏洞,使得传统的非正常行为鉴别技术不能彻底甄别SNS环境系统中的非正常行为,从而不能彻底实现对该些非正常行为的过滤处理。
发明内容
本申请实施例提供一种基于SNS环境的非正常行为过滤方法及装置,用以过滤SNS环境中的非正常行为。
本申请实施例采用以下技术方案:
一种基于SNS环境的非正常行为过滤方法,包括以下步骤:
服务器获得SNS服务器针对待辨识行为的行为主体所记录的行为数据、关系类型数据和包含信息本体的接收对象的信息;
根据所述信息本体的接收对象的信息,确定用于表征信息本体的接收对象分布的发散度;
根据所述信息本体的接收对象的信息和所述关系类型数据,分别确定所述行为主体的各个关系类型在所述行为主体的所有关系类型中的关系占比值;
根据所述行为数据,确定用于表征行为特征的行为参数值;
根据所述关系占比值、所述发散度以及所述行为参数值,确定所述行为主体是否执行了非正常行为;
在确定所述行为主体执行了非正常行为时,对与所述行为主体执行的非正常行为相关的指令进行过滤。
本申请实施例还提供一种基于SNS环境的非正常行为过滤装置,包括:
数据获得单元,用于获得SNS服务器针对待辨识行为的行为主体所记录的行为数据、关系类型数据和包含信息本体的接收对象的信息;
发散度确定单元,用于根据所述数据获得单元获得的信息本体的接收对象的信息,确定用于表征信息本体的接收对象分布的发散度;
关系占比确定单元,用于根据所述数据获得单元获得的信息本体的接收对象的信息和所述关系类型数据,分别确定所述行为主体的各个关系类型在所述行为主体的所有关系类型中的关系占比值;
行为参数确定单元,用于根据所述数据获得单元获得的行为数据,确定用于表征行为特征的行为参数值;
非正常行为确定单元,用于根据所述关系占比确定单元确定的关系占比值、所述发散度确定单元确定的发散度以及所述行为参数确定单元确定的行为参数值,确定所述行为主体是否执行了非正常行为;
非正常行为过滤单元,用于在所述非正常行为过滤单元确定行为主体执行了非正常行为时,对与所述行为主体执行的非正常行为相关的指令进行过滤。
本申请实施例的有益效果如下:
本申请实施例提供了一种基于SNS环境的非正常行为过滤方法,在SNS环境中通过获得SNS服务器针对待辨识行为的行为主体所记录的行为数据、关系类型数据和包含信息本体接收对象的信息数据,分别确定用于表征行为特征的行为参数值,行为主体的各个关系类型在行为主体的所有关系类型中的关系占比值以及用于表征信息本体的接收对象分布的发散度,并根据上述行为参数值、关系占比值以及发散度确定行为主体是否执行了非正常行为,从而比较彻底地甄别SNS环境系统中执行非正常行为的非正常行为用户,并实现对该些非正常行为用户执行的非正常行为的过滤处理。
附图说明
图1为本申请实施例提供的一种基于SNS环境的非正常行为过滤方法流程图;
图2为本申请实施例提供的一种确定接收对象分布发散度的方法流程图;
图3为本申请实施例提供的依据接收对象分布发散度判断非正常行为用户的事例示意图;
图4为本申请实施例提供的一种确定关系占比值的方法流程图;
图5为本申请实施例提供的依据关系占比值判断非正常行为用户的事例示意图;
图6为本申请实施例提供的又一种基于SNS环境的非正常行为过滤方法流程图。
具体实施方式
为甄别SNS环境系统中的非正常行为,本申请实施例提供了一种基于SNS环境的非正常行为过滤方法。在SNS环境中,服务器获得SNS服务器针对待辨识行为的行为主体所记录的行为数据、关系类型数据和包含信息本体接收对象的信息数据,通过行为数据确定用于表征行为特征的行为参数值,根据信息本体的接收对象的信息和关系类型数据确定行为主体的各个关系类型在行为主体的所有关系类型中的关系占比值,以及根据信息本体的接收对象的信息确定用于表征信息本体的接收对象分布的发散度,并根据上述行为参数值、关系占比值、以及发散度确定行为主体是否执行了非正常行为,从而达到对非正常行为进行过滤的目的。
以下结合说明书附图对本申请的实施例进行说明,应当理解,此处所描述的实施例仅用于说明和解释本申请,并不用于限制本申请。并且在不冲突的情况下,本说明中的实施例及实施列中的特征可以互相结合。
实施例1
基于上述基本思想,本申请实施例提供的一种基于SNS环境的非正常行为过滤方法流程图如图1所示,具体包括以下步骤:
步骤11、服务器获得SNS服务器针对待辨识行为的行为主体所记录的行为数据、关系类型数据和信息数据,其中,信息数据至少包含信息本体的接收对象信息。
具体地,可根据数据量的大小,确定服务器配置,对于海量的数据,可采用分布式处理平台的服务器进行数据处理。
步骤12、根据行为数据,确定用于表征行为特征的行为参数值。
该行为参数值具体可包括以下行参数中的至少一种:行为在指定时间单位内发生的频率;以指定时间单位为统计单位,所确定出的行为的持续值;以及行为发生的总次数。
上述指定时间单位可以视实际情况而得,通常将指定时间单位确定为天,下面以微博中的“加关注”的行为具体说明各个行为参数值的意义。
假设行为主体X第一天加了5个关注,第二天加了10个关注,第三天加了2个关注,第四天没有加关注,第五天加了1个关注。则行为在指定时间单位内发生的频率,即行为主体加关注这个行为每天发生的频率分别为5,10,2,0,1;这里获得的行为每天发生的频率不是在这5天内行为发生的平均值,而是指准确对应于每个指定时间单位,行为主体所执行的行为频率。
以指定时间单位为统计单位,所确定出的行为的持续值为3,因为该行为主体连续三天执行了“加关注”的行为。行为发生的总次数为18次,即5+10+2+1=18。
步骤13、根据信息本体的接收对象的信息,确定用于表征信息本体的接收对象分布的发散度。其中,所述“发散度”可以理解为表示行为主体所发送的信息本体的接收对象的分布状况的参数。正常情况下,行为主体所发送的信息本体的接收对象一般为分布在该行为主体的关系网内的部分用户终端。该些用户终端在该关系网内的分布可能不会非常均匀,这种分布的不均匀性就可以体现信息本体的接收对象的分布状况,即体现了上述“发散度”,“发散度”可以采用多种方式计算,只要能体现出所发送的信息本体的接收对象的分布状况即可。
本申请实施例中,优选地,可以采用图2所示的方法确定该发散度:
步骤131、根据信息本体的接收对象的信息确定所述行为主体所发送的所有信息本体的个数;
比如,通常信息本体的接收对象信息可以被记录为:A接收X发出的评论2条,B接收X发出的评论3条,C接收X发出的评论1条,D接收X发出的评论5条。此场景下,X为行为主体,A、B、C、D为信息本体的接收对象。这样根据信息本体的接收对象信息可以确定出行为主体所发送的信息本体的个数。假设X在一段时间内只对A、B、C、D发表了评论,则行为主体M在这段时间内所发送的信息本体的个数为11条。另外,在服务器获得SNS服务器针对待辨识行为的行为主体所记录信息数据的前提下,也可以根据信息数据直接确定信息本体的个数。
假设根据信息本体确定该行为主体发送的所有信息组成集合为:
C={C1,C2,C3…Cn}
若该信息主体集合中信息主体的个数由card(C)表示,则有card(C)=n。
步骤132、根据获得的所述信息本体的接收对象的信息,确定所述所有信息本体所对应的互不相同的接收对象的个数;
对应于上述信息本体集合,由信息本体的接收对象形成的信息本体接收对象的集合为:
M={M1,M2,M3…Mn}
其中,M1,M2,M3…Mn中可能存在重复的情况,即对应于不同的信息本体可能有相同的信息本体接收对象,例如行为主体X给信息本体接收对象A发过C1,C2,C3信息,则M1,M2,M3应该是相同的。
将信息本体接收对象组成的集合M中重复的元素去掉,形成了去重后的信息本体接收对象做成的集合DM:
DM={DM1,DM2,DM3…DMi}
其中DM集合中的各个元素各不相同,且DM集合中的互不相同的接收对象的个数用card(DM)表示,即card(DM)=i。
同样针对上述例子,可以确定信息本体对应的接受对象的个数为4个。
步骤133、基于确定的信息本体的个数和接收对象的个数,按照下述公式确定信息本体的接收对象分布的发散度:
接收对象分布的发散度=(接收对象的个数*信息本体的个数-1)/信息本体的个数*信息本体的个数。
即根据信息主体集合中信息主体的个数card(C)以及card(DM),确定信息本体的接收对象分布的发散度K1可由公式[1]可得。
K1=(card(DM)*card(C)-1)/(card(C)*card(C)) [1]
K1的值越高,即信息本体的接收对象分布越发散,行为主体发送非正常行为信息的可能性就越高。例如如图3所示,现有一个行为主体X经常给不同的用户终端发送评论,并且其每次评论都分别针对不同的用户终端,假设该行为主体X一共发布了200条评论,这200条评论分别针对不用的用户终端,则该行为主体X的接收对象分布的发散度K1接近于1,则依据接收对象分布的发散度分析该行为主体是有问题的,极有可能为非正常行为用户。
对应于上述例子,接收对象分布的发散度为(4*11-1)/11*11=0.355。
可选的,还可以采用下述方式确定信息本体的接收对象分布的该发散度:
接收对象分布的发散度=接收对象的个数/信息本体的个数
对应于上述例子,接收对象分布的发散度为4/11=0.37。
步骤14、根据信息本体的接收对象的信息和关系类型数据,分别确定所述行为主体的各个关系类型在所述行为主体的所有关系类型中的关系占比值。
优选地,可以采用图4所示的方法确定该关系占比值:
步骤141、根据信息本体的接收对象的信息和关系类型数据,确定每个信息本体对应的关系类型;
以微博为例,关系类型可以包括行为主体的单向粉丝、与行为主体双向关注、与行为主体单向关注和与行为主体毫无关系。其中,“与行为主体毫无关系”属于关系网外关系类型,“行为主体的单向粉丝”、“与行为主体双向关注、”“与行为主体单向关注”属于与行为主体有一定关系的关系网内的关系类型。上述关系类型都属于关系类型数据。
步骤142、根据所述行为主体所发送的信息本体的总个数,分别确定每个关系类型所对应的信息本体的个数在所述总个数中的个数占比;
信息息本体的总个数可以根据信息本体的接收对象的信息来确定,也可以根据信息本体直接确定。根据信息本体的接收对象的信息来确定信息本体的个数已在步骤13中举例说明,这里不再赘述。假设根据信息本体确定该行为主体发送的所有信息本体组成集合为:
C={C1,C2,C3…Cn}
若该信息主体集合中信息主体的个数由card(C)表示,则有card(C)=n。
对应于上述信息本体集合,由信息本体的接收对象形成的信息本体接收对象的集合为:
M={M1,M2,M3…Mn}
根据确定的关系类型将M划分为p个子集,RM1,RM2…RMp,每个子集代表一个关系类型,并且每个子集中包含的接收对象可以是重复的。仍然以微博为例,假设RM1为与行为主体的关系类型为单向关注的接收对象组成的集合,card(RM1)表示该子集中包含的接收对象的个数,假设存在:
RM1={M1,M1,M1,M2,M2,M3,M5}
则card(RM1)=7。
那么,各关系类型所对应的信息本体的个数在所述总个数中的个数占比由公式[2]可得:
K2p=card(RMp)/card(C) [2]
步骤143、将确定的个数占比分别确定为相应的关系类型在行为主体的所有关系类型中的关系占比。
利用关系占比确定行为主体是否为非正常行为用户时,通常需要将“与行为主体毫无关系”这个关系网外关系类型的关系占比与“与行为主体有一定关系”(例如单向关注、双向关注、单向粉丝等)的关系网内的关系类型的关系占比进行比较。例如图5所示,该行为主体双向关注这个关系类型对应的关系占比为1/8,单向关注这个关系类型对应的关系占比为1/16,单向粉丝这个关系类型对应的关系占比为1/16,而与行为主体毫无关系这个关系类型对应的关系占比为5/8,可见,该行为主体在关系网外关系类型对应的关系占比大于各关系网内的关系类型对应的关系占比。而预期正常情况下行为主体在关系网外关系类型对应的关系占比应该会小于各关系网内的关系类型对应的关系占比,因此上述例子中的行为主体有可能是非正常行为用户。并且关系网外的关系类型对应的关系占比越大,说明该行为主体在其关系网外的互动行为越活跃,该行为主体越有可能为非正常行为用户。
步骤15、根据关系占比、发散度以及行为参数值,判断所述行为主体是否执行了非正常行为。
针对关系占比、发散度以及行为参数值,可分别为其设置一个比较阈值和判断标准,例如,可以依据历史数据训练而获得该些比较阈值和判断标准。通过分别对应比较确定出的上述三个参数与相应的比较阈值,就可以确定行为主体是否执行了非正常行为。
举例而言,假设对与行为主体毫无关系这个关系类型的关系占比设定一个关系占比比较阈值k1,对发散度设定发散度比较阈值为k2,对行为参数值中的行为在指定时间单位内发生的频率值设定一个频率比较阈值为k3,如果通过上述步骤14确定的与行为主体毫无关系的这个关系类型的关系占比大于k1,同时通过上述步骤13确定的发散度大于k2,步骤12确定的行为参数值中的行为在指定时间单位内发生的频率值大于k3,则可以判断该行为主体执行了非正常行为。可选的,如果通过上述步骤14确定的与行为主体毫无关系的这个关系类型的关系占比大于k1,步骤12确定的行为参数值中的行为在指定时间单位内发生的频率值大于k3,但是步骤13确定的发散度小于k2,也可以判断该行为主体执行了非正常行为。
步骤16、在确定该行为主体执行了非正常行为时,对与该行为主体执行的非正常行为相关的指令进行过滤。
举例而言,服务器可以拒绝接收该行为主体执行非正常行为而产生的相关指令,也可以接收该行为主体执行的非正常行为相关的指令,但不对该些指令做响应处理,并向该行为主体发送警告回复等。
综上所述,本申请实施例提供的一种基于SNS环境的非正常行为过滤方法,服务器通过获得SNS服务器针对待辨识行为的行为主体所记录的行为数据、关系类型数据和包含信息本体接收对象的信息数据,分别确定用于表征行为特征的行为参数值,行为主体的各个关系类型在行为主体的所有关系类型中的关系占比值以及用于表征信息本体的接收对象分布的发散度,并根据上述行为参数值、关系占比值以及发散度确定行为主体是否执行了非正常行为,从而达到对非正常行为进行过滤的目的。
实施例2
下面结合分布式处理平台,具体介绍本申请实施例提供的一种基于SNS环境的非正常行为过滤方法。该方法的方法流程图如图6所示。
步骤61、分布式处理平台的服务器获得SNS服务器针对待辨识行为的行为主体所记录的行为数据、关系类型数据和信息本体以及包含信息本体的接收对象的消息。
具体地,分布式处理平台通常会读取SNS服务器一段时间记录的行为数据、关系类型数据和信息数据,例如最近30天或者180天,以确保每个行为主体不会因为一个历史行为导致其始终被确认为非正常行为用户,尤其针对其之后没有执行非正常行为或发送非正常行为信息的用户。例如,一个用户在一个月前进行了大量的广告信息的传播,则该用户会被定位为非正常行为用户,但之后其一直保持正常的用户行为,那么分布式处理平台通过读取其之后1个月的行为数据,关系类型数据以及信息数据并进行相关分析计算,就不会一直认定为该用户非正常行为用户。但是一旦该用户再次执行非正常行为或者发送非正常行为信息,就会再次被定位为非正常行为用户。
分布式处理平台的服务器可以以行为主体为单位依次读取SNS服务器一段时间记录的行为数据、关系类型数据和信息数据,也可以同时读取所有行为主体混合的行为数据、关系类型数据和信息数据。若为后者,在进行以下步骤之前,分布式处理平台还要将获得的混合的行为数据、关系类型数据和信息数据按行为主体进行数据合并分类,从而获得SNS服务器记录的针对每个行为主体的在一段时间内的行为数据、关系类型数据和信息数据。
步骤62、根据信息本体的接收对象的信息,确定用于表征信息本体的接收对象分布的发散度。
该步骤的实现方式可以类似于实施1中的步骤13的实现方式,这里不再赘述。
步骤63、根据信息本体的接收对象的信息和关系类型数据,分别确定所述行为主体的各个关系类型在行为主体的所有关系类型中的关系占比值。
该步骤的实现方式可以类似于实施1中的步骤14的实现方式,这里不再赘述。
步骤64、根据行为数据,确定用于表征行为特征的行为参数值。
该步骤的实现方式可以类似于实施1中的步骤12的实现方式,这里不再赘述。
步骤65、将获得的信息本体进行文本过滤,具体包括删除信息本体中的指定信息内容,生成不包括指定信息内容的过滤后的信息本体。
举例而言,指定信息内容可以为:行为主体名称、时间和标点符号等。由于该些指定信息内容为后续确定信息内容的重复率的帮助不大,并且像标点符号这种信息内容会在信息本体中频繁出现,为后续重复率的计算带来干扰,因此,在计算信息内容的重复率前将信息本体中包含的指定信息内容删除,以便后续进行信息内容重复率的计算。
步骤66、将过滤后的信息本体中相同的信息内容对应的信息本体进行合并,分别确定生成的所有过滤后的信息本体所包含的每种信息内容在所有过滤后的信息本体所包含的所有信息内容中的重复率。
举例而言,行为主体X发送了100条评论,经过滤处理后这100条评论中有95条为:
“某某商品效果真好,快登录某某网址抢购吧”;
其他五条分别为“加油”;“真逗”;“您好”;“您好”;“您好”。
则信息本体“某某商品效果真好,快登录某某网址抢购吧”在所有过滤后的信息本体所包含的所有信息内容中的重复率为95%,信息本体“真逗”的重复率为1%,信息本体“加油”的重复率为1%,信息本体“您好”的重复率为3%。
步骤67、根据接收对象的发散度、关系占比、各行为参数值以及信息内容的重复率与各自对应阈值的关系,判断该行为主体是否执行了非正常行为,发送了非正常行为信息从而确定该行为主体是否为非正常行为用户。
在实际运用中,针对接收对象分布的发散度,通常会设定有一个发散度比较阈值,当接收对象分布的发散度大于该阈值时,该行为主体就被列入非正常行为用户的考察范围内。
针对关系占比,通常会为与行为主体毫无关系这个关系类型的关系占比设定一个关系占比比较阈值,当与行为主体毫无关系这个关系类型的关系占比超过关系占比比较阈值时,该行为主体就被列入非正常行为用户的考察范围内。
针对信息内容的重复率,通常会设定一个重复率比较阈值,当某一信息内容的重复率超过了该重复率比较阈值,则该行为主体有可能发送了非正常行为信息,则该行为主体就被列入非正常行为用户的考察范围内。根据上述例子可见该行为主体发送的信息本体中,有95%信息本体是同一种内容。正常情况下行为主体发送的信息本体的重复率不会这么高,一般只有广告宣传用户才会将同一内容的信息本体重复发送很多次,因此可以初步判断该行为主体可能在传播非正常行为信息。
可以根据上述三个条件中的一个或者两个或者三个来进一步确定行为主体是否为非正常行为用户,该判断标准可根据实际情况灵活确定。
针对各行为参数,当行为发生的总次数大于设定的第一阈值,或者行为在指定时间单位内发生的频率大于设定的第二阈值,或者行为在指定时间单位内发生的频率与以指定时间单位为统计单位,所确定出的行为的持续值的组合超过了第三阈值,则可以确定该行为主体执行了非正常行为,该行为主体被确定为非正常行为用户。
上述发散度比较阈值、关系占比比较阈值、重复率比较阈值以及第一阈值、第二阈值、第三阈值,是各不相同的,它们都可以通过对历史数据的处理获得也可以人工确定。例如,对于可以接收广告信息的SNS环境中,可以只将执行了非正常行为的行为用户确定为非正常行为用户;再如对于对信息传播质量要求很高的SNS环境中,可以将执行了非正常行为或发送了非正常行为信息的行为主体都确定为非正常行为用户。
步骤68、对非正常行为用户所发送的非正常行为信息和/或执行的非正常行为进行过滤处理。
举例而言,可以只对非正常行为用户发送的非正常行为信息和执行的非正常信息进行过滤,也可以禁止该用户在一段时间内发送的所有信息和执行的所述行为。对只发送了非正常行为信息的非正常行为用户,可以只过滤其发送的非常行为信息,例如可以拦截该行为主体在一段时间内发送的任何信息,或者将该行为主体发送的此类非正常行为信息进行删除并对行为主体发出警告等;对于只执行了非正常行为的非正常行为用户,可以只过滤其执行非正常行为所对应的指令,而不处理该用户发送的信息。
综上所述,分布式处理平台的服务器获得SNS服务器针对待辨识行为的行为主体所记录的行为数据、关系类型数据和包含信息本体和信息本体接收对象的信息数据,分别确定用于表征行为特征的行为参数值,行为主体的各个关系类型在行为主体的所有关系类型中的关系占比值、用于表征信息本体的接收对象分布的发散度以及信息内容的重复率,并根据上述行为参数值、关系占比值、发散度以及重复率确定行为主体是否执行了非正常行为,制造了非正常行为信息,彻底甄别SNS环境系统中制造非正常行为信息和执行非正常行为的非正常行为用户,从而实现对非正常行为用户执行的非正常行为和/或发送的非正常行为信息的过滤处理。
针对本申请实施例提供的一种基于SNS环境的非正常行为过滤方法,本申请实施例还提供了一种基于SNS环境的非正常行为过滤装置。该装置具体包括:
数据获得单元,用于获得SNS服务器针对待辨识行为的行为主体所记录的行为数据、关系类型数据和包含信息本体的接收对象的信息。
发散度确定单元,用于根据数据获得单元获得的信息本体的接收对象的信息,确定用于表征信息本体的接收对象分布的发散度。
关系占比确定单元,用于根据数据获得单元获得的信息本体的接收对象的信息和所述关系类型数据,分别确定行为主体的各个关系类型在所述行为主体的所有关系类型中的关系占比值。
行为参数确定单元,用于根据数据获得单元获得的行为数据,确定用于表征行为特征的行为参数值。
非正常行为确定单元,用于根据所述关系占比确定单元确定的关系占比值、发散度确定单元确定的发散度以及所述行为参数确定单元确定的行为参数值,确定所述行为主体是否执行了非正常行为。
非正常行为过滤单元,用于在所述非正常行为过滤单元确定行为主体执行了非正常行为时,对与所述行为主体执行的非正常行为相关的指令进行过滤。
其中,发散度确定单元具体包括:
信息本体数量确定子单元,用于确定行为主体所发送的所有信息本体的个数;
接收对象数量确定子单元,用根据数据获得单元获得的所述信息本体的接收对象的信息,确定所有信息本体所对应的互不相同的接收对象的个数;
发散度子单元,用于根据信息本体数量确定子单元确定的信息本体的个数和接收对象数量确定子单元确定的接收对象的个数,确定信息本体的接收对象分布的发散度。
关系占比确定单元具体包括:
关系类型确定子单元,用于根据数据获得单元获得的信息本体的接收对象的信息和所述关系类型数据,确定每个信息本体对应的关系类型;
个数占比确定子单元,用于根据行为主体所发送的信息本体的总个数,分别确定每个关系类型确定子单元确定的关系类型所对应的信息本体的个数在所述总个数中的个数占比;
关系占比确定子单元,用于将个数占比确定子单元确定的个数占比分别确定为相应的关系类型在行为主体的所有关系类型中的关系占比。
所述行为参数确定单元确定的用于表征行为特征的行为参数值具体包括:
行为在指定时间单位内发生的频率;
以指定时间单位为统计单位,所确定出的行为的持续值;
以及行为发生的总次数。
当数据获得单元还用于获得SNS服务器针对所述行为主体所记录的所述行为主体发送的信息本体时,则一种基于SNS环境的非正常行为过滤装置还包括:
信息过滤单元,用于删除数据获得单元获得的信息本体中的指定信息内容,生成不包括所述指定信息内容的过滤后的信息本体;
重复率确定单元,用于分别确定信息过滤单元生成的所有过滤后的信息本体所包含的每种信息内容在所有过滤后的信息本体所包含的所有信息内容中的重复率;
非正常行为信息确定单元,用于根据重复率确定单元确定的重复率,判断所述行为主体是否发送了非正常行为信息。
非正常行为信息过滤单元,用于在所述非正常行为信息确定单元确定所述行为主体发送了非正常行为信息时,对所述行为主体发送的非正常行为信息进行过滤。
综上所述,本申请实施例提供的一种基于SNS环境的非正常行为过滤装置通过获得SNS服务器针对待辨识行为的行为主体所记录的行为数据、关系类型数据和包含信息本体和信息本体接收对象的信息数据,根据行为数据确定用于表征行为特征的行为参数值,根据信息本体的接收对象的信息和关系类型数据确定行为主体的各个关系类型在行为主体的所有关系类型中的关系占比值,根据信息本体的接收对象的信息确定用于表征信息本体的接收对象分布的发散度以及根据信息本体确定信息内容的重复率,并根据上述行为参数值、关系占比值、发散度以及重复率确定行为主体是否执行了非正常行为,制造了非正常行为信息,彻底甄别SNS环境系统中制造非正常行为信息和执行非正常行为的非正常行为主体,从而实现对非正常行为用户执行的非正常行为和/或发送的非正常行为信息的过滤处理。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (8)

1.一种基于SNS环境的非正常行为过滤方法,其特征在于,包括:
服务器获得SNS服务器针对待辨识行为的行为主体所记录的行为数据、关系类型数据和包含信息本体的接收对象的信息;
根据所述信息本体的接收对象的信息,确定用于表征信息本体的接收对象分布的发散度,其中,所述发散度为所述行为主体所发送的所述信息本体的接收对象的分布状况的参数;
根据所述信息本体的接收对象的信息和所述关系类型数据,分别确定所述行为主体的各个关系类型在所述行为主体的所有关系类型中的关系占比值;
根据所述行为数据,确定用于表征行为特征的行为参数值,其中,所述行为参数值包括:行为在指定时间单位内发生的频率、行为发生的总次数,以及以指定时间单位为统计单位,所确定出的行为的持续值;
根据所述关系占比值、所述发散度以及所述行为参数值,确定所述行为主体是否执行了非正常行为;
在确定所述行为主体执行了非正常行为时,对与所述行为主体执行的非正常行为相关的指令进行过滤。
2.如权利要求1所述的方法,其特征在于,还包括:
服务器获得SNS服务器针对所述行为主体所记录的所述行为主体发送的信息本体;
删除所述信息本体中的指定信息内容,生成不包括所述指定信息内容的过滤后的信息本体;
分别确定生成的所有过滤后的信息本体所包含的每种信息内容在所述所有过滤后的信息本体所包含的所有信息内容中的重复率;
根据所述重复率,判断所述行为主体是否发送了非正常行为信息;
在确定所述行为主体发送了非正常行为信息时,对所述行为主体发送的非正常行为信息进行过滤。
3.如权利要求1所述的方法,其特征在于,根据所述信息本体的接收对象的信息,确定信息本体的接收对象分布的发散度具体包括:
确定所述行为主体所发送的所有信息本体的个数;
根据获得的所述信息本体的接收对象的信息,确定所述所有信息本体所对应的互不相同的接收对象的个数;
根据所述信息本体的个数和所述接收对象的个数,确定信息本体的接收对象分布的发散度。
4.如权利要求1所述的方法,其特征在于,根据所述信息本体的接收对象的信息和所述关系类型数据,分别确定所述行为主体的各个关系类型在所述行为主体的所有关系类型中的关系占比值,具体包括:
根据所述信息本体的接收对象的信息和所述关系类型数据,确定每个信息本体对应的关系类型;
根据所述行为主体所发送的信息本体的总个数,分别确定每个所述关系类型所对应的信息本体的个数在所述总个数中的个数占比;
将确定的所述个数占比分别确定为相应的关系类型在所述行为主体的所有关系类型中的关系占比。
5.一种基于SNS环境的非正常行为过滤装置,其特征在于,包括:
数据获得单元,用于获得SNS服务器针对待辨识行为的行为主体所记录的行为数据、关系类型数据和包含信息本体的接收对象的信息;
发散度确定单元,用于根据所述数据获得单元获得的信息本体的接收对象的信息,确定用于表征信息本体的接收对象分布的发散度,其中,所述发散度为所述行为主体所发送的所述信息本体的接收对象的分布状况的参数;
关系占比确定单元,用于根据所述数据获得单元获得的信息本体的接收对象的信息和所述关系类型数据,分别确定所述行为主体的各个关系类型在所述行为主体的所有关系类型中的关系占比值;
行为参数确定单元,用于根据所述数据获得单元获得的行为数据,确定用于表征行为特征的行为参数值,其中,所述行为参数值包括:行为在指定时间单位内发生的频率、行为发生的总次数,以及以指定时间单位为统计单位,所确定出的行为的持续值;
非正常行为确定单元,用于根据所述关系占比确定单元确定的关系占比值、所述发散度确定单元确定的发散度以及所述行为参数确定单元确定的行为参数值,确定所述行为主体是否执行了非正常行为;
非正常行为过滤单元,用于在所述非正常行为确定单元确定所述行为主体执行了非正常行为时,对与所述行为主体执行的非正常行为相关的指令进行过滤。
6.如权利要求5所述的装置,其特征在于,
所述数据获得单元,还用于获得SNS服务器针对所述行为主体所记录的所述行为主体发送的信息本体;则所述装置还包括:
信息过滤单元,用于删除所述数据获得单元获得的信息本体中的指定信息内容,生成不包括所述指定信息内容的过滤后的信息本体;
重复率确定单元,用于分别确定所述信息过滤单元生成的所有过滤后的信息本体所包含的每种信息内容在所述所有过滤后的信息本体所包含的所有信息内容中的重复率;
非正常行为信息确定单元,用于根据所述重复率确定单元确定的重复率,判断所述行为主体是否发送了非正常行为信息;
非正常行为信息过滤单元,用于在所述非正常行为信息确定单元确定所述行为主体发送了非正常行为信息时,对所述行为主体发送的非正常行为信息进行过滤。
7.如权利要求5所述的装置,其特征在于,发散度确定单元具体包括:
信息本体数量确定子单元,用于确定所述行为主体所发送的所有信息本体的个数;
接收对象数量确定子单元,用根据所述数据获得单元获得的所述信息本体的接收对象的信息,确定所述所有信息本体所对应的互不相同的接收对象的个数;
发散度子单元,用于根据所述信息本体数量确定子单元确定的信息本体的个数和所述接收对象数量确定子单元确定的接收对象的个数,确定信息本体的接收对象分布的发散度。
8.如权利要求5所述的装置,其特征在于,关系占比确定单元具体包括:
关系类型确定子单元,用于根据所述数据获得单元获得的信息本体的接收对象的信息和所述关系类型数据,确定每个信息本体对应的关系类型;
个数占比确定子单元,用于根据所述行为主体所发送的信息本体的总个数,分别确定每个所述关系类型确定子单元确定的关系类型所对应的信息本体的个数在所述总个数中的个数占比;
关系占比确定子单元,用于将所述个数占比确定子单元确定的个数占比分别确定为相应的关系类型在所述行为主体的所有关系类型中的关系占比。
CN201210484445.2A 2012-11-23 2012-11-23 基于sns环境的非正常行为过滤方法及装置 Active CN103838759B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210484445.2A CN103838759B (zh) 2012-11-23 2012-11-23 基于sns环境的非正常行为过滤方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210484445.2A CN103838759B (zh) 2012-11-23 2012-11-23 基于sns环境的非正常行为过滤方法及装置

Publications (2)

Publication Number Publication Date
CN103838759A CN103838759A (zh) 2014-06-04
CN103838759B true CN103838759B (zh) 2017-04-26

Family

ID=50802270

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210484445.2A Active CN103838759B (zh) 2012-11-23 2012-11-23 基于sns环境的非正常行为过滤方法及装置

Country Status (1)

Country Link
CN (1) CN103838759B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106301880B (zh) * 2015-06-29 2019-12-24 阿里巴巴集团控股有限公司 一种确定网络关系稳定度、互联网业务推荐方法和设备
CN106487636B (zh) * 2015-08-25 2019-11-19 阿里巴巴集团控股有限公司 网络关系数据处理、用户信息及业务信息推送方法和设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101860822A (zh) * 2010-06-11 2010-10-13 中兴通讯股份有限公司 垃圾短信监控方法和系统
CN102315978A (zh) * 2010-06-29 2012-01-11 百度在线网络技术(北京)有限公司 一种检测开放式互动平台中子集的异常状态的方法与设备
CN102571484A (zh) * 2011-12-14 2012-07-11 上海交通大学 一种检测网络水军以及找到网络水军的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110029935A1 (en) * 2009-08-03 2011-02-03 Cisco Technology, Inc. Method and apparatus for detecting undesired users using socially collaborative filtering

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101860822A (zh) * 2010-06-11 2010-10-13 中兴通讯股份有限公司 垃圾短信监控方法和系统
CN102315978A (zh) * 2010-06-29 2012-01-11 百度在线网络技术(北京)有限公司 一种检测开放式互动平台中子集的异常状态的方法与设备
CN102571484A (zh) * 2011-12-14 2012-07-11 上海交通大学 一种检测网络水军以及找到网络水军的方法

Also Published As

Publication number Publication date
CN103838759A (zh) 2014-06-04

Similar Documents

Publication Publication Date Title
Victor Address clustering heuristics for Ethereum
Azaizah et al. Impact of ESN implementation on communication and knowledge-sharing in a multi-national organization
Jones Christensen et al. Consumer behavior change at the base of the pyramid: Bridging the gap between for‐profit and social responsibility strategies
CN106127505A (zh) 一种刷单识别方法及装置
Martinelli Exploring the distributional and work incentive effects of plausible illustrative Basic Income schemes
Haunss et al. Conflicts about intellectual property claims: the role and function of collective action networks
CN105227429B (zh) 一种信息推送方法和装置
EP2882144A3 (de) Verfahren und Filteranordnung zum Filtern von über einen seriellen Datenbus eines Kommunikationsnetzwerks in einem Teilnehmer des Netzwerks eingehenden Nachrichten
Teixeira da Silva et al. Spam emails in academia: issues and costs
Tiwana et al. Spotting lemons in platform markets: A conjoint experiment on signaling
CN107332931A (zh) 机器型论坛水军的识别方法及装置
Agostino et al. How performance measurement systems support managerial actions in networks: Evidence from an Italian case study
Cardoso Castro et al. Identification of organisational pathologies: Exploration of social network analysis to support the viable system model diagnostic
CN110276520A (zh) 项目案件筛选方法以及装置
CN103838759B (zh) 基于sns环境的非正常行为过滤方法及装置
Hu Concentration and mobility of knowledge workers: an intercity analysis of Sydney, Melbourne, and Brisbane
Wolf et al. Does distance still matter?
Alkoby et al. Strategic free information disclosure for search-based information platforms
Schröder et al. Introduction: Sustainable lifestyles, livelihoods and the circular economy
Nepal et al. A social trust based friend recommender for online communities “invited paper”
Song et al. Knowledge sharing and innovation capability: does absorptive capacity function as a mediator?
Johansen et al. Email Communities of Interest.
CN100499599C (zh) 基于邮件服务器的垃圾邮件过滤系统及方法
Shapiro et al. Strength in Numbers and Voice: An Assessment of the Networking Capacity of Chinese ENGOs.
Ichhaporia et al. A network approach to the formation of self-assembled teams

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20211111

Address after: Room 554, floor 5, building 3, No. 969, Wenyi West Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province

Patentee after: Taobao (China) Software Co., Ltd

Address before: P.O. Box 847, 4th floor, capital building, Grand Cayman, British Cayman Islands

Patentee before: Alibaba Group Holdings Limited

TR01 Transfer of patent right