CN105653605A - 一种用于网络社区作弊用户挖掘的方法、系统及电子设备 - Google Patents

一种用于网络社区作弊用户挖掘的方法、系统及电子设备 Download PDF

Info

Publication number
CN105653605A
CN105653605A CN201510982006.8A CN201510982006A CN105653605A CN 105653605 A CN105653605 A CN 105653605A CN 201510982006 A CN201510982006 A CN 201510982006A CN 105653605 A CN105653605 A CN 105653605A
Authority
CN
China
Prior art keywords
user
cheating
question
web community
answer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510982006.8A
Other languages
English (en)
Other versions
CN105653605B (zh
Inventor
勇凤伟
张辰
郭奇
赵启
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201510982006.8A priority Critical patent/CN105653605B/zh
Publication of CN105653605A publication Critical patent/CN105653605A/zh
Application granted granted Critical
Publication of CN105653605B publication Critical patent/CN105653605B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Marketing (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Computational Linguistics (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及互联网领域,公开了一种用于网络社区作弊用户挖掘的方法、系统及电子设备,以解决现有技术中对网络社区作弊用户挖掘效率低的技术问题。该方法包括:获取第一用户的网络问答数据和已确定的网络社区作弊用户信息;基于所述网络问答数据确定出所述第一用户与所述已确定的网络社区作弊用户的关联度;基于所述关联度判断所述第一用户是否属于所述网络社区作弊用户。本发明基于网络社区中已被确定的作弊用户信息,来挖掘得到与该已确定的网络社区作弊用户关联度较高的用户,可以认为该用户也是作弊用户,从而不需要获取并分析大量的网络问答数据就可以确定出用户的身份,故而达到了提高对网络设备作弊用户的挖掘效率的技术效果。

Description

一种用于网络社区作弊用户挖掘的方法、系统及电子设备
技术领域
本发明涉及互联网领域,尤其涉及一种用于网络社区作弊用户挖掘的方法、系统及电子设备。
背景技术
随着互联网的发展,互动问答社区已成为网民获取知识、解决问题的重要手段,知识沉淀的重要场景,其影响力日益提高。在互动社区中用户利用互联网服务商提供的问答系统进行提问,答案,采纳等操作,获取对于问题的满意答案。搜狗问问、百度知道是国内最为大家熟知的问答系统,这两家问答系统都已经产生数亿的“问题答对”,这些数据可用于帮助广大网民解决生活中各种各样的问题。
但是,问答系统面临着一个必需解决的难题:一些投机的用户出于商业目的,利用提问与答案的形式,植入广告或相关的推广内容,试图欺骗搜索引擎,获取私利,这就造成了干扰社区秩序,破坏用户体验的恶劣后果,这些用户可以称之为网络社区的作弊用户。因此,发现和剔除这种为了商业目的而编写的欺诈数据,就成为净化系统生态环境,保证社区健康发展的重要环节。
传统的反作弊系统,主要包含两个部分:实时在线系统和离线挖掘系统。实时在线系统为实时判断每个用户提交的内容,当确定发现内容不合法时候直接删除。当发现疑似危险时候交由人工审核,审核认为有问题则删除,审核无问题则通过。剩下的无问题部分则通过。离线挖掘系统主要是根据用户IP提交量,内容相似性等特性发现作弊用户并且进行处罚,其中实现在线系统由于需要人工参与,故而存在着效率较低的技术问题;而离线挖掘系统需要首先获得用户提高的大量数据,才能够对该用户是否作弊用户进行判断,故而也存在着效率较低的技术问题。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种用于网络社区作弊用户挖掘的方法及相应的系统、电子设备。
第一方面,本发明实施例提供一种用于网络社区作弊用户挖掘的方法,包括:
获取第一用户的网络问答数据和已确定的网络社区作弊用户的信息;
基于所述网络问答数据确定出所述第一用户与已确定的网络社区作弊用户的关联度;
基于所述关联度判断所述第一用户是否属于所述网络社区作弊用户。
可选的,所述基于所述网络问答数据确定出所述第一用户与已确定的网络社区作弊用户的关联度,包括:
确定所述第一用户产生所述网络问答数据的IP信息;和/或
确定所述第一用户与其他用户的问答关系;和/或
确定所述第一用户与其他用户的问答采纳关系;和/或
确定所述第一用户的所述网络问答数据中所包含的特定字符串;所述特定字符串包含于所述已确定的网络社区作弊用户中任意用户所发布的网络问答数据中;
基于所述IP信息、所述问答关系、所述问答采纳关系、所述特定字符串中的至少一种参数确定出所述关联度。
可选的,基于所述IP信息、所述问答关系、所述问答采纳关系、所述特定字符串中的至少一种参数确定出所述关联度,包括:
确定出所述第一用户的所述至少一种参数中每种参数的权威值;
对每种参数的权威值按照权值进行加和获得所述第一用户与所述已确定的网络社区作弊用户的所述关联度。
可选的,所述确定出所述第一用户的所述至少一种参数中每种参数的权威值,包括:
当所述参数为IP信息时,依据所述第一用户使用过的IP中与所述已确定的网络社区作弊用户中的任意用户使用过的IP相同的数目,确定所述第一用户的IP信息对应的权威值;或者,
当所述参数为问答关系时,依据所述第一用户与所述已确定的网络社区作弊用户中的任意用户存在的问答关系的数目,确定所述第一用户的问答关系对应的权威值;或者,
当所述参数为问答采纳关系时,依据所述第一用户与所述已确定的网络社区作弊用户中的任意用户存在的问答采纳关系的数目,确定所述第一用户的问答采纳关系对应的权威值;或者,
当所述参数为特定字符串时,依据所述第一用户发布的网络问答数据中包含所述特定字符串的数目,确定所述第一用户的特定字符串对应的权威值。
可选的,所述确定出所述第一用户的所述至少一种参数中每种参数的权威值,包括:
步骤S1:设定所述已确定的网络社区作弊用户的第一参数的权威值和中心值为第一值,所述已确定的网络社区作弊用户之外的其他用户的所述第一参数的权威值和中心值为第二值,所述第二值小于所述第一值,所述第一参数为所述至少一个参数中的任一参数;
步骤S2:基于已获得的各个用户的权威值和中心值计算所述第一用户的第一权威值和第一中心值;
其中,通过以下公式计算所述第一用户的所述第一权威值;
a(i)=Σh(i)/|a(i)|,其中Σh(i)表示所述第一参数中指向所述第一用户的中心值之和,|a(i)|表示所述第一参数的最高权威值;
其中,通过以下公式计算所述第一用户的所述第一中心值:
h(i)=Σa(i)/|h(i)|,其中Σa(i)表示所述第一参数中指向所述第一用户的权威值之和,|h(i)|表示所述第一参数的最高中心值;
循环步骤S2,直到满足预设条件,即获得所述第一用户的所述第一权威值。
可选的,所述满足预设条件为:
循环次数达到预设次数;或者
在相邻两次循环中,预设数量的用户所述第一参数的权威值的变化量小于预设变化量。
可选的,所述获取第一用户的网络问答数据之前,所述方法还包括:
获取与所述已确定的网络社区作弊用户存在关联的网络用户作为所述第一用户。
可选的,所述获取与所述已确定的网络社区作弊用户存在关联的网络用户作为所述第一用户,包括:
获取IP地址与所述已确定的网络社区作弊用户中的任意用户使用过的IP地址相同的网络用户作为第一用户;或者,
获取与所述已确定的网络社区作弊用户中任意用户存在问答关系的网络用户作为第一用户;或者,
获取与所述已确定的网络社区作弊用户中任意用户存在问答采纳关系的网络用户作为第一用户;或者,
获取包含特定字符串的提问或答复对应的网络用户作为第一用户,所述特定字符串包含于所述已确定的网络社区作弊用户中任意用户所发布的网络问答数据中。
可选的,所述基于所述关联度判断所述第一用户是否属于所述网络社区作弊用户,包括:
判断所述关联度是否大于预设关联度;
在所述关联度大于所述预设关联度时,确定所述第一用户为所述网络社区作弊用户;
在所述关联度不大于所述预设关联度时,确定所述第一用户不为所述网络社区作弊用户。
第二方面,本发明实施例提供一种用于网络社区作弊用户挖掘的系统,包括:
第一获取模块,用于获取第一用户的网络问答数据和已确定的网络社区作弊用户的信息;
确定模块,用于基于所述网络问答数据确定出所述第一用户与已确定的网络社区作弊用户的关联度;
判断模块,用于基于所述关联度判断所述第一用户是否属于所述网络社区作弊用户。
第三方面,本发明实施例提供一种电子设备,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取第一用户的网络问答数据和已确定的网络社区作弊用户的信息;
基于所述网络问答数据确定出所述第一用户与已确定的网络社区作弊用户的关联度;
基于所述关联度判断所述第一用户是否属于所述网络社区作弊用户。
本发明有益效果如下:
由于在本发明实施例中,首先获取第一用户的网络问答数据和已确定的网络社区作弊用户信息;然后基于所述网络问答数据确定出所述第一用户与所述已确定的网络社区作弊用户的关联度;最后基于所述关联度判断所述第一用户是否属于所述网络社区作弊用户。本发明实施例中,基于网络社区中已被确定的作弊用户信息,来挖掘得到与该已确定的网络社区作弊用户关联度较高的用户,可以认为该用户也是作弊用户,从而不需要获取并分析大量的网络问答数据就可以确定出用户的身份,故而达到了提高对网络设备作弊用户的挖掘效率的技术效果。
附图说明
图1为本发明实施例中用于网络社区作弊用户挖掘的方法的流程图;
图2为本发明实施例用于网络社区作弊用户挖掘的方法中预定类别用户与其他用户的示意图;
图3为本发明实施例用于网络社区作弊用户挖掘的方法中网络问答的示意图;
图4为本发明实施例用于网络社区作弊用户挖掘的方法中确定出第一用户与预定类别用户的关联度的流程图;
图5为本发明实施例用于网络社区作弊用户挖掘的方法中确定出所述第一用户的所述至少一种参数中每种参数的权威值的流程图;
图6为本发明实施例用于网络社区作弊用户挖掘的方法中判断第一用户是否为预定类别用户的流程图;
图7为本发明实施例中用于网络社区作弊用户挖掘的系统的结构图;
图8是根据一示例性实施例示出的用于网络社区作弊用户挖掘的方法的电子设备的框图;
图9是本发明实施例中服务器的结构示意图。
具体实施方式
本发明提供一种用于网络社区作弊用户挖掘的方法、系统电子设备,以解决现有技术中对网络社区作弊用户挖掘效率低的技术问题。
本申请实施例中的技术方案为解决上述的技术问题,总体思路如下:
首先获取第一用户的网络问答数据和已确定的网络社区作弊用户信息;然后基于所述网络问答数据确定出所述第一用户与所述已确定的网络社区作弊用户的关联度;最后基于所述关联度判断所述第一用户是否属于所述网络社区作弊用户。本发明实施例中,基于网络社区中已被确定的作弊用户信息,来挖掘得到与该已确定的网络社区作弊用户关联度较高的用户,可以认为该用户也是作弊用户,从而不需要获取并分析大量的网络问答数据就可以确定出用户的身份,故而达到了提高对网络设备作弊用户的挖掘效率的技术效果。
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明,而不是对本发明技术方案的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互组合。
第一方面,本发明实施例提供一种用于网络社区作弊用户挖掘的方法,请参考图1,包括:
步骤S101:获取第一用户的网络问答数据和已确定的网络社区作弊用户信息;
步骤S102:基于所述网络问答数据确定出所述第一用户与所述已确定的网络社区作弊用户的关联度;
步骤S103:基于所述关联度判断所述第一用户是否属于所述网络社区作弊用户。
步骤S101中,网络问答数据例如为:第一用户在网络社区发起的提问以及针对其他用户对该提问的答复所作出的评价、第一用户针对其他用户发起的提问产生的答案中的至少一种数据。
本发明中,还需要获取所述已确定的网络社区作弊用户信息,该信息可以包括:该已确定的网络社区作弊用户的ID、常用IP地址信息、网络问答数据等。基于此,依据该已确定的网络社区作弊用户信息和第一用户的网络问答数据来确定所述第一用户与以确定作弊用户的关联度。
进一步的,本发明中,可以预先将已确定的网络社区作弊用户的信息保存在作弊用户数据库中。具体包括:将已确定的作弊用户对应的所有信息,包括该已确定的网络社区作弊用户的ID、常用IP地址信息、网络问答数据等等,均保存在作弊用户数据库中。其中,该已确定的作弊用户可以是利用人工手段查获的作弊用户,也可以是利用各种挖掘手段挖掘得到的作弊用户,当然,也可以是利用本发明提供的方法挖掘得到的作弊用户,在此不再详述。
举例来说,在网络社区知识问答过程中可以存在很多用户,其中,有一部分用户已经被确认在知识问答过程中存在作弊行为,也即这部分用户为已确定的网络社区作弊用户。如图2所示,椭圆形区域内部的用户为已确定的网络社区作弊用户;而另一部分用户则并不确定其在知识问答过程中是否作弊,则可以将这部分用户作为第一用户,如图2所示,椭圆形区域两侧的用户为第一用户,进而可以通过第一用户与已确定的网络社区作弊用户的关联度在确定出第一用户是否为网络社区作弊用户。
步骤S101中,可以获取网络社区中参与知识问答的任意用户作为第一用户;又或者,先获取网络社区中参与知识问答的所有用户,然后从所有用户中去除已确定的网络社区作弊用户,将剩余的用户作为第一用户。
又或者,可以获取网络社区中与所述已确定的网络社区作弊用户具有一定关联度的用户作为第一用户。例如,获取对所述已确定的网络社区作弊用户提出的问题作出答复的用户作为第一用户;再例如,获取所述已确定的网络社区作弊用户作出答复的问题的提问者作为第一用户。这种情况下,虽然该用户与作弊用户具有一定的关联度,但是并不能直接确定该用户就是作弊用户,可以怀疑该用户可能为作弊用户,还需要进一步对该用户的网络问答数据进行分析,挖掘该用户与该作弊用户的总体关联度来确定该用户是否为作弊用户。
基于此,作为一种可选的实施例,在所述获取第一用户的网络问答数据之前,所述方法还包括:确定与所述已确定的网络社区作弊用户存在关联的所述第一用户,通过该方案,只需要判断与已确定的网络社区作弊用户存在关联的第一用户是否为网络社区作弊用户,而不需要针对所有用户都判断其是否属于网络社区作弊用户,故而能够降低系统的处理负担。
在具体实施过程中,所述获取网络社区中与所述已确定的网络社区作弊用户具有一定关联度的用户作为第一用户可以分为多种情况,下面列举其中的四种进行介绍,当然,在具体实施过程中,不限于以下四种情况。
第一种,获取IP地址与所述已确定的网络社区作弊用户中的任意用户使用过的IP地址相同的网络用户作为第一用户。
举例来说,依据所述已确定的网络社区作弊用户信息,可以提取得到已确定的作弊用户中每个用户所使用过的IP地址,进而汇总成作弊用户IP列表。
针对网络社区中的网络用户可以判断其使用过的IP是否属于该作弊用户IP列表,如果某个网络用户使用过的IP属于该作弊用户IP列表,说明该网络用户与已确定的网络社区作弊用户中的某位作弊用户使用相同的IP地址。在这种情况下,则可以该网络用户与已确定的作弊用户具有一定关联度,则可以将该网络用户作为第一用户,并进一步分析并挖掘该网络用户与所有已确定作弊用户的总体关联度,来确定该网络用户是否为作弊用户。
第二种,获取与所述已确定的网络社区作弊用户中任意用户存在问答关系的网络用户作为第一用户。
其中,所述存在问答关系可以但不限于包括:所述网络用户对所述已确定的网络社区作弊用户提出的问题作出答复;以及,所述已确定的网络社区作弊用户对所述网络用户提出的问题作出答复。
举例来说,如图3所示,假设某网络用户甲发起了一条提问“怎样的面霜适合宝宝使用?”,其中用户A1、用户A2、用户A3、用户A4回答了该提问,则用户甲与用户A1、用户A2、用户A3、用户A4之间存在问答关系。假设用户A1提供的答复为“要用宝宝专用的面霜,天然植物成分的,比如:MM牌山茶油霜”,且该用户A1为已确定的网络社区作弊用户。则可以认为该用户甲与该用户A1之间具有一定的关联度,且有理由怀疑该用户甲有可能也属于作弊用户,其利用问答环节和用户A1一起对“MM牌山茶油霜”做隐形广告推广。则可以将该用户甲作为第一用户,并进一步分析并挖掘该用户甲与该用户A1以及所有已确定作弊用户的总体关联度,来确定该用户甲是否为作弊用户。
再举例来说,假设某网络用户乙发起了一条提问“怎样的面霜适合宝宝使用?”,其中用户A1、用户A2、用户A3、用户A4回答了该提问,则用户乙与用户A1、用户A2、用户A3、用户A4之间存在问答关系。假设用户乙为已确定的网络用户,且用户A2提供的答复为“MM牌山茶油霜,效果很好”。则可以认为该用户A2与该用户乙之间具有一定的关联度,且有理由怀疑该用户A2有可能也属于作弊用户,其利用问答环节和用户乙一起对XX牌宝宝面霜做隐形广告推广。则可以将该用户A2作为第一用户,并进一步分析并挖掘该用户A2与该用户乙以及所有已确定作弊用户的总体关联度,来确定该用户A2是否为作弊用户。
具体的,依据所述已确定的网络社区作弊用户信息,可以获取所述已确定的网络社区作弊用户中每个作弊用户所发起的提问,然后获取回答这些提问的网络用户作为第一用户;又或者,获取所述已确定的网络社区作弊用户中每个作弊用户回答过的提问,然后获取这些提问的发起者作为第一用户等等。
第三种,获取与所述已确定的网络社区作弊用户中任意用户存在问答采纳关系的网络用户作为第一用户。
其中,所述存在问答采纳关系可以但不限于包括:所述网络用户对所述已确定的网络社区作弊用户提出的问题作出答复,且该答复被所述已确定的作弊用户采纳;以及,所述已确定的网络社区作弊用户对所述网络用户提出的问题作出答复,且该答复被所述网络用户采纳。
举例来说,请继续参考图3,用户甲所发起的提问被用户A1、用户A2、用户A3、用户A4所回答。其中,用户A1的答案“要用宝宝专用的面霜,天然植物成分的,比如:MM牌山茶油霜”被采纳为最佳答案,则用户甲与用户A1之间存在着问答采纳关系。假设该用户A1为已确定的网络社区作弊用户,则有理由怀疑该用户甲有可能也属于作弊用户,其利用问答环节和用户A1一起对XX牌宝宝面霜做隐形广告推广。则可以将该用户甲作为第一用户,并进一步分析并挖掘该用户甲与该用户A1以及所有已确定作弊用户的总体关联度,来确定该用户甲是否为作弊用户。
再举例来说,假设某网络用户乙发起了一条提问“怎样的面霜适合宝宝使用?”,其中用户A1、用户A2、用户A3、用户A4回答了该提问。如果用户A2提供的答复“MM牌山茶油霜,效果很好”被采纳为最佳答案,则用户乙与用户A2之间存在着问答采纳关系。假设用户乙为已确定的网络用户,则有理由怀疑该用户A2有可能也属于作弊用户,其利用问答环节和用户乙一起对XX牌宝宝面霜做隐形广告推广。则可以将该用户A2作为第一用户,并进一步分析并挖掘该用户A2与该用户乙以及所有已确定作弊用户的总体关联度,来确定该用户A2是否为作弊用户。
具体的,依据所述已确定的网络社区作弊用户信息,可以获取所述已确定的网络社区作弊用户中每个作弊用户所发起的提问,然后获取这些提问的被采纳答案或最佳答案的产生者作为第一用户;或者,可以获取所述已确定的网络社区作弊用户作出的答复被采纳或被确定为最佳答案的提问,然后确定这些提问的发起者作为第一用户等等。
第四种,获取包含特定字符串的提问或答复对应的网络用户作为第一用户,所述特定字符串包含于所述已确定的网络社区作弊用户中任意用户所发布的网络问答数据中。
作为一种可选的实施例,所述特定字符串具体可以包括:广告用语、联系方式、网络链接、商品名称、机构名称中至少一种类别的字符串。请继续参考图3,图3中的“MM牌山茶油霜”就是商品名称。当然,特定字符串可以为其他字符串,本发明实施例不再详细列举,并且不作限制。
举例来说,可以首先获取已确定的网络社区作弊用户中任意用户所发布的网络问答数据,然后从中提取出特定字符串,组成作弊字符串列表;然后针对每个网络用户,判断其发布的网络问答数据中是否包含有该作弊字符串列表中包括的任意特定字符串,如果包括,则可以将该网络用户作为第一用户。
其中,该特定字符串可以位于针对同一提问进行回答的答案中,也可以位于针对不同提问进行回答的答案中。
例如,假设用户甲针对一提问给出的答复为“MM牌山茶油霜,效果很好”,且该用户甲为已确定网络社区的作弊用户,则提取出特定字符串“MM牌山茶油霜”保存在作弊字符串列表中。如果用户乙在针对另一提问给出的答复为“强烈推荐MM牌山茶油霜”,则确定用户乙的答复包括作弊字符串列表中的特定字符串“MM牌山茶油霜”,则可以认为用户乙与作弊用户具有一定的关联度,可以将该用户乙作为第一用户。再如果,用户丙提出问题“MM牌山茶油霜好用吗”,则确定用户丙的提问中包括作弊字符串列表中的特定字符串“MM牌山茶油霜”,则可以认为用户丙与作弊用户具有一定的关联度,可以将该用户丙作为第一用户。
步骤S102中,所述基于所述网络问答数据确定出所述第一用户与所述已确定的网络社区作弊用户的关联度,可以通过多种参数确定出所述第一用户与已确定的网络社区作弊用户的关联度,下面列举其中的四种进行介绍,当然,在具体实施过程中,不限于以下四种情况。
确定关联度的参数一:所述第一用户产生所述网络问答数据的IP信息。
举例来说,可以获得第一用户登录所述网络社区使用的IP地址;和/或,所述第一用户发起的所有提问、以及第一用户针对其他用户提问产生的所有答案,然后逐一获取产生每条问答数据(提问和答案)所使用的IP地址,进而获得第一用户所产生网络问答数据的IP信息。
其中,依据所述已确定的网络社区作弊用户信息,可以提取得到已确定的作弊用户中每个用户所使用过的IP地址,进而汇总成作弊用户IP列表。依据所述第一用户产生所述网络问答数据的IP信息与所述作弊用户IP列表,确定出所述第一用户与多少已确定的网络社区作弊用户的IP存在关联,以及第一用户与多少不确定是否在网络社区作弊的用户的IP存在关联,进而,基于这些信息可以确定出第一用户与已确定的网络社区作弊用户的关联度,具体如何确定,将在后续介绍。
确定关联度的参数二:所述第一用户与各网络用户的问答关系。具体的,基于已确定的网络社区作弊用户信息中包括的所有已确定作弊用户的网络问答数据以及该第一用户的网络问答数据,可以挖掘得到所述第一用户与各网络用户的问答关系。
举例来说,依据所述第一用户的网络问答数据,可以获取第一用户所产生的提问的回答者;以及获得第一用户产生的答案的提问者。例如:假设第一用户提了一个问题,这个问题的回答者分别包括:用户A1、用户A2、用户A3、用户A4;再例如,第一用户共回答了三个问题,这三个问题的发起者分别为:用户Q1、用户Q2、用户Q3;则第一用户与用户A1、用户A2、用户A3、用户A4、用户Q1、用户Q2、用户Q3之间皆构成问答关系。当然,以上问答关系仅仅作为一个举例,并不作为限制。
基于所述第一用户与其他用户的问答关系,可以确定出第一用户与多少已确定的网络社区作弊用户存在问答关系,以及第一用户与多少不确定是否在网络社区作弊的用户存在问答关系,基于这两种信息,就可以确定出第一用户与已确定的网络社区作弊用户的关联度,具体如何确定,将在后续介绍。
确定关联度的参数三:所述第一用户与其他用户的问答采纳关系。具体的,基于已确定的网络社区作弊用户信息中包括的所有已确定作弊用户的网络问答数据以及该第一用户的网络问答数据,可以挖掘得到所述第一用户与各网络用户的问答采纳关系。
举例来说,依据所述第一用户的网络问答数据,可以获得第一用户所发起的提问,然后获取这些提问的答案中被第一用户所采纳的答案,被采纳的答案对应的用户与第一用户之间则存在问答采纳关系,还是以图3为例,则用户甲(也即:第一用户)与用户A1之间存在问答采纳关系;又或者,获得第一用户被采纳的答案,然后确定被采纳的答案的产生者,被采纳的答案的产生者与第一用户之间存在问答采纳关系,例如:第一用户共回答了三个问题,这三个问题的发起者分别为:用户Q1、用户Q2、用户Q3,其中回答用户Q2的答案被采纳,则第一用户与用户Q2之间构成问答采纳关系。当然,以上问答采纳关系仅仅作为一个举例,并不作为限制。
基于所述第一用户与其他用户的问答关系,可以确定出第一用户与多少已确定的网络社区作弊用户存在问答采纳关系,以及第一用户与多少不确定是否在网络社区作弊的用户存在问答采纳关系,基于这两种信息,就可以确定出第一用户与已确定的网络社区作弊用户的关联度,具体如何确定,将在后续介绍。
确定关联度的参数四:所述第一用户的所述网络问答数据中所包含的特定字符串。所述特定字符串包含于所述已确定的网络社区作弊用户中任意用户所发布的网络问答数据中;且所述特定字符串具体可以包括广告用语、联系方式、网络链接、商品名称、机构名称中至少一种类别的字符串。
举例来说,可以首先获得第一用户的网络问答数据,然后通过语义分析或者数据库挖掘的方式,从中提取出特定字符串,由于特定字符串具体为何种字符串,前面已经列举,故而在此不再赘述。
基于所述第一用户的网络问答数据中包含的特定字符串,可以确定出第一用户的特定字符串存在于多少已确定的网络社区作弊用户的网络问答数据中,以及第一用户的特定字符串存在于多少不确定是否在网络社区作弊的用户的网络问答数据中,基于这两种信息,就可以确定出第一用户与已确定的网络社区作弊用户的关联度,具体如何确定,将在后续介绍。
步骤S102中,可以通过上述一种参数确定出第一用户与已确定的网络社区作弊用户的关联度,也可以通过上述至少两种参数确定出第一用户与已确定的网络社区作弊用户的关联度,本发明实施例不作限制。
其中,不管是基于上述几种参数确定出第一用户与已确定的网络社区作弊用户的关联度,请参考图4,可以包括以下步骤:
步骤S401:确定出所述第一用户的所述至少一种参数中每种参数的权威值;
其中,所述每种参数的权威值可以用于表示依据该种参数,所述第一用户与所述已确定作弊用户的关联度。
例如,当所述参数为IP地址时,则可以依据所述第一用户使用过的IP地址中与所述已确定的网络社区作弊用户中的任意用户使用过的IP地址相同的数目,确定所述第一用户的IP地址参数对应的权威值。当所述IP地址相同的数目较多时,可以设定所述第一用户的IP地址参数对应的权威值较高。
再例如,当所述参数为存在问答关系时,则可以依据所述第一用户与所述已确定的网络社区作弊用户中的任意用户存在的问答关系的数目,确定所述第一用户的问答关系参数对应的权威值。当存在的问答关系的数目较多时,可以设定所述第一用户的问答关系参数对应的权威值较高。其中,与所述已确定的网络社区作弊用户中的任意用户存在较多的问答关系可以包括:所述第一用户与某一已确定作弊用户存在较多的问答关系和/或所述第一用户与较多位已确定作弊用户存在问答关系。
再例如,当所述参数为存在问答采纳关系时,则可以依据所述第一用户与所述已确定的网络社区作弊用户中的任意用户存在的问答采纳关系的数目,确定所述第一用户的问答采纳关系参数对应的权威值。当存在的问答采纳关系较多时,可以设定该第一用户的问答采纳关系参数对应的权威值较高。其中,与所述已确定的网络社区作弊用户中的任意用户存在较多的问答采纳关系可以包括:所述第一用户与某一已确定作弊用户存在较多的问答采纳关系和/或所述第一用户与较多位已确定作弊用户存在问答采纳关系。
再例如,当所述参数为包含特定字符串时,则可以依据所述第一用户发布的网络问答数据中包含所述特定字符串的数目,确定所述第一用户的包含特定字符串参数对应的权威值。当包含的特定字符串的数目较多时,可以设定该第一用户的包含特定字符串参数对应的权威值较高。
当然,本发明实施例中还可以对各参数对应的权威值给出具体的量化值,例如,可以将该权威值取0至1之间的任意常数,并依据各参数对应的数据的具体值为所述参数的权威值赋值。
步骤S402:对每种参数的权威值按照权值进行加和获得所述第一用户与所述已确定的网络社区作弊用户的所述关联度。
本发明中,如果确定关联度的参数只包含一种参数,则可以直接将第一用户的该参数的权威值作为关联度(也即:该参数的权威值的权值为1);如果确定关联度的参数包含多种参数,可以根据实际需求设置不同的权值,例如:由于问答采纳关系往往比问答关系重要,故而将问答采纳关系的权重设置的高于问答关系;由于IP可以伪装,故而将IP信息的权重值设置的较低等等,对于采用何种原则设置每种参数的权重值,本发明实施例不再详细列举,并且不作限制。
本发明优选实施例中,还可以提供一种具体的算法,实现步骤S401中所述确定出所述第一用户的所述至少一种参数中每种参数的权威值的步骤,请参考图5,具体包括:
步骤S1:设定所述已确定的网络社区作弊用户的第一参数的权威值和中心值为第一值,所述已确定的网络社区作弊用户之外的其他用户的所述第一参数的权威值和中心值为第二值,所述第二值小于所述第一值,所述第一参数为所述至少一个参数中的任一参数;
步骤S2:基于已获得的各个用户的权威值和中心值计算所述第一用户的第一权威值和第一中心值;
其中,通过以下公式计算所述第一用户的第一权威值;
a(i)=Σh(i)/|a(i)|,其中Σh(i)表示所述第一参数中指向所述第一用户的中心值之和,|a(i)|表示所述第一参数的最高权威值;
其中,通过以下公式计算所述第一用户的第一中心值:
h(i)=Σa(i)/|h(i)|,其中Σa(i)表示所述第一参数中指向所述第一用户的权威值之和,|h(i)|表示所述第一参数的最高中心值;
步骤S3:循环步骤S2,直到满足预设条件,即获得所述第一用户的所述第一权威值。
步骤S1中,以第一参数为所述第一用户与其他用户的问答关系为例,设定已确定的网络社区作弊用户的第一参数的权威值和中心值为1(也即第一值),设置已确定的网络社区作弊用户之外的其他用户(包括第一用户)的权威值和中心值为0(也即第二值),当然,第一值和第二值还可以为其他值,本发明实施例不作限制。
还是假设第一用户共提了四个问题,这四个问题的回答者分别为:用户A1、用户A2、用户A3、用户A4;第一用户共回答了三个问题,这三个问题的提问者分别为:用户Q1、用户Q2、用户Q3,其中,用户A2、用户A3、用户Q2为已确定的网络社区作弊用户。
步骤S2中,已获得的各个用户的权威值和中心值可能基于两种情况获得,一种是在循环开始阶段,已获得的各个用户的权威值和中心值指的是设定的权威值和中心值;另一种,步骤S2执行至少一次之后,已获得的各个用户的权威值和中心值指的是基于步骤S2所计算出来的各个用户的权威值和中心值。
第一参数中指向第一用户的中心值之和(在问答关系中回答第一用户提问的用户的中心值即为指向第一用户的中心值),指的是回答了第一用户的提问的用户的中心值之和,如果是循环开始阶段,则Σh(i)=0+1+1+0=2
|a(i)|表示所述第一参数的最高权威值,也即:1*4=4;
从而确定出第一权威值a(i)=Σh(i)/|a(i)|=2/4;
其中,第一参数中指向第一用户的权威值之和(在问答关系中提问被第一用户所回答的用户的权威值即为指向第一用户的权威值),指的是第一用户所回答的提问的用户的权威值之和,如果是循环开始阶段,则Σa(i)=0+1+0=1;
|h(i)|表示第一参数的最高中心值,也即:1*3=3;
从而确定出第一中心值h(i)=Σa(i)/|h(i)|=1/3;
其中,在上述步骤S2中,针对已确定的网络社区作弊用户之外的其他用户都采用上述方式计算出权威值和中心值。
步骤S3中,针对已确定的网络社区作弊用户其权威值和中心值都保持不变,针对其他用户其权威值和中心值可能基于步骤S2发生变化,然后将基于步骤S2所获得的各个用户的权威值和中心值继续代入步骤S2中的权威值和中心值的计算公式,获得各个用户的新的权威值和中心值,直到满足预设条件。
循环步骤S2的目的在于让用户的权威值收敛,其中,可以通过多种情况控制步骤S2的循环结束,下面列举其中的两种情况进行介绍,当然,在具体实施过程中,不限于以下两种情况。另外,在不冲突的情况下,以下两种方式可以组合使用。
第一种,所述满足预设条件具体为:在相邻两次循环中,预设数量的用户所述第一参数的权威值的变化量小于预设变化量。
举例来说,预设数量的用户指的是已确定的网络社区作弊用户之外的其他用户,这里的预设数量可以为一个绝对数量,例如:50、100,这里的预设数量也可以为一个相对数量,例如:80%、90%等等,本发明实施例不作限制。
其中,如果预设数量的用户所述第一参数的权威值的变化量小于预设变化量,则说明大部分用户的权威值已经收敛,在这种情况下,则可以停止循环。
第二种,所述满足预设条件具体为:循环次数达到预设次数。
举例来说,循环预设次数例如为:4次、5次等等,其中,有些情况下,可能多次循环之后,部分用户的权威值也并未收敛,故而为了防止一直循环(导致系统的处理负担过重),因此可以在循环次数达到预设次数之后就停止循环。
以下为计算该第一参数的权威值的算法流程:
a,h初始化为1,a0=1,h0=1
t=1
do
foreachvinV
d o a t ( v ) = Σ ( w , v ) ∈ E h t - 1 ( w )
h t ( v ) = Σ ( v , w ) ∈ E a t - 1 ( w )
at=at/||at||
ht=ht/||ht||
t=t+1
While||at-at-1||+||ht-ht-1||<ε
Return(at,ht)
其中,针对问答采纳关系,计算其权威值的方式与上述方式类似,故而在此不再赘述。
针对通过IP信息确定权威值的情况,指向第一用户的中心值之和指的是与第一用户使用过相同的IP地址的用户的中心值之和,指向第一用户的权威值之和指的是与第一用户使用过相同的IP地址的用户的权威值之和,在这种情况下,第一用户的权威值与中心值相同。
针对通过特定字符串确定权威值的情况,指向第一用户的中心值之和指的是与第一用户发表过相同的特定字符串的用户的中心值之和,指向第一用户的权威值之和指的是与第一用户发表过相同的特定字符串的用户的权威值之和,在这种情况下,第一用户的权威值与中心值也相同。
步骤S402中,如果确定关联度的参数只包含一种参数,则可以直接将第一用户的该参数的权威值作为关联度(也即:权值为1);如果确定关联度的参数包含多种参数,可以根据实际需求设置不同的权值,例如:由于问答采纳关系往往比问答关系重要,故而将问答采纳关系的权重设置的高于问答关系;由于IP可以伪装,故而将IP信息的权重值设置的较低等等,对于采用何种原则设置每种参数的权重值,本发明实施例不再详细列举,并且不作限制。
步骤S103中,所述基于所述关联度判断所述第一用户是否属于网络社区作弊用户,请参考图6,具体包括:
步骤S601:判断所述关联度是否大于预设关联度;
步骤S602:在所述关联度大于所述预设关联度时,确定所述第一用户为所述网络社区作弊用户;
步骤S603:在所述关联度不大于所述预设关联度时,确定所述第一用户不为所述网络社区作弊用户。
步骤S601中可以根据实际需求设置不同的预设关联度,例如:1/4、2/4等等,本发明实施例不作限制。
步骤S602中,如果关联度大于预设关联度,则说明第一用户与已确定的网络社区作弊用户的关联度较高,则确认第一用户也为网络社区作弊用户。
步骤S603中,如果关联度不大于预设关联度,则说明第一用户与已确定的网络社区作弊用户的关联度不高,故而确定第一用户并非网络社区作弊用户。
进一步的,本发明所述方法在步骤S602确定所述第一用户为所述网络社区作弊用户之后,还可以包括:将所述第一用户对应的信息保存在作弊用户数据库中,具体包括:所述第一用户的ID、常用IP地址信息、网络问答数据等等。
第二方面,基于同一发明构思,本发明实施例提供一种用于网络社区作弊用户挖掘的系统,请参考图7,包括:
第一获取模块70,用于获取第一用户的网络问答数据和已确定的网络社区作弊用户的信息;
确定模块71,用于基于所述网络问答数据确定出所述第一用户与已确定的网络社区作弊用户的关联度;
判断模块72,用于基于所述关联度判断所述第一用户是否属于所述网络社区作弊用户。
可选的,所述确定模块71,包括:第一确定单元和第二确定单元;
所述第一确定单元,用于确定所述第一用户产生所述网络问答数据的IP信息;和/或确定所述第一用户与其他用户的问答关系;和/或确定所述第一用户与其他用户的问答采纳关系;和/或确定所述第一用户的所述网络问答数据中所包含的特定字符串;所述特定字符串包含于所述已确定的网络社区作弊用户中任意用户所发布的网络问答数据中;
所述第二确定单元,用于基于所述IP信息、所述问答关系、所述问答采纳关系、所述特定字符串中的至少一种参数确定出所述关联度。
可选的,所述第二确定单元,包括:确定子单元和加和子单元;
所述确定子单元,用于确定出所述第一用户的所述至少一种参数中每种参数的权威值;
所述加和子单元,用于对每种参数的权威值按照权值进行加和获得所述第一用户与所述已确定的网络社区作弊用户的所述关联度。
可选的,所述确定子单元可以包括:
第一权威值确定子单元,用于当所述参数为IP信息时,依据所述第一用户使用过的IP中与所述已确定的网络社区作弊用户中的任意用户使用过的IP相同的数目,确定所述第一用户的IP信息对应的权威值;或者,
第二权威值确定子单元,用于当所述参数为问答关系时,依据所述第一用户与所述已确定的网络社区作弊用户中的任意用户存在的问答关系的数目,确定所述第一用户的问答关系对应的权威值;或者,
第三权威值确定子单元,用于当所述参数为问答采纳关系时,依据所述第一用户与所述已确定的网络社区作弊用户中的任意用户存在的问答采纳关系的数目,确定所述第一用户的问答采纳关系对应的权威值;或者,
第四权威值确定子单元,用于当所述参数为特定字符串时,依据所述第一用户发布的网络问答数据中包含所述特定字符串的数目,确定所述第一用户的特定字符串对应的权威值。
可选的,所述确定子单元可以包括:设定子单元、计算子单元和循环子单元;
所述设定子单元,用于设定所述已确定的网络社区作弊用户的第一参数的权威值和中心值为第一值,所述已确定的网络社区作弊用户之外的其他用户的所述第一参数的权威值和中心值为第二值,所述第二值小于所述第一值,所述第一参数为所述至少一个参数中的任一参数;
所述计算子单元,用于基于已获得的各个用户的权威值和中心值计算所述第一用户的第一权威值和第一中心值;
其中,通过以下公式计算所述第一用户的所述第一权威值;
a(i)=Σh(i)/|a(i)|,其中Σh(i)表示所述第一参数中指向所述第一用户的中心值之和,|a(i)|表示所述第一参数的最高权威值;
其中,通过以下公式计算所述第一用户的所述第一中心值:
h(i)=Σa(i)/|h(i)|,其中Σa(i)表示所述第一参数中指向所述第一用户的权威值之和,|h(i)|表示所述第一参数的最高中心值;
所述循环子单元,用于循环触发所述计算子单元,直到满足预设条件,即获得所述第一用户的所述第一权威值。
可选的,所述循环子单元可以包括:循环次数达到预设次数;或者在相邻两次循环中,预设数量的用户所述第一参数的权威值的变化量小于预设变化量。
可选的,所述系统还包括:第二获取模块,用于获取与所述已确定的网络社区作弊用户存在关联的网络用户作为所述第一用户。
可选的,所述第二获取模块,用于:
第一获取子单元,用于获取IP地址与所述已确定的网络社区作弊用户中的任意用户使用过的IP地址相同的网络用户作为第一用户;或者,
第二获取子单元,用于获取与所述已确定的网络社区作弊用户中任意用户存在问答关系的网络用户作为第一用户;或者,
第三获取子单元,用于获取与所述已确定的网络社区作弊用户中任意用户存在问答采纳关系的网络用户作为第一用户;或者,
第四获取子单元,用于获取包含特定字符串的提问或答复对应的网络用户作为第一用户,所述特定字符串包含于所述已确定的网络社区作弊用户中任意用户所发布的网络问答数据中。
可选的,所述判断模块72,包括:判断单元、第三确定单元、第四确定单元。
所述判断单元,用于判断所述关联度是否大于预设关联度;
所述第三确定单元,用于在所述关联度大于所述预设关联度时,确定所述第一用户为所述网络社区作弊用户;
所述第四确定单元,用于在所述关联度不大于所述预设关联度时,确定所述第一用户不为所述网络社区作弊用户。
由于本发明第二方面所介绍的用于网络社区作弊用户挖掘的系统,为实施例本发明实施例第一方面所介绍的用于网络社区作弊用户挖掘的方法所采用的系统,基于本发明实施例第一方面所介绍的用于网络社区作弊用户挖掘的方法,本领域所属技术人员能够了解该系统的具体结构及变形,故而在此不再赘述,凡是实施本发明实施例第一方面的用于网络社区作弊用户挖掘的方法所采用的系统都属于本发明实施例所欲保护的范围。
第三方面,基于同一发明构思,本发明实施例提供一种电子设备,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取第一用户的网络问答数据和已确定的网络社区作弊用户的信息;
基于所述网络问答数据确定出所述第一用户与已确定的网络社区作弊用户的关联度;
基于所述关联度判断所述第一用户是否属于所述网络社区作弊用户。
可选的,所述电子设备还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
确定所述第一用户产生所述网络问答数据的IP信息;和/或
确定所述第一用户与其他用户的问答关系;和/或
确定所述第一用户与其他用户的问答采纳关系;和/或
确定所述第一用户的所述网络问答数据中所包含的特定字符串;所述特定字符串包含于所述已确定的网络社区作弊用户中任意用户所发布的网络问答数据中;
基于所述IP信息、所述问答关系、所述问答采纳关系、所述特定字符串中的至少一种参数确定出所述关联度。
可选的,所述电子设备还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
确定出所述第一用户的所述至少一种参数中每种参数的权威值;
对每种参数的权威值按照权值进行加和获得所述第一用户与所述已确定的网络社区作弊用户的所述关联度。
可选的,所述电子设备还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
当所述参数为IP信息时,依据所述第一用户使用过的IP中与所述已确定的网络社区作弊用户中的任意用户使用过的IP相同的数目,确定所述第一用户的IP信息对应的权威值;或者,
当所述参数为问答关系时,依据所述第一用户与所述已确定的网络社区作弊用户中的任意用户存在的问答关系的数目,确定所述第一用户的问答关系对应的权威值;或者,
当所述参数为问答采纳关系时,依据所述第一用户与所述已确定的网络社区作弊用户中的任意用户存在的问答采纳关系的数目,确定所述第一用户的问答采纳关系对应的权威值;或者,
当所述参数为特定字符串时,依据所述第一用户发布的网络问答数据中包含所述特定字符串的数目,确定所述第一用户的特定字符串对应的权威值。
可选的,所述电子设备还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
步骤S1:设定所述已确定的网络社区作弊用户的第一参数的权威值和中心值为第一值,所述已确定的网络社区作弊用户之外的其他用户的所述第一参数的权威值和中心值为第二值,所述第二值小于所述第一值,所述第一参数为所述至少一个参数中的任一参数;
步骤S2:基于已获得的各个用户的权威值和中心值计算所述第一用户的第一权威值和第一中心值;
其中,通过以下公式计算所述第一用户的所述第一权威值;
a(i)=Σh(i)/|a(i)|,其中Σh(i)表示所述第一参数中指向所述第一用户的中心值之和,|a(i)|表示所述第一参数的最高权威值;
其中,通过以下公式计算所述第一用户的所述第一中心值:
h(i)=Σa(i)/|h(i)|,其中Σa(i)表示所述第一参数中指向所述第一用户的权威值之和,|h(i)|表示所述第一参数的最高中心值;
循环步骤S2,直到满足预设条件,即获得所述第一用户的所述第一权威值。
关于上述实施例中的电子设备,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图8是根据一示例性实施例示出的一种用于网络社区作弊用户挖掘的方法的电子设备800的框图。例如,电子设备800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图8,电子设备800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制电子设备800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理部件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件806为电子设备800的各种组件提供电力。电力组件806可以包括电源管理系统,一个或多个电源,及其他与为电子设备800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当电子设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当电子设备800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为电子设备800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为电子设备800的显示器和小键盘,传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变,用户与电子设备800接触的存在或不存在,电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由电子设备800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行一种用于网络社区作弊用户挖掘的方法,所述方法包括:
获取第一用户的网络问答数据和已确定的网络社区作弊用户的信息;
基于所述网络问答数据确定出所述第一用户与已确定的网络社区作弊用户的关联度;
基于所述关联度判断所述第一用户是否属于所述网络社区作弊用户。
图9是本发明实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessingunits,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作系统1941,例如WindowsServerTM,MacOSXTM,UnixTM,LinuxTM,FreeBSDTM等等。
本发明一个或多个实施例,至少具有以下有益效果:
由于在本发明实施例中,首先获取第一用户的网络问答数据;然后基于所述网络问答数据确定出所述第一用户与已确定的网络社区作弊用户的关联度;最后基于所述关联度判断所述第一用户是否属于所述网络社区作弊用户。由于通过第一用户的网络问答数据与已确定的网络社区作弊用户的关联度来确定第一用户是否为网络社区作弊用户,从而不需要第一用户提供大量的网络问答数据就可以确定出第一用户的身份,故而达到了提高对网络设备作弊用户的挖掘效率的技术效果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品,该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (11)

1.一种用于网络社区作弊用户挖掘的方法,其特征在于,包括:
获取第一用户的网络问答数据和已确定的网络社区作弊用户的信息;
基于所述网络问答数据确定出所述第一用户与已确定的网络社区作弊用户的关联度;
基于所述关联度判断所述第一用户是否属于所述网络社区作弊用户。
2.如权利要求1所述的方法,其特征在于,所述基于所述网络问答数据确定出所述第一用户与已确定的网络社区作弊用户的关联度,包括:
确定所述第一用户产生所述网络问答数据的IP信息;和/或
确定所述第一用户与其他用户的问答关系;和/或
确定所述第一用户与其他用户的问答采纳关系;和/或
确定所述第一用户的所述网络问答数据中所包含的特定字符串;所述特定字符串包含于所述已确定的网络社区作弊用户中任意用户所发布的网络问答数据中;
基于所述IP信息、所述问答关系、所述问答采纳关系、所述特定字符串中的至少一种参数确定出所述关联度。
3.如权利要求2所述的方法,其特征在于,基于所述IP信息、所述问答关系、所述问答采纳关系、所述特定字符串中的至少一种参数确定出所述关联度,包括:
确定出所述第一用户的所述至少一种参数中每种参数的权威值;
对每种参数的权威值按照权值进行加和获得所述第一用户与所述已确定的网络社区作弊用户的所述关联度。
4.如权利要求3所述的方法,其特征在于,所述确定出所述第一用户的所述至少一种参数中每种参数的权威值,包括:
当所述参数为IP信息时,依据所述第一用户使用过的IP中与所述已确定的网络社区作弊用户中的任意用户使用过的IP相同的数目,确定所述第一用户的IP信息对应的权威值;或者,
当所述参数为问答关系时,依据所述第一用户与所述已确定的网络社区作弊用户中的任意用户存在的问答关系的数目,确定所述第一用户的问答关系对应的权威值;或者,
当所述参数为问答采纳关系时,依据所述第一用户与所述已确定的网络社区作弊用户中的任意用户存在的问答采纳关系的数目,确定所述第一用户的问答采纳关系对应的权威值;或者,
当所述参数为特定字符串时,依据所述第一用户发布的网络问答数据中包含所述特定字符串的数目,确定所述第一用户的特定字符串对应的权威值。
5.如权利要求3所述的方法,其特征在于,所述确定出所述第一用户的所述至少一种参数中每种参数的权威值,包括:
步骤S1:设定所述已确定的网络社区作弊用户的第一参数的权威值和中心值为第一值,所述已确定的网络社区作弊用户之外的其他网络用户的所述第一参数的权威值和中心值为第二值,所述第二值小于所述第一值,所述第一参数为所述至少一个参数中的任一参数;
步骤S2:基于已获得的各个用户的权威值和中心值计算所述第一用户的第一权威值和第一中心值;
其中,通过以下公式计算所述第一用户的所述第一权威值;
a(i)=Σh(i)/|a(i)|,其中Σh(i)表示所述第一参数中指向所述第一用户的中心值之和,|a(i)|表示所述第一参数的最高权威值;
其中,通过以下公式计算所述第一用户的所述第一中心值:
h(i)=Σa(i)/|h(i)|,其中Σa(i)表示所述第一参数中指向所述第一用户的权威值之和,|h(i)|表示所述第一参数的最高中心值;
循环步骤S2,直到满足预设条件,即获得所述第一用户的所述第一权威值。
6.如权利要求5所述的方法,其特征在于,所述满足预设条件为:
循环次数达到预设次数;或者
在相邻两次循环中,预设数量的用户所述第一参数的权威值的变化量小于预设变化量。
7.如权利要求1-6任一项所述的方法,其特征在于,所述获取第一用户的网络问答数据之前,所述方法还包括:
获取与所述已确定的网络社区作弊用户存在关联的网络用户作为所述第一用户。
8.如权利要求7所述的方法,其特征在于,所述获取与所述已确定的网络社区作弊用户存在关联的网络用户作为所述第一用户,包括:
获取IP地址与所述已确定的网络社区作弊用户中的任意用户使用过的IP地址相同的网络用户作为第一用户;或者,
获取与所述已确定的网络社区作弊用户中任意用户存在问答关系的网络用户作为第一用户;或者,
获取与所述已确定的网络社区作弊用户中任意用户存在问答采纳关系的网络用户作为第一用户;或者,
获取包含特定字符串的提问或答复对应的网络用户作为第一用户,所述特定字符串包含于所述已确定的网络社区作弊用户中任意用户所发布的网络问答数据中。
9.如权利要求1-6任一所述的方法,其特征在于,所述基于所述关联度判断所述第一用户是否属于所述网络社区作弊用户,包括:
判断所述关联度是否大于预设关联度;
在所述关联度大于所述预设关联度时,确定所述第一用户为所述网络社区作弊用户;
在所述关联度不大于所述预设关联度时,确定所述第一用户不为所述网络社区作弊用户。
10.一种用于网络社区作弊用户挖掘的系统,其特征在于,包括:
第一获取模块,用于获取第一用户的网络问答数据和已确定的网络社区作弊用户的信息;
确定模块,用于基于所述网络问答数据确定出所述第一用户与已确定的网络社区作弊用户的关联度;
判断模块,用于基于所述关联度判断所述第一用户是否属于所述网络社区作弊用户。
11.一种电子设备,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取第一用户的网络问答数据和已确定的网络社区作弊用户的信息;
基于所述网络问答数据确定出所述第一用户与已确定的网络社区作弊用户的关联度;
基于所述关联度判断所述第一用户是否属于所述网络社区作弊用户。
CN201510982006.8A 2015-12-23 2015-12-23 一种用于网络社区作弊用户挖掘的方法、系统及电子设备 Active CN105653605B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510982006.8A CN105653605B (zh) 2015-12-23 2015-12-23 一种用于网络社区作弊用户挖掘的方法、系统及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510982006.8A CN105653605B (zh) 2015-12-23 2015-12-23 一种用于网络社区作弊用户挖掘的方法、系统及电子设备

Publications (2)

Publication Number Publication Date
CN105653605A true CN105653605A (zh) 2016-06-08
CN105653605B CN105653605B (zh) 2020-04-21

Family

ID=56476797

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510982006.8A Active CN105653605B (zh) 2015-12-23 2015-12-23 一种用于网络社区作弊用户挖掘的方法、系统及电子设备

Country Status (1)

Country Link
CN (1) CN105653605B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109408756A (zh) * 2018-09-21 2019-03-01 广州神马移动信息科技有限公司 问答社区中用户行为的监控方法及其装置
CN109492076A (zh) * 2018-09-20 2019-03-19 西安交通大学 一种基于网络的社区问答网站答案可信评估方法
CN109978333A (zh) * 2019-02-26 2019-07-05 湖南大学 众包系统中基于社区发现与链接预测的独立工人选择方法
CN111105259A (zh) * 2018-10-29 2020-05-05 北京奇虎科技有限公司 一种用户识别方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102637170A (zh) * 2011-02-10 2012-08-15 北京百度网讯科技有限公司 一种问题推送方法及系统
CN103136267A (zh) * 2011-12-01 2013-06-05 腾讯科技(深圳)有限公司 一种基于社区的专家挖掘方法与装置
CN103368917A (zh) * 2012-04-01 2013-10-23 阿里巴巴集团控股有限公司 一种网络虚拟用户的风险控制方法及系统
KR20140138379A (ko) * 2013-05-22 2014-12-04 (주) 미디어인터랙티브 관계성 매트릭스를 이용하여 서비스를 제공하는 방법, 서버 및 컴퓨터 판독 가능한 기록 매체
CN104699679A (zh) * 2013-12-04 2015-06-10 腾讯科技(北京)有限公司 一种确定社交网络平台中用户属性的方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102637170A (zh) * 2011-02-10 2012-08-15 北京百度网讯科技有限公司 一种问题推送方法及系统
CN103136267A (zh) * 2011-12-01 2013-06-05 腾讯科技(深圳)有限公司 一种基于社区的专家挖掘方法与装置
CN103368917A (zh) * 2012-04-01 2013-10-23 阿里巴巴集团控股有限公司 一种网络虚拟用户的风险控制方法及系统
KR20140138379A (ko) * 2013-05-22 2014-12-04 (주) 미디어인터랙티브 관계성 매트릭스를 이용하여 서비스를 제공하는 방법, 서버 및 컴퓨터 판독 가능한 기록 매체
CN104699679A (zh) * 2013-12-04 2015-06-10 腾讯科技(北京)有限公司 一种确定社交网络平台中用户属性的方法和系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492076A (zh) * 2018-09-20 2019-03-19 西安交通大学 一种基于网络的社区问答网站答案可信评估方法
CN109408756A (zh) * 2018-09-21 2019-03-01 广州神马移动信息科技有限公司 问答社区中用户行为的监控方法及其装置
CN111105259A (zh) * 2018-10-29 2020-05-05 北京奇虎科技有限公司 一种用户识别方法、装置、电子设备和存储介质
CN111105259B (zh) * 2018-10-29 2024-04-02 北京奇虎科技有限公司 一种用户识别方法、装置、电子设备和存储介质
CN109978333A (zh) * 2019-02-26 2019-07-05 湖南大学 众包系统中基于社区发现与链接预测的独立工人选择方法

Also Published As

Publication number Publication date
CN105653605B (zh) 2020-04-21

Similar Documents

Publication Publication Date Title
CN105975563B (zh) 表情推荐方法及装置
CN108875993B (zh) 邀请行为预测方法及装置
US20090271244A1 (en) Situation-aware ad-hoc social interaction
CN104572942A (zh) 推送消息显示方法及装置
CN104301204A (zh) 未读通信消息聚合方法及装置
CN104636453B (zh) 非法用户资料识别方法及装置
US10726087B2 (en) Machine learning system and method to identify and connect like-minded users
CN105653605A (zh) 一种用于网络社区作弊用户挖掘的方法、系统及电子设备
US11765107B2 (en) Method and system for providing relevance information between users
CN104035995A (zh) 群标签生成方法及装置
CN105389304A (zh) 事件提取方法及装置
CN104112119A (zh) 基于人脸识别的通信方法及装置
CN104951443A (zh) 壁纸下载方法、壁纸上传方法及服务器、终端
CN106096009A (zh) 消息生成方法及装置
CN105095081A (zh) 应用程序的功能测试方法及装置
CN104537038A (zh) 信息显示方法、装置及终端
CN104468760A (zh) 提醒消息推送方法及装置
CN105373580A (zh) 主题显示方法及装置
CN111369271A (zh) 一种广告的排序方法、装置、电子设备及存储介质
CN105635210B (zh) 网络信息的推荐方法及装置、阅读系统
CN105447149A (zh) 一种用于网络搜索的交互方法、装置及电子设备
CN103902654A (zh) 聚类方法、装置及终端设备
CN106126592B (zh) 搜索数据的处理方法及装置
CN105205086A (zh) 应用程序使用信息分享方法和装置
CN105511739A (zh) 消息提醒方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant