CN103593385A - 大数据环境下新型多模型智能网警检测方法 - Google Patents

大数据环境下新型多模型智能网警检测方法 Download PDF

Info

Publication number
CN103593385A
CN103593385A CN201310351717.6A CN201310351717A CN103593385A CN 103593385 A CN103593385 A CN 103593385A CN 201310351717 A CN201310351717 A CN 201310351717A CN 103593385 A CN103593385 A CN 103593385A
Authority
CN
China
Prior art keywords
module
model
user
hadoop distributed
detection method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310351717.6A
Other languages
English (en)
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING MIYUAN INFORMATION TECHNOLOGY Co Ltd
Original Assignee
BEIJING MIYUAN INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING MIYUAN INFORMATION TECHNOLOGY Co Ltd filed Critical BEIJING MIYUAN INFORMATION TECHNOLOGY Co Ltd
Priority to CN201310351717.6A priority Critical patent/CN103593385A/zh
Publication of CN103593385A publication Critical patent/CN103593385A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种在大数据环境下新型多模型智能网警检测方法,主要包括:前台模块,海量日志服务器,海量日志处理模块,Hadoop分布式集群,后台多重算法模块,客服展示模块,和数据统计和反馈模块。本发明多重模型智能网警系统具有如下特点:1)采用Hadoop分布式集群技术,因此适用于海量(大)数据的处理。2)采用了机器学习技术和文本挖掘技术,使得系统具有很强的学习能力和自适应性。3)采用混合模型多重侦测用户实时,动态的行为极大地避免了漏判和误判。4)适用面广,可移植性强。本系统不仅适用于中小型的婚恋网站,也适用于超大型的婚恋网站(8000万用户级别)。

Description

大数据环境下新型多模型智能网警检测方法
技术领域
本方法主要用于互联网婚恋领域,具体涉及到在海量(大)数据环境下,如何采用机器学习技术来设计自适应模型从而智能地预测出可疑的用户。
背景技术
随着互联网技术的普及,婚恋交友这个传统严肃的活动也开始互联网化,越来越多的人选择通过专业的互联网婚恋网站来寻找另一半。由于互联网的低门槛和虚拟性,其提供优质婚恋服务的同时,也很容易成为各类骗子活跃的舞台。
现有的解决办法,主要是通过以下四种方式来抓骗子:用户投诉,客服人员人工审核,通过建立模型来预测可疑用户,以及前三种方式的结合。第一种方法属于被动投诉,其效率很低。第二种方法过于依赖人工,这对于巨大的互联网用户群来说,显得效率低下。第三种方法主要是采用机器学习技术进行建模,从而使得系统能主动地预测可疑的用户,然后通过客服人员进行审核,这可以极大地提高客服人员的效率。
而现有的依赖模型方法主要存在以下几个问题:1)模型比较单一,错误率较高,误判,漏判严重;2)智能化程度和实时性不高;3)模型的适用范围狭窄,没法自动应对变化,也没法应用推广到其它类似的婚恋交友环境和海量数据环境(比如8000万级别的用户量)。
发明内容
为了克服上述现有的解决办法缺点,本在大数据环境下新型多模型智能网警检测方法的目的在于提供一种能使用在大数据环境下,智能程度高,使用范围广并且准确率高的网警系统。
为了达到上述目的,本在大数据环境下新型多模型智能网警检测方法的技术方案为:
前台模块,海量日志服务器,海量日志处理模块,Hadoop分布式集群,后台多重算法模块,客服展示模块,和数据统计和反馈模块。其中海量日志服务器主要用于记录用户的基本属性信息(比如年龄,教育程度等)和基本行为信息(比如发信,收信,点击等)。海量日志处理模块主要用于从原始的日志记录中提取出网警机器学习模型所需要的各种信息。Hadoop分布式集群主要用户支持对海量数据(8000万用户级别,每个用户又包含近百个维度)的提取,查询,处理和计算。后台多重算法模块主要包括模型的建立,更新,选择和预测。后台多重算法模块又分为注册IP侦测模型,信件内容处理模型,主系统模型和其它辅助模型。
IP侦测模型主要是通过训练实时模型来监测使用高度可疑的注册IP段的用户。以前的IP侦测系统只能侦测四段完整的IP,而如果可疑用户使用VPN代理技术或虚拟IP技术,就很容易造成漏判。而本模型主要是根据历史上骗子的注册IP段(分为2段IP,3段IP和4段IP)的统计信息来对新用户的注册IP段进行评分,然后再利用用户注册时必须填写的五个基本信息(身高,年龄,收入,性别和教育水平),运用机器学习分类算法建立模型,从而对可疑用户进行预测。IP侦测模型提供了网警系统的第一道关卡,可以在用户还没有任何行为之前,找出高度可疑的用户,并对这些用户进行监测,从而可以降低可疑用户造成的危害。
信件内容侦测模型主要是通过对信件文本内容进行处理(计算信件相似度,包含敏感词比例,非字符数目所占总字符比例,发信给同城用户的比例,发信给异地用户的比例等),然后根据用户的基本属性和基本行为信息(是否信件群发),运用机器学习分类算法建立模型,从而对可疑用户进行预测。信件内容侦测模型提供了智能网警的第二道关卡,可以有效的侦测可疑用户注册初期产生的异常发信行为,从而及时地把他们加为黑名单用户,这样可以及时降低他们的危害。
主系统模型主要是根据用户大量的基本属性和发信行为信息,应用机器学习分类技术建立模型。以前的网警模型大部分只是建立一个单一模型来预测用户的可疑概率,这样会造成大量的误判和漏判。为了克服这个问题,本新型多模型智能网警检测方法根据用户注册时间的长短训练学习多个模型,从而进行混合推荐。本系统根据用户注册时间的长短共训练了11个模型:分布包括注册6分钟模型,注册20分钟模型,注册40分钟模型,注册1小时模型,注册2小时模型,注册4小时模型,注册8小时模型,注册16小时模型,注册32小时模型,注册64小时模型,注册128小时模型。这11个子模型构建了11道关卡,如果用户在任意一个模型内被检测为异常,则认为该用户是可疑用户。该模型有效地解决了单一模型没有充分考虑用户不同时间段实时的行为而造成准确率低下的情况。
其它辅助系统主要包括照片子系统和注册邮箱子系统。照片子系统主要用户正常不同的用户使用相同的照片作为头像的情况。而注册邮箱子系统主要用户侦测使用高度相似注册邮箱的用户。这些子系统配合之前描述的三个模型,可疑进一步提高每日的可疑用户侦测人数,进一步减少骗子可能造成的危害。
前台展示模块主要展示后台多重算法模块输出的结果,以供客服人员进行审核和处理。
数据统计和反馈模块主要是记录算法模型中各个不同子模型每日侦测人数和加入黑名单的用户人数,并计算各个模型的侦测准确率。该模块输出的准确率情况进一步反馈到后台多重算法模块,这样就实现了自适应调整每日侦测人数。如果某个子模型的准确率在7天时间内,有5天低于某一个阈值下限,则自适应地调整该模型日侦测人数,以提高准确率。反正,则降低阈值以进一步提高该模型日侦测人数。
附图说明
附图为本大数据环境下新型多模型智能网警检测方法的结构示意图。
具体实施方式
下面结合附图对本在大数据环境下新型多模型智能网警检测方法做详细描述。
参照附图,开发人员首先搭建好日志服务器,Hadoop分布式集群,前端平台。用户通过前端平台访问网站,主要行为包含注册,登录,发信,和浏览,海量日志服务器记录用户的实时的行为。海量日志处理模块在Hadoop分布式集群的支持下,会把用户的实时行为日志会处理为后台多重算法模块所需要的数据格式,并存放在Hadoop分布式集群中。
一个新用户在刚注册之后,并且尚未有发信行为之前,后台算法模型会启动IP侦测模型和其它辅助模型(照片模型和注册邮箱模型)来侦测用户的可疑程度。IP侦测模型可以侦测信注册用户的可疑程度。与传统的IP模型不同的是,本IP侦测模型充分考虑到某个注册IP段(前面已经提及的2段IP,三段IP,和完整的4段IP)在不同时间段的可疑程度可能是不同的。本模型构造了三个时间段:分别是当天,前一天到前7天时间段,以及7天以前的时间段。每个时间段定义一个动态的阈值来判断信注册用户的IP段是否可疑。只要在任一个时间段内,该用户的注册IP段被判断为可疑的(即大于相应时间段定义的阈值),就将该用户作为嫌疑人加入训练好的机器学习分类模型进一步预测该用户的可疑概率。当用户可疑概率较高时,就通过客服展示平台展示给客服人员进行审核。最后,根据审核结果获得的准确率来动态地调整之前提到的三个时间段定义的阈值。如果连续出现高准确率,可以适当地降低阈值。反正,就适当地提高阈值。
照片模型可以侦测哪些用户使用相同的照片作为头像。如果该用户与历史上某位骗子使用相同的照片作为头像,则认为该用户的可疑程度非常高。注册邮箱模型可以侦测哪些用户使用相似的邮箱进行注册。同样地,如果该用户的注册邮箱与历史上某位骗子的邮箱非常相似,则认为该用户的可疑程度非常高。同样地,当用户可疑程度较高时,就进一步通过客服展示平台展示给客服人员进行审核。
IP侦测模型和其它辅助系统提供了第一道关卡,这道关卡主要是针对新注册用户,并且他们还没有任何发信行为。一旦当用户有了发信行为之后,后台多重算法模块就会启动第二道关卡(信件内容侦测模型)和第三道关卡(主系统模型)来监测用户实时的可疑程度。同样地,当可疑程度较高时,就通过客服展示平台展示给客服人员进行人工审核。
审核的结果(主要包括日侦测人数和准确率)会通过数据统计和反馈模块写入文件。如果某个子模型的准确率在连续一段时间内(假设7天),有若干天(比如5天)低于某个阈值,则自适应地降低该模型日侦测人数,以提高准确率。反正,如果该模型的准确率一直高于某个阈值,则可以是适应地提高该模型日侦测人数,从而可以侦测出更多的可以用户。
通过上面的描述,本在大数据环境下新型多模型智能网警检测方法具有如下的特点:1)采用Hadoop分布式集群技术,因此适用于海量数据的处理。2)采用了机器学习技术和文本挖掘技术,使得系统具有很强的学习能力和自适应性。3)采用混合模型多重侦测用户实时,动态的行为极大地避免了漏判和误判。4)适用面广,可移植性强。本系统不仅适用于中小型的婚恋网站,也适用于超大型的婚恋网站(8000万用户级别)。

Claims (1)

1.一种在大数据环境下新型多模型智能网警检测方法,核心模块为海量日志处理模块,Hadoop分布式集群,后台多重算法模块,以及数据统计和反馈模块,其特征在于通过海量日志处理模块和Hadoop分布式集群可以将非结构化的用户信息处理成为结构化的数据,并存储在Hadoop分布式集群中,然后通过后台多重算法模块中多重机器学习模型实时,自适应地计算用户的可疑概率,最后通过数据统计和反馈模块反馈的侦测结果来动态地调整后台多重算法模块中多模型的阈值,从而使得系统具有更高的智能型和灵活度。
CN201310351717.6A 2013-08-14 2013-08-14 大数据环境下新型多模型智能网警检测方法 Pending CN103593385A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310351717.6A CN103593385A (zh) 2013-08-14 2013-08-14 大数据环境下新型多模型智能网警检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310351717.6A CN103593385A (zh) 2013-08-14 2013-08-14 大数据环境下新型多模型智能网警检测方法

Publications (1)

Publication Number Publication Date
CN103593385A true CN103593385A (zh) 2014-02-19

Family

ID=50083530

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310351717.6A Pending CN103593385A (zh) 2013-08-14 2013-08-14 大数据环境下新型多模型智能网警检测方法

Country Status (1)

Country Link
CN (1) CN103593385A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105024877A (zh) * 2015-06-01 2015-11-04 北京理工大学 一种基于网络行为分析的Hadoop恶意节点检测系统
CN107451292A (zh) * 2017-08-16 2017-12-08 北京京东尚科信息技术有限公司 线上场景特征数据存储方法、系统和数据抽取系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060282660A1 (en) * 2005-04-29 2006-12-14 Varghese Thomas E System and method for fraud monitoring, detection, and tiered user authentication
CN102413076A (zh) * 2011-12-22 2012-04-11 网易(杭州)网络有限公司 基于行为分析的垃圾邮件判定系统
CN103166785A (zh) * 2011-12-15 2013-06-19 同程网络科技股份有限公司 基于Hadoop的分布式日志分析系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060282660A1 (en) * 2005-04-29 2006-12-14 Varghese Thomas E System and method for fraud monitoring, detection, and tiered user authentication
CN103166785A (zh) * 2011-12-15 2013-06-19 同程网络科技股份有限公司 基于Hadoop的分布式日志分析系统
CN102413076A (zh) * 2011-12-22 2012-04-11 网易(杭州)网络有限公司 基于行为分析的垃圾邮件判定系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
沈凤仙 等: "基于自适应学习的文本信息过滤系统", 《计算机应用与软件》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105024877A (zh) * 2015-06-01 2015-11-04 北京理工大学 一种基于网络行为分析的Hadoop恶意节点检测系统
CN105024877B (zh) * 2015-06-01 2018-04-10 北京理工大学 一种基于网络行为分析的Hadoop恶意节点检测系统
CN107451292A (zh) * 2017-08-16 2017-12-08 北京京东尚科信息技术有限公司 线上场景特征数据存储方法、系统和数据抽取系统

Similar Documents

Publication Publication Date Title
US20230073695A1 (en) Systems and methods for synthetic database query generation
CN108881194B (zh) 企业内部用户异常行为检测方法和装置
CN103914494B (zh) 一种微博用户身份识别方法及系统
CN108234462A (zh) 一种基于云防护的智能拦截威胁ip的方法
Goebel Social unrest in China: a bird’s-eye view
CN109145216A (zh) 网络舆情监控方法、装置及存储介质
US20200068035A1 (en) System and method for bot detection
CN112199608A (zh) 基于网络信息传播图建模的社交媒体谣言检测方法
US20210349893A1 (en) Method and system for analytic based connections among user types in an online platform
JP6987209B2 (ja) ディープラーニングに基づく文書類似度測定モデルを利用した重複文書探知方法およびシステム
Sauer et al. Using multi‐species occupancy models in structured decision making on managed lands
David et al. Features combination for the detection of malicious Twitter accounts
CN108153764A (zh) 一种舆情处理方法及装置
Cao et al. Topics and trends of the on-line public concerns based on Tianya forum
CN107426040B (zh) 一种网络行为的预测方法
Mukherjee et al. Opinion spam detection: An unsupervised approach using generative models
CN116865994A (zh) 一种基于大数据的网络数据安全预测方法
CN106294406A (zh) 一种用于处理应用访问数据的方法与设备
US20220164651A1 (en) Feedback mining with domain-specific modeling
Liu et al. Predicting construction accidents on sites: An improved atomic search optimization algorithm approach
CN103593385A (zh) 大数据环境下新型多模型智能网警检测方法
US20150235138A1 (en) System, method, and storage medium for generating hypotheses in data sets
CN112836137A (zh) 人物网络支持度计算系统及方法、终端、设备、存储介质
CN115471036B (zh) 一种热点事件的群体情绪分析方法、存储介质及设备
Ma et al. [Retracted] The Construction of Big Data Computational Intelligence System for E‐Government in Cloud Computing Environment and Its Development Impact

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140219