CN104598595A - 欺诈网页检测方法及相应装置 - Google Patents

欺诈网页检测方法及相应装置 Download PDF

Info

Publication number
CN104598595A
CN104598595A CN201510033799.9A CN201510033799A CN104598595A CN 104598595 A CN104598595 A CN 104598595A CN 201510033799 A CN201510033799 A CN 201510033799A CN 104598595 A CN104598595 A CN 104598595A
Authority
CN
China
Prior art keywords
webpage
characteristic information
described webpage
behavior characteristic
swindle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510033799.9A
Other languages
English (en)
Other versions
CN104598595B (zh
Inventor
唐呈光
杨念
耿志峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Anyi Hengtong Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anyi Hengtong Beijing Technology Co Ltd filed Critical Anyi Hengtong Beijing Technology Co Ltd
Priority to CN201510033799.9A priority Critical patent/CN104598595B/zh
Publication of CN104598595A publication Critical patent/CN104598595A/zh
Application granted granted Critical
Publication of CN104598595B publication Critical patent/CN104598595B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本发明实施例公开了欺诈网页检测方法及相应装置。其中,所述方法包括:接收客户端上报的网页的行为特征信息,其中所述行为特征信息为所述客户端根据对所述网页中是否出现预设的异常行为的监听结果生成的特征信息;根据所述行为特征信息,对所述网页进行欺诈性检测。本发明实施例提供的技术方案,能够提高对欺诈网页的检测能力,降低误检率。

Description

欺诈网页检测方法及相应装置
技术领域
本发明实施例涉及互联网技术领域,尤其涉及欺诈网页检测方法及相应装置。
背景技术
目前,要确定一个网页是否为欺诈网页,通常包括如下两个步骤:第一,确定网页的主题;第二,在初步确定网页的主题为预设的欺诈网页类别的主题后,进一步确定网页对用户是否有恶意,如果是,则判定该网页为欺诈网页。其中,目前已经有很多成熟的网页分类方法用于确定网页的主题;要确定网页对用户是否有恶意,一般都是基于网页的文本内容的关键词特征。然而,针对网页的文本内容较少的情况,则难以确定网页是否对用户有恶意,因而难以检出这种类型的欺诈网页。基于上述对文本内容少的网页是否为欺诈网页的检出率低的问题,现有技术提出了两种解决办法:
一种解决办法是基于关键特征匹配法,来检测文本内容少的网页是否为欺诈网页,具体做法是线下人为的观察和总结欺诈网页中相对固定的成分,作为分类特征,建立网页检测模型,然后线上根据该网页检测模型实时检测新的网页是否为欺诈网页;
另一种解决办法是基于URL(Uniform Resource Locator,统一资源定位符)规则法,来检测文本内容少的网页是否为欺诈网页,具体做法是线下通过观察欺诈网页的URL,发现其规律,总结出一套正则表达式,然后线上根据该正则表达式来检测新的网页是否为欺诈网页。
然而,上述两种解决办法均依赖人工先验知识,不具有推广性,网页中的固定特征难以寻找,URL规律也难以总结,导致检测欺诈网页的能力较弱,而且误检率高。
发明内容
本发明实施例提供一种欺诈网页检测方法及相应装置,以提高对欺诈网页的检测能力,降低误检率。
一方面,本发明实施例提供了一种欺诈网页检测方法,该方法包括:
接收客户端上报的网页的行为特征信息,其中所述行为特征信息为所述客户端根据对所述网页中是否出现预设的异常行为的监听结果生成的特征信息;
根据所述行为特征信息,对所述网页进行欺诈性检测。
另一方面,本发明实施例还提供了一种欺诈网页检测方法,该方法包括:
监听网页中是否出现预设的异常行为;
根据监听结果生成所述网页的行为特征信息,上报给服务端,以指示所述服务端根据所述行为特征信息,对所述网页进行欺诈性检测。
再一方面,本发明实施例还提供了一种欺诈网页检测装置,该装置包括:
网页行为特征接收模块,用于接收客户端上报的网页的行为特征信息,其中所述行为特征信息为所述客户端根据对所述网页中是否出现预设的异常行为的监听结果生成的特征信息;
网页欺诈性检测模块,用于根据所述网页行为特征接收模块接收到的行为特征信息,对所述网页进行欺诈性检测。
再一方面,本发明实施例还提供了一种欺诈网页检测装置,该装置包括:
网页异常行为监听模块,用于监听网页中是否出现预设的异常行为;
网页行为特征信息上报模块,用于根据所述网页异常行为监听模块得到的监听结果,生成所述网页的行为特征信息,上报给服务端,以指示所述服务端根据所述行为特征信息,对所述网页进行欺诈性检测。
本发明实施例提供的技术方案,充分利用客户端的优势,来实时地捕获网页的行为特征信息,使得服务端可以将该行为特征信息作为用于进行网页欺诈性检测的一个特征加以使用,这样能够弥补用于检测文本内容较少的网页的欺诈性时所使用的特征不足或特征较难提取的问题,进而可以增强对欺诈网页的检测能力,降低误检率。
附图说明
图1是本发明实施例一提供的一种欺诈网页检测方法的流程示意图;
图2是本发明实施例二提供的一种欺诈网页检测方法的流程示意图;
图3是本发明实施例三提供的一种欺诈网页检测方法的流程示意图;
图4是本发明实施例四提供的一种欺诈网页检测方法的流程示意图;
图5A是本发明实施例五提供的一种欺诈网页检测装置的结构示意图;
图5B是本发明实施例五提供的一种欺诈网页检测装置中的欺诈性检测单元的子结构示意图;
图6是本发明实施例六提供的一种欺诈网页检测装置的结构示意图;
图7是本发明实施例七提供的一种欺诈网页检测方法的流程示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1是本发明实施例一提供的一种欺诈网页检测方法的流程示意图。本实施例可适用于对客户端上所呈现的网页的欺诈性进行检测的情况。该方法由与客户端对应的服务端执行。在本发明实施例中,客户端和服务端可驻留在不同的物理设备上,也可以位于同一物理设备上。例如,可以全部位于浏览器所在的物理设备上;或者,客户端位于浏览器所在的第一物理设备上,服务端位于具备有欺诈网页检测功能的第二物理设备上;或者,客户端和服务端均可位于除第一物理设备以及第二物理设备之外的第三方物理设备上。其中,浏览器所在的第一物理设备可以是诸如智能手机、电脑或者个人数字助理等之类的终端产品,第二物理设备可以是为终端提供相应服务的服务器。参见图1,本实施例提供的欺诈网页检测方法具体包括如下操作:
操作110、接收客户端上报的网页的行为特征信息;
操作120、根据所述行为特征信息,对所述网页进行欺诈性检测。
在本实施例中,上报的行为特征信息为客户端根据对网页中是否出现预设的异常行为的监听结果生成的特征信息。其中,预设的异常行为可以为在打开、呈现和/或关闭网页时所发生的存有欺诈嫌疑的行为,例如可以是在所呈现的网页中弹出显示有欺诈信息(例如“恭喜您中奖50万,请致电3***6”、“若想投资,请致电5***1,无风险,高收益,年回报100万”等)的窗口的行为,在呈现网页时未接收到用户对即时通信软件的启动指示,而主动调用本地即时通信软件弹框添加好友的行为。在本实施例中,出现的网页异常行为可以为一种网页异常行为,也可为多种网页异常行为。根据监听结果所生成的网页的行为特征信息可包括两部分:第一部分是客户端所监听的网页的标识信息(例如网页的统一资源符),服务端根据该标识来获取网页;第二部分是与监听结果对应的行为信息。具体的,行为信息可以直接是对所监听到的异常行为的描述信息,如果客户端监听到多种异常行为,则服务端获取到的行为信息包括分别与监听到的各种异常行为所对应的子描述信息;也可以是得到的与监听结果对应的异常等级标识,如果客户端监听到多种异常行为,则服务端获取到的异常等级标识也会为多个异常等级标识,也即每个监听到的异常行为都会对应一个异常等级标识,其中不同异常行为对应的异常等级标识可相同,也可不同。
由于网页的行为特征信息可以在一定程度上表征网页为欺诈网页的可疑度,且与网页中包含的文本内容的多少无关,很容易被客户端获取到,无需依赖于人工先验知识,所以可作为服务端在对网页进行欺诈性检测时的一个十分重要且有效的影响因素。在得到客户端上报的行为特征信息之后,服务端可以基于该行为特征信息,并结合通过其他算法提取到的网页特征,对网页进行欺诈性检测。其中,得到的检测结果可以是对网页是否为欺诈性网页的判定结果,也可以是给出一个用于衡量网页是欺诈网页的概率参数,例如可疑指数。
示例性的,在接收到客户端上报的网页的行为特征信息之后,可先基于该行为特征信息,来初步确定该网页是否对用户存有恶意,然后针对初步确定的结果的不同,分别采用不同的算法来对网页进行欺诈性检测。例如,在确定该网页对用户存有恶意之后,可基于预设的网页主题分类算法,对该网页的主题所属分类进行识别,基于识别结果得到一个对该网页是欺诈网页的可疑指数。
当然,服务端也可预先创建一个检测模型,该检测模型的输入是客户端上报的网页的行为特征信息、对检测网页是否为欺诈网页起到作用的其他各个网页特征(例如网页所包含的文本内容中的关键词特征、网页结构特征等),输出是网页是欺诈网页的可疑指数。
本实施例提供的技术方案,充分利用客户端的优势,来实时地捕获网页的行为特征信息,使得服务端可以将该行为特征信息作为用于进行网页欺诈性检测的一个特征加以使用,这样能够弥补用于检测文本内容较少的网页的欺诈性时所使用的特征不足或特征较难提取的问题,进而可以增强对欺诈网页的检测能力,降低误检率。
实施例二
图2是本发明实施例二提供的一种欺诈网页检测方法的流程示意图。本实施例在上述实施例一的基础上,对“根据所述行为特征信息,对所述网页进行欺诈性检测”的操作作进一步优化。参见图2,本实施例提供的欺诈网页检测方法具体包括如下操作:
操作210、接收客户端上报的网页的行为特征信息;
操作220、根据所述行为特征信息中的异常等级标识,确定所述网页是否对用户有恶意;
操作230、根据确定结果,以及所述网页的主题类别,对所述网页进行欺诈性检测。
目前,由于一些网页的文本内容较少,很难根据足够多的文本特征,来确定网页是否对用户有恶意,进而难以检出这种类型的欺诈网页。针对该问题,虽然现有技术提出了两种方法(基于关键特征匹配法以及基于URL规则法)来对网页进行欺诈性检测,但是这两种解决办法均依赖人工先验知识,网页中的固定特征难以寻找,URL规律也难以总结,所以会使得检测欺诈网页的能力较弱,而且误检率高。本实施例充分利用客户端的优势,使用客户端来实时地捕获网页的行为特征信息,上报给服务端,服务端在获取到网页的行为特征信息之后,可先基于该行为特征信息,来初步确定该网页是否对用户存有恶意,然后针对初步确定的结果的不同,分别采用不同的算法来对网页进行欺诈性检测。
在本实施例中,将网页的行为特征信息中的行为信息优化为异常等级标识,使得服务端可以直接根据该异常等级标识,判定该网页是否对用户存有恶意。具体的,服务端可根据预先为不同的异常等级标识所设置的恶意评分,计算所接收的行为特征信息中的各个异常等级标识对应的恶意评分的和值,如果该和值达到预设的恶意判定阈值,则确定该网页对用户存有恶意,如果该和值未达到预设的恶意判定阈值,则确定该网页对用户不存有恶意。
如果网页的行为特征信息为客户端直接对所监听到的异常行为的描述信息,则服务端需先对该描述信息进行解析,以识别其所包含的各条子描述信息所对应的异常行为等级。例如,如果描述信息中包含有对某一异常行为的子描述信息,在该子描述信息中包含有设定的中奖敏感词“中奖100万”,且不包含任何中奖理由,则识别出该子描述信息所对应的异常行为等级为“强”;如果描述信息中包含有一条子描述信息,记录有在呈现网页时,未经用户许可而主动调用本地即时通信软件弹框添加好友,则识别出该条子描述信息所对应的异常行为等级为“中强”;如果描述信息中包含有一条子描述信息,记录有在关闭网页时,会自动下载文件,则识别出该条子描述信息的异常行为等级为“中”,……,等。
示例性的,服务端在确定该网页对用户存有恶意之后,可根据预设的多种网页主题分类算法,对该网页的主题分类进行识别,以确定该网页的主题具体属于哪种主题类别。进而,可基于识别结果,得到对该网页是欺诈网页的可疑指数。举例而言,网页的主题类别可被预先划分为如下多种类别:白、灰、中奖类、小额贷款类、信用卡套现类、枪械交易类、刷信誉类、彩票预测类、充气娃娃类以及仿冒手机类,并为每种主题类别设定一个可疑评分。相应的,基于识别结果,得到对该网页是欺诈网页的可疑指数,可具体为:将网页所属主题类别所对应的可疑评分,作为对该网页是欺诈网页的可疑指数。当然,本领域的普通技术人员应理解,还可将可疑评分,与上述在判定该网页是否对用户存有恶意时所得到的恶意评分相结合,综合得到对该网页是欺诈网页的可疑指数,例如将二者作相加运算。
在本实施例中,对网页的主题类别的获取方法包括:提取客户端上报的行为特征信息中所包含的网页的统一资源定位符,根据统一资源定位符,获取网页;分别根据预设的多种算法对网页进行主题类别识别;根据通过多种算法分别得到的主题类别识别结果,得到网页的主题类别。
示例性的,服务端会不断地通过爬虫技术来爬取各个网站所提供的网页,并存储在本地。服务端在获取到行为特征信息中的统一资源定位符之后,可先基于该能够唯一识别网页的统一资源定位符来查找本地所存储的与之对应的网页,如果查找失败,再根据统一资源定位符从对应的网站获取网页。优选的,预设的多种算法为如下三种算法:短文本分类算法,综合网页结构和网页内容的分类算法,光学字符识别算法。
在本实施例的一种具体实施方式中,主题类别识别结果具体为网页所属的主题类别,相应的,根据通过多种算法分别得到的主题类别识别结果,得到网页的主题类别,包括:统计通过多种算法分别得到网页所属的候选主题类别;将统计结果中个数最多的候选主题类别,作为网页的主题类别。例如,通过三种算法分别得到如下主题类别识别结果:主题类别1,主题类别2,主题类别1,由于主题类别1的个数为2,而主题类别2的个数为1,所以将主题类别1作为网页的主题类别。
在本实施例的另一种具体实施方式中,可预先为不同的主题类别设定不同的阈值范围,以及为不同的算法设定不同的权重,主题类别识别结果具体为一数值;相应的,根据通过多种算法分别得到的主题类别识别结果,得到网页的主题类别,包括:将多种算法分别得到的主题类别识别结果乘以对应的权重后进行求和运算,然后判定求和运算结果具体位于预先设定的哪个主题类别对应的阈值范围,进而将判定结果作为网页的主题类别。
在上述技术方案的基础上,考虑到如果不对文本进行分类,而一味的采用多种算法对网页进行主题类别识别,则可能会耗费较多系统资源,但是仅采用一种算法对网页进行主题类别识别,又会降低对文本内容较少的网页的欺诈性检出率,为此,本实施例可仅针对文本内容较少的短文本网页使用上述多种算法进行主题类别识别,而对于文本内容较多的长文本网页而言,由于其文本特征十分丰富,则可采用基于网页的文本内容的关键词特征的其他算法,来进一步对网页进行欺诈性检测。
因此,在本实施例中,在获取网页之后,分别根据预设的多种算法对网页进行主题类别识别之前,还包括:检测网页是否为短文本网页,如果是,则触发执行分别根据预设的多种算法对网页进行主题类别识别的操作。示例性的,检测网页是否为短文本网页,可具体为:统计网页中所包含的文本格式的字符个数,如果所统计的字符个数达到设定的个数,则判定该网页为长文本网页,否则为短文本网页。其中,所设定的个数可由开发人员根据实际情况设置。
实施例三
图3是本发明实施例三提供的一种欺诈网页检测方法的流程示意图。本实施例基于上述实施例一和实施例二,对“对所述网页进行欺诈性检测”的操作作进一步优化为“计算所述网页是欺诈网页的可疑指数”,并在该优化的基础上相应增加下发欺诈性检测结果至客户端的操作。参见图3,本实施例提供的欺诈网页检测方法具体包括如下操作:
操作310、接收客户端上报的网页的行为特征信息;
操作320、根据所述行为特征信息,计算所述网页是欺诈网页的可疑指数;
操作330、将得到的可疑指数下发给客户端,以指示客户端在可疑指数超过设定阈值时弹出拦截页面,以进行欺诈提示。
在本实施例中,所计算的可疑指数为用于描述所述网页是欺诈网页的概率参数。示例性的,该可疑指数为0-100之间的一个数值,该值越大,表明网页是欺诈网页的概率越大。
示例性的,根据客户端上报的行为特征信息,计算网页是欺诈网页的可疑指数,具体为:根据预先设定的与不同异常等级标识对应的恶意评分,确定客户端上报的行为特征信息所对应的异常等级标识下的恶意评分;基于该恶意评分得到网页是欺诈网页的可疑指数。恶意评分越大,可疑指数越大。其中,基于该恶意评分得到网页是欺诈网页的可疑指数,可以是:直接将该恶意评分,作为欺诈网页的可疑指数;或者,综合恶意评分与其他分数,例如基于网页主题类别识别结果得到的可疑评分,得到网页是欺诈网页的可疑指数。
为了更好的保证网页欺诈检测的准确度,降低误检率,在上述技术方案的基础上,在计算网页是欺诈网页的可疑指数之后,将得到的可疑指数下发客户端之前,还包括:
根据网页的ICP(Internet Content Provider,因特网内容提供商)备案信息,和/或,网页属性信息,修正可疑指数;
具体的,ICP备案信息包括网页所对应的域名信息和/或网站资质信息;网页属性信息包括如下至少一种信息:网页的外链数量、创建时间、所对应域名的独立统一资源定位符的个数。其中,可将服务端对网页的爬取时间视为网页的创建时间。
示例性的,如果网页所对应的域名、网站资质其可信度越高,则表明该网页是欺诈网页的概率越低,在此情况下会对根据行为特征信息计算得到的可疑指数做降低处理,反之作升高处理。如果网页的外链数量越多,所对应域名的独立统一资源定位符的个数越大,创建时间越早,则表明该网页所对应的网站可信度越高,该网页是欺诈网页的概率越低,在此情况下会对根据行为特征信息计算得到的可疑指数做降低处理,反之作升高处理。
在本实施例的一种具体实施方式中,可预先根据不同的规则,分别将网页所对应的域名信息、网站资质信息、外链数量、创建时间、所对应域名的独立统一资源定位符的个数划分不同等级,并为不同的等级赋予不同的修正评分。例如,可预先根据设定的第一规则将网页的外链数量划分为多个等级,例如外链数量在0-100之间的属于外链第一等级,其对应的修正评分为-50;100-200之间的属于外链第二等级,其对应的修正评分为-20;……;500以上的属于外链第六等级,其对应的修正评分为+30。相应的,修正可疑指数,包括:确定本次所检测的网页分别在域名信息、网站资质信息、外链数量、创建时间、所对应域名的独立统一资源定位符的个数上所对应的等级,并获取所确定的各个等级下修正评分;将获取的各个修正评分与得到的可疑指数相加,得到新的可疑指数。
实施例四
图4是本发明实施例四提供的一种欺诈网页检测方法的流程示意图。本实施例可适用于客户端生成网页行为特征信息,上报给服务端,以使服务端据此对网页进行欺诈性检测的情况。该方法由与服务端对应的客户端执行,可与本发明任意实施例提供的由服务端执行的欺诈网页检测方法配合执行。参见图4,本实施例提供的欺诈网页检测方法具体包括如下操作:
操作410、监听网页中是否出现预设的异常行为;
操作420、根据监听结果生成所述网页的行为特征信息,上报给服务端,以指示服务端根据所述行为特征信息,对所述网页进行欺诈性检测。
在本实施例中,预设的异常行为可以为在打开、呈现和/或关闭网页时所发生的存有欺诈嫌疑的行为。根据监听结果所生成的网页的行为特征信息可包括两部分:第一部分是客户端所监听的网页的标识信息(例如网页的统一资源符),服务端根据该标识来获取网页;第二部分是与监听结果对应的行为信息。具体的,行为信息可以直接是对所监听到的异常行为的描述信息,也可以是得到的与监听结果对应的异常等级标识。
示例性的,根据监听结果生成网页的行为特征信息,上报给服务端,包括:如果监听到网页中出现预设的异常行为,则获取预先为监听到的异常行为所属类别分配的异常等级标识;或者,如果未监听到网页中出现预设的异常行为,则获取预先为网页的正常行为分配的异常等级标识;将所述异常等级标识以及网页的统一资源定位符,作为网页的行为特征信息,上报给服务端。服务端根据该异常等级标识,能够确定出网页的异常行为等级。
本实施例提供的技术方案,利用客户端将网页在客户端上的行为特征信息上报给服务端,以供服务端在对网页进行欺诈性检测时能够将该行为特征信息作为一项重要的影响因素加以分析,从而可以解决因网页中仅包含少量的文本内容而难以对一个网页进行欺诈性检测的问题。
在上述技术方案的基础上,在本实施例的一种具体实施方式中,在根据监听结果生成网页的行为特征信息,上报给服务端之后,还包括:接收服务端返回的网页为欺诈网页的可疑指数,其中可疑指数由服务端根据网页的行为特征信息对网页进行欺诈性检测得到;如果可疑指数超过设定阈值,则弹出拦截页面,以进行欺诈提示。这样的好处在于:能够及时的提醒用户网页为欺诈网页,以防止用户信以为监听到的网页的异常行为属实而可能会导致财产流失、隐私信息外泄等现象的发生。
在本实施例的另一种具体实施方式中,在根据监听结果生成网页的行为特征信息,上报给服务端之后,还包括:接收服务端返回的网页是否为欺诈网页的检测结果,其中检测结果由服务端根据网页的行为特征信息对网页进行欺诈性检测得到;如果检测结果为网页是欺诈网页,则弹出拦截页面,以进行欺诈提示。
实施例五
图5A是本发明实施例五提供的一种欺诈网页检测装置的结构示意图。本实施例可适用于对客户端上所呈现的网页的欺诈性进行检测的情况。参见图5A,该欺诈网页检测装置可作为服务端,其具体结构如下:
网页行为特征接收模块51,用于接收客户端上报的网页的行为特征信息,其中所述行为特征信息为所述客户端根据对所述网页中是否出现预设的异常行为的监听结果生成的特征信息;
网页欺诈性检测模块52,用于根据所述网页行为特征接收模块51接收到的行为特征信息,对所述网页进行欺诈性检测。
示例性的,所述网页欺诈性检测模块52,包括:
恶意行为确定单元520,用于根据所述行为特征信息中的异常等级标识,确定所述网页是否对用户有恶意;
欺诈性检测单元521,用于根据所述恶意行为确定单元520得到的确定结果,以及所述网页的主题类别,对所述网页进行欺诈性检测。
示例性的,所述欺诈性检测单元521包括(如图5B所示):
网页获取子单元5210,用于提取所述客户端上报的行为特征信息中所包含的所述网页的统一资源定位符,根据所述统一资源定位符,获取所述网页;
主题类别识别子单元5211,用于分别根据预设的多种算法对所述网页进行主题类别识别;
主题类别得到子单元5212,用于根据通过所述多种算法分别得到的主题类别识别结果,得到所述网页的主题类别。
示例性的,所述欺诈性检测单元521还包括:短文本网页检测子单元5213(如图5B所示),用于检测所述网页获取子单元5210获取的网页是否为短文本网页,如果是,则触发所述主题类别识别子单元5211执行分别根据预设的多种算法对所述网页进行主题类别识别的操作。
在上技术方案的基础上,所述网页欺诈性检测模块52,进一步包括:
计算单元522,用于根据所述网页行为特征接收模块51接收到的行为特征信息,计算所述网页是欺诈网页的可疑指数,其中所述可疑指数为用于描述所述网页是欺诈网页的概率参数。
示例性的,所述网页欺诈性检测模块52进一步包括:修正单元523,用于根据所述网页的因特网内容提供商备案信息,和/或,网页属性信息,修正得到的可疑指数;
其中,所述因特网内容提供商备案信息包括所述网页所对应的域名信息和/或网站资质信息;所述网页属性信息包括如下至少一种信息:所述网页的外链数量、创建时间、所对应域名的独立统一资源定位符的个数。
示例性的,本实施例提供的欺诈网页检测装置还包括:
可疑指数下发模块53,用于将所述网页欺诈性检测模块52得到的可疑指数下发给所述客户端,以指示所述客户端在所述可疑指数超过设定阈值时弹出拦截页面,以进行欺诈提示。
上述产品可执行本发明任意实施例所提供的由服务端执行的欺诈网页检测方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的由服务端执行的欺诈网页检测方法。
实施例六
图6是本发明实施例六提供的一种欺诈网页检测装置的结构示意图。本实施例可适用于客户端生成网页行为特征信息,上报给服务端,以使服务端据此对网页进行欺诈性检测的情况。参见图6,该欺诈网页检测装置,作为客户端,其具体结构如下:
网页异常行为监听模块61,用于监听网页中是否出现预设的异常行为;
网页行为特征信息上报模块62,用于根据所述网页异常行为监听模块61得到的监听结果,生成所述网页的行为特征信息,上报给服务端,以指示所述服务端根据所述行为特征信息,对所述网页进行欺诈性检测。
示例性的,所述网页行为特征信息上报模块62,进一步包括:
第一获取单元621,用于如果监听到所述网页中出现预设的异常行为,则获取预先为监听到的异常行为所属类别分配的异常等级标识;或者
第二获取单元622,用于如果未监听到所述网页中出现预设的异常行为,则获取预先为网页的正常行为分配的异常等级标识;
上报单元623,用于将所述异常等级标识以及所述网页的统一资源定位符,作为所述网页的行为特征信息,上报给所述服务端。
示例性的,本实施例提供的欺诈网页检测装置还包括:
接收模块63,用于在所述网页行为特征信息上报模块62将所述网页的行为特征信息,上报给服务端之后,接收所述服务端返回的所述网页为欺诈网页的可疑指数,其中所述可疑指数由所述服务端根据所述网页的行为特征信息对所述网页进行欺诈性检测得到;
欺诈提示模块64,用于如果所述可疑指数超过设定阈值,则弹出拦截页面,以进行欺诈提示。
上述产品可执行本发明任意实施例所提供的由客户端执行的欺诈网页检测方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的由客户端执行的欺诈网页检测方法。
实施例七
图7是本发明实施例七提供的一种欺诈网页检测方法的流程示意图。本实施例可以以上述所有实施例为基础,提供了一种优选实例。在本实施例中,客户端位于浏览器所在的终端上,服务端位于具备有欺诈网页检测功能的服务器上。客户端可通过软件的方式实现,集成于浏览器中。参见图7,本实施例提供的欺诈网页检测方法具体包括如下操作:
操作710、浏览器监听网页中是否出现预设的异常行为,并根据监听结果生成网页的行为特征信息,上报给服务端。
其中,行为特征信息包括网页的统一资源定位符以及异常等级标识。
操作720、服务器根据浏览器上报的行为特征信息中的异常等级标识,确定网页是否对用户有恶意。
操作730、服务器提取浏览器上报的行为特征信息中所包含的网页的统一资源定位符,根据所述统一资源定位符,获取网页。
操作740、如果获取的网页为短文本网页,服务器分别根据如下三种算法:短文本分类算法,综合网页结构和网页内容的分类算法,光学字符识别算法,对网页进行主题类别识别。
操作750、服务器根据通过上述三种算法分别得到的主题类别识别结果,得到网页的主题类别。
操作760、服务器根据对网页是否对用户有恶意的确定结果,以及网页的主题类别,计算网页是欺诈网页的可疑指数。
操作770、根据网页的因特网内容提供商备案信息,和/或,网页属性信息,修正可疑指数,并将经过修正后的可疑指数下发给浏览器。
操作780、浏览器在可疑指数超过设定阈值时弹出拦截页面,以进行欺诈提示。
在现有技术中,针对文本内容较少的网页欺诈性检测一直是比较困难的一件事,原因是很多针对网页欺诈性检测的方法都是针对网页中的文本内容相对较多的情况所设计的,文本内容少意味着信息量减少,用于检测检测网页是否为欺诈网页的特征少,进而容易导致过拟合现象。为了解决此问题,可在网页中寻找更多的非文本特征,如:结构特征、行为特征、相关性特征等,但是难点是这些特征如何定义、如何获取。本实施例充分利用浏览器的优势,捕获网页行为特征信息,用于弥补在检测文本内容较少的网页的欺诈性时所使用的特征不足或特征较难提取的问题。采用本实施例提供的技术方案,将网页的行为特征信息与后端的网页主题分类能力结合,将大大增强对欺诈网页的检测能力,同时还能降低误检率。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (20)

1.一种欺诈网页检测方法,其特征在于,包括:
接收客户端上报的网页的行为特征信息,其中所述行为特征信息为所述客户端根据对所述网页中是否出现预设的异常行为的监听结果生成的特征信息;
根据所述行为特征信息,对所述网页进行欺诈性检测。
2.根据权利要求1所述的方法,其特征在于,根据所述行为特征信息,对所述网页进行欺诈性检测,包括:
根据所述行为特征信息中的异常等级标识,确定所述网页是否对用户有恶意;
根据确定结果,以及所述网页的主题类别,对所述网页进行欺诈性检测。
3.根据权利要求2所述的方法,其特征在于,所述网页的主题类别的获取方法包括:
提取所述客户端上报的行为特征信息中所包含的所述网页的统一资源定位符,根据所述统一资源定位符,获取所述网页;
分别根据预设的多种算法对所述网页进行主题类别识别;
根据通过所述多种算法分别得到的主题类别识别结果,得到所述网页的主题类别。
4.根据权利要求3所述的方法,其特征在于,在获取所述网页之后,分别根据预设的多种算法对所述网页进行主题类别识别之前,还包括:
检测所述网页是否为短文本网页,如果是,则触发执行分别根据预设的多种算法对所述网页进行主题类别识别的操作。
5.根据权利要求1-4中任一项所述的方法,其特征在于,对所述网页进行欺诈性检测,包括:
计算所述网页是欺诈网页的可疑指数,其中所述可疑指数为用于描述所述网页是欺诈网页的概率参数。
6.根据权利要求5所述的方法,其特征在于,在计算所述网页是欺诈网页的可疑指数之后,还包括:
根据所述网页的因特网内容提供商备案信息,和/或,网页属性信息,修正所述可疑指数;
其中,所述因特网内容提供商备案信息包括所述网页所对应的域名信息和/或网站资质信息;所述网页属性信息包括如下至少一种信息:所述网页的外链数量、创建时间、所对应域名的独立统一资源定位符的个数。
7.根据权利要求5所述的方法,其特征在于,在计算所述网页是欺诈网页的可疑指数之后,还包括:将得到的可疑指数下发给所述客户端,以指示所述客户端在所述可疑指数超过设定阈值时弹出拦截页面,以进行欺诈提示。
8.一种欺诈网页检测方法,其特征在于,包括:
监听网页中是否出现预设的异常行为;
根据监听结果生成所述网页的行为特征信息,上报给服务端,以指示所述服务端根据所述行为特征信息,对所述网页进行欺诈性检测。
9.根据权利要求8所述的方法,其特征在于,根据监听结果生成所述网页的行为特征信息,上报给服务端,包括:
如果监听到所述网页中出现预设的异常行为,则获取预先为监听到的异常行为所属类别分配的异常等级标识;或者
如果未监听到所述网页中出现预设的异常行为,则获取预先为网页的正常行为分配的异常等级标识;
将所述异常等级标识以及所述网页的统一资源定位符,作为所述网页的行为特征信息,上报给所述服务端。
10.根据权利要求8所述的方法,其特征在于,在根据监听结果生成所述网页的行为特征信息,上报给服务端之后,还包括:
接收所述服务端返回的所述网页为欺诈网页的可疑指数,其中所述可疑指数由所述服务端根据所述网页的行为特征信息对所述网页进行欺诈性检测得到;
如果所述可疑指数超过设定阈值,则弹出拦截页面,以进行欺诈提示。
11.一种欺诈网页检测装置,其特征在于,包括:
网页行为特征接收模块,用于接收客户端上报的网页的行为特征信息,其中所述行为特征信息为所述客户端根据对所述网页中是否出现预设的异常行为的监听结果生成的特征信息;
网页欺诈性检测模块,用于根据所述网页行为特征接收模块接收到的行为特征信息,对所述网页进行欺诈性检测。
12.根据权利要求11所述的装置,其特征在于,所述网页欺诈性检测模块,包括:
恶意行为确定单元,用于根据所述行为特征信息中的异常等级标识,确定所述网页是否对用户有恶意;
欺诈性检测单元,用于根据所述恶意行为确定单元得到的确定结果,以及所述网页的主题类别,对所述网页进行欺诈性检测。
13.根据权利要求12所述的装置,其特征在于,所述欺诈性检测单元包括:
网页获取子单元,用于提取所述客户端上报的行为特征信息中所包含的所述网页的统一资源定位符,根据所述统一资源定位符,获取所述网页;
主题类别识别子单元,用于分别根据预设的多种算法对所述网页进行主题类别识别;
主题类别得到子单元,用于根据通过所述多种算法分别得到的主题类别识别结果,得到所述网页的主题类别。
14.根据权利要求13所述的装置,其特征在于,所述欺诈性检测单元还包括:短文本网页检测子单元,用于检测所述网页获取子单元获取的网页是否为短文本网页,如果是,则触发所述主题类别识别子单元执行分别根据预设的多种算法对所述网页进行主题类别识别的操作。
15.根据权利要求11-14中任一项所述的装置,其特征在于,所述网页欺诈性检测模块,进一步包括:
计算单元,用于根据所述网页行为特征接收模块接收到的行为特征信息,计算所述网页是欺诈网页的可疑指数,其中所述可疑指数为用于描述所述网页是欺诈网页的概率参数。
16.根据权利要求15所述的装置,其特征在于,所述网页欺诈性检测模块进一步包括:
修正单元,用于根据所述网页的因特网内容提供商备案信息,和/或,网页属性信息,修正得到的可疑指数;
其中,所述因特网内容提供商备案信息包括所述网页所对应的域名信息和/或网站资质信息;所述网页属性信息包括如下至少一种信息:所述网页的外链数量、创建时间、所对应域名的独立统一资源定位符的个数。
17.根据权利要求15所述的装置,其特征在于,还包括:
可疑指数下发模块,用于将所述网页欺诈性检测模块得到的可疑指数下发给所述客户端,以指示所述客户端在所述可疑指数超过设定阈值时弹出拦截页面,以进行欺诈提示。
18.一种欺诈网页检测装置,其特征在于,包括:
网页异常行为监听模块,用于监听网页中是否出现预设的异常行为;
网页行为特征信息上报模块,用于根据所述网页异常行为监听模块得到的监听结果,生成所述网页的行为特征信息,上报给服务端,以指示所述服务端根据所述行为特征信息,对所述网页进行欺诈性检测。
19.根据权利要求18所述的装置,其特征在于,所述网页行为特征信息上报模块,进一步包括:
第一获取单元,用于如果监听到所述网页中出现预设的异常行为,则获取预先为监听到的异常行为所属类别分配的异常等级标识;或者
第二获取单元,用于如果未监听到所述网页中出现预设的异常行为,则获取预先为网页的正常行为分配的异常等级标识;
上报单元,用于将所述异常等级标识以及所述网页的统一资源定位符,作为所述网页的行为特征信息,上报给所述服务端。
20.根据权利要求18所述的装置,其特征在于,还包括:
接收模块,用于在所述网页行为特征信息上报模块将所述网页的行为特征信息,上报给服务端之后,接收所述服务端返回的所述网页为欺诈网页的可疑指数,其中所述可疑指数由所述服务端根据所述网页的行为特征信息对所述网页进行欺诈性检测得到;
欺诈提示模块,用于如果所述可疑指数超过设定阈值,则弹出拦截页面,以进行欺诈提示。
CN201510033799.9A 2015-01-23 2015-01-23 欺诈网页检测方法及相应装置 Active CN104598595B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510033799.9A CN104598595B (zh) 2015-01-23 2015-01-23 欺诈网页检测方法及相应装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510033799.9A CN104598595B (zh) 2015-01-23 2015-01-23 欺诈网页检测方法及相应装置

Publications (2)

Publication Number Publication Date
CN104598595A true CN104598595A (zh) 2015-05-06
CN104598595B CN104598595B (zh) 2019-05-31

Family

ID=53124380

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510033799.9A Active CN104598595B (zh) 2015-01-23 2015-01-23 欺诈网页检测方法及相应装置

Country Status (1)

Country Link
CN (1) CN104598595B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106953738A (zh) * 2016-10-11 2017-07-14 阿里巴巴集团控股有限公司 风险控制方法及装置
CN107547552A (zh) * 2017-09-07 2018-01-05 杭州安恒信息技术有限公司 一种基于网站特征识别和关系拓扑的网站信誉度评估方法及装置
CN108073804A (zh) * 2016-11-14 2018-05-25 百度在线网络技术(北京)有限公司 一种风险识别方法和装置
CN110727766A (zh) * 2019-10-18 2020-01-24 上海斗象信息科技有限公司 敏感词的检测方法
CN110930165A (zh) * 2019-11-08 2020-03-27 国家计算机网络与信息安全管理中心 互联网金融网站的异常检测方法及装置
CN111488621A (zh) * 2019-01-25 2020-08-04 深信服科技股份有限公司 一种篡改网页检测方法、系统及电子设备和存储介质
CN111967063A (zh) * 2020-09-02 2020-11-20 开普云信息科技股份有限公司 一种基于多维度分析的数据篡改监测和识别方法、装置、电子设备及其存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1450321A1 (de) * 2003-02-21 2004-08-25 Swisscom Mobile AG Verfahren und System zur Aufdeckung von möglichen Betrügen in Zahlungstransaktionen
CN101808093A (zh) * 2010-03-15 2010-08-18 北京安天电子设备有限公司 一种对web安全进行自动化检测的系统和方法
CN102279875A (zh) * 2011-06-24 2011-12-14 成都市华为赛门铁克科技有限公司 钓鱼网站的识别方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1450321A1 (de) * 2003-02-21 2004-08-25 Swisscom Mobile AG Verfahren und System zur Aufdeckung von möglichen Betrügen in Zahlungstransaktionen
CN101808093A (zh) * 2010-03-15 2010-08-18 北京安天电子设备有限公司 一种对web安全进行自动化检测的系统和方法
CN102279875A (zh) * 2011-06-24 2011-12-14 成都市华为赛门铁克科技有限公司 钓鱼网站的识别方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
冯雪坪 等: ""基于BHO技术的恶意网页行为检测方法"", 《广西大学学报:自然科学版》 *
马洪亮 等: ""基于JavaScript的轻量级恶意网页异常检测方法"", 《华中科技大学学报(自然科学版)》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106953738A (zh) * 2016-10-11 2017-07-14 阿里巴巴集团控股有限公司 风险控制方法及装置
CN106953738B (zh) * 2016-10-11 2020-12-18 创新先进技术有限公司 风险控制方法及装置
CN108073804A (zh) * 2016-11-14 2018-05-25 百度在线网络技术(北京)有限公司 一种风险识别方法和装置
CN107547552A (zh) * 2017-09-07 2018-01-05 杭州安恒信息技术有限公司 一种基于网站特征识别和关系拓扑的网站信誉度评估方法及装置
CN107547552B (zh) * 2017-09-07 2020-02-21 杭州安恒信息技术股份有限公司 一种基于网站特征识别和关系拓扑的网站信誉度评估方法及装置
CN111488621A (zh) * 2019-01-25 2020-08-04 深信服科技股份有限公司 一种篡改网页检测方法、系统及电子设备和存储介质
CN110727766A (zh) * 2019-10-18 2020-01-24 上海斗象信息科技有限公司 敏感词的检测方法
CN110727766B (zh) * 2019-10-18 2023-04-28 上海斗象信息科技有限公司 敏感词的检测方法
CN110930165A (zh) * 2019-11-08 2020-03-27 国家计算机网络与信息安全管理中心 互联网金融网站的异常检测方法及装置
CN111967063A (zh) * 2020-09-02 2020-11-20 开普云信息科技股份有限公司 一种基于多维度分析的数据篡改监测和识别方法、装置、电子设备及其存储介质

Also Published As

Publication number Publication date
CN104598595B (zh) 2019-05-31

Similar Documents

Publication Publication Date Title
CN104598595A (zh) 欺诈网页检测方法及相应装置
CN105808639B (zh) 网络访问行为识别方法和装置
CN102822839B (zh) 经由信誉系统的恶意软件检测
Lakshmi et al. Efficient prediction of phishing websites using supervised learning algorithms
US8769695B2 (en) Phish probability scoring model
CN103176981B (zh) 一种事件信息挖掘并预警的方法
CN108023868B (zh) 恶意资源地址检测方法和装置
CN107786545A (zh) 一种网络攻击行为检测方法及终端设备
CN104462509A (zh) 垃圾评论检测方法及装置
CN110516156B (zh) 一种网络行为监控装置、方法、设备和存储介质
CN103037339A (zh) 一种基于“用户信誉度和短信垃圾度”的短信息过滤方法
CN104217160A (zh) 一种中文钓鱼网站检测方法及系统
CN105337993B (zh) 一种基于动静结合的邮件安全检测装置及方法
CN108833185B (zh) 一种网络攻击路线还原方法及系统
CN108881263A (zh) 一种网络攻击结果检测方法及系统
CN107888606B (zh) 一种域名信誉度评估方法及系统
CN109672674A (zh) 一种网络威胁情报可信度识别方法
CN110839216B (zh) 识别通讯信息诈骗的方法和装置
CN102096781A (zh) 一种基于网页关联性的钓鱼检测方法
CN109543408B (zh) 一种恶意软件识别方法和系统
CN104933191A (zh) 一种基于贝叶斯算法的垃圾评论识别方法、系统及终端
CN104202291A (zh) 基于多因素综合评定方法的反钓鱼方法
CN103258039B (zh) 一种微博伪造信息的检测方法
CN102819580A (zh) 互联网第三方媒体网站广告监控方法及系统
CN103369486A (zh) 诈骗短信防范系统与防范方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190809

Address after: 100085 Beijing, Haidian District, No. ten on the ground floor, No. 10 Baidu building, layer 2

Patentee after: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

Address before: 100091 Beijing, Haidian District, northeast Wang West Road, No. 4, Zhongguancun Software Park, building C, block, 1-03

Patentee before: Pacify a Heng Tong (Beijing) Science and Technology Ltd.