欺诈网页检测方法、计算机设备和计算机可读存储介质
技术领域
本发明实施例涉及互联网技术领域,尤其涉及一种欺诈网页检测方法、计算机设备和计算机可读存储介质。
背景技术
目前,检测网页是否为欺诈网页,一般有如下两种方法:
(1)使用机器学习的方法,将各种渠道收集到的欺诈网页,根据其欺诈领域进行分类,同时收集合法网页作为非欺诈网页类,然后通过训练得到分类器。在检测时分类器将网页直接进行分类,判断该网页是否为欺诈网页以及其欺诈类型。但是,这种方法受限于语料,新的欺诈类型或方法需要较长时间才能收集到丰富语料,而由于对抗等原因,原有的欺诈方法可能很快就被淘汰,召回率低。
(2)使用在网页中找各种关键特征词、特征句的方法,这种方法虽然能够在发现新型的欺诈方式时快速开发,但是维护这些特征词、特征句需要大量的人力投入,而且该方法检测准确率较低。
针对上述问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供一种欺诈网页检测方法、计算机设备和计算机可读存储介质,与欺诈类型或欺诈方法无关,无需搜集新的欺诈类型或欺诈方法的语料,也无需大量人力成本维护,同时欺诈检测的准确率高。
第一方面,本发明实施例提供了一种欺诈网页检测方法,包括:
获取当前网页的账号信息;
根据所述账号信息与预设黑名单对所述当前网页进行欺诈检测,得到第一检测结果;
根据预设特征信息对所述当前网页进行欺诈检测,得到第二检测结果;
如果所述第一检测结果与所述第二检测结果均是疑似欺诈网页,则确定所述当前网页是欺诈网页。
第二方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明任意实施例所述的欺诈网页检测方法。
第三方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所述的欺诈网页检测方法。
本实施例的欺诈网页检测方法、计算机设备和计算机可读存储介质,与欺诈类型或欺诈方法无关,不受限于语料,无需搜集新的欺诈类型或欺诈方法的语料,避免了欺诈类型或欺诈方法被淘汰导致的召回率低的问题;预设黑名单和预设特征信息均无需大量人力成本维护,人工干预少,节省人力成本;另外,结合两种欺诈检测方式的检测结果进行欺诈网页的确定,检测准确率高。
附图说明
图1是本发明实施例一提供的欺诈网页检测方法的流程图;
图2是本发明实施例二提供的建立黑名单的流程示意图一;
图3是本发明实施例二提供的建立黑名单的流程示意图二;
图4是本发明实施例三提供的欺诈网页检测装置的结构框图;
图5是本发明实施例四提供的计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1是本发明实施例一提供的欺诈网页检测方法的流程图。本实施例可适用于检测欺诈网页的情况,具体的,可以对用户终端请求的网页进行欺诈检测。该方法可以由欺诈网页检测装置执行,优选的,可以由服务器执行。如图1所示,本实施例的欺诈网页检测方法包括如下步骤:
步骤S110,获取当前网页的账号信息。
本步骤中,当前网页是指用户终端向服务器请求的网页,在向用户终端发送或显示该网页之前,需要进行网页的欺诈性检测,以提高网页浏览的安全性。账号信息是指对应唯一使用者的账号,因为欺诈网页的拥有者一般拥有多个网站,但这些网站都使用同一个或几个统计账号,和/或,同一个或几个客服账号,因此账号信息可以作为检测欺诈的依据。账号信息包括:统计账号和/或客服账号。以网站流量统计链接为例(如百度统计、51啦统计等),可以获取流量统计账号。当然,账号信息还可以是其他能够对应唯一使用者的账号。优选的,可以通过对当前网页进行解析,得到当前网页的账号信息。具体可以采用现有的网页解析方法,本发明实施例对此不做讨论。
步骤S120,根据账号信息与预设黑名单对当前网页进行欺诈检测,得到第一检测结果。
本步骤中,预设黑名单是预先建立并存储的,其中包含了与欺诈相关的账号信息。具体的,可以判断账号信息是否属于预设黑名单;如果属于,则确定当前网页是疑似欺诈网页;如果不属于,则确定当前网页不是疑似欺诈网页。
步骤S130,根据预设特征信息对当前网页进行欺诈检测,得到第二检测结果。
现有技术中用于欺诈检测的特征词(或特征句)之间具有关联关系,需要配合使用才能生效,因此,需要大量人力成本去维护。本步骤中,预设特征信息是简单的、不需要太多人力成本去维护的特征信息,可以包括特征词和/或特征句。预设特征信息可以是相互之间没有关联关系的特征词和/或特征句,这样简单的词句不需要太多人力成本去维护,例如,中奖、投资、百万、电话、恭喜您中奖等。
具体的,可以判断当前网页是否包括预设特征信息,如果包括,则可以认为该网页是疑似欺诈网页,如果不包括,则认为该网页不是疑似欺诈网页。较优的,可以设置预设个数范围,如果某一网页包括符合预设个数范围的特征信息,则认为该网页是疑似欺诈网页,例如,如果该网页包含8个以上的特征词和/或特征句,则可以认为该网页是疑似欺诈网页。
步骤S140,如果第一检测结果与第二检测结果均是疑似欺诈网页,则确定当前网页是欺诈网页。
需要说明的是,步骤S110和步骤S120利用预设黑名单对当前网页进行欺诈检测,步骤S130利用预设特征信息对当前网页进行欺诈检测,这两种欺诈检测方式的执行顺序不区分先后,也可以同时执行。如果第一检测结果和第二检测结果中任一个不是疑似欺诈网页,则确定当前网页不是欺诈网页。在实际应用中,判断当前网页是欺诈网页后,可以输出提示信息到请求该网页的用户终端,例如,可以弹出拦截页面;如果判断当前网页不是欺诈网页,则将该网页正常响应给用户终端。
本实施例的欺诈网页检测方法,与欺诈类型或欺诈方法无关,不受限于语料,无需搜集新的欺诈类型或欺诈方法的语料,避免了欺诈类型或欺诈方法被淘汰导致的召回率低的问题;预设黑名单和预设特征信息均无需大量人力成本维护,人工干预少,节省人力成本;另外,结合两种欺诈检测方式的检测结果进行欺诈网页的确定,检测准确率高。
上述预设黑名单可以根据收集的样本网页预先建立,其中包含了与欺诈相关的账号信息。考虑到新增网页以及网页的变化更新,因此,本实施例中还可以更新预设黑名单,以保证黑名单的及时性和完整性,及时洗白黑名单中可能有误的数据。优选的,可以按照预设时间间隔利用新的样本网页更新预设黑名单。其中更新黑名单的步骤与建立黑名单的步骤类似,黑名单更新后,有的账号会被从黑名单中删除,也会有新的账号加入黑名单。预设时间间隔可以根据实际情况进行设置,例如,15小时、1天、1周或1月等。本优选实施方式中,按照预设时间间隔获取新的样本网页,然后根据新的样本网页及时对预设黑名单进行更新,从而保证根据更新的黑名单能够及时检测出欺诈网页,减少误检率。
实施例二
在上述实施例一的基础上,本实施例提供了建立黑名单的流程,建立黑名单是在获取当前网页的账号信息之前执行,也就是在步骤S110之前执行。如图2所示,可以通过以下步骤建立黑名单:
步骤S210,获取样本网页以及样本网页中各网页的账号信息。
其中,样本网页是用于获取账号信息以建立黑名单的批量网页。可以从服务器或者源站获取大量网页资源作为样本网页;也可以从服务器、欺诈举报平台或者第三方欺诈检测软件获取采用现有方法(如背景技术所述的方法)检测出的欺诈网页,作为样本网页的一部分。具体的,可以通过对样本网页进行解析得到其账号信息,账号信息包括:统计账号和/或客服账号。当然,账号信息还可以是其他能够对应唯一使用者的账号。
步骤S220,确定样本网页中的疑似欺诈网页。
具体的,对于获取的样本网页,可以采用背景技术所述的方法确定其中的疑似欺诈网页,也可以利用上述实施例一中所述的预设特征信息去确定样本网页中的疑似欺诈网页。
步骤S230,根据每个账号信息在疑似欺诈网页中出现的比例建立所述预设黑名单。例如,某一账号信息在疑似欺诈网页中的出现次数占其在所有检测网页中出现次数的比例超过预设阈值(例如70%),表示该账号信息可能与欺诈相关。
本实施例还提供了步骤S230的一种优选实施方式,如图3所示,建立黑名单包括如下步骤:
步骤S310,获取样本网页以及样本网页中各网页的账号信息。
步骤S320,确定样本网页中的疑似欺诈网页。
步骤S330,针对每个账号信息,计算该账号信息在疑似欺诈网页中的出现次数C1、在网页白名单中的出现次数C2以及在样本网页中的出现总次数C3。
其中,网页白名单可以是一般而言比较可信的网站,例如,论坛网站、论文网站等。具体的,可以使用计数器计算出现次数,以疑似欺诈网页为例,当某一账号信息在疑似欺诈网页中出现一次,则该账号信息对应的疑似欺诈网页的计数器加1。
步骤S340,计算该账号信息在疑似欺诈网页中的出现次数占出现总次数的比例P1=C1/C3以及该账号信息在网页白名单中的出现次数占出现总次数的比例P2=C2/C3。
步骤S350,如果P1大于等于第一预设阈值且P2小于第二预设阈值,则确定该账号信息是欺诈账号,将该账号信息加入预设黑名单。
其中,第一预设阈值和第二预设阈值用于判断该账号信息是否为欺诈账号,第一预设阈值用于判断P1是否符合欺诈账号标准,第二预设阈值用于判断P2是否符合欺诈账号标准。第一预设阈值与第二预设阈值可以是经验值,经过多次实验得到较为合理的取值。例如,某一账号信息在疑似欺诈网页中的出现次数占其在所有检测网页中出现次数的比例超过70%,并且在白名单中出现次数占所有检测网页中出现次数的比重低于10%,表示该账号信息与欺诈相关,可以加入黑名单。
本优选实施方式中,根据账号在疑似欺诈网页中出现次数的比重以及在网页白名单中出现次数的比重建立黑名单,所得到的黑名单可靠性较高,进而可以提高欺诈检测的准确率;同时该黑名单易于维护,无需大量人力成本。
基于上述建立黑名单的过程,更新黑名单的步骤与上述步骤类似,例如,获取新的样本网页(包括新增网页和发生变化的网页)以及其中各网页的账号信息;确定新的样本网页中的疑似欺诈网页;计算账号信息在疑似欺诈网页中的出现次数、在网页白名单中的出现次数以及在样本网页中的出现总次数;计算该账号信息在疑似欺诈网页中的出现次数占所述出现总次数的比例P1以及该账号信息在网页白名单中的出现次数占所述出现总次数的比例P2。如果P1大于等于第一预设阈值且P2小于第二预设阈值,则该账号信息可以加入预设黑名单;判断该账号信息是否已经存在于预设黑名单中,如果是,则无需修改,如果否,则将该账号信息加入黑名单。如果P1小于第一预设阈值和/或P2大于等于第二预设阈值,则表示该账号信息不需要加入黑名单;判断该账号信息是否已经存在于预设黑名单中,如果是,则从预设黑名单中删除该账号信息,如果否,则无需修改。
通过更新黑名单,会有新的账号加入黑名单,也会从黑名单中删除一些账号,从而根据更新的黑名单能够及时检测出欺诈网页,减少误检率。黑名单的建立过程与更新过程均可通过欺诈网页检测装置实现,人工干预少,节省人力成本。
实施例三
图4是本发明实施例三提供的欺诈网页检测装置的结构框图,本实施例可适用于检测欺诈网页的情况,该装置可以对用户终端请求的网页进行欺诈检测。如图4所示,该装置包括:信息获取模块41、第一欺诈检测模块42、第二欺诈检测模块43和欺诈确定模块44。
信息获取模块41,用于获取当前网页的账号信息。
第一欺诈检测模块42,用于根据账号信息与预设黑名单对当前网页进行欺诈检测,得到第一检测结果。
第二欺诈检测模块43,用于根据预设特征信息对当前网页进行欺诈检测,得到第二检测结果。
欺诈确定模块44,用于在第一检测结果与第二检测结果均是疑似欺诈网页的情况下,确定当前网页是欺诈网页。
本实施例的欺诈网页检测装置,与欺诈类型或欺诈方法无关,不受限于语料,无需搜集新的欺诈类型或欺诈方法的语料,避免了欺诈类型或欺诈方法被淘汰导致的召回率低的问题;预设黑名单和预设特征信息均无需大量人力成本维护,人工干预少,节省人力成本;另外,结合两种欺诈检测方式的检测结果进行欺诈网页的确定,检测准确率高。
优选的,信息获取模块41具体用于:对当前网页进行解析,得到当前网页的账号信息,其中账号信息包括:统计账号和/或客服账号。
上述装置还可以包括:网页获取模块,用于获取样本网页以及样本网页中各网页的账号信息;疑似欺诈确定模块,用于确定样本网页中的疑似欺诈网页;黑名单建立模块,用于根据每个账号信息在疑似欺诈网页中出现的比例建立所述预设黑名单。
优选的,黑名单建立模块包括:次数计算单元,用于针对每个账号信息,计算该账号信息在疑似欺诈网页中的出现次数、在网页白名单中的出现次数以及在样本网页中的出现总次数;比例计算单元,用于计算该账号信息在疑似欺诈网页中的出现次数占出现总次数的比例P1以及该账号信息在网页白名单中的出现次数占出现总次数的比例P2;黑名单建立单元,用于在P1大于等于第一预设阈值且P2小于第二预设阈值的情况下,将该账号信息加入预设黑名单。本优选实施方式中,根据账号在疑似欺诈网页中出现次数的比重以及在网页白名单中出现次数的比重建立黑名单,所得到的黑名单可靠性较高,进而可以提高欺诈检测的准确率;同时该黑名单易于维护,无需大量人力成本。
优选的,上述装置还可以包括:黑名单更新模块,用于按照预设时间间隔利用新的样本网页更新预设黑名单。通过更新黑名单,会有新的账号加入黑名单,也会从黑名单中删除一些账号,从而根据更新的黑名单能够及时检测出欺诈网页,减少误检率。黑名单的建立过程与更新过程均可通过欺诈网页检测装置自动实现,人工干预少,节省人力成本。
上述欺诈网页检测装置可执行本发明任意实施例所提供的欺诈网页检测方法,具备执行该方法相应的功能模块和有益效果。
实施例四
图5是本发明实施例四提供的计算机设备的结构示意图,如图5所示,该计算机设备包括:处理器51、存储器52、输入装置53和输出装置54。
计算机设备中处理器51的数量可以是一个或多个,图5中以一个处理器51为例;计算机设备中的处理器51、存储器52、输入装置53和输出装置54可以通过总线或其他方式连接,图5中以通过总线连接为例。
存储器52作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的欺诈网页检测方法对应的程序指令/模块(例如,欺诈网页检测装置中的信息获取模块41、第一欺诈检测模块42、第二欺诈检测模块43和欺诈确定模块44)。处理器51通过运行存储在存储器52中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述实施例一和二所述的欺诈网页检测方法。
存储器52可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器52可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器52可进一步包括相对于处理器51远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置53可用于接收输入的数字或字符信息,以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置54可以具有通信功能,例如输出欺诈检测结果,或者包括显示屏等显示设备,用于显示欺诈检测结果。
实施例五
本发明实施例五提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如实施例一和二所述的欺诈网页检测方法。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述欺诈网页检测装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。