CN112214737A - 以图片为主的欺诈网页的识别方法、系统、装置和介质 - Google Patents
以图片为主的欺诈网页的识别方法、系统、装置和介质 Download PDFInfo
- Publication number
- CN112214737A CN112214737A CN202011244992.4A CN202011244992A CN112214737A CN 112214737 A CN112214737 A CN 112214737A CN 202011244992 A CN202011244992 A CN 202011244992A CN 112214737 A CN112214737 A CN 112214737A
- Authority
- CN
- China
- Prior art keywords
- webpage
- label
- fraud
- sequence
- tree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000001514 detection method Methods 0.000 claims abstract description 22
- 238000004364 calculation method Methods 0.000 claims abstract description 9
- 238000000605 extraction Methods 0.000 claims description 24
- 238000004140 cleaning Methods 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 claims description 4
- 230000007547 defect Effects 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 239000003962 counterfeit drug Substances 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/10—Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
- G06F21/12—Protecting executable software
- G06F21/121—Restricting unauthorised execution of programs
- G06F21/128—Restricting unauthorised execution of programs involving web programs, i.e. using technology especially used in internet, generally interacting with a web browser, e.g. hypertext markup language [HTML], applets, java
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Virology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Technology Law (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了以图片为主的欺诈网页的识别方法、系统、装置和介质,属于诈骗网页识别技术领域,要解决的技术问题为如何克服欺诈网页检测在图片为主的网页上的不足,以快速有效的识别欺诈网页。方法,包括如下步骤:基于上述每个欺诈标签树序列以及每个欺诈标签树序列对应的更新时间及恶意值构建特征库;将待测标签树序列与特征库中欺诈标签树序列进行相似度计算,对于相似度高于阈值的待测标签树序列,认定对应的待测网页为可疑欺诈网页;对于可疑欺诈网页,如果所述恶意关键词的恶意度满足预设值,认定为欺诈网页;更新上述新的欺诈标签树序列对应的恶意值,并将所述新的欺诈标签序列以及新的欺诈标签树序列对应的更新时间和恶意值加入特征库。
Description
技术领域
本发明涉及诈骗网页识别技术领域,具体地说是以图片为主的欺诈网页的识别方法、系统、装置和介质。
背景技术
检测一个网页是否存在欺诈信息通常采用两种方法,分别为专家系统法和机器学习方法,专家系统法即在网页中提取主要内容,包括题目、摘要和内容等,然后根据专家系统中预存的关键词等规则信息,判断网页中是否包含欺诈信息,该方法中特征词等规则信息需要人工进行维护,人力投入大。机器学习方法通过大量的网页内容提取和分类,将其分为欺诈网页和非欺诈网页,通过训练得到分类器后,使用分类器判断网页的欺诈属性,该方法中需要大量的标注。
即专家系统法和机器学习法均存在一定的问题,现存方法能够使用的关键前提在于网页中有比较丰富的文本信息,而在欺诈网页中,尤其是售卖假药的网页中,比较常见到的是大量的图片堆积起来,所有的有效信息都在图片中展示,这样现存的方法并不能拿到任何有效信息,导致检测结果不理想。如果使用OCR技术进行所有图片的识别,速度慢,效果差。
如何克服欺诈网页检测在图片为主的网页上的不足,以快速有效的识别欺诈网页,是需要解决的技术问题。
发明内容
本发明的技术任务是针对以上不足,提供以图片为主的欺诈网页的识别方法、系统、装置和介质,来解决如何克服欺诈网页检测在图片为主的网页上的不足,以快速有效的识别欺诈网页的问题。
第一方面,本发明提供一种以图片为主的欺诈网页的识别方法,包括如下步骤:
收集以图片为主的欺诈网页构建网页样本;
对于每个欺诈网页,通过网页标签树提取工具提取标签树信息,并通过字符对标签树进行编码,根据标签对应的字符构建标签树序列,所述标签树序列作为欺诈标签树序列;
对于每个欺诈标签树序列对应的恶意值,基于样本统计值初始化所述恶意度,所述恶意值为恶意关键词的恶意度数值;
基于上述每个欺诈标签树序列以及每个欺诈标签树序列对应的更新时间及恶意值构建特征库,所述欺诈标签树序列的更新时间为欺诈标签树序列的最新检出时间;
对于以图片为主的待测网页,通过网页标签树提取工具提取标签树信息,并通过字符对标签树进行编码,根据标签对应的字符构建标签树序列,所述标签树序列作为待测标签树序列;
将所述待测标签树序列与特征库中欺诈标签树序列进行相似度计算,对于相似度高于阈值的待测标签树序列,认定对应的待测网页为可疑欺诈网页;
对于可疑欺诈网页,随机选取少量图片进行图片识别并查找恶意关键词,如果所述恶意关键词的恶意度满足预设值,认定所述可疑诈骗网页为欺诈网页,对应的所述待测标签树为新的欺诈标签树序列,与所述新的欺诈标签树序列的相似度高于阈值的的欺诈标签树序列为相关欺诈标签树序列;
更新上述相关欺诈标签树序列以及新的欺诈标签树序列对应的恶意值,并将所述相关欺诈标签树序列以及新的欺诈标签树序列对应的更新时间和恶意值加入特征库。
更优的,还包括如下步骤:
基于欺诈标签树序列的更新时间和恶意值,在离线状态下对特征库进行更新。
作为优选,所述清理步骤为:每隔预定时间,查看欺诈标签树序列对应的恶意值和最后的更新时间,将高于阈值且时间在有效期内的欺诈标签树序列进行保留。
作为优选,对于每个欺诈网页以及待测网页,通过网页标签树提取工具提取标签树信息后,对标签树进行剪裁,保留的标签包括但不限于div、href、table和img。
作为优选,通过一个映射关系记录标签树所有的标签。
作为优选,基于距离,将待检测标签树序列与欺诈标签树序列特征库中的欺诈标签树序列进行相似度计算。
作为优选,对于可疑欺诈网页,随机选取少量图片并通过OCR技术进行图片识别。
第二方面,本发明提供一种以图片为主的欺诈网页的识别系统,用于通过如第一方面任一项所述的以图片为主的欺诈网页的识别方法识别欺诈网页,所述系统包括:
采集模块,所述采集模块用于收集以图片为主的欺诈网页构建网页样本;
标签提取模块,所述标签提取模块用于通过网页标签树提取工具提取标签树信息,并通过字符对标签树进行编码,根据标签对应的字符构建标签树序列;或者,用于通过网页标签树提取工具提取标签树信息并对标签树进行剪裁,通过字符对剪裁后标签树进行编码,根据标签对应的字符构建标签树序列;
欺诈标签树模块,所述欺诈标签树模块调用标签提取模块,通过标签提取模块构建每个欺诈网页的标签树序列作为欺诈标签树;
恶意值初始化模块,所述恶意值初始化模块用于对于每个欺诈标签树序列对应的恶意值,基于样本统计值初始化所述恶意度,所述恶意值为恶意关键词的恶意度数值;
特征库初始化模块,所述特征库初始化模块用于基于上述每个欺诈标签树序列以及每个欺诈标签树序列对应的更新时间及恶意值构建特征库,所述欺诈标签树序列的更新时间为欺诈标签树序列的最新检出时间;
待测网页初判模块,所述待测网页初判模块用于获取待测网页并判断所述待测网页是否为以图片为主的待测网页;
可疑欺诈网页判断模块,所述可疑欺诈网页判断模块用于调用标签提取模块,通过标签提取模块构建待测网页的标签树序列作为待测标签树,并用于将所述待测标签树序列与特征库中欺诈标签树序列进行相似度计算,对于相似度高于阈值的待测标签树序列,认定对应的待测网页为可疑欺诈网页;
欺诈网页判断模块,所述欺诈网页判断模块用于对于可疑欺诈网页,随机选取少量图片进行图片识别并查找恶意关键词,并用于判断所述恶意关键词的恶意度是否满足预设值,如果是,认定所述可疑诈骗网页为欺诈网页,对应的所述待测标签树为新的欺诈标签树序列,与所述新的欺诈标签树序列的相似度高于阈值的的欺诈标签树序列为相关欺诈标签树序列;
特征库更新模块,所述特征库更新模块用于更新上述相关欺诈标签树序列以及新的欺诈标签树序列对应的恶意值,并将所述相关欺诈标签树序列以及新的欺诈标签树序列对应的更新时间和恶意值加入特征库;
特征库清理模块,所述特征库清理模块用于基于欺诈标签树序列的更新时间和恶意值,在离线状态下对特征库进行更新。
第三方面,本发明提供一种装置,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行第一方面任一所述的方法。
第三方面,本发明提供一种介质,为计算机可读介质,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行第一方面任一所述的方法。
本发明的以图片为主的欺诈网页的识别方法、系统、装置和介质具有以下优点:
1、获取图片为主的欺诈网页构建样本网页,构建欺诈网页对应欺诈标签树序列,通过欺诈标签树序列及其更新时间和恶意值构建特征库,计算待测网页对应的待测标签树序列,基于待测标签树序列与欺诈标签树序列的相似度判断可疑欺诈网页,进一步基于恶意值判断可疑欺诈网页是否为欺诈网页,并更新特征库,实现了欺诈网页的识别,该方法不需要很多的以图片为主的欺诈网页数据,可以持续的生成多种网页框架特征,快速建立和维护一个欺诈网页框架,使用这个特征集,检测速度快,而且准确率和召回率都较高,可以弥补当前欺诈网页检测方法在图片为主的网页上的不足;
2、在对标签树进行编码前,对编码树进行剪裁,保留需要的部分,可提高计算速率及准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
下面结合附图对本发明进一步说明。
图1为实施例1以图片为主的欺诈网页的识别方法的流程框图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互结合。
本发明实施例提供以图片为主的欺诈网页的识别方法、系统、装置和介质,用于解决如何克服欺诈网页检测在图片为主的网页上的不足,以快速有效的识别欺诈网页的技术问题。
实施例1:
本发明的一种以图片为主的欺诈网页的识别方法,包括如下步骤:
S100、收集以图片为主的欺诈网页构建网页样本;
S200、对于每个欺诈网页,通过网页标签树提取工具提取标签树信息,并通过字符对标签树进行编码,根据标签对应的字符构建标签树序列,标签树序列作为欺诈标签树序列;
对于每个欺诈标签树序列对应的恶意值,基于样本统计值初始化上述恶意度,恶意值为恶意关键词的恶意度数值;
S300、基于上述每个欺诈标签树序列以及每个欺诈标签树序列对应的更新时间及恶意值构建特征库,上述欺诈标签树序列的更新时间为欺诈标签树序列的最新检出时间;
S400、对于以图片为主的待测网页,通过网页标签树提取工具提取标签树信息,并通过字符对标签树进行编码,根据标签对应的字符构建标签树序列,标签树序列作为待测标签树序列;
S500、将待测标签树序列与特征库中欺诈标签树序列进行相似度计算,对于相似度高于阈值的待测标签树序列,认定对应的待测网页为可疑欺诈网页;
S600、对于可疑欺诈网页,随机选取少量图片进行图片识别并查找恶意关键词,如果恶意关键词的恶意度满足预设值,认定可疑诈骗网页为欺诈网页,对应的待测标签树为新的欺诈标签树序列,与上述新的欺诈标签树序列的相似度高于阈值的的欺诈标签树序列为相关欺诈标签树序列;
S700、更新上述相关欺诈标签树序列以及新的欺诈标签树序列对应的恶意值,并将相关欺诈标签树序列以及新的欺诈标签树序列对应的更新时间和恶意值加入特征库。
其中,对标签树进行字符编码时,编码规则根据需求自定义。使用一个map来记录所有的标签,然后使用标签对应的字母key来替换标签,这样就获得了一个由对应字母组成的可以用来表示标签树的标签树序列,该标签树序列作为欺诈标签树序列。在map中,记录标签和字母的映射关系,例如{“<a>”:”a”,“<herf>”:”b”,“<img>”:”c”,....}那么标签树就可以用对应的字符来替代。
在本实施例中使用相似度计算方法,如编辑距离,将得到的待测标签树序列同序列特征库中的欺诈标签树序列进行对比,设定阈值T,当与某个欺诈标签树序列S1相似度高于这个阈值T时,认为该待测网页是可疑欺诈网页。
如果待测网页是可疑欺诈网页,随机从待测网页的图片中获取2到3个图片,通过OCR技术识别文字信息,并通过常用的文字查找方法在文字中查找恶意关键词,本实施例中不需要满足比较高的恶意性,满足某个较低值即可认为可疑欺诈网页是欺诈网页。
认定欺诈网页之后,该待测标签树序列为新的欺诈标签树序列,将该新的欺诈标签树序列的恶意值加1且更新最后一个检出时间,并将刚检测出来的新的欺诈标签树序列加入特征库中。
作为本实施例的改进,在提取标签树后,将标签树中重要的标签进行保留,不重要的可以去掉,保留的标签如:div,href,table,img等,然后对剪裁后标签树进行编码。
作为本实施例的改进,基于欺诈标签树序列的更新时间和恶意值,在离线状态下对特征库进行更新清理。具体操作为:离线工作状态下,每隔特定时间,清理一次特征库,保证库中数据的高效性。清理方法是查看欺诈标签树序列对应的恶意值和最后一次检出时间,高于某个阈值且时间在有效期内的则进行保留,否则说明这个标签树序列贡献度太低,或者已经被黑产淘汰,可以进行清除。
实施例2:
本发明的一种以图片为主的欺诈网页的识别系统,包括采集模块、标签提取模块、欺诈标签树模块、恶意值初始化模块、特征库初始化模块、特征库初始化模块、待测网页初判模块、可疑欺诈网页判断模块、欺诈网页判断模块和特征库清理模块,上述系统可执行实施例1公开的方法。
其中,采集模块用于收集以图片为主的欺诈网页构建网页样本。
标签提取模块用于通过网页标签树提取工具提取标签树信息,并通过字符对标签树进行编码,根据标签对应的字符构建标签树序列;或者,用于通过网页标签树提取工具提取标签树信息并对标签树进行剪裁,通过字符对剪裁后标签树进行编码,根据标签对应的字符构建标签树序列。
对标签树进行字符编码时,编码规则根据需求自定义。使用一个映射关系来记录所有的标签,然后使用标签对应的字母key来替换标签,这样就获得了一个由对应字母组成的可以用来表示标签树的标签树序列,该标签树序列作为欺诈标签树序列。在map中,记录标签和字母的映射关系,例如{“<a>”:”a”,“<herf>”:”b”,“<img>”:”c”,....}那么标签树就可以用对应的字符来替代。
在提取标签树后,将标签树中重要的标签进行保留,不重要的可以去掉,保留的标签如:div,href,table,img等,然后对剪裁后标签树进行编码。
在具体执行时,可根据需求选择是否对标签树进行剪裁。
欺诈标签树模块调用标签提取模块,通过标签提取模块构建每个欺诈网页的标签树序列作为欺诈标签树。
恶意值初始化模块用于对于每个欺诈标签树序列对应的恶意值,基于样本统计值初始化所述恶意度,恶意值为恶意关键词的恶意度数值;
特征库初始化模块用于基于上述每个欺诈标签树序列以及每个欺诈标签树序列对应的更新时间及恶意值构建特征库,欺诈标签树序列的更新时间为欺诈标签树序列的最新检出时间。
待测网页初判模块用于获取待测网页并判断所述待测网页是否为以图片为主的待测网页。
可疑欺诈网页判断模块用于调用标签提取模块,通过标签提取模块构建待测网页的标签树序列作为待测标签树,并用于将所述待测标签树序列与特征库中欺诈标签树序列进行相似度计算,对于相似度高于阈值的待测标签树序列,认定对应的待测网页为可疑欺诈网页。
具体比对方法为:基于相似度计算方法编辑距离,将得到的待测标签树序列同序列特征库中的欺诈标签树序列进行对比,设定阈值T,当与某个欺诈标签树序列S1相似度高于这个阈值T时,认为该待测网页是可疑欺诈网页。
欺诈网页判断模块用于对于可疑欺诈网页,随机选取少量图片进行图片识别并查找恶意关键词,并用于判断所述恶意关键词的恶意度是否满足预设值,如果是,认定所述可疑诈骗网页为欺诈网页,对应的所述待测标签树为新的欺诈标签树序列,与所述新的欺诈标签树序列的相似度高于阈值的的欺诈标签树序列为相关欺诈标签树序列。
特征库更新模块用于更新上述相关欺诈标签树序列以及新的欺诈标签树序列对应的恶意值,并将所述相关欺诈标签树序列以及新的欺诈标签树序列对应的更新时间和恶意值加入特征库。
特征库清理模块用于基于欺诈标签树序列的更新时间和恶意值,在离线状态下对特征库进行更新清理。该模块具体操作为:离线工作状态下,每隔特定时间,清理一次特征库,保证库中数据的高效性。清理方法是查看欺诈标签树序列对应的恶意值和最后一次检出时间,高于某个阈值且时间在有效期内的则进行保留,否则说明这个标签树序列贡献度太低,或者已经被黑产淘汰,可以进行清除。
实施例3:
本发明的一种装置,包括:至少一个存储器和至少一个处理器;上述至少一个存储器,用于存储机器可读程序;上述至少一个处理器,用于调用所述机器可读程序,执行实施例1公开的方法。
实施例4:
本发明实施例还提供了一种介质,为计算机可读介质,该计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行实施例1公开的方法。具体地,可以提供配有存储介质的系统或者装置,在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。
在这种情况下,从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此程序代码和存储程序代码的存储介质构成了本发明的一部分。
用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上下载程序代码。
此外,应该清楚的是,不仅可以通过执行计算机所读出的程序代码,而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作,从而实现上述实施例中任意一项实施例的功能。
此外,可以理解的是,将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作,从而实现上述实施例中任一实施例的功能。
需要说明的是,上述各流程和各系统结构图中不是所有的步骤和模块都是必须的,可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的,可以根据需要进行调整。上述各实施例中描述的系统结构可以是物理结构,也可以是逻辑结构,即,有些模块可能由同一物理实体实现,或者,有些模块可能分由多个物理实体实现,或者,可以由多个独立设备中的某些部件共同实现。
上文通过附图和优选实施例对本发明进行了详细展示和说明,然而本发明不限于这些已揭示的实施例,基与上述多个实施例本领域技术人员可以知晓,可以组合上述不同实施例中的手段得到本发明更多的实施例,这些实施例也在本发明的保护范围之内。
Claims (10)
1.以图片为主的欺诈网页的识别方法,其特征在于包括如下步骤:
收集以图片为主的欺诈网页构建网页样本;
对于每个欺诈网页,通过网页标签树提取工具提取标签树信息,并通过字符对标签树进行编码,根据标签对应的字符构建标签树序列,所述标签树序列作为欺诈标签树序列;
对于每个欺诈标签树序列对应的恶意值,基于样本统计值初始化所述恶意度,所述恶意值为恶意关键词的恶意度数值;
基于上述每个欺诈标签树序列以及每个欺诈标签树序列对应的更新时间及恶意值构建特征库,所述欺诈标签树序列的更新时间为欺诈标签树序列的最新检出时间;
对于以图片为主的待测网页,通过网页标签树提取工具提取标签树信息,并通过字符对标签树进行编码,根据标签对应的字符构建标签树序列,所述标签树序列作为待测标签树序列;
将所述待测标签树序列与特征库中欺诈标签树序列进行相似度计算,对于相似度高于阈值的待测标签树序列,认定对应的待测网页为可疑欺诈网页;
对于可疑欺诈网页,随机选取少量图片进行图片识别并查找恶意关键词,如果所述恶意关键词的恶意度满足预设值,认定所述可疑诈骗网页为欺诈网页,对应的所述待测标签树为新的欺诈标签树序列,与所述新的欺诈标签树序列的相似度高于阈值的的欺诈标签树序列为相关欺诈标签树序列;
更新上述相关欺诈标签树序列以及新的欺诈标签树序列对应的恶意值,并将所述相关欺诈标签树序列以及新的欺诈标签树序列对应的更新时间和恶意值加入特征库。
2.根据权利要求1所述的以图片为主的欺诈网页的识别方法,其特征在于还包括如下步骤:
基于欺诈标签树序列的更新时间和恶意值,在离线状态下对特征库进行更新。
3.根据权利要求2所述的以图片为主的欺诈网页的识别方法,其特征在于所述清理步骤为:每隔预定时间,查看欺诈标签树序列对应的恶意值和最后的更新时间,将高于阈值且时间在有效期内的欺诈标签树序列进行保留。
4.根据权利要求1、2或3所述的以图片为主的欺诈网页的识别方法,其特征在于对于每个欺诈网页以及待测网页,通过网页标签树提取工具提取标签树信息后,对标签树进行剪裁,保留的标签包括但不限于div、href、table和img。
5.根据权利要求1、2或3所述的以图片为主的欺诈网页的识别方法,其特征在于通过一个映射关系记录标签树所有的标签。
6.根据权利要求1、2或3所述的以图片为主的欺诈网页的识别方法,其特征在于基于距离,将待检测标签树序列与欺诈标签树序列特征库中的欺诈标签树序列进行相似度计算。
7.根据权利要求1、2或3所述的以图片为主的欺诈网页的识别方法,其特征在于对于可疑欺诈网页,随机选取少量图片并通过OCR技术进行图片识别。
8.以图片为主的欺诈网页的识别系统,其特征在于用于通过如权利要求1-7任一项所述的以图片为主的欺诈网页的识别方法识别欺诈网页,所述系统包括:
采集模块,所述采集模块用于收集以图片为主的欺诈网页构建网页样本;
标签提取模块,所述标签提取模块用于通过网页标签树提取工具提取标签树信息,并通过字符对标签树进行编码,根据标签对应的字符构建标签树序列;或者,用于通过网页标签树提取工具提取标签树信息并对标签树进行剪裁,通过字符对剪裁后标签树进行编码,根据标签对应的字符构建标签树序列;
欺诈标签树模块,所述欺诈标签树模块调用标签提取模块,通过标签提取模块构建每个欺诈网页的标签树序列作为欺诈标签树;
恶意值初始化模块,所述恶意值初始化模块用于对于每个欺诈标签树序列对应的恶意值,基于样本统计值初始化所述恶意度,所述恶意值为恶意关键词的恶意度数值;
特征库初始化模块,所述特征库初始化模块用于基于上述每个欺诈标签树序列以及每个欺诈标签树序列对应的更新时间及恶意值构建特征库,所述欺诈标签树序列的更新时间为欺诈标签树序列的最新检出时间;
待测网页初判模块,所述待测网页初判模块用于获取待测网页并判断所述待测网页是否为以图片为主的待测网页;
可疑欺诈网页判断模块,所述可疑欺诈网页判断模块用于调用标签提取模块,通过标签提取模块构建待测网页的标签树序列作为待测标签树,并用于将所述待测标签树序列与特征库中欺诈标签树序列进行相似度计算,对于相似度高于阈值的待测标签树序列,认定对应的待测网页为可疑欺诈网页;
欺诈网页判断模块,所述欺诈网页判断模块用于对于可疑欺诈网页,随机选取少量图片进行图片识别并查找恶意关键词,并用于判断所述恶意关键词的恶意度是否满足预设值,如果是,认定所述可疑诈骗网页为欺诈网页,对应的所述待测标签树为新的欺诈标签树序列,与所述新的欺诈标签树序列的相似度高于阈值的的欺诈标签树序列为相关欺诈标签树序列;
特征库更新模块,所述特征库更新模块用于更新上述相关欺诈标签树序列以及新的欺诈标签树序列对应的恶意值,并将所述相关欺诈标签树序列以及新的欺诈标签树序列对应的更新时间和恶意值加入特征库;
特征库清理模块,所述特征库清理模块用于基于欺诈标签树序列的更新时间和恶意值,在离线状态下对特征库进行更新。
9.装置,其特征在于,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行权利要求1至7中任一所述的方法。
10.计算机可读介质,其特征在于,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行权利要求1至7任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011244992.4A CN112214737B (zh) | 2020-11-10 | 2020-11-10 | 以图片为主的欺诈网页的识别方法、系统、装置和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011244992.4A CN112214737B (zh) | 2020-11-10 | 2020-11-10 | 以图片为主的欺诈网页的识别方法、系统、装置和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112214737A true CN112214737A (zh) | 2021-01-12 |
CN112214737B CN112214737B (zh) | 2022-06-24 |
Family
ID=74056768
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011244992.4A Active CN112214737B (zh) | 2020-11-10 | 2020-11-10 | 以图片为主的欺诈网页的识别方法、系统、装置和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112214737B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113239305A (zh) * | 2021-05-19 | 2021-08-10 | 中国电子科技集团公司第三十研究所 | 一种云计算环境下的目标探测与识别方法 |
CN112989341B (zh) * | 2021-03-03 | 2021-10-29 | 中国信息通信研究院 | 一种涉诈网页的确定方法、系统和介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103617390A (zh) * | 2013-11-06 | 2014-03-05 | 北京奇虎科技有限公司 | 一种恶意网页判断方法、装置和系统 |
CN104143008A (zh) * | 2014-08-11 | 2014-11-12 | 北京奇虎科技有限公司 | 基于图片匹配检测钓鱼网页的方法及装置 |
US20150082440A1 (en) * | 2013-09-18 | 2015-03-19 | Jeremy Dale Pickett | Detection of man in the browser style malware using namespace inspection |
CN106528583A (zh) * | 2015-11-14 | 2017-03-22 | 孙燕群 | 一种网页正文提取比对方法 |
CN110049052A (zh) * | 2019-04-23 | 2019-07-23 | 哈尔滨工业大学(威海) | 基于dom树的标签及属性相似性的恶意域名检测方法 |
-
2020
- 2020-11-10 CN CN202011244992.4A patent/CN112214737B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150082440A1 (en) * | 2013-09-18 | 2015-03-19 | Jeremy Dale Pickett | Detection of man in the browser style malware using namespace inspection |
CN103617390A (zh) * | 2013-11-06 | 2014-03-05 | 北京奇虎科技有限公司 | 一种恶意网页判断方法、装置和系统 |
CN104143008A (zh) * | 2014-08-11 | 2014-11-12 | 北京奇虎科技有限公司 | 基于图片匹配检测钓鱼网页的方法及装置 |
CN106528583A (zh) * | 2015-11-14 | 2017-03-22 | 孙燕群 | 一种网页正文提取比对方法 |
CN110049052A (zh) * | 2019-04-23 | 2019-07-23 | 哈尔滨工业大学(威海) | 基于dom树的标签及属性相似性的恶意域名检测方法 |
Non-Patent Citations (2)
Title |
---|
PARAG MULENDRA JOSHI ET AL.: "Web Document Text and Images Extraction using DOM Analysis and Natural Language Processing", 《ACM》 * |
庞玉敏: "恶意网页智能检测技术研究与实现", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112989341B (zh) * | 2021-03-03 | 2021-10-29 | 中国信息通信研究院 | 一种涉诈网页的确定方法、系统和介质 |
CN113239305A (zh) * | 2021-05-19 | 2021-08-10 | 中国电子科技集团公司第三十研究所 | 一种云计算环境下的目标探测与识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112214737B (zh) | 2022-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110110577B (zh) | 识别菜名的方法及装置、存储介质、电子装置 | |
CN112214737B (zh) | 以图片为主的欺诈网页的识别方法、系统、装置和介质 | |
CN112507160A (zh) | 商标侵权的自动化判定方法、装置、电子设备和存储介质 | |
CN113158653A (zh) | 预训练语言模型的训练方法、应用方法、装置及设备 | |
CN111078979A (zh) | 一种基于ocr和文本处理技术识别网贷网站的方法及系统 | |
CN108900554A (zh) | Http协议资产检测方法、系统、设备及计算机介质 | |
CN112445915A (zh) | 一种基于机器学习的文书图谱抽取方法、装置及存储介质 | |
CN114065719A (zh) | 文档处理方法及其装置、电子设备、计算机可读存储介质 | |
CN110826488B (zh) | 一种针对电子文档的图像识别方法、装置及存储设备 | |
CN111783786A (zh) | 图片的识别方法、系统、电子设备及存储介质 | |
CN109491970B (zh) | 面向云存储的不良图片检测方法、装置及存储介质 | |
CN109918638B (zh) | 一种网络数据监测方法 | |
CN115186240A (zh) | 基于关联性信息的社交网络用户对齐方法、装置、介质 | |
CN112925874B (zh) | 基于案例标记的相似代码搜索方法及系统 | |
CN111177301B (zh) | 一种关键信息识别提取方法及系统 | |
CN112163217B (zh) | 恶意软件变种识别方法、装置、设备及计算机存储介质 | |
CN112434700A (zh) | 车牌识别方法、装置、设备及存储介质 | |
CN114220113A (zh) | 一种论文质量检测方法、装置和设备 | |
CN108153817B (zh) | 一种智能网页数据采集方法 | |
CN113868503A (zh) | 商品图片合规检测的方法、装置、设备和存储介质 | |
CN109344254B (zh) | 一种地址信息分类方法及装置 | |
CN107844485A (zh) | 测试脚本文件的更新方法和装置 | |
CN116821548B (zh) | 一种网页分页方法、装置及计算机可读存储介质 | |
CN112286986B (zh) | 一种基于企业族谱的产权分析管理系统 | |
CN116227479B (zh) | 一种实体识别方法、装置、计算机设备和可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: No. 177, Honghai 1st Road, Donggang District, Rizhao City, Shandong Province, China 276800 Patentee after: SHANDONG BITTEL INTELLIGENT TECHNOLOGY Co.,Ltd. Country or region after: China Address before: 276800 No. 1 Rizhao North Road, Donggang District, Shandong, Rizhao City Patentee before: SHANDONG BITTEL INTELLIGENT TECHNOLOGY Co.,Ltd. Country or region before: China |