CN113779356A - 网页的风险检测方法、装置、计算机设备及存储介质 - Google Patents

网页的风险检测方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113779356A
CN113779356A CN202111060010.0A CN202111060010A CN113779356A CN 113779356 A CN113779356 A CN 113779356A CN 202111060010 A CN202111060010 A CN 202111060010A CN 113779356 A CN113779356 A CN 113779356A
Authority
CN
China
Prior art keywords
detected
text
webpage
image
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111060010.0A
Other languages
English (en)
Inventor
孙裕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Weikun Shanghai Technology Service Co Ltd
Original Assignee
Weikun Shanghai Technology Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Weikun Shanghai Technology Service Co Ltd filed Critical Weikun Shanghai Technology Service Co Ltd
Priority to CN202111060010.0A priority Critical patent/CN113779356A/zh
Publication of CN113779356A publication Critical patent/CN113779356A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及人工智能,提供一种网页的风险检测方法、装置、计算机设备及存储介质。方法包括:获取待检测网页页面对应的网页快照;对页面快照进行文本及图像提取处理,得到目标待检测文本及目标待检测图像;将目标待检测文本输入预设的语义分析模型,得到目标待检测文本中各分词的词向量;将目标待检测图像输入预设的图像识别网络模型,得到目标待检测图像的图像像素点信息;根据预设的违规信息数据库、词向量以及图像像素点信息对待检测网页页面进行风险检测,得到风险检测结果。本方案自动获取待检测页面的网页快照,然后结合网页中的文本以及图像进行网页风险检测,可以降低网页风险规避不完全的风险,提高网页风险检测的精度。

Description

网页的风险检测方法、装置、计算机设备及存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种网页的风险检测方法、装置、计算机设备及存储介质。
背景技术
互联网企业在网站及应用程序(APPlication,APP)发布前需要进行内容的合规自查,但目前基本都是以人工审核为主。
由于人工审核耗时耗力,所以现有技术提供了一种根据敏感词对网页文本进行自动检测的方法,但是该方法只考虑网页的文本,存在网页风险规避不完全的风险,网页风险检测的精度还有待提高。
发明内容
本发明实施例提供了一种网页的风险检测方法、装置、计算机设备及存储介质,可以降低网页风险规避不完全的风险,提高网页风险检测的精度。
第一方面,本发明实施例提供了一种网页的风险检测方法,其包括:
获取待检测网页页面对应的网页快照;
对所述页面快照进行文本及图像提取处理,得到目标待检测文本及目标待检测图像;
将所述目标待检测文本输入预设的语义分析模型,得到所述目标待检测文本中各分词的词向量;
将所述目标待检测图像输入预设的图像识别网络模型,得到所述目标待检测图像的图像像素点信息;
根据预设的违规信息数据库、所述词向量以及所述图像像素点信息对所述待检测网页页面进行风险检测,得到风险检测结果。
第二方面,本发明实施例还提供了一种网页的风险检测装置,其包括:
获取单元,用于获取待检测网页页面对应的网页快照;
提取单元,用于对所述页面快照进行文本及图像提取处理,得到目标待检测文本及目标待检测图像;
第一输入单元,用于将所述目标待检测文本输入预设的语义分析模型,得到所述目标待检测文本中各分词的词向量;
第二输入单元,用于将所述目标待检测图像输入预设的图像识别网络模型,得到所述目标待检测图像的图像像素点信息;
检测单元,用于根据预设的违规信息数据库、所述词向量以及所述图像像素点信息对所述待检测网页页面进行风险检测,得到风险检测结果。
第三方面,本发明实施例还提供了一种计算机设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时可实现上述方法。
本发明实施例提供了一种网页的风险检测方法、装置、计算机设备及存储介质。其中,所述方法包括:获取待检测网页页面对应的网页快照;对所述页面快照进行文本及图像提取处理,得到目标待检测文本及目标待检测图像;将所述目标待检测文本输入预设的语义分析模型,得到所述目标待检测文本中各分词的词向量;将所述目标待检测图像输入预设的图像识别网络模型,得到所述目标待检测图像的图像像素点信息;根据预设的违规信息数据库、所述词向量以及所述图像像素点信息对所述待检测网页页面进行风险检测,得到风险检测结果。本方案自动获取待检测页面的网页快照,然后结合网页中的文本以及图像进行网页风险检测,可以降低网页风险规避不完全的风险,提高网页风险检测的精度。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的网页的风险检测方法的应用场景示意图;
图2为本发明实施例提供的网页的风险检测方法的流程示意图;
图3为本发明实施例提供的网页的风险检测方法的一子流程示意图;
图4为本发明实施例提供的网页的风险检测方法的另一子流程示意图;
图5为本发明实施例提供的网页的风险检测装置的示意性框图;
图6为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本发明实施例提供了一种网页的风险检测方法、装置、计算机设备及存储介质。
该网页的风险检测方法的执行主体可以是本发明实施例提供的网页的风险检测装置,或者集成了该网页的风险检测装置的计算机设备,其中,该网页的风险检测装置可以采用硬件或者软件的方式实现,该计算机设备可以为终端或服务器,该终端可以是智能手机、平板电脑、掌上电脑、或者笔记本电脑等。
请参阅图1,图1为本发明实施例提供的网页的风险检测方法的应用场景示意图。该网页的风险检测方法应用于图1中的计算机设备10中,该计算机设备 10可以从存储有待检测网页页面对应的网站或APP的计算机设备20中获取待检测网页页面对应的网页快照;然后对页面快照进行文本及图像提取处理,得到目标待检测文本及目标待检测图像;将目标待检测文本输入预设的语义分析模型,得到目标待检测文本中各分词的词向量;将目标待检测图像输入预设的图像识别网络模型,得到目标待检测图像的图像像素点信息;根据预设的违规信息数据库、词向量以及图像像素点信息对待检测网页页面进行风险检测。
以下以服务器为执行主体为例对本发明中的风险检测方法进行介绍,请参阅图2,图2是本发明实施例提供的网页的风险检测方法的流程示意图,如图2 所示,该方法包括以下步骤S110-150。
S110、获取待检测网页页面对应的网页快照。
其中,待检测网页页面为需要进行风险检测的网页页面,其中,该待检测网页页面可以为待检测网页网站上显示的网页页面,也可以为待检测APP上显示的应用页面。
请参阅图3,在一些实施例中,具体地,步骤S110包括:
S111、登录待检测网站。
本实施例需要获取待检测网站中所有需要进行风险检测的网页页面的网页快照,首先,可以根据预设的自动登录脚本登录待检测网站,其中,该待检测网站可以为网页网站或者APP。
S112、通过预设的网页驱动工具以及预设的网页快照插件获取待检测网站所有网页页面的网页快照。
其中,该网页驱动工具可以为谷歌google提供的网页驱动工具 chromedriver,还可以为其他驱动工具,具体类型此处不做限定,该网页快照插件可以为html2canvas,还可以为其他网页快照插件,具体类型此处也不做限定。
本实施例中的网页驱动工具可以实现网页页面按钮的自动点击,确保每一个跳转页面以及每一个弹窗(例如页面下拉栏的内容)都能被检测。
在一些实施例中,具体地,步骤S112包括:
通过网页驱动工具切换待检测网站的网页页面;当切换后的网页页面加载完成时,通过网页快照插件获取当前网页页面的网页快照;判断待检测网站的网页页面是否访问完全;若待检测网站的网页页面未访问完全,则返回执行通过网页驱动工具切换待检测网站的网页页面步骤。
可见,本实施例中,每一个页面内容或者排版改变的事件触发后都会生成对应页面的网页快照,确保网站检测的全场景覆盖。
可见,本实施例可以通过网页驱动工具以及网页快照插件自动获取待检测网站涉及的所有网页页面的网页快照,不同手动获取,避免出现存在部分网页忘记检查的情况发生,遍历全面并且获取效率高。
S113、将网页快照存储至网页快照数据库中。
本实施例中,当获取了网页页面的网页快照之后,会将该网页快照存储至网页快照数据库中,方便后续服务器从风险快照数据库中提取网页快照进行风险监测。
S114、从网页快照数据库中获取待检测网页页面对应的网页快照。
在一些实施例中,服务器可以先把待检测网站的网页快照存储至网页快照数据库中,当到达预设的网站检测周期时,再从网页快照数据库中提取待检测网页页面对应的网页快照,以进行待检测网页页面的检测。
在一些实施例中,步骤S110包括:
通过网页驱动工具切换待检测网站的网页页面;当切换后的网页页面加载完成时,通过网页快照插件获取当前网页页面的网页快照,将当前网页页面的网页快照作为待检测网页页面对应的网页快照。
即,本实施例可以每获取一张网页快照就可以直接对该网页进行风险检测,不需要再将网页快照存储至网页快照数据库中。
需要说明的是,由于最终输出给用户浏览的是网页页面,所以我们只要对网页页面进行分析就行,为了更稳定地获取网页页面上的信息,本发明通过生成网页快照的方式获取被检测的页面样本。
S120、对页面快照进行文本及图像提取处理,得到目标待检测文本及目标待检测图像。
一般地,网页快照中包含文本以及图像,本实施例需要分别提取网页快照中的文本以及图像。
在一些实施例中,由于目标待检测图像中也可能包含有文本信息,所以步骤S120包括:根据页面快照中数据的数据类型从页面快照中分别提取第一待检测文本以及目标待检测图像;对目标待检测图像进行文本识别处理,以确定待检测图像中是否存在第二待检测文本;若目标待检测图像中存在第二待检测文本,则根据第一待检测文本以及第二待检测文本生成目标待检测文本。
其中,根据第一待检测文本以及第二待检测文本生成待检测文本,包括:确定第一待检测文本以及第二待检测文本的位置关系;根据位置关系将第二待检测文本加入第一待检测文本中,得到目标待检测文本。
例如,如果第二待检测文本对应的图像位于第一待检测文本上方,则此时,将第二待检测文本放置在第一待检测文本前面,如果在中间,则将第二待检测文本放置在第一待检测文本的中间对应位置等等。
可见,本方案需要将网页页面中的图像文本检测,如果目标待检测图像中包含第二待检测文本,则将结合第一待检测文本以及第二待检测文本进行风险分析,提高后续语义分析的准确性。
S130、将目标待检测文本输入预设的语义分析模型,得到目标待检测文本中各分词的词向量。
其中,该语义分析模型可以为内置NLP算法的深度学习的循环神经网络模型,语义分析模型会根据目标待检测文本中各分词在目标待检测文本中的语义确定各分词的词向量,所以同一分词在文本环境的词向量也不同。
S140、将目标待检测图像输入预设的图像识别网络模型,得到目标待检测图像的图像像素点信息。
本实施例中的图像像素点信息包含目标待检测图像中各像素点的坐标信息以及各像素点的颜色信息。
其中,本实施例中的待检测网页页面可能存在一张或多张目标待检测图像,如果待检测网页页面为纯文本网页页面,此时,目标待检测图像为一张扣空白图像。
由于有些文字形状的图像也可能存在风险,所以无论目标待检测图像是纯文字图像、图文结合图像还是纯事物的图像,本实施例都需要将获取到的目标待检测图像输入预设的图像识别网络模型,以进行图像的风险检测。
其中,该图像识别网络模型可以为三层的卷积神经网络模型,包括输入层-> 卷积层->激活层->池化层->全连接层。首先,通过输入层输入目标待检测图像,然后通过卷积层将目标待检测图像中各个通道像素与对应的参数进行点积相加,再通过激活层中的f(x)=(0,max)函数将经过卷积后的数据激活,然后池化层对数据进行下采样,最后由两个全连接结束前向传播,输出图像像素点信息,其中,损失函数为交叉熵。
S150、根据预设的违规信息数据库、词向量以及图像像素点信息对待检测网页页面进行风险检测,得到风险检测结果。
请参阅图4,在一些实施例中,具体地,步骤S150包括:
S151、检测违规信息数据库中的语料库中是否存在与词向量对应的向量,得到文本检测结果。
本实施例中的违规信息数据库包括涉及风险的分词的语料库以及涉及风险的图像的图像库,该语料库包含有各风险分词的词向量,图像库中包含各风险图像的像素点信息。
如果语料库中存在与词向量对应的向量,则说明该词向量对应的分词存在风险,文本检测结果为存在风险,并输出该涉及风险的分词,若语料库中没有与词向量对应的向量,则说明该词向量对应的分词不存在风险,若目标待检测文本中各分词的词向量与语料库中的向量都不对应,则说明该目标待检测文本不存在风险,此时,文本检测结果为无风险。
S152、检测违规信息数据库中的图像库中是否存在与图像像素点信息对应的像素点信息,得到图像检测结果。
如果图像库中存在与词向量对应的像素点信息,则说明该图像像素点信息对应的图像存在风险,图像检测结果为存在风险,并输出该涉及风险的图像,若图像库中没有与图像像素点信息对应的像素点信息,则说明该图像像素点信息对应的图像不存在风险,此时,图像检测结果为无风险。
S153、根据文本检测结果以及图像检测结果确定待检测网页页面的风险检测结果。
即本实施例中待检测网页页面的风险检测结果结合了文本检测结果以及图像检测结果,在一些实施例中,待检测网页页面的风险检测结果包含文本检测结果以及图像检测结果中涉及风险的分词和/或图像。
在另一些实施例中,待检测网页页面的风险检测结果可以为待检测网页页面的风险等级结果,此时,具体地,步骤S153包括:根据文本检测结果确定网页页面的风险等级,并作为文本风险等级;根据图像检测结果确定网页页面的风险等级,并作为图像风险等级;将文本风险等级以及图像风险等级中风险等级最高的结果确定为待检测网页页面的风险检测结果。
具体地,确定文本检测结果中涉及风险的分词,然后根据预设的分词与风险等级的对应关系确定该分词的风险等级(即文本风险等级),如果根据文本检测结果得到网页页面中不存在涉及风险的分词,则此时,文本风险等级的风险级别为0(即无风险);确定图像检测结果中涉及风险的图像,然后根据预设的图像与风险等级的对应关系确定该图像的风险等级(即图像风险等级),最后将文本风险等级以及图像风险等级中风险等级最高的等级结果确定为待检测网页页面的风险检测结果,例如,待检测网页页面的风险级别为中级。
在一些实施例中,当本方案的执行主体为服务器时,得到风险检测结果之后,将该风险检测结果发送至风险提醒终端,通过该风险提醒终端提醒用户网页存在的风险;在另一些实施例中,当本方案的执行主体为终端时,此时,直接通过该终端将网页的风险检测结果展示出来,其中,展示方式可以为弹窗展示,声音提醒等,具体展示方式此处不做限定。
在一些实施例中,当得到待检测网站中各网页页面的检测结果之后,将综合各网页的检测结果确定待检测网站的检测结果。
在一些实施例中,对于不同级别的风险,服务器将发出不同的警报,例如,无风险检测结果用绿色表示,低级风险用黄色表示,中级风险用褐色表示,高级风险用红色表示。
在一些实施例中,若存在网页页面中存在服务器不能判别的文本或图像,则在检测结果中将一并输出该不能判别的文本或图像给管理员,管理员人工判断该文本或图像是否存在风险,若存在风险,管理员还应为该文本或图像设置风险等级并将该文本或图像更新至违规信息数据库中,系统可以通过不断学习,不断完善系统的智能程度。
本方案自动获取待检测网站中的所有网页页面对应的页面快照,然后通过页面快照对待检测网站中的所有网页页面进行风险检测,无需人工操作,可以降低风险规避不完全的风险,提升风险规避的规避能力,并且检测效率高。
在一些实施例中,本方案可以应用在金融行业对应的网站及APP的网页内容合规自查,结合科技赋能,填补了金融行业自动化合规监管的空白,是一大创举。并且本发明能高效的完成金融企业合规风险的自查,节省企业人力成本,同时能全面覆盖监测场景,提升企业合规风险规避能力。能有效的解决人工监查过程中因主观能动性造成的监测不到位,场景不完全,以及对监管规定认识不充分的潜在风险。高效低成本的解决金融企业合规风险监测问题,同时在做更多合规训练以及补充语料库的前提下,该方案也可应用在其它行业合规监测。
综上所述,本实施例可以获取待检测网页页面对应的网页快照;对页面快照进行文本及图像提取处理,得到目标待检测文本及目标待检测图像;将目标待检测文本输入预设的语义分析模型,得到目标待检测文本中各分词的词向量;将目标待检测图像输入预设的图像识别网络模型,得到目标待检测图像的图像像素点信息;根据预设的违规信息数据库、词向量以及图像像素点信息对待检测网页页面进行风险检测,得到风险检测结果。本发明实施例可以自动获取待检测页面的网页快照,然后结合网页中的文本以及图像进行网页风险检测,可以降低网页风险规避不完全的风险,提高网页风险检测的精度。
需要说明的是,本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
图5是本发明实施例提供的一种网页的风险检测装置的示意性框图。如图5 所示,对应于以上网页的风险检测方法,本发明还提供一种网页的风险检测装置。该网页的风险检测装置包括用于执行上述网页的风险检测方法的单元,该装置可以被配置于台式电脑、平板电脑、手提电脑、等终端中。具体地,请参阅图5,该网页的风险检测装置包括获取单元501、提取单元502、第一输入单元503、第二输入单元504以及检测单元505。
获取单元501,用于获取待检测网页页面对应的网页快照;
提取单元502,用于对所述页面快照进行文本及图像提取处理,得到目标待检测文本及目标待检测图像;
第一输入单元503,用于将所述目标待检测文本输入预设的语义分析模型,得到所述目标待检测文本中各分词的词向量;
第二输入单元504,用于将所述目标待检测图像输入预设的图像识别网络模型,得到所述目标待检测图像的图像像素点信息;
检测单元505,用于根据预设的违规信息数据库、所述词向量以及所述图像像素点信息对所述待检测网页页面进行风险检测,得到风险检测结果。
在一些实施例中,所述提取单元502具体用于:
根据所述页面快照中数据的数据类型从所述页面快照中分别提取第一待检测文本以及所述目标待检测图像;
对所述目标待检测图像进行文本识别处理,以确定所述待检测图像中是否存在第二待检测文本;
若所述目标待检测图像中存在第二待检测文本,则根据所述第一待检测文本以及所述第二待检测文本生成所述目标待检测文本。
在一些实施例中,所述提取单元502进一步具体用于:
确定所述第一待检测文本以及所述第二待检测文本的位置关系;
根据所述位置关系将所述第二待检测文本加入所述第一待检测文本中,得到所述目标待检测文本。
在一些实施例中,所述检测单元505具体用于:
检测所述违规信息数据库中的语料库中是否存在与所述词向量对应的向量,得到文本检测结果;
检测所述违规信息数据库中的图像库中是否存在与所述图像像素点信息对应的像素点信息,得到图像检测结果;
根据所述文本检测结果以及所述图像检测结果确定所述待检测网页页面的风险检测结果。
在一些实施例中,所述检测单元505进一步具体用于:
根据所述文本检测结果确定所述网页页面的风险等级,并作为文本风险等级;
根据所述图像检测结果确定所述网页页面的风险等级,并作为图像风险等级;
将所述文本风险等级以及所述图像风险等级中风险等级最高的结果确定为所述待检测网页页面的风险检测结果。
在一些实施例中,所述获取单元501具体用于:
登录待检测网站;
通过预设的网页驱动工具以及预设的网页快照插件获取所述待检测网站所有网页页面的网页快照;
将所述网页快照存储至网页快照数据库中;
从所述网页快照数据库中获取所述待检测网页页面对应的网页快照,所述待检测网页页面为所述待检测网站中需要进行风险检测的网页页面。
在一些实施例中,所述获取单元501进一步具体用于:
通过所述网页驱动工具切换所述待检测网站的网页页面;
当切换后的网页页面加载完成时,通过所述网页快照插件获取当前网页页面的网页快照;
判断所述待检测网站的网页页面是否访问完全;
若所述待检测网站的网页页面未访问完全,则返回执行通过所述网页驱动工具切换所述待检测网站的网页页面步骤。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述网页的风险检测装置和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述网页的风险检测装置可以实现为一种计算机程序的形式,该计算机程序可以在如图6所示的计算机设备上运行。
请参阅图6,图6是本发明实施例提供的一种计算机设备的示意性框图。该计算机设备600可以是终端,也可以是服务器,其中,终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等具有通信功能的电子设备。服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图6,该计算机设备600包括通过系统总线601连接的处理器602、存储器和网络接口605,其中,存储器可以包括非易失性存储介质603和内存储器 604。
该非易失性存储介质603可存储操作系统6031和计算机程序6032。该计算机程序6032包括程序指令,该程序指令被执行时,可使得处理器602执行一种网页的风险检测方法。
该处理器602用于提供计算和控制能力,以支撑整个计算机设备600的运行。
该内存储器604为非易失性存储介质603中的计算机程序6032的运行提供环境,该计算机程序6032被处理器602执行时,可使得处理器602执行一种网页的风险检测方法。
该网络接口605用于与其它设备进行网络通信。本领域技术人员可以理解,图6中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备600的限定,具体的计算机设备600可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器602用于运行存储在存储器中的计算机程序6032,以实现如下步骤:
1、一种网页的风险检测方法,其特征在于,包括:
获取待检测网页页面对应的网页快照;
对所述页面快照进行文本及图像提取处理,得到目标待检测文本及目标待检测图像;
将所述目标待检测文本输入预设的语义分析模型,得到所述目标待检测文本中各分词的词向量;
将所述目标待检测图像输入预设的图像识别网络模型,得到所述目标待检测图像的图像像素点信息;
根据预设的违规信息数据库、所述词向量以及所述图像像素点信息对所述待检测网页页面进行风险检测,得到风险检测结果。
在一些实施例中,处理器602在实现所述对所述页面快照进行文本及图像提取处理,得到目标待检测文本及目标待检测图像步骤时,具体实现如下步骤:
根据所述页面快照中数据的数据类型从所述页面快照中分别提取第一待检测文本以及所述目标待检测图像;
对所述目标待检测图像进行文本识别处理,以确定所述待检测图像中是否存在第二待检测文本;
若所述目标待检测图像中存在第二待检测文本,则根据所述第一待检测文本以及所述第二待检测文本生成所述目标待检测文本。
在一些实施例中,处理器602在实现所述根据所述第一待检测文本以及所述第二待检测文本生成所述待检测文本步骤时,具体实现如下步骤:
确定所述第一待检测文本以及所述第二待检测文本的位置关系;
根据所述位置关系将所述第二待检测文本加入所述第一待检测文本中,得到所述目标待检测文本。
在一些实施例中,处理器602在实现所述根据预设的违规信息数据库、所述词向量以及所述图像像素点信息对所述待检测网页页面进行风险检测,得到风险检测结果步骤时,具体实现如下步骤:
检测所述违规信息数据库中的语料库中是否存在与所述词向量对应的向量,得到文本检测结果;
检测所述违规信息数据库中的图像库中是否存在与所述图像像素点信息对应的像素点信息,得到图像检测结果;
根据所述文本检测结果以及所述图像检测结果确定所述待检测网页页面的风险检测结果。
在一些实施例中,处理器602在实现所述根据所述文本检测结果以及所述图像检测结果确定所述待检测网页页面的风险检测结果步骤时,具体实现如下步骤:
根据所述文本检测结果确定所述网页页面的风险等级,并作为文本风险等级;
根据所述图像检测结果确定所述网页页面的风险等级,并作为图像风险等级;
将所述文本风险等级以及所述图像风险等级中风险等级最高的结果确定为所述待检测网页页面的风险检测结果。
在一些实施例中,处理器602在实现所述获取待检测网页页面对应的网页快照步骤时,具体实现如下步骤:
登录待检测网站;
通过预设的网页驱动工具以及预设的网页快照插件获取所述待检测网站所有网页页面的网页快照;
将所述网页快照存储至网页快照数据库中;
从所述网页快照数据库中获取所述待检测网页页面对应的网页快照,所述待检测网页页面为所述待检测网站中需要进行风险检测的网页页面。
在一些实施例中,处理器602在实现所述通过预设的网页驱动工具以及预设的网页快照插件获取所述待检测网站所有网页页面的网页快照步骤时,具体实现如下步骤:
通过所述网页驱动工具切换所述待检测网站的网页页面;
当切换后的网页页面加载完成时,通过所述网页快照插件获取当前网页页面的网页快照;
判断所述待检测网站的网页页面是否访问完全;
若所述待检测网站的网页页面未访问完全,则返回执行通过所述网页驱动工具切换所述待检测网站的网页页面步骤。
应当理解,在本发明实施例中,处理器602可以是中央处理单元(CentralProcessing Unit,CPU),该处理器602还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(APPlication Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序,其中计算机程序包括程序指令。该程序指令被处理器执行时使处理器执行如下步骤:
获取待检测网页页面对应的网页快照;
对所述页面快照进行文本及图像提取处理,得到目标待检测文本及目标待检测图像;
将所述目标待检测文本输入预设的语义分析模型,得到所述目标待检测文本中各分词的词向量;
将所述目标待检测图像输入预设的图像识别网络模型,得到所述目标待检测图像的图像像素点信息;
根据预设的违规信息数据库、所述词向量以及所述图像像素点信息对所述待检测网页页面进行风险检测,得到风险检测结果。
在一些实施例中,所述处理器在执行所述程序指令而实现所述对所述页面快照进行文本及图像提取处理,得到目标待检测文本及目标待检测图像步骤时,具体实现如下步骤:
根据所述页面快照中数据的数据类型从所述页面快照中分别提取第一待检测文本以及所述目标待检测图像;
对所述目标待检测图像进行文本识别处理,以确定所述待检测图像中是否存在第二待检测文本;
若所述目标待检测图像中存在第二待检测文本,则根据所述第一待检测文本以及所述第二待检测文本生成所述目标待检测文本。
在一些实施例中,所述处理器在执行所述程序指令而实现所述根据所述第一待检测文本以及所述第二待检测文本生成所述待检测文本步骤时,具体实现如下步骤:
确定所述第一待检测文本以及所述第二待检测文本的位置关系;
根据所述位置关系将所述第二待检测文本加入所述第一待检测文本中,得到所述目标待检测文本。
在一些实施例中,所述处理器在执行所述程序指令而实现所述根据预设的违规信息数据库、所述词向量以及所述图像像素点信息对所述待检测网页页面进行风险检测,得到风险检测结果步骤时,具体实现如下步骤:
检测所述违规信息数据库中的语料库中是否存在与所述词向量对应的向量,得到文本检测结果;
检测所述违规信息数据库中的图像库中是否存在与所述图像像素点信息对应的像素点信息,得到图像检测结果;
根据所述文本检测结果以及所述图像检测结果确定所述待检测网页页面的风险检测结果。
在一些实施例中,所述处理器在执行所述程序指令而实现所述根据所述文本检测结果以及所述图像检测结果确定所述待检测网页页面的风险检测结果步骤时,具体实现如下步骤:
根据所述文本检测结果确定所述网页页面的风险等级,并作为文本风险等级;
根据所述图像检测结果确定所述网页页面的风险等级,并作为图像风险等级;
将所述文本风险等级以及所述图像风险等级中风险等级最高的结果确定为所述待检测网页页面的风险检测结果。
在一些实施例中,所述处理器在执行所述程序指令而实现所述获取待检测网页页面对应的网页快照步骤时,具体实现如下步骤:
登录待检测网站;
通过预设的网页驱动工具以及预设的网页快照插件获取所述待检测网站所有网页页面的网页快照;
将所述网页快照存储至网页快照数据库中;
从所述网页快照数据库中获取所述待检测网页页面对应的网页快照,所述待检测网页页面为所述待检测网站中需要进行风险检测的网页页面。
在一些实施例中,所述处理器在执行所述程序指令而实现所述通过预设的网页驱动工具以及预设的网页快照插件获取所述待检测网站所有网页页面的网页快照步骤时,具体实现如下步骤:
通过所述网页驱动工具切换所述待检测网站的网页页面;
当切换后的网页页面加载完成时,通过所述网页快照插件获取当前网页页面的网页快照;
判断所述待检测网站的网页页面是否访问完全;
若所述待检测网站的网页页面未访问完全,则返回执行通过所述网页驱动工具切换所述待检测网站的网页页面步骤。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory, ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等) 执行本发明各个实施例所述方法的全部或部分步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种网页的风险检测方法,其特征在于,包括:
获取待检测网页页面对应的网页快照;
对所述页面快照进行文本及图像提取处理,得到目标待检测文本及目标待检测图像;
将所述目标待检测文本输入预设的语义分析模型,得到所述目标待检测文本中各分词的词向量;
将所述目标待检测图像输入预设的图像识别网络模型,得到所述目标待检测图像的图像像素点信息;
根据预设的违规信息数据库、所述词向量以及所述图像像素点信息对所述待检测网页页面进行风险检测,得到风险检测结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述页面快照进行文本及图像提取处理,得到目标待检测文本及目标待检测图像,包括:
根据所述页面快照中数据的数据类型从所述页面快照中分别提取第一待检测文本以及所述目标待检测图像;
对所述目标待检测图像进行文本识别处理,以确定所述待检测图像中是否存在第二待检测文本;
若所述目标待检测图像中存在第二待检测文本,则根据所述第一待检测文本以及所述第二待检测文本生成所述目标待检测文本。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一待检测文本以及所述第二待检测文本生成所述待检测文本,包括:
确定所述第一待检测文本以及所述第二待检测文本的位置关系;
根据所述位置关系将所述第二待检测文本加入所述第一待检测文本中,得到所述目标待检测文本。
4.根据权利要求1所述的方法,其特征在于,所述根据预设的违规信息数据库、所述词向量以及所述图像像素点信息对所述待检测网页页面进行风险检测,得到风险检测结果,包括:
检测所述违规信息数据库中的语料库中是否存在与所述词向量对应的向量,得到文本检测结果;
检测所述违规信息数据库中的图像库中是否存在与所述图像像素点信息对应的像素点信息,得到图像检测结果;
根据所述文本检测结果以及所述图像检测结果确定所述待检测网页页面的风险检测结果。
5.根据权利要求4所述的方法,其特征在于,所述根据所述文本检测结果以及所述图像检测结果确定所述待检测网页页面的风险检测结果,包括:
根据所述文本检测结果确定所述网页页面的风险等级,并作为文本风险等级;
根据所述图像检测结果确定所述网页页面的风险等级,并作为图像风险等级;
将所述文本风险等级以及所述图像风险等级中风险等级最高的结果确定为所述待检测网页页面的风险检测结果。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述获取待检测网页页面对应的网页快照,包括:
登录待检测网站;
通过预设的网页驱动工具以及预设的网页快照插件获取所述待检测网站所有网页页面的网页快照;
将所述网页快照存储至网页快照数据库中;
从所述网页快照数据库中获取所述待检测网页页面对应的网页快照,所述待检测网页页面为所述待检测网站中需要进行风险检测的网页页面。
7.根据权利要求6所述的方法,其特征在于,所述通过预设的网页驱动工具以及预设的网页快照插件获取所述待检测网站所有网页页面的网页快照,包括:
通过所述网页驱动工具切换所述待检测网站的网页页面;
当切换后的网页页面加载完成时,通过所述网页快照插件获取当前网页页面的网页快照;
判断所述待检测网站的网页页面是否访问完全;
若所述待检测网站的网页页面未访问完全,则返回执行通过所述网页驱动工具切换所述待检测网站的网页页面步骤。
8.一种网页的风险检测装置,其特征在于,包括:
获取单元,用于获取待检测网页页面对应的网页快照;
提取单元,用于对所述页面快照进行文本及图像提取处理,得到目标待检测文本及目标待检测图像;
第一输入单元,用于将所述目标待检测文本输入预设的语义分析模型,得到所述目标待检测文本中各分词的词向量;
第二输入单元,用于将所述目标待检测图像输入预设的图像识别网络模型,得到所述目标待检测图像的图像像素点信息;
检测单元,用于根据预设的违规信息数据库、所述词向量以及所述图像像素点信息对所述待检测网页页面进行风险检测,得到风险检测结果。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时可实现如权利要求1-7中任一项所述的方法。
CN202111060010.0A 2021-09-10 2021-09-10 网页的风险检测方法、装置、计算机设备及存储介质 Pending CN113779356A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111060010.0A CN113779356A (zh) 2021-09-10 2021-09-10 网页的风险检测方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111060010.0A CN113779356A (zh) 2021-09-10 2021-09-10 网页的风险检测方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN113779356A true CN113779356A (zh) 2021-12-10

Family

ID=78842333

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111060010.0A Pending CN113779356A (zh) 2021-09-10 2021-09-10 网页的风险检测方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113779356A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115766293A (zh) * 2023-01-04 2023-03-07 北京微步在线科技有限公司 一种风险文件检测方法、装置、电子设备及存储介质
CN116049597A (zh) * 2023-01-10 2023-05-02 北京百度网讯科技有限公司 网页的多任务模型的预训练方法、装置及电子设备
CN117033742A (zh) * 2023-08-18 2023-11-10 广东轻工职业技术学院 基于人工智能的数据安全获取方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115766293A (zh) * 2023-01-04 2023-03-07 北京微步在线科技有限公司 一种风险文件检测方法、装置、电子设备及存储介质
CN115766293B (zh) * 2023-01-04 2023-04-18 北京微步在线科技有限公司 一种风险文件检测方法、装置、电子设备及存储介质
CN116049597A (zh) * 2023-01-10 2023-05-02 北京百度网讯科技有限公司 网页的多任务模型的预训练方法、装置及电子设备
CN116049597B (zh) * 2023-01-10 2024-04-19 北京百度网讯科技有限公司 网页的多任务模型的预训练方法、装置及电子设备
CN117033742A (zh) * 2023-08-18 2023-11-10 广东轻工职业技术学院 基于人工智能的数据安全获取方法
CN117033742B (zh) * 2023-08-18 2024-02-20 广东轻工职业技术学院 基于人工智能的数据安全获取方法

Similar Documents

Publication Publication Date Title
CN112434721B (zh) 一种基于小样本学习的图像分类方法、系统、存储介质及终端
US11163991B2 (en) Method and apparatus for detecting body
CN108595583B (zh) 动态图表类页面数据爬取方法、装置、终端及存储介质
CN113779356A (zh) 网页的风险检测方法、装置、计算机设备及存储介质
US11120305B2 (en) Learning of detection model using loss function
EP2806374A1 (en) Method and system for automatic selection of one or more image processing algorithm
US20140350916A1 (en) Techniques for performing language detection and translation for multi-language content feeds
CN113656582B (zh) 神经网络模型的训练方法、图像检索方法、设备和介质
US11669990B2 (en) Object area measurement method, electronic device and storage medium
CN112749758A (zh) 图像处理方法、神经网络的训练方法、装置、设备和介质
GB2576659A (en) Entity model establishment
CN111242083A (zh) 基于人工智能的文本处理方法、装置、设备、介质
CN111832396B (zh) 文档布局的解析方法、装置、电子设备和存储介质
CN107766316B (zh) 评价数据的分析方法、装置及系统
CN113256583A (zh) 图像质量检测方法及装置、计算机设备和介质
CN113836303A (zh) 一种文本类别识别方法、装置、计算机设备及介质
CN112988557A (zh) 一种搜索框定位方法、数据采集方法、装置及介质
JP2022185143A (ja) テキスト検出方法、テキスト認識方法及び装置
CN116680401A (zh) 文档处理方法、文档处理装置、设备及存储介质
CN112784189A (zh) 一种识别页面图像的方法和装置
CN115130041A (zh) 网页质量评估方法、神经网络的训练方法、装置和设备
US20210286709A1 (en) Screen test apparatus and computer readable medium
CN115132324A (zh) 心理健康预测方法和装置、电子设备、存储介质
CN113988915A (zh) 用于定位产品客群的方法及装置、电子设备、存储介质
CN115017922A (zh) 图片翻译的方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination