CN112508627B - 广告地址确定方法、装置、设备以及存储介质 - Google Patents
广告地址确定方法、装置、设备以及存储介质 Download PDFInfo
- Publication number
- CN112508627B CN112508627B CN202011522221.7A CN202011522221A CN112508627B CN 112508627 B CN112508627 B CN 112508627B CN 202011522221 A CN202011522221 A CN 202011522221A CN 112508627 B CN112508627 B CN 112508627B
- Authority
- CN
- China
- Prior art keywords
- picture
- advertisement
- screenshot
- determining
- webpage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0276—Advertisement creation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
- G06F16/9577—Optimising the visualization of content, e.g. distillation of HTML documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/986—Document structures and storage, e.g. HTML extensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0277—Online advertisement
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Finance (AREA)
- Databases & Information Systems (AREA)
- Strategic Management (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Information Transfer Between Computers (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种广告地址确定方法、装置、设备以及存储介质,网络安全领域。其中,广告地址确定方法包括:获取目标网页的超文本标记语言HTML数据以及至少一张网页截图;从至少一张所述网页截图中截取出待识别图片;对所述待识别图片进行光学字符识别,以获得所述待识别图片中的文本信息;将所述文本信息中具有预设关键词的待识别图片作为目标图片;从所述HTML数据中确定与所述目标图片对应的代码段,并基于所述代码段确定广告落地页地址。本发明提供的广告地址确定方法具有通用性,可对不同编写逻辑的网页确定出该网页包含的广告地址。
Description
技术领域
本发明涉及网络安全领域,特别涉及一种广告地址确定方法、装置、设备以及存储介质。
背景技术
互联网广告随着互联网的普及而得到大力发展,也就需要对各个网站媒体页上的广告进行识别,以监测该网站推送的广告是否符合相关法律法规。
但是目前的通过解析网页的超文本标记语言HTML数据进行广告地址识别的方法不能对网页编写逻辑不同的网页进行识别,即广告地址确定方法不具有通用性。
发明内容
本发明的主要目的是提供一种广告地址确定方法、装置、设备以及存储介质,旨在解决现有技术中广告识别方法不具有通用性的技术问题。
为实现上述目的,本发明提出的一种广告地址确定方法,包括:
获取目标网页的超文本标记语言HTML数据以及至少一张网页截图;
从至少一张所述网页截图中截取出待识别图片;
对所述待识别图片进行光学字符识别,以获得所述待识别图片中的文本信息;
将所述文本信息中具有预设关键词的待识别图片作为目标图片;
从所述HTML数据中确定与所述目标图片对应的代码段,并基于所述代码段确定广告落地页地址。
可选的,所述获取目标网页的超文本标记语言HTML数据以及至少一张网页截图的步骤之后,所述方法还包括:
从所述HTML数据中提取出多张图片;
所述从至少一张所述网页截图中截取出待识别图片的步骤,包括:
从至少一张所述网页截图中截取出与所述图片相对应的至少一张待识别图片。
可选的,从至少一张所述网页截图中截取出与所述图片相对应的至少一张待识别图片的步骤之前,所述方法还包括:
根据任一张所述图片,确定任一张所述图片对应的截取框;
从至少一张所述网页截图中截取出与所述图片相对应的至少一张待识别图片的步骤,包括:
基于所述截取框,从至少一张所述网页截图确定与任一张所述图片相对应的至少一个框选区域;
截取所述至少一个框选区域,得到任一张所述图片对应的至少一张待识别图片。
可选的,所述对所述待识别图片进行光学字符识别,以获得所述待识别图片中的文本信息的步骤之前,所述方法还包括:
识别出所述图片与所述图片相对应的所述待识别图片的不同区域;
所述对所述待识别图片进行光学字符识别,以获得所述待识别图片中的文本信息的步骤,包括:
对所述不同区域中的显示图像进行光学字符识别,以获得所述不同区域中的文本信息。
可选的,所述从所述HTML数据中确定与所述目标图片对应的代码段,并基于所述代码段确定广告落地页地址的步骤之后,所述方法还包括:
基于所述广告落地页地址,获得广告落地页网站截图与广告主体。
可选的,所述基于所述广告落地页地址,获得广告落地页网站截图与广告主体的步骤之后,所述方法还包括:
从多个所述广告落地页网站截图与广告主体中识别出违法广告。
可选的,所述从多个所述广告落地页网站截图与广告主体中识别出违法广告的步骤之后,所述方法还包括:
基于所述目标图片、广告落地页链接、广告主体与落地页网站截图,构建违法广告证据表。
可选的,所述获取目标网页的超文本数据与至少一张网页截图,包括:
获取目标网页的超文本标记语言HTML数据以及至少一个用户终端截取的至少一张网页截图。
可选的,所述预设关键词包括推荐或广告。
此外,为了实现上述目的,一种广告地址确定装置,包括:
数据获取模块,用于获取目标网页的超文本标记语言HTML数据以及至少一张网页截图;
图片截取模块,用于从至少一张所述网页截图中截取出待识别图片;
字符识别模块,用于对所述待识别图片进行光学字符识别,以获得所述待识别图片中的文本信息;
目标确定模块,用于将所述文本信息中具有预设关键词的待识别图片作为目标图片;
广告确定模块,从所述HTML数据中确定与所述目标图片对应的代码段,并基于所述代码段确定广告落地页地址。
可选的,所述图片截取模块还用于从所述HTML数据中提取出多张图片;从至少一张所述网页截图中截取出与所述图片相对应的至少一张待识别图片。
可选的,图片截取模块还用于根据任一张所述图片,确定任一张所述图片对应的截取框;基于所述截取框,从至少一张所述网页截图确定与任一张所述图片相对应的至少一个框选区域;截取所述至少一个框选区域,得到任一张所述图片对应的至少一张待识别图片。
可选的,所述字符识别模块还用于识别出所述图片与所述图片相对应的所述待识别图片的不同区域;对所述不同区域中的显示图像进行光学字符识别,以获得所述不同区域中的文本信息。
可选的,还包括:
广告搜索模块,用于基于所述广告落地页地址,获得广告落地页网站截图与广告主体。
可选的,所述广告搜索模块还用于从多个所述广告落地页网站截图与广告主体中识别出违法广告。
可选的,所述广告搜索模块还用于基于所述目标图片、广告落地页链接、广告主体与落地页网站截图,构建目标网页广告证据表。
可选的,所述数据获取模块具体用于获取目标网页的超文本标记语言HTML数据以及至少一个用户终端截取的至少一张网页截图。
可选的,所述目标确定模块中所述预设关键词包括推荐或广告。
此外,本发明实施例还提供了一种广告地址确定设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的广告地址确定程序,所述广告地址确定程序配置为广告地址确定方法的步骤。
此外,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有广告地址确定程序,所述广告地址确定程序被处理器执行时实现广告地址确定方法的步骤。
本发明技术方案提供的广告地址确定方法中,本广告地址确定方法通过对目标网站的至少一张网页截图来表达用户打开目标网页时的所看到的显示界面,利用网页截图中待识别图片上带有的预设关键字判断出作为广告使用的目标图片,进而从超文本标记语言HTML数据中确定与目标图片对应的代码段,以及该代码段具有的广告落地页地址。本发明可以从不同编写逻辑的网站网页中确定出广告落地页链接,也即是本广告地址确定方法具有通用性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明广告地址确定设备一实施例的硬件结构示意图;
图2为本发明广告地址确定方法第一实施例的流程示意图;
图3为本发明一实施例的网页截图的示意图;
图4为本发明广告地址确定方法第二实施例的流程示意图;
图5为本发明另一实施例的网页截图与图片的示意图;
图6为本发明广告地址确定方法第三实施例的程示意图;
图7为本发明广告地址确定方法第四实施例的程示意图;
图8为本发明广告地址确定装置第一实施例的程示意图;
图9为本发明广告地址确定装置第二实施例的程示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
近年来,随着互联网的普及,网民和使用时长都处于高速发展阶段,互联网广告也随之兴起,在各个PC端媒体网站,存在大量的各式各样广告。互联网媒体广告中充斥着大量违规违法广告,对网民造成的不良影响。但是媒体和页面会比较多,数据量巨大,对相关部门的人工监管造成了巨大挑战。现有技术,可通过jsoup分析抓取到的pc端网页html数据,但是由于不同的网页的代码使用不同的编写逻辑编写而成,因此需要对固定的的媒体网页写固定的分析代码,不具有通用性,开发效率较低。
为了解决这一问题,提出本发明的广告地址确定方法的各个实施例。由于网站网页在推动广告时,在显示界面上显示区域必然具有广告标记或者推广标记,因此,本发明提供的广告地址确定方法利用网页截图中待识别图片上带有的预设关键字判断出作为广告使用的目标图片,进而从超文本标记语言HTML数据中确定与目标图片对应的代码段,以及该代码段具有的广告落地页地址。本发明可以从不同编写逻辑的网站网页中确定出广告落地页链接,也即是本广告地址确定方法具有通用性。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的广告地址确定方法的推荐设备结构示意图。
设备可以是移动电话、智能电话、笔记本电脑、数字广播接收器、个人数字助理(PDA)、平板电脑(PAD)等用户设备(User Equipment,UE)、手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备、移动台(Mobile station,MS)等。设备可能被称为用户终端、便携式终端、台式终端等。
通常,设备包括:至少一个处理器301、存储器302以及存储在所述存储器上并可在所述处理器上运行的广告地址确定程序,所述广告地址确定程序配置为实现广告地址确定方法的步骤。
处理器301可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器301可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器301也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(CentralProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器301可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。处理器301还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关广告地址确定操作,使得广告地址确定模型可以自主训练学习,提高效率和准确度。
存储器302可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器302还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器302中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器301所执行以实现本申请中方法实施例提供的广告地址确定方法。
在一些实施例中,设备还可选包括有:通信接口303和至少一个外围设备。处理器301、存储器302和通信接口303之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与通信接口303相连。具体地,外围设备包括:射频电路304、显示屏305和电源306中的至少一种。
通信接口303可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器301和存储器302。通信接口303通过外围设备用于接收多个目标网页的至少一张网页截图以及超文本标记语言HTML数据。在一些实施例中,处理器301、存储器302和通信接口303被集成在同一芯片或电路板上;在一些其他实施例中,处理器301、存储器302和通信接口303中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路304用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路304通过电磁信号与通信网络以及其他通信设备进行通信,用于接收多个目标网页的至少一张网页截图以及超文本标记语言HTML数据。射频电路304将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路304包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路304可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路304还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏305用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏305是触摸显示屏时,显示屏305还具有采集在显示屏305的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器301进行处理。此时,显示屏305还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏305可以为一个,电子设备的前面板;在另一些实施例中,显示屏305可以为至少两个,分别设置在电子设备的不同表面或呈折叠设计;在再一些实施例中,显示屏305可以是柔性显示屏,设置在电子设备的弯曲表面上或折叠面上。甚至,显示屏305还可以设置成非矩形的不规则图形,也即异形屏。显示屏305可以采用LCD(LiquidCrystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
电源306用于为电子设备中的各个组件进行供电。电源306可以是交流电、直流电、一次性电池或可充电电池。当电源306包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
本领域技术人员可以理解,图1中示出的结构并不构成对广告地址确定设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明实施例提供了一种广告地址确定方法,参照图2,图2为本发明广告地址确定方法的第一实施例的流程示意图。
本实施例中,广告地址确定方法包括以下步骤:
步骤S101、获取目标网页的超文本标记语言HTML数据以及至少一张网页截图。
其中,目标网页可以是用于在PC端或者平板上浏览的任一网页,该网页上除了展示的主要信息外,在目标网页的两侧,或者目标网页的底部,乃至于目标网页的展示的主要信息之间具有广告位,用户点击该广告为可访问该广告链接的网站。且该广告位显示的图片上均具有“广告”字样、“推广”字样、或者“推荐”字样。
网页截图可以是任一PC端或者平板打开该目标网页时显示出来的界面。值得一提的是,本步骤中,网页截图可以是多个PC端设备或者平板设备等浏览该目标网页时在显示屏幕上展示的界面。多个PC端设备或者平板设备具有不同的地址,且具有不同的浏览历史,从而可兼顾到目标网页界面中的基于大数据推广而对不同用户显示不同广告内容的广告位。且同一PC端设备或者平板设备还可在浏览过程中截取多张图片,例如包括在刚打开时截图,还可在向下拖动目标网页的滚动条一定距离后截图,或者打开网页一定时间后再截图,甚至于将目标网页滚动至网页底部再截图,以使得目标网页中的广告位均被网页截图获取。避免出现某一些网页的广告位需要满足一定条件时才触发显示的广告位被忽略掉。
步骤S102、从至少一张所述网页截图中截取出待识别图片。
由于网页截图包括有该网页本身需要展示的主要信息,一般是在网页截图的中央。且主要信息中一般包括图片、文本等数据。而广告位一般均展示为图片。因此可从所有网页截图中截取出包括的图片内容。
值得一提的是,PC端网页在展示时,图片一般为各种尺寸的矩形。因此截取中可通过框选出包括有图片类型的矩形显示区域,该矩形显示区域的面积大于或者等于识别出的图片,然后通过截取矩形显示区域获得待识别图片。
步骤S103、对所述待识别图片进行光学字符识别,以获得所述待识别图片中的文本信息。
步骤S104、将所述文本信息中具有预设关键词的待识别图片作为目标图片。
由于广告位上显示的图片一般均具有相应的均具有“广告”字样、“推广”字样、或者“推荐”字样。因此,可对从网页截面上截取的待识别图片进行光学字符识别,例如OCR(optical character recognition)光学字符识别,获得其中的文字信息,然后将具有预设关键词:广告、推广或者推荐等词的待识别图片作为目标图片。即从网页截面中的多张图像显示区域中确定出广告位,并将该待识别图片作为目标图片。
步骤S105、从所述HTML数据中确定与所述目标图片对应的代码段,并基于所述代码段确定广告落地页地址。
在确定了网页截图的广告位之后,即可从所述HTML数据中确定与所述目标图片对应的代码段,并基于所述代码段确定广告落地页地址。
例如,参阅图3,对于目标网页A,其网页截面上可识别出的图像显示区域包括B和C,然后将B和C截取出来作为待识别图片。对待识别图片B和C进行OCR光学字符识别,其中待识别图片B识别出的内容为“实验”以及“比例”,而待识别图片C识别出的内容为“美容”、“皮肤”以及“广告Q”。因此,可将待识别图片C确定为目标图片,即待识别图片C对应的显示区域在目标网页上是作为广告位存在的。在确定了目标网页的广告位的位置以及该广告位显示的图像之后,即可从所述HTML数据中确定与所述目标图片对应的代码段,并基于所述代码段确定广告落地页地址。
本实施例中,广告地址确定方法通过对目标网站的至少一张网页截图来表达用户打开目标网页时的所看到的显示界面,利用网页截图中待识别图片上带有的预设关键字判断出作为广告使用的目标图片,进而从超文本标记语言HTML数据中确定与目标图片对应的代码段,以及该代码段具有的广告落地页地址。由于不同编写逻辑的网站网页在显示界面上展示网页时,为了合规都需要在广告位的图像上附加“广告”字样、“推广”字样、或者“推荐”字样,本发明通过网页截图中的预设关键字广告”字样、“推广”字样、或者“推荐”来确定广告位,可以从不同编写逻辑的网站网页中确定出广告落地页链接,也即是本广告地址确定方法具有通用性。
为了便于理解,参阅图4,图4为本发明广告地址确定方法的第二实施例的流程示意图。本实施例中,广告地址确定方法包括以下步骤:
步骤S201、获取目标网页的超文本标记语言HTML数据以及至少一张网页截图。
步骤S202、从所述HTML数据中提取出多张图片。
步骤S203、从至少一张所述网页截图中截取出与所述图片相对应的至少一张待识别图片。
由于直接从网页截图中识别出图片的准确率较低,为了提高处理速率,本实施例中,可直接从所述HTML数据中解析或者提取出该目标网页包括的多张图片以及该图片具有的统一资源定位符。然后在从至少一张所述网页截图中识别出与任一张图片相匹配的显示区域,再将该显示区域截取出来作为带识别图片。
步骤S204、对所述待识别图片进行光学字符识别,以获得所述待识别图片中的文本信息。
步骤S205、将所述文本信息中具有预设关键词的待识别图片作为目标图片。
步骤S206、从所述HTML数据中确定与所述目标图片对应的代码段,并基于所述代码段确定广告落地页地址。
由于目标图片对应的图片已经从HTML数据中解析出来,即可快速找到该部分代码,从而确定广告落地页地址。
例如,参阅图5,对于目标网页A,目标网页A的HTML数据中提取出多张图片B1、C1以及D1,然后将图片B1、C1以及D1在网页截图进行匹配,从网页截图识别出与图片B1、C1以及D1对应的显示区域,并将识别出来的显示区域截取出来作为待识别图片待识别图片B2、C2和D2,对待识别图片B2、C2和D2进行OCR光学字符识别,其中待识别图片B2识别出的文本信息包括“实验”以及“比例”,待识别图片D2识别出文本信息包括有“样本”以及“2019”,而待识别图片C2识别出的文本信息为“美容”、“皮肤”以及“广告Q”。因此,可将待识别图片C2确定为目标图片,即待识别图片C2对应的显示区域在目标网页上是作为广告位存在的。在确定了目标网页的广告位的位置以及该广告位显示的图像之后,即可从所述HTML数据中确定与所述目标图片对应的代码段,并基于所述代码段确定广告落地页地址。
本实施例中,通过从包括有目标网页的所有信息的HTML数据中提取出多张图片,然后基于图片从网页截图中匹配识别出对应的显示区域,并将其截取出来作为待识别图片使用,从而可提高待识别图片截取的准确性以及快捷性,进而提高本实施例的广告地址确定的准确性。
进一步的,本实施例中,步骤S203之前还包括:根据任一张所述图片,确定任一张所述图片对应的截取框。
此时,步骤S203适应性变为:
(1)基于所述截取框,从至少一张所述网页截图确定与任一张所述图片相对应的至少一个框选区域;
(2)截取所述至少一个框选区域,得到任一张所述图片对应的至少一张待识别图片。
本实施例中,由于网页截图中的各张图片以及广告位一般具有与背景相同的背景色,此时网页截图上与图片相匹配的为部分图像,其他背景区域难以识别。因此,为了提高识别时候的准确度,可根据任一张所述图片,确定任一张所述图片对应的截取框,该截取框为一矩形框,矩形框的长宽均大于或者等于图片的长宽。且每一张图片具有各自的对应的截取框。然后基于该截取框来从至少一张所述网页截图确定与任一张所述图片相对应的至少一个框选区域。通过截取框截取,从将背景也包括在内,从而避免遗漏数据。
值得一提的是,可从每一张网页截图里面均截取对应的框选区域。或者,在其中某一些网页截图中不存在相匹配的框选区域,此时可忽略掉该一些网页截图。截图至少一个框选区域即得到任一张所述图片对应的至少一张待识别图片。
进一步的,为了便于理解,参阅图6,图6为本发明广告地址确定方法的第三实施例的流程示意图。本实施例中,广告地址确定方法包括以下步骤:
步骤S301、获取目标网页的超文本标记语言HTML数据以及至少一张网页截图。
步骤S302、从所述HTML数据中提取出多张图片。
步骤S303、从至少一张所述网页截图中截取出与所述图片相对应的至少一张待识别图片。
步骤S304、识别出所述图片与所述图片相对应的所述待识别图片的不同区域。
步骤S305、对所述不同区域中的显示图像进行光学字符识别,以获得所述不同区域中的文本信息。
步骤S306、将所述文本信息中具有预设关键词的待识别图片作为目标图片。
步骤S307、从所述HTML数据中确定与所述目标图片对应的代码段,并基于所述代码段确定广告落地页地址。
参阅图3和图5,由于广告位的预设关键词:广告、推荐或者推广在网页截图中表现为位于图片的右上角或者右下角添加的矩形标记区域,且具有相应的背景色,例如,白色背景色且该白色背景色覆盖了图片本身的颜色。网页截图中与图片相匹配的区域部分与图片一致。为了提高光学字符识别的效率,避免对图片中的主体部分进行无效识别。
本实施例中,通过截取框在网页截图中截取出待识别图片,将待识别图片与从HTML数据中解析出来的图片相比较,可确定出两者的不同区域。一般的为截取框的右上角或者右下角的“广告Q”字样,该字样具有白色背景样式,直接对该不同区域的显示图像进行光学字符识别,即可获得广告Q,从而可将其判断为广告位。
相较于对网页截图中的待识别图片的整体进行光学字符识别,本实施例通过对图片以及待识别图片的不同部分进行识别,可明显降低识别的计算量,进而提高效率。
进一步的,为了便于理解,参阅图7,图7为本发明广告地址确定方法的第三实施例的流程示意图。本实施例中,广告地址确定方法包括以下步骤:
步骤S401、获取目标网页的超文本标记语言HTML数据以及至少一张网页截图。
步骤S402、从至少一张所述网页截图中截取出待识别图片。
步骤S403、对所述待识别图片进行光学字符识别,以获得所述待识别图片中的文本信息。
步骤S404、将所述文本信息中具有预设关键词的待识别图片作为目标图片。
步骤S405、从所述HTML数据中确定与所述目标图片对应的代码段,并基于所述代码段确定广告落地页地址。
步骤S406、基于所述广告落地页地址,获得广告落地页网站截图与广告主体。
根据目标图片HTML数据中解析出来相应的广告落地页地址后,可通过相应的设备访问广告落地页网站,进而获得广告落地页网站截图与广告主体。
步骤S407、从多个所述广告落地页网站截图与广告主体中识别出违法广告。
此时,由于设备已经访问了广告落地页网站,即可识别出该广告落地页网站是否为违法网站,例如是否为赌博网站、涉黄网站等非法网站,从而将确定该广告落地页地址为违法广告。同时也可识别出合法合规的广告落地页地址,例如某购物商城的推广广告,或者某合法合规游戏的推广广告。
步骤S408、基于所述目标图片、广告落地页链接、广告主体与落地页网站截图,构建违法广告证据表。
本实施例中,为了在确定出违法广告后,为了便于向执法部门举报,此时即可将基于所述目标图片、广告落地页链接、广告主体与落地页网站截图构建违法广告证据表,形成完成的违法线索。
参照图8,图8为本发明广告地址确定装置第一实施例的结构框图。
如图所示,本发明实施例提出的广告地址确定装置包括:
数据获取模块10,用于获取目标网页的超文本标记语言HTML数据以及至少一张网页截图;
图片截取模块20,用于从至少一张所述网页截图中截取出待识别图片;
字符识别模块30,用于对所述待识别图片进行光学字符识别,以获得所述待识别图片中的文本信息;
目标确定模块40,用于将所述文本信息中具有预设关键词的待识别图片作为目标图片;
广告确定模块50,从所述HTML数据中确定与所述目标图片对应的代码段,并基于所述代码段确定广告落地页地址。
本实施例中,广告地址确定装置通过对目标网站的至少一张网页截图来表达用户打开目标网页时的所看到的显示界面,利用网页截图中待识别图片上带有的预设关键字判断出作为广告使用的目标图片,进而从超文本标记语言HTML数据中确定与目标图片对应的代码段,以及该代码段具有的广告落地页地址。由于不同编写逻辑的网站网页在显示界面上展示网页时,为了合规都需要在广告位的图像上附加“广告”字样、“推广”字样、或者“推荐”字样,本发明的广告地址确定装置通过网页截图中的预设关键字广告”字样、“推广”字样、或者“推荐”来确定广告位,可以从不同编写逻辑的网站网页中确定出广告落地页链接,也即是本广告地址确定方法具有通用性。
作为一种实施例方式,所述图片截取模块20还用于从所述HTML数据中提取出多张图片;从至少一张所述网页截图中截取出与所述图片相对应的至少一张待识别图片。
作为一种实施例方式,图片截取模块20还用于根据任一张所述图片,确定任一张所述图片对应的截取框;基于所述截取框,从至少一张所述网页截图确定与任一张所述图片相对应的至少一个框选区域;截取所述至少一个框选区域,得到任一张所述图片对应的至少一张待识别图片。
作为一种实施例方式,所述字符识别模块30还用于识别出所述图片与所述图片相对应的所述待识别图片的不同区域;对所述不同区域中的显示图像进行光学字符识别,以获得所述不同区域中的文本信息。
基于本发明上述广告地址确定装置第一实施例,提出本发明广告地址确定装置的第二实施例。参阅图9,图9为本发明广告地址确定装置第一实施例的结构框图。
本广告地址确定装置还包括:
广告搜索模块60,用于基于所述广告落地页地址,获得广告落地页网站截图与广告主体。
作为一种实施例方式,所述广告搜索模块还用于从多个所述广告落地页网站截图与广告主体中识别出违法广告。
作为一种实施例方式,所述广告搜索模块还用于基于所述目标图片、广告落地页链接、广告主体与落地页网站截图,构建目标网页广告证据表。
作为一种实施例方式,所述数据获取模块还用于获取目标网页的超文本标记语言HTML数据以及至少一个用户终端截取的至少一张网页截图。
本发明广告地址确定程序装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有广告地址确定程序,所述广告地址确定程序被处理器执行时实现如上文所述的广告地址确定程序方法的步骤。因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。确定为示例,程序指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本发明而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘、U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
Claims (20)
1.一种广告地址确定方法,其特征在于,包括:
获取目标网页的超文本标记语言HTML数据以及至少一张网页截图;
从至少一张所述网页截图中截取出待识别图片;
对所述待识别图片进行光学字符识别,以获得所述待识别图片中的文本信息;
将所述文本信息中具有预设关键词的待识别图片作为目标图片;
从所述HTML数据中确定与所述目标图片对应的代码段,并基于所述代码段确定广告落地页地址。
2.根据权利要求1所述的广告地址确定方法,其特征在于,所述获取目标网页的超文本标记语言HTML数据以及至少一张网页截图的步骤之后,所述方法还包括:
从所述HTML数据中提取出多张图片;
所述从至少一张所述网页截图中截取出待识别图片的步骤,包括:
从至少一张所述网页截图中截取出与所述图片相对应的至少一张待识别图片。
3.根据权利要求2所述的广告地址确定方法,其特征在于,从至少一张所述网页截图中截取出与所述图片相对应的至少一张待识别图片的步骤之前,所述方法还包括:
根据任一张所述图片,确定任一张所述图片对应的截取框;
从至少一张所述网页截图中截取出与所述图片相对应的至少一张待识别图片的步骤,包括:
基于所述截取框,从至少一张所述网页截图确定与任一张所述图片相对应的至少一个框选区域;
截取所述至少一个框选区域,得到任一张所述图片对应的至少一张待识别图片。
4.根据权利要求1所述的广告地址确定方法,其特征在于,所述对所述待识别图片进行光学字符识别,以获得所述待识别图片中的文本信息的步骤之前,所述方法还包括:
识别出所述图片与所述图片相对应的所述待识别图片的不同区域;
所述对所述待识别图片进行光学字符识别,以获得所述待识别图片中的文本信息的步骤,包括:
对所述不同区域中的显示图像进行光学字符识别,以获得所述不同区域中的文本信息。
5.根据权利要求1至4任一项所述的广告地址确定方法,其特征在于,所述从所述HTML数据中确定与所述目标图片对应的代码段,并基于所述代码段确定广告落地页地址的步骤之后,所述方法还包括:
基于所述广告落地页地址,获得广告落地页网站截图与广告主体。
6.根据权利要求5所述的广告地址确定方法,其特征在于,所述基于所述广告落地页地址,获得广告落地页网站截图与广告主体的步骤之后,所述方法还包括:
从多个所述广告落地页网站截图与广告主体中识别出违法广告。
7.根据权利要求6所述的广告地址确定方法,其特征在于,所述从多个所述广告落地页网站截图与广告主体中识别出违法广告的步骤之后,所述方法还包括:
基于所述目标图片、广告落地页链接、广告主体与落地页网站截图,构建违法广告证据表。
8.根据权利要求1所述的广告地址确定方法,其特征在于,所述获取目标网页的超文本数据与至少一张网页截图,包括:
获取目标网页的超文本标记语言HTML数据以及至少一个用户终端截取的至少一张网页截图。
9.根据权利要求1所述的广告地址确定方法,其特征在于,所述预设关键词包括推荐或广告。
10.一种广告地址确定装置,其特征在于,包括:
数据获取模块,用于获取目标网页的超文本标记语言HTML数据以及至少一张网页截图;
图片截取模块,用于从至少一张所述网页截图中截取出待识别图片;
字符识别模块,用于对所述待识别图片进行光学字符识别,以获得所述待识别图片中的文本信息;
目标确定模块,用于将所述文本信息中具有预设关键词的待识别图片作为目标图片;
广告确定模块,从所述HTML数据中确定与所述目标图片对应的代码段,并基于所述代码段确定广告落地页地址。
11.根据权利要求10的广告地址确定装置,其特征在于,所述图片截取模块还用于从所述HTML数据中提取出多张图片;从至少一张所述网页截图中截取出与所述图片相对应的至少一张待识别图片。
12.根据权利要求11所述的广告地址确定装置,其特征在于,图片截取模块还用于根据任一张所述图片,确定任一张所述图片对应的截取框;基于所述截取框,从至少一张所述网页截图确定与任一张所述图片相对应的至少一个框选区域;截取所述至少一个框选区域,得到任一张所述图片对应的至少一张待识别图片。
13.根据权利要求12所述的广告地址确定装置,其特征在于,所述字符识别模块还用于识别出所述图片与所述图片相对应的所述待识别图片的不同区域;对所述不同区域中的显示图像进行光学字符识别,以获得所述不同区域中的文本信息。
14.根据权利要求10至13任一项所述的广告地址确定装置,其特征在于,还包括:
广告搜索模块,用于基于所述广告落地页地址,获得广告落地页网站截图与广告主体。
15.根据权利要求14所述的广告地址确定装置,其特征在于,所述广告搜索模块还用于从多个所述广告落地页网站截图与广告主体中识别出违法广告。
16.根据权利要求14所述的广告地址确定装置,其特征在于,所述广告搜索模块还用于基于所述目标图片、广告落地页链接、广告主体与落地页网站截图,构建目标网页广告证据表。
17.根据权利要求10所述的广告地址确定装置,其特征在于,所述数据获取模块具体用于获取目标网页的超文本标记语言HTML数据以及至少一个用户终端截取的至少一张网页截图。
18.根据权利要求10所述的广告地址确定装置,其特征在于,所述目标确定模块中所述预设关键词包括推荐或广告。
19.一种广告地址确定设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的广告地址确定程序,所述广告地址确定程序配置为实现如权利要求1至9中任一项所述的广告地址确定方法的步骤。
20.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有广告地址确定程序,所述广告地址确定程序被处理器执行时实现如权利要求1至9任一项所述的广告地址确定方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011522221.7A CN112508627B (zh) | 2020-12-21 | 2020-12-21 | 广告地址确定方法、装置、设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011522221.7A CN112508627B (zh) | 2020-12-21 | 2020-12-21 | 广告地址确定方法、装置、设备以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112508627A CN112508627A (zh) | 2021-03-16 |
CN112508627B true CN112508627B (zh) | 2022-11-04 |
Family
ID=74922889
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011522221.7A Active CN112508627B (zh) | 2020-12-21 | 2020-12-21 | 广告地址确定方法、装置、设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112508627B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108628923A (zh) * | 2017-11-28 | 2018-10-09 | 南京莱斯信息技术股份有限公司 | 一种基于互联网大数据的网络违法视频广告识别方法及系统 |
CN110275958A (zh) * | 2019-06-26 | 2019-09-24 | 北京市博汇科技股份有限公司 | 网站信息识别方法、装置和电子设备 |
CN111680233A (zh) * | 2020-06-08 | 2020-09-18 | 北京明略昭辉科技有限公司 | 一种生成落地页网址的方法、装置、存储介质和电子设备 |
-
2020
- 2020-12-21 CN CN202011522221.7A patent/CN112508627B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108628923A (zh) * | 2017-11-28 | 2018-10-09 | 南京莱斯信息技术股份有限公司 | 一种基于互联网大数据的网络违法视频广告识别方法及系统 |
CN110275958A (zh) * | 2019-06-26 | 2019-09-24 | 北京市博汇科技股份有限公司 | 网站信息识别方法、装置和电子设备 |
CN111680233A (zh) * | 2020-06-08 | 2020-09-18 | 北京明略昭辉科技有限公司 | 一种生成落地页网址的方法、装置、存储介质和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112508627A (zh) | 2021-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11449857B2 (en) | Code scanning method, code scanning device and mobile terminal | |
CN109614482B (zh) | 标签的处理方法、装置、电子设备及存储介质 | |
CN105867751B (zh) | 操作信息处理方法和装置 | |
US9934206B2 (en) | Method and apparatus for extracting web page content | |
WO2020117656A1 (en) | Comment information displaying method, device, electronic device, and computer readable medium | |
WO2017084452A1 (zh) | 图形界面中标签页的处理方法和装置 | |
CN105404458B (zh) | 网页内容更新方法及装置 | |
CN103246678A (zh) | 一种网页内容预览方法和装置 | |
CN108804469B (zh) | 一种网页识别方法以及电子设备 | |
CN103870508B (zh) | 一种网页缩放方法、装置和系统 | |
CN112099704A (zh) | 信息显示方法、装置、电子设备和可读存储介质 | |
CN103870799A (zh) | 字符方向判断方法及装置 | |
CN112910925B (zh) | 域名检测方法、模型训练方法及装置、设备、存储介质 | |
EP2887203A1 (en) | Method, apparatus and terminal device for adaption of page | |
CN111787154A (zh) | 一种信息处理方法及电子设备 | |
JP2019505911A (ja) | 世論に対するpr活動の実施方法、システム、ユーザ端末及びコンピュータ読取り可能な記憶媒体 | |
CN105095253A (zh) | 网页显示方法及装置 | |
CN112508627B (zh) | 广告地址确定方法、装置、设备以及存储介质 | |
WO2020124454A1 (zh) | 字体切换方法及相关产品 | |
CN113946456A (zh) | 信息分享方法和信息分享装置 | |
CN104978181B (zh) | 一种页面显示方法、终端和装置 | |
CN113239302A (zh) | 页面显示方法、装置及电子设备 | |
CN107741942B (zh) | 一种网页内容提取方法及装置 | |
CN113360038A (zh) | 应用功能查找方法、装置及电子设备 | |
CN113919852A (zh) | 产品侵权判定方法、装置、终端设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |