CN110765740B - 一种基于dom树的全类型文本替换方法、系统、装置及存储介质 - Google Patents

一种基于dom树的全类型文本替换方法、系统、装置及存储介质 Download PDF

Info

Publication number
CN110765740B
CN110765740B CN201910963934.8A CN201910963934A CN110765740B CN 110765740 B CN110765740 B CN 110765740B CN 201910963934 A CN201910963934 A CN 201910963934A CN 110765740 B CN110765740 B CN 110765740B
Authority
CN
China
Prior art keywords
picture
website
text
font
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910963934.8A
Other languages
English (en)
Other versions
CN110765740A (zh
Inventor
杜卫红
谢立欧
蒋立民
郑永乐
詹锦州
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Beyebe Network Technology Co ltd
Original Assignee
Shenzhen Beyebe Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Beyebe Network Technology Co ltd filed Critical Shenzhen Beyebe Network Technology Co ltd
Priority to CN201910963934.8A priority Critical patent/CN110765740B/zh
Publication of CN110765740A publication Critical patent/CN110765740A/zh
Application granted granted Critical
Publication of CN110765740B publication Critical patent/CN110765740B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Character Discrimination (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种基于DOM树的全类型文本替换方法、系统、装置及存储介质,该方法包括:扫描网站的DOM树,获取网站的静态文件以及图片,由网站的静态文件中得到字体映射关系文件;将字体文件中每个字体单元进行转换为图片;对字体文件转换后的图片进行图像识别,获取图片内实际的文字,建立网站文字与实际文字的映射关系以及提取网站图片的内容;获取网站内的源码,将源码内的文字根据映射关系转换为实际文字,将网站图片进行预筛选,对网站的数据图片进行文本识别,提取图片内有效信息,从而做到全文本替换。本发明的有益效果是:本发明通过多线程将每个字体转换为图片格式,通过图像识别建立真实文字与源码文字的映射关系,进行大量训练文字识别模型,可以精确地获取网站显示的内容。

Description

一种基于DOM树的全类型文本替换方法、系统、装置及存储 介质
技术领域
本发明涉及网络技术领域,尤其涉及一种基于DOM树的全类型文本替换方法、系统、装置及存储介质。
背景技术
随着科技的进步,网络已成为人们生活和工作的一部分,网站上图片中的文字等内容难于被提取,从而影响了数据的采集,给用户带来了很大的烦恼,亟待解决。
目前,网站通过调用自定义的字体文件来渲染网页中的文字,而网页源码文字是相应的字体编码,通过获取网站源码的手段无法获取真实的数据,同时网站将文字转为图片,同时加设水印等干扰,增加数据采集难度。
发明内容
本发明提供了一种基于DOM树的全类型文本替换方法,包括如下步骤:
步骤1:扫描网站的DOM树,获取网站的静态文件以及图片,由网站的静态文件中得到字体映射关系文件;
步骤2:将字体文件中每个字体单元进行转换为图片;
步骤3:对字体文件转换后的图片进行图像识别,获取图片内实际的文字,建立网站文字与实际文字的映射关系以及提取网站图片的内容;
步骤4:获取网站内的源码,将源码内的文字根据步骤3的映射关系转换为实际文字,将网站图片进行预筛选,过滤网站无用的图片,对网站的数据图片进行文本识别,提取图片内有效信息,从而做到全文本替换。
作为本发明的进一步改进,在所述步骤1中,扫描网站的DOM树,获取网站的静态文件以及图片,由网站的静态文件中得到svg格式的字体映射关系文件;
在所述步骤2中,将字体文件中每个字体单元进行转换为png格式图片。
作为本发明的进一步改进,在所述步骤4中,获取网站内的源码,将源码内的文字根据步骤3的映射关系转换为实际文字,将网站图片进行预筛选,通过图像模糊搜索过滤网站无用的图片,对网站的数据图片进行文本识别,提取图片内有效信息,从而做到全文本替换;
在所述步骤3中,通过对字体文件转换后的图片进行预处理,利用深度学习识别出图像文件对应字体库的文字,获取相似度最高的文字,再进行多轮学习优化,从而获取图片内实际的文字,建立网站文字与实际文字的映射关系以及提取网站图片的内容;
在所述步骤4中,对网站的数据图片进行文本识别,提取图片内有效信息的实现方式为:对网站图片进行预处理,通过对网站的图片进行文本识别,当该图片内文字与图片大小之比超过设定阈值,那么判断该图片为数据图片,通过对数据图片进行预处理,去除存在的无关元素,对数据图片的文字进行分析,若该文字透明度与平均文字透明度之比超过设定阈值,那么判断该文字是非重要文字,过滤掉该文字。
作为本发明的进一步改进,该全类型文本替换方法还包括步骤5:设置定时器,定时执行步骤1;
在所述步骤1中,将静态文件和字体映射关系文件传输保存至OSS服务器;
在所述步骤3中,所述无关元素包括水印以及干扰线条;
在所述步骤3中,对字体文件转换后的图片的预处理包括对图像文字进行提取文字区域、灰度化、降噪、二值化、字符切分以及归一化处理;
在所述步骤4中,对网站图片的预处理包括:
步骤4.1:对文字图片进行图像颜色融合,将彩色图片变成灰度图,在文字图片的RGB模型中,根据相关性及其它指标,将R、G、B三个分量以不同的权值进行加权平均;
步骤4.2:利用OTSU最大类间方差法进行平滑图像;
步骤4.3:对图像进行降维处理,消除图像的上的噪声;
步骤4.4:字体进行倾斜矫正;
步骤4.5:对黏连字体进行切割,对断字进行拼接;
步骤4.5的实现方式为:对字符图像送入卷积网络提取特征值,得到n个向量,然后把n个向量送入到LSTM网络中;得到m维向量,通过一个优化的softmax函数来计算对应位置字体;优化的函数是指在softmax函数后乘以一个滤波器Ω。
本发明还公开了一种基于DOM树的全类型文本替换系统,包括:
扫描模块:用于扫描网站的DOM树,获取网站的静态文件以及图片,由网站的静态文件中得到字体映射关系文件;
转换模块:用于将字体文件中每个字体单元进行转换为图片;
识别模块:用于对字体文件转换后的图片进行图像识别,获取图片内实际的文字,建立网站文字与实际文字的映射关系以及提取网站图片的内容;
处理模块:用于获取网站内的源码,将源码内的文字根据识别模块的映射关系转换为实际文字,将网站图片进行预筛选,过滤网站无用的图片,对网站的数据图片进行文本识别,提取图片内有效信息,从而做到全文本替换。
作为本发明的进一步改进,在所述扫描模块中,扫描网站的DOM树,获取网站的静态文件以及图片,由网站的静态文件中得到svg格式的字体映射关系文件;
在所述转换模块中,将字体文件中每个字体单元进行转换为png格式图片。
作为本发明的进一步改进,在所述处理模块中,获取网站内的源码,将源码内的文字根据识别模块的映射关系转换为实际文字,将网站图片进行预筛选,通过图像模糊搜索过滤网站无用的图片,对网站的数据图片进行文本识别,提取图片内有效信息,从而做到全文本替换;
在所述识别模块中,通过对字体文件转换后的图片进行预处理,利用深度学习识别出图像文件对应字体库的文字,获取相似度最高的文字,再进行多轮学习优化,从而获取图片内实际的文字,建立网站文字与实际文字的映射关系以及提取网站图片的内容;
在所述处理模块中,对网站的数据图片进行文本识别,提取图片内有效信息的实现方式为:对网站图片进行预处理,通过对网站的图片进行文本识别,当该图片内文字与图片大小之比超过设定阈值,那么判断该图片为数据图片,通过对数据图片进行预处理,去除存在的无关元素,对数据图片的文字进行分析,若该文字透明度与平均文字透明度之比超过设定阈值,那么判断该文字是非重要文字,过滤掉该文字。
作为本发明的进一步改进,该全类型文本替换系统还包括定时模块:用于设置定时器,定时执行扫描模块1;
将所述扫描模块中的静态文件和字体映射关系文件传输保存至OSS服务器;
在所述识别模块中,所述无关元素包括水印以及干扰线条;
在所述识别模块中,对字体文件转换后的图片的预处理包括对图像文字进行提取文字区域、灰度化、降噪、二值化、字符切分以及归一化处理;
在所述处理模块中,通过第一处理模块至第五处理模块对网站图片的预处理,
第一处理模块:用于对文字图片进行图像颜色融合,将彩色图片变成灰度图,在文字图片的RGB模型中,根据相关性及其它指标,将R、G、B三个分量以不同的权值进行加权平均;
第二处理模块:用于利用OTSU最大类间方差法进行平滑图像;
第三处理模块:用于对图像进行降维处理,消除图像的上的噪声;
第四处理模块:用于字体进行倾斜矫正;
第五处理模块:用于对黏连字体进行切割,对断字进行拼接;
其中,第五处理模块的实现方式为:对字符图像送入卷积网络提取特征值,得到n个向量,然后把n个向量送入到LSTM网络中;得到m维向量,通过一个优化的softmax函数来计算对应位置字体;优化的函数是指在softmax函数后乘以一个滤波器Ω。
本发明还提供了一种基于DOM树的全类型文本替换装置,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现本发明所述的全类型文本替换方法的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现本发明所述的全类型文本替换方法的步骤。
本发明的有益效果是:本发明通过多线程将每个字体转换为图片格式,通过图像识别建立真实文字与源码文字的映射关系,进行大量训练文字识别模型,可以精确地获取网站显示的内容,同时本发明建立的定时器可以保持对网站的字体文件进行更新,从而维持本发明的高健壮性与高可复用性。
附图说明
图1是本发明的方法流程图;
图2是本发明的系统架构图。
具体实施方式
如图1所示,本发明公开了一种基于DOM树的全类型文本替换方法,包括如下步骤:
步骤1:扫描网站的DOM树,获取网站的静态文件以及图片,由网站的静态文件中得到字体映射关系文件;
步骤2:将字体文件中每个字体单元进行转换为图片;
步骤3:对字体文件转换后的图片进行图像识别,获取图片内实际的文字,建立网站文字与实际文字的映射关系以及提取网站图片的内容;
步骤4:获取网站内的源码,将源码内的文字根据步骤3的映射关系转换为实际文字,将网站图片进行预筛选,过滤网站无用的图片,对网站的数据图片进行文本识别,提取图片内有效信息,从而做到全文本替换。通过图像模糊搜索技术,对网站的图片进行筛选,筛选出含有网站数据的图片,利用图像识别技术,剔除网站的水印等干扰信息,提取图片的文字以及其他有用信息。
本发明的全类型文本替换是指将页面显示的的内容转换为统一格式的文本,包括但不限于图片以及表格等显示形式。同时本发明基于DOM树的全类型文本替换方法也适用于移动端的APP,对其页面进行相同的步骤,从而获得统一编码格式文本内容。
在所述步骤1中,扫描网站的DOM树,获取网站的静态文件以及图片,由网站的静态文件中得到svg格式的字体映射关系文件;
在所述步骤2中,将字体文件中每个字体单元进行转换为png格式图片。
在所述步骤4中,获取网站内的源码,将源码内的文字根据步骤3的映射关系转换为实际文字,将网站图片进行预筛选,通过图像模糊搜索过滤网站无用的图片,对网站的数据图片进行文本识别,提取图片内有效信息,从而做到全文本替换。
在所述步骤3中,通过对字体文件转换后的图片进行预处理,利用深度学习识别出图像文件对应字体库的文字,获取相似度最高的文字,再进行多轮学习优化,从而获取图片内实际的文字,建立网站文字与实际文字的映射关系以及提取网站图片的内容;
在所述步骤4中,对网站的数据图片进行文本识别,提取图片内有效信息的实现方式为:对网站图片进行预处理,通过对网站的图片进行文本识别,当该图片内文字与图片大小之比超过设定阈值,那么判断该图片为数据图片,通过对数据图片进行预处理,去除存在的无关元素,对数据图片的文字进行分析,若该文字透明度与平均文字透明度之比超过设定阈值,那么判断该文字是非重要文字,过滤掉该文字。
该全类型文本替换方法还包括:步骤5:设置定时器,定时执行步骤1,从而定时获取网站的静态文件,一旦网站更新字体文件,系统将重新更新字体映射关系,保持系统高度可用性。
本发明还具有如下特点:
1.通过多线程的运行方式,满足本系统的TPS以及并发需求,同时还能加快对图像的文本替换,提高本系统的运行效率。
2.通过RabbitMQ对需要识别的图像文件进行分发,利用Keepalived与Haproxy搭建高可用的分布式架构,这样可以极大地降低运算时间。
在所述步骤1中,将静态文件和字体映射关系文件传输保存至OSS服务器,通过OSS服务器保存每天生成的字体映射文件,通过对静态文件获取后保存到OSS服务器,减少对网站的访问压力,同时提高文本替换的速度。
本发明对于字体映射文件的文字识别与图像的文字识别所经过的预处理逻辑是不同的,一般来说网站字体映射文件内的文字是工整的,而图像内的文字是有许多带有干扰线而且文字也是不工整的,所以需要对图像文字进行提取文字区域、灰度化、降噪、二值化、字符切分以及归一化这些子步骤,才能进行识别。
在所述步骤3中,所述无关元素包括水印以及干扰线条;
在所述步骤3中,对字体文件转换后的图片的预处理包括对图像文字进行提取文字区域、灰度化、降噪、二值化、字符切分以及归一化处理;
在所述步骤4中,对网站图片的预处理包括:
步骤4.1:对文字图片进行图像颜色融合,将彩色图片变成灰度图。在文字图片的RGB模型中,根据相关性及其它指标,将R(red)、G(green)、B(blue)三个分量以不同的权值进行加权平均。
步骤4.2:利用OTSU最大类间方差法进行平滑图像。
步骤4.3:对图像进行降维处理,消除图像的上的噪声。
步骤4.4:字体进行倾斜矫正。
步骤4.5:对黏连字体进行切割,对断字进行拼接。
步骤4.5的实现方式为:对字符图像送入卷积网络提取特征值,得到n个向量,然后把n个向量送入到LSTM网络中。得到m维向量,通过一个优化的softmax函数(称为sm-Ω)来计算对应位置字体。优化的函数是指在softmax函数后乘以一个滤波器Ω。Ω为了应对softmax函数在接近0和接近1时精度不佳的问题。在图片处理的场景中,使用线性权值会使得精度误差高概率分布于0和1的两侧。因此利用非线性权重来提高sm-Ω函数的精度,使得精度误差均匀的分布在概率区间,从而提高模型的置信度。
本发明基于核数较少的CPU进行了协程优化,在CPU使用量过高的若干场景下,本发明性能可以依旧保持原有的性能。
本发明还进行了对文字识别进行深度学习,建立起可以应对不同字体字形的模型,通过适应面广,字体数全面的模型可以进行高精度的文字识别。
本发明通过对DOM树的扫描,获取文本信息以及图片,将图片通过图片文字识别技术,过滤水印以及干扰线条等无关元素,得到网站图片的文字,通过DOM树将网站的图片信息以及文字信息还原为网站的内容。
综上,本发明通过扫描网页的DOM树,将其文字与图片提取出来,利用图像转码技术将网页字体文件传换为可以处理的图像文件,通过图像识别技术获取图片的文字信息,建立图片与字体文件的映射关系,利用这个映射关系去解析网站内的字体,获取到真实的数据,通过定时获取字体文件,通过大量地训练模型识别图像文字,建立高精度的映射关系来解决网站的字体替换。利用Scrapy框架采集数据类网站,获取带有混淆后的字体文件以及图片文件,将svg格式的字体文件转为更易于操作的png图片,对图片进行的图像识别,返回字体文件与识别结果的对应关系,获取网站源码将带有字体混淆的文字通过上述对应关系转换为正确的文本,并将正确的文本与图像识别的结果替换为源码内的文本以及图片。
本发明还公开了一种基于DOM树的全类型文本替换系统,包括:
扫描模块:用于扫描网站的DOM树,获取网站的静态文件以及图片,由网站的静态文件中得到字体映射关系文件;
转换模块:用于将字体文件中每个字体单元进行转换为图片;
识别模块:用于对字体文件转换后的图片进行图像识别,获取图片内实际的文字,建立网站文字与实际文字的映射关系以及提取网站图片的内容;
处理模块:用于获取网站内的源码,将源码内的文字根据识别模块的映射关系转换为实际文字,将网站图片进行预筛选,过滤网站无用的图片,对网站的数据图片进行文本识别,提取图片内有效信息,从而做到全文本替换。
在所述扫描模块中,扫描网站的DOM树,获取网站的静态文件以及图片,由网站的静态文件中得到svg格式的字体映射关系文件;
在所述转换模块中,将字体文件中每个字体单元进行转换为png格式图片。
在所述处理模块中,获取网站内的源码,将源码内的文字根据识别模块的映射关系转换为实际文字,将网站图片进行预筛选,通过图像模糊搜索过滤网站无用的图片,对网站的数据图片进行文本识别,提取图片内有效信息,从而做到全文本替换。通过图像模糊搜索技术,对网站的图片进行筛选,筛选出含有网站数据的图片,利用图像识别技术,剔除网站的水印等干扰信息,提取图片的文字以及其他有用信息。
在所述识别模块中,通过对字体文件转换后的图片进行预处理,利用深度学习识别出图像文件对应字体库的文字,获取相似度最高的文字,再进行多轮学习优化,从而获取图片内实际的文字,建立网站文字与实际文字的映射关系以及提取网站图片的内容;
在所述处理模块中,对网站的数据图片进行文本识别,提取图片内有效信息的实现方式为:对网站图片进行预处理,通过对网站的图片进行文本识别,当该图片内文字与图片大小之比超过设定阈值,那么判断该图片为数据图片,通过对数据图片进行预处理,去除存在的无关元素,对数据图片的文字进行分析,若该文字透明度与平均文字透明度之比超过设定阈值,那么判断该文字是非重要文字,过滤掉该文字。
该全类型文本替换系统还包括:定时模块:用于设置定时器,定时执行扫描模块。
将所述扫描模块中的静态文件和字体映射关系文件传输保存至OSS服务器;
在所述识别模块中,所述无关元素包括水印以及干扰线条;
在所述识别模块中,对字体文件转换后的图片的预处理包括对图像文字进行提取文字区域、灰度化、降噪、二值化、字符切分以及归一化处理;
在所述处理模块中,通过第一处理模块至第五处理模块对网站图片进行预处理。
第一处理模块:对文字图片进行图像颜色融合,将彩色图片变成灰度图。在文字图片的RGB模型中,根据相关性及其它指标,将R(red)、G(green)、B(blue)三个分量以不同的权值进行加权平均。
第二处理模块:利用OTSU最大类间方差法进行平滑图像。
第三处理模块:对图像进行降维处理,消除图像的上的噪声。
第四处理模块:字体进行倾斜矫正。
第五处理模块:对黏连字体进行切割,对断字进行拼接。
第五处理模块的实现方式为:对字符图像送入卷积网络提取特征值,得到n个向量,然后把n个向量送入到LSTM网络中。得到m维向量,通过一个优化的softmax函数(称为sm-Ω)来计算对应位置字体。优化的函数是指在softmax函数后乘以一个滤波器Ω。Ω为了应对softmax函数在接近0和接近1时精度不佳的问题。在图片处理的场景中,使用线性权值会使得精度误差高概率分布于0和1的两侧。因此利用非线性权重来提高sm-Ω函数的精度,使得精度误差均匀的分布在概率区间,从而提高模型的置信度。
本发明通过网站的字体文件和图片建立起一套即时性高效性的替换系统,将网站返回的文本替换为网站显示的文本,将网站的图片转换为提取后的文本,从而实现数据采集的目的。
如图2所示,生产端包括DOM树解析器、SVG图片转换器、图片云存储器等。流程依旧不变,在开始解析网页DOM树后,进行字体文件图片转换,获得图片后存储至云存储系统,将网页正文进行序列化后转换为主消息,将本网页字体图片文件以及图片的链接作为副消息,生产端发布消息,在分布式系统中,利用Keepalived与Haproxy搭建高可用负载均衡环境,每个结点同时处理不同的消息。消费端对消息进行图片文本提取,以及字体图片提取,异步处理后获取主消息ID,将提取的文本信息交由主消息进行文本替换,最终完成网页的全文本替换,并且将此网站模板保存至云存储系统,提高本系统的效率。
本发明还公开了一种基于DOM树的全类型文本替换装置,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现本发明所述的全类型文本替换方法的步骤。
本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现本发明所述的全类型文本替换方法的步骤。
本发明通过多线程将每个字体转换为图片格式,通过图像识别建立真实文字与源码文字的映射关系,进行大量训练文字识别模型,可以精确地获取网站显示的内容,同时本发明建立的定时器可以保持对网站的字体文件进行更新,从而维持本发明的高健壮性与高可复用性。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (8)

1.一种基于DOM树的全类型文本替换方法,其特征在于,包括如下步骤:
步骤1:扫描网站的DOM树,获取网站的静态文件以及图片,由网站的静态文件中得到字体映射关系文件;
步骤2:将字体映射关系文件中每个字体单元进行转换为图片;
步骤3:对字体文件转换后的图片进行图像识别,获取图片内实际的文字,建立源码内的文字与实际文字的映射关系以及提取网站图片的内容;
步骤4:获取网站内的源码,将源码内的文字根据步骤3的映射关系转换为实际文字,将网站图片进行预筛选,过滤网站无用的图片,对网站的数据图片进行文本识别,提取图片内有效信息,从而做到全文本替换;
在所述步骤4中,获取网站内的源码,将源码内的文字根据步骤3的映射关系转换为实际文字,将网站图片进行预筛选,通过图像模糊搜索过滤网站无用的图片,对网站的数据图片进行文本识别,提取图片内有效信息,从而做到全文本替换;
在所述步骤3中,通过对字体文件转换后的图片进行预处理,利用深度学习识别出图像文件对应字体库的文字,获取相似度最高的文字,再进行多轮学习优化,从而获取图片内实际的文字,建立网站文字与实际文字的映射关系以及提取网站图片的内容;
在所述步骤4中,对网站的数据图片进行文本识别,提取图片内有效信息的实现方式为:对网站图片进行预处理,通过对网站的图片进行文本识别,当该图片内文字与图片大小之比超过设定阈值,那么判断该图片为数据图片,通过对数据图片进行预处理,去除存在的无关元素,对数据图片的文字进行分析,若该文字透明度与平均文字透明度之比超过设定阈值,那么判断该文字是非重要文字,过滤掉该文字。
2.根据权利要求1所述的全类型文本替换方法,其特征在于:
在所述步骤1中,扫描网站的DOM树,获取网站的静态文件以及图片,由网站的静态文件中得到svg格式的字体映射关系文件;
在所述步骤2中,将字体文件中每个字体单元进行转换为png格式图片。
3.根据权利要求1所述的全类型文本替换方法,其特征在于,该全类型文本替换方法还包括步骤5:设置定时器,定时执行步骤1;
在所述步骤1中,将静态文件和字体映射关系文件传输保存至OSS服务器;
在所述步骤3中,所述无关元素包括水印以及干扰线条;
在所述步骤3中,对字体文件转换后的图片的预处理包括对图像文字进行提取文字区域、灰度化、降噪、二值化、字符切分以及归一化处理;
在所述步骤4中,对网站图片的预处理包括:
步骤4.1:对文字图片进行图像颜色融合,将彩色图片变成灰度图,在文字图片的RGB模型中,根据相关性及其它指标,将R、G、B三个分量以不同的权值进行加权平均;
步骤4.2:利用OTSU最大类间方差法进行平滑图像;
步骤4.3:对图像进行降维处理,消除图像的上的噪声;
步骤4.4:字体进行倾斜矫正;
步骤4.5:对黏连字体进行切割,对断字进行拼接;
步骤4.5的实现方式为:对字符图像送入卷积网络提取特征值,得到n个向量,然后把n个向量送入到LSTM网络中;得到m维向量,通过一个优化的softmax函数来计算对应位置字体;优化的函数是指在softmax函数后乘以一个滤波器Ω。
4.一种基于DOM树的全类型文本替换系统,其特征在于,包括:
扫描模块:用于扫描网站的DOM树,获取网站的静态文件以及图片,由网站的静态文件中得到字体映射关系文件;
转换模块:用于将字体映射关系文件中每个字体单元进行转换为图片;
识别模块:用于对字体文件转换后的图片进行图像识别,获取图片内实际的文字,建立源码内的文字与实际文字的映射关系以及提取网站图片的内容;
处理模块:用于获取网站内的源码,将源码内的文字根据识别模块的映射关系转换为实际文字,将网站图片进行预筛选,过滤网站无用的图片,对网站的数据图片进行文本识别,提取图片内有效信息,从而做到全文本替换;
在所述处理模块中,获取网站内的源码,将源码内的文字根据识别模块的映射关系转换为实际文字,将网站图片进行预筛选,通过图像模糊搜索过滤网站无用的图片,对网站的数据图片进行文本识别,提取图片内有效信息,从而做到全文本替换;
在所述识别模块中,通过对字体文件转换后的图片进行预处理,利用深度学习识别出图像文件对应字体库的文字,获取相似度最高的文字,再进行多轮学习优化,从而获取图片内实际的文字,建立网站文字与实际文字的映射关系以及提取网站图片的内容;
在所述处理模块中,对网站的数据图片进行文本识别,提取图片内有效信息的实现方式为:对网站图片进行预处理,通过对网站的图片进行文本识别,当该图片内文字与图片大小之比超过设定阈值,那么判断该图片为数据图片,通过对数据图片进行预处理,去除存在的无关元素,对数据图片的文字进行分析,若该文字透明度与平均文字透明度之比超过设定阈值,那么判断该文字是非重要文字,过滤掉该文字。
5.根据权利要求4所述的全类型文本替换系统,其特征在于:
在所述扫描模块中,扫描网站的DOM树,获取网站的静态文件以及图片,由网站的静态文件中得到svg格式的字体映射关系文件;
在所述转换模块中,将字体文件中每个字体单元进行转换为png格式图片。
6.根据权利要求4所述的全类型文本替换系统,其特征在于,该全类型文本替换系统还包括定时模块:用于设置定时器,定时执行扫描模块1;
将所述扫描模块中的静态文件和字体映射关系文件传输保存至OSS服务器;
在所述识别模块中,所述无关元素包括水印以及干扰线条;
在所述识别模块中,对字体文件转换后的图片的预处理包括对图像文字进行提取文字区域、灰度化、降噪、二值化、字符切分以及归一化处理;
在所述处理模块中,通过第一处理模块至第五处理模块对网站图片的预处理,
第一处理模块:用于对文字图片进行图像颜色融合,将彩色图片变成灰度图,在文字图片的RGB模型中,根据相关性及其它指标,将R、G、B三个分量以不同的权值进行加权平均;
第二处理模块:用于利用OTSU最大类间方差法进行平滑图像;
第三处理模块:用于对图像进行降维处理,消除图像的上的噪声;
第四处理模块:用于字体进行倾斜矫正;
第五处理模块:用于对黏连字体进行切割,对断字进行拼接;
其中,第五处理模块的实现方式为:对字符图像送入卷积网络提取特征值,得到n个向量,然后把n个向量送入到LSTM网络中;得到m维向量,通过一个优化的softmax函数来计算对应位置字体;优化的函数是指在softmax函数后乘以一个滤波器Ω。
7.一种基于DOM树的全类型文本替换装置,其特征在于,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现权利要求1-3中任一项所述的全类型文本替换方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现权利要求1-3中任一项所述的全类型文本替换方法的步骤。
CN201910963934.8A 2019-10-11 2019-10-11 一种基于dom树的全类型文本替换方法、系统、装置及存储介质 Active CN110765740B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910963934.8A CN110765740B (zh) 2019-10-11 2019-10-11 一种基于dom树的全类型文本替换方法、系统、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910963934.8A CN110765740B (zh) 2019-10-11 2019-10-11 一种基于dom树的全类型文本替换方法、系统、装置及存储介质

Publications (2)

Publication Number Publication Date
CN110765740A CN110765740A (zh) 2020-02-07
CN110765740B true CN110765740B (zh) 2023-08-11

Family

ID=69331675

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910963934.8A Active CN110765740B (zh) 2019-10-11 2019-10-11 一种基于dom树的全类型文本替换方法、系统、装置及存储介质

Country Status (1)

Country Link
CN (1) CN110765740B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111523290B (zh) * 2020-04-09 2023-11-14 杭州趣链科技有限公司 一种代码转换方法、设备和存储介质
CN111539025B (zh) * 2020-05-07 2021-02-26 北京五八信息技术有限公司 一种页面展示方法、装置、电子设备及存储介质
CN111753494A (zh) * 2020-07-06 2020-10-09 浪潮卓数大数据产业发展有限公司 基于selenium的woff字体解密方法及系统
CN114970502B (zh) * 2021-12-29 2023-03-28 中科大数据研究院 一种应用于数字政府的文本纠错方法
CN116467607B (zh) * 2023-03-28 2024-03-01 阿里巴巴(中国)有限公司 信息匹配方法和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101515272A (zh) * 2008-02-18 2009-08-26 株式会社理光 提取网页内容的方法和装置
CN104618390A (zh) * 2015-02-17 2015-05-13 北京趣拿信息技术有限公司 网站数据反馈方法、显示方法及系统、处理系统
CN108073585A (zh) * 2016-11-08 2018-05-25 北京国双科技有限公司 网络字体加载方法、装置和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101515272A (zh) * 2008-02-18 2009-08-26 株式会社理光 提取网页内容的方法和装置
CN104618390A (zh) * 2015-02-17 2015-05-13 北京趣拿信息技术有限公司 网站数据反馈方法、显示方法及系统、处理系统
CN108073585A (zh) * 2016-11-08 2018-05-25 北京国双科技有限公司 网络字体加载方法、装置和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邵振凯 ; .网页信息提取技术.计算机技术与发展.2013,(09),全文. *

Also Published As

Publication number Publication date
CN110765740A (zh) 2020-02-07

Similar Documents

Publication Publication Date Title
CN110765740B (zh) 一种基于dom树的全类型文本替换方法、系统、装置及存储介质
CN114821622B (zh) 文本抽取方法、文本抽取模型训练方法、装置及设备
US20230048075A1 (en) Method and apparatus for processing encoded pattern, storage medium, and electronic apparatus
CN106980856B (zh) 公式识别方法及系统和符号推理计算方法及系统
CN114155546B (zh) 一种图像矫正方法、装置、电子设备和存储介质
CN111144079B (zh) 一种智能获取学习资源的方法、装置、打印机和存储介质
CN114072857A (zh) 识别文档中的键值对
CN110704649B (zh) 一种用于构建流量图像数据集的方法及系统
CN116543404A (zh) 基于单元格坐标优化的表格语义信息抽取方法、系统、设备及介质
CN112434690A (zh) 动态解析文本图像特征现象的元素自动捕获理解方法、系统及存储介质
CN113505780A (zh) 一种基于二维码的智能检测维保的方法和设备
CN111680669A (zh) 一种试题分割方法、系统及可读存储介质
CN114821613A (zh) 一种pdf中表格信息的抽取方法和系统
CN110232328A (zh) 一种征信报告解析方法、装置及计算机可读存储介质
CN113971750A (zh) 银行回单的关键信息提取方法、装置、设备及存储介质
CN111881900B (zh) 语料生成、翻译模型训练、翻译方法、装置、设备及介质
CN111414889A (zh) 基于文字识别的财务报表识别方法及装置
CN115631502A (zh) 文字识别方法、装置、模型训练方法、电子设备及介质
CN113657279B (zh) 一种票据类图像版面解析方法及装置
CN115439850A (zh) 基于审单的图文字符识别方法、装置、设备及存储介质
CN115376137A (zh) 一种光学字符识别处理、文本识别模型训练方法及装置
CN115512340A (zh) 基于图片的意图检测方法及装置
CN114358199A (zh) 轻量级字符识别模型的训练方法、电子设备及存储介质
CN114187435A (zh) 文本识别方法、装置、设备以及存储介质
CN113849622A (zh) 一种民航文档视觉认知问答方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant