CN110765740A

CN110765740A - 一种基于dom树的全类型文本替换方法、系统、装置及存储介质

Info

Publication number: CN110765740A
Application number: CN201910963934.8A
Authority: CN
Inventors: 杜卫红; 谢立欧; 蒋立民; 郑永乐; 詹锦州
Original assignee: SHENZHEN BEYEBE NETWORK TECHNOLOGY Co Ltd
Current assignee: SHENZHEN BEYEBE NETWORK TECHNOLOGY Co Ltd
Priority date: 2019-10-11
Filing date: 2019-10-11
Publication date: 2020-02-07
Anticipated expiration: 2039-10-11
Also published as: CN110765740B

Abstract

本发明提供了一种基于DOM树的全类型文本替换方法、系统、装置及存储介质，该方法包括：扫描网站的DOM树，获取网站的静态文件以及图片，由网站的静态文件中得到字体映射关系文件；将字体文件中每个字体单元进行转换为图片；对字体文件转换后的图片进行图像识别，获取图片内实际的文字，建立网站文字与实际文字的映射关系以及提取网站图片的内容；获取网站内的源码，将源码内的文字根据映射关系转换为实际文字，将网站图片进行预筛选，对网站的数据图片进行文本识别，提取图片内有效信息，从而做到全文本替换。本发明的有益效果是：本发明通过多线程将每个字体转换为图片格式，通过图像识别建立真实文字与源码文字的映射关系，进行大量训练文字识别模型，可以精确地获取网站显示的内容。

Description

一种基于DOM树的全类型文本替换方法、系统、装置及存储介质

技术领域

本发明涉及网络技术领域，尤其涉及一种基于DOM树的全类型文本替换方法、系统、装置及存储介质。

背景技术

随着科技的进步，网络已成为人们生活和工作的一部分，网站上图片中的文字等内容难于被提取，从而影响了数据的采集，给用户带来了很大的烦恼，亟待解决。

目前，网站通过调用自定义的字体文件来渲染网页中的文字，而网页源码文字是相应的字体编码，通过获取网站源码的手段无法获取真实的数据，同时网站将文字转为图片，同时加设水印等干扰，增加数据采集难度。

发明内容

本发明提供了一种基于DOM树的全类型文本替换方法，包括如下步骤：

步骤1：扫描网站的DOM树，获取网站的静态文件以及图片，由网站的静态文件中得到字体映射关系文件；

步骤2：将字体文件中每个字体单元进行转换为图片；

步骤3：对字体文件转换后的图片进行图像识别，获取图片内实际的文字，建立网站文字与实际文字的映射关系以及提取网站图片的内容；

步骤4：获取网站内的源码，将源码内的文字根据步骤3的映射关系转换为实际文字，将网站图片进行预筛选，过滤网站无用的图片，对网站的数据图片进行文本识别，提取图片内有效信息，从而做到全文本替换。

作为本发明的进一步改进，在所述步骤1中，扫描网站的DOM树，获取网站的静态文件以及图片，由网站的静态文件中得到svg格式的字体映射关系文件；

在所述步骤2中，将字体文件中每个字体单元进行转换为png格式图片。

作为本发明的进一步改进，在所述步骤4中，获取网站内的源码，将源码内的文字根据步骤3的映射关系转换为实际文字，将网站图片进行预筛选，通过图像模糊搜索过滤网站无用的图片，对网站的数据图片进行文本识别，提取图片内有效信息，从而做到全文本替换；

在所述步骤3中，通过对字体文件转换后的图片进行预处理，利用深度学习识别出图像文件对应字体库的文字，获取相似度最高的文字，再进行多轮学习优化，从而获取图片内实际的文字，建立网站文字与实际文字的映射关系以及提取网站图片的内容；

在所述步骤4中，对网站的数据图片进行文本识别，提取图片内有效信息的实现方式为：对网站图片进行预处理，通过对网站的图片进行文本识别，当该图片内文字与图片大小之比超过设定阈值，那么判断该图片为数据图片，通过对数据图片进行预处理，去除存在的无关元素，对数据图片的文字进行分析，若该文字透明度与平均文字透明度之比超过设定阈值，那么判断该文字是非重要文字，过滤掉该文字。

作为本发明的进一步改进，该全类型文本替换方法还包括步骤5：设置定时器，定时执行步骤1；

在所述步骤1中，将静态文件和字体映射关系文件传输保存至OSS服务器；

在所述步骤3中，所述无关元素包括水印以及干扰线条；

在所述步骤3中，对字体文件转换后的图片的预处理包括对图像文字进行提取文字区域、灰度化、降噪、二值化、字符切分以及归一化处理；

在所述步骤4中，对网站图片的预处理包括：

步骤4.1：对文字图片进行图像颜色融合，将彩色图片变成灰度图，在文字图片的RGB模型中，根据相关性及其它指标，将R、G、B三个分量以不同的权值进行加权平均；

步骤4.2：利用OTSU最大类间方差法进行平滑图像；

步骤4.3：对图像进行降维处理，消除图像的上的噪声；

步骤4.4：字体进行倾斜矫正；

步骤4.5：对黏连字体进行切割，对断字进行拼接；

步骤4.5的实现方式为：对字符图像送入卷积网络提取特征值，得到n个向量，然后把n个向量送入到LSTM网络中；得到m维向量，通过一个优化的softmax函数来计算对应位置字体；优化的函数是指在softmax函数后乘以一个滤波器Ω。

本发明还公开了一种基于DOM树的全类型文本替换系统，包括：

扫描模块：用于扫描网站的DOM树，获取网站的静态文件以及图片，由网站的静态文件中得到字体映射关系文件；

转换模块：用于将字体文件中每个字体单元进行转换为图片；

识别模块：用于对字体文件转换后的图片进行图像识别，获取图片内实际的文字，建立网站文字与实际文字的映射关系以及提取网站图片的内容；

处理模块：用于获取网站内的源码，将源码内的文字根据识别模块的映射关系转换为实际文字，将网站图片进行预筛选，过滤网站无用的图片，对网站的数据图片进行文本识别，提取图片内有效信息，从而做到全文本替换。

作为本发明的进一步改进，在所述扫描模块中，扫描网站的DOM树，获取网站的静态文件以及图片，由网站的静态文件中得到svg格式的字体映射关系文件；

在所述转换模块中，将字体文件中每个字体单元进行转换为png格式图片。

作为本发明的进一步改进，在所述处理模块中，获取网站内的源码，将源码内的文字根据识别模块的映射关系转换为实际文字，将网站图片进行预筛选，通过图像模糊搜索过滤网站无用的图片，对网站的数据图片进行文本识别，提取图片内有效信息，从而做到全文本替换；

在所述识别模块中，通过对字体文件转换后的图片进行预处理，利用深度学习识别出图像文件对应字体库的文字，获取相似度最高的文字，再进行多轮学习优化，从而获取图片内实际的文字，建立网站文字与实际文字的映射关系以及提取网站图片的内容；

在所述处理模块中，对网站的数据图片进行文本识别，提取图片内有效信息的实现方式为：对网站图片进行预处理，通过对网站的图片进行文本识别，当该图片内文字与图片大小之比超过设定阈值，那么判断该图片为数据图片，通过对数据图片进行预处理，去除存在的无关元素，对数据图片的文字进行分析，若该文字透明度与平均文字透明度之比超过设定阈值，那么判断该文字是非重要文字，过滤掉该文字。

作为本发明的进一步改进，该全类型文本替换系统还包括定时模块：用于设置定时器，定时执行扫描模块1；

将所述扫描模块中的静态文件和字体映射关系文件传输保存至OSS服务器；

在所述识别模块中，所述无关元素包括水印以及干扰线条；

在所述识别模块中，对字体文件转换后的图片的预处理包括对图像文字进行提取文字区域、灰度化、降噪、二值化、字符切分以及归一化处理；

在所述处理模块中，通过第一处理模块至第五处理模块对网站图片的预处理，

第一处理模块：用于对文字图片进行图像颜色融合，将彩色图片变成灰度图，在文字图片的RGB模型中，根据相关性及其它指标，将R、G、B三个分量以不同的权值进行加权平均；

第二处理模块：用于利用OTSU最大类间方差法进行平滑图像；

第三处理模块：用于对图像进行降维处理，消除图像的上的噪声；

第四处理模块：用于字体进行倾斜矫正；

第五处理模块：用于对黏连字体进行切割，对断字进行拼接；

其中，第五处理模块的实现方式为：对字符图像送入卷积网络提取特征值，得到n个向量，然后把n个向量送入到LSTM网络中；得到m维向量，通过一个优化的softmax函数来计算对应位置字体；优化的函数是指在softmax函数后乘以一个滤波器Ω。

本发明还提供了一种基于DOM树的全类型文本替换装置，包括：存储器、处理器以及存储在所述存储器上的计算机程序，所述计算机程序配置为由所述处理器调用时实现本发明所述的全类型文本替换方法的步骤。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序配置为由处理器调用时实现本发明所述的全类型文本替换方法的步骤。

本发明的有益效果是：本发明通过多线程将每个字体转换为图片格式，通过图像识别建立真实文字与源码文字的映射关系，进行大量训练文字识别模型，可以精确地获取网站显示的内容，同时本发明建立的定时器可以保持对网站的字体文件进行更新，从而维持本发明的高健壮性与高可复用性。

附图说明

图1是本发明的方法流程图；

图2是本发明的系统架构图。

具体实施方式

如图1所示，本发明公开了一种基于DOM树的全类型文本替换方法，包括如下步骤：

步骤2：将字体文件中每个字体单元进行转换为图片；

步骤4：获取网站内的源码，将源码内的文字根据步骤3的映射关系转换为实际文字，将网站图片进行预筛选，过滤网站无用的图片，对网站的数据图片进行文本识别，提取图片内有效信息，从而做到全文本替换。通过图像模糊搜索技术，对网站的图片进行筛选，筛选出含有网站数据的图片，利用图像识别技术，剔除网站的水印等干扰信息，提取图片的文字以及其他有用信息。

本发明的全类型文本替换是指将页面显示的的内容转换为统一格式的文本，包括但不限于图片以及表格等显示形式。同时本发明基于DOM树的全类型文本替换方法也适用于移动端的APP，对其页面进行相同的步骤，从而获得统一编码格式文本内容。

在所述步骤1中，扫描网站的DOM树，获取网站的静态文件以及图片，由网站的静态文件中得到svg格式的字体映射关系文件；

在所述步骤4中，获取网站内的源码，将源码内的文字根据步骤3的映射关系转换为实际文字，将网站图片进行预筛选，通过图像模糊搜索过滤网站无用的图片，对网站的数据图片进行文本识别，提取图片内有效信息，从而做到全文本替换。

该全类型文本替换方法还包括：步骤5：设置定时器，定时执行步骤1，从而定时获取网站的静态文件，一旦网站更新字体文件，系统将重新更新字体映射关系，保持系统高度可用性。

本发明还具有如下特点：

1.通过多线程的运行方式，满足本系统的TPS以及并发需求，同时还能加快对图像的文本替换，提高本系统的运行效率。

2.通过RabbitMQ对需要识别的图像文件进行分发，利用Keepalived与Haproxy搭建高可用的分布式架构，这样可以极大地降低运算时间。

在所述步骤1中，将静态文件和字体映射关系文件传输保存至OSS服务器，通过OSS服务器保存每天生成的字体映射文件，通过对静态文件获取后保存到OSS服务器，减少对网站的访问压力，同时提高文本替换的速度。

本发明对于字体映射文件的文字识别与图像的文字识别所经过的预处理逻辑是不同的，一般来说网站字体映射文件内的文字是工整的，而图像内的文字是有许多带有干扰线而且文字也是不工整的，所以需要对图像文字进行提取文字区域、灰度化、降噪、二值化、字符切分以及归一化这些子步骤，才能进行识别。

在所述步骤3中，所述无关元素包括水印以及干扰线条；

在所述步骤4中，对网站图片的预处理包括:

步骤4.1：对文字图片进行图像颜色融合，将彩色图片变成灰度图。在文字图片的RGB模型中，根据相关性及其它指标，将R(red)、G(green)、B(blue)三个分量以不同的权值进行加权平均。

步骤4.2：利用OTSU最大类间方差法进行平滑图像。

步骤4.3：对图像进行降维处理，消除图像的上的噪声。

步骤4.4：字体进行倾斜矫正。

步骤4.5：对黏连字体进行切割，对断字进行拼接。

步骤4.5的实现方式为：对字符图像送入卷积网络提取特征值，得到n个向量，然后把n个向量送入到LSTM网络中。得到m维向量，通过一个优化的softmax函数(称为sm-Ω)来计算对应位置字体。优化的函数是指在softmax函数后乘以一个滤波器Ω。Ω为了应对softmax函数在接近0和接近1时精度不佳的问题。在图片处理的场景中，使用线性权值会使得精度误差高概率分布于0和1的两侧。因此利用非线性权重来提高sm-Ω函数的精度，使得精度误差均匀的分布在概率区间，从而提高模型的置信度。

本发明基于核数较少的CPU进行了协程优化，在CPU使用量过高的若干场景下，本发明性能可以依旧保持原有的性能。

本发明还进行了对文字识别进行深度学习，建立起可以应对不同字体字形的模型，通过适应面广，字体数全面的模型可以进行高精度的文字识别。

本发明通过对DOM树的扫描，获取文本信息以及图片，将图片通过图片文字识别技术，过滤水印以及干扰线条等无关元素，得到网站图片的文字，通过DOM树将网站的图片信息以及文字信息还原为网站的内容。

综上，本发明通过扫描网页的DOM树，将其文字与图片提取出来，利用图像转码技术将网页字体文件传换为可以处理的图像文件，通过图像识别技术获取图片的文字信息，建立图片与字体文件的映射关系，利用这个映射关系去解析网站内的字体，获取到真实的数据，通过定时获取字体文件，通过大量地训练模型识别图像文字，建立高精度的映射关系来解决网站的字体替换。利用Scrapy框架采集数据类网站，获取带有混淆后的字体文件以及图片文件，将svg格式的字体文件转为更易于操作的png图片，对图片进行的图像识别，返回字体文件与识别结果的对应关系，获取网站源码将带有字体混淆的文字通过上述对应关系转换为正确的文本，并将正确的文本与图像识别的结果替换为源码内的文本以及图片。

在所述扫描模块中，扫描网站的DOM树，获取网站的静态文件以及图片，由网站的静态文件中得到svg格式的字体映射关系文件；

在所述处理模块中，获取网站内的源码，将源码内的文字根据识别模块的映射关系转换为实际文字，将网站图片进行预筛选，通过图像模糊搜索过滤网站无用的图片，对网站的数据图片进行文本识别，提取图片内有效信息，从而做到全文本替换。通过图像模糊搜索技术，对网站的图片进行筛选，筛选出含有网站数据的图片，利用图像识别技术，剔除网站的水印等干扰信息，提取图片的文字以及其他有用信息。

该全类型文本替换系统还包括：定时模块：用于设置定时器，定时执行扫描模块。

在所述识别模块中，所述无关元素包括水印以及干扰线条；

在所述处理模块中，通过第一处理模块至第五处理模块对网站图片进行预处理。

第一处理模块：对文字图片进行图像颜色融合，将彩色图片变成灰度图。在文字图片的RGB模型中，根据相关性及其它指标，将R(red)、G(green)、B(blue)三个分量以不同的权值进行加权平均。

第二处理模块：利用OTSU最大类间方差法进行平滑图像。

第三处理模块：对图像进行降维处理，消除图像的上的噪声。

第四处理模块：字体进行倾斜矫正。

第五处理模块：对黏连字体进行切割，对断字进行拼接。

第五处理模块的实现方式为：对字符图像送入卷积网络提取特征值，得到n个向量，然后把n个向量送入到LSTM网络中。得到m维向量，通过一个优化的softmax函数(称为sm-Ω)来计算对应位置字体。优化的函数是指在softmax函数后乘以一个滤波器Ω。Ω为了应对softmax函数在接近0和接近1时精度不佳的问题。在图片处理的场景中，使用线性权值会使得精度误差高概率分布于0和1的两侧。因此利用非线性权重来提高sm-Ω函数的精度，使得精度误差均匀的分布在概率区间，从而提高模型的置信度。

本发明通过网站的字体文件和图片建立起一套即时性高效性的替换系统，将网站返回的文本替换为网站显示的文本，将网站的图片转换为提取后的文本，从而实现数据采集的目的。

如图2所示，生产端包括DOM树解析器、SVG图片转换器、图片云存储器等。流程依旧不变，在开始解析网页DOM树后，进行字体文件图片转换，获得图片后存储至云存储系统，将网页正文进行序列化后转换为主消息，将本网页字体图片文件以及图片的链接作为副消息，生产端发布消息，在分布式系统中，利用Keepalived与Haproxy搭建高可用负载均衡环境，每个结点同时处理不同的消息。消费端对消息进行图片文本提取，以及字体图片提取，异步处理后获取主消息ID，将提取的文本信息交由主消息进行文本替换，最终完成网页的全文本替换，并且将此网站模板保存至云存储系统，提高本系统的效率。

本发明还公开了一种基于DOM树的全类型文本替换装置，包括：存储器、处理器以及存储在所述存储器上的计算机程序，所述计算机程序配置为由所述处理器调用时实现本发明所述的全类型文本替换方法的步骤。

本发明还公开了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序配置为由处理器调用时实现本发明所述的全类型文本替换方法的步骤。

本发明通过多线程将每个字体转换为图片格式，通过图像识别建立真实文字与源码文字的映射关系，进行大量训练文字识别模型，可以精确地获取网站显示的内容，同时本发明建立的定时器可以保持对网站的字体文件进行更新，从而维持本发明的高健壮性与高可复用性。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于DOM树的全类型文本替换方法，其特征在于，包括如下步骤：

步骤2：将字体文件中每个字体单元进行转换为图片；

2.根据权利要求1所述的全类型文本替换方法，其特征在于：

3.根据权利要求1所述的全类型文本替换方法，其特征在于，在所述步骤4中，获取网站内的源码，将源码内的文字根据步骤3的映射关系转换为实际文字，将网站图片进行预筛选，通过图像模糊搜索过滤网站无用的图片，对网站的数据图片进行文本识别，提取图片内有效信息，从而做到全文本替换；

4.根据权利要求3所述的全类型文本替换方法，其特征在于，该全类型文本替换方法还包括步骤5：设置定时器，定时执行步骤1；

在所述步骤3中，所述无关元素包括水印以及干扰线条；

在所述步骤4中，对网站图片的预处理包括：

步骤4.2：利用OTSU最大类间方差法进行平滑图像；

步骤4.3：对图像进行降维处理，消除图像的上的噪声；

步骤4.4：字体进行倾斜矫正；

步骤4.5：对黏连字体进行切割，对断字进行拼接；

5.一种基于DOM树的全类型文本替换系统，其特征在于，包括：

6.根据权利要求5所述的全类型文本替换系统，其特征在于：

7.根据权利要求5所述的全类型文本替换系统，其特征在于，在所述处理模块中，获取网站内的源码，将源码内的文字根据识别模块的映射关系转换为实际文字，将网站图片进行预筛选，通过图像模糊搜索过滤网站无用的图片，对网站的数据图片进行文本识别，提取图片内有效信息，从而做到全文本替换；

8.根据权利要求7所述的全类型文本替换系统，其特征在于，该全类型文本替换系统还包括定时模块：用于设置定时器，定时执行扫描模块1；

在所述识别模块中，所述无关元素包括水印以及干扰线条；

第二处理模块：用于利用OTSU最大类间方差法进行平滑图像；

第四处理模块：用于字体进行倾斜矫正；

9.一种基于DOM树的全类型文本替换装置，其特征在于，包括：存储器、处理器以及存储在所述存储器上的计算机程序，所述计算机程序配置为由所述处理器调用时实现权利要求1-4中任一项所述的全类型文本替换方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序配置为由处理器调用时实现权利要求1-4中任一项所述的全类型文本替换方法的步骤。