CN113362249B

CN113362249B - 文字图像合成方法、装置、计算机设备及存储介质

Info

Publication number: CN113362249B
Application number: CN202110705527.4A
Authority: CN
Inventors: 陈昊
Original assignee: Guangzhou Yunzhidachuang Technology Co ltd
Current assignee: Guangzhou Yunzhidachuang Technology Co ltd; Shenzhen Lian Intellectual Property Service Center
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2023-11-24
Anticipated expiration: 2041-06-24
Also published as: CN113362249A

Abstract

本申请实施例属于人工智能领域，涉及一种文字图像合成方法，包括获取原始文字图像，对原始文字图像进行图像处理，得到第一高频图像和第一低频图像，将第一高频图像进行降噪处理得到第二高频图像，并通过卷积神经网络模型优化第一低频图像得到第二低频图像，合成第二高频图像和第二低频图像，得到目标文字图像。本申请还提供一种文字图像合成装置、计算机设备及存储介质。此外，本申请还涉及区块链技术，原始文字图像可存储于区块链中。本申请可以在显著提升文字图像分辨率的同时保证后续OCR系统识别的准确率。

Description

文字图像合成方法、装置、计算机设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种文字图像合成方法、装置、计算机设备及存储介质。

背景技术

如今，随着社会的不断发展，在人们的日常生活和工作中，需要将各种票据、报刊、书籍、文稿及其它印刷品上的信息输入至计算机中。

现在常用的是OCR技术(Optical Character Recognition，光学字符识别)，通过扫描等光学输入方式将上述文件的文字转化为图像信息，再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。OCR技术包括图像处理技术、识别技术、文本理解技术与还原技术、表格/票据处理技术。

但是，当前常见的场景是借助手机等移动端获得图像，这些图像质量不一，时常会碰到图像分辨率较低的情况，这些较低质量图像人眼需要较为注意的情况下才可以分辨，但是这种图像对于现有的OCR模型而言会严重降低其识别准确率，因此针对这种较低分辨率图像的优化势在必行。

常见提升分辨率的技术主要有两种，一种是基于高频滤波的图像增强技术，这种技术的确可以提升图像分辨率，但与此同时不可避免的会放大噪声，在一定的条件下也会影响到OCR的判断准确率；另一种方法是基于现有的通用的基于人工智能的超分辨技术用于分辨率提升，这种技术主要特点在于预测物体边缘的近似形态或者是补齐某些缺失的细微结构，而OCR技术对于文字的字体、字形非常敏感，因而也不能直接套用。

发明内容

本申请实施例的目的在于提出一种文字图像合成方法、装置、计算机设备及存储介质，以解决相关技术中在提升文字图像分辨率的同时降低OCR识别准确率的技术问题。

为了解决上述技术问题，本申请实施例提供一种文字图像合成方法，采用了如下所述的技术方案：

获取原始文字图像，对所述原始文字图像进行图像处理，得到第一高频图像和第一低频图像；

将所述第一高频图像进行降噪处理得到第二高频图像，并通过卷积神经网络模型优化所述第一低频图像得到第二低频图像；

合成所述第二高频图像和所述第二低频图像，得到目标文字图像。

进一步的，所述将所述第一高频图像进行降噪处理得到第二高频图像的步骤包括：

步骤A，将所述第一高频图像分成N个第一图像块，以任一所述第一图像块作为目标区域，并以所述目标区域为中心，取一个搜索区域，将所述搜索区域划分为若干个与所述第一图像块大小相同的第二图像块；

步骤B，基于所述第一高频图像获取引导图像，并将所述引导图像划分为多个与所述第一图像块大小相同的第三图像块；

步骤C，分别获取所述目标区域的第一像素值、所述第二图像块的第二像素值以及所述第三图像块的第三像素值，根据所述第一像素值、所述第二像素值和所述第三像素值，计算出每个所述第二图像块与所述目标区域之间的权重；

步骤D，根据所述第一像素值以及所述权重进行计算，得到经过降噪处理的所述目标区域的像素值；

步骤E，重复执行步骤A至步骤D，遍历每个所述第一图像块，获得经过降噪处理的每个所述第一图像块，基于降噪处理后的每个所述第一图像块得到所述第二高频图像。

进一步的，所述根据所述第一像素值、所述第二像素值和所述第三像素值，计算出每个所述第二图像块与所述目标区域之间的权重的步骤包括：

根据所述第一像素值计算出所述目标区域的第一像素均值和像素方差；

根据所述第二像素值计算出每个所述第二图像块的第二像素均值，并基于所述像素方差、所述第一像素均值、所述第二像素均值以及所述第三像素值计算出所述权重。

进一步的，所述通过卷积神经网络模型优化所述第一低频图像得到第二低频图像的步骤包括：

构建初始卷积神经网络模型和损失函数，基于所述损失函数训练所述初始卷积神经网络模型，得到训练好的卷积神经网络模型；

将所述第一低频图像输入训练好的所述卷积神经网络模型中进行优化，得到所述第二低频图像。

进一步的，所述基于所述损失函数训练所述初始卷积神经网络模型，得到训练好的卷积神经网络模型的步骤包括：

获取训练数据集，采用所述训练数据集对所述初始卷积神经网络模型进行训练，得到待确认卷积神经网络模型；

将测试数据集输入所述待确认卷积神经网络模型中进行检测，输出测试结果；

通过所述损失函数评估所述测试结果，若所述测试结果不在预设范围内，则调整所述初始卷积神经网络模型的模型参数，直到所述测试结果落入所述预设范围内。

进一步的，所述通过所述损失函数评估所述测试结果，若所述测试结果不在预设范围内，则调整所述初始卷积神经网络模型的模型参数，直到所述测试结果落入所述预设范围内的步骤包括：

将所述测试结果输入所述损失函数计算损失函数值；

当所述损失函数值大于预设阈值时，则以所述损失函数值为依据调整所述初始卷积神经网络模型的模型参数，直到所述损失函数值小于等于预设阈值为止。

进一步的，所述对所述原始文字图像进行图像处理，得到第一高频图像和第一低频图像的步骤包括：

使用高斯高通滤波器过滤所述原始文字图像，得到所述第一高频图像；

基于所述原始文字图像对所述第一高频图像做差，得到所述第一低频图像。

为了解决上述技术问题，本申请实施例还提供一种文字图像合成装置，采用了如下所述的技术方案：

获取模块，用于获取原始文字图像，对所述原始文字图像进行图像处理，得到第一高频图像和第一低频图像；

图像优化模块，用于对所述第一高频图像进行降噪处理得到第二高频图像，并通过卷积神经网络模型优化所述第一低频图像得到第二低频图像；

合成模块，用于合成所述第二高频图像和所述第二低频图像，得到目标文字图像。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

该计算机设备包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如上所述的文字图像合成方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如上所述的文字图像合成方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：

本申请通过获取原始文字图像，对原始文字图像进行图像处理，得到第一高频图像和第一低频图像，将第一高频图像进行降噪处理得到第二高频图像，并通过卷积神经网络模型优化第一低频图像得到第二低频图像，合成第二高频图像和第二低频图像，得到目标文字图像；本申请通过将原始文字图像划分为低频图像和高频图像，采用不同的优化方法分别对低频图像和高频图像进行优化处理，将优化处理后的低频图像和高频图像进行合成得到目标文字图像，可以在显著提升文字图像分辨率的同时保证后续OCR系统识别的准确率。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图；

图2根据本申请的文字图像合成方法的一个实施例的流程图；

图3是图2中步骤S202的一种具体实施方式的流程图；

图4是图2中步骤S202的另一种具体实施方式的流程图；

图5是本申请卷积神经网络模型的一种结构示意图；

图6是图4中步骤S401的一种具体实施方式的流程图；

图7是根据本申请的文字图像合成装置的一个实施例的结构示意图；

图8是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

为了解决相关技术中在提升文字图像分辨率的同时降低OCR识别准确率的问题，本申请提供了一种文字图像合成方法，涉及人工智能，可以应用于如图1所示的系统架构100中，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的文字图像合成方法一般由终端设备执行，相应地，文字图像合成装置一般设置于终端设备中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的文字图像合成的方法的一个实施例的流程图，包括以下步骤：

步骤S201，获取原始文字图像，对原始文字图像进行图像处理，得到第一高频图像和第一低频图像。

文字图像可以通过图像采集装置获取，图像采集装置可以包括：手机、照相机等携带摄像头的装置。获取到的文字图像质量不一，时常会碰到图像分辨率较低的情况，这些较低质量的文字图像对于现有的OCR(Optical Character Recognition，光学字符识别)模型而言会严重降低其准确率。对于低频图像而言，低频图像的结构缺失会影响文字图像的分辨率，即在低频图像中由于各种原因导致原本文字的整体结构发生变化，进而引起整张图像的退化；对于高频图像，噪声的影响，会造成整体图像文字边缘的结构发生变化，这种变化相当于是改变了字体。

在本实施例中，将获取到的原始文字图像进行图像处理，得到第一高频图像和第一低频图像两部分，分别对第一高频图像和第一低频图像进行优化，可以在提升文字图像分辨率的基础上，同时优化文字图像的高频部分和低频部分。原始文字图像即为待处理的较低分辨率的文字图像。

具体地，使用高斯高通滤波器过滤原始文字图像，得到第一高频图像；基于原始文字图像对第一高频图像做差，得到第一低频图像。

高频图像实质是指将图像由空间域转化到频域中，取出其中的高频谱部分即为高频图像。本实施例中，使用高斯高通滤波器过滤原始文字图像，实质是将高斯函数作为卷积核函数，并用该卷积核函数对原始文字图像进行卷积操作，获得第一高频图像。

需要说明的是，高斯函数为小波函数，这里采用高斯函数作为卷积核函数可以保证计算的高效性和适用性。

基于原始文字图像对第一高频图像做差得到第一低频图像，做差的原理为金字塔图像降噪算法的原理，具体操作如下，记原始文字图像为I₀，经过上述滤波后得到的第一高频图像为I₁，则低频图像即是I₀-I₁。

需要强调的是，为进一步保证原始文字图像的私密和安全性，上述原始文字图像还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

步骤S202，将第一高频图像进行降噪处理得到第二高频图像，并通过卷积神经网络模型优化第一低频图像得到第二低频图像。

对第一高频图像进行一定程度的降噪，降噪的同时，需要在第一高频图像中进行真实的边缘保护。由此，采用带有引导的降噪方法对第一高频图像进行降噪。

在本实施例中，带有引导的降噪方法是在NLM(Non-Local Means，非局部均值滤波)的基础上进行改进得到的。参见图3所示，将第一高频图像进行降噪处理得到第二高频图像的具体步骤如下：

步骤S301，将第一高频图像分成N个第一图像块，以任一第一图像块作为目标区域，并以目标区域为中心，取一个搜索区域，将搜索区域划分为若干个与第一图像块大小相同的第二图像块。

带有引导的降噪方法的算法思想是：将第一高频图像分成N个第一图像块，其中，N为大于零的自然数，将其中一个第一图像块作为目标区域，通过计算目标区域与第二图像块之间的相似度，并根据相似度确定加权平均的值，进行滤波操作。

步骤S302，基于第一高频图像获取引导图像，并将引导图像划分为多个与第一图像块大小相同的第三图像块。

引导图像是在第一高频图像的基础上进行一定降噪得到的，用来进行结构上的引导，防止最终得到的图像在结构上发生变化。

步骤S303，分别获取目标区域的第一像素值、第二图像块的第二像素值以及第三图像块的第三像素值，根据第一像素值、第二像素值和第三像素值，计算出每个第二图像块与目标区域之间的权重。

权重表示每个第二图像块与目标区域之间的相似度，根据它们之间的相似程度，从而确定加权平均的值，以便进行滤波操作。

具体地，根据第一像素值计算出目标区域的第一像素均值和像素方差，根据第二像素值计算出每个第二图像块的第二像素均值，并基于像素方差、第一像素均值、第二像素均值以及第三像素值计算出权重。

在本实施例中，第一像素值为目标区域的总像素值，第二像素值为第二图像块的总像素值，第三像素值为第三图像块的总像素值。

根据第一像素值计算出目标区域的第一像素均值和像素方差的步骤具体为：获取目标区域的每个像素的像素值x_i和像素数目m，则

第一像素均值∈＝第一像素值/m；

获取第二图像块的像素数目，用第二像素值除以像素数目得到第二像素均值。

采用如下公式计算出每个第二图像块与目标区域之间的权重：

其中，k表示第k个第一图像块，即目标区域，σ表示目标区域中的像素方差，∈表示是目标区域的第一像素均值，I表示的是引导图像，I_i表示的是引导图像上与围绕着目标区域的第i个第二图像块对应的第三图像块的第三像素值，P表示待降噪图像即第一高频图像，P_i表示第一高频图像上围绕着目标区域的第i个第二图像块的第二像素值，n表示第i个第二图像块图像块中的像素数目，u表示的是第i个第二图像块中的第二像素均值。

步骤S304，根据第一像素值以及权重进行计算，得到经过降噪处理的目标区域的像素值。

具体地，采用NLM算法进行降噪的公式如下：

NL[v_k]＝Σω_kv_k

其中，NL[v_k]表示目标区域经过降噪处理的像素值，v_k表示未经过降噪处理的目标区域的像素值，即第一像素值。

步骤S305，重复执行步骤S301至步骤S304，遍历每个第一图像块，获得经过降噪处理的每个第一图像块，基于降噪处理后的每个第一图像块得到第二高频图像。

遍历每个第一图像块，将当前遍历到的第一图像块作为目标区域，重复执行步骤S301至步骤S304，得到当前第一图像块进行降噪处理后的像素值，遍历完成后，基于每个降噪处理后的第一图像块的像素值得到第二高频图像。

本实施例通过采用带有引导的降噪方法对第一高频图像进行降噪，可以在降低高频图像噪声的同时保证整体文字图像的边缘结构，在提高高频图像分辨率的同时保证OCR模型的识别准确率。

在本实施例的一些可选的实现方式中，参见图4所示，通过卷积神经网络模型优化所述第一低频图像得到第二低频图像的步骤具体包括：

步骤S401，构建初始卷积神经网络模型和损失函数，基于损失函数训练初始卷积神经网络模型，得到训练好的卷积神经网络模型。

预先构建初始卷积神经网络模型，卷积神经网络模型包括特征提取层和残差网络，卷积神经网络模型的前五层作为特征提取层，特征提取层具体可以采用resnet 50网络，后续的残差网络由5个串联的子结构构成，子结构的示意图参见图5所示。

卷积层由卷积操作和Leaky Relu激活函数构成，Leaky Relu激活函数的公式如下：

其中，f(x)代表为输入的ReLU函数，x是输入值。激活函数是在人工神经网络的神经元上运行的函数，负责将神经元的输入映射到输出端，主要用于给神经元引入了非线性因素，使得神经网络可以任意逼近任何非线性函数，这样神经网络就可以应用到众多的非线性模型中。

BiLSTM，是Bi-directional Long Short-Term Memory的缩写，由前向LSTM与后向LSTM组合而成，LSTM(Long Short-Term Memory，长短期记忆网络)是一种时间循环神经网络，是为了解决一般的RNN(RecurrentNeuralNetwork，RNN循环神经网络)存在的长期依赖问题而专门设计出来的时间循环神经网络。LSTM中含有LSTM区块(blocks)，LSTM区块也被称为智能网络单元，LSTM区块可以记忆不定时间长度的数值。LSTM为了最小化训练误差，LSTM的训练采用梯度下降法(Gradient descent)，应用时序性倒传递算法，可用来修改LSTM的权重。

为了训练初始卷积神经网络模型，构建基于边缘形状梯度的损失函数，损失函数的公式如下：

其中，E是指求期望，I_h表示是第一高频图像，I_s表示是经过上述卷积神经网络后的低频图像，x表示的是原始文字图像的边缘坐标区间。需要说明的是，构建这个损失函数是为了使经过卷积神经网络模型后的低频图像在保持结构平顺性的同时，其边缘更加接近高频图像，便于后续合成后不引起过大的字体结构上的变化。

在本实施例一些可选的实现方式中，参见图6所示，基于损失函数训练初始卷积神经网络模型，得到训练好的卷积神经网络模型的步骤具体包括：

步骤S601，获取训练数据集，采用训练数据集对初始卷积神经网络模型进行训练，得到待确认卷积神经网络模型。

数据集的来源主要有两种，第一，收集已有的、已是清晰的文字图像，在清晰的文字图像基础上进行图像质量退化的仿真，比如采用加入噪声，进行模糊，改变细微结构等等方法进行仿真，这样就可获得匹配的清晰的文字图像与有缺陷的文字图像；第二，直接使用摄像装置进行拍摄，拍摄的数据集中会存在一部分，由于前后拍摄条件不一致，比如摄像装置与被拍摄物体距离发生变化，或者手摄像装置晃动等，这些图像中有清晰的与有缺陷的，也构成了上述说的匹配图像。

将清晰的文字图像及其对应的有缺陷的文字图像作为一组数据，对收集到的所有文字图像进行如上述的处理，获取到低频图像，制作成训练数据集和测试数据集。

将训练数据集输入初始卷积神经网络模型中，经resnet 50网络进行特征提取，将特征数据经输入张量进行向量特征转换，将向量特征输入到卷积层进行卷积计算，将卷积计算的结果输入BiLSTM层，BiLSTM层使用梯度下降来调整神经元之间的权重以降低代价函数，优化初始卷积神经网络模型，得到待确认卷积神经网络模型。

步骤S602，将测试数据集输入待确认卷积神经网络模型中进行检测，输出测试结果。

将测试数据集输入待确认卷积神经网络模型中进行检测，输出测试结果，用于对模型进行测试。

步骤S603，通过损失函数评估测试结果，若测试结果不在预设范围内，则调整初始卷积神经网络模型的模型参数，直到测试结果落入预设范围内。

具体地，通过损失函数对测试结果进行评估，将测试结果输入损失函数计算损失函数值，当损失函数值小于等于预设阈值时，则说明模型训练完成，则待确认卷积神经网络模型为最终卷积神经网络模型，保存最终卷积神经网络模型的模型参数；当损失函数值大于预设阈值时，则以损失函数值为依据调整初始卷积神经网络模型的模型参数，继续进行训练，直到损失函数值小于等于预设阈值为止。

本实施例通过训练优化低频图像的卷积神经网络模型，可以提高优化低频图像的效率。

步骤S402，将第一低频图像输入训练好的卷积神经网络模型中进行优化，得到第二低频图像。

具体地，将第一低频图像输入到训练好的卷积神经网络模型中进行优化，从而将第一低频图像进行结构补全，得到第二低频图像。

本实施例通过卷积神经网络模型优化第一低频图像，补全第一低频图像的结构，得到第二低频图像，可以提高低频图像分辨率的同时保证OCR模型的识别准确率。

步骤S203，合成第二高频图像和第二低频图像，得到目标文字图像。

具体地，将第二高频图像和第二低频图像进行叠加，则可以得到提高分辨率的目标文字图像。

本申请通过将原始文字图像划分为低频图像和高频图像，采用不同的优化方法分别对低频图像和高频图像进行优化处理，将优化处理后的低频图像和高频图像进行合成得到目标文字图像，可以在显著提升文字图像分辨率的同时保证后续OCR系统识别的准确率。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图7，作为对上述图2所示方法的实现，本申请提供了一种文字图像合成装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图7所示，本实施例所述的文字图像合成装置700包括：获取模块701、图像优化模块702以及合成模块703。其中：

获取模块701用于获取原始文字图像，对所述原始文字图像进行图像处理，得到第一高频图像和第一低频图像；

图像优化模块702用于对所述第一高频图像进行降噪处理得到第二高频图像，并通过卷积神经网络模型优化所述第一低频图像得到第二低频图像；

合成模块703用于合成所述第二高频图像和所述第二低频图像，得到目标文字图像。

上述文字图像合成装置，通过将原始文字图像划分为低频图像和高频图像，采用不同的优化方法分别对低频图像和高频图像进行优化处理，将优化处理后的低频图像和高频图像进行合成得到目标文字图像，可以在显著提升文字图像分辨率的同时保证后续OCR系统识别的准确率。

在本实施例中，图像优化模块702包括降噪子模块，降噪子模块用于：

在本实施例的一些可选的实现方式中，降噪子模块进一步用于：

本实施例通过权重表示每个第二图像块与目标区域之间的相似度，根据它们之间的相似程度，从而确定加权平均的值，以便进行滤波操作。

在本实施例中，图像优化模块702还包括优化子模块，优化子模块包括训练单元和优化单元，训练单元用于构建初始卷积神经网络模型和损失函数，基于所述损失函数训练所述初始卷积神经网络模型，得到训练好的卷积神经网络模型；优化单元用于将所述第一低频图像输入训练好的所述卷积神经网络模型中进行优化，得到所述第二低频图像。

在本实施例的一些可选的实现方式中，训练单元进一步用于：

在本实施例中，训练单元还用于：

将所述测试结果输入所述损失函数计算损失函数值；

在本实施例中，获取模块701进一步用于：

本实施例通过采用不同的优化方法分别对低频图像和高频图像进行处理，可以在显著提升文字图像分辨率的同时保证后续OCR系统识别的准确率。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图8，图8为本实施例计算机设备基本结构框图。

所述计算机设备8包括通过系统总线相互通信连接存储器81、处理器82、网络接口83。需要指出的是，图中仅示出了具有组件81-83的计算机设备8，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable GateArray，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器81至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器81可以是所述计算机设备8的内部存储单元，例如该计算机设备8的硬盘或内存。在另一些实施例中，所述存储器81也可以是所述计算机设备8的外部存储设备，例如该计算机设备8上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(FlashCard)等。当然，所述存储器81还可以既包括所述计算机设备8的内部存储单元也包括其外部存储设备。本实施例中，所述存储器81通常用于存储安装于所述计算机设备8的操作系统和各类应用软件，例如文字图像分辨率提升方法的计算机可读指令等。此外，所述存储器81还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器82在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器82通常用于控制所述计算机设备8的总体操作。本实施例中，所述处理器82用于运行所述存储器81中存储的计算机可读指令或者处理数据，例如运行所述文字图像分辨率提升方法的计算机可读指令。

所述网络接口83可包括无线网络接口或有线网络接口，该网络接口83通常用于在所述计算机设备8与其他电子设备之间建立通信连接。

本实施例通过处理器执行存储在存储器的计算机可读指令时实现如上述实施例文字图像合成方法的步骤，通过将原始文字图像划分为低频图像和高频图像，采用不同的优化方法分别对低频图像和高频图像进行优化处理，将优化处理后的低频图像和高频图像进行合成得到目标文字图像，可以在显著提升文字图像分辨率的同时保证后续OCR系统识别的准确率。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的文字图像合成方法的步骤，通过将原始文字图像划分为低频图像和高频图像，采用不同的优化方法分别对低频图像和高频图像进行优化处理，将优化处理后的低频图像和高频图像进行合成得到目标文字图像，可以在显著提升文字图像分辨率的同时保证后续OCR系统识别的准确率。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种文字图像合成方法，其特征在于，包括下述步骤：

合成所述第二高频图像和所述第二低频图像，得到目标文字图像；

其中，所述将所述第一高频图像进行降噪处理得到第二高频图像的步骤包括：

步骤E，重复执行步骤A至步骤D，遍历每个所述第一图像块，获得经过降噪处理的每个所述第一图像块，基于降噪处理后的每个所述第一图像块得到所述第二高频图像；

其中，所述根据所述第一像素值、所述第二像素值和所述第三像素值，计算出每个所述第二图像块与所述目标区域之间的权重的步骤包括：

2.根据权利要求1所述的文字图像合成方法，其特征在于，所述通过卷积神经网络模型优化所述第一低频图像得到第二低频图像的步骤包括：

3.根据权利要求2所述的文字图像合成方法，其特征在于，所述基于所述损失函数训练所述初始卷积神经网络模型，得到训练好的卷积神经网络模型的步骤包括：

4.根据权利要求3所述的文字图像合成方法，其特征在于，所述通过所述损失函数评估所述测试结果，若所述测试结果不在预设范围内，则调整所述初始卷积神经网络模型的模型参数，直到所述测试结果落入所述预设范围内的步骤包括：

将所述测试结果输入所述损失函数计算损失函数值；

5.根据权利要求1所述的文字图像合成方法，其特征在于，所述对所述原始文字图像进行图像处理，得到第一高频图像和第一低频图像的步骤包括：

6.一种文字图像合成装置，其特征在于，包括：

合成模块，用于合成所述第二高频图像和所述第二低频图像，得到目标文字图像；

所述图像优化模块包括降噪子模块，降噪子模块用于：

所述降噪子模块进一步用于：

7.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现如权利要求1至5中任一项所述的文字图像合成方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至5中任一项所述的文字图像合成方法的步骤。