CN113920508A

CN113920508A - 图像处理方法及装置

Info

Publication number: CN113920508A
Application number: CN202010658130.XA
Authority: CN
Inventors: 周文; 任沛然
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2022-01-11

Abstract

本发明公开了一种图像处理方法及装置。其中，该方法包括：获取初始图像，其中，所述初始图像中含有文字的信息；将初始图像输入自编码网络模型，输出已编辑字符信息的图像，其中，所述自编码网络模型为使用多组训练数据通过机器学习训练得到的，所述多组训练数据中的训练数据均包括：包括字符信息的图像以及包括字符信息的图像对应的已编辑字符信息的图像。本发明解决了相关技术中对字符信息的编辑效果不佳的技术问题。

Description

图像处理方法及装置

技术领域

本发明涉及图像处理技术领域，具体而言，涉及一种图像处理方法及装置。

背景技术

在互联网时代，我们可以比以前更加方便的获取各种各样的视频，有各大视频网站的电影电视剧，也有如今火热的直播和短视频。为了更好的表达视频所要传达的信息，这些视频在制作过程大多会加上字幕。视频中的字幕有两种存在形式，一种是通过专门的字幕轨道添加，和视频轨道、音频轨道一样，各个轨道相互不干扰，播放的时候也可以控制开启和关闭，自由切换。另一种是直接添加到视频的图像中，作为视频图像内容的一部分，这种字幕在播放的时候就无法关闭，不能独立控制。在很多情况下，我们会有编辑字幕的需求，例如视频需要切换字幕语言，老旧视频的字幕质量太差不清晰，需要重新生成，视频作为素材需要擦除原有字幕等等。

为了擦除视频中的原有字幕，现有技术一中假设字幕的颜色固定，使用颜色阈值将字幕区域识别并用将其用另一种特定颜色覆盖用以编辑字幕内容。显然这种方式局限性很大，字幕的颜色往往不固定且有时候和背景相似，颜色阈值的办法识别效果很有限，另外直接用特定颜色覆盖视觉效果很差。现有技术二中使用一些传统的图像特征提取办法识别字幕边缘，提取初始字幕区域，再利用字幕一般会停留一小段时间的特征，结合相邻帧的初始字幕区域信息进行简单运算得到最终的字幕区域。填充则使用字幕区域边缘的像素，进行加权填充。这种方式比现有技术一好，然而也有很明显的缺点，一是字幕区域提取鲁棒性不高，受字幕样式干扰很大，比如带有阴影的字幕边缘特征就不那么明显，字幕区域提取算法往往会失效，而一些边缘特征比较明显的非字幕内容也会误识别为字幕。二是边缘像素进行加权填充的办法效果不好，往往填充区域比较模糊，无法恢复原本的图像细节。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种图像处理方法及装置，以至少解决相关技术中对字符信息的编辑效果不佳的技术问题。

根据本发明实施例的一个方面，提供了一种图像处理方法，包括：接收客户端发送的服务调用请求，其中，所述服务调用请求中携带训练样本，其中，所述训练样本中包括：包括字符信息的图像以及所述包括字符信息的图像对应的已编辑字符信息的图像；对字符信息的图像以及所述包括字符信息的图像对应的已编辑字符信息的图像通过机器学习训练；以及输出训练结果。

进一步地，所述训练结果为模型参数集合，所述方法还包括：将所述模型参数集合进行打包并发送至所述客户端。

根据本发明实施例的一个方面，提供了一种图像处理方法，包括：获取训练样本，其中，所述训练样本中包括：包括字符信息的图像以及所述包括字符信息的图像对应的已编辑字符信息的图像；对字符信息的图像以及所述包括字符信息的图像对应的已编辑字符信息的图像通过机器学习训练，得到自编码网络模型。

根据本发明实施例的一个方面，提供了一种图像处理方法，包括：获取初始图像，其中，所述初始图像中含有文字的信息；将初始图像输入自编码网络模型，输出已编辑字符信息的图像，其中，所述自编码网络模型为使用多组训练数据通过机器学习训练得到的，所述多组训练数据中的训练数据均包括：包括字符信息的图像以及所述包括字符信息的图像对应的已编辑字符信息的图像。

进一步地，将初始图像输入自编码网络模型模型，输出已编辑字符信息的图像包括：对初始图像中的字符信息区域进行剪裁，得到字符信息区域的图像；将所述字符信息区域的图像输入自编码网络模型，输出已编辑字符信息的图像。

进一步地，将所述字符信息区域的图像输入自编码网络模型，输出已编辑字符信息的图像之前，所述方法还包括：将所述字符信息区域的图像的原始尺寸缩小至预设尺寸；将初始图像输入自编码网络模型，输出已编辑字符信息的图像包括：将预设尺寸的字符信息区域的图像输入所述自编码网络模型，得到已编辑字符信息的区域图像；对已编辑字符信息的区域图像的尺寸放大至原始尺寸；将原始尺寸的已编辑字符信息的图像与对应的初始图像的RGB值进行对比，确定所述已编辑字符信息的图像上的非字符信息区域；对所述已编辑字符信息的图像上的非字符信息区域进行回填，输出已编辑字符信息的图像。

进一步地，对所述已编辑字符信息的图像上的非字符信息区域进行回填，输出已编辑字符信息的图像包括：将所述初始图像中非字符信息区域的像素值作为所述已编辑字符信息的图像上非字符信息区域的像素值。

进一步地，在获取初始图像之前，所述方法还包括：将待处理的视频进行解码抽帧，得到所述初始图像。

进一步地，在输出已编辑字符信息的图像之后，所述方法还包括：对所述已编辑字符信息的图像进行编码，得到处理后的视频。

进一步地，所述自编码网络模型为卷积神经网络。

根据本发明实施例的一个方面，提供了一种图像处理装置，包括：第一获取单元，用于获取初始图像，其中，所述初始图像中含有文字的信息；第一输出单元，用于将初始图像输入自编码网络模型，输出已编辑字符信息的图像，其中，所述自编码网络模型为使用多组训练数据通过机器学习训练得到的，所述多组训练数据中的训练数据均包括：包括字符信息的图像以及所述包括字符信息的图像对应的已编辑字符信息的图像。

根据本发明实施例的一个方面，提供了一种图像处理方法，包括：获取初始图像，其中，所述初始图像中含有字符信息；对所述初始图像进行剪裁，得到包含所述字符信息的区域的图像；将所述区域的图像输入自编码网络模型，输出结果图像，其中，所述结果图像包含已编辑的字符信息。

根据本发明实施例的一个方面，提供了一种计算机可读的存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述任意一项所述的方法。

根据本发明实施例的一个方面，提供了一种处理器，其中，所述处理器用于运行程序，其中，所述程序运行时执行上述任意一项所述的方法。

在本发明实施例中，采用自编码网络模型对包括字符信息的图像进行处理的方式，通过获取初始图像，其中，所述初始图像中含有文字的信息；将初始图像输入自编码网络模型，输出已编辑字符信息的图像，其中，所述自编码网络模型为使用多组训练数据通过机器学习训练得到的，所述多组训练数据中的训练数据均包括：包括字符信息的图像以及所述包括字符信息的图像对应的已编辑字符信息的图像，达到了提升对字符信息的编辑速度和准确性的目的，从而实现了全自动的对字符信息进行编辑的技术效果，进而解决了相关技术中对字符信息的编辑效果不佳的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的计算机终端的硬件结构框图；

图2是根据本发明实施例一提供的图像处理方法的流程图；

图3是根据本发明实施例二提供的图像处理方法的流程图；

图4是根据本发明实施例二提供的可选的图像处理方法的示意图一；

图5是根据本发明实施例二提供的可选的图像处理方法的示意图二；

图6是根据本发明实施例三提供的图像处理方法的流程图；

图7是根据本发明实施例四提供的图像处理方法的流程图；

图8是根据本发明实施例五提供的图像处理装置的示意图；以及

图9是根据本发明实施例的可选的计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，提供了一种图像处理方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现图像处理方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的图像处理方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的图像处理方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

在上述运行环境下，本申请提供了如图2所示的图像处理方法。图2是根据本发明实施例一的图像处理方法的流程图。

步骤S101，获取初始图像，其中，初始图像中含有文字的信息。

上述的初始图像可以为视频中的图像，将待处理的视频进行解码抽帧，得到初始图像。

步骤S102，将初始图像输入自编码网络模型，输出已编辑字符信息的图像，其中，自编码网络模型为使用多组训练数据通过机器学习训练得到的，多组训练数据中的训练数据均包括：包括字符信息的图像以及所述包括字符信息的图像对应的已编辑字符信息的图像。

需要说明的是，上述的字符信息可以为字幕信息，也即，在初始图像中的字幕信息。已编辑字符信息的图像，可以为已清除字幕信息的图像。

在输出已编辑字符信息的图像之后，可以对已编辑字符信息的图像进行编码，得到处理后的视频。需要说明的是，上述的已编辑字符信息的图像为已消除字符信息的图像。

通过上述方法，自编码网络模型能够智能识别图像中的字符信息区域并进行填充，输出已编辑字符信息的图像，字符信息编辑效果较以往方法都有很大的提升，还可以输入连续的视频图像帧至自编码网络模型中，也能保证输出视频在时间连续性。

可选地，在本申请实施例一提供的图像处理方法中，在将初始图像输入自编码网络模型之前，该方法还包括：获取训练样本，其中，训练样本中包括：包括字符信息的图像以及包括字符信息的图像对应的已编辑字符信息的图像；对字符信息的图像以及包括字符信息的图像对应的已编辑字符信息的图像通过机器学习训练，得到自编码网络模型。

上述的训练样本中的包括字符信息的图像可以是视频的连续图像帧，通过自编码网络,直接输出字符信息编辑后的视频图像帧。为了获得大规模的视频字符信息数据的训练样本，可以首先构造了一个由视频连续图像帧组成的背景图像数据集，这些图像是不含字符信息的。在训练的时候随机的在图像上加上一些字符信息，这些加了字符信息的图像作为输入，对应的没加字符信息的图像作为真实值用来监督自编码网络模型的训练。由于数据的规模较大且添加的字符信息样式多，能够全自动的完成字符信息区域的提取和填充，保证了字符信息编辑的效果。

另外，上述的自编码网络模型为卷积神经网络。本申请中的用于字符信息编辑的卷积神经网络网络架构并不局限于某一特定形式，网络设计中的网络层数、卷积核大小、特征通道数等在本申请中不作限定。

为了提升处理图像的速度，在本申请实施例一提供的图像处理方法中，将初始图像输入自编码网络模型模型，输出已编辑字符信息的图像包括：对初始图像中的字符信息区域进行剪裁，得到字符信息区域的图像；将字符信息区域的图像输入自编码网络模型，输出已编辑字符信息的图像。

在将字符信息区域的图像输入自编码网络模型，输出已编辑字符信息的图像之前，将字符信息区域的图像的原始尺寸缩小至预设尺寸；将初始图像输入自编码网络模型，输出已编辑字符信息的图像包括：将预设尺寸的字符信息区域的图像输入自编码网络模型，得到已编辑字符信息的区域图像；对已编辑字符信息的区域图像的尺寸放大至原始尺寸；将原始尺寸的已编辑字符信息的图像与对应的初始图像的RGB值进行对比，确定已编辑字符信息的图像上的非字符信息区域；对已编辑字符信息的图像上的非字符信息区域进行回填，输出已编辑字符信息的图像。

可选地，对已编辑字符信息的图像上的非字符信息区域进行回填，输出已编辑字符信息的图像包括：将初始图像中非字符信息区域的像素值作为已编辑字符信息的图像上非字符信息区域的像素值。

也即，非字符信息区域保留原图片的像素值，以免缩放造成信息丢失。

综上，本申请实施例一提供的图像处理方法中，采用自编码网络模型对包括字符信息的图像进行处理的方式，通过获取初始图像，其中，所述初始图像中含有文字的信息；将初始图像输入自编码网络模型，输出已编辑字符信息的图像，其中，所述自编码网络模型为使用多组训练数据通过机器学习训练得到的，所述多组训练数据中的训练数据均包括：包括字符信息的图像以及所述包括字符信息的图像对应的已编辑字符信息的图像，达到了提升对字符信息的编辑速度和准确性的目的，从而实现了全自动的对字符信息进行编辑的技术效果，进而解决了相关技术中对字符信息的编辑效果不佳的技术问题。

需要说明的是，在将初始图像输入自编码网络模型，输出已编辑字符信息的图像之后，在交互界面可接收用户输入的反馈信息，基于用户的交互反馈对自编码模型进行调整，以便更好的对图像进行字符编辑。

另外，还可以根据场景需求对已编辑字符信息的图像进行动画制作，和/或进行相应配乐，以便对已编辑字符信息的图像进行实际应用。

需要说明的是，对于前述的方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的图像方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

根据本发明实施例，还提供了一种图像处理方法，图3是根据本发明实施例二的图像处理方法的流程图。

步骤201，获取训练样本，其中，训练样本中包括：包括字符信息的图像以及包括字符信息的图像对应的已编辑字符信息的图像。

步骤202，对字符信息的图像以及包括字符信息的图像对应的已编辑字符信息的图像通过机器学习训练，得到自编码网络模型。

通过上述方法，公开了如何训练得到自编码网络模型，将待处理图像输入自编码网络模型模型，输出已编辑字符信息的图像。如图4所示，该自编码网络模型能够智能识别图像中的字符信息区域并进行填充，输出已编辑字符信息的图像，字符信息编辑效果较以往方法都有很大的提升，输入连续的视频图像帧至自编码网络模型中，也能保证输出已编辑字符信息的视频在时间连续性。

为了提升处理图像的速度，在本申请实施例二提供的图像处理方法中，将待处理图像输入自编码网络模型模型，输出已编辑字符信息的图像包括：对待处理图像中的字符信息区域进行剪裁，得到字符信息区域的图像；将字符信息区域的图像输入自编码网络模型，输出已编辑字符信息的图像。

在将字符信息区域的图像输入自编码网络模型，输出已编辑字符信息的图像之前，将字符信息区域的图像的原始尺寸缩小至预设尺寸；将待处理图像输入自编码网络模型，输出已编辑字符信息的图像包括：将预设尺寸的字符信息区域的图像输入自编码网络模型，得到已编辑字符信息的区域图像；对已编辑字符信息的区域图像的尺寸放大至原始尺寸；将原始尺寸的已编辑字符信息的图像与对应的待处理图像的RGB值进行对比，确定已编辑字符信息的图像上的非字符信息区域；对已编辑字符信息的图像上的非字符信息区域进行回填，输出已编辑字符信息的图像。

如图5所示，在图5中示意出中了从视频输入之后，对字符信息矩形区域进行剪裁。对剪裁后的图片进行缩放，然后输入预先训练好的卷积神经网络，输出已清除字符信息的图片，对图片上的非字符信息区域进行回填，输出已清除字符信息的图片，整个过程字符信息区域提取鲁棒性高，字符信息区域填充效果佳，同时还保证了输出视频图片帧的时间连续性，避免了跳变的情况。

可选地，对已编辑字符信息的图像上的非字符信息区域进行回填，输出已编辑字符信息的图像包括：将待处理图像中非字符信息区域的像素值作为已编辑字符信息的图像上非字符信息区域的像素值。

综上，本申请实施例二提供的图像处理方法中，可以采用自编码网络模型对包括字符信息的图像进行处理的方式，通过获取训练样本，其中，所述训练样本中包括：包括字符信息的图像以及所述包括字符信息的图像对应的已编辑字符信息的图像；对字符信息的图像以及所述包括字符信息的图像对应的已编辑字符信息的图像通过机器学习训练，得到自编码网络模型，将待处理图像输入训练得到的自编码网络模型模型，输出已编辑字符信息的图像，达到了提升对字符信息的编辑速度和准确性的目的，从而实现了全自动的对字符信息进行编辑的技术效果，进而解决了相关技术中对字符信息的编辑效果不佳的技术问题。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的图像方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例的方法。

实施例3

根据本发明实施例，还提供了一种图像处理方法，图6是根据本发明实施例三的图像处理方法的流程图。

步骤S301，接收客户端发送的服务调用请求，其中，服务调用请求中携带训练样本，其中，训练样本中包括：包括字符信息的图像以及包括字符信息的图像对应的已编辑字符信息的图像。

步骤S302，对包括字符信息的图像以及包括字符信息的图像对应的已编辑字符信息的图像通过机器学习训练。

步骤S303，输出训练结果。

可选地，训练结果为模型参数集合，该方法还包括：将模型参数集合进行打包并发送至客户端。该模型参数集合中的参数用于确定自编码网络模型。将待处理图像输入自编码网络模型模型，输出已编辑字符信息的图像。该自编码网络模型能够智能识别图像中的字符信息区域并进行填充，输出已编辑字符信息的图像，字符信息编辑效果较以往方法都有很大的提升，输入连续的视频图像帧至自编码网络模型中，也能保证输出已编辑字符信息的视频在时间连续性。

需要说明的是，在该客户端上还可以对模型参数集合进行显示。

需要说明的是，本发明实施例三的图像处理方法还可以应用上述实施例一和二的图像处理方法中的可选实施例，在此不在赘述。

实施例4

根据本发明实施例，还提供了一种图像处理方法，图7是根据本发明实施例四的图像处理方法的流程图。

步骤S401，获取初始图像，其中，初始图像中含有字符信息。

步骤S402，对初始图像进行剪裁，得到包含字符信息的区域的图像。

步骤S403，将区域的图像输入自编码网络模型，输出结果图像，其中，结果图像包含已编辑的字符信息。

综上，本申请实施例四提供的图像处理方法中，采用自编码网络模型对包括字符信息的图像进行处理的方式，通过获取初始图像，其中，初始图像中含有文字的信息；对初始图像进行剪裁，得到包含字符信息的区域的图像，将区域的图像输入自编码网络模型，输出已编辑字符信息的图像，其中，自编码网络模型为使用多组训练数据通过机器学习训练得到的，多组训练数据中的训练数据均包括：包括字符信息的图像以及包括字符信息的图像对应的已编辑字符信息的图像，达到了提升对字符信息的编辑速度和准确性的目的，从而实现了全自动的对字符信息进行编辑的技术效果，进而解决了相关技术中对字符信息的编辑效果不佳的技术问题。

需要说明的是，本发明实施例四的图像处理方法还可以应用上述实施例一和二的图像处理方法中的可选实施例，在此不在赘述。

实施例5

根据本发明实施例，还提供了一种用于实施上述实施例一中的图像处理方法的装置，如图8所示，该装置包括：第一获取单元601和第一输出单元602。

具体地，第一获取单元601，用于获取初始图像，其中，初始图像中含有文字的信息；

第一输出单元602，用于将初始图像输入自编码网络模型，输出已编辑字符信息的图像，其中，自编码网络模型为使用多组训练数据通过机器学习训练得到的，多组训练数据中的训练数据均包括：包括字符信息的图像以及包括字符信息的图像对应的已编辑字符信息的图像。

综上，在本申请实施例五提供的图像处理装置中，通过第一获取单元601获取初始图像，其中，初始图像中含有文字的信息；第一输出单元602将初始图像输入自编码网络模型，输出已编辑字符信息的图像，其中，自编码网络模型为使用多组训练数据通过机器学习训练得到的，多组训练数据中的训练数据均包括：包括字符信息的图像以及包括字符信息的图像对应的已编辑字符信息的图像，达到了提升对字符信息的编辑速度和准确性的目的，从而实现了全自动的对字符信息进行编辑的技术效果，进而解决了相关技术中对字符信息的编辑效果不佳的技术问题。

可选的，在本申请实施例五提供的图像处理装置中，第一输出单元包括：第一获取模块，用于对初始图像中的字符信息区域进行剪裁，得到字符信息区域的图像；第一输出模块，用于将字符信息区域的图像输入自编码网络模型，输出已编辑字符信息的图像。

可选的，在本申请实施例五提供的图像处理装置中，该装置还包括：第一处理单元，用于在将字符信息区域的图像输入自编码网络模型，输出已编辑字符信息的图像之前，将字符信息区域的图像的原始尺寸缩小至预设尺寸；第一输出单元包括：第一获取模块，用于将预设尺寸的字符信息区域的图像输入自编码网络模型，得到已编辑字符信息的区域图像；第一处理模块，用于对已编辑字符信息的区域图像的尺寸放大至原始尺寸；第一确定模块，用于将原始尺寸的已编辑字符信息的图像与对应的初始图像的RGB值进行对比，确定已编辑字符信息的图像上的非字符信息区域；第二输出模块，用于对已编辑字符信息的图像上的非字符信息区域进行回填，输出已编辑字符信息的图像。

可选的，在本申请实施例五提供的图像处理装置中，第二输出模块还用于将初始图像中非字符信息区域的像素值作为已编辑字符信息的图像上非字符信息区域的像素值。

可选的，在本申请实施例五提供的图像处理装置中，该装置还包括：第二获取单元，用于在输出已编辑字符信息的图像之后，对已编辑字符信息的图像进行编码，得到处理后的视频。

可选的，在本申请实施例五提供的图像处理装置中，该装置还包括：第五获取单元，用于在获取初始图像之前，将待处理的视频进行解码抽帧，得到初始图像。

可选的，在本申请实施例五提供的图像处理装置中，自编码网络模型为卷积神经网络。

此处需要说明的是，上述的第一获取单元601和第一输出单元602对应于实施例1中的步骤S101至步骤S102，两个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。

实施例6

本发明的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行应用程序的图像处理方法中以下步骤的程序代码：获取初始图像，其中，所述初始图像中含有文字的信息；将初始图像输入自编码网络模型，输出已编辑字符信息的图像，其中，所述自编码网络模型为使用多组训练数据通过机器学习训练得到的，所述多组训练数据中的训练数据均包括：包括字符信息的图像以及所述包括字符信息的图像对应的已编辑字符信息的图像。

上述计算机终端还可以执行应用程序的图像处理方法中以下步骤的程序代码：将初始图像输入自编码网络模型模型，输出已编辑字符信息的图像包括：对初始图像中的字符信息区域进行剪裁，得到字符信息区域的图像；将所述字符信息区域的图像输入自编码网络模型，输出已编辑字符信息的图像。

上述计算机终端还可以执行应用程序的图像处理方法中以下步骤的程序代码：将所述字符信息区域的图像输入自编码网络模型，输出已编辑字符信息的图像之前，所述方法还包括：将所述字符信息区域的图像的原始尺寸缩小至预设尺寸；将初始图像输入自编码网络模型，输出已编辑字符信息的图像包括：将预设尺寸的字符信息区域的图像输入所述自编码网络模型，得到已编辑字符信息的区域图像；对已编辑字符信息的区域图像的尺寸放大至原始尺寸；将原始尺寸的已编辑字符信息的图像与对应的初始图像的RGB值进行对比，确定所述已编辑字符信息的图像上的非字符信息区域；对所述已编辑字符信息的图像上的非字符信息区域进行回填，输出已编辑字符信息的图像。

上述计算机终端还可以执行应用程序的图像处理方法中以下步骤的程序代码：对所述已编辑字符信息的图像上的非字符信息区域进行回填，输出已编辑字符信息的图像包括：将所述初始图像中非字符信息区域的像素值作为所述已编辑字符信息的图像上非字符信息区域的像素值。

上述计算机终端还可以执行应用程序的图像处理方法中以下步骤的程序代码：在获取初始图像之前，所述方法还包括：将待处理的视频进行解码抽帧，得到所述初始图像。

上述计算机终端还可以执行应用程序的图像处理方法中以下步骤的程序代码：在输出已编辑字符信息的图像之后，所述方法还包括：对所述已编辑字符信息的图像进行编码，得到处理后的视频。

上述计算机终端还可以执行应用程序的图像处理方法中以下步骤的程序代码：所述自编码网络模型为卷积神经网络。

可选地，图9是根据本发明实施例的一种计算机终端的结构框图。如图9所示，该计算机终端10可以包括：一个或多个(图9中仅示出一个)处理器、存储器。

其中，存储器可用于存储软件程序以及模块，如本发明实施例中的图像处理方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的图像处理方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取初始图像，其中，所述初始图像中含有文字的信息；将初始图像输入自编码网络模型，输出已编辑字符信息的图像，其中，所述自编码网络模型为使用多组训练数据通过机器学习训练得到的，所述多组训练数据中的训练数据均包括：包括字符信息的图像以及所述包括字符信息的图像对应的已编辑字符信息的图像。

可选的，上述处理器还可以执行如下步骤的程序代码：将初始图像输入自编码网络模型模型，输出已编辑字符信息的图像包括：对初始图像中的字符信息区域进行剪裁，得到字符信息区域的图像；将所述字符信息区域的图像输入自编码网络模型，输出已编辑字符信息的图像。

可选的，上述处理器还可以执行如下步骤的程序代码：将所述字符信息区域的图像输入自编码网络模型，输出已编辑字符信息的图像之前，所述方法还包括：将所述字符信息区域的图像的原始尺寸缩小至预设尺寸；将初始图像输入自编码网络模型，输出已编辑字符信息的图像包括：将预设尺寸的字符信息区域的图像输入所述自编码网络模型，得到已编辑字符信息的区域图像；对已编辑字符信息的区域图像的尺寸放大至原始尺寸；将原始尺寸的已编辑字符信息的图像与对应的初始图像的RGB值进行对比，确定所述已编辑字符信息的图像上的非字符信息区域；对所述已编辑字符信息的图像上的非字符信息区域进行回填，输出已编辑字符信息的图像。

可选的，上述处理器还可以执行如下步骤的程序代码：对所述已编辑字符信息的图像上的非字符信息区域进行回填，输出已编辑字符信息的图像包括：将所述初始图像中非字符信息区域的像素值作为所述已编辑字符信息的图像上非字符信息区域的像素值。

可选的，上述处理器还可以执行如下步骤的程序代码：在获取初始图像之前，所述方法还包括：将待处理的视频进行解码抽帧，得到所述初始图像。

可选的，上述处理器还可以执行如下步骤的程序代码：在输出已编辑字符信息的图像之后，所述方法还包括：对所述已编辑字符信息的图像进行编码，得到处理后的视频。

可选的，上述处理器还可以执行如下步骤的程序代码：所述自编码网络模型为卷积神经网络。

采用本发明实施例，提供了一种图像处理方法的方案。采用自编码网络模型对包括字符信息的图像进行处理的方式，通过获取初始图像，其中，所述初始图像中含有文字的信息；将初始图像输入自编码网络模型，输出已编辑字符信息的图像，其中，所述自编码网络模型为使用多组训练数据通过机器学习训练得到的，所述多组训练数据中的训练数据均包括：包括字符信息的图像以及所述包括字符信息的图像对应的已编辑字符信息的图像，达到了提升对字符信息的编辑速度和准确性的目的，从而实现了全自动的对字符信息进行编辑的技术效果，进而解决了相关技术中对字符信息的编辑效果不佳的技术问题。

本领域普通技术人员可以理解，图9所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图9其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图9中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图9所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例7

本发明的实施例还提供了一种计算机可读的存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例一所提供的图像处理方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取初始图像，其中，所述初始图像中含有文字的信息；将初始图像输入自编码网络模型，输出已编辑字符信息的图像，其中，所述自编码网络模型为使用多组训练数据通过机器学习训练得到的，所述多组训练数据中的训练数据均包括：包括字符信息的图像以及所述包括字符信息的图像对应的已编辑字符信息的图像。

可选地，在本实施例中，存储介质还被设置为存储用于执行以下步骤的程序代码：将初始图像输入自编码网络模型模型，输出已编辑字符信息的图像包括：对初始图像中的字符信息区域进行剪裁，得到字符信息区域的图像；将所述字符信息区域的图像输入自编码网络模型，输出已编辑字符信息的图像。

可选地，在本实施例中，存储介质还被设置为存储用于执行以下步骤的程序代码：将所述字符信息区域的图像输入自编码网络模型，输出已编辑字符信息的图像之前，所述方法还包括：将所述字符信息区域的图像的原始尺寸缩小至预设尺寸；将初始图像输入自编码网络模型，输出已编辑字符信息的图像包括：将预设尺寸的字符信息区域的图像输入所述自编码网络模型，得到已编辑字符信息的区域图像；对已编辑字符信息的区域图像的尺寸放大至原始尺寸；将原始尺寸的已编辑字符信息的图像与对应的初始图像的RGB值进行对比，确定所述已编辑字符信息的图像上的非字符信息区域；对所述已编辑字符信息的图像上的非字符信息区域进行回填，输出已编辑字符信息的图像。

可选地，在本实施例中，存储介质还被设置为存储用于执行以下步骤的程序代码：对所述已编辑字符信息的图像上的非字符信息区域进行回填，输出已编辑字符信息的图像包括：将所述初始图像中非字符信息区域的像素值作为所述已编辑字符信息的图像上非字符信息区域的像素值。

可选地，在本实施例中，存储介质还被设置为存储用于执行以下步骤的程序代码：在获取初始图像之前，所述方法还包括：将待处理的视频进行解码抽帧，得到所述初始图像。

可选地，在本实施例中，存储介质还被设置为存储用于执行以下步骤的程序代码：在输出已编辑字符信息的图像之后，所述方法还包括：对所述已编辑字符信息的图像进行编码，得到处理后的视频。

可选地，在本实施例中，存储介质还被设置为存储用于执行以下步骤的程序代码：所述自编码网络模型为卷积神经网络。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种图像处理方法，其特征在于，包括：

接收客户端发送的服务调用请求，其中，所述服务调用请求中携带训练样本，其中，所述训练样本中包括：包括字符信息的图像，以及所述包括字符信息的图像对应的已编辑字符信息的图像；

对字符信息的图像以及所述包括字符信息的图像对应的已编辑字符信息的图像通过机器学习训练；以及

输出训练结果。

2.根据权利要求1所述的方法，其特征在于，所述训练结果为模型参数集合，所述方法还包括：将所述模型参数集合进行打包并发送至所述客户端。

3.一种图像处理方法，其特征在于，包括：

获取训练样本，其中，所述训练样本中包括：包括字符信息的图像以及所述包括字符信息的图像对应的已编辑字符信息的图像；

对包括字符信息的图像以及所述包括字符信息的图像对应的已编辑字符信息的图像通过机器学习训练，得到自编码网络模型。

4.一种图像处理方法，其特征在于，包括：

获取初始图像，其中，所述初始图像中含有字符信息；

将初始图像输入自编码网络模型，输出已编辑字符信息的图像，其中，所述自编码网络模型为使用多组训练数据通过机器学习训练得到的，所述多组训练数据中的训练数据均包括：包括字符信息的图像以及所述包括字符信息的图像对应的已编辑字符信息的图像。

5.根据权利要求1所述的方法，其特征在于，将初始图像输入自编码网络模型模型，输出已编辑字符信息的图像包括：

对初始图像中的字符信息区域进行剪裁，得到字符信息区域的图像；

将所述字符信息区域的图像输入自编码网络模型，输出已编辑字符信息的图像。

6.根据权利要求5所述的方法，其特征在于，

将所述字符信息区域的图像输入自编码网络模型，输出已编辑字符信息的图像之前，所述方法还包括：将所述字符信息区域的图像的原始尺寸缩小至预设尺寸；

将初始图像输入自编码网络模型，输出已编辑字符信息的图像包括：

将预设尺寸的字符信息区域的图像输入所述自编码网络模型，得到已编辑字符信息的区域图像；

对已编辑字符信息的区域图像的尺寸放大至原始尺寸；

将原始尺寸的已编辑字符信息的图像与对应的初始图像的RGB值进行对比，确定所述已编辑字符信息的图像上的非字符信息区域；

对所述已编辑字符信息的图像上的非字符信息区域进行回填，输出已编辑字符信息的图像。

7.根据权利要求6所述的方法，其特征在于，对所述已编辑字符信息的图像上的非字符信息区域进行回填，输出已编辑字符信息的图像包括：将所述初始图像中非字符信息区域的像素值作为所述已编辑字符信息的图像上非字符信息区域的像素值。

8.根据权利要求4所述的方法，其特征在于，在获取初始图像之前，所述方法还包括：将待处理的视频进行解码抽帧，得到所述初始图像。

9.根据权利要求4所述的方法，其特征在于，在输出已编辑字符信息的图像之后，所述方法还包括：

对所述已编辑字符信息的图像进行编码，得到处理后的视频。

10.根据权利要求4所述的方法，其特征在于，在获取初始图像之前，所述方法还包括：将待处理的视频进行解码抽帧，得到所述初始图像。

11.根据权利要求4所述的方法，其特征在于，所述自编码网络模型为卷积神经网络。

12.一种图像处理装置，其特征在于，包括：

第一获取单元，用于获取初始图像，其中，所述初始图像中含有文字的信息；

第一输出单元，用于将初始图像输入自编码网络模型，输出已编辑字符信息的图像，其中，所述自编码网络模型为使用多组训练数据通过机器学习训练得到的，所述多组训练数据中的训练数据均包括：包括字符信息的图像以及所述包括字符信息的图像对应的已编辑字符信息的图像。

13.一种计算机可读的存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至11中任意一项所述的方法。

14.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至11中任意一项所述的方法。

15.一种图像处理方法，其特征在于，包括：

获取初始图像，其中，所述初始图像中含有字符信息；

对所述初始图像进行剪裁，得到包含所述字符信息的区域的图像；

将所述区域的图像输入自编码网络模型，输出结果图像，

其中，所述结果图像包含已编辑的字符信息。