CN112836692A

CN112836692A - 用于处理图像的方法、装置、设备和介质

Info

Publication number: CN112836692A
Application number: CN202011356103.3A
Authority: CN
Inventors: 杨烨华; 杜宇宁; 郭若愚; 魏胜禹; 赵乔; 刘其文; 毕然; 胡晓光; 于佃海; 马艳军
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2021-05-25
Anticipated expiration: 2040-11-27
Also published as: CN112836692B

Abstract

本申请公开了用于处理图像的方法、装置、设备和介质，涉及人工智能尤其深度学习、图像处理领域。该处理图像方法包括获取初始图像，初始图像包括字符部分。该方法还包括基于初始图像确定初始图像的背景图像，背景图像描述了相对于初始图像的字符的背景。该方法还包括利用背景图像对初始图像进行调整以生成目标图像，目标图像中的对应于字符部分的第一像素的颜色通道的亮度值和对应于非字符部分的第二像素的对应颜色通道的亮度值之间的差值相对于初始图像被增大。通过该方法，可以有效的提高文字图片识别结果的准确性，改进检测的准确率。

Description

用于处理图像的方法、装置、设备和介质

技术领域

本公开的实施例主要涉及人工智能领域，并且更具体地，涉及深度学习和图像处理领域的用于处理图像的方法、装置、设备和介质。

背景技术

图像处理是利用计算机对图像进行分析，以获取所需结果。随着人工智能的发展，图像成为计算机获取信息的重要途径。为了更好的处理图像，在机器学习领域中各种处理图像的方法得到了快速的发展。

深度学习(Deep Learning，DL)是机器学习领域中一个新的研究方向。深度学习是机器学习的一种，其可以用于处理各种图像。深度学习技术在对图像处理以执行各种任务时，不仅需要好的算法模型，还需要高质量的图片数据。

发明内容

本公开提供了一种用于处理图像的方法、装置、设备以及存储介质。

根据本公开的第一方面，提供了一种用于处理图像的方法。该方法包括获取初始图像，初始图像包括字符部分。该方法还包括基于初始图像确定初始图像的背景图像，背景图像描述了相对于初始图像的字符的背景。该方法还包括利用背景图像对初始图像进行调整以生成目标图像，目标图像中的对应于字符部分的第一像素的颜色通道的亮度值和对应于非字符部分的第二像素的对应颜色通道的亮度值之间的差值相对于初始图像被增大。

根据本公开的第二方面，提供了一种用于处理图像的装置。该装置包括初始图像获取模块，被配置为获取初始图像，初始图像包括字符部分；第一背景图像确定模块，被配置为基于初始图像确定初始图像的背景图像，背景图像描述了相对于初始图像的字符的背景；以及目标图像生成模块，被配置为利用背景图像对初始图像进行调整以生成目标图像，目标图像中的对应于字符部分的第一像素的颜色通道的亮度值和对应于非字符部分的第二像素的对应颜色通道的亮度值之间的差值相对于初始图像被增大。

根据本公开的第三方面，提供了一种电子设备。该电子设备包括至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行根据本公开的第一方面的方法。

根据本公开的第四方面，提供一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行根据本公开的第一方面的方法。

根据本公开的第五方面，提供一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现根据本公开的第一方面的方法的步骤

根据本申请的技术解决了图像的调整，提高了获取字符的准确率。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示出了本公开的多个实施例能够在其中实现的环境100的示意图；

图2示出了根据本公开的一些实施例的用于处理图像的方法200的流程图；

图3A示出了用于本公开的一些实施例的图像300的示例；

图3B示出了用于本公开的一些实施例的处理后的图像300的示例；

图4示出了根据本公开的一些实施例的用于获取专用背景确定模型的方法400的流程图；

图5示出了根据本公开的一些实施例的用于处理图像的过程500的流程图；

图6示出了根据本公开的一些实施例的用于处理图像的装置600的框图；以及

图7示出了能够实施本公开的多个实施例的设备700的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

深度学习技术在图像任务上的效果，不仅依赖于优秀的算法模型，同时也依赖于对于高质量的图片数据。

目前主流的获取图像数据的方式，一般通过字符识别进行，例如光学字符识别(optical character recognition，OCR)。目前的OCR技术对于图像处理是有一些局限性的，复杂的背景信息会对识别的结果有多方面的影响。一方面如果背景色和文字比较接近，会导致检测阶段的效果变差，导致文字漏报或者误报。另一方面，如果背景有一些点状信息混合在文字周围，混乱的背景信息极大的干扰了图像的识别能力，又会对文本的识别有较大的影响。

为了克服上述问题，传统的方案是图片数据进行预处理，主要是基本的形状变换。对于背景的处理基本上是基于经验的调整(亮度、色价、对比度、清晰度)。然而，这种方式对于文本数据和背景干扰的处理是完全相同的(加减相同的数字或者放大缩小相同的比例)。从数字信号处理的角度看，信干噪比并不会获取明显的提升，识别的效果也就没有获取增益。

为了至少解决上述问题，根据本公开的实施例，提出一种用于处理图像的改进方案。在该方案中，计算设备获取初始图像。然后计算设备基于初始图像确定初始图像的背景图像，背景图像描述了相对于初始图像的字符的背景。计算设备利用背景图像对初始图像进行调整以生成目标图像，目标图像中的对应于字符部分的第一像素的颜色通道的亮度值和对应于非字符部分的第二像素的对应颜色通道的亮度值之间的差值相对于初始图像被增大。通过该方法，利用与背景有关的先验信息，在准备识别的图片上去除背景信息带来的影响，有效的提高了文字图片识别结果的准确性，改进检测的准确率。

图1示出了本公开的多个实施例能够在其中实现的环境100的示意图。如图1所示，该示例环境100包括计算设备106。

计算设备106用于对初始图像102进行调整以生成目标图像110，使得生成的目标图像110中的字符更易于识别。计算设备106可以被实现为任何类型的计算设备，包括但不限于个人计算机、服务器计算机、手持或膝上型设备、移动设备(诸如移动电话、个人数字助理 (PDA)、媒体播放器等)、多处理器系统、消费电子产品、小型计算机、大型计算机、包括上述系统或设备中的任意一个的分布式计算环境等。

初始图像102为包括字符的图像，其可以用于作为训练机器学习模型的样本。初始图像102的图像格式可以为JPEG、TIFF、RAW及其他任意合适的图像格式。图1中仅示了计算设备106处理一个初始图像102，其仅是示例，而非对本公开的具体限定。在一些实施例中，计算设备106可以处理任意数目的图像。

初始图像102包括字符部分104。在一些实施例中，字符部分104 中的字符为汉字。在一些实施例中，字符部分104中的字符为汉语拼音。在一些实施例中，字符部分104中的字符为英文单词。在一些实施例中，字符部分104中的字符为数字。在一些实施例中，字符部分104中的字符包括汉字和汉语拼音或英文单词的组合。上述示例仅是用于描述本公开，而非对本公开的具体限定。字符部分104中的字符可以包括任意语言的字符或不同语言的字符的组合。

在一些实施例中，字符部分104中的字符为单个字符。在一些实施例中，字符部分104中字符为多个字符。上述示例仅是用于描述本公开，而非对本公开的具体限定。图1中示出了初始图像102包括一个字符部分104，其仅是示例，图像102可以包括任意数目的字符部分。

计算设备106在获取到初始图像102后，会确定初始图像102的背景图像108，该背景图像108描述了相对于初始图像102的字符部分104中的字符的背景。在一些实施例中，计算设备106利用与初始图像102的背景的类型相对应的专用背景确定模型来确定图像102的背景图像108。备选地或附加地，该专用背景确定模型是神经网络模型。在一些实施例中，该专用背景确定模型是由通用背景确定模型生成的。在一些实施例中，该专用背景确定模型由具有该预定类型的背景的图像作为样本输入，该预定类型的背景图像作为样本输出训练得到的。上述示例仅是用于描述本公开，而非对本公开的具体限定。

在一些实施例中，计算设备106利用通用背景确定模型确定初始图像102的背景图像108。该通用背景确定模型是用于确定任意类型的图像的背景的机器学习模型。备选地或附加地，该通用背景确定模型是神经网络模型，其是通过样本图像作为输入和样本图像的背景的作为输出训练得到的。在一些实施例中，计算设备106采用任意合适的图像背景识别方法来确定图像的背景。上述示例仅是用于描述本公开，而非对本公开的具体限定。

计算设备106利用获取的背景图像108来调整初始图像102中的像素的颜色通道的亮度值以生成文字相对于背景更清楚的目标图像 110。在一些实施例中，计算设备106处理图像102使得初始图像102 中对应于字符部分104的像素的颜色通道的亮度值和对应于非字符部分的像素的对应颜色通道的亮度值的差增大。

通过该方法，利用与背景有关的先验信息，在准备识别的图片上去除背景信息带来的影响，有效的提高了文字图片识别结果的准确性，改进检测的准确率。

上面图1示出了本公开的多个实施例的能够在其中实现的环境 100的示意图。下面结合图2描述根据本公开的一些实施例的用于处理图像的方法200的流程图。方法200可以由如图1所示的计算设备 106或其他任意合适的设备来执行。

在框202处，获取初始图像，初始图像包括字符部分。例如计算设备106获取初始图像102。初始图像102包括字符部分104。在一些实施例中，计算设备106从其他计算设备接收初始图像102。在一些实施例中，计算设备106从存储装置或本地存储器获取图像102。上述示例仅是用于描述本公开，而非对本公开的具体限定。

在一些实施例中，初始图像102由于图像背景中有噪声，可能会使得图像不清楚，不易于被识别。例如，图3A中示出了初始图像300，由于其背景噪声比较大，使得在识别图像300中的字符时容易出现字符识别错误。

返回图2，在框204处，基于初始图像确定初始图像的背景图像，背景图像描述了相对于初始图像的字符的背景。例如计算设备106基于初始图像102确定初始图像102的背景图像108，背景图像108描述了相对于初始图像102的字符的背景。在一些实施例中，实始图像 102的背景图像108由一组与初始图像102中的像素点相对应的像素值，例如由颜色通道值表示。上述示例仅是用于描述本公开，而非对本公开的具体限定。

在一些实施例中，计算设备106获取与背景图像108的预定类型相对应的专用背景确定模型，专用背景确定模型是用于确定预定类型的背景图像的机器学习模型。然后计算设备106利用专用背景确定模型来确定初始图像102的背景图像108。通过这种方式，计算设备可以获取更准确的背景图像，提高了准确率。

在一些实施例中，该专用背景确定模型由具有该预定类型的背景的图像作为样本输入，该预定类型的背景图像作为样本输出训练得到的。在一些实施例中，该专用背景确定模型是由通用背景确定模型生成的。由通用背景模型确定专用背景模型的过程将在下面结合图4进行详细描述。上述示例仅是用于描述本公开，而非对本公开的具体限定。

在一些实施例中，计算设备106直接使用通用背景确定模型来确定初始图像102的背景图像108。在一些实施例中，计算设备106可以采用任意合适的方法来获取初始图像102的背景图像108。上述示例仅是用于描述本公开，而非对本公开的具体限定。

在框206处，利用背景图像对初始图像进行调整以生成目标图像，目标图像中的对应于字符部分的第一像素的颜色通道的亮度值和对应于非字符部分的第二像素的对应颜色通道的亮度值之间的差值相对于初始图像被增大。例如，计算设备106利用背景图像108对初始图像102进行调整以生成目标图像110，目标图像110中的对应于字符部分104的第一像素的颜色通道的亮度值和对应于非字符部分的第二像素的对应颜色通道的亮度值之间的差值相对于初始图像102被增大。例如，如图3B所示，经过处理的目标图像300中背景和字符区别较大，易于进行识别，而且不易出现字符识别错误。

在一些实施例中，计算设备106将初始图像102和背景图像108 输入图像调整模型以对初始图像102进行调整，图像调整模型是用于调整图像中的像素的颜色通道的亮度值以使得图像中对应于字符的像素的颜色通道的高度值和对应于非字符部分的像素的对应颜色通道的亮度值之间的差值增大的机器学习模型。通过该方式，可以快速的对初始图像进行调整，提高了图像处理效率，节省了处理时间。

在一些实施例中，计算设备106可以使用任意合适的方法来利用背景图像108来调整初始图像102以生成目标图像110。在一些实施例中，将初始图像102的背景部分的像素的颜色通道的亮度值设置为背景图像108的对应部分的像素的对应颜色通道的亮度值，而保持始图像102中的字符部分104的像素的颜色通道的亮度值不变来形成目标图像110。在一些实施例中，可以将初始图像102中的字符部分104 的几个像素的对应颜色通道的亮度值加和求平均来确定目标图像110 中字符部分的像素的对应颜色通道的亮度值，然后将背景图像108中对应于初始图像102的非字符部分的几个像素的对应颜色通道的亮度值加和求平均来确定目标图像110中的非字符部分的像素的颜色通道的亮度值。上述示例仅是用于描述本公开，而非对本公的具体限定。

在一些实施例中，目标图像110或初始图像102的颜色通道模式包括RGB模式，R表示红色通道，G表示绿色通道，B表示蓝色通道。在一些实施例中，图像的颜色通道模式包括CMYK模式，其中C 表示青色通道，M表示品红色通道，Y表示黄色通道，K表示黑色通道。上述示例仅是用于描述本公开，而非对本公开的具体限定。图像的颜色通道模式可以包括任意合适的模式。

在一些实施例中，目标图像110中的对应于字符部分的第一像素的一个颜色通道的亮度值和对应于非字符部分的第二像素的一个对应颜色通道的亮度值之间的差值相对于初始图像被增大。在一些实施例中，目标图像110中的对应于字符部分的第一像素的三个颜色通道的亮度值和对应于非字符部分的第二像素的三个对应颜色通道的亮度值之间的三个差值相对于初始图像被增大。上述示例仅是用于描述本公开，而非对本公开的具体限定。目标图像110中的对应于字符部分的第一像素的任意合适数目的颜色通道的亮度值和对应于非字符部分的第二像素的任意数目的对应颜色通道的亮度值之间的差值相对于初始图像被增大。

在一些实施例中，计算设备106对目标图像110进行识别以确定目标图像110中的字符。然后，计算设备106相关联地存储字符和初始图像102。通过该方式，可以快速准确地识别同图像中的字符，提高了字符识别的准确率。

通过上述方法，利用与背景有关的先验信息，在准备识别的图片上去除背景信息带来的影响，有效的提高了文字图片识别结果的准确性，改进检测的准确率。

上面结合图2和图3描述了根据本公开的一些实施例的用于处理图像的方法200的流程图。下面结合图4详细描述处理参考字符的过程。图4示出了根据本公开的一些实施例的用于获取专用背景确定模型的方法400的流程图。方法400可以由如图1所示的计算设备106 或其他任意合适的设备来执行。

在框402处，获取通用背景确定模型，通用背景确定模型是用于确定多种类型的背景图像的机器学习模型。例如，计算设备106获取通用背景确定模型，通用背景确定模型是用于确定多种类型的背景图像的机器学习模型。在一些实施例中，该通用背景模型是神经网络模型，是利用图像和图像的背景作为输入和输出训练得到的。

在框404处，获取与预定类型相对应的样本背景图像。例如，计算设备106获取与预定类型相对应的样本背景图像。由于需要确定专用背景类型确定模型，因此使用该预定类型的样本背景图像来训练通用背景确定模型，以使得该通用背景模型能够细化到该特定类型的背景。

在框406处，对样本背景图像进行调整以获取多个经调整的样本背景图像。例如，计算设备106对样本背景图像进行调整以获取多个经调整的样本背景图像。对于获取的样本背景图像，可以通过对图像进行调整来获取多个经过调整的样本图像以增强图像样本数据，例如，旋转、缩放、翻转、剪裁图像等。上述示例仅是用于描述本公开，而非对本公开的具体限定。

在框408处，使用多个经调整的样本背景图像来训练通用背景确定模型以获取专用背景确定模型。例如，计算设备106使用多个经调整的样本背景图像来训练通用背景确定模型以获取专用背景确定模型。计算设备106通过将样本背景图像同时作为通过背景确定模型的输入和输出进行训练以获取专用背景图像确定模型。

通过上述方式，可以快速的训练出专用图像背景确定模型，节省了训练模型的时间，提高了处理效率。

上面结合图4描述了用于获取专用背景图像确定模型的方法 400。下面结合图5描述用于处理图像的过程500的示例。过程500 可以由如图1所示的计算设备106或其他任意合适的设备来执行。

如图5所示，过程500在框502处开始。然后，在框504处，计算设备106启动用于处理图像的软件。在框506处，计算设备106确定是否调整默认参数。此处的参数是用于确定要导入的模型处理的图像的大小以及处理的图像的背景与何种类型的背景的相关程度的参数。如果需要调整默认参数，则在框508处，由用户配置参数。在确定使用默认参数或配置参数后，在框510处，计算设备106导入预训练模型。该预训练模型至少包括两个子模型：通用图像背景确定模型和图像调整模型。

然后在框512处，在计算设备106中批量导入背景图像。导入的背景图像均是对应于同一类型的背景的图像，例如金属背景、卡证背景、水印背景或条纹背景等。在框514处，利用导入的背景图像来训练通用背景确定模型来获取专用背景确定模型。在框516处，计算设备106接收测试图像。然后在框518处，计算设备106调整图像背景。计算设备106利用专用图像背景确定模型确定图像102的背景图像。然后将背景和图像102输入图像调整模型以调整图像中的像素的颜色通道的亮度值以使得图像中对应于字符部分的像素的颜色通道的亮度值和对应于非字符部分的像素的对应颜色通道的亮度值之间的差值增大。在框520处，计算设备106对调整过的图像进行图像识别。在框522处，将识别的文字与图像进行关联地存储。然后过程500在框524结束。

通过上述方法，可以有效的提高文字图片识别结果的准确性，改进检测的准确率。

图6示出了根据本公开实施例的用于处理图像的装置600的示意性框图。如图6所示，装置600包括初始图像获取模块602，被配置为获取初始图像，初始图像包括字符。装置600包括初始图像获取模块602，被配置为获取初始图像，初始图像包括字符部分。装置600还包括第一背景图像确定模块604，被配置为基于初始图像确定初始图像的背景图像，背景图像描述了相对于初始图像的字符的背景。装置600还包括目标图像生成模块606，被配置为利用背景图像对初始图像进行调整以生成目标图像，目标图像中的对应于字符部分的第一像素的颜色通道的亮度值和对应于非字符部分的第二像素的对应颜色通道的亮度值之间的差值相对于初始图像被增大。

在一些实施例中，第一背景图像确定模块604包括专用背景确定模型获取模块，被配置为获取与背景图像的预定类型相对应的专用背景确定模型，专用背景确定模型是用于确定预定类型的背景图像的机器学习模型；以及第二背景图像确定模块，被配置为利用专用背景确定模型来确定初始图像的背景图像。

在一些实施例中，专用背景确定模型获取模块包括通用背景确定模型获取模块，被配置为获取通用背景确定模型，通用背景确定模型是用于确定多种类型的背景图像的机器学习模型；样本背景图像获取模块，被配置为获取与预定类型相对应的样本背景图像；样本背景图像调整模块，被配置为对样本背景图像进行调整以获取多个经调整的样本背景图像；以及训练模块，被配置为使用多个经调整的样本背景图像来训练通用背景确定模型以获取专用背景确定模型。

在一些实施例中，目标图像生成模块606包括初始图像调整模块，被配置为将初始图像和背景图像输入图像调整模型以对初始图像进行调整，图像调整模型是用于将图像中对应于字符部分的第一像素的颜色通道的亮度值和对应于非字符部分的第二像素的对应颜色通道的亮度值之间的差值增大的机器学习模型。

在一些实施例中，装置600还包括识别模块，被配置为对目标图像进行识别以确定目标图像中的字符；以及存储模块，被配置为相关联地存储字符和初始图像。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

图7示出了可以用来实施本公开的实施例的电子设备700的示意性框图。设备700可以用于实现图1中的计算设备106。如图所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM) 702中的计算机程序指令或者从存储单元708加载到随机访问存储器 (RAM)703中的计算机程序指令，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/ 输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/ 数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元 (CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元 701执行上文所描述的各个方法和处理，例如方法200和400。例如，在一些实施例中，方法200和400可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的方法200和400的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法200和400。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM 或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种用于处理图像的方法，包括：

获取初始图像，所述初始图像包括字符部分；

基于所述初始图像确定所述初始图像的背景图像，所述背景图像描述了相对于所述初始图像的字符的背景；以及

利用所述背景图像对所述初始图像进行调整以生成目标图像，所述目标图像中的对应于所述字符部分的第一像素的颜色通道的亮度值和对应于所述非字符部分的第二像素的对应颜色通道的亮度值之间的差值相对于所述初始图像被增大。

2.根据权利要求1所述方法，其中确定所述背景图像包括：

获取与所述背景图像的预定类型相对应的专用背景确定模型，所述专用背景确定模型是用于确定所述预定类型的背景图像的机器学习模型；以及

利用所述专用背景确定模型来确定所述初始图像的所述背景图像。

3.根据权利要求2所述的方法，其中获取所述专用背景确定模型包括

获取通用背景确定模型，所述通用背景确定模型是用于确定多种类型的背景图像的机器学习模型；

获取与所述预定类型相对应的样本背景图像；

对所述样本背景图像进行调整以获取多个经调整的样本背景图像；以及

使用所述多个经调整的样本背景图像来训练所述通用背景确定模型以获取所述专用背景确定模型。

4.根据权利要求1所述的方法，其中对所述初始图像进行调整包括：

将所述初始图像和所述背景图像输入图像调整模型以对所述初始图像进行调整，所述图像调整模型是用于将所述图像中对应于所述字符部分的所述第一像素的所述颜色通道的亮度值和对应于所述非字符部分的所述第二像素的所述对应颜色通道的亮度值之间的差值增大的机器学习模型。

5.根据权利要求1所述的方法，还包括：

对所述目标图像进行识别以确定所述目标图像中的所述字符；以及

相关联地存储所述字符和所述初始图像。

6.一种用于处理图像的装置，包括：

初始图像获取模块，被配置为获取初始图像，所述初始图像包括字符部分；

第一背景图像确定模块，被配置为基于所述初始图像确定所述初始图像的背景图像，所述背景图像描述了相对于所述初始图像的字符的背景；以及

目标图像生成模块，被配置为利用所述背景图像对所述初始图像进行调整以生成目标图像，所述目标图像中的对应于所述字符部分的第一像素的颜色通道的亮度值和对应于所述非字符部分的第二像素的对应颜色通道的亮度值之间的差值相对于所述初始图像被增大。

7.根据权利要求6所述装置，其中所述第一背景图像确定模块包括：

专用背景确定模型获取模块，被配置为获取与所述背景图像的预定类型相对应的专用背景确定模型，所述专用背景确定模型是用于确定所述预定类型的背景图像的机器学习模型；以及

第二背景图像确定模块，被配置为利用所述专用背景确定模型来确定所述初始图像的所述背景图像。

8.根据权利要求7所述的装置，其中所述专用背景确定模型获取模块包括

通用背景确定模型获取模块，被配置为获取通用背景确定模型，所述通用背景确定模型是用于确定多种类型的背景图像的机器学习模型；

样本背景图像获取模块，被配置为获取与所述预定类型相对应的样本背景图像；

样本背景图像调整模块，被配置为对所述样本背景图像进行调整以获取多个经调整的样本背景图像；以及

训练模块，被配置为使用所述多个经调整的样本背景图像来训练所述通用背景确定模型以获取所述专用背景确定模型。

9.根据权利要求6所述的装置，其中所述目标图像生成模块包括：

初始图像调整模块，被配置为将所述初始图像和所述背景图像输入图像调整模型以对所述初始图像进行调整，所述图像调整模型是用于将所述图像中对应于所述字符部分的所述第一像素的所述颜色通道的亮度值和对应于所述非字符部分的所述第二像素的所述对应颜色通道的亮度值之间的差值增大的机器学习模型。

10.根据权利要求6所述的装置，还包括：

识别模块，被配置为对所述目标图像进行识别以确定所述目标图像中的所述字符；以及

存储模块，被配置为相关联地存储所述字符和所述初始图像。

11.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。

13.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-5中任一项所述的方法的步骤。