CN112836692A - 用于处理图像的方法、装置、设备和介质 - Google Patents

用于处理图像的方法、装置、设备和介质 Download PDF

Info

Publication number
CN112836692A
CN112836692A CN202011356103.3A CN202011356103A CN112836692A CN 112836692 A CN112836692 A CN 112836692A CN 202011356103 A CN202011356103 A CN 202011356103A CN 112836692 A CN112836692 A CN 112836692A
Authority
CN
China
Prior art keywords
image
background
initial image
initial
determination model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011356103.3A
Other languages
English (en)
Other versions
CN112836692B (zh
Inventor
杨烨华
杜宇宁
郭若愚
魏胜禹
赵乔
刘其文
毕然
胡晓光
于佃海
马艳军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202011356103.3A priority Critical patent/CN112836692B/zh
Publication of CN112836692A publication Critical patent/CN112836692A/zh
Application granted granted Critical
Publication of CN112836692B publication Critical patent/CN112836692B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

本申请公开了用于处理图像的方法、装置、设备和介质,涉及人工智能尤其深度学习、图像处理领域。该处理图像方法包括获取初始图像,初始图像包括字符部分。该方法还包括基于初始图像确定初始图像的背景图像,背景图像描述了相对于初始图像的字符的背景。该方法还包括利用背景图像对初始图像进行调整以生成目标图像,目标图像中的对应于字符部分的第一像素的颜色通道的亮度值和对应于非字符部分的第二像素的对应颜色通道的亮度值之间的差值相对于初始图像被增大。通过该方法,可以有效的提高文字图片识别结果的准确性,改进检测的准确率。

Description

用于处理图像的方法、装置、设备和介质
技术领域
本公开的实施例主要涉及人工智能领域,并且更具体地,涉及深度学 习和图像处理领域的用于处理图像的方法、装置、设备和介质。
背景技术
图像处理是利用计算机对图像进行分析,以获取所需结果。随着人工 智能的发展,图像成为计算机获取信息的重要途径。为了更好的处理图像, 在机器学习领域中各种处理图像的方法得到了快速的发展。
深度学习(Deep Learning,DL)是机器学习领域中一个新的研究方向。 深度学习是机器学习的一种,其可以用于处理各种图像。深度学习技术在 对图像处理以执行各种任务时,不仅需要好的算法模型,还需要高质量的 图片数据。
发明内容
本公开提供了一种用于处理图像的方法、装置、设备以及存储介质。
根据本公开的第一方面,提供了一种用于处理图像的方法。该方法包 括获取初始图像,初始图像包括字符部分。该方法还包括基于初始图 像确定初始图像的背景图像,背景图像描述了相对于初始图像的字符 的背景。该方法还包括利用背景图像对初始图像进行调整以生成目标 图像,目标图像中的对应于字符部分的第一像素的颜色通道的亮度值和对应于非字符部分的第二像素的对应颜色通道的亮度值之间的差 值相对于初始图像被增大。
根据本公开的第二方面,提供了一种用于处理图像的装置。该装置包 括初始图像获取模块,被配置为获取初始图像,初始图像包括字符部分; 第一背景图像确定模块,被配置为基于初始图像确定初始图像的背景图 像,背景图像描述了相对于初始图像的字符的背景;以及目标图像生成模 块,被配置为利用背景图像对初始图像进行调整以生成目标图像,目标图 像中的对应于字符部分的第一像素的颜色通道的亮度值和对应于非字符 部分的第二像素的对应颜色通道的亮度值之间的差值相对于初始图像被 增大。
根据本公开的第三方面,提供了一种电子设备。该电子设备包括至少 一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存 储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使 至少一个处理器能够执行根据本公开的第一方面的方法。
根据本公开的第四方面,提供一种存储有计算机指令的非瞬时计算机 可读存储介质,计算机指令用于使计算机执行根据本公开的第一方面的方 法。
根据本公开的第五方面,提供一种计算机程序产品,包括计算机程序, 其特征在于,所述计算机程序被处理器执行时实现根据本公开的第一方面 的方法的步骤
根据本申请的技术解决了图像的调整,提高了获取字符的准确率。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键 或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下 的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1示出了本公开的多个实施例能够在其中实现的环境100的示意 图;
图2示出了根据本公开的一些实施例的用于处理图像的方法200的流 程图;
图3A示出了用于本公开的一些实施例的图像300的示例;
图3B示出了用于本公开的一些实施例的处理后的图像300的示例;
图4示出了根据本公开的一些实施例的用于获取专用背景确定模型 的方法400的流程图;
图5示出了根据本公开的一些实施例的用于处理图像的过程500的流 程图;
图6示出了根据本公开的一些实施例的用于处理图像的装置600的框 图;以及
图7示出了能够实施本公开的多个实施例的设备700的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申 请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。 因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做 出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清 楚和简明,以下的描述中省略了对公知功能和结构的描述。
在本公开的实施例的描述中,术语“包括”及其类似用语应当理解 为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分 地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施 例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还 可能包括其他明确的和隐含的定义。
深度学习技术在图像任务上的效果,不仅依赖于优秀的算法模 型,同时也依赖于对于高质量的图片数据。
目前主流的获取图像数据的方式,一般通过字符识别进行,例如 光学字符识别(optical character recognition,OCR)。目前的OCR技 术对于图像处理是有一些局限性的,复杂的背景信息会对识别的结果 有多方面的影响。一方面如果背景色和文字比较接近,会导致检测阶 段的效果变差,导致文字漏报或者误报。另一方面,如果背景有一些 点状信息混合在文字周围,混乱的背景信息极大的干扰了图像的识别 能力,又会对文本的识别有较大的影响。
为了克服上述问题,传统的方案是图片数据进行预处理,主要是 基本的形状变换。对于背景的处理基本上是基于经验的调整(亮度、 色价、对比度、清晰度)。然而,这种方式对于文本数据和背景干扰 的处理是完全相同的(加减相同的数字或者放大缩小相同的比例)。 从数字信号处理的角度看,信干噪比并不会获取明显的提升,识别的 效果也就没有获取增益。
为了至少解决上述问题,根据本公开的实施例,提出一种用于处 理图像的改进方案。在该方案中,计算设备获取初始图像。然后计算 设备基于初始图像确定初始图像的背景图像,背景图像描述了相对于 初始图像的字符的背景。计算设备利用背景图像对初始图像进行调整 以生成目标图像,目标图像中的对应于字符部分的第一像素的颜色通 道的亮度值和对应于非字符部分的第二像素的对应颜色通道的亮度 值之间的差值相对于初始图像被增大。通过该方法,利用与背景有关 的先验信息,在准备识别的图片上去除背景信息带来的影响,有效的 提高了文字图片识别结果的准确性,改进检测的准确率。
图1示出了本公开的多个实施例能够在其中实现的环境100的示 意图。如图1所示,该示例环境100包括计算设备106。
计算设备106用于对初始图像102进行调整以生成目标图像110, 使得生成的目标图像110中的字符更易于识别。计算设备106可以被 实现为任何类型的计算设备,包括但不限于个人计算机、服务器计算 机、手持或膝上型设备、移动设备(诸如移动电话、个人数字助理 (PDA)、媒体播放器等)、多处理器系统、消费电子产品、小型计 算机、大型计算机、包括上述系统或设备中的任意一个的分布式计算 环境等。
初始图像102为包括字符的图像,其可以用于作为训练机器学习 模型的样本。初始图像102的图像格式可以为JPEG、TIFF、RAW及 其他任意合适的图像格式。图1中仅示了计算设备106处理一个初始 图像102,其仅是示例,而非对本公开的具体限定。在一些实施例中, 计算设备106可以处理任意数目的图像。
初始图像102包括字符部分104。在一些实施例中,字符部分104 中的字符为汉字。在一些实施例中,字符部分104中的字符为汉语拼 音。在一些实施例中,字符部分104中的字符为英文单词。在一些实 施例中,字符部分104中的字符为数字。在一些实施例中,字符部分104中的字符包括汉字和汉语拼音或英文单词的组合。上述示例仅是 用于描述本公开,而非对本公开的具体限定。字符部分104中的字符 可以包括任意语言的字符或不同语言的字符的组合。
在一些实施例中,字符部分104中的字符为单个字符。在一些实 施例中,字符部分104中字符为多个字符。上述示例仅是用于描述本 公开,而非对本公开的具体限定。图1中示出了初始图像102包括一 个字符部分104,其仅是示例,图像102可以包括任意数目的字符部 分。
计算设备106在获取到初始图像102后,会确定初始图像102的 背景图像108,该背景图像108描述了相对于初始图像102的字符部 分104中的字符的背景。在一些实施例中,计算设备106利用与初始 图像102的背景的类型相对应的专用背景确定模型来确定图像102的 背景图像108。备选地或附加地,该专用背景确定模型是神经网络模 型。在一些实施例中,该专用背景确定模型是由通用背景确定模型生 成的。在一些实施例中,该专用背景确定模型由具有该预定类型的背 景的图像作为样本输入,该预定类型的背景图像作为样本输出训练得 到的。上述示例仅是用于描述本公开,而非对本公开的具体限定。
在一些实施例中,计算设备106利用通用背景确定模型确定初始 图像102的背景图像108。该通用背景确定模型是用于确定任意类型 的图像的背景的机器学习模型。备选地或附加地,该通用背景确定模 型是神经网络模型,其是通过样本图像作为输入和样本图像的背景的 作为输出训练得到的。在一些实施例中,计算设备106采用任意合适 的图像背景识别方法来确定图像的背景。上述示例仅是用于描述本公 开,而非对本公开的具体限定。
计算设备106利用获取的背景图像108来调整初始图像102中的 像素的颜色通道的亮度值以生成文字相对于背景更清楚的目标图像 110。在一些实施例中,计算设备106处理图像102使得初始图像102 中对应于字符部分104的像素的颜色通道的亮度值和对应于非字符部 分的像素的对应颜色通道的亮度值的差增大。
通过该方法,利用与背景有关的先验信息,在准备识别的图片上 去除背景信息带来的影响,有效的提高了文字图片识别结果的准确 性,改进检测的准确率。
上面图1示出了本公开的多个实施例的能够在其中实现的环境 100的示意图。下面结合图2描述根据本公开的一些实施例的用于处 理图像的方法200的流程图。方法200可以由如图1所示的计算设备 106或其他任意合适的设备来执行。
在框202处,获取初始图像,初始图像包括字符部分。例如计算 设备106获取初始图像102。初始图像102包括字符部分104。在一 些实施例中,计算设备106从其他计算设备接收初始图像102。在一 些实施例中,计算设备106从存储装置或本地存储器获取图像102。上述示例仅是用于描述本公开,而非对本公开的具体限定。
在一些实施例中,初始图像102由于图像背景中有噪声,可能会 使得图像不清楚,不易于被识别。例如,图3A中示出了初始图像300, 由于其背景噪声比较大,使得在识别图像300中的字符时容易出现字 符识别错误。
返回图2,在框204处,基于初始图像确定初始图像的背景图像, 背景图像描述了相对于初始图像的字符的背景。例如计算设备106基 于初始图像102确定初始图像102的背景图像108,背景图像108描 述了相对于初始图像102的字符的背景。在一些实施例中,实始图像 102的背景图像108由一组与初始图像102中的像素点相对应的像素 值,例如由颜色通道值表示。上述示例仅是用于描述本公开,而非对 本公开的具体限定。
在一些实施例中,计算设备106获取与背景图像108的预定类型 相对应的专用背景确定模型,专用背景确定模型是用于确定预定类型 的背景图像的机器学习模型。然后计算设备106利用专用背景确定模 型来确定初始图像102的背景图像108。通过这种方式,计算设备可 以获取更准确的背景图像,提高了准确率。
在一些实施例中,该专用背景确定模型由具有该预定类型的背景 的图像作为样本输入,该预定类型的背景图像作为样本输出训练得到 的。在一些实施例中,该专用背景确定模型是由通用背景确定模型生 成的。由通用背景模型确定专用背景模型的过程将在下面结合图4进 行详细描述。上述示例仅是用于描述本公开,而非对本公开的具体限 定。
在一些实施例中,计算设备106直接使用通用背景确定模型来确 定初始图像102的背景图像108。在一些实施例中,计算设备106可 以采用任意合适的方法来获取初始图像102的背景图像108。上述示 例仅是用于描述本公开,而非对本公开的具体限定。
在框206处,利用背景图像对初始图像进行调整以生成目标图像, 目标图像中的对应于字符部分的第一像素的颜色通道的亮度值和对 应于非字符部分的第二像素的对应颜色通道的亮度值之间的差值相 对于初始图像被增大。例如,计算设备106利用背景图像108对初始 图像102进行调整以生成目标图像110,目标图像110中的对应于字 符部分104的第一像素的颜色通道的亮度值和对应于非字符部分的第 二像素的对应颜色通道的亮度值之间的差值相对于初始图像102被增 大。例如,如图3B所示,经过处理的目标图像300中背景和字符区 别较大,易于进行识别,而且不易出现字符识别错误。
在一些实施例中,计算设备106将初始图像102和背景图像108 输入图像调整模型以对初始图像102进行调整,图像调整模型是用于 调整图像中的像素的颜色通道的亮度值以使得图像中对应于字符的 像素的颜色通道的高度值和对应于非字符部分的像素的对应颜色通 道的亮度值之间的差值增大的机器学习模型。通过该方式,可以快速 的对初始图像进行调整,提高了图像处理效率,节省了处理时间。
在一些实施例中,计算设备106可以使用任意合适的方法来利用 背景图像108来调整初始图像102以生成目标图像110。在一些实施 例中,将初始图像102的背景部分的像素的颜色通道的亮度值设置为 背景图像108的对应部分的像素的对应颜色通道的亮度值,而保持始 图像102中的字符部分104的像素的颜色通道的亮度值不变来形成目 标图像110。在一些实施例中,可以将初始图像102中的字符部分104 的几个像素的对应颜色通道的亮度值加和求平均来确定目标图像110 中字符部分的像素的对应颜色通道的亮度值,然后将背景图像108中 对应于初始图像102的非字符部分的几个像素的对应颜色通道的亮度值加和求平均来确定目标图像110中的非字符部分的像素的颜色通道 的亮度值。上述示例仅是用于描述本公开,而非对本公的具体限定。
在一些实施例中,目标图像110或初始图像102的颜色通道模式 包括RGB模式,R表示红色通道,G表示绿色通道,B表示蓝色通 道。在一些实施例中,图像的颜色通道模式包括CMYK模式,其中C 表示青色通道,M表示品红色通道,Y表示黄色通道,K表示黑色通 道。上述示例仅是用于描述本公开,而非对本公开的具体限定。图像 的颜色通道模式可以包括任意合适的模式。
在一些实施例中,目标图像110中的对应于字符部分的第一像素 的一个颜色通道的亮度值和对应于非字符部分的第二像素的一个对 应颜色通道的亮度值之间的差值相对于初始图像被增大。在一些实施 例中,目标图像110中的对应于字符部分的第一像素的三个颜色通道 的亮度值和对应于非字符部分的第二像素的三个对应颜色通道的亮 度值之间的三个差值相对于初始图像被增大。上述示例仅是用于描述 本公开,而非对本公开的具体限定。目标图像110中的对应于字符部 分的第一像素的任意合适数目的颜色通道的亮度值和对应于非字符 部分的第二像素的任意数目的对应颜色通道的亮度值之间的差值相对于初始图像被增大。
在一些实施例中,计算设备106对目标图像110进行识别以确定 目标图像110中的字符。然后,计算设备106相关联地存储字符和初 始图像102。通过该方式,可以快速准确地识别同图像中的字符,提 高了字符识别的准确率。
通过上述方法,利用与背景有关的先验信息,在准备识别的图片 上去除背景信息带来的影响,有效的提高了文字图片识别结果的准确 性,改进检测的准确率。
上面结合图2和图3描述了根据本公开的一些实施例的用于处理 图像的方法200的流程图。下面结合图4详细描述处理参考字符的过 程。图4示出了根据本公开的一些实施例的用于获取专用背景确定模 型的方法400的流程图。方法400可以由如图1所示的计算设备106 或其他任意合适的设备来执行。
在框402处,获取通用背景确定模型,通用背景确定模型是用于 确定多种类型的背景图像的机器学习模型。例如,计算设备106获取 通用背景确定模型,通用背景确定模型是用于确定多种类型的背景图 像的机器学习模型。在一些实施例中,该通用背景模型是神经网络模 型,是利用图像和图像的背景作为输入和输出训练得到的。
在框404处,获取与预定类型相对应的样本背景图像。例如,计 算设备106获取与预定类型相对应的样本背景图像。由于需要确定专 用背景类型确定模型,因此使用该预定类型的样本背景图像来训练通 用背景确定模型,以使得该通用背景模型能够细化到该特定类型的背 景。
在框406处,对样本背景图像进行调整以获取多个经调整的样本 背景图像。例如,计算设备106对样本背景图像进行调整以获取多个 经调整的样本背景图像。对于获取的样本背景图像,可以通过对图像 进行调整来获取多个经过调整的样本图像以增强图像样本数据,例 如,旋转、缩放、翻转、剪裁图像等。上述示例仅是用于描述本公开, 而非对本公开的具体限定。
在框408处,使用多个经调整的样本背景图像来训练通用背景确 定模型以获取专用背景确定模型。例如,计算设备106使用多个经调 整的样本背景图像来训练通用背景确定模型以获取专用背景确定模 型。计算设备106通过将样本背景图像同时作为通过背景确定模型的 输入和输出进行训练以获取专用背景图像确定模型。
通过上述方式,可以快速的训练出专用图像背景确定模型,节省 了训练模型的时间,提高了处理效率。
上面结合图4描述了用于获取专用背景图像确定模型的方法 400。下面结合图5描述用于处理图像的过程500的示例。过程500 可以由如图1所示的计算设备106或其他任意合适的设备来执行。
如图5所示,过程500在框502处开始。然后,在框504处,计 算设备106启动用于处理图像的软件。在框506处,计算设备106确 定是否调整默认参数。此处的参数是用于确定要导入的模型处理的图 像的大小以及处理的图像的背景与何种类型的背景的相关程度的参 数。如果需要调整默认参数,则在框508处,由用户配置参数。在确 定使用默认参数或配置参数后,在框510处,计算设备106导入预训 练模型。该预训练模型至少包括两个子模型:通用图像背景确定模型 和图像调整模型。
然后在框512处,在计算设备106中批量导入背景图像。导入的 背景图像均是对应于同一类型的背景的图像,例如金属背景、卡证背 景、水印背景或条纹背景等。在框514处,利用导入的背景图像来训 练通用背景确定模型来获取专用背景确定模型。在框516处,计算设 备106接收测试图像。然后在框518处,计算设备106调整图像背景。 计算设备106利用专用图像背景确定模型确定图像102的背景图像。 然后将背景和图像102输入图像调整模型以调整图像中的像素的颜色 通道的亮度值以使得图像中对应于字符部分的像素的颜色通道的亮 度值和对应于非字符部分的像素的对应颜色通道的亮度值之间的差 值增大。在框520处,计算设备106对调整过的图像进行图像识别。 在框522处,将识别的文字与图像进行关联地存储。然后过程500在 框524结束。
通过上述方法,可以有效的提高文字图片识别结果的准确性,改 进检测的准确率。
图6示出了根据本公开实施例的用于处理图像的装置600的示意 性框图。如图6所示,装置600包括初始图像获取模块602,被配置 为获取初始图像,初始图像包括字符。装置600包括初始图像获取模 块602,被配置为获取初始图像,初始图像包括字符部分。装置600还包括第一背景图像确定模块604,被配置为基于初始图像确定初始 图像的背景图像,背景图像描述了相对于初始图像的字符的背景。装 置600还包括目标图像生成模块606,被配置为利用背景图像对初始 图像进行调整以生成目标图像,目标图像中的对应于字符部分的第一 像素的颜色通道的亮度值和对应于非字符部分的第二像素的对应颜 色通道的亮度值之间的差值相对于初始图像被增大。
在一些实施例中,第一背景图像确定模块604包括专用背景确定 模型获取模块,被配置为获取与背景图像的预定类型相对应的专用背 景确定模型,专用背景确定模型是用于确定预定类型的背景图像的机 器学习模型;以及第二背景图像确定模块,被配置为利用专用背景确 定模型来确定初始图像的背景图像。
在一些实施例中,专用背景确定模型获取模块包括通用背景确定 模型获取模块,被配置为获取通用背景确定模型,通用背景确定模型 是用于确定多种类型的背景图像的机器学习模型;样本背景图像获取 模块,被配置为获取与预定类型相对应的样本背景图像;样本背景图 像调整模块,被配置为对样本背景图像进行调整以获取多个经调整的 样本背景图像;以及训练模块,被配置为使用多个经调整的样本背景 图像来训练通用背景确定模型以获取专用背景确定模型。
在一些实施例中,目标图像生成模块606包括初始图像调整模块, 被配置为将初始图像和背景图像输入图像调整模型以对初始图像进 行调整,图像调整模型是用于将图像中对应于字符部分的第一像素的 颜色通道的亮度值和对应于非字符部分的第二像素的对应颜色通道 的亮度值之间的差值增大的机器学习模型。
在一些实施例中,装置600还包括识别模块,被配置为对目标图 像进行识别以确定目标图像中的字符;以及存储模块,被配置为相关 联地存储字符和初始图像。
根据本申请的实施例,本申请还提供了一种电子设备和一种可 读存储介质。
图7示出了可以用来实施本公开的实施例的电子设备700的示意 性框图。设备700可以用于实现图1中的计算设备106。如图所示, 设备700包括计算单元701,其可以根据存储在只读存储器(ROM) 702中的计算机程序指令或者从存储单元708加载到随机访问存储器 (RAM)703中的计算机程序指令,来执行各种适当的动作和处理。 在RAM 703中,还可存储设备700操作所需的各种程序和数据。计 算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/ 输出(I/O)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706, 例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器 等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网 卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/ 数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用 处理组件。计算单元701的一些示例包括但不限于中央处理单元 (CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算 芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元 701执行上文所描述的各个方法和处理,例如方法200和400。例如, 在一些实施例中,方法200和400可被实现为计算机软件程序,其被 有形地包含于机器可读介质,例如存储单元708。在一些实施例中, 计算机程序的部分或者全部可以经由ROM702和/或通信单元709而 被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由 计算单元701执行时,可以执行上文描述的方法200和400的一个或 多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任 何适当的方式(例如,借助于固件)而被配置为执行方法200和400。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑 部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部 件包括:场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用 标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑 设备(CPLD)等等。
用于实施本公开的方法的程序代码可以采用一个或多个编程语 言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计 算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当 由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被 实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为 独立软件包部分地在机器上执行且部分地在远程机器上执行或完全 在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以 包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、 装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介 质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁 性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者 上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基 于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储 器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM 或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光 学储存设备、磁储存设备、或上述内容的任何合适组合。
此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求 这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示 的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处 理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细 节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施 例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反 地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合 适的子组合的方式实现在多个实现中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了 本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上 面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅 是实现权利要求书的示例形式。

Claims (13)

1.一种用于处理图像的方法,包括:
获取初始图像,所述初始图像包括字符部分;
基于所述初始图像确定所述初始图像的背景图像,所述背景图像描述了相对于所述初始图像的字符的背景;以及
利用所述背景图像对所述初始图像进行调整以生成目标图像,所述目标图像中的对应于所述字符部分的第一像素的颜色通道的亮度值和对应于所述非字符部分的第二像素的对应颜色通道的亮度值之间的差值相对于所述初始图像被增大。
2.根据权利要求1所述方法,其中确定所述背景图像包括:
获取与所述背景图像的预定类型相对应的专用背景确定模型,所述专用背景确定模型是用于确定所述预定类型的背景图像的机器学习模型;以及
利用所述专用背景确定模型来确定所述初始图像的所述背景图像。
3.根据权利要求2所述的方法,其中获取所述专用背景确定模型包括
获取通用背景确定模型,所述通用背景确定模型是用于确定多种类型的背景图像的机器学习模型;
获取与所述预定类型相对应的样本背景图像;
对所述样本背景图像进行调整以获取多个经调整的样本背景图像;以及
使用所述多个经调整的样本背景图像来训练所述通用背景确定模型以获取所述专用背景确定模型。
4.根据权利要求1所述的方法,其中对所述初始图像进行调整包括:
将所述初始图像和所述背景图像输入图像调整模型以对所述初始图像进行调整,所述图像调整模型是用于将所述图像中对应于所述字符部分的所述第一像素的所述颜色通道的亮度值和对应于所述非字符部分的所述第二像素的所述对应颜色通道的亮度值之间的差值增大的机器学习模型。
5.根据权利要求1所述的方法,还包括:
对所述目标图像进行识别以确定所述目标图像中的所述字符;以及
相关联地存储所述字符和所述初始图像。
6.一种用于处理图像的装置,包括:
初始图像获取模块,被配置为获取初始图像,所述初始图像包括字符部分;
第一背景图像确定模块,被配置为基于所述初始图像确定所述初始图像的背景图像,所述背景图像描述了相对于所述初始图像的字符的背景;以及
目标图像生成模块,被配置为利用所述背景图像对所述初始图像进行调整以生成目标图像,所述目标图像中的对应于所述字符部分的第一像素的颜色通道的亮度值和对应于所述非字符部分的第二像素的对应颜色通道的亮度值之间的差值相对于所述初始图像被增大。
7.根据权利要求6所述装置,其中所述第一背景图像确定模块包括:
专用背景确定模型获取模块,被配置为获取与所述背景图像的预定类型相对应的专用背景确定模型,所述专用背景确定模型是用于确定所述预定类型的背景图像的机器学习模型;以及
第二背景图像确定模块,被配置为利用所述专用背景确定模型来确定所述初始图像的所述背景图像。
8.根据权利要求7所述的装置,其中所述专用背景确定模型获取模块包括
通用背景确定模型获取模块,被配置为获取通用背景确定模型,所述通用背景确定模型是用于确定多种类型的背景图像的机器学习模型;
样本背景图像获取模块,被配置为获取与所述预定类型相对应的样本背景图像;
样本背景图像调整模块,被配置为对所述样本背景图像进行调整以获取多个经调整的样本背景图像;以及
训练模块,被配置为使用所述多个经调整的样本背景图像来训练所述通用背景确定模型以获取所述专用背景确定模型。
9.根据权利要求6所述的装置,其中所述目标图像生成模块包括:
初始图像调整模块,被配置为将所述初始图像和所述背景图像输入图像调整模型以对所述初始图像进行调整,所述图像调整模型是用于将所述图像中对应于所述字符部分的所述第一像素的所述颜色通道的亮度值和对应于所述非字符部分的所述第二像素的所述对应颜色通道的亮度值之间的差值增大的机器学习模型。
10.根据权利要求6所述的装置,还包括:
识别模块,被配置为对所述目标图像进行识别以确定所述目标图像中的所述字符;以及
存储模块,被配置为相关联地存储所述字符和所述初始图像。
11.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。
13.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-5中任一项所述的方法的步骤。
CN202011356103.3A 2020-11-27 2020-11-27 用于处理图像的方法、装置、设备和介质 Active CN112836692B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011356103.3A CN112836692B (zh) 2020-11-27 2020-11-27 用于处理图像的方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011356103.3A CN112836692B (zh) 2020-11-27 2020-11-27 用于处理图像的方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN112836692A true CN112836692A (zh) 2021-05-25
CN112836692B CN112836692B (zh) 2023-03-24

Family

ID=75923373

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011356103.3A Active CN112836692B (zh) 2020-11-27 2020-11-27 用于处理图像的方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN112836692B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591569A (zh) * 2021-06-28 2021-11-02 北京百度网讯科技有限公司 障碍物检测方法、装置、电子设备以及存储介质
CN114998897A (zh) * 2022-06-13 2022-09-02 北京百度网讯科技有限公司 生成样本图像的方法以及文字识别模型的训练方法
CN115565212A (zh) * 2022-01-20 2023-01-03 荣耀终端有限公司 图像处理方法、神经网络模型训练方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102804204A (zh) * 2009-06-25 2012-11-28 皇家飞利浦电子股份有限公司 利用色度键控的姿势识别
CN105701829A (zh) * 2016-01-16 2016-06-22 常州大学 一种套袋绿色果实图像分割方法
CN109977649A (zh) * 2019-02-13 2019-07-05 平安科技(深圳)有限公司 图片验证码生成方法、装置、存储介质和计算机设备
CN111340824A (zh) * 2020-02-26 2020-06-26 青海民族大学 一种基于数据挖掘的图像特征分割方法
CN111833303A (zh) * 2020-06-05 2020-10-27 北京百度网讯科技有限公司 产品的检测方法、装置、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102804204A (zh) * 2009-06-25 2012-11-28 皇家飞利浦电子股份有限公司 利用色度键控的姿势识别
CN105701829A (zh) * 2016-01-16 2016-06-22 常州大学 一种套袋绿色果实图像分割方法
CN109977649A (zh) * 2019-02-13 2019-07-05 平安科技(深圳)有限公司 图片验证码生成方法、装置、存储介质和计算机设备
CN111340824A (zh) * 2020-02-26 2020-06-26 青海民族大学 一种基于数据挖掘的图像特征分割方法
CN111833303A (zh) * 2020-06-05 2020-10-27 北京百度网讯科技有限公司 产品的检测方法、装置、电子设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591569A (zh) * 2021-06-28 2021-11-02 北京百度网讯科技有限公司 障碍物检测方法、装置、电子设备以及存储介质
CN115565212A (zh) * 2022-01-20 2023-01-03 荣耀终端有限公司 图像处理方法、神经网络模型训练方法及装置
CN114998897A (zh) * 2022-06-13 2022-09-02 北京百度网讯科技有限公司 生成样本图像的方法以及文字识别模型的训练方法
CN114998897B (zh) * 2022-06-13 2023-08-29 北京百度网讯科技有限公司 生成样本图像的方法以及文字识别模型的训练方法

Also Published As

Publication number Publication date
CN112836692B (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
CN112836692B (zh) 用于处理图像的方法、装置、设备和介质
US11734851B2 (en) Face key point detection method and apparatus, storage medium, and electronic device
US11436739B2 (en) Method, apparatus, and storage medium for processing video image
CN108229526B (zh) 网络训练、图像处理方法、装置、存储介质和电子设备
US9344690B2 (en) Image demosaicing
US10311322B2 (en) Character information recognition method based on image processing
CN107679466B (zh) 信息输出方法和装置
WO2020253127A1 (zh) 脸部特征提取模型训练方法、脸部特征提取方法、装置、设备及存储介质
CN110008961B (zh) 文字实时识别方法、装置、计算机设备及存储介质
US20140286527A1 (en) Systems and methods for accelerated face detection
CN110930296A (zh) 图像处理方法、装置、设备及存储介质
CN114511041B (zh) 模型训练方法、图像处理方法、装置、设备和存储介质
CN110852385B (zh) 图像处理方法、装置、设备和存储介质
CN113177451A (zh) 图像处理模型的训练方法、装置、电子设备及存储介质
CN103530625A (zh) 一种基于数字图像处理的光学字符识别方法
US20150023599A1 (en) Optical Match Character Classification
CN110414522A (zh) 一种字符识别方法及装置
WO2024082925A1 (zh) 一种表面缺陷数据增强方法、装置、电子设备及存储介质
CN110909568A (zh) 用于面部识别的图像检测方法、装置、电子设备及介质
CN111476226B (zh) 一种文本定位方法、装置及模型训练方法
US11468269B2 (en) Arithmetic device, arithmetic method, and discrimination system
CN115880506B (zh) 图像生成方法、模型的训练方法、装置及电子设备
CN115457365A (zh) 一种模型的解释方法、装置、电子设备及存储介质
CN112950652B (zh) 机器人及其手部图像分割方法和装置
CN115359502A (zh) 一种图像处理方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant