CN112839185A - 用于处理图像的方法、装置、设备和介质 - Google Patents

用于处理图像的方法、装置、设备和介质 Download PDF

Info

Publication number
CN112839185A
CN112839185A CN202011356738.3A CN202011356738A CN112839185A CN 112839185 A CN112839185 A CN 112839185A CN 202011356738 A CN202011356738 A CN 202011356738A CN 112839185 A CN112839185 A CN 112839185A
Authority
CN
China
Prior art keywords
image
character
background
characters
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011356738.3A
Other languages
English (en)
Other versions
CN112839185B (zh
Inventor
杜宇宁
杨烨华
魏胜禹
郭若愚
刘其文
赵乔
毕然
胡晓光
于佃海
马艳军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202011356738.3A priority Critical patent/CN112839185B/zh
Publication of CN112839185A publication Critical patent/CN112839185A/zh
Priority to EP21190806.6A priority patent/EP3913533A3/en
Priority to US17/400,693 priority patent/US20210374490A1/en
Priority to JP2021131699A priority patent/JP7320570B2/ja
Priority to KR1020210117541A priority patent/KR20210116371A/ko
Application granted granted Critical
Publication of CN112839185B publication Critical patent/CN112839185B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • G06V30/244Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/265Mixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/272Means for inserting a foreground image in a background image, i.e. inlay, outlay
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本申请公开了用于处理图像的方法、装置、设备和介质,涉及人工智能尤其深度学习、图像处理领域。该处理图像方法包括确定图像的背景图像,背景图像描述了相对于图像中的字符的背景。该方法还包括确定与图像中的选定的字符部分相对应的字符的属性。该方法还包括将选定的字符部分替换为背景图像中的对应部分以获取经调整的图像。该方法还包括基于属性,将获取的目标字符组合到经调整的图像。通过该方法,可以显著的改进针对不同场景的图像数量不足的问题,增加了可使用的图片的数量,节省了用于标注图像的时间和成本。

Description

用于处理图像的方法、装置、设备和介质
技术领域
本公开的实施例主要涉及人工智能领域,并且更具体地,涉及深度学 习和图像处理领域的用于处理图像的方法、装置、设备和介质。
背景技术
图像处理是利用计算机对图像进行分析,以获得所需结果。随着人工 智能的发展,图像成为计算机获取信息的重要途径。为了更好的处理图像, 在机器学习领域中各种处理图像的方法得到了快速的发展。
深度学习(Deep Learning,DL)是机器学习领域中一个新的研究方向。 深度学习是机器学习的一种,其可以用于处理各种图像。深度学习技术在 对图像处理以执行各种任务时,不仅需要好的算法模型,还需要高质量的 图像数据。
发明内容
本公开提供了一种用于处理图像的方法、装置、设备以及存储介质。
根据本公开的第一方面,提供了一种用于处理图像的方法。该方法包 括确定图像的背景图像,背景图像描述了相对于图像中的字符的背 景。该方法还包括确定与图像中的选定的字符部分相对应的字符的属 性。该方法还包括将选定的字符部分替换为背景图像中的对应部分以 获取经调整的图像。该方法还包括基于属性,将获取的目标字符组合 到经调整的图像。
根据本公开的第二方面,提供了一种用于处理图像的装置。该装置包 括背景图像确定模块,被配置为确定图像的背景图像,背景图像描述了相 对于图像中的字符的背景;第一属性确定模块,被配置为确定与图像中的 选定的字符部分相对应的字符的属性;第一替换模块,被配置为将选定的 字符部分替换为背景图像中的对应部分以获取经调整的图像;组合模块, 被配置为基于属性,将获取的目标字符组合到经调整的图像。
根据本公开的第三方面,提供了一种电子设备。该电子设备包括至少 一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存 储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使 至少一个处理器能够执行根据本公开的第一方面的方法。
根据本公开的第四方面,提供一种存储有计算机指令的非瞬时计算机 可读存储介质,计算机指令用于使计算机执行根据本公开的第一方面的方 法。
根据本公开的第五方面,提供一种计算机程序产品,包括计算机程序, 其特征在于,所述计算机程序被处理器执行时实现根据本公开的第一方面 的方法的步骤
根据本申请的技术解决了图像的获取,提高了获取样本图像的效率。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键 或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下 的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1示出了本公开的多个实施例能够在其中实现的环境100的示意 图;
图2示出了根据本公开的一些实施例的用于处理图像的方法200的流 程图;
图3A示出了用于本公开的一些实施例的图像300的示例;
图3B示出了用于本公开的一些实施例的包括目标字符的图像300 的示例;
图4示出了根据本公开的一些实施例的用于替换字符部分的方法400 的流程图;
图5示出了根据本公开的一些实施例的用于处理图像的过程500的流 程图;
图6示出了根据本公开的一些实施例的用于处理图像的装置600的框 图;以及
图7示出了能够实施本公开的多个实施例的设备700的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申 请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。 因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做 出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清 楚和简明,以下的描述中省略了对公知功能和结构的描述。
在本公开的实施例的描述中,术语“包括”及其类似用语应当理解 为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分 地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施 例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还 可能包括其他明确的和隐含的定义。
深度学习技术在图像任务上的效果,不仅依赖于优秀的算法模 型,同时也依赖于对于高质量的图像数据。对于目前主流的有监督的 深度学习算法,图像的数量和质量对于最终深度学习技术会有很大的 影响。
目前主流的获取数据的方式,一种是人工数据采集和标注。在该 过程中需要根据业务场景收集大量的图像,然后送到数据标注团队人 工标注。对于字符识别任务标注而言,例如光学字符识别(optical character recognition,OCR),标注过程需要两步。第一步把图像上 的文字逐个标注出检测框,第二步需要把检测框里面的文字进行识 别,标注为字符串。
然而,对于图像中有大量的字符串的文档场景,检测框的标注和 文字的识别都耗费大量的时间和人力成本。而且字符识别需要的数据 又非常庞大,人工标注经常成为制约项目进度的瓶颈。此外,在手工 标注的过程中,一旦数据量过大需要多人协作分工。此时,对于标注 框的边缘、模糊文字的判断、字段的分割,不同的标注人员会有主观 差异性,导致最终标注结果不一致。手工标注的过程,因为工作量比 较大,出错误的可能性也会比较大,这些错误对于后续模型的训练, 也有较大的影响。
另一种获取数据的方式是纯粹的数据合成,是先收集一批背景图 像,然后直接去除上面带有字符的图像块,换成带有新的字符的图像 块。导致合成图像比较单一,图像结合边缘不光滑,很容易看出合成 图像。由于具有新字符的图像块的背景和字符风格与原有的字符或图 像背景不同,使得效果“失真”,和真实图像风格差异较大。
为了至少解决上述问题,根据本公开的实施例,提出一种的改进 方案。在该方案中,计算设备确定图像的背景图像和与图像中的选定 的字符部分相对应的字符的属性。然后,计算设备将选定的字符部分 替换为背景图像中的对应部分以获取经调整的图像。计算设备再利用 确定的属性,将获取的目标字符组合到经调整的图像。通过该方法, 可以显著的改进针对不同场景的图像的不足问题,增加了可使用的图 片的数量,节省了用于标注图像的时间和成本。
图1示出了本公开的多个实施例能够在其中实现的环境100的示 意图。该示例环境100包括计算设备108。计算设备108可以对图像 102中的字符替换为目标字符106来获取组合的图像114。
计算设备108可用于对图像102进行处理,例如获取图像102的 背景图像110已及图像102中的字符的属性112以对图像102中的字 符进行替换。计算设备108可以被实现为任何类型的计算设备,包括 但不限于个人计算机、服务器计算机、手持或膝上型设备、移动设备 (诸如移动电话、个人数字助理(PDA)、媒体播放器等)、多处理 器系统、消费电子产品、小型计算机、大型计算机、包括上述系统或 设备中的任意一个的分布式计算环境等。
图像102可以用于作为训练机器学习模型的图像样本。例如,图 像102是火车票、汽车票、卡证、证照、金属表面、快递单、文档等 的图像。图像102的图像格式可以为JPEG、TIFF、RAW及其他任意 合适的图像格式。图1中仅示了计算设备108处理一个图像102,其 仅是示例,而非对本公开的具体限定。在一些实施例中,计算设备108 可以处理任意数目的图像。
图像102包括字符部分104或字符图像。在一些实施例中,字符 部分104包括的字符为汉字。在一些实施例中,字符部分104包括的 字符为汉语拼音。在一些实施例中,字符部分104包括的字符为英文 单词。在一些实施例中,字符部分104包括汉字和汉语拼音或英文单 词的组合。上述示例仅是用于描述本公开,而非对本公开的具体限定。 字符部分104中可以包括任意语言的字符或不同语言的字符的组合。
在一些实施例中,字符部分104中的字符为单个字符。在一些实 施例中,字符部分104中的字符为多个字符。上述示例仅是用于描述 本公开,而非对本公开的具体限定。图1中示出了图像102包括一个 字符部分104,其仅是示例,图像102可以包括任意数目的字符部分。
计算设备108在获取到图像102后,会确定图像102的背景图像 110,该背景图像110描述了相对于图像102中的字符的背景。
例如,如果图像102是车票图像,车票上相对于文字的背景为蓝 色的,则背景图像110可以为去除了车票上的文字的蓝色图像。背景 图像110中与文字图像相对应的对应部分包括预测的蓝色背景。上述 示例仅是用于描述本公开,而非对本公开的具体限定。
计算设备108还可以确定图像102中的选定的目标区域中的选定 的字符的属性112。例如,如果选定的目标区域为包括字符部分104 区域,则可以确定出字符部分104中的字符的属性112,例如字符的 字体、大小、是否加粗、颜色、下划线等。在一个示例中,该目标区 域是由用户在图像102上选定的区域。上述示例仅是用于描述本公开, 而非对本公开的具体限定。
计算设备108可以利用获取的背景图像110来将选定的字符部分 替换为背景图像110的对应部分。计算设备108还可以获取用于替换 选定的字符的目标字符106。在一些实施例中,该目标字符106是汉 字。在一些实施例中,该目标字符106是汉语拼音。在一些实施例中, 目标字符106是英文字母。在一些实施例中,目标字符106是任意合 适的语言的文字。在一些实施例中,目标字符106是两种及两种以上 的字符的组合。在一些实施例中,目标字符106包括一个或多个字符。 上述示例仅是用于描述本公开,而非对本公开的具体限定。
图1中示出了计算设备108接收一个目标字符106,其仅是示例, 而非对本公开的具体限定。计算设备108可以接收用于替换选定的字 符的多个目标字符。例如,图像102是车票,选定的目标部分包括的 字符是车站名,则可以接收一个或多个其他的站名用于替换选定的车 站名。上述示例仅是用于描述本公开,而非对本公开的具体限定。
计算设备108利用确定的字符的属性112来设置目标字符106, 使得目标字符106具有与选定的字符部分中的字符相同的属性。然后 将经设置的目标字符106放置入使用背景图像110调整的图像的目标 区域,以生成组合的图像114。组合的图像114可用于训练机器学习 模型的样本图像。
通过该方法,可以显著的改进针对不同场景的图像数量不足的问 题,增加了可使用的图片的数量,节省了用于标注图像的时间和成本。
上面图1示出了本公开的多个实施例的能够在其中实现的环境 100的示意图。下面结合图2描述根据本公开的一些实施例的用于处 理图像的方法200的流程图。图2中的方法200中由图1中的计算设 备108或任意合适的计算设备执行。
在框202处,确定图像的背景图像,背景图像描述了相对于图像 中的字符的背景。例如计算设备108确定图像102的背景图像110, 该背景图像110描述了图像102中的字符的背景。
在一些实施例中,计算设备108将图像102输入背景确定模型以 获取背景图像110,该背景确定模型是用于确定图像中的字符的背景 图像的机器学习模型。备选地或附加地,该背景确定模型是神经网络 模型,其是通过样本图像作为输入和样本图像的背景的作为输出训练 得到的。通过上述方式,可以快速准确定的确定出图像的背景图像, 提高了数据处理效率。
在一些实施例中,计算设备108可以使用任意合适的图像背景识 别方法来确定图像中字符的背景图像。在一些实施例中,背景图像110 由与图像102中的像素点相对应的一组像素值表示。上述示例仅是用 于描述本公开,而非对本公开的具体限定。
在一些实施例中,计算设备108获取图像102。在一个示例中,计 算设备108从其他计算设备102接收图像102。在另一个示例中,计 算设备108从外部存储装置或本地存储器获取图像102。上述示例仅 是用于描述本公开,而非对本公开的具体限定。
计算设备108然后确定出图像102中要替换的字符的目标区域。 例如,用户通过计算设备108选择图像的目标区域。然后,计算设备 108从图像102中的目标区域中确定出选定的字符部分。通过这种方 式,可以快速的确定出要进行处理的目标区域,提高了数据处理效率。
如图3A所示,示例图像300为汽车票图像。为了增加该类型的图 像数量,用户可以通过替换选定的字符区域中的字符来生成更多的图 像。在图3A中,用户选择了包括字符“北京”的图像区域302作为目 标区域,通过替换图像区域302中的“北京”来增加图像的数量。
返回图2,在框204处,确定与图像中的选定的字符部分相对应的 字符的属性。例如,计算设备108确定与图像102中的选字的字符部 分相对应的字符的属性112。
在一些实施例中,计算设备108将图像102的包括选定的字符部 分输入字符属性确定模型以确定字符的属性112,字符属性确定模型 是用于确定字符的属性的机器学习模型。备选地或附加地,该字符属 性确定模型是神经网络模型,其是通过将字符图像作为输入以及字符 的属性作为输出训练得到的。在一些实施例中,可以采用任意合适的 字符识别方法来确定目标区域中的字符的属性。上述示例仅是用于描 述本公开,而非对本公开的具体限定。通过上述方式,可以快速准确 地确定出字符的属性。
在一些实施例中,字符的属性112包括以下中的至少一项:字体、 大小、粗细、颜色或下划线等。备选地附加地,属性还可以包括字形、 效果、间距等。上述示例仅是用于描述本公开,而非对本公开具体限 定。通过上述方式,可以快速的获取对应的属性,提高了数据获取的 准确性。
如图3A所示,确定出目标区域302中的字符“北京”的属性,例 如其字体为楷体、大小为11号等。
返回图2,在框206处,将选定的字符部分替换为背景图像中的对 应部分以获取经调整的图像。例如,计算设备108将选定的字符部分 替换为背景图像110中的对应部分以获取经调整的图像,下面将结合 图4具本地描述该过程。
在框208处,基于属性,将获取的目标字符组合到经调整的图像。 例如,计算设备108基于属性,将获取的目标字符106组合到经调整 的图像。
在一些实施例中,计算设备108可以获取目标字符106。例如,接 收用户上传的替换字符。然后,计算设备108利用确定的图像102中 的字符的属性112来设置目标字符106的属性。通过这种方式,可以 使得目标字符和图像中要替换的字符的属性相同,使得合成的图像更 真实。
在一些实施例中,计算设备108将设置好的目标字符106结合到 图像102中的目标区域中来生成组合的图像114。如图3B所示,如 果目标字符106是“武汉”,将“武汉”的属性设置为从“北京”确定的属 性,例如字体为“楷体”,大小为11号等。然后将设置了属性的字符“武 汉”放置到经调整的图像的目标区域。从而形成从“武汉”到“上海”的新 的汽车票。进一步地,目标字符106还可以为“无锡”、“杭州”,“南 京”等任意合适的字符,均可以通过设置属性后结合到图像的目标区 域生成合成的图像。上述示例仅是用于描述本公开,而非对本公开的 具体限定。
通过该方法,可以显著的改进针对不同场景的图像数量不足的问 题,增加了可使用的图片的数量,节省了用于标注图像的大量的时间 和人力成本。
上面结合图2和图3描述了根据本公开的一些实施例的用于处理 图像的方法200的流程图。下面结合图4详细描述背景图像中的对应 部分替换字符部分的过程。图4示出了根据本公开的一些实施例的用 于替换字符部分的方法400的流程图。图4中的方法400中由图1中 的计算设备108或任意合适的计算设备执行。
在框402处,确定选定的字符部分。例如,计算设备108确定与 选定的字符相对应的字符部分或字符图像。例如,在图3A中确定出 与字符“北京”相对应的字符部分。
在框404处,确定背景图像中与选定的字符部分相对应的对应部 分。例如,计算设备108确定背景图像110中与选定的字符部分相对 应的对应部分。在一些实施例中,计算设备108确定所选定的字符部 分在图像中的位置,然后利用所选定的字符部分在图像中的位置来确 定背景中对应部分的位置。上述示例仅是用于描述本公开,而非对本 公开的具体限定。
在框406处,利用对应部分替换选定的字符部分。例如,计算设 备108利用对应部分替换字符部分。计算设备108用背景图像110中 的对应部分替换图像102的选定的字符部分以使得目标区域仅具有背 景。在一些实施例中,计算设备108先移除目标区域中的字符部分。 然后,将背景图像110中对应部分填充到移除的字符部分。例如,移 除字符部分对应的像素点的像素值,然后填充背景图像110中的对应 部分的像素点的像素值。使得字符部分变成了对应的背景。在一些实 施列中,计算设备108直接用背景图像110中的对应部分替换图像中 的目标区域中的字符部分。上述示例仅是用于描述本公开,而非对本 公开的具体限定。
通过上述方式,可以快速的移除字符,并能准确的将背景添加到 图像中,提高了图像的处理效率,节省了处理时间。
上面结合图4描述了用于替换字符部分的方法400。下面结合图 5描述用于处理图像的过程500的示例。
如图5所示,过程500在框502处开始。然后,在框504处,计 算设备108启动用于处理图像的软件。在框506处,计算设备108确 定是否调整默认参数。此处的默认参数用于描述要加载的模型的使用 条件,例如模型处理的图像的大小以及处理的图像的背景与何种类型 的背景的相关程度,例如设置为与金属条纹的背景更相关还是与木质 条纹更相关的参数。如果需要调整默认参数,则在框508处理配置参 数。在确定不调整默认参数或配置参数后,在框510处,计算设备108 导入预训练模型。该预训练模型至少包括两个子模型:背景确定模型 和字符属性确定模型。
然后在框512处,在计算设备108中导入图像。在框514处,在 图像上标注出要进行字符替换的目标区域。在框516处,计算设备108 接收目标字符,即接收用于替换目标区域中的字符的替换字符。计算 设备108在框520处启动图像背景学习。然后在框518处,生成图像 的背景图像。在框522处,计算设备108还会启动字符属性学习以确 定目标区域中选定的字符的属性,例如字体、大小、粗细等。在框526 处,计算设备108将原始图像中的字符擦除。在该过程中,利用在框 518处生成的背景图像来填充擦除的字符部分。然而形成目标区域仅 包括背景的图像。在框524处,计算设备108将接收的目标字符与在 框522处确定的字符的属性进行属性融合,即利用获取的属性设置目 标字符的属性。然后在框528处,将设置的目标字符结合到图像的目 标区域以实现合成图像字符写入。在框530处,保存合成的图像。然 后在框532处,该过程结束。
通过上述方法,可以显著的改进针对不同场景的图像的不足问 题,增加了可使用的图片的数量,节省了用于标注图像的大量的时间 和人力成本。
图6示出了根据本公开实施例的用于处理图像的装置600的示意 性框图。如图6所示,装置600包括背景图像确定模块602,被配置 为确定图像的背景图像,背景图像描述了相对于图像中的字符的背 景。装置600还包括第一属性确定模块604,被配置为确定与图像中 的选定的字符部分相对应的字符的属性。装置600还包括第一替换模 块606,被配置为将选定的字符部分替换为背景图像中的对应部分以 获取经调整的图像。装置600还包括组合模块608,被配置为基于属 性,将获取的目标字符组合到经调整的图像。
在一些实施例中,背景图像确定模块602包括背景图像获取模块, 被配置为将图像输入背景确定模型以获取背景图像,背景确定模型是 用于确定图像中的字符的背景图像的机器学习模型。
在一些实施例中,第一属性确定模块604包括第二属性确定模块, 被配置为将图像的选定的字符部分输入字符属性确定模型以确定字 符的属性,字符属性确定模型是用于确定字符的属性的机器学习模 型。
在一些实施例中,第一替换模块606包括字符部分确定模块,被 配置为确定选定的字符部分;对应部分确定模块,被配置为确定背景 图像中与选定的字符部分相对应的对应部分;以及第二替换模块,补 配置为利用对应部分替换选定的字符部分。
在一些实施例中,组合模块608包括目标字符获取模块,被配置 为获取目标字符;以及目标字符属性确定模块,被配置为基于属性来 确定目标字符的属性。
在一些实施例中,其中属性包括以下中的至少一项:字体、大小、 粗细、颜色或下划线。
在一些实施例中,装置600还包括图像获取模块,被配置为获取 图像;以及选定字符部分确定模块,被配置为从图像中的目标区域确 定选定的字符部分。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读 存储介质。
图7示出了可以用来实施本公开的实施例的电子设备700的示意 性框图。设备700可以用于实现图1中的计算设备108。如图所示, 设备700包括计算单元701,其可以根据存储在只读存储器(ROM) 702中的计算机程序指令或者从存储单元708加载到随机访问存储器 (RAM)703中的计算机程序指令,来执行各种适当的动作和处理。 在RAM 703中,还可存储设备700操作所需的各种程序和数据。计 算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/ 输出(I/O)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706, 例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器 等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网 卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/ 数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用 处理组件。计算单元701的一些示例包括但不限于中央处理单元 (CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算 芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元 701执行上文所描述的各个方法和处理,例如方法200和400。例如, 在一些实施例中,方法200和400可被实现为计算机软件程序,其被 有形地包含于机器可读介质,例如存储单元708。在一些实施例中, 计算机程序的部分或者全部可以经由ROM702和/或通信单元709而 被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由 计算单元701执行时,可以执行上文描述的方法200和400的一个或 多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任 何适当的方式(例如,借助于固件)而被配置为执行方法200和400。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑 部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部 件包括:场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用 标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑 设备(CPLD)等等。
用于实施本公开的方法的程序代码可以采用一个或多个编程语 言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计 算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当 由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被 实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为 独立软件包部分地在机器上执行且部分地在远程机器上执行或完全 在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以 包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、 装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介 质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁 性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者 上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基 于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储 器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM 或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光 学储存设备、磁储存设备、或上述内容的任何合适组合。
此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求 这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示 的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处 理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细 节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施 例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反 地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合 适的子组合的方式实现在多个实现中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了 本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上 面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅 是实现权利要求书的示例形式。

Claims (17)

1.一种用于处理图像的方法,包括:
确定所述图像的背景图像,所述背景图像描述了相对于所述图像中的字符的背景;
确定与所述图像中的选定的字符部分相对应的字符的属性;
将所述选定的字符部分替换为所述背景图像中的对应部分以获取经调整的所述图像;
基于所述属性,将获取的目标字符组合到经调整的所述图像。
2.根据权利要求1所述的方法,其中确定所述背景图像包括:
将所述图像输入背景确定模型以获取所述背景图像,所述背景确定模型是用于确定图像中的字符的背景图像的机器学习模型。
3.根据权利要求1所述的方法,其中确定所述属性包括:
将所述图像的所述选定的字符部分输入字符属性确定模型以确定所述字符的所述属性,所述字符属性确定模型是用于确定字符的属性的机器学习模型。
4.根据权利要求1所述的方法,其中将所述选定的字符部分替换为所述背景图像中的所述对应部分包括:
确定所述选定的字符部分;
确定所述背景图像中与所述选定的字符部分相对应的所述对应部分;以及
利用所述对应部分替换所述选定的字符部分。
5.根据权利要求1所述的方法,其中将获取的目标字符组合到经调整的所述图像包括:
获取所述目标字符;以及
基于所述属性来确定所述目标字符的属性。
6.根据权利要求1所述的方法,其中所述属性包括以下中的至少一项:字体、大小、粗细、颜色或下划线。
7.根据权利要求1所述的方法,还包括:
获取所述图像;以及
从所述图像中的目标区域确定所述选定的字符部分。
8.一种用于处理图像的装置,包括:
背景图像确定模块,被配置为确定所述图像的背景图像,所述背景图像描述了相对于所述图像中的字符的背景;
第一属性确定模块,被配置为确定与所述图像中的选定的字符部分相对应的字符的属性;
第一替换模块,被配置为将所述选定的字符部分替换为所述背景图像中的对应部分以获取经调整的所述图像;
组合模块,被配置为基于所述属性,将获取的目标字符组合到经调整的所述图像。
9.根据权利要求8所述的装置,其中所述背景图像确定模块包括:
背景图像获取模块,被配置为将所述图像输入背景确定模型以获取所述背景图像,所述背景确定模型是用于确定图像中的字符的背景图像的机器学习模型。
10.根据权利要求8所述的装置,其中所述第一属性确定模块包括:
第二属性确定模块,被配置为将所述图像的所述选定的字符部分输入字符属性确定模型以确定所述字符的所述属性,所述字符属性确定模型是用于确定字符的属性的机器学习模型。
11.根据权利要求8所述的装置,其中所述第一替换模块包括:
字符部分确定模块,被配置为确定所述选定的字符部分;
对应部分确定模块,被配置为确定所述背景图像中与所述选定的字符部分相对应的所述对应部分;以及
第二替换模块,补配置为利用所述对应部分替换所述选定的字符部分。
12.根据权利要求8所述的装置,其中所述组合模块包括:
目标字符获取模块,被配置为获取所述目标字符;以及
目标字符属性确定模块,被配置为基于所述属性来确定所述目标字符的属性。
13.根据权利要求8所述的装置,其中所述属性包括以下中的至少一项:字体、大小、粗细、颜色或下划线。
14.根据权利要求8所述的装置,还包括:
图像获取模块,被配置为获取所述图像;以及
选定字符部分确定模块,被配置为从所述图像中的目标区域确定所述选定的字符部分。
15.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。
17.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202011356738.3A 2020-11-27 2020-11-27 用于处理图像的方法、装置、设备和介质 Active CN112839185B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN202011356738.3A CN112839185B (zh) 2020-11-27 2020-11-27 用于处理图像的方法、装置、设备和介质
EP21190806.6A EP3913533A3 (en) 2020-11-27 2021-08-11 Method and apparatus of processing image device and medium
US17/400,693 US20210374490A1 (en) 2020-11-27 2021-08-12 Method and apparatus of processing image, device and medium
JP2021131699A JP7320570B2 (ja) 2020-11-27 2021-08-12 画像を処理するための方法、装置、機器、媒体およびプログラム
KR1020210117541A KR20210116371A (ko) 2020-11-27 2021-09-03 이미지 처리 방법, 장치, 전자장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011356738.3A CN112839185B (zh) 2020-11-27 2020-11-27 用于处理图像的方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN112839185A true CN112839185A (zh) 2021-05-25
CN112839185B CN112839185B (zh) 2022-10-21

Family

ID=75923415

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011356738.3A Active CN112839185B (zh) 2020-11-27 2020-11-27 用于处理图像的方法、装置、设备和介质

Country Status (5)

Country Link
US (1) US20210374490A1 (zh)
EP (1) EP3913533A3 (zh)
JP (1) JP7320570B2 (zh)
KR (1) KR20210116371A (zh)
CN (1) CN112839185B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114298982B (zh) * 2021-12-14 2022-08-19 禾多科技(北京)有限公司 图像标注方法、装置、计算机设备和存储介质
KR102621814B1 (ko) * 2023-10-16 2024-01-09 주식회사 에이펀인터렉티브 영상 생성 장치 및 그 방법

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8331681B1 (en) * 2008-10-24 2012-12-11 Adobe Systems Incorporated Generating typefaces through image analysis
CN104715497A (zh) * 2014-12-30 2015-06-17 上海孩子国科教设备有限公司 数据替换的方法及系统
CN108985201A (zh) * 2018-06-29 2018-12-11 网易有道信息技术(北京)有限公司 图像处理方法、介质、装置和计算设备
CN110458918A (zh) * 2019-08-16 2019-11-15 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN111275035A (zh) * 2018-12-04 2020-06-12 北京嘀嘀无限科技发展有限公司 一种识别背景信息的方法及系统
CN111402367A (zh) * 2020-03-27 2020-07-10 维沃移动通信有限公司 一种图像处理方法和电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111414906B (zh) * 2020-03-05 2024-05-24 北京交通大学 纸质票据图片的数据合成与文本识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8331681B1 (en) * 2008-10-24 2012-12-11 Adobe Systems Incorporated Generating typefaces through image analysis
CN104715497A (zh) * 2014-12-30 2015-06-17 上海孩子国科教设备有限公司 数据替换的方法及系统
CN108985201A (zh) * 2018-06-29 2018-12-11 网易有道信息技术(北京)有限公司 图像处理方法、介质、装置和计算设备
CN111275035A (zh) * 2018-12-04 2020-06-12 北京嘀嘀无限科技发展有限公司 一种识别背景信息的方法及系统
CN110458918A (zh) * 2019-08-16 2019-11-15 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN111402367A (zh) * 2020-03-27 2020-07-10 维沃移动通信有限公司 一种图像处理方法和电子设备

Also Published As

Publication number Publication date
KR20210116371A (ko) 2021-09-27
US20210374490A1 (en) 2021-12-02
EP3913533A2 (en) 2021-11-24
JP7320570B2 (ja) 2023-08-03
CN112839185B (zh) 2022-10-21
EP3913533A3 (en) 2022-03-02
JP2021182441A (ja) 2021-11-25

Similar Documents

Publication Publication Date Title
US20200167558A1 (en) Semantic page segmentation of vector graphics documents
WO2023015922A1 (zh) 图像识别模型的训练方法、装置、设备及存储介质
CN112396049A (zh) 文本纠错方法、装置、计算机设备及存储介质
CN112036295B (zh) 票据图像处理方法、装置、存储介质及电子设备
CN110705489B (zh) 目标识别网络的训练方法、装置、计算机设备和存储介质
CN112836509A (zh) 一种专家系统知识库构建方法及系统
CN111488732B (zh) 一种变形关键词检测方法、系统及相关设备
CN112839185B (zh) 用于处理图像的方法、装置、设备和介质
CN115063875A (zh) 模型训练方法、图像处理方法、装置和电子设备
CN110348025A (zh) 一种基于字形的翻译方法、装置、存储介质及电子设备
CN114821590A (zh) 文档信息提取方法、装置、设备及介质
CN112381458A (zh) 项目评审方法、项目评审装置、设备及存储介质
CN112395834A (zh) 基于图片输入的脑图生成方法、装置、设备及存储介质
CN115937887A (zh) 文档结构化信息的提取方法及装置、电子设备、存储介质
CN109145723A (zh) 一种印章识别方法、系统、终端装置及存储介质
CN106709490B (zh) 一种字符识别方法和装置
CN113936187A (zh) 文本图像合成方法、装置、存储介质及电子设备
CN113762109A (zh) 一种文字定位模型的训练方法及文字定位方法
CN116469111B (zh) 一种文字生成模型训练方法及目标文字生成方法
CN115130437B (zh) 一种文档智能填写方法、装置及存储介质
CN111539424A (zh) 一种基于ocr的图像处理方法、系统、设备及介质
WO2023284670A1 (zh) 图形码提取模型构建方法、识别方法、装置、设备和介质
CN116092101A (zh) 训练方法、图像识别方法、装置、设备及可读存储介质
CN115761770A (zh) 实体识别模型的训练方法、图像识别方法、装置及设备
CN112418217A (zh) 用于识别字符的方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant