CN107679074B - 一种图片生成方法与设备 - Google Patents

一种图片生成方法与设备 Download PDF

Info

Publication number
CN107679074B
CN107679074B CN201710742645.6A CN201710742645A CN107679074B CN 107679074 B CN107679074 B CN 107679074B CN 201710742645 A CN201710742645 A CN 201710742645A CN 107679074 B CN107679074 B CN 107679074B
Authority
CN
China
Prior art keywords
character
picture
characters
text
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710742645.6A
Other languages
English (en)
Other versions
CN107679074A (zh
Inventor
谢术富
刘珊珊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201710742645.6A priority Critical patent/CN107679074B/zh
Publication of CN107679074A publication Critical patent/CN107679074A/zh
Priority to US16/109,683 priority patent/US10839244B2/en
Application granted granted Critical
Publication of CN107679074B publication Critical patent/CN107679074B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • G06T5/73
    • G06T5/80
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters

Abstract

本申请的目的是提供一种图片生成方法及设备。其中,所述方法包括:获取第一图片对应的文字识别结果,其中,文字识别结果包括文字的第一置信度信息;根据文字集中文字的第一置信度信息确定文字集的第二置信度信息,其中,文字集包括一个或多个文字;根据第二置信度信息确定第一图片对应的优选文字集;对优选文字集在第一图片中对应的子图片进行图像处理,以获得第二图片。本申请通过筛选文字识别结果确定优选文字集,由此实现自动地确定样本图片的批注文字;同时,根据优选文字集从第一图片中选择子图片并进行图像处理,既帮助增加样本图片的数量又为搜索系统提供了包含多种图像清晰度、图像灰度、图像对比度等类型的样本图像。

Description

一种图片生成方法与设备
技术领域
本申请涉及图像处理领域,尤其涉及一种图片生成方法及设备的技术。
背景技术
随着搜索技术的发展,人们已不限于实现文字搜索,一些基于图文结合、图片搜索的技术正在被深入研究。例如,利用图片的文字标签,用户输入搜索关键词即可找到与之相关的图片。然而,这种方式需要人工收集大量的图片标签,并将标签与图片关联,限于对有限图片进行搜索。对于海量搜索来说,上述方式所能找到的图片及其有限,而且效率很低。
与此同时,人工智能技术在多学科领域中得到了认可,其是一门用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的技术科学。将人工智能技术应用到搜索技术中需要为搜索系统提供学习机会。就图片搜索而言,需要提供充足的、能涵盖广泛搜索领域的图片供搜索系统学习,以提高搜索系统的自识别能力,显然,这需要人工广泛收集样本图片。对于技术人员来说收集样本图像与前述为图片配备文字标签都不是减轻工作、提高搜索准确率的有效方式。
发明内容
本申请的一个目的是提供一种图片生成方法及设备。
根据本申请的一个方面,提供了一种图片生成方法,包括:
a获取第一图片对应的文字识别结果,其中,所述文字识别结果包括一个或多个文字及每个文字的第一置信度信息;
b根据文字集中文字的第一置信度信息确定所述文字集的第二置信度信息,其中,所述文字集包括所述一个或多个文字中至少一个;
c根据所述第二置信度信息确定所述第一图片对应的优选文字集;
d对所述优选文字集在所述第一图片中对应的子图片进行图像处理,以获得第二图片,其中,所述第二图片对应的批注文字包括所述优选文字集。
优选地,所述步骤d包括:
根据所述优选文字集中文字的区域位置信息确定所述优选文字集在所述第一图片中对应的子图片;
对所述子图片进行图像处理,以获得第二图片,其中,所述第二图片对应的批注文字包括所述优选文字集。
优选地,所述文字识别结果还包括所述区域位置信息。
优选地,所述步骤c包括:
若所述第二置信度信息等于或大于集合置信度阈值,确定所述文字集为所述第一图片对应的优选文字集。
优选地,所述步骤c包括:
对多个所述文字集按所述第二置信度信息降序排列;
将序列中前N个文字集作为所述第一图片对应的优选文字集,其中N为自然数。
优选地,所述文字集满足以下至少任一项:
所述一个或多个文字中的一个文本行;
所述一个或多个文字中的多个文本行;
所述一个或多个文字中的一个文本行的部分;
所述文字集中的文字来自所述一个或多个文字中不同文本行。
优选地,所述步骤d包括:
对所述优选文字集在所述第一图片中对应的子图片进行不同的图像处理,以获得多个第二图片,其中,所述第二图片对应的批注文字包括所述优选文字集。
优选地,所述步骤d包括:
若存在多个所述优选文字集,对所述多个优选文字集中至少一个在所述第一图片中对应的子图片进行图像处理,以获得第二图片,其中,所述第二图片对应的批注文字包括所述优选文字集。
优选地,所述图像处理包括以下至少任一项:
图像角度旋转处理;
图像模糊处理;
图像反色处理;
图像缩放处理;
在图像上叠加校验噪声。
优选地,所述步骤a包括:
-对所述第一图片进行文字识别,以获取所述第一图片的第一文字识别结果,其中,所述第一文字识别结果包括一个或多个文字、每个文字的文字位置以及每个文字的第一置信度信息;
-对所述第一图片中相邻两个或多个文字进行组合识别,以获取所述第一图片的第二文字识别结果,其中,所述第二文字识别结果包括相邻两个或多个文字、相邻两个或多个文字的文字位置以及相邻两个或多个文字所对应的置信度信息;
-获取所述第一图片对应的文字识别结果,其中,所述文字识别结果包括所述第一文字识别结果以及所述第二文字识别结果。
优选地,所述步骤b包括:
-判断所述第一文字识别结果与第二文字识别结果中,相同文字位置所对应的文字是否一致;
b1根据所述相同文字位置所对应的文字是否一致,结合文字集中所述文字的所述第一文字识别结果以及所述第二文字识别结果中的置信度信息,确定所述文字集的第二置信度信息,其中,所述文字集包括所述一个或多个文字中至少一个。
优选地,所述步骤b1包括:
-若所述相同文字位置所对应的文字一致,则结合文字集中所述文字的所述第一文字识别结果以及所述第二文字识别结果中的置信度信息,确定所述文字集的第二置信度信息,其中,所述文字集包括所述一个或多个文字中至少一个。
优选地,所述步骤b1包括:
-若所述相同文字位置所对应的文字不一致,则将文字集的第二置信度信息设置为零,其中,所述文字集包括所述一个或多个文字中至少一个。
本申请还提供一种图片生成设备,包括:
第一模块,用于获取第一图片对应的文字识别结果,其中,所述文字识别结果包括一个或多个文字及每个文字的第一置信度信息;
第二模块,用于根据文字集中文字的第一置信度信息确定所述文字集的第二置信度信息,其中,所述文字集包括所述一个或多个文字中至少一个;
第三模块,用于根据所述第二置信度信息确定所述第一图片对应的优选文字集;
第四模块,用于对所述优选文字集在所述第一图片中对应的子图片进行图像处理,以获得第二图片,其中,所述第二图片对应的批注文字包括所述优选文字集。
优选地,所述第四模块用于:
根据所述优选文字集中文字的区域位置信息确定所述优选文字集在所述第一图片中对应的子图片;
对所述子图片进行图像处理,以获得第二图片,其中,所述第二图片对应的批注文字包括所述优选文字集。
优选地,所述第三模块用于:
若所述第二置信度信息等于或大于集合置信度阈值,确定所述文字集为所述第一图片对应的优选文字集。
优选地,所述第三模块用于:
对多个所述文字集按所述第二置信度信息降序排列;
将序列中前N个文字集作为所述第一图片对应的优选文字集,其中N为自然数。
优选地,所述第四模块用于:
对所述优选文字集在所述第一图片中对应的子图片进行不同的图像处理,以获得多个第二图片,其中,所述第二图片对应的批注文字包括所述优选文字集。
优选地,所述第四模块用于:
若存在多个所述优选文字集,对所述多个优选文字集中至少一个在所述第一图片中对应的子图片进行图像处理,以获得第二图片,其中,所述第二图片对应的批注文字包括所述优选文字集。
优选地,所述第一模块用于:
-对所述第一图片进行文字识别,以获取所述第一图片的第一文字识别结果,其中,所述第一文字识别结果包括一个或多个文字、每个文字的文字位置以及每个文字的第一置信度信息;
-对所述第一图片中相邻两个或多个文字进行组合识别,以获取所述第一图片的第二文字识别结果,其中,所述第二文字识别结果包括相邻两个或多个文字、相邻两个或多个文字的文字位置以及相邻两个或多个文字所对应的置信度信息;
-获取所述第一图片对应的文字识别结果,其中,所述文字识别结果包括所述第一文字识别结果以及所述第二文字识别结果。
优选地,所述第二模块包括:
二一单元,用于判断所述第一文字识别结果与第二文字识别结果中,相同文字位置所对应的文字是否一致;
二二单元,用于根据所述相同文字位置所对应的文字是否一致,结合文字集中所述文字的所述第一文字识别结果以及所述第二文字识别结果中的置信度信息,确定所述文字集的第二置信度信息,其中,所述文字集包括所述一个或多个文字中至少一个。
优选地,所述二二单元用于:
-若所述相同文字位置所对应的文字一致,则结合文字集中所述文字的所述第一文字识别结果以及所述第二文字识别结果中的置信度信息,确定所述文字集的第二置信度信息,其中,所述文字集包括所述一个或多个文字中至少一个。
优选地,所述二二单元用于:
-若所述相同文字位置所对应的文字不一致,则将文字集的第二置信度信息设置为零,其中,所述文字集包括所述一个或多个文字中至少一个。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机代码,当所述计算机代码被执行时,如上述任一项所述的方法被执行。
本申请还提供一种计算机程序产品,当所述计算机程序产品被计算机设备执行时,如上述任一项所述的方法被执行。
本申请还提供一种计算机设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个计算机程序;
当所述一个或多个计算机程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述任一项所述的方法。
与现有技术相比,本申请通过筛选文字识别结果确定优选文字集,由此实现自动地确定样本图片批注文字,大大减少了人工为样本图片批注文字的工作;同时,根据优选文字集从第一图片中选择子图片并进行图像处理,既帮助增加样本图片的数量又为搜索系统提供了包含多种图像清晰度、图像灰度、图像对比度等类型的样本图像;另外,基于子图片获取第二图片能够在子图片基础上为搜索系统提供更多具有背景的样本图片,由此增加了搜索系统的学习样本,有效提高了搜索系统在图片搜索方面的准确率。
而且,本发明还可以通过文本行中的单个文字或相邻文字进行识别,以确定单个文字所对应的文字识别结果以及多个组合文字所对应的文字识别结果;从而基于不同的文字识别结果来进行确定以文本行作为单位的第二置信度信息。从而,本发明提高了文字识别结果,特别是置信度信息的准确性,并通过对多种置信度信息的处理,进一步的提高了文本行置信度的准确性,从而使得所获取的训练数据更为精准,能够有效地提高模型的识别效率以及识别效果。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出了根据本发明一个方面的一种图片生成设备的结构示意图;
图2示出了第一图片在一种具体示例中所描绘的内容;
图3示出基于所获取的文字识别结果中文字行的区域位置信息从图2中所示的第一图片得到的子图片示意图;
图4-8示出将图3中的子图片依次进行图像角度旋转处理、图像模糊处理、图像反色处理、图像缩放处理、及在图像上叠加校验噪声后的子图片示意图。
图9示出了根据本发明一个方面的图片生成方法的流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
在上下文中所称“计算机设备”,也称为“电脑”,是指可以通过运行预定程序或指令来执行数值计算和/或逻辑计算等预定处理过程的智能电子设备,其可以包括处理器与存储器,由处理器执行在存储器中预存的存续指令来执行预定处理过程,或是由ASIC、FPGA、DSP等硬件执行预定处理过程,或是由上述二者组合来实现。计算机设备包括但不限于服务器、个人电脑、笔记本电脑、平板电脑、智能手机等。
所述计算机设备包括用户设备与网络设备。其中,所述用户设备包括但不限于电脑、智能手机、PDA等;所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中,所述计算机设备可单独运行来实现本发明,也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本发明。其中,所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。
需要说明的是,所述用户设备、网络设备和网络等仅为举例,其他现有的或今后可能出现的计算机设备或网络如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
后面所讨论的方法(其中一些通过流程图示出)可以通过硬件、软件、固件、中间件、微代码、硬件描述语言或者其任意组合来实施。当用软件、固件、中间件或微代码来实施时,用以实施必要任务的程序代码或代码段可以被存储在机器或计算机可读介质(比如存储介质)中。(一个或多个)处理器可以实施必要的任务。
这里所公开的具体结构和功能细节仅仅是代表性的,并且是用于描述本发明的示例性实施例的目的。但是本发明可以通过许多替换形式来具体实现,并且不应当被解释成仅仅受限于这里所阐述的实施例。
应当理解的是,虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元,但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说,在不背离示例性实施例的范围的情况下,第一单元可以被称为第二单元,并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。
应当理解的是,当一个单元被称为“连接”或“耦合”到另一单元时,其可以直接连接或耦合到所述另一单元,或者可以存在中间单元。与此相对,当一个单元被称为“直接连接”或“直接耦合”到另一单元时,则不存在中间单元。应当按照类似的方式来解释被用于描述单元之间的关系的其他词语(例如“处于...之间”相比于“直接处于...之间”,“与...邻近”相比于“与...直接邻近”等等)。
这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指,否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是,这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在,而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。
还应当提到的是,在一些替换实现方式中,所提到的功能/动作可以按照不同于附图中标示的顺序发生。举例来说,取决于所涉及的功能/动作,相继示出的两幅图实际上可以基本上同时执行或者有时可以按照相反的顺序来执行。
由于人工智能技术能为图片搜索带来更快、更准确的搜索结果,将人工智能技术延伸到搜索领域的研究并未停止。然而,如何提高搜索系统的自学习能力,以便于在搜索过程中能高效的找到搜索目标仍然是一个需要解决的问题。为此,本申请提供一种图片生成设备。所述设备可以为一种能够进行数字、数据和逻辑运算的电子设备,其包括但不限于:个人电脑、服务器等。为此,本领域技术人员应能理解上述用户设备仅为举例,现有的或者今后可能出现的用户设备如可适用于本发明也应包含在本发明保护范围内,并以引用的方式包含于此。本领域技术人员还应能理解,此处所述用户设备,指可以通过运行预定程序或指令来执行数值计算和/或逻辑计算等预定处理过程的智能电子设备,其可以包括处理器与存储器,由处理器执行在存储器中预存的存续指令来执行预定处理过程,或是由ASIC、FPGA、DSP等硬件执行预定处理过程,或是由上述二者组合来实现。为了更便捷进行数据交互,所述图片生成设备还包括与处理器相连的外部接口,如USB接口、HDMI接口等。处理器可通过与外部接口的数据传输获取用于图片生成的数据。
所述图片生成设备利用第一图片中识别出的文字生成与所识别出的文字相关的第二图片,并根据所识别出的文字为所生成的第二图片进行文字批注。由此增加了供搜索系统学习的样本图像。
图1示出了根据本发明一个方面的一种图片生成设备的结构示意图。图片生成设备包含第一模块11、第二模块12、第三模块13和第四模块14。其中,各模块可由图片生成设备1中的一个或多个处理器通过调用存储在存储器中的计算机程序执行而工作。在此,各模块可单独配置处理器并由其他处理器管理运行时序,也可以由共用的处理器按照时序启动和停止。
其中,第一模块11用于获取第一图片对应的文字识别结果。其中,第一图片可以来源于从网络下载的图片、专门设计的样本图片、从视频文件中截取的图片、自存储介质中读取的样本图片等,其中,所述存储介质包括但不限于:本地设备的存储器中所保存的图片、由外部存储装置(如U盘、移动硬盘)保存的图片等。所述第一图片的格式包括但不限于:.jpg、.png等。
在另一种实施例中,所述第一模块11可以根据用户或系统所指定的爬取范围,对互联网上的相应网页进行爬取,并获取所爬取网页上的图像,以将其作为第一图片。其中,所述爬取范围可以根据以下至少任一项爬取参数进行确定:爬取时间、爬取主题、爬取深度、爬取广度等。
在此,所收集的第一图片作为所要生成的第二样本图片的基础样本图片被预先进行基于图像的文字识别处理,并得到第一图片中的文字及其文字识别结果。其中所述文字识别结果包含第一图片中至少一个或多个文字及每个文字的第一置信度信息。例如,图2示出了第一图片的具体示例,按照所述示例,利用基于图像的文字识别处理技术所识别出的文字识别结果包括:{优,a1}、{质,a2}、{无,a3}、{纺,a4}、{布,a5}、{化,a6}、{妆,a7}、{棉,a8}、{facial,a9}、{puffs,a10}等中文文字和英文单词。其中,格式{A,B}中的A为识别出的文字,B为识别A文字的第一置信度信息,B为(0,1)区间的小数。显然,上述格式仅用于描述文字识别结果内容,并非是文字识别结果的唯一格式。另外,所述文字识别结果还包含每个文字在第一图片中的区域位置信息,如文字在第一图片中的像素坐标。所述文字识别结果还可以包含每个文字行的区域位置信息,如文字行在第一图片中的像素坐标,如图2中“优质无纺布化妆棉”的文字行的对角像素坐标。
第一模块11可从安装了基于图片的文字识别系统的设备中获取第一图片的文字识别结果。例如,一图片处理设备与图片生成设备1数据连接,该图片处理设备将所获取的每个第一图片及其文字识别结果通过数据传输方式传递给第一模块11。由此,第一模块11获取到第一图片对应的文字识别结果。
图片生成设备1中还包括基于图片的文字识别模块,并与第一模块11相连。该文字识别模块通过程序接口将每个第一图片及其文字识别结果传递给第一模块11。
其中,基于图片的文字识别技术可通过对图片转灰度和降噪处理提供更易于识别字符的图片数据,再利用字符的特征、图片数据的版型特征、字符关联性等多种包含文字的图片特性对该图片数据进行字符切断、字符识别等字符提取。其中,所述字符包括但不限于汉字、单词、标点和符号等。所识别出的字符可基于人工比较、多种文字识别技术的比较、或反馈机制得到相应的第一置信度信息。例如,采用多种精细度的字符切断识别第一图片中同一区域的字符,并根据每次识别字符的一致性确定该区域所包含字符的第一置信度信息。基于图片的文字识别技术可采用OCR技术(Optical Character Recognition,光学字符识别)来得到每个第一图片中的文字识别结果。
第一模块11将所获取的文字识别结果中的文字、文字行等组成文字集并予以保存以供第二模块12、第三模块13和第四模块14调取。其中,所述文字集包括所述一个或多个文字中至少一个。例如,文字集中包含每个所识别出的文字和/或所识别出的每行文字。在某些实施方式中,所述文字集满足以下至少任一项:一个或多个文字中的一个文本行、一个或多个文字中的多个文本行、一个或多个文字中的一个文本行的部分、文字集中的文字来自所述一个或多个文字中不同文本行。例如,依旧参阅图2,所述文字集包含:“优质无纺布化妆棉”、“优质”、“facial puffs”、“facial”、“puffs”、和“化妆棉lint free不留棉絮”中的至少一个。
第二模块12用于根据文字集中文字的第一置信度信息确定所述文字集的第二置信度信息。
在此,若文字集中仅包含一个文字,则该文字的第一置信度信息即为文字集的第二置信度信息。若文字集中包含多个文字、和/或至少一个文字行,则第二模块12根据文字集中包含的各文字的第一置信度信息确定文字集的第二置信度信息。例如,基于图2所得到的文字集中包含“优质无纺布化妆棉”文字行,则该文字集的第二置信度信息基于“优”、“质”、“无”、“纺”、“布”、“化”、“状”、“棉”每个文字的第一置信度信息而确定的。又如,文字集中包含“优质”、“无纺布”,则该文字集的第二置信度信息基于“优”、“质”、“无”、“纺”、“布”每个文字的第一置信度信息而确定的。
在此,第二模块12根据文字集中文字的第一置信度信息确定所述文字集的第二置信度信息的方式包括但不限于:1)以文字集中每个文字的第一置信度信息的最小值作为所述文字集的第二置信度信息;2)以文字集中每个文字的第一置信度信息的平均值作为所述文字集的第二置信度信息;3)基于统计学剔除文字集中第一置信度信息最小值和最大值,再将剩余文字的第一置信度信息的平均值作为所述文字集的第二置信度信息。
在另一种实施例中,所述第二模块12根据文字集中文字的第一置信度信息确定所述文字集的第二置信度信息的方式还包括:根据文字集中每个文字的第一置信度信息的加权或加权平均值作为所述文字集的第二置信度信息;其中,所述权重可以根据预设的方式获取,或者,进一步优选地,可以根据所述文字所对应的文字位置,确定与所述文字的第一置信度信息相对应的权重信息。
具体地,根据所述文字在整个文本行的位置和/或所述文字在整张图片上的位置,确定所述文字在整个文本行或整张图片上的重要性信息,从而确定与所述文字的第一置信度信息相对应的权重信息。
例如,若某个文字位于整个文本行或整张图片的中心位置,则其相对其他文字更为重要,因此,将其对应的第一置信度信息的权重信息设置的较高;若某个文字位于整个文本行的末尾或整张图片的角落位置,则其相对其他文字而言重要性较低,将其对应的第一置信度信息的权重信息设置的也较低。
需要说明的是,采用根据文字集中各文字的第一置信度信息的最小值、均值方式来确定文字集的第二置信度信息的方式仅为举例。事实上任何合理的、有助于较准确的选择文字集的第二置信度信息的方式均应被视为本发明确定文字集第二置信度信息的具体示例。
第三模块13用于根据所述第二置信度信息确定所述第一图片对应的优选文字集。
在某些实施方式中,第三模块13提取文字集中每个第二置信度信息,并将每个第二置信度信息与预设的集合置信度阈值进行比较,保留高于或大于等于所述集合置信度阈值的第二置信度信息所对应的文字集,将所保留的文字集确定为所述第一图片的优选文字集。其中,所述集合置信度阈值可以为固定值;也可以基于统计学确定各第二置信度信息中不符合预设统计百分比的门限值作为所述集合置信度阈值。
在另一些实施方式中,第三模块13对多个所述文字集按所述第二置信度信息降序排列;再将序列中前N个文字集作为所述第一图片对应的优选文字集,其中N为自然数。其中,N可以是固定值,或基于第二置信度信息的总数而设置的值。
例如,N为固定值,当所得到的第二置信度信息的数量大于N时,选取降序排列的前N个第二置信度信息所对应的文字集作为第一图片的优选文字集。当所得到的第二置信度信息的数量小于N时,第三模块13可认定第一图片不能作为样本图片,或者第三模块13调整数字N以使第一图片具有至少一个优选文字集。
又如,第二置信度信息的总数为10个,以最高的前90%的第二置信度信息作为过滤条件,得到N为9,则将降序排列后的前9个第二置信度信息所对应的文字集予以保留,最小第二置信度信息所对应的文字集被提出,所保留的9个文字集作为第一图片的优选文字集。所得到的优选文字集被传递给第四模块14。
在另一种实施例中,所述第三模块13先对文字集进行筛选后,基于筛选后的文字集的所述第二置信度信息确定所述第一图片对应的优选文字集。其中,所述筛选包括但不限于基于所述文字的字符类型进行筛选,如只获取中文文字集、英文文字集或混合文字集;或者,是基于所述文字集所对应的位置,如将处于整个图像中特定位置的文字集(如图像中间)筛选出来。
在另一种实施例中,所述第三模块13可以根据所述第二置信度信息,结合所述第二图片所对应的应用的应用相关信息,确定所述第一图片对应的优选文字集。
具体地,所述第三模块13通过应用相关接口,直接与所述第二图片所对应的应用进行交互,以获取所述应用的应用相关信息;或者,所述第三模块13通过与其他设备相交互,以获取其他设备所提供的所述第二图片所对应的应用的应用相关信息。
其中,所述应用相关信息包括但不限于应用类型、应用领域、应用图片设置等。
然后,所述第三模块13基于所述应用相关信息,确定集合置信度阈值,然后再将文字集中每个第二置信度信息,并将每个第二置信度信息与预设的集合置信度阈值进行比较,保留高于或大于等于所述集合置信度阈值的第二置信度信息所对应的文字集,将所保留的文字集确定为所述第一图片的优选文字集。
例如,若所述应用领域为学术类的图像识别,则将集合置信度阈值设定的更高;若所述应用领域为非学术类的图像识别,则将集合置信度阈值设定的稍低。若所述应用类型为办公应用,则将集合置信度阈值设定的更高;若所述应用类型为娱乐应用,则将集合置信度阈值设定的稍低。
第四模块14用于对所述优选文字集在所述第一图片中对应的子图片进行图像处理,以获得第二图片,其中,所述第二图片对应的批注文字包括所述优选文字集。
在某些实施方式中,第四模块14根据所述优选文字集中文字的区域位置信息确定所述优选文字集在所述第一图片中对应的子图片。在此,所确定的优选文字集中每个文字或文字行在文字识别结果中的区域位置信息,从第一图片中抠出包含相应文字集的图片,将所抠出的图片作为对应所述优选文字集的子图片。例如,经第三模块13的筛选确定图2中优选文字集包含“优质无纺布化妆棉”文字行,则第四模块14基于所获取的文字识别结果中该文字行的区域位置信息从图2中所示的第一图片中抠图,得到图3中所示的子图片。
按照上述示例,若存在多个所述优选文字集,则第四模块14可从多个优选文字集中选择至少一个优选文字集在第一图片中对应的子图片。在一种具体示例中,第四模块14可根据每个优选文字集的样本图像数量的需要,将至少一个优选文字集进行组合,并根据组合后各优选文字集中文字的区域位置信息从第一图片中抠图子图片。例如,对应图2的优选文字集包含:“优质无纺布化妆棉”和“facial puffs”,第四模块14从第一图片中抠出单独包含文字集“优质无纺布化妆棉”、单独包含文字集“facial puffs”、以及同时包含文字集“优质无纺布化妆棉”和“facial puffs”的三个子图片。
第四模块14再对所得到的各子图片进行至少一种图像处理。其中,所述图像处理包括但不限于以下至少任一项:图像角度旋转处理、图像模糊处理、图像反色处理、图像缩放处理、在图像上叠加校验噪声。如图4-8所示,其显示为包含文字行“优质无纺布化妆棉”的子图片分别被执行上述对应的图像处理后的子图片。经所述图像处理后的子图片可作为第二图片,其中,所述第二图片对应的批注文字包括所述优选文字集。所述第二图片和第一图片均被批注所识别的优选文字集后被作为用于搜索系统进行人工智能学习的样本图片。
在另一种实施方式中,第四模块14将各子图片进行图像处理后替换第一图片中的对应区域,以得到第二图片,并按照所替换的子图片所对应的优选文字集设置相应第二图片的批注文字。例如,按照文字集“优质无纺布化妆棉”的区域位置信息,将图6中经图像反色处理的子图片替换第一图片中包含文字行“优质无纺布化妆棉”的区域,得打第二图片,并将文字行“优质无纺布化妆棉”设置为该第二图片的批注文字。
在另一种实施例中,所述第一模块11在对所述第一图片进行文字识别时,可以分别对所述第一图片中的文字进行单个文字识别和组合文字识别。换言之,所述第一模块11可以基于OCR技术,对所述第一图片中的每个文字进行分别识别,并分别给出上述单个文字的文字位置以及置信度信息,然后将其作为第一文字识别结果;然后,所述第一模块11同样基于OCR技术,对所述第一图片中的相邻文字进行识别,并给出相邻两个或多个文字、文字位置以及的置信度信息,并将其作为第二文字识别结果。
然后,所述第一模块11将上述所计算得到的所述第一文字识别结果与所述第二文字识别结果作为所述第一图片的文字识别结果。
在此,以英文字符为例,若设置以单词作为文字的单位,则单一文字即为一个单词,组合文字即为单词的组合;若设定以字母作为文字的单位,则单一文字即为一个字母,组合文字即为多个字母或一个单词。若以中文文字为例,若设置以汉字作为文字的单位,则单一文字即为一个汉字,组合文字即为多个汉字的组合。若是英文字符、中文字符以及其他字符混合,则可以在不同类别字符所设置的文字单位的基础上,将多种文字混合在一起的组合也作为组合文字。
在此,所述第二文字识别结果可以包含“相邻两个文字所对应的第二文字识别结果”、“相邻三个文字所对应的第二文字识别结果”和/或“相邻N个文字所对应的第二文字识别结果”;所述第一模块11可以并行计算单个文字所对应的第一文字识别结果以及两个或多个文字所对应的第二文字识别结果;也可以先计算所述第一文字识别结果,然后通过循环计算的方式,依次计算“相邻两个文字”、“相邻三个文字”、……、“相邻N个文字”所对应的第二文字识别结果。
例如,若以英文字母为文字单位,对于字符“one”进行识别。若对每个字母进行单独识别时,可能将“one”中的“o”识别为“0”,且置信度设置为0.9;而当其与“ne”一起识别时,所识别的“0ne”的置信度则为0.5——从而可知所识别的“0”未必是准确的。而若对每个字母进行单独识别时,可能将“one”中的“o”识别为“o”,且置信度设置为0.9;而当其与“ne”一起识别时,所识别的“one”的置信度则为0.9——从而可知所识别的“o”具有很强的准确性。
在另一种实施例中,所述第二模块包括二一单元(未示出)以及二二单元(未示出)。
所述二一单元根据所述文字识别结果中的文字位置,判断在所述第一文字识别结果以及所述第二文字识别结果中,相同文字位置所对应的文字是否一致。在此,本领域技术人员应能理解,所述第二文字识别结果可以有多组,如对应于相邻两个文字的第二文字识别结果、对应于相邻三个文字的第二文字识别结果等;则所述二一单元可以将多组文字识别结果中相同文字位置所对应的文字均进行比较,以确定相同文字位置所对应的文字是否一致。
所述二二单元根据所述二一单元所判断的、所述相同文字位置所对应的文字是否一致,以确定该文字所对应的置信度信息所对应的权重,以基于所述第一文字识别结果以及所述第二文字识别结果中的置信度信息,确定所述文字集的第二置信度信息;例如,若不一致,则调低该文字所对应的权重(最低可为0),若一致,则调高该文字所对应的权重(如权重大于1)。
在另一种实施例中,若所述相同文字位置所对应的文字一致,所述二二单元可以基于所述第一文字识别结果中所包含的置信度信息以及所述第二文字识别结果中所对应的置信度信息,分别对文字集中所述第一文字识别结果中的第二置信度信息以及文字集中所述第二文字识别结果中的第二置信度信息行计算,然后取两者的平均值或最小值,以确定所述第一图片的第二置信度信息。
在另一种实施例中,若所述相同文字位置所对应的文字不一致,则所述二二单元将文字集的第二置信度信息设置为零,其中,所述文字集包括所述一个或多个文字中至少一个。
也就是说,若所述相同文字位置所对应的文字不一致,则直接将该文字位置所对应的文字集的第二置信度信息设置为0。
图9示出根据本发明一个方面的图片生成方法的流程图。所述图片生成方法主要由图片生成设备来执行。所述图片生成设备包括但不限于:个人电脑、服务器等。
在步骤S110中,获取第一图片对应的文字识别结果。具体地,在步骤S110中,图片生成设备可以从网络下载第一图片、基于专门设计的样本图片而得到的图片、将从视频文件中截取的图片作为第一图片、自存储介质中读取的样本图片等。其中,所述存储介质包括但不限于:本地设备的存储器中所保存的图片、由外部存储装置(如U盘、移动硬盘)保存的图片等。所述第一图片的格式包括但不限于:.jpg、.png等。
在另一种实施例中,在步骤S110中,所述图片生成设备可以根据用户或系统所指定的爬取范围,对互联网上的相应网页进行爬取,并获取所爬取网页上的图像,以将其作为第一图片。其中,所述爬取范围可以根据以下至少任一项爬取参数进行确定:爬取时间、爬取主题、爬取深度、爬取广度等。
在此,所收集的第一图片作为所要生成的第二样本图片的基础样本图片被预先进行基于图像的文字识别处理,并得到第一图片中的文字及其文字识别结果。其中所述文字识别结果包含第一图片中至少一个或多个文字及每个文字的第一置信度信息。例如,图2示出了第一图片的具体示例,按照所述示例,利用基于图像的文字识别处理技术所识别出的文字识别结果包括:{优,a1}、{质,a2}、{无,a3}、{纺,a4}、{布,a5}、{化,a6}、{妆,a7}、{棉,a8}、{facial,a9}、{puffs,a10}等中文文字和英文单词。其中,格式{A,B}中的A为识别出的文字,B为识别A文字的第一置信度信息,B为(0,1)区间的小数。显然,上述格式仅用于描述文字识别结果内容,并非是文字识别结果的唯一格式。另外,所述文字识别结果还包含每个文字在第一图片中的区域位置信息,如文字在第一图片中的像素坐标。所述文字识别结果还可以包含每个文字行的区域位置信息,如文字行在第一图片中的像素坐标,如图2中“优质无纺布化妆棉”的文字行的对角像素坐标。
图片生成设备可从安装了基于图片的文字识别系统的设备中获取第一图片的文字识别结果。例如,一图片处理设备与图片生成设备数据连接,该图片处理设备将所获取的每个第一图片及其文字识别结果通过数据传输方式传递给图片生成设备。由此,图片生成设备获取到第一图片对应的文字识别结果。
图片生成设备中还包括基于图片的文字识别模块,并与图片生成设备相连。该文字识别模块通过程序接口将每个第一图片及其文字识别结果传递给图片生成设备。
其中,基于图片的文字识别技术可通过对图片转灰度和降噪处理提供更易于识别字符的图片数据,再利用字符的特征、图片数据的版型特征、字符关联性等多种包含文字的图片特性对该图片数据进行字符切断、字符识别等字符提取。其中,所述字符包括但不限于汉字、单词、标点和符号等。所识别出的字符可基于人工比较、多种文字识别技术的比较、或反馈机制得到相应的第一置信度信息。例如,采用多种精细度的字符切断识别第一图片中同一区域的字符,并根据每次识别字符的一致性确定该区域所包含字符的第一置信度信息。基于图片的文字识别技术可采用OCR技术(Optical Character Recognition,光学字符识别)来得到每个第一图片中的文字识别结果。
图片生成设备将所获取的文字识别结果中的文字、文字行等组成文字集并予以保存以供第二模块、第三模块和第四模块调取。其中,所述文字集包括所述一个或多个文字中至少一个。例如,文字集中包含每个所识别出的文字和/或所识别出的每行文字。在某些实施方式中,所述文字集满足以下至少任一项:一个或多个文字中的一个文本行、一个或多个文字中的多个文本行、一个或多个文字中的一个文本行的部分、文字集中的文字来自所述一个或多个文字中不同文本行。例如,依旧参阅图2,所述文字集包含:“优质无纺布化妆棉”、“优质”、“facial puffs”、“facial”、“puffs”、和“化妆棉lint free不留棉絮”中的至少一个。
在步骤S120中,根据文字集中文字的第一置信度信息确定所述文字集的第二置信度信息。
在此,若文字集中仅包含一个文字,则该文字的第一置信度信息即为文字集的第二置信度信息。若文字集中包含多个文字、和/或至少一个文字行,则图片生成设备根据文字集中包含的各文字的第一置信度信息确定文字集的第二置信度信息。例如,文字集中包含“优质无纺布化妆棉”文字行,则该文字集的第二置信度信息基于“优”、“质”、“无”、“纺”、“布”、“化”、“状”、“棉”每个文字的第一置信度信息而确定的。又如,文字集中包含“优质”、“无纺布”,则该文字集的第二置信度信息基于“优”、“质”、“无”、“纺”、“布”每个文字的第一置信度信息而确定的。
在此,图片生成设备根据文字集中文字的第一置信度信息确定所述文字集的第二置信度信息的方式包括但不限于:1)以文字集中每个文字的第一置信度信息的最小值作为所述文字集的第二置信度信息;2)以文字集中每个文字的第一置信度信息的平均值作为所述文字集的第二置信度信息;3)基于统计学剔除文字集中第一置信度信息最小值和最大值,再将剩余文字的第一置信度信息的平均值作为所述文字集的第二置信度信息。
在另一种实施例中,在步骤S120中,所述图片生成设备根据文字集中文字的第一置信度信息确定所述文字集的第二置信度信息的方式还包括:根据文字集中每个文字的第一置信度信息的加权或加权平均值作为所述文字集的第二置信度信息;其中,所述权重可以根据预设的方式获取,或者,进一步优选地,可以根据所述文字所对应的文字位置,确定与所述文字的第一置信度信息相对应的权重信息。
具体地,根据所述文字在整个文本行的位置和/或所述文字在整张图片上的位置,确定所述文字在整个文本行或整张图片上的重要性信息,从而确定与所述文字的第一置信度信息相对应的权重信息。
例如,若某个文字位于整个文本行或整张图片的中心位置,则其相对其他文字更为重要,因此,将其对应的第一置信度信息的权重信息设置的较高;若某个文字位于整个文本行的末尾或整张图片的角落位置,则其相对其他文字而言重要性较低,将其对应的第一置信度信息的权重信息设置的也较低。
需要说明的是,采用根据文字集中各文字的第一置信度信息的最小值、均值方式来确定文字集的第二置信度信息的方式仅为举例。事实上任何合理的、有助于较准确的选择文字集的第二置信度信息的方式均应被视为本发明确定文字集第二置信度信息的具体示例。
在步骤S130中,根据所述第二置信度信息确定所述第一图片对应的优选文字集。
在某些实施方式中,图片生成设备提取文字集中每个第二置信度信息,并将每个第二置信度信息与预设的集合置信度阈值进行比较,保留高于或大于等于所述集合置信度阈值的第二置信度信息所对应的文字集,将所保留的文字集确定为所述第一图片的优选文字集。其中,所述集合置信度阈值可以为固定值;也可以基于统计学确定各第二置信度信息中不符合预设统计百分比的门限值作为所述集合置信度阈值。
在另一些实施方式中,图片生成设备对多个所述文字集按所述第二置信度信息降序排列;再将序列中前N个文字集作为所述第一图片对应的优选文字集,其中N为自然数。其中,N可以是固定值,或基于第二置信度信息的总数而设置的值。
例如,N为固定值,当所得到的第二置信度信息的数量大于N时,选取降序排列的前N个第二置信度信息所对应的文字集作为第一图片的优选文字集。当所得到的第二置信度信息的数量小于N时,图片生成设备可认定第一图片不能作为样本图片,或者图片生成设备调整数字N以使第一图片具有至少一个优选文字集。
又如,第二置信度信息的总数为10个,以最高的前90%的第二置信度信息作为过滤条件,得到N为9,则将降序排列后的前9个第二置信度信息所对应的文字集予以保留,最小第二置信度信息所对应的文字集被提出,所保留的9个文字集作为第一图片的优选文字集。
在另一种实施例中,在步骤S130中,所述图片生成设备先对文字集进行筛选后,基于筛选后的文字集的所述第二置信度信息确定所述第一图片对应的优选文字集。其中,所述筛选包括但不限于基于所述文字的字符类型进行筛选,如只获取中文文字集、英文文字集或混合文字集;或者,是基于所述文字集所对应的位置,如将处于整个图像中特定位置的文字集(如图像中间)筛选出来。
在另一种实施例中,在步骤S130中,所述图片生成设备可以根据所述第二置信度信息,结合所述第二图片所对应的应用的应用相关信息,确定所述第一图片对应的优选文字集。
具体地,所述图片生成设备通过应用相关接口,直接与所述第二图片所对应的应用进行交互,以获取所述应用的应用相关信息;或者,所述图片生成设备通过与其他设备相交互,以获取其他设备所提供的所述第二图片所对应的应用的应用相关信息。
其中,所述应用相关信息包括但不限于应用类型、应用领域、应用图片设置等。
然后,所述图片生成设备基于所述应用相关信息,确定集合置信度阈值,然后再将文字集中每个第二置信度信息,并将每个第二置信度信息与预设的集合置信度阈值进行比较,保留高于或大于等于所述集合置信度阈值的第二置信度信息所对应的文字集,将所保留的文字集确定为所述第一图片的优选文字集。
例如,若所述应用领域为学术类的图像识别,则将集合置信度阈值设定的更高;若所述应用领域为非学术类的图像识别,则将集合置信度阈值设定的稍低。若所述应用类型为办公应用,则将集合置信度阈值设定的更高;若所述应用类型为娱乐应用,则将集合置信度阈值设定的稍低。
在步骤S140中,对所述优选文字集在所述第一图片中对应的子图片进行图像处理,以获得第二图片,其中,所述第二图片对应的批注文字包括所述优选文字集。
在某些实施方式中,图片生成设备根据所述优选文字集中文字的区域位置信息确定所述优选文字集在所述第一图片中对应的子图片。在此,所确定的优选文字集中每个文字或文字行在文字识别结果中的区域位置信息,从第一图片中抠出包含相应文字集的图片,将所抠出的图片作为对应所述优选文字集的子图片。例如,经图片生成设备的筛选确定图2中优选文字集包含“优质无纺布化妆棉”文字行,则图片生成设备基于所获取的文字识别结果中该文字行的区域位置信息从图2中所示的第一图片中抠图,得到图3中所示的子图片。
按照上述示例,若存在多个所述优选文字集,则图片生成设备可从多个优选文字集中选择至少一个优选文字集在第一图片中对应的子图片。在一种具体示例中,图片生成设备可根据每个优选文字集的样本图像数量的需要,将至少一个优选文字集进行组合,并根据组合后各优选文字集中文字的区域位置信息从第一图片中抠图子图片。例如,对应图2的优选文字集包含:“优质无纺布化妆棉”和“facial puffs”,图片生成设备从第一图片中抠出单独包含文字集“优质无纺布化妆棉”、单独包含文字集“facial puffs”、以及同时包含文字集“优质无纺布化妆棉”和“facial puffs”的三个子图片。
图片生成设备再对所得到的各子图片进行至少一种图像处理。其中,所述图像处理包括但不限于以下至少任一项:图像角度旋转处理、图像模糊处理、图像反色处理、图像缩放处理、在图像上叠加校验噪声。如图4-8所示,其显示为包含文字行“优质无纺布化妆棉”的子图片依次被执行上述图像处理后的子图片。经所述图像处理后的子图片可作为第二图片,其中,所述第二图片对应的批注文字包括所述优选文字集。所述第二图片和第一图片均被批注所识别的优选文字集后被作为用于搜索系统进行人工智能学习的样本图片。
在另一种实施方式中,图片生成设备将各子图片进行图像处理后替换第一图片中的对应区域,以得到第二图片,并按照所替换的子图片所对应的优选文字集设置相应第二图片的批注文字。例如,按照文字集“优质无纺布化妆棉”的区域位置信息,将图6中经图像反色处理的子图片替换第一图片中包含文字行“优质无纺布化妆棉”的区域,得打第二图片,并将文字行“优质无纺布化妆棉”设置为该第二图片的批注文字。
在另一种实施例中,所述图片生成设备在对所述第一图片进行文字识别时,可以分别对所述第一图片中的文字进行单个文字识别和组合文字识别。换言之,所述图片生成设备可以基于OCR技术,对所述第一图片中的每个文字进行分别识别,并分别给出上述单个文字的文字位置以及置信度信息,然后将其作为第一文字识别结果;然后,所述图片生成设备同样基于OCR技术,对所述第一图片中的相邻文字进行识别,并给出相邻两个或多个文字、文字位置以及的置信度信息,并将其作为第二文字识别结果。
然后,所述图片生成设备将上述所计算得到的所述第一文字识别结果与所述第二文字识别结果作为所述第一图片的文字识别结果。
在此,以英文字符为例,若设置以单词作为文字的单位,则单一文字即为一个单词,组合文字即为单词的组合;若设定以字母作为文字的单位,则单一文字即为一个字母,组合文字即为多个字母或一个单词。若以中文文字为例,若设置以汉字作为文字的单位,则单一文字即为一个汉字,组合文字即为多个汉字的组合。若是英文字符、中文字符以及其他字符混合,则可以在不同类别字符所设置的文字单位的基础上,将多种文字混合在一起的组合也作为组合文字。
在此,所述第二文字识别结果可以包含“相邻两个文字所对应的第二文字识别结果”、“相邻三个文字所对应的第二文字识别结果”和/或“相邻N个文字所对应的第二文字识别结果”;所述图片生成设备可以并行计算单个文字所对应的第一文字识别结果以及两个或多个文字所对应的第二文字识别结果;也可以先计算所述第一文字识别结果,然后通过循环计算的方式,依次计算“相邻两个文字”、“相邻三个文字”、……、“相邻N个文字”所对应的第二文字识别结果。
例如,若以英文字母为文字单位,对于字符“one”进行识别。若对每个字母进行单独识别时,可能将“one”中的“o”识别为“0”,且置信度设置为0.9;而当其与“ne”一起识别时,所识别的“0ne”的置信度则为0.5——从而可知所识别的“0”未必是准确的。而若对每个字母进行单独识别时,可能将“one”中的“o”识别为“o”,且置信度设置为0.9;而当其与“ne”一起识别时,所识别的“one”的置信度则为0.9——从而可知所识别的“o”具有很强的准确性。
在另一种实施例中,所述图片生成设备根据所述文字识别结果中的文字位置,判断在所述第一文字识别结果以及所述第二文字识别结果中,相同文字位置所对应的文字是否一致。在此,本领域技术人员应能理解,所述第二文字识别结果可以有多组,如对应于相邻两个文字的第二文字识别结果、对应于相邻三个文字的第二文字识别结果等;则所述图片生成设备可以将多组文字识别结果中相同文字位置所对应的文字均进行比较,以确定相同文字位置所对应的文字是否一致。
所述图片生成设备根据上述所判断的、所述相同文字位置所对应的文字是否一致,以确定该文字所对应的置信度信息所对应的权重,以基于所述第一文字识别结果以及所述第二文字识别结果中的置信度信息,确定所述文字集的第二置信度信息;例如,若不一致,则调低该文字所对应的权重(最低可为0),若一致,则调高该文字所对应的权重(如权重大于1)。
在另一种实施例中,若所述相同文字位置所对应的文字一致,所述图片生成设备可以基于所述第一文字识别结果中所包含的置信度信息以及所述第二文字识别结果中所对应的置信度信息,分别对文字集中所述第一文字识别结果中的第二置信度信息以及文字集中所述第二文字识别结果中的第二置信度信息行计算,然后取两者的平均值或最小值,以确定所述第一图片的第二置信度信息。
在另一种实施例中,若所述相同文字位置所对应的文字不一致,则所述图片生成设备将文字集的第二置信度信息设置为零,其中,所述文字集包括所述一个或多个文字中至少一个。
也就是说,若所述相同文字位置所对应的文字不一致,则直接将该文字位置所对应的文字集的第二置信度信息设置为0。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机代码,当所述计算机代码被执行时,如前任一项所述的方法被执行。
本发明还提供了一种计算机程序产品,当所述计算机程序产品被计算机设备执行时,如前任一项所述的方法被执行。
本发明还提供了一种计算机设备,所述计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个计算机程序;
当所述一个或多个计算机程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如前任一项所述的方法。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本申请的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (22)

1.一种图片生成方法,包括:
a获取第一图片对应的文字识别结果,其中,所述文字识别结果包括一个或多个文字及每个文字的第一置信度信息;
b根据文字集中文字的第一置信度信息确定所述文字集的第二置信度信息,其中,所述文字集包括所述一个或多个文字中至少一个;
c根据所述第二置信度信息确定所述第一图片对应的优选文字集;
d对所述优选文字集在所述第一图片中对应的子图片进行图像处理,以获得第二图片,其中,所述第二图片对应的批注文字包括所述优选文字集;
所述根据文字集中文字的第一置信度信息确定所述文字集的第二置信度信息,包括:
若文字集中仅包含一个文字,则所述文字的第一置信度信息为所述文字集的第二置信度信息;
若文字集中包含多个文字、和/或至少一个文字行,则根据文字集中包含的各文字的第一置信度信息确定所述文字集的第二置信度信息。
2.根据权利要求1所述的方法,其中,所述步骤d包括:
根据所述优选文字集中文字的区域位置信息确定所述优选文字集在所述第一图片中对应的子图片;
对所述子图片进行图像处理,以获得第二图片,其中,所述第二图片对应的批注文字包括所述优选文字集。
3.根据权利要求2所述的方法,其中,所述文字识别结果还包括所述区域位置信息。
4.根据权利要求1至3中任一项所述的方法,其中,所述步骤c包括:
若所述第二置信度信息等于或大于集合置信度阈值,确定所述文字集为所述第一图片对应的优选文字集。
5.根据权利要求1至3中任一项所述的方法,其中,所述步骤c包括:
对多个所述文字集按所述第二置信度信息降序排列;
将序列中前N个文字集作为所述第一图片对应的优选文字集,其中N为自然数。
6.根据权利要求1至3中任一项所述的方法,其中,所述文字集满足以下至少任一项:
所述一个或多个文字中的一个文本行;
所述多个文字中的多个文本行;
所述一个或多个文字中的一个文本行的部分;
所述文字集中的文字来自所述一个或多个文字中不同文本行。
7.根据权利要求1至3中任一项所述的方法,其中,所述步骤d包括:
对所述优选文字集在所述第一图片中对应的子图片进行不同的图像处理,以获得多个第二图片,其中,所述第二图片对应的批注文字包括所述优选文字集。
8.根据权利要求1至3中任一项所述的方法,其中,所述步骤d包括:
若存在多个所述优选文字集,对所述多个优选文字集中至少一个在所述第一图片中对应的子图片进行图像处理,以获得第二图片,其中,所述第二图片对应的批注文字包括所述优选文字集。
9.根据权利要求1至3中任一项所述的方法,其中,所述图像处理包括以下至少任一项:
图像角度旋转处理;
图像模糊处理;
图像反色处理;
图像缩放处理;
在图像上叠加校验噪声。
10.根据权利要求1至3所述的方法,其中,所述步骤a包括:
-对所述第一图片进行文字识别,以获取所述第一图片的第一文字识别结果,其中,所述第一文字识别结果包括一个或多个文字、每个文字的文字位置以及每个文字的第一置信度信息;
-对所述第一图片中相邻两个或多个文字进行组合识别,以获取所述第一图片的第二文字识别结果,其中,所述第二文字识别结果包括相邻两个或多个文字、相邻两个或多个文字的文字位置以及相邻两个或多个文字所对应的置信度信息;
-获取所述第一图片对应的文字识别结果,其中,所述文字识别结果包括所述第一文字识别结果以及所述第二文字识别结果。
11.根据权利要求10所述的方法,其中,所述步骤b包括:
-判断所述第一文字识别结果与第二文字识别结果中,相同文字位置所对应的文字是否一致;
b1根据所述相同文字位置所对应的文字是否一致,结合文字集中所述文字的所述第一文字识别结果以及所述第二文字识别结果中的置信度信息,确定所述文字集的第二置信度信息,其中,所述文字集包括所述一个或多个文字中至少一个。
12.根据权利要求11所述的方法,其中,所述步骤b1包括:
-若所述相同文字位置所对应的文字一致,则结合文字集中所述文字的所述第一文字识别结果以及所述第二文字识别结果中的置信度信息,确定所述文字集的第二置信度信息,其中,所述文字集包括所述一个或多个文字中至少一个。
13.根据权利要求11所述的方法,其中,所述步骤b1包括:
-若所述相同文字位置所对应的文字不一致,则将文字集的第二置信度信息设置为零,其中,所述文字集包括所述一个或多个文字中至少一个。
14.一种图片生成设备,包括:
第一模块,用于获取第一图片对应的文字识别结果,其中,所述文字识别结果包括一个或多个文字及每个文字的第一置信度信息;
第二模块,用于根据文字集中文字的第一置信度信息确定所述文字集的第二置信度信息,其中,所述文字集包括所述一个或多个文字中至少一个;
第三模块,用于根据所述第二置信度信息确定所述第一图片对应的优选文字集;
第四模块,用于对所述优选文字集在所述第一图片中对应的子图片进行图像处理,以获得第二图片,其中,所述第二图片对应的批注文字包括所述优选文字集;
所述第二模块,具体用于若文字集中仅包含一个文字,则所述文字的第一置信度信息为所述文字集的第二置信度信息;若文字集中包含多个文字、和/或至少一个文字行,则根据文字集中包含的各文字的第一置信度信息确定所述文字集的第二置信度信息。
15.根据权利要求14所述的设备,其中,所述第四模块用于:
根据所述优选文字集中文字的区域位置信息确定所述优选文字集在所述第一图片中对应的子图片;
对所述子图片进行图像处理,以获得第二图片,其中,所述第二图片对应的批注文字包括所述优选文字集。
16.根据权利要求14所述的设备,其中,所述第三模块用于:
若所述第二置信度信息等于或大于集合置信度阈值,确定所述文字集为所述第一图片对应的优选文字集。
17.根据权利要求14所述的设备,其中,所述第三模块用于:
对多个所述文字集按所述第二置信度信息降序排列;
将序列中前N个文字集作为所述第一图片对应的优选文字集,其中N为自然数。
18.根据权利要求14所述的设备,其中,所述第四模块用于:
对所述优选文字集在所述第一图片中对应的子图片进行不同的图像处理,以获得多个第二图片,其中,所述第二图片对应的批注文字包括所述优选文字集。
19.根据权利要求14所述的设备,其中,所述第四模块用于:
若存在多个所述优选文字集,对所述多个优选文字集中至少一个在所述第一图片中对应的子图片进行图像处理,以获得第二图片,其中,所述第二图片对应的批注文字包括所述优选文字集。
20.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机代码,当所述计算机代码被执行时,如权利要求1至13中任一项所述的方法被执行。
21.一种计算机程序产品,当所述计算机程序产品被计算机设备执行时,如权利要求1至13中任一项所述的方法被执行。
22.一种计算机设备,所述计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个计算机程序;
当所述一个或多个计算机程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至13中任一项所述的方法。
CN201710742645.6A 2017-08-25 2017-08-25 一种图片生成方法与设备 Active CN107679074B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710742645.6A CN107679074B (zh) 2017-08-25 2017-08-25 一种图片生成方法与设备
US16/109,683 US10839244B2 (en) 2017-08-25 2018-08-22 Method and device for generating image

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710742645.6A CN107679074B (zh) 2017-08-25 2017-08-25 一种图片生成方法与设备

Publications (2)

Publication Number Publication Date
CN107679074A CN107679074A (zh) 2018-02-09
CN107679074B true CN107679074B (zh) 2021-05-04

Family

ID=61134838

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710742645.6A Active CN107679074B (zh) 2017-08-25 2017-08-25 一种图片生成方法与设备

Country Status (2)

Country Link
US (1) US10839244B2 (zh)
CN (1) CN107679074B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569835B (zh) * 2018-06-06 2024-03-05 北京搜狗科技发展有限公司 一种图像识别方法、装置和电子设备
CN110633457B (zh) * 2018-06-22 2023-05-26 广州金山移动科技有限公司 一种内容替换方法、装置、电子设备及可读存储介质
CN110969176B (zh) * 2018-09-29 2023-12-29 杭州海康威视数字技术股份有限公司 一种车牌样本扩增方法、装置和计算机设备
CN109902768B (zh) * 2019-04-26 2021-06-29 上海肇观电子科技有限公司 光学字符识别技术的输出结果的处理
CN113221901A (zh) * 2021-05-06 2021-08-06 中国人民大学 一种面向不成熟自检系统的图片识字转化方法及系统
CN113537410B (zh) * 2021-09-14 2021-12-07 征图新视(江苏)科技股份有限公司 一种通用的深度学习正样本自动均衡方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455806A (zh) * 2012-05-31 2013-12-18 富士通株式会社 文档处理装置、文档处理方法以及扫描仪
CN103870822A (zh) * 2012-12-17 2014-06-18 北京千橡网景科技发展有限公司 词语识别方法及装置
US20140355835A1 (en) * 2013-05-28 2014-12-04 Xerox Corporation System and method for ocr output verification
CN104965921A (zh) * 2015-07-10 2015-10-07 陈包容 信息匹配的方法
CN105095900A (zh) * 2014-05-04 2015-11-25 阿里巴巴集团控股有限公司 一种提取标准卡片中特定信息的方法和装置
CN105184289A (zh) * 2015-10-10 2015-12-23 北京百度网讯科技有限公司 字符识别方法和装置
CN105975955A (zh) * 2016-05-27 2016-09-28 北京好运到信息科技有限公司 一种图像中文本区域的检测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8175394B2 (en) * 2006-09-08 2012-05-08 Google Inc. Shape clustering in post optical character recognition processing
TW200928999A (en) * 2007-12-28 2009-07-01 Altek Corp Automatic validation method of business card imaging angle
CN102855477B (zh) * 2011-06-29 2014-12-17 富士通株式会社 识别图像块中文字的方向的方法和装置
US10679089B2 (en) * 2016-12-30 2020-06-09 Business Imaging Systems, Inc. Systems and methods for optical character recognition

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455806A (zh) * 2012-05-31 2013-12-18 富士通株式会社 文档处理装置、文档处理方法以及扫描仪
CN103870822A (zh) * 2012-12-17 2014-06-18 北京千橡网景科技发展有限公司 词语识别方法及装置
US20140355835A1 (en) * 2013-05-28 2014-12-04 Xerox Corporation System and method for ocr output verification
CN105095900A (zh) * 2014-05-04 2015-11-25 阿里巴巴集团控股有限公司 一种提取标准卡片中特定信息的方法和装置
CN104965921A (zh) * 2015-07-10 2015-10-07 陈包容 信息匹配的方法
CN105184289A (zh) * 2015-10-10 2015-12-23 北京百度网讯科技有限公司 字符识别方法和装置
CN105975955A (zh) * 2016-05-27 2016-09-28 北京好运到信息科技有限公司 一种图像中文本区域的检测方法

Also Published As

Publication number Publication date
US20190065883A1 (en) 2019-02-28
CN107679074A (zh) 2018-02-09
US10839244B2 (en) 2020-11-17

Similar Documents

Publication Publication Date Title
CN107679074B (zh) 一种图片生成方法与设备
Chen et al. DISC: Deep image saliency computing via progressive representation learning
Xu et al. Security and Usability Challenges of {Moving-Object}{CAPTCHAs}: Decoding Codewords in Motion
Spain et al. Measuring and predicting object importance
WO2017035966A1 (zh) 用于人脸图像处理的方法和装置
CN108229328A (zh) 人脸防伪检测方法和系统、电子设备、程序和介质
CN109859295A (zh) 一种特定动漫人脸生成方法、终端设备及存储介质
WO2022089170A1 (zh) 字幕区域识别方法、装置、设备及存储介质
CN110334753B (zh) 视频分类方法、装置、电子设备及存储介质
CN110097086A (zh) 图像生成模型训练方法、图像生成方法、装置、设备及存储介质
CN109726712A (zh) 文字识别方法、装置及存储介质、服务器
KR101996371B1 (ko) 영상 캡션 생성 시스템과 방법 및 이를 위한 컴퓨터 프로그램
CN109388725A (zh) 通过视频内容进行搜索的方法及装置
CN110414523A (zh) 一种身份证识别方法、装置、设备及存储介质
Ni et al. Touch saliency: Characteristics and prediction
CN105141974B (zh) 一种视频剪辑方法和装置
CN111741329B (zh) 一种视频处理方法、装置、设备及存储介质
Zhou et al. Breaking google recaptcha v2
CN108334602B (zh) 数据标注方法和装置、电子设备、计算机存储介质
CN111768729A (zh) 一种vr场景自动解说方法、系统和存储介质
CN113888675A (zh) 用于生成证件图像的方法、系统、装置和介质
CN112199290A (zh) 基于机器学习的ui元素定位方法及系统
CN113762031A (zh) 一种图像识别方法、装置、设备及存储介质
CN113191942A (zh) 生成图像的方法、训练人物检测模型的方法、程序及装置
CN108063936B (zh) 增强现实ar的实现方法、装置和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant