CN111145153B - 图像处理方法、电路、视障辅助设备、电子设备及介质 - Google Patents

图像处理方法、电路、视障辅助设备、电子设备及介质 Download PDF

Info

Publication number
CN111145153B
CN111145153B CN201911353598.1A CN201911353598A CN111145153B CN 111145153 B CN111145153 B CN 111145153B CN 201911353598 A CN201911353598 A CN 201911353598A CN 111145153 B CN111145153 B CN 111145153B
Authority
CN
China
Prior art keywords
image
processed
determining
text
standard deviation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911353598.1A
Other languages
English (en)
Other versions
CN111145153A (zh
Inventor
陈凌奇
蔡海蛟
冯歆鹏
周骥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NextVPU Shanghai Co Ltd
Original Assignee
NextVPU Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NextVPU Shanghai Co Ltd filed Critical NextVPU Shanghai Co Ltd
Priority to CN202310667570.5A priority Critical patent/CN117115078A/zh
Priority to CN201911353598.1A priority patent/CN111145153B/zh
Publication of CN111145153A publication Critical patent/CN111145153A/zh
Application granted granted Critical
Publication of CN111145153B publication Critical patent/CN111145153B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/001Teaching or communicating with blind persons
    • G09B21/006Teaching or communicating with blind persons using audible presentation of the information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30168Image quality inspection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Image Processing (AREA)
  • Studio Devices (AREA)

Abstract

提供一种图像处理方法、电路、视障辅助设备、电子设备及介质。所述方法包括:获取待处理图像以及所述待处理图像的参考图像,所述参考图像的大小小于所述待处理图像的大小;根据所述参考图像的大小,对所述待处理图像进行压缩处理;以及根据压缩处理后的待处理图像,确定所述待处理图像的图像质量。

Description

图像处理方法、电路、视障辅助设备、电子设备及介质
技术领域
本公开涉及图像处理技术领域,特别涉及一种图像处理方法、电子电路、视障辅助设备、电子设备及计算机可读存储介质。
背景技术
相关技术中,在对待处理图像执行OCR(Optical Character Recognition,光学字符识别)等文字识别操作之前,常需要对所述待处理图像执行图像评估预处理操作以评估其图像质量。若确定所述待处理图像的图像质量不佳则可无需执行后续的OCR等文字识别操作,以减少不必要的计算消耗,节省时间和功耗。
在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。
发明内容
根据本公开的一个方面,提供一种图像处理方法,包括:获取待处理图像以及所述待处理图像的参考图像,所述参考图像的大小小于所述待处理图像的大小;根据所述参考图像的大小,对所述待处理图像进行压缩处理;以及根据压缩处理后的待处理图像,确定所述待处理图像的图像质量。
根据本公开的一个方面,提供一种图像处理方法,包括:获取待处理图像,并将所述待处理图像分割为多个图像块;根据各图像块中的像素点的像素值计算各图像块的拉普拉斯标准差;将计算得到的各图像块的拉普拉斯标准差与标准差阈值进行比较,选取对应的拉普拉斯标准差大于所述标准差阈值的第一图像块;以及基于所选取的第一图像块的拉普拉斯标准差确定所述待处理图像的图像模糊度。
根据本公开的另一个方面,提供一种电子电路,包括:被配置为执行本公开中所述的方法的步骤的电路。
根据本公开的另一个方面,提供一种视障辅助设备,包括:摄像机,被配置为获取图像;以及本公开中所述的电子电路。
根据本公开的另一个方面,提供一种电子设备,包括:处理器;以及存储程序的存储器,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行本公开中所述的方法。
根据本公开的另一个方面,提供一种存储程序的计算机可读存储介质,所述程序包括指令,所述指令在由电子设备的处理器执行时,致使所述电子设备执行本公开中所述的方法。
从下面结合附图描述的示例性实施例中,本公开的更多特征和优点将变得清晰。
附图说明
附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
图1是示出根据本公开示例性实施例的图像处理方法的流程图;
图2A是示出根据本公开示例性实施例的一种预览图像的示意图;
图2B是示出根据本公开示例性实施例的一种压缩处理后的拍照图像的示意图;
图3A是示出根据本公开示例性实施例的另一种预览图像的示意图;
图3B是示出根据本公开示例性实施例的另一种压缩处理后的拍照图像的示意图;
图4是示出根据本公开示例性实施例的采用灰度投影法确定压缩处理后的待处理图像与参考图像之间的文本偏移量的流程示意图;
图5是示出根据本公开示例性实施例的采用拉普拉斯方差算法确定压缩处理后的待处理图像的图像模糊度的流程示意图;
图6是示出根据本公开示例性实施例的对标准差阈值进行调整的整体流程示意图;
图7是示出根据本公开示例性实施例的图像处理方法的整体流程示意图;
图8A示出根据本公开示例性实施例的能够在其中检测到文本框的预览图像的示意图;
图8B示出根据本公开示例性实施例的执行图像拍照操作所获取到的待处理图像的示意图;
图8C示出根据本公开示例性实施例的压缩处理后的待处理图像的示意图;
图8D示出根据本公开示例性实施例的裁剪后的预览图像的示意图;
图8E示出根据本公开示例性实施例的裁剪后的待处理图像的示意图;
图9是示出根据本公开的示例性实施例的电子设备的示例的框图。
具体实施方式
在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个元件与另一元件区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。
在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。此外,本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。
相关技术中,在对待处理图像执行OCR(Optical Character Recognition,光学字符识别)等文字识别操作之前,常需要对所述待处理图像执行图像评估预处理操作以评估其图像质量。若确定所述待处理图像的图像质量不佳则可无需执行后续的OCR等文字识别操作,以减少不必要的计算消耗,节省时间和功耗。所述图像评估预处理操作可包括对所述待处理图像进行图像模糊度评估等。然而,为了适应后续可能进行的OCR等文字识别操作所需的高识别率,所述待处理图像的像素数量、数据量、存储量或者清晰度等等通常较大,因而对所述待处理图像执行模糊度评估等预处理操作所需的运算量通常较大,导致图像处理效率较低。
本公开提供了一种图像处理方法,其避免直接对相对较大的待处理图像进行图像评估预处理操作,而是根据待处理图像的相对较小的参考图像,对待处理图像进行压缩处理,之后再根据压缩处理后的待处理图像,确定所述待处理图像的图像质量。以下将结合附图对本公开的图像处理方法的示例性实施例进行进一步描述。
图1是示出根据本公开的示例性实施例的图像处理方法的流程图。如图1所示,该图像处理方法例如可以包括以下步骤:获取待处理图像以及所述待处理图像的参考图像,所述参考图像的大小小于所述待处理图像的大小(步骤S101);根据所述参考图像的大小,对所述待处理图像进行压缩处理(步骤S102);以及根据压缩处理后的待处理图像,确定所述待处理图像的图像质量(步骤S103)。
根据图1的流程图所示的图像处理方法,可根据参考图像的大小,对待处理图像进行压缩处理,并根据压缩处理后的待处理图像,确定所述待处理图像的图像质量。所述参考图像的大小小于所述待处理图像的大小。由此,避免了直接对相对较大的待处理图像进行图像评估预处理操作所带来的运算量较大的问题,使得所述待处理图像的图像质量评估过程耗时较短,提高了图像处理的效率,节省了图像处理时间。
根据一些实施例,所述待处理图像以及所述参考图像可以是通过图像传感器(例如可以为摄像头、照相机等)获取的电子图像。所述电子图像可以是彩色图像或灰度图像。所述电子图像还可以是静态图像或视频图像。根据一些实施例,图像传感器可以被包括在用户手持的电子设备(例如阅读辅助设备、移动电话、平板计算机、个人数字助理、可穿戴电子设备等)中。所述图像传感器或者包括所述图像传感器的电子设备可以设置于用户的可穿戴设备或眼镜等物品上,从而所述待处理图像和/或所述参考图像可以是由该图像传感器获取的、包含由用户握持的读物(例如书籍或杂志等)的场景的图像。根据一些实施方式,所述待处理图像以及所述参考图像可以在被图像传感器获取之后存储(例如缓存)在存储设备或存储介质中,并被读出以供后续处理,其中,存储设备或存储介质中存储的待处理图像可以包括该待处理图像的原图或者包括该待处理图像的原图以及至少一个副本(副本的大小与原图的大小一致),存储的参考图像可以包括该参考图像的原图或者包括该参考图像的原图以及至少一个副本。
根据一些实施例,各图像的大小可通过像素数量、数据量、存储量、或者清晰度等中的一种或多种来表示。示例的,以通过像素数量来表示所述待处理图像以及所述参考图像的大小为例,所述待处理图像的大小可表示为M1 x N1,所述参考图像的大小可表示为M2x N2,其中,M1、N1、M2、N2的单位可为像素。另外,上述M1、N1、M2、N2的具体数值可根据实际情况来确定,例如可根据图像传感器的大小和像素数量等参数来确定,只要能够使得参考图像的大小小于待处理图像的大小即可。例如,参考图像的大小可表示为320x 240(单位为像素),待处理图像的大小可表示为3264x 2448(单位为像素),等等。
根据一些实施例,所述压缩处理后的待处理图像为根据所述参考图像的大小,对所述待处理图像的图像副本而非原图进行压缩处理所得到的。这样,所述待处理图像的原图可以被原样保留以免影响用户针对所述待处理图像的原图可能进行的后续操作。根据一些实施例,可从存储设备或存储介质中存储的所述待处理图像的至少一个副本中,选取一个副本进行压缩处理,得到所述压缩处理后的待处理图像。作为替换方式,也可对存储设备或存储介质中存储的所述待处理图像的原图进行复制操作得到所述待处理图像的副本,之后,对所得到的所述待处理图像的副本进行压缩处理以得到所述压缩处理后的待处理图像。
根据一些实施例,所述压缩处理后的待处理图像的大小可与所述参考图像的大小相一致,以便于更高效地执行后续的图像质量确定操作。当然,所述压缩处理后的待处理图像的大小也可在图像的长和/或宽的方向上与所述参考图像的大小存在一定的允许误差,只要不影响后续的图像质量确定操作的执行即可。
根据一些实施例,所述参考图像与所述待处理图像可以是在不同时刻获取到的针对同一场景(例如同一目标或同一区域等)的图像,所述参考图像中能够检测到文本区域,即本公开实施例可适用于具备文本内容的场景图像的处理。根据一些实施例,所述参考图像和所述待处理图像可以分别是在图像预览(preview)阶段和图像拍照(capture)阶段获取到的针对同一场景的预览图像和拍照图像。换言之,所述参考图像可以为通过图像拍照操作获取所述待处理图像之前,通过图像预览操作所获取到的能够检测到文本区域的预览图像。由于预览图像通常很小,因而可进一步缩短待处理图像的图像质量评估所需耗时,例如,可使得待处理图像的图像质量评估过程达到毫秒级别等等。另外,通过将图像预览操作所获取到的预览图像作为后续图像拍照操作所获取到的待处理图像的参考图像,还可提高图像之间的相关性以及图像获取的便捷性,提高后续图像质量评估的准确性以及效率。
根据一些实施方式,图像预览阶段是可用于执行文本框检测的阶段。可基于文本框检测算法对图像(如图像预览阶段获取的预览图像等)执行文本框检测,以及响应于在所述图像中检测到文本框,确定所述图像为能够检测到文本区域的图像。所述文本区域例如可以为包含有中文、英文、日文和/或其它语言字符的区域。
例如,在本公开实施例中,可通过以下方式获取所述待处理图像以及所述待处理图像的参考图像:使图像传感器(例如可以为摄像头、照相机等)针对设定场景(例如包含由用户握持的读物的场景,或其它存在文字识别需求的场景等)执行图像预览操作以获取预览图像;对所述预览图像执行文本框检测;以及,响应于在所述预览图像中检测到文本框,将所述预览图像作为参考图像并使图像传感器针对所述设定场景执行图像拍照操作以获取到待处理图像(即拍照图像)。根据一些实施例,所述文本框检测算法例如可以包括基于极值区域如MSER(Maximally Stable Extremal Regions,最大稳定极值区域)或连通区域的方法等非深度学习方法,或者,基于边界框回归的方法或基于分割的方法等深度学习方法。根据一些实施方式,所述文本框检测算法可采用基于极值区域(例如MSER)或连通区域的方法等非深度学习方法,以降低文本框检测的复杂度,提高图像处理的效率。
根据一些实施例,根据所述压缩处理后的待处理图像,确定所述待处理图像的图像质量,包括以下步骤的任一种或组合:确定所述压缩处理后的待处理图像与所述参考图像之间的文本偏移量,根据所述文本偏移量确定所述待处理图像的图像质量;确定所述压缩处理后的待处理图像的图像模糊度,根据所述图像模糊度确定所述待处理图像的图像质量。
根据一些实施例,根据所述文本偏移量确定所述待处理图像的图像质量,可包括:响应于所述文本偏移量不大于偏移量阈值,确定所述待处理图像的图像质量满足设定的质量条件。相应地,响应于所述文本偏移量大于偏移量阈值,可确定所述待处理图像的图像质量不满足设定的质量条件。根据一些实施例,根据所述图像模糊度确定所述待处理图像的图像质量,可包括:响应于所述图像模糊度不大于模糊度阈值,确定所述待处理图像的图像质量满足设定的质量条件。相应地,响应于所述图像模糊度大于模糊度阈值,可确定所述待处理图像的图像质量不满足设定的质量条件。所述偏移量阈值以及模糊度阈值可以是预先设定的,另外,还可以根据实际情况和/或需求动态调整。
换言之,在本公开实施例中,可基于文本偏移程度以及图像模糊程度中的一种或两种指标来评估待处理图像的图像质量,以提高图像质量评估的灵活性。当基于文本偏移程度以及图像模糊程度的双重指标来评估待处理图像的图像质量时,响应于所述文本偏移量不大于偏移量阈值以及所述图像模糊度不大于模糊度阈值,可确定所述待处理图像的图像质量满足设定的质量条件,否则,可确定所述待处理图像的图像质量不满足设定的质量条件,因而,图像质量评估结果的准确性会更高。经测试,此种情形下,图像质量评估的准确度可达到90%以上。
另外,需要说明的是,图像质量评估所基于的指标可根据实际情况和/或需求灵活确定。例如,对于图像质量评估结果要求较高的情形,可基于文本偏移程度以及图像模糊程度的双重指标来评估待处理图像的图像质量,对于图像质量评估效率要求较高的情形,可基于文本偏移程度或图像模糊程度一种指标来评估待处理图像的图像质量。再例如,还可根据预先设置或人为设置,选择文本偏移程度以及图像模糊程度中的一种或两种指标来评估待处理图像的图像质量,等等。
示例的,以参考图像为图2A示出的预览图像,压缩处理后的待处理图像为图2B示出的压缩处理后的拍照图像为例。如图2A和2B所示,压缩处理后的拍照图像较为清晰,但与所述预览图像之间的文本偏移(或位移)较大,例如预览图像中的文本已完全移出压缩处理后的拍照图像。在该情形下,可选择基于文本偏移程度,对图像质量进行评价,以提高图像质量评估的效率。例如,通过计算可确定压缩处理后的拍照图像与预览图像之间的文本偏移量大于偏移量阈值,即,不满足不大于偏移量阈值的情形,因而可认为拍照图像的图像质量较差,不满足设定的质量条件。另外,该情形下,还可基于文本偏移程度以及图像模糊程度的双重指标来评估待处理图像的图像质量,以提高图像质量评估结果的准确性。例如,通过计算虽然可确定压缩处理后的拍照图像的图像模糊度不大于模糊度阈值,但由于可确定压缩处理后的拍照图像与预览图像之间的文本偏移量大于偏移量阈值,即,不满足不大于偏移量阈值的情形,因而可认为拍照图像的图像质量较差,不满足设定的质量条件。
再例如,以参考图像为图3A示出的预览图像,压缩处理后的待处理图像为图3B示出的压缩处理后的拍照图像为例,预览图像中的文本相对压缩处理后的拍照图像中的文本的偏移(或位移)很小(或几乎没有),但压缩处理后的拍照图像中的文字较为模糊。该情形下,可选择基于图像模糊程度,对图像质量进行评价,以提高图像质量评估的效率。例如,通过计算可确定图像模糊度大于模糊度阈值,即,不满足不大于模糊度阈值的情形,因而可认为拍照图像的图像质量较差,不满足设定的质量条件。另外,该情形下,还可基于文本偏移程度以及图像模糊程度的双重指标来评估待处理图像的图像质量,以提高图像质量评估结果的准确性。例如,通过计算虽然可确定压缩处理后的拍照图像与预览图像之间的文本偏移量不大于偏移量阈值,但由于可确定压缩处理后的拍照图像的图像模糊度大于模糊度阈值,即,不满足不大于模糊度阈值的情形,因而可认为拍照图像的图像质量较差,不满足设定的质量条件。
根据一些实施例,根据所述压缩处理后的待处理图像,确定所述待处理图像的图像质量,可包括:确定所述压缩处理后的待处理图像与所述参考图像之间的文本偏移量;响应于所述文本偏移量不大于偏移量阈值,确定所述压缩处理后的待处理图像的图像模糊度;以及响应于所述图像模糊度不大于模糊度阈值,确定所述待处理图像的图像质量满足设定的质量条件。换言之,通过文本偏移程度以及图像模糊程度的双重指标来评估待处理图像的图像质量时,文本偏移量的确定操作可在图像模糊度的确定操作之前执行。通过这样的处理,若确定文本偏移量大于偏移量阈值,可无需再执行图像模糊度的确定与判断操作,而是可直接确定待处理图像的图像质量不满足设定的质量条件(例如,可直接确定待处理图像的文本偏移程度过大),以减少图像处理的计算量,提高图像处理的效率。例如,在图2A以及图2B所示出的例子中,由于可确定所述压缩处理后的拍照图像与所述预览图像之间的文本偏移量大于偏移量阈值,可直接得出待处理图像的图像质量不满足设定的质量条件这一结果,而无需再执行图像模糊度的确定与判断操作。
根据另一些实施例,根据所述压缩处理后的待处理图像,确定所述待处理图像的图像质量,可包括:确定所述压缩处理后的待处理图像的图像模糊度;响应于所述图像模糊度不大于模糊度阈值,确定所述压缩处理后的待处理图像与所述参考图像之间的文本偏移量;以及响应于所述文本偏移量不大于偏移量阈值,确定所述待处理图像的图像质量满足设定的质量条件。换言之,通过文本偏移程度以及图像模糊程度的双重指标来评估待处理图像的图像质量时,图像模糊度的确定操作可在文本偏移量的确定操作之前执行。通过这样的处理,若确定图像模糊度大于模糊度阈值,可无需再执行文本偏移量的确定与判断操作,而是可直接确定待处理图像的图像质量不满足设定的质量条件(例如,可直接确定待处理图像不清晰或过于模糊),以减少图像处理的计算量,提高图像处理的效率。例如,在图3A以及图3B所示出的例子中,由于可确定所述压缩处理后的拍照图像的图像模糊度大于模糊度阈值,可直接得出待处理图像的图像质量不满足设定的质量条件这一结果,而无需再执行文本偏移量的确定与判断操作。
作为替换实施方式,文本偏移量的确定操作与图像模糊度的确定操作还可并行执行,之后再根据相应的文本偏移量确定结果以及图像模糊度确定结果综合判断待处理图像的图像质量。例如,如前所述,若确定文本偏移量不大于偏移量阈值以及图像模糊度不大于模糊度阈值,则可确定待处理图像的图像质量满足设定的质量条件,若确定文本偏移量大于偏移量阈值和/或图像模糊度大于模糊度阈值,则可确定待处理图像的图像质量不满足设定的质量条件。
另外,由本公开上述实施例可知,图像传感器(例如可以为摄像头、照相机等)执行拍照操作的过程中,从曝光到成像的时长内(通常可为1~2秒)镜头或文本对象抖动而产生的位移或引发的模糊情形可以在拍照前的预览图像和拍照后的拍照图像中反映出来。这正好利用了拍照成像的时间,没有额外的耗时。
根据一些实施例,可采用文本偏移量检测算法确定所述压缩处理后的待处理图像与所述参考图像之间的文本偏移量,所述文本偏移量检测算法例如可以包括灰度投影法。所述灰度投影法是一种对图像分布特征进行简化提取的方法,其以二维图像的像素行和列为单位,将图像特征转化为沿行、列坐标的曲线,以便更容易对图像分布特征进行计算。
图4示出了根据本公开示例性实施例的采用灰度投影法确定所述压缩处理后的待处理图像与所述参考图像之间的文本偏移量的流程图。如图4所示,采用灰度投影法确定所述文本偏移量可包括以下步骤。
步骤S401:计算所述压缩处理后的待处理图像和所述参考图像的每一像素行和每一像素列中所有像素的和。
根据一些实施例,在计算所述压缩处理后的待处理图像和所述参考图像的每一像素行和每一像素列中所有像素的和之前,可对所述压缩处理后的待处理图像和所述参考图像进行灰度化处理。另外,若所述压缩处理后的待处理图像和所述参考图像为灰度图像,则该灰度化步骤可省略。
步骤S402:基于计算得到的所述压缩处理后的待处理图像和所述参考图像的每一像素行和每一像素列中所有像素的和,确定所述压缩处理后的待处理图像和所述参考图像的行灰度投影和列灰度投影。
根据一些实施例,针对所述压缩处理后的待处理图像与所述参考图像中的任一图像,可通过计算该图像的每一像素行中所有像素的和与该图像的行像素和均值的差值,得到该图像的行灰度投影,以及可通过计算该图像的每一像素列中所有像素的和与该图像的列像素和均值的差值,得到该图像的列灰度投影。针对任一图像,所述图像的行像素和均值是指所述图像中的所有像素行的像素和的均值,所述图像的列像素和均值是指所述图像中的所有像素列的像素和的均值。
步骤S403:根据所述压缩处理后的待处理图像和所述参考图像的行灰度投影和列灰度投影,确定所述压缩处理后的待处理图像和所述参考图像中的相匹配的行在垂直方向的位移,以及相匹配的列在水平方向的位移。
根据一些实施例,可通过分别计算所述压缩处理后的待处理图像和所述参考图像的行灰度投影的互相关性、列灰度投影的互相关性来获得该两个图像中的相匹配的行(例如,互相关性最高的行)在垂直方向即列方向的位移、以及相匹配的列(例如,互相关性最高的列)在水平方向即行方向的位移。该两个图像中的相匹配的行在垂直方向的位移、以及相匹配的列在水平方向的位移即为该两个图像中待识别对象在垂直方向、以及水平方向的位移。
根据一些实施例,所述压缩处理后的待处理图像和所述参考图像的行灰度投影的互相关性可由所述压缩处理后的待处理图像和所述参考图像的行灰度投影的差值,或者差值的平方和等能够反映行灰度投影之间的互相关性的参数来表示,其中,所述差值或者差值的平方和越小可表明行灰度投影之间的互相关性越高。类似地,所述压缩处理后的待处理图像和所述参考图像的列灰度投影的互相关性可由所述压缩处理后的待处理图像和所述参考图像的列灰度投影的差值,或者差值的平方和等能够反映列灰度投影之间的互相关性的参数来表示,其中,所述差值或者差值的平方和越小可表明列灰度投影之间的互相关性越高。
根据一些实施例,所述压缩处理后的待处理图像和所述参考图像的行灰度投影的差值或者差值的平方和可通过直接求取所述压缩处理后的待处理图像的行灰度投影与所述参考图像的行灰度投影之间的差值或者差值的平方和来获取,或者,还可通过求取所述压缩处理后的待处理图像的行灰度投影经过行方向的位移(位移的取值可根据实际情况灵活设置)后与所述参考图像的行灰度投影之间的差值或者差值的平方和来获取。类似地,所述压缩处理后的待处理图像和所述参考图像的列灰度投影的差值或者差值的平方和可通过直接求取所述压缩处理后的待处理图像的列灰度投影与所述参考图像的列灰度投影之间的差值或者差值的平方和来获取,或者,还可通过求取所述压缩处理后的待处理图像的列灰度投影经过列方向的位移(位移的取值可根据实际情况灵活设置)后与所述参考图像的列灰度投影之间的差值或者差值的平方和来获取。
根据一些实施例,以通过计算行灰度投影的差值的平方和来计算得到行灰度投影的互相关性为例,可求取所述压缩处理后的待处理图像的行灰度投影与所述参考图像的行灰度投影之间的差值的平方和的最小值,并基于求取到的最小值所对应的位移确定该两个图像中的相匹配的行在垂直方向的位移。另外,该两个图像中的相匹配的行在垂直方向的位移即为该两个图像中的相匹配的行在垂直方向的文本偏移量。
例如,假设所述压缩处理后的待处理图像的行灰度投影与所述参考图像的行灰度投影之间的差值的平方和Ry(w)可如以下公式(1)所示,其中,w为自变量,m为固定值(可根据实际情况灵活设置),M的取值为2m+1,Colcur(j+w-1)为所述压缩处理后的待处理图像的第j+w-1行的行灰度投影,Colref(m+j)为所述参考图像的第m+j行的行灰度投影:
将1、2、……、2m+1依次代入公式(1)计算Ry(w)的值,并进而获得Ry(w)达到最小值时w的取值wmin。则该两个图像在垂直方向的位移dy可表示为:dy=m+1-wmin
上述方法的原理是:通过不断计算所述压缩处理后的待处理图像的第j+w-1行与所述参考图像的第m+j行间的差值的平方,其中的自变量为w(即在w的取值范围内,可以计算该两行间的间隔为w+m-1),因而遍历计算了图像的整个M行中所有行间隔为w+m-1的行灰度投影差值的平方,其中,m为设定的固定值,即行的间隔随着w的变化而变化。这样,当某一个wmin使得Ry(w)最小,说明此时的行与行之间的投影比较相似,因而此时行与行间的间隔即为该两个图像在垂直方向的位移。
类似地,以通过计算列灰度投影的差值的平方和来计算得到列灰度投影的互相关性为例,可求取所述压缩处理后的待处理图像的列灰度投影与所述参考图像的列灰度投影之间的差值的平方和的最小值,并基于求取到的最小值所对应的位移确定该两个图像中的相匹配的列在水平方向的位移。另外,该两个图像中的相匹配的列在水平方向的位移即为该两个图像中的相匹配的列在水平方向的文本偏移量。
需要说明的是,图4所示的文本偏移量计算方式仅为一种示例,也可以通过其他算法来计算文本偏移量。
作为替换实施例,所述文本偏移量检测算法还可以包括块匹配法、特征点匹配法等其它文本偏移量检测算法。换言之,本公开实施例可以根据实际需求,灵活地利用相关技术中的各种文本偏移量检测算法计算得到所需的文本偏移量,以提高图像处理方法的可适用性。
根据一些实施例,可采用图像模糊度检测算法确定所述压缩处理后的待处理图像的图像模糊度,所述图像模糊度检测算法例如可以包括拉普拉斯方差算法(Variance ofthe Laplacian)。拉普拉斯算子是用来衡量图像的二阶导数,能够强调图像中密度快速变化的区域,因此可用于边界检测。在正常、聚焦准确的图像中边界比较清晰,即,像素点具备较大的离散程度,拉普拉斯变换后计算所得像素方差(或像素标准差)会比较大;而在模糊图片中包含的边界信息很少,即像素点具备较低的离散程度,拉普拉斯变换后计算所得像素方差(或像素标准差)会较小,所述像素方差(或像素标准差)即可反映图像的模糊度。
根据一些实施方式,采用拉普拉斯方差算法确定所述压缩处理后的待处理图像的图像模糊度的步骤可包括:对所述压缩处理后的待处理图像进行灰度化处理(若所述压缩处理后的待处理图像为灰度图像,则该步骤可省略);对灰度化后的待处理图像进行拉普拉斯变换;以及对变换后的待处理图像求取像素方差,得到相应的图像模糊度。
在本公开实施例中,图像模糊度(与清晰度相反)可使用浮点数来表示,浮点数越小则图像模糊度越大(清晰度越小),浮点数越大则图像模糊度越小(清晰度越大)。
根据一些实施方式,为了提高拉普拉斯方差算法的可适用性(例如对于具备较多纯色区域的图像的适用性)以及采用拉普拉斯方差算法确定图像模糊度时的准确性,图5示出了根据本公开示例性实施例的另一种采用拉普拉斯方差算法确定压缩处理后的待处理图像的图像模糊度的流程示意图。如图5所示,采用拉普拉斯方差算法确定所述压缩处理后的待处理图像的图像模糊度,可包括以下步骤。
步骤S501:将所述压缩处理后的待处理图像分割为多个图像块,并根据各图像块中的像素点的像素值计算各图像块的拉普拉斯标准差。
根据一些实施例,可采用平均分割的方式,将所述压缩处理后的待处理图像分割为多个(例如8x 8等)大小相同的图像块。当然,所述多个图像块的大小也可不同。另外,在将所述压缩处理后的待处理图像分割为多个图像块之前,还可对所述压缩处理后的待处理图像进行灰度化处理,若所述压缩处理后的待处理图像为灰度图像,则该灰度化步骤可省略。
根据一些实施例,与相关技术类似,可根据各图像块中的像素点的像素值,对各图像块执行拉普拉斯卷积滤波处理,得到各图像块的拉普拉斯标准差。
步骤S502:将计算得到的各图像块的拉普拉斯标准差与标准差阈值进行比较,选取对应的拉普拉斯标准差大于所述标准差阈值的第一图像块。
所述标准差阈值是指用于检测图像纯色区域的阈值,其可以具备一个默认的较小的初始值,例如,可以为10~15(包括端值)等等。另外,所述标准差阈值可从服务器获取并存储在本地设备(如终端设备等)的存储设备或存储介质中,以便后续读出并使用。所述服务器可以为不同于本地设备的远程设备或可以为设置在本地设备中的子设备甚至本地设备本身。通过步骤S502,可以确定一个或多个第一图像块。
步骤S503:基于所选取的第一图像块的拉普拉斯标准差确定所述压缩处理后的待处理图像的图像模糊度。
根据一些实施例,可计算所选取的各第一图像块的拉普拉斯标准差的平均值,并将所述平均值作为所述压缩处理后的待处理图像的图像模糊度。
基于上述实施例可知,在本公开中,可采用图5所示的分割图像并逐块计算拉普拉斯标准差的方式过滤出拉普拉斯标准差过小的纯色区域,以便获得更准确的图像模糊度检测结果。由此,可解决相关技术中的由于图像纯色区域的离散度极小会拉低整张图像的拉普拉斯标准差计算结果、使得拉普拉斯方差算法对于图像纯色区域失效的问题。因此,即使对于空白区域较大而文字较少的图像,也能提高图像模糊度的检测准确度。另外,由图5可知,图5所示的采用拉普拉斯方差算法确定图像模糊度的方法是一种可无需考虑参考图像计算待处理图像的图像模糊度的方法,因而,还可进一步提高图像处理的效率、节省图像处理的时间。
根据一些实施例,所述标准差阈值可根据实际情况进行动态调整。例如,所述标准差阈值可由服务器或本地设备根据获取到的图像素材,例如,对应的拉普拉斯标准差在所述标准差阈值附近的各第二图像块(即上述压缩处理后的待处理图像中的纯色或接近纯色的图像块)进行微调。微调后的标准差阈值可在下一次确定图像模糊度时生效。
换言之,在本公开所述实施例中,所述方法还可包括以下步骤:从所述压缩处理后的待处理图像的所述多个图像块中,选取对应的拉普拉斯标准差与所述标准差阈值之间的差值的绝对值不大于差值阈值的第二图像块;基于第一目标检测神经网络和/或第二目标检测神经网络对所述第二图像块进行目标检测处理,并根据所述第一目标检测神经网络和/或所述第二目标检测神经网络对所述第二图像块的目标检测结果,调整所述标准差阈值。
所述第一目标检测神经网络能够检测的第一目标与所述第二目标检测神经网络能够检测的第二目标互不相同。例如,所述第一目标检测神经网络能够检测的第一目标可以为文字,所述第二目标检测神经网络能够检测到的第二目标可以为纹理,或者,所述第一目标检测神经网络能够检测的第一目标可以为纹理,所述第二目标检测神经网络能够检测到的第二目标可以为文字,等等。
所述差值阈值可根据实际情况设置与动态调整,只要能够使得所选取出的各第二图像块为对应的拉普拉斯标准差在所述标准差阈值附近的第二图像块即可。另外,通过以上步骤,可以确定一个或多个第二图像块。
根据一些实施例,可基于第一目标检测神经网络对所述第二图像块进行目标检测处理;以及响应于在所述第二图像块中检测到第一目标,对所述标准差阈值进行下调处理。
例如,可将第二图像块输入至可用于检测文字的第一目标检测神经网络,若确定可以在所述第二图像块中检测到文字,则可确定所述第二图像块不是纯色或接近纯色的图像块,即,可确定标准差阈值设置的较高,因而可对所述标准差阈值进行下调处理。根据一些实施方式,标准差阈值的下调程度可根据实际情况灵活设定,例如,可根据能够检测到第一目标的第二图像块的标准差,以步长1或2等等调整所述标准差阈值。
另外,响应于无法在所述第二图像块中检测到第一目标,可无需对所述标准差阈值进行调整处理,而是保持所述标准差阈值的大小不变。
根据另一些实施例,为了提高标准差阈值调整的准确性,还可通过以下方式对标准差阈值进行调整:基于第一目标检测神经网络对所述第二图像块进行目标检测处理;响应于无法在所述第二图像块中检测到第一目标,基于第二目标检测神经网络对所述第二图像块进行目标检测处理;以及响应于在所述第二图像块中检测到第二目标以及所述第二图像块的拉普拉斯标准差大于所述标准差阈值,对所述标准差阈值进行增大处理。
例如,可将第二图像块输入至可用于检测文字的第一目标检测神经网络,若确定无法在所述第二图像块中检测到文字,则可确定所述第二图像块为纯色或接近纯色的图像块。为了提高阈值调整的准确性,可继续将所述第二图像块输入至可用于检测其它目标例如纹理的第二目标检测神经网络。若确定可以在所述第二图像块中检测到纹理,且所述第二图像块的拉普拉斯标准差大于所述标准差阈值,则可对所述标准差阈值进行增大处理。这是因为,有些文本的页面空白部分会带有一些小纹理,所以它的纯色拉普拉斯标准差会高于没有纹理的空白页面。
根据一些实施方式,标准差阈值的增大程度可根据实际情况灵活设定。例如,可根据能够检测到所述第二目标的第二图像块的标准差,以步长1或2等等调整所述标准差阈值。
另外,响应于无法在所述第二图像块中检测到第一目标以及无法在所述第二图像块中检测到第二目标;或者,响应于无法在所述第二图像块中检测到第一目标,以及能够在所述第二图像块中检测到第二目标但所述第二图像块的拉普拉斯标准差不大于所述标准差阈值,可无需对所述标准差阈值进行调整处理。
对所述标准差阈值进行调整后,还可同步更新本地的存储设备或存储介质中存储的相应标准差阈值,以便可在下一次确定图像模糊度时使用所述调整后的标准差阈值。
根据一些实施例,图6示出了根据本公开示例性实施例的对标准差阈值进行调整的整体流程示意图。如图6所示,可通过以下步骤调整所述标准差阈值。
步骤S601:基于第一目标检测神经网络对第二图像块进行目标检测处理。
所述第二图像块为对应的拉普拉斯标准差与所述标准差阈值之间的差值的绝对值不大于差值阈值的第二图像块,所述第一目标检测神经网络能够检测到的第一目标例如可以包括文字。
步骤S602:判断能否在所述第二图像块中检测到第一目标,若是,则执行步骤S603,否则,执行步骤S604。
步骤S603:响应于在所述第二图像块中检测到所述第一目标,对所述标准差阈值进行下调处理。
如前所述,标准差阈值的下调程度可根据实际情况灵活设定,例如,可根据能够检测到所述第一目标的第二图像块的标准差,以步长1或2等等调整所述标准差阈值。
步骤S604:响应于无法在所述第二图像块中检测到所述第一目标,基于第二目标检测神经网络对所述第二图像块进行目标检测处理。
所述第二目标检测神经网络能够检测的第二目标例如可以包括纹理。
步骤S605:判断能否在所述第二图像块中检测到第二目标,若是,则执行步骤S606,否则,确定无需对所述标准差阈值进行调整。
步骤S606:响应于在所述第二图像块中检测到所述第二目标,确定所述第二图像块的拉普拉斯标准差是否大于所述标准差阈值,若是,则执行步骤S607,否则,确定无需对所述标准差阈值进行调整。
步骤S607:响应于所述第二图像块的拉普拉斯标准差大于所述标准差阈值,对所述标准差阈值进行增大处理。
如前所述,标准差阈值的增大程度可根据实际情况灵活设定。例如,可根据能够检测到所述第二目标的第二图像块的标准差,以步长1或2等等调整所述标准差阈值。
另外,图6所示的调整所述标准差阈值的方式仅为一种可能的示例,还可采用其它方式调整所述标准差阈值。例如,可基于第一目标检测神经网络以及第二目标检测神经网络对所述第二图像块进行目标检测并行处理,并基于相应的检测结果综合确定所述标准差阈值的调整方式,等等。
另外,作为替换实施例,所述图像模糊度检测算法还可以包括FFT(Fast FourierTransform Algorithm,快速傅里叶变换算法),Brenner梯度函数算法等其它图像模糊度检测算法。换言之,本公开实施例可以根据实际需求,灵活地利用相关技术中的各种图像模糊度检测算法计算得到所需的图像模糊度,以提高图像处理方法的可适用性。
需要注意的是,上述拉普拉斯方差算法、快速傅里叶变换算法、Brenner梯度函数算法等较为适用于根据待处理图像本身(而不考虑参考图像)来确定待处理图像的图像模糊度的情形。对于结合参考图像来确定待处理图像的图像模糊度的情形,还可采用均方误差法或峰值信噪比法等图像模糊度检测算法,例如,可基于均方误差法或峰值信噪比法等算法建立相应的数学模型来对比所述待处理图像与所述参考图像的差异,进而基于所述差异确定所述待处理图像的图像模糊度。
另外,需要注意的是,图5所示的图像模糊度确定方案可适用于任意图像。换言之,除了可适用于本公开实施例提及的所述压缩处理后的待处理图像之外,还可适用于未经压缩处理的所述待处理图像、或者下文提及的裁剪后的所述待处理图像、或者任意的其它待处理图像。另外,图5所示的图像模糊度确定方案除了可与本公开一些实施例提及的文本偏移量计算方案相结合来确定待处理图像的图像质量之外,还可作为可独立实施的方案单独应用于各待处理图像。
例如,对于任一获取到的待处理图像(可以包括本公开实施例所述的所述压缩处理后的待处理图像),可通过以下方式确定所述待处理图像的图像模糊度,以便后续可基于所述确定出的图像模糊度,确定所述待处理图像的图像质量:将所述待处理图像分割为多个图像块(图像分割之前,还可对待处理图像进行灰度化处理);根据各图像块中的像素点的像素值计算各图像块的拉普拉斯标准差;将计算得到的各图像块的拉普拉斯标准差与标准差阈值进行比较,选取对应的拉普拉斯标准差大于所述标准差阈值的第一图像块;以及基于所选取的第一图像块的拉普拉斯标准差确定所述待处理图像的图像模糊度。
相应地,响应于确定所述待处理图像的图像模糊度不大于模糊度阈值,可确定所述待处理图像的图像质量满足设定的质量条件。另外,如前所述,还可结合所述待处理图像与所述待处理图像的参考图像之间的文本偏移量确定所述待处理图像的图像质量。例如,响应于确定所述待处理图像的图像模糊度不大于模糊度阈值以及所述文本偏移量不大于偏移量阈值,可确定所述待处理图像的图像质量满足设定的质量条件。
根据一些实施例,在根据所述压缩处理后的待处理图像,确定所述待处理图像的图像质量之前,所述方法还可包括:获取所述文本区域在所述参考图像中的位置坐标信息;并根据所述文本区域在所述参考图像中的位置坐标信息,对所述参考图像以及所述压缩处理后的待处理图像进行裁剪处理。
换言之,可利用参考图像中检测到的文本区域的位置坐标信息对参考图像(如预览图像)和压缩处理后的待处理图像(如压缩处理后的拍照图像)进行裁剪,以进一步缩小所需处理的图像的大小,提高图像处理的效率。
根据一些实施方式,所述文本区域在所述参考图像中的位置坐标信息可存储(如缓存)在存储设备或存储介质中,例如,在将所述参考图像(原图和/或副本)存储在存储设备或存储介质的同时,可一并存储所述文本区域在所述参考图像中的位置坐标信息。这样,后续可直接从存储设备或存储介质中获取存储的所述文本区域在所述参考图像中的位置坐标信息,以提高图像处理的效率。根据另一些实施方式,若存储设备或存储介质中未存储有所述文本区域在所述参考图像中的位置坐标信息,则可对存储设备或存储介质中存储的所述参考图像的原图或副本执行文本框检测操作,以获取所述文本区域在所述参考图像中的位置坐标信息。
根据一些实施例,所述文本区域在所述参考图像中的位置坐标信息可以是包含该文本区域的矩形(例如包含该文本区域的最小矩形,或者将包含该文本区域的最小矩形向上、下、左和/或右膨胀一定倍数后得到的矩形)的位置坐标信息。所述矩形在所述参考图像中的位置坐标信息例如可以包括所述矩形的四个顶点的坐标信息,或者也可包括所述矩形的任一顶点的坐标信息以及所述矩形的高度信息和长度信息。然而,所述文本区域在所述参考图像中的位置坐标信息的定义不限于此,只要其能够代表所述文本区域在所述参考图像中占据的空间位置和大小即可。
根据一些实施例,裁剪后的参考图像可由包含该文本区域的矩形(例如包含该文本区域的最小矩形,或者将包含该文本区域的最小矩形向上、下、左和/或右膨胀一定倍数后得到的矩形)组成,裁剪后的待处理图像可由所述压缩处理后的待处理图像中的、与包含该文本区域的矩形(例如包含该文本区域的最小矩形,或者将包含该文本区域的最小矩形向上、下、左和/或右膨胀一定倍数后得到的矩形)在所述参考图像中的位置坐标信息相对应的区域组成。这样,裁剪后的参考图像以及裁剪后的待处理图像的全部或大部分区域均是能够检测到文本的区域,更便于后续图像质量确定操作的执行,提高图像处理的效率。
根据一些实施例,根据所述压缩处理后的待处理图像,确定所述待处理图像的图像质量,可包括:确定裁剪后的待处理图像与裁剪后的参考图像之间的文本偏移量,并根据所述文本偏移量确定所述待处理图像的图像质量;和/或,确定裁剪后的待处理图像的图像模糊度,并根据所述图像模糊度确定所述待处理图像的图像质量。这样,由于文本偏移量和/或图像模糊度的确定等等可以是基于裁剪后的较小图像进行的,可进一步降低图像处理的复杂度,提高图像处理的效率。
根据一些实施例,所述方法还可包括:响应于确定所述待处理图像的图像质量满足设定的质量条件,对所述待处理图像执行文字识别。例如,响应于确定所述压缩处理后的待处理图像与所述参考图像之间的文本偏移量不大于设定的偏移量阈值,和/或,所述压缩处理后的待处理图像的图像模糊度不大于设定的模糊度阈值,对所述待处理图像执行文字识别。根据一些实施方式,相关技术中的诸如OCR技术的各种文字识别技术均可用于此步骤中。这些文字识别技术能够对图像中的每个文字进行识别并得到该文字的坐标信息,并且还能够确定包含文字行的矩形及其坐标信息。
根据一些实施例,所述方法还可包括:响应于确定所述待处理图像的图像质量不满足设定的质量条件,可确定无需对所述待处理图像执行文字识别,并可提示用户获取新的待处理图像(或者新的待处理图像以及参考图像)以便重新执行本公开实施例所述的图像处理操作。例如,响应于确定所述压缩处理后的待处理图像与所述参考图像之间的文本偏移量大于设定的偏移量阈值,和/或,所述压缩处理后的待处理图像的图像模糊度大于设定的模糊度阈值,可确定无需对所述待处理图像执行文字识别,并可提示用户获取新的待处理图像。由此,可减少后续不必要的OCR等文字识别操作所带来的计算消耗,节省图像处理的时间和功耗。
根据一些实施例,响应于确定所述待处理图像的图像质量满足设定的质量条件,可对所述待处理图像的原图执行文字识别。由于待处理图像的原图较大、像素数量较高、且不存在因复制等操作所可能产生的内容上的偏差,因而可提高文字识别的准确性。
尽管未示出,文字识别结果可被提供给相应的应用程序进行进一步处理,例如语音播报、文字处理等,这可以用于例如与有声读物相关的应用以及视障辅助应用中。
以上已结合图1~图6对本公开的图像处理方法进行了示例性描述。下面将结合图7以及图8A~8E对本公开的图像处理方法进行进一步地详细描述,其中,图7示出了根据本公开的示例性实施例的图像处理方法的一种可能的整体流程图。需要注意的是,前文中参照图1~图6描述的各种定义、实施例、实施方式和例子等也均可适用于之后描述的示例性实施例或与其进行组合。
根据一些实施例,如图7所示,本公开的图像处理方法可包括以下步骤。
步骤S701:执行图像预览操作以获取预览图像。
根据一些实施方式,针对设定场景(例如包含由用户握持的读物的场景,或其它存在文字识别需求的场景等),可使图像传感器(例如可以为摄像头、照相机等)执行图像预览操作以获取预览图像。根据一些实施方式,预览图像相对较小,例如像素数量相对较低,如可为320x 240(单位为像素)等。
步骤S702:对所述预览图像执行文本框检测并确定是否能在所述预览图像中检测到文本框(即文本区域),若能在所述预览图像中检测到文本框,则执行步骤S703,否则,可结束本次图像处理操作或可提示用户重新获取预览图像。
图8A示出了根据本公开示例性实施例的能够在其中检测到文本框(即文本区域)的预览图像的示意图,其中,预览图像中的文本区域例如可呈现为包含该文本区域的最小矩形(如图8A中的黑色矩形文本框),或者将包含该文本区域的最小矩形向上、下、左和/或右膨胀一定倍数后得到的矩形。
另外,如前所述,执行文本框检测时采用的文本框检测算法例如可为基于极值区域(例如MSER)或连通区域的方法等非深度学习方法,以降低文本框检测的复杂度,提高图像处理的效率。
步骤S703:缓存所述预览图像以及所述文本框(即文本区域)在所述预览图像中的位置坐标信息。
根据一些实施方式,可在存储设备或存储介质中缓存所述预览图像(原图,或者原图及其副本)以及所述文本框(即文本区域)在所述预览图像中的位置坐标信息,这样,后续可直接从存储设备或存储介质中获取存储的所述预览图像以及所述文本区域在所述参考图像中的位置坐标信息,以提高图像处理的效率。
根据一些实施方式,所述文本区域在所述参考图像中的位置坐标信息可以是包含该文本区域的矩形(例如包含该文本区域的最小矩形,或者将包含该文本区域的最小矩形向上、下、左和/或右膨胀一定倍数后得到的矩形)的位置坐标信息。所述矩形在所述参考图像中的位置坐标信息例如可以包括所述矩形的四个顶点的坐标信息,或者也可包括所述矩形的任一顶点的坐标信息以及所述矩形的高度信息和长度信息等。
步骤S704:执行图像获取操作(拍照操作)以获取到对应的待处理图像(拍照图像),并缓存所述待处理图像。
根据一些实施方式,可使图像传感器针对前述设定场景执行图像获取操作以获取待处理图像,并在存储设备或存储介质中缓存所述待处理图像的原图或者原图及其副本,以提高后续图像处理的效率,其中,图8B示出了根据本公开示例性实施例的通过拍照操作所获取到的待处理图像(拍照图像)的示意图,由图8B可知,待处理图像通常较大,例如像素数量通常较高,如可为3264x2448(单位为像素)等。
另外,对比图8A以及图8B可以看出,图像传感器执行拍照操作的过程中,从曝光到成像的时长内(通常可为1~2秒)镜头或文本对象抖动而产生的位移或引发的模糊情形可以在拍照前的预览图像和拍照后的拍照图像中反映出来。例如,在拍照过程中,由于镜头或文本对象抖动,文本对象在图8B示出的拍照图像中的位置比在图8A示出的预览图像中左移了一段位移,并且成像的文本也比较模糊。
步骤S705:根据所述预览图像的大小,将所述待处理图像的图像副本压缩处理为大小与所述预览图像的大小相一致的图像。
例如,可根据图8A示出的预览图像的大小320x 240(单位为像素),将图8B示出的待处理图像的副本(大小为3264x2448(单位为像素))压缩为320x 240(单位为像素)大小,得到压缩处理后的待处理图像,其中,压缩处理后的待处理图像可如图8C所示。
另外,所述待处理图像的图像副本可从存储设备或存储介质中存储的所述待处理图像的至少一个副本中选取;或者,可对存储设备或存储介质中存储的所述待处理图像的原图进行复制操作以得到所述待处理图像的副本。
步骤S706:基于缓存的所述文本框(即文本区域)在所述预览图像中的位置坐标信息,对所述预览图像以及所述压缩处理后的待处理图像进行裁剪。
根据一些实施方式,裁剪后的预览图像可由包含该文本区域的矩形(例如包含该文本区域的最小矩形,或者将包含该文本区域的最小矩形向上、下、左和/或右膨胀一定倍数后得到的矩形)组成,裁剪后的待处理图像可由所述压缩处理后的待处理图像中的、与包含该文本区域的矩形(例如包含该文本区域的最小矩形,或者将包含该文本区域的最小矩形向上、下、左和/或右膨胀一定倍数后得到的矩形)在所述参考图像中的位置坐标信息相对应的区域组成。这样,预览图像以及待处理图像得以进一步缩小,且裁剪后的预览图像以及裁剪后的待处理图像的全部或大部分区域均是能够检测到文本的区域,更便于后续图像质量确定操作的执行,提高图像处理的效率。
根据一些实施方式,可基于步骤S703缓存的文本框(即文本区域)的位置坐标信息分别对图8A示出的预览图像以及经步骤S705压缩处理后的待处理图像的图像副本执行裁剪操作,得到图8D示出的裁剪后的预览图像以及图8E示出的裁剪后的待处理图像。
步骤S707:对裁剪后的待处理图像与裁剪后的预览图像进行比对,确定二者之间的文本偏移量,并判断所述文本偏移量是否不大于偏移量阈值,若是,则执行步骤S708,否则,可确定无需对所述待处理图像执行文字识别,并可提示用户获取新的待处理图像。
根据一些实施方式,可采用图4所示的灰度投影法等文本偏移量检测算法确定裁剪后的待处理图像与裁剪后的预览图像之间的文本偏移量。如果文本偏移量大于偏移量阈值则可判定为图像位移过大(即文本偏移过大)因而无需对所述待处理图像执行文字识别,并可显示给用户,否则可进入下一步骤。这样,对于没有通过质量预评估的图片,将不执行OCR等文字识别操作,从而可减少无谓的OCR等文字识别操作所带来的计算消耗,节省图像处理的时间和功耗。
例如,对于图8D和图8E所示出的例子而言,若经过计算可知,裁剪后的待处理图像与裁剪后的预览图像之间的文本偏移量大于偏移量阈值,则可判定为图像位移过大,无需对所述待处理图像执行文字识别。另外,还可提示用户重新获取新的待处理图像,并基于新的待处理图像重新执行以上各步骤。当然,也可在确定文本偏移量大于偏移量阈值后,直接结束本次图像处理操作。
步骤S708:对所述裁剪后的待处理图像进行模糊度计算以确定所述裁剪后的待处理图像的图像模糊度,并判断所述图像模糊度是否不大于模糊度阈值,若是,则执行步骤S709,否则,可确定无需对所述待处理图像执行文字识别,并可提示用户获取新的待处理图像。
如前述实施例所述,可采用图5所示的拉普拉斯方差算法等图像模糊度检测算法确定裁剪后的待处理图像的图像模糊度。采用该拉普拉斯方差算法计算图像模糊度,可过滤出拉普拉斯标准差过小的纯色区域,以便获得更准确的图像模糊度检测结果。由此,可解决相关技术中的由于图像纯色区域的离散度极小会拉低整张图像的拉普拉斯标准差计算结果、使得拉普拉斯方差算法对于图像纯色区域失效的问题。另外,图5所示的采用拉普拉斯方差算法确定图像模糊度的方法是一种可无需考虑参考图像计算待处理图像的图像模糊度的方法,因而,还可进一步提高图像处理的效率、节省图像处理的时间。
根据一些实施方式,如果所述图像模糊度大于模糊度阈值则可判定为图像模糊(即清晰度很低)、因而无需对所述待处理图像执行文字识别,并可显示给用户,否则可进入下一步骤。这样,对于没有通过质量预评估的图片,将不执行OCR等文字识别操作,从而可减少无谓的OCR等文字识别操作所带来的计算消耗,节省图像处理的时间和功耗。
例如,对于图8D和图8E所示出的例子而言,若经过计算可知,裁剪后的待处理图像的图像模糊度大于模糊度阈值,则可判定为图像模糊,无需对所述待处理图像执行文字识别。另外,还可提示用户重新获取新的待处理图像,并基于新的待处理图像重新执行以上各步骤。当然,也可在确定裁剪后的待处理图像的图像模糊度大于模糊度阈值后,直接结束本次图像处理操作。
步骤S709:对所述待处理图像执行文字识别。
根据一些实施方式,可对所述待处理图像的原图执行文字识别。由于待处理图像的原图的大小较大,例如像素数量较高,且不存在因复制等操作所可能产生的内容上的偏差,因而可提高文字识别的准确性。
尽管未示出,文字识别结果可被提供给相应的应用程序进行进一步处理,例如语音播报、文字处理等,这可以用于例如与有声读物相关的应用以及视障辅助应用中。
如前所述,在本公开所述实施例中,可采用较小的预览图像作为参考图像,将相对较大的拍照图像压缩至与预览图像同等大小,并基于预览图像中检测到的文本框的位置坐标对预览图像和压缩后的拍照图像进行裁剪,比较裁剪后的两者差异来判断文本偏移程度;以及,采用裁剪后的拍照图像计算图像模糊度,并综合文本偏移程度和图像模糊度来评估拍照图像的质量。这样,既能大幅减少图像处理所需的计算量又能保证图像质量评估的准确性,能够达到以较小代价实现相对准确的OCR图像质量预评估的效果。经测试,拍照图像的图像质量评估过程可达到毫秒级别,且图像质量评估的准确度可达到90%以上。
以上已经结合附图描述了根据本公开的图像处理的示例性方法。下面将结合附图对本公开的图像处理的示例性装置、以及电子设备等的示例性实施例进行进一步描述。
图9是示出根据本公开的示例性实施例的电子设备的示例的框图。要注意的是,图9所示出的结构仅是一个示例,根据具体的实现方式,本公开的电子设备可以仅包括图9所示出的组成部分中的一种或多个。
电子设备2000例如可以是通用计算机(例如膝上型计算机、平板计算机等等各种计算机)、移动电话、个人数字助理。根据一些实施例,电子设备2000可以是视障辅助设备。
电子设备2000可被配置为拍摄图像,对所拍摄的图像进行处理,并且响应于所述处理所获得的数据而提供声音提示。例如,电子设备2000可被配置为拍摄图像,对该图像进行文字检测和/或识别以获得文字数据,将文字数据转换成声音数据,并且输出声音数据供用户聆听。
根据一些实施方式,所述电子设备2000可以被配置为包括眼镜架或者被配置为能够可拆卸地安装到眼镜架(例如眼镜架的镜框、连接两个镜框的连接件、镜腿或任何其他部分)上,从而能够拍摄到近似包括用户的视野的图像。
根据一些实施方式,所述电子设备2000也可被安装到其它可穿戴设备上,或者与其它可穿戴设备集成为一体。所述可穿戴设备例如可以是:头戴式设备(例如头盔或帽子等)、可佩戴在耳朵上的设备等。根据一些实施例,所述电子设备可被实施为可附接到可穿戴设备上的配件,例如可被实施为可附接到头盔或帽子上的配件等。
根据一些实施方式,所述电子设备2000也可具有其他形式。例如,电子设备2000可以是移动电话、通用计算设备(例如膝上型计算机、平板计算机等)、个人数字助理,等等。电子设备2000也可以具有底座,从而能够被安放在桌面上。
根据一些实施方式,所述电子设备2000作为视障辅助设备可以用于辅助阅读,在这种情况下,所述电子设备2000有时也被称为“电子阅读器”或“阅读辅助设备”。借助于电子设备2000,无法自主阅读的用户(例如视力障碍人士、存在阅读障碍的人士等)可以采用类似阅读姿势的姿势即可实现对常规读物(例如书本、杂志等)的“阅读”。在“阅读”过程中,所述电子设备2000可以按照本公开所述的方法拍摄图像,按照本公开所述的方法对所拍摄的图像进行处理,包括压缩处理、图像质量评估处理和文字识别(例如利用光学文字识别OCR方法)处理等。另外,所述电子设备2000还可将文字识别结果转换成声音数据,并且通过扬声器或耳机等声音输出设备输出所述声音数据供用户聆听。
电子设备2000可以包括摄像机2004,用于获取图像。摄像机2004可以包括但不限于摄像头或照相机等。电子设备2000还可以包括文字识别电路2005,所述文字识别电路2005被配置为对所述图像中包含的文字进行文字检测和/或识别(例如OCR处理),从而获得文字数据。所述文字识别电路2005例如可以通过专用芯片实现。电子设备2000还可以包括声音转换电路2006,所述声音转换电路2006被配置为将所述文字数据转换成声音数据。所述声音转换电路2006例如可以通过专用芯片实现。电子设备2000还可以包括声音输出电路2007,所述声音输出电路2007被配置为输出所述声音数据。所述声音输出电路2007可以包括但不限于耳机、扬声器、或振动器等,及其相应驱动电路。电子设备2000还可以包括电子电路2100,所述电子电路2100包括被配置为执行如前所述的图像处理方法的步骤(例如图1、图4、图5、图6、或图7等的流程图中所示的方法步骤)的电路。
根据一些实施方式,所述电子设备2000还可以包括图像处理电路2008,所述图像处理电路2008可以包括被配置为对图像进行各种图像处理的电路。图像处理电路2008例如可以包括但不限于以下中的一个或多个:被配置为对图像进行降噪的电路、被配置为对图像进行去模糊化的电路、被配置为对图像进行几何校正的电路、被配置为对图像进行特征提取的电路、被配置为对图像中的对象进行对象检测和/或识别的电路、被配置为对图像中包含的文字进行文字检测的电路、被配置为从图像中提取文本行的电路、被配置为从图像中提取文字坐标的电路、被配置为从图像中提取对象框的电路、被配置为从图像中提取文本框的电路、被配置为基于图像进行版面分析(例如段落划分)的电路,等等。
根据一些实施方式,电子设备2000还可以包括文字处理电路2009,所述文字处理电路2009可以被配置为基于所提取的与文字有关的信息(例如文字数据、文本框、段落坐标、文本行坐标、文字坐标等)进行各种处理,从而获得诸如段落排序、文字语义分析、版面分析结果等处理结果。
上述的各种电路(例如文字识别电路2005、声音转换电路2006、声音输出电路2007、图像处理电路2008、文字处理电路2009、电子电路2100)中的一个或多个可以使用定制硬件,和/或可以用硬件、软件、固件、中间件、微代码,硬件描述语言或其任何组合来实现。例如,上述的各种电路中的一个或多个可以通过使用根据本公开的逻辑和算法,用汇编语言或硬件编程语言(诸如VERILOG,VHDL,C++)对硬件(例如,包括现场可编程门阵列(FPGA)和/或可编程逻辑阵列(PLA)的可编程逻辑电路)进行编程来实现。
根据一些实施方式,电子设备2000还可以包括通信电路2010,所述通信电路2010可以是使得能够与外部设备和/或与网络通信的任何类型的设备或系统,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信设备和/或芯片组,例如蓝牙设备、1302.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
根据一些实施方式,电子设备2000还可以包括输入设备2011,所述输入设备2011可以是能向电子设备2000输入信息的任何类型的设备,并且可以包括但不限于各种传感器、鼠标、键盘、触摸屏、按钮、控制杆、麦克风和/或遥控器等等。
根据一些实施方式,电子设备2000还可以包括输出设备2012,所述输出设备2012可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、视觉输出终端、振动器和/或打印机等。尽管电子设备2000根据一些实施例用于视障辅助设备,基于视觉的输出设备可以方便用户的家人或维修工作人员等从电子设备2000获得输出信息。
根据一些实施方式,电子设备2000还可以包括处理器2001。所述处理器2001可以是任何类型的处理器,并且可以包括但不限于一个或多个通用处理器和/或一个或多个专用处理器(例如特殊处理芯片)。处理器2001例如可以是但不限于中央处理单元CPU或微处理器MPU等等。电子设备2000还可以包括工作存储器2002,所述工作存储器2002可以存储对处理器2001的工作有用的程序(包括指令)和/或数据(例如图像、文字、声音,以及其他中间数据等)的工作存储器,并且可以包括但不限于随机存取存储器和/或只读存储器设备。电子设备2000还可以包括存储设备2003,所述存储设备2003可以包括任何非暂时性存储设备,非暂时性存储设备可以是非暂时性的并且可以实现数据存储的任何存储设备,并且可以包括但不限于磁盘驱动器、光学存储设备、固态存储器、软盘、柔性盘、硬盘、磁带或任何其他磁介质,光盘或任何其他光学介质、ROM(只读存储器)、RAM(随机存取存储器)、高速缓冲存储器和/或任何其他存储器芯片或盒、和/或计算机可从其读取数据、指令和/或代码的任何其他介质。工作存储器2002和存储设备2003可以被集合地称为“存储器”,并且在有些情况下可以相互兼用。
根据一些实施方式,处理器2001可以对摄像机2004、文字识别电路2005、声音转换电路2006、声音输出电路2007、图像处理电路2008、文字处理电路2009、通信电路2010、电子电路2100以及电子设备2000包括的其他各种装置和电路中的至少一个进行控制和调度。根据一些实施方式,图9中所述的各个组成部分中的至少一些可通过总线2013而相互连接和/或通信。
软件要素(程序)可以位于所述工作存储器2002中,包括但不限于操作系统2002a、一个或多个应用程序2002b、驱动程序和/或其他数据和代码。
根据一些实施方式,用于进行前述的控制和调度的指令可以被包括在操作系统2002a或者一个或多个应用程序2002b中。
根据一些实施方式,执行本公开所述的方法步骤(例如图1、图4、图5、图6、或图7等的流程图中所示的方法步骤)的指令可以被包括在一个或多个应用程序2002b中,并且上述电子设备2000的各个模块可以通过由处理器2001读取和执行一个或多个应用程序2002b的指令来实现。换言之,电子设备2000可以包括处理器2001以及存储程序的存储器(例如工作存储器2002和/或存储设备2003),所述程序包括指令,所述指令在由所述处理器2001执行时使所述处理器2001执行如本公开各种实施例所述的方法。
根据一些实施方式,文字识别电路2005、声音转换电路2006、图像处理电路2008、文字处理电路2009、电子电路2100中的至少一个所执行的操作中的一部分或者全部可以由处理器2001读取和执行一个或多个应用程序2002的指令来实现。
软件要素(程序)的指令的可执行代码或源代码可以存储在非暂时性计算机可读存储介质(例如所述存储设备2003)中,并且在执行时可以被存入工作存储器2001中(可能被编译和/或安装)。因此,本公开提供存储程序的计算机可读存储介质,所述程序包括指令,所述指令在由电子设备(例如视障辅助设备)的处理器执行时,致使所述电子设备执行如本公开各种实施例所述的方法。根据另一种实施方式,软件要素(程序)的指令的可执行代码或源代码也可以从远程位置下载。
还应该理解,可以根据具体要求而进行各种变型。例如,也可以使用定制硬件,和/或可以用硬件、软件、固件、中间件、微代码,硬件描述语言或其任何组合来实现各个电路、单元、模块或者元件。例如,所公开的方法和设备所包含的电路、单元、模块或者元件中的一些或全部可以通过使用根据本公开的逻辑和算法,用汇编语言或硬件编程语言(诸如VERILOG,VHDL,C++)对硬件(例如,包括现场可编程门阵列(FPGA)和/或可编程逻辑阵列(PLA)的可编程逻辑电路)进行编程来实现。
根据一些实施方式,电子设备2000中的处理器2001可以分布在网络上。例如,可以使用一个处理器执行一些处理,而同时可以由远离该一个处理器的另一个处理器执行其他处理。电子设备2001的其他模块也可以类似地分布。这样,电子设备2001可以被解释为在多个位置执行处理的分布式计算系统。
以下描述本公开的一些示例性方面。
方面1.一种图像处理方法,包括:
获取待处理图像以及所述待处理图像的参考图像,所述参考图像的大小小于所述待处理图像的大小;
根据所述参考图像的大小,对所述待处理图像进行压缩处理;以及
根据压缩处理后的待处理图像,确定所述待处理图像的图像质量。
方面2.如方面1所述的图像处理方法,其中,所述参考图像与所述待处理图像是在不同时刻获取到的针对同一场景的图像,所述参考图像中能够检测到文本区域。
方面3.如方面2所述的图像处理方法,其中,所述参考图像和所述待处理图像分别是在图像预览阶段和图像拍照阶段获取到的针对所述同一场景的预览图像和拍照图像。
方面4.如方面2所述的图像处理方法,其中,根据所述压缩处理后的待处理图像,确定所述待处理图像的图像质量,包括以下步骤的任一种或组合:
确定所述压缩处理后的待处理图像与所述参考图像之间的文本偏移量,根据所述文本偏移量确定所述待处理图像的图像质量;
确定所述压缩处理后的待处理图像的图像模糊度,根据所述图像模糊度确定所述待处理图像的图像质量。
方面5.如方面4所述的图像处理方法,其中,
根据所述文本偏移量确定所述待处理图像的图像质量,包括:
响应于所述文本偏移量不大于偏移量阈值,确定所述待处理图像的图像质量满足设定的质量条件;
根据所述图像模糊度确定所述待处理图像的图像质量,包括:
响应于所述图像模糊度不大于模糊度阈值,确定所述待处理图像的图像质量满足设定的质量条件。
方面6.如方面2所述的图像处理方法,其中,根据所述压缩处理后的待处理图像,确定所述待处理图像的图像质量,包括:
确定所述压缩处理后的待处理图像与所述参考图像之间的文本偏移量;
响应于所述文本偏移量不大于偏移量阈值,确定所述压缩处理后的待处理图像的图像模糊度;以及
响应于所述图像模糊度不大于模糊度阈值,确定所述待处理图像的图像质量满足设定的质量条件。
方面7.如方面2所述的图像处理方法,其中,根据所述压缩处理后的待处理图像,确定所述待处理图像的图像质量,包括:
确定所述压缩处理后的待处理图像的图像模糊度;
响应于所述图像模糊度不大于模糊度阈值,确定所述压缩处理后的待处理图像与所述参考图像之间的文本偏移量;以及
响应于所述文本偏移量不大于偏移量阈值,确定所述待处理图像的图像质量满足设定的质量条件。
方面8.如方面4所述的图像处理方法,其中,确定所述压缩处理后的待处理图像与所述参考图像之间的文本偏移量,包括:
计算所述压缩处理后的待处理图像和所述参考图像的每一像素行和每一像素列中所有像素的和;
基于计算得到的所述压缩处理后的待处理图像和所述参考图像的每一像素行和每一像素列中所有像素的和,确定所述压缩处理后的待处理图像和所述参考图像的行灰度投影和列灰度投影;以及
根据所述压缩处理后的待处理图像和所述参考图像的行灰度投影和列灰度投影,确定所述压缩处理后的待处理图像和所述参考图像中的相匹配的行在垂直方向的位移,以及相匹配的列在水平方向的位移。
方面9.如方面4所述的图像处理方法,其中,确定所述压缩处理后的待处理图像的图像模糊度,包括:
将所述压缩处理后的待处理图像分割为多个图像块,并根据各图像块中的像素点的像素值计算各图像块的拉普拉斯标准差;
将计算得到的各图像块的拉普拉斯标准差与标准差阈值进行比较,选取对应的拉普拉斯标准差大于所述标准差阈值的第一图像块;以及
基于所选取的第一图像块的拉普拉斯标准差确定所述压缩处理后的待处理图像的图像模糊度。
方面10.如方面9所述的图像处理方法,还包括:
选取对应的拉普拉斯标准差与所述标准差阈值之间的差值的绝对值不大于差值阈值的第二图像块;以及
基于第一目标检测神经网络和/或第二目标检测神经网络对所述第二图像块进行目标检测处理,并根据所述第一目标检测神经网络和/或所述第二目标检测神经网络对所述第二图像块的目标检测结果,调整所述标准差阈值,
其中,所述第一目标检测神经网络能够检测的第一目标与所述第二目标检测神经网络能够检测的第二目标互不相同。
方面11.如方面9所述的图像处理方法,还包括:
选取对应的拉普拉斯标准差与所述标准差阈值之间的差值的绝对值不大于差值阈值的第二图像块;
基于第一目标检测神经网络对所述第二图像块进行目标检测处理;以及
响应于在所述第二图像块中检测到第一目标,对所述标准差阈值进行下调处理。
方面12.如方面9所述的图像处理方法,还包括:
选取对应的拉普拉斯标准差与所述标准差阈值之间的差值的绝对值不大于差值阈值的第二图像块;
基于第一目标检测神经网络对所述第二图像块进行目标检测处理;
响应于无法在所述第二图像块中检测到第一目标,基于第二目标检测神经网络对所述第二图像块进行目标检测处理;以及
响应于在所述第二图像块中检测到第二目标以及所述第二图像块的拉普拉斯标准差大于所述标准差阈值,对所述标准差阈值进行增大处理,
其中,所述第一目标检测神经网络能够检测的第一目标与所述第二目标检测神经网络能够检测的第二目标互不相同。
方面13.如方面2所述的图像处理方法,其中,在根据所述压缩处理后的待处理图像,确定所述待处理图像的图像质量之前,所述方法还包括:
获取所述文本区域在所述参考图像中的位置坐标信息;以及
根据所述文本区域在所述参考图像中的位置坐标信息,对所述参考图像以及所述压缩处理后的待处理图像进行裁剪处理。
方面14.如方面13所述的图像处理方法,其中,所述文本区域在所述参考图像中的位置坐标信息是包含所述文本区域的矩形在所述参考图像中的位置坐标信息,所述矩形在所述参考图像中的位置坐标信息包括所述矩形的四个顶点的坐标信息,或所述矩形的任一顶点的坐标信息以及所述矩形的高度信息和长度信息。
方面15.如方面1所述的图像处理方法,还包括:
响应于根据所述压缩处理后的待处理图像确定所述待处理图像的图像质量满足设定的质量条件,对所述待处理图像执行文字识别。
方面16.如方面1所述的图像处理方法,还包括:
响应于根据所述压缩处理后的待处理图像确定所述待处理图像的图像质量不满足设定的质量条件,确定无需对所述待处理图像执行文字识别,并提示用户获取新的待处理图像。
方面17.一种图像处理方法,包括:
获取待处理图像,并将所述待处理图像分割为多个图像块;
根据各图像块中的像素点的像素值计算各图像块的拉普拉斯标准差;
将计算得到的各图像块的拉普拉斯标准差与标准差阈值进行比较,选取对应的拉普拉斯标准差大于所述标准差阈值的第一图像块;以及
基于所选取的第一图像块的拉普拉斯标准差确定所述待处理图像的图像模糊度。
方面18.如方面17所述的图像处理方法,还包括:
选取对应的拉普拉斯标准差与所述标准差阈值之间的差值的绝对值不大于差值阈值的第二图像块;以及
基于第一目标检测神经网络和/或第二目标检测神经网络对所述第二图像块进行目标检测处理,并根据所述第一目标检测神经网络和/或所述第二目标检测神经网络对所述第二图像块的目标检测结果,调整所述标准差阈值,
其中,所述第一目标检测神经网络能够检测的第一目标与所述第二目标检测神经网络能够检测的第二目标互不相同。
方面19.如方面17所述的图像处理方法,还包括:
选取对应的拉普拉斯标准差与所述标准差阈值之间的差值的绝对值不大于差值阈值的第二图像块;
基于第一目标检测神经网络对所述第二图像块进行目标检测处理;以及
响应于在所述第二图像块中检测到第一目标,对所述标准差阈值进行下调处理。
方面20.如方面17所述的图像处理方法,还包括:
选取对应的拉普拉斯标准差与所述标准差阈值之间的差值的绝对值不大于差值阈值的第二图像块;
基于第一目标检测神经网络对所述第二图像块进行目标检测处理;
响应于无法在所述第二图像块中检测到第一目标,基于第二目标检测神经网络对所述第二图像块进行目标检测处理;以及
响应于在所述第二图像块中检测到第二目标以及所述第二图像块的拉普拉斯标准差大于所述标准差阈值,对所述标准差阈值进行增大处理,
其中,所述第一目标检测神经网络能够检测的第一目标与所述第二目标检测神经网络能够检测的第二目标互不相同。
方面21.如方面17所述的图像处理方法,其中,所述待处理图像为根据第一图像的参考图像的大小,对所述第一图像进行压缩处理所得到的图像,所述参考图像的大小小于所述第一图像的大小。
方面22.如方面21所述的图像处理方法,其中,所述参考图像与所述第一图像是在不同时刻获取到的针对同一场景的图像,所述参考图像中能够检测到文本区域。
方面23.如方面22所述的图像处理方法,其中,所述参考图像和所述第一图像分别是在图像预览阶段和图像拍照阶段获取到的针对所述同一场景的预览图像和拍照图像。
方面24.如方面17所述的图像处理方法,还包括:
响应于根据所述待处理图像的图像模糊度确定所述待处理图像的图像质量满足设定的质量条件,对所述待处理图像执行文字识别。
方面25.如方面17所述的图像处理方法,还包括:
确定所述待处理图像与所述待处理图像的参考图像之间的文本偏移量;以及
响应于根据所述待处理图像的图像模糊度,以及所述待处理图像与所述参考图像之间的所述文本偏移量确定所述待处理图像的图像质量满足设定的质量条件,对所述待处理图像执行文字识别。
方面26.一种电子电路,包括:
被配置为执行根据方面1-16中任一方面所述的方法的步骤的电路,或被配置为执行根据方面17-25中任一方面所述的方法的步骤的电路。
方面27.一种视障辅助设备,包括:
摄像机,被配置为获取图像;以及
如方面26所述的电子电路。
方面28.如方面27所述的视障辅助设备,还包括:
被配置为对所述图像中包含的文字进行文字检测和/或识别以获得文字数据的电路;
被配置为将所述文字数据转换成声音数据的电路;以及
被配置为输出所述声音数据的电路。
方面29.一种电子设备,包括:
处理器;以及
存储程序的存储器,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据方面1-16中任一方面所述的方法,或使所述处理器执行根据方面17-25中任一方面所述的方法。
方面30.一种存储程序的计算机可读存储介质,所述程序包括指令,所述指令在由电子设备的处理器执行时,致使所述电子设备执行根据方面1-16中任一方面所述的方法,或致使所述电子设备执行根据方面17-25中任一方面所述的方法。
虽然已经参照附图描述了本公开的实施例或示例,但应理解,上述的方法、系统和设备仅仅是示例性的实施例或示例,本发明的范围并不由这些实施例或示例限制,而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外,可以通过不同于本公开中描述的次序来执行各步骤。进一步地,可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进,在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

Claims (20)

1.一种图像处理方法,包括:
获取待处理图像以及所述待处理图像的参考图像,所述参考图像的大小小于所述待处理图像的大小;
根据所述参考图像的大小,对所述待处理图像进行压缩处理;以及
根据压缩处理后的待处理图像,确定所述待处理图像的图像质量;以及
响应于根据所述压缩处理后的待处理图像确定所述待处理图像的图像质量满足设定的质量条件,对所述待处理图像执行文字识别。
2.如权利要求1所述的图像处理方法,其中,所述参考图像与所述待处理图像是在不同时刻获取到的针对同一场景的图像,所述参考图像中能够检测到文本区域。
3.如权利要求2所述的图像处理方法,其中,所述参考图像和所述待处理图像分别是在图像预览阶段和图像拍照阶段获取到的针对所述同一场景的预览图像和拍照图像。
4.如权利要求2所述的图像处理方法,其中,根据所述压缩处理后的待处理图像,确定所述待处理图像的图像质量,包括以下步骤的任一种或组合:
确定所述压缩处理后的待处理图像与所述参考图像之间的文本偏移量,根据所述文本偏移量确定所述待处理图像的图像质量;
确定所述压缩处理后的待处理图像的图像模糊度,根据所述图像模糊度确定所述待处理图像的图像质量。
5.如权利要求4所述的图像处理方法,其中,
根据所述文本偏移量确定所述待处理图像的图像质量,包括:
响应于所述文本偏移量不大于偏移量阈值,确定所述待处理图像的图像质量满足设定的质量条件;
根据所述图像模糊度确定所述待处理图像的图像质量,包括:
响应于所述图像模糊度不大于模糊度阈值,确定所述待处理图像的图像质量满足设定的质量条件。
6.如权利要求2所述的图像处理方法,其中,根据所述压缩处理后的待处理图像,确定所述待处理图像的图像质量,包括:
确定所述压缩处理后的待处理图像与所述参考图像之间的文本偏移量;
响应于所述文本偏移量不大于偏移量阈值,确定所述压缩处理后的待处理图像的图像模糊度;以及
响应于所述图像模糊度不大于模糊度阈值,确定所述待处理图像的图像质量满足设定的质量条件。
7.如权利要求2所述的图像处理方法,其中,根据所述压缩处理后的待处理图像,确定所述待处理图像的图像质量,包括:
确定所述压缩处理后的待处理图像的图像模糊度;
响应于所述图像模糊度不大于模糊度阈值,确定所述压缩处理后的待处理图像与所述参考图像之间的文本偏移量;以及
响应于所述文本偏移量不大于偏移量阈值,确定所述待处理图像的图像质量满足设定的质量条件。
8.如权利要求4所述的图像处理方法,其中,确定所述压缩处理后的待处理图像与所述参考图像之间的文本偏移量,包括:
计算所述压缩处理后的待处理图像和所述参考图像的每一像素行和每一像素列中所有像素的和;
基于计算得到的所述压缩处理后的待处理图像和所述参考图像的每一像素行和每一像素列中所有像素的和,确定所述压缩处理后的待处理图像和所述参考图像的行灰度投影和列灰度投影;以及
根据所述压缩处理后的待处理图像和所述参考图像的行灰度投影和列灰度投影,确定所述压缩处理后的待处理图像和所述参考图像中的相匹配的行在垂直方向的位移,以及相匹配的列在水平方向的位移。
9.如权利要求4所述的图像处理方法,其中,确定所述压缩处理后的待处理图像的图像模糊度,包括:
将所述压缩处理后的待处理图像分割为多个图像块,并根据各图像块中的像素点的像素值计算各图像块的拉普拉斯标准差;
将计算得到的各图像块的拉普拉斯标准差与标准差阈值进行比较,选取对应的拉普拉斯标准差大于所述标准差阈值的第一图像块;以及
基于所选取的第一图像块的拉普拉斯标准差确定所述压缩处理后的待处理图像的图像模糊度。
10.如权利要求9所述的图像处理方法,还包括:
选取对应的拉普拉斯标准差与所述标准差阈值之间的差值的绝对值不大于差值阈值的第二图像块;以及
基于第一目标检测神经网络和/或第二目标检测神经网络对所述第二图像块进行目标检测处理,并根据所述第一目标检测神经网络和/或所述第二目标检测神经网络对所述第二图像块的目标检测结果,调整所述标准差阈值,
其中,所述第一目标检测神经网络能够检测的第一目标与所述第二目标检测神经网络能够检测的第二目标互不相同。
11.如权利要求9所述的图像处理方法,还包括:
选取对应的拉普拉斯标准差与所述标准差阈值之间的差值的绝对值不大于差值阈值的第二图像块;
基于第一目标检测神经网络对所述第二图像块进行目标检测处理;以及
响应于在所述第二图像块中检测到第一目标,对所述标准差阈值进行下调处理。
12.如权利要求9所述的图像处理方法,还包括:
选取对应的拉普拉斯标准差与所述标准差阈值之间的差值的绝对值不大于差值阈值的第二图像块;
基于第一目标检测神经网络对所述第二图像块进行目标检测处理;
响应于无法在所述第二图像块中检测到第一目标,基于第二目标检测神经网络对所述第二图像块进行目标检测处理;以及
响应于在所述第二图像块中检测到第二目标以及所述第二图像块的拉普拉斯标准差大于所述标准差阈值,对所述标准差阈值进行增大处理,
其中,所述第一目标检测神经网络能够检测的第一目标与所述第二目标检测神经网络能够检测的第二目标互不相同。
13.如权利要求2所述的图像处理方法,其中,在根据所述压缩处理后的待处理图像,确定所述待处理图像的图像质量之前,所述方法还包括:
获取所述文本区域在所述参考图像中的位置坐标信息;以及
根据所述文本区域在所述参考图像中的位置坐标信息,对所述参考图像以及所述压缩处理后的待处理图像进行裁剪处理。
14.如权利要求13所述的图像处理方法,其中,所述文本区域在所述参考图像中的位置坐标信息是包含所述文本区域的矩形在所述参考图像中的位置坐标信息,所述矩形在所述参考图像中的位置坐标信息包括所述矩形的四个顶点的坐标信息,或所述矩形的任一顶点的坐标信息以及所述矩形的高度信息和长度信息。
15.如权利要求1所述的图像处理方法,还包括:
响应于根据所述压缩处理后的待处理图像确定所述待处理图像的图像质量不满足设定的质量条件,确定无需对所述待处理图像执行文字识别,并提示用户获取新的待处理图像。
16.一种电子电路,包括:
被配置为执行根据权利要求1-15中任一项所述的方法的步骤的电路。
17.一种视障辅助设备,包括:
摄像机,被配置为获取图像;以及
如权利要求16所述的电子电路。
18.如权利要求17所述的视障辅助设备,还包括:
被配置为对所述图像中包含的文字进行文字检测和/或识别以获得文字数据的电路;
被配置为将所述文字数据转换成声音数据的电路;以及
被配置为输出所述声音数据的电路。
19.一种电子设备,包括:
处理器;以及
存储程序的存储器,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-15中任一项所述的方法。
20.一种存储程序的计算机可读存储介质,所述程序包括指令,所述指令在由电子设备的处理器执行时,致使所述电子设备执行根据权利要求1-15中任一项所述的方法。
CN201911353598.1A 2019-12-25 2019-12-25 图像处理方法、电路、视障辅助设备、电子设备及介质 Active CN111145153B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202310667570.5A CN117115078A (zh) 2019-12-25 2019-12-25 图像处理方法、电路、视障辅助设备、电子设备及介质
CN201911353598.1A CN111145153B (zh) 2019-12-25 2019-12-25 图像处理方法、电路、视障辅助设备、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911353598.1A CN111145153B (zh) 2019-12-25 2019-12-25 图像处理方法、电路、视障辅助设备、电子设备及介质

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202310667570.5A Division CN117115078A (zh) 2019-12-25 2019-12-25 图像处理方法、电路、视障辅助设备、电子设备及介质

Publications (2)

Publication Number Publication Date
CN111145153A CN111145153A (zh) 2020-05-12
CN111145153B true CN111145153B (zh) 2023-10-03

Family

ID=70519793

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202310667570.5A Pending CN117115078A (zh) 2019-12-25 2019-12-25 图像处理方法、电路、视障辅助设备、电子设备及介质
CN201911353598.1A Active CN111145153B (zh) 2019-12-25 2019-12-25 图像处理方法、电路、视障辅助设备、电子设备及介质

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202310667570.5A Pending CN117115078A (zh) 2019-12-25 2019-12-25 图像处理方法、电路、视障辅助设备、电子设备及介质

Country Status (1)

Country Link
CN (2) CN117115078A (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380372A (zh) * 2020-11-13 2021-02-19 上海哔哩哔哩科技有限公司 搜索图像的方法及计算设备
CN114200957A (zh) * 2021-11-04 2022-03-18 深圳市鑫疆基业科技有限责任公司 无人机自动电力杆塔巡检控制系统以及方法
CN118200456A (zh) * 2024-05-17 2024-06-14 深圳市莫尼迪科技有限责任公司 一种图像压缩系统、装置及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103905837A (zh) * 2014-03-26 2014-07-02 小米科技有限责任公司 图像处理方法、装置及终端
CN107454330A (zh) * 2017-08-24 2017-12-08 维沃移动通信有限公司 一种图像处理方法、移动终端及计算机可读存储介质
WO2019024751A1 (zh) * 2017-07-31 2019-02-07 腾讯科技(深圳)有限公司 一种面部表情合成方法、装置、电子设备及存储介质
CN109522960A (zh) * 2018-11-21 2019-03-26 泰康保险集团股份有限公司 图像评估方法、装置、电子设备及计算机可读介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103905837A (zh) * 2014-03-26 2014-07-02 小米科技有限责任公司 图像处理方法、装置及终端
WO2019024751A1 (zh) * 2017-07-31 2019-02-07 腾讯科技(深圳)有限公司 一种面部表情合成方法、装置、电子设备及存储介质
CN107454330A (zh) * 2017-08-24 2017-12-08 维沃移动通信有限公司 一种图像处理方法、移动终端及计算机可读存储介质
CN109522960A (zh) * 2018-11-21 2019-03-26 泰康保险集团股份有限公司 图像评估方法、装置、电子设备及计算机可读介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张涛 ; 梁德群 ; 王新年 ; 张晓娜 ; .基于纹理特征的无参考图像模糊度评价方法.计算机工程与应用.2012,(26),全文. *

Also Published As

Publication number Publication date
CN111145153A (zh) 2020-05-12
CN117115078A (zh) 2023-11-24

Similar Documents

Publication Publication Date Title
CN111145153B (zh) 图像处理方法、电路、视障辅助设备、电子设备及介质
EP3755204B1 (en) Eye tracking method and system
EP3152706B1 (en) Image capturing parameter adjustment in preview mode
EP2164027B1 (en) Object detecting device, imaging apparatus, object detecting method, and program
US11244144B2 (en) Age recognition method, computer storage medium and electronic device
JP4955096B2 (ja) 検出装置、検出方法、検出プログラム、および記録媒体
KR20160048140A (ko) 올-인-포커스 이미지를 생성하기 위한 방법 및 장치
US9384386B2 (en) Methods and systems for increasing facial recognition working rang through adaptive super-resolution
US9141851B2 (en) Deformable expression detector
JP7132654B2 (ja) レイアウト解析方法、読取り支援デバイス、回路および媒体
US11055829B2 (en) Picture processing method and apparatus
KR20140013407A (ko) 객체 추적 장치 및 방법
CN110929805B (zh) 神经网络的训练方法、目标检测方法及设备、电路和介质
CN111163261A (zh) 目标检测方法、电路、视障辅助设备、电子设备和介质
WO2022121842A1 (zh) 文本图像的矫正方法及装置、设备和介质
WO2014184372A1 (en) Image capture using client device
US20140146999A1 (en) Device, method and non-transitory computer readable storage medium for detecting object
JP6542230B2 (ja) 投影ひずみを補正するための方法及びシステム
US20150112853A1 (en) Online loan application using image capture at a client device
US8218823B2 (en) Determining main objects using range information
KR101726692B1 (ko) 객체 추출 장치 및 방법
JP6202938B2 (ja) 画像認識装置および画像認識方法
JP6669390B2 (ja) 情報処理装置、情報処理方法、及びプログラム
WO2022121843A1 (zh) 文本图像的矫正方法及装置、设备和介质
KR101592087B1 (ko) 배경 영상의 위치를 이용한 관심맵 생성 방법 및 이를 기록한 기록 매체

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant