CN115471844A - 图像处理方法及装置、电子设备、存储介质 - Google Patents

图像处理方法及装置、电子设备、存储介质 Download PDF

Info

Publication number
CN115471844A
CN115471844A CN202211000541.5A CN202211000541A CN115471844A CN 115471844 A CN115471844 A CN 115471844A CN 202211000541 A CN202211000541 A CN 202211000541A CN 115471844 A CN115471844 A CN 115471844A
Authority
CN
China
Prior art keywords
area
text
character
character area
text line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211000541.5A
Other languages
English (en)
Inventor
窦新宇
黄旭进
段纪伟
季翔
林士松
熊龙飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Office Software Inc
Zhuhai Kingsoft Office Software Co Ltd
Wuhan Kingsoft Office Software Co Ltd
Original Assignee
Beijing Kingsoft Office Software Inc
Zhuhai Kingsoft Office Software Co Ltd
Wuhan Kingsoft Office Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Office Software Inc, Zhuhai Kingsoft Office Software Co Ltd, Wuhan Kingsoft Office Software Co Ltd filed Critical Beijing Kingsoft Office Software Inc
Priority to CN202211000541.5A priority Critical patent/CN115471844A/zh
Publication of CN115471844A publication Critical patent/CN115471844A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • G06V30/1448Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on markings or identifiers characterising the document or the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/162Quantising the image signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • G06V30/1908Region based matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Character Input (AREA)

Abstract

本申请涉及图像识别技术领域,公开一种图像处理方法,包括:对图像进行预设文字属性标记处理,获得第一文字区域;获取所述第一文字区域中的文字具有所述预设文字属性的可信度;根据所述可信度从所述第一文字区域中确定出第二文字区域,所述第二文字区域中的文字具有预设文字属性。由于第二文字区域是根据第一文字区域中的文字具有预设文字属性的可信度来确定的,使得第二文字区域中的文字具有预设文字属性的准确性更高,从而提高了识别图像中文字属性的准确性。本申请还公开一种图像处理装置及电子设备、存储介质。

Description

图像处理方法及装置、电子设备、存储介质
技术领域
本申请涉及图像识别技术领域,例如涉及一种图像处理方法及装置、电子设备、存储介质。
背景技术
在对文本图像进行处理时,常常需要对图像中的文字内容还原成可编辑版本。在而对文字之间具有明显区分度的文本图像进行还原时,用户通常还需要对文字属性进行还原,文字属性例如为粗体、非粗体、斜体或非斜体等。相关技术中通常利用检测模型对图像中文字的属性进行识别。
在实现本公开实施例的过程中,发现相关技术中至少存在如下问题:相关技术中,利用检测模型对图像中的文字属性进行识别处理时,可能存在错误识别的情况,导致对图像中文字属性识别的准确率较低。
发明内容
为了对披露的实施例的一些方面有基本的理解,下面给出了简单的概括。所述概括不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围,而是作为后面的详细说明的序言。
本公开实施例提供了一种图像处理方法及装置、电子设备、存储介质,以能够提高识别图像中文字属性的准确性。
在一些实施例中,所述图像处理方法包括:对图像进行预设文字属性标记处理,获得第一文字区域;获取所述第一文字区域中的文字具有所述预设文字属性的可信度;根据所述可信度从所述第一文字区域中确定出第二文字区域,所述第二文字区域中的文字具有预设文字属性。
在一些实施例中,所述对图像进行预设文字属性标记处理,获得第一文字区域,包括:利用预设的文字属性检测模型对所述图像进行预设文字属性标记处理,获得被文字属性边界框标记的所述第一文字区域。
在一些实施例中,获取所述第一文字区域中的文字具有所述预设文字属性的可信度,包括:获取所述第一文字区域的置信度、侵蚀指数和内指数中的一种或多种;根据所述置信度、所述侵蚀指数和所述内指数中的一种或多种确定所述第一文字区域中的文字具有所述预设文字属性的可信度。
在一些实施例中,获取所述第一文字区域的侵蚀指数包括:对所述第一文字区域对应的区域图像进行二值化处理,获得所述第一文字区域的第一二值化图像;对所述第一文字区域的第一二值化图像进行形态学侵蚀处理,获得所述第一文字区域的第二二值化图像;利用第一预设算法对所述第一二值化图像和所述第二二值化图像进行计算,获得所述第一文字区域的侵蚀指数。
在一些实施例中,获取所述第一文字区域的内指数,包括:对所述第一文字区域对应的区域图像进行二值化处理,获得所述第一文字区域的第一二值化图像;利用第二预设算法对所述第一二值化图像进行计算,获得所述第一文字区域的内指数。
在一些实施例中,根据所述可信度从所述第一文字区域中确定出第二文字区域,包括:将所述可信度满足预设条件的所述第一文字区域确定为所述第二文字区域。
在一些实施例中,所述图像包括被识别出的至少一个文本行区域;确定出第二文字区域之后,还包括:对每一个文本行区域执行以下操作:
获取所述第二文字区域与所述文本行区域的匹配情况;在所述第二文字区域与文本行区域为完全匹配的情况下,确定所述文本行区域为第二文字区域;在所述第二文字区域与所述文本行区域为部分匹配的情况下,根据所述第二文字区域的位置,对待拆分文本行区域进行分割,获得第三文字区域,所述第三文字区域中的文字不具有所述预设文字属性,所述待拆分文本行区域为与所述第二文字区域部分匹配的文本行区域;在所述第二文字区域与文本行区域为不匹配的情况下,确定所述文本行区域为第三文字区域。
在一些实施例中,所述获取所述第二文字区域与所述文本行区域之间的匹配情况,包括:
对每一个所述文本行区域执行以下操作:
计算每一个所述第二文字区域与所述文本行区域之间的交并比值;在所述第二文字区域与所述文本行区域之间的交并比值大于或等于第二设定阈值的情况下,确定所述第二文字区域与所述文本行区域为完全匹配;在所述第二文字区域与所述文本行区域之间的交并比值大于或等于第一设定阈值,且小于第二设定阈值的情况下,确定所述第二文字区域与所述文本行区域为部分匹配;在所述第二文字区域与所述文本行区域之间的交并比值小于第一设定阈值的情况下,确定所述第二文字区域与所述文本行区域为不匹配;其中,第一设定阈值小于第二设定阈值。
在一些实施例中,所述根据所述第二文字区域的位置,对待拆分文本行区域进行分割,包括:根据所述第二文字区域的位置,确定所述待拆分文本行区域的分割位置;根据所述分割位置对所述待拆分文本行区域进行分割,获得所述第三文字区域。
在一些实施例中,所述对待拆分文本行区域进行分割之后,还包括:对所述待拆分文本行区域进行二值化处理,获取所述待拆分文本行区域的二值化图像;利用所述待拆分文本行区域的二值化图像,对所述第三文字区域的边界位置进行调整,以使所述第三文字区域的边界位置卡住所述第三文字区域内文字的边缘。
在一些实施例中,获得第三文字区域之后,还包括:建立所述文本行区域分别与所述第二文字区域和所述第三文字区域之间的对应关系。
在一些实施例中,所述图像处理装置,包括:标记处理模块,被配置对图像进行预设文字属性标记处理,获得第一文字区域;获取模块,被配置为获取所述第一文字区域中的文字具有所述预设文字属性的可信度;确定模块,被配置为根据所述可信度从所述第一文字区域中确定出第二文字区域,所述第二文字区域中的文字具有预设文字属性。
在一些实施例中,标记处理模块被配置为通过以下方式对图像进行预设文字属性标记处理,获得第一文字区域:利用预设的文字属性检测模型对所述图像进行预设文字属性标记处理,获得被文字属性边界框标记的所述第一文字区域。
在一些实施例中,获取模块被配置为通过以下方式获取所述第一文字区域中的文字具有所述预设文字属性的可信度:获取所述第一文字区域的置信度、侵蚀指数和内指数中的一种或多种;根据所述置信度、所述侵蚀指数和所述内指数中的一种或多种确定所述第一文字区域中的文字具有所述预设文字属性的可信度。
在一些实施例中,获取模块被配置为通过以下方式获取所述第一文字区域的侵蚀指数:对所述第一文字区域对应的区域图像进行二值化处理,获得所述第一文字区域的第一二值化图像;对所述第一文字区域的第一二值化图像进行形态学侵蚀处理,获得所述第一文字区域的第二二值化图像;利用第一预设算法对所述第一二值化图像和所述第二二值化图像进行计算,获得所述第一文字区域的侵蚀指数。
在一些实施例中,获取模块被配置为通过以下方式获取所述第一文字区域的内指数:对所述第一文字区域对应的区域图像进行二值化处理,获得所述第一文字区域的第一二值化图像;利用第二预设算法对所述第一二值化图像进行计算,获得所述第一文字区域的内指数。
在一些实施例中,确定模块被配置为通过以下方式根据所述可信度从所述第一文字区域中确定出第二文字区域:将所述可信度满足预设条件的所述第一文字区域确定为所述第二文字区域。
在一些实施例中,所述图像包括被识别出的至少一个文本行区域;所述图像处理装置,还包括:匹配模块,匹配模块被配置为对每一个文本行区域执行以下操作:
获取所述第二文字区域与所述文本行区域的匹配情况;在所述第二文字区域与文本行区域为完全匹配的情况下,确定所述文本行区域为第二文字区域;在所述第二文字区域与所述文本行区域为部分匹配的情况下,根据所述第二文字区域的位置,对待拆分文本行区域进行分割,获得第三文字区域,所述第三文字区域中的文字不具有所述预设文字属性,所述待拆分文本行区域为与所述第二文字区域部分匹配的文本行区域;在所述第二文字区域与文本行区域为不匹配的情况下,确定所述文本行区域为第三文字区域。
在一些实施例中,所述匹配模块被配置为通过以下方式获取所述第二文字区域与所述文本行区域之间的匹配情况:对每一个所述文本行区域执行以下操作:
计算每一个所述第二文字区域与所述文本行区域之间的交并比值;所述第二文字区域与所述文本行区域之间的交并比值大于或等于第二设定阈值的情况下,确定所述第二文字区域与所述文本行区域为完全匹配;在所述第二文字区域与所述文本行区域之间的交并比值大于或等于第一设定阈值,且小于第二设定阈值的情况下,确定所述第二文字区域与所述文本行区域为部分匹配;在所述第二文字区域与所述文本行区域之间的交并比值小于第一设定阈值的情况下,确定所述第二文字区域与所述文本行区域为不匹配;其中,第一设定阈值小于第二设定阈值。
在一些实施例中,所述匹配模块包括分割模块,所述分割模块被配置为通过以下方式根据所述第二文字区域的位置,对待拆分文本行区域进行分割:根据所述第二文字区域的位置,确定所述待拆分文本行区域的分割位置;根据所述分割位置对所述待拆分文本行区域进行分割,获得所述第三文字区域。
在一些实施例中,所述分割模块还被配置为对待拆分文本行区域进行二值化处理,获取待拆分文本行区域的二值化图像;利用所述待拆分文本行区域的二值化图像,对所述第三文字区域的边界位置进行调整,以使所述所述第三文字区域的边界位置卡住所述第三文字区域内文字的边缘。
在一些实施例中,所述图像处理装置,还包括:关系建立模块,关系建立模块被配置为建立所述文本行区域分别与所述第二文字区域和所述第三文字区域之间的对应关系。
在一些实施例中,所述电子设备,包括处理器和存储有程序指令的存储器,所述处理器被配置为在运行所述程序指令时,执行如上述的图像处理方法。
在一些实施例中,所述存储介质,存储有程序指令,所述程序指令在运行时,执行如上述的图像处理方法。
本公开实施例提供的图像处理方法及装置、电子设备、存储介质,可以实现以下技术效果:通过对图像进行预设文字属性标记处理,获得第一文字区域,并根据第一文字区域中的文字具有预设文字属性的可信度,从第一文字区域中确定出具有预设文字属性的第二文字区域。由于第二文字区域是根据第一文字区域中的文字具有预设文字属性的可信度来确定的,使得第二文字区域中的文字具有预设文字属性的准确性更高,从而提高了识别图像中文字属性的准确性。
以上的总体描述和下文中的描述仅是示例性和解释性的,不用于限制本申请。
附图说明
一个或多个实施例通过与之对应的附图进行示例性说明,这些示例性说明和附图并不构成对实施例的限定,附图中具有相同参考数字标号的元件示为类似的元件,附图不构成比例限制,并且其中:
图1是本公开实施例提供的一个图像处理方法的示意图;
图2是一个包含有可信文字属性边界框的图像的示意图;
图3是一个包含有文本行边界框的图像的示意图;
图4是一个包含有可信文字属性边界框和待拆分文本行边界框的图像的示意图;
图5是一个对待拆分文本行边界框进行分割前的示意图;
图6是一个对图5中的待拆分文本行边界框进行分割后的示意图;
图7(a)是一个待处理图像的示意图;
图7(b)是对图7(a)中的待处理图像进行处理后的效果示意图;
图8是本公开实施例提供的一个用于图像处理装置的示意图;
图9是本公开实施例提供的一个电子设备的示意图。
具体实施方式
为了能够更加详尽地了解本公开实施例的特点与技术内容,下面结合附图对本公开实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本公开实施例。在以下的技术描述中,为方便解释起见,通过多个细节以提供对所披露实施例的充分理解。然而,在没有这些细节的情况下,一个或多个实施例仍然可以实施。在其它情况下,为简化附图,熟知的结构和装置可以简化展示。
本公开实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开实施例的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。
除非另有说明,术语“多个”表示两个或两个以上。
本公开实施例中,字符“/”表示前后对象是一种“或”的关系。例如, A/B表示:A或B。
术语“和/或”是一种描述对象的关联关系,表示可以存在三种关系。例如,A和/或B,表示:A或B,或,A和B这三种关系。
术语“对应”可以指的是一种关联关系或绑定关系,A与B相对应指的是A与B之间是一种关联关系或绑定关系。
本申请可用于多种图像,例如PDF(Portable Document Format,可携带文档格式)等文本图像。本申请的执行主体可以为在浏览器上运行的应用、客户端、电子设备等。应用是终端上的浏览器的一个网页程序(web App)。此外,本申请中所涉及的电子设备可以包括但不限于手机、个人数字助理 (Personal Digital Assistant,PDA)、无线手持设备、平板电脑(Tablet Computer)、个人电脑(Personal Computer,PC)、掌上电脑(PDA,PersonalDigital Assistants) 等终端设备。
在对待处理的图像中的文字内容还原成可编辑版本的过程中,需要对文字属性进行还原,而相关技术仅仅依靠模型对文字属性进行识别,存在错误的情况,因此对文字属性识别的准确率不高。而本申请首先对待处理的图像进行预设文字属性标记处理,获得第一文字区域,并根据第一文字区域中的文字具有预设文字属性的可信度,从第一文字区域中确定出具有预设文字属性的第二文字区域。由于第二文字区域是根据第一文字区域中的文字具有预设文字属性的可信度来确定的,使得第二文字区域中的文字具有预设文字属性的准确性更高,从而提高了识别图像中文字属性的准确性。
结合图1所示,本公开实施例提供一种图像处理方法,包括:
步骤S101,对图像进行预设文字属性标记处理,获得第一文字区域。
步骤S102,获取第一文字区域中的文字具有预设文字属性的可信度。
步骤S103,根据可信度从第一文字区域中确定出第二文字区域,第二文字区域中的文字具有预设文字属性。
采用本公开实施例提供的图像处理方法,通过对待处理的图像进行预设文字属性标记处理,获得第一文字区域,并根据第一文字区域中的文字具有预设文字属性的可信度,从第一文字区域中确定出具有预设文字属性的第二文字区域。由于第二文字区域是根据第一文字区域中的文字具有预设文字属性的可信度来确定的,使得第二文字区域中的文字具有预设文字属性的准确性更高,从而提高了识别图像中文字属性的准确性。
在本实施例中,预设文字属性包括粗体、斜体或下划线等。
进一步的,对图像进行预设文字属性标记处理,获得第一文字区域,包括:利用预设的文字属性检测模型对图像进行预设文字属性标记处理,获得被文字属性边界框标记的第一文字区域。这样,利用文字属性检测模型,能够初步预测出具有预设文字属性的第一文字区域,便于从第一文字区域中确定出第二文字区域。
具体地,将图像输入预设的文字属性检测模型进行预设文字属性标记处理,获得被文字属性边界框标记的第一文字区域,以及各第一文字区域的置信度。
进一步的,文字属性检测模型通过以下方式获取:将若干张带有文字属性标签的样本图像输入YOLO(You Only Look Once)目标检测模型进行训练,获得文字属性检测模型。其中,文字属性标签为样本文字属性边界框,样本文字属性边界框用于表征样本图像上具有预设文字属性对应的文字区域。从而将待处理图像输入训练好的文字属性检测模型进行标记处理,能够获得至少一个被文字属性边界框标记的第一文字区域,以及各第一文字区域的置信度。其中,一个文字属性边界框标记一个第一文字区域。具体地,第一文字区域为文字属性检测模型输出的文字属性边界框,第一文字区域的置信度为文字属性检测模型输出的对应文字属性边界框的置信度。
由于YOLO目标检测模型对目标检测的准确率高、速度快。这样,通过对YOLO目标检测模型进行训练得到文字属性检测模型,使得文字属性检测模型能够更加快速、且较准确地识别出具有预设文字属性的第一文字区域。
进一步的,在对YOLO目标检测模型进行训练的过程中,利用GIoU_Loss(Generalized Intersection over Union_Loss)作为模型训练的的损失函数。同时,去除了FRN(Feature Pyramid Networks,特征金字塔网络) 中设定尺寸的特征图。这样,将FRN中较小的特征图去除,使得训练好的文字属性检测模型能够对图像中文字属性进行识别的同时,还能够减少模型的参数量。并且,由于文字属性检测模型只检测文字属性单一类别。因此,在YOLO目标检测模型的输出端去掉其他的分类分支。从而简化了文字属性检测模型的结构。
可选地,获取第一文字区域中的文字具有预设文字属性的可信度,包括:获取第一文字区域的置信度、侵蚀指数和内指数中的一种或多种,根据置信度、侵蚀指数和内指数中的一种或多种确定第一文字区域中的文字具有预设文字属性的可信度。这样,采用多种策略的方式从第一文字区域中筛选出第二文字区域,能够提高第二文字区域的可信度,从而提高第二文字区域中的文字具有预设文字属性的准确性。
可选地,根据置信度、侵蚀指数和内指数中的一种或多种确定第一文字区域中的文字具有预设文字属性的可信度,包括:将第一文字区域的置信度确定为第一文字区域中的文字具有预设文字属性的可信度,或,第一文字区域的侵蚀指数确定为第一文字区域中的文字具有预设文字属性的可信度,或,第一文字区域的内指数确定为第一文字区域中的文字具有预设文字属性的可信度,或,第一文字区域的置信度和侵蚀指数共同确定为第一文字区域中的文字具有预设文字属性的可信度,或,第一文字区域的置信度和内指数共同确定为第一文字区域中的文字具有预设文字属性的可信度,第一文字区域的内指数和侵蚀指数共同确定为第一文字区域中的文字具有预设文字属性的可信度,或,第一文字区域的置信度、侵蚀指数和内指数共同确定为第一文字区域中的文字具有预设文字属性的可信度。
进一步的,根据可信度从第一文字区域中确定出第二文字区域,包括:将可信度满足预设条件的第一文字区域确定为第二文字区域。
进一步的,将可信度满足预设条件的第一文字区域确定为第二文字区域,包括:将可信度大于或等于对应阈值的第一文字区域确定为第二文字区域。
在一些实施例中,在第一文字区域的置信度为第一文字区域中的文字具有预设文字属性的可信度的情况下,将置信度大于或等于置信度阈值的第一文字区域确定为第二文字区域。这样,利用第一文字区域的置信度来选取出第二文字区域,使得选取出的第二文字区域中的文字具有预设文字属性的准确性更高。
在一些实施例中,在第一文字区域的侵蚀指数为第一文字区域中的文字具有预设文字属性的可信度的情况下,将侵蚀指数大于或等于侵蚀指数阈值的第一文字区域确定为第二文字区域。这样,利用第一文字区域的侵蚀指数来选取出第二文字区域,使得选取出的第二文字区域中的文字具有文字属性的准确性更高。
在一些实施例中,在第一文字区域的内指数为第一文字区域中的文字具有预设文字属性的可信度的情况下,将内指数大于或等于内指数阈值的第一文字区域确定为第二文字区域。这样,利用第一文字区域中的内指数来选取出第二文字区域,使得选取出的二文字区域中的文字具有预设文字属性的准确性更高。
在一些实施例中,在第一文字区域的置信度和侵蚀指数共同为第一文字区域中的文字具有预设文字属性的可信度的情况下,将第一文字区域的置信度大于或等于置信度阈值,且侵蚀指数大于或等于侵蚀指数阈值的第一文字区域确定为第二文字区域。通过从第一文字区域中选取出置信度和侵蚀指数都大于或等于对应阈值的第二文字区域。这样,采用多种策略来筛选第二文字区域,能够提高第二文字区域的可信度,从而提高第二文字区域中的文字具有预设文字属性的准确性。
在一些实施例中,在第一文字区域的置信度和内指数共同为第一文字区域中的文字具有预设文字属性的可信度的情况下,将第一文字区域的置信度大于或等于置信度阈值,且内指数大于或等于内指数阈值的第一文字区域确定为第二文字区域。通过从第一文字区域中选取出置信度和内指数都大于或等于对应阈值的文字区域。这样,采用多种策略来筛选第二文字区域,能够提高第二文字区域的可信度,从而提高第二文字区域中的文字具有预设文字属性的准确性。
在一些实施例中,在第一文字区域的内指数和侵蚀指数共同为第一文字区域中的文字具有预设文字属性的可信度的情况下,将第一文字区域的内指数大于或等于内指数阈值,且侵蚀指数大于或等于侵蚀指数阈值的情况下,确定该第一文字区域为第二文字区域。通过从第一文字区域中选取出侵蚀指数和内指数都大于或等于对应阈值的第二文字区域。这样,采用多种策略来筛选第二文字区域,能够提高第二文字区域的可信度,从而提高第二文字区域中的文字具有预设文字属性的准确性。
在一些实施例中,在第一文字区域的置信度、侵蚀指数和内指数共同为第一文字区域中的文字具有预设文字属性的可信度的情况下,将第一文字区域的置信度大于或等于置信度阈值,侵蚀指数大于或等于侵蚀指数阈值,和,内指数大于或等于内指数阈值的第一文字区域确定为第二文字区域。通过从第一文字区域中选取置信度、侵蚀指数和内指数都大于或等于对应阈值的第二文字区域。这样,采用多种策略来筛选出第二文字区域,能够提高第二文字区域的可信度,从而提高第二文字区域中的文字具有预设文字属性的准确性。
进一步的,通过以下方式获取第一文字区域的侵蚀指数:对第一文字区域对应的区域图像进行二值化处理,获得第一文字区域的第一二值化图像。对第一文字区域的第一二值化图像进行形态学侵蚀处理,获得第一文字区域的第二二值化图像。利用第一预设算法对第一文字区域的第一二值化图像和第二二值化图像进行计算,获得第一文字区域的侵蚀指数。
进一步的,利用第一预设算法对第一文字区域的第一二值化图像和第二二值化图像进行计算,获得第一文字区域的侵蚀指数,包括:计算
Figure RE-GDA0003924571570000111
获得第一文字区域的侵蚀指数。其中,erodei为待处理的图像中第i个第一文字区域的侵蚀指数,yi为待处理的图像中第i 个第一文字区域的第一二值化图像,
Figure RE-GDA0003924571570000112
为待处理的图像中第i个第一文字区域的第二二值化图像。y为待处理的图像的第一二值化图像,y*对待处理的图像的第二二值化图像。其中,待处理的图像的第一二值化图像通过对待处理的图像进行二值化处理获得。待处理的图像的第二二值化图像通过对待处理的图像的第一二值化图像进行形态学侵蚀处理获得。
进一步的,通过以下方式第一文字区域的内指数:对第一文字区域对应的区域图像进行二值化处理,获得第一文字区域的第一二值化图像。利用第二预设算法对第一文字区域的第一二值化图像进行计算,获得第一文字区域的内指数。
进一步的,利用第二预设算法对第一文字区域的第一二值化图像进行计算,获得第一文字区域的内指数,包括:计算
Figure RE-GDA0003924571570000121
获得第一文字区域的内指数。其中,extrai为待处理的图像中第i个第一文字区域的内指数,yi为待处理的图像中第i个第一文字区域的第一二值化图像。进一步的,通过计算
Figure RE-GDA0003924571570000122
获得S(yi);通过计算
Figure RE-GDA0003924571570000123
Figure RE-GDA0003924571570000124
获得Sk(yi)。其中,U表示并运算,B为结构元,K为对第i个第一文字区域使用结构元B进行形态学侵蚀操作的次数,K≤5,0≤k≤5,
Figure RE-GDA0003924571570000125
为形态学侵蚀,°表示形态学开运算。
结合图2所示,在一些实施例中,将待处理的图像输入文字属性检测模型进行预设文字属性标记处理,获得至少一个文字属性边界框。并获取各文字属性边界框中的文字具有预设文字属性的可信度,根据可信度从文字属性边界框中确定出可信文字属性边界框,其中,可信文字属性边界框中的文字具有预设文字属性。即可信文字属性边界框为第二文字区域。例如,如图2中所示的文字内容“建筑企业”、“员工”对应的文字属性边界框为可信文字属性边界框。即,可信文字属性边界框中的文字具有预设文字属性,如图2中的“建筑企业”、“员工”文字属性为粗体。
可选地,图像包括被识别出的至少一个文本行区域。确定出第二文字区域之后,还包括:对每一个文本行区域执行以下操作:
获取第二文字区域与文本行区域的匹配情况。在第二文字区域与文本行区域为完全匹配的情况下,确定该文本行区域为第二文字区域,即该文本行区域中的文字都具有预设文字属性。在第二文字区域与文本行区域为不匹配的情况下,确定该文本行区域为第三文字区域,即该文本行区域中的文字都不具有预设文字属性。在第二文字区域与文本行区域为部分匹配的情况下,根据第二文字区域的位置,对待拆分文本行区域进行分割,获得第三文字区域,第三文字区域中的文字不具有预设文字属性,待拆分文本行区域为与第二文字区域部分匹配的文本行区域,即该待拆分文本行区域中既包含具有预设文字属性的文字,还包含不具有预设文字属性的文字。其中,第三文字区域为文字边界框,即文字边界框中的文字不具有预设文字属性。
在对待处理的图像进行还原为可编辑版本的过程中,由于相关技术只能以文本行为单位进行还原。但事实上同一文本行中同时出现不同文字属性频率非常高。如果以文本行为单位进行还原,并不能将文本行中的不同文字属性识别出来。而本公开实施例利用从第一文字区域中筛选出的第二文字区域,来对待处理的图像中的文本行区域进行拆分。能够将既包含具有预设文字属性的文字,还包含不具有预设文字属性的文字的待拆分文本行区域拆分为具有预设文字属性的文字区域和不具有预设文字属性的文字区域。从而能够将文本行中的具有预设文字属性的文字区域和不具有预设文字属性的区域分别识别出来,便于对文本行中不同文字属性的区域分别进行识别,能进一步定位更加精细的文字属性类型,进而能够提升图像的还原效果。并且,由于第二文字区域的可信度满足预设条件,即第二文字区域中文字具有预设文字属性的准确性较高,利用准确性更高的第二文字区域对待拆分文本行区域进行分割,能够更加准确的分割出待拆分文本行中具有预设文字属性的文字区域和不具有预设文字属性的文字区域。
可选地,通过以下方式识别出待处理的图像中的文本行区域:将待处理的图像输入预先训练好的文字检测模型,获得文本行边界框。文本行区域为文字检测模型输出的文本行边界框。并且文本行边界框紧贴文本行中文字的边缘,能够利用该文本行边界框计算该文本行中文字的字高字号等字体类型,以及确定还原时渲染文字的位置。而利用可信文字属性边界框能够将文本行边界框拆分为具有预设文字属性的可信文字属性边界框和不具有预设文字属性的文字边界框。其中,具有预设文字属性的可信文字属性边界框为具有预设文字属性的第二文字区域。不具有预设文字属性的文字边界框为不具有预设文字属性的第三文字区域。
结合图3所示,在一些实施例中,将待处理的图像输入预先训练好的文字检测模型,获得文本行边界框。如图3所示的每一个文本行对应的文本行边界框。其中,文本行为图像中位于同一行的文本数据。该文本数据可以是文字、符号等。
结合图4所示,在一些实施例中,将包含有至少一个文本行边界框的图像输入文字属性检测模型进行预设文字属性标记处理,获得至少一个文字属性边界框。并获取各文字属性边界框中的文字具有预设文字属性的可信度,根据可信度从文字属性边界框中确定出可信文字属性边界框。并获取可信文字属性边界框与各文本行边界框的匹配情况,将与存在部分区域与可信文字属性边界框匹配的文本行边界框确定为待拆分文本行边界框。如图4所示的待拆分文本行边界框401,可信文字属性边界框402。其中,可信文字属性边界框402中的文字具有粗体属性。
进一步的,获取第二文字区域与文本行区域之间的匹配情况,包括:对每一个文本行区域执行以下操作:
计算每一个第二文字区域与文本行区域之间的交并比值;在第二文字区域与文本行区域之间的交并比值大于或等于第二设定阈值的情况下,确定第二文字区域与文本行区域为完全匹配。在第二文字区域与文本行区域之间的交并比值大于或等于第一设定阈值,且小于第二设定阈值的情况下,确定第二文字区域与文本行区域为部分匹配。在第二文字区域与文本行区域之间的交并比值小于第一设定阈值的情况下,确定第二文字区域与文本行区域为不匹配;其中,第一设定阈值小于第二设定阈值。其中,第二文字区域与文本行区域之间的交并比值为,第二文字区域与文本行区域之间交集与并集的比值。
第二文字区域与文本行区域之间的匹配情况表征该第二文字区域与该文本行区域的重叠情况。即,第二文字区域与文本行区域为完全匹配,则表征该第二文字区域与该文本行区域完全重叠,即该文本行区域中的文字都具有预设文字属性。第二文字区域与文本行区域为不匹配,则表征该第二文字区域与该文本行区域完全不重叠,即该文本行区域中的文字都不具有预设文字属性。第二文字区域与文本行区域为部分匹配,则表征该第二文字区域与该文本行区域的部分区域重叠,即该文本行区域中既包含具有预设文字属性的文字,还包含不具有预设文字属性的文字。
这样,利用与文本行区域中的部分区域重叠的第二文字区域,来对该文本行区域进行分割。能够将该文本行区域中的具有预设文字属性的第二文字区域与不具有预设文字属性的第三文字区域分割为不同的区域。从而便于对文本行中具有不同文字属性的文字区域分别进行识别,能进一步定位更加精细的文字属性类型。并且,将既包含具有预设文字属性的文字,还包含不具有预设文字属性的文字的文本行边界框分割成具有预设文字属性的可信文字属性边界框和不具有预设文字属性的文字边界框之后,可以使不同边界框内文字属性类型的区分度扩大,在进行文字属性识别时更加有利,进而能够提升图像的还原效果。
进一步的,根据第二文字区域的位置,对待拆分文本行区域进行分割,包括:根据第二文字区域的位置,确定该待拆分文本行区域的分割位置;根据分割位置对该待拆分文本行区域进行分割,获得第三文字区域。
具体地,根据可信文字属性边界框的边界位置,确定该待拆分文本行边界框的分割位置,根据分割位置对该待拆分文本行边界框进行分割,获得文字边界框,该文字边界框中的文字不具有预设文字属性。
进一步的,根据第二文字区域的位置,确定待拆分文本行区域的分割位置,包括:在第二文字区域的左边界横坐标与待拆分文本行区域的左边界横坐标的距离小于边界阈值的情况下,将第二文字区域的右边界横坐标确定为待拆分文本行区域的分割位置。在第二文字区域的右边界横坐标与待拆分文本行区域的右边界横坐标的距离小于边界阈值的情况下,将第二文字区域的左边界横坐标确定为待拆分文本行区域的分割位置。在第二文字区域的左边界横坐标与待拆分文本行区域的左边界横坐标的距离大于或等于边界阈值,且第二文字区域的右边界横坐标与待拆分文本行区域的右边界横坐标的距离大于或等于边界阈值的情况下,将第二文字区域的左边界横坐标和右边界横坐标都确定为待拆分文本行区域的分割位置。其中,边界阈值为待拆分文本行边界框高的两倍。
进一步的,根据分割位置对文本行区域进行分割,获得第三文字区域,包括:将分割位置确定为第三文字区域的边界位置。
在一些实施例中,在只有一个第二文字区域与待拆分文本行区域中的部分区域重叠的情况下,若该第二文字区域的左边界横坐标与待拆分文本行区域的左边界横坐标的距离小于边界阈值,将该第二文字区域的右边界横坐标确定为第三文字区域的左边界横坐标,该第三文字区域的右边界横坐标为该待拆分文本行区域的右边界横坐标,该第三文字区域的左边界与该第二文字区域的右边界相邻。若该第二文字区域的右边界横坐标与待拆分文本行区域的右边界横坐标的距离小于边界阈值,将该第二文字区域的左边界横坐标确定为第三文字区域的右边界横坐标,该第三文字区域的左边界横坐标为该待拆分文本行区域的左边界横坐标,该第三文字区域的右边界与该第二文字区域的左边界相邻。若该第二文字区域的左边界横坐标与待拆分文本行区域的左边界横坐标的距离大于或等于边界阈值,且第二文字区域的右边界横坐标与待拆分文本行区域的右边界横坐标的距离大于或等于边界阈值,将该第二文字区域的左边界横坐标确定为第一个第三文字区域的右边界横坐标,该第一个第三文字区域的左边界横坐标为该待拆分文本行区域的左边界横坐标,第一个第三文字区域的右边界与第二文字区域的左边界相邻;将该第二文字区域的右边界横坐标确定为第二个第三文字区域的左边界横坐标,该第二个第三文字区域的右边界横坐标为该待拆分文本行区域的右边界横坐标,待第二文字区域的右边界与第二个第三文字区域的左边界相邻。
在一些实施例中,在存在r个第二文字区域与待拆分文本行区域都为部分匹配的情况下,按照r个第二文字区域的边界位置横坐标的从小到大的顺序,利用各第二文字区域依次执行如下分割操作:
若第一个第二文字区域的左边界横坐标与待拆分文本行区域的左边界横坐标的距离小于边界阈值,且,第r个第二文字区域的右边界横坐标与待拆分文本行区域的右边界横坐标的距离大于或等于边界阈值,则将第一个第二文字区域的右边界横坐标确定为第一个第三文字区域的左边界横坐标,第一个第三文字区域的右边界横坐标为第二个第二文字区域的左边界横坐标;然后,将第二个第二文字区域的右边界横坐标确定为第二个第三文字区域的左边界横坐标,第二个第三文字区域的右边界横坐标为第三个第二文字区域的左边界横坐标;依次执行上述步骤,直到将第r个第二文字区域的右边界横坐标确定为第r个第三文字区域的左边界横坐标,第r个第三文字区域的右边界横坐标为待拆分文本行区域的右边界横坐标。
若第一第二文字区域的左边界横坐标与待拆分文本行区域的左边界横坐标的距离大于或等于边界阈值,且,第r个第二文字区域的右边界横坐标与待拆分文本行区域的右边界横坐标的距离大于或等于边界阈值,则将待拆分文本行区域的左边界横坐标确定为第一个第三文字区域的左边界横坐标,第一个第三文字区域的右边界横坐标为第一个第二文字区域的左边界横坐标;然后,将第一第二文字区域的右边界横坐标确定为第二个第三文字区域的左边界横坐标,第二个第三文字区域的右边界横坐标为第二个第二文字区域的左边界横坐标;依次执行上述步骤,直到将第r个第二文字区域的右边界横坐标确定为第r+1个第三文字区域的左边界横坐标,第r+1 个第三文字区域的右边界横坐标为待拆分文本行区域的右边界横坐标。
若第一个第二文字区域的左边界横坐标与待拆分文本行区域的左边界横坐标的距离大于或等于边界阈值,且,第r个第二文字区域的右边界横坐标与待拆分文本行区域的右边界横坐标的距离小于边界阈值,则将待拆分文本行区域的左边界横坐标确定为第一个第三文字区域的左边界横坐标,第一个第三文字区域的右边界横坐标为第一个第二文字区域的左边界横坐标;然后,将第一个第二文字区域的右边界横坐标确定为第二个第三文字区域的左边界横坐标,第二个第三文字区域的右边界横坐标为第二个第二文字区域的左边界横坐标;依次执行上述步骤,直到将第r-1个第二文字区域的右边界横坐标确定为第r个第三文字区域的左边界横坐标,第r个第三文字区域的右边界横坐标为第r个第二文字区域的左边界横坐标。
其中,r为与待拆分文本行区域存在部分匹配的第二文字区域的数量, r≥2,且为整数。
可选地,对待拆分文本行区域进行分割之后,还包括:对待拆分文本行区域进行二值化处理,获取待拆分文本行区域的二值化图像;利用待拆分文本行区域的二值化图像,对第三文字区域的边界位置进行调整,以使第三文字区域的边界位置卡住第三文字区域内文字的边缘。这样,通过调整第三文字区域的边界位置卡住文字的边缘,使获得的不具有预设文字属性的文字区域更加准确。
可选地,图像处理方法还包括:利用待拆分文本行区域的二值化图像,对对应的第二文字区域的边界位置进行调整,以使对应的第二文字区域的边界位置卡住第二文字区域内文字的边缘。
进一步的,利用待拆分文本行区域的二值化图像,对第三文字区域的边界位置进行调整,包括:按照待拆分文本行区域的二值化图像的高作纵向投影获得投影列表,对照投影列表,对分割后的第三文字区域的右边界横坐标和左边界横坐标进行调整,以使第三文字区域的右边界和左边界都卡住文字边缘。
在一些实施例中,对照投影列表,对第二文字区域的左边界的横坐标和右边界的横坐标进行调整,以使第二文字区域的左右边界都卡住文字边缘。
在一些实施例中,调整可以理解为对文字区域的边界进行左右移动,此时,在发生移动的情况下,文字区域的边界的坐标会改变。
可选地,获得第三文字区域之后,还包括:建立文本行区域分别与第二文字区域和第三文字区域之间的对应关系。
在一些实施例中,电子设备获取待处理的图像、该待处理的图像的文本行边界框(bbox,boundingbox)和该待处理的图像的可信文字属性边界框。首先,初始化第三字典(match_dict)为空,value值类型为列表(list),其中,第三字典用于存储待拆分文本行边界框及其编号。遍历每一个文本行边界框(text_box)及其编号,遍历每一个可信文字属性边界框(pred_box) 及其编号。在第j个pred_box与第i个text_box的交并比(iou)值大于或等于第一设定阈值,且小于第二设定阈值的情况下,利用第j个pred_box 分割第i个text_box。确定第i个text_box为待拆分文本行边界框,并将编号i赋值给match_dict的key,其中,i≥0,且为整数,j≥0,且为整数。遍历完每一个文本行边界框(text_box)及其编号,和,每一个可信文字属性边界框(pred_box)及其编号,则所有待拆分文本行边界框的编号都存储到match_dict,即match_dict的所有key为所有待拆分文本行边界框的编号。然后,初始化不具有预设文字属性的文字边界框列表(regular_list)为空,初始化具有预设文字属性的可信文字属性边界框列表(bold_list)为空,初始化第一字典(match_dict_regular)为空,初始化第二字典(match_dict_bold) 为空,其中,第一字典(match_dict_regular)存储不具有预设文字属性的文字边界框的编号与对应的待拆分文本行边界框的编号之间的对应关系,第二字典(match_dict_bold)存储具有预设文字属性的可信文字属性边界框的编号与对应的待拆分文本行边界框的编号之间的对应关系。
然后,遍历match_dict中的key,对match_dict中的key对应的每一个待拆分文本行边界框执行以下操作:获取待拆分文本行边界框的二值化图像,获取拆分该待拆分文本行边界框的可信文字属性边界框。按照待拆分文本行边界框的二值化图像的高作纵向投影获得投影列表。在可信文字属性边界框与待拆分文本行边界框的交并比值大于或等于第二设定阈值的情况下,确定该待拆分文本行边界框中的文字全部具有预设文字属性,则将该待拆分文本行边界框确定为具有预设文字属性的可信文字属性边界框,并确定该具有预设文字属性的可信文字属性边界框的编号,该具有预设文字属性的可信文字属性边界框编号按照获取的顺序来确定。并将该具有预设文字属性的可信文字属性边界框添加到bold_list。其中,第二设定阈值可以为0.85。在可信文字属性边界框与待拆分文本行边界框的交并比值大于或等于第一设定阈值,且小于第二设定阈值的情况下,按照各可信文字属性边界框的边界位置横坐标的从小到大的顺序,利用各可信文字属性边界框依次对该待拆分文本行边界框执行分割操作,并对照投影列表,对可信文字属性边界框左边界的横坐标和右边界的横坐标,进行左右微调至卡住文字边缘,并确定该调整后的可信文字属性边界框的编号。并将该调整后的可信文字属性边界框添加到bold_list,将该待拆分文本行边界框的编号与该调整后的可信文字属性边界框的编号的对应关系存储到match_dict_bold。同时,对分割后的不具有预设文字属性的文字边界框的左边界横坐标和右边界横坐标,对照投影列表进行左右微调至卡住文字边缘,并确定该不具有预设文字属性的文字边界框的编号。将该不具有预设文字属性的文字边界框添加到regular_list,将该待拆分文本行边界框的编号与该不具有预设文字属性的文字边界框的编号的对应关系存储到match_dict_regular。
在实际应用中,如图5和图6所示,图5为对待拆分文本行边界框分割之前的图像的示意图,图5中包括有待拆分文本行边界框501和可信文字属性边界框502。其中,具有粗体属性的文字内容“管理体系”对应的可信文字属性边界框的左边界横坐标为x1,右边界横坐标为x2。利用该可信文字属性边界框502对待拆分文本行边界框501进行分割,将x1确定为分割后第一个不具有预设文字属性的文字边界框的右边界横坐标,第一个不具有预设文字属性的文字边界框的左边界横坐标为该待拆分文本行边界框 501的左边界横坐标。将x2确定为分割后第二个不具有预设文字属性的文字边界框的左边界横坐标,第二个不具有预设文字属性的文字边界框的右边界横坐标为该待拆分文本行边界框501的右边界横坐标。然后,对第一个不具有预设文字属性的文字边界框的左右边界分别向右和向左调整直至贴紧文字,获得如图6中所示的第一个不具有预设文字属性的文字边界框 602。同时,对第二个不具有预设文字属性的文字边界框的左右边界分别向右和向左调整直至贴紧文字,获得如图6中所示的第二个不具有预设文字属性的文字边界框603。并对可信文字属性边界框502的左右边界分别向右和向左调整直至贴紧文字,获得如图6中所示的具有预设文字属性的可信文字属性边界框601。其中,待拆分文本行边界框501的编号为1,分割后具有预设文字属性的可信文字属性边界框601的编号为0,分割后第一个不具有预设文字属性的文字边界框602的编号为1,第二个不具有预设文字属性的文字边界框603的编号为2,则match_dict_bold中有记录对应关系{1:0}, match_dict_regular中有记录对应关系{1:[1,2]}。从而获得了具有预设文字属性的可信文字属性边界框中的文字具有粗体属性。不具有预设文字属性的文字边界框中的文字不具有粗体这一文字属性信息,该获得的文字属性信息能够随后续处理流程一直存在直到最终的渲染还原,并将分割后的具有预设文字属性的可信文字属性边界框和不具有预设文字属性的文字边界框输入OCR(Optical CharacterRecognition,光学字符识别)识别模型。从而使得OCR等模型能够更加准确地识别出图像中文字的属性信息。提升了图像还原成可编辑版本过程中的文字属性识别效果。
在一些实施例中,结合图7(a)和图7(b)所示,图7(a)为待处理的图像。图7(a)所示的待处理的图像中,标题“质量方针即质量目标”,文字内容“一、质量方针”、“二、质量目标”、“三、服务质量”、“四、设备安全运行质量”、“五、服务承诺”和“六、实施计划与措施”的属性都为粗体。通过先获取待处理图像中的文本行边界框和可信文字属性边界框,再利用可信文字属性边界框将待拆分文本行边界框分割为具有粗体的可信文字属性边界框和不具有粗体的文字边界框。然后利用图像识别模型识别出待处理图像中的文字内容,获得如图7(b)所示的识别后的效果。图7(b)为对图7(a)待处理图像识别后的效果示意图。
结合图8所示,本公开实施例提供一种图像处理装置,包括:标记处理模块801、获取模块802和确定模块803。标记处理模块801被配置为对对图像进行预设文字属性标记处理,获得第一文字区域。获取模块802被配置为获取第一文字区域中的文字具有预设文字属性的可信度。确定模块 803被配置为根据可信度从第一文字区域中确定出第二文字区域,第二文字区域中的文字为预设文字属性。
采用本公开实施例提供的图像处理装置,通过对图像进行预设文字属性标记处理,获得第一文字区域,并根据第一文字区域中的文字具有预设文字属性的可信度,从第一文字区域中确定出具有预设文字属性的第二文字区域。由于第二文字区域是根据第一文字区域中的文字具有预设文字属性的可信度来确定的,使得第二文字区域中的文字具有预设文字属性的准确性更高,从而提高了识别图像中文字属性的准确性。
进一步的,标记处理模块被配置为通过以下方式对图像进行预设文字属性标记处理,获得第一文字区域:利用预设的文字属性检测模型对图像进行预设文字属性标记处理,获得被文字属性边界框标记的第一文字区域。
进一步的,获取模块被配置为通过以下方式获取第一文字区域中的文字具有预设文字属性的可信度:获取第一文字区域的置信度、侵蚀指数和内指数中的一种或多种;根据置信度、侵蚀指数和内指数中的一种或多种确定第一文字区域中的文字具有预设文字属性的可信度。
进一步的,获取模块被配置为通过以下方式获取第一文字区域的侵蚀指数:对第一文字区域对应的区域图像进行二值化处理,获得第一文字区域的第一二值化图像;对第一文字区域的第一二值化图像进行形态学侵蚀处理,获得第一文字区域的第二二值化图像;利用第一预设算法对第一二值化图像和第二二值化图像进行计算,获得第一文字区域的侵蚀指数。
进一步的,获取模块被配置为通过以下方式获取第一文字区域的内指数:对第一文字区域对应的区域图像进行二值化处理,获得第一文字区域的第一二值化图像;利用第二预设算法对第一二值化图像进行计算,获得第一文字区域的内指数。
进一步的,确定模块被配置为通过以下方式根据可信度从第一文字区域中确定出第二文字区域:将可信度满足预设条件的第一文字区域确定为第二文字区域。
可选地,图像包括被识别出的至少一个文本行区域;图像处理装置,还包括:匹配模块,匹配模块被配置为对每一个文本行区域执行以下操作:
获取第二文字区域与文本行区域的匹配情况;在第二文字区域与文本行区域为完全匹配的情况下,确定文本行区域为第二文字区域;在第二文字区域与文本行区域为部分匹配的情况下,根据第二文字区域的位置,对待拆分文本行区域进行分割,获得第三文字区域,第三文字区域中的文字不具有预设文字属性,待拆分文本行区域为与第二文字区域部分匹配的文本行区域;在第二文字区域与文本行区域为不匹配的情况下,确定文本行区域为第三文字区域。
进一步的,匹配模块被配置为通过以下方式获取第二文字区域与文本行区域之间的匹配情况:对每一个文本行区域执行以下操作:
计算每一个第二文字区域与文本行区域之间的交并比值;第二文字区域与文本行区域之间的交并比值大于或等于第二设定阈值的情况下,确定第二文字区域与文本行区域为完全匹配;在第二文字区域与文本行区域之间的交并比值大于或等于第一设定阈值,且小于第二设定阈值的情况下,确定第二文字区域与文本行区域为部分匹配;在第二文字区域与文本行区域之间的交并比值小于第一设定阈值的情况下,确定第二文字区域与文本行区域为不匹配;其中,第一设定阈值小于第二设定阈值。
可选地,匹配模块包括分割模块,分割模块被配置为通过以下方式根据第二文字区域的位置,对待拆分文本行区域进行分割:根据第二文字区域的位置,确定待拆分文本行区域的分割位置;根据分割位置对待拆分文本行区域进行分割,获得第三文字区域。
可选地,分割模块还被配置为对待拆分文本行区域进行二值化处理,获取待拆分文本行区域的二值化图像;利用待拆分文本行区域的二值化图像,对第三文字区域的边界位置进行调整,以使第三文字区域的边界位置卡住第三文字区域内文字的边缘。
可选地,图像处理装置,还包括:关系建立模块,关系建立模块被配置为建立文本行区域分别与第二文字区域和第三文字区域之间的对应关系。。
结合图9所示,本公开实施例提供电子设备,包括处理器(processor) 901和存储器(memory)902。可选地,该电子设备还可以包括通信接口 (Communication Interface)903和总线904。其中,处理器901、通信接口 903、存储器902可以通过总线904完成相互间的通信。通信接口903可以用于信息传输。处理器901可以调用存储器902中的逻辑指令,以执行上述实施例的图像处理方法。
此外,上述的存储器902中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
存储器902作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令/模块。处理器 901通过运行存储在存储器902中的程序指令/模块,从而执行功能应用以及数据处理,即实现上述实施例中图像处理方法。
存储器902可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器902可以包括高速随机存取存储器,还可以包括非易失性存储器。
本公开实施例提供了一种存储介质,存储有程序指令,程序指令在运行时,执行如上述的图像处理方法。
本公开实施例提供了一种计算机程序产品,计算机程序产品包括存储在计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述图像处理方法。
上述的计算机可读存储介质可以是暂态计算机可读存储介质,也可以是非暂态计算机可读存储介质。
本公开实施例的技术方案可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括一个或多个指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开实施例所述方法的全部或部分步骤。而前述的存储介质可以是非暂态存储介质,包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
以上描述和附图充分地示出了本公开的实施例,以使本领域的技术人员能够实践它们。其他实施例可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求,否则单独的部件和功能是可选的,并且操作的顺序可以变化。一些实施例的部分和特征可以被包括在或替换其他实施例的部分和特征。而且,本申请中使用的用词仅用于描述实施例并且不用于限制权利要求。如在实施例以及权利要求的描述中使用的,除非上下文清楚地表明,否则单数形式的“一个”(a)、“一个”(an)和“所述”(the)旨在同样包括复数形式。类似地,如在本申请中所使用的术语“和/或”是指包含一个或一个以上相关联的列出的任何以及所有可能的组合。另外,当用于本申请中时,术语“包括”(comprise)及其变型“包括”(comprises)和/或包括(comprising)等指陈述的特征、整体、步骤、操作、元素,和/或组件的存在,但不排除一个或一个以上其它特征、整体、步骤、操作、元素、组件和/或这些的分组的存在或添加。在没有更多限制的情况下,由语句“包括一个…”限定的要素,并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。本文中,每个实施例重点说明的可以是与其他实施例的不同之处,各个实施例之间相同相似部分可以互相参见。对于实施例公开的方法、产品等而言,如果其与实施例公开的方法部分相对应,那么相关之处可以参见方法部分的描述。
本领域技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,可以取决于技术方案的特定应用和设计约束条件。所述技术人员可以对每个特定的应用来使用不同方法以实现所描述的功能,但是这种实现不应认为超出本公开实施例的范围。所述技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本文所披露的实施例中,所揭露的方法、产品(包括但不限于装置、设备等),可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,可以仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例。另外,在本公开实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
附图中的流程图和框图显示了根据本公开实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这可以依所涉及的功能而定。在附图中的流程图和框图所对应的描述中,不同的方框所对应的操作或步骤也可以以不同于描述中所披露的顺序发生,有时不同的操作或步骤之间不存在特定的顺序。例如,两个连续的操作或步骤实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这可以依所涉及的功能而定。框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

Claims (13)

1.一种图像处理方法,其特征在于,包括:
对图像进行预设文字属性标记处理,获得第一文字区域;
获取所述第一文字区域中的文字具有所述预设文字属性的可信度;
根据所述可信度从所述第一文字区域中确定出第二文字区域,所述第二文字区域中的文字具有预设文字属性。
2.根据权利要求1所述的方法,其特征在于,所述对图像进行预设文字属性标记处理,获得第一文字区域,包括:
利用预设的文字属性检测模型对所述图像进行预设文字属性标记处理,获得被文字属性边界框标记的所述第一文字区域。
3.根据权利要求1所述的方法,其特征在于,获取所述第一文字区域中的文字具有所述预设文字属性的可信度,包括:
获取所述第一文字区域的置信度、侵蚀指数和内指数中的一种或多种;
根据所述置信度、所述侵蚀指数和所述内指数中的一种或多种确定所述第一文字区域中的文字为所述预设文字属性的可信度。
4.根据权利要求3所述的方法,其特征在于,所述获取所述第一文字区域的侵蚀指数,包括:
对所述第一文字区域对应的区域图像进行二值化处理,获得所述第一文字区域的第一二值化图像;
对所述第一文字区域的第一二值化图像进行形态学侵蚀处理,获得所述第一文字区域的第二二值化图像;
利用第一预设算法对所述第一二值化图像和所述第二二值化图像进行计算,获得所述第一文字区域的侵蚀指数。
5.根据权利要求3所述的方法,其特征在于,所述获取所述第一文字区域的内指数,包括:
对所述第一文字区域对应的区域图像进行二值化处理,获得所述第一文字区域的第一二值化图像;
利用第二预设算法对所述第一二值化图像进行计算,获得所述第一文字区域的内指数。
6.根据权利要求1所述的方法,其特征在于,所述根据所述可信度从所述第一文字区域中确定出第二文字区域,包括:
将所述可信度满足预设条件的所述第一文字区域确定为所述第二文字区域。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述图像包括被识别出的至少一个文本行区域;确定出第二文字区域之后,还包括:
对每一个文本行区域执行以下操作:
获取所述第二文字区域与所述文本行区域的匹配情况;
在所述第二文字区域与文本行区域为完全匹配的情况下,确定所述文本行区域为第二文字区域;
在所述第二文字区域与所述文本行区域为部分匹配的情况下,根据所述第二文字区域的位置,对待拆分文本行区域进行分割,获得第三文字区域,所述第三文字区域中的文字不具有所述预设文字属性,所述待拆分文本行区域为与所述第二文字区域部分匹配的文本行区域;
在所述第二文字区域与文本行区域为不匹配的情况下,确定所述文本行区域为第三文字区域。
8.根据权利要求7所述的方法,其特征在于,所述获取所述第二文字区域与所述文本行区域之间的匹配情况,包括:
对每一个所述文本行区域执行以下操作:
计算每一个所述第二文字区域与所述文本行区域之间的交并比值;
在所述第二文字区域与所述文本行区域之间的交并比值大于或等于第二设定阈值的情况下,确定所述第二文字区域与所述文本行区域为完全匹配;
在所述第二文字区域与所述文本行区域之间的交并比值大于或等于第一设定阈值,且小于第二设定阈值的情况下,确定所述第二文字区域与所述文本行区域为部分匹配;
在所述第二文字区域与所述文本行区域之间的交并比值小于第一设定阈值的情况下,确定所述第二文字区域与所述文本行区域为不匹配;其中,第一设定阈值小于第二设定阈值。
9.根据权利要求7所述的方法,其特征在于,所述根据所述第二文字区域的位置,对待拆分文本行区域进行分割,包括:
根据所述第二文字区域的位置,确定所述待拆分文本行区域的分割位置;
根据所述分割位置对所述待拆分文本行区域进行分割,获得所述第三文字区域。
10.根据权利要求9所述的方法,其特征在于,所述对待拆分文本行区域进行分割之后,还包括:
对所述待拆分文本行区域进行二值化处理,获取所述待拆分文本行区域的二值化图像;
利用所述待拆分文本行区域的二值化图像,对所述第三文字区域的边界位置进行调整,以使所述第三文字区域的边界位置卡住所述第三文字区域内文字的边缘。
11.一种图像处理装置,其特征在于,包括:
标记处理模块,被配置为对图像进行预设文字属性标记处理,获得第一文字区域;
获取模块,被配置为获取所述第一文字区域中的文字具有所述预设文字属性的可信度;
确定模块,被配置为根据所述可信度从所述第一文字区域中确定出第二文字区域,所述第二文字区域中的文字为所述预设文字属性。
12.一种电子设备,包括处理器和存储有程序指令的存储器,其特征在于,所述处理器被配置为在运行所述程序指令时,执行如权利要求1至10任一项所述的图像处理方法。
13.一种存储介质,存储有程序指令,其特征在于,所述程序指令在运行时,执行如权利要求1至10任一项所述的图像处理方法。
CN202211000541.5A 2022-08-19 2022-08-19 图像处理方法及装置、电子设备、存储介质 Pending CN115471844A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211000541.5A CN115471844A (zh) 2022-08-19 2022-08-19 图像处理方法及装置、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211000541.5A CN115471844A (zh) 2022-08-19 2022-08-19 图像处理方法及装置、电子设备、存储介质

Publications (1)

Publication Number Publication Date
CN115471844A true CN115471844A (zh) 2022-12-13

Family

ID=84366765

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211000541.5A Pending CN115471844A (zh) 2022-08-19 2022-08-19 图像处理方法及装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN115471844A (zh)

Similar Documents

Publication Publication Date Title
CN110363252B (zh) 趋向于端到端的场景文字检测与识别方法以及系统
CN110516208B (zh) 一种针对pdf文档表格提取的系统及方法
US10643094B2 (en) Method for line and word segmentation for handwritten text images
CN110569830A (zh) 多语言文本识别方法、装置、计算机设备及存储介质
US20020018071A1 (en) Method and apparatus for identification of documents, and computer product
US8838657B1 (en) Document fingerprints using block encoding of text
US20100303356A1 (en) Method for processing optical character recognition (ocr) data, wherein the output comprises visually impaired character images
CN112396049A (zh) 文本纠错方法、装置、计算机设备及存储介质
CN112041851A (zh) 一种识别文本的方法及终端设备
CN109389115B (zh) 文本识别方法、装置、存储介质和计算机设备
CN110738238B (zh) 一种证件信息的分类定位方法及装置
CN113657274B (zh) 表格生成方法、装置、电子设备及存储介质
CN112949476B (zh) 基于图卷积神经网络的文本关系检测方法、装置及存储介质
CN112560862A (zh) 文本识别方法、装置及电子设备
CN113255583B (zh) 数据标注方法、装置、计算机设备和存储介质
CN113158895A (zh) 票据识别方法、装置、电子设备及存储介质
CN115546809A (zh) 基于单元格约束的表格结构识别方法及其应用
CN112418199B (zh) 多模态信息提取方法、装置、电子设备及存储介质
CN112418206A (zh) 基于位置检测模型的图片分类方法及其相关设备
CN112364863A (zh) 证照文档的文字定位方法及系统
CN112632952A (zh) 一种对比文件的方法和装置
CN117076455A (zh) 一种基于智能识别的保单结构化存储方法、介质及系统
CN115471844A (zh) 图像处理方法及装置、电子设备、存储介质
CN110826488B (zh) 一种针对电子文档的图像识别方法、装置及存储设备
CN115100663A (zh) 文档图像中文字高度的分布情况估计方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination