CN112132141A - 字符合并方法、装置、电子设备及存储介质 - Google Patents

字符合并方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112132141A
CN112132141A CN202011027814.6A CN202011027814A CN112132141A CN 112132141 A CN112132141 A CN 112132141A CN 202011027814 A CN202011027814 A CN 202011027814A CN 112132141 A CN112132141 A CN 112132141A
Authority
CN
China
Prior art keywords
merged
areas
region
color values
regions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011027814.6A
Other languages
English (en)
Inventor
罗熹之
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing IQIYI Science and Technology Co Ltd
Original Assignee
Beijing IQIYI Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing IQIYI Science and Technology Co Ltd filed Critical Beijing IQIYI Science and Technology Co Ltd
Priority to CN202011027814.6A priority Critical patent/CN112132141A/zh
Publication of CN112132141A publication Critical patent/CN112132141A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4038Image mosaicing, e.g. composing plane images from plane sub-images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

本发明实施例提供了一种字符合并方法、装置、电子设备及存储介质。字符合并方法包括:从待处理图像中提取出单字符区域;针对每个单字符区域,分别获取所述单字符区域的图像属性特征和坐标位置;依据所述单字符区域的图像属性特征和坐标位置,将属于同一文本区域的单字符区域进行合并。本发明实施例基于单字符区域的图像属性特征和坐标位置对单字符区域进行合并后,得到的文本区域的准确度更高。

Description

字符合并方法、装置、电子设备及存储介质
技术领域
本发明涉及数据处理技术领域,特别是涉及一种字符合并方法、装置、电子设备及存储介质。
背景技术
在图像处理过程中,经常会出现对图像中的文本区域进行提取的场景。比如,在页面开发过程中,为了丰富页面的展示效果,往往会在页面中设置大量的图像。对于这些图像,需要将其转换成代码文件,以便终端能够通过运行这些代码文件,在页面中渲染出相应图像。如果这些图像中存在文本区域,则在将图像转换成代码文件时,需要将这些文本区域提取出来,单独进行转换。
现有技术中,一般通过文本检测模型从图像中提取出文本区域。但是,文本检测模型提取出的文本区域准确度较低。比如,提取出的文本区域的边缘包含较多不是文本的图像区域,或者处于边缘位置的文本未被提取至文本区域,等等。
发明内容
本发明实施例的目的在于提供一种字符合并方法、装置、电子设备及存储介质,以实现提高文本区域的准确度。具体技术方案如下:
在本发明实施的第一方面,首先提供了一种字符合并方法,包括:从待处理图像中提取出单字符区域;针对每个单字符区域,分别获取所述单字符区域的图像属性特征和坐标位置;依据所述单字符区域的图像属性特征和坐标位置,将属于同一文本区域的单字符区域进行合并。
可选地,所述依据所述单字符区域的图像属性特征和坐标位置,将属于同一文本区域的单字符区域进行合并,包括:将一个单字符区域作为一个待合并区域;重复执行如下步骤:针对每两个待合并区域,依据所述两个待合并区域的图像属性特征和坐标位置,判断所述两个待合并区域是否属于同一文本区域;在第一次判断出所述两个待合并区域属于同一文本区域时,将所述两个待合并区域合并为一个待合并区域,获取合并得到的待合并区域的图像属性特征和坐标位置;当不再继续合并时,将当前的一个待合并区域作为一个文本区域。
可选地,所述图像属性特征包括颜色值;所述依据所述两个待合并区域的图像属性特征和坐标位置,判断所述两个待合并区域是否属于同一文本区域,包括:基于所述两个待合并区域的坐标位置,判断所述两个待合并区域是否存在重叠;在存在重叠时,判断出所述两个待合并区域属于同一文本区域;在不存在重叠时,基于所述两个待合并区域的坐标位置,判断所述两个待合并区域是否位于同一行或同一列;在位于同一行或同一列时,基于所述两个待合并区域的颜色值,判断所述两个待合并区域的颜色是否相近,以及基于所述两个待合并区域的坐标位置,判断所述两个待合并区域的距离是否相近;在所述颜色和所述距离均相近时,判断出所述两个待合并区域属于同一文本区域。
可选地,在依据所述单字符区域的图像属性特征和坐标位置,将属于同一文本区域的单字符区域进行合并之前,还包括:针对每个单字符区域,分别识别所述单字符区域是否为第一类标点符号区域;所述基于所述两个待合并区域的颜色值,判断所述两个待合并区域的颜色是否相近,以及基于所述两个待合并区域的坐标位置,判断所述两个待合并区域的距离是否相近;在所述颜色和所述距离均相近时,判断出所述两个待合并区域属于同一文本区域,包括:判断所述两个待合并区域中是否存在至少一个第一类标点符号区域;若否,则基于所述两个待合并区域的颜色值,判断所述两个待合并区域的颜色是否相近,以及基于所述两个待合并区域的坐标位置,判断所述两个待合并区域的距离是否相近;在所述颜色和所述距离均相近时,判断出所述两个待合并区域属于同一文本区域;若是,则基于所述两个待合并区域的坐标位置,判断所述两个待合并区域的距离是否相近;在所述距离相近时,判断出所述两个待合并区域属于同一文本区域。
可选地,所述图像属性特征还包括宽度和高度;针对任意一个单字符区域,识别所述任意一个单字符区域是否为第一类标点符号区域,包括:从所述待处理图像中提取出对照文本区域,并获取所述对照文本区域的坐标位置和高度;基于所述任意一个单字符区域的坐标位置和所述对照文本区域的坐标位置,选取与所述任意一个单字符区域存在重叠的对照文本区域,并获取选取的对照文本区域的最大高度;如果所述任意一个单字符区域的宽度和高度均小于所述最大高度的第一预设百分比,则确定所述任意一个单字符区域为第一类标点符号区域。
可选地,在依据所述单字符区域的图像属性特征和坐标位置,将属于同一文本区域的单字符区域进行合并之前,还包括:针对每个单字符区域,分别识别所述单字符区域是否为第二类标点符号区域;所述基于所述两个待合并区域的颜色值,判断所述两个待合并区域的颜色是否相近,包括:判断所述两个待合并区域中是否存在至少一个第二类标点符号区域;若否,则选用预设的第一颜色阈值,基于所述两个待合并区域的颜色值和所述第一颜色阈值,判断所述两个待合并区域的颜色是否相近;若是,则选用预设的第二颜色阈值,基于所述两个待合并区域的颜色值和所述第二颜色阈值,判断所述两个待合并区域的颜色是否相近;所述第一颜色阈值小于所述第二颜色阈值。
可选地,所述图像属性特征还包括宽度和高度;针对任意一个单字符区域,识别所述任意一个单字符区域是否为第二类标点符号区域,包括:从所述待处理图像中提取出对照文本区域,并获取所述对照文本区域的坐标位置和高度;基于所述任意一个单字符区域的坐标位置和所述对照文本区域的坐标位置,选取与所述任意一个单字符区域存在重叠的对照文本区域,并获取选取的对照文本区域的最大高度;如果所述任意一个单字符区域的宽度或高度小于所述最大高度的第二预设百分比,则确定所述任意一个单字符区域为第二类标点符号区域。
可选地,所述颜色值包括前景颜色值和背景颜色值;针对任意一个单字符区域,获取所述任意一个单字符区域的颜色值,包括:针对所述任意一个单字符区域中的每个像素,获取所述像素的RGB颜色值;依据所述像素的RGB颜色值,对全部像素进行聚类,得到两个簇;针对每个簇,分别获取所述簇对应的RGB颜色值;将所述簇对应的RGB颜色值转换为HSV颜色值,将像素个数多的簇对应的HSV颜色值作为所述任意一个单字符区域的背景颜色值,将像素个数少的簇对应的HSV颜色值作为所述任意一个单字符区域的前景颜色值;所述基于所述两个待合并区域的颜色值,判断所述两个待合并区域的颜色是否相近,包括:基于所述两个待合并区域的背景颜色值中的色调H分量和前景颜色值中的色调H分量,判断所述两个待合并区域的颜色是否相近。
可选地,所述颜色值包括前景颜色值和背景颜色值;针对任意一个单字符区域,获取所述任意一个单字符区域的颜色值,包括:针对所述任意一个单字符区域中的每个像素,获取所述像素的RGB颜色值;依据所述像素的RGB颜色值,对全部像素进行聚类,得到两个簇;针对每个簇,分别获取所述簇对应的RGB颜色值;将像素个数多的簇对应的RGB颜色值作为所述任意一个单字符区域的背景颜色值,将像素个数少的簇对应的RGB颜色值作为所述任意一个单字符区域的前景颜色值;所述基于所述两个待合并区域的颜色值,判断所述两个待合并区域的颜色是否相近,包括:基于所述两个待合并区域的背景颜色值和前景颜色值,判断所述两个待合并区域的颜色是否相近。
在本发明实施的第二方面,还提供了一种包括:提取模块,用于从待处理图像中提取出单字符区域;获取模块,用于针对每个单字符区域,分别获取所述单字符区域的图像属性特征和坐标位置;合并模块,用于依据所述单字符区域的图像属性特征和坐标位置,将属于同一文本区域的单字符区域进行合并。
可选地,所述合并模块包括:初始化子模块,用于将一个单字符区域作为一个待合并区域;区域合并子模块,用于重复执行如下步骤:针对每两个待合并区域,依据所述两个待合并区域的图像属性特征和坐标位置,判断所述两个待合并区域是否属于同一文本区域;在第一次判断出所述两个待合并区域属于同一文本区域时,将所述两个待合并区域合并为一个待合并区域,获取合并得到的待合并区域的图像属性特征和坐标位置;区域确定子模块,用于当不再继续合并时,将当前的一个待合并区域作为一个文本区域。
可选地,所述图像属性特征包括颜色值;所述区域合并子模块包括:第一判断单元,用于基于所述两个待合并区域的坐标位置,判断所述两个待合并区域是否存在重叠;在所述第一判断单元判断出存在重叠时,判断出所述两个待合并区域属于同一文本区域;第二判断单元,用于在所述第一判断单元判断出不存在重叠时,基于所述两个待合并区域的坐标位置,判断所述两个待合并区域是否位于同一行或同一列;第三判断单元,用于在所述第二判断单元判断出位于同一行或同一列时,基于所述两个待合并区域的颜色值,判断所述两个待合并区域的颜色是否相近,以及基于所述两个待合并区域的坐标位置,判断所述两个待合并区域的距离是否相近;在所述颜色和所述距离均相近时,判断出所述两个待合并区域属于同一文本区域。
可选地,所述装置还包括:第一识别模块,用于在所述合并模块依据所述单字符区域的图像属性特征和坐标位置,将属于同一文本区域的单字符区域进行合并之前,针对每个单字符区域,分别识别所述单字符区域是否为第一类标点符号区域;所述第三判断单元,具体用于判断所述两个待合并区域中是否存在至少一个第一类标点符号区域;若否,则基于所述两个待合并区域的颜色值,判断所述两个待合并区域的颜色是否相近,以及基于所述两个待合并区域的坐标位置,判断所述两个待合并区域的距离是否相近,在所述颜色和所述距离均相近时,判断出所述两个待合并区域属于同一文本区域;若是,则基于所述两个待合并区域的坐标位置,判断所述两个待合并区域的距离是否相近,在所述距离相近时,判断出所述两个待合并区域属于同一文本区域。
可选地,所述图像属性特征还包括宽度和高度;所述第一识别模块包括:第一提取子模块,用于从所述待处理图像中提取出对照文本区域,并获取所述对照文本区域的坐标位置和高度;第一获取子模块,用于基于所述任意一个单字符区域的坐标位置和所述对照文本区域的坐标位置,选取与所述任意一个单字符区域存在重叠的对照文本区域,并获取选取的对照文本区域的最大高度;第一比较子模块,用于如果所述任意一个单字符区域的宽度和高度均小于所述最大高度的第一预设百分比,则确定所述任意一个单字符区域为第一类标点符号区域。
可选地,所述装置还包括:第二识别模块,用于在所述合并模块依据所述单字符区域的图像属性特征和坐标位置,将属于同一文本区域的单字符区域进行合并之前,针对每个单字符区域,分别识别所述单字符区域是否为第二类标点符号区域;所述第三判断单元在基于所述两个待合并区域的颜色值,判断所述两个待合并区域的颜色是否相近时,具体用于判断所述两个待合并区域中是否存在至少一个第二类标点符号区域;若否,则选用预设的第一颜色阈值,基于所述两个待合并区域的颜色值和所述第一颜色阈值,判断所述两个待合并区域的颜色是否相近;若是,则选用预设的第二颜色阈值,基于所述两个待合并区域的颜色值和所述第二颜色阈值,判断所述两个待合并区域的颜色是否相近;所述第一颜色阈值小于所述第二颜色阈值。
可选地,所述图像属性特征还包括宽度和高度;所述第二识别模块包括:第二提取子模块,用于从所述待处理图像中提取出对照文本区域,并获取所述对照文本区域的坐标位置和高度;第二获取子模块,用于基于所述任意一个单字符区域的坐标位置和所述对照文本区域的坐标位置,选取与所述任意一个单字符区域存在重叠的对照文本区域,并获取选取的对照文本区域的最大高度;第二比较子模块,用于如果所述任意一个单字符区域的宽度或高度小于所述最大高度的第二预设百分比,则确定所述任意一个单字符区域为第二类标点符号区域。
可选地,所述颜色值包括前景颜色值和背景颜色值;所述获取模块包括:第一颜色获取子模块,用于针对所述任意一个单字符区域中的每个像素,获取所述像素的RGB颜色值;聚类子模块,用于依据所述像素的RGB颜色值,对全部像素进行聚类,得到两个簇;第二颜色获取子模块,用于针对每个簇,分别获取所述簇对应的RGB颜色值;第一颜色确定子模块,用于将所述簇对应的RGB颜色值转换为HSV颜色值,将像素个数多的簇对应的HSV颜色值作为所述任意一个单字符区域的背景颜色值,将像素个数少的簇对应的HSV颜色值作为所述任意一个单字符区域的前景颜色值;所述第三判断单元在基于所述两个待合并区域的颜色值,判断所述两个待合并区域的颜色是否相近时,具体用于基于所述两个待合并区域的背景颜色值中的色调H分量和前景颜色值中的色调H分量,判断所述两个待合并区域的颜色是否相近。
可选地,所述颜色值包括前景颜色值和背景颜色值;所述获取模块包括:第一颜色获取子模块,用于针对所述任意一个单字符区域中的每个像素,获取所述像素的RGB颜色值;聚类子模块,用于依据所述像素的RGB颜色值,对全部像素进行聚类,得到两个簇;第二颜色获取子模块,用于针对每个簇,分别获取所述簇对应的RGB颜色值;第二颜色确定子模块,用于将像素个数多的簇对应的RGB颜色值作为所述任意一个单字符区域的背景颜色值,将像素个数少的簇对应的RGB颜色值作为所述任意一个单字符区域的前景颜色值;所述第三判断单元在基于所述两个待合并区域的颜色值,判断所述两个待合并区域的颜色是否相近时,具体用于基于所述两个待合并区域的背景颜色值和前景颜色值,判断所述两个待合并区域的颜色是否相近。
在本发明实施的又一方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现上述任一所述的字符合并方法。
在本发明实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机实现上述任一所述的字符合并方法。
在本发明实施的又一方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机实现上述任一所述的字符合并方法。
本发明实施例提供的字符合并方法、装置、电子设备及存储介质,从待处理图像中提取出单字符区域;针对每个单字符区域,分别获取所述单字符区域的图像属性特征和坐标位置;依据所述单字符区域的图像属性特征和坐标位置,将属于同一文本区域的单字符区域进行合并。由于提取出的单字符区域不会出现边缘包含较多不是文本的图像区域,或者边缘的文本未被提取至文本区域等情况,因此,基于单字符区域的图像属性特征和坐标位置对单字符区域进行合并后,得到的文本区域的准确度更高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例中的一种字符合并方法的步骤流程图。
图2为本发明实施例中的另一种字符合并方法的步骤流程图。
图3为本发明实施例中的再一种字符合并方法的步骤流程图。
图4为本发明实施例中的一种提取文本区域的效果图。
图5为本发明实施例中的一种提取单字符区域的效果图。
图6为本发明实施例中的一种字符合并后的效果图。
图7为本发明实施例中的另一种提取文本区域的效果图。
图8为本发明实施例中的另一种提取单字符区域的效果图。
图9为本发明实施例中的另一种字符合并后的效果图。
图10为本发明实施例中的一种字符合并装置的结构框图。
图11为本发明实施例中的另一种字符合并装置的结构框图。
图12为本发明实施例中的一种电子设备的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
针对现有技术中通过文本检测模型从图像中提取出的文本区域准确度较低的问题,本发明实施例中提出先从图像中提取出单字符区域,然后再根据单字符区域的图像属性特征和坐标位置,对单字符区域进行合并得到文本区域。由于提取单字符区域相对于提取整个文本区域来说,准确度更高,因此由单字符区域合并得到的文本区域相对于直接提取出的文本区域来说,准确度更高。
本发明实施例可以应用于任意具有图像处理能力的电子设备。该电子设备可以是终端或者服务器,其中,终端可以为智能手机、平板电脑、可穿戴设备、个人计算机等。
图1为本发明实施例中的一种字符合并方法的步骤流程图。
如图1所示,字符合并方法可以包括以下步骤:
步骤101,从待处理图像中提取出单字符区域。
待处理图像可以为任意一种需要提取文本区域的图像。比如,对于页面中包含的图像来说,这些图像要被转换成代码文件,需要提取出图像中的文本区域单独进行转换,因此页面中包含的图像可以作为待处理图像。
对待处理图像进行图像分割,可以从待处理图像中提取出各个单字符区域。单字符区域中可以包括文字、字母、标点符号、数字,等等。
步骤102,针对每个单字符区域,分别获取所述单字符区域的图像属性特征和坐标位置。
单字符区域的图像属性特征可以包括单字符区域的颜色值、宽度、高度,等等。单字符区域的坐标位置可以包括区域的四个顶点的横坐标和纵坐标。
步骤103,依据所述单字符区域的图像属性特征和坐标位置,将属于同一文本区域的单字符区域进行合并。
依据单字符区域的图像属性特征和坐标位置,可以识别出不同的单字符区域是否属于同一文本区域,将属于同一文本区域的单字符区域进行合并,即可得到待处理图像中的文本区域。
本发明实施例中,由于提取出的单字符区域不会出现边缘包含较多不是文本的图像区域,或者边缘的文本未被提取至文本区域等情况,因此,基于单字符区域的图像属性特征和坐标位置对单字符区域进行合并后,得到的文本区域的准确度更高。
图2为本发明实施例中的另一种字符合并方法的步骤流程图。
如图2所示,字符合并方法可以包括以下步骤:
步骤201,从待处理图像中提取出单字符区域。
对待处理图像进行字符分割处理,可以从待处理图像中提取出多个单字符区域。
在一种可选实施方式中,可以采用如下方式从待处理图像中提取出单字符区域:将待处理图像转换为灰度图像;利用边缘检测算法将所述灰度图像转换为二值化图像;利用投影法从所述二值化图像中获取字符框;基于所述字符框,确定单字符区域。
待处理图像可以是RGB(Red、Green、Blue,红、绿、蓝)格式,可以通过浮点算法、整数方法、移位方法、平均值法等多种方式确定待处理图像中各个像素点的灰度值,利用该灰度值代替像素点中红绿蓝三通道的像素值,从而得到灰度图像。
边缘检测算法可以采用Canny算子、Roberts算子、Sobel算子、Kirsh算子等算法。比如,基于canny边缘检测算法将所述灰度图像转换为二值化图像的过程可以包括:1、对所述灰度图像进行高斯滤波。高斯滤波的实现可以用两个一维高斯核分别两次加权实现,也可以通过一个二维高斯核一次卷积实现。对灰度图像进行高斯滤波,可以有效滤去灰度图像中叠加的高频噪声。2、利用一阶偏导的有限差分计算梯度幅值和方向。关于图像灰度值的梯度可使用一阶有限差分来进行近似,从而得到灰度图像在x和y方向上的一阶偏导数矩阵、梯度幅值矩阵以及梯度方向矩阵。3、根据所述梯度幅值进行非极大值抑制处理。非极大值抑制通俗意义上是指寻找像素点局部最大值,将非极大值点所对应的灰度值置为0,这样可以剔除掉一大部分非边缘的点。4、用双阈值算法检测和连接边缘。双阈值算法设置一个高阈值和一个低阈值,通过高阈值可以减少图像中的伪边缘,通过低阈值可以使得图像中的边缘闭合。最终即可得到所述二值化图像。
投影法是通过对二值化图像的像素点的分布直方图进行分析,从而找出相邻字符框的分界点并据此进行分割。投影法可以包括垂直投影和水平投影。比如对于垂直投影,基于垂直投影图中投影值为0的投影位置而确定各个字符框。
在得到字符框后,可以利用轮廓检测算法检测出所述字符框中的字符轮廓,然后由所述字符框中的字符轮廓的最小外接矩形区域确定单字符区域。
步骤202,针对每个单字符区域,分别获取所述单字符区域的图像属性特征和坐标位置。
图像属性特征可以包括颜色值、宽度、高度,等等。
在从待处理图像中提取出单字符区域后,即可得到每个单字符区域的坐标位置,坐标位置可以包括单字符区域的四个顶点的坐标位置。根据单字符区域的坐标位置可以得到单字符区域的宽度和高度。
对于颜色值这一图像属性特征,本发明实施例采用了对单字符区域进行主成分颜色分析,可以提取出前景颜色值和背景颜色值两个主成分颜色。
在一种可选实施方式中,针对任意一个单字符区域,获取所述任意一个单字符区域的颜色值的过程,可以包括以下步骤A1~A4:
步骤A1,针对所述任意一个单字符区域中的每个像素,获取所述像素的RGB颜色值。
步骤A2,依据所述像素的RGB颜色值,对全部像素进行聚类,得到两个簇。
单字符区域中的每个像素,都具有各自对应的RGB颜色值。针对一个单字符区域,依据该单字符区域中的像素的RGB颜色值,对该单字符区域中的全部像素进行聚类,得到两个簇。
在一种可选实施方式中,可以采用K-means聚类。聚类过程可以包括:1、将k值设为2,从该单字符区域中的全部像素中随机选取2个像素作为初始质心。2、对于除质心之外的其他像素,计算每个其他像素与初始质心之间的距离(在实现中可以依据RGB颜色值计算距离),将各个其他像素分配到距离最近的质心所在的簇。3、重新计算2个簇的质心。4、重复执行步骤2和3,直至簇不发生变化,将最后得到的2个簇作为结果。
步骤A3,针对每个簇,分别获取所述簇对应的RGB颜色值。
针对每个簇,可以将该簇的质心(也即像素)的RGB颜色值,作为该簇对应的RGB颜色值。也可以计算该簇中全部像素的RGB颜色值的平均值,将该平均值作为该簇对应的RGB颜色值。
步骤A4,将像素个数多的簇对应的RGB颜色值作为所述任意一个单字符区域的背景颜色值,将像素个数少的簇对应的RGB颜色值作为所述任意一个单字符区域的前景颜色值。
对于单字符区域来说,字符部分占用的像素较少,背景部分占用的像素较多,因此可以将像素个数多的簇对应的RGB颜色值作为单字符区域的背景颜色值,将像素个数少的簇对应的RGB颜色值作为单字符区域的前景颜色值。因此在比较颜色时,可以基于RGB颜色值进行比较。
在另一种可选实施方式中,针对任意一个单字符区域,获取所述任意一个单字符区域的颜色值的过程,可以包括以下步骤B1~B4:
步骤B1,针对所述任意一个单字符区域中的每个像素,获取所述像素的RGB颜色值。
步骤B2,依据所述像素的RGB颜色值,对全部像素进行聚类,得到两个簇。
步骤B3,针对每个簇,分别获取所述簇对应的RGB颜色值。
对于步骤B1~B3的具体过程,参照上述步骤A1~A3的相关描述即可。
步骤B4,将所述簇对应的RGB颜色值转换为HSV颜色值,将像素个数多的簇对应的HSV颜色值作为所述任意一个单字符区域的背景颜色值,将像素个数少的簇对应的HSV颜色值作为所述任意一个单字符区域的前景颜色值。
在将RGB颜色值转换为HSV颜色值时,可以利用RGB转HSV的转换公式进行转换。对于具体的转换过程,本发明实施例在此不再详细论述。
该种实施方式中,将RGB颜色值进一步转换为HSV(Hue、Saturation、Value,色调、饱和度、明度)颜色值。由于HSV颜色值的H分量代表色调,因此在比较颜色时,可以基于HSV颜色值的H分量进行比较,相比于基于RGB颜色值进行比较的方式,处理过程更加简便。
获取到每个单字符区域的图像属性特征和坐标位置后,依据单字符区域的图像属性特征和坐标位置,将属于同一文本区域的单字符区域进行合并。合并过程可以包括以下步骤203~206。
步骤203,将一个单字符区域作为一个待合并区域。
步骤204,针对每两个待合并区域,依据所述两个待合并区域的图像属性特征和坐标位置,判断所述两个待合并区域是否属于同一文本区域。
遍历全部的待合并区域,针对每两个待合并区域分别进行判断。本发明实施例中,以对任意两个待合并区域进行判断为例说明。
在一种可选实施方式中,依据所述两个待合并区域的图像属性特征和坐标位置,判断所述两个待合并区域是否属于同一文本区域的过程,可以包括以下步骤C1~C5:
步骤C1,基于所述两个待合并区域的坐标位置,判断所述两个待合并区域是否存在重叠。若是,则执行步骤C4;若否,则执行步骤C2。
待合并区域的坐标位置为四个顶点的横坐标和纵坐标。基于两个待合并区域的坐标位置,判断这两个待合并区域是否存在重叠。比如,可以判断其中一个待合并区域的至少一个横坐标,是否位于另一个待合并区域中两个不同的横坐标之间;若是,则确定这两个待合并区域存在重叠;若否,则确定这两个待合并区域不存在重叠。
步骤C2,在不存在重叠时,基于所述两个待合并区域的坐标位置,判断所述两个待合并区域是否位于同一行或同一列。若是,则执行步骤C3;若否,则执行步骤C5。
基于两个待合并区域的坐标位置,判断这两个待合并区域是否位于同一行或同一列。比如,获取这两个待合并区域在y轴方向上重叠的高度,如果重叠的高度大于预设的高度阈值,则确定这两个待合并区域位于同一行;否则,确定这两个待合并区域没有位于同一行。获取这两个待合并区域在x轴方向上重叠的宽度,如果重叠的宽度大于预设的宽度阈值,则确定这两个待合并区域位于同一列;否则,确定这两个待合并区域没有位于同一列。
对于高度阈值和宽度阈值的具体数值,可以根据实际经验选用任意适用的数值,本发明实施例对此不做限制。比如,可以选取两个待合并区域中的最小高度,采用该最小高度的预设百分比作为高度阈值。可以选取两个待合并区域中的最小宽度,采用该最小宽度的预设百分比作为宽度阈值。该预设百分比可以选用90%、80%等,但原则上不能与最小高度或最小宽度差太多。
步骤C3,在位于同一行或同一列时,基于所述两个待合并区域的颜色值,判断所述两个待合并区域的颜色是否相近,以及基于所述两个待合并区域的坐标位置,判断所述两个待合并区域的距离是否相近。在所述颜色和所述距离均相近时,执行步骤C4;在所述颜色和所述距离中的至少一个不相近时,执行步骤C5。
基于两个待合并区域的颜色值,判断这两个待合并区域的颜色是否相近。
在一种可选实施方式中,如果按照上述步骤A1~A4的过程获取单字符区域的颜色值,则单字符区域的前景颜色值和背景颜色值均为RGB颜色值。因此,基于所述两个待合并区域的颜色值,判断所述两个待合并区域的颜色是否相近的过程,包括:基于所述两个待合并区域的背景颜色值和前景颜色值,判断所述两个待合并区域的颜色是否相近。在实现中,可以计算两个待合并区域的前景颜色值之间的距离,以及两个待合并区域的背景颜色值之间的距离。如果两个待合并区域的前景颜色值之间的距离和背景颜色值之间的距离均小于预设的RGB颜色阈值,则确定两个待合并区域的颜色相近;否则,确定两个待合并区域的颜色不相近。对于RGB颜色值来说,距离可以通过计算RGB颜色值的三维欧几里得距离、曼哈顿距离、切比雪夫距离等方式得到。对于RGB颜色阈值的具体数值,可以根据实际经验选用任意适用的数值,本发明实施例对此不做限制。
在另一种可选实施方式中,如果按照上述步骤B1~B4的过程获取单字符区域的颜色值,则单字符区域的前景颜色值和背景颜色值均为HSV颜色值。因此,基于所述两个待合并区域的颜色值,判断所述两个待合并区域的颜色是否相近的过程,包括:基于所述两个待合并区域的背景颜色值中的H分量和前景颜色值中的H分量,判断所述两个待合并区域的颜色是否相近。在实现中,可以计算两个待合并区域的背景颜色值中的H分量之间的距离,以及两个待合并区域的前景颜色值中的H分量之间的距离。如果两个待合并区域的前景颜色值中的H分量之间的距离和背景颜色值中的H分量之间的距离均小于预设的H分量颜色阈值,则确定两个待合并区域的颜色相近;否则,确定两个待合并区域的颜色不相近。对于HSV颜色值中的H分量来说,距离可以通过计算H分量的差值得到。对于H分量颜色阈值的具体数值,可以根据实际经验选用任意适用的数值,本发明实施例对此不做限制。
基于两个待合并区域的坐标位置,判断这两个待合并区域的距离是否相近。
如果两个待合并区域位于同一行,则基于所述两个待合并区域的坐标位置,判断这两个待合并区域的横向距离是否相近。比如,分别计算其中一个待合并区域的各横坐标与另一个待合并区域的各横坐标之间的距离,选取计算出的最小距离作为这两个待合并区域的横向距离。如果横向距离小于预设的横向距离阈值,则可以确定这两个待合并区域的横向距离相近;否则,确定这两个待合并区域的横向距离不相近。
如果两个待合并区域位于同一列,则基于所述两个待合并区域的坐标位置,判断这两个待合并区域的纵向距离是否相近。比如,分别计算其中一个待合并区域的各纵坐标与另一个待合并区域的各纵坐标之间的距离,选取计算出的最小距离作为这两个待合并区域的纵向距离。如果纵向距离小于预设的纵向距离阈值,则可以确定这两个待合并区域的纵向距离相近;否则,确定这两个待合并区域的纵向距离不相近。
对于横向距离阈值与纵向距离阈值的具体数值,可以根据实际经验选用任意适用的数值,本发明实施例对此不做限制。比如,考虑到单字符区域基本为矩形区域,正常排版字符与字符之间不会间距一个字号。因此,可以选取两个待合并区域中的最大高度,采用该最大高度的预设百分比作为横向距离阈值;或者选取两个待合并区域中的最大宽度,采用该最大宽度的预设百分比作为横向距离阈值。可以选取两个待合并区域中的最大高度,采用该最大高度的预设百分比作为纵向距离阈值;或者选取两个待合并区域中的最大宽度,采用该最大宽度的预设百分比作为纵向距离阈值。该预设百分比可以选用90%、80%、70%等,但原则不能与最大高度或最大宽度差太多。
需要说明的是,对于上述颜色和距离的判断顺序,可以先判断颜色,再判断距离,也可以先判断距离,再判断颜色,本发明实施例对此不做限制。
步骤C4,判断出所述两个待合并区域属于同一文本区域。
步骤C5,判断出所述两个待合并区域不属于同一文本区域。
步骤205,在第一次判断出所述两个待合并区域属于同一文本区域时,将所述两个待合并区域合并为一个待合并区域,获取合并得到的待合并区域的图像属性特征和坐标位置。并返回步骤204。
在步骤204中第一次判断出其中两个待合并区域属于同一文本区域时,将属于同一文本区域的两个待合并区域合并为一个待合并区域,此时不再继续判断其他的待合并区域是否属于同一文本区域,并且对于合并得到的待合并区域,获取该合并得到的待合并区域的图像属性特征和坐标位置,之后返回步骤204重新遍历。
在获取合并得到的待合并区域的图像属性特征和坐标位置时,依据该合并得到的待合并区域中包含的属于同一文本区域的两个待合并区域的坐标位置,可以得到该合并得到的待合并区域的坐标位置、宽度和高度。对于合并得到的待合并区域的颜色值,可以按照上述步骤202中描述的颜色值的获取方法得到,具体参照上面的相关描述即可。
步骤206,在没有判断出所述两个待合并区域属于同一文本区域时,确定不再继续合并,将当前的一个待合并区域作为一个文本区域。
在步骤204中没有判断出属于同一文本区域的两个待合并区域后,也即任意两个待合并区域均不属于同一文本区域,则确定不再继续合并,此时将当前的一个待合并区域作为一个文本区域。从而实现了将属于同一文本区域的单字符区域进行合并,得到待处理图像中的文本区域。
图3为本发明实施例中的再一种字符合并方法的步骤流程图。
如图3所示,字符合并方法可以包括以下步骤:
步骤301,获取待处理图像。
步骤302,从待处理图像中提取出单字符区域。
步骤303,获取每个单字符区域的坐标位置、宽度、高度。
步骤304,从待处理图像中提取出对照文本区域。
步骤305,获取每个对照文本区域的坐标位置、宽度、高度。
在一种可选实施方式中,可以利用文本检测模型从待处理图像中提取出对照文本区域。比如,可以选用EAST(Efficient and Accuracy Scene Text,高效准确的场景文本)、CTPN(Detecting Text in Natural Image with Connectionist Text ProposalNetwork,基于连接预选框网络的文本检测)、SegLink等文本检测模型对待处理图像进行文本检测,从待处理图像中提取出至少一个对照文本区域。
在从待处理图像中提取出对照文本区域后,即可得到每个对照文本区域的坐标位置,坐标位置可以包括对照文本区域的四个顶点的坐标位置。根据对照文本区域的坐标位置可以得到对照文本区域的宽度和高度。
步骤306,获取每个单字符区域的RGB颜色值。
步骤307,对每个单字符区域中的像素聚类,得到两个簇。
步骤308,获取每个单字符区域的两个簇对应的RGB颜色值。
步骤309,将RGB颜色值转换为HSV颜色值,得到每个单字符区域的前景颜色值和背景颜色值。
将像素个数多的簇对应的HSV颜色值作为所述任意一个单字符区域的背景颜色值,将像素个数少的簇对应的HSV颜色值作为所述任意一个单字符区域的前景颜色值。
步骤310,选取与单字符区域存在重叠的对照文本区域,获取选取的对照文本区域的最大高度。
步骤311,如果单字符区域的宽度和高度均小于最大高度的第一预设百分比,则确定单字符区域为第一类标点符号区域。
步骤312,如果单字符区域的宽度或高度小于最大高度的第二预设百分比,则确定单字符区域为第二类标点符号区域。
本发明实施例中,在依据所述单字符区域的图像属性特征和坐标位置,将属于同一文本区域的单字符区域进行合并之前,还包括:针对每个单字符区域,分别识别所述单字符区域是否为第一类标点符号区域。针对任意一个单字符区域,识别所述任意一个单字符区域是否为第一类标点符号区域的过程,包括:从所述待处理图像中提取出对照文本区域,并获取所述对照文本区域的坐标位置和高度;基于所述任意一个单字符区域的坐标位置和所述对照文本区域的坐标位置,选取与所述任意一个单字符区域存在重叠的对照文本区域,并获取选取的对照文本区域的最大高度;如果所述任意一个单字符区域的宽度和高度均小于所述最大高度的第一预设百分比,则确定所述任意一个单字符区域为第一类标点符号区域。
在依据所述单字符区域的图像属性特征和坐标位置,将属于同一文本区域的单字符区域进行合并之前,还包括:针对每个单字符区域,分别识别所述单字符区域是否为第二类标点符号区域。针对任意一个单字符区域,识别所述任意一个单字符区域是否为第二类标点符号区域的过程,包括:从所述待处理图像中提取出对照文本区域,并获取所述对照文本区域的坐标位置和高度;基于所述任意一个单字符区域的坐标位置和所述对照文本区域的坐标位置,选取与所述任意一个单字符区域存在重叠的对照文本区域,并获取选取的对照文本区域的最大高度;如果所述任意一个单字符区域的宽度或高度小于所述最大高度的第二预设百分比,则确定所述任意一个单字符区域为第二类标点符号区域。
其中,第一预设百分比小于第二预设百分比。对于第一预设百分比和第二预设百分比的具体数值,可以根据实际经验选用任意适用的数值。比如,第一类标点符号为小标点符号(小标点符号比如包括逗号、句号、顿号等),第二类标点符号为正常标点符号(正常标点符号比如包括小括号、尖括号等)。根据小标点符号与正常文字之间的比例的经验值设置第一预设百分比,比如设置第一预设百分比为15%、20%、25%等。根据正常标点符号与正常文字之间的比例的经验值设置第二预设百分比,比如设置第二预设百分比为30%、35%等。
步骤313,获取单字符区域的图像属性特征和坐标位置,将一个单字符区域作为一个待合并区域。图像属性特征可以包括宽度、高度、颜色值、是否为标点符号(具体为哪类标点符号)。
步骤314,遍历全部待合并区域。
遍历过程中,针对每两个待合并区域进行以下处理。
步骤315,两个待合并区域是否存在重叠。若是,则执行步骤320;若否,则执行步骤316。
步骤316,两个待合并区域是否位于同一行或同一列。若是,则执行步骤317;若否,则执行步骤321。
步骤317,两个待合并区域中是否存在至少一个第一类标点符号区域。若是,则执行步骤319;若否,则执行步骤318。
步骤318,两个待合并区域的颜色是否相近。若是,则执行步骤319;若否,则执行步骤321。
在一种可选实施方式中,判断两个待合并区域的颜色是否相近,可以包括:判断所述两个待合并区域中是否存在至少一个第二类标点符号区域;若否,则选用预设的第一颜色阈值,基于所述两个待合并区域的颜色值和所述第一颜色阈值,判断所述两个待合并区域的颜色是否相近;若是,则选用预设的第二颜色阈值,基于所述两个待合并区域的颜色值和所述第二颜色阈值,判断所述两个待合并区域的颜色是否相近。其中,第一颜色阈值小于第二颜色阈值。
本发明实施例中,由于前景颜色值和背景颜色值均为HSV颜色值,因此计算两个待合并区域的背景颜色值中的H分量之间的距离,以及两个待合并区域的前景颜色值中的H分量之间的距离。如果两个待合并区域中不存在第二类标点符号区域,则颜色值要相差较小,因此选用第一颜色阈值(比如选用50、60等)。如果两个待合并区域的前景颜色值中的H分量之间的距离和背景颜色值中的H分量之间的距离均小于第一颜色阈值,则确定两个待合并区域的颜色相近;否则,确定两个待合并区域的颜色不相近。如果两个待合并区域中存在至少一个第二类标点符号区域,则由于标点符号的面积小,结合上字符渲染机制,会带来较大误差,因此颜色值的比较阈值可以适当增大一些,选用第二颜色阈值(比如选用150、160等)。如果两个待合并区域的前景颜色值中的H分量之间的距离和背景颜色值中的H分量之间的距离均小于第二颜色阈值,则确定两个待合并区域的颜色相近;否则,确定两个待合并区域的颜色不相近。
步骤319,两个待合并区域的距离是否相近。若是,则执行步骤320;若否,则执行步骤321。
步骤320,确定两个待合并区域属于同一文本区域,合并两个待合并区域。
当第一次判断出其中两个待合并区域属于同一文本区域后,合并这两个待合并区域,并获取合并得到的待合并区域的图像属性特征和坐标位置,然后返回步骤314重新遍历。
步骤321,确定两个待合并区域不属于同一文本区域。
步骤322,是否遍历完。若是,则结束;若否,则返回步骤315。
在遍历完全部待合并区域后,如果任意两个待合并区域均不属于同一文本区域,则确定不再继续合并,此时将当前的一个待合并区域作为一个文本区域。
本发明实施例中,提出了一系列合并单字符区域的原则,比如颜色、位置、大小、标点符号的判断。通过对颜色值进行二分类,得到前景色和背景色,为颜色判断提供了基础。通过引入文本检测模型,为标点符号的判断提供了统一的第三方标准。通过单字符区域合并得到的文本区域,相比于直接提取出的文本区域更加准确,为后续代码转换提供了准确的信息,保证了代码的可用度。
图4为本发明实施例中的一种提取文本区域的效果图。图7为本发明实施例中的另一种提取文本区域的效果图。由图4和图7可以看出,提取出的文本区域中,存在某些处于边缘位置的文本未被提取至文本区域中,某些不应该被提取为文本区域的地方被提取成文本区域,某些应该被提取为文本区域的地方未被提取成文本区域等情况。
图5为本发明实施例中的一种提取单字符区域的效果图。图8为本发明实施例中的另一种提取单字符区域的效果图。由图5和图8可以看出,提取出的单字符区域中,更加准确地框选出每个单字符。
图6为本发明实施例中的一种字符合并后的效果图。图9为本发明实施例中的另一种字符合并后的效果图。由图6和图9可以看出,由单字符区域合并得到的文本区域,不存在处于边缘位置的文本未在文本区域中,或者文本区域的边缘包含不是文本的区域等情况,合并效果更好。
图10为本发明实施例中的一种字符合并装置的结构框图。
如图10所示,字符合并装置可以包括以下模块:
提取模块1001,用于从待处理图像中提取出单字符区域;
获取模块1002,用于针对每个单字符区域,分别获取所述单字符区域的图像属性特征和坐标位置;
合并模块1003,用于依据所述单字符区域的图像属性特征和坐标位置,将属于同一文本区域的单字符区域进行合并。
图11为本发明实施例中的另一种字符合并装置的结构框图。
如图11所示,字符合并装置可以包括以下模块:
提取模块111,用于从待处理图像中提取出单字符区域;
获取模块112,用于针对每个单字符区域,分别获取所述单字符区域的图像属性特征和坐标位置;
合并模块113,用于依据所述单字符区域的图像属性特征和坐标位置,将属于同一文本区域的单字符区域进行合并。
可选地,所述合并模块113包括:初始化子模块1131,用于将一个单字符区域作为一个待合并区域;区域合并子模块1132,用于重复执行如下步骤:针对每两个待合并区域,依据所述两个待合并区域的图像属性特征和坐标位置,判断所述两个待合并区域是否属于同一文本区域;在第一次判断出所述两个待合并区域属于同一文本区域时,将所述两个待合并区域合并为一个待合并区域,获取合并得到的待合并区域的图像属性特征和坐标位置;区域确定子模块1133,用于当不再继续合并时,将当前的一个待合并区域作为一个文本区域。
可选地,所述图像属性特征包括颜色值;所述区域合并子模块1132包括:第一判断单元11321,用于基于所述两个待合并区域的坐标位置,判断所述两个待合并区域是否存在重叠;在所述第一判断单元判断出存在重叠时,判断出所述两个待合并区域属于同一文本区域;第二判断单元11322,用于在所述第一判断单元判断出不存在重叠时,基于所述两个待合并区域的坐标位置,判断所述两个待合并区域是否位于同一行或同一列;第三判断单元11323,用于在所述第二判断单元判断出位于同一行或同一列时,基于所述两个待合并区域的颜色值,判断所述两个待合并区域的颜色是否相近,以及基于所述两个待合并区域的坐标位置,判断所述两个待合并区域的距离是否相近;在所述颜色和所述距离均相近时,判断出所述两个待合并区域属于同一文本区域。
可选地,所述装置还包括:第一识别模块114,用于在所述合并模块依据所述单字符区域的图像属性特征和坐标位置,将属于同一文本区域的单字符区域进行合并之前,针对每个单字符区域,分别识别所述单字符区域是否为第一类标点符号区域;所述第三判断单元11323,具体用于判断所述两个待合并区域中是否存在至少一个第一类标点符号区域;若否,则基于所述两个待合并区域的颜色值,判断所述两个待合并区域的颜色是否相近,以及基于所述两个待合并区域的坐标位置,判断所述两个待合并区域的距离是否相近,在所述颜色和所述距离均相近时,判断出所述两个待合并区域属于同一文本区域;若是,则基于所述两个待合并区域的坐标位置,判断所述两个待合并区域的距离是否相近,在所述距离相近时,判断出所述两个待合并区域属于同一文本区域。
可选地,所述图像属性特征还包括宽度和高度;所述第一识别模块114包括:第一提取子模块1141,用于从所述待处理图像中提取出对照文本区域,并获取所述对照文本区域的坐标位置和高度;第一获取子模块1142,用于基于所述任意一个单字符区域的坐标位置和所述对照文本区域的坐标位置,选取与所述任意一个单字符区域存在重叠的对照文本区域,并获取选取的对照文本区域的最大高度;第一比较子模块1143,用于如果所述任意一个单字符区域的宽度和高度均小于所述最大高度的第一预设百分比,则确定所述任意一个单字符区域为第一类标点符号区域。
可选地,所述装置还包括:第二识别模块115,用于在所述合并模块依据所述单字符区域的图像属性特征和坐标位置,将属于同一文本区域的单字符区域进行合并之前,针对每个单字符区域,分别识别所述单字符区域是否为第二类标点符号区域;所述第三判断单元11323在基于所述两个待合并区域的颜色值,判断所述两个待合并区域的颜色是否相近时,具体用于判断所述两个待合并区域中是否存在至少一个第二类标点符号区域;若否,则选用预设的第一颜色阈值,基于所述两个待合并区域的颜色值和所述第一颜色阈值,判断所述两个待合并区域的颜色是否相近;若是,则选用预设的第二颜色阈值,基于所述两个待合并区域的颜色值和所述第二颜色阈值,判断所述两个待合并区域的颜色是否相近;所述第一颜色阈值小于所述第二颜色阈值。
可选地,所述图像属性特征还包括宽度和高度;所述第二识别模块115包括:第二提取子模块1151,用于从所述待处理图像中提取出对照文本区域,并获取所述对照文本区域的坐标位置和高度;第二获取子模块1152,用于基于所述任意一个单字符区域的坐标位置和所述对照文本区域的坐标位置,选取与所述任意一个单字符区域存在重叠的对照文本区域,并获取选取的对照文本区域的最大高度;第二比较子模块1153,用于如果所述任意一个单字符区域的宽度或高度小于所述最大高度的第二预设百分比,则确定所述任意一个单字符区域为第二类标点符号区域。
可选地,所述颜色值包括前景颜色值和背景颜色值;所述获取模块112包括:第一颜色获取子模块1121,用于针对所述任意一个单字符区域中的每个像素,获取所述像素的RGB颜色值;聚类子模块1122,用于依据所述像素的RGB颜色值,对全部像素进行聚类,得到两个簇;第二颜色获取子模块1123,用于针对每个簇,分别获取所述簇对应的RGB颜色值;第一颜色确定子模块1124,用于将所述簇对应的RGB颜色值转换为HSV颜色值,将像素个数多的簇对应的HSV颜色值作为所述任意一个单字符区域的背景颜色值,将像素个数少的簇对应的HSV颜色值作为所述任意一个单字符区域的前景颜色值;所述第三判断单元11323在基于所述两个待合并区域的颜色值,判断所述两个待合并区域的颜色是否相近时,具体用于基于所述两个待合并区域的背景颜色值中的色调H分量和前景颜色值中的色调H分量,判断所述两个待合并区域的颜色是否相近。
可选地,所述颜色值包括前景颜色值和背景颜色值;所述获取模块112包括:第一颜色获取子模块1121,用于针对所述任意一个单字符区域中的每个像素,获取所述像素的RGB颜色值;聚类子模块1122,用于依据所述像素的RGB颜色值,对全部像素进行聚类,得到两个簇;第二颜色获取子模块1123,用于针对每个簇,分别获取所述簇对应的RGB颜色值;第二颜色确定子模块1125,用于将像素个数多的簇对应的RGB颜色值作为所述任意一个单字符区域的背景颜色值,将像素个数少的簇对应的RGB颜色值作为所述任意一个单字符区域的前景颜色值;所述第三判断单元11323在基于所述两个待合并区域的颜色值,判断所述两个待合并区域的颜色是否相近时,具体用于基于所述两个待合并区域的背景颜色值和前景颜色值,判断所述两个待合并区域的颜色是否相近。
本发明实施例中,基于单字符区域的图像属性特征和坐标位置对单字符区域进行合并后,得到的文本区域的准确度更高。
本发明实施例还提供了一种电子设备,如图12所示,包括处理器121、通信接口122、存储器123和通信总线124,其中,处理器121,通信接口122,存储器123通过通信总线124完成相互间的通信。
存储器123,用于存放计算机程序;
处理器121,用于执行存储器123上所存放的程序时,实现如下步骤:
从待处理图像中提取出单字符区域;
针对每个单字符区域,分别获取所述单字符区域的图像属性特征和坐标位置;
依据所述单字符区域的图像属性特征和坐标位置,将属于同一文本区域的单字符区域进行合并。
可选地,所述依据所述单字符区域的图像属性特征和坐标位置,将属于同一文本区域的单字符区域进行合并,包括:将一个单字符区域作为一个待合并区域;重复执行如下步骤:针对每两个待合并区域,依据所述两个待合并区域的图像属性特征和坐标位置,判断所述两个待合并区域是否属于同一文本区域;在第一次判断出所述两个待合并区域属于同一文本区域时,将所述两个待合并区域合并为一个待合并区域,获取合并得到的待合并区域的图像属性特征和坐标位置;当不再继续合并时,将当前的一个待合并区域作为一个文本区域。
可选地,所述图像属性特征包括颜色值;所述依据所述两个待合并区域的图像属性特征和坐标位置,判断所述两个待合并区域是否属于同一文本区域,包括:基于所述两个待合并区域的坐标位置,判断所述两个待合并区域是否存在重叠;在存在重叠时,判断出所述两个待合并区域属于同一文本区域;在不存在重叠时,基于所述两个待合并区域的坐标位置,判断所述两个待合并区域是否位于同一行或同一列;在位于同一行或同一列时,基于所述两个待合并区域的颜色值,判断所述两个待合并区域的颜色是否相近,以及基于所述两个待合并区域的坐标位置,判断所述两个待合并区域的距离是否相近;在所述颜色和所述距离均相近时,判断出所述两个待合并区域属于同一文本区域。
可选地,在依据所述单字符区域的图像属性特征和坐标位置,将属于同一文本区域的单字符区域进行合并之前,还包括:针对每个单字符区域,分别识别所述单字符区域是否为第一类标点符号区域;所述基于所述两个待合并区域的颜色值,判断所述两个待合并区域的颜色是否相近,以及基于所述两个待合并区域的坐标位置,判断所述两个待合并区域的距离是否相近;在所述颜色和所述距离均相近时,判断出所述两个待合并区域属于同一文本区域,包括:判断所述两个待合并区域中是否存在至少一个第一类标点符号区域;若否,则基于所述两个待合并区域的颜色值,判断所述两个待合并区域的颜色是否相近,以及基于所述两个待合并区域的坐标位置,判断所述两个待合并区域的距离是否相近;在所述颜色和所述距离均相近时,判断出所述两个待合并区域属于同一文本区域;若是,则基于所述两个待合并区域的坐标位置,判断所述两个待合并区域的距离是否相近;在所述距离相近时,判断出所述两个待合并区域属于同一文本区域。
可选地,所述图像属性特征还包括宽度和高度;针对任意一个单字符区域,识别所述任意一个单字符区域是否为第一类标点符号区域,包括:从所述待处理图像中提取出对照文本区域,并获取所述对照文本区域的坐标位置和高度;基于所述任意一个单字符区域的坐标位置和所述对照文本区域的坐标位置,选取与所述任意一个单字符区域存在重叠的对照文本区域,并获取选取的对照文本区域的最大高度;如果所述任意一个单字符区域的宽度和高度均小于所述最大高度的第一预设百分比,则确定所述任意一个单字符区域为第一类标点符号区域。
可选地,在依据所述单字符区域的图像属性特征和坐标位置,将属于同一文本区域的单字符区域进行合并之前,还包括:针对每个单字符区域,分别识别所述单字符区域是否为第二类标点符号区域;所述基于所述两个待合并区域的颜色值,判断所述两个待合并区域的颜色是否相近,包括:判断所述两个待合并区域中是否存在至少一个第二类标点符号区域;若否,则选用预设的第一颜色阈值,基于所述两个待合并区域的颜色值和所述第一颜色阈值,判断所述两个待合并区域的颜色是否相近;若是,则选用预设的第二颜色阈值,基于所述两个待合并区域的颜色值和所述第二颜色阈值,判断所述两个待合并区域的颜色是否相近;所述第一颜色阈值小于所述第二颜色阈值。
可选地,所述图像属性特征还包括宽度和高度;针对任意一个单字符区域,识别所述任意一个单字符区域是否为第二类标点符号区域,包括:从所述待处理图像中提取出对照文本区域,并获取所述对照文本区域的坐标位置和高度;基于所述任意一个单字符区域的坐标位置和所述对照文本区域的坐标位置,选取与所述任意一个单字符区域存在重叠的对照文本区域,并获取选取的对照文本区域的最大高度;如果所述任意一个单字符区域的宽度或高度小于所述最大高度的第二预设百分比,则确定所述任意一个单字符区域为第二类标点符号区域。
可选地,所述颜色值包括前景颜色值和背景颜色值;针对任意一个单字符区域,获取所述任意一个单字符区域的颜色值,包括:针对所述任意一个单字符区域中的每个像素,获取所述像素的RGB颜色值;依据所述像素的RGB颜色值,对全部像素进行聚类,得到两个簇;针对每个簇,分别获取所述簇对应的RGB颜色值;将所述簇对应的RGB颜色值转换为HSV颜色值,将像素个数多的簇对应的HSV颜色值作为所述任意一个单字符区域的背景颜色值,将像素个数少的簇对应的HSV颜色值作为所述任意一个单字符区域的前景颜色值;所述基于所述两个待合并区域的颜色值,判断所述两个待合并区域的颜色是否相近,包括:基于所述两个待合并区域的背景颜色值中的色调H分量和前景颜色值中的色调H分量,判断所述两个待合并区域的颜色是否相近。
可选地,所述颜色值包括前景颜色值和背景颜色值;针对任意一个单字符区域,获取所述任意一个单字符区域的颜色值,包括:针对所述任意一个单字符区域中的每个像素,获取所述像素的RGB颜色值;依据所述像素的RGB颜色值,对全部像素进行聚类,得到两个簇;针对每个簇,分别获取所述簇对应的RGB颜色值;将像素个数多的簇对应的RGB颜色值作为所述任意一个单字符区域的背景颜色值,将像素个数少的簇对应的RGB颜色值作为所述任意一个单字符区域的前景颜色值;所述基于所述两个待合并区域的颜色值,判断所述两个待合并区域的颜色是否相近,包括:基于所述两个待合并区域的背景颜色值和前景颜色值,判断所述两个待合并区域的颜色是否相近。
上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机实现上述实施例中任一所述的字符合并方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机实现上述实施例中任一所述的字符合并方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (12)

1.一种字符合并方法,其特征在于,包括:
从待处理图像中提取出单字符区域;
针对每个单字符区域,分别获取所述单字符区域的图像属性特征和坐标位置;
依据所述单字符区域的图像属性特征和坐标位置,将属于同一文本区域的单字符区域进行合并。
2.根据权利要求1所述的方法,其特征在于,所述依据所述单字符区域的图像属性特征和坐标位置,将属于同一文本区域的单字符区域进行合并,包括:
将一个单字符区域作为一个待合并区域;
重复执行如下步骤:针对每两个待合并区域,依据所述两个待合并区域的图像属性特征和坐标位置,判断所述两个待合并区域是否属于同一文本区域;在第一次判断出所述两个待合并区域属于同一文本区域时,将所述两个待合并区域合并为一个待合并区域,获取合并得到的待合并区域的图像属性特征和坐标位置;
当不再继续合并时,将当前的一个待合并区域作为一个文本区域。
3.根据权利要求2所述的方法,其特征在于,所述图像属性特征包括颜色值;所述依据所述两个待合并区域的图像属性特征和坐标位置,判断所述两个待合并区域是否属于同一文本区域,包括:
基于所述两个待合并区域的坐标位置,判断所述两个待合并区域是否存在重叠;
在存在重叠时,判断出所述两个待合并区域属于同一文本区域;
在不存在重叠时,基于所述两个待合并区域的坐标位置,判断所述两个待合并区域是否位于同一行或同一列;
在位于同一行或同一列时,基于所述两个待合并区域的颜色值,判断所述两个待合并区域的颜色是否相近,以及基于所述两个待合并区域的坐标位置,判断所述两个待合并区域的距离是否相近;在所述颜色和所述距离均相近时,判断出所述两个待合并区域属于同一文本区域。
4.根据权利要求3所述的方法,其特征在于,
在依据所述单字符区域的图像属性特征和坐标位置,将属于同一文本区域的单字符区域进行合并之前,还包括:针对每个单字符区域,分别识别所述单字符区域是否为第一类标点符号区域;
所述基于所述两个待合并区域的颜色值,判断所述两个待合并区域的颜色是否相近,以及基于所述两个待合并区域的坐标位置,判断所述两个待合并区域的距离是否相近;在所述颜色和所述距离均相近时,判断出所述两个待合并区域属于同一文本区域,包括:
判断所述两个待合并区域中是否存在至少一个第一类标点符号区域;
若否,则基于所述两个待合并区域的颜色值,判断所述两个待合并区域的颜色是否相近,以及基于所述两个待合并区域的坐标位置,判断所述两个待合并区域的距离是否相近;在所述颜色和所述距离均相近时,判断出所述两个待合并区域属于同一文本区域;
若是,则基于所述两个待合并区域的坐标位置,判断所述两个待合并区域的距离是否相近;在所述距离相近时,判断出所述两个待合并区域属于同一文本区域。
5.根据权利要求4所述的方法,其特征在于,所述图像属性特征还包括宽度和高度;针对任意一个单字符区域,识别所述任意一个单字符区域是否为第一类标点符号区域,包括:
从所述待处理图像中提取出对照文本区域,并获取所述对照文本区域的坐标位置和高度;
基于所述任意一个单字符区域的坐标位置和所述对照文本区域的坐标位置,选取与所述任意一个单字符区域存在重叠的对照文本区域,并获取选取的对照文本区域的最大高度;
如果所述任意一个单字符区域的宽度和高度均小于所述最大高度的第一预设百分比,则确定所述任意一个单字符区域为第一类标点符号区域。
6.根据权利要求3所述的方法,其特征在于,
在依据所述单字符区域的图像属性特征和坐标位置,将属于同一文本区域的单字符区域进行合并之前,还包括:针对每个单字符区域,分别识别所述单字符区域是否为第二类标点符号区域;
所述基于所述两个待合并区域的颜色值,判断所述两个待合并区域的颜色是否相近,包括:
判断所述两个待合并区域中是否存在至少一个第二类标点符号区域;
若否,则选用预设的第一颜色阈值,基于所述两个待合并区域的颜色值和所述第一颜色阈值,判断所述两个待合并区域的颜色是否相近;
若是,则选用预设的第二颜色阈值,基于所述两个待合并区域的颜色值和所述第二颜色阈值,判断所述两个待合并区域的颜色是否相近;
所述第一颜色阈值小于所述第二颜色阈值。
7.根据权利要求6所述的方法,其特征在于,所述图像属性特征还包括宽度和高度;针对任意一个单字符区域,识别所述任意一个单字符区域是否为第二类标点符号区域,包括:
从所述待处理图像中提取出对照文本区域,并获取所述对照文本区域的坐标位置和高度;
基于所述任意一个单字符区域的坐标位置和所述对照文本区域的坐标位置,选取与所述任意一个单字符区域存在重叠的对照文本区域,并获取选取的对照文本区域的最大高度;
如果所述任意一个单字符区域的宽度或高度小于所述最大高度的第二预设百分比,则确定所述任意一个单字符区域为第二类标点符号区域。
8.根据权利要求3所述的方法,其特征在于,所述颜色值包括前景颜色值和背景颜色值;
针对任意一个单字符区域,获取所述任意一个单字符区域的颜色值,包括:
针对所述任意一个单字符区域中的每个像素,获取所述像素的RGB颜色值;
依据所述像素的RGB颜色值,对全部像素进行聚类,得到两个簇;
针对每个簇,分别获取所述簇对应的RGB颜色值;
将所述簇对应的RGB颜色值转换为HSV颜色值,将像素个数多的簇对应的HSV颜色值作为所述任意一个单字符区域的背景颜色值,将像素个数少的簇对应的HSV颜色值作为所述任意一个单字符区域的前景颜色值;
所述基于所述两个待合并区域的颜色值,判断所述两个待合并区域的颜色是否相近,包括:基于所述两个待合并区域的背景颜色值中的色调H分量和前景颜色值中的色调H分量,判断所述两个待合并区域的颜色是否相近。
9.根据权利要求3所述的方法,其特征在于,所述颜色值包括前景颜色值和背景颜色值;
针对任意一个单字符区域,获取所述任意一个单字符区域的颜色值,包括:
针对所述任意一个单字符区域中的每个像素,获取所述像素的RGB颜色值;
依据所述像素的RGB颜色值,对全部像素进行聚类,得到两个簇;
针对每个簇,分别获取所述簇对应的RGB颜色值;
将像素个数多的簇对应的RGB颜色值作为所述任意一个单字符区域的背景颜色值,将像素个数少的簇对应的RGB颜色值作为所述任意一个单字符区域的前景颜色值;
所述基于所述两个待合并区域的颜色值,判断所述两个待合并区域的颜色是否相近,包括:基于所述两个待合并区域的背景颜色值和前景颜色值,判断所述两个待合并区域的颜色是否相近。
10.一种字符合并装置,其特征在于,包括:
提取模块,用于从待处理图像中提取出单字符区域;
获取模块,用于针对每个单字符区域,分别获取所述单字符区域的图像属性特征和坐标位置;
合并模块,用于依据所述单字符区域的图像属性特征和坐标位置,将属于同一文本区域的单字符区域进行合并。
11.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现如权利要求1-9任一所述的方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-9任一所述的方法。
CN202011027814.6A 2020-09-25 2020-09-25 字符合并方法、装置、电子设备及存储介质 Pending CN112132141A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011027814.6A CN112132141A (zh) 2020-09-25 2020-09-25 字符合并方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011027814.6A CN112132141A (zh) 2020-09-25 2020-09-25 字符合并方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN112132141A true CN112132141A (zh) 2020-12-25

Family

ID=73840393

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011027814.6A Pending CN112132141A (zh) 2020-09-25 2020-09-25 字符合并方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112132141A (zh)

Similar Documents

Publication Publication Date Title
US10748023B2 (en) Region-of-interest detection apparatus, region-of-interest detection method, and recording medium
US9047529B2 (en) Form recognition method and device
CN107609546B (zh) 一种文字标题识别方法及装置
US8805077B2 (en) Subject region detecting apparatus
WO2014160433A2 (en) Systems and methods for classifying objects in digital images captured using mobile devices
US11151402B2 (en) Method of character recognition in written document
CN110647882A (zh) 图像校正方法、装置、设备及存储介质
US9171224B2 (en) Method of improving contrast for text extraction and recognition applications
CN101122953A (zh) 一种图片文字分割的方法
US20120257822A1 (en) Image processing apparatus, image processing method, and computer readable medium
US10885326B2 (en) Character recognition method
EP2977932A2 (en) Image processing apparatus, image processing method and image processing program
CN110598566A (zh) 图像处理方法、装置、终端和计算机可读存储介质
CN110321887A (zh) 文档图像处理方法、文档图像处理装置及存储介质
CN115410191B (zh) 文本图像识别方法、装置、设备和存储介质
CN113033562A (zh) 一种图像处理方法、装置、设备及存储介质
CN116030472A (zh) 文字坐标确定方法及装置
JP4967045B2 (ja) 背景判別装置、方法及びプログラム
CN112132141A (zh) 字符合并方法、装置、电子设备及存储介质
CN111695557B (zh) 一种图像处理方法及装置
CN114648751A (zh) 一种处理视频字幕的方法、装置、终端及存储介质
CN114694147B (zh) 分割椭圆形图案中环绕文字的方法和装置
CN109670500B (zh) 一种文字区域获取方法、装置、存储介质及终端设备
Shekar et al. Text localization in video/scene images using Kirsch Directional Masks
Anthimopoulos et al. Detecting text in video frames

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination