CN109255311A - 一种基于图像的信息识别方法及系统 - Google Patents
一种基于图像的信息识别方法及系统 Download PDFInfo
- Publication number
- CN109255311A CN109255311A CN201810994077.3A CN201810994077A CN109255311A CN 109255311 A CN109255311 A CN 109255311A CN 201810994077 A CN201810994077 A CN 201810994077A CN 109255311 A CN109255311 A CN 109255311A
- Authority
- CN
- China
- Prior art keywords
- image
- pixel
- region
- gray level
- gray
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
Abstract
本申请实施例公开了一种基于图像的信息识别方法及系统,用于识别图像中的文本、表格及图片,提高了图像中信息识别的便捷性。本申请实施例方法包括:获取原始图像,判断所述原始图像是否为单通道图像;若否,将所述原始图像转换为单通道图像,以得到所述原始图像的灰度图像;识别并提取出所述灰度图像中的前景图像;对所述前景图像进行密度聚类分析,得到所述前景图像中的多个区域;计算每个区域的多个向量序列,并根据所述多个向量序列对所述单通道图像中的文本、表格及图片进行识别。
Description
技术领域
本申请涉及图像处理技术领域,尤其涉及一种基于图像的信息识别方法及系统。
背景技术
图像中的文本蕴含丰富的语义信息,这些信息是图像内容描述和场景理解的关键线索,对于图像检索、信息检测、场景分析和智能控制等应用有着巨大价值。
随着智能手机、数码相机等具有拍摄功能的便携式设备的日益普及,图像已成为最易于获取的信息载体之一,进而催生了用户借助便携式设备拍摄图像,通过提取图像中的文本信息辅助进行分析、决策、组织与管理的大规模需求。因此,自动化提取图像中的基本信息具有广泛的应用背景和重要的研究意义。
而如何快速地识别图像中的文本、表格及图片信息,成为一个重要的研究方向。
发明内容
本申请实施例提供了一种基于图像的信息识别方法及系统,用于识别图像中的文本、表格及图片,提高了图像中信息识别的便捷性。
本申请实施例第一方面提供了一种基于图像的信息识别方法,包括:
获取原始图像,判断所述原始图像是否为单通道图像;
若否,将所述原始图像转换为单通道图像,以得到所述原始图像的灰度图像;
识别并提取出所述灰度图像中的前景图像;
对所述前景图像进行密度聚类分析,得到所述前景图像中的多个区域;
计算每个区域的多个向量序列,并根据所述多个向量序列对所述单通道图像中的文本、表格及图片进行识别。
优选的,所述对所述前景图像进行密度聚类分析,得到所述前景图像中的多个区域,包括:
确定所述前景图像中的连通域;
根据公式(1)判断相邻的两个连通域中的任两个像素点的最小距离范数是否大于预设的距离阈值;
||Mi-Mj||>d i,j∈1,2…n,且i≠j (1)
若不大于,则将所述相邻的两个连通域归为同一个区域;
若大于,则将所述相邻的两个连通域归为不同的两个区域,以得到所述前景图像中的多个区域。
优选的,所述计算每个区域的多个向量序列,包括:
根据公式(2)计算区域Mi的第一向量:
sum(Mi)为Mi区域的前景像素总和,size(Mi)为Mi的区域面积总和;
根据公式(3)计算区域Mi的第二向量:
sum(border(Mi))为Mi区域的边界像素总和,size(border(Mi))为Mi区域的边界面积总和;
根据公式(4)计算区域Mi的第三向量;
si3=count(rowlines) (4)
count(rowlines)为水平直线rowlines的数量;
根据公式(5)计算区域Mi的第四向量;
mean(rowlines)表示水平直线间隔的平均值,max(rowlines)表示水平直线间隔的最大值;
根据公式(6)计算区域Mi的第五向量:
si5=count(collines) (6)
count(collines)为竖直直线collines的数量;
根据公式(7)计算区域Mi的第六向量:
mean(collines)表示竖直直线间隔的平均值,max(collines)表示竖直直线间隔的最大值;
从而得到区域Mi的6个向量序列{si1,si2,si3,si4,si5,si6}。
优选的,所述根据所述多个向量序列对所述单通道图像中的文本、表格及图像进行识别,包括:
若区域Mi满足第一条件:
即si1<s1,且si2<s2,s1,s2∈(0,1),则区域Mi为文本;
若区域Mi满足第二条件:
即si3>s3,且|si4-1|<s4;
或,
si5>s5,且|si6-1|<s6,s4,s6∈(0,1),s3,s5为自然数,则区域Mi为表格;
若区域Mi中的向量序列{si1,si2,si3,si4,si5,si6}既不满足所述第一条件,也不满足所述第二条件,则区域Mi为图片。
优选的,所述识别并提取出所述灰度图像中的前景图像,包括:
对单通道图像进行高频滤波,以得到第一灰度图像;
根据所述灰度图像和所述第一灰度图像,对灰度图像中每个像素的灰度值进行卡尔曼滤波,以得到所述灰度图像的模板图像;
计算所述模板图像中每个像素的灰度值与所述第一灰度图像中对应像素的灰度值差值的距离范数,若所述距离范数大于预设阈值,则将当前像素定义为前景图像,否则,将当前像素定义为背景图像;
对所述前景图像进行输出显示。
优选的,所述根据所述灰度图像和所述第一灰度图像,对灰度图像中每个像素的灰度值进行卡尔曼滤波,以得到所述灰度图像的模板图像,包括:
对所述灰度图像的背景灰度进行估计,以得到所述灰度图像的背景特征灰度值;
在所述灰度图像中,选取以G(i,j)为中心,m*n为大小的区域,对所述区域中每个像素的灰度值运用进行高频滤波,以得到所述区域的第一灰度图像;
根据以下公式(8)和公式(9)计算灰度图像中每个像素的灰度预测值:
w1+w2+w3=1; (9)
若B(i-1,j-1)、B(i-1,j)或B(i,j-1)中的任一像素超出B的边界,则令超出所述边界的像素值为所述背景特征灰度值;
根据公式(10)对所述每个像素的灰度预测值进行修正:
以得到模板图像中的每个像素的灰度值。
优选的,所述计算所述模板图像中每个像素的灰度值与所述第一灰度图像中对应像素的灰度值差值的距离范数,若所述距离范数大于预设阈值,则将当前像素定义为前景图像,否则,将当前像素定义为背景图像,包括:
根据公式(11)计算所述模板图像中每个像素的灰度值与所述第一灰度图像中对应像素的灰度值差值的距离范数:
根据公式(12)确定当前像素为前景图像或背景图像,ε为视觉感知灰度阈值:
若所述距离范数大于所述ε,则将当前像素定义为前景图像,若所述距离范数不大于所述ε,则将当前像素定义为背景图像。
本申请实施例第二方面提供了一种基于图像的信息识别系统,包括:
获取判断单元,用于获取原始图像,判断所述原始图像是否为单通道图像;
转换单元,用于在所述原始图像不为单通道图像时,将所述原始图像转换为单通道图像,以得到所述原始图像的灰度图像;
识别提取单元,用于识别并提取出所述灰度图像中的前景图像;
聚类分析单元,用于对所述前景图像进行密度聚类分析,得到所述前景图像中的多个区域;
计算识别单元,用于计算每个区域的多个向量序列,并根据所述多个向量序列对所述单通道图像中的文本、表格及图片进行识别。
优选的,聚类分析单元,包括:
连通域确定模块,用于确定所述前景图像中的连通域;
判断模块,用于根据公式(1)判断相邻的两个连通域中的任两个像素点的最小距离范数是否大于预设的距离阈值;
||Mi-Mj||>d i,j∈1,2…n,且i≠j (1)
第一执行模块,用于在相邻的两个连通域中的任两个像素点的最小距离不大于预设的距离阈值时,将所述相邻的两个连通域归为同一个区域;
第二执行模块,用于在相邻的两个连通域中的任两个像素点的最小距离大于预设的距离阈值时,将所述相邻的两个连通域归为不同的两个区域,以得到所述前景图像中的多个区域。
优选的,计算识别单元,包括:
第一计算模块,用于根据公式(2)计算区域Mi的第一向量:
sum(Mi)为Mi区域的前景像素总和,size(Mi)为Mi的区域面积总和;
第二计算模块,用于根据公式(3)计算区域Mi的第二向量:
sum(border(Mi))为Mi区域的边界像素总和,size(border(Mi))为Mi区域的边界面积总和;
第三计算模块,用于根据公式(4)计算区域Mi的第三向量;
si3=count(rowlines) (4)
count(rowlines)为水平直线rowlines的数量;
第四计算模块,用于根据公式(5)计算区域Mi的第四向量;
mean(rowlines)表示水平直线间隔的平均值,max(rowlines)表示水平直线间隔的最大值;
第五计算模块,用于根据公式(6)计算区域Mi的第五向量:
si5=count(collines) (6)
count(collines)为竖直直线collines的数量;
第六计算模块,用于根据公式(7)计算区域Mi的第六向量:
mean(collines)表示竖直直线间隔的平均值,max(collines)表示竖直直线间隔的最大值;
从而得到区域Mi的6个向量序列{si1,si2,si3,si4,si5,si6}。
优选的,计算识别单元,还包括:
文本识别模块,用于在区域Mi满足第一条件:
即si1<s1,且si2<s2,s1,s2∈(0,1),识别区域Mi为文本;
表格识别模块,用于在区域Mi满足第二条件:
即si3>s3,且|si4-1|<s4;
或,
si5>s5,且|si6-1|<s6,s4,s6∈(0,1),s3,s5为自然数,识别区域Mi为表格;
图片识别模块,用于在区域Mi中的向量序列{si1,si2,si3,si4,si5,si6}既不满足所述第一条件,也不满足所述第二条件,识别区域Mi为图片。
优选的,识别提取单元,包括:
高频滤波模块,用于对单通道图像进行高频滤波,以得到第一灰度图像;
卡尔曼滤波模块,用于根据所述灰度图像和所述第一灰度图像,对灰度图像中每个像素的灰度值进行卡尔曼滤波,以得到所述灰度图像的模板图像;
前景识别模块,用于计算所述模板图像中每个像素的灰度值与所述第一灰度图像中对应像素的灰度值差值的距离范数,若所述距离范数大于预设阈值,则将当前像素定义为前景图像,否则,将当前像素定义为背景图像;
提取模块,用于对所述前景图像进行输出显示。
优选的,卡尔曼滤波模块,包括:
背景灰度估计子模块,用于对所述灰度图像的背景灰度进行估计,以得到所述灰度图像的背景特征灰度值;
高频滤波子模块,用于在所述灰度图像中,选取以G(i,j)为中心,m*n为大小的区域,对所述区域中每个像素的灰度值运用进行高频滤波,以得到所述区域的第一灰度图像;
灰度值预测子模块,用于根据以下公式(8)和公式(9)计算灰度图像中每个像素的灰度预测值:
w1+w2+w3=1; (9)
若B(i-1,j-1)、B(i-1,j)或B(i,j-1)中的任一像素超出B的边界,则令超出所述边界的像素值为所述背景特征灰度值;
修正子模块,用于根据公式(10)对所述每个像素的灰度预测值进行修正:
以得到模板图像中的每个像素的灰度值。
优选的,前景识别模块,包括:
距离范数计算子模块,用于根据公式(11)计算所述模板图像中每个像素的灰度值与所述第一灰度图像中对应像素的灰度值差值的距离范数:
前景识别子模块,用于根据公式(12)确定当前像素为前景图像或背景图像,ε为视觉感知灰度阈值:
若所述距离范数大于所述ε,则将当前像素定义为前景图像,若所述距离范数不大于所述ε,则将当前像素定义为背景图像。
本申请实施例还提供了一种基于图像的信息识别系统,包括处理器,该处理器在执行存储于存储器上的计算机程序时,用于实现本申请实施例第一方面提供的基于图像的信息识别方法。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,用于实现本申请实施例第一方面提供的基于图像的信息识别方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例中,在获取到原始图像后,将该原始图像转换为单通道图像,及灰度图像,然后识别并提取出灰度图像中的前景图像,进一步将前景图像进行聚类分析,将该前景图像划分不多个区域,然后计算每个区域的多个向量序列,并根据多个向量序列对该区域中的文本、表格和图片进行识别,提高了图像中信息识别的便捷性。
附图说明
图1为本申请实施例中一种基于图像的信息识别方法的一个实施例示意图;
图2为图1中步骤103的细化步骤;
图3为图2中步骤1032的细化步骤;
图4为图2中步骤1033的细化步骤;
图5为图1中步骤104的细化步骤;
图6为图1中步骤105的细化步骤;
图7为本申请实施例中一种基于图像的信息识别系统的一个实施例示意图;
图8为图7中聚类分析单元的功能细化模块示意图;
图9为图7中计算识别单元的功能细化模块示意图;
图10为图7中识别提取单元的功能细化模块示意图;
图11为图10中卡尔曼滤波模块的功能细化模块示意图;
图12为图10中前景识别模块的功能细化模块示意图。
具体实施方式
本申请实施例提供了一种基于图像的信息识别方法及系统,用于识别图像中的文本、表格及图片,以提高图像中信息识别的便捷性。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为方便理解,下面对本申请中的基于图像的信息识别方法进行描述,请参阅图1,本申请实施例中一种基于图像的信息识别方法的一个实施例,包括:
101、获取原始图像,判断所述原始图像是否为单通道图像,若是,则执行步骤103,若否,则执行步骤102;
在对图像处理前,首先需要获取被处理的原始图像,本申请中的原始图像可以从摄像机、计算机、照相机或其他图像存储设备中进行读取,且原始图像可以为jpeg、flashpix、Tiff、gif或mpeg中的任一种,此处不做具体限制。
获取到原始图像后,判断该原始图像是否为单通道图像,即灰度图像,若该原始图像本身为单通道图像(灰度图像),则直接对该原始图像执行步骤103,若该原始图像本身为彩色图像,即非单通道图像,则对该原始图像执行步骤102。
102、将所述原始图像转换为单通道图像,以得到所述原始图像的灰度图像;
若原始图像为非单通道图像时,则按照以下公式对原始图像进行处理,将原始图像转换为单通道图像:
G(i,j)=0.299·rA(i,j)+0.587·gA(i,j)+0.114·bA(i,j)
其中,A(i,j)为原始图像中的像素点,而rA(i,j),gA(i,j)和bA(i,j)分别为原始图像A的r通道,g通道和b通道,G(i,j)为单通道图像,即灰度图像中的像素点。
103、识别并提取出所述灰度图像中的前景图像;
得到原始图像的灰度图像后,则识别并提取出该灰度图像中的前景图像,具体的,对于前景图像的提取过程,在下面的实施例中详细描述,此处不再赘述。
若步骤101中的原始图像即为单通道图像,即灰度图像,则直接执行步骤103。
104、对所述前景图像进行密度聚类分析,得到所述前景图像中的多个区域;
得到前景图像后,对该前景图像进行密度聚类分析,以得到前景图像中不同的区域,以便于对根据各个区域来识别前景图像中的文本、表格及图片,具体的,对于该步骤中对前景图像的密度聚类分析过程,在下面的实施例中详细描述,此处不再赘述。
105、计算每个区域的多个向量序列,并根据所述多个向量序列对所述单通道图像中的文本、表格及图片进行识别。
得到前景图像中的多个区域后,计算每个区域的多个向量序列,并根据该向量序列对该区域中的具体内容进行识别,以对该区域的具体内容进行判断,以识别中该区域中的文本、表格及图片。
本申请实施例中,在获取到原始图像后,将该原始图像转换为单通道图像,及灰度图像,然后识别并提取出灰度图像中的前景图像,进一步将前景图像进行聚类分析,将该前景图像划分不多个区域,然后计算每个区域的多个向量序列,并根据多个向量序列对该区域中的文本、表格和图片进行识别,提高了图像中信息识别的便捷性。
基于图1所述的实施例,下面详细描述图1的步骤103,请参阅图2,图2为图1中步骤103的细化步骤:
1031、对所述灰度图像中每个像素的灰度值进行高频滤波,以得到第一灰度图像;
得到原始图像的灰度图像后,对灰度图像中的每个像素点G(i,j)进行高频滤波,以得到滤波后的第一灰度图像。
在实际图像采集、传输及处理图像的过程中往往会存在一定程序的噪声干扰,该噪声恶化了图像的质量,使得图像模糊,淹没了特征,给图片分析带来了困难,而高频滤波,是一通图像平滑技术,可以消除图像采集、传输及处理过程中的噪声。
具体的,可以通过多种方法对灰度图像执行高频滤波,以消除图像中的噪声,如高斯滤波、均值滤波、高斯-拉普拉斯滤波等,在实际应用中可以选取大小为m*n,而不同类型的模板类型对灰度图像进行滤波,其中可以为高斯算子,均值算子或高斯-拉普拉斯算子。
下面以m*n为3*3的均值算子为例,对灰度图像的滤波过程进行说明:
假设滤波模板如表1所述:
表1
其中,均值滤波是对目标像素给一个模板,该模板包括了其周围的临近像素(以目标像素为中心的周围8个像素,构成一个滤波模板,即去掉目标像素本身),再用模板中的全体像素的平均值来代替原来像素值。
则均值滤波后的目标像素值如表2所示:
根据均值滤波的定义可知,目标像素的均值像素为:
(5+3+6+2+1+9+8+4+7)/9=45/9=5
而高斯滤波和高斯拉普拉斯滤波的过程,在现有技术中已有具体描述,此处不再赘述。
1032、根据所述灰度图像和所述第一灰度图像,对灰度图像中每个像素的灰度值进行卡尔曼滤波,以得到所述灰度图像的模板图像;
在对灰度图像进行高频滤波,得到第一灰度图像后,再根据灰度图像和第一灰度图像对灰度图像中每个像素的灰度值进行卡尔曼滤波,以得到灰度图像的模板图像。
具体的,卡尔曼滤波是先根据最优化算法对灰度图像中每个像素点的像素值进行估计,然后利用实际测量的像素值对估计值进行修正,以得到更接近真实值的像素值,而对于本实施例中具体的卡尔曼滤波的过程在下面的实施例中进行详细描述,此处不再赘述。
1033、计算所述模板图像中每个像素的灰度值与所述第一灰度图像中对应像素的灰度值差值的距离范数,若所述距离范数大于预设阈值,则将当前像素定义为前景图像,否则,将当前像素定义为背景图像。
步骤1032中得到模板图像后,进一步计算模板图像中每个像素的灰度值与第一灰度图像(即高频滤波后的灰度图像)中对应像素的灰度值差值的距离范数,若得到的距离范数大于预设阈值,则将当前像素定义为前景像素,否则,将当前像素定义为背景像素。
对于该步骤中前景图像和背景图像的具体识别过程在下面的实施例中详细描述。
基于图2所述的实施例,下面详细描述图2中的步骤1032,请参阅图3,图3为图2中步骤1032的细化步骤:
10321、对灰度图像的背景灰度进行估计,以得到所述灰度图像的背景特征灰度值;
在得到原始图像对应的灰度图像后,对该灰度图像的背景灰度进行估计,具体的估计算法可以是灰度图像众数,均值,或者拟合高斯分布的均值等,此处不做具体限制。
对灰度图像采用上述方法执行背景灰度估计后,可以得到灰度图像的背景特征灰度值K。
10322、在灰度图像中,选取以G(i,j)为中心,m*n为大小的区域,对所述区域中每个像素的灰度值运用进行高频滤波,以得到第一灰度图像;
该步骤类似于步骤1031,即是步骤1031的一个具体实现方式,在灰度图像G中,选取以G(i,j)为中心,m*n为大小的区域,对该区域中的每个像素的灰度值运用高频滤波算法进行滤波,以得到该区域的第一灰度图像。
10323、根据公式(8)和公式(9),计算灰度图像中每个像素的灰度预测值,且当B(i-1,j-1)、B(i-1,j)或B(i,j-1)中的任一像素超出B的边界,则令超出所述边界的像素值为所述背景特征灰度值;
w1+w2+w3=1; (9)
具体的,公式(8)和公式(9),为对灰度图像中每个像素的灰度值进行预测的过程,其中公式(8)为根据目标像素点左上角的三个像素点的像素值对目标像素点像素值的预测过程,
如
而B(0,0),B(0,1),B(1,0),都超出了B的边界,故令B(0,0),B(0,1),B(1,0),都为灰度图像的背景灰度特征值,即步骤10321中的k,则而对于其他位置点的像素值,则采用类似的递推方法进行计算,此处不再赘述。
10324、根据公式(10)对灰度预测值进行修正,以得到模板图像中每个像素的灰度值。
步骤10323中,得到了对灰度图像中每个像素的预测值后,进一步根据高频滤波后测量到的像素值对预测值进行修正,使得修正后的像素值B(i,j)更接近于真实值,且修正后的像素灰度值B(i,j)即为模板图像中每个像素的灰度值。
基于图2所述的实施例,下面详细描述图2中的步骤1033,请参阅图4,图4为图2中步骤1033的细化步骤:
10331、根据公式(11)计算所述模板图像中每个像素的灰度值与所述第一灰度图像中对应像素的灰度值差值的距离范数:
得到模板图像中每个像素的灰度值后,进一步根据公式(11)计算模板图像中每个像素的灰度值与第一灰度图像中对应像素灰度值的差值的距离范数,其中B(i,j)为模板图像中每个像素的灰度值,为第一灰度图像中每个像素的灰度值,而C(i,j)为模板图像中每个像素的灰度值与第一灰度图像中对应像素灰度值差值的距离范数。
需要说明的是,本实施例中的范数可以是L1范数、L2范数、L-∞范数,可以根据实际需求,进行自定义,此处不做具体限制。
10332、根据公式(12)确定当前像素为前景图像或背景图像,ε为视觉感知灰度阈值:
若所述距离范数大于所述ε,则将当前像素定义为前景图像,若所述距离范数不大于所述ε,则将当前像素定义为背景图像。
具体的图像处理过程中,得到模板图像中每个像素的灰度值与第一灰度图像中对应像素的灰度值差值的距离范数C(i,j)后,将该距离范数与视觉感知灰度阈值ε进行对比,若该距离范数大于ε,则说明当前像素的反差明显,即为前景图像,若该距离范数不大于ε,则说明当前像素反差不明显,即为背景图像。
基于图1所述的实施例,下面详细描述图1实施例中的步骤104,请参阅图5,图5为图1所述实施例中的步骤104的细化步骤:
1041、确定所述前景图像中的连通域;
在图像中,最小的单位是像素,每个像素周围都有8个邻接像素,常见的邻接关系有2种:4邻接与8邻接,4邻接一共4个点,即上下左右,如表3所示,8邻接一共8个点,包括了上下左右和对角线位置的点,如表4所示。
如果像素点A与B邻接,则A与B连通,若A与B连通,B与C连通,则A与C连通,在视觉上,彼此连通的点形成一个区域,而不连通的点形成了不同的区域,这样,一个所有的点彼此连通点构成的集合,即为一个连通区域。
● | ||
● | X | ● |
● |
表3
● | ● | ● |
● | X | ● |
● | ● | ● |
表4
1042、根据公式(1)判断相邻的两个连通域中的任两个像素点的最小距离范数是否大于预设的距离阈值;若不大于,则将所述相邻的两个连通域归为同一个区域;若大于,则将所述相邻的两个连通域归为不同的两个区域,以得到所述前景图像中的多个区域。
||Mi-Mj||>d i,j∈1,2…n,且i≠j (1)
在步骤1041中确定了前景图像中的多个连通域以后,根据公式(1)判断相邻的两个连通域中任两个像素点之间的最小距离范数是否大于预设的距离阈值d,若大于,则将相连的两个连通域归为不同的两个区域,若不大于,则将所述相邻的两个相邻连通域归为同一个区域。
这样,即可以通过步骤1041和1042,将前景图像划分为多个区域。
基于图1所述的实施例,下面详细描述图1中的步骤105,请参阅图6,图6为图1中步骤105的细化步骤:
1051、根据公式(2)计算区域Mi的第一向量,sum(Mi)为Mi区域的前景像素总和,size(Mi)为Mi的区域面积总和;
在步骤104中,得到前景图像中的多个区域后,根据公式(2)计算每个区域Mi的第一向量,其中,sum(Mi)为Mi区域的前景像素总和,size(Mi)为Mi的区域面积总和,而第一向量为si1为Mi区域中前景像素总和与Mi区域面积总和的比值。
1052、根据公式(3)计算区域Mi的第二向量,sum(border(Mi))为Mi区域的边界像素总和,size(border(Mi))为Mi区域的边界面积总和;
在步骤104中,得到前景图像中的多个区域后,根据公式(3)计算每个区域Mi的第二向量,其中,sum(border(Mi))为Mi区域的边界像素总和,size(border(Mi))为Mi区域的边界面积总和,而第二向量si2为Mi区域的边界像素总和与Mi区域边界面积总和的比值。
1053、根据公式(4)计算区域Mi的第三向量,count(rowlines)为水平直线rowlines的数量;
si3=count(rowlines) (4)
步骤104中,得到前景图像中的多个区域后,根据公式(4)计算每个区域Mi的第三向量,其中,count(rowlines)为Mi区域的水平直线的数量。
1054、根据公式(5)计算区域Mi的第四向量,mean(rowlines)表示水平直线间隔的平均值,max(rowlines)表示水平直线间隔的最大值;
步骤104中,得到前景图像中的多个区域后,根据公式(5)计算每个区域Mi的第四向量,其中,mean(rowlines)表示Mi区域中水平直线间隔的平均值,max(rowlines)表示水平直线间隔的最大值,而第四向量si4表示水平之间间隔平均值与水平直线间隔最大值的比值。
1055、根据公式(6)计算区域Mi的第五向量,count(collines)为竖直直线collines的数量;
si5=count(collines) (6)
步骤104中,得到前景图像中的多个区域后,根据公式(6)计算每个区域Mi第五向量,其中,count(collines)为Mi区域中竖直直线collines的数量。
1056、根据公式(7)计算区域Mi的第六向量,mean(collines)表示竖直直线间隔的平均值,max(collines)表示竖直直线间隔的最大值;
步骤104中,得到前景图像中的多个区域后,根据公式(7)计算每个区域Mi第六向量,其中,mean(collines)表示竖直直线间隔的平均值,max(collines)表示竖直直线间隔的最大值,而第六向量si6表示竖直直线间隔的平均值与竖直直线间隔最大值的比值。
基于上述步骤1051至1056,即可以得到每个区域Mi的6个向量序列{si1,si2,si3,si4,si5,si6}。
1057、若区域Mi满足第一条件,即si1<s1,且si2<s2,s1,s2∈(0,1)则区域Mi为文本;
若区域Mi中的si1<s1,且si2<s2,s1,s2∈(0,1),即表明该区域中前景像素总和小于该区域的前景面积总和,且该区域的边界像素总和小于该区域的边界面积总和,即表明该区域即非为图片,也非为表格,则该区域为文本。
1058、若区域Mi满足第二条件,即si3>s3,且|si4-1|<s4;
或,
si5>s5,且|si6-1|<s6;s4,s6∈(0,1),s3,s5为自然数,则区域Mi为表格;
若区域Mi中的si3>s3,且|si4-1|<s4,且s4,s6∈(0,1),s3,s5为自然数,则表明Mi区域中有一定数量的水平直线,且各水平直线的平均间隔小于或等于各水平直线之间的最大间隔;若Mi区域中si5>s5,且|si6-1|<s6,s4,s6∈(0,1),s3,s5为自然数,则表明Mi区域中有一定数量的竖直直线,且各竖直直线的平均间隔小于或等于各竖直直线之间的最大间隔,则表明Mi区域为表格。
1059、若区域Mi的向量序列{si1,si2,si3,si4,si5,si6}既不满足第一条件,也不满足第二条件,则区域Mi为图片。
若区域Mi的向量序列{si1,si2,si3,si4,si5,si6},既不满足步骤1057中的第一条件,也不满足步骤1058中的第二条件,则表明区域Mi为图片。
本实施例中,详细描述了如何根据每个区域的向量序列判断该区域为文本、表格或图片的过程,提高了本实施例的可实施性。
上面描述了本申请实施例中的基于图像的信息识别方法,下面描述本申请实施例中的基于图像的信息识别系统,请参阅图7,本申请实施例中基于图像的信息识别系统的一个实施例,包括:
获取判断单元701,用于获取原始图像,判断所述原始图像是否为单通道图像;
转换单元702,用于在所述原始图像不为单通道图像时,将所述原始图像转换为单通道图像,以得到所述原始图像的灰度图像;
识别提取单元703,用于识别并提取出所述灰度图像中的前景图像;
聚类分析单元704,用于对所述前景图像进行密度聚类分析,得到所述前景图像中的多个区域;
计算识别单元705,用于计算每个区域的多个向量序列,并根据所述多个向量序列对所述单通道图像中的文本、表格及图片进行识别。
本申请实施例中,在通过获取判断单元701获取到原始图像后,将该原始图像转换为单通道图像,即灰度图像,然后通过识别提取单元703识别并提取出灰度图像中的前景图像,进一步将前景图像进行聚类分析,将该前景图像划分不多个区域,然后通过计算识别单元705计算每个区域的多个向量序列,并根据多个向量序列对该区域中的文本、表格和图片进行识别,提高了图像中信息识别的便捷性。
基于图7所述的实施例,下面详细描述基于图像的信息识别系统中的聚类分析单元,请参阅图8,图8为图7中聚类分析单元的细化模块示意图,其中聚类分析单元704,包括:
连通域确定模块7041,用于确定所述前景图像中的连通域;
判断模块7042,用于根据公式(1)判断相邻的两个连通域中的任两个像素点的最小距离范数是否大于预设的距离阈值;
||Mi-Mj||>d i,j∈1,2…n,且i≠j (1)
第一执行模块7043,用于在相邻的两个连通域中的任两个像素点的最小距离不大于预设的距离阈值时,将所述相邻的两个连通域归为同一个区域;
第二执行模块7044,用于在相邻的两个连通域中的任两个像素点的最小距离大于预设的距离阈值时,将所述相邻的两个连通域归为不同的两个区域,以得到所述前景图像中的多个区域。
基于图7所述的实施例,下面详细描述基于图像的信息识别识别中的计算识别单元,请参阅图9,图9为图7中计算识别单元的细化模块示意图,其中,计算识别单元705,包括:
第一计算模块7051,用于根据公式(2)计算区域Mi的第一向量:
sum(Mi)为Mi区域的前景像素总和,size(Mi)为Mi的区域面积总和;
第二计算模块7052,用于根据公式(3)计算区域Mi的第二向量:
sum(border(Mi))为Mi区域的边界像素总和,size(border(Mi))为Mi区域的边界面积总和;
第三计算模块7053,用于根据公式(4)计算区域Mi的第三向量;
si3=count(rowlines) (4)
count(rowlines)为水平直线rowlines的数量;
第四计算模块7054,用于根据公式(5)计算区域Mi的第四向量;
mean(rowlines)表示水平直线间隔的平均值,max(rowlines)表示水平直线间隔的最大值;
第五计算模块7055,用于根据公式(6)计算区域Mi的第五向量:
si5=count(collines) (6)
count(collines)为竖直直线collines的数量;
第六计算模块7056,用于根据公式(7)计算区域Mi的第六向量:
mean(collines)表示竖直直线间隔的平均值,max(collines)表示竖直直线间隔的最大值;
从而得到区域Mi的6个向量序列{si1,si2,si3,si4,si5,si6}。
文本识别模块7057,用于在区域Mi满足第一条件:
即si1<s1,且si2<s2,s1,s2∈(0,1),识别区域Mi为文本;
表格识别模块7058,用于在区域Mi满足第二条件:
即si3>s3,且|si4-1|<s4;
或,
si5>s5,且|si6-1|<s6,s4,s6∈(0,1),s3,s5为自然数,识别区域Mi为表格;
图片识别模块7059,用于在区域Mi中的向量序列{si1,si2,si3,si4,si5,si6}既不满足所述第一条件,也不满足所述第二条件,识别区域Mi为图片。
基于图7所述的实施例,下面详细描述基于图像的信息识别系统中的识别提取单元,请参阅图10,图10为图7中识别提取单元的细化模块示意图,其中识别提取单元703,包括:
高频滤波模块7031,用于对单通道图像进行高频滤波,以得到第一灰度图像;
卡尔曼滤波模块7032,用于根据所述灰度图像和所述第一灰度图像,对灰度图像中每个像素的灰度值进行卡尔曼滤波,以得到所述灰度图像的模板图像;
前景识别模块7033,用于计算所述模板图像中每个像素的灰度值与所述第一灰度图像中对应像素的灰度值差值的距离范数,若所述距离范数大于预设阈值,则将当前像素定义为前景图像,否则,将当前像素定义为背景图像;
提取模块7034,用于对所述前景图像进行输出显示。
基于图10所述的实施例,下面详细描述识别提取单元中的卡尔曼滤波模块,请参阅图11,图11为图10中卡尔曼滤波模块的细化模块示意图,其中卡尔曼滤波模块7032,包括:
背景灰度估计子模块70321,用于对所述灰度图像的背景灰度进行估计,以得到所述灰度图像的背景特征灰度值;
高频滤波子模块70322,用于在所述灰度图像中,选取以G(i,j)为中心,m*n为大小的区域,对所述区域中每个像素的灰度值运用进行高频滤波,以得到所述区域的第一灰度图像;
灰度值预测子模块70323,用于根据以下公式(8)和公式(9)计算灰度图像中每个像素的灰度预测值:
w1+w2+w3=1; (9)
若B(i-1,j-1)、B(i-1,j)或B(i,j-1)中的任一像素超出B的边界,则令超出所述边界的像素值为所述背景特征灰度值;
修正子模块70324,用于根据公式(10)对所述每个像素的灰度预测值进行修正:
以得到模板图像中的每个像素的灰度值。
基于图10所述的实施例,下面详细描述识别提取单元中的前景识别模块,请参阅图12,图12为图10中前景识别模块的细化模块示意图,其中前景识别模块7033,包括:
距离范数计算子模块70331,用于根据公式(11)计算所述模板图像中每个像素的灰度值与所述第一灰度图像中对应像素的灰度值差值的距离范数:
前景识别子模块70332,用于根据公式(12)确定当前像素为前景图像或背景图像,ε为视觉感知灰度阈值:
若所述距离范数大于所述ε,则将当前像素定义为前景图像,若所述距离范数不大于所述ε,则将当前像素定义为背景图像。
上面从模块化功能实体的角度对本申请实施例中的基于图像的信息识别系统进行了描述,下面从硬件处理的角度对本申请实施例中的基于图像的信息识别系统进行描述:
本申请实施例中基于图像的信息识别系统一个实施例包括:
处理器以及存储器;
存储器用于存储计算机程序,处理器用于执行存储器中存储的计算机程序时,可以实现如下步骤:
获取原始图像,判断所述原始图像是否为单通道图像;
若否,将所述原始图像转换为单通道图像,以得到所述原始图像的灰度图像;
识别并提取出所述灰度图像中的前景图像;
对所述前景图像进行密度聚类分析,得到所述前景图像中的多个区域;
计算每个区域的多个向量序列,并根据所述多个向量序列对所述单通道图像中的文本、表格及图片进行识别。
在本申请的一些实施例中,处理器,还可以用于实现如下步骤:
确定所述前景图像中的连通域;
根据公式(1)判断相邻的两个连通域中的任两个像素点的最小距离范数是否大于预设的距离阈值;
||Mi-Mj||>d i,j∈1,2…n,且i≠j (1)
若不大于,则将所述相邻的两个连通域归为同一个区域;
若大于,则将所述相邻的两个连通域归为不同的两个区域,以得到所述前景图像中的多个区域。
在本申请的一些实施例中,处理器,还可以用于实现如下步骤:
根据公式(2)计算区域Mi的第一向量:
sum(Mi)为Mi区域的前景像素总和,size(Mi)为Mi的区域面积总和;
根据公式(3)计算区域Mi的第二向量:
sum(border(Mi))为Mi区域的边界像素总和,size(border(Mi))为Mi区域的边界面积总和;
根据公式(4)计算区域Mi的第三向量;
si3=count(rowlines) (4)
count(rowlines)为水平直线rowlines的数量;
根据公式(5)计算区域Mi的第四向量;
mean(rowlines)表示水平直线间隔的平均值,max(rowlines)表示水平直线间隔的最大值;
根据公式(6)计算区域Mi的第五向量:
si5=count(collines) (6)
count(collines)为竖直直线collines的数量;
根据公式(7)计算区域Mi的第六向量:
mean(collines)表示竖直直线间隔的平均值,max(collines)表示竖直直线间隔的最大值;
从而得到区域Mi的6个向量序列{si1,si2,si3,si4,si5,si6}。
在本申请的一些实施例中,处理器,还可以用于实现如下步骤:
若区域Mi满足第一条件:
即si1<s1,且si2<s2,s1,s2∈(0,1),则区域Mi为文本;
若区域Mi满足第二条件:
即si3>s3,且|si4-1|<s4;
或,
si5>s5,且|si6-1|<s6,s4,s6∈(0,1),s3,s5为自然数,则区域Mi为表格;
若区域Mi中的向量序列{si1,si2,si3,si4,si5,si6}既不满足所述第一条件,也不满足所述第二条件,则区域Mi为图片。
在本申请的一些实施例中,处理器,还可以用于实现如下步骤:
对单通道图像进行高频滤波,以得到第一灰度图像;
根据所述灰度图像和所述第一灰度图像,对灰度图像中每个像素的灰度值进行卡尔曼滤波,以得到所述灰度图像的模板图像;
计算所述模板图像中每个像素的灰度值与所述第一灰度图像中对应像素的灰度值差值的距离范数,若所述距离范数大于预设阈值,则将当前像素定义为前景图像,否则,将当前像素定义为背景图像;
对所述前景图像进行输出显示。
在本申请的一些实施例中,处理器,还可以用于实现如下步骤:
对所述灰度图像的背景灰度进行估计,以得到所述灰度图像的背景特征灰度值;
在所述灰度图像中,选取以G(i,j)为中心,m*n为大小的区域,对所述区域中每个像素的灰度值运用进行高频滤波,以得到所述区域的第一灰度图像;
根据以下公式(8)和公式(9)计算灰度图像中每个像素的灰度预测值:
w1+w2+w3=1; (9)
若B(i-1,j-1)、B(i-1,j)或B(i,j-1)中的任一像素超出B的边界,则令超出所述边界的像素值为所述背景特征灰度值;
根据公式(10)对所述每个像素的灰度预测值进行修正:
以得到模板图像中的每个像素的灰度值。
在本申请的一些实施例中,处理器,还可以用于实现如下步骤:
根据公式(11)计算所述模板图像中每个像素的灰度值与所述第一灰度图像中对应像素的灰度值差值的距离范数:
根据公式(12)确定当前像素为前景图像或背景图像,ε为视觉感知灰度阈值:
若所述距离范数大于所述ε,则将当前像素定义为前景图像,若所述距离范数不大于所述ε,则将当前像素定义为背景图像。
可以理解的是,上述说明的计算机装置中的处理器执行所述计算机程序时,也可以实现上述对应的各装置实施例中各单元的功能,此处不再赘述。示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述基于图像的信息识别系统中的执行过程。例如,所述计算机程序可以被分割成上述基于图像的信息识别系统中的各单元,各单元可以实现如上述相应基于图像的信息识别系统说明的具体功能。
所述计算机装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机装置可包括但不仅限于处理器、存储器。本领域技术人员可以理解,处理器、存储器仅仅是计算机装置的示例,并不构成对计算机装置的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述计算机装置还可以包括输入输出设备、网络接入设备、总线等。
所述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本申请还提供了一种计算机可读存储介质,该计算机可读存储介质用于实现基于图像的信息识别系统的功能,其上存储有计算机程序,计算机程序被处理器执行时,处理器,可以用于执行如下步骤:
获取原始图像,判断所述原始图像是否为单通道图像;
若否,将所述原始图像转换为单通道图像,以得到所述原始图像的灰度图像;
识别并提取出所述灰度图像中的前景图像;
对所述前景图像进行密度聚类分析,得到所述前景图像中的多个区域;
计算每个区域的多个向量序列,并根据所述多个向量序列对所述单通道图像中的文本、表格及图片进行识别。
在本申请的一些实施例中,计算机可读存储介质存储的计算机程序被处理器执行时,处理器,可以具体用于执行如下步骤:
确定所述前景图像中的连通域;
根据公式(1)判断相邻的两个连通域中的任两个像素点的最小距离范数是否大于预设的距离阈值;
||Mi-Mj||>d i,j∈1,2…n,且i≠j (1)
若不大于,则将所述相邻的两个连通域归为同一个区域;
若大于,则将所述相邻的两个连通域归为不同的两个区域,以得到所述前景图像中的多个区域。
在本申请的一些实施例中,计算机可读存储介质存储的计算机程序被处理器执行时,处理器,可以具体用于执行如下步骤:
根据公式(2)计算区域Mi的第一向量:
sum(Mi)为Mi区域的前景像素总和,size(Mi)为Mi的区域面积总和;
根据公式(3)计算区域Mi的第二向量:
sum(border(Mi))为Mi区域的边界像素总和,size(border(Mi))为Mi区域的边界面积总和;
根据公式(4)计算区域Mi的第三向量;
si3=count(rowlines) (4)
count(rowlines)为水平直线rowlines的数量;
根据公式(5)计算区域Mi的第四向量;
mean(rowlines)表示水平直线间隔的平均值,max(rowlines)表示水平直线间隔的最大值;
根据公式(6)计算区域Mi的第五向量:
si5=count(collines) (6)
count(collines)为竖直直线collines的数量;
根据公式(7)计算区域Mi的第六向量:
mean(collines)表示竖直直线间隔的平均值,max(collines)表示竖直直线间隔的最大值;
从而得到区域Mi的6个向量序列{si1,si2,si3,si4,si5,si6}。
在本申请的一些实施例中,计算机可读存储介质存储的计算机程序被处理器执行时,处理器,可以具体用于执行如下步骤:
若区域Mi满足第一条件:
即si1<s1,且si2<s2,s1,s2∈(0,1),则区域Mi为文本;
若区域Mi满足第二条件:
即si3>s3,且|si4-1|<s4;
或,
si5>s5,且|si6-1|<s6,s4,s6∈(0,1),s3,s5为自然数,则区域Mi为表格;
若区域Mi中的向量序列{si1,si2,si3,si4,si5,si6}既不满足所述第一条件,也不满足所述第二条件,则区域Mi为图片。
在本申请的一些实施例中,计算机可读存储介质存储的计算机程序被处理器执行时,处理器,可以具体用于执行如下步骤:
对单通道图像进行高频滤波,以得到第一灰度图像;
根据所述灰度图像和所述第一灰度图像,对灰度图像中每个像素的灰度值进行卡尔曼滤波,以得到所述灰度图像的模板图像;
计算所述模板图像中每个像素的灰度值与所述第一灰度图像中对应像素的灰度值差值的距离范数,若所述距离范数大于预设阈值,则将当前像素定义为前景图像,否则,将当前像素定义为背景图像;
对所述前景图像进行输出显示。
在本申请的一些实施例中,计算机可读存储介质存储的计算机程序被处理器执行时,处理器,可以具体用于执行如下步骤:
对所述灰度图像的背景灰度进行估计,以得到所述灰度图像的背景特征灰度值;
在所述灰度图像中,选取以G(i,j)为中心,m*n为大小的区域,对所述区域中每个像素的灰度值运用进行高频滤波,以得到所述区域的第一灰度图像;
根据以下公式(8)和公式(9)计算灰度图像中每个像素的灰度预测值:
w1+w2+w3=1; (9)
若B(i-1,j-1)、B(i-1,j)或B(i,j-1)中的任一像素超出B的边界,则令超出所述边界的像素值为所述背景特征灰度值;
根据公式(10)对所述每个像素的灰度预测值进行修正:
以得到模板图像中的每个像素的灰度值。
在本申请的一些实施例中,计算机可读存储介质存储的计算机程序被处理器执行时,处理器,可以具体用于执行如下步骤:
根据公式(11)计算所述模板图像中每个像素的灰度值与所述第一灰度图像中对应像素的灰度值差值的距离范数:
根据公式(12)确定当前像素为前景图像或背景图像,ε为视觉感知灰度阈值:
若所述距离范数大于所述ε,则将当前像素定义为前景图像,若所述距离范数不大于所述ε,则将当前像素定义为背景图像。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种基于图像的信息识别方法,所述信息包括文本、表格及图片,其特征在于,所述方法包括:
获取原始图像,判断所述原始图像是否为单通道图像;
若否,将所述原始图像转换为单通道图像,以得到所述原始图像的灰度图像;
识别并提取出所述灰度图像中的前景图像;
对所述前景图像进行密度聚类分析,得到所述前景图像中的多个区域;
计算每个区域的多个向量序列,并根据所述多个向量序列对所述单通道图像中的文本、表格及图片进行识别。
2.根据权利要求1所述的方法,其特征在于,所述对所述前景图像进行密度聚类分析,得到所述前景图像中的多个区域,包括:
确定所述前景图像中的连通域;
根据公式(1)判断相邻的两个连通域中的任两个像素点的最小距离范数是否大于预设的距离阈值;
||Mi-Mj||>d i,j∈1,2…n,且i≠j (1)
若不大于,则将所述相邻的两个连通域归为同一个区域;
若大于,则将所述相邻的两个连通域归为不同的两个区域,以得到所述前景图像中的多个区域。
3.根据权利要求2所述的方法,其特征在于,所述计算每个区域的多个向量序列,包括:
根据公式(2)计算区域Mi的第一向量:
sum(Mi)为Mi区域的前景像素总和,size(Mi)为Mi的区域面积总和;
根据公式(3)计算区域Mi的第二向量:
sum(border(Mi))为Mi区域的边界像素总和,size(border(Mi))为Mi区域的边界面积总和;
根据公式(4)计算区域Mi的第三向量;
si3=count(rowlines) (4)
count(rowlines)为水平直线rowlines的数量;
根据公式(5)计算区域Mi的第四向量;
mean(rowlines)表示水平直线间隔的平均值,max(rowlines)表示水平直线间隔的最大值;
根据公式(6)计算区域Mi的第五向量:
si5=count(collines) (6)
count(collines)为竖直直线collines的数量;
根据公式(7)计算区域Mi的第六向量:
mean(collines)表示竖直直线间隔的平均值,max(collines)表示竖直直线间隔的最大值;
从而得到区域Mi的6个向量序列{si1,si2,si3,si4,si5,si6}。
4.根据权利要求3所述的方法,其特征在于,所述根据所述多个向量序列对所述单通道图像中的文本、表格及图像进行识别,包括:
若区域Mi满足第一条件:
即si1<s1,且si2<s2,s1,s2∈(0,1),则区域Mi为文本;
若区域Mi满足第二条件:
即si3>s3,且|si4-1|<s4;
或,
si5>s5,且|si6-1|<s6,s4,s6∈(0,1),s3,s5为自然数,则区域Mi为表格;
若区域Mi中的向量序列{si1,si2,si3,si4,si5,si6}既不满足所述第一条件,也不满足所述第二条件,则区域Mi为图片。
5.根据权利要求1所述的方法,其特征在于,所述识别并提取出所述灰度图像中的前景图像,包括:
对单通道图像进行高频滤波,以得到第一灰度图像;
根据所述灰度图像和所述第一灰度图像,对灰度图像中每个像素的灰度值进行卡尔曼滤波,以得到所述灰度图像的模板图像;
计算所述模板图像中每个像素的灰度值与所述第一灰度图像中对应像素的灰度值差值的距离范数,若所述距离范数大于预设阈值,则将当前像素定义为前景图像,否则,将当前像素定义为背景图像;
对所述前景图像进行输出显示。
6.根据权利要求5所述的方法,其特征在于,所述根据所述灰度图像和所述第一灰度图像,对灰度图像中每个像素的灰度值进行卡尔曼滤波,以得到所述灰度图像的模板图像,包括:
对所述灰度图像的背景灰度进行估计,以得到所述灰度图像的背景特征灰度值;
在所述灰度图像中,选取以G(i,j)为中心,m*n为大小的区域,对所述区域中每个像素的灰度值运用进行高频滤波,以得到所述区域的第一灰度图像;
根据以下公式(8)和公式(9)计算灰度图像中每个像素的灰度预测值:
w1+w2+w3=1; (9)
若B(i-1,j-1)、B(i-1,j)或B(i,j-1)中的任一像素超出B的边界,则令超出所述边界的像素值为所述背景特征灰度值;
根据公式(10)对所述每个像素的灰度预测值进行修正:
以得到模板图像中的每个像素的灰度值。
7.根据权利要求6所述的方法,其特征在于,所述计算所述模板图像中每个像素的灰度值与所述第一灰度图像中对应像素的灰度值差值的距离范数,若所述距离范数大于预设阈值,则将当前像素定义为前景图像,否则,将当前像素定义为背景图像,包括:
根据公式(11)计算所述模板图像中每个像素的灰度值与所述第一灰度图像中对应像素的灰度值差值的距离范数:
根据公式(12)确定当前像素为前景图像或背景图像,ε为视觉感知灰度阈值:
若所述距离范数大于所述ε,则将当前像素定义为前景图像,若所述距离范数不大于所述ε,则将当前像素定义为背景图像。
8.一种基于图像的信息识别系统,所述信息包括文本、表格及图片,其特征在于,所述系统,包括:
获取判断单元,用于获取原始图像,判断所述原始图像是否为单通道图像;
转换单元,用于在所述原始图像不为单通道图像时,将所述原始图像转换为单通道图像,以得到所述原始图像的灰度图像;
识别提取单元,用于识别并提取出所述灰度图像中的前景图像;
聚类分析单元,用于对所述前景图像进行密度聚类分析,得到所述前景图像中的多个区域;
计算识别单元,用于计算每个区域的多个向量序列,并根据所述多个向量序列对所述单通道图像中的文本、表格及图片进行识别。
9.一种基于图像的信息识别系统,其特征在于,包括处理器,所述处理器在执行存储于存储器上的计算机程序时,用于实现如权利要求1至7中任一项所述的基于图像的信息识别方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,用于实现如权利要求1至7中任一项所述的基于图像的信息识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810994077.3A CN109255311B (zh) | 2018-08-29 | 2018-08-29 | 一种基于图像的信息识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810994077.3A CN109255311B (zh) | 2018-08-29 | 2018-08-29 | 一种基于图像的信息识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109255311A true CN109255311A (zh) | 2019-01-22 |
CN109255311B CN109255311B (zh) | 2022-05-17 |
Family
ID=65048947
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810994077.3A Active CN109255311B (zh) | 2018-08-29 | 2018-08-29 | 一种基于图像的信息识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109255311B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111709943A (zh) * | 2020-06-30 | 2020-09-25 | 广东省智能制造研究所 | 一种工件超视野识别方法、装置、存储介质及电子设备 |
CN113341668A (zh) * | 2021-06-23 | 2021-09-03 | 南京立思辰智能设备有限公司 | 基于打印基材检测的打印质量自适应调整的激光打印机 |
CN113406867A (zh) * | 2021-06-23 | 2021-09-17 | 南京立思辰智能设备有限公司 | 基于打印质量识别的打印质量自适应调整的激光打印机 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5761686A (en) * | 1996-06-27 | 1998-06-02 | Xerox Corporation | Embedding encoded information in an iconic version of a text image |
CN102054271A (zh) * | 2009-11-02 | 2011-05-11 | 富士通株式会社 | 文本行检测方法和装置 |
US20120237116A1 (en) * | 2011-03-18 | 2012-09-20 | Jing Xiao | Identifying Text Pixels in Scanned Images |
CN103258201A (zh) * | 2013-04-26 | 2013-08-21 | 四川大学 | 一种融合全局和局部信息的表格线提取方法 |
CN106156715A (zh) * | 2015-04-24 | 2016-11-23 | 富士通株式会社 | 分析表格图像的布局的方法和设备 |
-
2018
- 2018-08-29 CN CN201810994077.3A patent/CN109255311B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5761686A (en) * | 1996-06-27 | 1998-06-02 | Xerox Corporation | Embedding encoded information in an iconic version of a text image |
CN102054271A (zh) * | 2009-11-02 | 2011-05-11 | 富士通株式会社 | 文本行检测方法和装置 |
US20120237116A1 (en) * | 2011-03-18 | 2012-09-20 | Jing Xiao | Identifying Text Pixels in Scanned Images |
CN103258201A (zh) * | 2013-04-26 | 2013-08-21 | 四川大学 | 一种融合全局和局部信息的表格线提取方法 |
CN106156715A (zh) * | 2015-04-24 | 2016-11-23 | 富士通株式会社 | 分析表格图像的布局的方法和设备 |
Non-Patent Citations (2)
Title |
---|
YUCUN PAN,ET AL: "《Document layout analysis and reading order determination for a reading robot》", 《TENCON 2010-2010 IEEE REGION 10 CONFERENCE》 * |
张贺友: "《基于Android平台的拍照文档图像版面分析系统》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111709943A (zh) * | 2020-06-30 | 2020-09-25 | 广东省智能制造研究所 | 一种工件超视野识别方法、装置、存储介质及电子设备 |
CN111709943B (zh) * | 2020-06-30 | 2024-04-26 | 广东省智能制造研究所 | 一种工件超视野识别方法、装置、存储介质及电子设备 |
CN113341668A (zh) * | 2021-06-23 | 2021-09-03 | 南京立思辰智能设备有限公司 | 基于打印基材检测的打印质量自适应调整的激光打印机 |
CN113406867A (zh) * | 2021-06-23 | 2021-09-17 | 南京立思辰智能设备有限公司 | 基于打印质量识别的打印质量自适应调整的激光打印机 |
Also Published As
Publication number | Publication date |
---|---|
CN109255311B (zh) | 2022-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lukac et al. | Vector filtering for color imaging | |
US8891905B2 (en) | Boundary-based high resolution depth mapping | |
KR102138950B1 (ko) | 조합된 깊이 큐들에 기초하여 모노스코픽 이미지로부터 깊이 맵 생성 | |
Chen et al. | A novel color edge detection algorithm in RGB color space | |
CN111583097A (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
CN108921820B (zh) | 一种基于颜色特征和聚类算法的显著性目标检测方法 | |
EP2863362B1 (en) | Method and apparatus for scene segmentation from focal stack images | |
CN109255311A (zh) | 一种基于图像的信息识别方法及系统 | |
CN103035003B (zh) | 一种实现增强现实的方法及装置 | |
CN106327488B (zh) | 一种自适应的前景检测方法及其检测装置 | |
CN110399882A (zh) | 一种基于可变形卷积神经网络的文字检测方法 | |
WO2014133584A1 (en) | Image processor with multi-channel interface between preprocessing layer and one or more higher layers | |
CN110503704A (zh) | 三分图的构造方法、装置和电子设备 | |
CN112651953A (zh) | 图片相似度计算方法、装置、计算机设备及存储介质 | |
Lee et al. | Correspondence matching of multi-view video sequences using mutual information based similarity measure | |
US20040131236A1 (en) | Method and apparatus for processing an image | |
CN108805838A (zh) | 一种图像处理方法、移动终端及计算机可读存储介质 | |
Losson et al. | CFA local binary patterns for fast illuminant-invariant color texture classification | |
CN111563517A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN109785367B (zh) | 三维模型追踪中外点滤除方法和装置 | |
Sergyán | Edge detection techniques of thermal images | |
Shi et al. | Corridor line detection for vision based indoor robot navigation | |
CN108810407A (zh) | 一种图像处理方法、移动终端及计算机可读存储介质 | |
Mahmoudpour et al. | Superpixel-based depth map estimation using defocus blur | |
CN108769521A (zh) | 一种拍照方法、移动终端及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |