CN113033360A - 文档图像识别装置及方法 - Google Patents
文档图像识别装置及方法 Download PDFInfo
- Publication number
- CN113033360A CN113033360A CN202110272091.4A CN202110272091A CN113033360A CN 113033360 A CN113033360 A CN 113033360A CN 202110272091 A CN202110272091 A CN 202110272091A CN 113033360 A CN113033360 A CN 113033360A
- Authority
- CN
- China
- Prior art keywords
- determined
- region
- similarity
- image
- document image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000004364 calculation method Methods 0.000 claims description 19
- 238000005192 partition Methods 0.000 claims description 18
- 238000010586 diagram Methods 0.000 description 8
- 238000007781 pre-processing Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000012015 optical character recognition Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种文档图像识别装置及方法,用于对包含复数页文档图像的文档进行页眉和页脚的识别,其特征在于,文档图像识别装置包括:待判定图像形成部,将每一页文档图像分割形成多个待判定图像;区域判定获取部,判定出各个文档图像中位置相互对应的待判定图像,并获取该待判定图像在文档图像中相对应的区域作为待判定区域;相似度判定部,依次判定待判定区域在各个文档图像中对应的待判定图像的相似度是否高于预定相似阈值;以及页眉页脚识别部,将被判定为相似度高于预定相似阈值的待判定区域且位于文档图像上方的待判定区域识别为页眉区域,并将被判定为相似度高于预定相似阈值的待判定区域且位于文档图像下方的待判定区域识别为页脚区域。
Description
技术领域
本发明涉及一种文档图像识别装置及方法。
背景技术
很多文档中都设有页眉、页脚,用来显示一些文档的附加信息,如文档标题、日期、图标、页码等。但这些信息通常与文档正文的内容无关,因此,在一些需要对文档内容进行识别获取的场合中,需要先识别出页眉和页脚,从而区分页眉、页脚和正文,避免页眉、页脚中的内容被错误地识别为正文内容。
传统的页眉、页脚识别方法通常都针对电子文档,即,可以根据电子文档中设定的文档格式来识别出文档中页眉、页脚的位置。然而,随着光学字符识别的发展,现有很多文档内容的识别任务的对象是图像形式的文档,如通过扫描仪扫描得到的文档图像,这些文档图像难以通过上述传统的方法来完成页眉和页脚的识别。
另外,由于页眉、页脚的形态各异,例如:有的内容相对较多导致占据的区域较大,而有些则相反;不同文档的页眉、页脚也不都通过分割线进行划分,因此,通过预先划分页眉页脚区域、识别分割线等方式来确定出的页眉和页脚往往不够准确,仍然可能对正文内容的识别造成影响。
发明内容
为解决上述问题,提供一种能够准确识别出文档图像中页眉和页脚的文档图像识别装置及方法,本发明采用了如下技术方案:
<结构一>
本发明提供了一种文档图像识别装置,用于对包含复数页文档图像的文档进行页眉和页脚的识别,其特征在于,包括:待判定图像形成部,依次将每一页文档图像分割形成多个待判定图像;区域判定获取部,判定出文档图像中与其他文档图像中的待判定图像的位置相对应的待判定图像,并获取该待判定图像在文档图像中相对应的区域作为待判定区域;相似度判定部,依次判定待判定区域在各个文档图像中对应的待判定图像的相似度是否高于预定相似阈值;以及页眉页脚识别部,将被判定为相似度高于预定相似阈值的待判定区域且位于文档图像上方的待判定区域识别为页眉区域,并将被判定为相似度高于预定相似阈值的待判定区域且位于文档图像下方的待判定区域识别为页脚区域。
<结构二>
本发明提供了一种文档图像识别方法,用于对包含复数页文档图像的文档进行页眉和页脚的识别,其特征在于,包括以下步骤:待判定图像形成步骤,依次将每一页文档图像分割形成多个待判定图像;区域判定获取步骤,判定出文档图像中与其他文档图像中的待判定图像的位置相对应的待判定图像,并获取该待判定图像在文档图像中相对应的区域作为待判定区域;相似度判定步骤,依次判定待判定区域在各个文档图像中对应的待判定图像的相似度是否高于预定相似阈值;以及页眉页脚识别步骤,将被判定为相似度高于预定相似阈值的待判定区域且位于文档图像上方的待判定区域识别为页眉区域,并将被判定为相似度高于预定相似阈值的待判定区域且位于文档图像下方的待判定区域识别为页脚区域。
发明作用与效果
根据本发明的文档图像识别装置及方法,由于将文档图像分割为多个待判定图像后,通过判定出各个文档图像之间位置相互对应的待判定图像来确定其对应的待判定区域,并对该待判定区域在各个文档图像中对应的待判定图像的相似度进行计算,因此就可以判定出各个文档图像之间相似的待判定区域。进一步,通过将这些待判定区域以及其所在位置即可确定出页眉区域以及页脚区域。通过这样的方式,可以避免遭受页眉和页脚的众多格式的干扰,识别出各个文档图像之间具有相似性的图像,进而根据其位置就能够准确地识别出页眉和页脚的所在区域。
附图说明
图1是本发明实施例中文档图像识别装置的框图;
图2是本发明实施例中文档图像的示意图;
图3是本发明实施例中像素区域的示意图;
图4是本发明实施例中文档图像识别的对比示意图;
图5是本发明实施例中页眉分割线的示意图;以及
图6是本发明实施例中文档图像识别装置的文档图像识别过程的流程图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下结合实施例及附图对本发明的扫描系统作具体阐述。
作为一种实施形态,本发明提供了一种文档图像识别装置,用于对包含复数页文档图像的文档进行页眉和页脚的识别,其特征在于,包括:待判定图像形成部,依次将每一页文档图像分割形成多个待判定图像;区域判定获取部,判定出文档图像中与其他文档图像中的待判定图像的位置相对应的待判定图像,并获取该待判定图像在文档图像中相对应的区域作为待判定区域;相似度判定部,依次判定待判定区域在各个文档图像中对应的待判定图像的相似度是否高于预定相似阈值;以及页眉页脚识别部,将被判定为相似度高于预定相似阈值的待判定区域且位于文档图像上方的待判定区域识别为页眉区域,并将被判定为相似度高于预定相似阈值的待判定区域且位于文档图像下方的待判定区域识别为页脚区域。
在第一种实施形态中,还可以具有这样的技术特征,其中,页眉页脚识别部具有当前相似区域设定单元、相似度系数计算单元、相似度判断单元、区域确定单元以及识别控制单元,识别控制单元控制当前相似区域设定单元按照预定顺序依次将每一个被判定为相似度高于预定相似阈值的待判定区域设定为当前相似区域,每当当前相似区域设定单元设定当前相似区域,相似度系数计算单元就根据当前相似区域从各个文档图像中获取对应的图像作为相似判定用图像,并分别计算每两个相似判定用图像之间的相似度系数,相似度判断单元判断相似度系数是否高于预定相似阈值,一旦相似度判断单元判断相似度系数不高于预定相似阈值,识别控制单元就控制当前相似区域设定单元停止将待判定区域设定为当前相似区域,并控制区域确定单元根据预定的页眉页脚确定规则以及被判断为相似度系数高于预定相似阈值的待判定区域确定页眉区域以及页脚区域。
在第一种实施形态中,还可以具有这样的技术特征,其中,页眉页脚确定规则为确定页眉分割线以上的区域为页眉区域以及确定页脚分割线以下的区域为页脚区域,页眉页脚识别部还具有分割线位置确定单元以及综合分割线设定单元,当页眉页脚识别部识别页眉区域时,一旦相似度判断单元判断相似度系数不高于预定相似阈值,识别控制单元还控制分割线位置确定单元根据最后一个被判断为相似度系数高于预定相似阈值的待判定区域,将该待判定区域的底部所在的位置确定为文档图像中的分割线位置,进一步控制综合分割线设定单元获取各个分割线位置中位置误差在预定误差阈值内的分割线位置作为候选分割线位置,并根据候选分割线位置的中值设定对应的综合分割线作为页眉分割线,当页眉页脚识别部识别页脚区域时,一旦相似度判断单元判断相似度系数不高于预定相似阈值,识别控制单元还控制分割线位置确定单元根据最后一个被判断为相似度系数高于预定相似阈值的待判定区域,将该待判定区域的顶部所在的位置确定为文档图像中的分割线位置,进一步控制综合分割线设定单元获取各个分割线位置中位置误差在预定误差阈值内的分割线位置作为候选分割线位置,并根据候选分割线位置的中值设定对应的综合分割线作为页脚分割线。
在第一种实施形态中,还可以具有这样的技术特征,其中,页眉页脚确定规则为将位于文档图像四分之一的高度上方并且被判断为相似度系数高于预定相似阈值的待判定区域确定为页眉区域,并将位于文档图像四分之三高度下方并且被判断为相似度系数高于预定相似阈值的待判定区域确定为页脚区域。
在第一种实施形态中,还可以具有这样的技术特征,其中,当页眉页脚识别部识别页眉区域时,预定顺序为由上至下的顺序,当页眉页脚识别部识别页脚区域时,预定顺序为由下至上的顺序。
在第一种实施形态中,还可以具有这样的技术特征,其中,区域判定获取部具有:位置信息获取单元,获取每个待判定图像在文档图像中的位置大小信息;位置大小误差判断单元,判断文档图像的每个待判定图像与其他文档图像中的各个待判定图像的位置大小信息之间的位置大小误差是否在预定误差阈值内;以及待判定区域设定单元,当位置大小误差判断单元判断位置大小误差在预定误差阈值内时,就根据相应两个待判定图像的位置大小信息确定对应的区域设定为待判定区域。
在第一种实施形态中,还可以具有这样的技术特征,其中,相似度判定部具有:待判定图像获取单元,根据待判定区域从相应的两个文档图像中获取对应的待判定图像作为待判定图像对;灰度化处理单元,对待判定图像对进行灰度化处理;像素数集合形成单元,将待判定图像对的所有像素值沿纵向进行求和从而得到待判定图像对的像素值集合;相似度系数计算单元,根据像素值集合计算皮尔森相关系数作为相似度系数;以及相似度判定单元,根据相似度系数判定待判定区域对应的待判定图像对之间的相似度是否高于预定相似阈值。
在第一种实施形态中,还可以具有这样的技术特征,其中,待判定图像形成部具有:像素区域确定单元,根据文档图像中空白区域对文档图像进行切割,从而确定出文档图像中所有的像素区域;行区域形成单元,根据各个像素区域在文档图像中的位置,将位于同一高度的像素区域进行合并形成多个行区域;以及待判定图像形成单元,从文档图像中分别获取多个与行区域相对应的图像作为待判定图像。
作为第二种实施形态,本发明还提供了一种文档图像识别方法,用于对包含复数页文档图像的文档进行页眉和页脚的识别,其特征在于,包括以下步骤:待判定图像形成步骤,依次将每一页文档图像分割形成多个待判定图像;区域判定获取步骤,判定出文档图像中与其他文档图像中的待判定图像的位置相对应的待判定图像,并获取该待判定图像在文档图像中相对应的区域作为待判定区域;相似度判定步骤,依次判定待判定区域在各个文档图像中对应的待判定图像的相似度是否高于预定相似阈值;以及页眉页脚识别步骤,将被判定为相似度高于预定相似阈值的待判定区域且位于文档图像上方的待判定区域识别为页眉区域,并将被判定为相似度高于预定相似阈值的待判定区域且位于文档图像下方的待判定区域识别为页脚区域。
<实施例>
本实施例中,文档图像识别装置为一台运行有对应于文档图像识别的计算机程序的终端,用于根据用户输入的多页文档图像对其进行页眉页脚的识别,该多页文档图像为用户预先对一份纸质文档进行扫描得到,各页文档图像具有同样的页眉以及页脚。
图1是本发明实施例中文档图像识别装置的框图。
如图1所示,文档图像识别装置10包括图像预处理部11、待判定图像形成部12、区域判定获取部13、相似度判定部14、页眉页脚识别部15以及用于控制上述各部的装置控制部16。
图像预处理部11用于对被输入的文档图像进行文档预处理,该文档预处理具体包括:将文档图像转换为300dpi的png图片、对文档图像进行纠偏、转换为灰度图以及去除噪声。
本实施例中,由于文档图像为扫描纸质文档得到的扫描图像,因此可能导致文档图像中的文本存在倾斜,因此在文档预处理通过对文档图像进行纠偏来消除这种倾斜。
图2是本发明实施例中文档图像的示意图,该图2示出了三页文档图像111、112以及113,本实施例接下来将以该三页文档图像对文档图像识别装置10的页眉页脚识别过程作具体描述。
待判定图像形成部12依次将每一页文档图像分割形成多个待判定图像。
本实施例中,待判定图像形成部12具有像素区域确定单元121、行区域形成单元122以及待判定图像形成单元123。
像素区域确定单元121根据文档图像中空白区域对文档图像进行切割,从而确定出文档图像中所有的像素区域。
本实施例中,像素区域确定单元121使用X-Y算法递归地沿X轴、Y轴对文档图像进行裁剪分割直至裁剪的区域到达一个阈值,从而裁剪出文档图像中所有图标图像、字符图像对应的像素区域。
行区域形成单元122根据各个像素区域在文档图像中的位置,将位于同一高度的像素区域进行合并形成多个行区域。
图3是本发明实施例中像素区域的示意图。
如图3所示,在文档图像111中,虚线框124、125以及126示出了被裁剪出的像素区域(其余像素区域未在图像中示出,但每个字符和图标均会被确定出一个对应的像素区域),在进行拼合时,由于虚线框124、125以及与虚线框125同一行的其他字符均处于同一高度,因此被合并为一个行区域127,虚线框126则对应被合并形成行区域128。
待判定图像形成单元123分别根据行区域对文档图像进行分割,从而得到多个与行区域一一对应的待判定图像。另外,为保证待判定图像在后续过程中的处理效果,待判定图像形成单元123在得到待判定图像时,还对待判定图像进行了降噪处理以及高斯模糊平滑待判定图像。
区域判定获取部13用于判定出文档图像中与其他文档图像的待判定图像的位置相对应的待判定图像,并获取该待判定图像在文档图像中相对应的区域作为待判定区域。
本实施例中,区域判定获取部13具有位置信息获取单元131、位置大小误差判断单元132以及待判定区域设定单元133。
位置信息获取单元131获取每个待判定图像在文档图像中的位置大小信息。本实施例中,位置大小信息为待判定图像的左上点和右下点在文档图像中的像素坐标值。
位置大小误差判断单元132将第一页文档图像(以下称第一文档图像)中每个待判定图像(以下称第一图像)分别与其他页文档图像(以下称第二文档图像)中的各个待判定图像(以下称第二图像)两两进行配对,并判断第一图像与第二图像的位置大小信息之间的位置大小误差是否在预定误差阈值内。
本实施例中,位置大小误差为第一图像的位置大小信息与第二图像的位置大小信息的差的绝对值,预定误差阈值为20像素。
待判定区域设定单元133用于在图像位置误差判断单元132判断第一图像与第二图像之间的位置大小误差在预定误差阈值内时,根据该第一图像与第二图像对应的位置大小信息确定对应的区域设定为待判定区域。
本实施例中,由于第一图像与第二图像的宽高可能不一致,因此待判定区域设定单元133会根据两者的位置大小信息,将第一图像与第二图像中较大的宽高作为对齐的宽高,并以第一图像与第二图像各自的左上点为基准点,在相应的第一文档图像以及第二文档图像中确定对应的区域并设定为待判定区域。
另外,若位置大小误差大于预定误差阈值,则表示相应的第一图像与第二图像之间没有对应关系,位置大小误差判断单元132会对后续的第一图像与第二图像进行两两判定。
相似度判定部14依次判定每个待判定区域在各个文档图像中对应的待判定图像的相似度是否高于预定相似阈值。
本实施例中,相似度判定部14具有待判定图像获取单元141、灰度化处理单元142、像素数集合形成单元143、相似度系数计算单元144、相似度判定单元145以及相似判定控制单元146。
待判定图像获取单元141用于根据待判定区域分别对相应的两个文档图像(即第一文档图像以及第二文档图像)进行图像截取,从而获取到对应的待判定图像作为待判定图像对。
灰度化处理单元142对待判定图像对进行灰度化处理,该灰度化处理为翻转灰度图的值,从而使得待判定图像中背景的像素值接近0、前景的像素值接近255。
像素数集合形成单元143将待判定图像对的所有像素值沿纵向(即沿图3中Y轴方向)进行求和从而得到待判定图像对的像素值集合。
相似度系数计算单元144根据像素值集合计算皮尔森相关系数(Pearson相关系数)作为相似度系数。
相似度判定单元145根据相似度系数判定待判定区域对应的待判定图像对之间的相似度是否高于预定相似阈值。本实施例中,预定相似阈值取值为0.7。
相似判定控制单元146用于控制待判定图像获取单元141、灰度化处理单元142、像素数集合形成单元143、相似度系数计算单元144、相似度判定单元145分别对区域判定获取部13获取的每一个待判定区域进行相似度的计算。
图4是本发明实施例中文档图像识别的对比示意图。
如图4所示,在区域判定获取部13对文档图像111以及113进行判定后,会判定出位置以及区域大小都在误差范围内的待判定区域(即行区域)127和128。接下来,通过相似度判定部14进行相似度判定后,可以判定出待判定区域127在文档图像111以及113中的两个待判定图像的相似度是否高于预定相似阈值,而待判定区域128所对应的待判定图像会因为文本内容的不同而无法达到预定相似阈值。
页眉页脚识别部15将被判定为相似度高于预定相似阈值的待判定区域且位于文档上方的待判定区域识别为页眉区域,并将被判定为相似度高于预定相似阈值的待判定区域且位于文档下方的待判定区域识别为页脚区域。
本实施例中,页眉页脚识别部具有当前相似区域设定单元151、相似度系数计算单元152、相似度判断单元153、区域确定单元154、分割线位置确定单元155、综合分割线设定单元156以及识别控制单元157。
识别控制单元157用于控制当前相似区域设定单元151、相似度系数计算单元152、相似度判断单元153、区域确定单元154、分割线位置确定单元155、综合分割线设定单元156完成对页眉区域和页脚区域的识别。
当进行页眉区域的识别时,识别控制单元155就控制当前相似区域设定单元151按照由上至下的顺序依次将每一个被判定为相似度高于预定相似阈值的待判定区域设定为当前相似区域。
本实施例中,在进行页眉区域的识别时,识别控制单元155仅控制各个单元依次对位于文档图像的四分之一高度之上的待判定区域进行处理。
每当当前相似区域设定单元设定当前相似区域,相似度系数计算单元152就根据当前相似区域从各个文档图像中获取对应的图像作为相似判定用图像,并分别计算每两个相似判定用图像之间的相似度系数。
本实施例中,相似度系数计算单元152生成的相似度系数为皮尔森相关系数,其生成方法与相似度系数计算单元144相同,在此不再赘述。
相似度判断单元153判断相似度系数计算单元152生成的相似度系数是否高于预定相似阈值。
一旦相似度判断单元153判断相似度系数不高于预定相似阈值,识别控制单元157就控制当前相似区域设定单元停止将待判定区域设定为当前相似区域,并依次控制分割线位置确定单元155、综合分割线设定单元156以及区域确定单元154进行工作,具体地:
分割线位置确定单元155根据最后一个被判断为相似度系数高于预定相似阈值的待判定区域(即,所有被判断相似的待判定区域中位于最下方的待判定区域),将该待判定区域的底部所在的位置确定为文档图像中的分割线位置。
综合分割线设定单元156获取各个分割线位置中位置误差在预定误差阈值(本实施例取值20个像素)内的分割线位置作为候选分割线位置,并根据候选分割线位置的中值设定对应的综合分割线作为页眉分割线。该综合分割线的位置为中值附近(中值上下20个像素内)最下方的候选分割线位置。
图5是本发明实施例中页眉分割线的示意图。
如图5所示,文档图像111、112和113中确定出的分割线位置分别为虚线114、115和116,这三条虚线的误差均在20个像素,因此也同时作为候选分割线位置。综合分割线设定单元156根据这三条候选分割线位置确定出的页眉分割线为虚线117,即对应于位于最下方的虚线115。
区域确定单元154将页眉分割线上方的区域确定为页眉区域。
当进行页脚区域的识别时,识别控制单元155就控制当前相似区域设定单元151按照由下至上的顺序依次将每一个被判定为相似度高于预定相似阈值的待判定区域设定为当前相似区域。
本实施例中,在进行页脚区域的识别时,识别控制单元155仅控制各个单元依次对位于文档图像的四分之三高度之下的待判定区域进行处理。
每当当前相似区域设定单元设定当前相似区域,相似度系数计算单元152就根据当前相似区域从各个文档图像中获取对应的图像作为相似判定用图像,并分别计算每两个相似判定用图像之间的相似度系数。
相似度判断单元153判断相似度系数计算单元152生成的相似度系数是否高于预定相似阈值。
一旦相似度判断单元153判断相似度系数不高于预定相似阈值,识别控制单元157就控制当前相似区域设定单元停止将待判定区域设定为当前相似区域,并依次控制分割线位置确定单元155、综合分割线设定单元156以及区域确定单元154进行工作,具体地:
分割线位置确定单元155根据最后一个被判断为相似度系数高于预定相似阈值的待判定区域(即,所有被判断相似的待判定区域中位于最上方的待判定区域),将该待判定区域的顶部所在的位置确定为文档图像中的分割线位置。
综合分割线设定单元156获取各个分割线位置中位置误差在预定误差阈值内的分割线位置作为候选分割线位置,并根据候选分割线位置的中值设定对应的综合分割线作为页脚分割线。该综合分割线的位置为中值附近(中值上下20个像素内)最上方的候选分割线位置。
区域确定单元154将页脚分割线下方的区域确定为页脚区域。
图6是本发明实施例中文档图像识别装置的文档图像识别过程的流程图。
如图6所示,当用户启动文档图像识别装置10并输入文档图像后,该文档图像识别装置10的文档图像识别过程的流程包含如下步骤:
步骤S1,图像预处理部11对被用户输入的文档图像进行文档预处理,然后进入步骤S2;
步骤S2,待判定图像形成部12依次将每一页文档图像分割形成多个待判定图像,然后进入步骤S3;
步骤S3,区域判定获取部13判定出文档图像中与其他文档图像的待判定图像的位置相对应的待判定图像,并获取该待判定图像在文档图像中相对应的区域作为待判定区域,然后进入步骤S4;
步骤S4,相似度判定部14依次判定每个待判定区域在各个文档图像中对应的待判定图像的相似度是否高于预定相似阈值,然后进入步骤S5;
步骤S5,页眉页脚识别部15将被判定为相似度高于预定相似阈值的待判定区域且位于文档上方的待判定区域识别为页眉区域,并将被判定为相似度高于预定相似阈值的待判定区域且位于文档下方的待判定区域识别为页脚区域,然后进入结束状态。
本实施例中,在识别出页眉区域以及页脚区域后,即可相应地确定出文档图像中正文内容所在的区域,便于后续对该区域进行内容的识别。
实施例作用与效果
根据本实施例提供的文档图像识别装置及方法,由于将文档图像分割为多个待判定图像后,通过判定出各个文档图像之间位置相互对应的待判定图像来确定其对应的待判定区域,并对该待判定区域在各个文档图像中对应的待判定图像的相似度进行计算,因此就可以判定出各个文档图像之间相似的待判定区域。进一步,通过将这些待判定区域以及其所在位置即可确定出页眉区域以及页脚区域。通过这样的方式,可以避免遭受页眉和页脚的众多格式的干扰,识别出各个文档图像之间具有相似性的图像,进而根据其位置就能够准确地识别出页眉和页脚的所在区域。
在实施例中,还由于页眉页脚识别部进行识别时,根据预定顺序将待判定区域进行排序,并按照该顺序再次判定待判定区域在所有文档图像中对应的相似判定用图像之间的相似度是否高于预定相似阈值,因此,一方面保证了最终判定为相似的待判定区域为所有文档图像中共有的内容,另一方面按照顺序进行判定可以有效避免过多地对非页眉、页脚区域的待判定区域进行相似度计算,节省算力。
另外,在实施例中,还由于通过页眉分割线以及页脚分割线来确定页眉页脚区域,并且页眉分割线以及页脚分割线是根据各个文档图像中的分割线位置的中值设定得到,因此这样得到的分割线为整个文档的全局最优分割线,分割得到的页眉页脚区域可以更加准确。
在实施例中,还由于区域判定获取部通过判定两个待判定图像的位置大小信息之间的位置大小误差是否在预定误差阈值内,来确定待判定区域,因此,区域判定获取部还能够初步地筛选出图像区域大小基本一致的待判定图像所对应的区域作为待判定区域,避免后续相似度计算是浪费计算资源在一些区域大小差距较大的待判定图像上。
在实施例中,还由于在计算相似度时,将待判定图像的像素值沿纵向进行求和,并计算皮尔森相关系数作为相似度系数。因此,可以通过像素值的变化趋势来判断两个待判定图像是否相似,即使图像因为扫描、预处理等原因导致像素存在些许的错位,也能够准确地判定出两者的不同,进一步地提高了相似度的判断准确率。
上述实施例仅用于举例说明本发明的具体实施方式,而本发明不限于上述实施例的描述范围。
例如,在上述实施例中,将文档图像中在页眉分割线以上的区域确定为页眉区域,将页脚分割线以下的区域确定为页脚区域。在本发明的其他方案中,也可以直接将位于文档上方(即文档图像四分之一的高度上方)并且被判定为相似的待判定区域确定为页眉区域,页脚区域同理,这样也可以得到相对准确的页眉页脚区域。
进一步,也可以直接根据相似度判定部判定相似的待判定区域,将这些待判定区域中位于文档上方的待判定区域识别为页眉区域,页脚区域同理,这样也可以有效确定出页眉页脚区域,但存在误识别的可能性。
例如,在上述实施例中,通过将待判定图像对的所有像素值沿纵向进行求和,并计算皮尔斯相关系数来得到图像之间的相似度系数。在本发明的其他方案中,也可以通过其他如图像比对等相似度计算方式完成相似度的计算。
Claims (9)
1.一种文档图像识别装置,用于对包含复数页文档图像的文档进行页眉和页脚的识别,其特征在于,包括:
待判定图像形成部,依次将每一页所述文档图像分割形成多个待判定图像;
区域判定获取部,判定出所述文档图像中与其他所述文档图像中的所述待判定图像的位置相对应的待判定图像,并获取该待判定图像在所述文档图像中相对应的区域作为待判定区域;
相似度判定部,依次判定所述待判定区域在各个所述文档图像中对应的所述待判定图像的相似度是否高于预定相似阈值;以及
页眉页脚识别部,将被判定为所述相似度高于所述预定相似阈值的所述待判定区域且位于所述文档图像上方的所述待判定区域识别为页眉区域,并将被判定为所述相似度高于所述预定相似阈值的所述待判定区域且位于所述文档图像下方的所述待判定区域识别为页脚区域。
2.根据权利要求1所述的文档图像识别装置,其特征在于:
其中,所述页眉页脚识别部具有当前相似区域设定单元、相似度系数计算单元、相似度判断单元、区域确定单元以及识别控制单元,
所述识别控制单元控制所述当前相似区域设定单元按照预定顺序依次将每一个被判定为所述相似度高于预定相似阈值的所述待判定区域设定为当前相似区域,
每当所述当前相似区域设定单元设定所述当前相似区域,所述相似度系数计算单元就根据所述当前相似区域从各个所述文档图像中获取对应的图像作为相似判定用图像,并分别计算每两个所述相似判定用图像之间的相似度系数,
所述相似度判断单元判断所述相似度系数是否高于预定相似阈值,
一旦所述相似度判断单元判断所述相似度系数不高于所述预定相似阈值,所述识别控制单元就控制所述当前相似区域设定单元停止将所述待判定区域设定为所述当前相似区域,并控制所述区域确定单元根据预定的页眉页脚确定规则以及被判断为所述相似度系数高于预定相似阈值的所述待判定区域确定所述页眉区域以及所述页脚区域。
3.根据权利要求2所述的文档图像识别装置,其特征在于:
其中,所述页眉页脚确定规则为确定页眉分割线以上的区域为所述页眉区域以及确定页脚分割线以下的区域为所述页脚区域,
所述页眉页脚识别部还具有分割线位置确定单元以及综合分割线设定单元,
当所述页眉页脚识别部识别所述页眉区域时,一旦所述相似度判断单元判断所述相似度系数不高于所述预定相似阈值,所述识别控制单元还控制所述分割线位置确定单元根据最后一个被判断为所述相似度系数高于预定相似阈值的所述待判定区域,将该待判定区域的底部所在的位置确定为所述文档图像中的分割线位置,进一步控制所述综合分割线设定单元获取各个所述分割线位置中位置误差在预定误差阈值内的所述分割线位置作为候选分割线位置,并根据候选分割线位置的中值设定对应的综合分割线作为所述页眉分割线,
当所述页眉页脚识别部识别所述页脚区域时,一旦所述相似度判断单元判断所述相似度系数不高于所述预定相似阈值,所述识别控制单元还控制所述分割线位置确定单元根据最后一个被判断为所述相似度系数高于预定相似阈值的所述待判定区域,将该待判定区域的顶部所在的位置确定为所述文档图像中的分割线位置,进一步控制所述综合分割线设定单元获取各个所述分割线位置中位置误差在预定误差阈值内的所述分割线位置作为候选分割线位置,并根据候选分割线位置的中值设定对应的综合分割线作为所述页脚分割线。
4.根据权利要求2所述的文档图像识别装置,其特征在于:
其中,所述页眉页脚确定规则为将位于所述文档图像四分之一的高度上方并且被判断为所述相似度系数高于预定相似阈值的所述待判定区域确定为页眉区域,并将位于所述文档图像四分之三高度下方并且被判断为所述相似度系数高于预定相似阈值的所述待判定区域确定为页脚区域。
5.根据权利要求2所述的文档图像识别装置,其特征在于:
其中,当所述页眉页脚识别部识别所述页眉区域时,所述预定顺序为由上至下的顺序,
当所述页眉页脚识别部识别所述页脚区域时,所述预定顺序为由下至上的顺序。
6.根据权利要求1所述的文档图像识别装置,其特征在于:
其中,所述区域判定获取部具有:
位置信息获取单元,获取每个所述待判定图像在所述文档图像中的位置大小信息;
位置大小误差判断单元,判断所述文档图像的每个所述待判定图像与其他所述文档图像中的各个所述待判定图像的所述位置大小信息之间的位置大小误差是否在预定误差阈值内;以及
待判定区域设定单元,当所述位置大小误差判断单元判断所述位置大小误差在所述预定误差阈值内时,就根据相应两个所述待判定图像的所述位置大小信息确定对应的区域设定为所述待判定区域。
7.根据权利要求6所述的文档图像识别装置,其特征在于:
其中,所述相似度判定部具有:
待判定图像获取单元,根据所述待判定区域从相应的两个所述文档图像中获取对应的所述待判定图像作为待判定图像对;
灰度化处理单元,对所述待判定图像对进行灰度化处理;
像素数集合形成单元,将所述待判定图像对的所有像素值沿纵向进行求和从而得到所述待判定图像对的像素值集合;
相似度系数计算单元,根据所述像素值集合计算皮尔森相关系数作为相似度系数;以及
相似度判定单元,根据所述相似度系数判定所述待判定区域对应的所述待判定图像对之间的相似度是否高于所述预定相似阈值。
8.根据权利要求1所述的文档图像识别装置,其特征在于:
其中,所述待判定图像形成部具有:
像素区域确定单元,根据所述文档图像中空白区域对所述文档图像进行切割,从而确定出所述文档图像中所有的像素区域;
行区域形成单元,根据各个所述像素区域在所述文档图像中的位置,将位于同一高度的所述像素区域进行合并形成多个行区域;以及
待判定图像形成单元,从所述文档图像中分别获取多个与所述行区域相对应的图像作为所述待判定图像。
9.一种文档图像识别方法,用于对包含复数页文档图像的文档进行页眉和页脚的识别,其特征在于,包括以下步骤:
待判定图像形成步骤,依次将每一页所述文档图像分割形成多个待判定图像;
区域判定获取步骤,判定出所述文档图像中与其他所述文档图像中的所述待判定图像的位置相对应的待判定图像,并获取该待判定图像在所述文档图像中相对应的区域作为待判定区域;
相似度判定步骤,依次判定所述待判定区域在各个所述文档图像中对应的所述待判定图像的相似度是否高于预定相似阈值;以及
页眉页脚识别步骤,将被判定为所述相似度高于所述预定相似阈值的所述待判定区域且位于所述文档图像上方的所述待判定区域识别为页眉区域,并将被判定为所述相似度高于所述预定相似阈值的所述待判定区域且位于所述文档图像下方的所述待判定区域识别为页脚区域。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110272091.4A CN113033360A (zh) | 2021-03-12 | 2021-03-12 | 文档图像识别装置及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110272091.4A CN113033360A (zh) | 2021-03-12 | 2021-03-12 | 文档图像识别装置及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113033360A true CN113033360A (zh) | 2021-06-25 |
Family
ID=76470408
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110272091.4A Pending CN113033360A (zh) | 2021-03-12 | 2021-03-12 | 文档图像识别装置及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113033360A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101017479A (zh) * | 2007-02-09 | 2007-08-15 | 北京大学 | 一种自动识别数字文档版心的方法 |
CN104951429A (zh) * | 2014-03-26 | 2015-09-30 | 阿里巴巴集团控股有限公司 | 版式电子文档的页眉页脚识别方法及装置 |
CN107622250A (zh) * | 2017-09-27 | 2018-01-23 | 深圳市得色科技有限公司 | 基于机器学习的3d图像识别方法及其系统 |
CN112183574A (zh) * | 2020-08-21 | 2021-01-05 | 深圳市银之杰科技股份有限公司 | 文件鉴伪比对方法及装置、终端和存储介质 |
-
2021
- 2021-03-12 CN CN202110272091.4A patent/CN113033360A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101017479A (zh) * | 2007-02-09 | 2007-08-15 | 北京大学 | 一种自动识别数字文档版心的方法 |
CN104951429A (zh) * | 2014-03-26 | 2015-09-30 | 阿里巴巴集团控股有限公司 | 版式电子文档的页眉页脚识别方法及装置 |
CN107622250A (zh) * | 2017-09-27 | 2018-01-23 | 深圳市得色科技有限公司 | 基于机器学习的3d图像识别方法及其系统 |
CN112183574A (zh) * | 2020-08-21 | 2021-01-05 | 深圳市银之杰科技股份有限公司 | 文件鉴伪比对方法及装置、终端和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10817559B2 (en) | Image processing apparatus with document similarity processing, and image processing method and storage medium therefor | |
EP0843277A2 (en) | Page analysis system | |
US5563403A (en) | Method and apparatus for detection of a skew angle of a document image using a regression coefficient | |
US5335290A (en) | Segmentation of text, picture and lines of a document image | |
JP3308032B2 (ja) | スキュー補正方法およびスキュー角検出方法およびスキュー補正装置およびスキュー角検出装置 | |
US6385338B1 (en) | Image processing method and apparatus | |
US8041113B2 (en) | Image processing device, image processing method, and computer program product | |
JP3278471B2 (ja) | 領域分割方法 | |
EP1403813A2 (en) | Image processing method, apparatus and program for dealing with inverted characters | |
US6885768B2 (en) | Image recognition apparatus, method and program product | |
EP1017011A2 (en) | Block selection of table features | |
US20210056336A1 (en) | Image processing apparatus, image processing method, and storage medium | |
US6771842B1 (en) | Document image skew detection method | |
US7146047B2 (en) | Image processing apparatus and method generating binary image from a multilevel image | |
US8472078B2 (en) | Image processing apparatus for determining whether a region based on a combined internal region is a table region | |
EP0680005A2 (en) | Speed and recognition enhancement for OCR using normalized height/width position | |
US7149352B2 (en) | Image processing device, program product and system | |
US6175664B1 (en) | Optical character reader with tangent detection for detecting tilt of image data | |
KR20150099116A (ko) | Ocr를 이용한 컬러 문자 인식 방법 및 그 장치 | |
CN113033360A (zh) | 文档图像识别装置及方法 | |
US20090290797A1 (en) | Image processing for storing objects separated from an image in a storage device | |
JP3787377B2 (ja) | 文書方向判定方法及び装置及び文字認識方法及び装置 | |
JP4194309B2 (ja) | 文書方向推定方法および文書方向推定プログラム | |
US7103220B2 (en) | Image processing apparatus, method and program, and storage medium | |
JP3187895B2 (ja) | 文字領域抽出方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210625 |
|
WD01 | Invention patent application deemed withdrawn after publication |