CN110378287A - 文档方向识别方法、装置及存储介质 - Google Patents

文档方向识别方法、装置及存储介质 Download PDF

Info

Publication number
CN110378287A
CN110378287A CN201910652827.3A CN201910652827A CN110378287A CN 110378287 A CN110378287 A CN 110378287A CN 201910652827 A CN201910652827 A CN 201910652827A CN 110378287 A CN110378287 A CN 110378287A
Authority
CN
China
Prior art keywords
document
image block
image
pixel
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910652827.3A
Other languages
English (en)
Inventor
龚星
李斌
郭双双
周易
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910652827.3A priority Critical patent/CN110378287A/zh
Publication of CN110378287A publication Critical patent/CN110378287A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/242Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种文档方向识别方法、装置及存储介质,该文档方向识别方法包括:获取文档图像,该文档图像中包括待识别文档;确定该文档图像对应的二值图像,并从该二值图像中选取多个图像块;确定每个该图像块的信息含量值;根据该信息含量值和该图像块识别该待处理文档在该文档图像中的方向,从而能快速实现对文档方向的精准识别,方法简单,识别效果好。

Description

文档方向识别方法、装置及存储介质
技术领域
本申请涉及通信技术领域,尤其涉及一种文档方向识别方法、装置及存储介质。
背景技术
文档图像文字处理的目的是在数字图像中识别文字、图形和图片,并按照需要提取信息。其中,文字处理主要包括:先进行版面分析,以切分出段落、行和单字等,然后进行OCR(Optical Character Recognition,光学字符识别)识别。
在现有OCR识别过程中,文本图像中的文本经常会出现一定角度的倾斜,比如由于扫描时用户操作不当,致使扫描图像中的文本水平倾斜了90度,而通常情况下,3度以上的倾斜会引起字符明显变形,也即这种文本倾斜现象会导致在进行OCR识别时,字符分割步骤发生困难,使OCR识别过程难以顺利完成。因此,如何快速准确的检测出倾斜文本图像的倾角,进而对倾斜的文本图像进行校正,是当今OCR识别技术在运用前的一项重要预处理技术。
发明内容
本申请实施例提供一种文档方向识别方法、装置及存储介质,能快速实现对文档方向的精准识别,准确率高。
本申请实施例提供了一种文档方向识别方法,包括:
获取文档图像,所述文档图像中包括待识别文档;
确定所述文档图像对应的二值图像,并从所述二值图像中选取多个图像块;
确定每个所述图像块的信息含量值;
根据所述信息含量值和所述图像块识别所述待处理文档在所述文档图像中的方向。
本申请实施例还提供了一种文档方向识别装置,包括:
获取模块,用于获取文档图像,所述文档图像中包括待识别文档;
第一确定模块,用于确定所述文档图像对应的二值图像,并从所述二值图像中选取多个图像块;
第二确定模块,用于确定每个所述图像块的信息含量值;
识别模块,用于根据所述信息含量值和所述图像块识别所述待处理文档在所述文档图像中的方向。
进一步地,所述第二确定模块具体包括:
第一确定子模块,用于利用已训练的全卷积网络模型确定每个所述图像块对应的热力图像;
第二确定子模块,用于确定每个所述热力图像中各像素点的第一像素值;
第三确定子模块,用于根据所述第一像素值确定对应热力图像的第一像素平均值;
第四确定子模块,用于根据所述第一像素平均值确定对应图像块的信息含量值。
进一步地,所述第四确定子模块具体用于:
确定每个所述图像块中的连通域、以及每个所述连通域的区域面积;
根据所述区域面积从所述连通域中确定目标连通域,并获取所述目标连通域的数量;
根据所述第一像素平均值、以及所述目标连通域的数量确定对应图像块的信息含量值。
进一步地,所述第四确定子模块具体用于:
根据所述第二像素值确定对应图像块的第二像素平均值;
根据所述第二像素平均值和第二像素值确定对应图像块的像素标准差值;
根据同一图像块对应的第一像素平均值、第二像素平均值、像素标准差值以及所述目标连通域的数量,确定对应图像块的信息含量值。
进一步地,所述识别模块具体用于:
根据所述信息含量值从所述多个图像块中确定目标图像块;
利用已训练的网络模型确定每个所述目标图像块对应的阅读方向角;
根据所述阅读方向角和信息含量值识别所述待处理文档在所述文档图像中的方向。
进一步地,所述识别模块具体用于:
将所述信息含量值进行求和,得到和值;
根据所述和值和信息含量值确定每个所述目标图像块的权重值;
根据所述权重值对所述阅读方向角进行加权计算,得到目标方向角,并将所述目标方向角指示的方向作为所述待处理文档在所述文档图像中的方向。
进一步地,所述网络模型包括残差网络模型和注意力模型,所述识别模块具体用于:
将每个所述目标图像块输入已训练的残差网络模型中,以对所述目标图像块进行处理,所述残差网络模型包括至少四层残差块;
在处理过程中,获取输入第二层残差块中的第一特征图;
将获取的所述第一特征图输入已训练的注意力模型中,得到注意力图像;
获取从第三层残差块中输出的第二特征图;
对所述第二特征图和注意力图进行点乘运算,得到第三特征图;
将所述第三特征图输入第四层残差块中,以得到阅读方向角。
本申请实施例还提供了一种计算机可读存储介质,所述存储介质中存储有多条指令,所述指令适于由处理器加载以执行上述任一项文档方向识别方法。
本申请提供的文档方向识别方法、装置及存储介质,通过获取文档图像,该文档图像中包括待识别文档,之后确定该文档图像对应的二值图像,并从该二值图像中选取多个图像块,之后确定每个该图像块的信息含量值,并根据该信息含量值和该图像块识别该待处理文档在该文档图像中的方向,从而能快速实现对文档方向的精准识别,方法简单,识别效果好。
附图说明
下面结合附图,通过对本申请的具体实施方式详细描述,将使本申请的技术方案及其它有益效果显而易见。
图1为本申请实施例提供的文档方向识别系统的场景示意图。
图2为本申请实施例提供的文档方向识别方法的流程示意图。
图3为本申请实施例提供的文档方向识别方法的另一流程示意图。
图4为本申请实施例提供的步骤S1034的流程示意图。
图5为本申请实施例提供的文档方向识别流程的框架示意图。
图6为本申请实施例提供的医疗文档识别过程的流程示意图。
图7为本申请实施例提供的文档方向识别装置的另一结构示意图。
图8为本申请实施例提供的文档方向识别装置的结构示意图。
图9为本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种文档方向识别方法、装置、存储介质及电子设备。
请参阅图1,图1为文档方向识别系统的场景示意图,该文档方向识别系统可以包括本申请实施例提供的任一种文档方向识别装置,该文档方向识别装置可以集成在电子设备,比如移动终端或服务器中。
该电子设备可以获取文档图像,该文档图像中包括待识别文档;确定该文档图像对应的二值图像,并从该二值图像中选取多个图像块;确定每个该图像块的信息含量值;根据该信息含量值和该图像块识别该待处理文档在该文档图像中的方向。
其中,该待识别文档可以包括文字和/或图像,该文档图像可以是通过扫描设备或者拍照设备对该待识别文档处理后得到的。该二值图像是指图像上的每一个像素点只有两种可能的取值或者灰度等级状态,如1和0。该信息含量值主要指有效信息(比如文字、图像)的含有量,通常,信息含量值越大,表明空白区域越小,有效信息的含有量越多。
譬如,在图1中,当需要对医疗文档的扫描图像进行方向纠正时,可以先将该扫描图像转化为灰度图,并对该灰度图二值化得到二值图像,之后,可以通过随机或者指定选取方式从该二值图像中选取出一定数量的图像块,该指定选取方式可以是基于图像位置而设定的,比如选取图像正中区域的图像块,该数量可以人为设定,比如20个,之后,可以确定每个图像块的信息含量值,并根据信息含量值和图像块来确定医疗文档的阅读方向角,比如90°,也即医疗文档的方向。
如图2所示,图2是本申请实施例提供的文档方向识别方法的流程示意图,该文档方向识别方法具体流程可以如下:
S101.获取文档图像,该文档图像中包括待识别文档。
本实施例中,该待识别文档可以包括文字和/或图像,该文档图像可以是通过扫描设备或者拍照设备对该待识别文档处理后得到的。
S102.确定该文档图像对应的二值图像,并从该二值图像中选取多个图像块。
本实施例中,该二值图像是指图像上的每一个像素点只有两种可能的取值或者灰度等级状态,如0和255。具体的,可以先将该文档图像转化为灰度图,再对该灰度图二值化得到二值图像。该图像块的数量和大小可以人为提前设定,比如数量为20个,大小为448像素*448像素,可以通过随机函数来随机选取图像块,也可以基于图像位置来选取,比如选取图像正中区域、三分之一区域等位置处的图像块。
S103.确定每个该图像块的信息含量值。
本实施例中,该信息含量值主要指有效信息的含有量,通常,信息含量值越大,表明空白区域越小,有效信息的含有量越多。
例如,请参见图3,上述步骤S103具体可以包括:
S1031.利用已训练的全卷积网络模型确定每个该图像块对应的热力图像。
本实施例中,该热力图像和图像块通常尺寸相同,像素点个数也相同。该热力图像实际上是概率图,用于指示包含有效信息分布的矩阵,其在包含有效信息(比如文字、图像)处,值趋于1,在包含无效信息(比如空白内容)处,值趋于0。
S1032.确定每个该热力图像中各像素点的第一像素值。
S1033.根据该第一像素值确定对应热力图像的第一像素平均值。
本实施例中,该第一像素值的取值范围为[0,1],该第一像素平均值其中,n为热力图像中像素点的个数,hi为热力图上第i个像素点的第一像素值。
S1034.根据该第一像素平均值确定对应图像块的信息含量值。
本实施例中,可以直接将第一像素平均值作为对应图像块的信息含量值,也可以结合其他参考因素来确定信息含量值,比如,请参见图4,上述步骤S1034进一步可以包括:
1-1.确定每个该图像块中的连通域、以及每个该连通域的区域面积。
本实施例中,连通域一般是指图像中具有相同像素值且位置相邻的像素点组成的图像区域,该区域面积通常指每个连通域所包含像素点的数量。比如,对于二值图像,该连通域为像素值为0(或者255)的相邻像素点组成的图像区域。具体的,可以借助OpenCV开源计算机视觉库来确定图像块中的连通域,之后基于每个连通域中像素点的个数确定该连通域的区域面积。
1-2.根据该区域面积从该连通域中确定目标连通域,并获取该目标连通域的数量。
本实施例中,为了防止椒盐噪声和无效信息的干扰,对于区域面积较小或者过大的连通域,比如区域面积小于4个像素点,或者区域面积不小于该小图像块整体面积的1/3,可以不进行后续分析,与此同时,对于像素值均为0(也即空白)的连通域,由于不包含有效信息,也可以不进行后续分析,也即将区域面积在规定范围内、且像素值非0的连通域作为目标连通域。
1-3.根据该第一像素平均值、以及该目标连通域的数量确定对应图像块的信息含量值。
本实施例中,可以直接根据目标连通域的数量以及热力图的第一像素平均值这两个参考因素来确定图像块的信息含量值,比如对第一像素平均值S4和目标连通域的数量S3进行加权计算,得到的数值作为信息含量值,或者,也可以结合其他参考因素来确定,此时,该步骤1-3进一步可以包括:
根据该第二像素值确定对应图像块的第二像素平均值;
根据该第二像素平均值和第二像素值确定对应图像块的像素标准差值;
根据同一图像块对应的第一像素平均值、第二像素平均值、像素标准差值以及该目标连通域的数量,确定对应图像块的信息含量值。
本实施例中,该第二像素平均值该像素标准差值其中n为图像块中像素点的个数,Pi为第i个像素点的第二像素值。
该信息含量值Sfinal的计算公式可以为其中,S1为第二像素平均值,S2为像素标准差值,S3为目标连通域的数量,S4为第一像素平均值,λi为对应的预设权重值。
需要指出的是,在确定单个图像块的信息含量值时,可以将S1~S4同时作为参考因素,也可以单独将其中之一作为参考因素,还可以将任意两个或者三个作为参考因素。当将S1~S4其中之一作为参考因素时,可以直接将其数值作为信息含量值,当将S1~S4中的任意两个或者三个或者全部作为参考因素时,可以通过加权算法计算信息含量值。
S104.根据该信息含量值和该图像块识别该待处理文档在该文档图像中的方向。
本实施例中,可以根据所有图像块来确定文档方向,比如计算信息含量值的比值,并利用已训练的网络模型确定每个图像块对应的阅读方向角,之后根据该比值对阅读方向角进行加权计算,得到的方向角即代表了文档方向,或者,也可以选取部分图像块来确定文档方向,此时,在该图3中,上述步骤S104具体可以包括:
S1041.根据该信息含量值从该多个图像块中确定目标图像块。
本实施例中,可以选取信息含量值高于一定值的图像块作为目标图像块,或者将信息含量值按照大小进行排序,选取排位靠前的几个信息含量值对应的图像块作为目标图像块。
S1042.利用已训练的网络模型确定每个该目标图像块对应的阅读方向角。
本实施例中,该网络模型主要为机器学习(Machine Learning,ML)模型,其中,机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
例如,该网络模型可以包括残差网络(Residual Networks,ResNet)模型和注意力模型(Attention Model),其中,该残差网络模型可以包括多层残差块,在多层残差块间采用跳连接方式接入注意力模型,该注意力模型可以包括U-Net神经网络和sigmoid逻辑函数,该注意力模型主要起到权重的作用,用于指示网络下游结构应当注意的区域。通过在残差网络模型中引入注意力模型,该注意力模型能从上游特征图上获得注意力图,并对下游非有效信息进行抑制,有利于整个网络模型学习到具有有效信息的特征,提高阅读方向角识别的准确性。需要说明的是,除了利用已训练的网络模型来识别目标图像块的方向角,还可以利用投影法或者其他方向识别方法来识别,此处不做限定。
例如,该残差块的层数可以是四层,此时,上述步骤S1042具体可以包括:
将每个该目标图像块输入已训练的残差网络模型中,以对该目标图像块进行处理,该残差网络模型包括至少四层残差块;
在处理过程中,获取输入第二层残差块中的第一特征图;
将获取的该第一特征图输入已训练的注意力模型中,得到注意力图像;
获取从第三层残差块中输出的第二特征图;
对该第二特征图和注意力图进行点乘运算,得到第三特征图;
将该第三特征图输入第四层残差块中,以得到阅读方向角。
本实施例中,请参见图3,该残差网络模型包括输入层、四个残差块层以及输出层,该注意力模型采用跳连接方式与第二层残差块以及第三层残差块的输出端相连,从而在对目标图像块处理的过程中,目标图像块会先经由残差网络的输入端输入,并依次传递至第一层残差块和第二层残差块进行处理,处理后的数据(也即第一特征图)同时传递至第三层残差块和注意力模型中进行处理,分别得到第二特征图和注意力图像,其中,注意力图像上像素值的取值范围限定为[0,1],通道数为1,且这两个图像具有相同尺寸,之后,将这两个图像进行点乘,得到第三特征图,并作为输入数据传送至第四残差块中进行处理,最终经由输出端输出阅读方向角。
需要说明的是,该残差网络模型和注意力模型应当是提前训练好的,比如提前准备图像样本集,并标注出每个图像样本的阅读方向角,与此同时,将残差网络模型和注意力模型按照要求组合连接好,之后将图像样本集和标注输入组合好的模型中进行训练,得到训练后的网络模型。
S1043.根据该阅读方向角和信息含量值识别该待处理文档在该文档图像中的方向。
例如,上述步骤S1043具体可以包括:
2-1.将该信息含量值进行求和,得到和值;
2-2.根据该和值和信息含量值确定每个该目标图像块的权重值;
2-3.根据该权重值对该阅读方向角进行加权计算,得到目标方向角,并将该目标方向角指示的方向作为该待处理文档在该文档图像中的方向。
本实施例中,权重值其中,h为目标图像块的总数量,wi为第i个目标图像块的权重值,为第i个目标图像块的信息含量值。目标方向角其中Vi为第i个目标图像块的阅读方向角。
以下将以文档方向识别方法应用于电子设备、待识别文档为医疗文档为例,对文档方向识别方法的流程进行简单介绍。
请参见图5,该流程处理框架包括三个部分:数据集、评分器和网络模型,具体的,当需要对文档图像中的医疗文档进行方向识别时,数据集可以先对文档图像进行预处理,比如将文档图像转化为灰度图,并对该灰度图二值化得到二值图像,之后,通过随机函数从二值图像上随机获取20个小图像块B1~B20(请参见图6),而评分器会确定每个小图像块的四个分数值,比如像素平均值S1、像素标准差值S2、目标连通域的数量S3、以及对应热力图的像素平均值S4,其中,可以直接根据小图像块中像素点的像素值计算像素平均值S1和像素标准差值S2,同时,借助OpenCV来确定每个小图像块中的连通域,并选取区域面积在规定范围内且像素值非0的连通域作为目标连通域,将该目标连通域的数量作为S3,同时,利用已训练的全卷积网络模型获取每个小图像块对应的热力图像,并根据热力图像中像素点的像素值计算像素平均值S4,之后通过公式计算每个小图像块的综合评分Sfinal(也即信息含量值),其中,λ为对应的预设权重值,选取综合评分最高的前8个小图像块,比如B1、B2…B5和B20,之后,通过已训练的网络模型(残差网络模型和注意力模型)识别这8个小图像块的阅读方向角Vi,比如B1的阅读方向角V1为90°,B2的阅读方向角V2为270°等等,之后,根据这8个小图像块的综合评分Sfinal计算各自的权重值,其中权重值比如B1的权重值w1为0.75,B2的权重值w2为0.20等等,之后,计算文档图像中医疗文档的目标方向角比如,V=0.75*90°+0.20*270°+…=90°,之后,判断目标目标方向角是否在一定范围内,比如-5°~5°,若是,则不需要进行方向纠正,结束流程,若否,则对其进行方向纠正,比如将文档图像翻转90°,便于进行后续光学字符识别操作。
由上述可知,本申请提供的文档方向识别方法,通过获取文档图像,该文档图像中包括待识别文档,之后确定该文档图像对应的二值图像,并从该二值图像中选取多个图像块,之后确定每个该图像块的信息含量值,并根据该信息含量值和该图像块识别该待处理文档在该文档图像中的方向,从而能快速实现对文档方向的精准识别,方法简单,识别效果好。
根据上述实施例所描述的方法,本实施例将从文档方向识别装置的角度进一步进行描述,该文档方向识别装置具体可以作为独立的实体来实现,也可以集成在电子设备中来实现。
请参阅图7,图7具体描述了本申请实施例提供的文档方向识别装置,应用于电子设备,该文档方向识别装置可以包括:获取模块10、第一确定模块20、第二确定模块30和识别模块40,其中:
(1)获取模块10
获取模块10,用于获取文档图像,该文档图像中包括待识别文档。
本实施例中,该待识别文档可以包括文字和/或图像,该文档图像可以是通过扫描设备或者拍照设备对该待识别文档处理后得到的。
(2)第一确定模块20
第一确定模块20,用于确定该文档图像对应的二值图像,并从该二值图像中选取多个图像块。
本实施例中,该二值图像是指图像上的每一个像素点只有两种可能的取值或者灰度等级状态,如0和255。具体的,可以先将该文档图像转化为灰度图,再对该灰度图二值化得到二值图像。该图像块的数量和大小可以人为提前设定,比如数量为20个,大小为448像素*448像素,可以通过随机函数来随机选取图像块,也可以基于图像位置来选取,比如选取图像正中区域、三分之一区域等位置处的图像块。
(3)第二确定模块30
第二确定模块30,用于确定每个该图像块的信息含量值。
本实施例中,该信息含量值主要指有效信息的含有量,通常,信息含量值越大,表明空白区域越小,有效信息的含有量越多。
例如,请参见图8,该第二确定模块30具体包括:
第一确定子模块31,用于利用已训练的全卷积网络模型确定每个该图像块对应的热力图像。
本实施例中,该热力图像和图像块通常尺寸相同,像素点个数也相同。该热力图像实际上是概率图,用于指示包含有效信息分布的矩阵,其在包含有效信息(比如文字、图像)处,值趋于1,在包含无效信息(比如空白内容)处,值趋于0。
第二确定子模块32,用于确定每个该热力图像中各像素点的第一像素值。
第三确定子模块33,用于根据该第一像素值确定对应热力图像的第一像素平均值。
本实施例中,该第一像素值的取值范围为[0,1],该第一像素平均值其中,n为热力图像中像素点的个数,hi为热力图上第i个像素点的第一像素值。
第四确定子模块34,用于根据该第一像素平均值确定对应图像块的信息含量值。
本实施例中,可以直接将第一像素平均值作为对应图像块的信息含量值,也可以结合其他参考因素来确定信息含量值,比如,上述步骤S1034进一步可以包括:
1-1.确定每个该图像块中的连通域、以及每个该连通域的区域面积。
本实施例中,连通域一般是指图像中具有相同像素值且位置相邻的像素点组成的图像区域,该区域面积通常指每个连通域所包含像素点的数量。比如,对于二值图像,该连通域为像素值为0(或者255)的相邻像素点组成的图像区域。具体的,可以借助OpenCV开源计算机视觉库来确定图像块中的连通域,之后基于每个连通域中像素点的个数确定该连通域的区域面积。
1-2.根据该区域面积从该连通域中确定目标连通域,并获取该目标连通域的数量。
本实施例中,为了防止椒盐噪声和无效信息的干扰,对于区域面积较小或者过大的连通域,比如区域面积小于4个像素点,或者区域面积不小于该小图像块整体面积的1/3,可以不进行后续分析,与此同时,对于像素值均为0(也即空白)的连通域,由于不包含有效信息,也可以不进行后续分析,也即将区域面积在规定范围内、且像素值非0的连通域作为目标连通域。
1-3.根据该第一像素平均值、以及该目标连通域的数量确定对应图像块的信息含量值。
本实施例中,可以直接根据目标连通域的数量以及热力图的第一像素平均值这两个参考因素来确定图像块的信息含量值,比如对第一像素平均值S4和目标连通域的数量S3进行加权计算,得到的数值作为信息含量值,或者,也可以结合其他参考因素来确定,此时,该步骤1-3进一步可以包括:
根据该第二像素值确定对应图像块的第二像素平均值;
根据该第二像素平均值和第二像素值确定对应图像块的像素标准差值;
根据同一图像块对应的第一像素平均值、第二像素平均值、像素标准差值以及该目标连通域的数量,确定对应图像块的信息含量值。
本实施例中,该第二像素平均值该像素标准差值其中n为图像块中像素点的个数,Pi为第i个像素点的第二像素值。
该信息含量值Sfinal的计算公式可以为其中,S1为第二像素平均值,S2为像素标准差值,S3为目标连通域的数量,S4为第一像素平均值,λi为对应的预设权重值。
需要指出的是,在确定单个图像块的信息含量值时,可以将S1~S4同时作为参考因素,也可以单独将其中之一作为参考因素,还可以将任意两个或者三个作为参考因素。当将S1~S4其中之一作为参考因素时,可以直接将其数值作为信息含量值,当将S1~S4中的任意两个或者三个或者全部作为参考因素时,可以通过加权算法计算信息含量值。
(4)识别模块40
识别模块40,用于根据该信息含量值和该图像块识别该待处理文档在该文档图像中的方向。
本实施例中,可以根据所有图像块来确定文档方向,比如计算信息含量值的比值,并利用已训练的网络模型确定每个图像块对应的阅读方向角,之后根据该比值对阅读方向角进行加权计算,得到的方向角即代表了文档方向,或者,也可以选取部分图像块来确定文档方向,此时,该识别模块40具体可以用于:
S1041.根据该信息含量值从该多个图像块中确定目标图像块。
本实施例中,可以选取信息含量值高于一定值的图像块作为目标图像块,或者将信息含量值按照大小进行排序,选取排位靠前的几个信息含量值对应的图像块作为目标图像块。
S1042.利用已训练的网络模型确定每个该目标图像块对应的阅读方向角。
本实施例中,该网络模型主要为机器学习(Machine Learning,ML)模型,其中,机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
例如,该网络模型可以包括残差网络(Residual Networks,ResNet)模型和注意力模型(Attention Model),其中,该残差网络模型可以包括多层残差块,在多层残差块间采用跳连接方式接入注意力模型,该注意力模型可以包括U-Net神经网络和sigmoid逻辑函数,该注意力模型主要起到权重的作用,用于指示网络下游结构应当注意的区域。通过在残差网络模型中引入注意力模型,该注意力模型能从上游特征图上获得注意力图,并对下游非有效信息进行抑制,有利于整个网络模型学习到具有有效信息的特征,提高阅读方向角识别的准确性。
例如,该残差块的层数可以是四层,此时,上述步骤S1042具体可以包括:
将每个该目标图像块输入已训练的残差网络模型中,以对该目标图像块进行处理,该残差网络模型包括至少四层残差块;
在处理过程中,获取输入第二层残差块中的第一特征图;
将获取的该第一特征图输入已训练的注意力模型中,得到注意力图像;
获取从第三层残差块中输出的第二特征图;
对该第二特征图和注意力图进行点乘运算,得到第三特征图;
将该第三特征图输入第四层残差块中,以得到阅读方向角。
本实施例中,请参见图3,该残差网络模型包括输入层、四个残差块层以及输出层,该注意力模型采用跳连接方式与第二层残差块以及第三层残差块的输出端相连,从而在对目标图像块处理的过程中,目标图像块会先经由残差网络的输入端输入,并依次传递至第一层残差块和第二层残差块进行处理,处理后的数据(也即第一特征图)同时传递至第三层残差块和注意力模型中进行处理,分别得到第二特征图和注意力图像,其中,注意力图像上像素值的取值范围限定为[0,1],通道数为1,且这两个图像具有相同尺寸,之后,将这两个图像进行点乘,得到第三特征图,并作为输入数据传送至第四残差块中进行处理,最终经由输出端输出阅读方向角。
需要说明的是,该残差网络模型和注意力模型应当是提前训练好的,比如提前准备图像样本集,并标注出每个图像样本的阅读方向角,与此同时,将残差网络模型和注意力模型按照要求组合连接好,之后将图像样本集和标注输入组合好的模型中进行训练,得到训练后的网络模型。
S1043.根据该阅读方向角和信息含量值识别该待处理文档在该文档图像中的方向。
例如,在执行上述步骤S1043时,该识别模块40进一步可以用于:
2-1.将该信息含量值进行求和,得到和值;
2-2.根据该和值和信息含量值确定每个该目标图像块的权重值;
2-3.根据该权重值对该阅读方向角进行加权计算,得到目标方向角,并将该目标方向角指示的方向作为该待处理文档在该文档图像中的方向。
本实施例中,权重值其中,h为目标图像块的总数量,wi为第i个目标图像块的权重值,为第i个目标图像块的信息含量值。目标方向角其中Vi为第i个目标图像块的阅读方向角。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由上述可知,本实施例提供的文档方向识别装置,通过获取模块10获取文档图像,该文档图像中包括待识别文档,之后第一确定模块20确定该文档图像对应的二值图像,并从该二值图像中选取多个图像块,之后第二确定模块30确定每个该图像块的信息含量值,识别模块40根据该信息含量值和该图像块识别该待处理文档在该文档图像中的方向,从而能快速实现对文档方向的精准识别,方法简单,识别效果好。
相应的,本发明实施例还提供一种文档方向识别系统,包括本发明实施例所提供的任一种文档方向识别装置,该文档方向识别装置可以集成在电子设备中。
其中,电子设备可以获取文档图像,该文档图像中包括待识别文档;确定该文档图像对应的二值图像,并从该二值图像中选取多个图像块;确定每个该图像块的信息含量值;根据该信息含量值和该图像块识别该待处理文档在该文档图像中的方向。
以上各个设备的具体实施可参见前面的实施例,在此不再赘述。
由于该文档方向识别系统可以包括本发明实施例所提供的任一种文档方向识别装置,因此,可以实现本发明实施例所提供的任一种文档方向识别装置所能实现的有益效果,详见前面的实施例,在此不再赘述。
相应的,本发明实施例还提供一种电子设备,如图9所示,其示出了本发明实施例所涉及的电子设备的结构示意图,具体来讲:
该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、射频(Radio Frequency,RF)电路403、电源404、输入单元405、以及显示单元406等部件。本领域技术人员可以理解,图9中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
RF电路403可用于收发信息过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器401处理;另外,将涉及上行的数据发送给基站。通常,RF电路403包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、低噪声放大器(LNA,Low Noise Amplifier)、双工器等。此外,RF电路403还可以通过无线通信与网络和其他设备通信。该无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GSM,Global System of Mobilecommunication)、通用分组无线服务(GPRS,General Packet Radio Service)、码分多址(CDMA,Code Division Multiple Access)、宽带码分多址(WCDMA,Wideband CodeDivision Multiple Access)、长期演进(LTE,Long Term Evolution)、电子邮件、短消息服务(SMS,Short Messaging Service)等。
电子设备还包括给各个部件供电的电源404(比如电池),优选的,电源404可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源404还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入单元405,该输入单元405可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,在一个具体的实施例中,输入单元405可包括触敏表面以及其他输入设备。触敏表面,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器401,并能接收处理器401发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面,输入单元405还可以包括其他输入设备。具体地,其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
该电子设备还可包括显示单元406,该显示单元406可用于显示由用户输入的信息或提供给用户的信息以及电子设备的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元406可包括显示面板,可选的,可以采用液晶显示器(LCD,Liquid Crystal Display)、有机发光二极管(OLED,Organic Light-Emitting Diode)等形式来配置显示面板。进一步的,触敏表面可覆盖显示面板,当触敏表面检测到在其上或附近的触摸操作后,传送给处理器401以确定触摸事件的类型,随后处理器401根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图9中,触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面与显示面板集成而实现输入和输出功能。
尽管未示出,电子设备还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,电子设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取文档图像,该文档图像中包括待识别文档;
确定该文档图像对应的二值图像,并从该二值图像中选取多个图像块;
确定每个该图像块的信息含量值;
根据该信息含量值和该图像块识别该待处理文档在该文档图像中的方向。
该电子设备可以实现本发明实施例所提供的任一种文档方向识别装置所能实现的有效效果,详见前面的实施例,在此不再赘述。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,RandomAccess Memory)、磁盘或光盘等。
以上对本发明实施例所提供的一种文档方向识别方法、装置、存储介质和电子设备进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种文档方向识别方法,其特征在于,包括:
获取文档图像,所述文档图像中包括待识别文档;
确定所述文档图像对应的二值图像,并从所述二值图像中选取多个图像块;
确定每个所述图像块的信息含量值;
根据所述信息含量值和所述图像块识别所述待处理文档在所述文档图像中的方向。
2.根据权利要求1所述的文档方向识别方法,其特征在于,所述确定每个所述图像块的信息含量值,包括:
利用已训练的全卷积网络模型确定每个所述图像块对应的热力图像;
确定每个所述热力图像中各像素点的第一像素值;
根据所述第一像素值确定对应热力图像的第一像素平均值;
根据所述第一像素平均值确定对应图像块的信息含量值。
3.根据权利要求2所述的文档方向识别方法,其特征在于,所述根据所述第一像素平均值确定对应图像块的信息含量值,包括:
确定每个所述图像块中的连通域、以及每个所述连通域的区域面积;
根据所述区域面积从所述连通域中确定目标连通域,并获取所述目标连通域的数量;
根据所述第一像素平均值、以及所述目标连通域的数量确定对应图像块的信息含量值。
4.根据权利要求3所述的文档方向识别方法,其特征在于,所述根据所述第一像素平均值、以及所述目标连通域的数量确定对应图像块的信息含量值,包括:
根据所述第二像素值确定对应图像块的第二像素平均值;
根据所述第二像素平均值和第二像素值确定对应图像块的像素标准差值;
根据同一图像块对应的第一像素平均值、第二像素平均值、像素标准差值以及所述目标连通域的数量,确定对应图像块的信息含量值。
5.根据权利要求1-4中任意一项所述的文档方向识别方法,其特征在于,所述根据所述信息含量值和所述图像块识别所述待处理文档在所述文档图像中的方向,包括:
根据所述信息含量值从所述多个图像块中确定目标图像块;
利用已训练的网络模型确定每个所述目标图像块对应的阅读方向角;
根据所述阅读方向角和信息含量值识别所述待处理文档在所述文档图像中的方向。
6.根据权利要求5所述的文档方向识别方法,其特征在于,所述根据所述阅读方向角和信息含量值识别所述待处理文档在所述文档图像中的方向,包括:
将所述信息含量值进行求和,得到和值;
根据所述和值和信息含量值确定每个所述目标图像块的权重值;
根据所述权重值对所述阅读方向角进行加权计算,得到目标方向角,并将所述目标方向角指示的方向作为所述待处理文档在所述文档图像中的方向。
7.根据权利要求5所述的文档方向识别方法,其特征在于,所述网络模型包括残差网络模型和注意力模型,所述利用已训练的网络模型确定每个所述目标图像块对应的阅读方向角,包括:
将每个所述目标图像块输入已训练的残差网络模型中,以对所述目标图像块进行处理,所述残差网络模型包括至少四层残差块;
在处理过程中,获取输入第二层残差块中的第一特征图;
将获取的所述第一特征图输入已训练的注意力模型中,得到注意力图像;
获取从第三层残差块中输出的第二特征图;
对所述第二特征图和注意力图进行点乘运算,得到第三特征图;
将所述第三特征图输入第四层残差块中,以得到阅读方向角。
8.一种文档方向识别装置,其特征在于,包括:
获取模块,用于获取文档图像,所述文档图像中包括待识别文档;
第一确定模块,用于确定所述文档图像对应的二值图像,并从所述二值图像中选取多个图像块;
第二确定模块,用于确定每个所述图像块的信息含量值;
识别模块,用于根据所述信息含量值和所述图像块识别所述待处理文档在所述文档图像中的方向。
9.根据权利要求8所述的文档方向识别装置,其特征在于,所述第二确定模块具体包括:
第一确定子模块,用于利用已训练的全卷积网络模型确定每个所述图像块对应的热力图像;
第二确定子模块,用于确定每个所述热力图像中各像素点的第一像素值;
第三确定子模块,用于根据所述第一像素值确定对应热力图像的第一像素平均值;
第四确定子模块,用于根据所述第一像素平均值确定对应图像块的信息含量值。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有多条指令,所述指令适于由处理器加载以执行权利要求1至7任一项所述的文档方向识别方法。
CN201910652827.3A 2019-07-19 2019-07-19 文档方向识别方法、装置及存储介质 Pending CN110378287A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910652827.3A CN110378287A (zh) 2019-07-19 2019-07-19 文档方向识别方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910652827.3A CN110378287A (zh) 2019-07-19 2019-07-19 文档方向识别方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN110378287A true CN110378287A (zh) 2019-10-25

Family

ID=68254086

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910652827.3A Pending CN110378287A (zh) 2019-07-19 2019-07-19 文档方向识别方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN110378287A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079641A (zh) * 2019-12-13 2020-04-28 科大讯飞股份有限公司 作答内容识别方法、相关设备及可读存储介质
CN111325205A (zh) * 2020-03-02 2020-06-23 北京三快在线科技有限公司 文档图像方向识别方法、装置及模型的训练方法、装置
CN111507267A (zh) * 2020-04-17 2020-08-07 北京百度网讯科技有限公司 文档朝向检测方法、装置、设备以及存储介质
CN111582151A (zh) * 2020-05-07 2020-08-25 北京百度网讯科技有限公司 文档图像朝向检测方法和装置
CN111753850A (zh) * 2020-06-29 2020-10-09 珠海奔图电子有限公司 文档处理方法、装置、计算机设备及计算机可读存储介质
CN111860525A (zh) * 2020-08-06 2020-10-30 宁夏宁电电力设计有限公司 一种适用于端子排的自底向上光学字符识别方法
CN113553428A (zh) * 2021-06-30 2021-10-26 北京百度网讯科技有限公司 文档分类方法、装置及电子设备
CN113743416A (zh) * 2021-08-24 2021-12-03 的卢技术有限公司 一种ocr领域针对无真实样本情形的数据增强方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079641A (zh) * 2019-12-13 2020-04-28 科大讯飞股份有限公司 作答内容识别方法、相关设备及可读存储介质
CN111079641B (zh) * 2019-12-13 2024-04-16 科大讯飞股份有限公司 作答内容识别方法、相关设备及可读存储介质
WO2021174962A1 (zh) * 2020-03-02 2021-09-10 北京三快在线科技有限公司 文档图像方向识别及模型的训练
CN111325205A (zh) * 2020-03-02 2020-06-23 北京三快在线科技有限公司 文档图像方向识别方法、装置及模型的训练方法、装置
CN111325205B (zh) * 2020-03-02 2023-10-10 北京三快在线科技有限公司 文档图像方向识别方法、装置及模型的训练方法、装置
CN111507267A (zh) * 2020-04-17 2020-08-07 北京百度网讯科技有限公司 文档朝向检测方法、装置、设备以及存储介质
CN111582151A (zh) * 2020-05-07 2020-08-25 北京百度网讯科技有限公司 文档图像朝向检测方法和装置
CN111582151B (zh) * 2020-05-07 2023-08-25 北京百度网讯科技有限公司 文档图像朝向检测方法和装置
CN111753850A (zh) * 2020-06-29 2020-10-09 珠海奔图电子有限公司 文档处理方法、装置、计算机设备及计算机可读存储介质
CN111860525B (zh) * 2020-08-06 2022-10-21 宁夏宁电电力设计有限公司 一种适用于端子排的自底向上光学字符识别方法
CN111860525A (zh) * 2020-08-06 2020-10-30 宁夏宁电电力设计有限公司 一种适用于端子排的自底向上光学字符识别方法
CN113553428A (zh) * 2021-06-30 2021-10-26 北京百度网讯科技有限公司 文档分类方法、装置及电子设备
CN113553428B (zh) * 2021-06-30 2024-04-23 北京百度网讯科技有限公司 文档分类方法、装置及电子设备
CN113743416A (zh) * 2021-08-24 2021-12-03 的卢技术有限公司 一种ocr领域针对无真实样本情形的数据增强方法
CN113743416B (zh) * 2021-08-24 2024-03-05 的卢技术有限公司 一种ocr领域针对无真实样本情形的数据增强方法

Similar Documents

Publication Publication Date Title
CN110378287A (zh) 文档方向识别方法、装置及存储介质
CN103729636B (zh) 字符切割方法、装置及电子设备
CN107092588B (zh) 一种文本信息处理方法、装置和系统
CN108304379A (zh) 一种文章识别方法、装置及存储介质
CN110334344A (zh) 一种语义意图识别方法、装置、设备及存储介质
CN104239535A (zh) 一种为文字配图的方法、服务器、终端及系统
CN106446797A (zh) 图像聚类方法及装置
CN108664957A (zh) 车牌号码匹配方法及装置、字符信息匹配方法及装置
CN108334539A (zh) 对象推荐方法、移动终端及计算机可读存储介质
CN109086742A (zh) 场景识别方法、场景识别装置及移动终端
CN108846274A (zh) 一种安全验证方法、装置及终端
CN109345553A (zh) 一种手掌及其关键点检测方法、装置和终端设备
CN103714316B (zh) 图像识别方法、装置及电子设备
CN108984064A (zh) 分屏显示方法、装置、存储介质和电子设备
CN110209810A (zh) 相似文本识别方法以及装置
CN106874906A (zh) 一种图片的二值化方法、装置及终端
CN110162653B (zh) 一种图文排序推荐方法及终端设备
CN109947650A (zh) 脚本步骤处理方法、装置和系统
CN106296634B (zh) 一种检测相似图像的方法和装置
CN108307068A (zh) 副屏显示界面切换方法、移动终端及存储介质
CN109376781A (zh) 一种图像识别模型的训练方法、图像识别方法和相关装置
CN108961267A (zh) 图片处理方法、图片处理装置及终端设备
CN116168038B (zh) 一种图像翻拍检测的方法、装置、电子设备及存储介质
CN106919326A (zh) 一种图片搜索方法及装置
CN110266994A (zh) 一种视频通话方法、视频通话装置及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination