CN113673368A - 一种判断文档主要文字方向的方法 - Google Patents
一种判断文档主要文字方向的方法 Download PDFInfo
- Publication number
- CN113673368A CN113673368A CN202110867589.5A CN202110867589A CN113673368A CN 113673368 A CN113673368 A CN 113673368A CN 202110867589 A CN202110867589 A CN 202110867589A CN 113673368 A CN113673368 A CN 113673368A
- Authority
- CN
- China
- Prior art keywords
- character
- semantic consistency
- judging
- text
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000001514 detection method Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 2
- 238000012549 training Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 5
- 238000012015 optical character recognition Methods 0.000 description 5
- 238000013145 classification model Methods 0.000 description 4
- 230000001427 coherent effect Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Character Input (AREA)
Abstract
本发明公开了一种判断文档主要文字方向的方法,所述方法包括如下步骤:s1对文字图像按照主要文字方向进行分类;s2基于分类结果旋转文字图像;s3对旋转后的文字图像做文字位置检测;s4对检测出的文字位置的文字图像区域做文字识别;s5判断文字识别结果的语义连贯程度;s6若语义连贯程度大于等于设定阈值,将识别结果输出;s7若语义连贯程度低于设定阈值,对s3中检测出的文字位置的文字图像区域做180°翻转后,针对翻转后的文字图像区域执行s4和s5的步骤,比较两次得到的语义连贯程度,取其中较高的语义连贯程度对应的识别结果作为输出。本发明弥补各个模块的劣势,以最低时间资源消耗提高文档主要文字方向判断的准确率。
Description
技术领域
本发明属于光学字符识别图像预处理领域,具体涉及一种判断文档主要文字方向的方法。
背景技术
随着大数据技术与人工智能技术的飞速发展,光学字符识别技术也得到了长足进步。光学字符识别技术在文档信息智能提取、智能审核、比对等业务领域取得了广泛的应用。基于大数据样本与人工智能技术的基础上,光学字符识别,特别是印刷体材料的光学字符识别,识别率已经非常接近于100%。
然而,在真正的工程应用领域或一些特定的场景下,会面对各种扫描、拍照等复杂场景,输入文字图像的方向可能出现旋转90、180、270度的情况。所有的文字图像正确识别的前提是确定待识别文字图像的正方向,侧向卧倒或倒立的文字很难正确识别。如何确定识别文字图像的方向是图像识别领域的关键问题。
目前常见的方法包括:
1.使用大量数据样本训练分类模型,直接输入图像,输出4分类,判断文档方向为0度、90度、180度或270度。
2.首先使用文字检测算法,得到所有的文字框,训练针对字条的分类模型,再统计所有字条的分类结果,将最多的结果作为整个文字图像的方向。
这两个此方法都存在的问题是:1)需要大量各种场景的数据,准备数据的成本较高,并且数据场景是无法穷举的,只要出现与训练样本不同场景的图像,模型就可能无法正确分类;2)模型很难训练到100%准确率,因为0度和180度,90度和270度,对于模型来说是很难准确区分的;3)文字图像或文字字条都不一定只有一个方向的文字,更加增加了模型的训练难度。
以上两种方法在训练数据、训练模型、训练方法都挑选得当的情况下,能较容易的达到95%以上的准确率,但是距离100%准确率还是有较大难度。
发明内容
针对现有技术中存在的问题,本发明提供一种判断文档主要文字方向的方法。
为实现上述目的,本发明采用以下技术方案:
一种判断文档主要文字方向的方法,所述方法包括如下步骤:s1对文字图像按照主要文字方向进行分类;s2基于分类结果旋转文字图像;s3对旋转后的文字图像做文字位置检测;s4对检测出的文字位置的文字图像区域做文字识别;s5判断文字识别结果的语义连贯程度;s6若语义连贯程度大于等于设定阈值,将识别结果输出;s7若语义连贯程度低于设定阈值,对s3中检测出的文字位置的文字图像区域做180°翻转后,针对翻转后的文字图像区域执行s4和s5的步骤,比较两次得到的语义连贯程度,取其中较高的语义连贯程度对应的识别结果作为输出。
优选地,s1中对文字图像按照主要文字方向进行分类之前,先将文字图像做预处理。
优选地,所述预处理包括图像尺寸统一和/或灰度化。
优选地,所述s5采用的判断方法包括:常见字所占比例与统计概率的比较和/或词性标注的规律和/或某个字的前后字是否常见。
一种计算机存储介质,所述存储介质中保存有计算机程序,所述计算机程序被执行时实现任一的判断文档主要文字方向的方法。
一种判断文档主要文字方向的装置,所述装置包括:分类模块,所述分类模块用来对文字图像按照主要文字方向进行分类;旋转模块,所述旋转模块用来基于分类结果旋转文字图像;文字检测模块,所述文字检测模块用来对旋转后的文字图像做文字位置检测;文字识别模块,所述文字识别模块用来对检测出的文字位置的文字图像区域做文字识别;计算模块,所述计算模块用来计算文字识别结果的语义连贯程度;判断模块,所述判断模块用来判断:若语义连贯程度大于等于设定阈值,将识别结果输出;若语义连贯程度低于设定阈值,对检测出的文字位置的文字图像区域做180°翻转后,针对翻转后的文字图像区域依次执行文字识别和语义连贯程度计算,比较两次得到的语义连贯程度,取其中较高的语义连贯程度对应的识别结果作为输出。
与现有技术相比,本发明的有益效果为:
1、根据各个模块的优势劣势,通过合理的流程设计,弥补各个模块的劣势,以最低时间资源消耗提高文档主要文字方向判断的准确率;
2、降低了文档主要文字方向分类模型的准确率要求,只要能准确分类,是0度/180度还是90度/270度即可,降低了收集各场景的全面的训练数据的时间成本;
3、对于文字图像中包含多个方向文字的情况,此流程能合理地输出主要文字的方向结果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
本实施例提到的文档识别系统包括文档主要文字方向分类模块判断、文字检测模块检测、文字识别模块识别这几个步骤。本实施例提出一种判断文档主要文字方向的方法及实现,在流程中增加判断识别结果是否有语义模块,并增加合理的重试机会,提高文档主要文字方向判断的准确率,以得到正确的文字识别结果,具体方案流程如图1所示,描述如下:
1.将原始文字图像经过合适的预处理后,例如图像尺寸统一、灰度化处理后,通过文档主要文字方向分类模型,得到分类结果,记为X;
2.基于分类结果旋转模型,对原始文字图像旋转对应角度,通过文字检测模块得到文字所在位置,记为结果J1;
3.基于文字检测模块结果,通过文字识别模块得到文字识别结果,记为结果S1;
4.判断文字识别结果是否是正常文档识别结果,即是否有连贯语义,例如90度文档识别结果大概率就是一堆无连贯语义的乱码,此步骤有多种方法可选,例如常见字所占比例与统计概率的比较、词性标注的规律、某个字前后字是否常见等。此步骤得到结果是一个[-1,1]的值,记为Y1,表示文字识别结果是有连贯语义的概率,大于0表示是0度文档,越接近1表示概率越大,相反小于0表示不是0度文档,越接近-1表示概率越大;
5.若步骤4的结果Y1是0度文档识别结果,整个流程结束,得到检测结果和识别结果;
6.否则将原始图像翻转180度,检测结果J1也翻转180度得到J2,继续步骤3、4,得到新的结果S2、Y2,判断Y1和Y2谁更接近1,取其检测和识别结果作为最终输出。
步骤6的设计考量:1)文档主要文字方向分类模块四分类整体准确率只能达到95%,经过观察和统计发现对于区分是0度/180度还是90度/270度,二分类能达到99%以上的准确率,而在区分0度还是180度,区分90度还是270度的错误占绝大部分。所以为了节约时间和资源消耗,如果步骤4的结果Y1表示识别结果不具有语义,则只需要尝试翻转180度的图像即可,无需四个角度都尝试,过多次数会导致时间和资源大幅浪费;2)经过观察统计发现文字检测结果是具有文档对称的,比如0度和180度的图像检测结果只需要旋转180度就是一致的,90度和270度的同理,所以无需把图像旋转180度后再做一遍文字检测,而是直接将步骤2的检测结果J1翻转180度即可得到J2,这能有效降低时间消耗和资源占用。
尽管上述实施例已对本发明作出具体描述,但是对于本领域的普通技术人员来说,应该理解为可以在不脱离本发明的精神以及范围之内基于本发明公开的内容进行修改或改进,这些修改和改进都在本发明的精神以及范围之内。
Claims (6)
1.一种判断文档主要文字方向的方法,其特征在于,所述方法包括如下步骤:
s1对文字图像按照主要文字方向进行分类;
s2基于分类结果旋转文字图像;
s3对旋转后的文字图像做文字位置检测;
s4对检测出的文字位置的文字图像区域做文字识别;
s5判断文字识别结果的语义连贯程度;
s6若语义连贯程度大于等于设定阈值,将识别结果输出;
s7若语义连贯程度低于设定阈值,对s3中检测出的文字位置的文字图像区域做180°翻转后,针对翻转后的文字图像区域执行s4和s5的步骤,比较两次得到的语义连贯程度,取其中较高的语义连贯程度对应的识别结果作为输出。
2.根据权利要求1所述的判断文档主要文字方向的方法,其特征在于,s1中对文字图像按照主要文字方向进行分类之前,先将文字图像做预处理。
3.根据权利要求2所述的判断文档主要文字方向的方法,其特征在于,所述预处理包括图像尺寸统一和/或灰度化。
4.根据权利要求1所述的判断文档主要文字方向的方法,其特征在于,所述s5采用的判断方法包括:常见字所占比例与统计概率的比较和/或词性标注的规律和/或某个字的前后字是否常见。
5.一种计算机存储介质,其特征在于,所述存储介质中保存有计算机程序,所述计算机程序被执行时实现权利要求1-4中任一的判断文档主要文字方向的方法。
6.一种判断文档主要文字方向的装置,其特征在于,所述装置包括:分类模块,所述分类模块用来对文字图像按照主要文字方向进行分类;旋转模块,所述旋转模块用来基于分类结果旋转文字图像;
文字检测模块,所述文字检测模块用来对旋转后的文字图像做文字位置检测;
文字识别模块,所述文字识别模块用来对检测出的文字位置的文字图像区域做文字识别;
计算模块,所述计算模块用来计算文字识别结果的语义连贯程度;
判断模块,所述判断模块用来判断:若语义连贯程度大于等于设定阈值,将识别结果输出;若语义连贯程度低于设定阈值,对检测出的文字位置的文字图像区域做180°翻转后,针对翻转后的文字图像区域依次执行文字识别和语义连贯程度计算,比较两次得到的语义连贯程度,取其中较高的语义连贯程度对应的识别结果作为输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110867589.5A CN113673368B (zh) | 2021-07-28 | 2021-07-28 | 一种判断文档主要文字方向的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110867589.5A CN113673368B (zh) | 2021-07-28 | 2021-07-28 | 一种判断文档主要文字方向的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113673368A true CN113673368A (zh) | 2021-11-19 |
CN113673368B CN113673368B (zh) | 2024-04-05 |
Family
ID=78540833
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110867589.5A Active CN113673368B (zh) | 2021-07-28 | 2021-07-28 | 一种判断文档主要文字方向的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113673368B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030152289A1 (en) * | 2002-02-13 | 2003-08-14 | Eastman Kodak Company | Method and system for determining image orientation |
US20070050360A1 (en) * | 2005-08-23 | 2007-03-01 | Hull Jonathan J | Triggering applications based on a captured text in a mixed media environment |
CN110728117A (zh) * | 2019-08-27 | 2020-01-24 | 达而观信息科技(上海)有限公司 | 基于机器学习和自然语言处理的段落自动识别方法及系统 |
CN110969056A (zh) * | 2018-09-29 | 2020-04-07 | 杭州海康威视数字技术股份有限公司 | 文档图像的文档版面分析方法、装置及存储介质 |
-
2021
- 2021-07-28 CN CN202110867589.5A patent/CN113673368B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030152289A1 (en) * | 2002-02-13 | 2003-08-14 | Eastman Kodak Company | Method and system for determining image orientation |
US20070050360A1 (en) * | 2005-08-23 | 2007-03-01 | Hull Jonathan J | Triggering applications based on a captured text in a mixed media environment |
CN110969056A (zh) * | 2018-09-29 | 2020-04-07 | 杭州海康威视数字技术股份有限公司 | 文档图像的文档版面分析方法、装置及存储介质 |
CN110728117A (zh) * | 2019-08-27 | 2020-01-24 | 达而观信息科技(上海)有限公司 | 基于机器学习和自然语言处理的段落自动识别方法及系统 |
Non-Patent Citations (6)
Title |
---|
"基于多尺度特征金字塔融合的文本检测方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, 15 February 2021 (2021-02-15), pages 138 - 2127 * |
AUXEMERY, Y等: "From Digital Identity to Connected Personality, From Augmented Diagnostician to Virtual Caregiver:What are the challenges for the Psychology and the Psychiatry of the future?", 《EVOLUTION PSYCHIATRIQUE》, 31 May 2021 (2021-05-31), pages 261 - 283 * |
DR MANJU等: "Text document Orientation detection using convolutional Neural networks", 《HTTPS://WWW.RESEARCHGATE.NET/PUBLICATION/357126231》, 1 May 2021 (2021-05-01), pages 1 - 13 * |
李志欣;施智平;李志清;史忠植;: "图像检索中语义映射方法综述", 计算机辅助设计与图形学学报, no. 08, 15 August 2008 (2008-08-15), pages 131 - 142 * |
郭燕慧等: "统计语言模型中句子的语义连贯性判别", 《情报学报》, 31 August 2003 (2003-08-31), pages 472 - 475 * |
黄泽涛: "基于字符的文档图像方向矫正研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, 15 January 2020 (2020-01-15), pages 138 - 1618 * |
Also Published As
Publication number | Publication date |
---|---|
CN113673368B (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109902622B (zh) | 一种用于登机牌信息验证的文字检测识别方法 | |
CN109308476B (zh) | 票据信息处理方法、系统及计算机可读存储介质 | |
WO2019232853A1 (zh) | 中文模型训练、中文图像识别方法、装置、设备及介质 | |
CN110598686B (zh) | 发票的识别方法、系统、电子设备和介质 | |
US20070098254A1 (en) | Detecting humans via their pose | |
CN113762269B (zh) | 基于神经网络的中文字符ocr识别方法、系统及介质 | |
JP2014232533A (ja) | Ocr出力検証システム及び方法 | |
CN111353491B (zh) | 一种文字方向确定方法、装置、设备及存储介质 | |
CN111460927A (zh) | 对房产证图像进行结构化信息提取的方法 | |
CN111191649A (zh) | 一种识别弯曲多行文本图像的方法与设备 | |
CN111091124B (zh) | 一种书脊文字识别方法 | |
CN112016638A (zh) | 一种钢筋簇的识别方法、装置、设备及存储介质 | |
CN111583180B (zh) | 一种图像的篡改识别方法、装置、计算机设备及存储介质 | |
CN113487610B (zh) | 疱疹图像识别方法、装置、计算机设备和存储介质 | |
CN110781882A (zh) | 一种基于yolo模型的车牌定位和识别方法 | |
CN114038004A (zh) | 一种证件信息提取方法、装置、设备及存储介质 | |
CN111368632A (zh) | 一种签名识别方法及设备 | |
CN110647956A (zh) | 一种联合二维码识别的发票信息提取方法 | |
CN112464925A (zh) | 基于机器学习的移动端开户资料银行信息自动提取方法 | |
CN115116074A (zh) | 一种手写体文字识别、及模型训练方法和装置 | |
CN113361666A (zh) | 一种手写字符识别方法、系统及介质 | |
CN116597466A (zh) | 一种基于改进YOLOv5s的工程图纸文字检测识别方法及系统 | |
CN110991374B (zh) | 一种基于rcnn的指纹奇异点检测方法 | |
CN115953744A (zh) | 一种基于深度学习的车辆识别追踪方法 | |
CN114581932A (zh) | 一种图片表格线提取模型构建方法及图片表格提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |