CN116311292A - 单据图像信息提取方法、装置、计算机设备和存储介质 - Google Patents
单据图像信息提取方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN116311292A CN116311292A CN202310325362.7A CN202310325362A CN116311292A CN 116311292 A CN116311292 A CN 116311292A CN 202310325362 A CN202310325362 A CN 202310325362A CN 116311292 A CN116311292 A CN 116311292A
- Authority
- CN
- China
- Prior art keywords
- text
- document image
- region
- handwriting
- area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 claims abstract description 26
- 238000001514 detection method Methods 0.000 claims description 19
- 230000000877 morphologic effect Effects 0.000 claims description 18
- 230000009466 transformation Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 8
- 238000012360 testing method Methods 0.000 description 12
- 238000012549 training Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 7
- 102100032202 Cornulin Human genes 0.000 description 6
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000012937 correction Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010252 digital analysis Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/32—Digital ink
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Character Input (AREA)
Abstract
本发明提供了一种单据图像信息提取方法、装置、计算机设备和存储介质。该单据图像信息提取方法包括:检测单据图像中的文本区域;判断所述文本区域中的文本是否属于手写体;当所述文本区域中的文本属于手写体,调用手写体识别模块识别所述文本区域的文本;当所述文本区域中的文本不属于手写体时,调用印刷体识别模块识别所述文本区域的文本;以及根据所述文本区域的文本识别结果输出所述单据图像中的文字信息。通过本发明,能够提高单据图像信息的识别精度和效率。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种单据图像信息提取方法、装置、计算机设备和存储介质。
背景技术
随着电子化办公和工业互联网的发展,越来越多的单据被数字化,以便于存储、查询和共享。其中运输单据作为物流运输过程中的一个重要的凭证,其数字化解析就变得尤为重要。单据图像信息提取方法是一种将纸质单据转换为数字数据的技术,可以实现快速准确地提取单据中的文字信息,然而物流运输单包含信息量大,在单据上通常会有很多手写信息,单纯使用光学字符识别(OCR)技术往往无法实现高精度的信息提取。
因此,需要一种更加智能的单据图像信息提取方法来提高识别精度和效率。
发明内容
本发明的目的是提供一种单据图像信息提取方法、装置、计算机设备和存储介质,用于解决现有技术中的技术问题。
一方面,为实现上述目的,本发明提供了一种单据图像信息提取方法。
该单据图像信息提取方法包括:检测单据图像中的文本区域;判断所述文本区域中的文本是否属于手写体;当所述文本区域中的文本属于手写体,调用手写体识别模块识别所述文本区域的文本;当所述文本区域中的文本不属于手写体时,调用印刷体识别模块识别所述文本区域的文本;以及根据所述文本区域的文本识别结果输出所述单据图像中的文字信息。
进一步地,单据图像包括多个文本区域,定义第一文本区域为所述单句图像中的任意一个文本区域,判断所述第一文本区域中的文本是否属于手写体的步骤包括:检测所述第一文本区域中线段的形态学特征是否一致;若所述第一文本区域中线段的形态学特征不一致,检测所述第一文本区域中线段的纹理特征是否一致;以及若所述第一文本区域中线段的纹理特征不一致,则确定所述第一文本区域中的文本属于手写体。
进一步地,所述形态学特征包括粗细度和曲率,所述纹理特征包括清晰度和灰度值。
进一步地,所述文本区域的文本的识别结果包括若干文本行语义信息和与每个所述文本行语义信息对应的文本行位置信息,根据识别所述文本区域的文本的识别结果输出所述单据图像中的文字信息的步骤包括:将各个所述文本语义信息分别与预设的关键词列表进行匹配,其中,所述关键词列表包括多个关键词,预设结果位置规则与所述关键词相对应;当第一文本语义信息与所述关键词列表中的第一关键词匹配时,查找满足所述第一关键词对应的结果位置规则的文本行位置信息,得到第二文本行位置信息;获取所述第二文本行位置信息对应的第二文本语义信息;以及将所述第二文本语义信息与所述第一文本语义信息作为一个匹配结果输出。
进一步地,检测单据图像中的文本区域包括:对所述单据图像进行关键点检测,以确定所述单据图像中的单据区域;通过透视变换对所述单据区域进行校正;以及检测透视变换的单据区域中的文本区域。
进一步地,单据图像信息提取方法还包括:检测所述单据图像中的印章区域;提取所述印章区域中的文本单元;将所述文本单元进行拉平处理;识别拉平处理后的文本单元中的文本;以及根据识别到的所述文本单元中的文本输出印章识别结果。
进一步地,单据图像信息提取方法还包括:检测所述单据图像中的二维码区域;对所述二维码区域进行校正;对校正后的二维码区域进行解码;根据解码得到的信息输出二维码识别结果。
另一方面,为实现上述目的,本发明提供了一种单据图像信息提取装置。
该单据图像信息提取装置包括:第一检测模块,用于检测单据图像中的文本区域;判断模块,用于判断所述文本区域中的文本是否属于手写体;第一调用模块,用于当所述文本区域中的文本属于手写体,调用手写体识别模块识别所述文本区域的文本;第二调用模块,用于当所述文本区域中的文本不属于手写体时,调用印刷体识别模块识别所述文本区域的文本;以及第一输出模块,用于根据所述文本区域的文本识别结果输出所述单据图像中的文字信息。
为实现上述目的,本发明还提供一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
为实现上述目的,本发明还提供计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本发明提供的单据图像信息提取方法、装置、计算机设备和存储介质,首先检测单据图像中的文本区域,然后判断检测出的每个文本区域中的文本是否属于手写体。针对每个文本区域,当该文本区域中的文本属于手写体,调用手写体识别模块识别文本区域的文本,当该文本区域中的文本不属于手写体时,调用印刷体识别模块识别述文本区域的文本,最后根据文本区域的文本识别结果输出单据图像中的文字信息。通过本发明,实现了对单据图像中的文字信息提取的智能化处理,无需人工干预,为单据数字化提供了有力的技术支持,同时,该方法在识别文本前先进行手写体和印刷体的区别,再通过采用手写体识别和印刷体识别两种不同的识别方式分别识别对应的文本区域,提高了识别的准确性和效率。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例一提供的单据图像信息提取方法的流程图;
图2为本发明实施例二提供的单据图像信息提取装置的框图;
图3为本发明实施例三提供的计算机设备的硬件结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本发明实施例提供了一种单据图像信息提取方法,通过该方法,能够提升单据图像信息提取的精度和效率,具体地,图1为本发明实施例一提供的单据图像信息提取方法的流程图,如图1所示,该实施例提供的单据图像信息提取方法包括如下的步骤S101至步骤S105。
步骤S101:检测单据图像中的文本区域。
针对需要数字电子化的单据,首先采用相机进行拍照,得到单据图像,进而通过该步骤S101,检测其中的文本区域。
可选地,可以采用基于深度学习的文本检测算法检测单据图像中的文本区域,例如采用DBNet模型进行文本检测。首先构建包含单据图像和对应文本标注框的数据集作为样本集,用于对DBNet模型进行训练和测试,其中,文本标注框是指单据中需要检测的文本区域的边界框。然后利用样本集训练DBNet模型,并当训练好的DBNet模型满足测试要求时,即可使用训练好的模型进行推理检测单据图像中的文本区域。具体地,将单据图像输入训练好的DBNet模型,模型即可输出检测到的文本区域的边界框,进一步可选地,可对得到的边界框进行筛选处理,例如去除重叠框、筛选置信度较高的边界框等,最终得到文本区域。当单据图像中包括多个文本区域时,通过该步骤输出多个文本区域。
步骤S102:判断文本区域中的文本是否属于手写体。
在单据图像中同时包括手写体文本和印刷体文本,而这两种文本在图像识别中的差异较大,特别是采用光学字符识别技术无法准确的识别出手写体文本。因此,在该实施例中,对检测出的文本区域先进行手写体的判断,判断每一个文本区域是否属于手写体。
具体地,在进行手写体的判断时,可基于字体样式、字符间距和连通性、线宽和颜色等特征进行判断,可选地,采用图像分割和特征提取等技术对文本区域进行分割和特征提取,然后将特征送入分类器进行分类,以判断出文本区域是否属于手写体。在选择分类器时,可以使用传统机器学习算法,如支持向量机(SVM)、随机森林(Random Forest)等,也可以使用深度学习算法,如卷积神经网络(CNN)、循环神经网络(RNN)等。
步骤S103:当文本区域中的文本属于手写体,调用手写体识别模块识别文本区域的文本。
对于手写体文本,预置专用识别手写体文本的手写体识别模块,对文本属于手写体的文本区域进行文本识别。可选地,手写体识别模块基于Transformer的手写体文本识别方法实现,使得手写体文本的识别具有更好的识别效果和更高的准确率。
可选地,手写体识别模块采用以下步骤完成文本区域的识别。第一部分为Transformer模型的训练和测试过程;第二部分是基于训练好的Transformer模型识别文本区域中文本的过程。
在第一部分中,首先,准备样本集,也即构建一个包含手写体文本图像和对应文本标注的数据集,用于训练和测试模型。其次,在训练前对样本集进行预处理,具体包括将图像转换为灰度图像、进行二值化处理、去除噪声等。第三,训练模型,也即使用准备好的一部分样本集,训练Transformer模型。第四,利用另一部分样本集测试Transformer模型,当测试结果不满足要求时,调整参数重新进行训练,当测试结果满足要求时,完成训练。
在第二部分中,将待识别的文本区域输入训练好的Transformer模型进行推理,输出识别出的文本内容。
步骤S104:当文本区域中的文本不属于手写体时,调用印刷体识别模块识别文本区域的文本。
对于印刷体文本,预置专用识别印刷体文本的手写体识别模块,对文本属于印刷体的文本区域进行文本识别。可选地,印刷体识别模块基于CRNN的手文本识别方法实现,使得印刷体文本的识别具有更好的识别效果和更高的准确率。
可选地,印刷体识别模块采用以下步骤完成文本区域的识别。第一部分为CRNN模型的训练和测试过程;第二部分是基于训练好的CRNN模型识别文本区域中文本的过程。
在第一部分中,首先,准备样本集,也即构建一个包含印刷体文本图像和对应文本标注的数据集,用于训练和测试模型。其次,在训练前对样本集进行预处理,具体包括将图像转换为灰度图像、进行二值化处理、去除噪声等。第三,训练模型,也即使用准备好的一部分样本集,训练CRNN模型。第四,利用另一部分样本集测试CRNN模型,当测试结果不满足要求时,调整参数重新进行训练,当测试结果满足要求时,完成训练。
在第二部分中,将待识别的文本区域输入训练好的CRNN模型进行推理,输出识别出的文本内容。
步骤S105:根据文本区域的文本识别结果输出单据图像中的文字信息。
将识别出的文本作为单据图像中的文字信息,输出到相关系统中,实现单据的自动化处理。
在该实施例提供的单据图像信息提取方法中,首先检测单据图像中的文本区域,然后判断检测出的每个文本区域中的文本是否属于手写体。针对每个文本区域,当该文本区域中的文本属于手写体,调用手写体识别模块识别文本区域的文本,当该文本区域中的文本不属于手写体时,调用印刷体识别模块识别述文本区域的文本,最后根据文本区域的文本识别结果输出单据图像中的文字信息。采用该实施例提供的单据图像信息提取方法,实现了对单据图像中的文字信息提取的智能化处理,无需人工干预,为单据数字化提供了有力的技术支持,同时,该方法在识别文本前先进行手写体和印刷体的区别,再通过采用手写体识别和印刷体识别两种不同的识别方式分别识别对应的文本区域,提高了识别的准确性和效率。
可选地,在一种实施例中,单据图像包括多个文本区域,定义第一文本区域为单据图像中多个文本区域中的任意一个,判断第一文本区域中的文本是否属于手写体的步骤包括:检测第一文本区域中线段的形态学特征是否一致;若第一文本区域中线段的形态学特征不一致,检测第一文本区域中线段的纹理特征是否一致;以及若第一文本区域中线段的纹理特征不一致,则确定第一文本区域中的文本属于手写体。进一步可选地,形态学特征包括粗细度和曲率,纹理特征包括清晰度和灰度值。
具体而言,对于单据图像中的多个文本区域,选取任意一个作为第一文本区域进行描述。针对第一文本区域,提取其线段的形态学特征,例如线段的长度、粗细度、曲率等,并将各线段提取到的形态学特征进行检测,若第一文本区域中线段的形态学特征一致,则说明该文本区域中的文本可能为印刷体,直接调用印刷体识别模块进行文本识别,需要说明的是,该实施例中的“一致”不是绝对一致,是指在一定范围内的一致,例如文本区域中80%以上线段的特征相同,即表征该文本区域中的形态学特征一致。若第一文本区域中线段的形态学特征不一致,则说明该文本区域中的文本可能为手写体,继续进行纹理特征检测。针对第一文本区域,提取其线段的纹理特征,例如线段的清晰度、灰度值等,并将各线段提取到的纹理特征进行检测。若第一文本区域中线段的纹理特征一致,则说明该文本区域中的文本可能为印刷体,直接调用印刷体识别模块进行文本识别。若第一文本区域中线段的纹理特征不一致,则说明该文本区域中的文本为手写体,调用手写体识别模块进行文本识别。
采用该实施例提供的单据图像信息提取方法,先进行形态学特征的检测,可以初步筛选出印刷体,再对可能为手写体的文本区域进行纹理特征的检测,进一步排除印刷体,判断出手写体和印刷体,避免将在一些印刷不清楚的印刷体被误判为手写体,提高单据图像中文本区域属于手写体的判断准确性,从而选择正确的识别模块进行文本识别,提高了文本识别的准确率。
可选地,在一种实施例中,文本区域的文本的识别结果包括若干文本行语义信息和与每个文本行语义信息对应的文本行位置信息,根据识别文本区域的文本的识别结果输出单据图像中的文字信息的步骤包括:;将各个文本语义信息分别与预设的关键词列表进行匹配,其中,预设的关键词列表包括多个关键词,预设结果位置规则与关键词对应;当第一文本语义信息与关键词列表中的第一关键词匹配时,查找满足第一关键词对应的结果位置规则的文本行位置信息,得到第二文本行位置信息;获取第二文本行位置信息对应的第二文本语义信息;以及将第二文本语义信息与第一文本语义信息作为一个匹配结果输出。
具体而言,与文本行语义信息对应的文本行位置信息,也即该文本行语义信息在文本区域中的位置描述。针对需要识别的单据,预设关键词列表,例如,针对物流运单,设置对应的关键词列表。该列表包括多个关键词,用于匹配文本语义信息。同时,为每个关键词预设一个结果位置规则,该结果位置规则用于指示关键词对应结果所在的位置。
例如关键词包括“运单号”、“收件人”、“发件人”和“货物内容”等,“运单号”对应的结果为单号数字,“运单号”对应的结果位置规则是结果的位置在“运单号”位置的上方相邻文本行;“收件人”对应的结果为收件人的姓名和地址等信息,“收件人”对应的结果位置规则是结果的位置在“收件人”相邻右侧的同一个文本行;“发件人”对应的结果为发件人的姓名和地址等信息,“发件人”对应的结果位置规则是结果的位置在“发件人”相邻右侧的同一个文本行;“货物内容”对应的结果位置规则是结果的位置在“货物内容”位置的下方相邻文本行。
首先,针对文本区域中提取出的文本语义信息,将各个文本语义信息分别与关键词列表进行匹配,其中,为了方便描述,将匹配成功的文本语义信息定义为第一文本语义信息,将与第一文本语义信息匹配的关键词定义为第一关键词。当第一文本语义信息与关键词列表中的第一关键词匹配成功,查找满足第一关键词对应的结果位置规则的文本行位置信息,也即,在各个文本行位置信息中,找出满足第一关键词对应的结果位置规则的文本行位置信息,例如,第一关键词为上述“运单号”,则查找出表征在“运单号”位置的上方相邻文本行的文本行位置信息,该处将查找到的文本行位置信息定义为第二文本行位置信息。然后再获取第二文本行位置信息对应的第二文本语义信息,也即第二文本行位置信息表征位置处的文本语义信息,例如,获取“运单号”位置的上方相邻文本行的文本语义信息。最后将第一文本语义信息与第二文本语义信息作为一个匹配结果输出,即为单据图像中的一组文字信息,例如第一文本语义信息为“运单号”,第二文本语义信息为“AB1234567”。
采用该实施例提供的单据图像信息提取方法,能够有效提取单据图像中的文字信息,并且能够根据预设的关键词列表和结果位置规则,精确地匹配需要提取的信息,从而提高文字信息的提取准确度和效率。
可选地,在一种实施例中,检测单据图像中的文本区域包括:对单据图像进行关键点检测,以确定单据图像中的单据区域;通过透视变换对单据区域进行校正,检测透视变换的单据区域中的文本区域。
具体而言,可以预置单据图像中标注单据区域的关键点信息,基于检测关键点信息,检测单据图像中的关键点,得到单据图像中的单据区域。例如可以采用CenterNet检测算法进行检测。在得到单据区域后,使其在平面上呈现正常的形态,提升后续识别和检测步骤的准确性,先通过透视变换进校校正,然后再检测透视变换的单据区域中的文本区域。
采用该实施例提供的单据图像信息提取方法,先得到单据图像中的单据区域,并对单据区域进行校正,在校正后再提取单据区域中的文本区域,有利于提升提高文字信息的提取准确度和效率。
可选地,在一种实施例中,单据图像信息提取方法还包括:检测单据图像中的印章区域;提取印章区域中的文本单元;将文本单元进行拉平处理;识别拉平处理后的文本单元中的文本;以及根据识别到的文本单元中的文本输出印章识别结果。
具体而言,可以使用目标检测算法,例如YOLOv5、SSD或Faster R-CNN等,对图像进行印章区域的检测和定位,得到印章区域的位置和大小等信息。在印章区域内部,需要再次使用文本检测算法,例如DBNET、EAST或CRAFT等,对印章区域内的文本单元进行检测和定位,得到文本单元的位置和大小等信息。对于印章区域内的每个文本单元,通常并不是水平设置的,因此采用极坐标变换(Polar Transform)将其转换为平面坐标系,其中,可以根据文本单元的中心点坐标以及文本单元的半径,将极坐标中的半径和角度映射到平面坐标系中的x、y坐标,得到文本单元在平面坐标系中的坐标和大小。对于转换后的文本单元,可以采用仿射变换(Affine Transform)或透视变换(Perspective Transform)将其拉平,使得文本单元在平面坐标系中呈现水平方向,进而识别文本单元中的文本,输出印章识别结果。
采用该实施例提供的单据图像信息提取方法,能够对单据图像中的印章区域进行自动提取和识别,提升单据图像信息提取的全面性。
可选地,在一种实施例中,单据图像信息提取方法还包括:检测单据图像中的二维码区域;对二维码区域进行校正;对校正后的二维码区域进行解码;根据解码得到的信息输出二维码识别结果。
具体而言,首先通过图像处理技术,检测单据图像中的二维码区域,包括确定二维码区域的位置和大小。然后对检测到的二维码区域进行校正,以确保二维码在图像中的倾斜和变形对解码结果不会产生影响。校正可以采用旋转、缩放、投影变换等方法。再使用二维码识别算法对校正后的二维码区域进行解码,将二维码转换为文本或者其他可识别的字符信息。最后将解码得到的信息作为二维码识别结果输出。
采用该实施例提供的单据图像信息提取方法,能够对单据图像中的二维码进行自动提取和识别,提升单据图像信息提取的全面性。
实施例二
对应于上述实施例一,本发明实施例二提供了一种单据图像信息提取装置,相应地技术特征细节和对应的技术效果可参考上述实施例一,在该实施例中不再赘述。图2为本发明实施例二提供的单据图像信息提取装置的框图,如图2所示,该装置包括:第一检测模块201、判断模块202、第一调用模块203、第二调用模块204和第一输出模块205。
其中,第一检测模块201用于检测单据图像中的文本区域;判断模块202用于判断所述文本区域中的文本是否属于手写体;第一调用模块203用于当所述文本区域中的文本属于手写体,调用手写体识别模块识别所述文本区域的文本;第二调用模块204用于当所述文本区域中的文本不属于手写体时,调用印刷体识别模块识别所述文本区域的文本;以及第一输出模块205用于根据所述文本区域的文本识别结果输出所述单据图像中的文字信息。
可选地,在一种实施例中,单据图像包括多个文本区域,定义第一文本区域为所述多个文本区域中的任意一个,判断模块包括:第一检测单元,用于检测所述第一文本区域中线段的形态学特征是否一致;第二检测单元,用于若所述第一文本区域中线段的形态学特征不一致,检测所述第一文本区域中线段的纹理特征是否一致;以及确定单元,用于若所述第一文本区域中线段的纹理特征不一致,则确定所述第一文本区域中的文本属于手写体。
可选地,在一种实施例中,所述形态学特征包括粗细度和曲率,所述纹理特征包括清晰度和灰度值。
可选地,在一种实施例中,所述文本区域的文本的识别结果包括若干文本行语义信息和与每个所述文本行语义信息对应的文本行位置信息,第一输出模块包括:存储单元,用于存储预设的关键词列表和关键词对应的结果位置规则,其中,所述关键词列表包括多个所述关键词;匹配单元,用于将各个所述文本语义信息分别与所述关键词列表进行匹配;查找单元,用于当第一文本语义信息与所述关键词列表中的第一关键词匹配时,查找满足所述第一关键词对应的结果位置规则的文本行位置信息,得到第二文本行位置信息;获取单元,用于获取所述第二文本行位置信息对应的第二文本语义信息;以及输出单元,用于将所述第二文本语义信息与所述第一文本语义信息作为一个匹配结果输出。
可选地,在一种实施例中,第一检测模块包括:第三检测单元,用于对所述单据图像进行关键点检测,以确定所述单据图像中的单据区域;校正单元,用于通过透视变换对所述单据区域进行校正;以及第四检测单元,用于检测透视变换的单据区域中的文本区域。
可选地,在一种实施例中,单据图像信息提取装置还包括:第二检测模块,用于检测所述单据图像中的印章区域;提取模块,用于提取所述印章区域中的文本单元;处理模块,用于将所述文本单元进行拉平处理;识别模块,用于识别拉平处理后的文本单元中的文本;以及第二输出模块,用于根据识别到的所述文本单元中的文本输出印章识别结果。
可选地,在一种实施例中,单据图像信息提取装置还包括:第三检测模块,用于检测所述单据图像中的二维码区域;校正模块,用于对所述二维码区域进行校正;解码模块,用于对校正后的二维码区域进行解码;第三输出模块,用于根据解码得到的信息输出二维码识别结果。
实施例三
本实施例还提供一种计算机设备,如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图3所示,本实施例的计算机设备01至少包括但不限于:可通过系统总线相互通信连接的存储器011、处理器012,如图3所示。需要指出的是,图3仅示出了具有组件存储器011和处理器012的计算机设备01,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器011(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器011可以是计算机设备01的内部存储单元,例如该计算机设备01的硬盘或内存。在另一些实施例中,存储器011也可以是计算机设备01的外部存储设备,例如该计算机设备01上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器011还可以既包括计算机设备01的内部存储单元也包括其外部存储设备。本实施例中,存储器011通常用于存储安装于计算机设备01的操作系统和各类应用软件,例如实施例二的单据图像信息提取装置的程序代码等。此外,存储器011还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器012在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器012通常用于控制计算机设备01的总体操作。本实施例中,处理器012用于运行存储器011中存储的程序代码或者处理数据,例如单据图像信息提取方法等。
实施例四
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储单据图像信息提取装置,被处理器执行时实现实施例一的单据图像信息提取方法。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种单据图像信息提取方法,其特征在于,包括:
检测单据图像中的文本区域;
判断所述文本区域中的文本是否属于手写体;
当所述文本区域中的文本属于手写体,调用手写体识别模块识别所述文本区域的文本;
当所述文本区域中的文本不属于手写体时,调用印刷体识别模块识别所述文本区域的文本;以及
根据所述文本区域的文本识别结果输出所述单据图像中的文字信息。
2.根据权利要求1所述的单据图像信息提取方法,其特征在于,单据图像包括多个文本区域,定义第一文本区域为所述单据图像中的任意一个文本区域,判断所述第一文本区域中的文本是否属于手写体的步骤包括:
检测所述第一文本区域中线段的形态学特征是否一致;
若所述第一文本区域中线段的形态学特征不一致,检测所述第一文本区域中线段的纹理特征是否一致;以及
若所述第一文本区域中线段的纹理特征不一致,则确定所述第一文本区域中的文本属于手写体。
3.根据权利要求2所述的单据图像信息提取方法,其特征在于,所述形态学特征包括粗细度和曲率,所述纹理特征包括清晰度和灰度值。
4.根据权利要求1所述的单据图像信息提取方法,其特征在于,所述文本区域的文本的识别结果包括若干文本行语义信息和与每个所述文本行语义信息对应的文本行位置信息,根据识别所述文本区域的文本的识别结果输出所述单据图像中的文字信息的步骤包括:
将各个所述文本语义信息分别与预设的关键词列表进行匹配,其中,所述关键词列表包括多个关键词,预设结果位置规则与所述关键词相对应;
当第一文本语义信息与所述关键词列表中的第一关键词匹配时,查找满足所述第一关键词对应的结果位置规则的文本行位置信息,得到第二文本行位置信息;
获取所述第二文本行位置信息对应的第二文本语义信息;以及
将所述第二文本语义信息与所述第一文本语义信息作为一个匹配结果输出。
5.根据权利要求1所述的单据图像信息提取方法,其特征在于,检测单据图像中的文本区域包括:
对所述单据图像进行关键点检测,以确定所述单据图像中的单据区域;
通过透视变换对所述单据区域进行校正;以及
检测透视变换的单据区域中的文本区域。
6.根据权利要求1所述的单据图像信息提取方法,其特征在于,还包括:
检测所述单据图像中的印章区域;
提取所述印章区域中的文本单元;
将所述文本单元进行拉平处理;
识别拉平处理后的文本单元中的文本;以及
根据识别到的所述文本单元中的文本输出印章识别结果。
7.根据权利要求1所述的单据图像信息提取方法,其特征在于,还包括:
检测所述单据图像中的二维码区域;
对所述二维码区域进行校正;
对校正后的二维码区域进行解码;
根据解码得到的信息输出二维码识别结果。
8.一种单据图像信息提取装置,其特征在于,包括:
第一检测模块,用于检测单据图像中的文本区域;
判断模块,用于判断所述文本区域中的文本是否属于手写体;
第一调用模块,用于当所述文本区域中的文本属于手写体,调用手写体识别模块识别所述文本区域的文本;
第二调用模块,用于当所述文本区域中的文本不属于手写体时,调用印刷体识别模块识别所述文本区域的文本;以及
第一输出模块,用于根据所述文本区域的文本识别结果输出所述单据图像中的文字信息。
9.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310325362.7A CN116311292A (zh) | 2023-03-29 | 2023-03-29 | 单据图像信息提取方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310325362.7A CN116311292A (zh) | 2023-03-29 | 2023-03-29 | 单据图像信息提取方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116311292A true CN116311292A (zh) | 2023-06-23 |
Family
ID=86832303
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310325362.7A Pending CN116311292A (zh) | 2023-03-29 | 2023-03-29 | 单据图像信息提取方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116311292A (zh) |
-
2023
- 2023-03-29 CN CN202310325362.7A patent/CN116311292A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109829453B (zh) | 一种卡证中文字的识别方法、装置以及计算设备 | |
CN110659574B (zh) | 文档图像勾选框状态识别后输出文本行内容的方法及系统 | |
US9811749B2 (en) | Detecting a label from an image | |
JP6366024B2 (ja) | 画像化された文書からテキストを抽出する方法及び装置 | |
CN110569341B (zh) | 配置聊天机器人的方法、装置、计算机设备和存储介质 | |
US20170351913A1 (en) | Document Field Detection And Parsing | |
CN109784342B (zh) | 一种基于深度学习模型的ocr识别方法及终端 | |
CN110807454B (zh) | 基于图像分割的文字定位方法、装置、设备及存储介质 | |
CN112508011A (zh) | 一种基于神经网络的ocr识别方法及设备 | |
CN109389115B (zh) | 文本识别方法、装置、存储介质和计算机设备 | |
CN113343740A (zh) | 表格检测方法、装置、设备和存储介质 | |
CN113158895A (zh) | 票据识别方法、装置、电子设备及存储介质 | |
CN111738979A (zh) | 证件图像质量自动检查方法及系统 | |
CN108090728B (zh) | 一种基于智能终端的快递信息录入方法及录入系统 | |
CN114005126A (zh) | 表格重构方法、装置、计算机设备及可读存储介质 | |
CN114694161A (zh) | 一种特定版式证件的文本识别方法、设备及存储介质 | |
CN114463767A (zh) | 信用证识别方法、装置、计算机设备和存储介质 | |
Van Beusekom et al. | Automated ocr ground truth generation | |
CN113221897B (zh) | 图像矫正方法、图像文本识别方法、身份验证方法及装置 | |
CN111414917A (zh) | 一种低像素密度文本的识别方法 | |
CN116050379A (zh) | 文档对比方法及存储介质 | |
WO2017058252A1 (en) | Detecting document objects | |
CN115205861A (zh) | 一种获取异常文字识别区域的方法、电子设备及存储介质 | |
CN116311292A (zh) | 单据图像信息提取方法、装置、计算机设备和存储介质 | |
WO2019071476A1 (zh) | 一种基于智能终端的快递信息录入方法及录入系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |