CN117831052A - 金融表单的识别方法及其装置、电子设备及存储介质 - Google Patents
金融表单的识别方法及其装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117831052A CN117831052A CN202311869697.1A CN202311869697A CN117831052A CN 117831052 A CN117831052 A CN 117831052A CN 202311869697 A CN202311869697 A CN 202311869697A CN 117831052 A CN117831052 A CN 117831052A
- Authority
- CN
- China
- Prior art keywords
- preset
- financial
- cell
- financial form
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 98
- 230000011218 segmentation Effects 0.000 claims abstract description 44
- 230000008521 reorganization Effects 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims description 54
- 238000012549 training Methods 0.000 claims description 42
- 238000013528 artificial neural network Methods 0.000 claims description 35
- 238000013527 convolutional neural network Methods 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 19
- 125000004122 cyclic group Chemical group 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 18
- 230000000306 recurrent effect Effects 0.000 claims description 14
- 238000013518 transcription Methods 0.000 claims description 14
- 230000035897 transcription Effects 0.000 claims description 14
- 230000015654 memory Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 238000012795 verification Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 10
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 238000012015 optical character recognition Methods 0.000 description 15
- 238000010276 construction Methods 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000007689 inspection Methods 0.000 description 6
- 230000001788 irregular Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000012937 correction Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000003709 image segmentation Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000003213 activating effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Character Input (AREA)
Abstract
本发明公开了一种金融表单的识别方法及其装置、电子设备及存储介质,涉及人工智能领域、金融科技领域或其他相关领域,其中,该识别方法包括:对金融表单进行预处理,得到目标金融表单,将目标金融表单输入至预设结构识别模型,输出分割图像,将分割图像输入至预设文字识别模型,输出每个单元格的字符序列,基于所有单元格以及所有字符序列,进行表格重组,得到目标表格。本发明解决了相关技术中对金融表单进行识别的效率较低且识别准确性较低的技术问题。
Description
技术领域
本发明涉及人工智能领域,具体而言,涉及一种金融表单的识别方法及其装置、电子设备及存储介质。
背景技术
金融表单是一种文件或表格,通常由金融机构提供多种模板(例如,贷款申请、信用卡申请等模板),通过客户填写相关信息。这些金融表单用于记录客户的个人信息、财务状况、贷款申请等关键信息,包括姓名、地址、终端号码、收入信息、负债情况等。金融机构使用这些金融表单来评估客户的信用风险和贷款资格。由于这些金融表单包含重要的客户信息,并且金融机构希望加速金融表单的审批过程,降低识别错误的风险,以提高客户体验,因此,需要高效、准确和可靠的方式来识别金融表单。
相关技术中,针对金融表单的识别方法可以分为基于模板的表格识别方法和基于OCR(Optical Character Recognition,即光学字符识别)的识别方法,这两种方法在金融领域中都有广泛的应用,但在实际情况中的具体应用略有不同。对于基于模板的表格识别方法,通常依赖于预定义的模板(包括:金融表单的结构、字段的位置和布局等),而通过创建和管理表单模板需要熟悉模板设计工具和技术,并需要编写识别和提取字段的规则和逻辑,最终使用正则表达式、模式匹配和自定义算法,实现基于模板的表格识别功能。该方法可以具体应用于支票处理、贷款申请表格、客户信息表格等固定模板的金融表单。金融机构需要处理大量金融表单,这些表单包括日期、付款金额、付款人信息等字段。基于模板的表格识别方法可以帮助金融机构自动识别和提取这些字段,以进行业务处理和信息录入和更新。基于模板的表格识别方法适用于金融表单具有相对固定结构的情况,可以根据预定义的模板来快速准确地提取信息。对于基于OCR的识别方法,使用光学字符识别(OCR)技术来提取金融表单中的文本信息,使用机器学习和深度学习方法来处理和理解OCR输出的文本数据,然后通过自然语言处理(NLP,Natural Language Processing)和机器学习方法来理解和处理这些文本数据。基于传统机器学习方法(如SVM(Support Vector Machine,即支持向量机)、随机森林、KNN(K-Nearest Neighbors,即K-最近邻居算法)、决策树等)速度快、可解释性强、对小样本数据效果好。但同样受到特征工程、性能、对图像数据处理的影响,深度学习方法(如CNN(Convolutional Neural Network,即卷积神经网络)、RNN(RecurrentNeural Network,即循环神经网络)、LSTM(Long Short-Term Memory,即长短期记忆网络)、Transformer(即一种基于自注意力机制的神经网络模型)等),能够自动学习特征,适用于复杂数据,但计算资源消耗大。基于OCR的识别方法更加灵活,适用于各种类型的金融表单,但需要更多的文本理解和处理,因此更适合处理非结构化或变化较大的表单。
然而,相关技术中的识别方法存在如下问题:
(1)对于基于模板的表格识别方法:1),由于该方法对模板的依赖性高,因此对于表单结构的变化和多样性不够灵活,需要维护大量的模板以应对不同类型的表单,不适用于非结构化表单,当表单的结构不规则或不固定时,该方法的识别效果会大打折扣,无法处理非结构化数据;2),难以适应新表单,如果金融机构引入新的表单或者表单发生改变,需要手动创建和维护新的模板,需要耗费时间和资源;3),不适用于手写文本,该方法通常用于处理打印或打印体的文本,对于手写文本的处理能力有限。需要专业人员进行模板设计和维护,创建和维护模板需要专业知识和技能,需要额外的培训和资源投入。
(2)基于OCR的识别方法:1),OCR技术可能会在处理复杂的字体、手写文本、模糊图像或低分辨率图像时出现错误,导致提取的文本不准确;2),OCR可能无法正确识别表单中的文本布局、列与行的关系,以及文本格式,特别是在复杂的表格中;3),OCR输出的文本通常需要进一步的文本处理和理解,以提取有用的信息,这增加了额外的复杂性;4),对于大型文档或图像,OCR处理可能需要较长时间,这可能会影响实时处理需求;5),噪声、模糊、阴影和图像失真等问题都可能降低OCR的性能。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种金融表单的识别方法及其装置、电子设备及存储介质,以至少解决相关技术中对金融表单进行识别的效率较低且识别准确性较低的技术问题。
根据本发明实施例的一个方面,提供了一种金融表单的识别方法,包括:对金融表单进行预处理,得到目标金融表单,其中,所述目标金融表单的呈现形式是一个平面表单图像;将所述目标金融表单输入至预设结构识别模型,输出分割图像,其中,所述预设结构识别模型中的预设卷积核是通过多个预设卷积组合成的卷积核,所述预设卷积核用于对所述目标金融表单进行处理,所述分割图像包括:多个单元格;将所述分割图像输入至预设文字识别模型,输出每个所述单元格的字符序列,其中,所述预设文字识别模型是基于预设损失函数训练得到的;基于所有所述单元格以及所有所述字符序列,进行表格重组,得到目标表格。
进一步地,对金融表单进行预处理,得到目标金融表单的步骤,包括:对所述金融表单进行去噪处理,并在对所述金融表单去噪完成的情况下,为去噪后的所述金融表单重新分配像素值,得到增强金融表单;检测所述增强金融表单中是否出现旋转区域,并在检测到所述旋转区域的情况下,纠正所述旋转区域,得到对齐金融表单,其中,所述旋转区域是指相对于标准区域确定的对齐坐标所述增强金融表单中出现角度偏转的区域;将所述对齐金融表单中的透视视图转换为平面视图,得到所述目标金融表单。
进一步地,所述识别方法还包括:采集预设时间段内金融机构的预设金融表单,得到预设金融表单集合,其中,每个所述预设金融表单对应有识别结果数据;分析所述预设金融表单集合中的每个所述预设金融表单,得到预设数据,并基于所述预设数据构建预设数据库;分析所有所述识别结果数据,确定误识别数据,并基于所述误识别数据,构建检验数据库。
进一步地,在将所述目标金融表单输入至预设结构识别模型,输出分割图像之前,还包括:构建预设编码器,其中,所述预设编码器包括:预设卷积层和池化层,所述预设卷积层包括:所述预设卷积核、激活函数和归一化层,所述预设卷积核是通过多个所述预设卷积组合得到的;构建预设解码器,其中,所述预设解码器包括:上采样层和卷积层;基于所述预设编码器以及所述预设解码器,构建初始结构识别模型;获取历史时间段内的历史金融表单集合,并对所述历史金融表单集合中的每个历史金融表单进行标注,得到每个所述历史金融表单的结构信息,其中,所述结构信息包括:所述历史金融表单的多个单元格信息,每个所述单元格信息至少包括:单元格位置、单元格尺寸;将所述历史金融表单集合以及所有所述历史金融表单的所述结构信息表征为训练数据,并采用所述训练数据训练所述初始结构识别模型,得到所述预设结构识别模型。
进一步地,将所述目标金融表单输入至预设结构识别模型,输出分割图像的步骤,包括:通过所述预设编码器从所述目标金融表单中提取所述目标金融表单的结构特征信息,并通过所述预设编码器从所述目标金融表单中捕获所述目标金融表单的上下文信息和语义信息;通过所述预设编码器的最后一层所述预设卷积层,将所述目标金融表单处理成中间特征图,其中,所述中间特征图包含预设语义信息;通过所述预设结构识别模型中的跳跃连接层,将所述结构特征信息、所述上下文信息、所述语义信息以及所述预设语义信息从所述预设编码器传递到所述预设解码器;基于所述结构特征信息、所述上下文信息、所述语义信息以及所述预设语义信息,通过所述预设解码器将所述中间特征图还原为所述分割图像;通过所述预设解码器的输出层输出所述分割图像。
进一步地,在将所述分割图像输入至预设文字识别模型,输出每个所述单元格的字符序列之前,还包括:构建初始文字识别模型,其中,所述初始文字识别模型至少包括:卷积神经网络模块、循环神经网络模块以及转录层,所述卷积神经网络模块至少包括:卷积层,所述循环神经网络模块至少包括:循环层、网络层,所述网络层用于连接所述卷积层以及所述循环层;获取历史时间段内所述预设结构识别模型输出的历史分割图像,得到历史分割图像集合,并对每个所述历史分割图像进行标注,得到所述历史分割图像的字符信息,其中,所述字符信息包含所述历史分割图像中每个单元格对应的真实字符序列;将所述历史分割图像集合以及所有所述字符信息表征为训练数据,并采用所述训练数据训练所述初始文字识别模型,直到通过所述预设损失函数计算得到的损失值小于预设损失阈值,得到所述预设文字识别模型。
进一步地,将所述分割图像输入至预设文字识别模型,输出每个所述单元格的字符序列的步骤,包括:通过所述卷积神经网络模块从所述分割图像中提取每个所述单元格的特征序列,其中,所述单元格包含多个子单元格,每个所述子单元格对应一个子特征序列,所有所述子单元格对应的所述子特征序列构成所述单元格的所述特征序列;基于预设数据库,通过所述循环神经网络模块确定所述特征序列的真实值概率矩阵,其中,所述循环神经网络模块保存上一单元格的所述特征序列,并在所述上一单元格的所述特征序列与所述预设数据库中的任一预设数据相匹配的情况下,基于上一单元格的所述特征序列,预测当前单元格的所述特征序列的所述真实值概率矩阵;对于每个所述单元格,基于所述真实值概率矩阵通过所述转录层输出所述单元格的所述字符序列。
进一步地,在将所述分割图像输入至预设文字识别模型,输出每个所述单元格的字符序列之后,还包括:将所述字符序列与检验数据库中的每个误识别数据进行匹配;在所述字符序列与所述检验数据库中的任一所述误识别数据相匹配的情况下,基于所述误识别数据校对所述字符序列,并将校正后的所述字符序列作为所述单元格的目标字符序列。
进一步地,基于所有所述单元格以及所有所述字符序列,进行表格重组,得到目标表格的步骤,包括:对于每个所述单元格,基于所述单元格的单元格信息,确定所述单元格的像素点集合,其中,所述单元格信息至少包括:单元格位置、单元格尺寸,所述像素点集合中的每个像素点对应有像素点编号;基于所述像素点集合中每个所述像素点的所述像素点编号,确定所述单元格的行列索引;基于所有所述单元格的所述行列索引,构建所述目标表格,并基于所述行列索引,将所述单元格的所述字符序列存入至所述目标表格。
根据本发明实施例的另一方面,还提供了一种金融表单的识别装置,包括:处理单元,用于对金融表单进行预处理,得到目标金融表单,其中,所述目标金融表单的呈现形式是一个平面表单图像;第一输入单元,用于将所述目标金融表单输入至预设结构识别模型,输出分割图像,其中,所述预设结构识别模型中的预设卷积核是通过多个预设卷积组合成的卷积核,所述预设卷积核用于对所述目标金融表单进行处理,所述分割图像包括:多个单元格;第二输入单元,用于将所述分割图像输入至预设文字识别模型,输出每个所述单元格的字符序列,其中,所述预设文字识别模型是基于预设损失函数训练得到的;重组单元,用于基于所有所述单元格以及所有所述字符序列,进行表格重组,得到目标表格。
进一步地,所述处理单元包括:第一处理模块,用于对所述金融表单进行去噪处理,并在对所述金融表单去噪完成的情况下,为去噪后的所述金融表单重新分配像素值,得到增强金融表单;第一检测模块,用于检测所述增强金融表单中是否出现旋转区域,并在检测到所述旋转区域的情况下,纠正所述旋转区域,得到对齐金融表单,其中,所述旋转区域是指相对于标准区域确定的对齐坐标所述增强金融表单中出现角度偏转的区域;将所述对齐金融表单中的透视视图转换为平面视图,得到所述目标金融表单。
进一步地,所述识别装置还包括:第一采集模块,用于采集预设时间段内金融机构的预设金融表单,得到预设金融表单集合,其中,每个所述预设金融表单对应有识别结果数据;第一分析模块,用于分析所述预设金融表单集合中的每个所述预设金融表单,得到预设数据,并基于所述预设数据构建预设数据库;第二分析模块,用于分析所有所述识别结果数据,确定误识别数据,并基于所述误识别数据,构建检验数据库。
进一步地,所述识别装置还包括:第一构建模块,用于在将所述目标金融表单输入至预设结构识别模型,输出分割图像之前,构建预设编码器,其中,所述预设编码器包括:预设卷积层和池化层,所述预设卷积层包括:所述预设卷积核、激活函数和归一化层,所述预设卷积核是通过多个所述预设卷积组合得到的;第二构建模块,用于构建预设解码器,其中,所述预设解码器包括:上采样层和卷积层;第三构建模块,用于基于所述预设编码器以及所述预设解码器,构建初始结构识别模型;第一获取模块,用于获取历史时间段内的历史金融表单集合,并对所述历史金融表单集合中的每个历史金融表单进行标注,得到每个所述历史金融表单的结构信息,其中,所述结构信息包括:所述历史金融表单的多个单元格信息,每个所述单元格信息至少包括:单元格位置、单元格尺寸;第一训练模块,用于将所述历史金融表单集合以及所有所述历史金融表单的所述结构信息表征为训练数据,并采用所述训练数据训练所述初始结构识别模型,得到所述预设结构识别模型。
进一步地,所述第一输入单元包括:第一提取模块,用于通过所述预设编码器从所述目标金融表单中提取所述目标金融表单的结构特征信息,并通过所述预设编码器从所述目标金融表单中捕获所述目标金融表单的上下文信息和语义信息;第二处理模块,用于通过所述预设编码器的最后一层所述预设卷积层,将所述目标金融表单处理成中间特征图,其中,所述中间特征图包含预设语义信息;第一传递模块,用于通过所述预设结构识别模型中的跳跃连接层,将所述结构特征信息、所述上下文信息、所述语义信息以及所述预设语义信息从所述预设编码器传递到所述预设解码器;第一还原模块,用于基于所述结构特征信息、所述上下文信息、所述语义信息以及所述预设语义信息,通过所述预设解码器将所述中间特征图还原为所述分割图像;第一输出模块,用于通过所述预设解码器的输出层输出所述分割图像。
进一步地,所述识别装置还包括:第四构建模块,用于在将所述分割图像输入至预设文字识别模型,输出每个所述单元格的字符序列之前,构建初始文字识别模型,其中,所述初始文字识别模型至少包括:卷积神经网络模块、循环神经网络模块以及转录层,所述卷积神经网络模块至少包括:卷积层,所述循环神经网络模块至少包括:循环层、网络层,所述网络层用于连接所述卷积层以及所述循环层;第二获取模块,用于获取历史时间段内所述预设结构识别模型输出的历史分割图像,得到历史分割图像集合,并对每个所述历史分割图像进行标注,得到所述历史分割图像的字符信息,其中,所述字符信息包含所述历史分割图像中每个单元格对应的真实字符序列;第二训练模块,用于将所述历史分割图像集合以及所有所述字符信息表征为训练数据,并采用所述训练数据训练所述初始文字识别模型,直到通过所述预设损失函数计算得到的损失值小于预设损失阈值,得到所述预设文字识别模型。
进一步地,所述第二输入单元包括:第二提取模块,用于通过所述卷积神经网络模块从所述分割图像中提取每个所述单元格的特征序列,其中,所述单元格包含多个子单元格,每个所述子单元格对应一个子特征序列,所有所述子单元格对应的所述子特征序列构成所述单元格的所述特征序列;第一确定模块,用于基于预设数据库,通过所述循环神经网络模块确定所述特征序列的真实值概率矩阵,其中,所述循环神经网络模块保存上一单元格的所述特征序列,并在所述上一单元格的所述特征序列与所述预设数据库中的任一预设数据相匹配的情况下,基于上一单元格的所述特征序列,预测当前单元格的所述特征序列的所述真实值概率矩阵;第二输出模块,用于对于每个所述单元格,基于所述真实值概率矩阵通过所述转录层输出所述单元格的所述字符序列。
进一步地,所述识别装置还包括:第一匹配模块,用于在将所述分割图像输入至预设文字识别模型,输出每个所述单元格的字符序列之后,将所述字符序列与检验数据库中的每个误识别数据进行匹配;第一校对模块,用于在所述字符序列与所述检验数据库中的任一所述误识别数据相匹配的情况下,基于所述误识别数据校对所述字符序列,并将校正后的所述字符序列作为所述单元格的目标字符序列。
进一步地,所述重组单元包括:第二确定模块,用于对于每个所述单元格,基于所述单元格的单元格信息,确定所述单元格的像素点集合,其中,所述单元格信息至少包括:单元格位置、单元格尺寸,所述像素点集合中的每个像素点对应有像素点编号;第三确定模块,用于基于所述像素点集合中每个所述像素点的所述像素点编号,确定所述单元格的行列索引;第五构建模块,用于基于所有所述单元格的所述行列索引,构建所述目标表格,并基于所述行列索引,将所述单元格的所述字符序列存入至所述目标表格。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述任意一项金融表单的识别方法。
根据本发明实施例的另一方面,还提供了一种电子设备,包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述任意一项金融表单的识别方法。
在本发明中,对金融表单进行预处理,得到目标金融表单,将目标金融表单输入至预设结构识别模型,输出分割图像,将分割图像输入至预设文字识别模型,输出每个单元格的字符序列,基于所有单元格以及所有字符序列,进行表格重组,得到目标表格。在本发明中,可以先对金融表单进行预处理,以得到目标金融表单,然后将目标金融表单输入至预设结构识别模型,以得到分割图像,之后将分割图像输入至预设文字识别模型,以得到分割图像中的每个单元格的字符序列,再根据所有单元格以及所有字符序列进行表格重组,以得到目标表格,能够有效提高金融表单的识别效率和准确性,进而解决了相关技术中对金融表单进行识别的效率较低且识别准确性较低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的金融表单的识别方法的流程图;
图2是根据本发明实施例的一种可选的基于神经网络的银行表单的识别流程的示意图;
图3是根据本发明实施例的一种可选的金融表单的识别装置的示意图;
图4是根据本发明实施例的一种用于金融表单的识别方法的电子设备(或移动设备)的硬件结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于本领域技术人员理解本发明,下面对本发明各实施例中涉及的部分术语或名词做出解释:
图像识别:是一种计算机视觉技术,旨在自动检测、识别和理解图像中的对象和特征。在金融表单中,能够自动检测和提取客户申请表中的信息,包括文字、数字、日期和手写内容等。图像识别的作用在于自动化了识别过程,减少了手动工作,提高了速度和准确性。这使金融机构能够更快速地处理客户请求,缩短审批时间,提升客户满意度。在金融机构客户申请表的上下文中,图像识别涉及从扫描或照片图像中提取文本和结构信息,以便进行进一步的处理和分析。
U-Net网络:是一种深度学习架构,通常用于图像分割任务,包括编码器和解码器,能够高效地生成分割图像。在金融表单识别中,U-Net网络可用于分割表单中的各个区域。
图像分割:是图像处理的一个任务,旨在将图像分成不同的区域或对象。在金融机构客户申请表识别中,图像分割可用于定位和分离表单的各个部分,例如,表头、表格、签名区域等。
CRNN(Convolutional Recurrent Neural Network,即卷积循环神经网络)网络:是一种广泛用于文字识别任务的深度学习模型,结合了卷积神经网络(CNN)和循环神经网络(RNN)的优点,最终通过转录层将输出映射到最终的字符或文本序列,特别适用于处理不定长度的文本序列。在金融表单识别中,CRNN网络可以用于提取表单中的文本、数字和手写内容。
需要说明的是,本发明中的金融表单的识别方法及其装置可用于人工智能领域在对金融表单进行识别的情况下,也可用于除人工智能领域之外的任意领域在对金融表单进行识别的情况下,本发明中对金融表单的识别方法及其装置的应用领域不做限定。
需要说明的是,本发明所涉及的相关信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。例如,本系统和相关用户或机构间设置有接口,在获取相关信息之前,需要通过接口向前述的用户或机构发送获取请求,并在接收到前述的用户或机构反馈的同意信息后,获取相关信息。
在本发明中,金融表单处理是金融机构日常运营中不可或缺的一环。然而,相关技术中的表单处理方式往往涉及大量的手动劳动,容易出现数据输入错误,处理效率低下以及不适应不规则表格结构和手写内容的问题。尽管金融机构一直在努力改进表单处理流程,但相关技术中的表单处理方式仍然存在一些缺点。对于手动处理金融表单涉及的大量人工劳动,包括手动输入数据和手动校对,这不仅费时费力,还容易出现错误,对于大规模的报表处理不切实际。对于依靠模板匹配识别方式,面临结构不规则问题,而金融机构表单的结构通常是不规则的,该方式往往难以适应。对于光学字符识别(OCR)技术虽然可以用于文字识别,但不规则的表格结构和手写内容增加了识别的复杂性,该OCR技术对于手写内容和不同字体的文字识别准确性有限,容易导致错误。
因此,随着金融行业的不断发展和数字化转型,提高表单处理的效率和准确性变得尤为关键。为满足这一需求,本发明提出了一种基于神经网络的金融机构表单识别方法,旨在解决上述问题,并提高金融表单处理的效率和准确性。该方法的主要目的包括:(1)通过深度学习和卷积神经网络技术,提高了表单识别的准确性,尤其是对于手写内容和不规则表格结构的识别;(2)自动化了表单识别过程,减少了人工干预的需求,从而提高了处理效率,这对于快速决策制定和客户服务至关重要;(3)具有自适应性,可以适应各种不同类型和格式的金融表单,包括不规则结构和手写内容,这意味着金融机构可以更灵活地处理多样性的报表,无论其结构或内容如何;(4)通过引入了特征传递机制,采用CRNN卷积网络,允许在文字识别中将当前特征传递给下一个识别单元,从而提高了识别的上下文感知性,有助于更好地理解报表内容。
下面结合各个实施例来详细说明本发明。
实施例一
根据本发明实施例,提供了一种金融表单的识别方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种可选的金融表单的识别方法的流程图,如图1所示,该方法包括如下步骤:
步骤S101,对金融表单进行预处理,得到目标金融表单,其中,目标金融表单的呈现形式是一个平面表单图像。
步骤S102,将目标金融表单输入至预设结构识别模型,输出分割图像,其中,预设结构识别模型中的预设卷积核是通过多个预设卷积组合成的卷积核,预设卷积核用于对目标金融表单进行处理,分割图像包括:多个单元格。
步骤S103,将分割图像输入至预设文字识别模型,输出每个单元格的字符序列,其中,预设文字识别模型是基于预设损失函数训练得到的。
步骤S104,基于所有单元格以及所有字符序列,进行表格重组,得到目标表格。
通过上述步骤,可以对金融表单进行预处理,得到目标金融表单,将目标金融表单输入至预设结构识别模型,输出分割图像,将分割图像输入至预设文字识别模型,输出每个单元格的字符序列,基于所有单元格以及所有字符序列,进行表格重组,得到目标表格。在本发明实施例中,可以先对金融表单进行预处理,以得到目标金融表单,然后将目标金融表单输入至预设结构识别模型,以得到分割图像,之后将分割图像输入至预设文字识别模型,以得到分割图像中的每个单元格的字符序列,再根据所有单元格以及所有字符序列进行表格重组,以得到目标表格,能够有效提高金融表单的识别效率和准确性,进而解决了相关技术中对金融表单进行识别的效率较低且识别准确性较低的技术问题。
下面结合上述各步骤对本发明实施例进行详细说明。
步骤S101,对金融表单进行预处理,得到目标金融表单,其中,目标金融表单的呈现形式是一个平面表单图像。
可选地,对金融表单进行预处理,得到目标金融表单的步骤,包括:对金融表单进行去噪处理,并在对金融表单去噪完成的情况下,为去噪后的金融表单重新分配像素值,得到增强金融表单;检测增强金融表单中是否出现旋转区域,并在检测到旋转区域的情况下,纠正旋转区域,得到对齐金融表单,其中,旋转区域是指相对于标准区域确定的对齐坐标增强金融表单中出现角度偏转的区域;将对齐金融表单中的透视视图转换为平面视图,得到目标金融表单。
在本发明实施例中,金融表单在金融机构中具有重要的地位。金融表单包含了客户的个人和财务信息,是金融机构用于决策制定、风险评估和客户服务的重要依据。金融表单处理涵盖了多个关键领域,包括但不限于:贷款申请、信用卡申请、客户信息更新、财务报表等。由于这些金融表单的重要性,金融机构业务的效率和准确性在很大程度上依赖于金融表单的快速而准确的处理。
在本发明实施例中,可以对先金融表单数据进行预处理数,以降低非表单因素对检测结果的影响(即对金融表单进行预处理,得到目标金融表单,目标金融表单的呈现形式是一个平面表单图像),具体为:可以先使用滤波器技术(如高斯滤波、中值滤波等)去除表单图像中的噪声,以提高图像的清晰度和质量(即对金融表单进行去噪处理),然后通过重新分配像素值,增强表单图像的对比度,使表单图像中的各个区域更均匀地分布亮度级别(即在对金融表单去噪完成的情况下,为去噪后的金融表单重新分配像素值,得到增强金融表单),之后可以检测和纠正表单图像中的旋转,以确保表单图像对齐(即检测增强金融表单中是否出现旋转区域(即相对于标准区域确定的对齐坐标增强金融表单中出现角度偏转的区域),如果检测到旋转区域,则纠正旋转区域,得到对齐金融表单),再将透视视图的表单图像转换为平面视图(即将对齐金融表单中的透视视图转换为平面视图,得到目标金融表单)。
可选地,识别方法还包括:采集预设时间段内金融机构的预设金融表单,得到预设金融表单集合,其中,每个预设金融表单对应有识别结果数据;分析预设金融表单集合中的每个预设金融表单,得到预设数据,并基于预设数据构建预设数据库;分析所有识别结果数据,确定误识别数据,并基于误识别数据,构建检验数据库。
在本发明实施例中,还可以对金融表单中的预设关键数据(包括:预设数据以及误识别数据)进行收集,具体为:可以采集预设时间段内(例如,近1年内)金融机构的预设金融表单,以得到预设金融表单集合,并且每个预设金融表单对应有识别结果数据(即预先对每个金融表单上的内容信息进行识别,得到识别内容,并对识别内容进行核对,以判定识别内容的正确性),然后可以分析预设金融表单集合中的每个预设金融表单,以得到预设数据(即分析金融表单中通常记录的信息,例如,姓名、年龄等),并根据这些预设数据构建预设数据库(即收集金融表单中常见的数据设置预设数据库),之后可以分析所有识别结果数据(包括:识别内容以及识别内容的正确率),确定误识别数据(即正确率较低的识别内容),并根据误识别数据,构建检验数据库(即收集金融表单中常见的误识别数据,并设置检验数据库)。
可选地,在将目标金融表单输入至预设结构识别模型,输出分割图像之前,还包括:构建预设编码器,其中,预设编码器包括:预设卷积层和池化层,预设卷积层包括:预设卷积核、激活函数和归一化层,预设卷积核是通过多个预设卷积组合得到的;构建预设解码器,其中,预设解码器包括:上采样层和卷积层;基于预设编码器以及预设解码器,构建初始结构识别模型;获取历史时间段内的历史金融表单集合,并对历史金融表单集合中的每个历史金融表单进行标注,得到每个历史金融表单的结构信息,其中,结构信息包括:历史金融表单的多个单元格信息,每个单元格信息至少包括:单元格位置、单元格尺寸;将历史金融表单集合以及所有历史金融表单的结构信息表征为训练数据,并采用训练数据训练初始结构识别模型,得到预设结构识别模型。
在本发明实施例中,可以利用改进的U-Net网络构建金融表单结构检测模型(即预设结构识别模型),具体为:可以先构建预设编码器,预设编码器由一系列预设卷积层和池化层组成,能够逐渐减小图像的空间尺寸。每个预设卷积层包括:预设卷积核、激活函数(如ReLU(Rectified Linear Unit,即修正线性单元))和批量归一化层。预设编码器的任务是从输入图像中提取高层次的特征信息以及捕获图像的上下文和语义信息。在本实施例中,预设卷积核将传统的3x3卷积,改成由3x3、1xN和Nx1等预设卷积的组合(即预设卷积核是通过多个预设卷积组合得到的)。并可以构建预设解码器,预设解码器是U-NET网络的对称部分,与预设编码器相反,由一系列上采样(即反卷积或转置卷积)层和卷积层组成,能够逐渐增加特征图的空间尺寸。预设解码器的任务是将中间特征图的信息还原为与输入图像相同大小的分割图像,并通过引入跳跃连接,将预设编码器的特征图与预设解码器的对应特征图相连接,这些跳跃连接帮助信息从预设编码器传递到预设解码器,从而保留图像的精细细节和位置信息。然后,可以基于预设编码器以及预设解码器,构建初始结构识别模型。
在本发明实施例中,可以获取历史时间段内(例如,近1年内)的历史金融表单集合,并对历史金融表单集合中的每个历史金融表单进行标注,以得到每个历史金融表单的结构信息(即分析每个历史金融表单的结构,得到相应的结构信息,该结构信息包括:历史金融表单的多个单元格信息,每个单元格信息包括:单元格位置、单元格尺寸等)。然后可以将历史金融表单集合以及所有历史金融表单的结构信息表征为训练数据,以采用训练数据训练初始结构识别模型,从而得到训练后的预设结构识别模型。
步骤S102,将目标金融表单输入至预设结构识别模型,输出分割图像,其中,预设结构识别模型中的预设卷积核是通过多个预设卷积组合成的卷积核,预设卷积核用于对目标金融表单进行处理,分割图像包括:多个单元格。
可选地,将目标金融表单输入至预设结构识别模型,输出分割图像的步骤,包括:通过预设编码器从目标金融表单中提取目标金融表单的结构特征信息,并通过预设编码器从目标金融表单中捕获目标金融表单的上下文信息和语义信息;通过预设编码器的最后一层预设卷积层,将目标金融表单处理成中间特征图,其中,中间特征图包含预设语义信息;通过预设结构识别模型中的跳跃连接层,将结构特征信息、上下文信息、语义信息以及预设语义信息从预设编码器传递到预设解码器;基于结构特征信息、上下文信息、语义信息以及预设语义信息,通过预设解码器将中间特征图还原为分割图像;通过预设解码器的输出层输出分割图像。
在本发明实施例中,可以将待识别的目标金融表单输入至训练后的预设结构识别模型(该预设结构识别模型中的预设卷积核是通过多个预设卷积组合成的卷积核,该预设卷积核用于对目标金融表单进行处理),以得到分割图像(该分割图像包括:多个单元格)。
在本发明实施例中,可以将预处理后的表单数据进行空间结构识别,首先,将输入图像(即目标金融表单)通过预设编码器,以逐渐减小图像的空间尺寸,从输入图像中提取高层次的特征信息以及捕获图像的上下文和语义信息(即通过预设编码器从目标金融表单中提取目标金融表单的结构特征信息,并通过预设编码器从目标金融表单中捕获目标金融表单的上下文信息和语义信息)。然后,将特征图(即目标金融表单对应的特征图)送入编码器的最后一层,以得到中间特征图(即通过预设编码器的最后一层预设卷积层,将目标金融表单处理成中间特征图),其中,中间特征图包含了整个图像的抽象特征表示,即中间特征图不包含位置信息,而是包含了高级语义信息(即中间特征图包含预设语义信息(即高级语义信息))。之后,将中间特征图传入预设解码器中,以逐渐增加特征图的空间尺寸,并通过引入跳跃连接,将编码器的特征图与解码器的对应特征图相连接,以帮助信息(即结构特征信息、上下文信息、语义信息以及预设语义信息)从编码器传递到解码器(即通过预设结构识别模型中的跳跃连接层,将结构特征信息、上下文信息、语义信息以及预设语义信息从预设编码器传递到预设解码器),从而能够保留图像的精细细节和位置信息,再根据结构特征信息、上下文信息、语义信息以及预设语义信息,通过预设解码器将中间特征图还原为分割图像,通过预设解码器的输出层输出分割图像(即通过预设解码器将特征输出到最后一层(可以设置一个卷积层作为输出层),输出与输入图像相同大小的分割图像,用于将每个像素分类为产生像素级别的分割结果)。
可选地,在将分割图像输入至预设文字识别模型,输出每个单元格的字符序列之前,还包括:构建初始文字识别模型,其中,初始文字识别模型至少包括:卷积神经网络模块、循环神经网络模块以及转录层,卷积神经网络模块至少包括:卷积层,循环神经网络模块至少包括:循环层、网络层,网络层用于连接卷积层以及循环层;获取历史时间段内预设结构识别模型输出的历史分割图像,得到历史分割图像集合,并对每个历史分割图像进行标注,得到历史分割图像的字符信息,其中,字符信息包含历史分割图像中每个单元格对应的真实字符序列;将历史分割图像集合以及所有字符信息表征为训练数据,并采用训练数据训练初始文字识别模型,直到通过预设损失函数计算得到的损失值小于预设损失阈值,得到预设文字识别模型。
在本发明实施例中,可以通过改进的CRNN网络对单元格内的文字进行识别,并以迭代计算方式对文字识别模型进行训练,以确定模型的最优参数,具体为:可以先构建初始文字识别模型,该初始文字识别模型包括:卷积神经网络模块、循环神经网络模块以及转录层。其中,
卷积神经网络模块由卷积层和最大池化层构成,可以有效地提取图像中的特征,并且可以根据图像的宽度,从左到右排列,以确保特征图的高度,并且使得每个特征向量都能够清晰地展示出图像的细节,从而自动提取出输入图像的特征序列。
循环神经网络模块包括:循环层、网络层(该网络层用于连接卷积层以及循环层),在本实施例中,可以利用BI-LSTM(Bi-directional Long Short-Term Memory,即双向长短时记忆网络)循环神经网络来预测从卷积层获取的特征序列的真实值的概率列表。循环层的误差利用反向传播转化为特征序列,得到每个时间步产生的一个字符或单词的概率分布。再利用自定义网络层作为卷积层和循环层之间的桥梁。在本实施例中,可以保存上一存在单元格的特征序列,从而让循环神经网络对当前单元格内容进行更好的预测。
转录层能够对特征序列进行学习。
在本实施例中,CRNN采用序列到序列的学习方法,CNN用于提取特征,RNN负责序列生成。通过训练,模型能够将图像中的文本映射到相应的字符序列。
在本实施例中,可以先获取历史时间段内(例如,近1年内)预设结构识别模型输出的历史分割图像,以得到历史分割图像集合,然后对每个历史分割图像进行标注,以得到历史分割图像的字符信息(即对每个历史分割图像进行分析,以得到相应的文字内容(即字符信息),该字符信息包含历史分割图像中每个单元格对应的真实字符序列),之后将历史分割图像集合以及所有字符信息表征为训练数据,并采用训练数据训练初始文字识别模型,直到通过预设损失函数计算得到的损失值小于预设损失阈值(可以根据实际情况进行设置),以得到训练后的预设文字识别模型。
在本实施例中,可以采用CTC(Connectionist Temporal Classification)损失函数来优化模型,CTC损失函数考虑了输出序列的不定长度和字符之间的对齐问题,使得模型能够自动对齐图像和文本。
步骤S103,将分割图像输入至预设文字识别模型,输出每个单元格的字符序列,其中,预设文字识别模型是基于预设损失函数训练得到的。
可选地,将分割图像输入至预设文字识别模型,输出每个单元格的字符序列的步骤,包括:通过卷积神经网络模块从分割图像中提取每个单元格的特征序列,其中,单元格包含多个子单元格,每个子单元格对应一个子特征序列,所有子单元格对应的子特征序列构成单元格的特征序列;基于预设数据库,通过循环神经网络模块确定特征序列的真实值概率矩阵,其中,循环神经网络模块保存上一单元格的特征序列,并在上一单元格的特征序列与预设数据库中的任一预设数据相匹配的情况下,基于上一单元格的特征序列,预测当前单元格的特征序列的真实值概率矩阵;对于每个单元格,基于真实值概率矩阵通过转录层输出单元格的字符序列。
在本发明实施例中,可以将得到的分割图像输入至预设文字识别模型(该预设文字识别模型是基于预设损失函数训练得到的),以得到每个单元格的字符序列,具体为:分割图像中的每个单元格图像可以先通过卷积神经网络模块提取相应的特征序列,可以根据图像的宽度,从左到右排列,以确保特征图的高度,并且使每个特征向量都能够清晰地展示出图像的细节,从而自动提取出输入图像的特征序列(即通过卷积神经网络模块从分割图像中提取每个单元格的特征序列,该单元格可以划分为多个子单元格,每个子单元格对应一个子特征序列,所有子单元格对应的子特征序列构成单元格的特征序列)。然后,可以根据预设数据库,通过循环神经网络模块确定特征序列的真实值概率矩阵,该循环神经网络模块可以保存上一单元格的特征序列,并在上一单元格的特征序列与预设数据库中的任一预设数据相匹配时,根据上一单元格的特征序列,预测当前单元格的特征序列的真实值概率矩阵(例如,如果上一单元格是年龄,则下一单元格是数字的概率更高)。之后,可以根据真实值概率矩阵通过转录层输出每个单元格的字符序列。
可选地,在将分割图像输入至预设文字识别模型,输出每个单元格的字符序列之后,还包括:将字符序列与检验数据库中的每个误识别数据进行匹配;在字符序列与检验数据库中的任一误识别数据相匹配的情况下,基于误识别数据校对字符序列,并将校正后的字符序列作为单元格的目标字符序列。
在本发明实施例中,可以对识别结果(即对每个单元格识别出的字符序列)进行验证和质量控制,以确保准确性和一致性。根据实际应用场景和需求,建立检验规则库(该检验规则库包括:误识别数据),将识别结果与检验数据库进行对比(即将字符序列与检验数据库中的每个误识别数据进行匹配),找出识别错误的地方,对于识别错误的地方,进行校对和更正(即在字符序列与检验数据库中的任一误识别数据相匹配的情况下,基于误识别数据校对字符序列,并将校正后的字符序列作为单元格的目标字符序列),以确保文本数据的准确性。
步骤S104,基于所有单元格以及所有字符序列,进行表格重组,得到目标表格。
可选地,基于所有单元格以及所有字符序列,进行表格重组,得到目标表格的步骤,包括:对于每个单元格,基于单元格的单元格信息,确定单元格的像素点集合,其中,单元格信息至少包括:单元格位置、单元格尺寸,像素点集合中的每个像素点对应有像素点编号;基于像素点集合中每个像素点的像素点编号,确定单元格的行列索引;基于所有单元格的行列索引,构建目标表格,并基于行列索引,将单元格的字符序列存入至目标表格。
在本发明实施例中,可以利用识别的单元格结构和识别的文字,对表单进行重组,并将正确的文字内容填入各个单元格中,具体为:可以根据单元格的单元格信息(包括:单元格位置、单元格尺寸等),确定单元格的像素点集合(该像素点集合中的每个像素点对应有像素点编号),然后根据像素点集合中每个像素点的像素点编号,确定相应单元格的行列索引(即所在行序号以及列序号)(例如,按照每个单元格对应的像素点编号顺序,确定相应单元格需要占用的行序号以及列序号),然后根据所有单元格的行列索引,构建目标表格,并根据行列索引,将单元格的字符序列存入至目标表格。
例如,将单元格的单元格信息作为重构数据,可以设定默认像素参数作为单元格和索引间的最小距离,分别对单元格信息进行索引重构计算,按照像素点排列顺序建立表格的行和列的位置索引,将每个单元格的顶点坐标转换为表格行列线所在的单元格的索引位置集合,从而完成对表格进行Excel(一种表格格式)构建,再按照行列索引为每个单元格计算得到对应位置的Excel单元格,最终将文字区域的文字识别信息存入对应单元格中,完成表格重构工作。
下面结合另一种可选的具体实施方式进行详细说明。
在本发明实施例中,提出了一种基于神经网络的金融表单的识别方法,能够对金融机构各类表单(例如,某种银行表单)进行有效可靠的识别。在本实施例中,可以先对金融表单进行数据预处理,以确保金融机构表单图像的质量。例如,通过矫正技术对图像进行矫正,消除透视失真和倾斜,将图像变为平面视图,以便进一步的处理。然后,基于U-Net网络生成符合识别表格的组合卷积核,以提高对表格结构识别的准确性和精度。这种卷积核将传统U-Net网络中编码器和解码器的3x3卷积,改成由3x3、1xN和Nx1三个卷积的组合。这种卷积核设计不仅可以捕获表格的局部特性,还考虑了表格的整体结构,从而更好地实现表格区域的准确定位和分割。同时,CRNN对单元格的识别结果经过预设数据库的匹配和传递,将当前特征或区域的上下文信息传递给下一个识别单元,从而可以更好地理解表单文字,提高了对表单中关键信息的识别和提取能力。之后,按照单元格结构,对表单进行重组,并将正确的文字内容填入各个单元格中,能够使金融机构自动化处理大量的表单数据,提高了识别准确性,降低了人为错误的风险,从而为金融机构带来了显著的效益和竞争优势。这种融合了改进的U-Net和CRNN的方法,不仅提高了金融机构表单的识别精度,还能够处理多样性和复杂性的表单,使其更加适用于各种金融机构业务场景,能够在金融机构和金融领域广泛应用,提升表单处理的效率和质量,进一步改善业务流程和客户体验。
图2是根据本发明实施例的一种可选的基于神经网络的银行表单的识别流程的示意图,如图2所示,可以先将银行表单输入至预处理模块,以对银行表单进行数据预处理(包括:去噪、直方图、矫正等处理),然后将处理后的表单图像输入至U-Net网络,以进行语义分割,之后将U-Net网络识别出来的分割图像输入至CRNN网络,以进行文字识别,再之后将语义分割得到的结果以及文字识别得到的结果输入至表单重组模块,进行表单重组,以得到目标表格。
本发明实施例中,提出了一种基于神经网络的金融表单识别方法,能够增强金融表单处理的实时性。通过整合U-Net和CRNN等技术,引入了新的网络结构,能够自动化处理大量的表单数据,提高了处理效率和准确性,使得金融机构能够更快速地识别和提取表单中的关键信息,缩短审批和决策流程,从而改善客户体验。
下面结合另一实施例进行详细说明。
实施例二
本实施例中提供的一种金融表单的识别装置包含了多个实施单元,每个实施单元对应于上述实施例一中的各个实施步骤。
图3是根据本发明实施例的一种可选的金融表单的识别装置的示意图,如图3所示,该识别装置可以包括:处理单元30,第一输入单元31,第二输入单元32,重组单元33,其中,
处理单元30,用于对金融表单进行预处理,得到目标金融表单,其中,目标金融表单的呈现形式是一个平面表单图像;
第一输入单元31,用于将目标金融表单输入至预设结构识别模型,输出分割图像,其中,预设结构识别模型中的预设卷积核是通过多个预设卷积组合成的卷积核,预设卷积核用于对目标金融表单进行处理,分割图像包括:多个单元格;
第二输入单元32,用于将分割图像输入至预设文字识别模型,输出每个单元格的字符序列,其中,预设文字识别模型是基于预设损失函数训练得到的;
重组单元33,用于基于所有单元格以及所有字符序列,进行表格重组,得到目标表格。
上述识别装置,可以通过处理单元30对金融表单进行预处理,得到目标金融表单,通过第一输入单元31将目标金融表单输入至预设结构识别模型,输出分割图像,通过第二输入单元32将分割图像输入至预设文字识别模型,输出每个单元格的字符序列,通过重组单元33基于所有单元格以及所有字符序列,进行表格重组,得到目标表格。在本发明实施例中,可以先对金融表单进行预处理,以得到目标金融表单,然后将目标金融表单输入至预设结构识别模型,以得到分割图像,之后将分割图像输入至预设文字识别模型,以得到分割图像中的每个单元格的字符序列,再根据所有单元格以及所有字符序列进行表格重组,以得到目标表格,能够有效提高金融表单的识别效率和准确性,进而解决了相关技术中对金融表单进行识别的效率较低且识别准确性较低的技术问题。
可选地,处理单元包括:第一处理模块,用于对金融表单进行去噪处理,并在对金融表单去噪完成的情况下,为去噪后的金融表单重新分配像素值,得到增强金融表单;第一检测模块,用于检测增强金融表单中是否出现旋转区域,并在检测到旋转区域的情况下,纠正旋转区域,得到对齐金融表单,其中,旋转区域是指相对于标准区域确定的对齐坐标增强金融表单中出现角度偏转的区域;将对齐金融表单中的透视视图转换为平面视图,得到目标金融表单。
可选地,识别装置还包括:第一采集模块,用于采集预设时间段内金融机构的预设金融表单,得到预设金融表单集合,其中,每个预设金融表单对应有识别结果数据;第一分析模块,用于分析预设金融表单集合中的每个预设金融表单,得到预设数据,并基于预设数据构建预设数据库;第二分析模块,用于分析所有识别结果数据,确定误识别数据,并基于误识别数据,构建检验数据库。
可选地,识别装置还包括:第一构建模块,用于在将目标金融表单输入至预设结构识别模型,输出分割图像之前,构建预设编码器,其中,预设编码器包括:预设卷积层和池化层,预设卷积层包括:预设卷积核、激活函数和归一化层,预设卷积核是通过多个预设卷积组合得到的;第二构建模块,用于构建预设解码器,其中,预设解码器包括:上采样层和卷积层;第三构建模块,用于基于预设编码器以及预设解码器,构建初始结构识别模型;第一获取模块,用于获取历史时间段内的历史金融表单集合,并对历史金融表单集合中的每个历史金融表单进行标注,得到每个历史金融表单的结构信息,其中,结构信息包括:历史金融表单的多个单元格信息,每个单元格信息至少包括:单元格位置、单元格尺寸;第一训练模块,用于将历史金融表单集合以及所有历史金融表单的结构信息表征为训练数据,并采用训练数据训练初始结构识别模型,得到预设结构识别模型。
可选地,第一输入单元包括:第一提取模块,用于通过预设编码器从目标金融表单中提取目标金融表单的结构特征信息,并通过预设编码器从目标金融表单中捕获目标金融表单的上下文信息和语义信息;第二处理模块,用于通过预设编码器的最后一层预设卷积层,将目标金融表单处理成中间特征图,其中,中间特征图包含预设语义信息;第一传递模块,用于通过预设结构识别模型中的跳跃连接层,将结构特征信息、上下文信息、语义信息以及预设语义信息从预设编码器传递到预设解码器;第一还原模块,用于基于结构特征信息、上下文信息、语义信息以及预设语义信息,通过预设解码器将中间特征图还原为分割图像;第一输出模块,用于通过预设解码器的输出层输出分割图像。
可选地,识别装置还包括:第四构建模块,用于在将分割图像输入至预设文字识别模型,输出每个单元格的字符序列之前,构建初始文字识别模型,其中,初始文字识别模型至少包括:卷积神经网络模块、循环神经网络模块以及转录层,卷积神经网络模块至少包括:卷积层,循环神经网络模块至少包括:循环层、网络层,网络层用于连接卷积层以及循环层;第二获取模块,用于获取历史时间段内预设结构识别模型输出的历史分割图像,得到历史分割图像集合,并对每个历史分割图像进行标注,得到历史分割图像的字符信息,其中,字符信息包含历史分割图像中每个单元格对应的真实字符序列;第二训练模块,用于将历史分割图像集合以及所有字符信息表征为训练数据,并采用训练数据训练初始文字识别模型,直到通过预设损失函数计算得到的损失值小于预设损失阈值,得到预设文字识别模型。
可选地,第二输入单元包括:第二提取模块,用于通过卷积神经网络模块从分割图像中提取每个单元格的特征序列,其中,单元格包含多个子单元格,每个子单元格对应一个子特征序列,所有子单元格对应的子特征序列构成单元格的特征序列;第一确定模块,用于基于预设数据库,通过循环神经网络模块确定特征序列的真实值概率矩阵,其中,循环神经网络模块保存上一单元格的特征序列,并在上一单元格的特征序列与预设数据库中的任一预设数据相匹配的情况下,基于上一单元格的特征序列,预测当前单元格的特征序列的真实值概率矩阵;第二输出模块,用于对于每个单元格,基于真实值概率矩阵通过转录层输出单元格的字符序列。
可选地,识别装置还包括:第一匹配模块,用于在将分割图像输入至预设文字识别模型,输出每个单元格的字符序列之后,将字符序列与检验数据库中的每个误识别数据进行匹配;第一校对模块,用于在字符序列与检验数据库中的任一误识别数据相匹配的情况下,基于误识别数据校对字符序列,并将校正后的字符序列作为单元格的目标字符序列。
可选地,重组单元包括:第二确定模块,用于对于每个单元格,基于单元格的单元格信息,确定单元格的像素点集合,其中,单元格信息至少包括:单元格位置、单元格尺寸,像素点集合中的每个像素点对应有像素点编号;第三确定模块,用于基于像素点集合中每个像素点的像素点编号,确定单元格的行列索引;第五构建模块,用于基于所有单元格的行列索引,构建目标表格,并基于行列索引,将单元格的字符序列存入至目标表格。
上述的识别装置还可以包括处理器和存储器,上述处理单元30,第一输入单元31,第二输入单元32,重组单元33等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
上述处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来基于所有单元格以及所有字符序列,进行表格重组,得到目标表格。
上述存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:对金融表单进行预处理,得到目标金融表单,将目标金融表单输入至预设结构识别模型,输出分割图像,将分割图像输入至预设文字识别模型,输出每个单元格的字符序列,基于所有单元格以及所有字符序列,进行表格重组,得到目标表格。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的计算机程序,其中,在计算机程序运行时控制计算机可读存储介质所在设备执行上述的金融表单的识别方法。
根据本发明实施例的另一方面,还提供了一种电子设备,包括一个或多个处理器和存储器,存储器用于存储一个或多个程序,其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现上述的金融表单的识别方法。
图4是根据本发明实施例的一种用于金融表单的识别方法的电子设备(或移动设备)的硬件结构框图。如图4所示,电子设备可以包括一个或多个(图4中采用402a、402b,……,402n来示出)处理器402(处理器402可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器404。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、键盘、电源和/或相机。本领域普通技术人员可以理解,图4所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,电子设备还可包括比图4中所示更多或者更少的组件,或者具有与图4所示不同的配置。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本发明所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (12)
1.一种金融表单的识别方法,其特征在于,包括:
对金融表单进行预处理,得到目标金融表单,其中,所述目标金融表单的呈现形式是一个平面表单图像;
将所述目标金融表单输入至预设结构识别模型,输出分割图像,其中,所述预设结构识别模型中的预设卷积核是通过多个预设卷积组合成的卷积核,所述预设卷积核用于对所述目标金融表单进行处理,所述分割图像包括:多个单元格;
将所述分割图像输入至预设文字识别模型,输出每个所述单元格的字符序列,其中,所述预设文字识别模型是基于预设损失函数训练得到的;
基于所有所述单元格以及所有所述字符序列,进行表格重组,得到目标表格。
2.根据权利要求1所述的识别方法,其特征在于,对金融表单进行预处理,得到目标金融表单的步骤,包括:
对所述金融表单进行去噪处理,并在对所述金融表单去噪完成的情况下,为去噪后的所述金融表单重新分配像素值,得到增强金融表单;
检测所述增强金融表单中是否出现旋转区域,并在检测到所述旋转区域的情况下,纠正所述旋转区域,得到对齐金融表单,其中,所述旋转区域是指相对于标准区域确定的对齐坐标所述增强金融表单中出现角度偏转的区域;
将所述对齐金融表单中的透视视图转换为平面视图,得到所述目标金融表单。
3.根据权利要求1所述的识别方法,其特征在于,所述识别方法还包括:
采集预设时间段内金融机构的预设金融表单,得到预设金融表单集合,其中,每个所述预设金融表单对应有识别结果数据;
分析所述预设金融表单集合中的每个所述预设金融表单,得到预设数据,并基于所述预设数据构建预设数据库;
分析所有所述识别结果数据,确定误识别数据,并基于所述误识别数据,构建检验数据库。
4.根据权利要求1所述的识别方法,其特征在于,在将所述目标金融表单输入至预设结构识别模型,输出分割图像之前,还包括:
构建预设编码器,其中,所述预设编码器包括:预设卷积层和池化层,所述预设卷积层包括:所述预设卷积核、激活函数和归一化层,所述预设卷积核是通过多个所述预设卷积组合得到的;
构建预设解码器,其中,所述预设解码器包括:上采样层和卷积层;
基于所述预设编码器以及所述预设解码器,构建初始结构识别模型;
获取历史时间段内的历史金融表单集合,并对所述历史金融表单集合中的每个历史金融表单进行标注,得到每个所述历史金融表单的结构信息,其中,所述结构信息包括:所述历史金融表单的多个单元格信息,每个所述单元格信息至少包括:单元格位置、单元格尺寸;
将所述历史金融表单集合以及所有所述历史金融表单的所述结构信息表征为训练数据,并采用所述训练数据训练所述初始结构识别模型,得到所述预设结构识别模型。
5.根据权利要求4所述的识别方法,其特征在于,将所述目标金融表单输入至预设结构识别模型,输出分割图像的步骤,包括:
通过所述预设编码器从所述目标金融表单中提取所述目标金融表单的结构特征信息,并通过所述预设编码器从所述目标金融表单中捕获所述目标金融表单的上下文信息和语义信息;
通过所述预设编码器的最后一层所述预设卷积层,将所述目标金融表单处理成中间特征图,其中,所述中间特征图包含预设语义信息;
通过所述预设结构识别模型中的跳跃连接层,将所述结构特征信息、所述上下文信息、所述语义信息以及所述预设语义信息从所述预设编码器传递到所述预设解码器;
基于所述结构特征信息、所述上下文信息、所述语义信息以及所述预设语义信息,通过所述预设解码器将所述中间特征图还原为所述分割图像;
通过所述预设解码器的输出层输出所述分割图像。
6.根据权利要求1所述的识别方法,其特征在于,在将所述分割图像输入至预设文字识别模型,输出每个所述单元格的字符序列之前,还包括:
构建初始文字识别模型,其中,所述初始文字识别模型至少包括:卷积神经网络模块、循环神经网络模块以及转录层,所述卷积神经网络模块至少包括:卷积层,所述循环神经网络模块至少包括:循环层、网络层,所述网络层用于连接所述卷积层以及所述循环层;
获取历史时间段内所述预设结构识别模型输出的历史分割图像,得到历史分割图像集合,并对每个所述历史分割图像进行标注,得到所述历史分割图像的字符信息,其中,所述字符信息包含所述历史分割图像中每个单元格对应的真实字符序列;
将所述历史分割图像集合以及所有所述字符信息表征为训练数据,并采用所述训练数据训练所述初始文字识别模型,直到通过所述预设损失函数计算得到的损失值小于预设损失阈值,得到所述预设文字识别模型。
7.根据权利要求6所述的识别方法,其特征在于,将所述分割图像输入至预设文字识别模型,输出每个所述单元格的字符序列的步骤,包括:
通过所述卷积神经网络模块从所述分割图像中提取每个所述单元格的特征序列,其中,所述单元格包含多个子单元格,每个所述子单元格对应一个子特征序列,所有所述子单元格对应的所述子特征序列构成所述单元格的所述特征序列;
基于预设数据库,通过所述循环神经网络模块确定所述特征序列的真实值概率矩阵,其中,所述循环神经网络模块保存上一单元格的所述特征序列,并在所述上一单元格的所述特征序列与所述预设数据库中的任一预设数据相匹配的情况下,基于上一单元格的所述特征序列,预测当前单元格的所述特征序列的所述真实值概率矩阵;
对于每个所述单元格,基于所述真实值概率矩阵通过所述转录层输出所述单元格的所述字符序列。
8.根据权利要求1所述的识别方法,其特征在于,在将所述分割图像输入至预设文字识别模型,输出每个所述单元格的字符序列之后,还包括:
将所述字符序列与检验数据库中的每个误识别数据进行匹配;
在所述字符序列与所述检验数据库中的任一所述误识别数据相匹配的情况下,基于所述误识别数据校对所述字符序列,并将校正后的所述字符序列作为所述单元格的目标字符序列。
9.根据权利要求1所述的识别方法,其特征在于,基于所有所述单元格以及所有所述字符序列,进行表格重组,得到目标表格的步骤,包括:
对于每个所述单元格,基于所述单元格的单元格信息,确定所述单元格的像素点集合,其中,所述单元格信息至少包括:单元格位置、单元格尺寸,所述像素点集合中的每个像素点对应有像素点编号;
基于所述像素点集合中每个所述像素点的所述像素点编号,确定所述单元格的行列索引;
基于所有所述单元格的所述行列索引,构建所述目标表格,并基于所述行列索引,将所述单元格的所述字符序列存入至所述目标表格。
10.一种金融表单的识别装置,其特征在于,包括:
处理单元,用于对金融表单进行预处理,得到目标金融表单,其中,所述目标金融表单的呈现形式是一个平面表单图像;
第一输入单元,用于将所述目标金融表单输入至预设结构识别模型,输出分割图像,其中,所述预设结构识别模型中的预设卷积核是通过多个预设卷积组合成的卷积核,所述预设卷积核用于对所述目标金融表单进行处理,所述分割图像包括:多个单元格;
第二输入单元,用于将所述分割图像输入至预设文字识别模型,输出每个所述单元格的字符序列,其中,所述预设文字识别模型是基于预设损失函数训练得到的;
重组单元,用于基于所有所述单元格以及所有所述字符序列,进行表格重组,得到目标表格。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至9中任意一项所述的金融表单的识别方法。
12.一种电子设备,其特征在于,包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至9中任意一项所述的金融表单的识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311869697.1A CN117831052A (zh) | 2023-12-30 | 2023-12-30 | 金融表单的识别方法及其装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311869697.1A CN117831052A (zh) | 2023-12-30 | 2023-12-30 | 金融表单的识别方法及其装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117831052A true CN117831052A (zh) | 2024-04-05 |
Family
ID=90514952
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311869697.1A Pending CN117831052A (zh) | 2023-12-30 | 2023-12-30 | 金融表单的识别方法及其装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117831052A (zh) |
-
2023
- 2023-12-30 CN CN202311869697.1A patent/CN117831052A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109492643B (zh) | 基于ocr的证件识别方法、装置、计算机设备及存储介质 | |
CN109902622B (zh) | 一种用于登机牌信息验证的文字检测识别方法 | |
RU2695489C1 (ru) | Идентификация полей на изображении с использованием искусственного интеллекта | |
JP6528147B2 (ja) | 会計データ入力支援システム、方法およびプログラム | |
CN109740515B (zh) | 一种评阅方法及装置 | |
CN112395996A (zh) | 财务票据ocr识别及影像处理方法、系统及可读存储介质 | |
US20220292861A1 (en) | Docket Analysis Methods and Systems | |
CN113569863B (zh) | 一种单据稽查的方法、系统、电子设备及存储介质 | |
Caldeira et al. | Industrial optical character recognition system in printing quality control of hot-rolled coils identification | |
CN113158895A (zh) | 票据识别方法、装置、电子设备及存储介质 | |
CN113837151A (zh) | 表格图像处理方法、装置、计算机设备及可读存储介质 | |
CN113673528B (zh) | 文本处理方法、装置、电子设备和可读存储介质 | |
EP4244761A1 (en) | Fraud detection via automated handwriting clustering | |
CN111414889B (zh) | 基于文字识别的财务报表识别方法及装置 | |
CN111881880A (zh) | 一种基于新型网络的票据文本识别方法 | |
CN111008635A (zh) | 一种基于ocr的多票据自动识别方法及识别系统 | |
CN115512340A (zh) | 基于图片的意图检测方法及装置 | |
CN115880702A (zh) | 数据处理方法、装置、设备、程序产品及存储介质 | |
CN117831052A (zh) | 金融表单的识别方法及其装置、电子设备及存储介质 | |
CN115170414A (zh) | 一种基于知识蒸馏的单幅图像去雨方法及系统 | |
Zheng et al. | Recognition of expiry data on food packages based on improved DBNet | |
CN115761745A (zh) | 票据数据的识别方法及装置、电子设备、存储介质 | |
Chandra et al. | Development of an End-to-End Form Data Capture Model for an Electronic Election Recapitulation System | |
CN117636382A (zh) | 一种金融应用程序中的图像识别方法、装置、设备及介质 | |
CN117037166A (zh) | 基于人工智能的文本识别方法、装置、计算机设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |