CN115205882A - 一种医疗行业的费用支出凭证的智能识别和处理方法 - Google Patents
一种医疗行业的费用支出凭证的智能识别和处理方法 Download PDFInfo
- Publication number
- CN115205882A CN115205882A CN202210838602.9A CN202210838602A CN115205882A CN 115205882 A CN115205882 A CN 115205882A CN 202210838602 A CN202210838602 A CN 202210838602A CN 115205882 A CN115205882 A CN 115205882A
- Authority
- CN
- China
- Prior art keywords
- signature
- voucher
- image
- expense
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/42—Document-oriented image-based pattern recognition based on the type of document
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
- G06V30/168—Smoothing or thinning of the pattern; Skeletonisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/18105—Extraction of features or characteristics of the image related to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/30—Writer recognition; Reading and verifying signatures
- G06V40/33—Writer recognition; Reading and verifying signatures based only on signature image, e.g. static signature recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Character Input (AREA)
Abstract
本发明适用于图像识别技术领域,尤其涉及一种医疗行业的费用支出凭证的智能识别和处理方法,所述方法包括:获取待识别支出凭证;通过深度学习OCR模型对待识别支出凭证进行基础内容识别,得到基础识别内容;调取相应的空白电子凭证,并进行填充,得到待认证电子凭证;从待识别支出凭证中获取签章图像,将该签章图像与签章数据库中的数据进行比对,判断是否通过认证,若通过,则将签章图像录入到待认证电子凭证中。本发明通过对图片格式的待识别支出凭证进行文字识别,提取其中的文字内容,并调取相应的空白电子凭证,然后提取图片中包含的签章内容,根据签章进行内容校核,以判断内容的真实性,大大提高了智能识别的安全性。
Description
技术领域
本发明属于图像识别技术领域,尤其涉及一种医疗行业的费用支出凭证的智能识别和处理方法。
背景技术
支出凭证单属于收款、付款-财务管理-哈佛管理表格全集等相关类别,是现金或银行付款时使用也可以给外部人员付款时使用,但也要附上原始凭证。
文字识别一般包括文字信息的采集、信息的分析与处理、信息的分类判别等几个部分,信息采集将纸面上的文字灰度变换成电信号,输入到计算机中去,信息分析和处理是对变换后的电信号消除各种由于印刷质量、纸质或书写工具等因素所造成的噪音和干扰,进行大小、偏转、浓淡、粗细等各种正规化处理;信息的分类判别是对去掉噪声并正规化后的文字信息进行分类判别,以输出识别结果。
在当前的费用支出凭证识别过程中,一般对印刷字体的识别率较高,对于签字等手写体,则难以识别,因此难以对费用支出凭证进行真实性验证。
发明内容
本发明实施例的目的在于提供一种医疗行业的费用支出凭证的智能识别和处理方法,旨在解决现有技术中难以对费用支出凭证进行真实性验证的问题,本发明中通过OCR模型进行文字识别,并对每个费用支出凭证进行验证,从而保证了其真实性。
本发明实施例是这样实现的,一种医疗行业的费用支出凭证的智能识别和处理方法,所述方法包括:
获取待识别支出凭证,所述待识别支出凭证为图片格式;
通过深度学习OCR模型对待识别支出凭证进行基础内容识别,得到基础识别内容,所述基本识别内容包括印刷体识别结果;
根据基础识别内容调取相应的空白电子凭证,并进行填充,得到待认证电子凭证;
从待识别支出凭证中获取签章图像,将该签章图像与签章数据库中的数据进行比对,判断是否通过认证,若通过,则将签章图像录入到待认证电子凭证中。
优选的,所述通过深度学习OCR模型对待识别支出凭证进行基础内容识别,得到基础识别内容的步骤,具体包括:
对待识别支出凭证进行增强处理,得到增强处理图像;
对增强处理图像进行预处理,得到预处理图像;
将增强处理图像输入到深度学习OCR模型中,得到基础识别内容。
优选的,所述根据基础识别内容调取相应的空白电子凭证,并进行填充,得到待认证电子凭证的步骤,具体包括:
以基础识别内容中的文字内容为基础对空白凭证数据库进行检索,所述空白凭证数据库中存储有所有类型的空白凭证,并且每个空白凭证对应有多个关键字;
调取关键字与基础识别内容中的文字内容重合数量最多的空白凭证,得到空白电子凭证;
根据基础识别内容确定填充位置以及填充内容,进行填充,得到待认证电子凭证。
优选的,所述从待识别支出凭证中获取签章图像,将该签章图像与签章数据库中的数据进行比对,判断是否通过认证的步骤,具体包括:
根据待识别支出凭证的颜色分布确定签章图像的分布位置,进行图像提取,得到签章图像;
根据签章数据库中存储的标准签章的尺寸对签章图像进行变形处理,得到待比对签章;
将待比对签章与标准签章进行比对,比对过程中不断旋转待比对签章,判断两者是否重合,若重合,则判定通过认证。
优选的,签章图像录入到待认证电子凭证中后,对其进行加密存储。
优选的,进行存储时,对待认证电子凭证进行分类,按照其所属的类型进行分区处理。
优选的,增强处理包括调整对比度和调整亮度。
优选的,预处理包括进行灰度处理和噪声去除。
本发明实施例的另一目的在于提供一种医疗行业的费用支出凭证的智能识别和处理系统,所述系统包括:
凭证获取模块,用于获取待识别支出凭证,所述待识别支出凭证为图片格式;
文字识别模块,用于通过深度学习OCR模型对待识别支出凭证进行基础内容识别,得到基础识别内容,所述基本识别内容包括印刷体识别结果;
凭证电子化模块,用于根据基础识别内容调取相应的空白电子凭证,并进行填充,得到待认证电子凭证;
凭证认证模块,用于从待识别支出凭证中获取签章图像,将该签章图像与签章数据库中的数据进行比对,判断是否通过认证,若通过,则将签章图像录入到待认证电子凭证中。
优选的,所述文字识别模块包括:
图像增强单元,用于对待识别支出凭证进行增强处理,得到增强处理图像;
图像预处理单元,用于对增强处理图像进行预处理,得到预处理图像;
图像识别单元,用于将增强处理图像输入到深度学习OCR模型中,得到基础识别内容。
优选的,所述凭证电子化模块包括:
凭证检索单元,用于以基础识别内容中的文字内容为基础对空白凭证数据库进行检索,所述空白凭证数据库中存储有所有类型的空白凭证,并且每个空白凭证对应有多个关键字;
数据调取单元,用于调取关键字与基础识别内容中的文字内容重合数量最多的空白凭证,得到空白电子凭证;
数据填充模块,用于根据基础识别内容确定填充位置以及填充内容,进行填充,得到待认证电子凭证。
优选的,所述凭证认证模块包括:
图像提取单元,用于根据待识别支出凭证的颜色分布确定签章图像的分布位置,进行图像提取,得到签章图像;
图像处理单元,用于根据签章数据库中存储的标准签章的尺寸对签章图像进行变形处理,得到待比对签章;
图像比对单元,用于将待比对签章与标准签章进行比对,比对过程中不断旋转待比对签章,判断两者是否重合,若重合,则判定通过认证。
本发明实施例提供的一种医疗行业的费用支出凭证的智能识别和处理方法,通过对图片格式的待识别支出凭证进行文字识别,提取其中的文字内容,并调取相应的空白电子凭证,然后提取图片中包含的签章内容,根据签章进行内容校核,以判断内容的真实性,大大提高了智能识别的安全性。
附图说明
图1为本发明实施例提供的一种医疗行业的费用支出凭证的智能识别和处理方法的流程图;
图2为本发明实施例提供的通过深度学习OCR模型对待识别支出凭证进行基础内容识别,得到基础识别内容的步骤的流程图;
图3为本发明实施例提供的根据基础识别内容调取相应的空白电子凭证,并进行填充,得到待认证电子凭证的步骤的流程图;
图4为本发明实施例提供的从待识别支出凭证中获取签章图像,将该签章图像与签章数据库中的数据进行比对,判断是否通过认证的步骤的流程图;
图5为本发明实施例提供的一种医疗行业的费用支出凭证的智能识别和处理系统的架构图;
图6为本发明实施例提供的一种文字识别模块的架构图;
图7为本发明实施例提供的一种凭证电子化模块的架构图;
图8为本发明实施例提供的一种凭证认证模块的架构;
图9是数据的流程图;
图10是特征的前向传播和后向传播的示意图;
图11是支出凭证的示意图;
图12是单据识别后的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但除非特别说明,这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一xx脚本称为第二xx脚本,且类似地,可将第二xx脚本称为第一xx脚本。
文字识别一般包括文字信息的采集、信息的分析与处理、信息的分类判别等几个部分,信息采集将纸面上的文字灰度变换成电信号,输入到计算机中去,信息分析和处理是对变换后的电信号消除各种由于印刷质量、纸质或书写工具等因素所造成的噪音和干扰,进行大小、偏转、浓淡、粗细等各种正规化处理;信息的分类判别是对去掉噪声并正规化后的文字信息进行分类判别,以输出识别结果。在当前的费用支出凭证识别过程中,一般对印刷字体的识别率较高,对于签字等手写体,则难以识别,因此难以对费用支出凭证进行真实性验证。
本发明通过对图片格式的待识别支出凭证进行文字识别,提取其中的文字内容,并调取相应的空白电子凭证,然后提取图片中包含的签章内容,根据签章进行内容校核,以判断内容的真实性,大大提高了智能识别的安全性。
如图1所示,为本发明实施例提供的一种医疗行业的费用支出凭证的智能识别和处理方法的流程图,所述方法包括:
S100,获取待识别支出凭证,所述待识别支出凭证为图片格式。
在本步骤中,获取待识别支出凭证,具体的,通过图像采集装置对纸质的凭证进行图像采集,将其转化为图片格式,得到图片格式之后,为了方便后期进行核对,可以将图片格式的待识别支出凭证进行存储,在进行图像采集时尽量保证图像采集装置的镜头与纸质的凭证保持平行。
S200,通过深度学习OCR模型对待识别支出凭证进行基础内容识别,得到基础识别内容,所述基本识别内容包括印刷体识别结果。
在本步骤中,通过深度学习OCR模型对待识别支出凭证进行基础内容识别,在现有技术中,通常采用OCR模型进行文字识别,从而得到文字内容,对于现有的OCR模型其对印刷体的识别准确率较高,因此能够对待识别支出凭证中的印刷体内容进行识别,以得到基础识别内容。
S300,根据基础识别内容调取相应的空白电子凭证,并进行填充,得到待认证电子凭证。
在本步骤中,根据基础识别内容调取相应的空白电子凭证,为了将纸质的凭证转为可编辑的电子凭证,先根据纸质凭证的类型查询得到相应的空白电子凭证,该空白电子凭证具有与该纸质凭证相同的网格线以及固定文字内容,那么根据固定文字内容即可确定基础识别内容对应的填充位置,通过填充至后,即得到待认证电子凭证,此时,对于纸质凭证中的签章部分是没有录入其中,需要就此进行身份验证。
S400,从待识别支出凭证中获取签章图像,将该签章图像与签章数据库中的数据进行比对,判断是否通过认证,若通过,则将签章图像录入到待认证电子凭证中。
在本步骤中,从待识别支出凭证中获取签章图像,采用抠图的方式,将待识别支出凭证中的签章扣取出来,以得到签章图像,而在签章数据库中,对所有人的签章进行收集,签章可以是手签文字,也可以是图章,然后通过比对的方式,判断该签章数据库中是否存储有对应的签章,若存在则说明该签章为真实的,若不存在,则说明该签章存在假冒风险,因此可以在认证不通过时将其发送至该签章对应的人员,以进行人工验证,得到人工验证结果后,以再次判断是否通过认证,若人工验证通过,则视为认证通过,最终将认证通过的签章图像录入到待认证电子凭证中;签章图像录入到待认证电子凭证中后,对其进行加密存储;进行存储时,对待认证电子凭证进行分类,按照其所属的类型进行分区处理;签章图像录入到待认证电子凭证中后,对其进行加密存储;进行存储时,对待认证电子凭证进行分类,按照其所属的类型进行分区处理。
如图2所示,作为本发明的一个优选实施例,所述通过深度学习OCR模型对待识别支出凭证进行基础内容识别,得到基础识别内容的步骤,具体包括:
S201,对待识别支出凭证进行增强处理,得到增强处理图像。
在本步骤中,对待识别支出凭证进行增强处理,由于在进行图像采集时,环境条件可能存在差异,因此为了提升识别率,需要对待识别支出凭证进行调整,具体包括调整对比度和调整亮度,将其调整至预设的数值。
S202,对增强处理图像进行预处理,得到预处理图像。
在本步骤中,对增强处理图像进行预处理,同样的,由于纸质的凭证在使用过程中容易出现脏污,变色等情况,因此通过预处理,将其中包含的噪声去除,并且通过识别凭证的位置裁剪多余的部分。
S203,将增强处理图像输入到深度学习OCR模型中,得到基础识别内容。
在本步骤中,将增强处理图像输入到深度学习OCR模型中,常见的OCR识别模型结构的核心网络部分主要包括backbones(骨干网络),necks(颈部网络),heads(头部网络),losses(损失函数)几个部分,一般backbones选用resnet,vgg,mobilenet等结构进行特征提取,然后necks常使用lstm,bilstm,gru等结构进行进一步的特征提取学习,heads常用全连接结构进行特征映射,losses常用ctc loss(Connectionist TemporalClassification)作为损失函数进行计算训练时的loss;这样的网络结构在训练集上训练后,得到的模型在benchmark的识别率约为83%,如图9所示,为本发明采用的改进型OCR模型,该改进型OCR模型增加了trans(转移网络)结构,如图10所示其中虚线框内为trans结构图,实验表明将backbones的特征与lstm特征结合后,能够有效提高模型的识别能力,增加了trans结构的模型,相同训练集训练后,较无trans结构的模型在benchmark识别率从83.3%提高到86.2%,表明trans结构能够更有效的提高模型的学习能力。并且trans结构简单,计算量增加较少,具有较大的优势。
在本实施例中,改进型OCR模型的训练方式和常见OCR模型的训练方式保持一致,主要为以下几个步骤:数据增强,输入到网络模型,计算损失函数,进行梯度反向传播更新参数。其中,trans部分和前后网络的衔接方式:
trans结构内部主要为两个卷积结构,分别命名为forward,backward,输出为x1,x2,设backbone输出的特征图为f0,Neck输出的特征图为f1,head接收到的特征图y,则这个计算过程可描述为:
x1=W1*f0+b1,
x2=W2*f0+b2,
y=[x1,x]+f1
其中,W1,W2,b1和b2分别为forward,backward的权重和偏置,为了更快更好的得到训练结果,也可将x1,x2进行bn(batchnorm)运算:
y=[bn(x1),bn(x2)]+f1,
其中,E(x),Var[x]分别为输入的均值和方差,γ,β为权重和偏置。
实验表明:相同训练集训练后,改进的模型较无trans结构的模型在benchmark识别率从83.3%提高到86.2%,图11为被识别的凭证,图12为常见OCR模型(左)和改进型OCR模型(右)各自的识别结果。
如图3所示,作为本发明的一个优选实施例,所述根据基础识别内容调取相应的空白电子凭证,并进行填充,得到待认证电子凭证的步骤,具体包括:
S301,以基础识别内容中的文字内容为基础对空白凭证数据库进行检索,所述空白凭证数据库中存储有所有类型的空白凭证,并且每个空白凭证对应有多个关键字。
在本步骤中,以基础识别内容中的文字内容为基础对空白凭证数据库进行检索,为了便于检索,空白凭证数据库中存储有所有类型的空白凭证,并且记录有每个类型空白凭证对应的关键字,因此,在进行检索时,根据基础识别内容中的文字内容与空白凭证对应的关键字之间的对应关系即可确定确定各个空白凭证与该基础识别内容的对应关系。
S302,调取关键字与基础识别内容中的文字内容重合数量最多的空白凭证,得到空白电子凭证。
S303,根据基础识别内容确定填充位置以及填充内容,进行填充,得到待认证电子凭证。
在本步骤中,在进行检索之后,统计各个基础识别内容对应的关键字的数量,关键字重合数量越多,则说明两者之间的对应关系更加紧密,因此调用重合数量最多的空白凭证,然后根据基础识别内容即可逐步对空白凭证进行填充,以得到待认证电子凭证。
如图4所示,作为本发明的一个优选实施例,所述从待识别支出凭证中获取签章图像,将该签章图像与签章数据库中的数据进行比对,判断是否通过认证的步骤,具体包括:
S401,根据待识别支出凭证的颜色分布确定签章图像的分布位置,进行图像提取,得到签章图像。
在本步骤中,根据待识别支出凭证的颜色分布确定签章图像的分布位置,通过模糊匹配的方式确定其位置,进而根据色彩范围对该图像所在位置进行抠图处理,得到签章图像。
S402,根据签章数据库中存储的标准签章的尺寸对签章图像进行变形处理,得到待比对签章。
在本步骤中,根据签章数据库中存储的标准签章的尺寸对签章图像进行变形处理,具体的,确定标准签章的最大尺寸,如宽为50像素,高为100像素,进而通过缩放和变形将签章图像也转换为宽为50像素,高为100像素的图像,以得到待对比签章。
S403,将待比对签章与标准签章进行比对,比对过程中不断旋转待比对签章,判断两者是否重合,若重合,则判定通过认证。
在本步骤中,将待比对签章与标准签章进行比对,对于圆形的签章,则在进行比对的时候,使两者重合,然后旋转其中任何一个,如旋转待比对签章,将其旋转360度,每次旋转1度,直至两者重合或者完成旋转仍不能重合,重合则说明认证成功,反之则无法通过认证。
如图5所示,为本发明实施例提供的一种医疗行业的费用支出凭证的智能识别和处理系统,所述系统包括:
凭证获取模块100,用于获取待识别支出凭证,所述待识别支出凭证为图片格式。
在本系统中,凭证获取模块100获取待识别支出凭证,具体的,通过图像采集装置对纸质的凭证进行图像采集,将其转化为图片格式,得到图片格式之后,为了方便后期进行核对,可以将图片格式的待识别支出凭证进行存储,在进行图像采集时尽量保证图像采集装置的镜头与纸质的凭证保持平行。
文字识别模块200,用于通过深度学习OCR模型对待识别支出凭证进行基础内容识别,得到基础识别内容,所述基本识别内容包括印刷体识别结果。
在本系统中,文字识别模块200通过深度学习OCR模型对待识别支出凭证进行基础内容识别,在现有技术中,通常采用OCR模型进行文字识别,从而得到文字内容,对于现有的OCR模型其对印刷体的识别准确率较高,因此能够对待识别支出凭证中的印刷体内容进行识别,以得到基础识别内容。
凭证电子化模块300,用于根据基础识别内容调取相应的空白电子凭证,并进行填充,得到待认证电子凭证。
在本系统中,凭证电子化模块300根据基础识别内容调取相应的空白电子凭证,为了将纸质的凭证转为可编辑的电子凭证,先根据纸质凭证的类型查询得到相应的空白电子凭证,该空白电子凭证具有与该纸质凭证相同的网格线以及固定文字内容,那么根据固定文字内容即可确定基础识别内容对应的填充位置,通过填充至后,即得到待认证电子凭证,此时,对于纸质凭证中的签章部分是没有录入其中,需要就此进行身份验证。
凭证认证模块400,用于从待识别支出凭证中获取签章图像,将该签章图像与签章数据库中的数据进行比对,判断是否通过认证,若通过,则将签章图像录入到待认证电子凭证中。
在本系统中,凭证认证模块400从待识别支出凭证中获取签章图像,采用抠图的方式,将待识别支出凭证中的签章扣取出来,以得到签章图像,而在签章数据库中,对所有人的签章进行收集,签章可以是手签文字,也可以是图章,然后通过比对的方式,判断该签章数据库中是否存储有对应的签章,若存在则说明该签章为真实的,若不存在,则说明该签章存在假冒风险,因此可以在认证不通过时将其发送至该签章对应的人员,以进行人工验证,得到人工验证结果后,以再次判断是否通过认证,若人工验证通过,则视为认证通过,最终将认证通过的签章图像录入到待认证电子凭证中;签章图像录入到待认证电子凭证中后,对其进行加密存储;进行存储时,对待认证电子凭证进行分类,按照其所属的类型进行分区处理;签章图像录入到待认证电子凭证中后,对其进行加密存储;进行存储时,对待认证电子凭证进行分类,按照其所属的类型进行分区处理。
如图6所示,作为本发明的一个优选实施例,所述文字识别模块200包括:
图像增强单元201,用于对待识别支出凭证进行增强处理,得到增强处理图像。
在本模块中,图像增强单元201对待识别支出凭证进行增强处理,由于在进行图像采集时,环境条件可能存在差异,因此为了提升识别率,需要对待识别支出凭证进行调整,具体包括调整对比度和调整亮度,将其调整至预设的数值。
图像预处理单元202,用于对增强处理图像进行预处理,得到预处理图像。
在本模块中,图像预处理单元202对增强处理图像进行预处理,同样的,由于纸质的凭证在使用过程中容易出现脏污,变色等情况,因此通过预处理,将其中包含的噪声去除,并且通过识别凭证的位置裁剪多余的部分。
图像识别单元203,用于将增强处理图像输入到深度学习OCR模型中,得到基础识别内容。
如图7所示,作为本发明的一个优选实施例,所述凭证电子化模块300包括:
凭证检索单元301,用于以基础识别内容中的文字内容为基础对空白凭证数据库进行检索,所述空白凭证数据库中存储有所有类型的空白凭证,并且每个空白凭证对应有多个关键字。
在本模块中,凭证检索单元301以基础识别内容中的文字内容为基础对空白凭证数据库进行检索,为了便于检索,空白凭证数据库中存储有所有类型的空白凭证,并且记录有每个类型空白凭证对应的关键字,因此,在进行检索时,根据基础识别内容中的文字内容与空白凭证对应的关键字之间的对应关系即可确定确定各个空白凭证与该基础识别内容的对应关系。
数据调取单元302,用于调取关键字与基础识别内容中的文字内容重合数量最多的空白凭证,得到空白电子凭证.
数据填充模块303,用于根据基础识别内容确定填充位置以及填充内容,进行填充,得到待认证电子凭证。
在本模块中,在进行检索之后,统计各个基础识别内容对应的关键字的数量,关键字重合数量越多,则说明两者之间的对应关系更加紧密,因此调用重合数量最多的空白凭证,然后根据基础识别内容即可逐步对空白凭证进行填充,以得到待认证电子凭证。
如图8所示,作为本发明的一个优选实施例,所述凭证认证模块400包括:
图像提取单元401,用于根据待识别支出凭证的颜色分布确定签章图像的分布位置,进行图像提取,得到签章图像。
在本模块中,图像提取单元401根据待识别支出凭证的颜色分布确定签章图像的分布位置,通过模糊匹配的方式确定其位置,进而根据色彩范围对该图像所在位置进行抠图处理,得到签章图像。
图像处理单元402,用于根据签章数据库中存储的标准签章的尺寸对签章图像进行变形处理,得到待比对签章。
在本模块中,图像处理单元402根据签章数据库中存储的标准签章的尺寸对签章图像进行变形处理,具体的,确定标准签章的最大尺寸,如宽为50像素,高为100像素,进而通过缩放和变形将签章图像也转换为宽为50像素,高为100像素的图像,以得到待对比签章。
图像比对单元403,用于将待比对签章与标准签章进行比对,比对过程中不断旋转待比对签章,判断两者是否重合,若重合,则判定通过认证。
在本模块中,图像比对单元403将待比对签章与标准签章进行比对,对于圆形的签章,则在进行比对的时候,使两者重合,然后旋转其中任何一个,如旋转待比对签章,将其旋转360度,每次旋转1度,直至两者重合或者完成旋转仍不能重合,重合则说明认证成功,反之则无法通过认证。
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
其中,图9至图12用于参考理解。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种医疗行业的费用支出凭证的智能识别和处理方法,其特征在于,所述方法包括:
获取待识别支出凭证,所述待识别支出凭证为图片格式;
通过深度学习OCR模型对待识别支出凭证进行基础内容识别,得到基础识别内容,所述基本识别内容包括印刷体识别结果;
根据基础识别内容调取相应的空白电子凭证,并进行填充,得到待认证电子凭证;
从待识别支出凭证中获取签章图像,将该签章图像与签章数据库中的数据进行比对,判断是否通过认证,若通过,则将签章图像录入到待认证电子凭证中。
2.根据权利要求1所述的医疗行业的费用支出凭证的智能识别和处理方法,其特征在于,所述通过深度学习OCR模型对待识别支出凭证进行基础内容识别,得到基础识别内容的步骤,具体包括:
对待识别支出凭证进行增强处理,得到增强处理图像;
对增强处理图像进行预处理,得到预处理图像;
将增强处理图像输入到深度学习OCR模型中,得到基础识别内容。
3.根据权利要求1所述的医疗行业的费用支出凭证的智能识别和处理方法,其特征在于,所述根据基础识别内容调取相应的空白电子凭证,并进行填充,得到待认证电子凭证的步骤,具体包括:
以基础识别内容中的文字内容为基础对空白凭证数据库进行检索,所述空白凭证数据库中存储有所有类型的空白凭证,并且每个空白凭证对应有多个关键字;
调取关键字与基础识别内容中的文字内容重合数量最多的空白凭证,得到空白电子凭证;
根据基础识别内容确定填充位置以及填充内容,进行填充,得到待认证电子凭证。
4.根据权利要求1所述的医疗行业的费用支出凭证的智能识别和处理方法,其特征在于,所述从待识别支出凭证中获取签章图像,将该签章图像与签章数据库中的数据进行比对,判断是否通过认证的步骤,具体包括:
根据待识别支出凭证的颜色分布确定签章图像的分布位置,进行图像提取,得到签章图像;
根据签章数据库中存储的标准签章的尺寸对签章图像进行变形处理,得到待比对签章;
将待比对签章与标准签章进行比对,比对过程中不断旋转待比对签章,判断两者是否重合,若重合,则判定通过认证。
5.根据权利要求1所述的医疗行业的费用支出凭证的智能识别和处理方法,其特征在于,签章图像录入到待认证电子凭证中后,对其进行加密存储。
6.根据权利要求5所述的医疗行业的费用支出凭证的智能识别和处理方法,其特征在于,进行存储时,对待认证电子凭证进行分类,按照其所属的类型进行分区处理。
7.根据权利要求2所述的医疗行业的费用支出凭证的智能识别和处理方法,其特征在于,增强处理包括调整对比度和调整亮度。
8.根据权利要求2所述的医疗行业的费用支出凭证的智能识别和处理方法,其特征在于,预处理包括进行灰度处理和噪声去除。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210838602.9A CN115205882A (zh) | 2022-07-14 | 2022-07-14 | 一种医疗行业的费用支出凭证的智能识别和处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210838602.9A CN115205882A (zh) | 2022-07-14 | 2022-07-14 | 一种医疗行业的费用支出凭证的智能识别和处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115205882A true CN115205882A (zh) | 2022-10-18 |
Family
ID=83582140
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210838602.9A Pending CN115205882A (zh) | 2022-07-14 | 2022-07-14 | 一种医疗行业的费用支出凭证的智能识别和处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115205882A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116362816A (zh) * | 2023-05-30 | 2023-06-30 | 浙江爱信诺航天信息技术有限公司 | 凭证信息遗漏识别及处理方法、系统与介质 |
-
2022
- 2022-07-14 CN CN202210838602.9A patent/CN115205882A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116362816A (zh) * | 2023-05-30 | 2023-06-30 | 浙江爱信诺航天信息技术有限公司 | 凭证信息遗漏识别及处理方法、系统与介质 |
CN116362816B (zh) * | 2023-05-30 | 2023-09-26 | 浙江爱信诺航天信息技术有限公司 | 凭证信息遗漏识别及处理方法、系统与介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108717545B (zh) | 一种基于手机拍照的票据识别方法及系统 | |
CN109784170B (zh) | 基于图像识别的车险定损方法、装置、设备及存储介质 | |
EP2602771A1 (en) | Valuable file identification method and identification system, device thereof | |
CN102722708B (zh) | 一种薄片类介质分类方法及其装置 | |
CN111861731A (zh) | 基于ocr的贷后检查系统及方法 | |
Ahmed et al. | Forgery detection based on intrinsic document contents | |
US11144752B1 (en) | Physical document verification in uncontrolled environments | |
US5644655A (en) | Identification method and apparatus | |
CN115205882A (zh) | 一种医疗行业的费用支出凭证的智能识别和处理方法 | |
CN106599923B (zh) | 一种对印防伪特征的检测方法及装置 | |
CN114511866A (zh) | 数据稽核方法、装置、系统、处理器及机器可读存储介质 | |
CN114202759A (zh) | 基于深度学习的多币种纸币冠字号识别方法和装置 | |
Rajan et al. | An extensive study on currency recognition system using image processing | |
CN111881880A (zh) | 一种基于新型网络的票据文本识别方法 | |
CN111259894A (zh) | 一种证件信息鉴别方法、装置及计算机设备 | |
US20230069960A1 (en) | Generalized anomaly detection | |
CN113077355B (zh) | 保险理赔方法、装置、电子设备及存储介质 | |
CN112308141B (zh) | 一种扫描票据分类方法、系统及可读存储介质 | |
KR101232684B1 (ko) | 베이시안 접근법을 이용한 지폐 진위 감별 방법 | |
CN114820476A (zh) | 基于合规性检测的身份证识别方法 | |
CN110415424B (zh) | 一种防伪鉴定方法、装置、计算机设备和存储介质 | |
CN112380957A (zh) | 他项权证信息识别方法、装置、计算机设备和存储介质 | |
Ahmed et al. | Comparative analysis of global feature extraction methods for off-line signature recognition | |
CN112233313B (zh) | 一种纸币识别方法、装置及设备 | |
EP4361971A1 (en) | Training images generation for fraudulent document detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |