CN114648776B - 一种财务报销数据处理方法和处理系统 - Google Patents
一种财务报销数据处理方法和处理系统 Download PDFInfo
- Publication number
- CN114648776B CN114648776B CN202210565757.XA CN202210565757A CN114648776B CN 114648776 B CN114648776 B CN 114648776B CN 202210565757 A CN202210565757 A CN 202210565757A CN 114648776 B CN114648776 B CN 114648776B
- Authority
- CN
- China
- Prior art keywords
- image
- doubt
- recognition model
- reimbursement
- classifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/40—Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及财务数据处理技术领域,具体公开了一种财务报销数据处理方法和处理系统,所述处理方法包括获取报销凭证影像,查询参考图幅,对所述报销凭证影像进行几何校正;将几何校正后的报销凭证影像输入训练好的第一分类器,基于第一分类器对所述报销凭证影像进行内容识别,确定存疑图像;将所述存疑图像输入训练好的第二分类器,基于所述第二分类器对存疑图像进行特征识别,根据特征识别结果过滤存疑图像中的有效图像。本发明通过第一分类器对报销凭证影像进行初识别,然后通过竞争式的第二分类器对报销凭证进行二次识别,在这一过程中,配合人工识别,不断地提高第一分类器和第二分类器的识别能力,提供了一种学习式的智能化筛选方法。
Description
技术领域
本发明涉及财务数据处理技术领域,具体是一种财务报销数据处理方法和处理系统。
背景技术
在财务报销过程中,需要处理庞大数量的报销凭证,如发票、pos单等各类报销凭证。财务人员需要花费大工作量对各类报销凭证数据进行核对,同时,还需要人工录入大量的报销信息,使得整个报销过程复杂繁琐,工作量巨大。因此,出现了很多一键式智能化财务报销软件。
在这些财务报销软件中,最开始的步骤都是对报销凭证进行一个筛选,传统的筛选方法大都是比对式的筛选过程,即,将获取到的报销凭证与参考图像进行比对;实际上,对于同一报销凭证来说,不同拍摄参数下的成品图像的区别很大,这就要求参考图像的种类要尽可能的多,种类越多,筛选过程越准确。可以想到,在比对识别的架构下,对报销凭证的拍摄条件有一定的要求,而拍摄条件属于不可控因素,因此,传统的技术方案变相的提高了识别错误的概率。
发明内容
本发明的目的在于提供一种财务报销数据处理方法和处理系统,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种财务报销数据处理方法,所述处理方法包括:
接收用户发送的报销申请,根据预设的信息模板获取含有分类标签的报销凭证影像,根据分类标签查询参考图幅,基于所述参考图幅对所述报销凭证影像进行几何校正;
将几何校正后的报销凭证影像输入训练好的第一分类器,基于第一分类器对所述报销凭证影像进行内容识别,根据内容识别结果确定存疑图像;
将所述存疑图像上传至人工端并接收人工标记结果,根据人工标记结果将存疑图像分别存储至第一样本库和第二样本库;
将所述存疑图像输入训练好的第二分类器,基于所述第二分类器对存疑图像进行特征识别,根据特征识别结果过滤存疑图像中的有效图像;
其中,所述第一分类器包括训练好的第一图像识别模型,所述第一图像识别模型为基于第一样本库训练得到的神经网络模型;
所述第二分类器包括训练好的特征识别模型和训练好的第二图像识别模型,所述第二图像识别模型为基于第二样本库训练得到的神经网络模型;所述特征识别模型与所述第二图像识别模型为竞争关系。
作为本发明进一步的方案:所述根据分类标签查询参考图幅,基于所述参考图幅对所述报销凭证影像进行几何校正的步骤包括:
根据分类标签提取参考图幅,根据预设的采样频率在所述参考图幅中确定第一采样点;
比对所述参考图幅和所述报销凭证影像,确定至少两个不共线的映射向量;
根据所述映射向量和参考图幅中的采样点确定报销凭证影像中的第二采样点;
根据所述第一采样点和所述第二采样点确定坐标变换参数,根据坐标变换参数对报销凭证影像进行几何校正。
作为本发明进一步的方案:所述根据所述第一采样点和所述第二采样点确定坐标变换参数,根据坐标变换参数对报销凭证影像进行几何校正的步骤包括:
以第一采样点为中心,在参考图幅中拷贝第一采样区域;
以第二采样点为中心,在报销凭证影像中拷贝第二采样区域;
将所述第一采样区域和所述第二采样区域输入同一图像-数值转换模型,得到两个目标值;
计算两个目标值之间的偏差率,标记偏差率小于预设的偏差阈值的第一采样区域和第二采样区域;
统计标记的第一采样区域和第二采样区域对应的第一采样点和第二采样点,根据统计到的第一采样点和第二采样点的位置关系确定坐标变换参数;
根据坐标变换参数对报销凭证影像进行几何校正。
作为本发明进一步的方案:所述将所述存疑图像输入训练好的第二分类器,基于所述第二分类器对存疑图像进行特征识别,根据特征识别结果过滤存疑图像中的有效图像的步骤包括:
在第二分类器加载特征识别模型和第二图像识别模型;
将所述存疑图像分别输入特征识别模型和第二图像识别模型,分别记录特征识别模型和第二图像识别模型的输出值;其中,存疑图像为第一标识值,有效图像为第二标识值;
实时比对同一存疑图像对应的第一标识值和第二标识值,标记第一标识值和第二标识值不同的存疑图像,并将所述存疑图像向人工端发送;
接收人工端的反馈信号,根据所述反馈信号生成特征识别模型和第二图像识别模型的准确度;
当第二图像识别模型的准确度大于特征识别模型的准确度时,在第二分类器仅加载第二图像识别模型。
作为本发明进一步的方案:所述特征识别模型的工作步骤包括:
根据预设的区域标记对存疑图像进行切分,得到子区域;所述区域标记包括信息区域和标识区域;
对标识区域进行轮廓识别,根据轮廓识别结果标记轮廓像素点;
遍历所述轮廓像素点,计算不同轮廓像素点处的轮廓曲率;
对所述信息区域进行文字识别,得到信息文本;
根据所述轮廓曲率和所述信息文本识别存疑图像中的有效图像。
作为本发明进一步的方案:所述遍历所述轮廓像素点,计算不同轮廓像素点处的轮廓曲率的步骤包括:
根据预设的遍历方向以所述轮廓像素点为中心,根据预设的半径截取轮廓;
根据截取到的轮廓计算轮廓曲率,得到轮廓曲率组。
作为本发明进一步的方案:所述根据所述轮廓曲率和所述信息文本识别存疑图像中的有效图像的步骤包括:
读取预存的标准轮廓,计算得到标准轮廓的参考曲率组;
读取所述轮廓曲率组,将所述轮廓曲率组与所述参考曲率组进行比对,根据比对结果筛选存疑图像中的预存图像;
读取预存图像对应的信息文本,对所述信息文本进行内容识别,根据内容识别结果在预存图像中提取有效图像。
本发明技术方案还提供了一种财务报销数据处理系统,所述处理系统包括:
影像获取模块,用于接收用户发送的报销申请,根据预设的信息模板获取含有分类标签的报销凭证影像,根据分类标签查询参考图幅,基于所述参考图幅对所述报销凭证影像进行几何校正;
第一识别模块,用于将几何校正后的报销凭证影像输入训练好的第一分类器,基于第一分类器对所述报销凭证影像进行内容识别,根据内容识别结果确定存疑图像;
样本库更新模块,用于将所述存疑图像上传至人工端并接收人工标记结果,根据人工标记结果将存疑图像分别存储至第一样本库和第二样本库;
第二识别模块,用于将所述存疑图像输入训练好的第二分类器,基于所述第二分类器对存疑图像进行特征识别,根据特征识别结果过滤存疑图像中的有效图像;
其中,所述第一分类器包括训练好的第一图像识别模型,所述第一图像识别模型为基于第一样本库训练得到的神经网络模型;
所述第二分类器包括训练好的特征识别模型和训练好的第二图像识别模型,所述第二图像识别模型为基于第二样本库训练得到的神经网络模型;所述特征识别模型与所述第二图像识别模型为竞争关系。
作为本发明进一步的方案:所述影像获取模块包括:
采样点确定单元,用于根据分类标签提取参考图幅,根据预设的采样频率在所述参考图幅中确定第一采样点;
向量确定单元,用于比对所述参考图幅和所述报销凭证影像,确定至少两个不共线的映射向量;
采样点映射单元,根据所述映射向量和参考图幅中的采样点确定报销凭证影像中的第二采样点;
处理执行单元,用于根据所述第一采样点和所述第二采样点确定坐标变换参数,根据坐标变换参数对报销凭证影像进行几何校正。
作为本发明进一步的方案:所述处理执行单元包括:
第一拷贝子单元,用于以第一采样点为中心,在参考图幅中拷贝第一采样区域;
第二拷贝子单元,用于以第二采样点为中心,在报销凭证影像中拷贝第二采样区域;
转换子单元,用于将所述第一采样区域和所述第二采样区域输入同一图像-数值转换模型,得到两个目标值;
计算子单元,用于计算两个目标值之间的偏差率,标记偏差率小于预设的偏差阈值的第一采样区域和第二采样区域;
统计子单元,用于统计标记的第一采样区域和第二采样区域对应的第一采样点和第二采样点,根据统计到的第一采样点和第二采样点的位置关系确定坐标变换参数;
校正子单元,用于根据坐标变换参数对报销凭证影像进行几何校正。
与现有技术相比,本发明的有益效果是:本发明通过第一分类器对报销凭证影像进行初识别,然后通过竞争式的第二分类器对报销凭证进行二次识别,在这一过程中,配合人工识别,不断地提高第一分类器和第二分类器的识别能力,提供了一种学习式的智能化筛选方法。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例。
图1为财务报销数据处理方法的流程框图。
图2为财务报销数据处理方法的第一子流程框图。
图3为财务报销数据处理方法的第二子流程框图。
图4为财务报销数据处理系统的组成结构框图。
图5为财务报销数据处理系统中影像获取模块的组成结构框图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1
图1为财务报销数据处理方法的流程框图,本发明实施例中,一种财务报销数据处理方法,所述处理方法包括步骤S100至步骤S400:
步骤S100:接收用户发送的报销申请,根据预设的信息模板获取含有分类标签的报销凭证影像,根据分类标签查询参考图幅,基于所述参考图幅对所述报销凭证影像进行几何校正;
在我们日常的报销申请工作中,报销申请的凭据种类有很多,不同公司有不同公司的要求,但是它们都有一个统一的标准,基于这一标准可以确定一个信息模板,通过信息模板获取报销申请的报销凭证影像可以更有条理,便于后续的处理过程。
步骤S200:将几何校正后的报销凭证影像输入训练好的第一分类器,基于第一分类器对所述报销凭证影像进行内容识别,根据内容识别结果确定存疑图像;
步骤S300:将所述存疑图像上传至人工端并接收人工标记结果,根据人工标记结果将存疑图像分别存储至第一样本库和第二样本库;
几何校正后的报销凭证影像在经过第一分类器的识别过程后,可以得到一些存疑图像,这些存疑图像就是无法确切识别的报销凭证影像,它的要求比较严格,只要报销凭证影像存在一点“不自然”的现象,就把它标记为存疑图像。可以想到,存疑图像中存在有效的报销凭证影像和无效的报销凭证影像,后续进一步的区分过程由人工完成。
步骤S400:将所述存疑图像输入训练好的第二分类器,基于所述第二分类器对存疑图像进行特征识别,根据特征识别结果过滤存疑图像中的有效图像;
人工区分的后续过程是,将区分结果再次输入第一样本库和第二样本库,用于提高第一样本库和第二样本库中的数据量,进而提高第一分类器和第二分类器的性能。实际上,人工标记完成后,可以作为最终评价标准,也可以不作为最终评价标准,它主要功能是提高第一分类器和第二分类器的识别准确度。
其中,所述第一分类器包括训练好的第一图像识别模型,所述第一图像识别模型为基于第一样本库训练得到的神经网络模型;
所述第二分类器包括训练好的特征识别模型和训练好的第二图像识别模型,所述第二图像识别模型为基于第二样本库训练得到的神经网络模型;所述特征识别模型与所述第二图像识别模型为竞争关系。
值得一提的是,存疑图像经过人工标记后,会成为有效图像或无效图像,其中,有效图像输入第一样本库,用以提高第一分类器对有效图像的识别准确度;无效图像输入第二样本库,用以提高第二分类器对无效图像的识别准确度。
需要说明的是,在检测伊始,第二分类器中的主要应用模型是特征识别模型,随着第二样本库的扩充,第二图像识别模型的准确度会逐渐的超越特征识别模型,当二图像识别模型的准确度超越特征识别模型,第二分类器中的主要应用模型就是第二图像识别模型。
图2为财务报销数据处理方法的第一子流程框图,所述根据分类标签查询参考图幅,基于所述参考图幅对所述报销凭证影像进行几何校正的步骤包括步骤S101至步骤S104:
步骤S101:根据分类标签提取参考图幅,根据预设的采样频率在所述参考图幅中确定第一采样点;
步骤S102:比对所述参考图幅和所述报销凭证影像,确定至少两个不共线的映射向量;
步骤S103:根据所述映射向量和参考图幅中的采样点确定报销凭证影像中的第二采样点;
步骤S104:根据所述第一采样点和所述第二采样点确定坐标变换参数,根据坐标变换参数对报销凭证影像进行几何校正。
进一步的,所述根据所述第一采样点和所述第二采样点确定坐标变换参数,根据坐标变换参数对报销凭证影像进行几何校正的步骤包括:
以第一采样点为中心,在参考图幅中拷贝第一采样区域;
以第二采样点为中心,在报销凭证影像中拷贝第二采样区域;
将所述第一采样区域和所述第二采样区域输入同一图像-数值转换模型,得到两个目标值;
计算两个目标值之间的偏差率,标记偏差率小于预设的偏差阈值的第一采样区域和第二采样区域;
统计标记的第一采样区域和第二采样区域对应的第一采样点和第二采样点,根据统计到的第一采样点和第二采样点的位置关系确定坐标变换参数;
根据坐标变换参数对报销凭证影像进行几何校正。
上述内容对几何校正过程进行了具体的描述,其目的是将拍摄角度存在一定偏差的报销凭证影像转换为统一的标准图像,原理为:在报销凭证影像和参考图幅中确定对应的采样点,然后判断相应采样点附近的区域是否大致一致;剔除掉一些明显不同的采样点,最后根据留下的采样点确定一个转换关系,通过这个转换关系进行图像转换即可。这一过程在现有的图像处理软件中并不少见。
图3为财务报销数据处理方法的第二子流程框图,所述将所述存疑图像输入训练好的第二分类器,基于所述第二分类器对存疑图像进行特征识别,根据特征识别结果过滤存疑图像中的有效图像的步骤包括步骤S401至步骤S405:
步骤S401:在第二分类器加载特征识别模型和第二图像识别模型;
步骤S402:将所述存疑图像分别输入特征识别模型和第二图像识别模型,分别记录特征识别模型和第二图像识别模型的输出值;其中,存疑图像为第一标识值,有效图像为第二标识值;
步骤S403:实时比对同一存疑图像对应的第一标识值和第二标识值,标记第一标识值和第二标识值不同的存疑图像,并将所述存疑图像向人工端发送;
步骤S404:接收人工端的反馈信号,根据所述反馈信号生成特征识别模型和第二图像识别模型的准确度;
步骤S405:当第二图像识别模型的准确度大于特征识别模型的准确度时,在第二分类器仅加载第二图像识别模型。
步骤S401至步骤S405对第二分类器的工作流程进行了具体的描述,其重点在于,通过准确度实现特征识别模型和第二图像识别模型的竞争关系。
作为本发明技术方案的一个优选实施例,所述特征识别模型的工作步骤包括:
根据预设的区域标记对存疑图像进行切分,得到子区域;所述区域标记包括信息区域和标识区域;
对标识区域进行轮廓识别,根据轮廓识别结果标记轮廓像素点;
遍历所述轮廓像素点,计算不同轮廓像素点处的轮廓曲率;
对所述信息区域进行文字识别,得到信息文本;
根据所述轮廓曲率和所述信息文本识别存疑图像中的有效图像。
对于报销凭证影像来说,有两部分内容比较重要,一是盖章信息,二是文本信息,盖章信息相比较于文本信息,更容易识别,因此,先对盖章信息进行识别,然后再对文本信息进行识别。其中,区域标记是预设的,对于标准化的报销凭证来说,文本信息和盖章信息的位置大都是固定的,区域标记的设置过程并不困难。
进一步的,所述遍历所述轮廓像素点,计算不同轮廓像素点处的轮廓曲率的步骤包括:
根据预设的遍历方向以所述轮廓像素点为中心,根据预设的半径截取轮廓;
根据截取到的轮廓计算轮廓曲率,得到轮廓曲率组。
具体的,所述根据所述轮廓曲率和所述信息文本识别存疑图像中的有效图像的步骤包括:
读取预存的标准轮廓,计算得到标准轮廓的参考曲率组;
读取所述轮廓曲率组,将所述轮廓曲率组与所述参考曲率组进行比对,根据比对结果筛选存疑图像中的预存图像;
读取预存图像对应的信息文本,对所述信息文本进行内容识别,根据内容识别结果在预存图像中提取有效图像。
上述内容对具体的评价标准进行了具体的限定,首先,计算轮廓曲率,轮廓上不同点的曲率是不同的,因此,需要依次计算,得到一个曲率组,由于曲率组中的数据较高,通过曲率组对盖章信息的检测准确度极高。
对于信息文本的识别过程,可以借助现有的识别技术,提取一些重要的部分,然后再进行比对即可,比如,具备唯一性的编号文本。
实施例2
图4为财务报销数据处理系统的组成结构框图,本发明实施例中,一种财务报销数据处理系统,所述处理系统10包括:
影像获取模块11,用于接收用户发送的报销申请,根据预设的信息模板获取含有分类标签的报销凭证影像,根据分类标签查询参考图幅,基于所述参考图幅对所述报销凭证影像进行几何校正;
第一识别模块12,用于将几何校正后的报销凭证影像输入训练好的第一分类器,基于第一分类器对所述报销凭证影像进行内容识别,根据内容识别结果确定存疑图像;
样本库更新模块13,用于将所述存疑图像上传至人工端并接收人工标记结果,根据人工标记结果将存疑图像分别存储至第一样本库和第二样本库;
第二识别模块14,用于将所述存疑图像输入训练好的第二分类器,基于所述第二分类器对存疑图像进行特征识别,根据特征识别结果过滤存疑图像中的有效图像;
其中,所述第一分类器包括训练好的第一图像识别模型,所述第一图像识别模型为基于第一样本库训练得到的神经网络模型;
所述第二分类器包括训练好的特征识别模型和训练好的第二图像识别模型,所述第二图像识别模型为基于第二样本库训练得到的神经网络模型;所述特征识别模型与所述第二图像识别模型为竞争关系。
图5为财务报销数据处理系统中影像获取模块11的组成结构框图,所述影像获取模块11包括:
采样点确定单元111,用于根据分类标签提取参考图幅,根据预设的采样频率在所述参考图幅中确定第一采样点;
向量确定单元112,用于比对所述参考图幅和所述报销凭证影像,确定至少两个不共线的映射向量;
采样点映射单元113,根据所述映射向量和参考图幅中的采样点确定报销凭证影像中的第二采样点;
处理执行单元114,用于根据所述第一采样点和所述第二采样点确定坐标变换参数,根据坐标变换参数对报销凭证影像进行几何校正。
具体的,所述处理执行单元114包括:
第一拷贝子单元,用于以第一采样点为中心,在参考图幅中拷贝第一采样区域;
第二拷贝子单元,用于以第二采样点为中心,在报销凭证影像中拷贝第二采样区域;
转换子单元,用于将所述第一采样区域和所述第二采样区域输入同一图像-数值转换模型,得到两个目标值;
计算子单元,用于计算两个目标值之间的偏差率,标记偏差率小于预设的偏差阈值的第一采样区域和第二采样区域;
统计子单元,用于统计标记的第一采样区域和第二采样区域对应的第一采样点和第二采样点,根据统计到的第一采样点和第二采样点的位置关系确定坐标变换参数;
校正子单元,用于根据坐标变换参数对报销凭证影像进行几何校正。
所述财务报销数据处理方法所能实现的功能均由计算机设备完成,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述程序代码由所述一个或多个处理器加载并执行以实现所述财务报销数据处理方法。
处理器从存储器中逐条取出指令、分析指令,然后根据指令要求完成相应操作,产生一系列控制命令,使计算机各部分自动、连续并协调动作,成为一个有机的整体,实现程序的输入、数据的输入以及运算并输出结果,这一过程中产生的算术运算或逻辑运算均由运算器完成;所述存储器包括只读存储器(Read-Only Memory,ROM),所述只读存储器用于存储计算机程序,所述存储器外部设有保护装置。
示例性的,计算机程序可以被分割成一个或多个模块,一个或者多个模块被存储在存储器中,并由处理器执行,以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在终端设备中的执行过程。
本领域技术人员可以理解,上述服务设备的描述仅仅是示例,并不构成对终端设备的限定,可以包括比上述描述更多或更少的部件,或者组合某些部件,或者不同的部件,例如可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,上述处理器是上述终端设备的控制中心,利用各种接口和线路连接整个用户终端的各个部分。
上述存储器可用于存储计算机程序和/或模块,上述处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现上述终端设备的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如信息采集模板展示功能、产品信息发布功能等)等;存储数据区可存储根据泊位状态显示系统的使用所创建的数据(比如不同产品种类对应的产品信息采集模板、不同产品提供方需要发布的产品信息等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取介质中。基于这样的理解,本发明实现上述实施例系统中的全部或部分模块/单元,也可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于计算机可读介质中,该计算机程序在被处理器执行时,可实现上述各个系统实施例的功能。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (5)
1.一种财务报销数据处理方法,其特征在于,所述处理方法包括:
接收用户发送的报销申请,根据预设的信息模板获取含有分类标签的报销凭证影像,根据分类标签查询参考图幅,基于所述参考图幅对所述报销凭证影像进行几何校正;
将几何校正后的报销凭证影像输入训练好的第一分类器,基于第一分类器对所述报销凭证影像进行内容识别,根据内容识别结果确定存疑图像;
将所述存疑图像上传至人工端并接收人工标记结果,根据人工标记结果将存疑图像分别存储至第一样本库和第二样本库;所述第一样本库中的图像为有效图像,所述有效图像为有效的报销凭证影像,所述第二样本库中的图像为无效图像,所述无效图像为无效的报销凭证影像;
将所述存疑图像输入训练好的第二分类器,基于所述第二分类器对存疑图像进行特征识别,根据特征识别结果过滤存疑图像中的有效图像;
其中,所述第一分类器包括训练好的第一图像识别模型,所述第一图像识别模型为基于第一样本库训练得到的神经网络模型;
所述第二分类器包括训练好的特征识别模型和训练好的第二图像识别模型,所述第二图像识别模型为基于第二样本库训练得到的神经网络模型;所述特征识别模型与所述第二图像识别模型为竞争关系;
所述根据分类标签查询参考图幅,基于所述参考图幅对所述报销凭证影像进行几何校正的步骤包括:
根据分类标签提取参考图幅,根据预设的采样频率在所述参考图幅中确定第一采样点;
比对所述参考图幅和所述报销凭证影像,确定至少两个不共线的映射向量;
根据所述映射向量和参考图幅中的采样点确定报销凭证影像中的第二采样点;
根据所述第一采样点和所述第二采样点确定坐标变换参数,根据坐标变换参数对报销凭证影像进行几何校正;
所述根据所述第一采样点和所述第二采样点确定坐标变换参数,根据坐标变换参数对报销凭证影像进行几何校正的步骤包括:
以第一采样点为中心,在参考图幅中拷贝第一采样区域;
以第二采样点为中心,在报销凭证影像中拷贝第二采样区域;
将所述第一采样区域和所述第二采样区域输入同一图像-数值转换模型,得到两个目标值;
计算两个目标值之间的偏差率,标记偏差率小于预设的偏差阈值的第一采样区域和第二采样区域;
统计标记的第一采样区域和第二采样区域对应的第一采样点和第二采样点,根据统计到的第一采样点和第二采样点的位置关系确定坐标变换参数;
根据坐标变换参数对报销凭证影像进行几何校正;
所述将所述存疑图像输入训练好的第二分类器,基于所述第二分类器对存疑图像进行特征识别,根据特征识别结果过滤存疑图像中的有效图像的步骤包括:
在第二分类器加载特征识别模型和第二图像识别模型;
将所述存疑图像分别输入特征识别模型和第二图像识别模型,分别记录特征识别模型和第二图像识别模型的输出值;其中,存疑图像为第一标识值,有效图像为第二标识值;
实时比对同一存疑图像对应的两个输出值,标记两个输出值不同的存疑图像,并将所述存疑图像向人工端发送;
接收人工端的反馈信号,根据所述反馈信号生成特征识别模型和第二图像识别模型的准确度;
当第二图像识别模型的准确度大于特征识别模型的准确度时,在第二分类器仅加载第二图像识别模型。
2.根据权利要求1所述的财务报销数据处理方法,其特征在于,所述特征识别模型的工作步骤包括:
根据预设的区域标记对存疑图像进行切分,得到子区域;所述区域标记包括信息区域和标识区域;
对标识区域进行轮廓识别,根据轮廓识别结果标记轮廓像素点;
遍历所述轮廓像素点,计算不同轮廓像素点处的轮廓曲率;
对所述信息区域进行文字识别,得到信息文本;
根据所述轮廓曲率和所述信息文本识别存疑图像中的有效图像。
3.根据权利要求2所述的财务报销数据处理方法,其特征在于,所述遍历所述轮廓像素点,计算不同轮廓像素点处的轮廓曲率的步骤包括:
根据预设的遍历方向以所述轮廓像素点为中心,根据预设的半径截取轮廓;
根据截取到的轮廓计算轮廓曲率,得到轮廓曲率组。
4.根据权利要求3所述的财务报销数据处理方法,其特征在于,所述根据所述轮廓曲率和所述信息文本识别存疑图像中的有效图像的步骤包括:
读取预存的标准轮廓,计算得到标准轮廓的参考曲率组;
读取所述轮廓曲率组,将所述轮廓曲率组与所述参考曲率组进行比对,根据比对结果筛选存疑图像中的预存图像;
读取预存图像对应的信息文本,对所述信息文本进行内容识别,根据内容识别结果在预存图像中提取有效图像。
5.一种财务报销数据处理系统,其特征在于,所述处理系统包括:
影像获取模块,用于接收用户发送的报销申请,根据预设的信息模板获取含有分类标签的报销凭证影像,根据分类标签查询参考图幅,基于所述参考图幅对所述报销凭证影像进行几何校正;
第一识别模块,用于将几何校正后的报销凭证影像输入训练好的第一分类器,基于第一分类器对所述报销凭证影像进行内容识别,根据内容识别结果确定存疑图像;
样本库更新模块,用于将所述存疑图像上传至人工端并接收人工标记结果,根据人工标记结果将存疑图像分别存储至第一样本库和第二样本库;所述第一样本库中的图像为有效图像,所述有效图像为有效的报销凭证影像,所述第二样本库中的图像为无效图像,所述无效图像为无效的报销凭证影像;
第二识别模块,用于将所述存疑图像输入训练好的第二分类器,基于所述第二分类器对存疑图像进行特征识别,根据特征识别结果过滤存疑图像中的有效图像;
其中,所述第一分类器包括训练好的第一图像识别模型,所述第一图像识别模型为基于第一样本库训练得到的神经网络模型;
所述第二分类器包括训练好的特征识别模型和训练好的第二图像识别模型,所述第二图像识别模型为基于第二样本库训练得到的神经网络模型;所述特征识别模型与所述第二图像识别模型为竞争关系;
所述影像获取模块包括:
采样点确定单元,用于根据分类标签提取参考图幅,根据预设的采样频率在所述参考图幅中确定第一采样点;
向量确定单元,用于比对所述参考图幅和所述报销凭证影像,确定至少两个不共线的映射向量;
采样点映射单元,根据所述映射向量和参考图幅中的采样点确定报销凭证影像中的第二采样点;
处理执行单元,用于根据所述第一采样点和所述第二采样点确定坐标变换参数,根据坐标变换参数对报销凭证影像进行几何校正;
所述处理执行单元包括:
第一拷贝子单元,用于以第一采样点为中心,在参考图幅中拷贝第一采样区域;
第二拷贝子单元,用于以第二采样点为中心,在报销凭证影像中拷贝第二采样区域;
转换子单元,用于将所述第一采样区域和所述第二采样区域输入同一图像-数值转换模型,得到两个目标值;
计算子单元,用于计算两个目标值之间的偏差率,标记偏差率小于预设的偏差阈值的第一采样区域和第二采样区域;
统计子单元,用于统计标记的第一采样区域和第二采样区域对应的第一采样点和第二采样点,根据统计到的第一采样点和第二采样点的位置关系确定坐标变换参数;
校正子单元,用于根据坐标变换参数对报销凭证影像进行几何校正;
所述将所述存疑图像输入训练好的第二分类器,基于所述第二分类器对存疑图像进行特征识别,根据特征识别结果过滤存疑图像中的有效图像的内容包括:
在第二分类器加载特征识别模型和第二图像识别模型;
将所述存疑图像分别输入特征识别模型和第二图像识别模型,分别记录特征识别模型和第二图像识别模型的输出值;其中,存疑图像为第一标识值,有效图像为第二标识值;
实时比对同一存疑图像对应的两个输出值,标记两个输出值不同的存疑图像,并将所述存疑图像向人工端发送;
接收人工端的反馈信号,根据所述反馈信号生成特征识别模型和第二图像识别模型的准确度;
当第二图像识别模型的准确度大于特征识别模型的准确度时,在第二分类器仅加载第二图像识别模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210565757.XA CN114648776B (zh) | 2022-05-24 | 2022-05-24 | 一种财务报销数据处理方法和处理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210565757.XA CN114648776B (zh) | 2022-05-24 | 2022-05-24 | 一种财务报销数据处理方法和处理系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114648776A CN114648776A (zh) | 2022-06-21 |
CN114648776B true CN114648776B (zh) | 2022-09-02 |
Family
ID=81996687
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210565757.XA Active CN114648776B (zh) | 2022-05-24 | 2022-05-24 | 一种财务报销数据处理方法和处理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114648776B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116186543B (zh) * | 2023-03-01 | 2023-08-22 | 深圳崎点数据有限公司 | 一种基于图像识别的财务数据处理系统及方法 |
CN116563048B (zh) * | 2023-07-05 | 2024-05-03 | 江西科技学院 | 一种财务报销方法、系统及计算机 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112801086A (zh) * | 2021-03-30 | 2021-05-14 | 中国建设银行股份有限公司 | 凭证分类的方法、装置、电子设备和存储介质 |
CN114187082A (zh) * | 2021-12-08 | 2022-03-15 | 谭小语 | 一种财务记账及报销方法及系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050010452A1 (en) * | 2003-06-27 | 2005-01-13 | Lusen William D. | System and method for processing transaction records suitable for healthcare and other industries |
CN105678612A (zh) * | 2015-12-30 | 2016-06-15 | 远光软件股份有限公司 | 移动端原始凭证电子化智能填单系统及方法 |
CN106096667B (zh) * | 2016-07-26 | 2017-11-10 | 江苏鸿信系统集成有限公司 | 基于svm的票据图像分类方法 |
CN110378343A (zh) * | 2019-07-26 | 2019-10-25 | 中国工商银行股份有限公司 | 一种财务报销数据处理方法、装置及系统 |
TW202207122A (zh) * | 2020-08-12 | 2022-02-16 | 水滴信用股份有限公司 | 電子發票證明聯辨識之方法及其發票辨識系統 |
CN112085029A (zh) * | 2020-08-31 | 2020-12-15 | 浪潮通用软件有限公司 | 一种发票识别的方法、设备及介质 |
-
2022
- 2022-05-24 CN CN202210565757.XA patent/CN114648776B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112801086A (zh) * | 2021-03-30 | 2021-05-14 | 中国建设银行股份有限公司 | 凭证分类的方法、装置、电子设备和存储介质 |
CN114187082A (zh) * | 2021-12-08 | 2022-03-15 | 谭小语 | 一种财务记账及报销方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114648776A (zh) | 2022-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114648776B (zh) | 一种财务报销数据处理方法和处理系统 | |
WO2021051885A1 (zh) | 目标标注的方法及装置 | |
CN109886928B (zh) | 一种目标细胞标记方法、装置、存储介质及终端设备 | |
CN108427959A (zh) | 基于图像识别的机台状态采集方法及系统 | |
Caldeira et al. | Industrial optical character recognition system in printing quality control of hot-rolled coils identification | |
CN111444795A (zh) | 票据数据识别方法、电子设备、存储介质及装置 | |
WO2021232670A1 (zh) | 一种pcb元件识别方法及装置 | |
CN110942063B (zh) | 证件文字信息获取方法、装置以及电子设备 | |
CN113158895B (zh) | 票据识别方法、装置、电子设备及存储介质 | |
CN113903024A (zh) | 一种手写票据数值信息识别方法、系统、介质及装置 | |
CN111881923B (zh) | 一种基于特征匹配的票据要素提取方法 | |
CN114581442B (zh) | 用于mes系统的产品检测方法及装置 | |
CN114414935A (zh) | 基于大数据的配电网馈线故障区域自动化定位方法和系统 | |
CN111858977B (zh) | 票据信息采集方法、装置、计算机设备和存储介质 | |
CN112381153A (zh) | 票据分类的方法、装置和计算机设备 | |
CN113901768A (zh) | 一种标准文件生成方法、装置、设备及存储介质 | |
CN115471858A (zh) | 一种用于票据管理的数据处理方法及装置 | |
CN114863129A (zh) | 仪表数值分析方法、装置、设备及存储介质 | |
CN114511866A (zh) | 数据稽核方法、装置、系统、处理器及机器可读存储介质 | |
CN118115760A (zh) | 一种基于病害特征匹配的道路病害时空追溯方法及系统 | |
CN113657162A (zh) | 一种基于深度学习的票据ocr识别方法 | |
CN112508000A (zh) | 一种用于ocr图像识别模型训练数据生成的方法及设备 | |
CN112396057A (zh) | 一种字符识别方法、装置及电子设备 | |
CN115734072A (zh) | 一种工业自动化设备的物联网集中监控方法及装置 | |
US11386686B2 (en) | Method and apparatus to estimate image translation and scale for alignment of forms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |