CN117809325A - 一种全量发票查验认证管理方法及系统 - Google Patents
一种全量发票查验认证管理方法及系统 Download PDFInfo
- Publication number
- CN117809325A CN117809325A CN202410226727.5A CN202410226727A CN117809325A CN 117809325 A CN117809325 A CN 117809325A CN 202410226727 A CN202410226727 A CN 202410226727A CN 117809325 A CN117809325 A CN 117809325A
- Authority
- CN
- China
- Prior art keywords
- invoice
- data
- verification
- determining
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007726 management method Methods 0.000 title claims abstract description 31
- 238000007781 pre-processing Methods 0.000 claims abstract description 73
- 238000007689 inspection Methods 0.000 claims abstract description 40
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000012795 verification Methods 0.000 claims description 95
- 238000012545 processing Methods 0.000 claims description 23
- 238000004422 calculation algorithm Methods 0.000 claims description 22
- 238000005516 engineering process Methods 0.000 claims description 14
- 238000012015 optical character recognition Methods 0.000 claims description 14
- 238000012502 risk assessment Methods 0.000 claims description 14
- 230000002159 abnormal effect Effects 0.000 claims description 12
- 238000013058 risk prediction model Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 abstract description 14
- 238000010200 validation analysis Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000002146 bilateral effect Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000003708 edge detection Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000013210 evaluation model Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000003706 image smoothing Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004806 packaging method and process Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Landscapes
- Character Input (AREA)
Abstract
本发明提出一种全量发票查验认证管理方法及系统,方法包括:获取发票图像数据;从预设的发票查验模型集中确定对应的第一发票查验模型,并根据所述第一发票查验模型,确定需要查验的查验对象;根据所述查验对象确定预处理模式,并根据所述预处理模式对所述发票图像数据进行预处理,得到第一发票图像数据;根据所述查验对象,从所第一发票图像数据中提取出第一文本数据;将所述第一文本数据与相应的发票信息数据库进行比对,得到第一认证结果。通过本发明的方案,不仅可以对不同格式的发票进行查验,而且查验过程智能高效。
Description
技术领域
本发明涉及认证管理技术领域,具体涉及一种全量发票查验认证管理方法及系统。
背景技术
随着经济活动的繁荣发展,发票查验的需求越来越大;而不同的行业、不同的地方使用了不同格式的发票,这导致对于发票的查验变得复杂。而现有的发票查验系统不够智能与全面,不能满足目前的查验需求。
发明内容
本发明正是基于上述问题,提出了一种全量发票查验认证管理方法及系统,通过本发明的方案,不仅可以对不同格式的发票进行查验,而且查验过程智能高效。
有鉴于此,本发明的一方面提出了一种全量发票查验认证管理方法,包括:获取发票图像数据;
从预设的发票查验模型集中确定对应的第一发票查验模型,并根据所述第一发票查验模型,确定需要查验的查验对象;
根据所述查验对象确定预处理模式,并根据所述预处理模式对所述发票图像数据进行预处理,得到第一发票图像数据;
根据所述查验对象,从所第一发票图像数据中提取出第一文本数据;
将所述第一文本数据与相应的发票信息数据库进行比对,得到第一认证结果。
可选地,所述发票查验模型集的生成方法包括:
获取不同种类的历史发票数据按种类构成多个发票数据集;
分别对多个所述发票数据集进行预处理,得到多个第一发票数据集;
分别从多个所述第一发票数据集中提取文本特征和图像特征;
根据所述文本特征和所述图像特征的复杂度和所述第一发票数据集的数据量大小,确定多个第一模型;
根据所述文本特征和所述图像特征,构建对应的验证集数据;
使用所述文本特征和所述图像特征分别对多个所述第一模型进行训练,得到多个第一查验模型;
利用所述验证集数据对多个所述第一查验模型进行验证,并根据验证结果对多个所述第一查验模型进行优化和改进;
获取新的发票数据,通过将新的发票数据分别输入到多个所述第一查验模型中,评估多个所述第一查验模型对不同格式发票的验证能力;
根据评估结果,优化多个所述第一查验模型得到所述发票查验模型集。
可选地,所述从预设的发票查验模型集中确定对应的第一发票查验模型,并根据所述第一发票查验模型,确定需要查验的查验对象的步骤,包括:
将所述发票数据集分成正常发票数据集和异常发票数据集;
获取发票相关规定数据以确定发票风险评估指标体系;
根据所述正常发票数据集、所述异常发票数据集和所述发票风险评估指标体系,结合人工智能算法,生成发票风险预测模型;
根据所述发票图像数据和所述发票风险预测模型确定所述发票图像数据对应的第一发票的第一风险等级;
根据所述第一风险等级从所述发票查验模型集确定对应的第一发票查验模型;
根据所述第一发票查验模型确定所述查验对象。
可选地,所述根据所述查验对象确定预处理模式,并根据所述预处理模式对所述发票图像数据进行预处理,得到第一发票图像数据的步骤,包括:
根据所述查验对象确定对应的发票元素;
根据所述发票元素,确定所述预处理模式;
根据所述预处理模式,选择对应的第一图像处理算法;
利用所述第一图像处理算法,对所述发票图像数据进行处理得到所述第一发票图像数据。
可选地,所述根据所述查验对象,从所第一发票图像数据中提取出第一文本数据的步骤,包括:
采用光学字符识别技术,对所第一发票图像数据进行文字区域检测和识别,输出所有文本内容;
根据所述查验对象从所述文本内容中提取文本数据;
将提取的所述文本数据按发票字段分类,构建成结构化的第一文本数据。
本发明的另一方面提供一种全量发票查验认证管理系统,包括:服务器和发票信息数据库;
所述服务器被配置为:
获取发票图像数据;
从预设的发票查验模型集中确定对应的第一发票查验模型,并根据所述第一发票查验模型,确定需要查验的查验对象;
根据所述查验对象确定预处理模式,并根据所述预处理模式对所述发票图像数据进行预处理,得到第一发票图像数据;
根据所述查验对象,从所第一发票图像数据中提取出第一文本数据;
将所述第一文本数据与相应的所述发票信息数据库进行比对,得到第一认证结果。
可选地,在所述发票查验模型集的生成方法中,所述服务器被配置为:
获取不同种类的历史发票数据按种类构成多个发票数据集;
分别对多个所述发票数据集进行预处理,得到多个第一发票数据集;
分别从多个所述第一发票数据集中提取文本特征;
根据所述文本特征和所述图像特征的复杂度和所述第一发票数据集的数据量大小,确定多个第一模型;
根据所述文本特征和所述图像特征,构建对应的验证集数据;
使用所述文本特征和所述图像特征分别对多个所述第一模型进行训练,得到多个第一查验模型;
利用所述验证集数据对多个所述第一查验模型进行验证,并根据验证结果对多个所述第一查验模型进行优化和改进;
获取新的发票数据,通过将新的发票数据分别输入到多个所述第一查验模型中,评估多个所述第一查验模型对不同格式发票的验证能力;
根据评估结果,优化多个所述第一查验模型得到所述发票查验模型集。
可选地,所述从预设的发票查验模型集中确定对应的第一发票查验模型,并根据所述第一发票查验模型,确定需要查验的查验对象的步骤,所述服务器被配置为:
将所述发票数据集分成正常发票数据集和异常发票数据集;
获取发票相关规定数据以确定发票风险评估指标体系;
根据所述正常发票数据集、所述异常发票数据集和所述发票风险评估指标体系,结合人工智能算法,生成发票风险预测模型;
根据所述发票图像数据和所述发票风险预测模型确定所述发票图像数据对应的第一发票的第一风险等级;
根据所述第一风险等级从所述发票查验模型集确定对应的第一发票查验模型;
根据所述第一发票查验模型确定所述查验对象。
可选地,所述根据所述查验对象确定预处理模式,并根据所述预处理模式对所述发票图像数据进行预处理,得到第一发票图像数据的步骤,所述服务器被配置为:
根据所述查验对象确定对应的发票元素;
根据所述发票元素,确定所述预处理模式;
根据所述预处理模式,选择对应的第一图像处理算法;
利用所述第一图像处理算法,对所述发票图像数据进行处理得到所述第一发票图像数据。
可选地,所述根据所述查验对象,从所第一发票图像数据中提取出第一文本数据的步骤,所述服务器被配置为:
采用光学字符识别技术,对所第一发票图像数据进行文字区域检测和识别,输出所有文本内容;
根据所述查验对象从所述文本内容中提取文本数据;
将提取的所述文本数据按发票字段分类,构建成结构化的第一文本数据。
采用本发明的技术方案,全量发票查验认证管理方法,包括:获取发票图像数据;从预设的发票查验模型集中确定对应的第一发票查验模型,并根据所述第一发票查验模型,确定需要查验的查验对象;根据所述查验对象确定预处理模式,并根据所述预处理模式对所述发票图像数据进行预处理,得到第一发票图像数据;根据所述查验对象,从所第一发票图像数据中提取出第一文本数据;将所述第一文本数据与相应的发票信息数据库进行比对,得到第一认证结果。通过本发明的方案,不仅可以对不同格式的发票进行查验,而且查验过程智能高效。
附图说明
图1是本发明一个实施例提供的全量发票查验认证管理方法的流程图;
图2是本发明一个实施例提供的全量发票查验认证管理系统的示意框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
下面参照图1至图2来描述根据本发明一些实施方式提供的一种全量发票查验认证管理方法及系统。
如图1所示,本发明一个实施例提供一种全量发票查验认证管理方法,包括:获取发票图像数据(对于纸质发票,可以使用扫描仪或相机进行图像采集;对于电子发票,可以直接获取相应的电子文件);
从预设的发票查验模型集中确定对应的第一发票查验模型,并根据所述第一发票查验模型,确定需要查验的查验对象;
根据所述查验对象确定预处理模式,并根据所述预处理模式对所述发票图像数据进行预处理(以优化后续的字符识别过程,这包括图像去噪、调整亮度和对比度、图像平滑等操作,以提高字符识别的准确性),得到第一发票图像数据;
根据所述查验对象,从所第一发票图像数据中提取出第一文本数据(OCR技术可以识别图像中的文字并将其转换为可编辑和可搜索的文本,通常涉及文字分割、特征提取和文本识别等算法);
将所述第一文本数据与相应的发票信息数据库进行比对(数据库中存储了已认证的发票信息,包括发票号码、日期、金额、供应商信息等;比对过程可以使用文本匹配算法,如字符串匹配或模糊匹配,以验证发票的真实性和准确性),得到第一认证结果(根据比对结果,系统可以输出验证结果,指示该发票是否合法和准确。如果发票通过验证,可以将其标记为已认证,并进行相应的记录和处理。如果发票未通过验证,可以触发警报或进一步的人工审查流程)。
可以理解的是,按照行业特点和纳税人的生产经营项目可以将发票分为以下两大类:
第一类是增值税发票,包含:1.全面数字化电子发票(简称全电发票);2.增值税专用发票(含增值税电子专用发票);3.增值税普通发票(含电子普通发票、卷式发票、通行费发票等);4.机动车销售统一发票;5.二手车销售统一发票;等等。
第二类是专业发票,包含:1.铁路行业发票(比如火车票);2.航空运输电子客票行程单(比如出租车票、机票、客运票);3.通用定额发票;4.通用机打发票;等等。
此外还有海关专用缴款书、手撕发票、货物清单、医疗票这些不太常见的发票。
采用该实施例的技术方案,通过获取发票图像数据;从预设的发票查验模型集中确定对应的第一发票查验模型,并根据所述第一发票查验模型,确定需要查验的查验对象;根据所述查验对象确定预处理模式,并根据所述预处理模式对所述发票图像数据进行预处理,得到第一发票图像数据;根据所述查验对象,从所第一发票图像数据中提取出第一文本数据;将所述第一文本数据与相应的发票信息数据库进行比对,得到第一认证结果。通过本发明的方案,不仅可以对不同格式的发票进行查验,而且查验过程智能高效。
在本发明一些可能的实施方式中,所述发票查验模型集的生成方法包括:
获取不同种类的历史发票数据按种类构成多个发票数据集;
分别对多个所述发票数据集进行预处理(包括将发票图像转换为数字表示形式,例如使用光学字符识别技术将发票图像中的文本提取出来,还可以对提取的文本进行清洗和标准化,以确保一致性和准确性),得到多个第一发票数据集;
分别从多个所述第一发票数据集中提取文本特征(如发票代码、发票号码、开票日期、金额等)和图像特征(如发票布局、字体、颜色等);
根据所述文本特征和所述图像特征的复杂度和所述第一发票数据集的数据量大小,确定多个第一模型(可以考虑使用机器学习方法,如支持向量机(SVM)、决策树、随机森林等,或者使用深度学习方法,如卷积神经网络(CNN)、循环神经网络(RNN)等);
根据所述文本特征和所述图像特征,构建对应的验证集数据;
使用所述文本特征和所述图像特征分别对多个所述第一模型进行训练,得到多个第一查验模型(在训练过程中,可以使用交叉验证等技术来评估模型的性能和调优参数);
利用所述验证集数据对多个所述第一查验模型进行验证,并根据验证结果对多个所述第一查验模型进行优化和改进(以提高验证模型的准确性和鲁棒性);
获取新的发票数据,通过将新的发票数据分别输入到多个所述第一查验模型中,评估多个所述第一查验模型对不同格式发票的验证能力(评估模型的指标可以包括准确率、召回率、精确率等);
根据评估结果,优化多个所述第一查验模型得到所述发票查验模型集。
在本实施例中,还包括:将训练好的发票查验模型部署到实际应用中,这可以是一个在线的发票验证系统,供用户上传发票进行验证,或者是集成到现有的企业系统中,自动对发票进行验证。确保模型的部署与实际应用场景相匹配,并具备高效、准确和安全的性能。
在本实施例中,为了应对发票格式和布局的多样性,可以构建一个包含各种类型和样式的发票数据集,这样可以确保系统在处理不同格式和布局的发票时具有较好的适应性。
在本发明一些可能的实施方式中,所述从预设的发票查验模型集中确定对应的第一发票查验模型,并根据所述第一发票查验模型,确定需要查验的查验对象的步骤,包括:
将所述发票数据集分成正常发票数据集和异常发票数据集;
获取发票相关规定数据(如相关的法规、政策等)以确定发票风险评估指标体系(如发票金额、开票方信誉、购销企业匹配度等);
根据所述正常发票数据集、所述异常发票数据集和所述发票风险评估指标体系,结合人工智能算法,生成发票风险预测模型;
根据所述发票图像数据和所述发票风险预测模型确定所述发票图像数据对应的第一发票的第一风险等级;
根据所述第一风险等级从所述发票查验模型集确定对应的第一发票查验模型;
根据所述第一发票查验模型确定所述查验对象(如发票代码、发票号码、开票日期、金额、防伪标识、开票方等)。
在本实施例中,可以充分利用机器学习的力量,自动化进行发票风险评估,使查验资源更集中在可疑发票上,从而提高发票管理的智能化水平。
在本发明一些可能的实施方式中,所述根据所述查验对象确定预处理模式,并根据所述预处理模式对所述发票图像数据进行预处理,得到第一发票图像数据的步骤,包括:
根据所述查验对象确定对应的发票元素(如发票整体、文字、数字、防伪标记等区域);
根据所述发票元素,确定所述预处理模式(如,若需要识别文本,则进行归一化、去噪、锐化等提高可读性的预处理;若需要识别整张发票,则进行裁剪、矫正、增强对比度来突出发票内容);
根据所述预处理模式,选择对应的第一图像处理算法(如双边滤波去噪、Sobel边缘检测等);
利用所述第一图像处理算法,对所述发票图像数据进行处理得到所述第一发票图像数据。
在本实施例中,还包括:评估预处理效果,分析识别准确率,针对失败案例调整优化预处理参数和流程,提高增强质量;将预处理流程封装为函数服务,输入原始发票图像,输出经过预处理的标准化发票图像。便于接入到后续的识别模型中。
在本实施例中,可以根据不同查验需求设计定制化的发票预处理方案,提高后续识别和验证的质量,使整个发票管理系统协同合作。
在本发明一些可能的实施方式中,所述根据所述查验对象,从所第一发票图像数据中提取出第一文本数据的步骤,包括:
采用光学字符识别技术,对所第一发票图像数据进行文字区域检测和识别,输出所有文本内容;
根据所述查验对象从所述文本内容中提取文本数据(即分析查验对象对应的需要验证的文本字段,比如发票号码、金额、商品名称等;然后从OCR识别结果中,用字符串匹配的方式提取出需要的文本内容);
将提取的所述文本数据按发票字段分类,构建成结构化的第一文本数据。
在本实施例中,通过OCR和文本处理技术,可以自动高效的从发票图像中提取出结构化的文本数据,为后续的发票验证提供数据支持。
请参见图2,本发明另一实施例提供一种全量发票查验认证管理系统,包括:服务器和发票信息数据库;
所述服务器被配置为:
获取发票图像数据(对于纸质发票,可以使用扫描仪或相机进行图像采集;对于电子发票,可以直接获取相应的电子文件);
从预设的发票查验模型集中确定对应的第一发票查验模型,并根据所述第一发票查验模型,确定需要查验的查验对象;
根据所述查验对象确定预处理模式,并根据所述预处理模式对所述发票图像数据进行预处理(以优化后续的字符识别过程,这包括图像去噪、调整亮度和对比度、图像平滑等操作,以提高字符识别的准确性),得到第一发票图像数据;
根据所述查验对象,从所第一发票图像数据中提取出第一文本数据(OCR技术可以识别图像中的文字并将其转换为可编辑和可搜索的文本,通常涉及文字分割、特征提取和文本识别等算法);
将所述第一文本数据与相应的所述发票信息数据库进行比对(数据库中存储了已认证的发票信息,包括发票号码、日期、金额、供应商信息等;比对过程可以使用文本匹配算法,如字符串匹配或模糊匹配,以验证发票的真实性和准确性),得到第一认证结果(根据比对结果,系统可以输出验证结果,指示该发票是否合法和准确。如果发票通过验证,可以将其标记为已认证,并进行相应的记录和处理。如果发票未通过验证,可以触发警报或进一步的人工审查流程)。
可以理解的是,按照行业特点和纳税人的生产经营项目可以将发票分为以下两大类:
第一类是增值税发票,包含:1.全面数字化电子发票(简称全电发票);2.增值税专用发票(含增值税电子专用发票);3.增值税普通发票(含电子普通发票、卷式发票、通行费发票等);4.机动车销售统一发票;5.二手车销售统一发票;等等。
第二类是专业发票,包含:1.铁路行业发票(比如火车票);2.航空运输电子客票行程单(比如出租车票、机票、客运票);3.通用定额发票;4.通用机打发票;等等。
此外还有海关专用缴款书、手撕发票、货物清单、医疗票这些不太常见的发票。
应当知道的是,图2所示的全量发票查验认证管理系统的框图仅作示意,其所示出的各模块的数量并不对本发明的保护范围进行限定。
在本发明一些可能的实施方式中,在所述发票查验模型集的生成方法中,所述服务器被配置为:
获取不同种类的历史发票数据按种类构成多个发票数据集;
分别对多个所述发票数据集进行预处理(包括将发票图像转换为数字表示形式,例如使用光学字符识别技术将发票图像中的文本提取出来,还可以对提取的文本进行清洗和标准化,以确保一致性和准确性),得到多个第一发票数据集;
分别从多个所述第一发票数据集中提取文本特征(如发票代码、发票号码、开票日期、金额等)和图像特征(如发票布局、字体、颜色等);
根据所述文本特征和所述图像特征的复杂度和所述第一发票数据集的数据量大小,确定多个第一模型(可以考虑使用机器学习方法,如支持向量机(SVM)、决策树、随机森林等,或者使用深度学习方法,如卷积神经网络(CNN)、循环神经网络(RNN)等);
根据所述文本特征和所述图像特征,构建对应的验证集数据;
使用所述文本特征和所述图像特征分别对多个所述第一模型进行训练,得到多个第一查验模型(在训练过程中,可以使用交叉验证等技术来评估模型的性能和调优参数);
利用所述验证集数据对多个所述第一查验模型进行验证,并根据验证结果对多个所述第一查验模型进行优化和改进(以提高验证模型的准确性和鲁棒性);
获取新的发票数据,通过将新的发票数据分别输入到多个所述第一查验模型中,评估多个所述第一查验模型对不同格式发票的验证能力(评估模型的指标可以包括准确率、召回率、精确率等);
根据评估结果,优化多个所述第一查验模型得到所述发票查验模型集。
在本实施例中,还包括:将训练好的发票查验模型部署到实际应用中,这可以是一个在线的发票验证系统,供用户上传发票进行验证,或者是集成到现有的企业系统中,自动对发票进行验证。确保模型的部署与实际应用场景相匹配,并具备高效、准确和安全的性能。
在本实施例中,为了应对发票格式和布局的多样性,可以构建一个包含各种类型和样式的发票数据集,这样可以确保系统在处理不同格式和布局的发票时具有较好的适应性。
在本发明一些可能的实施方式中,所述从预设的发票查验模型集中确定对应的第一发票查验模型,并根据所述第一发票查验模型,确定需要查验的查验对象的步骤,所述服务器被配置为:
将所述发票数据集分成正常发票数据集和异常发票数据集;
获取发票相关规定数据(如相关的法规、政策等)以确定发票风险评估指标体系(如发票金额、开票方信誉、购销企业匹配度等);
根据所述正常发票数据集、所述异常发票数据集和所述发票风险评估指标体系,结合人工智能算法,生成发票风险预测模型;
根据所述发票图像数据和所述发票风险预测模型确定所述发票图像数据对应的第一发票的第一风险等级;
根据所述第一风险等级从所述发票查验模型集确定对应的第一发票查验模型;
根据所述第一发票查验模型确定所述查验对象(如发票代码、发票号码、开票日期、金额、防伪标识、开票方等)。
在本实施例中,可以充分利用机器学习的力量,自动化进行发票风险评估,使查验资源更集中在可疑发票上,从而提高发票管理的智能化水平。
在本发明一些可能的实施方式中,所述根据所述查验对象确定预处理模式,并根据所述预处理模式对所述发票图像数据进行预处理,得到第一发票图像数据的步骤,所述服务器被配置为:
根据所述查验对象确定对应的发票元素(如发票整体、文字、数字、防伪标记等区域);
根据所述发票元素,确定所述预处理模式(如,若需要识别文本,则进行归一化、去噪、锐化等提高可读性的预处理;若需要识别整张发票,则进行裁剪、矫正、增强对比度来突出发票内容);
根据所述预处理模式,选择对应的第一图像处理算法(如双边滤波去噪、Sobel边缘检测等);
利用所述第一图像处理算法,对所述发票图像数据进行处理得到所述第一发票图像数据。
在本实施例中,还包括:评估预处理效果,分析识别准确率,针对失败案例调整优化预处理参数和流程,提高增强质量;将预处理流程封装为函数服务,输入原始发票图像,输出经过预处理的标准化发票图像。便于接入到后续的识别模型中。
在本实施例中,可以根据不同查验需求设计定制化的发票预处理方案,提高后续识别和验证的质量,使整个发票管理系统协同合作。
在本发明一些可能的实施方式中,所述根据所述查验对象,从所第一发票图像数据中提取出第一文本数据的步骤,所述服务器被配置为:
采用光学字符识别技术,对所第一发票图像数据进行文字区域检测和识别,输出所有文本内容;
根据所述查验对象从所述文本内容中提取文本数据(即分析查验对象对应的需要验证的文本字段,比如发票号码、金额、商品名称等;然后从OCR识别结果中,用字符串匹配的方式提取出需要的文本内容);
将提取的所述文本数据按发票字段分类,构建成结构化的第一文本数据。
在本实施例中,通过OCR和文本处理技术,可以自动高效的从发票图像中提取出结构化的文本数据,为后续的发票验证提供数据支持。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,可轻易想到变化或替换,均可作各种更动与修改,包含上述不同功能、实施步骤的组合,包含软件和硬件的实施方式,均在本发明的保护范围。
Claims (10)
1.一种全量发票查验认证管理方法,其特征在于,包括:
获取发票图像数据;
从预设的发票查验模型集中确定对应的第一发票查验模型,并根据所述第一发票查验模型,确定需要查验的查验对象;
根据所述查验对象确定预处理模式,并根据所述预处理模式对所述发票图像数据进行预处理,得到第一发票图像数据;
根据所述查验对象,从所第一发票图像数据中提取出第一文本数据;
将所述第一文本数据与相应的发票信息数据库进行比对,得到第一认证结果。
2.根据权利要求1所述的全量发票查验认证管理方法,其特征在于,所述发票查验模型集的生成方法包括:
获取不同种类的历史发票数据按种类构成多个发票数据集;
分别对多个所述发票数据集进行预处理,得到多个第一发票数据集;
分别从多个所述第一发票数据集中提取文本特征和图像特征;
根据所述文本特征和所述图像特征的复杂度和所述第一发票数据集的数据量大小,确定多个第一模型;
根据所述文本特征和所述图像特征,构建对应的验证集数据;
使用所述文本特征和所述图像特征分别对多个所述第一模型进行训练,得到多个第一查验模型;
利用所述验证集数据对多个所述第一查验模型进行验证,并根据验证结果对多个所述第一查验模型进行优化和改进;
获取新的发票数据,通过将新的发票数据分别输入到多个所述第一查验模型中,评估多个所述第一查验模型对不同格式发票的验证能力;
根据评估结果,优化多个所述第一查验模型得到所述发票查验模型集。
3.根据权利要求2所述的全量发票查验认证管理方法,其特征在于,所述从预设的发票查验模型集中确定对应的第一发票查验模型,并根据所述第一发票查验模型,确定需要查验的查验对象的步骤,包括:
将所述发票数据集分成正常发票数据集和异常发票数据集;
获取发票相关规定数据以确定发票风险评估指标体系;
根据所述正常发票数据集、所述异常发票数据集和所述发票风险评估指标体系,结合人工智能算法,生成发票风险预测模型;
根据所述发票图像数据和所述发票风险预测模型确定所述发票图像数据对应的第一发票的第一风险等级;
根据所述第一风险等级从所述发票查验模型集确定对应的第一发票查验模型;
根据所述第一发票查验模型确定所述查验对象。
4.根据权利要求3所述的全量发票查验认证管理方法,其特征在于,所述根据所述查验对象确定预处理模式,并根据所述预处理模式对所述发票图像数据进行预处理,得到第一发票图像数据的步骤,包括:
根据所述查验对象确定对应的发票元素;
根据所述发票元素,确定所述预处理模式;
根据所述预处理模式,选择对应的第一图像处理算法;
利用所述第一图像处理算法,对所述发票图像数据进行处理得到所述第一发票图像数据。
5.根据权利要求4所述的全量发票查验认证管理方法,其特征在于,所述根据所述查验对象,从所第一发票图像数据中提取出第一文本数据的步骤,包括:
采用光学字符识别技术,对所第一发票图像数据进行文字区域检测和识别,输出所有文本内容;
根据所述查验对象从所述文本内容中提取文本数据;
将提取的所述文本数据按发票字段分类,构建成结构化的第一文本数据。
6.一种全量发票查验认证管理系统,其特征在于,包括:服务器和发票信息数据库;
所述服务器被配置为:
获取发票图像数据;
从预设的发票查验模型集中确定对应的第一发票查验模型,并根据所述第一发票查验模型,确定需要查验的查验对象;
根据所述查验对象确定预处理模式,并根据所述预处理模式对所述发票图像数据进行预处理,得到第一发票图像数据;
根据所述查验对象,从所第一发票图像数据中提取出第一文本数据;
将所述第一文本数据与相应的所述发票信息数据库进行比对,得到第一认证结果。
7.根据权利要求6所述的全量发票查验认证管理系统,其特征在于,在所述发票查验模型集的生成方法中,所述服务器被配置为:
获取不同种类的历史发票数据按种类构成多个发票数据集;
分别对多个所述发票数据集进行预处理,得到多个第一发票数据集;
分别从多个所述第一发票数据集中提取文本特征;
根据所述文本特征和所述图像特征的复杂度和所述第一发票数据集的数据量大小,确定多个第一模型;
根据所述文本特征和所述图像特征,构建对应的验证集数据;
使用所述文本特征和所述图像特征分别对多个所述第一模型进行训练,得到多个第一查验模型;
利用所述验证集数据对多个所述第一查验模型进行验证,并根据验证结果对多个所述第一查验模型进行优化和改进;
获取新的发票数据,通过将新的发票数据分别输入到多个所述第一查验模型中,评估多个所述第一查验模型对不同格式发票的验证能力;
根据评估结果,优化多个所述第一查验模型得到所述发票查验模型集。
8.根据权利要求7所述的全量发票查验认证管理系统,其特征在于,所述从预设的发票查验模型集中确定对应的第一发票查验模型,并根据所述第一发票查验模型,确定需要查验的查验对象的步骤,所述服务器被配置为:
将所述发票数据集分成正常发票数据集和异常发票数据集;
获取发票相关规定数据以确定发票风险评估指标体系;
根据所述正常发票数据集、所述异常发票数据集和所述发票风险评估指标体系,结合人工智能算法,生成发票风险预测模型;
根据所述发票图像数据和所述发票风险预测模型确定所述发票图像数据对应的第一发票的第一风险等级;
根据所述第一风险等级从所述发票查验模型集确定对应的第一发票查验模型;
根据所述第一发票查验模型确定所述查验对象。
9.根据权利要求8所述的全量发票查验认证管理系统,其特征在于,所述根据所述查验对象确定预处理模式,并根据所述预处理模式对所述发票图像数据进行预处理,得到第一发票图像数据的步骤,所述服务器被配置为:
根据所述查验对象确定对应的发票元素;
根据所述发票元素,确定所述预处理模式;
根据所述预处理模式,选择对应的第一图像处理算法;
利用所述第一图像处理算法,对所述发票图像数据进行处理得到所述第一发票图像数据。
10.根据权利要求9所述的全量发票查验认证管理系统,其特征在于,所述根据所述查验对象,从所第一发票图像数据中提取出第一文本数据的步骤,所述服务器被配置为:
采用光学字符识别技术,对所第一发票图像数据进行文字区域检测和识别,输出所有文本内容;
根据所述查验对象从所述文本内容中提取文本数据;
将提取的所述文本数据按发票字段分类,构建成结构化的第一文本数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410226727.5A CN117809325B (zh) | 2024-02-29 | 2024-02-29 | 一种全量发票查验认证管理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410226727.5A CN117809325B (zh) | 2024-02-29 | 2024-02-29 | 一种全量发票查验认证管理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117809325A true CN117809325A (zh) | 2024-04-02 |
CN117809325B CN117809325B (zh) | 2024-05-17 |
Family
ID=90422159
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410226727.5A Active CN117809325B (zh) | 2024-02-29 | 2024-02-29 | 一种全量发票查验认证管理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117809325B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108876166A (zh) * | 2018-06-27 | 2018-11-23 | 平安科技(深圳)有限公司 | 财务风险验证处理方法、装置、计算机设备及存储介质 |
US20190139147A1 (en) * | 2017-11-09 | 2019-05-09 | Wolters Kluwer Elm Solutions, Inc. | Accuracy and speed of automatically processing records in an automated environment |
CN110298547A (zh) * | 2019-05-24 | 2019-10-01 | 深圳壹账通智能科技有限公司 | 风险评估方法、装置、计算机装置及存储介质 |
US20200226503A1 (en) * | 2019-01-11 | 2020-07-16 | Accenture Global Solutions Limited | Predictive issue detection |
CN111932766A (zh) * | 2020-08-11 | 2020-11-13 | 上海眼控科技股份有限公司 | 发票核验方法、装置、计算机设备和可读存储介质 |
CN112395996A (zh) * | 2020-11-19 | 2021-02-23 | 深圳供电局有限公司 | 财务票据ocr识别及影像处理方法、系统及可读存储介质 |
CN113066223A (zh) * | 2021-04-22 | 2021-07-02 | 中国工商银行股份有限公司 | 发票自动验证方法及装置 |
CN114913538A (zh) * | 2022-05-19 | 2022-08-16 | 山东国子软件股份有限公司 | 一种基于深度学习的多类别发票识别方法及系统 |
CN114971844A (zh) * | 2022-05-05 | 2022-08-30 | 浪潮软件科技有限公司 | 基于机器学习的发票虚开风险识别方法及系统 |
CN115471858A (zh) * | 2022-09-13 | 2022-12-13 | 南方电网数字平台科技(广东)有限公司 | 一种用于票据管理的数据处理方法及装置 |
-
2024
- 2024-02-29 CN CN202410226727.5A patent/CN117809325B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190139147A1 (en) * | 2017-11-09 | 2019-05-09 | Wolters Kluwer Elm Solutions, Inc. | Accuracy and speed of automatically processing records in an automated environment |
CN108876166A (zh) * | 2018-06-27 | 2018-11-23 | 平安科技(深圳)有限公司 | 财务风险验证处理方法、装置、计算机设备及存储介质 |
US20200226503A1 (en) * | 2019-01-11 | 2020-07-16 | Accenture Global Solutions Limited | Predictive issue detection |
CN110298547A (zh) * | 2019-05-24 | 2019-10-01 | 深圳壹账通智能科技有限公司 | 风险评估方法、装置、计算机装置及存储介质 |
CN111932766A (zh) * | 2020-08-11 | 2020-11-13 | 上海眼控科技股份有限公司 | 发票核验方法、装置、计算机设备和可读存储介质 |
CN112395996A (zh) * | 2020-11-19 | 2021-02-23 | 深圳供电局有限公司 | 财务票据ocr识别及影像处理方法、系统及可读存储介质 |
CN113066223A (zh) * | 2021-04-22 | 2021-07-02 | 中国工商银行股份有限公司 | 发票自动验证方法及装置 |
CN114971844A (zh) * | 2022-05-05 | 2022-08-30 | 浪潮软件科技有限公司 | 基于机器学习的发票虚开风险识别方法及系统 |
CN114913538A (zh) * | 2022-05-19 | 2022-08-16 | 山东国子软件股份有限公司 | 一种基于深度学习的多类别发票识别方法及系统 |
CN115471858A (zh) * | 2022-09-13 | 2022-12-13 | 南方电网数字平台科技(广东)有限公司 | 一种用于票据管理的数据处理方法及装置 |
Non-Patent Citations (1)
Title |
---|
黄海 等: "基于非对称加密和二维码技术在网络发票中的应用研究", 信息技术与信息化, no. 11, 15 November 2015 (2015-11-15), pages 167 - 168 * |
Also Published As
Publication number | Publication date |
---|---|
CN117809325B (zh) | 2024-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11568400B2 (en) | Anomaly and fraud detection with fake event detection using machine learning | |
US20210124919A1 (en) | System and Methods for Authentication of Documents | |
CN109887153B (zh) | 一种财税处理方法和处理系统 | |
US10354472B2 (en) | Self-learning system and methods for automatic document recognition, authentication, and information extraction | |
CN110675546B (zh) | 发票图片识别及验真方法、系统、设备及可读存储介质 | |
CN111178219A (zh) | 票据识别管理方法、装置、存储介质及电子设备 | |
US11308492B2 (en) | Anomaly and fraud detection with fake event detection using pixel intensity testing | |
CN108717543A (zh) | 一种发票识别方法及装置、计算机存储介质 | |
CN115017272B (zh) | 基于登记数据的智能核验方法及装置 | |
CN110634223A (zh) | 票据校验方法及装置 | |
CN112487982A (zh) | 商户信息的审核方法、系统和存储介质 | |
WO2020012539A1 (ja) | 仕訳要素解析装置、会計処理システム、仕訳要素解析方法、仕訳要素解析プログラム | |
CN114511866A (zh) | 数据稽核方法、装置、系统、处理器及机器可读存储介质 | |
CN115018513A (zh) | 数据巡检方法、装置、设备及存储介质 | |
CN117036073B (zh) | 基于互联网的发票审核与自动报销系统 | |
CN113918583A (zh) | 一种业务单据中审核节点风险等级的确定方法及确定装置 | |
CN117809325B (zh) | 一种全量发票查验认证管理方法及系统 | |
KR102416998B1 (ko) | 세무 문서 수집 및 분류 자동화 장치 및 방법 | |
CN114861622A (zh) | 跟单信用证生成方法、装置、设备、存储介质和程序产品 | |
CN111223230A (zh) | 一种基于crnn算法的发票文件真伪识别方法 | |
CN112801627A (zh) | 信用证单据制作及审核方法 | |
US11995907B2 (en) | Distributed computer system for document authentication | |
CN115131910B (zh) | 一种基于大数据的票据检验系统 | |
CN117575828B (zh) | 一种基于云计算的财务报销数据处理系统及方法 | |
JP2003263569A (ja) | 証券照合装置およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |