CN117711008A - 智能收票方法及系统 - Google Patents

智能收票方法及系统 Download PDF

Info

Publication number
CN117711008A
CN117711008A CN202410163951.4A CN202410163951A CN117711008A CN 117711008 A CN117711008 A CN 117711008A CN 202410163951 A CN202410163951 A CN 202410163951A CN 117711008 A CN117711008 A CN 117711008A
Authority
CN
China
Prior art keywords
bill
file
information
intelligent
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410163951.4A
Other languages
English (en)
Inventor
陆宇龙
肖兵
龙隆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Zhimai Xiechuang Software Co ltd
Original Assignee
Sichuan Zhimai Xiechuang Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Zhimai Xiechuang Software Co ltd filed Critical Sichuan Zhimai Xiechuang Software Co ltd
Priority to CN202410163951.4A priority Critical patent/CN117711008A/zh
Publication of CN117711008A publication Critical patent/CN117711008A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及智能收票方法及系统,智能收票方法包括以下步骤:步骤S1:采用关键信息提取模型对接收到的票据信息中的文本信息进行提取得到待处理关键信息;步骤S2:对待处理关键信息进行筛选操作,对通过筛选的待处理关键信息相应的票据信息进行文件提取得到票据文件;步骤S3:通过智能文件分析模块对票据文件进行提取操作得到票据数据。智能收票系统包括信息接收装置以及信息处理装置;所述信息接收装置接收票据信息,所述信息处理装置对票据信息进行处理得到票据数据。通过关键信息提取与筛选,实现票据信息是否有效的判断,通过智能文件分析实现对有效的票据信息进行票据数据提取,从而实现智能收票,节约成本,提高票据接收的及时性与准确性。

Description

智能收票方法及系统
技术领域
本发明涉及票据接收与处理领域,特别是智能收票方法及系统。
背景技术
票据管理系统采用手工填写、OCR识别、智能查验等多种技术手段方式达到票据数据采集的目的,满足不同客户群体的诉求,但是也存在着实时性差、易丢失、成本增加等不足之处。
因此,当前亟需一种收票方法或系统实现智能收票,来降低成本,提高票据接收的及时性与准确性。
发明内容
本发明的目的在于克服现有技术的不足,提供智能收票方法及系统,实现了智能收票,节约人工成本以及运输成本,避免票据丢失等情况发生,提高了票据接收的及时性与准确性。
本发明的目的是通过以下技术方案来实现的:
智能收票方法,包括以下步骤:
步骤S1:采用关键信息提取模型对接收到的票据信息中的文本信息进行提取得到待处理关键信息;
步骤S2:对待处理关键信息进行筛选操作,对通过筛选的待处理关键信息相应的票据信息进行文件提取得到票据文件;
步骤S3:通过智能文件分析模块对票据文件进行提取操作得到票据数据。
进一步,所述关键信息提取模型为NLP文本类型模型;
所述NLP文本类型模型的提取方法包括正向最大匹配法、逆向最大匹配法和双向最大匹配法;
所述筛选操作为将待处理关键信息与预设的关键字信息进行正则表达式匹配。
进一步,所述票据文件包括结构化数据文件与非结构化数据文件。
进一步,所述智能文件分析模块对所述结构化数据文件获取文件内容后通过相应的数据结构解析方法结合票据信息相应的票据数据结构标准解析得到票据数据;
所述结构化数据文件包括但不限于OFD文件与XML文件;
所述OFD文件与XML文件的所述数据结构解析方法均为标准的XML数据结构解析方法;
所述智能文件分析模块对OFD文件的文件内容获取方式为使用压缩软件直接解压;
所述智能文件分析模块对XML文件的文件内容获取方式以文件流方式获取。
进一步,所述非结构化数据文件包括但不限于PDF文件;
所述智能文件分析模块对非结构化数据文件的票据数据提取操作包括以下子步骤:
(1)将非结构化数据文件转换为票据图片;
(2)对票据图片进行数据预处理操作;
(3)采用文字检测方法依据票据数据结构模型对票据图片进行提取得到票据数据。
进一步,所述数据预处理操作包括但不限于去噪、图像增强、灰度化处理以及二值化处理;
所述票据数据结构模型包括票据元素文本信息及相应的位置坐标信息;
所述票据数据结构模型的建模方法包括版面分析、文字切分及特征提取;
所述文字检测方法包括水平文字检测方法和倾斜文字检测方法。
进一步,所述步骤S3中所述票据文件为压缩包文件,则先解压缩,然后再通过智能文件分析模块进行提取操作。
进一步,所述步骤S3中智能文件分析模块还将票据数据组装为结构化票据数据;
所述步骤S3还进行以下步骤:
步骤S4:将结构化票据数据和票据文件传送至票据管理系统,由票据管理系统进行业务逻辑校验后将通过校验的结构化票据数据和票据文件持久化到票据管理系统中。
智能收票系统,应用于上述智能收票方法,包括信息接收装置以及信息处理装置;
所述信息接收装置接收票据信息,所述信息处理装置对票据信息进行处理得到票据数据。
进一步,所述票据信息包括但不限于发票票据信息;
所述信息接收装置包括邮箱系统配置单元、规则和关键字配置单元以及个人邮箱配置单元。
本发明的有益效果是:
本发明对接收到的票据信息进行关键信息提取与筛选,并据此获取票据信息中的票据文件,对票据文件通过智能文件分析得到票据数据,通过关键信息提取与筛选,实现票据信息是否有效的判断,通过智能文件分析实现对有效的票据信息进行票据数据的提取,从而实现了智能收票,节约人工成本以及运输成本,避免票据丢失等情况发生,提高了票据接收的及时性与准确性。
附图说明
图1为本发明的业务逻辑图;
图2为本发明的思维导图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
如图1至图2所示,智能收票方法接收到的票据信息包括但不限于发票票据信息,本实施例以发票票据信息为例进行说明。
发票票据信息通过开票预留邮箱的方式实现票据及时准确的采集到票据管理系统中。
所述发票票据信息以邮箱邮件的形式进行传递,所述发票票据信息包括邮件标题、邮件正文以及发票内容。
智能收票方法,包括以下步骤:
步骤S1:采用关键信息提取模型对接收到的票据信息中的文本信息进行提取得到待处理关键信息;
所述关键信息提取模型为NLP文本类型模型;
进行NLP文本类型模型训练前,利用自然语言技术(NLP),前期搜集大量的常用开票软件上的开票邮件标题和内容范例。将开票邮件标题和内容范例的文本信息按照附件、下载地址等进行分门别类整理和特征提取并且将数据录入到NLP文本类型模型中,用于后续邮件标题和内容的关键字信息自动识别。
所述NLP文本类型模型的提取方法包括正向最大匹配法、逆向最大匹配法和双向最大匹配法。
根据模型训练结果,通过调整参数,改进特征提取方法,使用正向最大匹配法、逆向最大匹配法和双向最大匹配法将票据信息中的文本信息(本实施例为邮件标题和邮件正文以及发票内容文本)分解成单个的词汇或者一段URL附件下载地址的方法来提高系统的完整性和准确性。
发票票据信息(邮件标题和内容信息等)获取后,通过NLP文本类型模型从发票票据信息中的文本信息(邮件标题文本和内容文本等)中提取到待处理关键信息。
所述待处理关键信息包括发票、票据、开票等关键信息。
步骤S2:对待处理关键信息进行筛选操作,对通过筛选的待处理关键信息相应的票据信息进行文件提取得到票据文件;
所述筛选操作为将待处理关键信息与预设的关键字信息进行正则表达式匹配。
通过正则表达式方法匹配获取有效邮件。满足关键字过滤后获取满足初步条件的票据文件(即邮件附件)并提交给智能文件分析模块(即IFP服务),智能文件分析模块将根据文件类型分别进行处理。
步骤S3:通过智能文件分析模块对票据文件进行提取操作得到票据数据。
所述票据文件包括结构化数据文件与非结构化数据文件;
所述智能文件分析模块对结构化数据文件获取文件内容后通过相应的数据结构解析方法结合票据信息相应的票据数据结构标准解析得到票据数据。
发票票据信息相应的票据数据结构标准为发票数据结构定义标准。
所述结构化数据文件包括但不限于OFD文件与XML文件,还可有JSON文件。
OFD文件与XML文件的数据结构解析方法均为标准的XML数据结构解析方法。
所述智能文件分析模块对OFD文件的文件内容获取方式为使用压缩软件直接解压;
所述智能文件分析模块对XML文件的文件内容获取方式以文件流方式获取。
所述智能文件分析模块对OFD文件使用压缩软件直接解压OFD文件内容,通过标准的XML数据结构解析方法结合发票数据结构定义标准,解析得到发票数据。
所述智能文件分析模块对XML文件以文件流方式获取文件内容,通过标准的XML数据结构解析方式结合发票数据结构定义标准,解析发票数据。
所述非结构化数据文件包括但不限于PDF文件。
所述智能文件分析模块对非结构化数据文件的票据数据提取操作包括以下子步骤:
(1)将非结构化数据文件转换为票据图片;
通过程序将PDF文件等非结构化数据文件转换成图片。
(2)对票据图片进行数据预处理操作;
所述数据预处理操作包括但不限于去噪、图像增强、灰度化处理以及二值化处理。
(3)采用文字检测方法依据票据数据结构模型对票据图片进行提取得到票据数据。
所述票据数据结构模型包括票据元素文本信息及相应的位置坐标信息。
所述票据数据结构模型的建模方法包括版面分析、文字切分及特征提取。
前期搜集大量的发票票据图像文件作为建模票据图像文件,用于建立票据数据结构模型,利用机器学习和深度学习技术对建模票据图像文件进行票据数据结构模型训练和学习,并不断的通过版面分析、文字切分、特征提取等方式进行优化和调整,不断修正和提高模型的准确性。票据数据结构模型用于PDF等文件转图片后的发票数据解析。
所述文字检测方法包括水平文字检测方法和倾斜文字检测方法。
依据票据数据结构模型,通过获取的图像内容中票据元素文本信息和位置坐标信息,根据图像文字X、Y轴位置定位以及图像的分辨率大小,利用文字检测算法提取解析对应的票据数据,例如 :发票代码,发票号码,购买方、销售方、商品服务明细等。
所述票据文件为压缩包文件,则先解压缩,然后再通过智能文件分析模块进行提取操作。
如票据文件为ZIP文件,先解压文件获取文件列表,再判断文件类型,根据以上描述的PDF、OFD、XML等文件类型分别进行处理。以上步骤无法处理的票据文件进行错误信息标识,提交给客户手动处理。
所述步骤S3中智能文件分析模块还将票据数据组装为结构化票据数据。
所述步骤S3还进行以下步骤:
步骤S4:将结构化票据数据和票据文件传送至票据管理系统,由票据管理系统进行业务逻辑校验后将通过校验的结构化票据数据和票据文件持久化到票据管理系统中。
智能文件分析模块处理完成后将结构化票据数据和票据文件(即邮件的附件)通过接口传给票据管理系统进行业务逻辑校验,通过校验后将票据结构化数据和票据文件持久化到票据管理系统中。
对于无法处理的票据信息(如无法解析和下载票据附件的邮件),进行错误信息标识,提交给客户手动处理。
通过对邮件智能分析,抽取邮件中的票据信息,并且下载票据文件,解析票据数据,持久化存储到票据管理系统中,实现邮件智能收取。
智能收票系统,应用于上述智能收票方法,包括信息接收装置以及信息处理装置;
所述信息接收装置接收票据信息,所述信息处理装置对票据信息进行处理得到票据数据。
所述票据信息包括但不限于发票票据信息;
所述信息接收装置包括邮箱系统配置单元、规则和关键字配置单元以及个人邮箱配置单元;
邮箱系统配置单元的作用是:预置市面常用的邮件服务提供商,并且支持个性化配置企业邮箱服务器信息;
系统预置网易163、网易126、QQ、阿里、189、新浪等邮箱的pop3服务器地址端口,imap服务器地址端口,并且持久化。通过新建方法实现企业个性化服务器系统的pop3服务器地址端口和imap服务器地址端口的配置保存。通过测试邮箱服务器链接保证配置邮箱服务器的有效性。
规则和关键字配置单元的作用是:关键字配置缩小发票邮件的范围,规则配置获取邮件内容区的下载地址。
配置邮件标题关键字,用于缩小邮件标题匹配范围;配置附件类型关键,用于缩小附件类型匹配范围;配置邮件内容关键字,用于获取内容票据附件的下载地址。
个人邮箱配置的作用是:配置个人邮箱账户信息,便于系统采集邮箱里的票据数据;
将个人邮箱地址、授权信息、白名单列表保存,用于收取邮件中的票据数据。白名单列表可以明确收取票据发件人范围,提供邮件处理的效率和准确性。也可以根据实际情况启用、停用邮件中票据数据的采集功能。
信息接收装置还包括定时任务系统单元。
定时任务系统的作用是:系统通过定时任务系统获获取邮箱邮件信息;
定时任务轮询所有满足条件的邮件地址,每一个邮件地址通过配置信息获取邮件列表获取邮件信息
智能收票方法及系统对接收到的票据信息进行关键信息提取与筛选,并据此获取票据信息中的票据文件,对票据文件通过智能文件分析得到票据数据,通过关键信息提取与筛选,实现票据信息是否有效的判断,通过智能文件分析实现对有效的票据信息进行票据数据的提取,从而实现了智能收票,节约人工成本以及运输成本,避免票据丢失等情况发生,提高了票据接收的及时性与准确性。
票据管理软件使用了智能收票系统后,通过发票开具时预留的邮箱,可以非常及时的将开具的发票实时采集到票据管理系统中,实现即开即收。节约了因打印、邮寄等发生的人工和运费成本,避免了因票据在邮寄过程中丢失导致开票作废、红冲、重开重寄等业务操作。提高了票据管理系统票据数据的及时性和准确性。
智能收票系统采用自然语言处理(NLP)技术、智能文件解析(IFP)技术,通过邮件内容模型学习技术,将邮件中票据文件信息实时快速准确的采集到票据管理系统中形成结构化数据。解决现有软件中的不足之处。
以上所述实施例仅表达了本发明的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (10)

1.智能收票方法,其特征在于:包括以下步骤:
步骤S1:采用关键信息提取模型对接收到的票据信息中的文本信息进行提取得到待处理关键信息;
步骤S2:对待处理关键信息进行筛选操作,对通过筛选的待处理关键信息相应的票据信息进行文件提取得到票据文件;
步骤S3:通过智能文件分析模块对票据文件进行提取操作得到票据数据。
2.根据权利要求1所述的智能收票方法,其特征在于:
所述关键信息提取模型为NLP文本类型模型;
所述NLP文本类型模型的提取方法包括正向最大匹配法、逆向最大匹配法和双向最大匹配法;
所述筛选操作为将待处理关键信息与预设的关键字信息进行正则表达式匹配。
3.根据权利要求1所述的智能收票方法,其特征在于:
所述票据文件包括结构化数据文件与非结构化数据文件。
4.根据权利要求3所述的智能收票方法,其特征在于:
所述智能文件分析模块对所述结构化数据文件获取文件内容后通过相应的数据结构解析方法结合票据信息相应的票据数据结构标准解析得到票据数据;
所述结构化数据文件包括但不限于OFD文件与XML文件;
所述OFD文件与XML文件的所述数据结构解析方法均为标准的XML数据结构解析方法;
所述智能文件分析模块对OFD文件的文件内容获取方式为使用压缩软件直接解压;
所述智能文件分析模块对XML文件的文件内容获取方式以文件流方式获取。
5.根据权利要求3所述的智能收票方法,其特征在于:
所述非结构化数据文件包括但不限于PDF文件;
所述智能文件分析模块对非结构化数据文件的票据数据提取操作包括以下子步骤:
(1)将非结构化数据文件转换为票据图片;
(2)对票据图片进行数据预处理操作;
(3)采用文字检测方法依据票据数据结构模型对票据图片进行提取得到票据数据。
6.根据权利要求5所述的智能收票方法,其特征在于:
所述数据预处理操作包括但不限于去噪、图像增强、灰度化处理以及二值化处理;
所述票据数据结构模型包括票据元素文本信息及相应的位置坐标信息;
所述票据数据结构模型的建模方法包括版面分析、文字切分及特征提取;
所述文字检测方法包括水平文字检测方法和倾斜文字检测方法。
7.根据权利要求1所述的智能收票方法,其特征在于:
所述步骤S3中所述票据文件为压缩包文件,则先解压缩,然后再通过智能文件分析模块进行提取操作。
8.根据权利要求1所述的智能收票方法,其特征在于:
所述步骤S3中智能文件分析模块还将票据数据组装为结构化票据数据;
所述步骤S3还进行以下步骤:
步骤S4:将结构化票据数据和票据文件传送至票据管理系统,由票据管理系统进行业务逻辑校验后将通过校验的结构化票据数据和票据文件持久化到票据管理系统中。
9.智能收票系统,应用于权利要求1-8中任一权利要求所述的智能收票方法,其特征在于:
包括信息接收装置以及信息处理装置;
所述信息接收装置接收票据信息,所述信息处理装置对票据信息进行处理得到票据数据。
10.根据权利要求9所述的智能收票系统,其特征在于:
所述票据信息包括但不限于发票票据信息;
所述信息接收装置包括邮箱系统配置单元、规则和关键字配置单元以及个人邮箱配置单元。
CN202410163951.4A 2024-02-05 2024-02-05 智能收票方法及系统 Pending CN117711008A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410163951.4A CN117711008A (zh) 2024-02-05 2024-02-05 智能收票方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410163951.4A CN117711008A (zh) 2024-02-05 2024-02-05 智能收票方法及系统

Publications (1)

Publication Number Publication Date
CN117711008A true CN117711008A (zh) 2024-03-15

Family

ID=90157419

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410163951.4A Pending CN117711008A (zh) 2024-02-05 2024-02-05 智能收票方法及系统

Country Status (1)

Country Link
CN (1) CN117711008A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170301009A1 (en) * 2016-04-16 2017-10-19 Boris Sheykhetov Philatelic Search Service System and Method
CN107424065A (zh) * 2017-05-15 2017-12-01 贾琨 一种处理电子邮件中电子发票的方法及系统
CN109741517A (zh) * 2018-12-26 2019-05-10 大象慧云信息技术有限公司 一种发票查验方法、装置和系统
CN110046978A (zh) * 2019-03-19 2019-07-23 上海大学 智能报销方法
CN111737967A (zh) * 2020-08-27 2020-10-02 国信电子票据平台信息服务有限公司 一种电子发票收票即查验的方法及系统
CN114969585A (zh) * 2021-05-25 2022-08-30 支付宝(杭州)信息技术有限公司 电子票据邮件的处理方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170301009A1 (en) * 2016-04-16 2017-10-19 Boris Sheykhetov Philatelic Search Service System and Method
CN107424065A (zh) * 2017-05-15 2017-12-01 贾琨 一种处理电子邮件中电子发票的方法及系统
CN109741517A (zh) * 2018-12-26 2019-05-10 大象慧云信息技术有限公司 一种发票查验方法、装置和系统
CN110046978A (zh) * 2019-03-19 2019-07-23 上海大学 智能报销方法
CN111737967A (zh) * 2020-08-27 2020-10-02 国信电子票据平台信息服务有限公司 一种电子发票收票即查验的方法及系统
CN114969585A (zh) * 2021-05-25 2022-08-30 支付宝(杭州)信息技术有限公司 电子票据邮件的处理方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
卢光宏 等: "基于邮件解析的区块链电子票夹系统", 《软件导刊》, no. 01, 31 January 2020 (2020-01-31), pages 217 - 221 *
钱哨 等: "一种电子发票生成处理的软件系统集成方法", 《电子技术与软件工程》, no. 08, 30 April 2020 (2020-04-30), pages 217 - 221 *

Similar Documents

Publication Publication Date Title
US7203663B1 (en) System and method for converting information on paper forms to electronic data
CN106228675A (zh) 识别发票真伪的方法和装置
CN110414927B (zh) 一种票据处理自动生成凭证的方法及装置
CN108777021B (zh) 一种基于扫描仪混扫的票据识别方法及系统
CN104881770A (zh) 一种快递单信息识别系统和方法
US20110052075A1 (en) Remote receipt analysis
CN103617415A (zh) 一种自动识别发票的装置和方法
JPH03137975A (ja) 配達物処理方法及びシステム
WO2019157029A1 (en) System and method for classifying images of an evidence
US20130251211A1 (en) Automated processing of documents
US20130325706A1 (en) System, method, apparatus, and computer program product for improved payment processing
CN114202755A (zh) 基于ocr和nlp技术的交易背景真实性审核方法和系统
CN112418812A (zh) 分布式全链路自动化智能通关系统、方法及存储介质
CN112561484A (zh) 中登登记审单方法、装置、计算机设备及存储介质
CN110599319B (zh) 自动审计方法、装置、终端及存储介质
KR20160127225A (ko) 통관서류 작성 장치 및 방법
US20020075496A1 (en) Software interface adapter for internet communication
CN103490979A (zh) 电子邮件鉴定方法和系统
CN117711008A (zh) 智能收票方法及系统
US20050131751A1 (en) Method and an apparatus for computer-implemented evaluation of client business processes
CN207037679U (zh) 一种快捷扫描发票信息的系统
CN114973290A (zh) 一种基于ocr引擎的智能审单方法及系统
CN112348022B (zh) 一种基于深度学习的自由格式文档识别方法
US20130300562A1 (en) Generating delivery notification
CN113537964A (zh) 申请单处理方法、设备、存储介质及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination