CN105243365B - 一种数据处理方法及数据处理系统 - Google Patents

一种数据处理方法及数据处理系统 Download PDF

Info

Publication number
CN105243365B
CN105243365B CN201510627351.XA CN201510627351A CN105243365B CN 105243365 B CN105243365 B CN 105243365B CN 201510627351 A CN201510627351 A CN 201510627351A CN 105243365 B CN105243365 B CN 105243365B
Authority
CN
China
Prior art keywords
data elements
papery
document
document image
papery document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510627351.XA
Other languages
English (en)
Other versions
CN105243365A (zh
Inventor
胡嘉
赵欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Electric Co Ltd
Original Assignee
Sichuan Changhong Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Electric Co Ltd filed Critical Sichuan Changhong Electric Co Ltd
Priority to CN201510627351.XA priority Critical patent/CN105243365B/zh
Publication of CN105243365A publication Critical patent/CN105243365A/zh
Application granted granted Critical
Publication of CN105243365B publication Critical patent/CN105243365B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/174Form filling; Merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets

Abstract

本发明公开了一种数据处理方法及数据处理系统,用于解决对票据信息进行手动处理而导致的效率较低且工作量较大的技术问题。所述方法包括:获得与第一纸质单据对应的第一纸质单据图像;其中,所述第一纸质单据中包括M个数据要素,M为正整数;基于所述第一纸质单据图像,从所述M个数据要素中确定N个数据要素,N为小于等于M的正整数;保存所述N个数据要素。

Description

一种数据处理方法及数据处理系统
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据处理方法及数据处理系统。
背景技术
目前进行票据整理一般是通过用户手动操作完成。例如第一种情形:用户A在超市购买完物品后,需要将购物明细输入电脑或其他电子设备中以便进行日常记账管理,或者例如第二种情形:公司的财务人员B需要对员工C的报销单据进行整理记账,以便进行财务核算。
以第二种情形来说,目前一般的操作流程是:财务人员B对员工C递交的报销单据进行分类整理,再针对每张报销单据将该单据中需要录入的关键项目手动录入财务系统,例如需要对发票号码、货物名称、单价、金额等项目进行手动录入,然而,财务人员B在进行识别和录入的过程中,由于为单人的手动操作,很容易出现差错,尤其是对于金额或其它数字类项目时,出现差错的几率更大,同时,一般会耗费较多的时间,工作效率较低,如果再通过另一财务人员(例如财务人员W)进行复核的话,无疑更加大了总的工作量,从而也会增加对人力资源的消耗,提高了公司的人力成本。
可见,在现有技术中,对于票据信息的识别和记录一般都是通过用户手动完成,效率较低且工作量大,并且对于一些特定信息(例如数字类信息)的处理时的差错率也较高,用户使用起来较为不便。
发明内容
本发明实施例提供一种数据处理方法及数据处理系统,用于解决对票据信息进行手动处理而导致的效率较低且工作量较大的技术问题。
一方面,提供一种数据处理方法,包括:
获得与第一纸质单据对应的第一纸质单据图像;其中,所述第一纸质单据中包括M个数据要素,M为正整数;
基于所述第一纸质单据图像,从所述M个数据要素中确定N个数据要素,N为小于等于M的正整数;
保存所述N个数据要素。
另一方面,提供一种数据处理系统,包括:
获得模块,用户获得与第一纸质单据对应的第一纸质单据图像;其中,所述第一纸质单据中包括M个数据要素,M为正整数;
确定模块,用于基于所述第一纸质单据图像,从所述M个数据要素中确定N个数据要素,N为小于等于M的正整数;
存储模块,用户保存所述N个数据要素。
本发明实施例中,可以直接获得与第一纸质单据对应的第一纸质单据图像,进而再根据第一纸质单据图像获得N个数据要素并将其进行保存,也就是说,本发明实施例中,可以实现设备对N个数据要素的自动识别并录入,这样可以在较大程度上节约用户的手动操作,从而可以减小工作量,提高工作效率。同时,通过设备的自动识别,结合一些特定的高精度识别算法,可以在较大程度上降低由于人工操作所带来的差错,降低出错概率,进一步地提高效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例中数据处理方法的流程图;
图2为本发明实施例中第一纸质单据为增值税发票的示意图;
图3为本发明实施例中包括4张纸质单据图像的纸张图像的示意图;
图4为本发明实施例中当第二数据要素存在模糊情况的示意图;
图5为本发明实施例中数据处理系统的框图。
具体实施方式
本发明提供一种数据处理方法及数据处理系统,用于解决对票据信息进行手动处理而导致的效率较低且工作量较大的技术问题,实现了提高工作效率和降低差错率的技术效果。
本发明实施例的数据处理方法,包括:获得与第一纸质单据对应的第一纸质单据图像;其中,所述第一纸质单据中包括M个数据要素,M为正整数;基于所述第一纸质单据图像,从所述M个数据要素中确定N个数据要素,N为小于等于M的正整数;保存所述N个数据要素。
所以,通过本发明实施例中的方案,可以实现设备对N个数据要素的自动识别并录入,这样可以在较大程度上节约用户的手动操作,从而可以减小工作量,提高工作效率。同时,通过设备的自动识别,结合一些特定的高精度识别算法,可以在较大程度上降低由于人工操作所带来的差错,降低出错概率,进一步地提高效率。
为使本发明的目的、技术方案和优点更加清楚明白,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互任意组合。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,在不做特别说明的情况下,一般表示前后关联对象是一种“或”的关系。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
请参见图1,本发明实施例提供一种数据处理方法,该方法的流程描述如下。
步骤101:获得与第一纸质单据对应的第一纸质单据图像;其中,第一纸质单据中包括M个数据要素,M为正整数。
具体来说,第一纸质单据例如是指发票,例如普通发票或增值税发票,或者,第一纸质单据也可以是指收据,例如超市购物小票或收款收据等其他票据。
其中,第一纸质单据图像可以是指与第一纸质单据对应的电子图像。例如,可以对第一纸质单据进行扫描以获得第一纸质单据的扫描件,那么该扫描件便可以认为是第一纸质单据图像,或者例如,可以直接对第一纸质单据进行拍照,那么通过拍照获得的第一纸质单据的照片便可以认为是第一纸质单据图像。
例如,请参见图2,第一纸质单据为增值税发票,那么数据要素例如可以是指发票号码、发票代码、购买方名称、销售方名称、纳税人识别号、地址、电话、开户行及账号、规格型号、单位、数量、单价、金额、税率、税额、价税合计等等元素。
在具体实施过程中,可以通过多种方式获得与第一纸质单据对应的第一纸质单据图像,为了便于阅读者理解,以下列举几种方式进行举例说明。
第一种方式:
可选的,本发明另一实施例中,获得与第一纸质单据对应的第一纸质单据图像,包括:
获得包括至少一张纸质单据图像的纸张图像;其中,至少一张纸质单据图像分别为与至少一张纸质单据对应的图像;
通过边缘检测方式对纸张图像进行分割识别,以分别获得独立的至少一张纸质单据图像;
将至少一张纸质单据图像中的任意一张纸质单据图像作为第一纸质单据图像。
在具体实施过程中,如果用户需要将一张或多张同种类或不同种类的纸质单据上的信息进行处理时,可以将至少一张纸质单据以一版进行扫描而获得包含至少一张纸质单据图像的纸质图像(即电子图像),或者用户也可以将至少一张纸质单据拍摄于一张照片中,那么包含至少一张纸质单据图像的照片即为本发明实施例中的纸张图像。
以至少一张纸质单据具体为4张纸质单据为例,请参见图3,获得的包括上述4张纸质单据图像的纸质图像为矩形300所表示的图像,而其中的矩形301、矩形302、矩形303和矩形304则表示上述4张纸质单据图像。
由于多张纸质单据图像之间,以及纸质单据图像与纸张图像的背景之间一般存在较为明显的差别,所以,在获得包括至少一张纸质单据的纸张图像之后,可以通过边缘检测对纸张图像进行处理以便从该纸张图像中获得分别独立的至少一张纸质单据图像。
其中,边缘检测是图像处理领域中的一种较为实用的图像处理技术,图像的边缘是图像的最基本特征,而所谓边缘,是指其周围像素灰度有阶跃变化或屋顶变化的那些像素的集合,或者也可以是指图像局部亮度变化最显著的部分,边缘广泛存在与物体与背景之间、物体与物体之间,边缘是图像分割、纹理特征提取和形状特征提取等图像分析的重要基础。
边缘检测算法的种类较多,在具体实施过程中,例如可以采用Sobel算子算法、Laplacian算子算法、Roberts算子算法、Prewitt算子算法、Krisch算子算法或拉普拉斯算子算法等边缘检测算法中的任意一种来对纸张图像进行边缘识别并进行分割识别,本发明实施例对具体采用的边缘检测算法种类不做限制,只要其能够对纸张图像进行分割识别即可。
在具体实施过程中,如果至少一张纸质单据具体为1张纸质单据,那么对于纸张图像的分割识别是指对一张纸质单据图像与其旁边的干扰因素(例如背景或周边像素)的分割识别,以便最终识别出该一张纸质单据图像。
或者,如果至少一张纸质单据具体为大于等于2张(例如4张)的纸质单据,那么对于纸张图像的分割识别是指对4张纸质单据图像相互之间以及该4张纸质单据图像分别与其旁边的干扰因素的分割识别,以便最终分割识别出分别独立的该4张纸质单据图像。
在获得分别独立的至少一张纸质单据图像之后,可以分别将其进行保存,而本发明实施例中的第一纸质单据图像可以为其中的任意一张。
在第一种方式中,可以同时针对多张纸质单据进行分割识别,效率较高,而对于用户来说,可以将多张纸质单据只进行一次整理就交由电子设备进行处理,操作比较方便,并且,对整理纸质单据的人员的要求较低,该人员即使不具有专业知识也能够完成该项操作,使用的普遍性较高,在一定程度上来说,可以降低企业的人力成本。
第二种方式:
可选的,本发明另一实施例中,获得与第一纸质单据对应的第一纸质单据图像,包括:
接收用户的第一输入操作;其中,第一输入操作用于输入第一纸质单据图像;
根据第一输入操作,获得第一纸质单据图像。
也就是说,在用户需要通过电子设备对第一纸质单据进行处理时,便可以通过人为干预的方式向电子设备输入第一纸质单据图像,这样可以尽量满足用户的实际需求,针对性较强。
第三种方式:
可选的,本发明另一实施例中,获得与第一纸质单据对应的第一纸质单据图像,包括:
控制图像采集单元采集获得与第一纸质单据对应的第一纸质单据图像。
即,可以通过图像采集单元直接对第一纸质单据进行图像采集,以便及时获得与第一纸质单据对应的第一纸质单据图像。
在第三种方式中,可以充分利用电子设备的自身硬件配置及时准确地获得第一纸质单据图像,并且在获得第一纸质单据图像后可以无需保存就进行后续操作,可以尽量避免对电子设备的存储空间的占用,节约资源。
上述只是列举了三种获得第一纸质单据图像的方式,当然,在实际实施过程中,还可以具有其它的方式,此处就不一一进行说明了,凡是能够获得与第一纸质单据对应的第一纸质单据图像的方式均应在本发明的保护范围之内。
步骤102:基于第一纸质单据图像,从M个数据要素中确定N个数据要素,N为小于等于M的正整数。
在获得第一纸质单据图像之后,可以通过文字识别技术对第一纸质单据图像中的文字进行识别,以根据第一纸质单据图像获得第一纸质单据包括的M个数据要素。其中,文字识别,可以包括对汉字、字母、数字以及标点符号的识别。在具体实施过程中,例如可以通过模板匹配法、几何特征抽取法或其它方式进行文字识别,至于具体的文字识别方式本发明不做限制。
另外,根据实际需求,可以从M个数据要素中选择部分数据要素进行保存,此时N的取值小于M的取值,或者,也可以将M个数据要素全部进行保存,此时N的取值与M的取值相同。
可选的,本发明另一实施例,基于第一纸质单据图像,从M个数据要素中确定N个数据要素,包括:
确定第一纸质单据的单据类型;
根据单据类型,确定针对第一纸质单据图像需要采集的要素采集项目集;
通过对第一纸质单据图像中的文字进行识别,从M个数据要素中确定属于要素采集项目集的N个数据要素。
在具体实施过程中,可以先确定第一纸质单据的单据类型。具体来说,可以分为用户手动确定和设备自动确定两种方式进行确定。
对于用户手动确定的方式来说,用户可以从设备存储的单据类型库中手动选择与第一纸质单据对应的单据类型,例如用户选择的单据类型为“增值税普通发票”或“收款收据”,等等。
对于设备自动确定的方式来说,由于不同的单据类型对应的物理尺寸一般是不一样的,所以可以根据第一纸质单据图像的物理尺寸来确定第一纸质单据的具体单据类型。
为了便于后续描述,本发明实施例中将与第一纸质单据对应的单据类型称为第一单据类型。
在确定第一单据类型之后,可以根据电子设备预先存储的单据类型与要素采集项目集之间的对应关系,确定与第一单据类型对应的要素采集项目集(例如称作第一要素采集项目集),例如,继续参见图2,由于第一纸质单据的单据类型为“增值税普通发票”,与其对应的第一要素采集项目集可以为{发票号码、发票代码、购买方名称、销售方名称、货物名称、规格型号、单位、数量、单价、金额、税率、税额、价税合计、开票日期、开票人}。当然第一要素采集项目还可以为包含其它数据要素的集合,具体可以根据财务人员进行财务核算的要求而定,或者也可以根据不同企业的不同要求而定,本发明不做具体限制。
或者,可选的,本发明另一实施例,根据单据类型,确定针对第一纸质单据图像需要采集的要素采集项目集,包括:
调用与单据类型对应的要素采集模板;
根据要素采集模板,确定针对第一纸质单据图像需要采集的要素采集项目集。
也就是说,电子设备中可以预先存储有与多种单据类型对应的多种要素采集模板,那么,在确定第一单据类型之后,便可以直接从多种要素采集模板中确定与第一单据类型对应的要素采集模板,进而再根据第一采集模板确定针对第一纸质单据图像需要采集的第一要素采集项目集。
在确定第一要素采集项目集之后,进一步再分别针对M个数据要素进行识别判断,将属于第一要素采集项目集的数据要素均划分为N个数据要素内。
可选的,本发明另一实施例,从M个数据要素中确定属于要素采集项目集的N个数据要素,包括:
若确定第一数据要素与第一要素采集项目匹配且第一要素采集项目对应为数字型要素采集项目,判断第一数据要素包含的小数位数是否与第一要素采集项目所对应的小数位数相等;其中,所述第一数据要素为M个数据要素中的任意一个,第一要素采集项目为要素采集项目集中的一个;
若相等,则将第一数据要素确定为N个数据要素中的一个。
在具体实施过程中,第一要素采集项目集中可能包括多种类型的要素采集项目,例如有文本型、数字型,等等。其中,对于数字型要素采集项目来说,在识别时还需判断小数点的位数是否正确,例如在运用电子设备进行财务核算时,如果某个数字的小数位数与要求的匹配的话,该数字将可能被视无效。例如,第一要素采集项目要求的小数位数为两位,那么对于12.12、28.1、3.87、9.65、33.966这五个数字,就只会将12.12、3.87和9.65确定为有效进行计算,而对于28.1和33.966这两个数字,由于小数位数不匹配则自动将其视为无效。
所以,在具体实施过程中,当确定第一数据要素与第一要素采集项目匹配时,还需要判断第一数据要素包含的小数位数与第一要素采集项目所要求的小数位数是否相等,只有在相等的情况下,才会将其作为N个数据要素中的一个,以便避免后续在进行财务核算时被视为无效的情形,这样可以尽量提高采集的准确性。
另外,在确定第一数据要素包含的小数位数与第一要素采集项目所要求的小数位数不相等时,可以发出提示信息以提醒用户进行手动纠错,这样可以尽量提高采集的准确性,或者,设备还可以按照预定规则自动将第一数据要素包括的小数位数纠正为与第一要素采集项目所述要求的小数位数相等的小数位数。例如,继续以上述例子为例,对于12.12、28.1、3.87、9.65、33.966这五个数字,当确定28.1和33.966这两个数字不满足小数位数要求时,电子设备可以自动将28.1纠正为28.10,这样在数值上是并未发生改变的,而对于小数位数为三位的33.966来说,可以按照四舍五入的方式将其纠正为包含两位小数的数字,即,通过电子设备的自动纠正之后,33.966将变为33.97,并最终将12.12、28.10、3.87、9.65、33.97作为对五个数字的最终识别结果。
可选的,本发明另一实施例,从M个数据要素中确定属于要素采集项目集的N个数据要素,包括:
若确第二数据要素识别的精准度低于预定精准度,则输出与第二数据要素对应的要素图像,并判断在第一预定时间内是否接收第二输入操作;其中,第二数据要素为M个数据要素中的任意一个,第二输入操作为用户进行的、用于根据与要素图像对第二数据要素进行人工识别的操作,第一预定时长以输出要素图像的时刻为起始时刻;
若确定在第一预定时间内接收到第二输入操作,则根据第二输入操作,将通过人工识别的第二数据要素作为N个数据要素中的一个。
在具体实施过程中,也许由于拍照光线不足,或者由于扫描仪设置不当,或者由于纸质单据本身存在不清晰的情况,都可能会导致在对数据要素识别的过程中存在识别精准度较低的情形,以第二数据要素为例来说,即,可能存在电子设备对识别结果不确定的情形。
例如,请参见图4,假设第二数据要素为收货人电话,即:13388954166,然而,由于第一纸质单据由于被雨水浸湿过所以导致电话号码第3位的“3”和第10位的“6”存在不同程度的模糊,那么,电子设备在对其进行识别的过程中,对“3”识别的精准度假设为0.6,表明该数字有60%的可能为3,对“6”识别的精准度假设为0.7,表明该数字有70%的可能为6,而预定精准度为0.9,此时,表明对“3”和“6”的识别的精准度均低于预定精准度,表明电子设备对其识别结果存在不确定的情形。
此时,电子设备可以先将与该电话号码(即第二数据要素)对应的图像(即要素图像)进行输出,例如直接显示在电子设备的显示屏幕上,或者直接将其发送到预定人员的手机上,并在第一预定时间内(例如1分钟)检测是否接收到第二输入操作,如果此时用户就在电子设备的旁边,可以很快对图像通过人眼识别来确定最终的识别结果,后者在用户不确定的时候,可以向第一纸质单据的提供者进行询问,在用户人工确定了识别结果之后,便可以通过第二输入操作来对第二数据要素中不确定的部分进行人工识别,即,在本发明实施例中,在电子设备识别到不确定的数据要素时,可以为用户提供人工干预的方式进行的识别和确认,增强了设备与用户之间的交互功能。
可选的,本发明另一实施例中,在判断在第一预定时间内是否接收第二输入操作之后,所述方法还包括:
若确定在第一预定时间内未接收到第二输入操作,则输出用于提醒用户对第二数据要素进行人工识别的提醒信息;
判断在第二预定时长内是否接收第二输入操作;其中,第二预定时长以提醒信息的输出时刻为起始时刻;
若确定在第二预定时长内未接收到第二输入操作,则将精准度低于预定精准度的第二数据要素作为N个数据要素中的一个,或,则将对第二数据要素的识别结果以预定标识代替并将预定标识作为N个数据要素中的一个,预定标识为用于表明对第二数据要素识别的精准度低于所述预定精准度。
进一步地,若确定在第一预定时间内未接收到第二输入操作,则表明用户可能不在电子设备旁边,无法及时对识别结果进行确认或纠正,那么,此时电子设备可以发出例如语音播报或音频提示等类型的提醒信息,以吸引用户的注意力,便于用户及时确定识别结果或进行一些对应处理。
另外,在具体实施过程中,为了尽量控制对第二数据要素的识别时间以提高效率,电子设备可以为用户手动进行确认的时间预留第二预定时长,即,若在第二预定时长内检测到了第二输入操作,便按照用户的操作来完成对第二数据要素的识别,若在第二预定时长内未检测到第二输入操作,为了节约时间,设备可以采用对应的解决措施。
例如,在即使识别的精准度不满足要求的情形下,还是可以直接按照识别的结果确定第二数据要素。当然,在具体实施过程中,还可以先判断识别出的精准度是否高于一预定精度准阈值。继续以上述例子为例,假设预定精度准阈值为0.5,虽然对“6”识别的精准度为0.7,低于0.9,但是却高于0.5,便可以直接将识别的最终结果确定为就是7。
或者例如,电子设备在不确定的情况下,为了尽量提高准确性,电子设备可以以预定标识来代替第一预定要素,例如以“***”代替,这样,当用户后续在进行查看时便可以直接查看到,便于后期再次手动进行纠错调整,以保证整个识别过程的准确性,尽量降低出错的概率。
步骤103:保存N个数据要素。
在确定N个数据要素之后,电子设备可以将其进行保存,以便后续对其直接进行调用,或者方便用户后续直接对其查看,等等,对于N个数据要素的使用,此处就不一一进行举例说明了。
本发明实施例中,可以直接获得与第一纸质单据对应的第一纸质单据图像,进而再根据第一纸质单据图像获得N个数据要素并将其进行保存,也就是说,本发明实施例中,可以实现设备对N个数据要素的自动识别并录入,这样可以在较大程度上节约用户的手动操作,从而可以减小工作量,提高工作效率。同时,通过设备的自动识别,结合一些特定的高精度识别算法,可以在较大程度上降低由于人工操作所带来的差错,降低出错概率,进一步地提高效率。
请参见图5,基于同一发明构思,本发明实施例提供一种数据处理系统,该数据处理系统包括获得模块501、确定模块502和存储模块503。
获得模块501,用户获得与第一纸质单据对应的第一纸质单据图像;其中,第一纸质单据中包括M个数据要素,M为正整数;
确定模块502,用于基于第一纸质单据图像,从M个数据要素中确定N个数据要素,N为小于等于M的正整数;
存储模块503,用户保存N个数据要素。
可选的,本发明另一实施例中,获得模块501用于:
获得包括至少一张纸质单据图像的纸张图像;其中,至少一张纸质单据图像分别为与至少一张纸质单据对应的图像;
通过边缘检测方式对纸张图像进行分割识别,以分别获得独立的至少一张纸质单据图像;
将至少一张纸质单据图像中的任意一张纸质单据图像作为第一纸质单据图像。
可选的,本发明另一实施例中,获得模块501用于:
接收用户的第一输入操作;其中,第一输入操作用于输入第一纸质单据图像;
根据第一输入操作,获得第一纸质单据图像。
可选的,本发明另一实施例中,获得模块501用于:
控制图像采集单元采集获得与第一纸质单据对应的第一纸质单据图像。
可选的,本发明另一实施例中,确定模块502用于:
确定第一纸质单据的单据类型;
根据单据类型,确定针对第一纸质单据图像需要采集的要素采集项目集;
通过对第一纸质单据图像中的文字进行识别,从M个数据要素中确定属于要素采集项目集的N个数据要素。
可选的,本发明另一实施例中,确定模块502用于根据单据类型,确定针对第一纸质单据图像需要采集的要素采集项目集,具体为:
调用与单据类型对应的要素采集模板;
根据要素采集模板,确定针对第一纸质单据图像需要采集的要素采集项目集。
可选的,本发明另一实施例中,确定模块502用于从M个数据要素中确定属于要素采集项目集的N个数据要素,具体为:
若确定第一数据要素与第一要素采集项目匹配且第一要素采集项目对应为数字型要素采集项目,判断第一数据要素包含的小数位数是否与第一要素采集项目所对应的小数位数相等;其中,第一数据要素为M个数据要素中的任意一个,第一要素采集项目为要素采集项目集中的一个;
若相等,则将第一数据要素确定为N个数据要素中的一个
可选的,本发明另一实施例中,确定模块502用于从M个数据要素中确定属于要素采集项目集的N个数据要素,具体为:
若确定第二数据要素识别的精准度低于预定精准度,则输出与第二数据要素对应的要素图像,并判断在第一预定时间内是否接收第二输入操作;其中,第二数据要素为M个数据要素中的任意一个,第二输入操作为用户进行的、用于根据与要素图像对第二数据要素进行人工识别的操作,第一预定时长以输出要素图像的时刻为起始时刻;
若确定在第一预定时间内接收到第二输入操作,则根据第二输入操作,将通过人工识别的第二数据要素作为N个数据要素中的一个。
可选的,本发明另一实施例中,数据处理系统还包括输出模块、判断模块和处理模块:
输出模块,用于在确定模块用于判断在第一预定时间内是否接受第二输入操作之后,若确定在第一预定时间内未接收到第二输入操作,则输出用于提醒所述用户对第二数据要素进行人工识别的提醒信息;
判断模块,用于判断在第二预定时长内是否接收第二输入操作;其中,第二预定时长以提醒信息的输出时刻为起始时刻;
处理模块,用于若确定在第二预定时长内未接收到第二输入操作,则将精准度低于预定精准度的第二数据要素作为N个数据要素中的一个,或,则将对第二数据要素的识别结果以预定标识代替并将预定标识作为N个数据要素中的一个,预定标识为用于表明对第二数据要素识别的精准度低于预定精准度
由于本发明实施例中的数据处理系统与上述数据处理解决问题的原理相似,因此本发明实施例中数据处理系统的实施可以参见上述数据处理方法的实施,在此不再赘述。
本发明实施例中,可以直接获得与第一纸质单据对应的第一纸质单据图像,进而再根据第一纸质单据图像获得N个数据要素并将其进行保存,也就是说,本发明实施例中,可以实现设备对N个数据要素的自动识别并录入,这样可以在较大程度上节约用户的手动操作,从而可以减小工作量,提高工作效率。同时,通过设备的自动识别,结合一些特定的高精度识别算法,可以在较大程度上降低由于人工操作所带来的差错,降低出错概率,进一步地提高效率。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (14)

1.一种数据处理方法,其特征在于,包括:
获得与第一纸质单据对应的第一纸质单据图像;其中,所述第一纸质单据中包括M个数据要素,M为正整数;
确定所述第一纸质单据的单据类型;
根据所述单据类型,确定针对所述第一纸质单据图像需要采集的要素采集项目集;
通过对所述第一纸质单据图像中的文字进行识别,从所述M个数据要素中确定属于所述要素采集项目集的N个数据要素,N为小于等于M的正整数,其中,确定属于所述要素采集项目集的所述N个数据要素包括,若确定第一数据要素与第一要素采集项目匹配且所述第一要素采集项目对应为数字型要素采集项目,判断所述第一数据要素包含的小数位数是否与所述第一要素采集项目所对应的小数位数相等;其中,所述第一数据要素为所述M个数据要素中的任意一个,所述第一要素采集项目为所述要素采集项目集中的一个;若相等,则将所述第一数据要素确定为所述N个数据要素中的一个;
保存所述N个数据要素。
2.如权利要求1所述的方法,其特征在于,获得与第一纸质单据对应的第一纸质单据图像,包括:
获得包括至少一张纸质单据图像的纸张图像;其中,所述至少一张纸质单据图像分别为与至少一张纸质单据对应的图像;
通过边缘检测方式对所述纸张图像进行分割识别,以分别获得独立的所述至少一张纸质单据图像;
将所述至少一张纸质单据图像中的任意一张纸质单据图像作为所述第一纸质单据图像。
3.如权利要求1所述的方法,其特征在于,获得与第一纸质单据对应的第一纸质单据图像,包括:
接收用户的第一输入操作;其中,所述第一输入操作用于输入所述第一纸质单据图像;
根据所述第一输入操作,获得所述第一纸质单据图像。
4.如权利要求1所述的方法,其特征在于,获得与第一纸质单据对应的第一纸质单据图像,包括:
控制图像采集单元采集获得与所述第一纸质单据对应的所述第一纸质单据图像。
5.如权利要求1所述的方法,其特征在于,根据所述单据类型,确定针对所述第一纸质单据图像需要采集的要素采集项目集,包括:
调用与所述单据类型对应的要素采集模板;
根据所述要素采集模板,确定针对所述第一纸质单据图像需要采集的所述要素采集项目集。
6.如权利要求1所述的方法,其特征在于,从所述M个数据要素中确定属于所述要素采集项目集的所述N个数据要素,包括:
若确定第二数据要素识别的精准度低于预定精准度,则输出与所述第二数据要素对应的要素图像,并判断在第一预定时间内是否接收第二输入操作;其中,所述第二数据要素为所述M个数据要素中的任意一个,所述第二输入操作为用户进行的、用于根据与所述要素图像对所述第二数据要素进行人工识别的操作,所述第一预定时间以输出所述要素图像的时刻为起始时刻;
若确定在所述第一预定时间内接收到所述第二输入操作,则根据所述第二输入操作,将通过人工识别的所述第二数据要素作为所述N个数据要素中的一个。
7.如权利要求6所述的方法,其特征在于,在判断在第一预定时间内是否接收第二输入操作之后,所述方法还包括:
若确定在所述第一预定时间内未接收到所述第二输入操作,则输出用于提醒所述用户对所述第二数据要素进行人工识别的提醒信息;
判断在第二预定时长内是否接收所述第二输入操作;其中,所述第二预定时长以所述提醒信息的输出时刻为起始时刻;
若确定在所述第二预定时长内未接收到所述第二输入操作,则将精准度低于所述预定精准度的所述第二数据要素作为所述N个数据要素中的一个,或,则将对所述第二数据要素的识别结果以预定标识代替并将所述预定标识作为所述N个数据要素中的一个,所述预定标识为用于表明对所述第二数据要素识别的精准度低于所述预定精准度。
8.一种数据处理系统,其特征在于,包括:
获得模块,用户获得与第一纸质单据对应的第一纸质单据图像;其中,所述第一纸质单据中包括M个数据要素,M为正整数;
确定模块,用于确定所述第一纸质单据的单据类型,并根据所述单据类型确定针对所述第一纸质单据图像需要采集的要素采集项目集,以及通过对所述第一纸质单据图像中的文字进行识别,从所述M个数据要素中确定属于所述要素采集项目集的N个数据要素,N为小于等于M的正整数,其中,确定属于所述要素采集项目集的所述N个数据要素具体为,若确定第一数据要素与第一要素采集项目匹配且所述第一要素采集项目对应为数字型要素采集项目,判断所述第一数据要素包含的小数位数是否与所述第一要素采集项目所对应的小数位数相等;其中,所述第一数据要素为所述M个数据要素中的任意一个,所述第一要素采集项目为所述要素采集项目集中的一个;若相等,则将所述第一数据要素确定为所述N个数据要素中的一个;
存储模块,用户保存所述N个数据要素。
9.如权利要求8所述的系统,其特征在于,所述获得模块用于:
获得包括至少一张纸质单据图像的纸张图像;其中,所述至少一张纸质单据图像分别为与至少一张纸质单据对应的图像;
通过边缘检测方式对所述纸张图像进行分割识别,以分别获得独立的所述至少一张纸质单据图像;
将所述至少一张纸质单据图像中的任意一张纸质单据图像作为所述第一纸质单据图像。
10.如权利要求8所述的系统,其特征在于,所述获得模块用于:
接收用户的第一输入操作;其中,所述第一输入操作用于输入所述第一纸质单据图像;
根据所述第一输入操作,获得所述第一纸质单据图像。
11.如权利要求8所述的系统,其特征在于,所述获得模块用于:
控制图像采集单元采集获得与所述第一纸质单据对应的所述第一纸质单据图像。
12.如权利要求8所述的系统,其特征在于,所述确定模块用于根据所述单据类型,确定针对所述第一纸质单据图像需要采集的要素采集项目集,具体为:
调用与所述单据类型对应的要素采集模板;
根据所述要素采集模板,确定针对所述第一纸质单据图像需要采集的所述要素采集项目集。
13.如权利要求8-11任一权项所述的系统,其特征在于,所述确定模块用于从所述M个数据要素中确定属于所述要素采集项目集的所述N个数据要素,具体为:
若确定第二数据要素识别的精准度低于预定精准度,则输出与所述第二数据要素对应的要素图像,并判断在第一预定时间内是否接收第二输入操作;其中,所述第二数据要素为所述M个数据要素中的任意一个,所述第二输入操作为用户进行的、用于根据与所述要素图像对所述第二数据要素进行人工识别的操作,所述第一预定时间以输出所述要素图像的时刻为起始时刻;
若确定在所述第一预定时间内接收到所述第二输入操作,则根据所述第二输入操作,将通过人工识别的所述第二数据要素作为所述N个数据要素中的一个。
14.如权利要求13所述的系统,其特征在于,所述系统还包括输出模块、判断模块和处理模块:
所述输出模块,用于在所述确定模块用于判断在第一预定时间内是否接受第二输入操作之后,若确定在所述第一预定时间内未接收到所述第二输入操作,则输出用于提醒所述用户对所述第二数据要素进行人工识别的提醒信息;
所述判断模块,用于判断在第二预定时长内是否接收所述第二输入操作;其中,所述第二预定时长以所述提醒信息的输出时刻为起始时刻;
所述处理模块,用于若确定在所述第二预定时长内未接收到所述第二输入操作,则将精准度低于所述预定精准度的所述第二数据要素作为所述N个数据要素中的一个,或,则将对所述第二数据要素的识别结果以预定标识代替并将所述预定标识作为所述N个数据要素中的一个,所述预定标识为用于表明对所述第二数据要素识别的精准度低于所述预定精准度。
CN201510627351.XA 2015-09-28 2015-09-28 一种数据处理方法及数据处理系统 Active CN105243365B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510627351.XA CN105243365B (zh) 2015-09-28 2015-09-28 一种数据处理方法及数据处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510627351.XA CN105243365B (zh) 2015-09-28 2015-09-28 一种数据处理方法及数据处理系统

Publications (2)

Publication Number Publication Date
CN105243365A CN105243365A (zh) 2016-01-13
CN105243365B true CN105243365B (zh) 2019-07-16

Family

ID=55041007

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510627351.XA Active CN105243365B (zh) 2015-09-28 2015-09-28 一种数据处理方法及数据处理系统

Country Status (1)

Country Link
CN (1) CN105243365B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664897A (zh) * 2018-04-18 2018-10-16 平安科技(深圳)有限公司 票据识别方法、装置及存储介质
CN109343844B (zh) * 2018-10-29 2021-08-06 四川长虹电器股份有限公司 一种基于Flex票据数据对比纠正的方法
CN109389439B (zh) * 2018-11-02 2021-02-26 金蝶软件(中国)有限公司 一种拆分发票的方法及系统
CN111126149B (zh) * 2019-11-25 2024-04-19 珠海格力电器股份有限公司 纸质单数据的验证方法、装置、存储介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN201222274Y (zh) * 2008-02-03 2009-04-15 湖南涣清信息技术有限责任公司 便携式发票鉴别仪
CN103440507A (zh) * 2013-09-03 2013-12-11 北京中电普华信息技术有限公司 一种票据信息验审设备和一种对票据信息进行验审的方法
CN103488999A (zh) * 2013-09-11 2014-01-01 东华大学 一种发票数据记录方法
CN104915114A (zh) * 2015-05-29 2015-09-16 小米科技有限责任公司 信息记录方法和装置、智能终端

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE50009493D1 (de) * 2000-10-26 2005-03-17 Mathias Wettstein Verfahren zur Erfassung des vollständigen Datensatzes mit Schriftzeichen versehener Formulare

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN201222274Y (zh) * 2008-02-03 2009-04-15 湖南涣清信息技术有限责任公司 便携式发票鉴别仪
CN103440507A (zh) * 2013-09-03 2013-12-11 北京中电普华信息技术有限公司 一种票据信息验审设备和一种对票据信息进行验审的方法
CN103488999A (zh) * 2013-09-11 2014-01-01 东华大学 一种发票数据记录方法
CN104915114A (zh) * 2015-05-29 2015-09-16 小米科技有限责任公司 信息记录方法和装置、智能终端

Also Published As

Publication number Publication date
CN105243365A (zh) 2016-01-13

Similar Documents

Publication Publication Date Title
CN109887153B (zh) 一种财税处理方法和处理系统
US10049410B2 (en) Receipts scanner and financial organizer
CN103208156B (zh) 一种餐饮自动结算系统和方法
US8879846B2 (en) Systems, methods and computer program products for processing financial documents
CN105243365B (zh) 一种数据处理方法及数据处理系统
CN104463167A (zh) 一种餐厅自动结算方法及系统
US20080270293A1 (en) Accounts payable automation system with automated discount and factoring management
US20150286860A1 (en) Method and Device for Generating Data from a Printed Document
CN105303363B (zh) 一种数据处理方法及数据处理系统
CN110363097A (zh) 基于财务报表的企业画像生成方法和装置
CN106530528B (zh) 收银票据信息识别方法及装置
CN111428599A (zh) 票据识别方法、装置和设备
JP2015118488A (ja) 会計データ入力システム、方法、およびプログラム
US9436937B1 (en) Highlight-based bill processing
JP6635563B1 (ja) 仕訳要素解析装置、会計処理システム、仕訳要素解析方法、仕訳要素解析プログラム
CN112801041A (zh) 财务数据的报销方法、装置、设备及存储介质
CN110688900A (zh) 一种基于图像识别的撤回表计管理方法
US20210224924A1 (en) Receipts scanner and financial organizer
JP6732325B1 (ja) 会計処理システム、会計処理方法、会計処理プログラム
US20200193525A1 (en) System and method for automatic verification of expense note
JP2015005070A (ja) 顧客誘導システム及び顧客誘導方法
WO2022029874A1 (ja) データ処理装置、データ処理方法及びデータ処理プログラム
JP6612962B1 (ja) 電子データ判定システム、電子データ判定装置、電子データ判定方法、電子データ判定プログラム
JP6921615B2 (ja) 精算証明データ処理装置、自動精算装置、精算証明データ処理システムおよび精算証明データ処理方法
US8743440B2 (en) Method for classifying a document to be associated with a service, and associated scanner

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant