CN112632926A - 票据的数据处理方法、装置、电子设备及存储介质 - Google Patents

票据的数据处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112632926A
CN112632926A CN202011604259.9A CN202011604259A CN112632926A CN 112632926 A CN112632926 A CN 112632926A CN 202011604259 A CN202011604259 A CN 202011604259A CN 112632926 A CN112632926 A CN 112632926A
Authority
CN
China
Prior art keywords
bill
content data
detected
field information
detection engine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011604259.9A
Other languages
English (en)
Other versions
CN112632926B (zh
Inventor
李佳琳
王健宗
瞿晓阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202011604259.9A priority Critical patent/CN112632926B/zh
Publication of CN112632926A publication Critical patent/CN112632926A/zh
Application granted granted Critical
Publication of CN112632926B publication Critical patent/CN112632926B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/174Form filling; Merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Library & Information Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Character Input (AREA)

Abstract

本申请适用于数据处理、智能决策技术领域,提供一种票据的数据处理方法、装置、电子设备及存储介质。其方法包括:分别采用系统预设的第一检测引擎和第二检测引擎识别待检测票据,获得待检测票据结构化的第一内容数据和第二内容数据;按票据结构比对第一内容数据和第二内容数据,判断第一内容数据和第二内容数据是否内容一致;若第一内容数据和第二内容数据内容不一致,则获取不一致部分的内容数据作为待验证内容数据,将待验证内容数据分别与针对待验证内容数据采用标注方式获得的第三内容数据进行比对,获取比对结果显示为一致的内容数据作为票据结构化的内容数据输出。该方法可以对票据中的内容数据进行精准识别、而且效率高。

Description

票据的数据处理方法、装置、电子设备及存储介质
技术领域
本申请涉及智能决策技术领域,尤其涉及一种票据的数据处理方法、装置、电子设备及存储介质。
背景技术
随着计算机和互联网技术的发展,数据线上化处理也越来越普遍,比如保险公司的在线理赔业务。尤其是在医疗理赔流程中,保险公司需要处理用户上传大量的资料,这些资料常见的有费用清单、门诊发票、住院小结等各种票据。在进行划定赔付金额时,这些票据往往是关键的赔付依据,因此,针对票据的数据处理显得非常重要。目前现有的医疗理赔系统在对票据进行数据处理时通常采用的是单一的模型进行检测,该单一模型在提取票据中的结构化信息时针对一些文字错位、复杂药品名称、模糊数字等内容难以做到精准识别,使得系统存在识别准确度低以及识别效率低等问题。
发明内容
有鉴于此,本申请实施例提供了一种票据的数据处理方法、装置、电子设备及存储介质,旨在至少解决系统在提取票据中的结构化信息时存在的识别准确度低、识别效率低、识别难度大等问题之一。
本申请实施例的第一方面提供了一种票据的数据处理方法,包括:
分别采用系统预设的第一检测引擎和第二检测引擎识别待检测票据,获得所述待检测票据结构化的第一内容数据和第二内容数据;
按票据结构比对所述第一内容数据和所述第二内容数据,判断所述第一内容数据和所述第二内容数据是否内容一致;
若所述第一内容数据和所述第二内容数据内容不一致,则获取不一致部分的内容数据作为待验证内容数据,将所述待验证内容数据分别与针对所述待验证内容数据采用标注方式获得的第三内容数据进行比对,获取比对结果显示为一致的内容数据作为票据结构化的内容数据输出。
结合第一方面,在第一方面的第一种可能实现方式中,所述分别采用系统预设的第一检测引擎和第二检测引擎识别待检测票据,获得所述待检测票据结构化的第一内容数据和第二内容数据的步骤,包括:
通过对所述待检测票据进行特征提取,获取所述待检测票据的图像特征信息;
将所述待检测票据的图像特征信息与预设表格模板库中表格模板的表格划分特征比对,获取与所述待检测票据相匹配的表格模板;
分别采用第一检测引擎和第二检测引擎获取所述待检测票据中的字段信息,并基于所述表格模板的结构,将所述字段信息按字段对应填入到所述表格模板中,获得所述待检测票据结构化的第一内容数据和第二内容数据。
结合第一方面的第一种可能实现方式,在第一方面的第二种可能实现方式中,所述待检测票据的图像特征信息至少包括以下一种或多种信息:表格分割线信息、表格内容属性划分信息、表头属性信息。
结合第一方面的第一种可能实现方式,在第一方面的第三种可能实现方式中,所述将所述待检测票据的特征信息与预设表格模板库中表格模板的表格划分特征比对,为所述待检测票据匹配对应的表格模板的步骤之后,还包括:
若基于所述预设表格模板库未能为所述待检测票据匹配到对应的表格模板,则对所述待检测票据进行表头检测,判断所述待检测票据是否具有表头;
若判断所述待检测票据无表头,则分别采用所述第一检测引擎和所述第二检测引擎获取所述待检测票据中的字段信息,并比对两个检测引擎获得的字段信息之间是否每一行的字段数量一致以及比对每个检测引擎获得的字段信息中上下行之间的字段数量是否一致;
若两个检测引擎获得的字段信息中每一行的字段数量一致,且每个检测引擎获得的字段信息中上下行之间的字段数量一致,则针对每个检测引擎获得的字段信息分别按照字段数量在字段间的间隔处构建表格列分割线,生成与所述字段信息匹配的表格;
基于所述生成的表格的结构,分别将所述两个检测引擎获得的字段信息按字段对应填入所述表格中,获得所述待检测票据结构化的第一内容数据和第二内容数据。
结合第一方面的第三种可能实现方式,在第一方面的第四种可能实现方式中,所述若判断所述待检测票据无表头,分别采用所述第一检测引擎和所述第二检测引擎获取所述待检测票据中的字段信息,并比对两个检测引擎获得的字段信息之间是否每一行的字段数量一致以及比对每个检测引擎获得的字段信息中上下行之间的字段数量是否一致的步骤之后,还包括:
若两个检测引擎获得的字段信息中每一行的字段数量不一致和/或每个检测引擎获得的字段信息中上下行之间的字段数量不一致,则针对每个检测引擎获得的字段信息采用标注的方式构建表格列分割线,生成与所述字段信息匹配的表格。
结合第一方面的第三种可能实现方式,在第一方面的第五种可能实现方式中,所述若基于所述预设表格模板库未能为所述待检测票据匹配到对应的表格模板,则对所述待检测票据进行表头检测,判断所述待检测票据是否具有表头的步骤之后,还包括:
若所述待检测票据有表头,则基于所述第一检测引擎和所述第二检测引擎获取的所述待检测票据的字段信息,确定所述待检测票据的表头列数以及所述待检测票据中字段信息对应行的列数;
将所述待检测票据的表头列数与所述待检测票据中字段信息对应行的列数比对,判断所述待检测票据的表头列数与所述待检测票据中字段信息对应行的列数是否一致;
若所述待检测票据的表头列数与所述待检测票据中字段信息对应行的列数一致,则按照所述列数构建表格列分割线,否则基于所述待检测票据中的字段信息采用标注方式构建表格列分割线,以生成与所述字段信息匹配的表格。
结合第一方面,在第一方面的第六种可能实现方式中,所述分别采用系统预设的第一检测引擎和第二检测引擎识别待检测票据,获得所述待检测票据结构化的第一内容数据和第二内容数据的步骤之前,还包括:
接收用户输入的原始图像,通过预设的边缘检测算法和图像分类算法对所述原始图像进行识别处理,获取满足所述预设的边缘检测算法和图像分类算法要求的原始图像设置为待检测票据。
本申请实施例的第二方面提供了一种票据的数据处理装置,所述票据的数据处理装置包括:
获取模块,用于分别采用系统预设的第一检测引擎和第二检测引擎识别待检测票据,获得所述待检测票据结构化的第一内容数据和第二内容数据;
比对模块,用于按票据结构比对所述第一内容数据和所述第二内容数据,判断所述第一内容数据和所述第二内容数据是否内容一致;
输出模块,用于若所述第一内容数据和所述第二内容数据内容不一致,则获取不一致部分的内容数据作为待验证内容数据,将所述待验证内容数据分别与针对所述待验证内容数据采用标注方式获得的第三内容数据进行比对,获取比对结果显示为一致的内容数据作为票据结构化的内容数据输出。
本申请实施例的第三方面提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在电子设备上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面提供的票据的数据处理方法的各步骤。
本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现第一方面提供的票据的数据处理方法的各步骤。
本申请实施例提供的一种票据的数据处理方法、装置、电子设备及存储介质,具有以下有益效果:
本申请通过分别采用系统预设的第一检测引擎和第二检测引擎识别待检测票据,并按票据结构进行比对,当比对得到两次检测结果不一致的情况下引入标注对不一致部分的内容进行进一步的比对确认来获得系统输出的结构化内容数据。通过双检测引擎识别和引入标注确认可以实现对票据中的内容数据进行精准识别,使得系统输出的结构化内容数据具有高准确度。而且通过双检测引擎进行自动识别,只对两次检测不一致部分的内容进行标注确认,无需对整张票据进行人工识别,有效提高系统的数据处理效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请第一实施例提供的一种票据的数据处理方法的流程示意图;
图2为本申请第二实施例提供的一种票据的数据处理方法的流程示意图;
图3为本申请第三实施例提供的一种票据的数据处理方法的流程示意图;
图4为本申请第四实施例提供的一种票据的数据处理方法的流程示意图;
图5为本申请第五实施例提供的一种票据的数据处理装置的结构框图;
图6为本申请第六实施例提供的一种电子设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
请参阅图1,图1为本申请第一实施例提供的一种票据的数据处理方法的流程示意图。详述如下:
步骤S11:分别采用系统预设的第一检测引擎和第二检测引擎识别待检测票据,获得所述待检测票据结构化的第一内容数据和第二内容数据。
本实施例中,用于执行票据的数据处理系统内配置有利用不同训练数据样本进行模型训练获得的两种OCR(Optical Character Recognition,光学字符识别)检测引擎。其中,第一检测引擎为采用通用数据训练获得的OCR检测引擎,第二检测引擎则是采用医疗票据数据训练获得的专用于检测医疗票据的OCR检测引擎。当然,可以理解的是,第二检测引擎不仅限于是检测医疗票据的专用型OCR检测引擎,也可以是基于用户的实际使用场景配置的其他专用型OCR检测引擎。在本实施例中,通过采用上述两种OCR检测引擎对输入系统的待检测医疗票据进行识别,每一种检测引擎通过识别都可获得一份对应的结构化内容数据。在本实施例中,第一检测引擎通过对待检测票据进行识别获得结构化的第一内容数据,而第二检测引擎通过对该待检测票据进行识别则获得结构化的第二内容数据。第一内容数据和第二内容数据通常表现为表格数据。在本实施例中,OCR检测引擎具体的识别流程包括但不限于对输入图像进行二值化预处理、去噪预处理、倾斜校正预处理,版面分析处理、字符切割处理、字符识别处理、版面恢复处理以及纠错处理。
步骤S12:按票据结构比对所述第一内容数据和所述第二内容数据,判断所述第一内容数据和所述第二内容数据是否内容一致。
本实施例中,通过检测引擎识别获得的第一内容数据和第二内容数据表现为结构化的表格数据。在本实施例中,可以按照票据的表格数据结构,实现在表格中采用字段粒度进行内容数据的比对,通过遍历逐一比对两个检测引擎获得的表格中对应同一字段的文本数据是否一致,若两个表格中所有字段的比对都显示为一致时,即可判断所述第一内容数据和所述第二内容数据是否内容一致。若两个表格中存在一个或一个以上的字段的文本数据显示比对不一致,则判断所述第一内容数据和所述第二内容数据是否内容一致。
步骤S13:若所述第一内容数据和所述第二内容数据内容不一致,则获取不一致部分的内容数据作为待验证内容数据,将所述待验证内容数据分别与针对所述待验证内容数据采用标注获得的第三内容数据进行比对,获取比对结果显示为一致的内容数据作为票据结构化的内容数据输出。
本实施例中,通过比对将两个检测引擎分别获得的第一内容数据和第二内容数据的一致性来确定系统输出的票据结构化的内容数据,可以实现基于最少的人工参与完成高效、安全的医疗票据结构化数据转化的效果,有效保障输出的票据结构化的内容数据的准确度。若所述第一内容数据和所述第二内容数据内容一致时,直接输出检测引擎获得的内容数据作为票据结构化的内容数据。而当所述第一内容数据和所述第二内容数据内容不一致时,说明两个检测引擎检测出的内容数据存在争议,此时需要获取不一致部分的内容数据将作为待验证数据进行进一步的确认。在本实施例中,针对待验证内容数据,可以通过将其输入至系统的人工标注平台中,由人工标注平台从原始票据中获取与该待验证内容数据对应的原始票据信息,通过工作人员根据该获得的原始票据信息进行人工标注,输入人工识别获得第三内容数据。在本实施例中,工作人员获得的原始票据信息可以仅包含表头字段和不一致部分的字段,而其他字段均不可见,从而有效保障数据安全性。获得采用人工标注获得的第三内容数据后,将该第三内容数据与之前从两个检测引擎中分别获得的两份待验证内容数据分别进行比对,验证该两份待验证内容数据中是否存在一份待验证内容数据与第三内容数据一致,若存在,则将与第三内容数据比对显示为一致的待验证数据作为票据结构化的内容数据输出。在本实施例中,若与该次通过人工标注获得的第三内容数据比对后仍未能获得票据结构化的内容数据输出,即两份待验证内容数据均与该次通过人工标注获得的第三内容数据不一致,则可以通过人工标注模块引入第二个工作人员进行人工标注获得的内容数据与前面获得的第一内容数据、第二内容数据、第三内容数据分别进行比对,确定是否存在比对结果显示为一致的两份内容数据,若存在,则将该显示为一致的内容数据作为作为票据结构化的内容数据输出。否则以此类推进入第三个工作人员、第四个工作人员标注获得的内容数据进行比对,直至获得票据结构化的内容数据输出为止。
以上可以看出,本实施例提供的票据的数据处理方法具体通过利用不同训练数据样本进行模型训练获得的两种检测引擎对票据进行检测,获得针对该票据的两份结构化内容数据,然后按照票据结构比对两份结构化内容数据来确定该票据内容数据的准确性,当比对不一致时,通过引入人工标注的方式进一步地对内容数据进行验证,直到最终获得可以输出的内容数据为止。该方法通过模型训练可以实现对票据的精准识别,通过两种不同检测引擎获得的内容数据比对可以使得系统输出的结构化内容数据具有高准确度。而且通过系统的两种检测引擎来检测票据中各字段的内容数据,而在两种检测引擎的检测结果不一致的情况下引入人工标注对不一致部分的内容数据进行进一步的比对确认,可以有效提高数据处理效率。
本申请的一些实施例中,请参阅图2,图2为本申请第二实施例提供的一种票据的数据处理方法的流程示意图。详细如下:
步骤S21:通过对所述待检测票据进行特征提取,获取所述待检测票据的图像特征信息;
步骤S22:将所述待检测票据的图像特征信息与预设表格模板库中表格模板的表格划分特征比对,获取与所述待检测票据相匹配的表格模板;
步骤S23:分别采用第一检测引擎和第二检测引擎获取所述待检测票据中的字段信息,并基于所述表格模板的结构,将所述字段信息按字段对应填入到所述表格模板中,获得所述待检测票据结构化的第一内容数据和第二内容数据。
本实施例中,以医疗理赔流程为例,由于不同的医疗机构的票据会有所不同,本实施例通过收集一些指定参保医院的票据,构建一个表格模板库,在该表格模板库中,表个模板以图像格式存储,且针对每个表格模板记录有对应的表格划分特征,这些表格划分特征可作为系统为待检测票据匹配对应表格模板时的依据。输入系统的待检测票据同样为图像格式。在本实施例中,可以通过使用一种快速特征点提取和描述的算法(ORB算法)对待检测票据的图像进行特征点提取,获得该待检测票据的图像特征信息。在本实施例中,所述待检测票据的图像特征信息可以包括表格分割线信息、表格内容属性划分信息、表头属性信息中的一种或多种。当获得待检测票据的图像特征信息后,通过将该图像特征信息与所述预设表格模板库中针对各个表格模板对应记录的表格划分特征进行一一比对,可以获得待检测票据图像与各个表格模板之间的相似程度,然后基于预设相似度阈值来判断预设表格模板库中是否存在与待检测票据相匹配的表格模板,若存在,则获取该表格模板作为与所述待检测票据相匹配的表格模板。在本实施例中,相似度阈值可以通过多次相似票据图像的ORB模型输出数据获得。当获得与所述待检测票据相匹配的表格模板后,分别采用第一检测引擎和第二检测引擎获取所述待检测票据的字段信息,针对两个检测引擎对应获得的字段信息,基于所述表格模板的结构,将所述字段信息按字段对应填入到所述表格模板中,即可获得所述待检测票据结构化的内容数据。其中,基于第一检测引擎对应获得的字段信息,可获得结构化的第一内容数据,而基于第二检测引擎对应获得的字段信息,可获得结构化的第二内容数据。上述实施例通过匹配表格模板的方式对待检测票据的内容数据进行精准识别,解决了由于票据的种类多样,版式不一而导致的票据识别难度大,难以实现结构化数据输出的问题。
本申请的一些实施例中,请参阅图3,图3为本申请第三实施例提供的一种票据的数据处理方法的流程示意图。详细如下:
步骤S31:若基于所述预设表格模板库未能为所述待检测票据匹配到对应的表格模板,则对所述待检测票据进行表头检测,判断所述待检测票据是否具有表头;
步骤S32:若判断所述待检测票据无表头,分别采用所述第一检测引擎和所述第二检测引擎获取所述待检测票据中的字段信息后,比对两个检测引擎获得的字段信息之间是否每一行的字段数量一致以及比对每个检测引擎获得的字段信息中上下行之间的字段数量是否一致;
步骤S33:若两个检测引擎获得的字段信息中每一行的字段数量一致,且每个检测引擎获得的字段信息中上下行之间的字段数量一致,则针对每个检测引擎获得的字段信息分别按照字段数量在字段间的间隔处构建表格列分割线,生成与所述字段信息匹配的表格;
步骤S34:基于所述生成的表格的结构,分别将所述两个检测引擎获得的字段信息按字段对应填入所述表格中,获得所述待检测票据结构化的第一内容数据和第二内容数据。
本实施例中,由于预设表格模板库中的表格模板版式有限,可能存在基于所述预设表格模板库未能为所述待检测票据匹配到对应的表格模板的情况,在该情况下,本实施例可以通过对所述待检测票据进行表头检测,判断所述待检测票据是否具有表头,从而根据表头来对票据进行进一步的数据处理。在本实施例中,基于有表头与无表头的票据图像的主要区别在于有表头的图像有明显的票据标题文字,而且表头与其下方的表格有较明显的区分;而无表头的图像不带标题,而且图像内容均为相似表格内容,没有明显的区分。由此,系统可以通过训练一个表头图像检测模型来对待检测票据进行表头检测,通过检测图像中是否具有明显的区域划分来判断所述待检测票据是否具有表头。其中有明显区域划分即为有表头,而无明显区域划分即为无表头。对于无表头的待检测票据,票据通常表现为行线、列线均具备的表格形式,可以通过应用边缘检测算法进行行列线检测的方式来获得表格。但是,部分票据的表格可能仅有行线而没有列线,此种情况下,本实施例中在获取结构化的内容数据时,可以在分别采用所述第一检测引擎和所述第二检测引擎获取所述待检测票据中的字段信息后,通过比对两个检测引擎获得的字段信息之间是否每一行的字段数量一致以及比对每个检测引擎获得的字段信息中上下行之间的字段数量是否一致,可以确定该票据是否能够区分不同列。其中,通过比对确定两个检测引擎获得的字段信息之间每一行的字段数量一致时,可以确定两个检测引擎识别获得的字段信息具有一致的表格格式。通过比对确定每个检测引擎获得的字段信息中上下行之间的字段数量一致时,即行与行之间,字段是一一对应的,能够在表格中区分列。进而,针对每个检测引擎获得的字段信息分别按照字段数量在字段间的间隔处构建表格列分割线,生成与所述字段信息匹配的表格。进而基于该生成的表格的结构,分别将两个检测引擎获得的字段信息按字段对应填入所述表格中,即可获得所述待检测票据结构化的第一内容数据和第二内容数据。
本申请的一些实施例中,若两个检测引擎获得的字段信息中每一行的字段数量不一致和/或每个检测引擎获得的字段信息中上下行之间的字段数量不一致,说明此时系统无法明确该检测引擎获得的字段信息的表格列分割线。针对此种情况,本实施例还可以通过引入人工标注,对每个检测引擎获得的字段信息采用标注的方式构建表格列分割线,使系统可以明确表格列分割线位置,当明确列分割线后即可获得与检测引擎获得的字段信息对应的表格。在本实施例中,在引入人工标注构建表格列分割线时,可以通过建立坐标来判断可能存在列分割线的位置。举例说明,例如基于检测引擎识别到的字段信息确定分布在不同列的标记坐标点A(xA,yA)、B(xB,yB),根据相邻两个标记坐标点计算两点之间的线段方程为:(yB-yA)x+(xA-xB)y+xB*yA-xA*yB=0,其中,xA<x<xB。利用上述线段方程计算人工标注的每条列分割线中的每条线段,例如线段MN:(yN-yM)x+(xM-xN)y+xN*yM-xM*yN=0,其中,xN<x<xM。进而,将每条列分割线中的每条线段与相邻标记坐标点构建线段联立方程,计算两条线段在定义域内是否有且只有一个解,若是,则判断相邻的两个标记坐标点之间存在列分割线。可以理解的是,当方程组不考虑定义域时唯一解的横坐标为:
Figure BDA0002870073590000121
即如果唯一解的横坐标符合定义域要求xA<x<xB且xN<x<xM,则认为相邻两标记坐标点之间存在列分隔线。
本申请的一些实施例中,请参阅图4,图4为本申请第四实施例提供的一种票据的数据处理方法的流程示意图。详细如下:
步骤S41:若所述待检测票据有表头,则基于所述第一检测引擎和所述第二检测引擎获取的所述待检测票据的字段信息,确定所述待检测票据的表头列数以及所述待检测票据中字段信息对应行的列数;
步骤S42:将所述待检测票据的表头列数与所述待检测票据中字段信息对应行的列数比对,判断所述待检测票据的表头列数与所述待检测票据中字段信息对应行的列数是否一致;
步骤S43:若所述待检测票据的表头列数与所述待检测票据中字段信息对应行的列数一致,则按照所述列数构建表格列分割线,否则基于所述待检测票据中的字段信息采用标注方式构建表格列分割线,以生成与所述字段信息匹配的表格。
本实施例中,若所述待检测票据具有表头,通过所述第一检测引擎和所述第二检测引擎识别所述待检测票据可以获得待检测票据中表头的列数以及所述待检测票据中字段信息对应行的列数。其中,所述待检测票据中字段信息对应行具体为通过检测引擎识别获得的位于表头下方的字段信息所在的行。若存在多个字段信息对应行时,获取每个字段信息对应行的列数。在本实施例中,通过将所述待检测票据中表头的列数与所述待检测票据中字段信息对应行的列数比对,若所述待检测票据中表头的列数与所述待检测票据中字段信息对应行的列数一致,则说明表头字段与字段信息对应行中的各字段是一一对应的,可以按照所述列数构建表格列分割线,生成与所述字段信息匹配的表格。若所述待检测票据中表头的列数与所述待检测票据中字段信息对应行的列数不一致,则说明表头字段与字段信息对应行中的各字段分流不通过,此时可以基于所述待检测票据中的字段信息采用标注方式构建表格列分割线,生成与所述字段信息匹配的表格。本实施例基于所述第一检测引擎和所述第二检测引擎获取的所述待检测票据的字段信息,确定所述待检测票据的表头列数以及所述待检测票据中字段信息对应行的列数时,每个检测引擎都会获得一个表头列数,还需要对两个检测引擎获得的表头列数进行比对,判断两个检测引擎的检测结果是否一致,若不一致,则通过人工标注平台对所述待检测票据的原始票据图像进行人工识别,标注表头格子数(或字段数),将该获得的表头格子数(或字段数)与根据两个检测引擎获得的所述待检测票据的字段信息确定的表头列数分别进行比对,判断通过人工标注获得的表头格子数与通过检测引擎获得的表头列数是否匹配,即人工标注获得的表头格子数是否与通过检测引擎获得的其中一个表头列数相同,若有相同,则将该相同的数据作为所述待检测票据的表头列数,即人工提交的标注数据中如有和两种检测引擎中任何一种出现结果重合的情况时,以当次标注数据为最终数据。否则,通过人工标注平台对所述待检测票据的原始票据图像进行二次、三次...N次的人工识别,获得另一个工作人员标注得到的表头格子数(或字段数)与之前通过标注获得的所有表头格子数(或字段数)以及根据两个检测引擎确定的两个表头列数分别进行比对,直至出现有两个数值相同为止(即出现结果重合),输出该相同数值作为所述待检测票据的表头列数。
本申请的一些实施例中,还可以通过对用户输入的原始图像进行筛选处理获得提供给第一检测引擎和第二检测引擎进行识别的待检测票据。在本实施例中,在接收到用户输入的原始图像后,系统通过预设的边缘检测算法和图像分类算法对原始图像进行识别处理,获取满足所述预设的边缘检测算法和图像分类算法要求的原始图像设置为待检测票据。具体地,本实施例基于边缘检测算法判断该原始票据图像是否模糊以及基于图像分类算法判断该原始票据图像是否属于票据类别的图像,由此可以排除图像不清晰以及非票据图像的情况,提高系统的数据处理效率。其中,边缘检测算法主要实现方式包括通过对票据图像求二阶导数,获取票据图像中像素值发生剧烈变化的部分(即边缘)后,对边缘求方差,获取对应方差数值,通过方差的数值来判断票据图像是否模糊,方差计算结果越大表征原票据图像越清晰。另外,在进行边缘检测时还可以考虑阈值的设定和通过滤波消除噪声的影响。图像分类算法则主要依靠使用票据图像样本训练获得的图像分类模型进行筛选,用于排除非票据图像。
请参阅图5,图5为本申请第五实施例提供的一种票据的数据处理装置的结构框图。本实施例中该装置包括的各单元用于执行上述方法实施例中的各步骤。具体请参阅上述方法实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。如图5所示,票据的数据处理装置包括:获取模块51、比对模块52以及输出模块53。其中:所述获取模块51用于分别采用系统预设的第一检测引擎和第二检测引擎识别待检测票据,获得所述待检测票据结构化的第一内容数据和第二内容数据。所述比对模块52用于按票据结构比对所述第一内容数据和所述第二内容数据,判断所述第一内容数据和所述第二内容数据是否内容一致。所述输出模块53用于若所述第一内容数据和所述第二内容数据内容不一致,则获取不一致部分的内容数据作为待验证内容数据,将所述待验证内容数据分别与针对所述待验证内容数据采用标注方式获得的第三内容数据进行比对,获取比对结果显示为一致的内容数据作为票据结构化的内容数据输出。
应当理解的是,上述票据的数据处理装置,与上述的票据的数据处理方法一一对应,此处不再赘述。
请参阅图6,图6为本申请第六实施例提供的一种电子设备的结构框图。如图6所示,该实施例的电子设备6包括:处理器61、存储器62以及存储在所述存储器62中并可在所述处理器61上运行的计算机程序63,例如票据的数据处理方法的程序。处理器61执行所述计算机程序63时实现上述各个票据的数据处理方法各实施例中的步骤。或者,所述处理器61执行所述计算机程序63时实现上述票据的数据处理装置对应的实施例中各模块的功能。具体请参阅实施例中的相关描述,此处不赘述。
示例性的,所述计算机程序63可以被分割成一个或多个模块(单元),所述一个或者多个模块被存储在所述存储器62中,并由所述处理器61执行,以完成本申请。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序63在所述电子设备6中的执行过程。例如,所述计算机程序63可以被分割成获取模块、处理模块和执行模块,各模块具体功能如上所述。
所述转台设备可包括,但不仅限于,处理器61、存储器62。本领域技术人员可以理解,图6仅仅是电子设备6的示例,并不构成对电子设备6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述转台设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器61可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器62可以是所述电子设备6的内部存储单元,例如电子设备6的硬盘或内存。所述存储器62也可以是所述电子设备6的外部存储设备,例如所述电子设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器62还可以既包括所述电子设备6的内部存储单元也包括外部存储设备。所述存储器62用于存储所述计算机程序以及所述转台设备所需的其他程序和数据。所述存储器62还可以用于暂时地存储已经输出或者将要输出的数据。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。在本实施例中,所述计算机可读存储介质可以是非易失性,也可以是易失性。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在移动终端上运行时,使得移动终端执行时实现可实现上述各个方法实施例中的步骤。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种票据的数据处理方法,其特征在于,包括:
分别采用系统预设的第一检测引擎和第二检测引擎识别待检测票据,获得所述待检测票据结构化的第一内容数据和第二内容数据;
按票据结构比对所述第一内容数据和所述第二内容数据,判断所述第一内容数据和所述第二内容数据是否内容一致;
若所述第一内容数据和所述第二内容数据内容不一致,则获取不一致部分的内容数据作为待验证内容数据,将所述待验证内容数据分别与针对所述待验证内容数据采用标注方式获得的第三内容数据进行比对,获取比对结果显示为一致的内容数据作为票据结构化的内容数据输出。
2.根据权利要求1所述的票据的数据处理方法,其特征在于,所述分别采用系统预设的第一检测引擎和第二检测引擎识别待检测票据,获得所述待检测票据结构化的第一内容数据和第二内容数据的步骤,包括:
通过对所述待检测票据进行特征提取,获取所述待检测票据的图像特征信息;
将所述待检测票据的图像特征信息与预设表格模板库中表格模板的表格划分特征比对,获取与所述待检测票据相匹配的表格模板;
分别采用第一检测引擎和第二检测引擎获取所述待检测票据中的字段信息,并基于所述表格模板的结构,将所述字段信息按字段对应填入到所述表格模板中,获得所述待检测票据结构化的第一内容数据和第二内容数据。
3.根据权利要求2所述的票据的数据处理方法,其特征在于,所述待检测票据的图像特征信息至少包括以下一种或多种信息:表格分割线信息、表格内容属性划分信息、表头属性信息。
4.根据权利要求2所述的票据的数据处理方法,其特征在于,所述将所述待检测票据的特征信息与预设表格模板库中表格模板的表格划分特征比对,为所述待检测票据匹配对应的表格模板的步骤之后,还包括:
若基于所述预设表格模板库未能为所述待检测票据匹配到对应的表格模板,则对所述待检测票据进行表头检测,判断所述待检测票据是否具有表头;
若判断所述待检测票据无表头,则分别采用所述第一检测引擎和所述第二检测引擎获取所述待检测票据中的字段信息,并比对两个检测引擎获得的字段信息之间是否每一行的字段数量一致以及比对每个检测引擎获得的字段信息中上下行之间的字段数量是否一致;
若两个检测引擎获得的字段信息中每一行的字段数量一致,且每个检测引擎获得的字段信息中上下行之间的字段数量一致,则针对每个检测引擎获得的字段信息分别按照字段数量在字段间的间隔处构建表格列分割线,生成与所述字段信息匹配的表格;
基于所述生成的表格的结构,分别将所述两个检测引擎获得的字段信息按字段对应填入所述表格中,获得所述待检测票据结构化的第一内容数据和第二内容数据。
5.根据权利要求4所述的票据的数据处理方法,其特征在于,所述若判断所述待检测票据无表头,分别采用所述第一检测引擎和所述第二检测引擎获取所述待检测票据中的字段信息,并比对两个检测引擎获得的字段信息之间是否每一行的字段数量一致以及比对每个检测引擎获得的字段信息中上下行之间的字段数量是否一致的步骤之后,还包括:
若两个检测引擎获得的字段信息中每一行的字段数量不一致和/或每个检测引擎获得的字段信息中上下行之间的字段数量不一致,则针对每个检测引擎获得的字段信息采用标注的方式构建表格列分割线,生成与所述字段信息匹配的表格。
6.根据权利要求4所述的票据的数据处理方法,其特征在于,所述若基于所述预设表格模板库未能为所述待检测票据匹配到对应的表格模板,则对所述待检测票据进行表头检测,判断所述待检测票据是否具有表头的步骤之后,还包括:
若所述待检测票据有表头,则基于所述第一检测引擎和所述第二检测引擎获取的所述待检测票据的字段信息,确定所述待检测票据的表头列数以及所述待检测票据中字段信息对应行的列数;
将所述待检测票据的表头列数与所述待检测票据中字段信息对应行的列数比对,判断所述待检测票据的表头列数与所述待检测票据中字段信息对应行的列数是否一致;
若所述待检测票据的表头列数与所述待检测票据中字段信息对应行的列数一致,则按照所述列数构建表格列分割线,否则基于所述待检测票据中的字段信息采用标注方式构建表格列分割线,以生成与所述字段信息匹配的表格。
7.根据权利要求1所述的票据的数据处理方法,其特征在于,所述分别采用系统预设的第一检测引擎和第二检测引擎识别待检测票据,获得所述待检测票据结构化的第一内容数据和第二内容数据的步骤之前,还包括:
接收用户输入的原始图像,通过预设的边缘检测算法和图像分类算法对所述原始图像进行识别处理,获取满足所述预设的边缘检测算法和图像分类算法要求的原始图像设置为待检测票据。
8.一种票据的数据处理装置,其特征在于,包括:
获取模块,用于分别采用系统预设的第一检测引擎和第二检测引擎识别待检测票据,获得所述待检测票据结构化的第一内容数据和第二内容数据;
比对模块,用于按票据结构比对所述第一内容数据和所述第二内容数据,判断所述第一内容数据和所述第二内容数据是否内容一致;
输出模块,用于若所述第一内容数据和所述第二内容数据内容不一致,则获取不一致部分的内容数据作为待验证内容数据,将所述待验证内容数据分别与针对所述待验证内容数据采用标注方式获得的第三内容数据进行比对,获取比对结果显示为一致的内容数据作为票据结构化的内容数据输出。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
CN202011604259.9A 2020-12-29 2020-12-29 票据的数据处理方法、装置、电子设备及存储介质 Active CN112632926B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011604259.9A CN112632926B (zh) 2020-12-29 2020-12-29 票据的数据处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011604259.9A CN112632926B (zh) 2020-12-29 2020-12-29 票据的数据处理方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112632926A true CN112632926A (zh) 2021-04-09
CN112632926B CN112632926B (zh) 2023-10-31

Family

ID=75287479

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011604259.9A Active CN112632926B (zh) 2020-12-29 2020-12-29 票据的数据处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112632926B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113823002A (zh) * 2021-09-23 2021-12-21 上海哔哩哔哩科技有限公司 检票方法及装置
CN116912230A (zh) * 2023-08-11 2023-10-20 海格欧义艾姆(天津)电子有限公司 贴片焊接质量检测方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040071333A1 (en) * 2002-10-15 2004-04-15 Electronic Imaging Systems Corporation System and method for detecting cheque fraud
CN108446621A (zh) * 2018-03-14 2018-08-24 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质
CN109214385A (zh) * 2018-08-15 2019-01-15 腾讯科技(深圳)有限公司 数据采集方法、数据采集装置及存储介质
WO2019071662A1 (zh) * 2017-10-09 2019-04-18 平安科技(深圳)有限公司 电子装置、票据信息识别方法和计算机可读存储介质
CN109858453A (zh) * 2019-02-15 2019-06-07 浪潮通用软件有限公司 一种通用的多引擎票据识别系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040071333A1 (en) * 2002-10-15 2004-04-15 Electronic Imaging Systems Corporation System and method for detecting cheque fraud
WO2019071662A1 (zh) * 2017-10-09 2019-04-18 平安科技(深圳)有限公司 电子装置、票据信息识别方法和计算机可读存储介质
CN108446621A (zh) * 2018-03-14 2018-08-24 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质
CN109214385A (zh) * 2018-08-15 2019-01-15 腾讯科技(深圳)有限公司 数据采集方法、数据采集装置及存储介质
CN109858453A (zh) * 2019-02-15 2019-06-07 浪潮通用软件有限公司 一种通用的多引擎票据识别系统及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113823002A (zh) * 2021-09-23 2021-12-21 上海哔哩哔哩科技有限公司 检票方法及装置
CN116912230A (zh) * 2023-08-11 2023-10-20 海格欧义艾姆(天津)电子有限公司 贴片焊接质量检测方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN112632926B (zh) 2023-10-31

Similar Documents

Publication Publication Date Title
CN109886928B (zh) 一种目标细胞标记方法、装置、存储介质及终端设备
CN110503100B (zh) 一种医疗单据识别方法、装置、计算机装置及计算机可读存储介质
CN110765907A (zh) 一种基于深度学习的视频中试卷纸质文档信息提取系统及方法
CN111639648B (zh) 证件识别方法、装置、计算设备和存储介质
CN107491536B (zh) 一种试题校验方法、试题校验装置及电子设备
CN113569863B (zh) 一种单据稽查的方法、系统、电子设备及存储介质
CN113837151B (zh) 表格图像处理方法、装置、计算机设备及可读存储介质
CN112632926B (zh) 票据的数据处理方法、装置、电子设备及存储介质
CN113158895A (zh) 票据识别方法、装置、电子设备及存储介质
CN111462388A (zh) 一种票据检验方法、装置、终端设备及存储介质
CN114881698A (zh) 广告合规审核方法、装置、电子设备及存储介质
CN112347997A (zh) 一种试题检测识别方法、装置、电子设备及介质
CN112149401A (zh) 一种基于ocr的文档对比识别方法和系统
CN107168635A (zh) 信息呈现方法和装置
CN114005126A (zh) 表格重构方法、装置、计算机设备及可读存储介质
CN113486715A (zh) 图像翻拍识别方法、智能终端以及计算机存储介质
CN113159014A (zh) 基于手写题号的客观题批阅方法、装置、设备及存储介质
CN112560855A (zh) 图像信息提取方法、装置、电子设备及存储介质
CN112613367A (zh) 票据信息文本框获取方法、系统、设备及存储介质
CN110674678A (zh) 视频中敏感标志的识别方法及装置
CN111986015B (zh) 提取财务信息用于记账的方法和系统
CN115063784A (zh) 票据图像的信息提取方法和装置、存储介质及电子设备
CN114049686A (zh) 签名识别模型训练方法、装置及电子设备
CN113343968A (zh) 多模板证书快速审证方法、系统、介质及装置
CN111291726A (zh) 医疗票据分拣方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant