CN111858977A - 票据信息采集方法、装置、计算机设备和存储介质 - Google Patents

票据信息采集方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN111858977A
CN111858977A CN202010591862.1A CN202010591862A CN111858977A CN 111858977 A CN111858977 A CN 111858977A CN 202010591862 A CN202010591862 A CN 202010591862A CN 111858977 A CN111858977 A CN 111858977A
Authority
CN
China
Prior art keywords
bill
target
picture
ticket
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010591862.1A
Other languages
English (en)
Other versions
CN111858977B (zh
Inventor
徐伟豪
赵娟
彭举
胡帅
范为军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suning Cloud Computing Co Ltd
Original Assignee
Suning Cloud Computing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suning Cloud Computing Co Ltd filed Critical Suning Cloud Computing Co Ltd
Priority to CN202010591862.1A priority Critical patent/CN111858977B/zh
Publication of CN111858977A publication Critical patent/CN111858977A/zh
Application granted granted Critical
Publication of CN111858977B publication Critical patent/CN111858977B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/12Accounting
    • G06Q40/125Finance or payroll
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Character Input (AREA)

Abstract

本申请涉及一种票据信息采集方法、装置、计算机设备和存储介质。所述方法包括:获取目标票据图片;通过第一字符识别模型对所述目标票据图片进行识别,得到票面识别结果;根据所述票面识别结果获得所述目标票据图片的票据关键字段信息;根据所述目标票据图片的票据关键字段信息获得所述目标票据图片的票面详细信息。本申请实施例能够提高票据信息的识别成功率和准确率,且可应用于各类型的票据。

Description

票据信息采集方法、装置、计算机设备和存储介质
技术领域
本申请涉及数据采集技术领域,特别是涉及一种票据信息采集方法、装置、计算机设备和存储介质。
背景技术
传统的票据信息采集工作多由人工录入完成,存在大量重复手工操作,工作时间冗长且错误率较高。随着图像采集和文字识别技术的发展,也出现了利用文字识别技术采集票据信息的方案。然而,现有技术中的票面识别大多是全票面整体识别,识别成功率和准确率均无法得到很好的保证,识别结果与票据数据库中的具体明细数据存在差异。另外,现有技术中的票面识别大多仅针对具有标准格式的票据,应用场景十分有限。
发明内容
本发明针对现有技术的缺点,提供了一种用于采集票据信息的方法、装置、计算机设备和存储介质,本发明实施例能够提高票据信息的识别成功率和准确率,且可应用于各类型的票据。
本发明根据第一方面提供了一种票据信息采集方法,在一个实施例中,该方法包括:
获取目标票据图片;
通过第一字符识别模型对目标票据图片进行识别,得到票面识别结果;
根据票面识别结果获得目标票据图片的票据关键字段信息;
根据目标票据图片的票据关键字段信息获得目标票据图片的票面详细信息。
在其中一个实施例中,还包括:
确定目标票据图片的第一票据类型,目标票据图片的第一票据类型为标准票据或者非标准票据。
在其中一个实施例中,在确定目标票据图片的第一票据类型为标准票据时,上述的票面识别结果包括目标票据图片的第二票据类型、目标票据图片中的文字内容信息和目标票据图片中的文字位置信息;
上述的通过第一字符识别模型对目标票据图片进行识别,得到票面识别结果包括:
通过目标检测模型对目标票据图片进行识别,得到目标票据图片的第二票据类型和目标票据图片中的文字框位置信息;
根据目标票据图片中的文字框位置信息对目标票据图片进行文字内容识别,得到目标票据图片中的文字内容信息和目标票据图片中的文字位置信息。
在其中一个实施例中,在确定目标票据图片的第一票据类型为标准票据时,上述的根据票面识别结果获得目标票据图片的票据关键字段信息包括:
根据票面识别结果确定第一专项模型;
通过第一专项模型对目标票据图片进行识别,得到目标票据图片的票据关键字段信息。
在其中一个实施例中,上述的通过第一专项模型对目标票据图片进行识别,得到目标票据图片的票据关键字段信息包括:
获取目标票据图片对应的票据模板,票据模板上标定有关键字段位置信息;
对目标票据图片进行缩放处理,使得目标票据图片的像素数量与目标票据图片对应的票据模板相匹配,得到待识别目标票据图片;
根据票据模板上标定的关键字段位置信息对待识别目标票据图片进行字符识别,得到目标票据图片的票据关键字段信息。
在其中一个实施例中,在确定目标票据图片的第一票据类型为非标准票据时,上述的根据票面识别结果获得目标票据图片的票据关键字段信息包括:
根据票面识别结果确定目标票据图片的第三票据类型;
根据目标票据图片的第三票据类型确定第二专项模型;
通过第二专项模型对票面识别结果进行解析处理,得到目标票据图片的票据关键字段信息。
在其中一个实施例中,上述的根据目标票据图片的第三票据类型获得第二专项模型包括:
获取目标票据图片的第三票据类型对应的训练样本集;
根据训练样本集确定目标票据图片的第三票据类型对应的票面信息通用规则;
根据票面信息通用规则得到第二专项模型。
在其中一个实施例中,上述的通过第二专项模型对票面识别结果进行处理,得到目标票据图片的票据关键字段信息包括:
根据第三票据类型对应的票面信息通用规则对票面识别结果中数据的排列顺序进行调整,得到中间数据;
对中间数据进行正则处理,得到目标票据图片的票据关键字段信息。
在其中一个实施例中,上述的根据目标票据图片的票据关键字段信息获得目标票据图片的票面详细信息包括:
根据目标票据图片的票据关键字段信息在票据数据库中进行查验,得到目标票据图片的票面详细信息。
在其中一个实施例中,上述的票据数据库包括第一票据数据库和第二票据数据库;
上述的根据目标票据图片的票据关键字段信息在票据数据库中进行查验,得到目标票据图片的票面详细信息包括:
在第一票据数据库中查找与目标票据图片的票据关键字段信息相匹配的数据信息;
若第一票据数据库中存在与目标票据图片的票据关键字段信息相匹配的数据信息,根据第一票据数据库中与目标票据图片的票据关键字段信息相匹配的数据信息得到目标票据图片的票面详细信息;
若第一票据数据库中不存在与目标票据图片的票据关键字段信息相匹配的数据信息,获取来自第二数据库的与目标票据图片的票据关键字段信息相匹配的数据信息,根据来自第二数据库的与目标票据图片的票据关键字段信息相匹配的数据信息得到目标票据图片的票面详细信息,第二数据库部署于外部系统。
本发明根据第二方面提供了一种票据信息采集装置,在一个实施例中,该装置包括:
票据图片获取模块,用于获取目标票据图片;
票面识别模块,用于通过第一字符识别模型对目标票据图片进行识别,得到票面识别结果;
关键字段获取模块,用于根据票面识别结果获得目标票据图片的票据关键字段信息;
票面详细信息获取模块,用于根据目标票据图片的票据关键字段信息获得目标票据图片的票面详细信息。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取目标票据图片;
通过第一字符识别模型对目标票据图片进行识别,得到票面识别结果;
根据票面识别结果获得目标票据图片的票据关键字段信息;
根据目标票据图片的票据关键字段信息获得目标票据图片的票面详细信息。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取目标票据图片;
通过第一字符识别模型对目标票据图片进行识别,得到票面识别结果;
根据票面识别结果获得目标票据图片的票据关键字段信息;
根据目标票据图片的票据关键字段信息获得目标票据图片的票面详细信息。
上述票据信息采集方法、装置、计算机设备和存储介质,通过第一字符识别模型对目标票据图片进行识别,得到票面识别结果,实现了票据信息识别的机器化、自动化和智能化,避免了人工录入和大量重复操作,提高了识别效率;根据字符识别模型得到的票面识别结果获得目标票据图片的票据关键字段信息,再由该票据关键字段信息获取目标票据图片的票面详细信息,大程度提高了字符识别的成功率和准确率,并且可根据实际需要获取准确的票面详细信息。同时,也具有广泛的应用场景,适用于各类型的票据,可满足用户多样化的票面信息采集需求,并且高效提供可靠的识别结果。
附图说明
图1为一个实施例中票据信息采集方法的流程示意图;
图2为一个实施例中票面信息识别步骤的流程示意图;
图3为一个实施例中关键字段信息识别步骤的流程示意图;
图4为一个实施例中票据信息采集装置的结构框图;
图5为一个实施例中票面识别模块的细化结构框图;
图6为一个实施例中关键字段获取模块的细化结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的票据信息采集方法,可以应用于能够进行票据信息采集的系统,该系统可以由独立的服务器或者多个服务器组成的服务器集群来实现,也可以由其他网络侧设备实现。
在一个实施例中,如图1所示,提供了一种票据信息采集方法,包括以下步骤:
步骤102:获取目标票据图片。
其中,目标票据图片为本票据信息采集方法的应用对象,可以为各类型的票据图片,包括具有标准样式的票据图片,也包括其他各种各样的票据图片。
步骤104:通过第一字符识别模型对目标票据图片进行识别,得到票面识别结果。
其中,第一字符识别模型为可用于识别图像中字符信息的模型。
具体地,系统通过第一字符识别模型对目标票据图片进行识别并且得到相应的票面信息识别结果。在其中一个实施方式中,该第一字符识别模型可以为光学字符识别模型(Optical Character Recognition,OCR),该票面识别结果可以包括目标票据图片中所有文字的文字内容信息和每个文字对应的坐标信息,也可以包括目标票据图片的类型信息,还可以包括目标票据图片中的二维码信息或者条形码信息。
步骤106:根据票面识别结果获得目标票据图片的票据关键字段信息。
其中,目标票据图片的票据关键字段信息为目标票据图片中的部分特定信息,是根据实际情况预先选定的目标票据图片上的关键信息。比如,以目标票据图片为增值税专票为例,该目标票据图片的票据关键字段信息可以为发票号码、发票代码、票面金额和发票日期。
步骤108:根据目标票据图片的票据关键字段信息获得目标票据图片的票面详细信息。
其中,目标票据图片的票面详细信息为预先根据实际情况设定的目标票据图片上的部分或者全部信息。比如,以目标票据图片为增值税专票为例,该目标票据图片的完整票面信息可以设定为发票号码、发票代码、开票日期、不含税金额、税额、含税金额、购方税号、购方名称、销方税号、销方名称、备注和发票联次。
具体地,系统在获得目标票据图片的票据关键字段信息后,可以由此进一步获取目标票据图片的票面详细信息。例如,在其中一个实施方式中,系统可以根据目标票据图片的票据关键字段信息在相关票据数据库中进行查验,从而得到目标票据图片的票面详细信息。
在本实施例中,通过第一字符识别模型对目标票据图片进行识别,得到票面识别结果,实现了票据信息识别的机器化、自动化和智能化,避免了人工录入和大量重复操作,提高了识别效率;根据字符识别模型得到的票面识别结果获得目标票据图片的票据关键字段信息,再由该票据关键字段信息获取目标票据图片的票面详细信息,大幅度提高了字符识别的成功率和准确率,并且可根据实际需要获取准确的票面详细信息。同时,本实施例具有广泛的应用场景,适用于各类型票据,可满足用户多样化的票面信息采集需求,并且能够高效提供可靠的识别结果。
在一个实施例中,本方法还包括:确定目标票据图片的第一票据类型,目标票据图片的第一票据类型为标准票据或者非标准票据。
其中,标准票据为满足特定格式、大小、票面样式的票据。比如,标准票据可以包括增值税专票、火车票、机票等。非标准票据在格式上的统一性较弱,具有相同字段内容的票据可能对应于不同的格式排版,比如,非标准票据可以包括销货清单、价格文件等。系统可以先识别出目标票据图片的格式、尺寸大小和/或票面样式等信息,进而基于识别出的信息来确定出目标票据图片的第一票据类型是标准票据或是非标准票据。
在本实施例中,本方法不仅可应用于具有特定样式的标准票据,也适用于其他各类型的非标准票据,实现了广泛的应用场景,可满足多样化用户需求。
在一个实施例中,在确定目标票据图片的第一票据类型为标准票据时,
上述的票面识别结果包括目标票据图片的第二票据类型、目标票据图片中的文字内容信息和目标票据图片中的文字位置信息;
上述的通过第一字符识别模型对目标票据图片进行识别,得到票面识别结果,如图2所示,包括:
步骤202:通过目标检测模型对目标票据图片进行识别,得到目标票据图片的第二票据类型和目标票据图片中的文字框位置信息。
系统在确定出目标票据图片的第一票据类型为标准票据后,进一步确定目标票据图片的第二票据类型。其中,目标票据图片的第二票据类型为该标准票据的具体票据类型,比如,“增值税专票”,“火车票”等票据类型。
具体地,系统通过目标检测模型检测出目标票据图片中的文字区域,得到每个文字框在目标票据图片中的位置信息。在其中一个实施方式中,该目标检测模型可以为YOLO(You only look once)模型,系统可以通过YOLO模型识别出目标票据图片中每个文本框的坐标信息,也可以通过YOLO模型对目标票据图片进行图像语义分割,分析该票据图片的形状特征,由此得到该目标票据图片的第二票据类型。
步骤204:根据目标票据图片中的文字框位置信息对目标票据图片进行文字内容识别,得到目标票据图片中的文字内容信息和目标票据图片中的文字位置信息。
具体地,系统可以通过文字识别模型对目标票据图片中的文字区域进行识别,得到具体文字内容信息和每个文字对应的坐标位置信息。在其中一个实施方式中,系统可以通过基于CRNN(Convolutional Recurrent Neural Network)的文字识别模型对目标票据图片中的文字区域进行识别,得到具体文字内容信息和每个文字对应的坐标位置信息。
在本实施例中,实现了目标票据图片中所有文字内容和位置信息的识别,并且识别出目标票据图片的票据类型,达到了票据图片识别的自动化和智能化,节省了人力成本,减少了识别错误,大大提高了识别效率
在一个实施例中,在确定目标票据图片的第一票据类型为标准票据时,上述的根据票面识别结果获得目标票据图片的票据关键字段信息包括:
根据票面识别结果确定第一专项模型;
通过第一专项模型对目标票据图片进行识别,得到目标票据图片的票据关键字段信息。
其中,第一专项模型用于从目标票据图片上获取关键字段信息。
具体地,系统根据票面识别结果确定与该目标票据图片对应的第一专项模型,通过该第一专项模型对目标票据图片进行识别,即可得到目标票据图片的票据关键字段信息。在其中一个实施方式中,目标票据图片票面识别结果包括该目标票据图片的第二票据类型,系统可以根据该第二票据类型确定与目标票据图片对应的第一专项模型。
在本实施例中,利用目标票据图片对应的专项识别模型进行专项识别,获取关键字段识别信息,实现了特异性部分识别,可结合实际需求达到不同的识别结果,并且有效提高了识别成功率和准确率。
在一个实施例中,如图3所示,上述的通过第一专项模型对目标票据图片进行识别,得到目标票据图片的票据关键字段信息包括:
步骤302:获取目标票据图片对应的票据模板,票据模板上标定有关键字段位置信息。
具体地,由于标准票据的版式具有特定特征,系统可以生成与目标票据图片对应的票据模板,在该票据模板上标定关键字段位置信息。比如,以目标票据是增值税专票为例,系统可以按照增值税专票的长宽比例生成对应的图片模板,同时标定该模板中“发票号码”、“发票代码”、“票面金额”和“发票日期”的坐标位置。
步骤304:对目标票据图片进行缩放处理,使得目标票据图片的像素数量与目标票据图片对应的票据模板相匹配,得到待识别目标票据图片。
具体地,系统对目标票据图片进行等比例缩放处理,使其长宽像素数量均与该目标票据图片对应的票据模板相匹配,由此得到与该票据模板大小相同的待识别目标票据图片。
步骤306:根据票据模板上标定的关键字段位置信息对待识别目标票据图片进行字符识别,得到目标票据图片的票据关键字段信息。
具体地,在其中一个实施方式中,系统可以利用光学字符识别(OCR)模型对待识别目标票据图片进行字符识别,得到的票据关键字段信息可以包括“发票号码”、“发票代码”、“含税金额”、“不含税金额”、“税率”、“备注”对应的文字内容和坐标,以及识别结果标识。
在本实施例中,专项模型通过模版建立,关键字段位置标定和目标图片缩放匹配得到目标票据图片的关键字段信息,通过清晰可靠的执行过程得到具有高准确性的识别结果。
在一个实施例中,在确定目标票据图片的第一票据类型为非标准票据时,上述的根据票面识别结果获得目标票据图片的票据关键字段信息包括:
根据票面识别结果确定目标票据图片的第三票据类型;
根据目标票据图片的第三票据类型确定第二专项模型;
通过第二专项模型对票面识别结果进行处理,得到目标票据图片的票据关键字段信息。
其中,第三票据类型是基于非标准票据票面样式差异化特征得到的票据具体类型,比如某产品的价格文件等。
具体地,以目标票据图片为A商场的一张销货清单为例进行说明,系统在获取票面识别结果后,可以根据该票面识别结果分析差异性特征。比如,该目标票据图片的正上方标题可能包含“销货清单”四个字,该目标票据图片中也可能包含A商场的商场名称或标识;系统通过分析该差异性特征得到该目标票据图片的第三票据类型为“A商场销货清单”;该销货清单的票据关键字段信息可以包括:“货物名称”、“货号”、“数量”和“单价”,第二专项模型用于对票面识别结果进行解析处理,得到该关键字段信息。
在本实施例中,对于特定非标准票据图片,针对性采用与之对应的专项模型识别关键字段信息,可实现大量多样化票据的关键字段信息识别。
在一个实施例中,上述的根据目标票据图片的第三票据类型获得第二专项模型包括:
获取目标票据图片的第三票据类型对应的训练样本集;
根据训练样本集确定目标票据图片的第三票据类型对应的票面信息通用规则;
根据票面信息通用规则得到第二专项模型。
具体地,系统可以获取大量与目标票据图片具有相同第三票据类型的票据作为训练样本集,系统可以对该训练样本集中的票据进行分析,得到该类型票据具有的一些通用票据规则,比如金额的格式为大写数字、该票据号码的位数、具体字段名称等。系统再根据第三票据类型对应的票面信息通用规则得到可用于获取该类型票据上关键字段信息的第二专项模型。
在本实施例中,通过分析该票据类型的票面通用规则建立非标准票据的专项模型,达到对非标准票据进行特征化关键字段识别,实现非标准票据信息识别的智能化。
在一个实施例中,上述的通过第二专项模型对票面识别结果进行处理,得到目标票据图片的票据关键字段信息包括:
根据第三票据类型对应的票面信息通用规则对票面识别结果中数据的排列顺序进行调整,得到中间数据;
对中间数据进行正则处理,得到目标票据图片的票据关键字段信息。
具体地,在其中一个实施方式中,系统可以通过坐标的水平投影将文字分行,获取阈值,从而截取一行的识别信息,然后通过数据排序得到一整行的完整信息。再根据之前确定的票面通用规则对该排序进行调整得到中间数据,并通过正则匹配的方式从该中间数据中获取相应关键字段信息。在另一个实施方式中,系统还可以通过坐标对目标票据图片的关键部分(比如,目标票据图片中的关键字段部分或者无法成功识别的部分)进行裁剪或标注,将该关键部分作为独立图片调用OCR通用识别接口进行识别,提高识别率。
在本实施例中,利用票面通用规则对票面识别结果进行正则处理,由此得到目标票据图片的关键字段信息,采用灵活高效的执行过程实现非标准票据的关键字段信息特征化识别。
在一个实施例中,上述的根据目标票据图片的票据关键字段信息获得目标票据图片的票面详细信息包括:
根据目标票据图片的票据关键字段信息在票据数据库中进行查验,得到目标票据图片的票面详细信息。
具体地,系统在获得目标票据图片的票据关键字段信息后,可以根据该关键字段信息在相关票据数据库中查找该目标票据图片的数据信息,由此得到目标票据图片的票面详细信息。比如,系统可以根据目标票据图片的票据关键字段信息在相关业务平台数据库中查询有关数据。
在本实施例中,通过关键字段信息在票据数据库中查询票面详细信息,可根据实际需要获得准确的票面详细信息。
在一个实施例中,上述的据数据库包括第一票据数据库和第二票据数据库;
上述的根据目标票据图片的票据关键字段信息在票据数据库中进行查验,得到目标票据图片的票面详细信息包括:
在第一票据数据库中查找与目标票据图片的票据关键字段信息相匹配的数据信息;
若第一票据数据库中存在与目标票据图片的票据关键字段信息相匹配的数据信息,根据第一票据数据库中与目标票据图片的票据关键字段信息相匹配的数据信息得到目标票据图片的票面详细信息;
若第一票据数据库中不存在与目标票据图片的票据关键字段信息相匹配的数据信息,获取来自第二数据库的与目标票据图片的票据关键字段信息相匹配的数据信息,根据来自第二数据库的与目标票据图片的票据关键字段信息相匹配的数据信息得到目标票据图片的票面详细信息,第二数据库部署于外部系统。
具体地,系统在获得票据关键字段信息后,先在第一数据库中查询与该票据关键字段信息匹配的票据数据信息,该第一数据库可以与系统部署在同一个服务器或者同一个服务器集群中。若第一数据库中不存在与该票据关键字段信息匹配的票据数据信息,系统再从第二数据库中查找,该第二数据库部署于外部系统,第二数据库中可查询到的票据信息可以多于第一数据库。比如,以目标票据图片为增值税专票为例进行说明,系统可以建立一个本地发票数据库,该本地发票数据库可以作为本实施例中的第一数据库,系统在获取票据关键字段信息后,先在本地发票数据库中进行查验,若该本地发票数据库中不存在有关信息,系统可以接着通过税局借口到税局数据库中进行查验,该税局数据库即为本实施例中的第二数据库。再比如,以目标票据图片为A商场的销货清单为例,系统可以建立一个本地销货清单数据库,该本地销货清单数据库可以作为本实施例中的第一数据库,系统在获取票据关键字段信息后,先在本地销货清单数据库中进行查验,若该本地销货清单数据库中不存在有关信息,系统可以接着从A商场相关业务平台中的数据库进行查验,该A商场相关业务平台中的数据库即为本实施例中的第二数据库。
在本实施例中,可实现数据查询速度的大幅提升,使得整个票面信息采集流程高效。
在一个实施例中,在得到票面识别结果后,还根据该票面识别结果将将可用于识别票据关键字段信息的专项模型进行封装,封装好的模型可供外部系统调用,提供了规范、易处理的模型数据。
在一个实施例中,得到票据关键字段信息后,通过业务系统主动反馈或由系统在业务数据中采集错误的关键字段识别结果以及相应的正确信息,可供专项模型进一步训练。
在一个实施例中,可以先获取初始票据图片,对初始票据图片进行图像处理后得到目标票据图片。该图像处理可以包括边缘无效部分剪切、PS识别过滤虚假图片等。
应该理解的是,虽然图1-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种票据信息采集装置,包括:票据图片获取模块、票面识别模块、关键字段获取模块和票面详细信息获取模块,其中:
票据图片获取模块402,用于获取目标票据图片;
票面识别模块404,用于通过第一字符识别模型对目标票据图片进行识别,得到票面识别结果;
关键字段获取模块406,用于根据票面识别结果获得目标票据图片的票据关键字段信息;
票面详细信息获取模块408,用于根据目标票据图片的票据关键字段信息获得目标票据图片的票面详细信息。
在一个实施例中,本装置还包括:
确定模块(图中未示出),用于确定目标票据图片的第一票据类型,目标票据图片的第一票据类型为标准票据或者非标准票据。
在一个实施例中,在上述的确定模块确定目标票据图片的第一票据类型为标准票据时,上述的票面识别结果包括目标票据图片的第二票据类型、目标票据图片中的文字内容信息和目标票据图片中的文字位置信息。
在一个实施例中,如图5所示,上述的票面识别模块404可以包括:
第一识别单元502,用于在上述的确定模块确定目标票据图片的第一票据类型为标准票据时,通过目标检测模型对目标票据图片进行识别,得到目标票据图片的第二票据类型和目标票据图片中的文字框位置信息;
第二识别单元504,用于在上述的确定模块确定目标票据图片的第一票据类型为标准票据时,根据目标票据图片中的文字框位置信息对目标票据图片进行文字内容识别,得到目标票据图片中的文字内容信息和目标票据图片中的文字位置信息。
在一个实施例中,上述的关键字段获取模块406可以包括:
第一确定单元(图中未示出),用于在确定目标票据图片的第一票据类型为标准票据时,根据票面识别结果确定第一专项模型;
第三识别单元(图中未示出),用于在确定目标票据图片的第一票据类型为标准票据时,通过第一专项模型对目标票据图片进行识别,得到目标票据图片的票据关键字段信息。
在一个实施例中,上述的第三识别单元可以包括:
第一获取单元602,用于获取目标票据图片对应的票据模板,票据模板上标定有关键字段位置信息;
图片处理单元604,用于对目标票据图片进行缩放处理,使得目标票据图片的像素数量与目标票据图片对应的票据模板相匹配,得到待识别目标票据图片;
第四识别单元606,用于根据票据模板上标定的关键字段位置信息对待识别目标票据图片进行字符识别,得到目标票据图片的票据关键字段信息。
在一个实施例中,上述的关键字段获取模块406可以包括:
第二确定单元(图中未示出),用于在确定目标票据图片的第一票据类型为非标准票据时,根据票面识别结果确定目标票据图片的第三票据类型;
第三确定单元(图中未示出),用于在确定目标票据图片的第一票据类型为非标准票据时,根据目标票据图片的第三票据类型确定第二专项模型;
第四确定单元(图中未示出),用于在确定目标票据图片的第一票据类型为非标准票据时,通过第二专项模型对票面识别结果进行处理,得到目标票据图片的票据关键字段信息。
在一个实施例中,上述的第三确定单元可以包括:
第二获取单元(图中未示出),用于获取目标票据图片的第三票据类型对应的训练样本集;
第五确定单元(图中未示出),用于根据训练样本集确定目标票据图片的第三票据类型对应的票面信息通用规则;
第六确定单元(图中未示出),用于根据票面信息通用规则得到第二专项模型。
在一个实施例中,上述的第四确定单元可以包括:
第七确定单元(图中未示出),用于根据第三票据类型对应的票面信息通用规则对票面识别结果中数据的排列顺序进行调整,得到中间数据;
第八确定单元(图中未示出),用于对中间数据进行正则处理,得到目标票据图片的票据关键字段信息。
在一个实施例中,上述的票面详细信息获取模块408可以包括:
第九确定单元(图中未示出),用于根据目标票据图片的票据关键字段信息在票据数据库中进行查验,得到目标票据图片的票面详细信息。
在一个实施例中,上述的第九确定单元可以包括:
第一查验单元(图中未示出),用于在第一票据数据库中查找与目标票据图片的票据关键字段信息相匹配的数据信息;
第十确定单元(图中未示出),用于在第一票据数据库中存在与目标票据图片的票据关键字段信息相匹配的数据信息时,根据第一票据数据库中与目标票据图片的票据关键字段信息相匹配的数据信息得到目标票据图片的票面详细信息;
第十一确定单元(图中未示出),用于在第一票据数据库中不存在与目标票据图片的票据关键字段信息相匹配的数据信息时,获取来自第二数据库的与目标票据图片的票据关键字段信息相匹配的数据信息,根据来自第二数据库的与目标票据图片的票据关键字段信息相匹配的数据信息得到目标票据图片的票面详细信息,第二数据库部署于外部系统。
关于票据信息采集装置的具体限定可以参见上文中对于票据信息采集方法的限定,在此不再赘述。上述票据信息采集装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储票据信息采集数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种票据信息采集方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取目标票据图片;
通过第一字符识别模型对目标票据图片进行识别,得到票面识别结果;
根据票面识别结果获得目标票据图片的票据关键字段信息;
根据目标票据图片的票据关键字段信息获得目标票据图片的票面详细信息。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:确定目标票据图片的第一票据类型,目标票据图片的第一票据类型为标准票据或者非标准票据。
在一个实施例中,在确定目标票据图片的第一票据类型为标准票据时,票面识别结果包括目标票据图片的第二票据类型、目标票据图片中的文字内容信息和目标票据图片中的文字位置信息;处理器执行计算机程序实现上述的通过第一字符识别模型对目标票据图片进行识别,得到票面识别结果时还具体实现以下步骤:
通过目标检测模型对目标票据图片进行识别,得到目标票据图片的第二票据类型和目标票据图片中的文字框位置信息;
根据目标票据图片中的文字框位置信息对目标票据图片进行文字内容识别,得到目标票据图片中的文字内容信息和目标票据图片中的文字位置信息。
在一个实施例中,在确定目标票据图片的第一票据类型为标准票据时,处理器执行计算机程序实现上述的根据票面识别结果获得目标票据图片的票据关键字段信息时还具体实现以下步骤:
根据票面识别结果确定第一专项模型;
通过第一专项模型对目标票据图片进行识别,得到目标票据图片的票据关键字段信息。
在一个实施例中,处理器执行计算机程序实现上述的通过第一专项模型对目标票据图片进行识别,得到目标票据图片的票据关键字段信息时还具体实现以下步骤:
获取目标票据图片对应的票据模板,票据模板上标定有关键字段位置信息;
对目标票据图片进行缩放处理,使得目标票据图片的像素数量与目标票据图片对应的票据模板相匹配,得到待识别目标票据图片;
根据票据模板上标定的关键字段位置信息对待识别目标票据图片进行字符识别,得到目标票据图片的票据关键字段信息。
在一个实施例中,在确定目标票据图片的第一票据类型为非标准票据时,处理器执行计算机程序实现上述的根据票面识别结果获得目标票据图片的票据关键字段信息时还具体实现以下步骤:
根据票面识别结果确定目标票据图片的第三票据类型;
根据目标票据图片的第三票据类型确定第二专项模型;
通过第二专项模型对票面识别结果进行处理,得到目标票据图片的票据关键字段信息。
在一个实施例中,处理器执行计算机程序实现上述的根据目标票据图片的第三票据类型获得第二专项模型时还具体实现以下步骤:
获取目标票据图片的第三票据类型对应的训练样本集;
根据训练样本集确定目标票据图片的第三票据类型对应的票面信息通用规则;
根据票面信息通用规则得到第二专项模型。
在一个实施例中,处理器执行计算机程序实现上述的通过第二专项模型对票面识别结果进行处理,得到目标票据图片的票据关键字段信息时还具体实现以下步骤:
根据第三票据类型对应的票面信息通用规则对票面识别结果中数据的排列顺序进行调整,得到中间数据;
对中间数据进行正则处理,得到目标票据图片的票据关键字段信息。
在一个实施例中,处理器执行计算机程序实现上述的根据目标票据图片的票据关键字段信息获得目标票据图片的票面详细信息时还具体实现以下步骤:
根据目标票据图片的票据关键字段信息在票据数据库中进行查验,得到目标票据图片的票面详细信息。
在一个实施例中,票据数据库包括第一票据数据库和第二票据数据库;处理器执行计算机程序实现上述的根据目标票据图片的票据关键字段信息在票据数据库中进行查验,得到目标票据图片的票面详细信息时还具体实现以下步骤:
在第一票据数据库中查找与目标票据图片的票据关键字段信息相匹配的数据信息;
若第一票据数据库中存在与目标票据图片的票据关键字段信息相匹配的数据信息,根据第一票据数据库中与目标票据图片的票据关键字段信息相匹配的数据信息得到目标票据图片的票面详细信息;
若第一票据数据库中不存在与目标票据图片的票据关键字段信息相匹配的数据信息,获取来自第二数据库的与目标票据图片的票据关键字段信息相匹配的数据信息,根据来自第二数据库的与目标票据图片的票据关键字段信息相匹配的数据信息得到目标票据图片的票面详细信息,第二数据库部署于外部系统。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取目标票据图片;
通过第一字符识别模型对目标票据图片进行识别,得到票面识别结果;
根据票面识别结果获得目标票据图片的票据关键字段信息;
根据目标票据图片的票据关键字段信息获得目标票据图片的票面详细信息。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:确定目标票据图片的第一票据类型,目标票据图片的第一票据类型为标准票据或者非标准票据。
在一个实施例中,在确定目标票据图片的第一票据类型为标准票据时,票面识别结果包括目标票据图片的第二票据类型、目标票据图片中的文字内容信息和目标票据图片中的文字位置信息;计算机程序被处理器执行上述的通过第一字符识别模型对目标票据图片进行识别,得到票面识别结果时还具体实现以下步骤:
通过目标检测模型对目标票据图片进行识别,得到目标票据图片的第二票据类型和目标票据图片中的文字框位置信息;
根据目标票据图片中的文字框位置信息对目标票据图片进行文字内容识别,得到目标票据图片中的文字内容信息和目标票据图片中的文字位置信息。
在一个实施例中,在确定目标票据图片的第一票据类型为标准票据时,计算机程序被处理器执行上述的根据票面识别结果获得目标票据图片的票据关键字段信息时还具体实现以下步骤:
根据票面识别结果确定第一专项模型;
通过第一专项模型对目标票据图片进行识别,得到目标票据图片的票据关键字段信息。
在一个实施例中,计算机程序被处理器执行上述的通过第一专项模型对目标票据图片进行识别,得到目标票据图片的票据关键字段信息时还具体实现以下步骤:
获取目标票据图片对应的票据模板,票据模板上标定有关键字段位置信息;
对目标票据图片进行缩放处理,使得目标票据图片的像素数量与目标票据图片对应的票据模板相匹配,得到待识别目标票据图片;
根据票据模板上标定的关键字段位置信息对待识别目标票据图片进行字符识别,得到目标票据图片的票据关键字段信息。
在一个实施例中,在确定目标票据图片的第一票据类型为非标准票据时,计算机程序被处理器执行上述的根据票面识别结果获得目标票据图片的票据关键字段信息时还具体实现以下步骤:
根据票面识别结果确定目标票据图片的第三票据类型;
根据目标票据图片的第三票据类型确定第二专项模型;
通过第二专项模型对票面识别结果进行处理,得到目标票据图片的票据关键字段信息。
在一个实施例中,计算机程序被处理器执行上述的根据目标票据图片的第三票据类型获得第二专项模型时还具体实现以下步骤:
获取目标票据图片的第三票据类型对应的训练样本集;
根据训练样本集确定目标票据图片的第三票据类型对应的票面信息通用规则;
根据票面信息通用规则得到第二专项模型。
在一个实施例中,计算机程序被处理器执行上述的通过第二专项模型对票面识别结果进行处理,得到目标票据图片的票据关键字段信息时还具体实现以下步骤:
根据第三票据类型对应的票面信息通用规则对票面识别结果中数据的排列顺序进行调整,得到中间数据;
对中间数据进行正则处理,得到目标票据图片的票据关键字段信息。
在一个实施例中,计算机程序被处理器执行上述的根据目标票据图片的票据关键字段信息获得目标票据图片的票面详细信息时还具体实现以下步骤:
根据目标票据图片的票据关键字段信息在票据数据库中进行查验,得到目标票据图片的票面详细信息。
在一个实施例中,票据数据库包括第一票据数据库和第二票据数据库;计算机程序被处理器执行上述的根据目标票据图片的票据关键字段信息在票据数据库中进行查验,得到目标票据图片的票面详细信息时还具体实现以下步骤:
在第一票据数据库中查找与目标票据图片的票据关键字段信息相匹配的数据信息;
若第一票据数据库中存在与目标票据图片的票据关键字段信息相匹配的数据信息,根据第一票据数据库中与目标票据图片的票据关键字段信息相匹配的数据信息得到目标票据图片的票面详细信息;
若第一票据数据库中不存在与目标票据图片的票据关键字段信息相匹配的数据信息,获取来自第二数据库的与目标票据图片的票据关键字段信息相匹配的数据信息,根据来自第二数据库的与目标票据图片的票据关键字段信息相匹配的数据信息得到目标票据图片的票面详细信息,第二数据库部署于外部系统。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种票据信息采集方法,其特征在于,所述方法包括:
获取目标票据图片;
通过第一字符识别模型对所述目标票据图片进行识别,得到票面识别结果;
根据所述票面识别结果获得所述目标票据图片的票据关键字段信息;
根据所述目标票据图片的票据关键字段信息获得所述目标票据图片的票面详细信息。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述目标票据图片的第一票据类型,所述目标票据图片的第一票据类型为标准票据或者非标准票据。
3.根据权利要求2所述的方法,其特征在于,在确定所述目标票据图片的第一票据类型为标准票据时,
所述票面识别结果包括所述目标票据图片的第二票据类型、所述目标票据图片中的文字内容信息和所述目标票据图片中的文字位置信息;
所述通过第一字符识别模型对所述目标票据图片进行识别,得到票面识别结果包括:
通过目标检测模型对所述目标票据图片进行识别,得到所述目标票据图片的第二票据类型和所述目标票据图片中的文字框位置信息;
根据所述目标票据图片中的文字框位置信息对所述目标票据图片进行文字内容识别,得到所述目标票据图片中的文字内容信息和所述目标票据图片中的文字位置信息。
4.根据权利要求2所述的方法,其特征在于,在确定所述目标票据图片的第一票据类型为标准票据时,
所述根据所述票面识别结果获得所述目标票据图片的票据关键字段信息包括:
根据所述票面识别结果确定第一专项模型;
通过所述第一专项模型对所述目标票据图片进行识别,得到所述目标票据图片的票据关键字段信息。
5.根据权利要求4所述的方法,其特征在于,所述通过所述第一专项模型对所述目标票据图片进行识别,得到所述目标票据图片的票据关键字段信息包括:
获取所述目标票据图片对应的票据模板,所述票据模板上标定有关键字段位置信息;
对所述目标票据图片进行缩放处理,使得所述目标票据图片的像素数量与所述目标票据图片对应的票据模板相匹配,得到待识别目标票据图片;
根据所述票据模板上标定的关键字段位置信息对所述待识别目标票据图片进行字符识别,得到所述目标票据图片的票据关键字段信息。
6.根据权利要求2所述的方法,其特征在于,在确定所述目标票据图片的第一票据类型为非标准票据时,
所述根据所述票面识别结果获得所述目标票据图片的票据关键字段信息包括:
根据所述票面识别结果确定所述目标票据图片的第三票据类型;
根据所述目标票据图片的第三票据类型确定第二专项模型;
通过所述第二专项模型对所述票面识别结果进行处理,得到所述目标票据图片的票据关键字段信息;
优选地,所述根据所述目标票据图片的第三票据类型获得第二专项模型包括:
获取所述目标票据图片的第三票据类型对应的训练样本集;
根据所述训练样本集确定所述目标票据图片的第三票据类型对应的票面信息通用规则;
根据所述票面信息通用规则得到所述第二专项模型;
进一步优选地,所述通过所述第二专项模型对所述票面识别结果进行处理,得到所述目标票据图片的票据关键字段信息包括;
根据所述第三票据类型对应的票面信息通用规则对票面识别结果中数据的排列顺序进行调整,得到中间数据;
对所述中间数据进行正则处理,得到所述目标票据图片的票据关键字段信息。
7.根据权利要求1-6中任意一项所述的方法,其特征在于,所述根据所述目标票据图片的票据关键字段信息获得所述目标票据图片的票面详细信息包括:
根据所述目标票据图片的票据关键字段信息在票据数据库中进行查验,得到所述目标票据图片的票面详细信息。
优选地,所述票据数据库包括第一票据数据库和第二票据数据库;
所述根据所述目标票据图片的票据关键字段信息在票据数据库中进行查验,得到所述目标票据图片的票面详细信息包括:
在所述第一票据数据库中查找与所述目标票据图片的票据关键字段信息相匹配的数据信息;
若所述第一票据数据库中存在与所述目标票据图片的票据关键字段信息相匹配的数据信息,根据所述第一票据数据库中与所述目标票据图片的票据关键字段信息相匹配的数据信息得到所述目标票据图片的票面详细信息;
若所述第一票据数据库中不存在与所述目标票据图片的票据关键字段信息相匹配的数据信息,获取来自所述第二数据库的与所述目标票据图片的票据关键字段信息相匹配的数据信息,根据所述来自所述第二数据库的与所述目标票据图片的票据关键字段信息相匹配的数据信息得到所述目标票据图片的票面详细信息,所述第二数据库部署于外部系统。
8.一种票据信息采集装置,其特征在于,所述装置包括:
票据图片获取模块,用于获取目标票据图片;
票面识别模块,用于通过第一字符识别模型对所述目标票据图片进行识别,得到票面识别结果;
关键字段获取模块,用于根据所述票面识别结果获得所述目标票据图片的票据关键字段信息;
票面详细信息获取模块,用于根据所述目标票据图片的票据关键字段信息获得所述目标票据图片的票面详细信息。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202010591862.1A 2020-06-24 2020-06-24 票据信息采集方法、装置、计算机设备和存储介质 Active CN111858977B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010591862.1A CN111858977B (zh) 2020-06-24 2020-06-24 票据信息采集方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010591862.1A CN111858977B (zh) 2020-06-24 2020-06-24 票据信息采集方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN111858977A true CN111858977A (zh) 2020-10-30
CN111858977B CN111858977B (zh) 2023-04-21

Family

ID=72988201

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010591862.1A Active CN111858977B (zh) 2020-06-24 2020-06-24 票据信息采集方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN111858977B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326895A (zh) * 2021-06-25 2021-08-31 湖南星汉数智科技有限公司 客票行程单识别方法、装置、计算机设备和存储介质
CN114419651A (zh) * 2022-03-03 2022-04-29 深圳依时货拉拉科技有限公司 智能票据识别方法、计算机可读存储介质及计算机设备
CN117437506A (zh) * 2023-12-20 2024-01-23 深圳兔展智能科技有限公司 训练样本生成方法、装置、计算机设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160162995A1 (en) * 2014-12-04 2016-06-09 Siemens Technology And Services Pvt. Ltd. Method and system for duplicate invoice entry detection
CN108777021A (zh) * 2018-05-18 2018-11-09 北京大账房网络科技股份有限公司 一种基于扫描仪混扫的票据识别方法及系统
CN109658584A (zh) * 2018-12-14 2019-04-19 泰康保险集团股份有限公司 一种票据票据识别方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160162995A1 (en) * 2014-12-04 2016-06-09 Siemens Technology And Services Pvt. Ltd. Method and system for duplicate invoice entry detection
CN108777021A (zh) * 2018-05-18 2018-11-09 北京大账房网络科技股份有限公司 一种基于扫描仪混扫的票据识别方法及系统
CN109658584A (zh) * 2018-12-14 2019-04-19 泰康保险集团股份有限公司 一种票据票据识别方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326895A (zh) * 2021-06-25 2021-08-31 湖南星汉数智科技有限公司 客票行程单识别方法、装置、计算机设备和存储介质
CN114419651A (zh) * 2022-03-03 2022-04-29 深圳依时货拉拉科技有限公司 智能票据识别方法、计算机可读存储介质及计算机设备
CN117437506A (zh) * 2023-12-20 2024-01-23 深圳兔展智能科技有限公司 训练样本生成方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN111858977B (zh) 2023-04-21

Similar Documents

Publication Publication Date Title
CN111476227B (zh) 基于ocr的目标字段识别方法、装置及存储介质
CN111898411B (zh) 文本图像标注系统、方法、计算机设备和存储介质
CN111858977B (zh) 票据信息采集方法、装置、计算机设备和存储介质
CN110569341B (zh) 配置聊天机器人的方法、装置、计算机设备和存储介质
CN114359553B (zh) 一种基于物联网的签章定位方法、系统及存储介质
CN111444795A (zh) 票据数据识别方法、电子设备、存储介质及装置
CN111310426A (zh) 基于ocr的表格版式恢复方法、装置及存储介质
CN112396047B (zh) 训练样本生成方法、装置、计算机设备和存储介质
CN113255642A (zh) 一种用于人伤理赔的医疗票据信息整合方法
CN114092938B (zh) 图像的识别处理方法、装置、电子设备及存储介质
CN112580499A (zh) 文本识别方法、装置、设备及存储介质
CN110796145A (zh) 基于智能决策的多证件分割关联方法及相关设备
CN112381087A (zh) 结合rpa和ai的图像识别方法、装置、计算机设备和介质
CN112580108A (zh) 签名和印章完整性验证方法及计算机设备
CN115546809A (zh) 基于单元格约束的表格结构识别方法及其应用
CN114357174B (zh) 基于ocr和机器学习的代码分类系统及方法
CN110414518B (zh) 网址识别方法、装置、计算机设备和存储介质
CN110580507A (zh) 一种城市肌理分类识别方法
CN113705468A (zh) 基于人工智能的数字图像识别方法及相关设备
CN113766308A (zh) 视频封面推荐方法、装置、计算机设备和存储介质
CN116311299A (zh) 表格的结构化数据识别方法、装置及系统
CN115795079A (zh) 一种工程造价分析数据采集与处理方法、系统
CN115880702A (zh) 数据处理方法、装置、设备、程序产品及存储介质
CN112348022B (zh) 一种基于深度学习的自由格式文档识别方法
CN112464892B (zh) 票据区域识别方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant