CN115391584A - 用于发票信息提取的方法、装置、计算机设备及存储介质 - Google Patents

用于发票信息提取的方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN115391584A
CN115391584A CN202211061394.2A CN202211061394A CN115391584A CN 115391584 A CN115391584 A CN 115391584A CN 202211061394 A CN202211061394 A CN 202211061394A CN 115391584 A CN115391584 A CN 115391584A
Authority
CN
China
Prior art keywords
invoice
style
standard
information
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211061394.2A
Other languages
English (en)
Inventor
马斌
阮青
彭聪
张炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huanyu Zhixiang Suzhou Information Technology Co ltd
Original Assignee
Huanyu Zhixiang Suzhou Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huanyu Zhixiang Suzhou Information Technology Co ltd filed Critical Huanyu Zhixiang Suzhou Information Technology Co ltd
Priority to CN202211061394.2A priority Critical patent/CN115391584A/zh
Publication of CN115391584A publication Critical patent/CN115391584A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)

Abstract

本发明提出的用于发票信息提取的方法、装置、计算机设备及存储介质,通过识别文件中的特定信息,由预设的标准样式中获取相应的标准发票样式,同时确定出两者之间的识别偏差,先识别出各类目标题,然后再识别出相应的明细数据,本发明根据各类目标题和明细数据的特点,分别进行识别和提取,保证了提取的准确性,同时也提高了识别的效率。

Description

用于发票信息提取的方法、装置、计算机设备及存储介质
技术领域
本发明涉及票据信息识别领域,特别是涉及一种用于发票信息提取的方法。
背景技术
随着人工智能和计算机视觉技术的快速发展,OCR技术被广泛地用于识别各类图像信息, 其中,在发票信息的识别中,尤其是针对外币发票,格式多样,使得发票类目、识别位置等 信息不尽相同,若采用通用的逐行识别方法,识别效率低,而若采用人工选取的方式,也会 花费大量的人力和时间。同时,由于外币发票内各类信息均为字母或者数字或者二者的组合, 其中某个字符的识别错误,可能会导致识别出完全不同的信息。
发明内容
为解决上述问题,本发明提出了用于发票信息提取的方法、装置、计算机设备及存储介 质。
本发明的主要内容包括:
一种用于发票信息提取的方法,包括如下步骤:
获取外币发票的文件;
通过识别文件中的特定信息,由预设的标准样式库内选择对应的标准发票样式;
通过比较待识别的发票的文件和标准发票样式,确定识别偏差;
根据标准发票样式中各类目标题的位置坐标以及识别偏差,在待识别文件的相应位置范 围内,识别相应的类目标题,记录其相应的位置坐标;
根据标准发票样式中各类目标题下的明细数据定义,在待识别文件各类目标题的预设范 围内识别相应的明细数据;
将类目标题与相应的明细数据关联后进行统一格式的存储。
优选的,通过识别文件中的特定信息,由预设的标准样式库内选择对应的标准发票样式, 包括如下子步骤:
人工主动确定所述特定信息,所述特定信息包括厂商的名称、logo或者缩写中的一种或 几种,根据所述特定信息,由预设的标准样式库中确定相应的标准发票样式。
优选的,通过识别文件中的特定信息,由预设的标准样式库内选择对应的标准发票样式, 包括如下子步骤:
对待识别的发票文件进行解析,按照预先设定的识别策略,识别出所述特定信息,所述 特定信息包括厂商标记、关键标题以及相应的坐标信息;根据所述特定信息,由预设的标准 样式库中确定相应的标准发票样式。
优选的,按照预先设定的识别策略包括如下步骤:
确定识别范围,根据需要选择以每一行为一个识别范围,或者选择若干预先设定的识别 范围;
依次获取识别到的相应的语义信息,并在预设的标准样式库内查找包含该识别内容的标 准发票样式;
当所述特定信息与相应的标准发票样式的匹配率超过设定值,则选定对应的标准发票样 式。
优选的,依次获取识别到的相应的语义信息,包括如下步骤:
在相应的识别范围内,依次提取各个字符以及相应的坐标位置;
根据每个字符的坐标位置,使各个字符组合成相应的单词;
根据单词与单词间的位置关系,确定相应的识别范围内的词组,所述词组即表示相应识 别范围内的语义信息。
优选的,根据每个字符的坐标位置,使各个字符组合成相应的单词,包括如下步骤:
比较相邻字符的X轴的间距,若间距小于第一设定距离,则将相应的两个字符按照同一 单词组合;若间距大于第一设定距离且小于第二设定距离,则将相邻的两个字符按照同一词 组组合。
优选的,根据标准发票样式中各类目标题下的明细数据定义,在待识别文件各类目标题 的预设范围内识别相应的明细数据,包括:
S1.根据标准发票样式中类目标题与相应的明细数据的位置关系,确定基础范围;
S2.在基础范围内进行识别,计算识别到的语义信息与相应的明细数据定义的相符率,若 高于设定的相符率,则将相应的类目标题与相应的明细数据关联;若相符率低于设定的相符 率,则执行S3;
S3.在基础范围的X方向和/或Y方向增大第一偏差作为识别范围进行识别比较,若高于 设定的相符率,则将相应的类目标题与相应的明细数据关联;若低于设定的相符率,则执行 S4;
S4.按行对待识别文件进行识别,依次获取识别到的相应的语义信息,根据标准发票样式 中各类目标题下的明细数据定义,确定识别到的内容对应的类目标题,根据首个确定的识别 到的内容的坐标位置与基础范围的偏差,在相应的识别区域内,识别出相应的明细数据,并 将相应的类目标题与相应的明细数据关联。
本发明还提出了一种用于发票信息提取的装置,包括:
输入模块,用于获取待识别的发票文件以及获取用于的输入参数,所述输入参数包括特 定信息、识别范围;
处理模块,执行上述的信息提取方法;
存储模块,用于存储标准发票样式以及按照统一的格式关联后的存储类目标题与相应的 明细数据。
本发明还提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序, 所述处理器执行所述计算机程序时实现上述信息提取方法的步骤。
本发明还提出了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述 计算机程序被处理器执行时实现权利要求上述信息提取方法的步骤。
与现有技术相比,本发明提出的用于发票信息提取的方法、装置、计算机设备及存储介 质的有益效果在于:通过识别文件中的特定信息,由预设的标准样式中获取相应的标准发票 样式,同时确定出两者之间的识别偏差,首先识别出各类目标题,然后再识别出相应的明细 数据,根据各类目标题和明细数据的特点,分别进行识别和提取,保证了提取的准确性,同 时也提高了识别的效率。
附图说明
图1为本发明的信息提取方法的流程图。
具体实施方式
以下结合附图对本发明所保护的技术方案做具体说明。
请参照图1。本发明提出了一种用于发票信息提取的方法,包括如下步骤:
首先,获取外币发票文件,所述外币发票文件的格式可以为PDF或者其他格式,也可以 针对不同的格式选择不同的识别方式。
随后,通过识别文件中的特定信息,由预设的标准样式库内选择对应的标准发票样式; 所述特定信息可以是厂商的标识,如厂商的名称或者厂商的名称缩写,或者是厂商的logo等, 在其中一个实施例中,通过人工识别到该标识后,直接由标准样式库内通过关键字等方式选 择出相应的标准发票样式即可。该种情形适用于待识别的发票数量少,且能够明显识别出所 述特定信息的发票。
进一步地,所述标准样式库内的标准发票样式可以由人工或者其他方式预先存储,当有 新的合作厂商时,只需要为该厂商创建相应的标准发票样式即可,后续按照本发明的提取方 法执行即可。
而在其他实施例中,对于待识别发票数量多或者发票上无明显的特定信息的发票,还可 以先对待识别的发票文件进行解析,按照预先设定的识别策略,识别出所述特定信息,其中, 所述特定信息包括厂商标记、关键标题以及相应的坐标信息;根据所述特定信息,由预设的 标准样式库中确定相应的标准发票样式。
具体地,确定识别范围,待识别发票的类型相对较少,根据标准发票样式中特定信息的 常见的区域来确定待识别发票中的识别范围,即选择若干个预先设定的识别范围,在该识别 范围内进行识别;或者还可以行为一个识别范围,依次进行识别。
确定识别范围后,在单个识别范围内,依次获取识别到的相应的语义信息,并在预设的 标准样式库内查找包含该识别内容的标准发票样式;其中,依次获取识别到的相应的语义信 息,包括如下步骤:
在相应的识别范围内,依次提取各个字符以及相应的坐标位置;
根据每个字符的坐标位置,使各个字符组合成相应的单词;
根据单词与单词间的位置关系,确定相应的识别范围内的词组,所述词组即表示相应识 别范围内的语义信息。
其中,根据每个字符的坐标位置,使各个字符组合成相应的单词,包括如下步骤:
比较相邻字符的X轴的间距,若间距小于第一设定距离,则将相应的两个字符按照同一 单词组合;若间距大于第一设定距离且小于第二设定距离,则将相邻的两个字符按照同一词 组组合。
通过判定所述特定信息与相应的标准发票样式的匹配率,来确定是否选择其为标准发票 样式,即当所述特定信息与相应的标准发票样式的匹配率超过设定值,则选定对应的标准发 票样式。
通过上述方式选定了标准发票样式后,即可通过比较待识别的发票的文件和标准发票样 式,确定识别偏差;即通过比对特定信息在标准发票样式中的坐标位置与其在待识别发票文 件中坐标位置,来计算相应的识别偏差,为后续确定各类标题的坐标位置提供标定范围。
随后,根据标准发票样式中各类目标题的位置坐标以及识别偏差,在待识别文件的相应 位置范围内,识别相应的类目标题,记录其相应的位置坐标;由于特定信息以及各类目标题 的位置相对固定;具体地,在根据标准发票样式中各类目标题的位置坐标以及识别偏差确定 的识别范围内,依次提取各个字符以及相应的坐标位置;根据每个字符的坐标位置,使各个 字符组合成相应的单词;根据单词与单词间的位置关系,确定相应的识别范围内的词组;将 提取出的词组与标准发票样式中的相应类目标题进行比较,已验证识别的准确率。还可以根 据识别的过程,对识别偏差进行微调。
此外,为了保证因扫描造成发票文件的歪斜,在获取到发票文件前,还可以先对发票文 件进行调正处理,即选取发票文件待识别的范围,通过PS等工具将发票文件进行调正。
当确定了相应的类目标题以及其在待识别发票文件中的坐标位置后,即可根据标准发票 样式中各类目标题下的明细数据定义,在待识别文件各类目标题的预设范围内识别相应的明 细数据;具体包括如下步骤:包括:
S1.根据标准发票样式中类目标题与相应的明细数据的位置关系,确定基础范围;
S2.在基础范围内进行识别,计算识别到的语义信息与相应的明细数据定义的相符率,若 高于设定的相符率,则将相应的类目标题与相应的明细数据关联;若相符率低于设定的相符 率,则执行S3;
S3.在基础范围的X方向和/或Y方向增大第一偏差作为识别范围进行识别比较,若高于 设定的相符率,则将相应的类目标题与相应的明细数据关联;若低于设定的相符率,则执行 S4;
S4.按行对待识别文件进行识别,依次获取识别到的相应的语义信息,根据标准发票样式 中各类目标题下的明细数据定义,确定识别到的内容对应的类目标题,根据首个确定的识别 到的内容的坐标位置与基础范围的偏差,在相应的识别区域内,识别出相应的明细数据,并 将相应的类目标题与相应的明细数据关联。
最后,将关联后类目标题与相应的明细数据进行统一格式的存储。
本发明还提出了一种用于发票信息提取的装置,包括:
输入模块,用于获取待识别的发票文件以及获取用于的输入参数,所述输入参数包括特 定信息、识别范围、识别偏差的微调、第一偏差、字符与字符之间的第一设定距离、第二设 定距离等;
处理模块,执行上述的信息提取方法;
存储模块,用于存储标准发票样式以及按照统一的格式关联后的存储类目标题与相应的 明细数据。
本发明还提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序, 所述处理器执行所述计算机程序时实现上述信息提取方法的步骤。
本发明还提出了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述 计算机程序被处理器执行时实现权利要求上述信息提取方法的步骤。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明 书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域, 均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种用于发票信息提取的方法,其特征在于,包括如下步骤:
获取外币发票的文件;
通过识别文件中的特定信息,由预设的标准样式库内选择对应的标准发票样式;
通过比较待识别的发票的文件和标准发票样式,确定识别偏差;
根据标准发票样式中各类目标题的位置坐标以及识别偏差,在待识别文件的相应位置范围内,识别相应的类目标题,记录其相应的位置坐标;
根据标准发票样式中各类目标题下的明细数据定义,在待识别文件各类目标题的预设范围内识别相应的明细数据;
将类目标题与相应的明细数据关联后进行统一格式的存储。
2.根据权利要求1所述的一种用于发票信息提取的方法,其特征在于,通过识别文件中的特定信息,由预设的标准样式库内选择对应的标准发票样式,包括如下子步骤:
人工主动确定所述特定信息,所述特定信息包括厂商的名称、logo或者缩写中的一种或几种,根据所述特定信息,由预设的标准样式库中确定相应的标准发票样式。
3.根据权利要求1所述的一种用于发票信息提取的方法,其特征在于,通过识别文件中的特定信息,由预设的标准样式库内选择对应的标准发票样式,包括如下子步骤:
对待识别的发票文件进行解析,按照预先设定的识别策略,识别出所述特定信息,所述特定信息包括厂商标记、关键标题以及相应的坐标信息;根据所述特定信息,由预设的标准样式库中确定相应的标准发票样式。
4.根据权利要求3所述的一种用于发票信息提取的方法,其特征在于,按照预先设定的识别策略包括如下步骤:
确定识别范围,根据需要选择以每一行为一个识别范围,或者选择若干预先设定的识别范围;
依次获取识别到的相应的语义信息,并在预设的标准样式库内查找包含该识别内容的标准发票样式;
当所述特定信息与相应的标准发票样式的匹配率超过设定值,则选定对应的标准发票样式。
5.根据权利要求4所述的一种用于发票信息提取的方法,其特征在于,依次获取识别到的相应的语义信息,包括如下步骤:
在相应的识别范围内,依次提取各个字符以及相应的坐标位置;
根据每个字符的坐标位置,使各个字符组合成相应的单词;
根据单词与单词间的位置关系,确定相应的识别范围内的词组,所述词组即表示相应识别范围内的语义信息。
6.根据权利要求5所述的用于发票信息提取的方法,其特征在于,根据每个字符的坐标位置,使各个字符组合成相应的单词,包括如下步骤:
比较相邻字符的X轴的间距,若间距小于第一设定距离,则将相应的两个字符按照同一单词组合;若间距大于第一设定距离且小于第二设定距离,则将相邻的两个字符按照同一词组组合。
7.根据权利要求1所述的用于发票信息提取的方法,其特征在于,根据标准发票样式中各类目标题下的明细数据定义,在待识别文件各类目标题的预设范围内识别相应的明细数据,包括:
S1.根据标准发票样式中类目标题与相应的明细数据的位置关系,确定基础范围;
S2.在基础范围内进行识别,计算识别到的语义信息与相应的明细数据定义的相符率,若高于设定的相符率,则将相应的类目标题与相应的明细数据关联;若相符率低于设定的相符率,则执行S3;
S3.在基础范围的X方向和/或Y方向增大第一偏差作为识别范围进行识别比较,若高于设定的相符率,则将相应的类目标题与相应的明细数据关联;若低于设定的相符率,则执行S4;
S4.按行对待识别文件进行识别,依次获取识别到的相应的语义信息,根据标准发票样式中各类目标题下的明细数据定义,确定识别到的内容对应的类目标题,根据首个确定的识别到的内容的坐标位置与基础范围的偏差,在相应的识别区域内,识别出相应的明细数据,并将相应的类目标题与相应的明细数据关联。
8.一种用于发票信息提取的装置,其特征在于,包括:
输入模块,用于获取待识别的发票文件以及获取用于的输入参数,所述输入参数包括特定信息、识别范围;
处理模块,执行如权利要求1至7任一所述的信息提取方法;
存储模块,用于存储标准发票样式以及按照统一的格式关联后的存储类目标题与相应的明细数据。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一所述的信息提取方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一所述的信息提取方法的步骤。
CN202211061394.2A 2022-08-31 2022-08-31 用于发票信息提取的方法、装置、计算机设备及存储介质 Pending CN115391584A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211061394.2A CN115391584A (zh) 2022-08-31 2022-08-31 用于发票信息提取的方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211061394.2A CN115391584A (zh) 2022-08-31 2022-08-31 用于发票信息提取的方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN115391584A true CN115391584A (zh) 2022-11-25

Family

ID=84125241

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211061394.2A Pending CN115391584A (zh) 2022-08-31 2022-08-31 用于发票信息提取的方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN115391584A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116071740A (zh) * 2023-03-06 2023-05-05 深圳前海环融联易信息科技服务有限公司 发票识别方法、计算机设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116071740A (zh) * 2023-03-06 2023-05-05 深圳前海环融联易信息科技服务有限公司 发票识别方法、计算机设备及存储介质
CN116071740B (zh) * 2023-03-06 2023-07-04 深圳前海环融联易信息科技服务有限公司 发票识别方法、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
US6671684B1 (en) Method and apparatus for simultaneous highlighting of a physical version of a document and an electronic version of a document
CN107085585B (zh) 用于图像搜索的准确的标签相关性预测
US5251273A (en) Data processing system and method for sequentially repairing character recognition errors for scanned images of document forms
CN109446885B (zh) 一种基于文本的元器件识别方法、系统、装置和存储介质
US8064703B2 (en) Property record document data validation systems and methods
US6178417B1 (en) Method and means of matching documents based on text genre
US7970213B1 (en) Method and system for improving the recognition of text in an image
US20020146170A1 (en) Determining form identification through the spatial relationship of input data
US20100135579A1 (en) Property record document data verification systems and methods
US8208737B1 (en) Methods and systems for identifying captions in media material
CN111340020B (zh) 一种公式识别方法、装置、设备及存储介质
CN111858977B (zh) 票据信息采集方法、装置、计算机设备和存储介质
CN115391584A (zh) 用于发票信息提取的方法、装置、计算机设备及存储介质
CN101479743A (zh) 用于过滤手写识别结果的技术
CN111985462A (zh) 基于深度神经网络的古文字检测、识别和检索系统
CN115935344A (zh) 一种异常设备的识别方法、装置及电子设备
JP3917349B2 (ja) 文字認識結果を利用して情報を検索する検索装置および方法
CN102117293B (zh) 文件动态定位及查询方法
JPH1173472A (ja) フォーマット情報登録方法及びocrシステム
CN112348022B (zh) 一种基于深度学习的自由格式文档识别方法
CN114154480A (zh) 信息提取方法、装置、设备和存储介质
CN113705157A (zh) 一种纸质作业拍照批改的方法
CN113449763A (zh) 信息处理装置以及记录媒体
Deselaers et al. Local representations for multi-object recognition
CN116090006B (zh) 一种基于深度学习的敏感识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination