CN111966640A - 一种单据文件识别方法及其系统 - Google Patents

一种单据文件识别方法及其系统 Download PDF

Info

Publication number
CN111966640A
CN111966640A CN202010918061.1A CN202010918061A CN111966640A CN 111966640 A CN111966640 A CN 111966640A CN 202010918061 A CN202010918061 A CN 202010918061A CN 111966640 A CN111966640 A CN 111966640A
Authority
CN
China
Prior art keywords
file
information
document
document file
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010918061.1A
Other languages
English (en)
Other versions
CN111966640B (zh
Inventor
车进
褚志成
高文捷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Xiaoman Technology Co ltd
Original Assignee
Shenzhen Xiaoman Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Xiaoman Technology Co ltd filed Critical Shenzhen Xiaoman Technology Co ltd
Priority to CN202010918061.1A priority Critical patent/CN111966640B/zh
Publication of CN111966640A publication Critical patent/CN111966640A/zh
Application granted granted Critical
Publication of CN111966640B publication Critical patent/CN111966640B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种单据文件识别方法及其系统。该方法包括对获取的未知文件的类型进行判断,筛选出单据文件;并对单据文件的真实性进行判断,筛选出真实单据文件;再对真实单据文件的重要信息及其属性信息进行依次识别,得到真实单据文件的完整信息。通过上述方式,本发明能够预先判断待识别的未知文件是否为单据文件,并判断其真实性,从而准确筛选出所需的真实单据文件,避免对无关文件或非真实单据文件的复杂处理,提高识别效率;并通过对真实单据文件中的重要信息及其他属性信息的自动识别,避免了繁琐的人工手动录入,也不需要根据单据文件的变化频繁进行更新维护,在节约成本的同时实现对单据文件的准确高效识别,具有较高的应用价值。

Description

一种单据文件识别方法及其系统
技术领域
本发明涉及文件识别与处理技术领域,特别是涉及一种单据文件识别方法及其系统。
背景技术
单据文件是指在经济业务发生时所取得或填制的载明交易及事项实际情况的书面证明,它是进行会计核算的原始资料和重要依据,是各领域经济业务中常见的文件。例如,在商务外贸领域,从询盘过程中的询价单,到报价过程的报价单,到确定意向之后发的形式发票,以及正式发票,再到最后收款的水单,每一个阶段都存在着不同的单据,这些单据以文件的形式通过邮件或者即时通讯的方式传输,对这些单据文件进行识别与处理是必不可少的过程。
由于单据文件类型繁多,每种类型的单据文件格式也不尽相同,且不同公司或不同客户间没有相对统一的标准,导致单据文件的识别过程难度很大。现有技术中对这些单据文件的识别,往往需要手动录入规则,不仅效率低下,而且不适用于不同公司;此外,当单据格式发生变化后,相应的规则都需要进行调整,需要大量人力去录入和维护,耗时较长且成本较高,难以满足实际应用的需求。因此,如何高效地对单据文件进行准确识别,是当前的研究重点。
公开号为CN110956022A的专利提供了一种单据文档的处理方法及其系统,该专利通过将各类单据文档转化为pdf格式后进行区域分割,并对分割后形成的文字区域块中的属性进行识别,再根据该属性对文字进行解析,从而得到识别后的最终数据。然而,该专利将各类单据文档均转化为pdf格式后再利用区域生长算法进行区域分割,整体运算量较大,识别效率较低;并且,在实际应用过程中,获取的待处理文件中常会混杂其他类型的文件,并不全是真实的单据文件,该专利提供的方法不仅无法将其筛出,还会消耗大量时间及运算量用于这类文件的识别,导致该专利提供的方法识别效率低、准确率不高,难以满足实际应用的需求。
有鉴于此,当前仍有必要提供一种单据文件识别方法及其系统,以解决上述问题。
发明内容
针对上述现有技术存在的缺陷,本发明的目的在于提供一种单据文件识别方法及其系统。通过预先判断待识别的未知文件是否为单据文件,并对单据文件的真实性进行判断,能够准确筛选出所需的真实单据文件,避免对无关文件或非真实单据文件的复杂处理,提高识别效率;并通过对真实单据文件中的重要信息及其他属性信息进行自动识别,避免了繁琐的人工手动录入,在节约成本的同时实现了对单据文件的准确高效识别。
为实现上述目的,本发明提供了一种单据文件识别方法,包括如下步骤:
S1、获取待识别的未知文件,对所述未知文件的类型进行判断,并筛选出单据文件;
S2、对步骤S1得到的所述单据文件的文本信息进行提取与识别,判断所述单据文件的真实性,并筛选出真实单据文件;
S3、对步骤S2筛选出的所述真实单据文件的重要信息及其他属性信息进行依次识别,得到所述真实单据文件的完整信息。
进一步地,在步骤S1中,对所述未知文件的类型进行判断具体包括如下步骤:
S11、对所述未知文件的文件名称进行识别,判断所述文件名称中是否包含单据文件标志词;若是,则将该文件作为单据文件筛出;若否,则继续进行步骤S12;
S12、对所述未知文件的文件内容中的文本信息进行提取与识别,判断所述文本信息中是否包含所述单据文件标志词;若是,则将该文件作为单据文件筛出;若否,则将该未知文件判定为非单据文件,并结束判断。
更进一步地,在步骤S12中,所述单据文件标志词的识别方式为:提取所述文本信息的前若干行作为检测段,对所述检测段中字体最大的文本进行识别,判断其是否属于单据文件标志词。
进一步地,在步骤S2中,所述单据文件的真实性根据所述单据文件的文本信息中标志码是否唯一进行判定:若所述单据文件中含有唯一的标志码,则将其判定为真实单据文件;反之,则将其判定为非真实单据文件。
更进一步地,在步骤S2中,所述标志码由数字、字母、符号中的一种或多种组成,并包含一个以上的数字,长度为5~15个字符。
进一步地,在步骤S3中,所述重要信息包括金额信息和数量信息;对所述重要信息的识别依次包括关键词识别、数字识别和单位识别。
进一步地,在步骤S3中,所述其他属性信息包括但不限于名称信息、地址信息和时间信息中的一种或多种;对所述其他属性信息的识别依次包括属性名称识别和属性值识别。
进一步地,所述文本信息的提取方式根据文件格式进行选择,所述文件格式为excel格式、pdf格式或图片格式;当所述文件格式为excel格式或文本型pdf格式时,直接对所述文本信息进行提取;当所述文件格式为图片型pdf格式或图片格式时,通过光学字符识别的方式对所述文本信息进行提取。
为实现上述目的,本发明还提供了一种单据文件识别系统,包括:
文件获取模块,用于获取待识别的未知文件;
第一判断模块,用于判断所述未知文件是否为单据文件;
第二判断模块,用于判断所述单据文件是否为真实单据文件;
信息识别模块,用于对所述真实单据文件的各类信息进行识别,获取所述真实单据文件的完整信息。
进一步地,所述信息识别模块包括第一信息识别单元和第二信息识别单元;所述第一信息识别单元和所述第二信息识别单元分别用于对所述真实单据文件的重要信息和其他属性信息进行识别。
与现有技术相比,本发明的有益效果是:
1、本发明提供的单据文件识别方法能够预先判断待识别的未知文件是否为单据文件,并对单据文件的真实性进行判断,从而准确从各类未知文件中筛选出实际需要识别的真实单据文件,避免了对不属于单据的无关文件及非真实单据文件的复杂处理,大幅减小了需要处理的数据量,有效提高了识别效率。同时,本发明能够对真实单据文件中的重要信息及其他属性信息进行自动识别,避免了繁琐的人工手动录入,在节约成本的同时实现了对单据文件的准确高效识别。
2、本发明提供的单据文件识别方法利用单据文件标志词对未知文件的类型进行判断,并利用唯一标志码对单据文件的真实性进行判断,整体判断方式简便高效并具有较高的准确率。与现有技术中直接进行文件识别相比,本发明通过设置快速有效的判断方式对文件进行筛选,不需要预先耗费人工对未知文件进行分类筛选,也不需要在识别完成后通过复杂的后处理来剔除干扰信息,本发明获得的识别结果即为所需要的单据信息,整体识别过程更加便捷高效、准确率高,适合对实际应用中大量的未知文件进行快速处理,应用范围较广。
3、本发明通过先对真实单据文件中的金额、数量等重要信息进行识别,能够快速获取单据的重要信息;同时,本发明还能够对真实单据文件中的名称、地址、时间等其他属性信息进行识别,使获取的单据信息更加全面,以满足实际应用的需求。
4、本发明提供的单据文件识别方法及其系统能够准确高效地对真实单据文件进行判断与识别,并适用于各类单据文件,不需要根据单据内容及格式的变化频繁进行更新与维护,解决了传统的人工手动录入方式存在的问题,可以节约大量成本,具有较高的实际应用价值。
附图说明
图1是本发明提供的一种单据文件识别方法的流程示意图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例,都属于本发明所保护的范围。
本发明提供了一种单据文件识别方法,其流程示意图如图1所示,具体包括如下步骤:
S1、文件类型判断
首先获取待识别的未知文件;所述未知文件的文件格式可以是excel格式、pdf格式或图片格式,均能进行有效识别,适用范围较广。
然后提取所述未知文件的文件名称,判断所述文件名称中是否包括单据文件标志词。其中,所述单据文件标志词为各类单据的名称,如询价单、报价单、形式发票、正式发票、水单等中文名称及其对应的英文名称,将所需的单据文件标志词汇总形成相应的标志词数据库后,即可将其与文件名称进行比对。在本发明的不同实施例中,所述标志词数据库中的单据文件标志词可以根据实际情况自由设置。
将所述未知文件的文件名称与所述标志词数据库中的所述单据文件标志词比对后,若所述文件名称中包含了所述单据文件标志词,则将该未知文件判定为单据文件;若所述文件名称中不包含所述单据文件标志词,则继续对所述未知文件的文件内容进行识别。
为识别所述未知文件的文件内容,需要提取该未知文件的文本信息。所述文本信息的提取方式根据文件格式进行选择;当所述文件格式为excel格式或文本型pdf格式时,可以直接对所述文本信息进行提取;当所述文件格式为图片型pdf格式或图片格式时,则通过光学字符识别软件对所述文本信息进行提取。提取后的文本信息中各部分文本的位置均与原文件中对应的文本位置保持一致,以便后续根据各文本间的位置关系快速对所需信息进行准确提取。
提取所述未知文件的文本信息后,先截取所述文本信息的前若干行作为检测段,再对所述检测段中文字的字号进行检测,获取字号最大的文字作为待比对文本。在本发明的一个实施例中,检测段为文本信息的前五行;在本发明的其他实施例中,该行数可以根据实际情况自由选择。通过对文本信息进行部分截取和字号检测,本发明能够快速定位最有可能出现标志词的位置,从而大幅减少需要比对的文本量,提高整体的识别效率。
将按上述方法获取的所述待比对文本与所述标志词数据库中的所述单据文件标志词比对后,若所述待比对文本中包含了所述单据文件标志词,则将该未知文件判定为单据文件;若所述待比对文本中不包含所述单据文件标志词,则将该未知文件判定为非单据文件,并结束对该未知文件的识别,避免了耗费大量时间对非单据文件进行识别,使识别效率大幅提高。
S2、单据文件真实性判断
首先获取步骤S1筛选出的单据文件的文本信息:对于在步骤S1中经文件名称比对后直接判定的单据文件,需要对其文本信息进行提取,提取方法与步骤S1中所述的文本信息的提取方式一致;对于在步骤S1中经文件内容识别判定的单据文件,则直接获取步骤S1中提取到的相应文本信息。
再对获取的所述单据文件的文本信息中的所有字符串进行识别,并获取其位置信息;所述字符串由数字、字母、符号中的一种或多种组成,长度为5~15个字符,所述字符串内不包含空格、制表符、回车符中的任意一种,且必须包含一个以上的数字。
然后根据所述字符串的位置信息,对位于各字符串上方或左侧且与所述字符串相邻的文本进行识别;若识别到某个字符串上方或左侧相邻位置处含有区分度明显的字样,则以该字符串作为该单据文件的标志码。所述区分度明显的字样包括特定字样、特定字体和特定字号:在本发明的一个实施例中,可以预设PI number、PI NO.、NO.为特定字样,当识别到某一字符串上方或左侧相邻位置含有所述特定字样时,则以该字符串作为标志码;在本发明的其他实施例中,还可以根据实际情况对特定字体或特定字号进行自由设定。
若按照上述方法未识别到标志码,则将该单据文件判定为非真实文件;若按照上述方法识别到标志码,则对该标志码是否唯一进行判定。若所述标志码在该单据文件中唯一且并未与此前识别的其他单据文件的标志码重复,则认为该标志码为唯一标志码,由此判定该单据文件为真实单据文件;若所述标志码在该单据文件中不唯一或该标志码与此前识别到的标志码重复,则判定该单据文件为非真实单据,并结束对该单据文件真实性的识别。例如,在本发明的一个实施例中,以识别过的单据文件作为单据示例,对其再次进行识别,由于识别到的标志码与之前的重复,则判定该文件并非真实单据文件,从而有效避免在实际应用过程中对相同单据文件的重复处理,提高识别效率,并使获得的识别结果更能真实反映实际单据情况,更能满足实际应用的需求。
S3、单据文件信息识别
经过上述步骤的筛选,能够获得实际需要进行识别的真实单据文件,以便对其重要信息及其他属性信息进行识别。
其中,所述重要信息为金额信息和数量信息。以所述金额信息为例,先对真实单据文件的文本信息中表示金额的关键词进行识别与定位,所述关键词包括金额、价格、总价及其对应的英文表示,可以预先设置并形成相应的关键词库;再对识别到的所述关键词右侧和下方相邻位置的文本进行提取,并进行数字识别,获取该关键词对应的数字;然后对数字前后位置的文本信息进行单位识别,获取该数字对应的单位,从而获得该真实单据文件中用于表示金额的关键词及其对应的数值与单位。对所述数量信息的识别方法与所述金额信息的识别方法一致,区别在于预设的与数量相关的关键词不同,具体地数量关键词库可以根据需要自由设置,以满足不同用户的个性化需求,适用范围较广。
除所述重要信息外,真实单据文件中还可能包含其他属性信息,所述属性信息包括预设的属性信息和额外的属性信息。例如,在本发明的一个实施例中,预设名称信息、地址信息和时间信息为属性信息,再按照与重要信息类似的识别方法,依次对各属性信息的对应关键词及与其相邻位置的文本信息进行识别。但由于实际应用中单据种类繁多,部分单据中还含有一些未预设的额外信息,因此,为尽量完整地获取单据信息,在完成预设属性信息的识别后,还需要对额外的属性信息进行识别。
对所述额外的属性进行识别时,先对文本信息中以冒号结尾的词和相对于相邻位置是加粗或加大的词进行识别,并将其作为属性名称;再对各属性名称对应的属性值进行识别。其中,对属性值的识别方法为:获取待识别属性名称的位置信息,并判断位于所述待识别属性名称右侧相邻位置的文本是否也属于属性名称,若是,则以所述待识别属性名称下方相邻位置的文本作为属性值;若否,则以所述待识别属性名称下方相邻位置的文本作为属性值。
通过上述方法,可以对筛选出的真实单据文件中的重要信息及其他属性信息进行全面地识别,能够适用于不同类型的单据文件,适用范围广、识别效率高,能够满足实际应用的需求。
基于上述单据文件识别方法,本发明还构建了用于实现该方法的单据文件识别系统,该系统包括依次连接的文件获取模块、第一判断模块、第二判断模块和信息识别模块。
所述文件获取模块用于获取待识别的未知文件,并将其传输至所述第一判断模块。所述第一判断模块用于对所述未知文件的文件名称及其文件内容中是否含有单据文件标志词进行识别,并以此判断所述未知文件是否为单据文件;当所述未知文件为非单据文件时,则结束本轮识别;当所述未知文件为单据文件时,则将所述单据文件及其文本信息传输至所述第二判断模块。所述第二判断模块用于对所述单据文件中是否含有唯一标志码进行识别,并以此判断所述单据文件是否为真实单据文件;当所述单据文件为非真实单据文件时,则结束本轮识别;当所述单据文件为真实单据文件时,则将所述真实单据文件及其文本信息传输至所述信息识别模块。
所述信息识别模块包括第一信息识别单元和第二信息识别单元。所述第一信息识别单元用于对所述真实单据文件的重要信息进行识别,所述重要信息包括金额信息和数量信息,对所述重要信息的识别依次包括关键词识别、数字识别和单位识别。所述第二信息识别单元用于对所述真实单据文件的其他属性信息进行识别,所述其他属性信息包括名称信息、地址信息和时间信息中的一种或多种;对所述其他属性信息的识别依次包括属性名称识别和属性值识别。
通过上述方式,本发明提供的单据文件识别系统能够对准确高效地对各类单据文件进行自动识别,并对单据文件的信息进行全面提取,可以避免人工手动录入大量规则,并且无需进行更新维护,可以节约大量成本;同时,该单据文件识别系统预先从各类未知文件中筛选出实际需要识别的真实单据文件,避免了对不属于单据的无关文件及非真实单据文件的复杂处理,大幅减小了需要处理的数据量,有效提高了系统的运行速率,具有较高的识别效率。
综上所述,本发明公开了一种单据文件识别方法及其系统。该方法包括对获取的未知文件的类型进行判断,筛选出单据文件;并对单据文件的真实性进行判断,筛选出真实单据文件;再对真实单据文件的重要信息及其属性信息进行依次识别,得到真实单据文件的完整信息。通过上述方式,本发明能够预先判断待识别的未知文件是否为单据文件,并判断其真实性,从而准确筛选出所需的真实单据文件,避免对无关文件或非真实单据文件的复杂处理,提高识别效率;并通过对真实单据文件中的重要信息及其他属性信息的自动识别,避免了繁琐的人工手动录入,也不需要根据单据文件的变化频繁进行更新维护,在节约成本的同时实现对单据文件的准确高效识别,具有较高的应用价值。
以上所述仅用以说明本发明的技术方案,而非对其进行限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种单据文件识别方法,其特征在于,包括如下步骤:
S1、获取待识别的未知文件,对所述未知文件的类型进行判断,并筛选出单据文件;
S2、对步骤S1得到的所述单据文件的文本信息进行提取与识别,判断所述单据文件的真实性,并筛选出真实单据文件;
S3、对步骤S2筛选出的所述真实单据文件的重要信息及其他属性信息进行依次识别,得到所述真实单据文件的完整信息。
2.根据权利要求1所述的一种单据文件识别方法,其特征在于:在步骤S1中,对所述未知文件的类型进行判断具体包括如下步骤:
S11、对所述未知文件的文件名称进行识别,判断所述文件名称中是否包含单据文件标志词;若是,则将该文件作为单据文件筛出;若否,则继续进行步骤S12;
S12、对所述未知文件的文件内容中的文本信息进行提取与识别,判断所述文本信息中是否包含所述单据文件标志词;若是,则将该文件作为单据文件筛出;若否,则将该未知文件判定为非单据文件,并结束判断。
3.根据权利要求2所述的一种单据文件识别方法,其特征在于:在步骤S12中,所述单据文件标志词的识别方式为:提取所述文本信息的前若干行作为检测段,对所述检测段中字体最大的文本进行识别,判断其是否属于单据文件标志词。
4.根据权利要求1所述的一种单据文件识别方法,其特征在于:在步骤S2中,所述单据文件的真实性根据所述单据文件的文本信息中标志码是否唯一进行判定:若所述单据文件中含有唯一的标志码,则将其判定为真实单据文件;反之,则将其判定为非真实单据文件。
5.根据权利要求4所述的一种单据文件识别方法,其特征在于:在步骤S2中,所述标志码由数字、字母、符号中的一种或多种组成,并包含一个以上的数字,长度为5~15个字符。
6.根据权利要求1所述的一种单据文件识别方法,其特征在于:在步骤S3中,所述重要信息包括金额信息和数量信息;对所述重要信息的识别依次包括关键词识别、数字识别和单位识别。
7.根据权利要求1所述的一种单据文件识别方法,其特征在于:在步骤S3中,所述其他属性信息包括但不限于名称信息、地址信息和时间信息中的一种或多种;对所述其他属性信息的识别依次包括属性名称识别和属性值识别。
8.根据权利要求1~7中任一权利要求所述的一种单据文件识别方法,其特征在于:所述文本信息的提取方式根据文件格式进行选择,所述文件格式为excel格式、pdf格式或图片格式;当所述文件格式为excel格式或文本型pdf格式时,直接对所述文本信息进行提取;当所述文件格式为图片型pdf格式或图片格式时,通过光学字符识别的方式对所述文本信息进行提取。
9.一种单据文件识别系统,其特征在于,包括:
文件获取模块,用于获取待识别的未知文件;
第一判断模块,用于判断所述未知文件是否为单据文件;
第二判断模块,用于判断所述单据文件是否为真实单据文件;
信息识别模块,用于对所述真实单据文件的各类信息进行识别,获取所述真实单据文件的完整信息。
10.根据权利要求9所述的一种单据文件识别系统,其特征在于:所述信息识别模块包括第一信息识别单元和第二信息识别单元;所述第一信息识别单元和所述第二信息识别单元分别用于对所述真实单据文件的重要信息和其他属性信息进行识别。
CN202010918061.1A 2020-09-03 2020-09-03 一种单据文件识别方法及其系统 Active CN111966640B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010918061.1A CN111966640B (zh) 2020-09-03 2020-09-03 一种单据文件识别方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010918061.1A CN111966640B (zh) 2020-09-03 2020-09-03 一种单据文件识别方法及其系统

Publications (2)

Publication Number Publication Date
CN111966640A true CN111966640A (zh) 2020-11-20
CN111966640B CN111966640B (zh) 2024-07-23

Family

ID=73392049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010918061.1A Active CN111966640B (zh) 2020-09-03 2020-09-03 一种单据文件识别方法及其系统

Country Status (1)

Country Link
CN (1) CN111966640B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949455A (zh) * 2021-02-26 2021-06-11 武汉天喻信息产业股份有限公司 一种增值税发票识别系统及方法
CN113011407A (zh) * 2021-02-05 2021-06-22 国网浙江义乌市供电有限公司 一种电费复核单据自动识别、分拣投递的系统和方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080215489A1 (en) * 2005-02-25 2008-09-04 Marcus Maxwell Lawson Method And Apparatus For Authentication Of Invoices
CN102768676A (zh) * 2012-06-14 2012-11-07 腾讯科技(深圳)有限公司 一种格式未知文件的处理方法和装置
CN105447062A (zh) * 2014-09-30 2016-03-30 中国电信股份有限公司 热点数据识别方法和装置
CN106446119A (zh) * 2016-09-18 2017-02-22 深圳信壹网络有限公司 媒体文件处理方法
CN107145814A (zh) * 2017-04-19 2017-09-08 畅捷通信息技术股份有限公司 发票录入方法、发票录入装置和终端
CN109829444A (zh) * 2019-02-28 2019-05-31 广州达安临床检验中心有限公司 单据录入方法、装置、计算机设备和存储介质
CN110135264A (zh) * 2019-04-16 2019-08-16 深圳壹账通智能科技有限公司 数据录入方法、装置、计算机设备以及存储介质
CN111223230A (zh) * 2020-01-19 2020-06-02 河南电力物资有限公司 一种基于crnn算法的发票文件真伪识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080215489A1 (en) * 2005-02-25 2008-09-04 Marcus Maxwell Lawson Method And Apparatus For Authentication Of Invoices
CN102768676A (zh) * 2012-06-14 2012-11-07 腾讯科技(深圳)有限公司 一种格式未知文件的处理方法和装置
CN105447062A (zh) * 2014-09-30 2016-03-30 中国电信股份有限公司 热点数据识别方法和装置
CN106446119A (zh) * 2016-09-18 2017-02-22 深圳信壹网络有限公司 媒体文件处理方法
CN107145814A (zh) * 2017-04-19 2017-09-08 畅捷通信息技术股份有限公司 发票录入方法、发票录入装置和终端
CN109829444A (zh) * 2019-02-28 2019-05-31 广州达安临床检验中心有限公司 单据录入方法、装置、计算机设备和存储介质
CN110135264A (zh) * 2019-04-16 2019-08-16 深圳壹账通智能科技有限公司 数据录入方法、装置、计算机设备以及存储介质
CN111223230A (zh) * 2020-01-19 2020-06-02 河南电力物资有限公司 一种基于crnn算法的发票文件真伪识别方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011407A (zh) * 2021-02-05 2021-06-22 国网浙江义乌市供电有限公司 一种电费复核单据自动识别、分拣投递的系统和方法
CN112949455A (zh) * 2021-02-26 2021-06-11 武汉天喻信息产业股份有限公司 一种增值税发票识别系统及方法
CN112949455B (zh) * 2021-02-26 2024-04-05 武汉天喻信息产业股份有限公司 一种增值税发票识别系统及方法

Also Published As

Publication number Publication date
CN111966640B (zh) 2024-07-23

Similar Documents

Publication Publication Date Title
CN110826320B (zh) 一种基于文本识别的敏感数据发现方法及系统
Antonacopoulos et al. ICDAR2005 page segmentation competition
AU2015252513A1 (en) Method and system for filtering goods evaluation information
CN110599319B (zh) 自动审计方法、装置、终端及存储介质
CN110910175B (zh) 一种旅游门票产品画像生成方法
CN114880468A (zh) 基于BiLSTM与知识图谱的建筑规范审查方法与系统
US20150186739A1 (en) Method and system of identifying an entity from a digital image of a physical text
CN111966640A (zh) 一种单据文件识别方法及其系统
CN108959204B (zh) 互联网金融项目信息抽取方法和系统
US9256805B2 (en) Method and system of identifying an entity from a digital image of a physical text
GB2487600A (en) System for extracting data from an electronic document
CN112926299B (zh) 一种文本比对方法、合同审阅方法、审核系统
CN101794378B (zh) 基于图片编码的垃圾图片过滤方法
CN112364837A (zh) 一种基于目标检测和文本识别的票据信息识别方法
CN111680506A (zh) 数据库表的外键映射方法、装置、电子设备和存储介质
CN114297987A (zh) 基于文本分类和阅读理解的文档信息抽取方法及系统
CN112784585A (zh) 金融公告的摘要提取方法与摘要提取终端
Chtourou et al. ALTID: Arabic/Latin text images database for recognition research
CN111241329A (zh) 基于图像检索的古文字考释方法和装置
CN112990091A (zh) 基于目标检测的研报解析方法、装置、设备和存储介质
CN111291547B (zh) 模板生成方法、装置、设备及介质
CN112839185A (zh) 用于处理图像的方法、装置、设备和介质
CN112036330A (zh) 一种文本识别方法、文本识别装置及可读存储介质
CN114579796B (zh) 机器阅读理解方法及装置
CN115482075A (zh) 财务数据的异常分析方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant