CN105045780B - 一种发票字条语义信息的识别方法及装置 - Google Patents

一种发票字条语义信息的识别方法及装置 Download PDF

Info

Publication number
CN105045780B
CN105045780B CN201510416723.4A CN201510416723A CN105045780B CN 105045780 B CN105045780 B CN 105045780B CN 201510416723 A CN201510416723 A CN 201510416723A CN 105045780 B CN105045780 B CN 105045780B
Authority
CN
China
Prior art keywords
invoice
brief note
bounding box
brief
identify
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510416723.4A
Other languages
English (en)
Other versions
CN105045780A (zh
Inventor
陈健庆
李锦鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Dunhe Information Technology Co Ltd
Original Assignee
Guangzhou Dunhe Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Dunhe Information Technology Co Ltd filed Critical Guangzhou Dunhe Information Technology Co Ltd
Priority to CN201510416723.4A priority Critical patent/CN105045780B/zh
Publication of CN105045780A publication Critical patent/CN105045780A/zh
Application granted granted Critical
Publication of CN105045780B publication Critical patent/CN105045780B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提出了一种发票字条语义信息的识别方法,包括如下步骤:建立训练数据库,收集所有不同格式的发票并保存到所述训练数据库中;每种格式的发票均包括多个字条;对所述训练数据库中的发票中所有字条进行包围盒的标识;所述包围盒包括识别的内容和语义信息分类;接收需要识别的发票,将其分别与所述训练数据库中每张发票的格式进行匹配,找出与其格式最相似的发票;识别出所述需要识别的发票中每个字条的内容并对其语义信息进行分类。本发明还涉及一种实现上述发票字条语义信息的识别方法的装置。实施本发明的发票字条语义信息的识别方法及装置,具有以下有益效果:能自动化识别发票的各种语义信息。

Description

一种发票字条语义信息的识别方法及装置
技术领域
本发明涉及发票识别领域,特别涉及一种发票字条语义信息的识别方法及装置。
背景技术
OCR识别技术能够将图片转换为文字,但是系统不能识别文字属于什么类别。譬如100这三个数字,有可能是发票金额,有可能是发票代码。这里我们将如何区分识别内容的类编定义为语义分析。如何从语义角度分析发票的内容,这是个技术难点。传统技术需要人工收集训练数据,采集大量不同发票格式。随着时间的变化,发票的格式也有相应的变化,需要增量收集不同的发票,系统不存在的发票格式暂时无法识别。最主要的问题是系统无法自动化识别发票的各种语义信息,例如:金额、抬头和开票人等等。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述无法自动化识别发票的各种语义信息的缺陷,提供一种能自动化识别发票的各种语义信息的发票字条语义信息的识别方法及装置。
本发明解决其技术问题所采用的技术方案是:构造一种发票字条语义信息的识别方法,包括如下步骤:
A)建立训练数据库,收集所有不同格式的发票并保存到所述训练数据库中;每种格式的发票均包括多个字条;
B)对所述训练数据库中的发票中所有字条进行包围盒的标识;所述包围盒包括识别的内容和语义信息分类;
C)接收需要识别的发票,将其分别与所述训练数据库中每张发票的格式进行匹配,找出与其格式最相似的发票;
D)识别出所述需要识别的发票中每个字条的内容并对其语义信息进行分类。
在本发明所述的发票字条语义信息的识别方法中,所述步骤C)进一步包括:
C1)接收需要识别的发票,查找所述训练数据库中的包围盒;
C2)将所述查找的包围盒套在所述需要识别的发票上;
C3)采用开源OCR识别引擎对被所述包围盒套住的字条进行识别;
C4)计算所述识别出的字条与所述包围盒所包含的字条之间的相似度;
C5)判断是否已经遍历所述训练数据中的所有包围盒,如是,对所有的相似度进行比较,找出相似度最大的字条;否则,从所述训练数据库中查找下一个包围盒,并返回步骤C2)。
在本发明所述的发票字条语义信息的识别方法中,所述步骤D)进一步包括:
D1)获取所述相似度最大的字条所对应的包围盒;
D2)根据所述相似度最大的字条所对应的包围盒,识别出所述需要识别的发票中的字条的内容并对其语义信息进行分类。
在本发明所述的发票字条语义信息的识别方法中,所述步骤C4)进一步包括:
C41)计算出所述识别出的字条中每个字符的出现概率及其数量的乘积;
C42)将所述每个字符的出现概率及其数量的乘积进行相加得到所述识别出的字条与所述包围盒所包含的字条之间的相似度。
在本发明所述的发票字条语义信息的识别方法中,所述字条包括发票代码或/和发票号码或/和发票抬头或/和开票日期或/和发票金额大写或/和发票金额小写或/和开票人;所述字符包括汉字、拉丁字母或/和数字。
本发明还涉及一种实现上述发票字条语义信息的识别方法的装置,包括:
数据库建立单元:用于建立训练数据库,收集所有不同格式的发票并保存到所述训练数据库中;每种格式的发票均包括多个字条;
标识单元:用于对所述训练数据库中的发票中所有字条进行包围盒的标识;所述包围盒包括识别的内容和语义信息分类;
匹配单元:用于接收需要识别的发票,将其分别与所述训练数据库中每张发票的格式进行匹配,找出与其格式最相似的发票;
识别分类单元:用于识别出所述需要识别的发票中每个字条的内容并对其语义信息进行分类。
在本发明所述的装置中,所述匹配单元进一步包括:
包围盒查找模块:用于接收需要识别的发票,查找所述训练数据库中的包围盒;
位置对应模块:用于将所述查找的包围盒套在所述需要识别的发票上;
识别模块:用于采用开源OCR识别引擎对被所述包围盒套住的字条进行识别;
相似度计算模块:用于计算所述识别出的字条与所述包围盒所包含的字条之间的相似度;
遍历模块:用于判断是否已经遍历所述训练数据中的所有包围盒,如是,对所有的相似度进行比较,找出相似度最大的字条;否则,从所述训练数据库中查找下一个包围盒。
在本发明所述的装置中,所述识别分类单元进一步包括:
最大相似度包围盒获取模块:用于获取所述相似度最大的字条所对应的包围盒;
字条内容识别分类模块:用于根据所述相似度最大的字条所对应的包围盒,识别出所述需要识别的发票中的字条的内容并对其语义信息进行分类。
在本发明所述的装置中,所述相似度计算模块进一步包括:
乘积计算模块:用于计算出所述识别出的字条中每个字符的出现概率及其数量的乘积;
相加模块:用于将所述每个字符的出现概率及其数量的乘积进行相加得到所述识别出的字条与所述包围盒所包含的字条之间的相似度。
在本发明所述的装置中,所述字条包括发票代码或/和发票号码或/和发票抬头或/和开票日期或/和发票金额大写或/和发票金额小写或/和开票人;所述字符包括汉字、拉丁字母或/和数字。
实施本发明的发票字条语义信息的识别方法及装置,具有以下有益效果:由于首先收集各种不同格式的发票,将其保存到训练数据库中,然后,人工标签训练数据库中发票所有字条的包围盒,当接收到需要识别的发票时,从训练数据库中找出与需要识别的发票最相似的发票(图片),然后识别发票中每个字条的内容并对其语义信息进行分类,所以其能自动化识别发票的各种语义信息。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明发票字条语义信息的识别方法及装置一个实施例中方法的流程图;
图2为所述实施例中接收需要识别的发票,将其分别与训练数据库中每张发票的格式进行匹配,找出与其格式最相似的发票的具体流程图;
图3为所述实施例中识别出需要识别的发票中每个字条的内容并对其语义信息进行分类的具体流程图;
图4为所述实施例中计算识别出的字条与包围盒所包含的字条之间的相似度的具体流程图;
图5为所述实施例中装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明发票字条语义信息的识别方法及装置实施例中,其发票字条语义信息的识别方法的流程图如图1所示。图1中,该发票字条语义信息的识别方法包括如下步骤:
步骤S01建立训练数据库,收集所有不同格式的发票并保存到训练数据库中:本步骤中,建立一个训练数据库,收集所有不同格式的发票,并将其以图片的方式保存到训练数据库中。值得一提的是,训练数据库包含所有出现的发票,每种格式的发票均包括多个字条,所谓发票不同的格式,指的是每张发票中的字条在发票中的分布位置不同。例如:字条可以是发票代码、发票号码、发票抬头、开票日期、发票金额大写、发票金额小写或开票人等等,值得一提的是,每种格式的发票中可以包括上述发票代码、发票号码、发票抬头、开票日期、发票金额大写、发票金额小写或开票人中的部分几个或全部,每种格式的发票具体包括哪些字条,要根据不同的行业和用途来确定。
步骤S02对训练数据库中的发票中所有字条进行包围盒的标识:本步骤中,对训练数据库中的发票中所有字条进行包围盒的标识,也就是对每个发票中所有的字条都要标识包围盒,包围盒包括识别的内容和语义信息分类,比如:对发票代码进行包围盒标识时,在对应该字条的位置画一个外框,该字条的内容位于这个外框的内部,然后在这个外框的外部用文字标注为发票代码,这样就将一个包围盒标识好了,按照这样的方法将训练数据库中的每张图片所有字条都进行包围盒的标识。通过人工标签出所有字条的包围盒,这样就可以对日常用的发票进行识别,达到语义上面的分析。
步骤S03接收需要识别的发票,将其分别与训练数据库中每张发票的格式进行匹配,找出与其格式最相似的发票:本步骤中,接收需要识别的发票,将其分别与训练数据库中每张发票的格式进行匹配,找出与其格式最相似的发票,也就是当接收到需要识别的发票,需要匹配训练数据库中的每张图片格式,找出与需要识别的发票最相似的格式。
步骤S04识别出需要识别的发票中每个字条的内容并对其语义信息进行分类:本步骤中,识别出需要识别的发票中每个字条的内容并对其语义信息进行分类。值得一提的是,由于上述步骤S03中已经找到最相似的格式,也就是一旦格式匹配成功,本步骤就能将每个字条的语义信息的类别识别出来。由于标签训练数据库中发票所有字条的包围盒,当接收到需要识别的发票时,从训练数据库中找出与需要识别的发票最相似的发票(图片),然后识别发票中每个字条的内容并对其语义信息进行分类,所以其能自动化识别发票的各种语义信息。
对于本实施例而言,上述步骤S03还可进一步细化,其细化后的流程图如图2所示。图2中,上述步骤S03进一步包括:
步骤S31接收需要识别的发票,查找训练数据库中的包围盒:本步骤中,接收需要识别的发票,查找训练数据库中的包围盒。
步骤S32将查找的包围盒套在需要识别的发票上:本步骤中,将查找的包围盒套在需要识别的发票上,也就是将包围盒的外框套在需要识别的发票上。
步骤S33采用开源OCR识别引擎对被包围盒套住的字条进行识别:本步骤中,采用开源OCR识别引擎对被包围盒套住的字条进行识别。
步骤S34计算识别出的字条与包围盒所包含的字条之间的相似度:本步骤中,计算识别出的字条与包围盒所包含的字条之间的相似度。后续会对本步骤进行详细描述。
步骤S35判断是否已经遍历训练数据中的所有包围盒:本步骤中,判断是否已经遍历训练数据中的所有包围盒,如果判断的结果为是,则执行步骤S37;否则,执行步骤S36。
步骤S36从训练数据库中查找下一个包围盒:如果上述步骤S35的判断结果为否,则执行本步骤。本步骤中,从训练数据库中查找下一个包围盒,并返回步骤S32。
步骤S37对所有的相似度进行比较,找出相似度最大的字条:如果上述步骤S35的判断结果为是,则执行本步骤。本步骤中,对所有的相似度进行比较,找出相似度最大的字条。
对于本实施例而言,上述步骤S04还可进一步细化,其细化后的流程图如图3所示。图3中,上述步骤S04进一步包括:
步骤S41获取相似度最大的字条所对应的包围盒:本步骤中,获取相似度最大的字条所对应的包围盒。
步骤S42根据相似度最大的字条所对应的包围盒,识别出需要识别的发票中的字条的内容并对其语义信息进行分类:由于包围盒包括识别的内容和语义信息分类,这样,本步骤中,就能根据相似度最大的字条所对应的包围盒,识别出需要识别的发票中的字条的内容并对其语义信息进行分类,语义信息的分类可以是发票代码、发票号码、发票抬头、开票日期、发票金额大写、发票金额小写或开票人等等,这样就实现了自动化识别发票的各种语义信息。
对于本实施例而言,上述步骤S34还可进一步细化,其细化后的流程图如图4所示。图4中,上述步骤S34进一步包括:
步骤S341计算出识别出的字条中每个字符的出现概率及其数量的乘积:本步骤中,计算出识别出的字条中每个字符的出现概率及其数量的乘积。具体的,因为发票日期、发票抬头和发票金额等等不同的字条里面的字符分布是不一样的。识别结果可以根据每个字条的里面的字符出现概率相似度获取。上述提到的字符包括汉字、拉丁字母或/和数字等等。
比如训练数据库中,每个字条都可以统计出字符出现概率。例如字条“发票代码”,可以统计出prob(‘0’)=0.1、prob(‘1’)=0.1、prob(‘2’)=0.1、prob(‘3’)=0.1、prob(‘4’)=0.1、prob(‘5’)=0.1、prob(‘6’)=0.1、prob(‘7’)=0.1、prob(‘8’)=0.1、prob(‘9’)=0.1,其他如此类推,字条“发票抬头”可以是汉字的出现概率,这个概率分布不是固定的。其根据训练数据库的变化而动态变化。
步骤S342将每个字符的出现概率及其数量的乘积进行相加得到识别出的字条与包围盒所包含的字条之间的相似度:本步骤中,将每个字符的出现概率及其数量的乘积进行相加得到识别出的字条与包围盒所包含的字条之间的相似度。具体的,当识别出一个字条的内容的时候,如果要计算该识别出的字条与各种类别的字条的相似度,可利用下述公式:
Σ(prob(char)*num(char))
其中,char是指字符(包括汉字,数字,拉丁字母),num(char)为char的数量,prob(char)指字符字条出现的概率。假如识别出一个字条的内容为0000001111,这个识别结果与字条“发票代码”的相似度为:
prob(‘0’)*6+prob(‘1’)*4=1
根据相似度,可以为不同的识别结果定义是否属于发票金额,发票代码,发票抬头等语义信息。
本实施例还涉及一种实现上述发票字条语义信息的识别方法的装置,其结构示意图如图5所示。图5中,该装置包括数据库建立单元1、标识单元2、匹配单元3和识别分类单元4;其中,数据库建立单元1用于建立训练数据库,收集所有不同格式的发票并保存到训练数据库中;每种格式的发票均包括多个字条;字条包括发票代码或/和发票号码或/和发票抬头或/和开票日期或/和发票金额大小或/和发票金额小写或/和开票人;标识单元2用于对训练数据库中的发票中所有字条进行包围盒的标识;包围盒包括识别的内容和语义信息分类;匹配单元3用于接收需要识别的发票,将其分别与训练数据库中每张发票的格式进行匹配,找出与其格式最相似的发票;识别分类单元4用于识别出需要识别的发票中每个字条的内容并对其语义信息进行分类。由于标签训练数据库中发票所有字条的包围盒,当接收到需要识别的发票时,从训练数据库中找出与需要识别的发票最相似的发票(图片),然后识别发票中每个字条的内容并对其语义信息进行分类,所以其能自动化识别发票的各种语义信息。
本实施例中,匹配单元3进一步包括包围盒查找模块31、位置对应模块32、识别模块33、相似度计算模块34和遍历模块35;其中,包围盒查找模块31用于接收需要识别的发票,查找训练数据库中的包围盒;位置对应模块32用于将查找的包围盒套在需要识别的发票上;识别模块33用于采用开源OCR识别引擎对被包围盒套住的字条进行识别;相似度计算模块34用于计算识别出的字条与包围盒所包含的字条之间的相似度;遍历模块35用于判断是否已经遍历训练数据中的所有包围盒,如是,对所有的相似度进行比较,找出相似度最大的字条;否则,从训练数据库中查找下一个包围盒。
本实施例中,识别分类单元4进一步包括最大相似度包围盒获取模块41和字条内容识别分类模块42;其中,最大相似度包围盒获取模块41用于获取相似度最大的字条所对应的包围盒;字条内容识别分类模块42用于根据相似度最大的字条所对应的包围盒,识别出需要识别的发票中的字条的内容并对其语义信息进行分类。语义信息的分类可以是发票代码、发票号码、发票抬头、开票日期、发票金额大写、发票金额小写或开票人等等,这样就实现了自动化识别发票的各种语义信息。
本实施例中,相似度计算模块34进一步包括乘积计算模块341和相加模块342;其中,乘积计算模块341用于计算出识别出的字条中每个字符的出现概率及其数量的乘积;相加模块342用于将每个字符的出现概率及其数量的乘积进行相加得到识别出的字条与包围盒所包含的字条之间的相似度。上述字符包括汉字、拉丁字母或/和数字等等。
总之,在本实施例中,通过建立训练数据库,人工标签训练数据库中所有包围盒的语义信息,当接收到需要识别的发票时,从训练数据库中找出最相似的图片,然后自动识别出需要识别的发票中每个字条的内容以及分类。其解决了传统技术中不能自动化识别发票字条内容的类别问题。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种发票字条语义信息的识别方法,其特征在于,包括如下步骤:
A)建立训练数据库,收集所有不同格式的发票并保存到所述训练数据库中;每种格式的发票均包括多个字条;所谓发票不同的格式,指的是每张发票中的字条在发票中的分布位置不同;
B)对所述训练数据库中的发票中所有字条进行包围盒的标识;所述包围盒包括识别的内容和语义信息分类;对发票代码进行包围盒标识时,在对应该字条的位置画一个外框,该字条的内容位于这个外框的内部,然后在这个外框的外部用文字标注为发票代码;通过人工标签出所有字条的包围盒;
C)接收需要识别的发票,将其分别与所述训练数据库中每张发票的格式进行匹配,找出与其格式最相似的发票;
D)识别出所述需要识别的发票中每个字条的内容并对其语义信息进行分类;
所述步骤C)进一步包括:
C1)接收需要识别的发票,查找所述训练数据库中的包围盒;
C2)将所述查找的包围盒套在所述需要识别的发票上;
C3)采用开源OCR识别引擎对被所述包围盒套住的字条进行识别;
C4)计算所述识别出的字条与所述包围盒所包含的字条之间的相似度;
C5)判断是否已经遍历所述训练数据中的所有包围盒,如是,对所有的相似度进行比较,找出相似度最大的字条;否则,从所述训练数据库中查找下一个包围盒,并返回步骤C2);
所述步骤C4)进一步包括:
C41)计算出所述识别出的字条中每个字符的出现概率及其数量的乘积;
C42)将所述每个字符的出现概率及其数量的乘积进行相加得到所述识别出的字条与所述包围盒所包含的字条之间的相似度。
2.根据权利要求1所述的发票字条语义信息的识别方法,其特征在于,所述步骤D)进一步包括:
D1)获取所述相似度最大的字条所对应的包围盒;
D2)根据所述相似度最大的字条所对应的包围盒,识别出所述需要识别的发票中的字条的内容并对其语义信息进行分类。
3.根据权利要求1所述的发票字条语义信息的识别方法,其特征在于,所述字条包括发票代码或/和发票号码或/和发票抬头或/和开票日期或/和发票金额大写或/和发票金额小写或/和开票人;所述字符包括汉字、拉丁字母或/和数字。
4.一种实现如权利要求1所述的发票字条语义信息的识别方法的装置,其特征在于,包括:
数据库建立单元:用于建立训练数据库,收集所有不同格式的发票并保存到所述训练数据库中;每种格式的发票均包括多个字条;所谓发票不同的格式,指的是每张发票中的字条在发票中的分布位置不同;
标识单元:用于对所述训练数据库中的发票中所有字条进行包围盒的标识;所述包围盒包括识别的内容和语义信息分类;对发票代码进行包围盒标识时,在对应该字条的位置画一个外框,该字条的内容位于这个外框的内部,然后在这个外框的外部用文字标注为发票代码;通过人工标签出所有字条的包围盒;
匹配单元:用于接收需要识别的发票,将其分别与所述训练数据库中每张发票的格式进行匹配,找出与其格式最相似的发票;
识别分类单元:用于识别出所述需要识别的发票中每个字条的内容并对其语义信息进行分类;
所述匹配单元进一步包括:
包围盒查找模块:用于接收需要识别的发票,查找所述训练数据库中的包围盒;
位置对应模块:用于将所述查找的包围盒套在所述需要识别的发票上;
识别模块:用于采用开源OCR识别引擎对被所述包围盒套住的字条进行识别;
相似度计算模块:用于计算所述识别出的字条与所述包围盒所包含的字条之间的相似度;
遍历模块:用于判断是否已经遍历所述训练数据中的所有包围盒,如是,对所有的相似度进行比较,找出相似度最大的字条;否则,从所述训练数据库中查找下一个包围盒;
所述相似度计算模块进一步包括:
乘积计算模块:用于计算出所述识别出的字条中每个字符的出现概率及其数量的乘积;
相加模块:用于将所述每个字符的出现概率及其数量的乘积进行相加得到所述识别出的字条与所述包围盒所包含的字条之间的相似度。
5.根据权利要求4所述的装置,其特征在于,所述识别分类单元进一步包括:
最大相似度包围盒获取模块:用于获取所述相似度最大的字条所对应的包围盒;
字条内容识别分类模块:用于根据所述相似度最大的字条所对应的包围盒,识别出所述需要识别的发票中的字条的内容并对其语义信息进行分类。
6.根据权利要求4所述的装置,其特征在于,所述字条包括发票代码或/和发票号码或/和发票抬头或/和开票日期或/和发票金额大写或/和发票金额小写或/和开票人;所述字符包括汉字、拉丁字母或/和数字。
CN201510416723.4A 2015-07-15 2015-07-15 一种发票字条语义信息的识别方法及装置 Active CN105045780B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510416723.4A CN105045780B (zh) 2015-07-15 2015-07-15 一种发票字条语义信息的识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510416723.4A CN105045780B (zh) 2015-07-15 2015-07-15 一种发票字条语义信息的识别方法及装置

Publications (2)

Publication Number Publication Date
CN105045780A CN105045780A (zh) 2015-11-11
CN105045780B true CN105045780B (zh) 2017-12-26

Family

ID=54452336

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510416723.4A Active CN105045780B (zh) 2015-07-15 2015-07-15 一种发票字条语义信息的识别方法及装置

Country Status (1)

Country Link
CN (1) CN105045780B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106469138B (zh) * 2016-09-29 2020-07-17 东软集团股份有限公司 词云的生成方法及装置
CN108268880A (zh) * 2016-12-30 2018-07-10 航天信息股份有限公司 一种行业类别的识别方法及装置
CN108268456B (zh) * 2016-12-30 2022-03-04 航天信息股份有限公司 一种建立发票数据库的方法与查询数据库内发票的方法
CN107273883B (zh) * 2017-05-03 2020-04-21 天方创新(北京)信息技术有限公司 决策树模型训练方法、确定ocr结果中数据属性方法及装置
CN109426814B (zh) * 2017-08-22 2023-02-24 顺丰科技有限公司 一种发票图片特定板块的定位、识别方法、系统、设备
CN108460418B (zh) * 2018-03-07 2021-09-28 南京邮电大学 一种基于文字识别与语义分析的发票分类方法
CN108596750B (zh) * 2018-05-09 2019-08-23 西安交通大学 一种基于并行关联规则挖掘的发票虚开识别方法
CN108717543B (zh) * 2018-05-14 2022-01-14 北京市商汤科技开发有限公司 一种发票识别方法及装置、计算机存储介质
CN109002768A (zh) * 2018-06-22 2018-12-14 深源恒际科技有限公司 基于神经网络文本检测识别的医疗票据类文字提取方法
CN109727138B (zh) * 2018-12-29 2021-03-30 航天信息股份有限公司 基于置信度的凭证匹配方法及系统
CN110619056A (zh) * 2019-06-19 2019-12-27 深圳壹账通智能科技有限公司 发票录入方法、装置、设备及计算机存储介质
CN110490267B (zh) * 2019-08-23 2022-03-01 四川长虹电器股份有限公司 一种基于深度学习的票据分拣方法
CN112232036A (zh) * 2020-09-08 2021-01-15 用友网络科技股份有限公司 报销单生成方法、电子设备和计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001018754A1 (en) * 1999-09-08 2001-03-15 Accudent Pty Ltd Document authentication method and apparatus
CN101925905A (zh) * 2007-12-12 2010-12-22 3M创新有限公司 根据特征图像流程识别和验证未知文档
CN102208092A (zh) * 2011-05-25 2011-10-05 重庆市电力公司永川供电局 财务票据报销自动处理方法
CN103208004A (zh) * 2013-03-15 2013-07-17 北京英迈杰科技有限公司 票据信息区域自动识别和提取方法及设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001018754A1 (en) * 1999-09-08 2001-03-15 Accudent Pty Ltd Document authentication method and apparatus
CN101925905A (zh) * 2007-12-12 2010-12-22 3M创新有限公司 根据特征图像流程识别和验证未知文档
CN102208092A (zh) * 2011-05-25 2011-10-05 重庆市电力公司永川供电局 财务票据报销自动处理方法
CN103208004A (zh) * 2013-03-15 2013-07-17 北京英迈杰科技有限公司 票据信息区域自动识别和提取方法及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于朴素贝叶斯方法的中文文本分类研究;李丹;《中国优秀硕士学位论文全文数据库 信息科技辑》;20111115(第11期);第17-20页 *

Also Published As

Publication number Publication date
CN105045780A (zh) 2015-11-11

Similar Documents

Publication Publication Date Title
CN105045780B (zh) 一种发票字条语义信息的识别方法及装置
CN107622255B (zh) 基于位置模板与语义模板的票据图像字段定位方法及系统
CN106777275B (zh) 基于多粒度语义块的实体属性和属性值提取方法
US7983468B2 (en) Method and system for extracting information from documents by document segregation
CN104199840B (zh) 基于统计模型的智能地名识别技术
CN107705066A (zh) 一种商品入库时信息录入方法及电子设备
CN109117885A (zh) 一种基于深度学习的邮票识别方法
CN107943514A (zh) 一种软件文档中核心代码元素的挖掘方法及系统
CN113592044B (zh) 一种笔迹特征分析方法及装置
CN107291949A (zh) 信息搜索方法及装置
CN109446376A (zh) 一种通过分词对语音进行分类的方法及系统
CN109740417A (zh) 发票类型识别方法、装置、存储介质和计算机设备
CN110110087A (zh) 一种基于二分类器的用于法律文本分类的特征工程方法
Hascoet et al. On zero-shot recognition of generic objects
CN105389303B (zh) 一种异源语料自动融合方法
CN116187444A (zh) 一种基于K-means++的专业领域敏感实体知识库构建方法
CN115761772A (zh) 一种医疗化验单的结构化识别方法、系统及存储介质
CN103218420A (zh) 一种网页标题提取方法及装置
CN109993381B (zh) 基于知识图谱的需求管理应用方法、装置、设备及介质
CN115659056A (zh) 基于大数据的用户服务精准匹配系统
CN115527195A (zh) 一种医疗设备铭牌信息识别抽取算法
CN106709502A (zh) 一种基于投票方法的多特征融合识别方法
CN101295320B (zh) 一种判定锚文本噪声级别的方法及系统
TW202234285A (zh) 對話資料處理系統、其方法及電腦可讀媒介
CN111985193A (zh) 题目自动标注分类的方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant