CN107622255B - 基于位置模板与语义模板的票据图像字段定位方法及系统 - Google Patents
基于位置模板与语义模板的票据图像字段定位方法及系统 Download PDFInfo
- Publication number
- CN107622255B CN107622255B CN201710946131.2A CN201710946131A CN107622255B CN 107622255 B CN107622255 B CN 107622255B CN 201710946131 A CN201710946131 A CN 201710946131A CN 107622255 B CN107622255 B CN 107622255B
- Authority
- CN
- China
- Prior art keywords
- field
- bill
- image
- bill image
- template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Character Input (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于位置模板与语义模板的票据图像字段定位方法及系统,包括:分析字段在票据图像中四类位置属性;为不同的票据类型分别制定不同的模板配置xml文件;通过票据分类系统分析票据图像的票据类型,并加载与该票据图像具有相同的票据类型的模板配置xml文件;定位票据图像中全部的字段位置坐标;通过模板配置xml文件并根据四类位置属性进行定位计算获取所需要识别的字段在票据图像的位置坐标,并获取该字段局部图像;文字识别系统采用OCR技术将字段局部图像识别成字符串。本发明能有效的获得字段在票据图像的具体位置坐标,有效的保存了大量关于发票类型特点规律的数据,为发票文字定位、文字识别提供更多的数据支持。
Description
技术领域
本发明属于图像识别、视频分析领域,尤其涉及一种基于位置模板与语义模板的票据图像字段定位方法及系统。
背景技术
现代社会的各种商业活动,广泛使用各种票据,尽管电子支付、电子票据等发展日益增多,传统纸质票据仍然被广泛使用,如各类纸质发票、金融票据等。目前,财务部门平均每天有大量的票据影像,多岗位员工需要对同一张票据进行重复稽核,不仅耗费人力,而且降低了报账效率。通过图像OCR技术实现票面信息的提取,将提取的票面信息与报账信息进行对比,实现自动稽核;OCR提取的票据信息存入数据库中,相当于一个具有极强记忆力的大脑,可以很容易发现报账名称和纳税人识别号不一致,拆分报账等问题。同时,在互联网+财务的发展趋势背景下,借助OCR技术,将非结构化扫描影像数据中的有用信息转换为结构化的字符串数据,为有效数据挖掘和财务大数据分析提供数据基础。
票据OCR智能识别系统,一般有三个系统组成:票据类型分类系统、票据图像字段定位系统、票据图像文字识别系统。票据分类系统,基于图像特征,分析票据的类型,输出票据的类型给字段定位系统;字段定位系统根据票据的类型,采取相应的策略,获取每个字段的位置和局部图像;定位系统将字段局部图像输出到文字识别系统中,文字识别系统将图像文件OCR识别成字符串文件。
专利CN201310082322“票据信息区域自动识别和提取方法及设备”侧重使用级联分类器对发票进行分类,在字段定位模块中,只是使用固定位置来提取特定的字段,适用的票据范围太小。
专利CN201610070970“一种基于OCR的票据自动识别与处理系统”是针对增值税发票,适用票据类型不具有广泛性,而且在增值税发票处理中,只是对指定的几个字段做固定位置定位获取。
发明内容
本发明的目的为了克服现有技术中的不足,提供一种基于位置模板与语义模板的票据图像字段定位方法及系统,本基于位置模板与语义模板的票据图像字段定位方法及系统能有效的获得字段在票据图像的具体位置坐标,有效的保存了大量关于发票类型特点规律的数据,为发票文字定位、文字识别提供更多的数据支持。
为实现上述技术目的,本发明采取的技术方案之一是:
一种基于位置模板与语义模板的票据图像字段定位方法,其特征在于包括以下步骤:
步骤1:字段定位系统分析字段在票据图像中四类位置属性;
步骤2:字段定位系统根据不同票据类型的格式规律,为不同的票据类型分别制定不同的模板配置xml文件;
步骤3:票据分类系统分析票据图像的票据类型并发送票据类型到字段定位系统,字段定位系统加载与该票据图像具有相同的票据类型的模板配置xml文件;
步骤4: 获取票据图像中全部的字段位置坐标;
步骤5:字段定位系统通过模板配置xml文件并根据四类位置属性进行定位计算从而获取所需要识别的字段在票据图像的具体位置坐标,并获取该字段局部图像;
步骤6:字段定位系统将字段局部图像输入到文字识别系统中,文字识别系统采用OCR技术将字段局部图像识别成字符串。
优选的,所述的步骤1中四类位置属性包括:
(a)固定位置属性,字段在票据图像中的位置固定不动;
(b)套打位置属性,票据图像中的字段的打印是套用一定格式打印的,每个字段之间的相对位置不动,但字段在票据上的位置却不固定;选取车辆训练正样本和负样本,建立样本标签数据表;
(c)标题语义属性,字段在票据图像上位置变化不定,且每个字段有一个标题;
(d)关键语义属性,字段在票据图像上位置变化不定,且每个字段没有标题,但有一定关键语义。
优选的,所述的步骤2包括以下步骤:
(a)字段定位系统收集不同票据类型的高清票据图像,根据所需要识别的字段为不同的票据类型分别制定不同的模板配置xml文件;
(b)每个模板配置xml文件中,均写明票据类型ID、票据名称和票据图像的中所需要识别的字段数目,写明所需要识别的每个字段的ID、每个字段的名称、每个字段的定位属性、每个字段在票据图像中的位置、每个字段的存在标题和每个字段的关键语义,计算并记录每个字段间相对位置;
(c)字段定位系统将每个模板配置xml文件均以其所属的票据图像的类型ID命名并保存。
优选的,所述的步骤3包括以下步骤:
(a)票据分类系统分析出票据图像的票据类型,并将该票据图像的票据类型ID输出到字段定位系统;
(b)字段定位系统根据票据类型ID,从所有的模板配置xml文件中加载与该票据图像的票据类型ID相同的模板配置xml文件, 获取该类型票据的定位属性,即票据图像中字段的位置属性。
优选的,所述步骤5具体包括以下步骤:
(a)字段定位系统获取与该票据图像对应的模板配置xml文件中的字段位置坐标数据;
(b)如果步骤1中判断的字段在票据图像中的位置属性属于固定位置属性,字段定位系统从步骤4的票据图像的全部的字段位置坐标中提取与模板配置xml文件中的对应相同的字段位置坐标,该一致的字段位置坐标即为所需要识别的字段位置坐标,获取所需要识别的字段局部图像;
(c)如果步骤1中判断的字段在票据图像中的位置属性属于套打位置属性,字段定位系统通过图像特征方法从步骤4的票据图像中的全部的字段位置坐标中获取有标志特征的字段,命名为标志字段;分析模板配置xml文件的字段中与标志字段具有相同的字段的位置坐标和标志字段在票据图像中的位置坐标之间的关系,计算模板配置xml文件中其他的字段位置坐标,从而计算步骤4的票据图像中与模板配置xml文件中的全部字段具有相同的字段的位置坐标并获取该字段局部图像;
(d)如果步骤1中判断的字段在票据图像中的位置属性属于标题语义属性,字段定位系统从步骤4的票据图像的全部的字段位置坐标中识别字符串值,判断字符串中是否包含标题语义,如果包含,则提取标题后面的真实字段信息,从票据图像的真实字段信息中提取与模板配置xml文件中的对应相同的字段,根据相同的字段在票据图像中的位置坐标获取该字段局部图像;
(e)如果步骤1中判断的字段在票据图像中的位置属性属于关键语义属性,字段定位系统从步骤4的票据图像的全部的字段位置坐标中识别字符串值,判断字符串中是否包含关键语义,如果包含,提取关键的字段信息,从票据图像中关键的字段信息中提取与模板配置xml文件中相同的字段,根据相同的字段在票据图像中的位置坐标获取该字段局部图像。
为实现上述技术目的,本发明采取的技术方案之二是:
一种基于位置模板与语义模板的票据图像字段定位系统,其特征在于该系统包括字段定位系统、票据分类系统和文字识别系统,字段定位系统分别与票据分类系统和文字识别系统连接;
所述的字段定位系统包括:
分析模块,用于分析字段在票据图像中四类位置属性;
制作模块,用于根据不同票据类型的格式规律,为不同的票据类型分别制定不同的模板配置xml文件;
接收模块,用于接收票据分类系统发送的票据图像的票据类型;
加载模块,用于加载与该票据图像具有相同的票据类型的模板配置xml文件;
获取模块,用于根据票据图像的位置属性和模板配置xml文件中字段的位置坐标从而获取所需要识别的字段在票据图像的具体位置坐标并获取所需要识别的字段局部图像;
发送模块,用于发送字段局部图像到文字识别系统;
所述票据分类系统用于分析票据图像的票据类型并发送票据类型到字段定位系统;
所述文字识别系统用于接收字段定位系统中的发送模块发送的字段局部图像,并采用OCR技术将字段局部图像识别成字符串。
本发明的有益效果是:本发明综合分析了各种类型的发票格式规律,发票中字段位置总结了四类位置属性:固定位置属性、套打位置属性、标题语义属性和关键语义属性,设置上面四种位置属性,在定位每个字段位置时,根据该字段在模板中位置属性,采取相应策略进行定位计算,获得该字段在票据的具体坐标,并获取该字段局部图像,这样可以灵活设置不同类型发票的多种类型的组合,而不是使用单一的规律格式;发明定位系统为不同类型的票据,选择一张高清的票据图像,来制作模板配置xml文件,保存了大量关于发票类型特点规律的数据,为发票文字定位、文字识别提供更多的数据支持。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1是本发明的工作流程图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
本发明提供了一种基于位置模板与语义模板的票据图像字段定位方法及系统,包括:分析字段在票据图像中四类位置属性;根据不同票据类型的格式规律,为不同的票据类型分别制定不同的模板配置xml文件;通过票据分类系统分析票据图像的票据类型,并加载与该票据图像具有相同的票据类型的模板配置xml文件;定位票据图像中全部的字段位置坐标;通过模板配置xml文件并根据四类位置属性进行定位计算从而获取所需要识别的字段在票据图像的具体位置坐标,并获取该字段局部图像;将字段局部图像输入到文字识别系统中,文字识别系统采用OCR技术将字段局部图像识别成字符串;本发明能有效的获得字段在票据图像的具体位置坐标,有效的保存了大量关于发票类型特点规律的数据,为发票文字定位、文字识别提供更多的数据支持。
实施例一。
一种基于位置模板与语义模板的票据图像字段定位方法,其包括以下步骤:
步骤1:字段定位系统分析字段在票据图像中四类位置属性;
步骤2:字段定位系统根据不同票据类型的格式规律,为不同的票据类型分别制定不同的模板配置xml文件;
步骤3:票据分类系统分析票据图像的票据类型并发送票据类型到字段定位系统,字段定位系统加载与该票据图像具有相同的票据类型的模板配置xml文件;
步骤4: 获取票据图像中全部的字段位置坐标;
步骤5:字段定位系统通过模板配置xml文件并根据四类位置属性进行定位计算从而获取所需要识别的字段在票据图像的具体位置坐标,并获取该字段局部图像;
步骤6:字段定位系统将字段局部图像输入到文字识别系统中,文字识别系统采用OCR技术将字段局部图像识别成字符串。
优选的,所述的步骤1中四类位置属性包括:
(a)固定位置属性,字段在票据图像中的位置固定不动;
(b)套打位置属性,票据图像中的字段的打印是套用一定格式打印的,每个字段之间的相对位置不动,但字段在票据上的位置却不固定;选取车辆训练正样本和负样本,建立样本标签数据表;
(c)标题语义属性,字段在票据图像上位置变化不定,且每个字段有一个标题;
(d)关键语义属性,字段在票据图像上位置变化不定,且每个字段没有标题,但有一定关键语义。
优选的,所述的步骤2包括以下步骤:
(a)字段定位系统收集不同票据类型的高清票据图像,根据所需要识别的字段为不同的票据类型分别制定不同的模板配置xml文件;
(b)每个模板配置xml文件中,均写明票据类型ID、票据名称和票据图像的中所需要识别的字段数目,写明所需要识别的每个字段的ID、每个字段的名称、每个字段的定位属性、每个字段在票据图像中的位置、每个字段的存在标题和每个字段的关键语义,计算并记录每个字段间相对位置;
(c)字段定位系统将每个模板配置xml文件均以其所属的票据图像的类型ID命名并保存。
优选的,所述的步骤3包括以下步骤:
(a)票据分类系统分析出票据图像的票据类型,并将该票据图像的票据类型ID输出到字段定位系统;
(b)字段定位系统根据票据类型ID,从所有的模板配置xml文件中加载与该票据图像的票据类型ID相同的模板配置xml文件, 获取该类型票据的定位属性,即票据图像中字段的位置属性。
优选的,所述步骤5具体包括以下步骤:
(a)字段定位系统获取与该票据图像对应的模板配置xml文件中的字段位置坐标数据;
(b)如果步骤1中判断的字段在票据图像中的位置属性属于固定位置属性,字段定位系统从步骤4的票据图像的全部的字段位置坐标中提取与模板配置xml文件中的对应相同的字段位置坐标,该一致的字段位置坐标即为所需要识别的字段位置坐标,获取所需要识别的字段局部图像;
(c)如果步骤1中判断的字段在票据图像中的位置属性属于套打位置属性,字段定位系统通过图像特征方法从步骤4的票据图像中的全部的字段位置坐标中获取有标志特征的字段,命名为标志字段;分析模板配置xml文件的字段中与标志字段具有相同的字段的位置坐标和标志字段在票据图像中的位置坐标之间的关系,计算模板配置xml文件中其他的字段位置坐标,从而计算步骤4的票据图像中与模板配置xml文件中的全部字段具有相同的字段的位置坐标并获取该字段局部图像;
(d)如果步骤1中判断的字段在票据图像中的位置属性属于标题语义属性,字段定位系统从步骤4的票据图像的全部的字段位置坐标中识别字符串值,判断字符串中是否包含标题语义,如果包含,则提取标题后面的真实字段信息,从票据图像的真实字段信息中提取与模板配置xml文件中的对应相同的字段,根据相同的字段在票据图像中的位置坐标获取该字段局部图像;
(e)如果步骤1中判断的字段在票据图像中的位置属性属于关键语义属性,字段定位系统从步骤4的票据图像的全部的字段位置坐标中识别字符串值,判断字符串中是否包含关键语义,如果包含,提取关键的字段信息,从票据图像中关键的字段信息中提取与模板配置xml文件中相同的字段,根据相同的字段在票据图像中的位置坐标获取该字段局部图像。
实施例二。
一种基于位置模板与语义模板的票据图像字段定位系统,该系统包括字段定位系统、票据分类系统和文字识别系统,字段定位系统分别与票据分类系统和文字识别系统连接;
所述的字段定位系统包括:
分析模块,用于分析字段在票据图像中四类位置属性;
制作模块,用于根据不同票据类型的格式规律,为不同的票据类型分别制定不同的模板配置xml文件;
接收模块,用于接收票据分类系统发送的票据图像的票据类型;
加载模块,用于加载与该票据图像具有相同的票据类型的模板配置xml文件;
获取模块,用于根据票据图像的位置属性和模板配置xml文件中字段的位置坐标从而获取所需要识别的字段在票据图像的具体位置坐标并获取所需要识别的字段局部图像;
发送模块,用于发送字段局部图像到文字识别系统;
所述票据分类系统用于分析票据图像的票据类型并发送票据类型到字段定位系统;
所述文字识别系统用于接收字段定位系统中的发送模块发送的字段局部图像,并采用OCR技术将字段局部图像识别成字符串。
以上显示和描述了本发明的基本原理、主要特征和优点。本领域的普通技术人员应该了解,上述实施例不以任何形式限制本发明的保护范围,凡采用等同替换等方式所获得的技术方案,均落于本发明的保护范围内。
本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。
Claims (4)
1.一种基于位置模板与语义模板的票据图像字段定位方法,其特征在于包括以下步骤:
步骤1:字段定位系统分析字段在票据图像中四类位置属性;其中,四类位置属性包括:
(a)固定位置属性,字段在票据图像中的位置固定不动;
(b)套打位置属性,票据图像中的字段的打印套用一定格式打印,每个字段之间的相对位置不动,但字段在票据上的位置不固定;
(c)标题语义属性,字段在票据图像上位置变化不定,且每个字段有一个标题;
(d)关键语义属性,字段在票据图像上位置变化不定,且每个字段没有标题,但有一定关键语义;
步骤2:字段定位系统根据不同票据类型的格式规律,为不同的票据类型分别制定不同的模板配置xml文件;
步骤3:票据分类系统分析票据图像的票据类型并发送票据类型到字段定位系统,字段定位系统加载与该票据图像具有相同的票据类型的模板配置xml文件;
步骤4: 获取票据图像中全部的字段位置坐标;
步骤5:字段定位系统通过模板配置xml文件并根据四类位置属性进行定位计算从而获取所需要识别的字段在票据图像的具体位置坐标,并获取该字段局部图像;
步骤6:字段定位系统将字段局部图像输入到文字识别系统中,文字识别系统采用OCR技术将字段局部图像识别成字符串。
2.根据权利要求1所述的一种基于位置模板与语义模板的票据图像字段定位方法,其特征在于所述的步骤2包括以下步骤:
(a)字段定位系统收集不同票据类型的高清票据图像,根据所需要识别的字段为不同的票据类型分别制定不同的模板配置xml文件;
(b)每个模板配置xml文件中,均写明票据类型ID、票据名称和票据图像中所需要识别的字段数目,写明所需要识别的每个字段的ID、每个字段的名称、每个字段的定位属性、每个字段在票据图像中的位置、每个字段的存在标题和每个字段的关键语义,计算并记录每个字段间相对位置;
(c)字段定位系统将每个模板配置xml文件均以其所属的票据图像的类型ID命名并保存。
3.根据权利要求1所述的一种基于位置模板与语义模板的票据图像字段定位方法,其特征在于所述的步骤3包括以下步骤:
(a)票据分类系统分析出票据图像的票据类型,并将该票据图像的票据类型ID输出到字段定位系统;
(b)字段定位系统根据票据类型ID,从所有的模板配置xml文件中加载与该票据图像的票据类型ID相同的模板配置xml文件, 获取该类型票据的定位属性,即票据图像中字段的位置属性。
4.根据权利要求1所述的一种基于位置模板与语义模板的票据图像字段定位方法,其特征在于所述步骤5具体包括以下步骤:
(a)字段定位系统获取与该票据图像对应的模板配置xml文件中的字段位置坐标数据;
(b)如果步骤1中判断的字段在票据图像中的位置属性属于固定位置属性,字段定位系统从步骤4的票据图像的全部的字段位置坐标中提取与模板配置xml文件中的对应相同的字段位置坐标,该相同的字段位置坐标即为所需要识别的字段位置坐标,获取所需要识别的字段局部图像;
(c)如果步骤1中判断的字段在票据图像中的位置属性属于套打位置属性,字段定位系统通过图像特征方法从步骤4的票据图像中的全部的字段位置坐标中获取有标志特征的字段,命名为标志字段;分析模板配置xml文件的字段中与标志字段具有相同的字段的位置坐标和标志字段在票据图像中的位置坐标之间的关系,计算模板配置xml文件中其他的字段位置坐标,从而计算步骤4的票据图像中与模板配置xml文件中的全部字段具有相同的字段的位置坐标并获取该字段局部图像;
(d)如果步骤1中判断的字段在票据图像中的位置属性属于标题语义属性,字段定位系统从步骤4的票据图像的全部的字段位置坐标中识别字符串值,判断字符串中是否包含标题语义,如果包含,则提取标题后面的真实字段信息,从票据图像的真实字段信息中提取与模板配置xml文件中的对应相同的字段,根据相同的字段在票据图像中的位置坐标获取该字段局部图像;
(e)如果步骤1中判断的字段在票据图像中的位置属性属于关键语义属性,字段定位系统从步骤4的票据图像的全部的字段位置坐标中识别字符串值,判断字符串中是否包含关键语义,如果包含,提取关键的字段信息,从票据图像中关键的字段信息中提取与模板配置xml文件中相同的字段,根据相同的字段在票据图像中的位置坐标获取该字段局部图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710946131.2A CN107622255B (zh) | 2017-10-12 | 2017-10-12 | 基于位置模板与语义模板的票据图像字段定位方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710946131.2A CN107622255B (zh) | 2017-10-12 | 2017-10-12 | 基于位置模板与语义模板的票据图像字段定位方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107622255A CN107622255A (zh) | 2018-01-23 |
CN107622255B true CN107622255B (zh) | 2020-09-01 |
Family
ID=61091972
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710946131.2A Active CN107622255B (zh) | 2017-10-12 | 2017-10-12 | 基于位置模板与语义模板的票据图像字段定位方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107622255B (zh) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304815B (zh) * | 2018-02-08 | 2021-07-02 | 百度在线网络技术(北京)有限公司 | 一种数据获取方法、装置、服务器及存储介质 |
CN110457973A (zh) * | 2018-05-07 | 2019-11-15 | 北京中海汇银财税服务有限公司 | 一种票据识别的方法及系统 |
CN109214385B (zh) * | 2018-08-15 | 2021-06-08 | 腾讯科技(深圳)有限公司 | 数据采集方法、数据采集装置及存储介质 |
CN109492643B (zh) * | 2018-10-11 | 2023-12-19 | 平安科技(深圳)有限公司 | 基于ocr的证件识别方法、装置、计算机设备及存储介质 |
CN109635796B (zh) * | 2018-11-20 | 2021-09-28 | 泰康保险集团股份有限公司 | 调查问卷的识别方法、装置和设备 |
CN109918679B (zh) * | 2019-03-22 | 2023-04-11 | 成都晟堃科技有限责任公司 | 一种解析纸质保单数据的方法 |
CN110070045A (zh) * | 2019-04-23 | 2019-07-30 | 杭州智趣智能信息技术有限公司 | 一种营业执照的文本识别方法、系统及相关组件 |
CN110032990A (zh) * | 2019-04-23 | 2019-07-19 | 杭州智趣智能信息技术有限公司 | 一种发票文本识别方法、系统及相关组件 |
CN110348346A (zh) * | 2019-06-28 | 2019-10-18 | 苏宁云计算有限公司 | 一种票据分类识别方法及系统 |
CN111192392B (zh) * | 2019-12-16 | 2022-07-22 | 深圳供电局有限公司 | 身份验证方法、装置、计算机设备和计算机可读存储介质 |
CN111444792B (zh) * | 2020-03-13 | 2023-05-09 | 安诚迈科(北京)信息技术有限公司 | 票据识别方法、电子设备、存储介质及装置 |
CN111444795A (zh) * | 2020-03-13 | 2020-07-24 | 安诚迈科(北京)信息技术有限公司 | 票据数据识别方法、电子设备、存储介质及装置 |
CN111582222B (zh) * | 2020-05-19 | 2023-12-22 | 国网吉林省电力有限公司 | 一种基于标题位置参照模板的票据图像位置精确修正方法 |
CN111680679A (zh) * | 2020-06-03 | 2020-09-18 | 重庆数道科技有限公司 | 一种基于ocr的单据自动识别方法 |
CN111680686B (zh) * | 2020-06-08 | 2023-05-12 | Oppo(重庆)智能科技有限公司 | 招牌信息识别方法、装置、终端及存储介质 |
CN111950380A (zh) * | 2020-07-19 | 2020-11-17 | 中国建设银行股份有限公司 | 票据的稽核方法、装置、电子设备及计算机可读存储介质 |
CN111931664B (zh) * | 2020-08-12 | 2024-01-12 | 腾讯科技(深圳)有限公司 | 混贴票据图像的处理方法、装置、计算机设备及存储介质 |
CN112800848A (zh) * | 2020-12-31 | 2021-05-14 | 中电金信软件有限公司 | 票据识别后信息结构化提取方法、装置和设备 |
CN116958996A (zh) * | 2023-07-24 | 2023-10-27 | 凯泰铭科技(北京)有限公司 | Ocr信息提取方法、系统及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103019636A (zh) * | 2012-12-21 | 2013-04-03 | 中国农业银行股份有限公司 | 凭证设计打印方法及系统 |
CN104112128A (zh) * | 2014-06-19 | 2014-10-22 | 中国工商银行股份有限公司 | 应用于票据影像字符识别的数字图像处理系统及方法 |
CN104916034A (zh) * | 2015-06-09 | 2015-09-16 | 普联软件股份有限公司 | 一种基于可干预模板的票据识别系统及识别方法 |
CN105279525A (zh) * | 2015-11-19 | 2016-01-27 | 浪潮软件集团有限公司 | 一种图像处理的方法及装置 |
CN105654072A (zh) * | 2016-03-24 | 2016-06-08 | 哈尔滨工业大学 | 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8180137B2 (en) * | 2010-02-23 | 2012-05-15 | Rdm Corporation | Comparison of optical and magnetic character data for identification of character defect type |
US9747509B2 (en) * | 2015-02-27 | 2017-08-29 | Lexmark International, Inc. | Automatically capturing and cropping image of check from video sequence for banking or other computing application |
-
2017
- 2017-10-12 CN CN201710946131.2A patent/CN107622255B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103019636A (zh) * | 2012-12-21 | 2013-04-03 | 中国农业银行股份有限公司 | 凭证设计打印方法及系统 |
CN104112128A (zh) * | 2014-06-19 | 2014-10-22 | 中国工商银行股份有限公司 | 应用于票据影像字符识别的数字图像处理系统及方法 |
CN104916034A (zh) * | 2015-06-09 | 2015-09-16 | 普联软件股份有限公司 | 一种基于可干预模板的票据识别系统及识别方法 |
CN105279525A (zh) * | 2015-11-19 | 2016-01-27 | 浪潮软件集团有限公司 | 一种图像处理的方法及装置 |
CN105654072A (zh) * | 2016-03-24 | 2016-06-08 | 哈尔滨工业大学 | 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107622255A (zh) | 2018-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107622255B (zh) | 基于位置模板与语义模板的票据图像字段定位方法及系统 | |
US11195006B2 (en) | Multi-modal document feature extraction | |
US20070033118A1 (en) | Document Scanning and Data Derivation Architecture. | |
CN103995904B (zh) | 一种影像档案电子资料的识别系统 | |
US8494273B2 (en) | Adaptive optical character recognition on a document with distorted characters | |
US11810070B2 (en) | Classifying digital documents in multi-document transactions based on embedded dates | |
US20160055376A1 (en) | Method and system for identification and extraction of data from structured documents | |
CN110414927B (zh) | 一种票据处理自动生成凭证的方法及装置 | |
CN105045780B (zh) | 一种发票字条语义信息的识别方法及装置 | |
CN107133571A (zh) | 一种将纸质发票自动生成财务报表的系统及方法 | |
CN112508011A (zh) | 一种基于神经网络的ocr识别方法及设备 | |
CN103996055B (zh) | 基于影像档案电子资料识别系统中分类器的识别方法 | |
CN112800848A (zh) | 票据识别后信息结构化提取方法、装置和设备 | |
US20220222284A1 (en) | System and method for automated information extraction from scanned documents | |
CN111914729A (zh) | 凭证关联方法、装置、计算机设备及存储介质 | |
KR20180080408A (ko) | 정형 및 비정형 데이터 추출 시스템 및 방법 | |
CN111462388A (zh) | 一种票据检验方法、装置、终端设备及存储介质 | |
CN104899551B (zh) | 一种表单图像分类方法 | |
CN111598099B (zh) | 图像文本识别性能的测试方法、装置、测试设备及介质 | |
CN111414917A (zh) | 一种低像素密度文本的识别方法 | |
Shi et al. | An invoice recognition system using deep learning | |
CN114443834A (zh) | 一种证照信息提取的方法、装置及存储介质 | |
TWM575887U (zh) | 智能會計帳務系統 | |
CN111986015B (zh) | 提取财务信息用于记账的方法和系统 | |
CN112348022B (zh) | 一种基于深度学习的自由格式文档识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder | ||
CP01 | Change in the name or title of a patent holder |
Address after: No.268 Hanzhong Road, Nanjing, Jiangsu 210029 Patentee after: CLP Hongxin Information Technology Co.,Ltd. Address before: No.268 Hanzhong Road, Nanjing, Jiangsu 210029 Patentee before: JIANGSU HONGXIN SYSTEM INTEGRATION Co.,Ltd. |