CN111209827B - 一种基于特征检测的ocr识别票据问题的方法及系统 - Google Patents
一种基于特征检测的ocr识别票据问题的方法及系统 Download PDFInfo
- Publication number
- CN111209827B CN111209827B CN201911404676.6A CN201911404676A CN111209827B CN 111209827 B CN111209827 B CN 111209827B CN 201911404676 A CN201911404676 A CN 201911404676A CN 111209827 B CN111209827 B CN 111209827B
- Authority
- CN
- China
- Prior art keywords
- image
- bill
- rule set
- character
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000001514 detection method Methods 0.000 title claims abstract description 33
- 238000012015 optical character recognition Methods 0.000 title abstract description 30
- 238000012550 audit Methods 0.000 claims abstract description 25
- 230000009466 transformation Effects 0.000 claims abstract description 10
- 230000008030 elimination Effects 0.000 claims description 11
- 238000003379 elimination reaction Methods 0.000 claims description 11
- 238000001914 filtration Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 6
- 238000005192 partition Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 239000013598 vector Substances 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000000926 separation method Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20024—Filtering details
- G06T2207/20032—Median filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Character Input (AREA)
Abstract
本发明公开了一种基于特征检测的OCR识别票据问题的方法及系统,通过对票据图像进行背景消除并去噪处理得到第一图像;对第一图像做投影变换并去除分隔符后识别字符得到票据文本;抽取票据文本的关键词组合;将关键词组合在知识库中进行匹配得到匹配度最高的规则集作为基准规则集;若票据文本的审计内容信息大于基准规则集预设的风险阈值则发出警报信息,有效的解决了原始文件字迹清晰度、整洁度等较难识别问题,能够大批量的导入票据,并快速的对票据进行相似度识别,利用基于文本字符特征的智能识别的智能检校实现OCR识别纠错,进一步提高准确率。根据定位出的风险点快速减少了审计的工作量,提升了此类信息化系统的用户体验。
Description
技术领域
本公开涉及OCR图像识别、模式匹配领域,具体涉及一种基于特征检测的OCR识别票据问题的方法及系统。
背景技术
票据是在涉及经济、运输等业务的载明交易、事项实际情况的书面证明,货款的支付、权利凭证的纸质或电子依据。可以以票据作为提取、消费、权限的依据,由于种类多种多样,故票据的模式匹配、定位和识别十分的困难;由于票据五花八门的种类,例如发票、机票、火车票、收据、凭条、存根、购物券等,这些不同的票据,特征词位置不一样,敏感词的表达形式也各有差异,数字的大小写也无规范,故如果票据数量多的话,在审计工作中,审计规则的内容集合,包括:发票类型、单位名称、金额的审计规则的集合,类别多种多样,故通过人工进行识别判断十分的困难,极易出错。
发明内容
本公开提供一种基于特征检测的OCR识别票据问题的方法及系统,通过对票据图像进行背景消除并去噪处理得到第一图像;对第一图像做投影变换并去除分隔符后识别字符得到票据文本;抽取票据文本的关键词组合;将关键词组合在知识库中进行匹配得到匹配度最高的规则集作为基准规则集;若票据文本的审计内容信息大于基准规则集预设的风险阈值则发出警报信息,从而快速的定位并对票据中风险信息发出警报。
本公开的目的是针对上述问题,提供一种基于特征检测的OCR识别票据问题的方法及系统,具体包括以下步骤:
S100:读取票据图像文件得到票据图像;
S200:对票据图像进行背景消除;
S300:将背景消除后的票据图像进行中值滤波处理得到第一图像;
S400:对第一图像做投影变换并去除分隔符;
S500:在去除分隔符的第一图像中识别字符特征得到字符特征图像区域并识别字符特征图像区域中的字符得到票据文本;
S600:抽取票据文本的关键词组合;
S700:计算关键词组合与知识库中的各个规则集的匹配度;
S800:将匹配度最高的规则集作为基准规则集;
S900:若票据文本的审计内容信息大于基准规则集预设的风险阈值则发出警报信息。
进一步地,在S100中,所述票据图像文件包括但不限于以PDF、jpg、jpeg、bmp等图像格式存储的票据图像,票据包括但不限于发票、机票、火车票、收据、凭条、存根、购物券。
进一步地,在S200中,对票据图像进行背景消除的方法为以下步骤:
S210:将票据图像的彩色图像转换成灰度图;
S220:根据票据图像的最高、最低灰度值对票据图像进行二值化处理,能够使票据图像的背景图基本置为0,以突出票据图像的票据区域;
S230:对票据图像作相邻像素灰度值相减,得到背景消除的票据图像,从而减小票据图像的背景影响。
进一步地,在S300中,将背景消除后的票据图像进行中值滤波处理得到第一图像的方法为:由于票据图像的文字是像素点或短竖线构成,所以票据图像的背景噪声中大部分是孤立的噪声,采用的中值滤波器上滑动窗口,含有奇数个元素;将窗口中心的票据图像的元素灰度值用窗口中各灰度值的中间数值来代替,中值滤波可以去除票据图像的这部分噪声;通过垂直投影法、水平投影法分别检测票据图像垂直和水平的位置得到第一图像。
进一步地,在S400中,对第一图像做投影变换并去除分隔符的方法为以下步骤:
S410:从左往右和从右往左分别扫描票据图像寻找大于阈值T的像素,并跟踪投影直到小于阈值T的波谷,得到并去除左右波谷的位置,从而去除票据图像左右边框位置,其中,阈值T一般设置为大于图像中所有像素的平均值;
S420:分别扫描票据图像的上半部分和下半部分投影,得到并去边框和字符间的两个波谷位置,从而去除票据图像上下边框位置。
进一步地,在S500中,在去除分隔符的第一图像中识别字符特征得到字符特征图像区域方法为以下步骤:
AS510:将去除分隔符的第一图像进行归一化处理得到归一化图像;
AS520:将归一化图像进行网格化,对二值化的归一化图像的图像区域进行均匀的网格覆盖;
AS530:对归一化图像的各个网格填充处理得到填充对象的模式空间;
AS540:计算待识别字符的特征模式的基准构架和特征向量;基准构架为图像中字符在图像中的结构;
AS550:调节各个待识别字符的上、下、左、右和中心五个子模式的权重;权重默认为0.5,取值范围为0到1之间的小数;
AS560:以步骤AS550输入的模式为基准,依次载入各个字符,把一系列全局属性模式与待识别字符的向量作内积,将内积值最小的字符的区域作为识别的字符特征图像区域;
因此,通过待识别字符的模式特征点的占比进行取值,能够对字迹清晰度、整洁度等较难识别的图像更好地反应字符的特征。智能的实现了OCR识别纠错,进一步提高了准确率。
进一步地,在S500中,识别字符特征图像区域中的字符得到票据文本的方法为以下步骤:
BS510:如果K小于10且T<Vmax,扫描票据图像的垂直投影,等距的将所有的大于阈值T的投影块分割出来,得到K个分割区数,i为0到K-1之间的正整数,以X_Start[i]和X_End[i]分别标记为第i个分割区数起始点和结束点,Vmax为票据图像的字符区域垂直投影的最大值;
BS520:去除票据图像的分隔符号:如果K大于10,计算分隔符号的位置P[i]:
去除分隔符号P[i]的分割区数的字符,其中,i为0到K-1之间的正整数,Vertical[j]为票据图像的第j个字符区域的垂直投影区域。
BS530:根据最终识别的所有字符得到票据文本。
进一步地,在S600中,抽取票据文本的关键词组合的抽取关键词的方法为TF-IDF算法、HanLP算法、PageRank算法、TextRank算法任意一种关键词抽取方法。
进一步地,在S700中,计算关键词组合与知识库中的各个规则集的匹配度的方法为以下步骤:令票据文本为S,规则集为Si,i为1到n之间的正整数,n为知识库中的规则集的数量,则通过S与Si之间的语义距离来计算相似度D(S,Si)=1-Same(S,Si),其中,Same(S,Si)表示S与Si的匹配度,其中,语句相似度wij的值的计算方法为,令票据文本S的关键词的任意组合为Key,Si中对应的关键词为Keyj,freqi,j表示关键词Keyj在Si出现的频率,j代表关键词Keyj在Si中出现第j次,j为1到n之间的正整数,则语句相似度wij的值为,
其中,mi,j表示关键词Key在Si中出现第j次的在知识库中的期望平均值,
其中:freq为关键词word在S出现的频率,freqi,j表示关键词wordj在Si出现的频率;
其中,S与Si的匹配度Same(S,Si)∈[0,1],匹配度的值越小,表明匹配度越高,文本越相似,选取匹配度最高的规则集作为基准规则集,所述知识库包括了多个规则集,每个规则集包括了多个关键词,为审计规则的集合,包括:发票类型、单位名称、金额的审计规则的集合。
进一步地,在S900中,票据文本的审计内容信息包括但不限于发票类型、单位名称、金额;基准规则集预设的风险阈值为:发票类型、单位名称、金额的预设值,例如金额的风险阈值为10万,如果是发票类型、单位名称则判断是否与名称一致。
进一步地,在S900中,若票据文本的审计内容信息大于基准规则集预设的风险阈值则通过图形界面或者短信、即时信息发出警报到移动设备中。
本发明还提供了一种基于特征检测的OCR识别票据问题的系统,所述系统包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序运行在以下系统的单元中:
图像读取单元,用于读取票据图像文件得到票据图像;
图像预处理单元,用于对票据图像进行背景消除并去噪处理得到第一图像;
图像识别单元,用于对第一图像做投影变换并去除分隔符后识别字符得到票据文本;
关键词抽取单元,用于抽取票据文本的关键词组合;
关键词匹配单元,用于将关键词组合在知识库中进行匹配得到匹配度最高的规则集作为基准规则集;
风险警报单元,用于若票据文本的审计内容信息大于基准规则集预设的风险阈值则发出警报信息。
本公开的有益效果为:本发明公开了一种基于特征检测的OCR识别票据问题的方法,提升了票据图片到文本识别的准确性,有效的解决了原始文件字迹清晰度、整洁度等较难识别问题,能够大批量的导入票据,并快速的对票据进行相似度识别,极大的便利了审计人员或财会人员的业务工作,利用基于文本字符特征的智能识别的智能检校实现OCR识别纠错,进一步提高准确率。,根据定位出的风险点快速减少了审计的工作量,提升了此类信息化系统的用户体验。
附图说明
通过对结合附图所示出的实施方式进行详细说明,本公开的上述以及其他特征将更加明显,本公开附图中相同的参考标号表示相同或相似的元素,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,在附图中:
图1所示为本公开的一种基于特征检测的OCR识别票据问题的方法的流程图;
图2所示为本公开实施方式的一种基于特征检测的OCR识别票据问题的系统。
具体实施方式
以下将结合实施例和附图对本公开的构思、具体结构及产生的技术效果进行清楚、完整的描述,以充分地理解本公开的目的、方案和效果。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
如图1所示为根据本公开的一种基于特征检测的OCR识别票据问题的方法的流程图,下面结合图1来阐述根据本公开的实施方式的方法。
本公开提出一种基于特征检测的OCR识别票据问题的方法,具体包括以下步骤:
本公开提供一种基于特征检测的OCR识别票据问题的方法及系统,通过对票据图像进行背景消除并去噪处理得到第一图像;对第一图像做投影变换并去除分隔符后识别字符得到票据文本;抽取票据文本的关键词组合;将关键词组合在知识库中进行匹配得到匹配度最高的规则集作为基准规则集;若票据文本的审计内容信息大于基准规则集预设的风险阈值则发出警报信息,从而快速的定位并对票据中风险信息发出警报。
本公开的目的是针对上述问题,提供一种基于特征检测的OCR识别票据问题的方法及系统,具体包括以下步骤:
AS100:读取票据图像文件得到票据图像;
AS200:对票据图像进行背景消除;
AS300:将背景消除后的票据图像进行中值滤波处理得到第一图像;
AS400:对第一图像做投影变换并去除分隔符;
AS500:在去除分隔符的第一图像中识别字符特征得到字符特征图像区域并识别字符特征图像区域中的字符得到票据文本;
AS600:抽取票据文本的关键词组合;
AS700:计算关键词组合与知识库中的各个规则集的匹配度;
AS800:将匹配度最高的规则集作为基准规则集;
AS900:若票据文本的审计内容信息大于基准规则集预设的风险阈值则发出警报信息。
或执行以下步骤:
BS100:读取票据图像文件得到票据图像;
BS200:对票据图像进行背景消除;
BS300:将背景消除后的票据图像进行中值滤波处理得到第一图像;
BS400:对第一图像做投影变换并去除分隔符;
BS500:识别去除分隔符的第一图像中的字符得到票据文本;
BS600:抽取票据文本的关键词组合;
BS700:计算关键词组合与知识库中的各个规则集的匹配度;
BS800:将匹配度最高的规则集作为基准规则集;
BS900:若票据文本的审计内容信息大于基准规则集预设的风险阈值则发出警报信息。
进一步地,在S100中,所述票据图像文件包括但不限于以PDF、jpg、jpeg、bmp等图像格式存储的票据图像,票据包括但不限于发票、机票、火车票、收据、凭条、存根、购物券。
进一步地,在S200中,对票据图像进行背景消除的方法为以下步骤:
S210:将票据图像的彩色图像转换成灰度图;
S220:根据票据图像的最高、最低灰度值对票据图像进行二值化处理,能够使票据图像的背景图基本置为0,以突出票据图像的票据区域;
S230:对票据图像作相邻像素灰度值相减,得到背景消除的票据图像,从而减小票据图像的背景影响。
进一步地,在S300中,将背景消除后的票据图像进行中值滤波处理得到第一图像的方法为:由于票据图像的文字是像素点或短竖线构成,所以票据图像的背景噪声中大部分是孤立的噪声,采用的中值滤波器上滑动窗口,含有奇数个元素;将窗口中心的票据图像的元素灰度值用窗口中各灰度值的中间数值来代替,中值滤波可以去除票据图像的这部分噪声;通过垂直投影法、水平投影法分别检测票据图像垂直和水平的位置得到第一图像。
进一步地,在S400中,对第一图像做投影变换并去除分隔符的方法为以下步骤:
S410:从左往右和从右往左分别扫描票据图像寻找大于阈值T的像素,并跟踪投影直到小于阈值T的波谷,得到并去除左右波谷的位置,从而去除票据图像左右边框位置,其中,阈值T一般设置为大于图像中所有像素的平均值;
S420:分别扫描票据图像的上半部分和下半部分投影,得到并去边框和字符间的两个波谷位置,从而去除票据图像上下边框位置。
进一步地,在S500中,识别去除分隔符的第一图像中的字符得到票据文本的方法为以下步骤:
S510:如果K小于10且T<Vmax,扫描票据图像的垂直投影,等距的将所有的大于阈值T的投影块分割出来,得到K个分割区数,i为0到K-1之间的正整数,以X_Start[i]和X_End[i]分别标记为第i个分割区数起始点和结束点,Vmax为票据图像的字符区域垂直投影的最大值;
S520:去除票据图像的分隔符号:如果K大于10,计算分隔符号的位置P[i]:
去除分隔符号P[i]的分割区数的字符,其中,i为0到K-1之间的正整数,Vertical[j]为票据图像的第j个字符区域的垂直投影区域。
S530:根据最终识别的所有字符得到票据文本。
进一步地,在S600中,抽取票据文本的关键词组合的抽取关键词的方法为TF-IDF算法、HanLP算法、PageRank算法、TextRank算法任意一种关键词抽取方法。
进一步地,在S700中,计算关键词组合与知识库中的各个规则集的匹配度的方法为以下步骤:令票据文本为S,规则集为Si,i为1到n之间的正整数,n为知识库中的规则集的数量,则通过S与Si之间的语义距离来计算相似度D(S,Si)=1-Same(S,Si),其中,Same(S,Si)表示S与Si的匹配度,其中,语句相似度wij的值的计算方法为,令票据文本S的关键词的任意组合为Key,Si中对应的关键词为Keyj,freqi,j表示关键词Keyj在Si出现的频率,j代表关键词Keyj在Si中出现第j次,j为1到n之间的正整数,则语句相似度wij的值为,
其中,mi,j表示关键词Key在Si中出现第j次的在知识库中的期望平均值,
其中:freq为关键词word在S出现的频率,freqi,j表示关键词wordj在Si出现的频率;
其中,S与Si的匹配度Same(S,Si)∈[0,1],匹配度的值越小,表明匹配度越高,文本越相似,选取匹配度最高的规则集作为基准规则集,所述知识库包括了多个规则集,每个规则集包括了多个关键词,为审计规则的集合,包括:发票类型、单位名称、金额的审计规则的集合。
进一步地,在S900中,票据文本的审计内容信息包括但不限于发票类型、单位名称、金额;基准规则集预设的风险阈值为:发票类型、单位名称、金额的预设值,例如金额的风险阈值为10万,如果是发票类型、单位名称则判断是否与名称一致。
进一步地,在S900中,若票据文本的审计内容信息大于基准规则集预设的风险阈值则通过图形界面或者短信、即时信息发出警报到移动设备中。
本公开的实施例提供的一种基于特征检测的OCR识别票据问题的系统,如图2所示为本公开的一种基于特征检测的OCR识别票据问题的系统结构图,该实施例的一种基于特征检测的OCR识别票据问题的系统包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述一种基于特征检测的OCR识别票据问题的系统实施例中的步骤。
所述系统包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序运行在以下系统的单元中:
图像读取单元,用于读取票据图像文件得到票据图像;
图像预处理单元,用于对票据图像进行背景消除并去噪处理得到第一图像;
图像识别单元,用于对第一图像做投影变换并去除分隔符后识别字符得到票据文本;
关键词抽取单元,用于抽取票据文本的关键词组合;
关键词匹配单元,用于将关键词组合在知识库中进行匹配得到匹配度最高的规则集作为基准规则集;
风险警报单元,用于若票据文本的审计内容信息大于基准规则集预设的风险阈值则发出警报信息。
所述一种基于特征检测的OCR识别票据问题的系统可以运行于桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备中。所述一种基于特征检测的OCR识别票据问题的系统可运行的系统可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,所述例子仅仅是一种基于特征检测的OCR识别票据问题的系统的示例,并不构成对一种基于特征检测的OCR识别票据问题的系统的限定,可以包括比例子更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述一种基于特征检测的OCR识别票据问题的系统还可以包括输入输出设备、网络接入设备、总线等。所称处理器可以是中央处理单元(CentralProcessing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述一种基于特征检测的OCR识别票据问题的系统运行系统的控制中心,利用各种接口和线路连接整个一种基于特征检测的OCR识别票据问题的系统可运行系统的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述一种基于特征检测的OCR识别票据问题的系统的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
尽管本公开的描述已经相当详尽且特别对几个所述实施例进行了描述,但其并非旨在局限于任何这些细节或实施例或任何特殊实施例,而是应当将其视作是通过参考所附权利要求考虑到现有技术为这些权利要求提供广义的可能性解释,从而有效地涵盖本公开的预定范围。此外,上文以发明人可预见的实施例对本公开进行描述,其目的是为了提供有用的描述,而那些目前尚未预见的对本公开的非实质性改动仍可代表本公开的等效改动。
Claims (10)
1.一种基于特征检测的OCR识别票据问题的方法,其特征在于,所述方法包括以下步骤:
S100:读取票据图像文件得到票据图像;
S200:对票据图像进行背景消除;
S300:将背景消除后的票据图像进行中值滤波处理得到第一图像;
S400:对第一图像做投影变换并去除分隔符;
S500:在去除分隔符的第一图像中识别字符特征得到字符特征图像区域并识别字符特征图像区域中的字符得到票据文本;
S600:抽取票据文本的关键词组合;
S700:计算关键词组合与知识库中的各个规则集的匹配度;
S800:将匹配度最高的规则集作为基准规则集;
S900:若票据文本的审计内容信息大于基准规则集预设的风险阈值则发出警报信息;
在S700中,计算关键词组合与知识库中的各个规则集的匹配度的方法为以下步骤:令票据文本为S,规则集为Si,i为1到n之间的正整数,n为知识库中的规则集的数量,则通过S与Si之间的语义距离来计算相似度D(S,Si)=1-Same(S,Si),其中,Same(S,Si)表示S与Si的匹配度,其中,语句相似度wij的值的计算方法为,令票据文本S的关键词的任意组合为Key,Si中对应的关键词为Keyj,freqi,j表示关键词Keyj在Si出现的频率,j代表关键词Keyj在Si中出现第j次,j为1到n之间的正整数,则语句相似度wij的值为,
其中,mi,j表示关键词Key在Si中出现第j次的在知识库中的期望平均值,
其中:freq为关键词word在S出现的频率,freqi,j表示关键词wordj在Si出现的频率;
其中,S与Si的匹配度Same(S,Si)∈[0,1],匹配度的值越小,表明匹配度越高,文本越相似,选取匹配度最高的规则集作为基准规则集。
2.根据权利要求1所述的一种基于特征检测的OCR识别票据问题的方法,其特征在于,在S200中,对票据图像进行背景消除的方法为以下步骤:
S210:将票据图像的彩色图像转换成灰度图;
S220:根据票据图像的最高、最低灰度值对票据图像进行二值化处理,能够使票据图像的背景图基本置为0,以突出票据图像的票据区域;
S230:对票据图像作相邻像素灰度值相减,得到背景消除的票据图像,从而减小票据图像的背景影响。
3.根据权利要求1所述的一种基于特征检测的OCR识别票据问题的方法,其特征在于,在S300中,将背景消除后的票据图像进行中值滤波处理得到第一图像的方法为:由于票据图像的文字是像素点或短竖线构成,所以票据图像的背景噪声中大部分是孤立的噪声,采用的中值滤波器上滑动窗口,含有奇数个元素;将窗口中心的票据图像的元素灰度值用窗口中各灰度值的中间数值来代替,中值滤波可以去除票据图像的这部分噪声;通过垂直投影法、水平投影法分别检测票据图像垂直和水平的位置得到第一图像。
4.根据权利要求1所述的一种基于特征检测的OCR识别票据问题的方法,其特征在于,在S400中,对第一图像做投影变换并去除分隔符的方法为以下步骤:
S410:从左往右和从右往左分别扫描票据图像寻找大于阈值T的像素,并跟踪投影直到小于阈值T的波谷,得到并去除左右波谷的位置,从而去除票据图像左右边框位置;
S420:分别扫描票据图像的上半部分和下半部分投影,得到并去边框和字符间的两个波谷位置,从而去除票据图像上下边框位置。
5.根据权利要求1所述的一种基于特征检测的OCR识别票据问题的方法,其特征在于,在S500中,在去除分隔符的第一图像中识别字符特征得到字符特征图像区域方法为以下步骤:
AS510:将去除分隔符的第一图像进行归一化处理得到归一化图像;
AS520:将归一化图像进行网格化,对二值化的归一化图像的图像区域进行均匀的网格覆盖;
AS530:对归一化图像的各个网格填充处理得到填充对象的模式空间;
AS540:计算待识别字符的特征模式的基准构架和特征向量;基准构架为图像中字符在图像中的结构;
AS550:调节各个待识别字符的上、下、左、右和中心五个子模式的权重;
AS560:以步骤AS550输入的模式为基准,依次载入各个字符,把一系列全局属性模式与待识别字符的向量作内积,将内积值最小的字符的区域作为识别的字符特征图像区域。
6.根据权利要求1所述的一种基于特征检测的OCR识别票据问题的方法,其特征在于,在S500中,识别字符特征图像区域中的字符得到票据文本的方法为以下步骤:
BS510:如果K小于10且T<Vmax,扫描票据图像的垂直投影,等距的将所有的大于阈值T的投影块分割出来,得到K个分割区数,i为0到K-1之间的正整数,以X_Start[i]和X_End[i]分别标记为第i个分割区数起始点和结束点,Vmax为票据图像的字符区域垂直投影的最大值;
BS520:去除票据图像的分隔符号:如果K大于10,计算分隔符号的位置P[i]:
去除分隔符号P[i]的分割区数的字符,其中,i为0到K-1之间的正整数,Vertical[j]为票据图像的第j个字符区域的垂直投影区域;
BS530:根据最终识别的所有字符得到票据文本。
7.根据权利要求1所述的一种基于特征检测的OCR识别票据问题的方法,其特征在于,所述知识库包括了多个规则集,每个规则集包括了多个关键词,为审计规则的集合,包括:发票类型、单位名称、金额的审计规则的集合。
8.根据权利要求1所述的一种基于特征检测的OCR识别票据问题的方法,其特征在于,在S900中,票据文本的审计内容信息包括但不限于发票类型、单位名称、金额;基准规则集预设的风险阈值为:发票类型、单位名称、金额的预设值。
9.根据权利要求1所述的一种基于特征检测的OCR识别票据问题的方法,其特征在于,在S900中,若票据文本的审计内容信息大于基准规则集预设的风险阈值则通过图形界面或者短信、即时信息发出警报到移动设备中。
10.一种基于特征检测的OCR识别票据问题的系统,其特征在于,所述系统包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序运行在以下系统的单元中:
图像读取单元,用于读取票据图像文件得到票据图像;
图像预处理单元,用于对票据图像进行背景消除并去噪处理得到第一图像;
图像识别单元,用于对第一图像做投影变换并去除分隔符后识别字符得到票据文本;
关键词抽取单元,用于抽取票据文本的关键词组合;
关键词匹配单元,用于将关键词组合在知识库中进行匹配得到匹配度最高的规则集作为基准规则集;
风险警报单元,用于若票据文本的审计内容信息大于基准规则集预设的风险阈值则发出警报信息;
所述将关键词组合在知识库中进行匹配得到匹配度最高的规则集作为基准规则集,包括:
令票据文本为S,规则集为Si,i为1到n之间的正整数,n为知识库中的规则集的数量,则通过S与Si之间的语义距离来计算相似度D(S,Si)=1-Same(S,Si),其中,Same(S,Si)表示S与Si的匹配度,其中,语句相似度wij的值的计算方法为,令票据文本S的关键词的任意组合为Key,Si中对应的关键词为Keyj,freqi,j表示关键词Keyj在Si出现的频率,j代表关键词Keyj在Si中出现第j次,j为1到n之间的正整数,则语句相似度wij的值为,
其中,mi,j表示关键词Key在Si中出现第j次的在知识库中的期望平均值,
其中:freq为关键词word在S出现的频率,freqi,j表示关键词wordj在Si出现的频率;
其中,S与Si的匹配度Same(S,Si)∈[0,1],匹配度的值越小,表明匹配度越高,文本越相似,选取匹配度最高的规则集作为基准规则集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911404676.6A CN111209827B (zh) | 2019-12-31 | 2019-12-31 | 一种基于特征检测的ocr识别票据问题的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911404676.6A CN111209827B (zh) | 2019-12-31 | 2019-12-31 | 一种基于特征检测的ocr识别票据问题的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111209827A CN111209827A (zh) | 2020-05-29 |
CN111209827B true CN111209827B (zh) | 2023-07-14 |
Family
ID=70784150
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911404676.6A Active CN111209827B (zh) | 2019-12-31 | 2019-12-31 | 一种基于特征检测的ocr识别票据问题的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111209827B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111967246A (zh) * | 2020-07-30 | 2020-11-20 | 湖南大学 | 一种购物票据识别结果纠错方法 |
CN112861865B (zh) * | 2021-01-29 | 2024-03-29 | 国网内蒙古东部电力有限公司 | 一种基于ocr技术的辅助审计方法 |
CN113361514A (zh) * | 2021-06-08 | 2021-09-07 | 上海商米科技集团股份有限公司 | 基于关键字知识库的购物小票信息解析方法及系统 |
CN113723508B (zh) * | 2021-08-30 | 2024-04-19 | 杭州米数科技有限公司 | 票据图像分类方法、装置、计算设备和存储介质 |
CN114328831A (zh) * | 2021-12-24 | 2022-04-12 | 江苏银承网络科技股份有限公司 | 票据信息识别与纠错方法及装置 |
CN115169335B (zh) * | 2022-09-07 | 2023-01-13 | 深圳高灯计算机科技有限公司 | 发票数据校准方法、装置、计算机设备和存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104361336A (zh) * | 2014-11-26 | 2015-02-18 | 河海大学 | 一种水下视频图像的文字识别方法 |
CN105528604A (zh) * | 2016-01-31 | 2016-04-27 | 华南理工大学 | 一种基于ocr的票据自动识别与处理系统 |
CN106485243A (zh) * | 2016-10-31 | 2017-03-08 | 用友网络科技股份有限公司 | 一种票据识别纠错方法及装置 |
CN109711412A (zh) * | 2018-12-27 | 2019-05-03 | 信雅达系统工程股份有限公司 | 一种基于字典的光学字符识别纠错方法 |
CN109766859A (zh) * | 2019-01-17 | 2019-05-17 | 平安科技(深圳)有限公司 | 基于微表情的校园监控方法、装置、设备及存储介质 |
CN109919014A (zh) * | 2019-01-28 | 2019-06-21 | 平安科技(深圳)有限公司 | Ocr识别方法及其电子设备 |
CN110188714A (zh) * | 2019-06-04 | 2019-08-30 | 言图科技有限公司 | 一种在聊天场景下实现财务管理的方法、系统及存储介质 |
CN110263694A (zh) * | 2019-06-13 | 2019-09-20 | 泰康保险集团股份有限公司 | 一种票据识别方法及装置 |
CN110399851A (zh) * | 2019-07-30 | 2019-11-01 | 广东工业大学 | 一种图像处理装置、方法、设备及可读存储介质 |
CN110598699A (zh) * | 2019-09-16 | 2019-12-20 | 华中科技大学 | 一种基于多光谱图像的防伪票据鉴伪系统和方法 |
CN110634222A (zh) * | 2019-08-27 | 2019-12-31 | 河海大学 | 一种银行票据信息识别方法 |
-
2019
- 2019-12-31 CN CN201911404676.6A patent/CN111209827B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104361336A (zh) * | 2014-11-26 | 2015-02-18 | 河海大学 | 一种水下视频图像的文字识别方法 |
CN105528604A (zh) * | 2016-01-31 | 2016-04-27 | 华南理工大学 | 一种基于ocr的票据自动识别与处理系统 |
CN106485243A (zh) * | 2016-10-31 | 2017-03-08 | 用友网络科技股份有限公司 | 一种票据识别纠错方法及装置 |
CN109711412A (zh) * | 2018-12-27 | 2019-05-03 | 信雅达系统工程股份有限公司 | 一种基于字典的光学字符识别纠错方法 |
CN109766859A (zh) * | 2019-01-17 | 2019-05-17 | 平安科技(深圳)有限公司 | 基于微表情的校园监控方法、装置、设备及存储介质 |
CN109919014A (zh) * | 2019-01-28 | 2019-06-21 | 平安科技(深圳)有限公司 | Ocr识别方法及其电子设备 |
CN110188714A (zh) * | 2019-06-04 | 2019-08-30 | 言图科技有限公司 | 一种在聊天场景下实现财务管理的方法、系统及存储介质 |
CN110263694A (zh) * | 2019-06-13 | 2019-09-20 | 泰康保险集团股份有限公司 | 一种票据识别方法及装置 |
CN110399851A (zh) * | 2019-07-30 | 2019-11-01 | 广东工业大学 | 一种图像处理装置、方法、设备及可读存储介质 |
CN110634222A (zh) * | 2019-08-27 | 2019-12-31 | 河海大学 | 一种银行票据信息识别方法 |
CN110598699A (zh) * | 2019-09-16 | 2019-12-20 | 华中科技大学 | 一种基于多光谱图像的防伪票据鉴伪系统和方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111209827A (zh) | 2020-05-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111209827B (zh) | 一种基于特征检测的ocr识别票据问题的方法及系统 | |
CN110909725B (zh) | 识别文本的方法、装置、设备及存储介质 | |
CN109829453B (zh) | 一种卡证中文字的识别方法、装置以及计算设备 | |
US9158744B2 (en) | System and method for automatically extracting multi-format data from documents and converting into XML | |
US20200004815A1 (en) | Text entity detection and recognition from images | |
CN111914835A (zh) | 票据要素提取方法、装置、电子设备及可读存储介质 | |
CN110874618B (zh) | 基于小样本的ocr模板学习方法、装置、电子设备及介质 | |
CN111475613A (zh) | 案件分类方法、装置、计算机设备及存储介质 | |
WO2021072876A1 (zh) | 证件图像分类方法、装置、计算机设备及可读存储介质 | |
US10769360B1 (en) | Apparatus and method for processing an electronic document to derive a first electronic document with electronic-sign items and a second electronic document with wet-sign items | |
US8027978B2 (en) | Image search method, apparatus, and program | |
CN110738238A (zh) | 一种证件信息的分类定位方法及装置 | |
CN113657274A (zh) | 表格生成方法、装置、电子设备、存储介质及产品 | |
CN114495146A (zh) | 图像文本检测方法、装置、计算机设备及存储介质 | |
CN106611148B (zh) | 基于图像的离线公式识别方法和装置 | |
CN108090728B (zh) | 一种基于智能终端的快递信息录入方法及录入系统 | |
CN114511857A (zh) | 一种ocr识别结果处理方法、装置、设备及存储介质 | |
CN116844182A (zh) | 一种版式自动识别的卡证文字识别方法 | |
CN114220103B (zh) | 图像识别方法、装置、设备及计算机可读存储介质 | |
CN114842198A (zh) | 车辆智能定损方法、装置、设备及存储介质 | |
Fang et al. | Visual music score detection with unsupervised feature learning method based on k-means | |
US20220044048A1 (en) | System and method to recognise characters from an image | |
CN110853115B (zh) | 一种开发流程页面的创建方法及设备 | |
CN113128496B (zh) | 一种从图像中提取结构化数据的方法、装置和设备 | |
Böschen et al. | A comparison of approaches for automated text extraction from scholarly figures |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |