CN108280389A

CN108280389A - 医疗票据icr识别系统及其医疗票据识别方法

Info

Publication number: CN108280389A
Application number: CN201710010942.1A
Authority: CN
Inventors: 张成栋
Original assignee: Nantong Wisdom Intelligent Technology Co Ltd
Current assignee: Nantong Wisdom Intelligent Technology Co Ltd
Priority date: 2017-01-06
Filing date: 2017-01-06
Publication date: 2018-07-13

Abstract

本发明提供一种医疗票据ICR识别系统及其医疗票据识别方法，医疗票据ICR识别系统，包括：票据图片服务采集模块，对票据页面的关键点进行抓取；ICR预处理模块，对票据页面上的干扰图形进行过滤；ICR核心引擎模块，进行印刷体和手写体各类文字的识别；字库+行业数据库模块，存储印刷体和手写体的文字数据，供ICR核心引擎模块调用。实现了各式发票的自动化录入、存储和管理，提供高效、智能、便捷的个性化解决方案，能提高工作效率、降低成本。

Description

医疗票据ICR识别系统及其医疗票据识别方法

技术领域

本发明涉及一种医疗票据ICR识别系统，本发明还提供医疗票据识别方法，属于文字识别领域。

背景技术

随着这些年我国医疗行业的不断发展和进步，其所拥有的体系和制度都已相对较为完整和完善了。但是，各大医院内部的财务管理上仍然各自为政。主要是目前医疗票据的管理较乱，由于各个医院出具的票据格式五花八门，票据在医院和报销单位之间的流转通过票据递交后，再由受理单位通过人工录入的方式进行的，不利于存档和后期检索，票据信息的采集，还是使用传统的人工录入方式，对照纸质票据，在电脑系统中逐项录入票据信息。每录一张票据往往需10分钟左右，而且工作人员长时间的单调录入，往往会发生一些录入错误等问题，导致后期处理跟踪方面难度增大。另外，传统的录入方式无法及时了解医院等社区卫生部门的运营情况，因此也就无法实现有效的监督和把控。并且人工录入的成本也较高。

在医疗票据ocr识别方面，存在着信息录入难的问题，比如发票的多样性，模板多，文字生僻，因此如何提供一种专门针对医疗票据的文字和模板识别系统和方法也成为一种亟待解决的问题。

发明内容

本发明的目的在于提供一种快速、准确的医疗票据ICR识别系统及其医疗票据识别方法，以提高医疗票据的输入和识别效率。

本发明采用了如下技术方案：

本发明提供一种医疗票据ICR识别系统，其特征在于，包括：票据图片服务采集模块，对票据页面的关键点进行抓取；ICR预处理模块，对票据页面上的干扰图形进行过滤；ICR核心引擎模块，进行印刷体和手写体各类文字的识别；字库+行业数据库模块，存储印刷体和手写体的文字数据，供ICR核心引擎模块调用。

本发明还提供一种利用上述的医疗票据ICR识别系统进行的医疗票据识别方法，其特征在于，包括如下步骤：

步骤一、划分区域；

步骤二，预处理，去渍、去章、去纹路；

步骤三，进行文字识别并多次匹配字库，生成模板；

步骤四，合成模板和文字。

进一步，本发明的医疗票据识别方法，还可以具有这样的特征：在步骤二和步骤三之间，还具有步骤五：再次划分区域。

进一步，本发明的医疗票据识别方法，还可以具有这样的特征：在步骤三中，对发票进行进行四次比对，两次比对普通字典库，两次比对医学字典库。

进一步，本发明的医疗票据识别方法，还可以具有这样的特征：四次比对的数据每次成功识别分别设置25％，50％，75％，90％的通过率。

进一步，本发明的医疗票据识别方法，还可以具有这样的特征：在步四之后还具有步骤六，将处理后的文字结果发送到云端进行校验。

进一步，本发明的医疗票据识别方法，还可以具有这样的特征：其中，云端校验的过程中，对识别结果进行深度学习，修正识别的错误。

进一步，本发明的医疗票据识别方法，还可以具有这样的特征：在步骤四之后，还具有步骤七，对于不准确的字符，进行高亮标记，提示人工干预。

发明的有益效果

实现了各式发票的自动化录入、存储和管理，提供高效、智能、便捷的个性化解决方案，不仅能提高工作效率、降低成本，还能实现真正的资源共享。

另外，本发明的医疗票据ICR识别系统及其医疗票据识别方法，具有自动学习功能，能够迅速的学习并适应新的票据格式。

另外，本发明的医疗票据ICR识别系统及其医疗票据识别方法，具有DP/BP神经网络，具有自动修正学习功能，能够做到自我完善，从而提高精准度。

另外，采用整行文字直接识别的方式，无需字符分割，避免了字符分割中的误差。并且除了普通字典库，还具有医学字典库，因此能够对票据中的医学词汇进行更准确的识别。

附图说明

图1是系统构成的框图；

图2是票据识别的流程图；

图3是待进行图像识别的票据示意图。

具体实施方式

以下结合附图来说明本发明的具体实施方式。

如图1所示，医疗票据ICR识别系统包括：票据图片采集模块11，ICR预处理模块12，ICR核心引擎模块13；字库+行业数据库模块14。

票据图片采集模块11，对票据进行图片采集，可以采用扫描仪或者照相机或者摄像头等各种图像采集设备。

ICR预处理模块，对票据页面上的干扰图形进行过滤，对图片进行去渍，去章和去纹路的处理。文中的ICR为：Intelligent Character Recognition的缩写，中文意思为智能字符识别。

ICR核心引擎模块，图片进行区域划分，和去除干扰的污渍，图章和折叠的纹路后，对文字部分进行识别。

字库+行业数据库模块14中存储有印刷体和手写体的各种字体，并且不断的根据新的手写体的出现进行分类收集存储，ICR核心引擎模块进行文字识别的过程中不断对字库+行业数据库模块中的字体进行调用。

如图2所示，医疗票据识别方法包括如下步骤：

步骤S101、对票据表面的不同框栏进行划分区域；

步骤S102，预处理，对票据图片进行去渍、去章、去纹路的处理；

步骤S103，再次划分区域；

步骤S104，进行文字识别并多次匹配字库，生成模板；具体而言，扫描后的jpg图片进入ICR核心引擎模块进行识别时，ICR核心引擎模块对发票进行进行四次比对，两次比对普通字典库，两次比对医学字典库。比对数据每次成功识别率我们设置为25％，50％，75％，90％通过率，四次比对后成功率可以达到90％以上。

文字识别包括以下步骤：

(1)文字检测

基于区域的文字检测。采用基于最大稳定极值区域(MSER，Maximally StableExtremal Regions)的文字检测。以及基于RPN(Region Proposal Network)的文字检测。通过机器学习的方式，从数据出发，极少人工设置的规则干预。

(2)文字识别

采用CTC(Connectionist Temporal Classifcation)损失函数建模，和RNN(Recurrent Neural Network)递归神经网络进行文字识别。

整行文字直接识别，无需字符分割，避免了字符分割中的误差，无需手工调参，从数据出发，自动学习文字特征，无需手工设计，基于深度神经网络学习识别模型。

文本分析

基于神经网络的文本分析方法，从数据出发，自动学习，无需手工设规则。自动学习，人工干预量少主要利用深度神经网络，数据训练量所需巨大；1类型个样本(1-2万份)技术方案适配多种应用场景，只要数据充足，即可训练识别算法。

由于识别率高为前提条件，使得后台OCR内核需要大量的学习和训练，前期需由人工干预，帮助内核更快的学习、完善图像转换文字神经网络。

在反复多次学习后，预计学习过程在处理2万张左右/每个类型的发票后(预计时间空间是T+180天)，能够成长为一台脱离人工干预的智能OCR核心，达到98％正确率的识别效果；

学习过程介绍：

ICR预处理核心层

1.图像预处理：该阶段主要针对输入的图像进行局部自适应去噪、字符区域检测，以及对字符尺寸进行预估。

2.字符分割：中文字符与英文等字符最大的不同点在于，许多中文字符是由多个文字块组成(如：“明”由“日”和“月”构成；“林”由“木”和“木”构成等)，对于这类字符是很难有统一的方法进行完整的分割。事实上，在我们的ICR框架中，对于字符分割阶段的分割准确率要求是比较宽松的，其最本质的原因在于我们采用了“分割→匹配→分割”这样一种动态调整的识别策略，自动通过不同组合来寻找到最优的分割字符。

3.特征描述：作为ICR最核心的步骤，在特征描述阶段，我们做了大量的实验，最终选定了“多尺度+多特征融合+降维”的特征描述方法。对于每一个字符，我们会对其进行中心重定位以及光照归一化处理，同时提取其不同尺度下(5种尺度)的多类特征(梯度投影特征+HOG+模板)并进行融合，对于提取出来的高维特征采用一定的降维处理，最终得到字符的低维特征表达。

字典库+行业数据库

训练步骤：

1.将要加入字典的图片转化为.GIF格式的图片，文件的命名规则为[lang].[fontname].exp[num].GIF,例如：eng.oms261.g4.GIF，注意此处[fontname]命名不能相同。再根据.GIF格式图片生成.box文件，命令：

tesseract eng.oms261.g4.GIF eng.oms261.g4batch.nochop makebox

2.纠正.box文件中的错误，这里可以使用工具，有不同的工具，根据环境不同选择，Linux下推荐使用moshPyTT(下载地址，http://code.google.com/p/moshpytt/)

3.根据生成的.box文件生成.tr文件。命令：

tesseract eng.oms261.g4.GIF eng.oms261.g4nobatch box.train

4.生成unicharset文件。命令：

unicharset_extractor eng.oms261.g4.box...

注意：从5～9步骤必须在windows环境下进行，Linux下不支持，这是Tesseract-3.00的BUG.

5.生成pffmtable,inttemp文件.命令：

mftraining-U unicharset-O lang.unicharset eng.oms261.g4.tr...

6.生成normproto文件。命令：

cntraining eng.oms261.g4.tr...

7.将pffmtable，inttemp，normproto文件加前缀，手动改名为:eng.pffmtable，eng.inttemp，eng.normproto,前缀名与前面的命名保持一致。

8.字典文件和模糊校正文件可以提高OCR的识别率，我们可以获得官方的eng.traindata的此文件，命令：

combine_tessdata-u tessdata/eng.traineddata path/eng.

此时语言包的所有文件都解压了，挑出我们需要的

eng.unicharambigs

eng.punc-dawg

eng.word-dawg

eng.number-dawg

eng.freq-dawg

这些文件放到我们训练字典的那个路径.

9.合并训练文件，命令：

combine_tessdata eng.

得到最终训练的文件。

步骤S105，合成模板和文字；

步骤S106，将处理后的文字结果发送到云端进行校验；

因发票输入类型一致性不够，所以OCR智能系统需要进行大量的自我学习和完善；

OCR引擎将处理后的结果发送到webserve服务器进行校验，校验过程中人工智能进行学习训练，同时确认无误后传输给OCR专用电脑，前期需要人工智能核心+人工干预的方式，这样可以帮助E-AI人工智能DeepLearning，训练人工智能大脑的准确识别率，提升识别速度。

此步骤只在刚开始使用本系统进行文字识别时需要，当训练的次数足够之后此步骤可以省略，或者只对进行过人工更正的识别结果进行学习。

步骤S107，对不准确的字符，进行高亮标记，提示进行人工修正。在人工修正后将结果上传到云端的字库中，供机器学习。

医疗票据ocr识别扫描识别系统包括票据扫描仪、ocr票据识别核心和客户端软件。其中，专用的票据扫描仪具有智能化处理的完美页面扫描功能；ocr票据识别核心则可以满足印刷体和手写体各类文字的识别，且识别速度快，平均时间约为1秒；医疗票据ocr识别客户端则可以一键驱动扫描仪完成扫描识别过程，中间杜绝人为篡改，保证数据真实安全。其识别一张医疗票据影像仅需1秒，整个扫描、识别时间仅需10秒，提高了票据录入的工作效率。另外，此医疗票据ocr识别扫描识别系统还可以提供开发接口，供客户对接集成到自己的整个销售业务系统，在集成了票据扫描、OCR识别技术后，管理票据仅需1分钟，实现票据自动化建索引，使得后续跟踪维护以及对销售的监控达到了智能化、高效化、人性化的产品特色。相较传统人工成本的高额来说，医疗票据ocr识别设备，一次性投入仅需千元成本，在提升整体效率和模式的同时也降低了成本。

实测结果：

使用本发明的方法对图3中的票据进行识别，结果如表1所示，可见本发明所提供的系统和方法，对于票据的识别达到了很高的准确度。

表1，对示例票据进行文字识别后的结果：

Claims

1.一种医疗票据ICR识别系统，其特征在于，包括：

票据图片服务采集模块，对票据页面的关键点进行抓取；

ICR预处理模块，对票据页面上的干扰图形进行过滤；

ICR核心引擎模块，进行印刷体和手写体各类文字的识别；

字库+行业数据库模块，存储印刷体和手写体的文字数据，以及普通字典库和医学字典库，供ICR核心引擎模块调用。

2.利用如权利要求1所述的医疗票据ICR识别系统进行的医疗票据识别方法，其特征在于，包括如下步骤：

步骤一、对票据表面的不同框栏进行划分区域；

步骤二，预处理，对票据图片进行去渍、去章、去纹路的处理；

步骤三，进行文字识别并多次匹配字库，生成模板；

步骤四，合成模板和文字。

3.如权利要求2所述的医疗票据识别方法，其特征在于：

在步骤二和步骤三之间，还具有步骤五：再次划分区域。

4.如权利要求2所述的医疗票据识别方法，其特征在于：

在步骤三中，对发票进行进行四次比对，两次比对普通字典库，两次比对医学字典库。

5.如权利要求4所述的医疗票据识别方法，其特征在于：

四次比对的数据每次成功识别分别设置25％，50％，75％，90％的通过率。

6.如权利要求2所述的医疗票据识别方法，其特征在于：

在步四之后还具有步骤六，将处理后的文字结果发送到云端进行校验。

7.如权利要求6所述的医疗票据识别方法，其特征在于：

其中，云端校验的过程中，对识别结果进行深度学习，修正识别的错误。

8.如权利要求2所述的医疗票据识别方法，其特征在于：

在步骤四之后，还具有步骤七，对于不准确的字符，进行高亮标记，提示人工干预。