CN108009546B

CN108009546B - 信息识别方法和装置

Info

Publication number: CN108009546B
Application number: CN201610970753.4A
Authority: CN
Inventors: 温铸清
Original assignee: Beijing Jingdong Zhenshi Information Technology Co Ltd
Current assignee: Beijing Jingbangda Trade Co Ltd; Beijing Jingdong Zhenshi Information Technology Co Ltd
Priority date: 2016-10-28
Filing date: 2016-10-28
Publication date: 2021-08-10
Anticipated expiration: 2036-10-28
Also published as: CN108009546A

Abstract

本申请公开了一种信息识别方法和装置，包括：调用数据处理设备的拍照模块获取影像的帧数据，存入存储模块中；从存储模块中读取所述帧数据，组成图片；对所述图片进行降噪处理；通过坐标定位方式，对图片中的关键信息区域进行图像提取，得到待识别区域图片；利用光学字符识别OCR方法，根据预设的字符训练库，对所述待识别区域图片中的字符内容进行识别，如果识别成功，则执行下一步，否则对识别结果进行纠错，将纠错后的字符内容加入所述字符训练库，再执行下一步；根据识别出字符内容进行对应的应用操作。本发明可以高信息输入的效率。

Description

信息识别方法和装置

技术领域

本申请涉及计算机信息处理领域，尤其涉及一种信息识别方法。

背景技术

目前，在人们日常生活中，经常会涉及到在信息处理系统，如网站、手机应用程序(APP)等，中充值(如手机充值，游戏点卡充值等)或输入身份信息进行验证等操作，手工输入过程繁琐。

例如，现有信息处理系统的充值步骤通常包括以下三个步骤：

步骤11、用户打开一个网站或者APP界面。

步骤12、输入很长的一串数字。

步骤13、点击“提交”按钮，信息处理系统的后台在收到信息后完成充值。

再例如，现有信息处理系统的身份认证步骤通常也包括以下三个步骤：

步骤21、用户打开一个网站或者APP界面。

步骤22、依次输入姓名，出生年月，身份证号码等信息。

步骤23、点击“提交”按钮，信息处理系统的后台在收到信息后完成认证。

上述现有技术的缺点是：纯手工输入，耗时长，效率低；输入出错的可能性大大增加，导致重复输入次数多；用户使用不方便，体验极差。

发明内容

有鉴于此，本发明的主要目的是提供一种信息识别方法和装置，以提高信息输入的效率。

本发明的技术方案是这样实现的：

一种信息识别方法，包括：

调用数据处理设备的拍照模块获取影像的帧数据，存入存储模块中；

从存储模块中读取所述帧数据，组成图片；

对所述图片进行降噪处理；

通过坐标定位方式，对图片中的关键信息区域进行图像提取，得到待识别区域图片；

利用光学字符识别OCR方法，根据预设的字符训练库，对所述待识别区域图片中的字符内容进行识别，如果识别成功，则执行下一步，否则对识别结果进行纠错，将纠错后的字符内容加入所述字符训练库，再执行下一步；

根据识别出字符内容进行对应的应用操作。

在本发明所述方法的一种优选实施例中，所述对所述图片进行降噪处理，具体包括以下至少一种：

利用近邻取样插值算法对所述图片进行自动缩放处理；

利用小波逆向插值算法对所述图片进行自动旋转处理；

利用图像去污算法进行对所述图片进行去除污点和划痕处理；

利用Harris角度检测算法和图像快速旋转算法，对所述图片进行角度处理和反光处理。

在本发明所述方法的一种优选实施例中，所述通过坐标定位方式，对图片中的关键信息区域进行图像提取，得到待识别区域图片，具体包括：

预先对待识别的信息进行分类，为每一类信息设置对应的关键信息区域的位置坐标；

确定当前所要识别的信息类型，读取该信息类型对应的关键信息区域的位置坐标；

根据所述位置坐标从所述图片中定位关键信息区域；

提取出所定位的关键信息区域的图像，得到待识别区域图片。

在本发明所述方法的一种优选实施例中，所述光学字符识别OCR方法，具体为Tesseract算法。

在本发明所述方法的一种优选实施例中，所述训练库中包括字体特征文件，其中包括字符特征与汉字的对应关系；其中对于指定的汉字，以字符特征、笔画为键，以汉字为值，建立映射关系。

一种信息识别装置，包括：

第一模块，用于调用数据处理设备的拍照模块获取影像的帧数据，存入存储模块中；

第二模块，用于从存储模块中读取所述帧数据，组成图片；

第三模块，用于对所述图片进行降噪处理；

第四模块，用于通过坐标定位方式，对图片中的关键信息区域进行图像提取，得到待识别区域图片；

第五模块，用于利用光学字符识别OCR方法，根据预设的字符训练库，对所述待识别区域图片中的字符内容进行识别，如果识别成功，则执行下一步，否则对识别结果进行纠错，将纠错后的字符内容加入所述字符训练库，再执行下一步；

第六模块，用于根据识别出字符内容进行对应的应用操作。

在本发明所述装置的一种优选实施例中，所述第三模块具体包括以下子模块的至少一种：

利用近邻取样插值算法对所述图片进行自动缩放处理的子模块；

利用小波逆向插值算法对所述图片进行自动旋转处理的子模块；

利用图像去污算法进行对所述图片进行去除污点和划痕处理的子模块；

利用Harris角度检测算法和图像快速旋转算法，对所述图片进行角度处理和反光处理的子模块。

在本发明所述装置的一种优选实施例中，所述第四模块具体包括：

用于预先对待识别的信息进行分类，为每一类信息设置对应的关键信息区域的位置坐标的子模块；

用于确定当前所要识别的信息类型，读取该信息类型对应的关键信息区域的位置坐标的子模块；

用于根据所述位置坐标从所述图片中定位关键信息区域的子模块；

用于提取出所定位的关键信息区域的图像，得到待识别区域图片的子模块。

在本发明所述装置的一种优选实施例中，所述光学字符识别OCR方法，具体为Tesseract算法。

在本发明所述装置的一种优选实施例中，所述训练库中包括字体特征文件，其中包括字符特征与汉字的对应关系；其中对于指定的汉字，以字符特征、笔画为键，以汉字为值，建立映射关系。

与现有技术相比，本发明首先调用数据处理设备的拍照模块获取影像的帧数据，存入存储模块中；然后再从存储模块中读取所述帧数据，组成图片；对所述图片进行降噪处理；通过坐标定位方式，对图片中的关键信息区域进行图像提取，得到待识别区域图片；利用光学字符识别OCR方法，根据预设的字符训练库，对所述待识别区域图片中的字符内容进行识别，如果识别成功，则执行下一步，否则对识别结果进行纠错，将纠错后的字符内容加入所述字符训练库，再执行下一步；根据识别出字符内容进行对应的应用操作。通过这一整套的连续操作，可以将诸如身份证、游戏点卡、充值卡中的关键信息自动识别出来并输入到对应的计算机设备中，从而可以不需要人工参与就可实现信息的提取识别和输入，提高了信息输入的效率，降低人工操作的次数，提高了用户使用的方便性。

附图说明

图1为本发明所述信息识别方法的一种流程示意图；

图2为现有的利用Tesseract算法的信息识别流程示意图；

图3为本发明的一种优选实施例中的利用Tesseract算法的信息识别流程示意图。

具体实施方式

下面结合附图及具体实施例对本发明再作进一步详细的说明。

图1为本发明所述信息识别方法的一种流程示意图。参见图1，该流程包括：

步骤101、调用数据处理设备的拍照模块获取影像的帧数据，存入存储模块中；

步骤102、从存储模块中读取所述帧数据，组成图片；

步骤103、对所述图片进行降噪处理；

步骤104、通过坐标定位方式，对图片中的关键信息区域进行图像提取，得到待识别区域图片；

步骤105、利用光学字符识别OCR方法，根据预设的字符训练库，对所述待识别区域图片中的字符内容进行识别，如果识别成功，则执行下一步，否则对识别结果进行纠错，将纠错后的字符内容加入所述字符训练库，再执行下一步；

步骤106、根据识别出字符内容进行对应的应用操作。例如如果是在身份证认证的场景中，具体是将识别出的字符内容即身份证号输入到身份证认证系统中进行认证；如果是在充值场景中，具体是将识别出的充值码输入到系统中进行充值。

当然，在进一步的实施例中，根据识别出字符内容进行对应的应用操作之后，还可以进一步包括：判断所述应用操作是否成功，例如判断所述身份证认证是否成功，或者判断所述充值操作是否成功，如果成功则结束本流程；如果没有成功，则返回步骤101，重新执行一遍本流程。

下面具体介绍所述各个步骤的详细实现方法。

在步骤101中，所述调用数据处理设备的拍照模块获取影像的帧数据，具体包括：调用数据处理设备的拍照模块；控制所述拍照模块自动对焦，对焦成功后在预览窗口获取影像的帧数据，在成功获取帧数据后，将所述帧数据存入存储模块，根据预设的图片大小判断是否达到帧数据获取次数，如果没有达到，则重复执行本步骤，如果达到，则本步骤结束。

本发明中，所述数据处理设备是指具有数据计算处理功能的智能设备，包括但不限于计算机、智能手机、掌上电脑、平板电脑、智能电视(Smart TV)等。这些数据处理设备上都安装有操作系统，包括但不限于：Windows操作系统、OS操作系统、Android操作系统、Symbian操作系统、Windows mobile操作系统、以及iOS操作系统等等。以上详细罗列了一些数据处理设备的具体类型和具体的操作系统类型，但是本领域技术人员可以意识到，本发明实施方式并不局限于上述罗列的类型，而还可以适用于其他任意的数据处理设备类型和操作系统类型之中。

下面以在智能手机的应用场景为例进行说明，例如在上述步骤101中，具体的，在本发明的步骤之前，需要用户用智能手机对待识别的信息载体，如身份证和充值卡等，进行拍照。所述拍照模块就是智能手机的相机和摄像头组件，在具体实施例中可以通过使用相机的接口PreviewCallback中的一个方法onPreviewFrame(byte[]data,Camera camera)，自动的获得摄像头采集到的帧数据byte[]。具体地，调用摄像头，在摄像头成功开启后，控制所述摄像头进行自动对焦，对焦成功后，通过PreviewCallback的onPreviewFrame(byte[]data,Camera camera)方法在预览窗口获取帧数据；所述预览窗口就是在智能手机屏幕上显示的用于预览图像的窗口；在成功获取帧数据后，即所述onPreviewFrame(byte[]data,Camera camera)方法返回了正确的帧数据后，将所述帧数据存入存储模块，根据预设的图片大小判断是否达到帧数据获取次数，如果没有达到，则重复执行本步骤再次对焦并获取帧数据，依次往复，如果达到，则本步骤结束。

所述根据预设的图片大小判断是否达到帧数据获取次数，是指需要预设一个希望获取的图片的大小，例如可以根据场景需要，设置成500k、1M、2M等等，具体数字可以自行设定。图片越大，所对应需要的帧数据获取次数就越多，可以根据一种预设的比例关系，根据图片大小计算出所述帧数据获取次数。

所述帧数据会保留在存储模块中，使用时才会生成图片。所述存储模块例如可以是一种数据库，具体在智能手机中，可以采用一种轻量级的小型数据库。

通过上述实施例，这种多次获取帧数据的方式相当于是一种采用图片流的方式获取图片信息，由于每一次获取的帧数据都是二进制的数据，这些二进制的帧数据所占用的空间很小，因此提高了信息获取的速度；同时相比直接利用摄像头拍照的方式，本实施例压缩了图片的大小，节省了存储空间。

在所述步骤102中，所述从存储模块中读取所述帧数据，组成图片，具体包括：从所述存储模块中读取出所述获取至少一个帧数据，将所述各个帧数据组合起来，生成一个图片文件，即组成了一个图片。

在所述步骤103中，由于用户拍照时相片采光和角度等的随意性，因此上一步骤所得到的图片的效果不佳，因此需要对所述图片进行降噪处理，具体包括以下至少一种降噪处理方法：

利用近邻取样插值算法对所述图片进行自动缩放处理；

利用小波逆向插值算法对所述图片进行自动旋转处理；

利用Harris角度检测算法和图像快速旋转算法，对所述图片进行角度处理和反光处理。所述Harris角度检测是通过数学计算在图像上发现角度特征的一种算法，而且其具有旋转不变性的特质。

通过上述降噪处理，可以对用户在拍照时的操作姿势不必做出苛刻的要求，方便普通用户进行手持卡片姿势操作，同时也可以将获取到的图片中的干扰信息尽量去除，提高了对图片中的信息识别准确率。

在步骤104中，所述通过坐标定位方式，对图片中的关键信息区域进行图像提取，得到待识别区域图片，具体包括以下步骤141～144：

步骤141、预先对待识别的信息进行分类，为每一类信息设置对应的关键信息区域的位置坐标。例如待识别的信息的载体包括身份证、游戏点卡充值卡、电话话费充值卡、积分卡等等，可以预先确定每种待识别信息的载体中，具体的关键信息区域的位置坐标。例如在身份证中，所述关键信息区域就是显示身份证号码的区域；在游戏点卡充值卡中，所述关键信息区域就是显示充值密码的区域，等等。例如所述位置坐标是所述关键信息区域的矩形四个顶点的坐标。

步骤142、确定当前所要识别的信息类型，读取该信息类型对应的关键信息区域的位置坐标。例如当前所要识别的信息类型为身份证信息，则读取身份证对应的关键信息区域的位置坐标。

步骤143、根据所述位置坐标从所述图片中定位关键信息区域。

步骤144、提取出所定位的关键信息区域的图像，得到待识别区域图片。例如可以将身份证的图片中的显示身份证号码的局部区域提取出来，得到一张新的图片，该新的图片就是待识别区域图片。

在步骤105中，采用基于光学字符识别(OCR，Optical Character Recognition)的自动识别技术则可以显著提高充值和身份认证的效率及正确性。所述OCR是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。

具体在本发明的一种优选实施例中，所述光学字符识别OCR方法，具体为Tesseract算法，并且本发明在原有Tesseract算法引擎的训练库的基础上优化升级，提升效率及准确性。主要包括如下两个方面：

第一方面，Tesseract算法原只是为英语文本而设计的，对英文字母和阿拉伯数字有良好的识别率，但Tesseract库过于庞大，不适合放在手机这样的移动设备里，所以本发明的一种优选实施例中重构了Tesseract算法，去除了俄语，葡语等不需要的语言包及对应识别算法等很多不必要的代码，并打包成jar包/lib库，以API形式提供服务。

第二方面，Tesseract算法原只是为英语文本而设计的，后来经过努力可以支持其它语言，但对汉语的支持很差，识别成功率很低，要么无法识别，要么识别错误。为了解决这个问题，本发明的优选实施例中新建了“训练库”，同时将原有引擎识别库中的中文资源提炼出来加入“训练库”，并且每次识别操作之后通过人工纠错模块将之前无法识别或者识别错误的中文词语的正确词语放入“训练库”，充实“训练库”；即本发明的所述训练库中包括字体特征文件，该字体特征文件中聚集了字符特征，包括字符特征与汉字的对应关系，可以提高识别效率；对于容易混淆的指定的汉字，以字符特征、笔画等关键信息为键，以汉字为值，建立映射关系。

例如图2为现有的利用Tesseract算法的信息识别流程示意图。图3为本发明的一种优选实施例中的利用Tesseract算法的信息识别流程示意图。参见图2和图3，本发明的一种优选实施例中，需要对待识别的图片中的信息进行字符类型的判断，如果是中文则利用本发明升级后的Tesseract算法引擎进行OCR识别，其中所依据的训练库中除了原有引擎识别库中的中文资源提炼出来的内容，还有包含字符特征与汉字的对应关系的字符特征库，以及易混淆词库，该易混淆词库中以字符特征、笔画为键，以汉字为值，建立映射关系。

与上述方法对应的，本发明还公开了一种信息识别装置，对应包括：

第二模块，用于从存储模块中读取所述帧数据，组成图片；

第三模块，用于对所述图片进行降噪处理；

第六模块，用于根据识别出字符内容进行对应的应用操作。

在所述信息识别装置的一种优选实施例中，所述第一模块调用数据处理设备的拍照模块获取影像的帧数据，具体包括：调用数据处理设备的拍照模块；控制所述拍照模块自动对焦，对焦成功后在预览窗口获取影像的帧数据，在成功获取帧数据后，将所述帧数据存入存储模块，根据预设的图片大小判断是否达到帧数据获取次数，如果没有达到，则重复执行本步骤，如果达到，则本步骤结束。

在所述信息识别装置的一种优选实施例中，所述第三模块具体包括以下子模块的至少一种：

在所述信息识别装置的一种优选实施例中，所述第四模块具体包括：

在所述信息识别装置的一种优选实施例中，所述光学字符识别OCR方法，具体为Tesseract算法。

在所述信息识别装置的一种优选实施例中，所述训练库中包括字体特征文件，其中包括字符特征与汉字的对应关系；其中对于指定的汉字，以字符特征、笔画为键，以汉字为值，建立映射关系。

另外，本发明的每一个实施例可以通过由数据处理设备如计算机执行的数据处理程序来实现。显然，数据处理程序构成了本发明。此外，通常存储在一个存储介质中的数据处理程序通过直接将程序读取出存储介质或者通过将程序安装或复制到数据处理设备的存储设备(如硬盘和或内存)中执行。因此，这样的存储介质也构成了本发明。存储介质可以使用任何类型的记录方式，例如纸张存储介质(如纸带等)、磁存储介质(如软盘、硬盘、闪存等)、光存储介质(如CD-ROM等)、磁光存储介质(如MO等)等。

因此本发明还公开了一种存储介质，其中存储有数据处理程序，该数据处理程序用于执行本发明上述方法的任何一种实施例。

另外，本发明所述的方法步骤除了可以用数据处理程序来实现，还可以由硬件来实现，例如，可以由逻辑门、开关、专用集成电路(ASIC)、可编程逻辑控制器和嵌入微控制器等来实现。因此这种可以实现本发明所述方法的硬件也可以构成本发明。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种信息识别方法，其特征在于，包括：

调用数据处理设备的拍照模块；控制所述拍照模块自动对焦，对焦成功后在预览窗口获取影像的帧数据，在成功获取帧数据后，将所述帧数据存入存储模块，根据预设的图片大小判断是否达到帧数据获取次数，如果没有达到，则重复执行本步骤，如果达到，则本步骤结束，将所述帧数据存入存储模块中；

从存储模块中读取所述帧数据，组成图片；

对所述图片进行降噪处理；

根据识别出字符内容进行对应的应用操作；

所述通过坐标定位方式，对图片中的关键信息区域进行图像提取，得到待识别区域图片，具体包括：

预先对待识别的信息的载体进行分类，为每一类信息的载体设置对应的关键信息区域的位置坐标；

确定当前所要识别的信息的载体类型，读取该信息的载体类型对应的关键信息区域的位置坐标；

根据所述位置坐标从所述图片中定位关键信息区域；

提取出所定位的关键信息区域的图像，得到待识别区域图片；

所述训练库中包括字体特征文件，其中包括字符特征与汉字的对应关系；其中对于指定的汉字，以字符特征、笔画为键，以汉字为值，建立映射关系。

2.根据权利要求1所述的方法，其特征在于，所述对所述图片进行降噪处理，具体包括以下至少一种：

利用近邻取样插值算法对所述图片进行自动缩放处理；

利用小波逆向插值算法对所述图片进行自动旋转处理；

3.根据权利要求1所述的方法，其特征在于，所述光学字符识别OCR方法，具体为Tesseract算法。

4.一种信息识别装置，其特征在于，包括：

第一模块，用于调用数据处理设备的拍照模块；控制所述拍照模块自动对焦，对焦成功后在预览窗口获取影像的帧数据，在成功获取帧数据后，将所述帧数据存入存储模块，根据预设的图片大小判断是否达到帧数据获取次数，如果没有达到，则重复执行本步骤，如果达到，则本步骤结束，将所述帧数据存入存储模块中；

第二模块，用于从存储模块中读取所述帧数据，组成图片；

第三模块，用于对所述图片进行降噪处理；

第六模块，用于根据识别出字符内容进行对应的应用操作；

所述第四模块具体包括：

用于预先对待识别的信息的载体进行分类，为每一类信息的载体设置对应的关键信息区域的位置坐标的子模块；

用于确定当前所要识别的信息的载体类型，读取该信息的载体类型对应的关键信息区域的位置坐标的子模块；

用于提取出所定位的关键信息区域的图像，得到待识别区域图片的子模块；

5.根据权利要求4所述的装置，其特征在于，所述第三模块具体包括以下子模块的至少一种：

6.根据权利要求4所述的装置，其特征在于，所述光学字符识别OCR方法，具体为Tesseract算法。

7.一种信息识别装置，其特征在于，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求1-3中任一项所述的信息识别方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-3中任一项所述的信息识别方法。