CN104239853B - 一种图像的处理方法和装置 - Google Patents

一种图像的处理方法和装置 Download PDF

Info

Publication number
CN104239853B
CN104239853B CN201410429608.6A CN201410429608A CN104239853B CN 104239853 B CN104239853 B CN 104239853B CN 201410429608 A CN201410429608 A CN 201410429608A CN 104239853 B CN104239853 B CN 104239853B
Authority
CN
China
Prior art keywords
character picture
character
similarity
value
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410429608.6A
Other languages
English (en)
Other versions
CN104239853A (zh
Inventor
李健
兰志才
张连毅
武卫东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing InfoQuick SinoVoice Speech Technology Corp.
Original Assignee
JIETONG HUASHENG SPEECH TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JIETONG HUASHENG SPEECH TECHNOLOGY Co Ltd filed Critical JIETONG HUASHENG SPEECH TECHNOLOGY Co Ltd
Priority to CN201410429608.6A priority Critical patent/CN104239853B/zh
Publication of CN104239853A publication Critical patent/CN104239853A/zh
Application granted granted Critical
Publication of CN104239853B publication Critical patent/CN104239853B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供了一种图像的处理方法和装置,包括:获取待识别的图像,其中,所述待识别的图像中包括字符图像;将获取的图像进行切边处理,得到包含所述字符图像的、有效的待识别图像范围;将所述有效的待识别图像范围内的图像进行预处理,获得预处理后的所述字符图像;使用多个识别引擎,对预处理后的所述字符图像进行识别;当确定预处理后的所述字符图像与所述多个识别引擎中的至少一个识别引擎的识别结果为可靠时,则输出可靠的所述识别结果。因此本申请可以解决在进行图像识别时,无法准确的获得图像中的有效信息,并且识别功能单一的问题。

Description

一种图像的处理方法和装置
技术领域
本申请涉及识别技术领域,特别是涉及一种图像的处理方法和装置。
背景技术
近年来,随着业务的计算机化,使用了大量的电子文档,由于这个原因,图像识别技术作为将纸件文档转换为电子文档的技术的重要性正在与日俱增。
在图像识别时,由于用户使用的拍摄设备的不同,所得到的图像的大小就有可能不同,将得到的图像进行识别时,无法准确的获得图像中的有效信息,并将图像中的有效信息转换成可编辑文字信息提供给使用者。同时,现有的拍图器功能比较单一,只能识别和处理一种图像,不能满足用户的实际需求。
发明内容
本申请提供一种图像处理方法和装置,以解决现有技术中在进行图像识别时,无法准确的获得图像中的有效信息,并且识别功能单一的问题。
为了解决上述问题,本申请公开了一种图像的处理方法,包括:获取待识别的图像,其中,所述待识别的图像中包括字符图像;将获取的图像进行切边处理,得到包含所述字符图像的、有效的待识别图像范围;将所述有效的待识别图像范围内的图像进行预处理,获得预处理后的所述字符图像;使用多个识别引擎,对预处理后的所述字符图像进行识别;当确定预处理后的所述字符图像与所述多个识别引擎中的至少一个识别引擎的识别结果为可靠时,则输出可靠的所述识别结果。
优选地,所述多个识别引擎包括:名片识别引擎、模板识别引擎和文本识别引擎中的至少二个;当所述多个识别引擎包括所述名片识别引擎时,所述使用多个识别引擎,对预处理后的所述字符图像进行识别的步骤包括:
对预处理后的所述字符图像进行分割,获得多个单一字符,将每个单一字符与名片识别引擎中的名片数据库进行匹配,得到每个单一字符的相似度的判定分值,将所述每个单一字符的相似度的判定分值求和,并对求和结果进行归一化处理,将所述归一化处理结果作为所述字符图像的相似度的判定分值的平均值;将所述字符图像的相似度的判定分值的平均值与预先设定的字符图像的第一阈值和第二阈值进行比较,根据比较结果对所述字符图像进行识别,其中,所述字符图像的第一阈值大于第二阈值;
当所述多个识别引擎包括所述文本识别引擎时,所述使用多个识别引擎,对预处理后的所述字符图像进行识别的步骤包括:对预处理后的所述字符图像进行分割,获得多个单一字符,将每个单一字符与文本识别引擎中的文本数据库进行匹配,得到每个单一字符的相似度的判定分值,将所述每个单一字符的相似度的判定分值求和,并对求和结果进行归一化处理,将所述归一化处理结果作为所述字符图像的相似度的判定分值的平均值;将所述字符图像的相似度的判定分值的平均值与预先设定的字符图像的第三阈值和第四阈值进行比较,根据比较结果对所述字符图像进行识别,其中,所述字符图像的第三阈值大于第四阈值;
当所述多个识别引擎包括所述模板识别引擎时,所述使用多个识别引擎,对预处理后的所述字符图像进行识别的步骤包括:
对预处理后的所述字符图像进行分割,获得多个单一字符,将每个单一字符与模板识别引擎中的模板数据库进行匹配,得到每个单一字符的相似度的判定分值,将所述每个单一字符的相似度的判定分值求和,并对求和结果进行归一化处理,将所述归一化处理结果作为所述字符图像的相似度的判定分值的平均值;将所述字符图像的相似度的判定分值的平均值与预先设定的字符图像的第五阈值和第六阈值进行比较,根据比较结果对所述字符图像进行识别,其中,所述字符图像的第五阈值大于第六阈值。
优选地,将所述字符图像的相似度的判定分值的平均值与预先设定的字符图像的第一阈值和第二阈值进行比较,根据比较结果对所述字符图像进行识别包括:若所述字符图像的相似度的判定分值的平均值大于字符图像的第一阈值时,则输出可靠的所述识别结果;若所述字符图像的相似度的判定分值的平均值小于字符图像的第二阈值时,输出不可靠的所述识别结果,在确定还有未使用的识别引擎时,继续调用未使用的识别引擎对预处理后的所述字符图像进行识别。
优选地,将所述字符图像的相似度的判定分值的平均值与预先设定的字符图像的第三阈值和第四阈值进行比较,根据比较结果对所述字符图像进行识别包括:若所述字符图像的相似度的判定分值的平均值大于字符图像的第三阈值时,则输出可靠的所述识别结果;若所述字符图像的相似度的判定分值的平均值小于字符图像的第四阈值时,输出不可靠的所述识别结果,在确定还有未使用的识别引擎时,继续调用未使用的识别引擎对预处理后的所述字符图像进行识别。
优选地,将所述字符图像的相似度的判定分值的平均值与预先设定的字符图像的第五阈值和第六阈值进行比较,根据比较结果对所述字符图像进行识别包括:若所述字符图像的相似度的判定分值的平均值大于字符图像的第五阈值时,则输出可靠的所述识别结果;
若所述字符图像的相似度的判定分值的平均值小于字符图像的第六阈值时,输出不可靠的所述识别结果,在确定还有未使用的识别引擎时,继续调用未使用的识别引擎对预处理后的所述字符图像进行识别。
优选地,还包括:若多个识别引擎识别出的多个识别结果中的至少一个识别结果在可靠与不可靠之间,则比较多个识别引擎识别出的字符图像的相似度的判定分值的平均值,选择字符图像的相似度的判定分值的平均值中最大值作为字符图像的识别结果。
为了解决上述问题,本申请还公开了一种图像的处理装置,包括:
获取模块,用于获取待识别的图像,其中,所述待识别的图像中包括字符图像;
处理模块,用于将获取的图像进行切边处理,得到包含所述字符图像的、有效的待识别图像范围;
预处理模块,用于将所述有效的待识别图像范围内的图像进行预处理,获得预处理后的所述字符图像;
识别模块,用于使用多个识别引擎,对预处理后的所述字符图像进行识别;
输出模块,用于当确定预处理后的所述字符图像与所述多个识别引擎中的至少一个识别引擎的识别结果为可靠时,则输出可靠的所述识别结果。
优选地,所述多个识别引擎包括:名片识别引擎、模板识别引擎、文本识别引擎中的至少二个;
所述识别模块,用于:
当所述多个识别引擎包括所述名片识别引擎时,所述使用多个识别引擎,对预处理后的所述字符图像进行识别包括:对预处理后的所述字符图像进行分割,获得多个单一字符,将每个单一字符与名片识别引擎中的名片数据库进行匹配,得到每个单一字符的相似度的判定分值,将所述每个单一字符的相似度的判定分值求和,并对求和结果进行归一化处理,将所述归一化处理结果作为所述字符图像的相似度的判定分值的平均值;将所述字符图像的相似度的判定分值的平均值与预先设定的字符图像的第一阈值和第二阈值进行比较,根据比较结果对所述字符图像进行识别,其中,所述字符图像的第一阈值大于第二阈值;
当所述多个识别引擎包括所述文本识别引擎时,所述使用多个识别引擎,对预处理后的所述字符图像进行识别包括:对预处理后的所述字符图像进行分割,获得多个单一字符,将每个单一字符与文本识别引擎中的文本数据库进行匹配,得到每个单一字符的相似度的判定分值,将所述每个单一字符的相似度的判定分值求和,并对求和结果进行归一化处理,将所述归一化处理结果作为所述字符图像的相似度的判定分值的平均值;将所述字符图像的相似度的判定分值的平均值与预先设定的字符图像的第三阈值和第四阈值进行比较,根据比较结果对所述字符图像进行识别,其中,所述字符图像的第三阈值大于第四阈值;
当所述多个识别引擎包括所述模板识别引擎时,所述使用多个识别引擎,对预处理后的所述字符图像进行识别包括:对预处理后的所述字符图像进行分割,获得多个单一字符,将每个单一字符与模板识别引擎中的模板数据库进行匹配,得到每个单一字符的相似度的判定分值,将所述每个单一字符的相似度的判定分值求和,并对求和结果进行归一化处理,将所述归一化处理结果作为所述字符图像的相似度的判定分值的平均值;将所述字符图像的相似度的判定分值的平均值与预先设定的字符图像的第五阈值和第六阈值进行比较,根据比较结果对所述字符图像进行识别,其中,所述字符图像的第五阈值大于第六阈值。
优选地,所述识别模块在将所述字符图像的相似度的判定分值的平均值与预先设定的字符图像的第一阈值和第二阈值进行比较,根据比较结果对所述字符图像进行识别时:
若所述字符图像的相似度的判定分值的平均值大于字符图像的第一阈值时,则输出可靠的所述识别结果;
若所述字符图像的相似度的判定分值的平均值小于字符图像的第二阈值时,输出不可靠的所述识别结果,在确定还有未使用的识别引擎时,继续调用未使用的识别引擎对预处理后的所述字符图像进行识别。
优选地,所述识别模块在将所述字符图像的相似度的判定分值的平均值与预先设定的字符图像的第三阈值和第四阈值进行比较,根据比较结果对所述字符图像进行识别时:
若所述字符图像的相似度的判定分值的平均值大于字符图像的第三阈值时,则输出可靠的所述识别结果;
若所述字符图像的相似度的判定分值的平均值小于字符图像的第四阈值时,输出不可靠的所述识别结果,在确定还有未使用的识别引擎时,继续调用未使用的识别引擎对预处理后的所述字符图像进行识别。
与现有技术相比,本申请包括以下优点:
首先,将待识别的图像进行切边处理,得到了包含字符图像的有效的识别图像范围,同时将获得的有效的图像进行预处理,排除了干扰噪声的影响,从而能准确的获得图像中的有效信息。
其次,本申请通过使用多个识别引擎对获得的预处理后的字符图像进行识别,从而实现了对多种图片类型的处理,当字符图像与多个识别引擎中的至少一个识别引擎的识别结果为可靠时,则输出可靠的识别结果。多个识别引擎可以对不同类型的图像进行处理,例如:多个识别引擎可以为模板识别引擎、名片识别引擎、模板识别引擎和车牌识别引擎等,由于本申请将获得的预处理后的字符图像使用多个识别引擎进行处理,避免了现有方法中在进行图像识别时,无法准确的获得图像中的有效信息,并且识别功能单一的问题。
附图说明
图1是本申请实施例一中的一种图像处理方法的流程图;
图2是本申请实施例二中的一种图像处理方法的流程图;
图3是本申请实施例三中的一种图像处理装置的结构框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
参照图1,示出了本申请实施例一中的一种图像处理方法,包括:
步骤101:获取待识别的图像,其中,所述待识别的图像中包括字符图像。
待识别的图像可以从照相管理装置或者图像输入装置中获取待识别的图像。
步骤102:将获取的图像进行切边处理,得到包含所述字符图像的、有效的待识别图像范围。
图像切边:指能够从原图中,将被识别图像的边缘从原图切出来,常见的被识别图像如身份证等。
将获取的图像进行切边处理,找到图像的四个角点,进行透视变换,即透视变换是对图像进行拉缩,把斜视图变成正视图,得到图像的有效内容,得到包含字符图像的、有效的待识别图像范围。
如果字符图像的、有效的待识别图像范围能够清晰的识别,则继续识别处理过程,如果字符图像的、有效的待识别图像范围不能够清晰的识别,则提示使用者重新拍摄或输入图像。
步骤103:将所述有效的待识别图像范围内的图像进行预处理,获得预处理后的所述字符图像。
将所述有效的待识别图像范围内的图像进行预处理包括:对获取的图像进行倾斜矫正,对图像进行增强处理、对图像进行二值化处理和对图像进行降噪处理。其中,对图像进行增强处理是使图像的亮、暗更清楚,黑白分明;对图像进行二值化处理是将图像中的字符与背景区分开;对图像进行降噪处理是去掉图像中的干扰噪声,比如碎笔画等。将待识别图像范围内的图像进行预处理后的结果是得到字符与背景分明的字符图像。
步骤104:使用多个识别引擎,对预处理后的所述字符图像进行识别。
步骤105:当确定预处理后的所述字符图像与所述多个识别引擎中的至少一个识别引擎的识别结果为可靠时,则输出可靠的所述识别结果。
当确定预处理后的字符图像与多个识别引擎中的至少一个识别引擎的识别结果为不可靠时,则继续调用多个识别引擎中未使用的识别引擎对字符图像进行处理。
对是否调用多个识别引擎中的其他识别引擎,主要取决于之前使用过的识别引擎的识别结果。
通过本实施例,首先,将待识别的图像进行切边处理,得到了包含字符图像的有效的识别图像范围,同时将获得的有效的图像进行预处理,排除了干扰噪声的影响,从而能准确的获得图像中的有效信息。
其次,本申请通过使用多个识别引擎对获得的预处理后的字符图像进行识别,从而实现了对多种图片类型的处理,当字符图像与多个识别引擎中的至少一个识别引擎的识别结果为可靠时,则输出可靠的识别结果。多个识别引擎可以对不同类型的图像进行处理,例如:多个识别引擎可以为模板识别引擎、名片识别引擎、模板识别引擎、车牌识别引擎和语音识别引擎等,由于本申请将获得的预处理后的字符图像使用多个识别引擎进行处理,避免了现有方法中在进行图像识别时,无法准确的获得图像中的有效信息,并且识别功能单一的问题。
参照图2,示出了本申请实施例二中的一种图像处理方法,包括:
步骤201:通过拍摄设备,对待识别图像进行拍照。
步骤202:获取待识别的图像,其中,所述待识别的图像中包括字符图像。
步骤203:将获取的图像进行切边处理,得到包含所述字符图像的、有效的待识别图像范围。
步骤204:判定获取的图像是否清晰能够识别,如果是,则执行步骤205;如果否,则执行步骤208。
步骤205:将所述有效的待识别图像范围内的图像进行预处理,获得预处理后的所述字符图像。
将有效的待识别图像范围内的图像进行预处理包括:对获取的图像进行倾斜矫正,对图像进行增强处理、对图像进行二值化处理和对图像进行降噪处理。其中,对图像进行增强处理是使图像的亮、暗更清楚,黑白分明;对图像进行二值化处理是将图像中的字符与背景区分开;对图像进行降噪处理是去掉图像中的干扰噪声,比如碎笔画等。将待识别图像范围内的图像进行预处理后的结果是得到字符与背景分明的字符图像。
步骤206:对获取的预处理后的字符图像进行光学字符识别,光学字符识别是对图像进行分析、识别,得到文字和版面信息。该光学字符识别可以使用多个识别引擎,对预处理后的所述字符图像进行识别。
光学字符识别(Optical Character Recognition,OCR)是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。
多个识别引擎包括:名片识别引擎、模板识别引擎和文本识别引擎中的至少二个,名片识别引擎适用于名片的识别处理,模板识别引擎适用于模板的识别处理,文本识别引擎适用于文本的识别处理。
当所述多个识别引擎包括所述名片识别引擎时,所述使用多个识别引擎,对预处理后的所述字符图像进行识别的步骤包括:
对预处理后的所述字符图像进行分割,获得多个单一字符,将每个单一字符与名片识别引擎中的名片数据库进行匹配,得到每个单一字符的相似度的判定分值,将所述每个单一字符的相似度的判定分值求和,并对求和结果进行归一化处理,将所述归一化处理结果作为所述字符图像的相似度的判定分值的平均值;将所述字符图像的相似度的判定分值的平均值与预先设定的字符图像的第一阈值和第二阈值进行比较,根据比较结果对所述字符图像进行识别,其中,所述字符图像的第一阈值大于第二阈值,其中,第一阈值和第二阈值都是通过统计得到的,也就是设定一个训练集,求出训练集合中每个图的总相似度,通过设定第一阈值和第二阈值使得名片识别引擎的识别结果正确率和拒识准确率最大化。
优选地,将所述字符图像的相似度的判定分值的平均值与预先设定的字符图像的第一阈值和第二阈值进行比较,根据比较结果对所述字符图像进行识别包括:
若所述字符图像的相似度的判定分值的平均值大于字符图像的第一阈值时,则输出可靠的所述识别结果;
若所述字符图像的相似度的判定分值的平均值小于字符图像的第二阈值时,输出不可靠的所述识别结果,在确定还有未使用的识别引擎时,继续调用未使用的识别引擎对预处理后的所述字符图像进行识别。
当所述多个识别引擎包括所述文本识别引擎时,所述使用多个识别引擎,对预处理后的所述字符图像进行识别的步骤包括:对预处理后的所述字符图像进行分割,获得多个单一字符,将每个单一字符与文本识别引擎中的文本数据库进行匹配,得到每个单一字符的相似度的判定分值,将所述每个单一字符的相似度的判定分值求和,并对求和结果进行归一化处理,将所述归一化处理结果作为所述字符图像的相似度的判定分值的平均值;将所述字符图像的相似度的判定分值的平均值与预先设定的字符图像的第三阈值和第四阈值进行比较,根据比较结果对所述字符图像进行识别,其中,所述字符图像的第三阈值大于第四阈值,其中,第三阈值和第四阈值都是通过统计得到的,也就是设定一个训练集,求出训练集合中每个图的总相似度,通过设定第三阈值和第四阈值使得名片识别引擎的识别结果正确率和拒识准确率最大化。
优选地,将所述字符图像的相似度的判定分值的平均值与预先设定的字符图像的第三阈值和第四阈值进行比较,根据比较结果对所述字符图像进行识别包括:若所述字符图像的相似度的判定分值的平均值大于字符图像的第三阈值时,则输出可靠的所述识别结果;
若所述字符图像的相似度的判定分值的平均值小于字符图像的第四阈值时,输出不可靠的所述识别结果,在确定还有未使用的识别引擎时,继续调用未使用的识别引擎对预处理后的所述字符图像进行识别。
当所述多个识别引擎包括所述模板识别引擎时,所述使用多个识别引擎,对预处理后的所述字符图像进行识别的步骤包括:
对预处理后的所述字符图像进行分割,获得多个单一字符,将每个单一字符与模板识别引擎中的模板数据库进行匹配,得到每个单一字符的相似度的判定分值,将所述每个单一字符的相似度的判定分值求和,并对求和结果进行归一化处理,将所述归一化处理结果作为所述字符图像的相似度的判定分值的平均值;将所述字符图像的相似度的判定分值的平均值与预先设定的字符图像的第五阈值和第六阈值进行比较,根据比较结果对所述字符图像进行识别,其中,所述字符图像的第五阈值大于第六阈值,其中,第五阈值和第六阈值都是通过统计得到的,也就是设定一个训练集,求出训练集合中每个图的总相似度,通过设定第五阈值和第六阈值使得名片识别引擎的识别结果正确率和拒识准确率最大化。
模板数据库中存储各个模板的标准格式,例如:身份证模板,该身份证模板中的姓名、出生日期、地址等都对应固定的位置,匹配时按照对应的格式进行识别。
优选地,将所述字符图像的相似度的判定分值的平均值与预先设定的字符图像的第五阈值和第六阈值进行比较,根据比较结果对所述字符图像进行识别包括:若所述字符图像的相似度的判定分值的平均值大于字符图像的第五阈值时,则输出可靠的所述识别结果。
若所述字符图像的相似度的判定分值的平均值小于字符图像的第六阈值时,输出不可靠的所述识别结果,在确定还有未使用的识别引擎时,继续调用未使用的识别引擎对预处理后的所述字符图像进行识别。
进一步的,如果通过三种识别引擎对图像进行识别后,所得到的识别结果均为不可靠时,则提示使用者该图像不能识别。如果通过三种识别引擎对图像进行识别后,所得到的结果都是在可靠与不可靠之间或者若多个识别引擎识别出的多个识别结果中的至少一个识别结果在可靠与不可靠之间,则比较多个识别引擎识别出的字符图像的相似度的判定分值的平均值,选择字符图像的相似度的判定分值的平均值中最大值作为字符图像的识别结果,其中可靠与不可靠之间的范围包括通过三种识别引擎对图像进行识别后,所得到的识别结果大于第一阈值,而小于第二阈值;识别结果大于第三阈值,而小于第四阈值;识别结果大于第五阈值,而小于第六阈值。
如果多个识别引擎中只包括一个识别引擎时,则对字符图像的过程也可以采用本申请限定的方法进行字符图像的识别。
需要说明的是,本申请的多个识别引擎可以按照预先设定顺序进行调用,也可以根据具体操作的情况调用相应的识别引擎,本申请不加以限制。
步骤207:当确定预处理后的所述字符图像与所述多个识别引擎中的至少一个识别引擎的识别结果为可靠时,则输出可靠的所述识别结果。结束流程。
步骤208:提示使用者重新拍摄或输入图像,重复进行步骤201-步骤207的操作过程。
进一步的,通过具体的应用实例来说明本申请限定的技术方案实现方法。
在光学字符识别中,多种类型的图像识别处理能力是这样实现的:在光学字符识别包括多个识别引擎,例如三个引擎——名片识别引擎、模板识别引擎和文本识别引擎。
拍图器获得图片并初步处理后进入光学字符识别过程包括:可以按照一定的顺序调用识别引擎,例如按照名片识别引擎、模板识别引擎、文本识别引擎的顺序调用识别引擎。按照举例的顺序,拍图器在进行光学字符识别时,先调用名片识别引擎对图像进行识别,求出图像中各字符的相似度的判定分值,将每个单一字符的相似度的判定分值求和,并对求和结果进行归一化处理,将归一化处理结果作为字符图像的相似度的判定分值的平均值D1,其中,各字符的相似度判定分值可以是概率或者距离。预先设定两个阈值A1、A2,如果D1大于A1则识别结果可靠,光学字符识别过程不需要再调用其余的识别引擎,输出识别结果;如果D1小于A2,则输出识别结果不可靠,光学字符识别过程继续调用模板识别引擎。
在模板识别引擎对图像进行识别过程中,求出图像中各字符的相似度的判定分值,将每个单一字符的相似度的判定分值求和,并对求和结果进行归一化处理,将归一化处理结果作为字符图像的相似度的判定分值的平均值D2,其中,各字符的相似度判定分值可以是概率或者距离。预先设定两个阈值B1、B2,如果D2大于B1,则输出识别结果可靠,光学字符识别过程不需要再调用其余的识别引擎,输出识别结果;如果D2小于B2,则输出识别结果不可靠,光学字符识别过程继续调用文本识别引擎。
在文本识别引擎对图像进行识别过程中,求出图像中各字符的相似度的判定分值,将每个单一字符的相似度的判定分值求和,并对求和结果进行归一化处理,将归一化处理结果作为字符图像的相似度的判定分值的平均值D3,其中,各字符的相似度判定分值可以是概率或者距离。预先设定两个阈值C1、C2,如果D3大于C1,则输出识别结果可靠;如果D3小于C2,则输出识别结果不可靠。
如果在三种识别引擎对图像进行识别后,所得到的识别结果都是不可靠,则提示使用者该图像不能识别;如果在三种识别引擎对图像进行识别后,所得到的结果都是在可靠与不可靠之间,其中,可靠与不可靠之间的范围是A1<D1<A2,B1<D2<B2,C1<D3<C2,则比较D1、D2、D3的值,将三个值中最大者对应的识别结果作为最终的识别结果。
上述过程是以三个识别引擎为例对光学字符识别过程进行的描述,如果识别引擎为两个或三个以上,则光学字符识别过程采用类似的方法。
需要说明的是,本申请以举例的方式说明多个识别引擎的调用顺序,当然也可以按照其它顺序调用多个识别引擎,而且根据识别结果的情况,可以只调用其中的一个或多个识别引擎。
通过本实施例,首先,将待识别的图像进行切边处理,得到了包含字符图像的有效的识别图像范围,同时将获得的有效的图像进行预处理,排除了干扰噪声的影响,从而能准确的获得图像中的有效信息。
其次,本申请通过使用多个识别引擎对获得的预处理后的字符图像进行识别,从而实现了对多种图片类型的处理,当字符图像与多个识别引擎中的至少一个识别引擎的识别结果为可靠时,则输出可靠的识别结果。多个识别引擎可以对不同类型的图像进行处理,例如:多个识别引擎可以为模板识别引擎、名片识别引擎、模板识别引擎、车牌识别引擎和语音识别引擎等,由于本申请将获得的预处理后的字符图像使用多个识别引擎进行处理,避免了现有方法中在进行图像识别时,无法准确的获得图像中的有效信息,并且识别功能单一的问题
基于上述方法实施例的说明,本申请还提供了相应的一种图像处理装置的实施例,来实现上述方法实施例所述的内容。
参见图3,示出了本申请实施例三中的一种图像处理装置的结构框图,具体可以包括:
获取模块301,用于获取待识别的图像,其中,所述待识别的图像中包括字符图像。
处理模块302,用于将获取的图像进行切边处理,得到包含所述字符图像的、有效的待识别图像范围。
预处理模块303,用于将所述有效的待识别图像范围内的图像进行预处理,获得预处理后的所述字符图像。
识别模块304,用于使用多个识别引擎,对预处理后的所述字符图像进行识别。
输出模块305,用于当确定预处理后的所述字符图像与所述多个识别引擎中的至少一个识别引擎的识别结果为可靠时,则输出可靠的所述识别结果。
优选地,所述多个识别引擎包括:名片识别引擎、模板识别引擎、文本识别引擎中的至少二个;所述识别模块,用于:
当所述多个识别引擎包括所述名片识别引擎时,所述使用多个识别引擎,对预处理后的所述字符图像进行识别包括:对预处理后的所述字符图像进行分割,获得多个单一字符,将每个单一字符与名片识别引擎中的名片数据库进行匹配,得到每个单一字符的相似度的判定分值,将所述每个单一字符的相似度的判定分值求和,并对求和结果进行归一化处理,将所述归一化处理结果作为所述字符图像的相似度的判定分值的平均值;将所述字符图像的相似度的判定分值的平均值与预先设定的字符图像的第一阈值和第二阈值进行比较,根据比较结果对所述字符图像进行识别,其中,所述字符图像的第一阈值大于第二阈值。
当所述多个识别引擎包括所述文本识别引擎时,所述使用多个识别引擎,对预处理后的所述字符图像进行识别包括:对预处理后的所述字符图像进行分割,获得多个单一字符,将每个单一字符与文本识别引擎中的文本数据库进行匹配,得到每个单一字符的相似度的判定分值,将所述每个单一字符的相似度的判定分值求和,并对求和结果进行归一化处理,将所述归一化处理结果作为所述字符图像的相似度的判定分值的平均值;将所述字符图像的相似度的判定分值的平均值与预先设定的字符图像的第三阈值和第四阈值进行比较,根据比较结果对所述字符图像进行识别,其中,所述字符图像的第三阈值大于第四阈值。
当所述多个识别引擎包括所述模板识别引擎时,所述使用多个识别引擎,对预处理后的所述字符图像进行识别包括:对预处理后的所述字符图像进行分割,获得多个单一字符,将每个单一字符与模板识别引擎中的模板数据库进行匹配,得到每个单一字符的相似度的判定分值,将所述每个单一字符的相似度的判定分值求和,并对求和结果进行归一化处理,将所述归一化处理结果作为所述字符图像的相似度的判定分值的平均值;将所述字符图像的相似度的判定分值的平均值与预先设定的字符图像的第五阈值和第六阈值进行比较,根据比较结果对所述字符图像进行识别,其中,所述字符图像的第五阈值大于第六阈值。
优选地,所述识别模块在将所述字符图像的相似度的判定分值的平均值与预先设定的字符图像的第一阈值和第二阈值进行比较,根据比较结果对所述字符图像进行识别时:
若所述字符图像的相似度的判定分值的平均值大于字符图像的第一阈值时,则输出可靠的所述识别结果。
若所述字符图像的相似度的判定分值的平均值小于字符图像的第二阈值时,输出不可靠的所述识别结果,在确定还有未使用的识别引擎时,继续调用未使用的识别引擎对预处理后的所述字符图像进行识别。
优选地,所述识别模块在将所述字符图像的相似度的判定分值的平均值与预先设定的字符图像的第三阈值和第四阈值进行比较,根据比较结果对所述字符图像进行识别时:
若所述字符图像的相似度的判定分值的平均值大于字符图像的第三阈值时,则输出可靠的所述识别结果。
若所述字符图像的相似度的判定分值的平均值小于字符图像的第四阈值时,输出不可靠的所述识别结果,在确定还有未使用的识别引擎时,继续调用未使用的识别引擎对预处理后的所述字符图像进行识别。
优选地,所述识别模块在将所述字符图像的相似度的判定分值的平均值与预先设定的字符图像的第五阈值和第六阈值进行比较,根据比较结果对所述字符图像进行识别时:
若所述字符图像的相似度的判定分值的平均值大于字符图像的第五阈值时,则输出可靠的所述识别结果。
若所述字符图像的相似度的判定分值的平均值小于字符图像的第六阈值时,输出不可靠的所述识别结果,在确定还有未使用的识别引擎时,继续调用未使用的识别引擎对预处理后的所述字符图像进行识别。
优选地,所述装置还包括:比较模块,用于若多个识别引擎识别出的多个识别结果中的至少一个识别结果在可靠与不可靠之间,则比较多个识别引擎识别出的字符图像的相似度的判定分值的平均值,选择字符图像的相似度的判定分值的平均值中最大值作为所述字符图像的识别结果。
通过本实施例,首先,将待识别的图像进行切边处理,得到了包含字符图像的有效的识别图像范围,同时将获得的有效的图像进行预处理,排除了干扰噪声的影响,从而能准确的获得图像中的有效信息。
其次,本申请通过使用多个识别引擎对获得的预处理后的字符图像进行识别,从而实现了对多种图片类型的处理,当字符图像与多个识别引擎中的至少一个识别引擎的识别结果为可靠时,则输出可靠的识别结果。多个识别引擎可以对不同类型的图像进行处理,例如:多个识别引擎可以为模板识别引擎、名片识别引擎、模板识别引擎、车牌识别引擎和语音识别引擎等,由于本申请将获得的预处理后的字符图像使用多个识别引擎进行处理,避免了现有方法中在进行图像识别时,无法准确的获得图像中的有效信息,并且识别功能单一的问题
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本申请所提供的一种图像处理的方法和装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (6)

1.一种图像的处理方法,其特征在于,包括:
获取待识别的图像,其中,所述待识别的图像中包括字符图像;
将获取的图像进行切边处理,得到包含所述字符图像的、有效的待识别图像范围;
将所述有效的待识别图像范围内的图像进行预处理,获得预处理后的所述字符图像;
使用多个识别引擎,对预处理后的所述字符图像进行识别;
当确定预处理后的所述字符图像与所述多个识别引擎中的至少一个识别引擎的识别结果为可靠时,则输出可靠的所述识别结果;
所述多个识别引擎包括:名片识别引擎、模板识别引擎和文本识别引擎中的至少二个;
当所述多个识别引擎包括所述名片识别引擎时,所述使用多个识别引擎,对预处理后的所述字符图像进行识别的步骤包括:
对预处理后的所述字符图像进行分割,获得多个单一字符,将每个单一字符与名片识别引擎中的名片数据库进行匹配,得到每个单一字符的相似度的判定分值,将所述每个单一字符的相似度的判定分值求和,并对求和结果进行归一化处理,将所述归一化处理结果作为所述字符图像的相似度的判定分值的平均值;将所述字符图像的相似度的判定分值的平均值与预先设定的字符图像的第一阈值和第二阈值进行比较,根据比较结果对所述字符图像进行识别,其中,所述字符图像的第一阈值大于第二阈值;
将所述字符图像的相似度的判定分值的平均值与预先设定的字符图像的第一阈值和第二阈值进行比较,根据比较结果对所述字符图像进行识别包括:
若所述字符图像的相似度的判定分值的平均值小于字符图像的第二阈值时,输出不可靠的所述识别结果,在确定还有未使用的识别引擎时,继续调用未使用的识别引擎对预处理后的所述字符图像进行识别;
若所述字符图像的相似度的判定分值的平均值大于字符图像的第一阈值时,则输出可靠的所述识别结果;
当所述多个识别引擎包括所述文本识别引擎时,所述使用多个识别引擎,对预处理后的所述字符图像进行识别的步骤包括:对预处理后的所述字符图像进行分割,获得多个单一字符,将每个单一字符与文本识别引擎中的文本数据库进行匹配,得到每个单一字符的相似度的判定分值,将所述每个单一字符的相似度的判定分值求和,并对求和结果进行归一化处理,将所述归一化处理结果作为所述字符图像的相似度的判定分值的平均值;将所述字符图像的相似度的判定分值的平均值与预先设定的字符图像的第三阈值和第四阈值进行比较,根据比较结果对所述字符图像进行识别,其中,所述字符图像的第三阈值大于第四阈值;
当所述多个识别引擎包括所述模板识别引擎时,所述使用多个识别引擎,对预处理后的所述字符图像进行识别的步骤包括:
对预处理后的所述字符图像进行分割,获得多个单一字符,将每个单一字符与模板识别引擎中的模板数据库进行匹配,得到每个单一字符的相似度的判定分值,将所述每个单一字符的相似度的判定分值求和,并对求和结果进行归一化处理,将所述归一化处理结果作为所述字符图像的相似度的判定分值的平均值;将所述字符图像的相似度的判定分值的平均值与预先设定的字符图像的第五阈值和第六阈值进行比较,根据比较结果对所述字符图像进行识别,其中,所述字符图像的第五阈值大于第六阈值。
2.根据权利要求1所述的方法,其特征在于,将所述字符图像的相似度的判定分值的平均值与预先设定的字符图像的第三阈值和第四阈值进行比较,根据比较结果对所述字符图像进行识别包括:若所述字符图像的相似度的判定分值的平均值大于字符图像的第三阈值时,则输出可靠的所述识别结果;
若所述字符图像的相似度的判定分值的平均值小于字符图像的第四阈值时,输出不可靠的所述识别结果,在确定还有未使用的识别引擎时,继续调用未使用的识别引擎对预处理后的所述字符图像进行识别。
3.根据权利要求1所述的方法,其特征在于,将所述字符图像的相似度的判定分值的平均值与预先设定的字符图像的第五阈值和第六阈值进行比较,根据比较结果对所述字符图像进行识别包括:若所述字符图像的相似度的判定分值的平均值大于字符图像的第五阈值时,则输出可靠的所述识别结果;
若所述字符图像的相似度的判定分值的平均值小于字符图像的第六阈值时,输出不可靠的所述识别结果,在确定还有未使用的识别引擎时,继续调用未使用的识别引擎对预处理后的所述字符图像进行识别。
4.根据权利要求2或3所述的方法,其特征在于,还包括:若多个识别引擎识别出的多个识别结果中的至少一个识别结果在可靠与不可靠之间,则比较多个识别引擎识别出的字符图像的相似度的判定分值的平均值,选择字符图像的相似度的判定分值的平均值中最大值作为字符图像的识别结果。
5.一种图像的处理装置,其特征在于,包括:
获取模块,用于获取待识别的图像,其中,所述待识别的图像中包括字符图像;
处理模块,用于将获取的图像进行切边处理,得到包含所述字符图像的、有效的待识别图像范围;
预处理模块,用于将所述有效的待识别图像范围内的图像进行预处理,获得预处理后的所述字符图像;
识别模块,用于使用多个识别引擎,对预处理后的所述字符图像进行识别;
所述多个识别引擎包括:名片识别引擎、模板识别引擎、文本识别引擎中的至少二个;
其中,所述识别模块,具体用于:
当所述多个识别引擎包括所述名片识别引擎时,所述使用多个识别引擎,对预处理后的所述字符图像进行识别包括:对预处理后的所述字符图像进行分割,获得多个单一字符,将每个单一字符与名片识别引擎中的名片数据库进行匹配,得到每个单一字符的相似度的判定分值,将所述每个单一字符的相似度的判定分值求和,并对求和结果进行归一化处理,将所述归一化处理结果作为所述字符图像的相似度的判定分值的平均值;将所述字符图像的相似度的判定分值的平均值与预先设定的字符图像的第一阈值和第二阈值进行比较,根据比较结果对所述字符图像进行识别,其中,所述字符图像的第一阈值大于第二阈值;
所述识别模块在将所述字符图像的相似度的判定分值的平均值与预先设定的字符图像的第一阈值和第二阈值进行比较,根据比较结果对所述字符图像进行识别时:若所述字符图像的相似度的判定分值的平均值小于字符图像的第二阈值时,输出不可靠的识别结果,在确定还有未使用的识别引擎时,继续调用未使用的识别引擎对预处理后的所述字符图像进行识别;若所述字符图像的相似度的判定分值的平均值大于字符图像的第一阈值时,则输出可靠的所述识别结果;
输出模块,用于当确定预处理后的所述字符图像与所述多个识别引擎中的至少一个识别引擎的识别结果为可靠时,则输出可靠的识别结果;
所述识别模块,具体用于:
当所述多个识别引擎包括所述文本识别引擎时,所述使用多个识别引擎,对预处理后的所述字符图像进行识别包括:对预处理后的所述字符图像进行分割,获得多个单一字符,将每个单一字符与文本识别引擎中的文本数据库进行匹配,得到每个单一字符的相似度的判定分值,将所述每个单一字符的相似度的判定分值求和,并对求和结果进行归一化处理,将所述归一化处理结果作为所述字符图像的相似度的判定分值的平均值;将所述字符图像的相似度的判定分值的平均值与预先设定的字符图像的第三阈值和第四阈值进行比较,根据比较结果对所述字符图像进行识别,其中,所述字符图像的第三阈值大于第四阈值;
当所述多个识别引擎包括所述模板识别引擎时,所述使用多个识别引擎,对预处理后的所述字符图像进行识别包括:对预处理后的所述字符图像进行分割,获得多个单一字符,将每个单一字符与模板识别引擎中的模板数据库进行匹配,得到每个单一字符的相似度的判定分值,将所述每个单一字符的相似度的判定分值求和,并对求和结果进行归一化处理,将所述归一化处理结果作为所述字符图像的相似度的判定分值的平均值;将所述字符图像的相似度的判定分值的平均值与预先设定的字符图像的第五阈值和第六阈值进行比较,根据比较结果对所述字符图像进行识别,其中,所述字符图像的第五阈值大于第六阈值。
6.根据权利要求5所述的装置,其特征在于,所述识别模块在将所述字符图像的相似度的判定分值的平均值与预先设定的字符图像的第三阈值和第四阈值进行比较,根据比较结果对所述字符图像进行识别时:
若所述字符图像的相似度的判定分值的平均值大于字符图像的第三阈值时,则输出可靠的所述识别结果;
若所述字符图像的相似度的判定分值的平均值小于字符图像的第四阈值时,输出不可靠的所述识别结果,在确定还有未使用的识别引擎时,继续调用未使用的识别引擎对预处理后的所述字符图像进行识别。
CN201410429608.6A 2014-08-27 2014-08-27 一种图像的处理方法和装置 Active CN104239853B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410429608.6A CN104239853B (zh) 2014-08-27 2014-08-27 一种图像的处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410429608.6A CN104239853B (zh) 2014-08-27 2014-08-27 一种图像的处理方法和装置

Publications (2)

Publication Number Publication Date
CN104239853A CN104239853A (zh) 2014-12-24
CN104239853B true CN104239853B (zh) 2018-04-27

Family

ID=52227879

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410429608.6A Active CN104239853B (zh) 2014-08-27 2014-08-27 一种图像的处理方法和装置

Country Status (1)

Country Link
CN (1) CN104239853B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105469513A (zh) * 2015-12-31 2016-04-06 天津中邦信息技术有限公司 基于人脸检测与文字识别的自助服务一体机及其使用方法
CN106971638B (zh) * 2016-01-14 2020-09-29 北京新唐思创教育科技有限公司 交互式无线教学方法
CN107092903A (zh) * 2016-02-18 2017-08-25 阿里巴巴集团控股有限公司 信息识别方法及装置
CN109002749B (zh) * 2017-12-11 2022-01-04 罗普特科技集团股份有限公司 嫌疑人人脸识别认定方法
CN108446698B (zh) * 2018-03-15 2020-08-21 腾讯大地通途(北京)科技有限公司 在图像中检测文本的方法、装置、介质及电子设备
JP6791191B2 (ja) 2018-04-02 2020-11-25 日本電気株式会社 画像処理装置、画像処理方法およびプログラム
CN111046695B (zh) * 2018-10-11 2024-03-05 华为技术有限公司 图像识别方法、设备及系统
CN109685070B (zh) * 2019-01-11 2023-01-24 上海大学(浙江·嘉兴)新兴产业研究院 一种图像预处理方法
CN109979454B (zh) * 2019-03-29 2021-08-17 联想(北京)有限公司 数据处理方法及装置
CN111160390B (zh) * 2019-12-02 2023-06-20 云知声智能科技股份有限公司 一种图像识别方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1877598A (zh) * 2005-06-06 2006-12-13 英华达(上海)电子有限公司 手机中使用图像识别进行名片信息的采集与录入的方法
CN103065144A (zh) * 2012-12-30 2013-04-24 信帧电子技术(北京)有限公司 车标识别方法及装置
CN103634120A (zh) * 2013-12-18 2014-03-12 上海市数字证书认证中心有限公司 基于人脸识别的实名认证方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1877598A (zh) * 2005-06-06 2006-12-13 英华达(上海)电子有限公司 手机中使用图像识别进行名片信息的采集与录入的方法
CN103065144A (zh) * 2012-12-30 2013-04-24 信帧电子技术(北京)有限公司 车标识别方法及装置
CN103634120A (zh) * 2013-12-18 2014-03-12 上海市数字证书认证中心有限公司 基于人脸识别的实名认证方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Block adaptive binarisation of ill一conditioned business card images acpuired in a PDA using a modified puadratic filter";K.T.Shin et al.;《IET Image Processing 》;20070410;第56-66页 *
"灰度名片图像快速倾斜检测和校正方法";卜飞宇 等;《中文信息学报》;20040229;第18卷(第1期);第62-69页 *

Also Published As

Publication number Publication date
CN104239853A (zh) 2014-12-24

Similar Documents

Publication Publication Date Title
CN104239853B (zh) 一种图像的处理方法和装置
US10664581B2 (en) Biometric-based authentication method, apparatus and system
US9373030B2 (en) Automated document recognition, identification, and data extraction
US10635946B2 (en) Eyeglass positioning method, apparatus and storage medium
CN105740689B (zh) 一种解锁控制方法及终端设备
WO2019237549A1 (zh) 验证码识别方法、装置、计算机设备及存储介质
CN106295672B (zh) 一种人脸识别方法及装置
WO2019033572A1 (zh) 人脸遮挡检测方法、装置及存储介质
HUE031428T2 (en) Process, system and computer program to compare images
CN112669515B (zh) 票据图像识别方法、装置、电子设备和存储介质
CN109635625B (zh) 智能身份核验方法、设备、存储介质及装置
CN112966685B (zh) 用于场景文本识别的攻击网络训练方法、装置及相关设备
CN107092602A (zh) 一种自动应答方法及系统
CN110059541A (zh) 一种驾驶中的手机使用行为检测方法及装置
CN105407069B (zh) 活体认证方法、装置、客户端设备及服务器
Gunawan et al. Performance Evaluation of Automatic Number Plate Recognition on Android Smartphone Platform.
CN106600845A (zh) 吞卡自助取回的方法及装置
CN110414522A (zh) 一种字符识别方法及装置
CN110942063A (zh) 证件文字信息获取方法、装置以及电子设备
CN109492532A (zh) 一种图像ai识别的方法、装置和系统
CN111241930A (zh) 一种用于人脸识别的方法及系统
CN108334602B (zh) 数据标注方法和装置、电子设备、计算机存储介质
CN106599889A (zh) 一种识别字符的方法和装置
WO2023024424A1 (zh) 分割网络训练方法、使用方法、装置、设备及存储介质
CN111797922B (zh) 文本图像分类方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 100193 Haidian District, Beijing, Northeast China, Beijing Zhongguancun Software Park incubator 2 floor 1.

Patentee after: Beijing InfoQuick SinoVoice Speech Technology Corp.

Address before: 100193 two, 206-1, Zhongguancun Software Park, 8 Northeast Northeast Road, Haidian District, Beijing, 206-1

Patentee before: Jietong Huasheng Speech Technology Co., Ltd.

CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: Building 2102, building 1, Haidian District, Beijing

Patentee after: BEIJING SINOVOICE TECHNOLOGY Co.,Ltd.

Address before: 100193 Haidian District, Beijing, Northeast China, Beijing Zhongguancun Software Park incubator 2 floor 1.

Patentee before: BEIJING SINOVOICE TECHNOLOGY Co.,Ltd.