CN107229932A - 一种图像文本的识别方法和装置 - Google Patents

一种图像文本的识别方法和装置 Download PDF

Info

Publication number
CN107229932A
CN107229932A CN201610179262.8A CN201610179262A CN107229932A CN 107229932 A CN107229932 A CN 107229932A CN 201610179262 A CN201610179262 A CN 201610179262A CN 107229932 A CN107229932 A CN 107229932A
Authority
CN
China
Prior art keywords
pixel
text filed
text
value
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610179262.8A
Other languages
English (en)
Other versions
CN107229932B (zh
Inventor
毛旭东
施兴
褚崴
程孟力
周文猛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201610179262.8A priority Critical patent/CN107229932B/zh
Priority to TW106105136A priority patent/TWI774659B/zh
Priority to PCT/CN2017/076548 priority patent/WO2017162069A1/zh
Publication of CN107229932A publication Critical patent/CN107229932A/zh
Application granted granted Critical
Publication of CN107229932B publication Critical patent/CN107229932B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/32Normalisation of the pattern dimensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters

Abstract

本申请实施例提供了一种图像文本的识别方法和装置,所述方法包括:获取待识别的图像,所述图像包括多个像素点;根据所述多个像素点,确定所述图像的第一文本区域;按照预设规则,从所述第一文本区域中提取出第二文本区域;对所述第二文本区域进行识别,能够有效地去除待识别的图像中的噪声,大大提高了识别的准确率。

Description

一种图像文本的识别方法和装置
技术领域
本申请涉及文字识别技术领域,特别是涉及一种图像文本的识别方法和一种图像文本的识别装置。
背景技术
模式识别技术的研究目的是根据人类大脑的识别机理,通过计算机模拟,构造出能代替人类完成分类和辨识的任务,进而进行自动信息处理的机器系统。其中,汉字识别便是模式识别应用的一个重要领域,最典型的就是身份证识别,自动识别姓名、身份证号码、地址、性别等信息。
传统的汉字识别方法主要是通过对图像进行预处理,比如灰度化、降噪等,并基于传统的图像特征抽取,然后再采用支持向量机SVM、神经网络等分类器训练汉字识别模型来进行的。传统的汉字识别通常基于人工经验提取图像特征,不具备一定的噪声抗干扰能力。因此,当噪声干扰较大时,会导致汉字的识别率较低。近年来,随着卷积神经网络CNN在计算机视觉领域取得巨大成功,CNN也被应用于汉字识别。CNN的识别效果,相比于传统方法,准确率有了很大的提高。
但是,对于汉字识别,最大的问题在于汉字的多样性,特别是形近字较多,传统的汉字识别方法,对于形近字几乎无能为力。很多汉字加一个偏旁就是另外一个字,比如“可”与“何”。如果输入的图片是“可”,但是在图片的左侧又存在一些小噪声,由于CNN对位置信息还是比较敏感,特别是在输入数据不够充分的情况下,现有的利用CNN识别汉字的方法会很难区分输入图片的到底是“可”还是“何”。因此,现有的利用CNN进行汉字识别的方法仍然不能很好的解决形近字的识别的问题。
发明内容
鉴于上述问题,提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种图像文本的识别方法和相应的一种图像文本的识别装置。
为了解决上述问题,本申请公开了一种图像文本的识别方法,包括:
获取待识别的图像,所述图像包括多个像素点;
根据所述多个像素点,确定所述图像的第一文本区域;
按照预设规则,从所述第一文本区域中提取出第二文本区域;
对所述第二文本区域进行识别。
可选地,所述根据所述多个像素点,确定所述图像的第一文本区域的步骤包括:
针对所述多个像素点,计算所述图像的直方图,所述直方图具有对应的多个特征值;
根据所述多个特征值,对所述直方图进行对比度归一化处理,获得对比度归一化处理结果;
对所述对比度归一化处理结果进行二值化处理,获得所述图像的第一文本区域。
可选地,所述根据所述多个特征值,对所述直方图进行对比度归一化处理,获得对比度归一化处理结果的步骤包括:
按比例调整所述多个特征值,使调整后的多个特征值的和为特定数值;
采用累积分布函数对所述调整后的多个特征值进行变换,获得变换后的多个特征值;
分别将所述变换后的多个特征值映射到所述多个像素点,获得所述多个像素点的映射像素值。
可选地,所述对所述对比度归一化处理结果进行二值化处理,获得所述图像的第一文本区域的步骤包括:
分别判断所述图像中的多个像素点的映射像素值是否大于第一预设阈值;
若是,则将所述像素点标记为第一背景区域像素点;
若否,则将所述像素点标记为第一文本区域像素点;
从所述图像中提取出包含全部第一文本区域像素点的面积最小的外接矩形。
可选地,在所述按照预设规则,从所述第一文本区域中提取出第二文本区域的步骤前,还包括:
对所述第一文本区域进行二值化处理。
可选地,所述对所述第一文本区域进行二值化处理的步骤包括:
分别判断所述第一文本区域中的多个像素点的映射像素值是否大于第二预设阈值;
若是,则将所述像素点标记为第二背景区域像素点;
若否,则将所述像素点标记为第二文本区域像素点;
可选地,所述按照预设规则,从所述第一文本区域中提取出第二文本区域的步骤包括:
确定所述第一文本区域中的多个连通区域;
分别判断所述多个连通区域是否满足预设规则;
若是,则提取出相对应的多个连通区域作为第二文本区域。
可选地,所述确定所述第一文本区域中的多个连通区域的步骤包括:
遍历所述第二文本区域像素点;
将当前第二文本区域像素点与相邻的第二文本区域像素点相连,获得以第二文本区域像素点为顶点的多边形;
将包含所述多边形的面积最小的外接矩形确定为连通区域。
可选地,所述对所述第二文本区域进行识别的步骤包括:
采用卷积神经网络CNN汉字识别模型对所述第二文本区域进行识别。
为了解决上述问题,本申请公开了一种图像文本的识别装置,包括:
获取模块,用于获取待识别的图像,所述图像包括多个像素点;
确定模块,用于根据所述多个像素点,确定所述图像的第一文本区域;
提取模块,用于按照预设规则,从所述第一文本区域中提取出第二文本区域;
识别模块,用于对所述第二文本区域进行识别。
可选地,所述确定模块包括:
直方图计算子模块,用于针对所述多个像素点,计算所述图像的直方图,所述直方图具有对应的多个特征值;
对比度归一化处理子模块,用于根据所述多个特征值,对所述直方图进行对比度归一化处理,获得对比度归一化处理结果;
第一文本区域获得子模块,用于对所述对比度归一化处理结果进行二值化处理,获得所述图像的第一文本区域。
可选地,所述对比度归一化处理子模块包括:
特征值调整单元,用于按比例调整所述多个特征值,使调整后的多个特征值的和为特定数值;
特征值变换单元,用于采用累积分布函数对所述调整后的多个特征值进行变换,获得变换后的多个特征值;
特征值映射单元,用于分别将所述变换后的多个特征值映射到所述多个像素点,获得所述多个像素点的映射像素值。
可选地,所述第一文本区域获得子模块包括:
第一预设阈值判断单元,用于分别判断所述图像中的多个像素点的映射像素值是否大于第一预设阈值;
第一背景区域像素点标记单元,用于在所述像素点的映射像素值大于第一预设阈值时,将所述像素点标记为第一背景区域像素点;
第一文本区域像素点标记单元,用于在所述像素点的映射像素值不大于第一预设阈值时,将将所述像素点标记为第一文本区域像素点;
第一文本区域提取单元,用于从所述图像中提取出包含全部第一文本区域像素点的面积最小的外接矩形。
可选地,所述装置还包括:
二值化处理模块,用于对所述第一文本区域进行二值化处理。
可选地,所述二值化处理模块包括:
第二预设阈值判断子模块,用于分别判断所述第一文本区域中的多个像素点的映射像素值是否大于第二预设阈值;
第二背景区域像素点标记子模块,用于在所述像素点的映射像素值大于第二预设阈值时,将所述像素点标记为第二背景区域像素点;
第二文本区域像素点标记子模块,用于在所述像素点的映射像素值不大于第二预设阈值时,将将所述像素点标记为第二文本区域像素点;
可选地,所述提取模块包括:
连通区域确定子模块,用于确定所述第一文本区域中的多个连通区域;
预设规则判断子模块,用于分别判断所述多个连通区域是否满足预设规则;
第二文本区域提取子模块,用于在所述多个连通区域满足预设规则时,提取出相对应的多个连通区域作为第二文本区域。
可选地,所述连通区域确定子模块包括:
第二文本区域像素点遍历单元,用于遍历所述第二文本区域像素点;
第二文本区域像素点连接单元,用于将当前第二文本区域像素点与相邻的第二文本区域像素点相连,获得以第二文本区域像素点为顶点的多边形;
连通区域确定单元,用于将包含所述多边形的面积最小的外接矩形确定为连通区域。
可选地,所述识别模块包括:
识别子模块,用于采用卷积神经网络CNN汉字识别模型对所述第二文本区域进行识别。
与背景技术相比,本申请实施例包括以下优点:
本申请实施例通过对待识别的图像进行对比度归一化处理以及二值化处理,从而提取出第一文本区域,然后在确定第一文本区域的连通区域基础上,获得第二文本区域,有效地去除了待识别的图像中的噪声,并通过对所述第二文本区域进行识别来实现对图像文本的识别,避免了噪声对图像文本识别的干扰,大大提高了识别的准确率。
其次,在本申请实施例中,对于在身份证、护照等字体单一、背景简单的文本识别场景中,通过对待识别图像进行空间归一化处理,能够将训练数据和测试数据在空间上尽可能的统一,使得形近字在空间归一化后,具有不同的表现特征,使得CNN汉字识别模型能够更准确的识别形近字。
附图说明
图1是本申请的一种图像文本的识别方法实施例一的步骤流程图;
图2是本申请的一种图像文本的识别方法实施例二的步骤流程图;
图3是本申请的一种图像文本的识别装置实施例的结构框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
参照图1,示出了本申请的一种图像文本的识别方法实施例一的步骤流程图,具体可以包括如下步骤:
步骤101,获取待识别的图像;
在本申请实施例中,所述待识别的图像可以是各类证件图像,例如身份证、护照等。其中,所述图像包括有多个像素点,像素点是指把某一图像分割成若干个小方格,每个小方格便被称为一个像素点,由这些像素点排列组成的栅格被称为“光栅”,计算机可以通过表示这些像素点的位置、颜色、亮度等信息,从而表示出整幅图像。
通常,各类证件中的文本都有别于其他自然场景的汉字识别。证件中的文本的特点是:1)文本都是印刷体;2)文本都是单一(或种类不多)的字体,例如都是宋体字,或都是宋体字或楷体字;3)图像背景简单。
步骤102,根据所述多个像素点,确定所述图像的第一文本区域;
通常,为了对图像中的文本进行识别,可以首先根据所述多个像素点,排除一些背景区域,以确定出所述图像的第一文本区域。
在本申请实施例中,所述第一文本区域可以是经过初步筛选而确定的包括文本信息的区域,从而有助于进一步地有针对性地对相应区域的文本进行识别。
在本申请的一种优选实施例中,所述根据所述多个像素点,确定所述图像的第一文本区域的步骤具体可以包括如下子步骤:
子步骤1021,针对所述多个像素点,计算所述图像的直方图;
在具体实现中,当获得待识别的图像后,可以首先针对图像中的多个像素点,计算出所述图像的直方图。直方图是一种用来描述图像灰度值的图,可以把一定范围内的图像数据显示出来,通过查看图像的直方图,可以了解图像的曝光情况,或者画面是否柔和等。所述直方图可以具有对应的多个特征值,即表示不同亮度的RGB数值。
一般地,直方图的横轴可以用来表示图像亮度的变化,纵轴用来表示像素的多少。直方图的横轴从左到右表示亮度越来越高,从0到255,其中,0表示黑,255表示白。如果某个地方的峰越高,则说明在这个亮度下的像素越多。
子步骤1022,根据所述多个特征值,对所述直方图进行对比度归一化处理,获得对比度归一化处理结果;
在具体实现中,对所述直方图进行对比度归一化处理可以首先按比例对直方图的多个特征值进行调整,使调整后的多个特征值的和为255。例如,若经过求和,得到所述直方图的多个特征值的和为765,则可以将每个特征值乘以1/3,从而使得调整后的多个特征值的和为255(765*1/3=255);如果所述脂肪图的多个特征值的和小于255,则可以按比例扩大每个特征值,使调整后的多个特征值的和满足上述要求。
然后,可以采用累积分布函数对所述调整后的多个特征值进行变换,得到变换后的多个特征值。累积分布函数是概率密度函数的积分,能够完整描述一个实数随机变量X的概率分布情况。
进而,可以将获得的变换后的多个特征值作为映射表,将变换后的多个特征值分别映射到所述图像的多个像素点,以变换后的特征值作为所述多个像素点的映射像素值,从而替换所述像素点原有的像素值。
子步骤1023,对所述对比度归一化处理结果进行二值化处理,获得所述图像的第一文本区域。
在本申请实施例中,可以首先遍历所述多个像素点的映射像素值,分别判断其映射像素值是否大于第一预设阈值,若是,则可以将所述像素点标记为第一背景区域像素点;若否,则可以将所述像素点标记为第一文本区域像素点;然后从所述图像中提取出包含全部第一文本区域像素点的面积最小的外接矩形,所述外接矩形即为所述图像的第一文本区域。
在具体实现中,所述第一预设阈值可以通过大津算法(OTSU算法)计算得到。大津算法是一种对图像进行二值化的高效算法,使用聚类的思想,通过把图像的灰度数按灰度级分成两个部分,使得两个部分之间的灰度值差异最大,每个部分之间的灰度差异最小,然后通过方差的计算来寻找一个合适的灰度级别来划分。因此,可以在二值化的时候,采用大津算法来自动选取阈值进行二值化。大津算法被认为是图像分割中阈值选取的最佳算法,计算简单,不受图像亮度和对比度的影响。
步骤103,按照预设规则,从所述第一文本区域中提取出第二文本区域;
在本申请实施例中,当从所述图像中提取出第一文本区域后,可以继续对所述第一文本区域进行筛选,以进一步排除背景区域,得到包含文本信息的第二文本区域。
在本申请的一种优选实施例中,在所述按照预设规则,从所述第一文本区域中提取出第二文本区域的步骤前,还可以包括如下:
对所述第一文本区域进行二值化处理。
在具体实现中,可以继续按照步骤102中的方法对第一文本区域进行第二次二值化处理,从而标记出第二文本区域像素点,然后基于第二文本区域像素点,提取第二文本区域。
在本申请的一种优选实施例中,所述按照预设规则,从所述第一文本区域中提取出第二文本区域的步骤具体可以包括如下子步骤:
子步骤1031,确定所述第一文本区域中的多个连通区域;
子步骤1032,分别判断所述多个连通区域是否满足预设规则,若是,则提取出相对应的多个连通区域作为第二文本区域。
在具体实现中,可以基于第二次二值化处理标记的第二文本区域像素点,采用连通图算法确定出所述第一文本区域中的多个连通区域。具体地,如下伪代码是本申请实施例中采用的连通图算法的一种示例:
然后,可以分别对每个连通区域进行判断,删除不满足预设规则的连通区域,从而得到第二文本区域。
在本申请实施例中,所述不满足预设规则的连通区域可以包括面积太小的连通区域,以及离最大连通区域距离较大的连通区域。
步骤104,对所述第二文本区域进行识别。
通常,在对待识别的图像完成步骤102和步骤103的处理后,已基本达到去除噪声的目的,从而可以对第二文本区域进行识别,获得待识别的图像中的文本信息。
在本申请实施例中,通过对待识别的图像进行对比度归一化处理以及二值化处理,从而提取出第一文本区域,然后在确定第一文本区域的连通区域基础上,获得第二文本区域,有效地去除了待识别的图像中的噪声,并通过对所述第二文本区域进行识别来实现对图像文本的识别,避免了噪声对图像文本识别的干扰,大大提高了识别的准确率。
参照图2,示出了本申请的一种图像文本的识别方法实施例二的步骤流程图,具体可以包括如下步骤:
步骤201,获取待识别的图像;
在本申请实施例中,所述待识别的图像可以是各类证件图像,例如身份证、护照等。通常,各类证件图像中的文本都有别于其他自然场景的汉字识别。证件中的文本的特点是:1)文本都是印刷体;2)文本都是单一(或种类不多)的字体,例如都是宋体字,或都是宋体字或楷体字;3)图像背景简单。因此,基于空间归一化操作的图像文本识别可以应用于证件识别的场景中。
步骤202,针对所述多个像素点,计算所述图像的直方图;
每一张图像都包括有多个像素点,计算机可以通过表示这些像素点的位置、颜色、亮度等信息,从而表示出整幅图像。因此,在本申请实施例中,可以针对所述多个像素点,计算出所述图像的直方图。
步骤203,根据所述多个特征值,对所述直方图进行对比度归一化处理,获得对比度归一化处理结果;
在本申请的一种优选实施例中,所述根据所述多个特征值,对所述直方图进行对比度归一化处理,获得对比度归一化处理结果的步骤具体可以包括如下子步骤:
子步骤2031,按比例调整所述多个特征值,使调整后的多个特征值的和为特定数值;
子步骤2032,采用累积分布函数对所述调整后的多个特征值进行变换,获得变换后的多个特征值;
子步骤2033,分别将所述变换后的多个特征值映射到所述多个像素点,获得所述多个像素点的映射像素值。
在具体实现中,对所述直方图进行对比度归一化处理可以首先按比例对直方图的多个特征值进行调整,使调整后的多个特征值的和为255。例如,若经过求和,得到所述直方图的多个特征值的和为765,则可以将每个特征值乘以1/3,从而使得调整后的多个特征值的和为255(765*1/3=255);如果所述脂肪图的多个特征值的和小于255,则可以按比例扩大每个特征值,使调整后的多个特征值的和满足上述要求。
然后,可以采用累积分布函数对所述调整后的多个特征值进行变换,得到变换后的多个特征值。累积分布函数是概率密度函数的积分,能够完整描述一个实数随机变量X的概率分布情况。即,第j个特征值变换后的对应的值应该为在其前面的全部特征值之和。
进而,可以将获得的变换后的多个特征值作为映射表,将变换后的多个特征值分别映射到所述图像的多个像素点,以变换后的特征值作为所述多个像素点的映射像素值,从而替换所述像素点原有的像素值。
步骤204,对所述对比度归一化处理结果进行二值化处理,获得所述图像的第一文本区域;
在具体实现中,可以采用大津算法(OTSU算法)计算出第一预设阈值,通过将每个像素点的映射像素值与第一预设阈值进行比较,从而获得所述图像的第一文本区域。
在本申请的一种优选实施例中,所述对所述对比度归一化处理结果进行二值化处理,获得所述图像的第一文本区域的步骤具体可以包括如下子步骤:
子步骤2041,分别判断所述图像中的多个像素点的映射像素值是否大于第一预设阈值;
子步骤2042,若是,则将所述像素点标记为第一背景区域像素点;
子步骤2043,若否,则将所述像素点标记为第一文本区域像素点;
子步骤2044,从所述图像中提取出包含全部第一文本区域像素点的面积最小的外接矩形。
在具体实现中,可以分别将每个像素点的映射像素值与第一预设阈值进行比较,若所述映射像素值大于第一预设阈值,则可以标记所述像素点为第一背景区域像素点,例如标记dst(x,y)=1,若所述映射像素值不大于第一预设阈值,则可以标记所述像素点为第一文本区域像素点,例如标记dst(x,y)=0。
然后,在所述图像中找到一个面积最小的并且能将所有的dst(x,y)=0的像素点包含在内的矩形。所述矩形内的图像就是一阶空间归一化的结果,即第一文本区域。
步骤205,对所述第一文本区域进行二值化处理;
在本申请实施例中,对第一文本区域进行二值化处理的过程与步骤204相同,即所述对所述第一文本区域进行二值化处理的步骤具体可以包括如下子步骤:
子步骤2051,分别判断所述第一文本区域中的多个像素点的映射像素值是否大于第二预设阈值;
子步骤2052,若是,则将所述像素点标记为第二背景区域像素点;
子步骤2053,若否,则将所述像素点标记为第二文本区域像素点;
需要注意的是,在对第一文本区域进行第二次二值化处理时,需要重新计算预设阈值,即,需要通过大津算法(OTSU算法)计算出第二预设阈值,通过将每个像素点的映射像素值与第二预设阈值进行比较,从而标记出第二背景区域像素点以及第二文本区域像素点。例如若所述映射像素值大于第二预设阈值,则可以标记所述像素点为第二背景区域像素点,标记dst(x,y)=1,若所述映射像素值不大于第二预设阈值,则可以标记所述像素点为第二文本区域像素点,标记dst(x,y)=0。
步骤206,确定所述第一文本区域中的多个连通区域;
在本申请实施例中,可以基于第二次二值化处理标记的第二文本区域像素点,采用连通图算法确定出所述第一文本区域中的多个连通区域。
在本申请的一种优选实施例中,所述确定所述第一文本区域中的多个连通区域的步骤具体可以包括如下子步骤:
子步骤2061,遍历所述第二文本区域像素点;
子步骤2062,将当前第二文本区域像素点与相邻的第二文本区域像素点相连,获得以第二文本区域像素点为顶点的多边形;
子步骤2063,将包含所述多边形的面积最小的外接矩形确定为连通区域。
在具体实现中,可以遍历所述第二文本区域像素点,即在步骤205中二值化处理时,被标记为dst(x,y)=0的像素点,将当前第二文本区域像素点与相邻的第二文本区域像素点相连,得到一个全部以第二文本区域像素点为顶点的多边形,然后,在所述第一文本区域中找到一个面积最小的并且能将所述多边形包含在内的矩形。所述矩形内的图像就是一个连通区域。
步骤207,分别判断所述多个连通区域是否满足预设规则;
在本申请实施例中,在确定出全部的连通区域后,可以逐个判断所述连通区域是否满足预设规则,如果某一连通区域不满足预设规则,则可以将该连通区域删除,从而最终得到由剩余的多个满足预设规则的连通区域组成的第二文本区域。
在具体实现中,所述不满足预设规则的连通区域可以包括面积太小的连通区域,以及离最大连通区域距离较大的连通区域。例如,面积小于2*2像素的连通区域,以及,离最大连通区域距离大于0.06的连通区域。
步骤208,提取出相对应的多个连通区域作为第二文本区域;
步骤209,采用卷积神经网络CNN汉字识别模型对所述第二文本区域进行识别。
在本申请实施例中,当获得第二文本区域图像后,可以采用卷积神经网络CNN汉字识别模型对所述第二文本区域进行识别。卷积神经网络(Convolutional Neural Network,CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有着出色的表现。
在具体实现中,可以利用上述步骤201至步骤208所述的方法对训练数据进行空间归一化操作,并用于CNN汉字识别模型的训练,从而得到卷积神经网络CNN汉字识别模型。然后在图像文本识别任务中,给定一张待识别的图像,利用训练好的CNN汉字识别模型进行识别。
在本申请实施例中,对于在身份证、护照等字体单一、背景简单的文本识别场景中,通过对待识别图像进行空间归一化处理,能够将训练数据和测试数据在空间上尽可能的统一,使得形近字在空间归一化后,具有不同的表现特征,使得CNN汉字识别模型能够更准确的识别形近字。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施例所必须的。
参照图3,示出了本申请的一种图像文本的识别装置实施例的结构框图,具体可以包括如下模块:
获取模块301,用于获取待识别的图像,所述图像包括多个像素点;
确定模块302,用于根据所述多个像素点,确定所述图像的第一文本区域;
提取模块303,用于按照预设规则,从所述第一文本区域中提取出第二文本区域;
识别模块304,用于对所述第二文本区域进行识别。
在本申请实施例中,所述确定模块302具体可以包括如下子模块:
直方图计算子模块3021,用于针对所述多个像素点,计算所述图像的直方图,所述直方图具有对应的多个特征值;
对比度归一化处理子模块3022,用于根据所述多个特征值,对所述直方图进行对比度归一化处理,获得对比度归一化处理结果;
第一文本区域获得子模块3023,用于对所述对比度归一化处理结果进行二值化处理,获得所述图像的第一文本区域。
在本申请实施例中,所述对比度归一化处理子模块3022具体可以包括如下单元:
特征值调整单元221,用于按比例调整所述多个特征值,使调整后的多个特征值的和为特定数值;
特征值变换单元222,用于采用累积分布函数对所述调整后的多个特征值进行变换,获得变换后的多个特征值;
特征值映射单元223,用于分别将所述变换后的多个特征值映射到所述多个像素点,获得所述多个像素点的映射像素值。
在本申请实施例中,所述第一文本区域获得子模块3023具体可以包括如下单元:
第一预设阈值判断单元231,用于分别判断所述图像中的多个像素点的映射像素值是否大于第一预设阈值;
第一背景区域像素点标记单元232,用于在所述像素点的映射像素值大于第一预设阈值时,将所述像素点标记为第一背景区域像素点;
第一文本区域像素点标记单元233,用于在所述像素点的映射像素值不大于第一预设阈值时,将将所述像素点标记为第一文本区域像素点;
第一文本区域提取单元234,用于从所述图像中提取出包含全部第一文本区域像素点的面积最小的外接矩形。
在本申请实施例中,所述装置还可以包括如下模块:
二值化处理模块305,用于对所述第一文本区域进行二值化处理。
在本申请实施例中,所述二值化处理模块305具体可以包括如下子模块:
第二预设阈值判断子模块3051,用于分别判断所述第一文本区域中的多个像素点的映射像素值是否大于第二预设阈值;
第二背景区域像素点标记子模块3052,用于在所述像素点的映射像素值大于第二预设阈值时,将所述像素点标记为第二背景区域像素点;
第二文本区域像素点标记子模块3053,用于在所述像素点的映射像素值不大于第二预设阈值时,将将所述像素点标记为第二文本区域像素点;
在本申请实施例中,所述提取模块303具体可以包括如下子模块:
连通区域确定子模块3031,用于确定所述第一文本区域中的多个连通区域;
预设规则判断子模块3032,用于分别判断所述多个连通区域是否满足预设规则;
第二文本区域提取子模块3033,用于在所述多个连通区域满足预设规则时,提取出相对应的多个连通区域作为第二文本区域。
在本申请实施例中,所述连通区域确定子模块3031具体可以包括如下单元:
第二文本区域像素点遍历单元311,用于遍历所述第二文本区域像素点;
第二文本区域像素点连接单元312,用于将当前第二文本区域像素点与相邻的第二文本区域像素点相连,获得以第二文本区域像素点为顶点的多边形;
连通区域确定单元313,用于将包含所述多边形的面积最小的外接矩形确定为连通区域。
在本申请实施例中,所述识别模块304具体可以包括如下子模块:
识别子模块3041,用于采用卷积神经网络CNN汉字识别模型对所述第二文本区域进行识别。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
在一个典型的配置中,所述计算机设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非持续性的电脑可读媒体(transitory media),如调制的数据信号和载波。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种图像文本的识别方法和一种图像文本的识别装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (18)

1.一种图像文本的识别方法,其特征在于,包括:
获取待识别的图像,所述图像包括多个像素点;
根据所述多个像素点,确定所述图像的第一文本区域;
按照预设规则,从所述第一文本区域中提取出第二文本区域;
对所述第二文本区域进行识别。
2.根据权利要求1所述的方法,其特征在于,所述根据所述多个像素点,确定所述图像的第一文本区域的步骤包括:
针对所述多个像素点,计算所述图像的直方图,所述直方图具有对应的多个特征值;
根据所述多个特征值,对所述直方图进行对比度归一化处理,获得对比度归一化处理结果;
对所述对比度归一化处理结果进行二值化处理,获得所述图像的第一文本区域。
3.根据权利要求2所述的方法,其特征在于,所述根据所述多个特征值,对所述直方图进行对比度归一化处理,获得对比度归一化处理结果的步骤包括:
按比例调整所述多个特征值,使调整后的多个特征值的和为特定数值;
采用累积分布函数对所述调整后的多个特征值进行变换,获得变换后的多个特征值;
分别将所述变换后的多个特征值映射到所述多个像素点,获得所述多个像素点的映射像素值。
4.根据权利要求3所述的方法,其特征在于,所述对所述对比度归一化处理结果进行二值化处理,获得所述图像的第一文本区域的步骤包括:
分别判断所述图像中的多个像素点的映射像素值是否大于第一预设阈值;
若是,则将所述像素点标记为第一背景区域像素点;
若否,则将所述像素点标记为第一文本区域像素点;
从所述图像中提取出包含全部第一文本区域像素点的面积最小的外接矩形。
5.根据权利要求1-4任一所述的方法,其特征在于,在所述按照预设规则,从所述第一文本区域中提取出第二文本区域的步骤前,还包括:
对所述第一文本区域进行二值化处理。
6.根据权利要求5所述的方法,其特征在于,所述对所述第一文本区域进行二值化处理的步骤包括:
分别判断所述第一文本区域中的多个像素点的映射像素值是否大于第二预设阈值;
若是,则将所述像素点标记为第二背景区域像素点;
若否,则将所述像素点标记为第二文本区域像素点;
7.根据权利要求6所述的方法,其特征在于,所述按照预设规则,从所述第一文本区域中提取出第二文本区域的步骤包括:
确定所述第一文本区域中的多个连通区域;
分别判断所述多个连通区域是否满足预设规则;
若是,则提取出相对应的多个连通区域作为第二文本区域。
8.根据权利要求7所述的方法,其特征在于,所述确定所述第一文本区域中的多个连通区域的步骤包括:
遍历所述第二文本区域像素点;
将当前第二文本区域像素点与相邻的第二文本区域像素点相连,获得以第二文本区域像素点为顶点的多边形;
将包含所述多边形的面积最小的外接矩形确定为连通区域。
9.根据权利要求1或2或3或4或6或7或8所述的方法,其特征在于,所述对所述第二文本区域进行识别的步骤包括:
采用卷积神经网络CNN汉字识别模型对所述第二文本区域进行识别。
10.一种图像文本的识别装置,其特征在于,包括:
获取模块,用于获取待识别的图像,所述图像包括多个像素点;
确定模块,用于根据所述多个像素点,确定所述图像的第一文本区域;
提取模块,用于按照预设规则,从所述第一文本区域中提取出第二文本区域;
识别模块,用于对所述第二文本区域进行识别。
11.根据权利要求10所述的装置,其特征在于,所述确定模块包括:
直方图计算子模块,用于针对所述多个像素点,计算所述图像的直方图,所述直方图具有对应的多个特征值;
对比度归一化处理子模块,用于根据所述多个特征值,对所述直方图进行对比度归一化处理,获得对比度归一化处理结果;
第一文本区域获得子模块,用于对所述对比度归一化处理结果进行二值化处理,获得所述图像的第一文本区域。
12.根据权利要求11所述的装置,其特征在于,所述对比度归一化处理子模块包括:
特征值调整单元,用于按比例调整所述多个特征值,使调整后的多个特征值的和为特定数值;
特征值变换单元,用于采用累积分布函数对所述调整后的多个特征值进行变换,获得变换后的多个特征值;
特征值映射单元,用于分别将所述变换后的多个特征值映射到所述多个像素点,获得所述多个像素点的映射像素值。
13.根据权利要求12所述的装置,其特征在于,所述第一文本区域获得子模块包括:
第一预设阈值判断单元,用于分别判断所述图像中的多个像素点的映射像素值是否大于第一预设阈值;
第一背景区域像素点标记单元,用于在所述像素点的映射像素值大于第一预设阈值时,将所述像素点标记为第一背景区域像素点;
第一文本区域像素点标记单元,用于在所述像素点的映射像素值不大于第一预设阈值时,将将所述像素点标记为第一文本区域像素点;
第一文本区域提取单元,用于从所述图像中提取出包含全部第一文本区域像素点的面积最小的外接矩形。
14.根据权利要求10-13任一所述的装置,其特征在于,还包括:
二值化处理模块,用于对所述第一文本区域进行二值化处理。
15.根据权利要求14所述的装置,其特征在于,所述二值化处理模块包括:
第二预设阈值判断子模块,用于分别判断所述第一文本区域中的多个像素点的映射像素值是否大于第二预设阈值;
第二背景区域像素点标记子模块,用于在所述像素点的映射像素值大于第二预设阈值时,将所述像素点标记为第二背景区域像素点;
第二文本区域像素点标记子模块,用于在所述像素点的映射像素值不大于第二预设阈值时,将将所述像素点标记为第二文本区域像素点;
16.根据权利要求15所述的装置,其特征在于,所述提取模块包括:
连通区域确定子模块,用于确定所述第一文本区域中的多个连通区域;
预设规则判断子模块,用于分别判断所述多个连通区域是否满足预设规则;
第二文本区域提取子模块,用于在所述多个连通区域满足预设规则时,提取出相对应的多个连通区域作为第二文本区域。
17.根据权利要求16所述的装置,其特征在于,所述连通区域确定子模块包括:
第二文本区域像素点遍历单元,用于遍历所述第二文本区域像素点;
第二文本区域像素点连接单元,用于将当前第二文本区域像素点与相邻的第二文本区域像素点相连,获得以第二文本区域像素点为顶点的多边形;
连通区域确定单元,用于将包含所述多边形的面积最小的外接矩形确定为连通区域。
18.根据权利要求10或11或12或13或15或16或17所述的装置,其特征在于,所述识别模块包括:
识别子模块,用于采用卷积神经网络CNN汉字识别模型对所述第二文本区域进行识别。
CN201610179262.8A 2016-03-25 2016-03-25 一种图像文本的识别方法和装置 Active CN107229932B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201610179262.8A CN107229932B (zh) 2016-03-25 2016-03-25 一种图像文本的识别方法和装置
TW106105136A TWI774659B (zh) 2016-03-25 2017-02-16 圖像文字的識別方法和裝置
PCT/CN2017/076548 WO2017162069A1 (zh) 2016-03-25 2017-03-14 一种图像文本的识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610179262.8A CN107229932B (zh) 2016-03-25 2016-03-25 一种图像文本的识别方法和装置

Publications (2)

Publication Number Publication Date
CN107229932A true CN107229932A (zh) 2017-10-03
CN107229932B CN107229932B (zh) 2021-05-28

Family

ID=59899251

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610179262.8A Active CN107229932B (zh) 2016-03-25 2016-03-25 一种图像文本的识别方法和装置

Country Status (3)

Country Link
CN (1) CN107229932B (zh)
TW (1) TWI774659B (zh)
WO (1) WO2017162069A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109409377A (zh) * 2018-12-03 2019-03-01 龙马智芯(珠海横琴)科技有限公司 图像中文字的检测方法及装置
CN110569835A (zh) * 2018-06-06 2019-12-13 北京搜狗科技发展有限公司 一种图像识别方法、装置和电子设备
CN110717486A (zh) * 2018-07-13 2020-01-21 杭州海康威视数字技术股份有限公司 文本检测方法、装置、电子设备和存储介质
CN110858404A (zh) * 2018-08-22 2020-03-03 福州瑞芯微电子股份有限公司 一种基于区域偏移的识别方法及终端
CN111523315A (zh) * 2019-01-16 2020-08-11 阿里巴巴集团控股有限公司 数据处理方法、文本识别方法、装置及计算机设备
WO2020253724A1 (zh) * 2019-06-18 2020-12-24 京东方科技集团股份有限公司 待清洁区域确定方法和装置、灰尘清理设备、控制清洁机器人的终端和存储介质
CN113903043A (zh) * 2021-12-11 2022-01-07 绵阳职业技术学院 一种基于孪生度量模型的印刷汉字字体识别方法
CN115429157A (zh) * 2022-08-29 2022-12-06 广州宝乐软件科技有限公司 清扫范围的确定方法、装置、清洁机器人和存储介质

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107748888B (zh) * 2017-10-13 2019-11-08 众安信息技术服务有限公司 一种图像文本行检测方法及装置
CN110619325B (zh) * 2018-06-20 2024-03-08 北京搜狗科技发展有限公司 一种文本识别方法及装置
CN111368837B (zh) * 2018-12-25 2023-12-05 中移(杭州)信息技术有限公司 一种图像质量评价方法、装置、电子设备及存储介质
CN111814508B (zh) * 2019-04-10 2024-01-09 阿里巴巴集团控股有限公司 一种文字识别方法、系统及设备
CN111192149B (zh) * 2019-11-25 2023-06-16 泰康保险集团股份有限公司 一种核保结果数据生成方法和装置
CN111178362B (zh) * 2019-12-16 2023-05-26 平安国际智慧城市科技股份有限公司 文本图像处理方法、装置、设备和存储介质
CN111161185B (zh) * 2019-12-30 2024-01-19 深圳蓝影医学科技股份有限公司 一种x线图像连续调整的方法及系统
CN111275051A (zh) * 2020-02-28 2020-06-12 上海眼控科技股份有限公司 字符识别方法、装置、计算机设备和计算机可读存储介质
CN111368822B (zh) * 2020-03-20 2023-09-19 上海中通吉网络技术有限公司 图像中剪切快递面单区域的方法、装置、设备及存储介质
CN111553336B (zh) * 2020-04-27 2023-03-24 西安电子科技大学 基于连体段的印刷体维吾尔文文档图像识别系统及方法
CN112634382B (zh) * 2020-11-27 2024-03-19 国家电网有限公司大数据中心 一种非自然对象的图像识别、替换方法和装置
CN112784835B (zh) * 2021-01-21 2024-04-12 恒安嘉新(北京)科技股份公司 圆形印章的真实性识别方法、装置、电子设备及存储介质
CN113011409A (zh) * 2021-04-02 2021-06-22 北京世纪好未来教育科技有限公司 一种图像识别方法、装置、电子设备及存储介质
CN113793316B (zh) * 2021-09-13 2023-09-12 合肥合滨智能机器人有限公司 一种超声扫查区域提取方法、装置、设备和存储介质
CN113688811B (zh) * 2021-10-26 2022-04-08 北京美摄网络科技有限公司 图像处理方法、装置、电子设备及存储介质
CN115278104B (zh) * 2022-07-04 2024-02-09 浙江大华技术股份有限公司 一种图像亮度调整方法、装置、电子设备及存储介质
CN115471709B (zh) * 2022-09-28 2023-06-27 武汉中安智通科技有限公司 定向信号智能分析系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050041860A1 (en) * 2003-08-20 2005-02-24 Jager Jodocus Franciscus Metadata extraction from designated document areas
US20060222239A1 (en) * 2005-03-31 2006-10-05 Bargeron David M Systems and methods for detecting text
CN101615244A (zh) * 2008-06-26 2009-12-30 上海梅山钢铁股份有限公司 手写板坯号自动识别方法及识别装置
CN102314608A (zh) * 2010-06-30 2012-01-11 汉王科技股份有限公司 文字图像中行提取的方法和装置
CN102456137A (zh) * 2010-10-20 2012-05-16 上海青研信息技术有限公司 基于近红外反射点特性的视线跟踪预处理方法
CN103336961A (zh) * 2013-07-22 2013-10-02 中国科学院自动化研究所 一种交互式的自然场景文本检测方法
CN104281850A (zh) * 2013-07-09 2015-01-14 腾讯科技(深圳)有限公司 一种文字区域识别方法和装置
CN104573685A (zh) * 2015-01-29 2015-04-29 中南大学 一种基于线性结构提取的自然场景文本检测方法
CN105335745A (zh) * 2015-11-27 2016-02-17 小米科技有限责任公司 图像中数字的识别方法、装置及设备
CN105336169A (zh) * 2015-12-09 2016-02-17 青岛海信网络科技股份有限公司 一种基于视频判断交通拥堵的方法和系统
CN105426818A (zh) * 2015-10-30 2016-03-23 小米科技有限责任公司 区域提取方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100524072B1 (ko) * 2003-06-28 2005-10-26 삼성전자주식회사 화질 개선 방법
CN101599125A (zh) * 2009-06-11 2009-12-09 上海交通大学 复杂背景下图像处理的二值化方法
CN104268150A (zh) * 2014-08-28 2015-01-07 小米科技有限责任公司 一种基于图片内容播放音乐的方法及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050041860A1 (en) * 2003-08-20 2005-02-24 Jager Jodocus Franciscus Metadata extraction from designated document areas
US20060222239A1 (en) * 2005-03-31 2006-10-05 Bargeron David M Systems and methods for detecting text
CN101615244A (zh) * 2008-06-26 2009-12-30 上海梅山钢铁股份有限公司 手写板坯号自动识别方法及识别装置
CN102314608A (zh) * 2010-06-30 2012-01-11 汉王科技股份有限公司 文字图像中行提取的方法和装置
CN102456137A (zh) * 2010-10-20 2012-05-16 上海青研信息技术有限公司 基于近红外反射点特性的视线跟踪预处理方法
CN104281850A (zh) * 2013-07-09 2015-01-14 腾讯科技(深圳)有限公司 一种文字区域识别方法和装置
CN103336961A (zh) * 2013-07-22 2013-10-02 中国科学院自动化研究所 一种交互式的自然场景文本检测方法
CN104573685A (zh) * 2015-01-29 2015-04-29 中南大学 一种基于线性结构提取的自然场景文本检测方法
CN105426818A (zh) * 2015-10-30 2016-03-23 小米科技有限责任公司 区域提取方法及装置
CN105335745A (zh) * 2015-11-27 2016-02-17 小米科技有限责任公司 图像中数字的识别方法、装置及设备
CN105336169A (zh) * 2015-12-09 2016-02-17 青岛海信网络科技股份有限公司 一种基于视频判断交通拥堵的方法和系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
S. WESOLKOWSKI等: ""Color image segmentation using connected regions"", 《CCECE 2003 - CANADIAN CONFERENCE ON ELECTRICAL AND COMPUTER ENGINEERING. TOWARD A CARING AND HUMANE TECHNOLOGY (CAT. NO.03CH37436)》 *
南京航空航天大学科技部编著: "《南京航空航天大学论文集 2007年 第17册 信息科学与技术学院 第1分册》", 31 March 2008, 南京航空航天大学科技部 *
宋文等: ""基于小波和形态学的图像文本定位方法"", 《宿州学院学报》 *
梁士超等: ""改进的三维点云离群点滤除"", 《黑龙江科技信息》 *
邬惠远: ""基于图像识别的商标检索系统设计与实现"", 《中国优秀硕士学位论文全文数据库·信息科技辑》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569835A (zh) * 2018-06-06 2019-12-13 北京搜狗科技发展有限公司 一种图像识别方法、装置和电子设备
CN110569835B (zh) * 2018-06-06 2024-03-05 北京搜狗科技发展有限公司 一种图像识别方法、装置和电子设备
CN110717486A (zh) * 2018-07-13 2020-01-21 杭州海康威视数字技术股份有限公司 文本检测方法、装置、电子设备和存储介质
CN110858404A (zh) * 2018-08-22 2020-03-03 福州瑞芯微电子股份有限公司 一种基于区域偏移的识别方法及终端
CN110858404B (zh) * 2018-08-22 2023-07-07 瑞芯微电子股份有限公司 一种基于区域偏移的识别方法及终端
CN109409377A (zh) * 2018-12-03 2019-03-01 龙马智芯(珠海横琴)科技有限公司 图像中文字的检测方法及装置
CN111523315A (zh) * 2019-01-16 2020-08-11 阿里巴巴集团控股有限公司 数据处理方法、文本识别方法、装置及计算机设备
CN111523315B (zh) * 2019-01-16 2023-04-18 阿里巴巴集团控股有限公司 数据处理方法、文本识别方法、装置及计算机设备
WO2020253724A1 (zh) * 2019-06-18 2020-12-24 京东方科技集团股份有限公司 待清洁区域确定方法和装置、灰尘清理设备、控制清洁机器人的终端和存储介质
CN113903043A (zh) * 2021-12-11 2022-01-07 绵阳职业技术学院 一种基于孪生度量模型的印刷汉字字体识别方法
CN115429157A (zh) * 2022-08-29 2022-12-06 广州宝乐软件科技有限公司 清扫范围的确定方法、装置、清洁机器人和存储介质

Also Published As

Publication number Publication date
WO2017162069A1 (zh) 2017-09-28
TW201740316A (zh) 2017-11-16
CN107229932B (zh) 2021-05-28
TWI774659B (zh) 2022-08-21

Similar Documents

Publication Publication Date Title
CN107229932A (zh) 一种图像文本的识别方法和装置
CN108171104B (zh) 一种文字检测方法及装置
US10223585B2 (en) Page segmentation of vector graphics documents
CN109146892A (zh) 一种基于美学的图像裁剪方法及装置
CN110647829A (zh) 一种票据的文本识别方法及系统
JP7270013B2 (ja) 情報処理方法、情報処理装置、電子機器及び記憶媒体
CN111428807A (zh) 图像处理方法及计算机可读存储介质
CN110728277B (zh) 一种印章智能检测与识别的方法及系统
CN104750678A (zh) 一种图像文本识别翻译眼镜及方法
CN112069900A (zh) 基于卷积神经网络的票据文字识别方法及系统
WO2021034841A1 (en) Apparatus and methods for converting lineless tables into lined tables using generative adversarial networks
CN116168017A (zh) 一种基于深度学习的pcb元件检测方法、系统及存储介质
CN113705294A (zh) 一种基于人工智能的图像识别方法、装置
CN114898372A (zh) 一种基于边缘注意力引导的越南场景文字检测方法
CN109460767A (zh) 基于规则的凸印银行卡卡号分割与识别方法
CN113537187A (zh) 文本识别方法、装置、电子设备及可读存储介质
CN115797939A (zh) 一种基于深度学习的两阶段斜体字符识别方法及装置
CN112580738B (zh) 基于改进的AttentionOCR文本识别方法及装置
CN112884074B (zh) 基于决策树的图像设计方法、设备、存储介质及装置
CN112733741A (zh) 交通标识牌识别方法、装置和电子设备
CN113989814A (zh) 图像生成方法、装置、计算机设备及存储介质
CN111950403A (zh) 一种虹膜分类方法及系统、电子设备和存储介质
Nguyen et al. Correlation-extreme method for text area localization on images
CN112016554B (zh) 语义分割方法、装置、电子设备与存储介质
CN114332884B (zh) 文档元素的识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant