CN106997473A - 一种基于神经网络的图像识别方法 - Google Patents
一种基于神经网络的图像识别方法 Download PDFInfo
- Publication number
- CN106997473A CN106997473A CN201610810458.2A CN201610810458A CN106997473A CN 106997473 A CN106997473 A CN 106997473A CN 201610810458 A CN201610810458 A CN 201610810458A CN 106997473 A CN106997473 A CN 106997473A
- Authority
- CN
- China
- Prior art keywords
- label
- convolution
- picture
- matrix
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/061—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Neurology (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Microelectronics & Electronic Packaging (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于神经网络的图像识别方法,包括了以下步骤:S101、多类神经网络学习图片样本;S102、训练所述多类神经网络辨识图片样本;S103、针对待测试图片进行多尺度卷积测试;S104、将多次卷积的结果进行结合;S105、将累计权重最高或是置信度最高的标签输出作为唯一的标签,本发明能够在各种条件下对待测试图片中的所有信息作识别以及分类,应用范围广泛,识别准确度高。
Description
技术领域
本发明涉及神经网络领域,尤其是一种基于神经网络的图像识别方法。
背景技术
随着计算机与信息技术的不断演进,机器学习以及模式识别已成为近几年来最炙手可热的领域之一。在一些以往需要人执行的图像识别任务正在逐渐被机器替代,例如车牌识别,人脸识别以及指纹识别等。虽然这些领域已经有相对成熟的解决方案,但是其方案应用的领域非常有限,往往只能在特定条件的环境下才能达到预期的识别效果;除此之外,传统的图像识别技术往往只能提取图片的局部信息,而无法对待测试图片中的所有信息作识别以及分类,应用范围广泛,识别准确度高。
发明内容
本发明的目的在于提供一种基于神经网络的图像识别方法,克服了现有技术的困难,能够在各种条件下对待测试图片中的所有信息作识别以及分类,应用范围广泛,识别准确度高。
根据本发明的一个方面,提供一种基于神经网络的图像识别方法,包括以下步骤:
S101、多类神经网络学习图片样本:所述多类神经网络包括大量的神经元,将多个带有字符的图片样本以及背景图片样本分别提供给所述神经元进行学习,所述多类神经网络针对所述图片样本生成若N类标签,所述标签至少包括一个代表背景的标签、若干代表阿拉伯数字的标签和/或若干代表英文字母的标签,每个所述图片样本对应所述标签中的一类;
S102、训练所述多类神经网络辨识图片样本:将多个带有字符的图片样本以及背景图片样本分别提供给所述神经网络进行训练,根据所述多类神经网络汇总对于所有训练样本的权值,并将所述权值作为所述神经网络的匹配参数;
S103、通过不同卷积窗的尺寸针对待测试图片进行多尺度卷积测试:在同一尺寸的卷积窗卷积测试中,将每一次的卷积窗内对应的局部所述待测试图片输入到所述图像识别神经网络,通过神经网络运算得到一个N*1的一维输出矩阵,将所述一维输出矩阵中的最大值作为代表每个所述卷积窗的置信度,所述最大值所对应的标签作为所述卷积窗的标签,随着卷积窗会逐步位移,依次扫描整张待测试图片,以此将每个所述卷积窗映射到代表该卷积窗在待测试图片中位置的二维矩阵中得到一个最大值矩阵和一个标签矩阵;
S104、将多种卷积窗尺寸下的标签矩阵进行结合:将多种不同卷积窗尺寸通过所述卷积测试得到的最大值标签矩阵投影到同一个平面矩阵,然后将所述平面矩阵中所有代表相同字符且位置相近的点的集合认为其预测的是同一个字符,作为一簇,并且不断地将簇之间距离小于卷积窗的长度或是宽度的一半的点归为该簇,将簇之间距离大于卷积窗的长度或是宽度的一半的点归为新的一簇,从而计算出所有簇的中心坐标;以及
S105、将所述簇中累计权重最高的标签或是将置信度最高的标签输出作为唯一的标签。
优选地,所述步骤S101中,在N类标签中,将每个带有字符的图片样本的标签设为大于0的不同整数数值,而所述背景图片样本的标签设为-1。
优选地,带有单个阿拉伯数字字符的所述图片样本的标签是0至9中的一个;带有单个英文字母字符的所述图片样本的标签是11至36中的一个。
优选地,所述标签还包括若干代表中文字符的标签、若干日文字符的标签、若干韩文字符的标签、若干法文字符的标签以及若干俄文字符的标签。
优选地,所述步骤S102中所述背景图片样本的总数量大于等于所述带有字符的图片样本的总数量。
优选地,基于已有的所述图片样本进行仿射变换以及背景替换来合成新的所述图片样本,来增加该类所述图片样本的数量。
优选地,所述步骤S103中,所述卷积窗在所述二维矩阵的X轴代表该卷积窗在所述待测试图片中的横向位置,Y轴代表该卷积窗在所述待测试图片中的纵向的位置。
优选地,在同一尺寸的卷积窗卷积测试中通过将每个所述卷积窗的最大值映射到代表该卷积窗在待测试图片中位置的二维矩阵中得到一个对应待测试图片的最大值矩阵;
并且,还通过将每个所述卷积窗的标签映射到代表该卷积窗在待测试图片中位置的二维矩阵中得到一个对应待测试图片的标签矩阵。
优选地,所述步骤S103中,分别通过20*20、24*24、以及28*28三个卷积窗的尺寸分别进行三次卷积测试。
优选地,所述步骤S103中,分别通过24*24、28*28、以及32*32三个卷积窗的尺寸分别进行三次卷积测试。
优选地,所述步骤S103中,分别通过20*20、24*24、28*28、32*32以及36*36五个卷积窗的尺寸分别进行五次卷积测试。
优选地,所述步骤S104包括:将各个最大值标签矩阵的中心点重叠,除了尺寸最大的最大值矩阵以外,其余每个最大值标签矩阵向外扩展,逐轮沿矩阵周围向外填充标签为-1的点,使每个所述最大值标签矩阵扩展到与尺寸最大的最大值矩阵相同尺寸。
优选地,所述步骤S105包括:根据在每个簇中每一点对应该簇中心点坐标的距离计算该点对应该簇的预测权重,将所述簇中的不同类的标签所对应的所有预测权重加权汇总得到该簇中每类标签的累计权重,将所述累计权重最大的一类标签作为代表此簇的唯一标签。
优选地,所述步骤S105包括:统计每个所述簇中每个点所对应的置信度,将置信度最高的点的标签作为代表此簇的唯一标签。
由于使用了以上技术,本发明的基于神经网络的图像识别方法能够在各种条件下对待测试图片中的所有信息作识别以及分类,应用范围广泛,识别准确度高。
附图说明
以下结合附图和具体实施例对本发明的技术方案进行详细的说明,以使本发明的特性和优点更为明显。
图1为本发明的基于神经网络的图像识别方法的流程图;
图2为本发明中的港口集装箱的照片的局部示意图;
图3为本发明的多类神经网络的示意图;
图4为本发明的中通过三个不同尺寸的卷积窗进行卷积的示意图;
图5为本发明的中通过20*20的卷积窗进行卷积得到的最大值矩阵;
图6为本发明的中通过24*24的卷积窗进行卷积得到的最大值矩阵;
图7为本发明的中通过26*26的卷积窗进行卷积得到的最大值矩阵;
图8为本发明的中三个最大值矩阵进行结合的示意图;
图9为本发明的三个最大值矩阵进行结合的原理示意图;
图10为本发明的三个最大值矩阵结合得到最大值标签结合矩阵的示意图;以及
图11至17为图10中Z1至Z7的每个簇的累计权重统计示意图。
具体实施方式
以下将对本发明的实施例给出详细的说明。尽管本发明将结合一些具体实施方式进行阐述和说明,但需要注意的是本发明并不仅仅只局限于这些实施方式。相反,对本发明进行的修改或者等同替换,均应涵盖在本发明的权利要求范围当中。
另外,为了更好的说明本发明,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员将理解,没有这些具体细节,本发明同样可以实施。在另外一些实例中,对于大家熟知的结构和部件未作详细描述,以便于凸显本发明的主旨。
图1为本发明的基于神经网络的图像识别方法的流程图。如图1所示,本发明的一种基于神经网络的图像识别方法,包括以下步骤:
S101、多类神经网络学习图片样本:所述多类神经网络包括大量的神经元,将多个带有字符的图片样本以及背景图片样本分别提供给所述神经元进行学习,所述多类神经网络针对所述图片样本生成若N类标签,所述标签至少包括一个代表背景的标签、若干代表阿拉伯数字的标签和/或若干代表英文字母的标签,每个所述图片样本对应所述标签中的一类。所述步骤S101中,在N类标签中,将每个带有字符的图片样本的标签设为大于0的不同整数数值,而所述背景图片样本的标签设为-1,但不以此为限。带有单个阿拉伯数字字符的所述图片样本的标签是0至9中的一个;带有单个英文字母字符的所述图片样本的标签是11至36中的一个,但不以此为限。所述标签还包括若干代表中文字符的标签、若干日文字符的标签、若干韩文字符的标签、若干法文字符的标签以及若干俄文字符的标签,但不以此为限。
S102、训练所述多类神经网络辨识图片样本:将多个带有字符的图片样本以及背景图片样本分别提供给所述神经网络进行训练,根据所述多类神经网络汇总对于所有训练样本的权值,并将所述权值作为所述神经网络的匹配参数。在一个优选方案中,所述步骤S102中的所述背景图片样本的总数量大于等于所述带有字符的图片样本的总数量,以便得到更合适的权值。基于已有的所述图片样本进行仿射变换以及背景替换来合成新的所述图片样本,来增加该类所述图片样本的数量,但不以此为限。当背景图片样本的总数量较少或是小于带有字符的图片样本的总数量时,可以通过该方法来增加背景图片样本的总数量。
S103、通过不同卷积窗的尺寸针对待测试图片进行多尺度卷积测试:在同一尺寸的卷积窗卷积测试中,将每一次的卷积窗内对应的局部所述待测试图片输入到所述图像识别神经网络,通过神经网络运算得到一个N*1的一维输出矩阵,将所述一维输出矩阵中的最大值作为代表每个所述卷积窗的置信度,所述最大值所对应的标签作为所述卷积窗的标签,随着卷积窗会逐步位移,依次扫描整张待测试图片,以此将每个所述卷积窗映射到代表该卷积窗在待测试图片中位置的二维矩阵中得到一个最大值矩阵和一个标签矩阵。所述步骤S103中,所述卷积窗在所述二维矩阵的X轴代表该卷积窗在所述待测试图片中的横向位置,Y轴代表该卷积窗在所述待测试图片中的纵向的位置。在同一尺寸的卷积窗卷积测试中通过将每个所述卷积窗的最大值映射到代表该卷积窗在待测试图片中位置的二维矩阵中得到一个对应待测试图片的最大值矩阵;并且,还通过将每个所述卷积窗的标签映射到代表该卷积窗在待测试图片中位置的二维矩阵中得到一个对应待测试图片的标签矩阵。例如:所述步骤S103中,分别通过20*20、24*24、以及28*28三个卷积窗的尺寸分别进行三次卷积测试,但不以此为限。或者,所述步骤S103中,分别通过24*24、28*28、以及32*32三个卷积窗的尺寸分别进行三次卷积测试,但不以此为限。或者,所述步骤S103中,分别通过20*20、24*24、28*28、32*32以及36*36五个卷积窗的尺寸分别进行五次卷积测试,但不以此为限。
S104、将多种卷积窗尺寸下的标签矩阵进行结合:将多种不同卷积窗尺寸通过所述卷积测试得到的最大值标签矩阵投影到同一个平面矩阵,然后将所述平面矩阵中所有代表相同字符且位置相近的点的集合认为其预测的是同一个字符,作为一簇,并且不断地将簇之间距离小于卷积窗的长度或是宽度的一半的点归为该簇,将簇之间距离大于卷积窗的长度或是宽度的一半的点归为新的一簇,从而计算出所有簇的中心坐标,用于判定的簇之间的距离不以此为限。所述步骤S104包括:将各个最大值标签矩阵的中心点重叠,除了尺寸最大的最大值矩阵以外,其余每个最大值标签矩阵向外扩展,逐轮沿矩阵周围向外填充标签为-1的点,使每个所述最大值标签矩阵扩展到与尺寸最大的最大值矩阵相同尺寸。
S105、将所述簇中累计权重最高的标签或是将置信度最高的标签输出作为唯一的标签。其中,将所述簇中累计权重最高的标签输出作为唯一的标签的方法包括:根据在每个簇中每一点对应该簇中心点坐标的距离计算该点对应该簇的预测权重,将所述簇中的不同类的标签所对应的所有预测权重加权汇总得到该簇中每类标签的累计权重,将所述累计权重最大的一类标签作为代表此簇的唯一标签。或者,将所述簇中将置信度最高的标签输出作为唯一的标签的方法包括:统计每个所述簇中每个点所对应的置信度,将置信度最高的点的标签作为代表此簇的唯一标签。
以下以港口集装箱号识别为例,解释该系统的运行过程。集装箱号识别是港口的常见任务,实现方式为在装卸集装箱的车辆停靠点周围设置摄像头,摄像头可以从不同角度捕捉到集装箱表面,该字符串识别系统可以通过对摄像头传回的图片进行处理,过滤冗余的信息,从而自动识别出集装箱号。
如图2至17所示,以下将通过采用本发明的基于神经网络的图像识别方法来对一张港口集装箱的照片带有“3752837”编号(如图2所示,本实施例中,图2为一张宽90个像素,长200个像素的图片)进行数字识别(本实施例中,主要涉及数字的识别,但不以此为限),来具体介绍本发明的实施原理。
首先,多类神经网络(如图3所示)学习图片样本。其中,多类神经网络可以分为输入层100,隐藏层200和输出层300。多类神经网络是一种模仿生物神经网络结构的计算模型,由大量的神经元按一定的拓扑连接构成,每个神经元代表着一个激励函数,神经元之间的连接称为权值(例如:图3中的A、B、C、D、E、F、G、H、I、J、K、L、M,但不以此为限)。输入数据从神经网络一端进入,从另外一端输出结果。通过对已知的数据进行训练,改变神经网络的权值,从而使其对未知的数据有预测的结果。
通过建立3个不同尺度的神经网络,每个神经网络都包含输入层,一层隐藏层和输出层。三个神经网络的输入层的维度分别为400*1(以一维矩阵形式输入,对应后续20*20的矩阵)20*20,576*1(以一维矩阵形式输入,对应后续24*24的矩阵)24*24,以及784*1(以一维矩阵形式输入,对应后续28*28的矩阵)28*28,隐藏层神经元个数是输入层的10倍,分别为4000,5760,7840,输出层有11个神经元(其中,10个用来识别数字,1个用来识别背景)以甄别背景与非背景,同时对从非背景样本中预测从0到9的集装箱印刷体数字。通过将大量的带有字符的图片样本(分别带有“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”、“9”)和背景图片样本提供给神经元学习,将每个带有字符的图片样本的标签设为大于0的不同整数数值,而所述背景图片样本的标签设为-1,但不以此为限。带有“0”字符的所述图片样本的标签是0,带有“1”字符的所述图片样本的标签是1,带有“2”字符的所述图片样本的标签是2……以此类推。相当于让神经元知道哪些图片是带有“0”的图片样本;哪些图片是带有“1”的图片样本;哪些图片是带有“2”的图片样本…等等。
其次,通过训练所述多类神经网络辨识图片样本。将多个带有字符
的图片样本以及背景图片样本分别提供给所述神经网络进行训练,根据所述多类神经网络汇总对于所有训练样本的权值,并将所述权值作为所述神经网络的匹配参数(如图3中的A、B、C、D、E、F、G、H、I、J、K、L、M)。在训练过程中所述背景图片样本的总数量大于等于所述带有字符的图片样本的总数量,以便得到更合适的权值。以数字“1”为例,在之前的步骤中,多类神经网络或许学习了1万种不同的1(各种“1”的图形变化),相当于通过多次训练,将多类神经网络对每一个训练样本的识别程度或识别的准确性作为每一个训练样本的权值,来优化神经网络的匹配参数(如图3中的A、B、C、D、E、F、G、H、I、J、K、L、M),以便更准确地识别带有字符的图片样本和背景图片。继续参考图3,以输入层的维度为400*1的矩阵为例,则其输入层神经元个数为400个,隐藏层神经元个数为4000个(400*10=4000),输
出层的神经元个数为11个(代表10个数字和1个背景),可以理解为这个多类神经网络的权值是一个4000*11的二维矩阵,在训练的时候,将机器对输入样本反馈出的初始答案与真实答案比较,得出的差异值通过数学变换增加到二维矩阵中得到新的权值。然后通过大量图片样本(例如:2万次、6万次、10万次等)来训练这个多类神经网络,通过每一次图片样本的训练,来不断调整多类神经网络的权值,以便提高多类神经网络的识别准确度。
然后通过不同卷积窗的尺寸针对待测试图片进行多尺度卷积测试。在同一尺寸的卷积窗卷积测试中,将每一次的卷积窗内对应的局部所述待测试图片输入到所述图像识别神经网络,通过神经网络运算得到一个N*1的一维输出矩阵,将所述一维输出矩阵中的最大值作为代表每个所述卷积窗的置信度,所述最大值所对应的标签作为所述卷积窗的标签,随着卷积窗会逐步位移,依次扫描整张待测试图片,以此将每个所述卷积窗映射到代表该卷积窗在待测试图片中位置的二维矩阵中得到一个最大值矩阵和一个标签矩阵。
所述卷积窗在所述二维矩阵的X轴代表该卷积窗在所述待测试图片中的横向位置,Y轴代表该卷积窗在所述待测试图片中的纵向的位置。分别通过20*20、24*24、以及28*28三个卷积窗的尺寸分别进行三次卷积测试(20*20、24*24、以及28*28三个卷积窗各用一次),但不以此为限。如图4所示,分别通过三个不同尺寸的卷积窗a(代表20*20)、卷积窗b(代表24*24)和卷积窗c(代表28*28)依次逐行逐列地在所述待测试图片中移动,每移动一次,就进行一次卷积。每次移动的步长越小,识别的结果就越精确。每次移动的步长最小可以是横向的一个像素,或是纵向的一个像素。
在同一尺寸的卷积窗卷积测试中通过将每个所述卷积窗的最大值映射到代表该卷积窗在待测试图片中位置的二维矩阵中得到一个对应待测试图片的最大值矩阵。
通过将每个所述卷积窗的标签映射到代表该卷积窗在待测试图片中位置的二维矩阵中得到一个对应待测试图片的标签矩阵。
通过20*20得到的最大值矩阵如图5所示,通过24*24得到的最大值矩阵如图6所示,通过26*26得到的最大值矩阵如图7所示,其中横轴、纵轴各自表示点在图片(图2)中的位置。
如图8所示,其中at代表通过20*20得到的最大值矩阵。其中bt代表通过24*24得到的最大值矩阵,ct代表通过26*26得到的最大值矩阵,将各个最大值标签矩阵的中心点重叠,这三个最大值标签矩阵投影到同一个平面矩阵,为了调整三者到同一大小,在bt周围的bo区域向外填充标签为-1的点,使得得到与at同样大小的矩阵,并且在ct周围的co区域向外填充标签为-1的点,使得得到与at同样大小的矩阵。
然后如图9所示,将所述平面矩阵中所有代表相同字符且位置相近的点(其中,11、21、31、41、51、61、71为点)的集合认为其预测的是同一个字符,作为一簇(其中,10、20、30、40、50、60、70为“一簇”,用来代表标签),并且不断地将簇之间距离小于卷积窗的长度或是宽度的一半的点归为该簇,将簇之间距离大于卷积窗的长度或是宽度的一半的点归为新的一簇,从而计算出所有簇的中心坐标(其中,12、22、32、42、52、62、72为“中心坐标”,用来代表位置)。从得到如图10所示的结合了图5、6、7三个矩阵的最大值标签结合矩阵,显然,图10中有明显的7个簇Z1、Z2、Z3、Z4、Z5、Z6、Z7。
最后,将所述簇中累计权重最高的标签或是将置信度最高的标签输出作为唯一的标签。其中,将所述簇中累计权重最高的标签输出作为唯一的标签的方法包括:根据在每个簇中每一点对应该簇中心点坐标的距离计算该点对应该簇的预测权重,将所述簇中的不同类的标签所对应的所有预测权重加权汇总得到该簇中每类标签的累计权重,将所述累计权重最大的一类标签作为代表此簇的唯一标签。图11至17为图10中Z1至Z7的每个簇的累计权重统计示意图。如图11至17所示,根据最大值标签结合矩阵中的代表标签的,图10中的7个簇Z1至Z7各自的累计权重最高的标签分别是“3”、“7”、“5”、“2”、“8”、“3”、“7”,汇总这7个簇的这7个标签得到“3752837”。至此,完成了对照片中“3752837”编号的识别。
或者,将所述簇中将置信度最高的标签输出作为唯一的标签的方法包括:统计每个所述簇中每个点所对应的置信度,(之前的步骤中已经揭示了,将每一次的卷积窗内对应的局部所述待测试图片输入到所述图像识别神经网络,通过神经网络运算得到一个N*1的一维输出矩阵,将所述一维输出矩阵中的最大值作为代表每个所述卷积窗的置信度)将每个所述簇中置信度最高的点的标签作为代表此簇的唯一标签,则继续参考图10中的7个簇Z1至Z7各自的簇中置信度最高的点的标签分别是“3”、“7”、“5”、“2”、“8”、“3”、“7”,此处再赘述。最后,汇总这7个簇的这7个标签得到“3752837”,至此,同样完成了对照片中“3752837”编号的识别。
综上可知,本发明的基于神经网络的图像识别方法能够在各种条件下对待测试图片中的所有信息作识别以及分类,应用范围广泛,识别准确度高。
以上仅是本发明的具体应用范例,对本发明的保护范围不构成任何限制。除上述实施例外,本发明还可以有其它实施方式。凡采用等同替换或等效变换形成的技术方案,均落在本发明所要求保护的范围之内。
Claims (14)
1.一种基于神经网络的图像识别方法,其特征在于,包括以下步骤:
S101、多类神经网络学习图片样本:所述多类神经网络包括大量的神经元,将多个带有字符的图片样本以及背景图片样本分别提供给所述神经元进行学习,所述多类神经网络针对所述图片样本生成若N类标签,所述标签至少包括一个代表背景的标签、若干代表阿拉伯数字的标签和/或若干代表英文字母的标签,每个所述图片样本对应所述标签中的一类;
S102、训练所述多类神经网络辨识图片样本:将多个带有字符的图片样本以及背景图片样本分别提供给所述神经网络进行训练,根据所述多类神经网络汇总对于所有训练样本的权值,并将所述权值作为所述神经网络的匹配参数;
S103、通过不同卷积窗的尺寸针对待测试图片进行多尺度卷积测试:在同一尺寸的卷积窗卷积测试中,将每一次的卷积窗内对应的局部所述待测试图片输入到所述图像识别神经网络,通过神经网络运算得到一个N*1的一维输出矩阵,将所述一维输出矩阵中的最大值作为代表每个所述卷积窗的置信度,所述最大值所对应的标签作为所述卷积窗的标签,随着卷积窗会逐步位移,依次扫描整张待测试图片,以此将每个所述卷积窗映射到代表该卷积窗在待测试图片中位置的二维矩阵中得到一个最大值矩阵和一个标签矩阵;
S104、将多种卷积窗尺寸下的标签矩阵进行结合:将多种不同卷积窗尺寸通过所述卷积测试得到的最大值标签矩阵投影到同一个平面矩阵,然后将所述平面矩阵中所有代表相同字符且位置相近的点的集合认为其预测的是同一个字符,作为一簇,并且不断地将簇之间距离小于卷积窗的长度或是宽度的一半的点归为该簇,将簇之间距离大于卷积窗的长度或是宽度的一半的点归为新的一簇,从而计算出所有簇的中心坐标;以及
S105、将所述簇中累计权重最高的标签或是将置信度最高的标签输出作为唯一的标签。
2.如权利要求1所述的基于神经网络的图像识别方法,其特征在于:所述步骤S101中,在N类标签中,将每个带有字符的图片样本的标签设为大于0的不同整数数值,而所述背景图片样本的标签设为-1。
3.如权利要求2所述的基于神经网络的图像识别方法,其特征在于:带有单个阿拉伯数字字符的所述图片样本的标签是0至9中的一个;带有单个英文字母字符的所述图片样本的标签是11至36中的一个。
4.如权利要求1所述的基于神经网络的图像识别方法,其特征在于:所述标签还包括若干代表中文字符的标签、若干日文字符的标签、若干韩文字符的标签、若干法文字符的标签以及若干俄文字符的标签。
5.如权利要求1所述的基于神经网络的图像识别方法,其特征在于:所述步骤S102中所述背景图片样本的总数量大于等于所述带有字符的图片样本的总数量。
6.如权利要求5所述的基于神经网络的图像识别方法,其特征在于:基于已有的所述图片样本进行仿射变换以及背景替换来合成新的所述图片样本,来增加该类所述图片样本的数量。
7.如权利要求1所述的基于神经网络的图像识别方法,其特征在于:所述步骤S103中,所述卷积窗在所述二维矩阵的X轴代表该卷积窗在所述待测试图片中的横向位置,Y轴代表该卷积窗在所述待测试图片中的纵向的位置。
8.如权利要求7所述的基于神经网络的图像识别方法,其特征在于:在同一尺寸的卷积窗卷积测试中通过将每个所述卷积窗的最大值映射到代表该卷积窗在待测试图片中位置的二维矩阵中得到一个对应待测试图片的最大值矩阵;
并且,还通过将每个所述卷积窗的标签映射到代表该卷积窗在待测试图片中位置的二维矩阵中得到一个对应待测试图片的标签矩阵。
9.如权利要求1所述的基于神经网络的图像识别方法,其特征在于:所述步骤S103中,分别通过20*20、24*24、以及28*28三个卷积窗的尺寸分别进行三次卷积测试。
10.如权利要求1所述的基于神经网络的图像识别方法,其特征在于:所述步骤S103中,分别通过24*24、28*28、以及32*32三个卷积窗的尺寸分别进行三次卷积测试。
11.如权利要求1所述的基于神经网络的图像识别方法,其特征在于:所述步骤S103中,分别通过20*20、24*24、28*28、32*32以及36*36五个卷积窗的尺寸分别进行五次卷积测试。
12.如权利要求1所述的基于神经网络的图像识别方法,其特征在于:所述步骤S104包括:将各个最大值标签矩阵的中心点重叠,除了尺寸最大的最大值矩阵以外,其余每个最大值标签矩阵向外扩展,逐轮沿矩阵周围向外填充标签为-1的点,使每个所述最大值标签矩阵扩展到与尺寸最大的最大值矩阵相同尺寸。
13.如权利要求1所述的基于神经网络的图像识别方法,其特征在于:所述步骤S105包括:根据在每个簇中每一点对应该簇中心点坐标的距离计算该点对应该簇的预测权重,将所述簇中的不同类的标签所对应的所有预测权重加权汇总得到该簇中每类标签的累计权重,将所述累计权重最大的一类标签作为代表此簇的唯一标签。
14.如权利要求1所述的基于神经网络的图像识别方法,其特征在于:所述步骤S105包括:统计每个所述簇中每个点所对应的置信度,将置信度最高的点的标签作为代表此簇的唯一标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610810458.2A CN106997473A (zh) | 2016-09-08 | 2016-09-08 | 一种基于神经网络的图像识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610810458.2A CN106997473A (zh) | 2016-09-08 | 2016-09-08 | 一种基于神经网络的图像识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106997473A true CN106997473A (zh) | 2017-08-01 |
Family
ID=59430941
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610810458.2A Pending CN106997473A (zh) | 2016-09-08 | 2016-09-08 | 一种基于神经网络的图像识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106997473A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109345515A (zh) * | 2018-09-17 | 2019-02-15 | 代黎明 | 样本标签置信度计算方法、装置、设备及模型训练方法 |
CN112557406A (zh) * | 2021-02-19 | 2021-03-26 | 浙江大胜达包装股份有限公司 | 纸品生产质量智能检验方法及其系统 |
CN113705735A (zh) * | 2021-10-27 | 2021-11-26 | 北京值得买科技股份有限公司 | 一种基于海量信息的标签分类方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6694059B1 (en) * | 2000-05-19 | 2004-02-17 | International Business Machines Corporation | Robustness enhancement and evaluation of image information extraction |
CN102122133A (zh) * | 2011-01-21 | 2011-07-13 | 北京工业大学 | 自适应小波神经网络异常检测故障诊断分类系统及方法 |
CN104346628A (zh) * | 2013-08-01 | 2015-02-11 | 天津天地伟业数码科技有限公司 | 基于多尺度多方向Gabor特征的车牌汉字识别方法 |
CN105184312A (zh) * | 2015-08-24 | 2015-12-23 | 中国科学院自动化研究所 | 一种基于深度学习的文字检测方法及装置 |
CN105354572A (zh) * | 2015-12-10 | 2016-02-24 | 苏州大学 | 一种基于简化卷积神经网络的车牌自动识别系统 |
US20160086078A1 (en) * | 2014-09-22 | 2016-03-24 | Zhengping Ji | Object recognition with reduced neural network weight precision |
CN105893968A (zh) * | 2016-03-31 | 2016-08-24 | 华南理工大学 | 基于深度学习的文本无关的端到端的笔迹识别方法 |
-
2016
- 2016-09-08 CN CN201610810458.2A patent/CN106997473A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6694059B1 (en) * | 2000-05-19 | 2004-02-17 | International Business Machines Corporation | Robustness enhancement and evaluation of image information extraction |
CN102122133A (zh) * | 2011-01-21 | 2011-07-13 | 北京工业大学 | 自适应小波神经网络异常检测故障诊断分类系统及方法 |
CN104346628A (zh) * | 2013-08-01 | 2015-02-11 | 天津天地伟业数码科技有限公司 | 基于多尺度多方向Gabor特征的车牌汉字识别方法 |
US20160086078A1 (en) * | 2014-09-22 | 2016-03-24 | Zhengping Ji | Object recognition with reduced neural network weight precision |
CN105184312A (zh) * | 2015-08-24 | 2015-12-23 | 中国科学院自动化研究所 | 一种基于深度学习的文字检测方法及装置 |
CN105354572A (zh) * | 2015-12-10 | 2016-02-24 | 苏州大学 | 一种基于简化卷积神经网络的车牌自动识别系统 |
CN105893968A (zh) * | 2016-03-31 | 2016-08-24 | 华南理工大学 | 基于深度学习的文本无关的端到端的笔迹识别方法 |
Non-Patent Citations (1)
Title |
---|
谭贞刚: "基于多分辨率卷积网络的交通标志检测与识别", 《中国优秀硕士学位论文全文数据库 工程科技II辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109345515A (zh) * | 2018-09-17 | 2019-02-15 | 代黎明 | 样本标签置信度计算方法、装置、设备及模型训练方法 |
CN112557406A (zh) * | 2021-02-19 | 2021-03-26 | 浙江大胜达包装股份有限公司 | 纸品生产质量智能检验方法及其系统 |
CN112557406B (zh) * | 2021-02-19 | 2021-06-29 | 浙江大胜达包装股份有限公司 | 纸品生产质量智能检验方法及其系统 |
CN113705735A (zh) * | 2021-10-27 | 2021-11-26 | 北京值得买科技股份有限公司 | 一种基于海量信息的标签分类方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110210486B (zh) | 一种基于素描标注信息的生成对抗迁移学习方法 | |
CN110135267B (zh) | 一种大场景sar图像细微目标检测方法 | |
CN107704857B (zh) | 一种端到端的轻量级车牌识别方法及装置 | |
CN105139028B (zh) | 基于分层稀疏滤波卷积神经网络的sar图像分类方法 | |
CN104102929B (zh) | 基于深度学习的高光谱遥感数据分类方法 | |
CN109800736A (zh) | 一种基于遥感影像和深度学习的道路提取方法 | |
CN110532859A (zh) | 基于深度进化剪枝卷积网的遥感图像目标检测方法 | |
CN109214505B (zh) | 一种密集连接卷积神经网络的全卷积目标检测方法 | |
CN107909101A (zh) | 基于卷积神经网络的半监督迁移学习字符识别方法及系统 | |
CN105825511A (zh) | 一种基于深度学习的图片背景清晰度检测方法 | |
CN107871102A (zh) | 一种人脸检测方法及装置 | |
Rahaman et al. | An efficient multilevel thresholding based satellite image segmentation approach using a new adaptive cuckoo search algorithm | |
CN107622272A (zh) | 一种图像分类方法及装置 | |
CN109583483A (zh) | 一种基于卷积神经网络的目标检测方法和系统 | |
CN113469119B (zh) | 基于视觉转换器和图卷积网络的宫颈细胞图像分类方法 | |
CN111860124B (zh) | 基于空谱胶囊生成对抗网络的遥感图像分类方法 | |
CN112347970A (zh) | 一种基于图卷积神经网络的遥感影像地物识别方法 | |
Doi et al. | The effect of focal loss in semantic segmentation of high resolution aerial image | |
CN110619059A (zh) | 一种基于迁移学习的建筑物标定方法 | |
CN106997473A (zh) | 一种基于神经网络的图像识别方法 | |
Albardi et al. | A comprehensive study on torchvision pre-trained models for fine-grained inter-species classification | |
CN104598898B (zh) | 一种基于多任务拓扑学习的航拍图像快速识别系统及其快速识别方法 | |
Kalita et al. | Inception time DCNN for land cover classification by analyzing multi-temporal remotely sensed images | |
CN110334775A (zh) | 一种基于宽度学习的无人机线路故障识别方法和装置 | |
CN116563672B (zh) | 一种岩土体分类模型构建方法及岩土体分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170801 |
|
WD01 | Invention patent application deemed withdrawn after publication |