CN111126396B - 图像识别方法、装置、计算机设备以及存储介质 - Google Patents

图像识别方法、装置、计算机设备以及存储介质 Download PDF

Info

Publication number
CN111126396B
CN111126396B CN201911360763.6A CN201911360763A CN111126396B CN 111126396 B CN111126396 B CN 111126396B CN 201911360763 A CN201911360763 A CN 201911360763A CN 111126396 B CN111126396 B CN 111126396B
Authority
CN
China
Prior art keywords
classifier
image
recognition
classifiers
verification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911360763.6A
Other languages
English (en)
Other versions
CN111126396A (zh
Inventor
杨春
殷绪成
王红法
郭春超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
University of Science and Technology Beijing USTB
Original Assignee
Tencent Technology Shenzhen Co Ltd
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd, University of Science and Technology Beijing USTB filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201911360763.6A priority Critical patent/CN111126396B/zh
Publication of CN111126396A publication Critical patent/CN111126396A/zh
Application granted granted Critical
Publication of CN111126396B publication Critical patent/CN111126396B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/625License plates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

本申请实施例提供了一种图像识别方法、装置、计算机设备以及存储介质,本申请属于人工智能领域,该方法包括:根据分类器集合获取与图像相关联的对象识别结果集合;分类器集合包括至少两个分类器,至少两个分类器为处于不同的参数训练阶段的模型,至少两个分类器均用于识别图像中所包含的目标对象,每个分类器均对应一个识别结果;获取至少两个分类器分别对应的识别置信度;根据识别置信度与对象识别结果集合中所包含的识别结果,确定图像对应的目标识别结果。采用本申请实施例,可以提高图像识别的准确率。

Description

图像识别方法、装置、计算机设备以及存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种图像识别方法、装置、计算机设备以及存储介质。
背景技术
许多场景图像中包含丰富的文本信息,可以极大地帮助人们认知和理解场景图像的内容。场景文本识别是在图像背景复杂、分辨率低下、字体多样、分布随意等情况下,将图像信息转换成文字序列的过程。
现有的场景文本识别技术中,通过对整个自然场景图像进行检测,大致确定自然场景图像中的文本区域,进而从文本区域中识别出文字序列。由于自然场景图像的复杂性(如背景复杂、分辨率低下、字体多样等),容易造成最终的识别结果产生多余的字符、或者丢失字符的情况,进而导致场景文本的识别准确率低下。
发明内容
本申请实施例提供一种图像识别方法、装置、计算机设备以及存储介质,可以提高图像识别的准确率。
本申请实施例一方面提供了一种图像识别方法,包括:
根据分类器集合获取与图像相关联的对象识别结果集合;分类器集合包括至少两个分类器,至少两个分类器为处于不同的参数训练阶段的模型,至少两个分类器均用于识别图像中所包含的目标对象,每个分类器均对应一个识别结果;
获取至少两个分类器分别对应的识别置信度;
根据识别置信度与对象识别结果集合中所包含的识别结果,确定图像对应的目标识别结果。
其中,上述根据分类器集合获取与图像相关联的对象识别结果集合,包括:
获取图像,将图像依次输入至少两个分类器中,从至少两个分类器中分别获取图像对应的预测结果;
从通用对象集合中获取与预测结果相匹配的候选对象,将候选对象与预测结果均确定为对象识别结果集合中的识别结果。
其中,上述从通用对象集合中获取与预测结果相匹配的候选对象,包括:
根据分类器集合确定分类器子集合Hi;分类器子集合Hi为分类器集合的子集,分类器子集合Hi中的任意两个分类器对应的预测结果之间的相似距离均小于或等于第一距离阈值,i小于或等于I,I用于表示分类器子集合的数量;
获取通用对象集合,从通用对象集合中获取通用对象aj,确定通用对象aj与分类器子集合Hi中分类器对应的预测结果之间的最大相似距离;j小于或等于N,N用于表示通用对象集合中所包含的通用对象的数量;
若最大相似距离小于或等于第二距离阈值,则将通用对象aj确定为候选对象。
其中,上述获取图像,将图像依次输入至少两个分类器中,从至少两个分类器中分别获取图像对应的预测结果,包括:
获取图像,将图像输入分类器集合中所包含的分类器hk中,根据分类器hk中的卷积层,获取图像对应的特征序列;k小于或等于L,L用于表示分类器集合中所包含的分类器的数量;
根据分类器hk中的递归层对特征序列进行预测,得到图像对应的预测结果。
其中,上述根据识别置信度与对象识别结果集合中所包含的识别结果,确定图像对应的目标识别结果,包括:
根据对象识别结果集合中所包含的识别结果确定至少一个结果类别;
获取至少两个分类器分别对应的识别置信度与对应分类器的识别结果的乘积,作为对象识别结果集合中的识别结果所对应的加权投票值;
将每个结果类别的识别结果所对应的加权投票值进行累加,得到每个结果类别分别对应的加权投票总值,将最大的加权投票总值对应的结果类别,确定为图像对应的目标识别结果。
其中,该方法还包括:
从验证数据集中获取验证样本图像,将验证样本图像输入分类器集合中的至少两个分类器中,根据至少两个分类器获取与验证样本图像相关联的验证识别结果;
从通用对象集合中获取与验证识别结果相匹配的通用对象,作为针对验证样本图像的验证候选对象;
根据验证候选对象与验证识别结果,确定验证样本图像对应的验证标签;
获取验证标签与至少两个分类器分别对应的验证识别结果之间的相似度,根据相似度确定至少两个分类器分别对应的识别置信度。
其中,上述获取验证标签与至少两个分类器分别对应的验证识别结果之间的相似度,根据相似度确定至少两个分类器分别对应的识别置信度,包括:
获取验证标签与分类器hk对应的验证识别结果之间的目标相似距离;k小于或等于L,L用于表示分类器集合中所包含的分类器的数量;
根据目标相似距离确定验证标签与分类器hk对应的验证识别结果之间的相似度;
获取相似度对应的增值参数,根据增值参数与相似度确定分类器hk对应的识别置信度;增值参数由验证标签与分类器hk对应的验证识别结果之间的关系所确定。
其中,该方法还包括:
获取训练样本图像以及训练样本图像对应的标签信息;标签信息用于表征训练样本图像中所包含的样本对象;
对训练样本图像进行图像增强,根据图像增强后的训练样本图像与标签信息之间的映射关系,对模型进行训练;
当模型对应的目标训练次数满足选取节点时,将处于目标训练次数的模型添加到分类器集合。
其中,上述当模型对应的目标训练次数满足选取节点时,将处于目标训练次数的模型确定为分类器集合,包括:
当模型对应的目标训练次数满足选取节点时,将处于目标训练次数的模型确定为初始分类器集合;
获取初始分类器集合所对应的至少两个二值向量,根据至少两个二值向量从初始分类器集合中获取至少两个待选分类器集合;至少两个二值向量用于筛选初始分类器集合中所包含的待选分类器,每个二值向量均对应一个待选分类器集合;
根据待选分类器获取验证数据集中所包含的验证样本图像对应的验证识别结果;
根据两个待选分类器集合分别对应的验证识别结果,确定至少两个待选分类器集合分别对应的性能评估值,将至少两个待选分类器集合中选择满足数值阈值的性能评估值所对应的待选分类器集合,作为分类器集合。
其中,上述获取训练样本图像以及训练样本图像对应的标签信息,包括:
获取对象数据,根据对象数据、背景图像以及位置信息,得到包含对象数据的合成样本图像;
从通用图像库中获取自然场景图像,将自然场景图像与合成样本图像确定为训练样本图像,获取训练样本图像对应的标签信息。
其中,目标对象为文本对象,目标识别结果为文本信息;
该方法还包括:
将文本信息输入数据库中进行数据检索,从数据库中获取与文本信息相关联的检索信息。
本申请实施例一方面提供了一种图像识别装置,包括:
第一获取模块,用于根据分类器集合获取与图像相关联的对象识别结果集合;分类器集合包括至少两个分类器,至少两个分类器为处于不同的参数训练阶段的模型,至少两个分类器均用于识别图像中所包含的目标对象,每个分类器均对应一个识别结果;
第二获取模块,用于获取至少两个分类器分别对应的识别置信度;
第一确定模块,用于根据识别置信度与对象识别结果集合中所包含的识别结果,确定图像对应的目标识别结果。
其中,第一获取模块包括:
识别单元,用于获取图像,将图像依次输入至少两个分类器中,从至少两个分类器中分别获取图像对应的预测结果;
匹配单元,从通用对象集合中获取与预测结果相匹配的候选对象,将候选对象与预测结果均确定为对象识别结果集合中的识别结果。
其中,匹配单元包括:
子集合确定子单元,用于根据分类器集合确定分类器子集合Hi;分类器子集合Hi为分类器集合的子集,分类器子集合Hi中的任意两个分类器对应的预测结果之间的相似距离均小于或等于第一距离阈值,i小于或等于I,I用于表示分类器子集合的数量;
距离确定子单元,用于获取通用对象集合,从通用对象集合中获取通用对象aj,确定通用对象aj与分类器子集合Hi中分类器对应的预测结果之间的最大相似距离;j小于或等于N,N用于表示通用对象集合中所包含的通用对象的数量;
比较子单元,用于若最大相似距离小于或等于第二距离阈值,则将通用对象aj确定为候选对象。
其中,识别单元包括:
特征获取子单元,用于获取图像,将图像输入分类器集合中所包含的分类器hk中,根据分类器hk中的卷积层,获取图像对应的特征序列;k小于或等于L,L用于表示分类器集合中所包含的分类器的数量;
预测子单元,用于根据分类器hk中的递归层对特征序列进行预测,得到图像对应的预测结果。
其中,第一确定模块包括:
类别获取单元,用于根据对象识别结果集合中所包含的识别结果确定至少一个结果类别;
运算单元,用于获取至少两个分类器分别对应的识别置信度与对应分类器的识别结果的乘积,作为对象识别结果集合中的识别结果所对应的加权投票值;
结果选择单元,用于将每个结果类别的识别结果所对应的加权投票值进行累加,得到每个结果类别分别对应的加权投票总值,将最大的加权投票总值对应的结果类别,确定为图像对应的目标识别结果。
其中,该装置还包括:
验证模块,用于从验证数据集中获取验证样本图像,将验证样本图像输入分类器集合中的至少两个分类器中,根据至少两个分类器获取与验证样本图像相关联的验证识别结果;
候选对象选择模块,用于从通用对象集合中获取与验证识别结果相匹配的通用对象,作为针对验证样本图像的验证候选对象;
第二确定模块,用于根据验证候选对象与验证识别结果,确定验证样本图像对应的验证标签;
置信度确定模块,用于获取验证标签与至少两个分类器分别对应的验证识别结果之间的相似度,根据相似度确定至少两个分类器分别对应的识别置信度。
其中,置信度确定模块包括:
相似距离获取单元,用于获取验证标签与分类器hk对应的验证识别结果之间的目标相似距离;k小于或等于L,L用于表示分类器集合中所包含的分类器的数量;
相似度确定单元,用于根据目标相似距离确定验证标签与分类器hk对应的验证识别结果之间的相似度;
增值参数确定单元,用于获取相似度对应的增值参数,根据增值参数与相似度确定分类器hk对应的识别置信度;增值参数由验证标签与分类器hk对应的验证识别结果之间的关系所确定。
其中,该装置还包括:
样本获取模块,用于获取训练样本图像以及训练样本图像对应的标签信息;标签信息用于表征训练样本图像中所包含的样本对象;
训练模块,用于对训练样本图像进行图像增强,根据图像增强后的训练样本图像与标签信息之间的映射关系,对模型进行训练;
分类器选择模块,用于当模型对应的目标训练次数满足选取节点时,将处于目标训练次数的模型添加到分类器集合。
其中,分类器选择模块包括:
初始分类器选取单元,用于当模型对应的目标训练次数满足选取节点时,将处于目标训练次数的模型确定为初始分类器集合;
筛选单元,用于获取初始分类器集合所对应的至少两个二值向量,根据至少两个二值向量从初始分类器集合中获取至少两个待选分类器集合;至少两个二值向量用于筛选初始分类器集合中所包含的待选分类器,每个二值向量均对应一个待选分类器集合;
验证结果获取单元,用于根据待选分类器获取验证数据集中所包含的验证样本图像对应的验证识别结果;
性能评估单元,用于根据两个待选分类器集合分别对应的验证识别结果,确定至少两个待选分类器集合分别对应的性能评估值,将至少两个待选分类器集合中选择满足数值阈值的性能评估值所对应的待选分类器集合,作为分类器集合。
其中,样本获取模块包括:
合成单元,用于获取对象数据,根据对象数据、背景图像以及位置信息,得到包含对象数据的合成样本图像;
训练样本确定单元,用于从通用图像库中获取自然场景图像,将自然场景图像与合成样本图像确定为训练样本图像,获取训练样本图像对应的标签信息。
其中,目标对象为文本对象,目标识别结果为文本信息;
该装置还包括:
检索模块,用于将文本信息输入数据库中进行数据检索,从数据库中获取与文本信息相关联的检索信息。
本申请实施例一方面提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行本申请实施例中一方面中方法的步骤。
本申请实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时,执行如本申请实施例中一方面中方法的步骤。
本申请实施例通过分类器集合获取与图像相关联的对象识别结果集合,该分类器集合中所包含的分类器是处于不同参数训练阶段的模型,根据分类器集合中每个分类器分别对应的识别置信度,以及对象识别结果集合中所包含的识别结果,确定图像对应的目标识别结果。可见,可以基于同一单模型确定分类器集合,进而确定分类器集合中每个分类器分别对应的识别置信度,在分类器集合对图像进行识别的过程中,每个分类器均可以得到一个针对该图像的识别结果,根据每个分类器分别对应的识别置信度和对应分类器的识别结果,可以从对象识别结果集合中确定该图像的最终识别结果,即将分类器集合中所有分类器分别对应的识别结果进行集成,以得到针对该图像的最优识别结果,可以提高图像识别的准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种网络架构图;
图2a和图2b是本申请实施例提供的一种图像文本识别场景示意图;
图3是本申请实施例提供的一种图像识别方法的流程示意图;
图4是本申请实施例提供的一种车牌图像识别场景示意图;
图5a和图5b是本申请实施例提供的另一种图像文本识别场景示意图;
图6是本申请实施例提供的另一种图像识别方法的流程示意图;
图7是本申请实施例提供的一种分类器筛选的示意图;
图8是本申请实施例提供的一种代价编辑距离与相似度之间的关系示意图;
图9是本申请实施例提供的一种图像识别装置的结构示意图;
图10是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的方案属于人工智能领域下属的计算机视觉技术(ComputerVision,CV)和自然语言处理技术(Natural Language Processing,NLP)。
计算机视觉技术是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。自然语言处理技术是用于研究人与计算机之间使用自然语言进行有效通信的理论和方法,可以对文本数据进行系统化分析、理解以及信息提取。在本申请中,尤其涉及到场景文本识别(Scene Text Recognition,STR),场景文本识别是指识别自然场景图片中的文字信息,不仅需要使用计算机视觉技术来提取场景图像中文字区域的特征向量,还需要借助自然语言处理技术将图像特征向量解码为文字结果。
请参见图1,是本申请实施例提供的一种网络架构图。该网络架构可以包括服务器10d以及多个终端设备(如图1所示,具体包括终端设备10a、终端设备10b以及终端设备10c),服务器10d可以通过网络与每个终端设备进行数据传输。
以终端设备10a为例,当终端设备10a获取到用户上传的图像时,终端设备10a可以将用户上传的图像发送至服务器10d。服务器10d在接收到终端设备10a发送的图像后,可以将该图像分别输入多个分类器中,每个分类器均可以从该图像中提取目标对象区域的特征向量,并对提取出的特征向量进行识别,得到针对该图像的识别结果,将多个分类器分别对应的识别结果进行加权求和,进而得到该图像最终的识别结果。服务器10d在获得图像最终的识别结果后,可以将最终的识别结果返回至终端设备10a,以使终端设备10a可以对返回的识别结果进行保存,或执行后续任务。其中,该图像中所包含的目标对象可以是指文字,也可以是指除文字之外的其余对象,如行人等,上述多个分类器是单一网络模型在参数训练过程中所产生的,如单一网络模型在进行微调训练时的训练次数为1000次,则可以将每次训练得到的网络模型看成一个分类器,进而可以从1000个分类器中选择一定数量(如100)的分类器作为最终用于图像识别的分类器。
当然,若终端设备10a集成了图像检测和图像识别功能,也可以直接由终端设备10a中的多个分类器对用户上传的图像进行识别,进而对多个分类器分别得到的识别结果进行集成,得到图像最终的识别结果。可以理解地,本申请实施例提出的图像识别方案可以由应用程序执行,用户可以将图像上传至应用程序的客户端,由后台服务器对用户上传的图像进行识别,得到最终的识别结果。下述均以终端设备10a如何对图像进行识别,得到图像最终的集成识别结果为例进行具体说明。其中,终端设备10a、终端设备10b以及终端设备10c等可以包括手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internetdevice,MID)、可穿戴设备(例如智能手表、智能手环等)等。
请一并参见图2a和图2b,是本申请实施例提供的一种图像文本识别场景示意图。以本申请提出的图像识别方法如图2a所示,终端设备可以获取需要进行图像文本识别的图像20a,图像20a可以是指从终端设备图片应用中所选择的包含场景文本图片,或者是从互联网上下载的场景文本图片,或者是采用终端设备中的相机实时拍摄的场景文本图片,等等。终端设备可以获取分类器集合,该分类器集合中可以包括至少两个分类器(如分类器10b和分类器20c等),每个分类器均可以用于对图像20a进行文本识别,且每个分类器均是通过单一网络模型训练学习得到的,即分类器集合中的至少两个分类器之间的区别在于网络参数不同,每个分类器的网络结构是相同的,其中,单一网络模型可以是指深度神经网络,每个分类器均可以由多个卷积层和递归层构成。
终端设备可以将图像20a依次输入分类器集合的每个分类器中,如将图像20a输入分类器20b中,可以根据分类器20b中的多个卷积层从图像20a中提取文字区域的特征序列,进而根据分类器10b中的递归层,对提取到的特征序列进行预测,得到特征序列对应的文本标签,使用联结主义时间分类(Connectionist temporal classification,CTC)技术将输出的文本标签翻译成最终的文本信息,即得到分类器20b对图像20a的文本识别结果。分类器集合中的每个分类器均可以得到一个针对图像20a的识别结果,并将每个分类器分别对应的识别结果添加至文本识别结果集合20d,如识别结果可以包括:“幸福”、“举福”、“参辐”、“寿物”等,当然,不同分类器得到的识别结果可能是相同的,即文本识别结果集合20d中可以包括多个相同的识别结果,如根据分类器20b获得的识别结果为“幸福”,根据分类器20c获得的识别结果也有可能为“幸福”。终端设备可以将文本识别结果集合20d中相同的识别结果作为一个类别。
终端设备可以获取分类器集合中每个分类器分别对应的权重(也可以称为识别置信度,用于表征每个分类器对图像20a最终识别结果的置信度),如分类器集合中的分类器1对应的权重为:权重w1,分类器2对应的权重为:w2,分类器3对应的权重为:权重w3等。将文本识别结果集合20d中的每个识别结果与对应分类器的权重相乘,得到每个识别结果分别对应的投票值,进而可以对同一类别的识别结果所对应的投票值进行累加,得到每个类别分别对应的投票总值,将投票总值最大的类别确定为图像20a最终的目标识别结果。如文本识别结果集合20d中类别“幸福”对应的投票总值最大时,将“幸福”确定为图像20a对应的目标识别结果。
可以理解地,本申请提出的图像识别方案可以应用于信息检索任务,请一并参见图2b,用户需要在终端设备10a中的文本输入框20g中输入文本信息进行检索时,用户可以选择“图片识别”功能按键,将包含文本信息的图像20a上传至终端设备10a,终端设备10a在接收到用户上传的图像20a后,可以对图像20a进行文本识别,此时在终端设备10a的中终端界面中可以显示上述图像20a,并显示“正在识别…”,当终端设备10a完成对图像20a的文本识别过程后,可以将最终的识别结果输入文本输入框20g中,图像20a的文本识别过程可以参见上述图2a对应的实施例,当终端设备10a得到的最终识别结果为“幸福”时,可以将本文信息“幸福”输入文本输入框20g中,并将文本信息“幸福”作为关键词进行检索,以使终端设备10a可以从信息数据库中检索到与文本信息“幸福”相关联的检索信息。
请参见图3,是本申请实施例提供的一种图像识别方法的流程示意图。如图3所示,该图像识别方法可以包括以下步骤:
步骤S101,根据分类器集合获取与图像相关联的对象识别结果集合;分类器集合包括至少两个分类器,至少两个分类器为处于不同的参数训练阶段的模型,至少两个分类器均用于识别图像中所包含的目标对象,每个分类器均对应一个识别结果。
具体的,终端设备可以获取图像(如上述图2a所对应实施例中的图像20a),该图像可以是指用户上传至终端设备的包含目标对象的图像,也可以是指利用摄像机实时拍摄的包含目标对象的场景图像。终端设备可以将获取到的图像依次输入至分类器集合中的每个分类器中,根据每个分类器获取与该图像中所包含的目标对象相关联的识别结果,将所有分类器对应的识别结果添加至对象识别结果集合。其中,分类器集合中包括至少两个分类器,每个分类器均为处于不同参数训练阶段的单一网络模型,每个分类器均可以用于识别图像中所包含的目标对象,每个分类器均可以对应一个针对目标对象的识别结果,目标对象可以包括但不限于:文本、行人、狗等动物。换言之,当分类器集合包含a个分类器时,对象识别结果集合中至少包括a个识别结果,即至少包括每个分类器分别对应的识别结果。可以理解地,由于分类器集合中的每个分类器为处于不同参数训练阶段的单一网络模型,因此每个分类器均具有相同的网络结构,区别在于具有不同的网络模型参数,如每个分类器均可以是看成一个深度神经网络,且每个分类器均可以包括多个卷积层、递归层等网络结构。
其中,对于终端设备获取到的图像x,终端设备可以将获取到的图像x依次输入分类器集合h={h1,h2,...,hL}中的每个分类器hk中,其中,hk用于表示分类器集合中的任一分类器,k为小于或等于L的正整数,L表示分类器集合h中所包含的分类器的数量;根据分类器hk中的卷积层,获取图像x对应的特征序列,进而根据分类器hk中的递归层对特征序列进行预测,得到图像x对应的识别结果hk(x),此处也可以将识别结果hk(x)称为预测结果,通过分类器集合h中所包含的L个分类器,可以得到L个预测结果。分类器hk中的卷积层可以用于提取图像x中包含目标对象的区域对应的特征序列,分类器hk中的卷递归层可以用于预测上述特征序列对应的识别结果hk(x)。当图像x中所包含的目标对象为文本时,还可以使用CTC技术将hk(x)翻译成最终的文本信息;当图像x中所包含的目标对象为行人或狗等对象时,识别结果hk(x)可以是指图像x中所包含的目标对象对应的类型标签信息。
可选的,当图像x为场景文本图像,即目标对象为文本时,终端设备在通过分类器集合h获得L个预测结果后,可以获取通用对象集合(也可以称为字典,在字典中可以包括文本识别领域中的通用文本),从通用对象集合中获取与预测结果相匹配的候选对象,将候选对象与预测结果均确定为对象识别结果集合中的识别结果。换言之,分类器集合h得出的预测结果中可能并不包含图像x中所包含的真实识别结果,因此可以从通用对象集合中获取一些与上述预测结果相似的候选对象。应当理解,从通用对象集合中所获取的候选对象需要满足与分类器集合h中大部分分类器所给出的预测结果之间的距离小于或等于第一距离阈值。
下述对候选对象的确定过程进行具体说明:根据分类器集合确定分类器子集合Hi;分类器子集合Hi为分类器集合的子集,分类器子集合Hi中的任意两个分类器对应的预测结果之间的相似距离均小于或等于第一距离阈值,i为小于或等于I的正整数,I用于表示分类器子集合的数量,即可以从分类器集合中获取至少一个分类器子集合Hi;获取通用对象集合,从通用对象集合中获取通用对象aj,确定通用对象aj与分类器子集合Hi中分类器对应的预测结果之间的最大相似距离;j小于或等于N,N用于表示通用对象集合中所包含的通用对象的数量;若最大相似距离小于或等于第二距离阈值,则将通用对象aj确定为候选对象。
其中,分类器子集合Hi的构建可以理解为寻找无向图G(V,E)最大团的问题,V称为无向图G中的顶点集,本申请实施例中是指分类器集合所获得的每个不重复的预测结果,也可以称为所有预测结果的类别;E是指无向图G中的边,本申请实施例中是指任意两个不重复的预测结果之间的相似距离小于第一距离阈值时,表示上述两个不重复的预测结果之间存在边,即分类器子集合Hi中的每两个分类器均需要满足ED(hm(x),hn(x))≤2θ,其中,ED()表示用于确定两个预测结果之间距离的函数,hm(x),hn(x)分别表示为分类器子集合Hi中的任意两个分类器,2θ可以表示为第一距离阈值,θ为参数。通过获取通用对象集合中的每个通用对象aj,通过距离函数ED()计算通用对象aj与分类器子集合Hi中每个分类器的预测结果之间的相似距离,若通用对象aj与分类器子集合Hi中所包含的预测结果之间的最大相似距离小于或等于第二距离阈值θ,即满足则可以将通用对象aj确定为图像x的候选对象,并将通用对象aj添加至对象识别结果集合中,作为与图像x相关联的识别结果,即对象识别结果集合中可以包括每个分类器分别对应的预测结果和从通用对象集合中所确定的候选对象。应当理解,通用对象aj只要与任意一个分类器子集合Hi所对应的预测结果之间的最大相似距离小于或者等于第二距离阈值θ,即可将通用对象aj确定为候选对象,候选对象与分类器对应的预测结果可以相同,也可以不同。需要说明的是,目标对象为本文时,相似距离可以是指两个预测结果之间的编辑距离,编辑距离是指两个文本字符串之间,由一个文本字符串转成另一个文本字符串所需的最少编辑操作次数。
例如,若分类器集合包括10个分类器,分别为:分类器1,分类器2,分类器3,...,分类器10,上述10个分类器分别对应的预测结果分别为:识别结果1,识别结果2,识别结果3,...,识别结果10;通过计算上述10个识别结果之间的相似距离,可以确定至少一个分类器子集合,如第一个分类器子集合可以包括:分类器1、分类器3以及分类器5,第二个分类器子集合可以包括:分类3、分类器6、分类器7以及分类器8,第一个分类器子集合中所包含的分类满足:识别结果1与识别结果3之间的相似距离小于或等于第一距离阈值2θ、识别结果1与识别结果5之间的相似距离小于或等于第一距离阈值2θ、以及识别结果3与识别结果5之间的相似距离小于或等于第一距离阈值2θ。同理,第二个分类器子集合中所包含的分类器也满足:识别结果3与识别结果6之间的相似距离小于或等于第一距离阈值2θ、识别结果3与识别结果7之间的相似距离小于或等于第一距离阈值2θ、识别结果3与识别结果8之间的相似距离小于或等于第一距离阈值2θ、识别结果6与识别结果7之间的相似距离小于或等于第一距离阈值2θ、识别结果6与识别结果8之间的相似距离小于或等于第一距离阈值2θ,以及识别结果7与识别结果8之间的相似距离小于或等于第一距离阈值2θ。对通用对象集合中所包含的通用对象进行遍历,分别计算每个通用对象与分类器子集合对应的预测结果之间的相似距离,如对于上述第一分类器子集合,可以计算通用对象aj与识别结果1之间的相似距离1,通用对象aj与识别结果3之间的相似距离2,通用对象aj与识别结果5之间的相似距离3;若相似距离1、相似距离2以及相似距离3中的最大相似距离小于或等于第二距离阈值θ,则可以将通用对象aj作为候选对象添加至对象识别结果集合;若相似距离1、相似距离2以及相似距离3中的最大相似距离大于第二距离阈值θ,则继续计算该通用对象aj与下一个分类器子集合对应的预测结果之间的相似距离,直至确定出通用对象aj为候选对象,或者最终确定出通用对象aj与任一个分类器子集合对应的预测结果之间的最大相似距离均大于第二距离阈值θ。
步骤S102,获取至少两个分类器分别对应的识别置信度。
具体的,终端设备可以获取分类器集合中每个分类器分别对应的识别置信度,也可以称为每个分类器分别对应的权重。识别置信度是在验证分类器识别性能的基础上确定的,即在使用分类器集合对获取到的图像进行识别之前,已经预先确定了每个分类器分别对应的识别置信度,识别置信度可以用于表征分类器所获得的预测结果的可信度。
步骤S103,根据识别置信度与对象识别结果集合中所包含的识别结果,确定图像对应的目标识别结果。
具体的,终端设备可以根据对象识别结果集合中所包含的识别结果确定至少一个结果类别;获取至少两个分类器分别对应的识别置信度与对应分类器的识别结果的乘积,作为对象识别结果集合中的识别结果所对应的加权投票值;将每个结果类别的识别结果所对应的加权投票值进行累加,得到每个结果类别分别对应的加权投票总值,将最大的加权投票总值对应的结果类别,确定为图像对应的目标识别结果。换言之,根据对象识别结果中所包含的识别结果,可以确定图像对应的至少一个结果类别,至少一个结果类别是指对象识别结果集合中不重复的识别结果;可以将每个分类器分别对应的识别置信度与对应分类器的识别结果相乘,得到对象识别结果集合中的识别结果分别对应的加权投票值,对各结果类别的加权投票值进行累加,得到每个结果类别分别对应的加权投票总值,将最大的加权投票总值对应的结果类别作为图像对应的目标识别结果。
以图像为场景文本图像为例,与场景文本图像相关联的对象识别结果集合中包括:“幸福”、“幸福”、“举福”、“幸福”、“举福”、“参辐”、“举福”、“寿物”、“参辐”以及“幸福”;分类器集合中包括10个分类器,该10个分类器分别对应的识别置信度为:置信度1、置信度2、置信度3、...、置信度10;终端设备可以确定针对图像的结果类别为:“幸福”、“举福”、“参辐”以及“寿物”。终端设备可以由置信度1、置信度2、置信度4以及置信度10确定结果类别“幸福”对应的加权投票总值1;由置信度3、置信度5以及置信度7确定结果类别“举福”对应的加权投票总值2;由置信度6以及置信度9确定结果类别“参辐”对应的加权投票总值3;由置信度8确定结果类别“寿物”对应的加权投票总值4(此处默认上述对象识别结果集合中所包含的识别结果依次由上述10个分类器获得)。终端设备通过比较加权投票总值1、加权投票总值2、加权投票总值3以及加权投票总值4的大小,若最大的加权投票总值为加权投票总值1,则图像对应的目标识别结果为:“幸福”。
可选的,当对象识别结果集合中包含从通用对象集合中获取的候选对象时,对于所有候选对象,均可以预先设定一个权重,在确定图像最终的目标识别结果过程中,可以将预先设定的权重与候选对象相乘,得到候选对象对应的加权投票值。可选的,还可以根据候选对象与所有预测结果之间的距离,将距离最短的预测结果所属的分类器对应的识别置信度,作为该候选对象的权重;当距离最短的预测结果存在多个时,可以计算多个预测结果所属分类器的识别置信度的平均值,将平均值确定为该候选对象的权重,例如,与候选对象r距离最短的预测结果为s,在分类器集合中,分类器1、分类器2以及分类器3对应的预测结果均为s,则可以将分类器1对应的识别置信度、分类器2对应的识别置信度以及分类器3对应的识别置信度三者的平均值,作为候选对象r对应的权重。
可选的,当目标对象为文本对象,目标识别结果为文本信息时,终端设备可以将文本信息输入数据库中进行数据检索,从数据库中获取与文本信息相关联的检索信息。例如,对于交通摄像头拍摄到的违规车辆的车牌图片,可以采用本申请实施例提出的图像识别方案,对车牌图片中的车牌号码进行识别,得到车牌图片对应的车牌号后,可以将车牌号输入车牌登记系统中进行检索,检索出与该车牌号相关联的车主信息(即检索信息),并基于车主信息找到该违规车辆的车主,进而可以对该车主进行劝诫、警告或者处罚等;对于行车过程中所拍摄的路标图片,可以将识别出的路标图片中的地址信息,并将地址信息输入导航系统中,对该地址信息进行搜索,找到与该地址信息相匹配的路线,而不需要车主手动输入地址信息,可以提高信息检索效率。
请一并参见图4,是本申请实施例提供的一种车牌图像识别场景示意图。如图4所示,若汽车21b在行驶过程中违反交通规则或者撞了行人后逃逸,且交通摄像头21a拍摄到该汽车21b的车牌图片21c,则可以将车牌图片21c输入终端设备10a中,终端设备10a在接收到车牌图片21c后,可以对车牌图片21c进行文字识别,即可以从车牌图片21c中检测文字所在区域,并提取文字所在区域的特征,对提取到的特征进行预测,得到车牌图片21c对应的识别结果为:川J B9518。将识别结果“川J B9518”输入至查询入口21d中,基于车牌管理系统中所存储的信息,可以从车牌管理系统中检索出与“川J B9518”相关联的信息列表21e,该信息列表21e中可以包括车主姓名(如“川J B9518”对应的车主姓名为“小A”)、车主地址(如“xx市xx区xx街”)以及扣分记录等信息。根据信息列表21e中的信息,可以快速找到该汽车21b的车主,进而可以对该车主实施惩罚措施。
请参见图5a和图5b,是本申请实施例提供的另一种图像文本识别场景示意图。如图5a所示,以场景文本图像为例,终端设备可以将获取到的场景文本图像30a输入分类器集合30b中的每个分类器中,可以得到与场景文本图像30a相关联的识别结果集合30c。其中,分类器集合30b可以包括n个分类器,分别为分类器1、分类器2、...、分类器n;将场景文本图像30a输入n个分类器中后,可以得到n个识别结果,即n个文本字符串,由n个识别结果可以构成识别结果集合30c,识别结果集合30c中可以包括:“Beaute”、“Beaute”、“Beoure”、“Beaure”以及“Bcaue”等。
终端设备可以获取通用对象集合30d,该通用对象集合30d中可以包括所有通用的英文字符串,如“Apple”、“Banana”、“Beaure”以及“Zoo”等通用字符串。根据分类器集合30b以及每个分类器分别对应的识别结果,可以确定至少一个分类器子集合,通过计算通用对象集合30d中的每个通用对象分别与分类对象子集合对应的每个识别结果之间的编辑距离(即上述相似距离),并根据编辑距离从通用对象集合30d中获取候选对象,并将候选对象添加至识别结果集合30c中,此时的识别结果集合30c中可以包括每个分类器分别对应的势必结果和从通用对象集合30d中获取的候选对象。如图5b所示,分类器集合30b对应的分类器子集合至少包括:分类器子集合30h,分类器子集合30i。其中,分类器子集合30h包括分类器1(对应的预测结果为“Beaute”)、分类器2(对应的预测结果为“Beaute”)以及分类器3(对应的预测结果为“Beoure”);分类器子集合30i包括分类器1(对应的预测结果为“Beaute”)、分类器5(对应的预测结果为“Beaure”)以及分类器7(对应的预测结果为“Bcaue”)。
可以从通用对象集合30d中获取任一通用对象,如通用对象“Apple”,计算通用对象“Apple”与分类器子集合30h中分类器对应的预测结果之间的编辑距离,即通用对象“Apple”与分类器1的预测结果之间的编辑距离为:距离1,通用对象“Apple”与分类器2的预测结果之间的编辑距离为:距离2(由于分类器1的预测结果与分类器2的预测结果相同,距离1等于距离2),通用对象“Apple”与分类器3的预测结果之间的编辑距离为:距离3。当距离1、距离2以及距离3中的最大距离大于第二距离阈值θ时,继续计算通用对象“Apple”与分类器子集合30i中分类器对应的预测结果之间的编辑距离,即通用对象“Apple”与分类器1的预测结果之间的编辑距离为:距离1,通用对象“Apple”与分类器5的预测结果之间的编辑距离为:距离4,通用对象“Apple”与分类器7的预测结果之间的编辑距离为:距离5。当距离1、距离4以及距离5中的最大距离大于第二距离阈值θ时,继续计算通用对象“Apple”与下一个分类器子集合中所包含的分类器对应的预测结果之间的编辑距离,若通用对象“Apple”与所有分类器子集合中分类器对应的预测结果之间的最大距离均大于第二距离阈值θ,则通用对象“Apple”不能作为候选对象。
当然,若通用对象与任一个分类器子集合中分类器对应的预测结果之间的最大距离小于或者等于第二距离阈值θ,则可以将该通用对象确定为候选对象添加至结果类别30e中。
终端设备可以根据识别结果集合30c和通用对象集合30d中获取的候选对象确定针对场景识别图像30a对应的结果类别30e,即不重复的识别结果,如“Beaute”、“Beoure”、“Beaure”以及“Bcaue”等。还可以获取分类器集合30b对应的识别置信度集合30f中,该识别置信度集合30f中包括每个分类器分别对应的识别置信度,如分类器1对应的识别置信度为:置信度1,分类器对应的识别置信度为:置信度2,...,分类器n对应的识别置信度为:置信度n。根据每个分类器分别对应的识别结果以及对应分类器的识别置信度,对每个结果类别进行加权求和,得到每个结果类别分别对应的加权投票总值,如“Beaute”对应的加权投票总值为:0.86,“Beoure”对应的加权投票总值为:0.56,“Bcaue”对应的加权投票总值为:0.19等,当“Beaute”对应的加权投票总值0.86最大时,可以将“Beaute”作为场景文本图像30a对应的目标识别结果。
本申请实施例通过分类器集合获取与图像相关联的对象识别结果集合,该分类器集合中所包含的分类器是处于不同参数训练阶段的模型,根据分类器集合中每个分类器分别对应的识别置信度,以及对象识别结果集合中所包含的识别结果,确定图像对应的目标识别结果。可见,可以基于同一单模型确定分类器集合,进而确定分类器集合中每个分类器分别对应的识别置信度,在分类器集合对图像进行识别的过程中,每个分类器均可以得到一个针对该图像的识别结果,根据每个分类器分别对应的识别置信度和对应分类器的识别结果,可以从对象识别结果集合中确定该图像的最终识别结果,即将分类器集合中所有分类器分别对应的识别结果进行集成,以得到针对该图像的最优识别结果,可以提高图像识别的准确率。
请参见图6,是本申请实施例提供的另一种图像识别方法的流程示意图。如图6所示,该图像识别方法可以包括:
步骤S201,获取训练样本图像以及训练样本图像对应的标签信息;标签信息用于表征训练样本图像中所包含的样本对象。
具体的,在基于分类器集合中的至少两个分类器对图像进行识别之前,终端设备还需要对分类器集合中所包含的至少两个分类器进行参数训练。终端设备可以获取训练样本图像以及训练样本图像对应的标签信息,其中,标签信息可以用于表征训练样本图像中所包含的样本对象,每个训练样本图像分别对应的标签信息均是预先标记好的。例如,训练样本图像为场景文本图像时,标签信息可以是指训练样本图像中所包含的文本信息;训练样本图像为包含人、物品等其余对象的图像时,标签信息可以是指训练样本图像中所包含的人、物品等其余对象对应的类型信息。
终端设备可以使用深度神经网络模型结构构建分类器集合,深度神经网络模型的训练过程需要大量的数据量,以防止模型过拟合(即训练数据量太少时,深度神经网络模型无法完成充分的训练,容易过度拟合符合少量训练数据的特征,对除训练数据之外的测试数据效果不好)。当训练样本图像为场景文本图像时,由于该场景文本识别领域中可用于模型训练的自然场景文本图像较少,因此可以获取对象数据,获取对象数据,根据对象数据、背景图像以及位置信息,得到包含对象数据的合成样本图像;从通用图像库中获取自然场景图像,将自然场景图像与合成样本图像确定为训练样本图像,获取训练样本图像对应的标签信息。换言之,可以通过收集大量的语料库(语料库中所包含的文本即可作为目标对象),并设定背景图像(包括前景/背景颜色)和目标对象对应的位置信息等信息,根据语料库中的文本、背景图像以及位置信息得到合成之后的图像,也可以称为合成样本图像,可以将通用图像库中获取的自然场景图像和合成样本图像作为训练样本图像。
在合成样本图像的生成过程中,还可以考虑合成样本图像中的文本字体、前景/背景颜色、透视变换、添加自然集成效果以及添加图像噪声等因素,以确保合成样本图像数据的多样性,合成样本图像对应的标签信息即为从语料库中获取的文本信息。
步骤S202,对训练样本图像进行图像增强,根据图像增强后的训练样本图像与标签信息之间的映射关系,对模型进行训练。
具体的,终端设备在获取到训练样本图像后,可以通过采样、调整大小等处理方式,对所有训练样本图像进行图像增强。其中,图像增强的目的在于:将原来不清晰的训练样本图像变得清晰或强调某些感兴趣的特征(如文本区域的特征),抑制不感兴趣的特征(如图像的背景特征),使之改善训练样本图像质量、丰富信息量,加强训练样本图像判读和识别效果。
终端设备可以根据图像增强后的训练样本图像与对应标签信息之间的映射关系,对模型(此处可以是指深度神经网络模型)进行训练。在模型进行参数训练的过程中,可以根据模型前向计算所得到的实际结果与期望结果之间的误差,对模型参数进行更新,以得到模型的最优参数。可选的,在本申请实施例中,可以采用两阶段训练方法对模型进行训练。首先可以使用合成样本图像作为第一训练阶段的训练样本图像,对模型进行预训练;预训练后的模型(即完成第一训练阶段的模型)在图像识别性能上还有待提高,因此可以将自然场景图像与合成样本图像进行混合,共同作为第二训练阶段的训练样本图像,对预训练后的模型进行精调,精调的轮次可以根据实际需求进行设定,例如,精调的轮次可以设置为20000次,即在第二训练阶段,可以对预训练后的模型进行20000次迭代(也可以理解为20000次参数训练),每迭代一次,即可对模型进行一次参数调整。
需要说明的是,第一训练阶段所采用的合成样本图像与第二训练阶段所采用的合成样本图像可以是不一样的,即可以将前述生成的所有合成样本图像划分为至少两部分,并从至少两部分中选择一部分合成样本图像作为第一训练阶段中的训练样本图像,从至少两部分中选择另一部分合成样本图像,并混合一部分自然场景图像作为第二训练阶段中的训练样本图像。
步骤S203,当模型对应的目标训练次数满足选取节点时,将处于目标训练次数的模型添加到分类器集合。
具体的,在对模型进行精调的过程中,每次参数调整后的模型均可以看成是一个用于图像识别的分类器。当模型在精调过程中的参数训练次数满足选取节点时(此时的参数训练次数可以称为目标训练次数),可以将处于目标训练次数的模型添加至分类器集合。如前述举例,模型的精调轮次为20000次,选取节点可以为200t(t可以表示为小于或等于100的正整数),即每隔200次抽取一个分类器添加至分类器集合,可以从精调过程中抽选出100个分类器构成分类器集合。应当理解,分类器集合中所包含的所有分类器均为模型处于目标训练次数时的模型,从单一模型的训练过程中抽取多个分类器构成分类器集合,可以节省分类器集合的训练时间。
步骤S204,从验证数据集中获取验证样本图像,将验证样本图像输入分类器集合中的至少两个分类器中,根据至少两个分类器获取与验证样本图像相关联的验证识别结果。
具体的,终端设备在确定了分类器集合后,可以在验证数据集中验证每个分类器的分类性能。验证数据集中可以包括多个验证样本图像,每个验证样本图像均对应有标签信息,该标签信息即为验证样本图像对应的期望识别结果。将验证数据集中的每个验证样本图像分别输入分类器集合所包含的每个分类器中,可以得到每个验证样本图像对应的验证识别结果。换言之,对于验证数据集中的任意一个验证样本图像,均可以分别输入分类器集合所包含的所有分类器中,得到所有分类器分别对应的验证识别结果。对于验证数据集中的验证样本图像a,根据分类器集合h={h1,h2,...,hL},可以得到与验证样本图像a相关联的L个验证识别结果。
可以理解地,根据每个验证样本图像分别对应的验证识别结果与期望识别结果,可以确定分类器对应的验证识别结果是否准确,若分类器实际得到的验证识别结果与期望识别结果相同,则表示该分类器对验证样本图像的验证识别结果是准确的;若分类器实际得到的验证识别结果与期望识别结果不相同,则表示该分类器对验证样本图像的验证识别结果不准确。因此,得到每个验证样本图像对应的验证识别结果后,可以统计每个分类器分别对应的识别准确率。例如,验证数据集中包括100个验证样本图像,若分类器集合中的分类器1识别正确的验证样本图像数量为70,则分类器1在验证数据集中的识别准确率为70%;若分类器集合中的分类器2识别正确的验证样本图像数量为85,则分类器2在验证数据集中的识别准确率为85%等。
可选的,终端设备还可以基于每个分类器在验证数据集中的识别准确率,对上述分类器集合中所包含的分类器进行筛选,即对上述步骤S203中获取到的分类器集合进行筛选,此时可以将处于目标训练次数的模型确定为初始分类器集合;获取初始分类器集合所对应的至少两个二值向量,根据至少两个二值向量从初始分类器集合中获取至少两个待选分类器集合;至少两个二值向量用于筛选初始分类器集合中所包含的待选分类器,每个二值向量均对应一个待选分类器集合;根据待选分类器获取验证数据集中所包含的验证样本图像对应的验证识别结果;根据两个待选分类器集合分别对应的验证识别结果,确定至少两个待选分类器集合分别对应的性能评估值,将至少两个待选分类器集合中选择满足数值阈值(可以是指所有性能评估值中的最大值,也可以是指预先设定的特定数值,如0.9)的性能评估值所对应的待选分类器集合,作为最终的分类器集合。换言之,终端设备可以遗传算法等优化算法对初始分类器集合进行筛选,从初始分类器集合中选择出性能较优的分类器作为最终用于集成的分类器集合,其中,遗传算法是一种高效、并行、全局搜索的方法,可以在搜索过程中自动获取和积累有关搜索空间的知识,并自适应地控制搜索过程以求得最佳解。
请一并参见图7,是本申请实施例提供的一种分类器筛选的示意图。如图7所示,初始分类器集合40a中包括10个分类器,分别为分类器1,分类器2,…,分类器10。根据遗传算法,对初始分类器集合40a中所包含的10个分类器进行编码,可以生成针对初始分类器集合40a的二值向量集合40b,该二值向量集合40b中可以包括多个二值向量,每个二值向量的维度均为初始分类器集合40a中所包含的分类器的数量,每个维度均可以表示对应的分类器是否被保留(即“1”表示对应分类器可以保留,“0”表示对应分类器不可以被保留),每个二值向量均可以确定一个待选分类器集合,如二值向量集合40b中的二值向量[0,1,1,0,1,1,1,0,0,1]可以确定待选分类器集合40c,该待选分类器集合40c中可以包括:分类器2、分类器3、分类器5、分类器6、分类器7以及分类器10;二值向量[1,0,1,0,1,1,1,0,0,0]可以确定待选分类器集合40d,该待选分类器集合40d中可以包括:分类器1、分类器3、分类器5、分类器6以及分类器7等。
在基于二值向量集合40b中所包含的二值向量确定出待选分类器集合后,终端设备可以将分类器在验证数据集中的识别准确率作为分类器适应度评估值,根据每个待选分类器集合中所包含的分类器,确定每个待选分类器集合分别对应的性能评估值,如待选分类器集合40c对应的性能评估值:0.55,待选分类器集合40d对应的性能评估值:0.89,若性能评估值最大(此时的数值阈值为所有性能评估值中的最大值)的待选分类器集合为待选分类器集合40d,则可以将待选分类器集合40d作为最终用于集成的分类器集合。其中,性能评估值可以是指待选分类器集合中所有分类器对应的识别准确率的平均值,如通过累加分类器1、分类器3、分类器5、分类器6以及分类器7分别对应的识别准确率,并将累加得到的总识别准确率除以5,以得到待选分类器集合40d对应的性能评估值。
步骤S205,从通用对象集合中获取与验证识别结果相匹配的通用对象,作为针对验证样本图像的验证候选对象。
具体的,由于分类器集合对应的验证识别结果并不一定包括验证样本图像对应的真实识别结果(即上述期望识别结果),因此可以从通用对象集合中获取与验证识别结果相匹配的通用对象,作为针对验证样本图像的验证候选对象。对于验证数据集中的验证样本图像a,可以根据验证样本图像a对应的验证识别结果{h1(a),h2(a),...,hL(a)},从通用对象集合中获取与验证样本图像a相匹配的验证候选对象,验证候选对象的确定过程可以参见上述图3所对应实施例中对候选对象确定过程(步骤S101)的描述,这里不再进行赘述。终端设备可以采用同样的方式,从通用对象集合中获取每个验证样本图像分别对应的验证候选对象,其中,验证样本图像对应的验证候选对象与该验证样本图像的验证识别结果均不相同。
步骤S206,根据验证候选对象与验证识别结果,确定验证样本图像对应的验证标签。
具体的,终端设备可以根据每个验证样本图像分别对应的验证候选对象和验证识别结果,确定每个验证样本图像分别对应的验证标签,即可以将验证样本图像a对应的验证识别结果{h1(a),h2(a),...,hL(a)}和验证候选对象中相同的验证识别结果作为一个验证标签,即每个验证样本图像对应的验证标签均包括分类器结合预测得到的验证识别结果类别和验证候选对象。
步骤S207,获取验证标签与至少两个分类器分别对应的验证识别结果之间的相似度,根据相似度确定至少两个分类器分别对应的识别置信度。
具体的,给定验证样本图像a和分类器集合h={h1,h2,...,hL}时,可以根据L个分类器对应的验证识别结果进行集成,预测验证标签y的概率为:
其中,P(y|hk,a)表示验证标签y和第k个分类器的验证识别结果hk(a)之间的相关性;P(hk|a)表示分类器hk的后验概率。P(hk|a)的计算方法为:
其中,P(hk)是分类器hk的先验概率,P(D|hk)是分类器hk在训练数据集D上的似然,在上述公式(2)中,P(hk)和为常量。此时,针对验证样本图像a最终的预测结果为:/>
其中,W(y,hk(a))表示验证标签y和第k个分类器的验证识别结果hk(a)的函数,W(y,hk(a))也可以理解为第k个分类器对应的识别置信度,且W(y,hk(a))∈R。
在优化公式(3)时,关键问题在于如何计算W(y,hk(a)),W(y,hk(a))的计算过程如下:
W(y,hk(a))=I(y=hk(a))+U(y)*V(y,hk(a)) (4)
其中,当y=hk(a)时,I(y=hk(a))返回1;当y≠hk(a)时,I(y=hk(a))返回0。当y属于通用对象集合时,U(y)返回1;当y不属于通用对象集合时,U(y)返回0。V(y,hk(a))用于度量验证标签y和验证识别结果hk(a)之间的相似度,I(y=hk(a))和U(y)可以作为相似度V(y,hk(a))对应的增值参数,以得到分类器对应的识别置信度W(y,hk(a))。
通过上述公式(4),可以得知确定分类器的识别置信度W(y,hk(a))的关键在于相似度V(y,hk(a))的确定过程。本申请实施例中,以验证样本图像是场景文本图像为例对相似度V(y,hk(a))的确定过程的具体过程进行说明:
终端设备可以使用代价编辑距离(Cost Levenshtein Distance,CLD)度量两个文本字符串之间的距离,即代价编辑距离用于度量验证标签y与验证识别结果hk(a)之间的距离。
其中,对于文本字符串c和文本字符串d,代价编辑距离可以表示为:
其中,LDc,d(p,q)表示文本字符串c中前p个字符和文本字符串d中前q个字符之间的距离,此处的p可以看成是文本字符串c的长度,q可以看成时文本字符串d的长度。当min(p,q)=0时,此时的p和q有一个值为0,表示文本字符串c和文本字符串d中有一个为空串,那么从文本字符串c转换到文本字符串d只需要进行max(p,q)次单字符编辑操作即可,所以此时文本字符串c和文本字符串d之间的编辑距离为p和q中的最大者;当min(p,q)≠0时,LDc,d(p,q)可以分为三种情况:LDc,d(p-1,q)+1表示删除cp(即文本字符串c中的第p个字符),LDc,d(p,q-1)+1表示插入dq(即文本字符串d中的第q个字符),LDc,d(p-1,q-1)+c(cp,dq)表示替换dq,c(cp,dq)为代价函数,代价函数c(cp,dq)可以表示为:
/>
其中,P(cp|dq)表示dq被错分为cp的概率,P(c|dq)表示dq存在于文本字符串c中的概率。
根据公式(5)和公式(6),度量验证标签y与验证识别结果hk(a)均为通用对象集合中的通用对象时,相似度V(y,hk(a))可以表示为:
其中,F是关于编辑距离的函数,F函数的构建需要考虑代价编辑距离的取值范围,该取值范围与验证样本图像对应的验证标签和验证识别结果相关联,当验证标签和验证识别结果对应的字符长度为3(如“bad”和“bed”)时,F函数仅考虑编辑距离不大于3的情况,当CD(y,hk(a))>3时,V(y,hk(a))=0,其中,V(y,hk(a))的值域为实数。
请一并参见图8,是本申请实施例提供的一种代价编辑距离与相似度之间的关系示意图。代价编辑距离的取值范围为[-3,3],可以预先设定整数点处V(y,hk(a))的取值(可以根据人为经验进行设定,也可以采用实验的方法进行设定,这里不做具体限定),对于其余位置的相似度可以采用线性插值的方法进行获取,其中,线性插值是指连接两个已知量来确定这两个已知量之间的未知量的值的方法。如图8所示,F(-3)=0.2,F(-2)=-0.1,F(-1)=-1.3,F(0)=1.5,F(1)=0.5,F(2)=0.2,F(3)=0.2,即V(-3)=0.2,V(-2)=0.1,V(-1)=1.3,V(0)=1.5,V(1)=0.5,V(2)=0.2,V(3)=0.2;对于除整数点之外的取值则可采用线性插值的方法来获取,如F(0.5)的取值可以根据F(0)=1.5和F(1)=0.5两个值来确定,根据线性插值方法,可以确定F(0.5)=1。
应当理解,编辑距离CD(y,hk(a))越小,验证标签y与验证识别结果hk(a)之间的相似度就越大,即|V(y,hk(a))|就越大。
在本申请实施例中,可以根据上述公式(5)和公式(6)计算验证标签y与验证识别结果hk(a)之间的代价编辑距离(也可以称为目标相似距离),进而可以根据上述公式(7)计算验证标签y与验证识别结果hk(a)之间的相似度,进一步地,根据上述公式(4)计算分类器集合中每个分类器分别对应的识别置信度。
应当理解,当分类器集合中的分类器为精调过程中所获取到的处于目标训练次数的模型,即将初始分类器集合作为最终用于集成的分类器集合时,终端设备需要计算初始分类器中每个分类器分别对应的识别置信度;当分类器集合中的分类器为初始分类器集合进行筛选之后的分类器时,终端设备可以选择仅计算筛选之后的每个分类器分别对应的识别置信度,也可以选择计算出初始分类器中每个分类器分别对应的识别置信度。
可选的,当验证样本图像为包含行人等其余对象的场景图像时,可以采用其余距离计算方法来确定验证标签y与验证识别结果hk(a)之间的相似度,如欧几里得距离(Eucledian Distance)、余弦相似度(Cosine Similarity)以及曼哈顿距离(ManhattanDistance)等。
步骤S208,根据分类器集合获取与图像相关联的对象识别结果集合;分类器集合包括至少两个分类器,至少两个分类器为处于不同的参数训练阶段的模型,至少两个分类器均用于识别图像中所包含的目标对象,每个分类器均对应一个识别结果。
步骤S209,获取至少两个分类器分别对应的识别置信度。
步骤S210,根据识别置信度与对象识别结果集合中所包含的识别结果,确定图像对应的目标识别结果。
其中,步骤S208-步骤S210的具体实现方式可以参见上述图3所对应实施例中的步骤S101-步骤S103,这里不再进行赘述。
基于上述获取到的分类器集合以及分类器集合中每个分类器分别对应的识别置信度,本申请实施例分别以聚焦文本的数据集(ICDAR2013 Challenge2)、非聚焦文本的数据集(ICDAR2015 Challenge 4)以及任意自然场景文本的数据集(COCO-Text)为例,对分类器集合的识别效果进行了实验验证。上述聚焦文本的数据集、非聚焦文本的数据集以及任意自然场景文本的数据集均为通用的场景文字数据集,场景图像中所包含的文字为英文文字。在实验过程中,分别对单模型(即经过精调后的深度神经网络模型,相当于一个单一的分类器)、分类器集成(即采用分类器集成策略,此处是指对上述初始分类器集合进行集成)、整体模型(即采用分类器筛选+分类器集成策略,此处是指对筛选后的分类器集合进行集成)进行实验验证。
在本申请实施例中,采用的测评标准包括区分大小写文本的识别率A和总编辑距离A,以及不区分大小写文本的识别率B和总编辑距离B,具体实验结果可以参见表1-表3,其中,表1是在聚焦文本的数据集中的测试实验结果,表2是在非聚焦文本的数据集中的测试实验结果,表3是在任意自然场景文本的数据集中的测试实验结果。应当理解,识别率(包括识别率A和识别率B)是指识别正确的图像数量与数据集中参与测试的图像总数量之间的比值,识别率越高,表明识别性能越好;总编辑距离(包括总编辑距离A和总编辑距离B)是指每个测试图像的真实文本与最终识别文本之间的编辑距离之和,总编辑距离越小,表明识别性能越好。例如,某测试图像对应的真实文本为“bad”,单模型对应的识别结果为:“aob”,整体模型对应的识别结果为:“bed”,虽然单模型和整体模型均识别错误,但“bed”与真实文本“bad”之间的编辑距离小于“aob”与真实文本“bad”之间的编辑距离,由此可以得知整体模型的识别性能优于单模型的识别性能。
表1
方案 识别率A(%) 总编辑距离A 识别率B(%) 总编辑距离B
单模型 84.11 100.12 86.12 82.89
分类器集成 91.51 67.80 94.16 49.72
整体模型 91.78 61.90 94.43 43.25
表2
方案 识别率A(%) 总编辑距离A 识别率B(%) 总编辑距离B
单模型 60.18 384.76 64.90 303.77
分类器集成 76.31 251.98 80.55 185.36
整体模型 79.78 224.70 84.21 147.11
表3
方案 识别率A(%) 总编辑距离A 识别率B(%) 总编辑距离B
单模型 29.49 4450.02 58.79 1808.40
分类器集成 36.69 4058.98 70.59 1276.86
整体模型 36.89 4059.04 70.96 1279.73
通过上述表1-表3可知,在聚焦文本的数据集、非聚焦文本的数据集以及任意自然场景文本的数据集三个数据集上,使用分类器集成策略和筛选策略(即使用整体模型)后,在聚焦文本的数据集中不区分大小写的识别率B为94.43%,总编辑距离为43.25;在非聚焦文本的数据集中不区分大小写的识别率B为84.21%,总编辑距离为147.11;在任意自然场景文本的数据集中不区分大小写的识别率B为70.96%,总编辑距离为1279.73。可以明显看出整体模型的识别性能远优于单模型的识别性能。
由于单模型多是针对规范大小写文本进行训练,因而,在聚焦文本的数据集和非聚焦文本的数据集两个数据集上,识别性能较好。而对于任意自然场景文本的数据集,由于图像更为模糊,同时存在各种大小写文本范式,因而对于大小写的识别情况相较于聚焦文本的数据集和非聚焦文本的数据集两个数据集,识别率A相对低一些。即便如此,本申请提出的方案(分类器集成、整体模型)相较于单模型的识别方法,性能仍有较大提升。因此,本申请实施例对于不同难度的数据集均具有很好的识别性能。
在申请实施例中,通过分类器集成策略和筛选策略,可以显著减少文本识别的总编辑距离,提高图像文本识别的准确率;基于单一模型学习分类器集合,可以提高模型训练效率。
请参见图9,是本申请实施例提供的一种图像识别装置的结构示意图。如图9所示,该图像识别装置1可以包括:第一获取模块10,第二获取模块11,第一确定模块12;
第一获取模块10,用于根据分类器集合获取与图像相关联的对象识别结果集合;分类器集合包括至少两个分类器,至少两个分类器为处于不同的参数训练阶段的模型,至少两个分类器均用于识别图像中所包含的目标对象,每个分类器均对应一个识别结果;
第二获取模块11,用于获取至少两个分类器分别对应的识别置信度;
第一确定模块12,用于根据识别置信度与对象识别结果集合中所包含的识别结果,确定图像对应的目标识别结果。
其中,第一获取模块10,第二获取模块11,第一确定模块12的具体功能实现方式可以参见上述图3所对应实施例中的步骤S101-步骤S103,这里不再进行赘述。
请一并参见图9,该图像识别装置1还可以包括:样本获取模块13,训练模块14,分类器选择模块15,验证模块16,候选对象选择模块17,第二确定模块18,置信度确定模块19;
样本获取模块13,用于获取训练样本图像以及训练样本图像对应的标签信息;标签信息用于表征训练样本图像中所包含的样本对象;
训练模块14,用于对训练样本图像进行图像增强,根据图像增强后的训练样本图像与标签信息之间的映射关系,对模型进行训练;
分类器选择模块15,用于当模型对应的目标训练次数满足选取节点时,将处于目标训练次数的模型添加到分类器集合;
验证模块16,用于从验证数据集中获取验证样本图像,将验证样本图像输入分类器集合中的至少两个分类器中,根据至少两个分类器获取与验证样本图像相关联的验证识别结果;
候选对象选择模块17,用于从通用对象集合中获取与验证识别结果相匹配的通用对象,作为针对验证样本图像的验证候选对象;
第二确定模块18,用于根据验证候选对象与验证识别结果,确定验证样本图像对应的验证标签;
置信度确定模块19,用于获取验证标签与至少两个分类器分别对应的验证识别结果之间的相似度,根据相似度确定至少两个分类器分别对应的识别置信度。
其中,目标对象为文本对象,目标识别结果为文本信息;
该图像识别装置1还可以包括:检索模块20;
检索模块20,用于将文本信息输入数据库中进行数据检索,从数据库中获取与文本信息相关联的检索信息。
其中,样本获取模块13,训练模块14,分类器选择模块15,验证模块16,候选对象选择模块17,第二确定模块18,置信度确定模块19的具体功能实现方式可以参见上述图6所对应实施例中的步骤S201-步骤S207,检索模块20的具体功能实现方式可以参见上述图3所对应实施例中的步骤S103,这里不再进行赘述。
请一并参见图9,第一获取模块10可以包括:识别单元101,匹配单元102;
识别单元101,用于获取图像,将图像依次输入至少两个分类器中,从至少两个分类器中分别获取图像对应的预测结果;
匹配单元102,从通用对象集合中获取与预测结果相匹配的候选对象,将候选对象与预测结果均确定为对象识别结果集合中的识别结果。
其中,识别单元101,匹配单元102的具体功能实现方式可以参见上述图3所对应实施例中的步骤S101,这里不再进行赘述。
请一并参见图9,识别单元101可以包括:特征获取子单元1011,预测子单元1012;
特征获取子单元1011,用于获取图像,将图像输入分类器集合中所包含的分类器hk中,根据分类器hk中的卷积层,获取图像对应的特征序列;k小于或等于L,L用于表示分类器集合中所包含的分类器的数量;
预测子单元1012,用于根据分类器hk中的递归层对特征序列进行预测,得到图像对应的预测结果。
其中,特征获取子单元1011,预测子单元1012的具体功能实现方式可以参见上述图3所对应实施例中的步骤S101,这里不再进行赘述。
请一并参见图9,匹配单元102可以包括:子集合确定子单元1021,距离确定子单元1022,比较子单元1023;
子集合确定子单元1021,用于根据分类器集合确定分类器子集合Hi;分类器子集合Hi为分类器集合的子集,分类器子集合Hi中的任意两个分类器对应的预测结果之间的相似距离均小于或等于第一距离阈值,i小于或等于I,I用于表示分类器子集合的数量;
距离确定子单元1022,用于获取通用对象集合,从通用对象集合中获取通用对象aj,确定通用对象aj与分类器子集合Hi中分类器对应的预测结果之间的最大相似距离;j小于或等于N,N用于表示通用对象集合中所包含的通用对象的数量;
比较子单元1023,用于若最大相似距离小于或等于第二距离阈值,则将通用对象aj确定为候选对象。
其中,子集合确定子单元1021,距离确定子单元1022,比较子单元1023的具体功能实现方式可以参见上述图3所对应实施例中的步骤S101,这里不再进行赘述。
请一并参见图9,第一确定模块12可以包括:类别获取单元121,运算单元122,结果选择单元123;
类别获取单元121,用于根据对象识别结果集合中所包含的识别结果确定至少一个结果类别;
运算单元122,用于获取至少两个分类器分别对应的识别置信度与对应分类器的识别结果的乘积,作为对象识别结果集合中的识别结果所对应的加权投票值;
结果选择单元123,用于将每个结果类别的识别结果所对应的加权投票值进行累加,得到每个结果类别分别对应的加权投票总值,将最大的加权投票总值对应的结果类别,确定为图像对应的目标识别结果。
其中,类别获取单元121,运算单元122,结果选择单元123的具体功能实现方式可以参见上述图3所对应实施例中的步骤S103,这里不再进行赘述。
请一并参见图9,样本获取模块13可以包括:合成单元131,训练样本确定单元132;
合成单元131,用于获取对象数据,根据对象数据、背景图像以及位置信息,得到包含对象数据的合成样本图像;
训练样本确定单元132,用于从通用图像库中获取自然场景图像,将自然场景图像与合成样本图像确定为训练样本图像,获取训练样本图像对应的标签信息。
其中,合成单元131,训练样本确定单元132的具体功能实现方式可以参见上述图6所对应实施例中的步骤S201,这里不再进行赘述。
请一并参见图9,分类器选择模块15可以包括:初始分类器选取单元151,筛选单元152,验证结果获取单元153,性能评估单元154;
初始分类器选取单元151,用于当模型对应的目标训练次数满足选取节点时,将处于目标训练次数的模型确定为初始分类器集合;
筛选单元152,用于获取初始分类器集合所对应的至少两个二值向量,根据至少两个二值向量从初始分类器集合中获取至少两个待选分类器集合;至少两个二值向量用于筛选初始分类器集合中所包含的待选分类器,每个二值向量均对应一个待选分类器集合;
验证结果获取单元153,用于根据待选分类器获取验证数据集中所包含的验证样本图像对应的验证识别结果;
性能评估单元154,用于根据两个待选分类器集合分别对应的验证识别结果,确定至少两个待选分类器集合分别对应的性能评估值,将至少两个待选分类器集合中选择满足数值阈值的性能评估值所对应的待选分类器集合,作为分类器集合。
其中,初始分类器选取单元151,筛选单元152,验证结果获取单元153,性能评估单元154的具体功能实现方式可以参见上述图7所对应的实施例这里不再进行赘述。
请一并参见图9,置信度确定模块19可以包括:相似距离获取单元191,相似度确定单元192,增值参数确定单元193;
相似距离获取单元191,用于获取验证标签与分类器hk对应的验证识别结果之间的目标相似距离;k小于或等于L,L用于表示分类器集合中所包含的分类器的数量;
相似度确定单元192,用于根据目标相似距离确定验证标签与分类器hk对应的验证识别结果之间的相似度;
增值参数确定单元193,用于获取相似度对应的增值参数,根据增值参数与相似度确定分类器hk对应的识别置信度;增值参数由验证标签与分类器hk对应的验证识别结果之间的关系所确定。
其中,相似距离获取单元191,相似度确定单元192,增值参数确定单元193的具体功能实现方式可以参见上述图6所对应实施例中的步骤S207,这里不再进行赘述。
本申请实施例通过分类器集合获取与图像相关联的对象识别结果集合,该分类器集合中所包含的分类器是处于不同参数训练阶段的模型,根据分类器集合中每个分类器分别对应的识别置信度,以及对象识别结果集合中所包含的识别结果,确定图像对应的目标识别结果。可见,可以基于同一单模型确定分类器集合,进而确定分类器集合中每个分类器分别对应的识别置信度,在分类器集合对图像进行识别的过程中,每个分类器均可以得到一个针对该图像的识别结果,根据每个分类器分别对应的识别置信度和对应分类器的识别结果,可以从对象识别结果集合中确定该图像的最终识别结果,即将分类器集合中所有分类器分别对应的识别结果进行集成,以得到针对该图像的最优识别结果,可以提高图像识别的准确率;基于单一模型学习分类器集合,可以提高模型训练效率。
请参见图10,是本申请实施例提供的一种计算机设备的结构示意图。如图10所示,该计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,上述计算机设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图10所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在如图10所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
根据分类器集合获取与图像相关联的对象识别结果集合;分类器集合包括至少两个分类器,至少两个分类器为处于不同的参数训练阶段的模型,至少两个分类器均用于识别图像中所包含的目标对象,每个分类器均对应一个识别结果;
获取至少两个分类器分别对应的识别置信度;
根据识别置信度与对象识别结果集合中所包含的识别结果,确定图像对应的目标识别结果。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图3、图6任一个所对应实施例中对图像识别方法的描述,也可执行前文图9所对应实施例中对图像识别装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且计算机可读存储介质中存储有前文提及的图像识别装置1所执行的计算机程序,且计算机程序包括程序指令,当处理器执行程序指令时,能够执行前文图3、图6任一个所对应实施例中对图像识别方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储存储器(Read-Only Memory,ROM)或随机存储存储器(Random Access Memory,RAM)等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (13)

1.一种图像识别方法,其特征在于,包括:
获取图像,将所述图像依次输入至分类器集合中的至少两个分类器,从所述至少两个分类器中分别获取所述图像对应的预测结果;所述至少两个分类器为目标训练次数满足不同选取节点的模型,且所述至少两个分类器具有相同的网络结构和不同的网络模型参数,所述至少两个分类器均用于识别所述图像中所包含的目标对象,每个分类器均对应一个识别结果;
从通用对象集合中获取与所述预测结果相匹配的候选对象,将所述候选对象和所述预测结果确定为对象识别结果集合;
获取所述至少两个分类器分别对应的识别置信度;
根据所述识别置信度与所述对象识别结果集合中所包含的识别结果,确定所述图像对应的目标识别结果。
2.根据权利要求1所述方法,其特征在于,所述从通用对象集合中获取与所述预测结果相匹配的候选对象,包括:
根据所述分类器集合确定分类器子集合Hi;所述分类器子集合Hi为所述分类器集合的子集,所述分类器子集合Hi中的任意两个分类器对应的预测结果之间的相似距离均小于或等于第一距离阈值,i小于或等于I,所述I用于表示分类器子集合的数量;
获取所述通用对象集合,从所述通用对象集合中获取通用对象aj,确定所述通用对象aj与所述分类器子集合Hi中分类器对应的所述预测结果之间的最大相似距离;j小于或等于N,所述N用于表示所述通用对象集合中所包含的通用对象的数量;
若所述最大相似距离小于或等于第二距离阈值,则将所述通用对象aj确定为所述候选对象。
3.根据权利要求1所述的方法,其特征在于,所述获取图像,将所述图像依次输入至分类器集合中的至少两个分类器,从所述至少两个分类器中分别获取所述图像对应的预测结果,包括:
获取所述图像,将所述图像输入所述分类器集合中所包含的分类器hk中,根据所述分类器hk中的卷积层,获取所述图像对应的特征序列;k小于或等于L,所述L用于表示所述分类器集合中所包含的分类器的数量;
根据所述分类器hk中的递归层对所述特征序列进行预测,得到所述图像对应的所述预测结果。
4.根据权利要求1所述的方法,其特征在于,所述根据所述识别置信度与所述对象识别结果集合中所包含的识别结果,确定所述图像对应的目标识别结果,包括:
根据所述对象识别结果集合中所包含的识别结果确定至少一个结果类别;
获取所述至少两个分类器分别对应的识别置信度与对应分类器的识别结果的乘积,作为所述对象识别结果集合中的识别结果所对应的加权投票值;
将每个结果类别的识别结果所对应的加权投票值进行累加,得到所述每个结果类别分别对应的加权投票总值,将最大的加权投票总值对应的结果类别,确定为所述图像对应的目标识别结果。
5.根据权利要求1所述的方法,其特征在于,还包括:
从验证数据集中获取验证样本图像,将所述验证样本图像输入所述分类器集合中的所述至少两个分类器中,根据所述至少两个分类器获取与所述验证样本图像相关联的验证识别结果;
从所述通用对象集合中获取与所述验证识别结果相匹配的通用对象,作为针对所述验证样本图像的验证候选对象;
根据所述验证候选对象与所述验证识别结果,确定所述验证样本图像对应的验证标签;
获取所述验证标签与所述至少两个分类器分别对应的所述验证识别结果之间的相似度,根据所述相似度确定所述至少两个分类器分别对应的所述识别置信度。
6.根据权利要求5所述的方法,其特征在于,所述获取所述验证标签与所述至少两个分类器分别对应的所述验证识别结果之间的相似度,根据所述相似度确定所述至少两个分类器分别对应的所述识别置信度,包括:
获取所述验证标签与分类器hk对应的验证识别结果之间的目标相似距离;k小于或等于L,所述L用于表示所述分类器集合中所包含的分类器的数量;
根据所述目标相似距离确定所述验证标签与所述分类器hk对应的验证识别结果之间的相似度;
获取所述相似度对应的增值参数,根据所述增值参数与所述相似度确定所述分类器hk对应的所述识别置信度;所述增值参数由所述验证标签与所述分类器hk对应的验证识别结果之间的关系,以及所述验证标签与所述通用对象集合之间的关系所确定。
7.根据权利要求1所述的方法,其特征在于,还包括:
获取训练样本图像以及训练样本图像对应的标签信息;所述标签信息用于表征所述训练样本图像中所包含的样本对象;
对所述训练样本图像进行图像增强,根据图像增强后的训练样本图像与所述标签信息之间的映射关系,对所述模型进行训练;
当所述模型对应的目标训练次数满足选取节点时,将处于所述目标训练次数的模型添加到所述分类器集合。
8.根据权利要求7所述的方法,其特征在于,所述当所述模型对应的目标训练次数满足选取节点时,将处于所述目标训练次数的模型确定为所述分类器集合,包括:
当所述模型对应的目标训练次数满足选取节点时,将处于所述目标训练次数的模型确定为初始分类器集合;
获取所述初始分类器集合所对应的至少两个二值向量,根据所述至少两个二值向量从所述初始分类器集合中获取至少两个待选分类器集合;所述至少两个二值向量用于筛选所述初始分类器集合中所包含的待选分类器,每个二值向量均对应一个待选分类器集合;
根据所述待选分类器获取验证数据集中所包含的所述验证样本图像对应的验证识别结果;
根据所述两个待选分类器集合分别对应的验证识别结果,确定所述至少两个待选分类器集合分别对应的性能评估值,将所述至少两个待选分类器集合中选择满足数值阈值的性能评估值所对应的待选分类器集合,作为所述分类器集合。
9.根据权利要求7所述的方法,其特征在于,所述获取训练样本图像以及训练样本图像对应的标签信息,包括:
获取对象数据,根据所述对象数据、背景图像以及位置信息,得到包含所述对象数据的合成样本图像;
从通用图像库中获取自然场景图像,将所述自然场景图像与所述合成样本图像确定为所述训练样本图像,获取所述训练样本图像对应的所述标签信息。
10.根据权利要求1所述的方法,其特征在于,所述目标对象为文本对象,所述目标识别结果为文本信息;
所述方法还包括:
将所述文本信息输入数据库中进行数据检索,从所述数据库中获取与所述文本信息相关联的检索信息。
11.一种图像识别装置,其特征在于,包括:
第一获取模块,用于获取图像,将所述图像依次输入至分类器集合中的至少两个分类器,从所述至少两个分类器中分别获取所述图像对应的预测结果;所述至少两个分类器为目标训练次数满足不同选取节点的模型,且所述至少两个分类器具有相同的网络结构和不同的网络模型参数,所述至少两个分类器均用于识别所述图像中所包含的目标对象,每个分类器均对应一个识别结果;
所述第一获取模块,还用于从通用对象集合中获取与所述预测结果相匹配的候选对象,将所述候选对象和所述预测结果确定为对象识别结果集合;
第二获取模块,用于获取所述至少两个分类器分别对应的识别置信度;
第一确定模块,用于根据所述识别置信度与所述对象识别结果集合中所包含的识别结果,确定所述图像对应的目标识别结果。
12.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至10中任一项所述方法的步骤。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如权利要求1至10中任一项所述方法的步骤。
CN201911360763.6A 2019-12-25 2019-12-25 图像识别方法、装置、计算机设备以及存储介质 Active CN111126396B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911360763.6A CN111126396B (zh) 2019-12-25 2019-12-25 图像识别方法、装置、计算机设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911360763.6A CN111126396B (zh) 2019-12-25 2019-12-25 图像识别方法、装置、计算机设备以及存储介质

Publications (2)

Publication Number Publication Date
CN111126396A CN111126396A (zh) 2020-05-08
CN111126396B true CN111126396B (zh) 2023-08-22

Family

ID=70502484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911360763.6A Active CN111126396B (zh) 2019-12-25 2019-12-25 图像识别方法、装置、计算机设备以及存储介质

Country Status (1)

Country Link
CN (1) CN111126396B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111899202B (zh) * 2020-05-19 2024-03-15 武汉东智科技股份有限公司 一种视频图像中叠加时间字符的增强方法
CN111709371B (zh) * 2020-06-17 2023-12-22 腾讯科技(深圳)有限公司 基于人工智能的分类方法、装置、服务器和存储介质
CN111738800B (zh) * 2020-06-30 2021-09-28 腾讯科技(深圳)有限公司 数据推荐方法、装置、计算机设备以及存储介质
CN114359857A (zh) * 2020-09-30 2022-04-15 华为技术有限公司 上报信息的处理方法、装置和系统
CN112584213A (zh) * 2020-12-11 2021-03-30 海信视像科技股份有限公司 一种显示设备和图像识别结果的展示方法
CN112347985A (zh) * 2020-11-30 2021-02-09 广联达科技股份有限公司 一种物料类别检测方法及装置
CN113254654B (zh) * 2021-07-05 2021-09-21 北京世纪好未来教育科技有限公司 模型训练、文本识别方法、装置、设备和介质
CN113850632B (zh) * 2021-11-29 2022-03-01 平安科技(深圳)有限公司 用户类别确定方法、装置、设备及存储介质
CN114693721B (zh) * 2022-03-24 2023-09-01 美的集团(上海)有限公司 运动规划方法、装置及机器人
CN117830859B (zh) * 2024-03-05 2024-05-03 农业农村部南京农业机械化研究所 基于图像处理的果树靶标自动识别方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105354307A (zh) * 2015-11-06 2016-02-24 腾讯科技(深圳)有限公司 一种图像内容识别方法及装置
CN106203492A (zh) * 2016-06-30 2016-12-07 中国科学院计算技术研究所 一种图像隐写分析的系统及方法
CN106650721A (zh) * 2016-12-28 2017-05-10 吴晓军 一种基于卷积神经网络的工业字符识别方法
CN106886571A (zh) * 2017-01-18 2017-06-23 大连理工大学 一种基于社会网络分析的学术合作可持续性的预测方法
CN107316061A (zh) * 2017-06-22 2017-11-03 华南理工大学 一种深度迁移学习的不平衡分类集成方法
CN108681746A (zh) * 2018-05-10 2018-10-19 北京迈格威科技有限公司 一种图像识别方法、装置、电子设备和计算机可读介质
CN109753978A (zh) * 2017-11-01 2019-05-14 腾讯科技(深圳)有限公司 图像分类方法、装置以及计算机可读存储介质
CN109934293A (zh) * 2019-03-15 2019-06-25 苏州大学 图像识别方法、装置、介质及混淆感知卷积神经网络
WO2019174130A1 (zh) * 2018-03-14 2019-09-19 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8842883B2 (en) * 2011-11-21 2014-09-23 Seiko Epson Corporation Global classifier with local adaption for objection detection
US9773196B2 (en) * 2016-01-25 2017-09-26 Adobe Systems Incorporated Utilizing deep learning for automatic digital image segmentation and stylization

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105354307A (zh) * 2015-11-06 2016-02-24 腾讯科技(深圳)有限公司 一种图像内容识别方法及装置
CN106203492A (zh) * 2016-06-30 2016-12-07 中国科学院计算技术研究所 一种图像隐写分析的系统及方法
CN106650721A (zh) * 2016-12-28 2017-05-10 吴晓军 一种基于卷积神经网络的工业字符识别方法
CN106886571A (zh) * 2017-01-18 2017-06-23 大连理工大学 一种基于社会网络分析的学术合作可持续性的预测方法
CN107316061A (zh) * 2017-06-22 2017-11-03 华南理工大学 一种深度迁移学习的不平衡分类集成方法
CN109753978A (zh) * 2017-11-01 2019-05-14 腾讯科技(深圳)有限公司 图像分类方法、装置以及计算机可读存储介质
WO2019174130A1 (zh) * 2018-03-14 2019-09-19 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质
CN108681746A (zh) * 2018-05-10 2018-10-19 北京迈格威科技有限公司 一种图像识别方法、装置、电子设备和计算机可读介质
CN109934293A (zh) * 2019-03-15 2019-06-25 苏州大学 图像识别方法、装置、介质及混淆感知卷积神经网络

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
复杂场景文本识别技术研究;杨春;《中国博士学位论文全文数据库 信息科技辑》(第2期);第I138-43页 *

Also Published As

Publication number Publication date
CN111126396A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
CN111126396B (zh) 图像识别方法、装置、计算机设备以及存储介质
CN109117777B (zh) 生成信息的方法和装置
CN110851641B (zh) 跨模态检索方法、装置和可读存储介质
CN113688851B (zh) 数据标注方法和装置和精细粒度识别方法和装置
CN115168590A (zh) 文本特征提取方法、模型训练方法、装置、设备及介质
CN114461890A (zh) 分层多模态的知识产权搜索引擎方法与系统
CN115393606A (zh) 图像识别的方法和系统
CN108805280B (zh) 一种图像检索的方法和装置
Devi et al. Dive in Deep Learning: Computer Vision, Natural Language Processing, and Signal Processing
CN111161238A (zh) 图像质量评价方法及装置、电子设备、存储介质
CN115797795A (zh) 基于强化学习的遥感影像问答式检索系统及方法
CN112015937B (zh) 一种图片地理定位方法及系统
CN115221389A (zh) 一种跨模态检索模型的训练方法、装置、设备及存储介质
CN115063831A (zh) 一种高性能行人检索与重识别方法及装置
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质
CN113535928A (zh) 基于注意力机制下长短期记忆网络的服务发现方法及系统
CN113673237A (zh) 模型训练、意图识别方法、装置、电子设备及存储介质
CN114220078A (zh) 一种目标重识别方法、装置和计算机可读存储介质
CN114626378A (zh) 命名实体识别方法、装置、电子设备及计算机可读存储介质
CN112507912A (zh) 一种识别违规图片的方法及装置
CN117171413B (zh) 用于数字藏品管理的数据处理系统及其方法
CN116050428B (zh) 意图识别方法、装置、设备及存储介质
CN116932487B (zh) 一种基于数据段落划分的量化式数据分析方法及系统
CN116401637A (zh) 基于类属性肖像的访问控制策略确定方法及系统
CN117076695A (zh) 图文跨模态检索方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant