CN110598763A - 一种图像识别方法、装置及终端设备 - Google Patents
一种图像识别方法、装置及终端设备 Download PDFInfo
- Publication number
- CN110598763A CN110598763A CN201910797274.0A CN201910797274A CN110598763A CN 110598763 A CN110598763 A CN 110598763A CN 201910797274 A CN201910797274 A CN 201910797274A CN 110598763 A CN110598763 A CN 110598763A
- Authority
- CN
- China
- Prior art keywords
- model
- neural network
- network model
- target neural
- layers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请适用于数据处理技术领域,提供了一种图像识别方法、装置及终端设备,所述方法包括:创建网络搜索空间,所述网络搜索空间中设置有至少两个网络层,各个所述网络层之间通过密集连接的方式进行连接,所述网络层为卷积核尺寸小于或等于预设尺寸的卷积层、深度可分离卷积层或全连接层;在所述网络搜索空间中进行模型搜索,得到目标神经网络模型;使用所述目标神经网络模型进行图像识别。本申请可以解决现有的应用于边缘终端的神经网络模型无法很好地捕捉细节轮廓特征,识别准确率低的问题。
Description
技术领域
本申请属于数据处理技术领域,尤其涉及一种图像识别方法、装置及终端设备。
背景技术
随着科技的发展,越来越多的领域和场景需要用到图像识别技术,如车载监控场景、城市监控场景等。
在一些应用场景中,需要在边缘终端设备上进行图像识别处理,这些边缘终端普遍存在算力小的特点。
为此,现有技术人员提出了各种模型设计思路,如MNasnet算法等。这些算法搜索到的神经网络模型虽然可以在算力小的边缘终端上得到良好的运行效果,但是往往无法很好地捕捉细节轮廓特征,对于一些注重细节轮廓特征的应用场景,识别准确率低。
发明内容
有鉴于此,本申请实施例提供了一种图像识别方法、装置及终端设备,以解决现有的应用于边缘终端的神经网络模型无法很好地捕捉细节轮廓特征,识别准确率低的问题。
本申请实施例的第一方面提供了一种图像识别方法,包括:
创建网络搜索空间,所述网络搜索空间中设置有至少两个网络层,各个所述网络层之间通过密集连接的方式进行连接,所述网络层为卷积核尺寸小于或等于预设尺寸的卷积层、深度可分离卷积层或全连接层;
在所述网络搜索空间中进行模型搜索,得到目标神经网络模型;
使用所述目标神经网络模型进行图像识别。
本申请实施例的第二方面提供了一种图像识别装置,包括:
空间建立模块,用于创建网络搜索空间,所述网络搜索空间中设置有至少两个网络层,各个所述网络层之间通过密集连接的方式进行连接,所述网络层为卷积核尺寸小于或等于预设尺寸的卷积层、深度可分离卷积层或全连接层;
模型搜索模块,用于在所述网络搜索空间中进行模型搜索,得到目标神经网络模型;
图像识别模块,用于使用所述目标神经网络模型进行图像识别。
本申请实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述方法的步骤。
本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述方法的步骤。
本申请实施例的第五方面提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备实现如上述方法的步骤。
本申请实施例与现有技术相比存在的有益效果是:
在本申请的图像识别方法中,创建网络搜索空间,网络搜索空间中各个网络层之间通过密集连接的方式进行连接,使得模型搜索过程中,不仅能在模型深度方面进行搜索,也能够在模型宽度方面进行搜索,搜索到的神经网络模型能够很好地捕捉细节特征,并且,搜索空间中的网络层为卷积核尺寸小于或等于预设尺寸的卷积层、深度可分离卷积层或全连接层,极大地简化了搜索到的神经网络模型的模型结构,降低模型运算量,使得搜索到的神经网络模型可以应用于算力较小的边缘终端设备,解决了现有的应用于边缘终端的神经网络模型无法很好地捕捉细节轮廓特征,识别准确率低的问题。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的图像识别方法的实现流程示意图;
图2是本申请实施例提供的图像识别装置的示意图;
图3是本申请实施例提供的终端设备的示意图;
图4是本申请实施例提供的网络搜索空间的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
为了说明本申请所述的技术方案,下面通过具体实施例来进行说明。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
实施例一:
下面对本申请实施例一提供的一种图像识别方法进行描述,请参阅附图1,本申请实施例一中的图像识别方法包括:
步骤S101、创建网络搜索空间,所述网络搜索空间中设置有至少两个网络层,各个所述网络层之间通过密集连接的方式进行连接,所述网络层为卷积核尺寸小于或等于预设尺寸的卷积层、深度可分离卷积层或全连接层;
随着物联网的发展,为了产生更快的网络服务响应,满足一些行业在实时业务、应用智能、安全与隐私保护等方面的基本需求,边缘计算正在蓬勃发展。边缘终端是指用于边缘计算的终端设备,在一些边缘终端,如手机、平板电脑、笔记本电脑、车载电脑等,存在算力较低的问题。
当需要在这些边缘终端上开发与应用神经网络模型时,对神经网络模型运算量存在一定的要求。当前主流的应用于边缘终端的网络搜索算法为MNasnet算法,MNasnet算法搜索出来的神经网络模型在边缘终端上可以得到良好的运行效果。但是,MNasnet算法搜索出来的神经网络模型虽然拥有足够的网络深度,却无法很好地捕捉图像的细节轮廓特征,当应用在一些注重细节轮廓特征的应用场景时,图像识别的准确率低。
在MNasnet算法等常规的边缘终端的网络搜索算法中,网络搜索空间中各个网络层往往使用skip连接的方式进行连接,从而提高模型深度,减少梯度消失或梯度爆炸的情况的发生。
而本申请的图像识别方法中,各个网络层之间通过密集连接的方式进行连接。密集连接是指每个网络层均与之后的所有网络层连接的连接方式,与skip连接相比,采用密集连接时,网络结构搜索的灵活性更强,可以同时搜索神经网络模型的模型宽度和模型深度,从而使搜索到的神经网络模型能够很好地捕捉细节轮廓特征,同时,还可以减少梯度消失或梯度爆炸的情况的发生。
以图4为例,方框表示网络搜索空间中的网络层,方框内的数字表示网络层的模型宽度。网络搜索空间中每一个网络层都与之后的所有网络层连接,在模型搜索的过程中,可以灵活选择宽度合适的网络层,跳过不需要的网络层,网络结构搜索的灵活性更强,同时搜索神经网络模型的模型宽度和模型深度。
并且,为了避免采用密集连接导致搜索到的神经网络模型的模型运算量过大,可以限制每一个网络层均为卷积核尺寸小于或等于预设尺寸的卷积层、深度可分离卷积层或全连接层。简化神经网络模型的结构,减少模型运算量,从而使搜索出来的神经网络模型可以应用在算力较小的边缘终端。其中,预设尺寸可以根据实际情况进行设置。
在一些可能的实现方式中,可以将网络层限定为1*1的卷积层、3*3的深度可分离卷积层或全连接层,最大程度地简化神经网络模型的结构。
步骤S102、在所述网络搜索空间中进行模型搜索,得到目标神经网络模型;
创建了网络搜索空间之后,可以在网络搜索空间中进行模型搜索,得到目标神经网络模型。
模型搜索的方式可以根据实际情况进行选择,例如,可以通过进化算法、强化学习、贝叶斯优化算法等方式进行模型搜索。
步骤S103、使用所述目标神经网络模型进行图像识别。
得到目标神经网络模型之后,使用目标神经网络模型进行图像识别。
进一步地,所述在所述网络搜索空间中进行模型搜索,得到目标神经网络模型具体包括:
A1、在所述网络搜索空间中进行模型搜索,得到候选神经网络模型;
在MNasnet算法中,采用帕雷托最优的理念进行模型搜索。帕雷托最优(calledPareto optimal)是经济学的一个概念,是指资源分配的一种理想状态。给定固有的一群人和可分配的资源,如果从一种分配状态到另一种状态的变化中,在没有使任何人境况变坏的前提下,使得至少一个人变得更好,这就是帕雷托改善。帕雷托最优的状态就是不可能再有更多的帕雷托改善的状态,MNasnet算法通过RNN循环迭代的方式寻找帕雷托最优的状态。
在本申请的图像识别方法中,可以借鉴部分帕雷托最优的理念进行神经网络模型结构的迭代优化。由于使用RNN循环迭代时,占用资源多,需要耗费很长的训练时长,因此,本实施例中采用预先理论指导代替RNN进行循环迭代,提高搜索效率,降低训练时长。
在预先理论指导中,设置第二运算量、预设运算量阈值和预设准确率阈值。在网络搜索空间中进行模型搜索,得到候选神经网络模型。
A2、根据所述候选神经网络模型的网络结构计算所述候选神经网络模型的第一模型运算量;
得到候选神经网络模型之后,根据候选神经网络模型的网络结构计算候选神经网络模型的第一运算量。
A3、若所述第一模型运算量与预设的第二模型运算量的差值大于预设运算量阈值,则返回所述网络搜索空间继续进行模型搜索;
由于边缘终端的算力有限,如果第一模型运算量太大,容易造成边缘终端卡顿,处理时间过长等问题。因此,得到第一模型运算量之后,计算第一模型运算量与预设的第二模型运算量的差值。
第二模型运算量可以根据实际情况进行设置,在一些可能的实现方式中,第二模型运算量可以为一些现有的边缘终端神经网络模型的运算量的典型值。
如果第一模型运算量与第二模型运算量的差值大于预设运算量阈值,则表示第一模型运算量的数值过大,不适合应用于边缘终端。此时返回至步骤A1继续在网络搜索空间中进行模型搜索。
A4、若所述第一模型运算量与所述第二模型运算量的差值小于或等于预设运算量阈值,则使用样本训练集对所述候选神经网络模型进行训练,并在训练完成后使用样本验证集对所述候选神经网络模型进行测试,得到所述候选神经网络模型的准确率;
如果第一模型运算量与第二模型运算量的差值小于或等于预设运算量阈值,则表示候选神经网络模型可以应用于边缘终端,此时可以进一步测试候选神经网络模型的准确率。
使用样本训练集对候选神经网络模型进行训练,在训练完成后,使用样本验证集对经过训练的候选神经网络模型进行测试,得到候选神经网络模型的准确率。
A5、若所述准确率低于预设准确率阈值,则返回所述网络搜索空间继续进行模型搜索;
如果候选神经网络模型的准确率低于预设准确率阈值,则表示该候选神经网络模型的准确率较低,不适合实际应用场景,返回至步骤A1继续在网络搜索空间中进行模型搜索。
A6、若所述准确率高于或等于预设准确率阈值,则将所述候选神经网络模型作为目标神经网络模型。
如果候选神经网络模型的准确率高于或等于预设准确率阈值,则表示该候选神经网络模型的准确率符合应用要求,选取该候选神经网络模型作为目标神经网络模型。
此外,在一些可能的实现方式中,还可以选取一些在边缘终端运行效果良好的神经网络模型,如mobilenetV1、mobilenetV2、shuffleNet V2等神经网络模型,将这些神经网络模型的框架作为先验信息输入至网络搜索空间中,使得网络搜索空间优先从这些神经网络模型的框架中搜索目标神经网络模型,加快找到目标神经网络模型的速度,节省计算资源,提高项目的推进速度,有利于计算资源较少的中小型企业的项目开发。
进一步地,所述使用所述目标神经网络模型进行图像识别具体包括:
B1、以所述目标神经网络模型的输出作为LSTM模型的输入,以所述目标神经网络模型与所述LSTM模型的组合作为新的目标神经网络模型;
在使用目标神经网络模型进行图像识别时,可以直接使用,也可以配合其他神经网络模型一起使用。
例如,在一些静态图像识别的应用场景中,如人脸识别等,可以直接使用目标神经网络模型进行图像识别;在一些动态视频识别的应用场景中,如动作识别等,则可以联合其他可以识别时序信息的神经网络模型一起使用。
在一些可能的实现方式中,可以将目标神经网络模型和LSTM模型进行组合使用,以目标神经网络模型的输出作为LSTM模型的输入,得到新的目标神经网络模型。LSTM模型可以识别时序信息,拥有记忆的功能,将目标神经网络模型和LSTM模型组合使用可以更好地应用于动态视频类的应用场景。
B2、使用训练样本集对所述新的目标神经网络模型进行训练,使用训练后的新的目标神经网络模型进行图像识别。
得到新的目标神经网络模型之后,可以使用训练样本集对新的目标神经网络模型进行训练,然后使用训练后的新的目标神经网络模型进行图像识别。
进一步地,所述使用训练样本集对所述新的目标神经网络模型进行训练,使用训练后的新的目标神经网络模型进行图像识别具体包括:
C1、使用训练样本集对所述新的目标神经网络模型进行训练,得到训练后的新的目标神经网络模型,其中,所述训练样本集中的样本图像为经过标注的渣土车货厢图像;
以渣土车的货厢识别场景为例,在渣土车中可以在货厢顶部设置摄像头,摄像头用于拍摄渣土车货厢图像。
在训练时,可以使用经过标注的渣土车货厢图像的训练样本集对新的目标神经网络模型进行训练,得到训练后的新的目标神经网络模型。
C2、获取待识别的渣土车货厢图像,将所述待识别的渣土车货厢图像输入所述训练后的新的目标神经网络模型,得到渣土车货厢状态。
当获取到待识别的渣土车货厢图像时,可以将待识别的渣土车货厢图像输入训练后的新的目标神经网络模型中,得到渣土车货厢状态。
渣土车货厢状态可以包括空载状态、重载状态、密闭状态、非密闭状态、举升状态、平放状态等,渣土车货厢状态可以配合渣土车的其他信息判断渣土车司机的行为是否合规,例如,渣土车司机是否在货厢为重载且非密闭状态下行驶车辆等。
其中,由于部分渣土车货厢状态相互间存在部分重合,如举升状态的初期的图像与非密闭状态的图像可能是相似的。此时,新的目标神经网络模型中的LSTM模型可以通过记忆功能,根据前后多帧图像综合得到准确的渣土车货厢状态。
又或者,摄像头拍摄视频时,某帧图像可能因为灰尘等外界因素的干扰,存在不清晰的地方,此时新的目标神经网络模型中的LSTM模型可以根据该帧图像的前后帧图像的渣土车货厢状态准确识别出该帧图像的真实结果。例如,目标神经网络模型输出某一帧图像的识别结果为非密闭状态,该图像的前一帧图像是密闭状态,该图像的后一帧图像也是密闭状态。由于货厢状态不可能只在某一个瞬间多次变化,因此,LSTM模型可以根据该图像的前后帧图像的渣土车货厢状态判定该帧图像的识别结果错误,并根据前后帧图像的渣土车货厢状态判定该帧图像的真实结果为密闭状态。因此,对于该帧图像,新的目标神经网络模型的最终输出结果为密闭状态。
本实施例一提供的图像识别方法中,网络搜索空间中各个网络层之间通过密集连接的方式进行连接,使得模型搜索过程中,不仅能在模型深度方面进行搜索,也能够在模型宽度方面进行搜索,搜索到的神经网络模型能够很好地捕捉细节特征,并且,搜索空间中的网络层为卷积核尺寸小于或等于预设尺寸的卷积层、深度可分离卷积层或全连接层,极大地简化了搜索到的神经网络模型的模型结构,降低模型运算量,使得搜索到的神经网络模型可以应用于算力较小的边缘终端设备,解决了现有的应用于边缘终端的神经网络模型无法很好地捕捉细节轮廓特征,识别准确率低的问题。
在模型搜索的过程中,可以根据预先理论指导进行搜索,加快找到目标神经网络模型的速度,节省计算资源,提高项目的推进速度,有利于计算资源较少的中小型企业的项目开发。
在应用目标神经网络模型的过程中,可以将目标神经网络模型与LSTM模型相结合,得到新的目标神经网络模型,使得新的目标神经网络模型可以根据时序信息更准确地识别动态视频类应用中的待识别图像,例如,渣土车货厢图像的识别。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
实施例二:
本申请实施例二提供了一种图像识别装置,为便于说明,仅示出与本申请相关的部分,如图2所示,图像识别装置包括,
空间建立模块201,用于创建网络搜索空间,所述网络搜索空间中设置有至少两个网络层,各个所述网络层之间通过密集连接的方式进行连接,所述网络层为卷积核尺寸小于或等于预设尺寸的卷积层、深度可分离卷积层或全连接层;
模型搜索模块202,用于在所述网络搜索空间中进行模型搜索,得到目标神经网络模型;
图像识别模块203,用于使用所述目标神经网络模型进行图像识别。
进一步地,所述模型搜索模块202具体包括:
候选搜索子模块,用于在所述网络搜索空间中进行模型搜索,得到候选神经网络模型;
第一运算量子模块,用于根据所述候选神经网络模型的网络结构计算所述候选神经网络模型的第一模型运算量;
第一返回子模块,用于若所述第一模型运算量与预设的第二模型运算量的差值大于预设运算量阈值,则返回所述网络搜索空间继续进行模型搜索;
准确率计算子模块,用于若所述第一模型运算量与所述第二模型运算量的差值小于或等于预设运算量阈值,则使用样本训练集对所述候选神经网络模型进行训练,并在训练完成后使用样本验证集对所述候选神经网络模型进行测试,得到所述候选神经网络模型的准确率;
第二返回子模块,用于若所述准确率低于预设准确率阈值,则返回所述网络搜索空间继续进行模型搜索;
目标模型子模块,用于若所述准确率高于或等于预设准确率阈值,则将所述候选神经网络模型作为目标神经网络模型。
进一步地,所述图像识别模块203具体包括:
模型组合子模块,用于以所述目标神经网络模型的输出作为LSTM模型的输入,以所述目标神经网络模型与所述LSTM模型的组合作为新的目标神经网络模型;
训练识别子模块,用于使用训练样本集对所述新的目标神经网络模型进行训练,使用训练后的新的目标神经网络模型进行图像识别。
进一步地,所述训练识别子模块具体包括:
训练子模块,用于使用训练样本集对所述新的目标神经网络模型进行训练,得到训练后的新的目标神经网络模型,其中,所述训练样本集中的样本图像为经过标注的渣土车货厢图像;
状态子模块,用于获取待识别的渣土车货厢图像,将所述待识别的渣土车货厢图像输入所述训练后的新的目标神经网络模型,得到渣土车货厢状态。
进一步地,所述网络层具体为1*1的卷积层、3*3的深度可分离卷积层或全连接层。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
实施例三:
图3是本申请实施例三提供的终端设备的示意图。如图3所示,该实施例的终端设备3包括:处理器30、存储器31以及存储在所述存储器31中并可在所述处理器30上运行的计算机程序32。所述处理器30执行所述计算机程序32时实现上述图像识别方法实施例中的步骤,例如图1所示的步骤S101至S103。或者,所述处理器30执行所述计算机程序32时实现上述各装置实施例中各模块/单元的功能,例如图2所示模块201至203的功能。
示例性的,所述计算机程序32可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器31中,并由所述处理器30执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序32在所述终端设备3中的执行过程。例如,所述计算机程序32可以被分割成空间建立模块、模型搜索模块以及图像识别模块,各模块具体功能如下:
空间建立模块,用于创建网络搜索空间,所述网络搜索空间中设置有至少两个网络层,各个所述网络层之间通过密集连接的方式进行连接,所述网络层为卷积核尺寸小于或等于预设尺寸的卷积层、深度可分离卷积层或全连接层;
模型搜索模块,用于在所述网络搜索空间中进行模型搜索,得到目标神经网络模型;
图像识别模块,用于使用所述目标神经网络模型进行图像识别。
所述终端设备3可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器30、存储器31。本领域技术人员可以理解,图3仅仅是终端设备3的示例,并不构成对终端设备3的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器30可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器31可以是所述终端设备3的内部存储单元,例如终端设备3的硬盘或内存。所述存储器31也可以是所述终端设备3的外部存储设备,例如所述终端设备3上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器31还可以既包括所述终端设备3的内部存储单元也包括外部存储设备。所述存储器31用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器31还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种图像识别方法,其特征在于,包括:
创建网络搜索空间,所述网络搜索空间中设置有至少两个网络层,各个所述网络层之间通过密集连接的方式进行连接,所述网络层为卷积核尺寸小于或等于预设尺寸的卷积层、深度可分离卷积层或全连接层;
在所述网络搜索空间中进行模型搜索,得到目标神经网络模型;
使用所述目标神经网络模型进行图像识别。
2.如权利要求1所述的图像识别方法,其特征在于,所述在所述网络搜索空间中进行模型搜索,得到目标神经网络模型具体包括:
在所述网络搜索空间中进行模型搜索,得到候选神经网络模型;
根据所述候选神经网络模型的网络结构计算所述候选神经网络模型的第一模型运算量;
若所述第一模型运算量与预设的第二模型运算量的差值大于预设运算量阈值,则返回所述网络搜索空间继续进行模型搜索;
若所述第一模型运算量与所述第二模型运算量的差值小于或等于预设运算量阈值,则使用样本训练集对所述候选神经网络模型进行训练,并在训练完成后使用样本验证集对所述候选神经网络模型进行测试,得到所述候选神经网络模型的准确率;
若所述准确率低于预设准确率阈值,则返回所述网络搜索空间继续进行模型搜索;
若所述准确率高于或等于预设准确率阈值,则将所述候选神经网络模型作为目标神经网络模型。
3.如权利要求1所述的图像识别方法,其特征在于,所述使用所述目标神经网络模型进行图像识别具体包括:
以所述目标神经网络模型的输出作为LSTM模型的输入,以所述目标神经网络模型与所述LSTM模型的组合作为新的目标神经网络模型;
使用训练样本集对所述新的目标神经网络模型进行训练,使用训练后的新的目标神经网络模型进行图像识别。
4.如权利要求3所述的图像识别方法,其特征在于,所述使用训练样本集对所述新的目标神经网络模型进行训练,使用训练后的新的目标神经网络模型进行图像识别具体包括:
使用训练样本集对所述新的目标神经网络模型进行训练,得到训练后的新的目标神经网络模型,其中,所述训练样本集中的样本图像为经过标注的渣土车货厢图像;
获取待识别的渣土车货厢图像,将所述待识别的渣土车货厢图像输入所述训练后的新的目标神经网络模型,得到渣土车货厢状态。
5.如权利要求1所述的图像识别方法,其特征在于,所述网络层具体为1*1的卷积层、3*3的深度可分离卷积层或全连接层。
6.一种图像识别装置,其特征在于,包括:
空间建立模块,用于创建网络搜索空间,所述网络搜索空间中设置有至少两个网络层,各个所述网络层之间通过密集连接的方式进行连接,所述网络层为卷积核尺寸小于或等于预设尺寸的卷积层、深度可分离卷积层或全连接层;
模型搜索模块,用于在所述网络搜索空间中进行模型搜索,得到目标神经网络模型;
图像识别模块,用于使用所述目标神经网络模型进行图像识别。
7.如权利要求6所述的图像识别装置,其特征在于,所述模型搜索模块具体包括:
候选搜索子模块,用于在所述网络搜索空间中进行模型搜索,得到候选神经网络模型;
第一运算量子模块,用于根据所述候选神经网络模型的网络结构计算所述候选神经网络模型的第一模型运算量;
第一返回子模块,用于若所述第一模型运算量与预设的第二模型运算量的差值大于预设运算量阈值,则返回所述网络搜索空间继续进行模型搜索;
准确率计算子模块,用于若所述第一模型运算量与所述第二模型运算量的差值小于或等于预设运算量阈值,则使用样本训练集对所述候选神经网络模型进行训练,并在训练完成后使用样本验证集对所述候选神经网络模型进行测试,得到所述候选神经网络模型的准确率;
第二返回子模块,用于若所述准确率低于预设准确率阈值,则返回所述网络搜索空间继续进行模型搜索;
目标模型子模块,用于若所述准确率高于或等于预设准确率阈值,则将所述候选神经网络模型作为目标神经网络模型。
8.如权利要求6所述的图像识别装置,其特征在于,所述图像识别模块具体包括:
模型组合子模块,用于以所述目标神经网络模型的输出作为LSTM模型的输入,以所述目标神经网络模型与所述LSTM模型的组合作为新的目标神经网络模型;
训练识别子模块,用于使用训练样本集对所述新的目标神经网络模型进行训练,使用训练后的新的目标神经网络模型进行图像识别。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910797274.0A CN110598763A (zh) | 2019-08-27 | 2019-08-27 | 一种图像识别方法、装置及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910797274.0A CN110598763A (zh) | 2019-08-27 | 2019-08-27 | 一种图像识别方法、装置及终端设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110598763A true CN110598763A (zh) | 2019-12-20 |
Family
ID=68855956
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910797274.0A Pending CN110598763A (zh) | 2019-08-27 | 2019-08-27 | 一种图像识别方法、装置及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110598763A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111178546A (zh) * | 2019-12-31 | 2020-05-19 | 华为技术有限公司 | 机器学习模型的搜索方法及相关装置、设备 |
CN111222561A (zh) * | 2019-12-31 | 2020-06-02 | 深圳云天励飞技术有限公司 | 图像识别神经网络处理方法、装置与系统 |
CN111784676A (zh) * | 2020-07-03 | 2020-10-16 | 湖南大学 | 一种用于肝脏ct影像的特征提取与分割新方法 |
CN112434575A (zh) * | 2020-11-12 | 2021-03-02 | 广东电网有限责任公司 | 一种基于姿态识别的电力物联网设备远程控制方法及系统 |
CN113269698A (zh) * | 2021-05-21 | 2021-08-17 | 中国矿业大学 | 基于Actor-Critic模型的低曝光静脉图像增强方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492666A (zh) * | 2018-09-30 | 2019-03-19 | 北京百卓网络技术有限公司 | 图像识别模型训练方法、装置及存储介质 |
CN109598332A (zh) * | 2018-11-14 | 2019-04-09 | 北京市商汤科技开发有限公司 | 神经网络生成方法及装置、电子设备和存储介质 |
CN109685204A (zh) * | 2018-12-24 | 2019-04-26 | 北京旷视科技有限公司 | 模型搜索方法及装置、图像处理方法及装置 |
CN109815474A (zh) * | 2017-11-20 | 2019-05-28 | 深圳市腾讯计算机系统有限公司 | 一种词序列向量确定方法、装置、服务器及存储介质 |
-
2019
- 2019-08-27 CN CN201910797274.0A patent/CN110598763A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109815474A (zh) * | 2017-11-20 | 2019-05-28 | 深圳市腾讯计算机系统有限公司 | 一种词序列向量确定方法、装置、服务器及存储介质 |
CN109492666A (zh) * | 2018-09-30 | 2019-03-19 | 北京百卓网络技术有限公司 | 图像识别模型训练方法、装置及存储介质 |
CN109598332A (zh) * | 2018-11-14 | 2019-04-09 | 北京市商汤科技开发有限公司 | 神经网络生成方法及装置、电子设备和存储介质 |
CN109685204A (zh) * | 2018-12-24 | 2019-04-26 | 北京旷视科技有限公司 | 模型搜索方法及装置、图像处理方法及装置 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111178546A (zh) * | 2019-12-31 | 2020-05-19 | 华为技术有限公司 | 机器学习模型的搜索方法及相关装置、设备 |
CN111222561A (zh) * | 2019-12-31 | 2020-06-02 | 深圳云天励飞技术有限公司 | 图像识别神经网络处理方法、装置与系统 |
CN111178546B (zh) * | 2019-12-31 | 2023-05-23 | 华为技术有限公司 | 机器学习模型的搜索方法及相关装置、设备 |
CN111784676A (zh) * | 2020-07-03 | 2020-10-16 | 湖南大学 | 一种用于肝脏ct影像的特征提取与分割新方法 |
CN112434575A (zh) * | 2020-11-12 | 2021-03-02 | 广东电网有限责任公司 | 一种基于姿态识别的电力物联网设备远程控制方法及系统 |
CN112434575B (zh) * | 2020-11-12 | 2023-09-01 | 广东电网有限责任公司 | 一种基于姿态识别的电力物联网设备远程控制方法及系统 |
CN113269698A (zh) * | 2021-05-21 | 2021-08-17 | 中国矿业大学 | 基于Actor-Critic模型的低曝光静脉图像增强方法 |
CN113269698B (zh) * | 2021-05-21 | 2022-01-04 | 中国矿业大学 | 基于Actor-Critic模型的低曝光静脉图像增强方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110598763A (zh) | 一种图像识别方法、装置及终端设备 | |
US10846556B2 (en) | Vehicle insurance image processing method, apparatus, server, and system | |
US11609968B2 (en) | Image recognition method, apparatus, electronic device and storage medium | |
CN107895191B (zh) | 一种信息处理方法及相关产品 | |
CN111476309A (zh) | 图像处理方法、模型训练方法、装置、设备及可读介质 | |
Blair et al. | Characterizing a heterogeneous system for person detection in video using histograms of oriented gradients: Power versus speed versus accuracy | |
CN111985458B (zh) | 一种检测多目标的方法、电子设备及存储介质 | |
US20220392202A1 (en) | Imaging processing method and apparatus, electronic device, and storage medium | |
US11113361B2 (en) | Electronic apparatus and control method thereof | |
Meus et al. | Embedded vision system for pedestrian detection based on HOG+ SVM and use of motion information implemented in Zynq heterogeneous device | |
CN111767915A (zh) | 车牌检测方法、装置、设备及存储介质 | |
CN112488054B (zh) | 一种人脸识别方法、装置、终端设备及存储介质 | |
US20180005353A1 (en) | Median filtering of images using directed search | |
US20230273826A1 (en) | Neural network scheduling method and apparatus, computer device, and readable storage medium | |
CN116662876A (zh) | 多模态认知决策方法、系统、装置、设备及存储介质 | |
CN111476190A (zh) | 用于无人驾驶的目标检测方法、设备及存储介质 | |
CN115700845A (zh) | 人脸识别模型训练方法、人脸识别方法、装置及相关设备 | |
CN114373078A (zh) | 目标检测方法、装置、终端设备及存储介质 | |
CN114187502A (zh) | 车辆装载率识别方法、装置、电子设备及存储介质 | |
CN115115530A (zh) | 一种图像去模糊的方法、装置、终端设备及介质 | |
CN109961083B (zh) | 用于将卷积神经网络应用于图像的方法和图像处理实体 | |
WO2022165675A1 (zh) | 一种手势识别方法、装置、终端设备及可读存储介质 | |
CN114648656A (zh) | 图像识别方法、装置、终端设备及可读存储介质 | |
CN110852202A (zh) | 一种视频分割方法及装置、计算设备、存储介质 | |
CN111126271A (zh) | 卡口抓拍图像车辆检测方法、计算机存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191220 |
|
RJ01 | Rejection of invention patent application after publication |