CN113221721A - 图像识别方法、装置、设备及介质 - Google Patents
图像识别方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN113221721A CN113221721A CN202110498329.5A CN202110498329A CN113221721A CN 113221721 A CN113221721 A CN 113221721A CN 202110498329 A CN202110498329 A CN 202110498329A CN 113221721 A CN113221721 A CN 113221721A
- Authority
- CN
- China
- Prior art keywords
- image
- illegal
- model
- trained
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请提供的图像识别方法、装置、设备及介质中,该电子设备获取待识别图像,从中确定出多个违规对象的识别结果;然后,结合各违规对象的识别结果,在其满足违规条件时,则判定该待识别图像为违规图像。由于该方法在判定违规图像时,结合了具体的图像内容以及图像内容之间的相互关系,因此,提高了图像识别时的精度。
Description
技术领域
本申请涉及图像识别领域,具体而言,涉及一种图像识别方法、装置、设备及介质。
背景技术
随着图像识别技术的发展,其被应用于越来越多的场景。例如,安防场景下的人脸检测;视频直播平台下的违规图像检测等。
然而,待识别图像往往具有高维的图像数据分布,使得待识别图像具有复杂的图像内容。发明人研究发现,图像识别的相关技术中,并未考虑具体的图像内容以及图像内容之间的相互关系,限制了图像识别精度的进一步提高。
发明内容
为了克服现有技术中的至少一个不足,第一方面,本申请实施例提供一种图像识别方法,应用于电子设备,所述方法包括:
获取待识别图像;
从所述待识别图像中确定出多个违规对象的识别结果;
当所述多个违规对象的识别结果满足违规条件时,则确定所述待识别图像为违规图像。
第二方面,本申请实施例提供一种图像识别装置,应用于电子设备,所述图像识别装置包括:
图像获取模块,用于获取待识别图像;
图像处理模块,用于从所述待识别图像中确定出多个违规对象的识别结果;
图像识别模块,用于当所述多个违规对象的识别结果满足违规条件时,则确定所述待识别图像为违规图像。
第三方面,本申请实施例提供一种电子设备,所述电子设备包括处理器以及存储器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,实现所述的图像识别方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现所述的图像识别方法。
相对于现有技术而言,本申请具有以下有益效果:
本申请实施例提供的图像识别方法、装置、设备及介质中,该电子设备获取待识别图像,从中确定出多个违规对象的识别结果;然后,结合各违规对象的识别结果,在其满足违规条件时,则判定该待识别图像为违规图像。由于该方法在判定违规图像时,结合了具体的图像内容以及图像内容之间的相互关系,因此,提高了图像识别时的精度。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的直播场景示意图;
图2为本申请实施例提供的电子设备结构示意图;
图3为本申请实施例提供的图像识别方法的步骤流程图;
图4为本申请实施例提供的图像识别装置的结构示意图。
图标:100-直播服务器;101-直播提供终端;102-直播接收终端;120-存储器;130-处理器;140-通信装置;201-图像获取模块;202-图像处理模块;203-图像识别模块。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本申请的描述中,需要说明的是,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
此外,应该理解的是,本申请实施例中流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
图像识别时,待识别图像往往具有高维的图像数据分布,使得待识别图像具有复杂的图像内容。图像识别的相关技术中,并未考虑具体的图像内容以及图像内容之间的相互关系,限制了图像识别精度的进一步提高。
应理解的是,图像识别技术可以应用于很多场景,例如,安防场景下的人脸检测;视频直播平台下的违规图像检测。下面以视频直播平台下的违规图像检测为例,对相关的技术进行介绍。
其中,请参照图1所示的一种视频直播平台的架构示意图。例如,视频直播平台可以是用于诸如互联网直播之类的服务平台。视频直播平台可以包括直播服务器100、直播提供终端101以及直播接收终端102。直播服务器100分别与直播提供终端101以及直播接收终端102通信连接,用于为直播提供终端101以及直播接收终端102提供直播服务。
例如,直播提供终端101可以将直播间的直播视频流发送给直播服务器100,观众可以通过直播接收终端102从直播服务器100拉取直播视频流以观看直播间的直播视频。
又例如,直播服务器100也可以在观众订阅的直播间开播时向该观众的直播接收终端102发送通知消息。直播视频流可以是当前正在直播平台中直播的视频流或者直播完成后形成的完整视频流。
考虑到直播视频内容的多样性,需要及时对违规的视频内容(例如,涉黄、涉政之类的视频内容)进行处理,控制其传播范围。
在对违规图像进行检测时,主要是通过机器学习模型(例如,人工神经网络)对标记有监督信息的样本图像进行学习,从而完成对测试图像是否涉黄的机器判断。然而,样本图像通常仅给予一个唯一的标签,即违规标签和正常标签。
发明人研究发现,单一标签所能提供的监督信息有限,并未考虑具体图像内容以及图像内容之间的相互关系。可以理解为,单一标签仅能告知机器学习模型样本图像是违规图像,但不能告知机器学习模型样本图像中有哪些违规内容以及各违规内容所占据的比重。
鉴于此,本申请实施例提供一种应用于电子设备的图像识别方法。在该图像识别方法中,电子设备结合待识别图像中多个违规对象的识别结果,判断待识别图像是否违规,以达到提高图像识别的精度的目的。
其中,该电子设备可以是,但不限于,服务器以及智能终端。其中,该服务器可以是,但不限于,Web(网站)服务器、FTP(File Transfer Protocol,文件传输协议)服务器等。该用户终端可以是,但不限于,智能手机、个人电脑(Personal Computer,PC)、平板电脑、个人数字助理(Personal Digital Assistant,PDA)、移动上网设备(Mobile InternetDevice,MID)等。
针对该电子设备,如图2所示,本申请实施例提供一种电子设备的结构示意图。该电子设备可以包括存储器120、处理器130以及通信装置140。
该存储器120、处理器130以及通信装置140各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
该存储器120可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器120用于存储计算机程序,该处理器130在接收到执行指令后,执行该计算机程序,从而实现本申请实施例提供的图像识别方法。该通信装置140用于通过网络收发数据。
该处理器130可能是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
基于上述电子设备的结构,下面结合图3所示图像识别方法的步骤流程图,对该方法的各步骤进行详细阐述。如图3所示,该图像识别方法包括:
步骤S101,获取待识别图像。
其中,在不同的应用场景下,电子设备获取待识别图像的方式存在一定的差异。同样以上述视频直播平台为例,电子设备可以每间隔3分钟,从直播视频流中截取一张直播视频帧,将其作为待识别图像;并建立该待识别图像与主播ID之间的对应关系。当待识别图像的识别结果为违规图像时,该电子设备则可以根据该对应关系对该主播的直播视频流进行屏蔽,以限制直播视频流的传播范围。
步骤S102,从待识别图像中确定出多个违规对象的识别结果。
应理解的是,不同的违规图像之间,其对应的违规对象存在一定的差异。其中,违规图像可以包括涉黄图像以及涉政图像。
以涉黄图像为例,图像中包括的违规对象可以是,但不限于,丝袜、内衣、私密部位、大面积裸露、性行为等。
以涉政图像为例,图像中包括的违规对象可以是,但不限于,涉政人物、涉政标识、涉政文字等。
步骤S103,当多个违规对象的识别结果满足违规条件时,则确定待识别图像为违规图像。
具体地,各违规对象的识别结果为对应违规对象的分类概率。该电子设备加权求和各违规对象的分类概率,获得加权概率;当加权概率大于概率阈值时,则确定待识别图像为违规图像。
其中,各违规对象的分类概率与加权概率P之间满足以下关系:
式中,pi表示第i个违规对象的分类概率,δi表示第i个违规对象的分类概率所对应的权重。
应理解,当待识别图像为违规图像时,该待识别图像通常具有多个违规对象。示例性的,正如上述涉政图像中的违规对象可以包括涉政人物、涉政标识、涉政文字。
电子设备获取待识别图像,经处理后获得各违规对象的识别结果为对应违规对象的分类概率。假定各违规对象的识别结果中,包括涉政人物的概率为0.6,包括涉政标识的概率为0.4,包括涉政文字的概率为0.7,其中,各违规对象的权重为0.33。
由此,基于上述权重以及分类概率,可以通过以下表达式获得加权概率:
0.6*0.33+0.4*0.33+0.7*0.33=0.561;
当概率阈值为0.5时,由于加权概率0.561大于概率阈值0.5,该电子设备则判定待识别图像为涉政图像。
可选地,各违规对象的识别结果为对应违规对象的分类概率,该电子设备统计所有分类概率中大于对应概率阈值的数量;当该数量大于数量阈值时,则确定待识别图像为违规图像。
示例性的,同样以上述涉政图像中的违规对象可以包括涉政人物、涉政标识、涉政文字为例。
电子设备获取待识别图像,经处理后获得各违规对象的识别结果为对应违规对象的分类概率。假定各违规对象的识别结果中,包括涉政人物的概率为0.6,包括涉政标识的概率为0.4,包括涉政文字的概率为0.7,其中,各违规对象对应的概率阈值均为0.5。
则涉政人物的概率大于0.5,涉政涉政文字的概率大于0.5;当数量阈值为1时,该电子则判定该待识别图像为涉政图像。
进一步地,当电子设备判定待识别图像为涉黄图像或者涉政图像时,则将待识别图像提交给人工审核平台,由人工审核平台的审核人员做进一步判断。当审核人员的判断结果与电子设备的判断结果不一致时,则将该待识别图像收集到图像召回库中,作为新的样本图像,用于训练新的图像识别模型。
可选地,为了缩减图像召回库中的图像数量,本实施例中,当图像识别模型识别待识别图像出现误判时,该电子设备则检查图像召回库是否存在有相似图像,其中,相似图像与待识别图像之间的相似度满足预设条件。
然后,若图像召回库不存在相似图像,该电子设备则将待识别图像记录到图像召回库中;反之,则丢弃该待识别图像。
由于相似图像与待识别图像之间的相似度满足预设条件,因此,若将该待识别图像继续收录到图像召回库中,则会导致样本冗余,继而在用于训练新的图像识别模型时,会增加模型训练时间。
其中,针对上述预设条件,作为一种实施方式,该电子设备可以获取待识别图像在图像识别模型中预设网络层的特征向量,将该特征向量作为待识别图像的图像指纹。
然后,该电子设备计算待识别图像的图像指纹与图像召回库中各图像的图像指纹之间的距离,将距离小于距离阈值的图像作为相似图像。
示例性的,假定上述预设网络层为全连接层,将输入全连接层的特征向量作为上述图像指纹。同时,假定待识别图像的维度为224*224*3,图像指纹的维度为1*512;其中,224表示待识别图像的尺寸,3表示表示待识别图像的通道数量(即RGB三个通道)。
该电子设备计算512维的图像指纹与图像召回库中各图像的图像指纹之间的欧氏距离,将其与距离阈值进行比较,以判断是否存在相似图像。
由此,该电子设备获取待识别图像,从中确定出多个违规对象的识别结果;然后,结合各违规对象的识别结果,在其满足违规条件时,则判定该待识别图像为违规图像。由于该方法在判定违规图像时,结合了具体的图像内容以及图像内容之间的相互关系,因此,提高了图像识别时的精度。
进一步地,本申请实施例中,还通过图像识别模型从待识别图像中确定出多个违规对象的识别结果。其中,该图像识别模型可以是,但不限于,ResNet,DenseNet等人工神经网络模型。
本申请实施中,针对同一类别的违规图像,电子设备所配置的图像识别模型包括多个子模型,其中,多个子模型与多个违规对象之间一一对应。由此,电子设备通过多个子模型分别对待识别图像进行识别,获得多个违规对象的识别结果。
示例性的,再次以上述涉政图像中的违规对象可以包括涉政人物、涉政标识、涉政文字为例。该电子设备配置的用于识别涉政图像的图像识别模型中,包括用于对涉政人物进行识别的子模型,用于对涉政标识进行识别的子模型,以及用于对涉政文字进行识别的子模型。
在另外一示例中,以上述涉黄图像中的违规对象可以包括丝袜、内衣、私密部位、大面积裸露、性行为为例。该电子设备配置的用于识别涉黄图像的图像识别模型中,包括用于对丝袜进行识别的子模型,用于对内衣进行识别的子模型,用于对私密部位进行识别的子模型,用于对大面积裸露进行识别的子模型以及用于对性行为进行检测的子模型。
当然,上述图像识别模型中的子模型仅仅是为了便于理解所提供的示例,本领域技术人员可以在此基础上,对子模型的数量进行适应性的增加或者减少,本申请实施例不做具体的限定。
本申请实施例中,为了获得上述图像识别模型,电子设备还获取样本图像,其中,样本图像同时标记有多个违规对象的标签;然后,通过样本图像训练待训练的图像识别模型,获得预训练的图像识别模型。
由于该实施方式中,考虑了单一标签所能提供的监督信息有限,因此,通过标记有多个违规对象的样本图像提供更强的监督信息,使得预训练的图像识别模型能够有更好的识别精度。
具体地,待训练的图像识别模型包括多个待训练的子模型。在此基础上,电子设备迭代调整多个待训练的子模型的模型参数,直到满足预设收敛条件时,获得预训练的图像识别模型。
其中,上述调整多个待训练的子模型的模型参数的步骤,具体包括:
电子设备通过多个待训练的子模型分别对样本图像进行识别,获得各待训练的子模型对样本图像的识别结果;结合各待训练的子模型对样本图像的识别结果,获得模型损失值;根据模型损失值调整各待训练的子模型的模型参数。
其中,上述收敛条件可以是,但不限于,模型损失值不再下降时停止迭代;在迭代次数达到设定次数时停止迭代,或者,模型损失值低于设定阈值时停止迭代。
示例性的,假定上述样本图像中具有涉政内容,具体涉政内容包括涉政人物、涉政标识、涉政文字等。电子设备配置的用于识别涉政图像的图像识别模型中,包括用于对涉政人物进行识别的子模型(假定为人物模型),用于对涉政标识进行识别的子模型(假定为标识模型),以及用于对涉政文字进行识别的子模型(假定为文字模型)。
电子设备将样本图像分别输入至上述人物模型、标识模型以及文字模型;然后,由人物模型获得样本图像中存在涉政人物的概率(假定为人物概率),由标识模型获得样本图像中存在涉政标识的概率(假定为标识概率),由文字模型获得样本图像中存在涉政文字的概率(假定为文字概率)。
进一步地,该电子设备基于预设权重,获得上述人物概率、标识概率以及文字概率之间的加权概率;然后,根据该加权概率与样本图像的实际类别,获得模型损失值后;根据模型损失值,以反向梯度传播算法调整上述人物模型、标识模型以及文字模型的模型参数。
重复上述步骤,直到满足预设的收敛条件。由此,本申请实施例中,在训练图像识别模型时,考虑了图像内容之间的相关信息,使得预训练的图像识别模型能够提供更好的识别精度。
相较于分别针对每个子模型进行单独训练,本实施例中,基于各待训练的子模型对样本图像的识别结果所获得的模型损失值,一次性调整各待训练的子模型的模型参数,能够提高对图像识别模型的训练效率。
此外,本实施例中的样本图像同时标记有多个违规对象的标签。其中,样本图像中标注的信息越多越细时,会使得样本图像具有的监督信息更为更干净,有利于图像识别模型从中学习如何判定一张图像是否为违规图像,继而提高图像识别模型训练时的收敛速度。
对此,应理解的是,当样本图像中具有多个违规对象,且任意一个违规对象都能使得该样本图像被判定为违规图像时,由于各样本图像之间,具有的违规对象的数量通常难以保持平衡,因此,单一标签的样本图像会引起模型损失值的波动,继而导致图像识别模型需要花费更多的时间进行收敛。
示例性的,再次以上述涉政图像为例。假定大部分的样本图像中具有涉政人物以及涉政标识,少部分的样本图像中具有涉政文字;由于具有涉政人物以及涉政标识的样本图像较多,会使得图像识别模型偏向于根据涉政人物以及涉政标识判定图像是否为违规图像。
然而,少部分的涉政文字的出现,会导致从中提取的特征与涉政人物以及涉政标识所具有的特征存在较大的差异,继而引起模型损失值出现较大的波动。
由于样本图像中标注的信息越多越细时,会提高图像识别模型训练时的收敛速度,因此,本实施例中即使图像区域很小的违规对象同样进行标记,以减少干扰信息的引入。例如,本申请实施例中,即使违规对象的图像区域小于图像整体面积的1/4,也同样打上违规对象的标签。
应理解,当图像中存在违规对象,但因其图像区域较小而不对其进行标记,则在对图像识别模型进行训练时,未标记的违规对象会给图像识别模型的学习过程带来误导。
考虑到本申请实施例中,需要对样本图像标记多个违规对象的标签,当样本图像的数量达到一定程度时,无疑会给数据清洗人员带来巨大的工作量。相关技术中,对大量数据进行标注时,常采用多人力并行众包标注的方案,来实现大量数据的快速积累。
但是由于不同标注人员之间,对敏感信息的衡量尺度存在差异,因此,存在标注标准难以统一的问题。
鉴于此,本申请实施例中,电子设备还获取第一参考图像;根据第一参考图像获得第二参考图像,其中,第二参考图像与第一参考图像的相似度大于相似阈值。
具体的,该电子设备可以通过少量的第一参考图像,从网络以及内部数据库中索引出相似度大于相似阈值的第二参考图像。
然后,该电子设备从第二参考图像中选取模型构建图像;通过模型构建图像训练出标签模型。
基于该标签模型,电子设备通过标签模型对未标记图像中的违规对象进行标记,其中,未标记图像为第二参考图像中的剩余图像;如此,将标记有多个违规对象标签的第二参考图像,作为样本图像。
示例性的,假定有10张第一参考图像,然后,该电子设备通过这10张第一参考图像从网络以及内部数据库中索引出10000张相似度大于相似阈值的第二参考图像。
然后,从10000张中选取1000张图像作为模型构建图像。人工对这1000张模型构建图像进行标记,并基于这1000张图像训练出标签模型。
最后,电子设备通过该标签模型对剩余的9000张图像中的违规对象进行标记。如此,不仅提高了图像标注效率,而且标签模型所标记的样本图像具有相同的标注标准。
基于与图像识别方法相同的发明构思,本申请实施例还提供一种图像识别装置,应用于电子设备。如图4所示,从功能上划分,该图像识别装置可以包括:
图像获取模块201,用于获取待识别图像。
本申请实施例中,该图像获取模块201对应的计算机可执行指令被处理器执行时,实现图3中的步骤S101,关于该图像获取模块201的详细描述可以参考步骤S101的详细描述。
图像处理模块202,用于从待识别图像中确定出多个违规对象的识别结果。
本申请实施例中,该图像处理模块202对应的计算机可执行指令被处理器执行时,实现图3中的步骤S102,关于该图像处理模块202的详细描述可以参考步骤S102的详细描述。
图像识别模块203,用于当多个违规对象的识别结果满足违规条件时,则确定待识别图像为违规图像。
本申请实施例中,该图像识别模块203对应的计算机可执行指令被处理器执行时,实现图3中的步骤S103,关于该图像识别模块203的详细描述可以参考步骤S103的详细描述。
可选地,各违规对象的识别结果为对应违规对象的分类概率,图像识别模块203具体用于:
加权求和各违规对象的分类概率,获得加权概率;
当加权概率大于概率阈值时,则确定待识别图像为违规图像。
另外,值得说明的是,上述图像获取模块201、图像处理模块202以及图像识别模块203还可以用于实现上述图像识别方法的其他步骤或者子步骤。该图像识别装置还可以包括其他功能模块用于实现上述图像识别方法的其他步骤。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时,实现的图像识别方法。
综上所述,本申请实施例提供的图像识别方法、装置、设备及介质中,该电子设备获取待识别图像,从中确定出多个违规对象的识别结果;然后,结合各违规对象的识别结果,在其满足违规条件时,则判定该待识别图像为违规图像。由于该方法在判定违规图像时,结合了具体的图像内容以及图像内容之间的相互关系,因此,提高了图像识别时的精度。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述,仅为本申请的各种实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种图像识别方法,其特征在于,应用于电子设备,所述方法包括:
获取待识别图像;
从所述待识别图像中确定出多个违规对象的识别结果;
当所述多个违规对象的识别结果满足违规条件时,则确定所述待识别图像为违规图像。
2.根据权利要求1所述的图像识别方法,其特征在于,所述电子设备配置有预训练的图像识别模型,所述图像识别模型包括多个子模型,所述从所述待识别图像中确定出多个违规对象的识别结果,包括:
通过所述多个子模型分别对所述待识别图像进行识别,获得所述多个违规对象的识别结果,其中,所述多个子模型与所述多个违规对象之间一一对应。
3.根据权利要求1所述的图像识别方法,其特征在于,各所述违规对象的识别结果为对应违规对象的分类概率,所述当所述多个违规对象的识别结果满足违规条件时,则确定所述待识别图像为违规图像,包括:
加权求和各所述违规对象的分类概率,获得加权概率;
当所述加权概率大于概率阈值时,则确定所述待识别图像为违规图像。
4.根据权利要求2所述的图像识别方法,其特征在于,所述方法还包括:
获取样本图像,其中,所述样本图像同时标记有多个违规对象的标签;
通过所述样本图像训练待训练的图像识别模型,获得所述预训练的图像识别模型。
5.根据权利要求4所述的图像识别方法,其特征在于,所述待训练的图像识别模型包括多个待训练的子模型,所述通过所述样本图像训练待训练的图像识别模型,获得所述预训练的图像识别模型,包括:
迭代调整所述多个待训练的子模型的模型参数,直到满足预设收敛条件时,获得所述预训练的图像识别模型,其中,所述调整所述多个待训练的子模型的模型参数,包括:
通过所述多个待训练的子模型分别对所述样本图像进行识别,获得各所述待训练的子模型对所述样本图像的识别结果;
结合各所述待训练的子模型对所述样本图像的识别结果,获得模型损失值;
根据所述模型损失值调整各所述待训练的子模型的模型参数。
6.根据权利要求4所述的图像识别方法,其特征在于,所述获取样本图像,包括:
获取第一参考图像;
根据所述第一参考图像获得第二参考图像,其中,所述第二参考图像与所述第一参考图像的相似度大于相似阈值;
从所述第二参考图像中选取模型构建图像;
通过所述模型构建图像训练出标签模型;
通过所述标签模型对未标记图像中的违规对象进行标记,其中,所述未标记图像为所述第二参考图像中的剩余图像;
将标记有所述多个违规对象标签的第二参考图像,作为所述样本图像。
7.根据权利要求2所述的图像识别方法,其特征在于,所述电子设备还配置有图像召回库,所述方法还包括:
当所述图像识别模型识别所述待识别图像出现误判时,则检查所述图像召回库是否存在有相似图像,其中,所述相似图像与所述待识别图像之间的相似度满足预设条件;
若所述图像召回库不存在所述相似图像,则将所述待识别图像记录到所述图像召回库中。
8.一种图像识别装置,其特征在于,应用于电子设备,所述图像识别装置包括:
图像获取模块,用于获取待识别图像;
图像处理模块,用于从所述待识别图像中确定出多个违规对象的识别结果;
图像识别模块,用于当所述多个违规对象的识别结果满足违规条件时,则确定所述待识别图像为违规图像。
9.一种电子设备,其特征在于,所述电子设备包括处理器以及存储器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,实现权利要求1-6中任意一项所述的图像识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现权利要求1-6中任意一项所述的图像识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110498329.5A CN113221721A (zh) | 2021-05-08 | 2021-05-08 | 图像识别方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110498329.5A CN113221721A (zh) | 2021-05-08 | 2021-05-08 | 图像识别方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113221721A true CN113221721A (zh) | 2021-08-06 |
Family
ID=77091783
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110498329.5A Pending CN113221721A (zh) | 2021-05-08 | 2021-05-08 | 图像识别方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113221721A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113792691A (zh) * | 2021-09-22 | 2021-12-14 | 平安国际智慧城市科技股份有限公司 | 一种视频识别方法、系统、设备及介质 |
CN116910296A (zh) * | 2023-09-08 | 2023-10-20 | 上海任意门科技有限公司 | 搬运内容识别方法、系统、电子设备和介质 |
-
2021
- 2021-05-08 CN CN202110498329.5A patent/CN113221721A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113792691A (zh) * | 2021-09-22 | 2021-12-14 | 平安国际智慧城市科技股份有限公司 | 一种视频识别方法、系统、设备及介质 |
CN113792691B (zh) * | 2021-09-22 | 2024-03-22 | 平安国际智慧城市科技股份有限公司 | 一种视频识别方法、系统、设备及介质 |
CN116910296A (zh) * | 2023-09-08 | 2023-10-20 | 上海任意门科技有限公司 | 搬运内容识别方法、系统、电子设备和介质 |
CN116910296B (zh) * | 2023-09-08 | 2023-12-08 | 上海任意门科技有限公司 | 搬运内容识别方法、系统、电子设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110163236B (zh) | 模型的训练方法和装置、存储介质、电子装置 | |
AU2013213886B2 (en) | Notification and privacy management of online photos and videos | |
CN108304835A (zh) | 文字检测方法和装置 | |
Zhang et al. | Boosting positive and unlabeled learning for anomaly detection with multi-features | |
CN110969066A (zh) | 直播视频的识别方法、装置及电子设备 | |
WO2021051530A1 (zh) | 检测异常邮件的方法、装置、设备和存储介质 | |
CN112183672A (zh) | 图像分类方法、特征提取网络的训练方法和装置 | |
CN113221721A (zh) | 图像识别方法、装置、设备及介质 | |
CN111325067B (zh) | 违规视频的识别方法、装置及电子设备 | |
WO2022246989A1 (zh) | 一种数据识别方法、装置、设备及可读存储介质 | |
CN109389105A (zh) | 一种基于多任务的虹膜检测和视角分类方法 | |
Amaro et al. | Evaluation of machine learning techniques for face detection and recognition | |
CN113128526B (zh) | 图像识别方法、装置、电子设备和计算机可读存储介质 | |
CN112115957A (zh) | 数据流识别方法及装置、计算机存储介质 | |
JP6573233B2 (ja) | 認識容易性指標算出装置、方法、及びプログラム | |
CN108024148B (zh) | 基于行为特征的多媒体文件识别方法、处理方法及装置 | |
CN117392577A (zh) | 用于司法视频场景中行为识别方法、存储介质及电子设备 | |
Lee et al. | Hierarchical system for objectionable video detection | |
WO2023000792A1 (zh) | 构建活体识别模型和活体识别的方法、装置、设备及介质 | |
JP2018013887A (ja) | 特徴選択装置、タグ関連領域抽出装置、方法、及びプログラム | |
CN112069357B (zh) | 视频资源处理方法、装置、电子设备及存储介质 | |
Moctezuma et al. | Appearance model update based on online learning and soft‐biometrics traits for people re‐identification in multi‐camera environments | |
CN115374843A (zh) | 物联网入侵检测模型训练方法、装置、设备及存储介质 | |
CN112989869B (zh) | 人脸质量检测模型的优化方法、装置、设备及存储介质 | |
CN112507912B (zh) | 一种识别违规图片的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |