CN111062871B - 一种图像处理方法、装置、计算机设备及可读存储介质 - Google Patents
一种图像处理方法、装置、计算机设备及可读存储介质 Download PDFInfo
- Publication number
- CN111062871B CN111062871B CN201911301418.5A CN201911301418A CN111062871B CN 111062871 B CN111062871 B CN 111062871B CN 201911301418 A CN201911301418 A CN 201911301418A CN 111062871 B CN111062871 B CN 111062871B
- Authority
- CN
- China
- Prior art keywords
- image
- identified
- image block
- recognized
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
- G06T3/403—Edge-driven scaling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
- G06T3/4038—Scaling the whole image or part thereof for image mosaicing, i.e. plane images composed of plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20021—Dividing image into blocks, subimages or windows
Abstract
本申请涉及人工智能技术领域,提供一种图像处理方法、装置、计算机设备及可读存储介质,该方法包括:对待识别图像的各边进行等比例缩放,获得第一边的尺寸满足图像识别模型的输入尺寸的中间图像;从中间图像中获得至少一个待识别图像块;其中,至少一个待识别图像块拼接后包括中间图像的所有图像区域,每个待识别图像块的尺寸满足输入尺寸;通过已训练的特征提取模型,对至少一个待识别图像块进行特征提取,获得至少一个待识别图像块的特征信息;通过已训练的图像识别模型,对特征信息进行识别,获得针对待识别图像的目标识别结果;其中,图像识别模型和特征提取模型是通过训练样本集同步训练得到的。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及人工智能技术领域,提供一种图像处理方法、装置、计算机设备及可读存储介质。
背景技术
随着图像技术的不断发展,图像分类应用逐渐广泛。图像分类依赖于图像识别模型,实现对多种图像中的目标进行分类。不同的图像识别模型,对输入图像的大小的要求有所不同。
因此,在输入图像识别模型之前,需要对图像进行缩放和/或裁剪处理,以满足图像识别模型的需求。对图像进行缩放处理,可能导致图像中目标的图像特征发生变化。对图像进行裁剪处理,可能导致图像中目标的图像特征被裁剪掉,两种处理方式,均可能导致图像中的目标的特征改变,进而使得后续图像识别模型无法进行准确识别缩放和/或裁剪处理后的图像。
发明内容
本申请实施例提供一种图像处理方法、装置、计算机设备及可读存储介质,用于提高图像分类的准确性。
第一方面,一种图像处理方法,包括:
对待识别图像的各边进行等比例缩放,获得第一边的尺寸满足图像识别模型的输入尺寸的中间图像;
从所述中间图像中获得至少一个待识别图像块;其中,所述至少一个待识别图像块拼接后包括所述中间图像的所有图像区域,每个待识别图像块的尺寸满足所述输入尺寸;
通过已训练的特征提取模型,对所述至少一个待识别图像块进行特征提取,获得所述至少一个待识别图像块的特征信息;
通过已训练的所述图像识别模型,对所述特征信息进行识别,获得针对所述待识别图像的目标识别结果;其中,所述图像识别模型和所述特征提取模型是通过训练样本集同步训练得到的。
第二方面,提供一种图像处理装置,包括:
缩放模块,用于对待识别图像的各边进行等比例缩放,获得第一边的尺寸满足图像识别模型的输入尺寸的中间图像;
获得模块,用于从所述中间图像中获得至少一个待识别图像块;其中,所述至少一个待识别图像块拼接后包括所述中间图像的所有图像区域,每个待识别图像块的尺寸满足所述输入尺寸;
提取模块,用于通过已训练的特征提取模型,对所述至少一个待识别图像块进行特征提取,获得所述至少一个待识别图像块的特征信息;
识别模块,用于通过已训练的所述图像识别模型,对所述特征信息进行识别,获得针对所述待识别图像的目标识别结果;其中,所述图像识别模型和所述特征提取模型是通过训练样本集同步训练得到的。
在一种可能的实施例中,获得模块具体用于:
沿着与所述第一边垂直的第二边,从所述中间图像中获得至少一个待识别图像块;其中,所述至少一个待识别图像块沿所述第二边拼接后包括了所述中间图像的所有图像区域。
在一种可能的实施例中,所述特征提取模型包括SEnet和卷积网络,所述提取模块具体用于:
通过所述SEnet网络,对所述至少一个待识别图像块中包含目标的图像块进行特征增强,获得至少一个处理后的待识别图像块;
通过所述卷积网络,对所述至少一个处理后的待识别图像块进行卷积处理,获得所述至少一个待识别图像块的特征信息。
在一种可能的实施例中,所述SEnet网络包括全局池化单元、激活单元和比例scale单元,所述提取模块具体用于:
通过所述SEnet网络,对所述至少一个待识别图像块中包含目标的图像块进行特征增强,获得至少一个处理后的待识别图像块,包括:
通过所述全局池化单元,对所述至少一个待识别图像块进行全局池化处理,获得至少一个池化后的待识别图像块;
通过所述激活单元,对所述至少一个池化后的图像块进行激活操作,获得各个图像块的权重参数;其中,所述权重参数用于表示所述至少一个池化后的图像块之间的相关性;
通过所述比例单元,根据所述权重参数,对所述至少一个图像块分别进行加权处理,获得至少一个处理后的待识别图像块。
在一种可能的实施例中,所述卷积网络包括依次连接的多层卷积层。
在一种可能的实施例中,所述至少一个待识别图像块是通过对所述中间图像进行多次裁剪处理获得的,裁剪处理的滑动步长是根据所述中间图像在垂直与所述第一边的第二边上的尺寸与所述输入尺寸中对应所述第二边上的尺寸的差值,以及所述卷积网络的通道数确定的。
在一种可能的实施例中,所述至少一个待识别图像块中,沿所述第二边的相邻两个待识别图像块之间存在重叠区域。
在一种可能的实施例中,所述训练样本集包括标注有目标分类标签的多个样本图像,每个样本图像包括至少一个样本图像块,每个样本图像块满足所述输入尺寸,且每个样本图像包括的样本图像块沿设定方向拼接后包括了样本图像的所有图像区域。
在一种可能的实施例中,所述特征提取模型以及所述图像识别模型是通过如下步骤训练得到的:
获取训练样本集;
通过所述训练样本集,训练特征提取模型以及所述图像识别模型,直到图像识别模型根据特征提取模型输出的特征信息预测的目标分类结果,与标注有目标分类的样本图像之间的损失满足目标损失,获得训练完成的特征提取模型和所述图像识别模型。
在一种可能的实施例中,所述待识别图像为待推荐视频中视频帧,所述装置还包括接收模块和发送模块,其中:
所述接收模块,用于接收终端设备发送的推荐请求;以及根据所述推荐请求,获取所述终端设备对应的用户的视频喜好标签;
所述发送模块,用于若所述待识别图像的目标识别结果与所述视频喜好标签匹配,则将所述待识别图像对应的视频信息反馈给所述终端设备。
在一种可能的实施例中,所述待识别图像为待审核视频中视频帧,所述装置还包括确定模块,其中:
所述确定模块,用于若所述待识别图像的目标识别结果与预存的非法视频元素匹配,则确定所述待识别图像对应的视频为异常视频。
在一种可能的实施例中,所述待识别图像为终端设备中的照片,所述装置还包括存储模块和创建模块,其中:
所述存储模块,用于若所述待识别图像的目标识别结果与所述相册标签集合中任一相册标签匹配,则将所述待识别图像存储至所述任一相册标签对应的相册中;
所述创建模块,用于若所述待识别图像的目标识别结果与所述相册标签集合均不匹配,则新建相册,并将所述待识别图像存储至新建的相册,将所述待识别图像的目标识别结果作为新建的相册的相册标签。
第三方面,提供一种计算机设备,包括:
至少一个处理器,以及
与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述至少一个处理器通过执行所述存储器存储的指令实现如第一方面中任一项所述的方法。
第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行如第一方面中任一项所述的方法。
由于本申请实施例采用上述技术方案,至少具有如下技术效果:
在本申请实施例中,对待识别图像进行等比例缩放,使得中间图像的一边的尺寸满足图像识别模型的输入尺寸,也不改变待识别图像的图像信息分布,再对中间图像进行处理,获得至少一个待识别图像块,这些至少一个待识别图像块中包括待识别图像中的所有图像区域,如此一来,可以保证不遗漏中间图像的图像信息,使得后续根据至少一个待识别图像块对应的特征信息,准确地识别出待识别图像的目标识别结果。相较于现有技术中随机裁剪或缩放的方式,本申请实施例中的方法不仅可以保留且不会改变待识别图像所有的图像信息,还可以使得基于至少一个待识别图像块的特征信息的尺寸能够满足图像识别模型的输入尺寸,使得后续图像识别模型针对该待识别图像的分类更加准确。
附图说明
图1为本申请实施例提供的一种图像处理设备的结构示意图;
图2为本申请实施例提供的一种图像处理方法的应用场景示意图;
图3为本申请实施例提供的一种图像处理方法的原理示意图;
图4为本申请实施例提供的一种等比例缩放待识别图像的示例图;
图5为本申请实施例提供的一种获得至少一个待识别图像块的过程示例图;
图6为本申请实施例提供的一种多通道图层的示意图;
图7为本申请实施例提供的对至少一个待识别图像块进行特征提取的示例图;
图8为本申请实施例提供的一种特征提取模型对多通道图层进行处理的过程示例图;
图9为本申请实施例提供的一种SEnet网络的结构示意图;
图10为本申请实施例提供的一种图像处理方法的流程示意图一;
图11为本申请实施例提供的一种图像处理方法的流程示意图二;
图12为本申请实施例提供的一种图像处理方法的流程示意图三;
图13为本申请实施例提供的一种对待识别图像进行归类的示例图;
图14为本申请实施例提供的一种图像处理装置的结构示意图;
图15为本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为了更好的理解本申请实施例提供的技术方案,下面将结合说明书附图以及具体的实施方式进行详细的说明。
人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision,CV):计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
图像识别模型的输入尺寸:图像识别模型能够处理的图像的大小,比如图像识别模型只能处理224*224大小的图像,那么该图像识别模型的输入大小为224*224。
下面对本申请实施例的设计思想进行介绍。
在将原图像输入图像识别模型处理之前,需要对原图像进行预处理,使得该原图像的大小满足图像识别模型的输入尺寸。目前常用的两种处理方式具体如下:
(1)对原图像进行缩放处理,使得缩放后的原图像满足输入尺寸。比如输入尺寸是224*224,原图像的尺寸为250*260,原图像经过缩放处理之后,原图像中有些图像元素会被压缩,因此,将缩放后的原图像输入到图像识别模型之后,可能会因为图像元素被压缩,进而导致图像识别模型识别结果不准确。
(2)对原图像进行随机裁剪,使得随机裁剪后的图像大小满足图像识别模型。这种方式中由于是对原图像进行随机裁剪,因此,可能导致在裁剪过程中,将原图像中的目标裁剪掉,从而影响后续图像识别模型的识别过程。
基于上述分析,可以看出现有技术中处理原图像的方式均可能存在改变原图像的内容,导致最终图像识别模型最后的识别结果不够准确。
鉴于此,本申请发明人设计了一种图像处理方法,该方法先对待识别图像进行等比例缩放,获得第一边的尺寸满足图像识别模型的输入尺寸的中间图像,然后对中间图像沿着垂直于第一边的第二边进行处理,获得至少一个待识别图像块,每个待识别图像块的尺寸均满足图像识别模型的输入尺寸。这至少一个待识别图像块包含待识别图像的所有图像区域,也就是说,至少一个待识别图像块包含该待识别图像的所有图像信息。然后对至少一个待识别图像块进行特征提取,获得至少一个待识别图像块的特征信息。最后再对这些特征信息进行识别,获得该待识别图像的目标识别结果。
该方法中,对待识别图像进行等比例缩放,获得中间图像,保证中间图像的一边的尺寸满足图像识别模型的输入尺寸,根据中间图像,获得至少一个待识别图像块,这些至少一个待识别图像块中包括中间图像中的所有图像区域,保证中间图像中的所有图像信息不会被遗漏,从而保证后续根据至少一个待识别图像块对应的特征信息,准确地识别出待识别图像的目标识别结果。相较于现有技术中随机裁剪或缩放的方式,该方法不仅可以保留且不会改变待识别图像所有的图像信息,还可以使得基于至少一个待识别图像块的特征信息的尺寸能够满足图像识别模型的输入尺寸,使得后续图像识别模型针对该待识别图像的分类更加准确。
在介绍完本申请实施例中的设计思想之后,下面对本申请实施例涉及的图像处理方法的应用场景进行示例说明。
请参照图1,表示执行本申请实施例中的图像处理方法的图像处理设备的结构示意图,该图像处理设备100包括一个或多个输入设备101、一个或多个处理器102、一个或多个存储器103和一个或多个输出设备104。
输入设备101用于提供输入接口,以获取外界设备/用户输入的请求等。在获该请求之后,输入设备101将该请求发送给处理器102,处理器102利用存储器103中存储的程序指令,实现对请求相关的待识别图像进行识别,获得待识别图像的目标识别结果。通过输出设备104输出目标识别结果。
其中,输入设备101可以包括但不限于物理键盘、功能键、轨迹球、鼠标、触摸屏、操作杆等中的一种或多种。处理器102可以是一个中央处理单元(central processing unit,CPU),或者为数字处理单元等。存储器103可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器103也可以是非易失性存储器(non-volatile memory),例如只读存储器,快闪存储器(flash memory),硬盘(hard diskdrive,HDD)或固态硬盘(solid-state drive,SSD)、或者存储器103是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器103可以是上述存储器的组合。输出设备104例如显示器、扬声器和打印机等等。
在可能的实施例中,图像处理设备100可以是用户端设备,也可以是服务端设备。用户端设备可以是移动终端、固定终端或便携式终端,例如移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合,包括这些设备的配件和外设或者其任意组合。还可预见到的是,图像处理设备100能够支持任意类型的针对用户的接口(例如可穿戴设备)等。服务端设备可以是各种服务提供的服务器、大型计算设备等。服务器可以是一个或多个服务器。服务器也可以是实体服务器或虚拟服务器等。
下面对图像处理设备100的具体部署情况以及各个设备之间的交互过程进行示例说明。
场景一:
请参照图2,该应用场景中包括终端设备210和服务器220,以图像处理设备100为服务器220为例,下面对终端设备210以及服务器220之间的交互过程进行示例说明。
当用户通过终端设备210中看视频时,当用户想要获取新的视频时,例如可以下拉或者上拉视频,终端设备210根据用户的操作,生成视频推荐请求,并将该视频推荐请求发送给服务器220,服务器220在收到视频推荐请求之后,可以解析该视频推荐请求,服务器220对待推荐视频中的视频帧进行识别,获得目标识别结果,并将这些不同视频对应的目标识别结果与用户的视频喜好标签进行匹配,在获得与用户的视频喜好标签匹配的目标识别结果之后么可以将目标识别结果对应的视频推送给终端设备210,以便于用户观看自己想要的视频。
该场景下,可以利用本申请实施例中的图像处理方法对视频中视频帧进行识别,获得更准确的目标识别结果,从而有利于为用户推荐自己想要看的视频,满足用户的观看需求。
场景二:
继续以图2为例,以图像处理设备100为终端设备210为例,下面对终端设备210以及服务器220之间的交互过程进行示例说明。
终端设备210对应工作人员,工作人员可以通关对视频中的视频帧进行识别,获得每个视频帧对应的目标识别结果,并将这些目标识别结果与预存的非法视频元素进行匹配,如果确定目标识别结果与非法视频元素匹配,从而确定该视频帧对应的视频异常。该应用场景下,利用本申请实施例中的图像处理方法对视频中各个视频帧进行目标识别,从而判断这些视频是否合法。并将合法的视频发送给服务器220,便于服务器220后续为用户提供相应的视频。
场景三:
以图像处理设备100为终端设备210为例,当用户通过拍摄、网络资源以及截图等获得照片之后,终端设备210可以对这些照片进行分类识别,从而获得这些照片对应的目标识别结果,并基于这些目标识别结果建立相应相册标签的相册,进而实现对用户的终端设备中的照片进行自动分类。
无论是上述哪一种应用场景,图像处理设备100处理图像的过程和原理均相同,下面先对本申实施例涉及的图像处理过程中的原理进行介绍。
请参照图3,为本申请实施例提供的一种图像处理方法的原理图像,该图像处理方法主要包括S310,等比例缩放;S320,分块处理;S330,特征提取和S340,图像识别四个部分,下面对四个部分分别进行说明。
S310,等比例缩放:
对待识别图像的各边进行等比例缩放,获得第一边的尺寸满足图像识别模型的输入尺寸的中间图像。
具体的,等比例缩放是指保持待识别图像中各个边的尺寸比例不变,对待识别图像进行整体的缩小或放大。例如待识别图像的长和高的尺寸比例为1:3,那么对待识别图像的各边进行等比例缩放之后的中间图像中长和高的尺寸比例依旧是1:3。为了便于方便后续分块,在对待识别图像进行等比例缩放之后,可以保持待识别图像中的第一边的尺寸满足图像识别模型的输入尺寸。
在一种可能的实施例中,待识别图像的中的第一边为较短的一边,将该第一边缩放为图像识别模型的输入尺寸。其中,较短的一边是指相对于输入尺寸对应边差距相对更小的一边。将较短的一边缩放到输入尺寸,这样一来,可以使得较长的一边在被缩放之后,依旧能够大于输入尺寸的对应边的尺寸,便于后续对中间图像进行处理。
在一种可能的情况下,如果待识别图像的比例和图像识别模型的输入尺寸的比例相符合,那么获得的中间图像的所有边的尺寸均符合输入尺寸。
例如,请参照图4,图4中A表示待识别图像,该待识别图像中包括遥控器笔记本和位于笔记本上的兔子,待识别图像的大小为518像素点*264像素点,图像处理设备100在对待识别图像的尺寸进行缩放之后,获得中间图像,如图4中B所示,该中间图像的大小为439像素点*224像素点。根据图4直观地可以看到,等比例缩放之后,图A和图B呈现出的图像信息没有发生变化,图像信息例如图像纹理、图像轮廓、图像颜色等等。
S320,分块处理:
对中间图像进行分块处理,获得至少一个待识别图像块。
具体的,可以对中间图像进行任意裁剪处理,获得满足输入尺寸的一个或多个待识别图像块,只要所有的待识别图像块包含中间图像的所有图像区域即可。
在一种可能的实施例中,沿着与第一边垂直的第二边,从中间图像中获得至少一个待识别图像块。其中,每个待识别图像块的尺寸满足输入尺寸,且至少一个待识别图像块沿着第二边拼接之后包括中间图像的所有图像区域。
具体的,朝着与第一边垂直的第二边,移动窗口,每移动滑动,获得一待识别图像块,依次类推,从而获得至少一个待识别图像块,该窗口的大小满足输入尺寸。如前文论述的内容,中间图像的第一边满足输入尺寸,而中间图像的第二边实际上并不满足输入尺寸,因此,可以沿着第二边,对中间图像进行划分,窗口的大小满足输入尺寸,因此每移动一次窗口,也就能获得一个满足输入尺寸的识别图像块。
在本申请实施例中,沿着第二边对中间图像进行分块,使得所有的待识别图像块沿着第二边进行拼接之后,可以包括中间图像的所有图像区域,也就是说,在分块的时候,保持中间图像的第一边的尺寸不变,沿着第二边去分块即可,这样一来,不仅可以简化分块过程,还能保持待识别图像在第一边上的相关性,保持各个待识别图像块在第一边上的相关性,更利于后续准确地确定出待识别图像的准确性。
作为一种实施例,至少一个待识别图像块中,沿着第二边的相邻两个待识别图像块之间存在重叠区域。
具体的,在对中间图像进行分块时,可以在第二边上保持相邻两个待识别图像块之间具有相同的部分图像区域,这样一来,可以最大程度上保留目标的完整性。
例如,请参照图5,对图5中A所示的中间图像进行划分之后,获得如图5中所示的多个待识别图像块,具体可以参照图5中B1、B2和B3所示的待识别图像块。
S330,特征提取:
对至少一个待识别图像进行特征提取,获得至少一个待识别图像的特征信息。
作为一种实施例,可以将至少一个待识别图像块进行堆叠处理,例如每个待识别图像块可以由红绿蓝三通道图层表示,那么将至少一个待识别图像块进行堆叠之后,形成的就是多通道图层。堆叠可以理解为将所有的待识别图像块的红绿蓝三通道图层叠放在一起。叠放顺序例如可以是按照形成至少一个待识别图像块的顺序排列,叠放顺序实际上可以是任意的,本申请不做具体限制。将至少一个待识别图像块堆叠之后,至少一个待识别图像块也就相当于视为一个整体,以便于后续处理。
例如,请参照图6,在图5中获得待识别图像块B1、B2和B3之后,可以将待识别图像块B1的红绿蓝三通道图层、B2的红绿蓝三通道图层和B3的红绿蓝三通道图层依次叠放在一起,从而形成如图6中所示的多通道图层。
在堆叠处理之后,或者也可以是不进行堆叠处理,可以通过特征提取模型,提取至少一个待识别图像块的特征,获得至少一个待识别图像块的特征信息,特征信息用于表示至少一个待识别图像块包含目标的特征分布,该特征信息的具体形式可以是特征图,也可以是红绿蓝三通道图层组成的特征图。
下面对至少一个待识别图像块进行特征提取的方式进行示例说明。
方式一:
特征提取模型为卷积网络,通过卷积网络,对至少一个待识别图像块进行特征提取,获得至少一个待识别图像块的特征信息。
具体的,卷积网络可以是一层或依次连接的多层卷积层构成的,每个卷积层对至少一个待识别图像块进行特征提取,经过所有的卷积层处理之后,最后获得至少一个待识别图像块中用于目标识别的特征信息。
比如,对至少一个待识别图像块中像素值特征图进行特征提取,从而获得至少一个待识别图像块的特征图,该特征图可以用于表示各个像素点对应的像素值分布。或者比如,对至少一个待识别图像块中红绿蓝三通道图层进行特征提取,最后可以获得三通道特征图层,也就相当于一个特征图。
例如,请参照图7,以一个卷积层中的一个卷积核为例,该卷积核可以对至少一个待识别图像块中对应位置上的值进行卷积,最后获得特征图C中对应位置上的值。例如待识别图像块B1在第一个像素点上的值为a1,待识别图像块B2在第一个像素点上的值为a2,待识别图像块B3在第一个像素点上的值为a3,卷积核对a1、a2和a3进行加权处理之后,可以获得特征图中在第一像素点上的值为a4。当卷积层包含多个卷积核时,对至少一个待图像块进行多次加权,从而获得多个特征图。
方式二:
特征提取模型包括SEnet网络和卷积网络,通过SEnet网络,对至少一个待识别图像块中包含目标的图像块进行特征增强,获得至少一个处理后的待识别图像块;
通过卷积网络,对至少一个处理后的待识别图像块进行卷积处理,获得至少一个待识别图像块的特征信息。
具体的,请参照图8,表示提取至少一个待识别图像块的特过程的示意图,该图中包括SEnet网络801和卷积网络802,下面先对各个网络的结构进行示例介绍。
SEnet网络801:
请参照图9,SEnet网络801包括全局池化单元901,激活单元902和比例scale单元903。
通过全局池化单元901,对至少一个待识别图像块进行全局池化处理,相当于取获取至少一个待识别图像块的全局信息,获得至少一个池化后的待识别图像块;然后再通过激活单元902,学习至少一个池化后的待识别图像块之间的相关性,从而获得各个待识别图像块的权重参数,权重参数用于表示各个待识别图像块之间的相关性,相关性越大在一定程度上表示该待识别图像块的特征越重要。最后通过比例scale单元903,根据前面激活单元902学习得到的权重参数,对至少一个图像块分别进行加权处理,获得至少一个处理后的待识别图像块。
作为一种实施例,继续参照图9,全局池化单元901包括全局池化层,例如全局平均池化层。该激活单元902包括第一全连接层(fully connected layers,FC),relu层,第二全连接层和sigmoid层。或者激活单元也可以包括第一全连接层,第二全连接层(fullyconnected layers,FC)和sigmoid层,本申请不具体限制激活单元902的结构。比例单元903包括比例scale层。
具体的,将至少一个待识别图像块中每个待识别图像块的红绿蓝三通道图层中一个通道图层作为一个特征层,然后通过全局池化层提取出所有每个通道图层中全局特征信息,然后依次经过第一全连接层、relu层、第二全连接层和sigmoid层,获得待识别图像块的权重参数。最终通过scale层,通过权重参数对各个待识别图像块进行加权,最后获得至少一个处理后的待识别图像块。
例如,继续参照图9,至少一个待识别图像块的数量为m个,每个待识别图像块包括红绿蓝三个图层,因此,待识别图像块构成的多通道图层X的数量为W*W*3m,然后经过全局池化层以及第一全连接层之后,获得1*1*3m/r个特征图层,再经过relu层以及第二全连接层,获得1*1*3m个特征图层,最后经过sigmoid层,获得通道图层对应的权重参数,在Scale层,根据这些权重参数对多通道图层X分别进行加权,最后获得X’,X’为W*W*3m个特征图层。其中,r表示超参数,例如取值可以为3。
本申请实施例中,SEnet网络801通过对包含目标的待识别图像块进行增加,对不包含目标的待识别图像块进行特征抑制,从而使得至少一个待识别图像块中各个待识别图像块中的目标特征更加明显,利于后面更准确地识别出目标。
卷积网络802:
继续参照图8,该卷积网络可以由依次连接的两层卷积层构成,卷积层主要用于特征提取以及降维。
具体的,在SEnet网络801对至少一个待识别图像块进行处理之后,获得至少一个处理后的待识别图像块,再通过卷积网络802对至少一个处理后的待识别图像块进行卷积处理,最后获得至少一个待识别图像块的特征信息。
在一种可能的实施例中,获得待识别图像块时,待识别图像块的数量与卷积网络的通道数相关。
具体的,至少一个待识别图像块是通过对中间图像进行多次裁剪处理获得的,裁剪处理的滑动步长是根据中间图像在第二边上的尺寸与输入尺寸中对应第二边上的尺寸的差值,以及卷积网络的通道数确定的。
在对中间图像进行裁剪处理时,每次裁剪处理的滑动步长可以是根据中间图像在第二边上的尺寸与输入尺寸中对应第二边上的尺寸之间的差值,以及卷积网络的通道数确定的。
当每个待识别图像块是以红绿蓝三通道图层表示时,滑动步长的具体计算公式如下:
(Ws-w)/(m-1)
其中,Ws表示的是中间图像第二边的尺寸大小,w表示的是图像识别模型中的输入尺寸对应第二边的尺寸大小,m表示卷积网络的通道数除以3的结果,这里卷积网络的通道数是指卷积网络的所有通道数,例如卷积网络包括第一卷积层和第二卷积层,第一卷积层的通道数为m,第二卷积层的通道数为3,那么该卷积网络的通道数则为3*m。
下面对该公式进行说明:
图像识别模型的输入是一个图像,那么可以等同于红绿蓝三通道图层,因此,也就是说,卷积网络的最后输出的应该是一个三通道图层,而卷积网络的通道数为3m,也就是说,最开始输入该卷积网络的应该是3m个图层,这样该卷积网络最终才能输出一个三通道图层,SEnet网络并不会改变图层数量,也就意味着至少一个待识别图像块能够组成的图层数量应该是3m,也就是至少一个待识别图像块的数量应该是m个。在至少一个待识别图像块的数量确定的情况下,从而可以确定每次滑动步长的大小如上式。
S340,图像识别:
在获得至少一个待识别图像块的特征信息之后,可以将该特征信息输入到图像识别模型,由于至少一个待识别图像块的特征信息中包含目标的特征信息,且大小符合图像识别模型的输入尺寸,因此,可以直接将该特征信息输入值图像识别模型,通过图像识别模型,对特征信息进行识别,获得待识别图像的目标识别结果。
其中,待识别图像中可能包含目标,也可能不包含目标,目标识别结果具体可以是对待识别图像中目标属于某一类目标的概率值,或者输出待识别图像中目标属于某一类目标,或者输出待识别图像中不包含目标等,本申请不限制目标识别结果的具体形式。图像识别模型可以是图像分类模型或目标检测模型,例如resnet分类模型,vgg分类模型等。
继续以图3为例,对待识别图像a进行等比例缩放之后,形成中间图像b,中间图像b的长高比例与待识别图像a的长高比例相同,对中间图像b进行分块处理之后,形成如图c中所示的待识别图像块D1和待识别图像块D2,然后提取D1和D2的特征,获得特征图e,在对特征图e进行图像识别,获得目标识别结果。
上述中的特征提取模型和图像识别模型是可以通过同步训练获得,下面对两个模型的训练过程进行示例说明:
S1:获取训练样本集;
具体的,训练样本集包括标注有目标分类标签的多个样本图像,以及每个样本图像对应的至少一个样本图像块,每个样本图像块满足输入尺寸,且每个样本图像包括的样本图像块沿设定方向拼接之后包括样本图像的所有图像区域。
其中,标注目标分类标签的样本图像可以是由用户手动标注,或者是通过一些分类准确率比较高的分类网络标注的。每个样本图像包括的样本图像块可以是通过前文中等比例缩放和分块处理之后获得的,具体内容可以参照前文论述的内容,此处不再赘述。
S2:基于训练样本集,训练特征提取模型以及图像识别模型,直到图像识别模型基于特征提取模型输出的特征信息预测出的目标分类结果,和标注有目标分类的样本图像之间的损失满足目标损失,从而获得训练完成的特征提取模型以及图像识别模型。
具体的,针对一样本图像,先将该样本图像对应的至少一个样本图像块输入特征提取模型,然后获得至少一个样本图像块的样本特征信息,然后将这些特征信息输入到图像识别模型,图像识别模型可以基于样本特征信息进行预测,获得样本图像的目标识别结果,然后基于该目标识别结果与标注有目标分类的样本图像(也就是真实的目标识别结果)进行计算,确定预测的目标识别结果和真实的目标识别结果之间的损失,然后不断调整模型参数,直到该损失满足目标损失,从而获得训练完成的特征提取模型以及图像识别模型。
在介绍完本申请实施例涉及的图像处理方法的原理之后,下面以场景一为例,介绍本申请实施例涉及的图像处理方法的具体过程。
请参照图10,该图像处理方法具体包括:
S1001,终端设备210响应于用户获取视频的操作,生成视频推荐请求。
具体的,用户在观看视频的时候,可以拉取视频,或者滑动视频界面,终端设备210在接收到用户的操作信息之后,生成视频推荐请求,该视频推荐请求表示用户需要获取视频。视频推荐请求中还可以携带终端设备210对应的用户ID。
S1002,终端设备210将视频推荐请求发送给服务器220。
具体的,终端设备210在生成视频推荐请求之后,可以将视频推荐请求发送给服务器220,服务器220获取得到该视频推荐请求。
S1003,服务器220根据视频推荐请求,获取用户的视频喜好标签。
具体的,服务器220可以学习得到各个用户的视频喜好标签,例如服务器220可以根据用户属性信息,以及用户针对视频的操作行为信息,获得各个用户的视频喜好标签。用户属性信息例如用户年龄、性别、地区等。操作行为信息例如用户播放过的视频等。或者服务器220可以根据用户之前点击过的视频的标签,学习历史标签,从而获得用户的视频喜好标签。该视频喜好标签用于表示用户喜好的视频类型,例如纪录片和猫。服务器220在获得各个用户的视频喜好标签,以及在获得视频推荐请求之后,就可以根据视频推荐请求中的用户ID去匹配出与该用户所对应的视频喜好标签,进而获得该用户的视频喜好标签。
S1004,服务器220对待识别图像的各边进行等比例缩放,获得中间图像。
其中,等比例缩放以及中间图像可以参照前文论述的内容,此处不再赘述。中间图像的第一边的尺寸满足图像识别模型的输入尺寸。
S1005,服务器220获得至少一个待识别图像块。
沿着第一边垂直的第二边,从中间图像中获得至少一个待识别图像块。至少一个待识别图像块、第二边等内容可以参照前文论述的内容,此处不再赘述。
S1006,服务器220通过已训练的特征提取模型,获得至少一个待识别图像块的特征信息。
具体的,特征提取模型、特征信息等内容可以参照前文论述的内容,此处不再赘述。
S1007,服务器220通过图像识别模型,获得待识别图像的目标识别结果。
具体的,图像识别模型和目标识别结果等内容可以参照前文论述的内容,此处不再赘述。待识别图像为待推荐视频中的视频帧,也就是说,服务器220可以识别待推荐视频中的视频帧,获得该视频帧中的目标识别结果。待推荐视频中的视频帧可以是选用待推荐视频中的关键帧,或者选择推荐视频中的封面视频帧,再对视频帧进行识别之后,从而就可以获得待识别图像的目标识别结果。
S1008,若目标识别结果与视频喜好标签匹配,服务器220确定待识别图像对应的视频信息。
具体的,视频帧的目标识别结果与视频喜好标签进行匹配,如果该视频帧的目标识别结果与视频喜好标签匹配,确定出与待是被图像对应的视频信息。
S1009,将该视频帧的目标识别结果对应的视频信息推送给终端设备210。
具体的,服务器220可以将视频信息发送给终端设备210,例如可以将视频信息对应的视频ID推送给终端设备210,以使得终端设备210根据该视频ID获取视频。如果该视频帧的目标识别结果与视频喜好标签不匹配,则不向该用户推荐该视频。
作为一种实施例,待推荐视频中包含多个视频帧,可以将多个视频帧中出现频率满足预设条件的目标识别结果确定为待识别图像的最终目标识别结果。
具体的,待推荐视频包括多帧视频,每帧视频包含不同的目标识别结果,可以识别出各个视频帧的目标识别结果,目标识别结果在所有视频帧中出现频率最高的,相对最能反映该视频的特征,从而可以出现频率满足预设条件的目标识别结果确定为最终的目标识别结果。
例如,用户的视频喜好标签为纪录片和猫,识别待推荐视频的视频帧的目标识别结果为猫,则可以将该视频推荐给终端设备210。
在本申请实施例中,利用图像处理方法不仅可以获得更加准确的视频帧的目标识别结果,还提供一种更加精确获取视频特征的方式,使得最终为用户推荐的视频更符合用户的需求。
下面以场景二为例,对本申请实施例涉及的图像处理方法进行介绍。
请参照图11,表示一种图像处理方法的流程示意图,该方法具体包括:
S1101,获取待审核视频中的待识别图像。
具体的,终端设备210可以从数据库或者服务器220中获取待审核视频,终端设备210可以对待审核视频进行解析,获得待审核视频中每帧视频帧,每一个视频帧均视为一待识别图像。
S1102,获得待识别图像的目标识别结果。
具体的,终端设备210可以通过前文论述的方法,获得每一个视频帧的目标识别结果,也就相当于获得待识别图像的目标识别结果。关于获得每个视频帧的目标识别结果的方式可以参照前文论述的内容,此处不再赘述。
S1103,若待识别图像的目标识别结果与预存的非法视频元素匹配,则确定待识别图像对应的视频为异常视频。
具体的,终端设备210可以将每一帧视频的目标识别结果与预存的非法视频元素进行匹配,非法视频元素是指规定的不允许在视频中出现的视频元素,非法视频元素可以是工作人员预先搜集的。如果确定待识别图像的目标识别结果和预存的非法视频元素匹配,就确定该视频帧包含非法视频元素,从而确定待识别图像对应的视频为异常视频。
当然,终端设备210对视频帧的进行识别,可以获得视频帧中的目标识别结,但是为了进一步保证最后的审核结果,可以提示异常视频。
下面以场景三为例,对本申请实施例涉及的图像处理方法进行示例说明。
请参照图12,表示一种图像处理方法的流程示意图,该方法具体包括:
S1201,获得待识别图像的目标识别结果。
具体的,终端设备210检测到相册中有新存入的照片,该新存入的照片就可以视为待识别图像。终端设备210可以通过前文论述的方式识别待识别图像中的目标识别结果,从而获得待识别图像的目标识别结果,具体获得待识别图像的目标识别结果的方式可以参照前文论述内容,此处不再赘述。
S1202,确定待识别图像的目标识别结果是否和预存的相册标签集合匹配。
具体的,终端设备210在获得待识别图像的目标识别结果之后,可以将该目标识别结果与预存的相册标签集合进行匹配,如果待识别图像的目标识别结果与任一相册标签匹配,则执行S1203,将待识别图像存储至匹配的相册标签对应的相册中;如果待识别图像的目标识别结果与相册标签集合均不匹配,则执行S1204,为待识别图像新建相册。
S1203,将待识别图像存储至匹配的相册标签对应的相册中。
具体的,终端设备210获得待识别图像的目标识别结果之后,如果该目标识别结果和相册标签匹配,那么终端设备210就可以将待识别图像存储到该匹配的相册标签对应的相册中。
在一种可能的实施例中,待识别图像的目标识别结果匹配的相册标签可能有多种,此时可以将待识别图像存储至匹配的多个相册中。为了避免相册的冗余率过大,终端设备210可以生成待识别图像的索引,将待识别图像的索引存储在匹配的多个相册中,响应于用户打开某一相册的操作,再根据各个图像的索引,从而获得相册中的图像,并显示给用户。
例如,请参照图13,为一种待识别图像归类的示意图,终端设备210识别出待识别图像a中的目标识别结果包括猫和用户自己,终端设备210将这两个识别结果与预存的相册标签集合(自己、其他人和猫)这三种进行匹配,获得与该待识别图像匹配的相册标签为自己和猫,从而将该待识别图像存储至自己相册和猫对应的相册中。
S1204,为待识别图像新建相册。
具体的,如果终端设备210将待识别图像的目标识别结果与相册标签均不匹配,则可以为待识别图像新建一个相册,并将待识别图像的目标识别结果作为新建的相册的相册标签。
作为一种实施例,待识别图像可能识别出多个目标识别结果,可以将多个目标识别结果同时作为待识别图像的相册标签,或者随机选择一个目标识别结果作为待识别图像的相册标签。
基于同一发明构思,本申请实施例提供一种图像处理装置,请参照图14,该装置1400包括:
缩放模块1401,用于对待识别图像的各边进行等比例缩放,获得第一边的尺寸满足图像识别模型的输入尺寸的中间图像;
获得模块1402,用于从中间图像中获得至少一个待识别图像块;其中,至少一个待识别图像块拼接后包括中间图像的所有图像区域,每个待识别图像块的尺寸满足输入尺寸;
提取模块1403,用于通过已训练的特征提取模型,对至少一个待识别图像块进行特征提取,获得至少一个待识别图像块的特征信息;
识别模块1404,用于通过已训练的图像识别模型,对特征信息进行识别,获得针对待识别图像的目标识别结果;其中,图像识别模型和特征提取模型是通过训练样本集同步训练得到的。
在一种可能的实施例中,获得模块1402具体用于:
沿着与第一边垂直的第二边,从中间图像中获得至少一个待识别图像块;其中,至少一个待识别图像块沿第二边拼接后包括了中间图像的所有图像区域。
在一种可能的实施例中,特征提取模型包括SEnet和卷积网络,提取模块1403具体用于:
通过SEnet网络,对至少一个待识别图像块中包含目标的图像块进行特征增强,获得至少一个处理后的待识别图像块;
通过卷积网络,对至少一个处理后的待识别图像块进行卷积处理,获得至少一个待识别图像块的特征信息。
在一种可能的实施例中,SEnet网络包括全局池化单元、激活单元和比例scale单元,提取模块1403具体用于:
通过SEnet网络,对至少一个待识别图像块中包含目标的图像块进行特征增强,获得至少一个处理后的待识别图像块,包括:
通过全局池化单元,对至少一个待识别图像块进行全局池化处理,获得至少一个池化后的待识别图像块;
通过激活单元,对至少一个池化后的图像块进行激活操作,获得各个图像块的权重参数;其中,权重参数用于表示至少一个池化后的图像块之间的相关性;
通过比例单元,根据权重参数,对至少一个图像块分别进行加权处理,获得至少一个处理后的待识别图像块。
在一种可能的实施例中,卷积网络包括依次连接的多层卷积层。
在一种可能的实施例中,至少一个待识别图像块是通过对中间图像进行多次裁剪处理获得的,裁剪处理的滑动步长是根据中间图像在垂直与第一边的第二边上的尺寸与输入尺寸中对应第二边上的尺寸的差值,以及卷积网络的通道数确定的。
在一种可能的实施例中,至少一个待识别图像块中,沿第二边的相邻两个待识别图像块之间存在重叠区域。
在一种可能的实施例中,训练样本集包括标注有目标分类标签的多个样本图像,每个样本图像包括至少一个样本图像块,每个样本图像块满足输入尺寸,且每个样本图像包括的样本图像块沿设定方向拼接后包括了样本图像的所有图像区域。
在一种可能的实施例中,特征提取模型以及图像识别模型是通过如下步骤训练得到的:
获取训练样本集;
通过训练样本集,训练特征提取模型以及图像识别模型,直到图像识别模型根据特征提取模型输出的特征信息预测的目标分类结果,与标注有目标分类的样本图像之间的损失满足目标损失,获得训练完成的特征提取模型和图像识别模型。
在一种可能的实施例中,待识别图像为待推荐视频中视频帧,装置还包括接收模块1405和发送模块1406,其中:
接收模块1405,用于接收终端设备发送的推荐请求;以及根据推荐请求,获取终端设备对应的用户的视频喜好标签;
发送模块1406,用于若待识别图像的目标识别结果与视频喜好标签匹配,则将待识别图像对应的视频信息反馈给终端设备。
在一种可能的实施例中,待识别图像为待审核视频中视频帧,装置还包括确定模块1407,其中:
确定模块1407,用于若待识别图像的目标识别结果与预存的非法视频元素匹配,则确定待识别图像对应的视频为异常视频。
在一种可能的实施例中,待识别图像为终端设备中的照片,装置还包括存储模块1408和创建模块1409,其中:
存储模块1408,用于若待识别图像的目标识别结果与相册标签集合中任一相册标签匹配,则将待识别图像存储至任一相册标签对应的相册中;
创建模块1409,用于若待识别图像的目标识别结果与相册标签集合均不匹配,则新建相册,并将待识别图像存储至新建的相册,将待识别图像的目标识别结果作为新建的相册的相册标签。
基于同一发明构思,本申请实施例还提供了一种计算机设备。请参照图15,计算机设备1500以通用计算设备的形式表现。计算机设备1500的组件可以包括但不限于:至少一个处理器1510、至少一个存储器1520、连接不同系统组件(包括处理器1510和存储器1520)的总线1530。
总线1530表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储器1520可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)1521和/或高速缓存存储器1522,还可以进一步包括只读存储器(ROM)1523。
存储器1520还可以包括具有一组(至少一个)程序模块1325的程序/实用工具1526,这样的程序模块1525包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。处理器1510用于执行存储器1520存储的程序指令等实现前文论述的图像处理方法,或实现前文论述的服务器220的功能。
计算机设备1500也可以与一个或多个外部设备1540(例如键盘、指向设备等)通信,还可与一个或者多个其它设备能与计算机设备1500交互的设备通信,和/或与使得该计算机设备1500能与一个或多个其它设备进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入/输出(I/O)接口1550进行。并且,计算机设备1500还可以通过网络适配器1560与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器1560通过总线1530与用于计算机设备1500的其它模块通信。应当理解,尽管图中未示出,可以结合计算机设备1500使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
基于同一发明构思,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行前文论述的图像处理方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (15)
1.一种图像处理方法,其特征在于,包括:
对待识别图像的各边进行等比例缩放,获得第一边的尺寸满足图像识别模型的输入尺寸的中间图像;
从所述中间图像中获得至少一个待识别图像块;其中,所述至少一个待识别图像块拼接后包括所述中间图像的所有图像区域,每个待识别图像块的尺寸满足所述输入尺寸;
通过已训练的特征提取模型,对所述至少一个待识别图像块进行特征提取,获得所述至少一个待识别图像块的特征信息;
通过已训练的所述图像识别模型,对所述特征信息进行识别,获得针对所述待识别图像的目标识别结果;其中,所述图像识别模型和所述特征提取模型是通过训练样本集同步训练得到的。
2.如权利要求1所述的方法,其特征在于,从所述中间图像中获得至少一个待识别图像块,包括:
沿着与所述第一边垂直的第二边,从所述中间图像中获得至少一个待识别图像块;其中,所述至少一个待识别图像块沿所述第二边拼接后包括了所述中间图像的所有图像区域。
3.如权利要求1所述的方法,其特征在于,所述特征提取模型包括SEnet和卷积网络,通过已训练的特征提取模型,对所述至少一个待识别图像块进行特征提取,获得所述至少一个待识别图像块的特征信息,包括:
通过所述SEnet网络,对所述至少一个待识别图像块中包含目标的图像块进行特征增强,获得至少一个处理后的待识别图像块;
通过所述卷积网络,对所述至少一个处理后的待识别图像块进行卷积处理,获得所述至少一个待识别图像块的特征信息。
4.如权利要求3所述的方法,其特征在于,所述SEnet网络包括全局池化单元、激活单元和比例scale单元;以及
通过所述SEnet网络,对所述至少一个待识别图像块中包含目标的图像块进行特征增强,获得至少一个处理后的待识别图像块,包括:
通过所述全局池化单元,对所述至少一个待识别图像块进行全局池化处理,获得至少一个池化后的待识别图像块;
通过所述激活单元,对所述至少一个池化后的图像块进行激活操作,获得各个图像块的权重参数;其中,所述权重参数用于表示所述至少一个池化后的图像块之间的相关性;
通过所述比例单元,根据所述权重参数,对所述至少一个图像块分别进行加权处理,获得至少一个处理后的待识别图像块。
5.如权利要求3所述的方法,其特征在于,所述卷积网络包括依次连接的多层卷积层。
6.如权利要求3所述的方法,其特征在于,所述至少一个待识别图像块是通过对所述中间图像进行多次裁剪处理获得的,裁剪处理的滑动步长是根据所述中间图像在垂直与所述第一边的第二边上的尺寸与所述输入尺寸中对应所述第二边上的尺寸的差值,以及所述卷积网络的通道数确定的。
7.如权利要求2所述的方法,其特征在于,所述至少一个待识别图像块中,沿所述第二边的相邻两个待识别图像块之间存在重叠区域。
8.如权利要求1所述的方法,其特征在于,所述训练样本集包括标注有目标分类标签的多个样本图像,每个样本图像包括至少一个样本图像块,每个样本图像块满足所述输入尺寸,且每个样本图像包括的样本图像块沿设定方向拼接后包括了样本图像的所有图像区域。
9.如权利要求1-8任一所述的方法,其特征在于,所述特征提取模型以及所述图像识别模型是通过如下步骤训练得到的:
获取训练样本集;
通过所述训练样本集,训练特征提取模型以及所述图像识别模型,直到图像识别模型根据特征提取模型输出的特征信息预测的目标分类结果,与标注有目标分类的样本图像之间的损失满足目标损失,获得训练完成的特征提取模型和所述图像识别模型。
10.如权利要求1-8任一所述的方法,其特征在于,所述待识别图像为待推荐视频中视频帧,所述方法还包括:
接收终端设备发送的推荐请求;
根据所述推荐请求,获取所述终端设备对应的用户的视频喜好标签;
若所述待识别图像的目标识别结果与所述视频喜好标签匹配,则将所述待识别图像对应的视频信息反馈给所述终端设备。
11.如权利要求1-8任一所述的方法,其特征在于,所述待识别图像为待审核视频中视频帧,所述方法还包括:
若所述待识别图像的目标识别结果与预存的非法视频元素匹配,则确定所述待识别图像对应的视频为异常视频。
12.如权利要求1-8任一所述的方法,其特征在于,所述待识别图像为终端设备中的照片,所述方法还包括:
确定所述待识别图像的目标识别结果是否与预存的相册标签集合匹配;其中,所述相册标签集合包括预存的多个相册对应的相册标签;
若所述待识别图像的目标识别结果与所述相册标签集合中任一相册标签匹配,则将所述待识别图像存储至所述任一相册标签对应的相册中;
若所述待识别图像的目标识别结果与所述相册标签集合均不匹配,则新建相册,并将所述待识别图像存储至新建的相册,将所述待识别图像的目标识别结果作为新建的相册的相册标签。
13.一种图像处理装置,其特征在于,包括:
缩放模块,用于对待识别图像的各边进行等比例缩放,获得第一边的尺寸满足图像识别模型的输入尺寸的中间图像;
获得模块,用于从所述中间图像中获得至少一个待识别图像块;其中,所述至少一个待识别图像块拼接后包括所述中间图像的所有图像区域,每个待识别图像块的尺寸满足所述输入尺寸;
提取模块,用于通过已训练的特征提取模型,对所述至少一个待识别图像块进行特征提取,获得所述至少一个待识别图像块的特征信息;
识别模块,用于通过已训练的所述图像识别模型,对所述特征信息进行识别,获得针对所述待识别图像的目标识别结果;其中,所述图像识别模型和所述特征提取模型是通过训练样本集同步训练得到的。
14.一种计算机设备,其特征在于,包括:
至少一个处理器,以及
与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述至少一个处理器通过执行所述存储器存储的指令实现如权利要求1-12中任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行如权利要求1-12中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911301418.5A CN111062871B (zh) | 2019-12-17 | 2019-12-17 | 一种图像处理方法、装置、计算机设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911301418.5A CN111062871B (zh) | 2019-12-17 | 2019-12-17 | 一种图像处理方法、装置、计算机设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111062871A CN111062871A (zh) | 2020-04-24 |
CN111062871B true CN111062871B (zh) | 2023-01-24 |
Family
ID=70302003
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911301418.5A Active CN111062871B (zh) | 2019-12-17 | 2019-12-17 | 一种图像处理方法、装置、计算机设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111062871B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753766A (zh) * | 2020-06-28 | 2020-10-09 | 平安科技(深圳)有限公司 | 一种图像处理方法、装置、设备及介质 |
CN112083898B (zh) * | 2020-08-26 | 2024-02-23 | 广州市纬纶国际建筑设计有限公司 | 建筑设计图纸打印方法、装置、计算机设备以及存储介质 |
CN112115880A (zh) * | 2020-09-21 | 2020-12-22 | 成都数之联科技有限公司 | 基于多标签学习的船舶污染监测方法及系统及装置及介质 |
CN113237818A (zh) * | 2021-05-28 | 2021-08-10 | 上海睿钰生物科技有限公司 | 一种细胞分析方法和系统 |
CN113408539A (zh) * | 2020-11-26 | 2021-09-17 | 腾讯科技(深圳)有限公司 | 数据识别方法、装置、电子设备及存储介质 |
CN112381055A (zh) * | 2020-12-03 | 2021-02-19 | 影石创新科技股份有限公司 | 第一人称视角图像识别方法、装置及计算机可读存储介质 |
CN112528956A (zh) * | 2020-12-28 | 2021-03-19 | 佛山科学技术学院 | 基于特征重标定的人脸特征提取方法、系统、设备及介质 |
CN112784494B (zh) * | 2021-01-27 | 2024-02-06 | 中国科学院苏州生物医学工程技术研究所 | 假阳性识别模型的训练方法、目标识别方法及装置 |
CN112965604A (zh) * | 2021-03-29 | 2021-06-15 | 深圳市优必选科技股份有限公司 | 手势识别方法、装置、终端设备及计算机可读存储介质 |
CN113486903A (zh) * | 2021-06-29 | 2021-10-08 | 北京达佳互联信息技术有限公司 | 图像处理方法、装置、电子设备及计算机可读存储介质 |
CN113963285B (zh) * | 2021-09-09 | 2022-06-10 | 山东金宇信息科技集团有限公司 | 一种基于5g的道路养护方法及设备 |
CN113837164A (zh) * | 2021-11-29 | 2021-12-24 | 中化学交通建设集团有限公司 | 一种基于图像识别技术的工地积水点检测方法和装置 |
CN115564976A (zh) * | 2022-09-09 | 2023-01-03 | 北京沃东天骏信息技术有限公司 | 图像处理方法、装置、介质及设备 |
CN115564656B (zh) * | 2022-11-11 | 2023-04-28 | 成都智元汇信息技术股份有限公司 | 一种基于调度的多图合并识图方法及装置 |
CN116866666B (zh) * | 2023-09-05 | 2023-12-08 | 天津市北海通信技术有限公司 | 轨道交通环境下的视频流画面处理方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105389596A (zh) * | 2015-12-21 | 2016-03-09 | 长沙网动网络科技有限公司 | 卷积神经网络适用于识别多种尺寸图片的方法 |
WO2017219263A1 (zh) * | 2016-06-22 | 2017-12-28 | 中国科学院自动化研究所 | 基于双向递归卷积神经网络的图像超分辨率增强方法 |
CN109886155A (zh) * | 2019-01-30 | 2019-06-14 | 华南理工大学 | 基于深度学习的单株水稻检测定位方法、系统、设备及介质 |
CN110232306A (zh) * | 2019-04-08 | 2019-09-13 | 宿迁学院产业技术研究院 | 一种基于图像检测的在座状态系统 |
CN110443239A (zh) * | 2019-06-28 | 2019-11-12 | 平安科技(深圳)有限公司 | 文字图像的识别方法及其装置 |
CN110472593A (zh) * | 2019-08-20 | 2019-11-19 | 重庆紫光华山智安科技有限公司 | 训练图像获取方法、模型训练方法及相关装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3204871A1 (en) * | 2014-10-09 | 2017-08-16 | Microsoft Technology Licensing, LLC | Generic object detection in images |
-
2019
- 2019-12-17 CN CN201911301418.5A patent/CN111062871B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105389596A (zh) * | 2015-12-21 | 2016-03-09 | 长沙网动网络科技有限公司 | 卷积神经网络适用于识别多种尺寸图片的方法 |
WO2017219263A1 (zh) * | 2016-06-22 | 2017-12-28 | 中国科学院自动化研究所 | 基于双向递归卷积神经网络的图像超分辨率增强方法 |
CN109886155A (zh) * | 2019-01-30 | 2019-06-14 | 华南理工大学 | 基于深度学习的单株水稻检测定位方法、系统、设备及介质 |
CN110232306A (zh) * | 2019-04-08 | 2019-09-13 | 宿迁学院产业技术研究院 | 一种基于图像检测的在座状态系统 |
CN110443239A (zh) * | 2019-06-28 | 2019-11-12 | 平安科技(深圳)有限公司 | 文字图像的识别方法及其装置 |
CN110472593A (zh) * | 2019-08-20 | 2019-11-19 | 重庆紫光华山智安科技有限公司 | 训练图像获取方法、模型训练方法及相关装置 |
Non-Patent Citations (1)
Title |
---|
Landmark Free Face Attribute Prediction;Jianshu Li 等;《IEEE Transactions on Image Processing 》;20180521;第29卷(第7期);4651 - 4662 * |
Also Published As
Publication number | Publication date |
---|---|
CN111062871A (zh) | 2020-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111062871B (zh) | 一种图像处理方法、装置、计算机设备及可读存储介质 | |
WO2020119350A1 (zh) | 视频分类方法、装置、计算机设备和存储介质 | |
US10140553B1 (en) | Machine learning artificial intelligence system for identifying vehicles | |
US20230012732A1 (en) | Video data processing method and apparatus, device, and medium | |
WO2022022152A1 (zh) | 视频片段定位方法、装置、计算机设备及存储介质 | |
US20210224601A1 (en) | Video sequence selection method, computer device, and storage medium | |
WO2021139191A1 (zh) | 数据标注的方法以及数据标注的装置 | |
WO2019021088A1 (en) | NAVIGATION BETWEEN VIDEO SCENES OF COGNITIVE KNOWLEDGE ASSISTANCE | |
US10685236B2 (en) | Multi-model techniques to generate video metadata | |
US20230077849A1 (en) | Content recognition method and apparatus, computer device, and storage medium | |
CN113010703B (zh) | 一种信息推荐方法、装置、电子设备和存储介质 | |
US11810326B2 (en) | Determining camera parameters from a single digital image | |
CN111209897B (zh) | 视频处理的方法、装置和存储介质 | |
CN111582409A (zh) | 图像标签分类网络的训练方法、图像标签分类方法及设备 | |
CN113515669A (zh) | 基于人工智能的数据处理方法和相关设备 | |
CN112765387A (zh) | 图像检索方法、图像检索装置和电子设备 | |
CN112188306A (zh) | 一种标签生成方法、装置、设备及存储介质 | |
CN112818995A (zh) | 图像分类方法、装置、电子设备及存储介质 | |
CN110457523B (zh) | 封面图片的选取方法、模型的训练方法、装置及介质 | |
CN116958852A (zh) | 视频与文本的匹配方法、装置、电子设备和存储介质 | |
CN116955707A (zh) | 内容标签的确定方法、装置、设备、介质及程序产品 | |
CN112949777B (zh) | 相似图像确定方法及装置、电子设备和存储介质 | |
CN115952317A (zh) | 视频处理方法、装置、设备、介质及程序产品 | |
WO2021147084A1 (en) | Systems and methods for emotion recognition in user-generated video(ugv) | |
CN114596435A (zh) | 语义分割标签的生成方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40022193 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |