CN110827190A - 针对自动对象标识的图像处理 - Google Patents
针对自动对象标识的图像处理 Download PDFInfo
- Publication number
- CN110827190A CN110827190A CN201910733873.6A CN201910733873A CN110827190A CN 110827190 A CN110827190 A CN 110827190A CN 201910733873 A CN201910733873 A CN 201910733873A CN 110827190 A CN110827190 A CN 110827190A
- Authority
- CN
- China
- Prior art keywords
- image
- embedding
- determining
- images
- media
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/20—Processor architectures; Processor configuration, e.g. pipelining
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0231—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
- G05D1/0246—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/60—Memory management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/98—Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
- G06V10/993—Evaluation of the quality of the acquired pattern
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30168—Image quality inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30204—Marker
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30248—Vehicle exterior or interior
- G06T2207/30252—Vehicle exterior; Vicinity of vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/08—Detecting or categorising vehicles
Abstract
本公开的实施例涉及针对自动对象标识的图像处理。设备获得图像并且基于图像以及使用图像生成模型来生成候选图像集合以用于对象识别。设备基于候选图像集合并且使用图像评估模型来确定候选图像集合中的一个或多个候选图像在图像生成期间并且使用图像生成模型而被处理以改进图像的分辨率。设备针对一个或多个候选图像并且基于图像来确定图像嵌入,并且针对一个或多个候选图像基于图像嵌入和图像来确定嵌入误差。设备基于图像嵌入和嵌入误差来确定图像的特征的标识,并且基于确定特征的标识来执行与特征的标识相关的动作。
Description
技术领域
本公开的实施例涉及图像处理,并且更具体地,涉及针对自动对象标识的图像处理。
背景技术
诸如相机,摄像机等的图像捕获设备可以被用来捕获图像。例如,用户设备可以包括相机以捕获用户的图像。类似地,自动驾驶车辆可以包括摄像机以捕获自动驾驶车辆正在其中操作的环境的视频。图像捕获设备可以向诸如用户设备的处理设备提供图像以用于处理和/或利用。例如,用户设备可以使用面部识别技术来确定用户设备的用户的身份。在这种情况下,用户设备可以基于分析所捕获的用户的图像来确定用户设备的用户是授权用户,并且用户设备可以支持用户对用户设备的访问。类似地,自动驾驶车辆的控制设备可以基于分析视频的帧来标识在自动驾驶车辆的阈值接近度内的对象,并且可以控制自动驾驶车辆的方向和/或速度以避开对象。
发明内容
根据一些可能的实现,设备可以包括一个或多个存储器和被通信地耦合到一个或多个存储器的一个或多个处理器以获得图像。一个或多个处理器可以基于图像并且使用图像生成模型来生成候选图像集合以用于对象标识。一个或多个处理器可以基于候选图像集合并且使用图像评估模型来确定候选图像集合中的一个或多个候选图像在图像生成期间并且使用图像生成模型而被处理以改进图像的分辨率。一个或多个处理器可以针对一个或多个候选图像并且基于图像来确定图像嵌入,并且可以针对一个或多个候选图像基于图像嵌入和该图像来确定嵌入误差。一个或多个处理器可以基于图像嵌入和嵌入误差来确定图像的特征的标识并且可以基于确定特征的标识来执行与特征的标识相关的动作。
根据一些可能的实现,方法可以包括获得媒体项,以及基于媒体项并且使用媒体生成模型来生成候选媒体集合以用于对象识别。方法可以包括基于候选媒体集合并且使用媒体评估模型来确定候选媒体集合中的一个或多个候选媒体在媒体生成期间并且使用媒体生成模型而被处理以改进媒体项的特征的质量。方法可以包括针对一个或多个候选媒体并且基于媒体项确定媒体嵌入,以及针对一个或多个候选媒体基于媒体嵌入和媒体项来确定嵌入误差。方法可以包括基于媒体嵌入和嵌入误差来确定媒体项的特征的标识,以及基于确定特征的标识来与另一设备通信以提供标识特征的信息。
根据一些可能的实现,非瞬态计算机可读介质可以存储指令,其包括一个或多个指令,当该指令由设备的一个或多个处理器执行时,使得一个或多个处理器基于图像并且使用图像生成模型来生成候选图像集合以用于对象识别,其中候选图像集合中的每个候选图像相对于图像与增加的图像分辨率相关联。一个或多个指令可以使得一个或多个处理器针对候选图像集合并且基于图像来确定图像嵌入,以及确定针对图像嵌入的嵌入误差阈值被满足。一个或多个指令可以使得一个或多个处理器基于图像嵌入并基于确定嵌入误差阈值被满足来确定图像的特征的标识,以及基于确定特征的标识来提供标识图像的特征的信息。
附图说明
图1A至图1C是在此描述的示例实现的示意图。
图2是示例环境的示意图,其中在此描述的系统和/或方法可以被实现。
图3是图2中的一个或多个设备的示例组件的示意图。
图4至图6是用于处理图像以执行对象识别的示例过程的流程图。
具体实施方式
以下对示例实现的详细描述参考附图。不同附图中的相同附图标记可以标识相同或相似的元素。
图像捕获设备和图像处理设备可以分别地捕获图像和处理图像以对图像执行对象识别。例如,用户设备可以包括用以捕获图像的相机,并且可以处理图像以在图像中标记一个或多个用户,以对图像执行生物特征识别类型的分类(例如,以执行面部识别和解锁用户设备)等。类似地,自动驾驶车辆的图像捕获设备可以捕获图像和/或视频,并且可以处理图像和/或视频以标识对象,以及基于标识对象来确定控制命令以避开对象。另外,在视频编辑期间,视频处理设备可以尝试标识视频中的对象;基于标识对象来分段视频;并且编辑视频以移除对象、更改对象、将对象插入到另一视频中等。类似地,在音频编辑期间,音频处理设备可以尝试标识音频剪辑中的分量声音;基于标识分量声音来分段音频剪辑;并且编辑音频以移除分量声音、更改分量声音、将分量声音插入到另一音频剪辑中等。
然而,一些图像或其他媒体可能与较差的图像质量相关联,诸如低分辨率、低光、低对比度、低清晰度等。例如,用户设备可以包括廉价的相机以减小大小和/或成本,这可能阻止用户设备获得与用以准确地执行面部识别的充足的图像质量相关联的图像。类似地,对象可以被定位在距自动驾驶车辆的阈值距离,这可能导致对象视频的较差的图像质量,从而阻止自动驾驶车辆标识对象。在这种情况下,当车辆以阈值速度移动时,到对象位于与用以标识对象的充足的图像质量相关联的阈值距离内时,车辆可能缺少充足的时间来避开对象。
在此描述的一些实现提供了图像处理以用于对象标识。例如,对象标识平台可以使用生成式对抗网络(GAN)技术来针对图像增强图像质量,从而实现对象识别过程的优化。此外,对象标识平台可以使用深度强化学习来自动化图像质量增强过程和对象识别过程的优化。以这种方式,相对于用于图像处理的其他技术,对象标识平台可以改进对象标识的准确度以用于图像处理。
此外,与当使用其他技术时相比,基于实现自动化的图像质量增强以用于对象识别,对象标识平台可以支持较低质量的图像被用于对象识别,从而相对于使用要求较高质量的图像的其他技术,该技术减少了对用以传递图像的带宽资源、网络资源等的利用。此外,相对于当使用其他技术时,对象标识平台可以通过支持质量较低的图像的使用来减少与图像处理相关联的数据存储要求。此外,基于改进图像处理中的对象标识的准确性,对象标识平台可以实现针对对象标识的生物特征识别应用(例如,面部识别)的改进的安全性,针对对象标识的防撞应用(例如,自动驾驶车辆导航)的改进的安全性等。此外,基于改进低质量图像中的对象标识的准确性,即使在图像质量降低后,对象标识平台也可以通过实现成功的对象标识来实现改进的图像压缩算法,以支持图像文件大小的减少。
图1A到图1C是在此描述的示例实现100的示意图。如图1A所示,示例实现100包括第一车辆105-1(例如,自动驾驶车辆)、第二车辆105-2、第一车辆105-1的图像捕获设备110(例如,相机)和对象标识平台115(例如,在云计算环境中被提供)。
如图1A中以及由附图标记120进一步所示,第一车辆105-1的图像捕获设备110可以捕获对象的图像。例如,图像捕获设备110可以捕获描绘第二车辆105-2的图像。在一些实现中,图像捕获设备110可以捕获静止图像。例如,图像捕获设备110可以是捕获静止图像的相机。附加地或备选地,图像捕获设备110可以捕获另一类型的媒体,诸如视频、音频记录、三维图像、虚拟现实表示或另一类型的数据以用于处理。在一些实现中,图像捕获设备110可以基于请求捕获图像。例如,对象标识平台115可以指示图像质量的阈值水平,针对该图像质量的阈值水平,对象标识平台115被配置为成功地执行对象标识,并且可以请求图像捕获设备110捕获满足图像质量的阈值水平的图像(例如,该图像可以是低分辨率图像)。以这种方式,对象标识平台115可以降低用以存储图像的存储器资源的利用、用以传送真实图像的网络资源的利用等。
在一些实现中,图像可以包括待标识的特定特征。例如,图像捕获设备110可以捕获生物特征的图像,诸如面部、手印、指纹、步态等。附加地或备选地,图像捕获设备110可以捕获对象的图像。附加地或备选地,图像捕获设备110可以捕获消息的图像,诸如文本消息、数字消息等。在一些实现中,图像捕获设备110可以捕获多个对象、多个生物特征、多个消息等的图像。
如图1A以及由附图标记125进一步所示,图像捕获设备110可以提供用于对象标识的图像,其可以被称为真实图像。例如,图像捕获设备110可以将描绘第二车辆105-2的真实图像提供给对象标识平台115,以使得对象标识平台115能够确定车辆105-2在真实图像中被描绘(例如,使得第一车辆105-1能够避开第二车辆105-2)。在一些实现中,对象标识平台115可以获得真实图像或与特定图像质量相关联的另一媒体。例如,对象标识平台115可以请求并且可以接收真实图像的低质量版本,并且可以处理真实图像的低质量版本以执行对象标识,从而相对于使用真实图像的高质量版本(例如,具有较大文件大小的真实图像的版本),减少了存储器资源、网络资源等的利用。在一些实现中,对象标识平台115可以获得由图像捕获设备110捕获的信息的一部分。例如,对象标识平台115可以获得由图像捕获设备110捕获的视频的帧,并且可以在视频的帧上执行对象标识。附加地或备选地,对象标识平台115可以获得视频的多个帧、可以获得视频等以执行对象标识。
如图1B以及由附图标记130所示,基于接收真实图像,对象标识平台115的图像生成模块135可以使用真实图像和图像生成模型生成候选图像,图像生成模块135可以是用于生成式对抗网络(GAN)建模技术的生成器。在这种情况下,候选图像可以是使用图像生成模型生成的图像,其相对于真实图像具有改进的图像质量,使得对象标识在真实图像上可执行,如下文更详细地描述的。例如,对象标识平台115可以使用图像生成模型来更改真实图像以生成与改进的图像质量特性相关联的至少一个候选图像。在这种情况下,图像质量特性可以包括改进的图像分辨率、对比度、清晰度、亮度等。
如图1B以及由附图标记140进一步所示,基于接收候选图像,对象标识平台115的图像评估模块145可以评估候选图像以确认增强,图像评估模块145可以是用于GAN建模技术的鉴别器。在这种情况下,图像评估模块145可以尝试使用图像评估模型来确定多个候选图像的候选图像或者真实图像是否由图像生成模块135生成,这可以使得图像评估模块145能够确定候选图像相对于真实图像与改进的图像质量相关联。以这种方式,图像评估模块145确认图像生成模块135相对于真实图像已生成具有改进的图像质量的候选图像,如下文更详细地描述的(例如,候选图像满足关于图像质量的阈值改进)。基于确定候选图像与改进的图像质量相关联,图像评估模块145可以提供候选图像和真实图像以用于对象标识。相比之下,基于确定候选图像不与改进的图像质量相关联,图像评估模块145可以使得图像生成模块135更新图像生成模型,并且生成另一候选图像。
如图1B以及由附图标记150进一步所示,基于评估候选图像,对象标识平台115的对象标识模块155可以使用候选图像和真实图像来执行对象评估。例如,对象标识模块155可以使用对象标识模型来标识候选图像的一个或多个特征,诸如候选图像中的一个或多个对象。以这种方式,对象标识模块155对基于真实图像生成的改进质量的候选图像执行对象评估,以支持相对于对真实图像执行对象评估对真实图像的特征的改进的确定。
在一些实现中,对象标识平台115可以生成用于执行对象评估的对象标识模型。例如,对象标识平台115可以执行数据获取过程、数据预处理过程和/或模型处理过程以生成对象标识模型。在一些实现中,对象标识平台115可以获得图像数据集以执行数据获取过程。例如,对象标识平台115可以获得数百、数千、数百万或数十亿的图像和与标识图像的特征的图像相关联的元数据。在一些实现中,对象标识平台115可以将图像数据集分段为多个数据集以执行数据预处理过程。例如,对象标识平台115可以将图像数据集分段为图像训练数据集、图像测试数据集、图像验证数据集等。附加地或备选地,对象标识平台115可以从图像数据集中移除一个或多个数据点。例如,对象标识平台115可以确定图像数据集包括房屋集合的图像(例如,基于元数据),并且可以确定从图像数据集中移除房屋集合的图像,该图像数据集将被用来训练对象标识模型以执行面部识别(即,以标识面部特征)。以这种方式,相对于使用图像标识模型将不被用来标识的特征的图像来训练图像标识模型,对象标识平台115可以减少与训练图像标识模型相关联的处理资源的利用。
在一些实现中,对象标识平台115可以例如使用图像训练数据集(例如,作为训练数据以训练模型)和图像测试数据集(例如,作为测试数据以测试训练模型)来训练图像标识模型,并且可以例如使用图像验证数据集(例如,作为验证数据以验证模型)来验证图像标识模型。在这种情况下,通过为图像特征分配权重并且在为图像中的图像特征分配标签时迭代地改变权重以达到建模准确性的阈值水平,对象标识平台115可以生成图像标识模型。例如,对象标识平台115可以生成特征集合的图形表示、确定用于匹配算法的权重以确定图形表示的节点之间的多对多对应关系等,以生成用于将特定图像的特征(例如,像素集合的特性,诸如颜色、间距、形状等)与用以描述特定图像的标签(例如,指示特定图像包括汽车、面部、特定人的面部等的标签)相匹配的模型。以这种方式,对象标识平台115生成图像标识模型以用于分析候选图像来确定真实图像的特征。
在一些实现中,对象标识平台115可以使用图像标识模型确定针对候选图像和真实图像的嵌入值。嵌入值可以表示关于使用图像标识模型计算的特定图像的语义特征的图像标识模型中的特定图像的位置。例如,对象标识平台115可以使用图像标识模型来确定针对于真实图像的第一嵌入,并且可以使用图像标识模型来确定针对候选图像的第二嵌入。在一些实现中,对象标识平台115可以确定针对第一嵌入和第二嵌入的嵌入误差。例如,对象标识平台115可以将第一嵌入与第二嵌入相比较以确定嵌入误差,该嵌入误差表示差异或距离(例如,关于对象标识模型的图形表示的图形距离)并且该嵌入误差可以被称为第一嵌入和第二嵌入之间的嵌入距离。以这种方式,对象标识平台115使用图像标识模型来确定相对于真实图像,候选图像中图像质量的变化程度,从而实现针对图像生成模型和图像评估模型的反馈循环,如在此更详细地描述的。在一些实现中,对象标识平台115可以接收历史上的高分辨率图像集合(例如,相比一个或多个候选图像较高的分辨率),并且可以使用图像评估模型来将该组历史上的高分辨率图像与一个或多个候选图像相比较,以确定相对于真实图像,一个或多个候选图像中的图像质量是否被改进。
如图1B以及由附图标记160进一步所示,对象标识模块155可以将基于对象评估的误差信息提供给图像生成模块135,以更新与图像生成模型相关联的图像生成过程。例如,对象标识平台115可以反向传播嵌入值(诸如第一嵌入、第二嵌入、嵌入误差等)以更新图像生成模型。在这种情况下,考虑到对象标识平台115使用图像标识模型在候选图像中标识对象的能力,对象标识平台115使用第一嵌入和第二嵌入来馈送到图像生成模型中,以使得图像生成模型进行学习以生成相对于真实图像具有改进的图像质量的候选图像。换言之,如在此所述,对象标识平台115使用嵌入值作为输入以改进能力,该能力指对象标识平台115用以使用图像生成模型来有意地误导使用图像评估模型的对象标识平台115。以这种方式,基于使用误差信息更新图像生成模型,图像生成模型随着时间的推移被改进,从而改进了由对象标识平台115执行的对象标识的准确性。
如图1B以及由附图标记165进一步所示,对象标识模块155可以将基于对象评估的误差信息提供给图像评估模块145,以更新与图像评估模型相关联的图像评估过程。例如,当嵌入误差小于阈值时,对象标识平台115可以使用嵌入误差作为针对强化学习的反向奖励,该强化学习与由图像评估模块145使用的图像评估模型相关联。在这种情况下,嵌入误差小于阈值可以指示图像评估模块145错误地确定了图像生成模块135相对于真实图像改进了候选图像中的图像质量(例如,图像生成模块135使用了图像生成模型来有意地误导使用图像评估模型的图像评估模块145)。基于提供反向奖励,对象标识平台115可以更新图像评估模型以更准确地区分真实图像和候选图像,从而改进图像评估模块145拒绝相对于真实图像未改进图像质量的候选图像的可能性。基于改进图像评估模块145拒绝相对于真实图像未改进图像质量的候选图像的可能性,对象标识平台115引起反馈循环,其增加图像生成模块135生成相对于真实图像改进了图像质量的候选图像的可能性。以这种方式,基于使用误差信息更新图像评估模型,图像评估模型随着时间的推移被改进,从而改进了图像生成模型,并且改进了由对象标识平台115执行的对象标识的准确性。
在一些实现中,对象标识平台115可以执行模型预训练过程以训练图像生成模型和图像评估模型。例如,在图像生成模型和图像评估模型被用来生成候选图像和评估候选图像以用于控制自动驾驶车辆之前,对象标识平台115可以获得如上述关于对象标识模型的图像数据集,并且可以尝试对图像数据集执行对象标识以生成误差信息作为反馈以用于训练图像生成模型和图像评估模型。在这种情况下,基于获得数千、数百万或数十亿图像的图像数据集,对象标识平台115可以自动地训练图像质量增强以用于在无需人工干预的情况下的对象标识,从而相对于需要对图像是否在图像质量方面被正确地增强的人工确认的情况,减少了对计算资源的利用,而无需对可能为高度资源密集型的成功的对象标识等的人工确认。
如图1B以及由附图标记170进一步所示,对象标识模块155可以选择性地提供对象标识结果或者可以迭代图像生成。例如,基于不满足阈值的误差值(例如,误差值大于或等于阈值),对象标识平台115可以迭代图像生成、图像评估和对象标识。例如,对象标识平台115可以使用更新的图像生成模型(例如,使用误差信息来更新)来生成新的候选图像、使用更新的图像评估模型(例如,使用误差信息来更新)来评估新的候选图像、以及使用对象标识模型以标识新的候选图像的特征。附加地或备选地,基于满足阈值的误差值(例如,误差值小于阈值),对象标识平台115可以提供标识真实图像的特征的信息,该真实图像的特征使用对象标识模型来标识。
如图1C以及由附图标记175所示,对象标识平台115可以基于对象标识结果实现响应动作。例如,对象标识平台115可以提供标识真实图像的特征的用户界面(例如,指示车辆105-2在车辆105-1的阈值接近度内被检测到)。附加地或备选地,对象标识平台115可以自动地使车辆105-1被控制以避开真实图像的特征(例如,以避开车辆105-2),从而改进自动驾驶车辆的安全性和操作性。附加或备选地,在另一上下文中,对象标识平台115可以基于将特征标识为用户设备的授权用户的面部来解锁用户设备,从而改进用户设备的安全性、操作等。
附加地或备选地,对象标识平台115可以传送与特征相关联的通知,诸如标识所标识的人、标识所标识的车辆等已到达特定位置的通知。附加地或备选地,对象标识平台115可以传送媒体段。例如,在图像编辑上下文、视频编辑上下文、音频编辑上下文等中,对象标识平台115可以自动地编辑媒体项以生成表示特征(例如,在媒体项目中所标识的对象、声音等)、背景(例如,与所标识的特征不相关联的媒体项的一部分)等的层。以这种方式,对象标识平台115可以通过避免耗时的、易出错的且资源密集人工操作的媒体中的特征的标记、媒体中的层的生成等,来降低与媒体编辑相关联的计算利用。
以这种方式,对象标识平台115通过使用图像生成模型和图像评估模型作为GAN建模技术的对抗模型,在对象标识模块155标识图像的特征的能力方面,改进了图像质量。由于将GAN建模技术应用于计算机化对象标识,在一些实现中,如果在视觉上被检查,则候选图像相对于对应的真实图像可能看起来对人眼具有较低的质量。例如,基于使用GAN建模技术,图像质量的改进是关于对象标识方面,而不是关于人工检查方面。换言之,对象标识平台115可以模糊真实图像,这将使得对人类而言对象的标识更加困难,但是可能从而改进计算机化对象标识的准确性、降低成功地完成计算机化对象标识的处理利用、使得计算机化对象标识能够以减少的网络流量和/或降低的存储器利用被执行等。
如上所述,图1A到图1C仅作为示例而被提供。其他示例是可能的并且可以与关于图1A到图1C所描述的有所不同。
图2是在此所描述的系统和/或方法可以在其中被实现的示例环境200的示意图。如图2所示,环境200可以包括图像捕获设备210、对象标识平台220、计算资源225、云计算环境230和网络240。环境200中的设备可以经由有线连接、无线连接或者有线连接和无线连接的组合进行互连。
图像捕获设备210包括能够接收、生成、存储、处理和/或提供与图像捕获相关联的信息的一个或多个设备。例如,图像捕获设备210可以包括图像相机、图像传感器、摄像机、麦克风、移动电话(例如,智能电话、无线电电话等)、膝上型计算机、平板计算机、手持式计算机、游戏设备、可穿戴通信设备(例如,智能腕表、一副智能眼镜等)或相似类型的设备。在一些实现中,图像捕获设备210可以将与图像相关联的图像数据传送给对象标识平台220。在一些实现中,图像捕获设备210可以在将与真实图像相关联的图像数据传送给对象标识平台220之前更改图像。例如,图像捕获设备210可以压缩真实图像以减小文件大小,从而减小网络资源和/或带宽资源的利用,并且可以将与压缩的图像相关联的图像数据传送给对象标识平台220,其可以处理真实图像数据以执行对压缩的图像的对象标识。
对象标识平台220包括一个或多个计算资源,其被分配以处理图像以对真实图像执行对象标识。例如,对象标识平台220可以是由云计算环境230实现的平台,其可以确定被包括在图像中的对象,并且可以提供与解锁用户设备、引导自动驾驶车辆等相关联的控制命令。在一些实现中,对象标识平台220由云计算环境230的计算资源225实现。
在一些实现中,对象标识平台220可以被设计为模块化的,使得某些软件组件可以根据特定需要被换入或换出。这样,对象标识平台220可以被容易地和/或快速地重新配置以用于不同的用途。在一些实现中,对象标识平台220可以从一个或多个图像捕获设备210接收信息和/或向其传送信息。注意到,虽然在此描述的实现将对象标识平台220描述为被托管于云计算环境230中,但是在一些实现中,对象标识平台220可以并非是基于云的(即,可以在云计算环境之外被实现)或者可以是部分基于云的。
云计算环境230包括将计算作为服务交付的环境,借以共享的资源、服务等可以被提供以处理图像,以便执行对象标识。云计算环境230可以提供计算、软件、数据访问、存储和/或其他服务,其并不要求终端用户了解交付服务的系统和/或设备的物理位置和配置。如所示出的,云计算环境230可以包括对象标识平台220和计算资源225。
计算资源225包括一个或多个个人计算机、工作站计算机、服务器设备,或者另一类型的计算和/或通信设备。在一些实现中,计算资源225可以托管对象标识平台220。云资源可以包括在计算资源225中执行的计算实例、在计算资源225中所提供的存储设备、由计算资源225提供的数据传递设备等。在一些实现中,计算资源225可以经由有线连接、无线连接或者有线连接和无线连接的组合与其他计算资源225通信。
如图2中进一步所示,计算资源225可以包括云资源的群组,诸如一个或多个应用(“APP”)225-1、一个或多个虚拟机(“VM”)225-2、虚拟化存储装置(“VS”)225-3、一个或多个管理程序(“HYP”)225-4等。
应用225-1包括可以被提供给图像捕获设备210或者由其访问的一个或多个软件应用。应用225-1可以消除对于在图像捕获设备210上安装并且执行软件应用的需求。例如,应用225-1可以包括与对象标识平台220相关联的软件和/或能够经由云计算环境230被提供的任何其他软件。在一些实现中,一个应用225-1可以经由虚拟机225-2向/从一个或多个其他应用225-1发送/接收信息。
虚拟机225-2包括像物理机那样执行程序的机器(例如,计算机)的软件实现。根据虚拟机225-2对任何真实机器的使用以及对应程度,虚拟机225-2可以是系统虚拟机或过程虚拟机。系统虚拟机可以提供支持完整操作系统(“OS”)的执行的完整系统平台。过程虚拟机可以执行单个程序,并且可以支持单个过程。在一些实现中,虚拟机225-2可以代表用户(例如,图像捕获设备210)来执行,并且可以管理云计算环境230的基础设施,诸如数据管理、同步或者长持续时间的数据传递。
虚拟化存储装置225-3包括在计算资源225的存储系统或设备内使用虚拟化技术的一个或多个存储系统和/或一个或多个设备。在一些实现中,在存储系统的上下文内,虚拟化的类型可以包括块虚拟化和文件虚拟化。块虚拟化可以指逻辑存储装置与物理存储装置的抽象(或分离),使得存储系统可以在与物理存储装置或异类结构无关的情况下被访问。分离可以允许存储系统的管理员在管理员如何为终端用户管理存储方面具有灵活性。文件虚拟化可以消除在文件层级访问的数据与文件被物理地存储的位置之间的相关性。这可以支持优化存储使用、服务器整合和/或非破坏性文件迁移的性能。
管理程序225-4提供硬件虚拟化技术,其允许多个操作系统(例如,“访客操作系统”)在诸如计算资源225的主机计算机上同时执行。管理程序225-4可以为访客操作系统呈现虚拟操作平台,并且可以管理访客操作系统的执行。各种操作系统的多个实例可以共享虚拟化的硬件资源。
网络240包括一个或多个有线和/或无线网络。例如,网络240可以包括蜂窝网络(诸如,长期演进(LTE)网络、码分多址(CDMA)网络、3G网络、4G网络、5G网络、另一类型的下一代网络等)、公共陆地移动网络(PLMN)、局域网(LAN)、广域网(WAN)、城域网(MAN)、电话网络(例如,公共交换电话网络(PSTN))、私有网络、自组织网络、内联网、互联网、基于光纤的网络、云计算网络等,和/或这些或其他类型的网络的组合。
图2中所示的设备和网络的数目和布置作为示例而被提供。在实践中,与图2中所示出的设备和/或网络相比,可以有附加的设备和/或网络、较少的设备和/或网络、不同的设备和/或网络,或者不同地布置的设备和/或网络。此外,图2中所示的两个或更多个设备可以在单个设备内被实现,或者图2中所示的单个设备可以被实现为多个分布式设备。附加地或备选地,环境200的设备集合(例如,一个或多个设备)可以执行被描述为由环境200的设备的另一集合所执行的一种或多种功能。
图3是设备300的示例组件的示意图。设备300可以对应于图像捕获设备210、对象标识平台220和/或计算资源225。在一些实现中,图像捕获设备210、对象标识平台220和/或计算资源225可以包括一个或多个设备300和/或设备300的一个或多个组件。如图3所示,设备300可以包括总线310、处理器320、存储器330、存储组件340、输入组件350、输出组件360和通信接口370。
总线310包括允许设备300的组件之中的通信的组件。处理器320以硬件、固件或硬件和软件的组合来实现。处理器320是中央处理单元(CPU)、图形处理单元(GPU)、加速处理单元(APU)、微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、专用集成电路(ASIC),或者另一类型的处理组件。在一些实现中,处理器320包括能够被编程以执行功能的一个或多个处理器。存储器330包括随机存取存储器(RAM),只读存储器(ROM)和/或另一类型的动态或静态存储设备(例如,闪存、磁存储器和/或光学存储器),其存储信息和/或指令以供处理器320使用。
存储组件340存储与设备300的操作和使用相关的信息和/或软件。例如,存储组件340可以包括硬盘(例如、磁盘、光盘、磁性光盘、和/或固态盘)、压缩盘(CD)、数字多功能盘(DVD)、软盘、卡盒、磁带和/或另一类型的非瞬态计算机可读介质,连同对应的驱动器。
输入组件350包括允许设备300诸如经由用户输入接收信息的组件(例如,触摸屏显示器、键盘、小键盘、鼠标、按钮、开关和/或麦克风)。附加地或备选地,输入组件350可以包括用于感测信息的传感器(例如,全球定位系统(GPS)组件、加速度计、陀螺仪和/或致动器)。输出组件360包括从设备300提供输出信息的组件(例如,显示器、扬声器和/或一个或多个发光二极管(LED))。
通信接口370包括类似收发器的组件(例如,收发器和/或分离的接收器和发射器),该组件使得设备300能够诸如经由有线连接、无线连接或者有线连接和无线连接组合与其他设备通信。通信接口370可以允许设备300从另一设备接收信息和/或向另一设备提供信息。例如,通信接口370可以包括以太网接口、光学接口、同轴接口、红外接口、射频(RF)接口、通用串行总线(USB)接口、Wi-Fi接口、蜂窝网络接口等。
设备300可以执行在此描述的一个或多个过程。设备300可以基于处理器320执行由非瞬态计算机可读介质(诸如存储器330和/或存储组件340)存储的软件指令来执行这些过程。计算机可读介质在此被定义为非瞬态存储器设备。存储器设备包括单个物理存储设备内的存储器空间或跨多个物理存储设备扩展的存储器空间。
软件指令可以从另一计算机可读介质或者经由通信接口370从另一设备被读取到存储器330和/或存储组件340中。当被执行时,被存储在存储器330和/或存储组件340中的软件指令可以使得处理器320执行在此描述的一个或多个过程。附加地或备选地,可以使用硬线电路装置替代或结合软件指令以执行在此描述的一个或多个过程。因此,在此描述的实现不局限于硬件电路装置和软件的任何特定组合。
图3中所示组件的数目和布置作为示例而被提供。在实践中,与图3中所示出的那些相比,设备300可以包括附加的组件、更少的组件、不同的组件,或者不同地布置的组件。附加地或备选地,设备300的组件集合(例如,一个或多个组件)可以执行被描述为由设备300的组件的另一集合所执行的一种或多种功能。
图4是用于处理图像以执行对象识别的示例过程400的流程图。在一些实现中,图4的一个或多个过程框可以由对象标识平台(例如,对象标识平台220)执行。在一些实现中,图4的一个或多个过程框可以由与对象标识平台(例如,对象标识平台220)分离的或包括对象标识平台的另一设备或设备群组执行,诸如图像捕获设备(例如,图像捕获设备210)和/或计算资源(例如,计算资源225)。
如图4所示,过程400可以包括获得图像(框410)。例如,如上文结合图1A到图1C所描述的,对象标识平台(例如,使用计算资源225、处理器320、存储器330、存储组件340、输入组件350、通信接口370等)可以获得图像。
如图4中进一步示出的,过程400可以包括基于图像并且使用图像生成模型来生成候选图像集合以用于对象识别(框420)。例如,如上文结合图1A到图1C所描述的,对象标识平台(例如,使用计算资源225、处理器320、存储器330、存储组件340、输出组件360、通信接口370等)可以基于图像并且使用图像生成模型来生成候选图像集合以用于对象识别。
如图4中进一步示出的,过程400可以包括基于候选图像集合并且使用图像评估模型来确定候选图像集合中的一个或多个候选图像在图像生成期间并且使用图像生成模型而被处理以改进图像的分辨率(框430)。例如,如上文结合图1A到图1C所描述的,对象标识平台(例如,使用计算资源225、处理器320、存储器330、存储组件340等)可以基于候选图像集合并且使用图像评估模型来确定候选图像集合中的一个或多个候选图像在图像生成期间并且使用图像生成模型而被处理以改进图像的分辨率。
如图4中进一步示出的,过程400可以包括针对一个或多个候选图像并且基于图像来确定图像嵌入(框440)。例如,如上文结合图1A到图1C所描述的,对象标识平台(例如,使用计算资源225、处理器320、存储器330、存储组件340等)可以针对一个或多个候选图像并且基于图像来确定图像嵌入。
如图4中进一步示出的,过程400可以包括针对一个或多个候选图像基于图像嵌入和图像来确定嵌入误差(框450)。例如,如上文结合图1A到图1C所描述的,对象标识平台(例如,使用计算资源225、处理器320、存储器330、存储组件340等)可以针对一个或多个候选图像基于图像嵌入和图像来确定嵌入误差。
如图4中进一步示出的,过程400可以包括基于图像嵌入和嵌入误差来确定图像的特征的标识(框460)。例如,如上文结合图1A到图1C所描述的,对象标识平台(例如,使用计算资源225、处理器320、存储器330、存储组件340等)可以基于图像嵌入和嵌入误差来确定图像的特征的标识。
如图4中进一步示出的,过程400可以包括将嵌入误差反向传播到图像生成模型中以生成用于后续图像生成的更新的图像生成模型(框470)。例如,如上文结合图1A到图1C所描述的,对象标识平台(例如,使用计算资源225、处理器320、存储器330、存储组件340、输入组件350、输出组件360、通信接口370等)可以将嵌入误差反向传播到图像生成模型中以生成用于后续图像生成的更新的图像生成模型。
如图4中进一步示出的,过程400可以包括将图像的特征的标识反向传播到图像评估模型中以生成用于后续图像评估的更新的图像评估模型(框480)。例如,如上文结合图1A到图1C所描述的,对象标识平台(例如,使用计算资源225、处理器320、存储器330、存储组件340、输入组件350、输出组件360、通信接口370等)可以将图像的特征的标识反向传播到图像评估模型中以生成用于后续图像评估的更新的图像评估模型。
如图4中进一步示出的,过程400可以包括基于确定特征的标识来执行与特征的标识相关的动作(框490)。例如,如上文结合图1A到图1C所描述的,对象标识平台(例如,使用计算资源225、处理器320、存储器330、存储组件340、输入组件350、输出组件360、通信接口370等)可以基于确定特征的标识来执行与特征的标识相关的动作。
过程400可以包括附加的实现,诸如下述的和/或结合本文其他地方描述的一个或多个其他过程所描述的任何单一实现或任何实现的组合。
在一些实现中,对象标识平台可以基于其他图像使用更新的图像生成模型来生成候选图像的另一集合,并且可以基于其他候选图像集合来确定其他图像的其他特征的其他标识。
在一些实现中,对象标识平台可以使用更新的图像评估模型来评估与其他图像相关的其他一个或多个候选图像,并且可以基于其他一个或多个候选图像来确定其他图像的其他特征的其他标识。
在一些实现中,对象标识平台可以确定嵌入误差不满足阈值,并且可以基于确定嵌入误差不满足阈值,而使用确定图像嵌入和嵌入误差的结果来迭代图像生成和图像评估以确定其他图像嵌入和另一嵌入误差。在一些实现中,当确定图像的特征的标识时,对象标识平台可以基于其他图像嵌入和其他嵌入误差来确定图像的特征的标识。
在一些实现中,动作可以与使得自动驾驶车辆被控制相关联。在一些实现中,当执行与特征的标识相关的动作时,对象标识平台可以基于特征的标识来与另一设备通信以提供与更改其他设备的功能相关的命令。
在一些实现中,图像的特征可以是生物特征、对象、图像分段和/或消息。在一些实现中,图像评估模型可以是深度强化学习模型。在一些实现中,图像生成模型可以是生成式对抗网络(GAN)模型。在一些实现中,图像可以是视频记录的至少一个帧。在一些实现中,图像包括低分辨率的图像。在一些实现中,对象标识平台可以接收历史上的高分辨率图像,并且可以将一个或多个候选图像与历史上的高分辨率图像相比较。
虽然图4示出了过程400的示例框,但是在一些实现中,与图4中所描绘的那些框相比,过程400可以包括附加的框、更少的框、不同的框或者不同地布置的框。附加地或备选地,过程400的两个或更多个框可以被并行执行。
图5是用于处理图像以执行对象识别的示例过程500的流程图。在一些实现中,图5的一个或多个过程框可以由对象标识平台(例如,对象标识平台220)执行。在一些实现中,图5中的一个或多个过程框可以由包括对象标识平台(例如,对象标识平台220)的或者与其分离的另一设备或设备群组来执行,诸如图像捕获设备(例如,图像捕获设备210)和/或计算资源(例如,计算资源225)。
如图5所示,过程500可以包括获得媒体项(框510)。例如,如上文结合图1A到图1C所描述的,对象标识平台(例如,使用计算资源225、处理器320、存储器330、存储组件340、输入组件350、通信接口370等)可以获得媒体项。
如图5中进一步示出的,过程500可以包括基于媒体项并且使用媒体生成模型来生成候选媒体集合以用于对象识别(框520)。例如,如上文结合图1A到图1C所描述的,对象标识平台(例如,使用计算资源225、处理器320、存储器330、存储组件340、输出组件360、通信接口370等)可以基于媒体项并且使用媒体生成模型来生成候选媒体集合以用于对象识别。
如图5中进一步示出的,过程500可以包括基于候选媒体集合并且使用媒体评估模型来确定候选媒体集合中的一个或多个候选媒体在媒体生成期间并且使用媒体生成模型而被处理以改进媒体项的特征的质量(框530)。例如,如上文结合图1A到图1C所描述的,对象标识平台(例如,使用计算资源225、处理器320、存储器330、存储组件340等)可以基于候选媒体集合并且使用媒体评估模型来确定候选媒体集合中的一个或多个候选媒体在媒体生成期间并且使用媒体生成模型而被处理以改进媒体项的特征的质量。
如图5中进一步示出的,过程500可以包括针对一个或多个候选媒体并且基于媒体项来确定媒体嵌入(框540)。例如,如上文结合图1A到图1C所描述的,对象标识平台(例如,使用计算资源225、处理器320、存储器330、存储组件340等)可以针对一个或多个候选媒体并且基于媒体项来确定媒体嵌入。
如图5中进一步示出的,过程500可以包括针对一个或多个候选媒体基于媒体嵌入和媒体项来确定嵌入误差(框550)。例如,如上文结合图1A到图1C所描述的,对象标识平台(例如,使用计算资源225、处理器320、存储器330、存储组件340等)可以针对一个或多个候选媒体基于媒体嵌入和媒体项来确定嵌入误差。
如图5中进一步示出的,过程500可以包括基于媒体嵌入和嵌入误差来确定媒体项的特征的标识(框560)。例如,如上文结合图1A到图1C所描述的,对象标识平台(例如,使用计算资源225、处理器320、存储器330、存储组件340、输入组件350、输出组件360、通信接口370等)可以基于媒体嵌入和嵌入误差来确定媒体项的特征的标识。
如图5中进一步示出的,过程500可以包括基于确定特征的标识来与另一设备通信以提供标识特征的信息(框570)。例如,如上文结合图1A到图1C所描述的,对象标识平台(例如,使用计算资源225、处理器320、存储器330、存储组件340、输入组件350、输出组件360、通信接口370等)可以基于确定特征的标识来与另一设备通信以提供标识特征的信息。
过程500可以包括附加的实现,诸如下述的和/或结合本文其他地方描述的一个或多个其他过程所描述的任何单一实现或任何实现的组合。
在一些实现中,媒体项可以是图像、视频记录、音频记录、虚拟现实表示和/或数据表示。在一些实现中,特征的质量可以是分辨率、清晰度和/对比度。在一些实现中,对象标识平台可以使用同步定位与地图构建(SLAM)对象检测过程来确定特征的标识。在一些实现中,对象标识平台可以标识媒体项中的对象。
在一些实现中,对象标识平台可以基于特征的标识来分段媒体项。在一些实现中,当与其他设备通信以提供标识特征的信息时,对象标识平台可以提供与分段媒体项相关的信息。
在一些实现中,当获得媒体项时,对象标识平台可以请求媒体项的低分辨率版本。在一些实现中,低分辨率版本相对于媒体项的其他版本可以与减小的文件大小相关联,当生成候选媒体集合时,对象标识平台可以基于低分辨率版本来生成媒体项的至少一个高分辨率版本。在一些实现中,该至少一个高分辨率版本与低分辨率版本相比可以与较高的文件大小相关联。
虽然图5示出了过程500的示例框,但是在一些实现中,与图5中所描绘的那些框相比,过程500可以包括附加的框、更少的框、不同的框或者不同地布置的框。附加地或备选地,过程500的两个或更多个框可以被并行执行。
图6是用于处理图像以执行对象识别的示例过程600的流程图。在一些实现中,图6的一个或多个框可以由对象标识平台(例如,对象标识平台220)执行。在一些实现中,图6中的一个或多个过程框可以由包括对象标识平台(例如,对象标识平台220)的或者与其分离的另一设备或设备群组来执行,诸如图像捕获设备(例如,图像捕获设备210)和/或计算资源(例如,计算资源225)。
如图6中进一步示出的,过程600可以包括基于图像并且使用图像生成模型来生成候选图像集合以用于对象识别,其中候选图像集合中的每个候选图像相对于图像与增加的图像分辨率相关联(框610)。例如,如上文结合图1A到图1C所描述的,对象标识平台(例如,使用计算资源225、处理器320、存储器330、存储组件340、输出组件360、通信接口370等)可以基于图像并且使用图像生成模型来生成候选图像集合以用于对象识别。在一些实现中,候选图像集合中的每个候选图像相对于图像可以与增加的图像分辨率相关联。
如图6中进一步示出的,过程600可以包括针对候选图像集合并且基于图像来确定图像嵌入(框620)。例如,如上文结合图1A到图1C所描述的,对象标识平台(例如,使用计算资源225、处理器320、存储器330、存储组件340等)可以针对候选图像集合并且基于图像来确定图像嵌入。
如图6中进一步示出的,过程600可以包括确定针对图像嵌入的嵌入误差阈值被满足(框630)。例如,如上文结合图1A到图1C所描述的,对象标识平台(例如,使用计算资源225、处理器320、存储器330、存储组件340等)可以确定针对图像嵌入的嵌入误差阈值被满足。
如图6中进一步示出的,过程600可以包括基于图像嵌入并且基于确定嵌入误差阈值被满足来确定图像的特征的标识(框640)。例如,如上文结合图1A到图1C所描述的,对象标识平台(例如,使用计算资源225、处理器320、存储器330、存储组件340等)可以基于图像嵌入并且基于确定嵌入误差阈值被满足来确定图像的特征的标识。
如图6中进一步示出的,过程600可以包括基于确定特征的标识来提供标识图像的特征的信息(框650)。例如,如上文结合图1A到图1C所描述的,对象标识平台(例如,使用计算资源225、处理器320、存储器330、存储组件340、输出组件360、通信接口370等)可以基于确定特征的标识来提供标识图像的特征的信息。
过程600可以包括附加的实现,诸如下述的和/或结合本文其他地方描述的一个或多个其他过程所描述的任何单一实现或任何实现的组合。
在一些实现中,对象标识平台可以使用基于强化学习的图像评估模块来评估候选图像集合,并且可以基于评估候选图像集合来确定分辨率标准被满足。在一些实现中,当确定图像嵌入时,对象标识平台可以基于确定分辨率标准被满足来使一个或多个处理器确定图像嵌入。在一些实现中,图像可以是视频,并且候选图像集合可以是视频的帧的集合。
虽然图6示出了过程600的示例框,但是在一些实现中,与图6中所描绘的那些框相比,过程600可以包括附加的框、更少的框、不同的框或者不同地布置的框。附加地或备选地,过程600的两个或更多个框可以被并行执行。
在此描述的一些实现提供了图像处理以用于对象标识。例如,对象标识平台220可以使用生成式对抗网络(GAN)技术来增强针对图像的图像质量,从而实现对象标识过程的优化。此外,对象标识平台220可以使用深度强化学习来自动化图像质量增强过程和对象识别过程的优化。以这种方式,相对于用于图像处理的其他技术,对象标识平台220可以改进对象标识的准确度以用于图像处理。
此外,基于实现自动化的图像质量增强以用于对象识别,与使用其他技术时相比,对象标识平台220可以支持较低质量的图像被用于对象识别,从而相对于使用要求更高质量的图像的技术,减少了用以传递图像的带宽资源、网络资源等的利用。此外,相对于当使用其他技术时,对象标识平台220可以通过支持使用较低质量的图像来减少与图像处理相关联的数据存储要求。此外,基于改进图像处理中的对象标识的准确性,对象标识平台220可以实现针对对象标识的生物特征识别应用(例如,面部识别)的改进的安全性,针对对象标识的防撞应用(例如,自动驾驶车辆导航)的改进的安全性等。此外,基于改进低质量图像中的对象标识的准确性,即使在图像质量降低后,对象标识平台220也可以通过实现成功的对象标识来实现改进的图像压缩算法,以支持图像文件大小的减少。
示例实施例1:一种设备,包括:一个或多个存储器;以及一个或多个处理器,被通信地耦合到一个或多个存储器,一个或多个处理器用以:获得图像;基于图像并且使用图像生成模型来生成候选图像集合以用于对象识别;基于候选图像集合并且使用图像评估模型来确定:候选图像集合中的一个或多个候选图像在图像生成期间并且使用图像生成模型而被处理以改进图像的分辨率;针对一个或多个候选图像并且基于图像来确定图像嵌入;针对一个或多个候选图像,基于图像嵌入和图像来确定嵌入误差;基于图像嵌入和嵌入误差来确定图像的特征的标识;将嵌入误差反向传播到图像生成模型中以生成用于后续图像生成的更新的图像生成模型;将图像的特征的标识反向传播到图像评估模型中以生成用于后续图像评估的更新的图像评估模型;以及基于确定特征的标识来执行与特征的标识相关的动作。
示例实施例2:根据示例实施例1的设备,其中一个或多个处理器进一步用以:使用更新的图像生成模型来基于其他图像生成候选图像的其他集合;以及基于候选图像的其他集合来确定其他图像的其他特征的其他标识。
示例实施例3:根据示例实施例1的设备,其中一个或多个处理器进一步用以:使用更新的图像评估模型来评估与其他图像相关的其他一个或多个候选图像;以及基于其他一个或多个候选图像来确定其他图像的其他特征的其他标识。
示例实施例4:根据示例实施例1的设备,其中一个或多个处理器进一步用以:确定嵌入误差不满足阈值;基于确定嵌入误差不满足阈值,使用确定图像嵌入和嵌入误差的结果来迭代图像生成和图像评估以确定其他图像嵌入和其他嵌入误差;并且其中一个或多个处理器在确定图像的特征的标识时,用以:基于其他图像嵌入和其他嵌入误差来确定图像的特征的标识。
示例实施例5:根据示例实施例1的设备,其中动作与使得自动驾驶车辆受到控制相关联。
示例实施例6:根据示例实施例1的设备,其中一个或多个处理器在执行与特征的标识相关的动作时,用以:基于特征的标识来与其他设备通信以提供与更改其他设备的功能相关的命令。
示例实施例7:根据示例实施例1的设备,其中图像的特征是以下中的至少一项:生物特征,对象,图像分段,或者消息。
示例实施例8:根据示例实施例1的设备,其中图像评估模型是深度强化学习模型。
示例实施例9:根据示例实施例1的设备,其中图像生成模型是生成式对抗网络(GAN)模型。
示例实施例10:根据示例实施例1的设备,其中图像是视频记录的至少一个帧。
示例实施例11:根据示例实施例1的设备,其中图像包括低分辨率图像。
示例实施例12:根据示例实施例1的设备,其中一个或多个处理器在使用图像评估模型来确定一个或多个候选图像在图像生成期间并且使用图像生成模型而被处理时,用以:接收历史上的高分辨率图像的集合;以及将一个或多个候选图像与历史上的高分辨率图像相比较。
示例实施例13:一种方法,包括:由设备获得媒体项;由设备基于媒体项并且使用媒体生成模型来生成候选媒体集合以用于对象识别;由设备基于候选媒体集合并且使用媒体评估模型来确定:候选媒体集合中的一个或多个候选媒体在媒体生成期间并且使用媒体生成模型而被处理以改进媒体项的特征的质量;由设备针对一个或多个候选媒体并且基于媒体项来确定媒体嵌入;由设备针对一个或多个候选媒体基于媒体嵌入和媒体项来确定嵌入误差;由设备基于媒体嵌入和嵌入误差来确定媒体项的特征的标识;以及由设备基于确定特征的标识来与其他设备通信以提供标识特征的信息。
示例实施例14:根据示例实施例13的方法,其中媒体项是以下中的至少一项:图像,视频记录,音频记录,虚拟现实表示,或者数据表示。
示例实施例15:根据示例实施例13的方法,其中特征的质量是以下中的至少一项:分辨率,清晰度,或者对比度。
示例实施例16:根据示例实施例13的方法,其中确定特征的标识包括:使用同步定位与地图构建(SLAM)对象检测过程来确定特征的标识。
示例实施例17:根据示例实施例13的方法,其中确定特征的标识包括:标识媒体项中的对象。
示例实施例18:根据示例实施例13的方法,进一步包括:基于特征的标识来对媒体项进行分段;以及其中与其他设备通信以提供标识特征的信息包括:提供与对媒体项进行分段相关的信息。
示例实施例19:根据示例实施例13的方法,其中获得媒体项包括:请求媒体项的低分辨率版本,其中相对于媒体项的其他版本,低分辨率版本与减小的文件大小相关联;以及其中生成候选媒体集合包括:基于低分辨率版本,生成媒体项的至少一个高分辨率版本,其中与低分辨率版本相比,至少一个高分辨率版本与较高的文件大小相关联。
示例实施例20:一种存储指令的非瞬态计算机可读介质,指令包括:一个或多个指令,一个或多个指令在由一个或多个处理器执行时使得一个或多个处理器:基于图像并且使用图像生成模型来生成候选图像集合以用于对象识别,其中候选图像集合中的每个候选图像相对于图像与增加的图像分辨率相关联;针对候选图像集合并且基于图像来确定图像嵌入;确定针对图像嵌入的嵌入误差阈值被满足;基于图像嵌入并且基于确定嵌入误差阈值被满足来确定图像的特征的标识;以及基于确定特征的标识来提供标识图像的特征的信息。
示例实施例21:根据示例实施例20的非瞬态计算机可读介质,其中一个或多个指令在由一个或多个处理器执行时进一步使得一个或多个处理器:使用基于增强学习的图像评估模型来评估候选图像集合;基于评估候选图像集合来确定分辨率标准被满足;并且其中使得一个或多个处理器确定图像嵌入的一个或多个指令使得一个或多个处理器:基于确定分辨率标准被满足来确定图像嵌入。
示例实施例22:根据示例实施例20的非瞬态计算机可读介质,其中图像是视频,并且其中候选图像集合是视频的帧的集合。
前述公开内容提供了说明和描述,但并非意在穷举的或将实现限制于所公开的确切形式。鉴于上述公开,修改和变型是可能的,并且可以通过实践实现来获得。
如在此所使用的,术语组件意在被广义地解释为硬件、固件和/或硬件和软件的组合。
在此结合阈值描述了一些实现。如在此所使用的,满足阈值可以指值大于阈值,多于阈值,高于阈值,大于或等于阈值,小于阈值,少于阈值,低于阈值,小于或等于阈值,等于阈值等。
明显的是,在此描述的系统和/或方法可以以硬件、固件或者硬件和软件的组合的不同形式的来实现。被用来实现这些系统和/或方法的实际专用控制硬件或软件代码不限制实现。因此,在此并未参考具体软件代码对该系统和/或方法的操作和行为进行描述——应当理解,软件和硬件可以被设计为基于在此的描述来实现系统和/或方法。
尽管在权利要求中阐述了和/或在说明书中公开了特征的特定组合,但是这些组合并非旨在限制可能的实现的公开。实际上,这些特征中的许多特征可以以未在权利要求中具体阐述和/或在说明书中公开的方式进行组合。尽管以下列出的每个从属权利要求仅引用一项权利要求,但是可能的实现的公开包括与权利要求集合中的每项其他权利要求组合的每一项从属权利要求。
除非被明确地如此描述,否则在此使用的元素、动作或指令不应被理解为是关键的或必要的。而且,如在此所使用的,冠词“一”和“一个”旨在包括一个或多个项,并且可以与“一个或多个”互换使用。此外,如在此所使用的,术语“集合”旨在包括一个或多个项(例如,相关项,非相关项,相关项和非相关项的组合等),并且可以与“一个或多个”互换使用。在仅预期一个项的情况下,使用术语“一个”或相似的语言。而且,如在此所使用的,术语“具有(has)”,“具有(have)”,“具有(having)”等旨在为开放式的术语。另外,除非另有明确说明,否则短语“基于”旨在表示“至少部分地基于”。
Claims (22)
1.一种设备,包括:
一个或多个存储器;以及
一个或多个处理器,被通信地耦合到所述一个或多个存储器,所述一个或多个处理器用以:
获得图像;
基于所述图像并且使用图像生成模型来生成候选图像集合以用于对象识别;
基于所述候选图像集合并且使用图像评估模型来确定:所述候选图像集合中的一个或多个候选图像在图像生成期间并且使用所述图像生成模型而被处理以改进所述图像的分辨率;
针对所述一个或多个候选图像并且基于所述图像来确定图像嵌入;
针对所述一个或多个候选图像,基于所述图像嵌入和所述图像来确定嵌入误差;
基于所述图像嵌入和所述嵌入误差来确定所述图像的特征的标识;
将所述嵌入误差反向传播到所述图像生成模型中以生成用于后续图像生成的更新的图像生成模型;
将所述图像的所述特征的所述标识反向传播到所述图像评估模型中以生成用于后续图像评估的更新的图像评估模型;以及
基于确定所述特征的所述标识来执行与所述特征的所述标识相关的动作。
2.根据权利要求1所述的设备,其中所述一个或多个处理器进一步用以:
使用所述更新的图像生成模型来基于其他图像生成候选图像的其他集合;以及
基于候选图像的所述其他集合来确定所述其他图像的其他特征的其他标识。
3.根据权利要求1所述的设备,其中所述一个或多个处理器进一步用以:
使用所述更新的图像评估模型来评估与其他图像相关的其他一个或多个候选图像;以及
基于所述其他一个或多个候选图像来确定所述其他图像的其他特征的其他标识。
4.根据权利要求1所述的设备,其中所述一个或多个处理器进一步用以:
确定所述嵌入误差不满足阈值;
基于确定所述嵌入误差不满足所述阈值,使用确定所述图像嵌入和所述嵌入误差的结果来迭代图像生成和图像评估以确定其他图像嵌入和其他嵌入误差;并且
其中所述一个或多个处理器在确定所述图像的所述特征的所述标识时,用以:
基于所述其他图像嵌入和所述其他嵌入误差来确定所述图像的所述特征的所述标识。
5.根据权利要求1所述的设备,其中所述动作与使得自动驾驶车辆受到控制相关联。
6.根据权利要求1所述的设备,其中所述一个或多个处理器在执行与所述特征的所述标识相关的所述动作时,用以:
基于所述特征的所述标识来与其他设备通信以提供与更改所述其他设备的功能相关的命令。
7.根据权利要求1所述的设备,其中所述图像的所述特征是以下中的至少一项:
生物特征,
对象,
图像分段,或者
消息。
8.根据权利要求1所述的设备,其中所述图像评估模型是深度强化学习模型。
9.根据权利要求1所述的设备,其中所述图像生成模型是生成式对抗网络(GAN)模型。
10.根据权利要求1所述的设备,其中所述图像是视频记录的至少一个帧。
11.根据权利要求1所述的设备,其中所述图像包括低分辨率图像。
12.根据权利要求1所述的设备,其中所述一个或多个处理器在使用所述图像评估模型来确定所述一个或多个候选图像在图像生成期间并且使用所述图像生成模型而被处理时,用以:
接收历史上的高分辨率图像的集合;以及
将所述一个或多个候选图像与所述历史上的高分辨率图像相比较。
13.一种方法,包括:
由设备获得媒体项;
由所述设备基于所述媒体项并且使用媒体生成模型来生成候选媒体集合以用于对象识别;
由所述设备基于所述候选媒体集合并且使用媒体评估模型来确定:候选媒体所述集合中的一个或多个候选媒体在媒体生成期间并且使用所述媒体生成模型而被处理以改进所述媒体项的特征的质量;
由所述设备针对所述一个或多个候选媒体并且基于所述媒体项来确定媒体嵌入;
由所述设备针对所述一个或多个候选媒体基于所述媒体嵌入和所述媒体项来确定嵌入误差;
由所述设备基于所述媒体嵌入和所述嵌入误差来确定所述媒体项的所述特征的标识;以及
由所述设备基于确定所述特征的所述标识来与其他设备通信以提供标识所述特征的信息。
14.根据权利要求13所述的方法,其中所述媒体项是以下中的至少一项:
图像,
视频记录,
音频记录,
虚拟现实表示,或者
数据表示。
15.根据权利要求13所述的方法,其中所述特征的所述质量是以下中的至少一项:
分辨率,
清晰度,或者
对比度。
16.根据权利要求13所述的方法,其中确定所述特征的所述标识包括:
使用同步定位与地图构建(SLAM)对象检测过程来确定所述特征的所述标识。
17.根据权利要求13所述的方法,其中确定所述特征的所述标识包括:
标识所述媒体项中的对象。
18.根据权利要求13所述的方法,进一步包括:
基于所述特征的所述标识来对所述媒体项进行分段;以及
其中与所述其他设备通信以提供标识所述特征的信息包括:
提供与对所述媒体项进行分段相关的信息。
19.根据权利要求13所述的方法,其中获得所述媒体项包括:
请求所述媒体项的低分辨率版本,
其中相对于所述媒体项的其他版本,所述低分辨率版本与减小的文件大小相关联;以及
其中生成所述候选媒体集合包括:
基于所述低分辨率版本,生成所述媒体项的至少一个高分辨率版本,
其中与所述低分辨率版本相比,所述至少一个高分辨率版本与较高的文件大小相关联。
20.一种存储指令的非瞬态计算机可读介质,所述指令包括:
一个或多个指令,所述一个或多个指令在由一个或多个处理器执行时使得所述一个或多个处理器:
基于图像并且使用图像生成模型来生成候选图像集合以用于对象识别,
其中所述候选图像集合中的每个候选图像相对于所述图像与增加的图像分辨率相关联;
针对所述候选图像集合并且基于所述图像来确定图像嵌入;
确定针对所述图像嵌入的嵌入误差阈值被满足;
基于所述图像嵌入并且基于确定所述嵌入误差阈值被满足来确定所述图像的特征的标识;以及
基于确定所述特征的所述标识来提供标识所述图像的所述特征的信息。
21.根据权利要求20所述的非瞬态计算机可读介质,其中所述一个或多个指令在由所述一个或多个处理器执行时进一步使得所述一个或多个处理器:
使用基于增强学习的图像评估模型来评估所述候选图像集合;
基于评估所述候选图像集合来确定分辨率标准被满足;并且
其中使得所述一个或多个处理器确定所述图像嵌入的所述一个或多个指令使得所述一个或多个处理器:
基于确定所述分辨率标准被满足来确定所述图像嵌入。
22.根据权利要求20所述的非瞬态计算机可读介质,其中所述图像是视频,并且其中所述候选图像集合是所述视频的帧的集合。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/057,246 US10706308B2 (en) | 2018-08-07 | 2018-08-07 | Image processing for automated object identification |
US16/057,246 | 2018-08-07 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110827190A true CN110827190A (zh) | 2020-02-21 |
CN110827190B CN110827190B (zh) | 2023-09-08 |
Family
ID=67551250
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910733873.6A Active CN110827190B (zh) | 2018-08-07 | 2019-08-05 | 针对自动对象标识的图像处理 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10706308B2 (zh) |
EP (1) | EP3608840A1 (zh) |
JP (1) | JP7128157B2 (zh) |
CN (1) | CN110827190B (zh) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3760827B1 (en) | 2014-09-12 | 2022-07-06 | Little Giant Ladder Systems, LLC | Ladder |
WO2018176000A1 (en) | 2017-03-23 | 2018-09-27 | DeepScale, Inc. | Data synthesis for autonomous control systems |
US10671349B2 (en) | 2017-07-24 | 2020-06-02 | Tesla, Inc. | Accelerated mathematical engine |
US11157441B2 (en) | 2017-07-24 | 2021-10-26 | Tesla, Inc. | Computational array microprocessor system using non-consecutive data formatting |
US11409692B2 (en) | 2017-07-24 | 2022-08-09 | Tesla, Inc. | Vector computational unit |
US11893393B2 (en) | 2017-07-24 | 2024-02-06 | Tesla, Inc. | Computational array microprocessor system with hardware arbiter managing memory requests |
US11561791B2 (en) | 2018-02-01 | 2023-01-24 | Tesla, Inc. | Vector computational unit receiving data elements in parallel from a last row of a computational array |
US11215999B2 (en) | 2018-06-20 | 2022-01-04 | Tesla, Inc. | Data pipeline and deep learning system for autonomous driving |
US11361457B2 (en) | 2018-07-20 | 2022-06-14 | Tesla, Inc. | Annotation cross-labeling for autonomous control systems |
US11636333B2 (en) | 2018-07-26 | 2023-04-25 | Tesla, Inc. | Optimizing neural network structures for embedded systems |
US11562231B2 (en) | 2018-09-03 | 2023-01-24 | Tesla, Inc. | Neural networks for embedded devices |
EP3864573A1 (en) | 2018-10-11 | 2021-08-18 | Tesla, Inc. | Systems and methods for training machine models with augmented data |
US11196678B2 (en) | 2018-10-25 | 2021-12-07 | Tesla, Inc. | QOS manager for system on a chip communications |
US11816585B2 (en) | 2018-12-03 | 2023-11-14 | Tesla, Inc. | Machine learning models operating at different frequencies for autonomous vehicles |
US11537811B2 (en) | 2018-12-04 | 2022-12-27 | Tesla, Inc. | Enhanced object detection for autonomous vehicles based on field view |
US11610117B2 (en) | 2018-12-27 | 2023-03-21 | Tesla, Inc. | System and method for adapting a neural network model on a hardware platform |
US10997461B2 (en) | 2019-02-01 | 2021-05-04 | Tesla, Inc. | Generating ground truth for machine learning from time series elements |
US11567514B2 (en) | 2019-02-11 | 2023-01-31 | Tesla, Inc. | Autonomous and user controlled vehicle summon to a target |
US10956755B2 (en) | 2019-02-19 | 2021-03-23 | Tesla, Inc. | Estimating object properties using visual image data |
US11037025B2 (en) * | 2019-05-30 | 2021-06-15 | Baidu Usa Llc | Systems and methods for adversarially robust object detection |
US11361189B2 (en) * | 2019-12-03 | 2022-06-14 | Ping An Technology (Shenzhen) Co., Ltd. | Image generation method and computing device |
JP7457545B2 (ja) * | 2020-03-19 | 2024-03-28 | Lineヤフー株式会社 | 評価装置、評価方法及び評価プログラム |
CN111895931B (zh) * | 2020-07-17 | 2021-11-26 | 嘉兴泊令科技有限公司 | 一种基于计算机视觉的煤矿作业区标定方法 |
US20220148050A1 (en) * | 2020-11-11 | 2022-05-12 | Cdk Global, Llc | Systems and methods for using machine learning for vehicle damage detection and repair cost estimation |
US11899468B2 (en) | 2020-12-22 | 2024-02-13 | Waymo Llc | Sensor for flashing light detection |
CN114549936B (zh) * | 2022-02-28 | 2022-12-23 | 曾华杰 | 增强车辆的摄像头拍摄的影像的方法、系统和计算设备 |
US11669937B2 (en) | 2022-02-28 | 2023-06-06 | Huajie ZENG | Method and system for enhancing image captured by on-board camera, and computing device |
US11689601B1 (en) * | 2022-06-17 | 2023-06-27 | International Business Machines Corporation | Stream quality enhancement |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0400240A2 (en) * | 1989-06-01 | 1990-12-05 | AT&T Corp. | Efficient encoding/decoding in the decomposition and recomposition of a high resolution image utilizing its low resolution replica |
AU2002313849A1 (en) * | 1997-09-19 | 2003-04-03 | Wyeth Holdings Corporation | Attenuated Respiratory Syncytial Viruses |
WO2005006347A1 (en) * | 2003-07-10 | 2005-01-20 | Yissum Research Development Company Of The Hebrew University Of Jerusalem | Nanoparticles functionalized probes and methods for preparing such probes |
CN1975845A (zh) * | 2005-11-14 | 2007-06-06 | 索尼株式会社 | 显示设备及其驱动方法 |
US20080284768A1 (en) * | 2007-05-18 | 2008-11-20 | Semiconductor Energy Laboratory Co., Ltd. | Method for driving liquid crystal display device |
CN101866051A (zh) * | 2009-04-02 | 2010-10-20 | 通用汽车环球科技运作公司 | 全挡风玻璃平视显示器上的信息娱乐显示 |
US20110006319A1 (en) * | 2007-08-31 | 2011-01-13 | Lattice Power (Jiangxi) Corporation | Gallium nitride light-emitting device with ultra-high reverse breakdown voltage |
CN102254295A (zh) * | 2011-07-13 | 2011-11-23 | 西安电子科技大学 | 一种基于支持向量机的彩色半色调图像水印算法 |
US20150269842A1 (en) * | 2014-03-22 | 2015-09-24 | Ford Global Technologies, Llc | Traffic density sensitivity selector |
CN105913026A (zh) * | 2016-04-12 | 2016-08-31 | 江苏大学 | 一种基于Haar-PCA特征和概率神经网络的行人检测方法 |
GB201708257D0 (en) * | 2017-05-23 | 2017-07-05 | Nokia Technologies Oy | Methods and apparatuses for handling visual virtual reality content |
JP2017159884A (ja) * | 2016-03-10 | 2017-09-14 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 運転制御装置、運転制御方法及び運転制御プログラム |
CN107548071A (zh) * | 2016-06-23 | 2018-01-05 | 英特尔公司 | 在频谱共享中用于用户检测的方法和设备 |
CN107808175A (zh) * | 2016-09-09 | 2018-03-16 | 埃森哲环球解决方案有限公司 | 使用编码贴花的自动化装载桥定位 |
CN108075925A (zh) * | 2016-11-14 | 2018-05-25 | 埃森哲环球解决方案有限公司 | 基于端到端性能观察与评估来改进通信网络的性能 |
JP2018097807A (ja) * | 2016-12-16 | 2018-06-21 | 株式会社デンソーアイティーラボラトリ | 学習装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105163103B (zh) * | 2014-06-13 | 2017-10-27 | 株式会社理光 | 用层叠结构来表示立体图像以分析图像中的目标的技术 |
WO2016145089A1 (en) * | 2015-03-09 | 2016-09-15 | Skytree, Inc. | System and method for using machine learning to generate a model from audited data |
US10803391B2 (en) * | 2015-07-29 | 2020-10-13 | Google Llc | Modeling personal entities on a mobile device using embeddings |
JP2017068589A (ja) * | 2015-09-30 | 2017-04-06 | ソニー株式会社 | 情報処理装置、情報端末、及び、情報処理方法 |
WO2018053340A1 (en) * | 2016-09-15 | 2018-03-22 | Twitter, Inc. | Super resolution using a generative adversarial network |
-
2018
- 2018-08-07 US US16/057,246 patent/US10706308B2/en active Active
-
2019
- 2019-08-05 JP JP2019143480A patent/JP7128157B2/ja active Active
- 2019-08-05 CN CN201910733873.6A patent/CN110827190B/zh active Active
- 2019-08-07 EP EP19190452.3A patent/EP3608840A1/en active Pending
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0400240A2 (en) * | 1989-06-01 | 1990-12-05 | AT&T Corp. | Efficient encoding/decoding in the decomposition and recomposition of a high resolution image utilizing its low resolution replica |
AU2002313849A1 (en) * | 1997-09-19 | 2003-04-03 | Wyeth Holdings Corporation | Attenuated Respiratory Syncytial Viruses |
WO2005006347A1 (en) * | 2003-07-10 | 2005-01-20 | Yissum Research Development Company Of The Hebrew University Of Jerusalem | Nanoparticles functionalized probes and methods for preparing such probes |
CN1975845A (zh) * | 2005-11-14 | 2007-06-06 | 索尼株式会社 | 显示设备及其驱动方法 |
US20080284768A1 (en) * | 2007-05-18 | 2008-11-20 | Semiconductor Energy Laboratory Co., Ltd. | Method for driving liquid crystal display device |
US20110006319A1 (en) * | 2007-08-31 | 2011-01-13 | Lattice Power (Jiangxi) Corporation | Gallium nitride light-emitting device with ultra-high reverse breakdown voltage |
CN101866051A (zh) * | 2009-04-02 | 2010-10-20 | 通用汽车环球科技运作公司 | 全挡风玻璃平视显示器上的信息娱乐显示 |
CN102254295A (zh) * | 2011-07-13 | 2011-11-23 | 西安电子科技大学 | 一种基于支持向量机的彩色半色调图像水印算法 |
US20150269842A1 (en) * | 2014-03-22 | 2015-09-24 | Ford Global Technologies, Llc | Traffic density sensitivity selector |
JP2017159884A (ja) * | 2016-03-10 | 2017-09-14 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 運転制御装置、運転制御方法及び運転制御プログラム |
CN105913026A (zh) * | 2016-04-12 | 2016-08-31 | 江苏大学 | 一种基于Haar-PCA特征和概率神经网络的行人检测方法 |
CN107548071A (zh) * | 2016-06-23 | 2018-01-05 | 英特尔公司 | 在频谱共享中用于用户检测的方法和设备 |
CN107808175A (zh) * | 2016-09-09 | 2018-03-16 | 埃森哲环球解决方案有限公司 | 使用编码贴花的自动化装载桥定位 |
CN108075925A (zh) * | 2016-11-14 | 2018-05-25 | 埃森哲环球解决方案有限公司 | 基于端到端性能观察与评估来改进通信网络的性能 |
JP2018097807A (ja) * | 2016-12-16 | 2018-06-21 | 株式会社デンソーアイティーラボラトリ | 学習装置 |
GB201708257D0 (en) * | 2017-05-23 | 2017-07-05 | Nokia Technologies Oy | Methods and apparatuses for handling visual virtual reality content |
Non-Patent Citations (5)
Title |
---|
JIANNAN LI等: "Perceptual generative adversarial networks for small object detection", 《IEEE》 * |
JIANNAN LI等: "Perceptual generative adversarial networks for small object detection", 《IEEE》, 16 June 2017 (2017-06-16), pages 1222 - 1230 * |
伍锡如;黄国明;孙立宁;: "基于深度学习的工业分拣机器人快速视觉识别与定位算法", 机器人, no. 06, pages 73 - 81 * |
陈跃辉等: "基于BBT的邻域嵌入单帧图像超分辨率算法", 《电视技术》 * |
陈跃辉等: "基于BBT的邻域嵌入单帧图像超分辨率算法", 《电视技术》, vol. 40, no. 5, 17 May 2016 (2016-05-17), pages 129 - 135 * |
Also Published As
Publication number | Publication date |
---|---|
EP3608840A1 (en) | 2020-02-12 |
JP2020047262A (ja) | 2020-03-26 |
CN110827190B (zh) | 2023-09-08 |
JP7128157B2 (ja) | 2022-08-30 |
US20200050879A1 (en) | 2020-02-13 |
US10706308B2 (en) | 2020-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110827190B (zh) | 针对自动对象标识的图像处理 | |
US10043255B1 (en) | Utilizing a machine learning model to automatically visually validate a user interface for multiple platforms | |
US10937171B2 (en) | Generating synthetic images as training dataset for a machine learning network | |
JP5950973B2 (ja) | フレームを選択する方法、装置、及びシステム | |
US9142011B2 (en) | Shadow detection method and device | |
CN111602153A (zh) | 自动化的本地化机器学习训练 | |
US8965107B1 (en) | Feature reduction based on local densities for bundle adjustment of images | |
CN112232293A (zh) | 图像处理模型训练、图像处理方法及相关设备 | |
CN111444744A (zh) | 活体检测方法、装置以及存储介质 | |
US10375667B2 (en) | Enhancing indoor positioning using RF multilateration and optical sensing | |
US11756205B2 (en) | Methods, devices, apparatuses and storage media of detecting correlated objects involved in images | |
US20210089823A1 (en) | Information processing device, information processing method, and non-transitory computer-readable storage medium | |
KR20170025535A (ko) | 스켈레톤 자세 데이터세트를 이용한 비디오 기반 상호 활동 모델링 방법 | |
JP6903117B2 (ja) | 顔識別方法、顔識別装置、およびコンピュータが読出し可能な非一時的媒体 | |
WO2021056501A1 (zh) | 提取特征点的方法、可移动平台及存储介质 | |
JP2015103188A (ja) | 画像解析装置、画像解析方法及び画像解析プログラム | |
US20220300774A1 (en) | Methods, apparatuses, devices and storage media for detecting correlated objects involved in image | |
CN107533637B (zh) | 对有歧义的图像数据进行分类 | |
CN109800678A (zh) | 一种视频中对象的属性确定方法及装置 | |
KR20200124887A (ko) | 데이터 프로그래밍에 기반한 레이블링 모델 생성 방법 및 장치 | |
KR102342495B1 (ko) | 데이터 프로그래밍에 기반한 레이블링 모델 생성 방법 및 장치 | |
CN114581978A (zh) | 人脸识别的方法和系统 | |
CN113313062A (zh) | 路径获取方法、装置、系统、电子设备及存储介质 | |
CN115298704A (zh) | 用于说话者分割聚类系统的基于上下文的说话者计数器 | |
CN109614956A (zh) | 一种视频中对象的识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |