CN109074501B - 基于类偏斜的动态分类器选择 - Google Patents
基于类偏斜的动态分类器选择 Download PDFInfo
- Publication number
- CN109074501B CN109074501B CN201780027932.7A CN201780027932A CN109074501B CN 109074501 B CN109074501 B CN 109074501B CN 201780027932 A CN201780027932 A CN 201780027932A CN 109074501 B CN109074501 B CN 109074501B
- Authority
- CN
- China
- Prior art keywords
- classifier
- aspects
- subset
- dedicated
- classify
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 47
- 238000003860 storage Methods 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 22
- 230000004044 response Effects 0.000 claims description 21
- 238000013528 artificial neural network Methods 0.000 claims description 19
- 230000008859 change Effects 0.000 claims description 2
- 230000002123 temporal effect Effects 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 15
- 238000012545 processing Methods 0.000 description 9
- 230000009471 action Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 239000011521 glass Substances 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/87—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using selection of the recognition techniques, e.g. of a classifier in a multiple classifier system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/285—Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/245—Classification techniques relating to the decision surface
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
一种分类系统,其对诸如面部、地标、事件等的输入图像流的内容的不同方面分类。分类系统包括通用分类器和至少一个专用分类器模板。通用分类器被训练为对内容的大量不同方面分类,并且专用分类器可以在分类系统的操作期间基于专用分类器模板而被训练以对内容的多个不同方面的特定子集分类。分类系统基于类偏斜来确定何时使用通用分类器以及何时使用专用分类器,类偏斜是指图像流中的内容的方面的子集的时间局部性。
Description
背景技术
随着计算技术的发展,计算设备已经变得越来越多地存在于我们的生活中。计算设备被使用的一种方式是分析图像以标识那些图像中的特定对象,诸如人的脸。虽然对象的这种标识是有益处的,但是它并非没有问题。一个这样的问题是图像的这种分析可能在计算上是昂贵并且缓慢的,这可以导致用户对他们的设备失望。
发明内容
提供本发明内容是为了以简化的形式介绍一些概念,这些概念将在下面的具体实施方式中被进一步描述。本发明内容并非旨在标识所要求保护的主题内容的关键特征或必要特征,也并非旨在被用来限制所要求保护的主题内容的范围。
根据一个或多个方面,图像流被接收。确定关于专用分类器何时可以被用来对图像流的内容的多个方面的子集分类而被做出,专用分类器利用多个方面的子集的类偏斜,确定包括标识多个方面的子集何时支配图像流。专用分类器被访问以对多个方面的子集分类,并且专用分类器而不是通用分类器(例如,其被训练以对图像流的内容的多个方面分类,而不是仅对那些多个方面的子集分类)被使用以对图像流的后续图像中的多个方面的子集分类。
根据一个或多个方面,分类系统包括通用分类器、模板存储库以及分类器选择系统。通用分类器被配置为对图像流的内容的多个方面分类。模板存储库包括多个不同的专用分类器模板,专用分类器模板中的每个专用分类器模板被配置为对多个方面的子集分类。分类器选择系统被配置为:重新训练多个不同的专用分类器模板中的一个专用分类器模板以生成用于多个方面的特定子集的专用分类器;以及确定何时在使用通用分类器以对图像流的内容的多个方面分类与使用专用分类器以对图像流的内容的多个方面分类之间切换。
附图说明
参考附图描述了具体实施方式。在附图中,附图标记的最左边的(多个)数字标识了附图标记在其中首次出现的图。在说明书和附图中的不同实例中使用相同的附图标记可以指示相似或相同的项目。图中表示的实体可以指示一个或多个实体,并且因此可以在讨论中对单个或多个形式的实体互换地做出引用。
图1示出了根据一个或多个实施例的基于类偏斜来实现动态分类器选择的示例分类系统。
图2示出了根据一个或多个实施例的示例分类器选择系统。
图3示出了根据一个或多个实施例的通用分类器与专用分类器的使用以及在两者之间切换的示例。
图4是示出了根据一个或多个实施例的用于基于类偏斜来实现动态分类器选择的示例过程的流程图。
图5示出了示例系统,示例系统包括示例计算设备,示例计算设备代表可以实现本文所描述的各种技术的一个或多个系统和/或设备。
具体实施方式
基于类偏斜的动态分类器选择在本文中被讨论。分类系统对输入图像流的内容的不同方面分类。内容的这些不同方面是指内容的不同特性和/或被包括在内容中的对象,诸如脸部、地标、车辆、体育赛事等。分类系统包括通用分类器和至少一个专用分类器模板。通用分类器被训练为对内容的大量不同方面分类,诸如,对用户知道的所有不同人的脸部分类(例如,识别)。专用分类器模板可以被用来:在分类系统的操作期间训练专用分类器以对内容的多个不同方面的特定子集分类,诸如在一个小时的会议期间,识别在场的五个人的脸部。这种特定子集通常远小于通用分类器可以分类的大量方面。例如,输入图像流可以是由用户在他或她经历一天时捕捉的视频(例如,使用眼镜或其他可穿戴计算设备),并且专用分类器模板可以在那天的一个小时中被训练以在视频中对用户正在会面的五个不同人的脸部分类(例如,识别)。
分类系统确定何时使用通用分类器以及何时使用专用分类器。分类系统基于类偏斜做出这一确定,类偏斜是指图像流中的内容的方面的子集的时间局部性。例如,类偏斜是在一些时间窗口上、相同方面在内容中被标识的频率(例如,由通用分类器或专用分类器分类成的那些方面)。例如,类偏斜可以是:在先前z秒上的百分之y的时间,相同的x个对象在内容中被标识(例如,在先前30秒上百分之90的时间,相同的5个对象在内容中被标识出)。分类系统关于何时使用通用分类器以及何时使用专用分类器动态地做出确定,这是指分类系统基于输入图像流中的特定内容来在运行时做出确定。
分类系统期望类偏斜将随时间变化。因此,分类系统在运行时确定,何时在通用分类器与专用分类器之间切换。此外,分类系统在运行时确定,专用分类器将被训练以对方面的哪个特定子集分类。例如,用户可能在整个一天中与不同组人进行六次不同的会议,并且视频在那些会议中的每个会议被分析期间被捕捉。如果内容的方面是视频中的人的脸部,则针对每次会议,分类系统检测会议中的人的脸部并且训练专用分类器以用于在该会议期间使用,从而导致用于每次会议的不同的专用分类器。分类系统在运行时训练专用分类器(例如,在会议期间,或者在会议的视频的回放期间),生成专用分类器以在任何给定会议中对特定的人分类(标识)。
当专用分类器被用于对输入图像流的方面分类时,专用分类器和通用分类器通常(但并非需要)被链接在一起。专用分类器分析输入流(例如,视频帧)的图像,并且将图像的一个或多个方面分类为专用分类器被训练用于的方面的特定子集中的一个子集,如果可能。如果专用分类器不能对图像的方面分类,则通用分类器分析图像,并且将图像的一个或多个方面分类为通用分类器被训练用于的方面中的一个方面。
通用分类器相对于专用分类器是昂贵的分类器,专用分类器比通用分类器更快地(例如,以更低的平均延时来完成操作)并且更高效地(例如,使用更少的总体资源(诸如,存储器和/或处理功率)来完成操作)对输入图像流的方面分类。例如,针对通用分类器可以分类的方面的特定子集,专用分类器可能能够比通用分类器快10至100倍来对输入图像的方面的该子集分类。分类系统在适当时选择专用分类器而不是通用分类器,因此当可能时允许对输入图像流的方面的分类更快并且更高效(相对于使用通用分类器)。因此,本文所讨论的技术通过降低分类图像流的方面所消耗的时间量来提升系统的性能。此外,本文所讨论的技术减少了对图像流的方面分类时所消耗的计算资源,从而允许这样的分类在更低功率的计算设备上被执行,从而降低了计算设备的财务成本以及计算设备的功率消耗。
图1示出了根据一个或多个实施例的基于类偏斜来实现动态分类器选择的示例分类系统100。例如,分类系统100可以在以下平台上被实现:台式计算机、服务器计算机、膝上型计算机或上网本计算机、移动设备(例如,平板计算机或平板设备、蜂窝或其他无线电话(例如,智能电话)、笔记本计算机、移动站)、可穿戴设备(例如,眼镜、头戴式显示器、手表、手镯、增强现实眼镜或耳机、虚拟现实眼镜或耳机)、娱乐设备(例如,娱乐应用、娱乐设备被通信地耦合到显示设备的机顶盒、游戏控制台)、物联网(IoT)设备(例如,具有允许与其他设备通信的软件、固件和/或硬件的对象或物品)、电视或其他显示设备、汽车用计算机等。因此,分类系统100可以在计算设备上被实现,计算设备范围从具有大量存储器和处理器资源的完整资源设备(例如,个人计算机、游戏控制台)到具有有限存储器和/或处理资源的低资源设备(例如,传统机顶盒、手持游戏控制台)。分类系统100可以在单个计算设备上被实现,或者备选地跨相同或不同类型的多个计算设备而被分布。
分类系统100包括输入模块102、输出模块104、分类器选择系统106、通用分类器108和模板存储库110。输入模块102获得包括多个不同图像的图像流112。图像流112可以是视频(例如,每个图像是视频的一帧)、静止图像序列等。输入模块102可以按照各种不同方式获得图像流112,诸如,来自视频流源(例如,经由诸如因特网、局域网(LAN)的网络),来自本地存储设备或者远离实现分类系统100的计算设备的存储设备(例如,先前记录的视频)等。
分类器选择系统106选择通用分类器108或专用分类器114以使用来对图像流112的内容的方面分类。专用分类器114通过训练来自模板存储库110的专用分类器模板而被生成。尽管单个专用分类器114在图1中被示出,但是应当注意,分类系统100可以包括多个专用分类器(例如,从相同或不同的专用分类器模板116被训练的分类器)。分类器选择系统106基于类偏斜来确定选择通用分类器108和专用分类器114中的哪个分类器,如下文更详细描述的。通用分类器108在训练数据的大型集合(大于被用来训练专用分类器的训练数据集合,如下文更详细描述的)上被训练,训练数据的大型集合包括通用分类器108被期望分类的所有(或者至少阈值量的)方面。例如,如果通用分类器正在对脸部分类,则通用分类器108在包括所有脸部的输入数据集合上被训练,该所有脸部是通用分类器108被期望识别的。
图像流的一个或多个方面被分类(由通用分类器108或者由专用分类器)。分类图像流112的方面也被称为标识或者识别图像流112的方面。图像流112的被识别或被标识的方面也被称为方面的(或图像的)类。图像流112的每个图像可以被分类为具有单个方面,或者备选地,图像流112的图像的多个方面可以被分类。这些内容的不同方面是指被包括在内容中的特征和/或对象。例如,这些内容的方面可以是人的脸部、动物、建筑物、地标、车辆、体育赛事、娱乐活动等。
输出模块104提供图像流112的方面的分类作为分类输出118。分类输出118可以被提供给实现分类系统100的计算设备的其他组件,可以被提供给其他计算设备,可以被存储到数据存储库中(例如,易失或非易失存储器设备)以用于以后使用等。输出模块104可以按照不同方式提供图像流112的方面的分类。在一个或多个实施例中,输出模块104为图像流112的每个图像提供,图像的内容的零个或多个方面的指示。附加地或备选地,输出模块104可以在图像流112的方面每次变化时提供变化的指示。输出模块104可以可选地提供各种附加的信息作为分类输出118的一部分。例如,被由通用分类器108或专用分类器标识和分类的方面(例如,特定对象)在图像中的位置可以被输出作为分类输出118的一部分。
图2示出了根据一个或多个实施例的示例分类器选择系统106。例如,分类器选择系统106是图1的分类器选择系统106。分类器选择系统106包括分类器切换确定模块202、专用分类器模板选择模块204、专用分类器训练模块206以及预测器模块208。
一般而言,分类器切换确定模块202被配置为确定:何时在使用通用分离器以对图像流的内容的多个方面来分类与使用专用分类器以对图像流的内容的多个方面来分类之间切换。专用分类器模板选择模块204被配置为选择专用分类器模板来使用以用于专用分类器。专用分类器训练模块206被配置为训练针对图像流的多个方面的特定子集的专用分类器,诸如通过重新训练多个不同专用分类器模板中的一个专用分类器模板。预测器模块208被配置为预测是否值得切换到专用分类器(例如,类偏斜被期望持续的时间是否至少有训练专用分类器被期望消耗的时间)。
分类器切换确定模块202被配置为确定:何时在使用通用分离器以对图像流的内容的多个方面来分类与使用专用分类器以对图像流的内容的多个方面来分类之间切换。在一个或多个实施例中,当分类器选择系统106开始运行分类器切换确定模块202时,选择通用分类器以对图像流的内容的方面来分类。分类器切换确定模块202监测由通用分类器生成的分类,并且确定何时存在足够的类偏斜以证明切换到使用专用分类器。
何时存在足够的类偏斜可以按照各种不同的方式而被确定,足够的类偏斜用来证明切换到使用专用分类器。各种不同的规则或准则可以被应用,诸如,在z秒的时间窗口上的百分之y的时间内,在内容中被标识出了相同的x个方面(例如,在先前60秒上的百分之85的时间内,相同的4个对象在内容中被标识出)。x、y和z的值可以按照各种方式而被确定,诸如被预配置在分类器选择系统106中,从分类器选择系统106的管理员或用户获得,由分类器选择系统106随时间学习等。如果规则或准则被满足,则那些方面(例如,相同的x个方面)支配了输入图像流。
在一个或多个实施例中,分类器切换确定模块维持由对输入图像流分类而被得到的类的累积分布函数(CDF)以用于通用分类器。单独的CDF可以类似地被维持以用于每个专用分类器,或者备选地,单个CDF可以被维持,该单个CDF对通用分类器以及每个专用分类器是公共的。分类器切换确定模块202确定,可能的类的一小部分是否“支配”了CDF。如果是,则分类器切换确定模块202确定以切换到专用分类器,该专用分类器在由这些类支配的原始数据的子集上被训练。原始数据的这一子集指被用来训练通用分类器的数据的子集。
如果CDF C的最高频率的类中的n个类至少占其权重的p分量,则分类器切换确定模块202确定是n,p-支配。例如,如果4000个可能的人中的10个人占了被识别脸部的90%,则对应的CDF将是(10,0.9)-支配。分类器切换确定模块202在CDF中检查n,p-支配。在一个或多个实施例中,分类器确定模块202采用选择n∈{7,14,21}和p∈{0.6,0.7,0.8,0.9,0.95}的方法。因此,例如,如果排名前7位的人占被识别脸部的60%,则分类器切换确定模块202确定切换为使用专用分类器,该专用分类器被专用于那七张脸部。如果n和p的值被满足,则该n个类支配CDF(并且也支配输入图像流)。
专用分类器模板选择模块204被配置为,选择专用分类器模板来使用以用于专用分类器。多个不同的专用分类器模板中的一个专用分类器模板被选择,诸如图1的专用分类器模板116中的一个专用分类器模板。在一些情况下,仅单个专用分类器模板可以存在,在这种情况下,单个专用分类器模板被选择。例如,每个专用分类器模板是专用分类器,该专用分类器尚未被训练用于支配CDF的方面的特定子集。
在一个或多个实施例中,通用分类器以及每个专用分类器由多个不同的层组成。针对更少数目的方面,浅分类器(具有更少层的分类器)可以比更深的分类器(具有更多层的分类器)更快地并且使用更少的计算资源对图像流中的内容的方面分类,但是浅分类器并不如更深的分类器可以对很多方面精确分类。因此,专用分类器模板选择模块204从中进行选择的专用分类器模板是比通用分类器更浅的模板。
专用分类器模板中不同的多个模板具有不同的深度,并且各种不同的规则或准则可以被专用分类器模板选择模块204使用,来选择专用分类器模板中的一个专用分类器模板。这些规则或准则至少部分基于类偏斜。例如,由分类器切换确定模块202确定为支配CDF的方面的数目,可以被用于确定选择哪个专用分类器模板。例如,如果少于支配CDF的方面的第一阈值数目(例如,5),则最浅的专用分类器模板被选择;如果至少是支配CDF的方面的第一阈值数目但是小于支配CDF的方面的第二阈值数目(例如,11),则下一个最浅的专用分类器模板被选择,并且如果至少是支配CDF的方面的第二阈值数目,则最深的专用分类器模板被选择。
在一个或多个实施例中,这些规则或准则在分类系统100的部署之前被凭经验地确定(例如,在终端用户的计算设备上运行分类器选择系统106之前)。具有不同深度的不同专用分类器模板将具有不同的性能特性。这些性能特性可以包括分类精度、分类速度等。分类器选择系统106的设计者或开发者可以分析针对将被分类的方面的不同数目各种不同专用分类器模板的性能;并且确定针对将被分类的方面的不同数目中的每个数目的方面,哪个专用分类器模板提供设计者或开发者期望的性能。
被用于选择专用分类器中的一个分类器的规则或准则可以附加地或备选地考虑关于计算设备或者专用分类器运行环境的各种其他因素。这些其他因素可以包括,例如,专用分类器模板是否已经被加载到计算设备的存储器中,该计算设备实现了分类器选择系统106(例如,由于将专用分类器模板加载到RAM消耗时间,专用分类器模板选择模块204偏向(选择)已经被加载到随机存取存储器的专用分类器模板,而非尚未被加载到RAM的专用分类器模板)。
这些因素还可以包括,例如,不同专用分类器模板的使用频率。专用分类器模板选择模块204可以偏向(选择)被使用更频繁的专用分类器模板,而非被使用更少的专用分类器模板,预计被更频繁使用的专用分类器模板更有可能在不久的将来再次使用,并且因此可以被保持在RAM中而不是从RAM中卸载或者从RAM页面调出。
这些因素还可以包括,例如,不同专用分类器模板的资源使用。这可以可选地包括:运行专用分类器的计算设备的当前功率状态(例如,计算设备是否以高功率模式或节省功率模式进行操作),设备的电池中剩余的电量等。专用分类器模板选择模块204可以偏向(例如,选择),使用更少资源的专用分类器模板,而非使用更多资源(例如,计算功率)的专用分类器模板,以便在运行专用分类器的计算设备中降低能量使用。
专用分类器训练模块206被配置为,训练针对多个方面的特定子集的专用分类器。多个方面的该特定子集由被分类器切换确定模块202确定为支配CDF的方面组成。在一个或多个实施例中,专用分类器训练模块206被配置为,重新训练多个不同的专用分类器模块中的一个模块,以生成针对多个方面的特定子集的专用分类器。
在一个或多个实施例中,每个专用分类器模板在使得专用分类器模板可用于选择之前,被训练以对特定数目的方面分类(例如,在将专用分类器模板放置在图1的模板存储库110中之前)。这可以是通用分类器被训练以分类的多个方面的子集,或者可以是通用分类器被训练以分类的所有的方面。本文中专用分类器的训练也可以被称为专用分类器模板的重新训练。
专用分类器基于所选择的专用分类器模板被训练。在一个或多个实施例中,专用分类器模板包括如上所述的多个层,具有通常表示关于方面的特定类型的事实或数据的较低层,以及在相同类型的不同方面之中进行区分的顶层。这些类型的方面可以是图像内容的不同特性,诸如,脸部、建筑物、地标等。例如,分类系统可以被用于标识图像内容中的不同脸部。专用分类器的较低层通常表示关于脸部的事实或数据(以将脸部与内容的其他对象或特征区别),以及顶层在不同的脸部之中区分。
在一个或多个实施例中,当训练专用分类器时,分类器的顶层基于方面的子集被重新训练,该方面的子集被分类器切换确定模块202确定为支配CDF。例如,如果七张脸部支配了CDF,则专用分类器通过重新训练所选择的专用分类器模板的顶层来在这七张脸部之中进行区分,而被训练。在该示例中,专用分类器模板的较低层通常表示关于脸部的事实或数据,并且运行以提供到顶层的输入,但是较低层不需要被重新训练,因为是相同类型的方面(例如,脸部)被分类。仅重新训练专用分类器模板的顶层,允许:如果专用分类器模板的所有层都被训练,与之相比,专用分类器模板被更快地重新训练。
在一个或多个实施例中,专用分类器模板在专用分类器模板被专用分类器模板选择模块206使用之前运行。专用分类器模板可以被使用各种不同输入图像运行(例如,被用于训练通用分类器的相同图像或图像的子集)。那些较低层的结果(数据输出)可以被保存。然后,专用分类器训练模块206访问被保存的数据,并且使用该数据以及包括支配CDF的方面的图像,并且促使分类器切换确定模块202确定切换到专用分类器,以训练专用分类器的顶层。因此,不是重新运行整个专用分类器模板,专用分类器可以通过以下而被生成:仅运行专用分类器模板的顶层,并且使用先前从针对较低层的专用分类器模板的先前运行中保存的数据。
备选地,不是仅重新训练所选择的专用分类器模板的顶层,较低层中的一个或多个层也可以被重新训练。
被专用分类器训练模块206训练的每个专用分类器因此利用多个方面的类偏斜,专用分类器被训练用于该多个方面。例如,被训练以对五个特定方面的子集分类的专用分类器,利用该专用分类器需要仅在五个不同的方面而不是更多的方面之中进行区分的事实(例如,通用分类器可能在数千方面之中进行区分)。
专用分类器被训练以在方面(例如,七张脸部)的特定子集之中进行区分,以及对方面的特定子集分类。然而,可能出现专用分类器不能标识特定方面的情况(例如,包括在图像中的脸部不是专用分类器被训练用于的七张脸部之一)。在这种情况下,专用分类器输出指示(例如,“其他”的分类),该指示:指示专用分类器不能分类该方面。响应于该指示,通用分类器分析和分类图像的方面。
在一个或多个实施例中,通用分类器以及每个专用分类器(和专用分类器模板)被实现为深度神经网络。深度神经网络是包括输入层和输出层的人工神经网络。输入层接收作为输入的图像流的图像,输出层提供图像的一个或多个方面的分类,以及在输入层与输出层之间的多个隐含层,对图像执行各种分析以生成分类(标识方面)。分类器可以备选地被实现为各种其他类型的分类器中的任何一种分类器。例如,分类器可以使用以下的方法而被实现:各种不同聚类算法中的任何一种,各种回归算法中的任何一种,各种序列标记算法中的任何一种,如决策树等。不同的分类器可以按照相同方式或备选地以不同方式而被实现。例如,一个或多个专用分类器可以使用,通用分类器之外的其他类型分类器而被实现。
图3示出了根据一个或多个实施例的通用分类器和专用分类器的使用以及在两者之间切换的示例300。在示例300中,如302所示,通用分类器304被用于对输入图像流306的方面分类。通用分类器304生成分类输出308,分类输出308标识了输入图像流306的方面的分类。通用分类器304可以是图1的通用分类器108,图像流306可以是图1的图像流112,并且分类输出308可以是图1的分类输出118。
响应于确定切换到专用分类器,专用分类器322被训练为在方面的特定子集之中区分,通用分类器304在该方面之中区分。专用分类器322可以是基于图1的专用分类器模板116而被训练的专用分类器(例如,专用分类器322可以是图1的专用分类器114)。如320所示,专用分类器322生成分类输出308,分类输出308标识方面的特定子集中的一个子集的分类,专用分类器322被训练用于方面的该特定子集。如果专用分类器322不能标识图像的方面的分类,则专用分类器322输出这样的指示(例如,“其他”的分类)。响应于专用分类器不能标识图像的方面的分类的指示,控制模块324允许该图像被提供给通用分类器304。然后,通用分类器304生成分类输出308,分类输出308标识输入图像流的方面的分类。
因此,如在示例300中可见的,当使用专用分类器322时,专用分类器322与通用分类器304被链接在一起。专用分类器322操作以快速地对输入图像流306的方面分类,但是如果专用分类器322不能对输入图像流306的方面分类,则通用分类器304被用于对该方面分类。这可以继续用于任何持续时间,专用分类器322对其能够分类的方面分类,并且通用分类器304被用于对专用分类器322不能分类的方面分类。
备选地,专用分类器322和通用分类器304可以不被链接在一起。在这种情况下,分类输出118是专用分类器322的输出,并且该输出可以是专用分类器322不能对图像的方面的分类进行标识的指示。
回到图2,分类器切换确定模块202也确定何时从使用专用分类器切换离开。通常,分类器切换确定模块202确定从专用分类器切换到通用分类器,但是可以备选地切换到另一专用分类器。各种不同规则或准则中的任何一个可以被用于确定何时从专用分类器切换到通用分类器(或不同的专用分类器)。
在一个或多个实施例中,分类器切换确定模块202响应于条件,确定从专用分类器切换离开,并且切换到通用分类器,该条件促使分类器切换确定模块202切换到不再存在的专用分类器。例如,分类器切换确定模块202保持类的CDF,该类由专用分类器对输入图像流分类而被得到。如果专用分类器的的CDF指示:支配用于通用分类器的CDF的方面的子集,不再支配用于专用分类器的CDF;则分类器切换确定模块切换到使用通用分类器。
预测器模块208被配置为预测是否值得切换到专用分类器,例如,类偏斜是否被期望持续足够的时间量(例如,比训练专用分类器被期望消耗的时间更长)。如果类偏斜被预测为持续比访问专用分类器所花费时间更短的持续时间,则类偏斜将可能在使用专用分类器之前消失,并且专用分类器不再能利用该类偏斜。在这种情况下,分类器切换确定模块202确定不切换到专用分类器。
预测器模块28可以使用各种不同规则或准则中的任何一种而被实现,各种不同的规则或准则用于确定的类偏斜是否被期望至少持续阈值时间量。这种预测可以通过分析,来自图像流112的先前类偏斜以及其持续时间来完成(例如,特定类偏斜或特定数目方面的特定支配水平持续多长时间)。
这种预测还可以通过分析与用户和/或实现分类系统的计算设备有关的各种其他信息而被完成。例如,如果用户使他或她的日历对预测器模块208可访问,则预测器模块208可以分析用户的日历来预测类偏斜的持续时间。例如,如果在特定数目的方面被检测到时用户正处于会议中,并且根据用户的日历,会议被预定为运行20分钟,则预测器模块208可以确定类偏斜被期望持续大约20分钟(或者,如果训练专用分类器花费15秒,则该类偏斜被期望持续至少15秒)。
在一个或多个实施例中,分类器选择系统106被设计为将训练专用分类器的开销保持为小于阈值时间量(例如,5秒)。因此,与系统可以花费一个或多个小时来训练专用分类器相反,本文所讨论的技术允许分类器选择系统106在持续较短时间量(例如,若干分钟)的很多不同场景中利用专用分类器。
尽管所讨论为分类器选择系统106以通用分类器开始运行,但是备选地,当分类器选择系统106开始运行时,分类器切换确定模块202可以选择专用分类器来对图像的内容的方面分类。该专用分类器可以先前已经被训练或者生成。然后,分类器选择系统106可以如上所述确定,何时切换到通用分类器(或另一专用分类器)。
附加地,尽管专用分类器训练模块206在本文中被讨论为训练专用分类器,但是在一个或多个实施例中,专用分类器的缓存或存储库可以可选地被分类器选择系统106维持。针对方面的特定子集被训练的每个专用分类器可以被分类器选择系统106维持一些时间(例如,若干小时,若干天或者无限期)。如果分类器切换确定模块202检测到,方面的同一特定子集正在支配CDF,则分类器切换确定模块202可以切换到使用该先前训练的、并且缓存/存储库的专用分类器,而不是具有基于专用分类器模板被专用分类器训练模块206训练的专用分类器。附加地或者备选地,专用分类器的缓存或存储库包括其他方式预先训练(例如,通过分类器选择系统106或一些其他系统)并且维持在缓存或存储库中的一个或多个专用分类器。分类器切换确定模块202可以类似地,使用这些其他方式预先训练的专用分类器,而不是具有基于专用分类器模板被专用分类器训练模块206训练的专用分类器。
图4是示出了根据一个或多个实施例的基于类偏斜来实现动态分类器选择的示例过程400的流程图。过程400由分类器选择系统执行,诸如,图1或图2的分类器选择系统106。过程400可以按照软件、固件、硬件或其组合而被实现。过程400被示出为动作的集合,并且不限于所示的用于执行各种动作的操作的顺序。过程400是基于类偏斜来实现动态分类器选择的示例过程,包括在本文中的基于类偏斜来实现动态分类器选择的附加讨论参考不同的附图。
在过程400中,图像流中的一个或多个图像被接收(动作402)。图像流可以如上文讨论从各种本地和/或远程资源被获得。应当注意,在接收到帧(例如,图像)时,过程400可以在逐个帧(例如,逐个图像)的基础上操作,或者与帧(例如,图像)组一起操作。过程400在对图像流中图像的方面分类之前,不需要等待全部图像流。
确定被做出:专用分类器是否可以被用来对接收的图像流的内容的多个方面的子集分类(动作404)。该确定如上文所述,基于各种不同的规则或准则被做出。例如,如果方面的特定子集支配CDF,并且类偏斜被预测为持续至少阈值时间量,则切换到使用专用分类器的确定可以被做出。
来自图像流的新图像被接收(动作406),并且过程400基于专用分类器是否处于使用中而继续(动作408)。在确定专用分类器可以在动作404中被使用的情况下,专用分类器处于使用中。
如果专用分类器不处于使用中,则通用分类器被用于分类新图像中的方面(动作410)。
统计基于分类结果(来自通用分类器)被更新(动作412)。被图2的分类器切换确定模块202使用来确定何时在使用通用分类器(对图像流的内容的多个方面分类)与使用专用分类器(对图像流的内容的多个方面分类)之间切换的各种不同统计中的任何一种,可以在动作412中被更新。例如,这些统计可以包括方面被分类在哪个类中。
然后,过程400回到动作404,以确定专用分类器是否可以被用来对接收的图像流的内容的多个方面的子集分类。可以被使用的专用分类器是否可以变化,并且通常上,可以被使用的分类器基于在动作412中更新的统计随时间变化。
返回到动作408,如果专用分类器处于使用中,则专用分类器被访问以分类多个方面的特定子集(动作414)。多个方面的特定子集是,例如,支配输入图像流的方面。在一个或多个实施例中,专用分类器通过被训练而被访问。例如,训练是如上所述的专用分类器模板的重新训练。附加地或备选地,专用分类器被以其他方式访问,诸如,通过被检索到或者其他方式被从存储库或缓存获得,通过已经在存储器(例如,RAM)中,诸如由于使用该专用分类器以对图像流的先前图像中的多个方面分类等。
专用分类器被用于对新图像中多个方面的特定子集分类(动作416)。
附加地,通用分类器被用来对新图像中的方面分类(动作418),专用分类器不能对新图像中的该方面分类。如上所述,专用分类器和通用分类器被链接在一起,因此如果图像的方面不能被专用分类器分类(例如,由于该专用分类器未被训练以对该方面分类),则通用分类器对图像的该方面分类。
统计基于分类结果(来自专用分类器或通用分类器)被更新(动作412)。然后,过程400返回到动作404,以确定专用分类器是否可以被用来对接收的图像流的内容的多个方面的子集分类。
过程400可以针对图像流而被重复,从而使得系统在图像流被接收时,随着时间在通用分类器与一个或多个训练的专用分类器之间切换。
本文所讨论的技术支持各种不同的使用情景。例如,图像流可以被捕捉一整天以用于用户,提供用户一天的视频。用户可能倾向于看到在他或她工作的90%的时间内相同的10个人,而在工作时其他人很少被看到。因此,专用分类器可以在他或她工作时被训练并且被用于用户,从而减少(大约90%的时间内用户在工作)对他或她在工作时偶遇的人分类中所花费的时间量以及消耗的计算资源。类似地,在他或她的客厅中的对象是他或她的生活中所使用的物体的一小部分。因此,当他或她处于他或他的客厅中时,专用分类器可以被训练并且用于用户,从而减少用户处于他或她的客厅中时对对象分类所花费的时间量以及消耗的计算资源。作为另一示例,用户在商场购物时访问的地点是用户在他或她的日常生活中可能访问的所有地方的一小部分。因此,当他或她在商场中,专用分类器可以被训练并且用于用户,从而减少用户在商场中时对地方分类所花费的时间量以及消耗的计算资源。
尽管本文参考特定模型讨论了特定功能,但是应当注意,本文所讨论的单个模块的功能可以被分开到多个模块中,和/或多个模块的至少一些功能可以被组合到单个模块中。附加地,本文讨论的特定模块执行动作包括,特定模块本身执行动作,或者备选地该特定模块调用或以其他方式访问执行动作的另一组件或模块(或者与该特定模块结合执行动作)。因此,特定模块执行动作包括,该特定模块本身执行动作和/或另一模块被执行动作的该特定模块调用或者被以其他方式访问。
图5在500处总体上示出了的示例系统,该示例系统包括示例计算设备502,示例计算设备502是可以实现本文所述各种技术的一个或多个系统和/或设备的代表。例如,计算设备502可以是服务提供商的服务器、与客户端(例如,客户端设备)相关联的设备、片上系统、和/或任何其他合适的计算设备或计算系统。
所示的示例计算设备502包括:处理系统204、一个或多个计算机可读介质506以及被通信地相互耦合的一个或多个I/O接口508。尽管未示出,但是计算设备502可以进一步包括系统总线,或者将各种组件彼此耦合的其他数据和命令传输系统。系统总线可以包括不同总线结构的任何一个或者不同总线结构的组合,诸如,存储器总线或存储器控制器、外围总线、通用串行总线、和/或利用各种总线架构中的任何一种的处理器或本地总线。各种其他示例也被构想到,诸如,控制和数据线。
处理系统504表示使用硬件执行一个或多个操作的功能。相应地,处理系统504被示出为包括,可以被配置为处理器、功能块等的硬件元件510。这可以包括硬件中的实现方式为专用集成电路或被使用一个或多个半导体形成的其他逻辑设备。硬件元件510不受形成硬件元件510的材料或者其中采用的处理机制的限制。例如,处理器可以由(多个)半导体/或晶体管(例如,电子集成电路(IC))组成。在这种上下文中,处理器可执行指令可以是电子可执行指令。
计算机可读介质506被示出为包括存储器/存储装置512。存储器/存储装置512表示与一个或多个计算机可读介质相关联的存储器/存储装置容量。存储器/存储装置512可以包括易失性介质(诸如,随机存取存储器(RAM))和/或非易失性介质(诸如,只读存储器(ROM)、闪存、光盘、磁盘等)。存储器/存储装置512可以包括固定介质(例如,RAM、ROM、固定硬盘等)以及可移动介质(例如,闪存、可移动硬盘、光盘等)。计算机可读介质506可以按照如下文进一步被描述的各种其他方式而被配置。
一个或多个输入/输出接口508表示以下功能:允许用户将命令和信息输入到计算设备502,并且还允许信息被呈现给用户和/或使用各种输入/输出设备的其他组件或设备。输入设备的示例包括:键盘、光标控制设备(例如,鼠标)、麦克风(例如,用于语音输入)、扫描仪、触摸功能(例如,被配置为检测物理触摸的电容或其他传感器)、相机(例如,其可以采用诸如红外频率的可见或不可见波长来检测不涉及作为手势的触摸的移动)等。输出设备的示例包括:显示设备(例如,监视器或投影仪)、扬声器、打印机、网卡、触觉响应设备等。因此,计算设备502可以按照如下文进一步描述的各种方式而被配置以支持用户交互。
计算设备502还包括分类系统514。分类系统514如上文所述,对输入图像流的不同部分分类。分类系统514可以是,例如图1的分类系统100。
本文中,各种技术可以是在软件、硬件元件、或程序模块的一般上下文中被描述。总体上,这种模块包括执行特定任务或者实现特定抽象数据类型的:例程、程序、对象、元件、组件、数据结构等。在本文中被使用的术语:“模块”、“功能”以及“组件”,通常表示软件、固件、硬件、或者其组合。本文所述技术的特征是平台独立的,意味着该技术可以在具有各种处理器的各种计算平台上被实现。
所述模块和技术的实现方式可以被存储在某些形式的计算机可读介质上,或者跨某些形式的计算机可读介质被传输。计算机可读没介质可以包括可以由计算设备502访问的各种介质。通过示例并且非限制的方式,计算机可读介质可以包括“计算机可读存储介质”和“计算机可读信号介质”。
“计算机可读存储介质”是指能够持久存储有形信息和/或存储的介质和/或设备,与仅信号传输,载波,或者信号本身相反。因此,计算机可读存储介质是指,非信号承载介质。计算机可读存储介质包括硬件,诸如,以适于存储信息的方法或技术实现的易失和非易失、可移动和非可移动的存储设备,该信息诸如,计算机可读指令、数据结构、程序模块、逻辑元件/电路、或者其他数据。计算机可读存储介质的示例可以包括、但不限于:RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字通用盘(DVD)或其他光存储装置、硬盘,磁带盒、磁带、磁盘存储装置或其他磁存储设备、或者适用于存储所需信息并且可以由计算机访问的其他存储设备,有形介质或制品。
“计算机可读信号介质”是指信号承载介质,信号承载介质被配置为将指令传输给计算设备502的硬件,诸如经由网络。信号介质通常可以体现计算机可读指令、数据结构、程序模块、或者被调制的数据信号(诸如载波、数据信号、或其他传输机制)中的其他数据。信号介质还包括任何信息传递介质。术语“被调制的数据信号”意味着:具有以编码信号中信息的这种方式设置或改变其特征集中的一个或多个特征的信号。通过示例并且非限制的方式,通信介质包括有线介质,诸如有线网络或直接布线连接(direct-wired connection),以及无线介质,诸如声、RF、红外以及其他无线介质。
如先前所述,硬件元件512和计算机可读介质506表示:可以在一些实施例中被采用以实现本文所述技术中至少一些方面的指令、模块、以硬件形式被实现的可编程设备逻辑和/或固定设备逻辑。硬件元件可以包括以下的组件:集成电路或者片上系统、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、复杂可编程逻辑设备(CPLD)以及硅或者其他硬件设备中的其他实现方式。在该上下文中,硬件元件可以操作为执行由指令、模块和/或逻辑定义的程序任务的处理设备,指令、模块和/或逻辑由硬件元件以及被用于存储用于执行的指令的硬件设备(例如,前述的计算机可读存储介质)体现。
前述的组合也可以被采用以实现本文所述的各种技术和模块。相应地,软件、硬件、或程序模块以及其他程序模块可以被实现为,一个或多个指令,和/或在某些形式的计算机可读存储介质上被体现的逻辑,和/或被一个或多个硬件元件510实现。计算设备205可以被配置为实现,与软件和/或硬件模块对应的特定指令和/或功能。相应地,作为可由计算设备502作为软件来执行的模块的模块的实现方式,可以至少部分地以硬件来达成,例如,通过使用处理系统的计算机可读存储介质和/或硬件元件510。指令和/或功能可以由一个或多个制品(例如,一个或多个计算设备502和/或处理系统504)可执行/操作以实现本文所述的技术、模块、和示例。
如图5中进一步所示的,示例系统500在下述设备上运行应用时,实现了用于无缝用户体验的遍及环境(ubiquitous environments):个人计算机(PC)、电视设备、和/或移动设备。当在使用应用、玩视频游戏、观看视频等的同时从一个设备转移到下一个设备时,服务和应用在所有三个环境中基本类似地运行,以用于公共用户体验。
在示例系统500中,多个设备通过中央计算设备被相互连接。中央计算设备可以是多个设备的本地设备,或者可以被定位远离多个设备。在一个或多个实施例中,中央计算设备可以是一个或多个服务器计算机的云,该云通过网络、因特网、或者其他数据通信链路被连接到多个设备。
在一个或多个实施例中,这种互联架构实现功能跨多个设备被传递,以向多个设备的用户提供公共和无缝的体验。多个设备中的每个设备可以具有不同的物理要求和能力,并且中央计算设备使用平台来实现到设备的体验传递,该体验既适合于该设备又对所有设备通用。在一个或多个实施例中,目标设备类被创建,并且体验被适应于设备的通用类。设备类可以由物理特征、使用类型、或者设备的其他公共特征定义。
在各种实现方式中,计算设备502可以采用各种不同的配置,诸如用于,计算机516、移动电话518以及电视520使用。这些配置中的每个配置包括,可以通常具有不同的构造和能力的设备,并且因此,计算设备502可以根据不同设备类中的一个或多个类而被配置。例如,计算设备502可以被实现为设备的计算机516类,包括个人计算机、台式计算机、多屏幕计算机、膝上计算机、上网本等。
计算设备502还可以被实现为设备的移动电话518类,包括移动设备,诸如移动电话、便携式音乐播放器、便携式游戏设备、平板计算机、多屏幕计算机等。计算设备502还可以被实现为设备的电视520类,包括具有或者在休闲观看环境中连接到通常较大屏幕的设备。这些设备包括电视、机顶盒、游戏控制台等。
本文所述技术可以通过计算设备502的这些各种配置而被支持,并且不限于本文所述技术的专用示例。这些功能还可以通过使用分布式系统被全部或部分地实现,诸如,如下文所述经由平台524通过“云”522。
云522包括和/或表示资源526的平台524。平台524对云522的硬件(例如,服务器)和软件资源的底层功能进行抽象。资源526可以包括应用/数据,当计算机处理在远离计算设备502的服务器上被执行时,应用/数据可以被使用。资源526还可以包括,通过因特网和/或通过订户网络(诸如,蜂窝或Wi-Fi网络)被提供的服务。
平台524可以对资源和功能进行抽象,以将计算设备502与其他计算设备连接。平台524还可以用于对资源的缩放进行抽象,以将对应水平的缩放提供给经由平台524而被实现的对资源524的遇到的需求。相应地,在互连设备实施例中,本文所述的功能的实现方式可以被分布在整个系统500中。例如,功能可以部分地在计算设备502上以及经由抽象云522的功能的平台524而被实现。
在本文的讨论中,各种不同的实施例被描述。应当理解和了解,本文所述的每个实施例可以单独地被使用,或者与本文所述的一个或多个其他实施例结合地被使用。本文所述的技术的其他方面涉及以下实施例中的一个或多个实施例。
一种方法,包括:接收图像流;确定专用分类器何时能够被用来对图像流的内容的多个方面的子集分类,专用分类器利用多个方面的子集的类偏斜,该确定包括标识多个方面的子集何时支配图像流;访问专用分类器以对多个方面的子集分类;以及使用专用分类器而不是通用分类器来对图像流的后续图像中多个方面的子集分类。
以下中的任何一种或组合,作为上述方法的任何一种的备选或补充:方法还包括,响应于专用分类器不能够对图像流的特定后续图像中的内容的一个或多个方面分类,针对特定后续图像,使用通用分类器来对特定后续图像中的内容的一个或多个方面分类;访问专用分类器包括训练专用分类器;训练包括,从多个专用分类器模板的存储库获得专用分类器模板,获得的专用分类器模板包括多个层,使用包括多个方面的子集的图像来重新训练获得的专用分类器模板的顶层,以及当多个层中的顶层以下的层存在于获得的专用分类器模板中时,使用这些层;多个层中的顶层以下的层在图像流的接收之前,已经被训练用于在专用分类器模板中使用;确定还包括,访问多个专用分类器模板的存储库,基于多个方面的子集,来选择多个专用分类器模板中的一个专用分类器模板,以及,使用多个专用分类器模板中的选择的一个专用分类器模板作为专用分类器以对多个方面的子集分类;选择包括,确定多个方面的类偏斜,确定多个方面的子集中的方面的数目,至少部分地基于多个方面的类偏斜以及多个方面的子集中的方面的数目,来选择多个专用分类器模板中的一个专用分类器模板,针对特定类偏斜以及多个方面的子集中的方面的特定数目,选择多个专用分类器模板中的哪个专用分类器模板在图像流的接收之前已经被预先确定;确定还包括,预测多个方面的类偏斜将持续多久,响应于类偏斜被预测为至少持续与访问专用分类器以对多个方面的子集分类被期望花费的时间量一样久,确定专用分类器能够被用来对多个方面的子集分类,以及响应于类偏斜被预测为持续少于访问专用分类器以对多个方面的子集分类被期望花费的时间量,确定专用分类器将不会被用来对多个方面的子集分类;通用分类器包括第一深度神经网络,并且专用分类器包括第二深度神经网络,第二深度神经网络比第一深度神经网络浅;方法还包括,确定专用分类器的使用何时将停止,以及变为使用所述通用分类器而不是所述专用分类器来对在专用分类器的使用将停止的确定之后的、图像流的图像中的多个方面的子集分类。
一种分类系统,包括:通用分类器,其被配置为对图像流的内容的多个方面分类;模板存储库,其包括多个不同的专用分类器模板,专用分类器模板中的每个专用分类器模板被配置为对多个方面的子集分类;以及分类器选择系统,其被配置为,重新训练多个不同的专用分类器模板中的一个专用分类器模板以生成用于多个方面的特定子集的专用分类器,以及确定,何时在使用通用分类器以对图像流的内容的多个方面分类与使用专用分类器以对图像流的内容的多个方面分类之间切换。
以下中的任何一种或组合,作为上述计算设备的任何一种的备选或补充:分类器选择系统还被配置为,从模板存储库获得专用分类器模板,获得的专用分类器模板包括多个层,使用包括多个方面的特定子集的图像,来重新训练获得的专用分类器模板的顶层,在多个层中的顶层以下的层存在于获得的专用分类器模板中时,使用这些层;分类器选择系统还被配置为,预测多个方面的类偏斜将持续多久,响应于类偏斜被预测为至少持续与训练专用分类器以对多个方面的特定子集分类被期望花费的时间量一样久,确定专用分类器能够被用来对多个方面的特定子集分类,以及响应于类偏斜被预测为持续少于训练专用分类器以对多个方面的特定子集分类被期望花费的时间量,确定所述专用分类器将不被用来对多个方面的特定子集分类;通用分类器包括第一深度神经网络,并且专用分类器包括第二深度神经网络,第二深度神经网络比第一深度神经网络浅;分类器选择系统还被配置为,确定专用分类器的使用何时将停止;以及变为使用通用分类器而不是专用分类器来对在专用分类器的使用将停止的确定之后的、图像流的图像中的多个方面的特定子集分类。
一种计算设备,包括:一个或多个处理器;以及计算机可读存储介质,其上存储有多个指令,该多个指令响应于由一个或多个处理器执行,使得一个或多个处理器执行动作,这些动作包括:获得图像流;确定专用分类器何时能够被用来对图像流的内容的多个方面的特定子集分类,专用分类器利用多个方面的特定子集的类偏斜,该确定包括标识多个方面的特定子集何时支配图像流;访问专用分类器以对多个方面的特定子集分类;以及使用专用分类器而不是通用分类器来对图像流的后续图像中多个方面的特定子集分类。
以下中的任何一种或组合,作为上述计算设备的任何一种的备选或补充:访问包括从多个专用分类器模板的存储库获得专用分类器模板,获得的专用分类器模板包括多个层,使用包括多个方面的特定子集的图像来重新训练获得的专用分类器模板的顶层,以及当多个层中的顶层以下的层存在于获得的专用分类器模板中时,使用这些层;确定还包括访问多个专用分类器模板的存储库,基于多个方面的子特定集来选择多个专用分类器模板中的一个专用分类器模板,以及使用多个专用分类器模板中的选择的一个专用分类器模板作为专用分类器以对多个方面的特定子集分类;确定还包括预测多个方面的特定子集的类偏斜将持续多久,响应于类偏斜被预测为至少持续与访问专用分类器以对多个方面的特定子集分类被期望花费的时间量一样久,确定专用分类器能够被用来对多个方面的特定子集分类,以及响应于类偏斜被预测为持续少于访问专用分类器以对多个方面的特定子集分类被期望花费的时间量,确定专用分类器将不会被用来对多个方面的特定子集分类;动作还包括确定专用分类器的使用何时将停止,以及变为使用所述通用分类器而不是所述专用分类器来对在专用分类器的使用将停止的确定之后的、图像流的图像中的多个方面的特定子集分类。
尽管用结构特征和/或方法动作专用的语言描述了本主题,但是应当理解,所附权利要求书中定义的主题不必限于上述具体特征或动作。相反,上文所述的具体特征和动作被公开作为实现权利要求的示例形式。
Claims (18)
1.一种方法,包括:
接收图像流;
确定专用分类器何时能够被用来对所述图像流的内容的多个方面的子集分类,所述专用分类器利用所述多个方面的所述子集的类偏斜,所述确定包括标识所述多个方面的所述子集何时支配所述图像流;
访问所述专用分类器以对所述多个方面的所述子集分类;
使用所述专用分类器而不是通用分类器来对所述图像流的后续图像中所述多个方面的所述子集分类;
确定所述专用分类器的使用何时将停止;以及
变为使用所述通用分类器而不是所述专用分类器来对在所述专用分类器的使用将停止的所述确定之后的、所述图像流的图像中的所述多个方面的所述子集分类。
2.根据权利要求1所述的方法,还包括:
响应于所述专用分类器不能够对所述图像流的特定后续图像中的内容的一个或多个方面分类,针对所述特定后续图像,使用所述通用分类器来对所述特定后续图像中的内容的所述一个或多个方面分类。
3.根据权利要求1所述的方法,所述访问所述专用分类器包括训练所述专用分类器。
4.根据权利要求3所述的方法,所述训练包括:
从多个专用分类器模板的存储库获得专用分类器模板,获得的所述专用分类器模板包括多个层;
使用包括所述多个方面的所述子集的图像,来重新训练获得的所述专用分类器模板的顶层;以及
当所述多个层中的所述顶层以下的层存在于获得的所述专用分类器模板中时,使用所述层。
5.根据权利要求4所述的方法,所述多个层中的所述顶层以下的所述层在所述图像流的接收之前,已经被训练用于在所述专用分类器模板中使用。
6.根据权利要求1所述的方法,所述确定还包括:
访问多个专用分类器模板的存储库;
基于所述多个方面的所述子集,来选择所述多个专用分类器模板中的一个专用分类器模板;以及
使用所述多个专用分类器模板中的选择的所述一个专用分类器模板作为所述专用分类器以对所述多个方面的所述子集分类。
7.根据权利要求6所述的方法,所述选择包括:
确定所述多个方面的所述类偏斜;
确定所述多个方面的所述子集中的方面的数目;以及
至少部分地基于所述多个方面的所述类偏斜以及所述多个方面的所述子集中的方面的所述数目,来选择所述多个专用分类器模板中的一个专用分类器模板,针对特定类偏斜以及所述多个方面的所述子集中的方面的特定数目选择所述多个专用分类器模板中的哪个专用分类器模板在所述图像流的接收之前已经被预先确定。
8.根据权利要求1所述的方法,所述通用分类器包括第一深度神经网络,并且所述专用分类器包括第二深度神经网络,所述第二深度神经网络比所述第一深度神经网络浅。
9.一种方法,包括:
接收图像流;
确定专用分类器何时能够被用来对所述图像流的内容的多个方面的子集分类,所述专用分类器利用所述多个方面的所述子集的类偏斜,所述确定包括标识所述多个方面的所述子集何时支配所述图像流以及预测所述类偏斜将持续多久;
响应于所述类偏斜被预测为至少持续与访问所述专用分类器以对所述多个方面的所述子集分类被期望花费的时间量一样久:
确定所述专用分类器能够被用来对所述多个方面的所述子集分类,
访问所述专用分类器以对所述多个方面的所述子集分类,以及
使用所述专用分类器而不是通用分类器来对所述图像流的后续图像中所述多个方面的所述子集分类;以及
响应于所述类偏斜被预测为持续少于访问所述专用分类器以对所述多个方面的所述子集分类被期望花费的时间量,确定所述专用分类器将不被用来对所述多个方面的所述子集分类。
10.根据权利要求9所述的方法,确定所述专用分类器何时能够被使用包括:
确定所述类偏斜;
确定所述多个方面的所述子集中的方面的数目;
至少部分地基于所述多个方面的所述类偏斜以及所述多个方面的所述子集中的方面的所述数目,来从多个专用分类器模板的存储库选择所述多个专用分类器模板中的一个专用分类器模板;以及
使用所述多个专用分类器模板中的选择的所述一个专用分类器模板作为所述专用分类器以对所述多个方面的所述子集分类。
11.一种分类系统,包括:
通用分类器,所述通用分类器被配置为对图像流的内容的多个方面分类;
模板存储库,所述模板存储库包括多个不同的专用分类器模板,所述专用分类器模板中的每个专用分类器模板被配置为对所述多个方面的子集分类;以及
分类器选择系统,所述分类器选择系统被配置为:重新训练所述多个不同的专用分类器模板中的一个专用分类器模板以生成用于所述多个方面的特定子集的专用分类器,以及确定,何时在使用所述通用分类器以对所述图像流的内容的所述多个方面分类与使用所述专用分类器以对所述图像流的内容的所述多个方面的所述特定子集分类之间切换,
其中所述分类器选择系统还被配置为确定所述专用分类器的使用何时将停止,以及变为使用所述通用分类器而不是所述专用分类器来对在所述专用分类器的使用将停止的确定之后的、所述图像流的图像中的所述多个方面的所述特定子集分类。
12.根据权利要求11所述的分类系统,所述分类器选择系统还被配置为:
从所述模板存储库获得专用分类器模板,获得的所述专用分类器模板包括多个层;
使用包括所述多个方面的所述特定子集的图像,来重新训练获得的所述专用分类器模板的顶层;以及
在所述多个层中的所述顶层以下的层存在于获得的所述专用分类器模板中时,使用所述层。
13.根据权利要求11所述的分类系统,所述分类器选择系统还被配置为:
预测所述多个方面的类偏斜将持续多久;
响应于所述类偏斜被预测为至少持续与训练所述专用分类器以对所述多个方面的所述特定子集被期望花费的时间量一样久,确定所述专用分类器能够被用来对所述多个方面的所述特定子集分类;以及
响应于所述类偏斜被预测为持续少于训练所述专用分类器以对所述多个方面的所述特定子集分类被期望花费的时间量,确定所述专用分类器将不被用来对所述多个方面的所述特定子集分类。
14.根据权利要求11所述的分类系统,所述通用分类器包括第一深度神经网络,并且所述专用分类器包括第二深度神经网络,所述第二深度神经网络比所述第一深度神经网络浅。
15.一种计算设备,包括:
一个或多个处理器;以及
计算机可读存储介质,其具有被存储于其上的多个指令,所述多个指令响应于由所述一个或多个处理器的执行,使得所述一个或多个处理器执行动作,所述动作包括:
获得图像流;
确定专用分类器何时能够被用来对所述图像流的内容的多个方面的特定子集分类,所述专用分类器利用所述多个方面的所述特定子集的类偏斜,所述确定包括标识所述多个方面的所述特定子集何时支配所述图像流;
访问所述专用分类器以对所述多个方面的所述特定子集分类;
使用所述专用分类器而不是通用分类器来对所述图像流的后续图像中所述多个方面的所述特定子集分类;
确定所述专用分类器的使用何时将停止;以及
变为使用所述通用分类器而不是所述专用分类器来对在所述专用分类器的使用将停止的所述确定之后的、所述图像流的图像中的所述多个方面的所述特定子集分类。
16.根据权利要求15所述的计算设备,所述访问包括:
从多个专用分类器模板的存储库获得专用分类器模板,获得的所述专用分类器模板包括多个层;
使用包括所述多个方面的所述特定子集的图像,来重新训练获得的所述专用分类器模板的顶层;以及
当所述多个层中的所述顶层以下的层存在于获得的所述专用分类器模板中时,使用所述层。
17.根据权利要求15所述的计算设备,所述确定还包括:
访问多个专用分类器模板的存储库;
基于所述多个方面的所述特定子集,来选择所述多个专用分类器模板中的一个专用分类器模板;以及
使用所述多个专用分类器模板中的选择的所述一个专用分类器模板作为所述专用分类器以对所述多个方面的所述特定子集分类。
18.根据权利要求15所述的计算设备,所述确定还包括:
预测所述多个方面的所述特定子集的所述类偏斜将持续多久;
响应于所述类偏斜被预测为至少持续与访问所述专用分类器以对所述多个方面的所述特定子集分类被期望花费的时间量一样久,确定所述专用分类器能够被用来对所述多个方面的所述特定子集分类;以及
响应于所述类偏斜被预测为持续少于访问所述专用分类器以对所述多个方面的所述特定子集分类被期望花费的时间量,确定所述通用分类器而不是所述专用分类器将被用来对所述多个方面的所述特定子集分类。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/148,900 | 2016-05-06 | ||
US15/148,900 US9984314B2 (en) | 2016-05-06 | 2016-05-06 | Dynamic classifier selection based on class skew |
PCT/US2017/029739 WO2017192344A1 (en) | 2016-05-06 | 2017-04-27 | Dynamic classifier selection based on class skew |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109074501A CN109074501A (zh) | 2018-12-21 |
CN109074501B true CN109074501B (zh) | 2022-03-11 |
Family
ID=58710061
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780027932.7A Active CN109074501B (zh) | 2016-05-06 | 2017-04-27 | 基于类偏斜的动态分类器选择 |
Country Status (4)
Country | Link |
---|---|
US (2) | US9984314B2 (zh) |
EP (1) | EP3452954B1 (zh) |
CN (1) | CN109074501B (zh) |
WO (1) | WO2017192344A1 (zh) |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10013621B2 (en) * | 2016-10-04 | 2018-07-03 | Disney Enterprises, Inc. | Systems and methods for identifying objects in media contents |
US10789291B1 (en) | 2017-03-01 | 2020-09-29 | Matroid, Inc. | Machine learning in video classification with playback highlighting |
WO2019002831A1 (en) | 2017-06-27 | 2019-01-03 | Cirrus Logic International Semiconductor Limited | REPRODUCTIVE ATTACK DETECTION |
GB2563953A (en) | 2017-06-28 | 2019-01-02 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201713697D0 (en) | 2017-06-28 | 2017-10-11 | Cirrus Logic Int Semiconductor Ltd | Magnetic detection of replay attack |
GB201801528D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Method, apparatus and systems for biometric processes |
GB201801530D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for authentication |
GB201801532D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for audio playback |
GB201801526D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for authentication |
GB201801527D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Method, apparatus and systems for biometric processes |
GB2567503A (en) | 2017-10-13 | 2019-04-17 | Cirrus Logic Int Semiconductor Ltd | Analysing speech signals |
GB201803570D0 (en) | 2017-10-13 | 2018-04-18 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201801663D0 (en) * | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of liveness |
GB201804843D0 (en) | 2017-11-14 | 2018-05-09 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201801664D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of liveness |
GB201801874D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Improving robustness of speech processing system against ultrasound and dolphin attacks |
GB201801661D0 (en) * | 2017-10-13 | 2018-03-21 | Cirrus Logic International Uk Ltd | Detection of liveness |
GB201801659D0 (en) | 2017-11-14 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of loudspeaker playback |
US11735189B2 (en) | 2018-01-23 | 2023-08-22 | Cirrus Logic, Inc. | Speaker identification |
US11264037B2 (en) | 2018-01-23 | 2022-03-01 | Cirrus Logic, Inc. | Speaker identification |
US11475899B2 (en) | 2018-01-23 | 2022-10-18 | Cirrus Logic, Inc. | Speaker identification |
US10733996B2 (en) * | 2018-03-30 | 2020-08-04 | Qualcomm Incorporated | User authentication |
US10720166B2 (en) * | 2018-04-09 | 2020-07-21 | Synaptics Incorporated | Voice biometrics systems and methods |
US10818296B2 (en) * | 2018-06-21 | 2020-10-27 | Intel Corporation | Method and system of robust speaker recognition activation |
US10692490B2 (en) | 2018-07-31 | 2020-06-23 | Cirrus Logic, Inc. | Detection of replay attack |
US10915614B2 (en) | 2018-08-31 | 2021-02-09 | Cirrus Logic, Inc. | Biometric authentication |
US11037574B2 (en) | 2018-09-05 | 2021-06-15 | Cirrus Logic, Inc. | Speaker recognition and speaker change detection |
US11157816B2 (en) * | 2018-10-17 | 2021-10-26 | Capital One Services, Llc | Systems and methods for selecting and generating log parsers using neural networks |
CN110196914B (zh) * | 2019-07-29 | 2019-12-27 | 上海肇观电子科技有限公司 | 一种将人脸信息录入数据库的方法和装置 |
EP3800581A1 (en) * | 2019-10-03 | 2021-04-07 | Axis AB | A method and apparatus for generating an object classification for an object |
US11546035B2 (en) * | 2020-01-07 | 2023-01-03 | Wistron Neweb Corporation | Event detection method and system thereof |
US11229903B1 (en) * | 2020-12-30 | 2022-01-25 | Chevorn U.S.A. Inc. | Hydroisomerization catalyst with improved thermal stability |
US20220254144A1 (en) * | 2021-02-05 | 2022-08-11 | Home Depot Product Authority, Llc | Product image classification |
CN113610117B (zh) * | 2021-07-19 | 2024-04-02 | 上海德衡数据科技有限公司 | 基于深度数据的水下传感数据处理方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7120899B1 (en) * | 1999-10-21 | 2006-10-10 | Unisys Corporation | Method for implementing component object model interfaces |
CN101965729A (zh) * | 2008-03-03 | 2011-02-02 | 视频监控公司 | 动态物件分类 |
CN102768669A (zh) * | 2012-04-27 | 2012-11-07 | 新奥特(北京)视频技术有限公司 | 一种实现视频资料分类的方法 |
CN103426007A (zh) * | 2013-08-29 | 2013-12-04 | 人民搜索网络股份公司 | 一种机器学习分类方法及装置 |
CN103870798A (zh) * | 2012-12-18 | 2014-06-18 | 佳能株式会社 | 对象检测方法、对象检测设备以及图像拾取设备 |
CN103942562A (zh) * | 2014-03-27 | 2014-07-23 | 河海大学 | 基于多分类器组合的高光谱图像分类方法 |
Family Cites Families (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5903884A (en) | 1995-08-08 | 1999-05-11 | Apple Computer, Inc. | Method for training a statistical classifier with reduced tendency for overfitting |
US5835567A (en) | 1996-01-29 | 1998-11-10 | Woods; Mark | Telephone line circuit testing jumper plug |
US6741655B1 (en) | 1997-05-05 | 2004-05-25 | The Trustees Of Columbia University In The City Of New York | Algorithms and system for object-oriented content-based video search |
US6219837B1 (en) | 1997-10-23 | 2001-04-17 | International Business Machines Corporation | Summary frames in video |
US7149359B1 (en) | 1999-12-16 | 2006-12-12 | Microsoft Corporation | Searching and recording media streams |
US7779117B2 (en) * | 2002-05-31 | 2010-08-17 | Aol Inc. | Monitoring digital images |
US7870279B2 (en) * | 2002-12-09 | 2011-01-11 | Hrl Laboratories, Llc | Method and apparatus for scanning, personalizing, and casting multimedia data streams via a communication network and television |
WO2005083637A1 (es) * | 2004-02-27 | 2005-09-09 | Td Vision Corporation, S.A. De C.V. | Método y sistema de decodificación digital de imágenes de video 3d estereoscópicas |
US7293712B2 (en) * | 2004-10-05 | 2007-11-13 | Hand Held Products, Inc. | System and method to automatically discriminate between a signature and a dataform |
US7933338B1 (en) | 2004-11-10 | 2011-04-26 | Google Inc. | Ranking video articles |
US7450740B2 (en) * | 2005-09-28 | 2008-11-11 | Facedouble, Inc. | Image classification and information retrieval over wireless digital networks and the internet |
US7835578B2 (en) | 2006-04-19 | 2010-11-16 | Sarnoff Corporation | Automated video-to-text system |
US7965923B2 (en) | 2006-05-01 | 2011-06-21 | Yahoo! Inc. | Systems and methods for indexing and searching digital video content |
KR100785076B1 (ko) | 2006-06-15 | 2007-12-12 | 삼성전자주식회사 | 스포츠 동영상에서의 실시간 이벤트 검출 방법 및 그 장치 |
JP5224731B2 (ja) | 2007-06-18 | 2013-07-03 | キヤノン株式会社 | 映像受信装置及び映像受信装置の制御方法 |
US8331710B2 (en) * | 2007-11-06 | 2012-12-11 | Sony Corporation | Image processing apparatus and method, learning apparatus and method, and program |
US20090292685A1 (en) | 2008-05-22 | 2009-11-26 | Microsoft Corporation | Video search re-ranking via multi-graph propagation |
US8180766B2 (en) | 2008-09-22 | 2012-05-15 | Microsoft Corporation | Bayesian video search reranking |
JP5166230B2 (ja) * | 2008-12-26 | 2013-03-21 | 富士フイルム株式会社 | 画像処理装置および方法並びにプログラム |
US20110026591A1 (en) | 2009-07-29 | 2011-02-03 | Judit Martinez Bauza | System and method of compressing video content |
US9503771B2 (en) * | 2011-02-04 | 2016-11-22 | Qualcomm Incorporated | Low latency wireless display for graphics |
CN103890781B (zh) * | 2011-08-25 | 2017-11-21 | 康奈尔大学 | 用于机器视觉的视网膜编码器 |
JP6003124B2 (ja) | 2012-03-15 | 2016-10-05 | オムロン株式会社 | 認証装置、認証装置の制御方法、制御プログラム、および記録媒体 |
US10200709B2 (en) * | 2012-03-16 | 2019-02-05 | Qualcomm Incorporated | High-level syntax extensions for high efficiency video coding |
EP2915101A4 (en) | 2012-11-02 | 2017-01-11 | Itzhak Wilf | Method and system for predicting personality traits, capabilities and suggested interactions from images of a person |
US9477925B2 (en) | 2012-11-20 | 2016-10-25 | Microsoft Technology Licensing, Llc | Deep neural networks training for speech and pattern recognition |
KR101289085B1 (ko) | 2012-12-12 | 2013-07-30 | 오드컨셉 주식회사 | 객체 기반 영상 검색시스템 및 검색방법 |
US9177550B2 (en) | 2013-03-06 | 2015-11-03 | Microsoft Technology Licensing, Llc | Conservatively adapting a deep neural network in a recognition system |
US9171224B2 (en) | 2013-07-04 | 2015-10-27 | Qualcomm Incorporated | Method of improving contrast for text extraction and recognition applications |
US9508347B2 (en) | 2013-07-10 | 2016-11-29 | Tencent Technology (Shenzhen) Company Limited | Method and device for parallel processing in model training |
US10095917B2 (en) | 2013-11-04 | 2018-10-09 | Facebook, Inc. | Systems and methods for facial representation |
US9311570B2 (en) * | 2013-12-06 | 2016-04-12 | Kabushiki Kaisha Toshiba | Method of, and apparatus for, segmentation of structures in medical images |
WO2015126213A1 (ko) * | 2014-02-21 | 2015-08-27 | 엘지전자 주식회사 | 방송 신호 송신 장치 및 방송 신호 수신 장치 |
JP6311360B2 (ja) * | 2014-03-06 | 2018-04-18 | ブラザー工業株式会社 | 画像処理装置 |
US9253511B2 (en) | 2014-04-14 | 2016-02-02 | The Board Of Trustees Of The Leland Stanford Junior University | Systems and methods for performing multi-modal video datastream segmentation |
US20150324689A1 (en) | 2014-05-12 | 2015-11-12 | Qualcomm Incorporated | Customized classifier over common features |
US10645457B2 (en) | 2015-06-04 | 2020-05-05 | Comcast Cable Communications, Llc | Using text data in content presentation and content search |
US20170235828A1 (en) | 2016-02-12 | 2017-08-17 | Microsoft Technology Licensing, Llc | Text Digest Generation For Searching Multiple Video Streams |
US10902243B2 (en) * | 2016-10-25 | 2021-01-26 | Deep North, Inc. | Vision based target tracking that distinguishes facial feature targets |
CN109359499A (zh) * | 2017-07-26 | 2019-02-19 | 虹软科技股份有限公司 | 一种用于脸部分类的方法和装置 |
US10839257B2 (en) * | 2017-08-30 | 2020-11-17 | Qualcomm Incorporated | Prioritizing objects for object recognition |
WO2019046820A1 (en) * | 2017-09-01 | 2019-03-07 | Percipient.ai Inc. | IDENTIFICATION OF INDIVIDUALS IN A DIGITAL FILE USING MULTIMEDIA ANALYSIS TECHNIQUES |
US20190138795A1 (en) * | 2017-11-07 | 2019-05-09 | Ooma, Inc. | Automatic Object Detection and Recognition via a Camera System |
US10762396B2 (en) * | 2017-12-05 | 2020-09-01 | Utac, Llc | Multiple stage image based object detection and recognition |
US11068741B2 (en) * | 2017-12-28 | 2021-07-20 | Qualcomm Incorporated | Multi-resolution feature description for object recognition |
US10430876B1 (en) * | 2018-03-08 | 2019-10-01 | Capital One Services, Llc | Image analysis and identification using machine learning with output estimation |
US10614310B2 (en) * | 2018-03-22 | 2020-04-07 | Viisights Solutions Ltd. | Behavior recognition |
US10538259B2 (en) * | 2018-03-28 | 2020-01-21 | Deuta America Corp | Fit-for-duty detection and alerting system for rail and transit |
US11070837B2 (en) * | 2018-04-02 | 2021-07-20 | Panasonic Intellectual Property Corporation Of America | Encoding method, decoding method, encoder, and decoder |
US20190294999A1 (en) * | 2018-06-16 | 2019-09-26 | Moshe Guttmann | Selecting hyper parameters for machine learning algorithms based on past training results |
-
2016
- 2016-05-06 US US15/148,900 patent/US9984314B2/en active Active
-
2017
- 2017-04-27 WO PCT/US2017/029739 patent/WO2017192344A1/en unknown
- 2017-04-27 CN CN201780027932.7A patent/CN109074501B/zh active Active
- 2017-04-27 EP EP17724151.0A patent/EP3452954B1/en active Active
-
2018
- 2018-04-20 US US15/958,943 patent/US10579910B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7120899B1 (en) * | 1999-10-21 | 2006-10-10 | Unisys Corporation | Method for implementing component object model interfaces |
CN101965729A (zh) * | 2008-03-03 | 2011-02-02 | 视频监控公司 | 动态物件分类 |
CN102768669A (zh) * | 2012-04-27 | 2012-11-07 | 新奥特(北京)视频技术有限公司 | 一种实现视频资料分类的方法 |
CN103870798A (zh) * | 2012-12-18 | 2014-06-18 | 佳能株式会社 | 对象检测方法、对象检测设备以及图像拾取设备 |
CN103426007A (zh) * | 2013-08-29 | 2013-12-04 | 人民搜索网络股份公司 | 一种机器学习分类方法及装置 |
CN103942562A (zh) * | 2014-03-27 | 2014-07-23 | 河海大学 | 基于多分类器组合的高光谱图像分类方法 |
Non-Patent Citations (3)
Title |
---|
An Efficient Ensemble Method for Classifying Skewed Data Streams;Juan Zhang et al.;《ICIC 2011》;20121231;第144-151页 * |
Deep Fragment Embeddings for Bidirectional Image Sentence Mapping;Andrej Karpathy et al.;《arXiv:1406.5679v1》;20140622;第1-9页 * |
多分类系统中信息融合方法研究;孔志周;《中国博士论文全文数据库 信息科技辑》;20111215;I140-49 * |
Also Published As
Publication number | Publication date |
---|---|
US9984314B2 (en) | 2018-05-29 |
US10579910B2 (en) | 2020-03-03 |
EP3452954A1 (en) | 2019-03-13 |
US20180239990A1 (en) | 2018-08-23 |
EP3452954B1 (en) | 2024-06-05 |
US20170323184A1 (en) | 2017-11-09 |
CN109074501A (zh) | 2018-12-21 |
WO2017192344A1 (en) | 2017-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109074501B (zh) | 基于类偏斜的动态分类器选择 | |
US20220083389A1 (en) | Ai inference hardware resource scheduling | |
US11521038B2 (en) | Electronic apparatus and control method thereof | |
CN106776673B (zh) | 多媒体文档概括 | |
CN111813532B (zh) | 一种基于多任务机器学习模型的图像管理方法及装置 | |
US20210256427A1 (en) | Automated Computer Operating System Optimization | |
US20160350658A1 (en) | Viewport-based implicit feedback | |
US12062105B2 (en) | Utilizing multiple stacked machine learning models to detect deepfake content | |
CN112400165A (zh) | 利用无监督学习来改进文本到内容建议的方法和系统 | |
CN112384909A (zh) | 利用无监督学习来改进文本到内容建议的方法和系统 | |
US10915752B2 (en) | Computer vision based asset evaluation | |
US20220171823A1 (en) | Interest tapering for topics | |
US20240126810A1 (en) | Using interpolation to generate a video from static images | |
US10229212B2 (en) | Identifying Abandonment Using Gesture Movement | |
US20150206053A1 (en) | Computing system with comprehensive sensor mechanism and method of operation thereof | |
CN116956204A (zh) | 多任务模型的网络结构确定方法、数据预测方法及装置 | |
CN113762585B (zh) | 数据的处理方法、账号类型的识别方法及装置 | |
CN116245593A (zh) | 用于游戏推荐的玩法风格分析 | |
CN116957036A (zh) | 伪造多媒体检测模型的训练方法、装置和计算设备 | |
US20220358357A1 (en) | Utilizing a neural network model to predict content memorability based on external and biometric factors | |
US20220214677A1 (en) | Detecting anomalous events using a microcontroller | |
KR20220169695A (ko) | 전자장치 및 그 제어방법 | |
US20200159835A1 (en) | Methods and systems for managing content storage | |
Wu et al. | AyE-Edge: Automated Deployment Space Search Empowering Accuracy yet Efficient Real-Time Object Detection on the Edge | |
Wang | Scaling Wearable Cognitive Assistance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |