CN107851124A - 自组织网络中的媒体标记传播 - Google Patents

自组织网络中的媒体标记传播 Download PDF

Info

Publication number
CN107851124A
CN107851124A CN201680043807.0A CN201680043807A CN107851124A CN 107851124 A CN107851124 A CN 107851124A CN 201680043807 A CN201680043807 A CN 201680043807A CN 107851124 A CN107851124 A CN 107851124A
Authority
CN
China
Prior art keywords
mark
media file
self
media
organizing network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201680043807.0A
Other languages
English (en)
Inventor
C·G·M·斯诺克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN107851124A publication Critical patent/CN107851124A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/41Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/02Topology update or discovery
    • H04L45/08Learning-based routing, e.g. using neural networks or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W84/00Network topologies
    • H04W84/18Self-organising networks, e.g. ad-hoc networks or sensor networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

一种标记媒体文件的方法,包括:连接到自组织网络上的至少一个设备;以及对该自组织网络中的媒体和对应的标记进行索引。该方法还包括:将种子媒体文件的计算出的特征表示与自组织网络中的其他媒体文件的特征表示进行比较以创建经排序的列表。该方法进一步包括:确定与经排序的列表上的媒体文件相对应的标记是否与种子媒体文件的标记相匹配;以及在与该经排序的列表上的媒体文件相对应的标记与该种子媒体文件的标记相匹配时增加标记频率。

Description

自组织网络中的媒体标记传播
背景
领域
本公开的某些方面一般涉及机器学习,尤其涉及改进标记媒体文件的系统和方法。
背景技术
可包括一群互连的人工神经元(例如,神经元模型)的人工神经网络是一种计算设备或者表示将由计算设备执行的方法。
卷积神经网络是一种前馈人工神经网络。卷积神经网络可包括神经元集合,其中每一个神经元具有感受野并且共同地拼出一输入空间。卷积神经网络(CNN)具有众多应用。具体而言,CNN已被广泛使用于模式识别和分类领域。
深度学习架构(诸如,深度置信网络和深度卷积网络)是分层神经网络插入。也就是说,在深度学习架构中,第一层神经元的输出变成第二层神经元的输入,第二层神经元的输出变成第三层神经元的输入,依此类推。这些深度神经网络可被训练以识别特征阶层并且因此它们已在对象识别和其他应用中使用。类似于卷积神经网络,这些深度学习架构中的计算可分布在处理节点群体上,其可被配置在一个或多个计算链中。这些多层架构可每次训练一层并且例如可使用反向传播来微调。
其他模型也可用于对象识别。例如,支持向量机(SVM)是可被应用于分类的学习算法。支持向量机包括对数据进行归类的分离超平面(例如,决策边界)。该超平面由监督式学习来定义。期望的超平面增加训练数据的裕量。换言之,超平面应该具有最大的到训练示例的最小距离。
尽管这些解决方案在数个分类基准上达到了优异的结果,但它们的计算复杂度可能极其高。另外,模型的训练可能是有挑战性的。
概述
本公开的某些方面提供了一种标记媒体文件的方法。该方法包括:连接到自组织网络上的至少一个设备;以及对该自组织网络中的媒体和对应的标记进行索引。该方法还包括:将种子媒体文件的计算出的特征表示与自组织网络中的其他媒体文件的特征表示进行比较以创建经排序的列表。该方法进一步包括:确定与经排序的列表上的媒体文件相对应的标记是否与种子媒体文件的标记相匹配;以及在与该经排序的列表上的媒体文件相对应的标记与该种子媒体文件的标记相匹配时增加标记频率。
本公开的某些方面提供了一种配置成标记媒体文件的装置。该装置包括存储器以及耦合到该存储器的至少一个处理器。该一个或多个处理器被配置成:连接到自组织网络上的至少一个设备;以及对该自组织网络中的媒体和对应的标记进行索引;该(些)处理器还被配置成:将种子媒体文件的计算出的特征表示与自组织网络中的其他媒体文件的特征表示进行比较以创建经排序的列表。该(些)处理器还被配置成:确定与经排序的列表上的媒体文件相对应的标记是否与种子媒体文件的标记相匹配;以及在与该经排序的列表上的媒体文件相对应的标记与该种子媒体文件的标记相匹配时增加标记频率。
本公开的某些方面提供了一种配置成标记媒体文件的装备。该装备包括:用于连接到自组织网络上的至少一个设备的装置;以及用于对该自组织网络中的媒体和对应的标记进行索引的装置。该装备还包括:用于将种子媒体文件的计算出的特征表示与自组织网络中的其他媒体文件的特征表示进行比较以创建经排序的列表的装置。该装备进一步包括:用于确定与经排序的列表上的媒体文件相对应的标记是否与种子媒体文件的标记相匹配的装置;以及用于在与该经排序的列表上的媒体文件相对应的标记与该种子媒体文件的标记相匹配时增加标记频率的装置。
本公开的某些方面提供了一种用于标记媒体文件的计算机程序产品。该计算机程序产品包括其上记录有程序代码的非瞬态计算机可读介质。该程序代码包括:用于连接到自组织网络上的至少一个设备并且对该自组织网络中的媒体和对应的标记进行索引的程序代码。该程序代码还包括:用于将种子媒体文件的计算出的特征表示与自组织网络中的其他媒体文件的特征表示进行比较以创建经排序的列表的程序代码。该程序代码进一步包括:用于确定与经排序的列表上的媒体文件相对应的标记是否与种子媒体文件的标记相匹配并且在与该经排序的列表上的媒体文件相对应的标记与该种子媒体文件的标记相匹配时增加标记频率的程序代码。
本公开的附加特征和优点将在下文描述。本领域技术人员应当领会,本公开可容易地被用作修改或设计用于实施与本公开相同的目的的其他结构的基础。本领域技术人员还应认识到,这样的等效构造并不脱离所附权利要求中所阐述的本公开的教导。被认为是本公开的特性的新颖特征在其组织和操作方法两方面连同进一步的目的和优点在结合附图来考虑以下描述时将被更好地理解。然而,要清楚理解的是,提供每一幅附图均仅用于解说和描述目的,且无意作为对本公开的限定的定义。
附图简述
在结合附图理解下面阐述的详细描述时,本公开的特征、本质和优点将变得更加明显,在附图中,相同附图标记始终作相应标识。
图1解说了根据本公开的某些方面的使用片上系统(包括通用处理器)来设计神经网络的示例实现。
图2解说了根据本公开的各方面的系统的示例实现。
图3A是解说根据本公开的各方面的神经网络的示图。
图3B是解说根据本公开的各方面的示例性深度卷积网络(DCN)的框图。
图4是解说根据本公开的各方面的可将人工智能(AI)功能模块化的示例性软件架构的框图。
图5是解说根据本公开的各方面的智能手机上的AI应用的运行时操作的框图。
图6解说了根据本公开的各方面的用于通过邻居投票来更新标记相关性的方法。
图7解说了根据本公开的各方面的伪代码。
图8解说了根据本公开的各方面的用于标记媒体文件的方法。
详细描述
以下结合附图阐述的详细描述旨在作为各种配置的描述,而无意表示可实践本文中所描述的概念的仅有的配置。本详细描述包括具体细节以便提供对各种概念的透彻理解。然而,对于本领域技术人员将显而易见的是,没有这些具体细节也可实践这些概念。在一些实例中,以框图形式示出众所周知的结构和组件以避免湮没此类概念。
基于本教导,本领域技术人员应领会,本公开的范围旨在覆盖本公开的任何方面,不论其是与本公开的任何其他方面相独立地还是组合地实现的。例如,可以使用所阐述的任何数目的方面来实现装置或实践方法。另外,本公开的范围旨在覆盖使用作为所阐述的本公开的各个方面的补充或者与之不同的其他结构、功能性、或者结构及功能性来实践的此类装置或方法。应当理解,所披露的本公开的任何方面可由权利要求的一个或多个元素来实施。
措辞“示例性”在本文中用于表示“用作示例、实例、或解说”。本文中描述为“示例性”的任何方面不必被解释为优于或胜过其他方面。
尽管本文中描述了特定方面,但这些方面的众多变体和置换落在本公开的范围之内。虽然提到了优选方面的一些益处和优点,但本公开的范围并非旨在被限定于特定益处、用途或目标。相反,本公开的各方面旨在能宽泛地应用于不同的技术、系统配置、网络和协议,其中一些作为示例在附图以及以下对优选方面的描述中解说。详细描述和附图仅仅解说本公开而非限定本公开,本公开的范围由所附权利要求及其等效技术方案来定义。
自组织网络中的媒体标记传播
媒体文件可基于其内所识别的内容或其记录的上下文来标记。例如,对图像内的内容的识别可产生标记群,诸如“人”、“山”、“湖”和“鱼”。基于记录的上下文的标记可产生诸如“尼康”、“星期二”、或“科罗拉多”之类的标记。出于图像搜索和检索的目的以及其他目的,基于内容的标记可能是更相关的。对于音频文件,标记信息可涉及抒情内容、流派、录制艺术家、录音棚位置及诸如此类。媒体文件可涉及众多感官模态和传感器类型。记录在“数字鼻子”上的媒体文件可包含嗅觉数据,并且可使用嗅觉描述符(诸如“柑橘”或“薰衣草”)来标记。
媒体文件的标记可人类来提供,人类依赖于关于媒体文件的知识并进一步依赖于其自身的感知来理解媒体文件的内容。人类还可依赖于传感器和数据处理方法来理解媒体文件并随后赋予标记。例如,红外影像、x射线断层扫描、功能性磁共振成像、以及其他形式的数字媒体在它们可被人类解读和标记之前被机器捕捉和处理。然而,越来越多地,标记可由机器来提供。如下所述,卷积网络、深度置信网络、回流神经网络、其他形式的神经网络、其组合、以及可能地与其他对象分类方法相组合可被用来将标记归于媒体文件而无需人类干预。
对媒体文件的准确标记可促成涉及标记媒体文件的机器学习方法的训练,由此创建提高准确性的正反馈环路。例如,准确标记的媒体文件可被添加到深度学习分类器的训练或测试集,并且可改进或验证该分类器的性能。相反,不准确标记的媒体文件对机器学习方法而言可能是有害的,除非这些不准确标记的媒体文件能被删除、忽略、或重新指派给更合适的训练或测试集类别。对媒体文件的准确标记还可促成遍及媒体文件的数据库进行搜索。
尽管一般而言在深度学习和机器学习中存在进步,但是机器为媒体文件(诸如图像、录音、或视频中)的内容提供的标记往往是不可靠且不完整的。人类为媒体文件提供的标记也可能是不可靠且不完整的。因此,存在关于如何解读人类或机器为媒体文件提供的标记相对于标记描述的内容的相关性的根本性问题。
本公开涉及根据媒体文件的内容通过使用与所标记的其他媒体文件的比较来标记这些媒体文件。其他媒体文件的标记可能是不可靠且不完整的。尽管存在可靠性和完整性问题,但是提高媒体标记的质量和表现力的有效且高效方式可被实现,其依靠于如果不同媒体项在内容及其标记上相似,则该标记更有可能是正确的直观性。这种直观性可通过计算媒体与较大且经预处理的其他所标记媒体集的基于内容的相似度并对最相似媒体中标记共现的次数进行计数来利用。
涉及使用基于内容的相似度来进行标记的现有工作在静态的集中式媒体集合上操作。用于快速地利用自组织(ad hoc)网络中的各种设备(可能是移动设备)的所标记媒体来改进和扩展所有或所选连接设备上的媒体标记的方法体系是难以获得的。本公开的各方面涉及此类方法。具体而言,在本公开的各方面,机器可在它们之间协调以改进媒体标记。
考虑可连接到自组织网络的设备集。这些设备可以是智能电话、无人机、轿车、住宅等等。此外,考虑这些设备上所存储的媒体内容和它们的标记。本公开的一方面包括一种方法,该方法连接到自组织网络上的设备;对连接设备上的媒体和对应的标记进行索引;以及将种子媒体文件的特征表示与该自组织网络上的其他媒体文件的特征表示进行比较。该方法可从媒体计算特征表示,或者可依赖于预计算出的特征(若可获得)。可随后将种子媒体文件与其他媒体文件(例如,也与种子媒体共享标记的头K个最相似图像)进行比较。K可被选择以反映媒体类型的经验有用数目(诸如对于图像而言,从约5到约10000)。替换地,K可被选择为网络上可用的媒体文件的数目的分数,可能基于通信带宽和/或设备存储考量来进一步约束。该项目的标记频率可随后使用一个或多个共享标记来更新。以此方式,媒体标记的相关性可通过在各设备之间交换信息来更新。
图1解说了使用片上系统(SOC)100来标记媒体文件的前述方法的示例实现。根据本公开的某些方面,SOC 100可包括通用处理器或多核通用处理器(CPU)102。变量(例如,神经信号和突触权重)、与计算设备相关联的系统参数(例如,带有权重的神经网络)、延迟、频率槽信息、以及任务信息可被存储在与神经处理单元(NPU)108相关联的存储器块、与CPU102相关联的存储器块、与图形处理单元(GPU)104相关联的存储器块、与数字信号处理器(DSP)106相关联的存储器块、专用存储器块118中,或可跨多个块分布。在通用处理器102处执行的指令可从与CPU 102相关联的程序存储器加载或可从专用存储器块118加载。
SOC 100还可包括配置成执行具体功能的附加处理块(诸如GPU 104、DSP106、连通性块110(其可包括第四代长期演进(4G LTE)连通性、无执照Wi-Fi连通性、USB连通性、蓝牙连通性等))以及例如可检测和识别姿势的多媒体处理器112。在一些方面,NPU 108可在CPU102、DSP 106、和/或GPU 104中实现。SOC 100可进一步包括传感器处理器114、图像信号处理器(ISP)116、和/或导航120(其例如可包括全球定位系统)。
SOC 100可基于ARM指令集或类似指令集。在本公开的一方面,加载到通用处理器102或连通块性110中的指令可包括用于连接到自组织网络上的至少一个设备并且对该自组织网络中的媒体和对应的标记进行索引的代码。加载到通用处理器102中的指令还可包括用于将种子媒体的计算出的特征表示与自组织网络中的其他媒体的特征表示进行比较以创建经排序的列表(例如,结合图像信号处理块116和/或NPU块108)的代码。加载到通用处理器102中的指令可进一步包括用于确定与列表上的媒体文件相对应的标记是否与种子媒体文件的标记相匹配的代码以及用于在与该列表上的媒体文件相对应的标记与该种子媒体文件的标记相匹配时增加标记频率的代码。
图2解说了根据本公开的某些方面的系统200的示例实现。如图2中所解说的,系统200可具有可执行本文中所描述的方法的各种操作的多个局部处理单元202。每个局部处理单元202可包括局部状态存储器204和可存储神经网络的参数的局部参数存储器206。另外,局部处理单元202可具有用于存储局部模型程序的局部(神经元)模型程序(LMP)存储器208、用于存储局部学习程序的局部学习程序(LLP)存储器210、以及局部连接存储器212。此外,如图2中所解说的,每个局部处理单元202可与用于为该局部处理单元的各局部存储器提供配置的配置处理单元214对接,并且与提供各局部处理单元202之间的路由的路由连接处理单元216对接。
如以上讨论的,深度学习架构可通过学习在每一层中以逐次更高的抽象程度来表示输入、藉此构建输入数据的有用特征表示来执行对象识别任务。以此方式,深度学习可解决传统机器学习的主要瓶颈。在深度学习出现之前,用于对象识别问题的机器学习办法可能严重依赖人类工程设计的特征与浅分类器相结合。浅分类器可以是两类线性分类器,例如,其中可将特征向量分量的加权和与阈值进行比较以预测输入的分类。人类工程设计的特征可以是由拥有领域专业知识的工程师针对具体问题领域定制的模版或内核。相反,深度学习架构可以通过训练来学习表示特征。此外,深度网络可以学习表示和识别人类可能还没有考虑过的新特征类型。
深度学习架构可以学习特征阶层。例如,如果向第一层呈递视觉数据,则第一层可学习以识别输入流中的相对简单的特征(诸如边)。在另一示例中,如果向第一层呈递听觉数据,则第一层可学习以识别特定频率中的频谱功率。取第一层的输出作为输入的第二层可以学习以识别特征组合,诸如对于视觉数据识别简单形状或对于听觉数据识别声音组合。例如,更高层可学习以表示视觉数据中的复杂形状或听觉数据中的词语。再高层可学习以识别常见视觉对象或口语短语。
深度学习架构在被应用于具有自然阶层结构的问题时可能表现特别好。例如,机动车辆的分类可受益于首先学习以识别轮子、挡风玻璃、以及其他特征。这些特征可在更高层以不同方式被组合以识别轿车、卡车和飞机。
神经网络可被设计成具有各种连通性模式。在前馈网络中,信息从较低层被传递到较高层,其中给定层中的每个神经元向更高层中的神经元进行传达。如上所述,可在前馈网络的相继层中构建阶层式表示。神经网络还可具有回流或反馈(也被称为自顶向下(top-down))连接。在回流连接中,来自给定层中的神经元的输出可被传达给相同层中的另一神经元。回流架构可有助于识别跨越不止一个按顺序递送给该神经网络的输入数据组块的模式。从给定层中的神经元到较低层中的神经元的连接被称为反馈(或自顶向下)连接。当高层级概念的识别可辅助辨别输入的特定低层级特征时,具有许多反馈连接的网络可能是有助益的。
参照图3A,神经网络的各层之间的连接可以是全连接的(302)或局部连接的(304)。在全连接网络302中,第一层中的神经元可将它的输出传达给第二层中的每个神经元,从而第二层中的每个神经元将从第一层中的每个神经元接收输入。替换地,在局部连接网络304中,第一层中的神经元可连接至第二层中有限数目的神经元。卷积网络306可以是局部连接的,并且被进一步配置成使得与针对第二层中每个神经元的输入相关联的连接强度被共享(例如,308)。更一般化地,网络的局部连接层可被配置成使得一层中的每个神经元将具有相同或相似的连通性模式,但其连接强度可具有不同的值(例如,310、312、314和316)。局部连接的连通性模式可能在更高层中产生空间上相异的感受野,这是由于给定区域中的更高层神经元可接收到通过训练被调谐为到网络的总输入的受限部分的性质的输入。
局部连接的神经网络可能非常适合于其中输入的空间位置有意义的问题。例如,被设计成识别来自车载相机的视觉特征的网络300可发展具有不同性质的高层神经元,这取决于它们与图像下部关联还是与图像上部关联。例如,与图像下部相关联的神经元可学习以识别车道标记,而与图像上部相关联的神经元可学习以识别交通信号灯、交通标志等。
DCN可以用受监督式学习来训练。在训练期间,可向DCN呈递图像(诸如限速标志的经裁剪图像326),并且可随后计算“前向传递(forward pass)”以产生输出322。输出322可以是对应于特征(诸如“标志”、“60”、和“100”)的值向量。网络设计者可能希望DCN在输出特征向量中针对其中一些神经元输出高得分,例如与经训练的网络300的输出322中所示的“标志”和“60”对应的那些神经元。在训练之前,DCN产生的输出很可能是不正确的,并且由此可计算实际输出与目标输出之间的误差。DCN的权重可随后被调整以使得DCN的输出得分与目标更紧密地对准。
为了调整权重,学习算法可为权重计算梯度向量。该梯度可指示在权重被略微调整情况下误差将增加或减少的量。在顶层,该梯度可直接对应于连接倒数第二层中的活化神经元与输出层中的神经元的权重的值。在较低层中,该梯度可取决于权重的值以及计算出的较高层的误差梯度。权重可随后被调整以减小误差。这种调整权重的方式可被称为“反向传播”,因为其涉及在神经网络中的“反向传递(backward pass)”。
在实践中,权重的误差梯度可能是在少量示例上计算的,从而计算出的梯度近似于真实误差梯度。这种近似方法可被称为随机梯度下降法。随机梯度下降法可被重复,直到整个系统可达成的误差率已停止下降或直到误差率已达到目标水平。
在学习之后,DCN可被呈递新图像326并且在网络中的前向传递可产生输出322,其可被认为是该DCN的推断或预测。
深度置信网络(DBN)是包括多层隐藏节点的概率性模型。DBN可被用于提取训练数据集的阶层式表示。DBN可通过堆叠多层受限波尔兹曼机(RBM)来获得。RBM是一类可在输入集上学习概率分布的人工神经网络。由于RBM可在没有关于每个输入应该被分类到哪个类的信息的情况下学习概率分布,因此RBM经常被用于无监督式学习。使用混合无监督式和受监督式范式,DBN的底部RBM可按无监督方式被训练并且可以用作特征提取器,而顶部RBM可按受监督方式(在来自先前层的输入和目标类的联合分布上)被训练并且可用作分类器。
深度卷积网络(DCN)是卷积网络的网络,其配置有附加的池化和归一化层。DCN已在许多任务上达成现有最先进的性能。DCN可使用受监督式学习来训练,其中输入和输出目标两者对于许多典范是已知的并被用于通过使用梯度下降法来修改网络的权重。
DCN可以是前馈网络。另外,如上所述,从DCN的第一层中的神经元到下一更高层中的神经元群的连接跨第一层中的神经元被共享。DCN的前馈和共享连接可被利用于进行快速处理。DCN的计算负担可比例如类似大小的包括回流或反馈连接的神经网络小得多。
卷积网络的每一层的处理可被认为是空间不变模版或基础投影。如果输入首先被分解成多个通道,诸如彩色图像的红色、绿色和蓝色通道,那么在该输入上训练的卷积网络可被认为是三维的,其具有沿着该图像的轴的两个空间维度以及捕捉颜色信息的第三维度。卷积连接的输出可被认为在后续层318和320中形成特征图,该特征图(例如,320)中的每个元素从先前层(例如,318)中一定范围的神经元以及从该多个通道中的每一个通道接收输入。特征图中的值可以用非线性(诸如矫正)max(0,x)进一步来处理。来自毗邻神经元的值可被进一步池化(这对应于降采样)并可提供附加的局部不变性以及维度缩减。还可通过特征图中神经元之间的侧向抑制来应用归一化,其对应于白化。
深度学习架构的性能可随着有更多被标记的数据点变为可用或随着计算能力提高而提高。现代深度神经网络用比仅仅十五年前可供典型研究者使用的计算资源多数千倍的计算资源来例行地训练。新的架构和训练范式可进一步推升深度学习的性能。经矫正的线性单元可减少被称为梯度消失的训练问题。新的训练技术可减少过度拟合(over-fitting)并因此使更大的模型能够达成更好的普遍化。封装技术可抽象出给定的感受野中的数据并进一步提升总体性能。
图3B是解说示例性深度卷积网络350的框图。深度卷积网络350可包括多个基于连通性和权重共享的不同类型的层。如图3B所示,该示例性深度卷积网络350包括多个卷积块(例如,C1和C2)。每个卷积块可配置有卷积层、归一化层(LNorm)、和池化层。卷积层可包括一个或多个卷积滤波器,其可被应用于输入数据以生成特征图。尽管仅示出了两个卷积块,但本公开不限于此,而是,根据设计偏好,任何数目的卷积块可被包括在深度卷积网络350中。归一化层可被用于对卷积滤波器的输出进行归一化。例如,归一化层可提供白化或侧向抑制。池化层可提供在空间上的降采样聚集以实现局部不变性和维度缩减。
例如,深度卷积网络的平行滤波器组可任选地基于ARM指令集被加载到SOC 100的CPU 102或GPU 104上以达成高性能和低功耗。在替换实施例中,平行滤波器组可被加载到SOC 100的DSP 106或ISP 116上。另外,DCN可访问其他可存在于SOC上的处理块,诸如专用于传感器114和导航120的处理块。
深度卷积网络350还可包括一个或多个全连接层(例如,FC1和FC2)。深度卷积网络350可进一步包括逻辑回归(LR)层。深度卷积网络350的每一层之间是要被更新的权重(未示出)。每一层的输出可以用作深度卷积网络350中后续层的输入以从第一卷积块C1处提供的输入数据(例如,图像、音频、视频、传感器数据和/或其他输入数据)学习阶层式特征表示。
图4是解说可使人工智能(AI)功能模块化的示例性软件架构400的框图。使用该架构,应用402可被设计成可使得SOC 420的各种处理块(例如CPU422、DSP 424、GPU 426和/或NPU 428)在该应用402的运行时操作期间执行支持计算。
AI应用402可配置成调用在用户空间404中定义的功能,例如,这些功能可提供对指示该设备当前操作位置的场景的检测和识别。例如,AI应用402可取决于识别出的场景是办公室、报告厅、餐馆、还是室外环境(诸如湖泊)而以不同方式配置话筒和相机。AI应用402可向与在场景检测应用编程接口(API)406中定义的库相关联的经编译程序代码作出请求以提供对当前场景的估计。该请求可最终依赖于配置成基于例如视频和定位数据来提供场景估计的深度神经网络的输出。
运行时引擎408(其可以是运行时框架的经编译代码)可进一步可由AI应用402访问。例如,AI应用402可使得运行时引擎请求以特定时间间隔的场景估计或由应用的用户接口检测到的事件触发的场景估计。在使得运行时引擎估计场景时,运行时引擎可进而发送信号给在SOC 420上运行的操作系统410(诸如Linux内核412)。操作系统410进而可使得在CPU 422、DSP 424、GPU426、NPU 428、或其某种组合上执行计算。CPU 422可被操作系统直接访问,而其他处理块可通过驱动器(诸如用于DSP 424、GPU 426、或NPU 428的驱动器414-418)被访问。在示例性示例中,深度神经网络可被配置成在处理块的组合(诸如CPU 422和GPU 426)上运行,或可在NPU 428(若存在)上运行。
图5是解说智能手机502上的AI应用的运行时操作500的框图。AI应用可包括预处理模块504,该预处理模块504可被配置(例如,使用JAVA编程语言被配置)成转换图像506的格式并随后对该图像进行裁剪和/或调整大小(508)。经预处理的图像可接着被传达给分类应用510,该分类应用510包含场景检测后端引擎512,该场景检测后端引擎512可以被(例如,使用C编程语言)配置成基于视觉输入来检测和分类场景。场景检测后端引擎512可被配置成进一步通过缩放(516)和裁剪(518)来预处理(514)该图像。例如,该图像可被缩放和裁剪以使所得到的图像是224像素×224像素。这些维度可映射到神经网络的输入维度。神经网络可由深度神经网络块520配置以使得SOC100的各种处理块进一步借助深度神经网络来处理图像像素。深度神经网络的结果可随后被取阈(522)并被传递通过分类应用510中的指数平滑块524。经平滑的结果可接着使得智能手机502的设置和/或显示改变。
在一种配置中,模型被配置成用于:连接到自组织网络上的至少一个设备;以及对该自组织网络中的媒体和对应的标记进行索引。该模型还被配置成用于:将种子媒体文件的计算出的特征表示与自组织网络中的其他媒体的特征表示进行比较以创建经排序的列表;确定与该列表上的媒体文件相对应的标记是否与该种子媒体文件的标记相匹配;以及在与该列表上的媒体文件相对应的标记与种子媒体项的标记相匹配时增加标记频率。该模型包括连接装置、索引装置、计算装置、比较装置、确定装置、以及增加装置。在一个方面,连接装置、索引装置、计算装置、比较装置、确定装置、以及增加装置。在一个方面,计算装置、比较装置、和/或确定装置可以是配置成执行所叙述功能的通用处理器102、DSP 106、存储器块118、局部处理单元202、和/或路由连接处理单元216。在另一配置中,前述装置可以是配置成执行由前述装置所叙述的功能的任何模块或任何装置。
根据本公开的某些方面,局部处理单元202中的每一者可被配置成基于神经网络的一个或多个期望功能特征来确定该神经网络的参数。局部处理单元202中的每一者可被进一步配置成随着所确定参数被进一步适配、调谐和更新而朝着期望功能特征开发一个或多个功能特征。
图6解说了根据本公开的各方面的用于通过邻居投票来更新标记相关性的技术。设备连接到自组织网络上的至少一个其他设备,并且对该自组织网络中的媒体和对应的标记进行索引。一旦被索引,就将种子媒体文件的计算出的特征表示与自组织网络中的其他媒体文件的特征表示进行比较以创建经排序的列表。一旦形成经排序的列表,就确定与经排序的列表上的媒体文件相对应的标记是否与种子媒体文件的标记相匹配。在与经排序的列表上的媒体文件相对应的标记与种子媒体文件的标记相匹配时,标记频率增加。
图6的媒体标记技术的图解600的中心示出了具有由用户提供的标记602B的图像602A。图像602A和标记602B可以驻留在用户的设备602C上。由用户提供的标记可能是模糊的、在完整性方面受限的、并且是过度个性化的。对于该图像602A,用户赋予了四个标记602B:“桥”、“自行车”、“完美”和“我的获胜者”。图像602A以桥为特征。可能不能从图解600中辨别出自行车,但是从标记602B可推断出该图像是在自行车出行期间拍摄的。标记“完美”和“我的获胜者”没有描述图像的内容,但是可反映出用户关于图像602A的情绪,并且提供了模糊的、在完整性方面受限的、并且过度个性化的标记示例。
出于视觉内容理解、通用搜索等目的,描述视觉内容的客观方面的标记可能是期望的。描述视觉内容的客观方面的标记可被认为是相关的。作为对比,主观或过度个性化的标记对于视觉内容理解、通用搜索等而言可能是没有用的,并且可被认为是不相关的。对于给定图像,不相关标记可能比相关标记多。例如,对于图像602A,仅标记“桥”看起来是相关的。因此,基于给定图像的标记,相关和不相关的标记可能不能基于它们出现的频率来区分。
根据本公开的各方面的在600中解说的技术提供了准确且高效地确定标记相对于该标记意图描述的内容的相关性。使用这种技术,图像602A可被认为是种子图像文件。每个标记或标签的标记相关性是通过累加其可从视觉上相似的图像接收到的邻居投票来估计的。
在该示例中,在外围示出了八个视觉上最相似的图像604A、606A、608A、610A、612A、614A、616A和618A。该视觉上相似的图像(例如,604A、606A、608A、610A、612A、614A、616A和618A)可分别与不同的移动设备604C、606C、608C、610C、612C、614C、616C和618C相关联,这些移动设备可经由自组织网络上的通信来连接到用户的设备602C。另外,每个图像可分别具有标记集604B、606B、608B、610B、612B、614B、616B和618B。该图解中移动智能电话(例如,604C、606C、608C、610C、612C、614C、616C和618C)的使用并不旨在进行限定。这些图像还可驻留在连接到自组织网络的其他设备上(诸如膝上型计算机、空中无人机、房屋等等)。
在所解说的示例中,头八个最相似图像中的四个图像610A、612A、614A和618A与种子图像的标记(例如,602B)共享标记。在所有四个实例中,共享标记都是“桥”。在该示例中,与种子图像相关联的其他标记中没有一个与头八个最相似图像共享。作为结果,与种子图像相关联的标记频率620可被更新(例如,使用图7中所示并在以下描述的伪代码700)以反映视觉上相似的邻居图像的贡献。相应地,可以确定“桥”是最初与种子图像相关联的四个标记中最相关的客观标记。
除了提供对图像中的标记的相关性估计之外,本公开的各方面还可涉及针对未标记图像提供一个或多个标记。在一替换方面,标记频率的更新将不会由与种子图像和另一图像相关联的标记的共现来门控,而是将反映相邻图像的标记的累加。在图解600中所示的示例中,相邻图像之中最频繁出现的标记再次为“桥”。以此方式,本公开的各方面可针对未标记图像提供自动图像标记。
针对种子图像使用标记(若可获得)可以根据本公开的各方面来提高媒体标记的质量,因为该种子图像的标记可以有效地滤除包含视觉上相似的不同对象的不同媒体(在图像的情形中)。此外,结合标记使用相似度测量可减轻对相似度测量准确性或可靠性的依赖。也就是说,基于内容的相似度测量可能是轻量级的,并且在就其自身考虑时产生高故障率,但是根据本公开的各方面的相似度测量与由标记进行的门控的组合可产生高准确性。
图解600中所示的方法还可被应用于其他类型的媒体文件,诸如音频文件、嗅觉文件、生物传感器数据文件、智能电话上收集的数据、车辆上收集的数据、医疗设备上收集的数据、科学仪器上收集的数据、或其某种组合。根据本公开的各方面,种子媒体文件(例如,图像602A)和自组织网络上的媒体文件(例如,604A、606A)可以是音频文件。如果这些媒体文件是音频文件,则这些媒体文件的标记(例如,602B、604B、606B)可包括描述符(诸如“嘻哈”或“猫王(Elvis)”),并且该特征表示可被配置成处理音频数据。
根据本公开的各方面,媒体文件可包含多种模态。例如,电影或音乐录像文件可包含一系列图像和音频音带。对于多媒体文件,600中所解说的方法可被分开地应用于每种模态并随后被组合。替换地,特征表示可基于每个媒体文件的多种模态来计算,并且可随后应用600中所解说的方法。
图7解说了关于本公开的一方面的伪代码。伪代码700解说了可如何应用本公开的各方面来更新自组织网络中所有图像的所有标记的相关性。在本公开的一个方面,用户的设备602C可建立自组织网络A,并且随后对A中的设备(诸如图解600中的设备(例如,602C、604C、606C、608C、610C、612C、614C、616C和618C))上的所有图像和标记进行索引。本公开的各方面还可涉及网络中存在的图像和标记的子集。本公开的各方面还可被配置成随着其他设备加入和离开自组织网络而持续地操作。本公开的各方面可被配置成在设备连接到现有自组织网络时操作,从而消除700中所示的建立步骤。
在设备(例如,602C)已经连接到自组织网络上的至少一个设备(例如,设备(例如,604C、606C、608C、610C、612C、614C、616C、618C和其他设备(未示出)))之后,该设备可对那些设备上的媒体(例如,604A、606A、608A、610A、612A、614A、616A、618A和其他媒体(未示出))以及对应的标记(例如,604B、606B、608B、610B、612B、614B、616B、618B和其他标记(未示出))进行索引。该设备可附加地对用户的设备602C上的媒体和标记进行索引。对于A中的每个图像I,可以标识来自A中所有所标记图像的I的K个视觉最接近的邻居。在图解600中,I可被认为是种子图像(例如,602A);A可以是包括设备(例如,602C、604C、606C、608C、610C、612C、614C、616C和618C)的自组织网络;并且K可被配置成等于8。
接着,进而考虑I的标记集中的每个标记w(例如,602B)。在第一次迭代中,迭代符w被设为602B的第一标记的值“桥”。对应于w=桥、I=602A、K=8以及A=当前自组织网络的阵列networkLabelRelevance(网络标记相关性)的元素值被设为0。在后续迭代步骤中,该阵列还针对w=“自行车”、“完美”和“我的获胜者”被设为0。这些标记中的每一者都可对应于阵列networkLabelRelevance的数值。替换地,networkLabelRelevance可被实现为更灵活的数据结构(诸如键-值对字典)。在该迭代之后,针对图像I的所有标记,阵列或数据结构networkLabelRelevance将被设为0。根据本公开的各方面,该初始化规程可被跳过。
接着,考虑I的邻居集中的标记。在示例600中,I的邻居集为K=8个视觉上最相似的图像604A、606A、608A、610A、612A、614A、616A和618A。对于邻居集中的每个图像J(其可以是第一次迭代中的604A),考虑J的对应标记(604B)。首先,确定J中的标记(604B)和I中的标记(602B)的交集。在第一次迭代中,没有共同标记。因为标记的交集是空集,所以将不执行700中的循环“for(标记J和标记I的交集)中的标记w do”的迭代内容。在700中的循环“forI的邻居集中的图像J do”的第二迭代步骤上,考虑邻居集的第二图像的标记。再次,当前考虑的标记606B和种子图像的标记602B的交集是空集。在其中考虑608B的第三次迭代中,再次遇到空集。
然而,在第四次迭代上,标记610B和602B的交集产生共同元素“桥”。因为该交集不是空集,所以将执行循环“for(标记J和标记I的交集)中的标记w do”的迭代内容。networkLabelRelevance阵列在对应于w=“桥”、I=602A、k=8、A=当前自组织网络的阵列的索引处被递增1。此刻,该值从0设为1。在迭代的下一步骤期间,考虑标记612B。同样,该交集不是空集,因为在612B和602B中存在共同元素“桥”。阵列networkLabelRelevance再次被递增。此刻,该值在对应于w=“桥”、I=602A、k=8、A=当前自组织网络的阵列的索引处从1设为2。
该迭代继续至K个视觉上最相似的图像(I的邻居集)的结束。在已经考虑了邻居集中的所有图像之后,阵列networkLabelRelevance将具有对应于w=“桥”、“自行车”、“完美”和“我的获胜者”的值:4、0、0、0,如620中所示。在移至下一种子图像之前,可应用max(取最大值)运算。700中所示的max运算具有关于对应于图像的原始标记的w的值将最终阵列中的所有0值替换为1的效果。如果应用max运算,则对于图像I,阵列networkLabelRelevance将具有对应于w=“桥”(4)、“自行车”(1)、“完美”(1)和“我的获胜者”(1)的值:4、1、1、1。在以上详述的所有步骤之后,可将该网络上的新图像选为种子图像,并且可重复整个过程。
根据本公开的各方面,视觉邻居可基于视觉相似度度量。例如,可以利用组合64维全局特征,其中64维包括44维颜色相关图、14维颜色纹理矩和6位RGB颜色矩。此类特征向量可以平衡有效性和效率的竞争目标。作为替换,可作为视觉相似度度量的基础的特征向量可以是场景的空间结构的980维GIST特征表示。所公开的各种特征向量并非旨在限定。其他特征向量也可被用于视觉媒体文件(诸如SURF、Dense-SURF(密集SURF)或Color64(色彩64))。此外,其他类型的媒体文件(诸如音频媒体文件)可以使用为该类型的媒体定制的特征向量。在又一方面,神经网络的状态和/或输出可被用作特征向量,或者可对特征向量的计算作出贡献。
在一些方面,本公开提供了一种基于通过自组织网络中的设备传达的信息来交换和更新媒体标记相关性的方式。该网络中的每个设备可传达特征向量的矩阵,以使得每一行或列可以是该设备上的一个媒体文件的特征向量。替换地,该网络上的第一设备可将其媒体文件传送给该网络上的第二设备,并且可在该第二设备上计算特征向量。在该替换方案中,特征向量可被传送回到第一设备以供稍后使用,可被存储在第二设备上,或者可被用于计算相似度度量并被丢弃。
在本公开的一个方面,每个设备可针对每种类型的媒体文件或针对每个媒体文件的每种模态来计算标准化特征向量。替换地,可单独或组合地针对多种媒体类型(诸如音频文件和电影)来计算标准化特征向量。根据本公开的各方面,标准化特征向量可促成将种子媒体的特征表示与其他媒体的特征表示进行比较。替换地,特征的比较可涉及不同类型的特征向量。例如,第一设备可针对视觉媒体文件计算Dense-SURF特征,而第二设备可针对视觉媒体文件计算SURF特征。该比较可包括将一个特征向量转换成另一特征向量,或者可包括基于恰适比较方法的直接比较。可基于各媒体文件之间(诸如第一媒体文件与第二媒体文件之间)的比较来确定相似度度量。
在一些方面,本公开可引发低计算负担,并且可利用低通信带宽。根据本公开的各方面,可针对每个图像执行特征向量的计算一次,因为特征向量计算可独立于对主机设备的查询。
本公开的一些方面也可被应用于训练分类器。例如,该方法可涉及最正面和最负面的媒体标记示例的选择。这些示例可随后被用于进一步处理,诸如用来训练深度学习分类器。另外,此类分类器可针对特定用户或用户群来进行个性化。
本公开的一些方面可涉及集体智慧系统。例如,一群无人驾驶飞行器(UAV)可以使用机载相机和处理器来收集和分析图像。每个UAV可具有针对其收集的图像预测标记的机载图像分类器。根据本公开的各方面,这些UAV可藉由无线网络来彼此传达特征向量矩阵,并且根据本公开的各方面,在它们之间提高所标记图像的质量。共同地,这群UAV可在速度和准确性两者上胜过单独考虑的每个UAV的对象识别和标记能力。
图8解说了用于标记媒体文件的方法800。在框802,该过程连接到自组织网络上的至少一个设备。在框804,该过程对该自组织网络中的媒体和对应的标记进行索引。在框806,该过程将种子媒体文件的计算出的特征表示与该自组织网络中的其他媒体文件的特征表示进行比较以创建经排序的列表。在框808,该过程确定与该列表上的媒体文件相对应的标记是否与该种子媒体文件的标记相匹配。在框810,该过程在与该列表上的媒体文件相对应的标记与该种子媒体文件的标记相匹配时增加标记频率。
在一些方面,标记频率620的增加可通过基于种子图像文件(例如,602A)与自组织网络中的另一相似图像文件之间的比较的相似度度量来加权。该相似度度量可对应于特征空间中的多维距离,以使得较相似图像(例如,610A)中的较相似特征对应于较短距离,而较不相似图像(例如,618A)中的较不相似特征对应于较长距离。根据本公开的其中标记频率的增加通过该距离来加权的各方面,指派给特征向量的每个维度的权重可被调节以提高整体性能。以此方式,相似度函数可随时间适应于数据,并且系统可被认为包括度量学习。
以上所描述的方法的各种操作可由能够执行相应功能的任何合适的装置来执行。这些装置可包括各种硬件和/或(诸)软件组件和/或(诸)模块,包括但不限于电路、专用集成电路(ASIC)、或处理器。一般而言,在附图中有解说的操作的场合,那些操作可具有带相似编号的相应配对装置加功能组件。
如本文所使用的,术语“确定”涵盖各种各样的动作。例如,“确定”可包括演算、计算、处理、推导、研究、查找(例如,在表、数据库或其他数据结构中查找)、探知及诸如此类。另外,“确定”可包括接收(例如接收信息)、访问(例如访问存储器中的数据)、及类似动作。此外,“确定”可包括解析、选择、选取、确立及类似动作。
如本文中所使用的,引述一列项目中的“至少一个”的短语是指这些项目的任何组合,包括单个成员。作为示例,“a、b或c中的至少一个”旨在涵盖:a、b、c、a-b、a-c、b-c、以及a-b-c。
结合本公开所描述的各种解说性逻辑框、模块、以及电路可用设计成执行本文中所描述的功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列信号(FPGA)或其他可编程逻辑器件(PLD)、分立的门或晶体管逻辑、分立的硬件组件或其任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,处理器可以是任何市售的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合,例如,DSP与微处理器的组合、多个微处理器、与DSP核心协同的一个或多个微处理器、或任何其它此类配置。
结合本公开描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中实施。软件模块可驻留在本领域所知的任何形式的存储介质中。可使用的存储介质的一些示例包括随机存取存储器(RAM)、只读存储器(ROM)、闪存、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可移动盘、CD-ROM等。软件模块可包括单条指令、或许多条指令,且可分布在若干不同的代码段上,分布在不同的程序间以及跨多个存储介质分布。存储介质可被耦合到处理器以使得该处理器能从/向该存储介质读写信息。在替换方案中,存储介质可以被整合到处理器。
本文所公开的方法包括用于达成所描述的方法的一个或多个步骤或动作。这些方法步骤和/或动作可以彼此互换而不会脱离权利要求的范围。换言之,除非指定了步骤或动作的特定次序,否则具体步骤和/或动作的次序和/或使用可以改动而不会脱离权利要求的范围。
所描述的功能可在硬件、软件、固件或其任何组合中实现。如果以硬件实现,则示例硬件配置可包括设备中的处理系统。处理系统可以用总线架构来实现。取决于处理系统的具体应用和整体设计约束,总线可包括任何数目的互连总线和桥接器。总线可将包括处理器、机器可读介质、以及总线接口的各种电路链接在一起。总线接口可用于尤其将网络适配器等经由总线连接至处理系统。网络适配器可用于实现信号处理功能。对于某些方面,用户接口(例如,按键板、显示器、鼠标、操纵杆等)也可被连接至总线。总线还可链接各种其他电路(诸如定时源、外围设备、稳压器、功率管理电路等),这些电路在本领域中是众所周知的,因此将不再赘述。
处理器可负责管理总线和一般处理,包括执行存储在机器可读介质上的软件。处理器可用一个或多个通用和/或专用处理器来实现。示例包括微处理器、微控制器、DSP处理器、以及其他能执行软件的电路系统。软件应当被宽泛地解释成意指指令、数据、或其任何组合,无论是被称作软件、固件、中间件、微代码、硬件描述语言、或其他。作为示例,机器可读介质可包括随机存取存储器(RAM)、闪存、只读存储器(ROM)、可编程只读存储器(PROM)、可擦式可编程只读存储器(EPROM)、电可擦式可编程只读存储器(EEPROM)、寄存器、磁盘、光盘、硬驱动器、或者任何其他合适的存储介质、或其任何组合。机器可读介质可被实施在计算机程序产品中。该计算机程序产品可以包括包装材料。
在硬件实现中,机器可读介质可以是处理系统中与处理器分开的一部分。然而,如本领域技术人员将容易领会的,机器可读介质或其任何部分可在处理系统外部。作为示例,机器可读介质可包括传输线、由数据调制的载波、和/或与设备分开的计算机产品,所有这些都可由处理器通过总线接口来访问。替换地或补充地,机器可读介质或其任何部分可被集成到处理器中,诸如高速缓存和/或通用寄存器文件可能就是这种情形。虽然所讨论的各种组件可被描述为具有特定位置,诸如局部组件,但它们也可按各种方式来配置,诸如某些组件被配置成分布式计算系统的一部分。
处理系统可以被配置为通用处理系统,该通用处理系统具有一个或多个提供处理器功能性的微处理器、以及提供机器可读介质中的至少一部分的外部存储器,它们都通过外部总线架构与其他支持电路系统链接在一起。替换地,该处理系统可以包括一个或多个神经元形态处理器以用于实现本文中所描述的神经元模型和神经系统模型。作为另一替换方案,处理系统可以用带有集成在单块芯片中的处理器、总线接口、用户接口、支持电路系统、和至少一部分机器可读介质的专用集成电路(ASIC)来实现,或者用一个或多个现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、控制器、状态机、门控逻辑、分立硬件组件、或者任何其他合适的电路系统、或者能执行本公开通篇所描述的各种功能性的电路的任何组合来实现。取决于具体应用和加诸于整体系统上的总设计约束,本领域技术人员将认识到如何最佳地实现关于处理系统所描述的功能性。
机器可读介质可包括数个软件模块。这些软件模块包括当由处理器执行时使处理系统执行各种功能的指令。这些软件模块可包括传送模块和接收模块。每个软件模块可以驻留在单个存储设备中或者跨多个存储设备分布。作为示例,当触发事件发生时,可以从硬驱动器中将软件模块加载到RAM中。在软件模块执行期间,处理器可以将一些指令加载到高速缓存中以提高访问速度。可随后将一个或多个高速缓存行加载到通用寄存器文件中以供处理器执行。在以下述及软件模块的功能性时,将理解此类功能性是在处理器执行来自该软件模块的指令时由该处理器来实现的。此外,应领会,本公开的各方面产生对处理器、计算机、机器或实现此类方面的其它系统的机能的改进。
如果以软件实现,则各功能可作为一条或多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者,这些介质包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定,此类计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储或其他磁存储设备、或能用于携带或存储指令或数据结构形式的期望程序代码且能被计算机访问的任何其他介质。另外,任何连接也被正当地称为计算机可读介质。例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或无线技术(诸如红外(IR)、无线电、以及微波)从web网站、服务器、或其他远程源传送而来,则该同轴电缆、光纤电缆、双绞线、DSL或无线技术(诸如红外、无线电、以及微波)就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘、和碟,其中盘(disk)常常磁性地再现数据,而碟(disc)用激光来光学地再现数据。因此,在一些方面,计算机可读介质可包括非瞬态计算机可读介质(例如,有形介质)。另外,对于其他方面,计算机可读介质可包括瞬态计算机可读介质(例如,信号)。上述的组合应当也被包括在计算机可读介质的范围内。
因此,某些方面可包括用于执行本文中给出的操作的计算机程序产品。例如,此类计算机程序产品可包括其上存储(和/或编码)有指令的计算机可读介质,这些指令能由一个或多个处理器执行以执行本文中所描述的操作。对于某些方面,计算机程序产品可包括包装材料。
此外,应当领会,用于执行本文中所描述的方法和技术的模块和/或其它恰适装置能由用户终端和/或基站在适用的场合下载和/或以其他方式获得。例如,此类设备能被耦合至服务器以促成用于执行本文中所描述的方法的装置的转移。替换地,本文中所描述的各种方法能经由存储装置(例如,RAM、ROM、诸如压缩碟(CD)或软盘等物理存储介质等)来提供,以使得一旦将该存储装置耦合至或提供给用户终端和/或基站,该设备就能获得各种方法。此外,可利用适于向设备提供本文中所描述的方法和技术的任何其他合适的技术。
将理解,权利要求并不被限定于以上所解说的精确配置和组件。可在以上所描述的方法和装置的布局、操作和细节上作出各种改动、更换和变形而不会脱离权利要求的范围。

Claims (28)

1.一种标记媒体文件的方法,包括:
连接到自组织网络上的至少一个设备;
对所述自组织网络中的媒体和对应的标记进行索引;
将种子媒体文件的计算出的特征表示与所述自组织网络中的其他媒体文件的特征表示进行比较以创建经排序的列表;
确定与所述经排序的列表上的媒体文件相对应的标记是否与所述种子媒体文件的标记相匹配;以及
在与所述经排序的列表上的所述媒体文件相对应的标记与所述种子媒体文件的标记相匹配时增加标记频率。
2.如权利要求1所述的方法,其特征在于,针对所述自组织网络中的其他媒体文件重复所述比较、确定以及增加。
3.如权利要求1所述的方法,其特征在于,所述媒体文件包含以下至少一者:图像数据、音频数据、嗅觉数据、生物传感器数据、智能电话上收集的数据、车辆上收集的数据、医疗设备上收集的数据、科学仪器上收集的数据、或其组合。
4.如权利要求1所述的方法,其特征在于,相似度度量是基于所述种子媒体文件的计算出的特征表示与所述自组织网络上的第二媒体文件的计算出的特征表示的所述比较来确定的。
5.如权利要求4所述的方法,其特征在于,所述相似度度量的所述确定是根据用于度量学习的装置来适应于数据。
6.如权利要求1所述的方法,其特征在于,进一步包括至少部分地基于所述标记频率来标记所述媒体文件。
7.如权利要求6所述的方法,其特征在于,进一步包括至少部分地基于所标记的媒体文件来训练分类器。
8.一种配置成标记媒体文件的装置,所述装置包括:
存储器;以及
耦合到所述存储器的至少一个处理器,所述至少一个处理器被配置成:
连接到自组织网络上的至少一个设备;
对所述自组织网络中的媒体和对应的标记进行索引;
将种子媒体文件的计算出的特征表示与所述自组织网络中的其他媒体文件的特征表示进行比较以创建经排序的列表;
确定与所述经排序的列表上的媒体文件相对应的标记是否与所述种子媒体文件的标记相匹配;以及
在与所述经排序的列表上的所述媒体文件相对应的标记与所述种子媒体文件的标记相匹配时增加标记频率。
9.如权利要求8所述的装置,其特征在于,所述至少一个处理器被进一步配置成:重复比较所述计算出的特征表示、确定与所述经排序的列表上的所述媒体文件相对应的标记是否与所述种子媒体文件的标记相匹配、以及在与所述经排序的列表上的所述媒体文件相对应的标记与所述种子媒体文件的标记相匹配时增加所述标记频率针对所述自组织网络中的其他媒体文件重复。
10.如权利要求8所述的装置,其特征在于,所述媒体文件包括以下至少一者:图像数据、音频数据、嗅觉数据、生物传感器数据、智能电话上收集的数据、车辆上收集的数据、医疗设备上收集的数据、科学仪器上收集的数据、或其组合。
11.如权利要求8所述的装置,其特征在于,所述至少一个处理器被进一步配置成至少部分地基于所述种子媒体文件的计算出的特征表示与所述自组织网络上的第二媒体文件的计算出的特征表示的所述比较来确定相似度度量。
12.如权利要求11所述的装置,其特征在于,所述相似度度量的所述确定是根据用于度量学习的装置来适应于数据。
13.如权利要求8所述的装置,其特征在于,所述至少一个处理器被进一步配置成至少部分地基于所述标记频率来标记所述媒体文件。
14.如权利要求13所述的装置,其特征在于,所述至少一个处理器被进一步配置成至少部分地基于所标记的媒体文件来训练分类器。
15.一种配置成标记媒体文件的装备,所述装备包括:
用于连接到自组织网络上的至少一个设备的装置;
用于对所述自组织网络中的媒体和对应的标记进行索引的装置;
用于将种子媒体文件的计算出的特征表示与所述自组织网络中的其他媒体文件的特征表示进行比较以创建经排序的列表的装置;
用于确定与所述经排序的列表上的媒体文件相对应的标记是否与所述种子媒体文件的标记相匹配的装置;以及
用于在与所述经排序的列表上的所述媒体文件相对应的标记与所述种子媒体文件的标记相匹配时增加标记频率的装置。
16.如权利要求15所述的装备,其特征在于,所述比较、所述确定、以及所述增加针对所述自组织网络中的其他媒体文件来重复。
17.如权利要求15所述的装备,其特征在于,所述媒体文件包括以下至少一者:图像数据、音频数据、嗅觉数据、生物传感器数据、智能电话上收集的数据、车辆上收集的数据、医疗设备上收集的数据、科学仪器上收集的数据、或其组合。
18.如权利要求15所述的装备,其特征在于,相似度度量是基于所述种子媒体文件的计算出的特征表示与所述自组织网络上的第二媒体文件的计算出的特征表示的所述比较来确定的。
19.如权利要求18所述的装备,其特征在于,所述用于确定所述相似度度量的装置是根据用于度量学习的装置来适应于数据。
20.如权利要求15所述的装备,其特征在于,进一步包括,用于至少部分地基于所述标记频率来标记所述媒体文件的装置。
21.如权利要求20所述的装备,其特征在于,进一步包括,用于至少部分地基于所标记的媒体文件来训练分类器的装置。
22.一种用于标记媒体文件的计算机程序产品,所述计算机程序产品包括:
其上记录有程序代码的非瞬态计算机可读介质,所述程序代码包括:
用于连接到自组织网络上的至少一个设备的程序代码;
用于对所述自组织网络中的媒体和对应的标记进行索引的程序代码;
用于将种子媒体文件的计算出的特征表示与所述自组织网络中的其他媒体文件的特征表示进行比较以创建经排序的列表的程序代码;
用于确定与所述经排序的列表上的媒体文件相对应的标记是否与所述种子媒体文件的标记相匹配的程序代码;以及
用于在与所述经排序的列表上的所述媒体文件相对应的标记与所述种子媒体文件的标记相匹配时增加标记频率的程序代码。
23.如权利要求22所述的计算机程序产品,其特征在于,进一步包括,用于针对所述自组织网络中的其他媒体文件重复所述比较、所述确定、以及所述增加的程序代码。
24.如权利要求22所述的计算机程序产品,其特征在于,所述媒体文件包括以下至少一者:图像数据、音频数据、嗅觉数据、生物传感器数据、智能电话上收集的数据、车辆上收集的数据、医疗设备上收集的数据、科学仪器上收集的数据、或其组合。
25.如权利要求22所述的计算机程序产品,其特征在于,进一步包括,用于基于所述种子媒体文件的计算出的特征表示与所述自组织网络上的第二媒体文件的计算出的特征表示的所述比较来确定相似度度量的程序代码。
26.如权利要求25所述的计算机程序产品,其特征在于,进一步包括其中所述相似度度量的所述确定是根据用于度量学习的设备来适应于数据的程序代码。
27.如权利要求22所述的计算机程序产品,进一步包括,用于至少部分地基于所述标记频率来标记所述媒体文件的程序代码。
28.如权利要求27所述的计算机程序产品,进一步包括,用于至少部分地基于所标记的媒体文件来训练分类器的程序代码。
CN201680043807.0A 2015-07-27 2016-05-24 自组织网络中的媒体标记传播 Pending CN107851124A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/810,422 US10002136B2 (en) 2015-07-27 2015-07-27 Media label propagation in an ad hoc network
US14/810,422 2015-07-27
PCT/US2016/033920 WO2017019161A1 (en) 2015-07-27 2016-05-24 Media label propagation in an ad hoc network

Publications (1)

Publication Number Publication Date
CN107851124A true CN107851124A (zh) 2018-03-27

Family

ID=56098429

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680043807.0A Pending CN107851124A (zh) 2015-07-27 2016-05-24 自组织网络中的媒体标记传播

Country Status (4)

Country Link
US (1) US10002136B2 (zh)
EP (1) EP3329392A1 (zh)
CN (1) CN107851124A (zh)
WO (1) WO2017019161A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108921791A (zh) * 2018-07-03 2018-11-30 苏州中科启慧软件技术有限公司 基于自适应重要性学习的轻量级图像超分辨率改进方法

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10460174B2 (en) * 2014-07-22 2019-10-29 The Hong Kong University Of Science And Technology System and methods for analysis of user-associated images to generate non-user generated labels and utilization of the generated labels
US10235994B2 (en) * 2016-03-04 2019-03-19 Microsoft Technology Licensing, Llc Modular deep learning model
US10650257B2 (en) * 2017-02-09 2020-05-12 SMR Patents S.à.r.l. Method and device for identifying the signaling state of at least one signaling device
US11137761B2 (en) 2017-11-20 2021-10-05 At&T Intellectual Property I, L.P. Object modeling with adversarial learning
US11436765B2 (en) * 2018-11-15 2022-09-06 InstaRecon Method and system for fast reprojection
US10922845B2 (en) * 2018-12-21 2021-02-16 Here Global B.V. Apparatus and method for efficiently training feature detectors

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100641791B1 (ko) * 2006-02-14 2006-11-02 (주)올라웍스 디지털 데이터에 대한 태깅 방법 및 시스템
CN102012934A (zh) * 2010-11-30 2011-04-13 百度在线网络技术(北京)有限公司 图片搜索方法及搜索系统
CN102193946A (zh) * 2010-03-18 2011-09-21 株式会社理光 为媒体文件添加标签方法和使用该方法的系统
US8219555B1 (en) * 2008-06-13 2012-07-10 Ustringer LLC Method and apparatus for distributing content
CN102713911A (zh) * 2010-01-18 2012-10-03 国际商业机器公司 个性化标记排序
CN102880612A (zh) * 2011-07-14 2013-01-16 富士通株式会社 图像标注方法及其装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020169770A1 (en) * 2001-04-27 2002-11-14 Kim Brian Seong-Gon Apparatus and method that categorize a collection of documents into a hierarchy of categories that are defined by the collection of documents
US7340214B1 (en) * 2002-02-13 2008-03-04 Nokia Corporation Short-range wireless system and method for multimedia tags
US8396864B1 (en) * 2005-06-29 2013-03-12 Wal-Mart Stores, Inc. Categorizing documents
EP2080120A2 (en) * 2006-10-03 2009-07-22 Qps Tech. Limited Liability Company Mechanism for automatic matching of host to guest content via categorization
WO2008072093A2 (en) 2006-12-13 2008-06-19 Quickplay Media Inc. Mobile media platform
US8103646B2 (en) * 2007-03-13 2012-01-24 Microsoft Corporation Automatic tagging of content based on a corpus of previously tagged and untagged content
US8239460B2 (en) * 2007-06-29 2012-08-07 Microsoft Corporation Content-based tagging of RSS feeds and E-mail
CA2789010C (en) * 2010-02-05 2013-10-22 Fti Technology Llc Propagating classification decisions
US9684683B2 (en) * 2010-02-09 2017-06-20 Siemens Aktiengesellschaft Semantic search tool for document tagging, indexing and search
CN102870109B (zh) * 2010-03-26 2016-03-02 富士通株式会社 类别生成装置以及类别生成方法
US9529822B2 (en) * 2010-10-05 2016-12-27 Yahoo! Inc. Media or content tagging determined by user credibility signals
US9424258B2 (en) * 2011-09-08 2016-08-23 Telefonaktiebolaget Lm Ericsson (Publ) Assigning tags to media files
US8909771B2 (en) 2011-09-15 2014-12-09 Stephan HEATH System and method for using global location information, 2D and 3D mapping, social media, and user behavior and information for a consumer feedback social media analytics platform for providing analytic measurements data of online consumer feedback for global brand products or services of past, present or future customers, users, and/or target markets
US8768693B2 (en) * 2012-05-31 2014-07-01 Yahoo! Inc. Automatic tag extraction from audio annotated photos
EP2862102A4 (en) * 2012-06-14 2016-01-27 Nokia Technologies Oy METHOD AND APPARATUS FOR ASSOCIATING LABELS OF INTEREST WITH MULTIMEDIA ELEMENTS BASED ON SOCIAL DIFFUSIONS BETWEEN USERS
US8977698B2 (en) * 2012-11-30 2015-03-10 Cisco Technology, Inc. Tagging content within a networking environment based upon recipients receiving the content
US10280431B2 (en) * 2013-12-18 2019-05-07 Nutech Ventures Acyltransferases and methods of using
US9832568B2 (en) * 2014-11-05 2017-11-28 Harman International Industries, Incorporated Apparatus for labeling inputs of an audio mixing console system
US10679256B2 (en) * 2015-06-25 2020-06-09 Pandora Media, Llc Relating acoustic features to musicological features for selecting audio with similar musical characteristics

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100641791B1 (ko) * 2006-02-14 2006-11-02 (주)올라웍스 디지털 데이터에 대한 태깅 방법 및 시스템
US8219555B1 (en) * 2008-06-13 2012-07-10 Ustringer LLC Method and apparatus for distributing content
CN102713911A (zh) * 2010-01-18 2012-10-03 国际商业机器公司 个性化标记排序
CN102193946A (zh) * 2010-03-18 2011-09-21 株式会社理光 为媒体文件添加标签方法和使用该方法的系统
CN102012934A (zh) * 2010-11-30 2011-04-13 百度在线网络技术(北京)有限公司 图片搜索方法及搜索系统
CN102880612A (zh) * 2011-07-14 2013-01-16 富士通株式会社 图像标注方法及其装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108921791A (zh) * 2018-07-03 2018-11-30 苏州中科启慧软件技术有限公司 基于自适应重要性学习的轻量级图像超分辨率改进方法

Also Published As

Publication number Publication date
EP3329392A1 (en) 2018-06-06
US20170031934A1 (en) 2017-02-02
US10002136B2 (en) 2018-06-19
WO2017019161A1 (en) 2017-02-02

Similar Documents

Publication Publication Date Title
CN107430705A (zh) 用于重新训练分类器的样本选择
CN107851124A (zh) 自组织网络中的媒体标记传播
CN107533669A (zh) 滤波器特异性作为用于神经网络的训练准则
CN107851198A (zh) 媒体分类
CN107430703A (zh) 对细调特征的顺序图像采样和存储
CN109447140B (zh) 一种基于神经网络深度学习的图像识别并推荐认知的方法
WO2021043193A1 (zh) 神经网络结构的搜索方法、图像处理方法和装置
CN108027899A (zh) 用于提高经训练的机器学习模型的性能的方法
CN107209873A (zh) 用于深度卷积网络的超参数选择
CN111797893B (zh) 一种神经网络的训练方法、图像分类系统及相关设备
CN107924491A (zh) 未知类别的检测和用于未知类别的分类器的初始化
KR102557512B1 (ko) 이미지들에서의 오브젝트 검출을 위한 콘텍스트-기반 프라이어들
CN107533665A (zh) 经由偏置项在深度神经网络中纳入自顶向下信息
CN108140142A (zh) 选择性反向传播
CN108027834A (zh) 用于通过文本的视频搜索的语义多感官嵌入
CN108028890A (zh) 在无线网络中管理众包摄影
CN110309856A (zh) 图像分类方法、神经网络的训练方法及装置
CN108780522A (zh) 用于视频理解的使用基于运动的注意力的递归网络
Mancini et al. Adding new tasks to a single network with weight transformations using binary masks
CN107533754A (zh) 在深度卷积网络中降低图像分辨率
CN107646116A (zh) 用于定点神经网络的位宽选择
CN107924486A (zh) 用于分类的强制稀疏
CN107636697A (zh) 基于浮点神经网络量化的定点神经网络
CN111052151B (zh) 基于关注提议进行视频动作定位
CN107580712A (zh) 定点神经网络的降低的计算复杂度

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180327