CN101443763B - 用于给内容作注解的设备和方法 - Google Patents
用于给内容作注解的设备和方法 Download PDFInfo
- Publication number
- CN101443763B CN101443763B CN2007800168443A CN200780016844A CN101443763B CN 101443763 B CN101443763 B CN 101443763B CN 2007800168443 A CN2007800168443 A CN 2007800168443A CN 200780016844 A CN200780016844 A CN 200780016844A CN 101443763 B CN101443763 B CN 101443763B
- Authority
- CN
- China
- Prior art keywords
- annotation
- equipment
- user
- request
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明提供了一种用于给内容作注解的设备和方法。该设备可以包括用于分析内容(150)并且根据内容分析来产生第一输出(205)的装置,用于产生注解请求的装置(230),用于通信的装置(130),所述用于通信的装置适于将注解请求分发到至少一个其他设备和接收来自所述至少一个其他设备的注解结果以及通过将第一输出和注解结果相结合(240)来提供改进的输出的装置。通过组合来自不同设备的内容分析算法的多个独立结果,所述组合可能根据背景不同的知识,来为注解提供更高质量的结果。
Description
发明领域
本发明涉及一种用于给内容作注解的设备。
本发明还涉及一种用于给内容作注解的方法。
本发明还涉及一种程序单元。
本发明还涉及一种计算机可读介质。
发明背景
当前存在着不断将电子设备小型化的趋势,由此导致开发出能够具有更强处理能力的设备,以使这些设备更为智能。此外,更进一步的技术集成的趋势将会允许设备将越多越多的技术(例如无线联网)和传感器能力集成在负担得起的产品中。这两种趋势的组合会使设备成为智能设备,并且允许设备感知上下文以及以智能方式来与网络(自组织、固定或其他方式)中的其他此类设备进行交互。这类设备既可以是便携设备,也可以是固定设备。便携和固定设备制造方往往会在形状和功能方面将其设备产品与市场上的其他此类产品区分开来。这样做会给在家中和在活动中的用户带来更多这样的设备。
此类强大设备的一个用途是存储和/或再现个人内容。在使用此类设备的过程中,诸如自行创建的照片和视频之类的个人内容元数据对于用户例如能够容易地组织、浏览和找回其内容是重要的。对用户来说,以手动方式给这种内容作注解是一个很艰苦的任务。由于在商业上以及由个人产生的内容量不断增长,因此,情况尤其如此。这样一来,要想恰当地给所有新创建的内容作注解几乎是不可能的。由此有必要具有那些能使用户免于这类费力劳动并使其能够开始欣赏内容的解决方案。
虽然目前开发了很多使用内容分析或其他手段的解决方案来帮助用户自动给内容作注解。但是没有一种解决方案是令人满意的。在考虑个人内容的时候,下列类型的元数据一般被认为是重要的:
为什么创建内容?“事件”是什么,例如暑假
谁在所创建的图片或视频中出现?例如我的妻子
何时创建的内容?例如夏天七月
在哪里创建的内容?例如在意大利
此外,诸如“快乐”、“海滩”和“树木”之类的与内容中存在的概念和对象相关联的元数据的类型对用户来说同样是重要的。
关于如何辨别谁在图片和视频中出现的可用文献是很多的;相关实例可以参见Marc Davis、Michael Smith、John Canny、Nathan Good、SimonKing和Rajkumar Janakiraman于2005年发表于Proceedings of 13thAnnual ACM International Conference on Multimedia(MM2005)inSingapore,ACM Press,第483-486页的论文“Towards Context-AwareFace Recognition”。该论文尤其针对的是在使用移动电话创建的个人图片中实施的上下文感知脸部识别。另一个实例是在AraV.Nefian、MonsonH.HayesIII于1999发表的论文“Face recognition using an EmbeddedHMM”中提供的,该实例是一种面部识别方法。
要想确定在创建时间内容项目是在哪里创建的,众所周知的是可以使用全球定位系统(GPS)。此外还开发了这样的系统,其中所述系统尝试分析所创建的内容,以便推断出所述内容何处捕捉该地点。例如,在RistoSarvas、Erick Herrarte、Anita Wilhelm和Marc Davis发表于“Proceedings of the Second International Conference on MobileSystems,Applications,and Services(MobiSys2004)in Boston,Massachusetts,ACM Press,第36-48页,2004年”的论文“MetadataCreation System for Mobile Images”中,所创建的图像可以上传到服务器,以便与其他图像相比较。从这种分析中可以得出,例如,图像是在美国的加州大学伯克利分校校园的“钟楼”塔上获取的。
此外,还有很多用于检测概念和对象的成果,相关实例可以参见下列文献:Erik Murphy-Chutorianl、Sarah Aboutalib、Jochen Triesch于发表于“Cognitive Science Online第3.2卷第1-14页,2005年”的论文“Analysis of a Biologically-Inspired System for Real-timeObjectRecognition”以及I.Cohen、N.Sebe、A.Garg、M.S.Lew、T.S.Huang于发表于“IEEE International Conference on Multimedia and Expo(ICME'02)第II卷第121-124页,Lausanne,Switzerland,2002年8月”的论文“Facial Expression Recognition from Video Sequences”。
但是我们发现,即使在内容分析过程中执行所有这些工作,内容分析也不可能提供100%精确的注解结果。虽然也有些成果引入了用户反馈和学习算法,但是仍旧存在着需要用户提供很多反馈的问题。
本发明人发现了这个问题,由此设计了本发明。
发明概述
本发明旨在提高内容注解质量。
相应地,在本发明的第一个方面中提供了一种用于给内容作注解的设备,该设备包括:用于分析内容并且根据内容分析来产生第一输出的装置,用于产生注解请求的装置,用于通信的装置,所述用于通信的装置适于将注解请求分发到至少一个其他设备和接收来自所述至少一个其他设备的注解结果,以及通过将第一输出和所述注解结果相结合来提供改进的输出的装置。
该设备可以在本地使用内容分析器来分析内容,但是毫无疑问,该结果不会好于可以使用的最佳算法。尽管如此,通过请求至少一个另外的设备也执行内容分析,可以确定第二独立注解结果。通过将在所述设备上本地执行的内容分析的结果与至少一个另外的设备执行并返回的独立的内容分析结果相结合,可以将个别和独立的结果组合在一起,以便提供组合和改进的输出。
根据本发明的第二个方面,提供了一种用于给内容作注解的方法,该方法包括以下方法步骤:分析内容并且根据所述内容分析来产生第一输出,产生注解请求,将注解请求传递到至少一个其他设备,以及从所述至少一个其他设备接收注解结果,以及将第一输出与所述注解结果相结合,以便提供改进的输出。
根据本发明的第三个方面,提供了一种用于给内容作注解的系统,该系统包括用于给内容作注解的多个设备,所述多个设备中的每一个设备都包括:用于分析内容并且根据内容分析来产生第一输出的装置,用于产生注解请求的装置,用于通信的装置,所述用于通信的装置适于将注解请求分发到至少一个其他设备,并且接收来自所述至少一个其他设备的注解结果,以及通过将第一输出和所述注解结果相结合来提供改进的输出的装置。
根据本发明的第四个方面,提供了一种可以直接加载到可编程设备的存储器中的程序单元,其包括当在该设备上运行所述程序单元时执行下列方法步骤的软件代码部分:分析所要注解的内容,并且根据所述内容分析来产生第一输出,产生注解请求,将注解请求传递到至少一个其他设备,从所述至少一个其他设备接收注解结果,以及将第一输出与所述注解结果相结合,以便提供改进的输出。
根据本发明的第五个方面,提供了一种可以直接加载到可编程设备的存储器中的计算机可读介质,其包括用于在该设备上运行所述代码部分时执行下列方法步骤的软件代码部分:分析所要注解的内容并且根据所述内容分析来产生第一输出,产生注解请求,将注解请求传递到至少一个其他设备,从所述至少一个其他设备接收注解结果,以及将第一输出与所述注解结果相结合,以便提供改进的输出。
在一个实施例中可以提供用户接口,该用户接口可以适于向用户呈现注解请求,并且从用户那里接收关于注解请求的反馈,用于组合的装置进一步组合来自用户的反馈来提供改进的输出。对于所述改进输出提供的注解质量的改进被判定为仍旧不能满足需要的情况,这样做提供了一种后退(fall back)方案。
在另一个实施例中,用于通信的装置可以适于接收来自另外的设备的外部注解请求,并且将来自用户的反馈传送到所述另外的设备。即使网络中的另外的设备可能不具有用于请求来自用户自身的反馈的适当用户接口能力,这也给出了一个设备来为这些另外的设备提供请求和供应用户反馈的服务。
在另一个实施例中,可以提供注解中心管理器,该注解中心管理器可以包括包含用户的多个未解决注解请求的队列,以及用于从未解决注解请求队列中选择某个选定的未解决注解请求的装置,其中该注解中心管理器以可通信的方式耦合到用户接口,以便向用户接口传递所选择的未解决的注解请求,以及接收来自用户接口的反馈。这样做允许收集注解请求并且在恰当的时刻将其呈现给用户。
在另一个实施例中,注解中心管理器还可以包括:用于确定废弃的未解决注解请求的装置,所述废弃的未解决注解请求是被来自用户的反馈废弃的未解决注解请求,以及用于从队列中删除废弃的未解决注解请求的装置,并且其中用于通信的装置还适于将所述反馈传递到废弃的未解决注解请求的发起方。这样做允许考虑来自用户的反馈对排队的注解请求进行分析,根据来自用户的反馈而可能被废弃的注解请求可以从所述队列中删除并且传递回到废弃注解请求的发起方。此外,这样做还排除了对废弃注解请求进行应答的需要,由此减少了所需要的用户交互数量。
在一个实施例中,用于通信的装置还可以适于接收将另外的设备识别为注解中心管理器的消息,将外部注解请求传送到所识别的注解中心管理器,以及从所识别的注解中心管理器接收来自用户的外部反馈,并且用于组合的装置还可以组合来自用户的外部反馈,以便提供改进的输出。这样做允许另外的设备代表所述设备来呈现和接收用户反馈,当所述另外的设备具有更强的用户接口能力时,这样做是有用的。
在另一个实施例中,可以提供用于检测用户处于设备附近的装置,以及用于根据所述用户位于设备附近的检测来将所述设备标识成设备网络中的注解中心管理器的装置,并且用于通信的装置还可以适于接收来自设备网络的外部注解请求。这样做允许将注解请求引导到用户的本地设备。此外,这样做还允许快速和有效地收集来自用户的反馈。
在另一个实施例中,可以提供用于存储改进输出的装置。通过存储改进的输出,允许与所述内容相关的元数据永久具有改进的质量。
在另一个实施例中,用于组合的装置还可以包括置信等级确定单元,该置信等级确定单元可以适于确定第一输出的第一置信等级,以及确定注解结果的第二置信等级,该第一置信等级指示的是第一输出正确的置信度,第二置信等级指示的是注解结果正确的置信度,并且其中用于组合的装置可以适于根据第一置信等级和第二置信等级来进一步组合第一输出和注解结果,以便提供改进的输出。即使在内容分析算法自身无法提供置信等级的情况下,这样做也允许为每一个内容分析结果确定一个置信等级。
在另一个实施例中,根据本发明的设备可以实现为包括下列各项的群组中的至少一个:机顶盒设备、数字录像设备、启用网络功能的设备、条件访问系统、便携式音频播放器、便携式视频播放器、移动电话、DVD播放器、CD播放器、基于硬盘的媒体播放器、因特网无线电设备、计算机、电视、公共娱乐设备、记忆棒以及MP3播放器。但是,这些应用仅仅是例示性的。
在另一个实施例中,注解请求可以呈现给用户,并且可以从用户那里接收对注解请求的反馈,以及组合的方法步骤还可以组合来自用户的反馈,以便提供改进的输出。对于所述改进输出所提供的注解质量的改进被判定成仍旧不能满足需要的情况,这样做提供了一种后退方案。
在一个实施例中,可以从另外的设备接收外部注解请求,并且来自用户的反馈可以传送到所述另外的设备。即使网络中的另外的设备不具有用于请求来自用户自身的反馈的适当用户接口能力,也可以为这些另外的设备提供一种请求和供应用户反馈的服务。
根据本发明所需要的数据处理可以由计算机程序、也就是由软件来实现,或者可以通过使用一个或多个专用电子优化电路、也就是以硬件来实现,还可以采用混合形式、也就是借助软件组件和硬件组件来实现。该数据处理还可以由服务器上运行的外部服务来提供。
从以下描述的实施例例示中可以清楚了解上文定义的方面以及本发明的其他方面,并且这些方面是参考这些实施例例示来进行说明的。
附图简述
在下文中将会参考实施例例示来对本发明进行更详细的描述,但是本发明并不局限于这些实施例例示。
图1示出了一种根据本发明实施例的设备的系统图示;
图2更详细地示出了一种根据本发明实施例的设备;
图3示出了本发明的一个实施例,其中确定内容分析结果的置信等级;
图4示出了本发明的一个实施例,其中根据内容分析结果的置信等级来从用户那里请求反馈;
图5示出了本发明的一个实施例,其中根据内容分析结果的置信等级来从另外的设备请求注解;
图6示出了本发明的一个实施例,其中对注解请求排队以及根据来自用户的反馈而可以从所述队列中删除废弃的注解请求;
图7示出了本发明的一个实施例,其中通过检测用户与设备的邻近度而使所述设备可以向另外的设备告知它可以接收需要用户反馈的注解请求;
图8示出了一个在本发明实施例中使用的流程图;
图9示出了在本发明实施例中使用的第二流程图;以及
图10示出了在本发明实施例中使用的第三流程图。
这些附图是以示意性方式描绘的,它们并不具有真实比例,并且在不同的图中,相同的参考数字指示的是相应的单元。对本领域技术人员来说,很明显,在不脱离本发明真实构思的情况下,本发明的可替换但是等价的实施例是可能的,并且本发明的范围只受权利要求的限制。
发明详述
图1示出了本发明的一个实施例。在这里提供了一种可以驻留在网络180中的设备100。该网络180可以是本地网络或因特网。另外的设备165同样也可以驻留在该网络中。设备100可以是自治设备、使设备100能够在没有其他设备的显式控制的情况下工作,以及能够对正在访问和使用设备100的功能和数据的对象进行控制。对需要在不同环境中工作的便携设备来说,这是特别重要的,所述环境中的某些可能位于用户自身(家庭/私有)网络之外。设备100可以包括在现今设备中通常应用的用于执行机器可读代码的处理器120。此外,设备100还可以包括用于互连设备100内部的系统组件的总线140。例如,处理器120可以使用存储器110来运行代码和/或存储数据。该设备还可以包括用于通信的装置,例如网络接口130,其允许设备100与所述另另外的设备165或其他设备进行通信。
网络接口130可以是诸如有线以太网接口之类的网络接口,或者实际上它也可以是无线的。举个例子,网络接口130可以是WiFi、蓝牙、移动电话或其他适当的网络接口。在这里可以提供显示器160,以便向用户192再现内容。用户192可以使用遥控器191以及用户接口190来与设备100进行交互。当然,该用户接口190同样可以使用显示器160。除了遥控器之外,其他形式的用户交互同样可以是适用的,例如键盘、触摸屏、鼠标或其他定点设备(point device)。在这里还可以提供存储装置170,以便存储内容、元数据以及任何处理步骤的中间和/或最终结果。该存储装置可以是易失或非易失的,并且举例来说,它可以是SRAM、DRAM或FLASH存储器、硬盘驱动器或光学驱动器。应该指出的是,内容可以从存储装置170中存取,但是该内容同样可以经由网络接口130来存取。在这种情况下,存储装置170完全是可选的。
在这里可以提供内容分析器150,以便分析可由所述设备在本地或是经由网络180访问的内容。内容的分析可以提供更多元数据或是具有改进的质量的元数据。这一点在考虑个人内容的时候尤为关联,其中在考虑个人内容的时候,下列类型的元数据一般被认为是重要的:
为什么创建内容?“事件”是什么,例如暑假
谁在所创建的图片或视频中出现?例如我的妻子
何时创建的内容?例如夏天七月
在哪里创建的内容?例如在意大利
用户192还会评价与内容内部包含的高级概念和对象相关的元数据,举例来说,发现有关“快乐”、“海滩”和“树木”的概念对用户来说是重要的。正如已经指出的那样,当涉及到辨别谁在图片和视频中出现时,可用的文献是很多的。举个例子,在2005年发表于Proceedings of 13thAnnual ACM International Conference on Multimedia(MM2005)inSingapore,ACM Press,483-486的论文“Towards Context-Aware FaceRecognition”特别针对的是在使用移动电话创建的个人图片中实施的感知上下文的脸部识别。另一个实例是在AraV.Nefian和MonsonH.HayesIII于1999年发表的论文“Face recognition using an Embedded HMM”中公开的,该实例是一种面部识别方法。
其他重要的元数据方面涉及确定内容项在创建时间是在哪里创建的,众所周知的是可以使用全球定位系统(GPS)。此外,还开发了这样的系统,该系统尝试分析所创建的内容,以便推断出该内容何处获取该地点。例如,在2004年发表于Proceedings of the Second International Conferenceon Mobile Systems,Applications,and Services(MobiSys2004)inBoston,Massachusetts,ACM Press,36-48的论文“Metadata CreationSystem for Mobile Images”中,所创建的图像可以上传到服务器,以便与其他图像相比较。从这种分析中可以得出,例如,图像是在美国的加州大学伯克利分校校园的“钟楼”塔上拍摄的。
此外,还有很多用于检测概念和对象的成果,相关实例可以参见下列文献:Erik Murphy-Chutorianl、Sarah Aboutalib,Jochen Triesch于2005年发表于Cognitive Science Online第3.2卷第1-14页的论文“Analysis of a Biologically-Inspired System for Real-timeObjectRecognition”以及I.Cohen、N.Sebe、A.Garg、M.S.Lew、T.S.Huang发表于“IEEE InternationalConferenceon Multimedia and Expo(ICME'02)第II卷第121-124页,Lausanne,Switzerland,2002年8月”的论文“Facial Expression Recognition from Video Sequences”。
所有这些内容分析形式都是有用的,但在单独使用这些内容分析时,其可靠性并不满足需要。由此还尝试了引入用户反馈。这种反馈可以用于在内容分析方法结果的置信度为低的情况下产生注解,并且可以用于改善内容分析算法(在线学习)。相关实例可以参见“Semantic Learning andAnalysis of Multimedia”,SLAMproject,IBMRe search,http://www.research.ibm.com/slam/。这些已知的解决方案大多数关注的是如何使用反馈来实施内容分析算法的在线学习。
一种可供用户让他们的内容被注解的完全不同的方法是通过“协作标记”,其相关实例可以参见ScottA.Golder和Bernardo A.Huberman将发表于Journal of Information Science(2006),Information DynamicsLab,HP Labs.的论文“The Structure of Collaborative TaggingSystems”。在该解决方案中,用户可以为上传到网站的任何内容添加注解。
在下文中,注解不但意味着创建元数据,而且还意味着创建用户添加的信息。可选地,可以保存注解来协助未来的浏览或搜索操作。
此外仍旧存在这样一种情况,那就是用户反馈只对向用户提出的显式问题而言是可靠的,并且从用户响应中获取的任何推论都不是完全可靠的。此外,由于处理平台即设备以及设备的不同能力的多种多样,因此,任何单个内容分析算法的结果可被信任的程度将会受到限制。
在图2中更详细地显示了一个实施例,该实施例改进了来自内容分析的输出的质量。使要作注解的内容210可供设备100使用。该内容210可以是照片、音频、视频或某种其他数据形式。内容分析器150使用已知的算法来对内容210进行分析,该算法例如是面部检测算法。该内容分析器150利用内容分析步骤的结果产生第一输出205。所述第一输出205可以只包括注解或注解以及注解中的置信度量度。实际注解以及关于置信度的任何量度都是特定于每一个内容分析算法的,由此特别是置信量度的某种标准化形式会是有用的。举个例子,第一输出205可以包括面部数量、面部代表的人物等等。很多其他的内容分析算法同样是可行的,这些算法关注的是颜色等视频特征或是音量、拍子等音频特征。
第一输出205被传递到注解管理器220。该注解管理器220可以包括注解请求生成器230以及组合器240。注解请求生成器230接收第一输出205,并且根据第一输出205来产生注解请求215。可选地,注解请求生成器230可以只在注解请求215中提供一个连至内容210的链接,由此另外的设备165可以从头分析内容210。注解请求215在内部被传递到网络接口130,从中其在网络180的内部被分发到其他设备,例如另外的设备165。
在本实例中,另外的设备165根据注解请求215来分析内容210。该注解请求215可以是要求从头分析内容210的一般请求,或者它可以是要求分析内容210的某个方面的特定请求。例如,特定请求可以是要求只对在照片中检测到的面部进行分析的请求。在执行了分析之后,另外的设备165将会使用注解结果225来答复注解请求215。独立的注解结果可以由不同的内容分析算法来执行,或者可以根据不同的背景知识来分析。该注解结果225可以只包括注解元数据,或者可选地,它还可以在注解元数据中包含置信度量度。
设备100经由网络接口130接收来自另外的设备165的注解结果225。组合器240接收注解结果225,并且将其与第一输出205相结合。该组合器240对两个独立结果进行分析,并且判定其中一个或两个结果中的质量或置信度,以便提供改进的输出235。所述改进的输出235可以是第一输出205与注解结果225的任何已知组合或函数。
在图3所示的另一个实施例中,注解管理器220可以包括置信等级确定单元310。该置信等级确定单元310被显示成拦截来自内容分析器150的第一输出205。为了清楚起见,应该指出的是,内容分析器150可以是硬件组件或是在处理器120上运行的软件组件。如果内容分析器150没有在第一输出205中提供任何置信度量度,那么置信等级确定单元310可以使用历史信息来估计置信等级。根据第一输出205中的置信等级,置信等级确定单元310可以决定触发注解请求生成器230,以便产生注解请求215,或者将第一输出205经由切换装置320直接传递给改进输出235。如果使用注解请求215来选择路径,那么可以正常处理注解请求215,并且可以在被设置在较低位置的时候将其经由组合器240以及切换装置320传递给改进输出235。
在图4中还显示了另一个实施例。在图4中,注解管理器220可以包括能够从网络180上的设备接收注解请求的注解请求接收机410。该注解请求接收机410能够使用内容分析器150来发起关于内容210的内容分析。如图4所示,所述内容210可以位于远端。所述内容210也可以存储在另外的设备165上。注解管理器220还可以包括注解问题生成器420。该注解问题生成器420可以以可通信的方式耦合到置信等级确定单元310,并且由置信等级确定单元310执行的分析的结果来触发,以便为用户192产生问题。显示器160和用户接口190可以用于这个目的。用户192可以提供反馈415。根据反馈415,注解问题生成器420产生具有高置信等级的注解结果225。该注解结果225可以传递回到注解请求225的发起方。该通信可以由网络接口130来执行,尽管在图4中并未对此进行显示。
在图5中显示了这样一个实施例,其中注解问题可以经由网络接口130传递到包含注解中心管理器520的远端设备510。该注解中心管理器520以与图4所描述方式相似的方式来向用户显示注解问题。该反馈415从远端设备510的注解中心管理器520经由网络180传递到设备100的注解问题生成器420。然后,注解问题生成器420产生注解结果225。同样,注解结果225可以经由网络接口130传递到其他设备。
在图6中显示了这样一个实施例,其中设备100可以充当网络180中的注解中心管理器520。该注解中心管理器520可以包括注解请求接收机410以及注解请求队列620。这样做允许收集注解请求,直至用户192预备给出反馈。该注解请求队列620可以触发用户接口190,以便直接请求来自用户192的反馈。可替换地,注解请求队列620可以触发内容分析器150,以便分析内容210。根据来自用户192的反馈415,废弃请求确定单元630可以在考虑到了用户192提供的反馈415的情况下确定注解请求队列620中的哪些请求现在是废弃的。举个例子,如果在分析了反馈415之后现在可以以高置信度来辨别“John”的面部。其他任何涉及“John”的面部的注解请求都不必转发给用户192。由此,需要的用户192的工作量将会减少。
在图7中显示了作为注解中心管理器520工作的设备100的另一个实施例。注解中心管理器520还可以包括用户邻近度检测单元710。用户邻近度检测单元710可以使用任何已知的手段来检测用户192处于设备100附近。例如,用户邻近度检测单元710可以使用相机、热检测器等等。用户邻近度检测单元710还可以通过记录用户交互以及从这种交互发生时起经过的时间来推断用户192的邻近度。举个例子,如果用户192正在操作或者近期操作过设备100,那么设备100可以推断用户192很有可能位于设备100的附近。然后,用户邻近度检测单元710可以借助指示705来向网络180中的其他设备通知其应该成为当前的中心注解中心管理器,并且需要用户反馈的所有注解请求或问题都应该被引导到设备100。
在图8中显示了一个流程图,该流程图示出了一种用于在设备100的处理器120上实现本发明实施例的方法。在步骤800,内容210被接收,或者至少是使得可以访问。在步骤810,在本地使用内容分析算法来分析内容210,并且产生第一输出205。在步骤820,注解请求215被产生,并且在步骤830,该注解请求215被传递到另外的设备195。在步骤840,注解结果225被从另外的设备195接收。在步骤850,第一输出225和注解结果225被组合,以便提供改进的输出235。
在图9中显示了第二流程图,该流程图指示的是另一种用于在设备100的处理器120上实现本发明实施例的方法。在步骤820之后,有两条并行路径是可能的。第一路径包括如图8的文本中描述的方法步骤,即步骤830和840。第二路径在步骤910中向用户192呈现作为问题的注解请求215。向用户192的呈现可以位于本地设备,例如设备100,或位于另外的设备165之上。关于用户192的精确位置并不重要。但是,重要的是,用户192在步骤920中提供反馈415。在步骤930,第一输出205、注解结果225以及反馈415全都组合在一起,以便提供很高质量的注解作为改进的输出235。
在图10中显示了第三流程图,该流程图指示的是另一种用于在设备100的处理器120上实现本发明实施例的方法。在图10的实施例中,在步骤1010,可以从远端设备接收外部注解请求。步骤910和步骤920与图9中描述的那些步骤相同,但是它们作用于外部注解请求。同样,向用户192的呈现可以位于设备100之类的本地设备,或是另外的设备165。在步骤1020,反馈415可以被传递回到外部注解请求的发起方。这样做允许将注解请求传送到接近用户192的位置。
总而言之,本发明公开了用于给内容作注解的方法和设备。该设备可以包括:用于分析内容并且根据内容分析来产生第一输出的装置,用于产生注解请求的装置,用于通信的装置,所述用于通信的装置适于将注解请求分发到至少一个其他设备和接收来自所述至少一个其他设备的注解结果,以及通过将第一输出和注解结果相结合来提供改进的输出的装置。通过组合来自不同设备的内容分析算法的多个独立结果,所述组合可能根据背景不同的知识,为注解提供了更高质量的结果。
应该指出的是,上述实施例例证而不是限制了本发明,并且本领域技术人员能够在不脱离所附权利要求限定的本发明范围的情况下设计出众多可替换实施例。此外,所描述的任何实施例都包括隐含隐性特征,例如电池或蓄电池之类的内部电流源。在权利要求中,放置在括号中的任何参考符号都不应该被解释成是限制本发明。单词“包含”和“包括”等等并不排除在任何权利要求或整个说明书中列举的元件或步骤之外还存在其他的元件或步骤。关于元件的单数引用并不排除这样的元件的复数引用,反之亦然。在枚举了若干装置的设备权利要求中,这其中的若干装置可以由同一个硬件项来实现。仅仅某些措施是在互不相同的从属权利要求中列举这个事实并不表明不能很有利地使用这些措施的组合。
Claims (14)
1.一种用于给内容作注解的设备(100),该设备包括:
用于分析内容并且根据内容分析来产生第一输出(205)的装置(150),
用于产生注解请求(215)的装置(230),
用于通信的装置(130),所述用于通信的装置适于将注解请求分发到至少一个其他设备(165)以及接收来自所述至少一个其他设备的注解结果(225);以及
通过将第一输出和注解结果相组合来提供改进的输出(235)的装置(240)。
2.权利要求1的设备,还包括:适于向用户呈现注解请求并且从用户接收对注解请求的反馈的用户接口,以及
其中用于组合的装置还组合来自用户的反馈,以便提供改进的输出。
3.权利要求2的设备,其中用于通信的装置还适于接收来自另外的设备的外部注解请求,以及将来自用户的对所述外部注解请求的反馈传递到所述另外的设备。
4.权利要求2或3的设备,还包括注解中心管理器,该注解中心管理器包括:
包含用户的多个未解决注解请求的队列;以及
用于从未解决注解请求的队列中选择选定的未解决注解请求的装置
其中注解中心管理器以可通信的方式耦合到用户接口,以便将所述选定的未解决注解请求传递给用户接口,并且接收来自用户接口的对所述选定的未解决注解请求的反馈。
5.权利要求4的设备,其中注解中心管理器还包括:
用于确定废弃的未解决注解请求的装置,所述废弃的未解决注解请求是被来自用户的对所述选定的未解决注解请求的反馈废弃的未解决注解请求;以及
用于从所述队列中删除所述废弃的未解决注解请求的装置,
其中所述用于通信的装置还适于将所述对所述废弃的未解决注解请求的反馈传递到所述废弃的未解决注解请求的发起方。
6.权利要求1的设备,其中用于通信的装置还适于:
接收用于将另外的设备识别为注解中心管理器的消息;
将外部注解请求传递到所识别的注解中心管理器;以及
从所识别的注解中心管理器接收来自用户的外部反馈,并且
其中用于组合的装置还通过组合来自用户的外部反馈来提供改进的输出。
7.权利要求3的设备,还包括:
用于检测用户处于设备附近的装置,
用于根据所述用户位于设备附近的检测来将所述设备识别成是设备网络中的注解中心管理器的装置,以及
其中用于通信的装置还适于接收来自设备网络的外部注解请求。
8.权利要求1的设备,还包括用于存储改进的输出的装置。
9.权利要求1的设备,其中用于组合的装置还包括置信等级确定单元,该置信等级确定单元适于:
确定第一输出的第一置信等级,该第一置信等级指示的是第一输出正确的置信度;
确定注解结果的第二置信等级,该第二置信等级指示的是注解结果正确的置信度;并且
其中用于组合的装置还适于根据第一置信等级和第二置信等级来组合第一输出和注解结果,以便提供改进的输出。
10.权利要求1的设备,该设备是在包括下列各项的群组中的至少一个中实现的:
机顶盒设备;
数字录像设备;
启用网络的设备;
条件访问系统;
便携式音频播放器;
便携式视频播放器;
移动电话;
DVD播放器;
CD播放器;
基于硬盘的媒体播放器;
因特网无线电设备;
计算机;
电视;
公共娱乐设备;
记忆棒;以及
MP3播放器。
11.一种用于给内容作注解的方法,该方法包括以下方法步骤:
分析内容并且根据所述内容分析来产生第一输出;
产生注解请求;
将注解请求传递到至少一个其他设备,并且从所述至少一个其他设备接收注解结果;以及
将第一输出与所述注解结果相组合,以便提供改进的输出。
12.权利要求11的方法,还包括以下方法步骤:
向用户呈现注解请求,并且从用户那里接收对所述注解请求的反馈;以及
在组合的方法步骤中还组合来自用户的反馈,以便提供改进的输出。
13.权利要求12的方法,还包括以下方法步骤:
接收来自另外的设备的外部注解请求;以及
将来自用户的对所述外部注解请求的反馈传送到所述另外的设备。
14.一种用于给内容作注解的系统,该系统包括用于给内容作注解的多个设备,其中所述多个设备中的每一个设备都包括:
用于分析内容并且根据内容分析来产生第一输出的装置;
用于产生注解请求的装置,用于通信的装置,所述用于通信的装置适于将注解请求分发到至少一个其他设备,并且接收来自所述至少一个其他设备的注解结果;以及
通过将第一输出和注解结果相组合来提供改进的输出的装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP06113731 | 2006-05-09 | ||
EP06113731.1 | 2006-05-09 | ||
PCT/IB2007/051697 WO2007132395A1 (en) | 2006-05-09 | 2007-05-07 | A device and a method for annotating content |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101443763A CN101443763A (zh) | 2009-05-27 |
CN101443763B true CN101443763B (zh) | 2012-10-10 |
Family
ID=38476199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2007800168443A Active CN101443763B (zh) | 2006-05-09 | 2007-05-07 | 用于给内容作注解的设备和方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US8996983B2 (zh) |
EP (1) | EP2018618A1 (zh) |
JP (1) | JP2009536390A (zh) |
CN (1) | CN101443763B (zh) |
WO (1) | WO2007132395A1 (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9141860B2 (en) | 2008-11-17 | 2015-09-22 | Liveclips Llc | Method and system for segmenting and transmitting on-demand live-action video in real-time |
US20100131533A1 (en) * | 2008-11-25 | 2010-05-27 | Ortiz Joseph L | System for automatic organization and communication of visual data based on domain knowledge |
US8769396B2 (en) * | 2009-06-05 | 2014-07-01 | Microsoft Corporation | Calibration and annotation of video content |
US20110096135A1 (en) * | 2009-10-23 | 2011-04-28 | Microsoft Corporation | Automatic labeling of a video session |
US20120116871A1 (en) * | 2010-11-05 | 2012-05-10 | Google Inc. | Social overlays on ads |
US20120159329A1 (en) * | 2010-12-16 | 2012-06-21 | Yahoo! Inc. | System for creating anchors for media content |
WO2012092397A2 (en) | 2010-12-28 | 2012-07-05 | Google Inc. | Targeting based on social updates |
US8737820B2 (en) | 2011-06-17 | 2014-05-27 | Snapone, Inc. | Systems and methods for recording content within digital video |
US9367745B2 (en) | 2012-04-24 | 2016-06-14 | Liveclips Llc | System for annotating media content for automatic content understanding |
US20130283143A1 (en) | 2012-04-24 | 2013-10-24 | Eric David Petajan | System for Annotating Media Content for Automatic Content Understanding |
JP6421421B2 (ja) * | 2014-03-04 | 2018-11-14 | 富士ゼロックス株式会社 | 注釈情報付与プログラム及び情報処理装置 |
US9621962B2 (en) | 2015-01-06 | 2017-04-11 | The Directv Group, Inc. | Methods and systems for recording and sharing digital video |
US10282356B2 (en) | 2016-03-07 | 2019-05-07 | International Business Machines Corporation | Evaluating quality of annotation |
US10929462B2 (en) | 2017-02-02 | 2021-02-23 | Futurewei Technologies, Inc. | Object recognition in autonomous vehicles |
US10785182B2 (en) | 2018-01-02 | 2020-09-22 | Freshworks, Inc. | Automatic annotation of social media communications for noise cancellation |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6819783B2 (en) * | 1996-09-04 | 2004-11-16 | Centerframe, Llc | Obtaining person-specific images in a public venue |
US6970860B1 (en) * | 2000-10-30 | 2005-11-29 | Microsoft Corporation | Semi-automatic annotation of multimedia objects |
US20020103873A1 (en) * | 2001-02-01 | 2002-08-01 | Kumaresan Ramanathan | Automating communication and information exchange |
US7366979B2 (en) * | 2001-03-09 | 2008-04-29 | Copernicus Investments, Llc | Method and apparatus for annotating a document |
US7233933B2 (en) * | 2001-06-28 | 2007-06-19 | Microsoft Corporation | Methods and architecture for cross-device activity monitoring, reasoning, and visualization for providing status and forecasts of a users' presence and availability |
US6690883B2 (en) | 2001-12-14 | 2004-02-10 | Koninklijke Philips Electronics N.V. | Self-annotating camera |
GB0300946D0 (en) | 2003-01-16 | 2003-02-12 | Koninkl Philips Electronics Nv | Personalised interactive data systems |
US7650563B2 (en) * | 2003-07-18 | 2010-01-19 | Microsoft Corporation | Aggregating metadata for media content from multiple devices |
US7392477B2 (en) * | 2003-07-18 | 2008-06-24 | Microsoft Corporation | Resolving metadata matched to media content |
US20050027664A1 (en) * | 2003-07-31 | 2005-02-03 | Johnson David E. | Interactive machine learning system for automated annotation of information in text |
US20050097451A1 (en) * | 2003-11-03 | 2005-05-05 | Cormack Christopher J. | Annotating media content with user-specified information |
US7437005B2 (en) | 2004-02-17 | 2008-10-14 | Microsoft Corporation | Rapid visual sorting of digital files and data |
US7669117B2 (en) * | 2004-03-18 | 2010-02-23 | International Business Machines Corporation | Method and system for creation and retrieval of global annotations |
JP2005309512A (ja) | 2004-04-16 | 2005-11-04 | Olympus Corp | 情報処理プログラム、情報処理方法、情報処理装置及び記録媒体 |
US8392416B2 (en) * | 2007-04-20 | 2013-03-05 | International Business Machines Corporation | Dynamic group creation or reconfiguration based upon available metadata |
-
2007
- 2007-05-07 US US12/300,144 patent/US8996983B2/en active Active
- 2007-05-07 CN CN2007800168443A patent/CN101443763B/zh active Active
- 2007-05-07 JP JP2009508628A patent/JP2009536390A/ja active Pending
- 2007-05-07 EP EP07735783A patent/EP2018618A1/en not_active Ceased
- 2007-05-07 WO PCT/IB2007/051697 patent/WO2007132395A1/en active Application Filing
Non-Patent Citations (1)
Title |
---|
Olga Volgin etc..Context-Aware Metadata Creation in a Heterogeneous Mobile Environment.《ACM NOSSDAV"05》.2005,75-79. * |
Also Published As
Publication number | Publication date |
---|---|
WO2007132395A1 (en) | 2007-11-22 |
US20090164462A1 (en) | 2009-06-25 |
US8996983B2 (en) | 2015-03-31 |
JP2009536390A (ja) | 2009-10-08 |
EP2018618A1 (en) | 2009-01-28 |
CN101443763A (zh) | 2009-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101443763B (zh) | 用于给内容作注解的设备和方法 | |
US10341461B2 (en) | System and method for automatically recreating personal media through fusion of multimodal features | |
KR101530410B1 (ko) | 컴퓨터 및 미디어 플레이어에서 소비되는 컨텐츠에 대한 복수 등급의 컨텍스트의 제공 | |
US8527525B2 (en) | Providing multiple degrees of context for content consumed on computers and media players | |
KR101894394B1 (ko) | 컨텐츠 공유 방법 및 컨텐츠 공유 단말 | |
US20150032535A1 (en) | System and method for content based social recommendations and monetization thereof | |
CN107390777A (zh) | 双屏触觉启用的可转换膝上型计算机 | |
CN111078939A (zh) | 提取并提供视频内容中精彩图像的方法、系统及记录介质 | |
CN103765417B (zh) | 视频内容注释和/或推荐的方法和设备 | |
US20100122174A1 (en) | System and method for interfacing interactive systems with social networks and media playback devices | |
KR20150132074A (ko) | 콘텐트를 구성하는 방법 | |
KR101772361B1 (ko) | 메신저를 통한 컨텐츠 제공 방법과 시스템 및 기록 매체 | |
CN107368508A (zh) | 利用通讯工具服务的关键词检索方法及系统 | |
US10726087B2 (en) | Machine learning system and method to identify and connect like-minded users | |
US9015607B2 (en) | Virtual space providing apparatus and method | |
US20170251504A1 (en) | Apparatus and method for requesting and transferring contents | |
KR101976816B1 (ko) | SaaS 어플리케이션 연동 서비스의 제공장치 및 그 제공방법 | |
CN104090878B (zh) | 一种多媒体查找方法、终端、服务器及系统 | |
KR20160037335A (ko) | 소셜 서비스와 결합된 동영상 서비스를 제공하는 방법과 시스템, 그리고 기록 매체 | |
CN103959803A (zh) | 使用共享视频装置和个人装置的个性化视频内容消费 | |
US20230260549A1 (en) | Information processing apparatus, information processing method, and program | |
Venkatesh et al. | “You Tube and I Find”—Personalizing multimedia content access | |
CN107798003A (zh) | 与智能文本分段共享的可定制内容 | |
KR101606311B1 (ko) | 표시 장치를 이용하는 미디어 콘텐츠의 소비의 모바일 장치를 이용한 보완 | |
KR102298695B1 (ko) | 소셜 플랫폼을 통해 동영상 콘텐츠를 제공하는 방법과 시스템, 그리고 컴퓨터 판독가능 기록 매체 및 파일 배포 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |