CN105474207A

CN105474207A - 用于搜索多媒体内容的用户界面方法和设备

Info

Publication number: CN105474207A
Application number: CN201480042678.4A
Authority: CN
Inventors: 郑哲虎; 新承爀; 柳辅铉; 朱宰石
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2013-05-28
Filing date: 2014-05-28
Publication date: 2016-04-06
Anticipated expiration: 2034-05-28
Also published as: EP3007084A4; EP3007084A1; CN105474207B; WO2014193161A1; KR20140139859A; US20160103830A1; KR102161230B1

Abstract

本发明的各实施例涉及：与用于对查询和查询结果进行查询以基于例如视频的多媒体内容中的内容搜索所需场景的方法相关的用户界面方法和设备，所述用于搜索内容的方法包括以下步骤：通过用户界面接收用于搜索内容的查询输入；通过使用与所述内容相关联的描述信息来检测与所述查询相对应的部分内容中的至少一个，作为查询结果；基于与部分内容中的至少一个中的每一个相对应的播放时段来确定用于显示所述查询结果的位置；通过考虑部分内容的长度和/或所述查询结果之间的相对距离，确定与查询结果相对应的场景标记的尺寸或显示所述查询结果的区域的尺寸；以及根据所确定的查询结果的位置和相关尺寸至少部分地显示至少一个查询结果。

Description

用于搜索多媒体内容的用户界面方法和设备

技术领域

本公开涉及用于支持查询输入和查询结果输出以检测多媒体内容中的所需帧、场景或镜头并向用户提供检测到的帧、场景或镜头的用户界面技术。

背景技术

随着计算技术的发展，例如音乐、视频、图像等的多媒体内容的创建以及多媒体内容的传输和购买已经变得简单，并且因此内容的数量和质量已经非常迅速地提高。例如，可以在例如智能电话、便携式多媒体播放器(PMP)、平板计算机、控制台游戏机、台式计算机等的电子设备中存储人拍摄的许多图像、记录的图像、购买的音乐文件和下载的电影文件等，并且可以在每个电子设备中搜索内容，或者还可以搜索/共享通过有线/无线通信装置连接的另一电子设备的内容。此外，可以通过视频点播(VoD)服务实时地搜索视频或通过经由互联网访问例如Youtube的视频共享网站来搜索视频并可以显示找到的视频。

同时，视频内容技术向具有高压缩率的编码/解码技术应用高分辨率和高音质的多媒体内容。

结果，对于无论何时何地只要用户喜欢就搜索电子设备中的大量内容并对用户想要的场景进行划分和搜索的用户愿望增加，并且要处理的数据量和复杂度也增加。

发明内容

技术问题

因此，运动图像专家组(MPEG)-7标准被提出作为能够分析多媒体内容并基于分析的内容有效地显示多媒体内容的整体或一部分的代表性描述技术。

MPEG-7被正式称为多媒体内容描述接口，并与国际标准化组织(ISO)和国际电工委员会(IEC)联合技术委员会下的MPEG中的多媒体数据的基于内容的搜索的内容表达方案的国际标准相对应。

MPEG-7定义能够表达视听(AV)数据的内容的描述符的标准、定义用于系统地描述AV数据和语义信息的结构的计划的描述方案(DS)以及作为用于定义描述符和描述方案的语言的描述定义语言(DDL)。

MPEG-7处理多媒体数据的内容的表达方法，并可以被主要划分为针对包括语音或声音信息的音频数据的基于内容的搜索、针对包括图片或图表的静止图像数据的基于内容的搜索、以及针对包括视频的视频数据的基于内容的搜索。

例如，可以使用作为MPEG(运动图像专家组)-7内的一类「概述DS」(描述方案)的「序列概述DS」来描述与图像或音频数据同步的样本(sample)视频帧序列。当用户请求样本视频时，MPEG-7文档可以生成，通过可扩展样式表语言(XSL)转换为超文本标记语言(HTML)，并在网络中示出。

通过例如MPEG-7的技术，定义用于表达关于例如视频、音频数据、图像等的多媒体内容的信息的元数据结构，因此可以使用根据标准生成的MPEG-7文档来提供根据用户的各种查询找到的结果。

MPEG-7是通过基于可扩展标记语言(XML)的文档做出的并用于描述内容中的内容的属性。因此，未提供提取或搜索内容中的内容的方法，使得正在发展执行查询并搜索搜索结果的各种方法。

当应用这种技术时，可以基于相应多媒体内容的样本提供电影预告片服务，或可以提供包括短视频的索引服务或搜索所需场景的服务。MPEG-7与代表性内容内容描述方法相对应，但是可以使用其他描述方法。

视频是使用压缩方案编码的，并具有例如MPEG、Windows媒体视频(WMV)、RealMedia可变比特率(RMVB)、MOV、H.263、H.264等的编解码器类型。可以使用例如包括在压缩数据中的运动矢量、残余信号(离散余弦变换(DCT))、整数系数和宏块类型的各种信息来处理用于识别和跟踪压缩数据中的对象的技术。这种算法可以包括基于马尔可夫随机场(MRF)的模型、相异性最小化算法、概率数据关联滤波(PDAF)算法、概率空时宏块滤波(PSMF)算法等。

图像的分析元素可以包括轮廓、颜色、对象形状、质地、形式、面积、静止/运动图像、音量、空间关系、变形、对象的来源和特征、颜色的改变、亮度、模式、字符、记号、上色、符号、手势、时间等，并且音频数据的分析元素可以包括频率形状、音频对象、音色、和声、频率分布、声压、分贝、语音的节奏内容、声源的距离、空间结构、音色、声音的长度、音乐信息、声音效果、混合信息、持续时间等。文本包括字符、用户输入、语言的类型、时间信息、内容相关信息(出品人、导演、标题、演员名字等)、注释等。

可能单独找到或考虑各种信息与适合于该情况的信息一起找到这种信息。例如，可以仅基于男演员的名字来搜索视频中的场景。然而，除此以外，如果搜索“男演员在下雨天拿着雨伞跳舞同时演唱“雨中唱歌”的歌曲的场景”，则必须考虑复杂的情况以通过视频图像分析和音频分析找到相应场景。在这种情况下，可以将男性图像、下雨场景、雨伞和动作检测应用为要在视频磁轨中找到的描述符，可以在音频磁轨中搜索男性语音模式、歌曲和语音的内容，并且可以在字幕磁轨的文本中搜索短语“雨中唱歌”。因此，可以分析要在每个磁轨中找到的查询内容，以根据一个或更多个磁轨中的每一个来合适地应用查询内容。

通常，视频分析使用分析通过连续收集基本关键帧生成的镜头和通过多个收集的镜头而具有语义关系的场景的方法。镜头指的是不停地拍摄或记录直至一个摄像机结束从头开始的拍摄。镜头集合在一起以形成场景，并且一系列场景集合在一起以形成序列。基于图像解析，可以分析图像内的对象之间的关系、图像之间的对象、运动和图像改变，并可以提取关于图像的信息。在音频数据的情况下，可以使用扬声器识别、语义语音识别、基于声音的感情识别、空间印象等分析相应情况和时间戳。在字幕的情况下，可以根据图像中存在字幕并且单独地存在字幕文件的情况通过图像分析或文本分析来分析并提取信息，并可以在MPEG7或类似场景中对提取出的信息结构化。

可以在各种方法中找到提取出的信息。可以基于例如实例查询(QBE)、草图(sketch)查询(QBS)或语音识别的方案来输入文本或可以输入要搜索的信息，并且搜索所需场景、声音或字符，以确定与情境相匹配的位置。在QBE中，用户搜索所需图像并对所需图像和类似图像进行比较。在QBS中，用户绘制所需的整个图像，以找到类似图像。

作为对图像进行分析、查询和搜索的方法，已经引入了各种技术。所述方法包括IBM的QBIC、卡内基梅隆大学的Informedia、MIT的照片簿(photobook)、哥伦比亚大学的VisualSeek、伯克利大学的Chabot、索尼的US注册专利no.US7284188、LG的韩国注册专利no.KR10-0493635、ETRI的韩国注册专利no.KR10-0941971、KBS技术研究机构的自动元数据发生器(OMEGA)系统、Blinkx的视频搜索引擎blinkx(http://www.blinkx.com)、Riya.com的Like.com等，并且还包括除上述以外的其他方法。

本发明的各实施例提供了关于输入查询并搜索查询结果以基于例如视频的多媒体内容找到所需场景的方法的用户界面方法和装置。

本发明的各实施例提供了用于在视频的进度条上显示与一个或更多个查询结果相对应的缩略图或样本场景视频(视频章节功能)，以允许用户容易地并且直观地掌握查询结果在视频中的时间位置和长度，并在一个屏幕上搜索查询结果中的所需场景的方法和装置。

本发明的各实施例提供了通过以下方法执行容易搜索的方法和装置：提供在查询结果的数量很大并且因此查询结果在屏幕上被显示得非常小或一些查询结果被隐藏时使用的放大镜功能和针对聚焦到的查询结果的导航功能，以及提供例如预览和控制搜索屏幕的尺寸的功能。

本发明的各实施例提供了用于评估查询的匹配程度并根据匹配程度区别地提供显示查询结果的位置、尺寸、图形效果以及声音效果的方法和装置。

本发明的各实施例提供了用于通过经由各种方案(图像、音乐、屏幕捕获、草图、手势识别、语音识别、面部识别、运动识别等)执行查询来向用户提供方便的用户界面的方法和装置。

本发明的各实施例提供了用于存储查询结果并当用户请求相同的查询结果时再次显示查询结果的方法和装置。

本发明的各实施例提供了用于根据视频磁轨、音频磁轨和文本磁轨中的每一个分析内容中的内容的方法和装置。

技术解决方案

根据本发明的各实施例，一种搜索内容的方法包括：通过用户界面接收用于搜索所述内容中的内容的查询的输入；通过使用与所述内容相关的描述来检测与所述查询相对应的所述内容的至少一部分内容，作为所述查询的结果；确定显示查询结果的位置；考虑到所述内容的所述部分内容的长度和所述查询结果之间的相对距离中的至少一个，确定与所述查询结果相对应的场景标记的尺寸或显示所述查询结果的区域的尺寸；以及根据所确定的所述查询结果的位置和相关尺寸至少部分地显示一个或更多个查询结果。

根据本发明的各实施例，一种输入针对在内容中基于内容的查询的用户查询的方法，包括：通过用户输入界面设置要搜索的内容；设置针对搜索要搜索的内容中的内容的查询；通过使用关于要搜索的内容的描述信息来搜索与查询相对应的内容的部分内容，作为查询结果；以及基于查询匹配程度来显示一个或更多个检测到的查询结果。

根据本发明的各实施例，一种电子设备包括：一个或更多个处理器；存储器；以及存储在存储器中并配置为由所述一个或更多个处理器执行的一个或更多个程序。所述程序包括以下命令：通过使用用户输入界面输入针对搜索所述内容中的内容的查询；通过使用与所述内容相关的描述信息来检测与所述查询相对应的所述内容的至少一部分内容，作为所述查询结果；基于与所述内容中的至少一个内容中的每一个相对应的回放时段来确定显示所述查询结果的位置；考虑所述内容的部分内容的长度和所述查询结果之间的相对距离中的至少一个，确定与查询结果相对应的场景标记的尺寸或显示所述查询结果的窗口的尺寸；以及根据所确定的所述查询结果的位置和所确定的相关尺寸至少部分地显示一个或更多个查询结果。

根据本发明的各实施例，一种电子设备包括：一个或更多个处理器；存储器；以及存储在存储器中并配置为由所述一个或更多个处理器执行的一个或更多个程序。程序包括以下命令：通过用户输入界面设置要搜索的内容；设置针对搜索要搜索的内容中的内容的查询；通过使用关于要搜索的内容的描述信息来检测与查询相对应的内容的部分内容；以及基于查询匹配程度来显示一个或更多个检测到的查询结果。

有益效果

根据本发明的各实施例，关于例如视频、音乐等的多媒体内容，概述了场景或将主场景形成为要以预览形式或全视图提供的缩略图或样本场景文件。

附图说明

图1示出了根据本发明的各实施例的视频内容搜索查询的结果屏幕；

图2示出了根据本发明的各实施例的视频内容搜索查询结果；

图3示出了根据本发明的各实施例在视频内容搜索查询结果中搜索特定场景的方法的示例；

图4示出了根据本发明的各实施例的在视频内容搜索查询的结果屏幕中使用放大镜功能的搜索方法；

图5示出了根据本发明的各实施例当搜索视频内容时根据每个磁轨寻找视频内容的方法；

图6示出了根据本发明的各实施例的用于搜索视频内容的查询界面屏幕；

图7示出了根据本发明的各实施例的通过图像识别的查询方法的界面屏幕；

图8示出了根据本发明的各实施例的用于搜索视频内容的各种查询界面屏幕；

图9示出了根据本公开的各实施例的用于搜索查询结果的屏幕；

图10是示出了根据本发明的各实施例的电子设备显示查询结果的过程的流程图；

图11是示出了根据本发明的各实施例的电子设备显示查询结果的过程的流程图；

图12是示出了根据本发明的各实施例的电子设备显示查询结果的过程的流程图；以及

图13是根据本发明的各实施例的电子设备的框图。

具体实施方式

在下文中，将参照附图详细地描述本发明的各实施例。此外，在本发明的以下描述中，当在此结合的公知功能或结构可能使本发明的主题不清楚时，将省略对这些公知功能和结构的详细描述。以下将描述的术语是考虑本发明中的功能所定义的术语，并且可以根据用户、用户的意图或顾客而异。因此，应基于整个说明书的内容，来定义这些术语。

本发明的各实施例将描述关于执行查询并搜索查询结果以基于例如视频的多媒体内容找到所需场景的方法的用户界面方法和装置。

图1(a)-1(d)示出了显示根据本发明的各实施例的视频内容搜索查询的结果的屏幕。

图1(a)示出了在执行查询之前的一般视频用户界面。在视频的回放期间，可能出现播放/停止按钮102、快进按钮104、回退按钮100和进度条(或进程条)105或滚动条。在图1(a)中，当在回放期间暂停视频时，屏幕停止。这时，可以在进度条105上与停止的屏幕相对应的位置处显示进度状态标记110。

这里，尽管以条形式示出了进度条105，但是进度条105可以具有圆周地旋转的旋转球(spinner)形式。此外，根据本发明的各实施例，进度条105不限于条形式或旋转球形式，并且可以具有各种形状或尺寸的形式。进度条105是用于显示视频回放的进度状态的图形用户界面(GUI)组件之一。根据各实施例，可以与百分比一起显示进度条105。

当在停止状态中或当播放视频时通过预定接口方法(例如文本输入、语音识别、查询图像选择等)执行查询输入时，图1(b)-1(d)中所示的示例之一可以被显示为查询结果的实施例。稍后将更详细描述用于输入查询的用户界面和方法。

如图1(b)中所示，可以通过使用一个或更多个场景标记在进度条上显示与查询相对应的搜索结果(例如与查询相对应的关键帧、镜头或场景的位置)。可以使用与查询相对应的关键帧、镜头或场景的开始位置来显示场景标记。根据另一实施例，可以根据与查询相对应的关键帧、镜头或场景的长度来各种各样地显示场景标记。即，可以根据与查询相对应的关键帧、镜头或场景的位置或长度来确定场景标记的长度、尺寸和形状中的多个之一。例如，如图1(b)-1(d)中所示，标记的长度可以根据与查询相对应的关键帧、镜头或场景的长度而不同。这里，多个场景标记120与同查询相对应的关键帧、镜头或场景相对应，并且可以用预定的长度或尺寸在进度条105上的相应位置处显示与查询相对应的关键帧、镜头或场景中的每一个。例如，可以通过标记显示与查询相对应的镜头和场景中的每一个从开始位置到结束位置的区域。在另一示例中，标记的长度或尺寸可以不同于与查询相对应的关键帧、镜头或场景的长度。当与查询相对应的关键帧、镜头或场景的长度非常短因此很难在进度条105上显示关键帧、镜头或场景时，可以通过具有大于等于1个像素的预定尺寸的标记来显示关键帧、镜头或场景，以实现容易的显示或用户界面输入。例如，当使用触控笔时，可以使用与用手指触摸进行输入的情况相比具有更少数量像素的标记。

根据另一实施例，当在进度条上布置的与查询相对应的多个关键帧、镜头或场景之间的间隔比预定长度短时，一个标记可以显示连续布置的多个查询结果的位置。

根据另一实施例，当与多个查询相对应的关键帧、镜头或场景中与一个查询结果B相对应的标记的长度或尺寸非常短或小时，可以将标记的长度或尺寸放大至一个预定点，该预定点在位于查询结果B之前的查询结果A的结束位置之后，并且在位于查询结果B之后的查询结果C的开始位置之前。通过限制可以显示的一个标记的长度或尺寸，可以防止一个标记被显示得过长或过大。

同时，除了在进度条105上通过场景标记120显示与查询相对应的关键帧、镜头或场景以外，还可以计算查询与搜索结果之间的匹配程度，并可以根据计算出的匹配程度区别地显示场景标记的颜色、尺寸或形状。例如，当查询与搜索结果之间的匹配程度是70％或更高时指派“高”，当匹配程度小于70％且大于50％时指派“中”，并且当匹配程度小于50％时指派“低”。在这种情况下，可以给被分类为“高”匹配程度的结果提供视觉效果，使得结果将突出。根据实施例，可以向具有高于预定参考的匹配程度的结果提供例如红色的醒目颜色、例如闪烁的动画效果或例如星形或数字的形状效果，或者其所显示的缩略图或样本场景视频的尺寸可以变得相对更大。相反，当匹配程度低时，可以通过深色或透明度来指派不显著的效果，或者可以将所显示的缩略图或样本场景视频的尺寸显示得更小。

可以通过声音或触觉信息的改变以及视觉改变来指示关于匹配程度的信息。根据实施例，可以向场景标记指派场景标记属性信息，例如使被分类为具有“高”匹配程度的结果更醒目，使其声音的音量高于或等于预定参考，或向其提供与预定参考相比更高或相等的强触觉效果。当在由用户界面指派了场景标记属性的场景标记中生成了例如触摸、悬停、拖拽、鼠标点击或笔输入的输入时，可以输出与属性信息相对应的声音或触觉反馈。

在查询结果的初始屏幕中，如图1(b)中所示仅显示场景标记120，然后可以通过分离的用户界面搜索与特定场景标记相对应的图像或视频内容。例如，如图1(c)-1(d)中所示，可以通过特定缩略图或特定样本场景视频以及场景标记120来显示与查询相对应的搜索结果。例如，图1(c)示出了查询结果的初始屏幕的示例。显示与最接近当前暂停位置110的场景标记的位置130相对应的缩略图或样本场景视频。在图1(d)中，显示与下一个最接近当前暂停位置110的场景标记140相对应的缩略图或样本场景视频。当在图1(c)的场景中选择了下一个按钮图标时，标记可以被移至下一场景标记，并且可以如图1(d)中所示显示与下一场景标记相对应的缩略图或样本场景视频，或者在其他情况下当在图1(d)中选择了前一按钮图标时，标记可以移至图1(c)的场景标记。因此，通过前一按钮图标100或下一按钮图标104，可以搜索与场景标记相对应的缩略图或样本场景视频。

这里，屏幕中所示的缩略图可以是被显示为小于原始图像的例如包括与查询结果相对应的帧、场景或镜头的代表图像的图像，以搜索简要信息。当查询结果与至少两个帧、一个或更多个镜头或一个或更多个场景相对应时，样本场景视频是由根据查询结果获得的至少两个帧组成的视频。样本场景视频可以使用或提取包括在查询结果中的视频或图像。例如，镜头或场景可以使用以预定时间间隔从包括在相应内容中的视频帧中提取之后获得的图像帧来生成，或者可以包括使用以下各种方法获得的图像：在相应内容的视频帧中收集主屏幕切换时间点的图像(如具有包括颜色改变、运动改变、亮度改变等的快速屏幕改变的图像)或收集随机图像。

这时，可以改变当前搜索的场景标记的场景标记属性(例如颜色、形状、尺寸等)，因此场景标记可能变得更加显著。此外，通过回放期间的场景标记属性(例如，声音效果、触觉效果或通过光的反馈)，可以将各种反馈提供给用户。根据实施例，在回放期间与查询结果相对应的时间点或在预定时间前的时间点，可以提供警报效果或触觉效果以允许用户容易地识别查询结果。可以各种各样地使用这些效果。当基于特定演员、运动员或歌手的名字进行查询时，声音、触觉效果和发光二极管的闪光中的至少一个可以在视频或音频数据的回放期间在相应人出现的场景开始时或之前使得用户注意到结果。根据另一实施例，当播放与查询结果相对应的场景时，可以自动增加音频音量，或可以在静音模式中激活音频设备。相反的情况是可能的，也就是说，可以在与查询结果不对应的场景中激活静音模式。可以提供这些方案中的至少一个。

图2示出了根据本发明的各实施例的视频内容搜索查询结果的搜索屏幕。

图2(a)-2(d)示出了通过指向场景标记中与查询结果相对应的特定场景标记对与特定场景标记相对应的缩略图或样本场景视频的预览的示例。

图2(a)示出了当指向特定场景标记200时与特定场景标记200相对应的缩略图或样本场景视频的预览的示例，并且图2(b)示出了当指向特定场景标记210时与特定场景标记210相对应的缩略图或样本场景视频的预览的示例。

即，当通过笔或手指进行触摸时，指向最接近接触部分的中心位置的场景标记，因此生成与相应场景标记200或210相关联的结果。根据另一实施例，指向方法可以通过触控笔、手指等使用悬停功能。悬停可以指根据笔或手与触摸屏的表面之间的距离而不是直接接触来检测指向位置，并且还可以称为浮窗预览、悬浮触控等。通过这种技术，可以在悬停状态中搜索与场景标记一起显示的缩略图或样本场景视频，并且在选择或接触相应位置时可以执行实际视频播放器的寻找功能。

因此，不同于指定回放位置的点击或触摸，在接近预览功能的缩略图或样本场景视频的情况下，可以使用悬停来仅搜索与查询结果相对应的缩略图或样本场景视频，而不对回放状态产生任何影响。例如，通过在选择查询结果之一以实际回放视频之前在进度条上简单的悬停，可以在搜索时寻找与查询结果中的每一个相对应的每个缩略图或样本场景视频，使得悬停对于找到实际所需的位置有用。可以通过由鼠标、操纵杆或拇指指点杆的指向、鼠标拖拽、手指触摸轻弹、向触摸设备的手势输入和语音识别中的一个或更多个来执行指向方法。通过触摸、悬停或指向缩略图或样本场景视频，可以搜索相应缩略图或样本场景视频，或可以从相应位置播放原始内容。

虽然图2(a)和2(b)提供了通过指向逐个搜索查询结果的方法，但是图2(c)或2(d)可以提供同时搜索多个查询结果的方法。在图2(c)的情况下，可以在屏幕上显示可以以固定尺寸和间隔显示的缩略图和样本场景视频。在图2(d)的情况下，根据显示更多缩略图或样本场景视频的方法，可以首先将与当前指向的场景标记相对应的信息(例如，缩略图或样本场景视频)显示为具有最高优先级，并且剩余信息可以被显示为具有低优先级。例如，随着优先级越高，信息的显示区域或显示量可以增加。可以将具有低优先级的与场景标记相对应的信息显示为彼此重叠。根据另一实施例，可以通过边缘的阴影效果、3D效果、边缘宽度或形状的改变或装饰将与所指向的场景标记230或240相对应的缩略图图像或样本场景视频与其他缩略图或样本场景视频区分开来，或者当指向缩略图或样本场景视频时，可以与声音效果或触觉效果一起向用户提供反馈。

当同时显示多个场景标记时，可能限制显示与多个场景标记相对应的缩略图或样本场景视频。为此，可以显示在当前指向的场景标记之前和之后的合适数量的缩略图或样本场景视频。例如，当可以在一个屏幕上显示十个缩略图或样本场景视频时，如果指向左侧的第一场景标记则可以显示与第一至第十场景标记相关的缩略图或样本场景视频，并且如果指向第十场景标记则可以显示与第六至第十四场景标记相关的缩略图或样本场景视频。这时，每当依次改变场景标记的指向时，可以改变所显示的场景标记信息的范围，并且可以每隔预定数量的场景标记改变范围。例如，当指向第二场景标记时，可以通过控制第七或第八场景标记的范围来显示第四至第十三场景标记的范围中的缩略图或样本场景视频，而不是显示关于第二至第十一场景标记的信息。

根据另一实施例，当显示关于多个场景标记的信息(例如与场景标记相关的缩略图或样本场景视频)时，默认指定一个场景标记以提供指向效果，使得不能作出通过笔的单独的触摸、悬停或指向。在这种情况下，可以通过指向、触摸或悬停来选择要搜索的场景标记，并且可以通过图1的前一按钮图标和后一按钮图标来依次搜索场景标记。

根据另一实施例，可以向多个场景标记中所指向的场景标记200、210、230和240指派与未选择的场景标记的属性信息不同的属性信息。例如，通过向所指向的场景标记指派例如颜色、形状、尺寸、动画、亮度等属性，该场景标记可以与未被选择的其他场景标记具有视觉差异。

图3示出了根据本发明的各实施例在视频内容搜索查询的结果中搜索特定场景的方法的示例。

图3(a)至3(d)是针对缩略图和样本场景视频的各种搜索的实施例，其中在保持相应尺寸或用较大屏幕进行回放时，可以仅显示所指向的样本场景视频。根据实施例，用于搜索缩略图或样本场景视频的屏幕可以在使用场景标记来搜索缩略图或样本场景视频的同时切换至更大的屏幕，并且稍后可以在相应位置处重新开始视频的回放。

图3(a)示出了当指向场景标记中与查询结果相对应的场景标记300时所示的屏幕。可以根据用户输入将与所指向的场景标记相对应的小缩略图切换至图3(b)中所示的大屏幕。例如，当针对特定场景标记的悬停保持了较长时间或触摸持续了预定时间时，可以显示放大的缩略图或样本场景视频。这时，与特定场景标记相对应的小缩略图或样本场景视频可以被保持并显示或者可以消失并不显示。

根据另一实施例，当指向特定场景标记310时，可以显示与特定场景标记310相对应的小缩略图或样本场景视频320，并且当触摸或悬停在与特定场景标记相对应的所显示的缩略图或样本场景视频320时，可以显示放大的缩略图或样本场景视频。当显示放大的缩略图或样本场景视频时，可以不显示与特定场景标记相对应的小缩略图或样本场景视频320。即，可以在屏幕上仅显示放大的缩略图或样本场景视频。同时，当在屏幕上显示放大的缩略图或样本场景视频时，可以显示用于放大的缩略图或样本场景视频的回退按钮321/播放按钮322/快进按钮323。例如，回退按钮321是用于示出前一缩略图或样本场景视频的浏览按钮，快进按钮323是用于示出下一个缩略图或样本场景视频的浏览按钮，并且播放按钮322可以用于以定期时间间隔依次示出缩略图或样本场景视频或暂停缩略图或样本场景视频的示出的幻灯片放映功能。

根据另一实施例，可以使用用于搜索场景标记的按钮311、312和313来替代用于放大的缩略图或样本场景视频的回退按钮321/播放按钮322/快进按钮323。即，在可以放大缩略图或样本场景视频之前，按钮321、322和323用作用于搜索场景标记的按钮。在放大缩略图或样本场景视频之后，按钮311、312和313可以用作用于放大的缩略图或样本场景视频的浏览按钮，并用于幻灯片放映功能。

图3(c)中示出了与场景标记330相对应的放大的缩略图或样本场景视频的窗口中所示的屏幕的用户界面的示例。在放大的屏幕的下侧上示出的界面可以接收用于控制样本场景视频的用户输入(例如，回退/播放/暂停/快进)。根据另一实施例，界面可以用作用于示出前一缩略图和下一缩略图的输入界面。播放按钮322可以用于以定期时间间隔依次示出查询结果的缩略图的幻灯片放映功能。

图3(d)示出了以下情况：在显示放大的缩略图/样本场景视频的状态或在放大缩略图/样本场景视频之前的状态中释放查询结果搜索模式时，与查询结果相对应的场景标记消失并且视频在所选场景标记的位置340处暂停，或者视频的回放从所选场景标记的位置340处开始。可以通过例如菜单或按钮的特定输入模式项目来执行搜索模式的结束。备选地，当悬停结束或直到在悬停结束之后经过了预定时间才进行输入时，如果在与相应查询结果相对应的场景标记上生成了例如双触摸、双击、触摸、触摸并保持等特定事件，则可以执行搜索模式的结束。针对整个原始视频而不是与查询结果相对应的样本场景视频执行视频的回放，其用于根据查询结果从相应位置对相应视频的回放。

图4示出了根据本发明的各实施例的在视频内容搜索查询结果屏幕中使用放大镜功能的搜索方法。

图4(a)-4(d)示出了用于使用放大镜功能的场景标记搜索方法的用户界面。例如，当与查询结果相对应的场景标记在进度条上彼此接近或标记宽度的尺寸过窄或过小以致于不能选择时，可以使用放大并显示相应区域的放大镜功能。

在图4(a)的情况下，当与查询结果相对应的场景标记中的三个彼此接近时，如果在场景标记彼此接近的区域附近生成悬停或触摸，则显示接近悬停或触摸的标记的一个或更多个缩略图或样本场景视频，并聚焦到最接近悬停或触摸的场景标记的缩略图或样本场景视频。聚焦到的信息可以具有与其他相邻信息相比更大的尺寸或形状，或者可以具有不同的形式，并因此可以变得醒目。为了搜索相邻信息，如果聚焦到缩略图或样本场景视频，然后聚焦移至另一缩略图或样本场景视频，则可以用高亮的形式提供相应屏幕。

在另一示例中，图4(b)示出了如附图标记410指示的当场景标记彼此接近相差预定参考或更多时，提供放大镜功能以选择场景标记的情况。当在相应场景标记附近生成悬停或触摸时，可以通过放大镜功能放大场景标记，包括相应场景标记。当在扩展区域中生成了例如触摸或悬停的用户输入事件时，可以突出显示相应的缩略图或样本场景视频。根据各实施例，放大镜功能可以根据需要放大并显示进度条上的一些区域，而不论场景标记是否彼此接近。也就是说，进度条上的一些放大的区域可以根据用户的指向移动。在这种情况下，在放大镜内部的区域中由用户输入指向的位置的移动可以与放大成比例地大于放大镜外部的区域中的移动。例如，如果在放大镜外部的区域中需要指向位置移动10个像素以选择与一个标记连续的另一标记，则需要在2x放大的放大镜区域内移动20个像素以选择另一相应标记。

图4(c)和4(d)示出了仅显示一个缩略图或样本场景视频的情况420和作为放大镜功能的其他示例显示若干缩略图或样本场景视频的情况430。这里，可以通过添加用于放大和缩小一个或更多个缩略图或样本场景视频的放大镜的放大和缩小功能421、422、431和432来控制所显示的信息的尺寸。不同于图4(b)，在图4(c)和4(d)中，可以在放大镜窗口中示出缩略图或样本场景视频以及进度条和场景标记。此外，通过放大镜的放大和缩小功能，可以控制窗口内所有元素的尺寸或仅可以控制缩略图或样本场景视频的尺寸。因此，可以放大/缩小放大镜窗口内的至少一个元素。放大镜窗口内的场景标记上的记号意味着当前聚焦到相应场景标记。

当在放大镜窗口内的场景标记上调整指向位置时，可以根据放大镜窗口的场景标记区域而不是原始尺寸的场景标记区域来确定指向、触摸等的用户界面输入位置。如果根据原始尺寸区域而不是放大镜窗口内的区域中的场景标记来处理例如悬停、触摸等的用户输入，则小移动导致放大镜窗口中过大的移动，使得可能很难在非常小或接近的场景标记中准确地指定一个所需场景标记。

当在智能电话、平板计算机等中将风景模式切换至肖像模式时，放大镜功能可能是有用的。

在另一示例中，尽管未示出，但是当在一个放大镜窗口内布置多个缩略图或样本场景视频时，可以以网格型布置提供缩略图或样本场景视频。在另一示例中，当不能在一个放大镜窗口内显示多个缩略图或样本场景视频时，可以以可以滚动的列表形式或图像幻灯片形式来提供缩略图或样本场景视频。

在另一示例中，当设备旋转时，由加速度计、地磁传感器等检测到旋转，并且将基于旋转来旋转图形用户界面(GUI)屏幕的功能应用于便携式电话、平板计算机等。在这种情况下，可以根据风景模式用户界面(UI)的类型和肖像模式UI的类型来适当地确定要显示信息的数量或形状。

图5示出了根据本发明的各实施例当搜索视频内容时根据每个磁轨寻找视频内容的方法。

图5(a)-5(e)示出了根据每个磁轨寻找的场景标记的结果。也就是说，图1-4示出了不考虑磁轨的场景标记，但是图5(a)-5(e)通过显示视频磁轨、音频磁轨、字幕磁轨中的一个或更多个示出了与根据每个磁轨的相应查询相对应的搜索结果。这种方法更容易被用于识别一种情况。例如，当任意地点被用作查询时，查询结果可以依赖于根据每个磁轨的情况而改变。即，在视频磁轨中搜索将相应地点表达为图像的场景、在音频磁轨中搜索转换中对相应地点的提及、以及在字幕磁轨中搜索相应地点的字幕或文本。因此，相应场景的类型可能根据每一种情况而改变，并且由于考虑了这种复杂情况而存在容易搜索的优点。

图5(a)示出了与根据每个磁轨(例如视频磁轨510、音频磁轨520和字幕磁轨530)的查询结果相对应的缩略图或样本场景视频的示例。这时，可以通过放大并突出显示相应信息来根据其他磁轨中的每个磁轨(例如，视频磁轨和音频磁轨)识别相应磁轨530中所选的缩略图或样本场景视频是否存在。

例如，如图5(b)中所示，当在字幕磁轨530中选择了相应场景标记550时，关于与相应场景标记550相对应的缩略图或样本场景视频的相应信息可以在被放大并突出显示的同时还在音频磁轨520和视频磁轨510中显示。

在图5(c)中，根据每个磁轨显示场景标记，但是缩略图或样本场景视频不根据每个磁轨显示，并仅在一个大屏幕上显示。

在图5(d)中，基本与图5(c)类似，根据每个磁轨显示场景标记，但是缩略图或样本场景视频不根据每个磁轨显示并仅在一个大屏幕上显示。图5(d)的进度条可以具有弯曲形式。该弯曲形式允许用户在用户用双手握住电子设备(例如平板电脑等)时仅通过单手使用服务。也就是说，当用户用单手或双手握住便携式终端时，用户通常握住设备的左侧和右侧。这时，拇指放在显示器或边框(从智能电话的边缘到显示器的开始部分的框架)上并且其余手指位于便携式电子设备的背面上。因此，为了仅用拇指控制用户界面，如果如图5(d)所示用户界面位于左下部，则可以用左拇指方便地使用用户界面。由于这个原因，磁轨可以位于左下部、右下部和中下部，或者可以位于没有根据磁轨划分的一部分上(用图4中所示的方式)。根据另一实施例，当使用具有背面触摸屏的透明显示器时，可以通过来自显示器的背面的指向输入来进行控制。在这种情况下，磁轨可以被布置为使用位于显示器的背面上的四个手指。

由于在图5(c)和5(d)的各磁轨的进度条上当前原始视频的回放位置相同，所以可以在进度条上用一个垂直条显示回放位置。当然，除上述形式以外，还可以做出各种修改。

图5(e)和5(f)示出了替代根据每个磁轨显示缩略图或样本场景视频，在缩略图或样本场景视频的屏幕上显示磁轨的图标的示例。由于图标来自视频磁轨，因此可以一起显示视频图标560。

用户界面不仅适用于上述实施例，还可以通过至此提到的各种技术中的一个或更多个的组合来提供各实施例。

图6示出了根据本发明的各实施例的用于搜索视频内容的查询界面屏幕。

图6(a)和6(b)示出了用于查询与视频内容的一个场景类似的场景并搜索查询结果的界面的示例。图6(a)示出了在视频的回放期间暂停屏幕并通过菜单600进行查询的示例。通过查询，可以搜索与当前屏幕的图像最相似的帧、镜头或场景，并且可以如图6(b)所示提供查询结果。即，图像由红色汽车和穿红色衣服、戴头盔并举起奖杯的人组成，并且可以通过图像分析提取查询的场景描述。结果，可以在相应视频中搜索汽车、举起他/她的手的人、红色等，并且可以检测具有与查询相匹配的一个或更多个因素的帧、镜头或场景，并将其提供为查询结果。根据该实施例，通过菜单进行查询，但是可以通过按钮、文本输入、图标等来输入查询。

图7(a)-7(c)示出了根据本发明的各实施例的用于基于图像识别的查询方法的界面屏幕。

在图7(a)中，在视频的制作期间从与暂停屏幕相对应的静止图像中选择特定部分(例如，人形部分700)，然后可以进行关于形状部分700的查询。这时，对于选择，可以通过例如笔或触摸的输入接口设备来依次触摸人的周围，并且当通过双键击(double-tab)、双击、长按或长悬停指向人形区域的一部分时，可以自动扩展并选择与该区域相连的形状部分。这种技术在以对象形式存储关于包括在屏幕中的对象的信息时是有用的。当没有在这种结构中事先执行数据处理时，可以使用例如基于图像识别提取边界的方法、基于颜色提取颜色区域的方法等技术。图像处理是一种广泛用于具体地面部识别、剪影识别等中的技术，并可以使用从前一帧和下一帧中提取运动信息的差分算法。

图7(b)和7(c)示出了通过多视图的查询方法。在智能电话、平板电脑等中，在划分的屏幕上显示两个或更多个窗口、应用、帧或内容，这通常被称为多视图。此外，台式计算机或笔记本支持如若干重叠地悬浮的窗口的通用多窗口。在这种多视图或多窗口环境中，可以使用图像检测视频内容上的特定帧、镜头或场景。

图7(b)示出了将在图像查看器中选择的一个图像700拖拽或挑选并放下至视频播放器的示例，并且图7(c)示出了从图像查看器将两个图像710和720拖拽至视频播放的示例。

如图7(b)或7(c)中所示，当在图像查看器中搜索的图像被拖拽至视频播放器并且因此进行查询时，可以如图7(d)中所示出现查询结果。作为使用另一视图中所示的图像信息进行查询的方法，可以考虑以下用户界面(例如图像信息拖拽或图像信息捕获)。

图像信息可以指当前搜索的图像、图像文件或图像文件的缩略图，并且图像信息拖拽可以指从存在图像信息的第一视图或窗口拖拽图像信息到播放要搜索的视频的第二视图或窗口。

针对图像信息拖拽，可以以对象形式选择图像信息。当做出用于通过拖拽所选图像信息执行查询的命令时，可以分析相应图像信息以提取要查询的描述信息，然后可以做出对要搜索的视频的查询。

同时，当不支持选择或拖拽存在图像信息的视图中的相应图像信息的功能时，可以捕获并拖拽或复制粘贴相应图像信息。近来，智能电话可以通过当前搜索的屏幕上的用户触摸、拖拽、挥扫(sweep)、按钮输入等来选择并捕获整个屏幕或所需部分。因此，如果在存储器中存储所捕获的图像，则可以在视频屏幕上粘贴图像。此外，可以指定要捕获的区域并且然后可以在屏幕上显示捕获的图像。可以拖拽图像并粘贴在视频屏幕上。例如，当通过笔指定针对查询要使用的图像区域时，可以捕获相应区域。当拖拽捕获的区域并且拖拽在存在视频的另一窗口结束时，可以基于相应视频进行查询。

图7(c)示出了通过拖拽两个或更多个图像执行查询的示例。这时，可以使用各种查询描述，例如通过同时指定多个图像来执行查询，或者执行一个查询并且在出现结果之后继而进一步执行另一查询。

当查询图像信息的条数是复数时，搜索结果根据如何使用每条图像信息而变化。例如，可以执行减小现有查询结果范围的“与”操作，或者相反地，每当添加图像信息时可以执行增加查询结果的“或”操作。因此，可以提供在添加图像信息时还包括操作关系的用户界面。当不使用这种界面时，“与”或“或”可以在查询系统中被指定为默认算符，或通过用户输入被设置并应用为偏好信息。

图7(d)示出了查询结果，并且查询结果的数量小于图6(b)的查询结果的数量。这是因为在图7(a)-7(c)的查询中指定了举起他/她的手的人的图像信息，并且因此查询结果限于举起他/她的手的人。

在另一实施例中，摄像机在视频回放屏幕上工作，并且由摄像机拍摄图像。可以使用拍摄的图像执行查询。这时，可以通过多视图在分离的窗口中执行摄像机拍摄。当用户通过在视频播放器中执行摄像机应用来拍摄图像，并且然后拍摄结束时，视频播放器自动返回视频回放应用并且然后在查询过程期间参照拍摄的图像自动执行查询。

在另一实施例中，通过驱动视频播放器或与视频播放器相关联的应用，可以接收用户绘制的图像(例如草图)，并且可以基于接收到的图像执行搜索。例如当绘制人的漫画时，可以搜索与这个人类似的人脸。类似地，当绘制并输入风景、建筑形状、记号、符号等时，可以通过输入执行查询。例如，当绘制具有房子的海滩风景时，可以在视频磁轨中搜索海滩和房子，可以在音频磁轨中搜索波浪的声音和海鸥的声音，并且可以在文本/字幕磁轨中搜索例如海、海岸、海港、港口等文本以搜索视频内容。

图8示出了根据本发明的各实施例的用于搜索视频内容的各查询界面屏幕。例如，图8(a)-8(d)示出了通过字符输入、字符识别、语音识别和音乐内容的查询方法的示例。

图8(a)示出了通过在当前视频回放应用的屏幕中输入字符来执行查询的示例。电子设备可以首先通过使用例如按钮、菜单等的查询界面来进入查询模式，并等待直至查询模式中写输入完全结束。当在预定时间内不存在输入时，可以执行查询。相反，在写输入之后，可以通过由写输入驱动查询界面800来执行查询。

图8(b)示出了通过使用键区、键盘或虚拟键盘810来输入例如一般关键词、句子等的字符并开始查询的界面的示例。

图8(c)示出了通过使用音乐内容开始查询的方法，但是可以使用其他各种方法。例如，如图7(a)所示，可以使用捕获相册图像并识别捕获的图像内的字母的方法。作为另一方法，当将相应的音乐文件拖拽至视频播放器时，可以使用例如文件名或ID3标签(通常用于向MP3文件添加关于磁轨标题、艺术家和音乐频道的信息的标签信息)的元数据来执行查询。作为另一方法，在播放音乐时，通过查询界面执行记录，并可以基于记录的文件使用歌词、旋律和音乐本身来执行搜索。在记录并识别音乐的方法中，相应设备向分离的远程服务器发送记录的内容，并且然后服务器通过使用音乐的音频模式或歌词识别方案来找到类似的音乐文件，并分析来自音乐文件的元数据。因此，可以容易地从关于相关作曲家、来源、歌手、歌词等的信息提取查询关键词和搜索词。

最后，图8(d)示出了在播放视频时操作语音识别功能以及识别语音的方法。可以通过自然语言分析方案处理语音的内容，并且作为语音识别方案，可以识别哼唱、歌曲等以执行查询以便进行搜索。

例如，当通过麦克风输入“冠军”820的语音信号时，可以使用熟知的语音识别算法来提取“冠军”的查询词。

图9(a)-9(d)示出了根据本公开的其他各实施例的用于搜索查询结果的屏幕。

与查询结果相对应的缩略图或样本场景视频可以根据优先级显示或者可以不示出。此外，结果可以根据优先级重叠地显示，使得具有高优先级的缩略图或样本场景视频在上部布置为突出显示，并且具有低优先级的其余缩略图或样本场景视频根据其优先级依次在下方布置。此外，参照与具有高优先级的组或其他组相对应的查询结果，可以区别地建议尺寸、布置顺序、布置的行和列的序列、图形效果、声音效果等。

图9(a)中所示的查询结果基于汽车和红色的查询结果示出了包括汽车或大量红色的场景。这时，通过在与两个关键词相对应的缩略图或样本场景视频附近提供霓虹灯效果来突出显示所述缩略图或样本场景视频。在缩略图或样本场景视频中，具有接近红色的颜色的查询结果具有更深或更亮的颜色效果，并且其他查询结果具有不那么深或不那么亮的颜色效果。

图9(b)示出了随着查询匹配程度变高，在屏幕的上侧显示更大的缩略图和样本场景视频的示例。随着查询匹配程度变低，在屏幕的下侧显示缩略图或样本场景视频。相反，随着缩略图和样本场景视频的查询匹配程度变高，缩略图和样本场景视频可以位于屏幕的下侧，并且随着缩略图和样本场景视频的查询匹配程度变低，缩略图和样本场景视频可以位于屏幕的上侧。

图9(c)示出了查询结果中的所需条件，例如对查询结果的过滤或对显示效果的选择。在图9(c)中，显示满足红色和汽车二者的查询结果900以及仅满足汽车的查询结果910。此外，可以根据匹配程度向查询结果指派根据每个优先级的霓虹灯效果920，并且可以选择重叠效果930使得具有更高优先级的结果重叠地放置在具有较低优先级的图像上。图9(d)示出了根据图9(c)中设置的过滤条件的查询结果。

如上所述，可以通过以下方式来提高用户便利性：根据查询匹配程度设置与查询结果相对应的缩略图和样本场景视频的至少一个效果(例如位置、尺寸和重叠)并提供根据所需查询内容选择性地示出查询结果的功能。此外，当查询结果的数量很大时，可以有效地限制查询结果以对查询结果分类、使其之间的重叠最小并使得重要结果更容易引起用户的眼睛的注意。

当对如上所述布置的查询结果执行聚焦、悬停、输入等时，可以根据相应优先级区别地建议例如音量、全视图屏幕尺寸等属性。

一种对图像编写索引并生成样本场景视频的方法。

存在用于对图像或视频编写索引的各种算法。通常，可以基于关于颜色、质地、形状、对象之间的位置等的信息在图像或视频中找到满足用户需要的数据。在这种情况下，图像处理、模式识别、对象分离等被使用，并具体地可以用于通过前后图像之间的比较来检测镜头边界。

由于镜头包括摄像机的记录和结束之间的图像，因此图像通常彼此类似。即便产生了改变，包括在同一镜头中的图像可能具有顺序的并且小于预定参考的几个改变。因此，可以通过使用图像处理、模式识别、对象分离等分离镜头、找到代表图像(也就是来自每个镜头的关键帧图像)并分析关键帧来执行各种服务。

例如，如果分析关键帧并且找到并聚集类似镜头，则连续的镜头可以构成一个场景(即样本场景视频)，并且分离的镜头可以被确定并描述为具有类似内容的镜头。因此，在存在针对查询的图像输入的情况下，找到与输入图像类似的第一镜头，并且然后从剩余镜头中找到具有与第一镜头的描述符类似的描述符的镜头，并将所述镜头一起提供作为查询结果。找到分离镜头的镜头边界被称为编写索引或分段，并且从如上所述形成的组中提取内容。

镜头边界的一部分包括通常被表达为剪切的巨变和被表达为渐隐的渐变，通过其可以执行镜头检测。可以基于亮度直方图上的屏幕特征、边缘检测方案和序列图像之间的图像改变的计算来执行场景切换的检测。例如，在例如MPEG的压缩视频中，可以使用离散余弦变换(DCT)常数、运动矢量等来检测镜头边界。在P帧的情况下，如果帧内编码大于帧间编码，则确定存在大改变，可以将P帧认为是镜头边界。

具体地，在镜头中，I-帧图像通常可以用作关键帧。作为一个独立图像的I-帧用于场景切换或新镜头的开始。因此，可以通过基于I-帧图像依次比较改变的帧方便地识别场景改变。

大体上，镜头边界检测、编写索引、聚集等基于图像，但是也可以使用用视频文件编码的音频信息。例如，在音频数据中，可以生成比阈值更大声的声音或者可以检测到新扬声器的声音。在这种情况下，可以通过语音识别使用依赖于扬声器的识别方法和独立于扬声器的识别方法，并且可以通过经由依赖于扬声器的识别方法确定一个人并经由独立于扬声器的识别方法将语音转换为文本并且然后分析该文本来描述关于相应场景或镜头的情况信息。

使用字幕磁轨的方法可以使用与字幕信息相对应的文本。例如，在通过在字幕上显示特定时间或地点来暗示场景切换时，该时间或地点可以被用于检测镜头边界并描述该情况。此外，可以通过分析角色之间的交谈并根据交谈生成多条情况信息来描述相应镜头或场景。

当对镜头和场景编写索引时，从编写索引的镜头和场景中提取每个关键帧以提供各种服务。具体地，通过提取关于关键帧而不是所有帧的情况信息，可以减少操作量。通常，关键帧通过使用颜色、边界(或边缘)、亮度信息等来分割屏幕并从每个分离的对象提取特征点，由此找到相应关键帧的主要特征以及颜色信息等。例如，当存在一个人时，因为可以通过人体剪影的识别从关键帧中提取面部区域并且找到人的图像，因此图像可以成为数据库。在另一示例中，可以通过以下方式提取并搜索感情信息：应用从场景内的若干关键帧中提取特征(例如平均颜色直方图、平均亮度、平局边缘直方图、平均镜头时间、渐变镜头改变率等)并使用提取的特征作为染色体信息的算法。

此外，通过从关键帧的图像提取对象并通过语音识别提取声音和关于字幕的文本信息，指示例如地点、时间、对象、感情等信息的情况信息与提取的信息关联起来作为指示每个镜头或场景中的特征的描述信息，并在数据库中存储。

存在与此相关的各种现有技术，并将省略对其的详细说明并参考以下参考文献。

J.Yuan，H.Wang，L.Xiao，W.Zheng，J.Li，F.LinandB.Zhang，“AFormalStudyofShotBoundaryDetection，″IEEETransactionsonCircuitsandSystemsforVideoTechnology，vol.17，no.2，pp.168-186，2007.

J.Ren，J.JiangandJ.Chen，″ShotBoundaryDetectioninMPEGVideosUsingLocalandGlobalIndicators，″IEEETransactionsonCircuitsandSystemsforVideoTechnology，vol.19，no.8，pp.1234-1238，2009.

Z.Liu，D.Gibbon，E.Zavesky，B.ShahrarayandP.Haffner，″AFast，ComprehensiveShotBoundaryDeterminationSystem，″IEEEInternationalConferenceonMultimediaandExpo2007，pp.1487-1490，Jul.2007.

Y.Lin，B.Yen，C.Chang，H.YangandG.C.Lee，″IndexingandTeachingFocusMiningofLectureVideos，″11thIEEEInternationalSymposiumonMultimedia，pp.681-686，Dec.2009.

T.E.Kim，S.K.Lim，M.H.Kim，″AMethodforLectureVideoBrowsingbyExtractingPresentationSlides，″Proc.oftheKIISEKoreaComputingCongress2011，vol.38，no.1(C)，pp.119-122，2011.(在韩国)

H.-WYouuandS.-B.Cho，Videosceneretrievalwithinteractivegeneticalgorithm

MultimediaToolsandApplications，Volume34，Number3，September2007，pp.317-336(20)

同时，通过处理查询的文本、视频、图像和音频信息提取所需情况信息的方法可能与事先提取、记录并存储要搜索的视频内容中的每个镜头或场景中的相应情况信息的方法类似。

当分析视频文件时，可以通过分析视频、音频和字幕磁轨的图像、声音和文本信息来提取主要关键词。例如，关键词可以代表性地是例如角色名字、地点、建筑、时间、歌词、磁轨标题、作曲家、汽车模型等的准确词。此外，其次可以通过处理关键词来提取情况信息。可以通过经由自然语言处理语义地识别主要关键词并确定关键词之间的关系来得出(draw)反映用户意图的查询结果。例如，可以通过交谈来提取角色之间的关系和例如相互感情的情况信息。当替代关键词输入图像、视频或音乐时，很难处理图像、视频、或音乐作为关键词。因此，当输入图像、视频或音乐时，可以通过图像分析、语音模式识别等确定情况信息。例如，通过枪声确定枪战，通过人的运动确定战斗情况，通过面部表情表达感情，通过风景识别自然环境，通过尖叫表达例如害怕、恐惧等的感情，以及通过对音乐表演或哼唱的识别来提取关于相应音乐的信息。

可以结合基于例如MPEG-7的标准的镜头和场景来描述根据这种方法提取的情况信息，并且将该情况信息存储在数据库中。当执行查询时，可以使用所存储的情况信息提供相应查询结果的视频镜头和相应视频磁轨、音频磁轨和字幕磁轨上的位置信息。

当输入查询时，可以用多种方法提取并查询反映用户意图的与实际要搜索的目标相对应的情况信息。例如，基于关键词的方法与以下方法相对应：提取通过角色识别、键盘、虚拟键盘、语音识别、声音识别等输入的关键词或来自查询的句子中的主要关键词，查询描述镜头或场景的情况的描述符并推荐视频文件的相关数据库中的相应候选。当然，除了主要关键词以外，还可以自动提取辅助情况信息以用相同的方式执行查询。此外，在通过使用例如捕获、素描、记录、触摸、拖拽等的方式通过用户接口设备(麦克风或触摸输入设备)接收图像、视频或声音信息来执行查询时，可以提取例如感情、自然环境、运动、音乐信息等的情况信息，并像视频文件分析方法那样将其用于查询。

可以用图像和视频之一的形式提供查询结果。当提供图像时，可以生成并提供小于实际图像的缩略图图像。为此，在相应镜头或场景中减少并生成一个或更多个关键帧在处理速度或成本方面是有利的，原因在于不需要单独解码。可以通过从相应镜头或场景中以定期时间间隔提取帧图像或提取预定数量的帧图像来生成样本场景视频，并且可以通过像缩略图那样减小原始帧的尺寸或在同一坐标区域中收集部分图像来生成样本场景视频作为视频。当根据预定时间间隔生成样本场景视频时，所生成的样本场景视频的长度可以根据镜头或场景的长度而改变。可以用例如动画图形交换格式(GIF)的静止图像的连续视图类型或用例如MPEG格式的视频压缩文件类型做出样本场景视频文件。

图10是示出了根据本发明的其他各实施例的在电子设备中显示查询结果的过程的流程图。

参照图10，在操作1000中，电子设备通过输入接口接收来自用户的查询输入。例如，如图6和7所示，暂停的视频图像可以用作查询图像，或者从相应图像(例如内容的静止图像或另一区域的图像)捕获的图像可以被用作查询图像。根据另一实施例，如图8(a)或8(b)中所示，通过按键或虚拟键区输入的字符可以被用作查询词。根据另一实施例，如图8(c)中所示，通过分析图像提取的元数据或与相应MP3文件的元数据相对应的录音可以被用作查询输入。根据另一实施例，如图8(d)中所示，可以通过语音识别提取查询词。

在操作1002中，电子设备根据特定事件检测找到的内容中与查询相对应的内容(即场景或镜头)。例如，在操作1000中，当将至少一个设置的查询图像拖拽至视频回放区域或通过语音识别或虚拟键区输入字符，并且然后经过了预定时间或选择了用于执行查询的按钮时，可以执行操作1002。这时，当检测到内容中与查询相对应的内容(即场景或镜头)时，可以进一步计算查询输入和查询结果之间的匹配程度。

在操作1004中，电子设备可以在进度条上至少部分地显示与一个或更多个检测到的查询结果相对应的一个或更多个场景标记。例如，如图1(b)-1(d)中所示，可以在进度条上显示与多个查询相对应的检测结果作为场景标记，或者可以基于暂停位置显示与相应场景标记相对应的图像或样本场景视频。

图11是示出了根据本发明的其他各实施例的在电子设备中显示查询结果的过程的流程图。

参照图11，在操作1100中，电子设备通过输入接口接收来自用户的查询输入。例如，如图6和7所示，暂停的视频图像可以用作查询图像，或者从相应图像(例如内容的静止图像或另一区域的图像)捕获的图像可以被用作查询图像。根据另一实施例，如图8(a)或8(b)中所示，通过按键或虚拟键区输入的字符可以被用作查询词。根据另一实施例，如图8(c)中所示，通过分析图像提取的元数据或与相应MP3文件的元数据相对应的录音可以被用作查询。根据另一实施例，如图8(d)中所示，可以通过语音识别提取查询词。

在操作1102中，电子设备根据特定事件检测找到的内容中与查询相对应的内容(即场景或镜头)。例如，在操作1000中，当将至少一个设置的查询图像拖拽至视频回放区域或通过语音识别或虚拟键区输入字符，并且然后经过了预定时间或选择了用于执行查询的按钮时，可以执行操作1102。这时，当检测到内容中与查询相对应的内容(即场景或镜头)时，在操作1101中可以进一步计算查询输入和查询结果之间的匹配程度。

电子设备在操作1104中根据播放每个查询结果的时间(或回放时段(section))来确定显示至少一个查询结果的位置，并在操作1106中确定与查询结果相对应的内容的场景或镜头的长度、显示查询结果的场景标记的尺寸或预览窗口的尺寸。

在操作1108中，电子设备可以根据所确定的位置、确定的场景标记的尺寸和确定的预览窗口的尺寸来至少部分地显示一个或更多个检测到的查询结果。也就是说，至少部分地与一个或更多个进度条一起显示一个或更多个查询结果，并且可以在进度条上、在边界处或在一个或更多个相邻区域中显示与查询结果相对应的场景标记、图像和样本场景视频中的一个或更多个。根据另一实施例，关于场景标记，可以根据与查询结果相对应的内容中的内容的长度或查询的匹配程度确定并区别地显示数字、字符、符号、相对尺寸、长度、颜色、形状、角度和动画中的至少一个图形属性。根据另一实施例，在由于尺寸或长度而很难在进度条上显示场景标记时，电子设备可以生成并显示连续场景标记作为一个场景标记。根据另一实施例，向进度条指派放大镜功能可以使得针对场景标记的选择和搜索更容易。

电子设备可以生成与一个或更多个查询结果相对应的一个或更多个图像或样本场景视频，并进一步至少部分地在预览窗口上显示所生成的图像或样本场景视频。此外，电子设备可以根据镜头和场景的长度、查询的匹配程度或内容的回放/暂停位置和与查询结果相对应的场景标记之间的距离来设置与查询结果相对应的图像或样本场景视频的优先级，以及确定并区别地显示要显示图像或样本场景视频的窗口的尺寸、位置、重叠、是否显示图像或样本场景视频、动画和图形属性中的至少一个。

根据另一实施例，如图5中所示，可以根据视频磁轨、音频磁轨和字幕磁轨中的每一个分别地显示查询结果。

当在操作1110中生成用户界面输入事件时，电子设备在操作1112中可以执行与用户界面输入事件相对应的处理。

例如，如图2(a)或2(b)中所示，当在进度条上部分地显示与查询结果相对应的场景标记时，如果指向(例如触摸或悬停)要搜索的场景标记，则可以显示与指向的场景标记相对应的图像或样本场景视频。

在另一示例中，当如图2(c)和2(d)中所示，与查询结果相对应的场景标记和内容的场景、镜头或关键帧被关联并同时显示时，如果指向(例如触摸或悬停)要搜索的场景标记，则可以将与指向的场景标记相对应的图像或样本场景视频显示为高亮。

在另一示例中，当在指向相应场景标记的同时保持悬停很长时间时或当触摸(或悬停)与相应场景标记相对应的缩略图或样本场景视频时，可以在屏幕上显示放大的缩略图或样本场景视频。

在另一示例中，当如图4(b)-4(d)中所示，与查询结果相对应的场景标记彼此接近时，如果在靠近其他场景标记的场景标记附近生成悬停或触摸，则可以放大并显示包括相应场景标记的区域。

同时，根据无线网络和高速通信技术的发展，经常使用实时流服务。如本地设备中的内容的情况那样，在使用实时流服务时可能需要查询并搜索所需内容。当尚未下载包括所需场景的部分或需要寻找时，可能不支持该服务。因此，为了解决该问题，可以在图12中实现对多媒体流内容的基于内容的搜索方法。

图12是示出根据本发明的其他各实施例在电子设备中显示查询结果的过程的流程图。

参照图12，在操作1200中，电子设备识别是否存在关于多媒体流内容的索引信息和元数据信息(以下，索引和元数据信息被统称为描述)。操作1200与以下操作相对应：识别是否存在通过仅提取关于例如MPEG-7文档的视频的镜头或场景的索引信息和元数据(具体地，概述描述方案(DS))所生成的数据库。

当在操作1201中存在关于多媒体流内容的索引信息和元数据信息时，电子设备进行至操作1210，并且当不存在关于多媒体流内容的索引信息和元数据信息时，电子设备进行至操作1202。

在操作1202中，电子设备确定是否能够与多媒体流一起下载关于多媒体流内容的索引和元数据信息。当不能下载时，电子设备确定电子设备是否能够访问相关联的服务器或远程设备。电子设备在可以访问时进行至操作1210，并且在不能访问时进行至操作1206。

同时，当可以下载时，电子设备进行至步骤1208，并下载关于内容的索引信息和元数据。

例如在多媒体内容流服务之前，电子设备下载相应索引和元数据信息或提供用于访问具有相应资源的网络的方式。当本地设备和服务器均不具有相应索引和元数据信息时，在操作1206中电子设备可以通过在将流内容下载至电子设备的同时使用例如关键帧等的镜头信息来实时生成索引和元数据信息。这时，可以与缩略图或样本场景视频一起做出或仅基于文本做出索引信息(时间、位置等)和相关的元数据。

此后，在操作1210中电子设备可以输入查询并执行查询。例如，可以在执行流服务的同时或在完全下载内容之后输入并执行查询。当可以通过本地设备或服务器获得索引和元数据信息时，电子设备可以通过使用索引和元数据信息计算输入查询和每条信息之间的匹配程度，并且当匹配程度大于或等于预定值时，提取关于相应索引信息的元数据。

此后，在操作1212中电子设备生成与查询结果相对应的缩略图和样本场景视频。例如，当预先存储与查询结果相对应的内容的部分内容并且使用内容的预先存储部分生成或提取缩略图或样本场景视频时，电子设备基于所生成或提取的缩略图或样本场景视频来生成适合于查询输入的缩略图和样本场景视频。然而，当本地设备尚未下载或不能生成查询结果中内容的相应部分时，电子设备访问服务器以请求下载相应内容的部分内容并且当可以下载内容时生成并存储相应缩略图或样本场景视频。如果很难生成样本场景视频，则电子设备可以根据流数据仅生成缩略图并在本地设备中存储生成的缩略图。

例如，当现在流服务已经进行至高达13:00但是查询结果与16:00相对应时，电子设备可以通过例如RTP/RTPS/HTTPS的协议向服务器请求下载从16:00开始的相应镜头或场景的长度期间的内容，并接收该内容。

电子设备可以是诸如以下各项的设备，例如，便携式终端、移动终端、移动平板、媒体播放器、平板计算机、手持计算机、个人数字助理(PDA)、服务器、个人计算机等。此外，电子设备可以是预定的设备，包括具有通过组合以上设备的两个或更多个功能而生成的功能的设备。

图13示出了根据本发明实施例的电子设备的配置。

参考图13，电子设备包括控制器1300、扬声器/麦克风1310、摄像机1320、GPS接收器1330、RF处理器1340、传感器模块1350、触摸屏1360、触摸屏控制器1365以及扩展存储器1370。

控制器1300可以包括接口1301、一个或多个处理器1302和1303和内部存储器1304。在一些情况下，可以将整个控制器1300称为处理器。接口1301、应用处理器1302、通信处理器1303和内部存储器1304可以是单独元件，或可以集成为至少一个集成电路。

应用处理器1302通过执行多种软件程序来执行电子设备的多个功能，且通信处理器1303执行用于语音通信和数据通信的处理和控制。此外，除了上述普通功能，处理器1302和303可以执行存储在扩展存储器1370或内部存储器1304中的特定软件模块(命令集)由此执行与模块相对应的多种特定功能。也就是说，处理器1302和1303通过与存储在扩展存储器1370或内部存储器1304中的软件模块相互作用，执行根据本发明输入查询并显示查询结果的方法。

例如，应用处理器1302可以通过使用用户输入界面输入查询，根据特定事件检测找到的内容中与查询相对应的内容(即场景或镜头)，并在进度条上部分地显示与一个或更多个检测到的查询结果相对应的场景标记。例如，如图1(b)-1(d)中所示，可以在进度条上显示与多个查询相对应的检测结果作为场景标记，或者可以基于暂停位置显示与相应场景标记相对应的图像或样本场景视频。

例如，如图6和7所示，在查询输入中，暂停的视频图像可以用作查询图像，或者从相应图像(例如内容的静止图像或另一区域的图像)捕获的图像可以被用作查询图像。根据另一实施例，如图8(a)或8(b)中所示，通过按键或虚拟键区输入的字符可以被用作查询词。根据另一实施例，如图8(c)中所示，通过分析图像提取出的元数据或与相应MP3文件的元数据相对应的录音可以被用作查询。根据另一实施例，如图8(d)中所示，可以通过语音识别提取查询词。

此外，当将至少一个设置的查询图像拖拽至视频再现区域或通过语音识别或虚拟键区输入字符，并且然后经过了预定时间或选择了用于执行查询的按钮时，可以执行对查询结果的检测。此外，当检测到查询结果时，应用处理器1302可以进一步计算查询的输入与查询结果之间的匹配程度。

此外，应用处理器1302根据每个查询结果再现的时间(或再现时段)确定一个或更多个查询结果的位置，确定与查询结果相对应的内容的场景或镜头的长度、显示查询结果的场景标记的尺寸或预览窗口的尺寸，并根据确定的位置、确定的场景标记的尺寸和确定的预览窗口的尺寸中的每一个至少部分地显示一个或更多个检测到的查询结果。即，至少部分地与一个或更多个进度条一起显示一个或更多个查询结果，并且可以在进度条上、在边界处或在一个或更多个相邻区域中显示与查询结果相对应的场景标记、图像和样本场景视频中的一个或更多个。此外，关于场景标记，可以根据与查询结果相对应的内容中的内容的长度或查询的匹配程度确定并区别地显示数字、字符、符号、相对尺寸、长度、颜色、形状、角度和动画效果中的至少一个图形属性。

应用处理器1302可以生成与一个或更多个查询结果相对应的一个或更多个图像或样本场景视频，并进一步至少部分地在预览窗口上显示所生成的图像或样本场景视频。此外，应用处理器1302可以根据镜头和场景的长度、查询的匹配程度或内容的再现/暂停位置和与查询结果相对应的场景标记之间的距离来设置与查询结果相对应的图像或样本场景视频的优先级，以及确定并区别地显示要显示图像或样本场景视频窗口的尺寸、位置、重叠、是否显示图像或样本场景视频、动画和图形属性中的至少一个。

根据另一实施例，如图5中所示，可以在视频磁轨、音频磁轨和字幕磁轨的每一个位置处分别地显示查询结果。

当在操作1110中生成用户界面输入事件时，在操作1112中，电子设备可以执行与用户界面输入事件相对应的处理。

例如，当如图2(a)或2(b)中所示在进度条上部分显示与查询结果相对应的场景标记时，如果指向(例如触摸或悬停)要搜索的场景标记，则可以显示与指向的场景标记相对应的图像或样本场景视频。

在另一示例中，当如图2(c)或2(d)中所示，与查询结果相对应的场景标记与内容的场景、镜头或关键帧相关联并同时显示时，如果指向(例如触摸或悬停)要搜索的场景标记，则可以将与指向的场景标记相对应的图像或样本场景视频显示为高亮。

在另一示例中，当如图3(c)中所示，在指向相应场景标记的同时保持悬停很长时间时或当触摸(或悬停)与相应场景标记相对应的缩略图或样本场景视频时，可以在屏幕上显示放大的缩略图或样本场景视频。

在另一示例中，当如图4(a)-4(d)中所示，与查询结果相对应的场景标记彼此接近时，如果在靠近其他场景标记的场景标记附近生成悬停或触摸，则可以放大并显示包括相应场景标记的部分区域。

在另一实施例中，在多媒体内容流服务之前，应用处理器1302下载相应索引和元数据信息，或提供用于访问具有相应资源的网络的方式。当在本地设备和服务器中均不存在相应索引和元数据信息时，应用处理器1302通过在向电子设备下载流内容的同时使用关于关键帧的镜头信息来实时生成索引和元数据信息，输入并执行查询，并生成并显示与查询结果相对应的缩略图和样本场景视频。

在另一实施例中，处理器1302和1303还用于通过执行在扩展存储器1370或内部存储器1304中存储的特定软件模块(命令集)来在扩展存储器1370或内部存储器1304中存储查询结果。在另一实施例中，处理器1302和1303还用于通过执行在扩展存储器1370或内部存储器1304中存储的特定软件模块(命令集)来再次显示在扩展存储器1370或内部存储器1304中存储的查询结果。因此，可以存储执行了一次的结果，并且当用户要求该结果时，再次显示并使用该结果。

同时，另一处理器(未示出)可以包括数据处理器、图像处理器或编解码器中的一个或多个。可以独立地配置数据处理器、图像处理器或编解码器。此外，可以配置用于执行不同功能的若干处理器。接口1301连接到电子设备的触摸屏控制器1365以及扩展存储器1370。

传感器模块1350可以连接到接口1301以便实现多个功能。例如，可以将运动传感器和光学传感器连接到接口1301来感测电子设备的运动和感测来自外部的光。此外，例如定位系统、温度传感器和生物传感器等其他传感器可以连接到接口1301，以便执行相关功能。

摄像机1310可以执行例如拍摄照片并通过接口1301记录视频的摄像机功能。

RF处理器1340执行通信功能。例如，在通信处理器1303的控制下，RF处理器1340将RF信号转换成基带信号并向通信处理器1303提供该转换的基带信号，或将来自通信处理器1303的基带信号转换成RF信号并发送该转换的RF信号。这里，通信处理器1303根据各种通信方案来处理基带信号。例如，通信方案可以包括、但不限于全球移动通信系统(GSM)通信方案、增强型数据GSM环境(EDGE)通信方案、码分多址(CDMA)通信方案、W-码分多址(W-CDMA)通信方案、长期演进(LTE)通信方案、正交频分多址(OFDMA)通信方案、无线保真(Wi-Fi)通信方案、WiMax通信方案和/或蓝牙通信方案。

扬声器/麦克风1310可以执行音频流的输入和输出，例如语音识别、语音记录、数字记录和电话呼叫功能。即，扬声器/麦克风1310将语音信号转换为电信号，或将电信号转换为语音信号。尽管未说明，但是可以将可连接和可拆卸的耳机、头戴式耳机或头戴式受话器通过外部端口与电子设备相连。

触摸屏控制器1365可以与触摸屏1360相连。触摸屏760和触摸屏控制器1365可以不仅使用用于确定与触摸屏1360的一个或多个接触点的电容性、电阻性、红外线以及表面声波技术，而且使用包括其他邻近传感器阵列或其他元件的特定多触摸检测技术，来检测但不限于检测接触、移动或其中断。

触摸屏1360提供电子设备和用户之间的输入/输出界面。也即是说，触摸屏1360将用户的触摸输入传送到电子设备。此外，触摸屏1360是向用户示出来自电子设备的输出的介质。即，触摸屏向用户示出了视觉输出。这种可视输出以文本、图形、视频或其组合的形式出现。

触摸屏1360可以采用多种显示器。例如，触摸屏1360可以使用但不限于使用液晶显示器(LDC)、发光二极管(LED)、发光聚合物显示器(LPD)、有机发光二极管(OLED)、有源矩阵有机发光二极管(AMOLED)、或柔性LED(FLED)。

除了本发明的实施例之外，触摸屏1360还可以支持悬停功能，悬停功能能够通过感测通过手或触控笔的位置来控制查询结果，而不直接接触或测量感测时间。

GPS接收机1330将从卫星接收的信号转换为包括位置、速度和时间的信息。例如，可以通过用光速乘以信号的到达时间来计算卫星与GPS接收机之间的距离，并且可以通过计算三个卫星的精确位置和距离，根据三角测距原理获得电子设备的位置。

内部存储器1304可以包括高速随机存取存储器和/或非易失性存储器、以及一个或多个光学存储器件和/或闪存(例如NAND和NOR)中的一个或多个。

扩展存储器1370指的是例如存储卡的外部存储器。

扩展存储器1370或内部存储器1304存储软件。软件组件包括操作系统软件模块、通信软件模块、图形软件模块、用户界面软件模块和MPEG模块、摄像机软件模块和一个或更多个应用软件模块。此外，因为作为软件组件的模块可以表示为指令集，因此还将模块表示为指令集。模块还可以表示为程序。

操作系统软件包括控制一般系统操作的多种软件组件。控制一般系统操作指的是例如，管理并控制存储器、控制并管理存储硬件(设备)以及控制并管理功率。这种操作系统软件还在各种硬件(器件)和软件组件(模块)之间执行进行平滑通信的功能。

通信软件模块通过RF处理器1340实现与例如计算机、服务器和/或便携式终端的另一电子设备的通信。此外，通信软件模块利用与对应通信方案相对应的协议结构来配置。

图形软件模块包括用于在触摸屏1360上提供并显示图形的多种软件组件。术语“图形”用作包括文本、网页、图标、数字图像、视频、动画等意义。

用户界面软件模块包括与用户界面相关联的各种软件组件。用户界面软件模块可以包括指示如何改变用户界面的状态或指示做出用户界面的状态的改变的条件的内容。

摄像机软件模块可以包括能够执行摄像机相关处理和功能的摄像机相关软件组件。应用模块包括：包括呈现引擎(renderingengine)的网络浏览器、电子邮件、即时消息、文字处理、键盘仿真、地址薄、触摸列表、窗口小部件、数字版权管理(DRM)、语音识别、语音复制、位置确定功能、及基于位置的服务等。存储器770和1540中的每一个可以包括附加的模块(指令)以及上述模块。备选地，可以根据需要不使用一些模块(指令)。

结合本发明，应用模块包括根据本发明用于输入查询并显示查询结果的指令(参见图10-12)。

可以用硬件、软件或其组合的方式来实现权利要求和/或说明书中公开的根据各种实施例的方法。

在软件的实施方式中，可以提供用于存储一个或更多个程序(软件模块)的计算机可读存储介质。存储在计算机可读存储介质内的所述一个或多个程序可以配置用于通过电子设备中的一个或多个处理器执行。至少一个程序可以包括使电子设备执行如所附权利要求定义和/或本文公开的根据本发明的各实施例的方法的指令。

所述程序(软件模块或软件)可以存储在非易失性存储器中，所述非易失性存储器包括随机存取存储器和闪存、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、磁盘存储设备、紧凑盘-ROM(CD-ROM)、数字通用盘(DVD)、或其他类型的光学存储设备或磁带。备选地，可能的一些或所有的任意组合可以形成其中存储程序的存储器。此外，电子设备中可以包括多个这种存储器。

可以将程序存储在通过通信网络(例如，互联网、内联网、局域网(LAN)、广域LAN(WLAN)或存储区域网络(SAN)、或配置为其组合的通信网络可访问的可附着存储设备中。存储器件可以通过外部端口与电子设备连接。

此外，通信网络上的分离的存储设备可以访问便携式电子设备。

一种由电子设备搜索内容的方法，包括：通过用户界面接收用于搜索所述内容中的内容的查询的输入；通过使用与所述内容相关的描述来检测与所述查询相对应的所述内容的至少一部分内容，作为所述查询的结果；确定显示查询结果的位置；考虑到所述内容的所述部分内容的长度和所述查询结果之间的相对距离中的至少一个，确定与所述查询结果相对应的场景标记的尺寸或显示所述查询结果的区域的尺寸；以及根据所确定的所述查询结果的位置和相关尺寸至少部分地显示一个或更多个查询结果。

至少部分地显示一个或更多个查询结果包括：与一个或更多个进度条一起至少部分地显示所述一个或更多个查询结果，并在所述进度条、边界和相邻区域中的至少一个区域中显示与所述查询结果相对应的场景标记、图像和样本场景视频中的至少一个。

根据与所述查询结果相对应的所述内容中的内容的长度或所述查询的匹配程度来确定并显示所述场景标记的至少一个图形属性，例如数字、字符、符号、相对尺寸、长度、颜色、形状、角度或动画效果。

检测所述至少一部分内容作为所述查询的结果包括：计算所述查询的内容与所述查询结果之间的匹配程度。

所述方法还包括：生成与一个或更多个查询结果相对应的一个或更多个图像或样本场景视频，并在屏幕上至少部分地显示所生成的图像或样本场景视频。

所述方法还包括：根据镜头和场景的长度、所述查询的匹配程度、所述内容的回放/暂停的位置和与所述查询结果相对应的场景标记之间的距离来设置与所述查询结果相对应的图像或样本场景视频的优先级；以及根据所述优先级来确定显示所述图像或样本场景视频的窗口的尺寸、位置、重叠、是否显示所述图像或样本场景视频、动画和图形属性中的至少一个。所述方法还包括：在视频磁轨、音频磁轨和字幕磁轨中的每一个位置处分别显示所述查询结果。

所述方法包括当彼此相邻的查询结果之间的距离比预定参考更短时，以下至少一项：重叠所述查询结果、以及将所述查询结果组合为一个并进行显示。

所述方法还包括：当彼此相邻的查询结果之间的距离比预定参考更短时，考虑到显示窗口的尺寸来布置所述查询结果，使得所述查询结果中的一些查询结果以预定比率或更大比率彼此不重叠。

所述方法还包括：当彼此相邻的查询结果之间的距离比预定参考更短时，在通过用户界面生成了输入事件时执行用于放大相应部分的放大镜功能。所述方法还包括：选择所述一个或更多个查询结果中的一个查询结果；以及放大或缩小与所选择的查询结果相对应的图像或样本场景视频并进行显示。

所述方法还包括：从与所选择的查询结果相对应的位置回放所述内容，或执行与所选择的查询结果相对应的图像或样本场景视频的全视图。

在所述进度条上显示所述场景标记作为所述查询的结果的情况下，如果指向相应场景标记，则显示与所述相应场景标记相关的图像或样本场景视频，或者在作为所述查询结果显示的图像或样本场景视频的情况下，如果指向相应图像或样本场景视频，则显示与所述相应图像或样本场景视频相关的场景标记。

所述方法还包括：在显示图像或样本场景视频作为所述查询的结果的情况下，通过用户界面生成输入，并且根据所述输入的保持时间的增加来改变相应图像或样本场景视频的尺寸并进行显示。

所述方法还包括：在显示样本场景视频作为所述查询的结果的情况下，如果生成了通过用户界面进行的输入，则回放相应样本场景视频。

所述方法还包括：在显示样本场景视频作为查询的结果的情况下，如果生成了通过用户界面进行的输入，则从相应样本场景视频的位置开始回放内容。

所述所述方法还包括：回放内容，确定内容的当前回放位置是否与查询结果相关联；以及当内容的回放位置与所述查询结果相关联时，基于场景标记属性来执行声音反馈、触觉反馈和视觉反馈中的一个或更多个反馈。

所述方法还包括：向与查询结果相对应的场景标记指派场景标记属性。

所述方法还包括：当指向与查询结果相对应的场景标记时，根据场景标记属性来执行声音反馈、触觉反馈和视觉反馈中的一个或更多个反馈。

一种输入针对在内容中进行基于内容的查询的用户查询的方法，包括：通过用户输入界面设置要搜索的内容；设置针对搜索要搜索的内容中的内容的查询；通过使用关于要搜索的内容的描述信息来搜索与查询相对应的内容的部分内容，作为查询结果；以及基于查询匹配程度来显示一个或更多个检测到的查询结果。

设置针对搜索要搜索的内容中的内容的查询包括：设置查询图像；以及通过对查询图像进行图像分析来提取一个或更多个查询内容。

设置查询图像包括：暂停正在播放的视频播放器；并将暂停的视频的屏幕设置为查询图像。

设置查询图像包括：捕获图像；并通过用户输入界面将捕获的图像与要查询的内容关联起来。

捕获图像包括：通过用户输入界面设置包括要捕获的一个或更多个图像的区域。

捕获图像包括：通过用户输入界面设置图像的区域以至少部分地捕获另一区域中的一个或更多个图像，所述另一区域不是要查询的内容的位置。

将捕获的图像与要查询的内容关联起来包括：将捕获的图像移动至要查询的内容上。

设置针对搜索要搜索的内容中的内容的查询包括：通过按键或虚拟键区输入字符。

设置针对搜索要搜索的内容中的内容的查询包括：接收语音信号；提取与语音信号相对应的文本；并将提取出的文本设置为查询词。

设置针对搜索要搜索的内容中的内容的查询包括：记录音乐声音；通过识别记录的音乐声音来提取至少包括音乐标题的一条或更多条元数据；并通过使用提取出的至少包括音乐标题的元数据来设置查询词。

所述方法包括：在输入查询之前，识别本地设备中是否存在关于要搜索的内容的图像索引信息或元数据；当本地设备中不存在关于要搜索的内容的图像索引信息或元数据时，识别在与内容相关的服务器或远程设备中是否存在图像索引信息或元数据；当在与内容相关的服务器或远程设备中存在图像索引信息或元数据时，下载包括图像索引信息和元数据中的一个或更多个的描述信息；当本地设备中不存在关于要搜索的内容的图像索引信息或元数据时并且当在与内容相关的服务器或远程设备中不存在图像索引信息或元数据时，生成包括关于要搜索的内容的图像索引信息和元数据中的一个或更多个的描述信息。

一种电子设备包括：一个或更多个处理器；存储器；以及存储器中存储并被配置为由一个或更多个处理器执行的一个或更多个程序。所述程序包括以下命令：通过使用用户界面输入针对搜索所述内容中的内容的查询；通过使用与所述内容相关的描述信息来检测与所述查询相对应的所述内容的至少一部分内容，作为查询结果；确定显示所述查询结果的位置；考虑到所述内容的部分内容的长度和所述查询结果之间的相对距离中的至少一个，确定与查询结果相对应的场景标记的尺寸或显示所述查询结果的窗口的尺寸；以及根据所确定的查询结果的位置和所确定的相关尺寸至少部分地显示一个或更多个查询结果。

用于至少部分地显示一个或更多个查询结果的命令包括以下命令：与一个或更多个进度条一起显示一个或更多个查询结果，并在进度条、边界和相邻区域中的至少一个区域中显示与查询结果相对应的场景标记、图像和样本场景视频中的至少一个。

根据与所述查询结果相对应的内容中的内容的长度或所述查询的匹配程度来确定并显示场景标记的至少一个图形属性，例如数字、字符、符号、相对尺寸、长度、颜色、形状、角度或动画效果。

程序还包括以下命令：计算所述查询的内容与所述查询结果之间的匹配程度。

程序还包括以下命令：生成与一个或更多个查询结果相对应的一个或更多个图像或样本场景视频，并在屏幕上至少部分地显示所生成的图像或样本场景视频。

程序还包括以下命令：根据每个镜头和场景的长度、所述查询的匹配程度、所述内容回放/暂停的位置和与所述查询结果相对应的场景标记之间的距离设置与所述查询结果相对应的图像或样本场景视频的优先级；以及根据所述优先级确定显示图像或样本场景视频的窗口的尺寸、位置、重叠、是否显示图像或样本场景视频、动画和图形属性中的至少一个。

程序还包括以下命令：在视频磁轨、音频磁轨和字幕磁轨中的每一个位置处分别显示所述查询结果。

当彼此相邻的查询结果之间的距离比预定参考更短时，重叠地显示查询结果。

程序还包括以下命令：当彼此相邻的查询结果之间的距离比预定参考更短时，考虑到显示窗口的尺寸布置所述查询结果，使得查询结果中的一些查询结果以预定比率或更大比率彼此不重叠。

程序还包括以下命令：当彼此相邻的查询结果之间的距离比预定参考更短时，在通过用户界面生成了输入事件时，执行用于放大相应部分的放大镜功能。

程序还包括以下命令：选择所述一个或更多个查询结果中的一个；以及放大或缩小与所选的查询结果相对应的图像或样本场景视频并进行显示。

程序还包括以下命令：从与所选的查询结果相对应的位置回放内容，或执行与所选的查询结果相对应的图像或样本场景视频的全视图。

在进度条上显示所述场景标记作为查询的结果的情况下，如果指向相应场景标记，则显示关于相应场景标记的图像或样本场景视频，或者在显示图像或样本场景视频作为查询的结果的情况下，如果指向相应图像或样本场景视频，则显示与相应图像或样本场景视频相关的场景标记。

程序还包括以下命令：在显示图像或样本场景视频作为查询结果的情况下，通过用户界面生成输入并根据输入的保持时间的增加来改变相应图像或样本场景视频的尺寸并进行显示。

程序还包括以下命令：在显示样本场景视频作为查询的结果的情况下，如果生成了通过用户界面进行的输入，则回放所述相应样本场景视频。

程序还包括以下命令：在显示样本场景视频作为查询结果的情况下，如果生成了通过用户界面进行的输入，则从相应样本场景视频的位置开始回放内容。

程序还包括以下命令：回放内容，确定内容的当前回放位置是否与查询结果相关联；以及当内容的再现位置与所述查询结果相关联时，通过场景标记属性来执行声音反馈、触觉反馈和视觉反馈中的一个或更多个反馈。

程序还包括以下命令：向与查询结果相对应的场景标记指派场景标记属性。

程序还包括以下命令：当指向与查询结果相对应的场景标记时，根据场景标记属性执行声音反馈、触觉反馈和视觉反馈中的一个或更多个反馈。

一种电子设备包括：一个或更多个处理器；存储器；以及存储在存储器中并配置为由所述一个或更多个处理器执行的一个或更多个程序。程序包括以下命令：通过用户输入界面设置要搜索的内容；设置针对搜索要搜索的内容中的内容的查询；通过使用关于要搜索的内容的描述信息来检测与查询相对应的内容的部分内容；以及基于查询匹配程度来显示一个或更多个检测到的查询结果。

用于设置针对搜索要搜索的内容中的内容的查询的命令包括以下命令：设置查询图像，并通过对查询图像进行图像分析来提取一个或更多个查询内容。

用于设置查询图像的命令包括以下命令：暂停正在播放的视频播放器；并将暂停的视频的屏幕设置为查询图像。

用于设置查询图像的命令包括以下命令：捕获图像；并通过用户输入界面将捕获的图像与要查询的内容关联起来。

用于捕获图像的命令包括以下命令：通过用户输入界面设置包括要捕获的一个或更多个图像的区域。

用于捕获图像的命令包括以下命令：通过用户输入界面设置图像的区域以至少部分地捕获另一区域中的一个或更多个图像，所述另一区域不是要查询的内容的位置。

用于将捕获的图像与要查询的内容关联起来的命令包括以下命令：将捕获的图像移动至要查询的内容上。

用于设置针对搜索要搜索的内容中的内容的查询的命令包括以下命令：通过按键或虚拟键区输入字符。

用于设置针对搜索要搜索的内容中的内容的查询的命令包括以下命令：接收语音信号；提取与语音信号相对应的文本；并将提取出的文本设置为查询词。

用于设置针对搜索要搜索的内容中的内容的查询的命令包括以下命令：记录音乐声音；通过识别记录的音乐声音来提取至少包括音乐标题的一条或更多条元数据；并通过使用提取出的至少包括提取出的音乐标题的元数据来设置查询词。

程序包括以下命令：在输入查询之前，识别本地设备中是否存在关于要搜索的内容的图像索引信息或元数据；当本地设备中不存在关于要搜索的内容的图像索引信息或元数据时，识别在与内容相关的服务器或远程设备中是否存在图像索引信息或元数据；当在与内容相关的服务器或远程设备中存在图像索引信息或元数据时，下载包括图像索引信息和元数据中的一个或更多个的描述信息；当本地设备中不存在关于要搜索的内容的图像索引信息或元数据时并且当在与内容相关的服务器或远程设备中不存在图像索引信息或元数据时，生成包括关于要搜索的内容的图像索引信息和元数据中的一个或更多个的描述信息。

尽管在本发明的详细描述中描述了实施例，然而在不脱离本发明的范围的前提下可以用各种形式修改本发明。因此，本发明的范围不应被定义为限于实施例，而是应当由所附权利要求及其等同物来限定。

Claims

1.一种由电子设备搜索内容的方法，所述方法包括：

通过用户界面接收用于搜索所述内容中的内容的查询的输入；

通过使用与所述内容相关的描述信息来检测与所述查询相对应的所述内容的至少一部分内容，作为所述查询的结果；

确定显示查询结果的位置；

考虑到所述内容的所述部分内容的长度和所述查询结果之间的相对距离中的至少一个，确定与所述查询结果相对应的场景标记的尺寸或显示所述查询结果的区域的尺寸；以及

根据所确定的所述查询结果的位置和相关尺寸至少部分地显示一个或更多个查询结果。

2.根据权利要求1所述的方法，其中，至少部分地显示一个或更多个查询结果包括：与一个或更多个进度条一起显示所述一个或更多个查询结果，并在所述进度条、所述进度条的边界和所述进度条的相邻区域中的至少一个区域中显示与所述查询结果相对应的场景标记、图像和样本场景视频中的至少一个。

3.根据权利要求2所述的方法，其中，根据与所述查询结果相对应的所述内容中的内容的长度或所述查询的匹配程度来确定并显示所述场景标记的至少一个图形属性，例如数字、字符、符号、相对尺寸、长度、颜色、形状、角度或动画效果。

4.根据权利要求1所述的方法，其中，检测所述至少一部分内容作为所述查询的结果包括：计算所述查询的内容与所述查询结果之间的匹配程度。

5.根据权利要求1所述的方法，还包括：生成与一个或更多个查询结果相对应的一个或更多个图像或样本场景视频，并在屏幕上至少部分地显示所生成的图像或样本场景视频。

6.根据权利要求5所述的方法，还包括：

根据每个镜头和场景的长度、所述查询的匹配程度、所述内容的回放/暂停的位置和与所述查询结果相对应的场景标记之间的距离来设置与所述查询结果相对应的图像或样本场景视频的优先级；以及

根据所述优先级来确定显示所述图像或样本场景视频的窗口的尺寸、位置、重叠、是否显示所述图像或样本场景视频、动画和图形属性中的至少一个。

7.根据权利要求2所述的方法，还包括：在视频磁轨、音频磁轨和字幕磁轨中的每一个位置处分别显示所述查询结果。

8.根据权利要求1所述的方法，其中，如果彼此相邻的查询结果之间的距离比预定参考更短，则所述方法包括以下至少一项：重叠所述查询结果、以及将所述查询结果组合为一个并进行显示。

9.根据权利要求1所述的方法，还包括：如果彼此相邻的查询结果之间的距离比预定参考更短，则考虑到显示窗口的尺寸来布置所述查询结果，使得所述查询结果中的一些查询结果以预定比率或更大比率彼此分离。

10.根据权利要求1所述的方法，还包括：如果彼此相邻的查询结果之间的距离比预定参考更短，则如果通过用户界面生成了输入事件，则执行用于放大相应部分的放大镜功能。

11.根据权利要求1所述的方法，还包括：

选择所述一个或更多个查询结果中的一个查询结果；以及

放大或缩小与所选择的查询结果相对应的图像或样本场景视频并进行显示。

12.根据权利要求11所述的方法，还包括：从与所选择的查询结果相对应的位置回放所述内容，或执行与所选择的查询结果相对应的图像或样本场景视频的全视图。

13.根据权利要求2所述的方法，其中，在在所述进度条上显示所述场景标记作为所述查询的结果的情况下，如果指向相应场景标记，则显示与所述相应场景标记相关的图像或样本场景视频，或者在作为所述查询结果显示的图像或样本场景视频的情况下，如果指向相应图像或样本场景视频，则显示与所述相应图像或样本场景视频相关的场景标记。

14.根据权利要求2所述的方法，还包括：在显示图像或样本场景视频作为所述查询的结果的情况下，通过用户界面生成输入，并且根据所述输入的保持时间的增加来改变相应图像或样本场景视频的尺寸并进行显示。

15.根据权利要求2所述的方法，还包括：在显示样本场景视频作为所述查询的结果的情况下，如果生成了通过用户界面进行的输入，则回放相应样本场景视频。