CN105373768A

CN105373768A - 提供图像内容的方法和设备

Info

Publication number: CN105373768A
Application number: CN201510501547.4A
Authority: CN
Inventors: 郑旬默; 姜知洪; 苏载敏; 李知骁; 崔镇旭
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2014-08-14
Filing date: 2015-08-14
Publication date: 2016-03-02
Anticipated expiration: 2035-08-14
Also published as: EP2985706A1; CN105373768B; WO2016024806A1; US9684818B2; US20160048723A1; EP3591651A1

Abstract

本文公开了一种提供图像内容的方法。提供图像内容的方法包括：将图像内容划分成多个场景，每个场景包括多个镜头；根据图像内容中出现的多个人物中的每一个将每个场景的图像帧分类；接收用于选择多个人物中的任一个的用户输入；以及显示与根据用户输入所选择的人物对应的场景。

Description

提供图像内容的方法和设备

相关申请的交叉引用

本申请基于并要求于2015年4月17日在韩国知识产权局提交的第10-2015-0054757号韩国专利申请以及于2014年8月14日在韩国知识产权局提交的第10-2014-0105799号韩国专利申请的优先权，韩国专利申请公开的内容全部通过引用并入本文。

技术领域

本公开涉及提供图像内容的技术，更具体地，涉及提供用于提供用户所选人物的图像内容的方法和设备。

背景技术

随着显示设备提供各种图像内容的服务，已研发了能够选择性地只提供用户期望的图像内容的技术。通常，选择性地提供出现用户期望的男演员或女演员的图像内容的点播式内容服务技术已经商业化。

然而，为了提供进一步满足用户需求的服务，要求这样的技术，即，仅编辑和显示在单个图像内容中出现用户所期望的特定人物的图像。特别地，因为在用户欣赏内容的情境中配置内容的场景，所以需要考虑根据场景来提供图像的方法。换言之，要求根据场景划分内容并根据划分的场景有效地提供用于内容中人物的图像的技术。

发明内容

示例性实施方式克服以上缺点和以上未描述的其它缺点。

本公开提供一种提供图像内容的方法和设备，该方法和设备能够基于场景划分内容并根据划分的场景有效地提供内容中的人物的图像。

根据示例性实施方式，提供图像内容的方法包括：将图像内容划分为多个场景，每个场景包括多个镜头；根据图像内容中出现的多个人物中的每一个将每个场景的图像帧分类；接收用于选择多个人物中的任一个的用户输入；以及显示与所选择的人物对应的场景。

根据另一示例性实施方式，提供图像内容的方法包括：计算指示相邻帧之间的图像差异的图像差异特征向量；基于计算出的图像差异特征向量检测镜头边界；根据检测到的镜头边界将图像内容划分为多个镜头；根据在图像内容中出现的多个人物中的每一个将每个场景的图像帧分类；接收用于选择多个人物中的任一个的用户输入；以及显示与选择的人物对应的场景。

在检测镜头边界的过程中，可以使用机器学习算法检测镜头边界。

将图像内容划分成多个镜头可以例如包括：对于多个镜头中的每一个，生成镜头特征向量，镜头特征向量包括指示多个镜头中的每一个的开始时信息的镜头开始时间信息、包含在一个镜头中的多个图像帧的图像特征值以及包含在一个镜头中的多个图像帧的音频特征值中的至少一个；以及基于生成的镜头特征向量将多个镜头分组为一个场景。

在进行分组中，在第一镜头特征向量与第n镜头特征向量之间的相似度大于或等于预设值的情况下，从第一镜头到第n镜头的所有镜头可被分组到相同场景中。

根据又一示例性实施方式，提供图像内容的方法包括：将图像内容划分成多个场景，每个场景包括多个镜头；当从第一场景到第二场景产生场景变化时，根据包含在第一场景中的图像帧的身体信息将图像帧分类；通过分析分类后的图像帧的面部信息，提取面部特征信息；基于提取的面部特征信息向分类后的图像帧分配ID；以及生成分配有第一场景的ID的图像段信息。提供图像内容的方法还可包括：接收用于选择多个人物中的任一个的用户输入；以及显示与所选择的人物对应的场景。

面部特征信息可以包括至少一个面部特征向量。

在分配ID的步骤中，可向分类后的图像帧分配具有与提取的面部特征信息相匹配的面部特征信息的ID。

在将图像帧分类的步骤中，还可使用音频信息将图像帧分类。

根据又一示例性实施方式，提供图像内容的方法包括：将图像内容划分成多个场景，每个场景包括多个镜头；以及在表现包含在图像帧中人物的面部的图像包括背景图像的情况下，使用图像数据将图像帧分类，在该图像数据中，已移除表现人物的身体的图像中的与背景图像相对应的区域。提供图像内容的方法还可以包括：接收用于选择多个人物中的任一个的用户输入；以及显示与所选择的人物对应的场景。

提供图像内容的方法还可以包括：在表现包含在图像帧中人物的面部的图像包括背景图像的情况下，生成已移除表现该人物身体的图像中的、与背景图像相对应的区域的图像；对包含在生成的图像中的人物与已分类的组中的人物进行比较，以确定相似度值；以及在所述相似度大于或等于预设值作为比较结果的情况下，将生成的图像包括到已分类的组中。

在对相似度进行比较的步骤中，可将包含在生成的图像中的人物的图像的颜色直方图与已分类的组中的人物的颜色直方图彼此进行比较。

根据又一示例性实施方式，提供图像内容的方法包括：将图像内容划分成多个场景，每个场景包括多个镜头；根据在图像内容中出现的多个人物中的每一个将每个场景的图像帧分类；将包含在人物节点中的场景节点的特征值与人物节点的特征值进行比较；以及，根据对场景节点的特征值与人物节点的特征值的相似度的比较，从人物节点中删除场景节点。提供图像内容的方法还可以包括：接收用于选择多个人物中的任一个的用户输入；以及显示与所选择的人物对应的场景。

根据又一示例性实施方式，提供图像内容的设备包括：场景配置单元或电路，用于将图像内容划分成多个场景，每个场景包括多个镜头；分类单元或电路，用于根据在图像内容中出现的多个人物中的每一个，将每个场景的图像帧分类；输入单元或电路，用于接收用于选择多个人物中的任一个的用户输入；以及显示单元或电路，用于显示与选择的人物对应的场景。

场景配置单元或电路可以计算指示相邻帧之间的图像差异的图像差异特征向量、基于计算出的图像差异特征向量来检测镜头边界，以及根据检测到的镜头边界将图像内容划分成多个镜头。

场景配置单元或电路可以使用机器学习算法检测镜头边界。

场景配置单元或电路可以对于多个镜头中的每一个，生成镜头特征向量，其中镜头特征向量包括指示多个镜头中的每一个的开始时间信息的镜头开始时间信息、包含在一个镜头中的多个图像帧的图像特征值、以及包含在一个镜头中的多个图像帧的音频特征值中的至少一个；以及基于生成的镜头特征向量之间的相似度，将多个镜头分组到一个场景中。

场景配置单元或电路可以在第一镜头特征向量和第n镜头特征向量之间的相似度大于或等于预设值的情况下，将从第一镜头到第n镜头的所有镜头分组到相同场景中。

分类单元或电路可以包括：身体识别单元或电路，用于在从第一场景到第二场景产生场景变化时，根据包含在第一场景中的图像帧的身体信息将图像帧分类；面部识别单元或电路，用于分析分类后的图像帧的面部信息以提取面部特征信息；ID分配单元或电路，用于基于提取的面部特征信息向分类后的图像帧分配ID；以及图像段信息生成单元或电路，用于生成分配有第一场景的ID的图像段信息。

面部特征信息可以包括至少一个面部特征向量。

附图说明

从下文结合以下附图进行的详细描述中，示例性实施方式的以上和/或其它方面将变得更显而易见，在附图中相同的附图标号指代相同的元件，其中，

图1是示出根据一个示例性实施方式的提供图像内容的设备的配置的框图；

图2是示出根据另一示例性实施方式的提供图像内容的设备的配置的框图；

图3A至图3C是示出作为图像分析结果所生成的向量信息的视图；

图4是示出根据一个示例性实施方式的镜头特征向量的结构的视图；

图5至图8是示出根据一个示例性实施方式的场景分组方法的视图；

图9是示出根据一个示例性实施方式的镜头差异特征向量的视图；

图10是示出根据另一示例性实施方式的提供图像内容的设备的配置的框图；

图11至图13是示出根据多个示例性实施方式的用于将图像帧分类的数据结构的视图；

图14至图16是示出根据一个示例性实施方式的图像帧分类处理的视图；

图17是示出根据又一示例性实施方式的提供图像内容的设备的配置的框图；

图18是示出人物位置估计范围随人物的姿势变化的视图；

图19是示出根据又一示例性实施方式的提供图像内容的设备的配置的框图；

图20和图21是示出根据多个示例性实施方式的检验方法的视图；

图22至图26是根据多个示例性实施方式的提供图像内容的方法的流程图；

图27A和图27B是示出根据一个示例性实施方式的人物选择屏幕和设定屏幕的视图；

图28是示出根据另一示例性实施方式的人物选择屏幕的视图；

图29A和图29B是示出根据又一示例性实施方式的人物选择屏幕的视图；

图30是根据一个示例性实施方式的提供服务的图像内容的视图；以及

图31是根据一个示例性实施方式的再现图像内容的方法的流程图。

具体实施方式

本公开的示例性实施方式可以进行各种修改。相应地，特定的示例性实施方式在附图中示出并在具体实施方式中详细描述。但是，应理解，本公开不限于特定的示例性实施方式，而在不偏离本公开的范围和精神的情况下包括所有修改、等同以及置换。此外，由于可能因为不必要的细节而使本公开不清楚，所以没有详细描述公知的功能或结构。

“第一”、“第二”等术语可用来描述不同的部件，但是部件不受术语的限制。术语仅用于将一个部件与其它部件区分开。

在本公开中使用的术语用来描述示例性实施方式，但不旨在限制本公开的范围。只要与上下文不冲突，单数表达也包括复数含义。在本公开中，术语“包括”和“由…组成”指示在说明书中书写的特征、数字、步骤、操作、部件、元件或它们的组合的存在，但是不排除存在或可能添加一个或多个其它特征、数字、步骤、操作、部件、元件或它们的组合。

如本领域技术人员应理解的，在本公开的示例性实施方式中，“模块”或“单元”执行至少一个功能或操作，而且可通过硬件、软件或他们的任何组合例如使用数字电路实现。另外，除了必须通过特定硬件实现的一个“模块”或“单元”外，多个“模块”或多个“单元”可以集成为至少一个模块，并且可以通过至少一个处理器(未图示)实现。

下面，参照附图对多个示例性实施方式进行详细描述。

图1是示出根据一个示例性实施方式的提供图像内容的设备100-1的配置的框图。

根据多个示例性实施方式的提供图像内容的设备100-1、100-2、100-3、100-4以及100-5可以由各种显示设备实现。具体地，根据多个示例性实施方式的提供图像内容的设备100-1、100-2、100-3、100-4以及100-5可以通过例如包括一个或多个显示器或能够输出图像信号的设备以及配置为执行应用或显示内容的设备中的任一个实现，例如数字电视、平板个人电脑(PC)、便携式多媒体播放器(PMP)、个人数字助理(PDA)、智能电话、蜂窝电话、数字帧、数字标志、蓝光播放器、机顶盒、媒体播放器、DVD播放器、家庭影院系统、家庭娱乐系统、多媒体播放器、自助式服务设备等之一。

参照图1，根据示例性实施方式中的提供图像内容的设备100-1包括场景配置单元110、分类单元120、输入单元130、以及显示单元140。

场景配置单元110是能够将图像内容划分成多个场景的部件，每个场景包括多个镜头。这里，镜头包括至少一个图像帧，而且例如可包括在图像的情境中作为一个视点观看的一组图像帧。镜头对应于例如由一个摄像机对特定对象连续无缝地拍摄所生成的一组图像帧。例如，在存在显示人物A的正面的图像帧1、2和3以及存在显示人物A的背面的图像帧4、5和6的情况下，当图像帧1、2和3以及图像帧4、5和6不是彼此无缝连接的图像时，图像帧1、2和3以及图像帧4、5和6为不同的镜头。

场景是在图像的情境中彼此关联的一组镜头。通常，场景可以通过在图像中出现的人物与人物所处的空间是否彼此重合来确定。例如，人物A、B和C出现在空间D的镜头1、2和3以及人物A、B、E出现在空间F的镜头4、5和6是彼此不同的场景。为了将场景彼此区分开，可以进一步考虑时间信息。换言之，预设时间内的连续镜头可定义成相同场景，而预设时间之后的镜头可以定义成另一场景。

场景配置单元110将图像内容划分为多个场景，每个场景包括多个镜头。场景配置单元110对图像进行分析以检测镜头边界、划分镜头、分析镜头、并将所选镜头彼此合并以配置场景。这将在下面更详细地描述。

分类单元120是根据在图像内容中出现的多个人物中的每个将每个场景的图像帧分类的部件。分类单元120可以以列表的方式生成并管理每个场景中出现的相同人物的图像帧信息。例如，分类单元120可以在例如场景0中，以列表的方式生成并管理关于人物A的图像帧信息，并且以列表的方式生成并管理关于人物B的图像帧信息。另外，分类单元120可以在例如场景1中以列表的方式生成并管理关于人物A和C的图像帧信息。

输入单元130是接收用户输入的部件。例如，输入单元130可以接收用于选择多个人物中的任一个的用户输入。以下将描述的显示单元140可以例如显示用于用户输入的用户界面。显示单元140可例如显示包含在图像内容中的人物信息和场景信息中的至少一个作为分类单元120对图像帧的分类结果。用户可以通过例如选择用户想观看的人物信息和场景信息中的至少一个进行输入。

输入单元130可以例如包括提供图像内容的设备100-1、100-2、100-3、100-4以及100-5中所包含的至少一个物理按钮或触摸面板。用户通过例如按压按钮或触摸触摸面板上的对象来生成相应控制命令，提供图像内容的设备100-1、100-2、100-3、100-4以及100-5根据所生成的控制命令运行。

输入单元130可以例如为包括近场通信模块的远程控制设备。用户可以例如通过按压远程控制设备的按钮来生成控制命令。在远程控制设备包括例如触摸面板或运动传感器的情况下，用户的触摸或远程控制器的移动可以生成控制命令。

显示单元140是显示各种对象的部件。具体地，显示单元140可以显示与根据用户输入所选择的人物对应的场景。例如，当选择了人物A时，显示单元140可以显示包括人物A的场景或显示包括人物A的镜头。在前一种情况下，包括人物A的场景可以包括：包含人物A的镜头以及没有包含人物A的镜头。另一方面，当选择了人物A且选择了具体场景时，显示单元140可以仅显示在所选场景中包含人物A的镜头。

显示单元140可以通过各种显示面板实现。换言之，显示单元140可以通过各种显示技术实现，诸如有机发光二极管(OLED)、液晶显示器(LCD)面板、等离子显示面板(PDP)、真空荧光显示器(VFD)、场发射显示器(FED)、电致发光显示器(ELD)等。显示面板可以通过发光型显示器实现，也可以通过反射型显示器(电子墨水、光子墨水、光子晶体)实现。另外，显示面板可以例如通过柔性显示器、透明显示器等实现。另外，提供图像内容的设备100-1可以通过包括两个或更多显示面板的多显示器设备实现。

下面，将更详细地描述多个示例性实施方式。

图2是示出根据另一示例性实施方式的提供图像内容的设备100-2的配置的框图；以及图3A至图3C是示出作为图像分析结果而生成的向量信息的视图。

参照图2，根据示例性实施方式的提供图像内容的设备100-2包括场景配置单元110、分类单元120、输入单元130、以及显示单元140。将省略对分类单元120、输入单元130以及显示单元140的重复描述。如图2所示，场景配置单元110可以包括图像分析单元111、镜头边界检测单元113、镜头分析单元115以及镜头合并单元117。

图像分析单元111是用于分析图像内容的部件。图像分析单元111可以配置作为分析图像内容的结果的特征向量。该特征向量可以例如包括图像特征向量、图像差异特征向量以及音频特征向量。如图3A所示，图像特征向量可以例如包括一个图像帧的像素颜色(例如，图像颜色(RGB/HSV)的均值和方差)、颜色直方图、边缘(例如，边缘信息)以及面部ID(面部识别ID信息)中的至少一种。图像特征向量可以例如以列表的方式生成并管理。另外，如图3B所示，图像差异特征向量可以例如包括两个连续帧之间的像素颜色差异(例如，像素差异)、颜色直方图差异(例如，直方图差异)、运动向量(例如，运动向量的大小)以及边缘差异(例如，不同图像的边缘大小)中的至少一种。另外，图像分析单元111可以分析图像内容中包含的音频数据。在这种情况下，音频特征向量可以包括从具有预定长度的音频分析出的音量、能量、谱(如图3C所示)、以及能量、子带能量、低镜头时间能量比、过零率、频率中心、频率带宽、谱通量以及倒谱通量(未示出)中的至少一个。也可以以列表的形式生成并管理图像差异特征向量和音频特征向量。

如以下所描述的，图像差异特征向量用作镜头边界检测的输入，而且图像特征向量和音频特征向量用来在镜头单元中确定特征向量。本文中所列举的、被用作分析图像和音频的元件的全部特征并非必须使用，这些特征可以由其它特征代替。例如，当在仅中央处理单元(CPU)和实时受限存储器是可用的移动设备中使用时，可从特征向量配置中排除或由其它特征来代替需要大量处理或计算负担的、运动信息、边缘信息提取、面部识别器等。可以以列表的形式生成并管理图像差异特征向量。

镜头边界检测单元113为检测镜头边界的部件，其基于图像差异特征向量来检测镜头边界。镜头边界检测单元113使用在先前步骤中提取的图像差异特征向量，检测先前图像帧与当前图像帧之间是否产生具有预定大小或比预定大小更大的图像变化。这里，检测到的镜头边界可以例如包括通过图像编辑效果和渐隐效果逐渐改变的淡入/淡出、以及图像中的高速变化。

镜头边界检测单元113可以例如通过机器学习算法使用图像的差异向量作为输入，并使用当前帧是否与镜头边界相对应作为输出来生成镜头边界检测器，从而有效地检测镜头边界。这里，可以使用诸如支持向量机、神经网络、决策树等各种方法作为机器学习算法。

镜头分析单元115是根据镜头边界信息分析镜头的部件。例如，镜头分析单元115可以根据镜头边界划分镜头，并针对每个镜头生成镜头特征向量。

图4是示出根据示例性实施方式的镜头特征向量的示例性结构的视图。

镜头分析单元115生成镜头特征向量，镜头特征向量包括例如指示多个镜头中的每个的开始时间信息的镜头开始时间信息(开始时间)、指示多个镜头中的每个的结束时间信息的镜头结束时间信息(镜头结束时间)、包含在一个镜头中的多个图像帧的图像特征值(镜头图像特征)以及包含在一个镜头中的多个图像帧的音频特征值(镜头音频特征)中的至少一个。

镜头的开始时间用于计算在下一镜头合并步骤(将在以下讨论)中的镜头之间的时间差。如图4所示，镜头图像特征包括例如像素颜色、颜色直方图、运动向量、边缘(例如，配置镜头的图像特征向量的均值和方差)以及由面部识别器检测的面部ID中的至少一个。除了配置镜头的音频特征向量(包括例如音量、功率、谱等)的均值和方差之外，镜头音频特征还包括例如音频种类分析、通过说话者识别所获得的音频分类信息以及说话者识别ID中的至少一个。这里，音频种类是划分为音频对话、音乐、沉默等的信息，说话者识别是相同的ID被分配给具有相同语音的说话者的信息。

例如可使用镜头片段的音频数据作为输入、通过音频种类识别器和说话者识别器执行相应的功能，来提取在镜头音频特征中使用的音频种类分析和说话者识别。本文中所列举的、在镜头单元中用作分析图像和音频的原件的全部特征并非必须使用，这些特征可以由其它特征代替。例如，当在仅中央处理器(CPU)和实时受限存储器是可用的移动设备中使用时，可以从特征向量配置中排除或由其它特征来代替需要大量处理或计算负担的、说话者识别和音频种类分析等。

镜头合并单元117基于生成的镜头特征向量之间的相似度将多个镜头分组为一个场景。

镜头合并单元117将先前检测到的一系列特征向量以例如队列的形式输入到具有预定大小的窗口，并将窗口中的镜头特征向量彼此进行比较。

在第一镜头特征向量与第n镜头特征向量之间的相似度大于或等于预设值的情况下，镜头合并单元117将从第一镜头到第n镜头的所有镜头分组到相同场景中(这里，n是大于1的整数)。换言之，当出现彼此相似的镜头时，镜头合并单元117执行以下处理，即，将例如至少两个彼此相似的镜头之间的所有镜头合并而生成一个场景。

镜头合并单元117向合并窗口输入新检测到的镜头(例如，当前镜头)。另外，镜头合并单元117可以例如比较新添加到合并窗口的当前镜头与现有镜头之间的相似度。当两个镜头之间的相似度大于或等于基准值时，向比较镜头与当前镜头之间的所有镜头分配相同的场景编号。但是，当两个镜头之间的相似度小于基准值时，向当前镜头分配新场景编号。只要检测到新镜头，就重复进行上述处理。

合并窗口的大小至少为2或大于2，而且可以任意地改变。在比较合并窗口中镜头之间的相似度时，通过从前一步骤所获得的镜头特征向量生成镜头差异特征向量，该镜头差异特征向量被用作对通过机器学习算法所学习的镜头相似度检测器的输入。镜头相似度检测器以具有预定范围内的某一值的数值返回镜头之间的相似度，并在相似度大于或等于设定阈值时确定出两个镜头是相同场景。

图5至图8是示出根据示例性实施方式的场景分组方法的视图。

在图5中，新镜头4与合并窗口中当前所包括的镜头0至3进行比较。因为相似度小于基准值，所以向镜头4分配与已分配给先前镜头的场景编号不同的新场景编号。在基于新镜头4的前一步中的镜头3与包含在合并窗口中的镜头进行比较。由于比较结果为镜头3与镜头0相似，所以向镜头0至3分配相同的场景编号0。

在图6中，新镜头5添加到合并窗口中。同样地，镜头5与包含在合并窗口中的先前镜头进行比较。由于比较结果为镜头2和镜头5彼此相似，所以为镜头2和镜头5分配相同的场景编号。但是，由于镜头2在前一步骤中被分组到场景0中，所以镜头5也被分组到同一场景0中。

在图7中，新镜头6添加到合并窗口中。同样地，镜头6与包含在合并窗口中的先前镜头进行比较。由于比较结果为不存在与镜头6相似的镜头，所以为镜头6分配新的场景编号1。

在图8中，新镜头7添加到合并窗口中。同样地，镜头7与包含在合并窗口中的先前镜头进行比较。由于比较结果为不存在与镜头7相似的镜头，所以为镜头7分配新的场景编号2。

图9是示出根据示例性实施方式的镜头差异特征向量的视图。

如图9所示，镜头差异特征向量包括开始时间差异域、镜头图像差异特征域以及镜头音频差异特征域。在开始时间差异域中，镜头之间的差异时间越小(例如，小于预设值)，两个镜头为相同场景的可能性越大。因此，镜头之间的开始时间差异可以在决定镜头之间的相似度中用作重要的变量。在镜头图像差异特征域中，镜头之间的颜色值分布差异(像素颜色差异)、直方图分布差异(颜色直方图差异)、运动/边缘差异以及两个镜头中共同出现的相同面部ID的编号中的至少一个用作图像特征。在镜头音频差异特征域中，除了镜头之间的音量差异、功率差异、以及谱差异之外，相同的说话者ID的编号以及相同种类的音频(相同音频类(真/假))中的至少一个用作为音频特征。

在根据相关技术的基于图像的场景变化技术中，仅确定连续图像之间的简单变化来检测图像快速改变的点。因此，在动态图片中图像快速改变的场景中，存在检测出比所需镜头更多的镜头的问题。另外，当场景变化检测技术应用到对于具有故事的动态图片的快速搜索功能和汇总功能时，需要能够检测出情境中彼此相关的场景作为一个场景的功能。但是，根据相关技术的基于图像的场景变化技术没有此功能。

上述根据多个示例性实施方式的提供图像内容的设备100-1提供了一种基于排列窗口的场景变化检测方法，替代将相邻镜头之间的音频信息彼此进行简单比较和合并，该方法通过利用包括镜头的时间信息、面部识别信息的图像分析信息、以及包括说话者识别的音频信息，将若干连续镜头彼此进行比较并将若干连续镜头合并为一个场景。

具体地，示例性实施方式的特征在于，使用具有预定大小的窗口对彼此不相邻的镜头之间的相似度进行比较，以决定场景是否彼此相似。另外，在比较镜头之间的相似度时，同时应用例如镜头的开始时间信息和图像特征信息、以及音频特征信息，从而比较难以仅通过音频特征发现相似度的镜头，由此能够更好地确定场景是否彼此相同和/或相似。另外，图像分析中的面部识别和音频分析中的说话者识别信息可以用于比较镜头之间的相似度，由此能够检测考虑到情境中的关联性的场景。

图10是示出根据另一示例性实施方式的提供图像内容的设备100-3的配置的框图；以及图11至图13是示出根据多个示例性实施方式的用于分类图像帧的数据结构的视图。

参照图10，根据另一示例性实施方式的提供图像内容的设备100-3中的分类单元120包括身体识别单元121、面部识别单元123、ID分配单元125、以及图像段信息生成单元127。由于以上已经对输入单元130和显示单元140进行了描述，所以将省略重复描述。

当从第一场景到第二场景产生场景变化时，身体识别单元121根据包含在第一场景中的图像帧的身体信息，将该图像帧分类。例如，身体识别单元121分析包含在第一场景中的所有图像帧，以根据与该图像帧的身体信息相对应的特征值，将可能被认为是相同的身体信息的图像帧分组。换言之，不同的组可指示不同的人物。

因此，身体识别单元121为每个组生成具有身体特征信息的节点列表。参照图11，每个组的下部节点包括帧时间信息220和检测到的面部图像230，在帧时间信息230中提取有身体的部分区域。当不存在与所提取的身体特征信息匹配的组时，身体识别单元121生成新的组，并允许新的组包含在组的下部节点中。但是，当对与身体的部分有关的信息进行比较处理中发生错误时，可以包括与未关注的人物有关的信息作为组成部分。为了移除该错误元素，可以将与图像帧有关的音频信息中识别出的主说话者识别信息260与该组成部分中的面部图像230彼此进行比较，从而确定主说话者识别信息260和面部图像230是否彼此符合，并且当检测到彼此不符合的元素270时，将元素270从该组中移除。

面部识别单元123对分类后的图像帧的面部信息进行分析，以提取面部特征信息。每当组中添加了新数据，面部识别单元123就从包含在相应数据中的面部图像提取面部特征信息，并为每个组生成面部特征列表310。如图11所示，面部特征列表310包括取决于面部特征信息的多个面部特征节点320。面部特征节点320包括属于该组的人物的有区别的面部特征信息。另外，面部特征节点320包括具有彼此相似的面部特征的图像帧的特征向量330。

如图12所示，当如上所述地生成面部特征列表310时，ID分配单元125在预设ID列表410中搜索匹配的面部特征。ID分配单元125基于所提取的面部特征信息320向分类后的图像帧分配ID。详细地，如图12所示，ID列表410包括至少一个面部特征节点420，该面部特征节点420为每个ID指示人物的面部特征信息。ID分配单元125将提取的面部特征信息320与ID列表410的每个ID的面部特征信息420进行比较，以搜索匹配的ID。另外，ID分配单元125向分类后的图像帧分配匹配的ID。例如，ID分配单元125向分类后的组分配匹配的ID。

基于即使在相同人物的情况下它们的特性向量值也可能根据面部容貌或姿势而变化的假设，特征向量被约束到一个单元340中，并且通过特征向量比较处理，这些特征向量被登记有新的ID或添加作为已生成的ID的下部元素。

图像段信息生成单元127生成分配有用于第一场景的ID的图像段信息。具体地，如图12所示，图像段信息生成单元127生成包括段名称430、ID440、段开始时间450、结束时间460以及段的人物的代表缩略图图像470的图像段信息。

如图13所示，针对每个人物管理场景信息。人物节点510连接到人物出现的场景节点520，场景节点520连接到图像段信息。因此，出现相应人物的场景信息可以通过人物节点510识别，并且可访问用于每个场景的图像段信息。图像段信息的人物ID440通过与每个人物节点510的人物ID530进行比较处理来分类，并且，在不存在匹配的组的情况下，分配新的ID以生成组(人物字节)，并将新的ID添加到场景节点520。最后，收集与未指定的人物有关的场景信息(例如，开始/结束/缩略图)，并将与用户所选的人物ID有关的场景信息传送至上级系统，使得用户可以例如仅观看所选人物的内容场景。

图14至图16是示出根据一个示例性实施方式的图像帧分类处理的视图。

如图14所示，当从第一场景到第二场景产生场景变化时，对包含在第一场景中的所有图像帧进行分析，以根据与图像帧的身体信息相对应的特征值将可认为是相同身体信息的图像帧进行分组。在图14中示出了第一图像帧的面部图像11和身体图像12，以及第二图像帧的面部图像13和身体图像14。可领会的是，图像帧可以例如分类为从1至7所编号的7个人物。这里，与每个图像帧有关的音频信息中识别出的主说话者识别信息和组成部分中的面部图像彼此进行比较，以确定主说话者识别信息和面部图像是否彼此符合，并且当检测到彼此不符合的元素时，可以将该元素从组中移除。

另外，上述面部识别单元123分析分类后的图像帧的面部信息，以提取面部特征信息。面部特征列表包括例如根据面部特征信息的多个面部特征节点320。面部特征节点320指示根据例如相同人物的面部容貌或方向而区分开的面部特征。图15示出了针对每个面部特征节点对相同人物分类的结果。可领会的是，在图14中具有与图像帧之中的其它图像帧区分开的特征的图像帧16和17被分类到单独的面部特征节点320中。在图15中，省略了与面部特征相对应的身体信息。

ID分配单元125基于提取的面部特征信息向分类后的图像帧分配ID，图像段信息生成单元127生成分配有用于相同场景的ID的图像段信息。图16示出了最终生成的图像段信息。

在相关技术中，由于仅使用图像内容中的面部特征信息来识别出现的人物或为特定人物执行场景汇总，所以需要预先为人物收集并建立数据库。但是，由于即使在相同人物的情况下识别结果也可能根据人物的面部容貌或面部姿势而显著改变，所以仅通过面部特征信息来识别相同的人物具有局限性，并且预先收集并建立与特定人物有关的信息的过程需要单独的时间和资源，这是不方便的。

示例性实施方式的特征在于收集图像内容中出现的多个未指定的人物的场景。换言之，在不必预先收集且建立人物数据库信息的在线实施方案中分析实时图像和音频数据，而且为检测到的无名人物分配唯一ID值，由此允许识别出未指定的人物。另外，替代使用例如面部识别器的单个特性来识别人物，通过考虑除了人物的面部信息之外的其它特征信息来进行稳健的人物识别。为此，即使在使用例如通过音频分析识别的主说话者信息完成各种面部容貌或面部姿势时，面部信息和与一部分身体有关的信息也彼此合并，而且相同人物场景收集提供了稳健的人物识别。

图17是示出根据又一示例性实施方式的提供图像内容的设备100-4的配置的框图。

参照图17，提供图像内容的设备100-4还可以包括相同人物决定单元150。相同人物决定单元150可以包括剪裁单元151、颜色分布提取单元153、相似度决定单元155、特征值更新单元157以及输出单元159。提供图像内容的设备100-4包括场景配置单元110、输入单元130以及显示单元140。由于已在上面描述了场景配置单元110、输入单元130以及显示单元140，所以将省略重复描述。

相同人物决定单元150是确定包含在图像帧中的人物的同一性或相似度的部件。在表现包含在图像帧中人物的面部的图像包括背景图像的情况下，相同人物决定单元150使用表现人物身体的图像中的、与背景图像对应的区域已移除的图像数据来识别人物，并将识别信息传送至分类单元120。分类单元120基于该识别信息将图像帧分类。

例如，在表现包含在图像帧中人物的面部的图像包括背景图像的情况下，相同人物决定单元150生成这样的图像，在该图像中，表现人物身体的图像中的与背景图像对应的区域被移除。另外，相同人物决定单元150对包含在生成的图像中的人物与已分类的组中的人物之间的相似度进行比较。相同人物决定单元150在检测到人物后，根据检测到人物的位置和面部大小来估计人物信息的范围，并使用例如相应范围中的颜色信息的分布将该人物与已分类的组中的人物进行比较，从而确定这些人物是否彼此相同。在比较结果为相似度大于或等于预设值的情况下，相同人物决定单元150将识别信息传送至分类单元120，并允许生成的图像包含在已分类的组中。

图18是示出人物位置估计范围随人物姿势变化的视图。

剪裁单元151基于面部识别器检测到的位置和面部大小来估计人物的身体位置。另外，剪裁单元151根据面部范围中的肤色分布来估计与面部旋转有关的信息，从而校正人物的身体位置。

在通过面部识别器获得人物的面部位置和大小的情况下，当人物观看前方时，不会产生问题(图18中的(a))。但是，当人物姿势转动时，如图18中的(b)所示，人物的范围中可能包括背景。当人物的范围中包括背景时，在相同人物出现在不同背景中的情况下，人物信息中可能会产生差异。因此，估计并校正内容中人物的姿势转动了多少是有利的。

但是，由于计算人物的肌理(诸如眼、鼻、嘴等)的相关位置等以估计姿势的方法是一种计算量极大、占用大量资源和/或处理器的识别方法，尤其在提供图像内容的设备中执行时，所以这是不合适的。因此，通过使用肤色占面部范围的比率来估计人物的转动程度是一种计算相对简单的方法，并且人物的转动程度也可反映在用户的范围中。

如图18中的(b)所示，在人物姿势转到左侧的情况下，面部的位置估计例如由于眼、鼻以及嘴的位置而移动到对于人物而言的左侧(对于观察者而言的右侧)。在此情况下，例如基于肤色来确定背景而非面部是否出现在对于观察者而言的右侧位置，并且可大致地估计人物的姿势。如图18中的(c)所示，人物的身体位置范围185可以以与面部的位置范围184相同的比率来估计。换言之，可获得这样的图像，在该图像中，从基于原始面部位置以与面部的相同比率所估计的身体范围中移除了身体范围的一部分。

颜色分布提取单元153提取从面部图像中排除背景的图像区域的颜色分布，以及从身体图像中移除背景的图像区域的颜色分布。

相似度决定单元155基于例如所提取的颜色信息分布，来比较人物与已分类的组中的人物之间的相似度。在相似度大于或等于预设值(或多于预设值)的情况下，确定出人物与现有分类组中的人物相同。

为了通过例如相对简单的计算处理确定相同人物，可以使用颜色的直方图分布(颜色信息分布)来确定相似度。为此，可将颜色值标准化以降低照明变化对确定为人物范围的图像区域的影响、生成直方图、并且可使用滤波器进行平滑处理以降低具体值的有限变化的影响。

可将确定为相似的组中人物的识别信息传送至特征值更新单元157。另外，相似度决定单元155更新被确定为相似的组中人物的颜色分布信息。

输出单元159将根据比较结果的识别信息传送至分类单元120。

如上所述，与相关技术不同，示例性实施方式的优点在于，通过例如简单算法确定人物的相似度，将处于各种角度的大量图像作为学习数据进行管理。

图19是示出根据又一示例性实施方式的提供图像内容的设备100-5的配置的框图。

参照图19，根据又一示例性实施方式的提供图像内容的设备100-5包括场景配置单元110、分类单元120、输入单元130、显示单元140，而且还包括检验单元160。将省略对场景配置单元110、分类单元120、输入单元130以及显示单元140的重复描述。

检验单元160是可检验由分类单元120分类的图像帧的部件。例如，检验单元160检验上述包含在人物节点510中的场景节点520是否与人物节点510的特征匹配。为此，检验单元160逐一读取包含在人物节点510中的场景节点520，以对人物节点510的人物的特征值与场景节点520的人物的特征值彼此进行比较。在场景节点520的人物的特征值与人物节点510的人物的特征值相似的情况下，处理前进至下一场景节点520，或检验结束。在场景节点520的人物的特征值与人物节点510的人物的特征值不相似的情况下，从人物节点510中删除场景节点520，并搜索与场景节点520的人物的特征相匹配的人物节点510。当找到具有与场景节点520的人物的特征相似的人物特征的人物节点510时，场景节点520插入到相应的人物节点510中。

在人物节点510和场景节点520具有多个特征值的情况下，例如可通过具有相同值的大量特征值来确定相似度。例如，在特征值数量为5的情况下，当三个或三个以上特征值相同时，可以确定出人物相同。可以为每个特征值设定预定范围内的相似度。例如，在特征值为年龄的情况下，人物节点510可以具有31至35岁的范围，而在场景节点520的年龄属于上述范围的情况下，可以确定出人物相同。

图20和图21是示出根据多个示例性实施方式的检验方法的视图。

在图20的示例性实施方式中，可领会的是人物#1包括6个场景节点，人物#2包括4个场景节点，人物#3包括3个场景节点。检验单元160将相应场景节点的特征值与来自人物#1的人物节点的特征值进行比较。由于人物节点#1的场景节点#3中识别出的面部特征值出现为B，所以人物节点#1的面部特征值A与场景节点#3的面部特征值之间存在差异。但是，由于为其它特征的年龄和性别处于与人物节点#1的年龄和性别相似的范围内，所以可确定出场景节点#3为与人物节点#1大致相似的场景节点。另一方面，在场景节点#4的情况下，由于场景节点#4中的性别和面部均与人物节点#1中性别和面部不同，所以从人物节点#1中删除场景节点#4。另外，确定场景节点#4的特征值是否与其它人物节点#2和/或人物节点#3的特征值相似。如图21所示，由于人物节点#1的场景节点#4在此不具有相似的人物节点，所以最终被删除。然而，由于人物节点#1的场景节点#5的特征值与人物节点#1的场景节点的特征值不相似，但与人物节点#3的场景节点的特征相似，所以包含在人物节点#3中。

如上所述，检验方法可应用于通过人物汇总完成分类的场景列表，以对中间列表或最终列表再分类，由此能够减少错误识别。

下面，将描述根据多个示例性实施方式的提供图像内容的方法。

图22至图26是根据多个示例性实施方式的提供图像内容的方法的流程图。

参照图22，根据示例性实施方式的提供图像内容的方法可以包括：将图像内容划分为多个场景，每个场景包括多个镜头(S2210)；根据出现在图像内容中的多个人物中的每一个将每个场景的图像帧分类(S2220)；接收用于选择多个人物中的任一个的用户输入(S2230)；以及显示与基于用户输入所选择的人物相对应的场景(S2240)。

参照图23，根据另一示例性实施方式中的提供图像内容的方法可以包括：确定(例如计算)指示相邻帧之间的图像差异的图像差异特征向量(S2310)；基于例如计算出的图像差异特征向量检测镜头边界(S2320)；基于检测到的镜头边界将图像内容划分为多个镜头(S2330)；根据图像内容中出现的多个人物中的每一个将每个场景的图像帧分类(S2340)；接收用于选择多个人物中的任一个的用户输入(S2350)；以及显示与基于用户输入所选择的人物相对应的场景(S2360).

这里，可使用机器学习算法来检测镜头边界。

另外，将图像内容划分成多个镜头可以包括：关于多个镜头中的每一个生成镜头特征向量，以及基于生成的镜头特征向量之间的相似度将多个镜头分组到一个场景中，其中该镜头特征向量包括例如指示多个镜头中的每一个的开始时间信息的镜头开始时间信息、包含在一个镜头中的多个图像帧的图像特征值以及包含在一个镜头中的多个图像帧的音频特征值中的至少一个。

这里，在分组的过程中，在第一镜头特征向量与第n镜头特征向量之间的相似度大于或等于预设值的情况下，从第一镜头到第n镜头之间的所有镜头可分组到相同场景中。

参照图24，根据又一示例性实施方式的提供图像内容的方法包括：将图像内容划分成多个场景，每个场景包括多个镜头(S2410)；当从第一场景到第二场景产生场景变化时(S2420-Y)，根据包含在第一场景中的图像帧的身体信息将该图像帧分类(S2430)；对分类后的图像帧的面部信息进行分析以提取面部特征信息(S2440)；基于所提取的面部特征信息为分类后的图像帧分配ID(S2450)；以及生成分配有用于第一场景的ID的图像段信息(S2460)。另外，根据又一示例性实施方式的提供图像内容的方法还包括：接收用于选择多个人物中的任一个的用户输入(S2470)，以及显示与基于用户输入所选择的人物相对应的场景(S2480)。

这里，面部特征信息可以包括至少一个面部特征向量。

另外，在分配ID的过程中，可为分类后的图像帧分配具有与提取的面部特征信息相匹配的面部特征信息的ID。

而且，在将图像帧分类的过程中，还可使用音频信息将图像帧分类。

参照图25，根据又一示例性实施方式的提供图像内容的方法包括：将图像内容划分成多个场景，每个场景包括多个镜头(S2510)；以及在表现包含在图像帧中人物的面部的图像包括背景图像的情况下(S2520-Y)，使用已移除表现人物的身体的图像中的、与背景图像相对应的区域的图像数据将图像帧分类(S2530)。

另外，根据又一示例性实施方式的提供图像内容的方法还包括：接收用于选择多个人物中的任一个的用户输入(S2540)，以及显示与基于用户输入所选择的人物相对应的场景(S2550)。

另外，根据又一示例性实施方式的提供图像内容的方法还包括：在表现包含在图像帧中人物的面部图像不包括背景图像的情况下(S2520-N)，根据出现在图像内容中的多个人物中的每一个将每个场景的图像帧分类(S2560)。

例如，提供图像内容的方法还可以包括：在表现包含在图像帧中人物的面部的图像包括背景图像的情况下，生成已移除表现人物身体的图像中的、与背景图像相对应的区域的图像；对包含在生成的图像中的人物与已分类的组中人物之间的相似度进行比较；以及在相似度大于或等于预设值的情况下，允许生成的图像包含在已分类的组中。

这里，在比较相似度的过程中，可对包含在生成的图像中人物的图像的颜色直方图与已分类的组中人物的颜色直方图彼此进行比较。

参照图26，根据又一示例性实施方式的提供图像内容的方法包括：将图像内容划分成多个场景，每个场景包括多个镜头(S2610)；根据图像内容中出现的多个人物中的每一个将每个场景的图像帧分类(S2620)；将包含在人物节点中的场景节点的特征值与人物节点的特征值进行比较(S2630)；以及当基于比较确定出节点不相似时(S2640-Y)，从人物节点中删除场景节点(S2650)。另外，根据又一示例性实施方式的提供图像内容的方法还包括：接收用于选择多个人物中的任一个的用户输入(S2660)，以及显示与基于用户输入所选择的人物相对应的场景(S2670)。

如上所述且本领域技术人员将领会的是，所述系统、方法和技术可以实现在包括例如电子电路、逻辑电路、硬件、计算机硬件、固件、软件或这些元件的任意组合的数字电子电路中。使这些技术具体化的设备可以包括适当的输入装置和输出装置、计算机处理器以及有形地实现在通过可编程处理器执行的非暂时性机器可读存储装置或介质中的计算机程序产品。使这些技术具体化的处理可通过执行适当指令程序的可编程硬件处理器进行，从而通过运行输入数据并生成适当的输出来执行期望功能。这些技术可以以在可编程处理器系统上可执行的一个或多个计算机程序实现，可编程处理器系统包括耦接以从数据存储系统接收数据和指令并将数据和指令发送至数据存储系统的至少一个可编程处理器、至少一个输入装置以及至少一个输出装置。每个计算机程序根据需要可以以高级程序编程语言或面向对象的编程语言或以汇编语言或机器语言实现；而且，在任何情况下，语言可以为编译或解释语言。通过示例的方式，适当的处理器包括通用和专用微处理器。通常，处理器将从只读存储器和/或随机存取存储器接收指令和数据。适于使计算机程序指令和数据有形具体化的非暂时性存储装置包括各种形式的计算机存储器，包括但不限于非易失性存储器，通过示例的方式包括诸如可擦可编程只读存储器(EPROM)、电可擦可编程只读存储器(EEPROM)以及闪速存储器装置的半导体存储器装置；诸如内部硬盘和可移动磁盘的磁盘；磁光盘；只读光盘存储器(CD-ROM)、数字多功能光盘(DVD)、蓝光光盘、通用串行总线(USB)装置、存储卡等。上述中任何一个可以由特别设计的硬件或包括例如应用型专用集成电路(ASIC)和数字电子电路的电路补充或并入其中。因此，上述提供图像内容的方法可以通过包括可在计算机中执行的可执行算法的程序实现，而且该程序可以存储并设置在非暂时性计算机可读介质中。

下面，将描述根据多个示例性实施方式的示例性GUI。

图27A和图27B是示出根据一个示例性实施方式的示例性人物选择屏幕的视图。图27A示出了人物汇总模式操作屏幕的示例。在再现图像内容期间或在图像内容的再现结束后，用户想观看对于每个人物的场景或镜头的情况下，可以请求人物汇总模式。人物汇总模式的请求可以例如通过提供图像内容的设备100的远程控制器或输入单元130来输入。例如，用户可以在再现图像内容期间或在图像内容的再现结束后，通过选择显示在提供图像内容的设备100的显示屏的一个区域上的人物汇总模式菜单，来请求人物汇总模式。这里，人物汇总模式菜单可以例如具有显示在显示屏的一个区域上的图标形式或OSD菜单形式。但是，人物汇总模式菜单不限于此，其可实现为通过用户的选择执行特定功能的所有形式，诸如包含在远程控制器中的按键形式等。

在图像内容的再现期间或在图像内容的再现结束后，用户可以如上所述地输入人物汇总模式，由此观看相应内容中的每个人物的场景或镜头。这里，可以通过上述方法针对每个人物提取场景或镜头，并且，可以在请求人物汇总模式之前或在请求人物汇总模式之后进行提取。例如，如图27A中的(a)所示，在人物汇总模式中，提供图像内容的设备100可以基于由上述方法对于正再现的内容或对于再现已完成的内容进行分析的结果，来显示可选的人物缩略图显示屏2710。在这种情况下，用于显示所选人物的场景或镜头的屏幕2720可以与可选的人物缩略图显示屏2710一起显示。

同时，在人物汇总模式中，可以调整大量可选人物的范围，并且可以选择图像内容中的代表人物或包含在图像内容中的所有人物。这里，作为对图像内容中的代表人物分类的示例，在相应的图像内容中为每个人物提取场景、对场景的数量计数、并且可以将场景数量为适当数量或更多数量的人物分类为图像内容中的代表人物。

另外，如以上参照图19至图21所描述的，由于每个人物节点可以包括年龄和性别的特征值，所以提供图像内容的设备100可以将与用户设定的年龄或性别的基准相匹配的人物分类作为图像内容中的代表人物。可以在人物缩略图显示屏2710上显示如上述分类的图像内容中的代表人物的缩略图或所有人物的缩略图。

因此，当在人物缩略图显示屏幕2710中选择了特定人物缩略图2730时，所选人物的至少一个场景或镜头可以显示在屏幕的另一区域2720上。这里，当选择了特定人物缩略图2730时，所选人物的至少一个场景或镜头可以在屏幕的另一区域2720上自动地连续再现。但是，本公开不限于此。例如，当选择了特定人物缩略图2730时，所选的人物缩略图2730也可放大并显示在屏幕的另一区域2720上，并且当用户再次选择屏幕的另一区域2720时，该场景或镜头可再现。换言之，在这种情况下，可连续地显示出现所选人物的所有屏幕或镜头。

同时，根据另一示例性实施方式，提供图像内容的设备100可以单独显示所选人物的多个场景或镜头，并显示单独显示的多个场景或镜头之中的、由用户所选择的特定场景或镜头。

例如，如图27A中的(b)所示，当输入了请求单独显示所选人物的场景或镜头的用户命令时，可以显示对于所选人物的多个场景或镜头中的每一个的缩略图显示屏2740，并且可在该屏幕的一个区域2720上显示多个场景或镜头之中的、通过用户输入所选择的场景或与镜头缩略图2750对应的场景或镜头。这里，请求单独显示所选人物的场景或镜头的用户命令可以为再次选择在图27A中的(a)中选择过一次的特定人物缩略图2730的操作，但并不限于此。

同时，可在缩略图显示屏2740中示出的详细场景或镜头缩略图中的每个上，显示诸如场景或镜头的开始时间和再现时间的附加信息，从而提升用户在选择场景或镜头时的便利性。另外，当输入从如图27A中的(b)所示的单独显示所选人物的场景或镜头的操作屏幕返回到先前屏幕的用户命令时，操作屏幕可以返回到如图27A中的(a)所示的、显示每个人物的缩略图的屏幕。

同时，用户可以对人物汇总模式操作进行各种设定。例如，用户可以通过显示在提供图像内容的设备100的屏幕上的人物汇总模式设定UI，来设定人物汇总模式。图27B示出了显示在提供图像内容的设备100的显示屏2700上的人物汇总模式设定UI的示例。

如图27B中的(a)所示，人物汇总模式设定UI可以包括用于设定人物汇总模式的屏幕配置的屏幕配置菜单2701，以及用于设定选择代表人物的基准的代表人物选择菜单2702。

用户可以设定在人物汇总模式中可选择的人物的数量。例如，用户可以在屏幕配置菜单2701中设定人物的数量，以设定待显示在人物缩略图显示屏2701-1中的人物的数量。例如，在如图27B中的(a)所示的人物2701-1的数量为5的情况下，如27A中的(a)所示，5个人物缩略图显示在人物缩略图显示屏2710上，用户在5个人物之中选择关于他/她想观看的人物的场景或镜头。

另外，用户可以选择屏幕配置菜单2701中的屏幕布局2701-2，以设定在整个屏幕2700中待显示的每个人物的缩略图区域的布局以及待显示的所选人物的场景或镜头区域的布局。例如，当用户选择图27B的(a)中的屏幕布局2701-2时，可显示如图27B的(b)中所示的、显示用户可选择的屏幕布局的屏幕。

因此，当用户选择屏幕布局2703时，可以显示如图27A所示布局的屏幕。在用户选择屏幕布局2704以设定屏幕布局的情况下，在进行人物汇总模式操作时，每个人物的缩略图显示在屏幕2700的右侧，而所选人物的场景或镜头显示在屏幕2700的左侧。同时，设定屏幕布局的示例不限于此。换言之，用户直接选择并设定待显示的每个人物的缩略图的区域的示例性实施方式也是可能的。

同时，用户可以设定用于选择代表人物的基准。例如，用户可以使用图27B的(a)中的代表人物选择菜单2702，来设定用于在包含在图像内容中的所有人物之中选择代表人物的基准。例如，用户可以设定每个人物的场景数量、性别以及年龄中的至少一个作为用于选择代表人物的基准。

例如，用户可以通过图27B的(a)中代表人物选择菜单2702中的、用于设定场景数量的菜单2702-1设定预设数量，来设定用于选择代表人物的基准。因此，提供图像内容的设备100可以对图像内容中每个人物的数量进行计数，并将场景数量大于或等于预设数量的人物分类或选择为代表人物。如图27B的(a)所示，在场景数量设定为10的情况下，可将场景数量计数为10或更多的人物选为相应图像内容中的代表人物，并且与其它人物相比，更优先地显示在缩略图显示区域上。

另外，用户可以例如通过图27B的(a)中的代表人物选择菜单2702中、用于设定年龄的菜单2702-2或用于设定性别的菜单2702-3设定年龄或性别，来设定用于选择代表人物的基准。因此，提供图像内容的设备100可以例如将图像内容中的所有人物之中的、与用户设定的年龄或性别相匹配的人物分类或选择为代表人物。如图27B的(a)所示，在年龄设定为“25岁或小于25岁”且性别设定为“男性”的情况下，包含在图像内容中的人物之中的、与25岁男性或小于25岁男性相匹配的人物可以选择为代表人物，并且相比于其它人物更优先地显示在缩略图显示区域上。但是，这只是一个示例，可以使用年龄或性别以各种形式设定用于选择代表人物的基准。例如，可以设定诸如“20岁男性”、“50岁”、或“女性”的基准，并将与该基准相匹配的人物分类为代表人物。

如上所述，用户可以通过人物汇总模式来选择内容中每个人物的缩略图中的任一个，从而观看期望的人物的场景或镜头。另外，用户可以设定人物汇总模式的操作和屏幕配置。

同时，虽然上文通过示例的方式描述了在显示屏的一个区域2710上显示在人物汇总模式中可选择的每个人物的缩略图的情况，但是，本公开并不限于此。换言之，在显示屏的区域2710上显示每个人物的场景或镜头的再现屏幕而非缩略图，并通过用户进行选择的示例性实施方式也是可能的。

图28是示出根据另一示例性实施方式的人物选择屏幕的视图。如图28所示，用户可以直接选择出现在当前正再现的内容(例如，PVR或VOD)中的人物。在这种情况下，接收用于选择出现期望人物的屏幕2810上的人物的用户输入。这里，用于选择人物的示例性方式可以包括从远程控制器接收选择输入的方法、用户的音频识别、用户的操作识别、提供图像内容的设备100的按钮输入方法等。

例如，当按压远程控制器的特定按钮时，包含在当前屏幕中的至少一个人物上标记有如图28所示的引导线2820，高亮引导线2820通过远程控制器的方向按钮而改变，并且当通过远程控制器输入选择输入时，选择与高亮引导线2820相对应的人物，由此检测所选人物的场景或镜头。可替换地，可以显示预先检测的场景或镜头信息。

在音频识别的情况下，当输入诸如“找到他/她”或“找到那个人的场景”的音频时，通过音频识别模块进行音频识别、识别出至少一个人物、在该人物中标记引导线2820、并且识别用户音频“右侧的顶端(endofthetopoftheright)”，从而选择与例如定位在屏幕右侧的顶端处的引导线2820相对应的人物。当选择了该人物，检测所选人物的场景或镜头。可替换地，显示预先检测的场景或镜头信息。用户也可以通过例如使用手指或当前屏幕中的用户对象指向屏幕中的人物来选择具体人物。

用户可以选择多个人物，而且，如上述图27A和图27B所示，可以通过人物汇总模式屏幕来显示多个人物，所选的具体人物的场景或镜头可以以与人物汇总模式相同的实施方案再现。

在如上所述的方法中，特别是正在观看广告等的用户选择出现在广告中的人物的情况下，提供图像内容的设备100搜索所选人物的图像内容、提取搜索到的图像内容中的场景或镜头、并且显示所提取的场景或镜头。

图29A和图29B是示出根据又一示例性实施方式的人物选择屏幕的视图。根据一个示例性实施方式，终端设备(未图示)可以从例如网络服务器接收图像内容并显示该图像内容。在这种情况下，如上所述，终端设备请求网络服务器检测场景和镜头，网络服务器与上述提供图像内容的设备100类似地操作，向终端设备提供场景或镜头的检测结果。终端设备显示所提供的图像。

图29A和29B是该情况的执行情景。如图29A所示，用户在浏览网页时可以读取特定男演员的文章2910。这里，用户可能想搜索文章2910中的男演员出现的图像内容。用户通过上述方法选择附加至该文章的图像2920中所包含的男演员。换言之，用户通过输入设备(例如通过使用鼠标点击或触摸文章图片)或通过音频识别或手势识别，来选择该文章中涉及的男演员。在这种情况下，终端设备向网络服务器传送例如与所选男演员(人物)有关的元信息(或图像信息)。网络服务器如上所述地搜索男演员出现的图像内容。

图29B是显示男演员“JangGeu-rae”出现的图像内容的列表2930。网络服务器将图像内容的列表2930提供给终端设备，终端设备显示图像内容列表。用户可以选择其想查看的图像内容。可使用上述方法作为选择方法。

当选择了图像内容，网络服务器通过上述方法从所选图像内容中检测男演员“JangGeu-rae”出现的场景或镜头，并传输检测到的场景或镜头的缩略图图像，如图27A和27B所示。用户可以通过终端设备来选择期望的场景或镜头，并从网络服务器接收数据流以再现图像内容。

在用户通过文档方式输入男演员姓名或人物姓名进行搜索的情况下，如图29B所示，网络服务器也可以通过执行文档搜索查询来提供男演员或人物出现的图像内容。用户可以通过上述方法选择图像内容，而且可对所选图像内容的场景或镜头进行检测，并通过数据流提供给用户终端设备。

图30是根据示例性实施方式的提供服务的图像内容的视图。如图30所示，提供图像内容的设备100可以使用从诸如电视(TV)广播/VOD/在线图像内容等的各种图像信息源3020识别出的人物信息，向用户终端设备(未图示)提供各种服务3030。

例如，提供图像内容的设备100不仅可以从TV广播3040向用户提供作为图像内容的基础提供服务的每个人物的分类场景3050，还可以在在线服务(例如，互联网)上搜索分类后的人物的面部图像，从而识别人物信息，并基于识别的信息向用户推荐3060在VOD内容中的相应人物的工作。

另外，提供图像内容的设备100可以使用识别的人物信息和从电子节目指南(EPG)中提取的程序信息，在在线图像内容3070中以相应程序收集3080与人物有关的图像信息，并且将收集到的图像信息提供给用户。如上所述，网络服务器可以起到提供图像内容的设备100的作用，而且可以通过用户终端设备提供最终服务。另外，每个内容源可以通过单独的服务器提供服务。在这种情况下，提供图像内容的设备可以起到中继服务器的作用。

图31是示出根据一个示例性实施方式的再现图像内容的方法的流程图。参照图31，根据示例性实施方式的再现图像内容的方法包括：选择图像内容中的人物(S3110)、提供与所选人物有关的场景或镜头信息(S3120)、以及再现与场景或镜头相对应的内容(S3130)。由于上面已经对各步骤进行了描述，所以将省略重复描述。

如上所述，根据多个示例性实施方式，提供了一种提供图像内容的方法和设备，该方法和设备能够基于场景划分内容并基于划分的场景有效地提供该内容中的人物的图像。

虽然在上文已经详细示出并描述了示例性实施方式，但是本公开不限于上述特定示例性实施方式，在不背离所附权利要求中公开的范围和精神的情况下，本公开所属领域的技术人员可以对本公开进行各种变化。

Claims

1.一种提供图像内容的方法，包括：

将图像内容划分成多个场景，每个场景包括多个镜头；

根据所述图像内容中出现的多个人物中的至少一个，将每个场景的图像帧分类；

接收用于选择所述多个人物中的任一个的用户输入；以及

生成与所选择的人物对应的显示场景。

2.如权利要求1所述的提供图像内容的方法，其中，将所述图像内容划分成所述多个场景的步骤包括：

确定指示相邻帧之间的图像差异的图像差异特征向量；

基于所述差异特征向量检测镜头边界；以及

基于检测到的镜头边界，将所述图像内容划分成所述多个镜头。

3.如权利要求2所述的提供图像内容的方法，其中，在检测所述镜头边界的步骤中，使用机器学习算法检测所述镜头边界。

4.如权利要求2所述的提供图像内容的方法，其中，将所述图像内容划分成所述多个镜头的步骤包括：

对于所述多个镜头中的每一个，生成镜头特征向量，所述镜头特征向量包括指示所述多个镜头中的每一个的开始时信息的镜头开始时间信息、包含在一个镜头中的多个图像帧的图像特征值以及包含在一个镜头中的所述多个图像帧的音频特征值中的至少一个；以及

基于生成的镜头特征向量将所述多个镜头分组为一个场景。

5.如权利要求4所述的提供图像内容的方法，其中，将所述多个镜头分组为一个场景的步骤包括：

当第一镜头特征向量与第n镜头特征向量之间的相似度大于或等于预设值时，将从第一镜头到第n镜头的所有镜头分组到相同场景中。

6.如权利要求1所述的提供图像内容的方法，其中，将每个场景的图像帧分类的步骤包括：

当从第一场景到第二场景产生场景变化时，根据包含在所述第一场景中的图像帧的身体信息将包含在所述第一场景中的图像帧分类；

通过分析分类后的图像帧的面部信息，提取面部特征信息；

基于提取的面部特征信息，向所述分类后的图像帧分配ID；以及

生成分配有所述第一场景的ID的图像段信息。

7.如权利要求6所述的提供图像内容的方法，其中，所述面部特征信息包括至少一个面部特征向量。

8.如权利要求6所述的提供图像内容的方法，其中，向所述分类后的图像帧分配ID的步骤包括：

向所述分类后的图像帧分配具有与所述提取的面部特征信息相匹配的面部特征信息的ID。

9.如权利要求6所述的提供图像内容的方法，其中，将图像帧分类还包括使用音频信息将图像帧分类。

10.如权利要求1所述的提供图像内容的方法，其中，

在表现包含在所述图像帧中人物的面部的图像包括背景图像的情况下，使用图像数据将所述图像帧分类，在所述图像数据中，已移除表现所述人物的身体的图像中的与所述背景图像相对应的区域。

11.如权利要求1所述的提供图像内容的方法，还包括：

在表现包含在所述图像帧中人物的面部的图像包括背景图像的情况下，生成已移除表现所述人物身体的图像中的、与所述背景图像相对应的区域的图像；

将包含在生成的图像中的人物与已分类的组中的人物进行比较，以确定相似度值；以及

在所述相似度值大于或等于预设值的情况下，将所述生成的图像包括到所述已分类的组中。

12.如权利要求11所述的提供图像内容的方法，其中，将包含在所述生成的图像中的人物与所述已分类的组中的人物进行比较的步骤包括：

将包含在所述生成的图像中的人物的图像的颜色直方图与所述已分类的组中的人物的颜色直方图彼此进行比较。

13.如权利要求1所述的提供图像内容的方法，还包括：

将包含在人物节点中的场景节点的特征值与所述人物节点的特征值进行比较，以确定相似度值；以及

基于所述相似度值，将所述场景节点从所述人物节点中删除。

14.一种提供图像内容的设备，包括：

场景配置电路，配置为将所述图像内容划分成多个场景，每个场景包括多个镜头；

分类电路，配置为根据在所述图像内容中出现的多个人物中的每一个将每个场景的图像帧分类；

输入电路，配置为接收用于选择所述多个人物中的任一个的用户输入；以及，

显示器，配置为显示与所选择的人物相对应的场景。

15.如权利要求14所述的提供图像内容的设备，其中，

所述场景配置电路被配置为确定指示相邻帧之间的图像差异的图像差异特征向量、基于确定出的图像差异特征向量检测镜头边界、以及基于检测到的镜头边界将所述图像内容划分成多个镜头。