CN103702134A

CN103702134A - 图像处理设备、图像处理方法及程序

Info

Publication number: CN103702134A
Application number: CN201310429641.4A
Authority: CN
Inventors: 吉田恭助; 田中健司; 中村幸弘; 高桥义博; 深泽健太郎; 田中和政
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2012-09-27
Filing date: 2013-09-18
Publication date: 2014-04-02
Also published as: JP2014067333A; US20140086496A1; US9489594B2

Abstract

一种图像处理设备，包括评估单元，其获取搜索样式和搜索目标样式，计算搜索样式和搜索目标样式之间的相似度，以及基于所计算的相似度确定相似场景，其中，所述搜索样式是在视频内容所包含的场景中人物的出现样式，要针对所述场景搜索相似场景，所述搜索目标样式是在作为相似场景搜索目标的视频内容中人物的出现样式。

Description

图像处理设备、图像处理方法及程序

技术领域

本公开涉及一种图像处理设备、图像处理方法及程序。尤其是，本公开涉及一种能够搜索许多相似场景的图像处理设备、图像处理方法及程序。

背景技术

已提出许多技术，在存储了许多视频内容的数据库中搜索相似场景，此处，相似场景与特定场景相似。

在搜索相似场景时，通常，提取被搜索场景（搜索场景）的特征值，在存储在数据库的视频内容中检测具有与搜索场景的特征值相似的特征值的场景作为相似场景。

所提取的特征值的示例是构成运动画面的图像（静止图像）的空间信息。这样的空间信息示例使用彩色空间信息，如直方图或边缘直方图（例如，请参阅日本待审专利申请公开号2010-97246）。

然而，这样的特征值的计算量很大，显著的时间量是必须的。此外，数据量也很大。

此外，也有使用时间信息的特征值。例如，有一种配置，其中从移动图像中检测场景改变点，计算其中的时间间隔，时间间隔本身用作特征值（例如，请参阅日本待审专利申请公开号2009-49666）。

发明内容

然而，当场景改变点间隔像在日本待审专利申请公开号2009-49666中那样用作特征值时，有个问题：在场景重新排序、或者通过剪裁编辑等调整内容长度的情况下，搜索可能会不成功。

希望提供一种搜索方法，其能搜索许多相似场景。

根据本公开的实施例，提供了一种图像处理设备，包括评估单元，其获取搜索样式和搜索目标样式，计算搜索样式和搜索目标样式之间的相似度，以及基于所计算的相似度确定相似场景，其中，所述搜索样式是在视频内容所包含的场景中角色的出现样式，要针对所述场景搜索相似场景，所述搜索目标样式是在作为相似场景搜索目标的视频内容中角色的出现样式。

根据本公开的另一实施例，提出一种图像处理方法，包括获取搜索样式和搜索目标样式，计算搜索样式和搜索目标样式之间的相似度，以及基于所计算的相似度确定相似场景，其中，所述搜索样式是在视频内容所包含的场景中角色的出现样式，要针对所述场景搜索相似场景，所述搜索目标样式是在作为相似场景搜索目标的视频内容中角色的出现样式。

根据本公开的又一实施例，提出一种程序，其使计算机起作用为评估单元，所述评估单元：获取搜索样式和搜索目标样式，计算搜索样式和搜索目标样式之间的相似度，以及基于所计算的相似度确定相似场景，其中，所述搜索样式是在视频内容所包含的场景中角色的出现样式，要针对所述场景搜索相似场景，所述搜索目标样式是在成为相似场景搜索目标的视频内容中角色的出现样式。

根据本公开的实施例，获取搜索样式和搜索目标样式，其中，所述搜索样式是在视频内容所包含的一个场景中角色的出现样式，要针对所述场景搜索相似场景，所述搜索目标样式是在成为相似场景搜索目标的视频内容中角色的出现样式，计算搜索样式和搜索目标样式之间的相似度，以及基于所计算的相似度确定相似场景。

此外，可以经传输介质通过传输该程序来提供该程序，或通过将该程序记录在记录介质上来提供该程序。

图像处理设备可以是独立的设备，也可以是配置一个单独设备的内部块。

根据本公开的实施例，可搜索许多相似场景。

附图说明

图1是示出应用本公开的图像处理设备的实施例的配置示例的框图；

图2是示出元数据生成单元的详细配置示例的框图；

图3是示出视频内容1的出现样式示例的图；

图4是示出视频内容2的出现样式示例的图；

图5是示出视频内容1和视频内容2之间的相似度计算的图；

图6是示出压缩后视频内容1的出现样式示例的图；

图7是示出压缩后视频内容2的出现样式示例的图；

图8是示出视频内容1和视频内容2之间的相似度计算的图；

图9是示出未被场景单元分隔而压缩的视频内容1的出现样式示例的图；

图10是示出未被场景单元分隔而压缩的视频内容2的出现样式示例的图；

图11是示出视频内容1和视频内容2之间的相似度计算的图；

图12是示出噪声消除示例的图；

图13是示出噪声消除示例的图；

图14是示出元数据生成的流程图；

图15是示出元数据示例的图；

图16是示出相似场景搜索的流程图；

图17是详细示出搜索样式生成的流程图；

图18是示出搜索场景指定屏幕示例的图；

图19A和19B是示出指定要搜索的场景的方法的图；

图20是详细示出压缩的流程图；

图21是详细示出搜索目标样式生成的流程图；

图22是示出常见搜索方法的原理图；

图23是示出改编搜索方法的原理图；

图24是示出第一组合对比方法的图；

图25是示出第二组合对比方法的图；

图26是示出第三组合对比方法的图；及

图27是示出应用本公开的计算机实施例的配置示例的框图。

具体实施方式

图像处理设备配置示例

图1示出应用本公开的图像处理设备实施例的配置示例。

图1的图像处理设备积累输入到其中的视频内容（运动画面内容）。而且，图像处理设备1是执行在所积累的视频内容中搜索相似场景的搜索的设备，此处相似场景与用户指定的视频内容的场景相似。

而且，在本实施例中，术语“场景”代表视频内容中两个特定时间之间的任意时间跨度的部分视频内容，不仅仅指下面描述的被场景改变点分隔的场景单元的视频内容。

图像处理设备1包括图像获取单元11，元数据生成单元12，存储单元13，搜索处理单元14，显示单元15和操作单元16。

图像获取单元11获取从另一个设备提供的视频内容的内容数据，并把内容数据提供给元数据生成单元12和存储单元13。

元数据生成单元12生成从图像获取单元11提供的视频内容的（内容数据）元数据，并把元数据提供给存储单元13。

此处，参考图2给出元数据生成单元12的详细描述。图2示出元数据生成单元12的详细配置。

元数据生成单元12包括静止图像提取单元41，场景改变点检测单元42，特征值提取单元43及统计信息计算单元44。

例如，静止图像提取单元41按照固定时间间隔，如每秒一次，从构成视频内容的多个静止图像中提取静止图像，生成由概述视频内容的多个静止图像组成的时间序列数据。这里，所提取的多个静止图像的时间序列数据在下面被称为静止图像时间序列数据。

场景改变点检测单元42从静止图像时间序列数据中检测场景改变点。场景改变点是在连续静止图像内场景改变的点。并且，由于改变点前后静止图像间的亮度差（变化）很大，所以可通过检测之间的亮度差来检测场景改变点。例如，内容从节目的主要部分转换到广告的点，或从夜晚场景转换到白天场景的点可被检测为场景改变点。由于场景改变依赖于视频内容的类型，所以据以检测场景改变的时间间隔等对于每种视频内容而不同。而且，可采用任意现有场景改变点检测技术来进行场景改变点的检测。

场景改变点检测单元42生成代表所检测的场景改变点的场景改变点信息，并将场景改变点信息提供给存储单元13。并且，场景改变点检测单元42使存储单元13存储场景改变点信息。

特征值提取单元43提取代表在静止图像时间序列数据中人物的出现的时间序列样式（以后简称为出现样式）。时间序列样式作为视频内容的特征值。特征值提取单元43包括面部图像识别单元43A，其在图像内识别面部图像，并且在其内部识别人物（个体）。此外，特征值提取单元43为每个在静止图像中出现的人物都生成出现样式。

例如，视频内容1（内容1）的静止图像时间序列数据由5幅图像组成。在Mr.A在前两幅图像中不可见，而在剩下的三幅图像中可见的情况下，Mr.A的出现样式被生成为：Mr.A出现的时间用“1”表示，Mr.A不出现的时间用“0”表示，因此，出现样式是内容1的A={0,0,1,1,1}。

用于确定个体的面部图像是提前登记在面部图像识别单元43A中的。

统计信息计算单元44基于特征值提取单元43提取的出现样式生成角色统计信息，并把角色统计信息提供给存储单元13。尤其是，统计信息计算单元44计算人物出现率（即在视频内容的静止图像时间序列数据中出现的人物的比例）和每个角色的出现率（出现频率），并把这些作为角色统计信息提供给存储单元13。并且，统计信息计算单元44使存储单元13存储角色统计信息。例如，在具体的60幅图像的静止图像时间序列数据中，当Mr.A在15幅静止图像中出现且Mr.B在5幅静止图像中出现时，人物出现率是20/60=33%，Mr.A的出现率是15/20=75%，Mr.B的出现率是5/20=25%。

如上所述，在元数据生成单元12中，场景改变点信息，出现样式和角色统计信息是作为视频内容的元数据生成并提供给存储单元13。

返回到图1，存储单元13包括内容DB13A（其存储许多视频内容的内容数据）和元数据DB13B（其存储每个视频内容的元数据）。换言之，从图像获取单元11提供的视频内容的内容数据存储在内容数据DB13A中，相应于内容数据的元数据从元数据生成单元12提供并存储在元数据DB13B中。此外，在本实施例中，内容DB13A和元数据DB13B是彼此分开的。然而，这两个不必一定分开，只要内容数据和元数据相互关联地存储就是足够的。

搜索处理单元14包括搜索样式生成单元21，搜索目标样式生成单元22，评估单元23和显示控制单元24。

搜索样式生成单元21生成相应于用户使用操作单元16指定的被搜索视频的场景的出现样式作为搜索样式，并把出现样式提供给评估单元23。

例如，假设用户正搜索的视频内容的场景是上述视频内容1中的由五幅静止图像组成的一部分，搜索样式生成单元21生成内容1的A={0,0,1,1,1}作为搜索样式。

搜索目标样式生成单元22生成搜索目标的视频内容的出现样式作为搜索目标样式，以便搜索与用户正搜索的场景相似的视频内容的相似场景，并把该出现样式提供给评估单元23。

例如，与上述视频内容1相同的方式，搜索目标样式生成单元22生成Mr.A在视频内容2中的出现样式（内容2的A={0,1,0,1,0}）以及Mr.A在视频内容3中的出现样式（内容3的A={0,0,1,1,1}）作为搜索目标样式。

而且，搜索目标不限于与用户指定搜索的视频内容不同的视频内容。也有这样情况，搜索目标是与用户选择的视频内容相同的视频内容，用户也可被允许根据视频内容的日期和时间等来限制搜索范围。此外，搜索样式和搜索目标样式也可由包括搜索样式生成单元21和搜索目标样式生成单元22的功能的一个样式生成单元生成。

评估单元23计算搜索目标样式生成单元22生成的多个搜索目标样式中每个和搜索样式生成单元21生成的搜索样式之间的相似度。并且，评估单元23基于所计算的相似度确定视频内容的场景是否是相似场景。尤其是，所计算的相似度与提前确定的阀值相同或更高时，评估单元23确定相应于搜索目标样式的视频内容的场景是相似场景。

例如，如下所述，可计算由上述5幅静止图像的静止图像时间序列数据构成的视频内容1和视频内容2之间的相似度。Comp（内容1，内容2）={{0,0,1,1,1},{0,1,0,1,0}}

={是,否,否,是,否}=(2/5)×100=40%

此外，如下所述，可按上述方法计算视频内容1和视频内容3之间的相似度。

Comp（内容1，内容3）={{0,0,1,1,1},{0,0,1,1,1}}

={是,是,是,是,是}=(5/5)×100=100%

换言之，函数Comp（X,Y）计算出现样式之间的相似度，将“是”的比率计算作为相似度，此处“是”指在相应时间出现的存在或不存在匹配的情况，“否”指它们不匹配的情况。

相似度如上述计算，例如，当阀值设为80%时，评估单元23确定上述视频内容1和视频内容2彼此不相似，视频内容1和视频内容3彼此相似。

显示控制单元24控制显示单元15，使得显示单元15显示被评估单元23确定为相似的相似内容或相似场景。此外，显示控制单元24也使显示单元15显示相似内容或相似场景的搜索命令的输入屏幕等。

显示单元15根据显示控制单元24的控制显示搜索命令的输入屏幕，搜索结果显示屏幕等。显示单元15也可显示具有最大相似度的视频内容（相似场景），在多个具有比阀值大的相似度的视频内容（相似场景）被检测到的情况下，多个被检测到的视频内容（相似场景）也可从最大相似度开始以降序列表显示。

操作单元16接收用户操作，并把相应于接收到的操作的控制信息提供给搜索处理单元14等。例如，操作单元16接收指定用户正搜索的视频内容的场景的操作，并把代表所指定的视频内容的场景的信息提供给搜索样式生成单元21。

图像处理设备1如上述配置。

而且，上述图像处理设备1的功能也可通过由两个或多个设备（如可移动终端和服务器（云服务器））共享实现。在图像处理设备1的功能由两个或多个设备共享的情况下，可任意确定每个设备共享的功能。

相似度确定将参考附图在下面详细描述。

基本搜索方法

图3示出特定视频内容1的出现样式示例。

如图3所示，视频内容1的静止图像时间序列数据由三个场景单元（场景1，2和3）构成。更具体地，在7幅静止图像构成的视频内容1的静止图像时间序列数据中，前三个静止图像属于场景1，接下来的三个静止图像属于场景2，只有最后（第七个）静止图像属于场景3。

而且，在视频内容1的静止图像时间序列数据中，三个人员，Mr.A，Mr.B和Mr.C均出现。更具体地说，Mr.A出现在前两个静止图像中，Mr.B出现在第三个静止图像中，Mr.C出现在第四个静止图像中，Mr.A和Mr.B均出现在第五至第七个静止图像中。

关于上述视频内容1的静止图像时间序列数据，元数据生成单元12的特征值提取单元43生成Mr.A的出现样式：内容1的A0={1,1,0,0,1,1,1}，Mr.B的出现样式：内容1的B0={0,0,1,0,1,1,1}，Mr.C的出现样式：内容1的C0={0,0,0,1,0,0,0}，如图3所示。

图4示出特定视频内容2的出现样式示例。

视频内容2的静止图像时间序列数据由三个场景（场景10，11和12）构成。更具体地，在由七个静止图像构成的视频内容2的静止图像时间序列数据中，前两个静止图像属于场景10，接下来的四个静止图像属于场景11，第七和最后静止图像属于场景12。

而且，在视频内容2的静止图像时间序列数据中，三个人物，Mr.A，Mr.B和Mr.C均出现。更具体地，Mr.A出现在第一个静止图像中，Mr.B出现在接下来的两个静止图像中，Mr.C出现在接下来的两个静止图像中，Mr.A和Mr.B都出现在最后两个静止图像中。

关于上述视频内容2的静止图像时间序列数据，元数据生成单元12的特征值提取单元43生成Mr.A的出现样式：内容2的A0={1,0,0,0,0,1,1}，Mr.B的出现样式：内容2的B0={0,1,1,0,0,1,1}，Mr.C的出现样式：内容2的C0={0,0,0,1,1,0,0}，如图4所示。

接下来描述对比出现样式的方法，其中，在上述视频内容1和视频内容2中搜索视频内容2的场景10的相似场景。

通过图4所示的出现样式清楚的示出，Mr.A和Mr.B出现在视频内容2的场景10中。因此，搜索处理单元14使用Mr.A和Mr.B两个的出现样式搜索相似场景。在这种情况下，与使用Mr.A和Mr.B其一的出现样式搜索相似场景相比可提高精度（最优性）。

图5示出视频内容1的Mr.A和Mr.B的出现样式和视频内容2的Mr.A和Mr.B的出现样式。

视频内容2的场景10相当于图5的一部分。当在场景单元之间没有过渡的范围下要从视频内容1中检测视频内容2的场景10的相似场景的情况下，图5所示的部分a到e被列举出作为相似场景的候选。此外，由于视频内容1的场景3的部分e仅由一个静止图像构成，所以搜索处理单元14把场景10的部分f分解成部分g和部分e，以便与部分e的数据数相匹配，并把它们与部分3进行对比。

搜索样式生成单元21生成下述相应于视频内容2的场景10的部分f，部分g和部分h的搜索样式。并且，搜索样式生成单元21输出所生成的搜索样式到评估单元23。

f={{A0},{B0}}={{1,0},{0,1}}

g={{A0},{B0}}={{1},{0}}

e={{A0},{B0}}={{0},{1}}

在这种方式下，当多个角色出现在搜索部分中时，其中每个角色的出现样式按照预定顺序被列举的样式作为搜索样式。有n个角色出现的搜索部分的出现样式被认为是n行出现样式阵列。

相似的，搜索目标样式生成单元22生成下述视频内容1的部分a至e的搜索目标样式。并且，搜索目标样式生成单元22输出所生成的搜索目标样式到评估单元23。

a={{A0},{B0}}={{1,1},{0,0}}

b={{A0},{B0}}={{1,0},{0,1}}

c={{A0},{B0}}={{0,1},{0,1}}

d={{A0},{B0}}={{1,1},{1,1}}

e={{A0},{B0}}={{1},{1}}

评估单元23计算搜索目标样式生成单元22生成的多个搜索目标样式中每个和搜索样式生成单元21生成的搜索样式之间的相似度。

部分f和部分a之间的相似度如下所示计算，此处，“是”是出现样式的相应元素相匹配的情况，“否”是它们不匹配的情况。

Comp(f,a)={{{1,0},{0,1}},{{1,1},{0,0}}}

={是,否,是,否}=(2/4)×100=50%

部分f和其它部分b至e之间的相似度以相同方式计算。

Comp(f,b)=100%

Comp(f,c)=50%

Comp(f,d)=50%

Comp(g,e)=50%

Comp(h,e)=50%

根据上述结果，评估单元23可决定包含部分b的视频内容1的场景1

为与场景10（部分f）相似的相似场景。

基本搜索方法的修改示例

接下来，给出修改示例的描述，其中，预定的处理被添加到上述基本搜索方法中。

由于存在以下问题，即当出现样式的数据数（元素数）高时召回（recall）降低，所以必须提供一定的灵活度。因此，搜索处理单元14计算通过压缩出现样式降低出现样式的数据数后的相似度。因此，出现样式的差别度和不希望的噪声可被吸收，可提高召回。

图6示出出现样式A1和B1，其是通过按照场景单元分隔并压缩图3所示视频内容1的出现样式A0和B0得到。

在压缩中，在相同值连续出现在出现样式中时，从第二个值以后的值被删除。然而，由于压缩按照场景单元分隔执行，因此即使相同值连续，场景改变时间的值也不删除。

因此，出现样式A1和B1，其是通过压缩视频内容1的出现样式A0和B0得到的，如下：

内容1的A1={1,0,0,1,1}

内容1的B1={0,1,0,1,1}

图7示出出现样式A1和B1，其是通过按照场景单元分隔并压缩图4所示视频内容2的出现样式A0和B0得到的。

并且，出现样式A1和B1，其是通过压缩视频内容2的出现样式A0和B0得到的，如下：

内容2的A1={1,0,0,1,1}

内容2的B1={0,1,1,0,1,1}

将给出这种情况的描述，即使用视频内容1的压缩出现样式A1和B1按照与基本搜索方法相同的方式搜索视频内容2的场景10的相似场景。

图8示出图6的视频内容1的出现样式A1和B1和图7的视频内容2的出现样式A1和B1。

压缩后视频内容2的场景10的出现样式与出现样式未压缩情况时不同。相应地，部分f，部分g和部分h的搜索样式与上述基本搜索方法的情况一样。

压缩后视频内容1的出现样式中，在相似场景在场景单元间无过渡的范围内被检测的情况下，图8中的部分j，部分k和部分e作为相似场景的候选列举出来。部分j，部分k和部分e的搜索目标样式如下：

j={{A1},{B1}}={{1,0},{0,1}}

k={{A1},{B1}}={{0,1},{0,1}}

e={{A1},{B1}}={{1},{1}}

相应地，搜索样式和多个搜索目标样式（其用压缩后的出现样式）中每个之间的相似度，如下所示：

Comp(f,j)=100%

Comp(f,k)=50%

Comp(g,e)=50%

Comp(h,e)=50%

根据上述结果，评估单元23能确定包含部分j的视频内容1的场景1为场景10（部分f）的相似场景。

接下来，给出这种情况的描述，即从视频内容1中搜索与视频内容2的三个场景10至12相似的场景。

图9示出出现样式A2和B2，其是通过按照场景单元分隔并压缩图3所示的视频内容1的出现样式A0和B0来得到的。视频内容1的出现样式A2和B2如下：

内容1的A2={1,0,1}

内容1的B2={0,1,0,1}

此时，由于压缩后视频内容1的出现样式A2和出现样式B2不同，所以搜索目标样式生成单元22生成出现样式A2'，其中具有低数据数的出现样式A2的元素数与具有高数据数的出现样式B2的元素数相匹配。具体而言，如图9用虚线示出的，搜索样式生成单元21通过在压缩前出现样式A2中相对于出现样式B2缺失的元素位置插入值（“0”）生成出现样式A2'。

内容1的A2'={1,0,0,1}

图10示出出现样式A2和B2，其是通过在未按照场景单元分隔的情况下压缩图4所示视频内容2的出现样式A0和B0而得到的。视频内容2的出现样式A2和B2如下：

内容2的A2={1,0,1}

内容2的B2={0,1,0,1}

由于视频内容2的出现样式A2的数据数也比出现样式B2低，所以搜索样式生成单元21生成出现样式A2＇，其中，出现样式A2＇的数据数与出现样式B2的数据数相匹配。

内容2的A2＇={1,0,0,1}

图11示出数据数调整后视频内容1的出现样式A2'和B2，以及数据数调整后视频内容2的出现样式A2'和B2。

作为搜索样式的视频内容2的三个场景10至12的出现样式如下：

内容2的A2'和B2={{1,0,0,1}{0,1,0,1}}

作为搜索目标样式的视频内容1的三个场景1至3的出现样式如下：

内容1的A2'和B2={{1,0,0,1}{0,1,0,1}}

因此，这导致Comp（内容1的A2'和B2，内容2的A2'和B2）=100%。因此，评估单元23能确定视频内容1的三个场景1至3为视频内容2的三个场景10至12的相似场景。

如上所述，图像处理设备1通过使用作为视频内容时间信息的角色的出现样式作为特征值来搜索相似场景或视频内容。根据图像处理设备1，与使用图像的彩色空间信息作为特征值的相关技术的相似场景检测比较，可在特征值数据量上实现降低和在计算量上实现降低。

此外，可任意设置作为生成出现样式基础的静止图像时间序列数据的静止图像的提取间隔，所以可按任意粒度排列视频内容的特征值，有助于提高数据访问。

噪声消除

当视频内容的场景快速改变时，出现样式也会有细微改变。这些细微改变在相似场景搜索背景下会变成噪声，因为它们可能是被确定为不同场景（非相似场景）的元素，因此，可通过添加噪声消除提高搜索精度。

图12示出图像处理设备1执行的噪声消除的示例。图12上部示出噪声消除前视频内容的静止图像时间序列数据和出现样式。并且，图12下部示出噪声消除后视频内容的静止图像时间序列数据和出现样式。

例如，噪声消除前视频内容的场景1示出：前半部分从Mr.A开始，Mr.A在2秒后和8秒后瞬间消失，在后半部分，角色从Mr.A转换为Mr.B，Mr.B在其出现1秒后瞬间消失。

噪声消除后视频内容的场景1示出：Mr.A出现在前半部，Mr.B出现在后半部，如此总结场景1。这样，视频内容的出现样式的细微改变被忽略了，视频内容由近似表示概括。因此，可检测出更多的出现场景。

图13示出噪声消除的具体方法。

可使用平滑滤波器消除噪声。图13示出噪声消除的示例，其中关于特定视频内容中场景1的出现样式A0，滤波器抽头数被设置为“3”。

具有抽头数为“3”的平滑滤波器被应用到出现样式A0，过滤后的数据四舍五入到最近的整数。因此，得到噪声消除后的出现样式A3。

元数据生成的处理流程

接下来，参考图14的流程图，描述生成视频内容元数据的元数据生成，其中元数据生成在图像处理设备1的视频内容输入时执行。

首先，在步骤S1，图像获取单元11获取视频内容的内容数据，并将所获取的视频内容的内容数据存储在存储单元13的内容DB13A中，并把内容数据提供给元数据生成单元12。

在步骤S2，元数据生成单元12的静止图像提取单元41以恒定时间间隔从视频内容的内容数据中提取静止图像，并生成由概述视频内容的多个静止图像构成的静止图像时间序列数据。

在步骤S3，场景改变点检测单元42在静止图像时间序列数据中检测场景改变点，生成场景改变点信息并把场景改变点信息提供给存储单元13的元数据DB13B。并且，场景改变点检测单元42使存储单元13存储场景改变点信息。

在步骤S4，特征值提取单元43提取视频内容的特征值。具体而言，特征值提取单元43为每个角色生成出现样式，（其是代表在静止图像时间序列数据中人物出现的时间序列数据），并把出现样式提供给存储单元13的元数据DB13B。并且，特征值提取单元43使存储单元13存储出现样式。

此外，在步骤S4的出现样式生成中，必要时可对上述出现样式执行压缩或噪声消除。例如，设定显示在显示单元15的设置屏幕可如此配置，使得可指定是否执行压缩，是否按照场景单元执行处理，噪声消除的滤波器抽头数，等等。因此，可基于指定条件执行压缩和噪声消除。

另外，由于认为当压缩率高时噪声低并且当压缩率低时噪声大，所以当压缩率高时，滤波器抽头数减少，当压缩率低时，滤波器抽头数增加。这样，特征值提取单元43可自动控制滤波器抽头数。

此外，即使在压缩或噪声消除执行的情况下，希望把处理前的出现样式保存在元数据DB13B中。因此，当搜索相似场景等时，必要时可执行压缩、噪声消除或类似操作。

在步骤S5，统计信息计算单元44计算角色统计信息，也就是说，人物出现率和每个角色的出现率，基于特征值提取单元43提取的出现样式。此外，统计信息计算单元44把所计算的角色统计信息提供给存储单元13的元数据DB13B。此外，统计信息计算单元44让存储单元13存储角色统计信息。

根据上述内容，元数据生成结束。

图15示出通过元数据生成所生成的有关图3所示的视频内容1的元数据。

在图15所示的视频内容1的示例中，人物出现在所有七个静止图像时间序列数据中。因此，人物出现率是7/7=100%。

关于每个角色的出现率，Mr.A出现在有人物出现的七个静止图像中的五个中。因此，Mr.A的出现率是5/7=71%。此外，Mr.B出现在其中四个静止图像中。因此，Mr.B的出现率是4/7=57%。Mr.C出现在其中的一个静止图像中。因此，Mr.C的出现率是1/7=14%。

显示场景搜索过程流程

接下来，参考图16的流程图，描述相似场景搜索，其搜索与在内容DB13A中存储的视频内容的预定场景相似的其它视频内容的相似场景。

首先，在步骤S21，搜索处理单元14执行搜索样式生成，其生成用户指定的被搜索场景的出现样式。搜索样式生成将参考图17在后面详细描述。

在步骤S22，搜索处理单元14执行搜索目标样式生成，其生成作为搜索目标的视频内容的出现样式的搜索目标样式。搜索目标样式生成将参考图21在后面详细描述。

在步骤S23，搜索处理单元14的评估单元23计算搜索样式和搜索目标样式之间的相似度，并基于提前设定的阀值确定相似场景。由于多个搜索目标样式被生成，所以评估单元23计算搜索样式和多个搜索目标样式中每个的相似度。

在步骤S24，显示控制单元24使显示单元15显示评估单元23确定的相似场景。

搜索样式生成的处理流程

图17是示出图16中步骤21执行的搜索样式生成的细节的流程图。

在步骤S41，显示控制单元24为了允许用户指定被搜索的场景，使显示单元15显示搜索场景指定屏幕。

图18示出显示在显示单元15上的搜索场景指定屏幕的示例。

对于每个存储在内容DB13A上的视频内容，基于元数据DB13B上存储的每个视频内容的元数据，元数据的每项都显示在搜索场景指定屏幕上。具体而言，对于每个视频内容，显示单元15显示内容名称61，人物出现率62，每个角色的出现率63，基于场景改变点信息的场景配置信息64，及每个角色的出现样式65。相应于视频内容的下标字符提供在图18中每项的参考标记右下角。

浏览显示在显示单元15上的搜索场景指定屏幕的用户操作操作单元16并选择包含被搜索场景的视频内容。

在步骤S42，搜索样式生成单元21确定用户经操作单元16指定的包含被搜索场景的视频内容。

接下来，用户操作操作单元16并从所选择的视频内容中指定被搜索场景。如图19A所示，被搜索场景也可按照场景单元指定，如图19B所示，也可不考虑场景单元指定开始点和结束点。

此外，在步骤S43，搜索样式生成单元21确定被搜索场景是否按照场景单元指定。

在步骤S43，在确定指定按照场景单元做出的情况下，处理进行到步骤S44，搜索样式生成单元21确定用户指定的场景（场景单元的部分）。

同时，在步骤S43，在确定指定不是按照场景单元做出的情况下，处理进行到步骤S45，搜索样式生成单元21确定用户指定的开始点和结束点所决定的部分（场景）。

此外，在步骤S46，搜索样式生成单元21从包含在指定视频内容的指定场景（部分）中的角色的出现样式中确定要为其生成搜索样式的人物。

例如，如图19A所示，当场景2被指定为被搜索场景时，两个人物（Mr.C和Mr.D）出现在场景2中。在这种情况下，可只用Mr.C或Mr.D的出现样式作为搜索样式，也可用Mr.C和Mr.D两者的出现样式作为搜索样式。因此，搜索样式生成单元21允许用户选择人物。然而，如上所述，通过使用两个人物的出现样式可以比通过使用一个人物的出现样式而大大提高相似场景的精度。

同时，如图19B所示，在只有一个人物出现的场景被指定为被搜索场景的情况下，搜索样式生成单元21确定该人物为要为其生成搜索样式的人物。

在步骤S47，搜索样式生成单元21获取在步骤S42至S46从元数据DB13B中确定的被搜索场景的人物的出现样式，并执行压缩。把压缩后的出现样式提供给评估单元23作为搜索样式，搜索样式生成结束。此外，处理返回图16。

并且，上述噪声消除也可在步骤S46和步骤S47之间执行。

压缩处理流程

接下来，参考图20的流程图详细描述图17的步骤S47中的压缩。

首先，在步骤S61，搜索样式生成单元21记录用户指定的被搜索场景的出现样式的第一个元素值（0或1）作为压缩后出现样式的元素。在出现多个角色的情况下，在步骤S61关于一个角色执行处理。

并且，在步骤S62，搜索样式生成单元21关注下一个元素值，在步骤S63，搜索样式生成单元21确定关注的下一个元素值是否与前一个元素值相同。

在步骤S63，在确定下一个元素值与前一个元素值不同的情况下，换言之，在前一个元素值是“1”而下一个元素值是“0”、或前一个元素值是“0”而下一个元素值是“1”的情况下，处理进行到步骤S64，搜索样式生成单元21记录下一个元素值为压缩后出现样式的元素。

同时，在步骤S63，在确定下一个元素值与前一个元素值相同的情况下，处理进行到步骤S65，搜索样式生成单元21确定是否按照场景单元进行查找，换言之，被搜索场景是否是按照场景单元指定的。

在步骤S65，在确定按照场景单元进行查找的情况下，处理进行到步骤S66，搜索样式生成单元21确定下一个元素值与前一个元素值间的分隔是否是场景改变点。

在步骤S66，在下一个元素值和前一个元素值间的分隔被确定为场景改变点的情况下，处理进行到上述步骤S64。因此，在按照场景单元进行查找的情况下，当相同元素值连续时记录场景中改变的元素值。

同时，在步骤S66，在下一个元素值和前一个元素值间的分隔被确定为不是场景改变点的情况下，处理进行到步骤S67。此外，在步骤S65，在已确定不按照场景单元进行查找的情况下，处理进行到步骤S67。

而且，在步骤S67，搜索样式生成单元21从压缩后出现样式的元素中删除下一个元素值。

接下来，在步骤S68，搜索样式生成单元21确定正在关注的元素值是否是出现样式的最后一个元素值。

在步骤S68，在确定正在关注的元素值不是出现样式的最后一个元素值的情况下，处理返回到步骤S62。结果，下一个元素值被关注，上述相同处理再执行一次。

同时，在步骤S68，在确定正在关注的元素值是出现样式的最后一个元素值的情况下，处理进行到步骤S69，搜索样式生成单元21从用户指定的角色中确定是否有另一个未被压缩的角色。

在步骤S69，在确定还有另一个未被压缩的角色的情况下，处理进行到步骤S70，搜索样式生成单元21关注下一个角色，处理进行到步骤S61。因此，与下一个角色的出现样式有关地执行上述步骤S61至步骤S69的处理的执行。

同时，在步骤S69，在确定没有另一个未被压缩的角色的情况下，处理进行到步骤S71，搜索样式生成单元21确定对于每个角色而言压缩后的元素数是否相匹配。

在步骤S71，在确定对于每个角色而言压缩后的元素数相匹配的情况下，处理返回到图17。而且，即使在存在一个角色的情况下，也确定元素数相匹配。

同时，在步骤S71，在确定对于每个角色而言压缩后的元素数不匹配的情况下，处理进行到步骤S72,。并且，如参考图9和图10的描述，搜索样式生成单元21执行把元素数与最高元素数相匹配的处理，处理返回到图17。

根据上述搜索样式生成，生成搜索样式，即用户指定的被搜索场景的出现样式。

搜索目标样式生成的处理流程

接下来，将参考图21的流程图详细描述在图16中步骤S22的搜索目标样式生成。

首先，在步骤S81，搜索目标样式生成单元22基于元数据DB13B的角色统计信息搜索在其中出现与搜索样式生成所生成的搜索样式中的角色相同的角色的视频内容，，与选择所检测到的视频内容之一。在这个过程中，当搜索样式由Mr.A和Mr.B的出现样式构成时，在其中出现Mr.A和Mr.B以外的人物的视频内容被排除在搜索目标之外。因此，可限制查找相同角色出现的视频内容的范围，执行高效搜索。

在步骤S82，搜索目标样式生成单元22获取步骤S81从元数据DB13B中选择的视频内容的出现样式。

在步骤S83，搜索目标样式生成单元22对所获取的视频内容的出现样式进行压缩。压缩与参考图20描述的过程相同。

在步骤S84，搜索目标样式生成单元22基于元数据DB13B的角色统计信息确定是否还有在其中出现与搜索样式中的角色相同的角色的视频内容，，在确定还有这样的内容的情况下，处理返回到步骤S81。因此，在步骤S81之前，选择在其中出现与搜索样式中的角色相同的角色的下一个视频内容，生成与所选视频内容有关的搜索目标样式。

同时，在步骤S84，在确定没有在其中出现与搜索样式中的角色相同的角色的视频内容的情况下，搜索目标样式处理结束，处理返回到图16。

图21的搜索目标样式生成是所有与用户在其中指定被搜索场景的视频内容不同的视频内容的所有内容被设为查找范围的情况的处理示例。然而，也可指定视频内容的一部分为查找范围。这样，在步骤S82和步骤S83之间增加如图17的步骤S43至步骤S45那样接收查找范围指定的过程。

此外，上述噪声消除也可在步骤S82和步骤S83之间执行。

在上述示例中，查找范围被步骤S81的处理限制到在其中出现相同角色的视频内容，相似场景的查找高效执行。

然而，也有一种方法，其中省略步骤S81的处理。在这种情况下，可检测其中另一角色的出现样式相似的场景为相似场景。此外，即使在相同人物被面部图像识别识别为不同人物的情况下，当出现样式相似时，可检测场景为相似场景。

改编搜索方法示例

接下来，将描述改编搜索方法示例。

在上述示例中，如图22所示，图像处理设备1生成由包含在一个视频内容（例如，视频内容1）中的一个或多个角色的出现样式构成的搜索样式，对比搜索样式和另一视频内容的搜索目标样式之间的相似度。

除了这种搜索方法，图像处理设备1可生成组合搜索样式，其中不同内容和场景的角色的出现样式组合在一起，可对比组合搜索样式和其它视频内容的搜索目标样式之间的相似度。例如，如图23所示，图像处理设备1可生成Mr.A和Mr.B的组合搜索样式，其中视频内容1的场景11的Mr.A的搜索样式和视频内容2的场景1的Mr.B的搜索样式组合在一起，可对比组合搜索样式和其它视频内容的搜索目标样式之间的相似度。

根据这一搜索方法，可生成新的出现样式，其不是仅由一个视频内容生成。因此，可搜索出未知场景。此外，在通过面部图像识别单元43A的角色的识别中，在由于视频内容的图像质量、所登记面部图像的图像质量和面部朝向等影响，实际是相同人物被识别为不同人物的情况下，存在可将该场景检测为相似场景的情况。

并且，在图23所示的原理图中，只有搜索样式被组合，而搜索目标样式以与上述示例相同的方式由视频内容单元生成。然而，有关搜索目标样式，生成其中组合了多个视频内容的出现样式的组合搜索目标样式，可将组合搜索目标样式与组合搜索样式进行对比。

因此，接下来，将给出组合搜索样式和组合搜索目标样式之间相似度对比方法的描述。并且，组合搜索样式是通过组合多个视频内容的出现样式而生成的，组合搜索目标样式是通过组合多个搜索目标的视频内容的出现样式而生成的。

第一组合对比方法

图24示出第一组合对比方法。

第一组合对比方法是以下方法，其使用从多个视频内容中提取的出现样式的逻辑积（与操作）生成组合搜索样式和组合搜索目标样式，并将组合搜索样式和组合搜索目标样式彼此互相比较。

组合搜索样式AB（1,2）通过组合视频内容1的特定场景的Mr.A的出现样式A（1）和视频内容2的特定场景的Mr.B的出现样式B（2）生成的。

出现样式A（1）是A1(0),A1(1),...,A1(t-1)，出现样式B（2）是B2(0),B2(1),...,B2(t-1)。而且，组合搜索样式AB（1，2）是AB(1,2)=s(0),s(1),...,s(t-1)。这是由在出现样式A（1）和出现样式B（2）中对应时间的逻辑积确定的。换言之，s（0）=A1（0）与B2（0），s（2）=A1（1）与B2（1），…，s（t-1）=A1（t-1）与B2（t-1）。

此外，组合搜索样式AB（8,9）是通过组合视频内容8的特定场景中Mr.A的出现样式A（8）和视频内容9的特定场景中Mr.B的出现样式B（9）生成的。

出现样式A（8）是A8（0），A8（1），…A8（t-1），出现样式B（9）是B9（0），B9（1），…B9（t-1）。而且，组合搜索样式AB（8,9）是AB（8,9）=t(0),t(1),...,t(t-1)。这是通过取出现样式A（8）和出现样式B（9）中对应时间的逻辑积确定的。换言之，t(0)=A8(0)与B9(0),t(1)=A8(1)与B9(1),...,t(t-1)=A8(t-1)与B9(t-1)。

而且，在评估单元23中，可按以下方式计算组合搜索样式AB（1,2）和组合搜索目标样式AB（8,9）之间的相似度。

Comp(AB(1,2),AB(8,9))={{s(0),s(1),...,s(t-1)},{t(0),t(1),...,t(t-1)}}

={j(0),j(1),...,j(t-1)}

=(j(0)+j(1)+...,+j(t-1))×100/t

=z

其中，当s（t）=t（t）为真时j（t）=1，当s（t）=t（t）为假时j（t）=0。

第二组合对比方法

图25示出第二组合对比方法。

第二组合对比方法是以下方法，其中，从多个视频内容的每个中提取的每个角色的出现样式被认为是从一个视频内容中提取的，对比按照与图5所述基本搜索方法相同的方式执行。

换言之，组合搜索样式AB（1，2）和组合搜索目标样式AB（8，9）每个被生成为两行t列的出现样式，如上所述。

AB(1,2)={{A(1)},{B(2)}}

={{A1(0),A1(1),...,A1(t-1)},{B2(0),B2(1),...,B2(t-1)}}

AB(8,9)={{A(8)},{B(9)}}

={{A8(0),A8(1),...,A8(t-1)},{B9(0),B9(1),...,B9(t-1)}}

组合搜索样式AB（1，2）和组合搜索目标样式AB（8，9）之间的相似度计算方法与基本搜索方法相同。

第三组合对比方法

图26示出第三组合对比方法。

第三组合对比方法不生成组合搜索样式和组合搜索目标样式。然而，第三组合对比方法是以下方法，其中，通过单独地对比被搜索的出现样式和搜索目标的出现样式并把对比结果整合在一起，将组合样式作为对比的相似度。

换言之，如图26所示，首先，计算视频内容1的出现样式A（1）和视频内容8的出现样式A（8）之间的相似度Comp（A（1），A（8））。此外，计算视频内容2的出现样式B（2）和视频内容9的出现样式B（9）之间的相似度Comp（B（2），B（9））。再次，这些计算结果是Comp(A(1),A(8))=α%,Comp(B(2),B(9))=β%。

评估单元23使用以下方程计算组合后的相似度。比率α和比率β是各自计算的相似度整合在一起的情况下的整合比率，它们可被设为任意值。

Z=f{Comp(A(1),A(8)),Comp(B(2),B(9))}

=(α×比率α+β×比率β)/2(人物数)

使用上述第三组合对比方法，可执行相似场景搜索，其中多个视频内容的出现样式组合在一起。

再次，在只有搜索样式组合在一起的方法中，在上述第一至第三组合对比方法中，视频内容8的出现样式A（8）和视频内容9的出现样式A（9）可被认为来自相同的视频内容。

如上所述，在应用本公开的图像处理设备1中，通过使用作为视频内容的时间信息的角色出现样式作为特征值，可无一例外的搜索许多相似场景。在本公开的实施例的相似场景搜索中，在召回和精度方面，即一般指信息搜索系统的搜索性能，认为召回更重要。然而，如上所示，也可通过使用角色统计信息限制查找范围，使用噪声消除处理出现样式等等。

在上述实施例中，给出从与被搜索场景的视频内容不同的视频内容中搜索相似场景的示例描述。然而，当然也可以从与被搜索场景的视频内容相同的内容中搜索相似场景。

在上述示例中，使用面部图像识别进行人物识别。然而，可用面部图像识别以外的另一技术，例如，语音识别技术或类似技术来作为确定为其生成出现样式的人物的方法。

计算机应用示例

上述一系列处理可使用硬件执行，也可使用软件执行。在使用软件执行一系列处理的情况下，构成软件的程序安装在计算机上。在此，计算机包括嵌入在专用硬件中的计算机，普通个人计算机或能通过在其上安装多种程序执行多种功能的类似设备。

图27是示出使用程序执行上述一系列处理的计算机硬件的配置示例框图。

在计算机中，CPU（中央处理单元）101，ROM（只读存储器）102，和RAM（随机存取存储器）102通过总线104互相连接。

输入-输出接口105也连接到总线104。输入-输出接口105连接输入单元106，输出单元107，存储单元108，通讯单元109和驱动器110。

输入单元106由键盘，鼠标，麦克风等组成。输出单元107由显示器，扬声器等组成。存储单元108由硬盘，非易失性存储器等组成。通讯单元109由网络接口等组成。驱动器110驱动可移动记录介质111，如磁盘，光盘，磁-光盘，或半导体存储器。

在如上所述配置的计算机中，上述一系列处理通过CPU101执行，例如，经输入-输出接口105和总线104装载存储在存储单元108中的程序到RAM103，执行装载的程序。

在计算机中，可通过把可移动存储介质111接到驱动器110，经输入-输出接口105把程序安装到存储单元108。此外，可通过使用有线或无线传输介质如局域网，因特网，或数字卫星广播接收程序，把程序安装到存储单元108。此外，可提前把程序安装到ROM102或存储单元108中。

此外，计算机执行的程序可以是按本公开描述的顺序按时间序列顺序执行处理的程序。程序也可以是并行或必要时（如当处理被调用时）执行处理的程序。

本公开的实施例不限于上述实施例，在不脱离本公开范围的情况下，可做出各种变更。

例如，可采用其中组合了上述所有的多个实施例，或它们的子集的实施例。

例如，在本公开中，可采用云计算配置，其中，一个功能可经网络被多个设备分配，共享及处理。

此外，除了使用一个设备执行上述流程图中描述的每一步骤外，还可在多个设备上分配和执行上述步骤。

再次，在一个步骤中包含多个处理的情况下，除了可在一个设备上执行处理外，还可把包含在一个步骤中的多个处理分配给多个设备执行。

再次，本公开采用以下配置。

（1）.一种图像处理设备包括评估单元，其获取搜索样式和搜索目标样式，计算搜索样式和搜索目标样式之间的相似度，以及基于所计算的相似度确定相似场景，其中，所述搜索样式是在视频内容所包含的场景中人物的出现样式，要针对所述场景搜索相似场景，所述搜索目标样式是在作为相似场景搜索目标的视频内容中人物的出现样式。

（2）.根据上述（1）的图像处理设备，还包括：搜索样式生成单元，其通过压缩从静止图像时间序列数据中得到的人物的出现样式来生成搜索样式，其中静止图像时间序列数据是按照预定时间间隔从包含场景的视频内容中提取的；和搜索目标样式生成单元，其通过压缩从静止图像时间序列数据中得到的人物的出现样式来生成搜索目标样式，其中静止图像时间序列数据是按照预定时间间隔从作为相似场景的搜索目标的视频内容中提取的。

（3）.根据上述（2）的图像处理设备，其中当构成人物的出现样式的预定元素值与前一个元素值是同一个值时，压缩是删除预定元素值的过程。

（4）.根据上述（2）或（3）的图像处理设备，其中基于场景改变点信息按照场景单元执行压缩。

（5）.根据上述（2）～（4）任何一种的图像处理设备，其中当每个角色的出现样式的元素数不匹配时，将每个角色的出现样式的元素数与具有最高元素数的角色的出现样式的元素数相匹配。

（6）.根据上述（2）～（5）任何一种的图像处理设备，其中搜索样式生成单元和搜索目标样式生成单元在执行压缩前对出现样式执行噪声消除。

（7）.根据上述（2）～（6）任何一种的图像处理设备，其中搜索目标样式生成单元获取能成为相似场景的搜索目标的视频内容的角色统计信息，并基于所获取的角色统计信息选择成为相似场景的搜索目标的视频内容。

（8）.根据上述（2）～（7）任何一种的图像处理设备，其中搜索样式生成单元通过组合多个视频内容的出现样式生成搜索样式。

（9）.根据上述（8）的图像处理设备，其中搜索目标样式生成单元通过组合多个视频内容的出现样式生成搜索目标样式。

（10）.根据上述（1）～（9）任何一种的图像处理设备，还包括：元数据生成单元，其生成通过从静止图像时间序列数据中识别人物而被识别的人物的出现样式，其中静止图像时间序列数据是按照预定时间间隔从视频内容中提取的多个静止图像；和存储单元，其存储由元数据生成单元生成的出现样式。

（11）.根据上述（10）的图像处理设备，其中元数据生成单元关于静止图像时间序列数据计算人物出现率和每个角色的出现率，存储单元存储人物出现率和每个角色的出现率作为角色统计信息。

（12）.根据上述（10）或（11）的图像处理设备，其中元数据生成单元关于静止图像时间序列数据检测场景改变点，存储单元也存储作为场景改变点的信息的场景改变点信息。

（13）.根据上述（10）～（12）任何一种的图像处理设备，其中元数据生成单元也压缩所生成的人物的出现样式。

（14）.根据上述（10）～（14）任何一种的图像处理设备，其中元数据生成单元也对所生成的人物的出现样式执行噪声消除。

（15）.一种图像处理方法包括：获取搜索样式和搜索目标样式，计算搜索样式和搜索目标样式之间的相似度，以及基于所计算的相似度确定相似场景，其中，所述搜索样式是在视频内容所包含的场景中人物的出现样式，要针对所述场景搜索相似场景，所述搜索目标样式是在作为相似场景搜索目标的视频内容中人物的出现样式。

（16）.一种使计算机起作用为评估单元的程序，所述评估单元获取搜索样式和搜索目标样式，计算搜索样式和搜索目标样式之间的相似度，以及基于所计算的相似度确定相似场景，其中，所述搜索样式是在视频内容所包含的场景中人物的出现样式，要针对所述场景搜索相似场景，所述搜索目标样式是在作为相似场景搜索目标的视频内容中人物的出现样式。

本公开包含与2012年9月27日向日本专利局提交的日本优先权专利申请JP2012-213526有关的主题，通过引用将其全部内容并入于此。

本领域技术人员应当理解，根据设计要求和其它因素，只要在所附权利要求或其等同物范围内，可能会出现各种修改、组合、子组合和变更。

Claims

1.一种图像处理设备，包括：

评估单元，其

获取搜索样式和搜索目标样式，所述搜索样式是在视频内容所包含的场景中人物的出现样式，要针对所述场景搜索相似场景，所述搜索目标样式是在作为相似场景搜索目标的视频内容中人物的出现样式，

计算搜索样式和搜索目标样式之间的相似度，以及

基于所计算的相似度确定相似场景。

2.根据权利要求1所述的图像处理设备，还包括：

搜索样式生成单元，其通过压缩从静止图像时间序列数据中得到的人物的出现样式来生成搜索样式，其中静止图像时间序列数据是按照预定时间间隔从包含场景的视频内容中提取的；以及

搜索目标样式生成单元，其通过压缩从静止图像时间序列数据中得到的人物的出现样式来生成搜索目标样式，其中静止图像时间序列数据是按照预定时间间隔从作为相似场景的搜索目标的视频内容中提取的。

3.根据权利要求2所述的图像处理设备，

其中，当构成人物的出现样式的预定元素值与前一个元素值是同一个值时，压缩是删除预定元素值的过程。

4.根据权利要求2所述的图像处理设备，

其中，基于场景改变点信息按照场景单元执行压缩。

5.根据权利要求2所述的图像处理设备，

其中，当每个角色的出现样式的元素数不匹配时，将每个角色的出现样式的元素数与具有最高元素数的角色的出现样式的元素数相匹配。

6.根据权利要求1所述的图像处理设备，

其中，搜索样式生成单元和搜索目标样式生成单元在执行压缩前对出现样式执行噪声消除。

7.根据权利要求2所述的图像处理设备，

其中，搜索目标样式生成单元

获取能成为相似场景搜索目标的视频内容的角色统计信息，以及基于所获取的角色统计信息选择成为相似场景搜索目标的视频内容。

8.根据权利要求2所述的图像处理设备，

其中，搜索样式生成单元通过组合多个视频内容的出现样式生成搜索样式。

9.根据权利要求8所述的图像处理设备，

其中，搜索目标样式生成单元通过组合多个视频内容的出现样式生成搜索目标样式。

10.根据权利要求1所述的图像处理设备，还包括：

元数据生成单元，其生成通过从静止图像时间序列数据中识别人物而被识别的人物的出现样式，其中静止图像时间序列数据是按照预定时间间隔从视频内容中提取的；和

存储单元，其存储由元数据生成单元生成的出现样式。

11.根据权利要求10所述的图像处理设备，

其中，元数据生成单元关于静止图像时间序列数据计算人物出现率和每个角色的出现率，和

存储单元存储人物出现率和每个角色的出现率作为角色统计信息。

12.根据权利要求10所述的图像处理设备，

其中，元数据生成单元关于静止图像时间序列数据检测场景改变点，和

存储单元也存储作为场景改变点的信息的场景改变点信息。

13.根据权利要求10所述的图像处理设备，

其中，元数据生成单元也压缩所生成的人物的出现样式。

14.根据权利要求10所述的图像处理设备，

其中，元数据生成单元也对所生成的人物的出现样式执行噪声消除。

15.一种图像处理方法，包括：

获取搜索样式和搜索目标样式，其中，所述搜索样式是在视频内容所包含的场景中人物的出现样式，要针对所述场景搜索相似场景，所述搜索目标样式是在作为相似场景搜索目标的视频内容中人物的出现样式；

计算搜索样式和搜索目标样式之间的相似度；以及

基于所计算的相似度确定相似场景。

16.一种使计算机起作用为评估单元的程序，其

获取搜索样式和搜索目标样式，其中，所述搜索样式是在视频内容所包含的场景中人物的出现样式，要针对所述场景搜索相似场景，所述搜索目标样式是在作为相似场景搜索目标的视频内容中人物的出现样式，

计算搜索样式和搜索目标样式之间的相似度，以及

基于所计算的相似度确定相似场景。