CN102782750B

CN102782750B - 兴趣区间抽取装置、兴趣区间抽取方法

Info

Publication number: CN102782750B
Application number: CN201180012516.2A
Authority: CN
Inventors: 小沼知浩; 川西亮一; 上野山努
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2011-01-05
Filing date: 2011-10-28
Publication date: 2015-04-01
Anticipated expiration: 2031-10-28
Also published as: JP5658285B2; US8942540B2; WO2012093430A1; CN102782750A; US20120321282A1; JPWO2012093430A1

Abstract

一种兴趣区间抽取装置（104），根据动态图像文件中所包含的音频信号来抽取包括指定时刻（T0）的用户的兴趣区间，该兴趣区间抽取装置（104）具有：接口装置（109），取得指定时刻（T0）；似然度向量生成部（202），对于音频信号的每个第1单位区间计算表现多种音素各自的特征的各个锚模型（Ar）的似然度，并生成以计算出的各个似然度为分量的似然度向量（F）；以及兴趣区间抽取部（209），根据似然度向量（F）计算成为兴趣区间的候选的第1特征区间，并抽取包括指定时刻（T0）的第1特征区间的一部分区间作为兴趣区间。

Description

兴趣区间抽取装置、兴趣区间抽取方法

技术领域

本发明涉及从AV内容中抽取成为用户的兴趣对象的兴趣区间的技术，尤其涉及使用音频信号的技术。

背景技术

在数字摄像机等动态图像摄影设备中，要求能够从用户拍摄的AV内容中去除不需要的区间而仅抽取有兴趣的区间（下面称为“兴趣区间”）的功能。

与此相对，在过去的动态图像摄影设备中，用户视听AV内容的内容，并在兴趣区间的开始时刻到来时操作控制器（例如按下控制器的输入按钮的操作）确定兴趣区间的开始时刻，然后在兴趣区间的结束时刻到来时，再次操作控制器确定兴趣区间的结束时刻，由此能够抽取兴趣区间。

可是，在这种动态图像摄影设备中，在想要抽取适宜的兴趣区间时，需要视听AV内容的内容并在恰当的定时操作控制器，在视听AV内容的内容的同时操作控制器的作业需要某种程度的熟练功。并且，在不能恰当地确定兴趣区间的开始时刻和结束时刻的情况下，需要再次反复视听AV内容的内容来操作控制器的作业，兴趣区间的抽取花费许多功夫。

因此，过去提出了一种动态图像编辑装置（参照专利文献1），该动态图像编辑装置具有将针对用户指定的时刻加上用户预先根据内容的内容而设定的偏置时间后的时刻作为起始点和终止点的功能。在这种动态图像编辑装置中，如果将起始点的时刻设定为例如比用户指定的时刻提前偏置时间，即使是用户指定起始点的定时延迟了，也能够指定期望的起始点，能够抽取适宜的兴趣区间。

另外，过去还提出了这样的方法（参照专利文献2），预先设定兴趣区间的开始时刻（起始点）的音响特征条件和结束时刻（终止点）的音响特征条件，根据这些音响特征条件来确定起始点和终止点，由此抽取兴趣区间。

现有技术文献

专利文献

专利文献1：日本特开2001－057660号公报

专利文献2：日本特开平3－080782号公报

发明概要

发明要解决的问题

但是，在专利文献1记载的方法中，通常需要根据AV内容的内容将适宜的偏置时间设定为不同的长度，例如在想要从多种AV内容分别抽取兴趣区间来生成摘要的情况下，需要在对每种AV内容分别设定偏置时间后抽取兴趣区间。在想要从这些多种AV内容分别抽取兴趣区间的情况下，按照每种AV内容分别设定不同的偏置时间的作业，对于用户而言是非常费功夫的作业。

另外，在专利文献2记载的方法中，需要根据AV内容的内容设定起始点和终止点的音响特征条件，因而在想要从多种AV内容抽取兴趣区间的情况下，需要对每种AV内容分别设定起始点和终止点的音响特征条件。因此，在对多种AV内容分别设定音响特征条件来抽取兴趣区间的情况下，这种设定作业对于用户而言成为较大的负担。

发明内容

本发明正是鉴于上述情况而提出的，其目的在于，减轻从AV内容抽取兴趣区间时的用户的作业负担。

用于解决问题的手段

本发明的兴趣区间抽取根据动态图像文件中所包含的音频信号来抽取包括指定时刻的用户的兴趣区间，其特征在于，该兴趣区间抽取装置具有：锚模型（anchor model）存储单元，预先存储有用于表现作为基准的多种音素各自的特征的锚模型；指定时刻取得单元，取得指定时刻；似然度向量生成单元，对于音频信号的每个单位区间，使用锚模型求出相对于表现音频信号的特征量的特征量向量的似然度，并生成以各个似然度为分量的似然度向量；以及兴趣区间抽取单元，根据似然度向量计算成为兴趣区间的候选的候选区间，并抽取包括指定时刻的候选区间的全部或者一部分候选区间作为兴趣区间。

发明效果

根据这种结构，在从AV内容抽取兴趣区间时，仅通过指定指定时刻即可抽取适宜的兴趣区间，因而能够减轻抽取兴趣区间时的用户的作业负担。

并且，也可以是，本发明的兴趣区间抽取装置具有频次向量生成单元，该频次向量生成单元将单位区间作为第1单位区间，根据从长度为该第1单位区间的N倍的第2单位区间的音频信号生成的N个似然度向量生成频次向量，N为2以上的自然数，候选区间是根据频次向量而计算出的。

并且，也可以是，本发明的兴趣区间抽取装置具有：分量分类单元，将频次向量的各个分量分类为多个分量组；以及特征区间计算单元，根据多个分量组分别计算多个特征区间，候选区间由多个特征区间确定。

根据这种结构，根据表示AV内容整体中的各个音素的出现频次的、从音频信号的整体区间生成的似然度向量的重心向量的各个分量来分类为多个分量组，按照根据多个分量组分别计算出的特征区间来确定候选区间，由此如果按照声音环境的性质上的差异将分量分类，则能够从根据声音环境为相同性质的分量而计算出的特征区间中确定候选区间，因而能够使声音环境的性质体现在特征区间中。

并且，也可以是，在本发明的兴趣区间抽取装置中，分量分类单元根据音频信号的整体区间的似然度向量生成重心向量，根据该重心向量的各个分量的大小，将频次向量的各个分量分类为第1分量组和第2分量组，特征区间计算单元根据重心向量中的属于第1分量组的各个分量计算第1特征区间，根据重心向量中的属于第2分量组的各个分量计算第2特征区间，候选区间由第1特征区间和第2特征区间确定。

根据这种结构，特征区间计算单元构成为将重心向量中对应于与大小为预定量以上的分量对应的锚模型的重心向量的分量作为第1分量组，将重心向量中对应于与大小小于预定量的分量对应的锚模型的重心向量的分量作为第2分量组，并根据第1分量组计算第1特征区间，根据第2分量组计算第2特征区间，由此能够根据属于第1分量组的各个分量计算稳定性质的声音环境的持续期间即第1特征区间，并根据属于第2分量组的各个分量计算突发性质的声音环境的持续期间即第2特征区间，因而能够抽取包括稳定性质的声音环境和突发性质的声音环境的兴趣区间。

并且，也可以是，在本发明的兴趣区间抽取装置中，兴趣区间是包含于第1特征区间中且包含第2特征区间的区间。

根据这种结构，兴趣区间是包含于第1特征区间中且包括第2特征区间的区间，由此能够准确抽取包括突发性的声音环境的兴趣区间，因而能够准确抽取包括稳定的声音环境和突发性的声音环境的兴趣区间。

并且，也可以是，本发明的兴趣区间抽取装置具有：兴趣区间长度取得单元，取得用户预先设定的兴趣区间的长度；以及特征时刻抽取单元，从指定时刻开始使时刻每次错时第2单位区间，同时检索并提取包含于第2特征区间中的特征时刻，兴趣区间抽取单元，从指定时刻开始使时刻朝向由特征时刻抽取单元抽取的特征时刻每次错时第2单位区间，同时判定对象时刻是否属于第1特征区间、且该对象时刻与指定时刻之间的长度是否比预先设定的兴趣区间的长度短，在判定为对象时刻属于第1特征区间、且该对象时刻与指定时刻之间的长度比预先设定的兴趣区间的长度短时，将包括对象时刻的第2单位区间作为兴趣区间。

根据这种结构，在第1特征区间的长度比用户预先设定的兴趣区间的长度短的情况下，能够减轻兴趣区间抽取单元的处理负荷。

并且，也可以是，在本发明的兴趣区间抽取装置中，动态图像文件对应于表示一个内容的动态图像。

根据这种结构，动态图像文件对应于表示一个内容的动态图像，由此能够从一个内容整体中抽取第1特征区间和第2特征区间，因而能够更准确地抽取用户对内容的兴趣区间。

并且，也可以是，在本发明的兴趣区间抽取装置中，兴趣区间抽取单元将表示与多个指定时刻对应的多个兴趣区间的兴趣区间数据按照指定时刻的顺序进行排列，并向外部存储装置存储。

根据这种结构，在生成按照指定时刻的顺序来呈现兴趣区间的动态图像的摘要动态图像的情况下，不需要进行从外部存储装置取得兴趣区间数据时的兴趣区间数据与时刻信息的对应处理，因而能够减轻摘要动态图像生成处理的负担。

并且，也可以是，在本发明的兴趣区间抽取装置中，指定时刻取得单元根据包含于动态图像文件中且与用户指定的区间对应的图像数据各自的特征量的时间性变化，从该用户指定的区间中自动取得指定时刻。

根据这种结构，仅通过用户大致指定包括想要设为指定时刻的时刻在内的区间，指定时刻取得单元即可从该用户指定的区间中自动取得指定时刻，因而能够减轻用户指定指定时刻时的负担。

并且，也可以是，本发明的兴趣区间抽取方法根据动态图像文件中所包含的音频信号来抽取包括指定时刻的用户的兴趣区间，其特征在于，该兴趣区间抽取方法包括：锚模型存储步骤，存储用于表现作为基准的多种音素各自的特征的锚模型；指定时刻取得步骤，取得指定时刻；似然度向量生成步骤，对于音频信号的每个单位区间，使用锚模型求出相对于表现音频信号的特征量的特征量向量的似然度，并生成以各个似然度为分量的似然度向量；以及兴趣区间抽取步骤，根据似然度向量计算成为兴趣区间的候选的候选区间，并抽取包括指定时刻的候选区间的全部或者一部分候选区间作为兴趣区间。

根据这种结构，仅通过用户指定指定时刻即可容易抽取兴趣区间。

并且，也可以是，本发明的兴趣区间抽取程序是用于通过计算机实现兴趣区间抽取处理的程序，在该兴趣区间抽取处理中，根据动态图像文件中所包含的音频信号来抽取包括指定时刻的用户的兴趣区间，其特征在于，该兴趣区间抽取处理包括：锚模型存储步骤，存储用于表现作为基准的多种音素各自的特征的锚模型；指定时刻取得步骤，取得指定时刻；似然度向量生成步骤，对于音频信号的每个单位区间，使用锚模型求出相对于表现音频信号的特征量的特征量向量的似然度，并生成以各个似然度为分量的似然度向量；以及兴趣区间抽取步骤，根据似然度向量计算成为兴趣区间的候选的候选区间，并抽取包括指定时刻的候选区间的全部或者一部分候选区间作为兴趣区间。

本发明的兴趣区间抽取用集成电路根据动态图像文件中所包含的音频信号来抽取包括指定时刻的用户的兴趣区间，其特征在于，该兴趣区间抽取用集成电路具有：锚模型存储部，预先存储有用于表现作为基准的多种音素各自的特征的锚模型；指定时刻取得部，取得指定时刻；似然度向量生成部，对于音频信号的每个单位区间，使用锚模型求出相对于表现音频信号的特征量的特征量向量的似然度，并生成以各个似然度为分量的似然度向量；以及兴趣区间抽取部，根据似然度向量计算成为兴趣区间的候选的候选区间，并抽取包括指定时刻的候选区间的全部或者一部分候选区间作为兴趣区间。

根据这种结构，能够实现所搭载的装置的小型化。

附图说明

图1是说明安装了实施方式中的兴趣区间抽取装置的影像编辑装置的概况的图。

图2是实施方式中的特征量向量的计算方法的说明图。

图3是表示实施方式中的特征量向量的示例的图。

图4是表示实施方式中的锚模型的示例的图。

图5是表示实施方式中的似然度向量的示例的图。

图6是安装了实施方式中的兴趣区间抽取装置的影像编辑装置的结构图。

图7是实施方式中的兴趣区间抽取装置的功能框图。

图8是实施方式中的分量分类部的动作说明图。

图9是表示实施方式中的第1单位区间和第2单位区间的关系的图。

图10是表示实施方式中的低频次向量和高频次向量的图。

图11是表示实施方式中的基准向量/阈值生成部生成基准向量时的动作说明图。

图12是表示实施方式中的基准向量/阈值生成部计算阈值时的动作说明图。

图13是实施方式中的特征点抽取部的动作说明图。

图14是用于说明实施方式的特征区间中所包含的高频次向量的图。

图15是实施方式中的兴趣区间抽取部的动作说明图。

图16是用于说明实施方式中的兴趣区间和第1特征区间和第2特征区间的关系的图。

图17是用于说明实施方式中的兴趣区间和第1特征区间和第2特征区间的关系的图。

图18是实施方式中的锚模型生成装置的功能框图。

具体实施方式

<实施方式>

<1>概要

本实施方式的兴趣区间抽取装置针对动态图像文件中所包含的音频信号的每个第1单位区间（10msec），使用多种锚模型Ar分别生成以相对于表现音频信号的特征量的特征量向量的似然度为分量的似然度向量，将似然度向量的各个分量分类为两个分量组，根据属于各个分量组的分量计算第1特征区间（候选区间）和第2特征区间的结束时刻。

例如，如图1所示，假设动态图像文件是拍摄了运动会的场景的图像文件。并且，假设用户想要进行从该动态图像文件中仅切取赛跑的开始时刻前后的预定长度的时间内的场景的编辑。在这种情况下，用户在指定赛跑场景中的开始时刻附近的时刻时，首先从相当于赛跑场景整体的第1特征区间中抽取包括指定时刻的一部分区间作为兴趣区间。

并且，在本实施方式的兴趣区间抽取装置中，能够以如下方式抽取兴趣区间，即，使在想要抽取为兴趣区间的区间内包括用于通知赛跑开始的鸣枪场景（图1中的第2特征区间）。另外，在本实施方式中，将第1单位区间的100倍的第2单位区间（1sce）作为最小单位来抽取兴趣区间。并且，在本实施方式中，适宜设定鸣枪场景等突发性的声音环境的持续时间，仅求出第2特征区间的结束时刻（特征点Tk），将从该结束时刻开始追溯该持续时间后的时刻视为第2特征区间的开始时刻来进行处理。

<2>数据

对在本实施方式的兴趣区间抽取装置中使用的数据进行说明。

<2－1>动态图像文件

动态图像文件由音频信号和多个图像数据构成。并且，音频信号具有如图2（a）所示的波形。另外，音频信号指振幅值的时间序列。

<2－2>特征量向量

下面，说明从音频信号生成特征量向量M的概况。

首先，如图2（a）所示，针对由声音抽取装置102抽取的音频信号的每个第1单位区间（从时刻T_n到时刻T_n＋1之间的区间，10msec）计算功率谱S（ω）（参照图2（b））。

然后，将功率谱S（ω）的横轴从实际频率ω变换为元频率ω_mel（参照图2（c））。

并且，根据横轴被变换为元频率ω_mel的功率谱S（ω_mel），计算由第1单位区间内的26个美尔频率倒谱系数MFCC（Mel－Frequency CepstrumCoefficients）构成的向量（下面称为特征量向量）。

如图3所示，针对每个第1单位区间（每10msec）计算出该特征量向量M。因此，根据从时刻0sec到时刻1sec之间的音频信号生成100个特征量向量M。

<2－3>锚模型

本实施方式中的锚模型用于表现在计算似然度时作为基准的1024种音素的各自特征，是按照每个音素来生成的。并且，由规定各个锚模型的参数构成。

在本实施方式中采用GMM（Gaussian Mixture Model：高斯混合模型）生成锚模型Ar。

如图4所示，各个锚模型Ar利用与第1单位区间中的1024种音素分别对应的特征量出现概率函数b_Ar（M）构成。其中，特征量出现概率函数b_Ar是针对每个锚模型Ar而存在的概率函数，通过使用该特征量出现概率函数b_Ar（M），将MFCC26次的向量（特征量向量）M作为自变量计算出似然度。另外，关于哪个锚模型对应于哪个音素没有予以区分。

<2－4>似然度向量

似然度向量F以似然度Lr为分量，该似然度Lr是使用与多个音素分别对应的锚模型Ar（r＝1、2、…、1024），针对表现音频信号的特征量的特征量向量M而计算出的。因此，似然度向量利用1024维的向量进行表述。该特征量向量M如前述<2－3>所述是针对由声音抽取装置102抽取的音频信号的每个第1单位区间而生成的。

图5表示使用1024种音素的各个锚模型Ar计算出的似然度向量Fn、Fm（n<m）。其中，图5中的纵轴表示似然度，横轴表示锚模型Ar的类型。似然度向量Fn、Fm表示与从时刻0开始的第n个第1单位区间（即，从时刻（10×n）msec到时刻（10×（n＋1））msec之间的区间）对应的似然度向量、和第m个第1单位区间（即，从时刻（10×m）msec到时刻（10×（m＋1））msec之间的区间）的似然度向量Fm（参照图2（a））。该似然度向量F如图5所示根据作为对象的音频信号的时间性变化而变化。

<3>结构

安装了本实施方式的兴趣区间抽取装置104的影像编辑装置100如图6所示。

<3－1>整体结构

影像编辑装置100如图6所示具有输入装置101、内容存储装置103、声音抽取装置102、兴趣区间抽取装置104、兴趣区间存储装置105、输出装置106、锚模型生成装置108、声音数据存储装置130、接口装置109。

输入装置101利用盘驱动装置等构成，在安装记录介质110后，从记录介质110读入动态图像文件并存储在内容存储装置103中。

内容存储装置103利用硬盘装置等构成，存储输入装置101从记录介质110取得的动态图像文件。

声音抽取装置102从内容存储装置103取得动态图像文件，从所取得的动态图像文件中抽取音频信号，并输入兴趣区间抽取装置104。在此，声音抽取装置102通过对被编码后的音频信号进行解码处理，生成如图2（a）所示的音频信号。

输出装置106使在显示装置120显示影像。在此，输出装置106从兴趣区间存储装置105取得兴趣区间数据，根据所取得的兴趣区间数据从内容存储装置103选出构成动态图像文件的一部分的多个图像数据。即，选出与表示根据兴趣区间数据而确定的时刻的时刻数据相对应的多个图像数据。并且，输出装置106使外部的显示装置120显示按照与各个兴趣区间对应的指定时刻从早到晚的顺序将动态图像连接形成的摘要动态图像。

声音数据存储装置130利用硬盘装置等构成，存储在锚模型生成装置108生成用于表现多种音素的各自特征的锚模型Ar时使用的声音数据。该声音数据由音频信号构成，该音频信号是预先从与作为抽取兴趣区间的对象的动态图像文件不同的多个动态图像文件中抽取并进行解码处理而得到的。

接口装置109具有键盘等操作部（未图示），具有受理来自用户的输入操作，并将输入的信息通知兴趣区间抽取装置104和锚模型生成装置108的功能。用户通过该接口装置109将与指定时刻和兴趣区间的长度相关的信息输入兴趣区间抽取装置104。

<3－2>兴趣区间抽取装置

兴趣区间抽取装置104由存储器（未图示）和处理器（未图示）构成，通过由处理器执行被读入到存储器中的程序，实现图7所示的各个构成要素。下面，对各个构成要素进行详细说明。

<3－2－1>特征量向量生成部

特征量向量生成部201从输入的音频信号生成特征量向量。该特征量向量生成部201首先对从声音抽取装置102输入的音频信号按照每个第1单位区间进行音响分析，并计算出功率谱S（ω）。特征量向量生成部201根据计算出的功率谱S（ω）生成特征量向量M（M（1）、M（2）、…、M（26））。特征量向量生成部201生成100个的特征量向量M（参照图3）。

<3－2－2>似然度向量生成部

似然度向量生成部202使用各个音素的锚模型Ar计算相对于特征量向量M的似然度Lr，并生成以计算出的似然度Lr为各个分量的似然度向量F。似然度向量生成部202从锚模型存储部107取得构成锚模型Ar的各个参数。

<3－2－3>似然度向量缓冲器

似然度向量缓冲器203利用存储器的一部分区域构成，存储由似然度向量生成部202生成的似然度向量F。

<3－2－4>分量分类部

分量分类部205按照[数式1]的关系式，从似然度向量缓冲器203读出从音频信号的整体区间生成的全部似然度向量F，计算将这些似然度向量F的总和的各个分量除以整体区间中所包含的第1单位区间的数量而得到的值（重心向量G）。

[数式1]

G = (Σ_{t = 1}^{T} \frac{L 1 (τ)}{T}, Σ_{t = 1}^{T} \frac{L 1 (τ)}{T}, . . ., Σ_{t = 1}^{T} \frac{LR (τ)}{T}) = (G 1, G 2, . . ., GR)

其中，第1单位区间是10msec，如果整体区间的长度被设定为1小时（3600sec），则T＝360000。并且，各个似然度向量F是使用1024种的锚模型Ar计算出的，因而R＝1024。

另外，该重心向量G的各个分量是音频信号的整体区间中所包含的各个第1单位区间中的各个锚模型Ar的似然度Lr的平均值（也称为正规化累计似然度）。即，表示音频信号的整体区间中的各个锚模型Ar所示出的音素的出现频次。因此，重心向量G的分量越大，对应于该分量的锚模型Ar所示出的音素的出现频次越高。另外，在本实施方式中，对利用正规化累计似然度表现音素的出现频次的示例进行了说明，但该出现频次的表现方式不限于此。

并且，分量分类部205将计算出的重心向量G的各个分量按照升序进行排列。此时，将比相当于锚模型Ar的类型总数的1/4的顺序更高的顺序的分量、即顺序为256位以上的分量，分类为出现频次高的锚模型Ar（高频次组），将其它分量分类为出现频次低的锚模型Ar（低频次组）。该分量分类部205的处理的情况如图8所示。在图8所示的直方图（a）和（b）中，纵轴表示重心向量G的各个分量的大小，横轴表示重心向量G的各个分量Gr以及分别对应于各个分量Gr的各个锚模型Ar。

<3－2－5>频次向量生成部

频次向量生成部206使在生成频次向量NF时使用的区间每次错位第2单位区间（每次1sec）来生成频次向量NF。该第2单位区间如图9所示相当于多个第1单位区间的集合。该频次向量NF的各个分量相当于第2单位区间中所包含的似然度向量F的各个分量的正规化累计似然度。该频次向量NF的一例如图10中的上段所示。

该频次向量生成部206在从后述的兴趣区间抽取部209通知了后述的频次向量生成结束指示时，结束频次向量NF的生成，而在通知了频次向量生成开始指示时，开始频次向量NF的生成。

并且，频次向量生成部206根据由分量分类部205进行分类的结果，从频次向量NF中抽取属于出现频次高的锚模型Ar（高频次组）的分量和属于出现频次低的锚模型Ar（低频次组）的分量，并生成由对应于高频次组的分量构成的高频次向量NFh和由对应于低频次组的分量构成的低频次向量NFl。在此，频次向量生成部206使用从分量分类部205输入的各个锚模型Ar的属性信息（即，表示各个锚模型Ar属于低频次组和高频次组哪一组的信息），生成高频次向量NFh和低频次向量NFl。

<3－2－6>频次向量缓冲器

频次向量缓冲器207利用存储器的一部分区域构成，存储由频次向量生成部206生成的低频次向量NFl和高频次向量NFh。

在图10中的下段，利用折线曲线示出了在频次向量缓冲器207中存储的低频次向量NFl和高频次向量NFh的各个分量。

<3－2－7>基准向量/阈值生成部

基准向量/阈值生成部204从频次向量缓冲器203取得包括对应于指定时刻的高频次向量NFh在内的多个第2单位区间中所包含的高频次向量NFh，并计算基准向量NFh0。在图11的示例中，基准向量NFh0是将对应于指定时刻的第2单位区间的前后4个第2单位区间（合计9个第2单位区间）内所包含的9个高频次向量NFh的总和除以第2单位区间的数量（9个）而得到的。

并且，基准向量/阈值生成部204还计算在生成基准向量NFh0时使用的多个高频次向量NFh与基准向量NFh0之间的欧几里得距离，将与基准向量NFh0之间的距离为最远的高频次向量NFh与基准向量NFh0之间的欧几里得距离，设定为在是否属于第1特征区间的判定中使用的阈值Rth。图12示出了使用高频次向量空间的概念来说明该处理时的情况。

然后，基准向量/阈值生成部204将所生成的基准向量NFh0和阈值Rth输入兴趣区间抽取部209。

<3－2－8>指定时刻取得部

指定时刻取得部210从接口装置109取得与指定时刻相关的信息，并输入基准向量/阈值生成部204、特征点抽取部208和兴趣区间抽取部209。

<3－2－9>特征点抽取部

特征点抽取部208从指定时刻T0开始以1sec单位追溯时刻，同时计算低频次向量NFl（T）、NFl（T－1）的差分Δ（NFl（T）－NFl（T－1））的范数。

并且，特征点抽取部208计算在差分Δ（NFl（T）－NFl（T－1））的范数超过阈值Th的时刻中最接近指定时刻T0的时刻，将该时刻作为特征点（特征时刻）。即，特征点抽取部208从指定时刻T0开始使时刻向过去每次错时第2单位区间，同时检索第2特征区间的结束时刻即特征点Tk，并抽取该特征点Tk。

低频次向量NFl（T）的差分Δ（NFl（T）－NFl（T－1））的范数的示例如图13所示。在图13中时刻Tk，|Δ（NFl（T）－NFl（T－1））|超过阈值Th，因而将时刻Tk作为特征点。

这样，特征点抽取部208使用从指定时刻取得部210输入的指定时刻的信息和在频次向量缓冲器207中存储的低频次向量，抽取第2特征区间的结束时刻即特征点Tk（参照图1）。该指定时刻的信息利用从动态图像文件的开始时刻起的经过时间表示。

<3－2－10>兴趣区间抽取部

兴趣区间抽取部209根据与从指定时刻取得部210输入的指定时刻相关的信息和高频次向量NFh，抽取第1特征区间（候选区间）。

兴趣区间抽取部209首先特定包括指定时刻（图14（a）中的时刻T0）的第2单位区间。并且，兴趣区间抽取部209计算从基准向量/阈值生成部204输入的基准向量NFhc与其它时刻的高频次向量NFh的欧几里得距离。在此，高频次向量NFh与基准向量NFhc之间的欧几里得距离超过从基准向量/阈值生成部204输入的阈值Rth的两个时刻TL1、TL2之间的区间，相当于第1特征区间（图14（a））。高频次向量NFh空间中的阈值与欧几里得距离的关系如图13（b）所示。第1特征区间内的高频次向量NFh位于图14（b）所示的高频次向量空间中以基准向量NFhc为中心的半径Rth的球的内侧。

在此，兴趣区间抽取部209按照图15所示从指定时刻T0开始追溯时刻（即，从指定时刻T0开始使时刻朝向由特征点抽取部208抽取的特征点Tk每次错时第2单位区间），同时计算对象时刻的高频次向量NFh与基准向量NFhc之间的欧几里得距离，并判定所计算出的欧几里得距离是否超过阈值Rth（即，包括对象时刻的第2单位区间是否包含在第1特征区间中）。

在此，在所计算出的欧几里得距离超过阈值（Rth）时，兴趣区间抽取部209向频次向量生成部206通知频次向量生成结束指示。

并且，兴趣区间抽取部209同时也判定该对象时刻与指定时刻T0之间的长度是否比预先设定的兴趣区间的长度le短。并且，在判定为欧几里得距离未超过阈值Rth（包含在第1特征区间中）、而且对象时刻与指定时刻T0之间的长度比预先设定的兴趣区间的长度le短时（即具备兴趣区间的条件），包括对象时刻的第2单位区间成为兴趣区间。

并且，在对象时刻与特征点Tk一致时，兴趣区间抽取部209判定对象时刻与指定时刻T0之间的长度是否比预先设定的兴趣区间的长度le短，在判定为短时，下次从时刻T0开始使时刻每次前进第2单位区间，同时顺序地计算在对象时刻时的高频次向量NFh与基准向量NFhc之间的欧几里得距离，并进行与前述相同的判定。

此时，兴趣区间抽取部209向频次向量生成部206通知频次向量生成开始指示。

并且，兴趣区间抽取部209在计算出的欧几里得距离超过预定的阈值Rth或者作为兴趣区间而确定出的区间的总长超过预先设定的兴趣区间的长度le时，结束处理，并向频次向量生成部206通知频次向量生成结束指示。此时，从第1特征区间中抽取包括特征点Tk的长度le的区间作为兴趣区间（参照图16）。

该兴趣区间的长度le是预先通过基于简易编辑程序的用户评价而确定的（例如，通过用户评价而确定为60sec）。并且，在特征点Tk远离指定时刻T0达60sec以上时，如图17（a）所示，抽取不包括特征点Tk的60sec长度的期间作为兴趣区间。这是指例如指定时刻T0为1000sec、特征点Tk为900sec、兴趣区间的长度le为50sec的情况。在这种情况下，兴趣区间的长度le比从特征点Tk到指定时刻T0的时间100sec短。

另一方面，在指定时刻T0与时刻TL1之间的长度为指定区间le以下的情况下，如图17（b）所示，抽取从时刻TL1开始经指定区间le之后的时刻的区间作为兴趣区间。这是指例如指定时刻为1000sec、时刻TL1为950sec、兴趣区间的长度le为60sec的情况。在这种情况下，兴趣区间的长度le比从时刻TL1到指定时刻T0的时间50sec长。

<3－2－10>锚模型存储部

锚模型存储部107利用存储器的一部分构成，存储由锚模型生成装置108生成的锚模型Ar。该锚模型存储部107在进行兴趣区间抽取处理之前预先存储锚模型Ar。

<3－3>锚模型生成装置

本实施方式的锚模型生成装置108的功能单元如图18所示。锚模型生成装置108根据在声音数据存储装置130中存储的声音数据生成锚模型Ar，并存储在锚模型存储部107中。

锚模型生成装置108由存储器（未图示）和处理器（未图示）构成，通过由处理器执行被读入到存储器中的程序，实现图18所示的各个构成要素。即，锚模型生成装置108如图18所示实现特征量向量生成部301、特征量向量分类部302、锚模型生成部303。

<3－3－1>特征量向量生成部

特征量向量生成部301与在前述<3－2－1>中说明的特征量向量生成部201相同地，按照第1单位区间来分割从声音数据存储装置130取得的声音数据，对每个第1单位区间进行音响分析并计算出功率谱S（ω），根据计算出的功率谱S（ω）生成特征量向量M。

<3－3－2>特征量向量分类部

特征量向量分类部302根据从接口装置109输入的锚模型Ar的个数K，利用K－means法将多个特征量向量M分类为K个群集，并计算出表示各个群集的代表性的特征量向量（下面称为群集特征量向量）。该各个群集对应于各个锚模型Ar。另外，在本实施方式中设定为K＝1024。

<3－3－3>锚模型生成部

锚模型生成部303根据各个群集的群集特征量向量，计算出对应于各个锚模型Ar的特征量出现概率函数b_Ar（M）。

<4>动作

<4－1>影像编辑装置的动作

下面，对安装了本实施方式的兴趣区间抽取装置104的影像编辑装置100的动作进行说明。

首先，输入装置101从记录介质110取得由用户进行了抽取兴趣区间并显示的指示的动态图像文件，并存储在内容存储部102中。

然后，声音抽取装置102从存储在内容存储部102中的动态图像文件中抽取音频信号。

并且，兴趣区间抽取装置104根据由声音抽取装置102抽取的音频信号，进行后述的兴趣区间抽取处理。在该兴趣区间抽取处理中，将所抽取出的兴趣区间数据存储在兴趣区间存储装置105中。

最后，输出装置106从动态图像文件中选出与通过兴趣区间抽取处理而抽取出的兴趣区间数据对应的多个图像数据，并显示在显示装置120中。

<4－2>兴趣区间抽取处理

关于兴趣区间抽取处理，根据图8进行更详细的说明。

首先，声音抽取装置102从内容记录装置103抽取用户指定的动态图像文件中所包含的音频信号（箭头P1），并输入到特征量向量生成部201（箭头P2）。

然后，特征量向量生成部201根据所输入的音频信号生成特征量向量，并输入到似然度向量生成部202（箭头P3）。

然后，似然度向量生成部202根据所输入的特征量向量和从锚模型存储部107取得（箭头P4）的锚模型Ar，按照每个第1单位区间生成似然度向量F，并存储在似然度向量缓冲器203中（箭头P5）。

并且，分量分类部205取得在似然度向量缓冲器203中存储的全部似然度向量F（箭头P6），并计算它们的重心向量G，并且针对该重心向量G的各个分量，将与大于预定的阈值的分量对应的锚模型Ar分类为高频次组，将与小于预定的阈值的分量对应的锚模型Ar分类为低频次组，将表示该结果的属性信息输入到频次向量生成部206（箭头P7）。

另外，频次向量生成部206取得在似然度向量缓冲器203中存储的多个似然度向量F（箭头P8），并生成频次向量F。并且，频次向量生成部206针对各个频次向量NF，根据从分量分类部205输入的属性信息计算高频次向量NFh和低频次向量NFl，并存储在频次向量缓冲器207中（箭头P10）。该处理在从兴趣区间抽取部209通知了频次向量生成结束指示时结束，而在通知了频次向量生成开始指示时再次开始（箭头P9）。

并且，特征点抽取部208从频次向量缓冲器207取得低频次向量NFl（箭头P11），使用所取得的低频次向量NFl和从指定时刻取得部210输入（箭头P12）的指定时刻的信息，抽取表示第2特征区间的特征点。此时，特征点抽取部208从指定时刻T0开始使时刻每次错时第2单位区间同时检索第2特征区间的结束时刻即特征点Tk，并抽取该特征点Tk。

按照图1进行说明，特征点抽取部208从正在播放象征赛跑场景的音乐等的区间（第1特征区间）中的指定时刻T0开始使时间每次追溯第2单位区间，同时抽取鸣枪声音响起的区间（第2特征区间）的结束时刻Tk。

然后，特征点抽取部208将所抽取的特征点的信息输入兴趣区间抽取部209（箭头P13）。

另一方面，基准向量/阈值生成部204从频次向量缓冲器207取得包括与指定时刻对应的高频次向量NFh的多个高频次向量NFh（箭头P17），并且从指定时刻取得部210取得指定时刻的信息（箭头P19），并进行基准向量NFh0的生成和阈值Rth的计算。并且，基准向量/阈值生成部204将所生成的基准向量NFh0和阈值Rth输入兴趣区间抽取部209（箭头P18）。

并且，兴趣区间抽取部209使用从频次向量缓冲器207取得（箭头P14）的高频次向量NFh、从基准向量/阈值生成部204输入（箭头P18）的基准向量NFhc和阈值Rth、从指定时刻取得部210输入（箭头P15）的指定时刻的信息，判定对象时刻是否属于第1特征区间。此时，兴趣区间抽取部209从指定时刻T0开始使时刻朝向由特征点抽取部208抽取的特征点Tk每次错时第2单位区间，同时判定对象时刻是否属于第1特征区间、且对象时刻与指定时刻T0之间的长度是否比预先设定的兴趣区间的长度le短，在判定为对象时刻属于第1特征区间、且对象时刻与指定时刻T0之间的长度比预先设定的兴趣区间的长度le短时，将包括对象时刻的第2单位区间作为兴趣区间。

根据图1进行说明，兴趣区间抽取部209判定对象时刻是否包含在正在播放象征运动会场景中的赛跑场景的音乐等的区间中。

最后，兴趣区间抽取部209使用计算出的第1特征区间和特征点的信息，抽取包含于第1特征区间中而且包括第2特征区间的兴趣区间，将表示所抽取的兴趣区间的兴趣区间数据存储在兴趣区间存储装置105中（箭头P16）。根据图1进行说明，抽取包含于正在播放象征赛跑场景的音乐等的区间（第1特征区间）中、且包括鸣枪声音响起的区间（第2特征区间）的区间，作为兴趣区间，将表示该兴趣区间的数据存储在兴趣区间存储装置105中。此时，兴趣区间抽取部209在将所抽取的兴趣区间数据存储在兴趣区间存储装置105中时，按照指定时刻的顺序存储各个兴趣区间数据（例如，按照指定时刻从早到晚的顺序存储在地址序号较小的存储区域中）。由此，输出装置106在从兴趣区间存储装置105取得多个兴趣区间数据时，不需要进行用于确定该兴趣区间数据与对应于该兴趣区间数据的指定时刻的前后关系的处理，因而能够减轻输出装置106的处理负荷。

<变形例>

以上，根据实施方式1和2对本发明的兴趣区间抽取装置104进行了说明，然而本发明当然不限于在实施方式1和2中示出的兴趣区间抽取装置104。

（1）在前述的实施方式中说明了这样的示例，即针对动态图像文件中所包含的音频信号的每个第1单位区间（10msec），使用多种锚模型Ar分别生成以相对于表现音频信号的特征量的特征量向量的似然度为分量的似然度向量，将似然度向量的各个分量分类为两个分量组，根据属于各个分量组的分量计算第1特征区间（候选区间）和第2特征区间的结束时刻，但是不限于这种示例。

例如，也可以是，兴趣区间抽取装置104根据相似度向量的变化量来抽取兴趣区间，该相似度向量是以从动态图像文件中所包含的音频信号生成的特征量向量与表现多种音素的锚模型的各个向量的相似度为分量的。

（2）在前述的实施方式中说明了声音数据存储装置130存储对应于多个AV内容的声音数据，但该AV内容的数量和类型没有特殊限制。

（3）在前述的实施方式中说明了在从指定时刻T0开始追溯时间的同时抽取特征点Tk的示例，但是不限于这种示例。例如，也可以在从指定时刻T0开始使时间前进的同时抽取特征点Tk。该特征点Tk相当于第2特征区间的开始时刻。在这种情况下，抽取第1特征区间中位于指定时刻T0后面的区间作为兴趣区间。

（4）在前述的实施方式中说明了仅抽取第2特征区间的结束时刻即特征点Tk的示例，但是不限于这种示例。例如，也可以抽取第2特征区间的开始时刻和结束时刻双方。

根据本变形例，即使是突发性的声音环境的持续时间的长度大幅变化时，也能够更可靠地抽取包括第2特征区间的兴趣区间。

（5）在前述的实施方式中说明了指定时刻取得部210取得用户使用接口装置109输入的指定时刻T0的示例，但是不限于这种示例。例如，也可以是，指定时刻取得部210根据动态图像文件中所包含的多个图像数据各自的特征量的时间性变化而自动取得指定时刻T0。

其中，指定时刻取得部210可以利用通常的分类方法对动态图像文件中所包含的多个图像数据分别计算多个位移特征量，根据各个图像数据之间的预定的位移特征量的差分来计算指定时刻T0。例如，可以着重于表示多个图像数据各自的背景图像的位移特征量，将在时间轴上相邻的两个图像数据之间的该位移特征量的差分大幅变化的时刻自动设为指定时刻T0。

另外，在前述的实施方式中说明了按照用户指定的一个时刻来提供指定时刻的示例，但是不限于这种示例。例如，也可以按照由用户指定的两个时刻确定的区间来提供指定时刻。关于用于确定该区间的两个时刻，例如可以举出用户大致指定的兴趣区间的开始时刻和结束时刻等。

在这种情况下，可以将所提供的两个时刻的信息发送给基准向量/阈值生成部204，根据这两个时刻之间的第2单位区间来生成基准向量和阈值。另外，在提供了两个时刻的情况下，也可以不将这两个时刻的信息发送给基准向量/阈值生成部204，而是将两个时刻的所谓中点时刻作为指定时刻T0发送给特征点抽取部208。

另外，指定时刻取得部210除根据用户输入来取得指定时刻外，还可以自动取得指定时刻。在这种情况下，例如可以构成为利用由频次向量生成部206生成的低频次向量，从表示该低频次向量的数据的开头，计算低频次向量的前一时刻与当前时刻之间的欧几里得距离，将超过预先设定的阈值的时刻自动判定为指定时刻T0。

（6）在前述的实施方式1中说明了根据预先存储在声音数据存储装置130中的声音数据自动生成多种音素各自的锚模型Ar（所谓无教师地生成锚模型）的示例，但是不限于这种示例。例如，也可以是，在音素的类型被限定为少量（例如数十种）的情况下，对于存储在声音数据存储装置130中的声音数据，由用户选择对应于各个音素的各个声音数据，并对各个声音数据赋予类别标签，根据类别标签相同的声音数据生成对应的音素的锚模型（所谓有教师地生成锚模型Ar）。

（7）也能够将由程序代码构成的程序记录在记录介质中或者通过各种通信路径等进行流通并颁布，该程序用于使兴趣区间抽取装置的处理器以及与该处理器连接的各种电路执行在实施方式1中示出的兴趣区间抽取处理。这种记录介质包括IC卡、硬盘、光盘、软盘、ROM等。所流通及颁布的控制程序通过被存储在处理器能够读取的存储器等中进行使用，通过由该处理器执行该控制程序来实现诸如在各个实施方式中示出的功能。另外，也可以将控制程序的一部分控制程序通过各种网络发送给与图像管理装置分体的可执行程序的装置（处理器），在该分体的可执行程序的装置中执行该控制程序的一部分控制程序。

（8）构成在实施方式中示出的兴趣区间抽取装置的构成要素的一部分或者全部可以被安装成为一个或者多个集成电路（IC、LSI等），也可以对图像管理装置的构成要素再追加其它要素使得集成电路化（单片化）。

在此是构成为LSI，但根据集成度的不同，有时也被称为IC、系统LSI、超级(super)LSI、特级(ultra)LSI。并且，集成电路化的方法不限于LSI，也可以利用专用电路或者通用处理器实现。还可以采用在制作LSI后能够编程的可现场编程门阵列（FPGA：Field Programmable GateArray）、能够重构架LSI内部的电路单元的连接和设定的可配置处理器（reconfigurable processor）。另外，如果伴随半导体技术的发展或利用派生的其他技术替换LSI的集成电路化的技术问世，当然也可以使用该技术进行功能单元的集成化。还存在适用仿生技术等的可能性。

产业上的可利用性

本发明的兴趣区间抽取装置及兴趣区间抽取方法能够用作这种技术，即从包括声音、家中的声音、外出时的声音等的AV内容的音频信号中抽取成为用户感兴趣的对象的兴趣区间，由此进行AV内容的编辑。

标号说明

102声音抽取装置；103内容存储装置；104兴趣区间抽取装置；105兴趣区间存储装置；106兴趣区间抽取部；107锚模型存储部；108锚模型生成装置；109接口装置；130声音数据存储装置；201、301特征量向量生成部；202似然度向量生成部；202b频次向量生成部；203c分量分类部；104特征点抽取部；205兴趣区间抽取部；302特征量向量分类部；303锚模型生成部。

Claims

1.一种兴趣区间抽取装置，根据动态图像文件中所包含的音频信号来抽取包括指定时刻的用户的兴趣区间，其特征在于，该兴趣区间抽取装置具有：

锚模型存储单元，预先存储有用于表现作为基准的多种音素各自的特征的锚模型；

指定时刻取得单元，取得所述指定时刻；

似然度向量生成单元，对于音频信号的每个单位区间，使用所述锚模型求出相对于表现所述音频信号的特征量的特征量向量的似然度，并生成以各个似然度为分量的似然度向量；以及

兴趣区间抽取单元，根据所述似然度向量计算成为兴趣区间的候选的候选区间，并抽取包括所述指定时刻的所述候选区间的全部或者一部分候选区间作为兴趣区间。

2.根据权利要求1所述的兴趣区间抽取装置，其特征在于，所述兴趣区间抽取装置具有频次向量生成单元，该频次向量生成单元将所述单位区间作为第1单位区间，根据从长度为该第1单位区间的N倍的第2单位区间的音频信号生成的N个似然度向量生成频次向量，N为2以上的自然数，

所述候选区间是根据所述频次向量而计算出的。

3.根据权利要求2所述的兴趣区间抽取装置，其特征在于，所述兴趣区间抽取装置具有：

分量分类单元，将所述频次向量的各个分量分类为多个分量组；以及

特征区间计算单元，根据多个所述分量组分别计算多个特征区间，

所述候选区间由多个所述特征区间确定。

4.根据权利要求3所述的兴趣区间抽取装置，其特征在于，所述分量分类单元根据音频信号的整体区间的似然度向量生成重心向量，根据该重心向量的各个分量的大小，将所述频次向量的各个分量分类为第1分量组和第2分量组，

所述特征区间计算单元根据所述重心向量中的属于所述第1分量组的各个分量计算第1特征区间，根据所述重心向量中的属于所述第2分量组的各个分量计算第2特征区间，

所述候选区间由所述第1特征区间和所述第2特征区间确定。

5.根据权利要求4所述的兴趣区间抽取装置，其特征在于，所述兴趣区间是包含于所述第1特征区间中且包含所述第2特征区间的区间。

6.根据权利要求5所述的兴趣区间抽取装置，其特征在于，所述兴趣区间抽取装置具有：

兴趣区间长度取得单元，取得用户预先设定的兴趣区间的长度；以及

特征时刻抽取单元，从所述指定时刻开始使时刻每次错时所述第2单位区间，同时检索并提取包含于所述第2特征区间中的特征时刻，

所述兴趣区间抽取单元，从所述指定时刻开始使时刻朝向由所述特征时刻抽取单元抽取的所述特征时刻每次错时所述第2单位区间，同时判定对象时刻是否属于所述第1特征区间、且该对象时刻与所述指定时刻之间的长度是否比预先设定的兴趣区间的长度短，在判定为对象时刻属于所述第1特征区间、且该对象时刻与所述指定时刻之间的长度比预先设定的兴趣区间的长度短时，将包括所述对象时刻的第2单位区间作为兴趣区间。

7.根据权利要求6所述的兴趣区间抽取装置，其特征在于，所述动态图像文件对应于表示一个内容的动态图像。

8.根据权利要求7所述的兴趣区间抽取装置，其特征在于，所述兴趣区间抽取单元将与多个所述指定时刻对应的多个所述兴趣区间按照所述指定时刻的顺序进行排列，并向外部存储装置存储。

9.根据权利要求8所述的兴趣区间抽取装置，其特征在于，所述指定时刻取得单元根据包含于动态图像文件中且与用户指定的区间对应的图像数据各自的特征量的时间性变化，从该用户指定的区间中自动取得所述指定时刻。

10.一种兴趣区间抽取方法，根据动态图像文件中所包含的音频信号来抽取包括指定时刻的用户的兴趣区间，其特征在于，该兴趣区间抽取方法包括：

锚模型存储步骤，存储用于表现作为基准的多种音素各自的特征的锚模型；

指定时刻取得步骤，取得所述指定时刻；

似然度向量生成步骤，对于音频信号的每个单位区间，使用所述锚模型求出相对于表现所述音频信号的特征量的特征量向量的似然度，并生成以各个似然度为分量的似然度向量；以及

兴趣区间抽取步骤，根据所述似然度向量计算成为兴趣区间的候选的候选区间，并抽取包括所述指定时刻的所述候选区间的全部或者一部分候选区间作为兴趣区间。

11.一种兴趣区间抽取用集成电路，根据动态图像文件中所包含的音频信号来抽取包括指定时刻的用户的兴趣区间，其特征在于，该兴趣区间抽取用集成电路具有：

锚模型存储部，预先存储有用于表现作为基准的多种音素各自的特征的锚模型；

指定时刻取得部，取得所述指定时刻；

似然度向量生成部，对于音频信号的每个单位区间，使用所述锚模型求出相对于表现所述音频信号的特征量的特征量向量的似然度，并生成以各个似然度为分量的似然度向量；以及

兴趣区间抽取部，根据所述似然度向量计算成为兴趣区间的候选的候选区间，并抽取包括所述指定时刻的所述候选区间的全部或者一部分候选区间作为兴趣区间。