CN103534755A

CN103534755A - 声音处理装置、声音处理方法、程序及集成电路

Info

Publication number: CN103534755A
Application number: CN201380001357.5A
Authority: CN
Inventors: 小沼知浩; 上野山努
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2012-04-20
Filing date: 2013-03-11
Publication date: 2014-01-22
Anticipated expiration: 2033-03-11
Also published as: CN103534755B; JP6039577B2; WO2013157190A1; JPWO2013157190A1; US8930190B2; US20140043543A1

Abstract

本发明提供一种声音处理装置，根据AV内容的音频信号检测声音特征的变化点。为了解决上述问题，该声音处理装置具有：特征计算单元，按照所输入的音频信号的预定时间长度的每个单位区间，计算表示所述音频信号的特征的区间特征；边界计算单元，对于多个所述单位区间中的每个单位区间，计算与包括该单位区间在内的由区间特征相似的多个所述单位区间构成的相似区间、和其它区间的边界相关的边界信息；以及判定单元，计算所述边界信息所表示的各个边界的优先度，根据所述优先度判定所述各个边界是否是场景变化点。

Description

声音处理装置、声音处理方法、程序及集成电路

技术领域

本发明涉及从音频信号中检测频率等特征的变化点的技术。

背景技术

目前需要这样的功能：即对于用户使用数字照相机等拍摄的AV内容，能够将用户不需要的场景跳过而只视听用户期望的场景。

因此，使用AV内容中的声压或频率等声音信息来检测场景与场景之间的变化点（以后称为场景变化点）的技术受到关注。

例如，提出了这样的方法：按照AV内容的每帧，将声音信息作为特征量而定量化，检测帧间的特征量的变化超过阈值的帧来作为场景变化点（参照专利文献1）。

现有技术文献

专利文献

专利文献1：日本特开平5－20367号公报

发明概要

发明要解决的问题

可是，对于用户拍摄的AV内容而言，内容根据用户的想法而富于变化，其结果是应该检测的场景变化点也涉及多个方面。对于这种涉及多个方面的场景变化点，仅使用特定的方法来网罗应该检测的场景变化点是很困难的，而且存在即使使用上述现有的方法也难以检测的场景变化点。

发明内容

因此，本发明的目的在于，提供一种声音处理装置，能够检测利用现有的方法难以检测的场景变化点。

用于解决问题的手段

为了达到上述目的，本发明的声音处理装置的特征在于，该声音处理装置具有：特征计算单元，按照所输入的音频信号的预定时间长度的每个单位区间，计算表示所述音频信号的特征的区间特征；边界计算单元，对于多个所述单位区间中的每个单位区间，计算与包括该单位区间在内的由区间特征相似的多个单位区间构成的相似区间、和其它区间的边界相关的边界信息；以及判定单元，计算所述边界信息所表示的各个边界的优先度，根据所述优先度判定所述各个边界是否是场景变化点。

发明效果

根据本发明的声音处理装置，能够检测对多个单位区间中的每个单位区间设定的相似区间的边界来作为场景变化点。

附图说明

图1是表示构成AV内容的场景和音频信号的具体示例的图。

图2是表示特征量向量的计算方法的图。

图3是表示特征量向量的一例的图。

图4是表示锚定模型的一例的图。

图5是表示两个第1单位区间中的似然度向量的示例的图。

图6是表示第1单位区间与第2单位区间的关系的图。

图7是表示频次向量的一例的图。

图8是表示边界信息计算部计算出的边界信息的一例的图。

图9是横轴表示时刻、纵轴表示边界度的曲线图。

图10是表示具有声音处理装置的影像视听装置的功能构成例的框图。

图11是表示声音处理装置的功能构成例的框图。

图12是表示在计算基准向量时使用的基准区间的一例的图。

图13是使用向量空间的概念来表示基准向量、频次向量和阈值的图。

图14是表示相似区间的时间轴反方向的区间扩展处理的示意图。

图15是表示索引生成部的功能构成例的框图。

图16是表示锚定模型制作装置的功能构成例的框图。

图17是表示声音处理装置的动作的流程图。

图18是表示区间扩展基准指标计算处理的流程图。

图19是表示边界信息计算处理的流程图。

图20是表示索引生成处理的流程图。

图21是表示声音处理装置的功能构成例的框图。

图22是表示边界信息计算部计算出的边界信息的一例的图。

图23是表示索引生成部的功能构成例的框图。

图24是表示索引生成部生成的索引信息的一例的图。

图25是表示影像视听系统的构成例的框图。

图26是表示影像视听系统中的客户端的构成例的框图。

图27是表示影像视听系统中的服务器的构成例的框图。

具体实施方式

<想到本发明的经过>

AV内容根据捕捉场景的粒度，由各种长度的区间构成。例如，假设AV内容是拍摄了聚会的内容，由图1（a）所示的场景构成。并且，假设图1（b）表现了该场景中的音频信号。如图所示，在聚会中存在干杯的场景10及其后续的聚餐的场景20，聚餐的场景20又由主要在就餐的场景21、和主要在畅谈的场景22构成。场景20是从主要在就餐的场景21向主要在畅谈的场景22转变的过渡场景。

这种过渡场景的声音信息的变化缓慢，如过去那样使用帧间的声音信息的变化量来检测出场景内的变化点是很困难的。

另外，还具有如下性质：在这种过渡场景内具有某种程度的长度的区间的两端，声音信息的变化量累积，因而能够检测出两端分别属于过渡场景内的不同场景。本发明者们着眼于该性质而发现：能够将过渡场景内的变化点作为声音信息相似的区间（相似区间）与其它区间的边界、例如场景前半部分的相似区间与场景后半部分的相似区间的边界而检测出来。

在音频信号中，相似区间能够通过将成为该区间内的某种基准的位置（基准位置）的声音信息与其前后的声音信息进行比较来求出。因此，通过将过渡场景的一点指定为基准位置来求出过渡场景内的相似区间。

可是，为了求出事前无法知道位于音频信号内的哪个位置的过渡场景内的相似区间，需要指定音频信号的随意位置来作为基准位置。但是，如果将基准位置设定得多，则根据所设定的基准位置的数量而求出的边界（变化点）的数量增多。

如果被检测的变化点的数量相对于用户期望的场景数量较多，则将导致用户在视听到期望的场景之前的动作变复杂。即，用户需要从数量庞大的变化点中检索作为所期望的场景的开始的变化点。即，随着变化点的数量的增加，有可能不能得到使用户容易视听所期望的场景这种效果。

作为解决该问题的一种方法，可以考虑挑选被检测的变化点来抑制待索引化的变化点的数量的方法。

本发明者们根据上述的经过想出了本发明。下面，参照附图详细说明本发明的实施方式。

<实施方式1>

<1-1.>概要

下面示出本发明的一个实施方式涉及的声音处理装置的概况。

本实施方式涉及的声音处理装置首先对将动态图像文件中所包含的音频信号分割成预定时间长度后的单位区间计算特征量，该特征量表现各单位区间中的音频信号的特征。

然后，声音处理装置对于各单位区间，基于计算出的特征量的相似性，来计算与该单位区间相似的区间和其它区间的边界。

并且，声音处理装置按照计算出的每个边界来计算边界度，基于边界度来检测场景变化点。

最后，声音处理装置将检测出的场景变化点作为索引信息进行输出。

在本实施方式中，边界度是表示同一时刻的边界的数量。本实施方式的声音处理装置能够在从属于用户期望的同一场景的单位区间中计算出表示同一时刻的边界这一假设下，优先检测用户期望的场景与其它场景的变化点。

<1-2.数据>

在此，对在本实施方式的声音处理装置中使用的数据进行说明。

<动态图像文件>

动态图像文件由音频信号X（t）和多个图像数据构成。音频信号X（t）是振幅值的时间序列数据，能够用如图2（a）所示的波形来表现。图2（a）是横轴取时间、纵轴取振幅的音频信号的波形例。

<特征量向量>

特征量向量M是表示音频信号X（t）的特征的向量，在本实施方式中，使用按照每个第1单位区间进行分割后的音频信号的美尔频率倒谱系数MFCC（Mel－Frequency Cepstrum Coefficients），来表示特征量向量M。其中，第1单位区间是指音频信号X（t）在时间轴中的规定长度（例如10msec）的区间，是图2（a）中从时刻T_n到T_n＋1的区间。

按照每个第1单位区间计算出该特征量向量M。因此，如图3所示，根据从时刻0sec到时刻1sec之间的音频信号，生成100个特征量向量M。另外，图3是对从时刻0sec到时刻1sec之间的各第1单位区间计算出的特征量向量M的一例。

<锚定模型>

锚定模型A_r（r＝1、2、…、K）是使用特征量向量生成的概率模型，用于表示各种音素（sound pieces）各自的特征，该特征量向量是从作为多种音素的声音数据生成的。即，锚定模型是对应各种音素而生成的。在本实施方式中采用混合正态分布模型（GMM：Gaussian MixtureModel），各个锚定模型A_r利用规定正态分布的参数构成。

如图4所示，锚定模型按照多种（在本实施方式中是1024种）音素中的每种音素生成，并利用与多种音素分别对应的特征量出现概率函数b_Ar（M）表示。特征量出现概率函数b_Ar（M）是各个锚定模型A_r所规定的正态分布的概率密度函数，将特征量向量M作为自变量而计算出针对音频信号X（t）的每个音素的似然度L_r＝b_Ar（M）。

<似然度向量>

似然度向量F是以根据所述锚定模型A_r而计算出的、针对音频信号X（t）的多种音素中的每种音素的似然度L_r为成分的向量。

图5是表示两个第1单位区间中的似然度向量F的图。图5（a）表示例如与从时刻0数起第n个第1单位区间（从时刻（10×n）msec到时刻（10×（n＋1））msec之间的区间）对应的似然度向量Fn，图5（b）表示例如与从时刻0数起第m个第1单位区间（从时刻（10×m）msec到时刻（10×（m＋1））msec之间的区间）对应的似然度向量Fm（n<m）。

<频次向量>

频次向量NF是表示音频信号的每个第2单位区间的特征的向量，尤其是表示与音频信号的第2单位区间相关的各个音素的出现频次的向量。其中，第2单位区间是指音频信号X（t）在时间轴中的规定长度（例如1sec）的区间，如图6所示，相当于多个连续的第1单位区间的长度。

具体地讲，频次向量NF是指第2单位区间中所包含的似然度向量F的正态化累计似然度、即将第2单位区间中所包含的似然度向量F的各个成分的累计值进行正态化得到的向量。另外，此处所讲正态化是指将频次向量NF的范数设为1。图7是表示频次向量NF的一例的示意图。

<边界信息>

边界信息是按照音频信号的每个第2单位区间而计算出的、与频次向量和该第2单位区间相似的相似区间的边界相关的信息。本实施方式的声音处理装置计算相似区间的起始端的时刻和相似区间的终止端的时刻，作为边界信息。图8是在本实施方式中计算出的边界信息的一例。例如，表示从第0个第2单位区间（时刻0～1s之间的区间）起计算出表示起始端时刻为0s、终止端时刻为10s的边界信息。

<边界度>

如上所述，边界度是表示同一时刻的边界信息的数量。例如，在图8中，表示起始端时刻或者终止端时刻为0s的边界信息是从第0个第2单位区间（时刻0～1s之间的区间）、第1个第2单位区间（时刻1～2s之间的区间）以及第2个第2单位区间（时刻2～3s之间的区间）计算出的3个边界信息，因而时刻0s的边界度为3。图9是横轴表示时刻、纵轴表示计算出的边界度的曲线的一例。

<1-3.结构>

下面，对具有本实施方式的声音处理装置104的影像视听装置100的功能构成进行说明。

<影像视听装置100>

图10是表示影像视听装置100的功能构成例的框图。如图所示，影像视听装置100具有输入装置101、内容存储装置102、声音提取装置103、声音处理装置104、索引存储装置105、输出装置106、锚定模型制作装置107、声音数据存储装置108、和界面装置109。

<输入装置101>

输入装置101利用盘驱动装置等实现，在安装记录介质120后，从记录介质120读入动态图像文件，将所取得的动态图像文件存储在内容存储装置102中。另外，记录介质120是具有存储各种数据的功能的介质，例如是光盘、软盘、SD卡、闪存等。

<内容存储装置102>

内容存储装置102利用例如硬盘装置等实现，存储输入装置101从记录介质120取得的动态图像文件。动态图像文件在被附加了各个动态图像文件固有的ID后进行存储。

<声音提取装置103>

声音提取装置103从存储于内容存储装置102的动态图像文件中提取音频信号，将所提取的音频信号输入声音处理装置104。另外，声音提取装置103通过对被编码后的音频信号进行解码处理，生成如图2（a）所示的音频信号X（t）。另外，声音提取装置103利用例如执行程序的处理器等实现。

<声音处理装置104>

声音处理装置104根据从声音提取装置103输入的音频信号X（t），进行场景变化点的检测，将由检测出的场景变化点构成的索引信息存储在索引存储装置105中。关于声音处理装置104的功能构成的详细情况将在后面进行说明。

<索引存储装置105>

索引存储装置105利用例如硬盘装置等实现，存储从声音处理装置104输入的索引信息。索引信息由动态图像文件的ID和动态图像文件中的时刻（场景变化点的时刻）构成。

<输出装置106>

输出装置106从索引存储装置105取得索引信息，将与所取得的索引信息对应的影像数据（存储于内容存储装置102中的动态图像文件的一部分）输出给显示装置130。输出装置106对输出给显示装置130的影像数据附加信息，根据输入到界面装置109的用户操作来进行跳过等再现控制，所述附加的信息例如是对与索引信息对应的时刻附加了标记的进度条等与用户界面（UI：User Interface）相关的信息。

另外，声音提取装置103利用例如执行程序的处理器等实现。

<锚定模型制作装置107>

锚定模型制作装置107根据在声音数据存储装置108中存储的音频信号来生成锚定模型A_r，将所生成的锚定模型A_r输出给声音处理装置104。关于锚定模型制作装置107的功能构成的详细情况将在后面进行说明。

另外，锚定模型制作装置107在生成锚定模型A_r时使用的音频信号，是预先从与作为检测场景变化点的对象的动态图像文件不同的多个动态图像文件中提取得到的音频信号。

<声音数据存储装置108>

声音数据存储装置108利用例如硬盘装置等实现，预先存储锚定模型制作装置107在生成锚定模型A_r时使用的声音数据。

<界面装置109>

界面装置109具有键盘等操作部（未图示），其受理来自用户的输入操作，并将进度条的操作信息等通知输出装置106，将应该制作的锚定模型的个数K通知锚定模型制作装置107。

<声音处理装置104（详细情况）>

声音处理装置104由存储器（未图示）和处理器（未图示）构成，通过由处理器执行被读入到存储器中的程序，实现图11所示的构成。

图11是表示声音处理装置104的功能构成例的框图。如图11所示，声音处理装置104具有特征量向量生成部201、似然度向量生成部202、似然度向量缓冲器203、频次向量生成部204、频次向量缓冲器205、区间扩展基准指标计算部206、边界信息计算部207、索引生成部208和锚定模型存储部209。下面对各个构成要素进行说明。

<特征量向量生成部201>

特征量向量生成部201根据从声音提取装置103输入的音频信号X（t），按照每个第1单位区间生成特征量向量M。

下面，说明在根据音频信号X（t）生成特征量向量M之前的概要。

首先，特征量向量生成部201计算第1单位区间的音频信号X（t）的功率谱S（ω）（参照图2（b））。功率谱S（ω）是将音频信号X（t）从时间轴变换为频率轴并将各个频率成分进行平方得到的。

然后，特征量向量生成部201计算将功率谱S（ω）的频率轴变换为美尔频率轴后的美尔频率谱S（ω_mel）（参照图2（c））。

最后，特征量向量生成部201根据美尔频率谱S（ω_mel）计算美尔频率倒谱，将规定数量（在本实施方式中是26个）的成分作为特征量向量M。

<锚定模型存储部209>

锚定模型存储部209利用存储器的一部分区域构成，存储由锚定模型制作装置107制作出的锚定模型A_r。在本实施方式中，锚定模型存储部209在声音处理装置104执行各处理之前预先存储锚定模型A_r。

<似然度向量生成部202>

似然度向量生成部202使用由特征量向量生成部201生成的特征量向量M、和在锚定模型存储部209中存储的锚定模型A_r，计算音频信号X（t）的针对各个音素的似然度L_r，并按照每个第1单位区间生成以各个似然度为成分的似然度向量F。

<似然度向量缓冲器203>

似然度向量缓冲器203利用存储器的一部分区域构成，存储由似然度向量生成部202生成的似然度向量F。

<频次向量生成部204>

频次向量生成部204根据在似然度向量缓冲器203中存储的似然度向量F，按照每个第2单位区间生成频次向量NF。

<频次向量缓冲器205>

频次向量缓冲器205利用存储器的一部分区域构成，存储由频次向量生成部204生成的频次向量NF。

<区间扩展基准指标计算部206>

区间扩展基准指标计算部206针对各个第2单位区间，计算作为后述的区间扩展处理的基准指标的基准区间、基准向量S和阈值Rth。

区间扩展基准指标计算部206将处理对象的第2单位区间附近的多个第2单位区间作为基准区间，从频次向量缓冲器205取得基准区间的频次向量，并计算所取得的多个频次向量的重心来作为基准向量S。图12表示将处理对象的第2单位区间附近的合计9个区间作为基准区间时，使用基准区间的频次向量（NF1～NF9）计算基准向量S的示例。

区间扩展基准指标计算部206还分别计算在生成基准向量S时使用的多个频次向量NF与基准向量S之间的欧几里得距离，并计算与基准向量S之间的欧几里得距离为最大的频次向量NF与基准向量S之间的欧几里得距离，作为在判定是否属于相似区间时使用的阈值Rth。

图13是使用向量空间的概念表示基准向量S、各个频次向量NF和阈值Rth的图。在图13中，白圆圈表示在计算基准向量S时使用的频次向量NF（对应于图12所示的基准区间内的各个频次向量NF1～NF9），呈圆状的阴影区域的中心的黑圆点表示基准向量S。从基准向量S到各个频次向量NF的箭头的长度表示频次向量NF与基准向量S之间的欧几里得距离，其最大距离为阈值Rth。

<边界信息计算部207>

返回到图11，边界信息计算部207针对第2单位区间计算由频次向量相似的区间构成的相似区间，并确定相似区间的起始端的时刻和终止端的时刻。边界信息计算部207将在频次向量缓冲器205中存储的频次向量NF、处理对象的第2单位区间、和由区间扩展基准指标计算部206计算出的基准指标（基准区间、基准向量S和阈值Rth）作为输入，将所确定的起始端的时刻和终止端的时刻作为边界信息，输出给索引生成部208。

首先，边界信息计算部207将由区间扩展基准指标计算部206计算出的基准区间设定为相似区间的初始值。如图14所示，边界信息计算部207向时间轴反方向进行追溯，将相似区间紧前的第2单位区间作为对象区间，并判定对象区间是否包含在相似区间中。具体地讲，边界信息计算部207计算对象区间中的频次向量NF与基准向量S之间的欧几里得距离，在计算出的欧几里得距离为阈值Rth以下的情况下，使对象区间包含在相似区间中。边界信息计算部207反复上述处理，并确定所计算出的欧几里得距离第一次超过阈值Rth时的相似区间的起始端的时刻。

在上述处理中一个区间一个区间地将相似区间扩展，因而称为区间扩展处理。边界信息计算部207也沿时间轴正方向进行区间扩展处理，并确定相似区间的终止端的时刻。

边界信息计算部207在进行区间扩展处理时，判定对象区间是否包含在相似区间中，同时也判定相似区间的长度是否比预先设定的相似区间的长度le短。在计算出的欧几里得距离未超过阈值Rth、而且相似区间的长度比预先设定的相似区间的长度的上限le短的情况下，边界信息计算部207将对象区间包含在相似区间中。在相似区间的长度为相似区间的长度的上限le以上的情况下，边界信息计算部207计算该时刻的相似区间的边界信息。另外，相似区间的长度的上限le采用预先设定的值。

边界信息计算部207按照每个第2单位区间计算边界信息（参照图8）。

<索引生成部208>

索引生成部208根据由边界信息计算部207计算出的边界信息来检测场景变化点，把将检测出的场景变化点索引化得到的索引信息输出给索引存储装置105。图15是表示索引生成部208的功能构成例的框图。如图15所示，索引生成部208具有投票部301、阈值计算部302和边界判定部303。下面，对各构成进行说明。

<投票部301>

投票部301按照由边界信息计算部207计算出的边界信息所表示的每个时刻，计算表示同一时刻的边界信息的数量作为边界度。投票部301针对从边界信息计算部207输入的各个边界信息，在所输入的边界信息所表示的时刻进行投票（将与时刻i对应的边界度KK_i加1），由此计算边界度。另外，投票部301在利用一个边界信息指定的起始端的时刻和终止端的时刻这两个时刻进行投票。

<阈值计算部302>

阈值计算部302使用由投票部301计算出的每个时刻的边界度的平均μ和标准偏差σ，计算阈值Th。在边界信息所表示的时刻是T_i（i=1、2、3、…、N）、与其对应的边界度是KK_i（i=1、2、3、…、N）的情况下，利用下面的式（1）、（2）和（3）对平均值μ、标准偏差σ和阈值Th赋值。

[数学式1]

μ = \frac{1}{N} Σ_{i = 1}^{N} {KK}_{i} \cdot \cdot \cdot (1)

[数学式2]

σ = \sqrt{\frac{1}{N} Σ_{i = 1}^{N} {({KK}_{i} - μ)}^{2}} \cdot \cdot \cdot (2)

[数学式3]

TH=μ+2σ…(3)

<边界判定部303>

边界判定部303使用由投票部301计算出的每个时刻的边界度KK_i和由阈值计算部302计算出的阈值TH，将满足下面的式（4）的条件的时刻判定为场景变化点，并作为索引信息输出给索引存储装置105。

[数学式4]

KK_i＞TH…(4)

声音处理装置104利用上述<3-2-1>到<3-2-9>的构成来生成动态图像文件的索引信息。继续说明图8的影像视听装置100的构成。

<锚定模型制作装置107（详细情况）>

锚定模型制作装置107由存储器（未图示）和处理器（未图示）构成，通过由处理器执行被读入到存储器中的程序，实现图16所示的构成。

图16是表示锚定模型制作装置的功能构成及周围设备的框图。如图16所示，锚定模型制作装置107具有特征量向量生成部401、特征量向量分类部402、锚定模型生成部403，锚定模型制作装置107具有根据在声音数据存储装置108中存储的声音数据来生成锚定模型、并将所生成的锚定模型存储在锚定模型存储部209中的功能。下面，对各个构成进行说明。

<特征量向量生成部401>

特征量向量生成部401根据在声音数据存储装置108中存储的声音数据，按照每个第1单位区间生成特征量向量M。

<特征量向量分类部402>

特征量向量分类部402对由特征量向量生成部401生成的特征量向量进行聚类（clustering，分类）。

特征量向量分类部402根据从界面装置109输入的锚定模型Ar的个数K，利用K－means法将多个特征量向量M分类为K个聚类。另外，在本实施方式中设K＝1024。

<锚定模型生成部403>

锚定模型生成部403计算由特征量向量分类部402分类的K个聚类各自的平均和分散，并作为锚定模型A_r（r＝1、2、…、K）存储在锚定模型存储部209中。

<1-4.>动作

下面，参照附图说明本实施方式的声音处理装置104的动作。

<声音处理装置整体的动作>

图17是表示声音处理装置104的动作的流程图。如图所示，声音处理装置将音频信号作为输入（步骤S1701）。

然后，声音处理装置104使用所输入的音频信号，生成表示音频信号的每个第2单位区间的特征的区间特征（特征量向量、似然度向量和频次向量）（步骤S1702）。

区间特征的生成包括由特征量向量生成部201进行的特征量向量生成处理、由似然度向量生成部202进行的似然度向量生成处理、和由频次向量生成部204进行的频次向量生成处理。

在结束频次向量的生成后，声音处理装置104选择一个作为处理对象的第2单位区间，进行在步骤S1703中由区间扩展基准指标计算部206执行的区间扩展基准指标计算处理和在步骤S1704中由边界信息计算部207执行的边界信息计算处理。声音处理装置104针对所有第2单位区间进行执行步骤S1703和步骤S1704的处理之前的循环处理。

在循环处理结束后，声音处理装置104的索引生成部208进行索引生成处理（步骤S1705）。

最后，声音处理装置104将索引生成部208生成的索引信息输出给索引存储装置（步骤S1706）。

<基准指标计算处理>

图18是表示在图17中的步骤S1703的由区间扩展基准指标计算部206执行的基准指标计算处理的详细情况的流程图。如图18所示，在基准指标计算处理中，区间扩展基准指标计算部206将处理对象的第2单位区间和由频次向量缓冲器205保存的频次向量作为输入（步骤S1801）。

区间扩展基准指标计算部206将处理对象的第2单位区间和该第2单位区间前后的4个区间合计9个区间的第2单位区间设定为基准区间（步骤S1802）。

然后，区间扩展基准指标计算部206计算由频次向量缓冲器205输入的基准区间内的频次向量（NF1～NF9）的重心，并作为基准向量S（步骤S1803）。

然后，区间扩展基准指标计算部206分别计算基准向量S与基准区间内的频次向量（NF1～NF9）之间的欧几里得距离D（S，NF1）、～、D（S，NF9），将计算出的欧几里得距离的最大值作为阈值Rth（步骤S1804）。

最后，区间扩展基准指标计算部206将计算出的基准指标输出给边界信息计算部207（步骤S1805）。

<边界信息计算处理>

图19是表示在图17的步骤S1704的由边界信息计算部207执行的边界信息计算处理的详细情况的流程图。如图19所示，在边界信息计算处理中，边界信息计算部207将处理对象的第2单位区间、由区间扩展基准指标计算部206计算出的基准指标、预先设定的相似区间的长度的上限、和由频次向量缓冲器205保存的频次向量作为输入（步骤S1901）。

边界信息计算部207将从区间扩展基准指标计算部206输入的基准区间作为相似区间的初始值（步骤S1902）。

然后，边界信息计算部207对在步骤S1902中设定的相似区间的初始值执行步骤S1903～S1906的处理，进行音频信号的时间轴反方向的区间扩展处理。

边界信息计算部207将在音频信号的时间轴中位于相似区间紧前的第2单位区间作为对象区间（步骤S1903）。

边界信息计算部207计算从频次向量缓冲器205输入的对象区间的频次向量NF、与由区间扩展基准指标计算部206输入的基准向量S之间的欧几里得距离D（NF，S），将计算出的欧几里得距离D（NF，S）与从区间扩展基准指标计算部206输入的阈值Rth进行比较（步骤S1904）。

边界信息计算部207在计算出的欧几里得距离D（NF，S）比阈值Rth短的情况下（步骤S1904：是），以包含对象区间的方式更新相似区间（步骤S1905）。

边界信息计算部207在更新相似区间后，将相似区间的长度与相似区间的长度的上限le进行比较（步骤S1906），如果相似区间的长度比上限le短（步骤S1906：是），返回到步骤S1803，如果相似区间的长度为上限le以上（步骤S1906：否），则前进到步骤S1911。

边界信息计算部207在计算出的欧几里得距离D（NF，S）为阈值Rth以上的情况下（步骤S1904：否），结束音频信号的时间轴反方向的区间扩展处理，前进到步骤S1907～S1910，进行音频信号的时间轴正方向的区间扩展处理。

在时间轴正方向的区间扩展处理中，除了步骤S1907中将相似区间紧后的第2单位区间作为对象区间以外，是与时间轴反方向的区间扩展处理相同的处理，因而省略说明。

边界信息计算部207计算边界信息，该边界信息包括在结束时间轴反方向的区间扩展处理和时间轴正方向的区间扩展处理的时刻的相似区间的起始端的时刻和终止端的时刻（步骤S1911）。

最后，边界信息计算部207将计算出的边界信息输出给索引生成部208（步骤S1912）。

<索引生成处理>

图20是表示在图17的步骤S1705中由索引生成部208执行的索引生成处理的动作的流程图。如图20所示，在索引生成处理中，索引生成部208将由边界信息计算部207计算出的边界信息作为输入（步骤S2001）。

投票部301在从边界信息计算部207输入边界信息后，在边界信息所表示的时刻进行投票，并计算边界度（步骤S2002）。

在步骤S1902的投票处理结束后，阈值计算部302使用由投票部301计算出的边界度来计算阈值（步骤S2003）。

边界判定部303使用由投票部301计算出的边界度和由阈值计算部302计算出的阈值来检测场景变化点，生成将检测出的场景变化点索引化后的索引信息（步骤S2004）。

边界判定部303将所生成的索引信息输出给索引存储装置105（步骤S2005）。

<1-5.汇总>

本实施方式的声音处理装置按照音频信号的规定时间长度的每个单位区间，计算表示音频信号的单位区间中的特征的区间特征（特征量向量、似然度向量、频次向量），根据由计算出的区间特征相似的区间构成的相似区间的边界，检测场景变化点。

根据这种结构，即使是声音信息缓慢变化的场景变化点，声音处理装置也能够检测出来。

另外，声音处理装置按照每个单位区间进行计算，对于边界信息，按照每个边界来计算表示同一边界的边界信息的数量，作为优先度（边界度），仅对超过阈值的优先度的边界进行索引化并作为场景变化点。

根据这种结构，声音处理装置能够优先检测从多个单位区间（第2单位区间）计算出的边界，作为用户期望的场景变化点。另外，由于对待索引化的变化点进行挑选，因而用户容易检索期望的场景。

<实施方式2>

在实施方式2中，与实施方式1相比有两点不同。

一点是边界度的计算方法。在实施方式1中，计算表示同一时刻的边界的数量，作为边界度。在实施方式2中，计算表示同一时刻的边界信息中的边界变化度的最大值，作为边界度。在此，关于边界变化度，由边界信息计算部计算表示区间特征（特征量向量、似然度向量和频次向量）在相似区间内变化何种程度的指标，作为该相似区间的边界信息。

与实施方式1相比的不同的另一点是索引信息。在实施方式1中，索引信息仅采用场景变化点的时刻。在实施方式2中，对索引信息附加了用声音环境信息将场景变化点分类得到的分类信息。其中，声音环境信息是表示场景变化点的音频信号的特征的信息，并且作为相似区间的边界信息，由边界信息计算部使用该相似区间的区间特征计算出来。

下面，说明本实施方式的声音处理装置。对与实施方式1相同的构成要素使用相同的标号，并省略说明。

<2-1.构成>

图21是表示实施方式2的声音处理装置110的功能构成例的框图。声音处理装置110与实施方式1的声音处理装置104相比，取代边界信息计算部207而具备边界信息计算部211，取代索引生成部208而具备索引生成部212。

<边界信息计算部211>

边界信息计算部211在边界信息计算部207的功能基础上还具有如下功能：计算处理对象的第2单位区间附近的音频信号的特征、表示相似区间的边界处的音频信号的特征的变化程度的边界变化度、以及表示相似区间的代表性声音环境的声音环境信息，作为边界信息。

在本实施方式中，边界信息计算部211使用在时间轴反方向的区间扩展处理中将区间扩展时计算出的基准向量S与频次向量NF的欧几里得距离中的、超过阈值Rth的欧几里得距离，作为起始端变化度Din（相似区间的起始端的边界变化度）。即，使用基准向量S与相似区间紧前的第2单位区间的频次向量NF的欧几里得距离。另外，当不存在相似区间紧前的第2单位区间的情况下，使用相似区间开始的第2单位区间来代替。

同样，边界信息计算部211使用基准向量S与相似区间紧后的第2单位区间的频次向量NF的欧几里得距离，作为终止端变化度Dout（相似区间的起始端的边界变化度）。

并且，边界信息计算部211使用基准向量S作为声音环境信息。

如图22所示，边界信息计算部211计算相似区间的起始端的时刻、起始端变化度、终止端的时刻、终止端变化度和声音环境信息，作为边界信息。

<索引生成部212>

图23是表示索引生成部212的功能构成例的框图。索引生成部212与实施方式1的索引生成部208相比，取代投票部301而具备边界度计算部311，另外声音环境分类部312被插入到边界判定部303与索引存储装置105之间。

<边界度计算部311>

边界度计算部311按照由边界信息计算部211计算出的边界信息所表示的每个时刻，计算边界信息的边界变化度的最大值作为边界度。更具体地讲，边界度计算部311计算起始端的时刻为Ti的边界信息中的起始端变化度和终止端的时刻为Ti的边界信息中的终止端变化度的最大值，作为时刻T_i的边界度。

另外，边界度计算部311将被赋值了边界变化度的最大值的边界信息的声音环境信息与边界（时刻）的声音环境信息建立对应。

<声音环境分类部312>

声音环境分类部312使用例如K-means法，将与由边界判定部303判定为场景变化点的时刻建立了对应的声音环境信息分类为多个组（例如3组）。声音环境分类部312将分类结果的分类信息赋予索引信息，将带分类信息的索引信息输出给索引存储装置105。图24表示被赋予了分类信息的索引信息的具体示例。

<2-2.汇总>

本实施方式的声音处理装置使用表示相似区间内的音频信号的特征的变化程度的边界变化度的最大值，作为边界度。音频信号的特征的变化往往是随着动态图像文件中的被摄体的运动而出现的。即，本实施方式的声音处理装置通过使用边界变化度的最大值作为边界度，能够优先检测被摄体在运动的场景。

本实施方式的声音处理装置把利用声音环境信息将场景变化点进行分类得到的分类信息赋予索引信息。影像视听装置通过利用分类信息，能够对用户提供丰富多彩的用户界面功能。

例如，可以考虑这样的结构：影像视听装置以能够按照每个分类区分场景变化点的形式（例如对每个分类进行颜色区分、对每个分类改变标记的形状）在进度条中进行显示。根据这种结构，用户通过观察进度条，即可掌握AV内容的大致的场景构成，能够更直观地检索目标场景。

另外，可以考虑这样的结构：影像视听装置在进度条中强调显示与当前正在视听的场景的场景变化点相同的分类的场景变化点。根据这种结构，用户能够尽快跳到与当前正在视听的场景相似的场景。

<3.变形例>

按照上述实施方式对本发明的声音处理装置进行了说明，然而本发明不限于此。下面，对包含本发明的思想的各种变形例进行说明。

（1）在上述实施方式中，声音处理装置计算表示同一边界的边界信息的数量或者表示同一边界的边界信息中的边界变化度的最大值，作为边界度，但不限于此。例如，也可以使用表示同一边界的边界信息中的边界变化度的累计值。根据这种结构，声音处理装置能够从更多的单位区间（第2单位区间）进行计算，而且能够优先检测在同一场景内特征的变化较大的场景的边界。

（2）在上述实施方式中，边界信息计算部计算相似区间的起始端的时刻和终止端的时刻这两个时刻作为边界信息，但也可以仅计算起始端的时刻，还可以仅计算终止端的时刻。另外，边界信息计算部在仅计算起始端的时刻的构成中，不需要进行时间轴正方向的区间扩展处理，在仅计算终止端的时刻的构成中，不需要进行时间轴反方向的区间扩展处理。

（3）在上述实施方式中，阈值计算部使用式（3）进行了阈值的计算，但阈值的计算方法不限于此。例如，也可以采用使下面所示的式（5）的系数k在0～3之间变化的方法。

[数学式5]

TH=μ+kσ…(5)

另外，也可以是，阈值计算部计算多个阈值，边界判定部对多个阈值分别计算场景变化点。例如，阈值计算部计算第1阈值TH1作为系数k=0，边界判定部检测针对第1阈值TH1的场景变化点。然后，阈值计算部计算第2阈值TH2作为系数k=2，边界判定部检测针对第2阈值TH2的场景变化点。

其中，使用比第2阈值小的第1阈值TH1检测出的场景变化点，例如如图1的场景20中所包含的场景21和场景22那样，能够被推定为包含在较大场景中的较小场景的边界。相反，使用比第1阈值大的第2阈值TH2检测出的场景变化点，例如如图1中包含场景21和场景22的场景20那样，能够被推定为包含较小场景的较大场景的边界。

即，根据对多个阈值中的每个阈值检测场景变化点的构成，阈值计算部和边界判定部作为推定音频信号中的场景的层次构造的场景构造推定部发挥作用。

（4）在上述实施方式中，边界判定部检测超过从阈值计算部输入的阈值的边界度的时刻作为场景变化点，但不限于此。例如也可以是，边界判定部按照边界度从高到低的顺序检测规定数量N（N为正整数）的时刻作为场景变化点。另外，所述规定数量N也可以根据音频信号的长度来决定。例如也可以是，边界判定部对于10分钟长度的音频信号设为N=10，对于20分钟长度的音频信号设为N=20。

另外，也可以是，边界判定部按照边界度从高到低的顺序检测规定数量N（N为正整数）的时刻，作为第1场景变化点，并按照边界度从高到低的顺序检测规定数量M（M为大于N的整数）的时刻作为第2场景变化点。

在这种情况下，例如如图1中包含场景21和场景22的场景20那样，能够将第1场景变化点推定为包含更小的场景的较大场景的边界。并且，如图1中包含在场景20中的场景21和场景22的那样，能够将第2场景变化点推定为包含在更大场景中的较小场景的边界。

即，根据检测上述第1场景变化点和第2场景变化点的结构，边界判定部作为推定音频信号中的场景的层次构造的场景构造推定部发挥作用。

（5）在上述实施方式中，按照每个第2单位区间计算相似区间（及边界信息），但不限于此。例如也可以是，边界信息计算部设N为正整数，每隔N个第2单位区间来计算相似区间。另外也可以是，边界信息计算部从界面装置等取得用户指定的多个第2单位区间，计算用户所指定的多个第2单位区间各自的相似区间。

（6）在上述实施方式中，将在区间扩展基准指标计算部执行的区间扩展基准指标计算处理中使用的基准区间设为，处理对象的第2单位区间附近的合计9个区间，但不限于此。例如也可以是，将基准区间设为处理对象的第2单位区间附近的合计N个区间（N为2以上的整数）。

在此，N较大时，在边界信息计算部中计算出的相似区间是比较大的区间。其结果是，在索引生成部中检测出的场景变化点例如如图1中包含场景21和场景22的场景20那样，被推定为表示包含更小的场景的较大场景的边界。相反，N较小时，在边界信息计算部中计算出的相似区间是比较小的区间。其结果是，在索引生成部中检测出的场景变化点例如如图1中包含在场景20中的场景21和场景22那样，被推定为表示包含在更大的场景中的较小场景的边界。

鉴于这一点，也可以构成为，区间扩展基准指标计算部、边界信息计算部和索引生成部首先检测N较大时的场景变化点，然后检测N较小时的场景变化点。根据这种结构，区间扩展基准指标计算部、边界信息计算部和索引生成部能够检测音频信号中的较大场景的边界、和包含在该较大场景中的较小场景的边界。即，根据这种结构，区间扩展基准指标计算部、边界信息计算部和索引生成部作为对音频信号中的场景的层次构造进行推定的场景构造推定部发挥作用。

（7）在上述实施方式中，说明了基准向量是包含在基准区间中的第2单位区间的频次向量的重心的情况，但基准向量不限于此。例如，也可以是以包含在基准区间中的第2单位区间的频次向量的每个成分的中央值为成分的向量，在包含在基准区间中的第2单位区间的数量较多达100个等的情况下，也可以将以各频次向量的成分的最频值为成分的向量设为基准向量。

（8）在上述实施方式中记述了这样的内容：边界信息计算部使被判定为对象区间中的频次向量与基准向量S之间的欧几里得距离未超过阈值Rth、而且相似区间的长度比预先设定的相似区间的长度的上限le短的对象区间，包含在相似区间中。这是为了防止相似区间的长度达到某个固定值以上的长度的措施，但是如果相似区间的长度没有限制，则也可以不进行相似区间的长度与上限le的比较处理，而使对象区间包含在相似区间中。

另外，在上述的实施方式中，假设相似区间的长度的上限le采用预先设定的值，但不限于此。相似区间的长度的上限le例如也可以采用用户经由界面指定的值。

（9）在上述实施方式中，仅对使相似区间向时间轴反方向扩展，然后向时间轴正方向扩展的结构进行了说明，但是例如也可以是如下所述的结构。

例如，关于区间扩展处理的顺序，边界信息计算部也可以采取使时间轴正方向先于时间轴反方向进行扩展，还可以采用按照第2单位区间单位使相似区间交替地在时间轴反方向和时间轴正方向进行扩展的结构。在交替地进行扩展时，也可以不按照第2单位区间单位进行交替，而是采用每隔固定数量（例如5个）的第2单位区间进行交替扩展的方法。

（10）在上述实施方式中，边界信息计算部根据基准向量与对象区间的频次向量之间的欧几里得距离是否超过阈值Rth，判定是否使对象区间包含在相似区间中。但是，只要能够判定基准向量和频次向量是否在一定以上的程度相似，则不一定需要使用欧几里得距离。

例如，也可以构成为，关于将基准向量和频次向量的各成分作为对应的锚定模型所规定的概率分布的加权的混合分布，将两个混合分布的两个方向上的KL散度信息量（Kullback－Leibler divergence，有时也称为相对熵）用作距离，并提取相似区间。此时，也可以使用KL散度信息量计算阈值Rth。

另外，KL散度信息量通常被公知为在概率理论或信息理论中实现两种概率分布的差异的尺度，本发明的一个实施方式涉及的频次向量与基准向量之间的KL距离可以按照下面所述进行计算。

首先，使用频次向量NF和各锚定模型所规定的概率分布来构成一个混合分布。具体地讲，将频次向量NF＝（α₁、…、α_r、…、α₁₀₂₄）作为针对各锚定模型所规定的概率分布（b_A1、…、b_Ar、…、b₁₀₂₄）的加权，由此能够根据下面的式（6）对混合分布G_NF赋值。

[数学式6]

G_{NF} = Σ_{i = 1}^{1024} α_{i} b_{Ai} \cdot \cdot \cdot (6)

另一方面，同样利用基准向量构成混合分布。即，将基准向量S＝（μ₁、…、μ_r、…、μ₁₀₂₄）作为针对各锚定模型所规定的概率分布（b_A1、…、b_Ar、…、b₁₀₂₄）的加权，由此能够根据下面的式（7）对混合分布G_S赋值。

[数学式7]

G_{S} = Σ_{i = 1}^{1024} μ_{i} b_{Ai} \cdot \cdot \cdot (7)

然后，使用这两种混合分布G_NF和G_S，能够根据下面的式（8）对从G_NF到G_S的KL散度信息量赋值。

[数学式8]

D_{KL} (G_{NF} | G_{S}) = {&Integral;}_{X} G_{NF} (x) \log \frac{G_{NF} (x)}{G_{S} (x)} dx \cdot \cdot \cdot (8)

在上述式（8）中，X表示混合分布G_NF和G_S的自变量整体的集合。

另外，能够根据下面的式（9）对从G_S到G_NF的KL散度信息量赋值。

[数学式9]

D_{KL} (G_{S} | G_{NF}) = {&Integral;}_{X} G_{S} (x) \log \frac{G_{S} (x)}{G_{NF} (x)} dx \cdot \cdot \cdot (9)

式（8）和式（9）之间没有对称性，因而根据下面的式（10）计算出两种概率分布之间的KL距离。

[数学式10]

Dist (G_{NF}, G_{S}) = \frac{D_{KL} (G_{NF} | G_{S}) + D_{KL} (G_{S} | G_{NF})}{2} \cdot \cdot \cdot (10)

也可以取代上述实施方式示出的欧几里得距离，而使用该式（10）所示的KL距离进行是否使对象区间包含在相似区间中的判定。此时，阈值Rth可以取代欧几里得距离，而使用与基准区间中所包含的多个第2单位区间的频次向量中的、这多个频次向量和基准向量之间的KL距离为最大的频次向量之间的KL距离。

另外，此外关于不使用欧几里得距离的方法，例如也可以采用这样的方法：进行基准向量与对象区间的频次向量的相关运算（余弦相似度或皮尔森的相关系数的计算等），如果其相关值为一定值以上（例如0.6以上），则使对象区间包含在相似区间中。

（11）在上述的实施方式中，第2单位区间的频次向量是以各个区间中所包含的似然度向量的各个成分的正态化累计似然度为成分的向量，但频次向量只要是表示该区间中的音频信号的特征的向量即可，尤其只要是能够确定频繁出现的声音的成分的向量即可，因而也可以是将正态化累计似然度以外的要素作为成分的向量。例如，也可以是这样的向量：将单位区间中所包含的似然度向量的各个成分进行累计，将仅与累计似然度最高的k个（k为多个，例如10个）锚定模型对应的累计似然度进行正态化得到的向量。或者，也可以是，频次向量不是将累计的值进行正态化，而是直接将所累计的似然度作为成分的向量、或将各似然度的平均值作为成分的向量。

（12）在上述的实施方式中，使用MFCC作为特征量向量，但只要能够表示音频信号的第1单位区间中的特征，则不限于此。例如，也可以使用功率谱等音频信号的频率特性，也可以使用音频信号的振幅的时间序列自身作为特征量。

另外，在上述的实施方式中使用了MFCC26维，这是因为通过实验设为26维能够得到良好的结果，因而不能将本发明的特征量向量限制为26维。

（13）在上述的实施方式中说明了制作使用分类器从预先存储在声音数据存储装置中的声音数据进行分类得到的多种音素中的各种音素的锚定模型Ar（所谓无监督地制作锚定模型）的示例，但锚定模型生成方法不限于此。例如也可以是，对于在声音数据存储装置中存储的声音数据，用户选择与各种音素分别对应的声音数据，并对各个声音数据赋予类别标签，从类别标签相同的声音数据制作对应的音素的锚定模型（所谓有监督地生成锚定模型）。

（14）上述的实施方式中的第1单位区间、第2单位区间各自的时间长度仅是一例。只要第1单位区间<第2单位区间，则其时间长度也可以是上述实施方式中示出的长度以外的长度。另外，此时如果将第2单位时间的长度设为第1单位时间的长度的倍数，则容易进行处理。

（15）在上述的实施方式中，似然度向量缓冲器、频次向量缓冲器、以及锚定模型存储部利用存储器的一部分构成，但只要是声音处理装置能够进行读写的存储装置，则不限于这些。例如，也可以是硬盘或软盘，还可以是外部连接的存储装置。

（16）在上述的实施方式中示出的被存储于声音数据存储装置中的声音数据也可以适当追加新的声音数据，并且也可以存储被存储于内容存储装置中的动态图像数据的声音数据。

另外，也可以是，随着新的声音数据的追加，锚定模型制作装置107制作新的锚定模型。

（17）在上述的实施方式中，说明了声音处理装置作为影像视听装置的构成要素，但也可以作为声音编辑装置的构成要素。另外，也可以是这样的图像显示装置：从外部装置取得包含音频信号的动态图像文件，将与检测结果的场景变化点对应的图像数据作为缩放图像进行输出。

（18）在上述的实施方式中，从记录介质取得动态图像文件，但取得手段不限于使用记录介质的方法。例如，也可以从无线或者有线的广播、或网络等取得，也可以是声音处理装置具有麦克等声音输入装置，从由声音输入装置输入的音频信号中检测场景变化点。

（19）本发明也能够作为将上述实施方式的声音处理装置连接到网络、由该声音处理装置和连接该网络的一个以上的终端构成的影像视听系统而实现。

在这种影像视听系统中，例如某一个终端向声音处理装置发送动态图像文件，声音处理装置检测所接收到的动态图像文件的场景变化点并发送给终端。

根据这种结构，即使是不具有检测场景变化点等编辑功能的终端，也能够再现被进行了编辑（被检测了场景变化点）的影像。

另外，也可以是，在上述影像视听系统中将声音处理装置的功能进行分割，使终端具备被分割的功能的一部分。在此，将具备被分割的功能的一部分功能的终端称为客户端，将具备剩余的功能的装置称为服务器。

图25～图27是表示将声音处理装置的功能进行分割的影像视听系统的结构的一例的图。

如图25所示，影像视听系统由客户端2600和服务器2700构成。

客户端2600具有内容存储装置102、声音提取装置103、声音处理装置2602、和收发装置2604。

内容存储装置102和声音提取装置103与上述实施方式中的内容存储装置102和声音提取装置103相同。

声音处理装置2602具有上述实施方式中的声音处理装置104的一部分功能，具体地讲，具有从音频信号生成频次向量的功能。

收发装置2604具有将声音处理装置2602生成的频次向量发送给服务器2700的功能、以及从服务器2700接收索引信息的功能。

服务器2700具有索引存储装置105、声音处理装置2702、和收发装置2704。

索引存储装置105与上述实施方式中的索引存储装置105相同。

声音处理装置2702具有上述实施方式中的声音处理装置104的一部分功能，具体地讲，具有从频次向量生成索引信息的功能。

收发装置2704具有从客户端2600接收频次向量的功能、以及将在索引存储装置105中存储的索引信息发送给客户端2600的功能。

图26是表示客户端2600具有的声音处理装置2602的功能构成的一例的图。如图所示，声音处理装置2602具有特征量向量生成部201、似然度向量生成部202、似然度向量缓冲器203、频次向量生成部204和锚定模型存储部209。各个构成部具有与上述实施方式的同名同标号的构成部相同的功能。

图27是表示服务器2700具有的声音处理装置2702的功能构成的一例的图。如图所示，声音处理装置2702具有频次向量缓冲器205、区间扩展基准指标计算部206、边界信息计算部207和索引生成部208。各个构成部具有与上述实施方式的同名同标号的构成部相同的功能。

根据这种结构，影像视听系统内的通信限定于频次向量和索引信息。因此，与不对声音处理装置进行分割就发送动态图像文件的情况相比，能够减少通信量。

另外，也可以是，在上述影像视听系统中，服务器具有这样的功能：从客户端接收与所生成的索引信息对应的缩放图像等，并向网络内的其它终端送信所生成的索引信息和对应的缩放图像。

根据这种结构，当在网络内的其它终端中视听被保存在客户端中的动态图像文件的情况下，其它终端的用户能够根据所送信的缩放图像来仅选择感兴趣的场景进行视听。即，根据这种结构，影像视听系统能够进行仅提取了用户感兴趣的场景的流送信。

（20）也可以将上述的各实施方式和各变形例进行部分组合。

（21）也能够将由机械语言或者高级语言的程序代码构成的控制程序记录在记录介质中或者经由各种通信路径等进行流通并颁发，该控制程序用于使声音处理装置的处理器以及与该处理器连接的各种电路执行在上述实施方式中示出的基准指标计算处理、边界信息计算处理、索引生成处理。这种记录介质包括IC卡、硬盘、光盘、软盘、ROM、闪存等。所流通及颁发的控制程序通过被存储在处理器能够读取的存储器等中而供使用，通过由该处理器执行该控制程序来实现诸如在各个实施方式中示出的功能。另外，处理器直接执行控制程序，此外处理器也可以将控制程序进行编译后再执行或者通过翻译器来执行。

（22）在上述的实施方式中示出的各个功能构成要素（特征单位区间检测部、区间扩展基准指标计算部、兴趣区间提取部等）也可以作为执行该功能的电路来实现，还可以通过由一个或者多个处理器执行程序来实现。另外，上述的实施方式的声音处理装置也可以构成为IC、LSI等集成电路的封装体。将该封装体装配在各种装置中而供使用，由此各种装置能够实现诸如在各个实施方式中示出的功能。

另外，特征单位区间检测部、区间扩展基准指标计算部、兴趣区间提取部等各个功能单元可以典型地实现为集成电路即LSI。这些功能单元可以形成为独立的单片、也可以形成为包含一部分或者全部的单片。在此是形成为LSI，但根据集成度的不同，有时也被称为IC、系统LSI、超级(super)LSI、特级(ultra)LSI。另外，集成电路化的方法不限于LSI，也可以利用专用电路或者通用处理器实现。还可以采用在制作LSI后能够编程的可现场编程门阵列（FPGA：Field Programmable Gate Array）、能够重构架LSI内部的电路单元的连接和设定的可重构处理器（reconfigurable processor）。

<6－2.补充>

下面，对作为本发明的一个实施方式的声音处理装置的结构及其变形例和效果进一步说明。

（A）本发明的一个实施方式的声音处理装置的特征在于，该声音处理装置具有：特征计算单元，按照每个单位区间计算表示所输入的音频信号的单位区间的特征的区间特征；边界计算单元，对于多个单位区间中的每个单位区间，计算与包括该单位区间在内的由区间特征相似的多个单位区间构成的相似区间、和其它区间的边界相关的边界信息；以及判定单元，计算所述边界信息所表示的各个边界的优先度，根据所述优先度判定所述各个边界是否是场景变化点。

根据这种结构，声音处理装置检测从区间特征（特征量向量、似然度向量和频次向量）相似的相似区间的边界中选出的相似区间的边界，作为场景变化点。声音处理装置通过将相似区间的边界作为场景变化点，能够检测过渡场景中的变化点。并且，声音处理装置通过对挑选了边界的相似区间进行索引处理并作为场景变化点，用户能够容易检索期望的场景变化点。

（B）也可以是，在上述实施方式（A）的声音处理装置中，所述判定单元计算表示同一边界的边界信息的数量作为所述优先度。

根据这种结构，声音处理装置能够在从属于用户所期望的同一场景的单位区间中计算出表示同一时刻的边界这一假设前提下，优先检测用户所期望的场景与其它场景的变化点。

（C）也可以是，在上述实施方式（A）的声音处理装置中，所述边界计算单元还计算表示所述相似区间与其它区间之间的音频信号的特征的变化程度的变化度，作为所述边界信息，所述判定单元计算表示同一边界的边界信息的所述变化度的累计值，作为所述优先度。

根据这种结构，声音处理装置能够优先检测音频信号的特征具有变化的场景的边界、以及从多个单位区间计算出的边界这两种边界。

（D）也可以是，在上述实施方式（A）的声音处理装置中，所述边界计算单元还计算表示所述相似区间与其它区间之间的音频信号的特征的变化程度的变化度，作为所述边界信息，所述判定单元计算表示同一边界的边界信息的所述变化度的最大值作为所述优先度。

根据这种结构，声音处理装置能够优先检测音频信号的特征具有变化的场景的边界。

（E）也可以是，在上述实施方式（D）的声音处理装置中，所述边界计算单元还使用所述相似区间中所包含的所述单位区间的区间特征，计算表示该相似区间的声音环境的声音环境信息作为所述边界信息，所述声音处理装置还具有分类单元，该分类单元使用所述声音环境信息将所述场景变化点分类，并将分类结果的分类信息赋予所述场景变化点。

根据这种结构，利用声音处理装置的输出的影像显示装置等能够根据分类信息，向用户提供多彩的用户界面功能。

（F）也可以是，在上述实施方式（A）的声音处理装置中，所述声音处理装置还具有根据所述优先度计算阈值的阈值计算单元，所述判定单元检测超过所述阈值的优先度的边界的时刻，作为所述场景变化点。

根据这种结构，声音处理装置能够对各音频信号适应性地计算阈值。其结果是，能够以稳定的精度对所有音频信号检测场景变化点。

（G）也可以是，在上述实施方式（A）的声音处理装置中，所述边界计算单元计算所述相似区间的起始端的时刻作为所述边界信息。

另外，也可以是，在上述实施方式（A）的声音处理装置中，所述边界计算单元计算所述相似区间的终止端的时刻，作为所述边界信息。

根据这种结构，声音处理装置在按照每个单位区间求出相似区间时，仅求出时间轴正方向或者时间轴反方向中的任意一种方向的边界即可，因而计算量削减。

（H）也可以是，在上述实施方式（A）的声音处理装置中，将所述单位区间设为第2单位区间，所述第2单位区间由多个连续的第1单位区间构成，所述声音处理装置还具有：模型存储单元，预先存储表示多种音素各自的特征的概率模型；以及似然度向量生成单元，使用所述概率模型，按照所述每个第1单位区间生成似然度向量，该似然度向量以相对于所述音频信号的所述各个音素的似然度为成分，所述区间特征是使用所述第2单位区间中所包含的多个第1单位区间的似然度向量而生成的、表示所述各个音素的出现频次的频次向量。

根据这种结构，声音处理装置通过根据表示音素的概率模型来生成似然度向量和频次向量，能够利用似然度向量和频次向量来表示在音频信号的各第1单位区间和各第2单位区间中包含何种程度的音素的成分。

（I）也可以是，在上述实施方式（H）的声音处理装置中，所述声音处理装置还具有特征量向量生成单元，计算表示音频信号在所述第1单位区间中的频率特性的特征量向量，所述似然度向量生成单元使用所述特征量向量和所述概率模型来生成所述似然度向量。

根据这种结构，声音处理装置能够使用音频信号的频率特性来检测场景变化点。

（J）本发明的一个实施方式的声音处理装置的特征在于，该声音处理装置具有：特征计算单元，按照每个单位区间来计算表示所输入的音频信号的单位区间的特征的区间特征；边界计算单元，对于多个单位区间中的每个单位区间，计算与包括该单位区间在内的由区间特征相似的多个单位区间构成的相似区间、和其它区间的边界相关的边界信息；以及场景构造推定单元，从所述边界信息所表示的边界中，检测由所述音频信号表示的场景中所包含的第1场景的边界、和包含在该第1场景中的第2场景的边界。

声音处理装置推定音频信号中的场景的层次构造，因而用户能够根据推定出的层次构造容易地检索期望的场景。

工业利用性

本发明的声音处理装置及声音处理方法通过从包括声音、家中的声音、外出时的声音等在内的AV内容等的音频信号中检测场景变化点，能够容易检索用户感兴趣的对象的场景，并进行作为兴趣对象的场景的强调再现（特殊再现或筛选处理）等，对于声音编辑装置或动态图像编辑装置等是有用的。

标号说明

100影像视听装置

101输入装置

102内容存储装置

103声音提取装置

104声音处理装置

105索引存储装置

106输出装置

107锚定模型制作装置

108声音数据存储装置

109界面装置

201特征量向量生成部

202似然度向量生成部

203似然度向量缓冲器

204频次向量生成部

205频次向量缓冲器

206区间扩展基准指标计算部

207、211边界信息计算部

208、212索引生成部

209锚定模型存储部

301投票部

302阈值计算部

303边界判定部

311边界度计算部

312声音环境分类部

401特征量向量生成部

402特征量向量分类部

403锚定模型生成部

权利要求书(按照条约第19条的修改)

1.（修改后）一种声音处理装置，其特征在于，该声音处理装置具有：

特征计算单元，按照每个单位区间来计算表示所输入的音频信号的单位区间的特征的区间特征；

边界计算单元，对于多个单位区间中的每个单位区间，计算与包括该单位区间在内的由区间特征相似的多个单位区间构成的相似区间和其它区间的边界相关的边界信息；以及

判定单元，计算所述边界信息所表示的各个边界的优先度，根据所述优先度判定所述各个边界是否是场景变化点，

所述边界计算单元计算所述相似区间的起始端的时刻或终止端的时刻中的至少一方，作为所述边界信息。

2.根据权利要求1所述的声音处理装置，其特征在于，

所述判定单元计算表示同一边界的边界信息的数量，作为所述优先度。

3.根据权利要求1所述的声音处理装置，其特征在于，

所述边界计算单元还计算表示所述相似区间与其它区间之间的音频信号的特征的变化程度的变化度，作为所述边界信息，

所述判定单元计算表示同一边界的边界信息的所述变化度的累计值，作为所述优先度。

4.根据权利要求1所述的声音处理装置，其特征在于，

所述判定单元计算表示同一边界的边界信息的所述变化度的最大值，作为所述优先度。

5.根据权利要求4所述的声音处理装置，其特征在于，

所述边界计算单元还使用所述相似区间中包含的所述单位区间的区间特征，来计算表示该相似区间的声音环境的声音环境信息，以作为所述边界信息，

所述声音处理装置还具有分类单元，该分类单元使用所述声音环境信息将所述场景变化点分类，并将分类结果的分类信息赋予所述场景变化点。

6.根据权利要求1所述的声音处理装置，其特征在于，

所述声音处理装置还具有根据所述优先度来计算阈值的阈值计算单元，

所述判定单元检测超过所述阈值的优先度的边界的时刻，作为所述场景变化点。

7.根据权利要求1所述的声音处理装置，其特征在于，

所述判定单元按照所述优先度从高到低的顺序检测规定数量的所述边界，作为所述场景变化点。

8.根据权利要求7所述的声音处理装置，其特征在于，

所述判定单元根据所述音频信号的长度来决定所述规定数量。

9.（修改后）根据权利要求1所述的声音处理装置，其特征在于，

所述边界计算单元针对所述音频信号的所有单位区间计算所述边界信息。

10.（修改后）根据权利要求1所述的声音处理装置，其特征在于，

将所述单位区间设为第2单位区间，所述第2单位区间由多个连续的第1单位区间构成，

所述声音处理装置还具有：

模型存储单元，预先存储表示多种音素的各个音素的特征的概率模型；以及

似然度向量生成单元，使用所述概率模型，按照每个所述第1单位区间生成似然度向量，该似然度向量以相对于所述音频信号的所述各个音素的似然度为成分，

所述区间特征使用所述第2单位区间中包含的多个第1单位区间的似然度向量而生成，所述区间特征是表示所述各个音素的出现频次的频次向量。

11.（修改后）根据权利要求10所述的声音处理装置，其特征在于，

所述声音处理装置还具有特征量向量生成单元，所述特征量向量生成单元计算表示音频信号的所述第1单位区间中的频率特性的特征量向量，

所述似然度向量生成单元使用所述特征量向量和所述概率模型来生成所述似然度向量。

12.（修改后）一种声音处理装置，其特征在于，该声音处理装置具有：

场景构造推定单元，从所述边界信息所表示的边界中，检测由所述音频信号表示的场景中所包含的第1场景的边界、和包含在该第1场景中的第2场景的边界，

13.（修改后）一种声音处理方法，其特征在于，该声音处理方法包括：

特征计算步骤，按照每个单位区间来计算表示所输入的音频信号的单位区间的特征的区间特征；

边界计算步骤，对于多个单位区间中的每个单位区间，计算与包括该单位区间在内的由区间特征相似的多个单位区间构成的相似区间和其它区间的边界相关的边界信息；以及

判定步骤，计算所述边界信息所表示的各个边界的优先度，根据所述优先度判定所述各个边界是否是场景变化点，

所述边界计算步骤中，计算所述相似区间的起始端的时刻或终止端的时刻中的至少一方，作为所述边界信息。

14.（修改后）一种程序，被记录在计算机可读的非临时性记录介质中，执行根据音频信号来检测场景变化点的场景变化点检测处理，其特征在于，所述场景变化点检测处理包括：

15.（修改后）一种集成电路，其特征在于，该集成电路具有：

特征计算部，按照每个单位区间来计算表示所输入的音频信号的单位区间的特征的区间特征；

边界计算部，对于多个单位区间中的每个单位区间，计算与包括该单位区间在内的由区间特征相似的多个单位区间构成的相似区间和其它区间的边界相关的边界信息；以及

判定部，计算所述边界信息所表示的各个边界的优先度，根据所述优先度判定所述各个边界是否是场景变化点，

所述边界计算部计算所述相似区间的起始端的时刻或终止端的时刻中的至少一方，作为所述边界信息。

16.（删除）

17.（删除）

Claims

1.一种声音处理装置，其特征在于，该声音处理装置具有：

边界计算单元，对于多个单位区间中的每个单位区间，计算与包括该单位区间在内的由区间特征相似的多个单位区间构成的相似区间、和其它区间的边界相关的边界信息；以及

判定单元，计算所述边界信息所表示的各个边界的优先度，根据所述优先度判定所述各个边界是否是场景变化点。

2.根据权利要求1所述的声音处理装置，其特征在于，

3.根据权利要求1所述的声音处理装置，其特征在于，

4.根据权利要求1所述的声音处理装置，其特征在于，

5.根据权利要求4所述的声音处理装置，其特征在于，

6.根据权利要求1所述的声音处理装置，其特征在于，

7.根据权利要求1所述的声音处理装置，其特征在于，

8.根据权利要求7所述的声音处理装置，其特征在于，

9.根据权利要求1所述的声音处理装置，其特征在于，

所述边界计算单元计算所述相似区间的起始端的时刻，作为所述边界信息。

10.根据权利要求1所述的声音处理装置，其特征在于，

所述边界计算单元计算所述相似区间的终止端的时刻，作为所述边界信息。

11.根据权利要求1所述的声音处理装置，其特征在于，

12.根据权利要求1所述的声音处理装置，其特征在于，

所述声音处理装置还具有：

13.根据权利要求12所述的声音处理装置，其特征在于，

14.一种声音处理装置，其特征在于，该声音处理装置具有：

场景构造推定单元，从所述边界信息所表示的边界中，检测由所述音频信号表示的场景中所包含的第1场景的边界、和包含在该第1场景中的第2场景的边界。

15.一种声音处理方法，其特征在于，该声音处理方法包括：

判定步骤，计算所述边界信息所表示的各个边界的优先度，根据所述优先度判定所述各个边界是否是场景变化点。

16.一种程序，被记录在计算机可读的非临时性记录介质中，执行根据音频信号来检测场景变化点的场景变化点检测处理，其特征在于，所述场景变化点检测处理包括：

17.一种集成电路，其特征在于，该集成电路具有：

判定部，计算所述边界信息所表示的各个边界的优先度，根据所述优先度判定所述各个边界是否是场景变化点。