CN102473409A

CN102473409A - 基准模型适应装置、集成电路、av设备、在线自适应方法以及其程序

Info

Publication number: CN102473409A
Application number: CN2011800024655A
Authority: CN
Inventors: 贾磊; 张丙奇; 沈海峰; 马龙; 小沼知浩
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2010-04-22
Filing date: 2011-04-19
Publication date: 2012-05-23
Anticipated expiration: 2031-04-19
Also published as: WO2011132410A1; CN102237084A; CN102473409B; US20120093327A1; JP5620474B2; JPWO2011132410A1

Abstract

本发明提供一种在利用AV流中的音频流来执行AV流的分类等的装置中，对执行该分类时所使用的声音空间基准模型进行在线自适应调节的装置以及其方法。该装置将所输入的音频流分割成具有相同声音特征的片段数据，并对所分割得到的片段数据的单一概率模型进行估计。其后，针对所估计的单一概率模型与到此为止所存储的其他的声音特征的单一概率模型执行聚类，来生成新的声音空间的基准模型。

Description

基准模型适应装置、集成电路、AV设备、在线自适应方法以及其程序

技术领域

本发明涉及一种声音空间的基准模型的在线自适应。

背景技术

近年来，DVD播放器、BD播放器等各种再生装置、摄像机等的录像装置等随着其记录容量的大容量化而记录有大量的视频内容。随着视频内容的大量化，在这些装置中，期望能够在不给用户造成负担的情况下实现易于对这些的视频内容进行分类。另外，这样的装置可生成分类(digest)视频以使得用户能简单识别各个视频内容的内容。

作为这样的分类或者分类视频的生成用的指标，有利用视频内容的音频流的情形。这是由于在视频内容与其音频流之间存在密切的关联性。例如，在小孩子相关的视频内容中，当然会包含有大量的小孩子的声音，在对海水浴等摄影得到的视频内容中，会包含有大量的海浪声音。由此，能够根据视频内容的声音特征对视频内容进行分类。

关于利用音频流对视频内容进行分类的方法，主要有以下三种方法。

第一种是预先存储基于具有某种特征的音声片段的声音模型，根据该模型与视频内容的音频流中所含的音声特征之间的关联性程度(似然)来对视频内容进行分类的方法。在此，概率模型是以诸如小孩子的笑声、波浪的声音、烟火的声音等各种特征音声为基础而得到的模型，在判断为包含有大量波浪声音的音频流的情况下，则将视频内容分类为海水浴的分类中。

第二种是在声音空间上确立基准模型(用于表现各种音声的模型)，其后，生成将视频内容的音频流的音声信息向该声音空间进行投影所得到的模型。其后，通过对投影所得到的模型与所确立的各基准模型之间的距离进行计算来进行视频内容的分类的方法。

第三种是在第二种的方法中，不对投影所得到的模型与所确立的各基准模型之间的距离进行计算，而是利用诸如KL的距离或者散度距离的方法。

无论是上述哪种方法的情况下，为了执行分类都需要使用声音模型(基准模型：anchor model)，为了生成该声音模型而需要预先收集一定程度数量的训练用的视频内容。这是由于要利用所收集的视频内容的音频流来进行训练。

对于声音模型的确立具有以下两种方法，即，第1种方法，用户预先收集某种程度相似的若干个音声，由此来生成相似音声的高斯模型(GMM：Gaussian Mixture Model)；第2种方法，装置从无区分地收集的音声中选出若干个恰当的音声，来生成在声音空间中的基准模型。

关于第1种方法，其已经应用于语音识别或者图像识别等中，可例举出通过该方法而已经获得成功的大量示例。根据第1种方法来生成高斯模型的情况下，针对模型确立所需的音声或视频的种类，利用最大似然法(MLE：Maximum Likelihood Estimation)来对模型的参数进行估计。训练后的声音模型(高斯模型)要求忽视次要特征，并要求能够精确地描述模型确立时所需的音声、视频的种类的特征。

第2种方法中，期望所生成的基准模型能够表现更广的声音空间。该情况下的模型参数估计采用K-means法的聚类、LBG法(Linde-Buzo-Grayalgorithm)，或者EM法(Estimation Maximization algorithm)。

专利文献1中揭示了利用上述方法中的第一种方法来提取动图像中的精彩场面的方法。专利文献1中揭示了利用拍手声、喝彩声、打球声、音乐等的声音模型来对动图像进行分类，由此来提取精彩场面。

专利文献1：JP特开2004-258659号公报

但是，在上述那样地对视频内容进行分类时，会遇到不能取得要分类的视频内容的音频流与所存储的基准模型之间的匹配的问题。也就是说，利用原来所存储的基准模型，不能严格地对要进行分类的对象视频内容的音频流的类别进行确定，或者说，不能恰当地进行分类。这样的不匹配会导致系统性能低下、可靠性低下，所以不为优选。

因此，则需要有基于实际所输入的音频流对基准模型进行调整的技术。在本领域中，有一种被称为“在线自适应法”的对该基准模型进行调整的技术。

但是，现有的在线自适应法虽是利用基于最大似然法的MAP(Maximum-A-Posteriory estimation method)和MLLR(MaximumLikelihood Linear Regression)算法，对于以基准模型所表现的声音空间模型进行自适应，但该方法对该声音空间外的音声存在总不能恰当地进行评价或者到可评价为止需要较长时间等的问题。

对该问题进行具体说明。假设存在有某种程度长度的音频流，且其中稍微包含有具有某种特征的音声。并且，假设在所预先准备的某个声音模型中不存在能对具有该某种特征的音声进行评价的信息。这样，为了对具有该某种特征的音声进行正确评价，则需要对声音模型进行自适应。但是，最大似然法的情况下，且这样的具有某种特征的音声相对于具有该某种程度的长度的音频流的比例处于较低(长度较短)的情况下，向声音模型的映射率将成为极端的小。具体而言，例如在具有1小时长度的视频内容中恰好有30秒程度的小孩子哭声，当不存在与某种哭声相对应的基准模型的情况下，由于该哭声相对于视频内容的长度较短，即使进行基准模型的自适应，向基准模型的映射率也较低，即使接下来再对哭声进行评价也不能恰当地进行评价。

发明内容

本发明是鉴于上述课题而开发的，目的在于提供一种对声音空间的基准模型较现有技术能更恰当地执行在线自适应的基准模型适应装置、基准模型适应方法以及其程序。

为解决上述课题，本发明所涉及的基准模型适应装置的特征在于具备：存储单元，其存储有多个基准模型，该基准模型是基于具有单一声音特征的音声所生成的多个概率模型的集合；输入单元，其受理音频流的输入；分割单元，其将所述音频流分割成被估计为具有单一声音特征的片段数据；估计单元，其对每个所述片段数据的概率模型进行估计；以及聚类单元，其针对用于表示所述存储单元中存储的多个基准模型的每一个的多个概率模型与所述估计单元所估计的概率模型进行聚类，来生成新的基准模型。

另外，本发明所涉及的在线自适应方法用于在基准模型适应装置中进行基准模型的在线自适应，所述基准模型适应装置具有存储单元，该存储单元存储有多个基准模型，该基准模型是基于具有单一声音特征的音声所生成的多个概率模型的集合，所述在线自适应方法的特征在于包括：输入步骤，受理音频流的输入；分割步骤，将所述音频流分割成被估计为具有单一声音特征的片段数据；估计步骤，对每个所述片段数据的概率模型进行估计；以及聚类步骤，对用于表示所述存储单元中存储的多个基准模型的每一个的多个概率模型与所述估计步骤中所估计的概率模型进行聚类，来生成新的基准模型。

在此，“在线自适应”是指，根据所输入的音频流，对用于表现某种声音特征的基准模型，为了进行更恰当地表现声音空间而对基准模型进行适应(补正以及生成)，本说明书中，“在线自适应”的用语是表示该意思。

另外，本发明所涉及的集成电路其特征在于具备：存储单元，其存储有多个基准模型，该基准模型是基于具有单一声音特征的音声所生成的多个概率模型的集合；输入单元，其受理音频流的输入；分割单元，其将所述音频流分割成被估计为具有单一声音特征的片段数据；估计单元，其对每个所述片段数据的概率模型进行估计；以及聚类单元，其对用于表示所述存储单元中存储的多个基准模型的每一个的多个概率模型与所述估计单元所估计的概率模型进行聚类，来生成新的基准模型。

另外，本发明所涉及的AV(Audio Video)设备的特征在于具备：存储单元，其存储有多个基准模型，该基准模型是基于具有单一声音特征的音声所生成的多个概率模型的集合；输入单元，其受理音频流的输入；分割单元，其将所述音频流分割成被估计为具有单一声音特征的片段数据；估计单元，其对每个所述片段数据的概率模型进行估计；以及聚类单元，其对用于表示所述存储单元中存储的多个基准模型的每一个的多个概率模型与所述估计单元所估计的概率模型进行聚类，来生成新的基准模型。

另外，本发明所涉及的在线自适应程序表示使计算机执行基准模型的在线自适应的处理顺序，所述计算机具备存储器，该存储器存储有多个基准模型，该基准模型是基于具有单一声音特征的音声所生成的多个概率模型的集合，所述在线自适应程序的特征在于，所述处理顺序包括：输入步骤，受理音频流的输入；分割步骤，将所述音频流分割成被估计为具有单一声音特征的片段数据；估计步骤，对每个所述片段数据的概率模型进行估计；以及聚类步骤，对用于表示所述存储单元中存储的多个基准模型的每一个的多个概率模型与所述估计步骤中所估计的概率模型进行聚类，来生成新的基准模型。

(发明的效果)

根据上述构成，基准模型适应装置，能够由原本就有的基准模型与基于所输入的音频流所生成的概率模型来生成新的基准模型。即，不仅仅对原本就有的基准模型进行补正，还新生成与所输入的音频流相应的基准模型。因此，基准模型适应装置，能够生成可以覆盖基准模型适应装置所装配的各种视频设备音声设备等的与用户的喜好相应的声音空间的基准模型。所以，通过利用由基准模型适应装置生成的基准模型，例如，能够根据用户各自的喜好来恰当地对所输入的视频数据进行分类。

附图说明

图1是表示由基准模型所表现的声音空间模型的示意图。

图2是表示基准模型适应装置的功能构成例的框图。

图3是表示基准模型的自适应的整个流程的流程图。

图4是表示新的基准模型的生成动作的具体示例的流程图。

图5是对声音空间模型增加新的高斯模型的情况下的示意图。

图6是表示利用本发明的基准模型适应方法所生成的基准模型来表现的声音空间模型的示意图。

图中：

100基准模型适应装置

11特征提取单元

12映射单元

13AV聚类单元

14分割单元

15模型估计单元

16基于训练数据的模型集合

17基于测试数据的模型集合

18模型聚类单元

19调节单元

20基准模型集合

21存储单元

具体实施方式

(实施方式)

以下，利用附图对本发明的一实施方式的基准模型适应装置进行说明。

本发明的实施例中采用声音空间的基准模型。声音空间的基准模型的种类很多，但是其核心思想是利用某种模型对声音空间进行全面的覆盖，从而表现为组成类似于坐标系的一个空间坐标系统。任何两段声音特征不同的音频文件将被映射到这个坐标系中的不同的两个不同的点。

图1示出了根据本发明实施例的声音空间的基准模型的示例。对于AV节目的声音空间而言，例如用多个并行的高斯模型来描述声音空间中的各个点的声音特征。

根据本发明的实施例，AV流是音频流、或者是包含了音频流的视频流。

图1是其示意图。以图1的四边框为声音空间，其中的每一个圆点是具有相同的声音特征的聚类(部分集合)。各聚类内所示的点表示一个高斯模型。

如图1所示，具有相似特征的高斯模型在声音空间上也以相似的位置所表示，这些的集合是一个聚类，即，形成基准模型。本实施例中采用基于UBM(Universal background model)的声音基准模型。UBM模型是许多单个高斯模型的集合，可利用下述式(1)来进行表现：

{N(μ_i，σ_i)|N≥i≥1}， ......(1)

在此，μ_i，σ_i分别表示第i个高斯模型的平均值和第i个高斯模型的方差。各高斯模型都是对其平均值附近的声音空间的片段区域即子区域的描述，这些表现子区域的高斯模型组合在一起形成一个UBM模型。UBM模型是对整个声音空间的具体描述。

图2是表示基准模型适应装置100的功能构成的功能框图。

如图2所示，基准模型适应装置100具有输入单元10、特征提取单元11、映射单元12、AV聚类单元13、分割单元14、模型估计单元15、模型聚类单元18、以及调节单元19。

输入单元10受理视频内容的音频流的输入，并具有对特征提取单元11进行传送的功能。

特征提取单元11具有将从输入单元10中传送来的音频流中提取其特征量的功能。另外，特征提取单元11还具有将所提取的特征量传送至映射单元12的功能、与传送至分割单元14的功能。特征提取单元11按照规定时间(例如，10msec等，极短的时间)为单位，对所输入的音频流进行音频流特征的确定。

映射单元12具有基于特征提取单元11所传送来的特征量，将音频流的特征量映射至声音空间模型上的功能。在此，所谓的映射是指，计算当前音频段中的每一帧特征的到声音空间的基准模型的后验概率(posterioriprobability)，然后将计算出的各帧的后验概率的分别加起来除以在计算中利用的帧的总数。

AV聚类单元13具有下述功能，即，根据由映射单元12所映射的特征量与预先在基准模型集合20中存储的基准模型来执行聚类，对所输入的音频流的分类进行确定并输出所确定的分类。AV聚类单元13采用任意的聚类算法，基于相邻的音频段之间的距离进行该聚类。根据本发明的一个实施例，采用基于自下向上的逐步合并的方法进行聚类。

在此，两个音频段之间的距离，是通过对声音空间的基准模型的映射和声音空间的基准模型计算出来的。这里，能够利用所保持的在所有基准模型中所含的所有高斯模型，形成由用于表现各音频段的概率模型的高斯模型所组成的一个高斯模型组群，每个音频段，通过在声音空间的基准模型上映射，组成这个高斯模型组群的权重。这样，音频段之间的距离就被定义成这两个加权高斯模型群组的距离。最经常采用的距离就是所谓的KL(Kullback-Leibler)距离，利用该KL距离来算出这两个音频段之间的距离。

另外，该聚类方法中，如果声音空间基准模型能够完整覆盖整个声音空间，那么，通过计算出任何两个音频段相互之间的距离，则可以对基准模型集合20中所保持、且用于表现声音空间的基准模型，对音频段进行映射。不过，实际上，基准模型集合20中所保持的基准模型并不限于能覆盖整个声音空间的情形。因此，本实施方式所示的基准模型适应装置100，以能够对所输入的音频流为进行恰当表现的方式，实施基准模型的在线自适应调节。

分割单元14具有下述功能，即，基于特征提取单元11所传送来的特征量，将特征提取单元11中所被输入的音频流在时间轴方向上连续地分割为被估计为具有相同特征的音频段。分割单元14使分割的音频段与其特征量相关联对应，并传送给模型估计单元15。另外，通过分割所得到的各音频段的时间长可以为相互不同的长度。另外，通过分割单元15所分割而生成的各个音频段分别具有单一声音特征，可以将这种具备单一声音特征的音频段理解成一个声音事件(例如，烟火的声音、人的说话声、小孩子的哭声、运动会的声音等)。

分割单元14针对所输入的音频流，以预先所确定的规定长(例如，100msec)的滑动窗而随时地沿着时间轴进行滑动，检测出声音特征较大变化的点，并将该点作为声音特征的变化点，而将连续的音频流分割成片段数据。

分割单元14是在时间轴方向上，按照一定步长(时间宽)进行滑动，对利用具有一定窗长(例如，100msec)的滑动窗对音频特征发生较大变化的点进行检测来进行连续音频流的分割。每次滑动时，滑动窗的中间点都是一个分割点。在此，定义分割点的分割散度如下：O_i+1，O_i+2，…O_i+T代表窗长为T的滑动窗内的语音特征数据，i是当前的滑动窗的起始点。数据O_i+1，O_i+2，…O_i+T的方差为∑，数据O_i+1，O_i+2，…O_i+T/2的方差为∑₁，数据O_i+T/2+1，O_i+T/2+2，…O_i+T的方差为∑₂，则分割点(滑动窗的中间点)的分割散度定义为：

分割散度＝log(∑)-(log(∑₁)+log(∑₂)) ......(2)

分割散度越大，说明该滑动窗中所含的数据中的左右两端的数据的声音特征的影响就越大，则滑动窗的左右所存在的音频流的声音特征为相互不同的可能性较高，从而成为分割点的候补。分割单元14最后挑选分割散度比预定的规定值大的分割点，将连续音频数据分割成声音特征单一的音频段。

模型估计单元15具有下述功能，即，利用从分割单元14中传送来的音频段与其特征量来估计该音频段的一个高斯模型的功能。模型估计单元15还具有下述功能，即，对各音频段的高斯模型进行估计，并将所估计的高斯模型的每个被包含于基于测试数据的模型集合17中，并将其存储于存储单元21的功能。

详细说明通过模型估计单元15进行的高斯模型估计。

在通过分割单元14得到音频段后，模型估计单元15对各音频段进行单高斯模型的估计。在此，假设一个声音特征单一的音频段的数据帧的定义为O_t，O_t+1，…O_t+len，这时，则所定义的O_t，O_t+1，…O_t+len相对应的单高斯模型的平均值参数和方差参数被估计如下：

μ = Σ_{k = t}^{t + len} O_{k} . . . . . . (3)

Σ = Σ_{k = t}^{t + len} \frac{(O_{k} - μ)}{len} . . . . . . (4)

通过式(3)以及式(4)所示的平均值参数与方差参数来表现单高斯模型。

模型聚类单元18具有下述功能，即，利用任意的聚类算法，针对基于存储单元21中的基于训练数据的模型集合16与基于测试数据的模型集合17来执行聚类的功能。

以下，对模型聚类单元18所执行的聚类进行具体说明。

调节单元19具有对模型聚类单元18执行聚类而生成的基准模型进行调节的功能。另外，在此所说的调节是指，直到成为预定的基准模型的数量为止，进行基准模型的分割。调节单元19还具有将调节后的基准模型作为基准模型集合20而存储于存储单元21的功能。

存储单元21具有对基准模型适应装置100进行动作时所需的数据进行存储的功能，可由包含ROM(Read Only Memory)或RAM(RandomAccess Memory)来构成，例如，可通过HDD(Hard Disc Drive)等来实现。存储单元21存储有基于训练数据的模型集合16、基于测试数据的模型集合17、基准模型集合20。另外，基于训练数据的模型集合16是与基准模型集合20相同，进行在线自适应的情况下，其是通过基准模型集合20而被更新。

(动作)

其次，利用图3以及图4所示的流程图来对本实施方式的动作进行说明。

作为基准模型适应装置100中的在线自适应调节的方法，利用图3的流程图，对模型聚类单元18所执行的在线自适应调节方法进行说明。

模型聚类单元18基于树分裂的自上向下的方法来实现单高斯模型的快速聚类。

在步骤S11，设定通过在线自适应调节所应生成的声音空间的基准模型的大小(数量)，比如设定为512个。该个数是预先确定的。设定声音空间的基准模型的大小也就意味着确定了要将所有的单高斯模型聚成多少个分类。

在步骤S12中，确定各单高斯模型分类的模型中心。在此，初始时候只有一个模型分类，所以，所有的单高斯模型都属于这一分类。另外，在存在有多个模型分类的状态下，各单高斯模型属于任意一个模型分类。在此，当前的模型分类集合可用以下的式(5)所示那样进行表现。

{ω_iN(μ_i，∑_i)|1≤i≤N} ......(5)

在式(5)中，ω_i为单高斯模型分类的权重。另外，单高斯模型分类的权重ω_i是根据各单高斯模型所表现的音声事件的重要度而预先设定。这时，按照如下述式(6)以及式(7)所示那样来计算出通过上述式(5)所表现的模型分类的中心。单高斯模型由平均值与方差的参数来表现，而导出以下的2个式。

μ_{center} = \frac{Σ_{i = 1}^{N} ω_{i} μ_{i}}{Σ_{i = 1}^{N} ω_{i}} . . . . . . (6)

Σ_{center} = \frac{Σ_{i = 1}^{N} ω_{i} Σ_{i}}{Σ_{i = 1}^{N} ω_{i}} + \frac{Σ_{i = 1}^{N} ω_{i} (μ_{i} - μ_{center}) (μ_{i} - μ_{center})}{Σ_{i = 1}^{N} ω_{i}} . . . . . . (7)

在步骤S13中，利用上述式，选择散度最大的模型分类，并使所选择的该模型分类的中心分裂为两个中心。在此，“分裂为两个中心”是指，由一个模型分类的中心而生成用于生成新的两个模型分类的两个中心。

通过将模型分类的中心分裂为两个中心时，首先，定义两个高斯模型的距离。在此，KL的距离被视为高斯模型f与高斯模型g之间的距离，以下述式(8)来表现。

KLD (f | g) = 0.5 {\log | \frac{Σ_{g}}{Σ_{f}} | + Tr (Σ_{g}^{- 1} Σ_{f}) + (μ_{f} - μ_{g}) Σ_{g}^{- 1} {(μ_{f} - μ_{g})}^{T}} . . . . . . (8)

在此，当前的模型分类以下述式(9)来表现。

{ω_iN(μ_i，∑_i)|1≤i≤N_curClass} ......(9)

在上述式(9)中，N_curclass意味着当前的模型分类的数量。这时，该当前的模型分类的散度被定义为如下述式(10)。

Div = \frac{Σ_{i = 1}^{N_{curClass}} ω_{i} \times KLD (center, i)}{Σ_{i = 1}^{N_{curClass}} ω_{i}} . . . . . . (10)

对于当前所存在的所有模型分类，即对于模型分类的分割过程中在该处理阶段中所存在的所有模型分类都计算他们各自的散度。在计算出的散度中，检测出散度值最大的模型分类。在保持方差和权重不变的条件下，将这个模型分类的中心即一个模型分类的中心分裂成两个模型分类的中心，具体而言，如下述式(11)所示那样地来计算出新的两个模型分类的中心。

μ₁＝μ_center+0.001×μ_center

μ₂＝μ_center-0.001×μ_center ......(11)

在步骤S14中，对进行了扰动分裂的模型分类，进行利用了基于高斯模型的Kmeans法的高斯模型聚类。作为用于计算距离的算法，采用上面提到的KL距离，每个分类的模型更新采用步骤S12中的模型中心更新计算公式(参照式11)。等到基于Kmeans法的高斯模型聚类过程收敛后，一个模型分类就会被分裂成两个模型分类，相应地，也就有了两个模型中心。

在步骤S15中，判断当前的模型分类的数量是否达到预先设定的声音空间的基准模型的大小(数量)。在此，如果没有达到预先设定的声音空间的基准模型大小(数量)，则回到步骤S13，在已达到的情况下，则终止这个过程。

在步骤S16中，所有模型分类的高斯中心会被取出来组合在一起，形成一个由多个平行的高斯模型组成的UBM模型。该UBM模型被称为新的声音空间的基准模型。

由于当前的声音空间的基准模型是通过自适应而生成的，所以，它和以前使用的声音空间的基准模型是有所差别的。因此，通过一定的平滑化调节和处理来确立两个基准模型之间的关系，同时增加基准模型的鲁棒性(robustness)。“平滑化调节”是指，例如，进行对散度小于规定阈值的单高斯模型的合并。另外，合并是指，将散度小于规定阈值的单高斯模型组合成一个模型。

图4是表示本发明的实施例所涉及的针对声音空间的基准模型的在线自适应调节的方法与进行音频的聚类的方法的流程图。另外，在此也表示了：基准模型适应装置100的出厂时，应预先存储的基于训练数据的模型集合16的初始时的生成过程。

如图4所示，左侧的步骤S31-S34是描述利用训练视频数据集来产生基于训练数据的单高斯模型的过程。

在步骤S31，基准模型装置100的输入单元10中被输入训练用的视频数据。在步骤S32，特征提取单元11提取所输入的音频流中的特征，例如梅尔倒谱等的特征。

在步骤S33，分割单元14受理经过特征提取的连续音频流的输入时，利用上述分割方法，将该音频流分割成多个音频段(片段数据)。

在步骤S34，在得到音频段后，由模型估计单元15利用上述方法针对每个音频段进行单高斯模型估计。基于训练数据的模型集合16中存储了事先基于训练数据而生成的高斯模型。

如图4所示，中间的部分所示的步骤S41-43描述了：利用用户提交的测试视频数据来对基准模型进行自适应调整的过程。

在步骤S41，特征提取单元11从用户提交的测试视频数据中提取其特征，分割单元14在特征提取后进行分割处理，分割成具有单一声音特征的音频段。

在步骤S42，在得到音频段后，模型估计单元15针对每个音频段进行单高斯模型估计。存储单元21中的基于训练数据的模型集合16中存储了事先基于训练数据而生成的高斯模型。由此，生成一个由许多单高斯模型构成的单高斯模型集合。

在步骤S43，模型聚类单元18按照如图3所示的方法对单高斯模型集合进行快速聚类。由此，模型聚类单元18进行声音空间的基准模型的自适应更新或者调整来生成新的声音空间的基准模型。根据本发明的实施例，模型聚类单元18基于上下(TOP-DOWN)树分裂的聚类方法来实现单高斯模型的快速聚类。

如图4所示，右侧的步骤S51-S55描述了基于自适应调整后的基准模型进行在线聚类的过程。

在步骤S51，将用户提交AV视频数据作为测试用视频数据集。然后，在步骤S52，分割单元14将音频流分割成多个音频段，每个音频段具备单一的声音特性。在此，可以将基于测试用视频数据集所生成的音频段称为测试音频段。

在步骤S53，映射单元12计算每个测试声音频段到声音空间的基准模型上的映射。如上所述，通常用的映射就是计算当前的音频段中的每一帧特征的到声音空间的基准模型的后验概率(posteriori probability)，然后通过把这些后验概率加起来除以特征帧的总数来进行计算。

在步骤S54，AV聚类单元13采用任意的聚类算法，基于音频段之间的距离来进行音频段的聚类。根据本发明的一个实施例，采用基于上下(TOP-DOWN)树分裂的聚类方法进行聚类。

在步骤S55，AV聚类单元13输出分类，供用户对音频流或者对成为其基础的视频数据添加标签或者进行其他操作。

通过执行以上所述的在线自适应调节，基准模型适应装置100生成能对所输入的音频流进行恰当分类的声音空间的基准模型，并利用该基准模型进行分类。

(基准模型的更新例)

对于通过该动作，由本发明的基准模型适应装置所进行适应并更新的基准模型来表现的声音空间模型的状况进行说明。

假设，由训练数据的基准模型所表现的声音空间模型为图1所示的情形。其次，对图1所示的情形追加基于测试数据的高斯模型，如图5所示地表现所追加后的声音空间模型。

图5中，将通过基准模型适应装置对从动图像中所提取的音频流进行分割，所分割的片段数据的高斯模型分别以“×”标记来表现。该“×”标记所表现的高斯模型是基于测试数据的高斯模型集合。

本实施方式所涉及的基准模型适应装置在进行基准模型的自适应时，基于原本就有的基准模型所含的高斯模型群(图5中“○”所示的基准模型分别所含的高斯模型群)以及由测试数据所生成的高斯模型群(图5中“×”所示的高斯模型)，利用上述实施方式所示的方法来生成新的基准模型。

结果，在通过本实施方式所涉及的基准模型适应装置进行基准模型的自适应的情况下，如图6的示意图所示，利用新的基准模型，能覆盖更广的声音空间模型。对图1与图6进行比较可知，通过图6所示的基准模型能够对通过图1所示的基准模型所未能表现的部分进行更为恰当的表现。例如，在声音空间模型中，通过图6的基准模型601能够覆盖的范围变广。另外，在此，虽然描述了训练数据的基准模型与在线自适应后的基准模型的个数为相同的情况，假设通过在线自适应所应生成的基准模型的个数比训练数据的基准模型的个数多的情况下，自然最终的基准模型的个数将会增加。

因此，根据本实施方式所示的基准模型适应装置100，较之于现有技术的情形，能够提高对所输入的音频流的适应性，因此，能够提供与各个用户相对应的基准模型。

(总结)

本发明所涉及的基准模型适应装置，利用所输入的音频流，将所存储的基准模型更新为能够由表现所输入的音频流的高斯概率模型来描述的、可覆盖整个声音空间的基准模型。由于基准模型是根据所输入的音频流的声音特征来新生成的，所以，根据所输入的音频流的类别不同而生成不同的基准模型。因此，通过将基准模型适应装置搭载于家庭用的AV设备等，从而能够执行与各用户相应的运动图像的分类。

(补充1)

通过上述实施方式对本发明进行了说明，不用说，本发明并仅限于上述实施方式。以下，对上述实施方式以外的包含在本发明的技术思想内的各种变形例进行说明。

(1)上述实施方式中，基准模型适应装置基于预先存储的基准模型和从所输入的音频流中生成的高斯模型，来生成新的基准模型。但是，基准模型适应装置在初始状态下也可以没有预先存储基准模型。

该情况下，通过使基准模型适应装置与存储有某种程度个数的运动图像的记录介质等进行连接并传送给基准模型适应装置，这样，基准模型适应装置取得一定数量的动图像，对其动图像的音声进行解析来生成概率模型并执行聚类，从零开始来制作基准模型。这时，各基准模型适应装置直到基准模型的生成后，不进行运动图像的分类，而是完全生成对各用户定制的基准模型后进行分类。

(2)上述实施方式中，作为概率模型的一方式，以高斯模型为例进行了说明。但是，该模型只要是能表现后验概率模型即可，并不一定必须为高斯模型，例如，也可以是指数分布概率模型。

(3)上述实施方式中，特征提取单元11所确定的声音特征是以10msec为单位来进行确定。但是，特征提取单元11提取声音特征的规定时间只要是可对声音特征为某种程度相似进行估计的期间即可，并不必须是10msec，也可以是比10msec更长的时间(例如，15msec)，相反也可以是比10msec更短的时间(例如，5msec)。

另外，相同地，分割单元14在分割时所利用的滑动窗的规定长也并不仅限于100msec，只要是能够检测出分割点的充分长度即可，由此，可长可短。

(4)上述实施方式中，作为表现声音特征而使用了梅尔倒谱，但只要是能够表现声音特征即可，并不仅限于梅尔倒谱，也可以是LPCMC，或者，作为表现声音特征的方法也可以不使用梅尔倒谱法。

(5)上述实施方式中，AV聚类单元直到生成作为规定数量的512个的基准模型为止，重复进行分裂。但是，本发明并不仅限于512个的数量。为了表现更广的声音空间，其数量也可以为更多的1024个等的情况，相反，由于对基准模型进行存储的记录区域的容量限制，也可以是128个等的情况。

(6)通过在各种AV设备，尤其是可再生动图像的AV设备中搭载上述实施方式所示的基准模型适应装置，或者，通过搭载可实现与上述基准模型适应装置同等的功能的电路，则可提高其有用性。作为AV设备，例如有，搭载有用于记录动图像的硬盘的电视、DVD播放器、BD播放器、数码摄像机等各种记录再生装置。在其为这些记录再生装置的情况下，上述存储单元则相当于设备中所搭载的硬盘等的记录介质。另外，作为该情况下所输入的音频流，例如有接收电视广播波所得到的运动图像、DVD等的记录介质中所记录的运动图像、或者通过与设备进行的USB电缆等有线连接或者无线连接所取得的运动图像等。

尤其是，对于用户利用摄像机等所拍摄得到的动图像中所含有的音声，由于是根据按照用户喜好所摄影的视频，所以，按照用户的不同所生成的基准模型是相互不同的模型。另外，通过对具有相似喜好，也就是说，拍摄相似视频的用户彼此间的AV设备搭载的基准模型适应装置，由此所生成的基准模型将成为相似的基准模型。

(7)在此，上述实施方式中，关于自适应的基准模型的利用方式进行简单说明。

作为基准模型的利用方式，如上述课题中所说明的那样，是用于对所输入的动图像的分类。

或者，在某个动图像中，对于用户感兴趣的某个时刻，将包含该时刻，且将该时刻的基准模型与在某个阈值的范围内具有相同声音特征而被估计的区间作为用户的兴趣区间进行确定时而利用。

另外，除此之外，还可利用于提取动图像中用户表示兴趣而被估计的期间。具体来说，对用户所指定的、或者从用户频繁视听的运动图像等中所确定的用户喜好的运动图像中所包含的音声进行确定，并从存储有声音特征的基准模型中将其确定。其后，从运动图像中，提取推定为与所确定的声音特征在某种程度以上一致的期间，将其作为制作精彩场面动图像来使用。

(8)上述实施方式中，对开始进行在线自适应的定时并不特别限定，其可以按照每次输入基于新视频数据的音频流时进行，也可以在基于测试数据的模型集合17中所含的高斯模型达到规定数量(例如，1000个)时来执行。或者，也可以为：基准模型适应装置具备用于受理来自用户的输入的界面的情况下，当接收到来自用户的指示时执行。

(9)上述实施方式中，调节单元19对通过模型聚类单元18所聚类得到的基准模型进行调节，作为基准模型集合20而存储于存储单元21。

但是，在基准模型的调节为不必要的情况下，无需设置调节单元19，该情况下，模型聚类单元18所生成的基准模型直接存储于存储单元21中即可。

或者，也可以构成为：模型聚类单元18具有调节单元19所保持的调节功能。

(10)上述实施方式所示的基准模型适应装置的各功能部(例如，分割单元14、AV聚类单元18等)，可通过专用电路来实现，也可以使各个功能通过计算机执行软件程序来实现。

另外，基准模型适应装置的各功能部可通过1个或者多个集成电路来实现。该集成电路也可通过半导体集成电路来实现，该半导体集成电路基于集成度的差异而分别被称为IC(Integrated Circuit)，LSI(Large ScaleIntegration)，SLSI(Super Large Scale Integration)等。

(11)关于使PC、AV设备等的处理器以及该处理器所连接的各种电路来执行上述实施方式中所示的与聚类相关的动作、基准模型的生成处理等(参照图4等)的程序代码，由该程序代码所构成的控制程序可记录于记录介质，或者也可借助于各种通信路径等通过流通来发布获得。对于这样的记录介质，例如有IC卡、硬盘、光盘、软盘、ROM等。流通发布的控制程序可由处理器读出，并通过存储于存储器等中，以供利用，该处理器通过执行该控制程序，来实现在实施方式中所示那样的各种功能。

(补充2)

以下，对本发明所涉及的一实施方式以及其效果进行说明。

(a)本发明的一实施方式所涉及的基准模型适应装置具备：存储单元(21)，其存储有多个基准模型(16或者20)，该基准模型是基于具有单一声音特征的音声所生成的多个概率模型的集合；输入单元(10)，其受理音频流的输入；分割单元(14)，其将所述音频流分割成被估计为具有单一声音特征的片段数据；估计单元(15)，其对每个所述片段数据的概率模型进行估计；以及聚类单元(18)，其对用于表示所述存储单元中存储的多个基准模型的每一个的多个概率模型、与所述估计单元所估计的概率模型(17)进行聚类，来生成新的基准模型。

另外，本发明的一实施方式所涉及的在线自适应方法，是一种在基准模型适应装置中的基准模型的在线自适应方法，所述基准模型适应装置具有存储单元，该存储单元存储有多个基准模型，该基准模型是基于具有单一声音特征的音声所生成的多个概率模型的集合，所述在线自适应方法的特征在于包括：输入步骤，受理音频流的输入；分割步骤，将所述音频流分割成被估计为具有单一声音特征的片段数据；估计步骤，对每个所述片段数据的概率模型进行估计；以及聚类步骤，对用于表示所述存储单元中存储的多个基准模型的每一个的多个概率模型、与所述估计步骤中所估计的概率模型进行聚类来生成新的基准模型。

另外，本发明的一实施方式所涉及的集成电路的特征在于具备：存储单元，其存储有多个基准模型，该基准模型是基于具有单一声音特征的音声所生成的多个概率模型的集合；输入单元，其受理音频流的输入；分割单元，其将所述音频流分割成被估计为具有单一声音特征的片段数据；估计单元，其对每个所述片段数据的概率模型进行估计；以及聚类单元，其对用于表示所述存储单元中存储的多个基准模型的每一个的多个概率模型、与所述估计单元所估计的概率模型进行聚类，来生成新的基准模型。

另外，本发明的一实施方式所涉及的AV(Audio Video)设备的特征在于具备：存储单元，其存储有多个基准模型，该基准模型是基于具有单一声音特征的音声所生成的多个概率模型的集合；输入单元，其受理音频流的输入；分割单元，其将所述音频流分割成被估计为具有单一声音特征的片段数据；估计单元，其对每个所述片段数据的概率模型进行估计；以及聚类单元，其对用于表示所述存储单元中存储的多个基准模型的每一个的多个概率模型、与所述估计单元所估计的概率模型进行聚类，来生成新的基准模型。

另外，本发明的一实施方式所涉及的在线自适应程序表示使计算机执行基准模型的在线自适应的处理顺序，所述计算机具备存储器，该存储器存储有多个基准模型，该基准模型是基于具有单一声音特征的音声所生成的多个概率模型的集合，所述在线自适应程序的特征在于，所述处理顺序包括：输入步骤，受理音频流的输入；分割步骤，将所述音频流分割成被估计为具有单一声音特征的片段数据；估计步骤，对每个所述片段数据的概率模型进行估计；以及聚类步骤，对用于表示所述存储单元中存储的多个基准模型的每一个的多个概率模型、与所述估计步骤中所估计的概率模型进行聚类，来生成新的基准模型。

根据这些构成，基于所输入的音频流，能够生成新的基准模型，所以，能够基于用户对所视听视频的喜好来生成基准模型。因此，能够实现一种用于生成可覆盖对各用户而言恰当的声音空间的基准模型的在线自适应调节。由此，能够避免下述状态，即基于所输入的音频流对视频数据进行分类时而不能分类，或者，利用所保持的基准模型而不能恰当地进行表现的这些状态。

(b)在上述(a)所示的基准模型适应装置中，所述聚类单元可利用树分裂方法，直到所生成的多个基准模型的数量成为预定的规定数量为止进行生成，并将生成的规定数量的基准模型作为新的基准模型而存储于所述存储单元。

由此，基准模型适应装置能够生成所预定的规定数量的基准模型。通过将该预定的规定数量设定为估计足以表现声音空间的个数来执行在线自适应，能够根据所输入的音频流，利用在表现该音频流时所必要的基准模型而充分地覆盖声音空间。

(c)在上述(a)所示的基准模型适应装置中，所述树分裂方法可以为：基于散度距离最大的模型分类的中心，生成新的两个模型中心，并使所述散度距离最大的模型分类，生成为以所述两个模型中心的各自为中心的新的模型分类，直到成为所述规定数量为止进行重复实施分裂所生成的模型分类来生成基准模型。

由此，基准模型适应装置能够对原本就已有的基准模型所含的概率模型与源于所输入的音频流所生成的概率模型进行恰当分类。

(d)在上述(a)所示的基准模型适应装置中，也可以构成为：所述聚类单元，在执行所述聚类时，将散度相对于所述存储单元所存储的基准模型的任意一个小于规定阈值的概率模型，与该散度最小的基准模型进行合并。

由此，概率模型的数量如果极多的情况下，能够执行减少其数量的基础上的聚类。因此，通过减少基于音频流所生成的概率模型的数量，能够减少用于聚类的运算量。

(e)在上述(a)所示的基准模型适应装置中，所述概率模型可以为高斯概率模型或者指数分布概率模型。

由此，本发明所涉及的基准模型适应装置，作为表现声音特征的方法，一般使用高斯概率模型，或者，也能够使用指数分布概率模型，可提高通用性。

(f)在上述(a)所示的AV设备中，也可以构成为：所述输入单元所受理的音频流是从视频数据中所提取的音频流，所述AV设备还具有：分类单元(AV聚类单元13)，该分类单元利用所述存储单元中所存储的基准模型，对所述音频流的类别进行分类。

由此，AV设备能够对基于所输入的视频数据的音频流进行分类。该分类中所利用的基准模型，由于根据所输入的音频流而被更新，所以能够恰当地对音频流、或者其载体的视频数据进行分类，AV设备可在视频数据的区分等上提高对用户的利便性。

产业上的可利用性

本发明所涉及的基准模型适应装置可活用于对AV内容进行存储并再生的任意的电子设备，可用于对AV内容的分类，以及对运动图像中的被推断为用户感兴趣的兴趣区间的提取等。

Claims

1.一种基准模型适应装置，其特征在于具备：

存储单元，其存储有多个基准模型，该基准模型是基于具有单一声音特征的音声所生成的多个概率模型的集合；

输入单元，其受理音频流的输入；

分割单元，其将所述音频流分割成被估计为具有单一声音特征的片段数据；

估计单元，其对每个所述片段数据的概率模型进行估计；以及

聚类单元，其针对用于表示所述存储单元中存储的多个基准模型的每一个的多个概率模型、与所述估计单元所估计的概率模型进行聚类，来生成新的基准模型。

2.根据权利要求1所述的基准模型适应装置，其特征在于：

所述聚类单元直到所生成的多个基准模型的数量成为预定的规定数量为止，利用树分裂方法来生成所述基准模型，

将生成的规定数量的基准模型作为新的基准模型而存储于所述存储单元。

3.根据权利要求2所述的基准模型适应装置，其特征在于：

所述树分裂方法中，

基于散度距离最大的模型分类的中心，来生成新的两个模型中心，

将所述散度距离最大的模型分类生成为分别以所述两个模型中心的各个为中心的新的模型分类，

直到实施分裂所生成的模型分类的数量成为所述规定数量为止进行重复，来生成基准模型。

4.根据权利要求1所述的基准模型适应装置，其特征在于：

所述聚类单元，在执行所述聚类时，针对所述存储单元所存储的基准模型的任意一个，将散度小于规定阈值的概率模型与该散度为最小的基准模型进行合并。

5.根据权利要求1所述的基准模型适应装置，其特征在于：

所述概率模型为高斯概率模型或者指数分布概率模型。

6.一种在线自适应方法，其用于在基准模型适应装置中进行基准模型的在线自适应，所述基准模型适应装置具有存储单元，该存储单元存储有多个基准模型，该基准模型是基于具有单一声音特征的音声所生成的多个概率模型的集合，所述在线自适应方法的特征在于包括：

输入步骤，受理音频流的输入；

分割步骤，将所述音频流分割成被估计为具有单一声音特征的片段数据；

估计步骤，对每个所述片段数据的概率模型进行估计；以及

聚类步骤，对用于表示所述存储单元中存储的多个基准模型的每一个的多个概率模型、与所述估计步骤中所估计的概率模型进行聚类，来生成新的基准模型。

7.一种集成电路，其特征在于具备：

输入单元，其受理音频流的输入；

聚类单元，其对用于表示所述存储单元中存储的多个基准模型的每一个的多个概率模型、与所述估计单元所估计的概率模型进行聚类，来生成新的基准模型。

8.一种AV设备，其特征在于具备：

输入单元，其受理音频流的输入；

9.根据权利要求8所述的AV设备，其特征在于，

所述输入单元所受理的音频流是从视频数据中所提取的音频流，

所述AV设备还具有：

分类单元，其利用所述存储单元中所存储的基准模型，对所述音频流的类别进行分类。

10.一种在线自适应程序，其表示使计算机执行基准模型的在线自适应的处理顺序，所述计算机具备存储器，该存储器存储有多个基准模型，该基准模型是基于具有单一声音特征的音声所生成的多个概率模型的集合，所述在线自适应程序的特征在于，

所述处理顺序包括：

输入步骤，受理音频流的输入；

估计步骤，对每个所述片段数据的概率模型进行估计；以及