具体实施方式
以下,作为本发明的实施方式,参照附图来说明通过带声音的运动图像(以下仅称作“运动图像”)所包含的音频信号对运动图像进行分类的影像记录装置。
<1.实施方式1>
<1-1.概要>
图1示出了本发明的实施方式1所涉及的影像记录装置100及其周边装置。记录介质110记录有运动图像的文件组,显示装置120显示从影像记录装置100输出的影像。在此,文件组是1个以上文件的集合。
影像记录装置100从记录介质110取得运动图像的文件组,并对所取得的文件组进行记录。对所记录的文件组的各运动图像,通过该运动图像所包含的音频信号分类到类别中。在此,类别是指分类目标。
并且,影像记录装置100接受用户的操作,将与分类结果对应的影像输出至显示装置120。
基于音频信号的分类如下述那样进行。
首先,按照分类对象的音频信号的规定时间长度(例如10ms)的每个区间进行音响分析来提取区间特征(参照图5)。比较所提取的区间特征和预先确定的各基准区间特征(参照图6),来计算类似度(参照图7)。并且,针对各区间求出类似度最高的基准区间特征(参照图8)。以下,设定将规定时间长度的区间称作短时间区间。此外,设定将类似度最高的基准区间特征称作代表区间特征。
在此,区间特征用于表示音频信号的短时间区间以什么程度具有什么样的声音。此外,基准区间特征是与区间特征进行比较的基准,各基准区间特征是相互不同的。
接着,使用针对各短时间区间求出的代表区间特征,提取与音频信号的多个短时间区间相关的1个特征即综合特征(参照图9)。
在此,综合特征,被表示为针对各基准区间特征表示该基准区间特征成为代表区间特征的短时间区间在全部短时间区间之中以何种程度被包含的含有度。基准区间特征的含有度,通过对该基准区间特征成为代表区间特征的短时间区间的个数进行计数,作为该个数相对于分类对象的音频信号所包含的短时间区间的总数的比例计算。
并且,通过对分类对象的音频信号中的综合特征和作为预先确定的分类基准而被使用的每个类别的基准综合特征(参照图10)进行比较,从而对该音频信号进行分类,将其分类结果作为包含有该音频信号的运动图像的分类。
<1-2.结构>
<1-2-1.整体的结构>
影像记录装置100作为硬件具有取得运动图像的文件组的输入装置、输出影像的输出端子、接受用户的操作的按钮、存储数据和程序的存储器、以及执行程序的处理器。
如图1所示,影像记录装置100具有输入部101、内容存储部102、声音提取部103、声音分类部104、分类信息存储部105、输出部106及操作部107。
输入部101、声音提取部103、输出部106及操作部107的功能,通过处理器执行在存储器中保存的程序来实现。
内容存储部102及分类信息存储部105通过存储器来实现。
输入部101具有可拆装记录介质110的输入装置,具有从所安装的记录介质110取得运动图像的文件组的功能。进而,输入部101将所取得的文件组保存于内容存储部102。
内容存储部102是对输入部101取得的文件组进行存储的存储器的区域。
声音提取部103具有从在内容存储部102中保存的运动图像的文件提取音频信号的功能。此外,对编码的音频信号进行解码。
声音分类部104具有对由声音提取部103提取的音频信号进行分类的功能。作为分类的结果,将用于对包含有对象音频信号的运动图像的文件进行确定的文件名和分类目标的分类ID建立对应地保存于分类信息存储部105。
分类信息存储部105是对声音分类部104对音频信号进行分类的结果进行存储的存储器的区域。
输出部106具有输出端子,具有对显示装置120输出影像的功能。
操作部107具有按钮等,具有接受来自用户的操作的功能。
<1-2-2.声音分类部104的结构>
以下,进一步详细地说明声音分类部104。
图2是声音分类部104的功能结构图。
声音分类部104具有音响特征提取部201、基准音响特征存储部202、区间特征提取部203、基准区间特征存储部204、区间类似度计算部205、综合特征提取部206、基准综合特征存储部207及分类部208。
音响特征提取部201、区间特征提取部203、区间类似度计算部205、综合特征提取部206及分类部208的功能,通过处理器执行在存储器中保存的程序来实现。
基准音响特征存储部202、基准区间特征存储部204及基准综合特征存储部207通过存储器来实现。
音响特征提取部201具有按照由声音提取部103提取的音频信号的每个短时间区间,来提取用于区间特征提取的音响特征301的功能。音响特征301的数据结构及提取结果的例子如图3所示。
作为音响特征301,能够使用MFCC(Mel-Frequency CepstralCoefficients:Mel(唛)频率倒谱系数)。若使用MFCC,则音响特征301能够表示为具有规定维数的矢量。以下,以26维的情况为例进行说明。
如图3所示,音响特征301被表示为具有M01~M26这26维成分的矢量。该图的例子中,示出了正在从5000ms的音频信号的各区间提取音响特征301的中途经过的状况。提取了从0~10ms的短时间区间起至1000~1010ms的短时间区间为止的音响特征301,4990~5000ms的短时间区间还未提取音响特征301。
基准音响特征存储部202是对区间特征提取部203所使用的音响特征字典400的数据进行保存的存储器的区域。
图4是音响特征字典400的数据结构及内容例。如该图所示,音响特征字典400由基准音响特征401和音响ID402(标识符,IDentifier)的组合构成。另外,在图中为了便于说明而示出了与基准音响特征401对应的名称(最左端的一列),但是实际上不需要将名称包含在音响特征字典400中。
在此,基准音响特征401是用于区间特征提取部203将其与各单个时间区间的音响特征301进行比较的数据,具有与音响特征301的结构相当的结构。在此,基准音响特征401被表示为与音响特征301相同的具有M01~M26这26维成分的矢量。基准音响特征401表示短时间区间中响起的声音(欢呼或笛声等)的特征。
此外,音响ID402是用于识别各基准音响特征401的ID,与各基准音响特征401一对一地建立了对应。
在图4的例子中,音响特征字典400中包含有“欢呼”或“笛声”等、音响ID402为A001~A100的100个基准音响特征401。例如,“欢呼”的基准音响特征401是根据对欢呼进行录音而得的音频信号制作出的数据。
音响特征字典400被预先制作并被保存在基准音响特征存储部202中,并且不被变更。
以下,在以图4所示的音响特征字典400所包含的基准音响特征401为例的情况下,设为通过音响ID402来称呼该基准音响特征401。例如,将由“A001”的音响ID402来识别的基准音响特征401称作“基准音响特征A001”。
区间特征提取部203具有按每个短时间区间来提取区间特征501的功能。区间特征501的数据结构及提取结果的例如图5所示。
区间特征501是表示在音频信号的每个短时间区间中以什么程度含有什么声音的数据,由音响特征301与基准音响特征401之间的类似度构成。类似度能够根据表示音响特征301的矢量和表示基准音响特征401的矢量之间的欧几里得距离等来求出。以下,设为将音响特征301与基准音响特征401之间的类似度称作音响类似度。
如图5所示,区间特征501由其与音响特征字典400所具有的各基准音响特征401(在此为基准音响特征A001~基准音响特征A100)之间的音响类似度构成。区间特征501被表示为具有上述的各音响类似度作为成分的100维的矢量。
该图的例子示出了正在从5000ms的音频信号的各区间提取区间特征501的中途经过的状况。提取了从0~10ms的短时间区间起止1000~1010ms的短时间区间为止的区间特征501,4990~5000ms的短时间区间还未提取区间特征501。
基准区间特征存储部204是对区间类似度计算部205所使用的区间特征字典600的数据进行保存的存储器的区域。
图6是区间特征字典600的数据结构及内容例。如该图所示,区间特征字典600由基准区间特征601和特征ID602的组合构成。另外,在图中为了便于说明而示出了与各基准区间特征601对应的名称(最左端的一列),但是实际上不需要将名称包含在区间特征字典600中。
在此,基准区间特征601是区间类似度计算部205将其与各单个时间区间的区间特征501进行比较的数据,具有与区间特征501的结构相当的结构。在此,基准区间特征601与区间特征501同样地,由相当于其与音响特征字典400所具有的各基准音响特征401之间的音响类似度的数据构成。基准区间特征601与区间特征501同样地,被表示为100维的矢量。
基准区间特征601表示短时间区间中的状况(音乐在响起、在室外等)。
此外,特征ID602是用于识别各基准区间特征601的ID,与各基准区间特征601一对一地建立了对应。
在图6的例子中,在区间特征字典600中包内含有“音乐”、“室外”等、特征ID602为F001~F100的100个基准区间特征601。例如,“音乐”的基准区间特征601是由对音乐进行录音而得的音频信号制作出的数据。
区间特征字典600被预先制作并被保存在基准区间特征存储部204中,并且不被变更。
以下,在以图6所示的区间特征字典600所包含的基准区间特征601为例的情况下,设为通过特征ID602来称呼该基准区间特征601。例如,将由“F001”的特征ID602识别的基准区间特征601称作“基准区间特征F001”。
区间类似度计算部205具有按每个短时间区间计算区间特征提取部203提取的区间特征501与各基准区间特征601之间的类似度的功能。在此,设为将区间特征501与基准区间特征601之间的类似度称为区间类似度。
图7是区间类似度计算部205计算的区间类似度的例子。如该图所示,区间类似度是按每个短时间区间对基准区间特征F001~基准区间特征F100进行计算的。该图的例子示出了正在对5000ms的音频信号的各区间中的区间类似度进行计算的中途经过的状况。计算了0~10ms的短时间区间起止1000~1010ms的短时间区间为止的区间类似度,4990~5000ms的短时间区间还未计算区间类似度。
区间类似度计算部205还根据计算区间类似度的结果,按照音频信号的每个短时间区间判定与该短时间区间之间的区间类似度最高的基准区间特征即代表区间特征。代表区间特征能够认为是对处理对象的短时间区间中的状况进行分类的特征。
图8是区间类似度计算部205判定出的代表区间特征的例子。在该图的例子中,0~10ms的短时间区间中,图7中区间类似度最高的基准区间特征F001被判定为代表区间特征。并且,针对其他短时间区间也同样地,将区间类似度最高的基准区间特征判定为代表区间特征。
综合特征提取部206具有基于区间类似度计算部205针对各短时间区间求出的代表区间特征提取综合特征901的功能。综合特征901的数据结构及内容例如图9所示。
综合特征901是与多个短时间区间相关的特征,表示音频信号在整体上处于什么状况(宴会或会议等)。
在此,综合特征901设为由针对各基准区间特征表示该基准区间特征为代表区间特征的短时间区间在音频信号所包含的全部短时间区间之中占据什么程度的比例的含有度构成。
如图9所示,综合特征901由针对区间特征字典600所具有的各基准区间特征601(在此为基准区间特征F001~基准区间特征F100)的含有度构成。综合特征901被表示为具有上述的各含有度作为成分的100维的矢量。
基准综合特征存储部207是对分类部208所使用的综合特征字典1000的数据进行保存的存储器的区域。
图10是综合特征字典1000的数据结构及内容例。如该图所示,综合特征字典1000由基准综合特征1001和分类ID1002的组合构成。另外,在图中为了便于说明示出了与各基准综合特征1001对应的名称(最左端的一列),但是实际上不需要将名称包含在综合特征字典1000中。
在此,基准综合特征1001是用于分类部208将其与音频信号的综合特征901进行比较的数据,具有与综合特征901的结构相当的结构。基准综合特征1001与综合特征901同样地,被表示为100维的矢量。
此外,分类ID1002是用于识别各基准综合特征1001的ID,与各基准综合特征1001一对一建立了对应。
各个基准综合特征1001和分类ID1002与分类目标的类别建立了对应。
在图10的例子中,在综合特征字典1000中包含有“宴会”或“会议”等、分类ID1002为C001~C100的100个基准综合特征1001。例如,“宴会”的基准综合特征1001是由将宴会的场景进行录音而得的音频信号制作出的数据。
综合特征字典1000被预先制作并被保存在基准综合特征存储部207中,并且不被变更。
分类部208具有基于综合特征提取部206从音频信号提取的综合特征901来对该音频信号进行分类的功能。具体地说,对音频信号的综合特征901和在基准综合特征存储部207中保存的各基准综合特征1001进行比较来计算类似度,分类到类似度最高的类别。以下,设为将综合特征901与基准综合特征1001之间的类似度称作综合类似度。
分类部208还将包含有分类对象的音频信号的文件与分类的结果的分类ID1002建立对应地保存于分类信息存储部105。
<1-3.动作>
以下,详细地说明影像记录装置100的动作。
影像记录装置100的动作大体被分为运动图像记录处理和运动图像显示处理。此外,运动图像记录处理中包含有声音分类处理。
运动图像记录处理是从记录介质110取得运动图像并记录在自装置内,并对各个运动图像进行分类的处理。运动图像记录处理是在将记录介质110安装在影像记录装置100上的状态下,受理了由用户进行的表示将保存在记录介质110中的运动图像记录到影像记录装置100的意思的操作时进行的。
声音分类处理是为了对运动图像进行分类,而将从该运动图像提取的声音进行分类的处理。并且,设为声音的分类结果被直接用于运动图像的分类。
运动图像显示处理是基于声音分类处理的结果来显示运动图像的处理。运动图像显示处理是在从用户受理了对运动图像的显示进行指示的操作时进行的。
<1-3-1.运动图像记录处理>
以下,根据图12所示的流程图来说明处理。
首先,由输入部101从记录介质110取得由用户进行了表示将记录在记录介质110中的运动图像输入影像记录装置100中的意思的指示的1以上运动图像的文件,并保存于内容存储部102(步骤S1201)。
接着,从保存在内容存储部102中的运动图像的文件组取得1个未分类的运动图像,声音提取部103从该运动图像提取音频信号(步骤S1202)。在此,所谓未分类的运动图像是指,在分类信息存储部105中未保存有该运动图像的分类结果的运动图像。步骤S1202中取得取得的运动图像最开始全部处于未分类的状态。
然后,声音分类部104对由声音提取部103提取的音频信号进行声音分类处理(步骤S1203)。在该声音分类处理中,在分类信息存储部105中保存对该运动图像进行分类的结果。
若声音分类处理结束,则从保存在内容存储部102中的运动图像的文件组中,判定是否有未分类的运动图像(步骤S1204)。
在没有未分类的运动图像的情况下(步骤S1204:否),即全部运动图像都被进行了分类的情况下,结束运动图像记录处理。在有未分类的运动图像的情况下(步骤S1204:是),返回至步骤S1202。
<1-3-2.声音分类处理>
以下,根据图13所示流程图,说明对从1个运动图像提取的1个音频信号进行的声音分类处理。在此,设为将分类对象的音频信号称作音频信号A。
在该处理中,针对音频信号A所包含的全部短时间区间,求出与各个基准区间特征601之间的区间类似度,根据其结果,提取音频信号A的综合特征901来进行分类。
首先,将关于各基准区间特征的含有区间数全部设为0(步骤S1301)。
在此,基准区间特征的含有区间数是,在从开始该声音分类处理起作为处理对象的短时间区间之中、该基准区间特征成为代表区间特征的短时间区间的个数。含有区间数被用作含有度的计算。
接着,判定在音频信号A所包含的短时间区间之中是否存在从这次声音分类处理开始起还未作为处理对象的短时间区间(步骤S1302)。
在存在的情况下(步骤S1302:是),选择未处理的短时间区间之中的1个,作为处理对象的短时间区间(步骤S1303)。以下,设为将该步骤中选择的短时间区间称作短时间区间S。
在此,设为短时间区间S是从音频信号A的最初的10ms的区间起依次进行选择的区间。例如,从开始这次声音分类处理起,在第一次的步骤S1303中选择最初的0~10ms的区间,在第二次的步骤S1303中选择10~20ms的区间。
音响特征提取部201从短时间区间S提取音响特征301(步骤S1304)。在此,通过针对短时间区间S计算MFCC,来提取音响特征301。
在图3中示出了将步骤1304的处理进行到了1000~1010ms的中途经过的例子。
区间特征提取部203计算短时间区间S的音响特征301与保存在基准音响特征存储部202中的音响特征字典400的各基准音响特征401之间的音响类似度,由此提取短时间区间S的区间特征501(步骤S1305)。
音响类似度的计算能够使用利用了表示音响特征301的矢量与表示基准音响特征401的矢量之间的欧几里得距离的方法。例如,能够利用以欧几里得距离为变量的高斯函数来计算。
图5示出了将步骤1305的处理进行到了1000~1010ms的中途经过的例子。
区间类似度计算部205计算短时间区间S的区间特征501与保存在基准区间特征存储部204中的区间特征字典600的各基准区间特征601之间的区间类似度(步骤S1306)。
区间类似度的计算能够使用利用了表示区间特征501的矢量与表示基准区间特征601的矢量之间的欧几里得距离的方法。例如,能够利用以欧几里得距离为变量的高斯函数来计算。
图7示出了将步骤1306的处理进行到了1000~1010ms的中途经过的例子。
然后,将与短时间区间S之间的区间类似度最高的基准区间特征选出,作为短时间区间S的代表区间特征。在成为最高区间类似度的基准区间特征有多个的情况下,根据规定的条件来选出1个基准区间特征(例如特征ID602的数值部分较小的一方)。
图8示出了将步骤1307的处理进行到了1000~1010ms的中途经过的例子。
综合特征提取部206对由区间类似度计算部205选出的代表区间特征即基准区间特征的含有区间数加一(步骤S1307)。
若步骤S1307结束,则为了对下一个短时间区间进行处理而返回至步骤S1302。
在步骤S1302中,在判定为不存在未处理的区间的情况下(步骤S1302:否)、即就全部区间而言每个区间的处理都结束了的情况下,进行以下的处理。
首先,综合特征提取部206计算各基准区间特征的音频信号A中的含有度,由此提取音频信号A的综合特征901(步骤S1308)。在此,含有度作为将含有区间数除以音频信号A的短时间区间的总数而得的值被计算出。
图9示出了步骤1308中提取综合特征901的结果的例子。
接着,分类部208计算由综合特征提取部206提取的综合特征901与保存在基准综合特征存储部207中的综合特征字典1000的各基准综合特征1001之间的综合类似度,分类到与综合类似度最高的基准综合特征对应的类别中(步骤S1309)。在成为最高综合类似度的基准综合特征有多个的情况下,根据规定条件来选出1个基准综合特征(例如,分类ID1002的数值部分较小的一方),分类到与所选出的基准综合特征对应的类别中。
图11示出了步骤S1309中进行综合类似度的计算的结果和分类结果的例子。
最后,分类部208将包含有音频信号A的运动图像的文件名和所分类的类别的分类ID建立对应地保存在分类信息存储部105中(步骤S1310)。
<1-3-3.运动图像显示处理>
以下,根据图14所示的流程图说明运动图像显示处理。
若从用户受理了指示运动图像的显示的操作,则输出部106使显示装置120显示催促用户输入所要显示的类别的画面,操作部107接受输入(步骤S1401)。在此,设为显示类别一览,从一览选择类别,由此能够进行输入。
若由用户输入了所要显示的类别,则根据与类别对应的分类ID,从保存在分类信息存储部105中的数据检索隶属于该类别的文件(步骤S1402)。
作为检索的结果,输出部106输出隶属于用户选择的类别的文件的运动图像,使显示装置120再现该运动图像(步骤S1403)。
<2.实施方式2>
作为本发明的实施方式2,来说明将实施方式1的影像记录装置100变形为在自装置内制作音响特征字典400、区间特征字典600及综合特征字典1000的影像记录装置100a。
另外,以下设为将音响特征字典400、区间特征字典600及综合特征字典1000集中称为基准数据。
<2-1.概要>
在实施方式1的影像记录装置100中,基准数据被预先制作,而不在自装置内部进行制作和变更。
在实施方式2的影像记录装置100a中,使用用户所输入的运动图像所包含的音频信号来制作这些基准数据。
由此,能够进行与用户所记录的运动图像的趋势更加匹配的分类。
<2-2.结构>
影像记录装置100a的结构如图15的功能结构图所示,除了影像记录装置100之外,还具备基准制作部1501,其他与影像记录装置100同样。
基准制作部1501具有由保存在内容存储部102中的运动图像所包含的音频信号来制作基准数据的功能。所制作的基准数据保存在声音分类部104所包含的基准音响特征存储部202、基准区间特征存储部204及基准综合特征存储部207中。
以下,更详细地说明基准制作部1501。
图16是基准制作部1501的功能结构图。
如该图所示,基准制作部1501包括基准声音存储部1601、音响特征提取部201a、区间特征提取部203a、区间类似度计算部205a、综合特征提取部206a、基准音响特征制作部1602、基准区间特征制作部1603及基准综合特征制作部1604。
音响特征提取部201a、区间特征提取部203a、区间类似度计算部205a、综合特征提取部206a、基准音响特征制作部1602、基准区间特征制作部1603及基准综合特征制作部1604,通过处理器执行在存储器中保存的程序来实现。
基准声音存储部1601是对用于制作基准数据而使用的多个音频信号进行存储的存储器的区域。
基准声音存储部1601中预先保存有用于制作用户使用前的初始状态的基准数据的多个音频信号。设为预先保存的音频信号的数量是基准综合特征制作部1604制作的基准综合特征的数量以上。
并且,若用户对影像记录装置100a输入运动图像,则进一步保存该运动图像所包含的音频信号。
音响特征提取部201a、区间特征提取部203a、区间类似度计算部205a及综合特征提取部206a除了基于保存在基准声音存储部1601中的音频信号进行处理之外,还分别具有与声音分类部104所包含的音响特征提取部201、区间特征提取部203、区间类似度计算部205及综合特征提取部206完全相同的功能。
基准音响特征制作部1602具有根据音响特征提取部201a提取音响特征的结果来制作音响特征字典400的功能。所制作的音响特征字典400保存在声音分类部104所包含的基准音响特征存储部202中。
基准区间特征制作部1603具有根据区间特征提取部203a提取区间特征的结果来制作区间特征字典600的功能。所制作的区间特征字典600保存在声音分类部104所包含的基准区间特征存储部204中。
基准综合特征制作部1604具有根据综合特征提取部206a提取综合特征的结果来制作综合特征字典1000的功能。所制作的综合特征字典1000保存在声音分类部104所包含的基准综合特征存储部207中。
<2-3.动作>
以下,说明影像记录装置100a的动作。另外,关于与实施方式1的影像记录装置100相同的动作的部分,省略说明。
影像记录装置100a的动作是,对运动图像记录处理的一部分进行变更,追加了基准制作处理的动作。
<2-3-1.运动图像记录处理>
运动图像记录处理(图12)如下述那样变更。
在实施方式1中,在取得运动图像(步骤S1201)时,将所取得的运动图像保存在内容存储部102中。在实施方式2中,还从该运动图像提取音频信号,在基准制作部1501所包含的基准声音存储部1601中保存该音频信号。
<2-3-2.基准制作处理>
基准制作处理是制作基准数据的处理。
基准制作处理在操作部107接受了由用户进行的表示指示基准制作的意思的操作时进行。
以下,根据图17所示的流程图说明基准制作处理。
基准音响特征制作部1602进行制作音响特征字典400并保存在基准音响特征存储部202中的音响特征字典制作处理(步骤S1701)。
基准区间特征制作部1603进行制作区间特征字典600并保存在基准区间特征存储部204中的区间特征字典制作处理(步骤S1702)。
基准综合特征制作部1604进行制作综合特征字典1000并保存在基准综合特征存储部207中的综合特征字典制作处理(步骤S1703)。
然后,针对保存在内容存储部102中的全部运动图像的文件,声音提取部103进行音频信号的提取,声音分类部104进行声音分类处理(步骤S1704)。
<2-3-3.音响特征字典制作处理>
音响特征字典制作处理是上述的基准制作处理的一部分。
以下,根据图18所示的流程图说明音响特征字典制作处理。
首先,音响特征提取部201a从保存在基准声音存储部1601中的全部音频信号的全部短时间区间提取音响特征(步骤S1801)。
接着,将所提取的全部音响特征作为分类对象,进行聚类(步骤S1802)。
聚类(clustering)是将大量数据分类为被称作群集(cluster)的数据集合的方法。在此,设为作为聚类的方法使用k-means法。
在k-means法中,预先决定要生成的群集的数量k(例如100),根据设为分类对象的大量数据(在此为音响特征)自动地生成k个群集。并且,将分类对象的全部数据分类在k个群集中的某个中。
然后,基于对音响特征进行聚类的结果,制作音响特征字典400(步骤S1803)。
在此,将隶属于各群集的音响特征的平均值分别作为基准音响特征401,来计算k个基准音响特征401。并且,计算出的k个基准音响特征401分别与音响ID402建立对应,制作具有k个基准音响特征401的音响特征字典400。
音响ID402按照开始这次音响特征字典制作处理起生成各群集的顺序,将从A001起对“A”附加3位连续编号而得的ID建立了对应。例如,与第25个生成的群集对应的音响ID402是A025,根据该群集计算出的基准音响特征401与A025的音响ID402建立了对应。
最后,在基准音响特征存储部202中保存新制作的音响特征字典400(步骤S1804)。在此,在基准音响特征存储部202中已经保存了音响特征字典400的情况下,利用新制作的音响特征字典400进行更新。
<2-3-4.区间特征字典制作处理>
区间特征字典制作处理是上述的基准制作处理的一部分。
以下,根据图19所示的流程图说明区间特征字典制作处理。
首先,区间特征提取部203a提取在基准声音存储部1601中保存的全部音频信号的全部短时间区间的区间特征(步骤S1901)。
各单个时间区间的区间特征的提取中,使用音响特征提取部201a所提取的音响特征和在上述的音响特征字典制作处理中制作出的音响特征字典400。
接着,将所提取的全部区间特征作为分类对象进行聚类(步骤S1902)。在此,设为使用k-means法,将群集的数量设为k=100,进行聚类。
然后,基于对区间特征进行聚类的结果,来制作区间特征字典600(步骤S1903)。
在此,将隶属于各群集的区间特征的平均值分别作为基准区间特征601,计算k个基准区间特征601。并且,使计算出的k个基准区间特征601分别与特征ID602建立对应,制作具有k个基准区间特征601的区间特征字典600。
特征ID602是按照从这次区间特征字典制作处理起生成各群集的顺序,将从F001开始对“F”附加3位连续编号而得的ID建立了对应。例如,与第50个生成的群集对应的特征ID602为F050,根据该群集计算出的基准区间特征601与F050的特征ID602建立了对应。
最后,在基准区间特征存储部204中保存新制作的区间特征字典600(步骤S1904)。在此,在基准区间特征存储部204中已经保存了区间特征字典600的情况下,利用新制作的区间特征字典600进行更新。
<2-3-5.综合特征字典制作处理>
综合特征字典制作处理是上述的基准制作处理的一部分。
以下,根据图20所示的流程图说明综合特征字典制作处理。
首先,综合特征提取部206a提取在基准声音存储部1601中保存的全部音频信号的综合特征(步骤S2001)。
各音频信号的综合特征的提取中,使用区间类似度计算部205a计算出的各个音频信号中的每个短时间区间的区间类似度。
此外,区间类似度计算部205a使用区间特征提取部203a所提取的区间特征和在上述的区间特征字典制作处理中制作出的区间特征字典600,来计算每个短时间区间的区间类似度。
接着,将所提取的全部综合特征作为分类对象进行聚类(步骤S2002)。在此,设为使用k-means法,将群集数量设为k=100,进行聚类。
然后,基于对综合特征进行聚类的结果,来制作综合特征字典1000(步骤S2003)。
在此,将隶属于各群集的综合特征的平均值分别作为基准综合特征1001,来计算k个基准综合特征1001。并且,将计算出的k个基准综合特征1001分别与分类ID1002建立对应,来制作具有k个基准综合特征1001的综合特征字典1000。
分类ID1002是按照从开始这次综合特征字典制作处理起生成各群集的顺序,将从C001开始对“C”附加3位连续编号而得的ID建立了对应。例如,与第75个生成的类对应的分类ID1002为C075,根据该类计算出的基准综合特征1001与C075的分类ID1002建立了对应。
最后,在基准综合特征存储部207中保存新制作的综合特征字典1000(步骤S1904)。在此,在基准综合特征存储部207中已经保存了综合特征字典1000的情况下,利用新制作的综合特征字典1000进行更新。
<补充>
以上,基于实施方式说明了本发明所涉及的声音分类装置,但是本发明当然不限定于上述的实施方式所示出的声音分类装置。
(1)本发明也能够将由用于使声音分类装置的处理器及与该处理器连接的各种电路执行实施方式所示的声音分类的处理等(参照图6~9)的程序代码构成的控制程序,记录在记录介质中或者经由各种通信路径等进行流通发布。这样的记录介质有IC卡、硬盘、光盘、软盘、ROM等。流通、发布的控制程序通过保存在可读出到处理器的存储器等中来供利用,通过该处理器执行该控制程序来实现各实施方式所示的功能。另外,也可以是,将控制程序的一部分经由各种网络发送给与声音分类装置不同的可执行程序执行的装置(处理器),使该不同的可执行程序的装置执行该控制程序的一部分。
(2)构成声音分类装置的结构要素的一部或者全部可以作为1个或多个集成电路(IC、LSI等)被安装,也可以在声音分类装置的结构要素中再加上其他要素来集成电路化(单片化)。
(3)在实施方式1、2中作为影像记录装置的结构要素说明了声音分类装置,但是也可以是声音记录装置的结构要素,也可以是从外部装置取得音频信号并输出分类结果的类别名称等的声音分类装置。也就是说,只要是进行音频信号的分类的装置即可。
(4)在实施方式1、2中设为从记录介质取得运动图像的文件组,但是取得的单元不限于使用记录介质的方法。也可以从无线电或有线的广播、网络等取得。此外,也可以是,声音分类装置具备麦克等录音装置,取得使用该录音装置录音得到的音频信号。
(5)在实施方式1、2中区间特征提取部基于音响特征提取部所提取的音响特征和在基准音响特征存储部中保存的音响特征字典进行区间特征的提取,但是只要是提取与频率分布相关的特征的方法即可,不限于该情况。
例如,也可以是,省略音响特征提取部和基准音响特征存储部,区间特征提取部作为区间特征提取与音响特征相当的特征。在该情况下,保存在基准区间特征存储部中的区间特征字典也成为与音响特征字典相当的数据。
(6)在实施方式1、2中内容存储部、分类信息存储部、基准特征存储部、基准区间特征存储部及基准综合特征存储部通过存储器来实现,但是声音分类装置只要是可读写的存储装置即可,不限于该情况。例如,可以是硬盘或软盘等,也可以不是内置在声音分类装置中的存储装置而是外装的存储装置。
(7)在实施方式1、2中设为使显示装置输出影像,但是不限于此。例如,也可以是,对运动图像的文件赋予表示该运动图像的分类结果的元数据,将该文件输出至外部存储装置。也就是说,只要进行使用了分类结果的输出即可。
(8)在实施方式1、2中设为操作部通过按钮等接受来自用户的操作,但是只要是出于某种契机来进行各种处理即可,不限于此。例如,可以通过遥控器接受来自用户的操作,也可以不依赖于来自用户的操作而是检测安装了记录介质的情况自动地进行各种处理。
(9)在实施方式1、2中设为作为音响特征使用MFCC,但是只要是与能够从音频信号的短时间区间提取的频率相关的特征即可,不必限定于MFCC。例如,也可以是表示短时间区间的频谱的特征。
(10)在实施方式1、2中设为分类结果保存在分类信息存储部中,但是也可以是,在写入分类对象的文件的元数据的区域中保存分类信息,与运动图像文件一起保存在内容存储部中。
此外,也可以代替分类ID,而使用与各类别对应的类别名称的字符串。
(11)在实施方式1中,音响特征字典、区间特征字典及综合特征字典都是被预先确定的并且不被变更的,但是也可以被变更。例如,也可以从网络下载这些数据来进行更新。
(12)在实施方式1、2中,为了求出含有度而求出含有区间数,将含有区间数除以处理对象的音频信号的区间数(全部区间数)来计算含有度,但是也可以通过其它方法计算含有度。
例如,也可以是,将对含有区间数加一的处理(图13的步骤S1307)置换为使含有度增加全部区间数的倒数(1/全区间数)的处理,省略步骤S1308。若这样设置,则在针对处理对象的音频信号的全部区间结束了步骤S1307的阶段,含有度等于含有区间数相对于全部区间数的比例。
此外,各基准区间特征的含有度只要是表示在处理对象的音频信号中该基准区间特征成为代表区间特征的区间占有什么程度的值即可,不必限于将含有区间数除以全部区间数的值。例如,含有度也可以是将含有区间数相对于全部区间数的比例按每个基准区间特征赋予权重的值。
作为加权的方法,也可以使用如下的方法:按每个基准区间特征求出逆向文档频率(IDF:Inverse Document Frequency),利用IDF值对各比例加权,作为TF-IDF(条件频率-逆向文档频率:Term Frequency-InverseDocument Frequency)值,求出含有度。
(13)在实施方式1、2中描述了音频信号的各短时间区间是连续的区间的情况,但是各短时间区间也可以是分别一部分重叠,也可以在各短时间区间之间具有不被用于区间特征检测的期间。
例如,也可以是,使短时间区间分别重叠2ms,而成为0~10ms、8~18ms、16~26ms、24~34ms…。
此外,也可以是,使各短时间区间之间分别间隔20ms,而成为0~10ms、30~40ms、60~70ms…。
(14)在实施方式2中,基准音响特征制作部、基准区间特征制作部及基准综合特征制作部都是使用保存在基准声音存储部中的相同的音频信号来分别进行基准数据的制作,但是也可以分别使用不同音频信号。
例如,也可以是,基准音响特征制作部中使用的音频信号是对“笛声”或“说话声”等的单个音源的声音进行录音而得的信号,基准区间特征制作部及基准综合特征制作部中使用的音频信号是对“宴会”或“会议”等混有来自各种音源的声音的声音进行录音的信号。
此外,也可以是,分别由用户来选择基准音响特征制作部中使用的音频信号、基准区间特征制作部中使用的音频信号及基准综合特征制作部中使用的音频信号。
(15)在实施方式2中,基准音响特征制作部、基准区间特征制作部及基准综合特征制作部所制作的基准数据都是100个,但是也可以是100个以外的数量。此外,也可以制作分别不同数量的基准数据,也可以不预先决定要制作的数量,而是动态地决定制作基准数据的数量。
(16)在实施方式2中,设为在基准声音存储部中预先保存有基准制作用的音频信号,但是不必须要预先保存。例如,也可以是只保存从用户输入的运动图像提取的音频信号。
(17)在实施方式2中作为聚类的方法使用了k-means法,但是也可以是其他聚类方法。作为k-means法以外的聚类方法,有离差平方和法(Ward′s method)等。
(18)在实施方式1、2中通过以音响特征与基准音响特征之间的欧几里得距离为变量的高斯函数来计算音响类似度,但是只要是表示音响特征与基准音响特征之间的相关关系的值即可,不限于该情况。
例如,可以直接使用音响特征与基准音响特征之间的欧几里得距离。在该情况下,音响类似度的值越小则音响类似度越高。
同样地,关于区间类似度也是,不限于通过以区间特征与基准区间特征之间的欧几里得距离为变量的高斯函数来进行计算。
此外,关于综合类似度也是,不限于通过以综合特征与基准综合特征之间的欧几里得距离为变量的高斯函数来进行计算。
(19)在实施方式1、2中,基准音响特征具有与音响特征的结构相当的结构,但是只要是能够与音响特征进行比较的结构即可,不必限于与音响特征相同的结构。在变更基准音响特征的结构的情况下,使音响类似度的计算方法与基准音响特征的结构相对应地进行变更。
例如,也可以是,设为基准音响特征由与音响特征的结构相当的具有M01~M26这26维成分的矢量和高斯函数的离散值构成的结构,使用欧几里得距离和离散值,通过高斯函数来计算音响类似度。
此外,也可以是,设为基准音响特征具有上述矢量和离散值的多个组合,通过GMM(Gaussian Mixture Model:高斯混合模型)来计算音响类似度。
(20)在实施方式1中,以根据对“欢呼”或“笛声”等进行录音而得的音频信号制作出的数据为例说明了基准音响特征,但是,基准音响特征只要是能够与音响特征比较的数据即可,制作方法任意。
例如,也可以是如实施方式1所说明的那样,通过收集欢呼的音频信号并根据该音频信号制作“欢呼”的基准声音特征等的、收集预先被分类的音频信号并按照其每个分类来制作基准声音特征的“有教师”的方法,来进行制作。
此外,也可以是如实施方式2的影像记录装置100a那样,通过收集原来未被分类的音频信号,利用聚类等自动地进行分类,按照其每个分类来制作基准声音特征的“没有教师”的方法,来进行制作。
同样地,关于基准区间特征、基准综合特征也是,制作方法任意,可以通过“有教师”的方法来制作,也可以通过“没有教师”的方法来制作。
(21)以下,进行一步说明本发明的一实施方式所涉及的声音分类装置的结构及其变形例、效果。
(a)本发明的一实施方式所涉及的声音分类装置具备:取得单元,取得音频信号;区间特征提取单元,针对所述音频信号所包含的规定时间长度的多个区间的各个区间,提取作为与声音的频率分布有关的特征的区间特征;基准区间特征存储单元,存储有多个基准区间特征,该基准区间特征是与所述区间特征进行比较的基准;计算单元,针对所述多个区间的各个区间,将所述区间特征与各个所述基准区间特征进行比较,计算表示该区间特征与该基准区间特征之间的相关程度的区间类似度;综合特征提取单元,针对所述音频信号提取综合特征,该综合特征是基于在所述多个区间的各个区间中计算出的多个区间类似度的、与多个区间有关的特征;基准综合特征存储单元,存储有1个以上的基准综合特征,该基准综合特征是与所述综合特征进行比较的基准;以及分类单元,比较所述音频信号的综合特征和所述基准综合特征,基于其结果,对该音频信号进行分类。
根据具有上述结构的声音分类装置,求出表示音频信号的各区间与什么声音以何种程度相关的区间类似度,从多个区间各自的区间类似度提取综合特征。并且,通过比较综合特征和作为分类基准的数据的基准综合特征来进行分类。由此,通过将多个区间的特征综合地用于分类,能够适当地对混入有各种声音的声音进行分类。
(b)也可以是,在(a)记载的声音分类装置中,所述综合特征提取单元针对所述音频信号,按每个基准区间特征,计算表示在该音频信号中与该基准区间特征之间的区间类似度比与其他全部基准区间特征之间的区间类似度高的区间占有何种程度的含有度,并提取由各基准区间特征的该音频信号中的所述含有度构成的综合特征。
通过这样使用含有度,能够根据表示在音频信号中与哪个基准区间特征对应的声音含有什么程度的时间的基准来进行分类。
(c)也可以是,在(b)记载的声音分类装置中,所述综合特征提取单元基于与该基准区间特征之间的区间类似度比与其他全部基准区间特征之间的区间类似度高的区间的总数相对于该音频信号所包含的区间的总数的比例,来计算各基准区间特征的所述音频信号中的所述含有度。
通过这样计算含有度,含有度成为不依赖音频信号的长度的比例。因而,基准区间特征的数据能够不考虑分类对象的音频信号的长度地使用恒定基准。
(d)也可以是,在(c)记载的声音分类装置中,所述基准区间特征存储单元还存储有相对于各基准区间特征的、在该基准区间特征的所述含有度的计算中使用的系数,所述综合特征提取单元将基准区间特征的所述含有度计算为所述比例与所述系数之积。
通过这样计算含有度,能够对各基准区间特征被包含的比例进行加权。通过重要度低的基准区间特征较低地设定系数,重要度较高的基准区间特征较高地设定系数,能够重视重要高的基准区间特征地求出综合特征。
(e)也可以是,在(b)记载的声音分类装置中,所述区间特征提取单元具备:音响特征提取部,针对所述多个区间的各个区间,提取表示该区间所含有的声音的MFCC即mel频率倒谱系数的音响特征;以及基准音响特征存储部,存储有多个基准音响特征,该基准音响特征是与所述音响特征进行比较的基准;所述区间特征是由音响类似度构成的数据,该音响类似度表示针对所述区间分别计算出的音响特征与所述基准音响特征存储部所存储的基准音响特征各自之间的相关程度,所述区间特征提取单元针对所述多个区间的各个区间,基于所述音响特征提取部所提取的音响特征和所述基准音响特征存储部所存储的基准音响特征,来提取该区间的区间特征。
通过这样设置,能够使用基于MFCC的特征来进行分类。MFCC特别能够较好地表现人声等的特征。
(f)也可以是,在(b)记载的声音分类装置中,所述区间特征提取单元具备:音响特征提取部,针对所述多个区间的各个区间,提取表示该区间所包含的声音的频谱的音响特征;以及基准音响特征存储部,存储有多个基准音响特征,该基准音响特征是与所述音响特征进行比较的基准;所述区间特征是由音响类似度构成的数据,该音响类似度表示针对所述区间分别计算出的音响特征与所述基准音响特征存储部所存储的基准音响特征各自之间的相关程度;所述区间特征提取单元针对所述多个区间的各个区间,基于所述音响特征提取部所提取的音响特征和所述基准音响特征存储部所存储的基准音响特征,来提取该区间的区间特征。
通过这样设置,能够使用基于频谱的特征进行分类。频谱能够良好地表现声音的高度等的特征。
(g)也可以是,在(e)记载的声音分类装置中,所述基准综合特征存储单元使基准综合特征与音频信号的分类目标即类别建立对应地存储有多个,所述分类单元比较所述音频信号的综合特征和多个相互不同的所述基准综合特征,针对所述基准综合特征分别求出表示该综合特征与该基准综合特征之间的相关程度的综合类似度,分类至与该综合特征之间的综合类似度最高的基准综合特征所对应的类别中。
通过这样设置,能够将音频信号分类至多个类别中的某个中。
(h)也可以是,在(e)记载的声音分类装置中,还具备:声音存储单元,存储多个音频信号;以及制作单元,基于从存储在所述声音存储单元中的各音频信号提取的综合特征来制作基准综合特征,并保存在所述基准综合特征存储单元中。
通过这样设置,即使在基准综合特征存储单元中没有预先准备基准综合特征,也能够使用基准制作用的音频信号来制作基准综合特征。
此外,即使在基准综合特征存储单元中预先准备了基准综合特征的情况下,若使用用户所持有的音频信号来制作基准综合特征,则能够制作与该用户相匹配的成为分类基准的基准综合特征。
(i)也可以是,在(e)记载的所述声音分类装置中,还具备:基准区间特征制作单元,基于所述声音存储单元存储的各音频信号所包含的各区间提取的区间特征来制作基准区间特征,并保存在所述基准区间特征存储单元中。
通过这样设置,即使在基准区间特征存储单元中没有预先准备基准区间特征,也能够使用基准制作用的音频信号来制作基准区间特征。
此外,在基准区间特征存储单元中预先准备了基准区间特征的情况下,若使用用户所持有的音频信号来制作基准区间特征,则能够制作与该用户相匹配的基准区间特征。
但是,在该情况下,还需要与基准区间特征相对应地制作基准综合特征。
工业实用性
本发明所涉及的声音分类装置能够用于带运动图像拍摄功能的移动电话、数字视频摄像机、影像记录装置等。
附图标记说明
100影像记录装置
103声音提取部
104声音分类部
105分类信息存储部
201音响特征提取部
202基准音响特征存储部
203区间特征提取部
204基准区间特征存储部
205区间类似度计算部
206综合特征提取部
207基准综合特征存储部
208分类部
1501基准制作部
1601基准声音存储部
1602基准音响特征制作部
1603基准区间特征制作部
1604基准综合特征制作部