JP5578453B2

JP5578453B2 - 音声分類装置、方法、プログラム及び集積回路

Info

Publication number: JP5578453B2
Application number: JP2012515710A
Authority: JP
Inventors: 知浩小沼; 明石田
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2010-05-17
Filing date: 2011-03-15
Publication date: 2014-08-27
Anticipated expiration: 2031-03-15
Also published as: US20120136823A1; JPWO2011145249A1; CN102473411B; EP2573763A1; US8892497B2; WO2011145249A1; EP2573763A4; CN102473411A; EP2573763B1

Description

本発明はマルチメディアコンテンツの処理技術に関し、特にマルチメディアコンテンツに含まれる音声を用いた分類技術に関する。

近年、動画撮影機能付き携帯電話機やデジタルビデオカメラ等の普及により、個人ユーザが膨大な数のマルチメディアコンテンツ（ここでは音声付きの動画とする。以下、単に動画という。）を保有することができるようになってきている。そのため、動画を効率的に検索するための手段が必要になってきている。

動画を検索するための方法としては、動画に事前にタイトルを付与したり複数のカテゴリのいずれかに分類するなどして、そのタイトルやカテゴリによって検索する方法がある。

また、予め動画に対してサムネイルを作成しておいて、動画のサムネイルを並べて表示することで、ユーザが目で見て探しやすくする方法もある。

しかしこれらの方法では、動画に事前に適切なタイトルを付与する、カテゴリに分類する、サムネイルを作成する等の作業が必要であり、手間が掛かる。

ところで、動画の分類に関する技術としては、音声に着目してスポーツの動画からハイライト部分を抽出するものが開示されている（特許文献１参照）。特許文献１の技術では、動画に含まれる音声の短時間（３０ｍｓ程度）の各区間から特徴を抽出し、特定の特徴（拍手や歓声など）を示す音声が一定時間以上続いた期間をハイライト部分として分類する。

また、音声の分類に関する技術として、討論音声を対象として未知話者の発声を分類する技術が開示されている（非特許文献１参照）。非特許文献１の技術では、事前に多数の話者の特徴データを用意し、音声と各特徴データとの類似度によってクラスタリングを行うことで話者の発声区間を分類する。

上記２つの技術を用いると、動画に含まれる音声中のどの部分（例えば数ミリ秒から数秒程度の長さの部分）が何の音声であるかを分類することは可能である。例えば特許文献１の技術を用いると、盛大な拍手が所定時間以上続く部分はイベントが盛り上がっているハイライト部分として分類できる。また、非特許文献１の技術を用いると、討論音声においてどの部分で誰が発言しているのかを分類することができる。

特開２００４−２５８６５９号公報

秋田祐哉、河原達也、"多数話者モデルを用いた討論音声の教師なし話者インデキシング"、電子情報通信学会論文誌２００４／２Ｖｏｌ．Ｊ８７−Ｄ−ＩＩＮｏ．２、ｐｐ．４９５−５０３

これら従来の技術は様々な音が入り混じった音声の中で特定の分類（特定の話者やハイライトシーン）に属する部分を抽出するものである。しかしながら、その音声がどのようなイベントや状況に関する音声であるかという分類を行うものではない。ここでいうイベントや状況というのは、例えばパーティや会議、スポーツなどである。

したがって、これらの技術を動画に含まれる音声に対して用いることでその動画の分類を行おうとしても、適切な分類は行えない。

本発明は上記の点を鑑み、動画を分類することで検索の手間を軽減するため、音声によって動画を分類できるように、様々な音が入り混じった音声を適切に分類する装置、方法、プログラム及び集積回路を提供することを目的とする。

上記課題を解決するために本発明に係る音声分類装置は、オーディオ信号を取得する取得手段と、前記オーディオ信号が含む所定時間長の複数の区間それぞれについて音の周波数分布に係る特徴である区間特徴を抽出する区間特徴抽出手段と、前記区間特徴と比較される基準である基準区間特徴を複数記憶している基準区間特徴記憶手段と、前記複数の区間それぞれについて、前記区間特徴と前記基準区間特徴それぞれとを比較して、当該区間特徴と当該基準区間特徴との相関の程度を示す区間類似度を計算する計算手段と、前記オーディオ信号について、前記複数の区間それぞれにおいて計算された複数の区間類似度に基づく、複数の区間に係る特徴である総合特徴を抽出する総合特徴抽出手段と、前記総合特徴と比較する基準である基準総合特徴を１以上記憶している基準総合特徴記憶手段と、前記オーディオ信号の総合特徴と前記基準総合特徴とを比較して、その結果に基づいて、当該オーディオ信号を分類する分類手段とを備える。

上記の構成を持つ音声分類装置によれば、オーディオ信号の各区間がどのような音とどの程度相関しているかを示す区間類似度を求め、複数の区間それぞれの区間類似度から総合特徴を抽出している。こうして抽出した総合特徴は、オーディオ信号に含まれる様々な音が入り混じりかたを表していることとなり、オーディオ信号の由来となったイベントや状況を反映していると考えられる。そして総合特徴と、分類基準のデータである基準総合特徴とを比較することにより分類を行っている。

このように複数の区間の特徴を総合して分類に用いることにより、様々な音が入り混じった音声を適切に分類することができる。

本発明の実施形態１に係る映像記録装置の機能構成及び周辺装置を示す図である。音声分類部の機能構成を示す図である。音響特徴の構成及び各区間から抽出された音響特徴の例である。音響特徴辞書のデータ構成及び内容例である。区間特徴の構成及び各区間から抽出された区間特徴の例である。区間特徴辞書のデータ構成及び内容例である。各区間における各区間特徴との区間類似度の例である。各区間の代表区間特徴の例である。総合特徴のデータ構成及び内容例である。総合特徴辞書のデータ内容及び構成例である。カテゴリ毎の総合類似度及び分類結果の例である。動画記録処理を示す流れ図である。音声分類処理を示す流れ図である。動画表示処理を示す流れ図である。実施形態２に係る映像記録装置の機能構成図である。基準作成部の機能構成図である。基準作成処理を示す流れ図である。音響特徴辞書作成処理を示す流れ図である。区間特徴辞書作成処理を示す流れ図である。総合特徴辞書作成処理を示す流れ図である。

以下、本発明の実施の形態として、音声付き動画（以下、単に「動画」という）に含まれるオーディオ信号によって動画を分類する映像記録装置について、図面を参照しながら説明する。
＜１．実施形態１＞
＜１−１．概要＞
図１は本発明の実施形態１に係る映像記録装置１００及びその周辺装置を示している。記録媒体１１０は動画のファイル群を記録しており、表示装置１２０は映像記録装置１００から出力される映像を表示する。ここで、ファイル群は１つ以上のファイルの集まりであるとする。

映像記録装置１００は、記録媒体１１０から動画のファイル群を取得し、取得したファイル群を記録する。記録したファイル群の各動画を、その動画に含まれるオーディオ信号によってカテゴリに分類する。ここで、カテゴリは分類先のことである。

そして映像記録装置１００は、ユーザの操作を受けて、分類結果に応じた映像を表示装置１２０に出力する。

オーディオ信号による分類は以下のように行う。

まず分類対象のオーディオ信号の所定時間長（例えば１０ｍｓ）の区間毎に音響分析を行って区間特徴（図５を参照）を抽出する。抽出した区間特徴と、予め定められた各基準区間特徴（図６を参照）と比較して、類似度（図７を参照）を計算する。そして各区間について最も類似度の高い基準区間特徴（図８を参照）を求める。以下、所定時間長の区間のことを短時間区間と呼ぶこととする。また、最も類似度の高い基準区間特徴を代表区間特徴と呼ぶこととする。

ここで区間特徴は、オーディオ信号の短時間区間がどのような音の特徴をどの程度持つかを示すものである。また、基準区間特徴は区間特徴と比較される基準であり、各基準区間特徴は互いに異なる。

次に、各短時間区間について求めた代表区間特徴を用いて、オーディオ信号の複数の短時間区間に係る１つの特徴である総合特徴（図９を参照）を抽出する。

ここで総合特徴は、各基準区間特徴について、その基準区間特徴が代表区間特徴となる短時間区間が全短時間区間のうちどの程度あるかを示す含有度として表される。基準区間特徴の含有度は、その基準区間特徴が代表区間特徴となる短時間区間の個数を数え、その個数の、分類対象のオーディオ信号に含まれる短時間区間の総数に対する割合として算出する。

そして、分類対象のオーディオ信号における総合特徴と、予め定められた分類基準として用いられるカテゴリ毎の基準総合特徴（図１０を参照）とを比較することによりそのオーディオ信号を分類する。その分類結果を、そのオーディオ信号を含んでいる動画の分類とする。
＜１−２．構成＞
＜１−２−１．全体の構成＞
映像記録装置１００は、ハードウェアに関しては動画のファイル群を取得する入力装置、映像を出力する出力端子、ユーザの操作を受け付ける押しボタン、データとプログラムとを記憶するメモリ及びプログラムを実行するプロセッサにより構成される。

図１に示すように、映像記録装置１００は、入力部１０１、コンテンツ記憶部１０２、音声抽出部１０３、音声分類部１０４、分類情報記憶部１０５、出力部１０６及び操作部１０７により構成される。

入力部１０１、音声抽出部１０３、出力部１０６及び操作部１０７の機能は、メモリに格納されているプログラムをプロセッサが実行することにより実現される。

コンテンツ記憶部１０２及び分類情報記憶部１０５はメモリによって実現される。

入力部１０１は記録媒体１１０を着脱可能な入力装置を有し、装着された記録媒体１１０から動画のファイル群を取得する機能を有する。更に入力部１０１は、取得したファイル群をコンテンツ記憶部１０２に格納する。

コンテンツ記憶部１０２は入力部１０１が取得したファイル群を記憶するメモリの領域である。

音声抽出部１０３は、コンテンツ記憶部１０２に格納されている動画のファイルからオーディオ信号を抽出する機能を有する。また、符号化されたオーディオ信号をデコードする。

音声分類部１０４は、音声抽出部１０３で抽出されたオーディオ信号を分類する機能を有する。分類した結果は、対象のオーディオ信号を含む動画のファイルを特定するファイル名と、分類先の分類ＩＤとを対応付けて分類情報記憶部１０５に格納する。

分類情報記憶部１０５は、音声分類部１０４がオーディオ信号を分類した結果を記憶するメモリの領域である。

出力部１０６は出力端子を有し、表示装置１２０に対して映像を出力する機能を有する。

操作部１０７は押しボタン等を有し、ユーザからの操作を受け付ける機能を有する。
＜１−２−２．音声分類部１０４の構成＞
以下、音声分類部１０４について更に詳しく説明する。

図２は音声分類部１０４の機能構成図である。

音声分類部１０４は、音響特徴抽出部２０１、基準音響特徴記憶部２０２、区間特徴抽出部２０３、基準区間特徴記憶部２０４、区間類似度計算部２０５、総合特徴抽出部２０６、基準総合特徴記憶部２０７及び分類部２０８により構成される。

音響特徴抽出部２０１、区間特徴抽出部２０３、区間類似度計算部２０５、総合特徴抽出部２０６及び分類部２０８の機能は、メモリに格納されたプログラムをプロセッサが実行することにより実現される。

基準音響特徴記憶部２０２、基準区間特徴記憶部２０４及び基準総合特徴記憶部２０７は、メモリにより実現される。

音響特徴抽出部２０１は、音声抽出部１０３で抽出したオーディオ信号の短時間区間毎に、区間特徴の抽出に用いられる音響特徴３０１を抽出する機能を有する。音響特徴３０１のデータ構成及び抽出結果の例は図３に示す。

音響特徴３０１としては、ＭＦＣＣ（Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔｓ：メル周波数ケプストラム係数）を用いることができる。ＭＦＣＣを用いると音響特徴３０１は所定数の次元を持つベクトルとして表すことができる。以下では、２６次元とした場合を例にとって説明する。

図３に示すように、音響特徴３０１はＭ０１〜Ｍ２６の２６次元の成分を持つベクトルとして表される。同図の例は、５０００ｍｓのオーディオ信号の各区間から音響特徴３０１を抽出している途中経過の状況を示している。０〜１０ｍｓの短時間区間から１０００〜１０１０ｍｓの短時間区間までの音響特徴３０１が抽出されており、４９９０〜５０００ｍｓの短時間区間は未だ音響特徴３０１が抽出されていない。

基準音響特徴記憶部２０２は、区間特徴抽出部２０３が使用する音響特徴辞書４００のデータを格納しているメモリの領域である。

図４は音響特徴辞書４００のデータ構成及び内容例である。同図に示すように音響特徴辞書４００は、基準音響特徴４０１と音響ＩＤ４０２（ＩＤｅｎｔｉｆｉｅｒ）との組により構成されている。なお、図中では説明の便宜のため各基準音響特徴４０１に対応する名前（左端の列）を表記しているが、実際には名前を音響特徴辞書４００に含める必要はない。

ここで基準音響特徴４０１は、区間特徴抽出部２０３が各単時間区間の音響特徴３０１と比較するためのデータであり、音響特徴３０１の構成に相当する構成を持つ。ここでは、基準音響特徴４０１は音響特徴３０１と同じＭ０１〜Ｍ２６の２６次元の成分を持つベクトルとして表される。基準音響特徴４０１は短時間区間に鳴っている音（歓声や笛の音など）の特徴を示している。

また、音響ＩＤ４０２は各基準音響特徴４０１を識別するためのＩＤであり、各基準音響特徴４０１と１対１に対応付けられている。

図４の例では、「歓声」や「笛の音」など、Ａ００１〜Ａ１００までの音響ＩＤ４０２を持つ１００個の基準音響特徴４０１が音響特徴辞書４００に含まれている。例えば「歓声」の基準音響特徴４０１は、歓声を録音したオーディオ信号から作成されたデータである。

音響特徴辞書４００は予め作成されて基準音響特徴記憶部２０２に格納されているものとし、変更されないものとする。

以下では、図４で示した音響特徴辞書４００に含まれる基準音響特徴４０１を例にとる場合には、その基準音響特徴４０１を音響ＩＤ４０２によって呼ぶこととする。例えば、“Ａ００１”の音響ＩＤ４０２で識別される基準音響特徴４０１は、“基準音響特徴Ａ００１”と呼ぶ。

区間特徴抽出部２０３は、短時間区間毎に区間特徴５０１を抽出する機能を有する。区間特徴５０１のデータ構成及び抽出結果の例は図５に示す。

区間特徴５０１は、オーディオ信号の短時間区間毎に、どの音がどの程度含まれているかを示すデータであり、音響特徴３０１と基準音響特徴４０１との類似度により構成される。類似度は音響特徴３０１を示すベクトルと基準音響特徴４０１を示すベクトルとのユークリッド距離等から求めることができる。以下、音響特徴３０１と基準音響特徴４０１との類似度を音響類似度ということとする。

図５に示すように、区間特徴５０１は音響特徴辞書４００が持つ各基準音響特徴４０１（ここでは基準音響特徴Ａ００１〜基準音響特徴Ａ１００）との音響類似度により構成されている。区間特徴５０１は上記の各音響類似度を成分として持つ１００次元のベクトルとして表される。

同図の例は、５０００ｍｓのオーディオ信号の各区間から区間特徴５０１を抽出している途中経過の状況を示している。０〜１０ｍｓの短時間区間から１０００〜１０１０ｍｓの短時間区間までの区間特徴５０１が抽出されており、４９９０〜５０００ｍｓの短時間区間は未だ区間特徴５０１が抽出されていない。

基準区間特徴記憶部２０４は、区間類似度計算部２０５が使用する区間特徴辞書６００のデータを格納しているメモリの領域である。

図６は区間特徴辞書６００のデータ構成及び内容例である。同図に示すように区間特徴辞書６００は、基準区間特徴６０１と特徴ＩＤ６０２との組により構成されている。なお、図中では説明の便宜のため各基準区間特徴６０１に対応する名前（左端の列）を表記しているが、実際には名前を区間特徴辞書６００に含める必要はない。

ここで基準区間特徴６０１は、区間類似度計算部２０５が各単時間区間の区間特徴５０１と比較するためのデータであり、区間特徴５０１の構成に相当する構成を持つ。ここでは、基準区間特徴６０１は区間特徴５０１と同じく音響特徴辞書４００が持つ各基準音響特徴４０１との音響類似度に相当するデータで構成されている。基準区間特徴６０１は区間特徴５０１と同じく１００次元のベクトルとして表される。

基準区間特徴６０１は短時間区間における状況（音楽が鳴っている、屋外にいる等）を表している。

また、特徴ＩＤ６０２は各基準区間特徴６０１を識別するためのＩＤであり、各基準区間特徴６０１と１対１に対応付けられている。

図６の例では、「音楽」や「屋外」など、Ｆ００１〜Ｆ１００までの特徴ＩＤ６０２を持つ１００個の基準区間特徴６０１が区間特徴辞書６００に含まれている。例えば「音楽」の基準区間特徴６０１は、音楽を録音したオーディオ信号から作成されたデータである。

区間特徴辞書６００は予め作成されて基準区間特徴記憶部２０４に格納されているものとし、変更されないものとする。

以下では、図６で示した区間特徴辞書６００に含まれる基準区間特徴６０１を例にとる場合には、その基準区間特徴６０１を特徴ＩＤ６０２によって呼ぶこととする。例えば、“Ｆ００１”の特徴ＩＤ６０２で識別される基準区間特徴６０１は、“基準区間特徴Ｆ００１”と呼ぶ。

区間類似度計算部２０５は、短時間区間毎に区間特徴抽出部２０３が抽出した区間特徴５０１と各基準区間特徴６０１との類似度を計算する機能を有する。ここで、区間特徴５０１と基準区間特徴６０１との類似度を区間類似度ということとする。

図７は区間類似度計算部２０５が計算した区間類似度の例である。同図に示すように、区間類似度は短時間区間毎に基準区間特徴Ｆ００１〜基準区間特徴Ｆ１００に対して計算される。同図の例は、５０００ｍｓのオーディオ信号の各区間での区間類似度を計算している途中経過の状況を示している。０〜１０ｍｓの短時間区間から１０００〜１０１０ｍｓの短時間区間までの区間類似度が計算されており、４９９０〜５０００ｍｓの短時間区間は未だ区間類似度が計算されていない。

区間類似度計算部２０５は更に、区間類似度を計算した結果から、オーディオ信号の短時間区間毎にその短時間区間との区間類似度が最も高い基準区間特徴である代表区間特徴を判定する。代表区間特徴は、処理対象の短時間区間における状況を分類したものと考えることができる。

図８は区間類似度計算部２０５が判定した代表区間特徴の例である。同図の例では、０〜１０ｍｓの短時間区間において、図７で最も区間類似度の高かった基準区間特徴Ｆ００１が代表区間特徴と判定されている。そして、他の短時間区間についても同様にして最も区間類似度の高い基準区間特徴が代表区間特徴と判定されている。

総合特徴抽出部２０６は、区間類似度計算部２０５が各短時間区間について求めた代表区間特徴に基づいて総合特徴９０１を抽出する機能を有する。総合特徴９０１のデータ構成及び内容例は図９に示す。

総合特徴９０１は複数の短時間区間に係る特徴であり、オーディオ信号が全体的にどのような状況（パーティや会議等）であるかを表している。

ここでは総合特徴９０１は、各基準区間特徴について、その基準区間特徴が代表区間特徴である短時間区間が、オーディオ信号が含む全ての短時間区間のうちどの程度の割合で含まれているかを示す含有度により構成されているものとする。

図９に示すように、総合特徴９０１は区間特徴辞書６００が持つ各基準区間特徴６０１（ここでは基準区間特徴Ｆ００１〜基準区間特徴Ｆ１００）についての含有度により構成されている。総合特徴９０１は上記の各含有度を成分として持つ１００次元のベクトルとして表される。

基準総合特徴記憶部２０７は、分類部２０８が使用する総合特徴辞書１０００のデータを格納しているメモリの領域である。

図１０は総合特徴辞書１０００のデータ構成及び内容例である。同図に示すように総合特徴辞書１０００は、基準総合特徴１００１と分類ＩＤ１００２との組により構成されている。なお、図中では説明の便宜のため各基準総合特徴１００１に対応する名前（左端の列）を表記しているが、実際には名前を総合特徴辞書１０００に含める必要はない。

ここで基準総合特徴１００１は、分類部２０８がオーディオ信号の総合特徴９０１と比較するためのデータであり、総合特徴９０１の構成に相当する構成を持つ。基準総合特徴１００１は総合特徴９０１と同じく１００次元のベクトルとして表される。

また、分類ＩＤ１００２は各基準総合特徴１００１を識別するためのＩＤであり、各基準総合特徴１００１と１対１に対応付けられている。

それぞれの基準総合特徴１００１及び分類ＩＤ１００２は分類先のカテゴリと対応付けられている。

図１０の例では、「パーティ」や「会議」など、Ｃ００１〜Ｃ１００までの分類ＩＤ１００２を持つ１００個の基準総合特徴１００１が総合特徴辞書１０００に含まれている。例えば「パーティ」の基準総合特徴１００１は、パーティの様子を録音したオーディオ信号から作成されたデータである。

総合特徴辞書１０００は予め作成されて基準総合特徴記憶部２０７に格納されているものとし、変更されないものとする。

分類部２０８は、総合特徴抽出部２０６がオーディオ信号から抽出した総合特徴９０１に基づいて、そのオーディオ信号を分類する機能を有する。具体的には、オーディオ信号の総合特徴９０１と、基準総合特徴記憶部２０７に格納されている各基準総合特徴１００１とを比較して類似度を計算し、最も類似度の高いものに分類する。以下、総合特徴９０１と基準総合特徴１００１との類似度を総合類似度ということとする。

分類部２０８は更に、分類対象のオーディオ信号を含むファイルと分類した結果の分類ＩＤ１００２とを対応付けて分類情報記憶部１０５に格納する。
＜１−３．動作＞
以下では、映像記録装置１００の動作について詳しく説明する。

映像記録装置１００の動作は大きく分けて、動画記録処理及び動画表示処理に分けられる。また、動画記録処理には音声分類処理が含まれる。

動画記録処理は、記録媒体１１０から動画を取得して自装置内に記録し、それぞれの動画を分類する処理である。動画記録処理は、記録媒体１１０を映像記録装置１００に装着した状態でユーザにより記録媒体１１０に格納されている動画を映像記録装置１００に記録する旨の操作を受けたときに行われる。

音声分類処理は、動画を分類するために、その動画から抽出された音声の分類を行う処理である。そして、音声の分類結果は動画の分類にそのまま用いることとする。

動画表示処理は、音声分類処理の結果に基づいて動画を表示する処理である。動画表示処理は、ユーザから動画の表示を指示する操作を受けたときに行われる。
＜１−３−１．動画記録処理＞
以下、図１２に示す流れ図に沿って処理を説明する。

まず、ユーザにより記録媒体１１０に記録されている動画を映像記録装置１００に入力する旨の指示があった１以上の動画のファイルを入力部１０１が記録媒体１１０から取得し、コンテンツ記憶部１０２に格納する（ステップＳ１２０１）。

次に、コンテンツ記憶部１０２に格納されている動画のファイル群から未分類の動画を１つ取得し、音声抽出部１０３がその動画からオーディオ信号を抽出する（ステップＳ１２０２）。ここで未分類の動画というのは、分類情報記憶部１０５にその動画の分類の結果が格納されていない動画のことである。ステップＳ１２０２で取得した動画は、最初は全て未分類の状態である。

そして、音声抽出部１０３により抽出されたオーディオ信号に対して、音声分類部１０４が音声分類処理を行う（ステップＳ１２０３）。この音声分類処理の中で、分類情報記憶部１０５にその動画を分類した結果を格納する。

音声分類処理が終了すると、コンテンツ記憶部１０２に格納されている動画のファイル群から未分類の動画があるか否かを判定する（ステップＳ１２０４）。

ない場合（ステップＳ１２０４：Ｎｏ）、即ち全ての動画が分類された場合には動画記録処理を終了する。ある場合（ステップＳ１２０４：Ｙｅｓ）にはステップＳ１２０２に戻る。
＜１−３−２．音声分類処理＞
以下、図１３に示す流れ図に沿って、１つの動画から抽出された１つのオーディオ信号についての音声分類処理を説明する。ここでは、分類対象のオーディオ信号をオーディオ信号Ａということとする。

この処理では、オーディオ信号Ａが含む全ての短時間区間について基準区間特徴６０１それぞれとの区間類似度を求め、その結果からオーディオ信号Ａの総合特徴９０１を抽出して分類する。

まず、各基準区間特徴についての含有区間数を全て０にする（ステップＳ１３０１）。

ここで基準区間特徴の含有区間数は、この音声分類処理を開始してから処理対象とした短時間区間のうち、その基準区間特徴が代表区間特徴となる短時間区間の個数である。含有区間数は含有度の計算に用いられる。

次に、オーディオ信号Ａが含む短時間区間のうち、今回の音声分類処理が始まってから未だ処理対象としていない短時間区間が存在するか否かを判定する（ステップＳ１３０２）。

存在する場合（ステップＳ１３０２：Ｙｅｓ）、未処理の短時間区間のうちの１つを処理対象の短時間区間として選択する（ステップＳ１３０３）。以降、このステップで選択した短時間区間は短時間区間Ｓということとする。

ここでは短時間区間Ｓは、オーディオ信号Ａの最初の１０ｍｓの区間から順次選択していくものとする。例えば、今回の音声分類処理が始まってから１回目のステップＳ１３０３では最初の０〜１０ｍｓの区間を選択し、２回目のステップＳ１３０３では１０〜２０ｍｓの区間を選択する。

音響特徴抽出部２０１が短時間区間Ｓから音響特徴３０１を抽出する（ステップＳ１３０４）。ここでは、短時間区間ＳについてＭＦＣＣの計算を行うことにより音響特徴３０１を抽出する。

ステップ１３０４の処理を、１０００〜１０１０ｍｓまで行った途中経過の例は図３に示す。

区間特徴抽出部２０３が、短時間区間Ｓの音響特徴３０１と基準音響特徴記憶部２０２に格納されている音響特徴辞書４００の各基準音響特徴４０１との音響類似度を計算することで、短時間区間Ｓの区間特徴５０１を抽出する（ステップＳ１３０５）。

音響類似度の計算は、音響特徴３０１を示すベクトルと基準音響特徴４０１を示すベクトルとのユークリッド距離を用いた方法を用いることができる。例えばユークリッド距離を変数としたガウス関数で計算することができる。

ステップ１３０５の処理を、１０００〜１０１０ｍｓまで行った途中経過の例は図５に示す。

区間類似度計算部２０５が、短時間区間Ｓの区間特徴５０１と基準区間特徴記憶部２０４に格納されている区間特徴辞書６００の各基準区間特徴６０１との区間類似度を計算する（ステップＳ１３０６）。

区間類似度の計算は、区間特徴５０１を示すベクトルと基準区間特徴６０１を示すベクトルとのユークリッド距離を用いた方法を用いることができる。例えばユークリッド距離を変数としたガウス関数で計算することができる。

ステップ１３０６の処理を、１０００〜１０１０ｍｓまで行った途中経過の例は図７に示す。

そして、短時間区間Ｓと最も区間類似度の高かった基準区間特徴を、短時間区間Ｓの代表区間特徴として選び出す。最も高い区間類似度となる基準区間特徴が複数あった場合には、所定の条件によって１つの基準区間特徴（例えば特徴ＩＤ６０２の数値の部分が小さい方）を選び出す。

ステップ１３０７の処理を、１０００〜１０１０ｍｓまで行った途中経過の例は図８に示す。

総合特徴抽出部２０６が、区間類似度計算部２０５により選び出された代表区間特徴である基準区間特徴の含有区間数を１増やす（ステップＳ１３０７）。

ステップＳ１３０７が終了すると、次の短時間区間について処理を行うためステップＳ１３０２に戻る。

ステップＳ１３０２において、未処理の区間が存在しないと判定された場合（ステップＳ１３０２：Ｎｏ）、即ち全ての区間について区間毎の処理が終了した場合には、以下の処理を行う。

まず総合特徴抽出部２０６が、各基準区間特徴のオーディオ信号Ａにおける含有度を計算することでオーディオ信号Ａの総合特徴９０１を抽出する（ステップＳ１３０８）。ここで含有度は、含有区間数をオーディオ信号Ａの短時間区間の総数で割った値として算出される。

ステップ１３０８で総合特徴９０１を抽出した結果の例は図９に示す。

次に分類部２０８が、総合特徴抽出部２０６により抽出された総合特徴９０１と、基準総合特徴記憶部２０７に格納されている総合特徴辞書１０００の各基準総合特徴１００１との総合類似度を計算し、最も総合類似度の高い基準総合特徴に対応するカテゴリに分類する（ステップＳ１３０９）。最も高い総合類似度となる基準総合特徴が複数あった場合には、所定の条件によって１つの基準総合特徴（例えば分類ＩＤ１００２の数値の部分が小さい方）を選び出し、選び出した基準総合特徴に対応するカテゴリに分類する。

ステップＳ１３０９で総合類似度の計算を行った結果及び分類結果の例は図１１に示す。

最後に分類部２０８が、オーディオ信号Ａを含む動画のファイル名と、分類したカテゴリの分類ＩＤとを対応付けて分類情報記憶部１０５に格納する（ステップＳ１３１０）。
＜１−３−３．動画表示処理＞
以下、図１４に示す流れ図に沿って動画表示処理を説明する。

ユーザから動画の表示を指示する操作を受けると、出力部１０６が表示装置１２０に、ユーザが表示を所望するカテゴリを入力するよう促す画面を表示させて、操作部１０７が入力を受け付ける（ステップＳ１４０１）。ここでは、カテゴリ一覧を表示して、一覧からカテゴリを選択することで入力できるようにしていることとする。

ユーザから表示を所望するカテゴリの入力があると、そのカテゴリに対応する分類ＩＤによって、分類情報記憶部１０５に格納されているデータからそのカテゴリに属するファイルを検索する（ステップＳ１４０２）。

検索した結果、ユーザの選択したカテゴリに属するファイルの動画を出力部１０６が出力し、表示装置１２０にその動画を再生させる（ステップＳ１４０３）。
＜２．実施形態２＞
本発明の実施形態２として、実施形態１の映像記録装置１００を、音響特徴辞書４００、区間特徴辞書６００及び総合特徴辞書１０００を自装置内で作成するように変形した映像記録装置１００ａについて説明する。

なお、以下では音響特徴辞書４００、区間特徴辞書６００及び総合特徴辞書１０００をまとめて基準データということとする。
＜２−１．概要＞
実施形態１の映像記録装置１００では、基準データは予め作成されており、自装置内で作成や変更をしないこととしていた。

実施形態２の映像記録装置１００ａではこれらの基準データを、ユーザが入力した動画に含まれるオーディオ信号を用いて作成する。

こうすることにより、ユーザの記録する動画の傾向により良く合った分類が行えるようになる。
＜２−２．構成＞
映像記録装置１００ａの構成は図１５の機能構成図に示すように、映像記録装置１００に加えて基準作成部１５０１を備え、他は映像記録装置１００と同様である。

基準作成部１５０１は、コンテンツ記憶部１０２に格納されている動画に含まれるオーディオ信号から基準データを作成する機能を有する。作成した基準データは、音声分類部１０４に含まれる基準音響特徴記憶部２０２、基準区間特徴記憶部２０４及び基準総合特徴記憶部２０７に格納する。

以下、基準作成部１５０１について更に詳しく説明する。

図１６は基準作成部１５０１の機能構成図である。

同図に示すように、基準作成部１５０１は基準音声記憶部１６０１、音響特徴抽出部２０１ａ、区間特徴抽出部２０３ａ、区間類似度計算部２０５ａ、総合特徴抽出部２０６ａ、基準音響特徴作成部１６０２、基準区間特徴作成部１６０３及び基準総合特徴作成部１６０４により構成される。

音響特徴抽出部２０１ａ、区間特徴抽出部２０３ａ、区間類似度計算部２０５ａ、総合特徴抽出部２０６ａ、基準音響特徴作成部１６０２、基準区間特徴作成部１６０３及び基準総合特徴作成部１６０４は、メモリに格納されたプログラムをプロセッサが実行することにより実現される。

基準音声記憶部１６０１は、基準データを作成するために用いられる複数のオーディオ信号を記憶するメモリの領域である。

基準音声記憶部１６０１には、ユーザが使用する前の初期状態の基準データを作成するための複数のオーディオ信号が予め格納されている。予め格納されているオーディオ信号の数は、基準総合特徴作成部１６０４が作成する基準総合特徴の数以上であるものとする。

そして、ユーザが映像記録装置１００ａに動画を入力すると、その動画に含まれるオーディオ信号を更に格納する。

音響特徴抽出部２０１ａ、区間特徴抽出部２０３ａ、区間類似度計算部２０５ａ及び総合特徴抽出部２０６ａは、基準音声記憶部１６０１に格納されているオーディオ信号を元に処理を行うこと以外は、それぞれ音声分類部１０４に含まれる音響特徴抽出部２０１、区間特徴抽出部２０３、区間類似度計算部２０５及び総合特徴抽出部２０６と全く同様の機能を持つ。

基準音響特徴作成部１６０２は、音響特徴抽出部２０１ａが音響特徴を抽出した結果から音響特徴辞書４００を作成する機能を有する。作成した音響特徴辞書４００は、音声分類部１０４に含まれる基準音響特徴記憶部２０２に格納する。

基準区間特徴作成部１６０３は、区間特徴抽出部２０３ａが区間特徴を抽出した結果から区間特徴辞書６００を作成する機能を有する。作成した区間特徴辞書６００は、音声分類部１０４に含まれる基準区間特徴記憶部２０４に格納する。

基準総合特徴作成部１６０４は、総合特徴抽出部２０６ａが総合特徴を抽出した結果から総合特徴辞書１０００を作成する機能を有する。作成した総合特徴辞書１０００は、音声分類部１０４に含まれる基準総合特徴記憶部２０７に格納する。
＜２−３．動作＞
以下、映像記録装置１００ａの動作について説明する。なお、実施形態１の映像記録装置１００と同じ動作の部分については説明を割愛する。

映像記録装置１００ａの動作は、動画記録処理の一部を変更し、基準作成処理を追加している。
＜２−３−１．動画記録処理＞
動画記録処理（図１２）は、以下のように変更される。

実施形態１では動画を取得（ステップＳ１２０１）した際に、取得した動画をコンテンツ記憶部１０２に格納することとした。実施形態２では更に、その動画からオーディオ信号を抽出して、基準作成部１５０１に含まれる基準音声記憶部１６０１にそのオーディオ信号を格納する。
＜２−３−２．基準作成処理＞
基準作成処理は、基準データを作成する処理である。

基準作成処理は、ユーザによる基準作成を指示する旨の操作を操作部１０７が受けたときに行われる。

以下、図１７に示す流れ図に沿って基準作成処理を説明する。

基準音響特徴作成部１６０２が音響特徴辞書４００を作成し、基準音響特徴記憶部２０２に格納する音響特徴辞書作成処理を行う（ステップＳ１７０１）。

基準区間特徴作成部１６０３が区間特徴辞書６００を作成し、基準区間特徴記憶部２０４に格納する区間特徴辞書作成処理を行う（ステップＳ１７０２）。

基準総合特徴作成部１６０４が総合特徴辞書１０００を作成し、基準総合特徴記憶部２０７に格納する総合特徴辞書作成処理を行う（ステップＳ１７０３）。

そして、コンテンツ記憶部１０２に格納されている全ての動画のファイルに対して、音声抽出部１０３がオーディオ信号の抽出を行い、音声分類部１０４が音声分類処理を行う（ステップＳ１７０４）。
＜２−３−３．音響特徴辞書作成処理＞
音響特徴辞書作成処理は、上述の基準作成処理の一部である。

以下、図１８に示す流れ図に沿って音響特徴辞書作成処理を説明する。

まず音響特徴抽出部２０１ａが、基準音声記憶部１６０１に格納されている全オーディオ信号の全短時間区間から音響特徴を抽出する（ステップＳ１８０１）。

次に、抽出された全ての音響特徴を分類対象としてクラスタリングする（ステップＳ１８０２）。

クラスタリングは、大量のデータをクラスタと呼ばれるデータの集合に分類する手法である。ここではクラスタリングの方法として、ｋ−ｍｅａｎｓ法を用いることとする。

ｋ−ｍｅａｎｓ法では、生成するクラスタの数ｋ（例えば１００）を予め決め、分類対象とする大量のデータ（ここでは音響特徴）から自動的にクラスタをｋ個生成する。そして、分類対象の全てのデータを、ｋ個のクラスタのいずれか１つに分類する。

そして、音響特徴をクラスタリングした結果に基づいて、音響特徴辞書４００を作成する（ステップＳ１８０３）。

ここでは、各クラスタに属する音響特徴の平均値をそれぞれ基準音響特徴４０１とし、ｋ個の基準音響特徴４０１を計算する。そして、計算したｋ個の基準音響特徴４０１それぞれに音響ＩＤ４０２を対応付け、ｋ個の基準音響特徴４０１を持つ音響特徴辞書４００を作成する。

音響ＩＤ４０２は、今回の音響特徴辞書作成処理を始めてから各クラスタを生成した順に、Ａ００１から“Ａ”に３桁の連番を付加したＩＤを対応付けるものとする。例えば、２５番目に生成したクラスタに対応する音響ＩＤ４０２はＡ０２５となり、そのクラスタから計算された基準音響特徴４０１とＡ０２５の音響ＩＤ４０２とが対応付けられる。

最後に、基準音響特徴記憶部２０２に、新たに作成した音響特徴辞書４００を格納する（ステップＳ１８０４）。ここでは、基準音響特徴記憶部２０２に既に音響特徴辞書４００が格納されていた場合には、新たに作成した音響特徴辞書４００で上書きすることとする。
＜２−３−４．区間特徴辞書作成処理＞
区間特徴辞書作成処理は、上述の基準作成処理の一部である。

以下、図１９に示す流れ図に沿って区間特徴辞書作成処理を説明する。

まず区間特徴抽出部２０３ａが、基準音声記憶部１６０１に格納されている全オーディオ信号の全短時間区間の区間特徴を抽出する（ステップＳ１９０１）。

各単時間区間の区間特徴の抽出には、音響特徴抽出部２０１ａが抽出した音響特徴と、上述の音響特徴辞書作成処理で作成された音響特徴辞書４００とを用いる。

次に、抽出された全ての区間特徴を分類対象としてクラスタリングする（ステップＳ１９０２）。ここではｋ−ｍｅａｎｓ法を用いて、クラスタの数ｋ＝１００としてクラスタリングすることとする。

そして、区間特徴をクラスタリングした結果に基づいて、区間特徴辞書６００を作成する（ステップＳ１９０３）。

ここでは、各クラスタに属する区間特徴の平均値をそれぞれ基準区間特徴６０１とし、ｋ個の基準区間特徴６０１を計算する。そして、計算したｋ個の基準区間特徴６０１それぞれに特徴ＩＤ６０２を対応付け、ｋ個の基準区間特徴６０１を持つ区間特徴辞書６００を作成する。

特徴ＩＤ６０２は、今回の区間特徴辞書作成処理を始めてから各クラスタを生成した順に、Ｆ００１から“Ｆ”に３桁の連番を付加したＩＤを対応付けるものとする。例えば、５０番目に生成したクラスタに対応する特徴ＩＤ６０２はＦ０５０となり、そのクラスタから計算された基準区間特徴６０１とＦ０５０の特徴ＩＤ６０２とが対応付けられる。

最後に、基準区間特徴記憶部２０４に、新たに作成した区間特徴辞書６００を格納する（ステップＳ１９０４）。ここでは、基準区間特徴記憶部２０４に既に区間特徴辞書６００が格納されていた場合には、新たに作成した区間特徴辞書６００で上書きすることとする。
＜２−３−５．総合特徴辞書作成処理＞
総合特徴辞書作成処理は、上述の基準作成処理の一部である。

以下、図２０に示す流れ図に沿って総合特徴辞書作成処理を説明する。

まず総合特徴抽出部２０６ａが、基準音声記憶部１６０１に格納されている全オーディオ信号の総合特徴を抽出する（ステップＳ２００１）。

各オーディオ信号の総合特徴の抽出には、区間類似度計算部２０５ａが計算したそれぞれのオーディオ信号における短時間区間毎の区間類似度を用いる。

また、区間類似度計算部２０５ａは短時間区間毎の区間類似度を、区間特徴抽出部２０３ａが抽出した区間特徴と、上述の区間特徴辞書作成処理で作成された区間特徴辞書６００とを用いて計算する。

次に、抽出された全ての総合特徴を分類対象としてクラスタリングする（ステップＳ２００２）。ここではｋ−ｍｅａｎｓ法を用いて、クラスタの数ｋ＝１００としてクラスタリングすることとする。

そして、総合特徴をクラスタリングした結果に基づいて、総合特徴辞書１０００を作成する（ステップＳ２００３）。

ここでは、各クラスタに属する総合特徴の平均値をそれぞれ基準総合特徴１００１とし、ｋ個の基準総合特徴１００１を計算する。そして、計算したｋ個の基準総合特徴１００１それぞれに分類ＩＤ１００２を対応付け、ｋ個の基準総合特徴１００１を持つ総合特徴辞書１０００を作成する。

分類ＩＤ１００２は、今回の総合特徴辞書作成処理を始めてから各クラスタを生成した順に、Ｃ００１から“Ｃ”に３桁の連番を付加したＩＤを対応付けるものとする。例えば、７５番目に生成したクラスタに対応する分類ＩＤ１００２はＣ０７５となり、そのクラスタから計算された基準総合特徴１００１とＣ０７５の分類ＩＤ１００２とが対応付けられる。

最後に、基準総合特徴記憶部２０７に、新たに作成した総合特徴辞書１０００を格納する（ステップＳ１９０４）。ここでは、基準総合特徴記憶部２０７に既に総合特徴辞書１０００が格納されていた場合には、新たに作成した総合特徴辞書１０００で上書きすることとする。
＜補足＞
以上、本発明に係る音声分類装置について実施形態に基づいて説明したが、本発明は上述の実施形態で示した通りの音声分類装置に限られないことはもちろんである。

（１）本発明は、実施形態で示した音声分類の処理等（図６〜９を参照）を音声分類装置のプロセッサ及びそのプロセッサに接続された各種回路に実行させるためのプログラムコードからなる制御プログラムを、記録媒体に記録すること又は各種通信路等を介して流通させ頒布することもできる。このような記録媒体には、ＩＣカード、ハードディスク、光ディスク、フレキシブルディスク、ＲＯＭなどがある。流通、頒布された制御プログラムはプロセッサに読み出されうるメモリなどに格納されることにより利用に供され、そのプロセッサがその制御プログラムを実行することにより各実施形態で示したような機能が実現されるようになる。なお、制御プログラムの一部を音声分類装置とは別個のプログラム実行可能な装置（プロセッサ）に各種ネットワークを介して送信して、その別個のプログラム実行可能な装置においてその制御プログラムの一部を実行させることとしても良い。

（２）音声分類装置を構成する構成要素の一部又は全部は、１又は複数の集積回路（ＩＣ、ＬＳＩなど）として実装されることとしても良く、音声分類装置の構成要素に更に他の要素を加えて集積回路化（１チップ化）されることとしても良い。

（３）実施形態１、２では映像記録装置の構成要素として音声分類装置を説明したが、音声記録装置の構成要素としても良いし、外部装置からオーディオ信号を取得して分類結果のカテゴリ名等を出力する音声分類装置であっても良い。つまり、オーディオ信号の分類を行う装置であればよい。

（４）実施形態１、２では記録媒体から動画のファイル群を取得することとしたが、取得の手段は記録媒体を用いる方法に限らない。無線又は有線の放送や、ネットワーク等から取得しても良い。また、音声分類装置がマイク等の録音装置を備え、その録音装置を用いて録音したオーディオ信号を取得しても良い。

（５）実施形態１、２では区間特徴抽出部が行う区間特徴の抽出を、音響特徴抽出部が抽出した音響特徴と、基準音響特徴記憶部に格納されている音響特徴辞書とに基づいて行うこととしたが、周波数分布に係る特徴を抽出する方法であればこれに限るものではない。

例えば、音響特徴抽出部と基準音響特徴記憶部とを省略し、区間特徴抽出部が区間特徴として、音響特徴に相当する特徴を抽出することとしても良い。この場合、基準区間特徴記憶部に格納されている区間特徴辞書も音響特徴辞書に相当するデータとなる。

（６）実施形態１、２ではコンテンツ記憶部、分類情報記憶部、基準特徴記憶部、基準区間特徴記憶部及び基準総合特徴記憶部はメモリにより実現されることとしたが、音声分類装置が読み書き可能な記憶装置であればこれに限るものではない。例えばハードディスクやフレキシブルディスク等であっても良いし、音声分類装置に内蔵の記憶装置ではなく外付けの記憶装置であっても良い。

（７）実施形態１、２では表示装置に映像を出力することとしたが、これに限るものではない。例えば、動画のファイルにその動画の分類結果を示すメタデータを付与し、そのファイルを外部記憶装置に出力しても良い。つまり、分類結果を用いた出力を行えばよい。

（８）実施形態１、２では操作部は押しボタン等によりユーザからの操作を受け付けることとしたが、何らかの契機により各種の処理を行うのであればこれに限るものではない。例えばリモコンによってユーザからの操作を受けても良いし、ユーザからの操作によらず記録媒体を装着したことを検出して自動的に各種の処理を行っても良い。

（９）実施形態１、２では音響特徴としてＭＦＣＣを用いることとしたが、オーディオ信号の短時間区間から抽出できる周波数に係る特徴であればＭＦＣＣに限る必要はない。例えば、短時間区間の周波数スペクトルを示す特徴であっても良い。

（１０）実施形態１、２では分類結果は分類情報記憶部に格納することとしたが、分類対象のファイルのメタデータを書き込む領域に分類情報を格納して、動画ファイルと共にコンテンツ記憶部に格納しても良い。

また、分類ＩＤに代えて、各カテゴリに対応するカテゴリ名の文字列を用いても良い。

（１１）実施形態１では音響特徴辞書、区間特徴辞書及び総合特徴辞書はいずれも予め定められており変更されないとしたが、変更されることとしても差し支えない。例えば、これらのデータをネットワークからダウンロードして更新することとしても良い。

（１２）実施形態１、２では含有度を求めるために含有区間数を求め、含有区間数を処理対象のオーディオ信号の区間数（全区間数）で割って含有度を算出したが、別の方法によって含有度を算出しても良い。

例えば、含有区間数を１増やす処理（図１３のステップＳ１３０７）を、含有度を全区間数の逆数（１／全区間数）だけ増やす処理に置き換え、ステップＳ１３０８を省略しても良い。このようにすると、処理対象のオーディオ信号の全区間についてステップＳ１３０７が終了した段階で、含有度は含有区間数の全区間数に対する割合と等しくなる。

また、各基準区間特徴の含有度は処理対象のオーディオ信号にその基準区間特徴が代表区間特徴となる区間がどの程度含まれるかを示す値であれば、含有区間数を全区間数で割った値に限る必要はない。例えば、含有度は含有区間数の全区間数に対する割合を基準区間特徴毎に重み付けした値であっても良い。

重み付けの方法としては、基準区間特徴毎に逆出現頻度（ＩＤＦ：ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）を求め、各割合をＩＤＦ値で重み付けして、ＴＦ−ＩＤＦ（ＴｅｒｍＦｒｅｑｕｅｎｃｙ−ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）値として含有度を求める方法を用いても良い。

（１３）実施形態１、２ではオーディオ信号の各短時間区間が連続した区間である場合について述べたが、各短時間区間はそれぞれの一部が重畳していても良いし、各短時間区間の間に区間特徴の検出に用いない期間があっても良い。

例えば短時間区間を、それぞれ２ｍｓずつ重畳させて、０〜１０ｍｓ、８〜１８ｍｓ、１６〜２６ｍｓ、２４〜３４ｍｓ…となるようにしても良い。

また、各短時間区間の間を２０ｍｓずつ開けて、０〜１０ｍｓ、３０〜４０ｍｓ、６０〜７０ｍｓ…となるようにしても良い。

（１４）実施形態２では基準音響特徴作成部、基準区間特徴作成部及び基準総合特徴作成部はいずれも基準音声記憶部に格納されている同じオーディオ信号を用いて基準データの作成をそれぞれ行うこととしたが、それぞれ異なるオーディオ信号を用いても良い。

例えば、基準音響特徴作成部で用いるオーディオ信号は「笛の音」や「話し声」など単一の音源による音を録音したものであり、基準区間特徴作成部及び基準総合特徴作成部で用いるオーディオ信号は「パーティ」や「会議」など様々な音源からの音が混在する音を録音したものであっても良い。

また、基準音響特徴作成部で用いるオーディオ信号、基準区間特徴作成部で用いるオーディオ信号及び基準総合特徴作成部で用いるオーディオ信号をそれぞれユーザが選ぶこととしても良い。

（１５）実施形態２では基準音響特徴作成部、基準区間特徴作成部及び基準総合特徴作成部が作成する基準データはいずれも１００個であったが、１００個以外の数でも良い。また、それぞれが異なる数の基準データを作成しても良いし、作成する数を予め定めず動的に基準データを作成する数を決めても良い。

（１６）実施形態２では基準音声記憶部には予め基準作成用のオーディオ信号が格納されているものとしたが、必ずしも予め格納されている必要はない。例えば、ユーザが入力した動画から抽出したオーディオ信号のみを格納していても良い。

（１７）実施形態２ではクラスタリングの手法としてｋ−ｍｅａｎｓ法を用いたが、他のクラスタリング手法でも良い。ｋ−ｍｅａｎｓ法以外のクラスタリング手法としては、ウォード法などがある。

（１８）実施形態１、２では音響類似度を、音響特徴と基準音響特徴との間のユークリッド距離を変数としたガウス関数により計算するものとしたが、音響特徴と基準音響特徴との相関関係を表せる値であればこれに限るものではない。

例えば、音響特徴と基準音響特徴との間のユークリッド距離をそのまま用いることとしても良い。この場合、音響類似度の値が小さいほど音響類似度が高いことになる。

同様に、区間類似度についても、区間特徴と基準区間特徴との間のユークリッド距離を変数としたガウス関数により計算するものには限らない。

また、総合類似度についても、総合特徴と基準総合特徴との間のユークリッド距離を変数としたガウス関数により計算するものには限らない。

（１９）実施形態１、２では基準音響特徴は音響特徴の構成に相当する構成を持つこととしたが、音響特徴と比較できる構成であれば音響特徴と同じ構成に限る必要はない。基準音響特徴の構成を変更する場合には、音響類似度の計算方法を基準音響特徴の構成に合わせて変更する。

例えば、基準音響特徴は音響特徴の構成に相当するＭ０１〜Ｍ２６の２６次元の成分を持つベクトルとガウス関数の分散の値とにより構成されるものとし、音響類似度をユークリッド距離と分散の値を用いてガウス関数により計算することとしても良い。

また、基準音響特徴は上記のベクトルと分散の値との組を複数持つものとし、音響類似度をＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ：ガウス混合モデル）によって計算しても良い。

（２０）実施形態１では基準音響特徴を、「歓声」や「笛の音」等を録音したオーディオ信号から作成されたデータを例に挙げて説明したが、基準音響特徴が音響特徴と比較することのできるデータであれば作成の方法は問わない。

例えば、実施形態１の説明のように、歓声のオーディオ信号を集めてそのオーディオ信号から「歓声」の基準音声特徴を作成する等、予め分類されたオーディオ信号を集めてその分類毎に基準音声特徴を作成する「教師あり」の方法で作成しても良い。

また、実施形態２の映像記録装置１００ａのように、元々分類されていないオーディオ信号を集めてクラスタリング等により自動的に分類してその分類毎に基準音声特徴を作成する「教師なし」の方法で作成しても良い。

同様に、基準区間特徴や基準総合特徴についても作成の方法は問わず、「教師あり」の方法で作成しても「教師なし」の方法で作成しても良い。

（２１）以下、更に本発明の一実施形態に係る音声分類装置の構成及びその変形例と効果について説明する。

（ａ）本発明の一実施形態に係る音声分類装置は、オーディオ信号を取得する取得手段と、前記オーディオ信号が含む所定時間長の複数の区間それぞれについて音の周波数分布に係る特徴である区間特徴を抽出する区間特徴抽出手段と、前記区間特徴と比較される基準である基準区間特徴を複数記憶している基準区間特徴記憶手段と、前記複数の区間それぞれについて、前記区間特徴と前記基準区間特徴それぞれとを比較して、当該区間特徴と当該基準区間特徴との相関の程度を示す区間類似度を計算する計算手段と、前記オーディオ信号について、前記複数の区間それぞれにおいて計算された複数の区間類似度に基づく、複数の区間に係る特徴である総合特徴を抽出する総合特徴抽出手段と、前記総合特徴と比較する基準である基準総合特徴を１以上記憶している基準総合特徴記憶手段と、前記オーディオ信号の総合特徴と前記基準総合特徴とを比較して、その結果に基づいて、当該オーディオ信号を分類する分類手段とを備える。

上記の構成を持つ音声分類装置によれば、オーディオ信号の各区間がどのような音とどの程度相関しているかを示す区間類似度を求め、複数の区間それぞれの区間類似度から総合特徴を抽出している。そして総合特徴と、分類基準のデータである基準総合特徴とを比較することにより分類を行っている。このように複数の区間の特徴を総合して分類に用いることにより、様々な音が入り混じった音声を適切に分類することができる。

（ｂ）（ａ）に記載の音声分類装置において、前記総合特徴抽出手段は前記オーディオ信号について、基準区間特徴毎に、当該オーディオ信号に当該基準区間特徴との区間類似度が他の全ての基準区間特徴との区間類似度より高い区間がどの程度含まれるかを示す含有度を計算し、各基準区間特徴の当該オーディオ信号における前記含有度により成る総合特徴を抽出することとしても良い。

このように含有度を用いることで、オーディオ信号にどの基準区間特徴に対応する音がどの程度の時間含まれているかという基準によって分類することができる。

（ｃ）（ｂ）に記載の音声分類装置において、前記総合特徴抽出手段は各基準区間特徴の前記オーディオ信号における前記含有度を、当該基準区間特徴との区間類似度が他の全ての基準区間特徴との区間類似度より高い区間の総数の、当該オーディオ信号が含む区間の総数に対する割合に基づいて計算することとしても良い。

このように含有度を計算することで、含有度はオーディオ信号の長さによらない割合となる。このため、基準区間特徴のデータは分類対象のオーディオ信号の長さを考慮せず一定の基準を用いることができる。

（ｄ）（ｃ）に記載の音声分類装置において、前記基準区間特徴記憶部は更に、各基準区間特徴に対する、当該基準区間特徴の前記含有度の計算に用いる係数を記憶しており、前記総合特徴抽出手段は基準区間特徴の前記含有度を、前記割合と前記係数との積として計算することとしても良い。

このように含有度を計算することで、各基準区間特徴が含まれる割合に重み付けをすることができる。重要度の低い基準区間特徴は係数を低く、重要度の高い基準区間特徴は係数を高くしておくことで、重要度の高い基準区間特徴を重視して総合特徴を求めることができる。

（ｅ）（ｂ）に記載の音声分類装置において、前記区間特徴抽出手段は、前記複数の区間それぞれについて、当該区間に含まれる音のＭＦＣＣを示す音響特徴を抽出する音響特徴抽出部と、前記音響特徴と比較される基準である基準音響特徴を複数記憶している基準音響特徴記憶部とを備え、前記区間特徴は、前記区間それぞれについて計算される音響特徴と、前記基準音響特徴記憶部が記憶している基準音響特徴それぞれとの相関の程度を示す音響類似度からなるデータであり、前記区間特徴抽出手段は、前記複数の区間それぞれについて、前記音響特徴抽出部が抽出した音響特徴と前記基準音響特徴記憶部が記憶している基準音響特徴とに基づいて、当該区間の区間特徴を抽出することとしても良い。

このようにすることで、ＭＦＣＣによる特徴を用いて分類を行うことができる。ＭＦＣＣは、特に人の声などの特徴を良く表すことができる。

（ｆ）（ｂ）に記載の音声分類装置において、前記区間特徴抽出手段は、前記複数の区間それぞれについて、当該区間に含まれる音の周波数スペクトルを示す音響特徴を抽出する音響特徴抽出部と、前記音響特徴と比較される基準である基準音響特徴を複数記憶している基準音響特徴記憶部とを備え、前記区間特徴は、前記区間それぞれについて計算される音響特徴と、前記基準音響特徴記憶部が記憶している基準音響特徴それぞれとの相関の程度を示す音響類似度からなるデータであり、前記区間特徴抽出手段は、前記複数の区間それぞれについて、前記音響特徴抽出部が抽出した音響特徴と前記基準音響特徴記憶部が記憶している基準音響特徴とに基づいて、当該区間の区間特徴を抽出することとしても良い。

このようにすることで、周波数スペクトルによる特徴を用いて分類を行うことができる。周波数スペクトルは、音の高さなどの特徴を良く表すことができる。

（ｇ）（ｅ）に記載の音声分類装置において、前記基準総合特徴記憶手段は、基準総合特徴を、オーディオ信号の分類先であるカテゴリと対応付けて複数記憶しており、前記分類手段は、前記オーディオ信号の総合特徴と、複数の互いに異なる前記基準総合特徴とを比較して、当該総合特徴と当該基準総合特徴との相関の程度を示す総合類似度を前記基準総合特徴それぞれについて求め、当該総合特徴と最も総合類似度の高い基準総合特徴に対応するカテゴリに分類することとしても良い。

このようにすることで、オーディオ信号を複数のカテゴリのうちいずれか１つに分類することができる。

（ｈ）（ｅ）に記載の音声分類装置は更に、複数のオーディオ信号を記憶する音声記憶手段と、前記音声記憶手段が記憶している各オーディオ信号から抽出された総合特徴に基づいて基準総合特徴を作成し、前記基準総合特徴記憶手段に格納する作成手段とを備えることとしても良い。

このようにすることにより、予め基準総合特徴記憶手段に基準総合特徴を用意しておかなくとも、基準作成用のオーディオ信号を用いて基準総合特徴を作成することができる。

また、予め基準総合特徴記憶手段に基準総合特徴を用意している場合でも、ユーザの保有するオーディオ信号を用いて基準総合特徴を作成すると、そのユーザに合わせた分類基準となる基準総合特徴を作成することができる。

（ｉ）（ｅ）に記載の前記音声分類装置は更に、前記音声記憶手段が記憶している各オーディオ信号が含む各区間から抽出された区間特徴に基づいて基準区間特徴を作成し、前記基準区間特徴記憶手段に格納する基準区間特徴作成手段を備えることとしても良い。

このようにすることにより、予め基準区間特徴記憶手段に基準区間特徴を用意しておかなくとも、基準作成用のオーディオ信号を用いて基準区間特徴を作成することができる。

また、予め基準区間特徴記憶手段に基準区間特徴を用意している場合でも、ユーザの保有するオーディオ信号を用いて基準区間特徴を作成すると、そのユーザに合わせた基準区間特徴を作成することができる。

ただしこの場合には、基準区間特徴に合わせて基準総合特徴も作成する必要がある。

本発明に係る音声分類装置は、動画撮影機能付き携帯電話やデジタルビデオカメラ、映像記録装置などに適用することができる。

１００映像記録装置
１０３音声抽出部
１０４音声分類部
１０５分類情報記憶部
２０１音響特徴抽出部
２０２基準音響特徴記憶部
２０３区間特徴抽出部
２０４基準区間特徴記憶部
２０５区間類似度計算部
２０６総合特徴抽出部
２０７基準総合特徴記憶部
２０８分類部
１５０１基準作成部
１６０１基準音声記憶部
１６０２基準音響特徴作成部
１６０３基準区間特徴作成部
１６０４基準総合特徴作成部

Claims

オーディオ信号を取得する取得手段と、
前記オーディオ信号が含む所定時間長の複数の区間それぞれについて音の周波数分布に係る特徴である区間特徴を抽出する区間特徴抽出手段と、
前記区間特徴と比較される基準である基準区間特徴を複数記憶している基準区間特徴記憶手段と、
前記複数の区間それぞれについて、前記区間特徴と前記基準区間特徴それぞれとを比較して、当該区間特徴と当該基準区間特徴との相関の程度を示す区間類似度を計算する計算手段と、
前記オーディオ信号について、前記複数の区間それぞれにおいて計算された複数の区間類似度に基づく、複数の区間に係る特徴である総合特徴を抽出する総合特徴抽出手段と、
前記総合特徴と比較する基準である基準総合特徴を１以上記憶している基準総合特徴記憶手段と、
前記オーディオ信号の総合特徴と前記基準総合特徴とを比較して、その結果に基づいて当該オーディオ信号を分類する分類手段とを備える
ことを特徴とする音声分類装置。
前記総合特徴抽出手段は前記オーディオ信号について、
基準区間特徴毎に、当該オーディオ信号に当該基準区間特徴との区間類似度が他の全ての基準区間特徴との区間類似度より高い区間がどの程度含まれるかを示す含有度を計算し、
各基準区間特徴の当該オーディオ信号における前記含有度により成る総合特徴を抽出する
ことを特徴とする請求項１に記載の音声分類装置。
前記総合特徴抽出手段は各基準区間特徴の前記オーディオ信号における前記含有度を、
当該基準区間特徴との区間類似度が他の全ての基準区間特徴との区間類似度より高い区間の総数の、当該オーディオ信号が含む区間の総数に対する割合に基づいて計算する
ことを特徴とする請求項２に記載の音声分類装置。
前記基準区間特徴記憶手段は更に、
各基準区間特徴に対する、当該基準区間特徴の前記含有度の計算に用いる係数を記憶しており、
前記総合特徴抽出手段は基準区間特徴の前記含有度を、
前記割合と前記係数との積として計算する
ことを特徴とする請求項３に記載の音声分類装置。
前記区間特徴抽出手段は、
前記複数の区間それぞれについて、当該区間に含まれる音のＭＦＣＣ（メル周波数ケプストラム係数）を示す音響特徴を抽出する音響特徴抽出部と、
前記音響特徴と比較される基準である基準音響特徴を複数記憶している基準音響特徴記憶部とを備え、
前記区間特徴は、前記区間それぞれについて計算される音響特徴と、前記基準音響特徴記憶部が記憶している基準音響特徴それぞれとの相関の程度を示す音響類似度からなるデータであり、
前記区間特徴抽出手段は、
前記複数の区間それぞれについて、前記音響特徴抽出部が抽出した音響特徴と前記基準音響特徴記憶部が記憶している基準音響特徴とに基づいて、当該区間の区間特徴を抽出する
ことを特徴とする請求項２に記載の音声分類装置。
前記区間特徴抽出手段は、
前記複数の区間それぞれについて、当該区間に含まれる音の周波数スペクトルを示す音響特徴を抽出する音響特徴抽出部と、
前記音響特徴と比較される基準である基準音響特徴を複数記憶している基準音響特徴記憶部とを備え、
前記区間特徴は、前記区間それぞれについて計算される音響特徴と、前記基準音響特徴記憶部が記憶している基準音響特徴それぞれとの相関の程度を示す音響類似度からなるデータであり、
前記区間特徴抽出手段は、
前記複数の区間それぞれについて、前記音響特徴抽出部が抽出した音響特徴と前記基準音響特徴記憶部が記憶している基準音響特徴とに基づいて、当該区間の区間特徴を抽出する
ことを特徴とする請求項２に記載の音声分類装置。
前記基準総合特徴記憶手段は、
基準総合特徴を、オーディオ信号の分類先であるカテゴリと対応付けて複数記憶しており、
前記分類手段は、
前記オーディオ信号の総合特徴と、複数の互いに異なる前記基準総合特徴とを比較して、当該総合特徴と当該基準総合特徴との相関の程度を示す総合類似度を前記基準総合特徴それぞれについて求め、当該総合特徴と最も総合類似度の高い基準総合特徴に対応するカテゴリに分類する
ことを特徴とする請求項５に記載の音声分類装置。
前記音声分類装置は更に、
複数のオーディオ信号を記憶する音声記憶手段と、
前記音声記憶手段が記憶している各オーディオ信号から抽出された総合特徴に基づいて基準総合特徴を作成し、前記基準総合特徴記憶手段に格納する作成手段とを備える
ことを特徴とする請求項５に記載の音声分類装置。
前記音声分類装置は更に、
前記音声記憶手段が記憶している各オーディオ信号が含む各区間から抽出された区間特徴に基づいて基準区間特徴を作成し、前記基準区間特徴記憶手段に格納する基準区間特徴作成手段を備える
ことを特徴とする請求項８に記載の音声分類装置。
オーディオ信号を取得する取得ステップと、
前記オーディオ信号が含む所定時間長の複数の区間それぞれについて音の周波数分布に係る特徴である区間特徴を抽出する区間特徴抽出ステップと、
前記複数の区間それぞれについて、前記区間特徴と、前記区間特徴と比較される基準である複数の基準区間特徴それぞれとを比較して、当該区間特徴と当該基準区間特徴との相関の程度を示す区間類似度を計算する計算ステップと、
前記オーディオ信号について、前記複数の区間それぞれにおいて計算された複数の区間類似度に基づく、複数の区間に係る特徴である総合特徴を抽出する総合特徴抽出ステップと、
前記オーディオ信号の総合特徴と、前記総合特徴と比較する基準である１以上の基準総合特徴とを比較して、その結果に基づいて、当該オーディオ信号を分類する分類ステップとを備える
ことを特徴とする音声分類方法。
オーディオ信号を取得する取得ステップと、
前記オーディオ信号が含む所定時間長の複数の区間それぞれについて音の周波数分布に係る特徴である区間特徴を抽出する区間特徴抽出ステップと、
前記複数の区間それぞれについて、前記区間特徴と、前記区間特徴と比較される基準である複数の基準区間特徴それぞれとを比較して、当該区間特徴と当該基準区間特徴との相関の程度を示す区間類似度を計算する計算ステップと、
前記オーディオ信号について、前記複数の区間それぞれにおいて計算された複数の区間類似度に基づく、複数の区間に係る特徴である総合特徴を抽出する総合特徴抽出ステップと、
前記オーディオ信号の総合特徴と、前記総合特徴と比較する基準である１以上の基準総合特徴とを比較して、その結果に基づいて、当該オーディオ信号を分類する分類ステップとを含む処理をコンピュータに実行させる
ことを特徴とする音声分類プログラム。
オーディオ信号を取得する取得ステップと、
前記オーディオ信号が含む所定時間長の複数の区間それぞれについて音の周波数分布に係る特徴である区間特徴を抽出する区間特徴抽出ステップと、
前記複数の区間それぞれについて、前記区間特徴と、前記区間特徴と比較される基準である複数の基準区間特徴それぞれとを比較して、当該区間特徴と当該基準区間特徴との相関の程度を示す区間類似度を計算する計算ステップと、
前記オーディオ信号について、前記複数の区間それぞれにおいて計算された複数の区間類似度に基づく、複数の区間に係る特徴である総合特徴を抽出する総合特徴抽出ステップと、
前記オーディオ信号の総合特徴と、前記総合特徴と比較する基準である１以上の基準総合特徴とを比較して、その結果に基づいて、当該オーディオ信号を分類する分類ステップとを含む処理をコンピュータに実行させるプログラムを記録している
ことを特徴とする記録媒体。
オーディオ信号を取得する取得手段と、
前記オーディオ信号が含む所定時間長の複数の区間それぞれについて音の周波数分布に係る特徴である区間特徴を抽出する区間特徴抽出手段と、
前記区間特徴と比較される基準である基準区間特徴を複数記憶している基準区間特徴記憶手段と、
前記複数の区間それぞれについて、前記区間特徴と前記基準区間特徴それぞれとを比較して、当該区間特徴と当該基準区間特徴との相関の程度を示す区間類似度を計算する計算手段と、
前記オーディオ信号について、前記複数の区間それぞれにおいて計算された複数の区間類似度に基づく、複数の区間に係る特徴である総合特徴を抽出する総合特徴抽出手段と、
前記総合特徴と比較する基準である基準総合特徴を１以上記憶している基準総合特徴記憶手段と、
前記オーディオ信号の総合特徴と前記基準総合特徴とを比較して、その結果に基づいて、当該オーディオ信号を分類する分類手段とを備える
ことを特徴とする集積回路。