JP4405418B2

JP4405418B2 - 情報処理装置及びその方法

Info

Publication number: JP4405418B2
Application number: JP2005100212A
Authority: JP
Inventors: 和範井本; 浩平桃崎; 龍也上原; 学永尾; 康之正井; 宗彦笹島; 一彦阿部
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2005-03-30
Filing date: 2005-03-30
Publication date: 2010-01-27
Anticipated expiration: 2025-03-30
Also published as: JP2006279898A; US20060224616A1

Description

本発明は、音データまたは映像音データに関連付けられた音データから特定の部分を検索する情報処理装置及びその方法に関する。

近年、音データや映像音データを記録する機器として大容量のハードディスクを搭載したものが主流となっており、大量の音もしくは映像コンテンツを蓄積できるようになっている。これにより利用者は大量のコンテンツの中から自分の見たいものを選択して、好きなタイミングで視聴できる。

蓄積された多量のコンテンツの中から目的のものを検索する方法として、コンテンツを記録した単位で名称もしくはその他コンテンツを同定するための関連情報（メタデータ）を付与する方法が考えられる。放送番組を例にとって考えると、ＥＰＧ（ＥｌｅｃｔｒｏｎｉｃＰｒｏｇｒａｍＧｕｉｄｅ）に代表される番組情報を利用することで、番組を同定するための情報を自動的に付与することが可能であるし、また利用者自らがメタデータを付与することも可能である。以上のように作成されたメタデータを利用することで目的の番組を簡単に検索して、視聴・編集などを行うことができる。

また、記録した単位よりもより細かい単位（以降ではチャプタと呼ぶ）にコンテンツを分割して、例えば特定の番組コーナーを簡単に検索して視聴したいという利用者の要望が考えられる。このようなチャプタ単位への分割及びチャプタ単位での検索に必要なメタデータを、利用者自らが作成するには多大な労力を要する上に、汎用的に外部より提供される枠組みがほとんどないために、記録した映像音データもしくは音データを用いて自動的に作成する必要があるといえる。

自動的に番組をチャプタ単位に分割する方法として、無音などの切れ目、カットと呼ばれる映像の切り替わりなどを利用する方法が考案されている。しかしながら上記の情報は必ずしも番組コーナーのような利用者の意図するチャプタ単位で出現するとは限らないため、不要に出現した分割点を削除するなど後に利用者が手動で修正する場合が少なくない。

また、テロップや番組内で発声された言葉などの言語情報を、テロップ認識・音声認識などの技術により抽出して検索のためのメタデータとして利用するという方法が考案されている。これにより利用者が検索したい言語情報を入力することで、特定の言葉が発せられたシーンを検索できる。しかしながら特定のシーンのみならず、特定のシーンを含むまとまった単位で番組を検索・視聴するなどの応用を考えた場合、言語情報のみでこの目的を達成するのは容易ではない。さらにテロップ認識・音声認識などは処理量が大きく、現状では雑音重畳下でも頑健に認識できるとはいえないなど様々な映像音響コンテンツに適用するには解決すべき問題が少なくない（例えば、特許文献１参照）。

これに対して、音データの類似性に着目してコンテンツを検索する音響検索の方法及び頑健な音響マッチングの手法が考案されている。音声認識のように言語情報を抽出する場合に比べて頑健性が高く、また番組構成上挿入される音データを利用して番組コーナーを分割できるなど音響検索が有効に機能する場面は多い。音響検索を利用するには検索キーとなる音データを登録する必要となるが、事前に準備されている場合は希であるため、検索キーを利用者が簡単に登録できるインターフェースが実用上重要となる。例えば検索の度に検索キーとしたい音データの始終端を指定する必要があるインターフェースは、決して使いやすいものとはいえない。

この問題に対応するため、従来技術では蓄積もしくは入力した音データの中から検索キーとしたい音データ区間の任意の点を利用者が指定し、指定点を含む一定区間を検索キーとして登録するという方法が提案されている。しかしながら検索対象によって必要となるキーの長さは変動するため、必ずしも利用者が意図する音区間を検索キーとして登録できない。この結果、前後の余分な音区間が検索キーに含まれて検索が正確に行われない場合や、逆に部分区間しか検索キーに含まれずに意図しない音区間が湧き出して検索されるなど必ずしも正確な検索キーを準備できないという問題がある（例えば、特許文献２参照）。
特許第３２５２２８２号特開２００１−１３４６１３

このように従来は、音データの類似性に着目して映像音響コンテンツを検索する音響検索において、正確に類似部分を検索できる検索キーを簡単な操作で登録するのが難しいという問題点がある。

そこで、本発明はこのような事情を考慮してなされたもので、始終端を両方正確に指定することなく、高精度な音響検索を実現する検索キーを登録することができる映像音響処理装置を提供することにある。

請求項１に係る発明は、検索対象となる検索音データ、または、検索映像音データを検索キーで検索する情報処理装置において、前記検索キーを抽出するキー映像音データを取得するキー映像音取得手段と、前記キー映像音データからキー音データを抽出するキー音抽出手段と、前記キー映像音データにおける画像データを画像特徴パラメータに変換し、この変換した画像特徴パラメータの変化の出現した時刻を変化点として検出する画像変化点検出手段と、前記映像音データの全体または一部区間を指定するための時刻を指定点として一または複数取得する指定点取得手段と、前記変化点及び前記指定点の少なくとも一つ以上に基づいて検索キー区間を決定し、前記キー音データにおける前記検索キー区間に対応する部分に基づいて検索キーを生成する検索キー生成手段と、を具備し、前記検索キー生成手段は、前記一つの指定点の前後の変化点を間の区間を前記検索キー区間と決定するか、前記一つの指定点から、該指定点の前の変化点までの区間を前記検索キー区間と決定するか、前記一つの指定点から、該指定点の後の変化点までの区間を前記検索キー区間と決定するか、または、前記２つの指定点で決められた指定区間にもっとも近い外側または内側にある２つの変化点の間を前記検索キー区間と決定する、ことを特徴とする情報処理装置である。

請求項２に係る発明は、検索対象となる検索音データ、または、検索映像音データを検索キーで検索する情報処理装置において、前記検索キーを抽出するためのキー音データを取得するキー音取得手段と、前記キー音データを音響特徴パラメータに変換して、この変換した音響特徴パラメータの変化の出現した時刻を変化点として検出する音響変化点検出手段と、前記キー音データの全体または一部区間を指定するための時刻を指定点として一または複数取得する指定点取得手段と、前記変化点及び前記指定点の少なくとも一つ以上に基づいて検索キー区間を決定し、前記キー音データにおける前記検索キー区間に対応する部分に基づいて検索キーを生成する検索キー生成手段と、を具備し、前記検索キー生成手段は、前記一つの指定点の前後の変化点を間の区間を前記検索キー区間と決定するか、前記一つの指定点から、該指定点の前の変化点までの区間を前記検索キー区間と決定するか、前記一つの指定点から、該指定点の後の変化点までの区間を前記検索キー区間と決定するか、または、前記２つの指定点で決められた指定区間にもっとも近い外側または内側にある２つの変化点の間を前記検索キー区間と決定する、ことを特徴とする情報処理装置である。

請求項３に係る発明は、検索対象となる検索音データ、または、検索映像音データを検索キーで検索する情報処理装置において、前記検索キーを抽出する映像音データを取得するキー映像音取得手段と、前記キー映像音データからキー音データを抽出するキー音抽出手段と、前記キー音データを音響特徴パラメータに変換して、この変換した音響特徴パラメータの変化の出現した時刻を変化点として検出する音響変化点検出手段と、前記キー映像音データにおける画像データを画像特徴パラメータに変換し、この変換した画像特徴パラメータの変化の出現した時刻を変化点として検出する画像変化点検出手段と、前記キー音データ、または、前記映像音データの全体または一部区間を指定するための時刻を指定点として一または複数取得する指定点取得手段と、前記音に基づく変化点及び前記指定点、または、前記画像に基づく変化点及び前記指定点の少なくとも一つ以上に基づいて検索キー区間を決定し、前記キー音データにおける前記検索キー区間に対応する部分に基づいて検索キーを生成する検索キー生成手段と、を具備し、前記検索キー生成手段は、前記一つの指定点の前後の変化点を間の区間を前記検索キー区間と決定するか、前記一つの指定点から、該指定点の前の変化点までの区間を前記検索キー区間と決定するか、前記一つの指定点から、該指定点の後の変化点までの区間を前記検索キー区間と決定するか、または、前記２つの指定点で決められた指定区間にもっとも近い外側または内側にある２つの変化点の間を前記検索キー区間と決定する、ことを特徴とする情報処理装置である。

本発明では映像音響コンテンツから音響的もしくは映像的な切れ目が出現する変化点を自動的に検出することで音響的もしくは映像的に意味の有る区間を抽出し、利用者から取得された指定点を含む区間を検索キーとして自動的に決定できる。

したがって、簡単な操作で検索キーを登録することができ、しかも検索キーが音響的もしくは映像的なまとまりを持つ区間になっているために精度の高い音響検索が実現できる。

以下、本発明の各実施形態について図を参照しながら説明する。

なお、本明細書において「映像音データ」とは、画像データと音データの両方を含むデータであり、「画像データ」は画像のみのデータであり、「音データ」とは音声や音楽等の音のみのデータをいう。

［第１の実施形態］
以下、第１の実施形態の音響処理装置について図１から図６に基づいて説明する。

（１）音響処理装置の構成
図１は本発明の第１の実施形態に関わる音響処理装置の概略構成図である。

図１に示すように、キー音取得部２１、変化点検出部３１、検索キー生成部４１、指定点取得部５１、検索音取得部７１、音響検索部８１、検索結果記録部９１、検索キー管理部１００、記憶媒体２００から構成される。

キー音取得部２１は、外部のデジタルマイクロフォン、デジタル放送等の受信チューナー、その他デジタル機器から入力されるデジタル音データを変化点検出部３１、検索キー生成部４１、指定点取得部５１へと渡す。キー音取得部２１は外部のマイクロフォン、放送受信チューナー、その他機器から入力されるアナログ音信号を取得して、ＡＤ変換によってデジタル音データに変換した後、変化点検出部３１、検索キー生成部４１、指定点取得部５１へと渡すようにしてもよい。なお、デジタル音データを記録媒体２００に記録して、変化点検出部３１、検索キー生成部４１、指定点取得部５１は記録媒体２００からデジタル音データを読み込むように変更しても構わない。なお、これらの処理に加えて、必要に応じて音データの暗号解除処理、デコード処理、形式変換処理、レート変換処理等を行ってもよい。

変化点検出部３１は、キー音取得部２１において得られた音データから音響特徴パラメータを抽出して、音響的な変化が表われる時刻を変化点として検出する。検出された変化点は時刻など音データへのアクセスが可能な情報として検索キー生成部４１に渡される。変化点検出部３１の詳細な処理については後述する。

指定点取得部５１は、キー音取得部２１で取得された音データの中から、検索キーとして登録したい区間に含まれる任意の点を利用者の操作により取得する。利用者が行う操作としては例えばマウスやリモコンといったデバイスを用いたものが考えられるが、その他の方法を用いても問題はない。また検索キーを指定する際に、スピーカーなどの機器を介して再生し、利用者に音データを確認させながら点を指定させても良い。検出された指定点は時刻など音データへのアクセスが可能な情報として検索キー生成部４１に渡される。

検索キー生成部４１は変化点検出部３１で検出された変化点及び指定点取得部５１で得られた指定点から利用者が検索キーとして登録したい区間を同定し、キー音取得部２１で得られた音データの対応する部分を、後の音響検索に必要なデータ形式に変換して検索キー管理部１００へと格納する。検索キー生成部４１の詳細な処理についても後述する。

検索キー管理部１００は利用者が登録した検索キーを音パターンデータとして検索時に利用可能な形式で管理するものである。検索キーを管理する方法としては様々な実施形態が可能であるが、例えば検索キーを同定するためのＩＤ及び対応区間の音データを対応させて保持することで管理できる。その他キー音データ全体を記憶媒体２００に保持しておき、検索キーに対応する区間の時間情報のみを保持しておいても良いし、音響検索部８１で検索時に利用する音響特徴パラメータに予め変換して保持しても構わない。また必要に応じて、例えば検索キーを抽出したキー音のタイトルなどの関連情報を検索キーに対応付けて保持することもできる。

検索音取得部７１は、外部のデジタルマイクロフォン、デジタル放送等の受信チューナー、その他デジタル機器から入力されるデジタル音データを、検索対象データとして音響検索部８１に渡す。検索音取得部７１は外部のマイクロフォン、放送受信チューナー、その他機器から入力されるアナログ音信号を取得して、ＡＤ変換によってデジタル音データに変換した後、音響検索部８１に音データを渡しても構わない。なお、デジタル音データを記録媒体２００に記録して、音響検索部８１は記録媒体２００からデジタル音データを読み込むように変更しても構わない。検索キー取得部２１と検索音取得部７１の差異は、取り込んだ音を検索キーとして用いるか検索対象として用いるかだけであるので、この部分を共通の構成要素としても構わない。

音響検索部８１は検索キー管理部１００において検索キーとして管理されている音パターンデータのうち、予め選択された１または複数の音パターンデータと検索音取得部７１で取得された音データとを照合して、一致もしくは類似した区間を検出して検索結果記録部９１へと出力する。音データを照合する際に用いるアルゴリズムとしては既存のどのようなパターンマッチの手法を用いても構わない。また照合の際には検索キーとなる音パターンデータの部分一致する区間も検出するなど目的に応じて様々なアルゴリズム及び照合基準を使い分けることができる。

検索結果記録部９１は、音響検索部８１において検出されたキーの情報を検索キー管理部１００より取得するとともに、検出された区間の情報を用いて記録媒体２００に検出された音パターンデータに対応する情報が記録される。記録される情報としては例えばＤＶＤのＶＲモードで規定される構造となっている。

（２）処理の具体例
次に第１の実施形態に関わる音響処理装置の詳細な処理について具体例を用いて説明する。

（２−１）変化点検出部３１の処理
図２は、検索キーを含む音データの一例を示すものである。キー音取得部２１によって図２に示す音が取得された場合を例に、変化点検出部３１の詳細な処理を説明する。

変化点を検出する方法としては様々なものが考えられるが、本実施形態では音データを音声、音楽、雑音などの予め規定された音響カテゴリのいずれかに分類して音響カテゴリが切り替わる時刻を変化点として検出するという方法を示す。

（２−１−１）一般的な処理
図３は本実施形態における変化点検出部３１の処理フローチャートを示している。

まず、ステップＳ１０１では、検索キーの先頭フレーム区間に対応する音データを取得する。ここでフレームとは一定の時間幅を持つ検出区間を表しており、本実施形態ではフレーム長を１００ｍｓとして話しを進めるが、実際にはどのような時間幅を用いても構わない。

続いて、ステップＳ１０２では、ステップＳ１０１で抽出したフレーム音データから音響特徴パラメータを抽出する。音響特徴パラメータとしては零交差数、パワースペクトル、パワー、ピッチなど様々なものが考えられる。

ステップＳ１０３では、抽出した音響特徴パラメータを用いて、各フレームがどの音響カテゴリに属するかを判断する。

判断基準としては、例えば事前に学習しておいたモデルとの距離が最も短い音響カテゴリに分類するなどの方法が考えられる。図４に音響カテゴリを判断する基準を表した概念図である。図４はフレームから抽出される音響特徴パラメータによって構成される特徴空間を表すもので、零交差数をパワーの２つを特徴量とした場合を例にとって、Ｘ軸に零交差数をＹ軸にパワーをプロットした特徴空間を図示したものである。

楕円で表されたモデルＡ，Ｂ，Ｃはそれぞれ事前に与えられた音データ（図中の白丸に対応）から学習した各音響カテゴリの領域に対応して、例えばその中心が（Ｘｉ，Ｙｉ）で表現されるものとする。ここでＸｉは零交差数の平均を、Ｙｉはパワーの平均を表しており、ｉは各カテゴリを表す記号である。図中の入力（１）は判断対象となる先頭フレームの音響特徴パラメータを表すもので、特徴空間上で（Ｘ１，Ｙ１）にプロットされるものとする。入力（１）がどのカテゴリに分類されるかを判断する基準として、各モデルと入力との距離Ｓｉを算出する方法が考えられる。

Ｓｉ＝√（（Ｘｉ−Ｘ１）^２＋（Ｙｉ−Ｙ１）^２）

ここでＳｉが小さいほどモデルとの類似度が高いことを示している。各モデルに対して距離が算出され、その値が小さなカテゴリに分類される。各モデルとの距離からこのフレームは音響カテゴリＡと判断される。

続いて、ステップＳ１０４では、直前のフレームが属する音響カテゴリと対象フレームが属する音響カテゴリを比較して、異なる場合にはステップＳ１０５へと進む。先頭フレームに関しては、直前のフレームがないために一致した場合と同様にステップＳ１０６に進む。

ステップＳ１０６では、ステップＳ１０３で判断された音響カテゴリを記録する。この場合は、音響カテゴリＡが記録されることになる。

続いて、ステップＳ１０７では終了判定を行う。この場合、まだ全てのフレームを処理していないのでステップＳ１０８に進み、次のフレーム区間に対応する音データを取り出す。ここで次のフレームは先頭位置を一定幅ずらした区間とするが、その幅はどのように設定しても構わず、例えばフレーム同士が重複するように設定する、または隣接するフレームに隙間があるように設定するなど様々な方法が考えられる。

（２−１−２）具体的な処理
同様の処理が繰り返された後に、図２における時刻ａ）１９：１７のフレームが処理されている場合を考える。ここで直前のフレームは音響カテゴリＢに属しているとする。

ステップＳ１０２において、対象フレームの音響特徴パラメータが抽出され、そのパラメータが図４に示す入力（ａ）に対応するものとする。

続いて、ステップＳ１０３において、各音響カテゴリのモデルとの距離が比較され、最も近い音響カテゴリＣに分類される。ステップＳ１０４で行われる直前フレームとの比較により、音響カテゴリがＢとＣで異なるため、変化点が検出されたと判断してステップＳ１０５に進む。

ステップＳ１０５では、時刻ａ）１９：１７が変化点であることを後段の処理が利用できるように記録する。

続いて、ステップＳ１０６で現在の対象フレームが属する音響カテゴリＣを記録した後、ステップＳ１０７の終了判定へと進むことになる。

同様の処理がキー音データ全てに対して行われると、ステップＳ１０７において終了判定が行われ、図５に例示するような変化点のリストを出力して変化点検出部３１の処理は終わる。

なお、本実施形態では１フレームから抽出した音響特徴パラメータを用いて音響カテゴリの判定を行った場合を示したが、前後複数のフレームから抽出した音響特徴パラメータを用いて音響カテゴリの判定を行っても問題はなく、また音響カテゴリの判定方法に関しても前後の音響特徴パラメータを直接比較して変化点を検出するなど目的に適した手法を選択すればよい。

（２−２）検索キー生成部４１の処理
続いて、図２に示す音データに対する変化点検出部３１の処理結果が図５に例示する変化点リストであった場合を例に、検索キー生成部４１の詳細な処理を説明する。

図６は、本実施形態における検索キー生成部４１の処理フローチャートを示している。

まず、ステップＳ２０１において指定点取得部５１によって得られる指定点を取得する。この例では図２に示すように１９：２６が指定点として取得される。

続いて、ステップＳ２０２においては変化点のリストから指定点１９：２６前後の変化点を検出する。この例では図５より変化点（ｃ）１９：２５及び（ｄ）１９：２８がこれにあたるため、（ｃ）（ｄ）に囲まれた３秒間が検索キーの区間と判断される。

続いて、ステップＳ２０３では、キー音取得部２１によって得られた音データからキー区間に対応する部分を取り出した後、ステップＳ２０４で音響検索に必要な形式に変換して検索キー管理部へとデータを渡して処理を終える。

ここで音響検索に必要な形式としては、音響検索を行う際に用いる音響特徴パラメータが考えられるが、音響特徴パラメータが再現できるならばどのような形式でも構わず、例えば記憶容量に余裕があれば音データそのものを保存しても構わない。またキー音全体が記憶媒体に保存されている場合には、ステップＳ２０２で決定した区間情報のみを保存するなど様々な処理で実現が可能である。

音響検索を行う際に必要となる検索キーの区間を利用者が正確に指定するのは容易ではない。本実施形態によれば検索キーに含まれる任意の点を少なくとも一度指定すれば音響的に意味のある区間を検出して自動的に検索キーとして登録できる。これは例えばある効果音を検索キーとして登録したい場合には、効果音のどの部分を指定しても、効果音の部分のみを自動的に検索キーとして登録されることになる。その結果、利用者は非常に簡単な操作で検索キーを指定することができ、さらに検索キーが音響的なまとまりを持つ区間になっているために精度の高い音響検索が実現されることになる。

（３）変更例
なお、本実施形態では、指定点を含む前後の変化点から両端フリーでキー区間を決定する方法について説明したが、指定点及び変化点によってキー区間を決定できるならばどのような方法でも構わない。

例えばユーザの操作によって取得された指定点を始端として固定し、以降に出現した変化点から終端を決定する始端固定終端フリーのキー区間決定方法や、逆に指定点から終端を決定する始端フリー終端固定のキー区間決定方法など様々な方法が考えられる。

図２５に例示する音データから始端フリー終端固定の方法でキー区間を決定すると、終端が指定点の１９：１９となり、始端が指定点以前に出現する変化点ａ）１９：２２となる。このような片端固定のキー探索は、長い区間が同じ音響カテゴリに分類される場合に、先頭区間もしくは末尾区間のみをキーとして探索することが可能となる。しかも両端フリーで区間を決定する場合と比較して、ユーザの操作を増加させることなく、様々なキー登録を可能とする。

［第２の実施形態］
次に、第２の実施形態に関わる音響処理装置について図７から図１０に基づいて説明する。

本実施形態は第１の実施形態における変化点検出部３１の処理のみが異なり、概略構成図は第１の実施形態と同一のものである。

本実施形態の詳細な処理について具体例を用いて説明する。

図７は、検索キーを含む音データの一例を示すものである。キー音取得部２１によって図７に示す音が取得された場合を例に、変化点検出部３１の詳細な処理を説明する。

変化点を検出する方法としては様々なものが考えられるが、本実施形態では、音響的な区切りとなる音響イベントを予め規定しておき、音データの中から規定された音響イベントが検出された時刻を変化点として検出するという方法を示す。

（１）一般的な処理
図８は本実施形態における変化点検出部３１の処理フローチャートを示している。

まず、ステップＳ３０１では、検索キーの先頭フレーム区間に対応する音を取得する。

続いて、ステップＳ３０２では、ステップＳ３０１で抽出したフレーム音データから音響特徴パラメータを抽出する。第１の実施形態と同様に音響特徴パラメータとしては零交差数、パワースペクトル、パワー、ピッチなど様々なものが考えられる。

ステップＳ３０３では、前段で抽出した音響特徴パラメータを用いて、フレームに対応する区間で予め規定された音響イベントが発生したか否かを判断する。

判断基準としては、例えば事前に学習しておいたモデルとの距離が閾値以内に収まっている音響イベントがあれば、そのイベントが発生したと判断するなどが考えられる。図９は音響イベントの発生を判断する基準を表す概念図である。

図９はフレームから抽出される音響特徴パラメータによって構成される特徴空間を表すもので、零交差数をパワーの２つを特徴量とした場合を例にとって、Ｘ軸に零交差数をＹ軸にパワーをプロットした特徴空間を図示したものである。楕円で表されたモデルＸ，Ｙ，Ｚはそれぞれ事前に与えられた音データ（図中の白丸に対応）から学習した各音響イベントの領域に対応しており、例えばその中心が（Ｘｉ，Ｙｉ）で表現されるものとする。ここでＸｉは零交差数の平均を、Ｙｉはパワーの平均を表しており、ｉは各カテゴリを表す記号である。また各モデルを囲む破線は各音響イベントの発生を判断するための閾値Ｔｉに対応するものである。図中の入力（１）は判断対象となるフレームの音響特徴パラメータを表すもので、特徴空間上で（Ｘ１，Ｙ１）にプロットされるものとする。入力（１）でイベントが発生したかを判断する基準として、各モデルと入力との距離Ｓｉが閾値Ｔｉ以下であるか否かが考えられる。

Ｓｉ＝√（（Ｘｉ−Ｘ１）^２＋（Ｙｉ−Ｙ１）^２）＜Ｔｉ

入力（１）では、モデルとの距離が閾値以内に収まるイベントはないためこのフレームでは音響イベントは発生しなかったと判断される。

ステップＳ３０４では、対象フレームで音響イベントの先頭もしくは末尾であることを判断して、条件に合致する場合にはステップＳ３０５に進む。先頭フレームに関しては、音響イベントが発生しなかったためにステップＳ３０６に進む。

ステップＳ３０６では、ステップＳ３０３で判断された音響イベントを記録する。この場合は、音響イベントが検出されなかったので何も記録しない。

続いて、ステップＳ３０７では終了判定を行う。この場合はまだ全てのフレームを処理していないのでステップＳ３０８に進み、次のフレーム区間に対応する音データを取り出す。

（２）具体的な処理
同様の処理が繰り返された後に、図９におけるＸ）の開始時刻（以降イベントの先頭を−ｓ、イベントの末尾を−ｅのサフィックスをつけて表現する）３：１５を含むフレームが処理されている場合を考える。ここで直前のフレームでは音響イベントは検知されていない。

ステップＳ３０２において、対象フレームの音響特徴パラメータが抽出され、そのパラメータが図９に示す入力（Ｘ−ｓ）に対応するものとする。

続いて、ステップＳ３０３において、音響特徴パラメータが各音響イベントのモデルの閾値内に含まれているかを判断して、対象フレームにおいて音響イベントＺが発生したことを判断する。ステップＳ３０４で行われる直前フレームでイベントが発生していないため、音響イベントの開始地点であると判断してステップＳ３０５に進む。

ステップＳ３０５では、時刻Ｘ−ｓ）３：１５が変化点であることを後段の処理が利用できるように記録する。

続いて、ステップＳ３０６で現在の対象フレームで検出された音響イベントＺを記録した後、ステップＳ３０７の終了判定へと進むことになる。

同様の処理がキー音データ全てに対して行われると、ステップＳ３０７において終了判定が行われ、図１０に例示するような変化点のリストを出力して変化点検出部３１の処理は終わる。

本実施形態では、キー音データの全ての区間をいずれかの音響カテゴリに分類する代わりに、予め規定された音響イベントのみを検出してその先頭／末尾地点を変化点として検出する点が第１の実施形態と異なる。例えば音響イベントとして無音を登録することで無音に囲まれた音区間を検索キーとして登録するなどの実施が可能となる。

［第３の実施形態］
次に、本発明の第３の実施形態の音響処理装置について図１１から図１４に基づいて説明する。

（１）音響処理装置の構成
図１１は第３の実施形態に関わる音響処理装置の概略構成図である。

図１１に示すように、キー音取得部２１、変化点検出部３２、検索キー生成部４２、指定点取得部５２、検索音取得部７１、音響検索部８１、検索結果記録部９１、検索キー管理部１００、記憶媒体２００から構成される。なお、図１１において以前の実施形態と同一の処理を行う部分については同一番号を付与しているため説明を省略する。

指定点取得部５２は、キー音取得部２１で取得された音データの中から、検索キーとして登録したい区間に含まれる任意の点を利用者の操作により取得する。検出された指定点は時刻など音データへのアクセスが可能な情報として変更点検出部３２に渡される。

変化点検出部３２は、キー音取得部２１において得られた音データから音響特徴パラメータを抽出して、音響的な変化が表われる時刻を変化点として検出する。なお変化点を検出する際に指定点取得部５２で得られた指定点を利用することで、必要最小限の変化点のみを検出する点が第１の実施形態と異なる。検出された変化点は時刻など音データへのアクセスが可能な情報として検索キー生成部４２に渡される。変化点検出部３２の詳細な処理については後述する。

検索キー生成部４２は変換点検出部３１で検出された変化点から利用者が検索キーとして登録したい区間を同定し、キー音取得部２１で得られた音データの対応する部分を、後の音響検索に必要なデータ形式に変換して検索キー管理部１００へと格納する。検索キー生成部４２の詳細な処理については後述する。

（２）音響処理装置の処理
次に、第３の実施形態に関わる音響処理装置の詳細な処理について具体例を用いて説明する。

（２−１）変化点検出部３２の処理
キー音取得部２１によって図２に示す音が取得された場合を例に、変化点検出部３２の詳細な処理を説明する。

変化点を検出する方法としては第１の実施形態と同等の方法を用いて説明する。図１２は本実施形態における変化点検出部３２の処理フローチャートを示している。

まず、ステップＳ４０１では指定点を含むフレーム区間に対応する音を取得する。

ステップＳ４０２では、ステップＳ４０１で抽出したフレーム音データから音響特徴パラメータを抽出する。

ステップＳ４０３では、抽出した音響特徴パラメータを用いて、各フレームがどの音響カテゴリに属するかを判断する。図２の例では指定点を含むフレームは音響カテゴリＡと判断され、ステップＳ４０４で検出された音響カテゴリａが記録される。

続いて、ステップＳ４０５では直前のフレーム区間に対応する音を取得する。ステップＳ４０２及びステップＳ４０３と同様にステップＳ４０６で対象フレームの音響特徴パラメータを抽出し、さらにステップＳ４０７で音響特徴パラメータに基づいてフレームの属する音響カテゴリを判定する。

ステップＳ４０８では、対象フレームの音響カテゴリが指定点を含むフレームの音響カテゴリと一致するか否かを判定し、一致する限り、ステップＳ４０９で一つ前のフレームに対応する音を取り出してステップＳ４０６からステップＳ４０９までの処理を繰返し実行する。

図２の例では、時刻ｃ）１９：２５を含むフレームまでは音響カテゴリａと判断されるため処理を繰返し、ステップＳ４０７において次のフレームが音響カテゴリＢと判断された場合に、ステップＳ４１０へと処理を進め、対象フレームの時刻ｃ）１９：２５を変化点として記録する。

続いて、ステップＳ４１１では指定点を含むフレームの直後のフレーム区間に対応する音を取得する。

ステップＳ４０２及びステップＳ４０３と同様にステップＳ４１２で対象フレームの音響特徴パラメータを抽出し、さらにステップＳ４１３で音響特徴パラメータに基づいてフレームの属する音響カテゴリを判定する。

ステップＳ４１３では、対象フレームの音響カテゴリが指定点を含むフレームの音響カテゴリと一致するか否かを判定し、一致する限り、ステップＳ４１５一つ後のフレームに対応する音を取り出してステップＳ４１２からステップＳ４１５までの処理を繰返し実行する。

図２の例では、時刻ｄ）１９：２８を含むフレームまでは音響カテゴリＡと判断されるため処理を繰返し、ステップＳ４０７において次のフレームが音響カテゴリＢと判断された場合に、ステップＳ４１６へと処理を進め、対象フレームの時刻ｄ）１９：２８を変化点として記録する。図１３に例示するような変化点のリストを出力して変化点検出部３１の処理は終わる。

本実施形態では指定点前後の変化点のみを抽出するために、処理するフレーム数も少なく、また変化点のリストのみから検索キーの区間を決定できる。

（２−２）検索キー生成部４２の処理
続いて、図２に示す音データに対する変化点検出部３１の処理結果が変化点のリストが図１３に示すものであった場合を例に、検索キー生成部４２の詳細な処理を説明する。

図１４は本実施形態における検索キー生成部４２の処理フローチャートを示している。

まず、ステップＳ５０１において変化点を取得して検索キーの区間を決定する。この例では図１３より変化点（ｃ）１９：２５及び（ｄ）１９：２８が変化点となるため、（ｃ）（ｄ）に囲まれた３秒間が検索キーの区間と判断される。

続いて、ステップＳ５０２ではキー音取得部２１によって得られた音データからキー区間に対応する部分を取り出した後、ステップＳ５０３で音響検索に必要な形式に変換して検索キー管理部１００へとデータを渡して処理を終える。

本実施形態のように変化点検出部３２に対して指定点の時刻情報を与えることによって、変化点の検出に必要な処理が少なくなり、結果として利用者の操作で指定点を取得してから検索キーの区間を検出して自動登録するために必要な時刻が短くなる。

［第４の実施形態］
次に、本発明の第４の実施形態について図１５に基づいて説明する。

図１５は、第４の実施形態に関わる映像音響処理装置の概略構成図である。

図１５に示すように、キー映像取得部１１、キー音抽出部２２、変化点検出部３１、検索キー生成部４１、指定点取得部５３、検索映像取得部６１、検索音抽出部７２、音響検索部８１、検索結果記録部９１、検索キー管理部１００、記憶媒体２００から構成される。なお、図１５において以前の実施形態と同一の処理を行う部分については同一番号を付与しているため説明を省略する。映像音データを扱う点が以前の実施形態とは大きく異なっている。

キー映像取得部１１は、外部のデジタルビデオカメラ、デジタル放送等の受信チューナー、その他のデジタル機器から入力される映像音データを取得し、キー音抽出部２２、指定点取得部５３へと渡す。キー映像取得部１１は、外部のビデオカメラ、放送受信チューナー、その他の機器から入力される映像音データを取得し、デジタル映像音データに変換した後、キー音抽出部２２、指定点取得部５３へと渡すようにしてもよい。なお、デジタル映像音データを記録媒体２００に記録して、キー音抽出部２２、指定点取得部５３は記録媒体２００からデジタル映像音データを読み込むように変更しても構わない。これらの処理に加えて、必要に応じて映像音データの暗号解除処理（例えばＢ−ＣＡＳ）、デコード処理（例えばＭＰＥＧ２）、形式変換処理（例えばＴＳ／ＰＳ）、レート（圧縮率）変換処理等を行ってもよい。

キー音抽出部２２は、キー映像取得部１１において取得された映像音データから音データを抽出して変化点検出部３１、検索キー生成部４１へと渡す。

指定点取得部５３は、キー映像取得部１１で取得された映像音データの中から、検索キーとして登録したい区間に含まれる任意の点を利用者の操作により取得する。利用者が行う操作としては例えばマウスやリモコンといったデバイスを用いたものが考えられるが、その他の方法を用いても問題はない。また検索キーを指定する際に、ディスプレイなどの機器を介して再生し、利用者に映像音データを確認させながら点を指定させても良い。検出された指定点は時刻など映像音データへのアクセスが可能な情報として検索キー生成部４１に渡される。

変化点検出部３１は、キー音抽出部２２において得られた音データから音響特徴パラメータを抽出して、音響的な変化が表われる時刻を変化点として検出する。検出された変化点は時刻など音データへのアクセスが可能な情報として検索キー生成部４１に渡される。

検索キー生成部４１は、変化点検出部３１で検出された変化点及び指定点取得部５３で得られた指定点から利用者が検索キーとして登録したい区間を同定し、キー音取得部２１で得られた音データの対応する部分を、後の音響検索に必要なデータ形式に変換して検索キー管理部１００へと格納する。

検索キー管理部１００は、利用者が登録した検索キーを音パターンデータとして検索時に利用可能な形式で管理するものである。検索キーを管理する方法としては様々な実施形態が可能であるが、例えば検索キーを同定するためのｉｄ及び対応区間の音データを対応させて保持することで管理できる。その他キー音データ全体もしくはキー映像音データ全体を記憶媒体２００に保持しておき、検索キーに対応する区間の時間情報のみを保持しておいても良いし、音響検索部８１で検索時に利用する音響特徴パラメータに予め変換して保持しても構わない。また必要に応じて、例えば検索キーを抽出したキー映像音のタイトルなどの関連情報を検索キーに対応付けて保持することもできる。

検索映像取得部６１は、外部のデジタルビデオカメラ、デジタル放送等の受信チューナー、その他のデジタル機器から入力される映像音データを取得し、検索対象の映像音データとして検索音抽出部７２へと渡す。検索映像取得部６１は、外部のビデオカメラ、放送受信チューナー、その他の機器から入力される映像音データを取得し、デジタル映像音データに変換した後、検索対象の映像音データとして検索音抽出部７２へと渡すようにしてもよい。なお、デジタル映像音データを記録媒体２００に記録して、検索音抽出部７２は記録媒体２００からデジタル映像音データを読み込むように変更しても構わない。これらの処理に加えて、必要に応じて映像音データの暗号解除処理（例えばＢ−ＣＡＳ）、デコード処理（例えばＭＰＥＧ２）、形式変換処理（例えばＴＳ／ＰＳ）、レート（圧縮率）変換処理等を行ってもよい。キー映像取得部１１と検索映像取得部６１の差異は、取り込んだ映像音データを検索キーとして用いるか検索対象として用いるかだけなので、この部分を共通の構成要素としても構わない。

検索音抽出部７２は、検索映像取得部６１において取得された映像音データから音データを抽出して音響検索部８１へと渡す。キー音抽出部２２と検索音抽出部７２の差異は、抽出した音データを検索キーとして用いるか検索対象として用いるかだけなので、この部分を共通の構成要素としても構わない。

音響検索部８１は検索キー管理部１００において検索キーとして管理されている音パターンデータのうち、予め選択された１または複数の音パターンデータと検索音抽出部７２で取得された音データとを照合して、類似した区間を検出して検索結果記録部９１へと出力する。音データを照合する際に用いるアルゴリズムとしては既存のどのようなパターンマッチの手法を用いても構わない。また照合の際には検索キーとなる音パターンデータの部分一致する区間も検出するなど目的に応じて様々なアルゴリズム及び照合基準を使い分けることができる。

以上のような構成により、音データ同様に映像音データに対しても、利用者は非常に簡単な操作で検索キーを指定することができ、さらに検索キーが音響的なまとまりを持つ区間になっているために精度の高い音響検索が実現されることになる。

［第５の実施形態］
次に、本発明の第５の実施形態について図１６から図１９に基づいて説明する。

（１）映像音響処理装置の構成
図１６は第５の実施形態に関わる映像音響処理装置の概略構成図である。

図１６に示すように、キー映像取得部１２、キー音抽出部２３、変化点検出部３３、検索キー生成部４１、指定点取得部５３、検索映像取得部６１、検索音抽出部７２、音響検索部８１、検索結果記録部９１、検索キー管理部１００、記憶媒体２００から構成される。なお、図１６において以前の実施形態と同一の処理を行う部分については同一番号を付与しているため説明を省略する。以前の実施形態とは変化点検出部３３において画像データから変化点を検出するようになっているところが異なっている。

キー映像取得部１２は、外部のデジタルビデオカメラ、デジタル放送等の受信チューナー、その他のデジタル機器から入力される映像音データを取得し、キー音抽出部２３、変化点検出部３３、指定点取得部５３へと渡す。キー映像取得部１１は、外部のビデオカメラ、放送受信チューナー、その他の機器から入力される映像音データを取得し、デジタル映像音データに変換した後、キー音抽出部２３、変化点検出部３３、指定点取得部５３へと渡すようにしてもよい。なお、デジタル映像音データを記録媒体２００に記録して、キー音抽出部２３、変化点検出部３３、指定点取得部５３は記録媒体２００からデジタル映像音データを読み込むように変更しても構わない。これらの処理に加えて、必要に応じて映像音データの暗号解除処理（例えばＢ−ＣＡＳ）、デコード処理（例えばＭＰＥＧ２）、形式変換処理（例えばＴＳ／ＰＳ）、レート（圧縮率）変換処理等を行ってもよい。

キー音抽出部２３は、キー映像取得部１１において取得された映像音データから音データを抽出して検索キー生成部４１へと渡す。

変化点検出部３３は、キー映像取得部１２において得られた映像音データから画像特徴パラメータを抽出して、映像的な変化が表われた時刻を変化点として検出する。検出された変化点は時刻など映像音データへのアクセスが可能な情報として検索キー生成部４１に渡される。変化点検出部３３の詳細な処理については後述する。

（２）映像音響処理装置の処理
次に、第５の実施形態に関わる映像音響処理装置の詳細な処理について具体例を用いて説明する。

（２−１）変化点検出部３２の処理
図１７は、検索キーを含む映像音データの一例を示すものである。キー映像取得部１２によって図１７に示す画像データが取得された場合を例に、変化点検出部３２の詳細な処理を説明する。

変化点を検出する方法としては様々なものが考えられるが、本実施形態では、映像的な区切りとなる映像イベントを予め規定しておき、画像データの中から規定された映像イベントが出現した時刻を変化点として検出するという方法を示す。

（２−１−１）一般的な処理
図１８は本実施形態における変化点検出部３３の処理フローチャートを示している。

まず、ステップＳ６０１では検索キーの先頭フレーム区間に対応する画像データを取得する。ここでフレームとは一定の時間幅を持つ検出区間を表しており、いわゆる一枚の静止画であるフレームとは異なる概念である。

続いて、ステップＳ６０２では、ステップＳ６０１で抽出した画像データから画像特徴パラメータを抽出する。

ステップＳ６０３では、抽出した画像特徴パラメータを用いて、フレームに対応する区間で予め規定された映像イベントが発生したか否かを判断する。判断基準としては、例えば事前に学習しておいたモデルとの距離が閾値以内に収まっている映像イベントがあれば、そのイベントが発生したと判断するなどが考えられる。

ステップＳ６０４では、対象フレームで映像イベントの先頭もしくは末尾であることを判断して、条件に合致する場合にはステップＳ６０５に進む。先頭フレームに関しては、映像イベントが発生しなかったためにステップＳ６０６に進む。

ステップＳ６０６では、ステップＳ６０３で判断された映像イベントを記録する。この場合は、映像イベントが検出されなかったので何も記録しない。

続いて、ステップＳ６０７では終了判定を行う。この場合はまだ全てのフレームを処理していないのでステップＳ６０８に進み、次のフレーム区間に対応する画像データを取り出す。

（２−１−２）具体的な処理
同様の処理が繰り返された後に、図１７におけるα）２：０４を含むフレーム（すなわち、画像データ）が処理されている場合を考える。ここで直前のフレームでは映像イベントは検知されていないとする。

ステップＳ６０２において、対象フレームの画像特徴パラメータが抽出される。

続いて、ステップＳ６０３において、画像特徴パラメータが各映像イベントのモデルの閾値内に含まれているかを判断して、対象フレームにおいて映像イベントＡが発生したことを判断する。ステップＳ６０４で行われる直前フレームでイベントが発生していないため、映像イベントの開始地点であると判断してステップＳ６０５に進む。

ステップＳ６０５では、時刻α）２：０４が変化点であることを後段の処理が利用できるように記録する。

続いて、ステップＳ６０６で現在の対象フレームで検出された映像イベントＡを記録した後、ステップＳ６０７の終了判定へと進むことになる。

同様の処理がキー画像データ全てに対して行われると、ステップＳ６０７において終了判定が行われ、図１９に例示するような変化点のリストを出力して変化点検出部３３の処理は終わる。

上記では映像イベントを検出して変化点とするような例を示したが、従来からよく使われているカット検出を用いる場合や、テロップの有無によって変化点を検出するなど、画像を用いた様々な実施方法が考えられる。

以上のような構成により、映像音データに対して利用者は非常に簡単な操作で検索キーを指定することができる。また、検索キーが映像的なまとまりを持つ区間に対応しているために、例えば構成上決められた画像が挿入されるような番組において、繰返し放送される映像・音響区間を正確に検出できるなど、精度の高い音響検索が実現されることになる。

［第６の実施形態］
次に、本発明の第６の実施形態について図２０から図２２に基づいて説明する。

（１）映像音響処理装置の構成
図２０は、第６の実施形態に関わる映像音響処理装置の概略構成図である。

図２０に示すように、キー映像取得部１２、キー音抽出部２２、変化点検出部３４、検索キー生成部４１、指定点取得部５３、検索映像取得部６１、検索音抽出部７２、音響検索部８１、検索結果記録部９１、検索キー管理部１００、記憶媒体２００から構成される。なお、図２０において以前の実施形態と同一の処理を行う部分については同一番号を付与しているため説明を省略する。以前の実施形態とは変化点検出部３４において画像データ及び音データから変化点を検出するようになっているところが大きく異なっている。

キー映像取得部１２は、外部のデジタルビデオカメラ、デジタル放送等の受信チューナー、その他のデジタル機器から入力される映像音データを取得し、キー音抽出部２２、変化点検出部３４、指定点取得部５３へと渡す。キー映像取得部１２は、外部のビデオカメラ、放送受信チューナー、その他の機器から入力される映像音データを取得し、デジタル映像音データに変換した後、キー音抽出部２２、変化点検出部３４、指定点取得部５３へと渡すようにしてもよい。なお、デジタル映像音データを記録媒体２００に記録して、キー音抽出部２２、変化点検出部３４、指定点取得部５３は記録媒体２００からデジタル映像音データを読み込むように変更しても構わない。これらの処理に加えて、必要に応じて映像音データの暗号解除処理（例えばＢ−ＣＡＳ）、デコード処理（例えばＭＰＥＧ２）、形式変換処理（例えばＴＳ／ＰＳ）、レート（圧縮率）変換処理等を行ってもよい。

キー音抽出部２２は、キー映像取得部１２において取得された映像音データから音データを抽出して検索キー生成部４１及び変化点検出部３４へと渡す。

変化点検出部３４は、キー映像取得部１２において得られた映像音データ及びキー音抽出部２２において得られた音データからそれぞれ特徴パラメータを抽出して、映像的な変化及び音響的な変化が表われた時刻を変化点として検出する。検出された変化点は時刻など映像音データへのアクセスが可能な情報として検索キー生成部４１に渡される。変化点検出部３４の詳細な処理については後述する。

（２）映像音響処理装置の処理
次に、第６の実施形態に関わる映像音響処理装置の詳細な処理について具体例を用いて説明する。

（２−１）変化点検出部３４の処理
図２１は、検索キーを含む映像音データの一例を示すものである。キー映像取得部１２によって図２１に示す映像及び音が取得された場合を例に、変化点検出部３４の詳細な処理を説明する。

変化点を検出する方法としては様々なものが考えられるが、本実施形態では、音データからは図３の処理フローチャートに従って音響カテゴリの変化点を、画像データからは図１８の処理フローチャートに従って映像イベントをそれぞれ検出する方法を考える。

（２−１−１）音データに対する処理
まず、音データに対する処理から説明する。

ステップＳ１０１では、検索キーの先頭フレーム区間に対応する音を取得する。

続いてステップＳ１０２では、ステップＳ１０１で抽出したフレーム音データから音響特徴パラメータを抽出する。

ステップＳ１０３では、抽出した音響特徴パラメータを用いて、各フレームがどの音響カテゴリに属するかを判断する。先頭フレームは音響カテゴリａと判断される。

続いて、ステップＳ１０４では直前のフレームがないために一致した場合と同様にステップＳ１０６に進む。

ステップＳ１０６では、ステップＳ１０３で判断した音響カテゴリを記録する。この場合は、音響カテゴリａが記録されることになる。

続いて、ステップＳ１０７では、終了判定を行う。この場合はまだ全てのフレームを処理していないのでステップＳ１０８に進み、次のフレーム区間に対応する音データを取り出す。

同様の処理が繰り返された後に、図２１におけるｐ）１２：１４のフレームが処理されている場合を考える。ここで直前のフレームは音響カテゴリＢに属しているとする。

ステップＳ１０２において対象フレームの音響特徴パラメータが抽出され、ステップＳ１０３において、モデルとの距離計算から音響カテゴリｃに分類される。ステップＳ１０４で行われる直前フレームとの比較により、音響カテゴリがＢとｃで異なるため、変化点が検出されたと判断してステップＳ１０５に進む。

ステップＳ１０５では時刻ｐ）１２：１４が変化点であることを後段の処理が利用できるように記録する。

同様の処理がキー音データ全てに対して行われて、ｐ）１２：１４、ｒ）１２：２５などが音の変化点として検出される。

（２−１−２）画像データに対する処理
続いて、画像データに対する処理を説明する。

ステップＳ６０３では、抽出した画像特徴パラメータを用いて、フレームに対応する区間で予め規定された映像イベントが発生したか否かを判断する。

同様の処理が繰り返された後に、図２１におけるｑ）１２：１８を含むフレームが処理されている場合を考える。ここで直前のフレームでは映像イベントは検知されていない。

続いて、ステップＳ６０３において、画像特徴パラメータが各画像イベントのモデルの閾値内に含まれているかを判断して、対象フレームにおいて映像イベントａが発生したことを判断する。ステップＳ６０４で行われる直前フレームでイベントが発生していないため、映像イベントの開始地点であると判断してステップＳ６０５に進む。

ステップＳ６０５では、時刻ｑ）１２：１８が変化点であることを後段の処理が利用できるように記録する。

同様の処理がキー画像データ全てに対して行われると処理は終わる。

以上の処理により図２２に例示するような変化点のリストを出力して変化点検出部３４の処理を終える。

なお、本実施形態では音データ、画像データそれぞれから変化点を検出して全てを変化点として検索キー生成部４１に渡したが、音・映像で共に変化点と検出された部分のみを検索キー生成部４１に渡すようにしても構わないし、音特徴パラメータ及び画像特徴パラメータの両方から変化点を検出するアルゴリズムを用いても構わず、様々な実施方法が考えられる。

以上のような構成により、映像音データに対して利用者は非常に簡単な操作で検索キーを指定することができ、さらに検索キーが映像もしくは音響の区切りに挟まれた区間に対応しているために、様々な構成の映像音響コンテンツに対しても、精度の高い音響検索が実現されることになる。

［第７の実施形態］
次に、本発明の第７の実施形態について図２３、図２４、図２６に基づいて説明する。

（１）音響処理装置の特徴
第７の実施形態に関わる音響処理装置の概略構成図は第１の実施形態と同一のものであるが、指定点取得部５１において利用者から複数の指定点を取得する点、及び検索キー生成部４１が複数の指定点及び変化点から検索キーの区間を決定する点が、以前の実施形態と異なっている。

これは例えば利用者が検索キーとして登録したい区間の先頭と末尾を指定する場合に対応する。先頭及び末尾に対応する２ヶ所を別々に指定するのは面倒な作業であるが、検索キーの登録用ボタンの押し始めた時刻からボタンを離した時刻までを検索キーの区間に対応させることで、一点を指定するのと大差のない簡単な操作でキー区間の指定が可能となる。

その際、利用者が正確な区間を指定するのは難しいが、変化点検出部３１で得られた変化点などを参考に区間を修正することで、正確な音響検索が可能な検索キー区間を決定できる。本実施形態では、利用者の指定した不正確な区間を修正して精度の高い検索キーを登録する場合を対象に考える。

（２）具体的な処理
本実施形態の詳細な処理について具体例を用いて説明する。

図２３は、検索キーを含む音データの一例を示すものである。図２３の音データに対する変化点検出部３１の処理結果は図５に例示する変化点リストとなる。

ここで変化点のリストが図５に示すものであった場合を例に、検索キー生成部４１の詳細な処理を説明する。

図２４は本実施形態における検索キー生成部４１の処理フローチャートを示している。

まず、ステップＳ７０１において、指定点取得部によって得られる指定点を複数取得する。この例では図２３に示すように１９：２３及び１９：２７の２つが利用者によって指定された時刻として取得される。

続いて、ステップＳ７０２では指定区間の先頭すなわち１９：２３にもっとも近い変化点を変化点リストから探し出してキー区間の先頭を決定する。この例では音響イベントＢの開始地点であるｂ）１９：２２がキー区間の先頭となる。またステップＳ７０３では指定区間の末尾すなわち１９：２７に最も近い変化点を変化点リストから探し出してキー区間の末尾を決定する。この例では音響カテゴリＡの終了時刻であるｄ）１９：２８がキー区間の末尾となる。

以上より（ｂ）（ｄ）に囲まれた６秒間が検索キーの区間と判断され、ステップＳ７０４においてキー音取得部２１で得られた音データからキー区間に対応する部分を取り出した後、ステップＳ７０５で音響検索に必要な形式に変換して検索キー管理部１００へとデータを渡して処理を終える。

本実施形態のように利用者から得られた複数の指定点、すなわち区間情報から周辺の変化点を見つけ出し、その変化点に基づいて区間を修正することで、複数の音響カテゴリをセットにして検索キーに登録するなど柔軟性が高く、また正確な音響検索が可能な検索キー区間を決定できる。なお本実施形態は音データを対象に説明したが、映像音データを対象にした他の実施形態に適用可能であることは言うまでもない。

なお、本実施形態では、指定区間に最も近い変化点からキー区間を決定する方法について説明したが、指定点及び変化点によってキー区間を決定できるならばどのような方法でも構わない。例えば指定区間の内側もしくは外側にある変化点のみからキー区間を決定する方法や、操作の遅れを想定して各指定点以前の変化点からキー区間を決定するなど様々な方法が考えられる。

図２６に例示する音データから指定区間の内側にある変化点でキー区間を決定すると、指定始端１９：２４以降のｃ）１９：２５がキー区間の始点となり、指定終端１９：２９以前のｄ）１９：２８がキー区間の終点となる。このようにユーザの操作から得られる指定区間と実際に抽出されるキー区間との対応規則を様々準備しておくことで、ユーザの操作に応じた様々なキー登録が可能となる。

本発明の第１及び第２及び第７の実施形態に関わる映像音響処理装置の概略構成例を表図である。図１の構成図におけるキー音取得部が取得する音データの一例を表す図である。第１の実施形態に関わる図１の構成図における変化点検出部の処理フローチャートである。図３の処理フローチャートにおける音響カテゴリを判定するアルゴリズムの概念を表す図である。第１の実施形態に係る図１の構成図における変化点検出部が出力する変化点のリストの一例を表す図である。第１の実施形態に係る図１の構成図における検索キー生成部の処理フローチャートである。第２の実施形態に係る図１の構成図における変化点検出部の処理フローチャートである。図７の処理フローチャートにおける音響カテゴリを判定するアルゴリズムの概念を表す図である。第２の実施形態に係る図１の構成図における変化点検出部が出力する変化点のリストの一例を表す図である。第２の実施形態に係る図１の構成図における検索キー生成部の処理フローチャートである。本発明の第３の実施形態に係る映像音響処理装置の概略構成例を表す図である。図１１の構成図における変化点検出部の処理フローチャートである。図１１の構成図における変化点検出部が出力する変化点のリストの一例を表す図である。図１１の構成図における検索キー生成部の処理フローチャートである。本発明の第４の実施形態に係る映像音響処理装置の概略構成例を表す図である。本発明の第５の実施形態に係る映像音響処理装置の概略構成例を表す図である。図１６の構成図におけるキー映像取得部が取得する画像データの一例を表す図である。図１６の構成図における変化点検出部の処理フローチャートである。図１６の構成図における変化点検出部が出力する変化点のリストの一例を表す図である。本発明の第６の実施形態に係る映像音響処理装置の概略構成例を表す図である。図２０の構成図におけるキー映像取得部が取得する画像データの一例を表す図である。図２０の構成図における変化点検出部が出力する変化点のリストの一例を表す図である。図１の構成図におけるキー音取得部が取得する音データの一例を表す図である。第７の実施形態に係る図１の構成図における検索キー生成部の処理フローチャートである。図１の構成図におけるキー音取得部が取得する音データの一例を表す図である。図１の構成図におけるキー音取得部が取得する音データの一例を表す図である。

符号の説明

１１キー映像取得部
１２キー映像取得部
２１キー音取得部
２２キー音抽出部
２３キー音抽出部
３１変化点検出部
３２変化点検出部
３３変化点検出部
３４変化点検出部
４１検索キー生成部
４２検索キー生成部
５１指定点取得部
５２指定点取得部
５３指定点取得部
６１検索映像取得部
７１検索音取得部
７２検索音抽出部
８１音響検索部
９１検索結果記録部
１００検索キー管理部
２００記憶媒体

Claims

検索対象となる検索音データ、または、検索映像音データを検索キーで検索する情報処理装置において、
前記検索キーを抽出するキー映像音データを取得するキー映像音取得手段と、
前記キー映像音データからキー音データを抽出するキー音抽出手段と、
前記キー映像音データにおける画像データを画像特徴パラメータに変換し、この変換した画像特徴パラメータの変化の出現した時刻を変化点として検出する画像変化点検出手段と、
前記映像音データの全体または一部区間を指定するための時刻を指定点として一または複数取得する指定点取得手段と、
前記変化点及び前記指定点の少なくとも一つ以上に基づいて検索キー区間を決定し、前記キー音データにおける前記検索キー区間に対応する部分に基づいて検索キーを生成する検索キー生成手段と、
を具備し、
前記検索キー生成手段は、
前記一つの指定点の前後の変化点を間の区間を前記検索キー区間と決定するか、
前記一つの指定点から、該指定点の前の変化点までの区間を前記検索キー区間と決定するか、
前記一つの指定点から、該指定点の後の変化点までの区間を前記検索キー区間と決定するか、
または、前記２つの指定点で決められた指定区間にもっとも近い外側または内側にある２つの変化点の間を前記検索キー区間と決定する、
ことを特徴とする情報処理装置。
検索対象となる検索音データ、または、検索映像音データを検索キーで検索する情報処理装置において、
前記検索キーを抽出するためのキー音データを取得するキー音取得手段と、
前記キー音データを音響特徴パラメータに変換して、この変換した音響特徴パラメータの変化の出現した時刻を変化点として検出する音響変化点検出手段と、
前記キー音データの全体または一部区間を指定するための時刻を指定点として一または複数取得する指定点取得手段と、
前記変化点及び前記指定点の少なくとも一つ以上に基づいて検索キー区間を決定し、前記キー音データにおける前記検索キー区間に対応する部分に基づいて検索キーを生成する検索キー生成手段と、
を具備し、
前記検索キー生成手段は、
前記一つの指定点の前後の変化点を間の区間を前記検索キー区間と決定するか、
前記一つの指定点から、該指定点の前の変化点までの区間を前記検索キー区間と決定するか、
前記一つの指定点から、該指定点の後の変化点までの区間を前記検索キー区間と決定するか、
または、前記２つの指定点で決められた指定区間にもっとも近い外側または内側にある２つの変化点の間を前記検索キー区間と決定する、
ことを特徴とする情報処理装置。
検索対象となる検索音データ、または、検索映像音データを検索キーで検索する情報処理装置において、
前記検索キーを抽出する映像音データを取得するキー映像音取得手段と、
前記キー映像音データからキー音データを抽出するキー音抽出手段と、
前記キー音データを音響特徴パラメータに変換して、この変換した音響特徴パラメータの変化の出現した時刻を変化点として検出する音響変化点検出手段と、
前記キー映像音データにおける画像データを画像特徴パラメータに変換し、この変換した画像特徴パラメータの変化の出現した時刻を変化点として検出する画像変化点検出手段と、
前記キー音データ、または、前記映像音データの全体または一部区間を指定するための時刻を指定点として一または複数取得する指定点取得手段と、
前記音に基づく変化点及び前記指定点、または、前記画像に基づく変化点及び前記指定点の少なくとも一つ以上に基づいて検索キー区間を決定し、前記キー音データにおける前記検索キー区間に対応する部分に基づいて検索キーを生成する検索キー生成手段と、
を具備し、
前記検索キー生成手段は、
前記一つの指定点の前後の変化点を間の区間を前記検索キー区間と決定するか、
前記一つの指定点から、該指定点の前の変化点までの区間を前記検索キー区間と決定するか、
前記一つの指定点から、該指定点の後の変化点までの区間を前記検索キー区間と決定するか、
または、前記２つの指定点で決められた指定区間にもっとも近い外側または内側にある２つの変化点の間を前記検索キー区間と決定する、
ことを特徴とする情報処理装置。
前記キー音取得手段は、前記検索キーを抽出するための映像音データからキー音データを取得する
ことを特徴とする請求項２記載の情報処理装置。
前記音響変化点検出手段は、
前記キー音データを所定の時間幅を有する検出区間単位に分割し、
前記検出区間単位に分割されたキー音データを音響特徴パラメータに変換し、
前記検出区間を予め規定された複数の音響カテゴリのいずれかに分類し、
前記分類された音響カテゴリが前後の検出区間の音響カテゴリの分類と異なる検出区間を変化点として検出する
ことを特徴とする請求項２、または、３に記載の情報処理装置。
前記音響変化点検出手段は、
前記キー音データを検出区間単位に分割し、
前記検出区間単位に分割された音データを音響特徴パラメータに変換し、
前記検出区間において予め規定された１つもしくは複数の音響イベントが発生するか否かを検出し、
前記音響イベントが発生する検出区間を変化点として検出する
ことを特徴とする請求項２、または、３に記載の情報処理装置。
前記検索キーは、前記キー音データにおける前記検索キー区間に対応する部分の音データを含む
ことを特徴とする請求項１から３のいずれか一項に記載の情報処理装置。
前記検索キーは、前記キー音データにおける前記検索キー区間に対応する部分から抽出した音響特徴パラメータを含む
ことを特徴とする請求項１から３のいずれか一項に記載の情報処理装置。
前記検索キーは、前記キー音データを同定するためのキー音同定情報を含む
ことを特徴とする請求項１から３のいずれか一項に記載の情報処理装置。
前記検索音データを取得する検索音取得手段と、
前記生成した検索キーと前記検索音データとを比較して、所定の条件を満たす前記検索音データの部分を表す検索結果を取得する音響検索手段と、
を具備することを特徴とする請求項１から３のいずれか一項に記載の情報処理装置。
前記検索音取得手段は、前記検索映像音データから前記検索音データを取得する
ことを特徴とする請求項１０に記載の情報処理装置。