JP4405418B2 - 情報処理装置及びその方法 - Google Patents

情報処理装置及びその方法 Download PDF

Info

Publication number
JP4405418B2
JP4405418B2 JP2005100212A JP2005100212A JP4405418B2 JP 4405418 B2 JP4405418 B2 JP 4405418B2 JP 2005100212 A JP2005100212 A JP 2005100212A JP 2005100212 A JP2005100212 A JP 2005100212A JP 4405418 B2 JP4405418 B2 JP 4405418B2
Authority
JP
Japan
Prior art keywords
key
search
sound data
search key
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005100212A
Other languages
English (en)
Other versions
JP2006279898A (ja
Inventor
和範 井本
浩平 桃崎
龍也 上原
学 永尾
康之 正井
宗彦 笹島
一彦 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2005100212A priority Critical patent/JP4405418B2/ja
Priority to US11/390,395 priority patent/US20060224616A1/en
Publication of JP2006279898A publication Critical patent/JP2006279898A/ja
Application granted granted Critical
Publication of JP4405418B2 publication Critical patent/JP4405418B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • G06F16/634Query by example, e.g. query by humming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、音データまたは映像音データに関連付けられた音データから特定の部分を検索する情報処理装置及びその方法に関する。
近年、音データや映像音データを記録する機器として大容量のハードディスクを搭載したものが主流となっており、大量の音もしくは映像コンテンツを蓄積できるようになっている。これにより利用者は大量のコンテンツの中から自分の見たいものを選択して、好きなタイミングで視聴できる。
蓄積された多量のコンテンツの中から目的のものを検索する方法として、コンテンツを記録した単位で名称もしくはその他コンテンツを同定するための関連情報(メタデータ)を付与する方法が考えられる。放送番組を例にとって考えると、EPG(Electronic Program Guide)に代表される番組情報を利用することで、番組を同定するための情報を自動的に付与することが可能であるし、また利用者自らがメタデータを付与することも可能である。以上のように作成されたメタデータを利用することで目的の番組を簡単に検索して、視聴・編集などを行うことができる。
また、記録した単位よりもより細かい単位(以降ではチャプタと呼ぶ)にコンテンツを分割して、例えば特定の番組コーナーを簡単に検索して視聴したいという利用者の要望が考えられる。このようなチャプタ単位への分割及びチャプタ単位での検索に必要なメタデータを、利用者自らが作成するには多大な労力を要する上に、汎用的に外部より提供される枠組みがほとんどないために、記録した映像音データもしくは音データを用いて自動的に作成する必要があるといえる。
自動的に番組をチャプタ単位に分割する方法として、無音などの切れ目、カットと呼ばれる映像の切り替わりなどを利用する方法が考案されている。しかしながら上記の情報は必ずしも番組コーナーのような利用者の意図するチャプタ単位で出現するとは限らないため、不要に出現した分割点を削除するなど後に利用者が手動で修正する場合が少なくない。
また、テロップや番組内で発声された言葉などの言語情報を、テロップ認識・音声認識などの技術により抽出して検索のためのメタデータとして利用するという方法が考案されている。これにより利用者が検索したい言語情報を入力することで、特定の言葉が発せられたシーンを検索できる。しかしながら特定のシーンのみならず、特定のシーンを含むまとまった単位で番組を検索・視聴するなどの応用を考えた場合、言語情報のみでこの目的を達成するのは容易ではない。さらにテロップ認識・音声認識などは処理量が大きく、現状では雑音重畳下でも頑健に認識できるとはいえないなど様々な映像音響コンテンツに適用するには解決すべき問題が少なくない(例えば、特許文献1参照)。
これに対して、音データの類似性に着目してコンテンツを検索する音響検索の方法及び頑健な音響マッチングの手法が考案されている。音声認識のように言語情報を抽出する場合に比べて頑健性が高く、また番組構成上挿入される音データを利用して番組コーナーを分割できるなど音響検索が有効に機能する場面は多い。音響検索を利用するには検索キーとなる音データを登録する必要となるが、事前に準備されている場合は希であるため、検索キーを利用者が簡単に登録できるインターフェースが実用上重要となる。例えば検索の度に検索キーとしたい音データの始終端を指定する必要があるインターフェースは、決して使いやすいものとはいえない。
この問題に対応するため、従来技術では蓄積もしくは入力した音データの中から検索キーとしたい音データ区間の任意の点を利用者が指定し、指定点を含む一定区間を検索キーとして登録するという方法が提案されている。しかしながら検索対象によって必要となるキーの長さは変動するため、必ずしも利用者が意図する音区間を検索キーとして登録できない。この結果、前後の余分な音区間が検索キーに含まれて検索が正確に行われない場合や、逆に部分区間しか検索キーに含まれずに意図しない音区間が湧き出して検索されるなど必ずしも正確な検索キーを準備できないという問題がある(例えば、特許文献2参照)。
特許第3252282号 特開2001−134613
このように従来は、音データの類似性に着目して映像音響コンテンツを検索する音響検索において、正確に類似部分を検索できる検索キーを簡単な操作で登録するのが難しいという問題点がある。
そこで、本発明はこのような事情を考慮してなされたもので、始終端を両方正確に指定することなく、高精度な音響検索を実現する検索キーを登録することができる映像音響処理装置を提供することにある。
請求項1に係る発明は、検索対象となる検索音データ、または、検索映像音データを検索キーで検索する情報処理装置において、前記検索キーを抽出するキー映像音データを取得するキー映像音取得手段と、前記キー映像音データからキー音データを抽出するキー音抽出手段と、前記キー映像音データにおける画像データを画像特徴パラメータに変換し、この変換した画像特徴パラメータの変化の出現した時刻を変化点として検出する画像変化点検出手段と、前記映像音データの全体または一部区間を指定するための時刻を指定点として一または複数取得する指定点取得手段と、前記変化点及び前記指定点の少なくとも一つ以上に基づいて検索キー区間を決定し、前記キー音データにおける前記検索キー区間に対応する部分に基づいて検索キーを生成する検索キー生成手段と、を具備し、前記検索キー生成手段は、前記一つの指定点の前後の変化点を間の区間を前記検索キー区間と決定するか、前記一つの指定点から、該指定点の前の変化点までの区間を前記検索キー区間と決定するか、前記一つの指定点から、該指定点の後の変化点までの区間を前記検索キー区間と決定するか、または、前記2つの指定点で決められた指定区間にもっと近い外側または内側にある2つの変化点の間を前記検索キー区間と決定することを特徴とする情報処理装置である。
請求項2に係る発明は、検索対象となる検索音データ、または、検索映像音データを検索キーで検索する情報処理装置において、前記検索キーを抽出するためのキー音データを取得するキー音取得手段と、前記キー音データを音響特徴パラメータに変換して、この変換した音響特徴パラメータの変化の出現した時刻を変化点として検出する音響変化点検出手段と、前記キー音データの全体または一部区間を指定するための時刻を指定点として一または複数取得する指定点取得手段と、前記変化点及び前記指定点の少なくとも一つ以上に基づいて検索キー区間を決定し、前記キー音データにおける前記検索キー区間に対応する部分に基づいて検索キーを生成する検索キー生成手段と、を具備し、前記検索キー生成手段は、前記一つの指定点の前後の変化点を間の区間を前記検索キー区間と決定するか、前記一つの指定点から、該指定点の前の変化点までの区間を前記検索キー区間と決定するか、前記一つの指定点から、該指定点の後の変化点までの区間を前記検索キー区間と決定するか、または、前記2つの指定点で決められた指定区間にもっと近い外側または内側にある2つの変化点の間を前記検索キー区間と決定することを特徴とする情報処理装置である。
請求項3に係る発明は、検索対象となる検索音データ、または、検索映像音データを検索キーで検索する情報処理装置において、前記検索キーを抽出する映像音データを取得するキー映像音取得手段と、前記キー映像音データからキー音データを抽出するキー音抽出手段と、前記キー音データを音響特徴パラメータに変換して、この変換した音響特徴パラメータの変化の出現した時刻を変化点として検出する音響変化点検出手段と、前記キー映像音データにおける画像データを画像特徴パラメータに変換し、この変換した画像特徴パラメータの変化の出現した時刻を変化点として検出する画像変化点検出手段と、前記キー音データ、または、前記映像音データの全体または一部区間を指定するための時刻を指定点として一または複数取得する指定点取得手段と、前記音に基づく変化点及び前記指定点、または、前記画像に基づく変化点及び前記指定点の少なくとも一つ以上に基づいて検索キー区間を決定し、前記キー音データにおける前記検索キー区間に対応する部分に基づいて検索キーを生成する検索キー生成手段と、を具備し、前記検索キー生成手段は、前記一つの指定点の前後の変化点を間の区間を前記検索キー区間と決定するか、前記一つの指定点から、該指定点の前の変化点までの区間を前記検索キー区間と決定するか、前記一つの指定点から、該指定点の後の変化点までの区間を前記検索キー区間と決定するか、または、前記2つの指定点で決められた指定区間にもっと近い外側または内側にある2つの変化点の間を前記検索キー区間と決定することを特徴とする情報処理装置である。
本発明では映像音響コンテンツから音響的もしくは映像的な切れ目が出現する変化点を自動的に検出することで音響的もしくは映像的に意味の有る区間を抽出し、利用者から取得された指定点を含む区間を検索キーとして自動的に決定できる。
したがって、簡単な操作で検索キーを登録することができ、しかも検索キーが音響的もしくは映像的なまとまりを持つ区間になっているために精度の高い音響検索が実現できる。
以下、本発明の各実施形態について図を参照しながら説明する。
なお、本明細書において「映像音データ」とは、画像データと音データの両方を含むデータであり、「画像データ」は画像のみのデータであり、「音データ」とは音声や音楽等の音のみのデータをいう。
[第1の実施形態]
以下、第1の実施形態の音響処理装置について図1から図6に基づいて説明する。
(1)音響処理装置の構成
図1は本発明の第1の実施形態に関わる音響処理装置の概略構成図である。
図1に示すように、キー音取得部21、変化点検出部31、検索キー生成部41、指定点取得部51、検索音取得部71、音響検索部81、検索結果記録部91、検索キー管理部100、記憶媒体200から構成される。
キー音取得部21は、外部のデジタルマイクロフォン、デジタル放送等の受信チューナー、その他デジタル機器から入力されるデジタル音データを変化点検出部31、検索キー生成部41、指定点取得部51へと渡す。キー音取得部21は外部のマイクロフォン、放送受信チューナー、その他機器から入力されるアナログ音信号を取得して、AD変換によってデジタル音データに変換した後、変化点検出部31、検索キー生成部41、指定点取得部51へと渡すようにしてもよい。なお、デジタル音データを記録媒体200に記録して、変化点検出部31、検索キー生成部41、指定点取得部51は記録媒体200からデジタル音データを読み込むように変更しても構わない。なお、これらの処理に加えて、必要に応じて音データの暗号解除処理、デコード処理、形式変換処理、レート変換処理等を行ってもよい。
変化点検出部31は、キー音取得部21において得られた音データから音響特徴パラメータを抽出して、音響的な変化が表われる時刻を変化点として検出する。検出された変化点は時刻など音データへのアクセスが可能な情報として検索キー生成部41に渡される。変化点検出部31の詳細な処理については後述する。
指定点取得部51は、キー音取得部21で取得された音データの中から、検索キーとして登録したい区間に含まれる任意の点を利用者の操作により取得する。利用者が行う操作としては例えばマウスやリモコンといったデバイスを用いたものが考えられるが、その他の方法を用いても問題はない。また検索キーを指定する際に、スピーカーなどの機器を介して再生し、利用者に音データを確認させながら点を指定させても良い。検出された指定点は時刻など音データへのアクセスが可能な情報として検索キー生成部41に渡される。
検索キー生成部41は変化点検出部31で検出された変化点及び指定点取得部51で得られた指定点から利用者が検索キーとして登録したい区間を同定し、キー音取得部21で得られた音データの対応する部分を、後の音響検索に必要なデータ形式に変換して検索キー管理部100へと格納する。検索キー生成部41の詳細な処理についても後述する。
検索キー管理部100は利用者が登録した検索キーを音パターンデータとして検索時に利用可能な形式で管理するものである。検索キーを管理する方法としては様々な実施形態が可能であるが、例えば検索キーを同定するためのID及び対応区間の音データを対応させて保持することで管理できる。その他キー音データ全体を記憶媒体200に保持しておき、検索キーに対応する区間の時間情報のみを保持しておいても良いし、音響検索部81で検索時に利用する音響特徴パラメータに予め変換して保持しても構わない。また必要に応じて、例えば検索キーを抽出したキー音のタイトルなどの関連情報を検索キーに対応付けて保持することもできる。
検索音取得部71は、外部のデジタルマイクロフォン、デジタル放送等の受信チューナー、その他デジタル機器から入力されるデジタル音データを、検索対象データとして音響検索部81に渡す。検索音取得部71は外部のマイクロフォン、放送受信チューナー、その他機器から入力されるアナログ音信号を取得して、AD変換によってデジタル音データに変換した後、音響検索部81に音データを渡しても構わない。なお、デジタル音データを記録媒体200に記録して、音響検索部81は記録媒体200からデジタル音データを読み込むように変更しても構わない。検索キー取得部21と検索音取得部71の差異は、取り込んだ音を検索キーとして用いるか検索対象として用いるかだけであるので、この部分を共通の構成要素としても構わない。
音響検索部81は検索キー管理部100において検索キーとして管理されている音パターンデータのうち、予め選択された1または複数の音パターンデータと検索音取得部71で取得された音データとを照合して、一致もしくは類似した区間を検出して検索結果記録部91へと出力する。音データを照合する際に用いるアルゴリズムとしては既存のどのようなパターンマッチの手法を用いても構わない。また照合の際には検索キーとなる音パターンデータの部分一致する区間も検出するなど目的に応じて様々なアルゴリズム及び照合基準を使い分けることができる。
検索結果記録部91は、音響検索部81において検出されたキーの情報を検索キー管理部100より取得するとともに、検出された区間の情報を用いて記録媒体200に検出された音パターンデータに対応する情報が記録される。記録される情報としては例えばDVDのVRモードで規定される構造となっている。
(2)処理の具体例
次に第1の実施形態に関わる音響処理装置の詳細な処理について具体例を用いて説明する。
(2−1)変化点検出部31の処理
図2は、検索キーを含む音データの一例を示すものである。キー音取得部21によって図2に示す音が取得された場合を例に、変化点検出部31の詳細な処理を説明する。
変化点を検出する方法としては様々なものが考えられるが、本実施形態では音データを音声、音楽、雑音などの予め規定された音響カテゴリのいずれかに分類して音響カテゴリが切り替わる時刻を変化点として検出するという方法を示す。
(2−1−1)一般的な処理
図3は本実施形態における変化点検出部31の処理フローチャートを示している。
まず、ステップS101では、検索キーの先頭フレーム区間に対応する音データを取得する。ここでフレームとは一定の時間幅を持つ検出区間を表しており、本実施形態ではフレーム長を100msとして話しを進めるが、実際にはどのような時間幅を用いても構わない。
続いて、ステップS102では、ステップS101で抽出したフレーム音データから音響特徴パラメータを抽出する。音響特徴パラメータとしては零交差数、パワースペクトル、パワー、ピッチなど様々なものが考えられる。
ステップS103では、抽出した音響特徴パラメータを用いて、各フレームがどの音響カテゴリに属するかを判断する。
判断基準としては、例えば事前に学習しておいたモデルとの距離が最も短い音響カテゴリに分類するなどの方法が考えられる。図4に音響カテゴリを判断する基準を表した概念図である。図4はフレームから抽出される音響特徴パラメータによって構成される特徴空間を表すもので、零交差数をパワーの2つを特徴量とした場合を例にとって、X軸に零交差数をY軸にパワーをプロットした特徴空間を図示したものである。
楕円で表されたモデルA,B,Cはそれぞれ事前に与えられた音データ(図中の白丸に対応)から学習した各音響カテゴリの領域に対応して、例えばその中心が(Xi,Yi)で表現されるものとする。ここでXiは零交差数の平均を、Yiはパワーの平均を表しており、iは各カテゴリを表す記号である。図中の入力(1)は判断対象となる先頭フレームの音響特徴パラメータを表すもので、特徴空間上で(X1,Y1)にプロットされるものとする。入力(1)がどのカテゴリに分類されるかを判断する基準として、各モデルと入力との距離Siを算出する方法が考えられる。

Si=√((Xi−X1)+(Yi−Y1)

ここでSiが小さいほどモデルとの類似度が高いことを示している。各モデルに対して距離が算出され、その値が小さなカテゴリに分類される。各モデルとの距離からこのフレームは音響カテゴリAと判断される。
続いて、ステップS104では、直前のフレームが属する音響カテゴリと対象フレームが属する音響カテゴリを比較して、異なる場合にはステップS105へと進む。先頭フレームに関しては、直前のフレームがないために一致した場合と同様にステップS106に進む。
ステップS106では、ステップS103で判断された音響カテゴリを記録する。この場合は、音響カテゴリAが記録されることになる。
続いて、ステップS107では終了判定を行う。この場合、まだ全てのフレームを処理していないのでステップS108に進み、次のフレーム区間に対応する音データを取り出す。ここで次のフレームは先頭位置を一定幅ずらした区間とするが、その幅はどのように設定しても構わず、例えばフレーム同士が重複するように設定する、または隣接するフレームに隙間があるように設定するなど様々な方法が考えられる。
(2−1−2)具体的な処理
同様の処理が繰り返された後に、図2における時刻a)19:17のフレームが処理されている場合を考える。ここで直前のフレームは音響カテゴリBに属しているとする。
ステップS102において、対象フレームの音響特徴パラメータが抽出され、そのパラメータが図4に示す入力(a)に対応するものとする。
続いて、ステップS103において、各音響カテゴリのモデルとの距離が比較され、最も近い音響カテゴリCに分類される。ステップS104で行われる直前フレームとの比較により、音響カテゴリがBとCで異なるため、変化点が検出されたと判断してステップS105に進む。
ステップS105では、時刻a)19:17が変化点であることを後段の処理が利用できるように記録する。
続いて、ステップS106で現在の対象フレームが属する音響カテゴリCを記録した後、ステップS107の終了判定へと進むことになる。
同様の処理がキー音データ全てに対して行われると、ステップS107において終了判定が行われ、図5に例示するような変化点のリストを出力して変化点検出部31の処理は終わる。
なお、本実施形態では1フレームから抽出した音響特徴パラメータを用いて音響カテゴリの判定を行った場合を示したが、前後複数のフレームから抽出した音響特徴パラメータを用いて音響カテゴリの判定を行っても問題はなく、また音響カテゴリの判定方法に関しても前後の音響特徴パラメータを直接比較して変化点を検出するなど目的に適した手法を選択すればよい。
(2−2)検索キー生成部41の処理
続いて、図2に示す音データに対する変化点検出部31の処理結果が図5に例示する変化点リストであった場合を例に、検索キー生成部41の詳細な処理を説明する。
図6は、本実施形態における検索キー生成部41の処理フローチャートを示している。
まず、ステップS201において指定点取得部51によって得られる指定点を取得する。この例では図2に示すように19:26が指定点として取得される。
続いて、ステップS202においては変化点のリストから指定点19:26前後の変化点を検出する。この例では図5より変化点(c)19:25及び(d)19:28がこれにあたるため、(c)(d)に囲まれた3秒間が検索キーの区間と判断される。
続いて、ステップS203では、キー音取得部21によって得られた音データからキー区間に対応する部分を取り出した後、ステップS204で音響検索に必要な形式に変換して検索キー管理部へとデータを渡して処理を終える。
ここで音響検索に必要な形式としては、音響検索を行う際に用いる音響特徴パラメータが考えられるが、音響特徴パラメータが再現できるならばどのような形式でも構わず、例えば記憶容量に余裕があれば音データそのものを保存しても構わない。またキー音全体が記憶媒体に保存されている場合には、ステップS202で決定した区間情報のみを保存するなど様々な処理で実現が可能である。
音響検索を行う際に必要となる検索キーの区間を利用者が正確に指定するのは容易ではない。本実施形態によれば検索キーに含まれる任意の点を少なくとも一度指定すれば音響的に意味のある区間を検出して自動的に検索キーとして登録できる。これは例えばある効果音を検索キーとして登録したい場合には、効果音のどの部分を指定しても、効果音の部分のみを自動的に検索キーとして登録されることになる。その結果、利用者は非常に簡単な操作で検索キーを指定することができ、さらに検索キーが音響的なまとまりを持つ区間になっているために精度の高い音響検索が実現されることになる。
(3)変更例
なお、本実施形態では、指定点を含む前後の変化点から両端フリーでキー区間を決定する方法について説明したが、指定点及び変化点によってキー区間を決定できるならばどのような方法でも構わない。
例えばユーザの操作によって取得された指定点を始端として固定し、以降に出現した変化点から終端を決定する始端固定終端フリーのキー区間決定方法や、逆に指定点から終端を決定する始端フリー終端固定のキー区間決定方法など様々な方法が考えられる。
図25に例示する音データから始端フリー終端固定の方法でキー区間を決定すると、終端が指定点の19:19となり、始端が指定点以前に出現する変化点a)19:22となる。このような片端固定のキー探索は、長い区間が同じ音響カテゴリに分類される場合に、先頭区間もしくは末尾区間のみをキーとして探索することが可能となる。しかも両端フリーで区間を決定する場合と比較して、ユーザの操作を増加させることなく、様々なキー登録を可能とする。
[第2の実施形態]
次に、第2の実施形態に関わる音響処理装置について図7から図10に基づいて説明する。
本実施形態は第1の実施形態における変化点検出部31の処理のみが異なり、概略構成図は第1の実施形態と同一のものである。
本実施形態の詳細な処理について具体例を用いて説明する。
図7は、検索キーを含む音データの一例を示すものである。キー音取得部21によって図7に示す音が取得された場合を例に、変化点検出部31の詳細な処理を説明する。
変化点を検出する方法としては様々なものが考えられるが、本実施形態では、音響的な区切りとなる音響イベントを予め規定しておき、音データの中から規定された音響イベントが検出された時刻を変化点として検出するという方法を示す。
(1)一般的な処理
図8は本実施形態における変化点検出部31の処理フローチャートを示している。
まず、ステップS301では、検索キーの先頭フレーム区間に対応する音を取得する。
続いて、ステップS302では、ステップS301で抽出したフレーム音データから音響特徴パラメータを抽出する。第1の実施形態と同様に音響特徴パラメータとしては零交差数、パワースペクトル、パワー、ピッチなど様々なものが考えられる。
ステップS303では、前段で抽出した音響特徴パラメータを用いて、フレームに対応する区間で予め規定された音響イベントが発生したか否かを判断する。
判断基準としては、例えば事前に学習しておいたモデルとの距離が閾値以内に収まっている音響イベントがあれば、そのイベントが発生したと判断するなどが考えられる。図9は音響イベントの発生を判断する基準を表す概念図である。
図9はフレームから抽出される音響特徴パラメータによって構成される特徴空間を表すもので、零交差数をパワーの2つを特徴量とした場合を例にとって、X軸に零交差数をY軸にパワーをプロットした特徴空間を図示したものである。楕円で表されたモデルX,Y,Zはそれぞれ事前に与えられた音データ(図中の白丸に対応)から学習した各音響イベントの領域に対応しており、例えばその中心が(Xi,Yi)で表現されるものとする。ここでXiは零交差数の平均を、Yiはパワーの平均を表しており、iは各カテゴリを表す記号である。また各モデルを囲む破線は各音響イベントの発生を判断するための閾値Tiに対応するものである。図中の入力(1)は判断対象となるフレームの音響特徴パラメータを表すもので、特徴空間上で(X1,Y1)にプロットされるものとする。入力(1)でイベントが発生したかを判断する基準として、各モデルと入力との距離Siが閾値Ti以下であるか否かが考えられる。

Si=√((Xi−X1)+(Yi−Y1))<Ti

入力(1)では、モデルとの距離が閾値以内に収まるイベントはないためこのフレームでは音響イベントは発生しなかったと判断される。
ステップS304では、対象フレームで音響イベントの先頭もしくは末尾であることを判断して、条件に合致する場合にはステップS305に進む。先頭フレームに関しては、音響イベントが発生しなかったためにステップS306に進む。
ステップS306では、ステップS303で判断された音響イベントを記録する。この場合は、音響イベントが検出されなかったので何も記録しない。
続いて、ステップS307では終了判定を行う。この場合はまだ全てのフレームを処理していないのでステップS308に進み、次のフレーム区間に対応する音データを取り出す。
(2)具体的な処理
同様の処理が繰り返された後に、図9におけるX)の開始時刻(以降イベントの先頭を−s、イベントの末尾を−eのサフィックスをつけて表現する)3:15を含むフレームが処理されている場合を考える。ここで直前のフレームでは音響イベントは検知されていない。
ステップS302において、対象フレームの音響特徴パラメータが抽出され、そのパラメータが図9に示す入力(X−s)に対応するものとする。
続いて、ステップS303において、音響特徴パラメータが各音響イベントのモデルの閾値内に含まれているかを判断して、対象フレームにおいて音響イベントZが発生したことを判断する。ステップS304で行われる直前フレームでイベントが発生していないため、音響イベントの開始地点であると判断してステップS305に進む。
ステップS305では、時刻X−s)3:15が変化点であることを後段の処理が利用できるように記録する。
続いて、ステップS306で現在の対象フレームで検出された音響イベントZを記録した後、ステップS307の終了判定へと進むことになる。
同様の処理がキー音データ全てに対して行われると、ステップS307において終了判定が行われ、図10に例示するような変化点のリストを出力して変化点検出部31の処理は終わる。
本実施形態では、キー音データの全ての区間をいずれかの音響カテゴリに分類する代わりに、予め規定された音響イベントのみを検出してその先頭/末尾地点を変化点として検出する点が第1の実施形態と異なる。例えば音響イベントとして無音を登録することで無音に囲まれた音区間を検索キーとして登録するなどの実施が可能となる。
[第3の実施形態]
次に、本発明の第3の実施形態の音響処理装置について図11から図14に基づいて説明する。
(1)音響処理装置の構成
図11は第3の実施形態に関わる音響処理装置の概略構成図である。
図11に示すように、キー音取得部21、変化点検出部32、検索キー生成部42、指定点取得部52、検索音取得部71、音響検索部81、検索結果記録部91、検索キー管理部100、記憶媒体200から構成される。なお、図11において以前の実施形態と同一の処理を行う部分については同一番号を付与しているため説明を省略する。
指定点取得部52は、キー音取得部21で取得された音データの中から、検索キーとして登録したい区間に含まれる任意の点を利用者の操作により取得する。検出された指定点は時刻など音データへのアクセスが可能な情報として変更点検出部32に渡される。
変化点検出部32は、キー音取得部21において得られた音データから音響特徴パラメータを抽出して、音響的な変化が表われる時刻を変化点として検出する。なお変化点を検出する際に指定点取得部52で得られた指定点を利用することで、必要最小限の変化点のみを検出する点が第1の実施形態と異なる。検出された変化点は時刻など音データへのアクセスが可能な情報として検索キー生成部42に渡される。変化点検出部32の詳細な処理については後述する。
検索キー生成部42は変換点検出部31で検出された変化点から利用者が検索キーとして登録したい区間を同定し、キー音取得部21で得られた音データの対応する部分を、後の音響検索に必要なデータ形式に変換して検索キー管理部100へと格納する。検索キー生成部42の詳細な処理については後述する。
(2)音響処理装置の処理
次に、第3の実施形態に関わる音響処理装置の詳細な処理について具体例を用いて説明する。
(2−1)変化点検出部32の処理
キー音取得部21によって図2に示す音が取得された場合を例に、変化点検出部32の詳細な処理を説明する。
変化点を検出する方法としては第1の実施形態と同等の方法を用いて説明する。図12は本実施形態における変化点検出部32の処理フローチャートを示している。
まず、ステップS401では指定点を含むフレーム区間に対応する音を取得する。
ステップS402では、ステップS401で抽出したフレーム音データから音響特徴パラメータを抽出する。
ステップS403では、抽出した音響特徴パラメータを用いて、各フレームがどの音響カテゴリに属するかを判断する。 図2の例では指定点を含むフレームは音響カテゴリAと判断され、ステップS404で検出された音響カテゴリaが記録される。
続いて、ステップS405では直前のフレーム区間に対応する音を取得する。ステップS402及びステップS403と同様にステップS406で対象フレームの音響特徴パラメータを抽出し、さらにステップS407で音響特徴パラメータに基づいてフレームの属する音響カテゴリを判定する。
ステップS408では、対象フレームの音響カテゴリが指定点を含むフレームの音響カテゴリと一致するか否かを判定し、一致する限り、ステップS409で一つ前のフレームに対応する音を取り出してステップS406からステップS409までの処理を繰返し実行する。
図2の例では、時刻c)19:25を含むフレームまでは音響カテゴリaと判断されるため処理を繰返し、ステップS407において次のフレームが音響カテゴリBと判断された場合に、ステップS410へと処理を進め、対象フレームの時刻c)19:25を変化点として記録する。
続いて、ステップS411では指定点を含むフレームの直後のフレーム区間に対応する音を取得する。
ステップS402及びステップS403と同様にステップS412で対象フレームの音響特徴パラメータを抽出し、さらにステップS413で音響特徴パラメータに基づいてフレームの属する音響カテゴリを判定する。
ステップS413では、対象フレームの音響カテゴリが指定点を含むフレームの音響カテゴリと一致するか否かを判定し、一致する限り、ステップS415一つ後のフレームに対応する音を取り出してステップS412からステップS415までの処理を繰返し実行する。
図2の例では、時刻d)19:28を含むフレームまでは音響カテゴリAと判断されるため処理を繰返し、ステップS407において次のフレームが音響カテゴリBと判断された場合に、ステップS416へと処理を進め、対象フレームの時刻d)19:28を変化点として記録する。図13に例示するような変化点のリストを出力して変化点検出部31の処理は終わる。
本実施形態では指定点前後の変化点のみを抽出するために、処理するフレーム数も少なく、また変化点のリストのみから検索キーの区間を決定できる。
(2−2)検索キー生成部42の処理
続いて、図2に示す音データに対する変化点検出部31の処理結果が変化点のリストが図13に示すものであった場合を例に、検索キー生成部42の詳細な処理を説明する。
図14は本実施形態における検索キー生成部42の処理フローチャートを示している。
まず、ステップS501において変化点を取得して検索キーの区間を決定する。この例では図13より変化点(c)19:25及び(d)19:28が変化点となるため、(c)(d)に囲まれた3秒間が検索キーの区間と判断される。
続いて、ステップS502ではキー音取得部21によって得られた音データからキー区間に対応する部分を取り出した後、ステップS503で音響検索に必要な形式に変換して検索キー管理部100へとデータを渡して処理を終える。
本実施形態のように変化点検出部32に対して指定点の時刻情報を与えることによって、変化点の検出に必要な処理が少なくなり、結果として利用者の操作で指定点を取得してから検索キーの区間を検出して自動登録するために必要な時刻が短くなる。
[第4の実施形態]
次に、本発明の第4の実施形態について図15に基づいて説明する。
図15は、第4の実施形態に関わる映像音響処理装置の概略構成図である。
図15に示すように、キー映像取得部11、キー音抽出部22、変化点検出部31、検索キー生成部41、指定点取得部53、検索映像取得部61、検索音抽出部72、音響検索部81、検索結果記録部91、検索キー管理部100、記憶媒体200から構成される。なお、図15において以前の実施形態と同一の処理を行う部分については同一番号を付与しているため説明を省略する。映像音データを扱う点が以前の実施形態とは大きく異なっている。
キー映像取得部11は、外部のデジタルビデオカメラ、デジタル放送等の受信チューナー、その他のデジタル機器から入力される映像音データを取得し、キー音抽出部22、指定点取得部53へと渡す。キー映像取得部11は、外部のビデオカメラ、放送受信チューナー、その他の機器から入力される映像音データを取得し、デジタル映像音データに変換した後、キー音抽出部22、指定点取得部53へと渡すようにしてもよい。なお、デジタル映像音データを記録媒体200に記録して、キー音抽出部22、指定点取得部53は記録媒体200からデジタル映像音データを読み込むように変更しても構わない。これらの処理に加えて、必要に応じて映像音データの暗号解除処理(例えばB−CAS)、デコード処理(例えばMPEG2)、形式変換処理(例えばTS/PS)、レート(圧縮率)変換処理等を行ってもよい。
キー音抽出部22は、キー映像取得部11において取得された映像音データから音データを抽出して変化点検出部31、検索キー生成部41へと渡す。
指定点取得部53は、キー映像取得部11で取得された映像音データの中から、検索キーとして登録したい区間に含まれる任意の点を利用者の操作により取得する。利用者が行う操作としては例えばマウスやリモコンといったデバイスを用いたものが考えられるが、その他の方法を用いても問題はない。また検索キーを指定する際に、ディスプレイなどの機器を介して再生し、利用者に映像音データを確認させながら点を指定させても良い。検出された指定点は時刻など映像音データへのアクセスが可能な情報として検索キー生成部41に渡される。
変化点検出部31は、キー音抽出部22において得られた音データから音響特徴パラメータを抽出して、音響的な変化が表われる時刻を変化点として検出する。検出された変化点は時刻など音データへのアクセスが可能な情報として検索キー生成部41に渡される。
検索キー生成部41は、変化点検出部31で検出された変化点及び指定点取得部53で得られた指定点から利用者が検索キーとして登録したい区間を同定し、キー音取得部21で得られた音データの対応する部分を、後の音響検索に必要なデータ形式に変換して検索キー管理部100へと格納する。
検索キー管理部100は、利用者が登録した検索キーを音パターンデータとして検索時に利用可能な形式で管理するものである。検索キーを管理する方法としては様々な実施形態が可能であるが、例えば検索キーを同定するためのid及び対応区間の音データを対応させて保持することで管理できる。その他キー音データ全体もしくはキー映像音データ全体を記憶媒体200に保持しておき、検索キーに対応する区間の時間情報のみを保持しておいても良いし、音響検索部81で検索時に利用する音響特徴パラメータに予め変換して保持しても構わない。また必要に応じて、例えば検索キーを抽出したキー映像音のタイトルなどの関連情報を検索キーに対応付けて保持することもできる。
検索映像取得部61は、外部のデジタルビデオカメラ、デジタル放送等の受信チューナー、その他のデジタル機器から入力される映像音データを取得し、検索対象の映像音データとして検索音抽出部72へと渡す。検索映像取得部61は、外部のビデオカメラ、放送受信チューナー、その他の機器から入力される映像音データを取得し、デジタル映像音データに変換した後、検索対象の映像音データとして検索音抽出部72へと渡すようにしてもよい。なお、デジタル映像音データを記録媒体200に記録して、検索音抽出部72は記録媒体200からデジタル映像音データを読み込むように変更しても構わない。これらの処理に加えて、必要に応じて映像音データの暗号解除処理(例えばB−CAS)、デコード処理(例えばMPEG2)、形式変換処理(例えばTS/PS)、レート(圧縮率)変換処理等を行ってもよい。キー映像取得部11と検索映像取得部61の差異は、取り込んだ映像音データを検索キーとして用いるか検索対象として用いるかだけなので、この部分を共通の構成要素としても構わない。
検索音抽出部72は、検索映像取得部61において取得された映像音データから音データを抽出して音響検索部81へと渡す。キー音抽出部22と検索音抽出部72の差異は、抽出した音データを検索キーとして用いるか検索対象として用いるかだけなので、この部分を共通の構成要素としても構わない。
音響検索部81は検索キー管理部100において検索キーとして管理されている音パターンデータのうち、予め選択された1または複数の音パターンデータと検索音抽出部72で取得された音データとを照合して、類似した区間を検出して検索結果記録部91へと出力する。音データを照合する際に用いるアルゴリズムとしては既存のどのようなパターンマッチの手法を用いても構わない。また照合の際には検索キーとなる音パターンデータの部分一致する区間も検出するなど目的に応じて様々なアルゴリズム及び照合基準を使い分けることができる。
検索結果記録部91は、音響検索部81において検出されたキーの情報を検索キー管理部100より取得するとともに、検出された区間の情報を用いて記録媒体200に検出された音パターンデータに対応する情報が記録される。記録される情報としては例えばdVdのVRモードで規定される構造となっている。
以上のような構成により、音データ同様に映像音データに対しても、利用者は非常に簡単な操作で検索キーを指定することができ、さらに検索キーが音響的なまとまりを持つ区間になっているために精度の高い音響検索が実現されることになる。
[第5の実施形態]
次に、本発明の第5の実施形態について図16から図19に基づいて説明する。
(1)映像音響処理装置の構成
図16は第5の実施形態に関わる映像音響処理装置の概略構成図である。
図16に示すように、キー映像取得部12、キー音抽出部23、変化点検出部33、検索キー生成部41、指定点取得部53、検索映像取得部61、検索音抽出部72、音響検索部81、検索結果記録部91、検索キー管理部100、記憶媒体200から構成される。なお、図16において以前の実施形態と同一の処理を行う部分については同一番号を付与しているため説明を省略する。以前の実施形態とは変化点検出部33において画像データから変化点を検出するようになっているところが異なっている。
キー映像取得部12は、外部のデジタルビデオカメラ、デジタル放送等の受信チューナー、その他のデジタル機器から入力される映像音データを取得し、キー音抽出部23、変化点検出部33、指定点取得部53へと渡す。キー映像取得部11は、外部のビデオカメラ、放送受信チューナー、その他の機器から入力される映像音データを取得し、デジタル映像音データに変換した後、キー音抽出部23、変化点検出部33、指定点取得部53へと渡すようにしてもよい。なお、デジタル映像音データを記録媒体200に記録して、キー音抽出部23、変化点検出部33、指定点取得部53は記録媒体200からデジタル映像音データを読み込むように変更しても構わない。これらの処理に加えて、必要に応じて映像音データの暗号解除処理(例えばB−CAS)、デコード処理(例えばMPEG2)、形式変換処理(例えばTS/PS)、レート(圧縮率)変換処理等を行ってもよい。
キー音抽出部23は、キー映像取得部11において取得された映像音データから音データを抽出して検索キー生成部41へと渡す。
変化点検出部33は、キー映像取得部12において得られた映像音データから画像特徴パラメータを抽出して、映像的な変化が表われた時刻を変化点として検出する。検出された変化点は時刻など映像音データへのアクセスが可能な情報として検索キー生成部41に渡される。変化点検出部33の詳細な処理については後述する。
(2)映像音響処理装置の処理
次に、第5の実施形態に関わる映像音響処理装置の詳細な処理について具体例を用いて説明する。
(2−1)変化点検出部32の処理
図17は、検索キーを含む映像音データの一例を示すものである。キー映像取得部12によって図17に示す画像データが取得された場合を例に、変化点検出部32の詳細な処理を説明する。
変化点を検出する方法としては様々なものが考えられるが、本実施形態では、映像的な区切りとなる映像イベントを予め規定しておき、画像データの中から規定された映像イベントが出現した時刻を変化点として検出するという方法を示す。
(2−1−1)一般的な処理
図18は本実施形態における変化点検出部33の処理フローチャートを示している。
まず、ステップS601では検索キーの先頭フレーム区間に対応する画像データを取得する。ここでフレームとは一定の時間幅を持つ検出区間を表しており、いわゆる一枚の静止画であるフレームとは異なる概念である。
続いて、ステップS602では、ステップS601で抽出した画像データから画像特徴パラメータを抽出する。
ステップS603では、抽出した画像特徴パラメータを用いて、フレームに対応する区間で予め規定された映像イベントが発生したか否かを判断する。判断基準としては、例えば事前に学習しておいたモデルとの距離が閾値以内に収まっている映像イベントがあれば、そのイベントが発生したと判断するなどが考えられる。
ステップS604では、対象フレームで映像イベントの先頭もしくは末尾であることを判断して、条件に合致する場合にはステップS605に進む。先頭フレームに関しては、映像イベントが発生しなかったためにステップS606に進む。
ステップS606では、ステップS603で判断された映像イベントを記録する。この場合は、映像イベントが検出されなかったので何も記録しない。
続いて、ステップS607では終了判定を行う。この場合はまだ全てのフレームを処理していないのでステップS608に進み、次のフレーム区間に対応する画像データを取り出す。
(2−1−2)具体的な処理
同様の処理が繰り返された後に、図17におけるα)2:04を含むフレーム(すなわち、画像データ)が処理されている場合を考える。ここで直前のフレームでは映像イベントは検知されていないとする。
ステップS602において、対象フレームの画像特徴パラメータが抽出される。
続いて、ステップS603において、画像特徴パラメータが各映像イベントのモデルの閾値内に含まれているかを判断して、対象フレームにおいて映像イベントAが発生したことを判断する。ステップS604で行われる直前フレームでイベントが発生していないため、映像イベントの開始地点であると判断してステップS605に進む。
ステップS605では、時刻α)2:04が変化点であることを後段の処理が利用できるように記録する。
続いて、ステップS606で現在の対象フレームで検出された映像イベントAを記録した後、ステップS607の終了判定へと進むことになる。
同様の処理がキー画像データ全てに対して行われると、ステップS607において終了判定が行われ、図19に例示するような変化点のリストを出力して変化点検出部33の処理は終わる。
上記では映像イベントを検出して変化点とするような例を示したが、従来からよく使われているカット検出を用いる場合や、テロップの有無によって変化点を検出するなど、画像を用いた様々な実施方法が考えられる。
以上のような構成により、映像音データに対して利用者は非常に簡単な操作で検索キーを指定することができる。また、検索キーが映像的なまとまりを持つ区間に対応しているために、例えば構成上決められた画像が挿入されるような番組において、繰返し放送される映像・音響区間を正確に検出できるなど、精度の高い音響検索が実現されることになる。
[第6の実施形態]
次に、本発明の第6の実施形態について図20から図22に基づいて説明する。
(1)映像音響処理装置の構成
図20は、第6の実施形態に関わる映像音響処理装置の概略構成図である。
図20に示すように、キー映像取得部12、キー音抽出部22、変化点検出部34、検索キー生成部41、指定点取得部53、検索映像取得部61、検索音抽出部72、音響検索部81、検索結果記録部91、検索キー管理部100、記憶媒体200から構成される。なお、図20において以前の実施形態と同一の処理を行う部分については同一番号を付与しているため説明を省略する。以前の実施形態とは変化点検出部34において画像データ及び音データから変化点を検出するようになっているところが大きく異なっている。
キー映像取得部12は、外部のデジタルビデオカメラ、デジタル放送等の受信チューナー、その他のデジタル機器から入力される映像音データを取得し、キー音抽出部22、変化点検出部34、指定点取得部53へと渡す。キー映像取得部12は、外部のビデオカメラ、放送受信チューナー、その他の機器から入力される映像音データを取得し、デジタル映像音データに変換した後、キー音抽出部22、変化点検出部34、指定点取得部53へと渡すようにしてもよい。なお、デジタル映像音データを記録媒体200に記録して、キー音抽出部22、変化点検出部34、指定点取得部53は記録媒体200からデジタル映像音データを読み込むように変更しても構わない。これらの処理に加えて、必要に応じて映像音データの暗号解除処理(例えばB−CAS)、デコード処理(例えばMPEG2)、形式変換処理(例えばTS/PS)、レート(圧縮率)変換処理等を行ってもよい。
キー音抽出部22は、キー映像取得部12において取得された映像音データから音データを抽出して検索キー生成部41及び変化点検出部34へと渡す。
変化点検出部34は、キー映像取得部12において得られた映像音データ及びキー音抽出部22において得られた音データからそれぞれ特徴パラメータを抽出して、映像的な変化及び音響的な変化が表われた時刻を変化点として検出する。検出された変化点は時刻など映像音データへのアクセスが可能な情報として検索キー生成部41に渡される。変化点検出部34の詳細な処理については後述する。
(2)映像音響処理装置の処理
次に、第6の実施形態に関わる映像音響処理装置の詳細な処理について具体例を用いて説明する。
(2−1)変化点検出部34の処理
図21は、検索キーを含む映像音データの一例を示すものである。キー映像取得部12によって図21に示す映像及び音が取得された場合を例に、変化点検出部34の詳細な処理を説明する。
変化点を検出する方法としては様々なものが考えられるが、本実施形態では、音データからは図3の処理フローチャートに従って音響カテゴリの変化点を、画像データからは図18の処理フローチャートに従って映像イベントをそれぞれ検出する方法を考える。
(2−1−1)音データに対する処理
まず、音データに対する処理から説明する。
ステップS101では、検索キーの先頭フレーム区間に対応する音を取得する。
続いてステップS102では、ステップS101で抽出したフレーム音データから音響特徴パラメータを抽出する。
ステップS103では、抽出した音響特徴パラメータを用いて、各フレームがどの音響カテゴリに属するかを判断する。先頭フレームは音響カテゴリaと判断される。
続いて、ステップS104では直前のフレームがないために一致した場合と同様にステップS106に進む。
ステップS106では、ステップS103で判断した音響カテゴリを記録する。この場合は、音響カテゴリaが記録されることになる。
続いて、ステップS107では、終了判定を行う。この場合はまだ全てのフレームを処理していないのでステップS108に進み、次のフレーム区間に対応する音データを取り出す。
同様の処理が繰り返された後に、図21におけるp)12:14のフレームが処理されている場合を考える。ここで直前のフレームは音響カテゴリBに属しているとする。
ステップS102において対象フレームの音響特徴パラメータが抽出され、ステップS103において、モデルとの距離計算から音響カテゴリcに分類される。ステップS104で行われる直前フレームとの比較により、音響カテゴリがBとcで異なるため、変化点が検出されたと判断してステップS105に進む。
ステップS105では時刻p)12:14が変化点であることを後段の処理が利用できるように記録する。
続いて、ステップS106で現在の対象フレームが属する音響カテゴリcを記録した後、ステップS107の終了判定へと進むことになる。
同様の処理がキー音データ全てに対して行われて、p)12:14、r)12:25などが音の変化点として検出される。
(2−1−2)画像データに対する処理
続いて、画像データに対する処理を説明する。
まず、ステップS601では検索キーの先頭フレーム区間に対応する画像データを取得する。ここでフレームとは一定の時間幅を持つ検出区間を表しており、いわゆる一枚の静止画であるフレームとは異なる概念である。
続いて、ステップS602では、ステップS601で抽出した画像データから画像特徴パラメータを抽出する。
ステップS603では、抽出した画像特徴パラメータを用いて、フレームに対応する区間で予め規定された映像イベントが発生したか否かを判断する。
ステップS604では、対象フレームで映像イベントの先頭もしくは末尾であることを判断して、条件に合致する場合にはステップS605に進む。先頭フレームに関しては、映像イベントが発生しなかったためにステップS606に進む。
ステップS606では、ステップS603で判断された映像イベントを記録する。この場合は、映像イベントが検出されなかったので何も記録しない。
続いて、ステップS607では終了判定を行う。この場合はまだ全てのフレームを処理していないのでステップS608に進み、次のフレーム区間に対応する画像データを取り出す。
同様の処理が繰り返された後に、図21におけるq)12:18を含むフレームが処理されている場合を考える。ここで直前のフレームでは映像イベントは検知されていない。
ステップS602において、対象フレームの画像特徴パラメータが抽出される。
続いて、ステップS603において、画像特徴パラメータが各画像イベントのモデルの閾値内に含まれているかを判断して、対象フレームにおいて映像イベントaが発生したことを判断する。ステップS604で行われる直前フレームでイベントが発生していないため、映像イベントの開始地点であると判断してステップS605に進む。
ステップS605では、時刻q)12:18が変化点であることを後段の処理が利用できるように記録する。
続いて、ステップS606で現在の対象フレームで検出された映像イベントaを記録した後、ステップS607の終了判定へと進むことになる。
同様の処理がキー画像データ全てに対して行われると処理は終わる。
以上の処理により図22に例示するような変化点のリストを出力して変化点検出部34の処理を終える。
なお、本実施形態では音データ、画像データそれぞれから変化点を検出して全てを変化点として検索キー生成部41に渡したが、音・映像で共に変化点と検出された部分のみを検索キー生成部41に渡すようにしても構わないし、音特徴パラメータ及び画像特徴パラメータの両方から変化点を検出するアルゴリズムを用いても構わず、様々な実施方法が考えられる。
以上のような構成により、映像音データに対して利用者は非常に簡単な操作で検索キーを指定することができ、さらに検索キーが映像もしくは音響の区切りに挟まれた区間に対応しているために、様々な構成の映像音響コンテンツに対しても、精度の高い音響検索が実現されることになる。
[第7の実施形態]
次に、本発明の第7の実施形態について図23、図24、図26に基づいて説明する。
(1)音響処理装置の特徴
第7の実施形態に関わる音響処理装置の概略構成図は第1の実施形態と同一のものであるが、指定点取得部51において利用者から複数の指定点を取得する点、及び検索キー生成部41が複数の指定点及び変化点から検索キーの区間を決定する点が、以前の実施形態と異なっている。
これは例えば利用者が検索キーとして登録したい区間の先頭と末尾を指定する場合に対応する。先頭及び末尾に対応する2ヶ所を別々に指定するのは面倒な作業であるが、検索キーの登録用ボタンの押し始めた時刻からボタンを離した時刻までを検索キーの区間に対応させることで、一点を指定するのと大差のない簡単な操作でキー区間の指定が可能となる。
その際、利用者が正確な区間を指定するのは難しいが、変化点検出部31で得られた変化点などを参考に区間を修正することで、正確な音響検索が可能な検索キー区間を決定できる。本実施形態では、利用者の指定した不正確な区間を修正して精度の高い検索キーを登録する場合を対象に考える。
(2)具体的な処理
本実施形態の詳細な処理について具体例を用いて説明する。
図23は、検索キーを含む音データの一例を示すものである。図23の音データに対する変化点検出部31の処理結果は図5に例示する変化点リストとなる。
ここで変化点のリストが図5に示すものであった場合を例に、検索キー生成部41の詳細な処理を説明する。
図24は本実施形態における検索キー生成部41の処理フローチャートを示している。
まず、ステップS701において、指定点取得部によって得られる指定点を複数取得する。この例では図23に示すように19:23及び19:27の2つが利用者によって指定された時刻として取得される。
続いて、ステップS702では指定区間の先頭すなわち19:23にもっとも近い変化点を変化点リストから探し出してキー区間の先頭を決定する。この例では音響イベントBの開始地点であるb)19:22がキー区間の先頭となる。またステップS703では指定区間の末尾すなわち19:27に最も近い変化点を変化点リストから探し出してキー区間の末尾を決定する。この例では音響カテゴリAの終了時刻であるd)19:28がキー区間の末尾となる。
以上より(b)(d)に囲まれた6秒間が検索キーの区間と判断され、ステップS704においてキー音取得部21で得られた音データからキー区間に対応する部分を取り出した後、ステップS705で音響検索に必要な形式に変換して検索キー管理部100へとデータを渡して処理を終える。
本実施形態のように利用者から得られた複数の指定点、すなわち区間情報から周辺の変化点を見つけ出し、その変化点に基づいて区間を修正することで、複数の音響カテゴリをセットにして検索キーに登録するなど柔軟性が高く、また正確な音響検索が可能な検索キー区間を決定できる。なお本実施形態は音データを対象に説明したが、映像音データを対象にした他の実施形態に適用可能であることは言うまでもない。
なお、本実施形態では、指定区間に最も近い変化点からキー区間を決定する方法について説明したが、指定点及び変化点によってキー区間を決定できるならばどのような方法でも構わない。例えば指定区間の内側もしくは外側にある変化点のみからキー区間を決定する方法や、操作の遅れを想定して各指定点以前の変化点からキー区間を決定するなど様々な方法が考えられる。
図26に例示する音データから指定区間の内側にある変化点でキー区間を決定すると、指定始端19:24以降のc)19:25がキー区間の始点となり、指定終端19:29以前のd)19:28がキー区間の終点となる。このようにユーザの操作から得られる指定区間と実際に抽出されるキー区間との対応規則を様々準備しておくことで、ユーザの操作に応じた様々なキー登録が可能となる。
本発明の第1及び第2及び第7の実施形態に関わる映像音響処理装置の概略構成例を表図である。 図1の構成図におけるキー音取得部が取得する音データの一例を表す図である。 第1の実施形態に関わる図1の構成図における変化点検出部の処理フローチャートである。 図3の処理フローチャートにおける音響カテゴリを判定するアルゴリズムの概念を表す図である。 第1の実施形態に係る図1の構成図における変化点検出部が出力する変化点のリストの一例を表す図である。 第1の実施形態に係る図1の構成図における検索キー生成部の処理フローチャートである。 第2の実施形態に係る図1の構成図における変化点検出部の処理フローチャートである。 図7の処理フローチャートにおける音響カテゴリを判定するアルゴリズムの概念を表す図である。 第2の実施形態に係る図1の構成図における変化点検出部が出力する変化点のリストの一例を表す図である。 第2の実施形態に係る図1の構成図における検索キー生成部の処理フローチャートである。 本発明の第3の実施形態に係る映像音響処理装置の概略構成例を表す図である。 図11の構成図における変化点検出部の処理フローチャートである。 図11の構成図における変化点検出部が出力する変化点のリストの一例を表す図である。 図11の構成図における検索キー生成部の処理フローチャートである。 本発明の第4の実施形態に係る映像音響処理装置の概略構成例を表す図である。 本発明の第5の実施形態に係る映像音響処理装置の概略構成例を表す図である。 図16の構成図におけるキー映像取得部が取得する画像データの一例を表す図である。 図16の構成図における変化点検出部の処理フローチャートである。 図16の構成図における変化点検出部が出力する変化点のリストの一例を表す図である。 本発明の第6の実施形態に係る映像音響処理装置の概略構成例を表す図である。 図20の構成図におけるキー映像取得部が取得する画像データの一例を表す図である。 図20の構成図における変化点検出部が出力する変化点のリストの一例を表す図である。 図1の構成図におけるキー音取得部が取得する音データの一例を表す図である。 第7の実施形態に係る図1の構成図における検索キー生成部の処理フローチャートである。 図1の構成図におけるキー音取得部が取得する音データの一例を表す図である。 図1の構成図におけるキー音取得部が取得する音データの一例を表す図である。
符号の説明
11 キー映像取得部
12 キー映像取得部
21 キー音取得部
22 キー音抽出部
23 キー音抽出部
31 変化点検出部
32 変化点検出部
33 変化点検出部
34 変化点検出部
41 検索キー生成部
42 検索キー生成部
51 指定点取得部
52 指定点取得部
53 指定点取得部
61 検索映像取得部
71 検索音取得部
72 検索音抽出部
81 音響検索部
91 検索結果記録部
100 検索キー管理部
200 記憶媒体

Claims (11)

  1. 検索対象となる検索音データ、または、検索映像音データを検索キーで検索する情報処理装置において、
    前記検索キーを抽出するキー映像音データを取得するキー映像音取得手段と、
    前記キー映像音データからキー音データを抽出するキー音抽出手段と、
    前記キー映像音データにおける画像データを画像特徴パラメータに変換し、この変換した画像特徴パラメータの変化の出現した時刻を変化点として検出する画像変化点検出手段と、
    前記映像音データの全体または一部区間を指定するための時刻を指定点として一または複数取得する指定点取得手段と、
    前記変化点及び前記指定点の少なくとも一つ以上に基づいて検索キー区間を決定し、前記キー音データにおける前記検索キー区間に対応する部分に基づいて検索キーを生成する検索キー生成手段と、
    を具備し、
    前記検索キー生成手段は、
    前記一つの指定点の前後の変化点を間の区間を前記検索キー区間と決定するか、
    前記一つの指定点から、該指定点の前の変化点までの区間を前記検索キー区間と決定するか、
    前記一つの指定点から、該指定点の後の変化点までの区間を前記検索キー区間と決定するか、
    または、前記2つの指定点で決められた指定区間にもっとも近い外側または内側にある2つの変化点の間を前記検索キー区間と決定する、
    ことを特徴とする情報処理装置。
  2. 検索対象となる検索音データ、または、検索映像音データを検索キーで検索する情報処理装置において、
    前記検索キーを抽出するためのキー音データを取得するキー音取得手段と、
    前記キー音データを音響特徴パラメータに変換して、この変換した音響特徴パラメータの変化の出現した時刻を変化点として検出する音響変化点検出手段と、
    前記キー音データの全体または一部区間を指定するための時刻を指定点として一または複数取得する指定点取得手段と、
    前記変化点及び前記指定点の少なくとも一つ以上に基づいて検索キー区間を決定し、前記キー音データにおける前記検索キー区間に対応する部分に基づいて検索キーを生成する検索キー生成手段と、
    を具備し、
    前記検索キー生成手段は、
    前記一つの指定点の前後の変化点を間の区間を前記検索キー区間と決定するか、
    前記一つの指定点から、該指定点の前の変化点までの区間を前記検索キー区間と決定するか、
    前記一つの指定点から、該指定点の後の変化点までの区間を前記検索キー区間と決定するか、
    または、前記2つの指定点で決められた指定区間にもっとも近い外側または内側にある2つの変化点の間を前記検索キー区間と決定する、
    ことを特徴とする情報処理装置。
  3. 検索対象となる検索音データ、または、検索映像音データを検索キーで検索する情報処理装置において、
    前記検索キーを抽出する映像音データを取得するキー映像音取得手段と、
    前記キー映像音データからキー音データを抽出するキー音抽出手段と、
    前記キー音データを音響特徴パラメータに変換して、この変換した音響特徴パラメータの変化の出現した時刻を変化点として検出する音響変化点検出手段と、
    前記キー映像音データにおける画像データを画像特徴パラメータに変換し、この変換した画像特徴パラメータの変化の出現した時刻を変化点として検出する画像変化点検出手段と、
    前記キー音データ、または、前記映像音データの全体または一部区間を指定するための時刻を指定点として一または複数取得する指定点取得手段と、
    前記音に基づく変化点及び前記指定点、または、前記画像に基づく変化点及び前記指定点の少なくとも一つ以上に基づいて検索キー区間を決定し、前記キー音データにおける前記検索キー区間に対応する部分に基づいて検索キーを生成する検索キー生成手段と、
    を具備し、
    前記検索キー生成手段は、
    前記一つの指定点の前後の変化点を間の区間を前記検索キー区間と決定するか、
    前記一つの指定点から、該指定点の前の変化点までの区間を前記検索キー区間と決定するか、
    前記一つの指定点から、該指定点の後の変化点までの区間を前記検索キー区間と決定するか、
    または、前記2つの指定点で決められた指定区間にもっとも近い外側または内側にある2つの変化点の間を前記検索キー区間と決定する、
    ことを特徴とする情報処理装置。
  4. 前記キー音取得手段は、前記検索キーを抽出するための映像音データからキー音データを取得する
    ことを特徴とする請求項2記載の情報処理装置。
  5. 前記音響変化点検出手段は、
    前記キー音データを所定の時間幅を有する検出区間単位に分割し、
    前記検出区間単位に分割されたキー音データを音響特徴パラメータに変換し、
    前記検出区間を予め規定された複数の音響カテゴリのいずれかに分類し、
    前記分類された音響カテゴリが前後の検出区間の音響カテゴリの分類と異なる検出区間を変化点として検出する
    ことを特徴とする請求項2、または、3に記載の情報処理装置。
  6. 前記音響変化点検出手段は、
    前記キー音データを検出区間単位に分割し、
    前記検出区間単位に分割された音データを音響特徴パラメータに変換し、
    前記検出区間において予め規定された1つもしくは複数の音響イベントが発生するか否かを検出し、
    前記音響イベントが発生する検出区間を変化点として検出する
    ことを特徴とする請求項2、または、3に記載の情報処理装置。
  7. 前記検索キーは、前記キー音データにおける前記検索キー区間に対応する部分の音データを含む
    ことを特徴とする請求項1から3のいずれか一項に記載の情報処理装置。
  8. 前記検索キーは、前記キー音データにおける前記検索キー区間に対応する部分から抽出した音響特徴パラメータを含む
    ことを特徴とする請求項1から3のいずれか一項に記載の情報処理装置。
  9. 前記検索キーは、前記キー音データを同定するためのキー音同定情報を含む
    ことを特徴とする請求項1から3のいずれか一項に記載の情報処理装置。
  10. 記検索音データを取得する検索音取得手段と、
    前記生成した検索キーと前記検索音データとを比較して、所定の条件を満たす前記検索音データの部分を表す検索結果を取得する音響検索手段と、
    を具備することを特徴とする請求項1から3のいずれか一項に記載の情報処理装置
  11. 前記検索音取得手段は、前記検索映像音データから前記検索音データを取得する
    ことを特徴とする請求項10に記載の情報処理装置
JP2005100212A 2005-03-30 2005-03-30 情報処理装置及びその方法 Expired - Fee Related JP4405418B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2005100212A JP4405418B2 (ja) 2005-03-30 2005-03-30 情報処理装置及びその方法
US11/390,395 US20060224616A1 (en) 2005-03-30 2006-03-28 Information processing device and method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005100212A JP4405418B2 (ja) 2005-03-30 2005-03-30 情報処理装置及びその方法

Publications (2)

Publication Number Publication Date
JP2006279898A JP2006279898A (ja) 2006-10-12
JP4405418B2 true JP4405418B2 (ja) 2010-01-27

Family

ID=37071839

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005100212A Expired - Fee Related JP4405418B2 (ja) 2005-03-30 2005-03-30 情報処理装置及びその方法

Country Status (2)

Country Link
US (1) US20060224616A1 (ja)
JP (1) JP4405418B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4786384B2 (ja) 2006-03-27 2011-10-05 株式会社東芝 音声処理装置、音声処理方法および音声処理プログラム
JP4224095B2 (ja) * 2006-09-28 2009-02-12 株式会社東芝 情報処理装置、情報処理プログラムおよび情報処理システム
JP4945236B2 (ja) * 2006-12-27 2012-06-06 株式会社東芝 映像コンテンツ表示装置、映像コンテンツ表示方法及びそのプログラム
JP2010230695A (ja) * 2007-10-22 2010-10-14 Toshiba Corp 音声の境界推定装置及び方法
WO2010140195A1 (ja) 2009-06-05 2010-12-09 株式会社 東芝 映像編集装置
JP5242826B1 (ja) * 2012-03-22 2013-07-24 株式会社東芝 情報処理装置及び情報処理方法
JP6078441B2 (ja) * 2013-07-03 2017-02-08 日本電信電話株式会社 モデル処理装置、分析装置、それらの方法およびプログラム
JP6093670B2 (ja) * 2013-08-07 2017-03-08 日本電信電話株式会社 モデル処理装置、モデル処理方法、およびプログラム
WO2016175792A1 (en) * 2015-04-29 2016-11-03 Hewlett Packard Enterprise Development Lp Inhibiting electromagnetic field-based eavesdropping

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60003549T2 (de) * 1999-04-30 2004-04-29 Thomson Licensing S.A., Boulogne Verfahren und vorrichtung zur verarbeitung von digital kodierten audiodaten
US20050038819A1 (en) * 2000-04-21 2005-02-17 Hicken Wendell T. Music Recommendation system and method
EP1431956A1 (en) * 2002-12-17 2004-06-23 Sony France S.A. Method and apparatus for generating a function to extract a global characteristic value of a signal contents
GB0406512D0 (en) * 2004-03-23 2004-04-28 British Telecomm Method and system for semantically segmenting scenes of a video sequence
JP2006331591A (ja) * 2005-05-30 2006-12-07 Sony Corp 情報処理装置および方法、並びにプログラム

Also Published As

Publication number Publication date
JP2006279898A (ja) 2006-10-12
US20060224616A1 (en) 2006-10-05

Similar Documents

Publication Publication Date Title
JP4405418B2 (ja) 情報処理装置及びその方法
JP4600828B2 (ja) 文書対応付け装置、および文書対応付け方法
JP4466564B2 (ja) 文書作成閲覧装置、文書作成閲覧ロボットおよび文書作成閲覧プログラム
CN100394438C (zh) 信息处理装置及其方法
JP4873018B2 (ja) データ処理装置、データ処理方法、及び、プログラム
KR20070118038A (ko) 정보처리 장치 및 정보처리 방법과 컴퓨터·프로그램
WO2004002144A1 (ja) メタデータ作成装置、その作成方法および検索装置
JP6280312B2 (ja) 議事録記録装置、議事録記録方法及びプログラム
JP2001333379A (ja) オーディオ/ビデオ信号生成装置、及びオーディオ/ビデオ信号生成方法
CN101101779A (zh) 数据记录和再现设备以及产生元数据的方法
JP4491700B2 (ja) 音響検索処理方法、音響情報検索装置、音響情報蓄積方法、音響情報蓄積装置および音響映像検索処理方法、音響映像情報検索装置、音響映像情報蓄積方法、音響映像情報蓄積装置
WO2016197708A1 (zh) 一种录音方法及终端
JP2019148681A (ja) テキスト修正装置、テキスト修正方法およびテキスト修正プログラム
JP2010262413A (ja) 音声情報抽出装置
JP3781715B2 (ja) メタデータ制作装置及び検索装置
KR101727587B1 (ko) 디지털 녹취 파일 녹취록 생성 방법
KR20060089922A (ko) 음성 인식을 이용한 데이터 추출 장치 및 방법
JP2006311462A (ja) コンテンツ検索装置及びその方法
JP2004289530A (ja) 記録再生装置
JP4235635B2 (ja) データ検索装置及びその制御方法
JP4531546B2 (ja) 制御信号を利用したインデックス付与システム
JP4272611B2 (ja) 映像処理方法、映像処理装置、映像処理用プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2006054517A (ja) 情報提示装置、方法及びプログラム
JP2009049667A (ja) 情報処理装置、その処理方法およびプログラム
JP2006338550A (ja) メタデータ作成装置及びメタデータ作成方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090303

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090407

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090605

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090630

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090824

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091006

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091104

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121113

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121113

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees