JP4491700B2 - 音響検索処理方法、音響情報検索装置、音響情報蓄積方法、音響情報蓄積装置および音響映像検索処理方法、音響映像情報検索装置、音響映像情報蓄積方法、音響映像情報蓄積装置 - Google Patents

音響検索処理方法、音響情報検索装置、音響情報蓄積方法、音響情報蓄積装置および音響映像検索処理方法、音響映像情報検索装置、音響映像情報蓄積方法、音響映像情報蓄積装置 Download PDF

Info

Publication number
JP4491700B2
JP4491700B2 JP2000247233A JP2000247233A JP4491700B2 JP 4491700 B2 JP4491700 B2 JP 4491700B2 JP 2000247233 A JP2000247233 A JP 2000247233A JP 2000247233 A JP2000247233 A JP 2000247233A JP 4491700 B2 JP4491700 B2 JP 4491700B2
Authority
JP
Japan
Prior art keywords
acoustic
signal
search
searcher
feature parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000247233A
Other languages
English (en)
Other versions
JP2001134613A (ja
Inventor
雅美 三浦
進 矢部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2000247233A priority Critical patent/JP4491700B2/ja
Publication of JP2001134613A publication Critical patent/JP2001134613A/ja
Application granted granted Critical
Publication of JP4491700B2 publication Critical patent/JP4491700B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は、検索対象の音響信号や映像信号から、例えば特定の楽器、特定の人声、動物の鳴き声等の部分や特定の人物画像、特定のシーンなどの部分を検索する検索処理方法および装置、また、この検索処理方法および装置を用いた情報蓄積方法および装置に関する。
【0002】
【従来の技術】
例えば、会議録音を行った場合、記録された音響信号について、記録後に、特定の発言部分などを検索したりする要求がある。
【0003】
このように、記録された音響信号について、使用者が希望する音響信号部分を検索する場合、従来は、記録時にマーカーを打ち込んでおき、再生時に、この打ち込みマーカーを検出することにより、希望する音響信号部分を検索するようにしている。
【0004】
また、記録時に、後で検索したい音響信号部分が判るように、カウンタ数値や、記録開始時点からの時間を、それぞれの音響信号部分と対応を付けて記録するようにする方法も知られている。
【0005】
【発明が解決しようとする課題】
しかしながら、上述の方法の場合、記録時に、後で検索するであろう音響信号部分を判断してマーカーを打ち込んだり、カウンタ数値や時間を記録したりする必要があり、使い勝手について、次のような問題があった。
【0006】
1.記録時に、マーカーを使用者が打ち込んだり、カウンタ数値や時間を別途に記録しなければならず、マーカー打ち込み操作やカウンタ数値や時間を記録する操作が厄介である。
【0007】
2.マーカーやカウンタ数値、時間が記録されていない箇所は、検索することはできない。
【0008】
3.特定の話者のみ、あるいは特定の楽器のみなどの部分を検索することができない。このため、例えば会議記録において発言区間を話者毎に分類したり、演奏区間を楽器毎に分類したりするなどということができない。
【0009】
4.一旦、記録して、マーカーやカウンタ数値等を記録する必要があるため、記録を行わずに、複数の検索子について検索して分類するなどということはできなかった。
【0010】
この発明は、以上の点にかんがみ、記録時に、マーカーを打ち込んだり、カウンタ数値や時間を記録する操作が必要なく、しかも、特定の話者や楽器などの部分を検索することができる方法および装置を提供することを目的とする。
【0011】
また、音響信号を記録しなくても、検索対象の音響信号から、特定の音源などの音響信号を検索子とする検索が行えるようにする方法および装置を提供することを目的とする。
【0012】
【課題を解決するための手段】
上記課題を解決するため、請求項1の発明による音響検索処理方法は、抽出手段が、検索対象とする音響信号が入力されると、操作部を通じた使用者の操作に応じた制御信号に基づいて、前記検索対象とする音響信号の1〜複数の部分を検索子とする音響信号として抽出し、音響特徴パラメータ解析手段が、前記検索子とする音響信号及び前記検索対象とする音響信号についての、発音体の構造や共振系の違いなどの構造的な要素に依存するパラメータやピッチ周波数の時間的変動から得られる音声の抑揚パラメータなど音響信号の特徴を表す音響特徴パラメータを解析し、検索手段が、前記検索子とする音響信号について前記音響特徴パラメータ解析手段により解析された前記音響特徴パラメータからなる検索子音響特徴パラメータと、前記検索対象とする音響信号について前記音響特徴パラメータ解析手段により解析された前記音響特徴パラメータとを比較し、両者の類似性を算出することにより、前記検索対象とする音響信号の中から前記検索子とする音響信号と類似する部分を検索することを特徴とする。
【0013】
この請求項1の発明においては、検索子として、例えば特定の話者、特定の楽器などの、構造的な要素が異なる音源からの音響信号を想定する。そして、それぞれの音源の構造的な要素に依存する音響特徴パラメータ(検索子音響特徴パラメータ)と、検索対象の音響信号を解析して得た音響特徴パラメータと比較することで、検索対象の音響信号から、検索子の音響信号と類似する部分を見つけ出すようにする。
【0014】
これにより、検索対象の音響信号の記録時にマーカーなどを打ち込んでおかなくても、例えば、特定の話者の発言部分や、特定の楽器の演奏部分を、簡単に検索することができる。
【0018】
また請求項の発明によれば、検索対象の音響信号中から、検索子とすべき音源の音響信号を抽出することにより、必要な検索子の音響信号を簡単に用意することができる。
【0020】
また請求項の発明においては、検索時に検索したい、例えば話者などの音響信号部分を、検索対象の音響信号について指示すると、その指示された音響信号部分が解析されて、検索子音響特徴パラメータが生成される。そして、その検索子音響特徴パラメータにより、指示された検索子についての検索が行われることになる。
【0021】
このように、この請求項の発明よれば、予め検索子を用意しておかなくても、検索時に検索対象の音響信号から検索子とする音響信号部分を指定することより、検索子を設定することができる。したがって、使用者が希望する任意の検索子についての検索が可能となる。
【0026】
また、請求項の発明は、請求項1〜のいずれかに記載の音響検索処理方法において、前記検索子が複数個である場合には、予め設定された単位時間ごとに、検索子を切り換えて、前記類似性の算出を行なうことを特徴とする。
【0027】
この請求項の発明によれば、時分割的に複数の検索子を切り換えて、検索を行うことにより、同時に複数個の検索子についての検索が可能になる。
【0028】
また、請求項の発明は、請求項1〜請求項のいずれかに記載の音響検索処理方法において、前記検索結果の類似する部分を、前記検索対象の音響信号について、時間方向に表示することを特徴とする。
【0029】
この請求項の発明によれば、例えば会議録音された音響信号において、例えば特定の話者がどのように発言しているかなどを時間単位に表示することができる。
【0030】
また、請求項の発明は、請求項1〜請求項のいずれかに記載の音響検索処理方法において、前記検索対象の音響信号のうちの、前記検索結果の類似する部分のみを抽出して再生することを特徴とする。
【0031】
この請求項の発明によれば、例えば会議録音された音響信号において、例えば特定の話者が発言した部分のみを再生することができる。
【0032】
また、請求項23の発明による音響映像検索処理方法は、映像信号と、その映像信号に関連する音響信号とからなる入力信号から、所定の部分を検索する音響映像検索処理方法において、抽出手段が、検索対象とする前記入力信号が入力されると、操作部を通じた使用者の操作に応じた制御信号に基づいて、前記検索対象とする前記入力信号中の音響信号の1〜複数の部分を検索子とする音響信号として抽出し、音響特徴パラメータ解析手段が、前記検索子とする音響信号及び前記検索対象とする前記入力信号中の音響信号についての、発音体の構造や共振系の違いなどの構造的な要素に依存するパラメータやピッチ周波数の時間的変動から得られる音声の抑揚パラメータなど音響信号の特徴を表す音響特徴パラメータを解析し、検索手段が、前記検索子とする音響信号について前記音響特徴パラメータ解析手段により解析された前記音響特徴パラメータからなる検索子音響特徴パラメータと、前記検索対象とする前記入力信号中の音響信号について前記音響特徴パラメータ解析手段により解析された前記音響特徴パラメータとを比較し、両者の類似性を算出することにより、前記検索対象とする入力信号中の音響信号の中から前記検索子とする音響信号と類似する部分を検索することを特徴とする。
【0033】
この請求項23の発明によれば、検索子とされた音響信号に関連する映像信号部分を検索することができる。
【0034】
また、請求項25の発明による音響映像検索処理方法は、抽出手段が、検索対象とする前記入力信号が入力されると、操作部を通じた使用者の操作に応じた制御信号に基づいて、前記検索対象とする前記入力信号中の音響信号の1〜複数の部分を検索子とする音響信号として抽出し、音響特徴パラメータ解析手段が、前記検索子とする音響信号及び前記検索対象とする前記入力信号中の音響信号についての、発音体の構造や共振系の違いなどの構造的な要素に依存するパラメータやピッチ周波数の時間的変動から得られる音声の抑揚パラメータなど音響信号の特徴を表す音響特徴パラメータを解析し、音響部分検索手段が、前記検索子とする音響信号について前記音響特徴パラメータ解析手段により解析された前記音響特徴パラメータからなる検索子音響特徴パラメータと、前記検索対象とする前記入力信号中の音響信号について前記音響特徴パラメータ解析手段により解析された前記音響特徴パラメータとを比較し、両者の類似性を算出することにより、前記検索対象とする入力信号中の音響信号の中から前記検索子とする音響信号と類似する部分を検索すると共に、映像部分検索手段が、検索子とする1〜複数の映像信号についての、画像の特徴を表す映像特徴パラメータからなる検索子映像特徴パラメータのそれぞれと、検索対象とする前記入力信号中の映像信号を解析して得た前記映像特徴パラメータとを比較し、両者の類似性を算出することにより、前記検索対象とする前記入力信号中の映像信号中から前記検索子の画像と類似する画像部分を検索し、前記音響信号についての検索結果と、前記映像信号についての検索結果とに基づいて、前記入力信号中から所定の部分を検索することを特徴とする。
【0035】
この請求項25の発明によれば、検索子として、検索子音響特徴パラメータだけでなく、検索子映像特徴パラメータを用いて、入力信号についての検索を行なうので、検索の精度をあげることができ、また、音響的にも、映像的にも、区切りの良いシーンの検索などを行なうことができる。
【0036】
【発明の実施の形態】
以下、この発明の実施の形態を、図を参照しながら説明する。
【0037】
[第1の実施の形態]
図1は、この発明の第1の実施の形態のブロック図である。この第1の実施の形態では、検索対象の入力音響信号、例えばマイクロホンで収音した入力オーディオ信号を記録し、再生する機能を備える。この実施の形態では、再生音響信号も、検索対象の音響信号とする機能を備える。また、検索対象の入力音響信号または再生音響信号から検索子の音響信号を抽出して記憶蓄積する機能と、この蓄積された検索子の音響信号を用いて入力音響信号または再生音響信号について検索する機能と、さらに、検索結果を表示部に表示する機能を備える。
【0038】
入力音響信号は、入力端子11を通じて、スイッチ回路SW1に供給される。このスイッチ回路SW1は、コントロール部10からの切り換え信号により、入力音響信号の記録時および入力音響信号についての検索時には、端子a側に切り換えられ、入力音響信号から検索子の音響信号を抽出するときには、端子b側に切り換えられる。
【0039】
そして、スイッチ回路SW1の端子a側に得られるオーディオ信号は、音響信号記録部12を介して記録媒体13、例えばメモリカード、磁気ディスクや光磁気ディスクなどの光ディスクや、ハードディスクに記録される。音響信号記録部12は、キー操作部20を通じて記録指示が使用者から与えられたときに、コントロール部10からの制御信号により、アクティブになり、記録を実行する。
【0040】
入力端子11を通じた入力音響信号は、また、スイッチ回路SW2の入力端INに供給される。このスイッチ回路SW2の後段には、オーディオアンプ15およびスピーカ16が接続されており、後述する再生時以外は、スイッチ回路SW2はコントロール部10からの切り換え制御信号により、入力端IN側に切り換えられる。したがって、再生時以外の時には、入力音響信号がオーディオアンプ15を通じてスピーカ16に供給されて、音響再生される。
【0041】
キー操作部20を通じて再生指示が使用者から与えられると、コントロール部10からの制御信号により、音響信号再生部14がアクティブになり、記録媒体13から再生音響信号が読み出されて再生され、スイッチ回路SW2の入力端PBに供給される。この再生時には、スイッチ回路SW2は、コントロール部10からの切り換え制御信号により、入力端PB側に切り換えられる。したがって、再生音響信号が、オーディオアンプ15を通じてスピーカ16に供給されて、音響再生される。
【0042】
スイッチ回路SW1の端子a側に得られる入力音響信号は、また、スイッチ回路SW3の一方の入力端dに供給される。このスイッチ回路SW3の他方の入力端cには、音響信号再生部14からの再生音響信号が供給される。
【0043】
スイッチ回路SW3は、検索対象の音響信号を切り換えるもので、キー操作部20を通じた使用者による検索対象の音響信号の選択指示に応じて切り換えられる。
【0044】
このスイッチ回路SW3から得られる検索対象の音響信号は、音響特徴パラメータ解析部21に供給されて、例えば、発音体の構造や共振系などの違いなどの音源の構造的な要素、に依存する音響特徴パラメータに解析する。この音響特徴パラメータとしては、ピッチ周波数、その高調波成分周波数、フォルマント周波数や、ケプストラム情報、線形予測係数とその残差信号、パーコール係数などが挙げられる。
【0045】
例えば、図2は一般的な男性音声の周波数成分分布(図2(A))と時間波形(図2(B))の例である。また、図3は一般的な女性音声の周波数成分分布(図3(A))と時間波形(図3(B))の例である。また、図4はサキソホンの周波数成分分布(図4(A))と時間波形(図4(B))の例である。さらに、図5はベースギターの周波数成分分布(図5(A))と時間波形(図5(B))の例である。
【0046】
これらの図2〜図5は、単なる周波数成分分布および時間波形であるが、それぞれ、ピッチ周波数、その高調波成分、フォルマント構造やその有無に、音響的な特徴が見られることが判る。
【0047】
このような周波数成分分布の他にも、線形予測係数とその残差信号などの音響特徴パラメータでも、音響信号の特徴を表わすことができる。
【0048】
また、ピッチ周波数の時間的変動から得られる音声の抑揚パラメータも音響信号の特徴を表すパラメータとして有効であることが知られており、同一人物が話した言葉でも、抑揚によって別な状況と識別することができる。例えば、ピッチが通常より低く、さらに抑揚も下がる傾向のときには、元気のない場面や悲しい場面であると識別される。したがって、抑揚情報も音響特徴パラメータに用いることもできる。
【0049】
この音響特徴パラメータ解析部21からの音響特徴パラメータは、類似性算出部22に供給される。この類似性算出部22では、後述するように、検索子となる音響信号についての音響特徴パラメータ(以下、検索子音響特徴パラメータという)と、音響特徴パラメータ解析部21からの検索対象の音響信号の音響特徴パラメータとの類似性を算出する。
【0050】
この類似性算出部22での類似性算出は、音声認識などのような音声時系列波形パターンの類似判定ではなく、発音体の構造や共振系について類似した構造を持った音源から発したものであるかの判定である。時系列波形のパターンの一致や類似度を算出するものではないので、例えばオーディオ信号の再生時に、再生速度を高速にしても類似性の算出が可能である。
【0051】
すなわち、例えば、類似性の算出に当たって、音響特徴パラメータとして、前述したもののうちの、例えば、ピッチ周波数、フォルマント周波数などの3項目を取り上げて、パラメータ(x,y,z)で表わすことにする。
【0052】
今、ある時間幅TWの区間での検索子音響特徴パラメータが、(x0,y0,z0)であり、検索対象の音響信号の音響特徴パラメータが、(xi,yi,zi)であったとしたとき、類似性算出部22では、次式に示す両者の距離Sを類似度として算出する。前記時間幅TWは、類似性算出部22で、類似性を判定するのに十分な程度のパラメータ情報と時間を見込んで、予め設定される。
【0053】
S=sqrt{(xi−x0)2 +(yi−y0)2 +(zi−z0)2
ここで、sqrt()は、()内の平方根演算を示すものである。
【0054】
この距離Sが、小さければ小さいほど、類似度が大きいことになる。この実施の形態において、類似性算出部22では、予め定めた時間幅TWの区間ごとに、前記距離Sを算出し、その算出した距離Sが、予め定めた所定値Sthよりも小さいときに、前記時間幅TWの区間の音響信号は、検索子の音響信号と同じあるいは類似していると判定し、そうでないときには、非類似であると判定するようにしている。
【0055】
なお、距離Sの値は、類似の程度を表わしているので、その類似の程度をそのまま出力として用いるようにすることも、勿論可能である。
【0056】
この類似性算出部22の類似性判定出力は、表示制御部23を通じて表示部24に供給される。表示制御部23は、この実施の形態では、検索対象の音響信号の先頭からの時間に対応させて、前記類似性判定出力を、例えば横バーグラフのように、表示部24の画面に表示するようにする(後述する図8等参照)。
【0057】
次に、検索子について説明する。この実施の形態では、検索子とする音響信号は、入力音響信号あるいは再生音響信号から抽出して、予め記憶部32に記憶させておく。
【0058】
すなわち、スイッチ回路SW1の端子bに得られる入力音響信号は、スイッチ回路SW4の入力端fに供給され、また、音響信号再生部14からの再生音響信号が、スイッチ回路SW4の入力端eに供給される。このスイッチ回路SW4は、検索子の音響信号を入力音響信号から抽出するか、再生音響信号から抽出するかを、切り換えるもので、コントロール部10からの制御信号により、キー操作部20を通じた使用者の選択指示に応じて切り換えられる。
【0059】
このスイッチ回路SW4からの音響信号は、検索子音響信号抽出格納部31に供給される。この検索子音響信号抽出格納部31には、コントロール部10から、キー操作部20を通じた使用者の操作に応じた制御信号が供給される。
【0060】
この実施の形態においては、使用者は、スピーカからの入力音響信号または再生音響信号の音響再生出力音を聴取しながら、検索子としたい音響信号部分になったときに、キー操作部20の検索子指示キー(図示せず)を操作する。すると、そのキー操作時点を含む予め定めた時間幅TWの区間の音響信号を抽出し、それを検索子メモリ32に格納する。検索子メモリ32は、検索子単位の格納エリアを有し、各検索子は、それぞれ別々の格納エリアに格納される。
【0061】
この例の場合、時間幅TWの区間は、キー操作時点よりもわずかに前の時点から開始するように、検索子音響信号抽出格納部31は、バッファメモリを備えている。そして、指示された時間幅TWの区間の音響信号を検索子音響信号として、検索子メモリ32に格納する。
【0062】
この場合、検索子は、複数個が格納可能とされており、使用者が検索子の音響信号を指示するごとに、コントロール部10からの制御信号により、検索子メモリ32の検索子格納エリアが更新される。つまり、検索子格納エリアアドレスが更新される。そして、検索子音響信号抽出格納部31からの、使用者の指示により抽出された時間幅TWの区間の検索子の音響信号は、コントロール部10からの切り換え制御信号に応じて、検索子メモリ32の検索子格納エリアの更新に同期してスイッチ回路SW5が切り換えられることにより、順次に、検索子メモリ32の別々の検索子格納エリアに格納される。
【0063】
このとき、図示しないが、どのような検索子の音響信号を検索子メモリ32に格納したかを、キー操作部20を通じてメモ入力することができるようにされており、その検索子のメモ入力が、検索子格納エリア番号に対応して、例えばテーブル形式で表示部24に表示される。使用者は、この表示部24の検索子のテーブルを参照しながら、検索したい検索子が格納されている検索子格納エリア番号を指定することにより、所望の検索子により検索が実行できる。
【0064】
すなわち、キー操作部20を通じて、使用者が検索モードを選択し、所定の検索子格納エリア番号を指定すると、コントロール部10からの制御信号により、スイッチ回路SW6が切り換えられると共に、検索子音響信号読出部33により、検索子メモリ32の指定された検索子格納エリアから検索子の音響信号が読み出される。
【0065】
読出された検索子の音響信号は、検索子音響特徴パラメータ解析部34に供給されて解析され、これより、当該検索子の音響信号についての検索子音響特徴パラメータが得られる。そして、この検索子音響特徴パラメータが前述した類似性算出部22に供給され、前述したようにして、前記時間幅TWの区間ごとに、検索対象の音響信号について、当該検索子の音響信号の検索が行われる。
【0066】
以上のような構成の音響信号検索処理装置における動作について、さらに手順を追って説明する。
【0067】
[検索子登録動作]
この実施の形態の場合、実際の検索処理に先立ち、検索子の登録が行われる。この例では、検索子は、前述したように音響信号の形で検索子メモリ32に格納されて登録される。この検索子登録のときのコントロール部10を主体にした動作のフローチャートは図6のようになる。この図6の処理ルーチンは、使用者がキー操作部20を通じて検索子登録モードを選択したときに開始となる。以下、この図6を参照して、検索子登録動作について説明する。
【0068】
まず、コントロール部10は、キー操作部20を通じての使用者の選択指示を判定し、入力音響信号から検索子を抽出するのか、再生音響信号から検索子を抽出するのか判定する(ステップS101)。
【0069】
この判定の結果、抽出元が、入力音響信号であると判別したときには、コントロール部10は、スイッチ回路SW1は出力端b側に、スイッチ回路SW2は入力端IN側に、スイッチ回路SW4は入力端f側に、それぞれ切り換える(ステップS102)。
【0070】
また、抽出元が再生音響信号であると判別したときには、コントロール部10は、スイッチ回路SW1は出力端a側に、スイッチ回路SW2は入力端PB側に、スイッチ回路SW4は入力端e側に、それぞれ切り換える(ステップS103)。
【0071】
ステップS102またはステップS103の次には、ステップS104に進み、コントロール部10は、使用者によるキー操作部20を通じた検索子の音響信号部分の指示を待つ。このとき、検索子の抽出元のオーディオ信号は、オーディオアンプ15を通じてスピーカ16に供給されて、音響再生される。使用者は、そのスピーカ16から放音された音を聴取して、検索子としたい、例えば特定話者など特定の検索子音源として利用したい音響信号部分をキー操作部20を通じて指示入力する。
【0072】
そして、ステップS104で、検索子の音響部分の指示入力を検出したら、コントロール部10は、検索子メモリ32の検索子格納エリアを更新し(ステップS105)、また、検索子音響信号抽出格納部31を制御して、前述したように、一定時間幅TWの区間の音響信号を抽出するようにする(ステップS106)。そして、抽出した検索子の音響信号部分を、検索子メモリ32の、前記の更新した検索子格納エリアに書き込むように制御する(ステップS107)。
【0073】
そして、次に、キー操作部20を通じて検索子の登録モードの終了指示があったかどうか判別し(ステップS108)、終了指示あれば、この検索子の登録モードの処理ルーチンを終了させ、終了指示がなければ、ステップS104に戻り、使用者による次の検索子の抽出指示入力を待ち、上述の動作を繰り返す。
【0074】
以上のようにして、検索子メモリ32には、使用者が入力音響信号あるいは再生音響信号から抽出した検索子の音響信号を、登録して格納しておくことができる。この場合、検索子メモリ32のメモリ容量が十分に余裕がある場合には、検索子の音響信号は、消去せずに、蓄積しておくことができる。
【0075】
この発明では、音響特徴パラメータを用いて類似性を算出するものであるので、蓄積した検索子の音響信号は、これを抽出したオーディオ信号から、当該検索子の音響信号部分と類似する部分を検索する場合にのみ用いられるのではなく、これを抽出したものではない他の検索対象の音響信号について、その検索子の音響信号部分と類似する部分を検索する場合にも用いることができる。
【0076】
したがって、この第1図の実施の形態の場合、予め、使用者が検索したい音源についての音響信号を、前記時間幅TWずつ検索子メモリ32に格納して蓄積しておくことにより、何時でも必要なときに、その検索子を用いた検索を行うことができる。
【0077】
[検索処理動作]
以上のようにして検索子メモリ32に格納された検索子の音響信号を用いて、次のようにして検索処理が実行される。この検索処理の処理ルーチンを図7に示す。この図7の処理ルーチンは、使用者がキー操作部20を通じて検索処理モードを選択したときに開始となる。以下、この図7を参照して、検索処理動作について説明する。
【0078】
まず、コントロール部10は、キー操作部20を通じての使用者の選択指示を判定し、検索対象は、入力音響信号か、再生音響信号かを判定する(ステップS201)。
【0079】
この判定の結果、検索対象が入力音響信号であると判別したときには、コントロール部10は、スイッチ回路SW1は出力端a側に、スイッチ回路SW2は入力端IN側に、スイッチ回路SW3は入力端d側に、それぞれ切り換える(ステップS202)。
【0080】
また、検索対象が再生音響信号であると判別したときには、コントロール部10は、スイッチ回路SW2は入力PB側に、スイッチ回路SW3は入力端c側に、それぞれ切り換える(ステップS203)。
【0081】
ステップS202またはステップS203の次には、ステップS204に進み、コントロール部10は、使用者により検索子として何が選択されたかを認識し(ステップS204)、その選択された検索子の音響信号を、検索子メモリ32から読み出すように制御する(ステップS205)。
【0082】
すると、メモリ32から読み出された検索子の音響信号は、検索子音響信号読出部33を介して検索子音響特徴パラメータ解析部34に供給されて、検索子音響特徴パラメータとされて、類似性算出部22に供給される。類似性算出部22では、検索対象のオーディオ信号の例えば時間幅TWの区間ごとの音響特徴パラメータと、検索子音響特徴パラメータとの前述したような類似性演算がなされて、両者の類似性の指標である類似度が算出される(ステップS206)。この例では、前述したように、類似度は、両者の距離Sとして求められる。
【0083】
そして、この類似度である前記距離Sが、予め定めた閾値Sthよりも小さいか否かを判別し(ステップS207)、閾値Sthよりも小さいときには、検索子に類似する音響信号部分として判定し(ステップS208)、閾値Sthよりも大きいときには、非類似であると判定する(ステップS209)。そして、その判定結果を、表示制御部23を介して表示部24の画面に表示する(ステップS210)。
【0084】
そして、検索対象のオーディオ信号が終了することにより、あるいは、使用者の終了指示により、検索処理が終了したか否かを判定し(ステップS211)、終了であれば、この処理ルーチンを終了し、そうでなければ、ステップS206に戻って、検索子による検索を継続する。
【0085】
以上のようにして、検索された結果の表示例を図8に示す。この図8の例は、検索対象が会議録音の再生音響信号であって、検索子が特定の話者Aである場合である。この表示例によれば、会議録音全体の中のどの時間的位置で話者Aが発言しているかが示されることになる。
【0086】
なお、以上の例では、検索子は、一つとして説明したが、複数個の検索子を指定し、その複数個の検索子についての類似性を算出して、表示するようにすることもできる。その場合、例えば10数ミリ秒ごとに、検索子を時分割的に切り換えて、類似性算出部22で算出演算を行うようにすればよい。
【0087】
また、類似性算出部を複数個設け、それらの類似性算出部で並列的に複数個の検索子のそれぞれについての類似性算出を行うようにしてもよい。
【0088】
そのように複数個の検索子を設定して検索を行った検索結果の表示例を図9に示す。この表示例は、会議録音全体の中で、3名の話者A、B,Cがそれぞれどのような時間区間で発言を行ったかを示している。
【0089】
こうして、この実施の形態によれば、例えば、複数の会議参加者が参加している会議において、各会議参加者ごとの音響信号を検索子として予め登録しておけば、会議の時間経過にともなった各会議参加者ごとの発言区間を分類して表示することが可能になる。
【0090】
なお、以上の説明では、類似性の判定結果は、所定の閾値を超えたか否かによる2値的なものとしたが、前述の例の場合には、類似性の算出結果としての距離Sの値をそのまま表示に反映するようにしてもよい。すなわち、距離Sが短ければ短いほど類似度が高いとして、その類似度の高さに応じて、図8(B)に示すように、時間区間表示に濃淡を付けて、表示するようにしてもよい。例えば、図8(B)の例では、濃淡が濃い区間ほど、類似性が高いことを示すようにしている。また、濃淡の代わりに、類似度の高さの違いを表示色の違いにより、表示するようにしてもよい。
【0091】
また、検索子が複数の場合には、検索子ごとに類似性判定出力の表示色を異ならせ、また、類似度の高さの違いを表示色の濃度の違いにより、表示するようにしてもよい。
【0092】
なお、以上の表示例は、類似性判定出力を検索対象の音響信号の時間経過に対応して表示したものである。一方、検索対象の音響信号が再生音響信号の場合には、各時間区間の音響信号の記録媒体13上における記録位置は容易に知ることができる。したがって、一度、再生音響信号についての検索結果としての類似性判定表示出力を得たら、それを表示部23に表示しながら、図10に示すように、その類似性判定表示出力に現在再生位置を、例えば再生位置カーソルによって対応表示するようにすることもできる。
【0093】
また、逆に、図10の再生位置カーソルを、使用者が指定できるようにすることにより、その指定した再生位置カーソルの位置から検索対象の音響信号の再生を行うようにすることもできる。その場合には、検索により、分類した検索子ごとの音響信号を、検索対象の音響信号から抽出して再生することが可能になる。
【0094】
なお、検索対象の音響信号と検索子との類似性を算出するのは、この発明においては、音響特徴パラメータを用いているので、波形パターンが一致するかどうかのパターンマッチング処理を用いる音声認識などと異なり、音響信号の時系列波形をそのまま用いる必要がない。このため、再生音響信号を検索対象とする場合、再生速度はノーマル速度(1倍速)ではなく、2倍速や3倍速というような高速再生を行っても、同様の類似性判定出力を得ることができる。したがって、検索速度を高速にすることが可能である。
【0095】
したがって、検索子を用いた検索を高速再生速度にて行い、検索子と類似している音響信号部分を検出したときに、その部分をノーマル再生するようにすることにより、検索子に類似する部分のみを抽出再生することができる。
【0096】
また、一旦、検索を行えば、記録媒体上のアドレスと、検索結果とを対応させることができるので、その検索結果を用いて、特定の検索子と類似する音響信号部分のみを記録媒体から抽出して、再生するようにすることも可能である。
【0097】
以上の効果の説明は、検索対象が再生音響信号の場合であるが、この実施の形態では、入力音響信号を検索対象として、予め登録してある検索子を用いて検索して、入力音響信号について、検索子ごとの分類などを行うことができるという効果もある。例えば、複数個の楽器の音響信号を検索子として登録しておき、入力音響信号の各パートが、どのような楽器を用いて演奏されたものであるかなどを分類表示することができる。
【0098】
なお、以上の実施の形態では、検索子は、入力音響信号や再生音響信号から抽出して、検索子メモリ32に格納するようにしたが、検索子ライブラリとして複数個の検索子の音響信号を検索子メモリ32に予め記憶しておいても、もちろんよい。
【0099】
また、類似性の算出は、音響特徴パラメータ間の幾何学的距離Sとして求めるようにしたが、幾つかのパラメータから新しいパラメータを算出し、それを用いて音響特徴パラメータ間の距離を求めるようにすることもできる。
【0100】
例えば、上述の例のx,y,zの3項目の音響特徴パラメータを用いる場合において、新しいパラメータをkとしたとき、
k=ay+bz
として、パラメータxと、この新たなパラメータkとの2つのパラメータ(x、k)を用いて、検索対象と検索子の音響特徴パラメータ間の距離を算出するようにしてもよい。また、それぞれの音響特徴パラメータに重み付けを行って、重要なパラメータに着目した類似性を算出するようにすることもできる。
【0101】
また、検索子メモリ32は、内蔵のメモリではなく、メモリカードなどの取り出し可能のものであってもよい。その場合には、複数個のメモリカードに、複数種の検索子を記憶して用意しておき、メモリカードを検索対象のオーディオ信号に合わせて交換することにより、希望する検索対象について、希望の検索子を用いた検索を容易に行うことができる。
【0102】
また、検索子とする音響信号の音源を用意し、その音源からの音響信号を予め入力端子11から入力し、検索子メモリ32に、検索子の音響信号として記憶格納するようにすることもできる。さらに、検索子メモリ32に記憶することなく、検索子の音源からの音響信号を検索対象の音響信号とは別に入力し、バッファメモリにその検索子の音響信号を一時的に蓄えて、検索に用いるようにしてもよい。
【0103】
なお、検索子は、単一音源からの音響信号に限定されるものではなく、入力音響信号や再生音響信号から抽出された所定区間の音響信号であってもよいことはいうまでもない。
【0104】
なお、表示部には、画像を伴う音響信号の場合には、画像も一緒に表示することもできる。画像を併せて表示することで、検索を行った結果の分類の確認をすることができる。例えば、録画内容を音響信号を使用して検索、分類することも可能である。
【0105】
[第2の実施の形態]
図11に、この第2の実施の形態の音響信号検索処理装置のブロック図を示す。第1の実施の形態は、登録検索子として、音響信号を格納するようにしたが、この第2の実施の形態では、登録検索子として、その音響特徴パラメータを検索子メモリ32に格納するようにする。その他の構成は、図1の装置と全く同様であり、図1と同一部分については、同一符号を付してある。
【0106】
すなわち、この第2の実施の形態においては、スイッチ回路SW4の出力側には、検索子音響信号抽出部35が設けられる。これは、図1の検索子音響信号抽出格納部31のうちの、使用者の指示した検索子の音響信号部分を抽出する手段の部分に相当する。
【0107】
この検索子音響信号抽出部35で抽出された検索子の音響信号は、検索子音響特徴パラメータ解析部36で解析されて、音響特徴パラメータとされ、検索子音響特徴パラメータ格納部37およびスイッチ回路SW5を通じて検索子メモリ32に格納される。検索子音響特徴パラメータ格納部37は、格納する対象情報が、検索子音響特徴パラメータに変わるだけで、図1の検索子音響信号抽出格納部31のうちの、検索子として抽出した音響信号部分を検索子メモリ32に格納する手段に相当し、前述と同様にして、各検索子(この実施の形態では、音響特徴パラメータ)を検索子メモリ32の別々の検索子格納エリアに書き込む。
【0108】
検索子メモリ32に格納された検索子の音響特徴パラメータは、キー操作部20を通じた使用者の指示に基づいて生成されるコントロール部10からの制御信号により、スイッチ回路SW6および検索子音響特徴パラメータ読出部38によって読み出される。この第2の実施の形態の場合には、読み出されたものは音響特徴パラメータであるので、そのまま、類似性算出部22に供給されて、検索のための類似性算出が実行される。
【0109】
この第2の実施の形態は、検索子メモリ32に検索子音響特徴パラメータが格納される点が異なるのみで、検索子の登録動作や、検索子を用いた検索動作は、前述した第1の実施の形態と同様に行われるものである。したがって、この第2の実施の形態によれば、上述した第1の実施の形態の場合と同様の作用効果が得られる。また、上述した第1の実施の形態と同様の変形例が可能である。
【0110】
さらに、この第2の実施の形態では、検索子としては、その音響信号そのものではなく、検索子音響特徴パラメータを検索子メモリ32に記憶するので、一つの検索子当たりの記憶容量が少なくて済み、格納して蓄積することができる検索子の数を多くすることが可能である。
【0111】
[第3の実施の形態]
この第3の実施の形態は、音響特徴パラメータとして、音響信号への再合成が可能なものを用いる場合である。音響特徴パラメータから音響信号への再合成が可能であることから、音響信号の記録も、音響特徴パラメータとして記録するようにする。そして、この第3の実施の形態では、第2の実施の形態と同様に、検索子は、その音響特徴パラメータを検索子メモリ32に記憶格納しておくようにする。
【0112】
図12は、この第3の実施の形態の音響信号検索処理装置のブロック図である。この図12においても、前述の実施の形態の場合と同一部分には同一符号を付すことにする。この第3の実施の形態では、音響特徴パラメータとして、例えばボコーダのパラメータ等を用いる。
【0113】
図12に示すように、この第3の実施の形態の場合には、入力端子11を通じて入力音響信号は、音響特徴パラメータ解析部41に供給されて、例えばボコーダ方式の音響特徴パラメータに解析される。そして、この音響特徴パラメータ解析部41からの音響特徴パラメータが、スイッチ回路SW1を通じて音響特徴パラメータ記録部42に供給され、コントロール部10の制御の下、この音響特徴パラメータ記録部42により、入力音響信号の音響特徴パラメータが記録媒体13に記録される。
【0114】
そして、記録媒体13に記録された入力音響信号の音響特徴パラメータは、コントロール部10の制御の下、音響特徴パラメータ再生部43により再生され、音響信号合成部44に供給される。この音響信号合成部44は、音響特徴パラメータから、元の音響信号を合成する。
【0115】
この音響信号合成部44から得られた再生音響信号は、スイッチ回路SW2の入力端PB側を通じ、オーディオアンプ15を通じてスピーカ16に供給され、音響再生される。なお、入力端子11からの入力音響信号がスイッチ回路SW2の入力端IN側およびオーディオアンプ15を通じてスピーカ16に供給されて、音響再生されるのは、第1および第2の実施の形態の場合と同様である。
【0116】
そして、この第3の実施の形態では、音響特徴パラメータ解析部21は設けられず、スイッチ回路SW3は、スイッチ回路SW1の出力端a側を通じて入力音響信号の音響特徴パラメータと、音響特徴パラメータ再生部43からの再生音響特徴パラメータとのいずれかを、キー操作部20を通じた使用者の指示に応じたコントロール部10からの切り換え制御信号より選択して、類似性算出部22に供給する。
【0117】
一方、検索子は、この第3の実施の形態では、第2の実施の形態と同様に、検索子音響特徴パラメータを検索子メモリ32に格納する。このため、この第3の実施の形態の場合には、音響特徴パラメータ解析部41からの音響特徴パラメータが、スイッチ回路SW1の出力端b側を通じてスイッチ回路SW4の一方の入力端fに供給され、また、音響特徴パラメータ再生部43からの再生音響パラメータがスイッチ回路SW4の他方の入力端eに供給される。
【0118】
そして、スイッチ回路SW4がコントロール部10からの切り換え制御信号により、検索子の音響特徴パラメータを入力音響信号から抽出するか、再生音響信号から抽出するかに応じて、入力端eまたは入力端fのいずれかに切り換えられる。
【0119】
そして、このスイッチ回路SW4からの音響特徴パラメータが検索子音響特徴パラメータ抽出格納部45に供給される。前述の第1の実施の形態の場合と同様にして、使用者は、スピーカからの入力音響信号または再生音響信号の音響再生出力を聴取しながら、検索子としたい音響信号部分になったときに、キー操作部20の検索子指示キー(図示せず)を操作する。すると、検索子音響特徴パラメータ抽出格納部45は、そのキー操作時点を含む予め定めた時間幅TWの区間の音響信号の音響特徴パラメータを抽出し、検索子メモリ32の検索子格納部に格納する。
【0120】
こうして、検索子メモリ32には、入力音響信号あるいは再生音響信号のうちから抽出された検索子の音響信号の音響特徴パラメータが格納される。この検索子メモリ32に格納された検索子音響特徴パラメータは、前述の第2の実施の形態と同様にして、使用者の指示に応じて、検索子音響特徴パラメータ読出部38により読出されて、類似性算出部22に供給される。
【0121】
検索子の登録動作と、検索動作は、前述の2つの実施の形態とほぼ同様であるので、その詳細は省略する。このように、この第3の実施の形態も、検索子メモリ32に検索子音響特徴パラメータが格納される点が異なるのみで、検索子の登録動作や検索動作は、前述した第1の実施の形態や第2の実施の形態と同様に行われるものである。したがって、この第3の実施の形態の場合も、上述した第1の実施の形態の場合と同様の作用効果が得られ、また、上述した第1の実施の形態と同様の変形例が可能である。
【0122】
そして、この第3の実施の形態の場合には、特に、音響特徴パラメータを音響信号の代わりに記録媒体に記録するので、記録媒体の記録容量を有効に活用することができる。そして、第1の実施の形態や第2の実施の形態に比べて、音響特徴パラメータ解析部を、検索対象と検索子とで共通の一つとすることができて、構成を簡略化することができる。
【0123】
再合成可能な音響特徴パラメータとしての具体的な例としては、MPEG(Moving Picture Experts Group)規格の音響圧縮形式(MPEGオーディオのレイヤI、レイヤII、レイヤIII )データやATRAC(Adaptive Transform Acoustic Coding)形式のデータなどを用いる例も挙げられる。
【0124】
これらMPEGオーディオ規格やATRACでは、人間の聴覚心理特性を効率良く利用するために、オーディオ帯域を複数個に細分化してサブバンド符号化を行なっている。例えばMPEGオーディオのレイヤIでは、オーディオ信号の全帯域を等間隔の周波数幅で32個のサブバンドに分割し、それぞれの信号を元のサンプリング周波数の1/32でサブサンプリングして符号化する。
【0125】
そこで、MPEGオーディオ規格の音響圧縮形式のデータやATRAC形式のデータ(音響圧縮符号化データ)を検索対象とする場合には、そのサブバンドデータから、帯域レベル分布の算出、主要帯域周波数の算出、調波構造の検出、主要帯域周波数の時間推移の検出などを行ない、その検出結果を検索子音響特徴パラメータとする。
【0126】
MPEGオーディオ規格の音響圧縮形式のデータやATRAC形式のデータを用いる方法を、図12の例に適用するときは、入力端子11からの入力音響信号がアナログ信号やリニアPCM信号の場合には、音響特徴パラメータ解析部41では、前記MPEG規格の音響圧縮形式データやATRAC形式のデータを生成する。そして、記録部42は、その音響圧縮データを記録媒体13に記録するようにする。
【0127】
そして、検索子音響特徴パラメータ抽出格納部45では、音響特徴パラメータ解析部41からの、あるいは再生部43からの音響圧縮データからサブバンドのデータを生成し、そのサブバンドのデータについて、前述のように、帯域レベル分布の算出、主要帯域周波数の算出、調波構造の検出、主要帯域周波数の時間推移の検出などを行ない、その検出結果を検索子音響特徴パラメータとして、検索子メモリ32に書き込むようにする。
【0128】
そして、この場合、類似性算出部22の前段には、図1や図11の例と同様に、音響特徴パラメータ解析部を設け、スイッチSW1からの、あるいは再生部43からの音響圧縮データからサブバンドのデータを生成し、そのサブバンドのデータについて、前述のように、帯域レベル分布の算出、主要帯域周波数の算出、調波構造の検出、主要帯域周波数の時間推移の検出などを行なうようにする。この場合の音響特徴パラメータ解析部は、構成が簡単になる。そして、類似性算出部22は、その解析により得た音響特徴パラメータと、検索子音響特徴パラメータ読出部38からの検索子音響特徴パラメータとを比較して、類比判定を行なう。
【0129】
以上の入力端子11からの入力音響信号がアナログ信号やリニアPCM信号の場合であるが、IEEE(The Institute of Electrical and Electronics Engineers,Inc.)1394規格のインターフェースからのシリアルデジタルデータで入力された場合や、デジタル放送受信装置においてデジタル音響圧縮信号として得られる信号が入力される場合には、MPEG規格の音響圧縮形式データやATRAC形式のデータがそのまま得られるので、図12の音響特徴パラメータ解析部41は不要となる。
【0130】
以上説明した音響圧縮信号を検索対象とする検索方法は、デジタルオーディオ圧縮形式データを復号化して、リニアPCMオーディオ信号に戻してから音響特徴分析するよりも分析のための時間遅れが小さくなると共に、演算規模が小さくなる、という利点がある。
【0131】
[第4の実施の形態]
第3の実施の形態では、音響特徴パラメータを音響信号の代わりに記録媒体に記録するようにしたが、第4の実施の形態では、音響信号と、音響特徴パラメータとを、互いに付随的に記録媒体に記録するようにする。この第4の実施の形態の場合は、音響信号が音響特徴パラメータと共に記録されるので、音響特徴パラメータは、第3の実施の形態のように音響信号に再合成できるものに限定されない。
【0132】
そして、この第4の実施の形態においては、磁気ディスク、光磁気ディスク、光ディスク、メモリカードなどの記録媒体へは、音響信号に付随して音響特徴パラメータを記録するようにする。すなわち、音響信号と音響特徴パラメータとは、音響信号の記録単位区間(パック、パケット、セクタなどの区間)分ごとに記録媒体に記録するが、音響信号の記録単位区間分のデータと、対応する単位区間分の音響特徴パラメータは、隣接した記録エリア等、互いに対応がとれる形態で、つまり、リンクされた構造で記録される。
【0133】
図13に、この第4の実施の形態の音響信号検索処理装置のブロック図を示す。この図13において、前述の実施の形態の図1、図11および図12に示した各部と同一部分には同一符号を付して、その詳細な説明は省略する。
【0134】
すなわち、この第4の実施の形態では、オーディオ入力端子11を通じた入力音響信号は、スイッチ回路SW7を通じて音響信号記録部12に供給される。スイッチ回路SW7は、コントロール部10からの切り換え制御信号により、記録時にオンとされる。そして、この第4の実施の形態では、音響信号記録部12を通じた入力音響信号は、記録データ制御部51に供給される。
【0135】
また、入力端子11を通じた入力音響信号は、音響特徴パラメータ解析部41に供給されて、音響特徴パラメータに解析される。この音響特徴パラメータ解析部41からの音響特徴パラメータは、検索対象の入力音響信号の音響特徴パラメータとしてスイッチ回路SW3の入力端dに供給されると共に、入力音響信号から検索子の音響特徴パラメータを抽出するために、スイッチ回路SW4の入力端fに供給される。さらに、音響特徴パラメータ解析部41からの音響特徴パラメータは、記録データ制御部51に供給される。
【0136】
記録データ制御部51は、コントロール部10の制御を受けて、記録時には、予め定められている記録フォーマットで、音響信号と音響特徴パラメータとを対応付けて記録する。この例では、記録データ制御部51は、記録時には、前述したように、音響信号を記録単位区間分ごとに、記録媒体13に記録すると共に、対応する記録単位区間分の音響特徴パラメータを、記録媒体13の、当該音響信号記録位置に隣接する位置に記録する。
【0137】
そして、上記のような記録フォーマットで記録媒体13に記録された入力音響信号およびその音響特徴パラメータは、読み出しデータ制御部52により、コントロール部10の制御を受けて再生される。そして、読み出しデータ制御部52で記録媒体13から再生された音響信号は、音響信号再生部14に供給され、スイッチ回路SW2の入力端PB側を通じ、オーディオアンプ15を通じてスピーカ16に供給されて、音響再生される。
【0138】
また、読み出しデータ制御部52で記録媒体13から再生された対応する音響特徴パラメータは、検索対象の再生音響信号の音響特徴パラメータとして、スイッチ回路SW3の入力端cに供給されると共に、再生音響信号から検索子の音響特徴パラメータを抽出するために、スイッチ回路SW4の入力端eに供給される。
【0139】
さらに、読み出しデータ制御部52で記録媒体13から再生された音響信号および音響特徴パラメータは、他の装置で音響信号についての検索を行うために、外部出力端子(図示せず)を通じて、外部へ転送可能とされている。したがって、検索を行う他の装置では、音響特徴パラメータを作成するために、音響特徴パラメータ解析部を備える必要はない。
【0140】
この第4の実施の形態は、入力音響信号と、その音響特徴パラメータとが、リンクさせた状態で、記録データ制御部51により、記録媒体に記録され、また、互いにリンクされて、音響信号と、その音響特徴パラメータとが、読み出しデータ制御部52により読み出されて再生される点が、前述の実施の形態と異なるが、音響特徴パラメータを用いて検索を行い、また、入力音響信号や再生音響信号について検索子音響特徴パラメータの抽出を行えるようにした点は、第3の実施の形態と同様である。
【0141】
したがって、この第4の実施の形態の場合も、上述した第1の実施の形態の場合と同様の作用効果が得られ、また、上述した第1の実施の形態と同様の変形例が可能である。
【0142】
そして、この第4の実施の形態の場合には、第3の実施の形態と同様に、第1の実施の形態や第2の実施の形態に比べて、音響特徴パラメータ解析部を、検索対象と検索子とで共通の一つとすることができて、構成を簡略化することができる。また、他の検索装置で検索を行う場合にも、当該他の検索装置に、音響特徴パラメータを供給することができるので、他の検索装置には、音響特徴パラメータ解析部は設ける必要がないという利点がある。
【0143】
なお、記録する音響信号と、対応する音響特徴パラメータとは、リンクして記録媒体に記録されていればよいので、上述の例のように必ずしも隣接して記録される必要はなく、記録媒体に、予め音響信号の記録エリアと音響特徴パラメータの記録エリアを別々に決めておき、それぞれの記録エリアの対応関係にある(リンクされている)アドレスに、対応する音響信号と音響特徴パラメータのそれぞれを記録するようにしてもよい。また、音響信号と音響特徴パラメータのリンク情報を別に記録して、そのリンク情報を用いて、両者を対応付けて、再生するようにしても勿論よい。
【0144】
[第5の実施の形態]
上述したように、この発明によれば、検索対象の音響信号について、音響特徴パラメータによって、検索子と類似性判定をすることにより、検索が可能であるので、検索対象の音響信号を記録しながら、指定した検索子についての検索を並行して行うことができる。したがって、記録終了時には、当該検索対象の音響信号についてのその検索子についての検索結果が得られる。そこで、記録媒体には、音響信号の記録領域と別個のエリアに、この検索結果を合わせて記録することも可能である。
【0145】
また、再生音響信号についての検索結果も、音響信号の記録領域と別個のエリアを記録媒体に用意することにより、後から記録媒体に記録することも可能である。
【0146】
第5の実施の形態においては、以上の点を考慮して、検索対象の音響信号と共に、その検索結果を記録するようにする。
【0147】
すなわち、この第5の実施の形態では、予め登録した検索子の一つあるいは複数個を用いて、記録する入力音響信号についての検索を、記録処理に並行して行う。
【0148】
例えば、記録媒体13としては、磁気ディスク、光磁気ディスク、光ディスクなどのディスク媒体やメモリカードを用いる。その場合、記録時には、記録媒体上のアドレスを監視しながら、記録が行われる。この第5の実施の形態では、検索子による検索の結果、類似すると判定された音響信号部分が、記録媒体上のどのアドレス(記録位置)に記録されているかを、その検索子の識別情報に対応して記憶しておく。検索子の識別情報としては、例えば、この例では、スイッチ回路SW6の切り換え制御情報(検索子格納エリア、つまり検索子ナンバーに対応)を用いる。
【0149】
図14は、この第5の実施の形態の場合において、記録終了後の、検索結果をテーブルとして表わしたものである。このテーブルは、記録媒体に記録された信号についての検索用インデックステーブルとなる。
【0150】
この図14において、検索子名は、例えば、検索子の登録時に予め付与した名称であり、例えば、会議録音などの場合には、会議参加者名となる。区間データは、検索子と類似すると判定された区間を示すデータで、その区間の開始アドレスSTと、終了アドレスEDとで表わされる。また、ADRi(iは整数)は、記録媒体上のアドレス値をそれぞれ示すものである。
【0151】
この第5の実施の形態においては、この検索用インデックステーブルの情報を、記録媒体上の予め定めた記録エリアに、記録音響信号とは別個に記録するようにする。
【0152】
この第5の実施の形態の場合、この検索用インデックステーブルを用いることにより、例えば特定の検索子と類似する音響信号部分を抽出して再生(検索再生と称する)することが容易にできる。
【0153】
図15は、その検索再生の際の処理ルーチンを示すものである。この処理ルーチンは、キー操作部を通じて、検索再生指示を行ったときに開始となる。
【0154】
まず、記録媒体から検索用インデックステーブルを作成するための検索用インデックスのデータが読出される(ステップS301)。コントロール部10は、読み出したデータを基に、図14に示したような検索用インデックステーブルを作成し、表示画面に表示する(ステップS302)。
【0155】
使用者は、表示された検索用インデックステーブルを見て、検索再生したい検索子をキー操作部を通じて入力する。そこで、使用者により指定された検索子を認識する(ステップS303)。そして、検索用インデックステーブルを参照し、その認識した検索子について、類似区間として判定された区間データを認識する(ステップS304)。そして、その認識した各区間データで示されるアドレス区間の音響信号を、記録媒体から順次読み出して、再生する(ステップS305)。
【0156】
こうして、この第5の実施の形態によれば、検索子に類似する音響信号部分のみを簡単に抽出して再生することができる。もっとも、この第5の実施の形態の場合にも、検索用インデックステーブルにない検索子を検索子メモリから指定して、検索を行うことも勿論可能である。
【0157】
なお、上述の第5の実施の形態の説明では、検索子の識別情報と検索子名とを検索用インデックステーブルに含めるようにしたが、検索子の音響信号を検索子名に替えて、あるいは併せて記録するようにしてもよい。そのようにすれば、検索子がどのような音響信号であったかを、それを音響再生することにより、容易に知ることができる。
【0158】
また、上述の説明では、検索結果を記録媒体に記録するようにしたが、コントロール部が管理するメモリに、記録媒体に対応させて、検索結果を記録するようにするようにしてもよい。
【0159】
[その他の実施の形態]
以上の実施の形態では、検索子は、予めメモリに登録したり、別個に用意するように説明したが、例えば、音響信号の記録中に、使用者が、その音響信号について検索子の音響信号部分を指定したとき、その指定後の音響信号については、指定した検索子を用いて検索を行うようにすることもできる。その場合には、予め検索子を登録しておく必要はない。
【0160】
また、検索子メモリに登録する検索子は、入力音響信号や再生音響信号から抽出する必要もない。例えば、検索子としたい音源を用意し、その音源からの音響信号を用いて、検索子を登録することもできる。
【0161】
また、検索子として登録する音響信号や音響特徴パラメータを、例えば、インターネットなどのネットワークを通じて取得して、検索子メモリに登録するようにすることもできる。
【0162】
また、例えば記録済み記録媒体を販売するときに、その記録媒体に、検索子の候補を予め一緒に記録するようにしてもよい。また、その記録媒体を販売するときに、検索子の候補を記録したメモリカードなどを付加して販売するようにしてもよい。
【0163】
[音響映像検索装置、音響映像蓄積装置の第1の実施の形態]
以上説明した実施の形態では、検索対象の入力信号は、音響信号単独の場合であったが、音響信号が、映像信号に関連するものとしてリンクされて、例えば記録再生される音響映像信号を、検索対象の入力信号とすることもできる。
【0164】
図16および図17は、MPEG2規格で圧縮された音響映像信号を記録再生する記録再生装置に、この実施の形態の音響映像検索装置および音響映像蓄積装置を適用した場合の構成例を示すブロック図である。
【0165】
この図16、図17の記録再生装置は、映像信号および音響信号を、MPEG2規格によって圧縮符号化し、多重化して、MPEGシステムのトランスポートストリーム(TS:Transport Stream)として、ハードディスク装置(HDD:Hard Disk Drive)内のハードディスクに記録し、ハードディスクから再生する場合である。
【0166】
なお、以下では、アナログ映像信号およびアナログ音響信号を、映像信号および音響信号と称し、デジタル映像信号およびデジタル音響信号は、デジタル映像データおよびデジタル音響データ、または単に映像データおよび音響データと称する。
【0167】
この例では、記録再生装置70は、アナログテレビジョン放送を受信するアンテナ61が接続され、アナログ入力端子71V,71A,71S、アナログ出力端子72V,72A,72S、デジタル入出力端子73、デジタルインタフェース74、入力処理部80、出力処理部90、マルチプレクサ/デマルチプレクサ100、バッファコントローラ110、ハードディスク装置120、同期制御回路130、システムコントローラ140、音響検索処理部150、操作入力部160を備える。
【0168】
ハードディスク装置120は、この例では、3枚のハードディスク121,122,123を備え、そのいずれかにトランスポートストリームが記録され、いずれかからトランスポートストリームが再生されるように構成される。
【0169】
システムコントローラ140は、CPU(Central Processing Unit)141を備え、そのシステムバス142にROM(Read Only Memory)143およびRAM(Random Access Memory)144などが接続されて構成される。
【0170】
ROM143には、CPU141が実行すべきプログラムが、あらかじめ格納され、CPU141は、そのプログラムを読み出して、記録再生装置70の各部を制御する。RAM144には、CPU141が記録再生装置70の各部を制御する上で必要な、その他のプログラムやデータが適宜、書き込まれる。
【0171】
操作入力部160は、キーボード、マウス、ボタン、スイッチ、リモートコマンダなどによって構成され、図示を省略した入出力インタフェースを介してシステムコントローラ140のシステムバス142に接続される。
【0172】
音響検索処理部150は、前述した第1の実施の形態から第5の実施の形態のうちのいずれかの機能を備えるものとして構成される部分である。特に、この実施の形態はMPEG規格の圧縮符号化データが検索対象であるので、前述したように、第3の実施の形態の場合が好適である。
【0173】
ただし、この場合、記録媒体13は、ハードディスク装置120のハードディスクを用いるようにされており、このため、記憶部12または42、再生部14または44などはバッファコントローラ110の部分により構成されるので、前述の各実施の形態の図のうち、主データとしての音響データの記録再生に関する部分を除く音響検索処理を行なう部分により、この音響検索処理部150が構成される。
【0174】
なお、検索子メモリ32は、音響検索子処理部150内に設けることもできるし、ハードディスク装置120のハードディスクの一部の記憶エリアを用いることもできる。
【0175】
なお、デジタル音響圧縮データや、音響データと映像データとがリンクされて記録再生される音響映像データでは、検索や登録の該当区間を示すリンクされたアドレス情報として、フレーム番号やフィールド番号、PTS(Presentation Time Stamp)、パケット番号などが用いられる。
【0176】
(アナログ入力処理および記録)
アンテナ61で受信されたアナログテレビジョン放送の信号は、操作入力部160での操作に基づくシステムコントローラ140の指示によって、チューナ81で選局されて、チューナ81から、選択されたチャンネルのコンポジット映像信号および音響信号が得られ、そのコンポジット映像信号および音響信号が、入力切換回路82の一方の入力端に供給される。
【0177】
入力端子71Vには、外部機器からコンポジット映像信号が、入力端子71Aには、外部機器から音響信号が、入力端子71Sには、外部機器からセパレート映像信号(輝度信号と色差信号とに分離されたもの)が、それぞれ供給される。
【0178】
入力端子71Vからのコンポジット映像信号、および入力端子71Aからの音響信号は、入力切換回路82の他方の入力端に供給され、入力切換回路82がシステムコントローラ140によって切り換えられて、入力切換回路82から、いずれかのコンポジット映像信号および音響信号が選択されて取り出される。
【0179】
入力切換回路82からのコンポジット映像信号は、YC分離回路83で輝度信号と色差信号に分離されて、別の入力切換回路84の一方の入力端に供給される。また、入力端子71Sからのセパレート映像信号(輝度信号および色差信号)が、入力切換回路84の他方の入力端に供給され、入力切換回路84がシステムコントローラ140によって切り換えられて、入力切換回路84から、いずれかの輝度信号および色差信号が選択されて取り出される。
【0180】
入力切換回路84からの輝度信号および色差信号は、NTSC(National Television System Committee)デコーダ85で、それぞれA/D(Analog to Digital)変換され、さらにクロマエンコード処理されて、NTSCデコーダ85からコンポーネント映像データが得られる。
【0181】
また、NTSCデコーダ85では、入力切換回路84からの輝度信号から垂直同期信号および水平同期信号が分離されるとともに、その分離された同期信号に基づいてクロックおよびフィールド判別信号が生成され、これら同期信号、クロックおよびフィールド判別信号が、同期制御回路130に供給される。同期制御回路130では、これらの信号を基準として記録再生装置70の各部に必要なクロックおよびタイミング信号が生成されて、記録再生装置70の各部に供給される。
【0182】
NTSCデコーダ85からの映像データは、プリ映像処理回路86でプリフィルタリング処理などの処理が施されたのち、MPEG映像エンコーダ87および出力処理部90のポスト映像処理回路92に供給される。
【0183】
MPEG映像エンコーダ87では、プリ映像処理回路86からの映像データに対してブロックDCT(Discrete Cosine Transform)などの符号化処理が施されて、映像エレメンタリストリーム(ES:Elementary Stream)が生成され、その映像エレメンタリストリームがマルチプレクサ/デマルチプレクサ100に供給される。
【0184】
一方、入力切換回路82からの音響信号は、A/D変換器88でデジタル音響データに変換されたのち、MPEG音声エンコーダ89および出力処理部90の出力切換回路95に供給される。
【0185】
MPEG音声エンコーダ89では、A/D変換器88からの音響データがMPEG方式によって圧縮符号化されて、音声エレメンタリストリームが生成され、その音声エレメンタリストリームがマルチプレクサ/デマルチプレクサ100に供給される。
【0186】
マルチプレクサ/デマルチプレクサ100では、そのマルチプレクサにおいて、MPEG映像エンコーダ87からの映像エレメンタリストリームおよびMPEG音声エンコーダ89からの音声エレメンタリストリームと各種の制御信号が多重化されて、MPEGシステムのトランスポートストリームが生成され、そのトランスポートストリームがバッファコントローラ110に送出される。
【0187】
バッファコントローラ110は、マルチプレクサ/デマルチプレクサ100から連続的に入力されるトランスポートストリームを、ハードディスク装置120に断続的に送出する。すなわち、ハードディスク装置120がシーク動作を行っているときには、書き込みができないので、入力されたトランスポートストリームをバッファに一時蓄え、ハードディスク装置120が書き込み可能なときに、そのトランスポートストリームを入力レートより高いレートでバッファから読み出してハードディスク装置120に送出する。これによって、バッファコントローラ110に連続的に入力されるトランスポートストリームは、途切れることなくハードディスク121〜123に記録される。
【0188】
ハードディスク装置120は、システムコントローラ140によって制御されて、ハードディスク121〜123にトランスポートストリームを書き込む。バッファコントローラ110とハードディスク装置120との間のプロトコル(インタフェース)としては、IDE(Integrated Drive Electronics)などが用いられる。
【0189】
(再生およびアナログ出力処理)
再生時には、ハードディスク装置120は、システムコントローラ140によって制御されて、ハードディスク121〜123からトランスポートストリームを読み出し、バッファコントローラ110に送出する。バッファコントローラ110は、記録時とは逆に、ハードディスク装置120から断続的に入力されるトランスポートストリームを、連続的なトランスポートストリームに変換して、マルチプレクサ/デマルチプレクサ100に供給する。
【0190】
マルチプレクサ/デマルチプレクサ100では、そのデマルチプレクサにおいて、その連続的なトランスポートストリームのヘッダが解析処理されることによって、トランスポートストリームからPES(Packetized Elementary Stream)が分離されて、MPEG映像音声デコーダ91に供給される。
【0191】
MPEG映像音声デコーダ91では、マルチプレクサ/デマルチプレクサ100からのPESが映像エレメンタリストリームと音声エレメンタリストリームに分離され、さらに、その映像エレメンタリストリームがMPEG映像デコーダで復号されてベースバンドの映像データに変換され、音声エレメンタリストリームがMPEG音声デコーダで復号されてベースバンドの音響データに変換される。変換後の映像データはポスト映像処理回路92に供給され、音響データは出力切換回路95に供給される。
【0192】
ポスト映像処理回路92では、システムコントローラ140の指示によって、MPEG映像音声デコーダ91からの映像データおよびプリ映像処理回路86からの映像データに対して、両者の切り換え、または合成や、ポストフィルタリング処理などの処理が施される。
【0193】
ポスト映像処理回路92では、また、GUI(Graphical UserInterface)用に、代表画面(静止画)を生成し、複数の代表画面を縮小して、ウィンドウに貼り付ける縮小静止画表示処理が施され、処理後の映像データが、OSD(On Screen Display)処理回路93に供給される。
【0194】
代表画面としては、例えば番組タイトルの中から特徴的な1場面や、番組の中の見たい場面を素早くアクセスできるようにするための、その番組のインデックスポイント(ワンシーン)の画面等がある。
【0195】
OSD処理回路93では、システムコントローラ140の指示によって、テキスト情報などに対応する画像データを生成して、ポスト映像処理回路92からの映像データの、上記のウィンドウ部分の映像データに重畳する処理が施され、処理後の映像データが、NTSCエンコーダ34に供給される。縮小静止画表示された複数の代表画面の例を、図18に示す。この図18の例では、16枚の縮小静止画200がウインドウに貼り付けられて表示される。
【0196】
NTSCエンコーダ94では、OSD処理回路93からの映像データ(コンポーネント映像データ)が、輝度データと色差データとに変換された上で、または変換されることなくそのまま、それぞれD/A(Digital to Analog)変換されて、それぞれアナログ信号のセパレート映像信号およびコンポジット映像信号が生成される。そのセパレート映像信号は出力端子72Sに導出され、コンポジット映像信号は出力端子72Vに導出される。
【0197】
一方、出力切換回路95では、システムコントローラ140によって、MPEG映像音声デコーダ91からの音響データと、A/D変換器88からの音響データとの、いずれかが選択されて取り出される。その選択された音響データは、D/A変換器36でアナログ音響信号に変換されて、出力端子72Aに導出される。
【0198】
出力端子72Sに導出されたセパレート映像信号、出力端子72Vに導出されたコンポジット映像信号、および出力端子72Aに導出された音響信号が、外部のテレビジョン受信機などのモニタ装置2に出力されることによって、モニタ装置2において、画像が表示され、音声が出力される。
【0199】
(外部装置からの映像音響データの記録再生)
この例では、記録再生装置70は、デジタル入出力端子73とマルチプレクサ/デマルチプレクサ100との間にデジタルインタフェース74が接続されて、デジタル入出力端子73に外部装置63を接続することによって、外部装置63から入力されたトランスポートストリームをハードディスク121〜123に記録し、ハードディスク121〜123から再生されたトランスポートストリームを外部装置63に出力することができるように構成される。
【0200】
外部装置63としては、IRD(Integrated Receiver Decoder)やパーソナルコンピュータなどの機器を接続することができる。デジタルインタフェース74としては、IEEE(Institute ofElectrical and Electronics Engineers)1394デジタルインタフェースが用いられ、外部装置63とデジタル入出力端子73とを接続するシリアルバス64としては、IEEE1394シリアルバスが用いられる。
【0201】
外部装置63からシリアルバス64を介してデジタル入出力端子73に入力されたトランスポートストリームは、デジタルインタフェース74でインタフェース処理されてマルチプレクサ/デマルチプレクサ100に送出され、マルチプレクサ/デマルチプレクサ100からバッファコントローラ110に送出されて、ハードディスク装置120によってハードディスク121〜123に記録される。
【0202】
これと同時に、マルチプレクサ/デマルチプレクサ100のデマルチプレクサで、記録されるトランスポートストリームからPESが分離されて、MPEG映像音声デコーダ91に供給されることによって、出力端子72V,72Sおよび72Aに、アナログ映像信号およびアナログ音響信号を得ることができる。
【0203】
再生時には、ハードディスク装置120によってハードディスク121〜123からトランスポートストリームが読み出されて、その再生されたトランスポートストリームが、バッファコントローラ110に送出され、バッファコントローラ110からマルチプレクサ/デマルチプレクサ100に送出されて、デジタルインタフェース74でインタフェース処理されてデジタル入出力端子73に出力され、デジタル入出力端子73からシリアルバス64を介して外部装置63に送出されて、外部装置63に接続されたモニタ装置7において、画像が表示され、音声が出力される。
【0204】
これと同時に、マルチプレクサ/デマルチプレクサ100のデマルチプレクサで、再生されたトランスポートストリームからPESが分離されて、MPEG映像音声デコーダ91に供給されることによって、出力端子72V,72Sおよび72Aに、再生アナログ映像信号および再生アナログ音響信号を得ることができる。
【0205】
(音響検索処理)
前述したように、音響検索処理部150により、前述した第1の実施の形態〜第5の実施の形態と同様にして、音響検索することができる。この場合に、特定の検索子音響パラメータを指定して検索された部分の音響信号だけでなく、その検索された音響信号部分に対応する映像信号部分を、両者のリンク関係から、検索結果として抽出することができる。例えば、音楽番組の場合には、音楽が流れているシーン部分のみを検索して抽出することができる。
【0206】
この場合、検索対象の音響信号は、ハードディスク装置120に記録された音響データだけではなく、受信したあるいは入力された音響データであっても良いことは、前述した通りである。この場合に、この実施の形態の場合には、複数の入力音響データが存在するので、ある入力音響映像信号による画像と音声とをモニタ装置62で視聴しているときに、他の入力音響映像信号中の音響信号について、検索を行ない、その検索結果の画像部分を、例えば子画面(子画面は検索されたときにのみ表示しても良いし、常時表示しておいても良い)として、視聴している親画面の一部に表示するようにすることもできる。この機能は、例えば、お気に入りの俳優の声紋などを検索子音響パラメータとして用い、その俳優がでてくるシーンを子画面に表示するなどの使い方ができる。
【0207】
また、図18に示した縮小静止画200のそれぞれに対応して、検索子音響特徴パラメータを登録しておき、使用者が検索子として縮小静止画200のいずれかを指示したとき、その指示された縮小静止画200に対応する検索子音響特徴パラメータを用いた音響検索動作を行なうようにすることもできる。
【0208】
例えば、縮小静止画には、特定の人物が表示されており、その人物の声紋などを検索子音響特徴パラメータとして検索子メモリに記憶しておき、その人物の縮小静止画が検索子として指定されたときに、音響検索処理を行なって、当該人物が登場して声を出しているシーンを抽出することができる。このように、縮小静止画に対応して、検索音響特徴パラメータを登録しておくことにより、縮小静止画を検索のためのインデックスとして使用することができる。
【0209】
また、逆に、特定の検索子音響特徴パラメータを指定することにより、その検索子音響特徴パラメータで検索されたシーンを、縮小静止画表示に使用する縮小静止画として登録するようにすることもできる。例えば、人物は映出されていないが、特定の人物の声紋などの音響的特徴を含むシーンを、前記縮小静止画として登録することができる。
【0210】
なお、検索子音響信号や検索子音響特徴パラメータを放送信号にデータとして重畳して提供するようにすることもできる。使用者は、提供された検索子の中から所望のものを選択して検索に利用したり、また、その提供されたものの中から必要な検索子音響信号や検索子音響特徴パラメータを検索子メモリ32に登録して保存するようにすることもできる。
【0211】
[音響映像検索装置、音響映像蓄積装置の第2の実施の形態]
上述の第1の実施の形態では、音響信号についてのみ検索子を用いて検索を行なうようにしたが、この第2の実施の形態では、映像信号についても、同様にして検索を行なうようにする。
【0212】
すなわち、この第2の実施の形態では、映像信号の検索のために、画像の特徴を表す映像特徴パラメータからなる検索子映像特徴パラメータを登録しておくようにする。この検索子映像特徴パラメータとして抽出する映像の特徴量としては、例えば、輝度とその変化、色合いとその変化、人物、物体などの映っているものとその変化などを用いることができる。
【0213】
この検索子映像特徴パラメータも、前述の検索子音響特徴パラメータと同様に、入力音響映像信号のうちから、使用者が指定した区間の映像信号を解析することにより得ることができるし、別途、検索子とする映像部分からなる映像信号を入力して、それを解析して得ることもできる。また、パーソナルコンピュータなどで予め解析して得られた検索子を、装置に登録するようにすることも、勿論できる。
【0214】
そして、検索対象の映像信号を解析して得た映像特徴パラメータと、検索子映像特徴パラメータとを比較し、両者の類似性を算出することにより、検索対象の映像信号中から検索子の画像と類似する画像部分を検索するようにする。そして、音響信号についての検索結果と、前記映像信号についての検索結果とに基づいて、入力音響映像信号中から所定の部分を検索するようにする。
【0215】
この場合に、検索子映像特徴パラメータと、検索子音響特徴パラメータとは、それぞれ別々の検索子として登録して別々に用いるようにしても良いし、互いに関連付けて登録して用いるようにしても良い。例えば、ある人物の映像の検索子映像特徴パラメータと、その人物の声紋などの検索子音響特徴パラメータとは互いに関連付けて登録しておくと良い。
【0216】
この第2の実施の形態においては、検索に当たっては、検索子映像特徴パラメータと、検索子音響特徴パラメータとの両方をそれぞれ個別に指定して検索を行なうことができる。また、前記の互いに関連付けられている検索子映像特徴パラメータおよび検索子音響特徴パラメータを用いるように検索子の指定をすることもできる。
【0217】
検索子音響特徴パラメータと検索子映像特徴パラメータの両者を用いた検索の方法としては、それぞれのパラメータのいずれかにより検索された類似部分の全てを検索結果として出力する方法、両パラメータで検索された類似部分のうち、互いに一部あるいは全部が重なり合う部分を検索結果として出力する方法などを指定することができる。
【0218】
このときの検索結果は、検索された部分を、アドレス情報などで表示しても良いし、また、映像部分については、検索された部分の先頭のシーンを前記の縮小静止画にして表示するようにしてもよい。また、前述の音響検索処理の各実施の形態と同様に、検索結果の信号部分を順次に再生するようにすることもできる。さらに、検索結果と、検索子とを関連させてメモリに記憶しておき、検索子を頼りに、後の時点で読出して再生するようにすることもできる。
【0219】
この第2の実施の形態によれば、映像特徴量を使用してシーン区間の検出することと、音響特徴量を使用してシーン区間を検出することとを併用することにより、検索結果のシーン区間を意味あるものとすることができる。例えば、映像的にはシーンが代わっていても、ナレーションなど音響的には続いているシーンを、映像の変化点で区切られることなく、検出することができる。
【0220】
また、前述の縮小静止画表示用の、縮小静止画として、検索子映像特徴パラメータと検索子音響特徴パラメータとにより検索された類似部分の重なり部分を抽出するようにすることにより、映像的だけでなく音響的にも意味のある縮小静止画を抽出して表示することができる。
【0221】
【発明の効果】
以上説明したように、この発明によれば、検索対象の音響信号と、操作部を通じた使用者の操作に応じて当該検索対象の音響信号から抽出した検索子としての音響信号とを、それぞれ音響特徴パラメータに解析し、その音響特徴パラメータについて比較して、類比判定することにより検索を行うようにしたことにより、検索対象の音響信号の記録時にマーカーなどを打ち込んでおかなくても、例えば、特定の話者の発言部分や、特定の楽器の演奏部分を、簡単に検索することができる。
【0222】
また、予め検索子を登録しておくことにより、その登録したものから選択した検索子についての検索子を容易に行うことができる。
【0223】
また、マーカーを施す場合のように、一旦記録しなければ検索ができないのではなく、予め用意した検索子についての検索を、検索対象の音響信号について行うことが可能である。
【0224】
また、音響映像信号からの任意のシーンの検索を行なう場合に、音響特徴パラメータと映像特徴パラメータとを用いてシーンの検索を行なうようにすれば、検索の精度を上げることができ、また、音響的にも映像的にも区切りのよいシーン検索ができるようになる。
【図面の簡単な説明】
【図1】この発明による音響検索処理装置の第1の実施の形態のブロック図である。
【図2】男性音声の音響的特徴を示すための周波数成分分布および時間波形を示す図である。
【図3】女性音声の音響的特徴を示すための周波数成分分布および時間波形を示す図である。
【図4】サキソホンの音響的特徴を示すための周波数成分分布および時間波形を示す図である。
【図5】ベースギターの音響的特徴を示すための周波数成分分布および時間波形を示す図である。
【図6】第1の実施の形態における検索子の登録処理動作を説明するためのフローチャートである。
【図7】第1の実施の形態における検索処理動作を説明するためのフローチャートである。
【図8】第1の実施の形態における検索処理結果の表示例を示す図である。
【図9】第1の実施の形態における検索処理結果の表示例の他の例を示す図である。
【図10】第1の実施の形態における検索処理結果の表示例の他の例を示す図である。
【図11】この発明による音響検索処理装置の第2の実施の形態のブロック図である。
【図12】この発明による音響検索処理装置の第3の実施の形態のブロック図である。
【図13】この発明による音響検索処理装置の第4の実施の形態のブロック図である。
【図14】この発明による音響検索処理装置の第5の実施の形態の要部の説明に用いる図である。
【図15】この発明による音響検索処理装置の第5の実施の形態の要部の説明に用いる図である。
【図16】この発明による音響映像検索処理装置の第1の実施の形態のブロック図の一部である。
【図17】この発明による音響映像検索処理装置の第1の実施の形態のブロック図の一部である。
【図18】この発明による音響映像検索処理装置の第1の実施の形態の説明に用いる図である。
【符号の説明】
10…コントロール部、11…入力音響信号の入力端子、12…音響信号記録部、13…記録媒体、14…音響信号再生部、15…オーディオアンプ、16…スピーカ、20…キー操作部、21…音響特徴パラメータ解析部、22…類似性算出部、23…表示制御部、24…表示部、31…検索子音響信号抽出格納部、32…検索子メモリ、33…検索子音響信号読出部、34…検索子音響特徴パラメータ解析部、35…検索子音響信号抽出部、36…検索子音響特徴パラメータ解析部、37…検索子音響特徴パラメータ格納部、38…検索子音響特徴パラメータ読出部、41…音響特徴パラメータ解析部、42…音響特徴パラメータ記録部、43…音響特徴パラメータ再生部、44…音響信号合成部、45…検索子音響特徴パラメータ抽出格納部、51…記録データ制御部、52…読み出しデータ制御部

Claims (35)

  1. 抽出手段が、検索対象とする音響信号が入力されると、操作部を通じた使用者の操作に応じた制御信号に基づいて、前記検索対象とする音響信号の1〜複数の部分を検索子とする音響信号として抽出し、
    音響特徴パラメータ解析手段が、前記検索子とする音響信号及び前記検索対象とする音響信号についての、発音体の構造や共振系の違いなどの構造的な要素に依存するパラメータやピッチ周波数の時間的変動から得られる音声の抑揚パラメータなど音響信号の特徴を表す音響特徴パラメータを解析し、
    検索手段が、前記検索子とする音響信号について前記音響特徴パラメータ解析手段により解析された前記音響特徴パラメータからなる検索子音響特徴パラメータと、前記検索対象とする音響信号について前記音響特徴パラメータ解析手段により解析された前記音響特徴パラメータとを比較し、両者の類似性を算出することにより、前記検索対象とする音響信号の中から前記検索子とする音響信号と類似する部分を検索する
    響検索処理方法。
  2. 格納手段が、前記抽出手段により抽出された前記検索子とする音響信号を保持手段に格納し、
    読み出し手段が、前記保持手段から選択された前記検索子とする音響信号を読み出し、前記音響特徴パラメータ解析手段に供給する
    請求項1に記載の音響検索処理方法。
  3. 格納手段が、前記解析手段により解析された前記検索子音響特徴パラメータを保持手段に格納し、
    読み出し手段が、前記保持手段から選択された前記検索子音響特徴パラメータを読み出し、前記検索手段に供給する
    請求項1に記載の音響検索処理方法。
  4. 前記検索手段は、前記検索子とする音響信号が複数個である場合には、予め設定された単位時間ごとに、検索子とする音響信号を切り換えて、前記類似性の算出を行なう
    求項1〜請求項3のいずれかに記載の音響検索処理方法。
  5. 結果表示手段が、前記検索子とする音響信号毎の検索結果を、前記検索対象とする音響信号について、時間方向に表示する
    求項1〜請求項のいずれかに記載の音響検索処理方法。
  6. 再生手段が、前記検索対象とする音響信号のうち、前記検索の結果、前記検索子とする音響信号と類似する部分のみを抽出して再生する
    求項1〜請求項のいずれかに記載の音響検索処理方法。
  7. 抽出手段が、検索対象とする音響信号が入力されると、操作部を通じた使用者の操作に応じた制御信号に基づいて、前記検索対象とする音響信号の1〜複数の部分を検索子とする音響信号として抽出し、
    音響特徴パラメータ解析手段が、前記検索子とする音響信号及び前記検索対象とする音響信号についての、発音体の構造や共振系の違いなどの構造的な要素に依存するパラメータやピッチ周波数の時間的変動から得られる音声の抑揚パラメータなど音響信号の特徴を表す音響特徴パラメータを解析し、
    検索手段が、前記検索子とする音響信号について前記音響特徴パラメータ解析手段により解析された前記音響特徴パラメータからなる検索子音響特徴パラメータと、前記検索対象とする音響信号について前記音響特徴パラメータ解析手段により解析された前記音響特徴パラメータとを比較し、両者の類似性を算出することにより、前記検索対象とする音響信号の中から前記検索子とする音響信号と類似する部分を検索し、
    記録手段が、前記検索対象とする音響信号を記録媒体に記録し、さらに、前記検索手段による検索結果を、前記検索対象とする音響信号の前記記録媒体上の記録位置に関連させて記録する
    響情報蓄積方法。
  8. 前記記録手段は、前記検索手段による検索結果を、前記検索対象とする音響信号とともに、前記記録媒体に記録する
    求項に記載の音響情報蓄積方法。
  9. 格納手段が、前記解析手段により解析された前記検索子音響特徴パラメータのそれぞれ、バッファメモリの異なるメモリエリアに記憶
    読み出し手段が、前記バッファメモリから、前記検索子音響特徴パラメータのそれぞれを読み出し
    前記検索手段は、前記読み出し手段により読み出された検索子音響特徴パラメータを用いて前記検索対象とする音響信号についての前記類似性の算出処理による前記類似する部分の検索処理を行なう
    求項7又は請求項8に記載の音響情報蓄積方法。
  10. 格納手段が、前記抽出手段により抽出された前記検索子とする音響信号のそれぞれを、バッファメモリの異なるメモリエリアに記憶
    読み出し手段が、前記バッファメモリから、前記検索子とする音響信号のそれぞれを読み出し、
    前記音響特徴パラメータ解析手段は、前記読み出し手段により読み出された前記検索子とする音響信号についての前記検索子音響特徴パラメータを解析し、
    前記検索手段は、前記解析手段により解析された前記検索子音響特徴パラメータを用いて前記検索対象とする音響信号についての前記類似性の算出処理による前記類似する部分の検索処理を行なう
    請求項7又は請求項8に記載の音響情報蓄積方法。
  11. 前記記録手段は、前記検索手段による検索結果とともに、前記検索子音響特徴パラメータあるいは前記検索子とする音響信号も、前記記録媒体に記録する
    請求項〜請求項10に記載の音響情報蓄積方法。
  12. 検索対象とする音響信号が入力されると、操作部を通じた使用者の操作に応じた制御信号に基づいて、前記検索対象とする音響信号の1〜複数の部分を検索子とする音響信号として抽出する抽出手段と、
    前記検索子とする音響信号及び前記検索対象とする音響信号についての、発音体の構造や共振系の違いなどの構造的な要素に依存するパラメータやピッチ周波数の時間的変動から得られる音声の抑揚パラメータなど音響信号の特徴を表す音響特徴パラメータを解析する音響特徴パラメータ解析手段と、
    前記検索子とする音響信号について前記音響特徴パラメータ解析手段により解析された前記音響特徴パラメータからなる検索子音響特徴パラメータと、前記検索対象とする音響信号について前記音響特徴パラメータ解析手段により解析された前記音響特徴パラメータとを比較し、両者の類似性を算出することにより、前記検索対象とする音響信号の中から前記検索子とする音響信号と類似する部分を検索する検索手段と、
    前記検索手段の結果を表示する結果表示手段と、
    を備える音響情報検索装置。
  13. 検索対象とする音響信号が入力されると、操作部を通じた使用者の操作に応じた制御信号に基づいて、前記検索対象とする音響信号の1〜複数の部分を検索子とする音響信号として抽出する抽出手段と、
    前記検索子とする音響信号及び前記検索対象とする音響信号についての、発音体の構造や共振系の違いなどの構造的な要素に依存するパラメータやピッチ周波数の時間的変動から得られる音声の抑揚パラメータなど音響信号の特徴を表す音響特徴パラメータを解析する音響特徴パラメータ解析手段と、
    前記検索子とする音響信号について前記音響特徴パラメータ解析手段により解析された前記音響特徴パラメータからなる検索子音響特徴パラメータと、前記検索対象とする音響信号について前記音響特徴パラメータ解析手段により解析された前記音響特徴パラメータとを比較し、両者の類似性を算出することにより、前記検索対象とする音響信号の中から前記検索子とする音響信号と類似する部分を検索する検索手段と、
    前記検索手段での検索結果に基づいて、前記類似する部分のみを抽出して再生する再生手段と、
    を備える音響情報検索装置。
  14. 前記結果表示手段は、
    前記検索手段で検索された前記類似する部分を、前記検索対象とする音響信号の時間の流れに応じて表示する
    求項12に記載の音響情報検索装置。
  15. 前記抽出手段により抽出された前記検索子とする音響信号を保持手段に格納する格納手段と、
    前記保持手段から選択された前記検索子とする音響信号を読み出し、前記音響特徴パラメータ解析手段に供給する読み出し手段と
    備える請求項12または請求項13に記載の音響情報検索装置。
  16. 前記解析手段により解析された前記検索子音響特徴パラメータを保持手段に格納する格納手段と、
    前記保持手段から選択された前記検索子音響特徴パラメータを読み出し、前記検索手段に供給する読み出し手段と
    を備える請求項12または請求項13に記載の音響情報検索装置。
  17. 前記検索手段は、
    前記検索子とする音響信号が複数個である場合に、予め設定された単位時間ごとに、検索子とする音響信号を切り換えて、前記類似性の算出を行なう
    請求項12または請求項13に記載の音響情報検索装置。
  18. 検索対象とする音響信号が入力されると、操作部を通じた使用者の操作に応じた制御信号に基づいて、前記検索対象とする音響信号の1〜複数の部分を検索子とする音響信号として抽出する抽出手段と、
    前記検索子とする音響信号及び前記検索対象とする音響信号についての、発音体の構造や共振系の違いなどの構造的な要素に依存するパラメータやピッチ周波数の時間的変動から得られる音声の抑揚パラメータなど音響信号の特徴を表す音響特徴パラメータを解析する音響特徴パラメータ解析手段と、
    前記検索子とする音響信号について前記音響特徴パラメータ解析手段により解析された前記音響特徴パラメータからなる検索子音響特徴パラメータと、前記検索対象とする音響信号について前記音響特徴パラメータ解析手段により解析された前記音響特徴パラメータとを比較し、両者の類似性を算出することにより、前記検索対象とする音響信号の中から前記検索子とする音響信号と類似する部分を検索する検索手段と、
    前記検索対象とする音響信号を記録媒体に記録し、さらに、前記検索手段による検索結果を、前記検索対象とする音響信号の前記記録媒体上の記録位置に関連させて記録する記録手段と
    を備える音響情報蓄積装置。
  19. 前記記録手段は、
    前記検索手段による検索結果を、前記検索対象とする音響信号とともに、前記記録媒体に記録する
    求項18に記載の音響情報蓄積装置。
  20. 前記解析手段により解析された前記検索子音響特徴パラメータを保持手段に格納する格納手段と、
    前記保持手段から選択された前記検索子音響特徴パラメータを読み出し、前記検索手段に供給する読み出し手段と
    を備える請求項18または請求項19に記載の音響情報検索装置。
  21. 前記抽出手段により抽出された前記検索子とする音響信号を保持手段に格納する格納手段と、
    前記保持手段から選択された前記検索子とする音響信号を読み出し、前記音響特徴パラメータ解析手段に供給する読み出し手段と
    備える請求項18または請求項19に記載の音響情報検索装置。
  22. 前記検索手段は、
    前記検索子とする音響信号が複数個である場合に、予め設定された単位時間ごとに、検索子とする音響信号を切り換えて、前記類似性の算出を行なう
    請求項18または請求項19に記載の音響情報検索装置。
  23. 映像信号と、その映像信号に関連する音響信号とからなる入力信号から、所定の部分を検索する音響映像検索処理方法において、
    抽出手段が、検索対象とする前記入力信号が入力されると、操作部を通じた使用者の操作に応じた制御信号に基づいて、前記検索対象とする前記入力信号中の音響信号の1〜複数の部分を検索子とする音響信号として抽出し、
    音響特徴パラメータ解析手段が、前記検索子とする音響信号及び前記検索対象とする前記入力信号中の音響信号についての、発音体の構造や共振系の違いなどの構造的な要素に依存するパラメータやピッチ周波数の時間的変動から得られる音声の抑揚パラメータなど音響信号の特徴を表す音響特徴パラメータを解析し、
    検索手段が、前記検索子とする音響信号について前記音響特徴パラメータ解析手段により解析された前記音響特徴パラメータからなる検索子音響特徴パラメータと、前記検索対象とする前記入力信号中の音響信号について前記音響特徴パラメータ解析手段により解析された前記音響特徴パラメータとを比較し、両者の類似性を算出することにより、前記検索対象とする入力信号中の音響信号の中から前記検索子とする音響信号と類似する部分を検索する
    音響映像検索処理方法。
  24. 結果表示手段が、前記検索手段で検索された部分の映像信号による画像を表示する
    請求項23に記載の音響映像検索処理方法。
  25. 映像信号と、その映像信号に関連する音響信号とからなる入力信号から、所定の部分を検索する音響映像検索処理方法において、
    抽出手段が、検索対象とする前記入力信号が入力されると、操作部を通じた使用者の操作に応じた制御信号に基づいて、前記検索対象とする前記入力信号中の音響信号の1〜複数の部分を検索子とする音響信号として抽出し、
    音響特徴パラメータ解析手段が、前記検索子とする音響信号及び前記検索対象とする前記入力信号中の音響信号についての、発音体の構造や共振系の違いなどの構造的な要素に依存するパラメータやピッチ周波数の時間的変動から得られる音声の抑揚パラメータなど音響信号の特徴を表す音響特徴パラメータを解析し、
    音響部分検索手段が、前記検索子とする音響信号について前記音響特徴パラメータ解析手段により解析された前記音響特徴パラメータからなる検索子音響特徴パラメータと、前記検索対象とする前記入力信号中の音響信号について前記音響特徴パラメータ解析手段により解析された前記音響特徴パラメータとを比較し、両者の類似性を算出することにより、前記検索対象とする入力信号中の音響信号の中から前記検索子とする音響信号と類似する部分を検索すると共に、
    映像部分検索手段が、検索子とする1〜複数の映像信号についての、画像の特徴を表す映像特徴パラメータからなる検索子映像特徴パラメータのそれぞれと、検索対象とする前記入力信号中の映像信号を解析して得た前記映像特徴パラメータとを比較し、両者の類似性を算出することにより、前記検索対象とする前記入力信号中の映像信号中から前記検索子の画像と類似する画像部分を検索し、前記音響信号についての検索結果と、前記映像信号についての検索結果とに基づいて、前記入力信号中から所定の部分を検索する
    響映像検索処理方法。
  26. 登録手段が、前記検索子音響特徴パラメータと前記検索子映像特徴パラメータとを、互いに関連付けてメモリに登録する
    請求項25に記載の音響映像検索処理方法。
  27. 抽出手段が、映像信号と、その映像信号に関連する音響信号とからなる入力信号である検索対象とする入力信号が入力されると、操作部を通じた使用者の操作に応じた制御信号に基づいて、前記検索対象とする入力信号中の音響信号の1〜複数の部分を検索子とする音響信号として抽出し、
    音響特徴パラメータ解析手段が、前記検索子とする音響信号及び前記検索対象とする入力信号中の音響信号についての、発音体の構造や共振系の違いなどの構造的な要素に依存するパラメータやピッチ周波数の時間的変動から得られる音声の抑揚パラメータなど音響信号の特徴を表す音響特徴パラメータを解析し、
    検索手段が、前記検索子とする音響信号について前記音響特徴パラメータ解析手段により解析された前記音響特徴パラメータからなる検索子音響特徴パラメータと、前記検索対象とする入力信号中の音響信号について前記音響特徴パラメータ解析手段により解析された前記音響特徴パラメータとを比較し、両者の類似性を算出することにより、前記検索対象とする入力信号中の音響信号の中から前記検索子とする音響信号と類似する部分を検索し、
    記録手段が、前記検索対象とする入力信号を記録媒体に記録し、さらに前記検索手段による検索結果を、前記検索対象とする入力信号の前記記録媒体上の記録位置とに関連させて記録する
    響映像情報蓄積方法。
  28. 抽出手段が、映像信号と、その映像信号に関連する音響信号とからなる入力信号である検索対象とする入力信号が入力されると、操作部を通じた使用者の操作に応じた制御信号に基づいて、前記検索対象とする入力信号中の音響信号の1〜複数の部分を検索子とする音響信号として抽出し、
    音響特徴パラメータ解析手段が、前記検索子とする音響信号及び前記検索対象とする入力信号中の音響信号についての、発音体の構造や共振系の違いなどの構造的な要素に依存するパラメータやピッチ周波数の時間的変動から得られる音声の抑揚パラメータなど音響信号の特徴を表す音響特徴パラメータを解析し、
    音響部分検索手段が、前記検索子とする音響信号について前記音響特徴パラメータ解析手段により解析された前記音響特徴パラメータからなる検索子音響特徴パラメータと、前記検索対象とする入力信号中の音響信号について前記音響特徴パラメータ解析手段により解析された前記音響特徴パラメータとを比較し、両者の類似性を算出することにより、前記検索対象とする入力信号中の音響信号の中から前記検索子とする音響信号と類似する部分を検索し、さらに、
    映像部分検索手段が、検索子とする1〜複数の映像信号についての、画像の特徴を表す映像特徴パラメータからなる検索子映像特徴パラメータのそれぞれと、前記検索対象とする入力信号中の映像信号を解析して得た前記映像特徴パラメータとを比較し、両者の類似性を算出することにより、前記検索対象とする入力信号中の映像信号中から前記検索子の画像と類似する画像部分を検索し、
    記録手段が、前記検索対象とする入力信号を記録媒体に記録し、さらに前記音響部分検索手段及び前記映像部分検索手段による検索結果を、前記検索対象とする入力信号の前記記録媒体上の記録位置とに関連させて記録する
    響映像情報蓄積方法。
  29. 映像信号と、その映像信号に関連する音響信号とからなる入力信号である検索対象とする入力信号が入力されると、操作部を通じた使用者の操作に応じた制御信号に基づいて、前記検索対象とする入力信号中の音響信号の1〜複数の部分を検索子とする音響信号として抽出する抽出手段と、
    前記検索子とする音響信号及び前記検索対象とする入力信号中の音響信号についての、発音体の構造や共振系の違いなどの構造的な要素に依存するパラメータやピッチ周波数の時間的変動から得られる音声の抑揚パラメータなど音響信号の特徴を表す音響特徴パラメータを解析する音響特徴パラメータ解析手段と、
    前記検索子とする音響信号について前記音響特徴パラメータ解析手段により解析された前記音響特徴パラメータからなる検索子音響特徴パラメータと、前記検索対象とする入力信号中の音響信号について前記音響特徴パラメータ解析手段により解析された前記音響特徴パラメータとを比較し、両者の類似性を算出することにより、前記検索対象とする入力信号中の音響信号の中から前記検索子とする音響信号と類似する部分を検索する検索手段と、
    前記検索手段の結果を表示する結果表示手段と、
    を備える音響映像情報検索装置。
  30. 前記結果表示手段は、
    前記検索手段で検索された部分の映像信号による画像を表示する
    請求項29に記載の音響映像情報検索装置。
  31. 映像信号と、その映像信号に関連する音響信号とからなる入力信号である検索対象とする入力信号が入力されると、操作部を通じた使用者の操作に応じた制御信号に基づいて、前記検索対象とする入力信号中の音響信号の1〜複数の部分を検索子とする音響信号として抽出する抽出手段と、
    前記検索子とする音響信号及び前記検索対象とする入力信号中の音響信号についての、発音体の構造や共振系の違いなどの構造的な要素に依存するパラメータやピッチ周波数の時間的変動から得られる音声の抑揚パラメータなど音響信号の特徴を表す音響特徴パラメータを解析する音響特徴パラメータ解析手段と、
    前記検索子とする音響信号について前記音響特徴パラメータ解析手段により解析された前記音響特徴パラメータからなる検索子音響特徴パラメータと、前記検索対象とする入力信号中の音響信号について前記音響特徴パラメータ解析手段により解析された前記音響特徴パラメータとを比較し、両者の類似性を算出することにより、前記検索対象とする入力信号中の音響信号の中から前記検索子とする音響信号と類似する部分を検索する検索手段と、
    前記検索手段での検索結果に基づいて、前記類似する部分に対応する前記入力信号部分を抽出して再生する再生手段と、
    を備える音響映像情報検索装置。
  32. 映像信号と、その映像信号に関連する音響信号とからなる入力信号である検索対象とする入力信号が入力されると、操作部を通じた使用者の操作に応じた制御信号に基づいて、前記検索対象とする入力信号中の音響信号の1〜複数の部分を検索子とする音響信号として抽出する抽出手段と、
    前記検索子とする音響信号及び前記検索対象とする入力信号中の音響信号についての、発音体の構造や共振系の違いなどの構造的な要素に依存するパラメータやピッチ周波数の時間的変動から得られる音声の抑揚パラメータなど音響信号の特徴を表す音響特徴パラメータを解析する音響特徴パラメータ解析手段と、
    前記検索子とする音響信号について前記音響特徴パラメータ解析手段により解析された前記音響特徴パラメータからなる検索子音響特徴パラメータと、前記検索対象とする入力信号中の音響信号について前記音響特徴パラメータ解析手段により解析された前記音響特徴パラメータとを比較し、両者の類似性を算出することにより、前記検索対象とする入力信号中の音響信号の中から前記検索子とする音響信号と類似する部分を検索する音響部分検索手段と、
    前記検索対象とする入力信号中の映像信号を、画像の特徴を表す映像特徴パラメータに解析する映像特徴パラメータ解析手段と、
    検索子とする1〜複数の映像信号についての前記映像特徴パラメータからなる検索子映像特徴パラメータのそれぞれと、前記映像特徴パラメータ解析手段からの前記検索対象とする入力信号中の映像信号の映像特徴パラメータとを比較して、前記検索対象とする入力信号中の映像信号中から前記検索子とする映像信号と類似する部分を検索する映像部分検索手段と、
    前記音響部分検索手段および前記映像部分検索手段の結果を表示する結果表示手段と
    を備える音響映像情報検索装置。
  33. 映像信号と、その映像信号に関連する音響信号とからなる入力信号である検索対象とする入力信号が入力されると、操作部を通じた使用者の操作に応じた制御信号に基づいて、前記検索対象とする入力信号中の音響信号の1〜複数の部分を検索子とする音響信号として抽出する抽出手段と、
    前記検索子とする音響信号及び前記検索対象とする入力信号中の音響信号についての、発音体の構造や共振系の違いなどの構造的な要素に依存するパラメータやピッチ周波数の時間的変動から得られる音声の抑揚パラメータなど音響信号の特徴を表す音響特徴パラメータを解析する音響特徴パラメータ解析手段と、
    前記検索子とする音響信号について前記音響特徴パラメータ解析手段により解析された前記音響特徴パラメータからなる検索子音響特徴パラメータと、前記検索対象とする入力信号中の音響信号について前記音響特徴パラメータ解析手段により解析された前記音響特徴パラメータとを比較し、両者の類似性を算出することにより、前記検索対象とする入力信号中の音響信号の中から前記検索子とする音響信号と類似する部分を検索する音響部分検索手段と、
    前記検索対象とする入力信号中の映像信号を、画像の特徴を表す映像特徴パラメータに解析する映像特徴パラメータ解析手段と、
    検索子とする1〜複数の映像信号についての前記映像特徴パラメータからなる検索子映像特徴パラメータのそれぞれと、前記映像特徴パラメータ解析手段からの前記検索対象とする入力信号中の映像信号の映像特徴パラメータとを比較して、前記検索対象とする入力信号中の映像信号中から前記検索子とする映像信号と類似する部分を検索する映像部分検索手段と、
    前記音響部分検索手段および前記映像部分検索手段での検索結果に基づいて決定される前記入力信号部分を抽出して再生する再生手段と
    を備える音響映像情報検索装置。
  34. 映像信号と、その映像信号に関連する音響信号とからなる入力信号である検索対象とする入力信号が入力されると、操作部を通じた使用者の操作に応じた制御信号に基づいて、前記検索対象とする入力信号中の音響信号の1〜複数の部分を検索子とする音響信号として抽出する抽出手段と、
    前記検索子とする音響信号及び前記検索対象とする入力信号中の音響信号についての、発音体の構造や共振系の違いなどの構造的な要素に依存するパラメータやピッチ周波数の時間的変動から得られる音声の抑揚パラメータなど音響信号の特徴を表す音響特徴パラメータを解析する音響特徴パラメータ解析手段と、
    前記検索子とする音響信号について前記音響特徴パラメータ解析手段により解析された前記音響特徴パラメータからなる検索子音響特徴パラメータと、前記検索対象とする入力信号中の音響信号について前記音響特徴パラメータ解析手段により解析された前記音響特徴パラメータとを比較し、両者の類似性を算出することにより、前記検索対象とする入力信号中の音響信号の中から前記検索子とする音響信号と類似する部分を検索する検索手段と、
    前記検索対象とする入力信号を記録媒体に記録し、さらに前記検索手段による検索結果を、前記検索対象とする入力信号の前記記録媒体上の記録位置とに関連させて記録する記録手段と
    を備える音響映像情報蓄積装置
  35. 映像信号と、その映像信号に関連する音響信号とからなる入力信号である検索対象とする入力信号が入力されると、操作部を通じた使用者の操作に応じた制御信号に基づいて、前記検索対象とする入力信号中の音響信号の1〜複数の部分を検索子とする音響信号として抽出する抽出手段と、
    前記検索子とする音響信号及び前記検索対象とする入力信号中の音響信号についての、発音体の構造や共振系の違いなどの構造的な要素に依存するパラメータやピッチ周波数の時間的変動から得られる音声の抑揚パラメータなど音響信号の特徴を表す音響特徴パラメータを解析する音響特徴パラメータ解析手段と、
    前記検索子とする音響信号について前記音響特徴パラメータ解析手段により解析された前記音響特徴パラメータからなる検索子音響特徴パラメータと、前記検索対象とする入力信号中の音響信号について前記音響特徴パラメータ解析手段により解析された前記音響特徴パラメータとを比較し、両者の類似性を算出することにより、前記検索対象とする入力信号中の音響信号の中から前記検索子とする音響信号と類似する部分を検索する音響部分検索手段と、
    前記検索対象とする入力信号中の映像信号を、画像の特徴を表す映像特徴パラメータに解析する映像特徴パラメータ解析手段と、
    検索子とする1〜複数の映像信号についての前記映像特徴パラメータからなる検索子映像特徴パラメータのそれぞれと、前記映像特徴パラメータ解析手段からの前記検索対象とする入力信号中の映像信号の映像特徴パラメータとを比較して、前記検索対象とする入力信号中の映像信号中から前記検索子とする映像信号と類似する部分を検索する映像部分検索手段と、
    前記検索対象とする入力信号を記録媒体に記録し、さらに前記音響部分検索手段及び前記映像部分検索手段による検索結果を、前記検索対象とする入力信号の前記記録媒体上の記録位置とに関連させて記録する記録手段と
    を備える音響映像情報蓄積装置
JP2000247233A 1999-08-26 2000-08-17 音響検索処理方法、音響情報検索装置、音響情報蓄積方法、音響情報蓄積装置および音響映像検索処理方法、音響映像情報検索装置、音響映像情報蓄積方法、音響映像情報蓄積装置 Expired - Fee Related JP4491700B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000247233A JP4491700B2 (ja) 1999-08-26 2000-08-17 音響検索処理方法、音響情報検索装置、音響情報蓄積方法、音響情報蓄積装置および音響映像検索処理方法、音響映像情報検索装置、音響映像情報蓄積方法、音響映像情報蓄積装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP23914599 1999-08-26
JP11-239145 1999-08-26
JP2000247233A JP4491700B2 (ja) 1999-08-26 2000-08-17 音響検索処理方法、音響情報検索装置、音響情報蓄積方法、音響情報蓄積装置および音響映像検索処理方法、音響映像情報検索装置、音響映像情報蓄積方法、音響映像情報蓄積装置

Publications (2)

Publication Number Publication Date
JP2001134613A JP2001134613A (ja) 2001-05-18
JP4491700B2 true JP4491700B2 (ja) 2010-06-30

Family

ID=26534100

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000247233A Expired - Fee Related JP4491700B2 (ja) 1999-08-26 2000-08-17 音響検索処理方法、音響情報検索装置、音響情報蓄積方法、音響情報蓄積装置および音響映像検索処理方法、音響映像情報検索装置、音響映像情報蓄積方法、音響映像情報蓄積装置

Country Status (1)

Country Link
JP (1) JP4491700B2 (ja)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4734771B2 (ja) * 2001-06-12 2011-07-27 ソニー株式会社 情報抽出装置及び方法
JP4696418B2 (ja) * 2001-07-25 2011-06-08 ソニー株式会社 情報検出装置及び方法
JP2003037794A (ja) * 2001-07-26 2003-02-07 Matsushita Electric Ind Co Ltd デジタル放送受信再生装置
US20040064306A1 (en) * 2002-09-30 2004-04-01 Wolf Peter P. Voice activated music playback system
GB0230097D0 (en) * 2002-12-24 2003-01-29 Koninkl Philips Electronics Nv Method and system for augmenting an audio signal
JP4631251B2 (ja) * 2003-05-06 2011-02-16 日本電気株式会社 メディア検索装置およびメディア検索プログラム
US8918316B2 (en) * 2003-07-29 2014-12-23 Alcatel Lucent Content identification system
JP4630678B2 (ja) * 2005-01-28 2011-02-09 キヤノン株式会社 画像処理装置及びその制御方法、並びに、コンピュータプログラム及びコンピュータ可読記憶媒体
US7974420B2 (en) 2005-05-13 2011-07-05 Panasonic Corporation Mixed audio separation apparatus
JP2007171772A (ja) * 2005-12-26 2007-07-05 Clarion Co Ltd 音楽情報処理装置、音楽情報処理方法および制御プログラム
JP2007241130A (ja) * 2006-03-10 2007-09-20 Matsushita Electric Ind Co Ltd 声紋認識を利用するシステムと装置
JP4224095B2 (ja) 2006-09-28 2009-02-12 株式会社東芝 情報処理装置、情報処理プログラムおよび情報処理システム
JP5383056B2 (ja) * 2007-02-14 2014-01-08 本田技研工業株式会社 音データ記録再生装置および音データ記録再生方法
JP4909854B2 (ja) 2007-09-27 2012-04-04 株式会社東芝 電子機器および表示処理方法
JP2009128727A (ja) * 2007-11-27 2009-06-11 Sanyo Electric Co Ltd 音楽データを再生可能な電子機器。
JP4856105B2 (ja) * 2008-01-31 2012-01-18 株式会社東芝 電子機器および表示処理方法
JP5136621B2 (ja) * 2010-10-15 2013-02-06 ソニー株式会社 情報検索装置及び方法
CN102929887A (zh) * 2011-08-11 2013-02-13 天津市亚安科技股份有限公司 一种基于声音特征识别的快速录像检索方法及系统
JP5330551B2 (ja) * 2012-01-13 2013-10-30 株式会社東芝 電子機器および表示処理方法
JP6413653B2 (ja) * 2014-11-04 2018-10-31 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
JP6683231B2 (ja) * 2018-10-04 2020-04-15 ソニー株式会社 情報処理装置および情報処理方法
JP7200597B2 (ja) * 2018-10-19 2023-01-10 ヤマハ株式会社 情報処理方法および情報処理システム
DE112020002116T5 (de) 2019-04-26 2022-01-27 Sony Group Corporation Informationsverarbeitungsvorrichtung und Verfahren und Programm

Also Published As

Publication number Publication date
JP2001134613A (ja) 2001-05-18

Similar Documents

Publication Publication Date Title
JP4491700B2 (ja) 音響検索処理方法、音響情報検索装置、音響情報蓄積方法、音響情報蓄積装置および音響映像検索処理方法、音響映像情報検索装置、音響映像情報蓄積方法、音響映像情報蓄積装置
US8165306B2 (en) Information retrieving method, information retrieving device, information storing method and information storage device
JP4905103B2 (ja) 動画再生装置
JP4321518B2 (ja) 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置
US7941031B2 (en) Video processing apparatus, IC circuit for video processing apparatus, video processing method, and video processing program
JP4935355B2 (ja) 情報信号処理方法、情報信号処理装置及びコンピュータプログラム記録媒体
JP4442585B2 (ja) 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置
JP4683116B2 (ja) 情報処理装置、情報処理方法、情報処理プログラムおよび撮像装置
WO2000036833A1 (fr) Procede et appareil permettant de retrouver vocalement des scenes video ou audio
JP5050445B2 (ja) 動画再生装置及び動画再生方法
JP4513165B2 (ja) 番組記録方法及び番組記録装置及び番組記録再生装置及び番組記録再生方法
JP2005341180A (ja) 動画像処理装置及びその方法
JP2004153764A (ja) メタデータ制作装置及び検索装置
JP4913288B2 (ja) 情報信号処理装置及び情報信号処理方法
JP4835439B2 (ja) 情報信号処理方法、情報信号処理装置及びコンピュータプログラム記録媒体
JP2006270233A (ja) 信号処理方法及び信号記録再生装置
JPH08249343A (ja) 音声情報取得装置及び音声情報取得方法
KR20060000172A (ko) 위치정보를 이용한 자막, 정지영상, 동영상의 동기화생성/재생방법 및 그 장치
JP2001298711A (ja) 画像記録再生装置および方法、並びに記録媒体
JP4287243B2 (ja) 放送番組記録装置、放送番組再生装置、放送番組記録再生装置及び放送番組記録再生方法
JP4422538B2 (ja) 音付映像の再生装置
JP2000268545A (ja) 音声再生装置
JP2007081899A (ja) 広告情報処理装置
KR100678895B1 (ko) 모델 기반 세그먼트 메타데이터를 생성하는 장치 및 방법
JP2000092435A (ja) 信号特徴抽出方法及びその装置、音声認識方法及びその装置、動画編集方法及びその装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070205

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20090825

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20091001

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100311

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100324

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130416

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees