JP4125990B2 - 検索結果利用型類似音楽検索装置,検索結果利用型類似音楽検索処理方法,検索結果利用型類似音楽検索プログラムおよびそのプログラムの記録媒体 - Google Patents

検索結果利用型類似音楽検索装置,検索結果利用型類似音楽検索処理方法,検索結果利用型類似音楽検索プログラムおよびそのプログラムの記録媒体 Download PDF

Info

Publication number
JP4125990B2
JP4125990B2 JP2003126208A JP2003126208A JP4125990B2 JP 4125990 B2 JP4125990 B2 JP 4125990B2 JP 2003126208 A JP2003126208 A JP 2003126208A JP 2003126208 A JP2003126208 A JP 2003126208A JP 4125990 B2 JP4125990 B2 JP 4125990B2
Authority
JP
Japan
Prior art keywords
search
music
short
time window
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003126208A
Other languages
English (en)
Other versions
JP2004333605A (ja
Inventor
啓敏 須賀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003126208A priority Critical patent/JP4125990B2/ja
Publication of JP2004333605A publication Critical patent/JP2004333605A/ja
Application granted granted Critical
Publication of JP4125990B2 publication Critical patent/JP4125990B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は,音声音楽信号を検索する技術に関し,特に非定常雑音を含む音声音楽信号でも精度よく,高速に検索可能な検索結果利用型類似音楽検索装置,検索結果利用型類似音楽検索処理方法,検索結果利用型類似音楽検索プログラムおよびそのプログラムの記録媒体に関するものである。
【0002】
【従来の技術】
音声音楽信号を高速に検索する従来技術(従来手法1)としては,例えば,特許文献1「高速信号探索方法,装置及びその記録媒体」および非特許文献1に示されているような,検索対象中から検索キーと一致する音声音楽信号を検索する技術がある。
【0003】
また,雑音を含む音声音楽信号を検索する従来技術(従来手法2)として,検索対象の音声音楽信号を時間周波数領域で多数の小領域に分割し,各領域間で検索キーの音声音楽信号との類似度を計算する手法がある(例えば,特許文献2「情報送受信システム及び方法,情報処理装置及び方法」,非特許文献2参照)。この手法では,各領域の類似度を投票法により積算することで,検索対象と検索キーの音声音楽信号中のナレーションなどの突発的で非定常な雑音部分以外の背景音楽などの部分で一致検索を行う。
【0004】
この他に,類似する音声音楽信号を検索する従来技術(従来手法3)として,一致する音声音楽信号だけでなく類似する音声音楽信号も検索でき,多次元インデックスを用いることで高速な検索ができる手法がある(例えば,非特許文献3参照)。
【0005】
ここで,後述する本発明の実施の形態で利用している技術が記載された文献として,例えば非特許文献4,非特許文献5,非特許文献6,非特許文献7がある。
【0006】
【特許文献1】
特許第3065314号公報
【特許文献2】
特開2002−10237号公報
【非特許文献1】
柏野邦夫,ガビンスミス,村瀬洋:“ヒストグラム特徴を用いた音響信号の高速探索法−時系列アクティブ探索法−”:電子情報通信学会論文誌,D-1 ,Vol.J82-D-II NO.9 ,pp.1365-1373,1999
【非特許文献2】
阿部素嗣,西口正之:“背景音楽同定のための自己最適化スペクトル相関法”:電子情報通信学会技術報告,PRMU2001-209,pp.25-30,2002
【非特許文献3】
須賀啓敏,寺本純司,片岡良治,芳西崇:“類似音声検索による映像検索”:電子情報通信学会,第13回データ工学ワークショップ(DEWS2002 ISSN1347-4413)B1-1,2002
【非特許文献4】
鹿野清宏他,:“IT text 音声認識システム”,オーム社,2001
【非特許文献5】
Lawrence Rabiner,Biing-Hwang Juang 共著,古井貞煕監訳:“音声認識の基礎(上)”,NTTアドバンステクノロジ株式会社,1995
【非特許文献6】
Norio Katayama and Shin'ichi Satoh:“The SR-tree :An Index Structure for High-Dimensional Nearest Neighbor Queries”,in Proc.ACM SIGMOD International Conference On Management of Data ,pp.368-380,May 1997
【非特許文献7】
Yasushi Sakurai ,Masatoshi Yoshikawa ,Shunsuke Uemura ,and Haruhiko Kojima :“A-tree:An Index Structure for High-Dimensional Space Using Relative Approximations ”,In Proc.of the 26th International Conference on Very Large Data Bases (VLDB),pp.516-526,Cairo ,September 2000
【0007】
【発明が解決しようとする課題】
〔課題1〕前述した従来手法1では,一致する音声音楽信号を検索するため,信号に雑音が入ると検索できなくなってしまうという問題がある。
〔課題2〕従来手法2では,非定常な雑音が入った音声音楽信号でも検索が可能であるが,類似度計算の計算量が大きく,計算に時間がかかってしまうという問題がある。
〔課題3〕従来手法3では,音声音楽信号に雑音が入っても信号が類似していれば従来手法2よりも高速な検索が可能であるが,雑音がない場合に比べて検索精度は下がってしまうという問題がある。
【0008】
本発明は,上記問題点の解決を図り,非定常な雑音を含む音声音楽信号を精度良く,高速に検索できる手段を確立することを目的とする。
【0009】
【課題を解決するための手段】
本発明の検索結果利用型類似音楽検索装置は,上記課題を解決するため,検索キー音声音楽信号入力手段と,短時間窓音声音楽特徴量抽出手段と,短時間窓音声音楽特徴量類似検索手段と,音声音楽情報比較統合手段と,前後検索結果利用手段と,検索結果蓄積手段と,音声音楽表示出力手段と,検索対象音声音楽信号入力手段と,特徴量の蓄積手段とを備える。
【0010】
検索キー音声音楽信号入力手段は,非定常雑音を含む長時間の音声音楽信号から,検索キーとして数秒間の音声音楽信号を逐次的に切り出して入力する。
【0011】
短時間窓音声音楽特徴量抽出手段は,短時間窓を少しずつずらしながら,短時間窓長の音声音楽信号を切り出し,そこから短時間窓音声音楽特徴量を抽出する。短時間窓音声音楽特徴量は多次元ベクトルの形で表現される。
【0012】
短時間窓音声音楽特徴量類似検索手段は,検索キーから抽出されたそれぞれの短時間窓音声音楽特徴量の中から所定の規則によって一部のものを選択し,蓄積された短時間窓音声音楽特徴量の中から,それらの選択された短時間窓音声音楽特徴量に類似するものを検索する。類似度は,多次元ベクトル間の距離が近いものほど類似度が高いとする。なお,この類似度のことを部分類似度と呼ぶことにする。
【0013】
音声音楽情報比較統合手段は,前記短時間窓音声音楽特徴量類似検索手段による短時間窓音声音楽特徴量ごとの類似検索結果から正解候補音声音楽区間を作成し,その正解候補音声音楽区間全体と検索キー音声音楽信号全体との間の類似度を計算し,その類似度の高い正解候補音声音楽区間のリストを作成する。
【0014】
この類似度は,例えば,検索キー音声音楽信号中の短時間窓音声音楽特徴量を表す多次元ベクトルと,それに対応する正解候補音声音楽区間中の短時間窓音声音楽特徴量を表す多次元ベクトルとの間の距離を,対応する短時間窓音声音楽特徴量ごとに計算し,それらの距離のうち距離の近いものだけの和をとり,その和が小さいものほど類似度が高いものとする。なお,この類似度を全体類似度と呼ぶこととする。そして,正解候補音声音楽区間のリストを全体類似度の高い順に並び替える。
【0015】
前後検索結果利用手段は,蓄積された過去の検索キーに対する検索結果から今回の検索キーに対する検索キーと全体類似度の高い音声音楽区間を推定してその音声音楽区間と前記検索キーとの全体類似度を計算し,この結果と前記比較統合過程における結果を統合して全体類似度の高い順に並んだ音声音楽区間のリストを作成することで今回の検索キーに対する検索結果を更新する。
【0016】
次に,更新された今回の検索キーに対する検索結果から過去の検索キーと全体類似度の高い音声音楽区間を推定してこの音声音楽区間と前記過去の検索キーとの全体類似度を計算し,この結果を過去の検索キーに対する検索結果のリストに挿入して過去の検索結果も更新し,さらに,今回の検索キーに対する検索結果のリストと検索キーを蓄積し,過去の検索結果のリストの個数が一定数以上蓄積された場合にその最も古い検索結果のリストを出力する。
【0017】
音声音楽表示出力手段は,ディスプレイ等の表示装置に,前記前後検索結果利用手段から出力された検索結果の音声音楽区間のリストを表示し,マウス等のポインティングデバイスで選択したリスト中の音声音楽区間の音声音楽信号をスピーカー等で出力する。
【0018】
検索対象音声音楽信号入力手段は,検索対象となる長時間の音声音楽信号を入力する。
【0019】
蓄積手段は,検索対象音声音楽信号から抽出された個々の短時間窓音声音楽特徴量または平均短時間窓音声音楽特徴量を蓄積する。また抽出した短時間窓音声音楽特徴量または平均短時間窓音声音楽特徴量から多次元空間インデックスを構成する。
【0020】
以上の各手段による処理は,コンピュータとソフトウェアプログラムとによって実現することができ,そのプログラムをコンピュータ読み取り可能な記録媒体に記録することも,ネットワークを通して提供することも可能である。
【0021】
本発明は,特願2003−8083号で本発明者等が先に提案した「類似音声音楽検索装置,類似音声音楽検索処理方法,類似音声音楽検索プログラムおよびそのプログラムの記録媒体」(これを先の発明という)の検索技術を改良し,さらに高速化の実現を可能にしたものである。
【0022】
本発明の改良のポイントは,先の発明において時間的に連続する複数の検索キーに対する処理手順が繰り返される場合に,短時間窓音声音楽特徴量の類似検索回数を削減して検索の高速化を図り,一方で時間的に前後の検索キーによる検索結果を利用することにより検索精度の維持を図ったところにある。すなわち,本発明では,以下の処理を行う。
【0023】
(1)例えばテレビ映像音声などの,検索キーとするための比較的長時間の音声音楽信号を入力し,音声音楽信号から所定の長さの検索キーを逐次的に切り出し,各検索キーごとに先の発明で提案した短時間窓音声音楽特徴量に基づく類似音声音楽区間の検索を行い,検索結果を記憶する。
【0024】
(2)検索結果の類似音声音楽区間を全体類似度の高い順に並べたリストを各検索キーごとに蓄積しておく。
【0025】
(3)上記(1)の処理で今回の検索キーに対する検索結果を得た後,過去の検索キーに対する検索結果の類似音声音楽区間を起点として,同じ検索対象から今回の検索キーに時間的に対応する部分の音声音楽区間を切り出し,その音声音楽区間と今回の検索キーとの全体類似度を計算し,今回の検索キーに対する検索結果に加える。
【0026】
(4)上記(3)とは逆に,今回の検索キーに対する検索結果の類似音声音楽区間から時間的に遡って,同じ検索対象から過去の検索キーに時間的に対応する部分の音声音楽区間を切り出し,その音声音楽区間と過去の検索キーとの全体類似度を計算し,その結果を過去の検索キーに対する検索結果に挿入する。
【0027】
(5)何個かの検索キーについて上記処理を繰り返したなら,過去の検索キーに対する検索結果から順次,類似音声音楽区間の情報を出力する。この出力は,検索対象の音声音楽信号をスピーカーに出力する処理でもよいし,検索された音楽のタイトルや該当位置などの情報をディスプレイに出力する処理でもよい。基本的には各検索キーごとに検索結果を出力するが,さらに時間的に連続した複数の検索キーの検索結果を統合した検索結果から,検索対象の音声音楽信号を特定して出力するようにしてもよい。
【0028】
以上のように,本発明は,長時間の音声音楽信号から逐次的に切り出される検索キーはその隣り合う検索キー同士が同一音楽でつながっており,従って検索したいそれぞれの音声音楽区間も同一の音楽でつながっているはずであるという点に着目し,現在の単独の検索キーに対する検索結果に加えて,現在の検索キーの時間よりも相対的に過去および未来の検索キーに対する検索結果も利用した類似音声音楽区間の検索を行うことにより,検索速度の高速化,検索精度の向上を実現することができるようになる。
【0029】
【発明の実施の形態】
本発明の実施の形態を説明するに先立ち,実施の形態の説明中で用いている言葉の意味について簡単に説明する。
【0030】
「非定常雑音」:ある区間に対して,その全体に渡って入っていない雑音(例えば,雑音としての人の話し声は,息継ぎなどのために音が途切れるので,非定常雑音である)。
【0031】
「短時間窓」:約20ミリ秒から40ミリ秒程度の時間窓。
【0032】
「短時間窓音声音楽特徴量」:短時間窓長の音声音楽信号から抽出される特徴量。多次元ベクトルで表される。
【0033】
「検索キー音声音楽信号」:非定常雑音を含む長時間の音声音楽信号から逐次的に切り出された数秒(例えば4秒など)の検索キーとして入力される音声音楽信号。
【0034】
「検索対象音声音楽信号」:検索対象となる長時間の雑音を含まない音声音楽信号(例えば,CD音源1000曲分等)。
【0035】
「部分類似度」:多次元ベクトルで表される短時間窓音声音楽特徴量間(または平均短時間窓音声音楽特徴量間)の類似度である。多次元ベクトル間の距離が近いものほど,この類似度は高い。
【0036】
「全体類似度」:検索キーと検索対象中の検索キーと同じ長さの音声音楽信号との間の類似度である。例えば,検索キー音声音楽信号中の短時間窓音声音楽特徴量を表す多次元ベクトルと,それに対応する検索対象中の検索キーの長さの音声音楽信号から抽出された短時間窓音声音楽特徴量を表す多次元ベクトルとの間の距離を,対応する短時間窓音声音楽特徴量ごとに計算し,それらの距離のうち距離の近いものだけの和をとり,その和の小さいものほどこの類似度が高い。
【0037】
「正解候補音声音楽区間」:検索キーの短時間窓音声音楽特徴量の検索キー音声音楽信号中での位置と,部分類似度の高い検索対象中の短時間窓音声音楽信号の位置が同じになるように切り出した,検索対象中の音声音楽信号区間。これが全体類似度も高い正解の候補とする。
【0038】
「平均短時間窓音声音楽特徴量」:短時間窓音声音楽特徴量を時間順に並ぶ複数ごとに平均をとったもの。これを短時間窓音声音楽特徴量の代わりとして扱うことにより,類似検索処理の際に検索回数を少なくでき,高速化が図れる。
【0039】
以下,図面を用いて本発明の実施の形態を説明する。
【0040】
〔実施の形態1〕
本実施の形態1では,放送されているテレビ映像音声などから非定常な雑音が含まれるような数秒の楽曲の音声音楽信号を逐次的に切り出して検索キーとし,検索対象として用意されているCD等の雑音が含まれない音声音楽信号を格納した音楽データベースから,その雑音が入った楽曲の音声音楽信号と同じ楽曲の同じ部分を検索する。これにより,放送されている映像音声中の雑音が入っているような楽曲部分の楽曲名とそれが楽曲中のどの部分であるかを検索することができる。
【0041】
図1は,本発明の実施の形態における前後の検索結果利用型類似音楽検索装置の構成例を示す図である。前後の検索結果利用型類似音楽検索装置10は,短時間窓音声音楽特徴量抽出部(検索フェーズ)11,短時間窓音声音楽特徴量類似検索部12,音声音楽情報比較統合部13,前後検索結果利用部14,検索結果蓄積部15,短時間窓音声音楽特徴量抽出部(蓄積フェーズ)16,蓄積部17,記憶部18とから構成されており,検索キー音声音楽信号入力装置20,音声音楽表示出力装置21,検索対象音声音楽信号入力装置22と接続されている。
【0042】
前後の検索結果利用型類似音楽検索装置10の動作は,検索キーの短時間窓音声音楽特徴量で検索対象の短時間窓音声音楽特徴量を検索することにより類似音声音楽を検索する検索フェーズP1と,検索対象の音声音楽信号と短時間窓音声音楽特徴量とを蓄積する蓄積フェーズP2からなる。
【0043】
図2は,本実施の形態における前後の検索結果利用型類似音楽検索処理フローチャートである。この例では,検索キー入力処理ステップS10において,放送中のTV番粗の音声などのリアルタイムに流れている音声音楽を入力し,そこから逐次的に数秒程度の音声音楽信号を検索キーとして切り出す処理を行い,検索キー音声音楽信号を得る。
【0044】
次に,特徴量抽出処理ステップS20において,短時間窓音声音楽特徴量抽出部(検索フェーズ)11は,約20ミリ秒から40ミリ秒程度の短時間窓を少しずつずらしながら,検索キー入力処理ステップS10で得られた検索キー音声音楽信号から音声音楽信号をM個切り出し,その切り出した音声音楽信号からM個の短時間窓音声音楽特徴量を抽出する。
【0045】
ここで,短時間窓音声音楽特徴量としては,例えば,非特許文献4に述べられているメル周波数ケプストラム係数や,フィルタバンク分析による各帯域の音声パワーや,非特許文献5に述べられている重み付きケプストラム係数等を用いることができる。なお,短時間窓音声音楽特徴量は,多次元ベクトルとして表される。
【0046】
類似検索処理ステップS30による検索のために,あらかじめ短時間窓音声音楽特徴量抽出部(蓄積フェーズ)16が,長時間の検索対象音声音楽信号から上記特徴量抽出処理ステップS20の特徴量抽出処理と同様にして短時間窓音声音楽特徴量を抽出し,蓄積部17が,抽出された短時間窓音声音楽特徴量を記憶部18に蓄積しておく。また,それらの短時間窓音声音楽特徴量から,非特許文献6に述べられているSR−treeや,非特許文献7に述べられているA−treeなどの多次元空間インデックスを構成しておく。
【0047】
類似検索処理ステップS30において,短時間窓音声音楽特徴量類似検索部12は,検索キーから抽出されたM個の短時間窓音声音楽特徴量を入力し,そのM個の短時間窓音声音楽特徴量からN個(N<M)選択し,そのN個の短時間窓音声音楽特徴量に類似する検索対象中の短時間窓音声音楽特徴量を,多次元空間インデックスを使って高速に検索する。M個の短時間窓音声音楽特徴量からN個選択する方法としては,例えば,M個の中からM/N個おきに選択する方法などを用いることができる。検索キーの選択されたN個の短時間窓音声音楽特徴量ごとに,部分類似度の高い検索対象中の短時間窓音声音楽特徴量のリストを作成する。
【0048】
部分類似度は,短時間窓音声音楽特徴量を表す多次元ベクトル間の距離が近いほど高いものとする。なお,多次元空間インデックスを使うことで,使わない場合と比較した時に約10倍高速に検索できていることが確認されている。
【0049】
また,例えばM=300,N=10とすると,検索対象中の短時間窓音声音楽特徴量を検索する回数が30分の1となり,検索キーの全ての短時間窓音声音楽特徴量を使う場合に比べて,30倍高速に検索できることになる。
【0050】
続いて,比較統合処理ステップS40に進む。図3は,本実施の形態における比較統合処理フローチャートである。本実施の形態1における音声音楽情報比較統合部13による比較統合処理ステップS40は,図3のフローチャートを用いて詳細に説明する。
【0051】
ステップS410において,類似検索処理ステップS30で得られた類似検索の結果の部分類似度の高い短時間窓音声音楽特徴量のリストを入力し,検索キーの短時間窓音声音楽特徴量の位置と,対応する部分類似度の高い検索対象中の短時間窓音声音楽特徴量の位置とが同じ位置になるように合わせ,検索対象音声音楽信号から検索キーと同一の長さの音声音楽信号を切り出して正解候補音声音楽区間を作成する。これを入力されたすべての部分類似度の高い短時間窓音声音楽特徴量について行い,正解候補音声音楽区間のリストを作成する。
【0052】
図4は,上記ステップS410の処理における検索対象からの正解候補音声音楽区間の切り出しを説明する図である。検索キー音声音楽信号における0,1,…,9および検索対象音声音楽信号におけるa,b,…は,それぞれ短時間窓音声音楽特徴量を表している。まず,図4(A)のように,検索キー音声音楽信号中の短時間窓音声音楽特徴量の位置と,類似度が高い検索対象音声音楽信号中の短時間窓音声音楽特徴量の位置とを合わせる。図4(A)の例では,検索キー短時間窓音声音楽特徴量「4」と検索対象の短時間窓音声音楽特徴量「h」との類似度が高いので,その位置を合わせる。
【0053】
次に,図4(B)のように,検索対象音声音楽信号から,検索キー音声音楽信号と同じ長さの区間を正解候補音声音楽区間として切り出す。図4(B)の例では,検索対象音声音楽信号(「a」〜…)から,検索キー音声音楽信号(「0」〜「9」)と同じ長さの区間(「d」〜「m」)が正解候補音声音楽区間として切り出される。
【0054】
次に,図3のステップS420において,正解候補音声音楽区間のリストを入力し,そのリスト中の最上位にある正解候補音声音楽区間中の短時間窓音声音楽特徴量を読み込む。また,ステップS430において,ステップS420で読み込まれた正解候補音声音楽区間のリストの最上位の正解候補音声音楽区間をリストから削除する。
【0055】
続いて,ステップS440において,ステップS420で読み込まれた正解候補音声音楽区間の全体の短時間窓音声音楽特徴量を入力し,それと検索キー全体の短時間窓音声音楽特徴量との全体類似度を計算する。音声音楽情報比較統合部13は,この正解候補音声音楽区間と全体類似度の組を蓄積部17に出力し,蓄積部17はそれらを記憶部18に保持する。
【0056】
全体類似度の計算方法としては,例えば次のような方法を用いることができる。検索キー音声音楽信号中の短時間窓音声音楽特徴量を表す多次元ベクトルと,それに対応する正解候補音声音楽区間中の短時間窓音声音楽特徴量を表す多次元ベクトルとの間の距離を,対応する短時間窓音声音楽特徴量ごとに計算し,それらの距離のうち距離の近いものの上位何個かの和をとり,その和が小さいものほど全体類似度が高いものとする。
【0057】
すなわち,例えば検索キー音声音楽信号から短時間窓で切り出した音声音楽信号が300個である場合に,検索キーと正解候補音声音楽区間との間において,短時間窓音声音楽特徴量を表す多次元ベクトル間の距離を,対応する短時間窓音声音楽特徴量ごとに計算し,それらの距離のうち距離が近い値の上位100個だけの和を検索キーと正解候補音声音楽区間との距離とし,その距離が近いものほど全体類似度が高いものであると定義する。
【0058】
これにより,雑音が入っていない部分や雑音の影響が少ない部分だけを扱って全体類似度の計算ができるため,非定常な雑音の影響を低減した検索をすることができる。なお,距離の近い上位のもののうち,いくつの距離の和とするかは,あらかじめ設定しておくものとする。上位何個の和を全体類似度の距離として用いるかを,ユーザが設定できるようにするためのGUI(Graphical User Interface)を設ける実施も好適である。短時間窓音声音楽特徴量を表す多次元ベクトル間の距離が近いもののうちの和をとる個数を,雑音が多いときは少なく,雑音が少ないときは多くすることで,検索精度をさらに向上させることが可能である。
【0059】
図5に従って全体類似度の計算方法の具体例を説明する。図5の例では,まず,検索キーと正解候補音声音楽区間との部分類似度を計算し,部分類似度の距離が小さい上位6件(「3」,「4」,「5」,「7」,「9」,「10」)の和を,検索キーと正解候補音声音楽区間との全体類似度の距離としている。これによって,雑音の影響により部分類似度の距離が大きい部分(「1」,「2」,「6」,「8」)を除くことができ,非定常な雑音があっても類似する音声音楽信号を検索することができる。
【0060】
図3のステップS450において,正解候補音声音楽区間のリストを入力し,このリストがすでに空であれば,ステップS460に進む。空でなければステップS420に戻り,同様に処理を繰り返す。
【0061】
すべての正解候補音声音楽区間について,ステップS420〜S440の処理が終了し,正解候補音声音楽区間のリストが空になったならば,ステップS460では,ステップS440において記憶部18に保持されたすべての正解候補音声音楽区間とその全体類似度の組を蓄積部17から入力し,それらを全体類似度の高い順に並び替えてリストを作成する。
【0062】
これらのステップS410からステップS460までの処理を行うことで,図2のフローチャートの比較統合処理ステップS40は,類似検索処理ステップS30の類似検索の結果の部分類似度の高い短時間窓音声音楽特徴量のリストを入力し,全体類似度の高い順に並び替えられた正解候補音声音楽区間のリストを出力することができる。
【0063】
続いて,前後検索結果利用処理ステップS50に進む。図6は,本実施の形態における前後検索結果処理フローチャートである。本実施の形態1における前後検索結果利用部14による前後検索結果利用処理ステップS50は,図6のフローチャートを用いて詳細に説明する。
【0064】
ステップS510では,検索結果蓄積部15内に過去の検索結果のリストが蓄積されている場合には,ステップS520に進み,蓄積されていない場合には,ステップS580に進む。
【0065】
ステップS520では,過去の検索結果を利用して検索キーと全体類似度の高い音声音楽区間を推定する。検索結果蓄積部15に蓄積されているi回前の過去の検索結果のリストとi回前の過去の検索キーのそれぞれM個の短時間窓音声音楽特徴量を入力とし,図7のように,i回前の過去の検索結果リストの音声音楽区間の始点の時刻から検索キーの長さのi倍後の時刻を計算し,その時刻を始点とした音声音楽区間を全体類似度が高いと推定し,その音声音楽区間を切り出して今回の検索キーとの全体類似度を計算する。
【0066】
i−1,i−2,…,2,1回前の検索結果についても同様に音声音楽区間を推定し,全体類似度を計算する。これらの音声音楽区間を全体類似度の高い順にソートしたリストを過去の検索結果を利用した検索結果のリストとして出力することにより本ステップは実施可能である。
【0067】
ステップS530では,前記比較統合処理ステップS40で出力された検索結果のリストとステップS520で出力された過去の検索結果を利用した検索結果のリストを入力として,その二つのリストを統合して全体類似度の高い順にソートしたリストを今回の検索結果のリストとして出力することにより本ステップは実施可能である。
【0068】
ステップS540では,ステップS520で出力された過去の検索結果を利用した検索結果のリストとステップS530で出力された今回の検索結果のリストを入力とし,今回の検索結果のリストの最上位の音声音楽区間が過去の検索結果を利用した検索結果のリストに含まれる場合はステップS560に進み,含まれない場合はステップS550に進む。
【0069】
ステップS550では,今回の検索結果を利用して過去の検索結果を更新する。検索結果蓄積部15内の過去の検索結果のリストと過去の検索キーとステップS530で出力された今回の検索結果のリストを入力とし,図8のように,今回の検索結果のリストの音声音楽区間の始点から検索キーの長さのi倍前の時刻を計算し,この時刻を始点とする音声音楽区間を全体類似度が高いと推定し,その音声音楽区間を切り出してi回前の過去の検索キーとの全体類似度を計算する。この音声音楽区間を今回の検索結果を利用したi回前の検索結果とする。
【0070】
この検索結果の全体類似度とi回前の過去の検索結果のリストの最上位の全体類似度を比較して,今回の検索結果を利用したi回前の検索結果の方が全体類似度が高い場合には,i回前の過去の検索結果のリストの最上位に今回の検索結果を利用したi回前の検索結果を挿入し,i回前の過去の検索結果のリストを更新する。
【0071】
i−1,i−2,…,2,1回前の過去の検索結果についても同様にして,今回の検索結果を利用した検索結果の方が全体類似度が高い場合には,それぞれの過去の検索結果のリストの最上位に挿入して,過去の検索結果のリストを更新する。この更新された過去の検索結果のリストを検索結果蓄積部15に出力することで,本ステップは実施可能である。
【0072】
本実施の形態では,今回の検索結果を利用して過去の検索結果のリストを更新する際に,処理の高速化を考慮し,検索結果のリストの最上位との比較と検索結果のリストの最上位への挿入とを行っているが,全体類似度の高い順にソートする方法を用いて,今回の検索結果を過去の検索結果に反映する方法を用いてもよい。
【0073】
ステップS560では,検索結果蓄積部15内に保持されている過去の検索結果のリストの個数iと本装置において何回前までの過去の検索結果を利用するかを決定するパラメータjを入力とし,i=jとなる場合には,ステップS570に進み,i<jである場合には,ステップS580に進む。
【0074】
ステップS570では,検索結果蓄積部15内のj回前の過去の検索結果のリストを出力する。さらに,検索結果蓄積部15内からj回前の過去の検索結果のリストとj回前の過去の検索キーを破棄することで,本ステップは実施可能である。
【0075】
ステップS580では,ステップS530より出力される今回の検索結果のリスト,または検索結果蓄積部15に過去の検索結果のリストが蓄積されていなかった場合には前記比較統合処理ステップS40から出力される検索結果のリストと,前記特徴量抽出ステップS20で出力される今回の検索キーとを入力とし,それらを検索結果蓄積部15に出力して蓄積することにより本ステップは実施可能である。
【0076】
これにより,長時間の音声音楽信号中の突発的な非定常雑音を含む音楽が,検索キーの長さよりも長い時間使われている場合には,そこから逐次的に切り出される検索キーはその隣り合う検索キー同士が同一音楽でつながっており,従って検索したいそれぞれの音声音楽区間も同一の音楽でつながることになるため,前後の検索キーの検索結果を利用することで検索精度を向上できる。よって,検索キーから抽出される短時間窓音声音楽特徴量の一部だけしか使わなくても検索精度が維持でき,その結果,短時間窓音声音楽特徴量の類似検索回数が少なくなり検索時間の高速化が可能となる。
【0077】
その後,図2の表示出力処理ステップS60において,前記前後検索結果利用処理ステップS50から検索結果のリストが出力された場合には,そのリストを,ディスプレイ等の音声音楽表示出力装置21に出力し,マウス等のポインティングデバイスで選択されたリスト中の音声音楽区間の音声音楽信号を,スピーカー等の音声音楽表示出力装置21で出力する。
【0078】
検索キー終了判定の処理ステップS70では,検索キー音声音楽信号入力装置20から入力される音声音楽信号からもうこれ以上検索キーの長さの音声音楽信号を切り出せなくなった場合には,前後の検索結果利用型類似音楽検索装置10の動作を終了する。まだ検索キーの長さ以上の音声音楽信号が残っていて切り出せる場合には,ステップS10に戻る。
【0079】
〔実施の形態2〕
本実施の形態2では,前述した実施の形態1の検索時間をより高速化するため,類似検索する際に,短時間窓音声音楽特徴量をそのまま使わずに,時間順に並んだ複数個の短時間窓音声音楽特徴量の平均となる平均短時間窓音声音楽特徴量を使って類似検索を行う。平均短時間窓音声音楽特徴量は,それぞれの短時間窓音声音楽特徴量を表す多次元ベクトルの平均ベクトルにより表される。これにより類似検索の回数の削減と検索対象のデータ数が削減されるため,処理の高速化が図れる。
【0080】
本実施の形態2における前後の検索結果利用型類似音楽検索装置の構成例は,前述した実施の形態1と同様に,図1に示される構成例となる。また,本実施の形態2における前後の検索結果利用型類似音楽検索処理フローチャートは,前述した実施の形態1と同様に,図2に示されるフローチャートとなる。以下,本実施の形態2について,図2のフローチャートを用いて説明するが,前述した実施の形態1とは,類似検索処理ステップS30と比較統合処理ステップS40とが異なる。
【0081】
検索キー入力処理ステップS10,特徴量抽出処理ステップS20,前後検索結果利用処理ステップS50,表示出力処理ステップS60,検索キー終了判定の処理ステップS70については,前述した実施の形態1における処理と同様の処理であるので,説明を省略する。
【0082】
図9は,本実施の形態2における類似検索処理フローチャートである。本実施の形態2における類似検索処理ステップS30の処理を,図9のフローチャートを用いて詳細に説明する。
【0083】
類似検索処理のために,あらかじめ以下のステップS310〜S330による蓄積フェーズP2を実行する。ステップS310において,短時間窓音声音楽特徴量抽出部(蓄積フェーズ)16が,検索対象となる長時間の音声音楽信号を入力し,特徴量抽出処理ステップS20と同様にして短時間窓音声音楽特徴量を抽出し,蓄積部17が,抽出された短時間窓音声音楽特徴量を記憶部18に蓄積しておく。
【0084】
ステップS320において,検索対象音声音楽信号から抽出したすべての短時間窓音声音楽特徴量を入力し,それらの短時間窓音声音楽特徴量の時間順に並んだK個分ずつの平均をとって平均短時間窓音声音楽特徴量を作成する。例えば,K=6とした場合,時間順に並ぶ6個ずつの短時間窓音声音楽特徴量の平均をとったものを平均短時間窓音声音楽特徴量とする。
【0085】
ステップS330において,ステップS320で作成した平均短時間窓音声音楽特徴量を入力し,それらの平均短時間窓音声音楽特徴量から,前述した実施の形態1と同様に,多次元空間インデックスを構築しておく。
【0086】
検索フェーズP1では,ステップS340において,検索キーの短時間窓音声音楽特徴量の時間順に並んだK個分ずつの平均をとり,平均短時間窓音声音楽特徴量を作成する。例えば,K=6とした場合,時間順に並ぶ6個ずつの短時間窓音声音楽特徴量の平均をとったものを平均短時間窓音声音楽特徴量とする。
【0087】
例えば,検索キーから抽出される短時間窓音声音楽特徴量がM=300個とし,作成される平均短時間窓音声音楽特徴量をL個とすると,L=M/K=300/6=50個となる。
【0088】
ステップS350において,短時間窓音声音楽特徴量類似検索部12は,検索キーのL個の平均短時間窓音声音楽特徴量を入力し,そのL個の平均短時間窓音声音楽特徴量の中からP個選択し,そのP個の平均短時間窓音声音楽特徴量と類似するものを,蓄積されている検索対象の平均短時間窓音声音楽特徴量の中から検索し,検索キーの選択されたP個の平均短時間窓音声音楽特徴量ごとに,部分類似度の高い平均短時間窓音声音楽特徴量のリストを作成する。L個の平均短時間窓音声音楽特微量からP個選択する方法としては,例えば,L個の中からL/P個おきに選択する方法などを用いることができる。
【0089】
ここでの部分類似度は,平均短時間窓音声音楽特徴量を表す多次元ベクトル間の距離が近いほど高いものとする。この際に,ステップS330で構築した多次元空間インデックスを使用することで高速に検索することができる。
【0090】
また,例えば,K=6として短時間窓音声音楽特徴量の6個分の平均を平均短時間窓音声音楽特徴量とすると,前述した実施の形態1と比較して多次元インデックスを構成するデータ数は6分の1となり,さらに多次元インデックスを用いて行う検索回数も6分の1となることにより,検索の高速化が図られる。
【0091】
さらに,例えばL=50,P=5とすると,検索対象中の平均短時間窓音声音楽特徴量を検索する回数が10分の1となり,検索キーの全ての平均短時間窓音声音楽特微量を使う場合と比べて,10倍高速に検索できることになる。前記前後検索結果利用処理ステップS50により,このように検索に使用する平均短時間窓音声音楽特微量の数を減らしても,前後の検索キーによる検索結果を利用することで検索精度は維持できる。
【0092】
本実施の形態2における比較統合処理ステップS40については,図3に示すフローチャートのステップS410の処理(正解候補音声音楽区間のリストを作成する処理)だけが前述した実施の形態1と異なる。ステップS420からステップS460までについては,前述した実施の形態1と同様であるので説明を省略する。
【0093】
以下,本実施の形態2における平均短時間窓音声音楽特徴量のリストから正解候補音声音楽区間のリストを作成する方法の例を説明するが,平均短時間窓音声音楽特徴量のリストから正解候補音声音楽区間のリストを作成する方法は,以下の例に限られるものではない。
【0094】
図10は,本実施の形態2における正解候補音声音楽区間リスト作成処理フローチャートである。本実施の形態2における正解候補音声音楽区間のリストを作成する処理(前述した実施の形態1において,図3のステップS410に該当する処理)は,図10のフローチャートを用いて詳細に説明する。
【0095】
ステップS411において,本実施の形態2における類似検索処理ステップS30の結果である平均短時間窓音声音楽特徴量のリストを入力し,このリストの最上位の平均短時間窓音声音楽特徴量を読み込む。また,ステップS412において,ステップS411で読み込んだ平均短時間窓音声音楽特徴量のリストの最上位の平均短時間窓音声音楽特徴量をリストから削除する。
【0096】
ステップS413において,ステップS411で読み込んだ平均短時間窓音声音楽特徴量を入力し,この平均短時間窓音声音楽特徴量の平均をとった元であるK個の短時間窓音声音楽特徴量を,記憶部18から蓄積部17を介して読み込む。
【0097】
ステップS414において,平均をとった元のK個の短時間窓音声音楽特徴量ごとに,その平均をとった元の短時間窓音声音楽特徴量の位置が,検索キー中の対応する短時間窓音声音楽特徴量(例えば,平均をとった区間の中央の短時間窓音声音楽特徴量)と同じ位置になるように検索対象音声音楽信号の位置を合わせ,正解候補音声音楽区間を切り出す。切り出された正解候補音声音楽区間は合計でK個となる。
【0098】
ステップS415において,K個の正解候補音声音楽区間を入力し,それらK個の正解候補音声音楽区間を正解候補音声音楽区間のリストに記載する。
【0099】
ステップS416において,平均短時間窓音声音楽特徴量のリストを入力し,そのリストが空でなければS411に戻り,空になったならば正解候補音声音楽区間のリストを出力する。以上のステップS411〜S416の処理を,すべての平均短時間窓音声音楽特徴量のリストについて実行する。
【0100】
図11は,本実施の形態における類似度が高い平均短時間窓音声音楽特徴量から正解候補音声音楽区間を作成する例を説明する図である。図11の例では,短時間窓音声音楽特徴量の3個(K=3)の平均を平均短時間窓音声音楽特徴量としている。また,検索キーの対応する短時間窓音声音楽特徴量を,平均をとった区間の中央の短時間窓音声音楽特徴量としている。
【0101】
図中,「sX」(X=0,1,2,…)は検索キーにおける短時間窓音声音楽特徴量を表し,「Mean−sX」(X=0,1,2,…)は検索キーにおける平均短時間窓音声音楽特徴量を表す。また,「tX」(X=0,1,2,…)は検索対象における短時間窓音声音楽特徴量を表し,「Mean−tX」(X=0,1,2,…)は検索対象における平均短時間窓音声音楽特徴量を表す。
【0102】
図11(A)において,検索キー音声音楽信号の「Mean−s1」と検索対象音声音楽信号の「Mean−t3」との間の類似度が高いものとする。「Mean−s1」の元になっている短時間窓音声音楽特徴量は「s3」,「s4」,「s5」であり,「Mean−t3」の元になっている短時間窓音声音楽特徴量は「t9」,「t10」,「t11」である。検索キーの対応する短時間窓音声音楽特徴量を,平均をとった区間の中央の短時間窓音声音楽特徴量とすると,ここでは「s4」である。
【0103】
これをもとに正解候補音声音楽区間を切り出す場合,図11(B)に示すように,検索対象音声音楽信号の「t9」,「t10」,「t11」の位置を,それぞれ検索キー音声音楽信号の「s4」の位置に合わせて,「t9」,「t10」,「t11」ごとに検索キーの長さと同じ長さで音声音楽信号を切り出し,正解候補音声音楽区間を作成する。K=3であるので,「s4」の位置に「t9」を合わせたもの,「t10」を合わせたもの,「t11」を合わせたものの3つの正解候補音声音楽区間が作成される。
【0104】
以上の図10,図11によって,平均短時間窓音声音楽特徴量のリストから正解候補音声音楽区間を作成する方法の一例を示したが,これに限られるものではなく,例えば,検索キーの対応する短時間窓音声音楽特徴量を,平均をとった区間の中央の短時間窓音声音楽特徴量ではなく,他のものにすることも可能である。また,例えば図11の例において,作成する正解候補音声音楽区間の数は,K=3個に限らず,K+2=5個,K−1=1個のように任意の数を設定することも可能である。
【0105】
【発明の効果】
本発明は,検索キーとそれと同じ長さに切り出された検索対象の音声音楽信号との全体類似度を表す距離を,短時間窓音声音楽特徴量間の部分類似度を表す距離のうち距離の近い上位のものだけの和とすることによって,非定常な雑音の影響を低減した音声音楽信号の類似検索が可能になるという効果を有する(課題1,課題3の解決)。
【0106】
また,短時間窓音声音楽特徴量間の部分類似度の高いものを検索する際に多次元空間インデックスを用いることにより,高速な検索ができるという効果を有する(課題2の解決)。
【0107】
さらに,本発明では,長時間の音声音楽信号中の突発的な非定常雑音を含む音楽が,検索キーの長さよりも長い時間使われている場合には,そこから逐次的に切り出される検索キーはその隣り合う検索キー同士が同一音楽でつながっており,従って検索したいそれぞれの音声音楽区間も同一の音楽でつながることに着目し,前後の検索キーの検索結果から正解の音声音楽区間を推定する手段を用いることで,検索精度を向上させることができる。
【0108】
従って,検索に使用する短時間窓音声音楽特徴量(または平均短時間窓音声音楽特徴量)の個数を削減することで個々の検索キーごとの検索精度が低下してしまったとしても,全体としての検索精度を維持することができる。すなわち,検索に使用する短時間窓音声音楽特徴量(または平均短時間窓音声音楽特徴量)を削減しないで検索する場合と,削減して検索してこの手段を適用した場合の検索精度を同程度に維持することが可能となる。
【0109】
よって,本発明によれば,検索精度を低下させずに,検索に使用する短時間窓音声音楽特徴量を削減することができ,これにより短時間窓音声音楽特徴量(平均短時間窓音声音楽特徴量)の検索回数が少なくなり検索時間の高速化が可能となるという効果を有する。
【図面の簡単な説明】
【図1】本発明の実施の形態における前後の検索結果利用型類似音楽検索装置の構成例を示す図である。
【図2】本実施の形態における前後の検索結果利用型類似音楽検索処理フローチャートである。
【図3】本実施の形態における比較統合処理フローチャートである。
【図4】本実施の形態における検索対象からの正解候補音声音楽区間の切り出しを説明する図である。
【図5】本実施の形態における全体類似度の計算方法を説明する図である。
【図6】本実施の形態における前後検索結果処理フローチャートである。
【図7】過去の検索結果からの今回の検索キーと全体類似度が高いと推定される音声音楽期間の切り出しを説明する図である。
【図8】今回の検索結果からの過去の検索キーと全体類似度が高いと推定される音声音楽期間の切り出しを説明する図である。
【図9】本実施の形態における類似検索処理フローチャートである。
【図10】正解候補音声音楽区間リスト作成処理フローチャートである。
【図11】類似度が高い平均短時間窓音声音楽特徴量から正解候補音声音楽区間を作成する例を説明する図である。
【符号の説明】
P1 検索フェーズ
P2 蓄積フェーズ
10 前後の検索結果利用型類似音楽検索装置
11 短時間窓音声音楽特徴量抽出部(検索フェーズ)
12 短時間窓音声音楽特徴量類似検索部
13 音声音楽情報比較統合部
14 前後検索結果利用部
15 検索結果蓄積部
16 短時間窓音声音楽特徴量抽出部(蓄積フェーズ)
17 蓄積部
18 記憶部
20 検索キー音声音楽信号入力装置
21 音声音楽表示出力装置
22 検索対象音声音楽信号入力装置

Claims (8)

  1. 検索対象となる音声音楽信号から,検索キーとなる音声音楽信号と類似する音声音楽信号を検索す検索結果利用型類似音楽検索装置であって,
    検索キーとするための音声音楽信号を入力し,該音声音楽信号から所定の長さの検索キーを順次切り出す検索キー入力手段と,
    前記検索キーとなる音声音楽信号から短時間窓を用いて多次元ベクトルで表される短時間窓音声音楽特徴量を抽出する特徴量抽出手段と,
    前記抽出された短時間窓音声音楽特徴量から所定の規則により選択した一部だけを用いて,蓄積された検索対象の音声音楽信号の短時間窓音声音楽特徴量の中から,部分類似度の高い短時間窓音声音楽特徴量を検索する類似検索手段と,
    前記類似検索の結果により,前記検索キーとなる音声音楽信号中での短時間窓音声音楽特徴量の位置と,前記検索対象の音声音楽信号中での前記部分類似度が高い短時間窓音声音楽特徴量の位置とを合わせ,その位置をもとに,検索対象の音声音楽信号から検索キーに対応する音声音楽信号を切り出して正解候補音声音楽区間を作成し,前記検索キーとなる音声音楽信号中の短時間窓音声音楽特徴量を表す多次元ベクトルと,それに対応する前記正解候補音声音楽区間中の短時間窓音声音楽特徴量を表す多次元ベクトルとの間の距離を,対応する短時間窓音声音楽特徴量ごとに計算し,それらの距離のうち距離が近いものの上位何個かの和をとり,その和が小さいものほど全体類似度が高いとして,前記正解候補音声音楽区間と前記検索キーとの全体類似度を計算して,今回の検索キーに対する検索結果とする比較統合手段と,
    過去の検索キーの始点と前記今回の検索キーの始点との時間差をもとに,前記過去の検索キーに対する検索結果である音声音楽区間の始点から前記時間差だけ後の時刻を始点とする前記検索対象の音声音楽区間を切り出し,その音声音楽区間と前記今回の検索キーとの全体類似度を計算し,この結果と前記比較統合手段における検索結果を統合して全体類似度の高い順に並んだ音声音楽区間のリストを作成し,それを更新後の検索結果として前記今回の検索キーに対する検索結果を更新する前後検索結果利用手段と,
    前記前後検索結果利用手段から出力される検索結果に基づき,前記全体類似度の高い音声音楽区間を出力する出力手段とを備える
    ことを特徴とする検索結果利用型類似音楽検索装置。
  2. 請求項1に記載の検索結果利用型類似音楽検索装置において,
    前記前後検索結果利用手段は,
    さらに,前記更新された今回の検索キーに対する検索結果から過去の検索キーの始点と前記今回の検索キーの始点との時間差をもとに,前記今回の検索キーに対する検索結果である音声音楽区間の始点から前記時間差だけ前の時刻を始点とする前記検索対象の音声音楽区間を切り出し,その音声音楽区間と前記過去の検索キーとの全体類似度を計算し,この結果を過去の検索キーに対する検索結果のリストに挿入して過去の検索結果も更新し,さらに,今回の検索キーに対する検索結果のリストと今回の検索キーとを蓄積し,過去の検索結果のリストの個数が一定数以上蓄積された場合にその最も古い検索結果のリストを出力する
    ことを特徴とする検索結果利用型類似音楽検索装置。
  3. 請求項1または請求項2に記載の検索結果利用型類似音楽検索装置において,
    前記類似検索手段は,
    部分類似度の高い短時間窓音声音楽特徴量の検索において,短時間窓音声音楽特徴量の代わりに,時間順に並ぶK個(Kは2以上の任意の整数)ごとの短時間窓音声音楽特徴量の平均の値である平均短時間窓音声音楽特徴量を用いて,部分類似度の高い平均短時間窓音声音楽特徴量を検索し,
    前記比較統合手段は,
    前記正解候補音声音楽区間を作成する際に,前記短時間窓音声音楽特徴量の位置合わせに代えて,前記検索キーとなる音声音楽信号中での前記平均短時間窓音声音楽特徴量の算 出対象となった少なくとも一つの短時間窓音声音楽特徴量の位置と,前記検索対象の音声音楽信号中での前記部分類似度が高い平均短時間窓音声音楽特徴量の算出対象となった各短時間窓音声音楽特徴量の位置とを合わせる処理を行い,その位置をもとに,検索対象の音声音楽信号から検索キーに対応する音声音楽信号を切り出して正解候補音声音楽区間とする
    ことを特徴とする検索結果利用型類似音楽検索装置。
  4. 検索対象となる音声音楽信号から,検索キーとなる音声音楽信号と類似する音声音楽信号を検索する検索結果利用型類似音楽検索処理方法であって,
    検索キーとするための音声音楽信号を入力し,該音声音楽信号から所定の長さの検索キーを順次切り出す検索キー入力過程と,
    前記検索キーとなる音声音楽信号から短時間窓を用いて多次元ベクトルで表される短時間窓音声音楽特徴量を抽出する特徴量抽出過程と,
    前記抽出された短時間窓音声音楽特徴量から所定の規則により選択した一部だけを用いて,蓄積された検索対象の音声音楽信号の短時間窓音声音楽特徴量の中から,部分類似度の高い短時間窓音声音楽特徴量を検索する類似検索過程と,
    前記類似検索の結果により,前記検索キーとなる音声音楽信号中での短時間窓音声音楽特徴量の位置と,前記検索対象の音声音楽信号中での前記部分類似度が高い短時間窓音声音楽特徴量の位置とを合わせ,その位置をもとに,検索対象の音声音楽信号から検索キーに対応する音声音楽信号を切り出して正解候補音声音楽区間を作成し,前記検索キーとなる音声音楽信号中の短時間窓音声音楽特徴量を表す多次元ベクトルと,それに対応する前記正解候補音声音楽区間中の短時間窓音声音楽特徴量を表す多次元ベクトルとの間の距離を,対応する短時間窓音声音楽特徴量ごとに計算し,それらの距離のうち距離が近いものの上位何個かの和をとり,その和が小さいものほど全体類似度が高いとして,前記正解候補音声音楽区間と前記検索キーとの全体類似度を計算して,今回の検索キーに対する検索結果とする比較統合過程と,
    過去の検索キーの始点と前記今回の検索キーの始点との時間差をもとに,前記過去の検索キーに対する検索結果である音声音楽区間の始点から前記時間差だけ後の時刻を始点とする前記検索対象の音声音楽区間を切り出し,その音声音楽区間と前記今回の検索キーとの全体類似度を計算し,この結果と前記比較統合過程で求めた検索結果を統合して全体類似度の高い順に並んだ音声音楽区間のリストを作成し,それを更新後の検索結果として前記今回の検索キーに対する検索結果を更新する前後検索結果利用過程と,
    前記前後検索結果利用過程から出力される検索結果に基づき,前記全体類似度の高い音声音楽区間を出力する出力過程とを有する
    ことを特徴とする検索結果利用型類似音楽検索処理方法。
  5. 請求項4に記載の検索結果利用型類似音楽検索処理方法において,
    前記前後検索結果利用過程では,
    さらに,前記更新された今回の検索キーに対する検索結果から過去の検索キーの始点と前記今回の検索キーの始点との時間差をもとに,前記今回の検索キーに対する検索結果である音声音楽区間の始点から前記時間差だけ前の時刻を始点とする前記検索対象の音声音楽区間を切り出し,その音声音楽区間と前記過去の検索キーとの全体類似度を計算し,この結果を過去の検索キーに対する検索結果のリストに挿入して過去の検索結果も更新し,さらに,今回の検索キーに対する検索結果のリストと今回の検索キーとを蓄積し,過去の検索結果のリストの個数が一定数以上蓄積された場合にその最も古い検索結果のリストを出力する
    ことを特徴とする検索結果利用型類似音楽検索処理方法。
  6. 請求項4または請求項5に記載の検索結果利用型類似音楽検索処理方法において,
    前記類似検索過程では,
    部分類似度の高い短時間窓音声音楽特徴量の検索において,短時間窓音声音楽特徴量の代わりに,時間順に並ぶK個(Kは2以上の任意の整数)ごとの短時間窓音声音楽特徴量の平均の値である平均短時間窓音声音楽特徴量を用いて,部分類似度の高い平均短時間窓音声音楽特徴量を検索し,
    前記比較統合過程では,
    前記正解候補音声音楽区間を作成する際に,前記短時間窓音声音楽特徴量の位置合わせに代えて,前記検索キーとなる音声音楽信号中での前記平均短時間窓音声音楽特徴量の算出対象となった少なくとも一つの短時間窓音声音楽特徴量の位置と,前記検索対象の音声音楽信号中での前記部分類似度が高い平均短時間窓音声音楽特徴量の算出対象となった各短時間窓音声音楽特徴量の位置とを合わせる処理を行い,その位置をもとに,検索対象の音声音楽信号から検索キーに対応する音声音楽信号を切り出して正解候補音声音楽区間とする
    ことを特徴とする検索結果利用型類似音楽検索処理方法。
  7. 請求項から請求項までのいずれか1項に記載された検索結果利用型類似音楽検索処理方法をコンピュータに実行させるための検索結果利用型類似音楽検索プログラム。
  8. 請求項から請求項までのいずれか1項に記載された検索結果利用型類似音楽検索処理方法をコンピュータに実行させるための検索結果利用型類似音楽検索プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2003126208A 2003-05-01 2003-05-01 検索結果利用型類似音楽検索装置,検索結果利用型類似音楽検索処理方法,検索結果利用型類似音楽検索プログラムおよびそのプログラムの記録媒体 Expired - Fee Related JP4125990B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003126208A JP4125990B2 (ja) 2003-05-01 2003-05-01 検索結果利用型類似音楽検索装置,検索結果利用型類似音楽検索処理方法,検索結果利用型類似音楽検索プログラムおよびそのプログラムの記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003126208A JP4125990B2 (ja) 2003-05-01 2003-05-01 検索結果利用型類似音楽検索装置,検索結果利用型類似音楽検索処理方法,検索結果利用型類似音楽検索プログラムおよびそのプログラムの記録媒体

Publications (2)

Publication Number Publication Date
JP2004333605A JP2004333605A (ja) 2004-11-25
JP4125990B2 true JP4125990B2 (ja) 2008-07-30

Family

ID=33503208

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003126208A Expired - Fee Related JP4125990B2 (ja) 2003-05-01 2003-05-01 検索結果利用型類似音楽検索装置,検索結果利用型類似音楽検索処理方法,検索結果利用型類似音楽検索プログラムおよびそのプログラムの記録媒体

Country Status (1)

Country Link
JP (1) JP4125990B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112379857A (zh) * 2020-11-24 2021-02-19 惠州Tcl移动通信有限公司 音频数据处理方法、装置、存储介质及移动终端

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5213797B2 (ja) * 2009-06-03 2013-06-19 日本電信電話株式会社 メタデータ検索装置、メタデータ検索方法、メタデータ検索プログラム、及びメタデータ検索システム
JP5599363B2 (ja) * 2011-05-02 2014-10-01 株式会社Photonic System Solutions ハミング空間検索装置、ハミング空間検索方法、ハミング空間検索プログラムおよび記録媒体
CN105355214A (zh) 2011-08-19 2016-02-24 杜比实验室特许公司 测量相似度的方法和设备
JP6031475B2 (ja) * 2014-08-21 2016-11-24 株式会社Photonic System Solutions ハミング空間検索装置、ハミング空間検索方法、ハミング空間検索プログラムおよび記録媒体
US11461649B2 (en) * 2020-03-19 2022-10-04 Adobe Inc. Searching for music
CN118626671A (zh) * 2024-08-12 2024-09-10 南京财经大学 一种基于动态窗口word2vec模型的音乐推荐方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112379857A (zh) * 2020-11-24 2021-02-19 惠州Tcl移动通信有限公司 音频数据处理方法、装置、存储介质及移动终端
CN112379857B (zh) * 2020-11-24 2022-01-04 惠州Tcl移动通信有限公司 音频数据处理方法、装置、存储介质及移动终端

Also Published As

Publication number Publication date
JP2004333605A (ja) 2004-11-25

Similar Documents

Publication Publication Date Title
CN105723449B (zh) 言语内容分析系统和言语内容分析方法
JP3488174B2 (ja) 内容情報と話者情報を使用して音声情報を検索するための方法および装置
US7788279B2 (en) System and method for storing and retrieving non-text-based information
US6633845B1 (en) Music summarization system and method
KR100446627B1 (ko) 음성대화 인터페이스를 이용한 정보제공장치 및 그 방법
EP1244093B1 (en) Sound features extracting apparatus, sound data registering apparatus, sound data retrieving apparatus and methods and programs for implementing the same
US7590605B2 (en) Lattice matching
US20090234854A1 (en) Search system and search method for speech database
JP4873018B2 (ja) データ処理装置、データ処理方法、及び、プログラム
US20080270344A1 (en) Rich media content search engine
US20060206324A1 (en) Methods and apparatus relating to searching of spoken audio data
JP3467415B2 (ja) 音楽検索装置,音楽検索方法および音楽検索プログラムを記録した記録媒体
CN1682279A (zh) 利用语音识别访问和检索媒体文件的系统和方法
WO2006097299A1 (en) Method for classifying audio data
JP3999674B2 (ja) 類似音声音楽検索装置,類似音声音楽検索プログラムおよびそのプログラムの記録媒体
US8060368B2 (en) Speech recognition apparatus
EP1898320A1 (en) Musical composition searching device, musical composition searching method, and musical composition searching program
JP4125990B2 (ja) 検索結果利用型類似音楽検索装置,検索結果利用型類似音楽検索処理方法,検索結果利用型類似音楽検索プログラムおよびそのプログラムの記録媒体
EP1531405B1 (en) Information search apparatus, information search method, and information recording medium on which information search program is recorded
Pauwels et al. Confidence Measures and Their Applications in Music Labelling Systems Based on Hidden Markov Models.
EP1531457B1 (en) Apparatus and method for segmentation of audio data into meta patterns
Lu et al. Audio keywords discovery for text-like audio content analysis and retrieval
JP4125989B2 (ja) 類似音声音楽検索装置,類似音声音楽検索処理方法,類似音声音楽検索プログラムおよびそのプログラムの記録媒体
JP3798991B2 (ja) 音声信号検索方法,音声信号検索装置,そのプログラムおよびそのプログラムの記録媒体
JP2011248107A (ja) 音声認識結果検索方法とその装置とプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050715

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080104

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080212

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080310

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080310

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080507

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080509

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110516

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110516

Year of fee payment: 3

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D02

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120516

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130516

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees