JP2005267053A - 音声検索装置、音声検索サーバ、音声検索方法及び音声検索プログラム - Google Patents
音声検索装置、音声検索サーバ、音声検索方法及び音声検索プログラム Download PDFInfo
- Publication number
- JP2005267053A JP2005267053A JP2004076531A JP2004076531A JP2005267053A JP 2005267053 A JP2005267053 A JP 2005267053A JP 2004076531 A JP2004076531 A JP 2004076531A JP 2004076531 A JP2004076531 A JP 2004076531A JP 2005267053 A JP2005267053 A JP 2005267053A
- Authority
- JP
- Japan
- Prior art keywords
- voice search
- search
- voice
- keyword
- condition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】 ユーザが容易に検索条件を設定可能とした、音声検索装置、音声検索サーバ、音声検索方法及び音声検索プログラムを提供する。
【解決手段】 ユーザが、音声検索キーワード入力手段1により希望する検索キーワードを入力し、入力された検索キーワードを音素変換手段2が音素列に変換し、ユーザが音声検索パラメータ設定手段6により検索条件を1以上のパラメータで設定し、音声検索条件得失表8が有する設定されたパラメータと検索時に調整可能な検索条件との関係を考慮して、音声検索条件調整手段3により、実行する検索条件を調整し、調整された検索条件を基に、音声検索処理手段4により、入力された音声検索キーワードがマルチメディアデータベース7の有するデータの音声信号を変換した音素列のどこに該当するか判定し、その結果を音声検索結果出力手段5により出力する。
【選択図】 図1
【解決手段】 ユーザが、音声検索キーワード入力手段1により希望する検索キーワードを入力し、入力された検索キーワードを音素変換手段2が音素列に変換し、ユーザが音声検索パラメータ設定手段6により検索条件を1以上のパラメータで設定し、音声検索条件得失表8が有する設定されたパラメータと検索時に調整可能な検索条件との関係を考慮して、音声検索条件調整手段3により、実行する検索条件を調整し、調整された検索条件を基に、音声検索処理手段4により、入力された音声検索キーワードがマルチメディアデータベース7の有するデータの音声信号を変換した音素列のどこに該当するか判定し、その結果を音声検索結果出力手段5により出力する。
【選択図】 図1
Description
本発明は、ビデオデータやオーディオデータなどのような、データの一部に音声信号を含むマルチメディアデータを検索する音声検索装置、音声検索サーバ、音声検索方法及び音声検索プログラムに関する。
検索を行いたい文章音声の認識音素・音節系列と、検索単語または語句(以後、検索単語または語句をまとめていう場合、検索キーワードと称する)の音素・音節系列とからパタ−ンマッチングの手法を用いて文章音声中の単語または語句を検索することにより、手作業を加えることなく文章音声だけから単語または語句を検索可能とすることを目的とした、従来の音声検索装置の一例が、特許文献1に記載されている。
図10に示すように、この従来の音声検索装置は、検索を希望する単語、語句の音素、音節列を保管手段16に保管し、マッチング手段17で文章音声と検索すべき単語、語句のそれぞれの音素、音節列をマッチングさせ、マッチングの尤度を計算する。比較手段19で計算結果に基づき文章音声の音素、音節中で、尤度閾値保管手段18に設定してある尤度閾値を越える部分を抽出し、文章音声中で検索結果の音素、音節区間を検出する。
そして、音声デ−タ再生始端ポインタ20は、検索結果区間の音素、音節と音声デ−タ始端保管手段14の音声デ−タの始端位置から音声デ−タの位置を指し示し、電気信号/音声変換手段21により音声に変換し、出力する。これにより文章音声だけから単語、語句等の検索を実行するものである。
特公平7−69708号公報
第1の問題点は、ユーザが検索条件を自由かつ容易に設定することができないという点である。特許文献1の音声検索装置では、検索対象中のある箇所が、検索キーワードに合致するかどうか判定するための検索条件として、マッチング尤度閾値を設けている。
検索キーワードを音素又は音節列になおした文字列(音節も音素の1単位を変更したバリエーションとして同様に取り扱えるため以後、まとめて音素と記す)と、検索対象となる文章音声の認識音素/音節系列のある部分とが、マッチングの結果、この尤度閾値以上になる箇所を、検索にヒットした箇所として出力する。
よって、このマッチング尤度閾値は検索を行う前にあらかじめ適切に設定しておく必要があるが、どの程度の尤度閾値が適切かは、検索目的や検索対象、検索キーワードなどの性質によって異なり、事前に予測することは難しい。
検索キーワードを音素又は音節列になおした文字列(音節も音素の1単位を変更したバリエーションとして同様に取り扱えるため以後、まとめて音素と記す)と、検索対象となる文章音声の認識音素/音節系列のある部分とが、マッチングの結果、この尤度閾値以上になる箇所を、検索にヒットした箇所として出力する。
よって、このマッチング尤度閾値は検索を行う前にあらかじめ適切に設定しておく必要があるが、どの程度の尤度閾値が適切かは、検索目的や検索対象、検索キーワードなどの性質によって異なり、事前に予測することは難しい。
また、特許文献1の音声検索装置では、前述のようにマッチングの際に、マッチング尤度閾値というある幅をもって、検索にヒットする箇所かどうか判定しているが、それとは別に、検索キーワードが入力されたときに検索キーワードの音素列を展開・拡張してキーワード集合とし、そのキーワード集合のどれかと、検索対象の音素列とが一致したときに、その箇所を検索ヒットとする検索装置もある。
入力された検索キーワードの音素列をどのような音素列に展開・拡張するかは、あらかじめ定められた検索条件によって異なり、単なるマッチング尤度閾値よりは柔軟性をもつが、いずれにしてもこの検索条件をあらかじめ適切に設定しておく必要がある。更に、検索条件が柔軟に設定できる分だけ、ユーザが一度検索結果をみて、検索条件を再設定するための操作が複雑になってしまう。
入力された検索キーワードの音素列をどのような音素列に展開・拡張するかは、あらかじめ定められた検索条件によって異なり、単なるマッチング尤度閾値よりは柔軟性をもつが、いずれにしてもこの検索条件をあらかじめ適切に設定しておく必要がある。更に、検索条件が柔軟に設定できる分だけ、ユーザが一度検索結果をみて、検索条件を再設定するための操作が複雑になってしまう。
第2の問題点は、検索ヒットした箇所をテキスト形式で出力したとき、どこがヒット箇所かわかりにくいという点である。特許文献1の音声検索装置では、ヒットした箇所の音声データを電気信号/電気変換手段21を用いて音声に変換し、出力している。よって、このままでは検索結果を通常のテキスト検索のようにテキスト形式で出力できない。テキスト形式で出力するためには、音声を再生する代わりに、ヒットした対象を特定できる名前と、ヒット箇所の時間情報や位置情報、ヒットした箇所付近の音素列を出力することが考えられる。
例えば、検索キーワード「デパ地下」に対して、ニュース2002年1月17日放送分の5分8秒目:「カイモノガシヤスイ デンパチカ オ」がヒット箇所として出力されたとする。「カイモノ…」の部分が、ヒット箇所近辺の音素列である。
ここでは便宜上、音素列をカタカナで表記している。検索対象の音素列には、音素認識したときの誤りが含まれるが、検索キーワードの音素列を最初に展開・拡張してマッチングを行ったため、この例では検索キーワードの「デパ地下(デパチカ)」と「デンパチカ」とが正しく検索できたとする。
ここでは便宜上、音素列をカタカナで表記している。検索対象の音素列には、音素認識したときの誤りが含まれるが、検索キーワードの音素列を最初に展開・拡張してマッチングを行ったため、この例では検索キーワードの「デパ地下(デパチカ)」と「デンパチカ」とが正しく検索できたとする。
しかし、ユーザはこの音素列の出力をみてもどこがヒットした箇所かわかりにくい。音素列の代わりに、検索対象の文章を音声認識した結果のテキストを出力することも考えられるが、やはり音声認識にも誤りがあるため、必ずしもヒットした箇所のテキストに検索キーワードの表記文字列が含まれているとは限らない。
第3の問題点は、実際の検索結果が、ユーザが設定した、又は、あらかじめ設定されたデフォルトの検索条件に適うものとは限らないという点である。例えば、ユーザは30件程度の検索結果を期待してマッチング尤度閾値を設定したのに、実際の検索結果は100件以上であった、などのような事態が起こりうる。
本発明は、上記のような問題点に鑑み、ユーザが、あらかじめ設定された少なくとも1以上のパラメータを調整することで、容易に検索条件を設定可能とした、音声検索装置、音声検索サーバ、音声検索方法及び音声検索プログラムを提供することを目的とする。
また、音声検索結果をテキスト形式で出力したときに、ヒット箇所に検索キーワードも併せて表示することで、ユーザにわかりやすい出力を可能とした、音声検索装置、音声検索サーバ、音声検索方法及び音声検索プログラムを提供することを目的とする。
また、音声検索結果に応じて検索条件を再調整することで、設定された検索条件に適った検索結果を出力することを可能とした、音声検索装置、音声検索サーバ、音声検索方法及び音声検索プログラムを提供することを目的とする。
また、音声検索結果をテキスト形式で出力したときに、ヒット箇所に検索キーワードも併せて表示することで、ユーザにわかりやすい出力を可能とした、音声検索装置、音声検索サーバ、音声検索方法及び音声検索プログラムを提供することを目的とする。
また、音声検索結果に応じて検索条件を再調整することで、設定された検索条件に適った検索結果を出力することを可能とした、音声検索装置、音声検索サーバ、音声検索方法及び音声検索プログラムを提供することを目的とする。
請求項1記載の発明は、音声検索キーワードを入力するための音声検索キーワード入力手段と、少なくとも1以上の音声検索パラメータを設定する音声検索パラメータ設定手段と、前記設定された音声検索パラメータに基いて、音声検索実行時の検索条件を調整及び決定する音声検索条件調整手段と、前記音声検索条件調整手段により調整及び決定された検索条件に従って、音声検索キーワード入力手段により入力された音声検索キーワードに該当する個所を音声検索する音声検索処理手段とを備えている音声検索装置としたことを特徴とする。
請求項2記載の発明は、音声検索キーワードを入力するための音声検索キーワード入力手段と、少なくとも1以上の音声検索パラメータを設定する音声検索用パラメータ設定手段と、前記入力された音声検索キーワードを音素列に変換する音素変換手段と、前記設定された音声検索パラメータに基いて、音声検索実行時の検索条件を調整及び決定する音声検索条件調整手段と、前記音声検索条件調整手段により調整及び決定された検索条件に従って、検索対象の音素列から前記音声検索キーワードの音素列に該当する個所を検索する音声検索処理手段とを備えている音声検索装置としたことを特徴とする。
請求項3記載の発明は、音声検索キーワードを入力するための音声検索キーワード入力手段により入力された検索キーワードを音素列に変換する音素変換手段と、前記音声検索キーワード入力手段により入力された音声検索キーワードに該当する個所を音声検索する音声検索処理手段によって一度検索した結果に応じて、検索条件を調整する音声検索条件調整手段と、前記音声検索条件調整手段により調整された検索条件に従って、検索対象の音素列から検索キーワードの音素列に該当する個所を検索する音声検索処理手段とを備えている音声検索装置としたことを特徴とする。
請求項4記載の発明は、前記検索対象の音素列をマルチメディアデータから作成する請求項2又は3に記載の音声検索装置としたことを特徴とする。
請求項5記載の発明は、前記音声検索用パラメータ設定手段は、スライド・バーを備えている請求項1、2、4のいずれか1項に記載の音声検索装置としたことを特徴とする。
請求項6記載の発明は、前記音声検索条件調整手段が、前記音素列に変換された検索キーワードの性質に応じて実行する検索条件を調整するための、検索キーワードによる得失調整手段を備えている請求項2から5のいずれか1項に記載の音声検索装置としたことを特徴とする。
請求項7記載の発明は、前記音声検索処理手段による音声検索結果を基に、再検索が必要か否かを判定する音声検索結果判定手段を備えている請求項1から6のいずれか1項に記載の音声検索装置としたことを特徴とする。
請求項8記載の発明は、前記音声検索処理手段による音声検索結果として、音声検索にヒットした箇所の近傍の音素列、又は、音声認識テキストを出力する際に、検索キーワードの表記文字列が音声検索にヒットした箇所を示すように、検索キーワードの表記文字列を出力する音声検索結果出力手段を備えたことを特徴とする請求項2から7のいずれか1項に記載の音声検索装置としたことを特徴とする。
請求項9記載の発明は、設定された音声検索パラメータから音声検索実行時の検索条件を調整及び決定する音声検索条件調整手段と、前記調整及び決定された音声検索条件に従って音声検索対象となる音素列の中から、音声検索キーワードに該当する個所を検索する音声検索処理手段とを備えている音声検索サーバとしたことを特徴とする。
請求項10記載の発明は、音声検索キーワードを入力するための音声検索キーワード入力工程と、少なくとも1以上の音声検索パラメータを設定する音声検索パラメータ設定工程と、前記設定された音声検索パラメータに基いて、音声検索実行時の検索条件を調整及び決定する音声検索条件調整工程と、前記音声検索条件調整工程により調整及び決定された検索条件に従って、音声検索キーワード入力工程により入力された音声検索キーワードに該当する個所を音声検索する音声検索処理工程とを備えていることを特徴とする。
請求項11記載の発明は、音声検索キーワードを入力するための音声検索キーワード入力工程と、少なくとも1以上の音声検索パラメータを設定する音声検索パラメータ設定工程と、前記入力された音声検索キーワードを音素列に変換する音素変換工程と、前記設定された音声検索パラメータに基いて、音声検索実行時の検索条件を調整及び決定する音声検索条件調整工程と、前記音声検索条件調整工程により調整及び決定された検索条件に従って、検索対象の音素列から前記音声検索キーワードの音素列に該当する個所を検索する音声検索処理工程とを備えていることを特徴とする。
請求項12記載の発明は、音声検索キーワードを入力するための音声検索キーワード入力工程により入力された検索キーワードを音素列に変換する音素変換工程と、前記音声検索キーワード入力工程により入力された音声検索キーワードに該当する個所を音声検索する音声検索処理工程によって一度検索した結果に応じて、検索条件を調整する音声検索条件調整工程と、前記音声検索条件調整工程により調整された検索条件に従って、検索対象の音素列から検索キーワードの音素列に該当する個所を検索する音声検索処理工程とを備えていることを特徴とする。
請求項13記載の発明は、前記検索対象の音素列をマルチメディアデータから作成する請求項11又は12に記載の音声検索方法としたことを特徴とする。
請求項14記載の発明は、前記音声検索パラメータ設定工程は、ユーザがスライド・バーを用いて音声検索パラメータを設定する工程を備えている請求項10、11、13のいずれか1項に記載の音声検索方法としたことを特徴とする。
請求項15記載の発明は、前記音声検索条件調整工程が、前記音素列に変換された検索キーワードの性質に応じて実行する検索条件を調整するための、検索キーワードによる得失調整工程を備えている請求項11から14のいずれか1項に記載の音声検索方法としたことを特徴とする。
請求項16記載の発明は、前記音声検索処理工程による音声検索結果を基に、再検索が必要か否かを判定する音声検索結果判定工程を備えている請求項10から15のいずれか1項に記載の音声検索方法としたことを特徴とする。
請求項17記載の発明は、前記音声検索処理工程による音声検索結果として、音声検索にヒットした箇所の近傍の音素列、又は、音声認識テキストを出力する際に、検索キーワードの表記文字列が音声検索にヒットした箇所を示すように、検索キーワードの表記文字列を出力する音声検索結果出力工程を備えた請求項11から16のいずれか1項に記載の音声検索方法としたことを特徴とする。
請求項18記載の発明は、音声検索キーワードを入力するための音声検索キーワード入力処理と、少なくとも1以上の音声検索パラメータを設定する音声検索パラメータ設定処理と、前記設定された音声検索パラメータに基いて、音声検索実行時の検索条件を調整及び決定する音声検索条件調整処理と、前記音声検索条件調整処理により調整及び決定された検索条件に従って、音声検索キーワード入力処理により入力された音声検索キーワードに該当する個所を音声検索する音声検索処理とをコンピュータに実行させるための音声検索プログラムとしたことを特徴とする。
請求項19記載の発明は、音声検索キーワードを入力するための音声検索キーワード入力処理と、少なくとも1以上の音声検索パラメータを設定する音声検索パラメータ設定処理と、前記入力された音声検索キーワードを音素列に変換する音素変換処理と、前記設定された音声検索パラメータに基いて、音声検索実行時の検索条件を調整及び決定する音声検索条件調整処理と、前記音声検索条件調整処理により調整及び決定された検索条件に従って、検索対象の音素列から前記音声検索キーワードの音素列に該当する個所を検索する音声検索処理とをコンピュータに実行させるための音声検索プログラムとしたことを特徴とする。
請求項20記載の発明は、音声検索キーワードを入力するための音声検索キーワード入力処理により入力された検索キーワードを音素列に変換する音素変換処理と、前記音声検索キーワード入力手段により入力された音声検索キーワードに該当する個所を音声検索する音声検索処理によって一度検索した結果に応じて、検索条件を調整する音声検索条件調整処理と、前記音声検索条件調整処理により調整された検索条件に従って、検索対象の音素列から検索キーワードの音素列に該当する個所を検索する音声検索処理とをコンピュータに実行させるための音声検索プログラムとしたことを特徴とする。
請求項21記載の発明は、前記検索対象の音素列をマルチメディアデータから作成する処理を備えた請求項19又は20に記載の音声検索プログラムの処理をコンピュータに実行させるための音声検索プログラムとしたことを特徴とする。
請求項22記載の発明は、前記音声検索パラメータ設定処理は、ユーザのスライド・バー操作による音声検索パラメータの設定を含む請求項18、19、21のいずれか1項に記載の音声検索プログラムの処理をコンピュータに実行させるための音声検索プログラムとしたことを特徴とする。
請求項23記載の発明は、前記音声検索条件調整処理は、前記音素列に変換された検索キーワードの性質に応じて実行する検索条件を調整するための、検索キーワードによる得失調整処理を備えている請求項19から22のいずれか1項に記載の音声検索プログラムの処理をコンピュータに実行させるための音声検索プログラムとしたことを特徴とする。
請求項24記載の発明は、前記音声検索処理による音声検索結果を基に、再検索が必要か否かを判定する音声検索結果判定処理を備えている請求項18から23のいずれか1項に記載の音声検索プログラムの処理をコンピュータに実行させるための音声検索プログラムとしたことを特徴とする。
請求項25記載の発明は、前記音声検索処理による音声検索結果として、音声検索にヒットした箇所の近傍の音素列、又は、音声認識テキストを出力する際に、検索キーワードの表記文字列が音声検索にヒットした箇所を示すように、検索キーワードの表記文字列を出力する音声検索結果出力処理を備えた請求項19から24のいずれか1項に記載の音声検索プログラムの処理をコンピュータに実行させるための音声検索プログラムとしたことを特徴とする。
本発明によれば、第1の効果は、複雑な検索条件を設定しなくとも、少なくとも1以上の音声検索パラメータを調整することで目的に応じた音声検索結果を得ることができる。また、必要に応じて、一度音声検索した結果をみた後に、音声検索パラメータを再調整することも容易となる。
第2の効果は、音声検索にヒットした箇所付近の音素列や音声認識テキストを出力する際に、ヒットした箇所がどこの部分であるのか容易に見てとることができるというものである。
第2の効果は、音声検索にヒットした箇所付近の音素列や音声認識テキストを出力する際に、ヒットした箇所がどこの部分であるのか容易に見てとることができるというものである。
第3の効果は、ユーザが複雑な検索条件を設定したり、入力する検索キーワードの性質をユーザが考慮した上で検索条件を設定しなくとも、少なくとも1以上の音声検索パラメータを調整することで目的に応じた音声検索結果を精度よく得ることが可能となる。
第4の効果は、ユーザが一度音声検索結果を見た後で、人手で音声検索パラメータの値を修正するという作業を行わなくとも、ユーザの要求に適した音声検索結果を精度よく得ることが可能となる。
第4の効果は、ユーザが一度音声検索結果を見た後で、人手で音声検索パラメータの値を修正するという作業を行わなくとも、ユーザの要求に適した音声検索結果を精度よく得ることが可能となる。
本発明を実施するための最良の形態について図面を参照して以下に詳細に説明する。図1に示すように、本発明の第1の実施形態である音声検索装置は、ユーザが音声検索キーワードを入力する音声検索キーワード入力手段1、入力された音声検索キーワードを音素列に変換する音素変換手段2、ユーザが検索条件を少なくとも1以上のパラメータで設定可能な音声検索パラメータ設定手段6、音声検索時に実際に調整可能な検索条件とユーザが音声検索パラメータ設定手段6で設定したパラメータとの関係を保管する音声検索条件得失表8、ユーザが音声検索パラメータ設定手段6で入力したパラメータと音声検索条件得失表8に保管された調整可能な検索条件−パラメータ間の関係とから、実行する検索条件を調整する音声検索条件調整手段3、この音声検索条件調整手段3で定められた検索条件に従って音声検索を行う音声検索処理手段4、音声検索対象となるマルチメディアデータの音声信号を音素列に変換したものを保管するマルチメディアデータベース7、音声検索結果を出力する音声検索結果出力手段5とを備えている。
図1に示すような音声検索キーワード入力手段1は、ユーザが検索したいキーワードを入力する。音声検索キーワードは文字列で入力しても構わないし、音声データであってもよい。また、一度に複数の音声検索キーワードが入力されてもよい。
複数の音声検索キーワードが入力された際は、個々の音声検索結果をアンド演算で処理するのか、オア演算で処理するのか、近接演算として処理するのか、様々な手法が考えられるが、それは通常のテキスト検索と同様であり、ここでは詳しくは説明しない。
複数の音声検索キーワードが入力された際は、個々の音声検索結果をアンド演算で処理するのか、オア演算で処理するのか、近接演算として処理するのか、様々な手法が考えられるが、それは通常のテキスト検索と同様であり、ここでは詳しくは説明しない。
また、音素変換手段2は、音声検索キーワード入力手段1で入力された音声検索キーワードを、本実施形態を実施する際の目的や用途に応じた音素列表記に変換する。
音素列への変換手法は、音声検索キーワードの与えられかたによりいくつかの手法がある。音声検索キーワードが「法律改正」のように通常の表記法による文字列で与えられた場合には、辞書などを用いてその読みを推定し、得られた読みをあらかじめ定められた規則に従って、音素列に変換する。
音素列への変換手法は、音声検索キーワードの与えられかたによりいくつかの手法がある。音声検索キーワードが「法律改正」のように通常の表記法による文字列で与えられた場合には、辞書などを用いてその読みを推定し、得られた読みをあらかじめ定められた規則に従って、音素列に変換する。
音声検索キーワードが「法律改正(ホウリツカイセイ)」のように表記と表音文字によって、読み付きで与えられた場合には、その読み情報を用いて音素列に変換する。
また、「ホウリツカイセイ」のように表音文字だけで与えられた場合も、同様にその読み情報を用いて音素列に変換する。
なお、ここでは音声検索キーワードの読みを示す表音文字と、検索に用いている音素列とが異なる場合を想定しているが、それらが同じであった場合には、変換しなくてよい。例えば、英語の場合には、通常の表記文字であるアルファベットを、そのまま検索に用いる音素列表記として取り扱ってよい。
また、「ホウリツカイセイ」のように表音文字だけで与えられた場合も、同様にその読み情報を用いて音素列に変換する。
なお、ここでは音声検索キーワードの読みを示す表音文字と、検索に用いている音素列とが異なる場合を想定しているが、それらが同じであった場合には、変換しなくてよい。例えば、英語の場合には、通常の表記文字であるアルファベットを、そのまま検索に用いる音素列表記として取り扱ってよい。
音声検索キーワードが文字列でなく音声データとして与えられた場合には、一般の音素認識技術を用いて音素列に変換する。又は、いったん音声認識技術を用いて、音声検索キーワードの音声データをテキストに変換し、その後で音素列に直してもよい。音声検索パラメータ設定手段6は、ユーザが設定及び調整可能な少なくとも1以上の音声検索パラメータを、キーボードやマウス、スライドバーなどの一般的な設定手段を用いて設定するための装置である。各音声検索パラメータには、デフォルト値を用意し、ユーザがまだパラメータを入力していない場合には、あらかじめ定められたそれらのデフォルト値を用いることもできる。
音声検索パラメータの例としては「検索のヒット条件の厳しさ」、「検索結果数」、「検索速度」などがある。「検索のヒット条件の厳しさ」とは、ある音声検索キーワードに検索対象のある箇所がヒットすると判断する条件の厳しさを意味する。一般にこの条件を厳しくすると、音声検索結果として得られる件数が少なくなり、間違って音声検索キーワードに該当しない箇所をヒットしてしまうことも少なくなる。「検索結果数」とは、一度に出力する音声検索結果数ではなく、音声検索結果として得られる件数の目安を意味する。「検索速度」は音声検索に要する時間の逆数である。
どのような音声検索パラメータを用意するかは、本実施形態を実施する際の目的や用途により異なる。必要なら複数のパラメータを用いてもよいし、それらのパラメータは完全に独立でなくてもよい。
但し、パラメータを多くする程、ユーザが設定する手間は多くなる。また、音声検索パラメータの値は、「検索結果数:300件」のように単位を持つ絶対的な値であってもよいし、「検索速度:5(とても速い)」や「検索速度:2(遅い)」のように、相対的な値であってもよい。各パラメータが取りうる値の範囲も、本実施形態を実施する際の目的や用途、検索処理の都合などによって決定する。更に、少なくとも1以上の検索条件の組合せを、(使用する/しない)、のようなオン/オフの2値で設定するものであってもよい。
但し、パラメータを多くする程、ユーザが設定する手間は多くなる。また、音声検索パラメータの値は、「検索結果数:300件」のように単位を持つ絶対的な値であってもよいし、「検索速度:5(とても速い)」や「検索速度:2(遅い)」のように、相対的な値であってもよい。各パラメータが取りうる値の範囲も、本実施形態を実施する際の目的や用途、検索処理の都合などによって決定する。更に、少なくとも1以上の検索条件の組合せを、(使用する/しない)、のようなオン/オフの2値で設定するものであってもよい。
音声検索条件得失表8は、音声検索処理手段4で実際に音声検索が行われる際に用いられる検索条件と、ユーザが音声検索パラメータ設定手段6で設定した音声検索パラメータとの関係を定める表を保管する。
ここで、音声検索処理手段4で実際に音声検索が行われる際に用いられる検索条件とは、音声検索キーワードの音素列と検索対象の音素列のある部分とがヒットしたと判断するための個々の条件や閾値、音声検索キーワードの音素列を展開及び拡張しキーワード集合とする際の個々の展開及び拡張手法などである。
また、複数の音声検索キーワードが入力された際の、処理の種類(アンド演算なのか、オア演算なのか、近接演算なのか、近接ならば2つのキーワードが近接に出現したと判断するための閾値)なども、この検索条件に含まれる。
ここで、音声検索処理手段4で実際に音声検索が行われる際に用いられる検索条件とは、音声検索キーワードの音素列と検索対象の音素列のある部分とがヒットしたと判断するための個々の条件や閾値、音声検索キーワードの音素列を展開及び拡張しキーワード集合とする際の個々の展開及び拡張手法などである。
また、複数の音声検索キーワードが入力された際の、処理の種類(アンド演算なのか、オア演算なのか、近接演算なのか、近接ならば2つのキーワードが近接に出現したと判断するための閾値)なども、この検索条件に含まれる。
音声検索条件得失表8では、これらの各検索条件を音声検索に用いた場合に、音声検索パラメータに与える影響を音声検索パラメータの種類毎に保持する。例えば、音声検索キーワードの音素列を非常に多くの音素文字列に展開しキーワード集合として同一視してしまう検索条件を採用した場合、音声検索結果としてヒットする件数は増大し、検索に要する時間も増大する。
同じように音声検索キーワードの音素列を展開しキーワード集合とする場合でも、検索対象の音素列の尤度が一定値以下の箇所のみ適用する、のような限定をつけた検索条件では、音声検索結果のヒット件数はそれほど増大しないが、増えた条件判定の分、音声検索に要する時間は増大する。
各検索条件が、音声検索パラメータに与える得失の点数は、音声検索キーワードや検索対象の音素列の統計情報、本実施形態を実施した際の結果などから推定する。正確な推定が困難な場合や、正確な推定値が必要ない場合は、本実施形態を実施する際の目的や用途などに応じて、大まかな傾向にあった得失点を定めておくのでよい。
同じように音声検索キーワードの音素列を展開しキーワード集合とする場合でも、検索対象の音素列の尤度が一定値以下の箇所のみ適用する、のような限定をつけた検索条件では、音声検索結果のヒット件数はそれほど増大しないが、増えた条件判定の分、音声検索に要する時間は増大する。
各検索条件が、音声検索パラメータに与える得失の点数は、音声検索キーワードや検索対象の音素列の統計情報、本実施形態を実施した際の結果などから推定する。正確な推定が困難な場合や、正確な推定値が必要ない場合は、本実施形態を実施する際の目的や用途などに応じて、大まかな傾向にあった得失点を定めておくのでよい。
音声検索条件調整手段3では、音声検索パラメータ設定手段6でユーザが設定した音声検索パラメータの値に従って、音声検索条件得失表8で保管されている表から、実際に使用する検索条件を調整する。音声検索条件得失表8の値が、そのまま検索パラメータの増大分や減少分を示している場合には、その音声検索パラメータに対する採用した検索条件の得失の総和が、設定された音声検索パラメータの値に最も近くなるような検索条件の組合せを採用する。音声検索条件得失表8の値が、音声検索パラメータの直接の値を示しておらず、何らかの指数になっている場合には、まず指数をその音声検索パラメータの増減分に変換した後で、設定された音声検索パラメータの値に最も近くなるような検索条件の組合せを採用する。
例えば、ある検索条件を採用すると増大する音声検索結果件数の目安は、音声検索条件得失表8からその検索条件に対する音声検索結果の増大指数を求めて、それに検索対象の総文章量をかけたものになっていたとする。音声検索パラメータとして、検索結果数がユーザに与えられていた場合には、音声検索条件得失表8の指数から求めた音声検索結果の増大分の総和が、与えられた音声検索結果数に最も近づくような検索条件の組合せを採用する。また、ユーザが音声検索パラメータ設定手段6で設定した音声検索パラメータ(複数の場合はその組)を満たすような検索条件の組合せが一意に定まらない場合は、別途検索条件に優先度をつけておき、音声検索パラメータを満たす検索条件の組合せの中で、優先度の和が最も高くなるような組合せを採用する、といった曖昧性解消の機構を用意しておく。
音声検索パラメータが複数ある場合には、音声検索パラメータにも優先度をつけておき、優先度の高い音声検索パラメータの値により近づくような検索条件の組合せを採用する、という手法を用いてもよい。
なお、音声検索パラメータ設定手段6において、1以上の検索条件の組合せの使用する/しないをオン/オフの2値で直接指定されている場合には、まずそのオン/オフに従った後に、残りの検索条件を音声検索条件得失表8を用いて定める。
なお、音声検索パラメータ設定手段6において、1以上の検索条件の組合せの使用する/しないをオン/オフの2値で直接指定されている場合には、まずそのオン/オフに従った後に、残りの検索条件を音声検索条件得失表8を用いて定める。
マルチメディアデータベース7は、マルチメディアデータやオーディオデータなど、検索の対象となるコンテンツから作成した音素列を記録する。更に各音素列が、どのマルチメディアデータから作成されたのかを示すID情報も音素列に併せて記録する。必要ならば時間情報など、マルチメディアデータのIDを示すだけでなく、そのマルチメディアデータのどの部分から作成された音素列なのかを示す情報を併せて記録しておいてもよい。
なお、ここで用いる音素列と、音素変換手段2で検索キーワードから変換する音素列とは、同じ表記体系でなければならない。
なお、ここで用いる音素列と、音素変換手段2で検索キーワードから変換する音素列とは、同じ表記体系でなければならない。
音声検索処理手段4は、音声検索条件調整手段3で採用された検索条件に従って、音声検索キーワードの音素列が、マルチメディアデータベース7に記録された音素列のどこに該当するか判定し、ヒットした場合には、ヒットしたマルチメディアデータのID情報や、必要ならば時間情報などヒットした箇所を特定できる情報を出力する。
音声検索結果出力手段5は、音声検索処理手段4でヒットした結果を、本実施形態を実施する際の目的や用途に都合のいい形式で出力する。ヒットしたマルチメディアデータのヒットした箇所を直接再生してもよいし、通常のテキスト検索のように、ヒットしたマルチメディアデータのIDとヒットした箇所を特定できる時間情報などをリスト形式で出力してもよい。
音声検索結果出力手段5は、音声検索処理手段4でヒットした結果を、本実施形態を実施する際の目的や用途に都合のいい形式で出力する。ヒットしたマルチメディアデータのヒットした箇所を直接再生してもよいし、通常のテキスト検索のように、ヒットしたマルチメディアデータのIDとヒットした箇所を特定できる時間情報などをリスト形式で出力してもよい。
更に、ヒットした箇所付近の音素列を出力することもできるし、マルチメディアデータベース7にマルチメディアデータの音声信号を音声認識して作成された音声認識テキストが記録されている場合には、ヒットした箇所付近の音声認識テキストも出力することができる。このとき、ヒットした箇所付近の音素列には音声検索キーワードの表記は含まれていない。音声検索キーワードが発話された箇所であっても、その音素列は表音文字であるから、音声検索キーワードの通常の表記とは一般に異なってくるためである。
また、検索ヒットした箇所付近の音声認識テキストを出力する場合であっても、認識誤りのため、そこに必ずしも音声検索キーワードの表記が含まれているとは限らない。そこで音声検索キーワード入力手段1に音声検索キーワードの通常の表記も入力された場合には、検索ヒットした箇所に、そこの音素列や音声認識テキストにあわせて、音声検索キーワードを出力することにより、出力された音素列や音声認識テキスト中のどこが検索ヒットした箇所なのかを、ユーザにわかりやすく示す手がかりとすることができる。検索ヒットした付近の音素列や音声認識テキストを出力する際に、検索ヒットした箇所のみ音声検索キーワードの表記に置き換えて出力することも可能である。
なお、本実施形態では、音声検索キーワード入力手段1、音素変換手段2、音声検索条件調整手段3、音声検索処理手段4、音声検索結果出力手段5、音声検索パラメータ設定手段6、マルチメディアデータベース7、音声検索条件得失表8は、各部の機能を制御するプログラムとして、CD−ROMやフロッピー(登録商標)ディスクなどの機械読み取り可能な記録媒体や、インターネットなどのネットワークを通して提供され、計算機(コンピュータ)等に読み込まれて実行されるものとしても良い。
次に、本発明の第1の実施形態における音声検索装置の動作について、図2のフローチャートに沿って説明する。まず入力された音声検索キーワードを受理する(ステップA1)。次に音声検索キーワードを音素列に変換する(ステップA2)。一方、ユーザが設定した音声検索パラメータを受理する(ステップA3)。ここで図2では、ステップA3を便宜上ステップA2の次に記述したが、ステップA3の動作は、ステップA4の動作より以前ならばステップA1、A2とは独立に順不同で動作することができる。
次に、設定された音声検索パラメータと音声検索条件得失表8から実際に採用する検索条件を決定する(ステップA4)。次に、決定した検索条件に従って音声検索キーワードの音素列にヒットするマルチメディアデータの音声信号の音素列をマルチメディアデータベースから検索する(ステップA5)。最後に音声検索結果をあらかじめ定められた出力形式に従って出力する(ステップA6)ことで、本発明の第1の実施形態の音声検索装置における動作全体の終了となる。
次に、本発明の第1の実施形態の効果について説明する。本実施形態では、ユーザが設定した音声検索パラメータから、音声検索条件得失表8を参照することで、実際に音声検索を実行する際の検索条件を調整し検索を行う、というように構成されている。このため、ユーザは複雑な検索条件を設定しなくとも、少なくとも1以上の音声検索パラメータを調整することで目的に応じた音声検索結果を得ることができる。必要ならば、一度検索した結果をみた後で音声検索パラメータを再調整することも容易である。
また本実施形態では、音声検索結果出力手段5において音声検索にヒットした箇所付近の音素列や音声認識テキストを出力する場合に、必要に応じて検索ヒット箇所に音声検索キーワードの表記を出力するよう構成されている。このため、ユーザは検索ヒットした箇所付近で、ヒットした箇所がどこの部分であるのか容易に見てとることができる。
また本実施形態では、音声検索結果出力手段5において音声検索にヒットした箇所付近の音素列や音声認識テキストを出力する場合に、必要に応じて検索ヒット箇所に音声検索キーワードの表記を出力するよう構成されている。このため、ユーザは検索ヒットした箇所付近で、ヒットした箇所がどこの部分であるのか容易に見てとることができる。
次に、本発明を実施するための最良の形態における、第2の実施形態について図面を参照して詳細に説明する。図3は本発明の第2の実施形態における音声検索装置の構成を示すブロック図である。図3において、図1と同等部分は同一符号にて示している。図3を参照すると、本発明の第2の実施形態は、本発明の第1の実施形態における音声検索装置の構成に加えて、音声検索キーワードによる得失調整手段9を有する点で異なる。他の部分は、本発明の第1の実施形態と共通であるため、ここでは説明を省略し、追加の構成についてのみ述べる。
音声検索キーワードによる得失調整手段9では、音声検索キーワード入力手段1で入力された音声検索キーワードの性質に応じて、音声検索条件得失表8で保管されている音声検索条件得失表8の値を調整する。音声検索条件得失表8には、各音声検索パラメータに対する個々の検索条件の得失の点数が記録されているが、それらの値は一般的な音声検索キーワードが与えられたときの推定値であり、実際に入力された音声検索キーワードによっては得失の点数を調整した方が精度のよくなるものがあり得る。そこで入力された音声検索キーワードの性質を判定して、必要ならばその音声検索キーワードの検索条件を音声検索条件調整手段3で求めるための、音声検索条件得失表8の値を調整する。調整するのは、調整が必要だと判定された音声検索キーワードに対してのみであり、音声検索条件得失表8で保管された元の値を変更するわけではない。
判定に使用する音声検索キーワードの性質の例としては、音声検索キーワードの長さ、音声検索キーワードの音素数、音声検索キーワードに含まれている音素の統計情報、音声検索キーワードの統計情報などがある。実際にどのような得失得点の調整が必要になるかは、各検索条件、音声検索パラメータによって異なる。
なお、本実施形態では、音声検索キーワード入力手段1、音素変換手段2、音声検索条件調整手段3、音声検索処理手段4、音声検索結果出力手段5、音声検索パラメータ設定手段6、マルチメディアデータベース7、音声検索条件得失表8、音声検索キーワードによる得失調整手段9は、各部の機能を制御するプログラムとして、CD−ROMやフロッピー(登録商標)ディスクなどの機械読み取り可能な記録媒体や、インターネットなどのネットワークを通して提供され、計算機(コンピュータ)等に読み込まれて実行されるものとしても良い。
次に、本発明の第2の実施形態における音声検索装置の動作について、図4のフローチャートに沿って説明する。図4において、図2と同等の動作は同一符号にて示している。ステップA1、A2は、本発明の第1の実施形態における動作と同一である。
音声検索キーワードを受理すると、与えられた音声検索キーワードの性質を調べ音声検索条件得失表8の得点を調整する必要があるかどうか判定する(ステップB1)。調整が必要だと判定された場合は、その音声検索キーワードに対する音声検索条件得失表8の得点を調整する(ステップB2)。
音声検索キーワードを受理すると、与えられた音声検索キーワードの性質を調べ音声検索条件得失表8の得点を調整する必要があるかどうか判定する(ステップB1)。調整が必要だと判定された場合は、その音声検索キーワードに対する音声検索条件得失表8の得点を調整する(ステップB2)。
ステップA3〜A6も、本発明の第1の実施形態における音声検索装置の動作と同一である。図4では、ステップA3の動作を便宜上、ステップB1、B2よりも後に記しているが、ステップA3の動作は、ステップA4の動作より以前ならばステップA1、A2、B1、B2とは独立に順不同で動作することができる。このような手順で、ステップA6まで終了すると本発明の第2の実施形態の音声検索装置における動作全体の終了となる。
次に、本発明の第2の実施形態の効果について説明する。本発明の第2の実施形態では、音声検索条件得失表8を参照し、更に必要ならば音声検索キーワードの性質に応じて音声検索条件得失表8の値を調整し、そうして得られた精度のよい得失の得点をもとに、ユーザが設定した音声検索パラメータから実際に音声検索を実行する際の検索条件を調整して検索を行う、というような構成になっている。このため、ユーザは複雑な検索条件を設定したり、入力する音声検索キーワードの性質を自分で考慮した上で検索条件を設定しなくとも、少なくとも1以上の音声検索パラメータを調整することで目的に応じた音声検索結果を精度よく得ることができる。
次に、本発明を実施するための最良の形態における、第3の実施形態について図面を参照して詳細に説明する。図5は、本発明の第3の実施形態における音声検索装置の構成を示すブロック図である。図5において、図1と同等部分は同一符号にて示している。図5を参照すると、本発明の第3の実施形態は、本発明の第1の実施形態の構成に加えて、音声検索結果判定手段10を有する点で異なる。他の部分は、本発明の第1の実施形態と共通であるため、ここでは説明を省略し、追加の構成についてのみ述べる。
音声検索結果判定手段10では、音声検索処理手段4で実行された音声検索の結果を調べて、それが音声検索パラメータ設定手段6で設定された音声検索パラメータの示す要求に実際に合致しているか判定する。判定の結果、要求に合致しておらず、しかも再度音声検索を行うことで、要求と実際の音声検索結果との差が小さくなると推定される場合には、最初の音声検索パラメータが示す要求と、実際の音声検索結果との差が小さくなるよう、音声検索パラメータの値を調整する。そしてこの調整の後、音声検索条件調整手段3に処理を移す。
音声検索条件調整手段3では、新たな音声検索用パラメータの値に従って、使用する検索条件を選択し、音声検索処理手段4では、新たな検索条件に従って、再度音声検索を行う。すなわち、音声検索結果判定手段10が本発明の実施形態に加わることで、音声検索結果から検索条件にフィードバックがかかるようになる。このフィードバック・ループは複数回行ってもよいし、1回限りで終了するようにしてもよい。再検索を複数回行うことが考えられる場合には、最初に音声検索パラメータ設定手段6に設定された音声検索パラメータの値は別途記録しておき、再調整の結果によって、この値が失われないようにする。
更に、再検索のループが終了するよう、再検索の回数にあらかじめ制限を加えておいてもよい。あるいは、ループの終了条件として、前回の音声検索結果と、新たな音声検索結果との差が一致値以内ならば、再検索を行わないようにしておいてもよい。最初に設定された音声検索パラメータの値が示す要求と、実際の音声検索結果との差が、一定範囲以内ならば、再検索を行わないようにすることも可能である。
なお、音声検索パラメータを条件が厳しい方向に調整する場合には、実際に再検索を行わず、前回の音声検索結果の中から新しい検索条件を満たすもののみ抽出して、新しい検索結果とする手法も考えられる。実際に再検索を行う場合と、得られる結果は同じであるため、本実施形態を実施する際に都合のよい手法で実装すればよい。
なお、音声検索パラメータを条件が厳しい方向に調整する場合には、実際に再検索を行わず、前回の音声検索結果の中から新しい検索条件を満たすもののみ抽出して、新しい検索結果とする手法も考えられる。実際に再検索を行う場合と、得られる結果は同じであるため、本実施形態を実施する際に都合のよい手法で実装すればよい。
また、本発明の第1の実施形態における説明で記したように、音声検索パラメータ設定手段6で、設定される各音声検索パラメータにはデフォルト値を用意することができる。よって、ユーザがまだ音声検索パラメータを設定していない場合や、極端には音声検索パラメータ設定手段6が存在しない場合にも、このデフォルト値を最初に与えられた音声検索パラメータの値とすることで、本発明の第3の実施形態は機能する。
本発明の第3の実施形態では、音声検索キーワード入力手段1、音素変換手段2、音声検索条件調整手段3、音声検索処理手段4、音声検索結果出力手段5、音声検索パラメータ設定手段6、マルチメディアデータベース7、音声検索条件得失表8、音声検索結果判定手段10は、各部の機能を制御するプログラムとして、CD−ROMやフロッピー(登録商標)ディスクなどの機械読み取り可能な記録媒体や、インターネットなどのネットワークを通して提供され、計算機(コンピュータ)等に読み込まれて実行されるものとしても良い。
次に、本発明の第3の実施形態における音声検索装置の動作について、図6のフローチャートに沿って説明する。図6において、図2と同等の動作は同一符号にて示している。ステップA1〜A5は、本発明の第1の実施形態における動作と同一である。ステップA5で音声検索結果が得られると、その音声検索結果を調べて、再検索を行うか判定する。再検索を行う場合とは、音声検索結果が音声検索パラメータ設定手段6で入力された音声検索パラメータの示す要求に合致しておらず、再検索によって、要求と実際の音声検索結果との差が小さくなると推定される場合である。更に、再検索の回数制限など、ループの終了条件として再検索を行わない条件が設定されている場合には、その条件も確認する(ステップC1)。
再検索を行うと判定した場合には、音声検索パラメータの値を調整する(ステップC2)。どのパラメータをどれだけ調整するかは、音声検索パラメータの種類や、直前の音声検索結果、最初に設定された音声検索パラメータの値、再検索の回数などによって定まる。この調整値を求める関数は、本実施形態を実施する際の用途や目的などに応じてあらかじめ決定しておく。音声検索パラメータを調整した後は、ステップA4に戻る。ステップC1にて、再検索を行わないと判定した場合は、ステップA6に移る。ステップA6は、本発明の第1の実施形態における音声検索装置の動作と同一であり、これが終了することで、本発明の第3の実施形態の音声検索装置における動作全体の終了となる。
次に、本発明の第3の実施形態の効果について説明する。本発明の第3の実施形態では、音声検索結果に応じて自動的に音声検索パラメータの値を調整し、最初に設定された音声検索パラメータの要求により適した音声検索結果が出力されるような構成になっている。このため、ユーザが一度音声検索結果を見た後で、人手で音声検索パラメータの値を修正するという作業を行わなくとも、ユーザの要求に適した音声検索結果を精度よく得ることができる。
また、本発明の第1の実施形態、第2の実施形態、第3の実施形態において、音声検索に用いる文字列を音素列と記してきたが、これは音を表す文字列だけでなく、一般の文字列であっても構わない。また、文字単位でなく、単語単位など複数の文字をまとめて音声検索時に用いてもよい。音声検索パラメータ設定手段6で設定された音声検索パラメータ、又は、デフォルト値として設定された音声検索パラメータから、音声検索条件得失表8で保持されている得失表を参照して、音声検索条件調整手段3において実際に音声検索時に採用する検索条件を選択する構成は、検索に用いる音素列や文字列に依存しない。
本発明の第1の実施例を、図面を参照して説明する。かかる実施例は本発明の第1の実施形態に対応するものである。本実施例では、図1に示す音声検索キーワード入力手段1として、インターネットを通じて接続された遠隔地のコンピュータを想定する。この遠隔地のコンピュータからユーザが検索したい音声検索キーワードの表記と読みが「表記:デパ地下」「読み:デパチカ」のように入力される。
次に、図1に示す音声検索用音素変換手段2では、入力された音声検索キーワードの表記と読みをインターネットを通じて読み込み、その読みをもとに本実施例に都合の良い音素列に変換する。
また、音声検索パラメータ設定手段6として、同じく遠隔地のコンピュータに図7に示すような音声検索パラメータ設定画面が出力される。この例では、ユーザはマウスなどを用いて画面上の2つのスライドバーを自由に調整し、「検索結果数」と「検索速度」の2つの検索パラメータを設定する。
次に、図1に示す音声検索用音素変換手段2では、入力された音声検索キーワードの表記と読みをインターネットを通じて読み込み、その読みをもとに本実施例に都合の良い音素列に変換する。
また、音声検索パラメータ設定手段6として、同じく遠隔地のコンピュータに図7に示すような音声検索パラメータ設定画面が出力される。この例では、ユーザはマウスなどを用いて画面上の2つのスライドバーを自由に調整し、「検索結果数」と「検索速度」の2つの検索パラメータを設定する。
次に、音声検索条件得失表8として、図8のような表が用意されているとする。この表では、各検索条件を上から順に優先順位の高い順番で記録している。また、各検索条件を採用したときに、音声検索結果の数がどれだけ増大するかの目安と、音声検索時間がどれだけ増大するかの目安とが、それぞれ増大指数として与えられている。
この例では、音声検索結果の増大指数は、検索対象1万件に対する音声検索結果の増大数であるとする。この例では、検索対象としてマルチメディアデータベース7に1万件分の音声検索対象データが保管されているとするので、この値がそのまま音声検索結果の増大数になる。また音声検索時間の増大指数は、どれだけ音声検索時間が増大するかを示す相対的な値であるとする。
この例では、音声検索結果の増大指数は、検索対象1万件に対する音声検索結果の増大数であるとする。この例では、検索対象としてマルチメディアデータベース7に1万件分の音声検索対象データが保管されているとするので、この値がそのまま音声検索結果の増大数になる。また音声検索時間の増大指数は、どれだけ音声検索時間が増大するかを示す相対的な値であるとする。
次に、図1に示すように、音声検索条件調整手段3では、音声検索パラメータ設定手段6でユーザが設定した2つの音声検索パラメータの値をインターネットを通じて読み込み、それに従って、図8の音声検索条件得失表から実際に使用する音声検索条件を調整する。また、音声検索処理手段4では、採用された音声検索条件に従い、マルチメディアデータベース7に保管された1万件の音声検索対象から、条件を満たすデータを検索し、ヒットしたデータを特定できるIDと、さらにヒットした箇所を特定できる時間情報(そのデータの先頭から何秒目にヒットしたか)を出力する。
最後に、音声検索結果出力手段5では、音声検索キーワードが入力された遠隔地のコンピュータに音声検索結果と時間情報を、図9に示すような一覧形式で出力する。音声検索結果では、音声検索処理手段4で出力された、ヒットしたデータを特定できるIDからユーザに都合の良いファイル名などに変換している。また、この例ではマルチメディアデータベース7に音声検索対象の音声信号を音声認識した音声認識テキストと、各音声認識テキストの時間情報があわせて保管されているとする。それを用いて、ヒットした箇所周辺の音声認識結果も併せて出力している。
例えば、ヒットした箇所が先頭から5分8秒目であるのならば、5分8秒目付近で音声認識されたテキストを出力する。その際、まさしく5分8秒目近辺で認識されたテキストにあわせて、音声検索キーワード入力手段1で入力された音声検索キーワードの表記も挿入する。図9の例では、ヒット箇所の音声認識テキストは「電波地下」となっていたが、これに検索キーワードの表記を括弧付きで併記することで、ユーザはすぐにどこが検索キーワード「デパ地下」のヒット箇所であるか見て取ることができる。
本発明の第2の実施例を、図面を参照して説明する。かかる実施例は本発明の第1の実施形態に対応するものである。第2の実施例では、第1の実施例と同様だが、図8の音声検索条件得失表を参照して、音声検索条件調整手段3で採用する音声検索条件が定められる前に、音声検索キーワードによる音声得失調整手段9で得失表の値に補正がかかる。
本実施例では、入力された音声検索キーワードの読みが4文字以下のとき、図8の得失表にある、各条件に対する2つの増大指数を(6−読みの文字数)倍するような補正を行うとする。音声検索キーワード「表記:デパ地下」「読み:デパチカ」の読みは4文字なので、図8の各増大指数が(6−4)=2倍になる。よって、第1の実施例の時に比べて、音声検索条件調整手段3で採用される音声検索条件が少なくなる。あとの動作は、第1の実施例と同様である。
本実施例では、入力された音声検索キーワードの読みが4文字以下のとき、図8の得失表にある、各条件に対する2つの増大指数を(6−読みの文字数)倍するような補正を行うとする。音声検索キーワード「表記:デパ地下」「読み:デパチカ」の読みは4文字なので、図8の各増大指数が(6−4)=2倍になる。よって、第1の実施例の時に比べて、音声検索条件調整手段3で採用される音声検索条件が少なくなる。あとの動作は、第1の実施例と同様である。
本発明の第3の実施例を、図面を参照して説明する。かかる実施例は本発明の第3の実施形態に対応するものである。第3の実施例では、第1の実施例と同様だが、一度音声検索を行った結果を音声検索結果判定手段10で判定し、可能ならば最初に設定された音声検索パラメータの要求にあうよう音声検索パラメータを再調整する。本実施例では、図7に示すような音声検索パラメータ設定画面で設定された音声検索結果数が、240件であったのに、実際の音声検索結果が412件であったとする。また、音声検索速度に対する要求には、まだ余裕があり、再検索を行ってもユーザの音声検索速度に対する要求は満たすことができるものとする。よって、再検索により音声検索結果数が少なくなるよう音声検索パラメータ「検索結果数」を減少させ、音声検索結果調整手段3での処理から再度音声検索処理を実行する。この結果、採用される検索条件が少なくなり、最初に設定された音声検索パラメータ「検索結果数:240件」により近い音声検索結果数が得られる。あとの動作は、第1の実施例と同様である。
1 音声検索キーワード入力手段
2 音素変換手段
3 音声検索条件調整手段
4 音声検索処理手段
5 音声検索結果出力手段
6 音声検索パラメータ設定手段
7 マルチメディアデータベース
8 音声検索条件得失表
9 音声検索キーワードによる得失調整手段
10 音声検索結果判定手段
11 音声/電気信号変換手段
12 音声データ保管手段
13 音素又は音節認識手段
14 音声データ始端保管手段
15 音素又は音節系列保管手段
16 検索単語・語句の音素列又は音節列保管手段
17 マッチング手段
18 尤度閾値保管手段
19 比較手段
20 音声データ再生始端ポインタ
21 電気信号/音声変換手段
2 音素変換手段
3 音声検索条件調整手段
4 音声検索処理手段
5 音声検索結果出力手段
6 音声検索パラメータ設定手段
7 マルチメディアデータベース
8 音声検索条件得失表
9 音声検索キーワードによる得失調整手段
10 音声検索結果判定手段
11 音声/電気信号変換手段
12 音声データ保管手段
13 音素又は音節認識手段
14 音声データ始端保管手段
15 音素又は音節系列保管手段
16 検索単語・語句の音素列又は音節列保管手段
17 マッチング手段
18 尤度閾値保管手段
19 比較手段
20 音声データ再生始端ポインタ
21 電気信号/音声変換手段
Claims (25)
- 音声検索キーワードを入力するための音声検索キーワード入力手段と、
少なくとも1以上の音声検索パラメータを設定する音声検索パラメータ設定手段と、
前記設定された音声検索パラメータに基いて、音声検索実行時の検索条件を調整及び決定する音声検索条件調整手段と、
前記音声検索条件調整手段により調整及び決定された検索条件に従って、音声検索キーワード入力手段により入力された音声検索キーワードに該当する個所を音声検索する音声検索処理手段と、
を備えていることを特徴とする音声検索装置。 - 音声検索キーワードを入力するための音声検索キーワード入力手段と、
少なくとも1以上の音声検索パラメータを設定する音声検索パラメータ設定手段と、
前記入力された音声検索キーワードを音素列に変換する音素変換手段と、
前記設定された音声検索パラメータに基いて、音声検索実行時の検索条件を調整及び決定する音声検索条件調整手段と、
前記音声検索条件調整手段により調整及び決定された検索条件に従って、検索対象の音素列から前記音声検索キーワードの音素列に該当する個所を検索する音声検索処理手段と、
を備えていることを特徴とする音声検索装置。 - 音声検索キーワードを入力するための音声検索キーワード入力手段により入力された検索キーワードを音素列に変換する音素変換手段と、
前記音声検索キーワード入力手段により入力された音声検索キーワードに該当する個所を音声検索する音声検索処理手段によって一度検索した結果に応じて、検索条件を調整する音声検索条件調整手段と、
前記音声検索条件調整手段により調整された検索条件に従って、検索対象の音素列から検索キーワードの音素列に該当する個所を検索する音声検索処理手段と、
を備えていることを特徴とする音声検索装置。 - 前記検索対象の音素列をマルチメディアデータから作成することを特徴とする請求項2又は3に記載の音声検索装置。
- 前記音声検索パラメータ設定手段は、スライド・バーを備えていることを特徴とする請求項1、2、4のいずれか1項に記載の音声検索装置。
- 前記音声検索条件調整手段が、前記音素列に変換された検索キーワードの性質に応じて実行する検索条件を調整するための、検索キーワードによる得失調整手段を備えていることを特徴とする請求項2から5のいずれか1項に記載の音声検索装置。
- 前記音声検索処理手段による音声検索結果を基に、再検索が必要か否かを判定する音声検索結果判定手段を備えていることを特徴とする請求項1から6のいずれか1項に記載の音声検索装置。
- 前記音声検索処理手段による音声検索結果として、音声検索にヒットした箇所の近傍の音素列、又は、音声認識テキストを出力する際に、検索キーワードの表記文字列が音声検索にヒットした箇所を示すように、検索キーワードの表記文字列を出力する音声検索結果出力手段を備えたことを特徴とする請求項2から7のいずれか1項に記載の音声検索装置。
- 設定された音声検索パラメータから音声検索実行時の検索条件を調整及び決定する音声検索条件調整手段と、
前記調整及び決定された音声検索条件に従って音声検索対象となる音素列の中から、音声検索キーワードに該当する個所を検索する音声検索処理手段とを備えていること、
を特徴とする音声検索サーバ。 - 音声検索キーワードを入力するための音声検索キーワード入力工程と、
少なくとも1以上の音声検索パラメータを設定する音声検索パラメータ設定工程と、
前記設定された音声検索パラメータに基いて、音声検索実行時の検索条件を調整及び決定する音声検索条件調整工程と、
前記音声検索条件調整工程により調整及び決定された検索条件に従って、音声検索キーワード入力工程により入力された音声検索キーワードに該当する個所を音声検索する音声検索処理工程と、
を備えていることを特徴とする音声検索方法。 - 音声検索キーワードを入力するための音声検索キーワード入力工程と、
少なくとも1以上の音声検索パラメータを設定する音声検索パラメータ設定工程と、
前記入力された音声検索キーワードを音素列に変換する音素変換工程と、
前記設定された音声検索パラメータに基いて、音声検索実行時の検索条件を調整及び決定する音声検索条件調整工程と、
前記音声検索条件調整工程により調整及び決定された検索条件に従って、検索対象の音素列から前記音声検索キーワードの音素列に該当する個所を検索する音声検索処理工程と、
を備えていることを特徴とする音声検索方法。 - 音声検索キーワードを入力するための音声検索キーワード入力工程により入力された検索キーワードを音素列に変換する音素変換工程と、
前記音声検索キーワード入力手段により入力された音声検索キーワードに該当する個所を音声検索する音声検索処理工程によって一度検索した結果に応じて、検索条件を調整する音声検索条件調整工程と、
前記音声検索条件調整工程により調整された検索条件に従って、検索対象の音素列から検索キーワードの音素列に該当する個所を検索する音声検索処理工程と、
を備えていることを特徴とする音声検索方法。 - 前記検索対象の音素列をマルチメディアデータから作成することを特徴とする請求項11又は12に記載の音声検索方法。
- 前記音声検索パラメータ設定工程は、ユーザがスライド・バーを用いて音声検索パラメータを設定する工程を備えていることを特徴とする請求項10、11、13のいずれか1項に記載の音声検索方法。
- 前記音声検索条件調整工程が、前記音素列に変換された検索キーワードの性質に応じて実行する検索条件を調整するための、検索キーワードによる得失調整工程を備えていることを特徴とする請求項11から14のいずれか1項に記載の音声検索方法。
- 前記音声検索処理工程による音声検索結果を基に、再検索が必要か否かを判定する音声検索結果判定工程を備えていることを特徴とする請求項10から15のいずれか1項に記載の音声検索方法。
- 前記音声検索処理工程による音声検索結果として、音声検索にヒットした箇所の近傍の音素列、又は、音声認識テキストを出力する際に、検索キーワードの表記文字列が音声検索にヒットした箇所を示すように、検索キーワードの表記文字列を出力する音声検索結果出力工程を備えたことを特徴とする請求項11から16のいずれか1項に記載の音声検索方法。
- 音声検索キーワードを入力するための音声検索キーワード入力処理と、
少なくとも1以上の音声検索パラメータを設定する音声検索パラメータ設定処理と、
前記設定された音声検索パラメータに基いて、音声検索実行時の検索条件を調整及び決定する音声検索条件調整処理と、
前記音声検索条件調整処理により調整及び決定された検索条件に従って、音声検索キーワード入力処理により入力された音声検索キーワードに該当する個所を音声検索する音声検索処理と、
をコンピュータに実行させることを特徴とする音声検索プログラム。 - 音声検索キーワードを入力するための音声検索キーワード入力処理と、
少なくとも1以上の音声検索パラメータを設定する音声検索パラメータ設定処理と、
前記入力された音声検索キーワードを音素列に変換する音素変換処理と、
前記設定された音声検索パラメータに基いて、音声検索実行時の検索条件を調整及び決定する音声検索条件調整処理と、
前記音声検索条件調整処理により調整及び決定された検索条件に従って、検索対象の音素列から前記音声検索キーワードの音素列に該当する個所を検索する音声検索処理と、
をコンピュータに実行させることを特徴とする音声検索プログラム。 - 音声検索キーワードを入力するための音声検索キーワード入力処理により入力された検索キーワードを音素列に変換する音素変換処理と、
前記音声検索キーワード入力手段により入力された音声検索キーワードに該当する個所を音声検索する音声検索処理によって一度検索した結果に応じて、検索条件を調整する音声検索条件調整処理と、
前記音声検索条件調整処理により調整された検索条件に従って、検索対象の音素列から検索キーワードの音素列に該当する個所を検索する音声検索処理と、
をコンピュータに実行させることを特徴とする音声検索プログラム。 - 前記検索対象の音素列をマルチメディアデータから作成する処理を備えた請求項19又は20に記載の音声検索プログラムの処理をコンピュータに実行させることを特徴とする音声検索プログラム。
- 前記音声検索パラメータ設定処理は、ユーザのスライド・バー操作による音声検索パラメータの設定を含む請求項18、19、21のいずれか1項に記載の音声検索プログラムの処理をコンピュータに実行させることを特徴とする音声検索プログラム。
- 前記音声検索条件調整処理は、前記音素列に変換された検索キーワードの性質に応じて実行する検索条件を調整するための、検索キーワードによる得失調整処理を備えている請求項19から22のいずれか1項に記載の音声検索プログラムの処理をコンピュータに実行させることを特徴とする音声検索プログラム。
- 前記音声検索処理による音声検索結果を基に、再検索が必要か否かを判定する音声検索結果判定処理を備えている請求項18から23のいずれか1項に記載の音声検索プログラムの処理をコンピュータに実行させることを特徴とする音声検索プログラム。
- 前記音声検索処理による音声検索結果として、音声検索にヒットした箇所の近傍の音素列、又は、音声認識テキストを出力する際に、検索キーワードの表記文字列が音声検索にヒットした箇所を示すように、検索キーワードの表記文字列を出力する音声検索結果出力処理を備えた請求項19から24のいずれか1項に記載の音声検索プログラムの処理をコンピュータに実行させることを特徴とする音声検索プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004076531A JP2005267053A (ja) | 2004-03-17 | 2004-03-17 | 音声検索装置、音声検索サーバ、音声検索方法及び音声検索プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004076531A JP2005267053A (ja) | 2004-03-17 | 2004-03-17 | 音声検索装置、音声検索サーバ、音声検索方法及び音声検索プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005267053A true JP2005267053A (ja) | 2005-09-29 |
Family
ID=35091561
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004076531A Withdrawn JP2005267053A (ja) | 2004-03-17 | 2004-03-17 | 音声検索装置、音声検索サーバ、音声検索方法及び音声検索プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005267053A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008032825A (ja) * | 2006-07-26 | 2008-02-14 | Fujitsu Fsas Inc | 発言者表示システム、発言者表示方法および発言者表示プログラム |
JP2010511243A (ja) * | 2006-11-30 | 2010-04-08 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | ファイルのコンテンツ識別子を比較するシステム |
CN102054019A (zh) * | 2009-10-29 | 2011-05-11 | 索尼公司 | 信息处理装置、场景搜索方法和程序 |
JP2017021196A (ja) * | 2015-07-10 | 2017-01-26 | カシオ計算機株式会社 | 音声検索装置、音声検索方法及びプログラム |
CN110020101A (zh) * | 2017-08-25 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 实时搜索场景的还原方法、装置和系统 |
-
2004
- 2004-03-17 JP JP2004076531A patent/JP2005267053A/ja not_active Withdrawn
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008032825A (ja) * | 2006-07-26 | 2008-02-14 | Fujitsu Fsas Inc | 発言者表示システム、発言者表示方法および発言者表示プログラム |
JP2010511243A (ja) * | 2006-11-30 | 2010-04-08 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | ファイルのコンテンツ識別子を比較するシステム |
CN102054019A (zh) * | 2009-10-29 | 2011-05-11 | 索尼公司 | 信息处理装置、场景搜索方法和程序 |
JP2011095958A (ja) * | 2009-10-29 | 2011-05-12 | Sony Corp | 情報処理装置、シーン検索方法及びプログラム |
JP2017021196A (ja) * | 2015-07-10 | 2017-01-26 | カシオ計算機株式会社 | 音声検索装置、音声検索方法及びプログラム |
CN110020101A (zh) * | 2017-08-25 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 实时搜索场景的还原方法、装置和系统 |
CN110020101B (zh) * | 2017-08-25 | 2023-09-12 | 淘宝(中国)软件有限公司 | 实时搜索场景的还原方法、装置和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10037758B2 (en) | Device and method for understanding user intent | |
US8712776B2 (en) | Systems and methods for selective text to speech synthesis | |
US8352272B2 (en) | Systems and methods for text to speech synthesis | |
US8355919B2 (en) | Systems and methods for text normalization for text to speech synthesis | |
US8600752B2 (en) | Search apparatus, search method, and program | |
US8352268B2 (en) | Systems and methods for selective rate of speech and speech preferences for text to speech synthesis | |
KR100735820B1 (ko) | 휴대 단말기에서 음성 인식에 의한 멀티미디어 데이터 검색방법 및 그 장치 | |
JP5697860B2 (ja) | 情報検索装置,情報検索方法及びナビゲーションシステム | |
US20100082327A1 (en) | Systems and methods for mapping phonemes for text to speech synthesis | |
US20100082328A1 (en) | Systems and methods for speech preprocessing in text to speech synthesis | |
US8688725B2 (en) | Search apparatus, search method, and program | |
JP5824829B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
US9489944B2 (en) | Information processing device, method and computer program product for processing voice recognition data | |
WO2004044887A1 (ja) | 音声認識用辞書作成装置および音声認識装置 | |
KR101126406B1 (ko) | 유사어 결정 방법 및 시스템 | |
JP6336749B2 (ja) | 音声合成システム及び音声合成方法 | |
JP2009128508A (ja) | 音声データ検索システム | |
CN110740275A (zh) | 一种非线性编辑系统 | |
JP3938096B2 (ja) | インデックス作成装置、インデックス作成方法、および、インデックス作成プログラム | |
JP2013050605A (ja) | 言語モデル切替装置およびそのプログラム | |
JP2008268478A (ja) | アクセント調整可能な音声合成装置 | |
JP2005267053A (ja) | 音声検索装置、音声検索サーバ、音声検索方法及び音声検索プログラム | |
JP5189413B2 (ja) | 音声データ検索システム | |
JP5696638B2 (ja) | 対話制御装置、対話制御方法及び対話制御用コンピュータプログラム | |
JP6115487B2 (ja) | 情報収集方法、対話システム及び情報収集装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070213 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091027 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091104 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20100419 |