JP5201973B2

JP5201973B2 - 音声検索装置

Info

Publication number: JP5201973B2
Application number: JP2007321887A
Authority: JP
Inventors: 洋平岡登; 利行花沢; 知弘岩崎
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2007-12-13
Filing date: 2007-12-13
Publication date: 2013-06-05
Anticipated expiration: 2027-12-13
Also published as: JP2009146108A

Description

この発明は、音声入力によるあいまい性を含む検索結果を提示する音声検索装置に関するものである。

音声による入力は、キーボードやタッチパネルに比べて初心者でも素早い入力が可能であり、他のタスクで目や手がふさがっている場合でも実行可能という利点がある。近年では、大語彙連続音声認識とデータベース検索を組合せた音声による全文検索や名称検索が検討されている。典型的な音声認識とデータベース検索の組合せは、図１４に示すように音声認識結果に基づいてデータベース検索を行うものである。このとき、音声認識の出力は、認識可能な語彙の制限があること、認識誤りが含まれることを考慮する必要がある。

このための具体的な方策として、特許文献１では、未知語を考慮した音声認識を行い、未知語を抽出した場合に推定された未知語と類似する語を追加して検索する方法を開示している。また、特許文献２では、音声認識の確からしさを表すスコアを考慮して認識結果に含まれる複数の単語を検索に用いる方法を開示している。さらに、特許文献３では、音声認識誤りを考慮して認識結果から検索に用いる単語を拡大する方法を開示している。

特開2003-271629号公報特開2004-5600号公報特開2004-348552号公報

上記の各開示された技術は、語彙制限・誤認識による音声認識のあいまい性を考慮して、検索対象を拡大するものである。このため、検索結果の候補数は、あいまい性を考慮しない場合と比べて増加する。この結果、特に携帯電話やカーナビのように、画面が小さい情報携帯端末で利用する際に一覧性が低いことが問題となる。
また、検索対象の重要度は特に考慮していないため、重要度の低い検索対象を追加していくに従い著名な検索対象を検索しにくくなる問題がある。

この発明は、上記を鑑みて、音声認識による、あいまい性を考慮した検索において検索の操作性を改善することを目的としたものである。

この発明による音声検索装置は、
複数の単語が組合わされてなる検索対象を検索するために各検索単語の音声による発話を認識する音声認識手段と、
前記音声認識手段の音声認識結果がN個であり、そのN個のなかの認識結果に含まれる重複する単語がR個であるときの重複度をR/Nとしたとき、重複度が所定のしきい値より小さい前記音声認識結果を競合キーワードとして抽出する競合キーワード抽出手段と、
前記各検索単語の前記音声認識手段による各認識結果を用い、それぞれにあいまい性を考慮して検索データベースの検索を行うデータベース検索手段と、
前記競合キーワードと組合わされる前記検索単語の前記音声認識手段の認識結果によるデータベース検索手段の検索結果を所定基準で集約する候補集約手段と、
前記候補集約手段の処理結果である集約されたキーワードとその他の検索結果を提示する候補提示絞込み手段を備える。

この発明に係る音声検索装置によれば、複数の単語が組合わされてなる検索対象を検索するために音声による検索発話が音声認識手段で認識された各認識結果の重複度を算出し、重複度が所定値以下の場合の認識結果を競合キーワードとして抽出し、この競合キーワードと組合わされる検索単語の音声認識手段での認識結果を、データベース検索手段であいまい性を考慮して検索データベースの検索を行い、この検索結果を候補集約手段により所定基準で集約する。この結果、１度に提示する候補数を集約でき、小さい画面での提示に利便性が増し、検索に要する時間を削減でき、さらに音声認識のあいまい性を優先して集約する結果、絞込み後の候補提示では音声認識誤りが減少し、効率的な検索が可能である。

実施の形態１．
図１は、実施の形態１に係る音声検索装置の構成を示すブロック図である。図に示す音声検索装置は、音声認識手段１０１、音響標準パタン１０２、認識用単語辞書１０３、データベース検索手段１０４、検索用データベース１０５、候補集約手段１０６、集約キーワードリスト１０７、候補提示絞り込み手段１０８からなる。

従来の音声検索装置と異なるこの発明に係る実施の形態１に特徴的な部分は、候補集約手段１０６、集約キーワードリスト１０７、候補提示絞込み手段１０８を備え、集約キーワードリスト１０７の集約キーワードに記述された検索結果について候補を集約して提示するととともに、集約した候補から絞り込みができるようにした点である。以下、実施の形態１に係る音声検索装置の構成および動作を説明する。

音声認識手段１０１は、入力された音声を音響標準パタン１０２および認識用単語辞書１０３と照合し、照合の度合いを表すスコアが高い単語の組合せを認識結果として出力する。具体的な処理は、音声分析処理、照合処理、探索処理からなる。

音声分析処理は、入力音声を音声認識に好適な音響特徴量へ変換する処理である。

照合処理は、音声分析処理で算出した音響特徴量と音響標準パタン１０２を照合し、照合度合いを表すスコアを算出する処理である。例えば、音響特徴量の算出方法として、標本化周期16kHz・16ビットでA/D変換し、時間フレーム10ms間隔で256点フーリエ変換によりパワースペクトルを求め、振幅および周波数軸を対数化した後で逆フーリエ変換を行い12次元のメルケプストラムと、その時間方向の1次回帰係数12次元の合計24次元を用いる。

探索処理は、認識用単語辞書１０３に記載される音響標準パタンと単語の対応付けと、単語の組合せを参照し、単語の接続関係を参照して音声全体に対する累積スコアが高くなる認識候補を探索し認識結果の単語列を出力する。

認識結果は、スコアが大きい上位の複数候補を出力したり、スコアを出力することも可能である。音声認識の詳細な方法については、非特許文献４に詳細に説明されている。

非特許文献４：「音声認識の基礎（上）（下）」，Lawrence Rabiner， Biing-Hwang Juang共著、古井貞煕監訳、NTTアドバンステクノロジ株式会社

音響標準パタン１０２は、音素など音声認識の最小単位に対応する音声のスペクトルおよび時間的な特徴を表す。例えば、音素を単位とする時系列を自己回帰アークあり、後戻りアーク無しの３状態の隠れマルコフモデルを用いる。各状態に対応する音響特徴量は、共分散を保持する８混合ガウス分布で表す。図２は上記の隠れマルコフモデルの構造を図示したものである。音響標準パタンのパラメータは、予め多数の話者の学習用音声データから推定しておく。

認識用単語辞書１０３は、認識対象を音響標準パタンの組合せで記述するための辞書である。具体的には、音響標準パタンの中に対象の言語的な出力対象と制約を記述する単語定義辞書と、単語間のつながりを記述する単語接続辞書からなる。単語定義辞書の例を図３に示す。また、３つの単語の連鎖（トライグラム）する確率として単語接続を記述する例を図４に示す。

データベース検索手段１０４は、検索用データベース１０５を参照し検索結果を取得する。音声認識のあいまい性を考慮する場合、既に説明したように複数の音声認識候補を考慮して検索を行う。検索結果は、いくつかの属性と対応付けられている。例えば施設名の場合、施設名称、ジャンル名、住所、電話番号等である。

検索用データベース１０５は、検索対象のデータベースである。通常、予め検索用の索引を生成しておき検索を効率化することができる。データベースからの情報検索方法および索引作成方法については、非特許文献５に説明されている。データベースは、図５の例に示すように複数の属性レコードを持ち、検索結果から参照可能であるものとする。

非特許文献５：「情報検索アルゴリズム」北研二、津田和彦、獅子堀正幹共著、共立出版2002

候補集約手段１０６は、集約キーワードリスト１０７を参照し、データベース検索手段１０４が取得した検索結果のリストから集約キーワードによる検索結果を抽出し、候補リストの集約および絞込み対象リストを生成する。

集約キーワードリスト１０７は、集約対象とするキーワードのリストである。設定するキーワードは、ユーザの発話によく出現し、複数の名称で共通的に出現する語彙である。例えば、チェーン店の名称（セブンイレブン）や地域（横浜）、名称に含まれやすい言葉（警察署）等を設定する。集約キーワードリストの例を図６に示す。

候補提示絞り込み手段１０８は、候補集約手段１０６が生成した提示候補リストおよび絞込み対象リストに基づいてユーザへ候補提示するとともに絞込み制御を行う。

次に、図７のフローチャートを参照し、実施の形態１に係る音声検索装置の動作を説明する。
ここでは、部分一致に基づく施設名称の検索を例について具体的な動作を説明する。また、説明を単純にするため、ユーザは「ワタリ」と1単語発声し、「ワタリ」を含む施設名を検索することを意図したものとする。
検索用データベース１０５について、予め単語と音節に区切られた索引が作成されており、任意の単語に対して検索が可能であるものとする。

（ステップＳ１０１）
まず、音声認識手段１０１は、入力された音声を認識してデータベース検索手段１０４への入力となる認識結果を出力する。例の場合、「ワタリ」という発話に対する音声認識結果が取得される。

（ステップＳ１０２）
次に、データベース検索手段１０４は、検索用データベース１０５を参照し検索結果を出力する。
このとき、発話「ワタリ」に対して、音声認識のあいまい性を考慮した結果、「ワタミ」「タタミ」「ワタリ」というキーワードを含む検索結果が取得されたものとする。検索結果と検索キーワードの対応付けは前処理あるいは後処理により対応付けしておく。ここでは、「ワタミ」がチェーン店名称のため多数の候補がヒットし、対応する検索結果がそれぞれ50個、３個、５個の候補があるものとする。

（ステップＳ１０３）
次に、候補集約手段１０６は、検索結果候補数をしきい値（TH1）と比較し、大きい場合ステップＳ１０４へ進む。そうでない場合はステップＳ１０７へ進む。

（ステップＳ１０４）
候補集約手段１０６は、検索結果候補数がしきい値より大きい場合、検索結果の集約を試みる。具体的には、集約キーワードリスト１０７に記載されているキーワードについてキーワードKを含む検索結果の最大数N(K)を算出する。

（ステップＳ１０５）
算出されたN(K)をしきい値（TH2）と比較し、大きい場合ステップＳ１０６へ進む。そうでない場合、ステップＳ１０７へ進む。

（ステップＳ１０６）
該当条件のキーワードを含む検索結果を集約し、提示する候補リストを更新する。また、該当キーワードを選択した場合のための絞込み用候補リストを作成する。
例の場合、「ワタミ」という一つの提示語彙とするとともに、「ワタミ」を選択した場合の絞込み候補リスト（50個）を作成する。

（ステップＳ１０7）
候補提示絞込み手段１０８は候補リストをユーザへ提示する。このとき、集約されたキーワードは、さらに絞込み可能であり色や字体など、提示形態を変えたり説明を加えたりすることによってユーザへ説明しても良い。
図８は、6個の候補を画面提示した場合の例である。集約したキーワード「ワタミ」は太字として絞込み件数を提示している。「ワタリ」を含む候補は集約前は54位以降であり同時提示候補数が6個の場合、該当する候補は9画面目以降の提示となるが、集約した場合1画面目の5番目から候補の一部を提示可能となる。

（ステップＳ１０８）
ユーザが集約した候補を選択した場合、ステップＳ１０９に進む。そうでない場合、候補選択は完了し処理を終了する。

（ステップＳ１０９）
ユーザが集約した候補を選択した場合は、選択した集約候補のリストを提示する。

このように、実施の形態１に係る検索装置は、集約キーワードリストを考慮して検索結果を集約する。この結果、１度に提示する候補数を集約でき、検索に要する時間を削減できる。
集約キーワードリストは任意の語彙に選択可能である。例えば、出現しうる全ての語彙を指定してもよいし、単独で出現可能な自立語を対象としても良い。また、確実性を高めるためにキーワードの長さを制限して抽出しても良い。要は所定基準に従い作成すれば良い。
また、候補集約手段１０６は所定の基準を保持し、集約キーワードリスト１０７を参照せずに検索結果を所定の基準に従って集約処理をしても良い。
上記の例では、絞込みキーワード選択時、候補提示絞込み手段が集約したキーワードのリストを提示する処理となっていた。集約したキーワードに対する検索結果が定義できている場合、従来どおり検索結果提示手段により候補を提示することも可能である。
また、上記の動作例では、集約処理を１度のみ適用していたが絞込み結果を再度別キーワードで集約するようにすれば複数回の階層的な絞込みを行うことも可能である。

実施の形態２．
図９は、実施の形態２に係る音声検索装置の構成を示すブロック図である。図に示す音声検索装置は、音声認識手段１０１、音響標準パタン１０２、認識用単語辞書１０３、データベース検索手段１０４、検索用データベース１０５、候補集約手段１０６、集約属性リスト２０１、候補提示絞り込み手段１０８からなる。

従来の音声検索装置と異なるこの発明の実施の形態２に特徴的な部分は、候補集約手段１０６が集約属性リスト２０１を参照し、検索結果を属性に応じて集約することであり、また、実施の形態１と異なる特徴的な部分は、候補集約手段１０６が参照するリストが集約キーワードリスト１０７でなく、集約属性リスト２０１であることである。
以下、実施の形態２に係る音声検索装置の構成および動作を説明する。ただし、既に説明済みの機能ブロックについては同一の符号を付し説明を省略する。

集約属性リスト２０１は、データベース検索結果に付与される属性および属性値と対応した集約提示対象のリストである。例を図１０に示す。

次に、図１１のフローチャートを参照し、実施の形態２に係る音声検索装置の動作を説明する。
ここでは、ユーザは「ワタリ」と発声し、「ワタリ」を含む施設名を検索することを意図したとする。

（ステップＳ２０１）
まず、音声認識手段１０１は、入力された音声を認識してデータベース検索手段１０４への入力となる認識結果を出力する。この例の場合、「ワタリ」という発話に対する音声認識結果が取得される。

（ステップＳ２０２）
次に、データベース検索手段１０４は、検索用データベース１０５を参照し検索結果を出力する。
このとき、発話「ワタリ」に対して、音声認識のあいまい性を考慮した結果、多数の候補が検索される。この中には属性「チェーン店」に対応する属性値が「ワタミ」であるものが50件含まれているものとする。

（ステップＳ２０３）
次に、候補集約手段１０５は、検索結果候補数をしきい値（TH1）と比較し、大きい場合ステップＳ２０４へ進む。そうでない場合はステップＳ２０７へ進む。

（ステップＳ２０４）
候補集約手段１０６は、検索結果候補数がしきい値より大きい場合、検索結果の集約を試みる。具体的には、集約属性リスト２０１に記載されている属性・属性値の組合せについて属性条件Cに合致する検索結果の最大数N(C)を算出する。

（ステップＳ２０５）
算出されたN(C)としきい値（TH2）を比較し、大きい場合ステップＳ２０６へ進む。そうでない場合、ステップＳ２０７へ進む。

（ステップＳ２０６）
該当条件の属性・属性値の組合せを含む検索結果を集約し、提示する候補リストを更新する。また、該当キーワードを選択した場合のための絞込み用候補リストを作成する。
例の場合、「（チェーン店）ワタミ」という一つの提示語彙に集約するとともに、「ワタミ」を選択した場合の絞込み候補リスト（50個）を作成する。

（ステップＳ２０7）
候補提示絞込み手段１０８は候補リストをユーザへ提示する。このとき、集約されたキーワードは、さらに絞込み可能であり色や字体など、提示形態を変えたり説明を加えたりすることによってユーザへ説明しても良い。

（ステップＳ２０８）
ユーザが集約した候補を選択した場合、ステップＳ２０９に進む。そうでない場合、候補選択は完了し処理を終了する。

（ステップＳ２０９）
ユーザが集約した候補を選択した場合は、選択した集約候補のリストを提示する。

このように、実施の形態２に係る検索装置は、集約キーワードリストを考慮して検索結果を集約する。この結果、１度に提示する候補数を集約でき、検索に要する時間を削減できる。
集約キーワードリストは任意の語彙に選択可能である。例えば、出現しうる全ての語彙を指定してもよいし、単独で出現可能な自立語を対象としても良い。また、確実性を高めるためにキーワードの長さを制限して抽出しても良い。
上記の例では、絞込みキーワード選択時、候補提示絞込み手段が集約したキーワードのリストを提示する処理となっていたが、別の絞込み手段をとることも可能である。
また、上記の動作例では、集約処理を１度のみ適用していたが絞込み結果を再度別キーワードで集約するようにすれば複数回の階層的な絞込みを行うことも可能である。

実施の形態３．
図１２は、実施の形態３に係る音声検索装置の構成を示すブロック図である。図に示す音声検索装置は、音声認識手段１０１、音響標準パタン１０２、認識用単語辞書１０３、データベース検索手段１０４、検索用データベース１０５、候補集約手段１０６、集約キーワードリスト１０７、候補提示絞り込み手段１０８、競合キーワード抽出手段３０１からなる。

従来の音声検索装置と異なる本実施の形態３に特徴的な部分は、候補集約手段１０６、集約キーワードリスト１０７、候補提示絞込み手段１０８及び競合キーワード抽出手段３０１を備え、音声認識結果のあいまい性として競合するキーワードに限定して候補を集約して提示し、集約した候補について集約キーワードに記述された検索結果について候補をさらに集約して提示するととともに、集約した候補から絞り込みができるようにした点である。
また、実施の形態１と異なる本実施の形態３に特徴的な部分は、競合キーワード抽出手段３０１をさらに備え、音声認識結果のあいまい性として競合するキーワードに限定して候補を集約して提示し、集約した候補についてさらに集約して提示ができるようにした点である。
以下、実施の形態３に係る音声検索装置の構成および動作を説明する。ただし、既に説明済みの機能ブロックについては同一の符号を付し説明を省略する。

競合キーワード抽出手段３０１は、あいまい性を考慮して複数提示された音声認識結果の単語列から単語の重複度を算出し競合キーワードを抽出する。具体的には、音声認識結果をN個取得し、うちR個の認識結果に含まれる単語の重複度はR/Nとする。認識結果に含まれる単語ごとに重複度を順位付けし、重複度が設定したしきい値より小さいものを競合キーワードとする。
例えば「ワタリヨコハマ」「ワタミヨコハマ」「タタミヨコハマ」の認識結果があるとき、「ワタリ」「ワタミ」「タタミ」の重複度は1/3、「ヨコハマ」の重複度は1となる。

この例のように音声認識結果として、類似している表現が多いキーワードは重複度が小さくなる。認識結果の単語時間情報を取得することで、重複度の算出の際に、時間的な重複を考慮するも可能である。

次に、図１３のフローチャートを参照し、実施の形態３に係る音声検索装置の動作を説明する。
ここでは、部分一致に基づく施設名称の検索を例について具体的な動作を説明する。また、説明を単純にするため、ユーザは「ヨコハマワタリ」と２単語発声し、「ヨコハマ」「ワタリ」を含む施設名を検索することを意図したとする。

（ステップＳ３０１）
まず、音声認識手段１０１は、入力された音声を認識して検索手段への入力となる1つ以上の認識結果を出力する。この結果、「ヨコハマワタリ」という発話に対して、スコア順に「ヨコハマワタミ」「ヨコハマタタミ」「ヨコハマワタリ」という3つの認識結果候補が出力されたものとする。

（ステップＳ３０２）
次に、データベース検索手段１０４は、検索用データベース１０５を参照し検索結果を出力する。
また、例の音声認識結果候補「ヨコハマワタミ」「ヨコハマタタミ」「ヨコハマワタリ」に対してそれぞれ５個、２個、１個の候補があるものとする。

（ステップＳ３０３）
次に、候補集約手段１０５は、検索結果候補数をしきい値（TH1）と比較し、大きい場合ステップＳ３０４へ進む。そうでない場合はステップＳ３０８へ進む。

（ステップＳ３０４）
競合キーワード抽出手段３０１は、複数の音声認識結果から競合キーワードを抽出し参照するキーワードリストを競合するものに限定する。
具体的には、しきい値TH3を設定し、重複度がしきい値以下のキーワードを集約対象とする。この結果、 3つの検索結果全てに含まれるキーワード「ヨコハマ」は集約キーワードリスト１０７に含まれるものの競合キーワードから除外される。

（ステップＳ３０５）
候補集約手段１０６は、検索結果候補数がしきい値より大きい場合、検索結果の集約を試みる。具体的には、競合キーワードとなっており集約キーワードリスト１０７に記載された中からキーワードKを含む検索結果の最大数N(K)を算出する。

（ステップＳ３０６）
算出されたN(K)をしきい値（TH2）と比較し、大きい場合ステップＳ３０７へ進む。そうでない場合、ステップＳ３０８へ進む。

（ステップＳ３０７）
該当条件のキーワードを含む検索結果を集約し、提示する候補リストを更新する。また、該当キーワードを選択した場合のための絞込み用候補リストを作成する。
例の場合、キーワード「ワタミ」という一つの提示語彙とするとともに、「ワタミ」を選択した場合の絞込み候補リスト（５個）を作成する。

（ステップＳ３０８）
候補提示絞込み手段１０８は候補リストをユーザへ提示する。このとき、集約されたキーワードは、さらに絞込み可能であり色や字体など、提示形態を変えたり説明を加えたりすることによってユーザへ説明しても良い。

（ステップＳ３０９）
ユーザが集約した候補を選択した場合、ステップＳ３１０に進む。そうでない場合、候補選択は完了し処理を終了する。

（ステップＳ３１０）
ユーザが集約した候補を選択した場合は、選択した集約候補のリストを提示する。
集約した場合１1画面目の４番目に候補を提示可能となる。

このように、実施の形態３に係る検索装置は、音声認識の結果で生じた競合キーワードについて検索結果を集約できる。この結果、音声認識のあいまい性を優先して集約する。この結果、絞込み後の候補提示では音声認識誤りが減少しているため、効率的な検索が可能である。
集約した候補内の絞り込みにおいても同様の処理を行うことが可能である。また、実施の形態１または実施の形態２との組合せることもできる。

この発明は、音声により例えば、ホテルや旅館、美術館や映画館などの施設或いは観光スポットなどの検索が可能なカーナビや形態電話などの音声検索装置に利用可能である。

この発明の第1の実施形態の機能ブロック図である。隠れマルコフモデル（Hidden Markov Model;HMM）のトポロジーの例を示す図である。認識用単語辞書例の説明図である。認識用言語辞書に単語間トライグラム確率を用いた場合の記載内容例の説明図である。検索対象のデータベースに記憶される情報例の説明図である。集約キーワードリスト例の説明図である。実施の形態１に係る音声検索装置の動作説明用フローチャートである。キーワード集約処理後の提示候補例の説明図である。この発明の実施の形態２の機能ブロック図である。集約属性リスト例の説明図である。実施の形態２に係る音声認識装置の動作説明用フローチャートである。この発明の実施の形態３の機能ブロック図である。実施の形態３に係る音声認識装置の動作説明用フローチャートである。従来の音声認識装置の機能ブロック図である。

符号の説明

１０１；音声認識手段、１０２；音響標準パタン、１０３；認識用単語辞書、１０４；データベース検索手段、１０５；検索用データベース、１０６；候補集約手段、１０７；集約キーワードリスト、１０８；候補提示絞り込み手段、２０１；集約属性リスト、３０１；競合キーワード抽出手段。

Claims

複数の単語が組合わされてなる検索対象を検索するために各検索単語の音声による発話を認識する音声認識手段と、
前記音声認識手段の音声認識結果がN個であり、そのN個のなかの認識結果に含まれる重複する単語がR個であるときの重複度をR/Nとしたとき、重複度が所定のしきい値より小さい前記音声認識結果を競合キーワードとして抽出する競合キーワード抽出手段と、
前記各検索単語の前記音声認識手段による各認識結果を用い、それぞれにあいまい性を考慮して検索データベースの検索を行うデータベース検索手段と、
前記競合キーワードと組合わされる前記検索単語の前記音声認識手段の認識結果によるデータベース検索手段の検索結果を所定基準で集約する候補集約手段と、
前記候補集約手段の処理結果である集約されたキーワードとその他の検索結果を提示する候補提示絞込み手段を備えることを特徴とする音声検索装置。
前記候補提示絞込み手段は、前記候補集約手段の処理結果である集約されたキーワードとその他の検索結果を提示し、集約されたキーワードが選択された場合にはキーワードに集約された検索結果を提示する構成にされたことを特徴とする請求項１記載の音声検索装置。
前記候補集約手段は、集約キーワードリストを参照し、前記データベース検索手段の検索結果に含まれるキーワードに基づいて候補を集約する構成にされたことを特徴とした請求項１または請求項２記載の音声検索装置。
前記候補集約手段は、属性リストを参照し、前記データベース検索手段の検索結果に含まれる属性と属性値の対応付けに基づいて候補を集約する構成にされたことを特徴とした請求項１または請求項２記載の音声検索装置。