JPH11184880A

JPH11184880A - 音声認識装置及びコンピュータ読み取り可能な記録媒体

Info

Publication number: JPH11184880A
Application number: JP9354700A
Authority: JP
Inventors: Hiroyuki Kanza; 浩幸勘座; Koichi Yamaguchi; 耕市山口; Toshio Akaha; 俊夫赤羽
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1997-12-24
Filing date: 1997-12-24
Publication date: 1999-07-09

Abstract

(57)【要約】【課題】階層構造のあいまいな見出し語であっても、
音声認識の対象とすることのできる音声認識装置を提供
する。【解決手段】本発明の音声認識装置は、入力された音
声を語彙記憶部１３に設定された認識対象語彙と照合し
て認識する音声認識装置であって、指定項目を入力する
音声入力部１１と、見出し語を記憶する辞書１５と、指
定項目と見出し語との意味的関連度を記憶する語彙関連
情報記憶部１６と、入力された指定項目に対応する見出
し語との意味的関連度が所定値以上の場合に、対応する
見出し語を上記辞書から選択して語彙記憶部１３に認識
対象語彙として設定する語彙選択部１４と、からなる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、膨大な認識対象語
彙の適切な絞り込みを行うために、主に言語処理を用い
て音声認識性能を向上させる音声認識装置及びコンピュ
ータ読み取り可能な記録媒体に関する。

【０００２】

【従来の技術】音声を認識させて装置に入力を行う場
合、通常音声認識プログラムが使われる。この音声認識
プログラムでは、認識できる見出し語を予め辞書に登録
しておき、この中から音声入力された言葉と類似度が最
も高い見出し語を選び出すことにより音声認識処理が行
われる。このため、一般に音声認識の対象となる見出し
語が多ければ多いほど、認識精度及び速度が低下する傾
向にある。

【０００３】これらの問題の防止策として、音声認識の
対象となる見出し語を少数の単位で階層化し、上位階層
から順次階層を選択する技術がある。例えば、カーナビ
ゲーションシステムの目的地の設定などのために、特開
平７−６４４８０号公報や特開平７−３２５５４３号公
報に示されるように、見出し語を予め階層構造として記
憶しておき、状況に応じて階層構造の位置を特定するこ
とにより、その下位階層に属する見出し語を認識対象語
彙であると、少数に限定して認識精度と認識速度の向上
を図っている。

【０００４】

【発明が解決しようとする課題】しかしながら、上記従
来の技術は、住所など階層構造が明確なものには適して
いるものの、階層が一意に決定できないケースには適用
できないという問題点がある。

【０００５】例えば、ある同一階層に「遊園地」「公
園」「植物園」．．．といった見出し語があって、
「枚方パーク」が「公園」の下位階層に属している場
合、「枚方パーク」を遊園地と思っている利用者は、
「遊園地」の下位階層で発声して音声認識により入力し
ようとするので、「枚方パーク」を認識することができ
ない。これは、選んだ下位階層にあると思った見出し語
が実際には存在しないためであり、利用者の思っている
階層構造と予め設定されている階層構造とが必ずしも一
致しないためである。

【０００６】本発明の目的は、上記問題点に鑑み、この
ように階層構造のあいまいな見出し語であっても、音声
認識の対象とすることのできる音声認識装置及びコンピ
ュータ読み取り可能な記録媒体を提供することにある。

【０００７】

【課題を解決するための手段】請求項１に記載の音声認
識装置は、入力された音声を語彙記憶手段に設定された
認識対象語彙と照合して認識する音声認識装置であっ
て、指定項目を入力する入力手段と、見出し語を記憶す
る辞書と、指定項目と見出し語との意味的関連度を記憶
する語彙関連情報記憶手段と、入力された指定項目と見
出し語との意味的関連度が所定値以上の場合に、対応す
る見出し語を上記辞書から選択して上記語彙記憶手段に
認識対象語彙として設定する語彙選択手段と、を有する
ことを特徴とする。

【０００８】請求項２に記載の音声認識装置は、請求項
１記載の音声認識装置において、上記入力手段は、指定
項目を音声により入力することを特徴とする。

【０００９】請求項３に記載の音声認識装置は、請求項
１記載の音声認識装置において、上記意味的関連度とし
て意味ベクトルを用いることを特徴とする。

【００１０】請求項４に記載の音声認識装置は、請求項
３記載の音声認識装置において、上記入力手段から入力
される指定項目は、意味ベクトルの概念分類の要素であ
ることを特徴とする。

【００１１】請求項５に記載のコンピュータ読み取り可
能な記録媒体は、入力された音声を語彙記憶手段に設定
された認識対象語彙と照合して認識する音声認識装置と
して機能させる音声認識プログラムを記録したコンピュ
ータ読み取り可能な記録媒体であって、指定項目を入力
する入力手段、見出し語を記憶する辞書、指定項目と見
出し語との意味的関連度を記憶する語彙関連情報記憶手
段、入力された指定項目に対応する見出し語との意味的
関連度が所定値以上の場合に、対応する見出し語を上記
辞書から選択して上記語彙記憶手段に認識対象語彙とし
て設定する語彙選択手段、として機能させる音声認識プ
ログラムを記録している。

【００１２】

【発明の実施の形態】（実施の形態１）以下、本実施の
形態を図１のブロック図に基づいて説明する。本実施の
形態では、利用者が音声により指定項目を発声して認識
対象語彙を絞り込んでいくものである。音声入力部１１
は利用者が発声した音声を入力するためのもので、マイ
ク、アンプ、Ａ／Ｄ変換器などのハードウェアで構成さ
れる。音声入力部１１により、音声信号が音声認識装置
内に取り込まれる。

【００１３】音声認識部１２は、例えばＨＭＭ法やＤＰ
マッチング法などの所定の音声認識アルゴリズムにした
がって、語彙記憶部１３に設定されている見出し語を認
識対象語彙として音声入力部１１から取り込まれた音声
データの特徴パラメータの尤度としての確率や距離など
の計算を行い、見出し語から認識結果候補を求めるもの
である。

【００１４】語彙記憶部１３は、音声認識工程で認識の
対象となる見出し語とその見出し語の音声認識に必要な
情報を一時的に記憶しておくものであり、語彙選択部１
４によって内容が逐次切り替わるため、ＲＡＭのような
メモリーが使われる。

【００１５】語彙選択部１４は、語彙記憶部１３に記憶
させる見出し語を選択するためのものである。辞書１５
は、見出し語と音声認識するために必要な読みなどの情
報を記憶している。語彙選択部１４は、利用者の指定項
目から語彙関連情報記憶部１６を参照することにより、
該当する見出し語とその見出し語の音声認識に必要な情
報とを辞書１５から拾い出して語彙記憶部１３に設定す
る。

【００１６】語彙関連情報記憶部１６は、辞書１５の見
出し語と指定項目の関連度を数値化したデータを格納し
ている。本実施の形態では、この関連度として、意味ベ
クトルを用いている。意味ベクトルは、多くのＦＥＡＴ
ＵＲＥとの意味的な関係をベクトル表現したものであ
る。Ｎ個の概念分類をＦＥＡＴＵＲＥとし、各次元が一
つのＦＥＡＴＵＲＥに対応したＮ次元ベクトル上の一点
で、意味を表現するものである。例えばこの意味ベクト
ルＸ＝（Ｘ１，．．，Ｘｎ）の各要素を２値で表す場合
は次式のようになる。

【００１７】Ｘｉ＝１（ＦＥＡＴＵＲＥｉと関係あり）＝０（ＦＥＡＴＵＲＥｉと関係なし）例えば、ＦＥＡＴＵＲＥとして｛人間、悲しい、芸術、
科学、興奮、政治｝を採用した場合には、単語「パイロ
ット」の意味ベクトルは（１，０，０，１，１，０）の
ようになる。なお、意味ベクトルについては、特開平６
−１９５３８８号公報や、「芥子ほか：大規模文書デー
タベースからの連想検索、電子情報通信学会、信学技
法、ＡＩ９２−９９（１９９３−０１）」などに記載が
ある。

【００１８】図２に、この意味ベクトルを用いた語彙関
連情報記憶部１６の内容を示す。図２では、各見出し語
ごとに、ＦＥＡＴＵＲＥとして｛行楽地、観光地、公
園、遊園地、植物園、キャンプ場所、‥｝を用い、関連
度を２値ではなく、関連度に応じて６レベルで表現して
いる。例えば「枚方パーク」は一応公園ではあるが、遊
園地とみなす方が妥当である、という内容を数値で表現
している。数値が大きいほど妥当性が高く、０であれば
関連はないとしている。

【００１９】本実施の形態では、指定項目が入力される
と、指定項目がＦＥＡＴＵＲＥにあるかどうかチェック
され、ＦＥＡＴＵＲＥにあれば、その値が０でない所定
値（何らかの関係があることを示す）以上となる見出し
語とその見出し語の音声認識に必要な情報（見出し語の
尤度情報）とを辞書１５から拾い出して語彙記憶部１３
に設定する。また、関連度を指定項目における見出し語
の出現確率とみなせば、音声認識部での尤度情報として
利用することもできる。

【００２０】なお、指定項目を意味ベクトルで表わし
て、入力された指定項目と意味ベクトルで表現された各
見出し語との内積演算を行って各見出し語ごとに距離を
求めて、所定距離以上の見出し語を選択するようにして
もよい。

【００２１】このように、本発明では、語彙関連情報記
憶部１６に記憶されている関連度をもとに、語彙選択部
１４が辞書１５から認識対象語彙として適切な見出し語
を選別し、その見出し語の尤度情報とともに語彙記憶部
１３に設定して認識対象語彙の絞り込みを行うことがで
きる。指定項目との関連度がある一定以上の見出し語の
みを認識対象とすることで、従来と同様に語彙の少数限
定が可能になる。と同時に、見出し語のように離散的な
階層構造でないため、階層構造ではあいまいな見出し語
も認識対象からはずれることなく含めることが可能にな
る。従って、指定項目が「公園」であれば、「奈良公
園」「枚方パーク」「摂津峡公園」など、公園に関連す
る見出し語が認識語彙の対象になる。

【００２２】制御部１７は、音声を入力して認識結果を
出力するまでの各処理の制御を行うものである。制御部
１７のＣＰＵによって音声認識処理部１９が制御され、
図３のフローを用いてその動作説明をする。

【００２３】まず、ステップＳ４１において、予め決め
られた初期状態の語彙が語彙記憶部１３にセットされ
る。初期状態の語彙としては、都道府県名（「東京
都」、「大阪府」などといった語彙）や、検索ジャンル
名（「地名」、「施設名」、「公園」などといった語
彙）がセットされる。

【００２４】次に、ステップＳ４２において、利用者の
発声があると、ステップＳ４３の音声認識工程で、単語
を特定する処理が行われる。つまり、この音声認識工程
においては語彙記憶部１３にセットされている見出し語
との照合処理が行われ、認識結果が出力される。ステッ
プＳ４４において、認識結果が利用者の所望のものであ
れば終了する。なお、所望のものかどうかは認識結果を
音声で出力することにより判別される。

【００２５】ステップＳ４４において、認識結果が所望
のものでなければ、その認識結果を指定項目としてステ
ップＳ４５において上述した語彙選択工程が行われる。
ステップＳ４２で発声された公園に関連する言葉の認識
結果が「公園」であれば、語彙関連情報記憶部１６のデ
ータに基づき、「奈良公園」「枚方パーク」といった語
彙が語彙記憶部にセットされる（ステップＳ４６）。そ
して、ステップＳ４２にて、新たに設定された認識対象
語彙に対して利用者が発声を行って、上述した動作を繰
り返し、認識対象語彙の絞り込みを段階的に行う。

【００２６】本実施の形態では、指定項目を音声入力に
より行ったが、このように音声入力により指定項目を入
力するのは、運手中のカーナビゲーションシステムに用
いるのに適している。なお、カーナビゲーションシステ
ムのような、検索ジャンル名として地名等を音声で入力
する装置においても本発明は有効である。従来の地名の
階層構造を利用するやり方では千葉県にある施設は千葉
県の辞書を選択しなければ認識の対象にならなかった。
「東京ディズニーランド」は千葉県にあるが、東京との
関連度を０にしないことにより、利用者が「東京」とい
う指定項目を選択した場合でも、「東京ディズニーラン
ド」を認識対象語彙として含めることが可能になる。

【００２７】（実施の形態２）本実施の形態を図４のブ
ロック図に基づいて説明する。本実施の形態では、音声
以外で指定項目を入力するものであり、指定項目のリス
トをメニュー表示する表示部２７とキーボードやマウ
ス、ペン等のポインティングデバイスで利用者が指定項
目を入力する入力部２８が、図１の構成に追加されてい
る。他の構成については、指定項目を音声で入力する以
外は同様の構成であるので、図１の各符号に１０を加え
た符号で示して、説明は省略する。

【００２８】次に、図５のフローを用いてその動作説明
をする。まず、ステップＳ５１において利用者が選択す
る指定項目リストが表示部２７に表示される。指定項目
リストの内容として、例えば都道府県名（「東京都」、
「大阪府」などといった語彙）や、検索ジャンル名
（「地名」、「施設名」、「公園」などといった語彙）
がある。

【００２９】ステップＳ５２において、利用者は、入力
部２８を用いてリストの中の一つの指定項目を選択す
る。ステップＳ５３においては、ステップＳ４５と同様
にして、「公園」が指定項目として選択されれば、語彙
関連情報記憶部２６のデータに基づき、「奈良公園」
「枚方パーク」といった語彙が語彙記憶部２３にセット
される。

【００３０】ステップＳ５４において、指定項目「公
園」に関連する言葉を利用者が発声し、ステップＳ５５
においてそれを認識する。ステップＳ５６において、認
識結果が利用者の所望のものであれば終了する。さらに
指定項目を絞り込む場合は、「大阪の公園」「奈良の公
園」などより詳細な指定項目が表示部に表示され、ステ
ップＳ５１からの工程を繰り返し行う。

【００３１】また、上記各実施の形態で詳述した動作を
コンピュータに実行させるために、そのプログラムをフ
ロッピーディスク、ＣＤ−ＲＯＭ、あるいは通信ネット
から供給される形態等のコンピュータ読み取り可能な記
録媒体に記録しておき、適宜インストールして用いても
よい。

【００３２】

【発明の効果】本発明によれば、段階的に認識対象語彙
を絞り込む際に、階層構造ではあいまいな見出し語も認
識対象からはずれることなく含めることが可能になり、
精度、速度ともに良好な音声認識装置が実現でき、利用
者が所望の情報を速やかに得ることができる。

【図面の簡単な説明】

【図１】実施の形態１に係る音声認識装置の構成を示す
ブロック図である。

【図２】語彙関連情報記憶部の構成を示す図である。

【図３】実施の形態１に係る処理フローである。

【図４】実施の形態２に係る音声認識装置の構成を示す
ブロック図である。

【図５】実施の形態２に係る処理フローである。

【符号の説明】

１１，２１音声入力部１２，２２音声認識部１３，２３語彙記憶部１４，２４語彙選択部１５，２５辞書１６，２６語彙関連情報記憶部１７，２９制御部２０，３０音声認識処理部

Claims

【特許請求の範囲】

【請求項１】入力された音声を語彙記憶手段に設定さ
れた認識対象語彙と照合して認識する音声認識装置であ
って、指定項目を入力する入力手段と、見出し語を記憶する辞書と、指定項目と見出し語との意味的関連度を記憶する語彙関
連情報記憶手段と、入力された指定項目と見出し語との意味的関連度が所定
値以上の場合に、対応する見出し語を上記辞書から選択
して上記語彙記憶手段に認識対象語彙として設定する語
彙選択手段と、を有することを特徴とする音声認識装
置。
【請求項２】上記入力手段は、指定項目を音声により
入力することを特徴とする請求項１記載の音声認識装
置。
【請求項３】上記意味的関連度として意味ベクトルを
用いることを特徴とする請求項１記載の音声認識装置。
【請求項４】上記入力手段から入力される指定項目
は、意味ベクトルの概念分類の要素であることを特徴と
する請求項３記載の音声認識装置。
【請求項５】入力された音声を語彙記憶手段に設定さ
れた認識対象語彙と照合して認識する音声認識装置とし
て機能させる音声認識プログラムを記録したコンピュー
タ読み取り可能な記録媒体であって、指定項目を入力する入力手段、見出し語を記憶する辞書、指定項目と見出し語との意味的関連度を記憶する語彙関
連情報記憶手段、入力された指定項目に対応する見出し語との意味的関連
度が所定値以上の場合に、対応する見出し語を上記辞書
から選択して上記語彙記憶手段に認識対象語彙として設
定する語彙選択手段、として機能させる音声認識プログ
ラムを記録しているコンピュータ読み取り可能な記録媒
体。