JP4283984B2

JP4283984B2 - 音声認識装置ならびに方法

Info

Publication number: JP4283984B2
Application number: JP2000312476A
Authority: JP
Inventors: 宏斎藤
Original assignee: Pioneer Corp
Current assignee: Pioneer Corp
Priority date: 2000-10-12
Filing date: 2000-10-12
Publication date: 2009-06-24
Anticipated expiration: 2020-10-12
Also published as: EP1197950A2; EP1197950B1; US20020046028A1; JP2002123284A; DE60109105D1; US6961706B2; DE60109105T2; EP1197950A3

Description

【０００１】
【発明の属する技術分野】
本発明は、ユーザにより入力された音声を認識して機器の制御を行う音声認識装置ならびに音声認識方法に関するもので、特に音声入力操作の改善をはかるものである。
【０００２】
【従来の技術】
所望の地点を指定して目的地として設定し、車両の現在位置から目的地までの経路を探索し、これをその現在位置を含む地図と共にディスプレイ上に表示させることにより、目的地までの誘導を行うカーナビゲーションとして、近年、マイクを用いて、入力されたユーザの音声を認識し、認識された音声によって各種操作を行えるようにした音声操作機能付きのものが登場してきた。
【０００３】
カーナビゲーションにおける音声操作による地点の指定は、学校、病院、駅といった対照地点に存在する施設の種別や、地点の住所などを、ガイダンスメッセージに応じて順次音声を発話して入力し、最終的に地点の固有名称を発話することにより行われている。このように、発話毎の認識対象語句を設定し、続く認識対象語句の絞込みを行うことにより、認識率の確保を図っている。
【０００４】
目的地設定手順の一例を説明する。初期の段階では、音声認識システム側では、カーナビゲーションを操作するための制御コマンド認識対象語句とした”制御コマンド辞書”が設定されており、ユーザが「目的地設定」とコマンドを発話することでシステムに目的地までの経路設定を行う意思を伝える。
続いて目的地となる具体的な地点を指定する必要があるが、カーナビゲーションに用意されている地点が膨大であるため、一度の音声操作で指定することは認識率やメモリサイズの制約から実用的でない。そこで、指定対象となる地点の数の絞込みを行う。
【０００５】
はじめに対象地点に存在する施設の種別（以下ジャンルと称する）での絞込みを行う。音声認識辞書を”制御コマンド辞書”から”ジャンル名称辞書”に入れ替え、（1）「ジャンルの名称をどうぞ」とガイダンスメッセージを出力し、ユーザに対してジャンルの発話を促す。これに対してユーザがジャンルとして例えば（2）「教育施設」と発話すると音声認識システムが発話を認識する。更なる絞込みを行うため教育施設に属する更に詳細なサブジャンルを指定するように、音声認識辞書を”ジャンル名称辞書”から”教育施設に属するサブジャンル名称辞書”に入れ替え、（3）「次のジャンルの名称をどうぞ」とガイダンスメッセージを出力し、ユーザに対してサブジャンル名称の発話を促す。これに対してユーザがサブジャンルとして例えば（4）「大学」と発話すると音声認識システムが発話を認識する。
【０００６】
サブジャンルが確定すると、更に、地域での絞込みを行う。音声認識辞書を”サブジャンル名称辞書”から”都道府県名称辞書”に入れ替え、（5）「都道府県名をどうぞ」とガイダンスメッセージを出力し、ユーザに対して都道府県名の発話を促す。これに対してユーザが、例えば（6）「東京都」と発話すると音声認識システムが発話を「東京都」と認識する。サブジャンルが「大学」でかつ都道府県名が「東京都」だった場合、更に詳細に市区町村名を指定するように、あらかじめシステム側で決められている。そのため、音声認識辞書を”都道府県名称辞書”から”東京都の市区町村名辞書”に入れ替え、（7）「市区町村名をどうぞ」とガイダンスメッセージを出力し、ユーザに対して市区町村名の発話を促す。これに対してユーザが例えば（8）「新宿区」と発話すると音声認識システムが発話を認識する。
【０００７】
システム側は音声認識辞書を”東京都の市区町村名辞書から”東京都新宿区に存在しかつ大学に属する施設名称を認識対象語句とした”大学名称辞書”に入れ替え、（9）「名称をどうぞ」とガイダンスメッセージを出力し、指定地点の具体的名称の発話を促す。ここで、ユーザが「○○大学」と発話すると音声認識システムが認識しナビゲーションが○○大学を目的地として設定する。このように対象地点の条件を入力して、対象地点の数を減らして、絞込まれた対象地点の固有名称の入力が行われる。
【０００８】
【発明が解決しようとする課題】
ところで、上述した絞込条件や条件の入力の順序は予決められているため、ユーザが知らない条件の入力が催促されるという事態が発生する。その際にユーザがその催促に応答できなかった場合、以降継続する絞込条件の入力を行うステップへ進むことができなくなってしまう。そのため、目的とする対象地点の具体的名称を発話することなく、地点の指定を断念しなければならないことになり、操作性や応答性の面で難があった。
【０００９】
本発明は上記事情に鑑みてなされたものであり、システムから求められた条件の入力を飛ばして、続く条件の入力へ進むための基準音声情報（以下階層飛ばし語句と称する）として「わからない」、「バス」などを用意しておき、ユーザの階層飛ばし語句の入力を受けて、地点の指定を行うための以降の継続するステップに進むことのできる仕組みを構築し、操作性や応答性の改善をはかった音声認識装置ならびに音声認識方法を提供することを目的とする。
【００１０】
【課題を解決するための手段】
上述した課題を解決するために請求項１に記載の発明は、階層構造をなし、複数の基準音声情報を有する複数の音声認識辞書と、前記複数の音声認識辞書から適切な音声認識辞書を抽出する抽出手段と、入力された音声と、前記複数の音声認識辞書から抽出された音声認識辞書内の基準音声情報とを比較することによって入力された前記音声を認識する認識手段とを備え、所定の音声認識辞書に階層飛ばしを示す基準音声情報が用意されており、前記認識手段が階層飛ばしを示す基準音声情報に相当する音声の入力を認識した際に、比較対象となっていた基準音声情報の下位階層に属する音声認識辞書を前記抽出手段が抽出し、前記認識手段が前記階層飛ばしを示す基準音声情報に相当する音声の入力後に新たに入力された音声を認識することを特徴する。
【００１１】
請求項２に記載の発明は、請求項１に記載の音声認識装置において、前記認識手段によって認識された音声に相当する基準音声情報の下位階層に属する音声認識辞書内の基準音声情報の語句の数を判定し、この数が基準値を超えているか判断する判断手段を備え、前記判断手段が前記語句の数が前記基準値を超えていると判断したとき、前記抽出手段が下位階層に属する前記音声認識辞書の一部の音声認識辞書を抽出し、前記認識手段が入力された音声と抽出された基準音声情報とを順次比較することにより、類似する基準音声情報を認識し、前記比較を終了した後、前記抽出手段が下位階層に属する前記音声認識辞書のうち未抽出の辞書を抽出し、前記認識手段が新たに抽出された辞書に属する基準音声情報と入力された音声とを順次比較し、類似する基準音声情報を認識し、複数の類似する前記基準音声情報の中から、入力された音声に相当する基準音声情報をさらに選出することを特徴とする。
【００１２】
請求項３に記載の発明は、請求項２に記載の音声認識装置において、全ての類似する基準音声情報における一つを前記認識手段が認識し、認識結果とすることを特徴とする。
【００１３】
請求項４に記載の発明は、請求項２に記載の音声認識装置において、抽出された基準音声情報の内、複数の類似する基準音声情報を含む全ての類似する基準音声情報のなかから更に認識結果を選出する選出手段を備えることを特徴とする。
【００１４】
請求項５に記載の発明は、階層構造をなす複数の音声認識辞書の中から基準音声情報を抽出し、抽出された基準音声情報と入力された音声とを比較することにより音声を認識する音声認識方法であって、所定の音声認識辞書に階層飛ばしを示す基準音声情報が用意されており、前記階層飛ばしを示す基準音声情報に相当する音声の入力を認識した際に、比較対象となっていた基準音声情報の下位階層に属する音声認識辞書を抽出して前記階層飛ばしを示す基準音声情報に相当する音声の入力後に新たに入力された音声を認識することを特徴とする。
【００１５】
請求項６に記載の発明は、請求項５に記載の音声認識方法において、認識された基準音声情報の下位階層に属する音声認識辞書の中の基準音声情報の数を判断し、その数が基準値を超えていると判断されたとき、下位階層に属する前記音声認識辞書の一部を抽出して、比較することにより類似する基準音声情報を認識し、抽出された基準音声情報との比較が終了した後、下位階層に属する前記音声認識辞書の中から未抽出の音声認識辞書を抽出し、比較することにより類似する基準音声情報を認識し、複数の類似する前記基準音声情報の中から、入力された音声に相当する基準音声情報をさらに選出することを特徴とする。
【００１９】
上記構成により、指定地点の絞込みをおこなう際に、ユーザが知らない条件の入力をシステムから求められた場合に、階層飛ばしを示す基準音声情報（「わからない」と発話）を入力ことにより、検索を継続することができ、操作性ならびに応答性の改善がはかれる。なお、この場合、絞込条件は予めシステムによって設定されていた数より少なくなってしまうため、最終的に名称を発話する際の認識対照語句の数が大きくなり、認識率が低下する可能性はあるが、検索を継続することが可能となり、操作性、応答性の面での効果が大きい。また、認識対象語句の増加により、メモリの容量が問題となるが、複数に分けて認識処理を行うことでこれを回避することができる。
【００２３】
【発明の実施の形態】
以下、本発明の実施例を示す図面を参照しつつ詳細に説明する。
【００２４】
カーナビゲーション装置に設けられた音声認識装置の一実施形態を示すブロック図を図１に示す。本発明の音声認識装置は、マイク１００と、特徴量計算部１０１と、認識部１０２と、ＲＡＭ１０３と、認識辞書記憶部１０４と、認識辞書選択部１０５と、特徴量記憶部１０６と、認識結果記憶部１０７と、認識結果統合部１０８と、音声合成部１０９と、制御部１１０と、スピーカ１１１と、結果表示部１１２と、検索部１１３で構成される。
【００２５】
マイク１００はユーザが発話した音声を入力し、特徴量計算部１０１に出力する。
【００２６】
特徴量計算部１０１は、マイク１００によって取り込まれた音声信号をＰＣＭ（Pulse Code Modulation）データに変換し、当該ＰＣＭデータを音声認識に適した特徴量に変換し、認識部１０２と特徴利用記憶部１０６へ出力する。特徴量記憶部１０６は、計算された特徴量を記憶するとともに認識部１０２へ供給する。
【００２７】
認識辞書記憶部１０４は、認識対象語句となる複数の基準音声情報を有する複数の音声認識辞書を互いに階層的に関連付けて記憶しているものである。辞書の種類として、複数の絞込条件毎に設けられた絞込条件辞書と、絞込条件の組み合わせによって分類される最終的な地点名称辞書とがある。地点名称辞書とは、例えば、”○○県××市に存在する教育施設に属する大学の全ての大学名称を示す基準音声情報を有する辞書”や”○○県××市に存在する病院に属する診療所の全ての診療所名称を示す基準音声情報を有する辞書”等、各地点に存在する具体的な各々の施設の名称を示す基準音声情報を記憶したものである。また、絞込条件辞書としては、地点検索を行うための都道府県名称等広い地域を示す地域名称を示す基準音声情報を記憶した都道府県名称辞書や、各都道府県毎に設けられ、各都道府県に属する市区町村名等狭い地域を示す地域名称を示す基準音声情報を記憶した市区町村名所辞書や、指定地点に存在する施設の種類等の大分類ジャンル名称を示す基準音声情報を記憶したジャンル名称辞書、及び、それぞれの大分類ジャンル毎に設けられ、各大分類ジャンルに属するサブジャンル名称を示す基準音声情報を記憶したサブジャンル名称辞書等がある。
【００２８】
なお、一般的に最下層の地点名称の総数は極めて多く、音声認識辞書用のＲＡＭの容量及び認識率の点から、一度に認識する数としては実用的でないため、各地点名称辞書の地点名称の数（サイズ）がそれぞれ利用可能なＲＡＭ１０３の容量によって決定される基準数未満となるように、上述のように音声認識辞書が階層構造をなすとともに、複数の絞込条件の組合わせ毎に地点名称を分類し、分類毎に地点名称辞書が設けられている。
【００２９】
認識辞書選択部１０５は、制御部１１０からの認識対象とする音声認識辞書の抽出等の指令に応じて、認識辞書記憶部１０４の中から認識対象とする音声認識辞書を選択して抽出し、ＲＡＭ１０３に供給する。ＲＡＭ１０３は、音声認識辞書が供給される毎に、認識対象となる基準音声情報を供給された音声認識辞書のものに更新記憶する。
【００３０】
認識部１０２は、入力音声が変換された特徴量もしくは特徴量記憶部１０６に記憶された入力音声が変換された特徴量と、ＲＡＭ１０３にロードされた音声認識辞書中の基準音声情報との類似度を計算し、類似度の高い基準音声情報及びその類似度（スコア）を認識結果として、認識結果記憶部１０７及び制御部１１０に出力する。
認識結果記憶部１０７には、認識部１０２により認識された認識結果（絞込条件または地点名称）もしくは制御部１１０から供給された認識結果を記憶するとともに、認識結果統合部１０８及び制御部１１０に出力する。認識結果統合部１０８は、認識結果記憶部１０７に複数の地点名称が認識結果として記憶されている場合に、類似度の高い方からＫ個を決定し新たな認識結果として、制御部１１０へ供給する。そして、制御部１１０は、認識結果統合部１０８から供給された新たな認識結果を、第２認識結果として記憶更新すべく認識結果記憶部１０７に出力する。
【００３１】
音声合成部１０９は、制御部１１０からの指令によって、ガイダンスメッセージやエコーバック用の合成音声を作成し、スピーカ１１１に供給する。スピーカ１１１は音声合成部１０９から供給された音声を出力する。
【００３２】
検索部１１１は、図示せぬ地図データ等のデータベースを備えており、制御部１１０からの指令によって、音声認識によって最終的に指定された地点の所在地図や住所や電話番号やサービス内容等の詳細な施設情報をデータベースから検索する。結果表示部１１２は、音声操作を行う際の認識結果、認識対象語句、ガイダンスメッセージ、エコーバック等とともに、検索部１１１によって検索された詳細な施設情報を表示するディスプレイである。
【００３３】
制御部１１０は、上述した各構成から出力される出力結果に応じて各構成を制御するものである。即ち、制御部１１０は、音声操作による地点の指定がなされる際に、まず、ジャンル名称辞書を認識辞書選択部１０５が認識辞書記憶部１０４から取り出し、ＲＡＭ１０３に認識対象となる基準音声情報として設定するように制御する。更に、認識部１０２から得られる認識結果や認識結果記憶部１０７に記憶された認識結果（絞込条件）を基に、適切な音声認識辞書を抽出すべく認識辞書選択部１０５への指示を行うとともに、音声合成部１０９へガイダンスメッセージの作成を指示する。
【００３４】
また、認識結果統合部１０８から供給された新たな認識結果を、現在の認識結果として記憶更新すべく認識結果記憶部１０７に出力する。更に、最終的な認識結果（地点名称）を受けて、合成音声による認識結果のエコーバック、結果表示部１１２への結果表示、検索部１１３への検索指示等を行う。制御部１１０の動作の詳細についてはフローチャートを用いて後述する。
【００３５】
ここで、認識辞書記憶部１０４に記憶されている複数の音声認識辞書が、互いに関連付けられて階層構造を形成している様を図２乃至図４を用いて説明する。
【００３６】
なお、図２乃至図４は音声認識辞書の具体例の一部のみが示されている。まず、最上位の第１階層の辞書として、階層飛ばし語句としての「わからない」及び「駅名」、「病院」、「宿泊施設」などのジャンル名称を示す基準音声情報を有するジャンル名称辞書（図２の２００、図３の３００、図４の４００）が設けられている。
【００３７】
第１階層に続く第２階層の辞書として、駅名、病院、宿泊施設などの各ジャンル名称に属するサブジャンル名称を示す基準音声情報を有する、サブジャンル名称辞書（図２の２０１、図３の３０２乃至３０５、図４の４０２乃至４０５）が、ジャンル名称毎に設けられている。また、サブジャンル名称を示す基準音声情報としては、例えば、病院のサブジャンル名称辞書では、診療所、内科、外科等に相当するサブジャンル名称を示す基準音声情報、及び階層飛ばし語句としての「わからない」を示す基準音声情報がある。
【００３８】
更に、第２階層のサブジャンル名称辞書に続く第３階層の辞書として、日本全国の都道府県名称を示す基準音声情報及び階層飛ばし語句としての「わからない」を示す基準音声情報を有する都道府県名称辞書（図２の２０２、図３の３０６、図４の４０６）が設けられている。
【００３９】
また、第３階層の都道府県名称辞書に続く第４階層の辞書として、各都道府県に存在する市区町村名称を示す基準音声情報及び階層飛ばし語句としての「わからない」を示す基準音声情報を有する市区町村名称辞書（図２の２０３、図３の３０８乃至３１１、図４の４０８乃至４１１）が、各都道府県名称毎に設けられている。
【００４０】
そして、最下位の第５階層の辞書として、具体的な地点を示す該地点に存在する施設の固有名称などの地点名称（目的語）を示す基準音声情報を有する地点名称辞書（図２の２０４乃至２１０、図３の３１２乃至３１９、図４の４１３乃至４２０）が、第１階層から第４階層の絞込条件の組合わせ毎に設けられている。
【００４１】
以下に順次条件の絞込みを行い、地点の指定を行う検索手順の例について説明する。
〔例１〕
本例は、システムから催促それる絞込条件をユーザが全て把握している場合の検索手順の例であり、ここでは埼玉県川越市の病院（診療所）の栗田医院を指定する例を、図２を用いて説明する。なお、図２における太線の矢印にて検索手順を示す。
【００４２】
はじめに対象地点に存在する施設の種別（以下ジャンルと称する）での絞り込みを行う。”
ジャンル名称辞書”２００を用意するとともに、（1）「ジャンルの名称をどうぞ」とガイダンスメッセージを出力し、ユーザに対してジャンル名称の発話を促す。これに対してユーザがジャンル名称として例えば（2）「病院」と発話すると、音声認識システムが”ジャンル名称辞書”２００を認識対象として発話を認識する。
【００４３】
更なる絞込みを行うため、認識対象の”ジャンル名称辞書”２００を”病院のサブジャンル名称辞書”２０１に入れ替えるとともに、（3）「次のジャンルの名称をどうぞ」とガイダンスメッセージを出力し、ユーザに対してサブジャンル名称の発話を促す。これに対してユーザがサブジャンル名称として例えば（4）「診療所」と発話すると、音声認識システムが”病院のサブジャンル名称辞書”２０１を認識対象として発話を認識する。
【００４４】
サブジャンルが確定すると、更に地域での絞込みを行う。認識対象の”病院のサブジャンル名称辞書”２０１を”都道府県名称辞書”２０２に入れ替えるとともに、（5）「都道府県名をどうぞ」とガイダンスメッセージを出力し、ユーザに対して都道府県名称の発話を促す。これに対してユーザが都道府県名称として例えば（6）「埼玉県」と発話すると、音声認識システムが”都道府県名称辞書”２０２を認識対象として発話を認識する。
【００４５】
都道府県が確定すると、更に詳細な地域での絞込みを行う。認識対象の”都道府県名称辞書”２０２を”埼玉県の市町村名称辞書”２０３に入れ替えるとともに、（7）「市区町村名をどうぞ」とガイダンスメッセージを出力し、ユーザに対して市区町村名称の発話を促す。これに対してユーザが市区町村名称として例えば（8）「川越市」と発話すると、音声認識システムが”埼玉県の市町村名称辞書”２０３を認識対象として発話を認識する。
【００４６】
ここで、システム側は認識対象の”埼玉県の市町村名称辞書”２０３を”埼玉県の川越市の診療所の地点名称辞書”２０４に入れ替えるとともに、（9）「名称をどうぞ」とガイダンスメッセージを出力し、指定地点の具体的名称の発話を促す。これに対してユーザが地点名称として（10）「栗田医院」と発話すると、音声認識システムが”埼玉県の川越市の病院の診療所の地点名称辞書”２０４を認識対象として発話を認識する。
【００４７】
〔例２〕
本例は、システムから催促される絞込条件のうち対象地点が存在する市区町村名称をユーザが把握していない場合の検策手順の例であり、ここでは埼玉県の病院（診療所）の小林医院を指定する例を示す。なお、本例の検索手順を図３（ａ）における太線の矢印にて示す。
【００４８】
はじめに、対象地点に存在する施設の種別（以下ジャンルと称する）での絞込みを行う。”ジャンル名称辞書”３００を用意するとともに、（1）「ジャンルの名称をどうぞ」とガイダンスメッセージを出力し、ユーザに対してジャンル名称の発話を促す。これに対してユーザがジャンル名称として例えば（2）「病院」と発話すると、音声認識が”ジャンル名称辞書”３００を認識対象として発話を認識する。
【００４９】
更なる絞込みを行うため、認識対象の”ジャンル名称辞書”３００を”病院のサブジャンル名称辞書”３０３に入れ替えるとともに、（3）「次のジャンルの名称をどうぞ」とガイダンスメッセージを出力し、ユーザに対してサブジャンル名称の発話を促す。これに対してユーザがサブジャンル名称として例えば（4）「診療所」と発話すると、音声認識システムが”病院のサブジャンル名称辞書”３０３を認識対象として発話を認識する。
【００５０】
サブジャンルが確定すると、更に地域での絞込みを行う。認識対象の”病院のサブジャンル名称辞書”３０３を”都道府県名称辞書”３０６に入れ替えるとともに、（5）「都道府県名をどうぞ」とガイダンスメッセージを出力し、ユーザに対して都道府県名称の発話を促す。これに対してユーザが都道府県名称として例えば（6）「埼玉県」と発話すると、音声認識システムが”都道府県名称辞書”３０６を認識対象として発話を認識する。
【００５１】
都道府県が確定すると、更に詳細な地域での絞込みを行う。認識対象の”都道府県名称辞書”３０６を”埼玉県の市町村名称辞書”３０９に入れ替えるとともに、（7）「市区町村名をどうぞ」とガイダンスメッセージを出力し、ユーザに対して市区町村名称の発話を促す。これに対してユーザが市区町村名称を把握しておらず（8）「わからない」と階層飛ばし語句を発話すると、”埼玉県の市町村名称辞書”３０９を認識対象として発話を認識する。
【００５２】
第４階層にて階層飛ばし語句が発話された場合は、システム側は、第４階層の”埼玉県の市町村名称辞書”３０９内の市町村名称の入力を催促せずに第４階層の辞書の絞込条件の入力を飛ばし、第４階層にて”埼玉県の市町村名称辞書”３０９内の全ての市町村名称を絞込条件として入力されたものとし、第５階層の辞書として”埼玉県の全ての市町村の病院の診療所の辞書”３１３乃至３１６を抽出してまとめて”埼玉県の病院の診療所の辞書”３１２を作成し、認識対象の”埼玉県の市町村名称辞書”３０９を”埼玉県の病院の診療所の辞書”３１２に入れ替えるとともに、（9）「名称をどうぞ」とガイダンスメッセージを出力し、指定地点の具体名称の発話を促す。これに対してユーザが地点名称として（10）「小林医院」と発話すると、音声認識システムが”埼玉県の病院の診療所の辞書”３１２を認識対象として発話を認識する。
【００５３】
尚、上述の図３（ａ）は、ある階層での絞込条件の入力の際に飛ばし語句を発話すると、その階層での絞込条件の入力を飛ばして、すぐ下位の階層に進み絞込条件の入力を催促する例である。しかしながら、ジャンル名称が不明な時はサブジャンル名称も不明である可能性が高く、また、都道府県名称が不明な時は市区町村名称も不明な可能性が高いため、図３（ｂ）に示すように、所定の階層にて飛ばし語句を発話した場合すぐ下位の階層へ進むのではなく、階層飛ばし語句の階層に応じて、２つ下の階層へ進むなどするように飛ばし先を設定することも考えられる。
【００５４】
〔例３〕
本例は、システムから催促される絞込条件のうち対象地点に存在する施設のサブジャンルをユーザが把握していない場合の検索手順の例であり、ここでは埼玉県川越市の病院の斉藤医院を指定する例を示す。なお、本例の検索手順を図４における太線の矢印にて示す。
【００５５】
はじめに対象地点に存在する施設の種別（以下ジャンルと称する）での絞込みを行う。”ジャンル名称辞書”４００を用意するとともに、（1）「ジャンルの名称をどうぞ」とガイダンスメッセージを出力し、ユーザに対してジャンル名称の発話を促す。これに対してユーザがジャンル名称として例えば（2）「病院」と発話すると、音声認識システムが”ジャンル名称辞書”４００を認識対象として発話を認識する。
【００５６】
更なる絞込みを行うため、認識対象の”ジャンル名称辞書”４００を”病院のサブジャンル名称辞書”４０３に入れ替えるとともに、（3）「次のジャンルの名称をどうぞ」とガイダンスメッセージを出力し、ユーザに対してサブジャンル名称の発話を促す。これに対してユーザがサブジャンル名称を把握しておらず（4）「わからない」と階層飛ばし語句を発話すると、音声認識システムが”病院のサブジャンル名称辞書”４０３を認識対象として発話を認識する。
【００５７】
第２階層にて階層飛ばし語句が発話された場合は、システム側は、第２階層の”病院のサブジャンル名称辞書”４０３内のサブジャンル名称の入力を催促せずに第２階層の辞書の絞込条件の入力を飛ばし、第２階層にて”病院のサブジャンル名称辞書”４０３内の全てのサブジャンル名称を絞込条件として入力されたものとして、第３階層の認識対象の辞書として”病院のサブジャンル名称辞書”４０３を”都道府県名称辞書”４０６に入れ替えるとともに、（5）「都道府県名をどうぞ」とガイダンスメッセージを出力し、ユーザに対して都道府県名称の発話を促す。これに対してユーザが都道府県名称として例えば（6）「埼玉県」と発話すると、音声認識システムが”都道府県名称辞書”４０６を認識対象として発話を認識する。
【００５８】
都道府県が確定すると、更に詳細な地域での絞込みを行う。認識対象の”都道府県名称辞書”４０６を”埼玉県の市町村名称辞書”４０９に入れ替えるとともに、（7）「市区町村名をどうぞ」とガイダンスメッセージを出力し、ユーザに対して市区町村名称の発話を促す。これに対してユーザが市区町村名称として例えば（8）「川越市」と発話すると、音声認識システムが”埼玉県の市町村名称辞書”４０９を認識対象として発話を認識する。
【００５９】
ここで、システム側は、”埼玉県の川越市の病院の辞書全て”４１７乃至４２０を抽出しまとめて”埼玉県川越市の病院の辞書”４１３を作成し、認識対象の”埼玉県の市町村名称辞書”３０９を”埼玉県川越市の病院の辞書”４１３に入れ替えるとともに、（9）「名称をどうぞ」とガイダンスメッセージを出力し、指定地点の具体的名称の発話を促す。これに対してユーザが地点名称として（10）「斉藤医院」と発話すると、音声認識システムが”埼玉県川越市の病院の辞書”４１３を認識対象として発話を認識する。
【００６０】
図５乃至図７は、本発明実施形態の動作を説明するために引用したフローチャートである。
【００６１】
以下、図５乃至図７に示すフローチャートを参照しながら、図１乃至図３に示す本発明実施形態の動作について詳細に説明する。
【００６２】
図５において、まず制御部１１０は、図示せぬ発話ボタン等によりユーザからの音声入力による地点検索の検索開始要求がなされることを検出する。（ステップＳ５００）。検出されなければ（ステップＳ５００ＮＯ）待機する。検出されたら（ステップＳ５００ＹＥＳ）認識結果記憶部１０７に記憶されている前回の絞込条件、すなわちジャンル名称、サブジャンル名称、都道府県名称、市区町村名称、及び指定地点の固有名称を全てクリアする（ステップＳ５０１）。認識辞書記憶部１０４に記憶された音声認識辞書の中からジャンル名称辞書を認識辞書選択部１０５に抽出させ、ジャンル名称辞書内の各ジャンル名称を認識対象語句とすべく各ジャンル名称を示す基準音声情報をＲＡＭ１０３にロードする（ステップＳ５０２）。
【００６３】
制御部１１０は、ユーザにより発話された入力音声（ジャンル名または「わからない」）に対し、ＲＡＭ１０３にロードされた音声認識辞書を対象として認識部１０２に認識処理を行わせ、認識結果を制御部１１０へ出力させる（ステップＳ５０３）。ステップＳ５０３で得られた認識結果が「わからない」等の階層飛ばし語句の場合、（ステップＳ５０４ＹＥＳ）、ステップＳ５０５のジャンル名称による絞込条件の設定処理を飛ばして、ステップＳ５０６の処理へ進む。一方、ステップＳ５０３で得られた認識結果が、いずれのジャンル名称であつた場合、（ステップＳ５０４ＮＯ）、認識されたジャンル名称を絞込条件として認識結果記憶部１０７に記憶する（ステップＳ５０５）。
【００６４】
続いて、制御部１１０は、認識辞書記憶部１０４に記憶されている音声認識辞書の中から、認識辞書選択部１０５に現在ＲＡＭ１０３に認識対象語句として記憶されているジャンル名称辞書に続く下位階層に属するサブジャンル名称辞書を抽出させ、抽出されたサブジャンル名称辞書内のサブジャンル名称を認識対象語句とすべく各サブジャンル名称を示す基準音声情報をＲＡＭ１０３にロードする（ステップＳ５０６）。なお、ここでロードされるサブジャンル名称は、ステップＳ５０３での認識結果が「わからない」等の階層飛ばし語句であった場合、ステップＳ５０２にてＲＡＭ１０３に認識対象語句としてセットされていたジャンル名辞書内の基準音声情報に属する下位階層に相当する全てのサブジャンル名辞書を選択するため、すべてのサブジャンル名称を認識対象語句としてＲＡＭ１０３にロードする。一方、ステップＳ５０３での認識結果が何らかのジャンル名称であった場合、認識されたジャンル名称に属するサブジャンル名称の音声認識辞書を選択して、選択されたサブジャンル名称辞書内のサブジャンル名称を対象語句としてＲＡＭ１０３にロードする。
【００６５】
ユーザにより発話された入力音声（サブジャンル名または「わからない」）に対し、ＲＡＭ１０３にロードされた音声認識辞書を対象として認識部１０２に認識処理を行わせ、認識結果を制御部１１０へ出力させる（ステップＳ５０７）。
【００６６】
ステップＳ５０７にて得られた認識結果が「わからない」等の階層飛ばし語句の場合は、（ステップＳ５０８ＹＥＳ）、ステップＳ５０９のサブジャンル名称による絞込条件の設定処理を飛ばして、ステップＳ５１０に進む。一方、ステップＳ５０７にて得られた認識結果が、いずれかのサブジャンル名称であった場合、（ステップＳ５０８ＮＯ）、認識されたサブジャンル名称を絞込条件として認識結果記憶部１０７に設定する（ステップＳ５０９）。
【００６７】
認識辞書記憶部１０４に記憶された音声認識辞書の中から、都道府県名称辞書を認識辞書選択部１０５に抽出させ、抽出させた都道府県名称辞書内の都道府県名称を認識対象語句とすべく各都道府県名称を示す基準音声情報をＲＡＭ１０３にロードする（ステップＳ５１０）。なお、ここでロードされる都道府県名称は、ステップＳ５０７での認識結果が「わからない」等の階層飛ばし語句あった場合も、何らかのサブジャンル名であった場合も、都道府県名称辞書を選択して、選択された都道府県名称辞書内の都道府県名称を認識対象語句としてＲＡＭ１０３にロードする。
【００６８】
ユーザにより発話された入力音声（都道府県名称または「わからない」）に対し、ＲＡＭ１０３にロードされた音声認識辞書を対象として認識部１０２に認識処理を行わせ、認識結果を制御部１１０へ出力させる（ステップＳ５１１）。ステップＳ５１１で得られた認識結果が「わからない」等の階層飛ばし語句の場合は（ステップＳ５１２ＹＥＳ）、ステップＳ５１３の都道府県名称による絞込条件の設定処理を飛ばして、ステップＳ５１４に進む。一方、ステップＳ５１１で得られた認識結果がいずれかの都道府県名称であった場合（ステップＳ５１２ＮＯ）、認識された都道府県を絞込条件として認識結果記憶部１０７に設定する（ステップＳ５１３）。
【００６９】
認識辞書記憶部１０４に記憶された音声認識辞書の中から、認識辞書選択部１０５に市区町村名称辞書を抽出させ、市区町村名称を認識対象語句とすべく各市区町村名称を示す基準音声情報をＲＡＭ１０３にロードする（ステップＳ５１４）。
【００７０】
なお、ここでロードされる市区町村名称は、ステップＳ５１１での認識結果が「わからない」等の階層飛ばし語句あった場合、ステップＳ５１０にてセットされていた全国全ての都道府県名称辞書内の基準音声情報に属する下位階層に相当する全国全ての市区町村名称辞書を選択して、すべての市区町村名称を認識対象語句としてＲＡＭ１０３にロードする。一方、ステップＳ５１１での認識結果が何らかの都道府県名であった場合、認識された都道府県に存在する市区町村の音声認識辞書を抽出させ、抽出された市区町村名称辞書内の市区町村名称を認識対象語句としてＲＡＭ１０３にロードする。
【００７１】
ユーザにより発話された入力音声（市区町村名称または「わからない」）に対し、ＲＡＭ１０３にロードされた音声認識辞書を対象として認識部１０２に認識処理を行わせ、認識結果を制御部１１０へ出力させる。（ステップＳ５１５）。ステップＳ５１５で得られた認識結果が「わからない」等の階層飛ばし語句の場合は（ステップＳ５１６ＹＥＳ）、ステップＳ５１７の市区町村名称による絞込条件の設定処理を飛ばしてステップＳ５１８へ進む。一方、ステップＳ５１５で得られた認識結果がいずれかの市区町村名であった場合（ステップＳ５１６ＮＯ）、認識された市区町村を絞込条件として認識結果記憶部１０７に設定する（ステップＳ５１７）。
【００７２】
認識辞書記憶部１０４に記憶された音声認識辞書でステップＳ５０５、Ｓ５０９、Ｓ５１３、Ｓ５１７の処理で認識結果記憶部１０７に記憶された絞込条件を満たす地点名称辞書内の基準音声情報の数（サイズ）の総和を計算する（ステップＳ５１８）。地点名称辞書のサイズの総和が、ＲＡＭ１０３の容量に応じて設定された基準数を越える場合は（ステップＳ５１９ＮＯ）、認識対象となる全ての地点名称辞書に対して複数回認識処理を行う（ステップＳ５２０）。地点名称辞書のサイズの総和がＲＡＭ１０３の容量以下の場合は（ステップＳ５１９ＹＥＳ）、記憶された絞込条件を満たす全ての地点名称辞書内の地点名称を認識対象語句とすべく各地点名称を示す基準音声情報をＲＡＭ１０３にロードし（ステップＳ５２１）、通常の認識処理を行う（ステップＳ５２２）。そして、ステップＳ５２０またはステップＳ５２２で得られた認識結果である地点名称を出力させる（ステップＳ５２３）。
【００７３】
尚、上述のフローチャートでは、絞込条件としてジャンル名称の入力を飛ばした場合、即ちステップＳ５０３で得られた認識結果が「わからない」等の階層飛ばし語句であった場合（ステップＳ５０４ＹＥＳ）、ステップＳ５０５のジャンる名称による絞込条件の設定処理のみを飛ばして、ステップＳ５０６の処理へ進むようになっているが、上述の例に限らず、ジャンル名称がわからない場合サブジャンル名称もわからない可能性が高いため、サブジャンル名称の入力も飛ばして、ステップＳ５１０の処理へ進むようにしてもよい。
【００７４】
図５の示すステップＳ５０３、Ｓ５０７、Ｓ５１１、Ｓ５１５、Ｓ５２２におけるユーザにより入力された音声に対する認識部１０２の各認識処理の詳細手順について、図６のフローチャートを用いて説明する。
【００７５】
図６において、マイク１００からの音声の入力が開始されたか否かを判断する（ステップＳ６００）。音声の入力の検出方法としては、特微量計算部１０１にて、予め音圧レベルに関する閾値と基準時間とを記憶しておき、マイク１００からの入力信号の音圧レベルと閾値とを比較し、入力信号が所定の閾値を越えた状態が、基準時間以上継続した場合に、音声の入力が開始されたとみなす等の方法が考えられる。
【００７６】
音声開始が検出されると、特徴量計算部１０１にて入力音声を音声認識に適した特徴量に変換させ（ステップＳ６０１）、特徴量記憶部１０６に記憶させるとともに、特徴量計算部１０１から認識部１０２に供給させる。認識部１０２にて、供給された特徴量とＲＡＭ１０３にロードされている各基準音声情報との類似度を計算する（ステップＳ６０２）。そして、音声の入力が終了されたか否かを判断する（ステップＳ６０３）。尚、音声の終了の検出方法としては、特微量計算部１０１にて、予め音圧レベルに関する閾値と基準時間とを記憶しておき、マイク１００からの入力信号の音圧レベルと閾値をそれぞれ比較し、入力信号が閾値以下の状態が所定時間以上続いた場合に、音声の入力が終了したとみなす等の方法が考えられる。
【００７７】
音声が終了していないと判断された場合（ステップＳ６０３ＮＯ）、ステップＳ６０１の処理へ戻る。一方、音声が終了したと判断された場合（ステップＳ６０３ＹＥＳ）、ステップＳ６０２にて求められた類似度の高い基準音声情報とその類似度とを対応づけて認識結果として、制御部１１０及び認識結果記憶部１０７に出力し、認識結果記憶部１０７に記憶させる（ステップＳ６０４）。
【００７８】
図５のフローチャートにて述べた、ステップＳ５１８にて求められた地点名称辞書のサイズの総和が、ＲＡＭ１０３の容量に入りきらない場合（ステップＳ５１９ＮＯ）に、ステップＳ５２０にて行われる複数回認識処理について、図７のフローチャートを用いて説明する。複数回認識処理とは、１回の入力音声に対して認識対象とする辞書（Ｎ個）を切り替えながら認識処理を繰り返し、それぞれの辞書に対する認識結果を統合し、最終的に全体としての認識結果を決定することである。
【００７９】
図７において、認識辞書記憶部１０４に記憶された辞書でステップＳ５０５、Ｓ５０９、Ｓ５１３、Ｓ５１７の処理において認識結果記憶部１０７に記憶された絞込条件を満たす地点名称辞書の数（Ｎ）をカウントする（ステップＳ７００）。続いて辞書番号ｎ＝１とする。（ステップＳ７０１）。ここで、絞込条件を満たす地点名称辞書のうち、管理番号が一番若い地点名称辞書を辞書番号１の地点名称辞書とし、認識辞書選択部１０５に辞書番号ｎ（＝１）番目の地点名称辞書を認識辞書記憶部１０４から抽出させ、抽出した地点名称辞書の地点名称を認識対象語句とすべく各地点名称を示す基準音声情報をＲＡＭ１０３にロードする（ステップＳ７０２）。ここで、管理番号とは、認識辞書記憶部１０４に記憶された音声認識辞書各々に順番につけられた番号のことである。
【００８０】
次に、マイク１００から音声の入力が開始されたか否かを判断する（ステップＳ７０３）。音声の入力の検出方法としては、特徴量計算部１０１にて、予め音圧レベルに関する閾値と基準時間とを記憶しておき、マイク１００からの入力信号の音圧レベルと閾値をそれぞれ比較し、入力信号が所定の閾値を越えた状態が、基準時間以上継続した場合に、音声の入力が開始されたとみなす等の方法が考えられる。
【００８１】
音声開始が検出されると、特徴量計算部１０１にて入力音声を音声認識に適した特徴量に変換させ（ステップＳ７０４）、特徴量記憶部１０６に記憶させ（ステッフ゜Ｓ７０５）、特徴量記憶部１０６から認識部１０２に供給させる。認識部１０２にて、供給された特徴量とＲＡＭ１０３にロードされている全ての基準音声情報との類似度を計算させる（ステップＳ７０６）。そして、音声の入力が終了したか否かを判断する（ステップＳ７０７）。
【００８２】
尚、音声の終了の検出方法としては、特徴量抽出部１０１にて、予め音圧レベルに関する閾値と基準時間とを記憶しておき、マイク１００からの入力信号の音圧レベルと閾値をそれぞれ比較し、入力信号が所定の閾値以下の状態が所定時間続いた場合に、音声の入力が終了したとみなす等の方法が考えられる。
【００８３】
音声が終了していないと判断された場合（ステップＳ７０７ＮＯ）、ステップＳ７０４の処理へ戻る。一方、音声の終了したと判断された場合（ステップＳ７０７ＹＥＳ）、ステップＳ７０６にて求められた類似度の高い順にＫ個の基準音声情報を、その類似度とを対応づけて辞書番号ｎ＝１の地点名称辞書の認識結果として、認識結果記憶部１０７に出力し、認識結果記憶部１０７に記憶させる（ステップＳ７０８）。なお、Ｋは１以上の整数であり、適宜システム設計者によって設定される値である。
【００８４】
続いて辞書番号ｎ＝２とする（ステップＳ７０９）。辞書番号ｎが、ステップＳ７００にてカウントした認識対象辞書数（N）より大きいか否かが判断される（ステップＳ７１０）。辞書番号ｎが認識対象辞書数（Ｎ）以下であれば（ステップＳ７１０ＮＯ）、ステップＳ７１１の処理へ進む。絞込条件を満たす地点名称辞書のうち、管理番号がｎ番目に若い地点名称辞書を辞書番号＝ｎの地点名称辞書とし、認識辞書選択部１０５に辞書番号（ｎ）の地点名称辞書を認識辞書記憶部１０４から抽出させ、抽出した地点名称辞書の地点名称を認識対照語句とすべく各地点名称を示す基準音声情報をＲＡＭ１０３にロードする（ステップＳ７１１）。
【００８５】
入力音声の特徴量は既に特徴量記憶部１０６に記憶されているので、そこから認識部１０２へ供給し認識部１０２にて、供給された特徴量とＲＡＭ１０３にロードされている全ての基準音声情報との類似度を計算させる（ステップＳ７１２）。ステップＳ７１２にて求められた類似度の高い順にＫ個の基準音声情報を、その類似度とを対応づけて辞書番号ｎの地点名称辞書の認識結果として、認識結果記憶部１０７に出力し、認識結果記憶部１０７に記憶させる（ステップＳ７１３）。そして、辞書番号ｎを＝ｎ＋１にインクリメントとする（ステップＳ７１４）。以下、ステップＳ７１０にて辞書番号ｎが認識対象辞書数（Ｎ）を越えると判断されるまで、ステップＳ７１１〜ステップＳ７１４の処理を繰り返す。
【００８６】
一方、辞書番号ｎが認識対象辞書数（Ｎ）より大きければ（ステップＳ７１０ＹＥＳ）、ステップＳ７１５の処理へ進む。ステップＳ７１５では認識結果統合部１０８によって認識結果記憶部１０７に記憶されたＫ×Ｎ個の認識結果の中から類似度の高い順に第Ｋ個を第２認識結果として選択して、制御部１１０に出力させ、認識結果記憶手段１０７に更新記憶させる。尚、Ｋが１の場合は、ステップＳ７１５にて認識結果が１つ特定されるが、Ｋが２以上の場合は、Ｋ個の第２認識結果の中から、さらに１つを選択させるため、Ｋ個の第２認識結果を制御部１１０に出力し、結果表示部１１２にＫ個の地点名称を表示させ、図示せぬ操作釦にて選択させるようにする。もしくは、類似度が一番高いものを認識結果としてスピーカ１１１及び結果表示部１１２を用いてユーザに提示し、ユーザのＮＯ等の発話に応じて、続いて高い類似度のものを同様に提示し、ユーザが操作もしくはＹＥＳ等と発話されるまで順次提示して、認識結果から一つを決定するようにしてもよい。
【００８７】
なお、階層飛ばし語句としては、「わからない」という言葉は一例であり、システムが要求している情報をユーザが有していないことを表現する言葉であれば良く、例えば「パス」「次」等複数であっても良い。また、絞込の条件も「ジャンル名称」「サブジャンル名称」「都道府県名称」「市区町村名称」に限定されるものではなく、「地名名称」や「郵便番号」などでもよい。
【００８８】
【発明の効果】
以上説明のように本発明によれば、指定地点の絞込みをおこなう際に、ユーザが知らない条件の入力をシステムから求められた場合に、階層飛ばしを示す基準音声情報（「わからない」と発話）を入力ことにより、検索を継続することができ、操作性ならびに応答性の改善がはかれる。
【００８９】
なお、この場合、絞込条件は予めシステムによって設定されていた数より少なくなってしまうため、最終的に名称を発話する際の認識対照語句の数が大きくなり、認識率が低下する可能性はあるが、検索を継続することが可能となり、操作性、応答性の面での効果が大きい。また、認識対象語句の増加により、メモリの容量が問題となるが、複数に分けて認識処理を行うことでこれを回避することができる。
【図面の簡単な説明】
【図１】本発明における音声認識装置の実施形態を示すブロック図である。
【図２】本発明において使用される階層構造を持つ音声認識辞書の階層辞書ツリーの一例を示す図である。
【図３】本発明において使用される階層構造を持つ音声認識辞書の階層辞書ツリーの一例を示す図である。
【図４】本発明において使用される階層構造を持つ音声認識辞書の階層辞書ツリーの一例を示す図である。
【図５】本発明実施形態の音声認識処理による地点検索の動作を説明するために引用したフローチャートである。
【図６】本発明実施形態の音声認識処理動作を説明するために引用したフローチャートである。
【図７】本発明実施形態の複数回認識処理動作を説明するために引用したフローチャートである。
【符号の説明】
１００…マイク、１０１…特徴量計算部、１０２…認識部、１０３…ＲＡＭ、１０４…認識辞書記憶部、１０５…認識辞書選択部、１０６…特徴量記憶部、１０７…認識結果記憶部、１０８…認識結果統合部、１０９…音声合成部、１１０…制御部、１１１…スピーカ、１１２…結果表示部、１１３…検索部

Claims

階層構造をなし、複数の基準音声情報を有する複数の音声認識辞書と、
前記複数の音声認識辞書から適切な音声認識辞書を抽出する抽出手段と、
入力された音声と、前記複数の音声認識辞書から抽出された音声認識辞書内の基準音声情報とを比較することによって入力された前記音声を認識する認識手段とを備え、
所定の音声認識辞書に階層飛ばしを示す基準音声情報が用意されており、前記認識手段が階層飛ばしを示す基準音声情報に相当する音声の入力を認識した際に、比較対象となっていた基準音声情報の下位階層に属する音声認識辞書を前記抽出手段が抽出し、前記認識手段が前記階層飛ばしを示す基準音声情報に相当する音声の入力後に新たに入力された音声を認識する
ことを特徴する音声認識装置。
前記認識手段によって認識された音声に相当する基準音声情報の下位階層に属する音声認識辞書内の基準音声情報の語句の数を判定し、この数が基準値を超えているか判断する判断手段を備え、
前記判断手段が前記語句の数が前記基準値を超えていると判断したとき、前記抽出手段が下位階層に属する前記音声認識辞書の一部の音声認識辞書を抽出し、
前記認識手段が入力された音声と抽出された基準音声情報とを順次比較することにより、類似する基準音声情報を認識し、
前記比較を終了した後、前記抽出手段が下位階層に属する前記音声認識辞書のうち未抽出の辞書を抽出し、
前記認識手段が新たに抽出された辞書に属する基準音声情報と入力された音声とを順次比較し、類似する基準音声情報を認識し、複数の類似する前記基準音声情報の中から、入力された音声に相当する基準音声情報をさらに選出する
ことを特徴とする請求項１に記載の音声認識装置。
全ての類似する基準音声情報における一つを前記認識手段が認識し、認識結果とすることを特徴とする請求項２に記載の音声認識装置。
抽出された基準音声情報の内、複数の類似する基準音声情報を含む全ての類似する基準音声情報のなかから更に認識結果を選出する選出手段を備えることを特徴とする請求項２に記載の音声認識装置。
階層構造をなす複数の音声認識辞書の中から基準音声情報を抽出し、抽出された基準音声情報と入力された音声とを比較することにより音声を認識する音声認識方法であって、
所定の音声認識辞書に階層飛ばしを示す基準音声情報が用意されており、前記階層飛ばしを示す基準音声情報に相当する音声の入力を認識した際に、比較対象となっていた基準音声情報の下位階層に属する音声認識辞書を抽出して前記階層飛ばしを示す基準音声情報に相当する音声の入力後に新たに入力された音声を認識することを特徴とする音声認識方法。
認識された基準音声情報の下位階層に属する音声認識辞書の中の基準音声情報の数を判断し、その数が基準値を超えていると判断されたとき、下位階層に属する前記音声認識辞書の一部を抽出して、比較することにより類似する基準音声情報を認識し、抽出された基準音声情報との比較が終了した後、
下位階層に属する前記音声認識辞書の中から未抽出の音声認識辞書を抽出し、比較することにより類似する基準音声情報を認識し、
複数の類似する前記基準音声情報の中から、入力された音声に相当する基準音声情報をさらに選出することを特徴とする請求項５に記載の音声認識方法。