JP5326549B2

JP5326549B2 - 音声認識装置及び方法

Info

Publication number: JP5326549B2
Application number: JP2008325624A
Authority: JP
Inventors: 景子桂川
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2008-12-22
Filing date: 2008-12-22
Publication date: 2013-10-30
Anticipated expiration: 2028-12-22
Also published as: JP2010145930A

Description

本発明は、発話された音声を認識して音声を出力する音声認識装置及び方法に関する。

従来より、音声認識処理を行うことによりユーザが発話した単語を認識し、各種のシステム動作をする技術が知られている（例えば、下記の特許文献１を参照）。

この技術においては、単語と、当該単語の意味を表す意味番号とを設定し、意味番号に属する登録単語のリストである意味番号・登録単語リストを備えている。そして、音声認識処理によって単語を認識すると、当該単語を意味番号に変換し、当該意味番号をシステムに通知している。
特開平１１−３１２０７３号公報

しかしながら、上述した技術では、意味番号ごとに意味番号・登録単語リストを記憶する必要があり、システムのメモリ容量が増大してしまう。

そこで、本発明は、上述した実情に鑑みて提案されたものであり、少ないメモリ容量で音声認識に対する理解を行うことを目的とする。

本発明は、予め各単語と、音声における単語の役割により異なる符号位置に当該単語の意味情報を含む符号列とされた識別情報とを対応付けた単語テーブルを記憶手段に記憶しておく。本発明は、音声入力手段により音声を入力入力すると、音声認識をして音声認識結果として複数の単語を生成し、認識された複数の単語に対応した単語テーブルにおける複数の識別情報の符号列同士を演算して、音声の理解結果を示す符号列を生成することにより、上述の課題を解決する。

本発明によれば、予め各単語と、単語の役割により異なる符号位置に当該単語の意味情報を含む符号列とされた識別情報とを対応付けて登録しておき、音声を認識して複数の単語を生成すると、識別情報の符号列同士を演算して、音声の理解結果を示す符号列を生成することができるので、複数の単語からなる組み合わせごとに識別情報及び意味を設定する必要がなく、メモリ容量を少なくすることができる。

以下、本発明の実施の形態について図面を参照して説明する。

［第１実施形態］
「音声認識システムの構成」
本発明は、例えば図１に示すように構成された音声認識システムに適用される。この音声認識システムは、演算装置１と、マイク２と、ディスプレイ３と、スピーカ４と、入力装置５とを備える。なお、図１において音声認識システムにおける演算装置１は、ＣＰＵ、ＲＯＭ、ＲＡＭなどを備えたコンピュータによるハードウエアで構成されているが、図１においては便宜的に機能ブロック毎に分けて、説明を行っている。

音声認識システムは、様々なアプリケーションを実行するシステムに適用することが可能である。音声認識システムは、例えば、車両などの移動体に搭載されるナビゲーション装置に適用される。ナビゲーション装置は、例えば移動体として車両に搭載された場合、車両の現在位置を検出し、地図データを用いて車両の現在位置に対応する地図を表示すると同時に所望の目的地までの経路案内をするものである。ナビゲーション装置に適用された音声認識システムは、ユーザが発話した音声を入力し、ナビゲーション装置に備えられた様々な機能を動作させることができる。特に、音声認識システムは、言い換えや語尾ゆれなどを含む自由度の高い自然なユーザ発話に対して音声認識を行うものである。

マイク（音声入力手段）２は、運転手等のユーザから発話した音声を入力可能する位置に設けられている。マイク２は、ユーザから発話した音声を入力し、音声信号を演算装置１に供給する。

ディスプレイ（提示手段）３は、ユーザから視認可能な位置に設けられた液晶ディスプレイからなる。ディスプレイ３は、演算装置１の演算結果としての表示データが演算装置１から供給される。ディスプレイ３は、例えば、演算装置１の音声認識処理等の結果、ナビゲーション装置の機能により得た演算結果、地図等を表示する。

スピーカ（提示手段）４は、ユーザに対して音声を出力する。スピーカ４には、演算装置１の演算結果としての音響データが演算装置１から供給される。スピーカ４は、例えば、演算装置１の音声認識処理等の結果、ナビゲーション装置の機能により得た演算結果、経路案内用音声等を出力する。

入力装置（入力手段）５は、ユーザによって各種の操作を行う操作釦、操作ダイヤル等からなる。この入力装置５は、音声認識を開始するときに操作される音声認識開始ボタン５ａ、音声認識及びナビゲーション処理等をキャンセルするキャンセルボタン５ｂを含む。

演算装置１は、音声認識部（音声認識手段）１１と、理解結果ＩＤ生成部（音声理解手段）１２と、システム挙動決定部１３と、アプリケーション実行部１４とを備える。

音声認識部１１は、記憶部２１と、分析部２２と、照合部２３とを備える。

記憶部２１は、音声認識部１１による音声認識処理に必要な各種の情報を記憶するハードディスク装置等からなる。記憶部２１は、音響モデルデータベース２１ａ、認識すべき単語を登録した単語辞書データベース（単語テーブル）２１ｂ、単語の接続規則を示した文法データベース２１ｃを記憶している。音響モデルデータベース２１ａは、音声の特徴量と発音記号との対応関係をデータ化して構成されている。単語辞書データベース２１ｂは、認識対象の単語をデータ化して構成されている。文法データベース２１ｃは、単語辞書データベース２１ｂに登録された単語ごとの出現確率、単語同士の接続確率をデータ化したものである。

単語辞書データベース２１ｂは、図３（ａ）に示すように、各単語である表示文字列１０１及び発話記号１０２と、単語の役割により異なる符号位置に当該単語の意味情報を含む符号列とされた単語ＩＤ１０３（識別情報）とを対応付けて登録したものである。単語ＩＤ１０３は、４桁データであり、上位２桁（上位２個の符号位置）が目的語用識別符号列１０３ａとなっており、下位２桁（下位２個の符号位置）が述語用識別符号列１０３ｂとなっている。

このような単語ＩＤ１０３は、ユーザが発話する音声における単語の役割により異なる符号位置に当該単語の意味情報を含む符号列となっている。ここで、単語の役割とは、目的語となる「現在地」、「電話番号」と、述語となる「登録」、「表示」とで異なる。また、異なる符号位置とは、４桁データのうちの上位２桁と下位２桁である。更に単語の意味情報とは、「現在地」、「電話番号」、「登録」、「表示」である。したがって、この単語ＩＤ１０３は、上位２桁を目的語用識別符号列１０３ａとし、当該目的語用識別符号列１０３ａによって目的語を表し、下位二桁を述語用識別符号列１０３ｂとし、当該述語用識別符号列１０３ｂによって述語を表している。

なお、以下の説明においては、単語ＩＤ１０３に目的語用識別符号列１０３ａ及び述語用識別符号列１０３ｂを含む説明をしているが、識別情報における所定の符号位置に、音声における他の役割（主語、助詞、命令語など）を割り当てても良いことは勿論である。

これに対し、後述のアプリケーション実行部１４にて理解結果ＩＤを認識する理解結果ＩＤテーブル１４ａは、図３（ｂ）に示すように、理解結果ＩＤ２０１とアプリケーション実行部１４にて実行する機能を示す機能情報２０２が登録されている。なお、機能情報２０２は、図示しているように機能名ではなく、アプリケーション実行部１４が動作するコマンドであっても良い。

分析部２２は、マイク２から供給された音声信号をディジタル化した音声データに変換し、当該音声データを分析して音声の特徴量を生成する。例えば、音声信号に対してフーリエ解析等を行って、後段の照合部２３の処理に適した情報を特徴量として抽出する。

照合部２３は、分析部２２によって取得された音声の特徴量と、記憶部２１に記憶された音響モデルデータベース２１ａ、単語辞書データベース２１ｂ、文法データベース２１ｃとを用いて、音声認識結果を生成する。照合部２３は、分析部２２から供給された音声の特徴量と音響モデルデータベース２１ａに登録された音声の特徴量とを照合して、分析部２２から供給された音声の特徴量に最も近い当該音響モデルデータベース２１ａに登録された音声の特徴量に対応した発話記号（文字列）を認識する。照合部２３は、認識した発話記号と単語辞書データベース２１ｂに登録されている表示文字列１０１とを照合して、認識した発話記号に最も近い単語辞書データベース２１ｂに登録されている表示文字列１０１に対応した単語ＩＤ（識別情報）１０３を認識する。なお、表示文字列１０１及び単語ＩＤ１０３には、発話記号１０２が対応付けられている。

照合部２３は、分析部２２から複数の音声の特徴量を取得して、マイク２に入力された音声について複数の単語ＩＤ１０３を取得することができる。そして、照合部２３は、複数の単語ＩＤ１０３に対して、文法データベース２１ｃを用いて単語の出現確率、単語同士の接続確率に基づく処理を行う。なお、この文法データベース２１ｃを用いた処理については後述する。このように照合部２３は、複数の単語ＩＤ１０３を取得して、理解結果ＩＤ生成部１２に供給する。このように音声認識部１１は、マイク２により入力した音声を認識し、音声認識結果として複数の単語を生成する。

理解結果ＩＤ生成部１２は、音声認識部１１から供給された複数の単語ＩＤ１０３同士を演算して、音声の理解結果を示す符号列である理解結果ＩＤを生成する。理解結果ＩＤ生成部１２は、複数の単語ＩＤ１０３における同じ桁の符号毎に加算処理を行い、音声の理解結果を示す符号列である理解結果ＩＤを生成する。

システム挙動決定部１３は、理解結果ＩＤ生成部１２により生成された理解結果ＩＤと、入力装置５から供給された入力信号とを用いて、音声認識システムの挙動を決定する。システム挙動決定部１３は、音声認識開始ボタン５ａが操作された後には、照合部２３から理解結果ＩＤ生成部１２から供給された理解結果ＩＤをアプリケーション実行部１４に供給する。また、キャンセルボタン５ｂが操作された後には、システム挙動決定部１３は、理解結果ＩＤ生成部１２から理解結果ＩＤが供給されてもアプリケーション実行部１４には当該理解結果ＩＤを供給しない。また、アプリケーション実行部１４の機能実行中にキャンセルボタン５ｂからの入力信号を入力した場合、当該アプリケーション実行部１４の機能を停止させる。

アプリケーション実行部１４は、システム挙動決定部１３から供給された理解結果ＩＤに従って、当該理解を実現するアプリケーション処理を行う。このとき、アプリケーション実行部１４は、予め記憶しておいた図３（ｂ）のような理解結果ＩＤテーブル１４ａを参照して、理解結果ＩＤ２０１に対する機能情報２０２を認識し、当該機能を実行させる。そして、アプリケーション実行部１４は、アプリケーション処理により得た演算結果としての表示データをディスプレイ３に供給する処理、アプリケーション処理により得た演算結果としての音声データをスピーカ４に供給する処理を行う。

例えば、アプリケーション実行部１４により実行されるアプリケーション処理がナビゲーション処理である場合において、図３に示すように、理解結果ＩＤ「１１１１」に機能情報「現在地登録」が対応しているときには、アプリケーション実行部１４は、図示しないＧＰＳ信号から現在地を取得して、現在地を示す緯度及び経度を図示しない記憶部に記憶させる登録処理を行い、当該現在地の登録処理が完了したことを示す表示データをディスプレイ３に供給する処理又は音声データをスピーカ４に供給する処理を行う。

このように音声認識システムは、マイク２から入力された音声が演算装置１に入力された場合に、入力された音声を認識及び理解し、その理解結果に応じたアプリケーション処理を実行した後、アプリケーション処理の実行結果をディスプレイ３及びスピーカ４を使ってユーザに提示することができる。

「音声認識システムの処理手順」
つぎに、上述したように構成された音声認識システムの具体的な処理手順について、図２のフローチャート及び図３乃至図７の説明図を参照して説明する。

先ずステップＳ１において、ユーザによって発話された音声がマイク２によって検出され、音声信号が演算装置１に入力されると、ステップＳ２に処理を進める。

ステップＳ２において、音声認識部１１内の分析部２２は、入力された音声の特徴量分析を行い、分析部２２により分析された結果を照合部２３に供給する。

次のステップＳ３において、照合部２３は、音響モデルデータベース２１ａ、認識すべき単語を登録した単語辞書データベース２１ｂ、単語の接続規則を示した文法データベース２１ｃを用いて、照合処理を行う。このとき、照合部２３は、分析部２２によって取得された音声の特徴量と音響モデルデータベース２１ａとの照合して、入力された音声の特徴量に基づく単語を取得し、当該単語と単語辞書データベース２１ｂとを照合して、入力された音声の単語ＩＤ１０３を取得し、複数の単語と文法データベース２１ｃとを照合して文法に沿った複数の単語列を取得する。ここで、単語辞書データベース２１ｂには、認識すべき発話に含まれる単語ごとに、表示文字列１０１及び発話記号１０２とともに、後述の理解結果ＩＤの生成処理で使用する単語ＩＤ１０３が記述されている。照合部２３は、音声認識の結果として、単語辞書データベース２１ｂに登録されている複数の単語ＩＤ１０３からなる単語ＩＤ列を出力する。

次のステップＳ４において、理解結果ＩＤ生成部１２は、ステップＳ３にて照合部２３が出力した単語ＩＤ列から、システム挙動を決定するための理解結果ＩＤを生成し、システム挙動決定部１３に供給する。

次のステップＳ５において、システム挙動決定部１３は、ステップＳ４にて理解結果ＩＤ生成部１２が生成した理解結果ＩＤ、入力装置５からの信号に応じてシステム挙動を決定する。そして、システム挙動決定部１３は、決定したシステム挙動に応じて理解結果ＩＤをアプリケーション実行部１４に供給する。

次のステップＳ６において、アプリケーション実行部１４は、ステップＳ５にて供給された理解結果ＩＤを用いて理解結果ＩＤテーブル１４ａを参照し、当該理解結果ＩＤに従って所定のアプリケーション処理を実行する。

次のステップＳ７において、アプリケーション実行部１４は、ステップＳ６にて実行したアプリケーション処理の結果をディスプレイ３及びスピーカ４によってユーザに提示する。

このような処理を行う音声認識システムにおいては、例えば図４に示す単語辞書データベース２１ｂを予め音声認識部１１に記憶しておく。図４の単語辞書データベース２１ｂにおける単語ＩＤ１０３は、１桁が４ビットの１６ビットである。

図４には、単語辞書データベース２１ｂに、理解結果において目的語の役割を果たす単語「現在地」、「電話番号」、理解結果において述語の役割を果たす単語「登録」、「表示」に分類されている。目的語の役割を果たす単語は、４桁の単語ＩＤ１０３のうち上位２桁の目的語用識別符号列１０３ａを使用し、述語の役割を果たす単語は、４桁の単語ＩＤ１０３のうち下位２桁の述語用識別符号列１０３ｂを使用している。使用しない符号は全て「０」としておく。例えば、理解結果において目的語の役割を果たす「現在地」は、上位２桁の目的語用識別符号列１０３ａのみを使用して、述語用識別符号列１０３ｂは「００」となるので、全体としては「１１００」となる。

例えば、単語辞書データベース２１ｂには、表示文字列１０１としての「現在地」、発話記号１０２としての「げんざいち」、単語ＩＤ１０３としての「１１００」が対応付けて登録されている。単語ＩＤ１０３としての「１１００」のうち、上位２桁の「１１」は目的語用識別符号列１０３ａであり、下位２桁の「００」は述語用識別符号列１０３ｂである。すなわち、「１１００」という単語ＩＤ１０３のうちの一部の「１１」は、理解結果ＩＤに目的語である「現在地」なる意味を持たせる役割となり、「００」は目的語とはならない。また、「１１００」という全体により他の全ての単語と識別される。

単語辞書データベース２１ｂには、表示文字列１０１としての「登録」、発話記号１０２としての「とうろく」、単語ＩＤ１０３としての「００１３」が対応付けて登録されている。単語ＩＤ１０３としての「００１３」のうち、下位２桁の「１３」は述語用識別符号列１０３ｂであり、上位２桁の「００」は目的語用識別符号列１０３ａである。すなわち、「００１３」という単語ＩＤ１０３のうちの一部の「１３」は、理解結果ＩＤに述語である「登録」なる意味を持たせる役割となり、「００」は述語とはならない。また、「００１３」という全体により他の全ての単語と識別される。

このような単語辞書データベース２１ｂを用いて、照合部２３は、入力された音声の発話記号が単語辞書データベース２１ｂに記された発話記号１０２と一致した場合に、認識結果として単語ＩＤ１０３を出力する。そして、照合部２３は、単語同士の接続を文法データベース２１ｃに基づいて判断する。具体的には、文法データベース２１ｃは、ネットワーク文法のように単語間の接続規則を細かく指定する文法を使用して定義してもよい。また、文法データベース２１ｃは、単語や単語クラスの間の接続可能性を確率で定義しも良く、単語Ｎ−Ｇｒａｍ方式やクラスＮ−Ｇｒａｍ方式のようにほぼ全ての単語間の接続を許すように定義してもよい。

本実施形態では、図４の辞書に登録されている全ての単語間の接続可能性を記した単語Ｎ−Ｇｒａｍ方式を使用した文法データベース２１ｃを用いて音声認識した場合を想定する。この場合、全ての単語が順不同、組み合わせ自由に認識結果として出力される可能性がある。例えば、ユーザが「現在地登録」と発話すると、照合部２３は、「現在地」「登録」という単語の並びを発話された可能性が高い認識結果と判定する。その際、認識結果としては、単語辞書データベース２１ｂにおいて、「現在地」に対応づけられた単語ＩＤ「１１００」と、「登録」に対応づけられた単語ＩＤ「００１３」とを認識結果とし、理解結果ＩＤ生成部１２に出力することができる。

理解結果ＩＤ生成部１２は、照合部２３から供給された単語ＩＤ列を用いて理解結果となる理解結果ＩＤを生成する。この時、理解結果ＩＤ生成部１２は、図５に示すように、単語ＩＤ１０３の桁ごとに、所定の演算ルールに従って演算を行う。そして、各桁の演算結果を組み合わせて、単語ＩＤ１０３同士の組み合わせによる理解結果ＩＤを生成する。

この理解結果ＩＤ生成部１２による所定の演算ルールは、複数の単語ＩＤ１０３における同じ桁の符号毎に加算して音声の理解結果を示す符号列（理解結果ＩＤ）を生成するために、
Ａ＋Ａ＝Ａ
Ａ＋０＝Ａ
０＋Ａ＝Ａ
０＋０＝０
Ａ＋Ｂ＝演算不可
ただし、Ａ≠０、Ｂ≠０、Ａ≠Ｂ
という所定の演算ルールに従った演算を行う。すなわち、（１）０以外の値Ａと０とを演算した場合には０以外の値Ａが演算結果となる。（２）同じ値同士を演算した結果は元の値と同じ値が演算結果となる。（３）０以外の異なる値同士は演算不可能とする。また、演算する単語ＩＤ１０３の中に一つでも演算不可能な桁が含まれている場合、当該単語ＩＤ１０３同士の組み合わせは理解結果ＩＤを出力できない組み合わせとして、何れも理解結果ＩＤの演算から外すか、どちらか一方の単語ＩＤ１０３を理解結果ＩＤとしても良い。

図５（ａ）に示すように、先ず、「現在地」の単語ＩＤ「１１００」と「登録」の単語ＩＤ「００１３」とを１桁ごとに所定の演算ルールに従って演算する。全ての桁において、一方の単語ＩＤ１０３が０以外の値、他方の単語ＩＤ１０３が０であるため、０でない値を各桁の演算結果とする。そして、各桁の演算結果をそのまま並べた「１１１３」が「現在地」の単語ＩＤ「１１００」と「登録」の単語ＩＤ「００１３」とよって演算された理解結果ＩＤとなる。

図５（ｂ）に示すように、２進数で単語ＩＤ１０３を表現した場合、理解結果ＩＤ生成部１２による演算は、「１」と「０」との演算とはなる。しかし、１６進数で単語ＩＤ１０３を表現した場合と同様の所定の演算ルールに従って、理解結果ＩＤを得ることができる。なお、理解結果ＩＤ生成部１２による所定の演算ルールに基づく単語ＩＤ１０３の演算において、単語ＩＤ１０３におけるどの桁で区分するかは、認識対象となる単語数の規模等に応じて設定することができる。例えば図６に示すように、桁数が一様でない符号列の集合として単語ＩＤ１０３を設定してもよい。この図６に示す単語ＩＤ１０３は、２ｂｉｔ表現であり、上位から、２桁、６桁、８桁で表現されており、他の単語ＩＤ１０３同士の演算もそれぞれ同じく２桁、６桁、８桁単位で行うこととなる。

なお、上述した図４のような単語辞書データベース２１ｂにおいて、「現在地」の単語ＩＤ「１１００」と「表示」の単語ＩＤ「００１１」とが音声認識結果として得られた場合、理解結果ＩＤ生成部１２によって理解結果ＩＤ「１１１１」を生成して、アプリケーション実行部１４によって現在地の表示処理を行っていた。しかし、理解結果ＩＤテーブル１４ａは、図７に示すように、理解結果ＩＤ２０１の符号列「１１００」（「現在地（１１００）」のみ）と理解結果ＩＤ２０１の符号列「１１１１」（「現在地（１１００）」＋「表示（００１１）」）のように、異なる理解結果ＩＤ２０１であっても同じ機能情報２０２となる理解結果ＩＤ２０１としても良い。

以上詳細に説明したように、本発明の第１実施形態に係る音声認識システムによれば、予め各単語と、単語の役割により異なる符号位置に当該単語の意味情報を含む符号列とされた単語ＩＤ１０３とを対応付けて登録しておき、マイク２により入力した音声を認識して音声認識結果として複数の単語を生成すると、認識された複数の単語に対応した単語辞書データベース２１ｂにおける複数の単語ＩＤ１０３の符号列同士を演算して、音声の理解結果を示す符号列を生成することができる。したがって、この音声認識システムによれば、単語ＩＤ１０３を直接演算してユーザが発話した音声の理解結果を生成でき、複数の単語からなる組み合わせごとにＩＤ及び意味を設定する必要がなく、メモリ容量を少なくすることができる。

また、この音声認識システムによれば、複数の単語ＩＤ１０３における同じ桁の符号毎に加算して音声の理解結果を示す符号列を生成するので、単純な演算のみで理解結果ＩＤを生成でき、短時間での処理が可能となる。

［第２実施形態］
つぎに、本発明の第２実施形態について説明する。なお、上述した実施形態と同じ部分については同一符号を付することによりその詳細な説明を省略する。

第２実施形態として示す音声認識システムは、図８に示すように、単語ＩＤ１０３に、他単語の識別情報と演算された場合に理解結果ＩＤが生成可能か否かを表す演算可否符号１０３ｃを含める。そして、理解結果ＩＤ生成部１２は、複数の単語ＩＤ１０３を取得した場合に、各単語の単語ＩＤ１０３に含まれる演算可否符号１０３ｃを参照して、理解結果ＩＤが生成可能な各単語ＩＤ１０３の符号列同士を演算する。

図８に示すように、上述した目的語用識別符号列１０３ａ及び述語用識別符号列１０３ｂよりも先頭の符号位置に、演算可否符号１０３ｃを付加している。演算可否符号１０３ｃは、単語ＩＤ１０３間において異なる値である場合には当該単語同士を演算して理解結果ＩＤが作成可能であることを示す。一方、演算可否符号１０３ｃは、単語ＩＤ１０３間において同じ値である場合には当該単語同士を演算しても理解結果ＩＤが作成不可能であることを示す。また、どの単語と演算しても理解結果ＩＤが作成できる単語には、演算可否符号１０３ｃとして所定の値を付加しても良い。

例えば、「行き先」と「登録」は演算可否符号１０３ｃの値が異なるので理解結果ＩＤが作成できない。また、表示「００００１」は演算可否符号１０３ｃが「０」であるため、全ての単語ＩＤ１０３との間で理解結果ＩＤが演算可能となる。ただし、表示「００００１」は、聞く「２００２１」との間で理解結果ＩＤの演算を行っても、５桁目にて理解結果ＩＤの演算は不可となる。

このように演算可否符号１０３ｃを含む単語ＩＤ１０３を用いても、当該演算可否符号１０３ｃが理解結果ＩＤに影響を与えない場合には、単語ＩＤ１０３同士の演算結果である理解結果ＩＤから演算可否符号１０３ｃを削除した符号列を、理解結果ＩＤとしてもよい。例えば図８に示す単語辞書データベース２１ｂを用いて理解結果ＩＤを演算する場合、理解結果ＩＤテーブル１４ａは、図９に示すようになる。

この理解結果ＩＤテーブル１４ａは、図８に示した単語辞書データベース２１ｂに登録された単語を任意の組み合わせで認識した場合に生成される可能性のある理解結果が登録されている。ここで、図８の単語ＩＤ１０３の上位１桁は、演算可否符号１０３ｃであり、理解結果には影響を与えない。このため、理解結果ＩＤ２０１は、演算可否符号１０３ｃを削除した符号列からなるものとしている。

例えば、目的地の単語ＩＤ「１１３００」と表示の単語ＩＤ「００００１」との理解結果ＩＤ生成部１２による演算結果は符号列「１１３０１」である。しかし、当該演算結果の上位１桁はアプリケーション実行部１４による機能の理解には不要である。したがって、当該演算結果のうちの上位１桁をため削除し、符号列「１３０１」を理解結果ＩＤとする。

このように音声認識システムは、第１実施形態と同様に単語ＩＤ１０３を直接演算してユーザが発話した音声の理解結果を生成できる効果に加えて、単語ＩＤ１０３に演算可否符号１０３ｃを含めた単語辞書データベース２１ｂを用いる場合、単語ＩＤ１０３同士の演算の最初に演算可否符号１０３ｃの演算を行うことで、効率的に単語ＩＤ１０３の演算を行って理解結果ＩＤを生成することができる。すなわち、音声認識部１１から供給された単語ＩＤ１０３の全てに対して所定の演算ルールに従った演算を行って理解結果ＩＤ２０１を求める必要なく、全体を演算する前に演算可否符号１０３ｃのみを演算して、組み合わせることが不可能な単語ＩＤ１０３同士の演算を省くことができる。

［第３実施形態］
つぎに、本発明の第３実施形態について説明する。なお、上述した実施形態と同じ部分については同一符号を付することによりその詳細な説明を省略する。

第３実施形態として示す音声認識システムは、理解結果ＩＤ２０１を削減することによって理解結果ＩＤテーブル１４ａのデータ容量を削減するものである。

例えば、Ｎ個の単語を自由に組み合わせて理解結果ＩＤを生成するとした場合、同一の単語を重複して選択しない場合でも、２項定理により２＾ｎ個の組み合わせ（理解結果ＩＤ）が生成される。理解結果ＩＤの種類が増えると、理解結果ＩＤテーブル１４ａのデータ容量が大きくなるため、生成される可能性のある理解結果ＩＤの種類はできるだけ少なくなるほうが望ましい。生成される可能性のある理解結果ＩＤの種類を減らすためには、次に３つの手法が挙げられる。

第１の手法は、単語同士の組み合わせが意味をなさない単語同士には演算不可能となるような単語ＩＤを付与することによって、当該の組み合わせでは理解結果ＩＤを生成しないようにする。

第２の手法は、同じアプリケーション処理の機能に割り当てられる理解結果ＩＤは、異なる単語ＩＤの組み合わせによって得られる場合であっても同じ理解結果ＩＤを生成できるように、単語ＩＤの符号列を設定する。

第３の手法は、文法によって単語ＩＤ同士の接続を制限し、認識結果として出力される単語ＩＤの組み合わせである理解結果ＩＤの生成そのものを制限する。

「第１の手法」
第１の手法は、各単語ＩＤ１０３の符号列は、組み合わせても意味をなさない他の単語ＩＤ１０３の符号列と演算されても、理解結果ＩＤ生成部１２によって理解結果ＩＤ２０１を生成できないように設計するものである。

この手法は、例えば図３（ａ）に示す単語辞書データベース２１ｂに登録された単語ＩＤ１０３のうち、「現在地」と「電話番号」とは、相互に接続されてもアプリケーション実行部１４の機能として存在しない組み合わせである。このため、「現在地」に符号列「１１００」、「電話番号」に符号列「１２００」の単語ＩＤ１０３を付与している。これにより、当該二つの単語の組み合わせでは、上記の所定の演算ルールでは理解結果ＩＤを生成できないようにすることができ、理解結果ＩＤテーブル１４ａに「現在地」と「電話番号」とを組み合わせた理解結果ＩＤを登録することを回避できる。

「第２の手法」
第２の手法は、複数の単語を組み合わせられてなる複合語の識別情報の符号列を、当該複数の単語ＩＤ１０３同士を演算して得られる理解結果ＩＤと同じとして登録するものである。

第２の手法は、異なる単語の組み合わせであっても同じアプリケーション実行部１４の機能であれば、同じ理解結果ＩＤを生成するものである。このために、単語辞書データベース２１ｂは、図４に示したように同じ意味を指し示す単語には、同じ単語ＩＤ１０３を付与している。

また、第２の手法によれば、２つ以上の単語の組み合わせによって得られる複数の単語と同じ機能を意味する複合語には、２つ以上の単語を組み合わせた機能を示す理解結果ＩＤ２０１と同じになるような単語ＩＤ１０３とする。具体的には、図１０に示すように、目的語又は述語である単語１０１のみならず、目的語と述語を組み合わせた複合語１０１’も単語辞書データベース２１ｂに登録する。具体的には、単語「自宅」の単語ＩＤ１０３が「１３００」であり単語「帰る」の単語ＩＤ１０３が「００１５」である場合、複合語１０１’の「帰宅」の単語ＩＤ１０３は、「１３１５」とする。この複合語１０１’の単語ＩＤ１０３は、単語ＩＤ「１３００」と「００１５」とを所定の演算ルールによって演算して得られる符号列である。

これにより、理解結果ＩＤテーブル１４ａには、音声認識部１１によって「自宅」と「帰る」とが認識された時の理解結果ＩＤ２０１と、音声認識部１１によって「帰宅」が認識された時の理解結果ＩＤ２０１を別個に設定することなく、同じ理解結果ＩＤ２０１に対して「自宅」と「帰る」との組み合わせと「帰宅」とを対応付けることができる。従って、理解結果ＩＤテーブル１４ａのデータ容量を削減できる。

「第３の手法」
第３の手法は、組み合わせても意味をなさない単語ＩＤ１０３を同じ単語グループとするように単語辞書データベース２１ｂを作成する。そして、音声認識部１１は、複数の単語ＩＤ１０３のうち単語辞書データベース２１ｂにおいて異なる単語グループの単語ＩＤ１０３のみを理解結果ＩＤ生成部１２に出力する。これにより、理解結果ＩＤ生成部１２は、異なる単語テーブル同士の単語ＩＤ１０３のみを用いて、理解結果ＩＤ２０１を生成する。

図１１に示すように、単語辞書データベース２１ｂは、第１単語グループ２１１と、第２単語グループ２１２とに区分して各単語を登録している。この第１単語グループ２１１及び第２単語グループ２１２とは、上述した演算可否符号１０３ｃと同様に、単語ＩＤ１０３にグループ識別子を付加することによって、照合部２３にグループが識別される。

具体的には、「現在地」と「電話番号」、「登録」と「表示」は、意味をなさない単語の組み合わせであるため、これらを同じ単語グループとする。そして、照合部２３は、異なる単語グループ同士内の単語の接続のみを許すために、先ず第１単語グループ２１１の何れかの単語を選択し、次に第２単語グループの何れかの単語を選択する文法ルールに従って、単語ＩＤ１０３を取得する。したがって、この文法に従って照合部２３によって認識可能な認識結果は、現在地「１１００」、電話番号「１２００」、登録「００１３」、表示「００１１」、現在地登録「１１１３」、現在地表示「１１１１」、電話番号登録「１２１３」、電話番号表示「１２１１」の８通りとなる。これにより、理解結果ＩＤ生成部１２は、単語同士の組み合わせが可能とされた単語ＩＤ１０３のみを用いて理解結果ＩＤの演算を行うことができ、単語ＩＤ１０３の組み合わせの全てについて理解結果ＩＤ２０１を登録する必要を無くして理解結果ＩＤテーブル１４ａのデータ容量を削減できる。

以上のように、第３実施形態として示す音声認識システムによれば、第１実施形態と同様に単語ＩＤ１０３を直接演算してユーザが発話した音声の理解結果を生成できる効果に加えて、第１の手法乃至第３の手法の何れかを採用することにより、理解結果ＩＤテーブル１４ａのデータ容量を削減できる。

具体的には、音声認識システムによれば、各単語の単語ＩＤ１０３は、組み合わせても意味をなさない他の単語ＩＤ１０３と演算されても、理解結果ＩＤ生成部１２によって理解結果ＩＤ２０１を生成できないように設計されている。これにより、連続して発話されることがない単語同士によって理解結果ＩＤを作成することなく、理解結果ＩＤテーブル１４ａのデータ容量を削減することができる。

また、文法データベース２１ｃは、複数の単語を組み合わせられてなる複合語１０１’の単語ＩＤ１０３を、当該複数の単語ＩＤ１０３同士を演算して得られる理解結果ＩＤ２０１と同じとして登録されている。これにより、同じ意味内容の複数の単語から得た理解結果ＩＤと複合語から得た理解結果ＩＤとを別個に理解結果ＩＤテーブル１４ａに登録する必要はなく、理解結果ＩＤテーブル１４ａのデータ容量を削減できる。

更に、単語辞書データベース２１ｂは、組み合わせても意味をなさない単語ＩＤ１０３を同じ単語グループとし、理解結果ＩＤ生成部１２は、複数の単語ＩＤ１０３のうち単語テーブルにおいて異なる単語グループの識別単語ＩＤ１０３を演算して、理解結果ＩＤ２０１を生成する。これにより、同じ単語テーブル内の単語ＩＤ１０３同士によって演算された理解結果ＩＤを理解結果ＩＤテーブル１４ａに登録する必要なく、理解結果ＩＤテーブル１４ａのデータ容量を削減できる。

［第４実施形態］
つぎに、本発明の第４実施形態について説明する。なお、上述した実施形態と同じ部分については同一符号を付することによりその詳細な説明を省略する。

上述した第３実施形態における第１の手法のように、組み合わせが意味をなさない単語同士には演算不可能となるような単語ＩＤを付与した場合であっても、演算不可能な組み合わせの単語が認識結果として出力されることがある。この場合、単語ＩＤ同士の演算が不可能であるために理解結果ＩＤ生成部１２によって理解結果ＩＤが得られないため、ユーザに再入力を促すか、他の単語の組み合わせから理解結果ＩＤを得る必要がある。

このような場合、音声認識システムは、一度の発話に対する認識結果から、複数の理解結果ＩＤからなる理解結果候補を生成する必要が生じる。すなわち、第４実施形態として示す音声認識システムは、理解結果ＩＤ生成部１２により、２つ以上の単語ＩＤ１０３が得られた場合に、複数の理解結果ＩＤ２０１を生成するものである。

例えば、図４に示した単語辞書データベース２１ｂを備え、任意の組み合わせの単語を認識した場合に、電話番号「１２００」、表示「００１１」、ここ「１１００」という音声認識部１１の認識結果としての単語ＩＤが得られたとする。そして、理解結果ＩＤ生成部１２によって当該３個の単語を組み合わせる場合は、２個の単語を組み合わせた結果の理解結果ＩＤと、残り１個の単語の単語ＩＤとの演算することで、同じ所定の演算ルールにより理解結果を得ることができる。しかし、この場合、認識結果の最初に現れた２つの単語の電話番号「１２００」、表示「００１１」を用いた理解結果ＩＤ生成部１２による演算結果が、符号列「１２１１」であり、残りの単語のここ「１１００」とは上位２桁目が異なる値ために、所定の演算ルールでは演算が不可能となる。したがって、音声認識部１１による認識結果により得られた３個の単語の全てを含む組み合わせを用いると、理解結果ＩＤ生成部１２により理解結果ＩＤを得ることはできない。

よって、この組み合わせ以外の単語の組み合わせから理解結果を得る方法について説明する。

先ず、理解結果ＩＤを演算する単語を減らす方法が挙げられる。つまり、３個の単語の全てを使用する組み合わせから、何れか１個の単語を除いた２個の単語のみを使用して理解結果を生成する。２個の単語を用いる場合、次の３パターンの組み合わせとなる。

（１）電話番号「１２００」＋表示「００１１」＝理解結果ＩＤ「１２１１」
（２）電話番号「１２００」＋ここ「１１００」＝演算不可
（３）表示「００１１」＋ここ「１１００」＝理解結果ＩＤ「１１１１」
この組み合わせのうち、（２）については、所定の演算ルールに従って単語ＩＤの演算が不可能なので、理解結果ＩＤが得られない無効な組み合わせとなる。このように理解結果ＩＤ生成部１２は、２つ以上の単語ＩＤ１０３が得られた場合に、複数の理解結果の候補を生成することができる。そして、これらの理解結果の候補から、理解結果ＩＤ生成部１２によって、最適な理解結果ＩＤを選択して、アプリケーション処理を実行することができる。

また、３個の単語の組み合わせから１個の単語を減らして理解結果ＩＤを演算したが、３個の単語から２個の単語を減らして、１個の単語のみから生成する理解結果ＩＤも理解結果の候補とすることができる。この場合、上述の（２）を除く
（１）電話番号「１２００」＋表示「００１１」＝理解結果ＩＤ「１２１１」
（３）表示「００１１」＋ここ「１１００」＝理解結果ＩＤ「１１１１」
に加えて、
（４）電話番号「１２００」＝理解結果ＩＤ「１２００」
（５）表示「００１１」＝理解結果ＩＤ「００１１」
（６）ここ「１１００」＝理解結果ＩＤ「１１００」
という５個の理解結果ＩＤからなる理解結果候補から最適なものを理解結果ＩＤ生成部１２によって選択して、アプリケーション実行部１４によって処理を実行することができる。

複数の理解結果ＩＤからなる理解結果候補が得られた場合、理解結果ＩＤ生成部１２は、何れかの理解結果ＩＤを選択する必要がある。このために、理解結果ＩＤ生成部１２は、理解結果ＩＤ生成部１２により生成された理解結果ＩＤを評価するスコアを計算する。そして、理解結果ＩＤのスコアが高いほど、入力された単語に対して最適な理解結果ＩＤであるとして選択することができる。

例えば、理解結果ＩＤ生成部１２は、理解結果ＩＤ生成部１２が理解結果ＩＤ２０１を生成するために用いた単語ＩＤの認識しやすさに基づいて、当該理解結果ＩＤ２０１を評価するスコアを計算しても良い。また、単語辞書データベース２１ｂに、単語ＩＤ１０３に対応付けて優先順位を登録しておき、理解結果ＩＤ生成部１２は、理解結果ＩＤ２０１を生成するために用いた単語に対応付けられた優先順位を参照して、当該理解結果ＩＤ２０１を評価するスコアを計算しても良い。

また、理解結果ＩＤの候補から何れかの理解結果ＩＤを選択する方法は、音声認識処理によって得られる認識結果としての単語ＩＤごとの音声認識尤度に従って、認識結果としての各単語の信頼度を計算し、当該単語信頼度から各理解結果のスコアを求め、最も高いスコアの理解結果を選択しても良い。ここで、尤度とは音声認識結果から得られる音声信号列がＹである時、使用者が発話した音声信号列がＷである事後確率で定義される値で、「音声信号列に関する仮説Ｗに対し、音声信号列Ｙが観測される事前確率」と「音声信号列Ｗが発話される確率」との積と、音声信号列Ｙが観測される確率との比のうち最大確率である。そして、信頼度とは、複数の認識結果から、この認識結果に含まれる単語と、これら単語の分類を示すクラスにおける尤もらしさである。なお、この単語の信頼度の演算方法は、例えば特開２００４−２５１９９８号公報に記載された既知の技術を用いることにより実現することができる。また、最も音声認識の尤度が高い認識結果である単語ＩＤから理解結果ＩＤが得られた場合であっても、複数の理解結果ＩＤの候補を生成し、文脈等の音響尤度以外の情報を考慮した上で、最適な理解結果ＩＤを選択してもよい。

なお、上述した音声認識システムは、認識結果に含まれる全ての単語ＩＤを使用して理解結果ＩＤが得られない場合は、他の理解結果の候補を全て生成して、その中から最適なものを選択している。しかし、理解結果ＩＤを演算している途中で、認識結果に含まれる単語ＩＤを採用するかどうかを決定しても良い。

例えば、電話番号「１２００」、表示「００１１」、ここ「１１００」の３個の単語が音声認識された場合に、最初の認識結果である単語ＩＤから順に理解結果ＩＤの演算を行っていく。まず初めに、電話番号「１２００」と表示「００１１」とを用いて理解結果ＩＤの演算をし、理解結果ＩＤ「１２１１」を得る。次に、この理解結果ＩＤと残りの認識結果であるここ「１１００」の単語ＩＤとを用いた演算をするが、上位から２桁目の値が異なるため演算不可能である。

そこで、電話番号「１２００」、表示「００１１」それぞれとここ「１１００」を演算した時に、どちらの単語によって理解結果ＩＤの演算が不可能になっているのかを調べる。電話番号「１２００」と、ここ「１１００」とによる理解結果ＩＤの演算が不可能であるため、何れか一方の単語ＩＤを選択する必要がある。

ここで、どちらの単語を選択するかについては、先に述べた単語の信頼度を使用しても良く、過去に音声認識部１１によって認識されている発話履歴や、一般的な発話頻度が高い単語を優先的に選択することが望ましい。また、予め各単語の認識正解率を単語や単語組み合わせごとに調べておき、正解率が高い単語の組み合わせを選択して理解結果ＩＤを演算しても良い。

更に、これらの発話履歴、一般的な発話頻度、正誤率などの統計情報のほかに、音声認識システムがとる次の挙動を決定するために重要な役割を果たす単語を優先的に選択し、他の入力から意味を補完される可能性の高い単語は選択しなくても良い。この場合、単語ごとの優先順位１０３ｄは、図１２に示すように、単語ＩＤ１０３に含めて単語辞書データベース２１ｂを構築する。図１２に示す単語辞書データベース２１ｂは、最上位の桁が単語ごとの優先順位を示しており、理解結果ＩＤの演算には使用されない。また、この単語ＩＤ１０３のうちの上位から２桁は上述した目的語用識別符号列１０３ａ、下位の２桁は述語用識別符号列１０３ｂ、中間の２桁は形容詞用の符号列１０３ｅとなっている。なお、目的語用識別符号列１０３ａ及び述語用識別符号列１０３ｂは、上述した４桁である場合にかぎるものではない。

これにより、理解結果ＩＤ生成部１２は、優先順位１０３ｄとしての１桁目の数値が小さい単語を優先順位の高い単語として優先的に採用して、理解結果ＩＤを生成することができる。例えば、コンビニ「１１２００００」やガソリンスタンド「１１３００００」には、表示「３００００１１」や探す「３００００１１」と比較して高い優先順位を付与しており、複数の理解結果ＩＤからなる理解結果候補が得られた場合には、優先的に理解結果ＩＤの演算に使用される。

以上説明したように、第４実施形態として示した音声認識システムによれば、第１実施形態と同様に単語ＩＤ１０３を直接演算してユーザが発話した音声の理解結果を生成できる効果に加えて、２つ以上の単語ＩＤ１０３が得られた場合に、複数の理解結果ＩＤを生成するので、生成した単語の組み合わせから適切な理解結果が得られない場合であっても、他の単語の組み合わせによる理解結果を選択することができる。

また、この音声認識システムによれば、理解結果ＩＤ生成部１２により、単語ＩＤ１０３同士の演算が不可能な単語の組み合わせは無効とするので、当該単語の組み合わせを理解結果として採用しないため、理解結果ＩＤに対応する理解結果ＩＤテーブル１４ａを検索することなしに、単語同士の組み合わせ可否を決定することができる。

更に、この音声認識システムによれば、理解結果ＩＤを評価するスコアを計算するので、スコアが高い組み合わせを理解結果として選択できるため、発話に対して正解の理解結果である可能性が高い組み合わせを理解結果として選択することができる。

更にまた、この音声認識システムによれば、単語辞書データベース２１ｂに単語ＩＤ１０３応付けて優先順位１０３ｄを登録し、理解結果ＩＤを生成するために用いた単語に対応付けられた優先順位１０３ｄを参照して、当該理解結果ＩＤ２０１を評価するスコアを計算するので、優先順位の高い単語ＩＤ１０３を優先的に用いて理解結果ＩＤを生成でき、全ての組み合わせについて理解結果ＩＤを生成することを回避できる。

更にまた、この音声認識システムによれば、音声認識結果である単語ＩＤ１０３の尤度に従って当該音声認識結果を用いて取得された単語の信頼度を演算し、当該単語の信頼度に基づいて、当該理解結果ＩＤを評価するスコアを計算するので、発話に対してより正解である可能性が高い単語の組み合わせを理解結果として選択することができる。

更にまた、この音声認識システムによれば、理解結果ＩＤを生成するために用いた単語の認識しやすさに基づいて、当該理解結果ＩＤを評価するスコアを計算するので、発話に対してより正解である可能性が高い単語の組み合わせを理解結果として選択することができる。

更にまた、この音声認識システムによれば、音声認識により認識された単語の発話履歴に基づいて、理解結果ＩＤを評価するスコアを計算するので、過去に発話された単語を優先的に選択することができ、より発話された可能性が高い単語の組み合わせを理解結果として選択することができる。

［第５実施形態］
つぎに、本発明の第５実施形態について説明する。なお、上述した実施形態と同じ部分については同一符号を付することによりその詳細な説明を省略する。

第５実施形態として示す音声認識システムは、理解結果ＩＤ生成部１２により生成された音声の理解結果をディスプレイ３又はスピーカ４により提示し、理解結果に対する誤りをユーザによるキャンセルボタン５ｂの操作によって入力した時に、理解結果ＩＤ生成部１２によって、提示した音声の理解結果とは異なる音声の理解結果を生成するものである。ここで、音声の理解結果は、音声認識部１１が認識した理解結果ＩＤに対応した機能情報２０２に限らず、当該理解結果ＩＤに従ってアプリケーション実行部１４が動作した結果として理解結果を提示しても良い。

この音声認識システムは、図１３に示すように動作する。図１３によれば、先ず、第１実施形態と同様にステップＳ１乃至ステップＳ３を行った後に、理解結果ＩＤ生成部１２は、ステップＳ１１において、複数の単語ＩＤから複数の理解結果ＩＤからなる理解結果候補を生成する。この際、理解結果ＩＤ生成部１２は、照合部２３からは認識結果としてのＮ−ｂｅｓｔを受け取り、理解結果ＩＤの候補も複数個生成する。

次のステップＳ１２において、ステップＳ１１にて生成された複数の理解結果ＩＤからなる理解結果候補がシステム挙動決定部１３に供給されると、システム挙動決定部１３は、各理解結果ＩＤに応じたシステム挙動の候補を生成する。この時、システム挙動決定部１３は、音声認識結果としての単語ＩＤの尤度、直前のシステム応答など状況を総合的に判断して、各システム挙動である理解結果ＩＤの候補にスコアを付与する。

次のステップＳ５において、システム挙動決定部１３は、ステップＳ１２にて決定されたシステム挙動である理解結果ＩＤのスコアに応じて、最適なシステム挙動である理解結果ＩＤを選択する。

次のステップＳ１３において、システム挙動決定部１３は、ステップＳ５にて選択したシステム挙動である理解結果ＩＤのスコアが、閾値Ｘより高いか否かを判定する。この閾値Ｘは、システム挙動を評価するための単語ＩＤの尤度などに応じて予め設定しておくものである。そして、選択したシステム挙動である理解結果ＩＤのスコアが閾値Ｘよりも低い場合には、適当なシステム挙動が選択できなかったと判断して、ステップＳ１６に処理を進める。

ステップＳ１６において、アプリケーション実行部１４は、ディスプレイ３、スピーカ４を駆動させて、ユーザに発話の再入力を要求する応答を出力する。

選択したシステム挙動である理解結果ＩＤのスコアが閾値Ｘよりも高い場合は、ステップＳ１４に処理を進め、音声認識システムは、決定したシステム挙動がユーザの意図に一致するかどうかを確認する。このために、理解結果ＩＤによってアプリケーション実行部１４によるアプリケーション処理の実行確認を行う。この実行確認は、ユーザに意図に沿わない場合のみ音声認識の間違いを訂正するための操作をすればいいような表示又は音声出力を行う。例えば、「○○を検索します。」のように、明示的にユーザの入力を求めない応答にする。

次のステップＳ１５において、システム挙動決定部１３は、ステップＳ１４にて実行確認した後の所定期間内に、キャンセルボタン５ｂからの入力信号を入力したか否かを判定することにより、システム挙動がキャンセルされたか否かを判定する。システム挙動がキャンセルされた場合にはステップＳ５に処理を戻す。この場合、システム挙動決定部１３は、システム挙動である理解結果ＩＤの選択をやり直すため、ステップＳ５において以前に提示してキャンセルされたシステム挙動を除いたシステム挙動の中から最もスコアが高いシステム挙動を選択し、ステップＳ１３にて選択したシステム挙動が閾値Ｘより高い場合に、別のシステム挙動である理解結果ＩＤの候補を出力する。

一方、システム挙動がキャンセルされていない場合には、ステップＳ６及びステップＳ７に処理を進める。これにより、音声認識システムは、ステップＳ６において、アプリケーション実行部１４は、キャンセルされていない理解結果ＩＤに従って所定のアプリケーション処理を実行し、ステップＳ７において、当該アプリケーション処理の結果をディスプレイ３及びスピーカ４によってユーザに提示する。

以上説明したように、第５実施形態として示す音声認識システムによれば、第１実施形態と同様に単語ＩＤ１０３を直接演算してユーザが発話した音声の理解結果を生成できる効果に加えて、生成した理解結果ＩＤが誤りであった場合には他の理解結果を生成できるので、同じ発話をユーザに繰り返させることなく、正しい理解結果を生成することができる。

［第６実施形態］
つぎに、本発明の第６実施形態について説明する。なお、上述した実施形態と同じ部分については同一符号を付することによりその詳細な説明を省略する。

第６実施形態として示す音声認識システムは、音声認識部１１によってマイク２により入力した音声を順次認識して複数の単語を生成すると、理解結果ＩＤ生成部１２によって、音声認識部１１により認識される全音声のうちの一部の単語に対応した単語辞書データベース２１ｂにおける単語ＩＤ同士を演算して、理解結果ＩＤを生成するものである。

上述した実施形態においては、音声認識部１１に入力された音声信号の全体に対して照合部２３による照合処理が全て終了して音声認識処理が完了した後に、理解結果ＩＤを生成している。しかし、第６実施形態として示す音声認識システムは、照合処理の途中で順次出力される単語ＩＤ（仮認識結果）同士を用いて理解結果ＩＤの演算を行う。

ここで、一般的な音声認識の照合処理では、単語辞書データベース２１ｂ及び文法データベース２１ｃの制約に合致する様々な単語列の仮説について、音響尤度を計算し、最終的に最も尤度が高くなる仮説を音声認識結果として出力する。その際、単語辞書データベース２１ｂ及び文法データベース２１ｃの制約に合致する全ての単語列について逐次尤度を計算すると、文法データベース２１ｃや単語辞書データベース２１ｂ内の単語数によっては、その処理量が膨大になり、実時間内での処理が難しくなる。このことから、照合処理の過程において、尤度が小さい単語は、理解結果ＩＤの演算に用いる単語の候補から外し、尤度が大きい単語についてのみ音声認識結果として出力することが望ましい。

例えば、２語以上の単語が音声認識された時点で、理解結果ＩＤ生成部１２によって単語ＩＤ同士の演算を行う。図１４に、マイク２によって生成された音声信号と、音声認識部１１により認識される単語の例を示す。時刻がｔ１〜ｔ２の区間では、単語「自宅」、単語ＩＤ「１１３００」と、単語「音楽」、単語ＩＤ「２２０００」の音響尤度が高く、次の時刻がｔ２〜ｔ３では助詞の「に」、時刻がｔ３＾ｔ４の間では単語「帰る」、単語ＩＤ「１００１５」の音響尤度が高かったとする。

単語ＩＤのない助詞などは、単語辞書データベース２１ｂに登録されていないために、理解結果ＩＤに使用する単語としては認識されない。このために、単語辞書データベース２１ｂに単語として登録された単語同士のみについて音声認識を行う。ここで、時刻ｔ２後にて認識された単語「自宅」、単語ＩＤ「１１３００」と、時刻ｔ４後にて認識された単語「帰る」、単語ＩＤ「１００１５」とは、理解結果ＩＤの演算が可能でである。この時点では、全音声信号に対して音声認識が完了していなくても、仮の理解結果ＩＤとしての理解結果ＩＤ「１１３１５」を生成することができる。

しかし、単語「音楽」、単語ＩＤ「２２０００」と、単語「帰る」、単語ＩＤ「１００１５」とは、理解結果ＩＤの演算が不可能であり、仮の理解結果ＩＤを生成することができない。そのため、「音楽」「に」「帰る」という接続の単語の組み合わせの音響尤度が高い場合であっても、無効な単語の組み合わせであるとして仮の認識結果の候補から除外することができる。その後、図１４に示す例では、時刻がｔ４以降において、単語ＩＤ「１００１０」の音響尤度が高いと判断されたためそこまでの途中理解結果ＩＤ「１１３１５」と演算して、同じく「１１３１５」を理解結果ＩＤとする。

以上のように、音声認識システムによれば、第１実施形態と同様に単語ＩＤ１０３を直接演算してユーザが発話した音声の理解結果を生成できる効果に加えて、音声認識処理によって複数の単語を認識する場合に、順次認識する単語の単語ＩＤを用いて理解結果ＩＤが生成できる場合には当該認識された単語の尤度が高いものと判断することができる。逆に、順次認識した単語の単語ＩＤによっては理解結果ＩＤが生成できない場合には、当該単語同士が接続される尤度が低いことを判断できる。したがって、この音声認識システムによれば、認識結果候補の増大による処理時間の増加を抑えることができる。

なお、上述の実施の形態は本発明の一例である。このため、本発明は、上述の実施形態に限定されることはなく、この実施の形態以外であっても、本発明に係る技術的思想を逸脱しない範囲であれば、設計等に応じて種々の変更が可能であることは勿論である。

また、以下に、特許請求の範囲における用語と実施形態における用語との対応関係の一例を示す「音声入力手段」は「マイク２」に相当し、「単語テーブル」は「単語辞書データベース」に相当し、「記憶手段」は「記憶部」に相当し、「音声認識手段」は「音声認識部」に相当し、「音声理解手段」「スコア計算手段」は「理解結果ＩＤ生成部」に相当し、「提示手段」は「ディスクプレイ、スピーカ」に相当し、「入力手段」は「入力装置、キャンセルボタン」に相当する。

本発明の実施形態として示す音声認識システムのブロック図である。本発明の実施形態として示す音声認識システムの処理手順を示すフローチャートである。本発明の実施形態として示す音声認識システムにおける、（ａ）単語辞書データベース、（ｂ）理解結果ＩＤテーブルを示す図である。本発明の実施形態として示す音声認識システムにおける単語辞書データベースの他の例を示す図である。本発明の実施形態として示す音声認識システムにおける、（ａ）４桁の単語ＩＤの演算方法、（ｂ）１６桁の単語ＩＤの演算方法を説明する図である。本発明の実施形態として示す音声認識システムにおける、単語ＩＤが一様ではないときの演算方法を説明する図である。本発明の実施形態として示す音声認識システムにおける理解結果ＩＤテーブルの他の例を示す図である。本発明の実施形態として示す音声認識システムにおける単語辞書データベースの他の例を示す図である。本発明の実施形態として示す音声認識システムにおける理解結果ＩＤテーブルの他の例を示す図である。本発明の実施形態として示す音声認識システムにおける単語辞書データベースの他の例を示す図である。本発明の実施形態として示す音声認識システムにおける、複数の単語を単語グループに区分した時の処理を説明する図である。本発明の実施形態として示す音声認識システムにおける単語辞書データベースの他の例を示す図である。本発明の実施形態として示す音声認識システムの他の処理手順を示すフローチャートである。本発明の実施形態として示す音声認識システムにおける音声信号と認識結果との関係を示す図である。

符号の説明

１演算装置
２マイク
３ディスプレイ
４スピーカ
５入力装置
５ａ音声認識開始ボタン
５ｂキャンセルボタン
１１音声認識部
１２生成部
１３システム挙動決定部
１４アプリケーション実行部
１４ａ理解結果ＩＤテーブル
２１記憶部
２１ａ音響モデルデータベース
２１ｂ単語辞書データベース
２１ｃ文法データベース
２２分析部
２３照合部
１０１単語
１０１表示文字列
１０１複合語
１０２発話記号
１０３単語ＩＤ
１０３ａ目的語用識別符号列
１０３ｂ述語用識別符号列
１０３ｃ演算可否符号
１０３ｄ優先順位
２０１理解結果ＩＤ
２０２機能情報
２１１第１単語グループ
２１２第２単語グループ

Claims

音声を入力する音声入力手段と、
各単語と、前記音声における単語の役割により異なる符号位置に当該単語の意味情報を含む符号列とされた識別情報とを対応付けて登録した単語テーブルを記憶する記憶手段と、
前記音声入力手段により入力した音声を認識し、音声認識結果として複数の単語を生成する音声認識手段と、
前記音声認識手段により認識された複数の単語に対応した前記単語テーブルにおける複数の識別情報の符号列同士を演算して、音声の理解結果を示す符号列を生成する音声理解手段とを備え、
各単語の識別情報の符号列は、組み合わせても意味をなさない他の単語の識別情報の符号列と演算されても、前記音声理解手段によって音声の理解結果を示す符号列を生成できないように設計されており、
前記識別情報の先頭には、他単語の識別情報と演算された場合に前記音声の理解結果が生成可能か否かを表す演算可否符号が含まれており、
前記音声理解手段は、
先ず、各単語の識別情報に含まれる演算可否符号を参照して演算を行い、組み合わせることが不可能な識別情報の符号列同士の演算を省き、
次に、前記音声の理解結果が生成可能な各識別情報の符号列同士を演算して、前記複数の識別情報における同じ符号位置の符号毎に加算して前記音声の理解結果を示す符号列を生成するものであり、
Ａ＋Ａ＝Ａ
Ａ＋０＝Ａ
０＋Ａ＝Ａ
０＋０＝０
Ａ＋Ｂ＝演算不可
ただし、Ａ≠０、Ｂ≠０、Ａ≠Ｂ
という所定の演算規則に従って、前記音声の理解結果を示す符号列を生成すること
を特徴とする音声認識装置。
前記単語テーブルは、複数の単語を組み合わせられてなる複合語の音声の理解結果を、当該複数の単語の識別情報の符号列同士を前記音声理解手段により演算して得られる音声の理解結果と同じとして登録していることを特徴とする請求項１に記載の音声認識装置。
前記単語テーブルは、組み合わせても意味をなさない単語の識別情報を同じ単語グループとして、複数の単語の識別情報を登録してなり、
前記音声理解手段は、前記複数の識別情報のうち前記単語テーブルにおいて異なる単語グループの識別情報同士を演算して、音声の理解結果を示す符号列を生成することを特徴とする請求項１に記載の音声認識装置。
前記音声理解手段は、２つ以上の識別情報が得られた場合に、複数の音声の理解結果を生成することを特徴とする請求項１に記載の音声認識装置。
前記音声理解手段は、前記音声認識手段により認識された単語のうち識別情報同士の演算が不可能な単語の組み合わせにより演算した音声の理解結果を、無効とすることを特徴とする請求項４に記載の音声認識装置。
前記音声理解手段により生成された音声の理解結果を評価するスコアを計算するスコア計算手段を備えることを特徴とする請求項４に記載の音声認識装置。
前記単語テーブルには、識別情報に対応付けて優先順位が登録され、
前記スコア計算手段は、前記音声理解手段が音声の理解結果を生成するために用いた単語に対応付けられた優先順位を参照して、当該音声の理解結果を評価するスコアを計算することを特徴とする請求項６に記載の音声認識装置。
前記スコア計算手段は、前記音声認識手段が認識した単語の尤度に従って当該単語の信頼度を演算し、当該単語の信頼度に基づいて、当該音声の理解結果を評価するスコアを計算することを特徴とする請求項６に記載の音声認識装置。
前記スコア計算手段は、前記音声理解手段が音声の理解結果を生成するために用いた単語の認識しやすさに基づいて、当該音声の理解結果を評価するスコアを計算することを特徴とする請求項６に記載の音声認識装置。
前記スコア計算手段は、前記音声認識手段により認識された単語の発話履歴に基づいて、前記音声理解手段により生成された音声の理解結果を評価するスコアを計算することを特徴とする請求項６に記載の音声認識装置。
前記音声理解手段により生成された音声の理解結果を提示する提示手段と、
前記音声理解手段により生成された音声の理解結果に対する誤りをユーザによって入力する入力手段とを備え、
前記音声理解手段は、前記入力手段に音声の理解結果に対する誤りが入力された場合には、前記提示手段により提示された音声の理解結果とは異なる音声の理解結果を生成すること
を特徴とする請求項４〜請求項１０の何れか一項に記載の音声認識装置。
前記音声認識手段は、前記音声入力手段により入力した音声を順次認識して複数の単語を生成し、
前記音声理解手段は、前記音声認識手段により認識される全音声のうちの一部の単語に対応した前記単語テーブルにおける識別情報の符号列同士を演算し、
前記音声認識手段は、前記音声理解手段により複数の単語の識別情報により音声の理解結果を示す符号列が生成できない場合には、当該単語を音声認識結果から除外することを特徴とする請求項１乃至請求項１１の何れか一項に記載の音声認識装置。
予め各単語と、入力する音声における単語の役割により異なる符号位置に当該単語の意味情報を含む符号列とされた識別情報とを対応付け、各単語の識別情報の符号列が、組み合わせても意味をなさない他の単語の識別情報の符号列と演算されても、音声の理解結果を示す符号列を生成できないように設計されている単語テーブルを記憶手段に記憶しておき、
前記識別情報の先頭には、他単語の識別情報と演算された場合に前記音声の理解結果が生成可能か否かを表す演算可否符号が含まれており、
音声入力手段により入力した音声を認識して音声認識結果として複数の単語を生成した後に、認識された複数の単語に対応した前記単語テーブルにおける複数の識別情報の符号列同士を演算して、音声の理解結果を示す符号列を生成するに際し、
先ず、各単語の識別情報に含まれる演算可否符号を参照して演算を行い、組み合わせることが不可能な識別情報の符号列同士の演算を省き、
次に、前記音声の理解結果が生成可能な各識別情報の符号列同士を演算し、前記複数の識別情報における同じ符号位置の符号毎に加算して前記音声の理解結果を示す符号列を生成し、
Ａ＋Ａ＝Ａ
Ａ＋０＝Ａ
０＋Ａ＝Ａ
０＋０＝０
Ａ＋Ｂ＝演算不可
ただし、Ａ≠０、Ｂ≠０、Ａ≠Ｂ
という所定の演算規則に従って、前記音声の理解結果を示す符号列を生成すること
を特徴とする音声認識方法。