JP3880383B2

JP3880383B2 - 音声認識装置及びその方法、プログラム

Info

Publication number: JP3880383B2
Application number: JP2001370353A
Authority: JP
Inventors: 哲夫小坂; 隆也上田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2001-12-04
Filing date: 2001-12-04
Publication date: 2007-02-14
Anticipated expiration: 2021-12-04
Also published as: JP2003167598A

Description

【０００１】
【発明の属する技術分野】
本発明は、入力された音声を認識し、その音声認識結果に基づいて処理を実行する音声認識装置及びその方法、プログラムに関するものである。
【０００２】
【従来の技術】
従来の音声認識技術のインプリメントは、プログラムを作成することにより行うことが一般的であった。しかし、近年では、VoiceXMLなどハイパーテキスト文書の利用により音声認識技術のインプリメントをすることが行われるようになってきている。VoiceXMLでは、入出力の手段として基本的には音声のみが使用されているが（厳密にはＤＴＭＦなども使用）、特開２００１−１６６９１５、特開平１０−１５４０６３などのように音声入出力のみならずＧＵＩも併用したＵＩの記述にハイパーテキスト文書を用いることも考案されている。
【０００３】
このような方式では、ＧＵＩの記述にはＨＴＭＬのようなマークアップ言語を用い、さらに音声入出力を可能にするために、音声入力や音声出力に対応するいくつかのタグを追加して実施している。
【０００４】
【発明が解決しようとする課題】
しかしながら、上記特開２００１−１６６９１５における装置では、文字入力欄や選択欄中の選択肢の選択に音声認識が使用される。この場合、選択肢の選択では選択肢の数を数え、各選択肢に対応する番号を装置が自動的に割り振り、番号を発声することにより、どの選択肢を選択するかの動作を行う。この場合、その選択肢に対する音声入力を音声認識を認識するための音声認識文法としては、番号を受け付けるものであればよい。あるいは、各選択肢に対応する語彙を音声認識文法に登録しておけば、直接語彙を発声することにより選択欄から所望の選択肢を選択することが可能である。
【０００５】
しかしながら、この装置においては、あらかじめ音声認識文法に登録された語彙に対する音声入力しか受けつけることができず、新たな選択肢を音声認識で選択することができず、利便性が欠けている。
【０００６】
本発明は上記課題を解決するためになされたものであり、画面上に表示される任意の選択肢の選択を容易にかつ柔軟に音声入力で実現することができる音声認識装置及びその方法、プログラムを提供することを目的とする。
【０００７】
【課題を解決するための手段】
上記の目的を達成するための本発明による音声認識装置は以下の構成を備える。即ち、
入力された音声を認識し、その音声認識結果に基づいて処理を実行する音声認識装置であって、
複数の選択肢からなる選択欄を表示するための記述と、該選択欄中の選択肢の音声入力による選択を受け付けるための記述を含むハイパーテキスト文書を読み込む読込手段と、
前記読込手段で読み込んだハイパーテキスト文書中の前記選択欄を表示するための記述に基づいて選択欄を表示する表示手段と、
前記表示手段で表示された複数の前記選択欄へのいずれかの選択欄への指示がなされた場合に、該指示がなされた前記ハイパーテキスト文書中の前記選択欄中の選択肢に関する記述に基づいて音声認識文法を生成する生成手段と、
前記生成手段で生成された音声認識文法に基づいて、前記入力された音声の音声認識を実行する音声認識手段と、
前記音声認識手段の音声認識結果に基づいて、前記選択欄中の選択肢の選択を確定する確定手段と
を備える。
【０００８】
また、好ましくは、前記確定手段は、前記音声認識手段の音声認識結果に基づいて、前記選択欄中の１つの選択肢の選択を確定する。
【０００９】
また、好ましくは、前記確定手段は、前記音声認識手段の音声認識結果に基づいて、前記選択欄中の複数の選択肢の選択を確定する。
【００１０】
また、好ましくは、前記ハイパーテキスト文書を解析する解析手段と、
前記解析手段の解析が完了した後、前記音声認識手段は、前記音声認識を開始する。
【００１１】
また、好ましくは、前記音声認識手段は、前記選択欄への指示がなされた場合に前記音声認識を開始し、該選択欄への指示が取り消された場合に該音声認識を終了する。
【００１２】
また、好ましくは、前記解析手段の解析が完了した後、前記生成手段は、前記音声認識文法の生成を開始する。
【００１３】
また、好ましくは、前記選択欄への指示がなされた場合に、前記生成手段は、前記音声認識文法の生成を開始する。
【００１４】
上記の目的を達成するための本発明による音声認識方法は以下の構成を備える。即ち、
入力された音声を認識し、その音声認識結果に基づいて処理を実行する音声認識方法であって、
複数の選択肢からなる選択欄を表示するための記述と、該選択欄中の選択肢の音声入力による選択を受け付けるための記述を含むハイパーテキスト文書を読み込む読込工程と、
前記読込工程で読み込んだハイパーテキスト文書中の前記選択欄を表示するための記述に基づいて選択欄を表示する表示工程と、
前記表示工程で表示された複数の前記選択欄のいずれかの選択欄への指示がなされた場合に、該指示がなされた前記ハイパーテキスト文書中の前記選択欄中の選択肢に関する記述に基づいて、音声認識文法を生成する生成工程と、
前記生成工程で生成された音声認識文法に基づいて、前記入力された音声の音声認識を実行する音声認識工程と、
前記音声認識工程の音声認識結果に基づいて、前記選択欄中の選択肢の選択を確定する確定工程と
を備える。
【００１５】
上記の目的を達成するための本発明によるプログラムは以下の構成を備える。即ち、
入力された音声を認識し、その音声認識結果に基づいて処理を実行する音声認識をコンピュータに機能させるためのプログラムであって、
複数の選択肢からなる選択欄を表示するための記述と、該選択欄中の選択肢の音声入力による選択を受け付けるための記述を含むハイパーテキスト文書を読み込む読込工程のプログラムコードと、
前記読込工程で読み込んだハイパーテキスト文書中の前記選択欄を表示するための記述に基づいて選択欄を表示する表示工程のプログラムコードと、
前記表示工程で表示された複数の前記選択欄のいずれかの選択欄への指示がなされた場合に、該指示がなされた前記ハイパーテキスト文書中の前記選択欄中の選択肢に関する記述に基づいて、音声認識文法を生成する生成工程のプログラムコードと、
前記生成工程で生成された音声認識文法に基づいて、前記入力された音声の音声認識を実行する音声認識工程のプログラムコードと、
前記音声認識手段の音声認識結果に基づいて、前記選択欄中の選択肢の選択を確定する確定工程のプログラムコードと
を備える。
【００１６】
【発明の実施の形態】
以下、図面を参照して本発明の好適な実施形態を詳細に説明する。
＜実施形態１＞
図１は本発明の実施形態１の音声認識システムの構成を示す図である。また、図２は本発明の実施形態１の音声認識システムの動作フローを示すフローチャートである。以下、動作例について、図１及び図２を用いて説明する。
【００１７】
尚、当該音声認識システムは、公衆回線や無線ＬＡＮ等とのネットワークを介して、データ通信を行うことができ、汎用コンピュータや携帯端末に搭載される標準的な構成要素（例えば、ＣＰＵ、ＲＡＭ、ＲＯＭ、ハードディスク、外部記憶装置、ネットワークインタフェース、ディスプレイ、キーボード、マウス等）で構成されている。また、以下に説明する音声認識システムで実現される各種機能は、システム内部のＲＯＭや外部記憶装置に記憶されるプログラムがＣＰＵによって実行されることによって実現されても良いし、専用のハードウェアで実現されても良い。
【００１８】
まず、ステップＳ１００で、文書データ１００の読み込みを文書読込部１０１を用いて行う。文書データは、マークアップ言語等の記述言語の記述からなるハイパーテキスト文書であり、その文書データ中には、ＧＵＩのデザイン、音声認識合成の動作、音声認識文法の位置（格納場所）を示す記述や表示対象／音声出力対象のテキストデータ等で構成されている。
【００１９】
次に、ステップＳ１０１で、読み込んだ文書データ１００の解析を文書解析部１０２を用いて行う。ここでは、文書データ１００中のマークアップ言語の解析を行い、文書データ１００がどのような構造になっているかの解析を行う。解析結果は、制御部１０３及び音声認識部文法生成部１０５へ送信する。
【００２０】
ここで、解析対象の文書データ１００の例を図４に示す。また、これをＧＵＩで表示した例を図５に示す。
【００２１】
図４の例では、マークアップ言語としてＨＴＭＬを用い、複数の選択肢を有する選択欄から所望の選択肢をＧＵＩで選択する場合の記述を示している。また、この図４によって生成される図５のＧＵＩ上で表示される選択欄５０１中の選択肢は、マウスなどのポインティングデバイスで入力を与えることにより選択できる。実施形態１では、図４の文書データ１００に新たな記述を加え、選択欄５０１中の選択肢がＧＵＩでも音声認識でもどちらでも選択可能とする構成を実現する。このような構成の文書データ１００の例を図６に示す。
【００２２】
図６の記述の内、＜select＞タグ中に「voice:type=speech-in」という記述を行うことで、音声入力を受け付け、入力される音声を認識する音声認識部１０８を使用可能状態にする。
【００２３】
文書解析部１０２は、図６に示すような文書データの選択欄を示す＜select＞タグ中に「voice:type=speech-in」の記述が検出される場合、制御部１０３を通じて音声認識部１０８を使用可能状態にし、ＧＵＩ上の選択欄５０１による所望の選択肢が音声認識でもＧＵＩでも可能にする。また、＜select＞タグ中に「voice:type=speech-in」の記述が検出されない場合、制御部１０３を通じて音声認識部１０８を使用不可能状態とし、ＧＵＩ上の選択欄５０１による所望の選択肢がＧＵＩのみで可能にする。
【００２４】
また、選択欄中の選択肢の音声入力による選択を可能にするために、選択欄中の選択を示す各＜option＞〜＜/option＞タグで囲まれる「炒飯」等の記述を音声認識文法生成部１０５に送信する。加えて、＜option＞〜＜/option＞タグ中に「voice:yomi」という記述を検出すると、指定された読みを表すパラメータ（例えば、「炒飯」の場合は、その読みとして「チャーハン」）を音声認識文法生成部１０５に送信する。この場合、どの読みがどの記述に対応するかの対応情報も送信する。図７は、図６の文書データに対して、文書解析部１０２の解析結果によって、音声認識文法生成部１０５に送信する対応情報の一例である。尚、読みが「voice:yomi=」で指定されない場合（図６では、「カレー」）は、その読みは「ＮＵＬＬ」データとなる。
【００２５】
図２の説明に戻る。
【００２６】
ステップＳ１０２で、文書解析部１０２の解析結果に基づいて、制御部１０３はＧＵＩ画像表示データを生成して、表示部／入力部１０４に送信する。これにより、表示部／入力部１０４にＧＵＩが表示される。この時の表示例が図５である。表示部／入力部１０４の表示部は、一般的にはコンピュータディスプレであるが、視覚的に表示できるものであれば、どのようなものでも構わない。
【００２７】
ステップＳ１０３で、音声認識文法生成部１０５は、例えば、図７で示すデータを受信し、音声認識文法を生成する。実施形態１では、「炒飯」、「カレー」、「寿司」の３単語を認識可能な音声認識文法を生成する。音声認識文法では、認識結果の出力文字列情報および読み情報が必要となるが、文書解析部１０２から読み情報を受信する場合は、その読み情報が読みとして与えられる。また、読み情報を受信していない場合は、自動的に読み情報が付与され認識文法生成に使用される。
【００２８】
ステップＳ１０４で、音声認識文法変更部１０６にて、ステップＳ１０４で生成された音声認識文法が現在使用されている音声認識文法にマージされる。現在、使用されている音声認識文法とは、音声認識システム立ち上げ時にあらかじめ読み込まれている、例えば、音声認識システムを制御／操作する音声認識文法である。この音声認識文法における語彙としては、「進む」、「戻る」、「次」等が想定される。
【００２９】
ステップＳ１０５で、音声認識文法保存部１０７に変更した音声認識文法１０７を保存する。この保存は、ハードディスクのようなものであっても、メモリのような一時記憶のようなものであってもよい。
【００３０】
以上の処理によって、＜select＞タグに準ずる音声認識文法の生成を行う。
【００３１】
次に、生成した音声認識文法に基づく音声認識処理について、図３を用いて説明する。
【００３２】
図３は本発明の実施形態１の音声認識処理を示すフローチャートである。
【００３３】
ステップＳ２００で、マイク１０９にて、ユーザが発声した音声を取り込む。ステップＳ２０１で、音声認識部１０８にて、入力された音声の音声認識を行う。音声認識は、保存された音声認識文法１０７を使用して行う。ここでは、例えば、「スシ」と発声されたとする。この場合、作成された音声認識文法に従って、「寿司」の認識結果が得られる。
【００３４】
ステップＳ２０２で、制御部１０３にて、音声認識結果をＧＵＩ上の選択欄５０１へ反映し、選択欄５０１中の選択肢の選択を確定する。この場合、表示部／入力部１０４に表示されるＧＵＩ上の選択欄５０１中の選択肢の１つである「寿司」が選択、表示される。ステップＳ２０３で、ＧＵＩ上の送信ボタン５０２を押下されると、入力データ送信部１１０にて、アプリケーション１１１に選択欄の入力結果（この場合は、「寿司」）を送信する。
【００３５】
ステップＳ２０４で、入力されたデータに従いアプリケーション１１１が動作する。
【００３６】
以上説明したように、実施形態１によれば、ハイパーテキスト文書における選択欄表示において、選択欄中の選択肢からユーザが選択する場合、ポインティングデバイス等による選択のみならず、音声認識による選択が可能になる。また、その音声認識よる選択に対する音声認識文法を自動生成するため、選択欄中の選択肢に表示される語彙を音声認識文法に事前に登録する必要がなくなる。
＜実施形態２＞
実施形態１においては、選択欄中の複数の選択肢から１つの選択肢を排他的に選択する場合について開示したが、複数の選択肢を一度に選択する構成も可能である。例えば、選択欄から複数の選択肢を選択する場合は、ＨＴＭＬにおいては、選択欄としてチェックボックスが存在する。このチェックボックスに対して、音声認識を可能とするマークアップ言語の記述の例を図８に示す。
【００３７】
この場合、文書解析部１０２では、図７に示した対応情報を音声認識文法生成部１０５に送信し、実施形態１と同様な処理で音声認識文法が生成される。実施形態１と異なる点は、図２のステップＳ２０２において、認識結果が得られるごとに、選択肢を一つ選ぶのではなく、以前の認識結果を残したまま選択された選択肢を追加していく点である。また、同じ音声入力が２度ある場合は、その選択肢の選択から除外する。例えば、「チャーハン」と音声入力があった場合、「炒飯」を認識結果として確定し、次に、「カレー」と音声入力があれば、「炒飯」に追加して「カレー」も認識結果として確定する。この状態で、さらに「カレー」と音声入力があると、「カレー」に対する選択肢から除外され、「炒飯」のみが選択されるという動作をする。
【００３８】
また、ＨＴＭＬにおいては、選択欄としてラジオボタンと呼ばれる複数の選択肢から単一の選択肢を選択する選択欄もあるが、これは、実施形態１と同様な動作で選択可能であることは言うまでもない。
＜実施形態３＞
実施形態１では、文書データ１００を読込を行った時点で、選択欄の選択肢に関する記述に従って音声認識文法を作成し、音声認識実行する構成について説明したが、文書データ１００の読込以外の時点で音声認識文法を作成し、音声認識を実行しても良い。また、音声認識文法の作成と音声認識の動作が別の時点で行われても構わない。
【００３９】
例えば、文書データ１００の読込後、文書データ１００中に選択欄に関する記述があり、かつタグ中に「voice:type=speech-in」が検出された場合、まず、その選択欄中の選択肢に関する音声認識文法を音声認識文法生成部１０５で作成する。但し、その時点では、音声認識文法１０７へ生成した音声認識文法の追加は行わず、該当する選択肢がＧＵＩや音声等で指示（フォーカス）された時点で、音声認識文法変更部１０６を動作させ、音声認識文法１０７へ生成された音声認識文法を追加して、音声認識を開始する。また、フォーカスが外れた時点で再度追加した音声認識文法を除外して、音声認識を終了する。このように構成することで、該当する選択肢にフォーカスされたときのみ選択欄へ音声入力することが可能となり、音声認識システムの処理負荷を軽減することができる。
【００４０】
尚、上記実施形態では、ＧＵＩ上に表示される１つの選択欄中の選択肢に対する選択を音声入力する場合について説明したが、複数の選択欄が表示されるＧＵＩに対しても本発明を適用できることは言うまでもない。この場合は、複数の選択欄のいずれかの選択欄の指示がなされた後に、上記実施形態で説明した処理を実行すれば良い。
【００４１】
尚、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラム（実施形態では図に示すフローチャートに対応したプログラム）を、システム或いは装置に直接或いは遠隔から供給し、そのシステム或いは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。その場合、プログラムの機能を有していれば、形態は、プログラムである必要はない。
【００４２】
従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。
【００４３】
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳに供給するスクリプトデータ等、プログラムの形態を問わない。
【００４４】
プログラムを供給するための記録媒体としては、例えば、フロッピーディスク、ハードディスク、光ディスク、光磁気ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＤＶＤ（ＤＶＤ−ＲＯＭ，ＤＶＤ−Ｒ）などがある。
【００４５】
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、該ホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるＷＷＷサーバも、本発明に含まれるものである。
【００４６】
また、本発明のプログラムを暗号化してＣＤ−ＲＯＭ等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
【００４７】
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているＯＳなどが、実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現され得る。
【００４８】
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現される。
【００４９】
【発明の効果】
以上説明したように、本発明によれば、画面上に表示される任意の選択肢の選択を容易にかつ柔軟に音声入力で実現することができる音声認識装置及びその方法、プログラムを提供できる。
【図面の簡単な説明】
【図１】本発明の実施形態１の音声認識システムの構成を示す図である。
【図２】本発明の実施形態１の音声認識システムの動作フローを示すフローチャートである。
【図３】本発明の実施形態１の音声認識処理を示すフローチャートである。
【図４】本発明の実施形態１の文書データの例を示す図である。
【図５】本発明の実施形態１のＧＵＩの例を示す図である。
【図６】本発明の実施形態１の文書データの例を示す図である。
【図７】本発明の実施形態１の記述と読みの対応情報の例を示す図である。
【図８】本発明の実施形態２の文書データの例を示す図である。
【符号の説明】
１００文書データ
１０１文書読込部
１０２文書解析部
１０３制御部
１０４表示部／入力部
１０５音声認識文法生成部
１０６音声認識文法変更部
１０７音声認識文法
１０８音声認識部
１０９マイク
１１０入力データ送信部
１１１アプリケーション

Claims

入力された音声を認識し、その音声認識結果に基づいて処理を実行する音声認識装置であって、
複数の選択肢からなる選択欄を表示するための記述と、該選択欄中の選択肢の音声入力による選択を受け付けるための記述を含むハイパーテキスト文書を読み込む読込手段と、
前記読込手段で読み込んだハイパーテキスト文書中の前記選択欄を表示するための記述に基づいて選択欄を表示する表示手段と、
前記表示手段で表示された複数の前記選択欄のいずれかの選択欄への指示がなされた場合に、該指示がなされた前記ハイパーテキスト文書中の前記選択欄中の選択肢に関する記述に基づいて音声認識文法を生成する生成手段と、
前記生成手段で生成された音声認識文法に基づいて、前記入力された音声の音声認識を実行する音声認識手段と、
前記音声認識手段の音声認識結果に基づいて、前記選択欄中の選択肢の選択を確定する確定手段と
を備えることを特徴とする音声認識装置。
前記確定手段は、前記音声認識手段の音声認識結果に基づいて、前記選択欄中の１つの選択肢の選択を確定する
ことを特徴とする請求項１に記載の音声認識装置。
前記確定手段は、前記音声認識手段の音声認識結果に基づいて、前記選択欄中の複数の選択肢の選択を確定する
ことを特徴とする請求項１に記載の音声認識装置。
前記音声認識手段は、前記解析手段の解析が完了した後、前記音声認識を開始する
ことを特徴とする請求項１に記載の音声認識装置。
前記音声認識手段は、前記選択欄への指示がなされた場合に前記音声認識を開始し、該選択欄への指示が取り消された場合に該音声認識を終了する
ことを特徴とする請求項１に記載の音声認識装置。
入力された音声を認識し、その音声認識結果に基づいて処理を実行する音声認識方法であって、
複数の選択肢からなる選択欄を表示するための記述と、該選択欄中の選択肢の音声入力による選択を受け付けるための記述を含むハイパーテキスト文書を読み込む読込工程と、
前記読込工程で読み込んだハイパーテキスト文書中の前記選択欄を表示するための記述に基づいて選択欄を表示する表示工程と、
前記表示工程で表示された複数の前記選択欄のいずれかの選択欄への指示がなされた場合に、該指示がなされた前記ハイパーテキスト文書中の前記選択欄中の選択肢に関する記述に基づいて、音声認識文法を生成する生成工程と、
前記生成工程で生成された音声認識文法に基づいて、前記入力された音声の音声認識を実行する音声認識工程と、
前記音声認識工程の音声認識結果に基づいて、前記選択欄中の選択肢の選択を確定する確定工程と
を備えることを特徴とする音声認識方法。
入力された音声を認識し、その音声認識結果に基づいて処理を実行する音声認識をコンピュータに機能させるためのプログラムであって、
複数の選択肢からなる選択欄を表示するための記述と、該選択欄中の選択肢の音声入力による選択を受け付けるための記述を含むハイパーテキスト文書を読み込む読込工程のプログラムコードと、
前記読込工程で読み込んだハイパーテキスト文書中の前記選択欄を表示するための記述に基づいて選択欄を表示する表示工程のプログラムコードと、
前記表示工程で表示された複数の前記選択欄へのいずれかの選択欄への指示がなされた場合に、該指示がなされた前記ハイパーテキスト文書中の前記選択欄中の選択肢に関する記述に基づいて、音声認識文法を生成する生成工程のプログラムコードと、
前記生成工程で生成された音声認識文法に基づいて、前記入力された音声の音声認識を実行する音声認識工程のプログラムコードと、
前記音声認識手段の音声認識結果に基づいて、前記選択欄中の選択肢の選択を確定する確定工程のプログラムコードと
を備えることを特徴とするプログラム。