JP2003167598A

JP2003167598A - 音声認識装置及びその方法、プログラム

Info

Publication number: JP2003167598A
Application number: JP2001370353A
Authority: JP
Inventors: Tetsuo Kosaka; 哲夫小坂; Takanari Ueda; 隆也上田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2001-12-04
Filing date: 2001-12-04
Publication date: 2003-06-13
Anticipated expiration: 2021-12-04
Also published as: JP3880383B2

Abstract

(57)【要約】【課題】画面上に表示される任意の選択肢の選択を容
易にかつ柔軟に音声入力で実現することができる音声認
識装置及びその方法、プログラムを提供する。【解決手段】複数の選択肢からなる選択欄を表示する
ための記述と、該選択欄中の選択肢の音声入力による選
択を受け付けるための記述を含む文書データ１００を文
書読込部１０１で読み込む。文書データ１００中の選択
欄中の選択肢に関する記述に基づいて、音声認識文法を
音声認識文法生成部１０５で生成する。生成された音声
認識文法に基づいて、入力された音声の音声認識を音声
認識部１０８で実行する。そして、制御部１０３は、そ
の音声認識結果に基づいて、選択欄中の選択肢の選択を
確定する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、入力された音声を
認識し、その音声認識結果に基づいて処理を実行する音
声認識装置及びその方法、プログラムに関するものであ
る。

【０００２】

【従来の技術】従来の音声認識技術のインプリメント
は、プログラムを作成することにより行うことが一般的
であった。しかし、近年では、VoiceXMLなどハイパーテ
キスト文書の利用により音声認識技術のインプリメント
をすることが行われるようになってきている。VoiceXML
では、入出力の手段として基本的には音声のみが使用さ
れているが（厳密にはＤＴＭＦなども使用）、特開２０
０１−１６６９１５、特開平１０−１５４０６３などの
ように音声入出力のみならずＧＵＩも併用したＵＩの記
述にハイパーテキスト文書を用いることも考案されてい
る。

【０００３】このような方式では、ＧＵＩの記述にはＨ
ＴＭＬのようなマークアップ言語を用い、さらに音声入
出力を可能にするために、音声入力や音声出力に対応す
るいくつかのタグを追加して実施している。

【０００４】

【発明が解決しようとする課題】しかしながら、上記特
開２００１−１６６９１５における装置では、文字入力
欄や選択欄中の選択肢の選択に音声認識が使用される。
この場合、選択肢の選択では選択肢の数を数え、各選択
肢に対応する番号を装置が自動的に割り振り、番号を発
声することにより、どの選択肢を選択するかの動作を行
う。この場合、その選択肢に対する音声入力を音声認識
を認識するための音声認識文法としては、番号を受け付
けるものであればよい。あるいは、各選択肢に対応する
語彙を音声認識文法に登録しておけば、直接語彙を発声
することにより選択欄から所望の選択肢を選択すること
が可能である。

【０００５】しかしながら、この装置においては、あら
かじめ音声認識文法に登録された語彙に対する音声入力
しか受けつけることができず、新たな選択肢を音声認識
で選択することができず、利便性が欠けている。

【０００６】本発明は上記課題を解決するためになされ
たものであり、画面上に表示される任意の選択肢の選択
を容易にかつ柔軟に音声入力で実現することができる音
声認識装置及びその方法、プログラムを提供することを
目的とする。

【０００７】

【課題を解決するための手段】上記の目的を達成するた
めの本発明による音声認識装置は以下の構成を備える。
即ち、入力された音声を認識し、その音声認識結果に基
づいて処理を実行する音声認識装置であって、複数の選
択肢からなる選択欄を表示するための記述と、該選択欄
中の選択肢の音声入力による選択を受け付けるための記
述を含むハイパーテキスト文書を読み込む読込手段と、
前記ハイパーテキスト文書中の前記選択欄中の選択肢に
関する記述に基づいて、選択肢を表示する表示手段と、
前記ハイパーテキスト文書中の前記選択欄中の選択肢に
関する記述に基づいて、音声認識文法を生成する生成手
段と、前記生成手段で生成された音声認識文法に基づい
て、前記入力された音声の音声認識を実行する音声認識
手段と、前記音声認識手段の音声認識結果に基づいて、
前記選択欄中の選択肢の選択を確定する確定手段とを備
える。

【０００８】また、好ましくは、前記確定手段は、前記
音声認識手段の音声認識結果に基づいて、前記選択欄中
の１つの選択肢の選択を確定する。

【０００９】また、好ましくは、前記確定手段は、前記
音声認識手段の音声認識結果に基づいて、前記選択欄中
の複数の選択肢の選択を確定する。

【００１０】また、好ましくは、前記ハイパーテキスト
文書を解析する解析手段と、前記解析手段の解析が完了
した後、前記音声認識手段は、前記音声認識を開始す
る。

【００１１】また、好ましくは、前記音声認識手段は、
前記選択欄への指示がなされた場合に前記音声認識を開
始し、該選択欄への指示が取り消された場合に該音声認
識を終了する。

【００１２】また、好ましくは、前記解析手段の解析が
完了した後、前記生成手段は、前記音声認識文法の生成
を開始する。

【００１３】また、好ましくは、前記選択欄への指示が
なされた場合に、前記生成手段は、前記音声認識文法の
生成を開始する。

【００１４】上記の目的を達成するための本発明による
音声認識方法は以下の構成を備える。即ち、入力された
音声を認識し、その音声認識結果に基づいて処理を実行
する音声認識方法であって、複数の選択肢からなる選択
欄を表示するための記述と、該選択欄中の選択肢の音声
入力による選択を受け付けるための記述を含むハイパー
テキスト文書を読み込む読込工程と、前記ハイパーテキ
スト文書中の前記選択欄中の選択肢に関する記述に基づ
いて、選択肢を表示する表示工程と、前記ハイパーテキ
スト文書中の前記選択欄中の選択肢に関する記述に基づ
いて、音声認識文法を生成する生成工程と、前記生成工
程で生成された音声認識文法に基づいて、前記入力され
た音声の音声認識を実行する音声認識工程と、前記音声
認識工程の音声認識結果に基づいて、前記選択欄中の選
択肢の選択を確定する確定工程とを備える。

【００１５】上記の目的を達成するための本発明による
プログラムは以下の構成を備える。即ち、入力された音
声を認識し、その音声認識結果に基づいて処理を実行す
る音声認識をコンピュータに機能させるためのプログラ
ムであって、複数の選択肢からなる選択欄を表示するた
めの記述と、該選択欄中の選択肢の音声入力による選択
を受け付けるための記述を含むハイパーテキスト文書を
読み込む読込工程のプログラムコードと、前記ハイパー
テキスト文書中の前記選択欄中の選択肢に関する記述に
基づいて、選択肢を表示する表示工程のプログラムコー
ドと、前記ハイパーテキスト文書中の前記選択欄中の選
択肢に関する記述に基づいて、音声認識文法を生成する
生成工程のプログラムコードと、前記生成工程で生成さ
れた音声認識文法に基づいて、前記入力された音声の音
声認識を実行する音声認識工程のプログラムコードと、
前記音声認識工程の音声認識結果に基づいて、前記選択
欄中の選択肢の選択を確定する確定工程のプログラムコ
ードとを備える。

【００１６】

【発明の実施の形態】以下、図面を参照して本発明の好
適な実施形態を詳細に説明する。＜実施形態１＞図１は本発明の実施形態１の音声認識シ
ステムの構成を示す図である。また、図２は本発明の実
施形態１の音声認識システムの動作フローを示すフロー
チャートである。以下、動作例について、図１及び図２
を用いて説明する。

【００１７】尚、当該音声認識システムは、公衆回線や
無線ＬＡＮ等とのネットワークを介して、データ通信を
行うことができ、汎用コンピュータや携帯端末に搭載さ
れる標準的な構成要素（例えば、ＣＰＵ、ＲＡＭ、ＲＯ
Ｍ、ハードディスク、外部記憶装置、ネットワークイン
タフェース、ディスプレイ、キーボード、マウス等）で
構成されている。また、以下に説明する音声認識システ
ムで実現される各種機能は、システム内部のＲＯＭや外
部記憶装置に記憶されるプログラムがＣＰＵによって実
行されることによって実現されても良いし、専用のハー
ドウェアで実現されても良い。

【００１８】まず、ステップＳ１００で、文書データ１
００の読み込みを文書読込部１０１を用いて行う。文書
データは、マークアップ言語等の記述言語の記述からな
るハイパーテキスト文書であり、その文書データ中に
は、ＧＵＩのデザイン、音声認識合成の動作、音声認識
文法の位置（格納場所）を示す記述や表示対象／音声出
力対象のテキストデータ等で構成されている。

【００１９】次に、ステップＳ１０１で、読み込んだ文
書データ１００の解析を文書解析部１０２を用いて行
う。ここでは、文書データ１００中のマークアップ言語
の解析を行い、文書データ１００がどのような構造にな
っているかの解析を行う。解析結果は、制御部１０３及
び音声認識部文法生成部１０５へ送信する。

【００２０】ここで、解析対象の文書データ１００の例
を図４に示す。また、これをＧＵＩで表示した例を図５
に示す。

【００２１】図４の例では、マークアップ言語としてＨ
ＴＭＬを用い、複数の選択肢を有する選択欄から所望の
選択肢をＧＵＩで選択する場合の記述を示している。ま
た、この図４によって生成される図５のＧＵＩ上で表示
される選択欄５０１中の選択肢は、マウスなどのポイン
ティングデバイスで入力を与えることにより選択でき
る。実施形態１では、図４の文書データ１００に新たな
記述を加え、選択欄５０１中の選択肢がＧＵＩでも音声
認識でもどちらでも選択可能とする構成を実現する。こ
のような構成の文書データ１００の例を図６に示す。

【００２２】図６の記述の内、＜select＞タグ中に「vo
ice:type=speech-in」という記述を行うことで、音声入
力を受け付け、入力される音声を認識する音声認識部１
０８を使用可能状態にする。

【００２３】文書解析部１０２は、図６に示すような文
書データの選択欄を示す＜select＞タグ中に「voice:ty
pe=speech-in」の記述が検出される場合、制御部１０３
を通じて音声認識部１０８を使用可能状態にし、ＧＵＩ
上の選択欄５０１による所望の選択肢が音声認識でもＧ
ＵＩでも可能にする。また、＜select＞タグ中に「voic
e:type=speech-in」の記述が検出されない場合、制御部
１０３を通じて音声認識部１０８を使用不可能状態と
し、ＧＵＩ上の選択欄５０１による所望の選択肢がＧＵ
Ｉのみで可能にする。

【００２４】また、選択欄中の選択肢の音声入力による
選択を可能にするために、選択欄中の選択を示す各＜op
tion＞〜＜/option＞タグで囲まれる「炒飯」等の記述
を音声認識文法生成部１０５に送信する。加えて、＜op
tion＞〜＜/option＞タグ中に「voice:yomi」という記
述を検出すると、指定された読みを表すパラメータ（例
えば、「炒飯」の場合は、その読みとして「チャーハ
ン」）を音声認識文法生成部１０５に送信する。この場
合、どの読みがどの記述に対応するかの対応情報も送信
する。図７は、図６の文書データに対して、文書解析部
１０２の解析結果によって、音声認識文法生成部１０５
に送信する対応情報の一例である。尚、読みが「voice:
yomi=」で指定されない場合（図６では、「カレー」）
は、その読みは「ＮＵＬＬ」データとなる。

【００２５】図２の説明に戻る。

【００２６】ステップＳ１０２で、文書解析部１０２の
解析結果に基づいて、制御部１０３はＧＵＩ画像表示デ
ータを生成して、表示部／入力部１０４に送信する。こ
れにより、表示部／入力部１０４にＧＵＩが表示され
る。この時の表示例が図５である。表示部／入力部１０
４の表示部は、一般的にはコンピュータディスプレであ
るが、視覚的に表示できるものであれば、どのようなも
のでも構わない。

【００２７】ステップＳ１０３で、音声認識文法生成部
１０５は、例えば、図７で示すデータを受信し、音声認
識文法を生成する。実施形態１では、「炒飯」、「カレ
ー」、「寿司」の３単語を認識可能な音声認識文法を生
成する。音声認識文法では、認識結果の出力文字列情報
および読み情報が必要となるが、文書解析部１０２から
読み情報を受信する場合は、その読み情報が読みとして
与えられる。また、読み情報を受信していない場合は、
自動的に読み情報が付与され認識文法生成に使用され
る。

【００２８】ステップＳ１０４で、音声認識文法変更部
１０６にて、ステップＳ１０４で生成された音声認識文
法が現在使用されている音声認識文法にマージされる。
現在、使用されている音声認識文法とは、音声認識シス
テム立ち上げ時にあらかじめ読み込まれている、例え
ば、音声認識システムを制御／操作する音声認識文法で
ある。この音声認識文法における語彙としては、「進
む」、「戻る」、「次」等が想定される。

【００２９】ステップＳ１０５で、音声認識文法保存部
１０７に変更した音声認識文法１０７を保存する。この
保存は、ハードディスクのようなものであっても、メモ
リのような一時記憶のようなものであってもよい。

【００３０】以上の処理によって、＜select＞タグに準
ずる音声認識文法の生成を行う。

【００３１】次に、生成した音声認識文法に基づく音声
認識処理について、図３を用いて説明する。

【００３２】図３は本発明の実施形態１の音声認識処理
を示すフローチャートである。

【００３３】ステップＳ２００で、マイク１０９にて、
ユーザが発声した音声を取り込む。ステップＳ２０１
で、音声認識部１０８にて、入力された音声の音声認識
を行う。音声認識は、保存された音声認識文法１０７を
使用して行う。ここでは、例えば、「スシ」と発声され
たとする。この場合、作成された音声認識文法に従っ
て、「寿司」の認識結果が得られる。

【００３４】ステップＳ２０２で、制御部１０３にて、
音声認識結果をＧＵＩ上の選択欄５０１へ反映し、選択
欄５０１中の選択肢の選択を確定する。この場合、表示
部／入力部１０４に表示されるＧＵＩ上の選択欄５０１
中の選択肢の１つである「寿司」が選択、表示される。
ステップＳ２０３で、ＧＵＩ上の送信ボタン５０２を押
下されると、入力データ送信部１１０にて、アプリケー
ション１１１に選択欄の入力結果（この場合は、「寿
司」）を送信する。

【００３５】ステップＳ２０４で、入力されたデータに
従いアプリケーション１１１が動作する。

【００３６】以上説明したように、実施形態１によれ
ば、ハイパーテキスト文書における選択欄表示におい
て、選択欄中の選択肢からユーザが選択する場合、ポイ
ンティングデバイス等による選択のみならず、音声認識
による選択が可能になる。また、その音声認識よる選択
に対する音声認識文法を自動生成するため、選択欄中の
選択肢に表示される語彙を音声認識文法に事前に登録す
る必要がなくなる。＜実施形態２＞実施形態１においては、選択欄中の複数
の選択肢から１つの選択肢を排他的に選択する場合につ
いて開示したが、複数の選択肢を一度に選択する構成も
可能である。例えば、選択欄から複数の選択肢を選択す
る場合は、ＨＴＭＬにおいては、選択欄としてチェック
ボックスが存在する。このチェックボックスに対して、
音声認識を可能とするマークアップ言語の記述の例を図
８に示す。

【００３７】この場合、文書解析部１０２では、図７に
示した対応情報を音声認識文法生成部１０５に送信し、
実施形態１と同様な処理で音声認識文法が生成される。
実施形態１と異なる点は、図２のステップＳ２０２にお
いて、認識結果が得られるごとに、選択肢を一つ選ぶの
ではなく、以前の認識結果を残したまま選択された選択
肢を追加していく点である。また、同じ音声入力が２度
ある場合は、その選択肢の選択から除外する。例えば、
「チャーハン」と音声入力があった場合、「炒飯」を認
識結果として確定し、次に、「カレー」と音声入力があ
れば、「炒飯」に追加して「カレー」も認識結果として
確定する。この状態で、さらに「カレー」と音声入力が
あると、「カレー」に対する選択肢から除外され、「炒
飯」のみが選択されるという動作をする。

【００３８】また、ＨＴＭＬにおいては、選択欄として
ラジオボタンと呼ばれる複数の選択肢から単一の選択肢
を選択する選択欄もあるが、これは、実施形態１と同様
な動作で選択可能であることは言うまでもない。＜実施形態３＞実施形態１では、文書データ１００を読
込を行った時点で、選択欄の選択肢に関する記述に従っ
て音声認識文法を作成し、音声認識実行する構成につい
て説明したが、文書データ１００の読込以外の時点で音
声認識文法を作成し、音声認識を実行しても良い。ま
た、音声認識文法の作成と音声認識の動作が別の時点で
行われても構わない。

【００３９】例えば、文書データ１００の読込後、文書
データ１００中に選択欄に関する記述があり、かつタグ
中に「voice:type=speech-in」が検出された場合、ま
ず、その選択欄中の選択肢に関する音声認識文法を音声
認識文法生成部１０５で作成する。但し、その時点で
は、音声認識文法１０７へ生成した音声認識文法の追加
は行わず、該当する選択肢がＧＵＩや音声等で指示（フ
ォーカス）された時点で、音声認識文法変更部１０６を
動作させ、音声認識文法１０７へ生成された音声認識文
法を追加して、音声認識を開始する。また、フォーカス
が外れた時点で再度追加した音声認識文法を除外して、
音声認識を終了する。このように構成することで、該当
する選択肢にフォーカスされたときのみ選択欄へ音声入
力することが可能となり、音声認識システムの処理負荷
を軽減することができる。

【００４０】尚、上記実施形態では、ＧＵＩ上に表示さ
れる１つの選択欄中の選択肢に対する選択を音声入力す
る場合について説明したが、複数の選択欄が表示される
ＧＵＩに対しても本発明を適用できることは言うまでも
ない。この場合は、複数の選択欄のいずれかの選択欄の
指示がなされた後に、上記実施形態で説明した処理を実
行すれば良い。

【００４１】尚、本発明は、前述した実施形態の機能を
実現するソフトウェアのプログラム（実施形態では図に
示すフローチャートに対応したプログラム）を、システ
ム或いは装置に直接或いは遠隔から供給し、そのシステ
ム或いは装置のコンピュータが該供給されたプログラム
コードを読み出して実行することによっても達成される
場合を含む。その場合、プログラムの機能を有していれ
ば、形態は、プログラムである必要はない。

【００４２】従って、本発明の機能処理をコンピュータ
で実現するために、該コンピュータにインストールされ
るプログラムコード自体も本発明を実現するものであ
る。つまり、本発明は、本発明の機能処理を実現するた
めのコンピュータプログラム自体も含まれる。

【００４３】その場合、プログラムの機能を有していれ
ば、オブジェクトコード、インタプリタにより実行され
るプログラム、ＯＳに供給するスクリプトデータ等、プ
ログラムの形態を問わない。

【００４４】プログラムを供給するための記録媒体とし
ては、例えば、フロッピー（登録商標）ディスク、ハー
ドディスク、光ディスク、光磁気ディスク、ＭＯ、ＣＤ
−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、磁気テープ、不揮発
性のメモリカード、ＲＯＭ、ＤＶＤ（ＤＶＤ−ＲＯＭ，
ＤＶＤ−Ｒ）などがある。

【００４５】その他、プログラムの供給方法としては、
クライアントコンピュータのブラウザを用いてインター
ネットのホームページに接続し、該ホームページから本
発明のコンピュータプログラムそのもの、もしくは圧縮
され自動インストール機能を含むファイルをハードディ
スク等の記録媒体にダウンロードすることによっても供
給できる。また、本発明のプログラムを構成するプログ
ラムコードを複数のファイルに分割し、それぞれのファ
イルを異なるホームページからダウンロードすることに
よっても実現可能である。つまり、本発明の機能処理を
コンピュータで実現するためのプログラムファイルを複
数のユーザに対してダウンロードさせるＷＷＷサーバ
も、本発明に含まれるものである。

【００４６】また、本発明のプログラムを暗号化してＣ
Ｄ−ＲＯＭ等の記憶媒体に格納してユーザに配布し、所
定の条件をクリアしたユーザに対し、インターネットを
介してホームページから暗号化を解く鍵情報をダウンロ
ードさせ、その鍵情報を使用することにより暗号化され
たプログラムを実行してコンピュータにインストールさ
せて実現することも可能である。

【００４７】また、コンピュータが、読み出したプログ
ラムを実行することによって、前述した実施形態の機能
が実現される他、そのプログラムの指示に基づき、コン
ピュータ上で稼動しているＯＳなどが、実際の処理の一
部または全部を行ない、その処理によっても前述した実
施形態の機能が実現され得る。

【００４８】さらに、記録媒体から読み出されたプログ
ラムが、コンピュータに挿入された機能拡張ボードやコ
ンピュータに接続された機能拡張ユニットに備わるメモ
リに書き込まれた後、そのプログラムの指示に基づき、
その機能拡張ボードや機能拡張ユニットに備わるＣＰＵ
などが実際の処理の一部または全部を行ない、その処理
によっても前述した実施形態の機能が実現される。

【００４９】

【発明の効果】以上説明したように、本発明によれば、
画面上に表示される任意の選択肢の選択を容易にかつ柔
軟に音声入力で実現することができる音声認識装置及び
その方法、プログラムを提供できる。

【図面の簡単な説明】

【図１】本発明の実施形態１の音声認識システムの構成
を示す図である。

【図２】本発明の実施形態１の音声認識システムの動作
フローを示すフローチャートである。

【図３】本発明の実施形態１の音声認識処理を示すフロ
ーチャートである。

【図４】本発明の実施形態１の文書データの例を示す図
である。

【図５】本発明の実施形態１のＧＵＩの例を示す図であ
る。

【図６】本発明の実施形態１の文書データの例を示す図
である。

【図７】本発明の実施形態１の記述と読みの対応情報の
例を示す図である。

【図８】本発明の実施形態２の文書データの例を示す図
である。

【符号の説明】

１００文書データ１０１文書読込部１０２文書解析部１０３制御部１０４表示部／入力部１０５音声認識文法生成部１０６音声認識文法変更部１０７音声認識文法１０８音声認識部１０９マイク１１０入力データ送信部１１１アプリケーション

Claims

【特許請求の範囲】

【請求項１】入力された音声を認識し、その音声認識
結果に基づいて処理を実行する音声認識装置であって、複数の選択肢からなる選択欄を表示するための記述と、
該選択欄中の選択肢の音声入力による選択を受け付ける
ための記述を含むハイパーテキスト文書を読み込む読込
手段と、前記ハイパーテキスト文書中の前記選択欄中の選択肢に
関する記述に基づいて、選択肢を表示する表示手段と、前記ハイパーテキスト文書中の前記選択欄中の選択肢に
関する記述に基づいて、音声認識文法を生成する生成手
段と、前記生成手段で生成された音声認識文法に基づいて、前
記入力された音声の音声認識を実行する音声認識手段
と、前記音声認識手段の音声認識結果に基づいて、前記選択
欄中の選択肢の選択を確定する確定手段とを備えること
を特徴とする音声認識装置。
【請求項２】前記確定手段は、前記音声認識手段の音
声認識結果に基づいて、前記選択欄中の１つの選択肢の
選択を確定することを特徴とする請求項１に記載の音声
認識装置。
【請求項３】前記確定手段は、前記音声認識手段の音
声認識結果に基づいて、前記選択欄中の複数の選択肢の
選択を確定することを特徴とする請求項１に記載の音声
認識装置。
【請求項４】前記ハイパーテキスト文書を解析する解
析手段と、前記解析手段の解析が完了した後、前記音声認識手段
は、前記音声認識を開始することを特徴とする請求項１
に記載の音声認識装置。
【請求項５】前記音声認識手段は、前記選択欄への指
示がなされた場合に前記音声認識を開始し、該選択欄へ
の指示が取り消された場合に該音声認識を終了すること
を特徴とする請求項１に記載の音声認識装置。
【請求項６】前記解析手段の解析が完了した後、前記
生成手段は、前記音声認識文法の生成を開始することを
特徴とする請求項４に記載の音声認識装置。
【請求項７】前記選択欄への指示がなされた場合に、
前記生成手段は、前記音声認識文法の生成を開始するこ
とを特徴とする請求項１に記載の音声認識装置。
【請求項８】入力された音声を認識し、その音声認識
結果に基づいて処理を実行する音声認識方法であって、複数の選択肢からなる選択欄を表示するための記述と、
該選択欄中の選択肢の音声入力による選択を受け付ける
ための記述を含むハイパーテキスト文書を読み込む読込
工程と、前記ハイパーテキスト文書中の前記選択欄中の選択肢に
関する記述に基づいて、選択肢を表示する表示工程と、前記ハイパーテキスト文書中の前記選択欄中の選択肢に
関する記述に基づいて、音声認識文法を生成する生成工
程と、前記生成工程で生成された音声認識文法に基づいて、前
記入力された音声の音声認識を実行する音声認識工程
と、前記音声認識工程の音声認識結果に基づいて、前記選択
欄中の選択肢の選択を確定する確定工程とを備えること
を特徴とする音声認識方法。
【請求項９】前記確定工程は、前記音声認識工程の音
声認識結果に基づいて、前記選択欄中の１つの選択肢の
選択を確定することを特徴とする請求項８に記載の音声
認識方法。
【請求項１０】前記確定工程は、前記音声認識工程の
音声認識結果に基づいて、前記選択欄中の複数の選択肢
の選択を確定することを特徴とする請求項８に記載の音
声認識方法。
【請求項１１】前記ハイパーテキスト文書を解析する
解析工程と、前記解析工程の解析が完了した後、前記音声認識工程
は、前記音声認識を開始することを特徴とする請求項８
に記載の音声認識方法。
【請求項１２】前記音声認識工程は、前記選択欄への
指示がなされた場合に前記音声認識を開始し、該選択欄
への指示が外された場合に該音声認識を終了することを
特徴とする請求項８に記載の音声認識方法。
【請求項１３】前記解析工程の解析が完了した後、前
記生成工程は、前記音声認識文法の生成を開始すること
を特徴とする請求項１１に記載の音声認識方法。
【請求項１４】前記選択欄への指示がなされた場合
に、前記生成工程は、前記音声認識文法の生成を開始す
ることを特徴とする請求項８に記載の音声認識方法。
【請求項１５】入力された音声を認識し、その音声認
識結果に基づいて処理を実行する音声認識をコンピュー
タに機能させるためのプログラムであって、複数の選択肢からなる選択欄を表示するための記述と、
該選択欄中の選択肢の音声入力による選択を受け付ける
ための記述を含むハイパーテキスト文書を読み込む読込
工程のプログラムコードと、前記ハイパーテキスト文書中の前記選択欄中の選択肢に
関する記述に基づいて、選択肢を表示する表示工程のプ
ログラムコードと、前記ハイパーテキスト文書中の前記選択欄中の選択肢に
関する記述に基づいて、音声認識文法を生成する生成工
程のプログラムコードと、前記生成工程で生成された音声認識文法に基づいて、前
記入力された音声の音声認識を実行する音声認識工程の
プログラムコードと、前記音声認識工程の音声認識結果に基づいて、前記選択
欄中の選択肢の選択を確定する確定工程のプログラムコ
ードとを備えることを特徴とするプログラム。