JP4565585B2

JP4565585B2 - データ処理装置、データ処理方法、記録媒体

Info

Publication number: JP4565585B2
Application number: JP2000112416A
Authority: JP
Inventors: 晃弘櫛田; 哲夫小坂; 史朗伊藤
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2000-04-13
Filing date: 2000-04-13
Publication date: 2010-10-20
Anticipated expiration: 2020-04-13
Also published as: JP2001296991A

Description

【０００１】
【発明の属する技術分野】
本発明は、ネットワーク上で提供されるＨＴＭＬデータなどのマークアップ言語で記述されたデータの処理に関し、特に、ブラウザからの音声入力に関する。
【０００２】
【従来の技術】
情報検索、アンケート、商品の注文などを目的として利用できるＷｅｂページには、テキスト入力フォームや選択メニュー、ボタンなどを配置して、キーボードやマウスなどで操作可能なＧＵＩ(Graphical User Interface)を用意したものが多く見られる。
【０００３】
一方、近年、キーボードやマウスなどに加えて、音声がインタフェースとして用いられるようになってきた。例えば、ブラウザ上に表示されたWebページのテキスト入力フォームへ音声で情報を入力したり、選択メニューから項目を音声で選択する方法がある。これらの方法では、テキスト入力フォームには、最も尤度の高い認識結果を入力し、選択メニューでは、最も尤度の高い項目を選択している。しかし、音声認識で１００％の認識率を達成するのは困難である。そこで、複数の認識候補を画面上で、音声入力したテキスト入力フォーム、あるいは、選択メニューとは別の領域に表示し、その中から利用者に正しい結果を選択させ、テキスト入力フォームでは選択された結果を入力し、選択メニューでは選択された結果の項目を選択する方法等が採用されている。
【０００４】
【発明が解決しようとする課題】
しかし、従来の手法では、音声入力における複数の認識候補が、ブラウザ上で表示されたWebページのテキスト入力フォームや選択メニューとは別の領域に表示されるため、使い勝手が必ずしもよくなかった。
【０００５】
従って、本発明の目的は、ブラウザ上で表示されたWebページのテキスト入力フォーム上で、音声入力における複数の認識候補を表示可能なデータ処理装置、データ処理方法、及び、記録媒体を提供することにある。
【０００６】
【課題を解決するための手段】
本発明によれば、マークアップ言語で記述されたグラフィカルインターフェース用のデータが示す内容を表示する表示手段と、前記表示手段による表示内容に含まれる入力欄の１つに対して、音声により情報を入力をするための音声入力手段と、入力された前記音声に対して音声認識処理を実行し、その認識候補を作成する音声認識手段と、前記表示内容に含まれる入力欄のうち、前記音声入力手段により入力がなされた入力欄を検出する検出手段と、前記検出手段により検出した入力欄が、該入力欄にテキストを入力するタイプの入力欄であった場合に、前記データのうち、前記検出手段により検出した入力欄を記述したデータを、前記認識候補を選択候補とする選択リストから候補を選択して入力するタイプの入力欄を記述したデータに変換する変換手段と、を備え、前記表示手段は、変換後のデータが示す内容を表示することを特徴とするデータ処理装置が提供される。
また、本発明によれば、テキストを入力するタイプの入力欄を記述したデータを含み、マークアップ言語で記述されたグラフィカルインターフェース用のデータが示す内容を表示する表示手段と、前記表示手段による表示内容に含まれる前記入力欄に対して、音声により情報を入力をするための音声入力手段と、入力された前記音声に対して音声認識処理を実行し、その認識候補を作成する音声認識手段と、前記データのうち、前記入力欄を記述したデータを、前記認識候補を選択候補とする選択リストから候補を選択して入力するタイプの入力欄を記述したデータに変換する変換手段と、を備え、前記表示手段は、変換後のデータが示す内容を表示することを特徴とするデータ処理装置が提供される。
【００１０】
また、本発明によれば、マークアップ言語で記述されたグラフィカルインターフェース用のデータが示す内容を表示する工程と、前記データの表示内容に含まれる入力欄の１つに対して、音声により情報を入力をする工程と、入力された前記音声に対して音声認識処理を実行し、その認識候補を作成する音声認識工程と、前記表示内容に含まれる入力欄のうち、前記音声入力がなされた入力欄を検出する工程と、検出した入力欄が、該入力欄にテキストを入力するタイプの入力欄であった場合に、前記データのうち、検出した入力欄を記述したデータを、前記認識候補を選択候補とする選択リストから候補を選択して入力するタイプの入力欄を記述したデータに変換する工程と、変換後のデータが示す内容を表示する工程と、を含むことを特徴とするデータ処理方法が提供される。
また、本発明によれば、テキストを入力するタイプの入力欄を記述したデータを含み、マークアップ言語で記述されたグラフィカルインターフェース用のデータが示す内容を表示する工程と、前記データの表示内容に含まれる前記入力欄に対して、音声により情報を入力をする工程と、入力された前記音声に対して音声認識処理を実行し、その認識候補を作成する音声認識工程と、前記データのうち、前記入力欄を記述したデータを、前記認識候補を選択候補とする選択リストから候補を選択して入力するタイプの入力欄を記述したデータに変換する工程と、変換後のデータが示す内容を表示する工程と、を含むことを特徴とするデータ処理方法が提供される。
【００１１】
また、本発明によれば、マークアップ言語で記述されたデータを処理するために、コンピュータに、前記マークアップ言語で記述されたグラフィカルインターフェース用のデータが示す内容を表示する工程と、前記データの表示内容に含まれる入力欄の１つに対して、音声により情報を入力をする工程と、入力された前記音声に対して音声認識処理を実行し、その認識候補を作成する音声認識工程と、前記表示内容に含まれる入力欄のうち、前記音声入力がなされた入力欄を検出する工程と、検出した入力欄が、該入力欄にテキストを入力するタイプの入力欄であった場合に、前記データのうち、検出した入力欄を記述したデータを、前記認識候補を選択候補とする選択リストから候補を選択して入力するタイプの入力欄を記述したデータに変換する工程と、変換後のデータが示す内容を表示する工程と、を実行させるコンピュータプログラムを記録した記録媒体が提供される。
また、本発明によれば、テキストを入力するタイプの入力欄を記述したデータを含み、マークアップ言語で記述されたデータを処理するために、コンピュータに、前記マークアップ言語で記述されたグラフィカルインターフェース用のデータが示す内容を表示する工程と、前記データの表示内容に含まれる前記入力欄に対して、音声により情報を入力をする工程と、入力された前記音声に対して音声認識処理を実行し、その認識候補を作成する音声認識工程と、前記データのうち、前記入力欄を記述したデータを、前記認識候補を選択候補とする選択リストから候補を選択して入力するタイプの入力欄を記述したデータに変換する工程と、変換後のデータが示す内容を表示する工程と、を実行させるコンピュータプログラムを記録した記録媒体が提供される。
【００１２】
【発明の実施の形態】
以下、本発明の好適な実施の形態について説明する。
＜実施形態１＞
図１は、本発明が機能的に実現され得るハードウェアの構成例を示した図である。
【００１３】
ＣＰＵ１０１は、全体を統括制御するものであり、ＲＯＭ１０２に格納されているプログラムをＲＡＭ１０３に読み出し、その読み出したプログラムに基づいて、各種処理動作を実行する。
【００１４】
ＲＯＭ１０２は、ＣＰＵ１０１で実行する処理の各種プログラムを格納している。ＲＡＭ１０３は、ＲＯＭ１０２に格納されている各種プログラムの実行に必要な記憶領域を提供する。
【００１５】
二次記憶装置１０４は、ＯＳや各種プログラムを格納している。ただし、パーソナルコンピュータなどの汎用装置ではなく、専用装置で構成する場合には、ＲＯＭ１０２内にＯＳや各種プログラムを格納しても構わない。この格納されたプログラムをＲＡＭ１０３に読み出すことによってＣＰＵ１０１が処理を実行することが可能である。また、二次記憶装置としては、ハードディスク装置、フロッピーディスクドライブ、ＣＤ−ＲＯＭドライブなどを用いることができる。つまり、記憶媒体は如何なるものであっても構わない。
【００１６】
入力装置１０５としては、マウスやキーボード、又は、音声入力のためのマイク等を挙げることができ、これら複数の機器を同時に接続して使用できる。
【００１７】
出力装置１０６としては、ＨＴＭＬデータの内容を表示するディスプレイ（ＣＲＴやＬＣＤなど）や、処理の内容を報知するスピーカ等から構成される。
【００１８】
ネットワークＩ／Ｆ１０７は、ネットワーク上で提供されるＨＴＭＬデータを取得するためのものである。バス１０８は、上記の各構成を接続する。
【００１９】
図２は、本発明の一実施形態に係るブラウザ装置の機能ブロック図であり、図１に示したハードウエアを用いることにより機能させることができる。
【００２０】
２０７は音声入力処理部であり、ＨＴＭＬデータの内容を表示するブラウザ上に含まれる入力欄、すなわち入力フォームに、ユーザが情報の入力又は項目の選択を行うために発声した音声を計算機上に取り込むものであり、図中、音声情報２０１は入力された音声情報を示している。また、音声入力があると、音声入力された入力フォーム（例えば、フォーカスのあっている入力フォーム）の識別子が取得され、保存される。図中、２０３は、取得し、保存された入力フォームの識別子を示している。音声入力処理部２０７は、入力装置１０５（マイクなど）からの音声入力の他、二次記憶装置１０４に記憶されている音声データファイル、ネットワークＩ／Ｆ１０７などからの音声情報を受け付けることもできる。音声データの形式は特に限定されるものではない。
【００２１】
２０８は音声認識部であり、音声情報２０１に対して音声認識処理を実行し、その認識候補を作成する。図中、２０２は、認識候補を示している。認識候補２０２は、音声認識の確からしさを示す尤度の高い順に複数得ることもできる。
【００２２】
２０９は、入力フォーム処理部であり、ＨＴＭＬデータの入力フォーム情報を取得したり、格納したりする。入力フォーム情報（現在値）２０４は、入力フォームの識別子や、入力フォームの設定値などである。設定値とは、テキスト入力タイプの入力フォームでは、入力されたテキストであり、選択候補から１つを選択するタイプの入力フォームでは、選択された項目のことである。なお、"（現在値）"とあるのは、現在ブラウザ装置が表示中の入力フォームの設定値であることを意味する。
【００２３】
２１１は、ＨＴＭＬデータ処理部であり、表示されているページが異なるページになった時に、新たなＨＴＭＬデータ２０６を取得し、保存する。また、入力フォーム情報（初期値）２０５を取得したり、保存したりする。入力フォーム情報（初期値）２０５は、入力フォームの識別子、入力フォームのタイプ（テキスト入力、選択候補からの１つの選択など）などである。"（初期値）"としているのは、後で説明するようにＨＴＭＬデータが変換される前のデータであることを示している。また、ＨＴＭＬデータ処理部２１１は、ＨＴＭＬデータ２０６がＨＴＭＬデータ作成部２１０で変更された時に、ＨＴＭＬデータ２０６をブラウザにPushして、ディスプレイに表示させる。
【００２４】
２１０はＨＴＭＬデータ作成部であり、認識候補２０２、音声入力された入力フォームの識別子２０３、入力フォーム情報（現在値）２０４、入力フォーム情報（初期値）２０５、ＨＴＭＬデータ２０６等に基づいて、ＨＴＭＬデータ２０６を変換、保存等する。
【００２５】
次に、ＨＴＭＬデータ作成部２１０の動作をフローチャートを用いて説明する。なお、本実施形態では、音声入力される入力フォームは、テキスト入力タイプと選択候補からの１つの選択のタイプのみであるとして説明する。
【００２６】
ステップＳ３００では、ＨＴＭＬデータ２０６から入力フォームの記述を検出し、見つけた入力フォームを現在処理対象としている入力フォームとする。
【００２７】
ステップＳ３０１では、音声入力された入力フォームの識別子２０３と現在処理対象としている入力フォームの識別子とを比較し、現在処理対象としている入力フォームに対して、音声入力がされたか否か判定する。現在処理対象としている入力フォームに音声入力されていないと判定した時は、ステップＳ３０５に進む。
【００２８】
ステップＳ３０５では、入力フォーム情報（現在値）２０４から、現在処理対象としている入力フォームに対応する入力フォームの設定値を取得し、現在処理対象としている入力フォームの設定値と比較する。入力フォームの設定値が異なっていた場合には、現在処理対象としている入力フォームの設定値を、前記取得した設定値に変更する。
【００２９】
一方、ステップＳ３０１で、現在処理対象としている入力フォームが音声入力された入力フォームであると判定された時は、ステップＳ３０２に進む。
【００３０】
ステップＳ３０２では、入力フォーム情報（初期値）２０５より、現在処理対象としている入力フォームのタイプを取得する。そして、取得したタイプに応じて、テキスト入力タイプの場合にはステップＳ３０３に進み、選択候補からの１つの選択タイプの場合にはステップＳ３０４に進む。
【００３１】
ステップＳ３０３では、現在対象としている入力フォーム（テキスト入力タイプの入力フォーム）を、選択候補からの１つの選択タイプの入力フォームに変更し、認識候補２０２を埋め込む。認識候補として、音声認識の確からしさを示す尤度の高い順に複数得られる場合には、尤度が高い候補が表示される優先順位を高くするように記述を変更する。例えば、尤度が高いものほど選択候補の上位に並ベる方法がある。
【００３２】
例えば、現在処理対象としている入力フォームの記述が、
＜ＩＮＰＵＴ type="text"name="word"＞
であった時（ブラウザ上での表示例を図４（ａ）に示す。）に、認識候補として、尤度順に"中山"、"和歌山"、"高山"、"岡山"と得られた場合には、
＜ＳＥＬＥＣＴ name="word"＞
＜ＯＰＴＩＯＮＳＥＬＥＣＴＥＤ＞中山
＜ＯＰＴＩＯＮ＞和歌山
＜ＯＰＴＩＯＮ＞高山
＜ＯＰＴＩＯＮ＞岡山
＜／ＳＥＬＥＣＴ＞
と記述を変換する（ブラウザ上での表示例を図４（ｂ）に示す。）。なお、ＣＧＩ等で、サーバへ返送する変数であるname="xxx"の部分はそのままとする。
【００３３】
ここでは、第一位の認識候補に対しては、OPTIONタグの中でSELECTEDを記述したが、SELECTEDの記述が１つも存在しない時に、ブラウザがデフォルトで選択候補の最上位にあるものを設定値としてもつ時には、SELECTEDの記述は省略しても良い。
【００３４】
なお、認識候補が１つしかない場合には、選択候補からの１つの選択タイプのフォームに変更せずに、テキスト入力タイプのフォームにしても良い。
【００３５】
例えば、認識候補が"中山"だけの場合には、
＜ＳＥＬＥＣＴ name="word"＞
＜ＯＰＴＩＯＮＳＥＬＥＣＴＥＤ＞中山
＜／ＳＥＬＥＣＴ＞
と記述を変換しても良いし、
＜ＩＮＰＵＴ type="text"name="word"value="中山"＞
と記述を変換しても良い（ブラウザ上での表示例を図４（ｃ）に示す。）。
【００３６】
また、認識候補が１つもなかった場合には、認識に失敗したことをユーザに知らせるために、"認識失敗"などを埋め込むように記述を変換しても良いし（ブラウザ上での表示例を図４（ｄ）に示す。）、何も埋め込まないで、なんらかの方法によってユーザに認識が失敗したことを提示しても良い。例えば、スピーカから、"認識に失敗しました"と音声を出力すれば良い。
【００３７】
ただし、SELECTタグの中には最低１つのOPTIONタグが必要なため、何も埋め込まない場合は、選択候補から１つの選択タイプは使用できず、テキスト入力タイプのフォームにする必要がある。
【００３８】
一方、ステップＳ３０４では、現在対象としている入力フォーム（予め設定された項目である選択候補から１つを選択するタイプの入力フォーム）において、予め設定された項目である選択候補中で、認識候補２０２と一致する選択候補が表示される優先順位を高くするように記述を変換する。例えば、予め設定された項目である選択候補中、認識候補と一致する選択候補を最上位に並ベ、それ以外の選択候補を下位に並ベる方法がある。なお、ここでは、予め設定された項目である選択候補以外の語が認識候補として得られることはないものとして説明した。認識候補として、音声認識の確からしさを示す尤度の高い順に複数得られる場合には、尤度が高い候補が表示される優先順位を高くするように記述を変更する。例えば、尤度が高いものほど選択候補の上位に並ベる方法がある。
【００３９】
例えば、現在処理対象としている入力フォームの記述が、

であった時（ブラウザ上での表示例を図５に示す。）に、認識候補として、尤度順に"中山"、"和歌山"、"高山"、"岡山"と得られた場合には、

と記述を変更する（ブラウザ上での表示例を図６に示す）。
【００４０】
ここでは、第一位の認識候補に対しては、OPTIONタグの中でSELECTEDを記述したが、SELECTEDの記述が１つも存在しない時に、ブラウザがデフォルトで選択侯補の最上位にあるものを設定値としてもつ時には、SELECTEDの記述は省略しても良い。
【００４１】
なお、認識候補が１つしかない場合には、並べ替えを行わず、認識結果のOPTIONタグをSELECTEDにするのみでも良い。
【００４２】
例えば、認識候補が"岡山"だけの場合には、

と記述を変換しても良い（ブラウザ上での表示例を図７に示す。）。
【００４３】
認識候補が１つもなかった場合には、認識に失敗したことをユーザに知らせるために、"認識失敗"などを埋め込むように記述を変換してよい。認識失敗を埋め込む位置は、最上位でもよいし（ブラウザ上での表示例を図８に示す。）、最下位でもよい（ブラウザ上での表示例を図９に示す。）。
【００４４】
また、並べ替えを行わず、何も埋め込まないで、なんらかの方法によってユーザに認識が失敗したことを提示しても良い。例えば、スピーカから、"認識に失敗しました"と音声を出力すれば良い。
【００４５】
ステップＳ３０６では、全入力フォームに対して処理を終了したか否か判定し、終了していた場合には、ＨＴＭＬデータの変換作業を終了する。終了していない場合には、ステップＳ３００に戻り、処理を繰り返す。
＜実施形態２＞
本実施形態は、実施形態1に対して、以下の処理を追加したものである。
【００４６】
テキスト入力タイプの入力フォームに対しては、周りの雑音などが大きく、認識率が低い場合には、音声入力ではなく、キーボードなどの入力装置を使用する方がユーザにとって望ましい場合がある。
【００４７】
そのため、テキスト入力タイプの入力フォームが、選択候補からの１つの選択タイプの入力フォームに変換されていた場合に、もとのテキスト入力タイプの入力フォームに変換する（戻す）手段を用意する。
【００４８】
具体的には、入力フォーム情報（現在値）に、入力フォームのタイプを持ち、ユーザからの要求があった時に、入力フォーム情報（初期値）の入力フォームのタイプと比較して、入力フォーム情報（初期値）の入力フォームのタイプがテキスト入力タイプで、かつ、入力フォーム情報（現在値）の入力フォームのタイプが選択候補からの1つの選択の場合に、テキストタイプの入力フォームに記述を変換する。また、入力フォーム情報（現在値）に、テキスト入力フォームから選択候補からの1つの選択タイプの入力フォームに変換されたか否かのフラグを追加し、ユーザからの要求があった時に、このフラグによって判定し、テキスト入力フォームから選択候補からの1つの選択タイプの入力フォームに変換された場合に、テキストタイプの入力フォームに記述を変換しても良い。ユーザからの要求があった時ではなく、同じテキストタイプの入力フォームに、一定回数以上音声入力がなされた時に変換しても良い。
＜実施形態３＞
本実施形態は、実施形態1に対して、以下の処理を追加したものである。
【００４９】
選択タイプの入力フォームの記述の変換において、同じ入力フォームに対して、複数回音声入力があった場合も、上述した処理をそれぞれ実行すれば足りるが、この場合、音声入力をし直すということは、選択候補の上位に配置した認識候補の中に正解がなかったと推定できる。ゆえに、前回の認識候補と一致する選択候補が表示される優先順位を下げるようにＨＴＭＬの記述を変換する。例えば、前回の認識候補と一致する選択候補をリストの最下位に配置するようにする。
【００５０】
具体的には、例えば、バッファを２つ持ち、前回の認識候補と今回の認識候補を保持する。そして、前回の認識候補を最下位に配置し、今回の認識候補を最上位に配置する。これら以外の選択項目をその間に配置する。
【００５１】
前回の認識候補と今回の認識候補に重複するものがあった場合には、前回の認識候補を最下位に配置し、今回の認識候補から重複するものを除いたものを最上位に配置すれば良い。
【００５２】
そして、ＨＴＭＬデータの変換処理が終わった後で、今回の認識候補を前回の認識候補とする。また、異なるページが表示された時に、クリアする。
【００５３】
例えば、現在処理対象としている入力フォームの記述が、

であり（ブラウザ上での表示例を図５に示す。）、認識候補として、尤度順に"中山"、"和歌山"、"高山"、"岡山"と得られた場合に、

と記述が変換されているとする（ブラウザ上での表示例を図６に示す。）。この時、音声入力し直した結果、認識候補として、尤度順に、"徳山"、"館山"、"高山"と得られた場合に、

と記述を変換すればよい（ブラウザ上での表示例を図１０，図１１に示す。）
＜実施形態４＞
本実施形態は、実施形態1、あるいは、実施形態3に以下の処理を追加したものである。
【００５４】
選択タイプの入力フォームの記述の変換において、認識候補と一致する選択候補と、それ以外の選択候補とが区別して表示されるように、記述を変換する。例えば、選択候補中、認識候補と一致する選択候補を上位に並ベ、それ以外の選択候補を下位に並ベている場合には、両者の間に、空の項目を追加し、区別を容易にすることも可能である。
【００５５】
例えば、現在対象としている入力フォームの記述が、

であり（ブラウザ上での表示例は図５）、認識候補として、尤度順に"中山"、"和歌山"、"高山"、"岡山"と得られた場合に、

と記述を変換すればよい（ブラウザ上での表示例を図１２に示す。）。
＜実施形態５＞
本実施形態は、実施形態1、実施形態3、あるいは、実施形態4の実施形態に以下の処理を追加したものである。
【００５６】
選択タイプの入力フォームへの音声入力の場合に、認識候補として、選択一覧以外の語が得られる場合には、選択候補以外の語が得られる場合には、認識候補と選択候補を比較し、選択候補に含まれない認識候補を削除し、選択候補に含まれる認識候補のみを使用して、HTMLデータの変換を行うこともできる。
【００５７】
以上説明した実施形態では、変換対象となるデータをHTMLデータとして説明したが、それに限らず、グラフィカルユーザインターフェース用の表示データとして他のマークアップ言語で作成されたデータにも適用可能である。
【００５８】
以上説明した実施形態によれば、ユーザが入力しようとしているブラウザ上の入力フォームに、音声入力における認識候補を表示し、GUI等で選択することが出来るため、より自然なインタフェースになる。
【００５９】
また、選択候補から1つを選択するタイプの入力フォームにおいて、選択候補が多くある場合には、GUIなどでの選択に時間がかかるが、以上説明した実施形態によれば、音声入力における認識候補が尤度順に選択候補の上位に配置されるので、認識候補の中に正解がある場合には、第一位でなくても上位にあるため、GUIにより短時間で選択でき、かつ、第二位以下の認識候補に正解があった場合に、発声し直す必要がなくなる。また、同音異表記の認識候補があった場合には、GUIを用いて選択できるようになる。
【００６０】
以上、本発明の好適な実施形態について説明したが、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体（または記録媒体）を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはCPUやMPU）が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム(OS)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【００６１】
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張カードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【００６２】
【発明の効果】
以上述べてきた通り、本発明によれば、ブラウザ上の入力フォームに音声入力における認識候補を表示し、選択することができる。
【図面の簡単な説明】
【図１】本発明が機能的に実現され得るハードウェアの構成例を示した図である。
【図２】本発明の一実施形態に係るブラウザ装置の機能ブロック図である。
【図３】第一の実施形態のＨＴＭＬデータ作成部の動作を表すフローチャートである。
【図４】（ａ）乃至（ｄ）は、テキスト入力タイプの入力フォームの記述を変換した際のブラウザの表示例を示した図である。
【図５】選択タイプの入力フォームの記述を変換した際のブラウザの表示例を示した図である。
【図６】選択タイプの入力フォームの記述を変換した際のブラウザの表示例を示した図である。
【図７】選択タイプの入力フォームの記述を変換した際のブラウザの表示例を示した図である。
【図８】選択タイプの入力フォームの記述を変換した際のブラウザの表示例を示した図である。
【図９】選択タイプの入力フォームの記述を変換した際のブラウザの表示例を示した図である。
【図１０】複数回の音声入力があった場合における選択タイプの入力フォームの記述を変換した際のブラウザの表示例を示した図である。
【図１１】複数回の音声入力があった場合における選択タイプの入力フォームの記述を変換した際のブラウザの表示例を示した図である。
【図１２】選択するタイプの入力フォームの記述を変換した際のブラウザの表示例を示した図である。

Claims

マークアップ言語で記述されたグラフィカルインターフェース用のデータが示す内容を表示する表示手段と、
前記表示手段による表示内容に含まれる入力欄の１つに対して、音声により情報を入力をするための音声入力手段と、
入力された前記音声に対して音声認識処理を実行し、その認識候補を作成する音声認識手段と、
前記表示内容に含まれる入力欄のうち、前記音声入力手段により入力がなされた入力欄を検出する検出手段と、
前記検出手段により検出した入力欄が、該入力欄にテキストを入力するタイプの入力欄であった場合に、前記データのうち、前記検出手段により検出した入力欄を記述したデータを、前記認識候補を選択候補とする選択リストから候補を選択して入力するタイプの入力欄を記述したデータに変換する変換手段と、
を備え、
前記表示手段は、変換後のデータが示す内容を表示することを特徴とするデータ処理装置。
マークアップ言語で記述されたグラフィカルインターフェース用のデータが示す内容を表示する工程と、
前記データの表示内容に含まれる入力欄の１つに対して、音声により情報を入力をする工程と、
入力された前記音声に対して音声認識処理を実行し、その認識候補を作成する音声認識工程と、
前記表示内容に含まれる入力欄のうち、前記音声入力がなされた入力欄を検出する工程と、
検出した入力欄が、該入力欄にテキストを入力するタイプの入力欄であった場合に、前記データのうち、検出した入力欄を記述したデータを、前記認識候補を選択候補とする選択リストから候補を選択して入力するタイプの入力欄を記述したデータに変換する工程と、
変換後のデータが示す内容を表示する工程と、
を含むことを特徴とするデータ処理方法。
マークアップ言語で記述されたデータを処理するために、コンピュータに、
前記マークアップ言語で記述されたグラフィカルインターフェース用のデータが示す内容を表示する工程と、
前記データの表示内容に含まれる入力欄の１つに対して、音声により情報を入力をする工程と、
入力された前記音声に対して音声認識処理を実行し、その認識候補を作成する音声認識工程と、
前記表示内容に含まれる入力欄のうち、前記音声入力がなされた入力欄を検出する工程と、
検出した入力欄が、該入力欄にテキストを入力するタイプの入力欄であった場合に、前記データのうち、検出した入力欄を記述したデータを、前記認識候補を選択候補とする選択リストから候補を選択して入力するタイプの入力欄を記述したデータに変換する工程と、
変換後のデータが示す内容を表示する工程と、
を実行させるコンピュータプログラムを記録した記録媒体。
テキストを入力するタイプの入力欄を記述したデータを含み、マークアップ言語で記述されたグラフィカルインターフェース用のデータが示す内容を表示する表示手段と、
前記表示手段による表示内容に含まれる前記入力欄に対して、音声により情報を入力をするための音声入力手段と、
入力された前記音声に対して音声認識処理を実行し、その認識候補を作成する音声認識手段と、
前記データのうち、前記入力欄を記述したデータを、前記認識候補を選択候補とする選択リストから候補を選択して入力するタイプの入力欄を記述したデータに変換する変換手段と、
を備え、
前記表示手段は、変換後のデータが示す内容を表示することを特徴とするデータ処理装置。
テキストを入力するタイプの入力欄を記述したデータを含み、マークアップ言語で記述されたグラフィカルインターフェース用のデータが示す内容を表示する工程と、
前記データの表示内容に含まれる前記入力欄に対して、音声により情報を入力をする工程と、
入力された前記音声に対して音声認識処理を実行し、その認識候補を作成する音声認識工程と、
前記データのうち、前記入力欄を記述したデータを、前記認識候補を選択候補とする選択リストから候補を選択して入力するタイプの入力欄を記述したデータに変換する工程と、
変換後のデータが示す内容を表示する工程と、
を含むことを特徴とするデータ処理方法。
テキストを入力するタイプの入力欄を記述したデータを含み、マークアップ言語で記述されたデータを処理するために、コンピュータに、
前記マークアップ言語で記述されたグラフィカルインターフェース用のデータが示す内容を表示する工程と、
前記データの表示内容に含まれる前記入力欄に対して、音声により情報を入力をする工程と、
入力された前記音声に対して音声認識処理を実行し、その認識候補を作成する音声認識工程と、
前記データのうち、前記入力欄を記述したデータを、前記認識候補を選択候補とする選択リストから候補を選択して入力するタイプの入力欄を記述したデータに変換する工程と、
変換後のデータが示す内容を表示する工程と、
を実行させるコンピュータプログラムを記録した記録媒体。