JP2001296991A - データ処理装置、データ処理方法、記録媒体 - Google Patents

データ処理装置、データ処理方法、記録媒体

Info

Publication number
JP2001296991A
JP2001296991A JP2000112416A JP2000112416A JP2001296991A JP 2001296991 A JP2001296991 A JP 2001296991A JP 2000112416 A JP2000112416 A JP 2000112416A JP 2000112416 A JP2000112416 A JP 2000112416A JP 2001296991 A JP2001296991 A JP 2001296991A
Authority
JP
Japan
Prior art keywords
input
recognition
data
voice
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000112416A
Other languages
English (en)
Other versions
JP4565585B2 (ja
JP2001296991A5 (ja
Inventor
Akihiro Kushida
晃弘 櫛田
Tetsuo Kosaka
哲夫 小坂
Shiro Ito
史朗 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2000112416A priority Critical patent/JP4565585B2/ja
Publication of JP2001296991A publication Critical patent/JP2001296991A/ja
Publication of JP2001296991A5 publication Critical patent/JP2001296991A5/ja
Application granted granted Critical
Publication of JP4565585B2 publication Critical patent/JP4565585B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

(57)【要約】 【課題】 ブラウザ上の入力フォームに音声入力におけ
る認識候補を表示し、選択可能とすること。 【解決手段】 HTMLデータの表示内容に含まれる入
力欄の1つに対して、音声により情報を入力をするため
の音声入力処理部207と、入力された前記音声に対し
て音声認識処理を実行し、その認識候補を作成する音声
認識部208と、HTMLデータのうち、音声入力がな
された入力欄を検出し、検出した入力欄に対するHTM
Lデータを、作成した認識候補を選択して入力するHT
MLデータに変換するHTMLデータ作成部210とを
備え、入力欄に音声認識の認識候補が直接表示されるよ
うにする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ネットワーク上で
提供されるHTMLデータなどのマークアップ言語で記
述されたデータの処理に関し、特に、ブラウザからの音
声入力に関する。
【0002】
【従来の技術】情報検索、アンケート、商品の注文など
を目的として利用できるWebページには、テキスト入
力フォームや選択メニュー、ボタンなどを配置して、キ
ーボードやマウスなどで操作可能なGUI(Graphical U
ser Interface)を用意したものが多く見られる。
【0003】一方、近年、キーボードやマウスなどに加
えて、音声がインタフェースとして用いられるようにな
ってきた。例えば、ブラウザ上に表示されたWebページ
のテキスト入力フォームへ音声で情報を入力したり、選
択メニューから項目を音声で選択する方法がある。これ
らの方法では、テキスト入力フォームには、最も尤度の
高い認識結果を入力し、選択メニューでは、最も尤度の
高い項目を選択している。しかし、音声認識で100%
の認識率を達成するのは困難である。そこで、複数の認
識候補を画面上で、音声入力したテキスト入力フォー
ム、あるいは、選択メニューとは別の領域に表示し、そ
の中から利用者に正しい結果を選択させ、テキスト入力
フォームでは選択された結果を入力し、選択メニューで
は選択された結果の項目を選択する方法等が採用されて
いる。
【0004】
【発明が解決しようとする課題】しかし、従来の手法で
は、音声入力における複数の認識候補が、ブラウザ上で
表示されたWebページのテキスト入力フォームや選択メ
ニューとは別の領域に表示されるため、使い勝手が必ず
しもよくなかった。
【0005】従って、本発明の目的は、ブラウザ上で表
示されたWebページのテキスト入力フォームや選択メニ
ュー上で、音声入力における複数の認識候補を表示可能
なデータ処理装置、データ処理方法、及び、記録媒体を
提供することにある。
【0006】
【課題を解決するための手段】本発明によれば、所定の
マークアップ言語で記述されたグラフィカルインターフ
ェース用のデータの内容を表示する表示手段と、前記表
示手段による表示内容に含まれる入力欄の1つに対し
て、音声により情報を入力をするための音声入力手段
と、入力された前記音声に対して音声認識処理を実行
し、その認識候補を作成する音声認識手段と、前記表示
内容に含まれる入力欄のうち、前記音声入力手段により
入力がなされた入力欄を検出する検出手段と、前記検出
手段により検出した入力欄に対する前記データを、作成
した前記認識候補に基づいて変換する手段と、を備えた
ことを特徴とするデータ処理装置が提供される。
【0007】また、本発明によれば、前記検出手段によ
り検出された入力欄が、該入力欄にテキストを入力する
タイプの入力欄であった場合に、前記変換手段は、前記
入力欄が、作成した前記認識候補を選択候補とする選択
リストから候補を選択して入力するタイプとなるよう
に、前記データを変換することを特徴とするデータ処理
装置が提供される。
【0008】また、本発明によれば、前記検出手段によ
り検出された入力欄が、予め設定された複数の項目を有
する項目リストの中から選択して入力する入力欄であっ
た場合に、前記変換手段は、前記項目リストの項目また
は順位が前記認識候補に基づいて変更されるように、前
記データを変換することを特徴とするデータ処理装置が
提供される。
【0009】また、本発明によれば、前記音声認識手段
が、予め設定されていた前記項目の中から前記認識候補
を作成することを特徴とするデータ処理装置が提供され
る。
【0010】また、本発明によれば、所定のマークアッ
プ言語で記述されたグラフィカルインターフェース用の
データの内容を表示する工程と、前記データの表示内容
に含まれる入力欄の1つに対して、音声により情報を入
力をする工程と、入力された前記音声に対して音声認識
処理を実行し、その認識候補を作成する音声認識工程
と、前記表示内容に含まれる入力欄のうち、前記音声入
力がなされた入力欄を検出する工程と、検出した入力欄
に対する前記データを、作成した前記認識候補に基づい
て変換する工程と、を含むことを特徴とするデータ処理
方法が提供される。
【0011】また、本発明によれば、所定のマークアッ
プ言語で記述されたデータを処理するためのコンピュー
タプログラムを記録した記録媒体であって、該コンピュ
ータプログラムが、前記マークアップ言語で記述された
グラフィカルインターフェース用のデータの内容を表示
する工程のコードと、前記データの表示内容に含まれる
入力欄の1つに対して、音声により情報を入力をする工
程のコードと、入力された前記音声に対して音声認識処
理を実行し、その認識候補を作成する音声認識工程のコ
ードと、前記表示内容に含まれる入力欄のうち、前記音
声入力がなされた入力欄を検出する工程のコードと、検
出した入力欄に対する前記データを、作成した前記認識
候補に基づいて変換する工程のコードと、を含むことを
特徴とする記録媒体が提供される。
【0012】
【発明の実施の形態】以下、本発明の好適な実施の形態
について説明する。 <実施形態1>図1は、本発明が機能的に実現され得る
ハードウェアの構成例を示した図である。
【0013】CPU101は、全体を統括制御するもの
であり、ROM102に格納されているプログラムをR
AM103に読み出し、その読み出したプログラムに基
づいて、各種処理動作を実行する。
【0014】ROM102は、CPU101で実行する
処理の各種プログラムを格納している。RAM103
は、ROM102に格納されている各種プログラムの実
行に必要な記憶領域を提供する。
【0015】二次記憶装置104は、OSや各種プログ
ラムを格納している。ただし、パーソナルコンピュータ
などの汎用装置ではなく、専用装置で構成する場合に
は、ROM102内にOSや各種プログラムを格納して
も構わない。この格納されたプログラムをRAM103
に読み出すことによってCPU101が処理を実行する
ことが可能である。また、二次記憶装置としては、ハー
ドディスク装置、フロッピー(登録商標)ディスクドラ
イブ、CD−ROMドライブなどを用いることができ
る。つまり、記憶媒体は如何なるものであっても構わな
い。
【0016】入力装置105としては、マウスやキーボ
ード、又は、音声入力のためのマイク等を挙げることが
でき、これら複数の機器を同時に接続して使用できる。
【0017】出力装置106としては、HTMLデータ
の内容を表示するディスプレイ(CRTやLCDなど)
や、処理の内容を報知するスピーカ等から構成される。
【0018】ネットワークI/F107は、ネットワー
ク上で提供されるHTMLデータを取得するためのもの
である。バス108は、上記の各構成を接続する。
【0019】図2は、本発明の一実施形態に係るブラウ
ザ装置の機能ブロック図であり、図1に示したハードウ
エアを用いることにより機能させることができる。
【0020】207は音声入力処理部であり、HTML
データの内容を表示するブラウザ上に含まれる入力欄、
すなわち入力フォームに、ユーザが情報の入力又は項目
の選択を行うために発声した音声を計算機上に取り込む
ものであり、図中、音声情報201は入力された音声情
報を示している。また、音声入力があると、音声入力さ
れた入力フォーム(例えば、フォーカスのあっている入
力フォーム)の識別子が取得され、保存される。図中、
203は、取得し、保存された入力フォームの識別子を
示している。音声入力処理部207は、入力装置105
(マイクなど)からの音声入力の他、二次記憶装置10
4に記憶されている音声データファイル、ネットワーク
I/F107などからの音声情報を受け付けることもで
きる。音声データの形式は特に限定されるものではな
い。
【0021】208は音声認識部であり、音声情報20
1に対して音声認識処理を実行し、その認識候補を作成
する。図中、202は、認識候補を示している。認識候
補202は、音声認識の確からしさを示す尤度の高い順
に複数得ることもできる。
【0022】209は、入力フォーム処理部であり、H
TMLデータの入力フォーム情報を取得したり、格納し
たりする。入力フォーム情報(現在値)204は、入力
フォームの識別子や、入力フォームの設定値などであ
る。設定値とは、テキスト入力タイプの入力フォームで
は、入力されたテキストであり、選択候補から1つを選
択するタイプの入力フォームでは、選択された項目のこ
とである。なお、"(現在値)"とあるのは、現在ブラウ
ザ装置が表示中の入力フォームの設定値であることを意
味する。
【0023】211は、HTMLデータ処理部であり、
表示されているページが異なるページになった時に、新
たなHTMLデータ206を取得し、保存する。また、
入力フォーム情報(初期値)205を取得したり、保存
したりする。入力フォーム情報(初期値)205は、入
力フォームの識別子、入力フォームのタイプ(テキスト
入力、選択候補からの1つの選択など)などである。"
(初期値)"としているのは、後で説明するようにHT
MLデータが変換される前のデータであることを示して
いる。また、HTMLデータ処理部211は、HTML
データ206がHTMLデータ作成部210で変更され
た時に、HTMLデータ206をブラウザにPushして、
ディスプレイに表示させる。
【0024】210はHTMLデータ作成部であり、認
識候補202、音声入力された入力フォームの識別子2
03、入力フォーム情報(現在値)204、入力フォー
ム情報(初期値)205、HTMLデータ206等に基
づいて、HTMLデータ206を変換、保存等する。
【0025】次に、HTMLデータ作成部210の動作
をフローチャートを用いて説明する。なお、本実施形態
では、音声入力される入力フォームは、テキスト入力タ
イプと選択候補からの1つの選択のタイプのみであると
して説明する。
【0026】ステップS300では、HTMLデータ2
06から入力フォームの記述を検出し、見つけた入力フ
ォームを現在処理対象としている入力フォームとする。
【0027】ステップS301では、音声入力された入
力フォームの識別子203と現在処理対象としている入
力フォームの識別子とを比較し、現在処理対象としてい
る入力フォームに対して、音声入力がされたか否か判定
する。現在処理対象としている入力フォームに音声入力
されていないと判定した時は、ステップS305に進
む。
【0028】ステップS305では、入力フォーム情報
(現在値)204から、現在処理対象としている入力フ
ォームに対応する入力フォームの設定値を取得し、現在
処理対象としている入力フォームの設定値と比較する。
入力フォームの設定値が異なっていた場合には、現在処
理対象としている入力フォームの設定値を、前記取得し
た設定値に変更する。
【0029】一方、ステップS301で、現在処理対象
としている入力フォームが音声入力された入力フォーム
であると判定された時は、ステップS302に進む。
【0030】ステップS302では、入力フォーム情報
(初期値)205より、現在処理対象としている入力フ
ォームのタイプを取得する。そして、取得したタイプに
応じて、テキスト入力タイプの場合にはステップS30
3に進み、選択候補からの1つの選択タイプの場合には
ステップS304に進む。
【0031】ステップS303では、現在対象としてい
る入力フォーム(テキスト入力タイプの入力フォーム)
を、選択候補からの1つの選択タイプの入力フォームに
変更し、認識候補202を埋め込む。認識候補として、
音声認識の確からしさを示す尤度の高い順に複数得られ
る場合には、尤度が高い候補が表示される優先順位を高
くするように記述を変更する。例えば、尤度が高いもの
ほど選択候補の上位に並ベる方法がある。
【0032】例えば、現在処理対象としている入力フォ
ームの記述が、 <INPUT type="text"name="word"> であった時(ブラウザ上での表示例を図4(a)に示
す。)に、認識候補として、尤度順に"中山"、"和歌
山"、"高山"、"岡山"と得られた場合には、 <SELECT name="word"> <OPTION SELECTED> 中山 <OPTION> 和歌山 <OPTION> 高山 <OPTION> 岡山 </SELECT> と記述を変換する(ブラウザ上での表示例を図4(b)
に示す。)。なお、CGI等で、サーバへ返送する変数
であるname="xxx"の部分はそのままとする。
【0033】ここでは、第一位の認識候補に対しては、
OPTIONタグの中でSELECTEDを記述したが、SELECTEDの記
述が1つも存在しない時に、ブラウザがデフォルトで選
択候補の最上位にあるものを設定値としてもつ時には、
SELECTEDの記述は省略しても良い。
【0034】なお、認識候補が1つしかない場合には、
選択候補からの1つの選択タイプのフォームに変更せず
に、テキスト入力タイプのフォームにしても良い。
【0035】例えば、認識候補が"中山"だけの場合に
は、 <SELECT name="word"> <OPTION SELECTED> 中山 </SELECT> と記述を変換しても良いし、 <INPUT type="text"name="word"value="中山"> と記述を変換しても良い(ブラウザ上での表示例を図4
(c)に示す。)。
【0036】また、認識候補が1つもなかった場合に
は、認識に失敗したことをユーザに知らせるために、"
認識失敗"などを埋め込むように記述を変換しても良い
し(ブラウザ上での表示例を図4(d)に示す。)、何
も埋め込まないで、なんらかの方法によってユーザに認
識が失敗したことを提示しても良い。例えば、スピーカ
から、"認識に失敗しました"と音声を出力すれば良い。
【0037】ただし、SELECTタグの中には最低1つのOP
TIONタグが必要なため、何も埋め込まない場合は、選択
候補から1つの選択タイプは使用できず、テキスト入力
タイプのフォームにする必要がある。
【0038】一方、ステップS304では、現在対象と
している入力フォーム(予め設定された項目である選択
候補から1つを選択するタイプの入力フォーム)におい
て、予め設定された項目である選択候補中で、認識候補
202と一致する選択候補が表示される優先順位を高く
するように記述を変換する。例えば、予め設定された項
目である選択候補中、認識候補と一致する選択候補を最
上位に並ベ、それ以外の選択候補を下位に並ベる方法が
ある。なお、ここでは、予め設定された項目である選択
候補以外の語が認識候補として得られることはないもの
として説明した。認識候補として、音声認識の確からし
さを示す尤度の高い順に複数得られる場合には、尤度が
高い候補が表示される優先順位を高くするように記述を
変更する。例えば、尤度が高いものほど選択候補の上位
に並ベる方法がある。
【0039】例えば、現在処理対象としている入力フォ
ームの記述が、 <SELECT name="city"> <OPTION> 東京 <OPTION> 横浜 <OPTION> 大阪 <OPTION> 岡山 <OPTION> 名古屋 : : : </SELECT> であった時(ブラウザ上での表示例を図5に示す。)
に、認識候補として、尤度順に"中山"、"和歌山"、"高
山"、"岡山"と得られた場合には、 <SELECT name="city"> <OPTION SELECTED> 中山 <OPTION> 和歌山 <OPTION> 高山 <OPTION> 岡山 <OPTION> 東京 <OPTION> 横浜 <OPTION> 大阪 <OPTION> 名古屋 : : : </SELECT> と記述を変更する(ブラウザ上での表示例を図6に示
す)。
【0040】ここでは、第一位の認識候補に対しては、
OPTIONタグの中でSELECTEDを記述したが、SELECTEDの記
述が1つも存在しない時に、ブラウザがデフォルトで選
択侯補の最上位にあるものを設定値としてもつ時には、
SELECTEDの記述は省略しても良い。
【0041】なお、認識候補が1つしかない場合には、
並べ替えを行わず、認識結果のOPTIONタグをSELECTEDに
するのみでも良い。
【0042】例えば、認識候補が"岡山"だけの場合に
は、 <SELECT name="city"> <OPTION> 東京 <OPTION> 横浜 <OPTION> 大阪 <OPTION SELECTED> 岡山 <OPTION> 名古屋 : : : </SELECT> と記述を変換しても良い(ブラウザ上での表示例を図7
に示す。)。
【0043】認識候補が1つもなかった場合には、認識
に失敗したことをユーザに知らせるために、"認識失敗"
などを埋め込むように記述を変換してよい。認識失敗を
埋め込む位置は、最上位でもよいし(ブラウザ上での表
示例を図8に示す。)、最下位でもよい(ブラウザ上で
の表示例を図9に示す。)。
【0044】また、並べ替えを行わず、何も埋め込まな
いで、なんらかの方法によってユーザに認識が失敗した
ことを提示しても良い。例えば、スピーカから、"認識
に失敗しました"と音声を出力すれば良い。
【0045】ステップS306では、全入力フォームに
対して処理を終了したか否か判定し、終了していた場合
には、HTMLデータの変換作業を終了する。終了して
いない場合には、ステップS300に戻り、処理を繰り
返す。 <実施形態2>本実施形態は、実施形態1に対して、以
下の処理を追加したものである。
【0046】テキスト入力タイプの入力フォームに対し
ては、周りの雑音などが大きく、認識率が低い場合に
は、音声入力ではなく、キーボードなどの入力装置を使
用する方がユーザにとって望ましい場合がある。
【0047】そのため、テキスト入力タイプの入力フォ
ームが、選択候補からの1つの選択タイプの入力フォー
ムに変換されていた場合に、もとのテキスト入力タイプ
の入力フォームに変換する(戻す)手段を用意する。
【0048】具体的には、入力フォーム情報(現在値)
に、入力フォームのタイプを持ち、ユーザからの要求が
あった時に、入力フォーム情報(初期値)の入力フォー
ムのタイプと比較して、入力フォーム情報(初期値)の
入力フォームのタイプがテキスト入力タイプで、かつ、
入力フォーム情報(現在値)の入力フォームのタイプが
選択候補からの1つの選択の場合に、テキストタイプの
入力フォームに記述を変換する。また、入力フォーム情
報(現在値)に、テキスト入力フォームから選択候補か
らの1つの選択タイプの入力フォームに変換されたか否
かのフラグを追加し、ユーザからの要求があった時に、
このフラグによって判定し、テキスト入力フォームから
選択候補からの1つの選択タイプの入力フォームに変換
された場合に、テキストタイプの入力フォームに記述を
変換しても良い。ユーザからの要求があった時ではな
く、同じテキストタイプの入力フォームに、一定回数以
上音声入力がなされた時に変換しても良い。 <実施形態3>本実施形態は、実施形態1に対して、以
下の処理を追加したものである。
【0049】選択タイプの入力フォームの記述の変換に
おいて、同じ入力フォームに対して、複数回音声入力が
あった場合も、上述した処理をそれぞれ実行すれば足り
るが、この場合、音声入力をし直すということは、選択
候補の上位に配置した認識候補の中に正解がなかったと
推定できる。ゆえに、前回の認識候補と一致する選択候
補が表示される優先順位を下げるようにHTMLの記述
を変換する。例えば、前回の認識候補と一致する選択候
補をリストの最下位に配置するようにする。
【0050】具体的には、例えば、バッファを2つ持
ち、前回の認識候補と今回の認識候補を保持する。そし
て、前回の認識候補を最下位に配置し、今回の認識候補
を最上位に配置する。これら以外の選択項目をその間に
配置する。
【0051】前回の認識候補と今回の認識候補に重複す
るものがあった場合には、前回の認識候補を最下位に配
置し、今回の認識候補から重複するものを除いたものを
最上位に配置すれば良い。
【0052】そして、HTMLデータの変換処理が終わ
った後で、今回の認識候補を前回の認識候補とする。ま
た、異なるページが表示された時に、クリアする。
【0053】例えば、現在処理対象としている入力フォ
ームの記述が、 <SELECT name="city"> <OPTION> 東京 <OPTION> 横浜 <OPTION> 大阪 <OPTION> 岡山 <OPTION> 名古屋 : : : </SELECT> であり(ブラウザ上での表示例を図5に示す。)、認識
候補として、尤度順に"中山"、"和歌山"、"高山"、"岡
山"と得られた場合に、 <SELECT name="city"> <OPTION SELECTED> 中山 <OPTION> 和歌山 <OPTION> 高山 <OPTION> 岡山 <OPTION> 東京 <OPTION> 横浜 <OPTION> 大阪 <OPTION> 名古屋 : : : </SELECT> と記述が変換されているとする(ブラウザ上での表示例
を図6に示す。)。この時、音声入力し直した結果、認
識候補として、尤度順に、"徳山"、"館山"、"高山"と得
られた場合に、 <SELECT name="city"> <OPTION SELECTED> 徳山 <OPTION> 館山 <OPTION> 東京 <OPTION> 横浜 <OPTION> 大阪 <OPTION> 名古屋 : : : <OPTION> 中山 <OPTION> 和歌山 <OPTION> 高山 <OPTION>岡山 </SELECT> と記述を変換すればよい(ブラウザ上での表示例を図1
0,図11に示す。) <実施形態4>本実施形態は、実施形態1、あるいは、
実施形態3に以下の処理を追加したものである。
【0054】選択タイプの入力フォームの記述の変換に
おいて、認識候補と一致する選択候補と、それ以外の選
択候補とが区別して表示されるように、記述を変換す
る。例えば、選択候補中、認識候補と一致する選択候補
を上位に並ベ、それ以外の選択候補を下位に並ベている
場合には、両者の間に、空の項目を追加し、区別を容易
にすることも可能である。
【0055】例えば、現在対象としている入力フォーム
の記述が、 <SELECT name="city"> <OPTION> 東京 <OPTION> 横浜 <OPTION> 大阪 <OPTION> 岡山 <OPTION> 名古屋 : : : </SELECT> であり(ブラウザ上での表示例は図5)、認識候補とし
て、尤度順に"中山"、"和歌山"、"高山"、"岡山"と得ら
れた場合に、 <SELECT name="city"> <OPTION SELECTED> 中山 <OPTION> 和歌山 <OPTION> 高山 <OPTION> 岡山 <OPTION> <OPTION> 東京 <OPTION> 横浜 <OPTION> 大阪 <OPTION> 名古屋 : : : </SELECT> と記述を変換すればよい(ブラウザ上での表示例を図1
2に示す。)。 <実施形態5>本実施形態は、実施形態1、実施形態3、
あるいは、実施形態4の実施形態に以下の処理を追加し
たものである。
【0056】選択タイプの入力フォームへの音声入力の
場合に、認識候補として、選択一覧以外の語が得られる
場合には、選択候補以外の語が得られる場合には、認識
候補と選択候補を比較し、選択候補に含まれない認識候
補を削除し、選択候補に含まれる認識候補のみを使用し
て、HTMLデータの変換を行うこともできる。
【0057】以上説明した実施形態では、変換対象とな
るデータをHTMLデータとして説明したが、それに限ら
ず、グラフィカルユーザインターフェース用の表示デー
タとして他のマークアップ言語で作成されたデータにも
適用可能である。
【0058】以上説明した実施形態によれば、ユーザが
入力しようとしているブラウザ上の入力フォームに、音
声入力における認識候補を表示し、GUI等で選択するこ
とが出来るため、より自然なインタフェースになる。
【0059】また、選択候補から1つを選択するタイプ
の入力フォームにおいて、選択候補が多くある場合に
は、GUIなどでの選択に時間がかかるが、以上説明した
実施形態によれば、音声入力における認識候補が尤度順
に選択候補の上位に配置されるので、認識候補の中に正
解がある場合には、第一位でなくても上位にあるため、
GUIにより短時間で選択でき、かつ、第二位以下の認識
候補に正解があった場合に、発声し直す必要がなくな
る。また、同音異表記の認識候補があった場合には、GU
Iを用いて選択できるようになる。
【0060】以上、本発明の好適な実施形態について説
明したが、本発明の目的は、前述した実施形態の機能を
実現するソフトウェアのプログラムコードを記録した記
憶媒体(または記録媒体)を、システムあるいは装置に
供給し、そのシステムあるいは装置のコンピュータ(ま
たはCPUやMPU)が記憶媒体に格納されたプログラムコー
ドを読み出し実行することによっても、達成されること
は言うまでもない。この場合、記憶媒体から読み出され
たプログラムコード自体が前述した実施形態の機能を実
現することになり、そのプログラムコードを記憶した記
憶媒体は本発明を構成することになる。また、コンピュ
ータが読み出したプログラムコードを実行することによ
り、前述した実施形態の機能が実現されるだけでなく、
そのプログラムコードの指示に基づき、コンピュータ上
で稼働しているオペレーティングシステム(OS)などが実
際の処理の一部または全部を行い、その処理によって前
述した実施形態の機能が実現される場合も含まれること
は言うまでもない。
【0061】さらに、記憶媒体から読み出されたプログ
ラムコードが、コンピュータに挿入された機能拡張カー
ドやコンピュータに接続された機能拡張ユニットに備わ
るメモリに書込まれた後、そのプログラムコードの指示
に基づき、その機能拡張カードや機能拡張ユニットに備
わるCPUなどが実際の処理の一部または全部を行い、そ
の処理によって前述した実施形態の機能が実現される場
合も含まれることは言うまでもない。
【0062】
【発明の効果】以上述べてきた通り、本発明によれば、
ブラウザ上の入力フォームに音声入力における認識候補
を表示し、選択することができる。
【図面の簡単な説明】
【図1】本発明が機能的に実現され得るハードウェアの
構成例を示した図である。
【図2】本発明の一実施形態に係るブラウザ装置の機能
ブロック図である。
【図3】第一の実施形態のHTMLデータ作成部の動作
を表すフローチャートである。
【図4】(a)乃至(d)は、テキスト入力タイプの入
力フォームの記述を変換した際のブラウザの表示例を示
した図である。
【図5】選択タイプの入力フォームの記述を変換した際
のブラウザの表示例を示した図である。
【図6】選択タイプの入力フォームの記述を変換した際
のブラウザの表示例を示した図である。
【図7】選択タイプの入力フォームの記述を変換した際
のブラウザの表示例を示した図である。
【図8】選択タイプの入力フォームの記述を変換した際
のブラウザの表示例を示した図である。
【図9】選択タイプの入力フォームの記述を変換した際
のブラウザの表示例を示した図である。
【図10】複数回の音声入力があった場合における選択
タイプの入力フォームの記述を変換した際のブラウザの
表示例を示した図である。
【図11】複数回の音声入力があった場合における選択
タイプの入力フォームの記述を変換した際のブラウザの
表示例を示した図である。
【図12】選択するタイプの入力フォームの記述を変換
した際のブラウザの表示例を示した図である。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 3/00 561D 571R (72)発明者 伊藤 史朗 東京都大田区下丸子3丁目30番2号 キヤ ノン株式会社内 Fターム(参考) 5D015 KK02 LL05 LL06 LL08

Claims (16)

    【特許請求の範囲】
  1. 【請求項1】 所定のマークアップ言語で記述されたグ
    ラフィカルインターフェース用のデータの内容を表示す
    る表示手段と、 前記表示手段による表示内容に含まれる入力欄の1つに
    対して、音声により情報を入力をするための音声入力手
    段と、 入力された前記音声に対して音声認識処理を実行し、そ
    の認識候補を作成する音声認識手段と、 前記表示内容に含まれる入力欄のうち、前記音声入力手
    段により入力がなされた入力欄を検出する検出手段と、 前記検出手段により検出した入力欄に対する前記データ
    を、作成した前記認識候補に基づいて変換する手段と、
    を備えたことを特徴とするデータ処理装置。
  2. 【請求項2】 前記検出手段により検出された入力欄
    が、該入力欄にテキストを入力するタイプの入力欄であ
    った場合に、前記変換手段は、前記入力欄が、作成した
    前記認識候補を選択候補とする選択リストから候補を選
    択して入力するタイプとなるように、前記データを変換
    することを特徴とする請求項1に記載のデータ処理装
    置。
  3. 【請求項3】 前記音声認識手段は、複数の前記認識候
    補の各々の尤度を計算し、 前記変換手段は、前記認識候補のリストが各候補の尤度
    の順番に表示されるように、前記データを変換すること
    を特徴とする請求項2に記載のデータ処理装置。
  4. 【請求項4】 前記テキストを入力するタイプから前記
    候補を選択して入力するタイプに変換された入力欄が、
    元の前記テキストを入力するタイプとなるように、変換
    された前記データを逆変換する手段を備えることを特徴
    とする請求項2に記載のデータ処理装置。
  5. 【請求項5】前記検出手段により検出された入力欄が、
    予め設定された複数の項目を有する項目リストの中から
    選択して入力する入力欄であった場合に、 、前記変換手段は、前記項目リストの項目または順位が
    前記認識候補に基づいて変更されるように、前記データ
    を変換することを特徴とする請求項1に記載のデータ処
    理装置。
  6. 【請求項6】 前記音声認識手段は、複数の前記認識候
    補の各々の尤度を計算し、 前記変換手段は、前記項目のリストが各候補の尤度の順
    番に表示されるように、前記データを変換することを特
    徴とする請求項5に記載のデータ処理装置。
  7. 【請求項7】 前記表示手段が前記項目のリストを表示
    する場合に、前記認識候補と一致する項目を他の項目よ
    りも優先的な順番で表示するように、前記変換手段は前
    記データを変換することを特徴とする請求項5に記載の
    データ処理装置。
  8. 【請求項8】 前記音声認識手段が、予め設定されてい
    た前記項目の中から前記認識候補を作成することを特徴
    とする請求項5に記載のデータ処理装置。
  9. 【請求項9】 前記表示手段が前記項目のリストを表示
    する場合に、前記認識候補と一致する項目とそれ以外の
    項目とを識別可能に表示するように、前記変換手段は前
    記データを変換することを特徴とする請求項5に記載の
    データ処理装置。
  10. 【請求項10】 前記変換手段は、項目リストから選択
    するタイプの入力欄に音声による入力が複数回あった場
    合は、当該リスト中で前回の認識候補と一致する項目の
    表示順位を下げるように、前記データを変換することを
    特徴とする請求項5に記載のデータ処理装置。
  11. 【請求項11】 前記変換手段は、項目リストから選択
    するタイプの入力欄に音声による入力が複数回あり、か
    つ、前回の認識候補と今回の認識候補に重複する候補が
    あった場合は、当該重複する候補を今回の認識候補より
    削除するように、前記データを変換することを特徴とす
    る請求項5に記載のデータ処理装置。
  12. 【請求項12】 前記音声認識処理において前記認識候
    補を作成できなかった場合に、音声認識に失敗した旨を
    報知する手段を備えたことを特徴とする請求項1乃至1
    1のいずれかに記載のデータ処理装置。
  13. 【請求項13】 前記報知は、音声による報知であるこ
    とを特徴とする請求項12に記載のデータ処理装置。
  14. 【請求項14】 前記変換手段が、前記音声認識手段が
    認識候補を作成できなかった場合に、前記データを、音
    声認識に失敗した旨が表示されるように変換することを
    特徴とする請求項1乃至11のいずれかに記載のデータ
    処理装置。
  15. 【請求項15】 所定のマークアップ言語で記述された
    グラフィカルインターフェース用のデータの内容を表示
    する工程と、 前記データの表示内容に含まれる入力欄の1つに対し
    て、音声により情報を入力をする工程と、 入力された前記音声に対して音声認識処理を実行し、そ
    の認識候補を作成する音声認識工程と、 前記表示内容に含まれる入力欄のうち、前記音声入力が
    なされた入力欄を検出する工程と、 検出した入力欄に対する前記データを、作成した前記認
    識候補に基づいて変換する工程と、を含むことを特徴と
    するデータ処理方法。
  16. 【請求項16】 所定のマークアップ言語で記述された
    データを処理するためのコンピュータプログラムを記録
    した記録媒体であって、該コンピュータプログラムが、 前記マークアップ言語で記述されたグラフィカルインタ
    ーフェース用のデータの内容を表示する工程のコード
    と、 前記データの表示内容に含まれる入力欄の1つに対し
    て、音声により情報を入力をする工程のコードと、 入力された前記音声に対して音声認識処理を実行し、そ
    の認識候補を作成する音声認識工程のコードと、 前記表示内容に含まれる入力欄のうち、前記音声入力が
    なされた入力欄を検出する工程のコードと、 検出した入力欄に対する前記データを、作成した前記認
    識候補に基づいて変換する工程のコードと、を含むこと
    を特徴とする記録媒体。
JP2000112416A 2000-04-13 2000-04-13 データ処理装置、データ処理方法、記録媒体 Expired - Fee Related JP4565585B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000112416A JP4565585B2 (ja) 2000-04-13 2000-04-13 データ処理装置、データ処理方法、記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000112416A JP4565585B2 (ja) 2000-04-13 2000-04-13 データ処理装置、データ処理方法、記録媒体

Publications (3)

Publication Number Publication Date
JP2001296991A true JP2001296991A (ja) 2001-10-26
JP2001296991A5 JP2001296991A5 (ja) 2007-06-07
JP4565585B2 JP4565585B2 (ja) 2010-10-20

Family

ID=18624592

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000112416A Expired - Fee Related JP4565585B2 (ja) 2000-04-13 2000-04-13 データ処理装置、データ処理方法、記録媒体

Country Status (1)

Country Link
JP (1) JP4565585B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003167598A (ja) * 2001-12-04 2003-06-13 Canon Inc 音声認識装置及びその方法、プログラム
JP2004523039A (ja) * 2001-02-02 2004-07-29 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声xmlファイルを自動的に生成する方法およびシステム
JP2008176764A (ja) * 2007-01-17 2008-07-31 Toshiba Corp 画像処理システム、画像処理方法、画像処理プログラム
JP2015011639A (ja) * 2013-07-02 2015-01-19 三菱電機株式会社 情報処理装置および情報処理方法
JP2015029791A (ja) * 2013-08-05 2015-02-16 株式会社東芝 医用機器操作支援装置及び超音波診断装置
JP2015038732A (ja) * 2007-08-16 2015-02-26 ワベリンク コーポレーション 音声を利用できるテルネットインターフェイス
JP2018045460A (ja) * 2016-09-14 2018-03-22 株式会社東芝 入力支援装置およびプログラム
US10033797B1 (en) 2014-08-20 2018-07-24 Ivanti, Inc. Terminal emulation over HTML
US11100278B2 (en) 2016-07-28 2021-08-24 Ivanti, Inc. Systems and methods for presentation of a terminal application screen

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10187709A (ja) * 1996-10-31 1998-07-21 Microsoft Corp 音声認識中に可変数の代替ワードを表示する方法及びシステム
JPH11194793A (ja) * 1997-12-26 1999-07-21 Nec Corp 音声ワープロ
JPH11510977A (ja) * 1996-04-22 1999-09-21 エイ・ティ・アンド・ティ・コーポレーション オーディオインターフェイスを用いた情報の取り出し方法および装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11510977A (ja) * 1996-04-22 1999-09-21 エイ・ティ・アンド・ティ・コーポレーション オーディオインターフェイスを用いた情報の取り出し方法および装置
JPH10187709A (ja) * 1996-10-31 1998-07-21 Microsoft Corp 音声認識中に可変数の代替ワードを表示する方法及びシステム
JPH11194793A (ja) * 1997-12-26 1999-07-21 Nec Corp 音声ワープロ

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004523039A (ja) * 2001-02-02 2004-07-29 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声xmlファイルを自動的に生成する方法およびシステム
US7478048B2 (en) 2001-02-02 2009-01-13 International Business Machines Corporation Method and system for automatically creating voice XML file
JP2003167598A (ja) * 2001-12-04 2003-06-13 Canon Inc 音声認識装置及びその方法、プログラム
JP2008176764A (ja) * 2007-01-17 2008-07-31 Toshiba Corp 画像処理システム、画像処理方法、画像処理プログラム
US10148734B2 (en) 2007-08-16 2018-12-04 Ivanti, Inc. Scripting support for data identifiers, voice recognition and speech in a telnet session
JP2015038732A (ja) * 2007-08-16 2015-02-26 ワベリンク コーポレーション 音声を利用できるテルネットインターフェイス
JP2016154032A (ja) * 2007-08-16 2016-08-25 ワベリンク コーポレーション 音声を利用できるテルネットインターフェイス
US9648083B2 (en) 2007-08-16 2017-05-09 Crimson Corporation Scripting support for data identifiers, voice recognition and speech in a telnet session
JP2018060568A (ja) * 2007-08-16 2018-04-12 クリムソン コーポレイション 音声を利用できるテルネットインターフェイス
US10938886B2 (en) 2007-08-16 2021-03-02 Ivanti, Inc. Scripting support for data identifiers, voice recognition and speech in a telnet session
JP2015011639A (ja) * 2013-07-02 2015-01-19 三菱電機株式会社 情報処理装置および情報処理方法
JP2015029791A (ja) * 2013-08-05 2015-02-16 株式会社東芝 医用機器操作支援装置及び超音波診断装置
US10033797B1 (en) 2014-08-20 2018-07-24 Ivanti, Inc. Terminal emulation over HTML
US10873621B1 (en) 2014-08-20 2020-12-22 Ivanti, Inc. Terminal emulation over html
US11100278B2 (en) 2016-07-28 2021-08-24 Ivanti, Inc. Systems and methods for presentation of a terminal application screen
JP2018045460A (ja) * 2016-09-14 2018-03-22 株式会社東芝 入力支援装置およびプログラム

Also Published As

Publication number Publication date
JP4565585B2 (ja) 2010-10-20

Similar Documents

Publication Publication Date Title
US7548859B2 (en) Method and system for assisting users in interacting with multi-modal dialog systems
US7681129B2 (en) Audio clutter reduction and content identification for web-based screen-readers
JP2011209786A (ja) 情報処理装置、および情報処理方法、並びにプログラム
JP3423296B2 (ja) 音声対話インターフェース装置
JP2011209787A (ja) 情報処理装置、および情報処理方法、並びにプログラム
JP2004310748A (ja) ユーザ入力に基づくデータの提示
US20060247925A1 (en) Virtual push-to-talk
JP2001272995A (ja) 音声認識方法及び装置
US20050004800A1 (en) Combining use of a stepwise markup language and an object oriented development tool
JP2001296991A (ja) データ処理装置、データ処理方法、記録媒体
JP2008145769A (ja) 対話シナリオ生成システム,その方法およびプログラム
JP5002283B2 (ja) 情報処理装置および情報処理方法
US20220350605A1 (en) Information processing apparatus
JP3542578B2 (ja) 音声認識装置及びその方法、プログラム
JP2009505203A (ja) インタラクションパターン及びアプリケーション機能を紹介する方法
JPWO2018179373A1 (ja) 会話支援装置、会話支援方法、及びプログラム
JP2006011641A (ja) 情報入力方法及びその装置
JP2000112610A (ja) コンテンツ表示選択システム及びコンテンツ記録媒体
TWI582756B (zh) A method of switching input mode, a mobile communication device, and a computer readable medium
JP2002351652A (ja) 音声認識操作支援システム、音声認識操作支援方法、および、音声認識操作支援プログラム
WO2003079188A1 (fr) Procede de fonctionnement d'un objet logiciel au moyen d'une langue naturelle et programme correspondant
JP2010182191A (ja) 帳票入力装置、帳票入力システム、帳票入力方法、及びプログラム
JP2009223720A (ja) 自然言語対話エージェントのためのスクリプト作成支援方法及びプログラム
JP2006065651A (ja) 商標称呼検索プログラム、商標称呼検索装置及び商標称呼検索方法
JP2002268667A (ja) プレゼンテーションシステムおよびその制御方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070411

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070411

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20070411

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080813

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090918

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091113

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100730

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100802

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130813

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees