JP3984988B2 - ユーザインタフェース設計装置およびその制御方法 - Google Patents

ユーザインタフェース設計装置およびその制御方法 Download PDF

Info

Publication number
JP3984988B2
JP3984988B2 JP2004342898A JP2004342898A JP3984988B2 JP 3984988 B2 JP3984988 B2 JP 3984988B2 JP 2004342898 A JP2004342898 A JP 2004342898A JP 2004342898 A JP2004342898 A JP 2004342898A JP 3984988 B2 JP3984988 B2 JP 3984988B2
Authority
JP
Japan
Prior art keywords
semantic structure
semantic
input
path
user interface
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004342898A
Other languages
English (en)
Other versions
JP2006155086A (ja
Inventor
賢一郎 中川
誠 廣田
寛樹 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2004342898A priority Critical patent/JP3984988B2/ja
Priority to US11/286,023 priority patent/US7412391B2/en
Priority to EP05257241A priority patent/EP1662363A3/en
Priority to CN2005101241580A priority patent/CN1779782B/zh
Publication of JP2006155086A publication Critical patent/JP2006155086A/ja
Application granted granted Critical
Publication of JP3984988B2 publication Critical patent/JP3984988B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/38Creation or generation of source code for implementing user interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Stored Programmes (AREA)
  • Input From Keyboards Or The Like (AREA)

Description

本発明は、パタン認識機能を提供するアプリケーションのユーザインタフェースを設計するためのユーザインタフェース設計装置およびその制御方法に関する。
現在、VoiceXML(http://www.w3.org/TR/voicexml20/ を参照。)、 SALT(http://www.saltforum.org/ を参照。)、XHTML+Voice(http://www.w3.org/TR/xhtml+voice/ を参照。)という音声ユーザインタフェース(以下「音声UI」という。)を記述するためのマークアップ言語仕様が存在する。この仕様に沿って書かれたコンテンツは、対応するブラウザに読み込ませることで、ユーザと機器(あるいはサービス)間で音声UIを実現することが可能である。
これらの音声UIコンテンツは、オーサ(コンテンツ作成者)が専用のオーサリングツールを使って作成することが一般的である(例えば、特許文献1、2を参照。)。
音声UIを実現するためには、ユーザの音声を認識する音声認識技術が必要である。音声認識とは、音響モデルと呼ばれる人間の音声の音響的統計量を用い、指定された言語制約を満たす語連鎖の中で、もっとも発声と近い語連鎖を選択する処理である。この言語制約は音声認識文法と呼ばれている。
“Yes”または“No”を認識するといった一般的な音声認識文法は、既存の文法を用いることが可能である。しかし、その他のアプリケーションに特化した文法は、オーサが自分で作成する必要がある。そのような音声認識文法についてはW3Cで標準化が進められており、現在は、“Speech Recognition Grammar Specification Version 1.0”(以下「SRGS」という。)として勧告されている。SRGSの仕様は、http://www.w3.org/TR/speech-grammar/ に公開されている。図3および図4は、このSRGSで記述された音声認識文法の記述例である。
また、“Semantic Interpretation for Speech Recognition”(以下「SISR」という。)という仕様についても標準化が進められている。これは、音声認識結果の意味構造を規定するための仕様である。これを用いることで、音声認識の結果として、その発声に含まれる意味情報を取り出すことが可能になる。図3の302はSISRの意味構造生成規則の一例である。このように意味構造生成規則は、SRGS中の<tag>〜</tag>内、あるいは"tag"属性内に記述される。なお、SISRの仕様は、http://www.w3.org/TR/semantic-interpretation/ に公開されている。
例えば、図3、図4の音声認識文法を用いた音声認識処理で、“I would like a coca cola and three large pizzas with pepperoni and mushrooms.”という発声を行った場合を考える。すると、図5のような構造化されたデータが生成される。本明細書では、このような構造化されたデータ構造(501)を「意味構造」と呼び、その構造を構成する各データ(502)を「意味構造部品」と呼ぶ。一般的に、認識結果を受け取るアプリケーションは、“I would like a coca cola and three large pizzas with pepperoni and mushrooms.”という文字列を認識結果として受け取るよりも、このような意味構造を受け取った方が利用しやすい。
特許第03279684号公報 特開平09−114623号公報
図6Aは、音声認識アプリケーションの画面例で、データ入力前の場面を示している。このアプリケーションはピザの注文を、音声またはGUI入力により行うものである。ユーザは、GUI入力により各フォームを埋めてもよいし、602のような音声入力ボタンをクリックした後、“I would like a coca cola and three large pizzas with pepperoni and mushrooms.”といった発声を行うこともできる。上記の発声を行った場合、図6Bに示すように各フォームにデータが自動的に埋まる。
このような音声UIを作成するには、UIオーサリングツールを用いて生成するのが一般的である。図7はUIオーサリングツールの画面例を示している。一般的なUIオーサリングツールは、702のようなフォームパレットと703のような編集中のGUI画面が見えているものが多い。アプリケーションのオーサは、フォームパレットから所望のフォームコントロールをUI画面上にドラッグ&ドロップすることで、GUI画面を生成していく。
ユーザ発声後、ユーザ発声に応じて図6Bの603のように各フォームコントロールの値が更新されるためには、各フォームと音声認識結果の意味構造部品とを結び付ける作業が必要である。例えば、ピザの枚数が格納される704のフォームには、音声認識結果の意味構造中の502のデータ(ピザの枚数)との結びつけを行わなければならない。このように、各フォームやオブジェクトを音声認識結果の意味構造部品との結びつけを行う場合、最も単純な実装は図8のようなUIである。つまり、801のような意味構造バインドダイアログをオーサに提示し、音声認識文法名(802)、音声認識により生成される特定の意味構造部品へのパス(803)をテキスト入力により行わせる。ここでは、このような意味構造部品へのパスを「意味構造パス」と呼ぶ。意味構造パスの表記中の“/”は親子関係を表している。したがって“/pizza/number”は、“pizza”要素の子の“number”要素を表しており、つまり502のデータを示している。
図8のように、オーサに音声認識結果の意味構造パスをテキスト入力させれば、各フォームコントロール(またはオブジェクト)と音声認識結果の意味構造部品との結びつきを設定することは可能である。
しかし、このようなテキスト入力はオーサの負担となる。そのため、このようなオーサの負担の軽減が望まれている。
本発明の一側面に係るユーザインタフェース制御装置は例えば、以下の構成を有する。すなわち、パタン認識の結果の意味構造を構成する意味構造部品の位置を特定する意味構造パスと、複数の入力欄を有するアプリケーションの入力欄とを対応付けることによって、パタン認識の結果の意味構造に前記意味構造部品が含まれた場合に、当該パタン認識の結果を当該意味構造部品に対応する入力欄に入力するように動作するユーザインタフェースのユーザインタフェースコンテンツを生成するユーザインタフェース設計装置であって、複数の入力欄を含む前記アプリケーションのGUIを表示する第1表示手段と、前記第1表示手段により表示された前記複数の入力欄のうちの1つを、前記意味構造パスとの対応付けの対象とする入力欄として、入力装置を介したオーサの選択操作に応じて選択する入力欄選択手段と、記憶装置に記憶された、前記パタン認識の結果の意味構造を生成するための意味構造を構成する意味構造部品を含む意味構造生成規則が記述された認識文法を取り込む取り込み手段と、前記取り込み手段により取り込まれた前記認識文法に記述された前記意味構造生成規則に含まれる意味構造部品を抽出する抽出手段と、前記意味構造パスを生成するための意味構造パス生成ダイアログであって、前記抽出手段で抽出された前記意味構造部品をユーザが選択可能にリスト表示する第2表示手段と、前記第2表示手段により表示された前記意味構造部品に対する入力装置を介したオーサの選択操作に応じて意味構造部品を選択し、該選択された意味構造部品により構成されるパスを意味構造パスとして生成する意味構造パス生成手段とを有する。
本発明のユーザインタフェース制御装置によれば、オーサの入力に係る負担を軽減させることができる。
以下、図面を参照して本発明の好適な実施形態について詳細に説明する。
図1Aは、本発明のユーザインタフェース設計装置の機能を実現するコンピュータシステムのハードウェア構成例を示す図である。なお、以下の説明では「ユーザインタフェース」を「UI」ともいう。
図示のコンピュータシステムは、装置全体の制御をつかさどるCPU1、ブートプログラムや固定的なデータ等を記憶しているROM2、主記憶装置として機能するRAM3をはじめ、以下の構成を備える。
HDD4はハードディスク装置であって、ここにOS10のほか、UI設計プログラム11、音声認識文法112、UI設計プログラム11の実行によって構築されるUIコンテンツ111が格納される。
また、VRAM5は表示しようとするイメージデータを展開するメモリであり、ここにイメージデータ等を展開することで画面出力装置の一例としてのCRT6に表示させることができる。7および8はそれぞれ、入力装置としてのキーボードおよびマウスで、CPU1に割り込み信号を伝えるキーボードコントローラ7aおよびマウスコントローラ8bに接続されている。
UI設計プログラム11は、キーボード7あるいはマウス8からの特定の指示イベントに応じて起動される。その際に、UI設計プログラム11はRAM3にロードされ、CPU1によって実行される。これによってこのコンピュータシステムはUI設計装置として機能することになる。
図1Bは、本実施形態におけるUI設計装置の機能構成図である。
UI設計装置101は、キーボード7やマウス8を含む入力装置105および、CRT6で構成される画面出力装置108を介し、オーサが所望するUIコンテンツ111を生成する。
ここでは一例として、図6Aのようなピザの注文を行うアプリケーションのUIコンテンツを生成することを想定して説明する。このUIはGUIによるフォームコントロールでデータを入力することができる。また、602の音声入力ボタンを押し、“I would like a coca cola and three large pizzas with pepperoni and mushrooms.”のような発声を行うことで、図6Bのように各フォームを一挙に埋めることが可能である。
本UI設計装置のUI画面は図7のようになっている。これは基本的にはオーサからのコマンド入力に応じて動作を行うメッセージドリブンのアプリケーションである。例えばファイルのセーブや、オーサリングツールの終了コマンドが入力されると、それに応じた動作を行う。
音声認識結果としてピザの枚数が入力された場合に、604(図6A)のフォーム1の値をその音声認識結果の値に反映させるUIを作成する場合を考える。この場合、GUIのフォームコントロールや、他のオブジェクトと音声認識結果の意味構造を結び付ける必要がある。ここでは、この意味構造との結び付け作業を“意味構造指定モード”と呼ぶ。この“意味構造指定モード”は、本装置の特徴的な動作である。
オーサは、図7の画面のフォーム1(704)を例えば右クリックし、コンテキストメニューから“音声認識結果とのバインド”を選択する。すると、“意味構造指定モード”に入る。“意味構造指定モード”ではまず、図9Aの901のような音声認識文法選択ダイアログが現れ、オーサが所望する音声認識文法名を入力する。なお、他の画面で既に音声認識文法が指定されている場合は、このダイアログ表示は省略してもよい。
図2は、本実施形態に係るUI設計装置の意味構造指定モードにおける処理を示すフローチャートである。
上記のとおり音声認識文法選択ダイアログ901に音声認識文法名が入力されると、音声認識文法取り込み部110(図1を参照)は、指定した音声認識文法112を取り込む(ステップS201)。ここでは、取り込まれた音声認識文法は、図3〜図4に示したものとして説明する。取り込まれる音声認識文法には、発声内容の意味構造を生成するための意味構造生成規則302が記述されていることを前提とする。
取り込まれた音声認識文法は、意味構造抽出部106に送られる。意味構造抽出部106は、取り込まれた音声認識文法を解析し、そこに含まれる意味構造生成規則から少なくとも1つの意味構造を抽出する(ステップS202)。
例えば、音声認識文法に含まれる全意味構造生成規則中の全プロパティを探し出し、そのリストを抽出することが考えられる。プロパティとは、意味構造生成規則中の左辺に現れる識別子である。この意味構造生成規則のプロパティに関しては、http://www.w3.org/TR/semantic-interpretation/ に詳しい説明が公開されている。
ちなみに、図3〜図4の文法における全プロパティのリストは次の通りである。
[drink、drinksize、liquid、number、pizza、pizzasize、topping、type]
抽出された意味構造は、意味構造提示部107に送られ、ここから画面出力装置108を介してオーサに提示される(ステップS203)。例えば、図9Bに示すような意味構造パス生成ダイアログ902が表示される。オーサは、このダイアログ902を見ながら入力装置105を操作し、特定の意味構造パスを指定することができる。具体的には、オーサは、リストボックス903からプロパティを選択し、所望の意味構造パスを構築する。なお、パスの長さを伸ばしたり縮めたりすることは、904のようなパス長さ編集ボタンを用いて行う。
オーサの選択が終わり、“OK”ボタンが押下されると、オーサ入力情報取り込み部104はオーサの入力情報(選択情報)を取り込む(ステップS204)。取り込んだ情報は意味構造パス生成部103に送られる。ここでは、オーサが選択した各プロパティ名とその関係から特定の意味構造パスが生成される(ステップS205)。先の例では、“/pizza/number”という文字列が生成される。このようにオーサはリストボックス903からの選択動作を行うだけで、意味構造パスを生成することができる。このとき、オーサは従来のように意味構造部品を特定するテキスト等を入力する必要はない。これにより、オーサの入力に係る負担が軽減される。
この結果はUIコンテンツ構築部102に送られ、VoiceXMLやSALT、XHTML+Voiceといったマークアップ言語で表現されたUIコンテンツに反映される。生成されたUIコンテンツはUIコンテンツ出力部109に送られ、ここから外部のUIコンテンツファイル111に出力される。
(変形例1)
上述の実施形態では、意味構造生成規則中のプロパティをオーサに提示し、オーサにその中から組み合わせを選択させることにより特定の意味構造パスを生成した。しかしこの方法だと、パスを構成する語彙は正しいものの、その順序が間違ったものをオーサが指定する可能性がある。例えば、図5の意味構造において、“/number/pizza”というこの文法からは生成され得ない意味構造パスが指定される場合がある。これを回避するために、音声認識文法から文法に準拠した仮想の入力情報としての発声情報を自動生成し、その発声が入力された場合の意味構造をオーサに提示するようにしてもよい。以下ではそのような処理を導入した例を変形例1として説明する。
図10は、この変形例1に係るUI設計処理を示すフローチャートである。
オーサが、図7の画面のフォーム1(704)を右クリックし、コンテキストメニューから“音声認識結果とのバインド”を選択すると、この図10のフローが開始する。このフローに入ると、まず、図12Aに示すような音声認識文法指定ダイアログ1201を表示し、ここでオーサにより入力された音声認識文法名を取得する(ステップS1001)。なお、既に音声認識文法が指定されている場合には、この部分は省略することが可能である。
次に、内部変数Nを1で初期化し(ステップS1002)、取り込まれた音声認識文法から、発声例を一つ生成する(ステップS1004)。文法から発声例を生成するには、例えば図11に示すようなアルゴリズムが考えられる。
まず、“Generate”というルーチンを、文法のルートルール名を引数にして呼び出す(00行目)。Generate ルーチン内では、内部変数list をクリアし(02行目)、入力されたルール名からその右辺を展開する。展開された右辺は、token ごとに切り出され、Tokenリストに格納される(03行目)。
切り出された全Token は、次のチェックを行う。まず、<ruleref>のような、他のルールへの参照であるかを調べる。そうであった場合、そのルール名を引数に、Generate ルーチンを再帰的に呼び出す。その結果はlist変数に追加される(06行目)。次に、Tokenが<one-of>のような選択要素であるかどうかを調べる。もしそうであった場合、その選択要素を引数に、後述するSelectサブルーチンを呼び出す。その結果はlist変数に追加される(09行目)。他のルールへの参照でも選択要素でもなかった場合、このTokenは終端記号(発声単語)であるとみなし、そのTokenをそのままlist に追加する(12行目)。これらの操作は切り出された全Tokenに対して行い、最後にlist 変数を返す(15行目)。
Select サブルーチンでは、まず内部変数listを初期化する(21行目)。次に、入力された選択要素のうち、<item>で指定された選択項目を1つ選択する(22行目)。 この選択方式は、最初に現れた選択項目を選択してもよいし、<item>のうちのどれか1つをランダムで選択してもよい。選択された選択項目は、Generate ルーチン同様のチェックを行う(23〜31行目)。チェックが終ると、list変数を返す。
このようなアルゴリズムを実行することで、音声認識文法で受理される発声例のテキスト情報を抽出することが可能である。ただし、このアルゴリズムでは、発声の繰り返しを指定する文法記述には対応できない。また、ルールの再帰を含む文法記述では無限ループに陥ってしまうため、これら一般的な音声認識文法に対応するには、上記アルゴリズムを改良する必要がある。
これらのアルゴリズムで新しい発声例のテキスト情報が作成できた場合(ステップS1005,No)、生成した発声例から意味構造を生成する(ステップS1006)。具体的には、音声認識文法を用いて発声例テキストを構文解析する。そして、その経路上の意味情報生成規則を実行することで、意味構造を生成することが可能である。なお、意味構造生成に関してはhttp://www.w3.org/TR/semantic-interpretation/ に説明がある。
その後、生成された意味構造は既にリストに登録されたものと同じであるかどうかを確認し(ステップS1007)、未登録である場合にはリストに登録し(ステップS1008)、内部変数Nを1増分する(ステップS1009)。
上記したステップS1004〜S1009の処理は、変数Nの数が所定数M(例えば、3)になるまで、なおかつ、音声認識文法から新しい発声例が作成できる間、繰り返される。これらの条件を満たさなくなると、このループを抜け、例えば図12Bに示すような意味構造概形選択ダイアログ1202において、リスト内のデータをオーサに提示する(ステップS1010)。同図の画面内には、音声認識文法から自動で生成された意味構造の全体像が最大M個表示される。オーサはこの中から意味構造を選択することができる。この選択情報が取り込まれると(ステップS1011)、その選択された意味構造の内部構造を展開し、意味構造部品を選択できるような画面を提示する(ステップS1012)。図12Cにそのときに表示されるダイアログ1203の例を示す。オーサはここからマウス等を用いて意味構造部品を選択することができる。この選択された意味構造部品が取り込まれると(ステップS1013)、オーサにより選択された位置のパスを作成し、UIコンテンツに反映させる(ステップS1014)。
なお、この例では装置が提示する意味構造は最大M個に限定している。このため、オーサが意図する意味構造が提示されない可能性がある。この場合、図12Bの1204のようなボタンを用意し、そのボタンが押された際は、その他のパス指定方法に切り換えてもよい。例えば、図9Bに示したようなダイアログ902を提示するようにしてもよい。
(変形例2)
上述の変形例1では、音声認識文法から発声例を自動で作成するものであった。ただしこの方法の場合、装置が提示するM個の意味構造の中にオーサが意図する意味構造が含まれない可能性がある。これに対処するためにMを大きくすることも可能である。しかし、Mが大きくなるとオーサの意図する意味構造を探す負担が大きくなるという問題が生じる。そこで、この変形例2では、音声認識文法とその中に書かれた発声例情報を用いて意味構造を生成し、オーサに提示する。
図13はSRGSで書かれた音声認識文法の例を示している。SRGSでは、発声の例文を記述する<example>というタグが用意されており、この内部に書かれた例文を発声例情報とすることができる。図中1301が発声例情報の例である。
このときの処理の流れは、図10に示したフローとはぼ同じであるため、詳しい説明は省略する。ただし、ステップS1004の処理は変形例1と異なる。上述の変形例1では、ここで音声認識文法から発声例を1つ自動的に生成したが、本変形例2では、音声認識文法中に記述された発声例テキストを利用すればよい。
また、音声認識文法中に、その文法で生成されうる意味構造情報を記述しておいてもよい。図14は、文法で生成され得る意味構造情報を文法中に記述した例である。これはSRGSのコメント欄に、意味構造情報を入れている。これを用いると、意味構造を生成する処理(ステップS1006)が必要なくなるという利点もある。
(変形例3)
上述の変形例2は、音声認識文法作成時に発声例を入力するものであったが、オーサリングツール使用時に発声例を入力させることも有効である。かかる処理を実現するUI設計処理のフローチャートを、図15に示す。
オーサが、図7の画面のフォーム1(704)を右クリックし、コンテキストメニューから“音声認識結果とのバインド”を選択すると、この図15のフローが開始する。このフローに入ると、まず、図16Aに示すような音声認識文法指定ダイアログ1601を表示し、ここでオーサにより入力された音声認識文法名を取得する(ステップS1501)。この音声認識文法指定ダイアログ1601には、音声認識ボタン1603も用意されている。この音声認識ボタン1603が押されると、オーサの発声を取り込み(ステップS1502)、ステップS1501で取り込んだ音声認識文法を用いて音声認識処理を実行する(ステップS1503)。
音声認識が終了すると、音声認識結果から意味構造を生成し(ステップS1504)、その意味構造を展開してオーサに提示する(ステップS1505)。ここでは例えば、図16Bに示すような意味構造パス指定ダイアログ1604が表示される。図示のように、オーサの発声内容の意味構造が、値(numberが“3”等)を伴って提示される。オーサはこの画面から、特定の意味構造部品を入力装置105を用いて選択する。例えば、pizza の number を指定したい場合は、pizza の下の number という部分をクリックする。特定の意味構造部品の指定が行われると、その情報は装置内部に取り込まれる(ステップS1506)。
取り込まれた情報はステップS1504で生成された意味構造と比較され、その意味構造パスが生成される。例えば“/pizza/number”という文字列が生成される。そして、この文字列が作成中のUIコンテンツに組み込まれる(ステップS1507)。
上の例では、オーサの発声により意味構造を生成したが、オーサが入力したテキストデータにより意味構造を生成することも可能である。例えば、図16Aの1602のような発声例テキスト入力フォームを用意しておく。オーサがこのフォームにテキストで発声内容を入力し、所定の決定ボタン(例えば同図中の“Nextボタン”)を押すと、そのテキストと音声認識文法から意味構造を生成することも可能である。
(変形例4)
意味構造パスの入力はオーサにまかせ、UI設計装置はそのパスのチェックを行うだけに留めてもよい。
例えば“意味構造指定モード”に入ると、図8に示した意味構造バインドダイアログ801を表示し、オーサに803の欄に意味構造パスをテキストで指定させる。その後、802の欄に指定された音声認識文法を解析する。そして、その文法で生成され得る意味構造に、オーサにより指定された意味構造パスに適合するものが含まれていることの確認がとられる。ここで、その文法で生成され得る意味構造のどれにもオーサが指定した意味構造パスが適合できなかった場合には、オーサの入力誤りであるとみなし、エラー情報を出力する。
(その他の実施形態)
以上の実施形態およびその変形例では、音声認識文法としてSRGSを、意味構造構成規則としてSISRを、それぞれ想定して説明した。しかし、本発明はその他の音声認識文法形式にも適用が可能である。また、UI設計装置が出力するコンテンツは、独自の仕様であってもよいし、既存の言語仕様(例えば、SALT、VoiceXML、XHTML+Voice など)であってもよい。また、テキスト形式でも、バイナリ形式で記述されたフォーマットでもよい。
また、上述の実施形態は音声認識を前提とするものであったが、本発明は音声認識に限定されるものではなく、認識文法を用いるその他のパタン認識(例えば、手書き文字認識、ジェスチャ認識など)にも適用が可能である。
例えば、手書き文字認識でも、認識文法で受理され得る手書き入力結果を、認識文法だけから生成することが可能である。これを用いると、変形例1で説明したように生成され得る意味構造をオーサに提示することができる。
また、変形例3のように、オーサに入力例を入力させることも可能である。図17A、Bは、手書き文字認識アプリケーションにおいて提供されるGUIの例である。このGUIを持つアプリケーションは、変形例3と同様に動作する。ただし、変形例3では、オーサの入力として音声入力またはキーボードを用いたテキスト入力を用いたが、この場合には、オーサは、図17Aの手書き文字入力フォーム1702中に手書きで文字を入力することになる。
UI設計装置は、図17Aの手書き文字認識用文法指定フォーム1701で指定された文法と、手書き文字入力フォーム1702に入力された手書き文字のデータを用いて、手書き文字認識を行う。そして、その結果から生成された意味構造を、図17Bの意味構造パス指定ダイアログ1703によってオーサに提示し、この構造へのオーサのマウス操作から、特定の意味構造へのパス情報を取得する。
以上、本発明の実施形態を詳述したが、本発明は、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。
なお、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラムを、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータがその供給されたプログラムコードを読み出して実行することによっても達成される。その場合、プログラムの機能を有していれば、その形態はプログラムである必要はない。
従って、本発明の機能処理をコンピュータで実現するために、そのコンピュータにインストールされるプログラムコード自体およびそのプログラムを格納した記憶媒体も本発明を構成することになる。つまり、本発明の特許請求の範囲には、本発明の機能処理を実現するためのコンピュータプログラム自体、およびそのプログラムを格納した記憶媒体も含まれる。
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等、プログラムの形態を問わない。
プログラムを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM、DVD−R)などがある。
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、そのホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記憶媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明のクレームに含まれるものである。
また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。
さらに、記憶媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現される。
本発明のユーザインタフェース設計装置の機能を実現するコンピュータシステムのハードウェア構成例を示す図である。 本発明の実施形態におけるユーザインタフェース設計装置の機能構成図である。 本発明の実施形態に係るUI設計装置の意味構造指定モードにおけるUI設計処理を示すフローチャートである。 音声認識文法の記述例を示す図である。 音声認識文法から生成され得る意味構造の例を示す図である。 一般的な音声UIアプリケーションの画面例(データ入力前)を示す図である。 一般的な音声UIアプリケーションの画面例(データ入力後)を示す図である。 一般的なUIオーサリングツールの画面例を示す図である。 従来のUIオーサリングツールで意味構造の指定を行うGUIの例を示す図である。 実施形態における音声認識文法選択ダイアログの一例を示す図である。 実施形態における意味構造へのパス生成ダイアログの一例を示す図である。 変形例1に係るUI設計処理を示すフローチャートである。 変形例1に係る発声例の生成アルゴリズムの一例を示す図である。 変形例1における音声認識文法指定ダイアログの一例を示す図である。 変形例1における意味構造概形選択ダイアログの一例を示す図である。 変形例1における意味構造パス指定ダイアログの一例を示す図である。 変形例2における発声例情報を含んだ音声認識文法の一例を示す図である。 変形例2における、生成され得る意味構造情報を含んだ音声認識文法の一例を示す図である。 変形例3に係るUI設計処理を示すフローチャートである。 変形例3における音声認識文法指定ダイアログの一例を示す図である。 変形例3における意味構造パス指定ダイアログの一例を示す図である。 他の実施形態における手書き文字認識アプリケーションで提供されるGUIの例を示す図である。

Claims (7)

  1. パタン認識の結果の意味構造を構成する意味構造部品の位置を特定する意味構造パスと、複数の入力欄を有するアプリケーションの入力欄とを対応付けることによって、パタン認識の結果の意味構造に前記意味構造部品が含まれた場合に、当該パタン認識の結果を当該意味構造部品に対応する入力欄に入力するように動作するユーザインタフェースのユーザインタフェースコンテンツを生成するユーザインタフェース設計装置であって、
    複数の入力欄を含む前記アプリケーションのGUIを表示する第1表示手段と、
    前記第1表示手段により表示された前記複数の入力欄のうちの1つを、前記意味構造パスとの対応付けの対象とする入力欄として、入力装置を介したオーサの選択操作に応じて選択する入力欄選択手段と、
    記憶装置に記憶された、前記パタン認識の結果の意味構造を生成するための意味構造を構成する意味構造部品を含む意味構造生成規則が記述された認識文法を取り込む取り込み手段と、
    前記取り込み手段により取り込まれた前記認識文法に記述された前記意味構造生成規則に含まれる意味構造部品を抽出する抽出手段と、
    前記意味構造パスを生成するための意味構造パス生成ダイアログであって、前記抽出手段で抽出された前記意味構造部品をユーザが選択可能にリスト表示する第2表示手段と、
    前記第2表示手段により表示された前記意味構造部品に対する入力装置を介したオーサの選択操作に応じて意味構造部品を選択し、該選択された意味構造部品により構成されるパスを意味構造パスとして生成する意味構造パス生成手段と、
    を有することを特徴とするユーザインタフェース設計装置。
  2. 前記認識文法は入力例文を含み、
    前記取り込み手段で取り込まれた前記認識文法に含まれる入力例文を抽出する入力例文抽出手段と、
    前記入力例文抽出手段で抽出された前記入力例文をパタン認識し、意味構造を生成する意味構造生成手段とを更に有し、
    前記抽出手段は、前記取り込み手段により取り込まれた前記認識文法に記述された前記意味構造生成規則に含まれる意味構造部品及び前記意味構造生成手段で生成された意味構造から前記意味構造部品を抽出することを特徴とする請求項1に記載のユーザインタフェース設計装置。
  3. 前記パタン認識は音声認識であり、前記認識文法は音声認識文法であることを特徴とする請求項1又は2に記載のユーザインタフェース設計装置。
  4. 前記パタン認識は手書き文字認識であり,前記認識文法は手書き文字認識文法であることを特徴とする請求項1又は2に記載のユーザインタフェース設計装置。
  5. 前記音声認識文法は、W3C勧告のSpeech Recognition Grammar Specification の仕様に準拠して記述されたものであり、かつ、前記意味構造生成規則は、W3C勧告のSemantic Interpretation for Speech Recognition の仕様に準拠して記述されたものであることを特徴とする請求項に記載のユーザインタフェース設計装置。
  6. パタン認識の結果の意味構造を構成する意味構造部品の位置を特定する意味構造パスと、複数の入力欄を有するアプリケーションの入力欄とを対応付けることによって、パタン認識の結果の意味構造に前記意味構造部品が含まれた場合に、当該パタン認識の結果を当該意味構造部品に対応する入力欄に入力するように動作するユーザインタフェースのユーザインタフェースコンテンツを生成するユーザインタフェース設計装置の制御方法であって、
    第1表示手段が、複数の入力欄を含む前記アプリケーションのGUIを表示する第1表示工程と、
    入力欄選択手段が、前記第1表示工程で表示された前記複数の入力欄のうちの1つを、前記意味構造パスとの対応付けの対象とする入力欄として、入力装置を介したオーサの選択操作に応じて選択する入力欄選択工程と、
    取り込み手段が、記憶装置に記憶された、前記パタン認識の結果の意味構造を生成するための意味構造を構成する意味構造部品を含む意味構造生成規則が記述された認識文法を取り込む取り込み工程と、
    抽出手段が、前記取り込み工程で取り込まれた前記認識文法に記述された前記意味構造生成規則に含まれる意味構造部品を抽出する抽出工程と、
    第2表示手段が、前記意味構造パスを生成するための意味構造パス生成ダイアログであって、前記抽出工程で抽出された前記意味構造部品をユーザが選択可能にリスト表示する第2表示工程と、
    意味構造パス生成手段が、前記第2表示工程で表示された前記意味構造部品に対する入力装置を介したオーサの選択操作に応じて意味構造部品を選択し、該選択された意味構造部品により構成されるパスを意味構造パスとして生成する意味構造パス生成工程と、
    を有することを特徴とするユーザインタフェース設計装置の制御方法。
  7. コンピュータをパタン認識の結果の意味構造を構成する意味構造部品の位置を特定する意味構造パスと、複数の入力欄を有するアプリケーションの入力欄とを対応付けることによって、パタン認識の結果の意味構造に前記意味構造部品が含まれた場合に、当該パタン認識の結果を当該意味構造部品に対応する入力欄に入力するように動作するユーザインタフェースのユーザインタフェースコンテンツを生成するユーザインタフェース設計装置として機能させるために、該コンピュータに、
    複数の入力欄を含む前記アプリケーションのGUIを表示装置に表示させる第1表示制御工程と、
    複数の入力欄を含む前記アプリケーションのGUIを表示する第1表示工程と、
    前記第1表示工程で表示された前記複数の入力欄のうちの1つを、前記意味構造パスとの対応付けの対象とする入力欄として、入力装置を介したオーサの選択操作に応じて選択する入力欄選択工程と、
    記憶装置に記憶された、前記パタン認識の結果の意味構造を生成するための意味構造を構成する意味構造部品を含む意味構造生成規則が記述された認識文法を取り込む取り込み工程と、
    前記取り込み工程で取り込まれた前記認識文法に記述された前記意味構造生成規則に含まれる意味構造部品を抽出する抽出工程と、
    前記意味構造パスを生成するための意味構造パス生成ダイアログであって、前記抽出工程で抽出された前記意味構造部品をユーザが選択可能にリスト表示する第2表示工程と、
    前記第2表示工程で表示された前記意味構造部品に対する入力装置を介したオーサの選択操作に応じて意味構造部品を選択し、該選択された意味構造部品により構成されるパスを意味構造パスとして生成する意味構造パス生成工程と、
    を実行させるためのプログラム。
JP2004342898A 2004-11-26 2004-11-26 ユーザインタフェース設計装置およびその制御方法 Expired - Fee Related JP3984988B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2004342898A JP3984988B2 (ja) 2004-11-26 2004-11-26 ユーザインタフェース設計装置およびその制御方法
US11/286,023 US7412391B2 (en) 2004-11-26 2005-11-22 User interface design apparatus and method
EP05257241A EP1662363A3 (en) 2004-11-26 2005-11-24 User interface desiiign apparatus and method
CN2005101241580A CN1779782B (zh) 2004-11-26 2005-11-25 用户界面设计装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004342898A JP3984988B2 (ja) 2004-11-26 2004-11-26 ユーザインタフェース設計装置およびその制御方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2007063959A Division JP2007220129A (ja) 2007-03-13 2007-03-13 ユーザインタフェース設計装置およびその制御方法

Publications (2)

Publication Number Publication Date
JP2006155086A JP2006155086A (ja) 2006-06-15
JP3984988B2 true JP3984988B2 (ja) 2007-10-03

Family

ID=36204718

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004342898A Expired - Fee Related JP3984988B2 (ja) 2004-11-26 2004-11-26 ユーザインタフェース設計装置およびその制御方法

Country Status (4)

Country Link
US (1) US7412391B2 (ja)
EP (1) EP1662363A3 (ja)
JP (1) JP3984988B2 (ja)
CN (1) CN1779782B (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4027269B2 (ja) * 2003-06-02 2007-12-26 キヤノン株式会社 情報処理方法及び装置
US7881932B2 (en) * 2006-10-02 2011-02-01 Nuance Communications, Inc. VoiceXML language extension for natively supporting voice enrolled grammars
US7962344B2 (en) * 2007-06-29 2011-06-14 Microsoft Corporation Depicting a speech user interface via graphical elements
US8731939B1 (en) 2010-08-06 2014-05-20 Google Inc. Routing queries based on carrier phrase registration
US8682661B1 (en) 2010-08-31 2014-03-25 Google Inc. Robust speech recognition
US9536528B2 (en) 2012-07-03 2017-01-03 Google Inc. Determining hotword suitability
US9472196B1 (en) 2015-04-22 2016-10-18 Google Inc. Developer voice actions system
CN105183409B (zh) * 2015-08-12 2018-10-30 深圳市卡迪尔通讯技术有限公司 一种基于自动标注的屏幕控制方法
US9740751B1 (en) 2016-02-18 2017-08-22 Google Inc. Application keywords
US9922648B2 (en) 2016-03-01 2018-03-20 Google Llc Developer voice actions system
US9691384B1 (en) 2016-08-19 2017-06-27 Google Inc. Voice action biasing system
CN107341017B (zh) * 2017-06-30 2020-09-15 百度在线网络技术(北京)有限公司 Ui设计方法、装置、设备及存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3279684B2 (ja) 1992-11-17 2002-04-30 株式会社日立製作所 音声インタフェース・ビルダ・システム
JPH09114623A (ja) 1995-10-13 1997-05-02 Toshiba Corp ユーザインタフェース設計ツール
US20020032564A1 (en) * 2000-04-19 2002-03-14 Farzad Ehsani Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface
US6526382B1 (en) * 1999-12-07 2003-02-25 Comverse, Inc. Language-oriented user interfaces for voice activated services
CN1177312C (zh) * 2000-09-13 2004-11-24 中国科学院自动化研究所 多种语音工作模式的统一识别方法
US7610547B2 (en) * 2001-05-04 2009-10-27 Microsoft Corporation Markup language extensions for web enabled recognition
US7149694B1 (en) * 2002-02-13 2006-12-12 Siebel Systems, Inc. Method and system for building/updating grammars in voice access systems
WO2003071422A1 (en) * 2002-02-18 2003-08-28 Kirusa, Inc. A technique for synchronizing visual and voice browsers to enable multi-modal browsing
CN1452159A (zh) * 2002-04-18 2003-10-29 赵荣椿 语音控制装置及方法
US7302383B2 (en) * 2002-09-12 2007-11-27 Luis Calixto Valles Apparatus and methods for developing conversational applications
US7398261B2 (en) * 2002-11-20 2008-07-08 Radar Networks, Inc. Method and system for managing and tracking semantic objects
US7389235B2 (en) * 2003-09-30 2008-06-17 Motorola, Inc. Method and system for unified speech and graphic user interfaces
US7529657B2 (en) * 2004-09-24 2009-05-05 Microsoft Corporation Configurable parameters for grammar authoring for speech recognition and natural language understanding

Also Published As

Publication number Publication date
JP2006155086A (ja) 2006-06-15
US20060116863A1 (en) 2006-06-01
CN1779782B (zh) 2010-04-21
US7412391B2 (en) 2008-08-12
CN1779782A (zh) 2006-05-31
EP1662363A3 (en) 2012-04-11
EP1662363A2 (en) 2006-05-31

Similar Documents

Publication Publication Date Title
US7412391B2 (en) User interface design apparatus and method
US8261177B2 (en) Generating media presentations
JP4090040B2 (ja) 双方主導マルチモーダル対話及び関連ブラウジング機構を作成するための方法及びシステム
JP3610083B2 (ja) マルチメディアプレゼンテーション装置および方法
US7310784B1 (en) Methods for identifying cells in a path in a flowchart and for synchronizing graphical and textual views of a flowchart
US20040201610A1 (en) Video player and authoring tool for presentions with tangential content
KR100738175B1 (ko) 정보 처리 방법 및 장치
US20040027379A1 (en) Integrated visual development system for creating computer-implemented dialog scripts
JP2008145769A (ja) 対話シナリオ生成システム,その方法およびプログラム
US9142213B2 (en) Generating vocal user interface code from a data meta-model
JP3542578B2 (ja) 音声認識装置及びその方法、プログラム
JP2007220129A (ja) ユーザインタフェース設計装置およびその制御方法
JP2002259113A (ja) 音声マクロ処理装置、その方法、そのコンピュータ・プログラムおよびそのプログラムを記録した記録媒体
JP3880383B2 (ja) 音声認識装置及びその方法、プログラム
JP2005181358A (ja) 音声認識合成システム
KR102446300B1 (ko) 음성 기록을 위한 음성 인식률을 향상시키는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체
JP7538574B1 (ja) 動画生成装置、動画生成方法、動画生成プログラムおよび動画生成システム
JP2017182675A (ja) 情報処理装置と、その処理方法及びプログラム
JP4223841B2 (ja) 音声対話システム及び方法
JP2006185342A (ja) 情報処理装置および文字列分類方法およびプログラムおよび記録媒体
JP4778302B2 (ja) 対話型コンテンツ提示装置及び対話型コンテンツ提示プログラム
JP2003196306A (ja) 画像検索装置及びその方法、プログラム
Libby Introducing the HTML5 Web Speech API
JP2001324993A (ja) 音声対話装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20061226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070313

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070406

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070605

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070629

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070709

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100713

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100713

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110713

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120713

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120713

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130713

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees