JP5089213B2 - グラフィカル・インターフェースを音声使用可能インターフェースに変換するための部分的に自動化された方法およびシステム - Google Patents

グラフィカル・インターフェースを音声使用可能インターフェースに変換するための部分的に自動化された方法およびシステム Download PDF

Info

Publication number
JP5089213B2
JP5089213B2 JP2007079040A JP2007079040A JP5089213B2 JP 5089213 B2 JP5089213 B2 JP 5089213B2 JP 2007079040 A JP2007079040 A JP 2007079040A JP 2007079040 A JP2007079040 A JP 2007079040A JP 5089213 B2 JP5089213 B2 JP 5089213B2
Authority
JP
Japan
Prior art keywords
visual
selector
sui
voice
interface
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007079040A
Other languages
English (en)
Other versions
JP2007265410A (ja
Inventor
フェリペ・ゴメス
シプリアン・アガピ
ジェームス・ロバート・ルイス
ブレント・ダニエル・メッツ
ベイジュ・ディララル・マンダリア
デイビッド・エリオット・ライヒ
ケビン・エム・ホロヴィッツ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2007265410A publication Critical patent/JP2007265410A/ja
Application granted granted Critical
Publication of JP5089213B2 publication Critical patent/JP5089213B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/38Creation or generation of source code for implementing user interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4938Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/35Aspects of automatic or semi-automatic exchanges related to information services provided via a voice call
    • H04M2203/355Interactive dialogue design tools, features or methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、ソフトウェア開発の分野に関し、詳しく言えば、音声使用可能インターフェース・エレメントがユーザ提供の基準および自動プロセスに基づいてグラフィカル・ユーザ・インターフェース・エレメントから生成される、対話型ソフトウェア開発ツールに関するものである。
コンピュータ装置は、ますます、通常のグラフィカル・ユーザ・インターフェースに加えて、あるいはそれの代わりに、音声使用可能インターフェースを利用している。産業界はますます自動化が進み、従業員は、コンピュータ装置と対話しながら多くの実世界業務を遂行することを求められている。音声インターフェース・モードおよびグラフィカル・インターフェース・モードを有する多モード・インターフェースは、これらの従業員が、このデュアル・アクティビティに最も便利な対話モードを使用して実世界業務およびコンピュータ対話を同時に行なうことを可能にするための恩恵となっている。例えば、精算係の店員は、消費者のために購入物品を包装しながらコンピュータ装置用のコマンドをマイクロホンに向けて口述することが可能である。その同じ店員が、消費者と話をしながらグラフィカル・インターフェースを利用してコンピュータ装置と対話することも可能である。
音声使用可能インターフェースがますます使用されているもう1つの理由は、制約のあるモバイル・コンピュータ装置あるいは不便な入力/出力周辺装置の急増に関係している。これは、特に、モバイル・コンピュータ装置、組込み型コンピュータ装置、及び耐久性のあるコンピュータ装置に当てはまることである。例えば、多くのスマート・フォンがタッチ・スクリーンGUIおよび音声インターフェースを組み込んでいる。音声インターフェースは口述された入力を受け取ることができ、その入力は、自動的にテキストに変換され、電子メール・アプリケーションあるいはワード処理アプリケーションのようなアプリケーションに委ねられる。この口述入力機構は、装置のGUIモードに関連したタッチ・スクリーン入力機構を使用して、テキスト・メッセージの入力を試みるよりもユーザにとってかなり簡単なものになり得る。さらに、モバイル装置は、比較的小型のスクリーン(携帯用装置のモバイルの性質のため)が読み難い環境で、あるいはディスプレイ・スクリーンの読取りが過度に妨げられる状況において利用されることがある。これらの状況で、テキスト出力が音声に変換され、ユーザに可聴的に提示されることも可能である。
音声対話モードを有するコンピュータ装置の広範な使用にもかかわらず、アプリケーションの大多数は対話用音声の様相(modality)を欠いている。これは、おそらく、一般に、複雑なGUI対話用に構成され且つビジュアル・ブラウザにおいて表現されるように構成されているウェブ・ページの場合、最も顕著である。たとえ多くのモバイルの装置がウェブ使用可能なものであっても、ビジュアル・エレメントがモバイルの装置の制限されたスクリーン上に表示され得ないために、および希望のサイトが音声対話モードを欠いているために、多くの場合、ユーザはこれらのモバイル装置から希望のサイトにアクセスすることができない。同様に、電話使用者がウェブ内容をアクセスすることを可能にする多くの音声ブラウザが存在するが、ほとんどのウェブ・ページは簡素な音声ベースの対話用に設計されていない
GUIアプリケーションを音声ユーザ・インターフェース(Speech User Interface - SUI)アプリケーションに変換する2つの一般的な方法は、何の準備もなくSUIアプリケーションを指定すること、およびトランスコード技術の使用を伴う。何の準備もなくSUIを書くことは費用および時間のかかることがある。GUIからSUIに直接にトランスコードすることは、一般に、SUIコードが多くのエラーを含むという結果を生じ、自動的に且つ動的にSUIを生成したユーザを悩ますことがある。別の方法として、SUIコードを自動的に生成した結果は、SUI開発活動における生成後の段階で、開発者によって修正されることも可能である。これらの生成後段階の修正は時間のかかる高価なものとなり、 その結果、(生成後段階において費やされた時間によっては)かなり低い品質のSUIを生じることがある。
本発明の目的は、いくつかの自動プロセスおよび少なくとも1つの事前生成の設計者指定の選択項目を使用して、グラフィカル・ユーザ・インターフェース(GUI)からの音声使用可能インターフェースを対話的に生成するソフトウェア・ツールを提供することである。更に詳しく言えば、本発明の目的は、対応するGUIエレメントから音声使用可能エレメントを作成するプロセスを図形処理的にガイドすることができる設計インターフェースを提供することである。設計インターフェースでは、音声ユーザ・インターフェース(SUI)エレメントに変換されるべき各GUIエレメントに隣接してビジュアル・セレクタが設置される。各関連するGUIエレメントに隣接したビジュアル・セレクタの設置は自動的に、および/または、手操作で行なわれてもよい。
設計者は、ビジュアル・セレクタ内でGUIエレメントを変換することにより得られるべき音声制御のタイプを指定することが可能である。1つの実施例では、この選択は、再使用可能ダイアログ・コンポーネント(Reusable Dialog Component - RDC)に相当する、或いは音声使用可能エレメントの生成を容易にする他のコード機構に相当する利用可能な音声制御タイプのリストから行なうことが可能である。ビジュアル・セレクタは、最初に、デフォルトの音声制御タイプでもって、および/またはトランスコード技術を使用して決定された音声制御タイプを入れられることが可能である。設計者がビジュアル・セレクタ内の値を調節した後、音声ユーザ・インターフェース(SUI)は自動的に作成することが可能となる。このインターフェースは、音声専用のインターフェース並びにGUIエレメントおよび音声使用可能エレメントの両方を含む多モード・インターフェースであってもよい。さらに、GUIおよび新しいインターフェースは両方とも、ブラウザによって与えられるマークアップ言語で具現化することが可能である。1つの実施例では、既知のコール・フロー設計フィーチャを開発者に提供することが可能である。コール・フロー・インターフェースあるいはビューが設計インターフェースの内部から得られる。そのコール・フロー設計フィーチャは、自動的に生成されたSUIコードからの高品質音声使用可能インターフェースの生産を促進する。
本発明は、本明細書に示される要素と整合する多数の側面に従って具現化することが可能である。例えば、本発明の1つの側面は、インターフェース内に音声エレメントを作成するための方法を含み得る。その方法は、複数のビジュアル・エレメントを有するビジュアル・インターフェースを識別するステップを含み得る。ビジュアル・セレクタが各ビジュアル・エレメントに隣接して表示される。ビジュアル・セレクタは、ユーザが関連のビジュアル・エレメントに対する音声制御タイプを入力することを可能にする。表示された各ビジュアル・セレクタに関しては、そのビジュアル・セレクタにおける指定された音声制御タイプを有する音声エレメントが自動的に生成されてもよい。
本発明の別の側面は、ビジュアル設計ウィンドウ、セレクタ使用可能ウィンドウ、およびSUIエレメント生成エンジンを含むソフトウェア開発アプリケーションを含み得る。ビジュアル設計ウィンドウは、ビジュアル・インターフェースのビジュアル・エレメントを指定するように、および指定されたビジュアル・エレメントと関連したプログラム命令を自動的に生成するように構成されてもよい。セレクタ使用可能ウィンドウは、ビジュアル設計ウィンドウのGUIエレメントをグラフィカルに表示し得る。その表示されたエレメントの少なくとも一部分が、表示されたビジュアル・セレクタと関連付けられる。各ビジュアル・セレクタは、ソフトウェア開発アプリケーションのユーザがその関連するGUIエレメントに対する音声制御タイプを入力することを可能にする。SUIエレメント生成エンジンは、ビジュアル・セレクタと関係する各GUIエレメントに対応するSUIエレメントを自動的に生成することが可能である。各生成されたSUIエレメントは、ビジュアル・セレクタによって指定された音声制御タイプを有することが可能である。
本発明の更なる別の側面は、ビジュアル・マークアップ言語で書かれたマークアップを表現するためのウィンドウを含むグラフィカル・ユーザ・インターフェースを含み得る。たとえビジュアル・セレクタがビジュアル・マークアップ言語で指定されなくても、ビジュアル・セレクタは、そのウィンドウにおいてグラフィカルに表現されてもよい。各ビジュアル・セレクタは、そのウィンドウに表示されたビジュアル・エレメントに対応し得る。各ビジュアル・セレクタは、ユーザが音声制御タイプを指定することを可能にし得る。各ビジュアル・セレクタに関して、その指定された音声制御タイプを有する音声使用可能エレメントが自動的に生成されてもよい。自動的に生成されたマークアップは、各音声使用可能エレメントに対して作成される音声使用可能マークアップ言語で書くことが可能である。
本明細書に開示された機能を具現化するためにコンピュータ装置を制御するためのプログラムとして、あるいはコンピュータ装置が、本明細書に開示されたステップに対応するプロセスを実行することを可能にするためのプログラムとして、本発明の種々の側面を具現化することが可能であることに留意すべきである。このプログラムは、磁気ディスク、光ディスク、半導体メモリ、あるいは他の任意の記録媒体にそのプログラムを格納することにより提供することが可能である。プログラムは、搬送波によって搬送された、デジタル的にエンコードされた信号として提供することが可能である。開示されたプログラムは単一のプログラムであってもよく、或いは各々が単一のコンピュータ装置内で対話するか或いはネットワーク空間全体にわたって分散態様で対話する複数のサブプログラムとして具現化されてもよい。
図1は、本明細書に示された本発明の装置の実施例に従ってグラフィカル・ユーザ・インターフェース(GUI)エレメントから音声ユーザ・インターフェース(SUI)エレメントを生成するためのシステム100の流れ図である。システム100は、部分的に自動化された、または設計者支援の変換プロセスを利用する。そのプロセスでは、ビジュアル・セレクタが、GUIソフトウェア設計インターフェース内の対応するビジュアル・エレメントに隣接して示される。設計者は、ビジュアル・セレクタ内の制御を指定することによって、ビジュアル・エレメントを変換することによって得られるべき音声制御のタイプを入力することができる。セレクタ指定のSUI音声制御タイプのためのプログラム命令を含むSUIコードが自動的に生成されてもよい。その生成されたSUIコードは、コール・フロー開発ツールのようなソフトウェア設計インターフェースの別のツールを使用して修正することが可能である。
システム100では、GUIページ105がエレメント検知エンジン110に送られる。GUIページ105は、ブラウザにおいて表現することが可能なマークアップ言語で書かれたページであってもよい。例えば、GUIページ105は、拡張可能マークアップ言語(XML)あるいはハイパーテキスト・マークアップ言語(HTML)で書かれてもよい。しかし、GUIページ105はこの点に関して限定されないし、JAVA(登録商標)(商標)、C++、VISUALBASIC 等のような任意のコード言語で書かれたアプリケーションのページ、セクション、またはビューを含み得る。
エレメント検知エンジン110は、音声使用可能オブジェクトに変換されることが可能なGUIページ105内に含まれた1つまたは複数のビジュアル・オブジェクトを自動的に検知することができる。1つの実施例では、テキスト、リスト・ボックス、ラジオ・ボタン等が変換可能なビジュアル・オブジェクトであってもよく、一方、画像およびビデオ・クリップが、エレメント検知エンジン110の目的のための変換不可能なオブジェクトであってもよい。
GUI112は、エレメント検知エンジン110がGUI105の3つのビジュアル・オブジェクトを自動的に識別する方法を示す。特に、テキスト・エリアはエレメントA(Element A)として識別され、プロンプト(prompt)はエレメントB(ElementB)として識別され、選択リストはエレメントC(Element C)として識別される。一旦それらのエレメントが識別されると、デフォルト設定プロセス114またはトランスコード・プロセス116が実行される。プロセス114および/または116は、先ず、各SUIエレメントに対する音声制御タイプを設定することが可能である。
音声制御タイプは、グリーティング、プロンプト、ステートメント、文法、コメント、確認事項等を含み得るが、それに限定されない。入力を要求する種々の音声制御タイプと種々の文法を関連付けることも可能である。例えば、エレメントAはユーザ口述を受け取るべき文脈自由の文法と関連付けられてもよいし、一方、エレメントCは、グラフィカル・リスト・ボックスに現われるワード/フレーズから成るワード/フレーズを有する文脈依存の文法と関連付けられてもよい。
デフォルト設定プロセス114が使用されるべきとき、デフォルト・エンジン120を使用することが可能である。デフォルト・エンジン120は、音声制御タイプを推定するためにいくつかの比較的簡単な代替方法を実行し得る。例えば、デフォルト・エンジン120は、タイトルとしてマークアップ・タグに現われるすべてのテキストをグリーティング制御タイプに変換し得る。同様に、ある文字長に基づいたテキスト・メッセージを有するマークアップ・ドキュメントの本体に現われるすべてのビジュアル・エレメントを、デフォルト・エンジン120はプロンプトと見なし得る。
システム100がトランスコード・プロセス116のために形成されるとき、トランスコード・エンジン122を使用することが可能である。トランスコード・エンジン122は、ビジュアル・プログラム命令を音声使用可能プログラム命令に自動的に変換する複雑なアルゴリズムおよび/または試行錯誤法を実行し得る。例えば、トランスコード・エンジン122はXMLまたはHTMLマークアップを VoiceXML マークアップに変換し得る。トランスコード・エンジン122は、多数の既存の技術およびツールを使用して、様々な方法のうちのいずれかとして具現化することが可能である。例えば、トランスコード・エンジン122はインターナショナル・ビジネス・マシーンズ(IBM)社の WEBSPHERE(商標) TRANSCODING PUBLISHER を含み得る。
デフォルト・エンジン120あるいはトランスコード・エンジン122のどちらが使用されるかに関係なく、ビジュアル・エレメント対音声エレメント・テーブル124を作成することが可能である。テーブル124では、各識別されたビジュアル・エレメントを、音声制御タイプを有する音声エレメントと関連付けることが可能である。例えば、ビジュアル・エレメントA(V_Element_A)、B(V_Element_B)、およびC(V_Element_C)を音声エレメントA(S_Element_A)、B(S_Element_B)、およびC(S_Element_C)と関連付けることが可能である。音声エレメントAは対応する音声制御タイプM(S_Type_M)を有し、音声エレメントBはタイプN(S_Type_N)に対応し、音声エレメントCはタイプO(S_Type_O)に対応し得る。1つの実施例では、各音声制御タイプは、WEBSPHERE VOICETOOLKIT によって得られるような再使用可能ダイアログ・コンポーネントに対応し得る。
インジケータ生成エンジン130は、設計者140に提示し得るGUI134を作成するためにテーブル124を利用し得る。GUI134は、設計者140によって使用されるソフトウェア設計ツール内に含まれてもよい。GUI134は、関連するビジュアル・エレメントの近くに位置したビジュアル・セレクタ135を含み得る。各ビジュアル・セレクタ135に対して選択ウィンドウ136を設けることも可能である。選択ウィンドウ136は、音声制御タイプのリスト138も含み得る。
1つの実施例では、プロンプト(Prompt)制御タイプのようなリスト138における1つのタイプがテーブル124に基づいて事前選択されてもよい。別の予測される実施例では、ビジュアル・セレクタが、先ず、デフォルト設定なしで提示される。そのような実施例では、デフォルト・エンジン120および/またはトランスコード・エンジン122は不必要であることがある。
設計者140はこれらの制御タイプを表示し、それを修正し得る。対応するビジュアル・エレメントに対して生成されるべき音声エレメントがないとき、設計者140はGUI134からビジュアル・セレクタ135を削除し得る。さらに、設計者140は、GUI134内に新しいビジュアル・セレクタを加えて、エレメント検知エンジン110によって検知されないビジュアル・エレメントとその新しいセレクタとを関連付け得る。1つの実施例では、設計者140がすべてのビジュアル・セレクタをビジュアル・エレメントと明示的に関連付け得るようにシステム100を構成することも可能である。その構成では、エレメント検知エンジン110は必要ない。
一旦設計者140がGUI134を操作してしまうと、ページ作成エンジン145はSUIページ150および/または多モード・ページ152を生成するために使用することが可能である。これらのページ150および/または152のいずれも、SUI開発ツール154が更に処理することも可能である。例えば、SUI開発ツール154は、コール・フロー・フィーチャがSUIページ150および/または多モード・ページ152にグラフィカルに加えられることを可能にする開発者インターフェースであってもよい。
同期エンジン160は、生成されたページ150または152のエレメントをGUIページ105と同期させるために利用することも可能である。すなわち、GUIページ105或いは関連の音声使用可能ページ150または152のいずれかに対して変更が行なわれるたびに、変更通知162を自動的に設計者140に送ることが可能である。1つの実施例では、通知162は、非変更バージョンでエレメントを自動的に更新する能力を含むことも可能である。
同期エンジン160およびシステム100の他の機能は多数の開発フレームワーク内に統合されてもよい。1つの実施例では、システム100の機能は STRUTS フレームワークを利用し得るし、そのフレームワークは、サーブレットおよびJAVA(登録商標)SERVER PAGES(JSP) ベースの技術に基づいてモデル・ビュー・コントローラ・アーキテクチャーを利用し得る。別の実施例では、システム100機能性はECLIPSEの統合開発環境の一部であってもよい。更に別の実施例では、システム100は、マルチデバイス・オーサリング・テクノロジ(Multi-Device Authoring Technology - MDAT)ベースの開発環境の一部であってもよい。
図1に示された種々のコンポーネントが例示のみを目的として示されたこと、および図示のコンポーネントの派生物を有する他の実施例が本明細書から予測されることは明らかである。例えば、1つの実施例では、エレメント検知エンジン110、トランスコード・エンジン122、およびインジケータ生成エンジン130が結合されて、合成コンポーネントに関して説明した機能を有する単一のコンポーネントになり得る。別の予測される装置では、SUI開発ツール154、GUI134、およびエンジン110、122、120、130、145、および/または、160が統合されて単一のソフトウェア開発パッケージになり得る。
システム100が完全な音声アプリケーション・ソリューションを自動的に形成するソリューションの一部となり得ることは留意すべきである。完全な音声アプリケーション・ソリューションは、DTMFへの潜在的なフォールバック、広範なヘルプ・メッセージ、およびグラフィカルな開発環境の内部からの自動音声コード生成のようなフィーチャを含み得る。
そのソリューションは、IBM社のCONVERSATION FLOW BUILDER(別名は、CALL FLOW BUILDER または CFB)、RATIONAL(商標)APPLICATIONS DEVELOPER(RAD)、JAVA(登録商標) SERVER FACES、TRANSCODING PUBLISHER 等が内蔵しているような多くの既存の技術を含み得る。
完全な音声ソリューションを作成するのに役立つ更なる技術が、米国特許出願2005/0234255(Method and System for Switching between Prototype andReal Code Production in a Graphical Call Flow Builder)、米国特許出願2005/0234725(Methodand System for Flexible Usage of a Graphical Call Flow Builder)、米国特許出願2005/0108015(Methodand System for Defining Standard Catch Styles for Speech Application CodeGeneration)および米国特許出願2005/0081152(Help Option Enhancement for Interactive VoiceResponse Systems)において詳述されている技術を含み得る。これらの米国特許出願で詳述された技術は、本発明に統合し得る技術の包括的なリストであることを意図するものではなく、むしろ、本発明が、完全な音声アプリケーション・ソリューションを生じるように当業者によって既存の技術との結合を実現するために参照されるべきものである。
図2は、本明細書において開示された本発明の配列の実施例に従ってGUIエレメントをSUIエレメントに変換するための部分的に自動化されたソフトウェア開発ツールのグラフィカル・ユーザ・インターフェース(GUI)210、230、および260を示す図である。GUI210、230、および260は、システム100のコンテキストにおいて、または、SUIエレメントが自動ソフトウェア開発ツールを使用してGUIエレメントから作成されるように手操作で音声制御タイプを指定するためのビジュアル・セレクタが設けられる他のシステムにおいて、具現化することが可能である。1つの実施例では、GUI210、230、および260は、FACES ツールを備えた RATIONAL JAVA(登録商標) SERVER のような開発者ツールに統合されたGUIであってもよい。本発明はこの点に関して制限されるべきではなく、GUI210、230、および260は、種々の他のソフトウェア開発ツールあるいはソフトウェア開発環境のいずれにも統合することが可能である。
GUI210はソフトウェア設計ツールの統合コンポーネントであってもよい。例えば、タブ221〜225は、ソフトウェア設計アプリケーションの他の部分を選択的に活性化することが可能である。タブ(Design)221はGUI設計インターフェースを表すことができる。タブ(Source)222はビジュアルGUIページにソース・コードを供給することができる。タブ(Preview)223は、GUIページのグラフィカル・プレビューを示すことができる。タブ(Voice)224は生成されたSUIコンポーネントを示すことができる。タブ(VoiceXML)225は、SUIエレメントおよび/またはGUIエレメントに対するソース・コードをVoiceXML のような音声使用可能マークアップ言語で供給することができる。
GUI210は、複数のビジュアル・エレメント211〜217を有するビジュアル・ページを示す。そのビジュアル・ページは、当初、それらのビジュアル・エレメントに関連した如何なる音声使用可能エレメントも持っていない。音声使用可能エレメントは、GUI230に示されるように、何らかの開発者援助によって自動的に生成することが可能である。GUI210において、エレメント211は「IntergalacticTravel Reservation System」というタイトルと関連付けられる。エレメント212はグラフィック・イメージと関連付けられる。エレメント213は、旅行で使う乗物を選択するためのプロンプト(Selectthe vehicle you would like to travel in)と関連付けられる。エレメント214は、旅行の乗物に関するユーザ入力を受け取ることができる。エレメント215は、目的地を選択するためのプロンプト(Selectyour destination)であってもよい。エレメント216は、目的地に関するユーザ入力を受け取ることができる。エレメント217はユーザ選択を設定することができる。
GUI230は、各々がグラフィカル・エレメント231〜236に関連付けられたビジュアル・セレクタ241〜246を含む1つのページに対するグラフィカル・セレクタ使用可能プレビューを示す。各ビジュアル・セレクタ241〜246は、セレクタ識別子または名前、およびデフォルトの音声制御タイプを持つことが可能である。設計者はビジュアル・セレクタ241〜246を選択し、制御選択ウィンドウ255内の音声制御タイプ256に対する現在値を見ることが可能である。制御選択エレメントは、グリーティング、プロンプト、ステートメント、文法、コメント、確認事項等を含み得るが、それに限定されない。
GUI230において、設計者は新しいビジュアル・セレクタを加えるか、あるいは希望しない自動的に生成されたビジュアル・セレクタを削除することが可能である。例えば、ビジュアル・セレクタ242がエレメント232に対して生成される場合、設計者は手操作でセレクタ242を削除することが可能である。同様に、タイトル(Intergalactic TravelReservation System)を含むエレメント231に対するセレクタ241が自動的に生成されない場合、設計者は手操作でセレクタ241をエレメント231と関連付けることができる。
一旦設計者がGUI230を編集してしまうと、設計者は、各ビジュアル・セレクタ241〜246に対するSUIエレメントを自動的に生成することを選ぶことが可能である。この生成は、トランスコード、再使用可能対話コンポーネントと関連した標準化コード等を含む種々の既知の自動コード化技術を使用することが可能である。
GUI260は、GUIエレメントから形成された自動的に生成されたSUIエレメントをさらに詳述するために利用することが可能なSUI開発ツールを示す。特に、GUI260はコール・フロー開発者インターフェースを表わすことが可能である。ツール268の選択は、コール・フローを定義するために、および/または、基本的なコードを修正するために使用すること可能である。ツール268は、例えば、それぞれがツール・パレットから選択可能である、開始(Start)、ステートメント(Statement)、プロンプト(Prompt)、コメント(Comment)、確認(Confirmation)、判断(Decision)、処理(Processing)、代理人へ転送(Transferto Agent)、終了(End)、ゴー・ツー(Go To)、およびグローバル・コマンド(Global Commands)を含み得る。
GUI260のコール・フローは、Intergalactic Travel Reservation System のためのタイトル(IntergalacticTravel…)262を含み得る。それは、シャトル(Shuttle)、ロケット(Rocket)、エンタープライズ(Enterprise)およびテレポーター(Teleporter)の基本選択子を有する乗物選択のためのプロンプト(Selectthe vehicle …)264も含み得る。この基本選択子は、GUIエレメント214における選択可能な選択子から自動的に生成することが可能である。GUI260は、GUIエレメント216から生成された月(Moon)、木星(Jupiter)、土星(Saturn)、および火星(Mars)の基本選択子を有する目的地のためのプロンプト(SelectYour Destination)266を含み得る。
GUI210、220、および260のための配列、レイアウト、および制御エレメントが単に例示を目的として示され、それの派生物および代替物が本発明の範囲内にあると見なされるべきものであることは明らかである。例えば、GUI230におけるボタンとして示され、選択可能なポップ・アップ・メニューと関連付けられたビジュアル・セレクタ241〜246は、ほぼ等価な結果を達成するために種々の態様で代替的に具現化することが可能である。
例えば、1つの予測される実施例(図示されてない)では、各ビジュアル・セレクタの名前が、音声制御を選択し得るプル・ダウン選択矢印をリスト・ボックスとして表すことも可能である。別の実施例(図示されてない)では、各ビジュアル・セレクタの名前が、ユーザ選択可能な音声制御タイプを含む吹出しポップアップ・ウィンドウと関連した強調テキストエレメントとして表すことも可能である。さらに別の実施例(図示されてない)では、音声制御および他のSUI設定を選定し得るウィンドウを呼び出すために選択することが可能な各ビジュアル・セレクタのためのアイコンが表示されることも可能である。
本発明は、ハードウェア、ソフトウェアあるいはハードウェアとソフトウェアの組合せで実現することも可能である。本発明は、1つのコンピュータ・システムにおける集中態様で、或いはいくつもの相互接続されたコンピュータ・システムに種々のエレメントが分布する分散態様で、実現することも可能である。本明細書において開示された方法を実行するように適応した任意の種類のコンピュータ・システムまたは他の装置が適している。ハードウェアとソフトウェアの組合せは、ロードおよび実行されるとき、開示された方法を実行するようにコンピュータ・システムを制御するコンピュータ・プログラムを備えた汎用コンピュータ・システムであってもよい。
本発明は、開示された方法の具現化を可能にする特徴をすべて含み、コンピュータ・システムにロードされるとき、これらの方法を実行することができる、コンピュータ・プログラムとして組み込むことも可能である。この場合のコンピュータ・プログラムは、特定の機能を直接に、または
(a)他の言語、コード、または表記法、および
(b)異なる物質的な形体での複製
の一方またはそれの両方をそれの後に、情報処理能力を有するシステムに実行させることを意図された命令セットに関する、任意の言語、コード、または表記法での任意の表現を意味する。
本発明は、それの主旨または本質的な属性から逸脱することなく、他の形式で具体化することも可能である。従って、発明の範囲を表すものとして、本明細書における記載よりも「特許請求の範囲」の記載が参照されるべきである。
開示された本発明の配列の実施例に従って、グラフィカル・ユーザ・インターフェース(GUI)エレメントから音声ユーザ・インターフェース(SUI)エレメントを生成するシステムの流れ図である。 開示された本発明の配列の実施例に従って、GUIエレメントをSUIエレメントに変換するための部分的に自動化されたソフトウェア開発ツールのGUIを示す概略図である。

Claims (5)

  1. インターフェース内で音声エレメントを作成する方法であって、
    複数のビジュアル・エレメントを有するビジュアル・インターフェースを識別するステップと、
    前記ビジュアル・エレメントの各々に近接してビジュアル・セレクタを表示するステップであって、当該ビジュアル・セレクタは、関連するビジュアル・エレメントのための音声制御タイプをユーザが入力することを可能にする、ステップと、
    表示された各ビジュアル・セレクタに対して、当該ビジュアル・セレクタにおいて指定された音声制御タイプを有する音声エレメントを自動的に生成するステップと、
    を含み、
    前記識別するステップ、前記表示するステップ、および前記生成するステップは、少なくとも1つのマシンにより実行し得る複数のコード・セクションを有する少なくとも1つのコンピュータ・プログラムに従って前記少なくとも1つのマシンにより遂行される、 方法。
  2. ビジュアル・インターフェースのビジュアル・エレメントを設計するための、かつ、設計されたビジュアル・エレメントに関連したプログラマム命令を自動的に生成するための、ビジュアル設計ウィンドウと、
    前記ビジュアル・エレメントをグラフィカルに表示するように構成されたセレクタ使用可能ウィンドウであって、前記表示されたビジュアル・エレメントの少なくとも一部分が、表示されたビジュアル・セレクタと関連付けられ、各ビジュアル・セレクタは、ユーザが音声制御タイプを入力することを可能にする、ウィンドウと、
    ビジュアル・セレクタと関連付けられた各GUIエレメントに対応するSUIエレメントを自動的に生成するためのSUIエレメント生成エンジンであって、各生成されたSUIエレメントが前記ビジュアル・セレクタによって指定された音声制御タイプを有する、SUIエレメント生成エンジンと、
    を含む、
    ソフトウェア開発システム。
  3. 前記自動的に生成されたSUIエレメントに対するコール・フローをグラフィカルに表示するように構成されたコール・フロー設計インターフェースを更に含む、請求項に記載のソフトウェア開発システム。
  4. 前記音声制御タイプの各々が再使用可能ダイアログ・コンポーネントに対応し、前記再使用可能ダイアログ・コンポーネントが、前記SUIエレメントの各々に対するプログラム命令を自動的に生成するために使用される、請求項に記載のソフトウェア開発システム。
  5. 前記プログラム命令が、ビジュアル・ブラウザによって表現し得るマークアップ言語で書かれ、前記SUIエレメントが、音声使用可能ブラウザによって表現し得る音声使用可能マークアップ言語で書かれたプログラム命令と関連付けられる、請求項に記載のソフトウェア開発システム。
JP2007079040A 2006-03-29 2007-03-26 グラフィカル・インターフェースを音声使用可能インターフェースに変換するための部分的に自動化された方法およびシステム Expired - Fee Related JP5089213B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/391,825 2006-03-29
US11/391,825 US20070233495A1 (en) 2006-03-29 2006-03-29 Partially automated technology for converting a graphical interface to a speech-enabled interface

Publications (2)

Publication Number Publication Date
JP2007265410A JP2007265410A (ja) 2007-10-11
JP5089213B2 true JP5089213B2 (ja) 2012-12-05

Family

ID=38560479

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007079040A Expired - Fee Related JP5089213B2 (ja) 2006-03-29 2007-03-26 グラフィカル・インターフェースを音声使用可能インターフェースに変換するための部分的に自動化された方法およびシステム

Country Status (3)

Country Link
US (1) US20070233495A1 (ja)
JP (1) JP5089213B2 (ja)
CN (1) CN100524213C (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8768711B2 (en) * 2004-06-17 2014-07-01 Nuance Communications, Inc. Method and apparatus for voice-enabling an application
US8019606B2 (en) * 2007-06-29 2011-09-13 Microsoft Corporation Identification and selection of a software application via speech
US7962344B2 (en) * 2007-06-29 2011-06-14 Microsoft Corporation Depicting a speech user interface via graphical elements
JP5363589B2 (ja) * 2008-12-19 2013-12-11 インターナショナル・ビジネス・マシーンズ・コーポレーション データ・メタモデルから音声ユーザ・インタフェース・コードを生成するための方法およびシステム
US8996384B2 (en) * 2009-10-30 2015-03-31 Vocollect, Inc. Transforming components of a web page to voice prompts
US9081550B2 (en) * 2011-02-18 2015-07-14 Nuance Communications, Inc. Adding speech capabilities to existing computer applications with complex graphical user interfaces
US9467563B1 (en) * 2015-04-10 2016-10-11 Angel.Com Incorporated Visual interactive voice response system
US10268458B1 (en) * 2017-10-23 2019-04-23 International Business Mahcines Corporation Prospective voice user interface modality identification
US10268457B1 (en) * 2017-10-23 2019-04-23 International Business Machines Corporation Prospective voice user interface modality identification
EP3564812B1 (en) * 2018-04-30 2022-10-26 Mphasis Limited Method and system for automated creation of graphical user interfaces
CN109086028A (zh) * 2018-07-27 2018-12-25 重庆柚瓣家科技有限公司 语音ui及其实现方法
CN112256263B (zh) * 2020-09-23 2024-02-06 杭州讯酷科技有限公司 一种基于自然语言的ui界面智能制作系统及方法
US11704484B2 (en) 2021-04-30 2023-07-18 Bank Of America Corporation Cross channel digital data parsing and generation system
CN117198291B (zh) * 2023-11-08 2024-01-23 四川蜀天信息技术有限公司 一种语音控制终端界面的方法、装置及系统

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5890123A (en) * 1995-06-05 1999-03-30 Lucent Technologies, Inc. System and method for voice controlled video screen display
US6289312B1 (en) * 1995-10-02 2001-09-11 Digital Equipment Corporation Speech interface for computer application programs
JP3187317B2 (ja) * 1996-02-22 2001-07-11 松下電器産業株式会社 対話処理プログラム生成装置
US5884262A (en) * 1996-03-28 1999-03-16 Bell Atlantic Network Services, Inc. Computer network audio access and conversion system
US5884266A (en) * 1997-04-02 1999-03-16 Motorola, Inc. Audio interface for document based information resource navigation and method therefor
US6085161A (en) * 1998-10-21 2000-07-04 Sonicon, Inc. System and method for auditorially representing pages of HTML data
JP4336808B2 (ja) * 2000-11-30 2009-09-30 富士通株式会社 音声対話プログラム生成システム及び記録媒体
US7028306B2 (en) * 2000-12-04 2006-04-11 International Business Machines Corporation Systems and methods for implementing modular DOM (Document Object Model)-based multi-modal browsers
US6658386B2 (en) * 2000-12-12 2003-12-02 International Business Machines Corporation Dynamically adjusting speech menu presentation style
CN1156751C (zh) * 2001-02-02 2004-07-07 国际商业机器公司 用于自动生成语音xml文件的方法和系统
JP2003150440A (ja) * 2001-11-13 2003-05-23 Matsushita Electric Ind Co Ltd 複数ユーザインタフェースの同期方法とそのシステム及びプログラム
JP3902959B2 (ja) * 2002-01-28 2007-04-11 キヤノン株式会社 情報処理装置及びその制御方法、プログラム
JP2004030395A (ja) * 2002-06-27 2004-01-29 Matsushita Electric Ind Co Ltd Htmlデータ利用情報端末およびプログラム
AU2002950336A0 (en) * 2002-07-24 2002-09-12 Telstra New Wave Pty Ltd System and process for developing a voice application
US7519534B2 (en) * 2002-10-31 2009-04-14 Agiletv Corporation Speech controlled access to content on a presentation medium
EP1611504B1 (en) * 2003-04-07 2009-01-14 Nokia Corporation Method and device for providing speech-enabled input in an electronic device having a user interface
US8826137B2 (en) * 2003-08-14 2014-09-02 Freedom Scientific, Inc. Screen reader having concurrent communication of non-textual information
US7389236B2 (en) * 2003-09-29 2008-06-17 Sap Aktiengesellschaft Navigation and data entry for open interaction elements
US7552055B2 (en) * 2004-01-10 2009-06-23 Microsoft Corporation Dialog component re-use in recognition systems
US7707501B2 (en) * 2005-08-10 2010-04-27 International Business Machines Corporation Visual marker for speech enabled links

Also Published As

Publication number Publication date
CN100524213C (zh) 2009-08-05
CN101055524A (zh) 2007-10-17
JP2007265410A (ja) 2007-10-11
US20070233495A1 (en) 2007-10-04

Similar Documents

Publication Publication Date Title
JP5089213B2 (ja) グラフィカル・インターフェースを音声使用可能インターフェースに変換するための部分的に自動化された方法およびシステム
US8024196B1 (en) Techniques for creating and translating voice applications
Klemmer et al. Suede: a wizard of oz prototyping tool for speech user interfaces
US7962344B2 (en) Depicting a speech user interface via graphical elements
US8315864B2 (en) Voiced programming system and method
US8244541B2 (en) Content creation system, content creation method, computer executable program for executing the same content creation method, computer readable storage medium having stored the same program, graphical user interface system and display control method
US20060111906A1 (en) Enabling voice click in a multimodal page
US20080134020A1 (en) Method and system for the generation of a voice extensible markup language application for a voice interface process
JP2007249200A (ja) ヘルプを音声使用可能アプリケーションに供給する方法及びシステム、並びに音声文法
JP2009059378A (ja) ダイアログを目的とするアプリケーション抽象化のための記録媒体及び方法
US20060247925A1 (en) Virtual push-to-talk
AU2003233573A1 (en) System and method for making user interface elements known to an application and user
RU2419843C2 (ru) Среда разработки для комбинирования управляемого семантикой и управляемого состоянием диалога
JP3609651B2 (ja) ディクテーション・マクロを作成する方法
JP2018032330A (ja) 情報処理システム、情報処理装置、サーバ、情報処理方法及びプログラム
US20040027379A1 (en) Integrated visual development system for creating computer-implemented dialog scripts
US8732661B2 (en) User experience customization framework
Berti et al. The TERESA XML language for the description of interactive systems at multiple abstraction levels
US20060136870A1 (en) Visual user interface for creating multimodal applications
KR102527107B1 (ko) 음성에 기반하여 기능을 실행하기 위한 방법 및 이를 지원하는 사용자 전자 장치
CN102246227A (zh) 用于从数据元模型生成有声用户接口编码的方法和系统
JP5366412B2 (ja) コールフロー作成システム、方法及びプログラム
CN110471659A (zh) 多语言实现方法和系统、人机界面组态软件端和设备端
US20110161927A1 (en) Generating voice extensible markup language (vxml) documents
US7519946B2 (en) Automatically adding code to voice enable a GUI component

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091225

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120131

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120413

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120821

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120911

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150921

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees