JP2004523039A - 音声xmlファイルを自動的に生成する方法およびシステム - Google Patents

音声xmlファイルを自動的に生成する方法およびシステム Download PDF

Info

Publication number
JP2004523039A
JP2004523039A JP2002563339A JP2002563339A JP2004523039A JP 2004523039 A JP2004523039 A JP 2004523039A JP 2002563339 A JP2002563339 A JP 2002563339A JP 2002563339 A JP2002563339 A JP 2002563339A JP 2004523039 A JP2004523039 A JP 2004523039A
Authority
JP
Japan
Prior art keywords
audio
hyperlink
xml
audio xml
user interface
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002563339A
Other languages
English (en)
Inventor
イェ・ジェームズ・チエン−チェン
ス・フイ
ワン・クイアン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2004523039A publication Critical patent/JP2004523039A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04817Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance using icons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4936Speech interaction details
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4938Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/42Graphical user interfaces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/35Aspects of automatic or semi-automatic exchanges related to information services provided via a voice call
    • H04M2203/355Interactive dialogue design tools, features or methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)
  • Digital Computer Display Output (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】音声XMLファイルを自動的に生成する方法およびシステムを提供すること。
【解決手段】本発明は、自動的に音声XMLファイルを生成するためのシステムを開示し、該システムは、音声XMLファイルを生成するために、各々が音声XMLの1つまたはそれ以上の属性に対応する複数のアイコンを定義するためのグラフィカル・ユーザ・インターフェースと、音声XMLタグのライブラリに基づきアクション・ストリームを解釈し、対応する音声XMLタグを生成するための音声XMLタグ・ジェネレータと、音声XML構文に従い、再生されるコンテンツと音声XMLタグ・ジェネレータによって生成されたタグを結合するための音声XMLファイル・ジェネレータとを含む。本システムは、TTS音声XMLファイルまたはリアルタイム記録オーディオ音声XMLファイル用の音声XMLファイルを生成することができる。
【選択図】図2

Description

【技術分野】
【0001】
本発明は、一般的には、ネットワーク・ユーザのために、WWW(World wide Web)上のブロードキャスト・メッセージに使用することができるHTML(Hypertext Markup Language)ファイルを自動的に生成する方法に関し、特に、ネットワーク・ユーザのために、WWW上のブロードキャスト音声メッセージに使用することができる音声XML(voice XML)ファイルを自動的に生成する方法に関する。
【背景技術】
【0002】
ネットスケープ・ナビゲータなどの一般に使用される種々のブラウザは、WWWをアクセスするネットワーク・ユーザにとって効率的な道具の1つになった。これらのブラウザは、WWWから情報を要求および表示することにおいて、ネットワーク・ユーザを助けるテキスト的かつグラフィックなユーザ・インターフェースである。テキストおよびグラフィックスのほかに、ブラウザによって表示される情報は音およびハイパーリンクなども含むことができ、従って、ブラウザによって表示されるファイルはしばしばハイパーテキストとして参照される。コンピュータ内のテキスト情報を伝えるときにハイパーテキストが使用されると、情報の線形構成が予約されるだけではなくリンク構成も加えられる。ハイパーテキストは、ユーザがテキスト情報を飛ばし読みすることを可能にし、それによりユーザが読むことを容易にする。
【0003】
PvC装置がよりいっそう人気が高まるという状態で、人々は読むという方法によってのみでネットワーク情報をブラウズすることでは満足できなくなり、そしてオーディオ・ブロードキャスティングがモバイル・ユーザにとってネットワーク情報をブラウズするための主要な方法の1つとなった。
【発明の開示】
【発明が解決しようとする課題】
【0004】
しかしながら、オーディオ・ファイルのブラウジングは、テキスト・ファイルのブラウジングに比べてそれほど容易ではない。対話方法の欠如が主な障害の1つである。そのような状態の下で、ユーザは受動的にブロードキャスト情報を聞くことだけはできる。ユーザがネットワーク上のHTMLファイルをブラウジングするときのように興味のあるトピックを聞くときに、ユーザが情報を選択したり更に詳しい情報を見つけるための方法はない。音声認識技術に基づいて、情報を選択したり、あるいは対話/会話に基づいて更に詳しい情報を見つけるための技術が開発されている。音声XMLがこの使用のために設計される。しかしながら、通常のネットワーク・ユーザにとって、音声XMLファイルを書くことは容易ではなく、ユーザは規則、構文、およびタグの定義についての非常に多くの的確なコマンドの知識を持つことを要求される。従って、本発明は音声XMLファイルを自動的に生成するための方法およびシステムを提供する。
【課題を解決するための手段】
【0005】
本発明の1つの局面に従う、音声XMLファイルを自動的に生成するための方法は、各々が音声XMLの1つまたはそれ以上の属性に対応する複数のアイコンを定義するためのグラフィック・ユーザ・インターフェースを提供するステップと、前記グラフィック・ユーザ・インターフェースにおいて前記アイコンを呼び出すユーザのアクション・ストリームを記録するステップと、音声XMLファイルを生成するために音声XMLタグのライブラリに基づいて前記アクション・ストリームを解釈するステップとを含む。
【0006】
本発明のもう1つの局面に従う、音声XMLファイルを自動的に生成するためのシステムは、各々が音声XMLの1つまたはそれ以上の属性に対応する複数のアイコンを定義するためのグラフィック・ユーザ・インターフェースと、音声XMLタグのライブラリに基づいてユーザのアクション・ストリームを解釈して、対応する音声XMLタグを生成するための音声XMLタグ・ジェネレータと、前記音声XMLファイルを生成するために音声XML構文に従い、再生されるコンテンツと前記音声XMLタグ・ジェネレータによって生成された前記タグを結合するための音声XMLファイル・ジェネレータ103とを含む。
【0007】
本発明のこれらおよび他の利点および特徴は、添付の図面に関連する説明から更に明確になるであろう。
【発明を実施するための最良の形態】
【0008】
図1は、1つのオーディオ情報へハイパーリンクを加える方法、およびユーザがハイパーリンクと対話する方法を説明する。図1に示すように、再生される”IBM is the biggest IT company in the world ”の文は、従来のTTS(text-to-speach)ストリームまたはリアルタイム記録オーディオ・ストリームとして形成することができる。ユーザがIBMについての関連する詳細な情報を得ることを容易にするために、音声レンダリング属性およびリンキング属性などのいくつかの属性を加えることができる。結果として、前述の文を再生するとき、ユーザの注意を引くためにオーディオ・ブラウザが異なるトーン(または、他の属性)でIBMを強調することができる。再生中に、ユーザがDTMFトーンまたは他の方法でIBMを選択すると、オーディオ・ブラウザはハイパーリンクと関連付けられたアドレスでそのファイルを検索して、ユーザに対してIBMについての更なる情報を再生する。このように、ユーザは受動的にブロードキャスト情報を聞くだけではない。ユーザが興味のあるトピックを聞くとき、ユーザはインターネット上のHTMLファイルをブラウジングするように、情報を選択して更に詳しい情報を得ることもできる。音声認識技術の発達に伴い、ユーザはDTMFトーンによってハイパーテキストを選択するだけではなく、バージイン音声認識エンジンを有するオーディオ・ブラウザを用いて、選択するハイパーリンクを発話することもできる。
【0009】
上述の音声XMLの利点にもかかわらず、通常のネットワーク・ユーザが音声XMLファイルを書くことは容易ではなく、ユーザは、規則、構文、およびタグの定義についての非常に多くの的確なコマンドの知識を持つことを要求される。従って、本発明は音声XMLファイルを自動的に生成するための方法およびシステムを提供する。
【0010】
図2は、本発明の1つの好ましい実施形態に従って、音声XMLファイルを自動的に生成するためのシステムのブロック図である。図2に示すように、該システムは、各々が音声XMLの1つまたはそれ以上の属性に対応する複数のアイコンを定義するためのグラフィック・ユーザ・インターフェース101と、音声XMLタグのライブラリに基づいてアクション・ストリームを解釈して、対応する音声XMLタグを生成するための音声XMLタグ・ジェネレータ102と、音声XMLファイルを生成するために音声XML構文に従い、再生されるコンテンツと音声XMLタグ・ジェネレータによって生成されたタグを結合するための音声XMLファイル・ジェネレータ103とを含む。本発明の1つの好ましい実施形態に従って、このシステムは、再生されたコンテンツを保管するためのメモリと、ユーザのアクション・ストリームを記録するためのレコーダ105と、音声認識装置106と、音声XMLタグ・ライブラリ107と、音声XML構文ライブラリ108とをさらに含む。TTSストリームのブロックに対して、音声XMLファイルを生成するためにシステムを使用する場合、ユーザは、はじめにシステムのグラフィック・ユーザ・インターフェースと対話する。TTS音声XMLプロンプトのブロックでは、ユーザはグラフィック・ユーザ・インターフェースの編集エリアにおいて、ハイパーリンクで加えることが必要とされる部分をマーキングあるいは入力して、対応するアイコンを呼び出して、TTSストリームを編集することができる。図3は、本発明の1つの好ましい実施形態に従うグラフィック・ユーザ・インターフェースを示す。アイコンは、次のような音声XMLの1つまたはそれ以上の属性に対応させることができる。
ブロードキャスタの性別、トーン、および速度などを含む音声レンダリング属性、
バージイン機能によって実現されるポインティング機能、
ハイパーリンクなど。
【0011】
システムのアクション・ストリーム・レコーダ105は、ユーザ・アクション・ストリーム、すなわち、グラフィカル・ユーザ・インターフェースにおいてアイコンを呼び出すためのユーザの手順を記録する。次に、音声XMLタグ・ジェネレータ102が、音声XMLタグ・ライブラリ107に基づいて、ユーザのアクション・ストリームを解釈し、対応する音声XMLタグを生成する。音声XMLファイル・ジェネレータは、音声XMLファイルを生成するために音声XML構文に従って、再生されるコンテンツと生成された音声XMLタグを結合する。
【0012】
リアルタイム記録オーディオ・ストリームのブロックに対して音声XMLを生成するためにシステムを使用する場合、ユーザは、また、はじめに該システムのグラフィック・ユーザ・インターフェースと対話する。グラフィック・ユーザ・インターフェースの編集エリアでは、リアルタイム記録オーディオ・ストリームが編集され、音声XML属性を加えられる部分がマークおよび入力され、対応するアイコンが呼び出される。リアルタイム記録オーディオ・ストリームでは、ユーザが編集エリアにおいてハイパーリンクで加える必要がある部分を入力する場合、システムの音声XMLタグ・ジェネレータ102は音声認識装置106を活動化し、リアルタイム記録オーディオ・ストリームにおいてユーザによって入力された部分と一致する部分を見つけるのためにユーザ・アクション・ストリームを解釈して、リアルタイム記録オーディオ・ストリームの対応する部分に音声XML属性を加える。システムがTTSストリームおよびリアルタイム記録オーディオ・ストリームのための音声XMLファイルを自動的に生成する例を示す。
例1:
Figure 2004523039
例2:
Figure 2004523039
【0013】
さらに、ユーザが、グラフィック・ユーザ・インターフェースの編集エリアにおいて何回も音声XMLの属性を加える必要がある同じ部分をマークあるいは入力し、かつ指定された音声XML属性が同一であるとき、またはグラフィック・ユーザ・インターフェースの編集エリアにおいて音声XML属性を加える必要がある部分をマークあるいは入力し、かつ音声XMLの属性を指定したとき、バッチ・モードが選択された後、システムの音声XMLファイル・ジェネレータは、音声XMLの属性を加える必要があるマークあるいは入力された部分にそれぞれ一致する部分に、ユーザのアイコン呼び出しに応じてタグ・ジェネレータで指定された音声XMLの属性を加えて、保管されたTTSストリームの全てまたはリアルタイム記録オーディオ・ストリームの全てを処理する。これにより、音声XMLファイルをシステムで自動的に生成することの効率が著しく改善される。
【0014】
上記は、図2で示したシステムを使用して、音声XMLファイルを生成する方法を説明したものであり、簡単に言うと、すなわち、TTSストリームおよびリアルタイム記録オーディオ・ストリームに音声XMLの様々な属性を加える方法である。音声XMLの様々な属性のうち、非常に重要な、1つの属性がハイパーリンクである。上述のように、コンピュータ内のテキスト情報を伝える場合にハイパーテキスト(ハイパーリンク)が使用されると、情報の線形構成が予約されるだけではなくリンキング構成も加えられ、読者がテキスト情報を飛ばし読みすることを可能にし、従ってユーザが読むことを容易にする。同様に、ハイパーリンクがTTSストリーム、またはリアルタイム記録オーディオ・ストリームに加えられた後、ネットワーク・ユーザは、HTMLファイルをブラウジングするように音声XMLファイルを聞くときに、情報を選択するかまたは更に詳しい情報を見つけることができる。そのため、本発明の1つの好ましい実施形態に従い、音声XMLファイルを自動的に生成するためのシステムに基づいて、図4に示すように、音声XMLファイルにハイパーリンクを加えるためのグラフィック・ユーザ・インターフェースが提供される。このグラフィック・ユーザ・インターフェースにおいて、システムは、ユーザがハイパーリンクを加えることが必要である対応する部分をマークまたは入力し、かつ対応するハイパーリンク・アドレスを入力すると、TTSストリームまたはリアルタイム記録オーディオ・ストリームにハイパーリンクを自動的に加える。
【0015】
図5および図6は、本発明の1つの好ましい実施形態に従う図2に示したようなシステムを使用して、音声XMLファイルを自動的に生成するアクション・ストリームを示す。図5に示すように、音声XMLヘッダが最初に生成されなければならないので、ユーザはグラフィック・ユーザ・インターフェースにおいてヘッダの属性に一致する、(図3の左の1番目のアイコンのような)対応するアイコンを呼び出す。ユーザはアイコン302を呼び出し、システムはメモリ104に保管されたコンテンツ、例えば、0:天気、1:株、2:切符、3:その他のようなメイン・メニューをブロードキャストする。ユーザは、図4に示したグラフィック・ユーザ・インターフェ−スを入力し、0:天気を入力またはマークしてリンキング・アドレスを入力する。その後、図6に示されるように、次のことが行われる。まず第一に、同様に、ユーザは、グラフィック・ユーザ・インターフェースでヘッダの属性に一致する、対応するアイコンを呼び出し、次にTTSストリームまたはリアルタイム記録オーディオ・ストリームがブロードキャストされる。州あるいは市の場合、対応するアイコンが音声XML属性(あるいは、音声XMLハイパーリンク)をそれらに加えるために呼び出される。ユーザが上記の方法でユーザ・インターフェースを介してシステムと対話した後、ユーザ・アクション・レコーダはユーザの操作手順全体、より詳細には、ユーザがグラフィック・ユーザ・インターフェースでアイコンを呼び出した手順を記録する。音声XMLタグ・ジェネレータ102はこのアクション・ストリームを解釈し、音声XMLの対応する属性を生成し、そして音声XMLファイル・ジェネレータ103は音声XMLファイルを生成するために、対応する音声XML属性をTTSストリームまたはリアルタイム記録オーディオ・ストリームに加える。
【0016】
図7は、本発明の1つの好ましい実施形態に従う、TTS音声XMLストリームにハイパーリンクを加える手順を示すフローチャートである。図7に示すように、最初に、ユーザは、通常のHTMLファイルを編集するように、グラフィック・ユーザ・インターフェースの編集エリアにおいてTTSファイルを編集する。次に、ユーザは、音声XMLハイパーリンクを加える必要がある部分を入力またはマークして、対応するアイコンを呼び出し、そして対応するハイパーリンク・アドレスを入力する。
【0017】
図8は、本発明の1つの好ましい実施形態に従い、リアルタイム記録オーディオ音声XMLプロンプトにハイパーリンクを加える手順を示すフローチャートであり、ユーザがグラフィック・ユーザ・インターフェースの編集エリアにおいて音声XMLハイパーリンクを加える必要がある部分を入力するとき、音声認識技術が、この部分に一致する部分をリアルタイム記録オーディオ・ストリーム内で見つけるために使用されなければならない。
【0018】
添付の図面とともに、好ましい実施形態を説明してきた。当業者には、種々の変更および修正が発明の精神および範囲から外れることなく行うことができることは理解されよう。本発明はすべての変更および修正を含み、そして発明の範囲は請求項によって定義されるのみである。
【図面の簡単な説明】
【0019】
【図1】1つのオーディオ情報にハイパーリンクを加える方法およびユーザがハイパーリンクと対話する方法を示す。
【図2】本発明の1つの好ましい実施形態に従って、音声XMLファイルを自動的に生成するためのシステムのブロック図である。
【図3】本発明の1つの好ましい実施形態に従うグラフィック・ユーザ・インターフェースを示す。
【図4】本発明の別の好ましい実施形態に従うグラフィック・ユーザ・インターフェースを示す。
【図5】本発明の1つの好ましい実施形態に従い、図2に示したシステムを用いて音声XMLファイルを自動的に生成するためのアクション・ストリームを示す。
【図6】本発明の1つの好ましい実施形態に従い、図2に示したシステムを用いて音声XMLファイルを自動的に生成するためのアクション・ストリームを示す。
【図7】本発明の1つの好ましい実施形態に従い、TTS音声XMLストリームへハイパーリンクを加えるための手順を示すフローチャートである。
【図8】本発明の1つの好ましい実施形態に従い、リアルタイム記録オーディオ音声XMLストリームへハイパーリンクを加えるための手順を示すフローチャートである。
【符号の説明】
【0020】
101 グラフィック・ユーザ・インターフェース
102 音声XMLタグ・ジェネレータ
103 音声XMLファイル・ジェネレータ
104 ブロードキャスティング・コンテンツ・メモリ
105 ユーザ・アクション・ストリーム・レコーダ
106 音声認識装置
107 音声XMLタグ・ライブラリ
108 音声XML構文ライブラリ

Claims (10)

  1. 自動的に音声XMLファイルを生成するための方法であって、
    各々が音声XMLの1つまたはそれ以上の属性に対応する複数のアイコンを定義するためのグラフィック・ユーザ・インターフェースを提供するステップと、
    前記グラフィック・ユーザ・インターフェースにおいて前記アイコンを呼び出すユーザのアクション・ストリームを記録するステップと、
    前記音声XMLファイルを生成するために音声XMLタグのライブラリに基づいて前記アクション・ストリームを解釈するステップと
    を含む、方法。
  2. 前記グラフィック・ユーザ・インターフェースは、自動的に音声XMLファイルのための1つまたはそれ以上のオーディオ・ハイパーリンクを加えるためのグラフィック・ユーザ・インターフェースを含み、
    前記グラフィック・ユーザ・インターフェースにおいて定義された各々のアイコンは、ハイパーリンクの種類に対応する、
    請求項1に記載の方法。
  3. TTS音声XMLファイルのために前記ハイパーリンクを加えるとき、前記ユーザが前記グラフィック・ユーザ・インターフェースの編集エリアにおいて前記TTS音声XMLファイルを編集し、前記ハイパーリンクを加える部分をマークまたは入力し、対応するアイコンを呼び出し、対応するハイパーリンク・アドレスを入力する、
    請求項2に記載の方法。
  4. 前記ハイパーリンクが加えられる必要がある前記音声XMLファイルがリアルタイム記録オーディオ音声XMLストリームであるとき、前記ユーザは前記グラフィック・ユーザ・インターフェースの前記編集エリアにおいて前記TTS音声XMLファイルを編集し、前記ハイパーリンクを加える前記部分をマークまたは入力し、対応する前記アイコンを呼び出し、対応する前記ハイパーリンク・アドレスを入力し、
    音声XMLタグのライブラリに基づいて前記アクション・ストリームを解釈するとき、音声認識技術が前記ユーザによって入力された前記部分に一致する部分を前記リアルタイム記録オーディオ音声XMLストリーム内で見つけるために適用される、
    請求項2に記載の方法。
  5. ユーザが前記グラフィック・ユーザ・インターフェースの前記編集エリアにおいて何回も前記ハイパーリンクを加える同じ部分をマークまたは入力し、同じハイパーリンク属性を呼び出すとき、TTS音声XMLストリーム全体または前記リアルタイム記録オーディオ音声XMLストリーム全体用のハイパーリンクが一括して加えられる、
    請求項3または4に記載の方法。
  6. 自動的に音声XMLファイルを生成するためのシステムであって、
    各々が音声XMLの1つまたはそれ以上の属性に対応する複数のアイコンを定義するためのグラフィック・ユーザ・インターフェースと、
    音声XMLタグのライブラリに基づいてアクション・ストリームを解釈し、対応する前記音声XMLタグを生成するための音声XMLタグ・ジェネレータと、
    音声XML構文に従い、再生されるコンテンツと前記音声XMLタグ・ジェネレータによって生成された前記タグを結合することによって、前記音声XMLファイルを生成するための音声XMLファイル・ジェネレータと
    を含む、システム。
  7. 前記グラフィック・ユーザ・インターフェースは、自動的に音声XMLファイルのためのオーディオ・ハイパーリンクを加えるためのグラフィック・ユーザ・インターフェースを含み、
    前記グラフィック・ユーザ・インターフェースにおいて定義された各々のアイコンは、ハイパーリンクの種類に対応する、
    請求項6に記載のシステム。
  8. TTS音声XMLストリームのために前記ハイパーリンクを加えるとき、ユーザが前記グラフィック・ユーザ・インターフェースの編集エリアにおいて前記TTS音声XMLファイルを編集し、前記ハイパーリンクを加える部分をマーキングまたはタイピングし、対応する前記アイコンを呼び出し、対応するハイパーリンク・アドレスをタイピングする、
    請求項7に記載のシステム。
  9. リアルタイム記録オーディオ音声XMLストリームのために前記ハイパーリンクを加えるとき、ユーザは前記グラフィック・ユーザ・インターフェースの前記編集エリアにおいて前記TTS音声XMLファイルを編集し、前記ハイパーリンクを加える前記部分をマーキングまたはタイピングし、対応する前記アイコンを呼び出し、対応する前記ハイパーリンク・アドレスをタイピングし、
    音声XMLタグのライブラリに基づいて前記アクション・ストリームを解釈するとき、前記ユーザによって入力された前記部分に一致する部分を前記リアルタイム記録オーディオ音声XMLストリーム内で見つけるために音声認識技術を適用する、
    請求項7に記載のシステム。
  10. ユーザが前記グラフィック・ユーザ・インターフェースの前記編集エリアにおいて何回も前記ハイパーリンクを加える同じ部分をマークまたは入力し、同じハイパーリンク属性を呼び出すとき、前記TTS音声XMLストリーム全体または前記リアルタイム記録オーディオ音声XMLストリーム全体用のハイパーリンクを一括して加える、
    請求項8または9に記載のシステム。
JP2002563339A 2001-02-02 2002-01-25 音声xmlファイルを自動的に生成する方法およびシステム Pending JP2004523039A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CNB011033681A CN1156751C (zh) 2001-02-02 2001-02-02 用于自动生成语音xml文件的方法和系统
PCT/GB2002/000341 WO2002063460A2 (en) 2001-02-02 2002-01-25 Method and system for automatically creating voice xml file

Publications (1)

Publication Number Publication Date
JP2004523039A true JP2004523039A (ja) 2004-07-29

Family

ID=4653228

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002563339A Pending JP2004523039A (ja) 2001-02-02 2002-01-25 音声xmlファイルを自動的に生成する方法およびシステム

Country Status (6)

Country Link
US (1) US7478048B2 (ja)
JP (1) JP2004523039A (ja)
KR (1) KR100567126B1 (ja)
CN (1) CN1156751C (ja)
AU (1) AU2002225226A1 (ja)
WO (1) WO2002063460A2 (ja)

Families Citing this family (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7653545B1 (en) 1999-06-11 2010-01-26 Telstra Corporation Limited Method of developing an interactive system
JP3744859B2 (ja) 2002-02-01 2006-02-15 三洋電機株式会社 成形体及びその製造方法
AU2002950336A0 (en) * 2002-07-24 2002-09-12 Telstra New Wave Pty Ltd System and process for developing a voice application
AU2002951244A0 (en) 2002-09-06 2002-09-19 Telstra New Wave Pty Ltd A development system for a dialog system
US7287248B1 (en) * 2002-10-31 2007-10-23 Tellme Networks, Inc. Method and system for the generation of a voice extensible markup language application for a voice interface process
CN100346625C (zh) * 2002-12-27 2007-10-31 联想(北京)有限公司 一种电话语音交互系统及其实现方法
AU2003900584A0 (en) 2003-02-11 2003-02-27 Telstra New Wave Pty Ltd System for predicting speech recognition accuracy and development for a dialog system
EP1450512A1 (en) * 2003-02-21 2004-08-25 Alcatel Method and apparatus for generating a web-based graphical user interface without additional development
JP2004310691A (ja) * 2003-04-10 2004-11-04 Mitsubishi Electric Corp 文章情報処理装置
AU2003902020A0 (en) 2003-04-29 2003-05-15 Telstra New Wave Pty Ltd A process for grammatical inference
US7369649B2 (en) * 2003-08-15 2008-05-06 Avaya Technology Corp. System and method for caller initiated voicemail annotation and its transmission over IP/SIP for flexible and efficient voice mail retrieval
EP1524832A1 (en) 2003-10-17 2005-04-20 Hewlett-Packard Development Company, L.P. Voice mark-up language having an application transfer tag and interpreter therefore
US7424293B2 (en) 2003-12-02 2008-09-09 Telecommunication Systems, Inc. User plane location based service using message tunneling to support roaming
KR100989500B1 (ko) * 2004-01-28 2010-10-22 주식회사 케이티 음성인식 파라미터 공유 방법
US8768711B2 (en) * 2004-06-17 2014-07-01 Nuance Communications, Inc. Method and apparatus for voice-enabling an application
EP1766498A4 (en) * 2004-07-08 2010-06-02 Microsoft Corp AUTOMATIC TEXT GENERATION
DE102004035244A1 (de) * 2004-07-21 2006-02-16 Givemepower Gmbh Verfahren zum abrufbaren Speichern von Audiodaten in einer Computervorrichtung
US8140469B2 (en) 2004-12-16 2012-03-20 International Business Machines Corporation Journaling to capture workflow and convert to workflow markup language
US7519946B2 (en) * 2004-12-20 2009-04-14 International Business Machines Corporation Automatically adding code to voice enable a GUI component
WO2006110620A2 (en) * 2005-04-12 2006-10-19 Telecommunication Systems, Inc. Temporary enum gateway
US20060271560A1 (en) * 2005-05-25 2006-11-30 Don Mitchell Location based provision of on-demand content
JP4667138B2 (ja) * 2005-06-30 2011-04-06 キヤノン株式会社 音声認識方法及び音声認識装置
WO2007011861A2 (en) 2005-07-18 2007-01-25 Telecommunication Systems, Inc. Integrated services user part (isup)/session initiation protocol (sip) gateway for unlicensed mobile access (uma) emergency services call flow
US8977636B2 (en) 2005-08-19 2015-03-10 International Business Machines Corporation Synthesizing aggregate data of disparate data types into data of a uniform data type
US7958131B2 (en) 2005-08-19 2011-06-07 International Business Machines Corporation Method for data management and data rendering for disparate data types
US7933385B2 (en) 2005-08-26 2011-04-26 Telecommunication Systems, Inc. Emergency alert for voice over internet protocol (VoIP)
US8266220B2 (en) 2005-09-14 2012-09-11 International Business Machines Corporation Email management and rendering
US8694319B2 (en) 2005-11-03 2014-04-08 International Business Machines Corporation Dynamic prosody adjustment for voice-rendering synthesized data
KR100768731B1 (ko) * 2005-12-05 2007-10-19 한국전자통신연구원 대화흐름 제어를 위한 화행기반 VoiceXML 대화장치및 방법
US8185567B2 (en) * 2006-01-02 2012-05-22 Telecommunication Systems, Inc. Location aware content using presence information data formation with location object (PIDF-LO)
US7805483B2 (en) 2006-01-09 2010-09-28 Telecommunications Systems, Inc. Apparatus and method for associating a geospacial location to content on a network
US8271107B2 (en) 2006-01-13 2012-09-18 International Business Machines Corporation Controlling audio operation for data management and data rendering
GB2434664A (en) * 2006-01-25 2007-08-01 Voxsurf Ltd Configuration and analysis of an interactive voice system
US9135339B2 (en) 2006-02-13 2015-09-15 International Business Machines Corporation Invoking an audio hyperlink
US20070203874A1 (en) * 2006-02-24 2007-08-30 Intervoice Limited Partnership System and method for managing files on a file server using embedded metadata and a search engine
CN101046956A (zh) * 2006-03-28 2007-10-03 国际商业机器公司 交互式音效产生方法及系统
US20070233495A1 (en) * 2006-03-29 2007-10-04 International Business Machines Corporation Partially automated technology for converting a graphical interface to a speech-enabled interface
US8208461B2 (en) 2006-04-04 2012-06-26 Telecommunication Systems, Inc. SS7 MAP/Lg+ to SIP based call signaling conversion gateway for wireless VoIP E911
US8155109B2 (en) 2006-04-04 2012-04-10 Telecommunication Systems, Inc. SS7 ISUP to SIP based call signaling conversion gateway for wireless VoIP E911
US8228897B2 (en) 2006-04-04 2012-07-24 Telecommunication Systems, Inc. SS7 ANSI-41 to SIP based call signaling conversion gateway for wireless VoIP E911
US20070300237A1 (en) * 2006-06-22 2007-12-27 Tim Neil Facilitating access to application data at an application server by a wireless communication device
EP1873656B1 (en) * 2006-06-22 2012-06-20 Research In Motion Limited Facilitating access to application data at an application server by a wireless communication device
US9196241B2 (en) 2006-09-29 2015-11-24 International Business Machines Corporation Asynchronous communications using messages recorded on handheld devices
WO2008057477A2 (en) 2006-11-03 2008-05-15 Telecommunication Systems, Inc. Roaming gateway enabling location based services (lbs) roaming for user plane in cdma networks without requiring use of a mobile positioning center (mpc)
US9318100B2 (en) 2007-01-03 2016-04-19 International Business Machines Corporation Supplementing audio recorded in a media file
CN101022476B (zh) * 2007-03-13 2010-06-16 中兴通讯股份有限公司 故障详细告警系统、方法及相关的服务器
US20090004997A1 (en) * 2007-06-27 2009-01-01 Allen Danny A Portable emergency call center
WO2009038726A1 (en) 2007-09-17 2009-03-26 Telecommunication Systems, Inc. Emergency 911 data messaging
US8176499B2 (en) * 2008-05-30 2012-05-08 Microsoft Corporation Defining, distributing and presenting device experiences
CN101527755B (zh) * 2009-03-30 2011-07-13 中兴通讯股份有限公司 基于VoiceXML移动终端语音交互方法及移动终端
WO2013078354A1 (en) 2011-11-23 2013-05-30 Telecommunication Systems, Inc. Mobile user information selection and delivery event based upon credentials and variables
WO2013085948A1 (en) 2011-12-05 2013-06-13 Telecommunication Systems, Inc. Automated proximate location association mechanism for wireless emergency services
CN102645899B (zh) * 2012-03-15 2016-03-09 南宁珞德信息技术有限公司 视窗式光机电一体化设备动作流编辑系统
CN103399865B (zh) * 2013-07-05 2018-04-10 华为技术有限公司 一种生成多媒体文件的方法和装置
US9537903B2 (en) 2013-10-29 2017-01-03 At&T Mobility Ii Llc Method and apparatus for communicating between communication devices
JP6415929B2 (ja) * 2014-10-30 2018-10-31 株式会社東芝 音声合成装置、音声合成方法およびプログラム

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06110675A (ja) * 1992-09-28 1994-04-22 Nec Software Ltd ハイパーテキストリンク処理方式
JPH0876786A (ja) * 1994-09-06 1996-03-22 Hitachi Ltd 情報処理装置
JPH08160989A (ja) * 1994-12-09 1996-06-21 Hitachi Ltd サウンドデータリンク編集方法
JPH10133848A (ja) * 1996-10-28 1998-05-22 Toshiba Corp パーソナルコンピュータおよびコマンド制御方法
JPH11161465A (ja) * 1997-11-27 1999-06-18 Sony Corp 情報処理装置、情報処理システムおよびその方法、ならびに情報媒体
JP2001255881A (ja) * 2000-03-13 2001-09-21 Matsushita Electric Ind Co Ltd 自動音声認識/合成ブラウザシステム
JP2001282503A (ja) * 2000-03-31 2001-10-12 Canon Inc データ処理装置及び方法、ブラウザシステム、ブラウザ装置、記録媒体
JP2001296991A (ja) * 2000-04-13 2001-10-26 Canon Inc データ処理装置、データ処理方法、記録媒体
JP2001331745A (ja) * 2000-05-19 2001-11-30 Nec Yonezawa Ltd データサービス方法、データ処理システム、上位処理装置、情報記憶媒体

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7143042B1 (en) * 1999-10-04 2006-11-28 Nuance Communications Tool for graphically defining dialog flows and for establishing operational links between speech applications and hypermedia content in an interactive voice response environment
US7210098B2 (en) * 2002-02-18 2007-04-24 Kirusa, Inc. Technique for synchronizing visual and voice browsers to enable multi-modal browsing

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06110675A (ja) * 1992-09-28 1994-04-22 Nec Software Ltd ハイパーテキストリンク処理方式
JPH0876786A (ja) * 1994-09-06 1996-03-22 Hitachi Ltd 情報処理装置
JPH08160989A (ja) * 1994-12-09 1996-06-21 Hitachi Ltd サウンドデータリンク編集方法
JPH10133848A (ja) * 1996-10-28 1998-05-22 Toshiba Corp パーソナルコンピュータおよびコマンド制御方法
JPH11161465A (ja) * 1997-11-27 1999-06-18 Sony Corp 情報処理装置、情報処理システムおよびその方法、ならびに情報媒体
JP2001255881A (ja) * 2000-03-13 2001-09-21 Matsushita Electric Ind Co Ltd 自動音声認識/合成ブラウザシステム
JP2001282503A (ja) * 2000-03-31 2001-10-12 Canon Inc データ処理装置及び方法、ブラウザシステム、ブラウザ装置、記録媒体
JP2001296991A (ja) * 2000-04-13 2001-10-26 Canon Inc データ処理装置、データ処理方法、記録媒体
JP2001331745A (ja) * 2000-05-19 2001-11-30 Nec Yonezawa Ltd データサービス方法、データ処理システム、上位処理装置、情報記憶媒体

Also Published As

Publication number Publication date
US7478048B2 (en) 2009-01-13
CN1368719A (zh) 2002-09-11
US20040093217A1 (en) 2004-05-13
AU2002225226A1 (en) 2002-08-19
KR100567126B1 (ko) 2006-03-31
WO2002063460A3 (en) 2003-10-16
KR20030072392A (ko) 2003-09-13
CN1156751C (zh) 2004-07-07
WO2002063460A2 (en) 2002-08-15

Similar Documents

Publication Publication Date Title
JP2004523039A (ja) 音声xmlファイルを自動的に生成する方法およびシステム
US6018710A (en) Web-based interactive radio environment: WIRE
US7092496B1 (en) Method and apparatus for processing information signals based on content
CA2372544C (en) Information access method, information access system and program therefor
US6885736B2 (en) System and method for providing and using universally accessible voice and speech data files
US7366979B2 (en) Method and apparatus for annotating a document
KR100661687B1 (ko) 대화형 음성 응답 애플리케이션 구현 장치 및 방법, 머신 판독가능 매체 및 대화형 음성 응답 시스템
US7593854B2 (en) Method and system for collecting user-interest information regarding a picture
US20030112267A1 (en) Multi-modal picture
US8503665B1 (en) System and method of writing and using scripts in automated, speech-based caller interactions
MXPA04006532A (es) Uso combinado de un lenguaje de marca por pasos y una herramienta de desarrollo orientada por objetos.
US6307641B1 (en) Image information retrieving device, image database device, image information storing device and recording medium on which a program performed by the image information retrieving device is recorded
JP2001075989A (ja) 情報提示装置および方法、ならびに情報提示プログラムを記録したコンピュータで読取可能な記録媒体
JPH10322478A (ja) 音声によるハイパーテキストアクセス装置
JP2004334369A (ja) 音声対話シナリオ変換方法、音声対話シナリオ変換装置、音声対話シナリオ変換プログラム
JP2005038014A (ja) 情報提示装置及び情報提示方法
JPH1152973A (ja) 文書読み上げ方式
KR20080066896A (ko) 맞춤형 학습 시스템, 맞춤형 학습 방법, 및 학습기
KR20000000048A (ko) 동시 음성 앵커를 이용하는 오디오 웹 브라우저 시스템 및 오디오 웹 브라우저 구현방법
KR100585711B1 (ko) 오디오 및 음성 합성 방법
KR20010017323A (ko) 어학 학습 기능을 갖는 웹 브라이징 장치 및 방법
JPH09190409A (ja) 情報演出装置
JP2007172597A (ja) 音声処理装置及び音声処理方法
KR100738695B1 (ko) 학습컨텐츠 편집시스템 및 방법
JP2007087267A (ja) 音声ファイル生成装置、音声ファイル生成方法およびプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051110

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060207

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20060420

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20060427

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060710

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070206

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071120

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080319

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20080326

A912 Removal of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20080718

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20090930

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100615

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100618