JP2004523039A - 音声xmlファイルを自動的に生成する方法およびシステム - Google Patents
音声xmlファイルを自動的に生成する方法およびシステム Download PDFInfo
- Publication number
- JP2004523039A JP2004523039A JP2002563339A JP2002563339A JP2004523039A JP 2004523039 A JP2004523039 A JP 2004523039A JP 2002563339 A JP2002563339 A JP 2002563339A JP 2002563339 A JP2002563339 A JP 2002563339A JP 2004523039 A JP2004523039 A JP 2004523039A
- Authority
- JP
- Japan
- Prior art keywords
- audio
- hyperlink
- xml
- audio xml
- user interface
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 230000009471 action Effects 0.000 claims abstract description 21
- 230000008901 benefit Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 1
- 238000011017 operating method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/986—Document structures and storage, e.g. HTML extensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
- G06F3/04817—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance using icons
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4936—Speech interaction details
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4938—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/42—Graphical user interfaces
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2203/00—Aspects of automatic or semi-automatic exchanges
- H04M2203/35—Aspects of automatic or semi-automatic exchanges related to information services provided via a voice call
- H04M2203/355—Interactive dialogue design tools, features or methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
- Digital Computer Display Output (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
- Document Processing Apparatus (AREA)
Abstract
【解決手段】本発明は、自動的に音声XMLファイルを生成するためのシステムを開示し、該システムは、音声XMLファイルを生成するために、各々が音声XMLの1つまたはそれ以上の属性に対応する複数のアイコンを定義するためのグラフィカル・ユーザ・インターフェースと、音声XMLタグのライブラリに基づきアクション・ストリームを解釈し、対応する音声XMLタグを生成するための音声XMLタグ・ジェネレータと、音声XML構文に従い、再生されるコンテンツと音声XMLタグ・ジェネレータによって生成されたタグを結合するための音声XMLファイル・ジェネレータとを含む。本システムは、TTS音声XMLファイルまたはリアルタイム記録オーディオ音声XMLファイル用の音声XMLファイルを生成することができる。
【選択図】図2
Description
【0001】
本発明は、一般的には、ネットワーク・ユーザのために、WWW(World wide Web)上のブロードキャスト・メッセージに使用することができるHTML(Hypertext Markup Language)ファイルを自動的に生成する方法に関し、特に、ネットワーク・ユーザのために、WWW上のブロードキャスト音声メッセージに使用することができる音声XML(voice XML)ファイルを自動的に生成する方法に関する。
【背景技術】
【0002】
ネットスケープ・ナビゲータなどの一般に使用される種々のブラウザは、WWWをアクセスするネットワーク・ユーザにとって効率的な道具の1つになった。これらのブラウザは、WWWから情報を要求および表示することにおいて、ネットワーク・ユーザを助けるテキスト的かつグラフィックなユーザ・インターフェースである。テキストおよびグラフィックスのほかに、ブラウザによって表示される情報は音およびハイパーリンクなども含むことができ、従って、ブラウザによって表示されるファイルはしばしばハイパーテキストとして参照される。コンピュータ内のテキスト情報を伝えるときにハイパーテキストが使用されると、情報の線形構成が予約されるだけではなくリンク構成も加えられる。ハイパーテキストは、ユーザがテキスト情報を飛ばし読みすることを可能にし、それによりユーザが読むことを容易にする。
【0003】
PvC装置がよりいっそう人気が高まるという状態で、人々は読むという方法によってのみでネットワーク情報をブラウズすることでは満足できなくなり、そしてオーディオ・ブロードキャスティングがモバイル・ユーザにとってネットワーク情報をブラウズするための主要な方法の1つとなった。
【発明の開示】
【発明が解決しようとする課題】
【0004】
しかしながら、オーディオ・ファイルのブラウジングは、テキスト・ファイルのブラウジングに比べてそれほど容易ではない。対話方法の欠如が主な障害の1つである。そのような状態の下で、ユーザは受動的にブロードキャスト情報を聞くことだけはできる。ユーザがネットワーク上のHTMLファイルをブラウジングするときのように興味のあるトピックを聞くときに、ユーザが情報を選択したり更に詳しい情報を見つけるための方法はない。音声認識技術に基づいて、情報を選択したり、あるいは対話/会話に基づいて更に詳しい情報を見つけるための技術が開発されている。音声XMLがこの使用のために設計される。しかしながら、通常のネットワーク・ユーザにとって、音声XMLファイルを書くことは容易ではなく、ユーザは規則、構文、およびタグの定義についての非常に多くの的確なコマンドの知識を持つことを要求される。従って、本発明は音声XMLファイルを自動的に生成するための方法およびシステムを提供する。
【課題を解決するための手段】
【0005】
本発明の1つの局面に従う、音声XMLファイルを自動的に生成するための方法は、各々が音声XMLの1つまたはそれ以上の属性に対応する複数のアイコンを定義するためのグラフィック・ユーザ・インターフェースを提供するステップと、前記グラフィック・ユーザ・インターフェースにおいて前記アイコンを呼び出すユーザのアクション・ストリームを記録するステップと、音声XMLファイルを生成するために音声XMLタグのライブラリに基づいて前記アクション・ストリームを解釈するステップとを含む。
【0006】
本発明のもう1つの局面に従う、音声XMLファイルを自動的に生成するためのシステムは、各々が音声XMLの1つまたはそれ以上の属性に対応する複数のアイコンを定義するためのグラフィック・ユーザ・インターフェースと、音声XMLタグのライブラリに基づいてユーザのアクション・ストリームを解釈して、対応する音声XMLタグを生成するための音声XMLタグ・ジェネレータと、前記音声XMLファイルを生成するために音声XML構文に従い、再生されるコンテンツと前記音声XMLタグ・ジェネレータによって生成された前記タグを結合するための音声XMLファイル・ジェネレータ103とを含む。
【0007】
本発明のこれらおよび他の利点および特徴は、添付の図面に関連する説明から更に明確になるであろう。
【発明を実施するための最良の形態】
【0008】
図1は、1つのオーディオ情報へハイパーリンクを加える方法、およびユーザがハイパーリンクと対話する方法を説明する。図1に示すように、再生される”IBM is the biggest IT company in the world ”の文は、従来のTTS(text-to-speach)ストリームまたはリアルタイム記録オーディオ・ストリームとして形成することができる。ユーザがIBMについての関連する詳細な情報を得ることを容易にするために、音声レンダリング属性およびリンキング属性などのいくつかの属性を加えることができる。結果として、前述の文を再生するとき、ユーザの注意を引くためにオーディオ・ブラウザが異なるトーン(または、他の属性)でIBMを強調することができる。再生中に、ユーザがDTMFトーンまたは他の方法でIBMを選択すると、オーディオ・ブラウザはハイパーリンクと関連付けられたアドレスでそのファイルを検索して、ユーザに対してIBMについての更なる情報を再生する。このように、ユーザは受動的にブロードキャスト情報を聞くだけではない。ユーザが興味のあるトピックを聞くとき、ユーザはインターネット上のHTMLファイルをブラウジングするように、情報を選択して更に詳しい情報を得ることもできる。音声認識技術の発達に伴い、ユーザはDTMFトーンによってハイパーテキストを選択するだけではなく、バージイン音声認識エンジンを有するオーディオ・ブラウザを用いて、選択するハイパーリンクを発話することもできる。
【0009】
上述の音声XMLの利点にもかかわらず、通常のネットワーク・ユーザが音声XMLファイルを書くことは容易ではなく、ユーザは、規則、構文、およびタグの定義についての非常に多くの的確なコマンドの知識を持つことを要求される。従って、本発明は音声XMLファイルを自動的に生成するための方法およびシステムを提供する。
【0010】
図2は、本発明の1つの好ましい実施形態に従って、音声XMLファイルを自動的に生成するためのシステムのブロック図である。図2に示すように、該システムは、各々が音声XMLの1つまたはそれ以上の属性に対応する複数のアイコンを定義するためのグラフィック・ユーザ・インターフェース101と、音声XMLタグのライブラリに基づいてアクション・ストリームを解釈して、対応する音声XMLタグを生成するための音声XMLタグ・ジェネレータ102と、音声XMLファイルを生成するために音声XML構文に従い、再生されるコンテンツと音声XMLタグ・ジェネレータによって生成されたタグを結合するための音声XMLファイル・ジェネレータ103とを含む。本発明の1つの好ましい実施形態に従って、このシステムは、再生されたコンテンツを保管するためのメモリと、ユーザのアクション・ストリームを記録するためのレコーダ105と、音声認識装置106と、音声XMLタグ・ライブラリ107と、音声XML構文ライブラリ108とをさらに含む。TTSストリームのブロックに対して、音声XMLファイルを生成するためにシステムを使用する場合、ユーザは、はじめにシステムのグラフィック・ユーザ・インターフェースと対話する。TTS音声XMLプロンプトのブロックでは、ユーザはグラフィック・ユーザ・インターフェースの編集エリアにおいて、ハイパーリンクで加えることが必要とされる部分をマーキングあるいは入力して、対応するアイコンを呼び出して、TTSストリームを編集することができる。図3は、本発明の1つの好ましい実施形態に従うグラフィック・ユーザ・インターフェースを示す。アイコンは、次のような音声XMLの1つまたはそれ以上の属性に対応させることができる。
ブロードキャスタの性別、トーン、および速度などを含む音声レンダリング属性、
バージイン機能によって実現されるポインティング機能、
ハイパーリンクなど。
【0011】
システムのアクション・ストリーム・レコーダ105は、ユーザ・アクション・ストリーム、すなわち、グラフィカル・ユーザ・インターフェースにおいてアイコンを呼び出すためのユーザの手順を記録する。次に、音声XMLタグ・ジェネレータ102が、音声XMLタグ・ライブラリ107に基づいて、ユーザのアクション・ストリームを解釈し、対応する音声XMLタグを生成する。音声XMLファイル・ジェネレータは、音声XMLファイルを生成するために音声XML構文に従って、再生されるコンテンツと生成された音声XMLタグを結合する。
【0012】
リアルタイム記録オーディオ・ストリームのブロックに対して音声XMLを生成するためにシステムを使用する場合、ユーザは、また、はじめに該システムのグラフィック・ユーザ・インターフェースと対話する。グラフィック・ユーザ・インターフェースの編集エリアでは、リアルタイム記録オーディオ・ストリームが編集され、音声XML属性を加えられる部分がマークおよび入力され、対応するアイコンが呼び出される。リアルタイム記録オーディオ・ストリームでは、ユーザが編集エリアにおいてハイパーリンクで加える必要がある部分を入力する場合、システムの音声XMLタグ・ジェネレータ102は音声認識装置106を活動化し、リアルタイム記録オーディオ・ストリームにおいてユーザによって入力された部分と一致する部分を見つけるのためにユーザ・アクション・ストリームを解釈して、リアルタイム記録オーディオ・ストリームの対応する部分に音声XML属性を加える。システムがTTSストリームおよびリアルタイム記録オーディオ・ストリームのための音声XMLファイルを自動的に生成する例を示す。
例1:
例2:
【0013】
さらに、ユーザが、グラフィック・ユーザ・インターフェースの編集エリアにおいて何回も音声XMLの属性を加える必要がある同じ部分をマークあるいは入力し、かつ指定された音声XML属性が同一であるとき、またはグラフィック・ユーザ・インターフェースの編集エリアにおいて音声XML属性を加える必要がある部分をマークあるいは入力し、かつ音声XMLの属性を指定したとき、バッチ・モードが選択された後、システムの音声XMLファイル・ジェネレータは、音声XMLの属性を加える必要があるマークあるいは入力された部分にそれぞれ一致する部分に、ユーザのアイコン呼び出しに応じてタグ・ジェネレータで指定された音声XMLの属性を加えて、保管されたTTSストリームの全てまたはリアルタイム記録オーディオ・ストリームの全てを処理する。これにより、音声XMLファイルをシステムで自動的に生成することの効率が著しく改善される。
【0014】
上記は、図2で示したシステムを使用して、音声XMLファイルを生成する方法を説明したものであり、簡単に言うと、すなわち、TTSストリームおよびリアルタイム記録オーディオ・ストリームに音声XMLの様々な属性を加える方法である。音声XMLの様々な属性のうち、非常に重要な、1つの属性がハイパーリンクである。上述のように、コンピュータ内のテキスト情報を伝える場合にハイパーテキスト(ハイパーリンク)が使用されると、情報の線形構成が予約されるだけではなくリンキング構成も加えられ、読者がテキスト情報を飛ばし読みすることを可能にし、従ってユーザが読むことを容易にする。同様に、ハイパーリンクがTTSストリーム、またはリアルタイム記録オーディオ・ストリームに加えられた後、ネットワーク・ユーザは、HTMLファイルをブラウジングするように音声XMLファイルを聞くときに、情報を選択するかまたは更に詳しい情報を見つけることができる。そのため、本発明の1つの好ましい実施形態に従い、音声XMLファイルを自動的に生成するためのシステムに基づいて、図4に示すように、音声XMLファイルにハイパーリンクを加えるためのグラフィック・ユーザ・インターフェースが提供される。このグラフィック・ユーザ・インターフェースにおいて、システムは、ユーザがハイパーリンクを加えることが必要である対応する部分をマークまたは入力し、かつ対応するハイパーリンク・アドレスを入力すると、TTSストリームまたはリアルタイム記録オーディオ・ストリームにハイパーリンクを自動的に加える。
【0015】
図5および図6は、本発明の1つの好ましい実施形態に従う図2に示したようなシステムを使用して、音声XMLファイルを自動的に生成するアクション・ストリームを示す。図5に示すように、音声XMLヘッダが最初に生成されなければならないので、ユーザはグラフィック・ユーザ・インターフェースにおいてヘッダの属性に一致する、(図3の左の1番目のアイコンのような)対応するアイコンを呼び出す。ユーザはアイコン302を呼び出し、システムはメモリ104に保管されたコンテンツ、例えば、0:天気、1:株、2:切符、3:その他のようなメイン・メニューをブロードキャストする。ユーザは、図4に示したグラフィック・ユーザ・インターフェ−スを入力し、0:天気を入力またはマークしてリンキング・アドレスを入力する。その後、図6に示されるように、次のことが行われる。まず第一に、同様に、ユーザは、グラフィック・ユーザ・インターフェースでヘッダの属性に一致する、対応するアイコンを呼び出し、次にTTSストリームまたはリアルタイム記録オーディオ・ストリームがブロードキャストされる。州あるいは市の場合、対応するアイコンが音声XML属性(あるいは、音声XMLハイパーリンク)をそれらに加えるために呼び出される。ユーザが上記の方法でユーザ・インターフェースを介してシステムと対話した後、ユーザ・アクション・レコーダはユーザの操作手順全体、より詳細には、ユーザがグラフィック・ユーザ・インターフェースでアイコンを呼び出した手順を記録する。音声XMLタグ・ジェネレータ102はこのアクション・ストリームを解釈し、音声XMLの対応する属性を生成し、そして音声XMLファイル・ジェネレータ103は音声XMLファイルを生成するために、対応する音声XML属性をTTSストリームまたはリアルタイム記録オーディオ・ストリームに加える。
【0016】
図7は、本発明の1つの好ましい実施形態に従う、TTS音声XMLストリームにハイパーリンクを加える手順を示すフローチャートである。図7に示すように、最初に、ユーザは、通常のHTMLファイルを編集するように、グラフィック・ユーザ・インターフェースの編集エリアにおいてTTSファイルを編集する。次に、ユーザは、音声XMLハイパーリンクを加える必要がある部分を入力またはマークして、対応するアイコンを呼び出し、そして対応するハイパーリンク・アドレスを入力する。
【0017】
図8は、本発明の1つの好ましい実施形態に従い、リアルタイム記録オーディオ音声XMLプロンプトにハイパーリンクを加える手順を示すフローチャートであり、ユーザがグラフィック・ユーザ・インターフェースの編集エリアにおいて音声XMLハイパーリンクを加える必要がある部分を入力するとき、音声認識技術が、この部分に一致する部分をリアルタイム記録オーディオ・ストリーム内で見つけるために使用されなければならない。
【0018】
添付の図面とともに、好ましい実施形態を説明してきた。当業者には、種々の変更および修正が発明の精神および範囲から外れることなく行うことができることは理解されよう。本発明はすべての変更および修正を含み、そして発明の範囲は請求項によって定義されるのみである。
【図面の簡単な説明】
【0019】
【図1】1つのオーディオ情報にハイパーリンクを加える方法およびユーザがハイパーリンクと対話する方法を示す。
【図2】本発明の1つの好ましい実施形態に従って、音声XMLファイルを自動的に生成するためのシステムのブロック図である。
【図3】本発明の1つの好ましい実施形態に従うグラフィック・ユーザ・インターフェースを示す。
【図4】本発明の別の好ましい実施形態に従うグラフィック・ユーザ・インターフェースを示す。
【図5】本発明の1つの好ましい実施形態に従い、図2に示したシステムを用いて音声XMLファイルを自動的に生成するためのアクション・ストリームを示す。
【図6】本発明の1つの好ましい実施形態に従い、図2に示したシステムを用いて音声XMLファイルを自動的に生成するためのアクション・ストリームを示す。
【図7】本発明の1つの好ましい実施形態に従い、TTS音声XMLストリームへハイパーリンクを加えるための手順を示すフローチャートである。
【図8】本発明の1つの好ましい実施形態に従い、リアルタイム記録オーディオ音声XMLストリームへハイパーリンクを加えるための手順を示すフローチャートである。
【符号の説明】
【0020】
101 グラフィック・ユーザ・インターフェース
102 音声XMLタグ・ジェネレータ
103 音声XMLファイル・ジェネレータ
104 ブロードキャスティング・コンテンツ・メモリ
105 ユーザ・アクション・ストリーム・レコーダ
106 音声認識装置
107 音声XMLタグ・ライブラリ
108 音声XML構文ライブラリ
Claims (10)
- 自動的に音声XMLファイルを生成するための方法であって、
各々が音声XMLの1つまたはそれ以上の属性に対応する複数のアイコンを定義するためのグラフィック・ユーザ・インターフェースを提供するステップと、
前記グラフィック・ユーザ・インターフェースにおいて前記アイコンを呼び出すユーザのアクション・ストリームを記録するステップと、
前記音声XMLファイルを生成するために音声XMLタグのライブラリに基づいて前記アクション・ストリームを解釈するステップと
を含む、方法。 - 前記グラフィック・ユーザ・インターフェースは、自動的に音声XMLファイルのための1つまたはそれ以上のオーディオ・ハイパーリンクを加えるためのグラフィック・ユーザ・インターフェースを含み、
前記グラフィック・ユーザ・インターフェースにおいて定義された各々のアイコンは、ハイパーリンクの種類に対応する、
請求項1に記載の方法。 - TTS音声XMLファイルのために前記ハイパーリンクを加えるとき、前記ユーザが前記グラフィック・ユーザ・インターフェースの編集エリアにおいて前記TTS音声XMLファイルを編集し、前記ハイパーリンクを加える部分をマークまたは入力し、対応するアイコンを呼び出し、対応するハイパーリンク・アドレスを入力する、
請求項2に記載の方法。 - 前記ハイパーリンクが加えられる必要がある前記音声XMLファイルがリアルタイム記録オーディオ音声XMLストリームであるとき、前記ユーザは前記グラフィック・ユーザ・インターフェースの前記編集エリアにおいて前記TTS音声XMLファイルを編集し、前記ハイパーリンクを加える前記部分をマークまたは入力し、対応する前記アイコンを呼び出し、対応する前記ハイパーリンク・アドレスを入力し、
音声XMLタグのライブラリに基づいて前記アクション・ストリームを解釈するとき、音声認識技術が前記ユーザによって入力された前記部分に一致する部分を前記リアルタイム記録オーディオ音声XMLストリーム内で見つけるために適用される、
請求項2に記載の方法。 - ユーザが前記グラフィック・ユーザ・インターフェースの前記編集エリアにおいて何回も前記ハイパーリンクを加える同じ部分をマークまたは入力し、同じハイパーリンク属性を呼び出すとき、TTS音声XMLストリーム全体または前記リアルタイム記録オーディオ音声XMLストリーム全体用のハイパーリンクが一括して加えられる、
請求項3または4に記載の方法。 - 自動的に音声XMLファイルを生成するためのシステムであって、
各々が音声XMLの1つまたはそれ以上の属性に対応する複数のアイコンを定義するためのグラフィック・ユーザ・インターフェースと、
音声XMLタグのライブラリに基づいてアクション・ストリームを解釈し、対応する前記音声XMLタグを生成するための音声XMLタグ・ジェネレータと、
音声XML構文に従い、再生されるコンテンツと前記音声XMLタグ・ジェネレータによって生成された前記タグを結合することによって、前記音声XMLファイルを生成するための音声XMLファイル・ジェネレータと
を含む、システム。 - 前記グラフィック・ユーザ・インターフェースは、自動的に音声XMLファイルのためのオーディオ・ハイパーリンクを加えるためのグラフィック・ユーザ・インターフェースを含み、
前記グラフィック・ユーザ・インターフェースにおいて定義された各々のアイコンは、ハイパーリンクの種類に対応する、
請求項6に記載のシステム。 - TTS音声XMLストリームのために前記ハイパーリンクを加えるとき、ユーザが前記グラフィック・ユーザ・インターフェースの編集エリアにおいて前記TTS音声XMLファイルを編集し、前記ハイパーリンクを加える部分をマーキングまたはタイピングし、対応する前記アイコンを呼び出し、対応するハイパーリンク・アドレスをタイピングする、
請求項7に記載のシステム。 - リアルタイム記録オーディオ音声XMLストリームのために前記ハイパーリンクを加えるとき、ユーザは前記グラフィック・ユーザ・インターフェースの前記編集エリアにおいて前記TTS音声XMLファイルを編集し、前記ハイパーリンクを加える前記部分をマーキングまたはタイピングし、対応する前記アイコンを呼び出し、対応する前記ハイパーリンク・アドレスをタイピングし、
音声XMLタグのライブラリに基づいて前記アクション・ストリームを解釈するとき、前記ユーザによって入力された前記部分に一致する部分を前記リアルタイム記録オーディオ音声XMLストリーム内で見つけるために音声認識技術を適用する、
請求項7に記載のシステム。 - ユーザが前記グラフィック・ユーザ・インターフェースの前記編集エリアにおいて何回も前記ハイパーリンクを加える同じ部分をマークまたは入力し、同じハイパーリンク属性を呼び出すとき、前記TTS音声XMLストリーム全体または前記リアルタイム記録オーディオ音声XMLストリーム全体用のハイパーリンクを一括して加える、
請求項8または9に記載のシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB011033681A CN1156751C (zh) | 2001-02-02 | 2001-02-02 | 用于自动生成语音xml文件的方法和系统 |
PCT/GB2002/000341 WO2002063460A2 (en) | 2001-02-02 | 2002-01-25 | Method and system for automatically creating voice xml file |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004523039A true JP2004523039A (ja) | 2004-07-29 |
Family
ID=4653228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002563339A Pending JP2004523039A (ja) | 2001-02-02 | 2002-01-25 | 音声xmlファイルを自動的に生成する方法およびシステム |
Country Status (6)
Country | Link |
---|---|
US (1) | US7478048B2 (ja) |
JP (1) | JP2004523039A (ja) |
KR (1) | KR100567126B1 (ja) |
CN (1) | CN1156751C (ja) |
AU (1) | AU2002225226A1 (ja) |
WO (1) | WO2002063460A2 (ja) |
Families Citing this family (56)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7653545B1 (en) | 1999-06-11 | 2010-01-26 | Telstra Corporation Limited | Method of developing an interactive system |
JP3744859B2 (ja) | 2002-02-01 | 2006-02-15 | 三洋電機株式会社 | 成形体及びその製造方法 |
AU2002950336A0 (en) * | 2002-07-24 | 2002-09-12 | Telstra New Wave Pty Ltd | System and process for developing a voice application |
AU2002951244A0 (en) | 2002-09-06 | 2002-09-19 | Telstra New Wave Pty Ltd | A development system for a dialog system |
US7287248B1 (en) * | 2002-10-31 | 2007-10-23 | Tellme Networks, Inc. | Method and system for the generation of a voice extensible markup language application for a voice interface process |
CN100346625C (zh) * | 2002-12-27 | 2007-10-31 | 联想(北京)有限公司 | 一种电话语音交互系统及其实现方法 |
AU2003900584A0 (en) | 2003-02-11 | 2003-02-27 | Telstra New Wave Pty Ltd | System for predicting speech recognition accuracy and development for a dialog system |
EP1450512A1 (en) * | 2003-02-21 | 2004-08-25 | Alcatel | Method and apparatus for generating a web-based graphical user interface without additional development |
JP2004310691A (ja) * | 2003-04-10 | 2004-11-04 | Mitsubishi Electric Corp | 文章情報処理装置 |
AU2003902020A0 (en) | 2003-04-29 | 2003-05-15 | Telstra New Wave Pty Ltd | A process for grammatical inference |
US7369649B2 (en) * | 2003-08-15 | 2008-05-06 | Avaya Technology Corp. | System and method for caller initiated voicemail annotation and its transmission over IP/SIP for flexible and efficient voice mail retrieval |
EP1524832A1 (en) | 2003-10-17 | 2005-04-20 | Hewlett-Packard Development Company, L.P. | Voice mark-up language having an application transfer tag and interpreter therefore |
US7424293B2 (en) | 2003-12-02 | 2008-09-09 | Telecommunication Systems, Inc. | User plane location based service using message tunneling to support roaming |
KR100989500B1 (ko) * | 2004-01-28 | 2010-10-22 | 주식회사 케이티 | 음성인식 파라미터 공유 방법 |
US8768711B2 (en) * | 2004-06-17 | 2014-07-01 | Nuance Communications, Inc. | Method and apparatus for voice-enabling an application |
EP1766498A4 (en) * | 2004-07-08 | 2010-06-02 | Microsoft Corp | AUTOMATIC TEXT GENERATION |
DE102004035244A1 (de) * | 2004-07-21 | 2006-02-16 | Givemepower Gmbh | Verfahren zum abrufbaren Speichern von Audiodaten in einer Computervorrichtung |
US8140469B2 (en) | 2004-12-16 | 2012-03-20 | International Business Machines Corporation | Journaling to capture workflow and convert to workflow markup language |
US7519946B2 (en) * | 2004-12-20 | 2009-04-14 | International Business Machines Corporation | Automatically adding code to voice enable a GUI component |
WO2006110620A2 (en) * | 2005-04-12 | 2006-10-19 | Telecommunication Systems, Inc. | Temporary enum gateway |
US20060271560A1 (en) * | 2005-05-25 | 2006-11-30 | Don Mitchell | Location based provision of on-demand content |
JP4667138B2 (ja) * | 2005-06-30 | 2011-04-06 | キヤノン株式会社 | 音声認識方法及び音声認識装置 |
WO2007011861A2 (en) | 2005-07-18 | 2007-01-25 | Telecommunication Systems, Inc. | Integrated services user part (isup)/session initiation protocol (sip) gateway for unlicensed mobile access (uma) emergency services call flow |
US8977636B2 (en) | 2005-08-19 | 2015-03-10 | International Business Machines Corporation | Synthesizing aggregate data of disparate data types into data of a uniform data type |
US7958131B2 (en) | 2005-08-19 | 2011-06-07 | International Business Machines Corporation | Method for data management and data rendering for disparate data types |
US7933385B2 (en) | 2005-08-26 | 2011-04-26 | Telecommunication Systems, Inc. | Emergency alert for voice over internet protocol (VoIP) |
US8266220B2 (en) | 2005-09-14 | 2012-09-11 | International Business Machines Corporation | Email management and rendering |
US8694319B2 (en) | 2005-11-03 | 2014-04-08 | International Business Machines Corporation | Dynamic prosody adjustment for voice-rendering synthesized data |
KR100768731B1 (ko) * | 2005-12-05 | 2007-10-19 | 한국전자통신연구원 | 대화흐름 제어를 위한 화행기반 VoiceXML 대화장치및 방법 |
US8185567B2 (en) * | 2006-01-02 | 2012-05-22 | Telecommunication Systems, Inc. | Location aware content using presence information data formation with location object (PIDF-LO) |
US7805483B2 (en) | 2006-01-09 | 2010-09-28 | Telecommunications Systems, Inc. | Apparatus and method for associating a geospacial location to content on a network |
US8271107B2 (en) | 2006-01-13 | 2012-09-18 | International Business Machines Corporation | Controlling audio operation for data management and data rendering |
GB2434664A (en) * | 2006-01-25 | 2007-08-01 | Voxsurf Ltd | Configuration and analysis of an interactive voice system |
US9135339B2 (en) | 2006-02-13 | 2015-09-15 | International Business Machines Corporation | Invoking an audio hyperlink |
US20070203874A1 (en) * | 2006-02-24 | 2007-08-30 | Intervoice Limited Partnership | System and method for managing files on a file server using embedded metadata and a search engine |
CN101046956A (zh) * | 2006-03-28 | 2007-10-03 | 国际商业机器公司 | 交互式音效产生方法及系统 |
US20070233495A1 (en) * | 2006-03-29 | 2007-10-04 | International Business Machines Corporation | Partially automated technology for converting a graphical interface to a speech-enabled interface |
US8208461B2 (en) | 2006-04-04 | 2012-06-26 | Telecommunication Systems, Inc. | SS7 MAP/Lg+ to SIP based call signaling conversion gateway for wireless VoIP E911 |
US8155109B2 (en) | 2006-04-04 | 2012-04-10 | Telecommunication Systems, Inc. | SS7 ISUP to SIP based call signaling conversion gateway for wireless VoIP E911 |
US8228897B2 (en) | 2006-04-04 | 2012-07-24 | Telecommunication Systems, Inc. | SS7 ANSI-41 to SIP based call signaling conversion gateway for wireless VoIP E911 |
US20070300237A1 (en) * | 2006-06-22 | 2007-12-27 | Tim Neil | Facilitating access to application data at an application server by a wireless communication device |
EP1873656B1 (en) * | 2006-06-22 | 2012-06-20 | Research In Motion Limited | Facilitating access to application data at an application server by a wireless communication device |
US9196241B2 (en) | 2006-09-29 | 2015-11-24 | International Business Machines Corporation | Asynchronous communications using messages recorded on handheld devices |
WO2008057477A2 (en) | 2006-11-03 | 2008-05-15 | Telecommunication Systems, Inc. | Roaming gateway enabling location based services (lbs) roaming for user plane in cdma networks without requiring use of a mobile positioning center (mpc) |
US9318100B2 (en) | 2007-01-03 | 2016-04-19 | International Business Machines Corporation | Supplementing audio recorded in a media file |
CN101022476B (zh) * | 2007-03-13 | 2010-06-16 | 中兴通讯股份有限公司 | 故障详细告警系统、方法及相关的服务器 |
US20090004997A1 (en) * | 2007-06-27 | 2009-01-01 | Allen Danny A | Portable emergency call center |
WO2009038726A1 (en) | 2007-09-17 | 2009-03-26 | Telecommunication Systems, Inc. | Emergency 911 data messaging |
US8176499B2 (en) * | 2008-05-30 | 2012-05-08 | Microsoft Corporation | Defining, distributing and presenting device experiences |
CN101527755B (zh) * | 2009-03-30 | 2011-07-13 | 中兴通讯股份有限公司 | 基于VoiceXML移动终端语音交互方法及移动终端 |
WO2013078354A1 (en) | 2011-11-23 | 2013-05-30 | Telecommunication Systems, Inc. | Mobile user information selection and delivery event based upon credentials and variables |
WO2013085948A1 (en) | 2011-12-05 | 2013-06-13 | Telecommunication Systems, Inc. | Automated proximate location association mechanism for wireless emergency services |
CN102645899B (zh) * | 2012-03-15 | 2016-03-09 | 南宁珞德信息技术有限公司 | 视窗式光机电一体化设备动作流编辑系统 |
CN103399865B (zh) * | 2013-07-05 | 2018-04-10 | 华为技术有限公司 | 一种生成多媒体文件的方法和装置 |
US9537903B2 (en) | 2013-10-29 | 2017-01-03 | At&T Mobility Ii Llc | Method and apparatus for communicating between communication devices |
JP6415929B2 (ja) * | 2014-10-30 | 2018-10-31 | 株式会社東芝 | 音声合成装置、音声合成方法およびプログラム |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06110675A (ja) * | 1992-09-28 | 1994-04-22 | Nec Software Ltd | ハイパーテキストリンク処理方式 |
JPH0876786A (ja) * | 1994-09-06 | 1996-03-22 | Hitachi Ltd | 情報処理装置 |
JPH08160989A (ja) * | 1994-12-09 | 1996-06-21 | Hitachi Ltd | サウンドデータリンク編集方法 |
JPH10133848A (ja) * | 1996-10-28 | 1998-05-22 | Toshiba Corp | パーソナルコンピュータおよびコマンド制御方法 |
JPH11161465A (ja) * | 1997-11-27 | 1999-06-18 | Sony Corp | 情報処理装置、情報処理システムおよびその方法、ならびに情報媒体 |
JP2001255881A (ja) * | 2000-03-13 | 2001-09-21 | Matsushita Electric Ind Co Ltd | 自動音声認識/合成ブラウザシステム |
JP2001282503A (ja) * | 2000-03-31 | 2001-10-12 | Canon Inc | データ処理装置及び方法、ブラウザシステム、ブラウザ装置、記録媒体 |
JP2001296991A (ja) * | 2000-04-13 | 2001-10-26 | Canon Inc | データ処理装置、データ処理方法、記録媒体 |
JP2001331745A (ja) * | 2000-05-19 | 2001-11-30 | Nec Yonezawa Ltd | データサービス方法、データ処理システム、上位処理装置、情報記憶媒体 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7143042B1 (en) * | 1999-10-04 | 2006-11-28 | Nuance Communications | Tool for graphically defining dialog flows and for establishing operational links between speech applications and hypermedia content in an interactive voice response environment |
US7210098B2 (en) * | 2002-02-18 | 2007-04-24 | Kirusa, Inc. | Technique for synchronizing visual and voice browsers to enable multi-modal browsing |
-
2001
- 2001-02-02 CN CNB011033681A patent/CN1156751C/zh not_active Expired - Lifetime
-
2002
- 2002-01-25 JP JP2002563339A patent/JP2004523039A/ja active Pending
- 2002-01-25 KR KR1020037009942A patent/KR100567126B1/ko not_active IP Right Cessation
- 2002-01-25 AU AU2002225226A patent/AU2002225226A1/en not_active Abandoned
- 2002-01-25 WO PCT/GB2002/000341 patent/WO2002063460A2/en active IP Right Grant
-
2003
- 2003-07-29 US US10/629,131 patent/US7478048B2/en active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06110675A (ja) * | 1992-09-28 | 1994-04-22 | Nec Software Ltd | ハイパーテキストリンク処理方式 |
JPH0876786A (ja) * | 1994-09-06 | 1996-03-22 | Hitachi Ltd | 情報処理装置 |
JPH08160989A (ja) * | 1994-12-09 | 1996-06-21 | Hitachi Ltd | サウンドデータリンク編集方法 |
JPH10133848A (ja) * | 1996-10-28 | 1998-05-22 | Toshiba Corp | パーソナルコンピュータおよびコマンド制御方法 |
JPH11161465A (ja) * | 1997-11-27 | 1999-06-18 | Sony Corp | 情報処理装置、情報処理システムおよびその方法、ならびに情報媒体 |
JP2001255881A (ja) * | 2000-03-13 | 2001-09-21 | Matsushita Electric Ind Co Ltd | 自動音声認識/合成ブラウザシステム |
JP2001282503A (ja) * | 2000-03-31 | 2001-10-12 | Canon Inc | データ処理装置及び方法、ブラウザシステム、ブラウザ装置、記録媒体 |
JP2001296991A (ja) * | 2000-04-13 | 2001-10-26 | Canon Inc | データ処理装置、データ処理方法、記録媒体 |
JP2001331745A (ja) * | 2000-05-19 | 2001-11-30 | Nec Yonezawa Ltd | データサービス方法、データ処理システム、上位処理装置、情報記憶媒体 |
Also Published As
Publication number | Publication date |
---|---|
US7478048B2 (en) | 2009-01-13 |
CN1368719A (zh) | 2002-09-11 |
US20040093217A1 (en) | 2004-05-13 |
AU2002225226A1 (en) | 2002-08-19 |
KR100567126B1 (ko) | 2006-03-31 |
WO2002063460A3 (en) | 2003-10-16 |
KR20030072392A (ko) | 2003-09-13 |
CN1156751C (zh) | 2004-07-07 |
WO2002063460A2 (en) | 2002-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2004523039A (ja) | 音声xmlファイルを自動的に生成する方法およびシステム | |
US6018710A (en) | Web-based interactive radio environment: WIRE | |
US7092496B1 (en) | Method and apparatus for processing information signals based on content | |
CA2372544C (en) | Information access method, information access system and program therefor | |
US6885736B2 (en) | System and method for providing and using universally accessible voice and speech data files | |
US7366979B2 (en) | Method and apparatus for annotating a document | |
KR100661687B1 (ko) | 대화형 음성 응답 애플리케이션 구현 장치 및 방법, 머신 판독가능 매체 및 대화형 음성 응답 시스템 | |
US7593854B2 (en) | Method and system for collecting user-interest information regarding a picture | |
US20030112267A1 (en) | Multi-modal picture | |
US8503665B1 (en) | System and method of writing and using scripts in automated, speech-based caller interactions | |
MXPA04006532A (es) | Uso combinado de un lenguaje de marca por pasos y una herramienta de desarrollo orientada por objetos. | |
US6307641B1 (en) | Image information retrieving device, image database device, image information storing device and recording medium on which a program performed by the image information retrieving device is recorded | |
JP2001075989A (ja) | 情報提示装置および方法、ならびに情報提示プログラムを記録したコンピュータで読取可能な記録媒体 | |
JPH10322478A (ja) | 音声によるハイパーテキストアクセス装置 | |
JP2004334369A (ja) | 音声対話シナリオ変換方法、音声対話シナリオ変換装置、音声対話シナリオ変換プログラム | |
JP2005038014A (ja) | 情報提示装置及び情報提示方法 | |
JPH1152973A (ja) | 文書読み上げ方式 | |
KR20080066896A (ko) | 맞춤형 학습 시스템, 맞춤형 학습 방법, 및 학습기 | |
KR20000000048A (ko) | 동시 음성 앵커를 이용하는 오디오 웹 브라우저 시스템 및 오디오 웹 브라우저 구현방법 | |
KR100585711B1 (ko) | 오디오 및 음성 합성 방법 | |
KR20010017323A (ko) | 어학 학습 기능을 갖는 웹 브라이징 장치 및 방법 | |
JPH09190409A (ja) | 情報演出装置 | |
JP2007172597A (ja) | 音声処理装置及び音声処理方法 | |
KR100738695B1 (ko) | 학습컨텐츠 편집시스템 및 방법 | |
JP2007087267A (ja) | 音声ファイル生成装置、音声ファイル生成方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20051110 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060207 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20060420 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20060427 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060710 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070206 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20071120 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080319 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20080326 |
|
A912 | Removal of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20080718 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20090930 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20100615 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20100618 |