JP2004523039A

JP2004523039A - 音声ｘｍｌファイルを自動的に生成する方法およびシステム

Info

Publication number: JP2004523039A
Application number: JP2002563339A
Authority: JP
Inventors: イェ・ジェームズ・チエン−チェン; ス・フイ; ワン・クイアン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2001-02-02
Filing date: 2002-01-25
Publication date: 2004-07-29
Also published as: US7478048B2; CN1368719A; US20040093217A1; AU2002225226A1; KR100567126B1; WO2002063460A3; KR20030072392A; CN1156751C; WO2002063460A2

Abstract

【課題】音声ＸＭＬファイルを自動的に生成する方法およびシステムを提供すること。
【解決手段】本発明は、自動的に音声ＸＭＬファイルを生成するためのシステムを開示し、該システムは、音声ＸＭＬファイルを生成するために、各々が音声ＸＭＬの１つまたはそれ以上の属性に対応する複数のアイコンを定義するためのグラフィカル・ユーザ・インターフェースと、音声ＸＭＬタグのライブラリに基づきアクション・ストリームを解釈し、対応する音声ＸＭＬタグを生成するための音声ＸＭＬタグ・ジェネレータと、音声ＸＭＬ構文に従い、再生されるコンテンツと音声ＸＭＬタグ・ジェネレータによって生成されたタグを結合するための音声ＸＭＬファイル・ジェネレータとを含む。本システムは、ＴＴＳ音声ＸＭＬファイルまたはリアルタイム記録オーディオ音声ＸＭＬファイル用の音声ＸＭＬファイルを生成することができる。
【選択図】図２

Description

【技術分野】
【０００１】
本発明は、一般的には、ネットワーク・ユーザのために、ＷＷＷ（World wide Web）上のブロードキャスト・メッセージに使用することができるＨＴＭＬ（Hypertext Markup Language）ファイルを自動的に生成する方法に関し、特に、ネットワーク・ユーザのために、ＷＷＷ上のブロードキャスト音声メッセージに使用することができる音声ＸＭＬ（voice XML）ファイルを自動的に生成する方法に関する。
【背景技術】
【０００２】
ネットスケープ・ナビゲータなどの一般に使用される種々のブラウザは、ＷＷＷをアクセスするネットワーク・ユーザにとって効率的な道具の１つになった。これらのブラウザは、ＷＷＷから情報を要求および表示することにおいて、ネットワーク・ユーザを助けるテキスト的かつグラフィックなユーザ・インターフェースである。テキストおよびグラフィックスのほかに、ブラウザによって表示される情報は音およびハイパーリンクなども含むことができ、従って、ブラウザによって表示されるファイルはしばしばハイパーテキストとして参照される。コンピュータ内のテキスト情報を伝えるときにハイパーテキストが使用されると、情報の線形構成が予約されるだけではなくリンク構成も加えられる。ハイパーテキストは、ユーザがテキスト情報を飛ばし読みすることを可能にし、それによりユーザが読むことを容易にする。
【０００３】
ＰｖＣ装置がよりいっそう人気が高まるという状態で、人々は読むという方法によってのみでネットワーク情報をブラウズすることでは満足できなくなり、そしてオーディオ・ブロードキャスティングがモバイル・ユーザにとってネットワーク情報をブラウズするための主要な方法の１つとなった。
【発明の開示】
【発明が解決しようとする課題】
【０００４】
しかしながら、オーディオ・ファイルのブラウジングは、テキスト・ファイルのブラウジングに比べてそれほど容易ではない。対話方法の欠如が主な障害の１つである。そのような状態の下で、ユーザは受動的にブロードキャスト情報を聞くことだけはできる。ユーザがネットワーク上のＨＴＭＬファイルをブラウジングするときのように興味のあるトピックを聞くときに、ユーザが情報を選択したり更に詳しい情報を見つけるための方法はない。音声認識技術に基づいて、情報を選択したり、あるいは対話／会話に基づいて更に詳しい情報を見つけるための技術が開発されている。音声ＸＭＬがこの使用のために設計される。しかしながら、通常のネットワーク・ユーザにとって、音声ＸＭＬファイルを書くことは容易ではなく、ユーザは規則、構文、およびタグの定義についての非常に多くの的確なコマンドの知識を持つことを要求される。従って、本発明は音声ＸＭＬファイルを自動的に生成するための方法およびシステムを提供する。
【課題を解決するための手段】
【０００５】
本発明の１つの局面に従う、音声ＸＭＬファイルを自動的に生成するための方法は、各々が音声ＸＭＬの１つまたはそれ以上の属性に対応する複数のアイコンを定義するためのグラフィック・ユーザ・インターフェースを提供するステップと、前記グラフィック・ユーザ・インターフェースにおいて前記アイコンを呼び出すユーザのアクション・ストリームを記録するステップと、音声ＸＭＬファイルを生成するために音声ＸＭＬタグのライブラリに基づいて前記アクション・ストリームを解釈するステップとを含む。
【０００６】
本発明のもう１つの局面に従う、音声ＸＭＬファイルを自動的に生成するためのシステムは、各々が音声ＸＭＬの１つまたはそれ以上の属性に対応する複数のアイコンを定義するためのグラフィック・ユーザ・インターフェースと、音声ＸＭＬタグのライブラリに基づいてユーザのアクション・ストリームを解釈して、対応する音声ＸＭＬタグを生成するための音声ＸＭＬタグ・ジェネレータと、前記音声ＸＭＬファイルを生成するために音声ＸＭＬ構文に従い、再生されるコンテンツと前記音声ＸＭＬタグ・ジェネレータによって生成された前記タグを結合するための音声ＸＭＬファイル・ジェネレータ１０３とを含む。
【０００７】
本発明のこれらおよび他の利点および特徴は、添付の図面に関連する説明から更に明確になるであろう。
【発明を実施するための最良の形態】
【０００８】
図１は、１つのオーディオ情報へハイパーリンクを加える方法、およびユーザがハイパーリンクと対話する方法を説明する。図１に示すように、再生される”IBM is the biggest IT company in the world ”の文は、従来のＴＴＳ（text-to-speach）ストリームまたはリアルタイム記録オーディオ・ストリームとして形成することができる。ユーザがＩＢＭについての関連する詳細な情報を得ることを容易にするために、音声レンダリング属性およびリンキング属性などのいくつかの属性を加えることができる。結果として、前述の文を再生するとき、ユーザの注意を引くためにオーディオ・ブラウザが異なるトーン（または、他の属性）でＩＢＭを強調することができる。再生中に、ユーザがＤＴＭＦトーンまたは他の方法でＩＢＭを選択すると、オーディオ・ブラウザはハイパーリンクと関連付けられたアドレスでそのファイルを検索して、ユーザに対してＩＢＭについての更なる情報を再生する。このように、ユーザは受動的にブロードキャスト情報を聞くだけではない。ユーザが興味のあるトピックを聞くとき、ユーザはインターネット上のＨＴＭＬファイルをブラウジングするように、情報を選択して更に詳しい情報を得ることもできる。音声認識技術の発達に伴い、ユーザはＤＴＭＦトーンによってハイパーテキストを選択するだけではなく、バージイン音声認識エンジンを有するオーディオ・ブラウザを用いて、選択するハイパーリンクを発話することもできる。
【０００９】
上述の音声ＸＭＬの利点にもかかわらず、通常のネットワーク・ユーザが音声ＸＭＬファイルを書くことは容易ではなく、ユーザは、規則、構文、およびタグの定義についての非常に多くの的確なコマンドの知識を持つことを要求される。従って、本発明は音声ＸＭＬファイルを自動的に生成するための方法およびシステムを提供する。
【００１０】
図２は、本発明の１つの好ましい実施形態に従って、音声ＸＭＬファイルを自動的に生成するためのシステムのブロック図である。図２に示すように、該システムは、各々が音声ＸＭＬの１つまたはそれ以上の属性に対応する複数のアイコンを定義するためのグラフィック・ユーザ・インターフェース１０１と、音声ＸＭＬタグのライブラリに基づいてアクション・ストリームを解釈して、対応する音声ＸＭＬタグを生成するための音声ＸＭＬタグ・ジェネレータ１０２と、音声ＸＭＬファイルを生成するために音声ＸＭＬ構文に従い、再生されるコンテンツと音声ＸＭＬタグ・ジェネレータによって生成されたタグを結合するための音声ＸＭＬファイル・ジェネレータ１０３とを含む。本発明の１つの好ましい実施形態に従って、このシステムは、再生されたコンテンツを保管するためのメモリと、ユーザのアクション・ストリームを記録するためのレコーダ１０５と、音声認識装置１０６と、音声ＸＭＬタグ・ライブラリ１０７と、音声ＸＭＬ構文ライブラリ１０８とをさらに含む。ＴＴＳストリームのブロックに対して、音声ＸＭＬファイルを生成するためにシステムを使用する場合、ユーザは、はじめにシステムのグラフィック・ユーザ・インターフェースと対話する。ＴＴＳ音声ＸＭＬプロンプトのブロックでは、ユーザはグラフィック・ユーザ・インターフェースの編集エリアにおいて、ハイパーリンクで加えることが必要とされる部分をマーキングあるいは入力して、対応するアイコンを呼び出して、ＴＴＳストリームを編集することができる。図３は、本発明の１つの好ましい実施形態に従うグラフィック・ユーザ・インターフェースを示す。アイコンは、次のような音声ＸＭＬの１つまたはそれ以上の属性に対応させることができる。
ブロードキャスタの性別、トーン、および速度などを含む音声レンダリング属性、
バージイン機能によって実現されるポインティング機能、
ハイパーリンクなど。
【００１１】
システムのアクション・ストリーム・レコーダ１０５は、ユーザ・アクション・ストリーム、すなわち、グラフィカル・ユーザ・インターフェースにおいてアイコンを呼び出すためのユーザの手順を記録する。次に、音声ＸＭＬタグ・ジェネレータ１０２が、音声ＸＭＬタグ・ライブラリ１０７に基づいて、ユーザのアクション・ストリームを解釈し、対応する音声ＸＭＬタグを生成する。音声ＸＭＬファイル・ジェネレータは、音声ＸＭＬファイルを生成するために音声ＸＭＬ構文に従って、再生されるコンテンツと生成された音声ＸＭＬタグを結合する。
【００１２】
リアルタイム記録オーディオ・ストリームのブロックに対して音声ＸＭＬを生成するためにシステムを使用する場合、ユーザは、また、はじめに該システムのグラフィック・ユーザ・インターフェースと対話する。グラフィック・ユーザ・インターフェースの編集エリアでは、リアルタイム記録オーディオ・ストリームが編集され、音声ＸＭＬ属性を加えられる部分がマークおよび入力され、対応するアイコンが呼び出される。リアルタイム記録オーディオ・ストリームでは、ユーザが編集エリアにおいてハイパーリンクで加える必要がある部分を入力する場合、システムの音声ＸＭＬタグ・ジェネレータ１０２は音声認識装置１０６を活動化し、リアルタイム記録オーディオ・ストリームにおいてユーザによって入力された部分と一致する部分を見つけるのためにユーザ・アクション・ストリームを解釈して、リアルタイム記録オーディオ・ストリームの対応する部分に音声ＸＭＬ属性を加える。システムがＴＴＳストリームおよびリアルタイム記録オーディオ・ストリームのための音声ＸＭＬファイルを自動的に生成する例を示す。
例１:

例２：

【００１３】
さらに、ユーザが、グラフィック・ユーザ・インターフェースの編集エリアにおいて何回も音声ＸＭＬの属性を加える必要がある同じ部分をマークあるいは入力し、かつ指定された音声ＸＭＬ属性が同一であるとき、またはグラフィック・ユーザ・インターフェースの編集エリアにおいて音声ＸＭＬ属性を加える必要がある部分をマークあるいは入力し、かつ音声ＸＭＬの属性を指定したとき、バッチ・モードが選択された後、システムの音声ＸＭＬファイル・ジェネレータは、音声ＸＭＬの属性を加える必要があるマークあるいは入力された部分にそれぞれ一致する部分に、ユーザのアイコン呼び出しに応じてタグ・ジェネレータで指定された音声ＸＭＬの属性を加えて、保管されたＴＴＳストリームの全てまたはリアルタイム記録オーディオ・ストリームの全てを処理する。これにより、音声ＸＭＬファイルをシステムで自動的に生成することの効率が著しく改善される。
【００１４】
上記は、図２で示したシステムを使用して、音声ＸＭＬファイルを生成する方法を説明したものであり、簡単に言うと、すなわち、ＴＴＳストリームおよびリアルタイム記録オーディオ・ストリームに音声ＸＭＬの様々な属性を加える方法である。音声ＸＭＬの様々な属性のうち、非常に重要な、１つの属性がハイパーリンクである。上述のように、コンピュータ内のテキスト情報を伝える場合にハイパーテキスト（ハイパーリンク）が使用されると、情報の線形構成が予約されるだけではなくリンキング構成も加えられ、読者がテキスト情報を飛ばし読みすることを可能にし、従ってユーザが読むことを容易にする。同様に、ハイパーリンクがＴＴＳストリーム、またはリアルタイム記録オーディオ・ストリームに加えられた後、ネットワーク・ユーザは、ＨＴＭＬファイルをブラウジングするように音声ＸＭＬファイルを聞くときに、情報を選択するかまたは更に詳しい情報を見つけることができる。そのため、本発明の１つの好ましい実施形態に従い、音声ＸＭＬファイルを自動的に生成するためのシステムに基づいて、図４に示すように、音声ＸＭＬファイルにハイパーリンクを加えるためのグラフィック・ユーザ・インターフェースが提供される。このグラフィック・ユーザ・インターフェースにおいて、システムは、ユーザがハイパーリンクを加えることが必要である対応する部分をマークまたは入力し、かつ対応するハイパーリンク・アドレスを入力すると、ＴＴＳストリームまたはリアルタイム記録オーディオ・ストリームにハイパーリンクを自動的に加える。
【００１５】
図５および図６は、本発明の１つの好ましい実施形態に従う図２に示したようなシステムを使用して、音声ＸＭＬファイルを自動的に生成するアクション・ストリームを示す。図５に示すように、音声ＸＭＬヘッダが最初に生成されなければならないので、ユーザはグラフィック・ユーザ・インターフェースにおいてヘッダの属性に一致する、（図３の左の１番目のアイコンのような）対応するアイコンを呼び出す。ユーザはアイコン３０２を呼び出し、システムはメモリ１０４に保管されたコンテンツ、例えば、０：天気、１：株、２：切符、３：その他のようなメイン・メニューをブロードキャストする。ユーザは、図４に示したグラフィック・ユーザ・インターフェ−スを入力し、０：天気を入力またはマークしてリンキング・アドレスを入力する。その後、図６に示されるように、次のことが行われる。まず第一に、同様に、ユーザは、グラフィック・ユーザ・インターフェースでヘッダの属性に一致する、対応するアイコンを呼び出し、次にＴＴＳストリームまたはリアルタイム記録オーディオ・ストリームがブロードキャストされる。州あるいは市の場合、対応するアイコンが音声ＸＭＬ属性（あるいは、音声ＸＭＬハイパーリンク）をそれらに加えるために呼び出される。ユーザが上記の方法でユーザ・インターフェースを介してシステムと対話した後、ユーザ・アクション・レコーダはユーザの操作手順全体、より詳細には、ユーザがグラフィック・ユーザ・インターフェースでアイコンを呼び出した手順を記録する。音声ＸＭＬタグ・ジェネレータ１０２はこのアクション・ストリームを解釈し、音声ＸＭＬの対応する属性を生成し、そして音声ＸＭＬファイル・ジェネレータ１０３は音声ＸＭＬファイルを生成するために、対応する音声ＸＭＬ属性をＴＴＳストリームまたはリアルタイム記録オーディオ・ストリームに加える。
【００１６】
図７は、本発明の１つの好ましい実施形態に従う、ＴＴＳ音声ＸＭＬストリームにハイパーリンクを加える手順を示すフローチャートである。図７に示すように、最初に、ユーザは、通常のＨＴＭＬファイルを編集するように、グラフィック・ユーザ・インターフェースの編集エリアにおいてＴＴＳファイルを編集する。次に、ユーザは、音声ＸＭＬハイパーリンクを加える必要がある部分を入力またはマークして、対応するアイコンを呼び出し、そして対応するハイパーリンク・アドレスを入力する。
【００１７】
図８は、本発明の１つの好ましい実施形態に従い、リアルタイム記録オーディオ音声ＸＭＬプロンプトにハイパーリンクを加える手順を示すフローチャートであり、ユーザがグラフィック・ユーザ・インターフェースの編集エリアにおいて音声ＸＭＬハイパーリンクを加える必要がある部分を入力するとき、音声認識技術が、この部分に一致する部分をリアルタイム記録オーディオ・ストリーム内で見つけるために使用されなければならない。
【００１８】
添付の図面とともに、好ましい実施形態を説明してきた。当業者には、種々の変更および修正が発明の精神および範囲から外れることなく行うことができることは理解されよう。本発明はすべての変更および修正を含み、そして発明の範囲は請求項によって定義されるのみである。
【図面の簡単な説明】
【００１９】
【図１】１つのオーディオ情報にハイパーリンクを加える方法およびユーザがハイパーリンクと対話する方法を示す。
【図２】本発明の１つの好ましい実施形態に従って、音声ＸＭＬファイルを自動的に生成するためのシステムのブロック図である。
【図３】本発明の１つの好ましい実施形態に従うグラフィック・ユーザ・インターフェースを示す。
【図４】本発明の別の好ましい実施形態に従うグラフィック・ユーザ・インターフェースを示す。
【図５】本発明の１つの好ましい実施形態に従い、図２に示したシステムを用いて音声ＸＭＬファイルを自動的に生成するためのアクション・ストリームを示す。
【図６】本発明の１つの好ましい実施形態に従い、図２に示したシステムを用いて音声ＸＭＬファイルを自動的に生成するためのアクション・ストリームを示す。
【図７】本発明の１つの好ましい実施形態に従い、ＴＴＳ音声ＸＭＬストリームへハイパーリンクを加えるための手順を示すフローチャートである。
【図８】本発明の１つの好ましい実施形態に従い、リアルタイム記録オーディオ音声ＸＭＬストリームへハイパーリンクを加えるための手順を示すフローチャートである。
【符号の説明】
【００２０】
１０１グラフィック・ユーザ・インターフェース
１０２音声ＸＭＬタグ・ジェネレータ
１０３音声ＸＭＬファイル・ジェネレータ
１０４ブロードキャスティング・コンテンツ・メモリ
１０５ユーザ・アクション・ストリーム・レコーダ
１０６音声認識装置
１０７音声ＸＭＬタグ・ライブラリ
１０８音声ＸＭＬ構文ライブラリ

Claims

自動的に音声ＸＭＬファイルを生成するための方法であって、
各々が音声ＸＭＬの１つまたはそれ以上の属性に対応する複数のアイコンを定義するためのグラフィック・ユーザ・インターフェースを提供するステップと、
前記グラフィック・ユーザ・インターフェースにおいて前記アイコンを呼び出すユーザのアクション・ストリームを記録するステップと、
前記音声ＸＭＬファイルを生成するために音声ＸＭＬタグのライブラリに基づいて前記アクション・ストリームを解釈するステップと
を含む、方法。
前記グラフィック・ユーザ・インターフェースは、自動的に音声ＸＭＬファイルのための１つまたはそれ以上のオーディオ・ハイパーリンクを加えるためのグラフィック・ユーザ・インターフェースを含み、
前記グラフィック・ユーザ・インターフェースにおいて定義された各々のアイコンは、ハイパーリンクの種類に対応する、
請求項１に記載の方法。
ＴＴＳ音声ＸＭＬファイルのために前記ハイパーリンクを加えるとき、前記ユーザが前記グラフィック・ユーザ・インターフェースの編集エリアにおいて前記ＴＴＳ音声ＸＭＬファイルを編集し、前記ハイパーリンクを加える部分をマークまたは入力し、対応するアイコンを呼び出し、対応するハイパーリンク・アドレスを入力する、
請求項２に記載の方法。
前記ハイパーリンクが加えられる必要がある前記音声ＸＭＬファイルがリアルタイム記録オーディオ音声ＸＭＬストリームであるとき、前記ユーザは前記グラフィック・ユーザ・インターフェースの前記編集エリアにおいて前記ＴＴＳ音声ＸＭＬファイルを編集し、前記ハイパーリンクを加える前記部分をマークまたは入力し、対応する前記アイコンを呼び出し、対応する前記ハイパーリンク・アドレスを入力し、
音声ＸＭＬタグのライブラリに基づいて前記アクション・ストリームを解釈するとき、音声認識技術が前記ユーザによって入力された前記部分に一致する部分を前記リアルタイム記録オーディオ音声ＸＭＬストリーム内で見つけるために適用される、
請求項２に記載の方法。
ユーザが前記グラフィック・ユーザ・インターフェースの前記編集エリアにおいて何回も前記ハイパーリンクを加える同じ部分をマークまたは入力し、同じハイパーリンク属性を呼び出すとき、ＴＴＳ音声ＸＭＬストリーム全体または前記リアルタイム記録オーディオ音声ＸＭＬストリーム全体用のハイパーリンクが一括して加えられる、
請求項３または４に記載の方法。
自動的に音声ＸＭＬファイルを生成するためのシステムであって、
各々が音声ＸＭＬの１つまたはそれ以上の属性に対応する複数のアイコンを定義するためのグラフィック・ユーザ・インターフェースと、
音声ＸＭＬタグのライブラリに基づいてアクション・ストリームを解釈し、対応する前記音声ＸＭＬタグを生成するための音声ＸＭＬタグ・ジェネレータと、
音声ＸＭＬ構文に従い、再生されるコンテンツと前記音声ＸＭＬタグ・ジェネレータによって生成された前記タグを結合することによって、前記音声ＸＭＬファイルを生成するための音声ＸＭＬファイル・ジェネレータと
を含む、システム。
前記グラフィック・ユーザ・インターフェースは、自動的に音声ＸＭＬファイルのためのオーディオ・ハイパーリンクを加えるためのグラフィック・ユーザ・インターフェースを含み、
前記グラフィック・ユーザ・インターフェースにおいて定義された各々のアイコンは、ハイパーリンクの種類に対応する、
請求項６に記載のシステム。
ＴＴＳ音声ＸＭＬストリームのために前記ハイパーリンクを加えるとき、ユーザが前記グラフィック・ユーザ・インターフェースの編集エリアにおいて前記ＴＴＳ音声ＸＭＬファイルを編集し、前記ハイパーリンクを加える部分をマーキングまたはタイピングし、対応する前記アイコンを呼び出し、対応するハイパーリンク・アドレスをタイピングする、
請求項７に記載のシステム。
リアルタイム記録オーディオ音声ＸＭＬストリームのために前記ハイパーリンクを加えるとき、ユーザは前記グラフィック・ユーザ・インターフェースの前記編集エリアにおいて前記ＴＴＳ音声ＸＭＬファイルを編集し、前記ハイパーリンクを加える前記部分をマーキングまたはタイピングし、対応する前記アイコンを呼び出し、対応する前記ハイパーリンク・アドレスをタイピングし、
音声ＸＭＬタグのライブラリに基づいて前記アクション・ストリームを解釈するとき、前記ユーザによって入力された前記部分に一致する部分を前記リアルタイム記録オーディオ音声ＸＭＬストリーム内で見つけるために音声認識技術を適用する、
請求項７に記載のシステム。
ユーザが前記グラフィック・ユーザ・インターフェースの前記編集エリアにおいて何回も前記ハイパーリンクを加える同じ部分をマークまたは入力し、同じハイパーリンク属性を呼び出すとき、前記ＴＴＳ音声ＸＭＬストリーム全体または前記リアルタイム記録オーディオ音声ＸＭＬストリーム全体用のハイパーリンクを一括して加える、
請求項８または９に記載のシステム。