JP2004030395A - Htmlデータ利用情報端末およびプログラム - Google Patents

Htmlデータ利用情報端末およびプログラム Download PDF

Info

Publication number
JP2004030395A
JP2004030395A JP2002187945A JP2002187945A JP2004030395A JP 2004030395 A JP2004030395 A JP 2004030395A JP 2002187945 A JP2002187945 A JP 2002187945A JP 2002187945 A JP2002187945 A JP 2002187945A JP 2004030395 A JP2004030395 A JP 2004030395A
Authority
JP
Japan
Prior art keywords
data
html
voicexml
vxml
cpu
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002187945A
Other languages
English (en)
Inventor
Yoshihiro Kawagoe
川越 義広
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2002187945A priority Critical patent/JP2004030395A/ja
Publication of JP2004030395A publication Critical patent/JP2004030395A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Stored Programmes (AREA)

Abstract

【課題】既存のHTMLデータを利用して、VXMLデータを簡単に作成する情報端末を提供すること。
【解決手段】CPU1は、HTML要素とVXML要素との対応関係が定義されている一次変換テーブル参照して、HTMLデータを中間コードに変換する。CPU1は、一次変換テーブルでは特定できないVXML要素の特別アトリビュート値を二次変換テーブルを参照して、変換前のHTMLデータから取得する。CPU1は、取得した特別アトリビュート値を中間コードに挿入して、最終的なVXMLデータを完成する。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、SGML系言語で記述されたデータを利用する情報端末に関し、より特定的には、HTMLおよびVoiceXMLで記述されたデータを利用する情報端末に関する。
【0002】
【従来の技術】
近年、通信技術の発展に伴い、パーソナルコンピュータや携帯電話、PDA(Personal Digital Assistants)、カーナビゲーション装置等を用い、インターネットを介してWWWサーバに接続し、必要な情報を容易に取得することが可能となってきた。
【0003】
その一方で、通信ネットワークの大規模化に伴い、ユーザが所望の情報にアクセスするための操作手順が複雑化する傾向にある。操作手順の複雑化は、コンピュータの操作に不慣れな初心者ユーザがネットワークを利用する際の障壁の一つとなっている。また、カーナビゲーションシステム等では、運転中の操作を容易にするために、音声指示に基づいて、所望の情報を取得することが要求される。
【0004】
上記のような状況の下、所望の情報を容易に取得するためのソフトウェアが盛んに開発されている。特に、音声指示に基づいて情報を入手したいというニーズが非常に高い。
【0005】
このようなニーズに対応すべく、最近、VoiceXML(Voice Extensible Markup Language、以下、VXMLと略記する)を用いてインターネットコンテンツを作成し、音声指示に基づいて情報を入手するためのソフトウエアが提案されている。このソフトウエアを用いると、電話等からVXMLサーバに音声指示を与えることによって、所望の情報を音声で取得することが可能となる。
【0006】
VXMLは、音声対応型のWeb記述言語であり、ユーザの問いかけに対して、どのように答えるか等の「対話フロー(シナリオ)」を記述するための言語である。たとえば、VXMLを利用したシステムでは、ユーザに対して利用案内(ガイダンス)を読み上げたり、ユーザが音声で指定できる選択肢を読み上げたり、ユーザの音声内容に応じて別のシナリオを起動したりする。
【0007】
「日経BP社、日経コミュニケーション、2001/12/17号、140頁〜145頁」には、VXMLについての記述がある。図15は、VXMLを利用した従来のシステムの構造を示す図である。図15において、従来のシステムは、電話機900と、電話網901と、VXMLサーバ902と、VXMLデータサーバ903と、音声認識サーバ904とを備える。
【0008】
VXMLサーバ902は、電話網を901を介して、電話機900からの音声を受け付ける。音声認識サーバ904は、VXMLサーバ902が受け付けた音声を分析し、予め登録されている辞書と照合して音声を文字データに変換する。音声認識サーバ904は、変換後の文字データをVXMLサーバ902に返す。VXMLサーバ902は、音声認識サーバ904からの文字データに基づいて、必要なVXML文書をVXMLデータサーバ903から読み出し、合成音声に変換して出力する。電話機900は、VXMLサーバ902が出力した合成音声をスピーカから出力して、音声情報をユーザに提供する。このように、ユーザは、音声による指示を与えるだけで、所望の情報を音声で入手することができる。
【0009】
【発明が解決しようとする課題】
しかし、VXMLを利用したシステムは試験的な段階であり、VXMLによる本格的なコンテンツが存在しないのが現状である。したがって、VXMLによるコンテンツの数は、HTMLによるコンテンツと比べて非常に少ない。現在豊富に存在するHTMLによるインターネットコンテンツのように、VXMLによるインターネットコンテンツが普及するためには、新たにVXMLによるコンテンツを作成する必要がある。ところが、新たにVXMLによるコンテンツを作成するのは、非常に手間がかかる。
【0010】
それゆえ、本発明の目的は、既存のHTMLデータを利用して、VXMLデータを簡単に作成して利用することができる情報端末を提供することである。
【0011】
【課題を解決するための手段】
第1の発明は、HTMLデータを利用する情報端末であって、
所望のHTMLデータを取得する取得手段と、
取得手段が取得したHTMLデータをVoiceXMLデータに変換する変換手段と、
変換手段によって得られるVoiceXMLデータを構文解釈して実行する実行手段とを備える。
【0012】
上記第1の発明により、HTMLデータがVoiceXMLデータに変換されることとなる。
【0013】
第2の発明は、第1の発明に従属する発明であって、HTMLデータは、複数のHTML要素から成り立っており、VoiceXMLデータは、複数のVoiceXML要素から成り立っており、
変換手段は、
HTML要素とVoiceXML要素との対応関係が定義されている一次変換テーブルを記憶する一次変換テーブル記憶部と、
一次変換テーブルでは特定できないVoiceXML要素上の属性値を、当該VoiceXML要素に対応しない他のHTML要素から取得するために、変換前のHTMLデータ上でのその取得先を定義した二次変換テーブルを記憶する二次変換テーブル記憶部と、
一次変換テーブルを参照して、HTMLデータをVoiceXML要素が集まった中間コードに変換する一次変換手段と、
二次変換テーブルを参照して、一次変換手段では特定できなかったVoiceXML要素上の属性値を、HTMLデータに含まれる他のHTML要素から取得して、中間コードを最終的なVoiceXMLデータに変換する二次変換手段とを含む。
【0014】
上記第2の発明により、二段階の単純なテーブル変換によって、HTMLデータがVoiceXMLデータに変換されることとなる。
【0015】
第3の発明は、第1の発明に従属する発明であって、一次変換テーブルには、ユーザの操作慣れ度合いに応じてHTML要素とVoiceXML要素との対応関係が定義されており、
一次変換手段は、ユーザの操作慣れ度合いに応じて中間コードを作成する。
【0016】
上記第3の発明により、ユーザの慣れ度合いに応じたVoiceXMLデータが作成されることとなる。
【0017】
第4の発明は、第3の発明に従属する発明であって、さらに、操作慣れ度合いが登録されている慣れ度合い登録部と、
ユーザの操作履歴に基づいて、慣れ度合い登録部に登録されている操作慣れ度合いを自動的に変更する慣れ度合い変更手段とを備える。
【0018】
上記第4の発明により、慣れ度合いが自動的に変更されることとなる。
【0019】
第5の発明は、第1の発明に従属する発明であって、実行手段は、変換手段によって得られるVoiceXMLデータの実行中にHTMLデータの取得指示が与えられた場合、取得手段に必要なHTMLデータを取得させ、当該HTMLデータを変換手段に変換させる。
【0020】
上記第5の発明により、VoiceXMLデータにHTMLデータのリンクが貼られていたとしても、そのHTMLデータを取得することが可能となる。
【0021】
第6の発明は、第1の発明に従属する発明であって、実行手段は、VoiceXMLデータによる初期案内を実行する。
【0022】
上記第6の発明により、音声操作による初期操作が可能となる。
【0023】
第7の発明は、第1の発明に従属する発明であって、文字表示するための表示部をさらに備え、
実行手段は、音声出力を行う場合、出力音声に対応する文字を表示部に表示させる。
【0024】
上記第7の発明により、出力音声に対応する文字が表示されることとなる。
【0025】
第8の発明は、第1の発明に従属する発明であって、文字表示するための表示部をさらに備え、
実行手段は、音声が入力された場合、入力音声に対応する文字を表示部に表示させる。
【0026】
上記第8の発明により、入力音声に対応する文字が表示されることとなる。
【0027】
第9の発明は、HTMLデータを利用するコンピュータ装置で実行されるプログラムであって、
所望のHTMLデータを取得するステップと、
取得したHTMLデータをVoiceXMLデータに変換するステップと、
変換によって得られるVoiceXMLデータを構文解釈して実行するステップとを備える。
【0028】
第10の発明は、第9の発明に従属する発明であって、HTMLデータは、複数のHTML要素から成り立っており、VoiceXMLデータは、複数のVoiceXML要素から成り立っており、
VoiceXMLデータに変換ステップでは、
HTML要素とVoiceXML要素との対応関係が定義されている一次変換テーブルを参照して、HTMLデータをVoiceXML要素が集まった中間コードに変換し、
一次変換テーブルでは特定できないVoiceXML要素上の属性値を、当該VoiceXML要素に対応しない他のHTML要素から取得するために、変換前のHTMLデータ上でのその取得先を定義した二次変換テーブルを参照して、当該VoiceXML要素上の属性値を取得して、中間コードを最終的なVoiceXMLデータに変換する。
【0029】
第11の発明は、第9の発明に従属する発明であって、VoiceXMLデータを構文解釈して実行するステップでは、
変換後のVoiceXMLデータの実行中にHTMLデータの取得指示が与えられた場合、必要なHTMLデータを取得して、当該HTMLデータをVoiceXMLデータに変換する。
【0030】
【発明の実施の形態】
(第1の実施形態)
図1は、本発明の第1の実施形態に係る情報端末10の構成を示す図である。図1において、情報端末10は、CPU1と、RAM2と、操作装置3と、通信装置4と、表示装置5と、音声出力装置6と、音声認識装置7と、記憶装置8とを備える。
【0031】
記憶装置8は、ハードディスクや半導体メモリ等であって、一次変換テーブル、二次変換テーブル、HTMLデータ、VXMLデータ、変換プログラムおよびVXMLプログラムを格納している。HTMLデータは、HTMLで記述されたデータである。VXMLデータは、VXMLで記述されたデータである。変換プログラムは、HTMLデータをVXMLデータに変換するためのプログラムである。VXMLプログラムは、VXMLデータを構文解釈して実行するプログラムである。
【0032】
HTMLやVXML等のSGML系言語では、論理構造を表現するためにタグと呼ばれる記号を用いる。タグには、開始タグと終了タグとが存在する。SGML系言語では、開始タグと終了タグとの間に内容を記述する。開始タグ、内容および終了タグをあわせて、要素と呼ぶ。HTMLデータおよびVXMLデータは、複数の要素で構成される。開始タグは、要素名、属性名(アトリビュート名ともいう)および属性値で構成される。要素名は、要素の大まかな役割を示す。属性名は、要素のより詳細な役割を示す。属性値は、要素名および属性名で指定されている役割を実行するための値である。
【0033】
具体的には、SGML形言語の要素は、
<要素名 属性名=”属性値”>内容</要素名>
といった構造となる。ここで、「<要素名 属性名=”属性値”>」が開始タグ、「</要素名>」が終了タグである。以下の説明では、要素と言った場合、開始タグ、内容および終了タグの全体を意味する他、開始タグのみ、終了タグのみも意味するものとする。
【0034】
たとえば、HTMLにおける「<a href=”file.html”>ファイル名</a>」では、「a」が要素名であり、「href」が属性名であり、「file.html」が属性値であり、「ファイル名」が内容である。
【0035】
一次変換テーブルには、原則として、HTML上の要素(以下、HTML要素という)に一対一に対応するVXML上の要素(以下、VXML要素という)が定義されている。例外的に、文字サイズを示すタグなど、いずれのVXML要素にも対応しないHTML要素が存在するので、そのようなHTML要素については、無視すべきタグであるとして、一次変換テーブル上で定義されている。
【0036】
あるVXML要素のある特別な属性値については、当該VXML要素に対応しない他のHTML要素から取得する必要がある。このような特別な属性値をもつ属性名を特別アトリビュートと呼ぶことにする。二次変換テーブルには、変換前のHTMLデータ上において、特別アトリビュート値(特別アトリビュートの属性値のこと)の取得先が定義されている。
【0037】
図2は、一次変換テーブルの一例を示す図である。図2において、HTML要素上での「***」(または「###」)は、属性値または内容を示す。VXML要素上での「***」(または「###」)は、一対一対応するHTML要素上での「***」(または「###」)と同一である。
【0038】
例えば、HTML要素「<INPUT type=”text” name=”***”>」に対応するVXML要素は、「<field name=”***”><prompt>データ入力を行って下さい</prompt></field>」である。この例のように、HTML要素が開始タグのみであったとしても、対応するVXML要素では、HTML要素での役割を音声で説明するために、内容を含めた形の要素となる場合がある。
【0039】
また、例えば、HTML要素「<FORM action=”***”>」に対応するVXML要素は、「<form>」である。この例のように、HTMLの開始タグとVXMLの開始タグとが一対一対応する場合もある。
【0040】
さらに、文字サイズに関するHTML要素「<H1>」は、無視タグとして定義されている。
【0041】
図2では、特別アトリビュート値が「¥¥¥」(または「???」)で示されている。例えば、VXML要素「<submit next=”¥¥¥” namelist=”***”>」では、要素名「submit」の属性名「next」が特別アトリビュートとなている。特別アトリビュート値は、二次変換テーブルでの定義に従い、一次変換テーブルにおいて一対一対応していない他のHTML要素から取得する必要がある。
【0042】
図3は、二次変換テーブルの一例を示す図である。図3に示すように、二次変換テーブルには、特別アトリビュートの属性値を取得する先のHTML要素が定義されている。例えば、特別アトリビュート「submit next」の属性値は、HTML要素「直近の<FORM action=”¥¥¥”>」から取得すればよいことが定義されている。ここで「直近の<FORM action=”¥¥¥”>」は、認識したHTMLタグが存在する行から最も近い若い行に存在するHTML要素「<FORM action=”¥¥¥”>」から特別アトリビュート値を取得することを意味する。なお、これ以外に、特別アトリビュート値の取得先の指定方法としては、特定のタグ内に存在する属性値を取得先として指定する方法などがある。
【0043】
CPU1は、中央処理装置であって、記憶装置8に格納されている変換プログラム若しくはVXMLプログラムを実行することによって通信装置4、表示装置5、音声出力装置6、音声認識装置7および記憶装置8の動作を制御する。RAM2は、CPU1が読み出し/書き込みできる記憶装置である。
【0044】
音声認識装置7は、ユーザが発する音声を認識し、文字データとしてCPU1に送る。音声出力装置6は、CPU1からの命令に従い、合成音声を出力する。表示装置5は、CPU1からの命令に従い、文字や画像等を表示する。操作装置3は、キーボードやマウス、ボタンスイッチ等であって、ユーザの操作に応じて、CPU1の動作を制御するための信号を出力する。通信装置4は、CPU1からの命令に従い、インターネットを介してHTMLデータやVXMLデータをダウンロードする。ダウンロードされたデータは、記憶装置8に格納される。
【0045】
図4は、変換プログラムを実行したときのCPU1の動作を示すフローチャートである。以下、図4を参照しながら、変換プログラムを実行したときのCPU1の動作について説明する。
【0046】
まず、CPU1は、タグ単位毎にHTMLデータを先頭から順に認識する(ステップS101)。次に、CPU1は、一次変換テーブルを参照する(ステップS102)。次に、CPU1は、一次変換テーブルの参照結果に基づいて、対応するVXML要素を認識して、認識したVXML要素を中間コードとして、RAM2上に順番に格納していく(ステップS103)。
【0047】
図5は、上記ステップS103における中間コード格納処理の詳細を示すフローチャートである。以下、図5を参照しながら、中間コード格納処理について説明する。まず、CPU1は、認識したHTMLタグが一次変換テーブル上でどのように対応付けられているか否かを判断する(ステップS1031)。
【0048】
一次変換テーブル上でのHTMLタグの対応付けは、3種類のパターンに分類される。第1のパターンは、HTMLタグ単体がVXML要素と対応付けられている場合である。図2の例では、たとえば、HTMLタグ「<FORM action=”***”>」が第1のパターンによって対応付けられている。第2のパターンは、HTMLタグが開始タグであるとき、当該開始タグから終了タグまでをまとめた形で、HTMLタグがVXML要素と対応付けられている場合である。図2の例では、たとえば、HTMLタグ「<a href=”***”>」が第2のパターンによって対応付けられている。第3のパターンは、HTMLタグに対応付けられるVXML要素が存在しない場合である。図2の例では、たとえば、HTMLタグ<H1>が第3のパターンによって対応付けられている。
【0049】
上記ステップS103の判断において、認識したHTMLタグが第1のパターンによって対応付けられていると判断した場合、CPU1は、HTML要素から属性値を取得して、対応するVXML要素にその属性値を入力して中間コードを作成し(ステップS1032)、ステップS1035の動作に進む。
【0050】
上記ステップS1031の判断において、認識したHTMLタグが第2のパターンによって対応付けられていると判断した場合、CPU1は、HTML要素から属性値および/または内容を取得して、対応するVXML要素にその属性値および/または内容を入力して中間コードを作成する(ステップS1033)。次に、CPU1は、上記ステップS101でHTMLタグを認識する際、次の開始タグまで飛ばして認識するようにRAM2上に登録しておき(ステップS1034)、ステップS1035の動作に進む。ステップS1035の動作において、CPU1は、作成した中間コードをRAM2上に順番に格納して処理を終了する。
【0051】
上記ステップS1031の判断において、認識したHTMLタグが第3のパターンによって対応付けられていると判断した場合、CPU1は、そのまま処理を終了する。
【0052】
再び、図4に戻って説明を続ける。中間コードを作成したCPU1は、作成した中間コードに特別アトリビュートが存在するか否かを判断する(ステップS104)。存在しない場合、CPU1は、HTMLデータを全部変換し終えたか否か判断する(ステップS105)。全部変換し終えた場合、CPU1は、RAM2上の中間コードをVXMLデータとして記憶媒体8に格納し(ステップS110)、処理を終了する。一方、全部変換し終えていない場合、CPU1は、ステップS101の動作に戻り、次のHTMLタグを認識する。この際、RAM2上で次の開始タグまで飛ばしてタグ認識するように指定されている場合、CPU1は、そこまで飛ばしてタグ認識を行う。
【0053】
上記ステップS104の判断において、作成した中間コードに特別アトリビュートが存在すると判断した場合、CPU1は、二次変換テーブルを参照する(ステップS106)。次に、CPU1は、HTMLデータ上において、二次変換テーブルで指定されている取得先から特別アトリビュート値を取得する(ステップS107)。次に、CPU1は、取得した特別アトリビュート値をRAM2上に格納してある中間コードに挿入する(ステップS108)。
【0054】
次に、CPU1は、HTMLデータを全部変換し終えたか否か判断する(ステップS109)。全部変換し終えた場合、CPU1は、RAM2上の中間コードをVXMLデータとして記憶媒体8に格納し(ステップS110)、処理を終了する。一方、全部変換し終えていない場合、CPU1は、ステップS101の動作に戻り、次のHTMLタグを認識する。この際、RAM2上で次の開始タグまで飛ばしてタグ認識するように指定されている場合、CPU1は、そこまで飛ばしてタグ認識を行う。
【0055】
図6は、変換前のHTMLデータおよび一次変換テーブルによって作成される中間コードの一例を示す図である。図7は、二次変換テーブルによって完成するVXMLデータの一例を示す図である。以下、図6および図7を参照しながら、変換プログラムを実行するCPU1の動作を具体的に説明する。
【0056】
CPU1は、変換前のHTMLデータを先頭のタグから順に読む。まず最初に、CPU1は、HTMLタグ「<HTML>」を読み出す。CPU1は、一次変換テーブルを参照して、これをVXML要素「<vxml>」に変換する。次に、CPU1は、HTMLタグ「<HEAD>」を読み出す。一次変換テーブル上において、「<HEAD>###</HEAD>」は無視タグとして定義されているので、CPU1は、中間コードを作成せずに次のタグを読む。HTMLタグ「<BODY>」についても、CPU1は、無視して次のタグに進む。
【0057】
次に、CPU1は、HTMLタグ「<FORM action=”送信URL”>」を読み出す。これに対し、CPU1は、一次変換テーブルを参照して、これをVXML要素「<form>」に変換する。次に、CPU1は、HTMLタグ「<INPUT type=”text” name=”InputData”>」を読み出す。これに対し、CPU1は、これをVXML要素「<field name=”InputData><prompt>データ入力を行って下さい</prompt>」に変換する。
【0058】
次に、CPU1は、HTMLタグ「<INPUT type=”submit” name=”指定”>」を読み出す。これに対し、CPU1は、これをVXML要素「<submit next=”¥¥¥” namelist=”指定”>」に変換し、中間コードを作成する。ここで、属性「submit next」は、特別アトリビュートであるので、その属性値Sa1は「¥¥¥」となっている。特別アトリビュートが含まれている場合、CPU1は、二次変換テーブルを参照して、特別アトリビュート値の取得先を認識する。特別アトリビュート「submit next」の取得先は、先ほど認識したHTMLタグの直近に存在するHTML要素「<FORM action=”¥¥¥”>」である。したがって、CPU1は、HTMLタグ「<INPUT type=”submit” name=”指定”>」の2行上に存在するHTML要素「<FORM action=”¥¥¥”>」から特別アトリビュート値Sb1として「送信URL」を取得する。CPU1は、取得した特別アトリビュート値「送信URL」を中間コード「<submit next=”¥¥¥” namelist=”指定”>」の「¥¥¥」に挿入する。挿入後のコードが図7に示すVXMLデータの6行目に示されている。
【0059】
以下、同様にして、CPU1は、順番にHTMLタグを読み込んでいき、VXML中間コードを作成する。作成した中間コードに特別アトリビュートが含まれる場合、CPU1は、適時、二次変換テーブルを参照して、特別アトリビュート値をHTMLデータから取得する。図6の例では、属性値Sa2,Sa3が特別アトリビュートの属性値となっている。HTMLデータ上、属性値Sa2,Sa3には、特別アトリビュート値Sb2,Sb3が対応する。図7に示すように、CPU1は、特別アトリビュート値も全て挿入して、最終的なVXMLデータを完成する。
【0060】
図8は、VXMLプログラムを実行したときのCPU1の動作を示すフローチャートである。以下、図8を参照しながら、VXMLプログラムを実行したときのCPU1の動作について説明する。まず、CPU1は、記憶装置8から初期案内用のVXMLデータを読み出す(ステップS601)。
【0061】
次に、CPU1は、読み出したVXMLデータを順次構文解釈して実行する(ステップS602)。次に、CPU1は、構文を実行したことによって、インターネットを介してデータを取得するための音声指示がユーザから与えられたか否かを判断する(ステップS603)。インターネットからデータを取得するための指示が与えられていない場合、CPU1は、ステップS602の動作に戻り、VXMLデータの構文解釈実行を続ける。一方、インターネットからデータを取得するための指示が与えられた場合、CPU1は、取得すべきデータの種類を判断する(ステップS604)。
【0062】
取得すべきデータの種類がHTMLデータである場合、CPU1は、通信装置4に取得元のURLを送信し、HTMLデータをダウンロードするように指示を与える(ステップS605)。次に、CPU1は、通信装置4が受信したHTMLデータを取得する(ステップS606)。次に、CPU1は、変換プログラムを実行して、取得したHTMLデータをVXMLデータに変換し(ステップS607)、ステップS602の動作に戻って、変換後のVXMLデータを構文解釈して実行する。
【0063】
一方、ステップS604の動作において、取得すべきデータの種類がVXMLデータであると判断した場合、CPU1は、通信装置4に取得元のURLを送信し、VXMLデータをダウンロードするように指示を与える(ステップS608)。次に、CPU1は、通信装置4が受信したVXMLデータを取得する(ステップS609)。次に、CPU1は、ステップS602の動作に戻って、取得したVXMLデータを構文解釈して実行する。なお、ステップS603の判断において、CPU1は、データの取得先が記憶装置8であるか否かを判断して、ステップS606またはS609において、記憶装置8からデータを取得するようにしてもよい。
【0064】
このように、第1の実施形態では、HTML要素とVXML要素との対応関係が定義されている一次変換テーブルを参照して、まず、HTMLデータを大まかな中間コードに変換する。その後、二次変換テーブルを参照して、一次変換テーブルでは特定できない特別アトリビュート値を変換前のHTMLデータ上から取得して、最終的にVXMLデータを完成する。これにより、二段階のテーブル変換という単純な処理によって、複雑なHTMLデータをVXMLデータに簡単に変換することが可能となる。したがって、既存のHTMLデータを利用して、VXMLデータを簡単に作成して利用することができる情報端末を提供することが可能となる。
【0065】
また、変換後のVXMLデータにHTMLデータのリンクが貼られていたとしても、通信装置を介してHTMLデータを動的に取得し、VXMLデータに変換することが可能となるので、全てをVXMLデータによって処理することが可能となる。これは、カーナビゲーション装置や携帯電話を用いて情報を取得する場合など、全てを音声による指示で操作することが可能となる。また、初心者にとっても、容易に操作を行うことができる情報端末が提供される。
【0066】
なお、変換プログラムでは、HTMLデータを一括でVXML上の中間コードに変換した後、特別アトリビュート値を一括で挿入するようにしてもよい。
【0067】
なお、市販のHTMLデータ作成ソフトを利用してHTMLデータを作成した後、変換プログラムを用いてVXMLデータを作成するといった使い方も有効である。これにより、独自のVXMLデータを容易に作成することが可能となる。
【0068】
(第2の実施形態)
図9は、第2の実施形態に係る一次変換テーブルの一例を示す図である。第2の実施形態に係る一次変換テーブルは、操作の慣れ度合い(以下、レベルという)に応じてHTML要素に対応するVXML要素を定義する。レベルは、記憶装置8に登録されている。
【0069】
たとえば、初級レベルでは、ユーザが入力した音声を再確認することができるVXML要素が定義されている。確認作業を要する場合、別途、入力された音声を文字データに変換するための文法ファイルが必要な場合がある。したがって、一次変換テーブルでは、VXML要素に対応する文法ファイルも併せて定義されている。なお、レベルに関係なくVXML要素が同一の場合も存在する。
【0070】
たとえば、図9に示すように、HTML要素「<INPUT type=”submit” name=”***”>」には、初級レベルとして、入力された音声「***」で良いか否かを確認するためのVXML要素が対応付けられている。このVXML要素を実行するためには文法ファイルが必要であるので、一次変換テーブルでは、対応する文法ファイルも同時に定義されている。上級レベルなど、文法ファイルの定義が不要な場合は、対応する文法ファイルの定義は存在しない。
【0071】
図10は、第2の実施形態に係る変換プログラムを実行する際のCPU1の動作を示すフローチャートである。以下、図10を参照しながら、第2の実施形態に係る変換プログラムを実行する際のCPU1の動作について説明する。なお、第1の実施形態に係る変換プログラムと同様の動作を行うステップについては、同一のステップ番号を付し、説明を簡単にする。
【0072】
まず、CPU1は、タグ単位毎にHTMLデータを先頭から順に認識する(ステップS101)。次に、CPU1は、記憶装置8に登録されているレベルを認識に、レベルに応じて一次変換テーブルを参照する(ステップS302)。次に、CPU1は、認識したレベルに対応するVXML要素を取得して中間コードを作成する(ステップS303)。このとき、必要であれば、CPU1は、一次変換テーブルに定義されている文法ファイルを取得して、RAM2に格納しておく。
【0073】
次に、CPU1は、作成した中間コードに特別アトリビュート値を挿入して中間コードを完成させる(ステップS104〜S109)。その後、CPU1は、完成した中間コードをVXMLデータとし、RAM2に格納されている文法ファイルと共に記憶媒体8に格納し(ステップS310)、処理を終了する。
【0074】
このように、第2の実施形態では、操作の慣れ度合いに応じて、HTMLデータをVXMLデータに変換することができるので、初心者から上級者まで、幅広くVXMLデータを利用することができる情報端末を提供することが可能となる。慣れ度合いが低いユーザに対しては、より詳細な入力サポートや入力確認を提供することができる。慣れ度合いが高いユーザに対しては、入力サポートや入力確認を簡素化することができる。
【0075】
(第3の実施形態)
第3の実施形態では、VXMLプログラム上での構文解釈実行処理(図8、ステップS602参照)に特徴がある。図11は、第3の実施形態に係る構文解釈実行処理を行ったときのCPU1の動作を示すフローチャートである。以下、図11を参照しながら、構文解釈実行処理を行ったときのCPU1の動作について説明する。まず、CPU1は、VXMLデータの構文を解釈する(ステップS201)。次に、CPU1は、解釈した構文を順序に従って実行する(ステップS202)。
【0076】
次に、CPU1は、構文を実行した際、音声を出力したか否かを判断する(ステップS203)。音声出力した場合、CPU1は、出力音声に対応する文字を表示装置5に表示させ(ステップS204)、処理を終了する。一方、音声を出力していない場合、CPU1は、ステップS205の動作に進む。
【0077】
ステップS205の動作において、CPU1は、構文を実行した際、音声が入力されたか否かを判断する。音声が入力されている場合、CPU1は、入力音声を文字にして表示部5に表示させ(ステップS206)、処理を終了する。一方、音声が入力されていない場合、CPU1は、そのまま処理を終了する。
【0078】
このように、第3の実施形態では、サポート表示として、出力音声および入力音声が文字としても同時に表示されるので、音声と同時に文字も見ながらVXMLデータに基づく操作を行うことができる。したがって、初心者等のVXMLデータに基づく操作が不慣れなユーザでも、操作が容易となる。
【0079】
また、ユーザ側での聞き逃しや聞き間違いを回避することができる。
【0080】
(第4の実施形態)
上記第2の実施形態では、ユーザレベルに応じて、丁寧に音声案内を行うことを目的とした。しかし、ユーザは、操作に慣れてくれば、丁寧な音声案内が煩わしく感じる。第4の実施形態では、操作の慣れ度合いに応じて、レベルを自動的に変更する。CPU1は、VXMLプログラムの実行に先立ち、レベル変更プログラムを実行して、必要ならばユーザのレベルを変更する。
【0081】
第4の実施形態では、記憶装置8にユーザの使用履歴を管理するための履歴管理テーブルが格納されている。図12は、記憶装置8に格納されている履歴管理テーブルの一例を示す図である。図12に示すように、履歴管理テーブルには、ユーザ名に対応して、レベル、利用履歴、および繰り返し確認履歴が登録されている。利用履歴は、VXMLデータを利用した履歴を示す。繰り返し確認履歴は、音声入力に失敗したために、ユーザが再度の音声入力を行った履歴を示す。
【0082】
CPU1は、VXMLプログラムにおける構文解釈実行処理中に履歴管理テーブルを作成していく。図13は、第4の実施形態に係る構文解釈実行処理(図8、ステップS602参照)を行うときのCPU1の動作を示すフローチャートである。以下、図13を参照しながら、構文解釈実行処理を行うときのCPU1の動作について説明する。
【0083】
まず、CPU1は、VXMLデータを読み出した日時を利用履歴として履歴管理テーブルに登録する(ステップS401)。次に、CPU1は、VXMLデータの構文を解釈する(ステップS402)。次に、CPU1は、解釈した構文を実行する(ステップS403)。次に、CPU1は、音声の再入力処理を実行したか否かを判断する(ステップS404)。再入力処理があった場合、CPU1は、現在の時刻を繰り返し確認履歴として履歴管理テーブルに登録し(ステップS405)、処理を終了する。再入力処理がなかった場合、CPU1は、そのまま処理を終了する。
【0084】
図14は、レベル変更プログラムを実行したときのCPU1の動作を示すフローチャートである。以下、図14を参照しながら、レベル変更プログラムを実行したときのCPU1の動作について説明する。
【0085】
まず、CPU1は、履歴管理テーブルを参照する(ステップS501)。次に、CPU1は、履歴管理テーブルにおける利用履歴を参照して利用回数を算出し、繰り返し確認履歴を参照して音声再入力の回数を算出し、利用回数から音声再入力回数を差し引いた数が基準値より大きいか否かを判断する(ステップS502)。基準値より大きい場合、音声の再入力頻度が少なくなっていることを意味するので、CPU1は、履歴管理テーブルに登録されているレベルをアップし(ステップS503)、処理を終了する。一方、基準値以下である場合、音声の再入力頻度が多く、操作に不慣れであることを意味するので、CPU1は、ユーザレベルを下げて(ステップS504)、処理を終了する。上記ステップS503において、最高レベルまで達している場合は、CPU1は、レベルの変更を行わないものとする。また、上記ステップS504において、最低レベルまで達している場合は、CPU1は、レベルの変更を行わないものとする。
【0086】
このように、第4の実施形態では、操作の慣れ度合いに応じてレベルを自動的に変更するので、操作の慣れ度合いに応じて、VXMLデータを自動的に変換する情報端末を提供することが可能となる。
【0087】
【発明の効果】
以上のように本発明は、HTMLデータをVXMLデータに変更することができるので、対話形式の音声操作が可能なVXMLデータを簡単に作成して利用することが可能となる。
【0088】
また、HTML要素とVXML要素との対応関係が定義されている一次変換テーブルを参照して、まず、HTMLデータを大まかな中間コードに変換する。その後、二次変換テーブルを参照して、一次変換テーブルでは特定できない属性値値を変換前のHTMLデータ上から取得して、最終的にVXMLデータを完成する。これにより、二段階のテーブル変換という単純な処理によって、複雑なHTMLデータをVXMLデータに簡単に変換することが可能となる。したがって、既存のHTMLデータを利用して、VXMLデータを簡単に作成して利用することができる情報端末を提供することが可能となる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態に係る情報端末10の構成を示す図である。
【図2】第1の実施形態に係る一次変換テーブルの一例を示す図である。
【図3】第1の実施形態に係る二次変換テーブルの一例を示す図である。
【図4】第1の実施形態に係る変換プログラムを実行したときのCPU1の動作を示すフローチャートである。
【図5】ステップS103における中間コード格納処理の詳細を示すフローチャートである。
【図6】変換前のHTMLデータおよび一次変換テーブルによって作成される中間コードの一例を示す図である。
【図7】二次変換テーブルによって完成するVXMLデータの一例を示す図である。
【図8】第1の実施形態に係るVXMLプログラムを実行したときのCPU1の動作を示すフローチャートである。
【図9】第2の実施形態に係る一次変換テーブルの一例を示す図である。
【図10】第2の実施形態に係る変換プログラムを実行する際のCPU1の動作を示すフローチャートである。
【図11】第3の実施形態に係る構文解釈実行処理を行ったときのCPU1の動作を示すフローチャートである。
【図12】記憶装置8に格納されている履歴管理テーブルの一例を示す図である。
【図13】第4の実施形態に係る構文解釈実行処理(図8、ステップS602参照)を行うときのCPU1の動作を示すフローチャートである。
【図14】レベル変更プログラムを実行したときのCPU1の動作を示すフローチャートである。
【図15】VXMLを利用した従来のシステムの構造を示す図である。
【符号の説明】
10 情報端末
1 CPU
2 RAM
3 操作装置
4 通信装置
5 表示装置
6 音声出力装置
7 音声認識装置
8 記憶装置

Claims (11)

  1. HTMLデータを利用する情報端末であって、
    所望のHTMLデータを取得する取得手段と、
    前記取得手段が取得したHTMLデータをVoiceXMLデータに変換する変換手段と、
    前記変換手段によって得られるVoiceXMLデータを構文解釈して実行する実行手段とを備える、情報端末。
  2. 前記HTMLデータは、複数のHTML要素から成り立っており、前記VoiceXMLデータは、複数のVoiceXML要素から成り立っており、
    前記変換手段は、
    HTML要素とVoiceXML要素との対応関係が定義されている一次変換テーブルを記憶する一次変換テーブル記憶部と、
    前記一次変換テーブルでは特定できないVoiceXML要素上の属性値を、当該VoiceXML要素に対応しない他のHTML要素から取得するために、変換前のHTMLデータ上でのその取得先を定義した二次変換テーブルを記憶する二次変換テーブル記憶部と、
    前記一次変換テーブルを参照して、前記HTMLデータをVoiceXML要素が集まった中間コードに変換する一次変換手段と、
    前記二次変換テーブルを参照して、前記一次変換手段では特定できなかったVoiceXML要素上の属性値を、前記HTMLデータに含まれる他のHTML要素から取得して、前記中間コードを最終的なVoiceXMLデータに変換する二次変換手段とを含む、請求項1に記載の情報端末。
  3. 前記一次変換テーブルには、ユーザの操作慣れ度合いに応じてHTML要素とVoiceXML要素との対応関係が定義されており、
    前記一次変換手段は、ユーザの操作慣れ度合いに応じて前記中間コードを作成する、請求項1に記載の情報端末。
  4. さらに、前記操作慣れ度合いが登録されている慣れ度合い登録部と、
    ユーザの操作履歴に基づいて、前記慣れ度合い登録部に登録されている操作慣れ度合いを自動的に変更する慣れ度合い変更手段とを備える、請求項3に記載の情報端末。
  5. 前記実行手段は、前記変換手段によって得られるVoiceXMLデータの実行中にHTMLデータの取得指示が与えられた場合、前記取得手段に必要なHTMLデータを取得させ、当該HTMLデータを前記変換手段に変換させる、請求項1に記載の情報端末。
  6. 前記実行手段は、VoiceXMLデータによる初期案内を実行する、請求項1に記載の情報端末。
  7. 文字表示するための表示部をさらに備え、
    前記実行手段は、音声出力を行う場合、出力音声に対応する文字を前記表示部に表示させる、請求項1に記載の情報端末。
  8. 文字表示するための表示部をさらに備え、
    前記実行手段は、音声が入力された場合、入力音声に対応する文字を前記表示部に表示させる、請求項1に記載の情報端末。
  9. HTMLデータを利用するコンピュータ装置で実行されるプログラムであって、
    所望のHTMLデータを取得するステップと、
    取得したHTMLデータをVoiceXMLデータに変換するステップと、
    変換によって得られるVoiceXMLデータを構文解釈して実行するステップとを備える、プログラム。
  10. 前記HTMLデータは、複数のHTML要素から成り立っており、前記VoiceXMLデータは、複数のVoiceXML要素から成り立っており、
    前記VoiceXMLデータに変換ステップでは、
    HTML要素とVoiceXML要素との対応関係が定義されている一次変換テーブルを参照して、前記HTMLデータをVoiceXML要素が集まった中間コードに変換し、
    前記一次変換テーブルでは特定できないVoiceXML要素上の属性値を、当該VoiceXML要素に対応しない他のHTML要素から取得するために、変換前のHTMLデータ上でのその取得先を定義した二次変換テーブルを参照して、当該VoiceXML要素上の属性値を取得して、前記中間コードを最終的なVoiceXMLデータに変換する、請求項9に記載のプログラム。
  11. 前記VoiceXMLデータを構文解釈して実行するステップでは、
    変換後のVoiceXMLデータの実行中にHTMLデータの取得指示が与えられた場合、必要なHTMLデータを取得して、当該HTMLデータをVoiceXMLデータに変換する、請求項9に記載のプログラム。
JP2002187945A 2002-06-27 2002-06-27 Htmlデータ利用情報端末およびプログラム Pending JP2004030395A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002187945A JP2004030395A (ja) 2002-06-27 2002-06-27 Htmlデータ利用情報端末およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002187945A JP2004030395A (ja) 2002-06-27 2002-06-27 Htmlデータ利用情報端末およびプログラム

Publications (1)

Publication Number Publication Date
JP2004030395A true JP2004030395A (ja) 2004-01-29

Family

ID=31182833

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002187945A Pending JP2004030395A (ja) 2002-06-27 2002-06-27 Htmlデータ利用情報端末およびプログラム

Country Status (1)

Country Link
JP (1) JP2004030395A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007265410A (ja) * 2006-03-29 2007-10-11 Internatl Business Mach Corp <Ibm> グラフィカル・インターフェースを音声使用可能インターフェースに変換するための部分的に自動化された方法およびシステム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007265410A (ja) * 2006-03-29 2007-10-11 Internatl Business Mach Corp <Ibm> グラフィカル・インターフェースを音声使用可能インターフェースに変換するための部分的に自動化された方法およびシステム

Similar Documents

Publication Publication Date Title
US7546382B2 (en) Methods and systems for authoring of mixed-initiative multi-modal interactions and related browsing mechanisms
US8862478B2 (en) Speech translation system, first terminal apparatus, speech recognition server, translation server, and speech synthesis server
CN100424632C (zh) 用于高级交互接口的语义对象同步理解
US8781840B2 (en) Retrieval and presentation of network service results for mobile device using a multimodal browser
AU2004201992B2 (en) Semantic object synchronous understanding implemented with speech application language tags
KR100661687B1 (ko) 대화형 음성 응답 애플리케이션 구현 장치 및 방법, 머신 판독가능 매체 및 대화형 음성 응답 시스템
US20050071171A1 (en) Method and system for unified speech and graphic user interfaces
JPH07222248A (ja) 携帯型情報端末における音声情報の利用方式
JP2008145769A (ja) 対話シナリオ生成システム,その方法およびプログラム
JP3927800B2 (ja) 音声認識装置及び方法、プログラム、並びに記憶媒体
JP2017102939A (ja) オーサリング装置、オーサリング方法、およびプログラム
KR20130008663A (ko) 사용자 인터페이스 방법 및 장치
JP2004030395A (ja) Htmlデータ利用情報端末およびプログラム
JP2003202890A (ja) 音声認識装置及びその方法、プログラム
JP2005266009A (ja) データ変換プログラムおよびデータ変換装置
JP2004287756A (ja) 電子メール作成装置及び電子メール作成方法
KR100986443B1 (ko) 보이스 엑스엠엘 문서에서 음성인식 그래마없이 음성인식및 녹음을 수행하는 방법
Oria et al. Automatic generation of speech interfaces for Web-based applications
Katsurada et al. XISL: A modality-independent MMI description language
CN116956826A (zh) 一种数据处理方法、装置、电子设备和存储介质
EP1455282A1 (en) Markup language extension enabling speech recognition for controlling an application
JP2002023786A (ja) 口語文形式テキスト作成装置及びテキスト音声変換装置
JP2016161735A (ja) オーサリング装置、オーサリング方法、およびプログラム