JP4415546B2

JP4415546B2 - 音声対話処理装置とそのプログラム

Info

Publication number: JP4415546B2
Application number: JP2003000412A
Authority: JP
Inventors: 圭輔渡邉; 泰石川
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2003-01-06
Filing date: 2003-01-06
Publication date: 2010-02-17
Anticipated expiration: 2023-01-06
Also published as: JP2004212715A

Description

【０００１】
【発明の属する技術分野】
この発明は、ユーザが音声により装置とのインタラクションを行う音声対話処理装置に関するものであり、特に，グラフ構造や木構造を持つ文書あるいはアプリケーションソフトウエアのＧＵＩ（ＧｒａｐｈｉｃＵｓｅｒＩｎｔｅｒｆａｃｅ）階層メニューなどに対して、動的に音声認識対象語句を決定し、音声認識辞書を生成する音声対話処理装置に関するものである。
【０００２】
【従来の技術】
インターネット上やシステム内部の記憶装置に格納されたＨＴＭＬ文書のように、文書が相互にリンクされたハイパーテキストを、音声によって閲覧する音声ブラウザが提案されている（例えば特許文献１）。
【０００３】
しかし、そのような音声ブラウザは、現在閲覧中の文書に含まれるリンク先については音声指令により閲覧ができるが、閲覧中の文書において直接リンクのない文書に対しては音声での閲覧はできないという問題があった。例えば、天気情報を提供している文書において、まず、北海道、東北など地方別の文書へのリンクがあり、次に、各地方の文書では県別の文書へのリンクがあり、さらに、各県の文書では各市区町村別の文書へのリンクがある場合、鎌倉市の天気情報を閲覧するには、まず「関東」と音声指令し、関東の文書が読み込まれた後に「神奈川県」と音声指令し、さらに、神奈川県の文書が読み込まれた後に、「鎌倉市」と音声指令しなければならず、直接「鎌倉市の天気」と音声指令することはできない。
【０００４】
このような問題を解決するために、一般的に普及しているブラウザの持つ登録ページ呼び出し機能（例えば「お気に入り」「ブックマーク」などのショートカット）に対して音声による指令を可能とするような「音声駆動可能なユーザインターフェイス」が提案されている（例えば特許文献２）。
【０００５】
このような従来の音声駆動可能なユーザインターフェイスによれば、文書の登録名と所在とをショートカットリストに予め登録しておくことで、現在閲覧している文書に直接リンクされていない文書であっても、音声により閲覧することができる。例えば、頻繁に閲覧する「鎌倉市の天気」に関する文書を、その登録名と所在とをショートカットリストに登録しておくことで、「鎌倉市の天気」という音声命令により、直接閲覧することが可能となる。
【０００６】
【特許文献１】
特開平１０-１２４２９３号公報（第４−６頁、第１図、第７図、第８図）
【０００７】
【特許文献２】
特開２００２-１７５１７５号公報（第３−５頁、第１図）
【０００８】
【発明が解決しようとする課題】
しかしながら、上記に示したような従来の音声駆動可能なユーザインターフェイスでは、登録名と所在をショートカットリストに予め登録しておかなければ、閲覧中の文書に含まれるリンク先以外の文書を音声で閲覧することはできないという問題があった。
【０００９】
本発明は、上述のような課題を解決するためになされたもので、グラフ構造や木構造のような、互いにリンクを持つ文書あるいはアプリケーションソフトウエアのＧＵＩ階層メニューその他のデータに対して、現在閲覧中の文書、あるいは現在選択中のメニュー項目から、直接リンクされていない文書あるいはメニュー項目に対する音声認識辞書を動的に生成し、それら直接リンクされていない文書あるいはメニュー項目を音声命令により直接閲覧あるいは選択できる音声対話処理手段を得ることを目的とするものである。
【００１０】
【課題を解決するための手段】
本発明に係る音声対話処理装置は、起点データから始まる階層によって階層化されたデータであって、少なくとも一部に多階層のデータを含む複数のデータの間の関係を、データを表すタイトルとこのタイトルにより表されるデータの記憶位置とを有する節点と、データ間の結合を表す枝と、からなるグラフ構造として表現し出力するグラフ構造出力手段と、前記グラフ構造に基づいて、前記タイトルと前記データの記憶位置とを関連づけて記憶する音声認識辞書を生成し出力する音声認識辞書作成手段と、音声を入力する音声入力手段と、前記音声入力手段が入力した音声と前記音声認識辞書が記憶するタイトルの音声表現とを照合し一致したタイトルが表すデータの記憶位置を出力する音声認識手段とを備える音声対話処理装置において、前記グラフ構造出力手段は、前記起点データから前記階層を辿って得られる下位データが所定の条件を満たす場合に、前記起点データと前記下位データとの間の関係を、前記グラフ構造に表現し出力するものであって、重み係数が付与された前記複数のデータのうち、前記起点データから前記下位データに至る前記階層の経路上の各データの前記重み係数の合計値が、所定の値域内にあることを前記所定の条件とするものである。
【００１１】
【発明の実施の形態】
以下、本発明の実施の形態について説明する。
実施の形態１．
図１は本発明の実施の形態１における音声対話処理装置の構成図を示すものである。図において、音声対話処理装置１は、ユーザが閲覧したいＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）文書のタイトルを発声すると、その入力音声に基づいて、タイトルが表すＨＴＭＬ文書のＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）を出力する装置である。音声対話処理装置１において、記憶処理手段２は、複数のＨＴＭＬ文書をインターネットから収集し、かつ記憶する機能を備えた部位であって、具体的には記憶装置とコンピュータプログラムから構成され、一般的にはキャッシュ（Ｃａｃｈｅ）と呼ばれる機能を果たすものである。ここでいう記憶装置とは、具体的にはハードディスク装置やＣＤ−ＲＯＭ装置、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）のような不揮発性記憶装置及びＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）揮発性記憶装置のいずれであってもよく、またＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）やインターネットのようなネットワークを介してアクセスできる他のコンピュータの記憶装置であってもよい。グラフ構造出力手段３は、記憶処理手段２が記憶する各ＨＴＭＬ文書を節点とし、ＨＴＭＬ文書相互間のリンクを枝とするグラフ構造（特定の構造を有するデータ）に表現して出力する。また音声認識辞書作成手段４は、グラフ構造出力手段３が出力したグラフ構造から音声認識辞書を作成する。この音声認識辞書にはＨＴＭＬ文書名（リンクタイトル）とそのＨＴＭＬ文書の記憶位置が含まれている。音声認識手段４は、入力された音声と音声認識辞書におけるＨＴＭＬ文書のタイトルの音声表現とを照合し、一致したＨＴＭＬ文書のＵＲＬを出力する。またアプリケーションプログラム６とは、一般的にはインターネット閲覧ソフトあるいはインターネットブラウザと呼ばれるものであって、ユーザがＨＴＭＬ文書の閲覧を行うためのコンピュータプログラムである。
【００１２】
次に、実施の形態１における音声対話処理装置の処理について説明する。本音声対話処理装置における処理の大まかな流れとしては、次のようになる。すなわち、（１）記憶処理手段２によるＨＴＭＬ文書のキャッシュ処理（以下、処理１という）、（２）キャッシュされたＨＴＭＬ文書からのグラフ構造出力手段３によるグラフ構造出力（以下、処理２という）、（３）グラフ構造からの音声認識辞書作成手段による音声認識辞書生成（以下、処理３という）、（４）音声認識手段４による音声認識辞書を用いた入力音声の音声認識と記憶処理手段２及びグラフ構造出力手段３へのフィードバック（以下、処理４という）、の各処理が処理１→処理２→処理３→処理４の順で繰り返されるというものである。そこで次に、これらの各処理について説明する。
【００１３】
まず処理１について説明する。処理１とは、記憶処理手段２がＨＴＭＬ文書をキャッシュする処理である。インターネットには膨大な量のＨＴＭＬ文書が存在しており、これらすべてを一カ所に集約して記憶させることは現実的ではない。そこで記憶処理手段２は、所定の条件に基づいてＨＴＭＬ文書を収集し、記憶装置に記憶させる処理を行う。図２は、処理１を表すフローチャートである。図において、ステップＳ２０１はキャッシュを行う起点となるＵＲＬ（起点ＵＲＬ）を取得する処理である。起点ＵＲＬは、初期処理（音声対話処理装置１が最初に処理を行う場合）においては、ユーザからコンピュータに接続されたキーボードなどのユーザインターフェースから直接入力される。あるいは予め起点ＵＲＬをファイルなどに設定しておき、このファイルを読み込むことによって起点ＵＲＬを取得してもよい。さらにはアプリケーションプログラム６において直接ユーザが指定したＵＲＬを読み出すことによって、起点ＵＲＬを取得してもよい。ステップＳ２０１において記憶処理手段２は、さらに起点ＵＲＬを現在のＵＲＬに設定する。
【００１４】
続いてステップＳ２０２において、記憶処理手段２は現在のＵＲＬによって指定されるＨＴＭＬ文書をインターネットから取得して記憶する。インターネットからＨＴＭＬ文書を取得する方法については公知であるため、ここでは詳細な説明を省略する。さらにステップＳ２０３において、記憶処理手段２は現在のＨＴＭＬ文書の内容を解析し、このＨＴＭＬ文書がリンクを有しているＨＴＭＬ文書のＵＲＬを取得する。一般に、ＨＴＭＬ文書がリンクを有している他のＨＴＭＬ文書のＵＲＬは、ＨＴＭＬ文書中の＜Ａ＞タグを抽出することによって得られる。具体的には、＜ＡＨＲＥＦ＝”…”＞という＜Ａ＞タグ文字列の「ＨＲＥＦ＝”」より後から「”＞」の前までの文字列を切り出す。その結果、例えば＜Ａ＞タグ文字列が＜ＡＨＲＥＦ＝”ｈｔｔｐ：／／ｗｗｗ．ｊｐｏ．ｇｏｖ．ｊｐ”＞である場合には、ＵＲＬはｈｔｔｐ：／／ｗｗｗ．ｊｐｏ．ｇｏｖ．ｊｐとなる。一つのＨＴＭＬ文書には複数の＜Ａ＞タグが存在している場合があるので、そのような場合には、すべての＜Ａ＞タグについてＵＲＬの切り出しを行う。
【００１５】
ステップＳ２０４以降のステップは、ステップＳ２０３で取得したＵＲＬにより表されるＨＴＭＬ文書が複数ある場合には、各ＨＴＭＬ文書毎に処理を行う。続くステップＳ２０５において、抽出したＵＲＬにより表されるＨＴＭＬ文書がすでに記憶処理手段２によって記憶されているかどうかを検査する。すでにこのＨＴＭＬ文書が記憶されている場合（Ｓ２０５：ＹＥＳ）は、ステップＳ２０８に進む。まだ記憶されていない場合（Ｓ２０５：ＮＯ）には、ステップＳ２０６に進む。
【００１６】
ステップＳ２０６において、抽出したＵＲＬにより表されるＨＴＭＬ文書を、インターネットから新たに取得することが、所定の記憶条件に合致するかどうかを検査する。ここで所定の記憶条件とは、記憶処理手段２が取得するＨＴＭＬ文書に関する制限を与える条件であって、例えば起点ＵＲＬからのリンク階層数や、記憶するＨＴＭＬ文書の総数による制限、ＨＴＭＬ文書を記憶するのに利用可能な記憶容量などに基づく条件、その他の条件である。前述のとおり、インターネット上の膨大な数のＨＴＭＬ文書を無制限に収集することは現実的でない。そこで、所定の条件を定めて使用する計算機資源の消費を抑制するものである。その一方で、起点ＵＲＬからリンクを辿ることにより、アクセスしうるＨＴＭＬ文書を予め収集し、記憶しておくことにより、ネットワーク入出力回数が抑制できるため、処理を高速化できる。そこでこのような所定の条件を設けて、予めＨＴＭＬ文書を記憶することは計算機資源の節約と操作性向上のバランスを図るものである。Ｓ２０６では、この記憶条件に合致する場合（Ｓ２０６：ＹＥＳ）には、ステップＳ２０７に進み、合致しない場合（Ｓ２０６：ＮＯ）には、ステップＳ２０８に進む。
【００１７】
次にステップＳ２０７において、抽出したすべてのＵＲＬを現在のＵＲＬとして、Ｓ２０２〜Ｓ２０６の処理を行う。このような処理は、再帰呼び出しを用いて実現する方が適しているが、必ずしも再帰呼び出しを用いて実現しなければならないというものではなく、いわゆる繰り返し処理を用いても実現可能なものである。
【００１８】
次にステップＳ２０８では、ステップＳ２０３で取得したリンクＵＲＬのうち、未処理のＵＲＬ（Ｓ２０５〜Ｓ２０７までの処理を行っていないＵＲＬ）が存在するかどうか調べる。まだ存在する場合（Ｓ２０８；ＹＥＳ）はステップＳ２０９に進み、存在しない場合（Ｓ２０８：ＮＯ）は終了する。
【００１９】
以上に述べた処理１の具体的な例として、ユーザがＵＲＬ１で表される行政機関のホームページの閲覧を所望した場合について述べる。この場合、ＵＲＬ１が起点ＵＲＬとなるが、ＵＲＬ１は前述のとおり、コンピュータに接続されたキーボードなどのユーザインターフェース、あるいはアプリケーションプログラム６において直接ユーザが指定したＵＲＬを読み出すことによって取得される。これに対して処理１は、この行政機関のホームページのＨＴＭＬ文書を解析し、この文書にリンクされているＨＴＭＬ文書を収集して記憶する。図３は処理１によって記憶処理手段２が記憶するＨＴＭＬ文書の例である。図において、楕円は記憶処理手段２によってキャッシュされたＨＴＭＬを表しており、楕円の中の文字はそのＨＴＭＬ文書のＵＲＬ（ＵＲＬ１〜ＵＲＬ４５）である。また各楕円を接続する有向線は、一の楕円のＨＴＭＬ文書が矢印の指す楕円のＨＴＭＬ文書についてのリンクを有することを示しており、さらに有向線に付された文字は矢印の指す楕円のＨＴＭＬ文書のリンクタイトルである。図においては、処理１はＳ２０６の記憶条件として、起点ＵＲＬより３階層のリンクを辿って得られるＨＴＭＬ文書を収集する、という条件が設定されているものとする。以下、処理２以降では、この収集例に基づいて説明を進めることとする。
【００２０】
次に処理２について説明する。処理２は、処理１によってキャッシュされたＨＴＭＬ文書から、ＨＴＭＬ文書相互の関係をグラフ構造として表現し、そのデータを出力する処理であり、グラフ構造出力手段３によってなされる。図４は、このグラフ構造の概念を説明するための図である。図ではリスト構造、ツリー構造とグラフ構造のそれぞれについて、節点（ノード）と枝（リンクまたはブランチ、あるいは結合）の様子を示している。リスト構造においては、各節点は次の節点へのリンクを一つだけ有している。これに対してツリー構造においては、各節点は複数の節点へのリンクを有することが許される。最後にグラフ構造においては、各節点は複数の節点を有する場合がある点で、ツリー構造と同様であるが、循環リンクや双方向リンクを有している点が異なる。したがって循環リンクや双方向リンクの存在を除けば、グラフ構造はツリー構造と同じ概念であり、また循環リンク及び各節点が複数の節点へのリンクを有する場合があることを除けば、リスト構造と同じ概念となる。よってグラフ構造はツリー構造及びリスト構造を包含する概念である。
【００２１】
上述のとおり、実施の形態１におけるグラフ構造の節点は、個々のＨＴＭＬ文書に対応するものである。グラフ構造の節点は、実体としては所定の大きさを有する記憶装置上の領域である。グラフ構造において、各節点には、対応するＨＴＭＬ文書が有する他のＨＴＭＬ文書へのリンクのタイトル（各節点に対応するＨＴＭＬ文書中の文字列であって、他のＨＴＭＬ文書が関連づけられているもの）と、他のＨＴＭＬ文書のＵＲＬが記憶されている。また他のＨＴＭＬ文書についても、同じグラフ構造において節点が設けられている。そこで各節点には、対応するＨＴＭＬ文書にリンクされた他のＨＴＭＬ文書の節点の記憶領域を特定する情報も記憶されており、他のＨＴＭＬ文書の節点の記憶領域を特定する情報が、グラフ構造における枝の実体である。節点の記憶領域を特定する情報は、代表的なものとしては、ポインタと呼ばれるメモリ番地を直接示す情報を用いることが一般的であるが、オフセット値やインデックス値など、記憶領域を一意に識別しうる情報であればどのようなものであってもよい。またグラフ構造はメモリ上に配置しなければならないものではなく、例えばハードディスク装置などの不揮発性記憶装置上に配置してもよい。
【００２２】
図５は、処理２を表すフローチャートである。図５のステップＳ５０１では、処理１における起点ＵＲＬに対応するＨＴＭＬ文書であって、記憶装置２に記憶されたＨＴＭＬ文書について、このＨＴＭＬ文書における他のＨＴＭＬ文書へのリンク総数を取得する。他のＨＴＭＬ文書へのリンク総数を求めるには、そのＨＴＭＬ文書中の＜Ａ＞タグの個数を算出すればよい。なお、処理１においても、すでにＨＴＭＬ文書の内容を調べて、＜Ａ＞タグの抽出を行っているので、この結果を再利用してもよい。次にステップＳ５０２において、このリンク総数が０かどうかを検定し、０でない場合（Ｓ５０２：ＹＥＳ）には、ステップＳ５０３に進む。またリンク総数が０である場合（Ｓ５０２：ＮＯ）には、ステップＳ５０７に進む。ステップＳ５０７における処理については後述する。
【００２３】
次に、ステップＳ５０３において、現在のＨＴＭＬ文書に対応する節点を記憶するための領域を確保する。領域の確保は、通常オペレーティングシステムのメモリ管理機能あるいはメモリ管理機能を呼び出すライブラリモジュールなどによって行われる。節点の領域のサイズは、ステップＳ５０１で求められた他のデータへのリンク総数に基づいて決定される。またここでは、後述するリンクタイトル（意義は前述のとおり）やＵＲＬを節点に記憶させるために、それらのデータを格納するのに十分なサイズの領域を確保する。なおリンクタイトルやＵＲＬは処理１でもすでに抽出しているので、ステップＳ５０１と同様に、処理１において抽出したリンクタイトルやＵＲＬを再利用してもよい。続いて、ステップＳ５０４において、リンクしているＨＴＭＬ文書へのリンクタイトルとＨＴＭＬ文書のＵＲＬを節点に記憶させる。
【００２４】
次に、ステップＳ５０５において、現在のＨＴＭＬ文書がリンクしている他のＨＴＭＬ文書のそれぞれについて、処理２を実行する。後述のとおり、処理２は実行結果として、そのデータの節点を記憶するメモリ上のアドレスを返す。したがってステップＳ５０５を実行した時点で、現在のデータが参照している各データの節点が生成され、さらにその節点のアドレスも取得することになる。このような処理は、プログラムモジュールの再帰呼び出しを用いて実現すると実現しやすい。しかし必ずしも再帰呼び出しを用いることが必須ではなく、例えば単純なプログラムループによる繰り返しを用いても同様の処理が実現できる。
【００２５】
なお、ＨＴＭＬ文書においては、リンクを辿っていくうちに、すでに節点が生成済みのＨＴＭＬ文書に辿りつくことがある。このような場合には、新たな節点を生成せずに、すでに生成済みの節点のアドレスを取得するようにし、その節点から先にリンクされているＨＴＭＬ文書に対する処理は行わないようにする。こうすることにより、循環参照のような関係にあるＨＴＭＬ文書についても正しく参照関係を表現するものとなる。
【００２６】
次にステップＳ５０６において、節点に現在のＨＴＭＬ文書がリンクを有する他のＨＴＭＬ文書の節点のアドレスを記憶させる。この各データの節点のアドレスがグラフ構造の枝に相当するものである。続いてステップＳ５０７において、ステップＳ５０３で確保した現在のＨＴＭＬ文書の節点のアドレスを返す。ここで返されるアドレスは、現在のデータよりも上位の階層にあるデータの節点のメンバに納められるものである。またステップＳ５０２においてリンク総数が０であった場合には、節点のアドレスとしてＮＵＬＬを返す。ＮＵＬＬとは、これ以上各データを参照しないことを示す情報である。以上が処理２の内容である。
【００２７】
なお上記において、各ＨＴＭＬ文書の節点を生成する場合に、所定の条件に合致する範囲で節点を生成するようにしてもよい。例えば、起点ＵＲＬから所定の数の階層以内に存在するＨＴＭＬ文書についてのみ節点を生成するようにするというような条件を与え、この範囲でのみ、グラフ構造を生成するようにする。これは処理１のステップＳ２０６において所定の記憶条件に合致するＨＴＭＬ文書のみを収集することと同じ意義を有する。そのような場合には、処理１において階層数をカウントするためのカウンタを設け、図５のステップＳ５０５などで階層を下る際に、カウンタをインクリメントし、かつ所定の階層の数を超えるか否かを確認しながら処理するようにすればよい。なお、処理１の所定の記憶条件と、ここでの所定の条件は同じ条件である必要はない。一般には、処理１においてキャッシュされている範囲のＨＴＭＬ文書、あるいは処理１においてキャッシュされている範囲よりも狭い範囲のＨＴＭＬ文書について節点を生成するようにしておけば、高速にグラフ構造を生成することができる。
【００２８】
図６は、処理１によって記憶処理手段２が収集し記憶した図３のＨＴＭＬ文書に基づいて生成したグラフ構造の例である。図において、各楕円はグラフ構造の節点を表すものであって、図３の個々のＨＴＭＬ文書に対応するものである。この例においても、起点ＵＲＬは行政機関のホームページのＵＲＬ１である。またこの例では節点領域を生成する条件として、起点ＵＲＬより２階層のリンクを辿って得られるＨＴＭＬ文書を収集することを定めている。
【００２９】
次に処理３について説明する。処理３は、グラフ構造から音声認識辞書を作成する処理であって、音声認識辞書作成手段４によって処理される。以下、処理２により生成された図６のグラフ構造に基づいて音声認識辞書を生成する場合について説明する。音声認識辞書作成手段４は、グラフ構造の起点ＵＲＬの節点から各枝を辿り、各節点のタイトルと記憶位置を取得し、図７に示すような構成を有する音声認識辞書を生成する。
【００３０】
次に処理４について説明する。処理４は、作成された音声認識辞書を用いて入力された音声とタイトルとを照合し、一致したタイトルが表すデータの記憶位置を出力する処理であって、音声認識手段５によって行われる。音声認識手段５は、入力音声と処理３により作成された音声認識辞書のタイトルの音声表現とを照合し、一致したタイトルに対するデータの記憶位置を出力する。ここで、一般に音声認識処理では、認識対象語句の読み（例えば、認識対象語句の漢字表記「東京」に対して、ひらがななどで表記された「とーきょー」）が必要となる。音声認識手段５に入力された音声認識辞書中の各リンクタイトルに対する読みは、別途表記と読みの対応表と読み付与手段（図示せず）を設けて処理を行う。あるいは、予めグラフ構造出力手段３によるグラフ構造生成に認識対象語句と合わせて読みを記憶させておいてもよい。
【００３１】
ここで、ユーザが次の閲覧ページを指定するために「財務局」と発声したとする。すると、音声認識手段５は、この入力音声を認識し、認識結果「財務局」に対する記憶位置として、ＵＲＬ１９を出力する。音声認識手段５が記憶位置ＵＲＬ１９を出力すると、アプリケーションプログラム６（インターネットブラウザ）は、ＵＲＬ１９で指定されるページを表示する。
【００３２】
一方、この記憶位置ＵＲＬ１９は、記憶処理手段２とグラフ構造出力手段３にも出力される。記憶処理手段２は、このＵＲＬのＨＴＭＬ文書がリンクを有する他のＨＴＭＬ文書がキャッシュされているかどうかを調べ、キャッシュされていない場合は、インターネットからこのＨＴＭＬ文書を読み込む。また、グラフ構造出力手段３は、処理２を実行することによって、ＵＲＬ１９のＨＴＭＬ文書を起点ＨＴＭＬとするグラフ構造を再生成する。その後、音声認識辞書作成手段４は、処理３によってこのグラフ構造に対する音声認識辞書を再生成し、次の入力音声による閲覧文書の指定に備える。以上の動作を繰り返すことにより、ユーザは音声によるＨＴＭＬ文書の閲覧を行う。
【００３３】
以上より明らかなように、この音声対話処理装置によれば、現在閲覧中のＨＴＭＬ文書がリンクを有する他のＨＴＭＬ文書、及び他のＨＴＭＬ文書がリンクを有するＨＴＭＬ文書など、現在閲覧中のＨＴＭＬ文書から多階層のリンクを辿ったＨＴＭＬ文書を閲覧するのに必要な情報を有する音声認識辞書を動的に生成するので、現在閲覧しているＨＴＭＬ文書に直接リンクされていないＨＴＭＬ文書を予めショートカットリストなどに登録しておかなくても、音声で直接指定して閲覧することができるという効果を有する。
【００３４】
なお、実施の形態１においては、起点ＵＲＬが一つのみの場合について説明したが、複数の起点ＵＲＬを有するような構成も採用しても構わない。例えばアプリケーションプログラム６（インターネットブラウザ）のＵＲＬブックマーク中の複数のＵＲＬを起点ＵＲＬとして、複数のグラフ構造を生成するようにしてもよい。
【００３５】
また、実施の形態１では、記憶処理手段２と処理１を設け、ＨＴＭＬ文書へのアクセスについてユーザレスポンスの向上を図ったが、音声対話処理装置１に記憶処理手段２と処理１を設けることは必須ではない。例えば、記憶処理手段２を用いず、グラフ構造出力手段３自身がインターネットから必要なＨＴＭＬ文書を直接読み出すような構成にしても、ユーザの発話によって閲覧したいＨＴＭＬ文書のＵＲＬを特定するという実施の形態１の効果を奏する点は変わらない。さらに、記憶処理手段２と処理１を音声対話処理装置１とは別に構成されたインターネットプロキシサーバやゲートウェイサーバなどに置き換えることが可能なことはいうまでもない。
【００３６】
さらに、実施の形態１では、各データ（ＨＴＭＬ文書）を識別するタイトルとして、各ＨＴＭＬ文書において＜Ａ＞タグが付された文字列、すなわちリンクタイトルを用いたが、このようなタイトルの代わりに、例えば＜ＴＩＴＬＥ＞タグが付された文字列や、ＵＲＬのファイル名に相当する部分（”ｈｔｔｐ：／／ｗｗｗ．ｊｐｏ．ｇｏｖ．ｊｐ／ｉｎｄｅｘ．ｈｔｍ”であれば、ｉｎｄｅｘ．ｈｔｍの部分）をタイトルとして用いても構わない。またタイトルはＨＴＭＬ文書に由来する文字列である必要はなく、ＵＲＬを識別しうる名前であればどのようなものを用いてもよい。
【００３７】
また、実施の形態１における音声対話処理装置１を、これと同様の機能をコンピュータに実行させるコンピュータプログラムとして構成することも当然に可能である。このようなコンピュータプログラムは、記憶処理手段２による処理１を実行するコンピュータプログラムと、グラフ構造出力手段３による処理２を実行するコンピュータプログラムと、音声認識辞書生成手段４による処理３を実行するプログラムと、音声認識手段５による処理４を実行するプログラムを逐次コンピュータに実行させるプログラムである。
【００３８】
また、実施の形態１では、音声対話処理装置１とアプリケーションプログラム６とを別体のものとして構成したが、両者が一体化されていても構わない。具体的には、アプリケーションプログラム６の一部として、音声対話処理装置１の処理を行うような機能を実行する部位を設けるような構成としても構わない。
【００３９】
実施の形態２.
次に、本発明の実施の形態２について説明する。実施の形態２における音声対話処理装置も、実施の形態１と同様に、ユーザが閲覧したいＨＴＭＬ文書のタイトルを発声すると、その入力音声に基づいて、タイトルが表すＨＴＭＬ文書のＵＲＬを出力する装置である。実施の形態２における音声対話処理装置は、実施の形態１における音声対話処理装置と同様の構成をとるので、構成図としては図１を用いて説明する。したがって、実施の形態２の音声対話処理装置の構成部位については実施の形態１と同じ符号を付し、各構成部位の説明については省略する。
【００４０】
次に、実施の形態２における音声対話処理装置１の処理について説明する。実施の形態２における音声対話処理装置１においても、実施の形態１と同様に記憶処理手段２によるキャッシュ処理を行う。これは実施の形態１における処理１に相当するものである。ただし記憶処理手段２によって記憶される各ＨＴＭＬ中のリンクには重み係数が付与される点が、実施の形態１における処理１と異なる。ここで、重み係数とは、ＨＴＭＬ文書の重要度やアクセス頻度などを数値化したものであって、通常はＨＴＭＬ文書の提供者によって提供される。図８は、この処理によってキャッシュされたＨＴＭＬ文書の状況をを表した図である。図は、行政機関のホームページを起点ＵＲＬとしたキャッシュ中のＨＴＭＬ文書の関連を示す関連図であり、各リンク重み係数が付与されている。例えば、ＵＲＬ１で表されるＨＴＭＬ文書からＵＲＬ２で表されるＨＴＭＬ文書へのリンクに付与された矩形の中の数値１は、このリンクに付与された重み係数が１であることを表している。同様に、ＵＲＬ２で表されたＨＴＭＬ文書からＵＲＬ１０で表されたＨＴＭＬ文書へのリンクには重み係数２が付与されている。
【００４１】
続いて、グラフ構造出力手段３は、記憶処理手段２によってキャッシュされたＨＴＭＬ文書に基づいて、グラフ構造を出力する。そのための処理の具体的な内容は実施の形態１の処理２と同様であるが、一方で、グラフ構造として表現するＨＴＭＬ文書を、各リンクに付与された重み係数の総和が予め定めた値域内に属するように、キャッシュされたＨＴＭＬ文書の中から選択する点が、実施の形態１の処理２と異なる。すなわち例えば、起点ＵＲＬから辿って得られるリンク経路上の重み係数の総和が所定の値よりも小さいうちは、そのＨＴＭＬ文書についてグラフ構造の節点を生成する。このような処理は、”Ａ．Ｖ．エイホ他著、大野義夫訳、「データ構造とアルゴリズム」、培風館、１９８７”（以下、非特許文献１）のｐ．１８９に開示されているグラフの深さ優先探索アルゴリズムにおいて、辿った枝の重み係数の総和が予め定めた値以下の場合にのみ、探索を続ける、という条件を追加したアルゴリズムを用いて行ってもよい。図９は、起点ＵＲＬからのそれぞれのリンク経路上の重み係数の総和が３以下となることを満たすＨＴＭＬ文書を選択して生成したグラフ構造を表す概念図である。
【００４２】
次に、音声認識辞書作成手段４は、グラフ構造出力手段３の出力したグラフ構造に基づいて音声認識辞書を生成し、さらに音声認識手段５によって、この音声認識辞書を用いて、入力音声とリンクタイトルとの照合を行い、一致したＨＴＭＬ文書のＵＲＬを出力する。これらの処理は、実施の形態１における処理３及び処理４と同様であるので、説明を省略する。
【００４３】
以上より明らかなように、この音声対話処理装置によれば、ＨＴＭＬ文書へのリンクに重み係数を付与し、この重み係数に基づいて選択したＨＴＭＬ文書の関係についてグラフ構造を出力して、このグラフ構造から音声認識辞書を生成し、入力音声が指示するＨＴＭＬ文書のＵＲＬを出力することとしたので、例えば枝の重み係数をページのアクセス頻度などに基づいて与えておくことで、頻度の高いページを音声で直接指定できる範囲に含め、頻度の低いページは範囲に含めないようにすることが可能となる。
【００４４】
なお、上記の処理においては、静的に設定した重み係数を用いる例を示したが、動的に重み係数を変更するようにしても構わず、例えば、現在閲覧しているページ、あるいは閲覧開始時点から辿った枝と節点の履歴などに依存した重み係数を取るようにしても構わない。
【００４５】
実施の形態３．
次に、本発明の実施の形態３について説明する。実施の形態３における音声対話処理装置も、実施の形態１と同様に、ユーザが閲覧したいＨＴＭＬ文書のタイトルを発声すると、その入力音声に基づいて、タイトルが表すＨＴＭＬ文書のＵＲＬを出力する装置である。実施の形態３における音声対話処理装置は、実施の形態１における音声対話処理装置と同様の構成をとるので、構成図としては図１を用いて説明する。したがって、実施の形態３の音声対話処理装置の構成部位については実施の形態１と同じ符号を付し、各構成部位の説明については省略する。
【００４６】
次に、実施の形態３における音声対話処理装置１の処理について説明する。実施の形態３における音声対話処理装置１においても、実施の形態１と同様に記憶処理手段２によるキャッシュ処理を行う。これは実施の形態１における処理１に相当するものである。ここでは、図３に示した行政機関のホームページのＵＲＬを起点ＵＲＬとするＨＴＭＬ文書をキャッシュするものとする。
【００４７】
続いて、グラフ構造出力手段３は、記憶処理手段２によってキャッシュされたＨＴＭＬ文書に基づいてグラフ構造を出力する。この処理は、実施の形態１における処理２に相当するものであるが、ここでは記憶処理手段２によってキャッシュされたＨＴＭＬ文書から、起点ＵＲＬから辿ったリンクのリンクタイトルとして出現する語句の種類の総数が所定の値域条件を満たす範囲でＨＴＭＬ文書を選択し、グラフ構造を生成する。この処理は、非特許文献１のｐ．２１１に開示されているグラフの横型探索アルゴリズムにおいて、開始節点（起点ＵＲＬ）から訪問済みのＨＴＭＬ文書の節点までの枝に存在する音声認識対象語句の総数を保持するカウンタを加え、次に訪問すべき節点への枝に付与された音声認識対象語句の数と、カウンタに保持された総数との和が規定値以上の場合に探索を終了する、という条件を追加したアルゴリズムを用いることで実現できる。
【００４８】
以下、例えばリンクタイトルとして出現する語句の総数が２０以下であるという条件で、ＨＴＭＬ文書についてのグラフ構造を作成する処理について説明する。まず、節点ＵＲＬ１を開始節点として探索処理を開始する。この時点では、節点ＵＲＬ１のみが訪問済みであり、次の訪問先節点の候補はＵＲＬ１の表すＨＴＭＬ文書の有するリンクから、ＵＲＬ２、ＵＲＬ３、ＵＲＬ４、ＵＲＬ５、ＵＲＬ６、ＵＲＬ７となる。また、音声認識語語句の総数を保持するカウンタをＳとすると、Ｓに保持されている値は０である。
【００４９】
次に訪問すべき節点はＵＲＬ２であるが、節点ＵＲＬ１から節点ＵＲＬ２への枝に付与されたリンクタイトルの数は１であり、これとリンクタイトルの総数を保持するカウンタとの和は１である。これは規定値の２０より小さいため、節点ＵＲＬ２を訪問済みとし、Ｓの値を１だけ増加させた後、訪問先節点の候補にＵＲＬ８、ＵＲＬ９、ＵＲＬ１０を追加して探索を継続する。
【００５０】
このようにして、節点ＵＲＬ２１まで探索が進んだ時点でＳの値は２０となり、次に訪問すべき節点はＵＲＬ２２となるが、節点ＵＲＬ７から節点ＵＲＬ２２への枝に付与された音声認識対象語句の数は１であり、これとＳの値２０との和は２１となり規定値を越える。したがって、この時点で探索は終了し、グラフ構造出力部は、節点ＵＲＬ１〜ＵＲＬ２１からなる図１０に示すようなグラフ構造を出力する。
【００５１】
次に、音声認識辞書作成手段４は、グラフ構造出力手段３の出力したグラフ構造に基づいて音声認識辞書を生成し、さらに音声認識手段５によって、この音声認識辞書を用いて、入力音声とリンクタイトルとの照合を行い、一致したＨＴＭＬ文書のＵＲＬを出力する。これらの処理は、実施の形態１における処理３及び処理４と同様であるので、説明を省略する。
【００５２】
以上より明らかなように、この音声対話処理装置によれば、起点ＵＲＬからリンクを辿ることによって得られるＨＴＭＬ文書を、リンクタイトルに出現する語句の総数に基づいて選択することとしたので、音声認識の性能に応じた動的な音声認識辞書を生成することが可能となる。
【００５３】
なお、実施の形態３では、グラフ構造出力手段３においてリンクタイトルに出現する語句の総数を計算し、ＨＴＭＬ文書の数を絞り込んだが、同様の処理をグラフ構造出力手段３ではなく、音声認識辞書作成手段４における音声認識辞書作成処理で行うことも可能である。この場合には、グラフ構造出力手段の処理は実施の形態１の処理２と同様の処理とし、音声認識辞書作成手段４における処理において、グラフ構造中に出現するリンクタイトルのカウンタを設けて、このカウンタが所定の値域にある場合のみ、リンクタイトルとＵＲＬを有するレコードを出力するようにすればよい。
【００５４】
実施の形態４．
次に、本発明の実施の形態４について説明する。実施の形態４における音声対話処理装置も、実施の形態１と同様に、ユーザが閲覧したいＨＴＭＬ文書のタイトルを発声すると、その入力音声に基づいて、タイトルが表すＨＴＭＬ文書のＵＲＬを出力する装置である。実施の形態４における音声対話処理装置は、実施の形態１における音声対話処理装置と同様の構成によるので、構成図としては図１を用いて説明する。したがって、実施の形態４の音声対話処理装置の構成部位については実施の形態１と同じ符号を付し、各構成部位の説明については省略する。
【００５５】
次に、実施の形態４における音声対話処理装置１の処理について説明する。実施の形態４における音声対話処理装置１においても、実施の形態１と同様に記憶処理手段２によるキャッシュ処理を行う。これは実施の形態１における処理１に相当するものである。ここでは記憶処理手段２が、図１０に示した行政機関のホームページのＵＲＬ（ＵＲＬ１）を起点ＵＲＬとするＨＴＭＬ文書をキャッシュしているものとする。ここで図では、例えばＵＲＬ２のＨＴＭＬ文書からＵＲＬ１のＨＴＭＬ文書に戻る線が表されているが、これはＵＲＬ２のＨＴＭＬ文書からＵＲＬ１のＨＴＭＬ文書に戻るための、「戻る」というリンクをＵＲＬ２のＨＴＭＬ文書が有していることを示している。他にも「戻る」というリンクタイトルを付した線が複数個表されているが、これらはいずれも同様の意味を有している。
【００５６】
続いて、グラフ構造出力手段３は、記憶処理手段２によってキャッシュされたＨＴＭＬ文書に基づいてグラフ構造を出力する。この処理は、実施の形態１における処理２に相当するものであるが、処理２と異なる点は次の通りである。すなわち、ここではあるリンクが、同一のリンクタイトルを有するリンクであって、異なるＨＴＭＬ文書に対するリンクであることを検出した場合、これらのリンクタイトルは複数のＵＲＬに対応することになり、後に行う音声認識処理においてあいまい性を生ずることになる。そこでこのようなリンクについては、枝を生成しないこととする。
【００５７】
具体的には、あるリンクタイトルについて枝がすでに生成されている場合には、これと同一のリンクタイトルであって、異なるＨＴＭＬ文書を指すリンクについては、枝を生成しないようにしてもよいし、またキャッシュされている全てのＨＴＭＬ文書において、複数回出現し、異なるＨＴＭＬ文書を指すリンクタイトルのいずれについても、枝を生成しないようにしてもよい。図１０のＨＴＭＬ文書でいえば、前者の方法で処理すると、ＵＲＬ２で表されるＨＴＭＬ文書からＵＲＬ１で表されるＨＴＭＬ文書への「戻る」リンクと、ＵＲＬ４で表されるＨＴＭＬ文書からＵＲＬ１で表されるＨＴＭＬへの「戻る」リンク文書については枝を生成するが、ＵＲＬ８で表されるＨＴＭＬ文書からＵＲＬ２で表されるＨＴＭＬ文書へのリンクや、ＵＲＬ１３で表されるＨＴＭＬ文書からＵＲＬ４で表されるＨＴＭＬ文書へのリンクについては、枝を生成しないことになる。また後者の方法で処理すると、ＵＲＬ２で表されるＨＴＭＬ文書からＵＲＬ１で表されるＨＴＭＬ文書へのリンクと、ＵＲＬ４で表されるＨＴＭＬ文書からＵＲＬ１で表されるＨＴＭＬ文書へのリンク、その他図１０において出現する「戻る」というリンクタイトルを有するリンクについては、いずれも枝を作成しないことになる。図１２は前者の方法によって枝を選択し、かつ、起点ＵＲＬより２階層のリンクを辿って得られるＨＴＭＬ文書を収集して作成したグラフ構造である。
【００５８】
次に、音声認識辞書作成手段４は、グラフ構造出力手段３の出力したグラフ構造に基づいて音声認識辞書を生成し、さらに音声認識手段５によって、この音声認識辞書を用いて、入力音声とリンクタイトルとの照合を行い、一致したＨＴＭＬ文書のＵＲＬを出力する。これらの処理は、実施の形態１における処理３及び処理４と同様であるので、説明を省略する。
【００５９】
なお、音声認識手段５において、ユーザが次の閲覧ページを指定するために「環境」と入力したとすると、音声認識手段５は、入力音声を認識し、認識結果「環境」に対するＵＲＬとしてＵＲＬ５を出力する。このＵＲＬ５はアプリケーション６に出力される一方で、記憶処理手段２とグラフ構造出力手段３にも出力され、記憶処理手段２はキャッシュをリフレッシュし、さらにグラフ構造手段３はリフレッシュされたキャッシュの内容に基づいて、ＵＲＬ５を起点ＵＲＬとするグラフ構造を出力する。このグラフ構造のうち、重複して出現するリンクタイトルを有するリンクを未処理としたままのグラフ構造を説明のために図示すると、図１３のようになる。
【００６０】
図のように、ＵＲＬ５で表されるＨＴＭＬ文書には、ＵＲＬ１６、ＵＲＬ１７で表されるＨＴＭＬ文書の他、ＵＲＬ１で表されるＨＴＭＬ文書に対するリンクが含まれている。またリンクタイトル「戻る」を有するリンクとしては、ＵＲＬ５で表されるＨＴＭＬ文書からＵＲＬ１で表されるＨＴＭＬ文書へのリンク、ＵＲＬ１６で表されるＨＴＭＬ文書からＵＲＬ５で表されるＨＴＭＬ文書へのリンク、ＵＲＬ１７で表されるＨＴＭＬ文書からＵＲＬ５で表されるＨＴＭＬ文書へのリンクの３つがある。これらのリンクについては、上述したように重複したリンクタイトルに関する処理が行われる。具体的には、これらリンクタイトルを「戻る」とする３つのリンクのうち、ＵＲＬ５で表されるＨＴＭＬ文書からＵＲＬ１で表されるＨＴＭＬ文書へのリンクは、ＵＲＬ５で表されるＨＴＭＬ文書に直接含まれるリンクであるため、最初にこのリンクが処理される。その結果、このリンクに対する枝がグラフ構造として生成され、ＵＲＬ１６で表されるＨＴＭＬ文書からＵＲＬ５で表されるＨＴＭＬ文書へのリンク、ＵＲＬ１７で表されるＨＴＭＬ文書からＵＲＬ５で表されるＨＴＭＬ文書へのリンクについては枝を作成しない。その結果として作成されるグラフ構造は図１４のようになる。
【００６１】
以上より明らかなように、この音声対話処理装置によれば、グラフ構造出力手段３は、同じリンクタイトルのリンクが複数存在し、それらのリンクが異なるＨＴＭＬ文書を指すものである場合に、そのようなリンクに対する枝をグラフ構造に出力しない、あるいはそれらのリンクのうちの一つだけについて枝をグラフ構造に出力することとしたので、音声認識対象語を一意に定めることができる、という効果を奏する。
【００６２】
なお、上記において、複数存在する同一のリンクタイトルの検出をグラフ構造出力手段３で行ったが、このような検出処理を、グラフ構造出力手段３ではなく、音声認識辞書作成手段４で行っても構わない。すなわち、音声認識辞書を生成する際に、すでに登録したリンクタイトルと同一のリンクタイトルを再び登録しないように抑制したり、あるいはグラフ構造を先読みして複数回出現するリンクタイトルの登録を省略するように構成してもよい。
【００６３】
実施の形態５．
次に、本発明の実施の形態５について説明する。実施の形態１から実施の形態４においては、階層化されたデータとしてＨＴＭＬ文書を取り扱う例について示した。これに対して、実施の形態５においては、本発明による音声対話処理装置が、その他の階層化されたデータをも取り扱いうることを示すものである。実施の形態５における音声対話処理装置は、実施の形態１における音声対話処理装置と同様の構成によるので、構成図として図１を用いて説明する。したがって、実施の形態５の音声対話処理装置の構成部位については実施の形態１と同じ符号を付すこととする。
【００６４】
図１において、音声対話処理装置１は、ユーザの発声に基づいて階層化されたデータを選択し、その記憶位置を出力する。音声対話処理装置１において、記憶処理手段２は、階層化された複数のデータを収集、かつ、記憶する部位であって、具体的には記憶装置とコンピュータプログラムから構成され、一般的にはキャッシュ（Ｃａｃｈｅ）と呼ばれる機能を果たす。これらの具体的なハードウェア構成については、実施の形態１における音声対話処理装置１の記憶処理手段２と同様である。また記憶処理手段２という名称は、データを収集し、記憶する機能を有する装置を便宜的に表す名称として与えたものであって、実際には同時に全てのデータが記憶装置上に存在している必要はなく、例えばインターネット上のデータのうち、必要となるデータのみを一時的に記憶し、残りのデータについてはアクセスする必要性が発生するたびに、取得しに行くような構成としてもよい。またここでいう階層化された複数のデータとは、複数のデータ間にリンクやインデックス、ポインタなどによって相互の関連づけを有しているデータを指し、例えば実施の形態１で示したようなＨＴＭＬ文書を初めとするハイパーテキスト文書の他、ディレクトリ（フォルダ）をサポートするファイルシステムにより管理される各ファイル、関係データベースシステムにより管理されるデータ、ＧＵＩアプリケーションプログラムのメニューにおける各メニューコマンド、アイコンによって表現されたプログラムやデータなどを指している。これらのデータには、コンピュータのディスプレイを通してユーザが識別しうるタイトル（文字列）が付されており、タイトルとデータあるいは記憶処理手段２におけるデータの記憶位置が関連づけられている。ただしタイトルとデータあるいはデータの記憶位置とは一意に関連づけられている必要はない。したがってこれらのデータの中に同一のタイトルを有するデータが存在しても構わない。
【００６５】
グラフ構造出力手段３は、記憶処理手段２の記憶する階層化された複数のデータ間の関係をグラフ構造に表現して出力する手段である。音声認識辞書作成手段４は、前記グラフ構造に基づいてデータを表すタイトルとそのデータが記憶されている記憶位置との関連を記憶する音声認識辞書を生成する部位である。音声認識手段５については、入力した音声に一致した音声表現を有するタイトルが表すデータの記憶位置を出力する部位である。またアプリケーションプログラム６は、音声対話処理装置１が出力するデータの記憶位置に基づいてデータを読み込み、処理を行うコンピュータプログラムである。なお説明の便宜上、図１では音声対話処理装置１とアプリケーションプログラム６とは、別体のものとして示しているが、両者が一体化されていてもよい。
【００６６】
次に、音声対話処理装置１の処理について説明する。初めに、ＧＵＩアプリケーションプログラムのメニューを階層化されたデータとする場合について説明する。ＧＵＩアプリケーションプログラムのメニューの実現方法は、ＧＵＩシステムによって異なるが、代表的なＧＵＩシステムを例とすれば、メニューデータはメニューテンプレートと呼ばれるデータ構造に保持されている。図１５は、代表的なＧＵＩシステムにおけるメニューデータの保持方法を説明するための図である。図において、プログラム実行可能ファイル６０１はメニューデータを含むアプリケーションプログラムのバイナリーファイルであって、記憶処理手段２に記憶される。プログラム実行可能ファイル６０１は、プログラムリソース部と実行コード部、さらに図示せぬプログラムデータ部から構成される。プログラムリソース部は、このプログラムをＧＵＩシステムに適合させるためのデータが格納するための領域である。また実行コード部は、コンピュータのＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）に直接解釈される機械語の列が格納されている領域であり、プログラムデータ部は、プログラム初期化時にオペレーティングシステムのプログラムローダが初期化するメモリイメージが格納される領域である。このうち、メニューデータは、プログラムを起動した後に表示されるウィンドウをアイコン化した際に、表示されるプログラムアイコンのイメージデータやダイアログボックスと呼ばれる定型的な対話処理を行うためのウィンドウ表示用のデータなどとともに、プログラムリソース部に格納される。このようにプログラム実行可能ファイルに格納された状態のメニューデータを、メニューリソースと呼ぶこともある。
【００６７】
図１５のメニュー６０２は、プログラム実行可能ファイル６０１のプログラムリソース部に格納されたメニューリソースに基づいて、ＧＵＩシステムがこのプログラムを実行した際に画面に表示される。メニュー６０２は、メニュー階層１、メニュー階層２、メニュー階層３などの複数の階層から構成されている。メニュー階層１で示されるメニューは、プログラムのウィンドウの上部に表示されるいわゆるメニューバーを構成するものである。さらにメニューバーのそれぞれのメニュー項目の下位には他のメニュー（プルダウンメニュー）が存在する。メニュー６０２の場合であれば、ファイルというメニュー項目を選択するとメニュー階層２で示されるメニューがさらに表示される。さらにメニュー階層２のメニュー項目のうち、ファイル形式変換というメニュー項目を選択すると、メニュー階層３で示されるメニューが表示される。
【００６８】
また図１５のメニューリソース６０３は、メニュー６０２に対するプログラム実行可能ファイル６０１のプログラムリソース部におけるメニューリソースである。図に示すように、メニューリソースは各階層単位で記憶されており、それぞれの階層用のメニューリソースは、メニュー項目のタイトル（ファイル、編集など）とそれぞれのタイトルに対応するリソースＩＤから構成されるレコードを有している。メニュー項目のタイトルとは、メニューを表示した場合に、メニューの矩形内に表示される文字列であり、このメニューをユーザが選択した結果プログラムが実行する処理を簡略に表す言葉が選択される。これに対し、リソースＩＤとは、ある場合には他のメニューリソースを示すＩＤ値であり、また別の場合にはメニューを選択した場合に実行される処理に割り振られたＩＤ値である。ＧＵＩシステムは、選択されたメニュー項目に対応するリソースＩＤに相当するメニューリソースが存在する場合には、さらにそのメニューリソースを次の階層のメニューとして（例えば、メニュー階層１に対するメニュー階層２のように）表示する。一方、そのようなリソースＩＤに相当するメニューリソースが見いだせない場合には、処理に割り振られたＩＤであると判断して、プログラムにメニューが選択されたことを通知する。
【００６９】
グラフ構造出力手段３は、記憶装置２に記憶されたプログラム実行可能ファイルのプログラムリソース部を読み込むことによって、メニュー階層を取得し、グラフ構造を作成する。ＧＵＩシステムによっては、ライブラリモジュールやシステムコールレベルでこれらのプログラムリソースにアクセスするための機能を提供しているので、それらを利用してメニューデータを取得してもよい。またこの場合、各メニューリソースに含まれる他のメニューデータのリソースＩＤがこの記憶位置に相当する。このように、記憶位置とは、必ずしも物理的な情報である必要はなく、そのデータが記憶された位置を一意に識別できるような方法で表現された情報であれば、どのような表現形式を採用しても構わない。
【００７０】
次に、ディレクトリ（フォルダ）をサポートしたファイルシステムのファイルを階層化されたデータとする場合について説明する。この場合における記憶処理手段２は、ファイルシステムを格納する記憶装置そのものである。ファイルシステムにおけるファイルの階層はディレクトリファイルと呼ばれるファイルに保持されているので、グラフ構造出力手段３は、このディレクトリファイルを直接読み込むことによってファイルの階層を取得できるし、オペレーティングシステムが提供するファイルシステムアクセス用のライブラリルーチンを用いてファイルの階層を取得してもよい。これらの階層を取得することにより、グラフ構造出力手段３は、ファイルシステムからグラフ構造を出力する。なお、ファイルシステムにあっては、データの記憶位置は各ファイルのパスが相当する。
【００７１】
続いて、音声認識辞書作成手段４は、グラフ構造出力手段３が出力したグラフ構造に基づいて音声認識辞書を生成し、音声認識手段５は入力音声と音声認識辞書のタイトルとを照合する。そして一致したタイトルにより表されるデータの記憶位置を出力する。
【００７２】
以上より明らかなように、この音声対話処理装置によれば、階層化されたデータを参照する上で必要となるデータの記憶位置を音声によって特定するので、各階層を一つずつ辿ってデータを参照せずに音声による階層化データの参照や利用が可能となるという効果を奏する。
【００７３】
なお、上記においては、実施の形態２と同様に所定の重み係数に基づいてグラフ構造に含めるデータを選択するような構成としてもよいし、実施の形態３と同様に、データを表すタイトルの種類の総数が所定の値域に含まれる範囲で、データを選択するような構成としてもよい。さらに、実施の形態４と同様に曖昧さを排除するために、同一のタイトルを有するデータを排除する、あるいは同一のタイトルを有するデータのうち、一つのデータだけを採用するような構成としてもよい。
【００７４】
【発明の効果】
本発明は、階層化されたデータ間において、循環リンクや階層リンクなどのデータ間の関係を表現するグラフ構造として出力し、このグラフ構造に基づいて音声認識辞書を作成して、入力音声と照合し、一致したデータを特定することとしたので、階層化されたデータを音声認識によって特定することが可能となり、音声認識による情報システムの操作性を向上するという効果を奏するものである。
【図面の簡単な説明】
【図１】本発明に係る実施の形態１乃至実施の形態５の音声対話処理装置の構成図である。
【図２】本発明に係る実施の形態１における記憶処理手段２の処理を示すフローチャートである。
【図３】本発明に係る実施の形態１における記憶処理手段２にキャッシュされるＨＴＭＬ文書の関係を示す概念図である。
【図４】本発明に係る実施の形態１乃至実施の形態５の音声対話処理装置が取り扱うデータ構造の概念図である。
【図５】本発明に係る実施の形態１における記憶処理手段３の処理を示すフローチャートである。
【図６】本発明に係る実施の形態１におけるグラフ構造出力手段３が出力するグラフ構造を示す概念図である。
【図７】本発明に係る実施の形態１における音声認識辞書の構成を示す概念図である。
【図８】本発明に係る実施の形態２における記憶処理手段２にキャッシュされるＨＴＭＬ文書の関係を示す概念図である。
【図９】本発明に係る実施の形態２におけるグラフ構造出力手段３が出力するグラフ構造を示す概念図である。
【図１０】本発明に係る実施の形態３におけるグラフ構造出力手段３が出力するグラフ構造を示す概念図である。
【図１１】本発明に係る実施の形態４における記憶処理手段２にキャッシュされるＨＴＭＬ文書の関係を示す概念図である。
【図１２】本発明に係る実施の形態４におけるグラフ構造出力手段３が出力するグラフ構造を示す概念図である。
【図１３】本発明に係る実施の形態４におけるグラフ構造出力手段３が出力するグラフ構造を示す概念図である。
【図１４】本発明に係る実施の形態４におけるグラフ構造出力手段３が出力するグラフ構造を示す概念図である。
【図１５】本発明に係る実施の形態５において音声対話処理装置１が処理するメニュー階層の説明図である。
【符号の説明】
１：音声対話処理装置
２：記憶処理手段
３：グラフ構造出力手段
４：音声認識辞書作成手段
５：音声認識手段
６：アプリケーションプログラム

Claims

起点データから始まる階層によって階層化されたデータであって、少なくとも一部に多階層のデータを含む複数のデータの間の関係を、データを表すタイトルとこのタイトルにより表されるデータの記憶位置とを有する節点と、データ間の結合を表す枝と、からなるグラフ構造として表現し出力するグラフ構造出力手段と、
前記グラフ構造に基づいて、前記タイトルと前記データの記憶位置とを関連づけて記憶する音声認識辞書を生成し出力する音声認識辞書作成手段と、
音声を入力する音声入力手段と、
前記音声入力手段が入力した音声と前記音声認識辞書が記憶するタイトルの音声表現とを照合し一致したタイトルが表すデータの記憶位置を出力する音声認識手段とを備える音声対話処理装置において、
前記グラフ構造出力手段は、前記起点データから前記階層を辿って得られる下位データが所定の条件を満たす場合に、前記起点データと前記下位データとの間の関係を、前記グラフ構造に表現し出力するものであって、重み係数が付与された前記複数のデータのうち、前記起点データから前記下位データに至る前記階層の経路上の各データの前記重み係数の合計値が、所定の値域内にあることを前記所定の条件とすることを特徴とする音声対話処理装置。
起点データから始まる階層によって階層化されたデータであって、少なくとも一部に多階層のデータを含む複数のデータの間の関係を、データを表すタイトルとこのタイトルにより表されるデータの記憶位置とを有する節点と、データ間の結合を表す枝と、からなるグラフ構造として表現し出力するグラフ構造出力手段と、
前記グラフ構造に基づいて、前記タイトルと前記データの記憶位置とを関連づけて記憶する音声認識辞書を生成し出力する音声認識辞書作成手段と、
音声を入力する音声入力手段と、
前記音声入力手段が入力した音声と前記音声認識辞書が記憶するタイトルの音声表現とを照合し一致したタイトルが表すデータの記憶位置を出力する音声認識手段とを備える音声対話処理装置において、
前記グラフ構造出力手段は、前記起点データから前記階層を辿って得られる下位データが所定の条件を満たす場合に、前記起点データと前記下位データとの間の関係を、前記グラフ構造に表現し出力するものであって、前記下位データを表すタイトルの種類の総数が、所定の値域内にあることを前記所定の条件とすることを特徴とする音声対話処理装置。
起点データから始まる階層によって階層化されたデータであって、少なくとも一部に多階層のデータを含む複数のデータの間の関係を、データを表すタイトルとこのタイトルにより表されるデータの記憶位置とを有する節点と、データ間の結合を表す枝と、からなるグラフ構造として表現し出力するグラフ構造出力手段と、
前記グラフ構造に基づいて、前記タイトルと前記データの記憶位置とを関連づけて記憶する音声認識辞書を生成し出力する音声認識辞書作成手段と、
音声を入力する音声入力手段と、
前記音声入力手段が入力した音声と前記音声認識辞書が記憶するタイトルの音声表現とを照合し一致したタイトルが表すデータの記憶位置を出力する音声認識手段とを備える音声対話処理装置において、
前記グラフ構造出力手段は、前記起点データから前記階層を辿って得られるデータであって、同一のタイトルにより表される異なるデータについては、そのうちの一のデータのみと前記起点データとの間の関係を、前記グラフ構造に表現し出力することを特徴とする音声対話処理装置。
起点データから始まる階層によって階層化されたデータであって、少なくとも一部に多階層のデータを含む複数のデータの間の関係を、データを表すタイトルとこのタイトルにより表されるデータの記憶位置とを有する節点と、データ間の結合を表す枝と、からなるグラフ構造として表現し出力するグラフ構造出力手順と、
前記グラフ構造に基づいて、前記タイトルと前記データの記憶位置とを関連づけて記憶する音声認識辞書を生成し出力する音声認識辞書作成手順と、
入力された音声と前記音声認識辞書が記憶するタイトルの音声表現とを照合し一致したタイトルが表すデータの記憶位置を出力する音声認識手順とをコンピュータに実行させる音声対話処理プログラムにおいて、
前記グラフ構造出力手順は、前記起点データから前記階層を辿って得られる下位データが所定の条件を満たす場合に、前記起点データと前記下位データとの間の関係を、前記グラフ構造に表現し出力するものであって、重み係数が付与された前記複数のデータのうち、前記起点データから前記下位データに至る前記階層の経路上の各データの前記重み係数の合計値が、所定の値域内にあることを前記所定の条件とすることを特徴とする音声対話処理プログラム。
起点データから始まる階層によって階層化されたデータであって、少なくとも一部に多階層のデータを含む複数のデータの間の関係を、データを表すタイトルとこのタイトルにより表されるデータの記憶位置とを有する節点と、データ間の結合を表す枝と、からなるグラフ構造として表現し出力するグラフ構造出力手順と、
前記グラフ構造に基づいて、前記タイトルと前記データの記憶位置とを関連づけて記憶する音声認識辞書を生成し出力する音声認識辞書作成手順と、
入力された音声と前記音声認識辞書が記憶するタイトルの音声表現とを照合し一致したタイトルが表すデータの記憶位置を出力する音声認識手順とをコンピュータに実行させる音声対話処理プログラムにおいて、
前記グラフ構造出力手順は、前記起点データから前記階層を辿って得られる下位データが所定の条件を満たす場合に、前記起点データと前記下位データとの間の関係を、前記グラフ構造に表現し出力するものであって、前記下位データを表すタイトルの種類の総数が、所定の値域内にあることを前記所定の条件とすることを特徴とする音声対話処理プログラム。
起点データから始まる階層によって階層化されたデータであって、少なくとも一部に多階層のデータを含む複数のデータの間の関係を、データを表すタイトルとこのタイトルにより表されるデータの記憶位置とを有する節点と、データ間の結合を表す枝と、からなるグラフ構造として表現し出力するグラフ構造出力手順と、
前記グラフ構造に基づいて、前記タイトルと前記データの記憶位置とを関連づけて記憶する音声認識辞書を生成し出力する音声認識辞書作成手順と、
入力された音声と前記音声認識辞書が記憶するタイトルの音声表現とを照合し一致したタイトルが表すデータの記憶位置を出力する音声認識手順とをコンピュータに実行させる音声対話処理プログラムにおいて、
前記グラフ構造出力手順は、前記起点データから前記階層を辿って得られるデータであって、同一のタイトルにより表される異なるデータについては、そのうちの一のデータのみと前記起点データとの間の関係を、前記グラフ構造に表現し出力することを特徴とする音声対話処理プログラム。