JP4415546B2 - 音声対話処理装置とそのプログラム - Google Patents

音声対話処理装置とそのプログラム Download PDF

Info

Publication number
JP4415546B2
JP4415546B2 JP2003000412A JP2003000412A JP4415546B2 JP 4415546 B2 JP4415546 B2 JP 4415546B2 JP 2003000412 A JP2003000412 A JP 2003000412A JP 2003000412 A JP2003000412 A JP 2003000412A JP 4415546 B2 JP4415546 B2 JP 4415546B2
Authority
JP
Japan
Prior art keywords
data
graph structure
title
speech
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003000412A
Other languages
English (en)
Other versions
JP2004212715A (ja
Inventor
圭輔 渡邉
泰 石川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2003000412A priority Critical patent/JP4415546B2/ja
Publication of JP2004212715A publication Critical patent/JP2004212715A/ja
Application granted granted Critical
Publication of JP4415546B2 publication Critical patent/JP4415546B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
この発明は、ユーザが音声により装置とのインタラクションを行う音声対話処理装置に関するものであり、特に,グラフ構造や木構造を持つ文書あるいはアプリケーションソフトウエアのGUI(Graphic User Interface)階層メニューなどに対して、動的に音声認識対象語句を決定し、音声認識辞書を生成する音声対話処理装置に関するものである。
【0002】
【従来の技術】
インターネット上やシステム内部の記憶装置に格納されたHTML文書のように、文書が相互にリンクされたハイパーテキストを、音声によって閲覧する音声ブラウザが提案されている(例えば特許文献1)。
【0003】
しかし、そのような音声ブラウザは、現在閲覧中の文書に含まれるリンク先については音声指令により閲覧ができるが、閲覧中の文書において直接リンクのない文書に対しては音声での閲覧はできないという問題があった。例えば、天気情報を提供している文書において、まず、北海道、東北など地方別の文書へのリンクがあり、次に、各地方の文書では県別の文書へのリンクがあり、さらに、各県の文書では各市区町村別の文書へのリンクがある場合、鎌倉市の天気情報を閲覧するには、まず「関東」と音声指令し、関東の文書が読み込まれた後に「神奈川県」と音声指令し、さらに、神奈川県の文書が読み込まれた後に、「鎌倉市」と音声指令しなければならず、直接「鎌倉市の天気」と音声指令することはできない。
【0004】
このような問題を解決するために、一般的に普及しているブラウザの持つ登録ページ呼び出し機能(例えば「お気に入り」「ブックマーク」などのショートカット)に対して音声による指令を可能とするような「音声駆動可能なユーザインターフェイス」が提案されている(例えば特許文献2)。
【0005】
このような従来の音声駆動可能なユーザインターフェイスによれば、文書の登録名と所在とをショートカットリストに予め登録しておくことで、現在閲覧している文書に直接リンクされていない文書であっても、音声により閲覧することができる。例えば、頻繁に閲覧する「鎌倉市の天気」に関する文書を、その登録名と所在とをショートカットリストに登録しておくことで、「鎌倉市の天気」という音声命令により、直接閲覧することが可能となる。
【0006】
【特許文献1】
特開平10-124293号公報(第4−6頁、第1図、第7図、第8図)
【0007】
【特許文献2】
特開2002-175175号公報(第3−5頁、第1図)
【0008】
【発明が解決しようとする課題】
しかしながら、上記に示したような従来の音声駆動可能なユーザインターフェイスでは、登録名と所在をショートカットリストに予め登録しておかなければ、閲覧中の文書に含まれるリンク先以外の文書を音声で閲覧することはできないという問題があった。
【0009】
本発明は、上述のような課題を解決するためになされたもので、グラフ構造や木構造のような、互いにリンクを持つ文書あるいはアプリケーションソフトウエアのGUI階層メニューその他のデータに対して、現在閲覧中の文書、あるいは現在選択中のメニュー項目から、直接リンクされていない文書あるいはメニュー項目に対する音声認識辞書を動的に生成し、それら直接リンクされていない文書あるいはメニュー項目を音声命令により直接閲覧あるいは選択できる音声対話処理手段を得ることを目的とするものである。
【0010】
【課題を解決するための手段】
本発明に係る音声対話処理装置は、起点データから始まる階層によって階層化されたデータであって、少なくとも一部に多階層のデータを含む複数のデータの間の関係を、データを表すタイトルとこのタイトルにより表されるデータの記憶位置とを有する節点と、データ間の結合を表す枝と、からなるグラフ構造として表現し出力するグラフ構造出力手段と、前記グラフ構造に基づいて、前記タイトルと前記データの記憶位置とを関連づけて記憶する音声認識辞書を生成し出力する音声認識辞書作成手段と、音声を入力する音声入力手段と、前記音声入力手段が入力した音声と前記音声認識辞書が記憶するタイトルの音声表現とを照合し一致したタイトルが表すデータの記憶位置を出力する音声認識手段とを備える音声対話処理装置において、前記グラフ構造出力手段は、前記起点データから前記階層を辿って得られる下位データが所定の条件を満たす場合に、前記起点データと前記下位データとの間の関係を、前記グラフ構造に表現し出力するものであって、重み係数が付与された前記複数のデータのうち、前記起点データから前記下位データに至る前記階層の経路上の各データの前記重み係数の合計値が、所定の値域内にあることを前記所定の条件とするものである。
【0011】
【発明の実施の形態】
以下、本発明の実施の形態について説明する。
実施の形態1.
図1は本発明の実施の形態1における音声対話処理装置の構成図を示すものである。図において、音声対話処理装置1は、ユーザが閲覧したいHTML(Hyper Text Markup Language)文書のタイトルを発声すると、その入力音声に基づいて、タイトルが表すHTML文書のURL(Uniform Resource Locator)を出力する装置である。音声対話処理装置1において、記憶処理手段2は、複数のHTML文書をインターネットから収集し、かつ記憶する機能を備えた部位であって、具体的には記憶装置とコンピュータプログラムから構成され、一般的にはキャッシュ(Cache)と呼ばれる機能を果たすものである。ここでいう記憶装置とは、具体的にはハードディスク装置やCD−ROM装置、ROM(Read Only Memory)のような不揮発性記憶装置及びRAM(Random Access Memory)揮発性記憶装置のいずれであってもよく、またLAN(Local Area Network)やインターネットのようなネットワークを介してアクセスできる他のコンピュータの記憶装置であってもよい。グラフ構造出力手段3は、記憶処理手段2が記憶する各HTML文書を節点とし、HTML文書相互間のリンクを枝とするグラフ構造(特定の構造を有するデータ)に表現して出力する。また音声認識辞書作成手段4は、グラフ構造出力手段3が出力したグラフ構造から音声認識辞書を作成する。この音声認識辞書にはHTML文書名(リンクタイトル)とそのHTML文書の記憶位置が含まれている。音声認識手段4は、入力された音声と音声認識辞書におけるHTML文書のタイトルの音声表現とを照合し、一致したHTML文書のURLを出力する。またアプリケーションプログラム6とは、一般的にはインターネット閲覧ソフトあるいはインターネットブラウザと呼ばれるものであって、ユーザがHTML文書の閲覧を行うためのコンピュータプログラムである。
【0012】
次に、実施の形態1における音声対話処理装置の処理について説明する。本音声対話処理装置における処理の大まかな流れとしては、次のようになる。すなわち、(1)記憶処理手段2によるHTML文書のキャッシュ処理(以下、処理1という)、(2)キャッシュされたHTML文書からのグラフ構造出力手段3によるグラフ構造出力(以下、処理2という)、(3)グラフ構造からの音声認識辞書作成手段による音声認識辞書生成(以下、処理3という)、(4)音声認識手段4による音声認識辞書を用いた入力音声の音声認識と記憶処理手段2及びグラフ構造出力手段3へのフィードバック(以下、処理4という)、の各処理が処理1→処理2→処理3→処理4の順で繰り返されるというものである。そこで次に、これらの各処理について説明する。
【0013】
まず処理1について説明する。処理1とは、記憶処理手段2がHTML文書をキャッシュする処理である。インターネットには膨大な量のHTML文書が存在しており、これらすべてを一カ所に集約して記憶させることは現実的ではない。そこで記憶処理手段2は、所定の条件に基づいてHTML文書を収集し、記憶装置に記憶させる処理を行う。図2は、処理1を表すフローチャートである。図において、ステップS201はキャッシュを行う起点となるURL(起点URL)を取得する処理である。起点URLは、初期処理(音声対話処理装置1が最初に処理を行う場合)においては、ユーザからコンピュータに接続されたキーボードなどのユーザインターフェースから直接入力される。あるいは予め起点URLをファイルなどに設定しておき、このファイルを読み込むことによって起点URLを取得してもよい。さらにはアプリケーションプログラム6において直接ユーザが指定したURLを読み出すことによって、起点URLを取得してもよい。ステップS201において記憶処理手段2は、さらに起点URLを現在のURLに設定する。
【0014】
続いてステップS202において、記憶処理手段2は現在のURLによって指定されるHTML文書をインターネットから取得して記憶する。インターネットからHTML文書を取得する方法については公知であるため、ここでは詳細な説明を省略する。さらにステップS203において、記憶処理手段2は現在のHTML文書の内容を解析し、このHTML文書がリンクを有しているHTML文書のURLを取得する。一般に、HTML文書がリンクを有している他のHTML文書のURLは、HTML文書中の<A>タグを抽出することによって得られる。具体的には、<A HREF=”…”>という<A>タグ文字列の「HREF=”」より後から「”>」の前までの文字列を切り出す。その結果、例えば<A>タグ文字列が<A HREF=”http://www.jpo.gov.jp”>である場合には、URLはhttp://www.jpo.gov.jpとなる。一つのHTML文書には複数の<A>タグが存在している場合があるので、そのような場合には、すべての<A>タグについてURLの切り出しを行う。
【0015】
ステップS204以降のステップは、ステップS203で取得したURLにより表されるHTML文書が複数ある場合には、各HTML文書毎に処理を行う。続くステップS205において、抽出したURLにより表されるHTML文書がすでに記憶処理手段2によって記憶されているかどうかを検査する。すでにこのHTML文書が記憶されている場合(S205:YES)は、ステップS208に進む。まだ記憶されていない場合(S205:NO)には、ステップS206に進む。
【0016】
ステップS206において、抽出したURLにより表されるHTML文書を、インターネットから新たに取得することが、所定の記憶条件に合致するかどうかを検査する。ここで所定の記憶条件とは、記憶処理手段2が取得するHTML文書に関する制限を与える条件であって、例えば起点URLからのリンク階層数や、記憶するHTML文書の総数による制限、HTML文書を記憶するのに利用可能な記憶容量などに基づく条件、その他の条件である。前述のとおり、インターネット上の膨大な数のHTML文書を無制限に収集することは現実的でない。そこで、所定の条件を定めて使用する計算機資源の消費を抑制するものである。その一方で、起点URLからリンクを辿ることにより、アクセスしうるHTML文書を予め収集し、記憶しておくことにより、ネットワーク入出力回数が抑制できるため、処理を高速化できる。そこでこのような所定の条件を設けて、予めHTML文書を記憶することは計算機資源の節約と操作性向上のバランスを図るものである。S206では、この記憶条件に合致する場合(S206:YES)には、ステップS207に進み、合致しない場合(S206:NO)には、ステップS208に進む。
【0017】
次にステップS207において、抽出したすべてのURLを現在のURLとして、S202〜S206の処理を行う。このような処理は、再帰呼び出しを用いて実現する方が適しているが、必ずしも再帰呼び出しを用いて実現しなければならないというものではなく、いわゆる繰り返し処理を用いても実現可能なものである。
【0018】
次にステップS208では、ステップS203で取得したリンクURLのうち、未処理のURL(S205〜S207までの処理を行っていないURL)が存在するかどうか調べる。まだ存在する場合(S208;YES)はステップS209に進み、存在しない場合(S208:NO)は終了する。
【0019】
以上に述べた処理1の具体的な例として、ユーザがURL1で表される行政機関のホームページの閲覧を所望した場合について述べる。この場合、URL1が起点URLとなるが、URL1は前述のとおり、コンピュータに接続されたキーボードなどのユーザインターフェース、あるいはアプリケーションプログラム6において直接ユーザが指定したURLを読み出すことによって取得される。これに対して処理1は、この行政機関のホームページのHTML文書を解析し、この文書にリンクされているHTML文書を収集して記憶する。図3は処理1によって記憶処理手段2が記憶するHTML文書の例である。図において、楕円は記憶処理手段2によってキャッシュされたHTMLを表しており、楕円の中の文字はそのHTML文書のURL(URL1〜URL45)である。また各楕円を接続する有向線は、一の楕円のHTML文書が矢印の指す楕円のHTML文書についてのリンクを有することを示しており、さらに有向線に付された文字は矢印の指す楕円のHTML文書のリンクタイトルである。図においては、処理1はS206の記憶条件として、起点URLより3階層のリンクを辿って得られるHTML文書を収集する、という条件が設定されているものとする。以下、処理2以降では、この収集例に基づいて説明を進めることとする。
【0020】
次に処理2について説明する。処理2は、処理1によってキャッシュされたHTML文書から、HTML文書相互の関係をグラフ構造として表現し、そのデータを出力する処理であり、グラフ構造出力手段3によってなされる。図4は、このグラフ構造の概念を説明するための図である。図ではリスト構造、ツリー構造とグラフ構造のそれぞれについて、節点(ノード)と枝(リンクまたはブランチ、あるいは結合)の様子を示している。リスト構造においては、各節点は次の節点へのリンクを一つだけ有している。これに対してツリー構造においては、各節点は複数の節点へのリンクを有することが許される。最後にグラフ構造においては、各節点は複数の節点を有する場合がある点で、ツリー構造と同様であるが、循環リンクや双方向リンクを有している点が異なる。したがって循環リンクや双方向リンクの存在を除けば、グラフ構造はツリー構造と同じ概念であり、また循環リンク及び各節点が複数の節点へのリンクを有する場合があることを除けば、リスト構造と同じ概念となる。よってグラフ構造はツリー構造及びリスト構造を包含する概念である。
【0021】
上述のとおり、実施の形態1におけるグラフ構造の節点は、個々のHTML文書に対応するものである。グラフ構造の節点は、実体としては所定の大きさを有する記憶装置上の領域である。グラフ構造において、各節点には、対応するHTML文書が有する他のHTML文書へのリンクのタイトル(各節点に対応するHTML文書中の文字列であって、他のHTML文書が関連づけられているもの)と、他のHTML文書のURLが記憶されている。また他のHTML文書についても、同じグラフ構造において節点が設けられている。そこで各節点には、対応するHTML文書にリンクされた他のHTML文書の節点の記憶領域を特定する情報も記憶されており、他のHTML文書の節点の記憶領域を特定する情報が、グラフ構造における枝の実体である。節点の記憶領域を特定する情報は、代表的なものとしては、ポインタと呼ばれるメモリ番地を直接示す情報を用いることが一般的であるが、オフセット値やインデックス値など、記憶領域を一意に識別しうる情報であればどのようなものであってもよい。またグラフ構造はメモリ上に配置しなければならないものではなく、例えばハードディスク装置などの不揮発性記憶装置上に配置してもよい。
【0022】
図5は、処理2を表すフローチャートである。図5のステップS501では、処理1における起点URLに対応するHTML文書であって、記憶装置2に記憶されたHTML文書について、このHTML文書における他のHTML文書へのリンク総数を取得する。他のHTML文書へのリンク総数を求めるには、そのHTML文書中の<A>タグの個数を算出すればよい。なお、処理1においても、すでにHTML文書の内容を調べて、<A>タグの抽出を行っているので、この結果を再利用してもよい。次にステップS502において、このリンク総数が0かどうかを検定し、0でない場合(S502:YES)には、ステップS503に進む。またリンク総数が0である場合(S502:NO)には、ステップS507に進む。ステップS507における処理については後述する。
【0023】
次に、ステップS503において、現在のHTML文書に対応する節点を記憶するための領域を確保する。領域の確保は、通常オペレーティングシステムのメモリ管理機能あるいはメモリ管理機能を呼び出すライブラリモジュールなどによって行われる。節点の領域のサイズは、ステップS501で求められた他のデータへのリンク総数に基づいて決定される。またここでは、後述するリンクタイトル(意義は前述のとおり)やURLを節点に記憶させるために、それらのデータを格納するのに十分なサイズの領域を確保する。なおリンクタイトルやURLは処理1でもすでに抽出しているので、ステップS501と同様に、処理1において抽出したリンクタイトルやURLを再利用してもよい。続いて、ステップS504において、リンクしているHTML文書へのリンクタイトルとHTML文書のURLを節点に記憶させる。
【0024】
次に、ステップS505において、現在のHTML文書がリンクしている他のHTML文書のそれぞれについて、処理2を実行する。後述のとおり、処理2は実行結果として、そのデータの節点を記憶するメモリ上のアドレスを返す。したがってステップS505を実行した時点で、現在のデータが参照している各データの節点が生成され、さらにその節点のアドレスも取得することになる。このような処理は、プログラムモジュールの再帰呼び出しを用いて実現すると実現しやすい。しかし必ずしも再帰呼び出しを用いることが必須ではなく、例えば単純なプログラムループによる繰り返しを用いても同様の処理が実現できる。
【0025】
なお、HTML文書においては、リンクを辿っていくうちに、すでに節点が生成済みのHTML文書に辿りつくことがある。このような場合には、新たな節点を生成せずに、すでに生成済みの節点のアドレスを取得するようにし、その節点から先にリンクされているHTML文書に対する処理は行わないようにする。こうすることにより、循環参照のような関係にあるHTML文書についても正しく参照関係を表現するものとなる。
【0026】
次にステップS506において、節点に現在のHTML文書がリンクを有する他のHTML文書の節点のアドレスを記憶させる。この各データの節点のアドレスがグラフ構造の枝に相当するものである。続いてステップS507において、ステップS503で確保した現在のHTML文書の節点のアドレスを返す。ここで返されるアドレスは、現在のデータよりも上位の階層にあるデータの節点のメンバに納められるものである。またステップS502においてリンク総数が0であった場合には、節点のアドレスとしてNULLを返す。NULLとは、これ以上各データを参照しないことを示す情報である。以上が処理2の内容である。
【0027】
なお上記において、各HTML文書の節点を生成する場合に、所定の条件に合致する範囲で節点を生成するようにしてもよい。例えば、起点URLから所定の数の階層以内に存在するHTML文書についてのみ節点を生成するようにするというような条件を与え、この範囲でのみ、グラフ構造を生成するようにする。これは処理1のステップS206において所定の記憶条件に合致するHTML文書のみを収集することと同じ意義を有する。そのような場合には、処理1において階層数をカウントするためのカウンタを設け、図5のステップS505などで階層を下る際に、カウンタをインクリメントし、かつ所定の階層の数を超えるか否かを確認しながら処理するようにすればよい。なお、処理1の所定の記憶条件と、ここでの所定の条件は同じ条件である必要はない。一般には、処理1においてキャッシュされている範囲のHTML文書、あるいは処理1においてキャッシュされている範囲よりも狭い範囲のHTML文書について節点を生成するようにしておけば、高速にグラフ構造を生成することができる。
【0028】
図6は、処理1によって記憶処理手段2が収集し記憶した図3のHTML文書に基づいて生成したグラフ構造の例である。図において、各楕円はグラフ構造の節点を表すものであって、図3の個々のHTML文書に対応するものである。この例においても、起点URLは行政機関のホームページのURL1である。またこの例では節点領域を生成する条件として、起点URLより2階層のリンクを辿って得られるHTML文書を収集することを定めている。
【0029】
次に処理3について説明する。処理3は、グラフ構造から音声認識辞書を作成する処理であって、音声認識辞書作成手段4によって処理される。以下、処理2により生成された図6のグラフ構造に基づいて音声認識辞書を生成する場合について説明する。音声認識辞書作成手段4は、グラフ構造の起点URLの節点から各枝を辿り、各節点のタイトルと記憶位置を取得し、図7に示すような構成を有する音声認識辞書を生成する。
【0030】
次に処理4について説明する。処理4は、作成された音声認識辞書を用いて入力された音声とタイトルとを照合し、一致したタイトルが表すデータの記憶位置を出力する処理であって、音声認識手段5によって行われる。音声認識手段5は、入力音声と処理3により作成された音声認識辞書のタイトルの音声表現とを照合し、一致したタイトルに対するデータの記憶位置を出力する。ここで、一般に音声認識処理では、認識対象語句の読み(例えば、認識対象語句の漢字表記「東京」に対して、ひらがななどで表記された「とーきょー」)が必要となる。音声認識手段5に入力された音声認識辞書中の各リンクタイトルに対する読みは、別途表記と読みの対応表と読み付与手段(図示せず)を設けて処理を行う。あるいは、予めグラフ構造出力手段3によるグラフ構造生成に認識対象語句と合わせて読みを記憶させておいてもよい。
【0031】
ここで、ユーザが次の閲覧ページを指定するために「財務局」と発声したとする。すると、音声認識手段5は、この入力音声を認識し、認識結果「財務局」に対する記憶位置として、URL19を出力する。音声認識手段5が記憶位置URL19を出力すると、アプリケーションプログラム6(インターネットブラウザ)は、URL19で指定されるページを表示する。
【0032】
一方、この記憶位置URL19は、記憶処理手段2とグラフ構造出力手段3にも出力される。記憶処理手段2は、このURLのHTML文書がリンクを有する他のHTML文書がキャッシュされているかどうかを調べ、キャッシュされていない場合は、インターネットからこのHTML文書を読み込む。また、グラフ構造出力手段3は、処理2を実行することによって、URL19のHTML文書を起点HTMLとするグラフ構造を再生成する。その後、音声認識辞書作成手段4は、処理3によってこのグラフ構造に対する音声認識辞書を再生成し、次の入力音声による閲覧文書の指定に備える。以上の動作を繰り返すことにより、ユーザは音声によるHTML文書の閲覧を行う。
【0033】
以上より明らかなように、この音声対話処理装置によれば、現在閲覧中のHTML文書がリンクを有する他のHTML文書、及び他のHTML文書がリンクを有するHTML文書など、現在閲覧中のHTML文書から多階層のリンクを辿ったHTML文書を閲覧するのに必要な情報を有する音声認識辞書を動的に生成するので、現在閲覧しているHTML文書に直接リンクされていないHTML文書を予めショートカットリストなどに登録しておかなくても、音声で直接指定して閲覧することができるという効果を有する。
【0034】
なお、実施の形態1においては、起点URLが一つのみの場合について説明したが、複数の起点URLを有するような構成も採用しても構わない。例えばアプリケーションプログラム6(インターネットブラウザ)のURLブックマーク中の複数のURLを起点URLとして、複数のグラフ構造を生成するようにしてもよい。
【0035】
また、実施の形態1では、記憶処理手段2と処理1を設け、HTML文書へのアクセスについてユーザレスポンスの向上を図ったが、音声対話処理装置1に記憶処理手段2と処理1を設けることは必須ではない。例えば、記憶処理手段2を用いず、グラフ構造出力手段3自身がインターネットから必要なHTML文書を直接読み出すような構成にしても、ユーザの発話によって閲覧したいHTML文書のURLを特定するという実施の形態1の効果を奏する点は変わらない。さらに、記憶処理手段2と処理1を音声対話処理装置1とは別に構成されたインターネットプロキシサーバやゲートウェイサーバなどに置き換えることが可能なことはいうまでもない。
【0036】
さらに、実施の形態1では、各データ(HTML文書)を識別するタイトルとして、各HTML文書において<A>タグが付された文字列、すなわちリンクタイトルを用いたが、このようなタイトルの代わりに、例えば<TITLE>タグが付された文字列や、URLのファイル名に相当する部分(”http://www.jpo.gov.jp/index.htm”であれば、index.htmの部分)をタイトルとして用いても構わない。またタイトルはHTML文書に由来する文字列である必要はなく、URLを識別しうる名前であればどのようなものを用いてもよい。
【0037】
また、実施の形態1における音声対話処理装置1を、これと同様の機能をコンピュータに実行させるコンピュータプログラムとして構成することも当然に可能である。このようなコンピュータプログラムは、記憶処理手段2による処理1を実行するコンピュータプログラムと、グラフ構造出力手段3による処理2を実行するコンピュータプログラムと、音声認識辞書生成手段4による処理3を実行するプログラムと、音声認識手段5による処理4を実行するプログラムを逐次コンピュータに実行させるプログラムである。
【0038】
また、実施の形態1では、音声対話処理装置1とアプリケーションプログラム6とを別体のものとして構成したが、両者が一体化されていても構わない。具体的には、アプリケーションプログラム6の一部として、音声対話処理装置1の処理を行うような機能を実行する部位を設けるような構成としても構わない。
【0039】
実施の形態2.
次に、本発明の実施の形態2について説明する。実施の形態2における音声対話処理装置も、実施の形態1と同様に、ユーザが閲覧したいHTML文書のタイトルを発声すると、その入力音声に基づいて、タイトルが表すHTML文書のURLを出力する装置である。実施の形態2における音声対話処理装置は、実施の形態1における音声対話処理装置と同様の構成をとるので、構成図としては図1を用いて説明する。したがって、実施の形態2の音声対話処理装置の構成部位については実施の形態1と同じ符号を付し、各構成部位の説明については省略する。
【0040】
次に、実施の形態2における音声対話処理装置1の処理について説明する。実施の形態2における音声対話処理装置1においても、実施の形態1と同様に記憶処理手段2によるキャッシュ処理を行う。これは実施の形態1における処理1に相当するものである。ただし記憶処理手段2によって記憶される各HTML中のリンクには重み係数が付与される点が、実施の形態1における処理1と異なる。ここで、重み係数とは、HTML文書の重要度やアクセス頻度などを数値化したものであって、通常はHTML文書の提供者によって提供される。図8は、この処理によってキャッシュされたHTML文書の状況をを表した図である。図は、行政機関のホームページを起点URLとしたキャッシュ中のHTML文書の関連を示す関連図であり、各リンク重み係数が付与されている。例えば、URL1で表されるHTML文書からURL2で表されるHTML文書へのリンクに付与された矩形の中の数値1は、このリンクに付与された重み係数が1であることを表している。同様に、URL2で表されたHTML文書からURL10で表されたHTML文書へのリンクには重み係数2が付与されている。
【0041】
続いて、グラフ構造出力手段3は、記憶処理手段2によってキャッシュされたHTML文書に基づいて、グラフ構造を出力する。そのための処理の具体的な内容は実施の形態1の処理2と同様であるが、一方で、グラフ構造として表現するHTML文書を、各リンクに付与された重み係数の総和が予め定めた値域内に属するように、キャッシュされたHTML文書の中から選択する点が、実施の形態1の処理2と異なる。すなわち例えば、起点URLから辿って得られるリンク経路上の重み係数の総和が所定の値よりも小さいうちは、そのHTML文書についてグラフ構造の節点を生成する。このような処理は、”A.V. エイホ他著、大野義夫訳、「データ構造とアルゴリズム」、培風館、1987”(以下、非特許文献1)のp.189に開示されているグラフの深さ優先探索アルゴリズムにおいて、辿った枝の重み係数の総和が予め定めた値以下の場合にのみ、探索を続ける、という条件を追加したアルゴリズムを用いて行ってもよい。図9は、起点URLからのそれぞれのリンク経路上の重み係数の総和が3以下となることを満たすHTML文書を選択して生成したグラフ構造を表す概念図である。
【0042】
次に、音声認識辞書作成手段4は、グラフ構造出力手段3の出力したグラフ構造に基づいて音声認識辞書を生成し、さらに音声認識手段5によって、この音声認識辞書を用いて、入力音声とリンクタイトルとの照合を行い、一致したHTML文書のURLを出力する。これらの処理は、実施の形態1における処理3及び処理4と同様であるので、説明を省略する。
【0043】
以上より明らかなように、この音声対話処理装置によれば、HTML文書へのリンクに重み係数を付与し、この重み係数に基づいて選択したHTML文書の関係についてグラフ構造を出力して、このグラフ構造から音声認識辞書を生成し、入力音声が指示するHTML文書のURLを出力することとしたので、例えば枝の重み係数をページのアクセス頻度などに基づいて与えておくことで、頻度の高いページを音声で直接指定できる範囲に含め、頻度の低いページは範囲に含めないようにすることが可能となる。
【0044】
なお、上記の処理においては、静的に設定した重み係数を用いる例を示したが、動的に重み係数を変更するようにしても構わず、例えば、現在閲覧しているページ、あるいは閲覧開始時点から辿った枝と節点の履歴などに依存した重み係数を取るようにしても構わない。
【0045】
実施の形態3.
次に、本発明の実施の形態3について説明する。実施の形態3における音声対話処理装置も、実施の形態1と同様に、ユーザが閲覧したいHTML文書のタイトルを発声すると、その入力音声に基づいて、タイトルが表すHTML文書のURLを出力する装置である。実施の形態3における音声対話処理装置は、実施の形態1における音声対話処理装置と同様の構成をとるので、構成図としては図1を用いて説明する。したがって、実施の形態3の音声対話処理装置の構成部位については実施の形態1と同じ符号を付し、各構成部位の説明については省略する。
【0046】
次に、実施の形態3における音声対話処理装置1の処理について説明する。実施の形態3における音声対話処理装置1においても、実施の形態1と同様に記憶処理手段2によるキャッシュ処理を行う。これは実施の形態1における処理1に相当するものである。ここでは、図3に示した行政機関のホームページのURLを起点URLとするHTML文書をキャッシュするものとする。
【0047】
続いて、グラフ構造出力手段3は、記憶処理手段2によってキャッシュされたHTML文書に基づいてグラフ構造を出力する。この処理は、実施の形態1における処理2に相当するものであるが、ここでは記憶処理手段2によってキャッシュされたHTML文書から、起点URLから辿ったリンクのリンクタイトルとして出現する語句の種類の総数が所定の値域条件を満たす範囲でHTML文書を選択し、グラフ構造を生成する。この処理は、非特許文献1のp.211に開示されているグラフの横型探索アルゴリズムにおいて、開始節点(起点URL)から訪問済みのHTML文書の節点までの枝に存在する音声認識対象語句の総数を保持するカウンタを加え、次に訪問すべき節点への枝に付与された音声認識対象語句の数と、カウンタに保持された総数との和が規定値以上の場合に探索を終了する、という条件を追加したアルゴリズムを用いることで実現できる。
【0048】
以下、例えばリンクタイトルとして出現する語句の総数が20以下であるという条件で、HTML文書についてのグラフ構造を作成する処理について説明する。まず、節点URL1を開始節点として探索処理を開始する。この時点では、節点URL1のみが訪問済みであり、次の訪問先節点の候補はURL1の表すHTML文書の有するリンクから、URL2、URL3、URL4、URL5、URL6、URL7となる。また、音声認識語語句の総数を保持するカウンタをSとすると、Sに保持されている値は0である。
【0049】
次に訪問すべき節点はURL2であるが、節点URL1から節点URL2への枝に付与されたリンクタイトルの数は1であり、これとリンクタイトルの総数を保持するカウンタとの和は1である。これは規定値の20より小さいため、節点URL2を訪問済みとし、Sの値を1だけ増加させた後、訪問先節点の候補にURL8、URL9、URL10を追加して探索を継続する。
【0050】
このようにして、節点URL21まで探索が進んだ時点でSの値は20となり、次に訪問すべき節点はURL22となるが、節点URL7から節点URL22への枝に付与された音声認識対象語句の数は1であり、これとSの値20との和は21となり規定値を越える。したがって、この時点で探索は終了し、グラフ構造出力部は、節点URL1〜URL21からなる図10に示すようなグラフ構造を出力する。
【0051】
次に、音声認識辞書作成手段4は、グラフ構造出力手段3の出力したグラフ構造に基づいて音声認識辞書を生成し、さらに音声認識手段5によって、この音声認識辞書を用いて、入力音声とリンクタイトルとの照合を行い、一致したHTML文書のURLを出力する。これらの処理は、実施の形態1における処理3及び処理4と同様であるので、説明を省略する。
【0052】
以上より明らかなように、この音声対話処理装置によれば、起点URLからリンクを辿ることによって得られるHTML文書を、リンクタイトルに出現する語句の総数に基づいて選択することとしたので、音声認識の性能に応じた動的な音声認識辞書を生成することが可能となる。
【0053】
なお、実施の形態3では、グラフ構造出力手段3においてリンクタイトルに出現する語句の総数を計算し、HTML文書の数を絞り込んだが、同様の処理をグラフ構造出力手段3ではなく、音声認識辞書作成手段4における音声認識辞書作成処理で行うことも可能である。この場合には、グラフ構造出力手段の処理は実施の形態1の処理2と同様の処理とし、音声認識辞書作成手段4における処理において、グラフ構造中に出現するリンクタイトルのカウンタを設けて、このカウンタが所定の値域にある場合のみ、リンクタイトルとURLを有するレコードを出力するようにすればよい。
【0054】
実施の形態4.
次に、本発明の実施の形態4について説明する。実施の形態4における音声対話処理装置も、実施の形態1と同様に、ユーザが閲覧したいHTML文書のタイトルを発声すると、その入力音声に基づいて、タイトルが表すHTML文書のURLを出力する装置である。実施の形態4における音声対話処理装置は、実施の形態1における音声対話処理装置と同様の構成によるので、構成図としては図1を用いて説明する。したがって、実施の形態4の音声対話処理装置の構成部位については実施の形態1と同じ符号を付し、各構成部位の説明については省略する。
【0055】
次に、実施の形態4における音声対話処理装置1の処理について説明する。実施の形態4における音声対話処理装置1においても、実施の形態1と同様に記憶処理手段2によるキャッシュ処理を行う。これは実施の形態1における処理1に相当するものである。ここでは記憶処理手段2が、図10に示した行政機関のホームページのURL(URL1)を起点URLとするHTML文書をキャッシュしているものとする。ここで図では、例えばURL2のHTML文書からURL1のHTML文書に戻る線が表されているが、これはURL2のHTML文書からURL1のHTML文書に戻るための、「戻る」というリンクをURL2のHTML文書が有していることを示している。他にも「戻る」というリンクタイトルを付した線が複数個表されているが、これらはいずれも同様の意味を有している。
【0056】
続いて、グラフ構造出力手段3は、記憶処理手段2によってキャッシュされたHTML文書に基づいてグラフ構造を出力する。この処理は、実施の形態1における処理2に相当するものであるが、処理2と異なる点は次の通りである。すなわち、ここではあるリンクが、同一のリンクタイトルを有するリンクであって、異なるHTML文書に対するリンクであることを検出した場合、これらのリンクタイトルは複数のURLに対応することになり、後に行う音声認識処理においてあいまい性を生ずることになる。そこでこのようなリンクについては、枝を生成しないこととする。
【0057】
具体的には、あるリンクタイトルについて枝がすでに生成されている場合には、これと同一のリンクタイトルであって、異なるHTML文書を指すリンクについては、枝を生成しないようにしてもよいし、またキャッシュされている全てのHTML文書において、複数回出現し、異なるHTML文書を指すリンクタイトルのいずれについても、枝を生成しないようにしてもよい。図10のHTML文書でいえば、前者の方法で処理すると、URL2で表されるHTML文書からURL1で表されるHTML文書への「戻る」リンクと、URL4で表されるHTML文書からURL1で表されるHTMLへの「戻る」リンク文書については枝を生成するが、URL8で表されるHTML文書からURL2で表されるHTML文書へのリンクや、URL13で表されるHTML文書からURL4で表されるHTML文書へのリンクについては、枝を生成しないことになる。また後者の方法で処理すると、URL2で表されるHTML文書からURL1で表されるHTML文書へのリンクと、URL4で表されるHTML文書からURL1で表されるHTML文書へのリンク、その他図10において出現する「戻る」というリンクタイトルを有するリンクについては、いずれも枝を作成しないことになる。図12は前者の方法によって枝を選択し、かつ、起点URLより2階層のリンクを辿って得られるHTML文書を収集して作成したグラフ構造である。
【0058】
次に、音声認識辞書作成手段4は、グラフ構造出力手段3の出力したグラフ構造に基づいて音声認識辞書を生成し、さらに音声認識手段5によって、この音声認識辞書を用いて、入力音声とリンクタイトルとの照合を行い、一致したHTML文書のURLを出力する。これらの処理は、実施の形態1における処理3及び処理4と同様であるので、説明を省略する。
【0059】
なお、音声認識手段5において、ユーザが次の閲覧ページを指定するために「環境」と入力したとすると、音声認識手段5は、入力音声を認識し、認識結果「環境」に対するURLとしてURL5を出力する。このURL5はアプリケーション6に出力される一方で、記憶処理手段2とグラフ構造出力手段3にも出力され、記憶処理手段2はキャッシュをリフレッシュし、さらにグラフ構造手段3はリフレッシュされたキャッシュの内容に基づいて、URL5を起点URLとするグラフ構造を出力する。このグラフ構造のうち、重複して出現するリンクタイトルを有するリンクを未処理としたままのグラフ構造を説明のために図示すると、図13のようになる。
【0060】
図のように、URL5で表されるHTML文書には、URL16、URL17で表されるHTML文書の他、URL1で表されるHTML文書に対するリンクが含まれている。またリンクタイトル「戻る」を有するリンクとしては、URL5で表されるHTML文書からURL1で表されるHTML文書へのリンク、URL16で表されるHTML文書からURL5で表されるHTML文書へのリンク、URL17で表されるHTML文書からURL5で表されるHTML文書へのリンクの3つがある。これらのリンクについては、上述したように重複したリンクタイトルに関する処理が行われる。具体的には、これらリンクタイトルを「戻る」とする3つのリンクのうち、URL5で表されるHTML文書からURL1で表されるHTML文書へのリンクは、URL5で表されるHTML文書に直接含まれるリンクであるため、最初にこのリンクが処理される。その結果、このリンクに対する枝がグラフ構造として生成され、URL16で表されるHTML文書からURL5で表されるHTML文書へのリンク、URL17で表されるHTML文書からURL5で表されるHTML文書へのリンクについては枝を作成しない。その結果として作成されるグラフ構造は図14のようになる。
【0061】
以上より明らかなように、この音声対話処理装置によれば、グラフ構造出力手段3は、同じリンクタイトルのリンクが複数存在し、それらのリンクが異なるHTML文書を指すものである場合に、そのようなリンクに対する枝をグラフ構造に出力しない、あるいはそれらのリンクのうちの一つだけについて枝をグラフ構造に出力することとしたので、音声認識対象語を一意に定めることができる、という効果を奏する。
【0062】
なお、上記において、複数存在する同一のリンクタイトルの検出をグラフ構造出力手段3で行ったが、このような検出処理を、グラフ構造出力手段3ではなく、音声認識辞書作成手段4で行っても構わない。すなわち、音声認識辞書を生成する際に、すでに登録したリンクタイトルと同一のリンクタイトルを再び登録しないように抑制したり、あるいはグラフ構造を先読みして複数回出現するリンクタイトルの登録を省略するように構成してもよい。
【0063】
実施の形態5.
次に、本発明の実施の形態5について説明する。実施の形態1から実施の形態4においては、階層化されたデータとしてHTML文書を取り扱う例について示した。これに対して、実施の形態5においては、本発明による音声対話処理装置が、その他の階層化されたデータをも取り扱いうることを示すものである。実施の形態5における音声対話処理装置は、実施の形態1における音声対話処理装置と同様の構成によるので、構成図として図1を用いて説明する。したがって、実施の形態5の音声対話処理装置の構成部位については実施の形態1と同じ符号を付すこととする。
【0064】
図1において、音声対話処理装置1は、ユーザの発声に基づいて階層化されたデータを選択し、その記憶位置を出力する。音声対話処理装置1において、記憶処理手段2は、階層化された複数のデータを収集、かつ、記憶する部位であって、具体的には記憶装置とコンピュータプログラムから構成され、一般的にはキャッシュ(Cache)と呼ばれる機能を果たす。これらの具体的なハードウェア構成については、実施の形態1における音声対話処理装置1の記憶処理手段2と同様である。また記憶処理手段2という名称は、データを収集し、記憶する機能を有する装置を便宜的に表す名称として与えたものであって、実際には同時に全てのデータが記憶装置上に存在している必要はなく、例えばインターネット上のデータのうち、必要となるデータのみを一時的に記憶し、残りのデータについてはアクセスする必要性が発生するたびに、取得しに行くような構成としてもよい。またここでいう階層化された複数のデータとは、複数のデータ間にリンクやインデックス、ポインタなどによって相互の関連づけを有しているデータを指し、例えば実施の形態1で示したようなHTML文書を初めとするハイパーテキスト文書の他、ディレクトリ(フォルダ)をサポートするファイルシステムにより管理される各ファイル、関係データベースシステムにより管理されるデータ、GUIアプリケーションプログラムのメニューにおける各メニューコマンド、アイコンによって表現されたプログラムやデータなどを指している。これらのデータには、コンピュータのディスプレイを通してユーザが識別しうるタイトル(文字列)が付されており、タイトルとデータあるいは記憶処理手段2におけるデータの記憶位置が関連づけられている。ただしタイトルとデータあるいはデータの記憶位置とは一意に関連づけられている必要はない。したがってこれらのデータの中に同一のタイトルを有するデータが存在しても構わない。
【0065】
グラフ構造出力手段3は、記憶処理手段2の記憶する階層化された複数のデータ間の関係をグラフ構造に表現して出力する手段である。音声認識辞書作成手段4は、前記グラフ構造に基づいてデータを表すタイトルとそのデータが記憶されている記憶位置との関連を記憶する音声認識辞書を生成する部位である。音声認識手段5については、入力した音声に一致した音声表現を有するタイトルが表すデータの記憶位置を出力する部位である。またアプリケーションプログラム6は、音声対話処理装置1が出力するデータの記憶位置に基づいてデータを読み込み、処理を行うコンピュータプログラムである。なお説明の便宜上、図1では音声対話処理装置1とアプリケーションプログラム6とは、別体のものとして示しているが、両者が一体化されていてもよい。
【0066】
次に、音声対話処理装置1の処理について説明する。初めに、GUIアプリケーションプログラムのメニューを階層化されたデータとする場合について説明する。GUIアプリケーションプログラムのメニューの実現方法は、GUIシステムによって異なるが、代表的なGUIシステムを例とすれば、メニューデータはメニューテンプレートと呼ばれるデータ構造に保持されている。図15は、代表的なGUIシステムにおけるメニューデータの保持方法を説明するための図である。図において、プログラム実行可能ファイル601はメニューデータを含むアプリケーションプログラムのバイナリーファイルであって、記憶処理手段2に記憶される。プログラム実行可能ファイル601は、プログラムリソース部と実行コード部、さらに図示せぬプログラムデータ部から構成される。プログラムリソース部は、このプログラムをGUIシステムに適合させるためのデータが格納するための領域である。また実行コード部は、コンピュータのCPU(Central Processing Unit)に直接解釈される機械語の列が格納されている領域であり、プログラムデータ部は、プログラム初期化時にオペレーティングシステムのプログラムローダが初期化するメモリイメージが格納される領域である。このうち、メニューデータは、プログラムを起動した後に表示されるウィンドウをアイコン化した際に、表示されるプログラムアイコンのイメージデータやダイアログボックスと呼ばれる定型的な対話処理を行うためのウィンドウ表示用のデータなどとともに、プログラムリソース部に格納される。このようにプログラム実行可能ファイルに格納された状態のメニューデータを、メニューリソースと呼ぶこともある。
【0067】
図15のメニュー602は、プログラム実行可能ファイル601のプログラムリソース部に格納されたメニューリソースに基づいて、GUIシステムがこのプログラムを実行した際に画面に表示される。メニュー602は、メニュー階層1、メニュー階層2、メニュー階層3などの複数の階層から構成されている。メニュー階層1で示されるメニューは、プログラムのウィンドウの上部に表示されるいわゆるメニューバーを構成するものである。さらにメニューバーのそれぞれのメニュー項目の下位には他のメニュー(プルダウンメニュー)が存在する。メニュー602の場合であれば、ファイルというメニュー項目を選択するとメニュー階層2で示されるメニューがさらに表示される。さらにメニュー階層2のメニュー項目のうち、ファイル形式変換というメニュー項目を選択すると、メニュー階層3で示されるメニューが表示される。
【0068】
また図15のメニューリソース603は、メニュー602に対するプログラム実行可能ファイル601のプログラムリソース部におけるメニューリソースである。図に示すように、メニューリソースは各階層単位で記憶されており、それぞれの階層用のメニューリソースは、メニュー項目のタイトル(ファイル、編集など)とそれぞれのタイトルに対応するリソースIDから構成されるレコードを有している。メニュー項目のタイトルとは、メニューを表示した場合に、メニューの矩形内に表示される文字列であり、このメニューをユーザが選択した結果プログラムが実行する処理を簡略に表す言葉が選択される。これに対し、リソースIDとは、ある場合には他のメニューリソースを示すID値であり、また別の場合にはメニューを選択した場合に実行される処理に割り振られたID値である。GUIシステムは、選択されたメニュー項目に対応するリソースIDに相当するメニューリソースが存在する場合には、さらにそのメニューリソースを次の階層のメニューとして(例えば、メニュー階層1に対するメニュー階層2のように)表示する。一方、そのようなリソースIDに相当するメニューリソースが見いだせない場合には、処理に割り振られたIDであると判断して、プログラムにメニューが選択されたことを通知する。
【0069】
グラフ構造出力手段3は、記憶装置2に記憶されたプログラム実行可能ファイルのプログラムリソース部を読み込むことによって、メニュー階層を取得し、グラフ構造を作成する。GUIシステムによっては、ライブラリモジュールやシステムコールレベルでこれらのプログラムリソースにアクセスするための機能を提供しているので、それらを利用してメニューデータを取得してもよい。またこの場合、各メニューリソースに含まれる他のメニューデータのリソースIDがこの記憶位置に相当する。このように、記憶位置とは、必ずしも物理的な情報である必要はなく、そのデータが記憶された位置を一意に識別できるような方法で表現された情報であれば、どのような表現形式を採用しても構わない。
【0070】
次に、ディレクトリ(フォルダ)をサポートしたファイルシステムのファイルを階層化されたデータとする場合について説明する。この場合における記憶処理手段2は、ファイルシステムを格納する記憶装置そのものである。ファイルシステムにおけるファイルの階層はディレクトリファイルと呼ばれるファイルに保持されているので、グラフ構造出力手段3は、このディレクトリファイルを直接読み込むことによってファイルの階層を取得できるし、オペレーティングシステムが提供するファイルシステムアクセス用のライブラリルーチンを用いてファイルの階層を取得してもよい。これらの階層を取得することにより、グラフ構造出力手段3は、ファイルシステムからグラフ構造を出力する。なお、ファイルシステムにあっては、データの記憶位置は各ファイルのパスが相当する。
【0071】
続いて、音声認識辞書作成手段4は、グラフ構造出力手段3が出力したグラフ構造に基づいて音声認識辞書を生成し、音声認識手段5は入力音声と音声認識辞書のタイトルとを照合する。そして一致したタイトルにより表されるデータの記憶位置を出力する。
【0072】
以上より明らかなように、この音声対話処理装置によれば、階層化されたデータを参照する上で必要となるデータの記憶位置を音声によって特定するので、各階層を一つずつ辿ってデータを参照せずに音声による階層化データの参照や利用が可能となるという効果を奏する。
【0073】
なお、上記においては、実施の形態2と同様に所定の重み係数に基づいてグラフ構造に含めるデータを選択するような構成としてもよいし、実施の形態3と同様に、データを表すタイトルの種類の総数が所定の値域に含まれる範囲で、データを選択するような構成としてもよい。さらに、実施の形態4と同様に曖昧さを排除するために、同一のタイトルを有するデータを排除する、あるいは同一のタイトルを有するデータのうち、一つのデータだけを採用するような構成としてもよい。
【0074】
【発明の効果】
本発明は、階層化されたデータ間において、循環リンクや階層リンクなどのデータ間の関係を表現するグラフ構造として出力し、このグラフ構造に基づいて音声認識辞書を作成して、入力音声と照合し、一致したデータを特定することとしたので、階層化されたデータを音声認識によって特定することが可能となり、音声認識による情報システムの操作性を向上するという効果を奏するものである。
【図面の簡単な説明】
【図1】 本発明に係る実施の形態1乃至実施の形態5の音声対話処理装置の構成図である。
【図2】 本発明に係る実施の形態1における記憶処理手段2の処理を示すフローチャートである。
【図3】 本発明に係る実施の形態1における記憶処理手段2にキャッシュされるHTML文書の関係を示す概念図である。
【図4】 本発明に係る実施の形態1乃至実施の形態5の音声対話処理装置が取り扱うデータ構造の概念図である。
【図5】 本発明に係る実施の形態1における記憶処理手段3の処理を示すフローチャートである。
【図6】 本発明に係る実施の形態1におけるグラフ構造出力手段3が出力するグラフ構造を示す概念図である。
【図7】 本発明に係る実施の形態1における音声認識辞書の構成を示す概念図である。
【図8】 本発明に係る実施の形態2における記憶処理手段2にキャッシュされるHTML文書の関係を示す概念図である。
【図9】 本発明に係る実施の形態2におけるグラフ構造出力手段3が出力するグラフ構造を示す概念図である。
【図10】 本発明に係る実施の形態3におけるグラフ構造出力手段3が出力するグラフ構造を示す概念図である。
【図11】 本発明に係る実施の形態4における記憶処理手段2にキャッシュされるHTML文書の関係を示す概念図である。
【図12】 本発明に係る実施の形態4におけるグラフ構造出力手段3が出力するグラフ構造を示す概念図である。
【図13】 本発明に係る実施の形態4におけるグラフ構造出力手段3が出力するグラフ構造を示す概念図である。
【図14】 本発明に係る実施の形態4におけるグラフ構造出力手段3が出力するグラフ構造を示す概念図である。
【図15】 本発明に係る実施の形態5において音声対話処理装置1が処理するメニュー階層の説明図である。
【符号の説明】
1:音声対話処理装置
2:記憶処理手段
3:グラフ構造出力手段
4:音声認識辞書作成手段
5:音声認識手段
6:アプリケーションプログラム

Claims (6)

  1. 起点データから始まる階層によって階層化されたデータであって、少なくとも一部に多階層のデータを含む複数のデータの間の関係を、データを表すタイトルとこのタイトルにより表されるデータの記憶位置とを有する節点と、データ間の結合を表す枝と、からなるグラフ構造として表現し出力するグラフ構造出力手段と、
    前記グラフ構造に基づいて、前記タイトルと前記データの記憶位置とを関連づけて記憶する音声認識辞書を生成し出力する音声認識辞書作成手段と、
    音声を入力する音声入力手段と、
    前記音声入力手段が入力した音声と前記音声認識辞書が記憶するタイトルの音声表現とを照合し一致したタイトルが表すデータの記憶位置を出力する音声認識手段とを備える音声対話処理装置において、
    前記グラフ構造出力手段は、前記起点データから前記階層を辿って得られる下位データが所定の条件を満たす場合に、前記起点データと前記下位データとの間の関係を、前記グラフ構造に表現し出力するものであって、重み係数が付与された前記複数のデータのうち、前記起点データから前記下位データに至る前記階層の経路上の各データの前記重み係数の合計値が、所定の値域内にあることを前記所定の条件とすることを特徴とする音声対話処理装置。
  2. 起点データから始まる階層によって階層化されたデータであって、少なくとも一部に多階層のデータを含む複数のデータの間の関係を、データを表すタイトルとこのタイトルにより表されるデータの記憶位置とを有する節点と、データ間の結合を表す枝と、からなるグラフ構造として表現し出力するグラフ構造出力手段と、
    前記グラフ構造に基づいて、前記タイトルと前記データの記憶位置とを関連づけて記憶する音声認識辞書を生成し出力する音声認識辞書作成手段と、
    音声を入力する音声入力手段と、
    前記音声入力手段が入力した音声と前記音声認識辞書が記憶するタイトルの音声表現とを照合し一致したタイトルが表すデータの記憶位置を出力する音声認識手段とを備える音声対話処理装置において、
    前記グラフ構造出力手段は、前記起点データから前記階層を辿って得られる下位データが所定の条件を満たす場合に、前記起点データと前記下位データとの間の関係を、前記グラフ構造に表現し出力するものであって、前記下位データを表すタイトルの種類の総数が、所定の値域内にあることを前記所定の条件とすることを特徴とする音声対話処理装置。
  3. 起点データから始まる階層によって階層化されたデータであって、少なくとも一部に多階層のデータを含む複数のデータの間の関係を、データを表すタイトルとこのタイトルにより表されるデータの記憶位置とを有する節点と、データ間の結合を表す枝と、からなるグラフ構造として表現し出力するグラフ構造出力手段と、
    前記グラフ構造に基づいて、前記タイトルと前記データの記憶位置とを関連づけて記憶する音声認識辞書を生成し出力する音声認識辞書作成手段と、
    音声を入力する音声入力手段と、
    前記音声入力手段が入力した音声と前記音声認識辞書が記憶するタイトルの音声表現とを照合し一致したタイトルが表すデータの記憶位置を出力する音声認識手段とを備える音声対話処理装置において、
    前記グラフ構造出力手段は、前記起点データから前記階層を辿って得られるデータであって、同一のタイトルにより表される異なるデータについては、そのうちの一のデータのみと前記起点データとの間の関係を、前記グラフ構造に表現し出力することを特徴とする音声対話処理装置。
  4. 起点データから始まる階層によって階層化されたデータであって、少なくとも一部に多階層のデータを含む複数のデータの間の関係を、データを表すタイトルとこのタイトルにより表されるデータの記憶位置とを有する節点と、データ間の結合を表す枝と、からなるグラフ構造として表現し出力するグラフ構造出力手順と、
    前記グラフ構造に基づいて、前記タイトルと前記データの記憶位置とを関連づけて記憶する音声認識辞書を生成し出力する音声認識辞書作成手順と、
    入力された音声と前記音声認識辞書が記憶するタイトルの音声表現とを照合し一致したタイトルが表すデータの記憶位置を出力する音声認識手順とをコンピュータに実行させる音声対話処理プログラムにおいて、
    前記グラフ構造出力手順は、前記起点データから前記階層を辿って得られる下位データが所定の条件を満たす場合に、前記起点データと前記下位データとの間の関係を、前記グラフ構造に表現し出力するものであって、重み係数が付与された前記複数のデータのうち、前記起点データから前記下位データに至る前記階層の経路上の各データの前記重み係数の合計値が、所定の値域内にあることを前記所定の条件とすることを特徴とする音声対話処理プログラム。
  5. 起点データから始まる階層によって階層化されたデータであって、少なくとも一部に多階層のデータを含む複数のデータの間の関係を、データを表すタイトルとこのタイトルにより表されるデータの記憶位置とを有する節点と、データ間の結合を表す枝と、からなるグラフ構造として表現し出力するグラフ構造出力手順と、
    前記グラフ構造に基づいて、前記タイトルと前記データの記憶位置とを関連づけて記憶する音声認識辞書を生成し出力する音声認識辞書作成手順と、
    入力された音声と前記音声認識辞書が記憶するタイトルの音声表現とを照合し一致したタイトルが表すデータの記憶位置を出力する音声認識手順とをコンピュータに実行させる音声対話処理プログラムにおいて、
    前記グラフ構造出力手順は、前記起点データから前記階層を辿って得られる下位データが所定の条件を満たす場合に、前記起点データと前記下位データとの間の関係を、前記グラフ構造に表現し出力するものであって、前記下位データを表すタイトルの種類の総数が、所定の値域内にあることを前記所定の条件とすることを特徴とする音声対話処理プログラム。
  6. 起点データから始まる階層によって階層化されたデータであって、少なくとも一部に多階層のデータを含む複数のデータの間の関係を、データを表すタイトルとこのタイトルにより表されるデータの記憶位置とを有する節点と、データ間の結合を表す枝と、からなるグラフ構造として表現し出力するグラフ構造出力手順と、
    前記グラフ構造に基づいて、前記タイトルと前記データの記憶位置とを関連づけて記憶する音声認識辞書を生成し出力する音声認識辞書作成手順と、
    入力された音声と前記音声認識辞書が記憶するタイトルの音声表現とを照合し一致したタイトルが表すデータの記憶位置を出力する音声認識手順とをコンピュータに実行させる音声対話処理プログラムにおいて、
    前記グラフ構造出力手順は、前記起点データから前記階層を辿って得られるデータであって、同一のタイトルにより表される異なるデータについては、そのうちの一のデータのみと前記起点データとの間の関係を、前記グラフ構造に表現し出力することを特徴とする音声対話処理プログラム。
JP2003000412A 2003-01-06 2003-01-06 音声対話処理装置とそのプログラム Expired - Fee Related JP4415546B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003000412A JP4415546B2 (ja) 2003-01-06 2003-01-06 音声対話処理装置とそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003000412A JP4415546B2 (ja) 2003-01-06 2003-01-06 音声対話処理装置とそのプログラム

Publications (2)

Publication Number Publication Date
JP2004212715A JP2004212715A (ja) 2004-07-29
JP4415546B2 true JP4415546B2 (ja) 2010-02-17

Family

ID=32818729

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003000412A Expired - Fee Related JP4415546B2 (ja) 2003-01-06 2003-01-06 音声対話処理装置とそのプログラム

Country Status (1)

Country Link
JP (1) JP4415546B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7584103B2 (en) * 2004-08-20 2009-09-01 Multimodal Technologies, Inc. Automated extraction of semantic content and generation of a structured document from speech
US7716040B2 (en) 2006-06-22 2010-05-11 Multimodal Technologies, Inc. Verification of extracted data

Also Published As

Publication number Publication date
JP2004212715A (ja) 2004-07-29

Similar Documents

Publication Publication Date Title
US10796076B2 (en) Method and system for providing suggested tags associated with a target web page for manipulation by a useroptimal rendering engine
Lage et al. Automatic generation of agents for collecting hidden web pages for data extraction
US8554800B2 (en) System, methods and applications for structured document indexing
US6449636B1 (en) System and method for creating a dynamic data file from collected and filtered web pages
US7669119B1 (en) Correlation-based information extraction from markup language documents
US9251786B2 (en) Method, medium and apparatus for providing mobile voice web service
US7890503B2 (en) Method and system for performing secondary search actions based on primary search result attributes
Papadakis et al. Stavies: A system for information extraction from unknown web data sources through automatic web wrapper generation using clustering techniques
US7698294B2 (en) Content object indexing using domain knowledge
WO2015047920A1 (en) Title and body extraction from web page
RU2487404C2 (ru) Способ классификации веб-страниц и организации соответствующего информационного наполнения
US20090313536A1 (en) Dynamically Providing Relevant Browser Content
JP2010517133A (ja) Webサイト統合検索装置及び方法
WO2007105759A1 (ja) 数式記述構造化言語オブジェクト検索システムおよび検索方法
Álvarez et al. Crawling the content hidden behind web forms
US20100082594A1 (en) Building a topic based webpage based on algorithmic and community interactions
KR100455439B1 (ko) 인터넷 자원의 도메인화와 확장 사이트맵을 이용한정보검색 및 브라우징방법
CN111966940B (zh) 一种基于用户请求序列的目标数据定位方法和装置
Sabri et al. Improving performance of DOM in semi-structured data extraction using WEIDJ model
JP4415546B2 (ja) 音声対話処理装置とそのプログラム
JP2005128955A (ja) 情報処理方法および記憶媒体、プログラム
KR19990078876A (ko) 일괄된 자원 위치기 입력을 통한 정보 검색 방법
JP2000322167A (ja) データ管理システムおよびデータ属性表示方法
Pivovarova et al. Personal research assistant for online exploration of historical news
KR20100014116A (ko) 탭을 위한 규칙 기반의 사용자 정의된 wi-메카니즘

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20040709

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051222

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080421

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080513

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080704

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090217

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090409

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091104

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

R151 Written notification of patent or utility model registration

Ref document number: 4415546

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091117

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121204

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121204

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131204

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees