JP3893893B2

JP3893893B2 - ウエブページの音声検索方法、音声検索装置および音声検索プログラム

Info

Publication number: JP3893893B2
Application number: JP2001101640A
Authority: JP
Inventors: 正信西谷; 康永宮沢
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2001-03-30
Filing date: 2001-03-30
Publication date: 2007-03-14
Anticipated expiration: 2021-03-30
Also published as: JP2002297372A

Description

【０００１】
【発明の属する技術分野】
本発明は、ウエブページの音声検索方法に関し、特に、ＷＷＷブラウザを用いたウエブページの音声検索方法に関する。
【０００２】
【従来の技術】
従来、ウエブページの音声検索を行うために、ウエブページに埋め込まれたハイパーリンクを音声によって検索する従来技術が数多く提案されている。
例えば、ＷＷＷブラウザに現在表示されているウエブページのリンク項目を音声によって検索する従来技術が、特開平１１−１８４６７１号公報の「情報提示方法及び装置、情報提示システム」において開示されている。
また、現在表示されているウエブページおよび現在表示されているウエブページにリンクされているウエブページのリンク項目を音声によって検索する従来技術が、情報処理学会論文誌Vol.40 No.2 p443-p452(1999)に掲載された「音声キーワードによるＷＷＷのブラウジング」において開示されている。
【０００３】
【発明が解決しようとする課題】
しかしながら、上記の従来技術では、音声検索の対象となるのはウエブページのリンク項目だけであり、ウエブページの内容については検索することができなかった。
また、上記の従来技術では、ユーザからの音声を認識する際は、単語認識を主としているため、簡単な文法を用いた音声認識しかできなかった。そのため、ユーザの自然発話に基づいて音声検索する際は、音声認識の精度が低いという問題があった。
本発明は、これらの課題を解決するためになされたもので、ウエブページのリンク項目のみならずウエブページの内容についても音声検索することができ、かつ、ユーザが自然発話した際にも精度の高い音声認識を実現することができるウエブページの音声検索方法を提供することを目的とする。
【０００４】
【課題を解決するための手段】
前述した目的を達成するために、本発明のウエブページの検索方法は、ウエブページの音声検索方法であって、現在表示されているウエブページにリンクされているウエブページを予め指定された階層数だけ先読みしてダウンロードするウエブページ取得手段と、前記ウエブページ取得手段にてダウンロードされた全てのウエブページから単語を抽出する単語抽出手段と、前記単語抽出手段にて抽出された単語と、前記抽出された単語が抽出されたウエブページのＵＲＬとを関連付けるリンク付与手段と、前記抽出された単語と、前記抽出された単語に関連付けられたＵＲＬとから音声検索用辞書を作成する辞書作成手段と、前記抽出された単語から音声認識タスクを作成するタスク作成手段と、前記音声認識タスクに最適な言語モデルと音響モデルを選択する言語モデル・音響モデル選択手段と、前記言語モデル・音響モデル選択手段にて選択された言語モデルと音響モデルを利用してユーザが発話した音声を認識する音声認識手段と、ユーザの発話内容の意図を解析し検出する意図検出手段と、前記意図検出手段にて検出された意図を前記音声検索用辞書から検索する検索手段と、前記検索手段の検索結果に基づいてウエブページを変更するウエブページ変更手段とを備えたことを特徴とする。
【０００５】
また本発明の音声検索方法は、前記ウエブページ取得手段がダウンロードした全てのウエブページからテキストを抽出した後、前記テキストを形態素解析することによって単語を抽出することを特徴とする。
請求項２の発明によれば、単語抽出手段は、ウエブページ取得手段がダウンロードした全てのウエブページに記載されたテキストを解析して単語を抽出することができる。
【０００６】
また本発明のウエブページの音声検索方法は前記リンク付与手段が前記単語抽出手段から抽出された単語に、単数のリンクを付与することを特徴とする。
請求項３の発明によれば、リンク付与手段は、単語に単数のリンクを付与することができる。
【０００７】
また本発明のウエブページの音声検索方法は前記タスク作成手段が前記単語抽出手段から抽出された単語群を比較し、前記単語群の類似概念のタスクまたは関連度の高いタスクを前記音声認識タスクとすることを特徴とする。
請求項４の発明によれば、タスク作成手段は、ウエブページから抽出された単語群から、そのウエブページを音声検索するのに好適な音声認識タスクを作成することができる。
【０００８】
また本発明のウエブページの音声検索方法は前記言語モデル・音響モデル選択手段が前記タスク作成手段が作成した音声認識タスクを予め用意した言語モデル・音響モデル群が有するタスクと照合して、類似概念のタスクまたは関連度の高いタスクを構成する言語モデル・音響モデルを選択することを特徴とする。
請求項５の発明によれば、タスク作成手段が作成した音声認識タスクに基づいて、予め用意した言語モデル・音響モデル群の中から、音声認識タスクに最適な言語モデルと音響モデルを選択することができる。
【０００９】
また本発明のウエブページの音声検索方法は、前記言語モデル・音響モデル選択手段が前記タスク作成手段が作成した音声認識タスクを、予め用意した音声認識タスク群が有するタスクと照合して、意味的に近いタスクを構成する言語モデル・音響モデルを選択することを特徴とする。
請求項６の発明によれば、タスク作成手段が作成した音声認識タスクに基づいて、予め用意した音声認識タスク群の中から、音声認識タスクに最適な言語モデルと音響モデルを選択することができる。
【００１０】
また本発明のウエブページの音声検索装置はウエブページの音声検索装置であって、現在表示されているウエブページにリンクされているウエブページを予め指定された階層数だけ先読みしてダウンロードするウエブページ取得手段と、前記ウエブページ取得手段にてダウンロードされた全てのウエブページから単語を抽出する単語抽出手段と、前記単語抽出手段にて抽出された単語に、前記抽出された単語が抽出されたウエブページのＵＲＬを関連付けるリンク付与手段と、前記抽出された単語と、前記抽出された単語に関連付けられたＵＲＬとから音声検索用辞書を作成する辞書作成手段と、前記抽出された単語から音声認識タスクを作成するタスク作成手段と、前記音声認識タスクに最適な言語モデルと音響モデルを選択する言語モデル・音響モデル選択手段と、前記言語モデル・音響モデル選択手段にて選択された言語モデルと音響モデルを利用してユーザが発話した音声を認識する音声認識手段と、ユーザの発話内容の意図を解析し検出する意図検出手段と、前記意図抽出手段にて検出された意図を前記音声検索用辞書から検索する検索手段と、前記検索手段の検索結果に基づいてウエブページを変更するウエブページ変更手段と、を備えたことを特徴とする。
請求項７の発明によれば、ウエブページのリンク項目のみならずウエブページの内容についても音声検索することができ、かつ、ユーザが自然発話した際にも精度の高い音声認識を実現することができるウエブページの音声認識装置を提供することができる。
【００１１】
また本発明のウエブページの音声検索プログラムは、ウエブページを音声検索するためにコンピュータを、現在表示されているウエブページにリンクされているウエブページを予め指定された階層数だけ先読みしてダウンロードするウエブページ取得手段と、前記ウエブページ取得手段にてダウンロードされた全てのウエブページから単語を抽出する単語抽出手段と、前記単語抽出手段にて抽出された単語に、前記抽出された単語が抽出されたウエブページのＵＲＬを関連付けるリンク付与手段と、前記抽出された単語と、前記抽出された単語に関連付けられたＵＲＬとから音声検索用辞書を作成する辞書作成手段と、前記抽出された単語から音声認識タスクを作成するタスク作成手段と、前記音声認識タスクに最適な言語モデルと音響モデルを選択する言語モデル・音響モデル選択手段と、前記言語モデル・音響モデル選択手段にて選択された言語モデルと音響モデルを利用してユーザが発話した音声を認識する音声認識手段と、ユーザの発話内容の意図を解析し検出する意図検出手段と、前記意図抽出手段にて検出された意図を前記音声検索用辞書から検索する検索手段と、前記検索手段の検索結果に基づいてウエブページを変更するウエブページ変更手段として機能させる事を特徴とする。
請求項８の発明によれば、ウエブページのリンク項目のみならずウエブページの内容についても音声検索することができ、かつ、ユーザが自然発話した際にも精度の高い音声認識を実現することができるウエブページの音声検索プログラムを提供することができる。
【００１４】
【作用】
現在表示されているウエブページにリンクされているウエブページを予め指定された階層数だけ先読みしてダウンロードした後、ダウンロードされた全てのウエブページから単語を抽出する。そして、抽出された単語に、単語が抽出されたウエブページのＵＲＬを関連付けて音声検索用辞書を作成する。また、抽出された単語から音声認識タスクを作成し、音声認識タスクに最適な言語モデルと音響モデルを選択する。そして、ユーザが発話した音声を認識し、ユーザの発話内容を示す単語を検出する。検出された単語を音声検索用辞書から検索し、検索結果に基づいてウエブページを変更する。
【００１５】
【発明の実施の形態】
以下、本発明の実施の形態を、図面を参照して詳細に説明する。図1は、本発明のウエブページの音声検索方法を実現するためのシステム構成を示す機能ブロック図である。また、図２は、ハイパーリンクの抽出方法を説明した図であり、図３は、単語の抽出方法を説明した図である。また、図４は、抽出された単語にハイパーリンクを関連付ける方法を説明した図であり、図５は、音声検索用辞書を示す図である。また、図６は、音声認識タスクを作成する方法を説明した図であり、図７は、言語モデル・音響モデルを選択する方法を説明した図である。また、図８は、ウエブページを音声検索する手順を示すフローチャートである。
【００１６】
まず、本発明のウエブページの音声検索方法を実現するためのシステム構成について、図１に示す機能ブロック図を参照して説明する。
図１において、１はＷＷＷブラウザ、２はＨＴＭＬ解析部、３は音声検索用辞書、４はシソーラス、５はタスク制御部、６は言語モデル・音響モデル群、７は音声認識部、８は意図解析部、９はブラウザ制御部である。
【００１７】
ＷＷＷブラウザ１は、インターネット上のＷＷＷサーバーに蓄積されたハイパーテキスト形式のファイルやデータをクライアント側で閲覧するためのソフトウエアであり、ユーザまたはブラウザ制御部９から入力されたＵＲＬが指定するウエブページ（以下、単に「ページ」という）をダウンロードして表示する。
本実施の形態では、ＷＷＷブラウザ１には、例えば、マイクロソフト社のInternet Explorerやネットスケープ・コミュニケーションズ社のNetscape Navigator等を用いる。なお、ＷＷＷブラウザ１は、ＰＣ（パーソナル・コンピュータ）で使用されるソフトウエアに限定されるものではなく、例えば、携帯電話やＰＤＡ（携帯情報端末）等で使用されるソフトウエアであっても構わない。
【００１８】
ＨＴＭＬ解析部２は、まず、ＷＷＷブラウザ１が記憶領域にダウンロードした全てのページのＨＴＭＬ文書を解析して音声検索用辞書３を作成する。そして、作成された音声検索用辞書３からタスク制御部５が音声認識タスクを作成する。
【００１９】
まず、音声検索用辞書を作成する方法について説明する。音声検索用辞書３を作成する際は、ＷＷＷブラウザ１がダウンロードしたＨＴＭＬ文書を解析して、（１）ハイパーリンクの抽出、（２）単語の抽出、（３）抽出された単語へのハイパーリンクの関連付け、を行う。
【００２０】
（１）ハイパーリンクの抽出
ＨＴＭＬ文書からハイパーリンクを抽出する際は、ＨＴＭＬタグである<A></A>タグのＨＲＥＦオプションで指定されたＵＲＬと、開始タグ<A>と終了タグ</A>との間に記載されたテキストを抽出する。抽出されたテキストは、すべて形態素解析され、単語単位に分割される。そして、抽出されたＵＲＬと単語は、音声検索用辞書３に保存される。
例えば、図２に示すように、<A></A>タグのＨＲＥＦオプションで指定された「http://www.epson.co.jp/」というＵＲＬと、開始タグ<A>と終了タグ</A>との間に記載された「セイコーエプソン株式会社」というテキストが抽出される。そして、抽出された「セイコーエプソン株式会社」というテキストは、形態素解析によって「セイコーエプソン」という単語と「株式会社」という単語に分割され、先の「http://www.epson.co.jp/」というＵＲＬと共に音声検索用辞書３に保存される。
なお、テキストを形態素解析するレベルは、ユーザが任意に指定することができる。例えば、前記の「セイコーエプソン株式会社」というテキストは、「セイコーエプソン」という単語と「株式会社」という単語に分割することなく、「セイコーエプソン株式会社」という一つの単語として扱うこともできる。
ハイパーリンクが抽出されると、ＨＴＭＬ解析部２はブラウザ制御部９を制御して、抽出されたハイパーリンクのＵＲＬが指定するページをＷＷＷブラウザ１にダウンロードする。この作業は、ＷＷＷブラウザ１がダウンロードしたページの階層数が、予め指定された階層数に達するまで繰り返される。
例えば、図２（ｂ）に示すように、予め現在のページの２ページ先まで先読みするように指定されている場合は、まず、ＷＷＷブラウザ１が、現在のページＰ１にリンクされているページＰ２、Ｐ３、Ｐ４を先読みしてダウンロードする。そして、ＷＷＷブラウザ１は、ダウンロードしたページＰ２、Ｐ３、Ｐ４にそれぞれリンクされているページＰ５、Ｐ６、Ｐ７、Ｐ８、Ｐ９をさらに先読みしてダウンロードする。
【００２１】
（２）単語の抽出
ＨＴＭＬ文書から単語を抽出する際は、まず、ＷＷＷブラウザ１がダウンロードした全てのページのＨＴＭＬ文書からテキストを抽出し、その後、抽出されたテキストを形態素解析して単語単位に分割する。
ＨＴＭＬ文書からテキストを抽出する際は、特定のＨＴＭＬタグにおいて、タグの直後またはタグ中の指定された位置に記載されたテキストを抽出する。また、テキストを抽出した際は、抽出したテキストの位置情報（行と列）を記憶しておく。
テキスト抽出の対象となるＨＴＭＬタグとしては、タイトルを設定する<TITLE>タグ、リンク先を示す<A>タグ、画像を表示する<IMG>タグ、見出しを設定する<H>タグ、リストを作成する際に用いられる<UL>タグ，<OL>タグ，<DL>タグ等がある。また、<IMG>タグのＡＬＴオプションで指定されたテキストも抽出の対象となる。
例えば、図３に示すように、<TITLE>タグの直後に記載された「セイコーエプソン株式会社」というテキストが抽出されると、抽出された「セイコーエプソン株式会社」というテキストは形態素解析されて「セイコーエプソン」という単語と「株式会社」という単語に分割される。
なお、「（１）ハイパーリンクの抽出」のときと同様に、テキストを形態素解析するレベルは、ユーザが任意に指定することができる。例えば、図３の例では、「セイコーエプソン株式会社」というテキストは、そのまま、「セイコーエプソン株式会社」という一つの単語として扱うこともできる。
【００２２】
（３）抽出された単語へのハイパーリンクの関連付け
抽出された単語にハイパーリンクを関連付ける際は、「（２）単語の抽出」においてＨＴＭＬ文書から抽出した単語に、その単語が抽出されたページのハイパーリンクを関連付ける。
具体的には、ＨＴＭＬ文書から抽出された単語に対して、その単語が記載されているページのＵＲＬに基づいてハイパーリンクを付与する。また、その単語のリンク先には、ＨＴＭＬ文書内に同一のページ内での参照を示す<A NAME>タグをリンク情報として埋め込む。なお、<A NAME>タグを埋め込む位置については、「（２）単語の抽出」においてテキストを抽出した際に記憶された抽出されたテキストの位置情報（行と列）を参照する。ハイパーリンクが付与された単語は、その単語に付与されたハイパーリンクのＵＲＬと共に音声検索用辞書３に保存される。
例えば、図４（ａ）に示すように、ＨＴＭＬ文書から「プリンタ」という単語が抽出された際は、「プリンタ」という単語には、「プリンタ」という単語が記載されているページのＵＲＬに基づいて、「http://localhost/index.html#プリンタ」というＵＲＬが付与される。そして、「プリンタ」という単語は、「プリンタ」という単語に付与された「http://localhost/index.html#プリンタ」というＵＲＬと共に音声検索用辞書３に保存される。また、「プリンタ」という単語のリンク先には、図４（ｂ）に示すように、ＨＴＭＬ文書内に「<A NAME=゛プリンタ゛>プリンタ</A>」というタグをリンク情報として埋め込む。
【００２３】
音声検索用辞書３の一例を図５に示す。音声検索用辞書３は、ＨＴＭＬ文書から抽出された単語と、その単語に付与されたハイパーリンクのＵＲＬとから構成されている。
例えば、図５に示すように、音声検索用辞書３には、「セイコーエプソン」という単語が、その単語のリンク先を示す「http://www.epson.co.jp/」というＵＲＬと共に保存されている。また、同様に、音声検索用辞書３には、「プリンタ」という単語が、その単語のリンク先を示す「http://localhost/index.html#プリンタ」というＵＲＬと共に保存されている。
【００２４】
次に、作成された音声検索用辞書３から音声認識タスクを作成する方法について説明する。
最初に音声タスクとはHTML文書等から抽出された単語をタスク制御部が単語同士の相互関係および単語の適用範囲を定義しているシソーラスを参照して単語の関連性を比較したものである。
音声認識タスクを作成する際は、まず、「（２）単語の抽出」において、ＷＷＷブラウザ１にダウンロードされた全てのページのＨＴＭＬ文書から抽出した単語群を、ＷＷＷブラウザ１にダウンロードされたページの内容の把握するためのキーワード群とする。そして、それらのキーワード群と外部データベースであるシソーラス４を利用して、タスク制御部５が音声認識タスクを作成する。
例えば、図６に示すように、ＨＴＭＬ文書から抽出された単語（キーワード）が、「プリンタ」、「メモリ」、「ハードディスク」、「製品」、「購入」であった際は、シソーラス４を参照してタスク制御部５がそれらのキーワードの関連性を比較し、「パソコン関連機器の購入」という音声認識タスクを作成する。
【００２５】
シソーラス４は、類義語や同義語等を集めたデータベースであり、ＨＴＭＬ解析部２で抽出された単語間の関係を整理し、単語同士の相互関係および単語の適用範囲を定義し、ＨＴＭＬ解析部２において、ＨＴＭＬ文書から抽出された単語群から音声認識タスクを作成するのを補助する。また、シソーラス４は、後述するように、タスク制御部５において、言語モデル・音響モデル群６から言語モデル（ＬＭ）と音響モデル（ＡＭ）を選択するのを補助する。
【００２６】
タスク制御部５は、音声認識タスクを作成するとともに、作成された音声認識タスクに基づいて、言語モデル・音響モデル６群の中から、作成された音声認識タスクに最適な言語モデル（ＬＭ）と音響モデル（ＡＭ）を選択する。
言語モデル（ＬＭ）と音響モデル（ＡＭ）を選択する際は、作成された音声認識タスクと、言語モデル・音響モデル群６が有するタスクとを照合して、類似概念のタスクまたは関連度の高いタスクを選択する。音声認識タスクと、言語モデル・音響モデル群６が有するタスクとを照合する際は、シソーラス４を利用する。
例えば、図７に示すように、タスク制御部５で作成された音声認識タスクが「パソコン関連機器の購入」であり、言語モデル・音響モデル群６が有するタスクがが「地名検索タスク」、「ホテル予約タスク」、「ショッピングタスク」、「パソコン関連記事読み上げタスク」であった際は、シソーラス４を参照すると、「パソコン関連機器の購入」と「パソコン関連記事読み上げタスク」は、同類の概念として認識されるので、「パソコン関連記事読み上げタスク」に関する言語モデル（ＬＭ）と音響モデル（ＡＭ）が選択される。
なお、本実施の形態では、音声認識タスクと、言語モデル・音響モデル群６が有するタスクとを照合する際は、外部データベースであるシソーラス４を利用したが、作成された音声認識タスクと、言語モデル・音響モデル群６が有するタスクとを照合する方法は、本実施の形態の手法に限定されるものではなく、様々な手法を用いることができる。
また、言語モデル（ＬＭ）と音響モデル（ＡＭ）を選択する際は、図８に示すように、言語モデル・音響モデル群６の代わりに、音声認識タスク群１０を用意しておき、音声認識タスク群１０の中から、作成された音声認識タスクと意味的に近いタスクを選択するように構成することもできる。
また、予め、音声認識タスクと言語モデル（ＬＭ）・音響モデル（ＡＭ）とを互いに関連付けておいても、もちろん構わない。
さらに、本実施の形態では、音声認識タスクと、その音声認識タスクに対応する言語モデル（ＬＭ）・音響モデル（ＡＭ）は一対一で定まっているが、一つの音声認識タスクに対して複数の言語モデル（ＬＭ）・音響モデル（ＡＭ）を組み合わせても構わない。
【００２７】
言語モデル・音響モデル６群は、複数の言語モデル（ＬＭ）と音響モデル（ＡＭ）とから構成され、各言語モデル（ＬＭ）・音響モデル（ＡＭ）は、各音声認識タスクの内容に適したデータを有する。つまり、言語モデル（ＬＭ）は、特定の分野に関するテキストデータから作成されており、音響モデル（ＡＭ）は、特定の分野に関する音声データから作成されている。なお、言語モデル（ＬＭ）と音響モデル（ＡＭ）は、統計量を用いた確率・統計的なモデルや、文法を用いた構造的なモデルを利用することも可能である。
また、各言語モデル（ＬＭ）は、音声認識用の語彙辞書を有する。つまり、音声認識用の語彙辞書は、各言語モデル（ＬＭ）毎に用意されている。
例えば、「パソコン関連記事読み上げタスク」という音声認識タスクに対応する言語モデル（ＬＭ）・音響モデル（ＡＭ）としては、パソコンに関連する記事から作成した言語モデル（ＬＭ）と、パソコンに関連する記事の発話から作成した音響モデル（ＡＭ）とがある。
また、言語モデル・音響モデル群６は、ＰＣ（パーソナル・コンピュータ）等のローカルな環境に設置されたものに限らず、インターネット等のネットワーク上に設置されたものを利用することもできる。
【００２８】
音声認識部７は、ＷＷＷブラウザ１がダウンロードしたページを対象に、タスク制御部５において選択された言語モデル（ＬＭ）・音響モデル（ＡＭ）を利用して、ユーザが発話した音声を認識する。
音声認識部７が音声認識する際は、まず、ユーザが発話した音声の分析処理を行い、音声認識に必要な情報を抽出する。そして、音声認識タスクが選択した言語モデル（ＬＭ）・音響モデル（ＡＭ）を参照して、発話内容を示す単語列を取得する。
なお、ここでいう単語列とは、言語モデル（ＬＭ）が持つ語彙の列である。また、ＷＷＷブラウザ１がダウンロードしたページから取得された単語が、言語モデル（ＬＭ）の持つ語彙に含まれない場合もあるが、このような未知語に対する処理は、説明の簡略化のため省略する。
【００２９】
意図解析部８は、音声認識部７において取得された単語列を解析して、ユーザの発話内容を示す単語を検出する。そして、解析結果から、音声検索用辞書３を用いて、ユーザの所望するページの検索を行う。
ここで意図とは音声認識部７において取得された単語列の「〜を見たい」、「〜を知りたい」の「〜」に相当する要求意図である。
単語列を解析する際は、パターンマッチ、意味解析、形態素解析、格構造解析等の自然言語処理を利用して行う。そして、解析結果として検出された単語を音声検索用辞書３から検索して、移動するページを決定する。
例えば、パターンマッチの手法を用いる場合は、まず、音声認識部７において取得された単語列から、「〜を見たい」、「〜を知りたい」という部分を見つけ出した後、それらの部分から「〜」の部分に該当する単語を検出する。そして、検出された単語を音声検索用辞書３から検索する。検索されたページはユーザの所望するページと判断され、そのページを移動するページとして決定し、そのページのＵＲＬを取得する。
【００３０】
ブラウザ制御部９は、意図解析部８の解析結果に基づいて、ＷＷＷブラウザ１を制御する。具体的には、意図解析部８において取得されたＵＲＬをＷＷＷブラウザ１に入力してページに変更する。
なお、現在表示されているページと同一のページに移動する際は、ネットワーク上から新たにダウンロードしてページを取得するのではなく、ＨＴＭＬ文書を解析する際に取得したページをＷＷＷブラウザ１に渡す。
【００３１】
次に、ＷＷＷを音声検索する手順について、図９に示すフローチャートを参照して説明する。
まず、ステップＳ１において、ユーザがＷＷＷブラウザ１に任意のＵＲＬを入力する。ＵＲＬは、ユーザがキーボードやマウスを用いて入力する。また、ＵＲＬは、ユーザが音声によって入力しても良い。
続くステップＳ２において、ＷＷＷブラウザ１は、そのＵＲＬが示すページをダウンロードして表示する。
そして、ステップＳ３では、ステップＳ２において表示されたページがユーザの所望するページであるかどうかを判断する。表示されたページがユーザの所望するページである場合は、作業を終了する。逆に、ユーザが他のページを所望する場合は、次のステップＳ４に進む。
【００３２】
ステップＳ４では、ＨＴＭＬ解析部２が、ＷＷＷブラウザ１に現在表示されているページおよび現在表示されているページにリンクされているページから、ＨＴＭＬ文書を取得する。
続くステップＳ５では、ステップＳ４において取得されたＨＴＭＬ文書を解析し、ハイパーリンクの抽出と単語の抽出を行う。この作業は、ＷＷＷブラウザ１がダウンロードしたページの階層数が、予め指定された階層数に達するまで繰り返される。
そして、ステップＳ６では、ＷＷＷブラウザ１がダウンロードしたページの階層数が予め指定された階層数に達したかどうかを判断する。ＷＷＷブラウザ１がダウンロードしたページの階層数が予め指定された階層数に達した場合は、次のステップＳ７に進む。また、ＷＷＷブラウザ１がダウンロードしたページの階層数が予め指定された階層数に達していない場合は、先のステップＳ４に戻る。
【００３３】
ステップＳ７では、ＨＴＭＬ解析部２が、先のステップＳ５において抽出されたハイパーリンクと単語とから音声検索用辞書３を作成する。
続く、ステップＳ８では、タスク制御部５が、ステップＳ７において作成された音声検索用辞書３から、音声認識タスクを作成する。
ステップＳ９では、ステップＳ８において作成された音声認識タスクに基づいて、言語モデル・音響モデル群６から、言語モデル（ＬＭ）・音響モデル（ＡＭ）を選択する。
【００３４】
そして、ステップＳ１０においてユーザが発話すると、続くステップＳ１１では、音声認識部７が、先のステップＳ９において選択された言語モデル（ＬＭ）・音響モデル（ＡＭ）を利用して、ユーザが発話した音声を認識し、発話内容を示す単語列を取得する。
続くステップＳ１２では、音声認識部７がユーザの発話を認識できたかどうかを判断する。ユーザの発話を認識できたと判断された場合は、次のステップＳ１３に進む。また、ユーザの発話を認識できなかったと判断された場合は、先のステップＳ１０に戻る。
【００３５】
ステップＳ１３では、意図解析部８が、先のステップＳ１１において取得された単語列を解析して、ユーザの発話内容を示す単語を検出する。
続くステップＳ１４では、ステップＳ１３において検出された単語を音声検索用辞書３から検索して、移動するページのＵＲＬを取得する。
そして、ステップＳ１５では、ブラウザ制御部９が、ステップＳ１４において取得されたＵＲＬをＷＷＷブラウザ１に入力してページを変更する。
【００３６】
以上、本発明のウエブページの音声検索方法について、一実施の形態例を説明したが、本発明は前記した実施の形態に限定されることなく、広く変形して実施可能である。
例えば、本実施形態では、ＷＷＷブラウザ１にダウンロードされたＨＴＭＬ文書を解析する場合について述べたが、ＨＴＭＬ文書に限らず、ＸＭＬ（Extensible Markup Language）等によって記述された文書でもかまわない。また、本実施形態では、ウエブページをダウンロードするのに、ＷＷＷブラウザプログラムを用いたが、他の方法によってウエブページをダウンロードしても構わない。
また、一度解析したページの情報を履歴として保存することにより、次回以降のページの先読み、音声検索用辞書の作成、音声認識タスクを作成等の処理を省くことができる。
【００３７】
【発明の効果】
本発明によれば、ウエブページのリンク項目だけでなくウエブページの内容についても音声検索することができる。したがって、自由度の高い音声検索を実現することができる。
また、ウエブページから抽出された単語から音声認識タスクを作成することができるので、ダウンロードしたウエブページを音声検索する際に最適な言語モデルと音響モデルを選択することができる。したがって、精度の高い音声認識を実現することができる。
【図面の簡単な説明】
【図１】本発明のウエブページの音声検索方法を実現するためのシステム構成を示す機能ブロック図である。
【図２】ハイパーリンクの抽出方法を説明した図である。
【図３】単語の抽出方法を説明した図である。
【図４】抽出された単語にハイパーリンクを関連付ける方法を説明した図である。
【図５】音声検索用辞書を示す図である。
【図６】音声認識タスクを作成する方法を説明した図である。
【図７】言語モデル・音響モデルを選択する方法を説明した図である。
【図８】言語モデル・音響モデルを選択する他の方法を説明した図である。
【図９】ウエブページを音声検索する手順を示すフローチャートである。
【符号の説明】
１ＷＷＷブラウザ
２ＨＴＭＬ解析部
３音声検索用辞書
４シソーラス
５タスク制御部
６言語モデル・音響モデル群
７音声認識部
８意図解析部
９ブラウザ制御部
１０音声認識タスク群

Claims

ウエブページの音声検索方法であって、現在表示されているウエブページにリンクされているウエブページを予め指定された階層数だけ先読みしてダウンロードするウエブページ取得手段と、前記ウエブページ取得手段にてダウンロードされた全てのウエブページから単語を抽出する単語抽出手段と、前記単語抽出手段にて抽出された単語と、前記抽出された単語が抽出されたウエブページのＵＲＬとを関連付けるリンク付与手段と、前記抽出された単語と、前記抽出された単語に関連付けられたＵＲＬとから音声検索用辞書を作成する辞書作成手段と、前記抽出された単語から音声認識タスクを作成するタスク作成手段と、前記音声認識タスクに最適な言語モデルと音響モデルを選択する言語モデル・音響モデル選択手段と、前記言語モデル・音響モデル選択手段にて選択された言語モデルと音響モデルを利用してユーザが発話した音声を認識する音声認識手段と、ユーザの発話内容の意図を解析し検出する意図検出手段と、前記意図検出手段にて検出された意図を前記音声検索用辞書から検索する検索手段と、前記検索手段の検索結果に基づいてウエブページを変更するウエブページ変更手段とを備えたことを特徴とする、ウエブページの音声検索方法。
前記単語抽出手段は、前記ウエブページ取得手段がダウンロードした全てのウエブページからテキストを抽出した後、前記テキストを形態素解析することによって単語を抽出することを特徴とする、請求項１に記載の音声検索方法。
前記リンク付与手段は、前記単語抽出手段から抽出された単語に、単数のリンクを付与することを特徴とする、請求項１または請求項２に記載の音声検索方法。
前記タスク作成手段は、前記単語抽出手段から抽出された単語群をシソーラスを用いて比較し、前記シソーラスを基にした前記単語群の類似概念のタスクまたは関連度の高いタスクを前記音声認識タスクとすることを特徴とする、請求項１から請求項３のいずれかに記載のウエブページの音声検索方法。
前記言語モデル・音響モデル選択手段は、前記タスク作成手段が作成した音声認識タスクを、予め用意した言語モデル・音響モデル群が有するタスクと照合して、類似概念のタスクまたは関連度の高いタスクを構成する言語モデル・音響モデルを選択することを特徴とする、請求項１ないし請求項４のいずれかに記載のウエブページの音声検索方法。
前記言語モデル・音響モデル選択手段は、前記タスク作成手段が作成した音声認識タスクを、予め用意した音声認識タスク群が有するタスクと照合して、意味的に近いタスクを構成する言語モデル・音響モデルを選択することを特徴とする、請求項１ないし請求項４のいずれかに記載のウエブページの音声検索方法。
ウエブページの音声検索装置であって、現在表示されているウエブページにリンクされているウエブページを予め指定された階層数だけ先読みしてダウンロードするウエブページ取得手段と、前記ウエブページ取得手段にてダウンロードされた全てのウエブページから単語を抽出する単語抽出手段と、前記単語抽出手段にて抽出された単語に、前記抽出された単語が抽出されたウエブページのＵＲＬを関連付けるリンク付与手段と、前記抽出された単語と、前記抽出された単語に関連付けられたＵＲＬとから音声検索用辞書を作成する辞書作成手段と、前記抽出された単語から音声認識タスクを作成するタスク作成手段と、前記音声認識タスクに最適な言語モデルと音響モデルを選択する言語モデル・音響モデル選択手段と、前記言語モデル・音響モデル選択手段にて選択された言語モデルと音響モデルを利用してユーザが発話した音声を認識する音声認識手段と、ユーザの発話内容の意図を解析し検出する意図検出手段と、前記意図抽出手段にて検出された意図を前記音声検索用辞書から検索する検索手段と、前記検索手段の検索結果に基づいてウエブページを変更するウエブページ変更手段と、を備えたことを特徴とする、ウエブページの音声検索装置。
ウエブページを音声検索するためにコンピュータを、現在表示されているウエブページにリンクされているウエブページを予め指定された階層数だけ先読みしてダウンロードするウエブページ取得手段と、前記ウエブページ取得手段にてダウンロードされた全てのウエブページから単語を抽出する単語抽出手段と、前記単語抽出手段にて抽出された単語に、前記抽出された単語が抽出されたウエブページのＵＲＬを関連付けるリンク付与手段と、前記抽出された単語と、前記抽出された単語に関連付けられたＵＲＬとから音声検索用辞書を作成する辞書作成手段と、前記抽出された単語から音声認識タスクを作成するタスク作成手段と、前記音声認識タスクに最適な言語モデルと音響モデルを選択する言語モデル・音響モデル選択手段と、前記言語モデル・音響モデル選択手段にて選択された言語モデルと音響モデルを利用してユーザが発話した音声を認識する音声認識手段と、ユーザの発話内容の意図を解析し検出する意図検出手段と、前記意図抽出手段にて検出された意図を前記音声検索用辞書から検索する検索手段と、前記検索手段の検索結果に基づいてウエブページを変更するウエブページ変更手段として機能させる事を特徴とするウエブページの音声検索プログラム。