JP3893893B2 - ウエブページの音声検索方法、音声検索装置および音声検索プログラム - Google Patents

ウエブページの音声検索方法、音声検索装置および音声検索プログラム Download PDF

Info

Publication number
JP3893893B2
JP3893893B2 JP2001101640A JP2001101640A JP3893893B2 JP 3893893 B2 JP3893893 B2 JP 3893893B2 JP 2001101640 A JP2001101640 A JP 2001101640A JP 2001101640 A JP2001101640 A JP 2001101640A JP 3893893 B2 JP3893893 B2 JP 3893893B2
Authority
JP
Japan
Prior art keywords
web page
word
task
extracted
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001101640A
Other languages
English (en)
Other versions
JP2002297372A (ja
Inventor
正信 西谷
康永 宮沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2001101640A priority Critical patent/JP3893893B2/ja
Publication of JP2002297372A publication Critical patent/JP2002297372A/ja
Application granted granted Critical
Publication of JP3893893B2 publication Critical patent/JP3893893B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、ウエブページの音声検索方法に関し、特に、WWWブラウザを用いたウエブページの音声検索方法に関する。
【0002】
【従来の技術】
従来、ウエブページの音声検索を行うために、ウエブページに埋め込まれたハイパーリンクを音声によって検索する従来技術が数多く提案されている。
例えば、WWWブラウザに現在表示されているウエブページのリンク項目を音声によって検索する従来技術が、特開平11−184671号公報の「情報提示方法及び装置、情報提示システム」において開示されている。
また、現在表示されているウエブページおよび現在表示されているウエブページにリンクされているウエブページのリンク項目を音声によって検索する従来技術が、情報処理学会論文誌Vol.40 No.2 p443-p452(1999)に掲載された「音声キーワードによるWWWのブラウジング」において開示されている。
【0003】
【発明が解決しようとする課題】
しかしながら、上記の従来技術では、音声検索の対象となるのはウエブページのリンク項目だけであり、ウエブページの内容については検索することができなかった。
また、上記の従来技術では、ユーザからの音声を認識する際は、単語認識を主としているため、簡単な文法を用いた音声認識しかできなかった。そのため、ユーザの自然発話に基づいて音声検索する際は、音声認識の精度が低いという問題があった。
本発明は、これらの課題を解決するためになされたもので、ウエブページのリンク項目のみならずウエブページの内容についても音声検索することができ、かつ、ユーザが自然発話した際にも精度の高い音声認識を実現することができるウエブページの音声検索方法を提供することを目的とする。
【0004】
【課題を解決するための手段】
前述した目的を達成するために、本発明のウエブページの検索方法は、ウエブページの音声検索方法であって、現在表示されているウエブページにリンクされているウエブページを予め指定された階層数だけ先読みしてダウンロードするウエブページ取得手段と、前記ウエブページ取得手段にてダウンロードされた全てのウエブページから単語を抽出する単語抽出手段と、前記単語抽出手段にて抽出された単語と、前記抽出された単語が抽出されたウエブページのURLとを関連付けるリンク付与手段と、前記抽出された単語と、前記抽出された単語に関連付けられたURLとから音声検索用辞書を作成する辞書作成手段と、前記抽出された単語から音声認識タスクを作成するタスク作成手段と、前記音声認識タスクに最適な言語モデルと音響モデルを選択する言語モデル・音響モデル選択手段と、前記言語モデル・音響モデル選択手段にて選択された言語モデルと音響モデルを利用してユーザが発話した音声を認識する音声認識手段と、ユーザの発話内容の意図を解析し検出する意図検出手段と、前記意図検出手段にて検出された意図を前記音声検索用辞書から検索する検索手段と、前記検索手段の検索結果に基づいてウエブページを変更するウエブページ変更手段とを備えたことを特徴とする。
【0005】
また本発明の音声検索方法は、前記ウエブページ取得手段がダウンロードした全てのウエブページからテキストを抽出した後、前記テキストを形態素解析することによって単語を抽出することを特徴とする。
請求項2の発明によれば、単語抽出手段は、ウエブページ取得手段がダウンロードした全てのウエブページに記載されたテキストを解析して単語を抽出することができる。
【0006】
また本発明のウエブページの音声検索方法は前記リンク付与手段が前記単語抽出手段から抽出された単語に、単数のリンクを付与することを特徴とする。
請求項3の発明によれば、リンク付与手段は、単語に単数のリンクを付与することができる。
【0007】
また本発明のウエブページの音声検索方法は前記タスク作成手段が前記単語抽出手段から抽出された単語群を比較し、前記単語群の類似概念のタスクまたは関連度の高いタスクを前記音声認識タスクとすることを特徴とする。
請求項4の発明によれば、タスク作成手段は、ウエブページから抽出された単語群から、そのウエブページを音声検索するのに好適な音声認識タスクを作成することができる。
【0008】
また本発明のウエブページの音声検索方法は前記言語モデル・音響モデル選択手段が前記タスク作成手段が作成した音声認識タスクを予め用意した言語モデル・音響モデル群が有するタスクと照合して、類似概念のタスクまたは関連度の高いタスクを構成する言語モデル・音響モデルを選択することを特徴とする。
請求項5の発明によれば、タスク作成手段が作成した音声認識タスクに基づいて、予め用意した言語モデル・音響モデル群の中から、音声認識タスクに最適な言語モデルと音響モデルを選択することができる。
【0009】
また本発明のウエブページの音声検索方法は、前記言語モデル・音響モデル選択手段が前記タスク作成手段が作成した音声認識タスクを、予め用意した音声認識タスク群が有するタスクと照合して、意味的に近いタスクを構成する言語モデル・音響モデルを選択することを特徴とする。
請求項6の発明によれば、タスク作成手段が作成した音声認識タスクに基づいて、予め用意した音声認識タスク群の中から、音声認識タスクに最適な言語モデルと音響モデルを選択することができる。
【0010】
また本発明のウエブページの音声検索装置はウエブページの音声検索装置であって、現在表示されているウエブページにリンクされているウエブページを予め指定された階層数だけ先読みしてダウンロードするウエブページ取得手段と、前記ウエブページ取得手段にてダウンロードされた全てのウエブページから単語を抽出する単語抽出手段と、前記単語抽出手段にて抽出された単語に、前記抽出された単語が抽出されたウエブページのURLを関連付けるリンク付与手段と、前記抽出された単語と、前記抽出された単語に関連付けられたURLとから音声検索用辞書を作成する辞書作成手段と、前記抽出された単語から音声認識タスクを作成するタスク作成手段と、前記音声認識タスクに最適な言語モデルと音響モデルを選択する言語モデル・音響モデル選択手段と、前記言語モデル・音響モデル選択手段にて選択された言語モデルと音響モデルを利用してユーザが発話した音声を認識する音声認識手段と、ユーザの発話内容の意図を解析し検出する意図検出手段と、前記意図抽出手段にて検出された意図を前記音声検索用辞書から検索する検索手段と、前記検索手段の検索結果に基づいてウエブページを変更するウエブページ変更手段と、を備えたことを特徴とする。
請求項7の発明によれば、ウエブページのリンク項目のみならずウエブページの内容についても音声検索することができ、かつ、ユーザが自然発話した際にも精度の高い音声認識を実現することができるウエブページの音声認識装置を提供することができる。
【0011】
また本発明のウエブページの音声検索プログラムは、ウエブページを音声検索するためにコンピュータを、現在表示されているウエブページにリンクされているウエブページを予め指定された階層数だけ先読みしてダウンロードするウエブページ取得手段と、前記ウエブページ取得手段にてダウンロードされた全てのウエブページから単語を抽出する単語抽出手段と、前記単語抽出手段にて抽出された単語に、前記抽出された単語が抽出されたウエブページのURLを関連付けるリンク付与手段と、前記抽出された単語と、前記抽出された単語に関連付けられたURLとから音声検索用辞書を作成する辞書作成手段と、前記抽出された単語から音声認識タスクを作成するタスク作成手段と、前記音声認識タスクに最適な言語モデルと音響モデルを選択する言語モデル・音響モデル選択手段と、前記言語モデル・音響モデル選択手段にて選択された言語モデルと音響モデルを利用してユーザが発話した音声を認識する音声認識手段と、ユーザの発話内容の意図を解析し検出する意図検出手段と、前記意図抽出手段にて検出された意図を前記音声検索用辞書から検索する検索手段と、前記検索手段の検索結果に基づいてウエブページを変更するウエブページ変更手段として機能させる事を特徴とする。
請求項8の発明によれば、ウエブページのリンク項目のみならずウエブページの内容についても音声検索することができ、かつ、ユーザが自然発話した際にも精度の高い音声認識を実現することができるウエブページの音声検索プログラムを提供することができる。
【0014】
【作用】
現在表示されているウエブページにリンクされているウエブページを予め指定された階層数だけ先読みしてダウンロードした後、ダウンロードされた全てのウエブページから単語を抽出する。そして、抽出された単語に、単語が抽出されたウエブページのURLを関連付けて音声検索用辞書を作成する。また、抽出された単語から音声認識タスクを作成し、音声認識タスクに最適な言語モデルと音響モデルを選択する。そして、ユーザが発話した音声を認識し、ユーザの発話内容を示す単語を検出する。検出された単語を音声検索用辞書から検索し、検索結果に基づいてウエブページを変更する。
【0015】
【発明の実施の形態】
以下、本発明の実施の形態を、図面を参照して詳細に説明する。図1は、本発明のウエブページの音声検索方法を実現するためのシステム構成を示す機能ブロック図である。また、図2は、ハイパーリンクの抽出方法を説明した図であり、図3は、単語の抽出方法を説明した図である。また、図4は、抽出された単語にハイパーリンクを関連付ける方法を説明した図であり、図5は、音声検索用辞書を示す図である。また、図6は、音声認識タスクを作成する方法を説明した図であり、図7は、言語モデル・音響モデルを選択する方法を説明した図である。また、図8は、ウエブページを音声検索する手順を示すフローチャートである。
【0016】
まず、本発明のウエブページの音声検索方法を実現するためのシステム構成について、図1に示す機能ブロック図を参照して説明する。
図1において、1はWWWブラウザ、2はHTML解析部、3は音声検索用辞書、4はシソーラス、5はタスク制御部、6は言語モデル・音響モデル群、7は音声認識部、8は意図解析部、9はブラウザ制御部である。
【0017】
WWWブラウザ1は、インターネット上のWWWサーバーに蓄積されたハイパーテキスト形式のファイルやデータをクライアント側で閲覧するためのソフトウエアであり、ユーザまたはブラウザ制御部9から入力されたURLが指定するウエブページ(以下、単に「ページ」という)をダウンロードして表示する。
本実施の形態では、WWWブラウザ1には、例えば、マイクロソフト社のInternet Explorerやネットスケープ・コミュニケーションズ社のNetscape Navigator等を用いる。なお、WWWブラウザ1は、PC(パーソナル・コンピュータ)で使用されるソフトウエアに限定されるものではなく、例えば、携帯電話やPDA(携帯情報端末)等で使用されるソフトウエアであっても構わない。
【0018】
HTML解析部2は、まず、WWWブラウザ1が記憶領域にダウンロードした全てのページのHTML文書を解析して音声検索用辞書3を作成する。そして、作成された音声検索用辞書3からタスク制御部5が音声認識タスクを作成する。
【0019】
まず、音声検索用辞書を作成する方法について説明する。音声検索用辞書3を作成する際は、WWWブラウザ1がダウンロードしたHTML文書を解析して、(1)ハイパーリンクの抽出、(2)単語の抽出、(3)抽出された単語へのハイパーリンクの関連付け、を行う。
【0020】
(1)ハイパーリンクの抽出
HTML文書からハイパーリンクを抽出する際は、HTMLタグである<A></A>タグのHREFオプションで指定されたURLと、開始タグ<A>と終了タグ</A>との間に記載されたテキストを抽出する。抽出されたテキストは、すべて形態素解析され、単語単位に分割される。そして、抽出されたURLと単語は、音声検索用辞書3に保存される。
例えば、図2に示すように、<A></A>タグのHREFオプションで指定された「http://www.epson.co.jp/」というURLと、開始タグ<A>と終了タグ</A>との間に記載された「セイコーエプソン株式会社」というテキストが抽出される。そして、抽出された「セイコーエプソン株式会社」というテキストは、形態素解析によって「セイコーエプソン」という単語と「株式会社」という単語に分割され、先の「http://www.epson.co.jp/」というURLと共に音声検索用辞書3に保存される。
なお、テキストを形態素解析するレベルは、ユーザが任意に指定することができる。例えば、前記の「セイコーエプソン株式会社」というテキストは、「セイコーエプソン」という単語と「株式会社」という単語に分割することなく、「セイコーエプソン株式会社」という一つの単語として扱うこともできる。
ハイパーリンクが抽出されると、HTML解析部2はブラウザ制御部9を制御して、抽出されたハイパーリンクのURLが指定するページをWWWブラウザ1にダウンロードする。この作業は、WWWブラウザ1がダウンロードしたページの階層数が、予め指定された階層数に達するまで繰り返される。
例えば、図2(b)に示すように、予め現在のページの2ページ先まで先読みするように指定されている場合は、まず、WWWブラウザ1が、現在のページP1にリンクされているページP2、P3、P4を先読みしてダウンロードする。そして、WWWブラウザ1は、ダウンロードしたページP2、P3、P4にそれぞれリンクされているページP5、P6、P7、P8、P9をさらに先読みしてダウンロードする。
【0021】
(2)単語の抽出
HTML文書から単語を抽出する際は、まず、WWWブラウザ1がダウンロードした全てのページのHTML文書からテキストを抽出し、その後、抽出されたテキストを形態素解析して単語単位に分割する。
HTML文書からテキストを抽出する際は、特定のHTMLタグにおいて、タグの直後またはタグ中の指定された位置に記載されたテキストを抽出する。また、テキストを抽出した際は、抽出したテキストの位置情報(行と列)を記憶しておく。
テキスト抽出の対象となるHTMLタグとしては、タイトルを設定する<TITLE>タグ、リンク先を示す<A>タグ、画像を表示する<IMG>タグ、見出しを設定する<H>タグ、リストを作成する際に用いられる<UL>タグ,<OL>タグ,<DL>タグ等がある。また、<IMG>タグのALTオプションで指定されたテキストも抽出の対象となる。
例えば、図3に示すように、<TITLE>タグの直後に記載された「セイコーエプソン株式会社」というテキストが抽出されると、抽出された「セイコーエプソン株式会社」というテキストは形態素解析されて「セイコーエプソン」という単語と「株式会社」という単語に分割される。
なお、「(1)ハイパーリンクの抽出」のときと同様に、テキストを形態素解析するレベルは、ユーザが任意に指定することができる。例えば、図3の例では、「セイコーエプソン株式会社」というテキストは、そのまま、「セイコーエプソン株式会社」という一つの単語として扱うこともできる。
【0022】
(3)抽出された単語へのハイパーリンクの関連付け
抽出された単語にハイパーリンクを関連付ける際は、「(2)単語の抽出」においてHTML文書から抽出した単語に、その単語が抽出されたページのハイパーリンクを関連付ける。
具体的には、HTML文書から抽出された単語に対して、その単語が記載されているページのURLに基づいてハイパーリンクを付与する。また、その単語のリンク先には、HTML文書内に同一のページ内での参照を示す<A NAME>タグをリンク情報として埋め込む。なお、<A NAME>タグを埋め込む位置については、「(2)単語の抽出」においてテキストを抽出した際に記憶された抽出されたテキストの位置情報(行と列)を参照する。ハイパーリンクが付与された単語は、その単語に付与されたハイパーリンクのURLと共に音声検索用辞書3に保存される。
例えば、図4(a)に示すように、HTML文書から「プリンタ」という単語が抽出された際は、「プリンタ」という単語には、「プリンタ」という単語が記載されているページのURLに基づいて、「http://localhost/index.html#プリンタ」というURLが付与される。そして、「プリンタ」という単語は、「プリンタ」という単語に付与された「http://localhost/index.html#プリンタ」というURLと共に音声検索用辞書3に保存される。また、「プリンタ」という単語のリンク先には、図4(b)に示すように、HTML文書内に「<A NAME=゛プリンタ゛>プリンタ</A>」というタグをリンク情報として埋め込む。
【0023】
音声検索用辞書3の一例を図5に示す。音声検索用辞書3は、HTML文書から抽出された単語と、その単語に付与されたハイパーリンクのURLとから構成されている。
例えば、図5に示すように、音声検索用辞書3には、「セイコーエプソン」という単語が、その単語のリンク先を示す「http://www.epson.co.jp/」というURLと共に保存されている。また、同様に、音声検索用辞書3には、「プリンタ」という単語が、その単語のリンク先を示す「http://localhost/index.html#プリンタ」というURLと共に保存されている。
【0024】
次に、作成された音声検索用辞書3から音声認識タスクを作成する方法について説明する。
最初に音声タスクとはHTML文書等から抽出された単語をタスク制御部が単語同士の相互関係および単語の適用範囲を定義しているシソーラスを参照して単語の関連性を比較したものである。
音声認識タスクを作成する際は、まず、「(2)単語の抽出」において、WWWブラウザ1にダウンロードされた全てのページのHTML文書から抽出した単語群を、WWWブラウザ1にダウンロードされたページの内容の把握するためのキーワード群とする。そして、それらのキーワード群と外部データベースであるシソーラス4を利用して、タスク制御部5が音声認識タスクを作成する。
例えば、図6に示すように、HTML文書から抽出された単語(キーワード)が、「プリンタ」、「メモリ」、「ハードディスク」、「製品」、「購入」であった際は、シソーラス4を参照してタスク制御部5がそれらのキーワードの関連性を比較し、「パソコン関連機器の購入」という音声認識タスクを作成する。
【0025】
シソーラス4は、類義語や同義語等を集めたデータベースであり、HTML解析部2で抽出された単語間の関係を整理し、単語同士の相互関係および単語の適用範囲を定義し、HTML解析部2において、HTML文書から抽出された単語群から音声認識タスクを作成するのを補助する。また、シソーラス4は、後述するように、タスク制御部5において、言語モデル・音響モデル群6から言語モデル(LM)と音響モデル(AM)を選択するのを補助する。
【0026】
タスク制御部5は、音声認識タスクを作成するとともに、作成された音声認識タスクに基づいて、言語モデル・音響モデル6群の中から、作成された音声認識タスクに最適な言語モデル(LM)と音響モデル(AM)を選択する。
言語モデル(LM)と音響モデル(AM)を選択する際は、作成された音声認識タスクと、言語モデル・音響モデル群6が有するタスクとを照合して、類似概念のタスクまたは関連度の高いタスクを選択する。音声認識タスクと、言語モデル・音響モデル群6が有するタスクとを照合する際は、シソーラス4を利用する。
例えば、図7に示すように、タスク制御部5で作成された音声認識タスクが「パソコン関連機器の購入」であり、言語モデル・音響モデル群6が有するタスクがが「地名検索タスク」、「ホテル予約タスク」、「ショッピングタスク」、「パソコン関連記事読み上げタスク」であった際は、シソーラス4を参照すると、「パソコン関連機器の購入」と「パソコン関連記事読み上げタスク」は、同類の概念として認識されるので、「パソコン関連記事読み上げタスク」に関する言語モデル(LM)と音響モデル(AM)が選択される。
なお、本実施の形態では、音声認識タスクと、言語モデル・音響モデル群6が有するタスクとを照合する際は、外部データベースであるシソーラス4を利用したが、作成された音声認識タスクと、言語モデル・音響モデル群6が有するタスクとを照合する方法は、本実施の形態の手法に限定されるものではなく、様々な手法を用いることができる。
また、言語モデル(LM)と音響モデル(AM)を選択する際は、図8に示すように、言語モデル・音響モデル群6の代わりに、音声認識タスク群10を用意しておき、音声認識タスク群10の中から、作成された音声認識タスクと意味的に近いタスクを選択するように構成することもできる。
また、予め、音声認識タスクと言語モデル(LM)・音響モデル(AM)とを互いに関連付けておいても、もちろん構わない。
さらに、本実施の形態では、音声認識タスクと、その音声認識タスクに対応する言語モデル(LM)・音響モデル(AM)は一対一で定まっているが、一つの音声認識タスクに対して複数の言語モデル(LM)・音響モデル(AM)を組み合わせても構わない。
【0027】
言語モデル・音響モデル6群は、複数の言語モデル(LM)と音響モデル(AM)とから構成され、各言語モデル(LM)・音響モデル(AM)は、各音声認識タスクの内容に適したデータを有する。つまり、言語モデル(LM)は、特定の分野に関するテキストデータから作成されており、音響モデル(AM)は、特定の分野に関する音声データから作成されている。なお、言語モデル(LM)と音響モデル(AM)は、統計量を用いた確率・統計的なモデルや、文法を用いた構造的なモデルを利用することも可能である。
また、各言語モデル(LM)は、音声認識用の語彙辞書を有する。つまり、音声認識用の語彙辞書は、各言語モデル(LM)毎に用意されている。
例えば、「パソコン関連記事読み上げタスク」という音声認識タスクに対応する言語モデル(LM)・音響モデル(AM)としては、パソコンに関連する記事から作成した言語モデル(LM)と、パソコンに関連する記事の発話から作成した音響モデル(AM)とがある。
また、言語モデル・音響モデル群6は、PC(パーソナル・コンピュータ)等のローカルな環境に設置されたものに限らず、インターネット等のネットワーク上に設置されたものを利用することもできる。
【0028】
音声認識部7は、WWWブラウザ1がダウンロードしたページを対象に、タスク制御部5において選択された言語モデル(LM)・音響モデル(AM)を利用して、ユーザが発話した音声を認識する。
音声認識部7が音声認識する際は、まず、ユーザが発話した音声の分析処理を行い、音声認識に必要な情報を抽出する。そして、音声認識タスクが選択した言語モデル(LM)・音響モデル(AM)を参照して、発話内容を示す単語列を取得する。
なお、ここでいう単語列とは、言語モデル(LM)が持つ語彙の列である。また、WWWブラウザ1がダウンロードしたページから取得された単語が、言語モデル(LM)の持つ語彙に含まれない場合もあるが、このような未知語に対する処理は、説明の簡略化のため省略する。
【0029】
意図解析部8は、音声認識部7において取得された単語列を解析して、ユーザの発話内容を示す単語を検出する。そして、解析結果から、音声検索用辞書3を用いて、ユーザの所望するページの検索を行う。
ここで意図とは音声認識部7において取得された単語列の「〜を見たい」、「〜を知りたい」の「〜」に相当する要求意図である。
単語列を解析する際は、パターンマッチ、意味解析、形態素解析、格構造解析等の自然言語処理を利用して行う。そして、解析結果として検出された単語を音声検索用辞書3から検索して、移動するページを決定する。
例えば、パターンマッチの手法を用いる場合は、まず、音声認識部7において取得された単語列から、「〜を見たい」、「〜を知りたい」という部分を見つけ出した後、それらの部分から「〜」の部分に該当する単語を検出する。そして、検出された単語を音声検索用辞書3から検索する。検索されたページはユーザの所望するページと判断され、そのページを移動するページとして決定し、そのページのURLを取得する。
【0030】
ブラウザ制御部9は、意図解析部8の解析結果に基づいて、WWWブラウザ1を制御する。具体的には、意図解析部8において取得されたURLをWWWブラウザ1に入力してページに変更する。
なお、現在表示されているページと同一のページに移動する際は、ネットワーク上から新たにダウンロードしてページを取得するのではなく、HTML文書を解析する際に取得したページをWWWブラウザ1に渡す。
【0031】
次に、WWWを音声検索する手順について、図9に示すフローチャートを参照して説明する。
まず、ステップS1において、ユーザがWWWブラウザ1に任意のURLを入力する。URLは、ユーザがキーボードやマウスを用いて入力する。また、URLは、ユーザが音声によって入力しても良い。
続くステップS2において、WWWブラウザ1は、そのURLが示すページをダウンロードして表示する。
そして、ステップS3では、ステップS2において表示されたページがユーザの所望するページであるかどうかを判断する。表示されたページがユーザの所望するページである場合は、作業を終了する。逆に、ユーザが他のページを所望する場合は、次のステップS4に進む。
【0032】
ステップS4では、HTML解析部2が、WWWブラウザ1に現在表示されているページおよび現在表示されているページにリンクされているページから、HTML文書を取得する。
続くステップS5では、ステップS4において取得されたHTML文書を解析し、ハイパーリンクの抽出と単語の抽出を行う。この作業は、WWWブラウザ1がダウンロードしたページの階層数が、予め指定された階層数に達するまで繰り返される。
そして、ステップS6では、WWWブラウザ1がダウンロードしたページの階層数が予め指定された階層数に達したかどうかを判断する。WWWブラウザ1がダウンロードしたページの階層数が予め指定された階層数に達した場合は、次のステップS7に進む。また、WWWブラウザ1がダウンロードしたページの階層数が予め指定された階層数に達していない場合は、先のステップS4に戻る。
【0033】
ステップS7では、HTML解析部2が、先のステップS5において抽出されたハイパーリンクと単語とから音声検索用辞書3を作成する。
続く、ステップS8では、タスク制御部5が、ステップS7において作成された音声検索用辞書3から、音声認識タスクを作成する。
ステップS9では、ステップS8において作成された音声認識タスクに基づいて、言語モデル・音響モデル群6から、言語モデル(LM)・音響モデル(AM)を選択する。
【0034】
そして、ステップS10においてユーザが発話すると、続くステップS11では、音声認識部7が、先のステップS9において選択された言語モデル(LM)・音響モデル(AM)を利用して、ユーザが発話した音声を認識し、発話内容を示す単語列を取得する。
続くステップS12では、音声認識部7がユーザの発話を認識できたかどうかを判断する。ユーザの発話を認識できたと判断された場合は、次のステップS13に進む。また、ユーザの発話を認識できなかったと判断された場合は、先のステップS10に戻る。
【0035】
ステップS13では、意図解析部8が、先のステップS11において取得された単語列を解析して、ユーザの発話内容を示す単語を検出する。
続くステップS14では、ステップS13において検出された単語を音声検索用辞書3から検索して、移動するページのURLを取得する。
そして、ステップS15では、ブラウザ制御部9が、ステップS14において取得されたURLをWWWブラウザ1に入力してページを変更する。
【0036】
以上、本発明のウエブページの音声検索方法について、一実施の形態例を説明したが、本発明は前記した実施の形態に限定されることなく、広く変形して実施可能である。
例えば、本実施形態では、WWWブラウザ1にダウンロードされたHTML文書を解析する場合について述べたが、HTML文書に限らず、XML(Extensible Markup Language)等によって記述された文書でもかまわない。また、本実施形態では、ウエブページをダウンロードするのに、WWWブラウザプログラムを用いたが、他の方法によってウエブページをダウンロードしても構わない。
また、一度解析したページの情報を履歴として保存することにより、次回以降のページの先読み、音声検索用辞書の作成、音声認識タスクを作成等の処理を省くことができる。
【0037】
【発明の効果】
本発明によれば、ウエブページのリンク項目だけでなくウエブページの内容についても音声検索することができる。したがって、自由度の高い音声検索を実現することができる。
また、ウエブページから抽出された単語から音声認識タスクを作成することができるので、ダウンロードしたウエブページを音声検索する際に最適な言語モデルと音響モデルを選択することができる。したがって、精度の高い音声認識を実現することができる。
【図面の簡単な説明】
【図1】本発明のウエブページの音声検索方法を実現するためのシステム構成を示す機能ブロック図である。
【図2】ハイパーリンクの抽出方法を説明した図である。
【図3】単語の抽出方法を説明した図である。
【図4】抽出された単語にハイパーリンクを関連付ける方法を説明した図である。
【図5】音声検索用辞書を示す図である。
【図6】音声認識タスクを作成する方法を説明した図である。
【図7】言語モデル・音響モデルを選択する方法を説明した図である。
【図8】言語モデル・音響モデルを選択する他の方法を説明した図である。
【図9】ウエブページを音声検索する手順を示すフローチャートである。
【符号の説明】
1 WWWブラウザ
2 HTML解析部
3 音声検索用辞書
4 シソーラス
5 タスク制御部
6 言語モデル・音響モデル群
7 音声認識部
8 意図解析部
9 ブラウザ制御部
10 音声認識タスク群

Claims (8)

  1. ウエブページの音声検索方法であって、現在表示されているウエブページにリンクされているウエブページを予め指定された階層数だけ先読みしてダウンロードするウエブページ取得手段と、前記ウエブページ取得手段にてダウンロードされた全てのウエブページから単語を抽出する単語抽出手段と、前記単語抽出手段にて抽出された単語と、前記抽出された単語が抽出されたウエブページのURLとを関連付けるリンク付与手段と、前記抽出された単語と、前記抽出された単語に関連付けられたURLとから音声検索用辞書を作成する辞書作成手段と、前記抽出された単語から音声認識タスクを作成するタスク作成手段と、前記音声認識タスクに最適な言語モデルと音響モデルを選択する言語モデル・音響モデル選択手段と、前記言語モデル・音響モデル選択手段にて選択された言語モデルと音響モデルを利用してユーザが発話した音声を認識する音声認識手段と、ユーザの発話内容の意図を解析し検出する意図検出手段と、前記意図検出手段にて検出された意図を前記音声検索用辞書から検索する検索手段と、前記検索手段の検索結果に基づいてウエブページを変更するウエブページ変更手段とを備えたことを特徴とする、ウエブページの音声検索方法。
  2. 前記単語抽出手段は、前記ウエブページ取得手段がダウンロードした全てのウエブページからテキストを抽出した後、前記テキストを形態素解析することによって単語を抽出することを特徴とする、請求項1に記載の音声検索方法。
  3. 前記リンク付与手段は、前記単語抽出手段から抽出された単語に、単数のリンクを付与することを特徴とする、請求項1または請求項2に記載の音声検索方法。
  4. 前記タスク作成手段は、前記単語抽出手段から抽出された単語群をシソーラスを用いて比較し、前記シソーラスを基にした前記単語群の類似概念のタスクまたは関連度の高いタスクを前記音声認識タスクとすることを特徴とする、請求項1から請求項3のいずれかに記載のウエブページの音声検索方法。
  5. 前記言語モデル・音響モデル選択手段は、前記タスク作成手段が作成した音声認識タスクを、予め用意した言語モデル・音響モデル群が有するタスクと照合して、類似概念のタスクまたは関連度の高いタスクを構成する言語モデル・音響モデルを選択することを特徴とする、請求項1ないし請求項4のいずれかに記載のウエブページの音声検索方法。
  6. 前記言語モデル・音響モデル選択手段は、前記タスク作成手段が作成した音声認識タスクを、予め用意した音声認識タスク群が有するタスクと照合して、意味的に近いタスクを構成する言語モデル・音響モデルを選択することを特徴とする、請求項1ないし請求項4のいずれかに記載のウエブページの音声検索方法。
  7. ウエブページの音声検索装置であって、現在表示されているウエブページにリンクされているウエブページを予め指定された階層数だけ先読みしてダウンロードするウエブページ取得手段と、前記ウエブページ取得手段にてダウンロードされた全てのウエブページから単語を抽出する単語抽出手段と、前記単語抽出手段にて抽出された単語に、前記抽出された単語が抽出されたウエブページのURLを関連付けるリンク付与手段と、前記抽出された単語と、前記抽出された単語に関連付けられたURLとから音声検索用辞書を作成する辞書作成手段と、前記抽出された単語から音声認識タスクを作成するタスク作成手段と、前記音声認識タスクに最適な言語モデルと音響モデルを選択する言語モデル・音響モデル選択手段と、前記言語モデル・音響モデル選択手段にて選択された言語モデルと音響モデルを利用してユーザが発話した音声を認識する音声認識手段と、ユーザの発話内容の意図を解析し検出する意図検出手段と、前記意図抽出手段にて検出された意図を前記音声検索用辞書から検索する検索手段と、前記検索手段の検索結果に基づいてウエブページを変更するウエブページ変更手段と、を備えたことを特徴とする、ウエブページの音声検索装置。
  8. ウエブページを音声検索するためにコンピュータを、現在表示されているウエブページにリンクされているウエブページを予め指定された階層数だけ先読みしてダウンロードするウエブページ取得手段と、前記ウエブページ取得手段にてダウンロードされた全てのウエブページから単語を抽出する単語抽出手段と、前記単語抽出手段にて抽出された単語に、前記抽出された単語が抽出されたウエブページのURLを関連付けるリンク付与手段と、前記抽出された単語と、前記抽出された単語に関連付けられたURLとから音声検索用辞書を作成する辞書作成手段と、前記抽出された単語から音声認識タスクを作成するタスク作成手段と、前記音声認識タスクに最適な言語モデルと音響モデルを選択する言語モデル・音響モデル選択手段と、前記言語モデル・音響モデル選択手段にて選択された言語モデルと音響モデルを利用してユーザが発話した音声を認識する音声認識手段と、ユーザの発話内容の意図を解析し検出する意図検出手段と、前記意図抽出手段にて検出された意図を前記音声検索用辞書から検索する検索手段と、前記検索手段の検索結果に基づいてウエブページを変更するウエブページ変更手段として機能させる事を特徴とするウエブページの音声検索プログラム。
JP2001101640A 2001-03-30 2001-03-30 ウエブページの音声検索方法、音声検索装置および音声検索プログラム Expired - Fee Related JP3893893B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001101640A JP3893893B2 (ja) 2001-03-30 2001-03-30 ウエブページの音声検索方法、音声検索装置および音声検索プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001101640A JP3893893B2 (ja) 2001-03-30 2001-03-30 ウエブページの音声検索方法、音声検索装置および音声検索プログラム

Publications (2)

Publication Number Publication Date
JP2002297372A JP2002297372A (ja) 2002-10-11
JP3893893B2 true JP3893893B2 (ja) 2007-03-14

Family

ID=18954926

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001101640A Expired - Fee Related JP3893893B2 (ja) 2001-03-30 2001-03-30 ウエブページの音声検索方法、音声検索装置および音声検索プログラム

Country Status (1)

Country Link
JP (1) JP3893893B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4756764B2 (ja) * 2001-04-03 2011-08-24 キヤノン株式会社 プログラム及び情報処理装置並びに情報処理方法
JP4367713B2 (ja) * 2003-01-15 2009-11-18 パナソニック株式会社 放送受信方法、放送受信システム、第1装置、第2装置、音声認識方法、音声認識装置、プログラム及び記録媒体
JP2005084829A (ja) * 2003-09-05 2005-03-31 Sharp Corp 情報検索方法、情報検索装置、情報検索プログラム、及びプログラム記録媒体
KR20050040983A (ko) * 2003-10-29 2005-05-04 (주)텔리뷰 음성을 이용한 웹 브라우징 시스템 및 제어방법
WO2005122143A1 (ja) * 2004-06-08 2005-12-22 Matsushita Electric Industrial Co., Ltd. 音声認識装置および音声認識方法
WO2008069308A1 (ja) 2006-12-08 2008-06-12 Nec Corporation 音声認識装置および音声認識方法
CN107357875B (zh) * 2017-07-04 2021-09-10 北京奇艺世纪科技有限公司 一种语音搜索方法、装置及电子设备
JP7257010B2 (ja) * 2021-03-11 2023-04-13 株式会社アドバンスト・メディア 検索支援サーバ、検索支援方法及びコンピュータプログラム

Also Published As

Publication number Publication date
JP2002297372A (ja) 2002-10-11

Similar Documents

Publication Publication Date Title
US7729913B1 (en) Generation and selection of voice recognition grammars for conducting database searches
KR101359715B1 (ko) 모바일 음성 웹 제공 방법 및 장치
US6434524B1 (en) Object interactive user interface using speech recognition and natural language processing
JP4467184B2 (ja) 知識創造可能性を有するドキュメントの意味論的分析及び選択
US6532444B1 (en) Network interactive user interface using speech recognition and natural language processing
US8645405B2 (en) Natural language expression in response to a query
US6311182B1 (en) Voice activated web browser
US8412514B1 (en) Method and apparatus for compiling and querying a QA database
JP5167546B2 (ja) 文単位検索方法、文単位検索装置、コンピュータプログラム、記録媒体及び文書記憶装置
CN101796511B (zh) 标识间接引语中的语义关系
EP1927927A2 (en) Speech recognition training method for audio and video file indexing on a search engine
JP4521343B2 (ja) 文書処理装置及び文書処理方法
EP1402406A2 (en) Information retrieval
AU2001251354A1 (en) Natural language and dialogue generation processing
US8200485B1 (en) Voice interface and methods for improving recognition accuracy of voice search queries
US20100100383A1 (en) System and method for searching webpage with voice control
JP3893893B2 (ja) ウエブページの音声検索方法、音声検索装置および音声検索プログラム
US8640017B1 (en) Bootstrapping in information access systems
US8478732B1 (en) Database aliasing in information access system
JP2001092845A (ja) 文書取得方法及び記録媒体
Bordel et al. An XML Resource Definition for Spoken Document Retrieval
JP2001273328A (ja) データベース処理装置、データベース処理方法、およびデータベース処理プログラムを記録したコンピュータ読み取り可能な記憶媒体
WO2006082624A1 (ja) ブックマーク登録プログラム及び当該プログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050526

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060203

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061121

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061204

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101222

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101222

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111222

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111222

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121222

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121222

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131222

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees