JP2012212398A - 情報処理装置及び情報処理方法 - Google Patents
情報処理装置及び情報処理方法 Download PDFInfo
- Publication number
- JP2012212398A JP2012212398A JP2011078677A JP2011078677A JP2012212398A JP 2012212398 A JP2012212398 A JP 2012212398A JP 2011078677 A JP2011078677 A JP 2011078677A JP 2011078677 A JP2011078677 A JP 2011078677A JP 2012212398 A JP2012212398 A JP 2012212398A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- unit
- search
- content
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】 キーワードを抽出するためのキーワード辞書を選択可能であり、選択されたキーワード辞書に応じた検索サイトで検索することができる情報処理装置及び情報処理方法。
【解決手段】 実施形態によれば、情報処理装置はコンテンツ表示手段と、キーワード抽出手段と、検索手段とを具備する。キーワード抽出手段は複数のキーワード辞書のいずれかのキーワード辞書を用いて、コンテンツ表示手段で表示されたコンテンツからキーワードを抽出する。検索手段はキーワード抽出手段で抽出されたキーワードに関連する情報をキーワード抽出手段で用いられたキーワード辞書に応じた検索サイトから検索する。
【選択図】図7
【解決手段】 実施形態によれば、情報処理装置はコンテンツ表示手段と、キーワード抽出手段と、検索手段とを具備する。キーワード抽出手段は複数のキーワード辞書のいずれかのキーワード辞書を用いて、コンテンツ表示手段で表示されたコンテンツからキーワードを抽出する。検索手段はキーワード抽出手段で抽出されたキーワードに関連する情報をキーワード抽出手段で用いられたキーワード辞書に応じた検索サイトから検索する。
【選択図】図7
Description
本発明の実施形態は情報を検索する情報処理装置及び情報処理方法に関する。
インターネットには1つ又は複数のウェブページからなる数多くのウェブサイトが接続されている。インターネットに接続された情報処理装置は、ウェブページへアクセスすることによって多種多様な情報を使用者へ提供することができる。ここで、ウェブページとは、html(HyperText Markup Language)によって記述されたファイルに対応する。また、ウェブページはURI(Uniform Resource Indicator)あるいはURL(Uniform Resource Locator)(以下、URIと称する)によって識別される。そして、ウェブサイトはウェブページの集まりである。数多くのウェブページへのアクセスが可能であるため、情報処理装置の使用者は有用なウェブページを見つけることが困難である。そこで、装置の使用者はアクセスしているウェブページに含まれる注目する語彙を指定する。装置は指定された語彙をキーワードとするとともに、その語彙周辺の文字列からキーワードを抽出し、それらのキーワードを指定し、指定キーワードを含むウェブページを検索し、検索されたウェブページへアクセスする。
しかしながら、装置にウェブページを検索させるために、装置の使用者は注目する語彙を選択して指定する必要があった。そのため、語彙の意味を熟慮することと、選択した語彙を誤り無く指定する操作とが避けられず、その結果、手軽に検索させることができないという問題点があった。
これを解決するために、情報処理装置により表示しているウェブページからキーワードを自動的に抽出する手段が開発されている。先ず、HTML文書を解析し、HTML文書から本文と思われるテキストを抽出し、テキストをキーワード辞書に含まれる単語に基づいて、言語として意味を持つ最小の単位である形態素に分解する。キーワード辞書には例えば形態素の品詞を判別できるような単語が記憶されている。形態素解析によって分解されたテキストの各形態素が抽出キーワードとなる。
従来の情報処理装置は当該装置により表示しているウェブページからキーワードを自動的に抽出するが、例えば、フランス語の動画検索サイトから検索を行う場合に、日本語のキーワード辞書を用いて抽出した日本語のキーワードを用いて検索を行っても、検索結果が殆んど得られず、意味がないという課題がある。
本発明の目的は、表示コンテンツからキーワードを抽出し、抽出したキーワードを使用して情報を検索する際に、キーワードを抽出するためのキーワード辞書を選択可能であり、選択されたキーワード辞書に応じた検索サイトで検索することができる情報処理装置及び情報処理方法を提供することである。
一実施形態によれば、情報処理装置はコンテンツ表示手段と、キーワード抽出手段と、検索手段とを具備する。キーワード抽出手段は複数のキーワード辞書のいずれかのキーワード辞書を用いて、コンテンツ表示手段で表示されたコンテンツからキーワードを抽出する。検索手段はキーワード抽出手段で抽出されたキーワードに関連する情報をキーワード抽出手段で用いられたキーワード辞書に応じた検索サイトから検索する。
他の実施形態によれば、情報処理方法はコンテンツを表示し、複数のキーワード辞書のいずれかのキーワード辞書を用いて、表示されたコンテンツからキーワードを抽出し、抽出されたキーワードに関連する情報をキーワードの抽出に用いられたキーワード辞書に応じた検索サイトから検索する。
以下、実施の形態について図面を参照して説明する。
[第1の実施形態]
図1は本発明の一実施形態に係る情報処理装置の外観を示す斜視図である。ここでは、情報処理装置は例えばノートブックタイプのパーソナルコンピュータ10として実現されている。しかし、情報処理装置の態様はノートブックタイプのパーソナルコンピュータに限らず、デスクトップタイプのパーソナルコンピュータ、スレートタイプあるいはタブレットタイプの携帯情報端末、携帯電話等のいずれの態様でもよい。
図1は本発明の一実施形態に係る情報処理装置の外観を示す斜視図である。ここでは、情報処理装置は例えばノートブックタイプのパーソナルコンピュータ10として実現されている。しかし、情報処理装置の態様はノートブックタイプのパーソナルコンピュータに限らず、デスクトップタイプのパーソナルコンピュータ、スレートタイプあるいはタブレットタイプの携帯情報端末、携帯電話等のいずれの態様でもよい。
図1に示すように、本コンピュータ10はコンピュータ本体2と、ディスプレイユニット3とから構成されている。ディスプレイユニット3には、LCD(Liquid Crystal Display)6が組み込まれている。ディスプレイユニット3はコンピュータ本体2の上面が露出される開放位置とコンピュータ本体2の上面を覆う閉塞位置との間を回動自在にコンピュータ本体2に取り付けられている。コンピュータ本体2は薄い箱形の筐体を有しており、その上面にはキーボード4、タッチパッド5などが配置されている。
コンピュータ10は起動されると、ユーザの操作によってキーボード4またはタッチパッド5のような入力インタフェースからの入力信号に従い操作される。また、コンピュータ10はこの入力信号に従いLCD6で情報を表示する。例えば、ウェブページ(以下、コンテンツとも称する)がLCD6で表示されている場合において、ユーザがLCD6で表示されたウェブページのリンクを選択する際、ユーザは上記のような入力インタフェースを使用してLCD6で表示されたそのリンクを選択することができる。
第1の実施形態はコンテンツが表示されると、表示されたコンテンツからキーワードを自動的に抽出し、抽出したキーワードを表示するとともに記憶する機能を有する。
詳細については後述するが、第1の実施形態は比較的小さい表示画面の機器を想定し、常時はコンテンツのみを表示し、コンテンツ表示プログラムによりコンテンツ表示画面の端にキーワード表示ボタンを表示し、このボタンが選択された時にコンテンツ表示画面からキーワード表示画面に切り替わるとする。しかし、比較的大きい表示画面の機器の場合は、表示画面の主要部分にコンテンツを表示し、余白部分に抽出キーワードをガジェットとして常時表示するようにしてもよい。
LCD6で表示されるコンテンツは、例えばインターネットから取得したHTML文書、テレビなどの番組関連情報、またはメタデータなどのテキストデータや文字列である。また、これに限らず後述する形態素解析によって抽出可能なテキストデータや文字列を含むコンテンツであればよい。さらに、LCD6で表示されるコンテンツの一部がキーワードの抽出ができない場合でも、LCD6で表示されるコンテンツの一部にキーワードを抽出することが可能なコンテンツが含まれていればよい。
図2は第1の実施形態のシステム構成を示すブロック図である。第1の実施形態の処理システムは、コンピュータ10、コンテンツ提供サーバ22、キーワード検索サーバ24から構成される。コンテンツ提供サーバ22及びキーワード検索サーバ24は、例えばインターネットのようなIPネットワークによりアクセス可能なサーバである。
コンピュータ10はコンテンツ表示プログラム20を含み、コンテンツ表示プログラム20はコンテンツ表示部22、HTML文書取得部24、URI指定部26を実現する。HTML文書取得部24はコンテンツ供給サーバ22に接続される。コンテンツ表示部22にコンテンツ読込監視部30が接続され、コンテンツ読込監視部30の出力が文書抽出部32に接続され、文書抽出部32が抽出したHTML文書34がキーワード抽出部36に供給される。HTML文書取得部24が取得したHTML文書28はコンテンツ表示部22に供給されるとともに、文書抽出部32に供給される。
キーワード抽出部32が抽出したキーワード40は閲覧キーワード記憶部42に供給される。キーワード抽出部32には設定情報記憶部54と、複数のキーワード辞書38が接続される。設定情報記憶部54にはキーワード辞書設定部52とキーワード検索部66が接続される。閲覧キーワード記憶部42の出力が過去キーワード記憶部44と、キーワード読出部46に供給され、キーワード読出部46の出力がキーワード表示部48に供給される。
キーワード検索部66には検索サイトデータベース(DB)68が接続され、キーワード検索部66から出力されるキーワード70がキーワード検索サーバ14と閲覧キーワード記憶部42に接続される。キーワード検索サーバ14から出力された検索結果64は検索結果表示部62に供給される。図1のキーボード4またはタッチパッド5からなる操作部50がキーワード検索部66にキーワード選択結果を、検索結果表示指示部56に検索結果選択を、キーワード辞書設定部52にキーワード辞書選択を、キーワード表示部48に機能呼出しを通知する。検索結果表示指示部56はコンテンツURI58をURI指定部26に供給する。
図3は設定情報記憶部54に記憶されるデータの一例を示す図である。ここでは、キーワード辞書38の辞書名と、キーワード辞書表示名と、ユーザ選択状態とが対応付けて記憶される。キーワード辞書表示名は設定画面で表示されるキーワード辞書名であり、ユーザ選択状態はtrueが選択状態を示し、falseが非選択状態を示す。
図4は検索サイトDB68に記憶されるデータの一例を示す図である。ここでは、キーワード辞書38の辞書名と、検索サイトのURIとが対応付けて記憶される。キーワード辞書名と検索サイトのURIの対応付けはデフォルトで決められている。
次に、図5から図7のフローチャートを参照して第1の実施形態の情報処理方法を説明する。
先ず、図示しないメインメニューから所定の操作が行われると、図5に示すキーワード辞書選択処理が開始される。処理が開始されると、図8に示すような設定画面が表示される。ユーザは図示しないカーソルを操作していずれかの辞書を選択し(選択されると白丸が黒丸に変化する)、OKボタンを押す。これにより、選択されたキーワード辞書名を設定情報記憶部54に記録する(ユーザ選択状態をtrueとする)(ブロック102)。ここでは、日本語の検索サイトから検索する場合を想定し、日本語用辞書が選択される。
次に、ユーザがURIを指定すると、コンピュータ10はURI指定部26を介してコンテンツ提供サーバ22に接続される。HTML文書取得部24は指定されたURIに対応したHTML文書をコンテンツ提供サーバ22から取得する。HTML文書取得部24は取得したHTML文書28をコンテンツ表示部22に送る。コンテンツ表示部22はHTML文書を解釈し、解釈されたHTML文書に基づくコンテンツを表示する。
コンテンツ読込監視部30は、コンテンツ表示部22によって表示されるコンテンツの読み込みが完了したか否かを監視する。コンテンツの読み込みが完了したことをコンテンツ読込監視部30が確認すると、図6に示す処理が開始される。
文書抽出部32は、コンテンツ読込監視部30からコンテンツ読み込みが完了したという通知を受けると、コンテンツ表示部22が表示しているコンテンツのHTML文書を抽出し、キーワード抽出部36にそのHTML文書を渡す(ブロック104)。
キーワード抽出部36は設定情報記憶部54から選択状態(true)のキーワード辞書名を読み出し、キーワード辞書として設定する(ブロック106)。
キーワード抽出部36は、文書抽出部32から受け取ったHTML文書を解析し、特徴的なキーワードを抽出する。具体的には、HTML文書から本文と思われるテキストを抽出し、複数のキーワード辞書38の中の設定されたキーワード辞書に含まれる単語に基づいて、言語として意味を持つ最小の単位である形態素に分解する。キーワード辞書38には例えば形態素の品詞を判別できるような単語が記憶されている。形態素解析によって分解されたテキストの各形態素が抽出キーワードとなる。抽出キーワードは、例えばスコアの高い順で並べられる(ブロック108)。スコアとは、例えば抽出キーワードの出現頻度の高さを表す。キーワードを並べる方法はスコアの高い順以外にも、スコアの低い順でもよい。また、抽出キーワードを並べ変えず、抽出された順番に並べてもよい。
閲覧キーワード記憶部42に記憶されているキーワードが過去キーワード記憶部44へコピーされる(ブロック110)。閲覧キーワード記憶部42に記憶されているキーワードは表示ページが切り替わる毎に図6のフローチャートに示すように更新されるので、コピーではなくムーブでもよい。
コンテンツ表示部22が表示しているコンテンツから抽出されたキーワードが閲覧キーワード記憶部42に記憶される(ブロック112)。
コンテンツ表示部22はこのようにユーザにより指定されたURIに基づいてコンテンツを表示する時、表示画面の一部にキーワード表示ボタンも表示する。ユーザは閲覧中のコンテンツから抽出されたキーワードを用いて情報を検索したい場合、このキーワード表示ボタンを操作する。この操作に応答して図7に示す機能呼出し処理が開始される。
キーワード読出部46は閲覧キーワード記憶部42からキーワード(すなわち、閲覧しているコンテンツから抽出されたキーワード)を読み出す(ブロック114)。キーワード読出部46は過去キーワード記憶部42からもキーワード(すなわち、過去閲覧したコンテンツから抽出されたキーワード)を読み出す(ブロック116)。
コンテンツ表示部22はコンテンツの表示を中断し、代わりにキーワード表示部48は記憶部42、44から読み出したらこれら2種類のキーワードの表示を開始する(ブロック118)。このため、表示画面はコンテンツ表示からキーワード表示に切り替わる。キーワード表示画面の一例を図9に示す。表示画面は3つの領域から構成される。具体的には、閲覧キーワード記憶部42から読出したキーワードをボタンとして表示する「いま抽出したキーワード」領域(左上領域)、過去キーワード記憶部44から読み出したキーワードをボタンとして表示する「むかし抽出したキーワード」領域(左下)、及びこれら両方の領域の右側に示され、何れかの領域に示されるキーワードがユーザによって選択されることに応じて表示される「検索結果」領域(右側領域)から構成される。
「いま抽出したキーワード」及び「むかし抽出したキーワード」領域にリスト状に表示される各々のキーワードはスコア順でもよいし、抽出日時順でもよいし、あいうえお順でもよい。「むかし抽出したキーワード」領域に表示される幾つかのキーワードのボタンには、実際に検索に使用されたことを示す検索マーク(図9では虫眼鏡のマーク)が表示されている。
操作部50はユーザによるキーワードの選択を監視し(ブロック120)、いずれかのキーワードが表示されているボタンをユーザが押すと、操作部50がその旨を受け取り、押されたボタンに表示されていたキーワードをキーワード検索部66に通知する。キーワード検索部66は、設定情報記憶部54と検索サイトDB68を参照して検索サイトを決定する(ブロック122)。すなわち、設定情報記憶部54でtrueとなっているキーワード辞書名に対応する検索サイトを検索サイトDB68から読み出す。
キーワード検索部66はキーワード検索サーバ14へアクセスして、ブロック122で決定された検索サイトに関するブロック120で選択されたキーワードに関する情報を検索する検索クエリを発行する(ブロック124)。
検索結果表示部62は、キーワード検索部66が発行した検索クエリによる検索結果64をキーワード検索サーバ14から受け取り、検索結果64を表示する(ブロック126)。検索結果の表示の一例を図10に示す。検索結果はキーワードを含むコンテンツを示すものであり、WEBページのタイトル、スニペット、及びコンテンツのURI等から構成される。図10は図9においてキーワード「サッカー」が選択された場合を示す。
操作部50は、ユーザによる検索結果の選択を監視し(ブロック128)、ユーザが検索結果の1つを選択すると、操作部50がその旨を受け取り、検索結果表示指示部56に検索結果選択を通知する。検索結果表示指示部56は、選択された検索結果のURI58をURI指定部26に通知する。コンピュータ10はURI指定部26を介してコンテンツ提供サーバ22に接続される。HTML文書取得部24は指定されたURIに対応したHTML文書をコンテンツ提供サーバ22から取得する。HTML文書取得部24は取得したHTML文書28をコンテンツ表示部22に送る。コンテンツ表示部22はHTML文書を解釈し、解釈されたHTML文書に基づくコンテンツを表示する(ブロック130)。
以上説明したように第1の実施形態によれば、現在閲覧中あるいは過去に閲覧したコンテンツから抽出されたキーワードを表示し、その中から検索に使うキーワードを選択可能とし、選択されたキーワードを用いて検索サイトから検索することにより、手軽に検索を行うことができる。現在閲覧中のコンテンツから抽出したキーワードに加えて過去に閲覧したコンテンツから抽出されたキーワードも選択可能であるので、検索の操作性、利便性が向上する。さらに、キーワード抽出用の複数のキーワード辞書を設け、どの辞書をキーワード抽出に対して使用するかをユーザが予め設定し、設定したキーワード辞書に合わせてあらかじめ定義された検索サイトを用いて情報の検索を行う。これにより、キーワードに適切にマッチした検索サイト/リンク先が自動的に設定される。例えば、日本語辞書から抽出された日本語の検索キーワードには、日本語に対応した検索サイトから検索する等をあらかじめ定義することができるため、より適切な関連情報の検索結果を得ることができる。図11に英語用辞書が選択された場合の検索結果の一例を示す。
他の実施形態について説明する。他の実施形態の説明において、第1の実施形態と対応する部分は同一の参照数字を付して詳細な説明は省略する。
[第2の実施形態]
第1の実施形態では、検索サイトDB68に記憶されるキーワード辞書38の辞書名と、検索サイトのURIとが対応付けはデフォルトで決められていたが、第2の実施形態はこの対応付けをユーザが設定できるようにしたものである。
第1の実施形態では、検索サイトDB68に記憶されるキーワード辞書38の辞書名と、検索サイトのURIとが対応付けはデフォルトで決められていたが、第2の実施形態はこの対応付けをユーザが設定できるようにしたものである。
図12は第2の実施形態のシステム構成を示すブロック図である。図2に示した第1の実施形態の処理システムに対して検索サイト設定部74が追加されている。検索サイト設定部74は検索サイトDB68に接続される。操作部50からの検索サイト設定通知が検索サイト設定部74に入力される。
先ず、図示しないメインメニューから所定の操作が行われると、図13に示す検索サイト設定処理が開始される。この処理は検索サイトDB68の検索サイトの書き換えである(ブロック132)。処理が開始されると、図14に示すような設定画面が表示される。ユーザは図示しないカーソルを操作していずれかの辞書を選択すると、画面に日本語用辞書検索サイト設定ウィンドウが表示される。ここで、ユーザは日本語用辞書を用いてキーワードを抽出した時に使用する検索サイトを、そのURIを入力することにより、設定する。この状態を図15に示す。なお、検索サイトの設定はURIの入力ではなく、いくつかの候補を表示して選択するようにしてもよい。ここで、OKボタンが操作されると、設定画面は図16に示すように変化し、必要に応じてログインアカウントとパスワードが設定される。
上述の処理により検索サイトDB68の内容は図17に示すようになる。キーワード辞書に対してユーザが設定した検索サイトが対応付けられる。さらに、ログインアカウントが設定された場合は、アカウントとパスワードも対応付けられる。アカウント設定はtreuがアカウントが設定されたことを示し、nullはアカウントが設定されていないことを示す。
以上説明したように第2の実施形態によれば、検索サイトの設定をユーザが自分好みにカスタマイズできる。さらに、検索サイトのアカウントやパスワードを設定可能とすることで、該当検索サイトに自動的にログインし、会員専用の検索サービスをも対象として検索を行うことができる。
[第3の実施形態]
上述の実施形態では、キーワード辞書に対して設定される検索サイトの数は1つであったが、第3の実施形態はキーワード辞書に複数の検索サイトを対応づけられるようにしたものである。第3の実施形態のシステム構成は図2に示した第1の実施形態、図12に示した第2の実施形態と同じであるので、図示は省略する。第3の実施形態は第1の実施形態、第2の実施形態のいずれにも適用可能であるが、ここでは、第2の実施形態に適用した場合を説明する。
上述の実施形態では、キーワード辞書に対して設定される検索サイトの数は1つであったが、第3の実施形態はキーワード辞書に複数の検索サイトを対応づけられるようにしたものである。第3の実施形態のシステム構成は図2に示した第1の実施形態、図12に示した第2の実施形態と同じであるので、図示は省略する。第3の実施形態は第1の実施形態、第2の実施形態のいずれにも適用可能であるが、ここでは、第2の実施形態に適用した場合を説明する。
第3の実施形態の検索サイトDB68は図18に示すようなデータを記憶する。キーワード辞書38の辞書名、複数(ここでは最大で3つ)の検索サイトのURIが対応付けられている。なお、各検索サイトには図17と同様に、アカウント設定、アカウント、パスワードが対応付けて記憶される。キーワード辞書名と検索サイトのURIの対応付けは、第1の実施形態のようにデフォルトで決められていてもよいし、第2の実施形態のようにユーザにより設定されたものでもよい。
第1の実施形態と同様に、コンテンツ表示部22がコンテンツを表示する時、表示画面の一部にキーワード表示ボタンも表示する。ユーザは閲覧中のコンテンツから抽出されたキーワードを用いて情報を検索したい場合、このキーワード表示ボタンを操作する。この操作に応答して図19に示す機能呼出し処理が開始される。
キーワード読出部46は閲覧キーワード記憶部42からキーワード(すなわち、閲覧しているコンテンツから抽出されたキーワード)を読み出す(ブロック134)。キーワード読出部46は過去キーワード記憶部42からもキーワード(すなわち、過去閲覧したコンテンツから抽出されたキーワード)を読み出す(ブロック136)。
コンテンツ表示部22はコンテンツの表示を中断し、代わりにキーワード表示部48は記憶部42、44から読み出したらこれら2種類のキーワードの表示を開始する(ブロック138)。このため、表示画面はコンテンツ表示から図20に示すようなキーワード表示に切り替わる。第3の実施形態のキーワード表示画面は図9に示すキーワード表示画面に比べてキーワードのボタンにサイト1、サイト2、サイト3(サイトに対応した検索サイトのアイコンや名称)も表示される点が異なる。
操作部50はユーザによるキーワードの選択を監視し(ブロック140)、いずれかのキーワードが表示されているサイトのボタンをユーザが押すと、操作部50がその旨を受け取り、押されたボタンに表示されていたキーワードとサイトをキーワード検索部66に通知する。ワード検索部66は検索サイトDB68から図18のようなデータを読み出し、当該キーワードに対応付けられている複数の検索サイトを読み出す(ブロック144)。
キーワード検索部66は検索サイトDB68のアカウント設定のデータに基づいてログインアカウントが設定されているか否かを判定する(ブロック146)。アカウントが設定されている場合は、該当サイトへ順次ログインして(ブロック148)、選択されたキーワードを用いてウェブページを検索する(ブロック150)。アカウント設定がない場合は、サイトがアカウント設定が必要ないことを意味する。アカウント設定の必要なサイトで、かつアカウント設定がない場合には、該当サイトのボタンをユーザが押下して検索を行うと、エラーが表示されるか、検索結果として何も表示されない状態となる。この場合は、検索サイトのアカウントの登録を促すメッセージダイアログ等を出してもよい。
検索結果表示部62は、検索結果をキーワード検索サーバ14から受け取り、検索結果を表示する(ブロック152)。
操作部50は、ユーザによる検索結果の選択を監視し(ブロック154)、ユーザが検索結果の1つを選択すると、操作部50がその旨を受け取り、検索結果表示指示部56に検索結果選択を通知する。検索結果表示指示部56は、選択された検索結果のURI58をURI指定部26に通知する。コンピュータ10はURI指定部26を介してコンテンツ提供サーバ22に接続される。HTML文書取得部24は指定されたURIに対応したHTML文書をコンテンツ提供サーバ22から取得する。HTML文書取得部24は取得したHTML文書28をコンテンツ表示部22に送る。コンテンツ表示部22はHTML文書を解釈し、解釈されたHTML文書に基づくコンテンツを表示する(ブロック156)。図21は検索結果の表示の一例である。ここでは、検索サイト1と検索サイト2の検索結果を表示する。画面をスクロールするあるいは切替えることにより検索サイト3の検索結果も表示できる。なお、同時に表示する検索サイトの検索結果は2つに限らず、3つ全部を同時でもよいし、1つずつでもよい。
以上説明したように第3の実施形態によれば、複数の検索サイトをキーワード辞書に対応づけることにより、多くの検索サイトから検索を行うことができ、利便性が向上する。
[第4の実施形態]
上述の実施形態では、キーワード辞書は閲覧前に予め設定していたが、第4の実施形態では閲覧中のコンテンツから該当文書を取得する際に文書毎にユーザがキーワードを抽出するためのキーワード辞書を選択できるようにしたものである。例えば、法律のページを見ている時には、法律用語専用のキーワード辞書を選択することで、より適切な法律に関するキーワードが抽出でき、さらに、検索サイトも法律関連の検索サイトを設定できる。
上述の実施形態では、キーワード辞書は閲覧前に予め設定していたが、第4の実施形態では閲覧中のコンテンツから該当文書を取得する際に文書毎にユーザがキーワードを抽出するためのキーワード辞書を選択できるようにしたものである。例えば、法律のページを見ている時には、法律用語専用のキーワード辞書を選択することで、より適切な法律に関するキーワードが抽出でき、さらに、検索サイトも法律関連の検索サイトを設定できる。
図22は第4の実施形態のシステム構成を示すブロック図である。第4の実施形態は第1の実施形態、第2の実施形態、第3の実施形態のいずれにも適用可能であるが、ここでは、第1の実施形態に適用した場合を説明する。図2に示した第1の実施形態の処理システムに比べてキーワード辞書設定部52の接続箇所が異なる。第1の実施形態では、操作部50と設定情報記憶部54との間にキーワード辞書設定部52が接続されている。第4の実施形態では、文書抽出部32とキーワード抽出部36との間にキーワード辞書設定部52が接続され、キーワード辞書選択用の操作部78がキーワード辞書設定部52に接続されている。上述の実施形態では、複数のキーワード辞書38は異なる言語の辞書を説明したが、第4実施形態では複数のキーワード辞書38は異なる言語・分野の辞書である。
ユーザがURIを指定すると、コンテンツ表示部22はコンテンツを表示する。
コンテンツ読込監視部30は、コンテンツ表示部22によって表示されるコンテンツの読み込みが完了したか否かを監視する。コンテンツの読み込みが完了したことをコンテンツ読込監視部30が確認すると、図23に示す処理が開始される。
文書抽出部32は、コンテンツ読込監視部30からコンテンツ読み込みが完了したという通知を受けると、コンテンツ表示部22が表示しているコンテンツのHTML文書を抽出し、キーワード辞書設定部52にそのHTML文書を渡す(ブロック160)。
キーワード辞書設定部52は図24に示すような表示画面を表示し、キーワード抽出辞書の選択操作をユーザに促す(ブロック162)。ユーザは図示しないカーソルを操作していずれかの辞書を選択し(選択されると白丸が黒丸に変化する)、OKボタンを押す。これにより、選択されたキーワード辞書名を設定情報記憶部54に記録する(ユーザ選択状態をtrueとする)(ブロック164)。ここでは、日本語でIT用語辞書が選択される。
キーワード辞書設定部52は設定情報記憶部54からtrueの辞書をキーワード辞書として設定する(ブロック166)。
キーワード抽出部36は、文書抽出部32から受け取ったHTML文書を解析し、特徴的なキーワードを抽出する。具体的には、HTML文書から本文と思われるテキストを抽出し、複数のキーワード辞書38の中の設定されたキーワード辞書に含まれる単語に基づいて、言語として意味を持つ最小の単位である形態素に分解する。キーワード辞書38には例えば形態素の品詞を判別できるような単語が記憶されている。形態素解析によって分解されたテキストの各形態素が抽出キーワードとなる。抽出キーワードは、例えばスコアの高い順で並べられる(ブロック168)。
閲覧キーワード記憶部42に記憶されているキーワードが過去キーワード記憶部44へコピーあるいはムーブされる(ブロック170)。
コンテンツ表示部22が表示しているコンテンツから抽出されたキーワードが閲覧キーワード記憶部42に記憶される(ブロック172)。
この後、コンテンツ表示部22により表示画面の一部に表示されるキーワード表示ボタンが操作されると、第1の実施形態と同様に、図7に示す機能呼出し処理が開始される。
以上説明したように第4の実施形態によれば、文書毎にキーワード抽出用辞書を選択可能であるので、より適切なキーワードを抽出することができる。さらに、第1、第2、第3の実施形態と同様に選択したキーワード抽出用辞書に応じた1つまたは複数の検索サイトが設定されるので、関連情報を高い精度で検索することができる。
[第5の実施形態]
第5の実施形態は第4の実施形態の変形に関する。第4の実施形態では、キーワード辞書は文書毎にユーザが選択可能としたが、第5の実施形態は自動的に選択できるようにしたものである。
第5の実施形態は第4の実施形態の変形に関する。第4の実施形態では、キーワード辞書は文書毎にユーザが選択可能としたが、第5の実施形態は自動的に選択できるようにしたものである。
図25は第5の実施形態のシステム構成を示すブロック図である。図22に示した第4の実施形態の処理システムにおいてキーワード辞書設定部52に換えてキーワード辞書判定部86を接続した点が異なる。キーワード辞書判定部86にはキーワード辞書属性DB88が接続される。HTML文書取得部24はHTML文書28に加えてメタ情報(ジャンル)82を取得して、コンテンツ表示部22に供給する。文書抽出部32もHTML文書34に加えてメタ情報(ジャンル)84を抽出して、キーワード辞書判定部86に供給する。
コンテンツから文書を抽出する際に、その文書の概要を表すキーワードや該当文書のジャンル等に関するメタ情報を取得し、メタ情報に対して予め対応付けて定義したキーワード辞書をキーワード抽出に適用する。図26はキーワード辞書属性DB88に記憶されるデータの一例を示す。メタ情報としてのジャンル毎にキーワード辞書名とキーワード辞書表記が対応付けられて記憶されている。
メタ情報は文書自体にタグなどの形で埋め込まれているものが多い。例えば、ウェブのホームページ等のHTML文書では、<meta>タグを利用してそのページの簡単な説明やその概要を表すキーワードが設定されていることが多く、文書からメタ情報を取得可能なことが多い。また、ウェブページに限らず、電子番組表(EPG)では、番組ジャンルに関するメタ情報が設定されている場合が多い。第5の実施形態は、このようなメタ情報を文書から取得して利用する。なお、仮にメタ情報を取得することができなかった場合、或いは、設定されていない文書が対象の場合には、万人受けするように設定されたデフォルトのキーワード辞書を適応する。
ユーザがURIを指定すると、コンテンツ表示部22はコンテンツを表示する。
コンテンツ読込監視部30は、コンテンツ表示部22によって表示されるコンテンツの読み込みが完了したか否かを監視する。コンテンツの読み込みが完了したことをコンテンツ読込監視部30が確認すると、図27に示す処理が開始される。
文書抽出部32は、コンテンツ読込監視部30からコンテンツ読み込みが完了したという通知を受けると、コンテンツ表示部22が表示しているコンテンツのHTML文書を抽出し、キーワード辞書判定部86にそのHTML文書34を渡す(ブロック180)。
文書抽出部32は、さらにHTML文書からメタ情報(ここでは、ジャンル)を抽出し、キーワード辞書判定部86にそのメタ情報84を渡す(ブロック182)。
キーワード辞書判定部86はキーワード辞書属性DB88を参照してキーワード辞書属性DB88に当該ジャンルが記憶されているか否かを判定する(ブロック184)。記憶されていない場合は、デフォルトのキーワード辞書を選択する(ブロック186)。記憶されている場合は、当該ジャンルに対応付けられているキーワード辞書を選択する(ブロック188)。この後、キーワード辞書判定部86は選択されたキーワード辞書名を設定情報記憶部54に記録する(ユーザ選択状態をtrueとする)(ブロック200)。
キーワード辞書判定部86は設定情報記憶部54からtrueの辞書をキーワード辞書として設定する(ブロック202)。
キーワード抽出部36は、文書抽出部32から受け取ったHTML文書を解析し、特徴的なキーワードを抽出する。具体的には、HTML文書から本文と思われるテキストを抽出し、設定されたキーワード辞書に含まれる単語に基づいて、言語として意味を持つ最小の単位である形態素に分解する。キーワード辞書38には例えば形態素の品詞を判別できるような単語が記憶されている。形態素解析によって分解されたテキストの各形態素が抽出キーワードとなる。抽出キーワードは、例えばスコアの高い順で並べられる(ブロック204)。
閲覧キーワード記憶部42に記憶されているキーワードが過去キーワード記憶部44へコピーあるいはムーブされる(ブロック206)。
コンテンツ表示部22が表示しているコンテンツから抽出されたキーワードが閲覧キーワード記憶部42に記憶される(ブロック208)。
この後、コンテンツ表示部22により表示画面の一部に表示されるキーワード表示ボタンが操作されると、第1の実施形態と同様に、図7に示す機能呼出し処理が開始される。
以上説明したように第5の実施形態によれば、現在閲覧しているページ毎にユーザがキーワード辞書を選択することなく、適切なキーワード辞書を自動的に選択することができ、より適切なキーワードを抽出し、さらにそのキーワードに適切な検索サイトから関連情報の検索を行うことができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。例えば、各実施形態は特定の実施形態を基に説明したが、説明した実施形態に限らず他の実施形態と組み合わせることも可能である。また、上述の説明は特定の2つの実施形態の組み合わせを説明したが、任意の実施形態との組み合わせ、あるいは3つ以上の実施形態を組み合わせることも可能である。
10…コンピュータ、12…コンテンツ提供サーバ、14…キーワード検索サーバ、20…コンテンツ表示プログラム、22…コンテンツ表示部、24…HTML文書取得部、26…URI指定部、30…コンテンツ読込監視部、32…文書抽出部、36…キーワード抽出部、38…キーワード辞書、42…閲覧キーワード記憶部、44…過去キーワード記憶部、46…キーワード読出部、48…キーワード表示部、50…操作部、52…キーワード辞書設定部、54…設定情報記憶部、56…検索結果表示指示部、60…検索結果記憶部、62…検索結果表示部、66…キーワード検索部、68…検索サイトDB。
Claims (11)
- コンテンツを表示するコンテンツ表示手段と、
複数のキーワード辞書のいずれかのキーワード辞書を用いて、前記コンテンツ表示手段で表示されたコンテンツからキーワードを抽出するキーワード抽出手段と、
前記キーワード抽出手段で抽出されたキーワードに関連する情報を前記キーワード抽出手段で用いられたキーワード辞書に応じた検索サイトから検索する検索手段と、
を具備する情報処理装置。 - 前記検索手段はキーワード辞書と検索サイトとの対応付けを記憶する手段を具備する請求項1記載の情報処理装置。
- 前記検索手段はキーワード辞書に対する複数の検索サイトの対応付けを記憶する手段を具備する請求項1記載の情報処理装置。
- 前記検索手段はキーワード辞書と検索サイトとの対応付けを入力可能な設定画面を表示する手段を具備する請求項1記載の情報処理装置。
- 前記設定画面は検索サイトのアカウントを設定可能である請求項4記載の情報処理装置。
- 前記キーワード抽出手段は複数のキーワード辞書名と選択状態とを示すデータを記憶する手段を具備する請求項1記載の情報処理装置。
- 前記キーワード抽出手段は複数のキーワード辞書名と辞書選択用のカーソルを具備する設定画面を表示する手段を具備する請求項1記載の情報処理装置。
- 前記キーワード抽出手段で抽出されたキーワードを記憶する記憶手段をさらに具備し、
前記キーワード表示手段は前記キーワード抽出手段で抽出されたキーワードと、前記記憶手段から読み出したキーワードを表示する請求項1記載の情報処理装置。 - 前記キーワード抽出手段はキーワード抽出に用いるキーワード辞書をコンテンツの表示毎に選択可能な画面を表示する請求項1記載の情報処理装置。
- 前記キーワード抽出手段は前記コンテンツ表示手段で表示されたコンテンツからメタ情報も抽出し、当該メタ情報に応じたキーワード辞書を用いてキーワードを抽出する請求項1記載の情報処理装置。
- コンテンツを表示し、
複数のキーワード辞書のいずれかのキーワード辞書を用いて、表示されたコンテンツからキーワードを抽出し、
抽出されたキーワードに関連する情報をキーワードの抽出に用いられたキーワード辞書に応じた検索サイトから検索する情報処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011078677A JP2012212398A (ja) | 2011-03-31 | 2011-03-31 | 情報処理装置及び情報処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011078677A JP2012212398A (ja) | 2011-03-31 | 2011-03-31 | 情報処理装置及び情報処理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012212398A true JP2012212398A (ja) | 2012-11-01 |
Family
ID=47266271
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011078677A Pending JP2012212398A (ja) | 2011-03-31 | 2011-03-31 | 情報処理装置及び情報処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2012212398A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014135092A1 (en) * | 2013-03-06 | 2014-09-12 | Tencent Technology (Shenzhen) Company Limited | Method and system for subscribing reading feed |
JP2017073070A (ja) * | 2015-10-09 | 2017-04-13 | Necパーソナルコンピュータ株式会社 | コンテンツ推薦装置、コンテンツ推薦システム、コンテンツ推薦方法、及び、プログラム |
CN110309395A (zh) * | 2019-07-05 | 2019-10-08 | 云南电网有限责任公司电力科学研究院 | 一种基于数据获取技术的专业字典构建方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003167889A (ja) * | 2001-11-30 | 2003-06-13 | Casio Comput Co Ltd | 情報端末および情報端末制御プログラム |
-
2011
- 2011-03-31 JP JP2011078677A patent/JP2012212398A/ja active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003167889A (ja) * | 2001-11-30 | 2003-06-13 | Casio Comput Co Ltd | 情報端末および情報端末制御プログラム |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014135092A1 (en) * | 2013-03-06 | 2014-09-12 | Tencent Technology (Shenzhen) Company Limited | Method and system for subscribing reading feed |
JP2017073070A (ja) * | 2015-10-09 | 2017-04-13 | Necパーソナルコンピュータ株式会社 | コンテンツ推薦装置、コンテンツ推薦システム、コンテンツ推薦方法、及び、プログラム |
CN110309395A (zh) * | 2019-07-05 | 2019-10-08 | 云南电网有限责任公司电力科学研究院 | 一种基于数据获取技术的专业字典构建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4991948B1 (ja) | 情報処理装置及び情報処理方法 | |
US9064028B2 (en) | Custom rendering of webpages on mobile devices | |
US20090313220A1 (en) | Expansion of Search Result Information | |
KR101200367B1 (ko) | 통합 법률 정보 서비스 방법 및 시스템 | |
JP2006065395A (ja) | ハイパーリンク生成装置、ハイパーリンク生成方法及びハイパーリンク生成プログラム | |
US20130066902A1 (en) | Information processing apparatus, information processing method, and computer-readable storage medium | |
JP2003208434A (ja) | 情報検索システム及びそれに用いる情報検索方法 | |
JP2008123239A (ja) | キーワード抽出検索方式およびモバイル端末 | |
US20160231884A1 (en) | System and method for managing a web resource in a browser application | |
US20140108919A1 (en) | Information providing device, information providing method, information providing program, information display program, and computer-readable recording medium storing information providing program | |
KR20060095572A (ko) | 검색 결과들의 스크린―식 제시 | |
US20050149853A1 (en) | Document display program and method | |
US9002816B2 (en) | Information processing apparatus and information processing method | |
TWI465947B (zh) | Information processing apparatus, information processing method, information processing program product and recording medium with information processing program | |
JP2011257786A (ja) | 文書検索システム、情報処理装置、文書検索方法およびプログラム | |
JP5185891B2 (ja) | コンテンツ提供装置、コンテンツ提供方法およびコンテンツ提供プログラム | |
JP2012212398A (ja) | 情報処理装置及び情報処理方法 | |
JP2013012242A (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP6576534B1 (ja) | 情報表示プログラム、情報表示方法、情報表示装置、および情報処理システム | |
JP2008217228A (ja) | ウェブページ閲覧方法、ウェブページ閲覧装置、ウェブページ閲覧プログラム及びウェブページ閲覧プログラムを記録した記録媒体 | |
JP2008046879A (ja) | ページ表示装置、ページ表示方法、およびコンピュータプログラム | |
Leung et al. | Search engines | |
KR100966211B1 (ko) | 검색 옵션 레이어를 이용한 검색 방법 및 시스템 | |
JP5414829B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP2014222448A (ja) | 書籍抽出装置、書籍抽出方法及び書籍抽出用プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20121002 |