JP2007272859A - 情報検索支援プログラム、情報検索支援機能を有するコンピュータ、サーバー・コンピュータ、プログラム格納媒体 - Google Patents

情報検索支援プログラム、情報検索支援機能を有するコンピュータ、サーバー・コンピュータ、プログラム格納媒体 Download PDF

Info

Publication number
JP2007272859A
JP2007272859A JP2006163954A JP2006163954A JP2007272859A JP 2007272859 A JP2007272859 A JP 2007272859A JP 2006163954 A JP2006163954 A JP 2006163954A JP 2006163954 A JP2006163954 A JP 2006163954A JP 2007272859 A JP2007272859 A JP 2007272859A
Authority
JP
Japan
Prior art keywords
character string
sentence
keyword
word
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006163954A
Other languages
English (en)
Other versions
JP4934355B2 (ja
Inventor
Jinichi Miyajima
仁一 宮島
Shunichi Kobayashi
俊一 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZOO CORP
Original Assignee
ZOO CORP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZOO CORP filed Critical ZOO CORP
Priority to JP2006163954A priority Critical patent/JP4934355B2/ja
Publication of JP2007272859A publication Critical patent/JP2007272859A/ja
Application granted granted Critical
Publication of JP4934355B2 publication Critical patent/JP4934355B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】分かち書きされない言語で記載されている文書中から検索キーワードとして適切な語を抽出する。
【解決手段】コンピュータにおいて、文書中の各単語に文法情報を対応付けして管理するステップと、文法情報に基づいて文書中の単語、文節、文の各文字列単位を認識するステップと、文書をユーザが指定した文字列単位ごとに区分し、当該文字列単位の記載箇所をリンク対象箇所として識別可能にして表示するステップと、リンク対象箇所に含まれる文字列を検索キーワードに設定するステップと、リンク対象箇所に検索キーワードを所定のデータベースに照会する旨のハイパーリンクを設定するステップと、あるリンク対象箇所に設定されたハイパーリンクがユーザにより指示されると、当該ハイパーリンクに基づいて所定のデータベースから返送されてきた照会結果を表示出力するステップとを実行する情報検索支援プログラムとしている。
【選択図】図1

Description

この発明は、形態素解析技術を応用し、利用者が、電子データとして取得可能な文書から検索エンジンや辞書データベースなどの各種データベースに照会する検索キーワードを自動抽出したり、インターネット上や文書データベースに存在する文書情報を検索したりする際の作業を支援する機能を有するコンピュータ、コンピュータにインストールされてこれらの機能を実現させるためのプログラム、および当該プログラムの格納媒体に関する。
パーソナルコンピュータなどの汎用コンピュータとインターネットなどの情報通信ネットワークの利用普及により、多くの文書がコンピュータのディスプレイで閲覧されるようになった。そして、利用者が閲覧中の文書をより深く理解しようと思えば、その文書に含まれている語を検索キーワードとして、インターネット上の周知の検索エンジンや辞典/事典サイト、あるいはコンピュータの外部記憶や適宜なネットワーク上にあるデータベースに与えることで、その語に関連する情報やその語の語意を瞬時に取得することができるようになった。
ここで、具体例として、検索エンジンに検索キーワードを与える事例を挙げると、利用者がコンピュータに実装されている文書作成ソフトウエアなどによりディスプレイに表示されている文書を閲覧しているとき、同じコンピュータに実装されているブラウザを起動し、当該コンピュータを検索サイトと呼ばれるWebサイトにアクセスさせる。
検索サイトを実現するコンピュータシステムは、WWWサーバーと検索エンジンとにより構成され、WWWサーバーは、ブラウザとのインタフェースとして、アクセスしてきた利用者のコンピュータのブラウザに情報検索サービスの窓口となるWebページ(検索窓口ページ)を返送する。
利用者が文書中の適宜な語を検索キーワードとして、前記窓口のWebページに配置されている検索キーワード入力欄に、例えば、周知の「コピー・アンド・ペースト」により転記するなどして入力する。そして、同じWebページにある検索実行ボタンをマウスでクリックすると、ブラウザは検索キーワードをWWWサーバーに送付する。
WWWサーバーは、ブラウザから送付されてきた検索キーワードを検索エンジンに与える。検索エンジンは、インターネット上にある膨大な情報について、その内容や所在など、利用者が最終的に入手したい情報への手がかりとなる情報(レコード)を、付帯するデータベースに蓄積・管理しており、WWWサーバーを介して受け付けた検索キーワードをデータベースに照会し、該当するレコードをWWWサーバーに返す。WWWサーバーは、検索結果として、検索エンジンから受け取ったレコードの一覧をWebページに作成してブラウザに返送する。利用者は、検索結果一覧中に注目すべきレコードを見出したならば、そのレコードに設定されているハイパーリンクを指示する。ブラウザは、そのレコードの起源となったWebページなどの情報を取り寄せて閲覧可能にして表示する。
このようにして利用者は、文書を閲覧しながら、文書中の語に関連する情報を入手し、文書の内容について理解を深めたり、文書に関連する多種多様な情報を入手したりすることができる。
上記具体例では、コンピュータにて閲覧中の文書に含まれる語を検索キーワードとして検索エンジンに与える場合、(i)ブラウザを起動し、(ii)検索窓口ページを取り寄せ、(iii)検索窓口ページのキーワード入力欄に文書中の語を記入し、(iv)記入した検索キーワードの送付を指示する、という一連の作業を行う必要があり、コンピュータの操作に不慣れな人にとっては、この作業は面倒である。
確かに、文書に含まれている単語の記載箇所にその単語を検索エンジンに与えるためのハイパーリンクを自動で設定することも考えられるが、日本語などの言語で書かれた文書は、英語などで書かれた文書のようにスペース(空白)により単語毎に分かち書きされていない。しかも、単語には様々な品詞があり、検索キーワードとしては意味をなさない助詞なども含まれてしまう。また、分かち書きされていない文書には品詞が異なる単語が連続して記述される。例えば、文書中にある「美味しい食事」という文字列は、形容詞の「美味しい」と名詞の「食事」の2つの単語に分解することができる。しかし、利用者が目的とする情報を入手するためには、「美味しい」と「食事」の2語によるアンド検索を実行するよりも、実は「美味しい」の単語だけ、あるいは文節「美味しい食事」によって検索した方が適切であるかもしれない。このように、検索キーワードを適切に選択することは、コンピュータ操作に不慣れな人はもちろん、情報検索技術に精通していない人にとって、極めて難しい。
また、ハイパーリンクを指示することで情報を検索する手順自体にも問題がある。たとえば、上記具体例のように、ハイパーリンクを指示してレコードの起源となった情報を取得したとしても、その情報が必ずしも利用者に取って有用な情報であるとは限らない。すなわち、ハイパーリンクを指示して実際にリンク先ページを閲覧しなければならず、情報検索に多大な時間と手間が掛かる。
本発明の目的は、分かち書きされない言語で記載されている文書中から検索キーワードとして適切な語を抽出し、その語に基づいて情報検索を実行して検索結果を利用者に提示したり、ハイパーリンクを辿りながら情報を取得する際の時間や労力を削減したりして利用者の情報検索作業を支援する機能を有するコンピュータを提供することにある。また、コンピュータにインストールされて当該コンピュータに上記情報検索支援機能を実現させるための情報検索支援プログラムと、そのプログラム格納媒体を提供することも目的としている。
上記目的を達成するための第1の発明は、コンピュータにインストールされるプログラムであって、当該コンピュータに、
取得した文書の任意の文字記載位置を指示するユーザ入力を受け付け、当該文字記載位置にある文字の前後の文字を句点、あるいは読点に基づく文字列単位で抽出するとともに、当該抽出した文字列の記載箇所をキーワード抽出範囲として設定するキーワード抽出範囲設定ステップと、
前記キーワード抽出範囲の文字列を処理対象として形態素解析し、単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析ステップと、
前記文法情報に基づいて、前記処理対象の文字列から、単語、文節、文の各文字列単位を認識する文字列単位認識ステップと、
文字列単位を指定するユーザ入力に従って、前記処理対象の文字列を指定の文字列単位ごとに区分し、当該区分した文字列単位によって記述される文字列を検索キーワードに設定するキーワード設定ステップと、
所定のユーザ入力を受け付けて、設定した前記検索キーワードを所定のデータベースに照会し、当該データベースから返送されてきた照会結果を表示出力するキーワード照会ステップと、
を実行させる情報検索支援プログラムである。
また、第2の発明は、第1の発明に記載の情報検索支援プログラムにおいて、前記キーワード抽出範囲設定ステップでは、所定のユーザ入力を所定時間以内に連続して受け付けた回数に応じてキーワード抽出範囲の文字列範囲を設定することとした。
第3の発明は、コンピュータにインストールされるプログラムであって、当該コンピュータに、
処理対象として取得した文書を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析ステップと、
前記文法情報に基づいて、文書中で連続する文字列から、単語、文節、文の各文字列単位を認識する文字列単位認識ステップと、
前記文書をユーザ入力により指定された文字列単位ごとに区分し、当該区分した文字列単位の記載箇所をリンク対象箇所として識別可能にして表示するリンク対象設定ステップと、
前記リンク対象箇所に含まれる文字列を検索キーワードに設定するキーワード設定ステップと、
前記リンク対象箇所に前記検索キーワードを所定のデータベースに照会する旨のハイパーリンクを設定するリンク設定ステップと、
ユーザ入力により、あるリンク対象箇所に設定されたハイパーリンクが指示されると、当該ハイパーリンクに基づいて前記所定のデータベースから返送されてきた照会結果を表示出力する照会結果提示ステップと、
を実行させる情報検索支援プログラムとしている。
第4の発明は、第3の発明において、前記文書を構文解析して文を抽出し、当該文における係り受け関係を取得して管理する構文解析ステップを含み、
前記リンク対象設定ステップでは、前記文において、前後の文節が係り受けの関係にある場合、当該係り受け関係にある文節を連結した文字列の記載箇所をリンク対象箇所に設定し、
前記キーワード設定ステップでは、前記文において、ユーザ入力により指定された係り受け関係にある文字列を検索キーワードに設定する情報検索支援プログラムとしている。
第1〜第4の発明のいずれかにおいて、前記キーワード設定ステップでは、用言類については終止形に変換して得た文字列を検索キーワードに設定する情報検索支援プログラムを第5の発明とした。
第6の発明は、第1〜第5の発明のいずれかにおいて、文書に含まれる各単語の出現頻度を求める単語別出現頻度取得ステップと、ユーザ入力により出現頻度が高い順に所定数の単語を検索キーワードにして、データベースに照会する重要語照会ステップとを含む情報検索支援プログラムとしている。
第7の発明は、第1〜第5の発明のいずれかにおいて、ユーザ入力により、特定の品詞を前記検索キーワードに設定するキーワード品詞設定ステップを含む情報検索支援プログラムである。
第1〜第7の発明のいずれかにおいて、前記キーワード設定ステップでは、連続する名詞によって構成される文字列を複合名詞とし、当該複合名詞を一つの検索キーワードとして設定する情報検索支援プログラムを第8の発明とした。
第9の発明は、第8の発明において、前記キーワード設定ステップでは、ユーザ入力により指定された数で名詞を連続させて前記複合名詞を設定する情報検索支援プログラムとした。
本発明は、取得した文書から所定のデータベースに照会すべき検索キーワードを抽出する際の情報検索支援機能を有するコンピュータにも及んでいる。そして、第10の発明は、サーバー・クライアント・システムにおけるクライアント・コンピュータであって、
取得した文書の表示手段と、
形態素解析処理を実行するサーバー・コンピュータとの通信手段と、
所定のユーザ入力により、文字列単位の指定と、表示中の文書における任意の文字記載位置の指示とを受け付け、当該指示された文字記載位置にある文字の前後の文字を句点、あるいは読点に基づく文字列単位で抽出するとともに、当該抽出した文字列の記載箇所をキーワード抽出範囲として設定するキーワード抽出範囲設定手段と、
指定された前記文字列単位と、前記キーワード抽出範囲の文字列と、指示された前記文字記載位置とを含む解析依頼電文を、前記サーバー・コンピュータに送付する解析依頼電文送付手段と、
前記解析依頼電文を受け取った前記サーバー・コンピュータから検索キーワードを含む電文が返送されてくると、当該検索キーワードを所定のデータベースに照会して、その照会結果を表示出力する検索結果提示手段とを備えている。
また、サーバー・クライアント・システムにおけるクライアント・コンピュータであって、
取得した文書の表示手段と、
形態素解析処理を実行するサーバー・コンピュータとの通信手段と、
所定のユーザ入力により、文字列単位の指定と、表示中の文書における任意の文字記載位置の指示とを受け付け、当該指示された文字記載位置にある文字の前後の文字を句点、あるいは読点に基づく文字列単位で抽出するとともに、当該抽出した文字列の記載箇所をキーワード抽出範囲として設定するキーワード抽出範囲設定手段と、
指定された前記文字列単位と、前記キーワード抽出範囲の文字列と、指示された前記文字記載位置とを含む解析依頼電文を、前記サーバー・コンピュータに送付する解析依頼電文送付手段と、
前記解析依頼電文を受け取った前記サーバー・コンピュータから返送されてくる検索キーワード照会結果を表示出力する検索結果提示手段と、
を備えたコンピュータを第11の発明とした。
第12の発明は、第10または第11の発明において、前記キーワード抽出範囲設定手段は、所定のユーザ入力を所定時間以内に連続して受け付けた回数に応じてキーワード抽出範囲の文字列範囲を設定するコンピュータである。
第13の発明は、第10の発明に記載のコンピュータをクライアント・コンピュータとして通信するサーバー・コンピュータであって、
当該クライアント・コンピュータから送付されてきた解析依頼電文に含まれる文字列を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析手段と、
前記文法情報に基づいて、前記文字列から、単語、文節、文の各文字列単位を認識する文字列単位認識手段と、
前記解析依頼電文に含まれる文字列単位の指定情報に従って、前記文字列を指定の文字列単位ごとに区分し、当該区分した文字列単位によって記述される文字列を検索キーワードに設定するキーワード設定手段と、
前記検索キーワードを含むとともに、当該キーワードを所定のデータベースに照会させる旨の指示を含んだキーワード照会電文を前記クライアント・コンピュータに返送する検索キーワード照会電文送付手段と、を備えている。
第14の発明は、第11の発明に記載のコンピュータをクライアント・コンピュータとして通信するサーバー・コンピュータであって、
当該クライアント・コンピュータから送付されてきた解析依頼電文に含まれる文字列を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析手段と、
前記文法情報に基づいて、前記文字列から、単語、文節、文の各文字列単位を認識する文字列単位認識手段と、
前記解析依頼電文に含まれる文字列単位の指定情報に従って、前記文字列を指定の文字列単位ごとに区分し、当該区分した文字列単位によって記述される文字列を検索キーワードに設定するキーワード設定手段と、
前記検索キーワードを所定のデータベースに照会して、その照会結果を前記クライアント・コンピュータに返送する照会結果返送手段と、を備えている。
第15の発明は、取得した文書の表示機能と、形態素解析処理を実行するサーバー・コンピュータとの通信機能とを備えたコンピュータにインストールされ、当該コンピュータに、
所定のユーザ入力により、文字列単位の指定と、表示中の文書における任意の文字記載位置の指示とを受け付け、当該指示された文字記載位置にある文字の前後の文字を句点、あるいは読点に基づく文字列単位で抽出するとともに、当該抽出した文の文字列記載箇所をキーワード抽出範囲として設定するキーワード抽出範囲設定ステップと、
指定された前記文字列単位と、前記キーワード抽出範囲の文字列と、指示された前記文字記載位置とを含む解析依頼電文を、前記サーバー・コンピュータに送付する解析依頼電文送付ステップと、
前記解析依頼電文を受け取った前記サーバー・コンピュータから検索キーワードを含む電文が返送されてくると、当該検索キーワードを所定のデータベースに照会して、その照会結果を表示出力する検索結果提示ステップと、
を実行させる情報検索支援プログラムとしている。
第16の発明は、取得した文書の表示機能と、形態素解析処理を実行するサーバー・コンピュータとの通信機能とを備えたコンピュータにインストールされ、当該コンピュータに、
所定のユーザ入力により、文字列単位の指定と、表示中の文書における任意の文字記載位置の指示とを受け付け、当該指示された文字記載位置にある文字の前後の文字を句点、あるいは読点に基づく文字列単位で抽出するとともに、当該抽出した文の文字列記載箇所をキーワード抽出範囲として設定するキーワード抽出範囲設定ステップと、
指定された前記文字列単位と、前記キーワード抽出範囲の文字列と、指示された前記文字記載位置とを含む解析依頼電文を、前記サーバー・コンピュータに送付する解析依頼電文送付ステップと、
前記解析依頼電文を受け取った前記サーバー・コンピュータから返送されてくる検索キーワード照会結果を表示出力する検索結果提示ステップと、
を実行させる情報検索支援プログラムとした。
第15または第16の発明において、前記キーワード抽出範囲設定ステップでは、所定のユーザ入力を所定時間以内に連続して受け付けた回数に応じてキーワード抽出範囲の文字列範囲を設定する情報検索支援プログラムを第17の発明とした。
第18の発明は、ネットワークを介してアクセスしてきたクライアント・コンピュータと通信可能なサーバー・コンピュータにインストールされ、当該サーバー・コンピュータに、
クライアント・コンピュータから送付されてきた解析依頼電文に含まれる文字列を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析ステップと、
前記文法情報に基づいて、前記文字列から、単語、文節、文の各文字列単位を認識する文字列単位認識ステップと、
前記解析依頼電文に含まれる文字列単位の指定情報に従って、前記文字列を指定の文字列単位ごとに区分し、当該区分した文字列単位によって記述される文字列を検索キーワードに設定するキーワード設定ステップと、
前記検索キーワードを含むとともに、当該キーワードを所定のデータベースに照会させる旨の指示を含んだキーワード照会電文を前記クライアント・コンピュータに返送する検索キーワード照会電文送付ステップと、
を実行させる情報検索支援プログラムである。
第19の発明は、ネットワークを介してアクセスしてきたクライアント・コンピュータと通信可能なサーバー・コンピュータにインストールされ、当該サーバー・コンピュータに、
クライアント・コンピュータから送付されてきた解析依頼電文に含まれる文字列を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析ステップと、
前記文法情報に基づいて、前記文字列から、単語、文節、文の各文字列単位を認識する文字列単位認識ステップと、
前記解析依頼電文に含まれる文字列単位の指定情報に従って、前記文字列を指定の文字列単位ごとに区分し、当該区分した文字列単位によって記述される文字列を検索キーワードに設定するキーワード設定ステップと、
前記検索キーワードを所定のデータベースに照会して、その照会結果を前記クライアント・コンピュータに返送する照会結果返送ステップと
を実行させる情報検索支援プログラムとしている。
第20の発明は、ブラウザを実装したコンピュータにインストールされ、当該コンピュータに、
ブラウザが取得したWebページに設定されている別のWebページへのハイパーリンクの表示位置を指示するユーザ入力を受け付けて、当該別のWebページの記載内容を要約文にして表示出力する処理を実行させる情報検索支援プログラムであって、
前記、別のWebページに含まれる文書を利用者に向けて表示出力せずに取得するリンク先文書取得ステップと、
当該取得した文書において、句点や読点、あるいは改行に基づく文字列単位を文として認識するとともに、当該認識した文について、所定数以上の文字を含む文を解析対象文として特定する解析対象文特定ステップと、
当該特定した解析対象文を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析ステップと、
前記文法情報に基づいて、全ての前記解析対象文に含まれる所定の品詞の単語を計数対象単語として抽出するとともに、各計数対象単語の出現回数を取得する単語出現回数取得ステップと、
各計数対象単語の出現回数を単語別ポイントとするとともに、一つの解析対象文に含まれる計数対象単語のそれぞれの単語別ポイントの合計値をその文の評価値として、各解析対象文の評価値を取得する評価値取得ステップと、
最も高い評価値に該当する解析対象文を要約文として抽出する要約文抽出ステップと、
要約文抽出ステップにより抽出した要約文をブラウザが取得したWebページの文書とは別の表示領域に表示出力する要約文表示ステップと
を実行させる情報検索支援プログラムである。
第21の発明は、ネットワークを介してアクセスしてきたブラウザと通信可能なサーバー・コンピュータにインストールされ、当該サーバー・コンピュータに、
ブラウザから送付されてきたURLに従ってWebページを取得するとともに、当該Webページに含まれる文書において、句点や読点、あるいは改行に基づく文字列単位を文として認識し、当該認識した文について、所定数以上の文字を含む文を解析対象文として特定する解析対象文特定ステップと、
当該特定した解析対象文を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析ステップと、
前記文法情報に基づいて、全ての前記解析対象文に含まれる所定の品詞の単語を計数対象単語として抽出するとともに、各計数対象単語の出現回数を取得する単語出現回数取得ステップと、
各計数対象単語の出現回数を単語別ポイントとするとともに、一つの解析対象文に含まれる計数対象単語のそれぞれの単語別ポイントの合計値をその文の評価値として、各解析対象文の評価値を取得する評価値取得ステップと、
最も高い評価値に該当する解析対象文を要約文として抽出する要約文抽出ステップと、
要約文抽出ステップにより抽出した要約文を前記ブラウザに返送する要約文返送ステップと、
を実行させる情報検索支援プログラムとした。
第22の発明は、ブラウザを実装し、当該ブラウザが取得したWebページに設定されている別のWebページへのハイパーリンクの表示位置を指示するユーザ入力を受け付けて、当該別のWebページの記載内容を要約文にして表示出力するコンピュータであって、
前記、別のWebページに含まれる文書を利用者に向けて表示出力せずに取得するリンク先文書取得手段と、
当該取得した文書において、句点や読点、あるいは改行に基づく文字列単位を文として認識するとともに、当該認識した文について、所定数以上の文字を含む文を解析対象文として特定する解析対象文特定手段と、
当該特定した解析対象文を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析手段と、
前記文法情報に基づいて、全ての前記解析対象文に含まれる所定の品詞の単語を計数対象単語として抽出するとともに、各計数対象単語の出現回数を取得する単語出現回数取得手段と、
各計数対象単語の出現回数を単語別ポイントとするとともに、一つの解析対象文に含まれる計数対象単語のそれぞれの単語別ポイントの合計値をその文の評価値として、各解析対象文の評価値を取得する評価値取得手段と、
最も高い評価値に該当する解析対象文を要約文として抽出する要約文抽出手段と、
要約文抽出手段が抽出した要約文をブラウザが取得したWebページの文書とは別の表示領域に表示出力する要約文表示手段と、
を備えている。
第23の発明は、サーバー・クライアント・システムにおけるサーバー・コンピュータであって、
ネットワークを介してアクセスしてきたブラウザと通信する手段と、
ブラウザから送付されてきたURLに従ってWebページを取得するとともに、当該Webページに含まれる文書において、句点や読点、あるいは改行に基づく文字列単位を文として認識し、当該認識した文について、所定数以上の文字を含む文を解析対象文として特定する解析対象文特定手段と、
当該特定した解析対象文を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析手段と、
前記文法情報に基づいて、全ての前記解析対象文に含まれる所定の品詞の単語を計数対象単語として抽出するとともに、各計数対象単語の出現回数を取得する単語出現回数取得手段と、
各計数対象単語の出現回数を単語別ポイントとするとともに、一つの解析対象文に含まれる計数対象単語のそれぞれの単語別ポイントの合計値をその文の評価値として、各解析対象文の評価値を取得する評価値取得手段と、
最も高い評価値に該当する解析対象文を要約文として抽出する要約文抽出手段と、
要約文抽出手段が抽出した要約文を前記ブラウザに返送する要約文返送手段と、
を備えている。
なお本発明は、上記いずれかの発明に記載の情報検索支援プログラムを記憶したプログラム格納媒体にも及んでおり、このプログラム格納媒体を第24の発明としている。
本発明の情報検索支援プログラム、および情報検索支援機能を有するコンピュータによれば、分かち書きされない言語で記載されている文書中から検索キーワードとして適切な語を抽出するとともに、その語に基づいて情報検索を実行して検索結果を利用者に提示することができる。また、Webページ中に設定されているハイパーリンクを指示して別のWebページを取り寄せる前に、当該別のWebページの内容を確認することができる。それによって、不要なハイパーリンク指示操作を無くし、情報検索に掛かる時間や労力を節約することができる。
===本発明の実施形態===
本発明の一実施形態として、本発明に係る情報検索支援プログラム(以下、キーワード抽出プログラム)が実装されたパーソナルコンピュータ(PC)を例示する。本発明のキーワード抽出プログラムは、処理対象として与えられた文書から適宜な文字列を検索キーワードとして抽出し、その検索キーワードを検索エンジンや事典/辞典サイトに照会し、その照会結果を提示するための処理を実行する。処理対象となる文書としてはコンピュータにより閲覧可能な形式であれば、書式を含まない単純なテキストデータであってもよいし、各種ワープロソフトウエア用のデータ形式であってもよい。本実施例におけるキーワード抽出プログラムは、独自のWebブラウザ、または既存のブラウザのプラグインとして機能し、ブラウザが取り寄せたWebページに記載されている文書を解析する。すなわちHTMLによって記述されたデータに含まれている文書を処理対象とする。
===形態素解析・構文解析===
キーワード抽出プログラムは、周知の形態素解析により文書を単語単位で分解する。さらに、文書に対して構文解析を行い、文書における係り受けの関係を認識する。そして、ユーザの設定入力により、検索キーワードを単語、文節、文の各単位で指定することができるようになっている。
形態素解析は、PCの外部記憶などに多数の単語について品詞や活用形を対応付けした辞書を用意しておき、キーワード抽出プログラムがその辞書を参照して解析対象となる文書から単語を抽出していく。そして、抽出した各単語のそれぞれに品詞や活用形などの文法情報を対応付けして管理する。図1に、ある文章を形態素解析した結果の概略図を示した。この例では「国際宇宙ステーションに滞在中の野田聡さんらが3日早朝、3回目の船外活動を実施した。」という文書を単語ごとに分解し、各単語に文法情報を対応付けしている。
また本実施例では、文書中で連続する文字列から、単語、文節、文の各文字列単位を認識するとともに、認識した文中の文節を構文解析することで係り受けの関係を認識する。なお文節とは、文字列の最後に「ね」を加えて意味をなす文字列単位を文節としている。具体的には、「私は本を読む」という文は、形態素解析によって得られた単語において、前後で連続する単語の最後に「ね」を加えて意味をなせば、その連続した単語が文節となる。すなわち、「私はね」「本をね」「読むね」というように各文字列が意味をなすことから、「私は」「本を」「読む」のそれぞれが文節となる。また、「私は本を」「本を読む」も文節となる。本実施例では文において連続する前後の単語の品詞の組み合わせに基づいて文節の区切りを認識している。そして、キーワード抽出プログラムが参照する辞書には、文における前後の品詞の組み合わせ種別と文節か否かの判定とを対応付けしたテーブルが含まれている。なお「文」については、本実施例では、句点や句読点によって区切られた文字列としている。さらに、キーワード抽出プログラムは、文中の係り受け関係を構文解析により認識する。係り受けの関係としては、例えば、「美味しい 食事」などの連体修飾関係、「ゆっくり 走る」などの連用修飾関係、「私は 歩く」などの主語述語関係がある。
図2に本実施例における文字列単位の認識手順を示した。ここでは、「私が流暢な日本語を話す」という文10における文節の認識手順を示した。まず、解析対象となる文10を形態素解析し、各単語11の品詞12を取得する(A)。つぎに、文10において前後する単語11の品詞12の組み合わせ(13a,13b)に応じた種別14と文節か否かの判定15とを対応付けしたテーブル16を参照し(B)、文10における単語間の各境界17が前記テーブル16においてどの種別14に該当するのかを特定する(C)。そして、特定した種別14に対応する判定結果15から隣接する単語同士が1つの文節を形成するかそうでないかを判断し、文中から最小単位の文節18を切り出す(D)。
さらにキーワード抽出プログラムは、構文解析により、最小単位の文節18ごとに区切った文10における文節間の係り受けの関係を認識する。図3に構文解析による係り受けの認識手順を示した。最小単位の文節18に区分された文10において(A)、どの文節18がどの文節18に、どのような係り受けの関係(19a〜c)かを求め(B)、隣接する文節18が係り受けの関係(19a〜c)にあれば、その隣接する文節18によりさらに大きな文節(18b,18c)となり得ることを認識する(C)(D)。このように、本実施例では、一つの文を複数の文字列単位に分割する際、単語毎、最小単位の文節毎、および係り受けの関係にある複数の文節毎など、その分割する文字位置を自由に設定することができる。
===キーワード抽出プログラムの概略===
本実施例のキーワード抽出プログラムは、ブラウザが取り寄せたWebページのHTMLを解析し、処理対象となる文書部分を抽出する。そして、その文書に対して上述した形態素解析および構文解析を適用し、その解析結果に基づいて認識した文書中の単語、文節、文に相当する文字列を検索キーワードとして抽出する。そして、ユーザ入力により設定された検索キーワードの照会先(検索エンジン、辞典/事典サイトなど)にその検索キーワードを照会する。
具体的には、ブラウザが取り寄せたWebページに含まれている文書について、その表示状態を維持しつつ、当初の文書中にWebページ作成者が意図して設定したハイパーリンク(リンク)を破棄し、文書中の適宜な単語、あるいは文節や文などの文字列記載箇所にその文字列を所定の照会先に与える旨のリンクを新規に設定したHTMLを生成する。本実施例において、キーワード抽出プログラムは、複数の照会先について、検索キーワードを与える旨のURL記述形式と、その照会先が日本語を認識する際の文字コードの指定情報とを管理し、新規にリンクを設定する文字列部分には、その文字列を指定の文字コードに変換し、指定のURL記述形式に従って記述する。
例えば、ある検索エンジンに検索キーワードを与えるためのURLが「http://search.engine.co.jp/bin/query?=」に続いて検索キーワードを付記したものであり、その検索エンジンがEUCコードによって日本語(かな漢字)を受け付け、文書中の「本」という単語記載箇所にリンクを設定する場合、検索キーワードを検索エンジンに与える旨のURLは「http://search.engine.co.jp/bin/query?=%CB%DC」と記述され、設定されるリンクは、HTMLタグを含めて「<a href="http://search.engine.co.jp/bin/query?=%CB%DC">本</a>」と記述される。
なお、URLに日本語(かな漢字)に相当する文字列を記述する場合、その文字列を周知のURLエンコード形式に変換する必要がある。すなわち、2バイトで記述されるかな漢字を1バイトずつに分解して16進表示にし、「%」記号の後にその16進表記の文字を記述してかな漢字を変換する。先のURL「http://search.engine.co.jp/bin/query?=%CB%DC」では「%CB%DC」が「本」をURLエンコードしたものである。
===検索キーワードの抽出===
本実施例のキーワード抽出プログラムは、Webページに記載されている文書中の適宜な文字列を検索キーワードとし、そのキーワードを起点として利用者の情報検索を支援する。そして、利用者が目的とする情報を高い確率で入手できるように、検索キーワードを適切に抽出するための機能を備えている。例えば、リンク設定箇所を句読点で区切られた文全体とし、その文全体をマウスによってクリック可能としながら、すなわち、文全体を所定の検索エンジンや所定の辞典サイトに照会するための指示対象としながら、その文にマウスカーソルを置いてクリックすると、その文自体を検索キーワードに設定するだけではなく、検索キーワードの照会先が検索エンジンであるならば、その文に含まれている複数の文節や複数の単語をアンド検索のための検索キーワードに設定することもできる。すなわち、文書中の単語、文節、文のそれぞれを自由にマウスクリックの対象に設定することができる。そして、マウスクリックの対象が文であっても、実際に検索キーワードとして検索エンジンに照会されるのは、その文自体であったり、アンド検索に供されるその文に含まれている複数の単語や複数の文節などであったりする。以下、文書中から抽出した検索キーワードを検索エンジンに照会する事例を挙げ、本実施例のキーワード抽出プログラムの機能について具体的に説明する。
===ユーザインタフェース===
図4にPCにおいて起動中にあるキーワード抽出プログラムの操作画面を示した。この例において、キーワード抽出プログラムは、ブラウザとなるインターネットエクスプローラ(登録商標)のプラグインとして機能し、そのブラウザのウインドウ枠30の中に当該キーワード抽出プログラムを操作するための領域31が表示されている。そして、複数の画面32がタブ33によって選択表示できるようになっており、これら複数の画面32には、ブラウザが取り寄せたWebページをそのまま表示する画面や、このWebページに含まれる文書を多角的に解析し、その各解析結果のそれぞれに相当する各画面などが含まれている。もちろん、複数の画面32を並べて表示するなど、当該プログラムのユーザインタフェース環境は適宜に設定できる。この図では、検索エンジンへのリンクが再設定された文書の画面が選択表示されている。
また、プログラム操作領域31には当該プログラムを操作するためのメニュー34やツールバー35などが表示されている。例えば、ツールバー35にはクリック対象となる文字列の単位(単語,文節,文)の設定を選択するためのリストダウンボックス36や、検索キーワードの形態設定に関する各種設定を選択するためのリストダウンボックス37などが配置されている。利用者は、キーワード抽出プログラムを操作しながらオリジナルのWebページに記載されている文書から自身の情報検索目的に合致する検索キーワードを抽出し、その検索キーワードに基づいて実際に情報検索した結果を閲覧することができる。もちろん、情報検索によって得られた情報が文書であれば、その文書に対してさらに情報検索のためにリンクを再設定させることもできる。
===単語によるリンク設定===
クリック対象として最も基本的な単位が単語である。図5(A)(B)にWebページの文書に含まれている単語をクリック対象および検索キーワードに設定する過程を例示した。オリジナルのWebページにおける文書40aには、リンクが設定されている文字列の記載箇所に下線が引かれている。このリンクはWebページ制作者が意図して設定したものであり、普通は、特定のWebページなどがリンク先となっている。この例では、「国際宇宙ステーションに滞在中の野田聡さんらが3日早朝、3回目の船外活動を実施した。」という文書40aの「国際宇宙ステーション」の記載部分にリンクが設定されている(A)。
キーワード抽出プログラムは、このWebページ中の文書に形態素解析を適用し、文書40aに含まれている単語の文字列記載箇所に検索エンジンへのリンクを設定し、そのリンクの再設定箇所に下線を引いて新規のHTMLを生成し、そのHTMLをブラウザが表示する。それによって、当初のリンクは破棄され、「国際」「宇宙」「ステーション」「に」「滞在」「中」「の」「野田」「聡」「さん」「ら」「が」・・・というように、各単語にリンクが再設定された文書40bが当該プログラムの操作領域内にWebページの体裁で表示される(B)。
また、連続する名詞による文字列(複合名詞)については、複合名詞全体をクリック対象に設定することもできる。例えば、図5に示した文例において、「国際」「宇宙」「ステーション」それぞれを個別の検索キーワードとして検索エンジンに与えるよりも、「国際宇宙ステーション」を検索キーワードにした方が利用者が目的とする情報が得られやすい場合もある。このように、ユーザは自身の検索目的に応じ、連続する名詞による文字列(複合名詞)を一つのクリック対象および検索キーワードとして設定することができる。この複合名詞の設定に際しては、連続している名詞について、その先頭から複合名詞に含める名詞の数(連続させる名詞の数を2として「国際宇宙」と「ステーション」)、あるいは連続している名詞の最後尾からの名詞の数(連続させる名詞の数を2として「国際」と「宇宙ステーション」)などを指定できるようにしてもよい。もちろん、形態素解析に用いる辞書に、「宇宙」と「宇宙ステーション」のように、ある名詞とその名詞を含む複合名詞がともに記載されている場合には複合名詞を優先的に採用するなど、自動的に抽出される複合名詞があってもよい。
なお、単語を検索エンジンに与えるタイミングとしては、利用者がある単語をクリックしたときにその単語をすぐに検索エンジンに与えてもよいし、単語をクリックして、その単語を検索キーワードに設定してから、改めて検索指示をクリックにより受け付けるボタンなどを、キーワード抽出プログラムが生成する操作画面中に配置してもよい。そして、キーワード抽出プログラムは、複数の単語が次々に選択された上で検索指示を受け付けたならば、その選択された複数の単語によるアンド検索を実行するようにする。複数の検索キーワードによるアンド検索は、周知のごとく、複数の検索キーワードを半角空白、または全角空白を介して列挙して検索エンジンに与えればよい。
===文節によるリンク設定===
キーワード抽出プログラムは、形態素解析の結果から得られる単語列から求めた文節を検索キーワードにしてクリック対象に設定することができる。例えば、「私は学校に自転車で急いで行った」という文章の場合、「私は」「学校に」「自転車で」「急いで」「行った」のそれぞれの文節が、クリック可能となり、いずれかの文節をクリックすれば、その文節の文字列が検索キーワードとなる。
さらに、隣接する連体修飾関係にある文節をクリック対象とすることもできる。「私はおいしい食事を食べる」という文の場合、「おいしい食事を」というような単位で情報検索したいという要望も多いことを考慮し、隣接している連体修飾関係にある文節は、ひとまとまりにして、文節単位でクリックすることを可能にしている。すなわち、構文解析をすると「おいしい」という文節は、「食事を」という文節に、連体修飾関係で係ることが分かるため、「おいしい食事を」という文節に相当する文字列をクリック対象とすることができ、検索キーワードの単位として文節を設定すれば、この例では「私は」「おいしい食事を」「食べる」の3つの文字列がそれぞれ、クリック対象となる。
当然、隣接する連用修飾関係にある文節をクリック対象とすることもできる。「私はゆっくり歩く」という文の場合、「ゆっくり歩く」というような文字列が検索キーワードとして適切な場合もある。このため、隣接している連用修飾関係にある文節を、ひとまとまりにして、文節単位でクリックすることを可能にしている。この例では、「私は」「ゆっくり歩く」という2つの文字列がそれぞれ、検索キーワードの候補としてクリック対象となる。
===文によるリンク設定===
日本語漢字かな文字混じり文章の句読点、あるいは句点の間にある文字列を使って、うまく情報検索したいという場合もある。例えば、「家族みんなが静かな雰囲気で楽しめる家であり、ゆっくりくつろげるような住宅が欲しい。」という文があるとする。この文を句読点毎単位に単純に分割すると、さらに「家族みんなが静かな雰囲気で楽しめる家であり、」「ゆっくりくつろげるような住宅が欲しい。」の2つの文字列に分けられる。キーワード抽出プログラムは、このような長い文字列によって情報検索する場合にも、形態素解析や構文解析の結果に基づいて検索キーワードを適切に設定することができる。
先の単語や文節をクリック対象とした情報検索では、主に、文字列を含む情報を直接検索する場合を想定している。それに対し、文をクリック対象とした情報検索では、文字列に含まれている意味や内容に関連する情報を検索する場合を想定している。そして本実施例では、ユーザ入力により、文書を句読点、あるいは句点単位の文をクリック対象として設定するとともに、ユーザ入力により、そのクリック対象となる文から抽出する検索キーワードの形態を各種設定することができる。それによって利用者は、文の内容に関連する情報を高い確度で入手することができる。
<文全体>
文から抽出する検索キーワードの最も単純な利用形態は、「文の文字列をそのまま検索エンジンに渡す」という形態である。文として「家族みんなが静かな雰囲気で楽しめる家であり、ゆっくりくつろげるような住宅が欲しい。」を例に挙げると、この文字列自体が検索キーワードとなる。もちろん、長文をそのまま検索キーワードにする場合、関連する情報が検索結果として示される可能性は低い。しかし、その文字列の出典となった記事を直接検索する場合には有効である。
<単語・文節>
次に単純な、文から抽出する検索キーワードの利用形態は、「当該文の文字列内を形態素解析して抽出した単語を検索キーワードにしてアンド検索を行う」という形態である。ユーザ入力により、この形態が指定されると、キーワード抽出プログラムは、先の文「家族みんなが静かな雰囲気で楽しめる家であり、ゆっくりくつろげるような住宅が欲しい。」を例に挙げれば、「家族」「みんな」「が」「静かな」「雰囲気」「で」「楽しめる」「家」「で」「あり」「ゆっくり」「くつろげる」「ような」「住宅」「が」「欲しい」の各単語をアンド検索のための検索キーワードに設定する。また、文節単位で検索キーワードを設定することも可能であり、この場合には、同じ文が「家族」「みんなが」「静かな」「雰囲気で」「楽しめる」「家であり」「ゆっくり」「くつろげるような」「住宅が」「欲しい」の各文節に区分され、文をクリックすると、この文に含まれている各文節の文字列を検索キーワードとしてアンド検索が実行される。
<品詞指定>
非常に長い文字列に関連する情報を検索する場合、その文中から所定の品詞の単語のみを抽出あるいは除外して検索キーワードを設定した方が希望する情報が得られ易くなる可能性がある。本実施例では、形態素解析によって得られた単語ごとに文法情報を対応付けしているので、ユーザが指定した品詞のみを除外して検索キーワードを設定することができる。例えば、助詞と助動詞を除外する場合、「家族みんなが静かな雰囲気で楽しめる家であり、ゆっくりくつろげるような住宅が欲しい。」という文からは、「家族」「みんな」「静かな」「雰囲気」「楽しめる」「家」「あり」「ゆっくり」「くつろげる」「住宅」「欲しい」を検索キーワードとしてアンド検索を行う。さらに、助詞と助動詞に加え用言類(動詞、形容詞、形容動詞)も除外すると、すなわち、名詞などの重要品詞のみを選択すると、「家族」「みんな」「雰囲気」「家」「ゆっくり」「住宅」を検索キーワードとしてアンド検索を行う。なお、文をクリック対象として検索キーワードを設定する際、名詞については、複合名詞か通常の名詞かを、ユーザ入力により選択設定できるようにしておいてもよい
===終止形変換===
例えば、辞典/事典サイトにおいて、用言類の検索キーワードについては、基本的に終止形で受け付ける。そのため、文書中の単語を辞典/事典サイトに照会しようとする場合、文書中での表記のままで照会してしまうと、該当するインデックスが見あたらず、照会結果となる情報を取得することができない。従来、利用者が終止形でない用言類の語彙を辞典/事典サイトで調べようとする場合、文書中でのその用言類の表記を、利用者自身が終止形に変換し、その変換後の文字列を検索キーワードとして照会する必要があった。また、漢字を含む用言類では、利用者がその漢字の読み方を知らないと終止形に変換することもできないという問題もあった。そこで本実施例のキーワード抽出プログラムは、検索キーワードにしようとする文字列が用言類である場合、その文字列を終止形に直した上でその文字列を実際に照会する検索キーワードに設定する終止形変換機能を備えている。
本実施例では、形態素解析により分解された各単語に品詞や活用形などの文法情報を対応付けして管理している。したがって、キーワード抽出プログラムは、ある活用形で表記された用言が文書中に存在すれば、その表記以外の活用形も取得することができる。図6に「走る」という「ラ行五段動詞」について、その活用形を示した。例えば、この「走る」という動詞が文書中で未然形「走らない」と表記されていた場合、キーワード抽出プログラムは、「走」「ら」「ない」の3つの単語(形態素)に分解し、そのそれぞれの形態素の文法分類が、それぞれ、「ラ行五段動詞語幹」「ラ行五段動詞活用語尾未然形」「助動詞」であることを認識する。そして、語幹「走」(ラ行五段動詞語幹)の形態素と、ラ行五段動詞の終止形の活用語尾「る」により、「走」と「る」(ラ行五段動詞の終止形の活用語尾)を結合し、終止形「走る」を生成する。
形容詞についても同様である。図7に「美しい」の活用形を例示した。どのような活用形であっても語幹「美し」を形態素解析により認識し、この語幹と形容詞の終止形の活用語尾「い」と結合することで、終止形の「美しい」を生成することができる。また、形容動詞については、「曖昧だ」について、図8に活用形を示した。動詞や形容詞と同様にして語幹「曖昧」と形容動詞活用語尾終止形「だ」を結合し、終止形の表記「曖昧だ」を生成することができる。なお本実施例では、ユーザ入力により、終止形に変換する品詞を選択することも可能である。それは、検索エンジンに用言を与える場合には、終止形より、表記通りの文字列を照会した方が目的とする情報が得られる場合があるからである。
===関連文書検索機能===
上述したように、本実施例のキーワード抽出プログラムは、形態素解析と構文解析という自然言語解析技術を巧みにWWWの仕組みに応用することで、文書を閲覧する利用者が目的とする情報を得るための検索キーワードを高い精度で抽出することができるようになっている。さらに本実施例では、文書を自然言語解析した結果として、文書中の単語の出現頻度を取得し、その出現頻度に基づいて文書の内容に関連する他の情報を検索する関連文書検索機能を備えている。
例えば、「国際宇宙ステーションに滞在中の野田聡さんらが3日早朝、3回目の船外活動を実施した。この日の活動ではロビンソン飛行士が、史上初となる宇宙空間でのスペースシャトルの補修をし、野田さんはそれを支援した。スペースシャトルは大気圏に再突入すると、はみ出し部分付近で温度が局所的に上昇して安全な帰還が危ぶまれるため、米航空宇宙機構が補修の実施を決めた。スペースシャトルの補修に先立ち、野田さんは宇宙実験装置や船外保管庫をISSに設置する作業も実施した。船外活動は全体で7時間を予定している。2人は7月30日と8月1日にも船外活動を実施した。」という文書に関連する情報を得ようとする場合、この文書中の単語に文法情報と出現頻度とを対応付けし、出現頻度が高い順に、所定の数の単語を検索キーワードとして所定の検索エンジンに与えるのである。図9に上記例の文書中の単語一覧を示した。各単語に文法情報と出現回数、および出現頻度が対応付けされている。本実施例では、出現回数のカウント対象となる単語として、名詞、サ変動詞、固有名詞を抽出し、出現頻度が高い上位6つの単語を検索キーワードに設定する。また、実際に検索エンジンに照会する検索キーワードは、用言類(動詞、形容詞、形容動詞)については終止形に変換した文字列としている。もちろん、抽出する品詞や終止形変換の要否、照会する検索キーワードの数などはユーザ入力により設定可能である。
===付帯機能について===
キーワード抽出プログラムは、自然言語解析技術に基づいて抽出した検索キーワードを検索エンジンなどに照会する機能に加え、利用者が適切な検索キーワードを選択できるようにしたり、文書の内容を理解したり、あるいは軽快なユーザインタフェース環境により情報検索作業を遂行したりするための種々の付帯機能を備えている。また、文書に適用した自然言語解析の結果や、その解析をするための前処理としてHTMLを解析したときの結果を活用し、WebページにおけるHTMLの構造や、そのWebページ中の文書における言語構造などを利用者に提示する付帯機能も備えている。以下、本実施例のキーワード抽出プログラムにおける付帯機能について説明する。
===要約機能===
文書の内容を総括する文にはその文書中で出現頻度が高い単語(重要語)がより多く含まれていると思われる。そこで、処理対象の文書における単語の出現頻度に基づいて、出現頻度が高い重要語を多く含んでいる文を要約として抽出・提示する。なお本実施例では、ユーザ入力により、重要語を多く含んだ文を当初の文書における順番通りに並べて提示する場合と、重要語を含んでいる割合が高い文から順番に提示する場合の2種類の方法で提示することができる。
===出現頻度提示機能===
前記関連文書検索機能において作成した単語の出現頻度の一覧をそのまま表示することができる。一覧における単語の掲載順位は、ユーザ入力により、出現頻度の高い順、文字の表記の長さが長い順、文字コード順のそれぞれに設定することができる。また、先の関連文書検索機能と同様に、出現頻度のカウント対象とする単語の品詞をユーザ入力により設定することができる。なお本実施例では、キーワード抽出プログラムが形態素解析において参照する辞書に登録されていない単語を新語として別途カウントすることができる。新語の他に、カタカナ表記のみの単語、カタカナ表記を含む単語、英字表記のみの単語、英字表記を含む単語、数字あるいは数字を含む単語(または数字として認識するのにふさわしい単語)、代名詞(彼,私,これ,それ…)、数字関連名詞(第1回,1年…)、時系列に関係する名詞(今日,明日…)などの名詞をカウント対象から除外あるいは算入することができる。とくに、数字関連名詞は、特定のイベントを示唆する場合があり、文書を特徴づける単語になり得る可能性が高い。もちろん、全く意味をなさない場合もある。カタカナ語や英字語は、造語や外来語などを含むため、これらを個別にカウントし提示することで、利用者が自身にとって未知の単語を知ることができる。
なお、動詞、形容詞、形容動詞の出現頻度については、ユーザ入力により、文章中の活用形を保ったまま、あるいは終止形に統一してから求めるように設定できる。複合名詞については、複合名詞を構成する名詞の連続数をユーザ入力により指定できる。
===HTML解析機能===
ブラウザが取り寄せたWebページを記述するHTMLを多角的に解析し、その解析結果を提示するHTML解析機能を備えている。本実施例では文書抽出機能、タグ表示機能、リンク提示機能を備えている。
文書抽出機能は、HTML中のタグや、画像関連情報を取り除いた「テキスト」部分だけを、抽出して表示する機能である。例えば、Webページ中に配置されている広告などは、利用者がページ中でどの文書が重要でどの文書が不要なのかを認識することを妨げる。本実施例では、HTMLタグを排除するだけではなく、タグとタグの間で、連続する文字数をカウントし、ユーザ入力によって指定された文字数以上の文字のみを表示することもできる。
タグ表示機能では、HTMLタグを種類別に一覧にして提示する。リンク提示機能は、HTML中に設定されているリンク先のURLを一覧にして提示する。
===言語構造提示機能===
キーワード抽出プログラムは、利用者に文書の言語構造を提示する機能として、文書中の漢字にルビを振るルビ機能と、全ての単語の読み方を平仮名にするかな変換機能、文書中の単語を品詞別に識別できるようにして表示する品詞識別表示機能、形態素解析結果から得られる単語を用いて、文節を切り出し、その文節毎にどの文節と、どの文節がどのような関係にあるのかを表示する係り受け関係表示機能を備えている。
ルビ機能やかな変換機能によれば、漢字が読めない子供でも文書が読める。また、かな変換機能により得られたかな文字だけの文書を周知の音声変換ソフトウエアに与えれば、視覚に障害ある人でも文書を「聴く」ことによって読むことができる。
品詞識別表示機能によれば、日本語の言語構造を、利用者が直感的に理解することができる。すなわち、品詞の出現頻度や文中における配置、異なる品詞についての前後関係や連続/不連続の関係、などを感覚的にとらえることができる。品詞識別表示機能は、形態素解析により分解された各単語を品詞毎に色を変えるなどして品詞を視覚的に区別できるようにしたものであり、この機能により提示された文書を日本語教育の場で活用すれば、文法教育にも有効であるし、作文能力も向上することが期待できる。
係り受け表示機能は、上記の形態素解析と構文解析とにより得られた各単語の文法情報と、その文法情報から認識される文節と、各文節の前後関係等に基づいて、文節毎にどの文節と、どの文節がどのような関係にあるのかを識別可能にして表示する。上述したように、係り受けの関係の種類としては連体修飾、連用修飾、主語述語などがある。本実施例では、文節間の係り受け関係をその種類に応じて色分けして表示している。このように文節間の係り受け解析結果を識別表示することで、文節と文節との関係を直感的に認知でき、キーワード抽出プログラムの機能における係り受け表示機能も日本語教育の現場で活用することができる。
===形態素解析の処理タイミングと処理対象文字列===
上記実施例では、ブラウザがWebページを取り寄せた段階でそのページ中の全文書に対して形態素解析を行っていた。この例に限らず、たとえば、キーワード抽出プログラムは、Webページ中である単語が選択された段階で、形態素解析を行うようにしてもよい。そうすることで、単に閲覧だけを目的としてWebページを取り寄せた場合に、形態素解析処理の発生を可能な限りなくし、PCに余分な負荷を掛けないようにすることができる。
また、解析対象となる文字列を文書全体とせず、選択した単語の前後の文字列から句点や読点で区切られた文字列など、文章として意味をなす文字列を処理対象とすれば、処理すべき情報量が減り、形態素解析による処理結果をより短時間で提示することができる。たとえば、検索キーワードとすべき文字列単位や品詞が指定されている状態で、文書中の任意の文字位置が指示されると、その指示位置にある文字の前後の句点に基づいてその文字を含む文を解析対象とし、その文を形態素解析したり構文解析したりする。そして、指示位置にある文字の前後の文字を指定の文字列単位分だけ抽出して、その抽出した文字列を検索キーワードにする。
具体例を挙げると、先の文書「国際宇宙ステーションに滞在中の野田聡さんらが3日早朝、3回目の船外活動を実施した。この日の活動ではロビンソン飛行士が、史上初となる宇宙空間でのスペースシャトルの補修をし、野田さんはそれを支援した。スペースシャトルは大気圏に再突入すると、はみ出し部分付近で温度が局所的に上昇して安全な帰還が危ぶまれるため、米航空宇宙機構が補修の実施を決めた。スペースシャトルの補修に先立ち、野田さんは宇宙実験装置や船外保管庫をISSに設置する作業も実施した。船外活動は全体で7時間を予定している。2人は7月30日と8月1日にも船外活動を実施した。」について、2番目の文「この日の活動ではロビンソン飛行士が、史上初となる宇宙空間でのスペースシャトルの補修をし、野田さんはそれを支援した。」の「ス」が指示されたとする。この場合、「ス」が指示された段階で句点によって区切られる文「この日の活動ではロビンソン飛行士が、史上初となる宇宙空間でのスペースシャトルの補修をし、野田さんはそれを支援した。」を形態素解析する。ここで、検索キーワードとすべき文字列単位が単語であれば「スペースシャトル」が検索エンジンに与えられる。文字列単位が文で、検索キーワードの品詞として名詞が指定されていれば、この文に含まれる名詞「史上初」「宇宙空間」「スペースシャトル」「補修」が検索エンジンに与えられる。
===検索キーワード抽出範囲の指定方法===
文書において、検索キーワードが抽出される範囲(キーワード抽出範囲)を指定するための操作方法について例示する。キーワード抽出範囲は、周知のドラッグ操作で任意の文字列を範囲指定し、その範囲内にある単語や複合語を検索キーワードに指定する、という方法がまず考えられる。また、文書中の任意の文字記載位置を指示した状態で、所定の操作を繰り返す回数によって複合語、文、文書というように、キーワード抽出範囲が連続する所定操作の回数に応じて順次拡大されていく方法も考えられる。
この所定操作としては、マウスクリック操作が考えられる。先の文書「国際宇宙ステーションに滞在中の・・・。」を例に挙げると、たとえば、「航」の文字位置でシングルクリック操作を行うと、当該文字位置の前後の文字から「航空」の単語が抽出され、この単語「航空」のみがキーワードの抽出範囲となる。すなわち、「航空」の単語自体が検索キーワードとなる。
同じ位置でダブルクリック操作を行うと、複合語として「航空宇宙機構」、トリプルクリックで「米航空宇宙機構」がキーワード抽出範囲となる。もちろん、辞書に「米航空宇宙機構」のみが登録されていれば、ダブルクリック操作によって「米航空宇宙機構」がキーワード抽出範囲となる。なお、複合語がキーワード抽出範囲となるときの検索キーワードは、たとえば「航空宇宙機構」がキーワード抽出範囲であれば、「航空」「宇宙」「機構」と各単語が検索キーワードになったり、複合語「航空宇宙機構」が検索キーワードになったりするなど、利用者の事前の設定に従うものとする。
さらにクリック操作を連続させた場合には、「航」の文字を含む文「スペースシャトルは大気圏に再突入すると、はみ出し部分付近で温度が局所的に上昇して安全な帰還が危ぶまれるため、米航空宇宙機構が補修の実施を決めた。」がキーワード抽出範囲となり、この文中から事前の設定により、検索キーワードが指定される。もちろん、文をキーワード抽出範囲に設定する前に、読点で区切られた文字列「米航空宇宙機構が補修の実施を決めた。」がキーワード抽出範囲に設定されるようにしてもよい。
なお、検索キーワードは、名詞のみに限らず、名詞に動詞や形容詞を含めた文節で指定されてもよいし、形容詞や動詞の終止形が検索キーワードに指定されてもよい。さらにクリック回数を多くすると、文書全体がキーワード抽出範囲になる。キーワード抽出範囲がクリック回数に応じて、単語→複合語→文→文書→単語→複合語・・・というように、巡回するようにしてもよい。また、キーワード抽出範囲の拡大順序としては、複合語と文の間に文節を設定したり、文と文書の間に段落を設定したりすることができ、たとえば、クリックの回数に応じて、単語→複合語→文節→文→段落→文書全体の順で、キーワード抽出範囲が拡大されるようにしてもよい。なお、キーワード抽出範囲を設定する際の所定操作としては、マウスクリックのほかに、特定キーを押すなど、適宜な操作が考えられる。
このように、連続する所定の操作に応じてキーワード抽出範囲を設定することで、利用者が検索キーワードとして指定したい文字の記載位置からカーソルなどを動かす必要が無くなる。そのため、利用者が意図した検索キーワードが確実に検索エンジンに与えられるとともに、キーワード抽出範囲を拡大していくことで、意図した検索キーワードの周辺にある文字列中からも検索キーワードが選出されて、キーワード抽出範囲の記載内容に関連するレコードが取得される可能性を高めることができる。
連続するクリック操作に応じて検索キーワード抽出範囲と検索キーワードを設定するための具体的な処理としては、あらかじめ文書や文が形態素解析されている場合と、クリック操作を行った時点で形態素解析を行う場合とが考えられる。あらかじめ文書や文が形態素解析されている場合では、キーワード抽出プログラムがクリックの回数とキーワード抽出範囲との対応関係を管理し、クリック操作を受け付けた文字記載位置の前後の文字において、単語を構成する文字列を取得し、さらに、クリック回数に応じてその単語を含む複合語や文を検索キーワード抽出範囲とすればよい。
一方、クリック操作が行われた時点で形態素解析を行う場合には、キーワード抽出プログラムがクリックの回数とキーワード抽出範囲との対応関係を管理するとともに、クリック操作を受け付けた文字記載位置の前後の文字列から句点や読点を取得し、その句点、あるいは読点で区切られた文字列を形態素解析対象として抽出する。
そして、クリック操作を受け付けた文字記載位置の前後の文字列から、クリックの連続操作回数に応じたキーワード抽出範囲を特定し、抽出した範囲から利用者の設定に従って検索キーワードを特定する。所定回数以上のクリック操作がなされた場合には、文書全体を形態素解析対象にしてもよい。なお、キーワード抽出範囲の文字列は、反転表示するなど、表示中の文書のどの文字列部分から検索キーワードが抽出されるのかを利用者に提示することも可能である。
===サーバー・クライアント・システム===
上記実施例では、PCにインストールされるキーワード抽出プログラムに、形態素解析機能や検索キーワードを検索エンジンに与える機能など、全ての機能などが含まれていた。この例に限らず、キーワード抽出プログラムは、サーバー・クライアント・システムにおけるクライアント・コンピュータとサーバー・コンピュータ間で連携動作するプログラムであってもよい。すなわち、PCをクライアント・コンピュータとし、そのクライアント・コンピュータにキーワード抽出プログラムのユーザインタフェースとして機能を担わせる。一方、クライアント・コンピュータと通信するサーバー・コンピュータには、形態素解析処理機能、およびその処理に使用する辞書などを実装しておく。そして、サーバー・コンピュータがクライアント・コンピュータにて表示中の文書を形態素解析する。
以下、このサーバー・クライアント・システムによる情報検索支援機能についての一実施形態を例示する。ここに示す例において、クライアント・コンピュータは、ブラウザを実装したPCであり、PC側にインストールされるキーワード抽出プログラムはブラウザのプラグインとしてインストールされている。ここで、クライアント・コンピュータ側におけるキーワード抽出プログラムの処理機能をクライアントプログラム、サーバー側における処理機能をサーバープログラムと称することとする。
クライアントプログラムは、ブラウザにより表示されている文書から、検索キーワードの抽出範囲や検索キーワードの品詞を設定し、その設定情報をサーバープログラムに与える機能を備えている。なお、クライアントプログラムでは、上述したように、連続するマウスクリックの回数に応じてキーワード抽出範囲を設定するユーザインタフェースを採用しているものとする。また、キーワード抽出範囲は、文書まで拡大できるようにしてもよいが、クライアント・コンピュータとサーバー・コンピュータ間での通信負荷を軽減するために、この例では、句点によって区切られた文字列からなる文を最大の形態素解析対象文字列としている。また、キーワード抽出範囲は、単語→複合語→文の順に拡大していくこととする。
クライアント・コンピュータは、クライアントプログラムのインストール情報として、URLなど、通信相手となるサーバー・コンピュータのネットワーク上の位置情報を記憶し、クライアントプログラムは、起動中のブラウザのプラグインとして実行される。そして、所定の利用者入力があると、ブラウザにて表示中の文書の一部をサーバー・コンピュータに送付して形態素解析してもらい、その解析結果に基づく各種処理を実行する。
図10にクライアントプログラムとサーバープログラムが協調動作する際の処理の流れを例示した。また、図11〜図15に当該処理の流れに伴ってクライアント・コンピュータに表示される画面の遷移を示した。この例において、ブラウザのプラグインとして組み込まれたクライアントプログラムを操作するための画面80は、図4に示した画面30とは若干異なっており、検索キーワードの照会先を指定するためのラジオボタン81や、ルビを振る際に選択するラジオボタン82、上記関連文書検索機能を実行させるための「関連文書検索」ボタン83、文書に含まれる各単語の出現頻度を解析させるための「単語出現頻度解析」ボタン84、および検索キーワードの品詞などを指定したり、検索キーワードの紹介先となる検索サイトや辞書サイトなどを設定したりするなど、各種条件を設定するための「オプション」ボタン85がブラウザの操作画面80の表示領域中に配設されている。
クライアント・コンピュータ50において、所定の利用者入力により、検索キーワードの品詞として、たとえば、名詞が設定されている状態で、表示中の文書に対し所定回数のクリック操作を受け付けると(図11)、このクリック操作を受け付けた文字記載位置86の前後の句点を検出し、この前後の句点の間にある文字列87に相当するテキストデータと、文字列87の先頭からの文字数などによって特定されるクリック操作を受け付けた位置の情報と、クリック回数と、事前に設定されている検索キーワードの品詞の指定情報と、ラジオボタン81により指定されたキーワードの照会先に関する情報とを含んだ電文(形態素解析依頼電文)をサーバー・コンピュータ60に送付する(s1〜s7)。ここでは、検索キーワードを含むWebページを検索することとし、検索キーワードの紹介先として所定の検索エンジン70が設定されているものとする。
サーバー・コンピュータ60は、送付されてきたテキストデータを形態素解析し、単語別に分解し、各単語に文法情報を対応付けするとともに、クライアント・コンピュータ50からのクリック回数に基づいてキーワード抽出範囲を特定し、そのキーワード抽出範囲の文字列が反転表示となるようにテキストデータに書式を設定する。また、文字位置情報と、品詞の指定情報とに基づいて、当該抽出範囲中から検索キーワードの文字列を抽出する。そして、クライアント・コンピュータ50のブラウザを所定の検索エンジン70にリダイレクトさせて当該検索エンジン70に対して検索キーワードを与える旨のURLを生成し、このURLと書式設定されたテキストデータとをクライアント・コンピュータ50に返送する(s8〜s13)。
クライアント・コンピュータ50は、クライアントプログラムにより、ブラウザが先に表示していた文書における形態素解析の対象となった文字列をサーバー・コンピュータ60により書式設定されて返送されてきたテキストデータと置換することで、検索キーワード抽出範囲88が反転表示された文字列を表示する(図12)。また、検索エンジン70へのリダイレクトを記述したURLを解釈して検索キーワードを検索エンジン70に与える。そして、検索エンジンから返送されてきた検索結果のWebページを表示する(図13、s14〜s18)。この例では、検索エンジン70から送付されてきた検索結果を記載したWebページを別ウインドウ90にして表示している。
なお、図12では、ダブルクリック操作で「スペースシャトル」の文字列がキーワード抽出範囲88に設定された例を示した。シングルクリック操作では「スペース」がキーワード抽出範囲となる(図14)。3回のクリック操作では、句点によって区切られた文「史上初となる宇宙空間でのスペースシャトルの補修をし、野田さんはそれを支援した。」がキーワード抽出範囲に設定され、この範囲が反転表示されることになる(図15)。
なおサーバー・コンピュータ60は、リダイレクトを記述したURLに変えて、検索エンジン70に与えるべき検索キーワードのみをクライアント・コンピュータ50に送付するようにしてもよい。そして、クライアント・コンピュータ50がサーバー・コンピュータ60から受け取った検索キーワードを設定済みの検索エンジン70に与える。あるいは、サーバー・コンピュータ60が検索エンジン70に検索キーワードを与えて返送されてきた検索結果をクライアント・コンピュータ50に転送するように構成することもできる。
このように、負荷の大きな処理をサーバー・コンピュータ側で実行させることは、たとえば、PCと比較して処理能力が劣るブラウザを実装した携帯電話機(ブラウザフォン)を使用したキーワード検索であっても、利用者に軽快なユーザインタフェース環境を提供することができる。すなわち、ブラウザフォンをクライアント・コンピュータとすることで、ブラウザフォンにて表示されている文書に関する負荷の大きな形態素解析処理をサーバー・コンピュータ側で実行させることができ、ブラウザフォンは、サーバー・コンピュータにおける形態素解析結果に基づいて抽出されるキーワードを検索エンジンに与えるだけの負荷の軽い処理だけを実行すればよい。サーバー・コンピュータが検索キーワードを検索エンジンに与えてその検索結果をブラウザフォンに転送すれば、ブラウザフォンにおける処理負荷はさらに軽減される。
===ビジネスモデル===
周知の通り、検索サイトでは、ブラウザから受け取った検索キーワードに対応するレコードとともに、検索エンジンに付帯するデータベースによりキーワードに対応付けされている広告コンテンツ(広告主が意図するWebサイトへのリンクが設定された広告テキストなど)を検索結果のWebページに表示する。
一般的に、広告コンテンツは、レコードに優先して、検索結果のWebページに記載される。したがって、クライアント・コンピュータにおいて表示されている文書に対して何らかの利用者入力があると、広告コンテンツがクライアント・コンピュータにて表示され利用者の閲覧に供されることになる。そのため、クライアント・コンピュータにて広告コンテンツに設定されているリンクが指示されて広告主が意図するWebサイトを利用者が閲覧したり、利用者がそのWebサイトにおいて何らかのトランザクション(アンケートヘの回答、商品の購入など)を発生させたりすることが期待できる。そこでサーバー・コンピュータの管理運営業者は、広告コンテンツがクライアント・コンピュータにて表示されることに対し、検索サイトの管理運営業者や広告主から広告収入を得る、というビジネスモデルを構築することが期待できる。
===リンク先ページの要約文提示機能===
上述した要約機能では、ブラウザが現に表示しているWebページの要約文を提示していた。本実施例の情報検索支援プログラムによれば、さらに、表示中のWebページに設定されているハイパーリンクに基づいて取得可能な別のWebページについても要約文を提示するリンク先要約文提示機能を実現することができる。当該リンク先要約文提示機能では、ブラウザが現に利用者の閲覧に供しているWebページ(リンク元ページ)に別のWebページ(リンク先ページ)へのハイパーリンクが設定されているとき、リンク先ページを全文表示せず、当該リンク先ページの要約文だけを利用者に事前に提示する。
図16にこのリンク先要約文提示機能によってPCのディスプレイに表示される画面概略を示した。本実施例では、PCにて表示中のリンク元ページ91に設定されているリンク箇所92にマウスカーソル93を置く「マウスオーバー」操作をすると、ブラウザの操作画面90におけるリンク元ページ91の表示領域に重ねて子画面94を表示し、その子画面94にリンク先ページの要約文95を表示する。もちろん、図17に示すように、ブラウザの操作画面90に要約文を表示するための専用領域96を設けてもよい。
一般的にブラウザは、リンク箇所にマウスオーバーされてハイパーリンクが記述されていることを検出すると、マウスカーソルの形状を、たとえば矢印から指を差す手のアイコンに変化させる。リンク先要約文提示機能では、ブラウザがリンク箇所を検出したことを認知すると、ブラウザに対し、当該箇所に設定されているハイパーリンクを記述するURLに基づいてリンク先ページを取得させる。このとき、取得したリンク先ページは表示せず要約文の抽出処理を行う。具体的には、リンク先ページにおいて、句点や読点、あるいは改行などによって区切られた文字列を文として抽出するとともに、抽出した各文の文字数をカウントする。そして、所定の文字数以上であれば、その文を解析対象文として形態素解析を行う。すなわち、長文のみを要約文の候補とすることで、たとえば、リンク先ページに含まれる広告文テキストや単なるリンク先ページの説明文など、リンク先ページの要約文として不適当な文を排除している。PCにおける要約文抽出のための処理負荷を軽減する効果もある。
次に、要約文の候補となる文を解析対象文として形態素解析し、全解析対象文に含まれる単語を抽出する。そして、抽出した全ての単語において、所定の品詞の単語を計数対象として、その計数対象単語の出現回数をカウントする。本実施例では、名詞を計数対象単語として出現回数をカウントするとともに、全ての名詞のそれぞれについての出現回数を単語別ポイントとして取得する。
さらに、一つの解析対象文について、その文に含まれる各名詞の単語別ポイントを加算した合計ポイントをその文の評価値として取得する。すなわち、各単語に出現回数に応じた単語別ポイントを対応付けするとともに、各解析対象文のそれぞれに含まれる単語別ポイントを合計する。このようにすることで、出現回数の多い名詞が多く含まれる文ほど評価値が高くなるようにしている。
たとえば、ブラウザが取得したWebページにおいて、全ての解析対象文から抽出した、「太郎」「本」「鉛筆」のそれぞれの名詞の出現回数が、3回、5回、7回であったとする。ここで、「太郎は、本と鉛筆を買う。」という解析対象文がWebページ中にあるとすると、この文の評価値は、3+5+7=15ポイントとなる。このようにして、全ての解析対象文についての評価値を取得したならば、最終的に、評価値の最も高い文を要約文として抽出し、その要約文を適宜に表示する。もちろん、出現回数の計数対象となる単語の品詞は、名詞に限らず、他の品詞であってもよい。利用者により計数対象となる品詞を設定できるように構成しておいてもよい。
なお、このリンク先要約提示機能についても、サーバー・クライアント・システムによる分散処理によって実現してもよい。この場合、クライアント・コンピュータが、マウスオーバーされている位置に設定されているハイパーリンクを記述するURLをサーバー・コンピュータに送付すればよい。サーバー・コンピュータは、受信したURLに基づいてWebページを取得し、そのページ中の文書から要約文を抽出し、その要約文をクライアント・コンピュータに送付する。クライアント・コンピュータは、送付されてきた要約文を適宜に表示すればよい。
本発明の実施例における情報検索支援プログラムによってある文書を形態素解析した結果を示す概略図である。 上記プログラムによる文から文節を切り出す処理の概略図である。 上記プログラムによる文節同士の係り受けを認識する処理の概略図である。 コンピュータに表示される上記プログラムの操作画面である。 上記プログラムによるWebページのリンク再設定処理の概略図である。 上記プログラムによる動詞の終止形変換処理の概略図である。 上記プログラムによる形容詞の終止形変換処理の概略図である。 上記プログラムによる形容動詞の終止形変換処理の概略図である。 上記プログラムによる単語の出現頻度提示機能の概略図である。 サーバー・クライアント・システム上で動作する情報検索支援プログラムによる処理の流れ図である。 上記サーバー・クライアント・システムを構成するクライアント・コンピュータが表示する画面の概略図である。 上記サーバー・クライアント・システムを構成するクライアント・コンピュータが表示する画面の概略図である。 上記サーバー・クライアント・システムを構成するクライアント・コンピュータが表示する画面の概略図である。 上記サーバー・クライアント・システムを構成するクライアント・コンピュータが表示する画面の概略図である。 上記サーバー・クライアント・システムを構成するクライアント・コンピュータが表示する画面の概略図である。 上記プログラムがインストールされたコンピュータが表示する画面の概略図である。 上記プログラムがインストールされたコンピュータが表示する画面の概略図である。
符号の説明
10 文
11 単語
12 品詞
16 文節境界判定テーブル
18,18b,18c 文節
30、80、90 ブラウザ画面
31 情報検索支援プログラム操作領域
32 情報検索支援プログラム表示画面
40a Webページの文書
40b リンクを再設定した文書

Claims (24)

  1. コンピュータにインストールされるプログラムであって、当該コンピュータに、
    取得した文書の任意の文字記載位置を指示するユーザ入力を受け付け、当該文字記載位置にある文字の前後の文字を句点、あるいは読点に基づく文字列単位で抽出するとともに、当該抽出した文字列の記載箇所をキーワード抽出範囲として設定するキーワード抽出範囲設定ステップと、
    前記キーワード抽出範囲の文字列を処理対象として形態素解析し、単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析ステップと、
    前記文法情報に基づいて、前記処理対象の文字列から、単語、文節、文の各文字列単位を認識する文字列単位認識ステップと、
    文字列単位を指定するユーザ入力に従って、前記処理対象の文字列を指定の文字列単位ごとに区分し、当該区分した文字列単位によって記述される文字列を検索キーワードに設定するキーワード設定ステップと、
    所定のユーザ入力を受け付けて、設定した前記検索キーワードを所定のデータベースに照会し、当該データベースから返送されてきた照会結果を表示出力するキーワード照会ステップと、
    を実行させることを特徴とする情報検索支援プログラム。
  2. 請求項1において、前記キーワード抽出範囲設定ステップでは、所定のユーザ入力を所定時間以内に連続して受け付けた回数に応じてキーワード抽出範囲の文字列範囲を設定することを特徴とする情報検索支援プログラム。
  3. コンピュータにインストールされるプログラムであって、当該コンピュータに、
    処理対象として取得した文書を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析ステップと、
    前記文法情報に基づいて、文書中で連続する文字列から、単語、文節、文の各文字列単位を認識する文字列単位認識ステップと、
    前記文書をユーザ入力により指定された文字列単位ごとに区分し、当該区分した文字列単位の記載箇所をリンク対象箇所として識別可能にして表示するリンク対象設定ステップと、
    前記リンク対象箇所に含まれる文字列を検索キーワードに設定するキーワード設定ステップと、
    前記リンク対象箇所に前記検索キーワードを所定のデータベースに照会する旨のハイパーリンクを設定するリンク設定ステップと、
    ユーザ入力により、あるリンク対象箇所に設定されたハイパーリンクが指示されると、当該ハイパーリンクに基づいて前記所定のデータベースから返送されてきた照会結果を表示出力する照会結果提示ステップと、
    を実行させることを特徴とする情報検索支援プログラム。
  4. 請求項3において、
    前記文書を構文解析して文を抽出し、当該文における係り受け関係を取得して管理する構文解析ステップを含み、
    前記リンク対象設定ステップでは、前記文において、前後の文節が係り受けの関係にある場合、当該係り受け関係にある文節を連結した文字列の記載箇所をリンク対象箇所に設定し、
    前記キーワード設定ステップでは、前記文において、ユーザ入力により指定された係り受け関係にある文字列を検索キーワードに設定する、
    ことを特徴とする情報検索支援プログラム。
  5. 請求項1〜4のいずれかにおいて、前記キーワード設定ステップでは、用言類については終止形に変換して得た文字列を検索キーワードに設定することを特徴とする情報検索支援プログラム。
  6. 請求項1〜5のいずれかにおいて、文書に含まれる各単語の出現頻度を求める単語別出現頻度取得ステップと、ユーザ入力により出現頻度が高い順に所定数の単語を検索キーワードとしてデータベースに照会する重要語照会ステップとを含むことを特徴とする情報検索支援プログラム。
  7. 請求項1〜5のいずれかにおいて、ユーザ入力により、特定の品詞を前記検索キーワードに設定するキーワード品詞設定ステップを含むことを特徴とする情報検索支援プログラム。
  8. 請求項1〜7のいずれかにおいて、前記キーワード設定ステップでは、連続する名詞によって構成される文字列を複合名詞とし、当該複合名詞を一つの検索キーワードとして設定することを特徴とする情報検索支援プログラム。
  9. 請求項8において、前記キーワード設定ステップでは、ユーザ入力により指定された数で名詞を連続させて前記複合名詞を設定することを特徴とする情報検索支援プログラム。
  10. サーバー・クライアント・システムにおけるクライアント・コンピュータであって、
    取得した文書の表示手段と、
    形態素解析処理を実行するサーバー・コンピュータとの通信手段と、
    所定のユーザ入力により、文字列単位の指定と、表示中の文書における任意の文字記載位置の指示とを受け付け、当該指示された文字記載位置にある文字の前後の文字を句点、あるいは読点に基づく文字列単位で抽出するとともに、当該抽出した文字列の記載箇所をキーワード抽出範囲として設定するキーワード抽出範囲設定手段と、
    指定された前記文字列単位と、前記キーワード抽出範囲の文字列と、指示された前記文字記載位置とを含む解析依頼電文を、前記サーバー・コンピュータに送付する解析依頼電文送付手段と、
    前記解析依頼電文を受け取った前記サーバー・コンピュータから検索キーワードを含む電文が返送されてくると、当該検索キーワードを所定のデータベースに照会して、その照会結果を表示出力する検索結果提示手段と、
    を備えたことを特徴とする情報検索支援機能を有するコンピュータ。
  11. サーバー・クライアント・システムにおけるクライアント・コンピュータであって、
    取得した文書の表示手段と、
    形態素解析処理を実行するサーバー・コンピュータとの通信手段と、
    所定のユーザ入力により、文字列単位の指定と、表示中の文書における任意の文字記載位置の指示とを受け付け、当該指示された文字記載位置にある文字の前後の文字を句点、あるいは読点に基づく文字列単位で抽出するとともに、当該抽出した文字列の記載箇所をキーワード抽出範囲として設定するキーワード抽出範囲設定手段と、
    指定された前記文字列単位と、前記キーワード抽出範囲の文字列と、指示された前記文字記載位置とを含む解析依頼電文を、前記サーバー・コンピュータに送付する解析依頼電文送付手段と、
    前記解析依頼電文を受け取った前記サーバー・コンピュータから返送されてくる検索キーワード照会結果を表示出力する検索結果提示手段と、
    を備えたことを特徴とする情報検索支援機能を有するコンピュータ。
  12. 請求項10または11において、前記キーワード抽出範囲設定手段は、所定のユーザ入力を所定時間以内に連続して受け付けた回数に応じてキーワード抽出範囲の文字列範囲を設定することを特徴とする情報検索支援機能を有するコンピュータ。
  13. 請求項10に記載の情報検索支援機能を有するコンピュータをクライアント・コンピュータとして通信するサーバー・コンピュータであって、
    当該クライアント・コンピュータから送付されてきた解析依頼電文に含まれる文字列を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析手段と、
    前記文法情報に基づいて、前記文字列から、単語、文節、文の各文字列単位を認識する文字列単位認識手段と、
    前記解析依頼電文に含まれる文字列単位の指定情報に従って、前記文字列を指定の文字列単位ごとに区分し、当該区分した文字列単位によって記述される文字列を検索キーワードに設定するキーワード設定手段と、
    前記検索キーワードを含むとともに、当該キーワードを所定のデータベースに照会させる旨の指示を含んだキーワード照会電文を前記クライアント・コンピュータに返送する検索キーワード照会電文送付手段と
    を備えたことを特徴とする情報検索支援機能を有するサーバー・コンピュータ。
  14. 請求項11に記載の情報検索支援機能を有するコンピュータをクライアント・コンピュータとして通信するサーバー・コンピュータであって、
    当該クライアント・コンピュータから送付されてきた解析依頼電文に含まれる文字列を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析手段と、
    前記文法情報に基づいて、前記文字列から、単語、文節、文の各文字列単位を認識する文字列単位認識手段と、
    前記解析依頼電文に含まれる文字列単位の指定情報に従って、前記文字列を指定の文字列単位ごとに区分し、当該区分した文字列単位によって記述される文字列を検索キーワードに設定するキーワード設定手段と、
    前記検索キーワードを所定のデータベースに照会して、その照会結果を前記クライアント・コンピュータに返送する照会結果返送手段と
    を備えたことを特徴とする情報検索支援機能を有するサーバー・コンピュータ。
  15. 取得した文書の表示機能と、形態素解析処理を実行するサーバー・コンピュータとの通信機能とを備えたコンピュータにインストールされ、当該コンピュータに、
    所定のユーザ入力により、文字列単位の指定と、表示中の文書における任意の文字記載位置の指示とを受け付け、当該指示された文字記載位置にある文字の前後の文字を句点、あるいは読点に基づく文字列単位で抽出するとともに、当該抽出した文の文字列記載箇所をキーワード抽出範囲として設定するキーワード抽出範囲設定ステップと、
    指定された前記文字列単位と、前記キーワード抽出範囲の文字列と、指示された前記文字記載位置とを含む解析依頼電文を、前記サーバー・コンピュータに送付する解析依頼電文送付ステップと、
    前記解析依頼電文を受け取った前記サーバー・コンピュータから検索キーワードを含む電文が返送されてくると、当該検索キーワードを所定のデータベースに照会して、その照会結果を表示出力する検索結果提示ステップと、
    を実行させることを特徴とする情報検索支援プログラム。
  16. 取得した文書の表示機能と、形態素解析処理を実行するサーバー・コンピュータとの通信機能とを備えたコンピュータにインストールされ、当該コンピュータに、
    所定のユーザ入力により、文字列単位の指定と、表示中の文書における任意の文字記載位置の指示とを受け付け、当該指示された文字記載位置にある文字の前後の文字を句点、あるいは読点に基づく文字列単位で抽出するとともに、当該抽出した文の文字列記載箇所をキーワード抽出範囲として設定するキーワード抽出範囲設定ステップと、
    指定された前記文字列単位と、前記キーワード抽出範囲の文字列と、指示された前記文字記載位置とを含む解析依頼電文を、前記サーバー・コンピュータに送付する解析依頼電文送付ステップと、
    前記解析依頼電文を受け取った前記サーバー・コンピュータから返送されてくる検索キーワード照会結果を表示出力する検索結果提示ステップと、
    を実行させることを特徴とする情報検索支援プログラム。
  17. 請求項15または16において、前記キーワード抽出範囲設定ステップでは、所定のユーザ入力を所定時間以内に連続して受け付けた回数に応じてキーワード抽出範囲の文字列範囲を設定することを特徴とする情報検索支援プログラム。
  18. ネットワークを介してアクセスしてきたクライアント・コンピュータと通信可能なサーバー・コンピュータにインストールされ、当該サーバー・コンピュータに、
    クライアント・コンピュータから送付されてきた解析依頼電文に含まれる文字列を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析ステップと、
    前記文法情報に基づいて、前記文字列から、単語、文節、文の各文字列単位を認識する文字列単位認識ステップと、
    前記解析依頼電文に含まれる文字列単位の指定情報に従って、前記文字列を指定の文字列単位ごとに区分し、当該区分した文字列単位によって記述される文字列を検索キーワードに設定するキーワード設定ステップと、
    前記検索キーワードを含むとともに、当該キーワードを所定のデータベースに照会させる旨の指示を含んだキーワード照会電文を前記クライアント・コンピュータに返送する検索キーワード照会電文送付ステップと、
    を実行させることを特徴とする情報検索支援プログラム。
  19. ネットワークを介してアクセスしてきたクライアント・コンピュータと通信可能なサーバー・コンピュータにインストールされ、当該サーバー・コンピュータに、
    クライアント・コンピュータから送付されてきた解析依頼電文に含まれる文字列を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析ステップと、
    前記文法情報に基づいて、前記文字列から、単語、文節、文の各文字列単位を認識する文字列単位認識ステップと、
    前記解析依頼電文に含まれる文字列単位の指定情報に従って、前記文字列を指定の文字列単位ごとに区分し、当該区分した文字列単位によって記述される文字列を検索キーワードに設定するキーワード設定ステップと、
    前記検索キーワードを所定のデータベースに照会して、その照会結果を前記クライアント・コンピュータに返送する照会結果返送ステップと、
    を実行させることを特徴とする情報検索支援プログラム。
  20. ブラウザを実装したコンピュータにインストールされ、当該コンピュータに、
    ブラウザが取得したWebページに設定されている別のWebページへのハイパーリンクの表示位置を指示するユーザ入力を受け付けて、当該別のWebページの記載内容を要約文にして表示出力する処理を実行させる情報検索支援プログラムであって、
    前記、別のWebページに含まれる文書を利用者に向けて表示出力せずに取得するリンク先文書取得ステップと、
    当該取得した文書において、句点や読点、あるいは改行に基づく文字列単位を文として認識するとともに、当該認識した文について、所定数以上の文字を含む文を解析対象文として特定する解析対象文特定ステップと、
    当該特定した解析対象文を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析ステップと、
    前記文法情報に基づいて、全ての前記解析対象文に含まれる所定の品詞の単語を計数対象単語として抽出するとともに、各計数対象単語の出現回数を取得する単語出現回数取得ステップと、
    各計数対象単語の出現回数を単語別ポイントとするとともに、一つの解析対象文に含まれる計数対象単語のそれぞれの単語別ポイントの合計値をその文の評価値として、各解析対象文の評価値を取得する評価値取得ステップと、
    最も高い評価値に該当する解析対象文を要約文として抽出する要約文抽出ステップと、
    要約文抽出ステップにより抽出した要約文をブラウザが取得したWebページの文書とは別の表示領域に表示出力する要約文表示ステップと
    を実行させる情報検索支援プログラム。
  21. ネットワークを介してアクセスしてきたブラウザと通信可能なサーバー・コンピュータにインストールされ、当該サーバー・コンピュータに、
    ブラウザから送付されてきたURLに従ってWebページを取得するとともに、当該Webページに含まれる文書において、句点や読点、あるいは改行に基づく文字列単位を文として認識し、当該認識した文について、所定数以上の文字を含む文を解析対象文として特定する解析対象文特定ステップと、
    当該特定した解析対象文を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析ステップと、
    前記文法情報に基づいて、全ての前記解析対象文に含まれる所定の品詞の単語を計数対象単語として抽出するとともに、各計数対象単語の出現回数を取得する単語出現回数取得ステップと、
    各計数対象単語の出現回数を単語別ポイントとするとともに、一つの解析対象文に含まれる計数対象単語のそれぞれの単語別ポイントの合計値をその文の評価値として、各解析対象文の評価値を取得する評価値取得ステップと、
    最も高い評価値に該当する解析対象文を要約文として抽出する要約文抽出ステップと、
    要約文抽出ステップにより抽出した要約文を前記ブラウザに返送する要約文返送ステップと、
    を実行させる情報検索支援プログラム。
  22. ブラウザを実装し、当該ブラウザが取得したWebページに設定されている別のWebページへのハイパーリンクの表示位置を指示するユーザ入力を受け付けて、当該別のWebページの記載内容を要約文にして表示出力するコンピュータであって、
    前記、別のWebページに含まれる文書を利用者に向けて表示出力せずに取得するリンク先文書取得手段と、
    当該取得した文書において、句点や読点、あるいは改行に基づく文字列単位を文として認識するとともに、当該認識した文について、所定数以上の文字を含む文を解析対象文として特定する解析対象文特定手段と、
    当該特定した解析対象文を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析手段と、
    前記文法情報に基づいて、全ての前記解析対象文に含まれる所定の品詞の単語を計数対象単語として抽出するとともに、各計数対象単語の出現回数を取得する単語出現回数取得手段と、
    各計数対象単語の出現回数を単語別ポイントとするとともに、一つの解析対象文に含まれる計数対象単語のそれぞれの単語別ポイントの合計値をその文の評価値として、各解析対象文の評価値を取得する評価値取得手段と、
    最も高い評価値に該当する解析対象文を要約文として抽出する要約文抽出手段と、
    要約文抽出手段が抽出した要約文をブラウザが取得したWebページの文書とは別の表示領域に表示出力する要約文表示手段と、
    を備えたことを特徴とする情報検索支援機能を有するコンピュータ。
  23. サーバー・クライアント・システムにおけるサーバー・コンピュータであって、
    ネットワークを介してアクセスしてきたブラウザと通信する手段と、
    ブラウザから送付されてきたURLに従ってWebページを取得するとともに、当該Webページに含まれる文書において、句点や読点、あるいは改行に基づく文字列単位を文として認識し、当該認識した文について、所定数以上の文字を含む文を解析対象文として特定する解析対象文特定手段と、
    当該特定した解析対象文を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析手段と、
    前記文法情報に基づいて、全ての前記解析対象文に含まれる所定の品詞の単語を計数対象単語として抽出するとともに、各計数対象単語の出現回数を取得する単語出現回数取得手段と、
    各計数対象単語の出現回数を単語別ポイントとするとともに、一つの解析対象文に含まれる計数対象単語のそれぞれの単語別ポイントの合計値をその文の評価値として、各解析対象文の評価値を取得する評価値取得手段と、
    最も高い評価値に該当する解析対象文を要約文として抽出する要約文抽出手段と、
    要約文抽出手段が抽出した要約文を前記ブラウザに返送する要約文返送手段と、
    を備えたことを特徴とする情報検索支援機能を有するサーバー・コンピュータ。
  24. 請求項1〜9のいずれか、または請求項15〜21のいずれかに記載の情報検索支援プログラムを記憶したプログラム格納媒体。

JP2006163954A 2005-08-30 2006-06-13 情報検索支援プログラム、情報検索支援機能を有するコンピュータ、サーバー・コンピュータ、プログラム格納媒体 Active JP4934355B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006163954A JP4934355B2 (ja) 2005-08-30 2006-06-13 情報検索支援プログラム、情報検索支援機能を有するコンピュータ、サーバー・コンピュータ、プログラム格納媒体

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP2005248779 2005-08-30
JP2005248779 2005-08-30
JP2006062647 2006-03-08
JP2006062647 2006-03-08
JP2006163954A JP4934355B2 (ja) 2005-08-30 2006-06-13 情報検索支援プログラム、情報検索支援機能を有するコンピュータ、サーバー・コンピュータ、プログラム格納媒体

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2011130257A Division JP2011181109A (ja) 2005-08-30 2011-06-10 情報検索支援プログラム、情報検索支援機能を有するコンピュータ、サーバー・コンピュータ、プログラム格納媒体

Publications (2)

Publication Number Publication Date
JP2007272859A true JP2007272859A (ja) 2007-10-18
JP4934355B2 JP4934355B2 (ja) 2012-05-16

Family

ID=38675561

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006163954A Active JP4934355B2 (ja) 2005-08-30 2006-06-13 情報検索支援プログラム、情報検索支援機能を有するコンピュータ、サーバー・コンピュータ、プログラム格納媒体

Country Status (1)

Country Link
JP (1) JP4934355B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010100799A1 (ja) * 2009-03-05 2010-09-10 ソニー株式会社 情報処理装置、情報処理方法、プログラムおよび情報処理システム
JP2013025441A (ja) * 2011-07-19 2013-02-04 Yahoo Japan Corp 情報処理装置、システム、方法及びプログラム
WO2015141101A1 (ja) * 2014-03-20 2015-09-24 日本電気株式会社 情報処理装置、情報処理方法および情報処理プログラム
CN109783589A (zh) * 2018-12-13 2019-05-21 中国平安人寿保险股份有限公司 电子地图解析地址的方法、装置及存储介质
JP2020013535A (ja) * 2018-07-06 2020-01-23 株式会社日立システムズ 情報処理装置、検査評価システムおよび検査評価方法
US11481447B2 (en) * 2019-09-20 2022-10-25 Fujifilm Business Innovation Corp. Information processing device and non-transitory computer readable medium
CN115391495A (zh) * 2022-10-28 2022-11-25 强企宝典(山东)信息科技有限公司 在中文语境中检索关键词的方法、装置及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000311040A (ja) * 1998-10-19 2000-11-07 Toshihiko Okabe データ引き渡し装置、データ引き渡し方法、及びデータ引き渡しプログラムを記録した記録媒体
JP2002197104A (ja) * 2000-12-27 2002-07-12 Communication Research Laboratory 情報検索処理装置,情報検索処理方法および情報検索処理プログラムを記録した記録媒体
JP2003108583A (ja) * 2001-09-27 2003-04-11 Seiko Epson Corp 言語文を用いた検索装置、検索システム、検索方法、プログラム、および記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000311040A (ja) * 1998-10-19 2000-11-07 Toshihiko Okabe データ引き渡し装置、データ引き渡し方法、及びデータ引き渡しプログラムを記録した記録媒体
JP2002197104A (ja) * 2000-12-27 2002-07-12 Communication Research Laboratory 情報検索処理装置,情報検索処理方法および情報検索処理プログラムを記録した記録媒体
JP2003108583A (ja) * 2001-09-27 2003-04-11 Seiko Epson Corp 言語文を用いた検索装置、検索システム、検索方法、プログラム、および記録媒体

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010100799A1 (ja) * 2009-03-05 2010-09-10 ソニー株式会社 情報処理装置、情報処理方法、プログラムおよび情報処理システム
JP2010205180A (ja) * 2009-03-05 2010-09-16 Sony Corp 情報処理装置、情報処理方法、プログラムおよび情報処理システム
CN102334117A (zh) * 2009-03-05 2012-01-25 索尼公司 信息处理设备、信息处理方法、程序以及信息处理系统
US8589781B2 (en) 2009-03-05 2013-11-19 Sony Corporation Information processing device, information processing method, program, and information processing system
JP2013025441A (ja) * 2011-07-19 2013-02-04 Yahoo Japan Corp 情報処理装置、システム、方法及びプログラム
US10067921B2 (en) 2014-03-20 2018-09-04 Nec Corporation Information processing apparatus, information processing method, and information processing program
WO2015141101A1 (ja) * 2014-03-20 2015-09-24 日本電気株式会社 情報処理装置、情報処理方法および情報処理プログラム
JP2020013535A (ja) * 2018-07-06 2020-01-23 株式会社日立システムズ 情報処理装置、検査評価システムおよび検査評価方法
JP7229761B2 (ja) 2018-07-06 2023-02-28 株式会社日立システムズ 情報処理装置、検査評価システムおよび検査評価方法
CN109783589A (zh) * 2018-12-13 2019-05-21 中国平安人寿保险股份有限公司 电子地图解析地址的方法、装置及存储介质
CN109783589B (zh) * 2018-12-13 2023-07-25 中国平安人寿保险股份有限公司 电子地图解析地址的方法、装置及存储介质
US11481447B2 (en) * 2019-09-20 2022-10-25 Fujifilm Business Innovation Corp. Information processing device and non-transitory computer readable medium
CN115391495A (zh) * 2022-10-28 2022-11-25 强企宝典(山东)信息科技有限公司 在中文语境中检索关键词的方法、装置及设备

Also Published As

Publication number Publication date
JP4934355B2 (ja) 2012-05-16

Similar Documents

Publication Publication Date Title
US7421386B2 (en) Full-form lexicon with tagged data and methods of constructing and using the same
US6381593B1 (en) Document information management system
Witten et al. Text mining in a digital library
CN101887414B (zh) 对包含图像符号的文本消息传达的评价自动打分的服务器
KR100815215B1 (ko) 웹사이트 통합 검색 장치 및 방법
Ekbal et al. A web-based Bengali news corpus for named entity recognition
US20040029085A1 (en) Summarisation representation apparatus
JP4934355B2 (ja) 情報検索支援プログラム、情報検索支援機能を有するコンピュータ、サーバー・コンピュータ、プログラム格納媒体
US20100076984A1 (en) System and method for query expansion using tooltips
JP2002197104A (ja) 情報検索処理装置,情報検索処理方法および情報検索処理プログラムを記録した記録媒体
JP2011181109A (ja) 情報検索支援プログラム、情報検索支援機能を有するコンピュータ、サーバー・コンピュータ、プログラム格納媒体
Pham et al. Information extraction for Vietnamese real estate advertisements
JP2002189721A (ja) Webページ検索システム及び翻訳システム
Machado et al. Universal mobile information retrieval
JP2002189744A (ja) Webページ検索システム
JP2008015611A (ja) 情報検索支援プログラム、情報検索支援装置
CN112380337A (zh) 基于富文本的高亮方法及装置
Sankaravelayuthan et al. English to tamil machine translation system using parallel corpus
KR100923936B1 (ko) 일본어 사전 서비스에 있어서 2개 단어 이상의 쿼리, 한글쿼리 또는 일반적인 쿼리의 입력 시 검색 결과를 제공하는방법 및 시스템
JP2004157965A (ja) 検索支援装置、検索支援方法、プログラムおよび記録媒体
Selvadurai A natural language processing based web mining system for social media analysis
US20030237042A1 (en) Document processing device and document processing method
Pantelia ‘Noûs, INTO CHAOS’: THE CREATION OF THE THESAURUS OF THE GREEK LANGUAGE
Milić-Frayling Text processing and information retrieval
JP2003099429A (ja) 用語集生成装置及び用語集生成プログラム並びに用語集検索装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090520

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110408

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110419

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110610

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120124

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120220

R150 Certificate of patent or registration of utility model

Ref document number: 4934355

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150224

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250