JP2007272859A - 情報検索支援プログラム、情報検索支援機能を有するコンピュータ、サーバー・コンピュータ、プログラム格納媒体 - Google Patents
情報検索支援プログラム、情報検索支援機能を有するコンピュータ、サーバー・コンピュータ、プログラム格納媒体 Download PDFInfo
- Publication number
- JP2007272859A JP2007272859A JP2006163954A JP2006163954A JP2007272859A JP 2007272859 A JP2007272859 A JP 2007272859A JP 2006163954 A JP2006163954 A JP 2006163954A JP 2006163954 A JP2006163954 A JP 2006163954A JP 2007272859 A JP2007272859 A JP 2007272859A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- sentence
- keyword
- word
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 claims description 96
- 230000000877 morphologic effect Effects 0.000 claims description 80
- 238000011156 evaluation Methods 0.000 claims description 29
- 238000000034 method Methods 0.000 claims description 26
- 150000001875 compounds Chemical class 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 18
- 238000004891 communication Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 7
- 230000006870 function Effects 0.000 description 65
- 230000000694 effects Effects 0.000 description 11
- 238000006243 chemical reaction Methods 0.000 description 10
- 235000012054 meals Nutrition 0.000 description 10
- 230000008439 repair process Effects 0.000 description 9
- 230000004048 modification Effects 0.000 description 8
- 238000012986 modification Methods 0.000 description 8
- 230000008520 organization Effects 0.000 description 6
- 235000016496 Panda oleosa Nutrition 0.000 description 3
- 240000000220 Panda oleosa Species 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000002245 particle Substances 0.000 description 3
- 239000010979 ruby Substances 0.000 description 3
- 229910001750 ruby Inorganic materials 0.000 description 3
- 244000205754 Colocasia esculenta Species 0.000 description 2
- 235000006481 Colocasia esculenta Nutrition 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000002040 relaxant effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000003796 beauty Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Abstract
【解決手段】コンピュータにおいて、文書中の各単語に文法情報を対応付けして管理するステップと、文法情報に基づいて文書中の単語、文節、文の各文字列単位を認識するステップと、文書をユーザが指定した文字列単位ごとに区分し、当該文字列単位の記載箇所をリンク対象箇所として識別可能にして表示するステップと、リンク対象箇所に含まれる文字列を検索キーワードに設定するステップと、リンク対象箇所に検索キーワードを所定のデータベースに照会する旨のハイパーリンクを設定するステップと、あるリンク対象箇所に設定されたハイパーリンクがユーザにより指示されると、当該ハイパーリンクに基づいて所定のデータベースから返送されてきた照会結果を表示出力するステップとを実行する情報検索支援プログラムとしている。
【選択図】図1
Description
取得した文書の任意の文字記載位置を指示するユーザ入力を受け付け、当該文字記載位置にある文字の前後の文字を句点、あるいは読点に基づく文字列単位で抽出するとともに、当該抽出した文字列の記載箇所をキーワード抽出範囲として設定するキーワード抽出範囲設定ステップと、
前記キーワード抽出範囲の文字列を処理対象として形態素解析し、単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析ステップと、
前記文法情報に基づいて、前記処理対象の文字列から、単語、文節、文の各文字列単位を認識する文字列単位認識ステップと、
文字列単位を指定するユーザ入力に従って、前記処理対象の文字列を指定の文字列単位ごとに区分し、当該区分した文字列単位によって記述される文字列を検索キーワードに設定するキーワード設定ステップと、
所定のユーザ入力を受け付けて、設定した前記検索キーワードを所定のデータベースに照会し、当該データベースから返送されてきた照会結果を表示出力するキーワード照会ステップと、
を実行させる情報検索支援プログラムである。
処理対象として取得した文書を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析ステップと、
前記文法情報に基づいて、文書中で連続する文字列から、単語、文節、文の各文字列単位を認識する文字列単位認識ステップと、
前記文書をユーザ入力により指定された文字列単位ごとに区分し、当該区分した文字列単位の記載箇所をリンク対象箇所として識別可能にして表示するリンク対象設定ステップと、
前記リンク対象箇所に含まれる文字列を検索キーワードに設定するキーワード設定ステップと、
前記リンク対象箇所に前記検索キーワードを所定のデータベースに照会する旨のハイパーリンクを設定するリンク設定ステップと、
ユーザ入力により、あるリンク対象箇所に設定されたハイパーリンクが指示されると、当該ハイパーリンクに基づいて前記所定のデータベースから返送されてきた照会結果を表示出力する照会結果提示ステップと、
を実行させる情報検索支援プログラムとしている。
前記リンク対象設定ステップでは、前記文において、前後の文節が係り受けの関係にある場合、当該係り受け関係にある文節を連結した文字列の記載箇所をリンク対象箇所に設定し、
前記キーワード設定ステップでは、前記文において、ユーザ入力により指定された係り受け関係にある文字列を検索キーワードに設定する情報検索支援プログラムとしている。
取得した文書の表示手段と、
形態素解析処理を実行するサーバー・コンピュータとの通信手段と、
所定のユーザ入力により、文字列単位の指定と、表示中の文書における任意の文字記載位置の指示とを受け付け、当該指示された文字記載位置にある文字の前後の文字を句点、あるいは読点に基づく文字列単位で抽出するとともに、当該抽出した文字列の記載箇所をキーワード抽出範囲として設定するキーワード抽出範囲設定手段と、
指定された前記文字列単位と、前記キーワード抽出範囲の文字列と、指示された前記文字記載位置とを含む解析依頼電文を、前記サーバー・コンピュータに送付する解析依頼電文送付手段と、
前記解析依頼電文を受け取った前記サーバー・コンピュータから検索キーワードを含む電文が返送されてくると、当該検索キーワードを所定のデータベースに照会して、その照会結果を表示出力する検索結果提示手段とを備えている。
取得した文書の表示手段と、
形態素解析処理を実行するサーバー・コンピュータとの通信手段と、
所定のユーザ入力により、文字列単位の指定と、表示中の文書における任意の文字記載位置の指示とを受け付け、当該指示された文字記載位置にある文字の前後の文字を句点、あるいは読点に基づく文字列単位で抽出するとともに、当該抽出した文字列の記載箇所をキーワード抽出範囲として設定するキーワード抽出範囲設定手段と、
指定された前記文字列単位と、前記キーワード抽出範囲の文字列と、指示された前記文字記載位置とを含む解析依頼電文を、前記サーバー・コンピュータに送付する解析依頼電文送付手段と、
前記解析依頼電文を受け取った前記サーバー・コンピュータから返送されてくる検索キーワード照会結果を表示出力する検索結果提示手段と、
を備えたコンピュータを第11の発明とした。
当該クライアント・コンピュータから送付されてきた解析依頼電文に含まれる文字列を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析手段と、
前記文法情報に基づいて、前記文字列から、単語、文節、文の各文字列単位を認識する文字列単位認識手段と、
前記解析依頼電文に含まれる文字列単位の指定情報に従って、前記文字列を指定の文字列単位ごとに区分し、当該区分した文字列単位によって記述される文字列を検索キーワードに設定するキーワード設定手段と、
前記検索キーワードを含むとともに、当該キーワードを所定のデータベースに照会させる旨の指示を含んだキーワード照会電文を前記クライアント・コンピュータに返送する検索キーワード照会電文送付手段と、を備えている。
当該クライアント・コンピュータから送付されてきた解析依頼電文に含まれる文字列を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析手段と、
前記文法情報に基づいて、前記文字列から、単語、文節、文の各文字列単位を認識する文字列単位認識手段と、
前記解析依頼電文に含まれる文字列単位の指定情報に従って、前記文字列を指定の文字列単位ごとに区分し、当該区分した文字列単位によって記述される文字列を検索キーワードに設定するキーワード設定手段と、
前記検索キーワードを所定のデータベースに照会して、その照会結果を前記クライアント・コンピュータに返送する照会結果返送手段と、を備えている。
所定のユーザ入力により、文字列単位の指定と、表示中の文書における任意の文字記載位置の指示とを受け付け、当該指示された文字記載位置にある文字の前後の文字を句点、あるいは読点に基づく文字列単位で抽出するとともに、当該抽出した文の文字列記載箇所をキーワード抽出範囲として設定するキーワード抽出範囲設定ステップと、
指定された前記文字列単位と、前記キーワード抽出範囲の文字列と、指示された前記文字記載位置とを含む解析依頼電文を、前記サーバー・コンピュータに送付する解析依頼電文送付ステップと、
前記解析依頼電文を受け取った前記サーバー・コンピュータから検索キーワードを含む電文が返送されてくると、当該検索キーワードを所定のデータベースに照会して、その照会結果を表示出力する検索結果提示ステップと、
を実行させる情報検索支援プログラムとしている。
所定のユーザ入力により、文字列単位の指定と、表示中の文書における任意の文字記載位置の指示とを受け付け、当該指示された文字記載位置にある文字の前後の文字を句点、あるいは読点に基づく文字列単位で抽出するとともに、当該抽出した文の文字列記載箇所をキーワード抽出範囲として設定するキーワード抽出範囲設定ステップと、
指定された前記文字列単位と、前記キーワード抽出範囲の文字列と、指示された前記文字記載位置とを含む解析依頼電文を、前記サーバー・コンピュータに送付する解析依頼電文送付ステップと、
前記解析依頼電文を受け取った前記サーバー・コンピュータから返送されてくる検索キーワード照会結果を表示出力する検索結果提示ステップと、
を実行させる情報検索支援プログラムとした。
クライアント・コンピュータから送付されてきた解析依頼電文に含まれる文字列を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析ステップと、
前記文法情報に基づいて、前記文字列から、単語、文節、文の各文字列単位を認識する文字列単位認識ステップと、
前記解析依頼電文に含まれる文字列単位の指定情報に従って、前記文字列を指定の文字列単位ごとに区分し、当該区分した文字列単位によって記述される文字列を検索キーワードに設定するキーワード設定ステップと、
前記検索キーワードを含むとともに、当該キーワードを所定のデータベースに照会させる旨の指示を含んだキーワード照会電文を前記クライアント・コンピュータに返送する検索キーワード照会電文送付ステップと、
を実行させる情報検索支援プログラムである。
クライアント・コンピュータから送付されてきた解析依頼電文に含まれる文字列を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析ステップと、
前記文法情報に基づいて、前記文字列から、単語、文節、文の各文字列単位を認識する文字列単位認識ステップと、
前記解析依頼電文に含まれる文字列単位の指定情報に従って、前記文字列を指定の文字列単位ごとに区分し、当該区分した文字列単位によって記述される文字列を検索キーワードに設定するキーワード設定ステップと、
前記検索キーワードを所定のデータベースに照会して、その照会結果を前記クライアント・コンピュータに返送する照会結果返送ステップと
を実行させる情報検索支援プログラムとしている。
ブラウザが取得したWebページに設定されている別のWebページへのハイパーリンクの表示位置を指示するユーザ入力を受け付けて、当該別のWebページの記載内容を要約文にして表示出力する処理を実行させる情報検索支援プログラムであって、
前記、別のWebページに含まれる文書を利用者に向けて表示出力せずに取得するリンク先文書取得ステップと、
当該取得した文書において、句点や読点、あるいは改行に基づく文字列単位を文として認識するとともに、当該認識した文について、所定数以上の文字を含む文を解析対象文として特定する解析対象文特定ステップと、
当該特定した解析対象文を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析ステップと、
前記文法情報に基づいて、全ての前記解析対象文に含まれる所定の品詞の単語を計数対象単語として抽出するとともに、各計数対象単語の出現回数を取得する単語出現回数取得ステップと、
各計数対象単語の出現回数を単語別ポイントとするとともに、一つの解析対象文に含まれる計数対象単語のそれぞれの単語別ポイントの合計値をその文の評価値として、各解析対象文の評価値を取得する評価値取得ステップと、
最も高い評価値に該当する解析対象文を要約文として抽出する要約文抽出ステップと、
要約文抽出ステップにより抽出した要約文をブラウザが取得したWebページの文書とは別の表示領域に表示出力する要約文表示ステップと
を実行させる情報検索支援プログラムである。
ブラウザから送付されてきたURLに従ってWebページを取得するとともに、当該Webページに含まれる文書において、句点や読点、あるいは改行に基づく文字列単位を文として認識し、当該認識した文について、所定数以上の文字を含む文を解析対象文として特定する解析対象文特定ステップと、
当該特定した解析対象文を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析ステップと、
前記文法情報に基づいて、全ての前記解析対象文に含まれる所定の品詞の単語を計数対象単語として抽出するとともに、各計数対象単語の出現回数を取得する単語出現回数取得ステップと、
各計数対象単語の出現回数を単語別ポイントとするとともに、一つの解析対象文に含まれる計数対象単語のそれぞれの単語別ポイントの合計値をその文の評価値として、各解析対象文の評価値を取得する評価値取得ステップと、
最も高い評価値に該当する解析対象文を要約文として抽出する要約文抽出ステップと、
要約文抽出ステップにより抽出した要約文を前記ブラウザに返送する要約文返送ステップと、
を実行させる情報検索支援プログラムとした。
前記、別のWebページに含まれる文書を利用者に向けて表示出力せずに取得するリンク先文書取得手段と、
当該取得した文書において、句点や読点、あるいは改行に基づく文字列単位を文として認識するとともに、当該認識した文について、所定数以上の文字を含む文を解析対象文として特定する解析対象文特定手段と、
当該特定した解析対象文を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析手段と、
前記文法情報に基づいて、全ての前記解析対象文に含まれる所定の品詞の単語を計数対象単語として抽出するとともに、各計数対象単語の出現回数を取得する単語出現回数取得手段と、
各計数対象単語の出現回数を単語別ポイントとするとともに、一つの解析対象文に含まれる計数対象単語のそれぞれの単語別ポイントの合計値をその文の評価値として、各解析対象文の評価値を取得する評価値取得手段と、
最も高い評価値に該当する解析対象文を要約文として抽出する要約文抽出手段と、
要約文抽出手段が抽出した要約文をブラウザが取得したWebページの文書とは別の表示領域に表示出力する要約文表示手段と、
を備えている。
ネットワークを介してアクセスしてきたブラウザと通信する手段と、
ブラウザから送付されてきたURLに従ってWebページを取得するとともに、当該Webページに含まれる文書において、句点や読点、あるいは改行に基づく文字列単位を文として認識し、当該認識した文について、所定数以上の文字を含む文を解析対象文として特定する解析対象文特定手段と、
当該特定した解析対象文を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析手段と、
前記文法情報に基づいて、全ての前記解析対象文に含まれる所定の品詞の単語を計数対象単語として抽出するとともに、各計数対象単語の出現回数を取得する単語出現回数取得手段と、
各計数対象単語の出現回数を単語別ポイントとするとともに、一つの解析対象文に含まれる計数対象単語のそれぞれの単語別ポイントの合計値をその文の評価値として、各解析対象文の評価値を取得する評価値取得手段と、
最も高い評価値に該当する解析対象文を要約文として抽出する要約文抽出手段と、
要約文抽出手段が抽出した要約文を前記ブラウザに返送する要約文返送手段と、
を備えている。
本発明の一実施形態として、本発明に係る情報検索支援プログラム(以下、キーワード抽出プログラム)が実装されたパーソナルコンピュータ(PC)を例示する。本発明のキーワード抽出プログラムは、処理対象として与えられた文書から適宜な文字列を検索キーワードとして抽出し、その検索キーワードを検索エンジンや事典/辞典サイトに照会し、その照会結果を提示するための処理を実行する。処理対象となる文書としてはコンピュータにより閲覧可能な形式であれば、書式を含まない単純なテキストデータであってもよいし、各種ワープロソフトウエア用のデータ形式であってもよい。本実施例におけるキーワード抽出プログラムは、独自のWebブラウザ、または既存のブラウザのプラグインとして機能し、ブラウザが取り寄せたWebページに記載されている文書を解析する。すなわちHTMLによって記述されたデータに含まれている文書を処理対象とする。
キーワード抽出プログラムは、周知の形態素解析により文書を単語単位で分解する。さらに、文書に対して構文解析を行い、文書における係り受けの関係を認識する。そして、ユーザの設定入力により、検索キーワードを単語、文節、文の各単位で指定することができるようになっている。
本実施例のキーワード抽出プログラムは、ブラウザが取り寄せたWebページのHTMLを解析し、処理対象となる文書部分を抽出する。そして、その文書に対して上述した形態素解析および構文解析を適用し、その解析結果に基づいて認識した文書中の単語、文節、文に相当する文字列を検索キーワードとして抽出する。そして、ユーザ入力により設定された検索キーワードの照会先(検索エンジン、辞典/事典サイトなど)にその検索キーワードを照会する。
本実施例のキーワード抽出プログラムは、Webページに記載されている文書中の適宜な文字列を検索キーワードとし、そのキーワードを起点として利用者の情報検索を支援する。そして、利用者が目的とする情報を高い確率で入手できるように、検索キーワードを適切に抽出するための機能を備えている。例えば、リンク設定箇所を句読点で区切られた文全体とし、その文全体をマウスによってクリック可能としながら、すなわち、文全体を所定の検索エンジンや所定の辞典サイトに照会するための指示対象としながら、その文にマウスカーソルを置いてクリックすると、その文自体を検索キーワードに設定するだけではなく、検索キーワードの照会先が検索エンジンであるならば、その文に含まれている複数の文節や複数の単語をアンド検索のための検索キーワードに設定することもできる。すなわち、文書中の単語、文節、文のそれぞれを自由にマウスクリックの対象に設定することができる。そして、マウスクリックの対象が文であっても、実際に検索キーワードとして検索エンジンに照会されるのは、その文自体であったり、アンド検索に供されるその文に含まれている複数の単語や複数の文節などであったりする。以下、文書中から抽出した検索キーワードを検索エンジンに照会する事例を挙げ、本実施例のキーワード抽出プログラムの機能について具体的に説明する。
図4にPCにおいて起動中にあるキーワード抽出プログラムの操作画面を示した。この例において、キーワード抽出プログラムは、ブラウザとなるインターネットエクスプローラ(登録商標)のプラグインとして機能し、そのブラウザのウインドウ枠30の中に当該キーワード抽出プログラムを操作するための領域31が表示されている。そして、複数の画面32がタブ33によって選択表示できるようになっており、これら複数の画面32には、ブラウザが取り寄せたWebページをそのまま表示する画面や、このWebページに含まれる文書を多角的に解析し、その各解析結果のそれぞれに相当する各画面などが含まれている。もちろん、複数の画面32を並べて表示するなど、当該プログラムのユーザインタフェース環境は適宜に設定できる。この図では、検索エンジンへのリンクが再設定された文書の画面が選択表示されている。
クリック対象として最も基本的な単位が単語である。図5(A)(B)にWebページの文書に含まれている単語をクリック対象および検索キーワードに設定する過程を例示した。オリジナルのWebページにおける文書40aには、リンクが設定されている文字列の記載箇所に下線が引かれている。このリンクはWebページ制作者が意図して設定したものであり、普通は、特定のWebページなどがリンク先となっている。この例では、「国際宇宙ステーションに滞在中の野田聡さんらが3日早朝、3回目の船外活動を実施した。」という文書40aの「国際宇宙ステーション」の記載部分にリンクが設定されている(A)。
キーワード抽出プログラムは、形態素解析の結果から得られる単語列から求めた文節を検索キーワードにしてクリック対象に設定することができる。例えば、「私は学校に自転車で急いで行った」という文章の場合、「私は」「学校に」「自転車で」「急いで」「行った」のそれぞれの文節が、クリック可能となり、いずれかの文節をクリックすれば、その文節の文字列が検索キーワードとなる。
日本語漢字かな文字混じり文章の句読点、あるいは句点の間にある文字列を使って、うまく情報検索したいという場合もある。例えば、「家族みんなが静かな雰囲気で楽しめる家であり、ゆっくりくつろげるような住宅が欲しい。」という文があるとする。この文を句読点毎単位に単純に分割すると、さらに「家族みんなが静かな雰囲気で楽しめる家であり、」「ゆっくりくつろげるような住宅が欲しい。」の2つの文字列に分けられる。キーワード抽出プログラムは、このような長い文字列によって情報検索する場合にも、形態素解析や構文解析の結果に基づいて検索キーワードを適切に設定することができる。
文から抽出する検索キーワードの最も単純な利用形態は、「文の文字列をそのまま検索エンジンに渡す」という形態である。文として「家族みんなが静かな雰囲気で楽しめる家であり、ゆっくりくつろげるような住宅が欲しい。」を例に挙げると、この文字列自体が検索キーワードとなる。もちろん、長文をそのまま検索キーワードにする場合、関連する情報が検索結果として示される可能性は低い。しかし、その文字列の出典となった記事を直接検索する場合には有効である。
次に単純な、文から抽出する検索キーワードの利用形態は、「当該文の文字列内を形態素解析して抽出した単語を検索キーワードにしてアンド検索を行う」という形態である。ユーザ入力により、この形態が指定されると、キーワード抽出プログラムは、先の文「家族みんなが静かな雰囲気で楽しめる家であり、ゆっくりくつろげるような住宅が欲しい。」を例に挙げれば、「家族」「みんな」「が」「静かな」「雰囲気」「で」「楽しめる」「家」「で」「あり」「ゆっくり」「くつろげる」「ような」「住宅」「が」「欲しい」の各単語をアンド検索のための検索キーワードに設定する。また、文節単位で検索キーワードを設定することも可能であり、この場合には、同じ文が「家族」「みんなが」「静かな」「雰囲気で」「楽しめる」「家であり」「ゆっくり」「くつろげるような」「住宅が」「欲しい」の各文節に区分され、文をクリックすると、この文に含まれている各文節の文字列を検索キーワードとしてアンド検索が実行される。
非常に長い文字列に関連する情報を検索する場合、その文中から所定の品詞の単語のみを抽出あるいは除外して検索キーワードを設定した方が希望する情報が得られ易くなる可能性がある。本実施例では、形態素解析によって得られた単語ごとに文法情報を対応付けしているので、ユーザが指定した品詞のみを除外して検索キーワードを設定することができる。例えば、助詞と助動詞を除外する場合、「家族みんなが静かな雰囲気で楽しめる家であり、ゆっくりくつろげるような住宅が欲しい。」という文からは、「家族」「みんな」「静かな」「雰囲気」「楽しめる」「家」「あり」「ゆっくり」「くつろげる」「住宅」「欲しい」を検索キーワードとしてアンド検索を行う。さらに、助詞と助動詞に加え用言類(動詞、形容詞、形容動詞)も除外すると、すなわち、名詞などの重要品詞のみを選択すると、「家族」「みんな」「雰囲気」「家」「ゆっくり」「住宅」を検索キーワードとしてアンド検索を行う。なお、文をクリック対象として検索キーワードを設定する際、名詞については、複合名詞か通常の名詞かを、ユーザ入力により選択設定できるようにしておいてもよい
===終止形変換===
例えば、辞典/事典サイトにおいて、用言類の検索キーワードについては、基本的に終止形で受け付ける。そのため、文書中の単語を辞典/事典サイトに照会しようとする場合、文書中での表記のままで照会してしまうと、該当するインデックスが見あたらず、照会結果となる情報を取得することができない。従来、利用者が終止形でない用言類の語彙を辞典/事典サイトで調べようとする場合、文書中でのその用言類の表記を、利用者自身が終止形に変換し、その変換後の文字列を検索キーワードとして照会する必要があった。また、漢字を含む用言類では、利用者がその漢字の読み方を知らないと終止形に変換することもできないという問題もあった。そこで本実施例のキーワード抽出プログラムは、検索キーワードにしようとする文字列が用言類である場合、その文字列を終止形に直した上でその文字列を実際に照会する検索キーワードに設定する終止形変換機能を備えている。
上述したように、本実施例のキーワード抽出プログラムは、形態素解析と構文解析という自然言語解析技術を巧みにWWWの仕組みに応用することで、文書を閲覧する利用者が目的とする情報を得るための検索キーワードを高い精度で抽出することができるようになっている。さらに本実施例では、文書を自然言語解析した結果として、文書中の単語の出現頻度を取得し、その出現頻度に基づいて文書の内容に関連する他の情報を検索する関連文書検索機能を備えている。
キーワード抽出プログラムは、自然言語解析技術に基づいて抽出した検索キーワードを検索エンジンなどに照会する機能に加え、利用者が適切な検索キーワードを選択できるようにしたり、文書の内容を理解したり、あるいは軽快なユーザインタフェース環境により情報検索作業を遂行したりするための種々の付帯機能を備えている。また、文書に適用した自然言語解析の結果や、その解析をするための前処理としてHTMLを解析したときの結果を活用し、WebページにおけるHTMLの構造や、そのWebページ中の文書における言語構造などを利用者に提示する付帯機能も備えている。以下、本実施例のキーワード抽出プログラムにおける付帯機能について説明する。
文書の内容を総括する文にはその文書中で出現頻度が高い単語(重要語)がより多く含まれていると思われる。そこで、処理対象の文書における単語の出現頻度に基づいて、出現頻度が高い重要語を多く含んでいる文を要約として抽出・提示する。なお本実施例では、ユーザ入力により、重要語を多く含んだ文を当初の文書における順番通りに並べて提示する場合と、重要語を含んでいる割合が高い文から順番に提示する場合の2種類の方法で提示することができる。
前記関連文書検索機能において作成した単語の出現頻度の一覧をそのまま表示することができる。一覧における単語の掲載順位は、ユーザ入力により、出現頻度の高い順、文字の表記の長さが長い順、文字コード順のそれぞれに設定することができる。また、先の関連文書検索機能と同様に、出現頻度のカウント対象とする単語の品詞をユーザ入力により設定することができる。なお本実施例では、キーワード抽出プログラムが形態素解析において参照する辞書に登録されていない単語を新語として別途カウントすることができる。新語の他に、カタカナ表記のみの単語、カタカナ表記を含む単語、英字表記のみの単語、英字表記を含む単語、数字あるいは数字を含む単語(または数字として認識するのにふさわしい単語)、代名詞(彼,私,これ,それ…)、数字関連名詞(第1回,1年…)、時系列に関係する名詞(今日,明日…)などの名詞をカウント対象から除外あるいは算入することができる。とくに、数字関連名詞は、特定のイベントを示唆する場合があり、文書を特徴づける単語になり得る可能性が高い。もちろん、全く意味をなさない場合もある。カタカナ語や英字語は、造語や外来語などを含むため、これらを個別にカウントし提示することで、利用者が自身にとって未知の単語を知ることができる。
ブラウザが取り寄せたWebページを記述するHTMLを多角的に解析し、その解析結果を提示するHTML解析機能を備えている。本実施例では文書抽出機能、タグ表示機能、リンク提示機能を備えている。
キーワード抽出プログラムは、利用者に文書の言語構造を提示する機能として、文書中の漢字にルビを振るルビ機能と、全ての単語の読み方を平仮名にするかな変換機能、文書中の単語を品詞別に識別できるようにして表示する品詞識別表示機能、形態素解析結果から得られる単語を用いて、文節を切り出し、その文節毎にどの文節と、どの文節がどのような関係にあるのかを表示する係り受け関係表示機能を備えている。
上記実施例では、ブラウザがWebページを取り寄せた段階でそのページ中の全文書に対して形態素解析を行っていた。この例に限らず、たとえば、キーワード抽出プログラムは、Webページ中である単語が選択された段階で、形態素解析を行うようにしてもよい。そうすることで、単に閲覧だけを目的としてWebページを取り寄せた場合に、形態素解析処理の発生を可能な限りなくし、PCに余分な負荷を掛けないようにすることができる。
文書において、検索キーワードが抽出される範囲(キーワード抽出範囲)を指定するための操作方法について例示する。キーワード抽出範囲は、周知のドラッグ操作で任意の文字列を範囲指定し、その範囲内にある単語や複合語を検索キーワードに指定する、という方法がまず考えられる。また、文書中の任意の文字記載位置を指示した状態で、所定の操作を繰り返す回数によって複合語、文、文書というように、キーワード抽出範囲が連続する所定操作の回数に応じて順次拡大されていく方法も考えられる。
上記実施例では、PCにインストールされるキーワード抽出プログラムに、形態素解析機能や検索キーワードを検索エンジンに与える機能など、全ての機能などが含まれていた。この例に限らず、キーワード抽出プログラムは、サーバー・クライアント・システムにおけるクライアント・コンピュータとサーバー・コンピュータ間で連携動作するプログラムであってもよい。すなわち、PCをクライアント・コンピュータとし、そのクライアント・コンピュータにキーワード抽出プログラムのユーザインタフェースとして機能を担わせる。一方、クライアント・コンピュータと通信するサーバー・コンピュータには、形態素解析処理機能、およびその処理に使用する辞書などを実装しておく。そして、サーバー・コンピュータがクライアント・コンピュータにて表示中の文書を形態素解析する。
周知の通り、検索サイトでは、ブラウザから受け取った検索キーワードに対応するレコードとともに、検索エンジンに付帯するデータベースによりキーワードに対応付けされている広告コンテンツ(広告主が意図するWebサイトへのリンクが設定された広告テキストなど)を検索結果のWebページに表示する。
上述した要約機能では、ブラウザが現に表示しているWebページの要約文を提示していた。本実施例の情報検索支援プログラムによれば、さらに、表示中のWebページに設定されているハイパーリンクに基づいて取得可能な別のWebページについても要約文を提示するリンク先要約文提示機能を実現することができる。当該リンク先要約文提示機能では、ブラウザが現に利用者の閲覧に供しているWebページ(リンク元ページ)に別のWebページ(リンク先ページ)へのハイパーリンクが設定されているとき、リンク先ページを全文表示せず、当該リンク先ページの要約文だけを利用者に事前に提示する。
11 単語
12 品詞
16 文節境界判定テーブル
18,18b,18c 文節
30、80、90 ブラウザ画面
31 情報検索支援プログラム操作領域
32 情報検索支援プログラム表示画面
40a Webページの文書
40b リンクを再設定した文書
Claims (24)
- コンピュータにインストールされるプログラムであって、当該コンピュータに、
取得した文書の任意の文字記載位置を指示するユーザ入力を受け付け、当該文字記載位置にある文字の前後の文字を句点、あるいは読点に基づく文字列単位で抽出するとともに、当該抽出した文字列の記載箇所をキーワード抽出範囲として設定するキーワード抽出範囲設定ステップと、
前記キーワード抽出範囲の文字列を処理対象として形態素解析し、単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析ステップと、
前記文法情報に基づいて、前記処理対象の文字列から、単語、文節、文の各文字列単位を認識する文字列単位認識ステップと、
文字列単位を指定するユーザ入力に従って、前記処理対象の文字列を指定の文字列単位ごとに区分し、当該区分した文字列単位によって記述される文字列を検索キーワードに設定するキーワード設定ステップと、
所定のユーザ入力を受け付けて、設定した前記検索キーワードを所定のデータベースに照会し、当該データベースから返送されてきた照会結果を表示出力するキーワード照会ステップと、
を実行させることを特徴とする情報検索支援プログラム。 - 請求項1において、前記キーワード抽出範囲設定ステップでは、所定のユーザ入力を所定時間以内に連続して受け付けた回数に応じてキーワード抽出範囲の文字列範囲を設定することを特徴とする情報検索支援プログラム。
- コンピュータにインストールされるプログラムであって、当該コンピュータに、
処理対象として取得した文書を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析ステップと、
前記文法情報に基づいて、文書中で連続する文字列から、単語、文節、文の各文字列単位を認識する文字列単位認識ステップと、
前記文書をユーザ入力により指定された文字列単位ごとに区分し、当該区分した文字列単位の記載箇所をリンク対象箇所として識別可能にして表示するリンク対象設定ステップと、
前記リンク対象箇所に含まれる文字列を検索キーワードに設定するキーワード設定ステップと、
前記リンク対象箇所に前記検索キーワードを所定のデータベースに照会する旨のハイパーリンクを設定するリンク設定ステップと、
ユーザ入力により、あるリンク対象箇所に設定されたハイパーリンクが指示されると、当該ハイパーリンクに基づいて前記所定のデータベースから返送されてきた照会結果を表示出力する照会結果提示ステップと、
を実行させることを特徴とする情報検索支援プログラム。 - 請求項3において、
前記文書を構文解析して文を抽出し、当該文における係り受け関係を取得して管理する構文解析ステップを含み、
前記リンク対象設定ステップでは、前記文において、前後の文節が係り受けの関係にある場合、当該係り受け関係にある文節を連結した文字列の記載箇所をリンク対象箇所に設定し、
前記キーワード設定ステップでは、前記文において、ユーザ入力により指定された係り受け関係にある文字列を検索キーワードに設定する、
ことを特徴とする情報検索支援プログラム。 - 請求項1〜4のいずれかにおいて、前記キーワード設定ステップでは、用言類については終止形に変換して得た文字列を検索キーワードに設定することを特徴とする情報検索支援プログラム。
- 請求項1〜5のいずれかにおいて、文書に含まれる各単語の出現頻度を求める単語別出現頻度取得ステップと、ユーザ入力により出現頻度が高い順に所定数の単語を検索キーワードとしてデータベースに照会する重要語照会ステップとを含むことを特徴とする情報検索支援プログラム。
- 請求項1〜5のいずれかにおいて、ユーザ入力により、特定の品詞を前記検索キーワードに設定するキーワード品詞設定ステップを含むことを特徴とする情報検索支援プログラム。
- 請求項1〜7のいずれかにおいて、前記キーワード設定ステップでは、連続する名詞によって構成される文字列を複合名詞とし、当該複合名詞を一つの検索キーワードとして設定することを特徴とする情報検索支援プログラム。
- 請求項8において、前記キーワード設定ステップでは、ユーザ入力により指定された数で名詞を連続させて前記複合名詞を設定することを特徴とする情報検索支援プログラム。
- サーバー・クライアント・システムにおけるクライアント・コンピュータであって、
取得した文書の表示手段と、
形態素解析処理を実行するサーバー・コンピュータとの通信手段と、
所定のユーザ入力により、文字列単位の指定と、表示中の文書における任意の文字記載位置の指示とを受け付け、当該指示された文字記載位置にある文字の前後の文字を句点、あるいは読点に基づく文字列単位で抽出するとともに、当該抽出した文字列の記載箇所をキーワード抽出範囲として設定するキーワード抽出範囲設定手段と、
指定された前記文字列単位と、前記キーワード抽出範囲の文字列と、指示された前記文字記載位置とを含む解析依頼電文を、前記サーバー・コンピュータに送付する解析依頼電文送付手段と、
前記解析依頼電文を受け取った前記サーバー・コンピュータから検索キーワードを含む電文が返送されてくると、当該検索キーワードを所定のデータベースに照会して、その照会結果を表示出力する検索結果提示手段と、
を備えたことを特徴とする情報検索支援機能を有するコンピュータ。 - サーバー・クライアント・システムにおけるクライアント・コンピュータであって、
取得した文書の表示手段と、
形態素解析処理を実行するサーバー・コンピュータとの通信手段と、
所定のユーザ入力により、文字列単位の指定と、表示中の文書における任意の文字記載位置の指示とを受け付け、当該指示された文字記載位置にある文字の前後の文字を句点、あるいは読点に基づく文字列単位で抽出するとともに、当該抽出した文字列の記載箇所をキーワード抽出範囲として設定するキーワード抽出範囲設定手段と、
指定された前記文字列単位と、前記キーワード抽出範囲の文字列と、指示された前記文字記載位置とを含む解析依頼電文を、前記サーバー・コンピュータに送付する解析依頼電文送付手段と、
前記解析依頼電文を受け取った前記サーバー・コンピュータから返送されてくる検索キーワード照会結果を表示出力する検索結果提示手段と、
を備えたことを特徴とする情報検索支援機能を有するコンピュータ。 - 請求項10または11において、前記キーワード抽出範囲設定手段は、所定のユーザ入力を所定時間以内に連続して受け付けた回数に応じてキーワード抽出範囲の文字列範囲を設定することを特徴とする情報検索支援機能を有するコンピュータ。
- 請求項10に記載の情報検索支援機能を有するコンピュータをクライアント・コンピュータとして通信するサーバー・コンピュータであって、
当該クライアント・コンピュータから送付されてきた解析依頼電文に含まれる文字列を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析手段と、
前記文法情報に基づいて、前記文字列から、単語、文節、文の各文字列単位を認識する文字列単位認識手段と、
前記解析依頼電文に含まれる文字列単位の指定情報に従って、前記文字列を指定の文字列単位ごとに区分し、当該区分した文字列単位によって記述される文字列を検索キーワードに設定するキーワード設定手段と、
前記検索キーワードを含むとともに、当該キーワードを所定のデータベースに照会させる旨の指示を含んだキーワード照会電文を前記クライアント・コンピュータに返送する検索キーワード照会電文送付手段と
を備えたことを特徴とする情報検索支援機能を有するサーバー・コンピュータ。 - 請求項11に記載の情報検索支援機能を有するコンピュータをクライアント・コンピュータとして通信するサーバー・コンピュータであって、
当該クライアント・コンピュータから送付されてきた解析依頼電文に含まれる文字列を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析手段と、
前記文法情報に基づいて、前記文字列から、単語、文節、文の各文字列単位を認識する文字列単位認識手段と、
前記解析依頼電文に含まれる文字列単位の指定情報に従って、前記文字列を指定の文字列単位ごとに区分し、当該区分した文字列単位によって記述される文字列を検索キーワードに設定するキーワード設定手段と、
前記検索キーワードを所定のデータベースに照会して、その照会結果を前記クライアント・コンピュータに返送する照会結果返送手段と
を備えたことを特徴とする情報検索支援機能を有するサーバー・コンピュータ。 - 取得した文書の表示機能と、形態素解析処理を実行するサーバー・コンピュータとの通信機能とを備えたコンピュータにインストールされ、当該コンピュータに、
所定のユーザ入力により、文字列単位の指定と、表示中の文書における任意の文字記載位置の指示とを受け付け、当該指示された文字記載位置にある文字の前後の文字を句点、あるいは読点に基づく文字列単位で抽出するとともに、当該抽出した文の文字列記載箇所をキーワード抽出範囲として設定するキーワード抽出範囲設定ステップと、
指定された前記文字列単位と、前記キーワード抽出範囲の文字列と、指示された前記文字記載位置とを含む解析依頼電文を、前記サーバー・コンピュータに送付する解析依頼電文送付ステップと、
前記解析依頼電文を受け取った前記サーバー・コンピュータから検索キーワードを含む電文が返送されてくると、当該検索キーワードを所定のデータベースに照会して、その照会結果を表示出力する検索結果提示ステップと、
を実行させることを特徴とする情報検索支援プログラム。 - 取得した文書の表示機能と、形態素解析処理を実行するサーバー・コンピュータとの通信機能とを備えたコンピュータにインストールされ、当該コンピュータに、
所定のユーザ入力により、文字列単位の指定と、表示中の文書における任意の文字記載位置の指示とを受け付け、当該指示された文字記載位置にある文字の前後の文字を句点、あるいは読点に基づく文字列単位で抽出するとともに、当該抽出した文の文字列記載箇所をキーワード抽出範囲として設定するキーワード抽出範囲設定ステップと、
指定された前記文字列単位と、前記キーワード抽出範囲の文字列と、指示された前記文字記載位置とを含む解析依頼電文を、前記サーバー・コンピュータに送付する解析依頼電文送付ステップと、
前記解析依頼電文を受け取った前記サーバー・コンピュータから返送されてくる検索キーワード照会結果を表示出力する検索結果提示ステップと、
を実行させることを特徴とする情報検索支援プログラム。 - 請求項15または16において、前記キーワード抽出範囲設定ステップでは、所定のユーザ入力を所定時間以内に連続して受け付けた回数に応じてキーワード抽出範囲の文字列範囲を設定することを特徴とする情報検索支援プログラム。
- ネットワークを介してアクセスしてきたクライアント・コンピュータと通信可能なサーバー・コンピュータにインストールされ、当該サーバー・コンピュータに、
クライアント・コンピュータから送付されてきた解析依頼電文に含まれる文字列を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析ステップと、
前記文法情報に基づいて、前記文字列から、単語、文節、文の各文字列単位を認識する文字列単位認識ステップと、
前記解析依頼電文に含まれる文字列単位の指定情報に従って、前記文字列を指定の文字列単位ごとに区分し、当該区分した文字列単位によって記述される文字列を検索キーワードに設定するキーワード設定ステップと、
前記検索キーワードを含むとともに、当該キーワードを所定のデータベースに照会させる旨の指示を含んだキーワード照会電文を前記クライアント・コンピュータに返送する検索キーワード照会電文送付ステップと、
を実行させることを特徴とする情報検索支援プログラム。 - ネットワークを介してアクセスしてきたクライアント・コンピュータと通信可能なサーバー・コンピュータにインストールされ、当該サーバー・コンピュータに、
クライアント・コンピュータから送付されてきた解析依頼電文に含まれる文字列を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析ステップと、
前記文法情報に基づいて、前記文字列から、単語、文節、文の各文字列単位を認識する文字列単位認識ステップと、
前記解析依頼電文に含まれる文字列単位の指定情報に従って、前記文字列を指定の文字列単位ごとに区分し、当該区分した文字列単位によって記述される文字列を検索キーワードに設定するキーワード設定ステップと、
前記検索キーワードを所定のデータベースに照会して、その照会結果を前記クライアント・コンピュータに返送する照会結果返送ステップと、
を実行させることを特徴とする情報検索支援プログラム。 - ブラウザを実装したコンピュータにインストールされ、当該コンピュータに、
ブラウザが取得したWebページに設定されている別のWebページへのハイパーリンクの表示位置を指示するユーザ入力を受け付けて、当該別のWebページの記載内容を要約文にして表示出力する処理を実行させる情報検索支援プログラムであって、
前記、別のWebページに含まれる文書を利用者に向けて表示出力せずに取得するリンク先文書取得ステップと、
当該取得した文書において、句点や読点、あるいは改行に基づく文字列単位を文として認識するとともに、当該認識した文について、所定数以上の文字を含む文を解析対象文として特定する解析対象文特定ステップと、
当該特定した解析対象文を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析ステップと、
前記文法情報に基づいて、全ての前記解析対象文に含まれる所定の品詞の単語を計数対象単語として抽出するとともに、各計数対象単語の出現回数を取得する単語出現回数取得ステップと、
各計数対象単語の出現回数を単語別ポイントとするとともに、一つの解析対象文に含まれる計数対象単語のそれぞれの単語別ポイントの合計値をその文の評価値として、各解析対象文の評価値を取得する評価値取得ステップと、
最も高い評価値に該当する解析対象文を要約文として抽出する要約文抽出ステップと、
要約文抽出ステップにより抽出した要約文をブラウザが取得したWebページの文書とは別の表示領域に表示出力する要約文表示ステップと
を実行させる情報検索支援プログラム。 - ネットワークを介してアクセスしてきたブラウザと通信可能なサーバー・コンピュータにインストールされ、当該サーバー・コンピュータに、
ブラウザから送付されてきたURLに従ってWebページを取得するとともに、当該Webページに含まれる文書において、句点や読点、あるいは改行に基づく文字列単位を文として認識し、当該認識した文について、所定数以上の文字を含む文を解析対象文として特定する解析対象文特定ステップと、
当該特定した解析対象文を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析ステップと、
前記文法情報に基づいて、全ての前記解析対象文に含まれる所定の品詞の単語を計数対象単語として抽出するとともに、各計数対象単語の出現回数を取得する単語出現回数取得ステップと、
各計数対象単語の出現回数を単語別ポイントとするとともに、一つの解析対象文に含まれる計数対象単語のそれぞれの単語別ポイントの合計値をその文の評価値として、各解析対象文の評価値を取得する評価値取得ステップと、
最も高い評価値に該当する解析対象文を要約文として抽出する要約文抽出ステップと、
要約文抽出ステップにより抽出した要約文を前記ブラウザに返送する要約文返送ステップと、
を実行させる情報検索支援プログラム。 - ブラウザを実装し、当該ブラウザが取得したWebページに設定されている別のWebページへのハイパーリンクの表示位置を指示するユーザ入力を受け付けて、当該別のWebページの記載内容を要約文にして表示出力するコンピュータであって、
前記、別のWebページに含まれる文書を利用者に向けて表示出力せずに取得するリンク先文書取得手段と、
当該取得した文書において、句点や読点、あるいは改行に基づく文字列単位を文として認識するとともに、当該認識した文について、所定数以上の文字を含む文を解析対象文として特定する解析対象文特定手段と、
当該特定した解析対象文を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析手段と、
前記文法情報に基づいて、全ての前記解析対象文に含まれる所定の品詞の単語を計数対象単語として抽出するとともに、各計数対象単語の出現回数を取得する単語出現回数取得手段と、
各計数対象単語の出現回数を単語別ポイントとするとともに、一つの解析対象文に含まれる計数対象単語のそれぞれの単語別ポイントの合計値をその文の評価値として、各解析対象文の評価値を取得する評価値取得手段と、
最も高い評価値に該当する解析対象文を要約文として抽出する要約文抽出手段と、
要約文抽出手段が抽出した要約文をブラウザが取得したWebページの文書とは別の表示領域に表示出力する要約文表示手段と、
を備えたことを特徴とする情報検索支援機能を有するコンピュータ。 - サーバー・クライアント・システムにおけるサーバー・コンピュータであって、
ネットワークを介してアクセスしてきたブラウザと通信する手段と、
ブラウザから送付されてきたURLに従ってWebページを取得するとともに、当該Webページに含まれる文書において、句点や読点、あるいは改行に基づく文字列単位を文として認識し、当該認識した文について、所定数以上の文字を含む文を解析対象文として特定する解析対象文特定手段と、
当該特定した解析対象文を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析手段と、
前記文法情報に基づいて、全ての前記解析対象文に含まれる所定の品詞の単語を計数対象単語として抽出するとともに、各計数対象単語の出現回数を取得する単語出現回数取得手段と、
各計数対象単語の出現回数を単語別ポイントとするとともに、一つの解析対象文に含まれる計数対象単語のそれぞれの単語別ポイントの合計値をその文の評価値として、各解析対象文の評価値を取得する評価値取得手段と、
最も高い評価値に該当する解析対象文を要約文として抽出する要約文抽出手段と、
要約文抽出手段が抽出した要約文を前記ブラウザに返送する要約文返送手段と、
を備えたことを特徴とする情報検索支援機能を有するサーバー・コンピュータ。 - 請求項1〜9のいずれか、または請求項15〜21のいずれかに記載の情報検索支援プログラムを記憶したプログラム格納媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006163954A JP4934355B2 (ja) | 2005-08-30 | 2006-06-13 | 情報検索支援プログラム、情報検索支援機能を有するコンピュータ、サーバー・コンピュータ、プログラム格納媒体 |
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005248779 | 2005-08-30 | ||
JP2005248779 | 2005-08-30 | ||
JP2006062647 | 2006-03-08 | ||
JP2006062647 | 2006-03-08 | ||
JP2006163954A JP4934355B2 (ja) | 2005-08-30 | 2006-06-13 | 情報検索支援プログラム、情報検索支援機能を有するコンピュータ、サーバー・コンピュータ、プログラム格納媒体 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011130257A Division JP2011181109A (ja) | 2005-08-30 | 2011-06-10 | 情報検索支援プログラム、情報検索支援機能を有するコンピュータ、サーバー・コンピュータ、プログラム格納媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007272859A true JP2007272859A (ja) | 2007-10-18 |
JP4934355B2 JP4934355B2 (ja) | 2012-05-16 |
Family
ID=38675561
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006163954A Active JP4934355B2 (ja) | 2005-08-30 | 2006-06-13 | 情報検索支援プログラム、情報検索支援機能を有するコンピュータ、サーバー・コンピュータ、プログラム格納媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4934355B2 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010100799A1 (ja) * | 2009-03-05 | 2010-09-10 | ソニー株式会社 | 情報処理装置、情報処理方法、プログラムおよび情報処理システム |
JP2013025441A (ja) * | 2011-07-19 | 2013-02-04 | Yahoo Japan Corp | 情報処理装置、システム、方法及びプログラム |
WO2015141101A1 (ja) * | 2014-03-20 | 2015-09-24 | 日本電気株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
CN109783589A (zh) * | 2018-12-13 | 2019-05-21 | 中国平安人寿保险股份有限公司 | 电子地图解析地址的方法、装置及存储介质 |
JP2020013535A (ja) * | 2018-07-06 | 2020-01-23 | 株式会社日立システムズ | 情報処理装置、検査評価システムおよび検査評価方法 |
US11481447B2 (en) * | 2019-09-20 | 2022-10-25 | Fujifilm Business Innovation Corp. | Information processing device and non-transitory computer readable medium |
CN115391495A (zh) * | 2022-10-28 | 2022-11-25 | 强企宝典(山东)信息科技有限公司 | 在中文语境中检索关键词的方法、装置及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000311040A (ja) * | 1998-10-19 | 2000-11-07 | Toshihiko Okabe | データ引き渡し装置、データ引き渡し方法、及びデータ引き渡しプログラムを記録した記録媒体 |
JP2002197104A (ja) * | 2000-12-27 | 2002-07-12 | Communication Research Laboratory | 情報検索処理装置,情報検索処理方法および情報検索処理プログラムを記録した記録媒体 |
JP2003108583A (ja) * | 2001-09-27 | 2003-04-11 | Seiko Epson Corp | 言語文を用いた検索装置、検索システム、検索方法、プログラム、および記録媒体 |
-
2006
- 2006-06-13 JP JP2006163954A patent/JP4934355B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000311040A (ja) * | 1998-10-19 | 2000-11-07 | Toshihiko Okabe | データ引き渡し装置、データ引き渡し方法、及びデータ引き渡しプログラムを記録した記録媒体 |
JP2002197104A (ja) * | 2000-12-27 | 2002-07-12 | Communication Research Laboratory | 情報検索処理装置,情報検索処理方法および情報検索処理プログラムを記録した記録媒体 |
JP2003108583A (ja) * | 2001-09-27 | 2003-04-11 | Seiko Epson Corp | 言語文を用いた検索装置、検索システム、検索方法、プログラム、および記録媒体 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010100799A1 (ja) * | 2009-03-05 | 2010-09-10 | ソニー株式会社 | 情報処理装置、情報処理方法、プログラムおよび情報処理システム |
JP2010205180A (ja) * | 2009-03-05 | 2010-09-16 | Sony Corp | 情報処理装置、情報処理方法、プログラムおよび情報処理システム |
CN102334117A (zh) * | 2009-03-05 | 2012-01-25 | 索尼公司 | 信息处理设备、信息处理方法、程序以及信息处理系统 |
US8589781B2 (en) | 2009-03-05 | 2013-11-19 | Sony Corporation | Information processing device, information processing method, program, and information processing system |
JP2013025441A (ja) * | 2011-07-19 | 2013-02-04 | Yahoo Japan Corp | 情報処理装置、システム、方法及びプログラム |
US10067921B2 (en) | 2014-03-20 | 2018-09-04 | Nec Corporation | Information processing apparatus, information processing method, and information processing program |
WO2015141101A1 (ja) * | 2014-03-20 | 2015-09-24 | 日本電気株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
JP2020013535A (ja) * | 2018-07-06 | 2020-01-23 | 株式会社日立システムズ | 情報処理装置、検査評価システムおよび検査評価方法 |
JP7229761B2 (ja) | 2018-07-06 | 2023-02-28 | 株式会社日立システムズ | 情報処理装置、検査評価システムおよび検査評価方法 |
CN109783589A (zh) * | 2018-12-13 | 2019-05-21 | 中国平安人寿保险股份有限公司 | 电子地图解析地址的方法、装置及存储介质 |
CN109783589B (zh) * | 2018-12-13 | 2023-07-25 | 中国平安人寿保险股份有限公司 | 电子地图解析地址的方法、装置及存储介质 |
US11481447B2 (en) * | 2019-09-20 | 2022-10-25 | Fujifilm Business Innovation Corp. | Information processing device and non-transitory computer readable medium |
CN115391495A (zh) * | 2022-10-28 | 2022-11-25 | 强企宝典(山东)信息科技有限公司 | 在中文语境中检索关键词的方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
JP4934355B2 (ja) | 2012-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7421386B2 (en) | Full-form lexicon with tagged data and methods of constructing and using the same | |
US6381593B1 (en) | Document information management system | |
Witten et al. | Text mining in a digital library | |
CN101887414B (zh) | 对包含图像符号的文本消息传达的评价自动打分的服务器 | |
KR100815215B1 (ko) | 웹사이트 통합 검색 장치 및 방법 | |
Ekbal et al. | A web-based Bengali news corpus for named entity recognition | |
US20040029085A1 (en) | Summarisation representation apparatus | |
JP4934355B2 (ja) | 情報検索支援プログラム、情報検索支援機能を有するコンピュータ、サーバー・コンピュータ、プログラム格納媒体 | |
US20100076984A1 (en) | System and method for query expansion using tooltips | |
JP2002197104A (ja) | 情報検索処理装置,情報検索処理方法および情報検索処理プログラムを記録した記録媒体 | |
JP2011181109A (ja) | 情報検索支援プログラム、情報検索支援機能を有するコンピュータ、サーバー・コンピュータ、プログラム格納媒体 | |
Pham et al. | Information extraction for Vietnamese real estate advertisements | |
JP2002189721A (ja) | Webページ検索システム及び翻訳システム | |
Machado et al. | Universal mobile information retrieval | |
JP2002189744A (ja) | Webページ検索システム | |
JP2008015611A (ja) | 情報検索支援プログラム、情報検索支援装置 | |
CN112380337A (zh) | 基于富文本的高亮方法及装置 | |
Sankaravelayuthan et al. | English to tamil machine translation system using parallel corpus | |
KR100923936B1 (ko) | 일본어 사전 서비스에 있어서 2개 단어 이상의 쿼리, 한글쿼리 또는 일반적인 쿼리의 입력 시 검색 결과를 제공하는방법 및 시스템 | |
JP2004157965A (ja) | 検索支援装置、検索支援方法、プログラムおよび記録媒体 | |
Selvadurai | A natural language processing based web mining system for social media analysis | |
US20030237042A1 (en) | Document processing device and document processing method | |
Pantelia | ‘Noûs, INTO CHAOS’: THE CREATION OF THE THESAURUS OF THE GREEK LANGUAGE | |
Milić-Frayling | Text processing and information retrieval | |
JP2003099429A (ja) | 用語集生成装置及び用語集生成プログラム並びに用語集検索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090520 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110408 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110419 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110610 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120124 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120220 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4934355 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150224 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |