JP4587236B2 - 情報検索装置、情報検索方法、およびプログラム - Google Patents

情報検索装置、情報検索方法、およびプログラム Download PDF

Info

Publication number
JP4587236B2
JP4587236B2 JP2008216509A JP2008216509A JP4587236B2 JP 4587236 B2 JP4587236 B2 JP 4587236B2 JP 2008216509 A JP2008216509 A JP 2008216509A JP 2008216509 A JP2008216509 A JP 2008216509A JP 4587236 B2 JP4587236 B2 JP 4587236B2
Authority
JP
Japan
Prior art keywords
word
text
extracted
search
general
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008216509A
Other languages
English (en)
Other versions
JP2010055159A (ja
Inventor
憲和 松村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Biglobe Inc
Original Assignee
Biglobe Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Biglobe Inc filed Critical Biglobe Inc
Priority to JP2008216509A priority Critical patent/JP4587236B2/ja
Priority to US12/543,273 priority patent/US8793259B2/en
Publication of JP2010055159A publication Critical patent/JP2010055159A/ja
Application granted granted Critical
Publication of JP4587236B2 publication Critical patent/JP4587236B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報検索装置、情報検索方法、およびコンピュータに実行させるためのプログラムに関する。
WEBページやブログから情報を得るために検索を利用することは常識になりつつある(特許文献1参照)。その検索において、ユーザは、AND、OR、NOT条件を利用して、検索式を作成する。そして、検索でヒットした原文を参照して、検索対象の情報が表示されていなければ、検索式を修正する。
特開2004−287827号公報
検索において、ユーザが求める内容のページのみを検索してくることは難しい。特に、関係のない記事が検索結果に含まれることは多くある。例えば、「ノート」と検索をすれば、文房具のノートや、ノートパソコン、自動車の車種名(ノート)、映画・アニメの名前(○○ノート)など、検索対象とする「ノート」とは異なるジャンルからも多く検索されてしまう。
これら複数の話題を混在させないように検索するためには、ユーザが自分で、AND、OR、NOT条件を利用した検索式を作成すればよいが、検索について専門知識に長けている人(以下では、エキスパートと称する)でないと検索式を作成するのは非常に困難である。
また、エキスパートであっても、様々な検索条件式で実際に検索をかけて、原文を閲覧する、関係のない記事が多ければ、検索式を作りなおすといったトライアンドエラーを繰り返さないと作成できない。
本発明は上述したような技術が有する問題点を解決するためになされたものであり、情報検索のための式を作成する際にユーザの負荷を軽減する情報検索装置、情報検索方法、および、コンピュータに実行させるためのプログラムを提供することを目的とする。
上記目的を達成するための本発明の情報検索装置は、
検索のためのキーワードが入力されると、該キーワードを含むテキストを格納部に記憶されているテキストから収集し、収集した第1のテキストの名詞を抽出し、前記キーワードと部分一致する名詞を第1の単語として決定し、前記第1のテキストのうち該第1の単語を含む第2のテキストを抽出し、該第2のテキストから名詞、動詞または形容詞の少なくとも1つである単語を抽出し、抽出した単語の使用回数をカウントし、該使用回数が上位所定のランク内である単語を前記第1の単語の関連語である第2の単語に決定し、前記第1の単語および前記第2の単語を出力する制御部を有する。
また、本発明の情報検索方法は、情報を記録するための格納部と接続された情報検索装置の制御部による情報検索方法であって、
前記制御部は、検索のためのキーワードが入力されると、該キーワードを含むテキストを格納部に記憶されているテキストから収集し、
前記制御部は、収集した第1のテキストの名詞を抽出し、前記キーワードと部分一致する名詞を第1の単語として決定し、
前記制御部は、前記第1のテキストのうち該第1の単語を含む第2のテキストを抽出し、
前記制御部は、前記第2のテキストから名詞、動詞または形容詞の少なくとも1つである単語を抽出し、
前記制御部は、前記第2のテキストから抽出した単語の使用回数をカウントし、
前記制御部は、前記第2のテキストから抽出した単語の前記使用回数が上位所定のランク内である単語を前記第1の単語の関連語である第2の単語に決定し、
前記制御部は、前記第1の単語および前記第2の単語を出力するものである。
さらに、本発明のプログラムは、コンピュータに実行させるためのプログラムであって、
検索のためのキーワードが入力されると、該キーワードを含むテキストを格納部に記憶されているテキストから収集し、
収集した第1のテキストの名詞を抽出し、前記キーワードと部分一致する名詞を第1の単語として決定し、
前記第1のテキストのうち該第1の単語を含む第2のテキストを抽出し、
前記第2のテキストから名詞、動詞または形容詞の少なくとも1つである単語を抽出し、
前記第2のテキストから抽出した単語の使用回数をカウントし、
前記第2のテキストから抽出した単語の前記使用回数が上位所定のランク内である単語を前記第1の単語の関連語である第2の単語に決定し、
前記第1の単語および前記第2の単語を出力する処理を前記コンピュータに実行させるものである。
本発明によれば、検索式作成のヒントとなる候補語が表示されるため、ユーザにとって検索式作成の際の工数を削減でき、ユーザの負荷が軽減する。
(第1の実施形態)
本実施形態の情報検索方法を実施するための構成を説明する。
図1は本実施形態の情報検索方法を説明するためのブロック図である。図1に示すように、ネットワーク100を介して検索サーバ10および情報処理装置20が接続されている。検索サーバ10は情報検索装置であり、情報処理装置20はユーザが情報検索のために用いる端末である。ネットワーク100には、検索対象となる情報が記憶部31に格納され、かつ、ネットワーク上に公開可能にされたブログサーバ30が接続されている。この記憶部31は、本発明の格納部の一例である。
検索サーバ10は、記憶部11および制御部12を有する。記憶部11にはテキストから単語を抽出するためのアプリケーションソフトウェアである言語解析エンジンが予め登録されている。言語解析エンジンは、記述されている文章(テキスト)を解析して、品詞付きの単語に分解する。制御部12は、プログラムにしたがって所定の処理を実行するCPU(Central Processing Unit)(不図示)と、プログラムを格納するためのメモリ(不図示)とを有する。
制御部12は、ブログ抽出手段111、分解手段112、比較手段113および出力手段114を有する。CPUがプログラムを実行することにより、ブログ抽出手段111、分解手段112、比較手段113および出力手段114が検索サーバ10に仮想的に構成される。各手段の動作の詳細については情報検索方法の手順で説明する。
情報処理装置20は、ユーザが指示を入力するための入力手段21と、検索途中の結果を表示するための表示手段22と、ネットワークを介して検索サーバ10からデータを受信する受信手段23と、ネットワークを介して検索サーバ10にデータを送信する送信手段24と、各部を制御する制御手段25と、外部と送受信する情報が格納される記憶手段26とを有する。記憶手段26には、検索のための画面を表示するためのアプリケーションソフトウェアであるブラウザが予め登録されている。
なお、ネットワーク100に接続されるサーバおよび情報処理装置には装置毎に異なる識別子が予め付与されており、検索サーバ10と情報処理装置20との間でやり取りされるデータには、そのデータの送信先の装置および送信元を示す装置のそれぞれの識別子が添付されている。
次に、本実施形態の検索サーバ10による情報検索方法を説明する。
図2は本実施形態の情報検索方法の一例を示すシーケンス図である。
ユーザが情報処理装置20の入力手段21を操作し、キーワードを入力すると、制御手段25は、キーワードの情報を含む検索要求信号を送信手段24を介して検索サーバ10に送信する(ステップ101)。
検索サーバ10がネットワーク100を介して検索要求信号を情報処理装置20から受信すると、ブログ抽出手段111は、検索要求信号からキーワードを読み出し、キーワードから検索式1を作成し(ステップ102)、ネットワーク100上のブログサーバ30に記憶されている検索対象のブログに対し、キーワードが含まれるブログを検索し(ステップ103)、キーワードを含むブログを抽出する(ステップ104)。以下では、キーワードを含むブログを「含有ブログ」と称する。
分解手段112は、ブログ抽出手段111にて抽出された含有ブログの題名や内容等の文章を品詞に分解し、分解された品詞の中から名詞を抽出し、抽出した名詞毎に使用されている回数を数える。これを全ての含有ブログに対して実行する。この処理は、記憶部11に登録された言語解析エンジンを実行することで行われる。
比較手段113は、分解手段112で抽出された名詞と、キーワードとを比較し、キーワードと部分一致する名詞を単語Aとして、使用回数とともにキーワードに関連付けして、記憶部11に格納する(ステップ105)。単語Aは、完全一致したものや一致しないものは含まれない。単語Aは表記上キーワードに近い単語であることから、単語Aを「表記ゆれ語」と称する。
また、比較手段113は、キーワードと比較した際に、部分的にも一致しない名詞を単語Bとして、キーワードに関連付けして記憶部11に格納する(ステップ105)。単語Bは、キーワードに対して部分的にも一致していないが、キーワードに関連する単語であることから、「関連語」と称する。
次に、単語Aに対する関連語である単語Cを抽出するために、検索サーバ10は、以下の動作を実行する。単語Cは、「単語Aの関連語」に相当する。
ブログ抽出手段111は、ある既定数より使用回数が多いもしくはある既定数より高い順位の単語Aを記憶部11から読出し、検索式1と単語Aとから検索式2を作成し(ステップ106)、含有ブログ(もしくは検索対象のブログ)に対して、記憶部11に格納された単語Aで検索し、単語Aを含むブログを抽出する(ステップ107)。分解手段112は、ブログ抽出手段111にて抽出された単語Aを含む含有ブログの題名や内容等の文章を品詞に分解し、分解された品詞(他に動詞または形容詞が含まれても良いが説明を簡単にするため名詞として説明する)の中から名詞を抽出し、数量をカウントする。比較手段113は、抽出された名詞と、キーワードまたは単語Aとを比較し、一致しない名詞を単語Cとして、単語Aに関連付けして記憶部11に格納する(ステップ108)。
出力手段114は、単語Aと、単語Aに関連づけされた、ある既定数より使用回数が多いもしくはある既定数より高い順位の単語Cとを記憶部11から読出し、単語Aを検索語に追加するかしないかを入力する追加要否欄を付加して、検索語確認画面データとして、情報処理装置20に送信する(ステップ109)。
図3は本実施形態の検索語確認画面の一例を示す図である。図3に示すように、単語Aと、単語Aに関連する単語Cと、単語Aを検索語に追加するか否かの追加要否の入力欄(以下では、追加要否欄と称する)とが横一列に並んで表示されている。追加要否欄は、検索語に追加する場合の「検索語に追加」と、検索語から除外する場合の「検索に不要」との2つの欄を含む。
図3に示す表の2行目には、左から順に単語Aの「XYZ」、単語Cの「ghi( )、jkl( )、・・・」、そして、追加要否欄が表示されている。3行目には、左から順に単語Aの「UVW」、単語Cの「mno( )、pqr( )、・・・」、そして、2行目と同様に、追加要否欄が表示されている。図3では省略しているが、単語Cの( )内には、その単語Cがブログで使用されている回数が表示される。追加要否欄には、チェック印や丸印などが記入される。
情報処理装置20の受信手段23が検索サーバ10を介して検索語確認画面データを受信すると、制御手段25が、検索語確認画面データに基づいた検索語確認画面を表示手段22に表示させる(ステップ110)。
ユーザは、検索語確認画面を見て、列挙された単語Aのうち、検索語に追加したい単語があれば、入力手段21を操作して、その行の追加要否欄の「検索語に追加」をチェックする。反対に、検索語から除外したい単語があれば、入力手段21を操作して、その行の追加要否欄の「検索に不要」をチェックする。検索に追加したい単語、検索から除外したい単語が複数あれば、複数チェックしてもよい。
上述のようにしてユーザが入力手段21を操作して、指定した単語Aの検索語への追加または検索語からの除外の指示を入力し、送信指示を入力すると、情報処理装置20は、ユーザの指示内容に対応して、指定された単語Aを検索語に追加する旨のフラグまたは追加しない旨のフラグを付加した検索語回答データを検索サーバ10に送信手段24を介して送信する。
検索サーバ10のブログ抽出手段111は、情報処理装置20から検索語回答データを受信すると、検索語回答データの情報に基づいて、検索語に追加する旨のフラグの単語AはORに追加し、検索語に追加しない旨のフラグの単語AはNOTに追加して、検索式(検索式3)を作成する(ステップ112)。そして、含有ブログ(もしくは検索対象のブログ)に対して、検索式3で検索し(ステップ113)、ブログを抽出する。検索式はキーワードに関連付けして記憶部11に格納する。
分解手段112は、ブログ抽出手段111にて抽出されたブログの題名や内容等の文章を品詞に分解し、分解された品詞の中から名詞を抽出し、数量をカウントする。
比較手段113は、抽出された名詞と、キーワード、追加された単語Aとを比較し、部分的にも一致しない名詞を単語E(検索後の関連語)として、キーワードに関連付けして記憶部11に格納する(ステップ114)。出力手段114は、単語Eと使用回数とを含む関連語画面データを情報処理装置20に送信する(ステップ115)。
情報処理装置20の受信手段23が検索サーバ10から関連語画面データを受信すると、制御手段25は、関連語画面データに基づいて、単語Eを使用回数の大きさに比例した大きさのフォントサイズで表示手段22に関連語画面を表示させる(ステップ116)。
ユーザは、関連語画面を見て、検索対象に関連していない単語が含まれていると判断すると、検索し直すために入力手段21を操作して、検索語確認画面に戻る旨の指示を入力する。制御手段25は、検索語確認画面に戻る旨の指示が入力されると、検索語確認画面に戻ることを要求する信号である戻り要求信号を検索サーバ10に送信する(ステップ117)。検索サーバ10は、情報処理装置20から受信した信号が戻り要求信号であると判定すると(ステップ118)、ステップ109に戻り、出力手段114が検索語確認画面データを情報処理装置20に送信する。
一方、ユーザは、関連語画面を見て、検索対象に関連する単語だけ画面に表示されていると判断すると、検索式の実行を指示するために入力手段21を操作して、検索実行の指示を入力する。制御手段25は、検索実行の指示が入力されると、検索式の確定を要求する旨の信号である確定要求信号を検索サーバ10に送信する(ステップ117)。検索サーバ10は、情報処理装置20から受信した信号が確定要求信号であると判定すると(ステップ118)、ステップ112で作成した検索式を実行して対象のブログを抽出し(ステップ119)、検索して抽出したブログの文章が含まれる検索後画面データを情報処理装置20に送信する(ステップ120)。情報処理装置20は、検索サーバ10から検索後画面データを受信すると、検索後画面を表示する(ステップ121)。
NEC製のサーバ「Express5800」の記事を検索する場合について説明する。なお、下記ステップは図2のフローチャートに示したものである。
図4は検索のためのキーワードの入力画面の一例を示す図である。ユーザが情報処理装置20の入力手段21を操作して検索要求する旨の指示を入力すると、図4に示す検索初期画面が表示手段22に表示される。ここでは、情報処理装置20の記憶手段26に登録されているブラウザの初期画面にキーワード入力画面があるものとしているが、初期画面を検索サーバ10から取得するようにしてもよい。
ユーザが入力手段21を操作して、図4に示すキーワード入力欄に「express」、「エクスプレス」、「えくすぷれす」の3つの単語を入力する。その後、図4に示す「次へ」のボタンが選択されると、情報処理装置20は3つのキーワードを含む検索要求信号を検索サーバ10に送信する(ステップ101)。
検索サーバ10は、情報処理装置20から検索要求信号を受信すると、検索要求信号からキーワードを読み出し、対象ブログを抽出するための、次の検索式1を作成する(ステップ102)。
express or エクスプレス or えくすぷれす・・・式1
検索サーバ10は、ネットワーク100上で公開されているブログから、検索式1により含有ブログを抽出する。
図5は含有ブログの一例を示す図である。図5に示す含有ブログはNECがネットワーク上で公開しているニュース記事である。検索サーバ10は、この含有ブログの題名や内容等の文章を品詞に分解する。題名と内容のそれぞれについて分解処理すると、題名:「新製品/情報」となり、内容:「・・・/×月/×日/、/NEC/は/Express5800/サーバ/の/新製品/を/発表しました/。/今回/の/特徴/は、/PC/と/・・・」となる。
続いて、検索サーバ10は、分解された品詞の中から名詞を抽出する。抽出された名詞は、「新製品、情報、NEC、Express5800、サーバ、PC、・・・」となる。さらに、上述のようにして分解処理した名詞のそれぞれについて、図5に示した含有ブログ内で使用されている回数を数える。その結果は、各名詞の使用回数を( )に示すと、「新製品(2)、情報(1)、NEC(1)、Express5800(1)、サーバ(1)、PC(1)、・・・」であった。
検索サーバ10は、検索式1で抽出した含有ブログの全てに対して、各名詞の使用回数を数える。結果は、「Express5800(100)、NEC(100)、つくばエクスプレス(90)、サーバ(85)、電車(85)、秋葉原(65)、エクスプレス予約(60)、新幹線(60)、PC(50)、特急(40)、電車(40)、TSUKUBA(30)、・・・」となった。なお、「つくばエクスプレス」および「新幹線」は登録商標である。
検索サーバ10は、抽出した名詞とキーワードとを比較し、キーワードと部分一致する名詞を単語Aとする。単語Aは、「Express5800(100)、つくばエクスプレス(90)、エクスプレス予約(60)、・・・」となる。ここでは、説明を簡単にするために、使用回数の多い上位3つを単語Aとする。
一方、単語Bは、上述のようにして抽出した名詞から単語Aを除いたものであるから、「NEC(100)、サーバ(85)、電車(85)、秋葉原(65)、新幹線(60)、PC(50)、特急(40)、電車(40)、TSUKUBA(30)、・・・」となる。
ステップ106で、検索サーバ10は、検索式1と単語Aを掛け合わせた、次の3つの検索式2を作成する。
(express or エクスプレス or えくすぷれす)and Express5800・・・式2−1
(express or エクスプレス or えくすぷれす)and つくばエクスプレス・・・式2−2
(express or エクスプレス or えくすぷれす)and エクスプレス予約・・・式2−3
検索サーバ10は、式2−1により抽出した全ての含有ブログに対して、単語Aを求めたときと同様にして、名詞を抽出し、名詞毎の使用回数を求める。その結果、使用回数の多いものから順に並べると、「NEC(100)、サーバ(85)、PC(50)、・・・」となった。これらが、“Express5800”の関連語である単語Cとなる(ステップ108)。同様にして、式2−2により抽出した全ての含有ブログから、“つくばエクスプレス”の関連語である単語Cが「電車(85)、秋葉原(65)、TSUKUBA(30)・・・」と求まる。式2−3により抽出した全ての含有ブログから、“エクスプレス予約”の関連語である単語Cが「新幹線(60)、特急(40)、電車(40)、・・・」と求まる。
ステップ109で、検索サーバ10は、単語Aと、ある既定数より高い順位の単語Cと、単語Aを検索語に追加するか否かを指定するための追加要否欄を付加した画面のデータである検索語確認画面データを情報処理装置20に送信する。
図6は情報処理装置に表示される検索語確認画面の一例を示す図である。
図6に示す表の1列目には、単語A“Express5800”、“つくばエクスプレス”および“エクスプレス予約”が上から順に記述されている。2列目には、各単語Aに対応する単語Cが記述されている。ここでは、単語Cとして、使用回数が上位3つの単語まで列挙されている。例えば、1行目の単語A“Express5800”の単語Cとして、NEC、サーバ、およびPCの3つが挙げられている。
さらに、各行の3列目および4列目に追加要否欄が設けられている。3列目は単語Aを検索語に追加したい場合の追加「要」の欄であり、4列目は単語Aを検索語から除外したい場合の追加「否」の欄である。ユーザは、単語Aを検索語に追加したい場合には、追加「要」の欄に印を付け、その反対に単語Aを検索語から除外したい場合には追加「否」の欄に印を付ける。ユーザは、単語Cを参照して単語Aを検索語に追加すべきか否かを判断すればよい。
図6に示す例では、“Express5800”は追加「要」の欄に丸印が付けられ、“つくばエクスプレス”および“エクスプレス予約”は追加「否」の欄に丸印が付けられている。
検索サーバ10は、検索語確認画面に図6に示すような追加要否の情報が付加された検索語回答データを情報処理装置20から受信すると、検索語に追加する単語A“Express5800”を検索式1のORに追加し、さらに、検索語に追加しない単語A“つくばエクスプレス”および“エクスプレス予約”をその検索式のNOTに追加して、追加要否の情報を反映した次の検索式3を作成する(ステップ112)。
(express or エクスプレス or えくすぷれす or Express5800)not(つくばエクスプレス or エクスプレス予約)・・・式3
検索サーバ10は、式3により抽出した全ての含有ブログに対して、単語Aを求めたときと同様にして、名詞を抽出し、名詞毎の使用回数を求める。その結果、使用回数の多いものから順に並べると、「NEC(100)、サーバ(85)、PC(50)、・・・」となった。これらが、検索後の関連語である単語Eとなる(ステップ114)。
ステップ115で、検索サーバ10は、単語Eおよびその使用回数ならびに検索式3の情報を含む関連語画面データを情報処理装置20に送信する。情報処理装置20は、検索サーバ10から関連語画面データを受け取ると、関連語画面データに基づいて、単語Eをその使用回数の値の大きさに比例した大きさのフォントサイズで関連語画面に表示する(ステップ116)。また、検索式3を関連語画面に表示する。
図7は関連語画面の一例を示す図である。
図7に示すように、画面の上側に検索式3が表示されている。画面の下側には、2つのボタンが表示されている。1つは「戻る」であり、もう1つは「確定」である。画面の中ほどには、関連語として単語Eが表示されている。表示されている「NEC」のフォントサイズが最も大きく、次に「サーバ」のフォントサイズが大きく、「PC」のフォントサイズは「サーバ」よりも小さい。これは、各単語の使用回数の大きさに対応しているためである。使用回数が大きい単語ほどフォントサイズが大きく、使用回数が小さい単語ほどフォントサイズが小さい。
このように関連性の高い単語ほどフォントサイズを大きくして表示することで、ユーザは、検索がより正しく行われているか否かを判定することができる。
ユーザが情報処理装置20の入力手段21を操作して、図7の関連語画面の「確定」を選択すると、情報処理装置20は、確定信号を検索サーバ10に送信する。検索サーバ10は、確定信号を情報処理装置20から受信すると、対象のブログの情報をネットワーク100を介して取得し、ブログの情報を含むブログ画面データを情報処理装置20に送信する。図8は検索結果のブログが表示された画面の一例を示す図である。図8に示すように、検索されたブログが順に表示されている。
一方、図7の画面に示す関連語の中に関連性のない単語が含まれており、ユーザが情報処理装置20の入力手段21を操作して「戻る」を選択すれば、ステップ112に戻り、ユーザは、除外したい単語をNOT条件に加えることが可能となる。
上述の検索方法では、ユーザは次のような簡単な操作を行えばよいことがわかる。
操作1:検索対象について思いつくキーワードを入力する。
操作2:表示される単語A(表記ゆれ語)に対して、同時に表示された単語Cを参考に、関係/無関係を選択する。
操作3:表示される単語E(検索後の関連語)がユーザの検索したいものと関連しているかどうかを判断する。
操作4:関連していない語が含まれていたら、操作2に戻りやり直す。表示された語が全て関連していれば検索式の編集を終了し、編集が終了した検索式で検索を実行する。
また、検索サーバ10による、単語A、B、Cのそれぞれの抽出方法についてまとめると次のようになる。
(単語Aの抽出方法)
(i)入力された検索条件でテキストを抽出する。
(ii)テキストに対して言語解析エンジンで単語毎に抽出する。
(iii)単語のうち名詞の中で、最も出現数が多い単語(高頻度語)から順に列挙する。
(iV)各単語に対して、入力された検索条件にヒットするかマッチングにより調べる。完全一致であれば、消去し、部分一致であれば、単語Aとして表示する。単語Aは本発明の第1の単語に相当する。
例えば、expressは検索式と完全一致なので消去される。一方、Express5800は部分一致なので、単語Aとして表示される。
(単語Bの抽出方法)
単語Aの(i)から(iii)まで同様に実施した後、各単語に対して、入力された検索条件にヒットするかをマッチングにより調べる。一致しなければ、単語Bとして表示する。単語Bは本発明の第3の単語に相当する。
(単語Cの抽出方法)
(i)[入力された検索条件and単語A]でテキストブログを抽出する。
(ii)単語Aの抽出方法における(ii)、(iii)と同様に行う。単語Cは本発明の第2の単語に相当する。
本実施形態によれば、検索式作成のヒントとなる候補語が表示されるため、ユーザにとって検索式作成の際の工数を削減でき、ユーザの負荷が軽減する。ユーザは検索に関して専門的な知識を持っていなくても、検索サーバとやり取りを繰り返すことによって、より高精度な検索を実行することが可能となる。
なお、作成された検索式を全て記憶部11に保存しておき、他のユーザが同じような検索を行う際、検索サーバ10が記憶部11に保存した検索式をそのユーザに提示して推奨してもよい。過去に作成された検索式を用いることで、ユーザの負荷が軽減するだけでなく、検索サーバ10の計算処理の負荷も軽減する。
(第2の実施形態)
本実施形態は、第1の実施形態に比べてユーザが入力する検索条件をより充実させることで、検索対象のブログをより効率よく収集することを可能にしたものである。
本実施形態における検索方法では、ユーザの操作は次のようになる。
操作1:検索対象について思いつくキーワードの入力(AND、OR条件)、禁止ワード(NOT条件)の設定を行う。図9は本実施形態のキーワード入力画面の一例を示す図である。図9に示す画面では、図4に示した画面に、禁止ワードの入力欄が追加されている。
操作2:表示される単語A(表記ゆれ語)、単語B(関連語)に対して関係/無関係を選択する。
操作3:データを更新し、単語A、単語Bを再計算させ、再表示させる。
操作4:関係のない単語があまりにも多すぎるようであれば、操作1に戻り原因となる単語を条件式から削除する。修正できるレベルであれば、操作2に戻りやり直す。表示された語が全て関連していれば検索式の編集を終了し、編集が終了した検索式で検索を実行する。
上述の操作に伴う、検索サーバ10の動作を説明する。
図2に示すシーケンス図のステップ105で単語Bを求めた後、検索サーバ10は、次のようにして、ステップ108で単語Bに対する関連語である単語Dを抽出する。
ブログ抽出手段111は、検索式1と単語Bとから検索式4を作成し、含有ブログに対して、記憶部11に格納された単語Bで検索し、単語Bを含むブログを抽出する。検索式4の一例として、実施例1の場合で考えると、検索式4は、
(express or エクスプレス or えくすぷれす)and NEC・・・式4
となる。
分解手段112は、ブログ抽出手段111にて抽出された単語Bを含む含有ブログの題名や内容等の文章を品詞に分解し、分解された品詞(他に動詞または形容詞が含まれても良いが説明を簡単にするため名詞として説明する)の中から名詞を抽出し、数量をカウントする。比較手段113は、抽出された名詞と、キーワードまたは単語Bとを比較し、一致しない名詞を単語Dとして、単語Bに関連付けして記憶部11に格納する。単語Dは、式4の場合では、単語Bである“NEC”の関連語として「サーバ(85)、PC(50)・・・」となる。
上述のようにして検索サーバ10が単語Dを抽出すると、出力手段114は、図6に示した表の他に、単語Bと、単語Bに関連づけされた、ある既定数より使用回数が多いもしくはある既定数より高い順位の単語Dとを記憶部11から読出し、単語Bを検索語に追加するかしないかを入力する追加要否欄を付加した表の情報を検索語確認画面データに追加し、検索語確認データを情報処理装置20に送信する(ステップ109)。
図10は本実施形態の検索語確認画面の一例を示す図である。図10に示す画面には、2つの表があり、上側の表には、図6と同様な表が表示されている。下側の表には、単語Bと、単語Dと、追加要否欄とが、単語Bに対応して設けられている。
ユーザは、図10に示す検索語確認画面から、単語Aと単語Cに関する情報の他に、単語Bとその関連語である単語Dの情報を入手することが可能となる。そして、単語Bについても検索語に追加するか否かの情報を検索サーバ10に返信することが可能となる。
本実施形態では、検索のための条件の情報量をより多くすることで、情報処理装置20と検索サーバ10との間でのやり取りの回数を減らすことで、検索効率を向上させることができる。
なお、検索サーバ10による、単語Dの抽出方法をまとめると次のようになる。
(単語Dの抽出方法)
(i)[入力された検索条件and単語B]でテキストブログを抽出する。
(ii)第1の実施形態の単語Aの抽出方法における(ii)、(iii)と同様に行う。単語Dは本発明の第4の単語に相当する。
(第3の実施形態)
本実施形態は、第1の実施形態で抽出される単語Cおよび第2の実施形態で抽出される単語B、単語Dの上位に汎用語が入らないようにするものである。汎用語とは、文章の中で汎用的に使われる言葉である。汎用語として、例えば、時間、ブログ、日記などの単語がある。
ここでは、一定期間に発表もしくは更新されたブログを対象にするバッチ処理型の場合で説明する。
図11は本実施形態の汎用語抽出方法を説明するためのブロック図である。なお、第1または第2の実施形態と同様な構成については同一の符号を付し、その詳細な説明を省略する。
図11に示すように、ネットワーク100を介して汎用語抽出サーバ50および情報処理装置20が接続されている。ネットワーク100には、汎用語を抽出するためのブログが格納されたブログサーバ30が接続されている。
汎用語抽出サーバ50は、記憶部51および制御部52を有する。記憶部51には言語解析エンジンが予め登録されている。制御部52は、プログラムにしたがって所定の処理を実行するCPU(不図示)と、プログラムを格納するためのメモリ(不図示)とを有する。制御部52は、ブログ抽出手段111、分解手段112、スコア算出手段115、出力手段114、および汎用語削除手段116を有する。CPUがプログラムを実行することにより、ブログ抽出手段111、分解手段112、スコア算出手段115、出力手段114、および汎用語削除手段116が汎用語抽出サーバ50に仮想的に構成される。各手段の動作の詳細については、汎用語抽出動作手順で説明する。
次に、本実施形態の汎用語抽出サーバ50による汎用語抽出動作手順を説明する。図12は汎用語抽出サーバの動作手順を示すフローチャートである。
ユーザが情報処理装置20の入力手段21を操作して、汎用語を抽出したい対象ブログの期間を入力すると、情報処理装置20の制御手段25は、入力された期間と汎用語の抽出を要求する旨の情報を含む汎用語抽出要求信号を汎用語抽出サーバ50に送信する。汎用語抽出したい対象ブログの期間とは、例えば、現在から直近1〜2年ぐらいの長期間である。
汎用語抽出サーバ50が情報処理装置20から汎用語抽出要求信号を受信すると、ブログ抽出手段111は、汎用語抽出要求信号から指定された期間を読み出し、読み出した期間に投稿されたブログをブログサーバ30から抽出し、抽出したブログの日付(ブログ記事投稿日)、記事タイトルおよび記事本文を読み出して記憶部51に格納する(ステップ201)。
続いて、分解手段112は、取得した全ブログ記事(タイトル+本文)に対して、言語解析エンジンを用いて単語ごとに抽出する。その際、タイトルは重要度が高いため、タイトルから抽出された単語の重みを大きくする(ステップ202)。例えば、単語の使用件数を3倍にする処理を行う。なお、言語解析エンジンが、記述されている文章を解析して、品詞付きの単語(例.ブログ/名詞 など)に分解することは、第1および第2の実施形態と同様である。
次に、スコア算出手段115は、分解手段112の言語解析処理により分解された単語を日次ベースで集計する、単語の日次集計処理を行う(ステップ203)。そして、日次、ランキング、単語および件数の情報を1つの組にして出力して記憶部51に格納する。以下に、出力例として、2008年1月1日と、1月2日の場合を示す。
2008/1/1 1位 ブログ 500件
2008/1/1 2位 時間 480件

2008/1/2 1位 祝日 600件
2008/1/2 2位 時間 580件

上述の例では、2008年1月1日の日次ベースでは、「ブログ」という単語が500件使用され、1位にランクされていることを示している。また、2008年1月2日の日次ベースでは、「祝日」という単語が600件使用され、1位にランクされていることを示している。
続いて、スコア算出手段115は、汎用語を抽出するために、ランク付けした単語のスコアを算出する(ステップ204)。スコア算出方法として3つの方法のいずれかを用いるが、その方法については後述する。汎用語の条件として、次の2つがある。
条件1:ブログに出現する頻度が非常に高い単語であること。
条件2:毎日、定常的に利用される単語であること(毎日の出現する頻度に変動が少ない単語であること)。
その後、出力手段114は、ステップ204により算出されたスコアが降順になるように単語を並べ替えたリストである汎用語リストを作成し、汎用語リストを記憶部51に登録する(ステップ205)。汎用語リストは、検索対象から除外する単語が記述されたものに相当する。また、出力手段114は、汎用語リストを登録した旨の情報を情報処理装置20に通知する。
ここで、汎用語スコア算出方法について3つの方法を説明する。
第1の方法は、情報量、単語出現件数を利用するものである。単語wの汎用語スコア計算式は、
Score(w) = αF(w)×(1+log T(w))×ΣHt(w)・・・式5
と表される。
αはスコア調整定数である。F(w)は対象全期間での単語w出現総件数を示す。T(w)は単語wが利用された期間数を示す。ΣHt(w)は各期間での情報量(ばらつき具合
)の総和である。tは、指定された期間内の日付である。
式5のHt(w)には、例えば、情報エントロピーなどを用いる。Ht(w)の一例を以下に示す。
Ht(w)=−Ft(w)/F(w)×log(Ft(w)/F(w))・・・式6
式6のFt(w)は、日付tでの単語w出現件数を示す。
次に、第2の方法を説明する。第2の方法は、情報量、単語出現確率を利用するものである。単語wの汎用語スコア計算式は、
Score(w) = αP(w)×(1+log T(w))×ΣHt(w)・・・式7
と表される。
P(w)は日次単語w出現確率の全期間での総和(=ΣFt(w)/Ft、t=min,min+1,…)を示
す。Ftは、日付tでの全単語出現件数の総和を示す。T(w)およびαは第1の方法と同様である。
式7のHt(w)には、例えば、情報エントロピーなどを用いる。Ht(w)の一例を以下に示す。
Ht(w)=−Pt(w)/P(w)×log(Pt(w)/P(w))・・・式8
式8のPt(w)は日付tでの単語w出現確率(=Ft(w)/Ft)を示す。
次に、第3の方法を説明する。第3の方法は、情報量、単語出現件数の順位を利用するものである。単語wの汎用語スコア計算式は、
Score(w) = αO(w)×(1+log T(w))×ΣHt(w)・・・式9
と表される。
O(w)は、単語w日次出現順位ポイントの全期間での総和を示す。高順位ほど高いポイントになるように点をつける。例えば、1位:5000点、2位:4999点、・・・などである。T(w)およびαは第1の方法と同様である。
式9のHt(w)には、例えば、情報エントロピーなどを用いる。Ht(w)の一例を以下に示す。
Ht(w)=−Ot(w)/O(w)×log(Ot(w)/O(w))・・・式10
式10のOt(w)は、単語w日次出現順位ポイントを示す。高順位ほど高ポイントになるように点をつける。例えば、1位:5000点、2位:4999点、・・・などである。
第1の方法は、第2および第3の方法に比べて、計算量が少なくて済むという利点がある。第2の方法は、第3の方法と比べると、計算量が少なくて済むだけでなく、日々の総数(全ブログ件数)の変動に影響されないという利点がある。
第3の方法は、日々の総数(全ブログ件数)の変動に影響されないだけでなく、第1および第2の方法よりも、定常的に使用されている単語を精度よく抽出できる。つまり、一定期間のみ急増するような単語を抽出せず、常に一定量書き込みのある単語のみ精度よく抽出することができる。「一定期間のみに急増するような単語」とは、例えば、ワールドカップサッカーおよびオリンピックなどのスポーツイベントの名称、公開中の映画または視聴率の高いドラマに出演したタレントの名前がある。
次に、本実施形態の汎用語抽出サーバ50が作成した汎用語リストを第1または第2の実施形態で説明した情報検索方法に適用する場合を説明する。なお、汎用語リストを第1の実施形態(単語C)および第2の実施形態(単語B、単語D)のいずれに使用しても説明が同様になるため、ここでは、第1の実施形態(単語C)に汎用語リストを使用する場合で説明する。
図1に示す検索サーバ10は、第1の実施形態において、ステップ108で単語Cを抽出した後、検索語確認画面データと汎用語の分析依頼を要求する旨の情報を含む汎用語分析依頼情報を汎用語抽出サーバ50に送信する。
汎用語抽出サーバ50の汎用語削除手段116は、検索サーバ10から汎用語分析依頼情報を受信すると、検索語確認画面データの単語と汎用語リストをマッチングさせる。マッチングの結果、以下の2つの方法のいずれかにより、汎用語に相当する単語の重みを下げる。
(1)検索語確認画面データのスコア(使用回数、件数)に汎用語スコアの逆数(1/汎用語スコア)を乗算し、検索語確認画面における汎用語の出力順位を下げる。汎用語スコアは汎用語順位が高いほど高いスコアである。
(2)マッチングにより汎用語と一致した単語を検索語確認画面から完全に非表示にする。
なお、ユーザによる指定により、単語リストと汎用語の分析依頼を要求する旨の情報とを含む汎用語分析依頼情報を情報処理装置20から汎用語抽出サーバ50に送信するようにしてもよい。また、ブログデータの出力の仕方を情報処理装置20からユーザが指定するようにしてもよい。
上述の方法とは別の方法として、検索サーバ10は、第1の実施形態において、ステップ108で単語Cを抽出した後、汎用語抽出サーバ50の記憶部51の汎用語リストにアクセスし、汎用語リストに挙げられている単語Cのスコア(使用回数、件数)を下げてもよい。
本実施形態は、単語Cに限らず、表記ゆれ語、関連語の候補リスト、急上昇ワード、または、高頻度語などを抽出/収集した単語のリストにも用いることができ、抽出された単語の上位から汎用語を取り除くことで、より関連性のある単語が上位に表示されるため、ユーザは検索対象の情報により早くたどり着くことができる。
また、ユーザが予め汎用語リストを作成しなくても、情報抽出/収集を行う際、汎用語リストを用いることで抽出/収集結果から不必要な単語が除外されるため、抽出/収集の分析結果に対する可読性が向上する。また、非表示(NG)ワードを自動的に生成するため、ユーザの作成負荷が軽減する。さらに、汎用語の網羅性が向上する。
なお、汎用語抽出処理をバッチ処理型の場合で説明したが、自動処理型であってもよい。以下に、自動処理型の動作を簡単に説明する。
毎日、例えば、午前0時に1回起動するといったように、タイマーで自動実行されるように設定されている。
ブログ抽出手段111は、新規追加分のブログデータを取得する。データには日付(ブログ記事投稿日)、記事タイトル、記事本文が含まれている。また、過去分の単語統計量を記憶部51から読み出し、単語統計量を取得する。これにより、日次、単語、頻度(件数、順位、確率の少なくとも1つ)の情報を取得する。スコア算出手段115は、ステップ202の言語解析処理およびステップ203の単語の日次集計処理を行って、最新ブログの単語統計量を算出する。その後、スコア算出手段115は、ステップ204の汎用語スコア算出処理を行い、出力手段114が作成した汎用語リストを記憶部51に登録する。
また、本実施形態では、汎用語抽出サーバ50を検索サーバ10とは別に設けたが、検索サーバ10に汎用語抽出サーバ50の機能を備えるようにしてもよい。
また、汎用語抽出のための集計対象の期間が本発明の第1の所定の期間に相当する。また、本実施形態では、説明を簡単にするために、本発明の「第2の所定の期間毎」として「日毎」の場合で説明したが、日毎に限らず、週毎、月毎など第1の所定期間より短い期間であればよい。以下の実施例においても、説明を簡単にするために、第2の所定期間毎を「日毎」の場合で説明する。
さらに、本実施形態では、説明を簡単にするために、汎用語の候補の単語を名詞の場合で説明したが、単語は名詞に限らず動詞や形容詞が含まれていてもよい。以下の実施例においても、汎用語の候補の単語は、名詞、動詞または形容詞などのいずれの品詞でもよい。
本実施例では、第3の実施形態で説明した第1から第3の方法のそれぞれの汎用語スコア算出方法の別例を示す。
図13は日次集計の一例を示す表である。図13は、2008年1月1日と、1月2日の日毎の結果を示す。図14は一定期間の総集計の一例を示す表である。図14は、2008年1月1日から200X年X月X日までの期間における総集計の結果を示す。
図13および図14を用いて、情報量、単語出現件数を利用する第1の方法の場合を説明する。
(第1の方法)
総件数が上位(既定件数以上)でかつ日次集計の件数の変動が少ない(規定件数値内で変動)ものが選ばれる。
例えば、総件数が2000件以上のものを抽出する。図14から、単語a,b,c,d,・・・が抽出される。
その中で、日次の件数が相対的に±50件以内で推移しているものは単語a,cである(単語bの1/2の件数は430未満、単語dの1/2の件数は400未満だったとする。単語a,b,c,d以外の総件数が2000件以上の他の単語も同様に規定値外で変動だったとする)。よって、単語aと単語cが汎用語として選ばれる。
なお、規定件数値内での変動は、前日との件数の差、もしくは、その単語の期間内の最上位と最下位の差である。このことは第2、第3の方法についても同様である。
(第2の方法)
次に、情報量、単語出現確率を利用する第2の方法の場合を説明する。
日次確率の総和が上位(既定値以上)でかつ日次集計の確率の変動が少ない(規定値内で変動)ものが選ばれる。
例えば、日次確率の総和が規定値0.04%以上のものを抽出する。図14から、単語a,b,c,d,・・・が抽出される。
その中で、日次の確率が相対的に±0.003%以内で推移しているものは単語a,cである(単語bの1/2の確率は0.0061以下、単語dの1/2の確率は0.0055以下だったとする。単語a,b,c,d以外の総和が規定値0.04%以上の他の単語も同様に規定値外で変動だったとする)。よって、単語aと単語cが汎用語として選ばれる。
(第3の方法)
次に、情報量、単語出現順位を利用する第3の方法の場合を説明する。
順位ポイントの総和が上位(既定位以上)でかつ日次集計の順位ポイントの変動が少ない(規定値内で変動)ものが選ばれる。
例えば、順位ポイントの総和が上位10位(or 既定値25000)以上のものを抽出する。図14から、単語a,b,c,d,・・・が抽出される。
その中で、日次の順位ポイントが相対的に±8以内(8位以内)で推移しているものは単語a,cである(単語bの1/2の順位ポイントは4990以下(11位以下)、単語dの1/2の順位ポイントは4988以下(13位以下)だったとする。単語a,b,c,d以外の総和が上位10位の他の単語も同様に規定値外で変動だったとする)。よって、単語aと単語cが汎用語として選ばれる。
実施例2では、ネットワーク上でアクセス可能な全ブログに対して汎用語を抽出したが、本実施例は、ある1ユーザ、または特定の趣味をもつサークル・グループ単位のテキストで汎用語を抽出するものである。本実施例では、各個人、グループ単位でのプロフィール解析に利用できる。
なお、分析対象のテキストとして、全ブログの代わりに所定の範囲のブログを分析対象とする点を除いて、上述の実施形態および実施例のそれぞれと構成および動作は同様であるため、その詳細な説明を省略する。
上記実施形態および上記実施例では、ブログを対象にして説明したが、分析対象はブログに限定されず、サーバもしくは、情報処理装置内に記憶され、ネットワークに対し公開や非公開、会員に対して送信されるホームページや電子メールや文書ファイル等の情報も含まれ、アクセス可能なテキストであればよい。本発明の格納部は、情報処理装置20の記憶手段26であってもよい。また、ブログを分析対象とする場合についても、ブログサーバ30は1台に限らず複数あってもよい。
本発明を、入力された商品やサービス等のキーワードのブログ等での評判を確認/分析したいシステムに応用することが可能である。
第1の実施形態の情報検索方法を説明するためのブロック図である。 第1の実施形態の情報検索方法の一例を示すシーケンス図である。 第1の実施形態の検索語確認画面の一例を示す図である。 検索のためのキーワードの入力画面の一例を示す図である。 含有ブログの一例を示す図である。 実施例1における検索語確認画面の一例を示す図である。 関連語画面の一例を示す図である。 検索結果のブログが表示された画面の一例を示す図である。 第2の実施形態のキーワード入力画面の一例を示す図である。 第2の実施形態の検索語確認画面の一例を示す図である。 第3の実施形態の汎用語抽出方法を説明するためのブロック図である。 汎用語抽出サーバの動作手順を示すフローチャートである。 日次集計の一例を示す表である。 一定期間の総集計の一例を示す表である。
符号の説明
10 検索サーバ
11 記憶部
12 制御部

Claims (15)

  1. 検索のためのキーワードが入力されると、該キーワードを含むテキストを格納部に記憶されているテキストから収集し、収集した第1のテキストの名詞を抽出し、前記キーワードと部分一致する名詞を第1の単語として決定し、前記第1のテキストのうち該第1の単語を含む第2のテキストを抽出し、該第2のテキストから名詞、動詞または形容詞の少なくとも1つである単語を抽出し、抽出した単語の使用回数をカウントし、該使用回数が上位所定のランク内である単語を前記第1の単語の関連語である第2の単語に決定し、前記第1の単語および前記第2の単語を出力する制御部を有する情報検索装置。
  2. 前記制御部は、
    出力された前記第1の単語のうちいずれかについて除外する指示が入力されると、除外対象の第1の単語を含むテキストを前記第1のテキストから除外した後の第3のテキストについて前記第1の単語および前記第2の単語を抽出し直して出力する、請求項1記載の情報検索装置。
  3. 前記制御部は、
    前記第1のテキストから抽出された名詞のうち前記第1の単語を除いた単語を第3の単語と決定し、前記第1のテキストのうち該第3の単語を含む第4のテキストを抽出し、該第4のテキストから名詞、動詞または形容詞の少なくとも1つである単語を抽出し、抽出した単語の使用回数をカウントし、該使用回数が上位所定のランク内である単語を前記第3の単語の関連語である第4の単語に決定し、前記第3の単語および前記第4の単語を出力する、請求項1記載の情報検索装置。
  4. 検索対象から除外する単語が記述された汎用語リストを保存する記憶部をさらに有し、
    前記制御部は、
    前記汎用語リストを参照し、抽出した単語について、該汎用語リストに含まれる単語と一致する単語のランクを下げる、または該単語を削除する請求項1から3のいずれか1項記載の情報検索装置。
  5. 前記制御部は、
    汎用語の抽出要求の指示により、または、所定の時刻になったとき、前記格納部に記憶されているテキストを収集し、収集したテキストから単語を抽出し、第1の所定の期間の出現頻度が第1の既定値より高く、かつ、前記第1の所定の期間よりも短い第2の所定の期間毎の出現頻度が第2の既定値範囲内で変動している単語を汎用語として決定し、該汎用語のリストである前記汎用語リストを作成する、請求項4記載の情報検索装置。
  6. 情報を記録するための格納部と接続された情報検索装置の制御部による情報検索方法であって、
    前記制御部は、検索のためのキーワードが入力されると、該キーワードを含むテキストを格納部に記憶されているテキストから収集し、
    前記制御部は、収集した第1のテキストの名詞を抽出し、前記キーワードと部分一致する名詞を第1の単語として決定し、
    前記制御部は、前記第1のテキストのうち該第1の単語を含む第2のテキストを抽出し、
    前記制御部は、前記第2のテキストから名詞、動詞または形容詞の少なくとも1つである単語を抽出し、
    前記制御部は、前記第2のテキストから抽出した単語の使用回数をカウントし、
    前記制御部は、前記第2のテキストから抽出した単語の前記使用回数が上位所定のランク内である単語を前記第1の単語の関連語である第2の単語に決定し、
    前記制御部は、前記第1の単語および前記第2の単語を出力する、情報検索方法。
  7. 前記制御部は、出力された前記第1の単語のうちいずれかについて除外する指示が入力されると、除外対象の第1の単語を含むテキストを前記第1のテキストから除外した後の第3のテキストについて前記第1の単語および前記第2の単語を抽出し直して出力する、請求項6記載の情報検索方法。
  8. 前記制御部は、前記第1のテキストから抽出された名詞のうち前記第1の単語を除いた単語を第3の単語と決定し、前記第1のテキストのうち該第3の単語を含む第4のテキストを抽出し、
    前記制御部は、前記第4のテキストから名詞、動詞または形容詞の少なくとも1つである単語を抽出し、
    前記制御部は、前記第4のテキストから抽出した単語の使用回数をカウントし、
    前記制御部は、前記第4のテキストから抽出した単語の前記使用回数が上位所定のランク内である単語を前記第3の単語の関連語である第4の単語に決定し、
    前記制御部は、前記第3の単語および前記第4の単語を出力する、請求項記載の情報検索方法。
  9. 検索対象から除外する単語が記述された汎用語リストを保存する記憶部が前記情報検索装置に設けられ、
    前記制御部は、前記汎用語リストを参照し、抽出した単語について、該汎用語リストに含まれる単語と一致する単語のランクを下げる、または該単語を削除する請求項6から8のいずれか1項記載の情報検索方法。
  10. 前記制御部は、汎用語の抽出要求の指示により、または、所定の時刻になったとき、前記格納部に記憶されているテキストを収集し、収集したテキストから単語を抽出し、
    前記制御部は、第1の所定の期間の出現頻度が第1の既定値より高く、かつ、前記第1の所定の期間よりも短い第2の所定の期間毎の出現頻度が第2の既定値範囲内で変動している単語を汎用語として決定し、該汎用語のリストである前記汎用語リストを作成する、請求項9記載の情報検索方法。
  11. コンピュータに実行させるためのプログラムであって、
    検索のためのキーワードが入力されると、該キーワードを含むテキストを格納部に記憶されているテキストから収集し、
    収集した第1のテキストの名詞を抽出し、前記キーワードと部分一致する名詞を第1の単語として決定し、
    前記第1のテキストのうち該第1の単語を含む第2のテキストを抽出し、
    前記第2のテキストから名詞、動詞または形容詞の少なくとも1つである単語を抽出し、
    前記第2のテキストから抽出した単語の使用回数をカウントし、
    前記第2のテキストから抽出した単語の前記使用回数が上位所定のランク内である単語を前記第1の単語の関連語である第2の単語に決定し、
    前記第1の単語および前記第2の単語を出力する処理を前記コンピュータに実行させるためのプログラム。
  12. 出力された前記第1の単語のうちいずれかについて除外する指示が入力されると、除外対象の第1の単語を含むテキストを前記第1のテキストから除外した後の第3のテキストについて前記第1の単語および前記第2の単語を抽出し直して出力する処理を有する請求項11記載のプログラム。
  13. 前記第1のテキストから抽出された名詞のうち前記第1の単語を除いた単語を第3の単語と決定し、前記第1のテキストのうち該第3の単語を含む第4のテキストを抽出し、
    前記第4のテキストから名詞、動詞または形容詞の少なくとも1つである単語を抽出し、
    前記第4のテキストから抽出した単語の使用回数をカウントし、
    前記第4のテキストから抽出した単語の前記使用回数が上位所定のランク内である単語を前記第3の単語の関連語である第4の単語に決定し、
    前記第3の単語および前記第4の単語を出力する処理を有する請求項11記載のプログラム。
  14. 検索対象から除外する単語が記述された汎用語リストを保存し、
    前記汎用語リストを参照し、抽出した単語について、該汎用語リストに含まれる単語と一致する単語のランクを下げる、または該単語を削除する処理を有する請求項11から13のいずれか1項記載のプログラム。
  15. 汎用語の抽出要求の指示により、または、所定の時刻になったとき、前記格納部に記憶されているテキストを収集し、収集したテキストから単語を抽出し、
    第1の所定の期間の出現頻度が第1の既定値より高く、かつ、前記第1の所定の期間よりも短い第2の所定の期間毎の出現頻度が第2の既定値範囲内で変動している単語を汎用語として決定し、該汎用語のリストである前記汎用語リストを作成する、請求項14記載のプログラム。
JP2008216509A 2008-08-26 2008-08-26 情報検索装置、情報検索方法、およびプログラム Active JP4587236B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008216509A JP4587236B2 (ja) 2008-08-26 2008-08-26 情報検索装置、情報検索方法、およびプログラム
US12/543,273 US8793259B2 (en) 2008-08-26 2009-08-18 Information retrieval device, information retrieval method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008216509A JP4587236B2 (ja) 2008-08-26 2008-08-26 情報検索装置、情報検索方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2010055159A JP2010055159A (ja) 2010-03-11
JP4587236B2 true JP4587236B2 (ja) 2010-11-24

Family

ID=41726834

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008216509A Active JP4587236B2 (ja) 2008-08-26 2008-08-26 情報検索装置、情報検索方法、およびプログラム

Country Status (2)

Country Link
US (1) US8793259B2 (ja)
JP (1) JP4587236B2 (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9875298B2 (en) 2007-10-12 2018-01-23 Lexxe Pty Ltd Automatic generation of a search query
US9773283B2 (en) 2011-06-24 2017-09-26 Facebook, Inc. Inferring topics from social networking system communications using social context
US9779385B2 (en) * 2011-06-24 2017-10-03 Facebook, Inc. Inferring topics from social networking system communications
US10311113B2 (en) 2011-07-11 2019-06-04 Lexxe Pty Ltd. System and method of sentiment data use
EP2570939A1 (en) * 2011-09-16 2013-03-20 Lexxe Pty Ltd. Automatic generation of a search query
CN102999547A (zh) * 2011-09-16 2013-03-27 莱克西私人有限公司 搜索查询的自动生成
EP2570938A1 (en) * 2011-09-16 2013-03-20 Lexxe Pty Ltd. System and method for ordering semantic sub-keys utilizing superlative adjectives
CN102724332A (zh) * 2011-12-30 2012-10-10 新奥特(北京)视频技术有限公司 一种网络服务地址的动态匹配方法
CN104272307A (zh) * 2012-05-18 2015-01-07 索尼公司 信息处理装置、信息处理方法、以及程序
US10380606B2 (en) 2012-08-03 2019-08-13 Facebook, Inc. Negative signals for advertisement targeting
JP2014085780A (ja) * 2012-10-23 2014-05-12 Samsung Electronics Co Ltd 番組推薦装置及び番組推薦プログラム
CN104503980B (zh) * 2014-11-26 2020-06-05 百度在线网络技术(北京)有限公司 确定综合搜索信息以及据此确定待推送候选搜索序列
JP6305630B2 (ja) * 2015-03-20 2018-04-04 株式会社東芝 文書検索装置、方法及びプログラム
JP6382139B2 (ja) * 2015-03-20 2018-08-29 ヤフー株式会社 情報処理装置、情報処理方法、及びプログラム
JP2016220175A (ja) * 2015-05-26 2016-12-22 株式会社オプティム 装置検索サーバ、装置検索方法及び装置検索サーバ用プログラム。
CN105095434B (zh) * 2015-07-23 2019-03-29 百度在线网络技术(北京)有限公司 时效需求识别方法及装置
CN105955993B (zh) * 2016-04-19 2020-09-25 北京百度网讯科技有限公司 搜索结果排序方法和装置
CN107729457B (zh) * 2017-10-10 2020-11-13 惠州Tcl移动通信有限公司 一种信息智能检索的方法、装置及存储介质
US10732789B1 (en) * 2019-03-12 2020-08-04 Bottomline Technologies, Inc. Machine learning visualization
CN111444429B (zh) * 2020-03-27 2023-04-07 腾讯科技(深圳)有限公司 信息推送方法、装置及服务器
CN111797205B (zh) * 2020-06-30 2024-03-12 百度在线网络技术(北京)有限公司 一种词表检索方法、装置、电子设备及存储介质
CN111859944B (zh) * 2020-07-17 2022-12-13 维沃移动通信有限公司 信息显示方法、装置和电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001325272A (ja) * 2000-05-16 2001-11-22 Internatl Business Mach Corp <Ibm> 情報整理方法、情報処理装置、記憶媒体、およびプログラム伝送装置
JP2002117043A (ja) * 2000-10-11 2002-04-19 Ricoh Co Ltd 文書検索装置、文書検索方法およびその方法を実施するためのプログラムを記録した記録媒体
JP2002140366A (ja) * 2000-10-31 2002-05-17 Ricoh Co Ltd 関連語選出装置、その方法および記録媒体、並びに文書検索装置、その方法および記録媒体
JP2004054882A (ja) * 2002-05-27 2004-02-19 Ricoh Co Ltd 類義語検索装置、方法、プログラム及び記憶媒体
JP2004139222A (ja) * 2002-10-16 2004-05-13 Internatl Business Mach Corp <Ibm> 文書自動分類システム、不要語判定方法、文書自動分類方法、およびプログラム
JP2005135113A (ja) * 2003-10-29 2005-05-26 Sony Corp 電子機器装置、関連語抽出方法及びプログラム
WO2005066837A1 (ja) * 2003-12-26 2005-07-21 Matsushita Electric Industrial Co., Ltd. 辞書作成装置および辞書作成方法
JP2006146802A (ja) * 2004-11-24 2006-06-08 Mitsubishi Electric Corp テキストマイニング装置およびテキストマイニング方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3607462B2 (ja) * 1997-07-02 2005-01-05 松下電器産業株式会社 関連キーワード自動抽出装置及びこれを用いた文書検索システム
JPH11259515A (ja) * 1998-03-12 1999-09-24 Toshiba Corp 類似文書検索装置、類似文書検索方法、および類似文書検索のためのプログラムが記録された記録媒体
EP1225517B1 (en) * 2001-01-17 2006-05-17 International Business Machines Corporation System and methods for computer based searching for relevant texts
US7324990B2 (en) * 2002-02-07 2008-01-29 The Relegence Corporation Real time relevancy determination system and a method for calculating relevancy of real time information
JP2004287827A (ja) 2003-03-20 2004-10-14 Fuji Xerox Co Ltd 検索システム、プログラム、及び検索条件選択肢の提示方法
JP2008537225A (ja) * 2005-04-11 2008-09-11 テキストディガー,インコーポレイテッド クエリについての検索システムおよび方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001325272A (ja) * 2000-05-16 2001-11-22 Internatl Business Mach Corp <Ibm> 情報整理方法、情報処理装置、記憶媒体、およびプログラム伝送装置
JP2002117043A (ja) * 2000-10-11 2002-04-19 Ricoh Co Ltd 文書検索装置、文書検索方法およびその方法を実施するためのプログラムを記録した記録媒体
JP2002140366A (ja) * 2000-10-31 2002-05-17 Ricoh Co Ltd 関連語選出装置、その方法および記録媒体、並びに文書検索装置、その方法および記録媒体
JP2004054882A (ja) * 2002-05-27 2004-02-19 Ricoh Co Ltd 類義語検索装置、方法、プログラム及び記憶媒体
JP2004139222A (ja) * 2002-10-16 2004-05-13 Internatl Business Mach Corp <Ibm> 文書自動分類システム、不要語判定方法、文書自動分類方法、およびプログラム
JP2005135113A (ja) * 2003-10-29 2005-05-26 Sony Corp 電子機器装置、関連語抽出方法及びプログラム
WO2005066837A1 (ja) * 2003-12-26 2005-07-21 Matsushita Electric Industrial Co., Ltd. 辞書作成装置および辞書作成方法
JP2006146802A (ja) * 2004-11-24 2006-06-08 Mitsubishi Electric Corp テキストマイニング装置およびテキストマイニング方法

Also Published As

Publication number Publication date
US20100057725A1 (en) 2010-03-04
JP2010055159A (ja) 2010-03-11
US8793259B2 (en) 2014-07-29

Similar Documents

Publication Publication Date Title
JP4587236B2 (ja) 情報検索装置、情報検索方法、およびプログラム
US12001429B2 (en) Methods, systems, and media for interpreting queries
US9589071B2 (en) Query suggestions from documents
US10140368B2 (en) Method and apparatus for generating a recommendation page
US9201880B2 (en) Processing a content item with regard to an event and a location
JP5647508B2 (ja) ショートテキスト通信のトピックを識別するためのシステムおよび方法
KR102001647B1 (ko) 지식 패널들을 컨텍스트화
US8332208B2 (en) Information processing apparatus, information processing method, and program
US20110295612A1 (en) Method and apparatus for user modelization
JP6538277B2 (ja) 検索クエリ間におけるクエリパターンおよび関連する総統計の特定
US20070288498A1 (en) Interface for managing search term importance relationships
US20080243835A1 (en) Program, method and apparatus for web page search
JP4640554B2 (ja) サーバ装置、情報処理方法およびプログラム
CN110717008B (zh) 基于语意识别的搜索结果排序方法及相关装置
JP2011070291A (ja) トピックワード抽出装置、トピックワード抽出システム、トピックワード抽出方法、及びプログラム
KR102434880B1 (ko) 멀티미디어 플랫폼 기반 지식 공유 서비스 제공 시스템
JP2011100191A (ja) 文書検索装置、文書検索方法、及び文書検索プログラム
JP5072792B2 (ja) 情報量に応じたページを優先的に表示する検索方法、プログラム及びサーバ
JP4331177B2 (ja) 情報検索システム、情報検索方法及び情報検索プログラム
JP5332128B2 (ja) 情報検索装置、情報検索方法およびそのプログラム
Tian et al. A prediction model for web search hit counts using word frequencies
JP2020013387A (ja) 情報処理装置、情報処理方法及びプログラム
JP2010066888A (ja) 同文字異議語の検索装置
JP2013178808A (ja) 情報検索装置、情報検索方法およびそのプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100526

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100715

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100811

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100901

R150 Certificate of patent or registration of utility model

Ref document number: 4587236

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130917

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250