JP2009075630A - 情報検索システム - Google Patents

情報検索システム Download PDF

Info

Publication number
JP2009075630A
JP2009075630A JP2007241212A JP2007241212A JP2009075630A JP 2009075630 A JP2009075630 A JP 2009075630A JP 2007241212 A JP2007241212 A JP 2007241212A JP 2007241212 A JP2007241212 A JP 2007241212A JP 2009075630 A JP2009075630 A JP 2009075630A
Authority
JP
Japan
Prior art keywords
document
search
collected
client terminal
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007241212A
Other languages
English (en)
Inventor
Toshio Maki
俊男 牧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Software Engineering Co Ltd
Original Assignee
Hitachi Software Engineering Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Software Engineering Co Ltd filed Critical Hitachi Software Engineering Co Ltd
Priority to JP2007241212A priority Critical patent/JP2009075630A/ja
Publication of JP2009075630A publication Critical patent/JP2009075630A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】検索目的に副った検索を実現する情報検索システムを提供する。
【解決手段】ネットワーク3上のホスト1とクライアント端末2からなり、ホスト1が、文書を格納するDB121と、収集文書に対する形態素解析の結果と文書を特徴付ける単語に基づく文書の重要度とを格納するDB122と、クライアント端末2から受信した検索結果の分類結果を格納するDB123と、データ収集部111と、形態素解析を行う素解析処理部112と、単語に関して文書を特徴付ける重要度を算出する特徴量算出部113と、検索条件と類似した検索条件を付加する類似条件処理部114と、検索を行う一致文書検索部115と、DB123に格納された検索結果の分類結果と重要度の高い単語とに基づいて、クライアント端末に送信した検索結果をなす収集文書の検索目的との整合性を推定して、再度分類する目的整合化処理部116と、通信手段117と、を備える構成を有している。
【選択図】図1

Description

本発明は、ネットワーク上に存在するデータを収集し、そのデータ群から目的に応じたデータを検索する情報検索システムに関する。
インターネットの普及に伴い、利用者はインターネット上に情報を容易に発信することが可能になった。その結果、インターネット上にデータが散在することなり、目的のデータを検出するために一般に検索エンジンが用いられる。
従来の検索エンジンは、通常、利用者が固有名詞等の検索条件を入力し、検索エンジンがインターネット上からこの検索条件に適合するデータを検索して利用者側に提供する。ここで、インターネット上のデータは必ずしも検索条件に一致するデータのみではないため、検索によって不必要なデータも多く含まれ、これを回避すべく、検索エンジンには通常これらの不必要な情報を削減する手段が設けられている(例えば、特許文献1参照。)。
特開2005031949号公報
しかしながら、従来の情報検索システムでは、検索目的との整合性を充分に判断できないという問題を有していた。具体的には、例えば、小学生が検索条件を設定する場合、一般的な単語を多く含む検索条件を設定する場合等、検索目的に副った検索条件を適切に設定することは困難なことも多く、このような場合、検索目的に沿った結果を得ることが難しかった。
また、これらのような検索エンジンでは、検索結果の選出を行う基準となる閾値が検索エンジン側で定められており、利用者が必要とするデータも不必要と判断し、検索結果に出さない可能性がある。このような問題に関しては、不必要と判断する閾値を緩和することで対応できる。
この閾値は、利用者毎に、また、その用途によっても変動するため、一定値として設定しておくことは困難である。また、閾値の決定は複雑であるため、利用者毎に閾値を適切に決定するのは困難であり、慣れない利用者は検索エンジン側で設定された閾値をそのまま使用せざるをえない状況にある。
以上の現状に鑑み、本発明の目的は、従来の検索エンジンよりも検索目的に副った検索を実現することが可能な情報検索システムを提供する。
上記の課題を解決すべく、本発明は以下の構成を提供する。
請求項1に係る発明は、ネットワークを介して相互に通信可能に接続され、前記ネットワーク上の文書の検索を要求するクライアント端末と、前記ネットワーク上の文書を収集して保持し、前記クライアント端末からの要求に応じて少なくとも保持する文書から検索して検索結果を前記クライアント端末に返信するホストと、を備えるシステムであって、前記ホストが、収集した収集文書を格納する収集データ格納データベースと、収集文書に対する形態素解析の結果と文書を特徴付ける単語に基づく文書の重要度とを格納する分析データ格納データベースと、検索結果に対する応答としてクライアント端末から受信した分類結果を格納する利用者情報格納データベースと、前記ネットワーク上の文書を収集するデータ収集部と、前記収集文書に対して前記形態素解析を行って単語に分解する素解析処理部と、前記形態素解析で得られた単語に関して文書を特徴付ける重要度を算出する特徴量算出部と、クライアント端末からの検索条件に、これと類似した検索条件を付加して処理対象検索条件を生成する類似条件処理部と、前記処理対象検索条件に基づいて、検索を行う一致文書検索部と、前記利用者情報格納データベースに格納された検索結果に対する分類結果と前記重要度の高い単語とに基づいて、前記クライアント端末に送信した検索結果をなす収集文書の検索目的との整合性を推定して、再度分類する目的整合化処理部と、を備えることを特徴とする。
請求項1に係る発明によれば、ネットワークを介して相互に通信可能に接続され、ネットワーク上の文書の検索を要求するクライアント端末と、ネットワーク上の文書を収集して保持し、クライアント端末からの要求に応じて少なくとも保持する文書から検索して検索結果をクライアント端末に返信するホストと、を備えるシステムであって、ホストが、収集した収集文書を格納する収集データ格納データベースと、収集文書に対する形態素解析の結果と文書を特徴付ける単語に基づく文書の重要度とを格納する分析データ格納データベースと、検索結果に対する応答としてクライアント端末から受信した分類結果を格納する利用者情報格納データベースと、ネットワーク上の文書を収集するデータ収集部と、収集文書に対して形態素解析を行って単語に分解する素解析処理部と、形態素解析で得られた単語に関して文書を特徴付ける重要度を算出する特徴量算出部と、クライアント端末からの検索条件に、これと類似した検索条件を付加して処理対象検索条件を生成する類似条件処理部と、処理対象検索条件に基づいて、検索を行う一致文書検索部と、利用者情報格納データベースに格納された検索結果に対する分類結果と重要度の高い単語とに基づいて、クライアント端末に送信した検索結果をなす収集文書の検索目的との整合性を推定して、再度分類する目的整合化処理部と、を備えるため、従来の検索エンジンよりも検索目的に副った検索を実現することが可能な情報検索システムを実現することができる。
以下、実施例を示した図面を参照しつつ本発明の実施の形態について説明する。
図1は、本発明による情報検索システムの一実施例を模式的に示すブロック構成図である。情報検索システムは、図1に示すように、ネットワーク3を介して通信し、ネットワーク3上の略全ての文書を収集して検索処理するホスト1と、ホスト1に検索を要求する複数のクライアント端末2とを備える。
ホスト1は、例えば通常のコンピュータとして構成され、図1に示すように、プログラムを介して実現される、ネットワーク3上の検索対象の文書を全て収集するデータ収集部111と、収集された文書(以下、収集文書という。)のそれぞれに対して形態素解析を行う素解析処理部112と、検索キーワードに関しての対象の収集文書の特徴量を算出する特徴量算出部113と、類似の検索条件を付加する類似条件処理部114と、検索キーワードとの一致性の高い収集文書を検索する一致文書検索部115と、クライアント端末2から受信した所定の情報に基づいて検索結果を分類する目的整合化処理部116と、ネットワーク3上のクライアント端末2と通信する通信部117と、収集文書を格納する収集データ格納データベース(以下、単に収集データ格納DBという。)121と、収集文書中に含まれる単語に品詞を付して単語毎に格納する分析データ格納データベース(以下、単に分析データ格納DBという。)122と、クライアント端末2から送信された検索条件、上記の分類に使用される情報等を格納する利用者情報格納データベース(以下、単に利用者情報格納DBという。)123と、を備える。
図2は、クライアント端末の一実施例を模式的に示すブロック構成図である。クライアント端末2は、例えば通常のコンピュータとして構成され、図2に示すように、プログラムを介して実現される、ユーザに検索条件を入力させる条件入力手段211と、検索結果を表示する検索結果表示手段212と、検索結果を分類させる検索結果分類手段213と、ネットワーク3を介してホスト1と通信する通信手段214と、を備える。
ホスト1のデータ収集部111は、ネットワーク3上で公開されているWebページ等の文書を収集文書として全文収集し、収集文書をURL(Uniform Resource Locator)等のネットワーク3上の場所を特定する位置情報等と共に収集データ格納DB121に格納させて登録する。図3は、収集文書の登録例を示す概念図である。図3に示すように、収集文書は、文書を一意に特定する文書IDT31、文書名T32及びURL(位置情報)T34と共に、本文T33に設定されて登録される。
図4は、文書を収集して検索可能なデータとして登録するまでの処理(以下、収集登録処理という。)について説明するフローチャートである。以下、公開されている文書の位置情報であって収集登録処理がされていないもののリスト(以下、未処理リストという。)と、収集登録処理が済んでいる位置情報のリスト(以下、処理済リストという。)とが、予め内部の所定の記憶手段に格納されているものとして説明する。
図4に示すように、収集登録処理では、データ収集部111が、まず、未処理リストにリストされた位置情報があるか否かを判断し(S101)、位置情報がないと判断したとき、処理は終了する。ステップS101で位置情報があると判断したとき、データ収集部111が、例えば未処理リストの先頭の位置情報を取得する(S102)。
次に、データ収集部111が、ステップS102で取得された位置情報が処理済リスト内にリストされているか否かを判断し(S103)、リストされていないと判断したとき、対応する文書をネットワーク3経由で取得する(S104)。ステップS103でリストされていると判断したとき、データ収集部111が、確認のため、対応する文書が登録されているか否かを判断し(S105)、登録されていると判断した場合、ステップS102で取得した位置情報を未処理リストから削除し(S106)、ステップS101以降の各ステップでの処理を繰り返す。ステップS105で登録されていないと判断した場合、処理はステップS104に移る。
ステップS104で文書が取得されたとき、素解析処理部112及び特徴量算出部113が、取得された収集文書に対して、以下に詳述する解析評価処理を行い(S107)、データ収集部111が、格納登録処理として、解析評価処理の結果と共に収集文書を収集データ格納DB121に格納して登録し、ステップS102で取得した位置情報を処理済リストに登録して未処理リストから削除する(S108)。なお、ステップS107では、文書に位置情報が含まれているとき、解析評価処理においてこの位置情報も検出されるようになっている。
次に、データ収集部111が、ステップS107での解析評価処理の結果に基づいて、収集文書中に位置情報が含まれているか否かを判断し(S109)、含まれていると判断したときは、処理はステップS104に戻り、上記の各ステップでの処理が繰り返される。ステップS109で収集文書中に位置情報が含まれていないと判断されたとき、処理はステップS101に戻る。
素解析処理部112は、解析評価処理において、データ収集部111が収集した文書に対して形態素解析を行い、収集文書中の文章等を個々の単語、記号等に分解する。形態素解析で得られた単語等からなるデータは、特徴量算出部113に出力される。図5は、形態素解析によって得られたデータの一例を示す図である。図5には、「庭には二羽ニワトリが居る」という文章についての形態素解析の結果が示されている。形態素解析によって、文章は表記T41単位で分解され、各表記T41に、対応する読みT42、品詞T43及び基本形表記T44が付される。なお、形態素解析においてURL等の位置情報が検出された場合、上記で説明したように、対応する文書がデータ収集部111によって収集される。
特徴量算出部113は、解析評価処理において、収集文書の特徴量として、素解析処理部112から出力されたデータのうちの名詞等に分類された所定の単語(以下、特定単語という。)に対する、以下の式(1)、(2)で表されるtf、idf、及びこれらの積を算出する。
Figure 2009075630
(1)
Figure 2009075630
(2)
上記の式(1)、(2)から分かるように、特定単語Wが対象の文書中に多用されるほどtf値は大きくなり、特定単語Wが使用されている文書数が少ないほどidf値は大きくなる。その結果、tfとidfとの積tf・idfが大きい単語ほど、対象の文書は、特定単語Wが多用されている文書、若しくは、特定単語Wが使用されている数少ない文書、又は、その両方に該当することになる。したがって、tf・idf値は、その文書の特徴づけにおける対象の特定単語の重要度を表す量である。
特徴量算出部113は、文書毎に、使用されている全ての特定単語についてtf・idf値を算出して分析データ格納DB122に格納する。また、収集文書から位置情報が検出された場合、特徴量算出部113は、以下に詳述するように、検出された位置情報で特定される文書を含めた全文書を対象に、上記のようにtf・idf値を算出して格納する。
図6は、収集文書から位置情報が検出された場合に行われるtf・idf値の算出処理について説明するフローチャートである。tf・idf値の算出処理において、特徴量算出部113は、文書毎に、形態素解析の結果の特定単語を抽出して(S201)、抽出した特定単語を分析データ格納DB122に格納する(S202)。次に、特徴量算出部113は、残りの文書があるか否かを判断し(S203)、残りの文書があると判断したとき、ステップS201に戻って上記の処理を繰り返す。ステップS203で残りの文書がないと判断したとき、特徴量算出部113は、全文書中の全特定単語について、tf・idf値を算出して分析データ格納DB122に格納する(S204)。
次に、類似条件処理部114の説明に先立ち、クライアント端末2からホスト1への検索条件の入力について説明する。検索条件は、クライアント端末2の条件入力手段211を介して利用者によって入力され、通信手段214によってネットワーク3経由でホスト1に送信され、ホスト1の通信部117によって受信されて利用者情報格納DB123に格納されて登録される。本実施の形態では文書の検索を例にとり説明を行っているため、以下、検索条件はキーワード(以下、検索キーワードという。)からなるものとする。
類似条件処理部114は、上記のように入力された検索条件(以下、新規登録検索条件という。)が登録されているとき、新規登録検索条件と類似している検索条件の作成を試行し、試行によって類似している検索条件が作成された場合はこれを新規登録検索条件に付加して処理対象検索条件とし、作成されない場合は新規登録検索条件をそのまま処理対象検索条件とする。
図7は、類似する検索条件についての説明図である。図7に示すように、例えば「塩」という単語については、大和言葉T51としての「しお」、漢語T52としての「食塩」、外来語T53としての「ソルト」、化学的表記等T54としての「NaCl」等、の同義の単語が複数存在する。新規登録検索条件としてこれらのうちのいずれかが入力された場合、類似条件処理部114は、同義の他の単語も検索キーワードとして追加して処理対象検索条件を作成し、同義の検索条件を含めて検索可能とする。
一致文書検索部115は、類似条件処理部114によって生成された処理対象検索条件で、分析データ格納DB122から検索を行う。検索結果は、処理対象検索条件に最も一致度が高い順番に文書がリストされ、さらには文書間の類似度の高いものが集まるようにリストされるのでもよい。ここで、対象の文書の処理対象検索条件に対する一致度及び文書間の類似度は、例えば以下のようにして決定できる。以下、一致度及び類似度を決定する方法を類似度判定法という。
類似度判定法では、文書を特徴付ける以下の式(3)に示す文書ベクトルが使用される。2つの文書間の類似度は、文書a、bの文書ベクトルa、bの方向の一致性の高さとして規定される。したがって、以下の式(4)で表される文書ベクトルa、bがなす角度θdocが0に近い程、2つの文書は類似度が高いことになる。
Figure 2009075630
(3)
Figure 2009075630
(4)
次に、文書aの処理対象検索条件に対する一致度について説明する前に、検索条件ベクトルについて説明する。検索条件をなす検索キーワードがn個あったときに、検索条件ベクトルは、n個の要素を有し、各要素が上記の対応する検索キーワードのtf・idf値からなるものとして定義される。文書aの処理対象検索条件に対する一致度は、2つの文書間の類似度と同様に、文書ベクトルaの検索条件ベクトルに対応する要素からなるベクトル(以下、成分ベクトルという。)と、検索条件ベクトルとの方向の一致性として規定される。したがって、上記の式(4)において、文書ベクトルaを成分ベクトルaに置き換えると共に文書ベクトルbを検索条件ベクトルで置き換えて得られる角度が0に近い程、文書aが検索条件に即していることになる。以下に、具体的に説明する。
例えば、「検索エンジン」を新規登録検索条件とし、「検索エンジンのシステム」についての文献Aと「車のエンジン」についての文献Bとを対象として説明する。ここで、これらの2つの文献の文書ベクトルは以下の式(5)、(6)によって与えられるものとする。
A) (検索=0.8,エンジン=0.1,……) (5)
B) (検索=0,エンジン=0.9,……) (6)
素解析処理部112は、「検索エンジン」という検索条件が入力されたとき、検索条件を1つの文書とみなし検索キーワードとして「検索」と「エンジン」とを検出する。ここで、「検索」のidf値を1.69、「エンジン」のidf値を1.3とすると、「検索」と「エンジン」とが検索条件という文書内に一様分布して0.5の値をとるため、この検索条件に対する検索条件ベクトルは、以下の式(7)によって与えられる。
「検索条件」 (検索=0.85,エンジン=0.65) (7)
上記の式(5)〜(7)を用いて文献A、Bの処理対象検索条件「検索エンジン」に対する一致度を計算すると、一致度は以下の式(8)のように与えられる。
Figure 2009075630
(8)
上記の式(8)に示された結果は、文献Aに対する値(角度)が文献Bに対する値(角度)よりも小さいため、文献Aの方が処理対象検索条件「検索エンジン」に対して一致度が高いことを示す。したがって、文献Aの方が検索条件に合致していることが示される。
以下、検索の要求に対して検索結果を送信する検索応答処理について説明する。図8は、検索応答処理について説明するフローチャートである。まず、通信部117が検索条件を受信し(S301)、次に、素解析処理部112が検索条件に対して形態素解析処理を行って検索キーワードに分解し(S302)、類似条件処理部114が類似の他の単語も検索キーワードとして追加して処理対象検索条件を作成し(S303)、一致文書検索部115が検索条件ベクトルを算出して(S304)類似する文書を検索し(S305)、通信部117が検索結果をクライアント端末2に送信する(S306)。クライアント端末2側では、検索結果表示手段212が検索結果を表示し、もって利用者は入力した検索条件に合致する文書群を得ることができる。
ここで、利用者は、より目的に即した検索結果を取得しようとする場合、検索結果表示手段212に表示された検索結果を検索目的の観点で分類して返信する。具体的には、利用者は、検索結果分類手段213を介して検索結果を例えば必要、不要及び保留の3つのグループに分類し、通信手段214を介してホスト1に返信する。ホスト1は、受信した分類結果を利用者情報格納DB123に格納する。
目的整合化処理部116は、利用者情報格納DB123に格納された分類結果に基づいて、分類の指標を決定し、一致文書検索部115によって得られた検索結果を分類する。指標は例えば分類結果の文書中のtf・idf値の高い単語として決定され、指標の値の算出にはベイズ推定が適用される。ここで、ベイズ推定は、事象Aが発生する事前確率P(A)と、事象Aが発生したときの原因がXだったときの確率P(X|A)とから、より客観性の高い事後確率P(A|X)を求める手法である。まず、ベイズの定理が以下の式(9)として表される。
Figure 2009075630
(9)
分母の原因Xが発生する確率P(X)を、事前確率P(A)、確率P(X|A)、及びこれらから得られる確率を用いて表すと、事後確率P(A|X)は、事前確率P(A)、確率P(X|A)とその関連する確率のみで表すことが可能となる。事後確率P(A|X)を単語Wiが含まれている文書が不要である確率P(A|Wi)、事前確率P(A)を文書Aが不要である確率P(A)、確率P(X|A)を文書Aが不要であったときに単語Wiが含まれていた確率P(Wi|A)とすると、確率P(A|Wi)は以下のように表される。ここで、単語Wiは、例えば、利用者情報格納DB123に格納された分類結果のグループ毎に決定され、確率P(Wi|A)は、例えば、利用者情報格納DB123に格納された分類結果に基づいて決定される。
Figure 2009075630
(10)
ここで、上記の式(10)内のnotAはAでない事象を意味する。
以下、初期状態では事象Aが生ずる確率が不明であるため事前確率P(A)を一様分布(不要な確率と、そうでない確率が同じであること)即ち1/2とし、2回目以降の計算では、前の計算で得られたP(A|Wi)を事前確率P(A)として使用する。上記の式(10)を用いて、分析データ格納DB122における全ての単語に対して、P(A|Wi)を算出する。この計算は、クライアント端末2から検索結果に対する分類結果が返信される都度行われ、利用者情報格納DB123に再度格納される。また、事前確率P(A)のデータが既に存在する場合は、初期値として使用可能である。
以下、単語Wを含む文書が90%の確率で不要である(100個の文書中90個が不要)という統計が存在するときに、単語Wをtf・idf値の高い単語として含む文書Aが不要である確率を算出する。ここで、初期状態では、文書Aが不要な事前確率P(A)は、一様分布に従うものとして50%とする。
このとき、単語Wが文書Aに含まれていた場合、事後確率は上記の式(10)を適用して以下のように表される。
Figure 2009075630
この事後確率P(A|W)に基づいて、文書Aが90%の確率で不要な文書のグループに属すると判断される。同様に、「保留」のグループに属する確率、「必要」のグループに属する確率も求め、属する確率が高い方から「不要」、「保留」、及び「必要」のグループにこの文書を分類する。ここで、各グループに属する確率が接近している場合、例えば、確率が所定値以上の差を有しない場合、分類不能としてクライアント端末2に再分類を促す通知を送信するのでもよい。
上記のように構成することによって、初回にクライアント端末2に表示される検索結果は文書の類似度のみに基づいてリストされていたが、2回目以降は、クライアント端末2から受信した分類結果という事前情報に基づいて類似度又は一致度を判断するため、利用者の検索目的に沿った検索結果を提示することができる。また、クライアント端末2からの分類結果の受信と検索結果の送信とを繰り返すことによって、事前確率の精度が高まるため、より検索目的に沿った検索結果を提示することができる。さらに、新たな収集文書に対しても、同様にして付加的に検索結果をクライアント端末2に送信してユーザに提示可能になる。
図9は、クライアント端末から分類情報を受けた後の処理について説明するフローチャートである。まず、通信部117がクライアント端末2から分類結果を受信し(S401)、指標をとなるtf・idf値の高い単語を1つ以上決定し(S402)、この又はこれらの単語に対して上記のように事後確率を算出し(S403)、算出された事後確率等の情報を分析データ格納DB122に格納し(S404)、検索結果を分類して、必要であればリストし直してクライアント端末2に送信する(S405)。
本発明による情報検索システムの一実施例を模式的に示すブロック構成図である。 クライアント端末の一実施例を模式的に示すブロック構成図である。 収集文書の登録例を示す概念図である。 文書を収集して検索可能なデータとして登録するまでの処理について説明するフローチャートである。 形態素解析によって得られたデータの一例を示す図である。 収集文書から位置情報が検出された場合に行われるtf・idf値の算出処理について説明するフローチャートである。 類似する検索条件についての説明図である。 検索応答処理について説明するフローチャートである。 クライアント端末から分類情報を受けた後の処理について説明するフローチャートである。
符号の説明
1 ホスト
2 クライアント端末
3 ネットワーク網
111 データ収集部
112 素解析処理部
113 特徴量算出部
114 類似条件処理部
115 一致文書検索部
116 目的整合化処理部
117 通信部
121 収集データ格納データベース
122 分析データ格納データベース
123 利用者情報格納データベース
211 条件入力手段
212 検索結果表示手段
213 検索結果分類手段
214 通信手段
T31 文書ID
T32 文書名
T33 本文
T34 URL
T41 表記
T42 読み
T43 品詞
T44 基本形表記
T51 大和言葉
T52 漢語
T53 外来語
T54 化学的表記等

Claims (1)

  1. ネットワークを介して相互に通信可能に接続され、前記ネットワーク上の文書の検索を要求するクライアント端末と、前記ネットワーク上の文書を収集して保持し、前記クライアント端末からの要求に応じて少なくとも保持する文書から検索して検索結果を前記クライアント端末に返信するホストと、を備えるシステムであって、
    前記ホストが、
    収集した収集文書を格納する収集データ格納データベースと、
    収集文書に対する形態素解析の結果と文書を特徴付ける単語に基づく文書の重要度とを格納する分析データ格納データベースと、
    検索結果に対する応答としてクライアント端末から受信した分類結果を格納する利用者情報格納データベースと、
    前記ネットワーク上の文書を収集するデータ収集部と、
    前記収集文書に対して前記形態素解析を行って単語に分解する素解析処理部と、
    前記形態素解析で得られた単語に関して文書を特徴付ける重要度を算出する特徴量算出部と、
    クライアント端末からの検索条件に、これと類似した検索条件を付加して処理対象検索条件を生成する類似条件処理部と、
    前記処理対象検索条件に基づいて、検索を行う一致文書検索部と、
    前記利用者情報格納データベースに格納された検索結果に対する分類結果と前記重要度の高い単語とに基づいて、前記クライアント端末に送信した検索結果をなす収集文書の検索目的との整合性を推定して、再度分類する目的整合化処理部と、を備えることを特徴とする情報検索システム。
JP2007241212A 2007-09-18 2007-09-18 情報検索システム Pending JP2009075630A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007241212A JP2009075630A (ja) 2007-09-18 2007-09-18 情報検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007241212A JP2009075630A (ja) 2007-09-18 2007-09-18 情報検索システム

Publications (1)

Publication Number Publication Date
JP2009075630A true JP2009075630A (ja) 2009-04-09

Family

ID=40610573

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007241212A Pending JP2009075630A (ja) 2007-09-18 2007-09-18 情報検索システム

Country Status (1)

Country Link
JP (1) JP2009075630A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011054137A (ja) * 2009-09-04 2011-03-17 Qualica Inc テキスト処理装置及びコンピュータプログラム
US10885043B2 (en) 2014-05-15 2021-01-05 Nec Corporation Search device, method and program recording medium

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001117937A (ja) * 1999-10-20 2001-04-27 Hitachi Ltd 文書検索方法および装置
JP2004126840A (ja) * 2002-10-01 2004-04-22 Hitachi Ltd 文書検索方法、プログラムおよびシステム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001117937A (ja) * 1999-10-20 2001-04-27 Hitachi Ltd 文書検索方法および装置
JP2004126840A (ja) * 2002-10-01 2004-04-22 Hitachi Ltd 文書検索方法、プログラムおよびシステム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011054137A (ja) * 2009-09-04 2011-03-17 Qualica Inc テキスト処理装置及びコンピュータプログラム
US10885043B2 (en) 2014-05-15 2021-01-05 Nec Corporation Search device, method and program recording medium
US11544276B2 (en) 2014-05-15 2023-01-03 Nec Corporation Search device, method and program recording medium

Similar Documents

Publication Publication Date Title
CN108804641B (zh) 一种文本相似度的计算方法、装置、设备和存储介质
CN110765275B (zh) 搜索方法、装置、计算机设备和存储介质
CN109933785B (zh) 用于实体关联的方法、装置、设备和介质
JP6764488B2 (ja) 主題分類器の訓練方法、装置及びコンピュータ読み取り可能な記憶媒体
EP2801054B1 (en) Method and system for comparing images
US6883001B2 (en) Document information search apparatus and method and recording medium storing document information search program therein
US8200695B2 (en) Database for uploading, storing, and retrieving similar documents
JP5350472B2 (ja) トピックに関する複数の製品にランクを付ける製品ランク付け方法及び製品ランク付けシステム
WO2018096789A1 (en) Method for training neuron network and active learning system
US8762390B2 (en) Query specific fusion for image retrieval
US20170220589A1 (en) Item recommendation method, device, and system
KR101976081B1 (ko) 토픽 모델링 기반 시맨틱 이미지 검색 방법, 시스템 및 컴퓨터 프로그램
US20140297639A1 (en) Apparatus, system, and method for detecting complex issues based on social media analysis
CN114419501A (zh) 视频推荐方法、装置、计算机设备及存储介质
WO2023010427A1 (en) Systems and methods generating internet-of-things-specific knowledge graphs, and search systems and methods using such graphs
KR101965276B1 (ko) 그래프 기반의 데이터 분석 시스템 및 방법과, 이를 위한 컴퓨터 프로그램
CN115168590A (zh) 文本特征提取方法、模型训练方法、装置、设备及介质
JP6729678B2 (ja) 情報処理装置、容疑者情報生成方法及びプログラム
JP2009075630A (ja) 情報検索システム
CN117349406A (zh) 基于大数据的专利信息检索系统及方法
US8918406B2 (en) Intelligent analysis queue construction
CN111382254A (zh) 电子名片推荐方法、装置、设备及计算机可读存储介质
CN110688516A (zh) 图像检索方法、装置、计算机设备和存储介质
JPWO2012077818A1 (ja) ハッシュ関数の変換行列を定める方法、該ハッシュ関数を利用するハッシュ型近似最近傍探索方法、その装置及びそのコンピュータプログラム
CN114861052A (zh) 一种基于产业知识图谱的新闻重要度计算方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100104

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120214

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120619