JP2007072646A - 検索装置、検索方法およびプログラム - Google Patents

検索装置、検索方法およびプログラム Download PDF

Info

Publication number
JP2007072646A
JP2007072646A JP2005257429A JP2005257429A JP2007072646A JP 2007072646 A JP2007072646 A JP 2007072646A JP 2005257429 A JP2005257429 A JP 2005257429A JP 2005257429 A JP2005257429 A JP 2005257429A JP 2007072646 A JP2007072646 A JP 2007072646A
Authority
JP
Japan
Prior art keywords
phrase
unit
keywords
keyword
evaluation target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005257429A
Other languages
English (en)
Inventor
Kazuo Nemoto
和郎 根本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2005257429A priority Critical patent/JP2007072646A/ja
Priority to US11/515,583 priority patent/US20070061322A1/en
Publication of JP2007072646A publication Critical patent/JP2007072646A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】利用者の興味の対象となっている分野における有用な情報を、これまでよりも小さい作業負担によって効率的に抽出する。
【解決手段】複数のテキストから語句を検索する検索装置を提供する。検索装置は、少なくとも何れか1つのテキストに含まれる予め定められた語句を、注目度を評価する対象となる評価対象語句として予め記録している。そして、複数のキーワードを入力する。検索装置は、各々のキーワードについて、当該キーワードを含むテキストにおいて評価対象語句が使用される頻度である使用頻度を判断する。そして、各々のキーワードについて判断された使用頻度の各々に基づいて、評価対象語句の注目度を評価する。
【選択図】図3

Description

本発明は、検索装置、検索方法およびプログラムに関する。特に、本発明は、複数のテキストから語句を検索する検索装置、検索方法およびプログラムに関する。
近年、IT(Information Technology)分野のように、変化の激しい分野が増えてきている。このような分野で変化に追従していくためには、インターネット等の情報源から新たな情報を効率的に抽出することが重要となる。これに対して、従来、検索エンジンや検索サイトと呼ばれる、テキストデータの検索技術が用いられている。一例として、検索エンジンのGoogle(登録商標)は、利用者が入力した語句を含むテキストをインターネットから検索して利用者に表示する(非特許文献1を参照。)。この検索処理は極めて高速であり、かつ、検索されるテキストも膨大であるので、現時点において利用者の人気を博している。
また、近年、ウェブサイトは、ニュース等の情報をテキストデータにより公開するのみならず、RSS(Rich Site Summary)等の所定のフォーマットに準拠したデータにより公開するようにもなってきている。ここで、RSSは、XMLを利用したコンテンツ配信のための規格化されたフォーマットである。RSSによれば、XMLのタグや属性値等によって、ニュースのヘッドラインや要約部分を判別することができる。このため、専用の検索用ソフトウェアを用いれば、利用者の要望に対応した効率的な検索が実現できる。
また、近年、膨大なデータの中から有用な情報のみを自動的に抽出するデータ・マインニングが研究されている。データ・マインニングによれば、小売店の販売データや電話の通話履歴、クレジットカードの利用履歴など、企業に大量に蓄積されるデータを解析し、その中に潜む項目間の相関関係やパターンなどを探し出すことができる。
特許文献1については後述する。
「Google(登録商標)の基本検索」インターネット、ホームページURL「http://www.google.co.jp/intl/ja/help/basics.html」平成17年5月25日検索 特許第3606566号
しかしながら、検索エンジンによって検索されるテキストは膨大な場合が多い。このため、利用者は、真に欲する情報を得るためには、利用者の知識や経験に基づいて、検索された多くのテキストの中から有用な情報を見つけ出さなければならなかった。また、RSS等の規格化によって検索効率は向上するものの、検索される情報は依然として膨大である。更に、RSS等によって規格化される情報は、一般に、ニュース提供事業者によって作成された信頼性の高い情報である。しかしながら、特定分野の変化に追従するためには、一般利用者によって書込まれた掲示板やウェブログ中の情報が有用となる場合もある。
なお、利用者の作業負担を軽減するために、従来、検索エンジンは、検索されたテキストを優先度に基づいて並べ替えて表示する。この優先度は、例えば、各テキストが他のテキストから参照される被参照数によって定められる。この被参照数は、ウェブページ作成者全体の興味の程度を測る尺度となる。即ちこれにより、概ね多くの者が興味を持っているテキストを、優先して表示することができる。
しかしながら、利用者が抽出したい情報が、既に多くの者による興味の対象となっているとは限らない。むしろ、利用者は、未だ多くの者に知られていないものの、これから急速に知られるようになる情報を得たい場合がある。更に、検索エンジンは、テキストの内容や対象分野に関わらずインターネット全体を対象として検索する。このため、利用者の興味の対象となっていない分野から、利用者の欲していない情報が得られてしまう場合があった。
これらに対して、データ・マインニングは、有用な情報のみを自動的に抽出することを目標に研究されている。特に、データ・マインニングの1つであるテキスト・マインニングによれば、文脈解析技術によってテキストの意味を特定して、情報の抽出精度を高めることができる。しかしながら、テキスト・マインニングを実用的な技術水準で実現するには、文脈解析用の辞書データが必要となる。従来、このような辞書データは、開発者が必要な単語を手作業で登録することによって作成されている。このため、開発や保守に多くの費用や時間が必要であった。
なお、参考技術として上記の特許文献1が挙げられる。この技術においては、キーワードの重要度を、そのキーワードが出現する回数のカウント値に基づいて評価する。キーワードの重要度は、カウント値の時間経過に応じた変化に基づいて定められる。これによって、そのキーワードが最近になって急激に使われてきた事実を重要度の評価基準とすることができる。しかしながら、この技術によっては、様々な分野が交じり合った情報に基づいて、ある特定分野においてある特定キーワードが急速に使われてきていることを検出することはできなかった。
そこで本発明は、上記の課題を解決することのできる検索装置、検索方法およびプログラムを提供することを目的とする。この目的は特許請求の範囲における独立項に記載の特徴の組み合わせにより達成される。また従属項は本発明の更なる有利な具体例を規定する。
上記課題を解決するために、本発明の第1の形態においては、複数のテキストから語句を検索する検索装置であって、少なくとも何れか1つのテキストに含まれる予め定められた語句を、注目度を評価する対象となる評価対象語句として予め記録している記録部と、複数のキーワードを入力する入力部と、各々のキーワードについて、当該キーワードを含むテキストにおいて評価対象語句が使用される頻度である使用頻度を判断する頻度判断部と、各々のキーワードについて判断された使用頻度の各々に基づいて、評価対象語句の注目度を評価する評価部とを備える検索装置、当該検索装置による検索方法、および当該検索装置として情報処理装置を機能させるプログラムを提供する。
上記課題を解決するために、本発明の第2の形態においては、複数のテキストから語句を検索する検索装置であって、複数の語句を予め記録している辞書記録部と、複数のキーワードを利用者から入力する入力部と、複数のキーワードの各々について、当該キーワードを含むテキストに含まれる語句のうち、辞書記録部に記録されていない未登録語句を検出する検出部と、少なくとも2つのキーワードについて、何れのキーワードが含まれるテキストからも共通して検出された未登録語句を選択して出力する選択部とを備える検索装置、当該検索装置による検索方法、および当該検索装置として情報処理装置を機能させるプログラムを提供する。
上記課題を解決するために、本発明の第3の形態においては、複数のテキストから語句を検索する検索装置であって、テキストに出現する予め定められた語句を、注目度を評価する対象となる評価対象語句として予め記録している記録部と、キーワードを入力する入力部と、異なる複数回のタイミングにおいて、当該キーワードを含むテキストにおいて評価対象語句が使用される頻度である使用頻度を判断する頻度判断部と、第1のタイミングにおいて判断された使用頻度に対する、第1のタイミングよりも後の第2のタイミングにおいて判断された使用頻度の上昇率がより高い場合に、当該上昇率がより低い場合と比較して注目度をより高く評価する評価部とを備える検索装置、当該検索装置による検索方法、および当該検索装置として情報処理装置を機能させるプログラムを提供する。
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの特徴群のサブコンビネーションもまた、発明となりうる。
本発明によれば、利用者の興味の対象となっている分野における有用な情報を、これまでよりも小さい作業負担によって効率的に抽出することができる。
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
図1は、検索装置10の機能構成を示す。検索装置10は、利用者端末20において動作するウェブ・ブラウザ等から入力した複数のキーワードに基づいて、ネットワーク15上で公開された複数のテキストから語句を検索する。そして、検索装置10は、検索された語句に、それらのキーワードに基づいて評価された注目度を対応付けて利用者端末20に出力する。利用者端末20は、受信したキーワードおよび注目度をウェブ・ブラウザ等において利用者に表示する。この注目度は、従来とは異なり、何れかのキーワードのみとの関連性の強さではなく、何れのキーワードからも強く関連付けられていることを示す指標値となる。また、この注目度は、前回検索したときとの検索結果の違いに更に基づいて算出される。これによって、利用者の興味の対象となっている分野における有用な情報を、これまでよりも小さい作業負担によって効率的に抽出することを目的とする。
検索装置10は、入力部100と、語句選択部110と、検索エンジン部120と、データベース125と、語句記録部130と、注目度評価部140とを有する。入力部100は、複数のキーワードを利用者端末20から入力する。キーワードは、利用者の興味の対象となっている分野に象徴的な語句であることが望ましい。ここで、キーワードとは、名詞のみならず動詞や形容詞などの他の品詞の語句であってもよい。また、語句とは、単一の単語のみならず、複数の単語から構成されるフレーズや句であってもよい。語句選択部110は、複数のキーワードに基づいて、辞書に登録されていない未登録語句の中から、注目度を評価する対象となる評価対象語句を選択し、語句記録部130に記録する。評価対象語句の選択には、検索エンジン部120が用いられてもよい。
検索エンジン部120は、通常のテキスト検索を行う。具体的には、検索エンジン部120は、形態素解析の言語処理機能を有し、テキストを品詞に分解して語句を検索することができる。一例として、検索エンジン部120は、キーワードの指定に応じ、そのキーワードを含むテキストをネットワーク15中から検索してもよい。検索処理は、必ずしも、キーワードの指定後に行われる必要はない。即ち例えば、検索エンジン部120は、予め定められたキーワードの各々について、そのキーワードによる検索結果をデータベース125に予め記録してもよい。このとき、検索エンジン部120は、語句選択部110等から受けたキーワードの指定に応じ、そのキーワードによる検索結果をデータベース125から読み出して出力してもよい。
語句記録部130は、検索エンジン部120により選択された未登録語句を評価対象語句として記録する。選択された未登録語句が複数である場合には、語句記録部130は、それらの未登録語句を複数の評価対象語句として記録してもよい。また、語句記録部130は、注目度評価部140により評価された注目度を、評価対象語句に対応付けて更に記録してもよい。注目度評価部140は、入力されたキーワードにより特定される分野において、語句記録部130に記録された評価対象語句が注目される程度を示す注目度を評価する。評価対象語句の評価処理には、検索エンジン部120が用いられてもよい。注目度評価部140は、注目度を評価対象語句に対応付けて利用者端末20に出力し、利用者端末20において利用者に対して表示する。また、注目度評価部140は、評価結果に対して利用者の操作を受け付け、その操作内容を利用者端末20から受信する。この操作に応じ、例えば、注目度評価部140は、評価対象語句を新たなキーワードとして追加してもよい。
図2は、語句選択部110の機能構成を示す。語句選択部110は、辞書記録部200と、検出部210と、選択部220とを有する。辞書記録部200は、複数の語句を予め記録している。これらの語句は、例えば、一般名称・慣用名称その他一般利用者に広く知られた周知語句である。検出部210は、複数のキーワードの各々について、そのキーワードを含むテキストに含まれる語句のうち、辞書記録部200に記録されていない未登録語句を検出する。所定のキーワードを含むテキストは、検索エンジン部120によって検索されてもよい。即ち検出部210は、各々のキーワードについて、そのキーワードを含むテキストを検出部210によって検索させ、検索されたテキストの中から未登録語句を検出してもよい。
選択部220は、少なくとも2つのキーワードについて、何れのキーワードが含まれるテキストからも共通して検出された未登録語句を選択する。キーワードの数は、利用者の設定によって予め定められていてもよい。即ち例えば、選択部220は、予め設定された数のキーワードについて、何れのキーワードが含まれるテキストからも共通して検出された未登録語句を選択してもよい。設定される数は、例えば2であり、また、3以上の所定の数であってもよい。また、これらのキーワードの組は予め定まっているものでなくともよい。即ち、選択部220は、入力された複数のキーワードのうち何れか2つのキーワードについて、何れのキーワードが含まれるテキストからも共通して検出された未登録語句を選択してもよい。
図3は、注目度評価部140の機能構成を示す。注目度評価部140は、頻度判断部300と、評価部310と、表示部320と、検索部330と、追加部340と、除外部350とを有する。頻度判断部300は、複数のキーワードを入力部100から入力し、評価対象語句を語句記録部130から取得する。そして、頻度判断部300は、各々のキーワードについて、当該キーワードを含むテキストにおいて評価対象語句が使用される頻度である使用頻度を判断する。使用頻度とは、例えば、当該テキストにおいて評価対象語句が用いられる回数の総数であってもよい。これに代えて、使用頻度とは、当該回数の総数を、評価対象語句が使用されているテキストの量によって除した指標値であってもよいし、当該回数の総数を、ネットワーク15内で検索対象となったテキストの量によって除した指標値であってもよい。
評価部310は、各々のキーワードについて判断された使用頻度の各々に基づいて、評価対象語句の注目度を評価する。評価結果は、表示部320に出力される。また、評価結果は、評価対象語句に対応付けて語句記録部130に記録されてもよい。表示部320は、評価対象語句を注目度に対応付けて利用者端末20に出力し、利用者端末20において利用者に対して表示する。具体的には、表示部320は、評価対象語句を、評価部310によって評価された注目度に対応付けて選択可能に表示してもよい。選択可能な表示とは、例えば、評価対象語句の隣にマウスでクリック可能なシンボルを表示することであってもよい。このシンボルは、クリックにより行われる処理の種類に応じて複数設けられてもよい。また、表示部320は、入力されたキーワードを、そのキーワードによる評価された評価対象語句に対応付けて更に表示してもよい。このキーワードも、選択可能に表示されてもよい。
検索部330は、評価対象語句が利用者によって選択されたことに応じ、評価対象語句を含むテキストを複数のテキストの中から検索して表示部320に出力する。検索結果は、表示部320により利用者に表示されてもよい。また、追加部340は、評価対象語句が利用者によって選択されたことに応じ、その評価対象語句を新たなキーワードとして追加するべく入力部100に通知してもよい。また、除外部350は、利用者によってキーワードが選択されたことに応じ、そのキーワードを、評価部310によって他の評価対象語句の注目度を評価するためのキーワードから除外してもよい。
図4は、検索装置10によって語句の注目度が評価される処理のフローチャートを示す。入力部100は、複数のキーワードを利用者端末20から入力する(S400)。入力部100は、利用者の興味の対象となる分野毎に、複数のキーワードを入力してもよい。即ちこの場合、入力部100は、評価対象語句毎に複数のキーワードを入力する。このとき、ある評価対象語句を評価するためのキーワードは、他の評価対象語句を評価するためのキーワードと異なってもよいし、他の評価対象語句を評価するためのキーワードと少なくとも一部が共通であってもよい。一例として、ある特定分野のキーワードがA、BおよびCのとき、他の特定分野のキーワードがB、CおよびDであって、BおよびCが共通であってもよい。
次に、語句選択部110は、未登録語句の中から評価対象語句を選択して語句記録部130に記録する(S410)。次に、注目度評価部140は、評価対象語句の注目度を順次評価する(S420)。注目度が評価された評価回数が所定の基準回数に達するまでは(S430:NO)、注目度評価部140は、S420の処理を繰り返す。この基準回数は、2以上の所定の数である。評価回数が基準回数に達したことを条件に(S430:YES)、注目度評価部140は、評価回数を0回にリセットする(S440)。この場合、評価対象語句が変更され得るので、各々の評価対象語句について既に評価された注目度の情報は破棄されてもよい。検索装置10は、S410に処理を戻す。
以上、本図に示す処理によれば、検出部210は、異なる複数のタイミングにおいて未登録語句を検出し、選択部220は、未登録語句が検出される毎に、記録している評価対象語句を更新する。そして、頻度判断部300は、検出部210が未登録語句を検出する頻度よりも高い頻度で、評価対象語句の使用頻度を判断する。ここで、未登録語句の検出には、比較的長い処理時間を要する場合が多い。これは、テキストを解析して単語に分解する処理や、処理結果を辞書と比較する処理に多くの時間を要するためである。一方で、注目度の評価には長い処理時間は不要である。即ち本図の処理によれば、使用される語句の種類はあまり変化せず、その頻度のみが変化する場合において、その変化に追従して注目度を効率的に評価できる。
図5は、S410における処理の概念図を示す。検出部210は、キーワードを含むか否かによって複数のテキストを分類する(S500)。キーワードAを含むテキストと、キーワードBとを含むテキストを左側に図示する。何れのキーワードをも含まないテキストを右側に図示する。検出部210は、各々のテキストから未登録語句を検出する(S510)。即ち、検出部210は、キーワードを含むテキストから未登録語句を検出すると共に、更に、何れのキーワードも含まないテキストから未登録語句を検出してもよい。
選択部220は、少なくとも2つのキーワードについて(ここでは、キーワードAおよびキーワードBの双方について)、何れのキーワードが含まれるテキストからも共通して検出された未登録語句を選択する(S520)。即ち、キーワードAを含むテキストから検出された未登録語句と、キーワードBを含むテキストから検出された未登録語句の積集合が選択される。本図ではこの選択処理を、論理回路のANDゲートによって示す。
そして、好ましくは、選択部220は、選択された未登録語句から、何れのキーワードも含まないテキストにおいて検出された未登録語句を除外して選択する(S520)。即ち、キーワードAを含むテキストから検出された未登録語句、および、キーワードBを含むテキストから検出された未登録語句との積集合と、何れのキーワードをも含まないテキストにおいて検出された未登録語句の補集合との積集合が選択される。本図では、この選択処理を、論理回路のNOTゲートおよびANDゲートの組み合わせとして示す。選択された未登録語句は、評価対象語句として語句記録部130に記録される。
図6は、S410における処理の具体例を示す(2図のうち1図目)。最も左に複数のテキストを図示する。テキストとは、例えば、テキストファイルであってもよいし、テキストファイル中の一行であってもよい。また、行とは、句点によって区切られる文であってもよいし、HTML文書において改行を示すタグによって区切られる文であってもよい。本例では、「キーワードAにXXした…」等の文字データがテキストとして検出されている。
検出部210は、各々のキーワードについて、そのキーワードを含むテキストに含まれる語句のうち未登録語句を検出する。即ち例えば、検出部210は、そのキーワードを含む行に含まれる語句のうち未登録語句を検出してもよいし、そのキーワードを含むテキストファイルに含まれる語句のうち未登録語句を検出してもよい。この結果、キーワードAについて、XX、YYおよびZZが未登録語句として検出される。また、キーワードBについて、XXおよびYYが未登録語句として検出される。一方で、何れのキーワードも含まないテキストからは、XXおよびWWが未登録語句として検出される。
図7は、S410における処理の具体例を示す(2図のうち2図目)。選択部220は、少なくとも2つのキーワードについて、何れのキーワードが含まれるテキスト(例えば、行又はテキストファイル)からも共通して検出された未登録語句を選択する。未登録語句YYは、キーワードAおよびキーワードBの何れについても共通して検出された未登録語句であるから、語句「YY」が評価対象語句として選択される。
一方で、語句「ZZ」は、キーワードAを含むテキストのみから検出されたので、評価対象語句として採用されない。また、語句「XX」は、何れのキーワードについても共通して検出されたものの、何れのキーワードも含まないテキストからも検出されているので、評価対象語句として採用されない。語句「WW」は、何れのキーワードについても検出されていないので、評価対象語句として採用されない。
図8は、S420における処理の詳細を示す。頻度判断部300および評価部310は、評価対象語句の注目度を評価する(S800)。表示部320は、評価対象語句を注目度に対応付けて利用者端末20において表示する(S810)。表示部320が、利用者の選択操作その他の入力を利用者端末20から受けると(S820:YES)、検索部330、追加部340および除外部350は、その入力内容に応じた処理を行う(S830)。
図9は、S800における処理の概念図を示す。いま、キーワードAおよびキーワードBが入力されているとする。また、評価対象語句1、評価対象語句2および評価対象語句3が選択されているとする。頻度判断部300は、まず、キーワードAを含むテキストにおいて、評価対象語句1〜3の各々の使用頻度を判断する(S900−1)。次に、頻度判断部300は、キーワードBを含むテキストにおいて、評価対象語句1〜3の各々の使用頻度を判断する(S900−2)。各々のキーワードを含むテキストは、通常の検索処理によって検索することができる。使用頻度は、テキスト中で使用される語句の使用回数に基づいて求められる。
そして、評価部310は、各々のキーワードについての使用頻度の各々に基づいて、注目度を評価する(S910)。例えば、評価部310は、複数のキーワードの各々について判断された使用頻度の積を注目度として評価してもよい。これによって、入力されたキーワードの何れかのみと関連付けられている語句ではなく、入力されたキーワードの何れからも関連付けられている語句を、注目度の高い語句として評価することができる。これに代えて、評価部310は、各々のキーワードについて判断された使用頻度の差がより小さい場合に、当該使用頻度の差がより大きい場合と比較して注目度をより高く評価してもよい。このような方法であれば、使用頻度の積と注目度が必ずしも一致しなくてもよい。
さらに、評価部310は、各々のキーワードと評価対象語句との間のテキスト中の単語間距離に基づいて注目度を評価してもよい。ここで、2つの語句の間の単語間距離とは、一方の単語が出現するテキスト中の位置と、他方の単語が出現するテキスト中の位置との間の論理的な距離を言う。例えば、一方の単語および他方の単語が同一の行(句点で区切られた1つの文)に出現する場合には、一方の単語および他方の単語が同一の文章の異なる行に出現する場合よりも、これらの単語の間の単語間距離は短い。また、一方の単語および他方の単語が同一の章(チャプター)や節(セクション)に出現する場合には、一方の単語および他方の単語が異なる章や節に出現する場合よりも、これらの単語の間の単語間距離は短い。
具体的な処理としては、まず、評価部310は、各々のキーワードと評価対象語句との間の単語間距離に基づく重みを当該キーワードについて判断された使用頻度に乗じることによって重み付き使用頻度を算出する。そして、評価部310は、各々のキーワードについて算出した重み付き使用頻度に基づいて注目度を評価してもよい。即ち、キーワードがテキストの見出し語やタイトルに一致する場合には、キーワードがテキストの通常文中に含まれる場合と比較して、そのテキストにおいて使用された評価対象語句の使用頻度には、高い重みを乗じてもよい。これにより、評価対象語句の注目度をより適切に評価することができる。
図10は、S910における処理の具体例を示す。キーワードAを含むテキストにおいて評価対象語句1が1回使用され、キーワードBを含むテキストにおいて評価対象語句1が1回使用されている。このため、評価部310は、評価対象語句1の注目度を、1×1により1と評価する。一方、キーワードAを含むテキストにおいて評価対象語句2が10回使用され、キーワードBを含むテキストにおいて評価対象語句2が10回使用されている。このため、評価部310は、評価対象語句2の注目度を10×10により100と評価する。
また、キーワードAを含むテキストにおいて評価対象語句3が50回使用され、キーワードBを含むテキストにおいて評価対象語句3が1回使用されている。このため、評価部310は、評価対象語句3の注目度を50×1により50と評価する。
図11は、注目度の算出方法の概念図を示す。何れのキーワードが含まれるテキストにおいても、評価対象語句が高い頻度で使用されていれば、その注目度は高い。一方で、何れかのキーワードが含まれるテキストにおいて高い頻度で使用されている語句でも、他のキーワードが含まれるテキストにおいてあまり使用されていなければ、その語句の注目度は低い。具体的には、本図の評価対象語句1は、合計7箇所に出現しており、評価対象語句2は、合計6箇所に出現しており、その差分は僅かに1箇所である。しかしながら、評価対象語句1の注目度は、キーワードAが含まれるテキストにおける出現回数である3と、キーワードBが含まれるテキストにおける出現回数である4とを乗じた12となる。一方で、評価対象語句2の注目度は、キーワードAが含まれるテキストにおける出現回数である5と、キーワードBが含まれるテキストにおける出現回数である1とを乗じた5となる。このように、注目度を使用頻度の積とすることで、何れかのキーワードのみから関連付けられている語句ではなく、何れのキーワードからも関連付けられている語句の注目度を高く評価することができる。
なお、評価部310は、ある評価対象語句が、何れのキーワードをも含むテキストから検出された場合には、その評価対象語句の注目度を更に高く評価してもよい。そのようなテキストは、本図においては、キーワードAおよびキーワードBの集合範囲の積集合部分に相当する。この部分に相当するテキストは、何れのキーワードとも強く関連付けられており、利用者の関心が高いと考えられるからである。本図の例では、キーワードAが含まれるテキストにおいてある評価対象語句(これを評価対象語句3とする)が出現する出現回数は4回である。一方、キーワードBが含まれるテキストにおいて評価対象語句3が出現する出現回数は5回である。このため、まず、評価部310は、評価対象語句3の注目度として、4回および5回の積である20を算出する。更に、評価部310は、評価対象語句3が、キーワードAおよびキーワードBの何れのキーワードを含むテキストからも検出されたので、評価対象語句3の注目度を更に高く評価する。例えば、評価部310は、出現回数の積である20に、所定の正の数αを加算した値を、評価対象語句3の注目度として算出してもよい。
図12は、S910における処理の他の例を示す。評価部310は、図10に示した処理に代えて、本図の処理によって注目度を評価してもよい。本図の処理によれば、語句の使用頻度の上昇率に応じて注目度を高く評価できる。具体的には、図左端に、第1のタイミングにおいて評価された注目度を示す。この注目度は、第1のタイミングにおいて頻度判断部300により判断された使用頻度に基づいて求められる。
図中央に、第2のタイミングにおいて評価された注目度を示す。この注目度は、第2のタイミングにおいて頻度判断部300により判断された使用頻度に基づいて求められる。評価部310は、第1のタイミングについて求められた注目度に対する、第2のタイミングについて求められた注目度の上昇率を求める。図示のように、評価対象語句1、評価対象語句2および評価対象語句3の各々について、上昇率はそれぞれ2、1.6および1となる。
評価部310は、求めた上昇率を、第2のタイミングについて求められた注目度に乗じることによって、各々の評価対象語句の注目度を評価する。即ち、評価対象語句1の注目度は、200に2を乗じることによって400と評価される。また、評価対象語句2の注目度は、80に1.6を乗じることによって128と評価される。また、評価対象語句3の注目度は、1に1を乗じることによって1と評価される。このように、評価部310は、評価対象語句の使用頻度の上昇率がより高い場合に、当該上昇率がより低い場合と比較して当該語句の注目度をより高く評価する。これによって、特定分野で最近頻繁に使われるようになった語句を更に高く評価することができる。
図13は、表示部320が利用者端末20に表示する画面の表示例を示す。表示部320は、評価対象語句の各々を、評価部310によって評価された注目度に対応付けて選択可能に表示する。選択可能な表示とは、例えば、評価対象語句の隣にマウスでクリック可能なシンボルを表示することであってもよい。詳しくは後述するが、評価対象語句の隣には、例えば、その評価対象語句をキーとしてテキストを検索するためのシンボルが表示されてもよい。
ここで、好ましくは、表示部320は、複数の評価対象語句を、その語句について評価部310によって評価された注目度の順に、利用者によって選択され易いように画面上部から並べて表示する。そしてこの場合、表示部320は、ある評価対象語句の注目度が更に評価されたことに応じ、その評価対象語句と、既に評価された他の評価対象語句とを、注目度の順に、利用者によって選択され易いように優先して表示してもよい。これによって、利用者は、注目度の高い語句を即座に認識することができる。
また、表示部320は、入力された各々のキーワードを、当該キーワードにより注目度が評価された評価対象語句に対応付けて表示する。即ち、図示の例は、キーワードAによって、評価対象語句1、評価対象語句2および評価対象語句4が評価されたことを示す。ここで、あるキーワードが、使用頻度の高い多くの評価対象語句に対応している場合には、そのキーワードは、様々な分野で共通して用いられる一般的な語句である可能性が高い。このため、そのようなキーワードによっては、特定分野の語句の注目度を適切に評価できない場合がある。このため、好ましくは、表示部320は、入力された各々のキーワードを、当該キーワードにより評価された注目度が所定の基準以上である評価対象語句の数の順に、利用者によって選択され易いように優先して表示する。利用者によって選択されたキーワードは、除外部350によって、他の評価対象語句の注目度を評価するためのキーワードから除外される。これによって、利用者は、以降の処理における注目度評価の精度を高めることができる。
図14は、表示領域600および表示領域610における表示内容の詳細を示す。(a)に示すように、表示部320は、表示領域600において、キーワードの隣にマウスでクリック可能なシンボルを表示する。本図において、このシンボルは、「除外」と書かれた文字列によるハイパーリンクである。除外部350は、「除外」シンボルがクリックされたことによってその隣のキーワードが利用者によって選択されたと判断する。そして、除外部350は、利用者によって選択されたキーワードを、評価部310によって他の評価対象語句の注目度を評価するためのキーワードから除外する。
(b)に示すように、表示部320は、表示領域610において、評価対象語句の隣にマウスでクリック可能なシンボルを表示する。本図において、このシンボルは、「検索」、「追加」および「既知語登録」と書かれた文字列によるハイパーリングである。検索部330は、「検索」シンボルがクリックされたことによってその隣の評価対象語句が利用者によって選択されたと判断する。そしてその場合、検索部330は、その評価対象語句およびその評価対象語句を評価した複数のキーワードによってネットワーク15を検索してもよい。即ちこれにより、評価対象語句および複数のキーワードの何れもが含まれているテキストが検索される。
また、追加部340は、「追加」シンボルがクリックされたことによってその隣の評価対象語句が利用者によって選択されたと判断する。その評価対象語句を第1の評価対象語句とする。そして、追加部340は、第1の評価対象語句が利用者によって選択されたことに応じ、次に評価対象となる第2の評価対象語句を評価するためのキーワードとして当該第1の評価対象語句を追加する。例えば、追加部340は、当該第1の評価対象語句をキーワードとして入力された語句として取り扱う旨を、入力部100に対して通知してもよい。
また、評価部310は、「既知語登録」シンボルがクリックされたことによってその隣の評価対象語句が利用者によって選択されたと判断する。そして、評価部310は、評価対象語句が利用者によって選択されたことに応じ、その評価対象語句を既知語として登録する旨を語句記録部130に通知してもよい。
以上、図13および図14に示す表示例によれば、注目度の高い評価対象語句を利用者に分かり易く表示して、評価結果を効率的に活用させることができる。また、使用頻度の高い多くの評価対象語句を評価するキーワードについては、一般的な用語である可能性が高いものとして選択し易く表示する。これにより、評価方法の修正を利用者に促し、評価の毎に評価精度を高めさせることができる。
以上の実施例に示したように、本例に係る検索装置10によれば、利用者の興味の対象となっている分野における有用な情報を、これまでよりも小さい作業負担によって効率的に抽出することができる。具体的には、複数のキーワードによって対象分野を特定させることで、利用者の興味の対象となっている分野から語句を精度良く検索できる。また、語句記録部130および注目度評価部140による処理頻度を相違させることによって、掲示板やウェブ・ログ等の頻繁な変更に追従して、効率的かつ効果的に新出語句を検出することができる。更に、検索結果の表示画面の工夫によって、評価方法の修正や評価後の処理を利用者に促すことができる。
実際に、インターネット内で不特定多数の者による書き込みを許可した掲示板を用いて実験を行った。その結果、実験時点に特定分野において急速に用いられるようになってきている専門用語が、高い注目度として評価されることが確かめられた。
図15は、検索装置10として機能する情報処理装置700のハードウェア構成の一例を示す。情報処理装置700は、例えば、対称型マルチプロセッサ(SMP:Symmetric Multiprocessor)を搭載したシステムであってもよい。具体的には、情報処理装置700は、複数のプロセッサ(プロセッサ702およびプロセッサ704)を有する。プロセッサ702およびプロセッサ704は、システム・バス206を介して相互に接続される。これに代えて、情報処理装置700は、単一のプロセッサのみを有してもよい。
システム・バス206は、メモリ・コントローラ/キャッシュ208に更に接続される。メモリ・コントローラ/キャッシュ208は、ローカルメモリ209に対するインターフェイスを提供する。I/Oバス・ブリッジ210は、システム・バス206に接続される。そして、I/Oバス・ブリッジ210は、I/Oバス212に対するインターフェイスを提供する。メモリ・コントローラ/キャッシュ208、および、I/Oバス・ブリッジ210は、一体のLSIに設けられてもよい。
PCI(Perifheral component interconnect)バス・ブリッジ214は、I/Oバス212に接続される。I/Oバス212は、PCIバス216に対するインターフェイスを提供する。典型的なPCIバスの実装においては、4つのPCI拡張スロットが提供され、その他にアドイン・コネクタが提供される。
利用者端末20に対するコミュニケーションリンクは、モデム218およびネットワークアダプタ220を介して提供される。モデム218およびネットワークアダプタ220は、アドイン・ボードを介してPCIバス216に接続される。PCIブリッジ222およびPCIブリッジ224は、追加のPCIバス226およびPCIバス228に対するインターフェイスを提供する。これらのPCIバスには、追加のモデムやネットワークアダプタが接続されてもよい。このように、情報処理装置700は、他の複数の情報処理装置(例えば、利用者端末20など)に接続することができる。また、グラフィックス・アダプタ230およびハード・ディスク232は、更に、I/Oバス212に接続される。
以上に示すハードウェア構成は一例であり、当業者はこの構成に多様な変形を加えることができる。例えば、情報処理装置700は、他のペリフェラル・デバイス、例えば、光学ドライブなどを有してもよい。以上の構成は、本発明を実現するハードウェアに何らの限定を加えるものではない。本図に示す情報処理装置700は、一例として、インターナショナル・ビジネス・マシーンズ・コーポレーションのIBM RISC/System 6000であってもよい。このシステムは、AIX(Advanced Interactive Executive)オペレーティング・システムを動作させてもよい。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
図1は、検索装置10の機能構成を示す。 図2は、語句選択部110の機能構成を示す。 図3は、注目度評価部140の機能構成を示す。 図4は、検索装置10によって語句の注目度が評価される処理のフローチャートを示す。 図5は、S410における処理の概念図を示す。 図6は、S410における処理の具体例を示す(2図のうち1図目)。 図7は、S410における処理の具体例を示す(2図のうち2図目)。 図8は、S420における処理の詳細を示す。 図9は、S800における処理の概念図を示す。 図10は、S910における処理の具体例を示す。 図11は、注目度の算出方法の概念図を示す。 図12は、S910における処理の他の例を示す。 図13は、表示部320が利用者端末20に表示する画面の表示例を示す。 図14は、表示領域600および表示領域610における表示内容の詳細を示す。 図15は、検索装置10として機能する情報処理装置700のハードウェア構成の一例を示す。
符号の説明
10 検索装置
15 ネットワーク
20 利用者端末
100 入力部
110 語句選択部
120 検索エンジン部
125 データベース
130 語句記録部
140 注目度評価部
200 辞書記録部
210 検出部
220 選択部
300 頻度判断部
310 評価部
320 表示部
330 検索部
340 追加部
350 除外部
600 表示領域
610 表示領域
700 情報処理装置

Claims (21)

  1. 複数のテキストから語句を検索する検索装置であって、
    少なくとも何れか1つのテキストに含まれる予め定められた語句を、注目度を評価する対象となる評価対象語句として予め記録している語句記録部と、
    複数のキーワードを入力する入力部と、
    各々の前記キーワードについて、当該キーワードを含むテキストにおいて前記評価対象語句が使用される頻度である使用頻度を判断する頻度判断部と、
    各々の前記キーワードについて判断された使用頻度の各々に基づいて、前記評価対象語句の注目度を評価する評価部と
    を備える検索装置。
  2. 前記評価部は、各々のキーワードについて判断された使用頻度の差がより小さい場合に、当該使用頻度の差がより大きい場合と比較して前記注目度をより高く評価する
    請求項1に記載の検索装置。
  3. 前記評価部は、複数のキーワードの各々について判断された使用頻度の積を前記注目度として評価する
    請求項2に記載の検索装置。
  4. 前記評価部は、各々のキーワードと前記評価対象語句との間の単語間距離に基づく重みを当該キーワードについて判断された使用頻度に乗じることによって重み付き使用頻度を算出し、各々のキーワードについて算出した当該重み付き使用頻度に基づいて前記注目度を評価する
    請求項1に記載の検索装置。
  5. 前記評価対象語句を、前記評価部によって評価された注目度に対応付けて選択可能に表示する表示部と、
    前記評価対象語句が利用者によって選択されたことに応じ、前記評価対象語句を含むテキストを前記複数のテキストの中から検索して出力する検索部と
    を更に備える請求項1に記載の検索装置。
  6. 前記検索部は、前記評価対象語句が利用者によって選択されたことに応じ、前記評価対象語句及び前記複数のキーワードの何れもが含まれているテキストを検索して表示する
    請求項5に記載の検索装置。
  7. 前記語句記録部は、複数の前記評価対象語句を記録し、
    前記評価部は、第1の前記評価対象語句の注目度を評価し、
    前記第1の評価対象語句を、前記評価部によって評価された注目度に対応付けて選択可能に表示する表示部と、
    前記第1の評価対象語句が利用者によって選択されたことに応じ、第2の前記評価対象語句を評価するためのキーワードとして前記第1の評価対象語句を追加する追加部と
    を更に備える請求項1に記載の検索装置。
  8. 前記表示部は、前記第1の評価対象語句と、既に評価された他の前記評価対象語句とを、注目度の順に、利用者によって選択され易いように優先して表示する
    請求項7に記載の検索装置。
  9. 前記語句記録部は、複数の前記評価対象語句を記録し、
    前記入力部は、評価対象語句毎に、他の評価対象語句を評価するためのキーワードと少なくとも一部が共通な複数のキーワードを入力し、
    前記評価部は、入力されたキーワードに基づいて前記複数の評価対象語句を順次評価し、
    入力された各々のキーワードを、当該キーワードにより評価された注目度が所定の基準以上である評価対象語句の数の順に、利用者によって選択され易いように優先して表示する表示部と、
    利用者によって選択されたキーワードを、前記評価部によって他の評価対象語句の注目度を評価するためのキーワードから除外する除外部と
    を更に備える請求項1に記載の検索装置。
  10. 前記頻度判断部は、少なくとも1つの前記キーワードについて、異なる複数回のタイミングにおいて、当該キーワードを含むテキストにおいて前記評価対象語句が使用される頻度である使用頻度を判断し、
    前記評価部は、当該キーワードについて、第1の前記タイミングにおいて当該キーワードについて判断された前記使用頻度に対する、第1の前記タイミングよりも後の第2の前記タイミングにおいて当該キーワードについて判断された前記使用頻度の上昇率がより高い場合に、当該上昇率がより低い場合と比較して前記注目度をより高く評価する
    請求項1に記載の検索装置。
  11. 複数の語句を予め記録している辞書記録部と、
    前記複数のキーワードの各々について、当該キーワードを含むテキストに含まれる語句のうち、前記辞書記録部に記録されていない未登録語句を検出する検出部と、
    少なくとも2つの前記キーワードについて、何れのキーワードが含まれるテキストからも共通して検出された前記未登録語句を選択する選択部と
    を更に備え、
    前記語句記録部は、前記選択部により選択された前記未登録語句を前記評価対象語句として記録する請求項1に記載の検索装置。
  12. 前記検出部は、異なる複数のタイミングにおいて未登録語句を検出し、
    前記語句記録部は、未登録語句が検出される毎に、記録している前記評価対象語句を更新し、
    前記頻度判断部は、前記検出部が未登録語句を検出する頻度よりも高い頻度で、前記評価対象語句の使用頻度を判断する
    請求項11に記載の検索装置。
  13. 複数のテキストから語句を検索する検索装置であって、
    複数の語句を予め記録している辞書記録部と、
    複数のキーワードを利用者から入力する入力部と、
    前記複数のキーワードの各々について、当該キーワードを含むテキストに含まれる語句のうち、前記辞書記録部に記録されていない未登録語句を検出する検出部と、
    少なくとも2つの前記キーワードについて、何れのキーワードが含まれるテキストからも共通して検出された前記未登録語句を選択して出力する選択部と
    を備える検索装置。
  14. 前記検出部は、各々の前記キーワードについて、当該キーワードを含む行に含まれる語句のうち未登録語句を検出し、
    前記選択部は、少なくとも2つの前記キーワードについて、何れのキーワードが含まれる行からも共通して検出された前記未登録語句を選択する
    請求項13に記載の検索装置。
  15. 前記検出部は、各々の前記キーワードについて、当該キーワードを含むテキストファイルに含まれる語句のうち未登録語句を検出する
    前記選択部は、少なくとも2つの前記キーワードについて、何れのキーワードが含まれるテキストファイルからも共通して検出された前記未登録語句を選択する
    請求項13に記載の検索装置。
  16. 前記検出部は、何れの前記キーワードも含まないテキストから、前記未登録語句を更に検出し、
    前記選択部は、少なくとも2つの前記キーワードについて検出された前記未登録語句から、何れの前記キーワードも含まないテキストにおいて検出された前記未登録語句を除外して選択する
    請求項13に記載の検索装置。
  17. 前記選択部は、前記複数のキーワードのうち何れか2つのキーワードについて、何れのキーワードが含まれるテキストからも共通して検出された前記未登録語句を選択する
    請求項13に記載の検索装置。
  18. 複数のテキストから語句を検索する検索方法であって、
    少なくとも何れか1つのテキストに含まれる予め定められた語句を、注目度を評価する対象となる評価対象語句として取得する段階と、
    複数のキーワードを入力する段階と、
    各々の前記キーワードについて、当該キーワードを含むテキストにおいて前記評価対象語句が使用される頻度である使用頻度を判断する段階と、
    各々の前記キーワードについて判断された使用頻度の各々に基づいて、前記評価対象語句の注目度を評価する段階と
    を備える検索方法。
  19. 複数のテキストから語句を検索する検索方法であって、
    複数のキーワードを利用者から入力する段階と、
    前記複数のキーワードの各々について、当該キーワードを含むテキストに含まれる語句のうち、予め辞書に登録された語句とは異なる未登録語句を検出する段階と、
    少なくとも2つの前記キーワードについて、何れのキーワードが含まれるテキストからも共通して検出された前記未登録語句を選択して出力する段階と
    を備える検索方法。
  20. 複数のテキストから語句を検索する検索装置として、情報処理装置を機能させるプログラムであって、
    前記情報処理装置を、
    少なくとも何れか1つのテキストに含まれる予め定められた語句を、注目度を評価する対象となる評価対象語句として予め記録している語句記録部と、
    複数のキーワードを入力する入力部と、
    各々の前記キーワードについて、当該キーワードを含むテキストにおいて前記評価対象語句が使用される頻度である使用頻度を判断する頻度判断部と、
    各々の前記キーワードについて判断された使用頻度の各々に基づいて、前記評価対象語句の注目度を評価する評価部と
    して機能させるプログラム。
  21. 複数のテキストから語句を検索する検索装置として、情報処理装置を機能させるプログラムであって、
    前記情報処理装置を、
    複数の語句を予め記録している辞書記録部と、
    複数のキーワードを利用者から入力する入力部と、
    前記複数のキーワードの各々について、当該キーワードを含むテキストに含まれる語句のうち、前記辞書記録部に記録されていない未登録語句を検出する検出部と、
    少なくとも2つの前記キーワードについて、何れのキーワードが含まれるテキストからも共通して検出された前記未登録語句を選択して出力する選択部と
    して機能させるプログラム。
JP2005257429A 2005-09-06 2005-09-06 検索装置、検索方法およびプログラム Pending JP2007072646A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2005257429A JP2007072646A (ja) 2005-09-06 2005-09-06 検索装置、検索方法およびプログラム
US11/515,583 US20070061322A1 (en) 2005-09-06 2006-09-05 Apparatus, method, and program product for searching expressions

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005257429A JP2007072646A (ja) 2005-09-06 2005-09-06 検索装置、検索方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2007072646A true JP2007072646A (ja) 2007-03-22

Family

ID=37856520

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005257429A Pending JP2007072646A (ja) 2005-09-06 2005-09-06 検索装置、検索方法およびプログラム

Country Status (2)

Country Link
US (1) US20070061322A1 (ja)
JP (1) JP2007072646A (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9489645B2 (en) * 2004-05-13 2016-11-08 International Business Machines Corporation Workflow decision management with derived scenarios and workflow tolerances
US20060155848A1 (en) * 2005-01-10 2006-07-13 Brown William A Workflow decision management including identifying user reaction to workflows
US20060155847A1 (en) * 2005-01-10 2006-07-13 Brown William A Deriving scenarios for workflow decision management
US20060156276A1 (en) * 2005-01-10 2006-07-13 Brown William A Workflow decision management with heuristics
US8155119B2 (en) * 2005-11-01 2012-04-10 International Business Machines Corporation Intermediate message invalidation
US20070100884A1 (en) * 2005-11-01 2007-05-03 Brown William A Workflow decision management with message logging
US7657636B2 (en) * 2005-11-01 2010-02-02 International Business Machines Corporation Workflow decision management with intermediate message validation
US8010700B2 (en) * 2005-11-01 2011-08-30 International Business Machines Corporation Workflow decision management with workflow modification in dependence upon user reactions
US20070100990A1 (en) * 2005-11-01 2007-05-03 Brown William A Workflow decision management with workflow administration capacities
US8145620B2 (en) * 2008-05-09 2012-03-27 Microsoft Corporation Keyword expression language for online search and advertising
WO2015105994A1 (en) * 2014-01-08 2015-07-16 Callminer, Inc. Real-time conversational analytics facility

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2729356B2 (ja) * 1994-09-01 1998-03-18 日本アイ・ビー・エム株式会社 情報検索システム及び方法
JP2809341B2 (ja) * 1994-11-18 1998-10-08 松下電器産業株式会社 情報要約方法、情報要約装置、重み付け方法、および文字放送受信装置。
US5920854A (en) * 1996-08-14 1999-07-06 Infoseek Corporation Real-time document collection search engine with phrase indexing
JP3173411B2 (ja) * 1997-03-17 2001-06-04 富士ゼロックス株式会社 関連文書検索装置及び関連文書検索プログラムを記録した記録媒体
JP3598211B2 (ja) * 1998-01-13 2004-12-08 富士通株式会社 関連語抽出装置および関連語抽出方法および関連語抽出プログラムが記録されたコンピュータ読取可能な記録媒体
US6405188B1 (en) * 1998-07-31 2002-06-11 Genuity Inc. Information retrieval system
US6442545B1 (en) * 1999-06-01 2002-08-27 Clearforest Ltd. Term-level text with mining with taxonomies
JP3918374B2 (ja) * 1999-09-10 2007-05-23 富士ゼロックス株式会社 文書検索装置および方法
US6701310B1 (en) * 1999-11-22 2004-03-02 Nec Corporation Information search device and information search method using topic-centric query routing
JP3573688B2 (ja) * 2000-06-28 2004-10-06 松下電器産業株式会社 類似文書検索装置及び関連キーワード抽出装置
US6711570B1 (en) * 2000-10-31 2004-03-23 Tacit Knowledge Systems, Inc. System and method for matching terms contained in an electronic document with a set of user profiles
US7024400B2 (en) * 2001-05-08 2006-04-04 Sunflare Co., Ltd. Differential LSI space-based probabilistic document classifier
US7269546B2 (en) * 2001-05-09 2007-09-11 International Business Machines Corporation System and method of finding documents related to other documents and of finding related words in response to a query to refine a search
JP4489994B2 (ja) * 2001-05-11 2010-06-23 富士通株式会社 話題抽出装置、方法、プログラム及びそのプログラムを記録する記録媒体
US20020169872A1 (en) * 2001-05-14 2002-11-14 Hiroshi Nomiyama Method for arranging information, information processing apparatus, storage media and program tranmission apparatus
US20030204496A1 (en) * 2002-04-29 2003-10-30 X-Mine, Inc. Inter-term relevance analysis for large libraries
US7693825B2 (en) * 2004-03-31 2010-04-06 Google Inc. Systems and methods for ranking implicit search results
US20050234881A1 (en) * 2004-04-16 2005-10-20 Anna Burago Search wizard
JP2006215936A (ja) * 2005-02-07 2006-08-17 Hitachi Ltd 検索システム及び検索方法
US8312034B2 (en) * 2005-06-24 2012-11-13 Purediscovery Corporation Concept bridge and method of operating the same
JP4761460B2 (ja) * 2006-05-01 2011-08-31 コニカミノルタビジネステクノロジーズ株式会社 検索装置による情報検索方法、情報検索装置及び情報検索処理プログラム

Also Published As

Publication number Publication date
US20070061322A1 (en) 2007-03-15

Similar Documents

Publication Publication Date Title
JP2007072646A (ja) 検索装置、検索方法およびプログラム
US9075873B2 (en) Generation of context-informative co-citation graphs
KR100815215B1 (ko) 웹사이트 통합 검색 장치 및 방법
JP4767694B2 (ja) 不正ハイパーリンク検出装置及びその方法
JP4236057B2 (ja) 新たな複合語を抽出するシステム
US20090248707A1 (en) Site-specific information-type detection methods and systems
EP1887485A2 (en) Keyword outputting apparatus, keyword outputting method, and keyword outputting computer program product
KR20100047221A (ko) 사전 단어 및 어구 판정
CN103064956A (zh) 用于搜索电子内容的方法、计算系统和计算机可读介质
KR101523450B1 (ko) 관련어 등록 장치, 관련어 등록 방법, 기록 매체 및, 관련어 등록 시스템
US20020083045A1 (en) Information retrieval processing apparatus and method, and recording medium recording information retrieval processing program
CN102314452B (zh) 一种通过输入法平台进行导航的方法及系统
KR20090003739A (ko) 태그 정보를 이용하여 사용자 취향정보를 수집하는 단말기기, 그 방법 및 기록매체
JPH10275157A (ja) データ処理装置
JP6533876B2 (ja) 商品情報表示システム、商品情報表示方法、及びプログラム
JP2007310663A (ja) 情報検索支援システム、情報検索支援方法および情報検索支援プログラム
JP2007193697A (ja) 情報収集装置,情報収集方法およびプログラム
JP2008262506A (ja) 情報抽出システム、情報抽出方法および情報抽出用プログラム
JP4143085B2 (ja) 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
KR100757951B1 (ko) 웹페이지의 형태소 분석을 통한 검색 방법
KR101069278B1 (ko) 청구항 시각화 장치 및 방법
JP5688754B2 (ja) 情報検索装置及びコンピュータプログラム
JP4953440B2 (ja) 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体
JP2006155275A (ja) 情報抽出方法及び情報抽出装置
JP5187187B2 (ja) 体験情報検索システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080118

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20080129

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20080206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080304

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080602

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080715

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20080807