JP2010009577A - 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体 - Google Patents

情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体 Download PDF

Info

Publication number
JP2010009577A
JP2010009577A JP2009077243A JP2009077243A JP2010009577A JP 2010009577 A JP2010009577 A JP 2010009577A JP 2009077243 A JP2009077243 A JP 2009077243A JP 2009077243 A JP2009077243 A JP 2009077243A JP 2010009577 A JP2010009577 A JP 2010009577A
Authority
JP
Japan
Prior art keywords
document
search
clustering
documents
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009077243A
Other languages
English (en)
Other versions
JP5316158B2 (ja
Inventor
Takuya Hiraoka
卓也 平岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2009077243A priority Critical patent/JP5316158B2/ja
Priority to US12/473,616 priority patent/US8180781B2/en
Publication of JP2010009577A publication Critical patent/JP2010009577A/ja
Application granted granted Critical
Publication of JP5316158B2 publication Critical patent/JP5316158B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】効率的な文書クラスタリングを行なうようにし、迅速に提供されて見やすい全文検索結果により目的の文書への到達を容易にする情報処理装置を提供する。
【解決手段】本発明に係る情報処理装置1は、文書の全文検索を行なって検索条件に該当する検索文書を検索する文書検索手段301と、検索条件との適合度を表す適合度スコアによって検索文書を順序付ける文書スコアリング手段302と、文書識別子と特徴語と当重み値とが対応付けられて登録された特徴語ファイルデータベース307と、検索文書に対してクラスタリング処理を行う文書クラスタリング手段304とを有し、検索結果一覧を作成する情報処理装置1において、適合度スコアに基づいて、検索文書をグループ化する文書グループ化手段303を有し、文書クラスタリング手段304は、グループ化されたグループごとに、そのグループ内の検索文書に対してクラスタリング処理を行う。
【選択図】図3

Description

本発明は、情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体の分野に関する。
転置索引を用いた多くの全文検索システムでは、検索結果一覧を表示するときに、入力
されたキーワードと検索にヒットした文書との適合率をスコアという数値に表し、スコア
の大きなものから順番に、検索結果一覧に表示している(例えば、非特許文献1参照)。一般にスコアとは、入力されたキーワードに対するヒットした文書の適合度を表す。ここで、適合度は、キーワードの出現頻度に基づく値である。
この検索語に対する文書のスコアは、ウェブ上の検索エンジンなどでは文書間のリンク情報を利用したPageRankという手法を用いているが、リンク情報が存在していないデータでは有効ではない。企業内の文書データなどを検索する場合にはむしろ確率モデルを利用して文書をランキング検索することが一般的である。
企業内の文書データなどを検索する場合には、オリジナルの文書だけが検索対象であることは少なく、例えば、部署ごとに配布された同一の文書がデータベースに登録されている場合や、企画書や仕様書など文書バージョンが異なるのみでその内容は類似する文書がデータベースに登録されている場合が多い。このような文書集合に対して単純にランキング検索を行なうと、同一又は類似の文書はそのスコア値もほぼ同じになるので、スコア順でソートした場合同じような文書が連続して表示され見にくいばかりでなく目的とする文書になかなか辿り着くことができない。
特許文献1に記載される発明では、文書のランキング検索において利用者がスコアをカスタマイズすることが可能である。この方法を利用すればオリジナル文書のみを上位に表示することが可能となる。しかしながら、企業内の文書データは膨大であるのですべてのオリジナル文書のスコアをカスタマイズすることは手間を伴う。また、オリジナル文書を特定すること自体もまた困難である。
ここで、同一又は類似する文書を分類する文書クラスタリング技法が知られている(例えば、非特許文献2参照)。この手法を用いて、検索対象として同一又は類似する文書をグループ化する。検索結果には各グループの代表文書のみを表示すればよい。これにより、同じような内容の文書の表示されることなく検索結果を表示することができる。
しかしながら、非特許文献2に記載される文書クラスタリング技法では、非常に多くの計算量を必要とする。検索対象が膨大な場合、すべての検索対象を予め分類しておくことは計算量が膨大であまり現実的ではない。
そこで本発明では上記のような問題に鑑みて、効率的な文書クラスタリングを行なうようにし、迅速に提供されて見やすい全文検索結果により目的の文書への到達を容易にする情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体を提供することを目的とする。
そこで上記課題を解決するため、本発明に係る情報処理装置は、文書の全文検索を行なって検索条件に該当する検索文書を検索する文書検索手段と、前記検索条件との適合度を表す適合度スコアによって前記検索文書を順序付ける文書スコアリング手段と、前記文書を識別するための文書識別子と、前記文書の全文データから抽出された特徴語と、当該特徴語の重みを表す重み値とが対応付けられて登録された特徴語ファイルデータベースと、前記検索文書の前記文書識別子をキーとして、前記特徴語ファイルデータベースから取得した前記特徴語と当該特徴語の重み値とに基づいて、前記検索文書に対してクラスタリング処理を行う文書クラスタリング手段とを有し、索結果一覧を作成する情報処理装置であって、前記適合度スコアに基づいて前記検索文書をグループ化する文書グループ化手段を有し、前記文書クラスタリング手段は、前記文書グループ化手段によりグループ化されたグループごとに、そのグループ内の前記検索文書に対してクラスタリング処理を行うことを特徴とする。
また上記課題を解決するため、前記情報処理装置において、前記文書グループ化手段は、前記適合度スコアの平均変化率に基づいて、前記検索文書をグループ化することを特徴とする。
また上記課題を解決するため、前記情報処理装置において、前記文書クラスタリング手段は、前記特徴語をベクトル表現し、当該ベクトルの成す角度の余弦の値に基づいて、前記検索文書のクラスタリング処理が行うことを特徴とする。
また上記課題を解決するため、前記情報処理装置において、前記特徴語は、前記全文データから得られ単語の出現頻度を表すTF値と、コーパスから得られ単語の出現頻度を表すDF値とに基づいて抽出されることを特徴とする。
また上記課題を解決するため、前記情報処理装置において、前記特徴語は、前記全文データから得られ単語の出現頻度を表すTF値と、形態素解析の際に得られる出現頻度を表す生起コスト値とに基づいて抽出されることを特徴とする。
また上記課題を解決するため、前記クラスタリング処理手段によりクラスタリング処理された各クラスタ内の検索文書の特徴語をベクトル表現し、当該ベクトルの成す角度の余弦の値に基づいて、当該検索文書の距離が所定閾値より近いクラスタ間のマージを行うクラスタマージ手段を有することを特徴とする。
なお、本発明の構成要素、表現または構成要素の任意の組合せを、方法、装置、システム、コンピュータプログラム、記録媒体、などに適用したものも本発明の態様として有効である。
本発明によれば、効率的な文書クラスタリングを行なうようにし、迅速に提供されて見やすい全文検索結果により目的の文書への到達を容易にする情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体を提供することができる。
本発明による情報処理装置、文書保管装置及び端末がネットワークを介して接続されているネットワーク図である。 本発明による情報処理装置の一実施形態の主要構成を示すハードウェア構成図である。 本発明の実施形態に係る情報処理装置の一実施形態の主要機能を示す機能ブロック図である 索引ファイル及び特徴語ファイルが作成されるまでの流れについて説明するフローチャートである。 文書検索処理の流れについて説明するフローチャートである。 索引ファイルのデータ構成を模式的に示す図である。 適合度スコアの算出する式である。 検索文書に対して適合度スコアが算出され降順にソートされた様子を示す図である。 第1のクラスタリングを行った結果を示す図の一例である。 適合度スコアの平均変化率を算出する式である。 第1のクラスタリングを行った結果を示す図の一例である。 特徴語ファイルの一例である。 第2のクラスタリングの結果を示す図の一例である。 文書ベクトルが成す角度の余弦を算出する式である。 検索結果の一例である。 本発明の実施例に係る情報処理装置1の一実施形態の主要機能を示す機能ブロック図である。 クラスタ間のマージ処理を説明するフローチャートである。 クラスタ間のマージ処理結果を示す図の一例である。 マージ処理後の検索結果の一例である。
以下、本発明を実施するための最良の形態を各実施形態において図面を用いて説明する。
(ネットワーク構成)
はじめに、具体的な発明の内容を説明する前に、本発明を実施するにあたってのネットワーク構成について説明する。図1は、本発明による情報処理装置1、文書保管装置2及び端末3がネットワーク5を介して接続されているネットワーク図である。情報処理装置1は、本発明に係る全文検索サーバである。文書保管装置2は、検索対象となる文書を保管する。端末3は、情報処理装置1を利用するクライアント端末である。端末3は、ネットワーク5を介して情報処理装置1にアクセスする。情報処理装置1は、端末3の要求に応じて文書保管装置2に保管される複数の文書から検索語により目的文書の検索を行なう。これらいわゆる全文検索システムである。ネットワーク5は、有線、無線を含むネットワークである。なお、図1は本発明の一実施形態を説明するにあたっての構成を示したものであり、例えば、文書保管装置2及び端末3は複数あってもよいし、情報処理装置1に文書保管機能を持たせれば文書保管装置2を省略する構成とすることもできる。
(情報処理装置)
図2は、本発明による情報処理装置1の一実施形態の主要構成を示すハードウェア構成図である。情報処理装置1のハードウェア構成について簡単に説明しておく。情報処理装置1は、主要な構成として、CPU201、ROM(Read Only Memory)202、RAM(Random Access Memory)203、補助記憶装置204、記憶媒体読取装置205、入力装置206、表示装置207、及び通信装置208を含む構成である。
CPU201は、マイクロプロセッサ及びその周辺回路から構成され、情報処理装置1全体を制御する回路である。また、ROM202は、CPU201で実行される所定の制御プログラム(ソフトウェア部品)を格納するメモリであり、RAM203は、CPU201がROM202に格納された所定の制御プログラム(ソフトウェア部品)を実行して各種の制御を行うときの作業エリア(ワーク領域)として使用するメモリである。
補助記憶装置204は、汎用のOS(Operating System)、全文検索プログラムを含む各種情報を格納する装置であり、不揮発性の記憶装置であるHDD(Hard Disk Drive)などが用いられる。なお、上記各種情報は、補助記憶装置204以外にも、CD−ROM(Compact Disk - ROM)やDVD(Digital Versatile Disk)などの記憶媒体やその他のメディアを記憶されてもよく、これらの記憶媒体に格納された各種情報は、記憶媒体読取装置205などのドライブ装置を介して読み取ることが可能である。よって、必要に応じて記録媒体を記憶媒体読取装置205にセットすることで、各種情報が得られる。
入力装置206は、ユーザが各種入力操作を行うための装置である。入力装置206は、マウス、キーボード、表示装置207の表示画面上に重畳するように設けられたタッチパネルスイッチなどを含む。表示装置207は、全文検索結果などの各種データを表示画面に表示する装置である。例えば、LCD(Liquid Crystal Display)、CRT(Cathode Ray Tube)などから構成される。次に、通信装置3は、ネットワーク5を介して文書保管装置2及び端末3との通信を行う装置である。有線ネットワークや無線ネットワークなど含む各種ネットワーク形態に応じた通信をサポートする。以上、情報処理装置1のハードウェア構成である。
(機能)
図3は、本発明の実施形態に係る情報処理装置1の一実施形態の主要機能を示す機能ブロック図である。情報処理装置1は、主要な機能として、文書検索部301、文書スコアリング部302、第1文書クラスタリング部303、第2文書クラスタリング部304、出力部305、索引ファイルデータベース306、及び特徴語ファイルデータベース307を含む構成である。
文書検索部301は、ユーザの端末3により入力された検索語等の検索条件から、文書の全文検索を行なって検索条件に該当する検索文書を検索する。具体的には、検索語を索引ファイルと同じ索引単位に分割し、索引ファイルデータベース306の索引ファイルを利用してその検索語が含まれる文書を検索する。一般的に全文検索システムでは検索処理にあたって予め索引ファイル(転置索引)が作成されている。検索時にはその索引ファイル利用して検索を行うことが多い。
文書スコアリング部302は、文書検索部301により検索された文書(以下、この検索文書という)に対して検索条件との適合度を表す適合度スコアを算出し、その適合度スコアによって検索文書を順序付ける(文書スコアリング)。順序付けは、例えば、そのスコア降順にソートされる。
第1文書クラスタリング部303は、文書スコアリング部302により文書スコアリングされた検索文書を対象に、適合度スコアに基づいてクラスタリング(グループ化)を行なう。クラスタリングとは、文書の類似度などによって文書をグループ化することである。詳細は後述するが、スコアの降順にソートされた検索文書において、前後の検索文書はある検索語を入力して得られたスコアが近い文書であるのでその内容は似たような文書であるといえる。この点に着目して、検索文書のクラスタリングを行なう。因みに、この第1文書クラスタリング部303によるクラスタリングが1回目のクラスタリングであるとすると、後述する第2文書クラスタリング部304によるクラスタリングは2回目のクラスタリングである。このように検索文書は2回に分けてクラスタリングされる。なお、この文書スコアリング部302は文書グループ化手段に相当するものである。
第2文書クラスタリング部304は、文書の全文データから抽出される文書の特徴語と当該特徴語の重みを表す重み値とに基づいて、第1文書クラスタリング部303によりクラスタリング(グループ化)されたクラスタ(グループ)ごとに、そのクラスタ内の検索文書に対してクラスタリングを行う。
出力部305は、適合度スコア及びクラスタリングの観点から、検索結果(検索文書のリスト)を出力する。詳細は後述するが、例えば、スコア降順にソートされ、且つクラスタ(グループ)ごとの代表文書が検索結果に表示される。
索引ファイルデータベース306は、索引ファイルを登録する。索引ファイルは、文書検索を高速に行うことができるような構造を持ったファイルで、文書検索部301がユーザの端末3により入力された検索語等の検索条件から該当する検索文書を検索する際に利用される。この索引ファイルは、文書保管装置2などに保管される文書(全文データ)から予め作成される。入力された文書の全文データ(テキスト情報)から、N-gram方式や形態素解析方式などにより索引単位に抽出されて、例えば、転置索引が作成され、この転置索引と文書のテキスト情報などが登録されたファイルである。テキスト情報が登録される際には文書識別子(文書ID)を割り当てられ、この文書識別子とテキスト情報が対応付けて登録される。索引ファイルは検索語からその検索語(単語)を含む文書を逆引きできる構造を持つので、その単語から転置索引の表を引くことですばやくその単語を含む文書を探すことができる。
特徴語ファイルデータベース307は、特徴語ファイルを登録する。特徴語ファイルは、その文書を特徴付ける特徴語とその特徴語の重みを表す値が格納されているファイルで、第2文書クラスタリング部304が検索文書に対してクラスタリングを行う際に利用される。この特徴語ファイルは、上述の索引ファイルと同様に文書保管装置2などに保管される文書(全文データ)から予め作成される。特徴語ファイルでは、文書を識別するために文書識別子(文書ID)が割り当てられている。なお、この特徴語ファイルが作成される方法については後述する。
以上説明したこれらの機能は、実際にはCPU201が実行するプログラムにより実現されるものである。以上、これまで本発明による情報処理装置1の有するハードウェア構成と機能構成について説明を行った。続いて以下、実施例を交えながら具体的に説明を行う。
<実施例1>
本実施例による情報処理装置1の一使用形態について説明する。まず、本発明の内容理解を容易にするため、本発明実施の全体の流れについて説明する。図4は、索引ファイル及び特徴語ファイルが作成されるまでの流れについて説明するフローチャートである。この段階はいわば検索準備段階である。また、図5は、検索条件(検索語)の入力によって行なわれる文書検索処理の流れについて説明するフローチャートである。この段階はいわば検索段階である。以下、図4、5を参照しつつ説明を行う。
(検索準備段階)
図4を参照して、索引ファイル及び特徴語ファイルが作成されるまでの流れを説明する。ステップS401で、入力された文書の全文データから、N-gram方式や形態素解析方式などにより単語が抽出される。ステップS402で、この単語を検索単位として検索できるよう、例えば、転置索引が作成される。また、文書のテキスト情報が登録される際には文書識別子(文書ID)を割り当てられ、この文書識別子とテキスト情報が対応付けて登録される。作成された索引ファイルは索引ファイルデータベース306に登録される。
ステップS403に進み、入力された文書の全文データから、N-gram方式や形態素解析方式などにより単語が抽出され、その単語の出現頻度等に基づいてその文書を特徴付ける特徴語が抽出される。ステップS404で、その特徴語の重み付けがされ、特徴語とその重み(重み値)は、その文書識別子(文書ID)とともに特徴語ファイルとして特徴語ファイルデータベース307に登録される。以上これまでが検索準備段階である。この索引ファイル及び特徴語ファイルは文書検索時(検索段階)に利用される。
(検索段階)
次に図5を参照して、検索条件(検索語)の入力によって行なわれる文書検索処理の流れについて説明する。ステップS501で、検索語が入力されると索引ファイルから索引され、文書が特定されて検索文書が取得される。
ステップS502に進み、取得された検索文書と検索条件との適合度を表す適合度スコアが算出される。適合度スコアはすべての検索文書について算出される。そして、検索文書は適合度スコアの降順にソートされる(文書スコアリング)。
ステップS503に進み、文書スコアリングされた検索文書を対象に、適合度スコアに基づいて、第1のクラスタリング(グループ化)が行なわれる。詳細は後述する。
ステップS504に進み、文書識別子をキーにその検索文書の特徴語と当該特徴語の重みを表す重み値とに基づいて、ステップS503でクラスタリングされたクラスタごとに、そのクラスタ内の検索文書に対して第2のクラスタリングが行なわれる。
ステップS505に進み、クラスタリングされた検索文書にクラスタ番号が付与される。ユーザに対して検索結果として出力される際は、適合度スコアとクラスタ番号が利用されて検索結果が表示される。以下この検索段階について詳細に説明する。
(文書検索)
まず、索引ファイルが利用されて検索条件に該当する検索文書が検索される処理について詳しく説明する。なお、この処理はステップS501に相当する。
文書検索部301は、ユーザの端末3により入力された検索語等の検索条件から、文書の全文検索を行なって検索条件に該当する検索文書を検索する。具体的には、検索語を索引ファイルと同じ索引単位に分割し、索引ファイルデータベース306の索引ファイルを利用してその検索語が含まれる文書を検索する。
図6は、索引ファイルのデータ構成を模式的に示す図である。索引ファイルは、転置方式の索引を有し、文書保管装置2に保管された文書(全文データ)から作成された転置索引が登録されている。具体的には、索引ファイルはキーワードと文書頻度とを対応付けて保持している(構造1)。また、キーワードごとに、文書ID(文書識別子)と文書内頻度とを対応付けて保持している(構造2)。また、文書IDとテキストデータの文書長とを対応付けて保持している(構造3)。また、索引ファイルにおける登録文書数を保持している。
(文書スコアリング)
次に、検索文書に対する文書スコアリングの処理について詳しく説明する。なお、この処理はステップS502に相当する。
文書スコアリング部302は、文書検索部301により検索された文書(検索文書)に対して検索条件との適合度を表す適合度スコアを算出し、その適合度スコアによって検索文書を順序付ける。
適合度スコアは、例えば、図7の式により算出されることが知られている。文書Dj におけるキーワードQi のスコアである。ここで、tfij は、キーワードQi の文書Dj 中における出現数、すなわち文書内頻度である。dfi は、キーワードQi を含む文書の数、すなわち文書頻度である。Nは、登録文書数である。tfij としては、索引ファイルにおける文書内頻度が利用される。dfi としては、索引ファイルにおける文書頻度が利用される。Nとしては、索引ファイルにおける登録文書数が利用される。
図8は、文書スコアリング部302により検索文書(文書ID1−10)に対して適合度スコアが算出され降順にソートされた様子を示す図である。なお、全文検索システムの中にはこの図8に示す結果を反映してそれを検索結果とするシステムもある。検索条件に該当する文書を適合度スコア順に検索結果として扱って出力するシステムの場合である。しかしながら、本発明による情報処理装置1はこれを最終の検索結果とせずに、さらにこの図8に示す結果を対象にして第1のクラスタリング及び第2のクラスタリングを行なう。
(第1文書クラスタリング)
次に、検索文書に対する第1のクラスタリング処理について詳しく説明する。なお、この処理はステップS503に相当する。
第1文書クラスタリング部303は、文書スコアリング部302により文書スコアリングされた検索文書を対象に、適合度スコアに基づいて1回目のクラスタリング(グループ化)を行なう。なお、後述する第2文書クラスタリング部304によるクラスタリングは、1回目のクラスタリングの後に行なわれる2回目のクラスタリングである。
再度図8を参照するに、文書ID1−10の文書のようにスコア降順にソートされた検索文書は、ある検索語を入力して得られた適合度スコアが近い文書であるのでその内容は似たような文書であるといえる。よって、適合度スコアをある範囲で区切って第1のクラスタリングを行う。例えば、適合度スコア値のとりうる値が0以上1未満の範囲である場合、第1のクラスタリングでは適合度スコア値の0以上0.1未満、0.1以上0.2未満、・・・、0.9以上1未満などのように10区分のクラスタ(グループ)に分類する。
図9は、図8に示す結果に対して第1のクラスタリングを行った結果を示す。適合度スコア順にソートされた検索結果の上位4件(文書ID1、3、10、5)がクラスタA(グループA)となり、中位2件(文書ID4、2)がクラスタB(グループB)、下位2件(文書ID6、7)がクラスタC(グループC)となる。
また、ここで第1のクラスタリングの変形例として、クラスタリング精度を高めるため平均変化率を用いることもできる。図10は、適合度スコアの平均変化率を算出する式を示す。ここで、Siは結果のi番目のスコアで、Nは検索結果件数である。この式を用いて図8に示す結果からこの平均変化率を求めると、0.053となる。そして、この平均変化率よりも大きくスコアが変動している箇所でクラスタを分類する。図8に示す結果によれば、文書ID5と文書ID4の間のスコアの変化は、0.314であり、この場合の平均変化率(0.053)よりも大きい。これは平均変化率よりも大きく変化しているため別クラスタとすることができる。よって、図11に示すとおりクラスタリングされる。上位4件(文書ID1、3、10、5)がクラスタA(グループA)となり、下位4件(文書ID4、2、6、7)がクラスタB(グループB)となる。
(第2文書クラスタリング)
次に、検索文書に対する第2のクラスタリング処理について詳しく説明する。なお、この処理はステップS504に相当する。
第2文書クラスタリング部306は、第1のクラスタリングを行なった結果得られるクラスタ内(グループ内)ごとに第2のクラスタリングを行う。第2のクラスタリングは、特徴語ファイルデータベース308に登録された特徴語ファイルから特徴語とその重みを取得し、特徴語がいくつか一致する文書(文書識別子)は同じクラスタであると判断して文書のクラスタリングを行う。ここでは図11を参照して、これを第1のクラスタリングを行なった結果として説明する。文書ID1、3、10、5がクラスタA(グループA)、文書ID4、2、6、7がクラスタBとなっている。そして、クラスタA内の文書ID1、3、10、5で第2のクラスタリングを行なう。同様に、クラスタB内の文書ID4、2、6,7で第2のクラスタリングを行なう。
第2のクラスタリングでは、特徴語ファイルデータベース307に登録された特徴語ファイルから特徴語とその重みを取得し、特徴語がいくつか一致するものは同じクラスタであると判断する。図12は、文書ID(文書識別子)をキーに特徴語とその特徴語の重みとが格納されている特徴語ファイルの一例である。第2のクラスタリングでは、例えば、特徴語が3語以上一致する場合に同じクラスタと判断する。クラスタA内の文書ID1、3、10、5において、文書ID1と文書ID10の文書は、特徴語が3語一致している。具体的には特徴語「全文」、「検索」、「転置」という3語で一致している。また、文書ID3と文書ID5の文書は、特徴語が4語一致している。具体的には特徴語「全文」、「検索」、「ベクトル」、「高速」という4語で一致している。よって、クラスタAにおいて、第2のクラスタリングの結果、文書ID1と文書ID10のクラスタ、及び文書ID3と文書ID5のクラスタに分類することができる。同様に、クラスタB内の文書ID4、2、6、7において、文書ID4、2、7は特徴語が3語一致するので同一のクラスタに分類できる。
図13は、第2のクラスタリングの結果をまとめたものである。検索文書は、クラスタ番号1−4が付与され4つのクラスタ(グループ)によって分類されている(ステップS505に相当)。繰り返しとなるが同じクラスタに分類された文書はその内容が類似していることを意味する。最終的にこの図13に示す結果は出力部305に渡される。
また、ここで第2のクラスタリングの変形例として、クラスタリング精度を高めるために各文書の特徴語を文書ベクトルで表し、そのベクトルが成す角度の余弦を用いてクラスタリングを行なう。文書ベクトルが成す角度の余弦を利用してクラスタリングを行なう手法は、図14の式により算出されることが知られている。特徴語をベクトル表現にし、2つの文書間の文書ベクトルが成す角度の余弦を求め、ある閾値内であればその2つの文書は同じクラスタであると判断する。文書ベクトルが成す角度の余弦は2つの文書間ごとに求める。
例えば、図12の特徴語をベクトルにすると、以下のようになる。文書ID1と3の特徴語をすべて列挙すると、(全文、検索、転置、スコア、ベクトル、高速)となる。この順で重み(1とする)をベクトル表記すると、
d1 = (1, 1, 1, 1, 0, 0)
d3 = (1, 1, 0, 0, 1, 1)
となる。そして、余弦s(d1,d3)を求めると、0.5となる。
また、文書番号1と10の特徴語をすべて列挙すると、(全文、検索、転置、スコア、重み)となる。この順で重みをベクトル表記すると、
d1 = (1, 1, 1, 1, 0)
d10 = (1, 1, 1, 0, 1)
となる。その余弦s(d1,d10)は0.75となる。同様にして、文書番号1と5の余弦s(d1,d5)は0.5となる。
ここで、余弦が0.7以上のものを同じクラスタであるとすると(余弦の値が大きいほど文書の距離が近い、つまり類似文書である)、クラスタA内の検索文書では文書ID1と10が同じクラスタと判断される。クラスタAのうち残りの文書ID3と5でも同様に判断する。クラスタBに対しても同様の処理を行うと、図13のような結果が得られる。
文書ベクトルが成す角度の余弦は2つの文書間でしか求めることができないが、これは上述した特徴語が3語以上一致する場合に同じクラスタと判断する方法をとっても同様のことがいえる。即ち、すべての文書を対象に2つの文書間の類似度をみてクラスタリングを行う方法では、必要とされる計算量は非常に多くなる。この為、計算量を減らすため様々な方法は提案されているが、本発明では迅速に検索結果を得る為、検索時に得られる適合度スコアを利用してまず第1のクラスタリングを行ない、その計算対象(計算量)を減らした上で第2のクラスタリングを行うものである。なお、本実施例では説明上検索文書数は10としたが、実際この数が多くなるほど従来のクラスタリング方法と比してクラスタリングに要する時間(及び計算量)の差は大きくなる。
(検索結果の出力)
出力部305は、適合度スコア及びクラスタリングの観点から、検索結果(検索文書のリスト)を出力する。図13を参照して説明するに、上述した第1、2のクラスタリングにより各検索文書(文書ID1−10)はクラスタ番号が付されてグループ化された。
ところで、転置索引を用いた多くの全文検索システムでは、検索結果一覧を表示するときに、入力されたキーワードと検索にヒットした文書との適合率をスコアという数値に表し、スコアの大きなものから順番に、検索結果一覧に表示(ランキング検索)することは上述した。しかしながら、同一文書や類似文書に対して、単純にランキング検索を行なうと、同一又は類似の文書はそのスコア値もほぼ同じになるので、スコア順でソートした場合同じような文書が連続して表示される。よって、同一又は類似する文書を分類する文書クラスタリングにより、検索対象として同一又は類似する文書をグループ化する。そして、検索結果には各グループの代表文書のみを表示すればよい。これにより、同じような内容の文書の表示されることなく見やすい検索結果を表示することができる。
図15は、出力部305により出力された検索結果(検索文書のリスト)の一例である。スコア降順にソートされ、且つクラスタ(グループ)1−4ごとの代表文書(先頭文書)が検索結果に表示されている。また、クラスタ番号3は、3つの文書(文書ID「4」、「2」、「7」)が属しており、文書ID「2」、「7」の文書は、代表文書である文書ID「4」の文書に紐付けられて参照可能になっている。
以上、本実施例による情報処理装置1は、検索時に得られる適合度スコアを利用して第1のクラスタリングを行ない、その計算対象(計算量)を減らした上で第2のクラスタリングを行うので検索文書に対して効率的なクラスタリングを行なうことができ、結果迅速に検索結果を提供することができる。即ち、本発明によれば、効率的な文書クラスタリングを行なうようにし、迅速に提供されて見やすい全文検索結果により目的の文書への到達を容易にする情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体を提供することが可能となる。
(特徴語の抽出について)
最後に特徴語の抽出について説明する。特徴語はその重みとともに特徴語ファイルに登録されている。また第2のクラスタリングにおいて、特徴語ファイルが用いられ登録される特徴語及びその重み(重み値)に基づいて検索文書のクラスタリング(判断)が行なわれることは上述した。とすると文書において如何なる単語を特徴語とするかは、クラスタリング結果(そのクラスタリング精度)に影響することになる。よってここでは、より精度の高いクラスタリング(第2のクラスタリングに相当)を行なうため特徴語の抽出方法について簡単に説明する。
特徴語を抽出するにあたって用いられる値として、TFIDF(TF-IDF)値がある。TFIDFは文章中の特徴的な単語(重要とみなされる単語)を抽出するためのアルゴリズムであり情報検索や文章要約などの分野で利用される。
文書(全文データ)から得られる単語の出現頻度を表すTF値と、コーパスを検索した結果得られる単語の出現頻度であるDF値(又は逆出現頻度であるIDF値)とからTFIDF値を求め、TFIDF値がある閾値以上のもののみを特徴語とすることにより特徴語の抽出を行う。なお、コーパスとは、多数の単語が含まれているデータベースのようなもので、各単語とその出現頻度(DF値)が格納されているものとする。多くのドキュメントに出現する一般的な単語は重要度を下げて、特定のドキュメントにしか出現しない単語の重要度を上げる役割がある。
特徴語の抽出条件は、例えば、
1、TFIDF値がある閾値以上であるものすべて
2、TFIDF値がある閾値以上であるもののうち上位N件
とする。
また、文書(全文データ)から得られる単語の出現頻度を表すTF値と、形態素解析時に得られる生起コストから重み値を求め、重み値がある閾値以上のもののみを特徴語とすることにより特徴語の抽出を行う。なお、生起コストとは、その単語の出現しやすさを表した数値で、コーパス内での出現頻度であるDF値と同様に扱うことが可能である。生起コストが大きいものは出現しやすい単語となるので、生起コストが小さくTF値が大きい単語がその文書の特徴語とすることができる。
特徴語の抽出条件は、例えば、
1. 重み値がある閾値以上であるものすべて
2. 重み値がある閾値以上であるもののうち上位N件
とする。
<実施例2>
本実施例による情報処理装置1の一使用形態について説明する。実施例1において、本発明による情報処理装置1は、適合度スコアによって検索文書に対する第1のクラスタリング処理を行い、その後、各クラスタ内で検索文書に対する第2のクラスタリング処理を行うことを説明した。ところで、適合度スコアは、検索条件との適合度であって、クラスタリングを行う文書間の距離とは別の次元のものである。従って、適合度スコアが近いものは似ている文書となる可能性は高いが、適合度スコアが必ずしも近くなくても類似する文書が存在する場合がある。例えば、図12を再び参照すると、文書ID「6」の文書と、文書ID「3」及び「5」の文書とは、特徴語及び重みが同じ(又は類似)であるにもかかわらず、図13の第2のクラスタリング結果においては、異なるクラスタ番号としてクラスタリングが行われている。即ち、文書ID「6」の文書はクラスタ番号「4」に、文書ID「3」及び「5」の文書はクラスタ番号「5」にクラスタリングされている。これは、適合度スコアによる第1のクラスタリング処理により、文書ID「6」の文書と、文書ID「3」及び「5」の文書とが、別のクラスタとして処理されたことに起因しているのである。そこで実施例2においては、このように適合度スコアが必ずしも近くなくても類似する文書が存在する場合の対処として、第2のクラスタリングの結果に対しさらにクラスタ間のマージ処理を行う。
(機能)
図16は、本発明の実施例に係る情報処理装置1の一実施形態の主要機能を示す機能ブロック図である。情報処理装置1は、主要な機能として、文書検索部301、文書スコアリング部302、第1文書クラスタリング部303、第2文書クラスタリング部304、出力部305、索引ファイルデータベース306、特徴語ファイルデータベース307、及びクラスタマージ部308を含む構成である。
なお、クラスタマージ部308以外の各機能部については、上述した通りであるのでその説明を省略する。
(クラスタ間のマージ処理)
次に、クラスタ間のマージ処理について詳しく説明する。図17は、クラスタ間のマージ処理を説明するフローチャートである。以下、図を参照しつつ具体的に説明を行う。なお、図中ステップS501〜S505(図5)は上述した通りであるので説明を省略する。図中のステップS505では、第2のクラスタリング処理がなされて検索文書にクラスタ番号が付与されている。例えば、図13を参照すると、第2のクラスタリングの結果によって、クラスタは1〜4つのクラスタ(番号)に分類されており、以下クラスタ間のマージ処理について説明する。
ステップS506において、クラスタマージ部308は、各クラスタから代表文書を取得する。具体的に、第2のクラスタリング処理によりクラスタリングされた各クラスタ内の文書から、例えば、最も適合度スコアが上位の文書を代表文書として取得する。図13に示される第2のクラスタリングの結果では、クラスタは1〜4つのクラスタに分類されており、各クラスタの代表文書は、最も適合度スコアが上位の文書、つまりそれぞれ文書ID「1」、「3」、「4」、「6」の文書となる。
ステップS507で、次に再び特徴語ファイルデータベース307に登録された特徴語ファイルから、これら代表文書に対応する特徴語とその重みを取得する。具体的に、代表文書である文書ID「1」、「3」、「4」、「6」の文書に対応する特徴語とその重みを、図12に示される特徴語ファイルから取得する。
ステップS508で、クラスタマージ部308は、各クラスタの代表文書の特徴語とその重みを用いて、代表文書間(クラスタ間)の距離を算出する。距離の算出は、前述の第2のクラスタリング処理で説明した方法を行うことができる。例えば、代表文書である文書ID「3」の文書と、文書ID「6」の文書とは、取得された特徴語とその重みは、(全文,1)、(検索,1)、(ベクトル,1)、(高速,1)である。クラスタ間の距離として、例えば、特徴語が一致する数を距離として算出する。この距離は2つの代表文書間ごとに求める。また例えば、代表文書の特徴語と重み値をベクトル表現にし、2つの文書間の文書ベクトルが成す角度の余弦を求め、その余弦(値)を距離として算出する。文書ベクトルが成す角度の余弦は2つの代表文書間ごとに求める。
ステップS509で、クラスタマージ部308は、距離の近い代表文書があるか判断する。判断は、距離が所定の閾値と比較することにより行なう。例えば、特徴語が閾値数(例えば3語)以上一致する場合に、その2つの代表文書は距離が近いと判断する。また例えば、文書ベクトルが成す角度の余弦が、所定の閾値(余弦0.7)内であれば、その2つの代表文書は距離が近いと判断する。
ステップS510で、その2つの代表文書は距離が近いと判断されると、クラスタマージ部308は、その2つの代表文書が属するクラスタ同士のマージを行う。例えば、文書ID「3」の文書と文書ID「6」の文書は、特徴語が4語一致しているので、文書ID「3」の文書と文書ID「6」の文書は、文書の距離が近いと判断される。そして代表文書の距離が近いと判断されたので、クラスタ番号「2」とクラスタ番号「4」のクラスタ間の距離も近いと判断される。よってこの場合、クラスタ番号「2」とクラスタ番号「4」のクラスタは、マージされる。
ステップS511で、マージされた検索文書にクラスタ番号が改めて付与される。図18は、クラスタ間のマージ処理結果を示す図の一例である。クラスタ番号「4」に属する文書、つまりクラスタ文書ID「6」の文書は、クラスタ番号「2」のクラスタ内にマージ(統合)されていることが示されている。
図19は、出力部305により出力されたマージ処理後の検索結果(検索文書のリスト)の一例である。スコア降順にソートされ、且つクラスタ(グループ)1−3ごとの代表文書(先頭文書)が検索結果に表示されている。また、クラスタ番号2は、3つの文書(文書ID「3」、「5」、及びマージされた「6」)が属しており、文書ID「5」及び「6」の文書は代表文書である文書ID「3」の文書に紐付けられて参照可能になっている。
なお一方、ステップS509で、距離の近い代表文書がないと判断された場合、クラスタ間のマージ処理の必要はないので、マージ処理を行わずに処理を終了する。この場合、ステップS505による処理結果(例えば図13参照)が維持される。
以上、本実施例による情報処理装置1は、第2のクラスタリングの結果に対しさらにクラスタ間のマージ処理を行うので、適合度スコアが必ずしも近くなくても類似する文書が存在する場合、これら適合度スコアが近くなくても類似する文書を同じクラスタに分類できる。従って、検索結果の精度をより高めることが可能となる。
なお、本実施例においては、第2のクラスタリングの結果によって、クラスタは1〜4つのクラスタ(番号)に分類されており、これら4つのクラスタ間においてマージ処理を試みるものとして説明を行った。しかしながら、第2のクラスタリングの結果によって、非常に多くのクラスタが存在するような場合に、各クラスタ内の代表文書間(クラスタ間)の距離を算出するとその計算量は膨大になる。そこで、各クラスタ内の代表文書間の距離の算出において、その対象とする代表文書の上限を決めておくとよい。その計算量を少なくすることができるからである。
例えば、第2のクラスタリングの結果、100つのクラスタに分類された場合を想定する。一のクラスタ内の代表文書と、それ以外の全てのクラスタ内の代表文書との距離を算出していくと、その計算数は、
100 × 99 / 2 = 4950
となってしまい、その計算量は膨大になる。従って、マージ対象のクラスタは、そのクラスタ自身から順に、例えば5つ先のクラスタまでと上限を決めておく。すると、一のクラスタ内の代表文書と、順に5つ先のクラスタ内の代表文書との距離を算出していくことになり、その計算数は、
(100 - 5) x 5 + 4 + 3 + 2 = 484
となる。このように各クラスタ内の代表文書間の距離の算出において、その対象とする代表文書の上限を決めておくことで、その計算量を4950から484へと大きく減少することができる。
本実施例は、適合度スコアが必ずしも近くなくても類似する文書が存在する場合に備えて、クラスタ間のマージ処理を行うものである。しかしその一方では、やはり適合度スコアが近いものは似ている文書となる可能性は高いといえる。つまり、適合度スコアが必ずしも近くなくても類似する文書が存在するものと考慮しつつ、スコア値があまりに大きく異なるようなクラスタ内の代表文書は別の文書であると想定できる。従って、クラスタ内の文書はクラスタ毎にスコア順にソートされているので、各クラスタ内の代表文書間の距離の算出において、その対象とする代表文書の上限を所定のクラスタ順までと決めておくことで、その計算量を少なくし、効率的な文書クラスタリングを行なうことができる。
以上、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
1 情報処理装置
2 文書管理装置
3 端末
5 ネットワーク
201 CPU
202 ROM
203 RAM
204 補助記憶装置
205 記憶媒体読取装置
206 入力装置
207 表示装置
208 通信装置
301 文書検索部
302 文書スコアリング部
303 第1文書クラスタリング部
304 第2文書クラスタリング部
305 出力部
306 索引ファイルデータベース
307 特徴語ファイルデータベース
308 クラスタマージ部
特開2006−31209号公報
真野博子、伊藤秀夫、小川泰嗣「文書検索におけるランキング検索技術」、リコーテクニカルレポート、No29、2003年12月12日、http://www.ricoh.co.jp/about/business_overview/report/29/pdf/A2902.pdf 岸田 和明、文書クラスタリングの技法:文献レビュー Techniques of Document Clustering: A Review.Library and Information Sience No.49,2003、http://wwwsoc.nii.ac.jp/mslis/pdf/LIS49033.pdf

Claims (9)

  1. 文書の全文検索を行なって検索条件に該当する検索文書を検索する文書検索手段と、
    前記検索条件との適合度を表す適合度スコアによって前記検索文書を順序付ける文書スコアリング手段と、
    前記文書を識別するための文書識別子と、前記文書の全文データから抽出された特徴語と、当該特徴語の重みを表す重み値とが対応付けられて登録された特徴語ファイルデータベースと、
    前記検索文書の前記文書識別子をキーとして、前記特徴語ファイルデータベースから取得した前記特徴語と当該特徴語の重み値とに基づいて、前記検索文書に対してクラスタリング処理を行う文書クラスタリング手段とを有し、
    検索結果一覧を作成する情報処理装置であって、
    前記適合度スコアに基づいて前記検索文書をグループ化する文書グループ化手段を有し、
    前記文書クラスタリング手段は、前記文書グループ化手段によりグループ化されたグループごとに、そのグループ内の前記検索文書に対してクラスタリング処理を行うこと、
    を特徴とする情報処理装置。
  2. 前記文書グループ化手段は、前記適合度スコアの平均変化率に基づいて、前記検索文書をグループ化すること、
    を特徴とする請求項1に記載の情報処理装置。
  3. 前記文書クラスタリング手段は、前記特徴語をベクトル表現し、当該ベクトルの成す角度の余弦の値に基づいて、前記検索文書のクラスタリング処理を行うこと、
    を特徴とする請求項1又は2に記載の情報処理装置。
  4. 前記特徴語は、前記全文データから得られる単語の出現頻度を表すTF値と、コーパスから得られる単語の出現頻度を表すDF値とに基づいて抽出されること、
    を特徴とする請求項1ないし3いずれか一項に記載の情報処理装置。
  5. 前記特徴語は、前記全文データから得られる単語の出現頻度を表すTF値と、形態素解析の際に得られる出現頻度を表す生起コスト値とに基づいて抽出されること、
    を特徴とする請求項1ないし3いずれか一項に記載の情報処理装置。
  6. 前記クラスタリング処理手段によりクラスタリング処理された各クラスタ内の検索文書の特徴語をベクトル表現し、当該ベクトルの成す角度の余弦の値に基づいて、当該検索文書の距離が所定閾値より近いクラスタ間のマージを行うクラスタマージ手段を有すること、
    を特徴とする請求項1から5いずれか一項に記載の情報処理装置。
  7. 文書の全文検索を行なって検索条件に該当する検索文書を検索する文書検索手段と、
    前記検索条件との適合度を表す適合度スコアによって前記検索文書を順序付ける文書スコアリング手段と、
    前記文書の全文データから抽出される前記文書の特徴語と当該特徴語の重みを表す重み値とに基づいて、前記検索文書に対してクラスタリング処理を行う文書クラスタリング手段とを有し、検索結果一覧を作成する情報処理装置における全文検索方法であって、
    前記適合度スコアに基づいて、前記検索文書をグループ化する文書グループ化手順を有し、
    前記文書クラスタリング手段は、前記文書グループ化手順によりグループ化されたグループごとに、そのグループ内の前記検索文書に対してクラスタリング処理を行うこと、
    を特徴とする全文検索方法。
  8. 請求項7に記載の全文検索方法をコンピュータに実行させるためのプログラム。
  9. 請求項8に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2009077243A 2008-05-28 2009-03-26 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体 Active JP5316158B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2009077243A JP5316158B2 (ja) 2008-05-28 2009-03-26 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体
US12/473,616 US8180781B2 (en) 2008-05-28 2009-05-28 Information processing apparatus , method, and computer-readable recording medium for performing full text retrieval of documents

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2008139762 2008-05-28
JP2008139762 2008-05-28
JP2009077243A JP5316158B2 (ja) 2008-05-28 2009-03-26 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体

Publications (2)

Publication Number Publication Date
JP2010009577A true JP2010009577A (ja) 2010-01-14
JP5316158B2 JP5316158B2 (ja) 2013-10-16

Family

ID=41381050

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009077243A Active JP5316158B2 (ja) 2008-05-28 2009-03-26 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体

Country Status (2)

Country Link
US (1) US8180781B2 (ja)
JP (1) JP5316158B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013109606A (ja) * 2011-11-22 2013-06-06 Ricoh Co Ltd 情報処理装置およびプログラム
JP2015507299A (ja) * 2012-02-10 2015-03-05 グーグル・インコーポレーテッド 検索結果分類
JPWO2015040860A1 (ja) * 2013-09-18 2017-03-02 日本電気株式会社 分類辞書生成装置、分類辞書生成方法及びプログラム
JP2021077256A (ja) * 2019-11-13 2021-05-20 株式会社Fronteo 文書処理装置、文書レビューシステム、文書処理装置の制御方法、文書レビューサービスを提供する方法、および制御プログラム
JP2023054506A (ja) * 2021-10-04 2023-04-14 株式会社ラック 情報検索システム、情報検索方法およびプログラム

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101996215B (zh) 2009-08-27 2013-07-24 阿里巴巴集团控股有限公司 一种应用于电子商务网站的信息匹配方法和系统
JP5025782B2 (ja) * 2010-02-17 2012-09-12 キヤノン株式会社 画像検索装置及び画像検索方法
US7933859B1 (en) 2010-05-25 2011-04-26 Recommind, Inc. Systems and methods for predictive coding
CN102298576B (zh) * 2010-06-25 2014-07-02 株式会社理光 文档关键词生成方法和装置
US9443008B2 (en) * 2010-07-14 2016-09-13 Yahoo! Inc. Clustering of search results
US8762300B2 (en) * 2011-10-18 2014-06-24 Ming Chuan University Method and system for document classification
US9311650B2 (en) 2012-02-22 2016-04-12 Alibaba Group Holding Limited Determining search result rankings based on trust level values associated with sellers
JP5567049B2 (ja) * 2012-02-29 2014-08-06 株式会社Ubic 文書分別システム及び文書分別方法並びに文書分別プログラム
US8832108B1 (en) 2012-03-28 2014-09-09 Emc Corporation Method and system for classifying documents that have different scales
US9069768B1 (en) 2012-03-28 2015-06-30 Emc Corporation Method and system for creating subgroups of documents using optical character recognition data
US8843494B1 (en) * 2012-03-28 2014-09-23 Emc Corporation Method and system for using keywords to merge document clusters
US9396540B1 (en) 2012-03-28 2016-07-19 Emc Corporation Method and system for identifying anchors for fields using optical character recognition data
US8533148B1 (en) * 2012-10-01 2013-09-10 Recommind, Inc. Document relevancy analysis within machine learning systems including determining closest cosine distances of training examples
JP5526209B2 (ja) * 2012-10-09 2014-06-18 株式会社Ubic フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム
CN104063387B (zh) * 2013-03-19 2017-07-28 三星电子(中国)研发中心 在文本中抽取关键词的装置和方法
CN104239300B (zh) * 2013-06-06 2017-10-20 富士通株式会社 从文本中挖掘语义关键词的方法和设备
CN104572719A (zh) * 2013-10-21 2015-04-29 中兴通讯股份有限公司 信息收集方法及装置
CN104572736A (zh) * 2013-10-23 2015-04-29 北大方正集团有限公司 基于社交网络的关键词提取方法及装置
US20170116180A1 (en) * 2015-10-23 2017-04-27 J. Edward Varallo Document analysis system
US10943312B2 (en) 2015-10-28 2021-03-09 MyFitnessPal, Inc. Restaurant matching and filtering for use in a health tracking system
US20170286639A1 (en) * 2016-03-31 2017-10-05 Under Armour, Inc. Health tracking system with verification of nutrition information
JP6662169B2 (ja) * 2016-04-18 2020-03-11 富士通株式会社 符号化プログラム、符号化方法、符号化装置、検索プログラム、検索方法および検索装置
US9645999B1 (en) * 2016-08-02 2017-05-09 Quid, Inc. Adjustment of document relationship graphs
CN107704763A (zh) * 2017-09-04 2018-02-16 中国移动通信集团广东有限公司 多源异构漏洞情报去重方法、分级方法及装置
US11163811B2 (en) 2017-10-30 2021-11-02 International Business Machines Corporation Ranking of documents based on their semantic richness
US10909148B2 (en) * 2018-04-23 2021-02-02 Laserlike, Inc. Web crawling intake processing enhancements
CN109255022B (zh) * 2018-08-08 2021-11-23 宜人恒业科技发展(北京)有限公司 一种用于网络文章的摘要自动提取方法
US11176198B2 (en) * 2019-09-25 2021-11-16 Open Text Holdings, Inc. System and method for pre-indexing filtering and correction of documents in search systems

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1185765A (ja) * 1997-09-08 1999-03-30 Toshiba Corp タグ付文書検索システム
JPH11213000A (ja) * 1998-01-29 1999-08-06 Nippon Telegr & Teleph Corp <Ntt> インタラクティブ情報検索方法及び装置及びインタラクティブ情報検索プログラムを格納した記憶媒体
JP2003067419A (ja) * 2001-08-24 2003-03-07 Toshiba Corp 情報検索方法および情報検索システム
JP2005519396A (ja) * 2002-03-07 2005-06-30 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 情報検索要求に応じて検索結果を提供する方法及び装置
JP2007164633A (ja) * 2005-12-15 2007-06-28 Nippon Telegr & Teleph Corp <Ntt> コンテンツ検索方法及び装置及びプログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5933822A (en) * 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
US7284191B2 (en) * 2001-08-13 2007-10-16 Xerox Corporation Meta-document management system with document identifiers
JP2006031209A (ja) 2004-07-14 2006-02-02 Ricoh Co Ltd 全文検索システム、全文検索方法、プログラムおよび記録媒体
JP4825544B2 (ja) * 2005-04-01 2011-11-30 株式会社リコー 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体
US8280719B2 (en) * 2005-05-05 2012-10-02 Ramp, Inc. Methods and systems relating to information extraction
JP2006331117A (ja) 2005-05-26 2006-12-07 Ricoh Co Ltd 文書検索システム、文書検索装置、文書検索方法および文書検索プログラム
JP4807984B2 (ja) * 2005-08-23 2011-11-02 株式会社リコー 文書管理システム、文書管理システムの設定方法、プログラム及びコンピュータに読み取り可能な記録媒体
US8046363B2 (en) * 2006-04-13 2011-10-25 Lg Electronics Inc. System and method for clustering documents
JP4709723B2 (ja) * 2006-10-27 2011-06-22 株式会社東芝 姿勢推定装置及びその方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1185765A (ja) * 1997-09-08 1999-03-30 Toshiba Corp タグ付文書検索システム
JPH11213000A (ja) * 1998-01-29 1999-08-06 Nippon Telegr & Teleph Corp <Ntt> インタラクティブ情報検索方法及び装置及びインタラクティブ情報検索プログラムを格納した記憶媒体
JP2003067419A (ja) * 2001-08-24 2003-03-07 Toshiba Corp 情報検索方法および情報検索システム
JP2005519396A (ja) * 2002-03-07 2005-06-30 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 情報検索要求に応じて検索結果を提供する方法及び装置
JP2007164633A (ja) * 2005-12-15 2007-06-28 Nippon Telegr & Teleph Corp <Ntt> コンテンツ検索方法及び装置及びプログラム

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSND200200606005; 風間 一洋、外2名: 'サーチエンジンの検索結果のマルチレベル・グルーピングの評価' コンピュータソフトウェア 第17巻,第4号, 20000717, p.58-69, 日本ソフトウェア科学会 *
CSNG200900266127; 村松 亮介、外2名: '分類階層を利用した検索エンジンの検索結果の構造化とその提示方法の改良' 電子情報通信学会 第19回データ工学ワークショップ論文集 , 20090625, p.1-6, 電子情報通信学会データ工学研究専門委員会 *
JPN6013027467; 村松 亮介、外2名: '分類階層を利用した検索エンジンの検索結果の構造化とその提示方法の改良' 電子情報通信学会 第19回データ工学ワークショップ論文集 , 20090625, p.1-6, 電子情報通信学会データ工学研究専門委員会 *
JPN6013027469; 風間 一洋、外2名: 'サーチエンジンの検索結果のマルチレベル・グルーピングの評価' コンピュータソフトウェア 第17巻,第4号, 20000717, p.58-69, 日本ソフトウェア科学会 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013109606A (ja) * 2011-11-22 2013-06-06 Ricoh Co Ltd 情報処理装置およびプログラム
JP2015507299A (ja) * 2012-02-10 2015-03-05 グーグル・インコーポレーテッド 検索結果分類
JPWO2015040860A1 (ja) * 2013-09-18 2017-03-02 日本電気株式会社 分類辞書生成装置、分類辞書生成方法及びプログラム
JP2021077256A (ja) * 2019-11-13 2021-05-20 株式会社Fronteo 文書処理装置、文書レビューシステム、文書処理装置の制御方法、文書レビューサービスを提供する方法、および制御プログラム
JP2023054506A (ja) * 2021-10-04 2023-04-14 株式会社ラック 情報検索システム、情報検索方法およびプログラム

Also Published As

Publication number Publication date
US20090300007A1 (en) 2009-12-03
JP5316158B2 (ja) 2013-10-16
US8180781B2 (en) 2012-05-15

Similar Documents

Publication Publication Date Title
JP5316158B2 (ja) 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体
US7769771B2 (en) Searching a document using relevance feedback
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
JP6299596B2 (ja) クエリ類似度評価システム、評価方法、及びプログラム
US20040230570A1 (en) Search processing method and apparatus
US8316032B1 (en) Book content item search
JP5159772B2 (ja) 文書検索装置及び文書検索方法
JP2009238115A (ja) 情報推薦装置および情報推薦方法
JP2009003888A (ja) キーワード提示のための装置、方法、及びプログラム
US20070179984A1 (en) Information element processing method and apparatus
CN114116997A (zh) 知识问答方法、装置、电子设备及存储介质
JPH11102377A (ja) データベースからドキュメントを検索する方法および装置
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
Wei et al. Online education recommendation model based on user behavior data analysis
JP2013222418A (ja) パッセージ分割方法、装置、及びプログラム
JP2001265774A (ja) 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム
JP2012104051A (ja) 文書インデックス作成装置
JP6733481B2 (ja) 検索手段選択プログラム、検索手段選択方法及び検索手段選択装置
WO2018084226A1 (ja) 文書検索方法及び装置
JP5127553B2 (ja) 情報処理装置、情報処理方法、プログラム及び記録媒体
JP2003271648A (ja) 検索装置、検索方法、ならびに、プログラム
JP2007188134A (ja) 索引ファイルを用いた文書検索の方法
JP2017208047A (ja) 情報検索方法、情報検索装置、及びプログラム
JP5199968B2 (ja) キーワードタイプ判定装置、キーワードタイプ判定方法およびキーワードタイプ判定プログラム
JP5541014B2 (ja) 書籍情報検索装置、書籍情報検索システム、書籍情報検索方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120621

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130530

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130611

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130624

R151 Written notification of patent or utility model registration

Ref document number: 5316158

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151