JP3693514B2 - 文書検索・分類方法および装置 - Google Patents

文書検索・分類方法および装置 Download PDF

Info

Publication number
JP3693514B2
JP3693514B2 JP05080399A JP5080399A JP3693514B2 JP 3693514 B2 JP3693514 B2 JP 3693514B2 JP 05080399 A JP05080399 A JP 05080399A JP 5080399 A JP5080399 A JP 5080399A JP 3693514 B2 JP3693514 B2 JP 3693514B2
Authority
JP
Japan
Prior art keywords
search
document
classification
search result
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP05080399A
Other languages
English (en)
Other versions
JP2000250925A (ja
Inventor
直彦 野口
祐司 菅野
光弘 佐藤
快 伊藤
貴雄 福重
光昭 稲葉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP05080399A priority Critical patent/JP3693514B2/ja
Priority to TW89117245A priority patent/TW469386B/zh
Publication of JP2000250925A publication Critical patent/JP2000250925A/ja
Application granted granted Critical
Publication of JP3693514B2 publication Critical patent/JP3693514B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、電子化され蓄積された文書情報から所望の文書を検索し、その検索した文書を所望の視点で分類する文書検索・分類装置に関し、特に、データベースに蓄積された文書情報や、一般のワードプロセッサ、オフィスコンピュータ、パーソナルコンピュータなどの記憶装置に蓄積された文書情報を多様な視点で検索・分類することを可能にするものである。
【0002】
【従来の技術】
近年、電子メールや電子カタログ、電子出版物など、電子化された文書情報が大量に流通し始めたこと、また、インターネットの普及によって、そのような文書情報の利用者が急激に増加してきていることに伴って、一般の利用者が、それら大量の文書情報から所望の文書を検索・収集したり、また、収集した文書情報を利用者各自のやり方で分類・整理するといったニーズが高まってきている。
【0003】
従来、そのような人間の知的活動を支援するものとしては、利用者から入力される検索条件に合致する文書情報を検索する文書検索装置や、時々刻々と届けられる情報を、利用者の嗜好に合わせて取捨選択する文書フィルタリング装置や、また、文書をフィルタリングする際に、あらかじめ定められた複数の分類基準に従って、文書情報を仕分けして整理する文書分類装置などがあった。
【0004】
【発明が解決しようとする課題】
しかし、従来の文書検索装置は、利用者の入力する検索条件に応じて文書情報を検索して結果を返すのみで、その結果を利用者の望む形に分類・整理するといったことまでは行わない。
【0005】
また、従来の文書フィルタリング装置や文書分類装置は、利用者の嗜好や分類項目をあらかじめ登録しておき、その嗜好や分類項目に合致する文書をフィルタリングしたり、分類したりするものであり、嗜好や分類項目は多くの場合事前に作成された静的なものである。文書フィルタリング装置の中には、フィルタリングされた文書に対して利用者が可・不可を判断することにより、利用者の嗜好を半自動的に学習する、というものも存在するが、その場合も、利用者の嗜好や分類項目はある一定期間は変化することのない、静的なものと捉えられている。
【0006】
通常、人間は、検索した文書を分類する場合、検索結果を見て、どのような視点から分類するかを考え、その視点を分類基準として、文書の分類・仕分け作業を実行し、必要があれば、そのような作業を繰り返して、さらに細分類する。
【0007】
そのため、静的な検索や分類しかできない従来の文書検索装置や文書フィルタリング装置、文書分類装置では、このように検索結果を見て、分類項目を動的に設定し、多種多様な視点から分類・仕分けをすると言う、本来人間が行っている知的活動を支援することは困難である。
【0008】
また、従来の文書分類装置の多くは、文書から何らかの特徴抽出を行い、あらかじめ設定した特徴空間へ各文書を写像して、その特徴空間内で一般的なパターン認識・パターン分類の手法を用いるもので、その際に用いる特徴空間は、基底となる比較的少数の単語集合をあらかじめ定め、その単語集合の各文書における出現頻度などを用いて構成する。つまり、分類の際に用いられる特徴空間はあらかじめ定められており、利用者の視点により特徴空間自体を変更するということはできず、真に動的な視点設定が困難だった。
【0009】
本発明は、こうした従来の問題点を解決するものであり、必要な文書情報を検索し、検索・収集された文書情報を、利用者が任意に与え得る自由で多種多様な視点から分類し、あるいは、自動的に分類して、前述した人間の知的活動を総合的に支援することができる文書検索・分類装置を提供することを目的としている。
【0010】
【課題を解決するための手段】
そこで、本発明の文書検索・分類装置では、検索条件及び分類基準が入力される入力手段、検索条件に合致する文書を検索し、かつその検索結果文書と前記検索条件との類似度を計算する検索手段と、検索結果文書を格納する検索結果格納手段と、入力手段から入力された分類基準を検索条件に変換する分類基準変換手段と、検索結果文書をこの分類基準に応じて複数の分類に分類する検索結果分類手段とを設けている。
【0011】
この装置では、利用者が検索条件を入力すると、複数の文書を検索して検索結果文書を求め、また、利用者が検索結果に対して複数の分類の分類基準を入力すると、この分類基準を検索条件に変換し、変換した検索条件と検索結果文書との類似度を計算し、この類似度を基に、検索結果文書の各分類に対する帰属度を計算し、検索結果文書を帰属度が最も高い分類に分類する。
【0012】
そのため、利用者が思い立った時に、任意の言葉(文字列)を要素とする検索条件を与えることで文書を検索し、また、その検索結果を更に利用者の要望に沿って分類することができ、人間の知的活動を総合的に支援ことができる。
【0013】
本発明では、文書分類が、任意の文字列を要素とする検索条件を用いた類似度計算に基づいて行われるが、これは、任意の文字列を特徴素(基底)とする特徴空間を動的に構築して、その空間内で分類を行うことに相当する。その意味で、従来の、あらかじめ固定された単語集合で規定される特徴空間内での分類とは異なり、真に動的な視点から分類を行うことが可能になる。
【0017】
【発明の実施の形態】
本発明の請求項1に記載の発明は、入力された検索条件に従って文書を検索し、検索した文書を分類基準に従って分類する装置において、検索条件及び任意の文字列の集合で表現した分類基準が入力される入力手段と、検索条件に合致する文書を検索し、かつその検索結果文書と検索条件との類似度を計算する検索手段と、検索結果文書を格納する検索結果格納手段と、検索結果文書を一覧表示する表示手段と、入力手段から入力された、任意の文字列の集合で表現した分類基準を検索条件に変換する分類基準変換手段と、検索結果文書をこの分類基準に応じて複数の分類に分類する検索結果分類手段とを設け、入力手段から検索条件が入力されると、検索手段が、この検索条件を用いて文書を検索し、検索結果格納手段が、得られた検索結果文書を格納し、表示手段が検索結果文書を一覧表示した後に、入力手段から検索結果文書を分類する分類基準として分類視点を表す任意の文字列の集合が入力されると、分類基準変換手段が、この文字列の集合を検索条件に変換し、検索手段が、変換された検索条件と検索結果格納手段に格納された検索結果文書との類似度を計算し、検索結果分類手段が、検索結果文書の各々について、類似度を基に分類基準に対する帰属度を計算して、検索結果文書を帰属度が最も高い分類に分類するようにしたものであり、利用者が思い立った時に、任意の言葉(文字列)を要素とする検索条件を与えることで文書を検索し、また、その検索結果の文書を一覧した後、入力手段から分類視点を表すような、思いつくままの(自由に設定した)文字列の集合を入力することで、検索結果を利用者の要望に沿って分類することができ、人間の知的活動を総合的に支援ことができる。
【0019】
請求項2に記載の発明は、入力された検索条件に従って文書を検索し、検索した文書を分類基準に従って分類する装置において、検索条件及び任意の文章で表現した分類基準が入力される入力手段と、検索条件に合致する文書を検索し、かつその検索結果文書と検索条件との類似度を計算する検索手段と、検索結果文書を格納する検索結果格納手段と、検索結果文書を一覧表示する表示手段と、入力手段から分類基準として入力された文章からキーワードを抽出するキーワード抽出手段と、キーワード抽出手段が抽出したキーワードの集合を検索条件に変換する分類基準変換手段と、検索結果文書をこの分類基準に応じて複数の分類に分類する検索結果分類手段とを設け、入力手段から検索条件が入力されると、検索手段が、この検索条件を用いて文書を検索し、検索結果格納手段が、得られた検索結果文書を格納し、表示手段が検索結果文書を一覧表示した後に、入力手段から検索結果文書を分類する分類基準として分類視点を表す任意の文章が入力されると、キーワード抽出手段が、この文章からキーワードを抽出し、分類基準変換手段が、抽出されたキーワードの集合を検索条件に変換し、検索手段が、変換された検索条件と検索結果格納手段に格納された検索結果文書との類似度を計算し、検索結果分類手段が、検索結果文書の各々について、類似度を基に分類基準に対する帰属度を計算して、検索結果文書を帰属度が最も高い分類に分類するようにしたものであり、分類基準として、利用者が望む分類の視点を、そのまま文章で表現して入力することができるので、複雑な分類視点を表現することが可能となり、より柔軟で多面的な視点設定を行うことができる。
【0020】
請求項3に記載の発明は、入力された検索条件に従って文書を検索し、検索した文書を分類基準に従って分類する装置において、検索条件及び分類基準としての文書の情報が入力される入力手段と、検索条件に合致する文書を検索し、かつその検索結果文書とこの検索条件との類似度を計算する検索手段と、検索結果文書を格納する検索結果格納手段と、検索結果文書を一覧表示する表示手段と、入力手段から分類基準として指定された検索結果文書からキーワードを抽出するキーワード抽出手段と、キーワード抽出手段が抽出したキーワードの集合を検索条件に変換する分類基準変換手段と、検索結果文書をこの分類基準に応じて複数の分類に分類する検索結果分類手段とを設け、入力手段から検索条件が入力されると、検索手段が、この検索条件を用いて文書を検索し、検索結果格納手段が、得られた検索結果文書を格納し、表示手段が検索結果文書を一覧表示した後に、入力手段から検索結果文書を分類する分類基準として検索結果文書の中の文書が指定されると、キーワード抽出手段が、この文書からキーワードを抽出し、分類基準変換手段が、抽出されたキーワードの集合を検索条件に変換し、検索手段が、変換された検索条件と検索結果格納手段に格納された検索結果文書との類似度を計算し、検索結果分類手段が、検索結果文書の各々について、類似度を基に分類基準に対する帰属度を計算して、検索結果文書を帰属度が最も高い分類に分類するようにしたものであり、分類の視点となる分類基準として、利用者が一旦検索結果文書を確認した後に、その文書そのものやその文書の一部を分類視点の表現として選択することが可能であり、より簡便に視点設定を行うことができる。
【0027】
以下、本発明の実施の形態について、図面を用いて説明する。
【0028】
(第1の実施形態)
図1は、本発明の第1の実施形態に係る文書検索・分類方法を実施する装置の機能ブロック図である。
【0029】
この装置は、利用者が検索条件や分類基準を入力し、検索結果や分類結果が出力される入出力手段21と、文書が格納されている文書格納装置24と、文書を検索し、検索した文書と検索条件との類似度を計算する検索手段23と、検索された文書が格納される検索結果格納手段25と、入力された分類基準を検索手段23が扱える検索条件に変換する分類基準変換手段23と、検索手段23が計算した類似度を用いて、検索された文書を分類基準に従って分類する検索結果分類手段26とを備えている。
【0030】
この文書検索・分類方法の処理の概要を説明する。
【0031】
まず、利用者から検索条件が入出力手段21を介して入力される。例えば、利用者が検索条件として、以下の論理式(1)を入力したとする。
(米 OR コメ OR 政策) 式(1)
検索手段23は、前記検索条件を用いて文書格納装置24に格納された文書を検索する。ここで、検索手段23は、任意の文字列を要素とする検索条件に対して検索することができ、かつ検索結果に対して検索条件との類似度を計算することができるものである。
【0032】
このような検索手段は、例えば特開平9−319766号公報に開示されている文書検索システムのように、任意文字列に対してそれがどの文書中に出現するのかということを求められる全文検索手段を組み合わせれば実現可能である。
【0033】
また、例えば、検索条件と検索結果文書Djの類似度は以下のような式で計算できる。
S(Dj)=Σ{fij×(1−log(di/N)}
(Σはiについて加算)
ここで、fij:文字列tiの、文書Djにおける出現頻度
di :文字列tiの、出現文書数
N :全文書数
であり、式は、検索条件に出現する各文字列tiについて総和を取ることを意味している。
【0034】
これは、一般的には、tfidf法による単語重み付けと内積尺度による類似度計算と呼ばれているものである。
【0035】
例えば、ある検索結果文書Dj中で、現在の検索条件として与えられた文字列の頻度が以下のように与えられたとする。
米 3
コメ 2
政策 1
【0036】
また、文書格納装置24に格納された文書全体で、これらの文字列が出現する文書数が以下のように与えられるとする。
米 5000
コメ 1250
政策 2500
【0037】
また、N=10000であるとすると、
この場合、Djの類似度S(Dj)は、
Figure 0003693514
となる。
【0038】
検索結果として求められる文書の例を図2に示す。図2では、前記検索式に合致する文書が、類似度順に得られている(ここでは、10件の文書が検索されており、類似度は最大値を100として正規化されているとする。)。この検索結果は、検索結果格納手段25に記録されると共に、入出力手段21を介して利用者に提示される。
【0039】
利用者は、検索結果を一覧した後、また新たな検索を行うこともできるし、もしくは、現在の検索結果を分類することもできる。
【0040】
利用者が図2の現在の検索結果を分類したい場合は、入出力手段21を介して分類の視点となるような分類基準を複数入力する。例えば、分類視点を表現するような単語として、いくつか思いつくものを選び、以下のように入力する。
分類基準1:コメ 米価 新食糧法
分類基準2:北朝鮮 中国 米朝協議
分類基準3:米国 米軍
【0041】
分類基準変換手段22は、入力された分類基準を、検索手段23が扱える形式の検索条件へと変換する。
【0042】
例えば、分類基準として入力された文字列を要素としてOR結合した論理式を一方で構成し、直前の検索条件をAND結合する、といった手法を採用すれば、以下のような検索式へと変換されることになる。
【0043】
検索条件1:(コメ OR 米価) AND (米 OR コメ OR 政策)
検索条件2:(北朝鮮 OR 中国) AND (米 OR コメ OR 政策)
検索条件3:(米国 OR 米軍) AND (米 OR コメ OR 政策)
ここで、直前の検索条件をAND結合しているが、これは、現在分類対象となっている文書は図2に示した検索結果文書のみなので、検索対象となる母集団をそれに絞り込むために結合するものである。
【0044】
次に、検索手段23が、前記検索条件1〜3を用いて、検索を行う。その検索結果の例を、図3に示す。
【0045】
図3に示すように、検索条件1〜3に対する検索結果は、それぞれ図2に示した検索結果文書集合の部分集合になり、更に、各検索結果文書に対して、検索条件1〜3との類似度が計算されて出力される。ここで、文書iの、検索条件(分類基準)jに対する類似度を、S(i,j)と表現することにする。
【0046】
次に、検索結果分類手段26は、これらの検索結果に基づいて、各文書iの各分類jへの帰属度T(i,j)を計算する。これは、例えば、以下に示す式(2)によって計算することができる。
Figure 0003693514
(Σはkについて加算)
ここで、Cは0<C<1の定数である。
【0047】
なお、式(2)は計算の一例であり、帰属度の計算方法がこれに限られるわけではない。
【0048】
上記の例では、例えば、文書1〜10、分類1〜3に対して、C=0.5として、図4に示すような帰属度Tが計算される。
【0049】
検索結果分類手段26は、各文書iに対して、式(3)にて、最も帰属度T(i,j)の高い分類を求める。
c(i)= max{ T(i,j)} 式(3)
(maxは、jを変数とするときのmax)
【0050】
そして、最終的に、文書iは分類c(i)に属するものとして入出力手段11を介して利用者に対して出力する。
【0051】
図4の例に対して、分類結果の出力例を、図5に示す。
【0052】
以上のようにして、利用者が検索を行った図2の検索結果文書集合に対して、利用者が与えた分類基準1〜3に基づいた分類が可能になる。
【0053】
上記例においては、利用者の最初の検索式の要素である、「米」は多義であり、図2の検索結果文書中には、食糧としての「米」と米国としての「米」が混在するが、利用者が適当な分類基準を入力することによって、これらの文書を分離することに成功している。
【0054】
更に、利用者が検索条件や分類基準を入力する際には、任意の文字列を与えることができるので、「新食糧法」「米朝協議」など、複数の単語からなる複合語も、特に単語であるかどうかを意識することなく入力できる。
【0055】
また、利用者は、最終的に分類された各分類基準に対応した文書集合を、母集合として指定して、再びその集合を分類する、というように、細分類を求めていくことも可能である。
【0056】
(第2の実施形態)
第2の実施形態の文書検索・分類方法では、分類基準として、分類視点を表す文章を入力する。その文章からキーワードが抽出され、検索条件に変換される。この文書検索・分類方法を実施する装置は、図6に示すように、入出力手段11より入力された分類視点を表す文章からキーワードを抽出するキーワード抽出手段12を具備している。その他の構成は第1の実施形態(図1)と変わりがない。
この文書検索・分類方法の処理の概要を説明する。
【0057】
利用者が検索条件を入出力手段11を介して入力し、その検索条件を用いて検索手段14が検索を行って、その検索結果を検索結果格納手段16に格納するまでは、第1の実施形態と全く同様である。
【0058】
今、第1の実施形態と同様な検索条件(1)を入力し、図2に示したような検索結果が得られたとする。
【0059】
その後、利用者が検索結果を分類したい場合は、入出力手段11を介して分類の視点となるような分類基準を複数入力するが、この実施形態では、分類基準として、文章や、検索結果文書番号や、検索結果文書の一部を入力することが可能である。
【0060】
例えば、利用者が入出力手段11を介して、以下に示すような分類基準を文章で入力したとする。
分類基準1:コメ市場や、政府の米価政策について
分類基準2:北朝鮮や中国などに対する米国の対応
分類基準3:韓国や日本における米軍問題
【0061】
このような入力を受けた場合の処理を以下に説明する。
キーワード抽出手段12は、例えば、辞書を用いて、各文章に出現している単語を形態素解析などの処理を用いて切り出すなどし、それら切り出された単語から、各文章に特徴的と思われるものを抽出する。
【0062】
特徴的な単語の選択手法としては、例えば、文書格納装置15に格納された全文書を事前に調査して各単語の出現頻度を求めておき、TFIDF法などによって単語の重み付けを行って、その重みにより選択する方法が一般的である。そのような単語の重み付けの手法については、例えば海野敏“出現頻度情報に基づく単語重みづけの原理”Library and Information Science,No.26(1988) に詳細に説明されている。
【0063】
また、日本語の文書の場合には、辞書を利用せずに、カタカナ・平仮名・漢字といった字種の違いに注目して文字列を切り出すといった手法でもよい。この手法の利点は、辞書に登録されていない未知語や複合語も抽出できるということである。
【0064】
更には、上記2つの手法を組み合わせてその処理を行ってもよい。
【0065】
この実施形態では、辞書を用いて、各文章から特徴的な単語を切り出す。今、上記分類基準1〜3から、以下のような文字列が抽出されたとする。
分類基準1’:コメ 市場 政府 米価政策
分類基準2’:北朝鮮 中国 米国
分類基準3’:韓国 日本 米軍 問題
【0066】
その後、分類基準変換手段13が分類基準1’〜3’を検索条件へと変換するが、分類基準1’〜3’は、それぞれ文字列の集合となっているので、第1の実施形態で述べた処理と全く同様な処理でそれを行うことができる。
【0067】
また、利用者が、図2に示した検索結果文書を見て、分類基準となるような文書を選択して、以下に示すような文書番号で分類基準を指定したとする。
分類基準1:1,2
分類基準2:4,5
分類基準3:9
【0068】
このような入力を受けた場合の処理を以下に説明する。
キーワード抽出手段12は、分類基準として指定された文書番号の文書を文書格納装置15から読み込み、特徴的なキーワードを抽出する。
【0069】
この処理は、上記文章で分類基準が入力された場合と全く同様な方法で行うことができる。または、事前に文書格納装置15に格納されている全文書に対して特徴的なキーワードを抽出して文書格納装置15に各文書に対応させて記録しておき、分類時はそれを読み出すという処理を行ってもよい。
【0070】
今、上記分類基準1〜3から、以下のような文字列が抽出されたとする。
分類基準1:コメ 備蓄 食糧 米価 農協 生産 農家 稲作 消費者 米
分類基準2:北朝鮮 会談 韓国 協議 米 米韓 問題 南北 朝鮮半島 米軍
分類基準3:沖縄 米国 連邦 調査 返還 公文書 資料 仮処分 地裁 決定
【0071】
その後、分類基準変換手段13が分類基準1〜3を検索条件へと変換するが、分類基準1〜3は、それぞれ文字列の集合となっているので、第1の実施形態で述べた処理と全く同様な処理でそれを行うことができる。
【0072】
分類基準変換手段13が分類基準を検索条件に変換した後の処理は、第1の実施の形態と全く同様にして行う。
【0073】
以上のようにして、利用者が検索を行った図2の検索結果文書集合に対して、分類基準を、文章や、検索結果文書番号や、検索結果文書の一部として表現して入力することができ、複雑な分類視点からの分類や、簡便な分類視点の入力が可能となる。
【0074】
(第3の実施形態)
第3の実施形態の文書検索・分類方法を実施する装置では、分類基準が自動的に設定され、検索された文書が自動分類処理される。
【0075】
この装置は、図7に示すように、検索された文書からキーワードを抽出するキーワード抽出手段72と、キーワードの集合を複数のクラスタに分類するキーワード自動分類手段73と、クラスタに分類されたキーワード集合を分類基準として検索条件に変換する分類基準変換手段74とを具備している。その他の構成は第1の実施形態(図1)と変わりがない。
【0076】
この文書検索・分類方法の処理の概要を説明する。
【0077】
利用者が検索条件を入出力手段71を介して入力し、その検索条件を用いて検索手段75が検索を行って、その検索結果を検索結果格納手段77に格納するまでは、第1の実施形態と全く同様である。
【0078】
今、第1の実施形態と同様な検索条件(1)を入力し、図2に示したような検索結果が得られたとする。
【0079】
その後、この実施形態では、検索結果を分類する際に、利用者が分類基準を入力しなくとも、自動的に分類基準を構成して分類を行う。
【0080】
以下、その自動分類処理について説明する。まず、キーワード抽出手段72が、検索結果格納手段77に格納されている各文書に対して、特徴的なキーワードを抽出する。ここでの抽出は、第2の実施形態で述べたような手法で行ってもよいし、または、例えば特願平9−176822に示されているキーワード抽出手段を利用してもよい。
【0081】
次に、キーワード自動分類手段73が、得られたキーワード集合を、複数の部分集合に分類する。自動分類の方法としては、例えばコホネン“自己組織化マップ”シュプリンガー・フェアラーク東京(1996)で説明されているSOMのような手法を用いることもできるが、以下に示すような方法でも実現可能である。
【0082】
まず、文書格納手段76にD1〜Dnのn個の文書が格納されており、これらの文書にW1〜Wmのm個の単語が出現しているとする。
【0083】
ここで、単語Wjに対して、以下のようなn次元のベクトルVjを考えることができる。
Vj = (e1,e2,e3,......,en)
ベクトルの要素eiは、以下の式(4)で計算される。
ei = TFi(Wj)*log(n/DF(Wj)) 式(4)
ただし、
TFi(Wj):文書Di における単語Wjの出現頻度
DF(Wj) :文書全体において単語Wjが出現する文書数
さらに、ベクトルVjを、その長さが1となるように正規化してもよい。
【0084】
このようにして、m個の単語すべてに対して、ベクトルV1〜Vmを求めることができる。
【0085】
次に、複数の単語グループG1〜Gpを考える。それぞれの単語グループは、ある特定の分野の文書によく出現する単語群である。単語グループは、事前に人手で作成してもよいし、辞書や大規模文書における出現分布などを利用して自動的に作成してもよい。
【0086】
ここで、単語グループGkに対しても、以下のようなn次元のベクトルを考えることができる。
VGk = (e’1,e’2,e’3,......,e’n)
ベクトルの要素e’iは、以下の式(5)で計算される。
【0087】
e’i = TFi(Gj)*log(n/DF(Gj)) 式(5)
ただし、
TFi(Gj):文書Diにおいて、Gjに含まれる単語の出現頻度の総和
DF(Gj):文書全体においてGjに含まれる単語のいずれかが出現する文書数
さらに、ベクトルVGkを、その長さが1となるように正規化してもよい。
【0088】
このようにして、p個の単語グループすべてに対して、ベクトルVG1〜VGpを求めることができる。
【0089】
ここで、単語Wjと単語グループGkの類似度Sjkは、ベクトルVjとベクトルVGkとの内積をとることで求めることができる。
【0090】
このようなベクトルと類似度計算を用いると、容易にキーワードの自動分類が実現できる。例えば今、単語グループG1、G2、G3があり、それぞれ以下のような分野で良く使われる単語グループであるとする。
G1:自動車の内燃機関
G2:航空機事故
G3:インターネット
【0091】
また、検索手段75により、「エンジン」に関するものとして検索された文書から、キーワード抽出手段72により以下のキーワードが抽出されたとする。
ガソリン、事故、WWW、燃費、検索、爆発、空港、URL
【0092】
これら各単語について、それぞれG1〜G3に対する類似度を計算すると、以下のようであったとする。
S(ガソリン)= (0.8, 0.0, 0.2)
S(事故) = (0.2, 0.6, 0.3)
S(WWW) = (0.1, 0.2, 0.8)
S(燃費) = (0.7, 0.1, 0.2)
S(検索) = (0.0, 0.2, 0.6)
S(爆発) = (0.4, 0.6, 0.1)
S(空港) = (0.0, 0.9, 0.2)
S(URL) = (0.1, 0.0, 0.9)
ここで、各キーワードごとに、最も類似度が高かった単語グループに属するものとすれば、前記抽出されたキーワードは以下のように分類できる。
G1:ガソリン、燃費
G2:事故、爆発、空港
G3:WWW、検索、URL。
【0093】
このようにして得られたキーワード群を、分類基準として分類基準変換手段74の入力とすることができる。
【0094】
また、単語グループGの数が多い(例えば百個)場合で、分類基準とするキーワード群の数を少数(例えば2個)に押さえたい場合には、以下のようにすればよい。
・各単語グループGごとに、分類されたキーワードの重みの総和をとり、これをその単語グループの得点とする。
・得点の大きいものから順に上位数個を選ぶ。
【0095】
前記の例では、
G1の得点 0.8 + 0.7 = 1.5
G2の得点 0.6 + 0.6 + 0.9 = 2.1
G3の得点 0.8 + 0.6 + 0.9 = 2.3
となり、上位2グループを選ぶのであればG2とG3が選ばれる。
【0096】
キーワード自動分類手段73が、例えばこのような処理を行うことによって、検索結果文書から抽出されたキーワード集合を自動的にいくつかのグループに分類する。上記の例では、以下の3つの分類基準が得られる。
分類基準1:ガソリン 燃費
分類基準2:事故 爆発 空港
分類基準3:WWW 検索 URL
【0097】
その後、分類基準変換手段74が分類基準1〜3を検索条件へと変換するが、分類基準1〜3は、それぞれ文字列の集合となっているので、第1の実施形態で述べた処理と全く同様な処理でそれを行うことができる。
【0098】
また、分類基準変換手段13が分類基準を検索条件に変換した後の処理も、第1の実施形態と、全く同様にして行う。
【0099】
以上の構成とすることにより、利用者が分類の視点を陽に与えなくとも、検索結果文書中にどのような分野の単語がよく出現しているかということを自動的に判別して、これを分類基準とすることで、検索結果の性質に即した分類を行うことができ、簡便な文書分類が可能となる。
【0100】
また、キーワード自動分類手段73により求められたキーワード群を、一旦入出力手段71を介して利用者に提示し、それを利用者が修正した後に、分類基準変換手段74がそれらを検索条件に変換する、という構成にしてもよい。そのような構成とすれば、分類を行う前に、利用者の気付かなかった分類視点を提供して、文書の分類作業を効率的に支援することが可能となる。
【0101】
【発明の効果】
以上の説明から明らかなように、本発明では、利用者が思い立った時に、任意の言葉(文字列)を要素とする検索条件を与えることで文書を検索し、その検索結果を更に利用者の要望に沿って分類するといった、人間の知的活動を総合的に支援ことができるという効果が得られる。
【0102】
また、その際、分類の視点となる分類基準としては、利用者が思いついた任意の言葉(文字列)をその表現として入力することが可能であり、真に自由な分類視点の設定を行うことができるという効果が得られる。
【0103】
また、文書分類は、任意の文字列を要素とする検索条件を用いた類似度計算に基づいて行われるが、これは、任意の文字列を特徴素(基底)とする特徴空間を動的に構築して、その空間内で分類を行うことに相当する。その意味で、従来の、あらかじめ固定された単語集合で規定される特徴空間内での分類とは異なり、真に動的な視点から分類を行うことが可能になるという効果が得られる。
【0104】
また、キーワード抽出手段を設けた装置では、分類の視点となる分類基準として、利用者が望む分類の視点を、そのまま文章で表現して入力することができるので、複雑な分類視点を表現することが可能となり、より柔軟で多面的な視点設定を行うことができるという効果が得られる。
【0105】
また、この場合、分類の視点となる分類基準として、利用者が一旦検索結果文書を確認した後に、その文書そのものやその文書の一部を、分類視点の表現として選択することが可能であり、より簡便に視点設定を行うことができるという効果が得られる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態に係る文書検索・分類方法の機能構成を示すブロック図、
【図2】検索結果の例、
【図3】分類基準に基づく検索結果の例、
【図4】帰属度計算の例、
【図5】分類結果の出力例、
【図6】本発明の第2の実施形態に係る文書検索・分類方法の機能構成を示すブロック図、
【図7】本発明の第3の実施形態に係る文書検索・分類方法の機能構成を示すブロック図、
【符号の説明】
11、21、71 入出力手段
12、72 キーワード抽出手段
13、22、74 分類基準変換手段
73 キーワード自動分類手段
14、23、75 検索手段
15、24、76 文書格納装置
16、25、77 検索結果格納手段
17、26、78 検索結果分類手段

Claims (3)

  1. 入力された検索条件に従って文書を検索し、検索した文書を分類基準に従って分類する装置であって、
    検索条件及び任意の文字列の集合で表現した分類基準が入力される入力手段と、
    検索条件に合致する文書を検索し、かつその検索結果文書と前記検索条件との類似度を計算する検索手段と、
    前記検索結果文書を格納する検索結果格納手段と、
    前記検索結果文書を一覧表示する表示手段と、
    前記入力手段から入力された、任意の文字列の集合で表現した分類基準を検索条件に変換する分類基準変換手段と、
    前記検索結果文書を前記分類基準に応じて複数の分類に分類する検索結果分類手段と
    を具備し、
    前記入力手段から検索条件が入力されると、前記検索手段が、前記検索条件を用いて文書を検索し、前記検索結果格納手段が、得られた検索結果文書を格納し、前記表示手段が前記検索結果文書を一覧表示した後に、前記入力手段から前記検索結果文書を分類する分類基準として分類視点を表す任意の文字列の集合が入力されると、前記分類基準変換手段が、前記文字列の集合を検索条件に変換し、前記検索手段が、前記変換された検索条件と前記検索結果格納手段に格納された検索結果文書との類似度を計算し、前記検索結果分類手段が、前記検索結果文書の各々について、前記類似度を基に前記分類基準に対する帰属度を計算して、前記検索結果文書を前記帰属度が最も高い分類に分類することを特徴とする文書検索・分類装置。
  2. 入力された検索条件に従って文書を検索し、検索した文書を分類基準に従って分類する装置であって、
    検索条件及び任意の文章で表現した分類基準が入力される入力手段と、
    検索条件に合致する文書を検索し、かつその検索結果文書と前記検索条件との類似度を計算する検索手段と、
    前記検索結果文書を格納する検索結果格納手段と、
    前記検索結果文書を一覧表示する表示手段と、
    前記入力手段から前記分類基準として入力された文章からキーワードを抽出するキーワード抽出手段と、
    前記キーワード抽出手段が抽出したキーワードの集合を検索条件に変換する分類基準変換手段と、
    前記検索結果文書を前記分類基準に応じて複数の分類に分類する検索結果分類手段と
    を具備し、
    前記入力手段から検索条件が入力されると、前記検索手段が、前記検索条件を用いて文書を検索し、前記検索結果格納手段が、得られた検索結果文書を格納し、前記表示手段が前記検索結果文書を一覧表示した後に、前記入力手段から前記検索結果文書を分類する分類基準として分類視点を表す任意の文章が入力されると、前記キーワード抽出手段が、前記文章からキーワードを抽出し、前記分類基準変換手段が、抽出された前記キーワードの集合を検索条件に変換し、前記検索手段が、前記変換された検索条件と前記検索結果格納手段に格納された検索結果文書との類似度を計算し、前記検索結果分類手段が、前記検索結果文書の各々について、前記類似度を基に前記分類基準に対する帰属度を計算して、前記検索結果文書を前記帰属度が最も高い分類に分類することを特徴とする文書検索・分類装置。
  3. 入力された検索条件に従って文書を検索し、検索した文書を分類基準に従って分類する装置であって、
    検索条件及び分類基準としての文書の情報が入力される入力手段と、
    検索条件に合致する文書を検索し、かつその検索結果文書と前記検索条件との類似度を計算する検索手段と、
    前記検索結果文書を格納する検索結果格納手段と、
    前記検索結果文書を一覧表示する表示手段と、
    前記入力手段から前記分類基準として指定された前記検索結果文書からキーワードを抽出するキーワード抽出手段と、
    前記キーワード抽出手段が抽出したキーワードの集合を検索条件に変換する分類基準変換手段と、
    前記検索結果文書を前記分類基準に応じて複数の分類に分類する検索結果分類手段と
    を具備し、
    前記入力手段から検索条件が入力されると、前記検索手段が、前記検索条件を用いて文書を検索し、前記検索結果格納手段が、得られた検索結果文書を格納し、前記表示手段が前記検索結果文書を一覧表示した後に、前記入力手段から前記検索結果文書を分類する分類基準として前記検索結果文書の中の文書が指定されると、前記キーワード抽出手段が、前記文書からキーワードを抽出し、前記分類基準変換手段が、抽出された前記キーワードの集合を検索条件に変換し、前記検索手段が、前記変換された検索条件と前記検索結果格納手段に格納された検索結果文書との類似度を計算し、前記検索結果分類手段が、前記検索結果文書の各々について、前記類似度を基に前記分類基準に対する帰属度を計算して、前記検索結果文書を前記帰属度が最も高い分類に分類することを特徴とする文書検索・分類装置。
JP05080399A 1999-02-26 1999-02-26 文書検索・分類方法および装置 Expired - Lifetime JP3693514B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP05080399A JP3693514B2 (ja) 1999-02-26 1999-02-26 文書検索・分類方法および装置
TW89117245A TW469386B (en) 1999-02-26 2000-08-25 Document retrieval and classification method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP05080399A JP3693514B2 (ja) 1999-02-26 1999-02-26 文書検索・分類方法および装置

Publications (2)

Publication Number Publication Date
JP2000250925A JP2000250925A (ja) 2000-09-14
JP3693514B2 true JP3693514B2 (ja) 2005-09-07

Family

ID=12868946

Family Applications (1)

Application Number Title Priority Date Filing Date
JP05080399A Expired - Lifetime JP3693514B2 (ja) 1999-02-26 1999-02-26 文書検索・分類方法および装置

Country Status (2)

Country Link
JP (1) JP3693514B2 (ja)
TW (1) TW469386B (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4142881B2 (ja) 2002-03-07 2008-09-03 富士通株式会社 文書類似度算出装置、クラスタリング装置および文書抽出装置
JP2003281161A (ja) * 2002-03-19 2003-10-03 Seiko Epson Corp 情報分類方法、情報分類装置、プログラムおよび記録媒体
US7428530B2 (en) 2004-07-01 2008-09-23 Microsoft Corporation Dispersing search engine results by using page category information
JP4536445B2 (ja) * 2004-07-26 2010-09-01 三菱電機株式会社 データ類別装置
JP4857448B2 (ja) * 2006-03-10 2012-01-18 独立行政法人情報通信研究機構 多義語による情報検索装置及びプログラム
US20090094210A1 (en) * 2007-10-05 2009-04-09 Fujitsu Limited Intelligently sorted search results
JP5751318B2 (ja) * 2012-12-10 2015-07-22 キヤノンマーケティングジャパン株式会社 文書分類装置、文書分類方法、及びプログラム
CN107766371B (zh) * 2016-08-19 2023-11-17 中兴通讯股份有限公司 一种文本信息分类方法及其装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0554037A (ja) * 1991-08-28 1993-03-05 Fujitsu Ltd 文書分類方式
JP3577819B2 (ja) * 1995-07-14 2004-10-20 富士ゼロックス株式会社 情報探索装置及び情報探索方法

Also Published As

Publication number Publication date
TW469386B (en) 2001-12-21
JP2000250925A (ja) 2000-09-14

Similar Documents

Publication Publication Date Title
Qin et al. Ranking with multiple hyperplanes
US8214363B2 (en) Recognizing domain specific entities in search queries
KR100756921B1 (ko) 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체.
US9122680B2 (en) Information processing apparatus, information processing method, and program
US20080004864A1 (en) Text categorization using external knowledge
JP2009517750A (ja) 情報検索
CN111213140A (zh) 大型数据库中语义搜索的方法和系统
US20180341686A1 (en) System and method for data search based on top-to-bottom similarity analysis
US20100257202A1 (en) Content-Based Information Retrieval
JPH09101991A (ja) 情報フィルタリング装置
KR20180097120A (ko) 전자 문서 검색 방법 및 그 서버
CN103744887A (zh) 一种用于人物搜索的方法、装置和计算机设备
JP3693514B2 (ja) 文書検索・分類方法および装置
JP3198932B2 (ja) 文書検索装置
Rinartha et al. Rapid automatic keyword extraction and word frequency in scientific article keywords extraction
KR100407081B1 (ko) 문서 검색 및 분류 방법 및 장치
CN110555196B (zh) 用于自动生成文章的方法、装置、设备和存储介质
JP6985181B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP7297855B2 (ja) キーワード抽出装置、キーワード抽出方法、およびプログラム
JP3678615B2 (ja) 文書検索装置及び文書検索方法
KR20200078170A (ko) 상품을 계층적 카테고리로 분류하는 장치 및 방법
JP2019211884A (ja) 情報検索システム
CN114090799B (zh) 文本检索方法、装置、存储介质及服务器
JP6403850B1 (ja) 情報処理装置、情報処理方法及びプログラム
Gunawan et al. Observing the Performance of the TextRank Algorithm on Automatic Text Summarization for Bahasa Indonesia.

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040309

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040423

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040601

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050118

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050224

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20050322

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050419

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050530

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050621

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050621

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090701

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100701

Year of fee payment: 5