JP2000250925A - 文書検索・分類方法および装置 - Google Patents

文書検索・分類方法および装置

Info

Publication number
JP2000250925A
JP2000250925A JP11050803A JP5080399A JP2000250925A JP 2000250925 A JP2000250925 A JP 2000250925A JP 11050803 A JP11050803 A JP 11050803A JP 5080399 A JP5080399 A JP 5080399A JP 2000250925 A JP2000250925 A JP 2000250925A
Authority
JP
Japan
Prior art keywords
search
document
classification
search result
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP11050803A
Other languages
English (en)
Other versions
JP3693514B2 (ja
Inventor
Naohiko Noguchi
直彦 野口
Yuji Sugano
祐司 菅野
Mitsuhiro Sato
光弘 佐藤
Kai Itou
快 伊藤
Takao Fukushige
貴雄 福重
Mitsuaki Inaba
光昭 稲葉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP05080399A priority Critical patent/JP3693514B2/ja
Priority to TW89117245A priority patent/TW469386B/zh
Publication of JP2000250925A publication Critical patent/JP2000250925A/ja
Application granted granted Critical
Publication of JP3693514B2 publication Critical patent/JP3693514B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 必要な文書を検索し、検索した文書を利用者
が任意に与える多種多様な視点から分類することができ
る文書検索・分類装置を提供する。 【解決手段】 利用者と情報のやりとりを行い、利用者
により検索条件及び分類基準が入力される入出力手段21
と、任意の文字列を要素とする検索条件に合致する文書
を検索し、その検索結果文書と検索条件との類似度を計
算する検索手段23と、検索結果文書を格納する検索結果
格納手段25と、任意の文字列を要素とする集合で表され
た分類基準を検索条件に変換する分類基準変換手段22
と、検索結果文書を複数の分類基準に従って分類する検
索結果分類手段26とを設ける。利用者が検索条件を入力
すると、複数の文書を検索して検索結果文書を求め、ま
た、利用者が検索結果に対して複数の分類の分類基準を
入力すると、分類基準を検索条件に変換し、変換した検
索条件と検索結果文書との類似度を計算し、類似度を基
に、検索結果文書の各分類に対する帰属度を計算し、検
索結果文書を帰属度が最も高い分類に分類する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、電子化され蓄積さ
れた文書情報から所望の文書を検索し、その検索した文
書を所望の視点で分類する文書検索・分類方法と、それ
を実施する装置に関し、特に、データベースに蓄積され
た文書情報や、一般のワードプロセッサ、オフィスコン
ピュータ、パーソナルコンピュータなどの記憶装置に蓄
積された文書情報を多様な視点で検索・分類することを
可能にするものである。
【0002】
【従来の技術】近年、電子メールや電子カタログ、電子
出版物など、電子化された文書情報が大量に流通し始め
たこと、また、インターネットの普及によって、そのよ
うな文書情報の利用者が急激に増加してきていることに
伴って、一般の利用者が、それら大量の文書情報から所
望の文書を検索・収集したり、また、収集した文書情報
を利用者各自のやり方で分類・整理するといったニーズ
が高まってきている。
【0003】従来、そのような人間の知的活動を支援す
るものとしては、利用者から入力される検索条件に合致
する文書情報を検索する文書検索装置や、時々刻々と届
けられる情報を、利用者の嗜好に合わせて取捨選択する
文書フィルタリング装置や、また、文書をフィルタリン
グする際に、あらかじめ定められた複数の分類基準に従
って、文書情報を仕分けして整理する文書分類装置など
があった。
【0004】
【発明が解決しようとする課題】しかし、従来の文書検
索装置は、利用者の入力する検索条件に応じて文書情報
を検索して結果を返すのみで、その結果を利用者の望む
形に分類・整理するといったことまでは行わない。
【0005】また、従来の文書フィルタリング装置や文
書分類装置は、利用者の嗜好や分類項目をあらかじめ登
録しておき、その嗜好や分類項目に合致する文書をフィ
ルタリングしたり、分類したりするものであり、嗜好や
分類項目は多くの場合事前に作成された静的なものであ
る。文書フィルタリング装置の中には、フィルタリング
された文書に対して利用者が可・不可を判断することに
より、利用者の嗜好を半自動的に学習する、というもの
も存在するが、その場合も、利用者の嗜好や分類項目は
ある一定期間は変化することのない、静的なものと捉え
られている。
【0006】通常、人間は、検索した文書を分類する場
合、検索結果を見て、どのような視点から分類するかを
考え、その視点を分類基準として、文書の分類・仕分け
作業を実行し、必要があれば、そのような作業を繰り返
して、さらに細分類する。
【0007】そのため、静的な検索や分類しかできない
従来の文書検索装置や文書フィルタリング装置、文書分
類装置では、このように検索結果を見て、分類項目を動
的に設定し、多種多様な視点から分類・仕分けをすると
言う、本来人間が行っている知的活動を支援することは
困難である。
【0008】また、従来の文書分類装置の多くは、文書
から何らかの特徴抽出を行い、あらかじめ設定した特徴
空間へ各文書を写像して、その特徴空間内で一般的なパ
ターン認識・パターン分類の手法を用いるもので、その
際に用いる特徴空間は、基底となる比較的少数の単語集
合をあらかじめ定め、その単語集合の各文書における出
現頻度などを用いて構成する。つまり、分類の際に用い
られる特徴空間はあらかじめ定められており、利用者の
視点により特徴空間自体を変更するということはでき
ず、真に動的な視点設定が困難だった。
【0009】本発明は、こうした従来の問題点を解決す
るものであり、必要な文書情報を検索し、検索・収集さ
れた文書情報を、利用者が任意に与え得る自由で多種多
様な視点から分類し、あるいは、自動的に分類して、前
述した人間の知的活動を総合的に支援することができる
文書検索・分類方法及び装置を提供することを目的とし
ている。
【0010】
【課題を解決するための手段】そこで、本発明の文書検
索・分類装置では、利用者と情報のやりとりを行い、利
用者により検索条件及び分類基準が入力される入出力手
段と、任意の文字列を要素とする検索条件に合致する文
書を検索し、かつその検索結果文書と検索条件との類似
度を計算する検索手段と、検索結果文書を格納する検索
結果格納手段と、任意の文字列を要素とする集合で表さ
れた分類基準を検索条件に変換する分類基準変換手段
と、検索結果文書を複数の分類基準に従って分類する検
索結果分類手段とを設けている。
【0011】この装置では、利用者が検索条件を入力す
ると、複数の文書を検索して検索結果文書を求め、ま
た、利用者が検索結果に対して複数の分類の分類基準を
入力すると、この分類基準を検索条件に変換し、変換し
た検索条件と検索結果文書との類似度を計算し、この類
似度を基に、検索結果文書の各分類に対する帰属度を計
算し、検索結果文書を帰属度が最も高い分類に分類す
る。
【0012】そのため、利用者が思い立った時に、任意
の言葉(文字列)を要素とする検索条件を与えることで
文書を検索し、また、その検索結果を更に利用者の要望
に沿って分類することができ、人間の知的活動を総合的
に支援ことができる。
【0013】本発明では、文書分類が、任意の文字列を
要素とする検索条件を用いた類似度計算に基づいて行わ
れるが、これは、任意の文字列を特徴素(基底)とする
特徴空間を動的に構築して、その空間内で分類を行うこ
とに相当する。その意味で、従来の、あらかじめ固定さ
れた単語集合で規定される特徴空間内での分類とは異な
り、真に動的な視点から分類を行うことが可能になる。
【0014】また、本発明の装置では、利用者と情報の
やりとりを行い、利用者により検索条件が入力される入
出力手段と、任意の文字列を要素とする検索条件に合致
する文書を検索し、かつその検索結果文書と検索条件と
の類似度を計算する検索手段と、検索結果文書を格納す
る検索結果格納手段と、検索結果文書から特徴的なキー
ワードや文字列を抽出するキーワード抽出手段と、抽出
されたキーワードや文字列を複数のクラスタに分類する
キーワード自動分類手段と、各クラスタに分類されたキ
ーワードや文字列の集合で表される分類基準を検索条件
に変換する分類基準変換手段と、検索結果文書の集合を
複数の分類基準に従って分類する検索結果分類手段とを
設けている。
【0015】この装置では、利用者が検索条件を入力す
ると、複数の文書を検索して検索結果文書を求め、検索
結果文書の各々からキーワードや文字列を抽出し、抽出
したキーワードや文字列を複数のクラスタに分類し、各
クラスタに分類されたキーワードや文字列の集合を検索
条件に変換し、変換した検索条件と検索結果文書との類
似度を計算し、この類似度を基に、検索結果文書の各分
類に対する帰属度を計算し、検索結果文書を帰属度が最
も高い分類に分類する。
【0016】そのため、利用者が分類の視点を与えなく
とも、検索結果に内在される分類の視点を自動的に抽出
して、文書を分類することが可能であり、より簡便に文
書分類を行えるだけでなく、利用者が気付かなかった分
類視点を提供して、文書の分類作業を効率的に支援する
ことができる。
【0017】
【発明の実施の形態】本発明の請求項1に記載の発明
は、入力された検索条件に従って文書を検索し、検索し
た文書を分類基準に従って分類する装置において、利用
者と情報のやりとりを行い、利用者により検索条件及び
分類基準が入力される入出力手段と、任意の文字列を要
素とする検索条件に合致する文書を検索し、かつその検
索結果文書と検索条件との類似度を計算する検索手段
と、検索結果文書を格納する検索結果格納手段と、任意
の文字列を要素とする集合で表された分類基準を検索条
件に変換する分類基準変換手段と、検索結果文書を複数
の分類基準に従って分類する検索結果分類手段とを設
け、利用者が入出力手段から検索条件を入力すると、検
索手段が、この検索条件を用いて文書を検索し、検索結
果格納手段が、得られた検索結果文書を格納し、利用者
が入出力手段から検索結果に対する複数の分類基準を入
力すると、分類基準変換手段が、各分類基準を検索条件
に変換し、検索手段が、変換された検索条件と検索結果
格納手段に格納された検索結果文書との類似度を計算
し、検索結果分類手段が、検索結果文書の各々につい
て、類似度を基に、各分類基準に対する帰属度を計算し
て検索結果文書を分類するようにしたものであり、利用
者が思い立った時に、任意の言葉(文字列)を要素とす
る検索条件を与えることで文書を検索し、また、その検
索結果を更に利用者の要望に沿って分類することがで
き、人間の知的活動を総合的に支援ことができる。
【0018】請求項2に記載の発明は、利用者が入出力
手段から任意の文字列の集合で表現した複数の分類基準
を入力すると、分類基準変換手段が、この文字列の集合
を検索条件に変換するようにしたものであり、分類の視
点となる分類基準として、利用者が思いついた任意の言
葉(文字列)をその表現として入力することが可能であ
り、真に自由な分類視点の設定を行うことができる。
【0019】請求項3に記載の発明は、任意の文章や文
書から特徴的なキーワードや文字列を抽出するキーワー
ド抽出手段を設け、利用者が入出力手段から任意の文章
で表現した複数の分類基準を入力すると、キーワード抽
出手段が、この文章から特徴的なキーワードや文字列を
抽出し、分類基準変換手段が、抽出されたキーワードや
文字列の集合を検索条件に変換するようにしたものであ
り、分類の視点となる分類基準として、利用者が望む分
類の視点を、そのまま文章で表現して入力することがで
きるので、複雑な分類視点を表現することが可能とな
り、より柔軟で多面的な視点設定を行うことができる。
【0020】請求項4に記載の発明は、利用者が入出力
手段から検索結果文書の中の複数の文書を、複数の分類
基準を表すものとして入力すると、キーワード抽出手段
が、文書から特徴的なキーワードや文字列を抽出し、分
類基準変換手段が、抽出されたキーワードや文字列の集
合を検索条件に変換するようにしたものであり、分類の
視点となる分類基準として、利用者が一旦検索結果文書
を確認した後に、その文書そのものやその文書の一部を
分類視点の表現として選択することが可能であり、より
簡便に視点設定を行うことができる。
【0021】請求項5に記載の発明は、入力された検索
条件に従って文書を検索し、検索した文書を分類基準に
従って分類する装置において、利用者と情報のやりとり
を行い、利用者により検索条件が入力される入出力手段
と、任意の文字列を要素とする検索条件に合致する文書
を検索し、かつその検索結果文書と検索条件との類似度
を計算する検索手段と、検索結果文書を格納する検索結
果格納手段と、検索結果文書から特徴的なキーワードや
文字列を抽出するキーワード抽出手段と、抽出されたキ
ーワードや文字列を複数のクラスタに分類するキーワー
ド自動分類手段と、各クラスタに分類されたキーワード
や文字列の集合で表される分類基準を検索条件に変換す
る分類基準変換手段と、検索結果文書の集合を複数の分
類基準に従って分類する検索結果分類手段とを設け、利
用者が入出力手段から検索条件を入力すると、検索手段
が、検索条件を用いて文書を検索し、検索結果格納手段
が、得られた検索結果文書を格納し、キーワード抽出手
段が、各検索結果文書から特徴的なキーワードや文字列
を抽出し、キーワード自動分類手段が、抽出されたキー
ワードや文字列を複数のクラスタに分類し、分類基準変
換手段が、各クラスタに分類されたキーワードや文字列
の集合で表される分類基準を検索条件に変換し、検索手
段が、変換された検索条件と検索結果格納手段に格納さ
れた検索結果文書との類似度を計算し、検索結果分類手
段が、検索結果文書の各々について、この類似度を基
に、各分類基準に対する帰属度を計算して検索結果文書
を分類するようにしたものであり、利用者が分類の視点
を与えなくとも、検索結果に内在される分類の視点を自
動的に抽出して、文書を分類することが可能であり、よ
り簡便に文書分類を行えるだけでなく、利用者が気付か
なかった分類視点を提供して、文書の分類作業を効率的
に支援することができる。
【0022】請求項6に記載の発明は、入力された検索
条件に従って文書を検索し、検索した文書を分類基準に
従って分類する文書検索・分類方法において、利用者が
入力した検索条件で文書を検索して検索結果文書を求
め、利用者が検索結果に対して入力した複数の分類の分
類基準を検索条件に変換し、変換した検索条件と検索結
果文書との類似度を計算し、この類似度を基に、検索結
果文書の各分類に対する帰属度を計算し、検索結果文書
を帰属度が最も高い分類に分類するようにしたものであ
り、利用者が思い立った時に、任意の言葉(文字列)を
要素とする検索条件を与えることで文書を検索し、ま
た、その検索結果を更に利用者の要望に沿って分類する
ことができ、人間の知的活動を総合的に支援ことができ
る。
【0023】請求項7に記載の発明は、利用者が各分類
の分類基準として任意の文字列の集合を入力すると、こ
れを検索条件に変換して検索結果文書との類似度を計算
するようにしたものであり、分類の視点となる分類基準
として、利用者が思いついた任意の言葉(文字列)をそ
の表現として入力することが可能であり、真に自由な分
類視点の設定を行うことができる。
【0024】請求項8に記載の発明は、利用者が各分類
の分類基準として任意の文章を入力すると、この文章か
ら特徴的なキーワードや文字列を抽出し、このキーワー
ドや文字列の集合を検索条件に変換して検索結果文書と
の類似度を計算するようにしたものであり、分類の視点
となる分類基準として、利用者が望む分類の視点を、そ
のまま文章で表現して入力することができるので、複雑
な分類視点を表現することが可能となり、より柔軟で多
面的な視点設定を行うことができる。
【0025】請求項9に記載の発明は、利用者が各分類
の分類基準として検索結果文書の中の複数の文書を指定
すると、この文書から特徴的なキーワードや文字列を抽
出し、このキーワードや文字列の集合を検索条件に変換
して検索結果文書との類似度を計算するようにしたもの
であり、分類の視点となる分類基準として、利用者が一
旦検索結果文書を確認した後に、その文書そのものやそ
の文書の一部を分類視点の表現として選択することが可
能であり、より簡便に視点設定を行うことができる。
【0026】請求項10に記載の発明は、入力された検
索条件に従って文書を検索し、検索した文書を分類基準
に従って分類する文書検索・分類方法において、利用者
が入力した検索条件で文書を検索して検索結果文書を求
め、検索結果文書の各々からキーワードや文字列を抽出
し、抽出したキーワードや文字列を複数のクラスタに分
類し、各クラスタに分類されたキーワードや文字列の集
合を検索条件に変換し、変換した検索条件と検索結果文
書との類似度を計算し、この類似度を基に、検索結果文
書の各分類に対する帰属度を計算し、検索結果文書を帰
属度が最も高い分類に分類するようにしたものであり、
利用者が分類の視点を与えなくとも、検索結果に内在さ
れる分類の視点を自動的に抽出して、文書を分類するこ
とが可能であり、より簡便に文書分類を行えるだけでな
く、利用者が気付かなかった分類視点を提供して、文書
の分類作業を効率的に支援することができる。
【0027】以下、本発明の実施の形態について、図面
を用いて説明する。
【0028】(第1の実施形態)図1は、本発明の第1
の実施形態に係る文書検索・分類方法を実施する装置の
機能ブロック図である。
【0029】この装置は、利用者が検索条件や分類基準
を入力し、検索結果や分類結果が出力される入出力手段
21と、文書が格納されている文書格納装置24と、文書を
検索し、検索した文書と検索条件との類似度を計算する
検索手段23と、検索された文書が格納される検索結果格
納手段25と、入力された分類基準を検索手段23が扱える
検索条件に変換する分類基準変換手段23と、検索手段23
が計算した類似度を用いて、検索された文書を分類基準
に従って分類する検索結果分類手段26とを備えている。
【0030】この文書検索・分類方法の処理の概要を説
明する。
【0031】まず、利用者から検索条件が入出力手段21
を介して入力される。例えば、利用者が検索条件とし
て、以下の論理式(1)を入力したとする。 (米 OR コメ OR 政策) 式(1) 検索手段23は、前記検索条件を用いて文書格納装置24に
格納された文書を検索する。ここで、検索手段23は、任
意の文字列を要素とする検索条件に対して検索すること
ができ、かつ検索結果に対して検索条件との類似度を計
算することができるものである。
【0032】このような検索手段は、例えば特開平9−
319766号公報に開示されている文書検索システム
のように、任意文字列に対してそれがどの文書中に出現
するのかということを求められる全文検索手段を組み合
わせれば実現可能である。
【0033】また、例えば、検索条件と検索結果文書D
jの類似度は以下のような式で計算できる。 S(Dj)=Σ{fij×(1−log(di/N)} (Σはiについて加算) ここで、fij:文字列tiの、文書Djにおける出現
頻度 di :文字列tiの、出現文書数 N :全文書数 であり、式は、検索条件に出現する各文字列tiについ
て総和を取ることを意味している。
【0034】これは、一般的には、tfidf法による
単語重み付けと内積尺度による類似度計算と呼ばれてい
るものである。
【0035】例えば、ある検索結果文書Dj中で、現在
の検索条件として与えられた文字列の頻度が以下のよう
に与えられたとする。 米 3 コメ 2 政策 1
【0036】また、文書格納装置24に格納された文書全
体で、これらの文字列が出現する文書数が以下のように
与えられるとする。 米 5000 コメ 1250 政策 2500
【0037】また、N=10000であるとすると、こ
の場合、Djの類似度S(Dj)は、 S(Dj)=3×(1−log(5000/1000
0))+2×(1−log(1250/10000))
+1×(1−log(2500/10000))=6+
6+3=15 となる。
【0038】検索結果として求められる文書の例を図2
に示す。図2では、前記検索式に合致する文書が、類似
度順に得られている(ここでは、10件の文書が検索さ
れており、類似度は最大値を100として正規化されて
いるとする。)。この検索結果は、検索結果格納手段25
に記録されると共に、入出力手段21を介して利用者に提
示される。
【0039】利用者は、検索結果を一覧した後、また新
たな検索を行うこともできるし、もしくは、現在の検索
結果を分類することもできる。
【0040】利用者が図2の現在の検索結果を分類した
い場合は、入出力手段21を介して分類の視点となるよう
な分類基準を複数入力する。例えば、分類視点を表現す
るような単語として、いくつか思いつくものを選び、以
下のように入力する。 分類基準1:コメ 米価 新食糧法 分類基準2:北朝鮮 中国 米朝協議 分類基準3:米国 米軍
【0041】分類基準変換手段22は、入力された分類基
準を、検索手段23が扱える形式の検索条件へと変換す
る。
【0042】例えば、分類基準として入力された文字列
を要素としてOR結合した論理式を一方で構成し、直前
の検索条件をAND結合する、といった手法を採用すれ
ば、以下のような検索式へと変換されることになる。
【0043】検索条件1:(コメ OR 米価) AND
(米 OR コメ OR 政策) 検索条件2:(北朝鮮 OR 中国) AND (米 OR
コメ OR 政策) 検索条件3:(米国 OR 米軍) AND (米 OR コ
メ OR 政策) ここで、直前の検索条件をAND結合しているが、これ
は、現在分類対象となっている文書は図2に示した検索
結果文書のみなので、検索対象となる母集団をそれに絞
り込むために結合するものである。
【0044】次に、検索手段23が、前記検索条件1〜3
を用いて、検索を行う。その検索結果の例を、図3に示
す。
【0045】図3に示すように、検索条件1〜3に対す
る検索結果は、それぞれ図2に示した検索結果文書集合
の部分集合になり、更に、各検索結果文書に対して、検
索条件1〜3との類似度が計算されて出力される。ここ
で、文書iの、検索条件(分類基準)jに対する類似度
を、S(i,j)と表現することにする。
【0046】次に、検索結果分類手段26は、これらの検
索結果に基づいて、各文書iの各分類jへの帰属度T
(i,j)を計算する。これは、例えば、以下に示す式
(2)によって計算することができる。 T(i,j)= C・S(i,j)+ (1−C)・100・(S(i,j)/Σ S(i,k)) 式(2) (Σはkについて加算) ここで、Cは0<C<1の定数である。
【0047】なお、式(2)は計算の一例であり、帰属
度の計算方法がこれに限られるわけではない。
【0048】上記の例では、例えば、文書1〜10、分
類1〜3に対して、C=0.5として、図4に示すよう
な帰属度Tが計算される。
【0049】検索結果分類手段26は、各文書iに対し
て、式(3)にて、最も帰属度T(i,j)の高い分類
を求める。 c(i)= max{ T(i,j)} 式(3) (maxは、jを変数とするときのmax)
【0050】そして、最終的に、文書iは分類c(i)
に属するものとして入出力手段11を介して利用者に対し
て出力する。
【0051】図4の例に対して、分類結果の出力例を、
図5に示す。
【0052】以上のようにして、利用者が検索を行った
図2の検索結果文書集合に対して、利用者が与えた分類
基準1〜3に基づいた分類が可能になる。
【0053】上記例においては、利用者の最初の検索式
の要素である、「米」は多義であり、図2の検索結果文
書中には、食糧としての「米」と米国としての「米」が
混在するが、利用者が適当な分類基準を入力することに
よって、これらの文書を分離することに成功している。
【0054】更に、利用者が検索条件や分類基準を入力
する際には、任意の文字列を与えることができるので、
「新食糧法」「米朝協議」など、複数の単語からなる複
合語も、特に単語であるかどうかを意識することなく入
力できる。
【0055】また、利用者は、最終的に分類された各分
類基準に対応した文書集合を、母集合として指定して、
再びその集合を分類する、というように、細分類を求め
ていくことも可能である。
【0056】(第2の実施形態)第2の実施形態の文書
検索・分類方法では、分類基準として、分類視点を表す
文章を入力する。その文章からキーワードが抽出され、
検索条件に変換される。この文書検索・分類方法を実施
する装置は、図6に示すように、入出力手段11より入力
された分類視点を表す文章からキーワードを抽出するキ
ーワード抽出手段12を具備している。その他の構成は第
1の実施形態(図1)と変わりがない。この文書検索・
分類方法の処理の概要を説明する。
【0057】利用者が検索条件を入出力手段11を介して
入力し、その検索条件を用いて検索手段14が検索を行っ
て、その検索結果を検索結果格納手段16に格納するまで
は、第1の実施形態と全く同様である。
【0058】今、第1の実施形態と同様な検索条件
(1)を入力し、図2に示したような検索結果が得られ
たとする。
【0059】その後、利用者が検索結果を分類したい場
合は、入出力手段11を介して分類の視点となるような分
類基準を複数入力するが、この実施形態では、分類基準
として、文章や、検索結果文書番号や、検索結果文書の
一部を入力することが可能である。
【0060】例えば、利用者が入出力手段11を介して、
以下に示すような分類基準を文章で入力したとする。 分類基準1:コメ市場や、政府の米価政策について 分類基準2:北朝鮮や中国などに対する米国の対応 分類基準3:韓国や日本における米軍問題
【0061】このような入力を受けた場合の処理を以下
に説明する。キーワード抽出手段12は、例えば、辞書を
用いて、各文章に出現している単語を形態素解析などの
処理を用いて切り出すなどし、それら切り出された単語
から、各文章に特徴的と思われるものを抽出する。
【0062】特徴的な単語の選択手法としては、例え
ば、文書格納装置15に格納された全文書を事前に調査し
て各単語の出現頻度を求めておき、TFIDF法などに
よって単語の重み付けを行って、その重みにより選択す
る方法が一般的である。そのような単語の重み付けの手
法については、例えば海野敏“出現頻度情報に基づく単
語重みづけの原理”Library and Information Science,
No.26(1988) に詳細に説明されている。
【0063】また、日本語の文書の場合には、辞書を利
用せずに、カタカナ・平仮名・漢字といった字種の違い
に注目して文字列を切り出すといった手法でもよい。こ
の手法の利点は、辞書に登録されていない未知語や複合
語も抽出できるということである。
【0064】更には、上記2つの手法を組み合わせてそ
の処理を行ってもよい。
【0065】この実施形態では、辞書を用いて、各文章
から特徴的な単語を切り出す。今、上記分類基準1〜3
から、以下のような文字列が抽出されたとする。 分類基準1’:コメ 市場 政府 米価政策 分類基準2’:北朝鮮 中国 米国 分類基準3’:韓国 日本 米軍 問題
【0066】その後、分類基準変換手段13が分類基準
1’〜3’を検索条件へと変換するが、分類基準1’〜
3’は、それぞれ文字列の集合となっているので、第1
の実施形態で述べた処理と全く同様な処理でそれを行う
ことができる。
【0067】また、利用者が、図2に示した検索結果文
書を見て、分類基準となるような文書を選択して、以下
に示すような文書番号で分類基準を指定したとする。 分類基準1:1,2 分類基準2:4,5 分類基準3:9
【0068】このような入力を受けた場合の処理を以下
に説明する。キーワード抽出手段12は、分類基準として
指定された文書番号の文書を文書格納装置15から読み込
み、特徴的なキーワードを抽出する。
【0069】この処理は、上記文章で分類基準が入力さ
れた場合と全く同様な方法で行うことができる。また
は、事前に文書格納装置15に格納されている全文書に対
して特徴的なキーワードを抽出して文書格納装置15に各
文書に対応させて記録しておき、分類時はそれを読み出
すという処理を行ってもよい。
【0070】今、上記分類基準1〜3から、以下のよう
な文字列が抽出されたとする。 分類基準1:コメ 備蓄 食糧 米価 農協 生産 農家 稲
作 消費者 米 分類基準2:北朝鮮 会談 韓国 協議 米 米韓 問題 南
北 朝鮮半島 米軍 分類基準3:沖縄 米国 連邦 調査 返還 公文書 資料
仮処分 地裁 決定
【0071】その後、分類基準変換手段13が分類基準1
〜3を検索条件へと変換するが、分類基準1〜3は、そ
れぞれ文字列の集合となっているので、第1の実施形態
で述べた処理と全く同様な処理でそれを行うことができ
る。
【0072】分類基準変換手段13が分類基準を検索条件
に変換した後の処理は、第1の実施の形態と全く同様に
して行う。
【0073】以上のようにして、利用者が検索を行った
図2の検索結果文書集合に対して、分類基準を、文章
や、検索結果文書番号や、検索結果文書の一部として表
現して入力することができ、複雑な分類視点からの分類
や、簡便な分類視点の入力が可能となる。
【0074】(第3の実施形態)第3の実施形態の文書
検索・分類方法を実施する装置では、分類基準が自動的
に設定され、検索された文書が自動分類処理される。
【0075】この装置は、図7に示すように、検索され
た文書からキーワードを抽出するキーワード抽出手段72
と、キーワードの集合を複数のクラスタに分類するキー
ワード自動分類手段73と、クラスタに分類されたキーワ
ード集合を分類基準として検索条件に変換する分類基準
変換手段74とを具備している。その他の構成は第1の実
施形態(図1)と変わりがない。
【0076】この文書検索・分類方法の処理の概要を説
明する。
【0077】利用者が検索条件を入出力手段71を介して
入力し、その検索条件を用いて検索手段75が検索を行っ
て、その検索結果を検索結果格納手段77に格納するまで
は、第1の実施形態と全く同様である。
【0078】今、第1の実施形態と同様な検索条件
(1)を入力し、図2に示したような検索結果が得られ
たとする。
【0079】その後、この実施形態では、検索結果を分
類する際に、利用者が分類基準を入力しなくとも、自動
的に分類基準を構成して分類を行う。
【0080】以下、その自動分類処理について説明す
る。まず、キーワード抽出手段72が、検索結果格納手段
77に格納されている各文書に対して、特徴的なキーワー
ドを抽出する。ここでの抽出は、第2の実施形態で述べ
たような手法で行ってもよいし、または、例えば特願平
9−176822に示されているキーワード抽出手段を
利用してもよい。
【0081】次に、キーワード自動分類手段73が、得ら
れたキーワード集合を、複数の部分集合に分類する。自
動分類の方法としては、例えばコホネン“自己組織化マ
ップ”シュプリンガー・フェアラーク東京(1996)で説明
されているSOMのような手法を用いることもできる
が、以下に示すような方法でも実現可能である。
【0082】まず、文書格納手段76にD1〜Dnのn個
の文書が格納されており、これらの文書にW1〜Wmの
m個の単語が出現しているとする。
【0083】ここで、単語Wjに対して、以下のような
n次元のベクトルVjを考えることができる。 Vj = (e1,e2,e3,......,en) ベクトルの要素eiは、以下の式(4)で計算される。 ei = TFi(Wj)*log(n/DF(Wj)) 式(4) ただし、 TFi(Wj):文書Di における単語Wjの出現頻
度 DF(Wj) :文書全体において単語Wjが出現する
文書数 さらに、ベクトルVjを、その長さが1となるように正
規化してもよい。
【0084】このようにして、m個の単語すべてに対し
て、ベクトルV1〜Vmを求めることができる。
【0085】次に、複数の単語グループG1〜Gpを考
える。それぞれの単語グループは、ある特定の分野の文
書によく出現する単語群である。単語グループは、事前
に人手で作成してもよいし、辞書や大規模文書における
出現分布などを利用して自動的に作成してもよい。
【0086】ここで、単語グループGkに対しても、以
下のようなn次元のベクトルを考えることができる。 VGk = (e’1,e’2,e’
3,......,e’n) ベクトルの要素e’iは、以下の式(5)で計算され
る。
【0087】 e’i = TFi(Gj)*log(n/DF(Gj)) 式(5) ただし、 TFi(Gj):文書Diにおいて、Gjに含まれる単
語の出現頻度の総和 DF(Gj):文書全体においてGjに含まれる単語の
いずれかが出現する文書数 さらに、ベクトルVGkを、その長さが1となるように
正規化してもよい。
【0088】このようにして、p個の単語グループすべ
てに対して、ベクトルVG1〜VGpを求めることがで
きる。
【0089】ここで、単語Wjと単語グループGkの類
似度Sjkは、ベクトルVjとベクトルVGkとの内積
をとることで求めることができる。
【0090】このようなベクトルと類似度計算を用いる
と、容易にキーワードの自動分類が実現できる。例えば
今、単語グループG1、G2、G3があり、それぞれ以
下のような分野で良く使われる単語グループであるとす
る。 G1:自動車の内燃機関 G2:航空機事故 G3:インターネット
【0091】また、検索手段75により、「エンジン」に
関するものとして検索された文書から、キーワード抽出
手段72により以下のキーワードが抽出されたとする。 ガソリン、事故、WWW、燃費、検索、爆発、空港、U
RL
【0092】これら各単語について、それぞれG1〜G
3に対する類似度を計算すると、以下のようであったと
する。 S(ガソリン)= (0.8, 0.0, 0.2) S(事故) = (0.2, 0.6, 0.3) S(WWW) = (0.1, 0.2, 0.8) S(燃費) = (0.7, 0.1, 0.2) S(検索) = (0.0, 0.2, 0.6) S(爆発) = (0.4, 0.6, 0.1) S(空港) = (0.0, 0.9, 0.2) S(URL) = (0.1, 0.0, 0.9) ここで、各キーワードごとに、最も類似度が高かった単
語グループに属するものとすれば、前記抽出されたキー
ワードは以下のように分類できる。 G1:ガソリン、燃費 G2:事故、爆発、空港 G3:WWW、検索、URL。
【0093】このようにして得られたキーワード群を、
分類基準として分類基準変換手段74の入力とすることが
できる。
【0094】また、単語グループGの数が多い(例えば
百個)場合で、分類基準とするキーワード群の数を少数
(例えば2個)に押さえたい場合には、以下のようにす
ればよい。 ・各単語グループGごとに、分類されたキーワードの重
みの総和をとり、これをその単語グループの得点とす
る。 ・得点の大きいものから順に上位数個を選ぶ。
【0095】前記の例では、 G1の得点 0.8 + 0.7 = 1.5 G2の得点 0.6 + 0.6 + 0.9 = 2.1 G3の得点 0.8 + 0.6 + 0.9 = 2.3 となり、上位2グループを選ぶのであればG2とG3が
選ばれる。
【0096】キーワード自動分類手段73が、例えばこの
ような処理を行うことによって、検索結果文書から抽出
されたキーワード集合を自動的にいくつかのグループに
分類する。上記の例では、以下の3つの分類基準が得ら
れる。 分類基準1:ガソリン 燃費 分類基準2:事故 爆発 空港 分類基準3:WWW 検索 URL
【0097】その後、分類基準変換手段74が分類基準1
〜3を検索条件へと変換するが、分類基準1〜3は、そ
れぞれ文字列の集合となっているので、第1の実施形態
で述べた処理と全く同様な処理でそれを行うことができ
る。
【0098】また、分類基準変換手段13が分類基準を検
索条件に変換した後の処理も、第1の実施形態と、全く
同様にして行う。
【0099】以上の構成とすることにより、利用者が分
類の視点を陽に与えなくとも、検索結果文書中にどのよ
うな分野の単語がよく出現しているかということを自動
的に判別して、これを分類基準とすることで、検索結果
の性質に即した分類を行うことができ、簡便な文書分類
が可能となる。
【0100】また、キーワード自動分類手段73により求
められたキーワード群を、一旦入出力手段71を介して利
用者に提示し、それを利用者が修正した後に、分類基準
変換手段74がそれらを検索条件に変換する、という構成
にしてもよい。そのような構成とすれば、分類を行う前
に、利用者の気付かなかった分類視点を提供して、文書
の分類作業を効率的に支援することが可能となる。
【0101】
【発明の効果】以上の説明から明らかなように、本発明
では、利用者が思い立った時に、任意の言葉(文字列)
を要素とする検索条件を与えることで文書を検索し、そ
の検索結果を更に利用者の要望に沿って分類するといっ
た、人間の知的活動を総合的に支援ことができるという
効果が得られる。
【0102】また、その際、分類の視点となる分類基準
としては、利用者が思いついた任意の言葉(文字列)を
その表現として入力することが可能であり、真に自由な
分類視点の設定を行うことができるという効果が得られ
る。
【0103】また、文書分類は、任意の文字列を要素と
する検索条件を用いた類似度計算に基づいて行われる
が、これは、任意の文字列を特徴素(基底)とする特徴
空間を動的に構築して、その空間内で分類を行うことに
相当する。その意味で、従来の、あらかじめ固定された
単語集合で規定される特徴空間内での分類とは異なり、
真に動的な視点から分類を行うことが可能になるという
効果が得られる。
【0104】また、キーワード抽出手段を設けた装置で
は、分類の視点となる分類基準として、利用者が望む分
類の視点を、そのまま文章で表現して入力することがで
きるので、複雑な分類視点を表現することが可能とな
り、より柔軟で多面的な視点設定を行うことができると
いう効果が得られる。
【0105】また、この場合、分類の視点となる分類基
準として、利用者が一旦検索結果文書を確認した後に、
その文書そのものやその文書の一部を、分類視点の表現
として選択することが可能であり、より簡便に視点設定
を行うことができるという効果が得られる。
【0106】また、キーワード抽出手段とキーワード自
動分類手段とを設けた装置では、利用者が分類の視点を
与えなくとも、検索結果に内在される分類の視点を自動
的に抽出して、文書を分類することが可能であり、より
簡便に文書分類を行えるだけでなく、利用者が気付かな
かった分類視点を提供して、文書の分類作業を効率的に
支援するという効果が得られる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態に係る文書検索・分類
方法の機能構成を示すブロック図、
【図2】検索結果の例、
【図3】分類基準に基づく検索結果の例、
【図4】帰属度計算の例、
【図5】分類結果の出力例、
【図6】本発明の第2の実施形態に係る文書検索・分類
方法の機能構成を示すブロック図、
【図7】本発明の第3の実施形態に係る文書検索・分類
方法の機能構成を示すブロック図、
【符号の説明】
11、21、71 入出力手段 12、72 キーワード抽出手段 13、22、74 分類基準変換手段 73 キーワード自動分類手段 14、23、75 検索手段 15、24、76 文書格納装置 16、25、77 検索結果格納手段 17、26、78 検索結果分類手段
───────────────────────────────────────────────────── フロントページの続き (72)発明者 佐藤 光弘 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 (72)発明者 伊藤 快 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 (72)発明者 福重 貴雄 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 (72)発明者 稲葉 光昭 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 Fターム(参考) 5B075 ND02 NK02 NK39 NR02 NR12 PP12 PP23 PQ36 PQ46 PR06 QM08

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 入力された検索条件に従って文書を検索
    し、検索した文書を分類基準に従って分類する装置であ
    って、 利用者と情報のやりとりを行い、利用者により検索条件
    及び分類基準が入力される入出力手段と、 任意の文字列を要素とする検索条件に合致する文書を検
    索し、かつその検索結果文書と前記検索条件との類似度
    を計算する検索手段と、 前記検索結果文書を格納する検索結果格納手段と、 任意の文字列を要素とする集合で表された分類基準を検
    索条件に変換する分類基準変換手段と、 前記検索結果文書を複数の分類基準に従って分類する検
    索結果分類手段とを具備し、 利用者が前記入出力手段から検索条件を入力すると、前
    記検索手段が、前記検索条件を用いて文書を検索し、前
    記検索結果格納手段が、得られた検索結果文書を格納
    し、利用者が前記入出力手段から検索結果に対する複数
    の分類基準を入力すると、前記分類基準変換手段が、各
    分類基準を検索条件に変換し、前記検索手段が、前記変
    換された検索条件と前記検索結果格納手段に格納された
    検索結果文書との類似度を計算し、前記検索結果分類手
    段が、前記検索結果文書の各々について、前記類似度を
    基に、前記各分類基準に対する帰属度を計算して検索結
    果文書を分類することを特徴とする文書検索・分類装
    置。
  2. 【請求項2】 利用者が前記入出力手段から任意の文字
    列の集合で表現した複数の分類基準を入力すると、前記
    分類基準変換手段が、前記文字列の集合を検索条件に変
    換することを特徴とする請求項1に記載の文書検索・分
    類装置。
  3. 【請求項3】 任意の文章や文書から特徴的なキーワー
    ドや文字列を抽出するキーワード抽出手段を具備し、利
    用者が前記入出力手段から任意の文章で表現した複数の
    分類基準を入力すると、前記キーワード抽出手段が、前
    記文章から特徴的なキーワードや文字列を抽出し、前記
    分類基準変換手段が、抽出されたキーワードや文字列の
    集合を検索条件に変換することを特徴とする請求項1に
    記載の文書検索・分類装置。
  4. 【請求項4】 利用者が前記入出力手段から前記検索結
    果文書の中の複数の文書を、複数の分類基準を表すもの
    として入力すると、前記キーワード抽出手段が、前記文
    書から特徴的なキーワードや文字列を抽出し、前記分類
    基準変換手段が、抽出されたキーワードや文字列の集合
    を検索条件に変換することを特徴とする請求項3に記載
    の文書検索・分類装置。
  5. 【請求項5】 入力された検索条件に従って文書を検索
    し、検索した文書を分類基準に従って分類する装置であ
    って、 利用者と情報のやりとりを行い、利用者により検索条件
    が入力される入出力手段と、 任意の文字列を要素とする検索条件に合致する文書を検
    索し、かつその検索結果文書と前記検索条件との類似度
    を計算する検索手段と、 前記検索結果文書を格納する検索結果格納手段と、 前記検索結果文書から特徴的なキーワードや文字列を抽
    出するキーワード抽出手段と、 抽出された前記キーワードや文字列を複数のクラスタに
    分類するキーワード自動分類手段と、 各クラスタに分類されたキーワードや文字列の集合で表
    される分類基準を検索条件に変換する分類基準変換手段
    と、 前記検索結果文書の集合を複数の前記分類基準に従って
    分類する検索結果分類手段とを具備し、 利用者が前記入出力手段から検索条件を入力すると、前
    記検索手段が、前記検索条件を用いて文書を検索し、前
    記検索結果格納手段が、得られた検索結果文書を格納
    し、前記キーワード抽出手段が、各検索結果文書から特
    徴的なキーワードや文字列を抽出し、前記キーワード自
    動分類手段が、抽出されたキーワードや文字列を複数の
    クラスタに分類し、前記分類基準変換手段が、各クラス
    タに分類されたキーワードや文字列の集合で表される分
    類基準を検索条件に変換し、前記検索手段が、前記変換
    された検索条件と前記検索結果格納手段に格納された検
    索結果文書との類似度を計算し、前記検索結果分類手段
    が、前記検索結果文書の各々について、前記類似度を基
    に、前記各分類基準に対する帰属度を計算して検索結果
    文書を分類することを特徴とする文書検索・分類装置。
  6. 【請求項6】 入力された検索条件に従って文書を検索
    し、検索した文書を分類基準に従って分類する文書検索
    ・分類方法において、 利用者が入力した検索条件で文書を検索して検索結果文
    書を求め、利用者が検索結果に対して入力した複数の分
    類の分類基準を検索条件に変換し、変換した前記検索条
    件と前記検索結果文書との類似度を計算し、前記類似度
    を基に、前記検索結果文書の各分類に対する帰属度を計
    算し、前記検索結果文書を帰属度が最も高い分類に分類
    することを特徴とする文書検索・分類方法。
  7. 【請求項7】 利用者が各分類の分類基準として任意の
    文字列の集合を入力すると、これを検索条件に変換して
    前記検索結果文書との類似度を計算することを特徴とす
    る請求項6に記載の文書検索・分類方法。
  8. 【請求項8】 利用者が各分類の分類基準として任意の
    文章を入力すると、前記文章から特徴的なキーワードや
    文字列を抽出し、このキーワードや文字列の集合を検索
    条件に変換して前記検索結果文書との類似度を計算する
    ことを特徴とする請求項6に記載の文書検索・分類方
    法。
  9. 【請求項9】 利用者が各分類の分類基準として前記検
    索結果文書の中の複数の文書を指定すると、前記文書か
    ら特徴的なキーワードや文字列を抽出し、このキーワー
    ドや文字列の集合を検索条件に変換して前記検索結果文
    書との類似度を計算することを特徴とする請求項6に記
    載の文書検索・分類方法。
  10. 【請求項10】 入力された検索条件に従って文書を検
    索し、検索した文書を分類基準に従って分類する文書検
    索・分類方法において、 利用者が入力した検索条件で文書を検索して検索結果文
    書を求め、前記検索結果文書の各々からキーワードや文
    字列を抽出し、抽出した前記キーワードや文字列を複数
    のクラスタに分類し、各クラスタに分類されたキーワー
    ドや文字列の集合を検索条件に変換し、変換した前記検
    索条件と前記検索結果文書との類似度を計算し、前記類
    似度を基に、前記検索結果文書の各分類に対する帰属度
    を計算し、前記検索結果文書を帰属度が最も高い分類に
    分類することを特徴とする文書検索・分類方法。
JP05080399A 1999-02-26 1999-02-26 文書検索・分類方法および装置 Expired - Lifetime JP3693514B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP05080399A JP3693514B2 (ja) 1999-02-26 1999-02-26 文書検索・分類方法および装置
TW89117245A TW469386B (en) 1999-02-26 2000-08-25 Document retrieval and classification method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP05080399A JP3693514B2 (ja) 1999-02-26 1999-02-26 文書検索・分類方法および装置

Publications (2)

Publication Number Publication Date
JP2000250925A true JP2000250925A (ja) 2000-09-14
JP3693514B2 JP3693514B2 (ja) 2005-09-07

Family

ID=12868946

Family Applications (1)

Application Number Title Priority Date Filing Date
JP05080399A Expired - Lifetime JP3693514B2 (ja) 1999-02-26 1999-02-26 文書検索・分類方法および装置

Country Status (2)

Country Link
JP (1) JP3693514B2 (ja)
TW (1) TW469386B (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003281161A (ja) * 2002-03-19 2003-10-03 Seiko Epson Corp 情報分類方法、情報分類装置、プログラムおよび記録媒体
JP2006018843A (ja) * 2004-07-01 2006-01-19 Microsoft Corp ページカテゴリ情報の使用による検索エンジン結果の分散
JP2006039862A (ja) * 2004-07-26 2006-02-09 Mitsubishi Electric Corp データ類別装置
WO2007105642A1 (ja) * 2006-03-10 2007-09-20 National Institute Of Information And Communications Technology 多義語による情報検索装置及びプログラム
US7451139B2 (en) 2002-03-07 2008-11-11 Fujitsu Limited Document similarity calculation apparatus, clustering apparatus, and document extraction apparatus
JP2009093646A (ja) * 2007-10-05 2009-04-30 Fujitsu Ltd 検索結果のインテリジェント分類のための方法、ソフトウェア及び装置
JP2014135045A (ja) * 2012-12-10 2014-07-24 Canon Marketing Japan Inc 文書分類装置、文書分類方法、及びプログラム
CN107766371A (zh) * 2016-08-19 2018-03-06 中兴通讯股份有限公司 一种文本信息分类方法及其装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0554037A (ja) * 1991-08-28 1993-03-05 Fujitsu Ltd 文書分類方式
JPH0991314A (ja) * 1995-07-14 1997-04-04 Fuji Xerox Co Ltd 情報探索装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0554037A (ja) * 1991-08-28 1993-03-05 Fujitsu Ltd 文書分類方式
JPH0991314A (ja) * 1995-07-14 1997-04-04 Fuji Xerox Co Ltd 情報探索装置

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7451139B2 (en) 2002-03-07 2008-11-11 Fujitsu Limited Document similarity calculation apparatus, clustering apparatus, and document extraction apparatus
JP2003281161A (ja) * 2002-03-19 2003-10-03 Seiko Epson Corp 情報分類方法、情報分類装置、プログラムおよび記録媒体
JP2006018843A (ja) * 2004-07-01 2006-01-19 Microsoft Corp ページカテゴリ情報の使用による検索エンジン結果の分散
KR101183312B1 (ko) 2004-07-01 2012-09-17 마이크로소프트 코포레이션 페이지 카테고리 정보를 이용하여 검색 엔진 결과를분배하는 방법
JP2006039862A (ja) * 2004-07-26 2006-02-09 Mitsubishi Electric Corp データ類別装置
JP4536445B2 (ja) * 2004-07-26 2010-09-01 三菱電機株式会社 データ類別装置
WO2007105642A1 (ja) * 2006-03-10 2007-09-20 National Institute Of Information And Communications Technology 多義語による情報検索装置及びプログラム
JP2007241794A (ja) * 2006-03-10 2007-09-20 National Institute Of Information & Communication Technology 多義語による情報検索装置及びプログラム
JP2009093646A (ja) * 2007-10-05 2009-04-30 Fujitsu Ltd 検索結果のインテリジェント分類のための方法、ソフトウェア及び装置
JP2014135045A (ja) * 2012-12-10 2014-07-24 Canon Marketing Japan Inc 文書分類装置、文書分類方法、及びプログラム
CN107766371A (zh) * 2016-08-19 2018-03-06 中兴通讯股份有限公司 一种文本信息分类方法及其装置
CN107766371B (zh) * 2016-08-19 2023-11-17 中兴通讯股份有限公司 一种文本信息分类方法及其装置

Also Published As

Publication number Publication date
JP3693514B2 (ja) 2005-09-07
TW469386B (en) 2001-12-21

Similar Documents

Publication Publication Date Title
US11741173B2 (en) Related notes and multi-layer search in personal and shared content
US7603348B2 (en) System for classifying a search query
US5943670A (en) System and method for categorizing objects in combined categories
US8214363B2 (en) Recognizing domain specific entities in search queries
JP2009517750A (ja) 情報検索
US8346800B2 (en) Content-based information retrieval
US20180341686A1 (en) System and method for data search based on top-to-bottom similarity analysis
KR20070089449A (ko) 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체.
KR101355945B1 (ko) 온라인 문맥기반 광고 장치 및 방법
JP2001306612A (ja) 情報提供装置、情報提供方法およびその方法を実現するプログラムを記録した機械読取可能な記録媒体
JP3693514B2 (ja) 文書検索・分類方法および装置
EP0822503A1 (en) Document retrieval system
JP3921837B2 (ja) 情報判別支援装置、情報判別支援プログラムを記録した記録媒体及び情報判別支援方法
JP2001184358A (ja) カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体
KR100407081B1 (ko) 문서 검색 및 분류 방법 및 장치
JP5414334B2 (ja) 擬似文書検索システム及び擬似文書検索方法
Li et al. Chinese text emotion classification based on emotion dictionary
CN111143400A (zh) 一种全栈式检索方法、系统、引擎及电子设备
CN112100330B (zh) 一种基于人工智能技术的主题搜索方法及其系统
Anđelić et al. Text classification based on named entities
JP2001306594A (ja) 情報検索装置及び情報検索プログラムを格納した記憶媒体
KR20200078170A (ko) 상품을 계층적 카테고리로 분류하는 장치 및 방법
JP7297855B2 (ja) キーワード抽出装置、キーワード抽出方法、およびプログラム
JP2019149102A (ja) 情報処理装置、キーワード抽出装置、情報処理方法、およびプログラム
KR100952077B1 (ko) 키워드를 이용한 표제어 선정 장치 및 방법

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040309

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040423

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040601

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050118

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050224

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20050322

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050419

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050530

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050621

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050621

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090701

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100701

Year of fee payment: 5