JP2002288220A - 文書分類装置、文書分類方法ならびに、プログラム - Google Patents

文書分類装置、文書分類方法ならびに、プログラム

Info

Publication number
JP2002288220A
JP2002288220A JP2001088400A JP2001088400A JP2002288220A JP 2002288220 A JP2002288220 A JP 2002288220A JP 2001088400 A JP2001088400 A JP 2001088400A JP 2001088400 A JP2001088400 A JP 2001088400A JP 2002288220 A JP2002288220 A JP 2002288220A
Authority
JP
Japan
Prior art keywords
classification
input
documents
document
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001088400A
Other languages
English (en)
Inventor
Nobuyuki Otomori
信行 乙守
Itsuki Shimokooriyama
敬己 下郡山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JustSystems Corp
Original Assignee
JustSystems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JustSystems Corp filed Critical JustSystems Corp
Priority to JP2001088400A priority Critical patent/JP2002288220A/ja
Publication of JP2002288220A publication Critical patent/JP2002288220A/ja
Pending legal-status Critical Current

Links

Landscapes

  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 ユーザが望む要素を含む文書を、その要素の
種類に応じて分類して提示するのに好適な文書分類装置
等を提供する。 【解決手段】 文書分類装置301の文書蓄積部302
は、複数の文書を蓄積し、第1分類手法入力受付部30
3は、第1の分類手法の入力を受け付け、第1分類部3
04は、第1の分類手法により、蓄積された複数の文書
を複数の区分に分類し、第1表示部305は、分類され
た複数の区分のそれぞれに属する文書の数を表示し、第
2分類手法入力受付部306は、第2の分類手法の入力
を受け付け、第2分類部307は、第1の分類手法によ
り分類された複数の区分のそれぞれについて、入力を受
け付けられた第2の分類手法により、当該区分に属する
文書を複数のグループに分類し、第2表示部308は、
分類された複数の区分のそれぞれについて、分類された
複数のグループのそれぞれに属する文書の数を表示す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書をそれが含む
要素に応じて分類し、ユーザに見やすく提示するのに好
適な文書分類装置、文書分類方法、ならびに、これらを
コンピュータ上に実現するプログラムに関する。
【0002】
【従来の技術】従来から、検索対象となる語句を含む文
書を検索する検索エンジンや、文書中のある文に含まれ
る情報を要約してユーザに提示する手法が提案されてい
る。
【0003】また、文書中の語句の出現頻度を利用して
重要語を推定し、重要語を含む重要文を特定して要約を
行ったり、文書の中の出現位置(たとえば、新聞記事で
は、第1文が要約的内容に相当する。)を利用して重要
度を調整して、要約文を抽出する手法もある。
【0004】
【発明が解決しようとする課題】しかしながら、このよ
うな従来の文書検索システムでは、ユーザが望む要素
(たとえば「商品」と「価格」)をすべて含む文書を検
索した場合であっても、整理して提示することができな
かった。このため、ユーザが望む情報が容易に得られな
い、という問題があった。
【0005】本発明の目的は、ユーザが望む要素を含む
文書を、その要素の種類に応じて分類して提示する手法
を実現することにある。
【0006】
【課題を解決するための手段】上記目的を達成するた
め、本発明の第1の観点に係る文書分類装置は、文書蓄
積部と、第1分類手法入力受付部と、第1分類部と、第
1表示部と、第2分類手法入力受付部と、第2分類部
と、第2表示部と、を備え、以下のように構成する。
【0007】すなわち、前記文書蓄積部は、複数の文書
を蓄積する。
【0008】一方、前記第1分類手法入力受付部は、第
1の分類手法の入力を受け付ける。
【0009】さらに、前記第1分類部は、前記入力を受
け付けられた第1の分類手法により、前記蓄積された複
数の文書を複数の区分に分類する。
【0010】そして、前記第1表示部は、前記分類され
た複数の区分のそれぞれに属する文書の数を表示する。
【0011】一方、前記第2分類手法入力受付部は、第
2の分類手法の入力を受け付ける。
【0012】さらに、前記第2分類部は、前記第1の分
類手法により分類された複数の区分のそれぞれについ
て、前記入力を受け付けられた第2の分類手法により、
当該区分に属する文書を複数のグループに分類する。
【0013】そして、前記第2表示部は、前記分類され
た複数の区分のそれぞれについて、前記分類された複数
のグループのそれぞれに属する文書の数を表示する。
【0014】本発明により、2つの要素の種類に応じて
文書を2次元的に分類して、それぞれの要素の条件を満
たす文書の数を表示することができる。
【0015】たとえば、ユーザが第1の分類手法として
「商品」を、第2の分類手法として「価格」を、それぞ
れ検索要素として選択した場合、当該「商品」に属する
「コンピュータ」「衣料・雑貨」「食料品」…のそれぞ
れについてその「価格」が「1万円以下」「1万円〜2
万円」「2万円〜3万円」「3万円以上」のものについ
てふれた文書を検索して、それぞれの文書の数をユーザ
に提示することができる。
【0016】また、本発明の文書分類装置において、前
記第2表示部は文書の数を行および列を軸とする表形式
で表示し、当該表形式の一方の軸は、前記分類された複
数の区分に対応付けられ、他方の軸は、前記分類された
複数のグループに対応付けられるように構成することが
できる。
【0017】本発明により、たとえば、上記の場合、行
方向には「商品」の種類を、列方向には、「価格」の価
格帯を、それぞれ配置した表形式で、ユーザに該当文書
の数を提示することができる。
【0018】また、本発明の文書分類装置は、区分グル
ープ指定入力受付部と、内容表示部と、をさらに備え、
以下のように構成することができる。
【0019】すなわち、前記区分グループ指定入力受付
部は、前記第2表示部に表示される文書の数からいずれ
かの区分およびいずれかのグループを指定する入力を受
け付ける。
【0020】一方、前記内容表示部は、前記指定する入
力を受け付けられた区分およびグループに属する文書の
内容を、前記文書蓄積部から取得して表示する。
【0021】本発明により、ユーザが、表示された「商
品」は「コンピュータ」、「価格」は「2万〜3万」の
文書の数をクリックすると、その「商品」は「コンピュ
ータ」、「価格」は「2万〜3万」の文書の内容が表示
される。特に、当該文書の内容を要約して提示すること
ができる。
【0022】また、本発明の文書分類装置は、区分指定
入力受付部と、第3分類部と、第3表示部と、をさらに
備え、以下のように構成することができる。
【0023】すなわち、前記区分指定入力受付部は、前
記第1表示部に表示される文書の数からいずれかの区分
を指定する入力を受け付ける。
【0024】一方、前記第3分類部は、前記指定する入
力を受け付けられた区分に属する文書を、当該区分に対
してあらかじめ対応付けられた第3の分類手法により、
複数の小区分に分類する。
【0025】さらに、前記第3表示部は、前記分類され
た複数の小区分のそれぞれに属する文書の数を表示す
る。
【0026】本発明により、ユーザの希望に応じて、分
類をさらに細分化することができる。
【0027】また、本発明の文書分類装置は、区分グル
ープ記憶部をさらに備え、以下のように構成することが
できる。
【0028】すなわち、前記区分グループ記憶部は、前
記文書蓄積部に蓄積される複数の文書のそれぞれが属す
る区分およびグループをあらかじめ記憶する。
【0029】一方、前記第1分類部および前記第2分類
部は、前記あらかじめ記憶された文書の区分およびグル
ープにより、文書を複数の区分およびグループに分類す
る。
【0030】本発明により、検索結果を高速にユーザに
提示することができるようになる。
【0031】本発明の第2の観点に係る文書分類方法
は、第1分類手法入力受付工程と、第1分類工程と、第
1表示工程と、第2分類手法入力受付工程と、第2分類
工程と、第2表示工程と、を備え、以下のように構成す
る。
【0032】すなわち、前記第1分類手法入力受付工程
では、第1の分類手法の入力を受け付ける。
【0033】一方、前記第1分類工程では、前記入力を
受け付けられた第1の分類手法により、「複数の文書を
蓄積する文書蓄積部」に蓄積された複数の文書を複数の
区分に分類する。
【0034】さらに、前記第1表示工程では、前記分類
された複数の区分のそれぞれに属する文書の数を表示す
る。
【0035】そして、前記第2分類手法入力受付工程で
は、第2の分類手法の入力を受け付ける。
【0036】一方、前記第2分類工程では、前記第1の
分類手法により分類された複数の区分のそれぞれについ
て、前記入力を受け付けられた第2の分類手法により、
当該区分に属する文書を複数のグループに分類する。
【0037】さらに、前記第2表示工程では、前記分類
された複数の区分のそれぞれについて、前記分類された
複数のグループのそれぞれに属する文書の数を表示す
る。
【0038】また、本発明の文書分類方法において、前
記第2表示工程では、文書の数を行および列を軸とする
表形式で表示し、当該表形式の一方の軸は、前記分類さ
れた複数の区分に対応付けられ、他方の軸は、前記分類
された複数のグループに対応付けられるように構成する
ことができる。
【0039】また、本発明の文書分類方法は、区分グル
ープ指定入力受付工程と、内容表示工程と、をさらに備
え、以下のように構成することができる。
【0040】すなわち、前記区分グループ指定入力受付
工程では、前記第2表示工程にて表示される文書の数か
らいずれかの区分およびいずれかのグループを指定する
入力を受け付ける。
【0041】一方、前記内容表示工程では、前記指定す
る入力を受け付けられた区分およびグループに属する文
書の内容を、前記文書蓄積部から取得して表示する。
【0042】また、本発明の文書分類方法は、区分指定
入力受付工程と、第3分類工程と、第3表示工程と、を
さらに備え、以下のように構成することができる。
【0043】すなわち、前記区分指定入力受付工程で
は、前記第1表示工程にて表示される文書の数からいず
れかの区分を指定する入力を受け付ける。
【0044】一方、前記第3分類工程では、前記指定す
る入力を受け付けられた区分に属する文書を、当該区分
に対してあらかじめ対応付けられた第3の分類手法によ
り、複数の小区分に分類する。
【0045】さらに、前記第3表示工程では、前記分類
された複数の小区分のそれぞれに属する文書の数を表示
する。
【0046】また、本発明の文書分類方法において、前
記第1分類工程および前記第2分類工程では、「前記文
書蓄積部に蓄積される複数の文書のそれぞれが属する区
分およびグループをあらかじめ記憶する区分グループ記
憶部」にあらかじめ記憶された文書の区分およびグルー
プにより、文書を複数の区分およびグループに分類する
ように構成することができる。
【0047】本発明の第3の観点に係るプログラムは、
コンピュータを上記文書分類装置として機能させるよう
に構成する。
【0048】当該プログラムをコンピュータに実行させ
ると、当該コンピュータは、上記文書分類方法を使用す
ることとなる。
【0049】当該プログラムは、コンピュータ読取可能
な記録媒体に記録することができるほか、コンピュータ
通信網を介して配布することができる。
【0050】
【発明の実施の形態】以下、添付図面を参照して、本発
明の実施の形態について説明する。
【0051】(情報処理装置の概要構成)図1は、本発
明の文書分類装置として機能する典型的な情報処理装置
(汎用のコンピュータ、各種端末、携帯端末、携帯電
話、ゲーム装置などの専用機器を含む)の概要構成を示
す模式図である。以下、図1を参照して説明する。
【0052】情報処理装置101は、CPU(Central
Processing Unit;中央処理ユニット)102によって
制御される。情報処理装置101に電源を投入すると、
CPU102は、ROM(Read Only Memory;読出専用
メモリ)103に記憶されたIPL(Initial Program
Loader;初期プログラムローダ)を実行する。
【0053】IPLは、ハードディスク104、FD
(Floppy Disk;フロッピー(登録商標)ディスク)ド
ライブ110に装着されたFD、CD−ROM(Compac
t Disk ROM)ドライブ111に装着されたCD−ROM
などの記録媒体に記憶されたOS(Operating System;
オペレーティング・システム)プログラムを読み出して
実行するプログラムである。
【0054】OSを起動した後、CPU102は、キー
ボード105やマウス106などにより入力されたユー
ザの指示にしたがって、あるいは、ハードディスクなど
にあらかじめ記述された設定ファイルの内容にしたがっ
て、ハードディスクなどに記憶されたアプリケーション
プログラムを実行する。
【0055】なお、携帯端末などの小規模な情報処理装
置では、IPL自体がOSやアプリケーションプログラ
ムとしての機能を果たすような実施形態も採用すること
ができる。
【0056】CPU102は、プログラムの実行の際
に、RAM(Random Access Memory)107を一時的な
作業用記憶領域として用いる。このほか、一時的な作業
用記憶領域として、CPU102内に設けられたレジス
タやキャッシュ(図示せず)が使われる。
【0057】プログラムの実行に伴ない、ユーザに結果
を報告したり、途中経過を見せるため、CPU102
は、液晶ディスプレイやCRT(Cathode Ray Tube)な
どの表示装置108に当該情報を表示することができ
る。マウス106による指示操作では、マウス106を
移動することにより、画面に表示されたカーソルが移動
し、マウス106をクリックすることにより、カーソル
が指すメニュー項目を選択することができる。
【0058】情報処理装置101は、NIC(Network
Interface Card)やモデムなどのインターフェース10
9を介してインターネットなどのコンピュータ通信網と
通信を行うことができる。インターフェース109を介
して受信した文書データを処理の対象としたり、処理し
た結果をインターフェース109を介して送信したり、
インターフェース109を介して受信したプログラムを
実行したり、などができる。
【0059】(文書の検索の実施形態)本発明では、文
書をあらかじめ、もしくは、ユーザが指定した検索条件
にしたがって、分類しておく必要がある。また、分類結
果を一覧表示する際には、文書の内容を、検索・分類条
件に合わせて要約することが望ましい。以下では、その
ような、文書の検索・分類のための、文書の要約の手法
について、まず述べる。
【0060】図2は、文書の要約を行う要約装置の実施
形態の一つの概要構成を示す模式図である。当該要約装
置は、上記情報処理装置にプログラムを実行させること
により、その上に実現される。以下、本図を参照して説
明する。
【0061】要約装置201は、まず、形態素列入力受
付部202と、要素記憶部203と、テンプレート記憶
部204と、要素検索部205と、要約生成部206
と、を備える。
【0062】形態素列入力受付部202は、形態素列の
入力を受け付ける。この形態素列が、要約の対象となる
文書の形態素列である。
【0063】一方、要素記憶部203は、要素として認
定されるべき形態素列と、当該要素の属性と、をあらか
じめ記憶する。たとえば、以下のような形態素列が、要
素記憶部203に記憶されている。 ・「セガ」(属性「発売元」) ・「ドリームキャスト」(属性「商品」)
【0064】さらに、テンプレート記憶部204は、記
憶された属性の列と、当該属性の列の間に埋め込む文字
列の情報と、を含むテンプレートを記憶する。たとえ
ば、以下のようなテンプレートが、テンプレート記憶部
204に記憶されている。 「『発売元』が『商品』を発売した。」
【0065】なお、二重かぎ括弧内が要素の属性に対応
し、「が」「を発売した。」が埋め込む文字列の情報に
対応する。
【0066】そして、要素検索部205は、入力を受け
付けられた形態素列から、記憶された要素を検索し、当
該検索結果の要素を列として出力する。
【0067】たとえば、以下のような形態素列が入力さ
れた場合を考える。各形態素は、「/」で区切ってあ
る。「セガ/が/新し/い/ゲーム機/の/発売/を/
発表/し/た/。/ゲーム機/の/名前/は/『/ドリ
ームキャスト/』/。/年内/の/出荷/は/100/
万/台/を/見込/ん/で/い/る/。/」
【0068】すると、要素検索部205は、以下のよう
な要素の列を出力する。 「セガ」(発売元)、「ドリームキャスト」(商品)
【0069】なお、かぎ括弧内が要素となる形態素列、
丸括弧内が要素の属性に対応する。
【0070】一方、要約生成部206は、検索結果の要
素の列から当該要素の属性の列を取得し、記憶されたテ
ンプレートのうち、当該要素の属性の列を含むものを用
いて、当該検索された属性の列のそれぞれに対応する要
素に対応する形態素列の間に、当該テンプレートが含む
文字列の情報を埋め込んで、要約を生成する。
【0071】これにより、以下のような要約が生成され
る。 「セガがドリームキャストを発売した。」
【0072】従来の手法では、複数の文にまたがる情報
を要約することができなかったが、このように、本手法
では、文書内の情報を複数の文にまたがって要約するこ
とが可能である。
【0073】このほか、要約装置201は、文入力受付
部211と、形態素解析部212と、をさらに備えてい
る。
【0074】ここで、文入力受付部211は、1つ以上
の文の入力を受け付ける。一方、形態素解析部212
は、入力を受け付けられた文を、形態素解析し、解析結
果の形態素列を出力する。
【0075】さらに、形態素列入力受付部202は、出
力された形態素列を入力として受け付ける。
【0076】これらが機能することにより、以下のよう
な文書情報が与えられた場合であっても、これを自動的
に要約装置201内で形態素列に変換して処理すること
ができる。「セガが新しいゲーム機の発売を発表した。
ゲーム機の名前は『ドリームキャスト』。年内の出荷は
100万台を見込んでいる。」
【0077】また、要約装置201は、要約抽出部22
1をさらに備えている。
【0078】要約抽出部221は、入力を受け付けられ
た1つ以上の文のうち、検索結果の要素の列を含む文を
抽出して、これを要約として出力する。
【0079】上記の例では、以下の2文が抽出された要
約となる。「セガが新しいゲーム機の発売を発表した。
ゲーム機の名前は『ドリームキャスト』。」
【0080】また、要約装置201は、指定入力受付部
231と、出力部232と、をさらに備え、以下のよう
に構成することができる。
【0081】すなわち、指定入力受付部231は、要約
手法の指定の入力を受け付ける。
【0082】一方、出力部232は、入力を受け付けら
れた要約手法の指定が第1の手法である場合、要約生成
部206により生成された要約を出力し、第2の手法で
ある場合、要約抽出部221により抽出された要約を出
力する。
【0083】これにより、ユーザが要約の手法を選択で
きるようになる。
【0084】また、要約装置201は、属性入力受付部
241をさらに備え、以下のように構成することができ
る。
【0085】すなわち、属性入力受付部241は、要約
すべき要素の属性の入力を受け付ける。
【0086】一方、要素検索部205は、入力を受け付
けられた要素の属性を有する形態素列を検索する。
【0087】さらに、要約生成部206は、記憶された
テンプレートのうち、さらに入力を受け付けられた要素
の属性を含むものを用いる。
【0088】このほか、要約抽出部221も、当該属性
の要素を含む文を抽出する。
【0089】あらかじめ、多数の要素、形態素やテンプ
レートを用意しておき、ユーザの指定によって、使用す
るテンプレートを選択して、ユーザが指定した属性の要
素の形態素列を取得して、要約を行う。
【0090】これにより、ユーザが適宜所望の要素の属
性を指定できるようになる。
【0091】なお、要素としては、上記のように要素記
憶部203に記憶されているもののほか、「値段」「時
刻」「日付」「地名」などに相当する形態素列を要素と
して認識させてもよい。これらを「個体名」と呼ぶ。上
記入力例では、「年内」(時期)「100万台」(台
数)等が個体名である。
【0092】このようにして、要素の属性に基づいて、
文書を要約することができる。また、要素に基づいて、
属性ごとに文書を分類することができる。
【0093】(発明の実施形態)図3は、本発明の文書
分類装置の実施形態の一つの概要構成を示す模式図であ
る。本文書分類装置は、情報処理装置101にプログラ
ムを実行させることにより、情報処理装置101上に実
現される。以下、本図を参照して説明する。
【0094】文書分類装置301は、上記の要約装置2
01を用いて文書を検索・分類・要約し、その結果をユ
ーザにわかりやすく提示する。
【0095】文書分類装置301は、文書蓄積部302
と、第1分類手法入力受付部303と、第1分類部30
4と、第1表示部305と、第2分類手法入力受付部3
06と、第2分類部307と、第2表示部308と、を
備える。
【0096】ここで、文書蓄積部302は、複数の文書
を蓄積する。
【0097】一方、第1分類手法入力受付部303は、
第1の分類手法の入力を受け付ける。
【0098】さらに、第1分類部304は、入力を受け
付けられた第1の分類手法により、蓄積された複数の文
書を複数の区分に分類する。
【0099】そして、第1表示部305は、分類された
複数の区分のそれぞれに属する文書の数を表示する。
【0100】図4は、第1分類手法入力受付部303に
対して分類手法「商品」を指定した場合に、第1表示部
305に表示される内容を示す図である。
【0101】分類手法「商品」を指定すると、第1分類
部304は、まず要素「商品」に該当する形態素列を有
する文書を検索する。
【0102】そして、第1表示部305は、要素「商
品」の形態素列の属性ごとに、文書の件数を表示する。
図4に示すように、形態素列の属性「コンピュータ」
「衣料・雑貨」「食料品」に対して、それぞれ17件、
23件、5件が表示されている。
【0103】なお、後述するように、要素の属性は、階
層構造をなしており、さらにこれらを細かく分類するこ
ともできる。
【0104】また、図中、マウス106を操作してクリ
ックしたり、キーボード105を操作して選択したりで
きるいわゆるハイパーリンクについては、[コンピュー
タ]などのように角括弧で囲んで表示する。以下の説明
図でも同様である。
【0105】一方、第2分類手法入力受付部306は、
第2の分類手法の入力を受け付ける。
【0106】さらに、第2分類部307は、第1の分類
手法により分類された複数の区分のそれぞれについて、
入力を受け付けられた第2の分類手法により、当該区分
に属する文書を複数のグループに分類する。
【0107】そして、第2表示部308は、分類された
複数の区分のそれぞれについて、分類された複数のグル
ープのそれぞれに属する文書の数を表示する。
【0108】第2表示部308は文書の数を行および列
を軸とする表形式で表示し、当該表形式の一方の軸は、
分類された複数の区分に対応付けられ、他方の軸は、分
類された複数のグループに対応付けられる。
【0109】上述したように、ユーザが第1の分類手法
として「商品」を、第2の分類手法として「価格」を、
それぞれ検索要素として選択した場合、当該「商品」に
属する「コンピュータ」「衣料・雑貨」「食料品」…の
それぞれについてその「価格」が「1万円以下」「1万
円〜2万円」「2万円〜3万円」「3万円以上」のもの
についてふれた文書を検索して、それぞれの文書の数を
ユーザに提示することができる。
【0110】図5は、このように分類手法(要素)とし
て「商品」と「価格」を指定した場合の第2表示部30
8の表示例を示す図である。
【0111】図5に示すように、表形式で文書の数が表
示されている。横軸(列)は「価格」の価格帯ごとに分
類され、縦軸(行)は「商品」の種類ごとに分類され
る。表のそれぞれの欄には、当該価格帯の当該種類の商
品に関連する文書の件数が表示されている。
【0112】さらに、本実施形態の文書分類装置301
は、区分グループ指定入力受付部311と、内容表示部
312と、をさらに備える。
【0113】すなわち、区分グループ指定入力受付部3
11は、第2表示部308に表示される文書の数からい
ずれかの区分およびいずれかのグループを指定する入力
を受け付ける。
【0114】たとえば、ユーザが、表のそれぞれの桝
(文書の件数が表示されている部分)をマウス106や
キーボード105を操作して選択することにより、ある
区分ならびにあるグループを選択する。
【0115】すると、内容表示部312は、指定する入
力を受け付けられた区分およびグループに属する文書の
内容を、文書蓄積部302から取得して表示する。
【0116】たとえば、ユーザが、表示された「商品」
は「コンピュータ」、「価格」は「2万〜3万」の文書
の数をクリックすると、その「商品」は「コンピュー
タ」、「価格」は「2万〜3万」の文書の内容が表示さ
れる。
【0117】なお、上記要約装置201の出力を用いれ
ば、当該文書の内容を要約して提示することができる。
図6に、このような内容表示部312に表示される文書
の要約表示の様子を示す。
【0118】図6に示すように、文書の要約表示では、
文書を識別する記事番号と、文書の内容を要約したタイ
トルと、が表示されている。ユーザが記事番号もしくは
タイトルを選択すると、当該文書の本文がさらに表示さ
れる。
【0119】なお、第2表示部308に表示される「商
品」をクリックすると、図4の表示に戻ることができ
る。また、「価格」をクリックすると、図4に相当する
価格による分類表示に戻ることができる。
【0120】このほか、文書分類装置301は、区分指
定入力受付部321と、第3分類部322と、第3表示
部323と、をさらに備える。
【0121】ここで、区分指定入力受付部321は、第
1表示部305に表示される文書の数からいずれかの区
分を指定する入力を受け付ける。
【0122】図4に示す例では、ユーザが「コンピュー
タ」を選択した場合は、区分として「コンピュータ」が
指定される。なお、「15件」を選択した場合は、当該
15件の要約表示がされる。
【0123】一方、第3分類部322は、指定する入力
を受け付けられた区分に属する文書を、当該区分に対し
てあらかじめ対応付けられた第3の分類手法により、複
数の小区分に分類する。
【0124】「コンピュータ」に対しては、さらに細か
い分類として、「ハード」「ソフト」…などがあり、1
5件の文書をさらに分類する。
【0125】さらに、第3表示部323は、分類された
複数の小区分のそれぞれに属する文書の数を表示する。
【0126】図7は、第3表示部323の表示例を示す
図である。
【0127】図7に示すように、細分類「ハード」「ソ
フト」…に対して、それぞれ「10件」「7件」…が表
示されている。これも上記と同じように、「ハード」
「ソフト」を選択すれば、(可能であれば)それをさら
に細かく分類して表示する一方、「10件」「7件」を
選択すれば、当該文書の要約表示を行う。
【0128】また、図7に示されている上位分類「商
品:コンピュータ」を選択すれば、上位分類の表示(図
4)に戻ることができる。
【0129】なお、文書分類装置301は、区分グルー
プ記憶部(図示せず。)をさらに備えることが望まし
い。
【0130】ここで、区分グループ記憶部は、文書蓄積
部302に蓄積される複数の文書のそれぞれが属する区
分およびグループをあらかじめ記憶する。
【0131】一方、第1分類部304、第2分類部30
7、第3分類部322は、あらかじめ記憶された文書の
区分およびグループにより、文書を複数の区分およびグ
ループに分類する。
【0132】このように、あらかじめインデックスや、
当該文書の要約結果を文書と対応付けて記憶しておくこ
とにより、検索結果を高速にユーザに提示することがで
きるようになる。
【0133】図8は、第1分類手法入力受付部303
と、第2分類手法入力受付部306と、が入力を受け付
けるための入力フォームの様子を示す図である。
【0134】ユーザは、[分類]を2種類入力して[実行]
を選択することにより、上記第2表示部308(図5)
に表示されるような検索結果を得ることができる。
【0135】[分類]を1種類のみ(片方は「なし」を指
定)入力して[実行]を選択すると、上記第1表示部30
5(図4)に表示されるような検索結果を得ることがで
きる。
【0136】
【発明の効果】以上説明したように、本発明によれば、
ユーザが望む要素を含む文書を、その要素の種類に応じ
て分類して提示するのに好適な文書分類装置、文書分類
方法、ならびに、これらをコンピュータ上に実現するプ
ログラムを提供することができる。
【図面の簡単な説明】
【図1】本発明の文書分類装置として機能する典型的な
情報処理装置の概要構成を示す模式図である。
【図2】本発明の文書分類装置において利用される要約
装置の概要構成を示す模式図である。
【図3】本発明の文書分類装置の実施形態の一つの概要
構成を示す模式図である。
【図4】第1表示部の表示例を示す図である。
【図5】第2表示部の表示例を示す図である。
【図6】内容表示部への文書の要約表示例を示す図であ
る。
【図7】第3表示部の表示例を示す図である。
【図8】第1分類手法入力受付部と、第2分類手法入力
受付部と、が入力を受け付けるための入力フォームの様
子を示す図である。
【符号の説明】
101 情報処理装置 102 CPU 103 ROM 104 ハードディスク 105 キーボード 106 マウス 107 RAM 108 表示装置 109 インターフェース 110 FDドライブ 111 CD−ROMドライブ 201 要約装置 202 形態素列入力受付部 203 要素記憶部 204 テンプレート記憶部 205 要素検索部 206 要約生成部 211 文入力受付部 212 形態素解析部 221 要約抽出部 231 指定入力受付部 232 出力部 241 属性入力受付部 301 文書分類装置 302 文書蓄積部 303 第1分類手法入力受付部 304 第1分類部 305 第1表示部 306 第2分類手法入力受付部 307 第2分類部 308 第2表示部 311 区分グループ指定入力受付部 312 内容表示部 321 区分指定入力受付部 322 第3分類部 323 第3表示部
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5B075 NR12 NS01 PP02 PP03 PP13 PQ02 PQ14 PQ40 PQ46 5E501 AA02 AC33 BA05 BA12 CA02 CB02 CB09 EA10 EB05 FA13 FA23 FA47 FB43

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】複数の文書を蓄積する文書蓄積部と、 第1の分類手法の入力を受け付ける第1分類手法入力受
    付部と、 前記入力を受け付けられた第1の分類手法により、前記
    蓄積された複数の文書を複数の区分に分類する第1分類
    部と、 前記分類された複数の区分のそれぞれに属する文書の数
    を表示する第1表示部と、 第2の分類手法の入力を受け付ける第2分類手法入力受
    付部と、 前記第1の分類手法により分類された複数の区分のそれ
    ぞれについて、前記入力を受け付けられた第2の分類手
    法により、当該区分に属する文書を複数のグループに分
    類する第2分類部と、 前記分類された複数の区分のそれぞれについて、前記分
    類された複数のグループのそれぞれに属する文書の数を
    表示する第2表示部と、を備えることを特徴とする文書
    分類装置。
  2. 【請求項2】前記第2表示部は文書の数を行および列を
    軸とする表形式で表示し、当該表形式の一方の軸は、前
    記分類された複数の区分に対応付けられ、他方の軸は、
    前記分類された複数のグループに対応付けられることを
    特徴とする請求項1に記載の文書分類装置。
  3. 【請求項3】前記第2表示部に表示される文書の数から
    いずれかの区分およびいずれかのグループを指定する入
    力を受け付ける区分グループ指定入力受付部と、 前記指定する入力を受け付けられた区分およびグループ
    に属する文書の内容を、前記文書蓄積部から取得して表
    示する内容表示部と、をさらに備えることを特徴とする
    請求項2に記載の文書分類装置。
  4. 【請求項4】前記第1表示部に表示される文書の数から
    いずれかの区分を指定する入力を受け付ける区分指定入
    力受付部と、 前記指定する入力を受け付けられた区分に属する文書
    を、当該区分に対してあらかじめ対応付けられた第3の
    分類手法により、複数の小区分に分類する第3分類部
    と、 前記分類された複数の小区分のそれぞれに属する文書の
    数を表示する第3表示部と、をさらに備えることを特徴
    とする請求項1から3のいずれか1項に記載の文書分類
    装置。
  5. 【請求項5】前記文書蓄積部に蓄積される複数の文書の
    それぞれが属する区分およびグループをあらかじめ記憶
    する区分グループ記憶部をさらに備え、 前記第1分類部および前記第2分類部は、前記あらかじ
    め記憶された文書の区分およびグループにより、文書を
    複数の区分およびグループに分類することを特徴とする
    請求項1から4のいずれか1項に記載の文書分類装置。
  6. 【請求項6】第1の分類手法の入力を受け付ける第1分
    類手法入力受付工程と、 前記入力を受け付けられた第1の分類手法により、「複
    数の文書を蓄積する文書蓄積部」に蓄積された複数の文
    書を複数の区分に分類する第1分類工程と、 前記分類された複数の区分のそれぞれに属する文書の数
    を表示する第1表示工程と、 第2の分類手法の入力を受け付ける第2分類手法入力受
    付工程と、 前記第1の分類手法により分類された複数の区分のそれ
    ぞれについて、前記入力を受け付けられた第2の分類手
    法により、当該区分に属する文書を複数のグループに分
    類する第2分類工程と、 前記分類された複数の区分のそれぞれについて、前記分
    類された複数のグループのそれぞれに属する文書の数を
    表示する第2表示工程と、を備えることを特徴とする文
    書分類方法。
  7. 【請求項7】コンピュータを、 複数の文書を蓄積する文書蓄積部、 第1の分類手法の入力を受け付ける第1分類手法入力受
    付部、 前記入力を受け付けられた第1の分類手法により、前記
    蓄積された複数の文書を複数の区分に分類する第1分類
    部、 前記分類された複数の区分のそれぞれに属する文書の数
    を表示する第1表示部、 第2の分類手法の入力を受け付ける第2分類手法入力受
    付部、 前記第1の分類手法により分類された複数の区分のそれ
    ぞれについて、前記入力を受け付けられた第2の分類手
    法により、当該区分に属する文書を複数のグループに分
    類する第2分類部、および、 前記分類された複数の区分のそれぞれについて、前記分
    類された複数のグループのそれぞれに属する文書の数を
    表示する第2表示部として機能させることを特徴とする
    プログラム。
JP2001088400A 2001-03-26 2001-03-26 文書分類装置、文書分類方法ならびに、プログラム Pending JP2002288220A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001088400A JP2002288220A (ja) 2001-03-26 2001-03-26 文書分類装置、文書分類方法ならびに、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001088400A JP2002288220A (ja) 2001-03-26 2001-03-26 文書分類装置、文書分類方法ならびに、プログラム

Publications (1)

Publication Number Publication Date
JP2002288220A true JP2002288220A (ja) 2002-10-04

Family

ID=18943500

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001088400A Pending JP2002288220A (ja) 2001-03-26 2001-03-26 文書分類装置、文書分類方法ならびに、プログラム

Country Status (1)

Country Link
JP (1) JP2002288220A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006343933A (ja) * 2005-06-08 2006-12-21 Sony Corp データ処理方法、電子機器およびプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09218878A (ja) * 1996-02-14 1997-08-19 Fuji Xerox Co Ltd 情報提示装置
JPH10260991A (ja) * 1997-01-14 1998-09-29 Seiko Epson Corp 情報検索方法および情報検索装置
JPH10320411A (ja) * 1997-05-21 1998-12-04 N Ii C Joho Syst:Kk 文書分類装置、方法及び文書分類プログラムを記録した記録媒体
JP2000348041A (ja) * 1999-06-03 2000-12-15 Nec Corp 文書検索方法及びその装置並びにプログラムを記録した機械読み取り可能な記録媒体
JP2001052013A (ja) * 1999-08-06 2001-02-23 Ricoh Co Ltd 文書処理装置、文書処理方法および文書処理プログラムを記録した媒体

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09218878A (ja) * 1996-02-14 1997-08-19 Fuji Xerox Co Ltd 情報提示装置
JPH10260991A (ja) * 1997-01-14 1998-09-29 Seiko Epson Corp 情報検索方法および情報検索装置
JPH10320411A (ja) * 1997-05-21 1998-12-04 N Ii C Joho Syst:Kk 文書分類装置、方法及び文書分類プログラムを記録した記録媒体
JP2000348041A (ja) * 1999-06-03 2000-12-15 Nec Corp 文書検索方法及びその装置並びにプログラムを記録した機械読み取り可能な記録媒体
JP2001052013A (ja) * 1999-08-06 2001-02-23 Ricoh Co Ltd 文書処理装置、文書処理方法および文書処理プログラムを記録した媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006343933A (ja) * 2005-06-08 2006-12-21 Sony Corp データ処理方法、電子機器およびプログラム

Similar Documents

Publication Publication Date Title
US7783644B1 (en) Query-independent entity importance in books
US9323827B2 (en) Identifying key terms related to similar passages
US5729730A (en) Method and apparatus for improved information storage and retrieval system
JP4583003B2 (ja) 検索処理方法及びプログラム
US20090070321A1 (en) User search interface
US20110276562A1 (en) Visualizing site structure and enabling site navigation for a search result or linked page
US8983965B2 (en) Document rating calculation system, document rating calculation method and program
US8874590B2 (en) Apparatus and method for supporting keyword input
JPH09101990A (ja) 情報フィルタリング装置
US20100005383A1 (en) Data Storage Using Spreadsheet and Metatags
US6757676B1 (en) Text mining method and apparatus allowing a user to analyze contents of a document set from plural analysis axes
US20100211562A1 (en) Multi-part record searches
JP2005128872A (ja) 文書検索システム及び文書検索プログラム
JP2002288220A (ja) 文書分類装置、文書分類方法ならびに、プログラム
JP2002123544A (ja) 検索前処理装置、文書検索装置、検索前処理方法及び文書検索方法
JPH11154164A (ja) 全文検索処理における適合度算出方法および該方法に係るプログラムを格納した記憶媒体
JP2002189744A (ja) Webページ検索システム
JP2004157965A (ja) 検索支援装置、検索支援方法、プログラムおよび記録媒体
EP2026216A1 (en) Data processing method, computer program product and data processing system
JP2000231569A (ja) インターネット情報検索装置、インターネット情報検索方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH10162011A (ja) 情報検索方法、情報検索システム、情報検索端末装置および情報検索装置
JP2003316807A (ja) 情報検索装置及び情報検索ソフトウェアを格納した記憶媒体
JP2004030021A (ja) 文書処理装置および方法
JP2002288221A (ja) 文書表示装置、文書表示方法ならびに、プログラム
JP3924894B2 (ja) 文書検索装置および文書検索方法ならびに記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080229

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20091202

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100730

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100810

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110111