JP2001052013A - 文書処理装置、文書処理方法および文書処理プログラムを記録した媒体 - Google Patents

文書処理装置、文書処理方法および文書処理プログラムを記録した媒体

Info

Publication number
JP2001052013A
JP2001052013A JP11224586A JP22458699A JP2001052013A JP 2001052013 A JP2001052013 A JP 2001052013A JP 11224586 A JP11224586 A JP 11224586A JP 22458699 A JP22458699 A JP 22458699A JP 2001052013 A JP2001052013 A JP 2001052013A
Authority
JP
Japan
Prior art keywords
processing
document
display
document record
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11224586A
Other languages
English (en)
Inventor
Atsuo Shimada
敦夫 嶋田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP11224586A priority Critical patent/JP2001052013A/ja
Publication of JP2001052013A publication Critical patent/JP2001052013A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 文書をデータとした情報分析作業において、
単に文書の分類や検索の処理を行い、その結果を出力す
るだけではなく、情報分析作業全般にわたる作業支援を
提供する。 【解決手段】 文書レコードを複数保持する文書レコー
ド保持手段2と、利用者からの操作入力または文書レコ
ードを入力させる入力手段1と、文書レコードの一部ま
たは全体を選択する選択手段3と、特徴を抽出する特徴
抽出手段4と、該特徴抽出手段4に抽出されたデータを
用いて処理を行う処理手段5と、該処理手段5の処理結
果を表形式で表示する表示手段6と、表示手段6が表示
する表形式の列方向または行方向の表示数を処理手段5
の処理により変更する表示変更手段7と、を備えること
により、利用者入力により分類後のデータを集計して分
析を容易にする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書処理システム
に係り、特に表形式を用いた文書処理装置に関する。
【0002】
【従来の技術】従来、文書を分類するための装置や文書
を検索するための装置が開発され、使用されている。
【0003】例えば、特開平7−114572号公報に
記載されている文書分類装置は、文書から自動的に単語
の特徴ベクトルを抽出し、その特徴ベクトルをもとに文
書を分類することで、意味的な異なりを用いた自動分類
を可能にしている。
【0004】
【発明が解決しようとする課題】しかしながら、上記の
ような従来の文書分類装置にあっては、単に文書を分類
する、あるいは検索する機能を有するのみで、その結果
を用いて更なる分析を行い文書群に内在する隠れた情報
やそのパターンの解析を行うことについては考慮されて
いなかった。
【0005】情報分析を行う者が、分類作業や検索作業
を行うのは、これらの作業の結果が目的なのではなく、
その結果は情報分析作業の中間的過程に過ぎない。その
後、更に結果を把握しやすくするために、もとの文書に
含まれる情報を最大限に活用し、結果の並べ替えを行う
情報を何らかの形式にコード化し集計、統計処理を施す
表の形式にまとめるグラフを描く
【0006】というような様々な処理を繰り返し行い、
意味のある情報分析結果を導き出すために分類を行うも
のである。
【0007】数値データを対象とする情報の分析作業に
おいては、表計算ソフトウェアが用いられる場合がある
が、表計算ソフトウェアは元来数値データの取り扱いを
意図して開発されたものであり、文字データ、特にテキ
ストやその意味にかかわるようなデータを対象とした情
報分析作業では十分な効果を奏することはできない。
【0008】さらには、近年のネットワーク技術の普及
により国内外の大量の電子化文書へのアクセスが容易に
なり、膨大な文書情報を扱えるようになった。しかし、
表形式の表示装置にこうした数千〜数百万に及ぶ膨大な
文書情報を表示させても、その全貌を分析者が把握する
ことはできない。
【0009】そこで本発明は、特に文書をデータとした
情報分析作業において、単に文書の分類や検索の処理を
行い、その結果を出力するのではなく、情報分析作業全
般にわたる支援を提供するものである。
【0010】
【課題を解決するための手段】請求項1記載の発明は、
上記課題を解決するため、テキストデータまたはテキス
トデータと属性情報からなる文書レコードを複数保持す
る文書レコード保持手段と、利用者からの操作入力また
は文書レコードを入力させる入力手段と、該入力手段に
入力された操作入力により、前記文書レコード保持手段
に保持された文書レコードの一部または全体を選択する
選択手段と、該選択手段に選択された文書レコードのテ
キストまたは属性情報から特徴を抽出する特徴抽出手段
と、該特徴抽出手段に抽出されたデータを用いて処理を
行う処理手段と、該処理手段の処理結果を表形式で表示
する表示手段と、を備えた文書処理装置において、
【0011】前記入力手段に入力された操作入力によ
り、前記表示手段が表示する表形式の列方向または行方
向の表示数を前記処理手段の処理により変更する表示変
更手段を備えたことを特徴とするものである。
【0012】請求項2記載の発明は、上記課題を解決す
るため、テキストデータまたはテキストデータと属性情
報からなる文書レコードを複数保持する文書レコード保
持手段と、利用者からの操作入力または文書レコードを
入力させる入力手段と、該入力手段に入力された操作入
力により、前記文書レコード保持手段に保持された文書
レコードの一部または全体を選択する選択手段と、該選
択手段に選択された文書レコードのテキストまたは属性
情報から特徴を抽出する特徴抽出手段と、該特徴抽出手
段に抽出されたデータを用いて処理を行う処理手段と、
該処理手段の処理結果を表形式で表示する表示手段と、
を備えた文書処理装置において、
【0013】前記入力手段に入力された操作入力によ
り、前記表示手段が表示する表形式の列方向および行方
向の表示数を前記処理手段の処理により変更する表示変
更手段を備えたことを特徴とするものである。
【0014】請求項3記載の発明は、上記課題を解決す
るため、請求項1または2記載の文書処理装置におい
て、前記表示変更手段が複数の表示セルをまとめて表示
させるとき、前記入力手段に入力された操作入力によ
り、まとめられた表示セルに対応づけられる値を算出す
る表示代表値算出手段と、該表示代表値算出手段に算出
された値を、まとめられた表示セルに表示する表示内容
変更手段と、を備えることを特徴とするものである。
【0015】請求項4記載の発明は、上記課題を解決す
るため、請求項1〜3のいずれか1項に記載の文書処理
装置において、前記文書レコード保持手段が、前記処理
手段に処理されたデータを保持することを特徴とするも
のである。
【0016】請求項5記載の発明は、上記課題を解決す
るため、請求項1〜4のいずれか1項に記載の文書処理
装置において、前記文書レコード保持手段が、前記処理
手段が処理するための設定値を保持することを特徴とす
るものである。
【0017】請求項6記載の発明は、上記課題を解決す
るため、テキストデータまたはテキストデータと属性情
報からなる文書レコードを複数保持する文書レコード保
持工程と、利用者からの操作入力または文書レコードを
入力させる入力工程と、該入力工程により入力された操
作入力により、前記文書レコード保持工程において保持
された文書レコードの一部または全体を選択する選択工
程と、該選択工程において選択された文書レコードのテ
キストまたは属性情報から特徴を抽出する特徴抽出工程
と、該特徴抽出工程において抽出されたデータを用いて
処理を行う処理工程と、該処理工程の処理結果を表形式
で表示する表示工程と、を備えた文書処理方法におい
て、
【0018】前記入力工程において入力された操作入力
により、前記表示工程が表示する表形式の列方向または
行方向の表示数を前記処理工程の処理により変更する表
示変更工程を備えたことを特徴とするものである。
【0019】請求項7記載の発明は、上記課題を解決す
るため、テキストデータまたはテキストデータと属性情
報からなる文書レコードを複数保持する文書レコード保
持工程と、利用者からの操作入力または文書レコードを
入力させる入力工程と、該入力工程により入力された操
作入力により、前記文書レコード保持工程において保持
された文書レコードの一部または全体を選択する選択工
程と、該選択工程において選択された文書レコードのテ
キストまたは属性情報から特徴を抽出する特徴抽出工程
と、該特徴抽出工程において抽出されたデータを用いて
処理を行う処理工程と、該処理工程の処理結果を表形式
で表示する表示工程と、を備えた文書処理方法におい
て、
【0020】前記入力工程において入力された操作入力
により、前記表示工程が表示する表形式の列方向および
行方向の表示数を前記処理工程の処理により変更する表
示変更工程を備えたことを特徴とするものである。
【0021】請求項8記載の発明は、上記課題を解決す
るため、請求項6または7記載の文書処理方法におい
て、前記表示変更工程において複数の表示セルをまとめ
て表示させるとき、前記入力工程で入力された操作入力
により、まとめられた表示セルに対応づけられる値を算
出する表示代表値算出工程と、該表示代表値算出工程に
おいて算出された値を、まとめられた表示セルに表示す
る表示内容変更工程と、を備えることを特徴とするもの
である。
【0022】請求項9記載の発明は、上記課題を解決す
るため、請求項6〜8のいずれか1項に記載の文書処理
方法において、前記文書レコード保持工程が、前記処理
工程で処理されたデータを保持することを特徴とするも
のである。
【0023】請求項10記載の発明は、上記課題を解決
するため、請求項6〜9のいずれか1項に記載の文書処
理方法において、前記文書レコード保持工程が、前記処
理工程で処理するための設定値を保持することを特徴と
するものである。
【0024】請求項11記載の発明は、上記課題を解決
するため、テキストデータまたはテキストデータと属性
情報からなる文書レコードを複数保持する文書レコード
保持工程と、利用者からの操作入力または文書レコード
を入力させる入力工程と、該入力工程により入力された
操作入力により、前記文書レコード保持工程において保
持された文書レコードの一部または全体を選択する選択
工程と、該選択工程において選択された文書レコードの
テキストまたは属性情報から特徴を抽出する特徴抽出工
程と、該特徴抽出工程において抽出されたデータを用い
て処理を行う処理工程と、該処理工程の処理結果を表形
式で表示する表示工程と、を備えた文書処理プログラム
を記憶した媒体において、
【0025】前記入力工程において入力された操作入力
により、前記表示工程が表示する表形式の列方向または
行方向の表示数を前記処理工程の処理により変更する表
示変更工程を備えたことを特徴とするものである。
【0026】
【発明の実施の形態】以下、本発明の実施の形態につい
て添付図面を参照しつつ説明する。
【0027】まず第1実施例を説明する。全体の構成を
図1に示す。それぞれの構成手段はバスを介して接続さ
れており、必要に応じておのおのの間で文書データや、
制御情報のやりとりが可能なように構成されている。
【0028】入力手段1は、文書データ(文書レコー
ド)の入力や、利用者の操作入力、装置の動作に必要な
設定などを受け入れるものであり、例えばキーボード、
マウス、通信インタフェースなどで構成されている。ま
た、上記以外に文書レコードを取得することができるも
のであれば、それらをすべて含む。
【0029】ここで、文書レコードとは、文字、文字
列、数値から構成されており、それらの意味があるまと
まりを1レコードとする。また、複数の文書レコードの
集まりを以下文書群と呼ぶ。
【0030】文書レコードは、テキストと0個以上の属
性情報とから構成されている。属性情報は、属性名と属
性値とから構成されている。属性名は属性の内容を表す
ラベルであり、文書レコードに含まれていても、含まれ
ていなくとも良い。属性値は属性の実際の内容である。
例えば、1つの特許情報は1つの文書レコードであり、
下記は文書レコードに含まれる属性情報(属性名と属性
値)の例である。
【0031】 (文書レコード) 属性名 属性値 出願番号 特願平10-00000 出願日 平成10年1月1日 請求項の数 11 発明の名称 文書処理装置 発明の効果 本発明は、単に文書分類や文書検索の結果を表示する・・・・・・ 請求項 テキストを入力する入力手段と・・・・・・・
【0032】入力手段1によって取得した文書レコード
あるいは文書群は、それぞれの文書レコードに一意な文
書IDを付与し、文書レコード保持手段2に蓄えられ
る。図2は、文書レコード保持手段2のデータ構造の例
である。各属性名あるいは属性値は、記憶装置のセルと
呼ばれる記憶単位に収納される。
【0033】この例では、1つのセルは3つの記憶領域
から構成されており、最初の記憶領域には、次のセルの
記憶位置(番地)が記憶され、2番目の記憶領域には、
セルの形式(属性値)が記録されている(形式の例は図
2参照)。3番目の記憶領域には、セルの実際の内容、
すなわち属性名あるいは属性値などが格納される領域の
先頭位置が記録されている。
【0034】セルの順序の並び替えや、セルの追加・削
除は、第1番目の記憶領域に記録された次のセルの位置
を変更することにより、容易に実現することができる。
また、セルの実際の内容は、セルの構造とは異なる別の
領域に記録されているので、例えば属性値を変更した結
果、予め確保した領域では収まりきれなくなった場合に
は、セルの構造自体には影響がなく、別途大きな領域を
確保してそこに項目値を記録し、第3番目に記録された
記憶領域の先頭位置を変更すれば済む。
【0035】文書レコード保持手段2に蓄えられた文書
レコードあるいは文書群は、表示手段6により表示され
る。本実施例では、表示手段6はCRTディスプレイ、
液晶ディスプレイなどから構成されている。表示手段6
は、文書レコード保持手段2に蓄えられた文書レコード
あるいは文書群の内容を、セルを順次たどって読み出
し、表形式で表示する。図3は表示の例である。
【0036】表示手段6は、入力手段1での操作に関連
する表示、例えば操作メニューやマウスポインタ、カー
ソルの表示なども行う。
【0037】選択手段3は、入力手段1での利用者の指
示により、表示手段6の表示上で選択された領域のデー
タを文書レコード保持手段2から読み出し、特徴抽出手
段4へ送る。選択する領域は図4のように画面上の列の
一部であってもよいし、また、図5のように属性名を選
択した場合には、その属性名に属する属性値すべてが選
択されることもある。
【0038】選択手段3によって選択された属性値につ
いて、特徴抽出手段4によってその属性値の特徴を抽出
する処理を行う。この抽出処理には、例えば、
【0039】(属性値がテキストである場合) ・対象とするテキストに含まれる単語 ・対象とするテキストに含まれる予め定義された特定の
属性を持つ単語 ・・ 企業名(あるいは組織名) ・・ 商品名 ・・ 人名 ・・ 地名 ・・ 金額 ・・ 日時 ・・ 量・長さなどの数値 ・対象とするテキストに含まれる単語数 ・対象とするテキストに含まれる単語の文字数 ・対象とするテキストに含まれる単語それぞれの出現回
数 ・対象とするテキストに含まれる単語それぞれの品詞 ・対象とするテキストに含まれる単語間の関係の情報 ・対象とするテキストに含まれる文の数 ・対象とするテキストに含まれる文の文字数
【0040】などがある。これらの特徴抽出処理は、規
則音声合成機や自動翻訳機に用いられている形態素解析
技術、構文解析技術、情報抽出技術(例えば西野、落
合:新聞記事からの人物・企業情報の抽出, 情処研報.
NL127-17, pp125-132, 1998)などの自然言語処理技術
で容易に実現が可能である。
【0041】また、属性値が数値やコードの場合には、
抽出処理が不要なケースが多い。しかし、例えば次のよ
うな際には、特徴を抽出する処理が必要になる。
【0042】(属性値が数値やコードである場合) ・金額や量・長さなど単位を持つ情報から予め定めた基
準単位系への変換が必要な場合 ($100 → 12000円) (1000g → 1kg) (99/3/31 → 1999年3月31日) ・連続的な数値を離散的な量に変換(量子化)する場合 (2.335 → 2.000) (3.000 → 3.000) (8.442 → 8.000) (2.105 → 2.000) (3.316 → 3.000)
【0043】などがある。これらの特徴抽出処理は、予
め換算表など用意したり、入力手段1から指示される離
散的な量に変換する際の幅の指定を行ったりすることで
実現することができる。
【0044】特徴抽出手段4によって抽出された特徴量
に対し、処理手段5によって処理を施す。ここでの処理
には、 ・テキストの分類 ・コードや量子化された数値による分類 ・テキストの検索 ・並べ替え処理 ・代表値算出処理 ・算術処理 ・最大値抽出処理 ・最小値抽出処理 などがある。
【0045】これら特徴抽出手段4での抽出処理と、処
理手段5の処理内容の組み合わせは、おのおの利用者が
選択できるようにすることも可能であるし、効果の高い
組み合わせを予め定めて提供するようにしても良い。処
理手段5での処理結果は、処理手段5内の処理結果保持
手段に保持される。また特別な処理を行わない場合に
は、特徴抽出手段4による出力をそのまま処理結果保持
手段に保持しても良い。
【0046】ここで、特徴抽出手段4の出力する特徴量
に、属性値に含まれる単語それぞれの出現回数を、また
処理手段5での処理に分類処理を用いた例について説明
する。一般に2つの文があり、それら2つの文の単語の
出現頻度が等しい場合、2つの文の意味は似通っている
と考えて良い。すなわち、ある文での単語の出現回数
は、その文の意味に関係の深い特徴量であると考えるこ
とができる。従って、単語の出現回数を特徴量として、
複数の文を分類した場合、それぞれの分類カテゴリには
意味の近い文が所属すると考えることができる。
【0047】選択手段3により取り出された1つあるい
は複数の属性値は、特徴抽出手段4内の解析手段によっ
て属性値毎に形態素解析などの自然言語解析を行い、単
語に分割される。また、それぞれの単語には、その単語
の品詞情報も付与される。出現した単語のうち、名詞で
あるものに対して一意な単語IDを付与し、1つの属性
値および特徴抽出手段4によって取り出された全ての属
性値に対する単語IDごとの出現回数を計数する。
【0048】特徴ベクトル生成手段は、解析手段によっ
て得られた解析情報、すなわち単語の出現回数に基づ
き、個々の項目値の特徴を示す項目値特徴ベクトルを生
成する。
【0049】例えば、選択手段3によって選択された属
性値が、 ・ 騒音が大きい ・ 塗装が変色する ・ オーバーヒートが起こる ・ 塗装がはげる ・ バッテリーが上がる ・ 排気が黒い
【0050】であった場合、各属性値の特徴ベクトルは
次のようになる。 ・ 騒音が大きい {1,1,1,0,0,0,0,0,0,0,0,0,0} ・ 塗装が変色する {0,1,0,1,1,1,0,0,0,0,0,0,0} ・ オーバーヒートが起こる {0,1,0,0,0,0,1,1,0,0,0,0,0} ・ 塗装がはげる {0,1,0,1,0,0,0,0,1,0,0,0,0} ・ バッテリーが上がる {0,1,0,0,0,0,0,0,0,1,1,0,0} ・ 排気が黒い {0,1,0,0,0,0,0,0,0,0,0,1,1}
【0051】この属性値特徴ベクトルは、特徴抽出手段
4の出力として、処理手段5に送られる。
【0052】処理手段5では、属性値特徴ベクトルを用
いて、分類処理を行う。まず、おのおののベクトル間の
距離を求める。距離の尺度には、例えば内積を用いるこ
とができる。この他に余弦やユークリッド距離、マハラ
ノビスの距離などを利用することができる。距離を計算
した後、距離の近いものをまとめる処理を行う。この処
理には、例えばベクトルの集合をその距離に応じてK個
のベクトルの集合に分類するK-means法(非階層クラス
タリングの1手法)を用いることができる。この他に、
カイ自乗法、判別分析、階層型クラスタリングなどの手
法が分類アルゴリズムとして公知である。本発明は、そ
れぞれの属性ベクトルがどの分類に属するかが計算でき
ればそれらすべてを採用することができる。
【0053】それぞれのベクトルの分類が完了したら、
ベクトルに対応する項目値に対しどの分類に属するかの
番号(クラスタ番号)と、属性値に対応する文書IDを
付与し、処理手段5の出力とする。
【0054】次に、特徴抽出手段4の出力する特徴量
に、予め定義された特定の属性を持つ単語を用いた例に
ついて説明する。ここでは、その特定属性を持つ単語と
して、企業名、商品名と価格を考えることにする。
【0055】例えば、選択手段3によって選択された属
性値が、
【0056】1. A社(東京都・○○○○社長)は、
9日、V6-2000ccの中型セダンSD-Vを発売した。価格は3
24万円。新型のシャーシ開発により静粛性と安定走行が
強化された。
【0057】2. B社(大阪府・△△△△社長)は、
22日、DOHCスポーツクーペNX-R2000を発売した。エン
ジンは2000ccで9000回転まで回る。馬力は280馬力。今
月よりB社ディーラーにより販売を開始し、価格は485
万円であった場合、各属性値の特徴は次のようになる。
【0058】
【0059】こうした属性値の抽出には、大規模な辞書
に頼った形態素解析をベースにしたボトムアップ解析の
他、特定の事象(今回は発売アナウンス)毎にヒューリ
スティックス(規則)を用いる方法がある。本発明はそ
のどちらでも利用可能であるが、ヒューリスティックス
法による説明を行う。選択手段3によって選択される文
書レコードが、新製品発売の新聞記事であった場合、以
下のような規則を考えることができる。例えば、文末に
「発売する」という表現が含まれる新聞記事は、新製品
の発売に関する記事と認定することができる。この「発
売する」という文に注目すると、その文の主語は企業名
が出現することが多く、この規則により企業名を抽出す
ることができる。また「発売する」を含む文の目的語は
商品名であるという規則を用いることにより、商品名を
抽出することができる。また新製品発売の記事におい
て、末尾に円やドルなどの数詞を伴う数字は、その製品
の価格であると認定することができ、これにより価格も
抽出することができる。
【0060】以上のような特徴抽出手段4、処理手段5
による処理結果は、処理結果保持手段に保持され表示手
段6により出力することもできる。
【0061】表示手段6に出力された内容は、入力手段
1からの利用者指示にもとづき表示変更手段7によって
その表現形式を変更する。表現形式の変更は、行もしく
は列の縮小(shrink)か拡張(expand)かであって、利
用者が、表示出力から列ないしは行、あるいはその一部
を入力手段1を介して選択することで実行される。図6
は、その動作例である。
【0062】この例は、自家用車のクレーム情報に関す
る文書レコードが示されている。各属性名の受付日、営
業所は属性情報であり、内容に対応するのがテキスト部
分である。また、車種・年式は、前記特徴抽出手段4に
より予め定義された特定の属性を持つ単語を抽出したも
のである。
【0063】表示手段6の出力結果が図6の上図の場
合、利用者から属性名「クラスタ」が選択されると、表
示変更手段7は、その属性値毎にまとめた形式(図6の
下図)に表示内容を縮小させる。一方、出力結果が図6
の下図の場合、利用者から属性名が選択されると表示変
更手段7は、図6の上図のように表示内容を拡張する。
【0064】なお、表示内容を縮小させた際に、表示の
各セルには、例えば該当するクラスタに属する文書レコ
ードのうち、「番号」の一番若いものが代表値として表
示されている。どの文書レコードを代表値として表示さ
せるかについては、入力手段1から利用者により属性名
を選択させることで、指定させても良い。
【0065】次に、第2実施例の表示および操作の例に
ついて説明する。
【0066】表示手段6により出力された表形式表示か
ら、入力手段1により属性名を2つ選択した場合、本発
明は、クロス集計表を作成することができる。
【0067】最初に1つの属性名が選択されると、第1
実施例の動作例にしたがって表示変更手段7により、列
か行の一方を縮小した表示を出力する。
【0068】縮小した表形式表示が出力されている段階
で、もう1つの属性名が入力手段1により選択される
と、選択された属性名の下(例では列頭に属性名があ
る)もしくは左側に、属性値の並びがまとまり毎に表示
され、縮小されていない側の行か列に対する縮小の表示
出力をする。図7では、まずクラスタが選択され、次い
で車種が選択された場合の行・列の縮小例を示してあ
る。行・列の拡張は、第1実施例に記載の例のように、
再び当該の属性名を選択することで実行される。
【0069】図7では、各セルに属する文書レコード数
が表示されている。なお、どのような代表値が良いかは
利用者により入力手段1を介して選択させることができ
る。なお、クロス表の最右列および最下行には、該当す
る行・列の合計が表示される。
【0070】次に構成を説明する。
【0071】第1実施例に対して、表示変更手段7が異
なる。
【0072】第1実施例の表示変更手段7は、行・列の
どちらか一方の選択により、変更した表示出力を行う
が、この第2実施例の表示変更手段7は、行・列のどち
らか一方の縮小に加えて、もう一方の縮小を行うことが
できる。
【0073】利用者がクロス表のもう1つの軸として選
択した行あるいは列方向の属性名に対して、文書レコー
ド保持手段2に蓄えられたデータから、属性値を順次読
み出し、属性値選定手段によって重複のない属性値の集
合を作成する。集計手段は、表保持手段から構成され、
表保持手段は、実際に表示する表に対応した記憶領域を
持つ記憶装置である。
【0074】まず、集計に先立ち、表保持内容の初期化
を行う。表の属性名に相当する部分に属性値選定手段に
よって作成された属性値を、先に選択され縮小されたセ
ルに相当する部分に属性値を表す文字列を入れる。表の
内容部分は0で初期化する。
【0075】表保持手段に保持された属性値に対応する
文書IDについて、それぞれ文書レコード保持手段2か
ら対応する文書レコードを参照し、その軸属性名に対応
する属性値を求める。次に集計手段の対応する領域の内
容に1を加算する。この処理を処理手段5に保持された
全ての属性値に対して行う。
【0076】最後に、最右列と、最下行に表示する合計
を計算する。
【0077】このようにして表保持手段に構成された表
を、順次読み出し出力する。
【0078】次に第3実施例を説明する。第2実施例に
対して、表示代表値選択手段と、表示代表値算出手段と
が付加される。表示代表値選択手段は、入力手段1に付
加され、クロス表の各セルに表示する内容を利用者に選
択させる。選択されるものは、クロス表の各セルに所属
する文書レコードを代表する値であれば何でも良い。そ
れらには、例えば、
【0079】(文書レコード単位の代表値) ・所属する文書レコード数 ・その百分率
【0080】(入力手段1からの属性名の指示による代
表値) ・その属性名の属性値の平均 ・その属性名の属性値の最頻値 ・その属性名の属性値の中央値 ・その属性名の属性値の最大値・最小値 ・その属性名についての、何らかの基準により選択され
た1つ以上の属性値
【0081】:1つ以上ある際は、セル毎に属性値のリ
スト表示を行う のようなものがある。
【0082】利用者からの選択に従って、表示代表値算
出手段は上述の計算を以下のように行う。まず、第2実
施例のように表の作成、表の初期化を行ったのち、表示
代表値算出手段は、文書レコード保持手段2に保持され
る軸属性名に対応する属性値を求める。次いで、それら
に対して上記代表値の算出を行う。
【0083】なお、表示代表値算出手段により算出され
た値は、数値、コード、テキスト、グラフィックの形式
で表示変更手段7に出力され、表示手段6により表形式
に出力される。なお、ここでグラフィック形式とは、算
出された代表値が数値の際に有効な出力で、その量に応
じて面積や長さが規定されるチャートの出力で、表示手
段6により各セルに出力される。
【0084】次に、第4実施例では、第1実施例に加
え、処理手段5の出力が、文書レコード保持手段2に送
られ、他のデータと共に保持されるよう構成されてい
る。文書レコード保持手段2に保持された処理手段5の
出力は、表示手段6によって、表の新たな列のように表
示される。あるいは、既存の列の内容を消し、そこへ上
書きしても良い。処理の結果である処理手段5の出力
は、文書レコード保持手段2において、今回の処理の対
象にならなかった他のデータと対等に取り扱われるの
で、その後の分析作業で、もともとの入力データに存在
していたか、分析作業の途中で処理によって生成された
かの区別なく、処理の対象として選択することができ
る。したがって、データの性質や、行いたい情報分析作
業の内容に応じて、柔軟に処理対象と処理内容を選択し
て処理を行うことができ、多彩で高度な情報分析作業が
可能となるのである。
【0085】第5実施例では、文書レコード保持手段2
は、本文書処理装置の動作に必要な設定値をも保持する
よう構成されている。この保持された設定値は、文書の
情報と共に、磁気ディスク等の補助記憶装置上のファイ
ルなどの形態で保存することができる。また、通信によ
り遠隔地へ伝送することもできる。保存された設定値
は、後に文書を文書処理装置で再度読み込んだ時に同時
に読み込まれ、文書レコード保持手段2に格納される。
この設定値は利用者の操作によって参照したり、以後の
処理の際に再利用することができる。これにより、設定
値情報を文書と共に保存・管理することが可能となるの
で、設定値情報の紛失を防ぎ、好適な設定値を後に再利
用することが可能になる。
【0086】
【発明の効果】請求項1、6および11記載の発明によ
れば、テキストおよび属性情報を対応づけて表形式に表
示し、さらに表の行もしくは列を縮小させ代表値を対応
するセルに表示させるので、膨大な文書レコード情報の
比較・把握が容易になる。また、縮小させた行ないしは
列を拡張させるので、そのテキストあるいは属性情報を
個別に吟味することができ、より詳しい情報分析ができ
る。
【0087】請求項2および7記載の発明によれば、テ
キストおよび属性情報を対応づけて表形式に表示し、
行、列ともに収縮または拡張させることができるので、
様々な角度から検討でき、テキストあるいは属性情報間
の関連を容易に把握することができる。
【0088】請求項3および8記載の発明によれば、縮
小させた列または行の各セルに表示させるオブジェクト
が選択できるため、分析目的にあるいはデータに適した
表示を行うことができ、より正確な情報の把握を行うこ
とができる。
【0089】請求項4および9記載の発明によれば、文
書処理後のデータが文書レコード保持手段に保持される
ので、文書処理後に他のデータとの対応に扱うことがで
き、文書処理後さらに別の処理を施すことができ、多彩
な分析作業を行うことができる。
【0090】請求項5および10記載の発明によれば、
文書処理時の設定値情報を保持・管理できるので、同種
のデータを持つ他者へ分析方法を伝達することができる
とともに設定値の確認・変更ができ、同種のデータに対
する分析の効率化を計ることができる。
【図面の簡単な説明】
【図1】本発明に係る文書分類装置の一実施例を示す全
体構成概念図である。
【図2】文書レコード保持のデータ構造図である。
【図3】表形式で表示手段が表示する文書レコード、文
書群を示す図である。
【図4】表示された文書レコードから利用者指示により
選択された範囲を示す図である。
【図5】表示された文書レコードから利用者指示により
選択された範囲を示す図である。
【図6】利用者指示により行を拡張および縮小した表を
示す図である。
【図7】利用者指示により行および列を縮小した表を示
す図である。
【符号の説明】
1 入力手段 2 文書レコード保持手段 3 選択手段 4 特徴抽出手段 5 処理手段 6 表示手段 7 表示変更手段

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】テキストデータまたはテキストデータと属
    性情報からなる文書レコードを複数保持する文書レコー
    ド保持手段と、 利用者からの操作入力または文書レコードを入力させる
    入力手段と、 該入力手段に入力された操作入力により、前記文書レコ
    ード保持手段に保持された文書レコードの一部または全
    体を選択する選択手段と、 該選択手段に選択された文書レコードのテキストまたは
    属性情報から特徴を抽出する特徴抽出手段と、 該特徴抽出手段に抽出されたデータを用いて処理を行う
    処理手段と、 該処理手段の処理結果を表形式で表示する表示手段と、 を備えた文書処理装置において、 前記入力手段に入力された操作入力により、前記表示手
    段が表示する表形式の列方向または行方向の表示数を前
    記処理手段の処理により変更する表示変更手段を備えた
    ことを特徴とする文書処理装置。
  2. 【請求項2】テキストデータまたはテキストデータと属
    性情報からなる文書レコードを複数保持する文書レコー
    ド保持手段と、 利用者からの操作入力または文書レコードを入力させる
    入力手段と、 該入力手段に入力された操作入力により、前記文書レコ
    ード保持手段に保持された文書レコードの一部または全
    体を選択する選択手段と、 該選択手段に選択された文書レコードのテキストまたは
    属性情報から特徴を抽出する特徴抽出手段と、 該特徴抽出手段に抽出されたデータを用いて処理を行う
    処理手段と、 該処理手段の処理結果を表形式で表示する表示手段と、 を備えた文書処理装置において、 前記入力手段に入力された操作入力により、前記表示手
    段が表示する表形式の列方向および行方向の表示数を前
    記処理手段の処理により変更する表示変更手段を備えた
    ことを特徴とする文書処理装置。
  3. 【請求項3】請求項1または2記載の文書処理装置にお
    いて、 前記表示変更手段が複数の表示セルをまとめて表示させ
    るとき、前記入力手段に入力された操作入力により、ま
    とめられた表示セルに対応づけられる値を算出する表示
    代表値算出手段と、 該表示代表値算出手段に算出された値を、まとめられた
    表示セルに表示する表示内容変更手段と、 を備えることを特徴とする文書処理装置。
  4. 【請求項4】請求項1〜3のいずれか1項に記載の文書
    処理装置において、 前記文書レコード保持手段が、前記処理手段に処理され
    たデータを保持することを特徴とする文書処理装置。
  5. 【請求項5】請求項1〜4のいずれか1項に記載の文書
    処理装置において、 前記文書レコード保持手段が、前記処理手段が処理する
    ための設定値を保持することを特徴とする文書処理装
    置。
  6. 【請求項6】テキストデータまたはテキストデータと属
    性情報からなる文書レコードを複数保持する文書レコー
    ド保持工程と、 利用者からの操作入力または文書レコードを入力させる
    入力工程と、 該入力工程により入力された操作入力により、前記文書
    レコード保持工程において保持された文書レコードの一
    部または全体を選択する選択工程と、 該選択工程において選択された文書レコードのテキスト
    または属性情報から特徴を抽出する特徴抽出工程と、 該特徴抽出工程において抽出されたデータを用いて処理
    を行う処理工程と、 該処理工程の処理結果を表形式で表示する表示工程と、 を備えた文書処理方法において、 前記入力工程において入力された操作入力により、前記
    表示工程が表示する表形式の列方向または行方向の表示
    数を前記処理工程の処理により変更する表示変更工程を
    備えたことを特徴とする文書処理方法。
  7. 【請求項7】テキストデータまたはテキストデータと属
    性情報からなる文書レコードを複数保持する文書レコー
    ド保持工程と、 利用者からの操作入力または文書レコードを入力させる
    入力工程と、 該入力工程により入力された操作入力により、前記文書
    レコード保持工程において保持された文書レコードの一
    部または全体を選択する選択工程と、 該選択工程において選択された文書レコードのテキスト
    または属性情報から特徴を抽出する特徴抽出工程と、 該特徴抽出工程において抽出されたデータを用いて処理
    を行う処理工程と、 該処理工程の処理結果を表形式で表示する表示工程と、 を備えた文書処理方法において、 前記入力工程において入力された操作入力により、前記
    表示工程が表示する表形式の列方向および行方向の表示
    数を前記処理工程の処理により変更する表示変更工程を
    備えたことを特徴とする文書処理方法。
  8. 【請求項8】請求項6または7記載の文書処理方法にお
    いて、 前記表示変更工程において複数の表示セルをまとめて表
    示させるとき、前記入力工程で入力された操作入力によ
    り、まとめられた表示セルに対応づけられる値を算出す
    る表示代表値算出工程と、 該表示代表値算出工程において算出された値を、まとめ
    られた表示セルに表示する表示内容変更工程と、 を備えることを特徴とする文書処理方法。
  9. 【請求項9】請求項6〜8のいずれか1項に記載の文書
    処理方法において、 前記文書レコード保持工程が、前記処理工程で処理され
    たデータを保持することを特徴とする文書処理方法。
  10. 【請求項10】請求項6〜9のいずれか1項に記載の文
    書処理方法において、 前記文書レコード保持工程が、前記処理工程で処理する
    ための設定値を保持することを特徴とする文書処理方
    法。
  11. 【請求項11】テキストデータまたはテキストデータと
    属性情報からなる文書レコードを複数保持する文書レコ
    ード保持工程と、 利用者からの操作入力または文書レコードを入力させる
    入力工程と、 該入力工程により入力された操作入力により、前記文書
    レコード保持工程において保持された文書レコードの一
    部または全体を選択する選択工程と、 該選択工程において選択された文書レコードのテキスト
    または属性情報から特徴を抽出する特徴抽出工程と、 該特徴抽出工程において抽出されたデータを用いて処理
    を行う処理工程と、 該処理工程の処理結果を表形式で表示する表示工程と、 を備えた文書処理プログラムを記憶した媒体において、 前記入力工程において入力された操作入力により、前記
    表示工程が表示する表形式の列方向または行方向の表示
    数を前記処理工程の処理により変更する表示変更工程を
    備えたことを特徴とする文書処理プログラムを記録した
    媒体。
JP11224586A 1999-08-06 1999-08-06 文書処理装置、文書処理方法および文書処理プログラムを記録した媒体 Pending JP2001052013A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11224586A JP2001052013A (ja) 1999-08-06 1999-08-06 文書処理装置、文書処理方法および文書処理プログラムを記録した媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11224586A JP2001052013A (ja) 1999-08-06 1999-08-06 文書処理装置、文書処理方法および文書処理プログラムを記録した媒体

Publications (1)

Publication Number Publication Date
JP2001052013A true JP2001052013A (ja) 2001-02-23

Family

ID=16816065

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11224586A Pending JP2001052013A (ja) 1999-08-06 1999-08-06 文書処理装置、文書処理方法および文書処理プログラムを記録した媒体

Country Status (1)

Country Link
JP (1) JP2001052013A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002288220A (ja) * 2001-03-26 2002-10-04 Just Syst Corp 文書分類装置、文書分類方法ならびに、プログラム
JP2004318408A (ja) * 2003-04-15 2004-11-11 Tokyo Electric Power Co Inc:The テキスト主旨分析装置およびテキスト主旨分析プログラム
JP2006244298A (ja) * 2005-03-04 2006-09-14 Mitsubishi Electric Corp テキストマイング方法及びテキストマイニング装置
CN100382023C (zh) * 2005-12-07 2008-04-16 北京佳讯飞鸿电气股份有限公司 在数据约束网格中控制操作表格的实现方法
JP2010067067A (ja) * 2008-09-11 2010-03-25 Canon Inc データ選択装置及びその制御方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002288220A (ja) * 2001-03-26 2002-10-04 Just Syst Corp 文書分類装置、文書分類方法ならびに、プログラム
JP2004318408A (ja) * 2003-04-15 2004-11-11 Tokyo Electric Power Co Inc:The テキスト主旨分析装置およびテキスト主旨分析プログラム
JP2006244298A (ja) * 2005-03-04 2006-09-14 Mitsubishi Electric Corp テキストマイング方法及びテキストマイニング装置
JP4595590B2 (ja) * 2005-03-04 2010-12-08 三菱電機株式会社 テキストマイング方法及びテキストマイニング装置
CN100382023C (zh) * 2005-12-07 2008-04-16 北京佳讯飞鸿电气股份有限公司 在数据约束网格中控制操作表格的实现方法
JP2010067067A (ja) * 2008-09-11 2010-03-25 Canon Inc データ選択装置及びその制御方法

Similar Documents

Publication Publication Date Title
US9092417B2 (en) Systems and methods for extracting data from a document in an electronic format
CN100447779C (zh) 文档信息处理设备及文档信息处理方法
JP3266586B2 (ja) データ分析システム
US8874590B2 (en) Apparatus and method for supporting keyword input
CN107798123B (zh) 知识库及其建立、修改、智能问答方法、装置及设备
JPH05189292A (ja) 非テキスト・オブジェクトの格納及び検索
CN103282903A (zh) 话题提取装置和程序
US11436278B2 (en) Database creation apparatus and search system
JP2001052013A (ja) 文書処理装置、文書処理方法および文書処理プログラムを記録した媒体
JP2004206391A (ja) 文書情報分析装置
JP3489326B2 (ja) テーブル生成方法
JP4356541B2 (ja) 特許マップ作成支援システム、そのプログラム、及び分析装置
JP4423385B2 (ja) 文書分類支援装置およびコンピュータプログラム
JPH1021266A (ja) 情報検索方法および装置
JPH07104869B2 (ja) データ検索加工システム
JP4248828B2 (ja) 文書処理装置、文書処理方法及び記録媒体
JP2003099429A (ja) 用語集生成装置及び用語集生成プログラム並びに用語集検索装置
JPH06348756A (ja) 索引作成装置及び索引利用装置
JP4036741B2 (ja) テキスト読み上げシステム及び方法
JP2002163291A (ja) 類似文書検索装置、類似文書検索方法及び記録媒体
JP2001318935A (ja) 情報処理装置及び方法、情報処理用ソフトウェアを記録した記録媒体並びにリレーショナルデータベース
JPH1145251A (ja) 検索機能を用いた情報分析支援装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003248686A (ja) 文書群ラベル生成装置、文書群ラベル生成方法及び記録媒体
JPH08249341A (ja) 文書データベースの文書格納・検索装置
JPH1145250A (ja) 情報検索装置,検索結果を利用した検索条件の生成方法およびその方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050106

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071225

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080902