JP2000194721A - 文書群分類装置および文書群分類方法 - Google Patents

文書群分類装置および文書群分類方法

Info

Publication number
JP2000194721A
JP2000194721A JP10376575A JP37657598A JP2000194721A JP 2000194721 A JP2000194721 A JP 2000194721A JP 10376575 A JP10376575 A JP 10376575A JP 37657598 A JP37657598 A JP 37657598A JP 2000194721 A JP2000194721 A JP 2000194721A
Authority
JP
Japan
Prior art keywords
document
document group
counting
elements
group classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10376575A
Other languages
English (en)
Inventor
Kazuhisa Takeya
一寿 武谷
Tatsuo Miyaji
達生 宮地
Atsuo Shimada
敦夫 嶋田
Eiji Kenmochi
栄治 剣持
Makoto Yamazaki
真湖人 山崎
Tetsuo Nagatsuka
哲郎 長束
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP10376575A priority Critical patent/JP2000194721A/ja
Publication of JP2000194721A publication Critical patent/JP2000194721A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 所望の結果を得るための分類設定を利用者が
簡単に行え、また、どのような要素や要素群が分類結果
に影響を与えているのかというような分類結果の理解が
容易に得られる文書群分類装置などを提供する。 【解決手段】 自然言語解析部6が文書に含まれる単語
など要素および上記要素に付随する品詞などの情報を抽
出し、計数規則決定部7が、抽出された要素を計数する
計数規則を決定し、計数部10が上記計数規則に基づいて
要素毎にその出現回数を計数し、要素抽出結果出力部11
が要素および上記要素に係わる抽出結果情報を出力し、
さらに、その後段において、上記出現回数を基に文書お
よび文書群の特徴を求めて文書群を分類する構成にし
た。また、要素抽出結果出力部11の出力した抽出結果情
報に示された要素中の一部の要素を指定させ、指定され
た要素を文書群分類の際の考慮対象から除く構成にし
た。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、自動的に求めた文
書および文書群の特徴に基づいて文書群を自動分類する
文書群分類装置に係わり、特に、文書に含まれている要
素に係わる抽出結果情報を利用者が見ることができる文
書群分類装置に関する。
【0002】
【従来の技術】電子的な文書群を様々な利用者の意図に
基づいて利用できるようにするために、個々の文書に付
与する分類ラベルを決定したり、個々の文書中に使用さ
れている重要単語等からなるキーワードをその文書に付
与する方法が知られている。このような分類のためのラ
ベル付けなどの作業は、係わる文書群全体の価値を決め
る重要な作業であるが、人が手作業により行う場合に
は、その作業の繁雑さにより正確さが得られない場合が
あるという問題がある。そのため、文書群を自動的に分
類する種々のシステムが開発されている。例えば、その
ようなシステムとして、ある分野に関係する単語や単語
群または単語間の関係を表現した参照辞書を予め用意す
ることにより文書を分類する方法などが知られている。
しかし、この方法では、分類を行う前に、予め分野毎或
いは分類毎の参照辞書中から該当文書に関する参照辞書
を用意する必要があるので、その作業が繁雑である。ま
た、分類を行う文書群に対して文書間の近接度を単語な
どの出現情報に基づいて求め、分類先を決める方法が知
られている。例えば、上記の文書間の近接度を求める方
法に属するものとしては、カイ自乗法を用いるもの、判
別分析を用いるもの、クラスタ分析を用いるものなどが
ある。なお、上記の近接度を用いる方法では、文書に含
まれる単語など要素を抽出し、上記要素に付随する品詞
などの情報を抽出し、抽出した単語など要素を計数する
計数規則を決定し、上記計数規則に基づいて要素毎にそ
の出現回数を計数し、上記出現回数を基に文書および文
書群の特徴を求めて文書群を分類する。
【0003】
【発明が解決しようとする課題】しかしながら、上記の
近接度を求めて文書群を分類する従来技術においては、
要素毎の出現回数を基に分類しているため、利用者の分
類しようとする意図を分類結果に反映させることが難し
く、分類結果と利用者の意図との乖離が問題になってい
る。本発明の課題は、上記のような従来技術の問題を解
決し、所望の結果を得るための分類設定を利用者が簡単
に行え、また、どのような要素や要素群が分類結果に影
響を与えているのかというような分類結果の理解が容易
に得られる文書群分類装置および文書群分類方法を提供
することにある。
【0004】
【課題を解決するための手段】上記の課題を解決するた
めに、請求項1記載の発明では、文書に含まれる要素を
抽出する手段と、上記要素に付随する情報を抽出する手
段と、抽出した要素を計数する計数規則を決定する手段
と、上記計数規則に基づいて要素毎にその出現回数を計
数する手段と、上記出現回数を基に文書および文書群の
特徴を求めて文書群を分類する手段を備えた文書群分類
装置において、要素および上記要素に係わる抽出結果情
報を出力する抽出情報出力手段とを備えた。また、請求
項2記載の発明では、請求項1記載の発明において、抽
出情報出力手段の出力した抽出結果情報に示された要素
中の一部の要素を指定させ、指定された要素を文書群分
類の際の考慮対象から除く構成にした。また、請求項3
記載の発明では、請求項1記載の発明において、抽出情
報出力手段の出力した抽出結果情報に基づいて要素の計
数規則を設定する計数規則設定手段を備えた。また、請
求項4記載の発明では、請求項1記載の発明において、
文書および文書群の特徴を求める際の分類クラスタの初
期重心を、抽出情報出力手段の出力した抽出結果情報に
基づいて指定させる文書群分類手段を備えた。また、請
求項5記載の発明では、請求項1記載の発明において、
抽出情報出力手段の出力した抽出結果情報に基づいて検
索語を指定する検索手段を備えた。
【0005】また、請求項6記載の発明では、文書に含
まれる要素を抽出し、上記要素に付随する情報を抽出
し、抽出した要素を計数する計数規則を決定し、上記計
数規則に基づいて要素毎にその出現回数を計数し、上記
出現回数を基に文書および文書群の特徴を求めて文書群
を分類する文書群分類方法において、要素および上記要
素に係わる抽出結果情報を出力する方法にした。また、
請求項7記載の発明では、請求項6記載の発明におい
て、抽出結果情報に示された要素中の一部の要素を指定
させ、指定された要素を文書群分類の際の考慮対象から
除く方法にした。また、請求項8記載の発明では、請求
項6記載の発明において、抽出結果情報に基づいて要素
の計数規則を設定する方法にした。また、請求項9記載
の発明では、請求項6記載の発明において、文書および
文書群の特徴を求める際の分類クラスタの初期重心を抽
出結果情報に基づいて指定させる方法にした。また、請
求項10記載の発明では、請求項6記載の発明において、
抽出結果情報に基づいて検索語を指定する方法にした。
【0006】また、請求項11記載の発明では、請求項6
乃至請求項10の文書群分類方法により文書群の分類を行
うプログラムをコンピュータ読み取り可能な記録媒体に
記録する構成にした。上記のような手段にしたので、請
求項1および請求項6記載の発明では、文書に含まれる
要素が抽出され、上記要素に付随する情報が抽出され、
抽出された要素を計数する計数規則が決定され、上記計
数規則に基づいて要素毎にその出現回数が計数され、上
記出現回数を基に文書および文書群の特徴を求めて文書
群が分類される文書群分類方法において、要素および上
記要素に係わる抽出結果情報が出力される。請求項2お
よび請求項7記載の発明では、請求項1または請求項6
記載の発明において、抽出結果情報に示された要素中の
一部の要素を指定することができ、指定された要素は文
書群分類の際の考慮の対象から除かれる。請求項3およ
び請求項8記載の発明では、請求項1または請求項6記
載の発明において、抽出結果情報に基づいて要素の計数
規則が設定される。請求項4および請求項9記載の発明
では、請求項1または請求項6記載の発明において、文
書および文書群の特徴を求める際の分類クラスタの初期
重心を抽出結果情報に基づいて指定することができる。
請求項5および請求項10記載の発明では、請求項1また
は請求項6記載の発明において、抽出結果情報に基づい
て検索語を指定することができる。請求項11記載の発明
では、請求項6乃至請求項10記載の発明により文書群の
分類を行うプログラムをコンピュータ読み取り可能な記
録媒体に記録される。
【0007】
【発明の実施の形態】本発明の実施形態では、自然言語
で記述された一つ以上の文の集まりであり、且つその一
つ以上の文の集まりが分類される対象である場合、それ
を文書と言う。具体的な例をあげれば、IPC分類等に
より分類される公開特許公報や、政治・経済・文化・科
学技術等の特定分野に分類される新聞記事も文書である
し、それらから請求項や特定の一文を取り出したもので
あっても、請求項という分類に含まれる文であるか、用
途等により分類可能な特定の一文であれば文書とみな
す。以下、図面により本発明の実施の形態を詳細に説明
する。図1は本発明の第1の実施形態を示す文書群分類
装置の構成ブロック図である。図1に示したように、本
実施形態の文書群分類装置は、文書群を入力する文書群
入力部1、入力されたそれぞれの文書の内容から成る文
書群データを記憶する文書群記憶部2、上記文書群デー
タを解析する文書群解析部3、上記文書群解析部3によ
る解析結果に基づいて文書群を分類する文書群分類部
4、その分類結果を記憶する分類結果記憶部5などを備
えている。なお、上記文書群解析部3は、単語など要素
および上記要素に係わる抽出結果情報を出力する抽出情
報出力手段を備えている。また、文書群解析部3および
文書群分類部4は、プログラムを記憶するメモリおよび
上記プログラムに従って動作するCPUを有する。但
し、上記メモリおよびCPUは、共用することが可能で
ある。また、文書群入力部1は、キーボードなど入力装
置を備えていることから、キーボードによる文書入力が
可能であり、さらに、ネットワーク通信手段を備えてい
ることから、ネットワーク経由の文書入力も可能であ
る。また、文書群記憶部2および分類結果記憶部5は、
ハードディスクや半導体メモリから構成されている。上
記の如き構成で、まず、文書群入力部1により、キーボ
ードを介して、またはネットワーク経由で分類しようと
する文書群を入力する。そして、文書群入力部1は、入
力されたそれぞれの文書の内容から成る文書群データ
を、個々の文書が識別できるような形式で文書群記憶部
2に記憶する。例えば、文書番号(文書ID)などを付
けて記憶し、該文書番号により管理するのである。
【0008】続いて、文書群解析部3が文書群記憶部2
から文書群データを読み出す。そして、それぞれの文書
に対応したそれぞれの文書データに対して自然言語解析
を行い、単語などの要素を特定し、その要素に付随する
情報である品詞や文法情報を抽出し、さらに、その文書
群分類装置を動作させるときに利用者により入力された
設定または予め装置に記憶されていた設定に基づいて単
語の計数規則を決定し、その計数規則に基づいて単語出
現回数を計数し、その結果を利用者に提示すると共に文
書群分類部4に出力する。以下に、計数規則の一例を示
す。 (a)大文字表記と小文字表記の違いを考慮して単語を
同じカテゴリにする/しない。 (b)全角表記と半角表記の違いを考慮して単語を同じ
カテゴリにする/しない。 (c)単数か複数かによる表記の違いを考慮して単語を
同じカテゴリにする/しない。 (d)「おもう」「思う」「想う」など意味的に同じで
あるが表記が異なる単語を同じカテゴリにする/しな
い。 (e)サブカテゴリが存在する品詞において、それを考
慮して複数の単語を同じカテゴリにする/しない。例え
ば、一般に名詞として扱われる単語には、サ変名詞や固
有名詞が含まれる。これらを名詞としてまとめて一つの
カテゴリとして扱うことも可能であるし、複数のサブカ
テゴリを設けることも可能であるし、それらすべてを別
のカテゴリとして扱うこともできる。 (f)主語、述語、目的語などの文法情報を考慮して単
語を同じカテゴリにする/しない。 (g)動詞や形容詞などにおける終止形/連用形/未然
形/仮定形などや、動詞における過去形/現在形/過去
完了形など、表記が異なる場合がある。それらを考慮し
て単語を同じカテゴリにする/しない。 (h)表題部/要約部/本文部など単語の出現位置を考
慮して単語を同じカテゴリにする/しない。 (i)文書番号に基づき、例えば文書群の前半/後半な
ど複数のグループへのグルーピングを行い、それをを考
慮して単語を同じカテゴリにする/しない。 (j)表記上同じであるが異品詞の単語を同じカテゴリ
にする/しない。 (k)連続した複数の単語を個々のカテゴリにする/一
つのカテゴリにする。
【0009】図2に、文書群解析部3の詳細構成を示
す。図示したように、文書群解析部3は、入力された文
書データに対して言語解析を行う自然言語解析部6、そ
の文書群分類装置を動作させるときに利用者により入力
された設定または予め装置に記憶しておいた設定に基づ
いて単語の計数規則を決定する計数規則決定部7、決定
された計数規則に従って表記の違いを統一する変換部
8、利用者の設定に基づいて一部の文書や単語などを取
り除くフィルタ部9、単語など要素の出現回数を計数す
る計数部10、上記計数部10の計数した要素およびその出
現回数など抽出結果情報を出力する要素抽出結果出力部
(抽出情報出力手段)11などを備えている。上記の構成
において、まず、自然言語解析部6が文書群記憶部2か
ら読み出した文書データに対して言語解析を行う。例え
ば、図3に示すような文書群の文書データに対して自然
言語解析部6が解析を行った場合の出力の一部を図4に
示す。なお、図4において、左欄の「No」は文書1内で
の単語出現順序に応じた単語番号である。本例では示さ
ないが、単語の出現位置である文書内の構成上の位置を
示す位置情報、例えば「表題部」や「要約部」というよ
うな位置情報を出力させることも可能である。また、図
4において、「表記」欄には、切り出した単語を文書1
における表記通りに示しており、「詳細品詞」欄には自
然言語解析部6の解析した品詞を示す。また、「辞書単
語番号」欄には自然言語解析部6が持つ辞書の単語番号
を示す。例えば、No. 6とNo.18 とNo.29 の助詞「は」
は同じ辞書単語番号である。さらに、「原形」欄には自
然言語解析部6が持つ辞書内の単語の原形表示を示して
いるが、ここには、文書内の表記が終止形以外の活用を
持つ場合とか、複数の表記法が考えられ自然言語解析部
6の統一表記と異なる場合に記述している。例えば、N
o. 2の「プリンタ」はこの自然言語解析部6が統一表
記としている「プリンター」と同じ単語と解析されたた
め原形欄に「プリンター」と記述されたわけである。ま
た、No. 8の助動詞「で」は助動詞「だ」の活用語とみ
なされ、その終止形「だ」が記述された。なお、図4で
例示していないが、自然言語解析部6の解析結果として
英文などにおける複数形や過去形などによる表記の違い
や主語/述語など文法情報を出力させることも可能であ
る。
【0010】次に、計数規則決定部7において、利用者
の設定などに基づいて計数規則を決定する。例えば、次
のように決定するのである。 (a)大文字と小文字の表記の違いは統一 (b)全角文字と半角文字の表記の違いは統一 (d)「思う」「おもう」などの表記の違いは統一 (e)品詞は、名詞、動詞、形容詞、形容動詞、数詞、
副詞、記号、その他の8カテゴリに分けて考えることと
し、その下位カテゴリに関しては考慮しない。また、文
書群分類部4で文書群の特徴を計算する際には、名詞、
動詞、形容詞のみを用いる。 (g)動詞、形容詞、形容動詞の活用による表記の違い
は統一 なお、前記項目(c)(f)(h)(i)(j)(k)
や他の点に関しては考慮しない設定になっているものと
する。また、設定に際しては、計数規則決定部7が予め
用意した複数の設定候補を表示させ、利用者にその中か
ら選択させることが可能である。上記のように設定され
たとき、変換部8では、例えば、上記(a)および
(b)の設定に従って小文字を大文字に変換し、全角文
字を半角文字に変換する。これにより、例えば「japan
」「JAPAN 」「Japan 」「Japan」「JAPA
N」などはすべて「JAPAN 」表記に統一される。
【0011】また、図4に示した自然言語解析部6の出
力を、利用者の設定に基づいて図5のように変換する。
図5に示した品詞は、自然言語解析部6が抽出した図4
に示した詳細品詞を、利用者の設定に基づき、名詞、動
詞、形容詞、形容動詞、数詞、副詞、記号、その他の8
種に変換したものである。例えば、「普通名詞」や「サ
変名詞」は「名詞」に、「助詞格に」(助詞格「に」)
や「助動ない・終」(助動詞「ない」終止形)は「その
他」に変換される。また、図5に示したように、単語に
ついては、利用者の設定に基づき、例えば、「ユーザ」
は「ユーザー」に、助動詞の「で」は「だ」に変換され
る。続いて、フィルタ部9において、図5に示した出力
および利用者の設定に基づき、文書群分類部4における
文書および文書群の特徴算出の際に用いない単語などを
取り除く。本実施形態では、前記のように、名詞、動
詞、形容詞を用いて特徴を算出するため、フィルタ部9
の出力は図6のようになる。文書群すべてに対して図6
に示したような出力が行われた後、計数部10は、図6に
示した使用単語に基づいて単語番号(単語ID)を一意
に付ける。なお、図6において複数回出現する単語、例
えば「購入」や「ある」には同じ単語番号が割り付けら
れる。同様に、文書nの使用単語αと文書mの使用単語
βには、その表記と品詞が同じであれば同じ単語番号が
割り付けられる。次に、計数部10は各単語番号(単語I
D)毎に各文書内での出現回数を計数する。計数部10の
出力例を図7に示す。さらに、図7に示したような計数
部10の出力結果に基づき、要素抽出結果出力部11は、図
8に示すような要素抽出結果情報を表示装置の画面上ま
たは出力装置の用紙上に出力させる。図8に示したよう
に、例えば各単語毎に全文書群に対する出現頻度、その
単語を含む文書数など、要素に係わる抽出結果情報を出
力するのである。
【0012】図8では、全単語をその文書群全体に対す
る出現回数順に出力しているが、このような出力方法の
他に、次のような出力方法、表現方法も可能である。 (ア)図8と同様のリスト形式で、含む文書数順に出力
する方法。 (イ)X軸に単語、Y軸にその出現回数をプロットした
2次元グラフ表現。 (ウ)上記(イ)のグラフ表現において、棒グラフなど
の表現を用い、名詞、動詞、形容詞など単語に付随する
情報別にその色や塗りつぶしパターンなど表示形態を異
ならせる方法。 (エ)X軸に単語、Y軸にその出現回数、Z軸に含む文
書数をプロットした3次元グラフ表現。 図9は、文書群分類部4の詳細を示す構成ブロック図で
ある。この文書群分類部4は、図7に示した単語番号
(単語ID)およびその出現回数に基づいて算出した文
書および文書群の特徴に従って文書群分類を実行する。
図示したように、文書群分類部4は、単語出現回数など
に基づいて文書の特徴を示す文書特徴ベクトルを生成す
る文書特徴ベクトル生成部12、上記文書特徴ベクトルを
記憶する文書特徴ベクトル記憶部13、単語の共起性を反
映させた文書特徴ベクトル変換関数を生成する変換関数
生成部14、上記文書特徴ベクトル変換関数を記憶する変
換関数記憶部15、文書群解析部3において分類対象とし
た文書群から分類を実施しない文書を除いたり一部の単
語を除いたりするフィルタ部16、文書特徴ベクトルを修
正する文書特徴ベクトル変換部17、修正された文書特徴
ベクトルを用いて文書群を分類する文書分類部18などを
備える。上記のような構成により、文書群分類部4で
は、まず、文書特徴ベクトル生成部12が単語番号、単語
出現回数などの文書解析データを基に文書特徴ベクトル
を生成する。なお、この文書特徴ベクトルは、行成分が
単語番号(個々の単語)であり、列成分が文書番号(文
書ID、個々の文書)であり、行列要素がその文書にお
けるその単語の出現回数である文書・単語行列である。
つまり、単語1〜単語nの出現回数を表している各列成
分が各文書のベクトルと考えるわけである。文書特徴ベ
クトル生成部12は文書・単語行列データを生成すると、
生成した上記データを文書特徴ベクトル記憶部13に記憶
させる。
【0013】続いて、変換関数生成部14が上記文書特徴
ベクトルを変換するための文書特徴ベクトル変換関数を
生成する。この文書特徴ベクトル変換関数は、文書特徴
ベクトルを、単語で構成される空間から文書間における
単語の共起性を反映させた空間へ変換するためのもので
ある。単語の共起性とは、例えば「ABC」という名前
の株式会社があり、「ABC」という単語が生起すると
「株式会社」という単語が生起する性質のことであり、
このような場合、「ABC」という単語を含む文書には
必ず「株式会社」という単語が含まれるので、「AB
C」という単語を空間計算に使わないのである。つま
り、変換関数生成部14では、文書・単語行列データを上
記のような共起を考慮した行列データに変換するための
変換関数を生成するわけである。そして、このような文
書特徴ベクトル変換関数を生成すると、変換関数生成部
14は、それを変換関数記憶部15に記憶させる。さらに、
フィルタ部16において、利用者の設定に従い、文書群解
析部3において分類対象とした文書群から分類を実施し
ない文書を除いたり、文書群解析部3において文書およ
び文書群の特徴を算出する際に用いるように準備された
品詞や単語の中から一部の品詞や単語を除いたりする。
ここでは、分類実行時のパラメータ、例えば、分類意味
空間の次元、分類するクラスタ数、分類手法なども除く
対象として設定することができる。このようにして、フ
ィルタ部16では、一部の文書や単語を除外し、文書特徴
ベクトルを修正する。
【0014】次に、文書特徴ベクトル変換部17が、変換
関数生成部14により生成された文書特徴ベクトル変換関
数、または、予め記憶させておいた変換関数を用いて文
書特徴ベクトルを修正する。そして、文書分類部18が公
知の分類手法を用いて文書群を分類する。上記分類手法
とは、例えば、カイ自乗法を用いるもの、判別分析を用
いるもの、クラスタ分析を用いるもの、あるいは、非階
層クラスタリング手法の一つであるk-means 法、k-mean
s 法を多少修正した手法などである。なお、クラスタリ
ング時の文書特徴ベクトル間の類似度(この類似度が大
きいものを同じ分類に属させる)は、ベクトル間の余
弦、内積、ユークリッド距離などを用いて求める。例え
ば、文書1に単語Aが3回、単語Bが5回、単語Cが2
回出現し、文書2に単語Aが5回、単語Bが6回、単語
Cが2回出現したとするとき、上記した二つの文書間の
距離をユークリッド距離で計算すると、 ((3−5)2 +(5−6)2 +(2−2 21/2 =5
1/2 となり、上記したユークリッド距離が小さいほど、つま
り、個々の単語の出現頻度が近いほど、近接度つまり類
似度が大である。こうして、本実施形態によれば、文書
群分類時に、図8に示したような抽出された単語など要
素および上記単語の出現回数やその単語を含む文書数な
ど上記要素に係わる抽出結果情報が出力されるので、ど
のような要素や要素群が分類結果に影響を与えているの
かというような分類結果の理解が容易に得られる。な
お、上記の実施形態においては抽出情報出力手段(要素
抽出結果出力部)を文書解析部3の最終段に備え、分類
が実行される前に要素抽出結果を提示したが、抽出情報
出力手段を文書群分類部4の最終段に備え、分類実行後
に要素抽出結果を提示してもよい。この場合、図8に示
したような出力や図8に関連して(ア)〜(エ)に示し
た出力を分類されたカテゴリ別に提示することも可能で
ある。この場合、各カテゴリ毎に、X軸に単語、Y軸に
クラスタ重心からの類似度(例えば、当該カテゴリに属
する各文書のクラスタ重心からのユークリッド距離)を
プロットした2次元グラフ表現にすることも可能であ
る。
【0015】次に、例えば文書群分類部4内のフィルタ
部16などで行われる、要素抽出結果中の単語など要素を
指定する方法を図10や図11に示した出力例(表示例)に
従って説明する。なお、この要素などの指定は要素抽出
結果出力部11が図8に示したような要素抽出結果表示の
際に行ってもよいし、図12に示した例の場合は入力され
た文書に対して行う。図10は要素抽出結果出力部11から
出力した実施形態であり、図8に示した第1の実施形態
の出力例の各行左端にチェックボックスを付加してい
る。利用者はマウスなど入力装置を用いて要素、あるい
は要素群を指定することができる。図示していないが、
各要素を名詞、動詞などのようにまとめて表示し、その
カテゴリを利用者に選択させることで要素群(複数の要
素)を同時に指定できるのである。また、分類実行後に
カテゴリ別に要素抽出結果を表示させ、一つのカテゴリ
全体をまとめて指定することもできる。図11の例では、
選択された要素が表示される選択要素表示欄(図中の右
側)を設けている。図中の(a)は要素を選択(指定)
していない状態、(b)は選択した状態である。図中の
左側が抽出情報出力手段によって出力された抽出結果情
報などを表示する要素抽出結果欄である。上記要素抽出
結果欄の各行の左端には例えば◆マークが表示されてお
り、この◆マークまたは各行の任意の位置を利用者がマ
ウスなどを用いて指示すると、要素抽出結果出力部11ま
たはフィルタ部16は、(b)に示したように、指示され
た行を選択要素表示欄に表示させる。図12に示した実施
形態は、例えば、文書群入力部1において行うことがで
きる単語などの要素の指定方法であり、(a)に示した
ような入力文書に対して、(b)に示すように、要素に
分割した文章表示を行う。そして、利用者に分割された
中にある単語など要素を指定させる。これにより、利用
者が例えば「個人」という単語を指定すると、文書入力
部1はそれを認知し、(c)に示すように、指定された
「個人」という単語を他とは異なった表示状態にさせ
る。以上、三種類の要素指定を行うための実施形態を示
したが、これらのいずれかまたはすべてを用いて要素を
指定することにより、指定した要素を除外し、その要素
を文書群分類の際に考慮しないようにする。
【0016】図13は本発明の第2の実施形態を示す文書
群解析部要部のブロック図である。図示したように、本
実施形態の文書群解析部では要素抽出結果出力部(抽出
情報出力手段)11の出力した抽出結果情報を計数規則決
定部(計数規則設定手段)7の行う要素の計数規則設定
(決定)に反映させる。第1の実施形態において、計数
規則として(a)〜(k)を示したが、上記抽出結果情
報を見て、(a)〜(k)に係わる設定内容を変更した
り、(a)〜(k)以外の設定を追加したりするのであ
る。また、(d)に、意味的に同じであるが表記が異な
る単語の例として「おもう」「思う」「想う」というよ
うな単語を示したが、抽出結果情報を見て、上記のよう
な単語として追加すべき必要があるものを追加したりす
る。こうして、本実施形態によれば、利用者の分類意図
を反映させた文書群分類を行うことができる。本発明の
第3の実施形態では、抽出情報出力手段の出力した抽出
結果情報に基づいて文書および文書群の特徴を求める際
の分類クラスタの初期重心を指定することができる。利
用者が抽出結果情報中の単語を重心として指定し、その
単語の周りにクラスタを形成するのである。例えば、
「プリンタの設定」に関する文書がクラスタ1に集まる
ように分類したい場合、単語の抽出結果を見て、「プリ
ンタの設定」に関する単語のなかから出現頻度の多い単
語(例えば、「印刷」「設定」など)を選ぶ。そして、
選択した単語を「クラスタ1の初期重心」ボックスに入
れる。図11の右側の選択要素表示欄のように、「クラス
タ1の初期重心」ボックス、「クラスタ2の初期重心」
ボックス・・・・など複数のボックスを用意しておくの
である。そうすると、文書群分類部4(文書群分類手
段)は、クラスタ1の初期重心である選択された単語
(一つまたは複数)が数多く出現する文書を類似度(近
接度)の高い文書としてクラスタ1に集める。こうし
て、本実施形態によれば、利用者は所望の分類結果を得
ることができる。
【0017】本発明の第4の実施形態では抽出情報出力
手段の出力した抽出結果情報に基づいて検索語を指定
し、検索手段が上記検索語に従って文書を検索する。例
えば出現回数の多い単語を検索語として検索し、検索結
果として文書リスト(文書番号リストとか、さらに文書
名も加えたリストなど)を出力するのである。また、あ
るクラスタ内の単語頻度分布結果から単語を選んで検索
語にする。例えば、プリンタの設定方法がわからないと
いったクレームに関する文書が集まったクラスタができ
た場合、このクラスタ内の単語頻度分布を見ると、どの
ような単語に基づいてクラスタが形成されたか見当をつ
けることができる。例えば、このクラスタ内で、「印
刷」とか「わからない」などの単語が沢山出現している
ことから見当つけるわけである。これにより、例えば、
印刷に関する事柄が書かれた文書で、このクラスタにあ
えて分類されなかった文書にはどんな文書があるかとい
うようなことを知るための検索なども可能になる。こう
して、本実施形態によれば、分類結果を容易に理解する
ことができる。以上、図1、図2および図13などに示し
た構成に従って本発明の文書群分類装置および文書群分
類方法を説明したが、この文書群分類方法を実現するプ
ログラムを着脱可能な記録媒体に記録し、上記記録媒体
を移した先の情報処理装置内で本発明によった文書群分
類を行うこともできる。
【0018】
【発明の効果】以上説明したように、本発明によれば、
請求項1および請求項6記載の発明では、文書に含まれ
る要素が抽出され、上記要素に付随する情報が抽出さ
れ、抽出された要素を計数する計数規則が決定され、上
記計数規則に基づいて要素毎にその出現回数が計数さ
れ、上記出現回数を基に文書および文書群の特徴を求め
て文書群が分類される文書群分類方法において、要素お
よび上記要素に係わる抽出結果情報が出力されるので、
どのような要素や要素群が分類結果に影響を与えている
のかというような分類結果の理解が容易に得られる。ま
た、請求項2および請求項7記載の発明では、請求項1
または請求項6記載の発明において、利用者が抽出結果
情報に示された要素中の一部の要素を指定し、指定した
要素を文書群分類の際の考慮の対象から除くことができ
るので、利用者は所望の結果を得るための分類設定を簡
単に行える。また、請求項3および請求項8記載の発明
では、請求項1または請求項6記載の発明において、利
用者が抽出結果情報に基づいて要素の計数規則を設定す
ることができるので、同様に利用者は所望の結果を得る
ための分類設定を簡単に行える。また、請求項4および
請求項9記載の発明では、請求項1または請求項6記載
の発明において、文書および文書群の特徴を求める際の
分類クラスタの初期重心を抽出結果情報に基づいて指定
することができるので、利用者が所望の分類結果を得る
ことができる。また、請求項5および請求項10記載の発
明では、請求項1または請求項6記載の発明において、
抽出結果情報に基づいて検索語を指定することができる
ので、利用者が分類結果を容易に理解することができ
る。また、請求項11記載の発明では、請求項6乃至請求
項10記載の発明によったプログラムがコンピュータ読み
取り可能な記録媒体に記録されるので、上記記録媒体を
他の情報処理装置へ移して用いることにより、上記情報
処理装置内で本発明によった文書群分類を行うことがで
きる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態を示す文書群分類装置
の構成ブロック図である。
【図2】本発明の第1の実施形態を示す文書群分類装置
要部の構成ブロック図である。
【図3】本発明の第1の実施形態を示す文書群分類装置
および文書群分類方法の説明図である。
【図4】本発明の第1の実施形態を示す文書群分類装置
および文書群分類方法の他の説明図である。
【図5】本発明の第1の実施形態を示す文書群分類装置
および文書群分類方法の他の説明図である。
【図6】本発明の第1の実施形態を示す文書群分類装置
および文書群分類方法の他の説明図である。
【図7】本発明の第1の実施形態を示す文書群分類装置
および文書群分類方法の他の説明図である。
【図8】本発明の第1の実施形態を示す文書群分類装置
および文書群分類方法の他の説明図である。
【図9】本発明の第1の実施形態を示す文書群分類装置
の他の要部の構成ブロック図である。
【図10】本発明の第1の実施形態を示す文書群分類装置
および文書群分類方法の他の説明図である。
【図11】(a)(b)は本発明の第1の実施形態を示す
文書群分類装置および文書群分類方法の他の説明図であ
る。
【図12】(a)(b)(c)は本発明の第1の実施形態
を示す文書群分類装置および文書群分類方法の他の説明
図である。
【図13】本発明の第2の実施形態を示す文書群分類装置
要部の構成ブロック図である。
【符号の説明】
1 文書群入力部 2 文書群記憶部 3 文書群解析部 4 文書群分類部 5 分類結果記憶部 6 自然言語解析部 7 計数規則決定部 8 変換部 9 フィルタ部 10 計数部 11 要素抽出結果出力部 12 文書特徴ベクトル生成部 14 変換関数生成部 16 フィルタ部 17 文書特徴ベクトル変換部 18 文書分類部
フロントページの続き (72)発明者 剣持 栄治 東京都大田区中馬込1丁目3番6号 株式 会社リコー内 (72)発明者 山崎 真湖人 東京都大田区中馬込1丁目3番6号 株式 会社リコー内 (72)発明者 長束 哲郎 東京都大田区中馬込1丁目3番6号 株式 会社リコー内 Fターム(参考) 5B075 ND03 NR03 NR12 PQ02 PQ32 UU06

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 文書に含まれる要素を抽出する手段と、
    上記要素に付随する情報を抽出する手段と、抽出した要
    素を計数する計数規則を決定する手段と、上記計数規則
    に基づいて要素毎にその出現回数を計数する手段と、上
    記出現回数を基に文書および文書群の特徴を求めて文書
    群を分類する手段とを備えた文書群分類装置において、 要素および上記要素に係わる抽出結果情報を出力する抽
    出情報出力手段を備えたことを特徴とする文書群分類装
    置。
  2. 【請求項2】 請求項1の文書群分類装置において、抽
    出情報出力手段の出力した抽出結果情報に示された要素
    中の一部の要素を指定させ、指定された要素を文書群分
    類の際の考慮対象から除く構成にしたことを特徴とする
    文書群分類装置。
  3. 【請求項3】 請求項1の文書群分類装置において、抽
    出情報出力手段の出力した抽出結果情報に基づいて要素
    の計数規則を設定する計数規則設定手段を備えたことを
    特徴とする文書群分類装置。
  4. 【請求項4】 請求項1の文書群分類装置において、文
    書および文書群の特徴を求める際の分類クラスタの初期
    重心を、抽出情報出力手段の出力した抽出結果情報に基
    づいて指定させる文書群分類手段を備えたことを特徴と
    する文書群分類装置。
  5. 【請求項5】 請求項1の文書群分類装置において、抽
    出情報出力手段の出力した抽出結果情報に基づいて検索
    語を指定する検索手段を備えたことを特徴とする文書群
    分類装置。
  6. 【請求項6】 文書に含まれる要素を抽出し、上記要素
    に付随する情報を抽出し、抽出した要素を計数する計数
    規則を決定し、上記計数規則に基づいて要素毎にその出
    現回数を計数し、上記出現回数を基に文書および文書群
    の特徴を求めて文書群を分類する文書群分類方法におい
    て、要素および上記要素に係わる抽出結果情報を出力す
    ることを特徴とする文書群分類方法。
  7. 【請求項7】 請求項6の文書群分類方法において、抽
    出結果情報に示された要素中の一部の要素を指定させ、
    指定された要素を文書群分類の際の考慮対象から除くこ
    とを特徴とする文書群分類方法。
  8. 【請求項8】 請求項6の文書群分類方法において、抽
    出結果情報に基づいて要素の計数規則を設定することを
    特徴とする文書群分類方法。
  9. 【請求項9】 請求項6の文書群分類方法において、文
    書および文書群の特徴を求める際の分類クラスタの初期
    重心を抽出結果情報に基づいて指定させることを特徴と
    する文書群分類方法。
  10. 【請求項10】 請求項6の文書群分類方法において、抽
    出結果情報に基づいて検索語を指定することを特徴とす
    る文書群分類方法。
  11. 【請求項11】 請求項6乃至請求項10の文書群分類方法
    により文書群の分類を行うプログラムを記録したコンピ
    ュータ読み取り可能な記録媒体。
JP10376575A 1998-12-24 1998-12-24 文書群分類装置および文書群分類方法 Pending JP2000194721A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10376575A JP2000194721A (ja) 1998-12-24 1998-12-24 文書群分類装置および文書群分類方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10376575A JP2000194721A (ja) 1998-12-24 1998-12-24 文書群分類装置および文書群分類方法

Publications (1)

Publication Number Publication Date
JP2000194721A true JP2000194721A (ja) 2000-07-14

Family

ID=18507376

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10376575A Pending JP2000194721A (ja) 1998-12-24 1998-12-24 文書群分類装置および文書群分類方法

Country Status (1)

Country Link
JP (1) JP2000194721A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002108877A (ja) * 2000-09-29 2002-04-12 Hitachi Ltd 遺伝子発現頻度分布比較方法及び記録媒体
JP2004318408A (ja) * 2003-04-15 2004-11-11 Tokyo Electric Power Co Inc:The テキスト主旨分析装置およびテキスト主旨分析プログラム
JP2006185219A (ja) * 2004-12-28 2006-07-13 Yoshiaki Nagai 述語論理式作成装置、会計仕訳ルール作成装置、会計仕訳装置、述語論理式作成プログラム、会計仕訳ルール作成プログラム、及び、会計仕訳プログラム
JP2009288999A (ja) * 2008-05-29 2009-12-10 Fujitsu Ltd まとめ上げ作業支援処理方法、装置及びプログラム
JP2011133996A (ja) * 2009-12-22 2011-07-07 Toshiba Corp 文書分類装置及び文書分類プログラム
CN104408324A (zh) * 2014-12-11 2015-03-11 云南师范大学 基于d-s证据理论的多传感器信息融合方法
CN104462826A (zh) * 2014-12-11 2015-03-25 云南师范大学 基于矩阵奇异值分解的多传感器证据冲突检测与度量方法
JP2020013535A (ja) * 2018-07-06 2020-01-23 株式会社日立システムズ 情報処理装置、検査評価システムおよび検査評価方法
JP7493638B2 (ja) 2018-07-06 2024-05-31 株式会社日立システムズ 情報処理装置、検査評価システムおよび検査評価方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002108877A (ja) * 2000-09-29 2002-04-12 Hitachi Ltd 遺伝子発現頻度分布比較方法及び記録媒体
JP2004318408A (ja) * 2003-04-15 2004-11-11 Tokyo Electric Power Co Inc:The テキスト主旨分析装置およびテキスト主旨分析プログラム
JP2006185219A (ja) * 2004-12-28 2006-07-13 Yoshiaki Nagai 述語論理式作成装置、会計仕訳ルール作成装置、会計仕訳装置、述語論理式作成プログラム、会計仕訳ルール作成プログラム、及び、会計仕訳プログラム
JP4709543B2 (ja) * 2004-12-28 2011-06-22 永井 義明 述語論理式作成装置、会計仕訳ルール作成装置、会計仕訳装置、述語論理式作成プログラム、会計仕訳ルール作成プログラム、及び、会計仕訳プログラム
JP2009288999A (ja) * 2008-05-29 2009-12-10 Fujitsu Ltd まとめ上げ作業支援処理方法、装置及びプログラム
JP2011133996A (ja) * 2009-12-22 2011-07-07 Toshiba Corp 文書分類装置及び文書分類プログラム
CN104408324A (zh) * 2014-12-11 2015-03-11 云南师范大学 基于d-s证据理论的多传感器信息融合方法
CN104462826A (zh) * 2014-12-11 2015-03-25 云南师范大学 基于矩阵奇异值分解的多传感器证据冲突检测与度量方法
CN104408324B (zh) * 2014-12-11 2017-06-13 云南师范大学 基于d‑s证据理论的多传感器信息融合方法
JP2020013535A (ja) * 2018-07-06 2020-01-23 株式会社日立システムズ 情報処理装置、検査評価システムおよび検査評価方法
JP7229761B2 (ja) 2018-07-06 2023-02-28 株式会社日立システムズ 情報処理装置、検査評価システムおよび検査評価方法
JP7493638B2 (ja) 2018-07-06 2024-05-31 株式会社日立システムズ 情報処理装置、検査評価システムおよび検査評価方法

Similar Documents

Publication Publication Date Title
Wang et al. Neural network-based abstract generation for opinions and arguments
Gambhir et al. Recent automatic text summarization techniques: a survey
JP2011118689A (ja) 検索方法及びシステム
Basha et al. Evaluating the impact of feature selection on overall performance of sentiment analysis
Scharkow Content analysis, automatic
KR100341396B1 (ko) 계층 단어를 이용한 3차원 클러스터링 생성 시스템 및 그방법
JP2000194721A (ja) 文書群分類装置および文書群分類方法
US20220350964A1 (en) Word processing system and word processing method
JPH1196177A (ja) 用語辞書生成方法および用語辞書生成プログラムを記録した記録媒体
JP2007011973A (ja) 情報検索装置及び情報検索プログラム
JP3937741B2 (ja) 文書の標準化
JP4877930B2 (ja) 文書処理装置及び文書処理方法
JP7227705B2 (ja) 自然言語処理装置、検索装置、自然言語処理方法、検索方法およびプログラム
Eiken et al. Ord i dag: Mining Norwegian daily newswire
JP4088171B2 (ja) テキスト解析装置、方法、プログラム及びそのプログラムを記録した記録媒体
Elmenshawy et al. Automatic arabic text summarization (AATS): A survey
Kirmani et al. Analysis of Abstractive and Extractive Summarization Methods.
Girdhar et al. STRAS: A Semantic Textual-Cues Leveraged Rule-Based Approach for Article Separation in Historical Newspapers
JP2005025555A (ja) シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
Borin et al. Literary onomastics and language technology
JP2002278963A (ja) 事例翻訳装置
JP4308543B2 (ja) キーフレーズ表現抽出装置、キーフレーズ表現抽出方法およびその方法をコンピュータに実行させるプログラム
JP4248828B2 (ja) 文書処理装置、文書処理方法及び記録媒体
JPH0232469A (ja) 情報検索方式
KR100522719B1 (ko) 자질연산 구문분석기법을 이용한 범용정보 추출 템플리트구성방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041208

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070821

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071022

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071120

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080121

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080226