JP2001101199A - 文書処理装置 - Google Patents

文書処理装置

Info

Publication number
JP2001101199A
JP2001101199A JP27574299A JP27574299A JP2001101199A JP 2001101199 A JP2001101199 A JP 2001101199A JP 27574299 A JP27574299 A JP 27574299A JP 27574299 A JP27574299 A JP 27574299A JP 2001101199 A JP2001101199 A JP 2001101199A
Authority
JP
Japan
Prior art keywords
document
unit
input
viewpoint
morpheme group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP27574299A
Other languages
English (en)
Other versions
JP2001101199A5 (ja
JP3925003B2 (ja
Inventor
Hiroyuki Kato
弘之樹 加藤
Yoshihiro Ueda
良寛 上田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP27574299A priority Critical patent/JP3925003B2/ja
Publication of JP2001101199A publication Critical patent/JP2001101199A/ja
Publication of JP2001101199A5 publication Critical patent/JP2001101199A5/ja
Application granted granted Critical
Publication of JP3925003B2 publication Critical patent/JP3925003B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 意図または視点に応じて文書を正確に分類す
る。 【解決手段】 文書入力手段1aからは、処理の対象と
なる文書が入力される。文書記憶手段1bは、文書入力
手段1aから入力された文書を記憶する。形態素群抽出
手段1cは、文書記憶手段1bに記憶されている文書か
ら係り受け関係を有する形態素群を抽出する。形態素群
分類手段1dは、形態素群抽出手段1cによって抽出さ
れた形態素群を、その視点に応じて分類する。文書分類
手段1eは、文書記憶手段1bに記憶されている文書
を、形態素群分類手段1dの分類結果に応じて分類し、
分類結果を表示装置10に対して表示する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は文書処理装置に関
し、特に、入力された文書を分類してその結果を出力す
る文書処理装置に関する。
【0002】
【従来の技術】一般家庭へのコンピュータの普及によ
り、製品に対するサポート等のサービスが電子メール等
によって行われる場合が多くなってきた。
【0003】ユーザから送られてきたこれらの情報は、
メーカにとっては、品質管理や消費者のニーズの動向を
探る上で非常に重要な情報となる場合が多い。そこで、
情報の利用価値をより一層高める目的で、これらの情報
をその内容に応じて分類する手法が種々提案されてい
る。
【0004】例えば、文書1〜文書nが存在している場
合において、これらをその内容に応じて分類する手法と
しては、各文書1〜文書nのそれぞれに包含されている
単語群から単語ベクトル1〜単語ベクトルn(例えば、
日常単語である10万語の単語を基底とする10万次元
の単語ベクトル)をそれぞれ作成し、各単語ベクトルど
うしの内積を演算することにより、文書どうしの類似度
を算出し、類似度が高いものどうしでグループを形成す
ることにより、文書を分類することができる。
【0005】また、特開平10−320411号公報に
開示されている方法では、助詞と特徴文字(年/月/日
や市/町等)とを組み合わせて用いることにより、文書
から5W1Hに該当するキーワードを抽出し、ユーザが
入力した分類用の5W1H属性に対応する項目を有する
文書を選択することにより、所望の文書を選択する構成
とされている。
【0006】また、「清田陽司,黒橋禎夫,中村順一,
長尾真:構文情報を利用した電子ニュース記事のクラス
タリングシステムの作成と評価,情報処理学会研究報
告,Vol.98,No.63,pp.77〜84,1
998」では、文書に含まれている助詞の種類毎に重み
付けをした単語ベクトルによって文書をクラスタリング
する手法が提案されている。具体的には、例えば、「企
業」に注目する場合には、助詞「は」、「も」を有する
語に5倍の重みを与えるといった手法である。
【0007】また、「乾裕子,内元清貴,村田真樹,井
佐原均:文末表現に着目した自由回答アンケートの分
類,情報処理学会研究報告,Vol.98,No.9
9,pp.181〜188,1998.」では、助詞を
利用して自由回答アンケートを「提案・要望」「賛成」
「反対」などの回答のタイプに分類する方法が提案され
ている。
【0008】また、「諸橋正幸,那須川哲哉,長野徹:
テキストマイニング:膨大な文書データからの知識獲得
−意図の認識−,情報処理学会第57回全国大会,Vo
l.3,pp75〜76,1998.」では、モダリテ
ィと構文情報とを利用することにより文書の意図を認識
する方法が提案されている。モダリティとは、禁止・義
務・可能・要求等を表す表現であり、助詞やそれに相当
する表現に含まれている。このようなモダリティと、自
立語自体に内在する意図を組み合わせることにより文書
の意図を把握することができる。
【0009】
【発明が解決しようとする課題】ところで、ユーザから
送られてきた電子メールをその意図(例えば、製品の不
具合を指摘する意図)によって分類し、更に、同一の意
図を有する電子メールをその視点(例えば、問題が発生
した部位、症状、または、状態等)によって分類する必
要がある。
【0010】しかし、最初に説明した方法では、文書に
含まれているキーワードの類似関係のみによって文書が
分類されるので、ユーザの意図や視点に応じて文書を正
確に分類することが困難であるという問題点があった。
【0011】また、第2番目の方法では、抽出される同
じ属性どうしの2語に関係があるわけではないので、述
語が異なる別の主語を同一視してしまい、その結果、文
書の「意図」や「視点」による分類を行うことができな
いという問題点があった。例えば、「What」に相当
する語が「問題」のキーワードであるか否かの判定はで
きない。
【0012】また、第3番目および第4番目の方法にお
いては、助詞を利用する手法単独では、文書の「意図」
によるキーワードの抽出や分類に対して不十分であると
いう問題点があった。例えば、助詞「は」が付随すると
いう理由だけで、その部分が「問題」であるか否かは判
定できない。
【0013】更に、第5番目の方法では、利用する構文
情報が単語の出現順であるため、係り受けなどの構文の
属性は利用していない。その結果、単語の出現順にモダ
リティを組み合わせて問題表現を抽出しても、それを部
位別や症状(または状態)別に分類することはできない
という問題点があった。例えば、「光沢感がない」とい
う文から「光沢感」を視点とするキーワードを抽出する
ことができないという問題点である。つまり、もし抽出
しようとすると、「光沢感」「ない」がこの順で出現す
るパターンを抽出することになり、「光沢感がありにじ
みがない」という表現とマッチして不適切な抽出結果と
なるからである。
【0014】本発明はこのような点に鑑みてなされたも
のであり、文書から所定の意図を有する表現を抽出する
とともに、その結果により文書を複数の視点によって分
類することが可能な文書処理装置を提供することを目的
とする。
【0015】
【課題を解決するための手段】本発明では上記課題を解
決するために、図1に示す、入力された文書を分類して
その結果を出力する文書処理装置1において、文書が入
力される文書入力手段1aと、前記文書入力手段1aか
ら入力された文書を記憶する文書記憶手段1bと、前記
文書記憶手段1bに記憶されている文書から係り受け関
係を有する形態素群を抽出する形態素群抽出手段1c
と、前記形態素群抽出手段1cによって抽出された形態
素群を、その視点に応じて分類する形態素群分類手段1
dと、を有することを特徴とする文書処理装置が提供さ
れる。
【0016】ここで、文書入力手段1aは、文書が入力
される。文書記憶手段1bは、文書入力手段1aから入
力された文書を記憶する。形態素群抽出手段1cは、文
書記憶手段1bに記憶されている文書から係り受け関係
を有する形態素群を抽出する。形態素群分類手段1d
は、形態素群抽出手段1cによって抽出された形態素群
を、その視点に応じて分類する。
【0017】
【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して説明する。図1は、本発明の動作原理を説明
する原理図である。この図に示すように、本発明に係る
文書処理装置1は、文書入力手段1a、文書記憶手段1
b、形態素群抽出手段1c、形態素群分類手段1d、お
よび、文書分類手段1eによって構成されている。ま
た、その外部には、CRT(Cathode Ray Tube)モニタ
等の表示装置10が接続されている。
【0018】文書入力手段1aは、処理の対象となる複
数の文書(例えば、電子メール等)の入力を受ける。文
書記憶手段1bは、文書入力手段1aから入力された複
数の文書を記憶する。
【0019】形態素群抽出手段1cは、文書記憶手段1
bに記憶されている文書から係り受け関係を有する形態
素群を抽出する。形態素群分類手段1dは、形態素群抽
出手段1cによって抽出された形態素群を、その視点に
応じて分類する。
【0020】文書分類手段1eは、文書記憶手段1bに
記憶されている文書を、形態素群分類手段1dの分類結
果に応じて分類し、分類結果を表示装置10に供給して
表示させる。
【0021】次に、以上の原理図の動作について説明す
る。例えば、文書処理装置1がメーカ側に設置されてい
る場合に、ユーザから複数の電子メールが届いた場合に
は、これらの電子メールは文書入力手段1aによって入
力される。
【0022】文書入力手段1aから入力された電子メー
ルは、文書記憶手段1bに供給されてそこに記憶され
る。形態素群抽出手段1cは、例えば、表現「作業性が
悪い」における「作業性」を係り側、「悪(い)」を受
け側、「が」を関係とする形態素群として抽出する。
【0023】形態素群分類手段1dは、抽出された形態
素群を分類するための規則と、各形態素の概念(または
上位概念)を導出する情報とを有しており、これらの情
報に基づいて形態素群を「視点」に応じて分類する。
【0024】例えば、いまの例では、先ず、形態素「作
業性」の上位概念は「使い勝手」であることが判定され
る。そして、係り側が「使い勝手」であり、受け側が
「悪(い)」である場合に対応する規則が存在するか否
かが判定される。もし、このような規則が存在している
とすれば、この表現は抽出され、同規則に応じて係り側
の形態素「作業性」が、視点「症状/状態」を示すと判
定される。
【0025】文書分類手段1eは、形態素群分類手段1
dの分類結果に応じて、その形態素群を含むもとの文書
を、クラスタに分類する。例えば、「作業性が悪い」と
いう表現を含む文書は、視点が「症状/状態」であり、
クラスタが「使い勝手」である文書として分類されるこ
とになる。
【0026】文書分類手段1eの分類結果は、表示装置
10に供給されて表示されることになる。以上に説明し
たように、本発明に係る文書処理装置によれば、係り受
け関係を有する形態素群に対して所定の規則を適用する
ことにより視点毎に分類し、その結果に応じて文書を分
類表示するようにしたので、文書作成者の「意図」や
「視点」に応じて文書を適切に分類することが可能とな
る。
【0027】次に、本発明の実施の形態について説明す
る。図2は、本発明の実施の形態の構成例を示す図であ
る。この図に示すように、本発明に係る文書処理装置2
0は、文書群保持部20a、係り受け抽出部20b、問
題表現抽出部20c、シソーラス20d、分類部20
e、および、視点指定部20fによって構成されてお
り、その外部にはCRTモニタ等によって構成される表
示装置30が接続されている。
【0028】文書群保持部20aは、処理の対象となる
文書群を格納している。なお、文書はテキストを含んで
おり、テキストは1以上の文によって構成されているも
のとする。
【0029】係り受け抽出部20bは、文書群保持部2
0aに格納されている全ての文書に対して形態素解析処
理を施し、形態素を抽出するとともに、各形態素の係り
受け関係を解析する。
【0030】問題表現抽出部20cは、係り受け関係と
視点との対応関係を示す抽出規則その他に基づいて、
「問題」を指摘する意図で作成された表現(以下、問題
表現と称す)を抽出する。
【0031】シソーラス20eは、形態素の表層(文中
に現れる表現)、品詞候補の集合、および、概念とを対
応付けた表層リストと、概念の階層構造を示す概念シソ
ーラスとを有しており、問題表現抽出部20cおよび分
類部20eがそれぞれ処理を行う場合に必要な情報を提
供する。
【0032】分類部20eは、問題表現抽出部20cに
よる処理結果に応じて、ボトムアップ階層クラスタリン
グ処理により、各視点に対応する文書をクラスタリング
する処理を行う。
【0033】視点指定部20fは、ユーザから特定の
「視点」の入力を受け、分類部20eに供給する。分類
部20eでは、視点指定部20fから供給された「視
点」に対応する文書を表示装置30に表示させる。
【0034】次に、以上の実施の形態の動作について説
明する。いま、文書群保持部20aに対して以下の文書
が入力されて格納されたとする。
【0035】「原稿受け部への排出性が悪く、原稿が丸
まってしまったり、スムーズにトレイ上に排出されず、
作業性が悪い。原稿排出部に問題があるのかほとんどの
お客様で排出性と収容性が悪いといっている。」以下で
は、以上を文書1として説明を行う。
【0036】係り受け抽出部20bは、文書群保持部2
0aに保持されている文書に対して形態素解析処理を施
すことにより、文書に含まれている形態素を抽出する。
図3は、前述した文書1に対して形態素解析処理を施し
た結果得られる結果である。この図に示すように、文書
1は、「原稿受け部・・・悪い。」までが文番号“0”
の文とされ、また、「原稿排出部・・・悪いといってい
る。」までが文番号“1”の文とされ、それぞれの文に
含まれている形態素がその出現位置に応じて格納されて
いる。
【0037】次に、係り受け抽出部20bは、抽出され
た形態素に対して係り受け抽出処理を施し、係り受け関
係を抽出する。図4は、文書1に対して係り受け抽出処
理を施した場合の結果である。この例では、関係No.
で示されるように、13個の係り受け関係が抽出されて
いる。なお、関係No.が“0”〜“5”までは文番号
“0”の文から抽出された係り受け関係であり、また、
関係No.が“6”〜“12”までは文番号“1”の文
から抽出された係り受け関係である。
【0038】各係り受け関係は、係り側形態素の出現位
置と表層、関係、および、受け側の形態素の出現位置と
表層によって記述されている。例えば、関係No.が
“0”の係り受け関係では係り側の表層は「原稿」であ
り、その出現位置は“0”である。また、受け側の表層
は「受け部」であり、その出現位置は“1”である。更
に、これらの関係の表層は「φ」(存在しない(直結))
であることが分かる。
【0039】問題表現抽出部20cは、係り受け抽出部
20bによって抽出された係り受け関係を構成する形態
素(表層)を、シソーラス20dに格納されている表層
リストを参照して概念化する。
【0040】図5は、表層リストの一例を示す図であ
る。この図に示すように、表層リストは、表層、品詞候
補、および、概念の関係を示したものである。問題表現
抽出部20cは、このようは表層リストを参照して、表
層を概念化する処理を行う。例えば、表層「トレイ」
は、概念「排出系」に概念化されることになる。
【0041】次に、問題表現抽出部20cは、図6に示
す抽出規則と、図7に示す概念シソーラスを参照して、
先に抽出した係り受け関係から、更に、所定の視点を含
むものを抽出する。
【0042】例えば、図4に示す関係No.が“4”で
ある「トレイ上」「に/れる」「排出(されず)」を例
に挙げると、前述のように、係り側の「トレイ上」の
「トレイ」は、図5に示す表層リストから概念が「排出
性」であると判定される。また、受け側の「排出(され
ず)」の「排出」は、同様にして「排出系」が概念であ
ると判定される。
【0043】図7に示す概念シソーラスから、係り側の
「トレイ」の概念である「排出系」は、概念「用紙走行
系」に包含され、更に、概念「部位」に包含されている
ことが分かる。即ち、「排出系」は「部位」の下位概念
であることが分かる。また、受け側の「排出」の概念で
ある「排出性」は、概念「原稿」に包含され、更に、概
念「品質」および概念「症状/機能」に包含されている
ことが分かる。
【0044】従って、以上の結果から、関係No.が
“4”である関係は、係り側が「部位(+“上”)」で
あり、関係が「に、に/れる、で、への」であり、ま
た、受け側が「症状/状態(+“されない”)」である
ルール番号が“Rn”の規則に該当していることが分か
る。その結果、係り側が視点「部位」を示し、受け側が
視点「症状/状態」を示していることがこの規則から判
明する。
【0045】なお、図6において、係り側と受け側のそ
れぞれに記載されている「異常」は、「異常表現」を示
している。ここで、異常表現とは、その語単独で「異
常」を示す語であり、例えば、「かすれ」、「ぼけ」、
「ぬけ」等が該当する。また、異常表現が「偽」である
とは、異常表現に該当しないことを示している。なお、
このような異常表現に該当するか否かの判断は、図7に
示す、概念シソーラスにおいて、異常マーク(異)が付
与された概念との包含関係によって判断することができ
る。例えば、概念「かすれ」は、異常マーク(異)が付
与された概念「異常印字」に包含されていることから、
異常表現であることが分かる。
【0046】なお、このように異常表現か否かを判定す
る理由は、異常表現は否定的な意味を有しているので、
2重否定によって肯定文的な文となり、対象とする問題
表現に属さない場合があるため、このような表現を除外
するためである。例えば、「にじみがない」がこのよう
な表現に該当する。
【0047】以上の処理の結果、図8に示すような結果
を得る。この例では、ルール番号が“Rm”である規則
によって関係No.が“2”と“5”の関係が抽出され
ている。また、ルール番号が“Rn”である規則によっ
て関係No.が“4”である関係が抽出されている。
【0048】このようにして抽出された問題表現に該当
する関係からは、その視点を特定することができる。例
えば、関係No.が“2”である関係では、係り側であ
る「排出性」が視点「症状/状態」に該当することが分
かる。また、関係No.が“4”である関係では、係り
側である「トレイ」が視点「部位」に該当し、また、受
け側である「排出」が視点「症状/状態」に該当してい
る。以上の結果をまとめたのが図9である。
【0049】問題表現抽出部20cの処理結果のデータ
(図9参照)は、分類部20eに供給される。分類部2
0eは、問題表現抽出部20cによる処理結果を受け、
公知技術である「ボトムアップクラスタリング処理」に
より文書を分類する。この処理の様子を、図10〜図1
4を参照して説明する。
【0050】分類部20eは、問題表現抽出部20cの
処理結果を取得し、シソーラス20dに格納されている
概念シソーラスの各ノードに対してマッピングする。例
えば、図9に示す関係No.が“2”である関係は、形
態素「排出性」を含んでおり、表層リストからその概念
が「排出性」であるので、図10に示す、「症状/機
能」から分岐する最下層のノード「排出性」に文書1が
マッピングされる。なお、ノード「排出性」に付加され
ている数字“7”は、視点「症状/状態」としての概念
「排出性」を含む文書が“7”個あることを示してい
る。
【0051】また、図9に示す関係No.が“4”であ
る関係は、形態素「トレイ」と形態素「排出」を含んで
おり、表層リストからそれぞれの概念が「排出系」と
「排出性」であるので、図10に示す、「部位」から分
岐する最下層のノード「排出系」と、「症状/状態」か
ら分岐する最下層のノード「排出性」のそれぞれに文書
1がマッピングされる。
【0052】このようにして作成された図10に示す概
念シソーラスを用いて、以下に示す条件を満足する概念
を対象概念として、対象概念が有する文書数のうち最小
のもの(最小文書数)が所定の閾値(例えば“10”)
に達するか、または、対象概念の全ての上位概念が「部
位」または「症状/状態」になるまで、最小文書数の概
念を持つ文書を概念シソーラスにおける上位概念に移動
し、対象概念を再計算する操作を繰り返す。前述した条
件を以下に示す。なお、閾値が“10”以上となった概
念はクラスタとなるものとする。 (1)概念シソーラス中の概念「部位」または概念「症
状/状態」に包含される概念である。 (2)1個以上の文書を有する。 (3)自身の全ての下位概念が何れも文書を有しない。
【0053】具体的な処理の一例について説明する。以
上に示す条件(1)〜(3)を図10に示す概念シソー
ラスの「症状/状態」に包含される概念に対して適応す
ると、下線を付した概念「作業性」、「収容性」、「排
出性」、「印字品質」が対象概念として選択される。
【0054】これらの中で、文書数が最小である概念
(最小文書数の概念)は、「印字品質」であるので、こ
れを上位概念である「品質」に対して移動する。その結
果、図11に示すように、「品質」の文書数は“3”に
なる。なお、このとき、文書数aの概念C1を文書数b
の上位概念C0に移動するとき、C1,C0をともに概
念とする文書の文書数がcである場合には、移動したあ
とのC0の文書数は、a+b−cとし、重複する部分を
排除する。
【0055】図11に示す状態では、概念「品質」は概
念「症状/状態」の直下の概念となるので、対象概念か
らは除外され、その結果、「作業性」、「収容性」、
「排出性」が対象概念とされ、この中から、文書数が最
小である概念「作業性」が移動の対象となる。
【0056】概念「作業性」が移動されると、図12に
示す結果を得る。このとき、概念「使い勝手」の文書数
は“10”となって前述した閾値(=10)以上となっ
ているので、クラスタとされるとともに、対象概念から
除外される。なお、この図では、長円で囲繞されている
概念がクラスタである。
【0057】次に、文書数が最小である「排出性」が移
動の対象となり、図13に示すように、その上位概念で
ある「原稿」の文書数が“8”に変更される。続いて、
概念「収容性」が移動の対象とされ、図14に示すよう
に、その上位概念である「原稿」の文書数が“16”に
更新され、閾値以上となってこの概念「原稿」はクラス
タとなる。
【0058】その結果、「症状/状態」に包含されてい
る対象概念の文書数は、全て“10”以上となるので、
処理を終了する。分類部20eにおいて分類処理が完了
すると、視点指定部20fから入力された視点を参照
し、分類結果を表示装置30に対して表示する。
【0059】図15は、表示装置30に表示される画面
の表示例である。この例では、「分類結果」と題された
ウィンドウ40が表示されており、ウィンドウ40の右
上部には、このウィンドウを縮小、拡大、終了する場合
にそれぞれ操作されるボタン40a〜40cが表示され
ている。
【0060】また、ウィンドウ40の表示領域の最上部
左には、視点を選択するためのテキストボックス40d
が表示されており、この例では、視点「症状/状態」が
選択されている。なお、ボタン40eを操作することに
より表示されるプルダウンメニューから所望の項目を選
択することにより、視点を変更することも可能である。
例えば、視点「部位」が選択された場合には、表示内容
が一新されることになる。
【0061】ボタン40fは、分類結果に関するグラフ
を表示する際に操作される。なお、このボタン40fが
操作された場合については後述する。結果表示部40g
には、分類の結果得られたクラスタと、そのクラスタに
含まれている文書数、および、文書名が表示されてい
る。例えば、クラスタ「原稿」に対して含まれる文書数
は“16”であり、また、文書名は「文書1」、「文書
3」、「文書6」、「文書14」、・・・である。な
お、領域内に表示されていない文書名に関しては、ボタ
ン40h,40jやスライドボタン40iを操作するこ
とにより表示させることができる。
【0062】領域40kには、結果表示部40gにおい
てユーザが選択したクラスタに対応する表現が表示され
る。この例では、結果表示部40gにおいて選択されて
いる(網かけ表示されている)「原稿」に対応する表現
「原稿が丸まって」、「収容性が悪い」が表示されてい
る。なお、表現「収容性が悪い」は、図7に示す概念シ
ソーラスにおいて、下位概念である「収容性」から上位
概念である「原稿」に移動したものであると考えられ
る。
【0063】領域40mには、結果表示部40gにおい
てユーザが選択した文書名に対応する文書が表示され
る。この例では、結果表示部40gにおいて選択されて
いる(網かけ表示されている)「文書1」に対応する文
書の内容が表示されていおり、クラスタ「原稿」に含ま
れている表現に対応する部分「原稿が丸まって」、「収
容性が悪い」が網かけ表示されている。
【0064】なお、ウィンドウ40において、ボタン4
0fが操作された場合には、図16に示す画面が表示さ
れることになる。この表示例では、「グラフ」と題され
たウィンドウ50が表示されており、その右上部には、
このウィンドウ50を縮小、拡大、終了する場合にそれ
ぞれ操作されるボタン50a〜50cが表示されてい
る。また、表示領域50dには、各クラスタの関係が円
によって示されている。なお、各円の包含関係は、クラ
スタどうしの包含関係を示しており、また、各円の面積
は各クラスタに含まれている文書数に対応している。
【0065】次に、以上の説明のまとめとして、図2に
示す実施の形態で実行される処理の概要を示すフローチ
ャートを図17を参照して説明する。このフローチャー
トが開始されると、以下の処理が実行されることにな
る。 [S1]係り受け抽出部20bは、文書群保持部20a
に格納されている文書群を取得して形態素解析処理を施
し、各文書に含まれている形態素を抽出する。 [S2]係り受け抽出部20bは、抽出した形態素の係
り受け関係を抽出する。 [S3]問題表現抽出部20cは、抽出した形態素の関
係に対して所定の規則を適用し、問題表現を抽出する。 [S4]分類部20eは、ボトムアップ階層クラスタリ
ング処理により、文書を分類する。 [S5]分類部20eは、視点指定部20fから供給さ
れた視点に基づいて、分類した文書を表示装置30に対
して表示する。
【0066】なお、以上の実施の形態においては、視点
指定部20fから入力された視点に対応する情報を選択
して表示装置30に対して表示するようにしたが、指定
された視点に関する係り受け関係のみに対して処理を実
行するようにしてもよい。そのような処理によれば、情
報の処理量を減少させることが可能となるので、分類処
理を迅速に実行することが可能となる。
【0067】次に、本発明の第2の実施の形態について
説明する。図18は、本発明の第2の実施の形態の構成
例を示す図である。なお、この図において、図2の場合
と対応する部分には同一の符号を付してあるのでその説
明は省略する。
【0068】この図において、図2の場合と比較して否
定表現判定部60が新たに追加されている。その他の部
分は、図2の場合と同様である。否定表現判定部60
は、否定表現であるか否かを判定し、その結果を、問題
表現抽出部20cに供給する。
【0069】即ち、「問題」という意図で文書を分類す
る場合、「トレイ上に排出されない」等のような否定の
意味を有する付属語がポイントとなるが、このような付
属語を含む表現のパターンは多数存在する。図2に示す
実施の形態では、このような全てのパターンを問題表現
抽出部20cに規則として準備しておく必要があるの
で、規則の数が膨大となり、煩雑である。
【0070】そこで、第2の実施の形態では、図19に
示すような否定表現を規則化した情報を、否定表現判定
部60に具備しておき、この情報に応じて否定表現であ
るか否かを判定する。
【0071】次に、以上の実施の形態の動作について、
図2の場合と異なる部分を中心に説明する。問題表現抽
出部20cは、係り受け抽出部20bから供給された形
態素が否定表現に該当するか否かを判定する。例えば、
「(トレイ上に)排出されない」を例に挙げると、これ
は、図19から、動詞「排出」(State1)、助動
詞「され」(State4)、および、否定語「ない」
(State6)が結合した表現であるので、否定語で
あると判定されることになる。
【0072】問題表現抽出部20cは、否定表現判定部
60の判定結果を受け、対象となる関係に対して規則を
適用し、問題表現を抽出する。図20は、このとき適用
される規則の一例を示す図である。この例では、図6の
場合に比較して、受け側と係り側のそれぞれに項目「否
定」が追加されている。項目「否定」は、係り側または
受け側が否定表現であるか否かを示し、例えば、ルール
番号“Rn”の規則では、項目「否定」が「真」になっ
ているので、受け側が「症状/状態」を示す否定表現で
ある場合には規則に該当することになる。
【0073】例えば、「トレイ上に排出されない」の場
合では、受け側となる「排出されない」は、前述したよ
うに否定表現判定部60によって否定表現であることが
分かっており、また、形態素「排出」が「症状/状態」
を示す概念に包含されることから、ルール番号“Rn”
の規則に該当することが分かる。
【0074】前述した文書1に対して、図20に示す規
則を適用した結果を図21に示す。この図の例では、図
8の場合と比較して、項目「否定」が追加されている。
この項目「否定」が「真」となっているものは、否定表
現を含むことを示しており、先に述べた表現「トレイ上
に排出されない」の受け側が「真」に設定されている。
【0075】また、以上の結果をまとめたのが図22で
ある。この図においても、表現「トレイ上に排出されな
い」の受け側が「真」に設定されている。以上のように
して規則を適用することによって得られた問題表現は、
分類部20eに供給され、第1の実施の形態の場合と同
様の処理により、文書の分類処理が実行され、得られた
結果が表示装置30に表示される。
【0076】以上の実施の形態によれば、否定表現判定
部60により、否定表現を判定するようにしたので、問
題表現抽出部20cが具備する規則に全ての否定表現を
網羅する必要がなくなり、結果として、装置を簡略化す
ることが可能となる。
【0077】なお、以上の実施の形態においては、問題
表現抽出部20cの処理結果を受けて分類部20eが文
書を分類して表示するようにしたが、問題表現抽出部2
0cによって抽出された所定の視点を有する形態素を表
示装置30にそのまま表示させるようにしてもよい。こ
のような処理によれば、文書から所定の視点を有するキ
ーワードを抽出することが可能となる。
【0078】また、以上の実施の形態では、意図が「問
題」である表現を抽出するようにしたが、本発明はこの
ような場合のみに限定されるものではなく、その他にも
種々の適用が考えられる。
【0079】最後に、上記の処理機能は、コンピュータ
によって実現することができる。その場合、文書処理装
置が有すべき機能の処理内容は、コンピュータで読み取
り可能な記録媒体に記録されたプログラムに記述されて
おり、このプログラムをコンピュータで実行することに
より、上記処理がコンピュータで実現される。コンピュ
ータで読み取り可能な記録媒体としては、磁気記録装置
や半導体メモリ等がある。市場へ流通させる場合には、
CD−ROM(Compact Disk Read Only Memory)やフロ
ッピーディスク等の可搬型記録媒体にプログラムを格納
して流通させたり、ネットワークを介して接続されたコ
ンピュータの記憶装置に格納しておき、ネットワークを
通じて他のコンピュータに転送することもできる。コン
ピュータで実行する際には、コンピュータ内のハードデ
ィスク装置等にプログラムを格納しておき、メインメモ
リにロードして実行する。
【0080】
【発明の効果】以上説明したように本発明では、入力さ
れた文書を分類してその結果を出力する文書処理装置に
おいて、文書が入力される文書入力手段と、文書入力手
段から入力された文書を記憶する文書記憶手段と、文書
記憶手段に記憶されている文書から係り受け関係を有す
る形態素群を抽出する形態素群抽出手段と、形態素群抽
出手段によって抽出された形態素群を、その視点に応じ
て分類する形態素群分類手段と、を有するようにしたの
で、文書から所定の視点を有するキーワードを抽出する
ことが可能となる。
【図面の簡単な説明】
【図1】 本発明の動作原理を説明する原理図である。
【図2】 本発明の実施の形態の構成例である。
【図3】 図2に示す係り受け抽出部が文書に対して形
態素解析処理を施した結果得られる形態素群である。
【図4】 図2に示す係り受け抽出部が形態素解析処理
の結果抽出された形態素群に対して係り受け抽出処理を
施した結果得られた係り受け関係の一例である。
【図5】 図2に示すシソーラスが有している表層リス
トの一例を示す図である。
【図6】 図2に示す問題表現抽出部が有している抽出
規則の一例を示す図である。
【図7】 図2に示すシソーラスが有している概念シソ
ーラスの一例を示す図である。
【図8】 図2に示す問題表現抽出部の抽出規則によっ
て抽出された結果の一例を示す図である。
【図9】 図8に示す結果をまとめた図である。
【図10】 図2に示す分類部において実行されるボト
ムアップ階層クラスタリング処理の一例を説明する図で
ある。
【図11】 図2に示す分類部において実行されるボト
ムアップ階層クラスタリング処理の一例を説明する図で
ある。
【図12】 図2に示す分類部において実行されるボト
ムアップ階層クラスタリング処理の一例を説明する図で
ある。
【図13】 図2に示す分類部において実行されるボト
ムアップ階層クラスタリング処理の一例を説明する図で
ある。
【図14】 図2に示す分類部において実行されるボト
ムアップ階層クラスタリング処理の一例を説明する図で
ある。
【図15】 表示装置に表示される表示画面の一例であ
る。
【図16】 図15に示すボタン40fが操作された場
合に表示される画面の表示例である。
【図17】 図2に示す実施の形態において実行される
処理の一例を説明するフローチャートである。
【図18】 本発明の第2の実施の形態の構成例であ
る。
【図19】 図18に示す否定表現判定部に格納されて
いる情報の一例を示す図である。
【図20】 図18に示す問題表現抽出部が有する抽出
規則の一例である。
【図21】 図18に示す問題表現抽出部によって抽出
された問題表現の一例を示す図である。
【図22】 図21をまとめた図である。
【符号の説明】
1 文書処理装置 1a 文書入力手段 1b 文書記憶手段 1c 形態素群抽出手段 1d 形態素群分類手段 1e 文書分類手段 10 表示装置 20 文書処理装置 20a 文書群保持部 20b 係り受け抽出部 20c 問題表現抽出部 20d シソーラス 20e 分類部 20f 視点指定部 30 表示装置
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5B075 ND03 ND35 NK02 NK13 NK24 NK32 NK43 NR03 NR12 PQ02 PQ20 PR06 QM08 UU06 5B091 AA15 CA02 DA10

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 入力された文書を分類してその結果を出
    力する文書処理装置において、 文書が入力される文書入力手段と、 前記文書入力手段から入力された文書を記憶する文書記
    憶手段と、 前記文書記憶手段に記憶されている文書から係り受け関
    係を有する形態素群を抽出する形態素群抽出手段と、 前記形態素群抽出手段によって抽出された形態素群を、
    その視点に応じて分類する形態素群分類手段と、 を有することを特徴とする文書処理装置。
  2. 【請求項2】 前記文書記憶手段に記憶されている文書
    を、前記形態素群分類手段の分類結果に応じて分類する
    文書分類手段を更に有することを特徴とする請求項1記
    載の文書処理装置。
  3. 【請求項3】 前記形態素群分類手段は、前記形態素群
    を対応する概念にそれぞれ概念化し、所定の規則を適用
    することにより分類を行うことを特徴とする請求項1記
    載の文書処理装置。
  4. 【請求項4】 特定の視点の入力を受ける視点入力手段
    を更に有し、 前記形態素群分類手段は、前記視点入力手段から入力さ
    れた視点に応じて、前記形態素群の分類を行うことを特
    徴とする請求項1記載の文書処理装置。
  5. 【請求項5】 特定の視点の入力を受ける視点入力手段
    を更に有し、 前記文書分類手段は、前記視点入力手段から入力された
    視点に応じて、前記文書の分類を行うことを特徴とする
    請求項1記載の文書処理装置。
  6. 【請求項6】 前記形態素群分類手段は、意図が「問
    題」である表現の「部位」と、「症状/状態」とを視点
    として分類を行うことを特徴とする請求項1記載の文書
    処理装置。
  7. 【請求項7】 否定表現であるか否かを判定する否定表
    現判定手段を更に有し、 前記形態素群分類手段は、前記否定表現判定手段の判定
    結果を参照して、前記形態素群の分類を行うことを特徴
    とする請求項6記載の文書処理装置。
  8. 【請求項8】 入力された文書を分類してその結果を出
    力する文書処理をコンピュータに実行させるプログラム
    を記録したコンピュータ読み取り可能な記録媒体におい
    て、 コンピュータを、 文書が入力される文書入力手段、 前記文書入力手段から入力された文書を記憶する文書記
    憶手段、 前記文書記憶手段に記憶されている文書から係り受け関
    係を有する形態素群を抽出する形態素群抽出手段、 前記形態素群抽出手段によって抽出された形態素群を、
    その視点に応じて分類する形態素群分類手段、 として機能させるプログラムを記録したコンピュータ読
    み取り可能な記録媒体。
JP27574299A 1999-09-29 1999-09-29 文書処理装置および文書処理方法 Expired - Fee Related JP3925003B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP27574299A JP3925003B2 (ja) 1999-09-29 1999-09-29 文書処理装置および文書処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP27574299A JP3925003B2 (ja) 1999-09-29 1999-09-29 文書処理装置および文書処理方法

Publications (3)

Publication Number Publication Date
JP2001101199A true JP2001101199A (ja) 2001-04-13
JP2001101199A5 JP2001101199A5 (ja) 2004-11-11
JP3925003B2 JP3925003B2 (ja) 2007-06-06

Family

ID=17559771

Family Applications (1)

Application Number Title Priority Date Filing Date
JP27574299A Expired - Fee Related JP3925003B2 (ja) 1999-09-29 1999-09-29 文書処理装置および文書処理方法

Country Status (1)

Country Link
JP (1) JP3925003B2 (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004303198A (ja) * 2003-03-18 2004-10-28 Ricoh Co Ltd 文書処理装置、文書処理方法および文書処理プログラム
JP2006039811A (ja) * 2004-07-26 2006-02-09 Fuji Xerox Co Ltd ドキュメント管理プログラム、ドキュメント管理方法、及びドキュメント管理装置
JP2006185219A (ja) * 2004-12-28 2006-07-13 Yoshiaki Nagai 述語論理式作成装置、会計仕訳ルール作成装置、会計仕訳装置、述語論理式作成プログラム、会計仕訳ルール作成プログラム、及び、会計仕訳プログラム
JP2006323517A (ja) * 2005-05-17 2006-11-30 Mitsubishi Electric Corp テキスト分類装置およびプログラム
JP2006338133A (ja) * 2005-05-31 2006-12-14 Ntt Data Corp 情報抽出装置、情報抽出方法及びプログラム
JP2007257149A (ja) * 2006-03-22 2007-10-04 Ricoh Co Ltd 文書処理装置及び文書処理方法
JP2009134378A (ja) * 2007-11-29 2009-06-18 Hitachi Systems & Services Ltd 文書群提示装置および文書群提示プログラム
US7715631B2 (en) 2004-05-12 2010-05-11 Fujitsu Limited Method and apparatus for extracting feature information, and computer product
WO2012147428A1 (ja) * 2011-04-27 2012-11-01 日本電気株式会社 テキストクラスタリング装置、テキストクラスタリング方法、およびコンピュータ読み取り可能な記録媒体
JP2014130613A (ja) * 2014-02-06 2014-07-10 Nomura Research Institute Ltd 談話要約生成システムおよび談話要約生成プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05290083A (ja) * 1992-04-14 1993-11-05 Toshiba Corp 文書作成支援装置
JPH0973315A (ja) * 1995-09-07 1997-03-18 Mitsubishi Electric Corp 設備故障診断装置
JPH0991314A (ja) * 1995-07-14 1997-04-04 Fuji Xerox Co Ltd 情報探索装置
JPH10320411A (ja) * 1997-05-21 1998-12-04 N Ii C Joho Syst:Kk 文書分類装置、方法及び文書分類プログラムを記録した記録媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05290083A (ja) * 1992-04-14 1993-11-05 Toshiba Corp 文書作成支援装置
JPH0991314A (ja) * 1995-07-14 1997-04-04 Fuji Xerox Co Ltd 情報探索装置
JPH0973315A (ja) * 1995-09-07 1997-03-18 Mitsubishi Electric Corp 設備故障診断装置
JPH10320411A (ja) * 1997-05-21 1998-12-04 N Ii C Joho Syst:Kk 文書分類装置、方法及び文書分類プログラムを記録した記録媒体

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004303198A (ja) * 2003-03-18 2004-10-28 Ricoh Co Ltd 文書処理装置、文書処理方法および文書処理プログラム
JP4585768B2 (ja) * 2003-03-18 2010-11-24 株式会社リコー 文書処理装置、文書処理方法および文書処理プログラム
US7715631B2 (en) 2004-05-12 2010-05-11 Fujitsu Limited Method and apparatus for extracting feature information, and computer product
JP2006039811A (ja) * 2004-07-26 2006-02-09 Fuji Xerox Co Ltd ドキュメント管理プログラム、ドキュメント管理方法、及びドキュメント管理装置
JP4525224B2 (ja) * 2004-07-26 2010-08-18 富士ゼロックス株式会社 ドキュメント管理プログラム、ドキュメント管理方法、及びドキュメント管理装置
JP2006185219A (ja) * 2004-12-28 2006-07-13 Yoshiaki Nagai 述語論理式作成装置、会計仕訳ルール作成装置、会計仕訳装置、述語論理式作成プログラム、会計仕訳ルール作成プログラム、及び、会計仕訳プログラム
JP4709543B2 (ja) * 2004-12-28 2011-06-22 永井 義明 述語論理式作成装置、会計仕訳ルール作成装置、会計仕訳装置、述語論理式作成プログラム、会計仕訳ルール作成プログラム、及び、会計仕訳プログラム
JP2006323517A (ja) * 2005-05-17 2006-11-30 Mitsubishi Electric Corp テキスト分類装置およびプログラム
JP4694258B2 (ja) * 2005-05-31 2011-06-08 株式会社エヌ・ティ・ティ・データ 情報抽出装置、情報抽出方法及びプログラム
JP2006338133A (ja) * 2005-05-31 2006-12-14 Ntt Data Corp 情報抽出装置、情報抽出方法及びプログラム
JP2007257149A (ja) * 2006-03-22 2007-10-04 Ricoh Co Ltd 文書処理装置及び文書処理方法
JP2009134378A (ja) * 2007-11-29 2009-06-18 Hitachi Systems & Services Ltd 文書群提示装置および文書群提示プログラム
WO2012147428A1 (ja) * 2011-04-27 2012-11-01 日本電気株式会社 テキストクラスタリング装置、テキストクラスタリング方法、およびコンピュータ読み取り可能な記録媒体
JP5534280B2 (ja) * 2011-04-27 2014-06-25 日本電気株式会社 テキストクラスタリング装置、テキストクラスタリング方法、およびプログラム
JP2014130613A (ja) * 2014-02-06 2014-07-10 Nomura Research Institute Ltd 談話要約生成システムおよび談話要約生成プログラム

Also Published As

Publication number Publication date
JP3925003B2 (ja) 2007-06-06

Similar Documents

Publication Publication Date Title
US9857946B2 (en) System and method for evaluating sentiment
Kiryakov et al. Semantic annotation, indexing, and retrieval
Ashi et al. Pre-trained word embeddings for Arabic aspect-based sentiment analysis of airline tweets
US9501467B2 (en) Systems, methods, software and interfaces for entity extraction and resolution and tagging
Rai Identifying key product attributes and their importance levels from online customer reviews
JP3577819B2 (ja) 情報探索装置及び情報探索方法
JP2006251866A (ja) 情報処理装置および方法、プログラム、並びに記録媒体
US20120046937A1 (en) Semantic classification of variable data campaign information
JP3925003B2 (ja) 文書処理装置および文書処理方法
Prudhvi et al. Text summarization using natural language processing
Sajous et al. Semi-automatic enrichment of crowdsourced synonymy networks: the WISIGOTH system applied to Wiktionary
Belkebir et al. TALAA-ATSF: a global operation-based arabic text summarization framework
JP4876692B2 (ja) テキストマイニング装置、テキストマイニングプログラム、及びテキストマイニング方法
JP2004145626A (ja) 文書分類支援装置およびコンピュータプログラム
Pandita et al. A literature survey of sentiment analysis based on E-commerce reviews
JP2000194721A (ja) 文書群分類装置および文書群分類方法
Liu et al. Semi-supervised Sentiment Analysis for Under-Resourced Languages with a Sentiment Lexicon.
JP2002183175A (ja) テキストマイニング方法
Hirchoua et al. Topic hierarchies for knowledge capitalization using hierarchical Dirichlet processes in big data context
Sanda et al. Opinion mining feature-level using Naive Bayes and feature extraction based analysis dependencies
JP3943005B2 (ja) 情報検索プログラム
Pappas et al. Multilingual visual sentiment concept clustering and analysis
Kumar et al. Multimodal Sentiment Analysis using Kernel Based Support Vector Machine
JPH11203318A (ja) 文書分類方法および装置並びに文書分類処理プログラムを記録した記録媒体
Lemaire Distance education technology for prosthetic CAD/CAM instruction

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20061110

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061121

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070219

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110309

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120309

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130309

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130309

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140309

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees