JP2001101199A - 文書処理装置 - Google Patents
文書処理装置Info
- Publication number
- JP2001101199A JP2001101199A JP27574299A JP27574299A JP2001101199A JP 2001101199 A JP2001101199 A JP 2001101199A JP 27574299 A JP27574299 A JP 27574299A JP 27574299 A JP27574299 A JP 27574299A JP 2001101199 A JP2001101199 A JP 2001101199A
- Authority
- JP
- Japan
- Prior art keywords
- document
- unit
- input
- viewpoint
- morpheme group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
る。 【解決手段】 文書入力手段1aからは、処理の対象と
なる文書が入力される。文書記憶手段1bは、文書入力
手段1aから入力された文書を記憶する。形態素群抽出
手段1cは、文書記憶手段1bに記憶されている文書か
ら係り受け関係を有する形態素群を抽出する。形態素群
分類手段1dは、形態素群抽出手段1cによって抽出さ
れた形態素群を、その視点に応じて分類する。文書分類
手段1eは、文書記憶手段1bに記憶されている文書
を、形態素群分類手段1dの分類結果に応じて分類し、
分類結果を表示装置10に対して表示する。
Description
し、特に、入力された文書を分類してその結果を出力す
る文書処理装置に関する。
り、製品に対するサポート等のサービスが電子メール等
によって行われる場合が多くなってきた。
メーカにとっては、品質管理や消費者のニーズの動向を
探る上で非常に重要な情報となる場合が多い。そこで、
情報の利用価値をより一層高める目的で、これらの情報
をその内容に応じて分類する手法が種々提案されてい
る。
合において、これらをその内容に応じて分類する手法と
しては、各文書1〜文書nのそれぞれに包含されている
単語群から単語ベクトル1〜単語ベクトルn(例えば、
日常単語である10万語の単語を基底とする10万次元
の単語ベクトル)をそれぞれ作成し、各単語ベクトルど
うしの内積を演算することにより、文書どうしの類似度
を算出し、類似度が高いものどうしでグループを形成す
ることにより、文書を分類することができる。
開示されている方法では、助詞と特徴文字(年/月/日
や市/町等)とを組み合わせて用いることにより、文書
から5W1Hに該当するキーワードを抽出し、ユーザが
入力した分類用の5W1H属性に対応する項目を有する
文書を選択することにより、所望の文書を選択する構成
とされている。
長尾真:構文情報を利用した電子ニュース記事のクラス
タリングシステムの作成と評価,情報処理学会研究報
告,Vol.98,No.63,pp.77〜84,1
998」では、文書に含まれている助詞の種類毎に重み
付けをした単語ベクトルによって文書をクラスタリング
する手法が提案されている。具体的には、例えば、「企
業」に注目する場合には、助詞「は」、「も」を有する
語に5倍の重みを与えるといった手法である。
佐原均:文末表現に着目した自由回答アンケートの分
類,情報処理学会研究報告,Vol.98,No.9
9,pp.181〜188,1998.」では、助詞を
利用して自由回答アンケートを「提案・要望」「賛成」
「反対」などの回答のタイプに分類する方法が提案され
ている。
テキストマイニング:膨大な文書データからの知識獲得
−意図の認識−,情報処理学会第57回全国大会,Vo
l.3,pp75〜76,1998.」では、モダリテ
ィと構文情報とを利用することにより文書の意図を認識
する方法が提案されている。モダリティとは、禁止・義
務・可能・要求等を表す表現であり、助詞やそれに相当
する表現に含まれている。このようなモダリティと、自
立語自体に内在する意図を組み合わせることにより文書
の意図を把握することができる。
送られてきた電子メールをその意図(例えば、製品の不
具合を指摘する意図)によって分類し、更に、同一の意
図を有する電子メールをその視点(例えば、問題が発生
した部位、症状、または、状態等)によって分類する必
要がある。
含まれているキーワードの類似関係のみによって文書が
分類されるので、ユーザの意図や視点に応じて文書を正
確に分類することが困難であるという問題点があった。
じ属性どうしの2語に関係があるわけではないので、述
語が異なる別の主語を同一視してしまい、その結果、文
書の「意図」や「視点」による分類を行うことができな
いという問題点があった。例えば、「What」に相当
する語が「問題」のキーワードであるか否かの判定はで
きない。
いては、助詞を利用する手法単独では、文書の「意図」
によるキーワードの抽出や分類に対して不十分であると
いう問題点があった。例えば、助詞「は」が付随すると
いう理由だけで、その部分が「問題」であるか否かは判
定できない。
情報が単語の出現順であるため、係り受けなどの構文の
属性は利用していない。その結果、単語の出現順にモダ
リティを組み合わせて問題表現を抽出しても、それを部
位別や症状(または状態)別に分類することはできない
という問題点があった。例えば、「光沢感がない」とい
う文から「光沢感」を視点とするキーワードを抽出する
ことができないという問題点である。つまり、もし抽出
しようとすると、「光沢感」「ない」がこの順で出現す
るパターンを抽出することになり、「光沢感がありにじ
みがない」という表現とマッチして不適切な抽出結果と
なるからである。
のであり、文書から所定の意図を有する表現を抽出する
とともに、その結果により文書を複数の視点によって分
類することが可能な文書処理装置を提供することを目的
とする。
決するために、図1に示す、入力された文書を分類して
その結果を出力する文書処理装置1において、文書が入
力される文書入力手段1aと、前記文書入力手段1aか
ら入力された文書を記憶する文書記憶手段1bと、前記
文書記憶手段1bに記憶されている文書から係り受け関
係を有する形態素群を抽出する形態素群抽出手段1c
と、前記形態素群抽出手段1cによって抽出された形態
素群を、その視点に応じて分類する形態素群分類手段1
dと、を有することを特徴とする文書処理装置が提供さ
れる。
される。文書記憶手段1bは、文書入力手段1aから入
力された文書を記憶する。形態素群抽出手段1cは、文
書記憶手段1bに記憶されている文書から係り受け関係
を有する形態素群を抽出する。形態素群分類手段1d
は、形態素群抽出手段1cによって抽出された形態素群
を、その視点に応じて分類する。
を参照して説明する。図1は、本発明の動作原理を説明
する原理図である。この図に示すように、本発明に係る
文書処理装置1は、文書入力手段1a、文書記憶手段1
b、形態素群抽出手段1c、形態素群分類手段1d、お
よび、文書分類手段1eによって構成されている。ま
た、その外部には、CRT(Cathode Ray Tube)モニタ
等の表示装置10が接続されている。
数の文書(例えば、電子メール等)の入力を受ける。文
書記憶手段1bは、文書入力手段1aから入力された複
数の文書を記憶する。
bに記憶されている文書から係り受け関係を有する形態
素群を抽出する。形態素群分類手段1dは、形態素群抽
出手段1cによって抽出された形態素群を、その視点に
応じて分類する。
記憶されている文書を、形態素群分類手段1dの分類結
果に応じて分類し、分類結果を表示装置10に供給して
表示させる。
る。例えば、文書処理装置1がメーカ側に設置されてい
る場合に、ユーザから複数の電子メールが届いた場合に
は、これらの電子メールは文書入力手段1aによって入
力される。
ルは、文書記憶手段1bに供給されてそこに記憶され
る。形態素群抽出手段1cは、例えば、表現「作業性が
悪い」における「作業性」を係り側、「悪(い)」を受
け側、「が」を関係とする形態素群として抽出する。
素群を分類するための規則と、各形態素の概念(または
上位概念)を導出する情報とを有しており、これらの情
報に基づいて形態素群を「視点」に応じて分類する。
業性」の上位概念は「使い勝手」であることが判定され
る。そして、係り側が「使い勝手」であり、受け側が
「悪(い)」である場合に対応する規則が存在するか否
かが判定される。もし、このような規則が存在している
とすれば、この表現は抽出され、同規則に応じて係り側
の形態素「作業性」が、視点「症状/状態」を示すと判
定される。
dの分類結果に応じて、その形態素群を含むもとの文書
を、クラスタに分類する。例えば、「作業性が悪い」と
いう表現を含む文書は、視点が「症状/状態」であり、
クラスタが「使い勝手」である文書として分類されるこ
とになる。
10に供給されて表示されることになる。以上に説明し
たように、本発明に係る文書処理装置によれば、係り受
け関係を有する形態素群に対して所定の規則を適用する
ことにより視点毎に分類し、その結果に応じて文書を分
類表示するようにしたので、文書作成者の「意図」や
「視点」に応じて文書を適切に分類することが可能とな
る。
る。図2は、本発明の実施の形態の構成例を示す図であ
る。この図に示すように、本発明に係る文書処理装置2
0は、文書群保持部20a、係り受け抽出部20b、問
題表現抽出部20c、シソーラス20d、分類部20
e、および、視点指定部20fによって構成されてお
り、その外部にはCRTモニタ等によって構成される表
示装置30が接続されている。
文書群を格納している。なお、文書はテキストを含んで
おり、テキストは1以上の文によって構成されているも
のとする。
0aに格納されている全ての文書に対して形態素解析処
理を施し、形態素を抽出するとともに、各形態素の係り
受け関係を解析する。
視点との対応関係を示す抽出規則その他に基づいて、
「問題」を指摘する意図で作成された表現(以下、問題
表現と称す)を抽出する。
に現れる表現)、品詞候補の集合、および、概念とを対
応付けた表層リストと、概念の階層構造を示す概念シソ
ーラスとを有しており、問題表現抽出部20cおよび分
類部20eがそれぞれ処理を行う場合に必要な情報を提
供する。
よる処理結果に応じて、ボトムアップ階層クラスタリン
グ処理により、各視点に対応する文書をクラスタリング
する処理を行う。
「視点」の入力を受け、分類部20eに供給する。分類
部20eでは、視点指定部20fから供給された「視
点」に対応する文書を表示装置30に表示させる。
明する。いま、文書群保持部20aに対して以下の文書
が入力されて格納されたとする。
まってしまったり、スムーズにトレイ上に排出されず、
作業性が悪い。原稿排出部に問題があるのかほとんどの
お客様で排出性と収容性が悪いといっている。」以下で
は、以上を文書1として説明を行う。
0aに保持されている文書に対して形態素解析処理を施
すことにより、文書に含まれている形態素を抽出する。
図3は、前述した文書1に対して形態素解析処理を施し
た結果得られる結果である。この図に示すように、文書
1は、「原稿受け部・・・悪い。」までが文番号“0”
の文とされ、また、「原稿排出部・・・悪いといってい
る。」までが文番号“1”の文とされ、それぞれの文に
含まれている形態素がその出現位置に応じて格納されて
いる。
た形態素に対して係り受け抽出処理を施し、係り受け関
係を抽出する。図4は、文書1に対して係り受け抽出処
理を施した場合の結果である。この例では、関係No.
で示されるように、13個の係り受け関係が抽出されて
いる。なお、関係No.が“0”〜“5”までは文番号
“0”の文から抽出された係り受け関係であり、また、
関係No.が“6”〜“12”までは文番号“1”の文
から抽出された係り受け関係である。
置と表層、関係、および、受け側の形態素の出現位置と
表層によって記述されている。例えば、関係No.が
“0”の係り受け関係では係り側の表層は「原稿」であ
り、その出現位置は“0”である。また、受け側の表層
は「受け部」であり、その出現位置は“1”である。更
に、これらの関係の表層は「φ」(存在しない(直結))
であることが分かる。
20bによって抽出された係り受け関係を構成する形態
素(表層)を、シソーラス20dに格納されている表層
リストを参照して概念化する。
る。この図に示すように、表層リストは、表層、品詞候
補、および、概念の関係を示したものである。問題表現
抽出部20cは、このようは表層リストを参照して、表
層を概念化する処理を行う。例えば、表層「トレイ」
は、概念「排出系」に概念化されることになる。
す抽出規則と、図7に示す概念シソーラスを参照して、
先に抽出した係り受け関係から、更に、所定の視点を含
むものを抽出する。
ある「トレイ上」「に/れる」「排出(されず)」を例
に挙げると、前述のように、係り側の「トレイ上」の
「トレイ」は、図5に示す表層リストから概念が「排出
性」であると判定される。また、受け側の「排出(され
ず)」の「排出」は、同様にして「排出系」が概念であ
ると判定される。
「トレイ」の概念である「排出系」は、概念「用紙走行
系」に包含され、更に、概念「部位」に包含されている
ことが分かる。即ち、「排出系」は「部位」の下位概念
であることが分かる。また、受け側の「排出」の概念で
ある「排出性」は、概念「原稿」に包含され、更に、概
念「品質」および概念「症状/機能」に包含されている
ことが分かる。
“4”である関係は、係り側が「部位(+“上”)」で
あり、関係が「に、に/れる、で、への」であり、ま
た、受け側が「症状/状態(+“されない”)」である
ルール番号が“Rn”の規則に該当していることが分か
る。その結果、係り側が視点「部位」を示し、受け側が
視点「症状/状態」を示していることがこの規則から判
明する。
れぞれに記載されている「異常」は、「異常表現」を示
している。ここで、異常表現とは、その語単独で「異
常」を示す語であり、例えば、「かすれ」、「ぼけ」、
「ぬけ」等が該当する。また、異常表現が「偽」である
とは、異常表現に該当しないことを示している。なお、
このような異常表現に該当するか否かの判断は、図7に
示す、概念シソーラスにおいて、異常マーク(異)が付
与された概念との包含関係によって判断することができ
る。例えば、概念「かすれ」は、異常マーク(異)が付
与された概念「異常印字」に包含されていることから、
異常表現であることが分かる。
る理由は、異常表現は否定的な意味を有しているので、
2重否定によって肯定文的な文となり、対象とする問題
表現に属さない場合があるため、このような表現を除外
するためである。例えば、「にじみがない」がこのよう
な表現に該当する。
を得る。この例では、ルール番号が“Rm”である規則
によって関係No.が“2”と“5”の関係が抽出され
ている。また、ルール番号が“Rn”である規則によっ
て関係No.が“4”である関係が抽出されている。
する関係からは、その視点を特定することができる。例
えば、関係No.が“2”である関係では、係り側であ
る「排出性」が視点「症状/状態」に該当することが分
かる。また、関係No.が“4”である関係では、係り
側である「トレイ」が視点「部位」に該当し、また、受
け側である「排出」が視点「症状/状態」に該当してい
る。以上の結果をまとめたのが図9である。
(図9参照)は、分類部20eに供給される。分類部2
0eは、問題表現抽出部20cによる処理結果を受け、
公知技術である「ボトムアップクラスタリング処理」に
より文書を分類する。この処理の様子を、図10〜図1
4を参照して説明する。
処理結果を取得し、シソーラス20dに格納されている
概念シソーラスの各ノードに対してマッピングする。例
えば、図9に示す関係No.が“2”である関係は、形
態素「排出性」を含んでおり、表層リストからその概念
が「排出性」であるので、図10に示す、「症状/機
能」から分岐する最下層のノード「排出性」に文書1が
マッピングされる。なお、ノード「排出性」に付加され
ている数字“7”は、視点「症状/状態」としての概念
「排出性」を含む文書が“7”個あることを示してい
る。
る関係は、形態素「トレイ」と形態素「排出」を含んで
おり、表層リストからそれぞれの概念が「排出系」と
「排出性」であるので、図10に示す、「部位」から分
岐する最下層のノード「排出系」と、「症状/状態」か
ら分岐する最下層のノード「排出性」のそれぞれに文書
1がマッピングされる。
念シソーラスを用いて、以下に示す条件を満足する概念
を対象概念として、対象概念が有する文書数のうち最小
のもの(最小文書数)が所定の閾値(例えば“10”)
に達するか、または、対象概念の全ての上位概念が「部
位」または「症状/状態」になるまで、最小文書数の概
念を持つ文書を概念シソーラスにおける上位概念に移動
し、対象概念を再計算する操作を繰り返す。前述した条
件を以下に示す。なお、閾値が“10”以上となった概
念はクラスタとなるものとする。 (1)概念シソーラス中の概念「部位」または概念「症
状/状態」に包含される概念である。 (2)1個以上の文書を有する。 (3)自身の全ての下位概念が何れも文書を有しない。
上に示す条件(1)〜(3)を図10に示す概念シソー
ラスの「症状/状態」に包含される概念に対して適応す
ると、下線を付した概念「作業性」、「収容性」、「排
出性」、「印字品質」が対象概念として選択される。
(最小文書数の概念)は、「印字品質」であるので、こ
れを上位概念である「品質」に対して移動する。その結
果、図11に示すように、「品質」の文書数は“3”に
なる。なお、このとき、文書数aの概念C1を文書数b
の上位概念C0に移動するとき、C1,C0をともに概
念とする文書の文書数がcである場合には、移動したあ
とのC0の文書数は、a+b−cとし、重複する部分を
排除する。
念「症状/状態」の直下の概念となるので、対象概念か
らは除外され、その結果、「作業性」、「収容性」、
「排出性」が対象概念とされ、この中から、文書数が最
小である概念「作業性」が移動の対象となる。
示す結果を得る。このとき、概念「使い勝手」の文書数
は“10”となって前述した閾値(=10)以上となっ
ているので、クラスタとされるとともに、対象概念から
除外される。なお、この図では、長円で囲繞されている
概念がクラスタである。
動の対象となり、図13に示すように、その上位概念で
ある「原稿」の文書数が“8”に変更される。続いて、
概念「収容性」が移動の対象とされ、図14に示すよう
に、その上位概念である「原稿」の文書数が“16”に
更新され、閾値以上となってこの概念「原稿」はクラス
タとなる。
る対象概念の文書数は、全て“10”以上となるので、
処理を終了する。分類部20eにおいて分類処理が完了
すると、視点指定部20fから入力された視点を参照
し、分類結果を表示装置30に対して表示する。
の表示例である。この例では、「分類結果」と題された
ウィンドウ40が表示されており、ウィンドウ40の右
上部には、このウィンドウを縮小、拡大、終了する場合
にそれぞれ操作されるボタン40a〜40cが表示され
ている。
左には、視点を選択するためのテキストボックス40d
が表示されており、この例では、視点「症状/状態」が
選択されている。なお、ボタン40eを操作することに
より表示されるプルダウンメニューから所望の項目を選
択することにより、視点を変更することも可能である。
例えば、視点「部位」が選択された場合には、表示内容
が一新されることになる。
を表示する際に操作される。なお、このボタン40fが
操作された場合については後述する。結果表示部40g
には、分類の結果得られたクラスタと、そのクラスタに
含まれている文書数、および、文書名が表示されてい
る。例えば、クラスタ「原稿」に対して含まれる文書数
は“16”であり、また、文書名は「文書1」、「文書
3」、「文書6」、「文書14」、・・・である。な
お、領域内に表示されていない文書名に関しては、ボタ
ン40h,40jやスライドボタン40iを操作するこ
とにより表示させることができる。
てユーザが選択したクラスタに対応する表現が表示され
る。この例では、結果表示部40gにおいて選択されて
いる(網かけ表示されている)「原稿」に対応する表現
「原稿が丸まって」、「収容性が悪い」が表示されてい
る。なお、表現「収容性が悪い」は、図7に示す概念シ
ソーラスにおいて、下位概念である「収容性」から上位
概念である「原稿」に移動したものであると考えられ
る。
てユーザが選択した文書名に対応する文書が表示され
る。この例では、結果表示部40gにおいて選択されて
いる(網かけ表示されている)「文書1」に対応する文
書の内容が表示されていおり、クラスタ「原稿」に含ま
れている表現に対応する部分「原稿が丸まって」、「収
容性が悪い」が網かけ表示されている。
0fが操作された場合には、図16に示す画面が表示さ
れることになる。この表示例では、「グラフ」と題され
たウィンドウ50が表示されており、その右上部には、
このウィンドウ50を縮小、拡大、終了する場合にそれ
ぞれ操作されるボタン50a〜50cが表示されてい
る。また、表示領域50dには、各クラスタの関係が円
によって示されている。なお、各円の包含関係は、クラ
スタどうしの包含関係を示しており、また、各円の面積
は各クラスタに含まれている文書数に対応している。
示す実施の形態で実行される処理の概要を示すフローチ
ャートを図17を参照して説明する。このフローチャー
トが開始されると、以下の処理が実行されることにな
る。 [S1]係り受け抽出部20bは、文書群保持部20a
に格納されている文書群を取得して形態素解析処理を施
し、各文書に含まれている形態素を抽出する。 [S2]係り受け抽出部20bは、抽出した形態素の係
り受け関係を抽出する。 [S3]問題表現抽出部20cは、抽出した形態素の関
係に対して所定の規則を適用し、問題表現を抽出する。 [S4]分類部20eは、ボトムアップ階層クラスタリ
ング処理により、文書を分類する。 [S5]分類部20eは、視点指定部20fから供給さ
れた視点に基づいて、分類した文書を表示装置30に対
して表示する。
指定部20fから入力された視点に対応する情報を選択
して表示装置30に対して表示するようにしたが、指定
された視点に関する係り受け関係のみに対して処理を実
行するようにしてもよい。そのような処理によれば、情
報の処理量を減少させることが可能となるので、分類処
理を迅速に実行することが可能となる。
説明する。図18は、本発明の第2の実施の形態の構成
例を示す図である。なお、この図において、図2の場合
と対応する部分には同一の符号を付してあるのでその説
明は省略する。
定表現判定部60が新たに追加されている。その他の部
分は、図2の場合と同様である。否定表現判定部60
は、否定表現であるか否かを判定し、その結果を、問題
表現抽出部20cに供給する。
る場合、「トレイ上に排出されない」等のような否定の
意味を有する付属語がポイントとなるが、このような付
属語を含む表現のパターンは多数存在する。図2に示す
実施の形態では、このような全てのパターンを問題表現
抽出部20cに規則として準備しておく必要があるの
で、規則の数が膨大となり、煩雑である。
示すような否定表現を規則化した情報を、否定表現判定
部60に具備しておき、この情報に応じて否定表現であ
るか否かを判定する。
図2の場合と異なる部分を中心に説明する。問題表現抽
出部20cは、係り受け抽出部20bから供給された形
態素が否定表現に該当するか否かを判定する。例えば、
「(トレイ上に)排出されない」を例に挙げると、これ
は、図19から、動詞「排出」(State1)、助動
詞「され」(State4)、および、否定語「ない」
(State6)が結合した表現であるので、否定語で
あると判定されることになる。
60の判定結果を受け、対象となる関係に対して規則を
適用し、問題表現を抽出する。図20は、このとき適用
される規則の一例を示す図である。この例では、図6の
場合に比較して、受け側と係り側のそれぞれに項目「否
定」が追加されている。項目「否定」は、係り側または
受け側が否定表現であるか否かを示し、例えば、ルール
番号“Rn”の規則では、項目「否定」が「真」になっ
ているので、受け側が「症状/状態」を示す否定表現で
ある場合には規則に該当することになる。
合では、受け側となる「排出されない」は、前述したよ
うに否定表現判定部60によって否定表現であることが
分かっており、また、形態素「排出」が「症状/状態」
を示す概念に包含されることから、ルール番号“Rn”
の規則に該当することが分かる。
則を適用した結果を図21に示す。この図の例では、図
8の場合と比較して、項目「否定」が追加されている。
この項目「否定」が「真」となっているものは、否定表
現を含むことを示しており、先に述べた表現「トレイ上
に排出されない」の受け側が「真」に設定されている。
ある。この図においても、表現「トレイ上に排出されな
い」の受け側が「真」に設定されている。以上のように
して規則を適用することによって得られた問題表現は、
分類部20eに供給され、第1の実施の形態の場合と同
様の処理により、文書の分類処理が実行され、得られた
結果が表示装置30に表示される。
部60により、否定表現を判定するようにしたので、問
題表現抽出部20cが具備する規則に全ての否定表現を
網羅する必要がなくなり、結果として、装置を簡略化す
ることが可能となる。
表現抽出部20cの処理結果を受けて分類部20eが文
書を分類して表示するようにしたが、問題表現抽出部2
0cによって抽出された所定の視点を有する形態素を表
示装置30にそのまま表示させるようにしてもよい。こ
のような処理によれば、文書から所定の視点を有するキ
ーワードを抽出することが可能となる。
題」である表現を抽出するようにしたが、本発明はこの
ような場合のみに限定されるものではなく、その他にも
種々の適用が考えられる。
によって実現することができる。その場合、文書処理装
置が有すべき機能の処理内容は、コンピュータで読み取
り可能な記録媒体に記録されたプログラムに記述されて
おり、このプログラムをコンピュータで実行することに
より、上記処理がコンピュータで実現される。コンピュ
ータで読み取り可能な記録媒体としては、磁気記録装置
や半導体メモリ等がある。市場へ流通させる場合には、
CD−ROM(Compact Disk Read Only Memory)やフロ
ッピーディスク等の可搬型記録媒体にプログラムを格納
して流通させたり、ネットワークを介して接続されたコ
ンピュータの記憶装置に格納しておき、ネットワークを
通じて他のコンピュータに転送することもできる。コン
ピュータで実行する際には、コンピュータ内のハードデ
ィスク装置等にプログラムを格納しておき、メインメモ
リにロードして実行する。
れた文書を分類してその結果を出力する文書処理装置に
おいて、文書が入力される文書入力手段と、文書入力手
段から入力された文書を記憶する文書記憶手段と、文書
記憶手段に記憶されている文書から係り受け関係を有す
る形態素群を抽出する形態素群抽出手段と、形態素群抽
出手段によって抽出された形態素群を、その視点に応じ
て分類する形態素群分類手段と、を有するようにしたの
で、文書から所定の視点を有するキーワードを抽出する
ことが可能となる。
態素解析処理を施した結果得られる形態素群である。
の結果抽出された形態素群に対して係り受け抽出処理を
施した結果得られた係り受け関係の一例である。
トの一例を示す図である。
規則の一例を示す図である。
ーラスの一例を示す図である。
て抽出された結果の一例を示す図である。
ムアップ階層クラスタリング処理の一例を説明する図で
ある。
ムアップ階層クラスタリング処理の一例を説明する図で
ある。
ムアップ階層クラスタリング処理の一例を説明する図で
ある。
ムアップ階層クラスタリング処理の一例を説明する図で
ある。
ムアップ階層クラスタリング処理の一例を説明する図で
ある。
る。
合に表示される画面の表示例である。
処理の一例を説明するフローチャートである。
る。
いる情報の一例を示す図である。
規則の一例である。
された問題表現の一例を示す図である。
Claims (8)
- 【請求項1】 入力された文書を分類してその結果を出
力する文書処理装置において、 文書が入力される文書入力手段と、 前記文書入力手段から入力された文書を記憶する文書記
憶手段と、 前記文書記憶手段に記憶されている文書から係り受け関
係を有する形態素群を抽出する形態素群抽出手段と、 前記形態素群抽出手段によって抽出された形態素群を、
その視点に応じて分類する形態素群分類手段と、 を有することを特徴とする文書処理装置。 - 【請求項2】 前記文書記憶手段に記憶されている文書
を、前記形態素群分類手段の分類結果に応じて分類する
文書分類手段を更に有することを特徴とする請求項1記
載の文書処理装置。 - 【請求項3】 前記形態素群分類手段は、前記形態素群
を対応する概念にそれぞれ概念化し、所定の規則を適用
することにより分類を行うことを特徴とする請求項1記
載の文書処理装置。 - 【請求項4】 特定の視点の入力を受ける視点入力手段
を更に有し、 前記形態素群分類手段は、前記視点入力手段から入力さ
れた視点に応じて、前記形態素群の分類を行うことを特
徴とする請求項1記載の文書処理装置。 - 【請求項5】 特定の視点の入力を受ける視点入力手段
を更に有し、 前記文書分類手段は、前記視点入力手段から入力された
視点に応じて、前記文書の分類を行うことを特徴とする
請求項1記載の文書処理装置。 - 【請求項6】 前記形態素群分類手段は、意図が「問
題」である表現の「部位」と、「症状/状態」とを視点
として分類を行うことを特徴とする請求項1記載の文書
処理装置。 - 【請求項7】 否定表現であるか否かを判定する否定表
現判定手段を更に有し、 前記形態素群分類手段は、前記否定表現判定手段の判定
結果を参照して、前記形態素群の分類を行うことを特徴
とする請求項6記載の文書処理装置。 - 【請求項8】 入力された文書を分類してその結果を出
力する文書処理をコンピュータに実行させるプログラム
を記録したコンピュータ読み取り可能な記録媒体におい
て、 コンピュータを、 文書が入力される文書入力手段、 前記文書入力手段から入力された文書を記憶する文書記
憶手段、 前記文書記憶手段に記憶されている文書から係り受け関
係を有する形態素群を抽出する形態素群抽出手段、 前記形態素群抽出手段によって抽出された形態素群を、
その視点に応じて分類する形態素群分類手段、 として機能させるプログラムを記録したコンピュータ読
み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP27574299A JP3925003B2 (ja) | 1999-09-29 | 1999-09-29 | 文書処理装置および文書処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP27574299A JP3925003B2 (ja) | 1999-09-29 | 1999-09-29 | 文書処理装置および文書処理方法 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2001101199A true JP2001101199A (ja) | 2001-04-13 |
JP2001101199A5 JP2001101199A5 (ja) | 2004-11-11 |
JP3925003B2 JP3925003B2 (ja) | 2007-06-06 |
Family
ID=17559771
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP27574299A Expired - Fee Related JP3925003B2 (ja) | 1999-09-29 | 1999-09-29 | 文書処理装置および文書処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3925003B2 (ja) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004303198A (ja) * | 2003-03-18 | 2004-10-28 | Ricoh Co Ltd | 文書処理装置、文書処理方法および文書処理プログラム |
JP2006039811A (ja) * | 2004-07-26 | 2006-02-09 | Fuji Xerox Co Ltd | ドキュメント管理プログラム、ドキュメント管理方法、及びドキュメント管理装置 |
JP2006185219A (ja) * | 2004-12-28 | 2006-07-13 | Yoshiaki Nagai | 述語論理式作成装置、会計仕訳ルール作成装置、会計仕訳装置、述語論理式作成プログラム、会計仕訳ルール作成プログラム、及び、会計仕訳プログラム |
JP2006323517A (ja) * | 2005-05-17 | 2006-11-30 | Mitsubishi Electric Corp | テキスト分類装置およびプログラム |
JP2006338133A (ja) * | 2005-05-31 | 2006-12-14 | Ntt Data Corp | 情報抽出装置、情報抽出方法及びプログラム |
JP2007257149A (ja) * | 2006-03-22 | 2007-10-04 | Ricoh Co Ltd | 文書処理装置及び文書処理方法 |
JP2009134378A (ja) * | 2007-11-29 | 2009-06-18 | Hitachi Systems & Services Ltd | 文書群提示装置および文書群提示プログラム |
US7715631B2 (en) | 2004-05-12 | 2010-05-11 | Fujitsu Limited | Method and apparatus for extracting feature information, and computer product |
WO2012147428A1 (ja) * | 2011-04-27 | 2012-11-01 | 日本電気株式会社 | テキストクラスタリング装置、テキストクラスタリング方法、およびコンピュータ読み取り可能な記録媒体 |
JP2014130613A (ja) * | 2014-02-06 | 2014-07-10 | Nomura Research Institute Ltd | 談話要約生成システムおよび談話要約生成プログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05290083A (ja) * | 1992-04-14 | 1993-11-05 | Toshiba Corp | 文書作成支援装置 |
JPH0973315A (ja) * | 1995-09-07 | 1997-03-18 | Mitsubishi Electric Corp | 設備故障診断装置 |
JPH0991314A (ja) * | 1995-07-14 | 1997-04-04 | Fuji Xerox Co Ltd | 情報探索装置 |
JPH10320411A (ja) * | 1997-05-21 | 1998-12-04 | N Ii C Joho Syst:Kk | 文書分類装置、方法及び文書分類プログラムを記録した記録媒体 |
-
1999
- 1999-09-29 JP JP27574299A patent/JP3925003B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05290083A (ja) * | 1992-04-14 | 1993-11-05 | Toshiba Corp | 文書作成支援装置 |
JPH0991314A (ja) * | 1995-07-14 | 1997-04-04 | Fuji Xerox Co Ltd | 情報探索装置 |
JPH0973315A (ja) * | 1995-09-07 | 1997-03-18 | Mitsubishi Electric Corp | 設備故障診断装置 |
JPH10320411A (ja) * | 1997-05-21 | 1998-12-04 | N Ii C Joho Syst:Kk | 文書分類装置、方法及び文書分類プログラムを記録した記録媒体 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004303198A (ja) * | 2003-03-18 | 2004-10-28 | Ricoh Co Ltd | 文書処理装置、文書処理方法および文書処理プログラム |
JP4585768B2 (ja) * | 2003-03-18 | 2010-11-24 | 株式会社リコー | 文書処理装置、文書処理方法および文書処理プログラム |
US7715631B2 (en) | 2004-05-12 | 2010-05-11 | Fujitsu Limited | Method and apparatus for extracting feature information, and computer product |
JP2006039811A (ja) * | 2004-07-26 | 2006-02-09 | Fuji Xerox Co Ltd | ドキュメント管理プログラム、ドキュメント管理方法、及びドキュメント管理装置 |
JP4525224B2 (ja) * | 2004-07-26 | 2010-08-18 | 富士ゼロックス株式会社 | ドキュメント管理プログラム、ドキュメント管理方法、及びドキュメント管理装置 |
JP2006185219A (ja) * | 2004-12-28 | 2006-07-13 | Yoshiaki Nagai | 述語論理式作成装置、会計仕訳ルール作成装置、会計仕訳装置、述語論理式作成プログラム、会計仕訳ルール作成プログラム、及び、会計仕訳プログラム |
JP4709543B2 (ja) * | 2004-12-28 | 2011-06-22 | 永井 義明 | 述語論理式作成装置、会計仕訳ルール作成装置、会計仕訳装置、述語論理式作成プログラム、会計仕訳ルール作成プログラム、及び、会計仕訳プログラム |
JP2006323517A (ja) * | 2005-05-17 | 2006-11-30 | Mitsubishi Electric Corp | テキスト分類装置およびプログラム |
JP4694258B2 (ja) * | 2005-05-31 | 2011-06-08 | 株式会社エヌ・ティ・ティ・データ | 情報抽出装置、情報抽出方法及びプログラム |
JP2006338133A (ja) * | 2005-05-31 | 2006-12-14 | Ntt Data Corp | 情報抽出装置、情報抽出方法及びプログラム |
JP2007257149A (ja) * | 2006-03-22 | 2007-10-04 | Ricoh Co Ltd | 文書処理装置及び文書処理方法 |
JP2009134378A (ja) * | 2007-11-29 | 2009-06-18 | Hitachi Systems & Services Ltd | 文書群提示装置および文書群提示プログラム |
WO2012147428A1 (ja) * | 2011-04-27 | 2012-11-01 | 日本電気株式会社 | テキストクラスタリング装置、テキストクラスタリング方法、およびコンピュータ読み取り可能な記録媒体 |
JP5534280B2 (ja) * | 2011-04-27 | 2014-06-25 | 日本電気株式会社 | テキストクラスタリング装置、テキストクラスタリング方法、およびプログラム |
JP2014130613A (ja) * | 2014-02-06 | 2014-07-10 | Nomura Research Institute Ltd | 談話要約生成システムおよび談話要約生成プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP3925003B2 (ja) | 2007-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9857946B2 (en) | System and method for evaluating sentiment | |
Kiryakov et al. | Semantic annotation, indexing, and retrieval | |
Ashi et al. | Pre-trained word embeddings for Arabic aspect-based sentiment analysis of airline tweets | |
US9501467B2 (en) | Systems, methods, software and interfaces for entity extraction and resolution and tagging | |
Rai | Identifying key product attributes and their importance levels from online customer reviews | |
JP3577819B2 (ja) | 情報探索装置及び情報探索方法 | |
JP2006251866A (ja) | 情報処理装置および方法、プログラム、並びに記録媒体 | |
US20120046937A1 (en) | Semantic classification of variable data campaign information | |
JP3925003B2 (ja) | 文書処理装置および文書処理方法 | |
Prudhvi et al. | Text summarization using natural language processing | |
Sajous et al. | Semi-automatic enrichment of crowdsourced synonymy networks: the WISIGOTH system applied to Wiktionary | |
Belkebir et al. | TALAA-ATSF: a global operation-based arabic text summarization framework | |
JP4876692B2 (ja) | テキストマイニング装置、テキストマイニングプログラム、及びテキストマイニング方法 | |
JP2004145626A (ja) | 文書分類支援装置およびコンピュータプログラム | |
Pandita et al. | A literature survey of sentiment analysis based on E-commerce reviews | |
JP2000194721A (ja) | 文書群分類装置および文書群分類方法 | |
Liu et al. | Semi-supervised Sentiment Analysis for Under-Resourced Languages with a Sentiment Lexicon. | |
JP2002183175A (ja) | テキストマイニング方法 | |
Hirchoua et al. | Topic hierarchies for knowledge capitalization using hierarchical Dirichlet processes in big data context | |
Sanda et al. | Opinion mining feature-level using Naive Bayes and feature extraction based analysis dependencies | |
JP3943005B2 (ja) | 情報検索プログラム | |
Pappas et al. | Multilingual visual sentiment concept clustering and analysis | |
Kumar et al. | Multimodal Sentiment Analysis using Kernel Based Support Vector Machine | |
JPH11203318A (ja) | 文書分類方法および装置並びに文書分類処理プログラムを記録した記録媒体 | |
Lemaire | Distance education technology for prosthetic CAD/CAM instruction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20061110 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061121 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070116 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070219 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110309 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120309 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130309 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130309 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140309 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |