JP4514401B2 - 文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラム - Google Patents

文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラム Download PDF

Info

Publication number
JP4514401B2
JP4514401B2 JP2002298095A JP2002298095A JP4514401B2 JP 4514401 B2 JP4514401 B2 JP 4514401B2 JP 2002298095 A JP2002298095 A JP 2002298095A JP 2002298095 A JP2002298095 A JP 2002298095A JP 4514401 B2 JP4514401 B2 JP 4514401B2
Authority
JP
Japan
Prior art keywords
document
safety
risk
category
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002298095A
Other languages
English (en)
Other versions
JP2004133714A (ja
Inventor
敬己 下郡山
Original Assignee
株式会社ジャストシステム
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ジャストシステム filed Critical 株式会社ジャストシステム
Priority to JP2002298095A priority Critical patent/JP4514401B2/ja
Publication of JP2004133714A publication Critical patent/JP2004133714A/ja
Application granted granted Critical
Publication of JP4514401B2 publication Critical patent/JP4514401B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は、電子文書を当該文書に出現する語や語句の特徴などにもとづいて所定のカテゴリのいずれかに分類する文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラムに関する。
【0002】
【従来の技術】
文書を分類するための複数のカテゴリをあらかじめ用意しておき、与えられた文書をそこに出現する語や語句の特徴(出現頻度や出現位置など)から、いずれかのカテゴリに分類する技術が従来より存在する。
【0003】
【発明が解決しようとする課題】
しかしながら上記従来技術による分類は、主に文書の内容による分類であり、その本文に含まれる語彙の中でも、意味を担う自立語が分類の基準となることが多い。
【0004】
一方、ある文書がどの程度注目に値するかを把握するためには、必ずしも文書の意味内容でなく、危険な表現(苦情など)をどの程度含んでいるか、という観点からの分類が必要である。
【0005】
たとえば、企業のカスタマサービスセンター(以下では「CSセンター」と言う)では日々顧客から苦情、質問、提案などの雑多なメールを受け付けているが、どのメールは強いクレームであって特に迅速に対応する必要があり、どのメールはそうでないか、といったことは、必ずしもそこに出現する自立語の傾向からは分からない。
【0006】
一例として「責任者を出せ」という文章では、「責任者」も「出(す)」もそれ単独では苦情に特徴的な自立語ではない。にもかかわらず苦情と分かるのは、「責任者を出せ」というフレーズの文脈上の意味と、文末の命令口調のためである。したがって自立語を中心とする従来の文書分類技術では、文脈や語調を別途解析できない限り、文書中に含まれる苦情を読み取れない場合が多い。
【0007】
なお、本出願人は何らかの感情を含んだメールをそうでないメールから選り分けるための文書分類ソフトウエア(プロトタイプ)を過去に試作しているが、このソフトウエアでは自立語の中でも特に「アフェクト表現」、すなわち定性的・主観的な評価を含意する表現に注目して分類をおこなっていた(たとえば、特願2001−355278、特願2001−355279、特願2001−355280など)。
【0008】
「アフェクト表現」とはたとえば「とても美しくない」などの表現であり、中心的な1形態素、この例では「美し」を「アフェクトターム」と呼ぶ。そして上記ソフトウエアでは、このアフェクトタームの出現頻度や出現位置などから文書中の情動性の有無や程度を判定していたが、実際にCSセンターのメールを分類させてみた結果、必ずしも十分な精度を得ることができなかった。
【0009】
また、自立語に注目して苦情文書をそうでない文書から選り分けようとすると、ジャンルの差異(業界や業務内容の差異)やトレンドの変化により使用される自立語は変化するので、こうした運用形態の変更に合わせるためのカスタマイズに多大なコストを要してしまう。コスト以前に、カスタマイズでは対応できない可能性も高い。
【0010】
この発明は上記従来技術による問題を解決するため、文書中の特に付属語の部分に表れやすい書き手の口調や語調にもとづいて文書を分類することが可能な文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラムを提供することを目的とする。
【0011】
【課題を解決するための手段】
上述した課題を解決し、目的を達成するため、この発明にかかる文書分類装置は、電子文書を当該文書に出現する語や語句の特徴などにもとづいて所定のカテゴリのいずれかに分類する文書分類装置において、前記電子文書の本文から個々の形態素を切り出す形態素解析手段と、前記形態素解析手段により切り出された形態素のうち付属語であるものの前記各カテゴリに対する影響度にもとづいて前記電子文書の分類先となるカテゴリを判定する分類先判定手段と、を備えたことを特徴とする。
【0012】
この発明によれば、文書はそこに出現する付属語の特徴にもとづいていずれかのカテゴリに分類される。
【0013】
また、この発明にかかる文書分類装置は、電子文書を当該文書に出現する語や語句の特徴などにもとづいて所定のカテゴリのいずれかに分類する文書分類装置において、前記電子文書の本文から個々の形態素を切り出す形態素解析手段と、前記形態素解析手段により切り出された形態素のうち付属語であるものの危険度を集計することで前記電子文書の危険度を算出する危険度算出手段と、前記形態素解析手段により切り出された形態素のうち付属語であるものの安全度を集計することで前記電子文書の安全度を算出する安全度算出手段と、前記危険度算出手段により算出された危険度と前記安全度算出手段により算出された安全度との相対関係にもとづいて前記電子文書の分類先となるカテゴリを判定する分類先判定手段と、を備えたことを特徴とする。
【0014】
この発明によれば、文書中に出現する付属語の危険度や安全度により文書全体の危険度や安全度が把握される。
【0015】
また、この発明にかかる文書分類装置は、電子文書を当該文書に出現する語や語句の特徴などにもとづいて所定のカテゴリのいずれかに分類する文書分類装置において、前記電子文書の本文から個々の形態素を切り出す形態素解析手段と、前記形態素解析手段により切り出された形態素のうち一部の自立語と付属語の危険度を集計することで前記電子文書の危険度を算出する危険度算出手段と、前記形態素解析手段により切り出された形態素のうち一部の自立語と付属語の安全度を集計することで前記電子文書の安全度を算出する安全度算出手段と、前記危険度算出手段により算出された危険度と前記安全度算出手段により算出された安全度との相対関係にもとづいて前記電子文書の分類先となるカテゴリを判定する分類先判定手段と、を備えたことを特徴とする。
【0016】
この発明によれば、文書中に出現する特に感情的な自立語や付属語の危険度や安全度により文書全体の危険度や安全度が把握される。
【0017】
また、この発明にかかる文書分類装置は、電子文書を当該文書に出現する語や語句の特徴などにもとづいて所定のカテゴリのいずれかに分類する文書分類装置において、前記電子文書の本文から個々の形態素を切り出す形態素解析手段と、前記形態素解析手段により切り出された形態素の中から、連続する少なくとも1つ以上の付属語により構成される付属語列を切り出す付属語列切り出し手段と、前記付属語列切り出し手段により切り出された付属語列の危険度を集計することで前記電子文書の危険度を算出する危険度算出手段と、前記付属語列切り出し手段により切り出された付属語列の安全度を集計することで前記電子文書の安全度を算出する安全度算出手段と、前記危険度算出手段により算出された危険度と前記安全度算出手段により算出された安全度との相対関係にもとづいて前記電子文書の分類先となるカテゴリを判定する分類先判定手段と、を備えたことを特徴とする。
【0018】
この発明によれば、文書中に出現する付属語列の危険度や安全度により文書全体の危険度や安全度が把握される。
【0019】
また、この発明にかかる文書分類装置は、上記の発明において、前記付属語列切り出し手段が、連続する少なくとも1つ以上の付属語により構成される付属語列であって、かつ所定の辞書に登録された付属語列と最長一致する付属語列を切り出すことを特徴とする。
【0020】
この発明によれば、文書中に出現する付属語列のうちできるだけ長いものの危険度や安全度により文書全体の危険度や安全度が把握される。
【0021】
また、この発明にかかる文書分類装置は、上記の発明において、さらに、前記電子文書に所定の抑制語が出現しているか否かを判定する抑制語有無判定手段を備え、前記分類先判定手段が、前記危険度算出手段により算出された危険度と前記安全度算出手段により算出された安全度との相対関係、および前記抑制語有無判定手段による判定結果にもとづいて前記電子文書の分類先となるカテゴリを判定することを特徴とする。
【0022】
この発明によれば、文書中に出現する付属語列の危険度や安全度のほか、特に文書の危険性や安全性を示唆する抑制語が出現していないかどうかにも配慮して文書全体の危険度や安全度が把握される。
【0023】
また、この発明にかかる文書分類方法は、電子文書を当該文書に出現する語や語句の特徴などにもとづいて所定のカテゴリのいずれかに分類する文書分類方法において、前記電子文書の本文から個々の形態素を切り出す形態素解析工程と、前記形態素解析工程で切り出された形態素のうち付属語であるものの前記各カテゴリに対する影響度にもとづいて前記電子文書の分類先となるカテゴリを判定する分類先判定工程と、を含んだことを特徴とする。
【0024】
この発明によれば、文書はそこに出現する付属語の特徴にもとづいていずれかのカテゴリに分類される。
【0025】
また、この発明にかかる文書分類方法は、電子文書を当該文書に出現する語や語句の特徴などにもとづいて所定のカテゴリのいずれかに分類する文書分類方法において、前記電子文書の本文から個々の形態素を切り出す形態素解析工程と、前記形態素解析工程で切り出された形態素のうち付属語であるものの危険度を集計することで前記電子文書の危険度を算出する危険度算出工程と、前記形態素解析工程で切り出された形態素のうち付属語であるものの安全度を集計することで前記電子文書の安全度を算出する安全度算出工程と、前記危険度算出工程で算出された危険度と前記安全度算出工程で算出された安全度との相対関係にもとづいて前記電子文書の分類先となるカテゴリを判定する分類先判定工程と、を含んだことを特徴とする。
【0026】
この発明によれば、文書中に出現する付属語の危険度や安全度により文書全体の危険度や安全度が把握される。
【0027】
また、この発明にかかる文書分類方法は、電子文書を当該文書に出現する語や語句の特徴などにもとづいて所定のカテゴリのいずれかに分類する文書分類方法において、前記電子文書の本文から個々の形態素を切り出す形態素解析工程と、前記形態素解析工程で切り出された形態素のうち一部の自立語と付属語の危険度を集計することで前記電子文書の危険度を算出する危険度算出工程と、前記形態素解析工程で切り出された形態素のうち一部の自立語と付属語の安全度を集計することで前記電子文書の安全度を算出する安全度算出工程と、前記危険度算出工程で算出された危険度と前記安全度算出工程で算出された安全度との相対関係にもとづいて前記電子文書の分類先となるカテゴリを判定する分類先判定工程と、を含んだことを特徴とする。
【0028】
この発明によれば、文書中に出現する特に感情的な自立語や付属語の危険度や安全度により文書全体の危険度や安全度が把握される。
【0029】
また、この発明にかかる文書分類方法は、電子文書を当該文書に出現する語や語句の特徴などにもとづいて所定のカテゴリのいずれかに分類する文書分類方法において、前記電子文書の本文から個々の形態素を切り出す形態素解析工程と、前記形態素解析工程で切り出された形態素の中から、連続する少なくとも1つ以上の付属語により構成される付属語列を切り出す付属語列切り出し工程と、前記付属語列切り出し工程で切り出された付属語列の危険度を集計することで前記電子文書の危険度を算出する危険度算出工程と、前記付属語列切り出し工程で切り出された付属語列の安全度を集計することで前記電子文書の安全度を算出する安全度算出工程と、前記危険度算出工程で算出された危険度と前記安全度算出工程で算出された安全度との相対関係にもとづいて前記電子文書の分類先となるカテゴリを判定する分類先判定工程と、を含んだことを特徴とする。
【0030】
この発明によれば、文書中に出現する付属語列の危険度や安全度により文書全体の危険度や安全度が把握される。
【0031】
また、この発明にかかる文書分類方法は、上記の発明において、前記付属語列切り出し工程では、連続する少なくとも1つ以上の付属語により構成される付属語列であって、かつ所定の辞書に登録された付属語列と最長一致する付属語列を切り出すことを特徴とする。
【0032】
この発明によれば、文書中に出現する付属語列のうちできるだけ長いものの危険度や安全度により文書全体の危険度や安全度が把握される。
【0033】
また、この発明にかかる文書分類方法は、上記の発明において、さらに、前記電子文書に所定の抑制語が出現しているか否かを判定する抑制語有無判定工程を含み、前記分類先判定工程では、前記危険度算出工程で算出された危険度と前記安全度算出工程で算出された安全度との相対関係、および前記抑制語有無判定工程における判定結果にもとづいて前記電子文書の分類先となるカテゴリを判定することを特徴とする。
【0034】
この発明によれば、文書中に出現する付属語列の危険度や安全度のほか、特に文書の危険性や安全性を示唆する抑制語が出現していないかどうかにも配慮して文書全体の危険度や安全度が把握される。
【0035】
また、この発明にかかるプログラムによれば、上記に記載された方法がコンピュータによって実行される。
【0036】
【発明の実施の形態】
以下に添付図面を参照して、この発明による文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラムの好適な実施の形態を詳細に説明する。
【0037】
(実施の形態1)
図1は、この発明の実施の形態1による文書分類装置のハードウエア構成の一例を示す説明図である。図中、101は装置全体を制御するCPUを、102は基本入出力プログラムを記憶したROMを、103はCPU101のワークエリアとして使用されるRAMを、それぞれ示している。
【0038】
また、104はCPU101の制御にしたがってHD(ハードディスク)105に対するデータのリード/ライトを制御するHDD(ハードディスクドライブ)を、105はHDD104の制御にしたがって書き込まれたデータを記憶するHDを、それぞれ示している。
【0039】
また、106はCPU101の制御にしたがってFD(フレキシブルディスク)107に対するデータのリード/ライトを制御するFDD(フレキシブルディスクドライブ)を、107はFDD106の制御にしたがって書き込まれたデータを記憶する着脱自在のFDを、それぞれ示している。
【0040】
また、108はCPU101の制御にしたがってCD−RW109に対するデータのリード/ライトを制御するCD−RWドライブを、109はCD−RWドライブ108の制御にしたがって書き込まれたデータを記憶する着脱自在のCD−RWを、それぞれ示している。
【0041】
また、110はカーソル、メニュー、ウィンドウ、あるいは文字や画像などの各種データを表示するディスプレイを、111は文字、数値、各種指示などの入力のための複数のキーを備えたキーボードを、112は各種指示の選択や実行、処理対象の選択、マウスポインタの移動などをおこなうマウスを、それぞれ示している。
【0042】
また、113は通信ケーブル114を介してLANやWANなどのネットワークに接続され、当該ネットワークとCPU101とのインターフェースとして機能するネットワークI/Fを、100は上記各部を接続するためのバスを、それぞれ示している。
【0043】
つぎに、図2はこの発明の実施の形態1による文書分類装置の構成を機能的に示す説明図である。図示するように本装置は、大別して文書分類の基準となるべき辞書を作成する辞書作成部200と、辞書作成部200により作成された辞書を参照して実際に文書を分類する文書分類部201とから構成される。
【0044】
まず、200aは学習用文書記憶部であり、学習用の文書群、すなわちいわゆるコーパスとなる複数の文書を保持する機能部である。この学習用文書としては、具体的にはCSセンターに蓄積された顧客からの電子メールを採用している。
【0045】
各文書についてはあらかじめ人手により、危険文書・安全文書のいずれであるかが判定されている。危険文書とは苦情など、本装置の利用者(たとえば企業)にとって危険な内容を含む文書であり、安全文書とは危険文書以外の文書である。
【0046】
つぎに、200bは形態素解析部であり、学習用文書記憶部200a内の各文書からそこに含まれる形態素を切り出す機能部である(切り出された個々の形態素を以下では「ターム」と言う)。形態素解析部200bによる解析処理自体は公知であるので、ここでは詳細な説明を省略する。
【0047】
つぎに、200cはターム危険度・安全度算出部であり、形態素解析部200bにより切り出された個々のタームにつき、その危険度および安全度(以下では両者をまとめて「影響度」とも言う)を算出する機能部である。なお、タームには自立語と付属語の2種類があるが、本実施の形態によるターム危険度・安全度算出部200cは、うち特に付属語についてその影響度を算出するものとする。
【0048】
具体的には、まず注目するタームαについて、当該タームの危険文書における出現率(risk α)と安全文書における出現率(safe α)とを下記式により求める。
【数1】
Figure 0004514401
【数2】
Figure 0004514401
【0049】
学習用の危険文書と安全文書とでは、その文書数も出現する延べターム数も異なるため、単純にタームαの出現回数を比較しても意味がない。危険文書における出現回数、安全文書における出現回数をそれぞれ各文書中の延べターム数で除算することにより、出現回数から出現率を求めることができる。
【0050】
つぎに、ターム危険度・安全度算出部200cは下記式により、タームαの出現率の平均値および標準偏差を算出する。
【数3】
Figure 0004514401
【数4】
Figure 0004514401
【0051】
さらに、ターム危険度・安全度算出部200cは下記式により、タームαの危険文書に対する影響度(危険度)と安全文書に対する影響度(安全度)とをそれぞれ算出する。
【数5】
Figure 0004514401
【数6】
Figure 0004514401
【0052】
(4)式で算出した標準偏差は、危険文書と安全文書におけるタームαの出現率のばらつきを示す(いずれかの文書に偏って出現するタームほど標準偏差が大きくなる)ので、(5)(6)式による影響度の算出にあたって単純に標準偏差を利用したのでは、もともと出現率の高いタームが大きな影響度を持つことになる。(5)(6)式の後半で再度出現率を利用するので、出現率が二重に考慮されてしまわないよう、あらかじめ標準偏差を出現率の和(risk α+safe α)で除算しておく。
【0053】
つぎに、200dは影響度辞書であり、形態素解析部200bにより切り出された個々のタームと、ターム危険度・安全度算出部200cで算出されたその影響度(危険度および影響度)とを対応づけて保持している。
【0054】
つぎに、200eは抑制語候補抽出部であり、後述する抑制語辞書200fに登録されるべきターム(抑制語)の候補を抽出する機能部である。抑制語とは、当該タームを含むような文書では、後述する文書危険度・安全度算出部201cにより算出されたその危険度もしくは安全度を割り引いてもよいようなターム、あるいはより端的に、当該タームを含んでさえいれば一律に危険文書あるいは安全文書に分類してもよいようなタームのことである。
【0055】
たとえば「○○の契約について、責任者を出せ!などと言ってしまいましたが当方の勘違いでした。失礼しました。それにもかかわらず丁寧に対応していただき恐縮です。有り難うございました。」というような文書は、「責任者を出せ」という危険表現を含んではいるものの、全体としては顧客の謝意や謝罪の意を述べたものである。上記危険表現をいわばキャンセルしているのが、文中「失礼しました」「恐縮」「有り難うございました」などの語句であり、こうした語句中のタームを抑制語として採用することができる。
【0056】
抑制語は最終的には人手により選出することになるが、本実施の形態では抑制語候補抽出部200eにより、まずは機械的に抑制語となるべきタームの候補を抽出する。この候補とは、具体的にはターム危険度・安全度算出部200cにより計算された危険度のスコアと安全度のスコアとが大きく乖離しているようなタームである。たとえば危険度が0で、かつ安全度が比較的高い(所定の閾値以上)ようなタームを、文書の安全性を示唆する抑制語の候補として抽出する。
【0057】
つぎに、200fは抑制語辞書であり、抑制語候補抽出部200eにより抽出された抑制語候補のうち、最終的に人間が危険文書/安全文書には使用されにくいと判断した抑制語を保持している。個々の抑制語には、文書の危険性を示唆する抑制語であるのか、安全性を示唆する抑制語であるのかの区別が付加されている。
【0058】
なお、このように抑制語には2種類あるが、本実施の形態による抑制語辞書200fにはうち文書の安全性を示唆する抑制語(上述の「恐縮」など)のみが保持されているものとする。また、抑制語は自立語であるか付属語であるかを問わず、抑制語辞書200fには両者が混在しているものとする。
【0059】
図3は、この発明の実施の形態1による文書分類装置における、影響度辞書200dおよび抑制語辞書200fの作成処理の手順を示すフローチャートである。
【0060】
まず形態素解析部200bにより、学習用文書記憶部200a内の全文書について形態素解析をおこない(ステップS301)、つぎにターム危険度・安全度算出部200cにより、上記で切り出された個々のタームの影響度を順次算出する(ステップS302)。そしてターム危険度・安全度算出部200cは、個々のタームと当該タームの影響度とを影響度辞書200dに格納する(ステップS303)。
【0061】
さらに抑制語候補抽出部200eにより、タームごとにステップS302で算出された危険度と安全度とを比較して、その乖離が一定値以上であるものを抑制語候補として抽出し(ステップS304)、当該候補が文書の危険性を示唆する候補であるが、安全性を示唆する候補であるかの区別を付して、抑制語辞書200fに格納する(ステップS305)。本装置による処理はここまでであるが、実際にはこの後人手により、抑制語辞書200fから不要な候補が削除され、十分に信頼できる候補のみが抑制語として残される。
【0062】
図2に戻り、つぎに201aは分類対象文書記憶部であり、文書分類部201による分類の対象となる複数の文書を保持する機能部である。この文書も具体的には、CSセンターが受信した顧客からの電子メールである。
【0063】
つぎに、201bは形態素解析部であり、分類対象文書記憶部201a内の各文書からそこに含まれる形態素を切り出す機能部である。なお、辞書作成部200の形態素解析部200bと文書分類部201の形態素解析部201bとは、扱う文書群が異なるだけで処理自体は同一である。
【0064】
つぎに、201cは文書危険度・安全度算出部であり、分類対象文書記憶部201a内の各文書について、その危険度および安全度を算出する機能部である。文書の危険度および安全度は、当該文書に出現する個々のターム、その中でも特に付属語の危険度および安全度(これらは上述の影響度辞書200dに保持されている)をそれぞれ集計することで求める。
【0065】
たとえば「電話してください」という一文からなる文書を考えると、当該文書の危険度=「し」の危険度+「て」の危険度+「くださ」の危険度+「い」の危険度、である(なお「電話」は自立語であるため考慮されない)。文書の安全度も同様にして算出する。なお、危険度および安全度の算出にあたって文書中のどの付属語を考慮するか(助詞と助動詞のみ考慮する、さらに活用語尾も考慮する、さらに補助用言も考慮する、など)は、後述するオプション設定部201gに保持されている。
【0066】
つぎに、201dは抑制語有無判定部であり、上述の抑制語辞書200fに登録された抑制語が、分類対象となっている文書中に含まれるか否かを判定する機能部である。
【0067】
つぎに、201eは分類先判定部であり、文書危険度・安全度算出部201cにより算出された危険度と安全度、および抑制語有無判定部201dにより判定された抑制語の有無により、注目する文書が危険文書であるか安全文書であるかを判定する機能部である。
【0068】
分類先判定部201eは、基本的には文書危険度・安全度算出部201cにより算出された危険度のスコアと安全度のスコアとを比較して、危険度のほうが高ければ当該文書を危険文書、安全度のほうが高ければ当該文書を安全文書と判定する。なお、危険度と安全度が同点の場合にいずれとするかは、後述するオプション設定部201gで指示されている。
【0069】
ただし後述するオプション設定部201gで、上記判定にあたって抑制語を考慮するよう設定されていた場合には、分類先判定部201eは抑制語の存在にもとづく危険または安全の取消(キャンセル)をおこなう。
【0070】
すなわち、たとえば対象文書中にその安全性を示唆する抑制語が含まれていれば、文書危険度・安全度算出部201cにより算出されたその危険度を所定の計算式により割り引き、割引後の危険度と割引しない安全度とを比較して上記文書の危険/安全を判定する。あるいは、抑制語の存在をもって一律に当該文書を安全文書と判定するようにしてもよい。
【0071】
このように抑制語の存在を考慮することで、たとえば文書の前半に多数の、あるいは非常に強い少数の危険表現を含んではいても、人間が読めば後半の抑制語により打ち消されて全体として安全と判断できる文書を、誤って危険文書と判定してしまうことがない。
【0072】
なお、抑制語が顧客自身の文章でなく、たとえばCSセンターからのメールの引用部分に含まれていた場合は、当該文書を一概に安全とみることはできない。たとえば顧客が「失礼しました」と書いていた場合には、当該文書の危険度を割り引いたり安全とみなしたりしても差し支えないが、CSセンターからのメールの「失礼しました」を顧客が引用していた場合には、メール全体としては危険文書の可能性がある。ここでは説明の便宜上、分類対象文書記憶部201a内の文書ではこうした状況が発生していないものとする。
【0073】
また、本実施の形態による分類先判定部201eは、各文書を危険か安全か、すなわち「危険文書」または「安全文書」のいずれかのカテゴリに分類するのみであるが、たとえば危険度と安全度との相対関係に注目して、「極めて危険な文書」「危険な文書」「安全な文書」「極めて安全な文書」のように、程度によってより詳細に分類するようにしてもよい。たとえば危険文書のうち、危険度に比べて安全度が著しく低い文書を特に「極めて危険な文書」に分類する。
【0074】
なお、上記による判定結果、すなわち分類対象文書記憶部201a内の各文書の分類先(すなわち、危険文書であるか安全文書であるか)、文書中のタームのうち上記判定の根拠となったターム(すなわち、危険度や安全度の算出において考慮された付属語および抑制語)などは、後述する判定結果出力部201fに引き渡される。
【0075】
つぎに、201fは判定結果出力部であり、分類先判定部201eから引き渡された判定結果を、本装置のディスプレイ110に出力する機能部である。この出力形態としては、たとえば危険文書の書誌的事項(電子メールであれば件名、送信者など)のみを一覧表示する、上述のように危険/安全の程度でより細かく分類する場合は、危険文書の中でも特に危険なものを強調表示する、分類対象となった全文書にそれぞれ判定結果を示して一覧表示する、など種々のバリエーションが考えられる。
【0076】
また一覧中の文書の本文を表示する際に、危険判断や安全判断の根拠となったターム、あるいは当該タームを含む文を強調表示したり、それらのタームや文のみを表示(要約表示)したりすることもできる。
【0077】
つぎに、201gはオプション設定部であり、文書分類部201内の各機能部による処理の詳細を決定する、種々のオプション設定を管理する機能部である。オプション設定部201gは本装置の起動時に、上記設定が記述された所定の設定ファイルをロードするほか、設定内容の変更を所定のGUIにより受け付けて、変更後の設定を上記ファイルに保存する。
【0078】
なお、この設定ファイルに記述される設定内容にはたとえば下記のようなものがある。
(1)文書危険度・安全度算出部201cによる文書の危険度・安全度の算出にあたって、考慮すべきタームの種類
(2)分類先判定部201eによる危険文書/安全文書の判定にあたって、危険度と安全度が同点である場合の扱い
(3)分類先判定部201eによる危険文書/安全文書の判定にあたって、抑制語の有無を考慮するか否か
(4)判定結果出力部201fによる判定結果の出力形態
【0079】
図4は、この発明の実施の形態1による文書分類装置における、文書分類処理の手順を示すフローチャートである。図示する手順は、分類対象文書記憶部201a内の1文書を危険文書または安全文書のいずれかに分類する手順であり、全対象文書について分類をおこなうには、単純に図示する手順を文書数分だけ繰り返せばよい。
【0080】
まず形態素解析部201bにより、分類対象文書記憶部201a内の注目する文書について形態素解析をおこない(ステップS401)、つぎに文書危険度・安全度算出部201cにより、上記文書の危険度と安全度とをそれぞれ算出する(ステップS402)。
【0081】
そしてもし上述の設定ファイルで、文書の危険/安全の判定にあたって抑制語を考慮すべき旨が設定されていた場合は(ステップS403:Yes)、続いて抑制語有無判定部201dにより、抑制語辞書200fに登録された抑制語が上記文書に含まれるかどうかをチェックする(ステップS404)。つぎに分類先判定部201eにより、ステップS402で算出された危険度と安全度、およびステップS404でチェックされた抑制語の有無にもとづいて、上記文書が危険文書であるか安全文書であるかを判定する(ステップS405)。
【0082】
一方、設定ファイルで文書の危険/安全の判定に抑制語を考慮しない旨が設定されていた場合(ステップS403:No)、分類先判定部201eはステップS402で算出された危険度と安全度のみにもとづいて、上記文書が危険文書であるか安全文書であるかを判定する(ステップS406)。そして、ステップS405またはステップS406による判定結果が、判定結果出力部201fにより、危険文書の一覧表示などの形で出力される(ステップS407)。
【0083】
以上説明した実施の形態1によれば、文書中に出現する形態素の中でも、特に書き手の口調や語調の特徴が表れやすい付属語に注目して分類をおこなうことで、自立語には現れない感情、さらに一般には「モダリティ」と呼ばれるものにもとづいて、読み手にとって危険な文書をそうでない文書から選り分けることが可能である。
【0084】
しかも文書に使用される付属語は、自立語に比べてジャンルやトレンドによる変化が少なく、バリエーションが限られているため、学習用のデータが少量であっても十分な精度の分類を実現するための辞書作成が可能である。人手によるチューニングや特殊な運用形態に応じたカスタマイズのコストも大幅に削減でき、より汎用的な文書分類システムを実現することが可能である。
【0086】
また、上述した実施の形態ではCSセンターにおける運用を想定しているため、企業にとって危険な文書、たとえば苦情、非難、抗議、詰問、命令などを含む文書をそうでない文書から選別できれば一応十分であるが、危険かどうかというだけでなくより一般的に、文書をそこに含まれる感情ごとに分類したいといったニーズもあり得る。
【0087】
その場合は、たとえば学習用文書を「苦情文書」「抗議文書」「質問文書」「提案文書」「要求文書」「要望文書」「意見文書」「謝礼文書」などに分類しておき、各カテゴリの文書に対する各タームの影響度をそれぞれ算出しておく。そして、分類対象文書中に含まれる各タームの、各カテゴリの文書に対する影響度を集計し、その総和が最高となったカテゴリに当該文書を分類する。
【0088】
上記のほか、たとえば文書中に出現する表現のカジュアルさにより、業務上のメールと私用メールとを分類するフィルターとして本装置を応用することもできる。
【0089】
また、上述した実施の形態ではもっぱら付属語を基準として文書を分類したが、補助的に自立語を考慮するのであってもよい(たとえば、自立語の中でも特に書き手の感情の表れやすい感嘆詞や、上述のアフェクトタームなど)。付属語と自立語の両者に注目することで、付属語に表れるモダリティと、自立語に表れる意味内容との両面から文書を分類することができる。
【0090】
(実施の形態2)
さて、上述した実施の形態1では、文書内の個々の付属語の危険度と安全度とをそれぞれ集計することで当該文書の危険度および安全度を算出したが、このように個々の付属語に注目するのではなく、以下で説明する実施の形態2のように、付属語列すなわち付属語の連続パターンに注目するようにしてもよい。
【0091】
実施の形態2による文書分類装置のハードウエア構成は、図1に示した実施の形態1のそれと同一であるので説明を省略する。また、機能的構成についても図2に示した実施の形態1と同様であるが、図中、辞書作成部200内のターム危険度・安全度算出部200cと、文書分類部201内の文書危険度・安全度算出部201cとの機能が、実施の形態1とは若干異なっている。以下、この差異を中心に説明する。
【0092】
まずターム危険度・安全度算出部200cは、実施の形態1では形態素解析部200bにより切り出された個々の付属語についてその危険度と安全度とを算出していたが、実施の形態2ではより一般化して、連続(隣接)する付属語同士を少なくとも1個以上の任意の個数だけ組み合わせて得られる付属語列、すなわち付属語の連続パターンについてその影響度を算出する。
【0093】
たとえば学習用文書中に「してください」という付属語列があった場合、形態素解析部200bにより切り出されるのは「し」「て」「くださ」「い」の4つの付属語であるが、実施の形態2によるターム危険度・安全度算出部200cは、具体的には下記に掲げる計10個の付属語列についてその危険度と安全度とを算出する。
【0094】
(1)し
(2)して
(3)してくださ
(4)してください
(5)て
(6)てくださ
(7)てください
(8)くださ
(9)ください
(10)い
【0095】
ここまでの説明で「ターム」と呼んでいたのは、上記のうち(1)(5)(8)(10)のみであったが、「ターム」の定義を拡張して(1)〜(10)のすべてを「ターム」と呼ぶことにすると、実施の形態1にせよ2にせよ、ターム危険度・安全度算出部200cはいずれも「ターム」の危険度および安全度を算出する機能部である、と言える(「ターム」の範囲に広狭の差があるのみ)。
【0096】
なお、実施の形態2による影響度辞書200dには、上記の意味での「ターム」、すなわち少なくとも1つ以上の連続する付属語からなる付属語列の危険度と安全度とが格納される。
【0097】
つぎに文書危険度・安全度算出部201cは、実施の形態1では形態素解析部201bにより切り出された個々の付属語の危険度と安全度とを集計することで、文書全体の危険度や安全度を算出していたが、実施の形態2では付属語列の危険度と安全度から文書の危険度および安全度を算出する。
【0098】
たとえば分類対象文書中に「してください」という付属語列があった場合、形態素解析部201bにより切り出されるのは「し」「て」「くださ」「い」の4つの付属語であるが、実施の形態2による文書危険度・安全度算出部201cは、一続きの付属語列であって影響度辞書200d内のタームと一致する最長のもの、この例では「してください」の危険度と安全度のみに注目して文書の危険度と安全度を算出する。すなわち、たとえば「し」や「て」単独の危険度は考慮されない。
【0099】
図5は、この発明の実施の形態2による文書危険度・安全度算出部201cにおける、文書の危険度・安全度算出処理(図4のステップS402の処理)の詳細な手順を示すフローチャートである。
【0100】
まず、現在位置を示すポインタを注目文書の文書頭にセットする(ステップS601)。つぎに、上記現在位置から文書末方向に向かって、連続した、できるだけ長い付属語列を取り出し、注目中の付属語列を保持するための所定の変数に格納する(ステップS602)。
【0101】
つぎに、上記注目中の付属語列の先頭から、影響度辞書200dに存在する最長の付属語列を取り出す(ステップS603)。具体的にはたとえば、注目中の付属語列を末尾の付属語から一つずつ削ってゆき、影響度辞書200dに同一の付属語列が発見できた時点の付属語列を取り出すようにする。
【0102】
そして、取り出した付属語列の危険度と安全度とを影響度辞書200dから読み出し(ステップS604)、文書の危険度と安全度を保持するための所定の変数の値(初期値はいずれも0)にそれぞれ加算する(ステップS605)。そして、ステップS603で最長一致する付属語列を取り出した後も、注目中の付属語列を保持する変数にデータが残っていれば(ステップS606:Yes)、当該残りの付属語列についてステップS603以下の処理を繰り返す。
【0103】
一方、上記変数が空になっている場合は(ステップS606:No)、現在位置を示すポインタを前回のステップS602で取り出した付属語列の末尾に合わせ(ステップS607)、当該位置が文書末でなければ(ステップS608:No)、再度この位置からステップS602以下の処理を繰り返す。そして、文書末まで上述の処理を終えた時点で(ステップS608:Yes)、本フローチャートによる処理を終了し、図4のステップS403に移行する。
【0104】
上記の手順により、たとえば「申し込みを受け付けているのだからそんないいわけは通用しないのでは。お粗末と思います。」という2文からなる文書では、影響度辞書200dの付属語列と最長一致する下記付属語列
(1)を
(2)ているの
(3)だから
(4)は
(5)しないのでは
(6)と
(7)います
の危険度・安全度の集計により文書の危険度と安全度が算出されることになる(付属語列「ているのだから」は影響度辞書200dには登録されていないものとする)。
【0105】
以上説明した実施の形態2によれば、個々の付属語よりも大きなまとまりとしての付属語列に注目している、言い換えれば、付属語間の出現順序や隣接関係なども考慮していることになるので、単にどの付属語が出現しているかを考慮した場合よりも高精度な分類が可能と期待される。
【0106】
ただ、付属語列は付属語の組み合わせであるためパターンが指数関数的に増大し、一般的にあり得る表現にもかかわらず、たまたま学習用文書群には出現しないパターンなどが大量にある。最長一致法においてより精度を上げる方法としては、たとえば下記のようなものが考えられる。
【0107】
(1)表現の正規化
「色の赤い車」「色が赤い車」「赤い色の車」のような、属性形容詞の同義表現、あるいは「印刷できる」と「印刷ができる」のような、サ変名詞で格助詞が後続する/しない表現を同一視する。「自宅」と「自分の家」など、実質的に同一である表現には個別対応となる。
【0108】
(2)係り受けの利用
「ドキュメントがプリンタで印刷できない」と「プリンタでドキュメントが印刷できない」など、係り受け関係は同一で格パターンの出現順序だけが異なるケースでは、構文解析の結果いずれも「ドキュメント→が→印刷できない」「プリンタ→で→印刷できない」の係り受け関係が得られるので、形態素列とは無関係にこの矢印をたどりながらタームの危険度・安全度を集計してゆくことで、語順の差異を吸収することができる。「印刷が全くできない」と「全く印刷ができない」のように、副詞の出現位置が異なるケースなども同様である。
【0109】
なお、上述した形態素解析部200b/201b、ターム危険度・安全度算出部200c、抑制語候補抽出部200e、文書危険度・安全度算出部201c、抑制語有無判定部201d、分類先判定部201e、判定結果出力部201fおよびオプション設定部201gは、具体的にはHD105からRAM103に読み出されたプログラムをCPU101が実行することにより実現される。このプログラムはHD105のほか、FD107、CD−RW109、MOなどの各種の記録媒体に格納して配布することができ、ネットワークを介して配布することも可能である。また、学習用文書記憶部200aおよび分類対象文書記憶部201aはHD105により、影響度辞書200dおよび抑制語辞書200fはRAM103により、それぞれ実現される。
【0110】
【発明の効果】
以上説明したようにこの発明は、電子文書を当該文書に出現する語や語句の特徴などにもとづいて所定のカテゴリのいずれかに分類する文書分類装置において、前記電子文書の本文から個々の形態素を切り出す形態素解析手段と、前記形態素解析手段により切り出された形態素のうち付属語であるものの前記各カテゴリに対する影響度にもとづいて前記電子文書の分類先となるカテゴリを判定する分類先判定手段と、を備えたので、文書はそこに出現する付属語の特徴にもとづいていずれかのカテゴリに分類され、これによって、文書中の特に付属語の部分に表れやすい書き手の口調や語調にもとづいて文書を分類することが可能な文書分類装置が得られるという効果を奏する。
【0111】
また、この発明は、電子文書を当該文書に出現する語や語句の特徴などにもとづいて所定のカテゴリのいずれかに分類する文書分類装置において、前記電子文書の本文から個々の形態素を切り出す形態素解析手段と、前記形態素解析手段により切り出された形態素のうち付属語であるものの危険度を集計することで前記電子文書の危険度を算出する危険度算出手段と、前記形態素解析手段により切り出された形態素のうち付属語であるものの安全度を集計することで前記電子文書の安全度を算出する安全度算出手段と、前記危険度算出手段により算出された危険度と前記安全度算出手段により算出された安全度との相対関係にもとづいて前記電子文書の分類先となるカテゴリを判定する分類先判定手段と、を備えたので、文書中に出現する付属語の危険度や安全度により文書全体の危険度や安全度が把握され、これによって、文書中の特に付属語の部分に表れやすい書き手の口調や語調にもとづいて文書を分類することが可能な文書分類装置が得られるという効果を奏する。
【0112】
また、この発明は、電子文書を当該文書に出現する語や語句の特徴などにもとづいて所定のカテゴリのいずれかに分類する文書分類装置において、前記電子文書の本文から個々の形態素を切り出す形態素解析手段と、前記形態素解析手段により切り出された形態素のうち一部の自立語と付属語の危険度を集計することで前記電子文書の危険度を算出する危険度算出手段と、前記形態素解析手段により切り出された形態素のうち一部の自立語と付属語の安全度を集計することで前記電子文書の安全度を算出する安全度算出手段と、前記危険度算出手段により算出された危険度と前記安全度算出手段により算出された安全度との相対関係にもとづいて前記電子文書の分類先となるカテゴリを判定する分類先判定手段と、を備えたので、文書中に出現する特に感情的な自立語や付属語の危険度や安全度により文書全体の危険度や安全度が把握され、これによって、文書中の特に付属語の部分に表れやすい書き手の口調や語調にもとづいて文書を分類することが可能な文書分類装置が得られるという効果を奏する。
【0113】
また、この発明は、電子文書を当該文書に出現する語や語句の特徴などにもとづいて所定のカテゴリのいずれかに分類する文書分類装置において、前記電子文書の本文から個々の形態素を切り出す形態素解析手段と、前記形態素解析手段により切り出された形態素の中から、連続する少なくとも1つ以上の付属語により構成される付属語列を切り出す付属語列切り出し手段と、前記付属語列切り出し手段により切り出された付属語列の危険度を集計することで前記電子文書の危険度を算出する危険度算出手段と、前記付属語列切り出し手段により切り出された付属語列の安全度を集計することで前記電子文書の安全度を算出する安全度算出手段と、前記危険度算出手段により算出された危険度と前記安全度算出手段により算出された安全度との相対関係にもとづいて前記電子文書の分類先となるカテゴリを判定する分類先判定手段と、を備えたので、文書中に出現する付属語列の危険度や安全度により文書全体の危険度や安全度が把握され、これによって、文書中の特に付属語の部分に表れやすい書き手の口調や語調にもとづいて文書を分類することが可能な文書分類装置が得られるという効果を奏する。
【0114】
また、この発明は、上記の発明において、前記付属語列切り出し手段が、連続する少なくとも1つ以上の付属語により構成される付属語列であって、かつ所定の辞書に登録された付属語列と最長一致する付属語列を切り出すので、文書中に出現する付属語列のうちできるだけ長いものの危険度や安全度により文書全体の危険度や安全度が把握され、これによって、文書中の特に付属語の部分に表れやすい書き手の口調や語調にもとづいて文書を分類することが可能な文書分類装置が得られるという効果を奏する。
【0115】
また、この発明は、上記の発明において、さらに、前記電子文書に所定の抑制語が出現しているか否かを判定する抑制語有無判定手段を備え、前記分類先判定手段が、前記危険度算出手段により算出された危険度と前記安全度算出手段により算出された安全度との相対関係、および前記抑制語有無判定手段による判定結果にもとづいて前記電子文書の分類先となるカテゴリを判定するので、文書中に出現する付属語列の危険度や安全度のほか、特に文書の危険性や安全性を示唆する抑制語が出現していないかどうかにも配慮して文書全体の危険度や安全度が把握され、これによって、文書中の特に付属語の部分に表れやすい書き手の口調や語調にもとづいて高精度に文書を分類することが可能な文書分類装置が得られるという効果を奏する。
【0116】
また、この発明は、電子文書を当該文書に出現する語や語句の特徴などにもとづいて所定のカテゴリのいずれかに分類する文書分類方法において、前記電子文書の本文から個々の形態素を切り出す形態素解析工程と、前記形態素解析工程で切り出された形態素のうち付属語であるものの前記各カテゴリに対する影響度にもとづいて前記電子文書の分類先となるカテゴリを判定する分類先判定工程と、を含んだので、文書はそこに出現する付属語の特徴にもとづいていずれかのカテゴリに分類され、これによって、文書中の特に付属語の部分に表れやすい書き手の口調や語調にもとづいて文書を分類することが可能な文書分類方法が得られるという効果を奏する。
【0117】
また、この発明は、電子文書を当該文書に出現する語や語句の特徴などにもとづいて所定のカテゴリのいずれかに分類する文書分類方法において、前記電子文書の本文から個々の形態素を切り出す形態素解析工程と、前記形態素解析工程で切り出された形態素のうち付属語であるものの危険度を集計することで前記電子文書の危険度を算出する危険度算出工程と、前記形態素解析工程で切り出された形態素のうち付属語であるものの安全度を集計することで前記電子文書の安全度を算出する安全度算出工程と、前記危険度算出工程で算出された危険度と前記安全度算出工程で算出された安全度との相対関係にもとづいて前記電子文書の分類先となるカテゴリを判定する分類先判定工程と、を含んだので、文書中に出現する付属語の危険度や安全度により文書全体の危険度や安全度が把握され、これによって、文書中の特に付属語の部分に表れやすい書き手の口調や語調にもとづいて文書を分類することが可能な文書分類方法が得られるという効果を奏する。
【0118】
また、この発明は、電子文書を当該文書に出現する語や語句の特徴などにもとづいて所定のカテゴリのいずれかに分類する文書分類方法において、前記電子文書の本文から個々の形態素を切り出す形態素解析工程と、前記形態素解析工程で切り出された形態素のうち一部の自立語と付属語の危険度を集計することで前記電子文書の危険度を算出する危険度算出工程と、前記形態素解析工程で切り出された形態素のうち一部の自立語と付属語の安全度を集計することで前記電子文書の安全度を算出する安全度算出工程と、前記危険度算出工程で算出された危険度と前記安全度算出工程で算出された安全度との相対関係にもとづいて前記電子文書の分類先となるカテゴリを判定する分類先判定工程と、を含んだので、文書中に出現する特に感情的な自立語や付属語の危険度や安全度により文書全体の危険度や安全度が把握され、これによって、文書中の特に付属語の部分に表れやすい書き手の口調や語調にもとづいて文書を分類することが可能な文書分類方法が得られるという効果を奏する。
【0119】
また、この発明は、電子文書を当該文書に出現する語や語句の特徴などにもとづいて所定のカテゴリのいずれかに分類する文書分類方法において、前記電子文書の本文から個々の形態素を切り出す形態素解析工程と、前記形態素解析工程で切り出された形態素の中から、連続する少なくとも1つ以上の付属語により構成される付属語列を切り出す付属語列切り出し工程と、前記付属語列切り出し工程で切り出された付属語列の危険度を集計することで前記電子文書の危険度を算出する危険度算出工程と、前記付属語列切り出し工程で切り出された付属語列の安全度を集計することで前記電子文書の安全度を算出する安全度算出工程と、前記危険度算出工程で算出された危険度と前記安全度算出工程で算出された安全度との相対関係にもとづいて前記電子文書の分類先となるカテゴリを判定する分類先判定工程と、を含んだので、文書中に出現する付属語列の危険度や安全度により文書全体の危険度や安全度が把握され、これによって、文書中の特に付属語の部分に表れやすい書き手の口調や語調にもとづいて文書を分類することが可能な文書分類方法が得られるという効果を奏する。
【0120】
また、この発明は、上記の発明において、前記付属語列切り出し工程では、連続する少なくとも1つ以上の付属語により構成される付属語列であって、かつ所定の辞書に登録された付属語列と最長一致する付属語列を切り出すので、文書中に出現する付属語列のうちできるだけ長いものの危険度や安全度により文書全体の危険度や安全度が把握され、これによって、文書中の特に付属語の部分に表れやすい書き手の口調や語調にもとづいて文書を分類することが可能な文書分類方法が得られるという効果を奏する。
【0121】
また、この発明は、上記の発明において、さらに、前記電子文書に所定の抑制語が出現しているか否かを判定する抑制語有無判定工程を含み、前記分類先判定工程では、前記危険度算出工程で算出された危険度と前記安全度算出工程で算出された安全度との相対関係、および前記抑制語有無判定工程における判定結果にもとづいて前記電子文書の分類先となるカテゴリを判定するので、文書中に出現する付属語列の危険度や安全度のほか、特に文書の危険性や安全性を示唆する抑制語が出現していないかどうかにも配慮して文書全体の危険度や安全度が把握され、これによって、文書中の特に付属語の部分に表れやすい書き手の口調や語調にもとづいて高精度に文書を分類することが可能な文書分類方法が得られるという効果を奏する。
【0122】
また、この発明によれば、上記に記載された方法をコンピュータに実行させることが可能なプログラムが得られるという効果を奏する。
【図面の簡単な説明】
【図1】この発明の実施の形態1による文書分類装置のハードウエア構成の一例を示す説明図である。
【図2】この発明の実施の形態1による文書分類装置の構成を機能的に示す説明図である。
【図3】この発明の実施の形態1による文書分類装置における、影響度辞書200dおよび抑制語辞書200fの作成処理の手順を示すフローチャートである。
【図4】この発明の実施の形態1による文書分類装置における、文書分類処理の手順を示すフローチャートである。
【図5】この発明の実施の形態2による文書危険度・安全度算出部201cにおける、文書の危険度・安全度算出処理(図4のステップS402の処理)の詳細な手順を示すフローチャートである。
【符号の説明】
100 バス
101 CPU
102 ROM
103 RAM
104 HDD
105 HD
106 FDD
107 FD
108 CD−RWドライブ
109 CD−RW
110 ディスプレイ
111 キーボード
112 マウス
113 ネットワークI/F
114 通信ケーブル
200a 学習用文書記憶部
200b 形態素解析部
200c ターム危険度・安全度算出部
200d 影響度辞書
200e 抑制語候補抽出部
200f 抑制語辞書
201a 分類対象文書記憶部
201b 形態素解析部
201c 文書危険度・安全度算出部
201d 抑制語有無判定部
201e 分類先判定部
201f 判定結果出力部
201g オプション設定部

Claims (9)

  1. 電子文書を当該文書に出現する語や語句の特徴などにもとづいて危険文書のカテゴリまたは安全文書のカテゴリのいずれかに分類する文書分類装置において、
    前記電子文書の本文から個々の形態素を切り出す形態素解析手段と、
    前記形態素解析手段により切り出された形態素のうち付属語であるものの危険度を集計することで前記電子文書の危険度を算出する危険度算出手段と、
    前記形態素解析手段により切り出された形態素のうち付属語であるものの安全度を集計することで前記電子文書の安全度を算出する安全度算出手段と、
    前記危険度算出手段により算出された危険度と前記安全度算出手段により算出された安全度との相対関係にもとづいて文書の危険/安全を判定することにより、前記電子文書の分類先となるカテゴリが前記危険文書のいずれのカテゴリであるかまたは前記安全文書のいずれのカテゴリであるかを判定する分類先判定手段と、
    を備え、
    前記分類先判定手段は、前記相対関係の程度によって前記電子文書の分類先となる前記危険文書のカテゴリまたは前記安全文書のカテゴリを分割することを特徴とする文書分類装置。
  2. 電子文書を当該文書に出現する語や語句の特徴などにもとづいて危険文書のカテゴリまたは安全文書のカテゴリのいずれかに分類する文書分類装置において、
    前記電子文書の本文から個々の形態素を切り出す形態素解析手段と、
    前記形態素解析手段により切り出された形態素のうち一部の自立語と付属語の危険度を集計することで前記電子文書の危険度を算出する危険度算出手段と、
    前記形態素解析手段により切り出された形態素のうち一部の自立語と付属語の安全度を集計することで前記電子文書の安全度を算出する安全度算出手段と、
    前記危険度算出手段により算出された危険度と前記安全度算出手段により算出された安全度との相対関係にもとづいて文書の危険/安全を判定することにより、前記電子文書の分類先となるカテゴリが前記危険文書のいずれのカテゴリであるかまたは前記安全文書のいずれのカテゴリであるかを判定する分類先判定手段と、
    を備え、
    前記分類先判定手段は、前記相対関係の程度によって前記電子文書の分類先となる前記危険文書のカテゴリまたは前記安全文書のカテゴリを分割することを特徴とする文書分類装置。
  3. 電子文書を当該文書に出現する語や語句の特徴などにもとづいて危険文書のカテゴリまたは安全文書のカテゴリのいずれかに分類する文書分類装置において、
    前記電子文書の本文から個々の形態素を切り出す形態素解析手段と、
    前記形態素解析手段により切り出された形態素の中から、連続する少なくとも1つ以上の付属語により構成される付属語列を切り出す付属語列切り出し手段と、
    前記付属語列切り出し手段により切り出された付属語列の危険度を集計することで前記電子文書の危険度を算出する危険度算出手段と、
    前記付属語列切り出し手段により切り出された付属語列の安全度を集計することで前記電子文書の安全度を算出する安全度算出手段と、
    前記危険度算出手段により算出された危険度と前記安全度算出手段により算出された安全度との相対関係にもとづいて文書の危険/安全を判定することにより、前記電子文書の分類先となるカテゴリが前記危険文書のいずれのカテゴリであるかまたは前記安全文書のいずれのカテゴリであるかを判定する分類先判定手段と、
    を備え、
    前記分類先判定手段は、前記相対関係の程度によって前記電子文書の分類先となる前記危険文書のカテゴリまたは前記安全文書のカテゴリを分割することを特徴とする文書分類装置。
  4. 前記付属語列切り出し手段は、連続する少なくとも1つ以上の付属語により構成される付属語列であって、かつ所定の辞書に登録された付属語列と最長一致する付属語列を切り出すことを特徴とする前記請求項3に記載の文書分類装置。
  5. 形態素解析手段と、危険度算出手段と、安全度算出手段と、分類先判定手段と、を備え、電子文書を当該文書に出現する語や語句の特徴などにもとづいて危険文書のカテゴリまたは安全文書のカテゴリのいずれかに分類する文書分類装置の文書分類方法において、
    前記形態素解析手段が、前記電子文書の本文から個々の形態素を切り出す形態素解析工程と、
    前記危険度算出手段が、前記形態素解析工程で切り出された形態素のうち付属語であるものの危険度を集計することで前記電子文書の危険度を算出する危険度算出工程と、
    前記安全度算出手段が、前記形態素解析工程で切り出された形態素のうち付属語であるものの安全度を集計することで前記電子文書の安全度を算出する安全度算出工程と、
    前記分類先判定手段が、前記危険度算出手段により算出された危険度と前記安全度算出手段により算出された安全度との相対関係にもとづいて文書の危険/安全を判定することにより、前記電子文書の分類先となるカテゴリが前記危険文書のいずれのカテゴリであるかまたは前記安全文書のいずれのカテゴリであるかを判定する分類先判定工程と、
    を含み、
    前記分類先判定工程は、前記相対関係の程度によって前記電子文書の分類先となる前記危険文書のカテゴリまたは前記安全文書のカテゴリを分割することを特徴とする文書分類方法。
  6. 形態素解析手段と、危険度算出手段と、安全度算出手段と、分類先判定手段と、を備え、電子文書を当該文書に出現する語や語句の特徴などにもとづいて危険文書のカテゴリまたは安全文書のカテゴリのいずれかに分類する文書分類装置の文書分類方法において、
    前記形態素解析手段が、前記電子文書の本文から個々の形態素を切り出す形態素解析工程と、
    前記危険度算出手段が、前記形態素解析工程で切り出された形態素のうち一部の自立語と付属語の危険度を集計することで前記電子文書の危険度を算出する危険度算出工程と、
    前記安全度算出手段が、前記形態素解析工程で切り出された形態素のうち一部の自立語と付属語の安全度を集計することで前記電子文書の安全度を算出する安全度算出工程と、
    前記分類先判定手段が、前記危険度算出手段により算出された危険度と前記安全度算出手段により算出された安全度との相対関係にもとづいて文書の危険/安全を判定することにより、前記電子文書の分類先となるカテゴリが前記危険文書のいずれのカテゴリであるかまたは前記安全文書のいずれのカテゴリであるかを判定する分類先判定工程と、
    を含み、
    前記分類先判定工程は、前記相対関係の程度によって前記電子文書の分類先となる前記危険文書のカテゴリまたは前記安全文書のカテゴリを分割することを特徴とする文書分類方法。
  7. 形態素解析手段と、付属語列切り出し手段と、危険度算出手段と、安全度算出手段と、分類先判定手段と、を備え、電子文書を当該文書に出現する語や語句の特徴などにもとづいて危険文書のカテゴリまたは安全文書のカテゴリのいずれかに分類する文書分類装置の文書分類方法において、
    前記形態素解析手段が、前記電子文書の本文から個々の形態素を切り出す形態素解析工程と、
    前記付属語列切り出し手段が、前記形態素解析工程で切り出された形態素の中から、連続する少なくとも1つ以上の付属語により構成される付属語列を切り出す付属語列切り出し工程と、
    前記危険度算出手段が、前記付属語列切り出し工程で切り出された付属語列の危険度を集計することで前記電子文書の危険度を算出する危険度算出工程と、
    前記安全度算出手段が、前記付属語列切り出し工程で切り出された付属語列の安全度を集計することで前記電子文書の安全度を算出する安全度算出工程と、
    前記分類先判定手段が、前記危険度算出手段により算出された危険度と前記安全度算出手段により算出された安全度との相対関係にもとづいて文書の危険/安全を判定することにより、前記電子文書の分類先となるカテゴリが前記危険文書のいずれのカテゴリであるかまたは前記安全文書のいずれのカテゴリであるかを判定する分類先判定工程と、
    を含み、
    前記分類先判定工程は、前記相対関係の程度によって前記電子文書の分類先となる前記危険文書のカテゴリまたは前記安全文書のカテゴリを分割することを特徴とする文書分類方法。
  8. 前記付属語列切り出し手段がおこなう前記付属語列切り出し工程では、連続する少なくとも1つ以上の付属語により構成される付属語列であって、かつ所定の辞書に登録された付属語列と最長一致する付属語列を切り出すことを特徴とする前記請求項に記載の文書分類方法。
  9. 前記請求項5〜請求項8のいずれか一つに記載された方法をコンピュータに実行させるためのプログラム。
JP2002298095A 2002-10-10 2002-10-10 文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラム Expired - Fee Related JP4514401B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002298095A JP4514401B2 (ja) 2002-10-10 2002-10-10 文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002298095A JP4514401B2 (ja) 2002-10-10 2002-10-10 文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラム

Publications (2)

Publication Number Publication Date
JP2004133714A JP2004133714A (ja) 2004-04-30
JP4514401B2 true JP4514401B2 (ja) 2010-07-28

Family

ID=32287619

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002298095A Expired - Fee Related JP4514401B2 (ja) 2002-10-10 2002-10-10 文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラム

Country Status (1)

Country Link
JP (1) JP4514401B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4819483B2 (ja) * 2005-11-14 2011-11-24 旭化成株式会社 危険予知管理システム
JP7106035B1 (ja) * 2021-11-24 2022-07-25 シエンプレ株式会社 クレーム発生予測システム、クレーム発生予測方法及びプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001034637A (ja) * 1999-07-27 2001-02-09 Zenrin Co Ltd 建物業態分類装置及び方法、建物業態別地図表示装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH069054B2 (ja) * 1988-01-22 1994-02-02 日本電気株式会社 文書自動分類装置
JP3669016B2 (ja) * 1994-09-30 2005-07-06 株式会社日立製作所 文書情報分類装置
JPH09128395A (ja) * 1995-10-31 1997-05-16 Toshiba Corp 文書作成装置及び文書作成方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001034637A (ja) * 1999-07-27 2001-02-09 Zenrin Co Ltd 建物業態分類装置及び方法、建物業態別地図表示装置

Also Published As

Publication number Publication date
JP2004133714A (ja) 2004-04-30

Similar Documents

Publication Publication Date Title
US9400779B2 (en) Method and system for classifying reviewers' comments and recommending related actions in idea-generating social media platforms
US8346879B2 (en) Detecting conflicts in email messages
US10572589B2 (en) Cognitive matching of narrative data
US8650023B2 (en) Customer review authoring assistant
JP4904496B2 (ja) 文書類似性導出装置及びそれを用いた回答支援システム
US9817821B2 (en) Translation and dictionary selection by context
AU2015301869A1 (en) Methods and apparatuses for modeling customer interaction experiences
US20130024184A1 (en) Data processing system and method for assessing quality of a translation
US20110191673A1 (en) Apparatus, method, and program for supporting processing of character string in document
US20020163500A1 (en) Communication analyzing system
JP2000513843A (ja) 辞書に基づく品詞確率による自然言語パーザ
US20030196176A1 (en) Method for composing documents
US8006181B2 (en) System for handling novel words in a spellchecking module
JP2009014888A (ja) 対話処理装置、対話処理方法及びコンピュータ・プログラム
JP2002230011A (ja) 感情認識システム
JP4514401B2 (ja) 文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラム
JP6917400B2 (ja) 文書審査支援方法、文書審査支援装置及びコンピュータプログラム
JP2005190284A (ja) 情報分類装置および情報分類方法
US20040093200A1 (en) Method of and system for recognizing concepts
JP2009053743A (ja) 文書類似性導出装置、文書類似性導出方法、及び、文書類似性導出プログラム
JP6623840B2 (ja) 同義語検出装置、同義語検出方法及び同義語検出用コンピュータプログラム
US7475334B1 (en) Method and system for abstracting electronic documents
JP2002055973A (ja) 情報処理装置、媒体、およびプログラム
JP2002183117A (ja) 文書校正支援装置、文書校正支援方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4123472B2 (ja) 人材活用支援システムおよび人材活用支援プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051007

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081205

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081216

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090512

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090713

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20091006

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100105

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20100125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100309

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100324

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100413

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100511

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130521

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees