JP4213900B2 - 文書分類装置と記録媒体 - Google Patents

文書分類装置と記録媒体 Download PDF

Info

Publication number
JP4213900B2
JP4213900B2 JP2002068858A JP2002068858A JP4213900B2 JP 4213900 B2 JP4213900 B2 JP 4213900B2 JP 2002068858 A JP2002068858 A JP 2002068858A JP 2002068858 A JP2002068858 A JP 2002068858A JP 4213900 B2 JP4213900 B2 JP 4213900B2
Authority
JP
Japan
Prior art keywords
meaning
expression pattern
dictionary
sentence
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002068858A
Other languages
English (en)
Other versions
JP2003271616A (ja
Inventor
奈穂子 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2002068858A priority Critical patent/JP4213900B2/ja
Publication of JP2003271616A publication Critical patent/JP2003271616A/ja
Application granted granted Critical
Publication of JP4213900B2 publication Critical patent/JP4213900B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、文書分類装置及び記録媒体に関し、詳細には、テキスト文書をカテゴリ分けし、文意表現パターン辞書を参照して文意別に分析・分類するとともに、文意表現パターン辞書を任意に編集し、所望の文意による文書分類を行う文書分類装置及び記録媒体に関する。
【0002】
【従来の技術】
近時、情報の電子化が進み、従来紙文書で保管されていた文書も電子化されるようになってきている。このような文書の電子化に伴って、大量の電子化文書が流通し、収集・蓄積された電子化文書をいかに管理して簡便に再利用するかが重量な問題となってきている。
【0003】
そして、従来、このような電子文書の簡便な利用や管理のためにさまざまな文書処理技術が提案されており、この文書処理技術の一例として、ある目的で収集された文書群の自動分類が挙げられる。この文書群の自動分類は、大量の電子化文書群から類似した文書群を自動分類する技術であり、一般的には、各文書に含まれている重要語句の類似性、出現頻度、出現場所等の共通点に基づいて、関連性の高い文書をグルーピングする仕組みになっている。この文書群の自動分類で利用されている重要語句としては、従来、文書におけるキーワードが用いられており、主に文書中に頻出する名詞、動詞等の品詞を限定して抽出した単語である。
【0004】
また、従来、処理対象となる文書を入力する入力部と、入力した文書中の文章に対して形態素解析を行う形態素解析部と、前記形態素解析部から出力された形態素列の部分列を、重み付きで特定表現候補として取得する特定表現候補取得部と、予めいくつかの特定表現を格納した特定表現辞書と、与えられた形態素列の前記特定表現辞書中の表現に対するマッチ度を表す実数を、当該形態素列の前記特定表現辞書に対する検索結果として取得する特定表現辞書検索部と、前記特定表現候補に対して、前記候補に付与された重みと、前記特定表現検索部による前記候補の前記特定表現辞書に対する検索結果とを変数として判別スコアを計算し、前記判別スコアが予め設定した一定の値を下回る候補を除外する判別分析実行部と、前記特定表現候補のうち、前記判別分析実行部によって除外されなかった形態素の文字列を特定表現として出力する出力部とを備えた文書処理装置が提案されている(特開2001−75959号公報参照)。
【0005】
すなわち、この従来技術は、人名や企業名等に特有の特定表現を、辞書を用いて抽出し、それを重要語句として、単語単体よりも、複数の単語の並びや単語の出現パターンなど含有情報が多く、より限定がかかった表現単位での類似性判断を行なうことで、分類の精度の向上を図っている。
【0006】
【発明が解決しようとする課題】
しかしながら、上記公報記載の従来技術は、人名や企業名等の特定表現の情報抽出を目的としたものであり、特定表現を利用した分類処理については、言及されておらず、また、特定表現パターンの内容として、書き手の文意を表わす表現パターンについては、上記公報の実施例に記載されていない。
【0007】
一方、アンケートの自由記述部分などを分類、分析する場合、設問に関する話題は予め分かっており、書き手の意図にこそ分析のポイントがあると考えられ、書き手の文意を表わす表現パターンが要求されることは必至である。また、その際に、意図表現パターンをユーザが目的に応じて解釈し、分類(分析)基準を任意に変更できるようなしくみが要望されている。
【0008】
そこで、この発明は、分類基準を任意に変更して、ユーザの所望する文意により文書分類を行い、利用性の良好な文書分類装置を提供することを目的としている。
【0015】
【課題を解決するための手段】
この発明は上記の目的を達成するため、文書の書き手の意図を示す文意タグと文意を表現する特徴的な文意表現パターンとが対になって登録されている文意表現パターン辞書を記憶する文意表現パターン辞書記憶手段と、文書蓄積手段に蓄積されたテキスト文書に対して言語解析を行い、上記テキスト文書の構成単語の属性情報を取得する言語解析手段と、上記テキスト文書を構成する文節を生成し、その生成された文節から文末文節を抽出し、その抽出された文末文節について、上記言語解析手段によって取得した属性情報に基づいて上記文意表現パターン辞書記憶手段の文意表現パターン辞書から該当する文意表現パターンとその文意表現パターンと対の文意タグとを辞書引きし、その辞書引きによって得られた文意タグによって上記文末文節を含むテキスト文書の文意別カテゴリの分類を行うテキスト文書分析手段と、辞書編集指示があると、上記文意表現パターン辞書に登録されている文意タグと文意表現パターンの対と、その文意タグと文意表現パターンの対に対応する無効化欄とを有する辞書編集ウインドウを表示手段に表示し、上記辞書編集ウインドウの無効化欄にチェックがあるか否かを判別し、その判別によって無効化欄にチェックがあった文意表現パターンについて、文意タグとの対の登録を無効化し、その無効化後の文意表現パターン辞書を上記文意表現パターン辞書記憶手段に保存する文意表現パターン辞書編集手段を備えた文書分類装置を提供する。
【0016】
上記構成によれば、分類基準を任意に変更して、ユーザの所望する文意により文書分類を行うことができ、利用性を向上させることができる。
【0017】
また、上記文意表現パターン辞書編集手段を、上記文意表現パターン辞書に、上記文意タグと上記文意表現パターンの対を新たに追加登録するようにするとよい。
【0018】
さらに、上述の文書分類装置における各手段の処理にそれぞれ相当する各工程の手順をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体も提供する。
【0029】
【発明の実施の形態】
以下、本発明の好適な実施の形態を添付図面に基づいて詳細に説明する。なお、以下に述べる実施の形態は、本発明の好適な実施の形態であるから、技術的に好ましい種々の限定が付されているが、本発明の範囲は、以下の説明において特に本発明を限定する旨の記載がない限り、これらの態様に限られるものではない。
【0030】
図1〜図4は、本発明の文書分類装置及び記録媒体の一実施の形態を示す図であり、図1は、本発明の文書分類装置及び記録媒体の一実施の形態を適用した文書分類装置1のブロック構成図である。
【0031】
図1において、文書分類装置1は、テキスト文書登録部2、言語解析部3、テキスト文書分析部4、表示部5、辞書編集部6、テキスト文書群記憶部7、言語解析用辞書記憶部8、言語情報記憶部9、文意表現パターン辞書記憶部10及び編集履歴記憶部11等を備えている。文書分類装置1は、文書分類処理プログラム及び必要なデータを記録するCD−ROM(Compact Disc Read Only Memory )等の記録媒体を、例えば、コンピュータ等に読み取らせて導入することで、構築される。
【0032】
テキスト文書群記憶部(文書蓄積手段)7は、収集されたテキスト文書のテキスト文書群が登録され、登録されたテキスト文書が文書分類・分析の対象となる。
【0033】
テキスト文書登録部2は、収集されたテキスト文書をテキスト文書群記憶部7に登録して蓄積させ、登録したテキスト文書群の管理を行う。
【0034】
言語解析用辞書記憶部8は、言語解析部3による言語解析に必要な各種言語解析情報を記憶する。
【0035】
言語情報記憶部9は、言語解析部3によるテキスト文書の解析処理によって得られる言語的属性を解析単位毎に記憶する。
【0036】
言語解析部(テキスト文書検索手段、カテゴリ生成手段)3は、入力された検索要求を含むテキスト文書をテキスト文書群記憶部7に収集・蓄積された複数のテキスト文書から検索するテキスト文書検索処理と、当該テキスト文書検索結果に基づいて複数のテキスト文書をカテゴリ分けするカテゴリ生成処理を行う。具体的には、言語解析部3は、言語解析用辞書記憶部8の記憶する言語解析用辞書に基づいて、テキスト文書登録部2によりテキスト文書群記憶部7に登録された各テキスト文書の形態素を解析する形態素解析処理、形態素解析処理の解析結果と文節生成規則に基づいて文節を生成する文節生成処理、文節生成処理で生成した文節が解析対象のテキスト文書のどの文節に係っているかを予め設定されている係り受け解析規則に基づいて特定する係り受け解析処理等の各ステップ処理を実行し、これらの形態素解析処理、文節生成処理、係り受け解析処理によって得られる言語的属性を解析単位に言語情報記憶部9に保持させる言語情報登録処理を行う。
【0037】
文意表現パターン辞書記憶部(文意表現パターン辞書記憶手段)10は、文意を表現する特徴的な文意表現パターン辞書が登録され、蓄積する。この文意表現パターン辞書記憶部10に登録される文意表現パターン辞書としては、例えば、図2に示すようなものであり、文書の書き手の意図を示す文意タグの種類(例えば、依頼、要望、否定、疑問、推量等)毎に、文意表現パターンがそれぞれ対として複数登録されている。例えば、依頼の文意タグに対しては、「用言+て/欲しい」、「用言+て/ください」、「サ変名詞+ください」等の文書表現パターン、要望の文意タグに対しては、「用言+助動詞たい」、「用言+て/いただき・助動詞たい」、「サ変名詞+いただき・助動詞たい」等の文書表現パターン、否定の文意タグに対しては、「用言+助動詞ない」、「サ変名詞+助動詞+助動詞ない」等の文書表現パターン、疑問の文意タグに対しては、「用言+終助詞か」、「文末=記号?」等の文書表現パターン、推量の文意タグに対しては、「用言+助動詞だろう」、「用言+副助詞か+副助詞も+しれない」、「用言+助動詞そう」、「助言+助動詞できる+助動詞そう」等の文書表現パターンが対として登録されている。
【0038】
辞書編集部(文意表現パターン辞書編集手段)6は、文意表現パターン辞書記憶部10に登録されている文意表現パターン辞書を、ユーザの操作に応じて、任意に編集し、例えば、文意タグと文意表現パターンを文意表現パターン辞書に新たに追加登録し、また、文意表現パターン辞書に記載されている文書の書き手の意図を示す文意タグと、それを特定するための特徴的な言語表現を個々に無効化する。
【0039】
編集履歴記憶部11は、辞書編集部6による文意表現パターン辞書記憶部10の文意表現パターン辞書の編集履歴を記憶する。
【0040】
テキスト文書分析部(文書分類手段)4は、言語解析部3による解析結果の各解析単位または各単位における言語的属性に基づいて、テキスト文書から文意表現パターン辞書記憶部10の文意表現パターン辞書を検索可能な単位を生成し、この文意表現パターン辞書を検索可能な単位として、例えば、各テキスト文書に対して、文節を生成する文意別文節処理を行う。また、テキスト文書分析部4は、日本語では、文末に意図表現が表出するという特性を利用するために、文末文節を抽出する。
【0041】
すなわち、テキスト文書分析部4は、言語解析部3の解析結果である各解析単位または各単位における言語属性を、文書表現パターン辞書記憶部8の文書表現パターンと文意タグを検索可能な形式に変換する文意表現変換処理、当該文意表現変換処理した言語属性に基づいて文書表現パターン辞書記憶部8の辞書引きを行う辞書引き処理、当該辞書引き処理で辞書引きした文書表現パターンに合致した文書表現パターンを文意タグに変換する文意タグ変換処理及び文意タグ変換処理で変換した文意タグを用いてテキスト文書の文意別カテゴリの分類を行う文意別カテゴリ分類処理を行う。
【0042】
表示部5は、液晶ディスプレイやCRT(陰極線管:Cathode Ray Tube)等が用いられ、テキスト文書分析部4の分析したり、分類した結果を表示し、また、辞書編集部6の編集結果等を表示する。
【0043】
次に、本実施の形態の作用を説明する。文書分類装置1は、文書分類処理プログラム及び必要なデータを記録するCD−ROM等の記録媒体を、例えば、コンピュータ等の情報処理装置に読み取らせて導入することで、構築され、電子化されたテキスト文書群を言語解析して、書き手の意図を表現する表現パターンをテキスト文書中から重要語句として抽出し、文書を分類するところにその特徴がある。
【0044】
すなわち、文書分類装置1は、分析対象のテキスト文書群が入力されると、当該テキスト文書群をテキスト文書登録部2が当該テキスト文書群をテキスト文書群記億部5に登録する。
【0045】
いま、例えば、あるマリンスポーツについて意見を収集・蓄積した、下記のようなテキストデータがあり、集めた意見を文意別に分類・分析するものとして、以下説明する。
〜 収集テキスト 〜
1.お金がかかりそう。
2.サーフィンをやれる環境をもっと良くしてほしい!
3.もっと盛んになってほしい。
4.全てのコトが忘れられて、すごく楽しそう。
5.安く手軽にできるならやってみたい。
6.リフレッシュできそう。
7.もっと海岸でのマナーを大切に指導して欲しい。
8.もっと安くして欲しい。
9.とても楽しそうだが面倒くさそう。
10.お金がいっぱいかかるけど楽しそう。
11.一回やったらハマリそう。
【0046】
まず、最初に、これらのテキスト文書に対して、言語解析部3で言語解析を行い、テキストの構成単語の品詞等の属性情報を取得する。この言語解析は、既存のさまざまな手法で実現することができる。
【0047】
次に、テキスト文書分析部4が、言語解析部3の解析結果に基づいて、文意表現パターン辞書記憶部10の文意表現パターン辞書を検索可能な単位を生成、例えば、各テキストに対して、文節を単位として、生成する。この文節生成技術は、既存の言語処理技術で実現することができる。
【0048】
次に、テキスト文書分析部4は、日本語では文末に意図表現が表出するという特性を利用して、各テキスト文書について、以下のように、文末文節を抽出する。
1.かかり・そう・。
2.良く・し・て・ほしい・!
3.なっ・て・ほしい・。
4.楽し・そう・。
5.やっ・て・み・たい・。
6.リフレッシュ・でき・そう・。
7.指導・し・て・欲しい・。
8.し・て・欲しい・。
9.面倒くさ・そう・。
10.楽し・そう・。
11.ハマリ・そう・。
【0049】
テキスト文書分析部4は、この単位で、品詞等の属性を用いて、さらに正規表現に変換して記憶し、これらに対して、図2に示した文意表現パターン辞書を辞書引きする。この辞書引きにより、上記例では、以下のような辞書引き結果を得ることができる。
1.用言+助動詞そう 文意(推量)
2.用言+て/ほしい 文意(依頼)
3.用言+て/ほしい 文意(依頼)
4.用言+助動詞そう 文意(推量)
5.用言+助動詞たい 文意(要望)
6.用言+助動詞できる+助動詞そう 文意(推量)
7.用言+て/欲しい 文意(依頼)
8.用言+て/欲しい 文意(依頼)
9.用言+助動詞そう 文意(推量)
10.用言+助動詞そう 文意(推量)
11.用言+助動詞そう 文意(推量)
この辞書引きの結果、文意(推量)は、{1,4,6,9,10,11}、文意(依頼)は、{2,3,7,8}、文意(要望)は、{5}という文書の文意別カテゴリ分類を行うことができる。
【0050】
そして、文書分類装置1は、上記文書分類結果を得たユーザが、上記テキスト文書の例の場合に、文意(依頼)は文意(要望)に併せたほうが適切であると考える場合、辞書編集機能を利用して、文意(依頼)の文意表現パターンの無効化や文意(要望)の文意表現パターンの新規追加を行なうことができる。
【0051】
すなわち、ユーザが文書分類装置1の図示しない操作部で、ボタンやコマンド入力等を行って、辞書編集の指示を出すと、文書分類装置1は、表示部5の表示画面に、例えば、図3に示すような辞書編集ウインドウを表示させる。文書分類装置1は、この辞書編集ウインドウとして、図3に示すように、文意表現パターン辞書記憶部10の文意表現パターン辞書に登録されている文意と文意表現パターン対を表示し、また、各文意表現パターン対に、無効化欄が設けられている。
【0052】
ユーザは、この文意表現パターン対の無効化欄に、図3に示すように、チェックを入れることで、当該文意の対として登録されている文意表現パターンを個別に無効化することができ、文書分類装置1は、無効化欄にチェックの入れられた文意の対として登録されている文意表現パターンを個別に無効化する。
【0053】
さらに、文書分類装置1は、辞書編集ウインドウに設けられている新規追加ボタン(図3の右下に示されている新規追加のボタン)が押されると、追加ウインドウを開き、既存の文意の呼び出しや新規の文意の登録の操作を可能とする。この追加ウインドウで、例えば、新規ボタンが押されると、その文意タグと対になる文意表現パターンの新規登録を行う。
【0054】
例えば、図3では、上記テキスト文書の例において、文意(依頼)に対で登録されていた3パターンを無効化し、追加ウインドウで既存文意(要望)を呼び出し、追加ウインドウで呼び出した既存文意(要望)に、先に無効化した文意(依頼)に登録されていた3パターンを登録する処理が示されている。
【0055】
文書分類装置1は、ユーザの所望する文意表現パターン辞書の辞書編集が終わると、辞書編集部6が、当該編集結果を文意表現パターン辞書記憶部10の文意表現パターン辞書に保存し、これまでの辞書内容と編集後の辞書内容との辞書の差異を編集履歴として編集履歴記憶部11に保存する。
【0056】
辞書編集部6は、ユーザの操作部からの編集履歴参照操作に応じて、編集履歴記憶部11に記憶されている編集履歴を、表示部5に表示し、ユーザが閲覧できるようにする。
【0057】
ユーザは、編集履歴を参照して、選択した履歴を、文意表現パターン辞書に反映させて利用することもできる。
【0058】
このように編集した辞書を用いて、上記テキスト文書の例において、再度分類を行なうと、文意(依頼)だったデータが、文意(要望)と認識され、分類結果は、文意(推量)が{1,4,6,9,10,11}、文意(要望)が{2,3,5、7,8}という文書の文意別カテゴリ分類が実現される。
【0059】
すなわち、図4に示すように、辞書編集部6は、辞書編集指示があると(ステップS101)、辞書編集ウインドウを起動して、表示部5に表示し(ステップS102)、無効化欄にチェックがあるか判別する(ステップS103)。
【0060】
ステップS103で、無効化欄にチェックがないときには、新規追加指示があるか判別し(ステップS104)、新規追加指示がないときには、ステップS101に戻って上記同様に処理する。
【0061】
ステップS103で、無効化欄にチェックがあると、辞書編集部6は、無効化欄にチェックの入っている文意の対として登録されている文意表現パターンを個別に無効化する無効化処理を行い(ステップS105)、新規追加指示があるかチェックする(ステップS104)。
【0062】
ステップS104で、新規追加指示があると、辞書編集部6は、追加ウインドウを起動して表示部5に表示させ、既存文意が選択されたかチェックする(ステップS107)。
【0063】
ステップS107で、既存文意が選択されると、辞書編集部6は、当該選択された文意を文意表現パターン辞書記憶部10の文意表現パターン辞書から呼び出し(ステップS108)、文意表現パターン辞書に登録する(ステップS109)。
【0064】
ステップS107で、既存文意が選択されないときには、辞書編集部6は、新規文意の登録であると判断して、新規文意を文意表現パターン辞書に登録する(ステップS109)。
【0065】
文意表現パターン辞書への登録を行うと、辞書編集部6は、保存指示があるかチェックし(ステップS111)、保存指示があると、当該文意表現パターン辞書の編集履歴を編集履歴記憶部11に保存して、処理を終了する(ステップS112)。
【0066】
このように、本実施の形態の文書分類装置1は、言語解析部3で、入力された検索要求を含むテキスト文書を、テキスト文書群記憶部2に収集・蓄積された複数のテキスト文書から検索し、言語解析部3で、当該テキスト文書検索結果に基づいて複数のテキスト文書をカテゴリ分けして、テキスト文書分析部4が、当該カテゴリ分け結果に基づいて、文意を表現する特徴的な文意表現パターンの登録されている文意表現パターン辞書記憶部10の文意表現パターン辞書を参照してテキスト文書を文意別に分析・分類し、当該文意表現パターン辞書を、辞書編集部6で、任意に編集している。
【0067】
したがって、分類基準を任意に変更して、ユーザの所望する文意により文書分類を行うことができ、文書分類装置1の利用性を向上させることができる。
【0068】
また、本実施の形態の文書分類装置1は、文意表現パターン辞書記憶部10の文意表現パターン辞書に、文書の書き手の意図を示す文意タグと、当該文書の書き手の意図を特定する特徴的な文意表現パターンとを対として登録し、辞書編集部6が、ユーザの操作に応じて、文意表現パターン辞書に、文意タグと文意表現パターンを新たに追加登録している。
【0069】
したがって、文意表現パターン辞書に未登録の文意や対応する文意表現パターンを適宜登録して、幅広い文意分類を行うことができ、利用性を向上させることができる。
【0070】
さらに、本実施の形態の文書分類装置1は、文意表現パターン辞書記憶部10の文意表現パターン辞書に、文書の書き手の意図を示す文意タグと、当該文書の書き手の意図を特定する特徴的な文意表現パターンとを対として登録し、辞書編集部6が、ユーザの操作に応じて、文意表現パターン辞書に登録されている文意タグと文意表現パターンを個々に無効化している。
【0071】
したがって、文意表現パターンを別文意へ再編成したり、文意表現パターンを削除することなく、無効化とすることで、ユーザが無効化を解除したり、過去履歴を利用する際に再利用できるようにすることができ、ユーザの所望する文意により、より一層適切に文書分類を行って、より一層利用性を向上させることができる。
【0072】
この文書分類装置によれば、文意表現パターン辞書に未登録の文意や対応する文意表現パターンを適宜登録して、幅広い文意分類を行うことができ、利用性を向上させることができる。
また、文意表現パターンを別文意へ再編成したり、文意表現パターンを削除することなく、無効化とすることで、ユーザが無効化を解除したり、過去履歴を利用する際に再利用できるようにすることができ、ユーザの所望する文意により、より一層適切に文書分類を行って、より一層利用性を向上させることができる。
さらに、分類基準を任意に変更して、ユーザの所望する文意により文書分類を行うことができ、利用性を向上させることができる。
以上、本発明者によってなされた発明を好適な実施の形態に基づき具体的に説明したが、本発明は上記のものに限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。
【0073】
【発明の効果】
この発明の文書分類装置と記録媒体によれば、分類基準を任意に変更して、ユーザの所望する文意により文書分類を行うことができ、利用性を向上させることができる。
【図面の簡単な説明】
【図1】 本発明の文書分類装置及び記録媒体の一実施の形態を適用した文書分類装置の要部ブロック構成図。
【図2】図1の文書表現パターン辞書記憶部に格納されている文意表現パターン辞書の一例を示す図。
【図3】図1の表示部に表示される辞書編集ウインドウの一例を示す図。
【図4】図1の文書分類装置による文意表現パターン辞書編集処理を示すフローチャート。
【符号の説明】
1 文書分類装置
2 テキスト文書登録部
3 言語解析部
4 テキスト文書分析部
5 表示部
6 辞書編集部
7 テキスト文書群記憶部
8 言語解析用辞書記憶部
9 言語情報記憶部
10 文意表現パターン辞書記憶部
11 編集履歴記憶部

Claims (4)

  1. 文書の書き手の意図を示す文意タグと文意を表現する特徴的な文意表現パターンとが対になって登録されている文意表現パターン辞書を記憶する文意表現パターン辞書記憶手段と、
    文書蓄積手段に蓄積されたテキスト文書に対して言語解析を行い、前記テキスト文書の構成単語の属性情報を取得する言語解析手段と、
    前記テキスト文書を構成する文節を生成し、該生成された文節から文末文節を抽出し、該抽出された文末文節について、前記言語解析手段によって取得した属性情報に基づいて前記文意表現パターン辞書記憶手段の文意表現パターン辞書から該当する文意表現パターンとその文意表現パターンと対の文意タグとを辞書引きし、該辞書引きによって得られた文意タグによって前記文末文節を含むテキスト文書の文意別カテゴリの分類を行うテキスト文書分析手段と、
    辞書編集指示があると、前記文意表現パターン辞書に登録されている文意タグと文意表現パターンの対と、その文意タグと文意表現パターンの対に対応する無効化欄とを有する辞書編集ウインドウを表示手段に表示し、前記辞書編集ウインドウの無効化欄にチェックがあるか否かを判別し、該判別によって無効化欄にチェックがあった文意表現パターンについて、文意タグとの対の登録を無効化し、その無効化後の文意表現パターン辞書を前記文意表現パターン辞書記憶手段に保存する文意表現パターン辞書編集手段を備えたことを特徴とする文書分類装置。
  2. 前記文意表現パターン辞書編集手段は、前記文意表現パターン辞書に、前記文意タグと前記文意表現パターンの対を新たに追加登録することを特徴とする請求項1記載の文書分類装置。
  3. コンピュータに、文書の書き手の意図を示す文意タグと文意を表現する特徴的な文意表現パターンとが対になって登録されている文意表現パターン辞書を記憶する文意表現パターン辞書記憶工程と、文書蓄積手段に蓄積されたテキスト文書に対して言語解析を行い、前記テキスト文書の構成単語の属性情報を取得する言語解析工程と、前記テキスト文書を構成する文節を生成し、該生成された文節から文末文節を抽出し、該抽出された文末文節について、前記言語解析工程によって取得した属性情報に基づいて前記文意表現パターン辞書から該当する文意表現パターンとその文意表現パターンと対の文意タグとを辞書引きし、該辞書引きによって得られた文意タグによって前記文末文節を含むテキスト文書の文意別カテゴリの分類を行うテキスト文書分析工程と、辞書編集指示があると、前記文意表現パターン辞書に登録されている文意タグと文意表現パターンの対と、その文意タグと文意表現パターンの対に対応する無効化欄とを有する辞書編集ウインドウを表示手段に表示し、前記辞書編集ウインドウの無効化欄にチェックがあるか否かを判別し、該判別によって無効化欄にチェックがあった文意表現パターンについて、文意タグとの対の登録を無効化し、その無効化後の文意表現パターン辞書を保存する文意表現パターン辞書編集工程の手順を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
  4. 前記文意表現パターン辞書編集工程は、前記文意表現パターン辞書に、前記文意タグと前記文意表現パターンの対を新たに追加登録することを特徴とする請求項3記載のコンピュータ読み取り可能な記録媒体。
JP2002068858A 2002-03-13 2002-03-13 文書分類装置と記録媒体 Expired - Fee Related JP4213900B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002068858A JP4213900B2 (ja) 2002-03-13 2002-03-13 文書分類装置と記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002068858A JP4213900B2 (ja) 2002-03-13 2002-03-13 文書分類装置と記録媒体

Publications (2)

Publication Number Publication Date
JP2003271616A JP2003271616A (ja) 2003-09-26
JP4213900B2 true JP4213900B2 (ja) 2009-01-21

Family

ID=29199859

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002068858A Expired - Fee Related JP4213900B2 (ja) 2002-03-13 2002-03-13 文書分類装置と記録媒体

Country Status (1)

Country Link
JP (1) JP4213900B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7865354B2 (en) 2003-12-05 2011-01-04 International Business Machines Corporation Extracting and grouping opinions from text documents
JP4713870B2 (ja) * 2004-10-13 2011-06-29 ヒューレット−パッカード デベロップメント カンパニー エル.ピー. 文書分類装置、方法、プログラム
JP2007018342A (ja) * 2005-07-08 2007-01-25 Nec Corp 情報提供装置および情報提供方法
JP5212604B2 (ja) * 2007-01-29 2013-06-19 日本電気株式会社 リスク検知システム、リスク検知方法及びそのプログラム
JP5022252B2 (ja) * 2008-01-30 2012-09-12 日本放送協会 表現テンプレート生成装置、その方法およびそのプログラム

Also Published As

Publication number Publication date
JP2003271616A (ja) 2003-09-26

Similar Documents

Publication Publication Date Title
Wang et al. Neural network-based abstract generation for opinions and arguments
Stamatatos et al. Automatic text categorization in terms of genre and author
JP4654745B2 (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US8447588B2 (en) Region-matching transducers for natural language processing
US8266169B2 (en) Complex queries for corpus indexing and search
US8510097B2 (en) Region-matching transducers for text-characterization
US20230069935A1 (en) Dialog system answering method based on sentence paraphrase recognition
JP4347226B2 (ja) 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法
Huang et al. Automatic meeting summarization and topic detection system
Alexander et al. Metaphor, popular science, and semantic tagging: Distant reading with the Historical Thesaurus of English
Wang et al. Interactive Topic Model with Enhanced Interpretability.
Begum et al. Analysis of legal case document automated summarizer
McGillivray et al. Applying language technology in humanities research: Design, application, and the underlying logic
CN111046168B (zh) 用于生成专利概述信息的方法、装置、电子设备和介质
CN111274354B (zh) 一种裁判文书结构化方法及装置
JP4213900B2 (ja) 文書分類装置と記録媒体
JP4361299B2 (ja) 評価表現抽出装置、プログラム、及び記憶媒体
JP6144133B2 (ja) 検索システム
CN113486155B (zh) 一种融合固定短语信息的中文命名方法
Colruyt et al. EventDNA: a dataset for Dutch news event extraction as a basis for news diversification
JP2002278982A (ja) 情報抽出方法および情報検索方法
Jia et al. Learning natural ordering of tags in domain-specific Q&A sites
Kamineni et al. Advancements and challenges of using natural language processing in the healthcare sector
Dhanda et al. A Novel Approach to Text Summarization Using Machine Learning
Wimalasuriya Automatic text summarization for sinhala

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050301

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050310

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080513

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080711

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080826

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081002

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081028

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081031

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111107

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111107

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111107

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121107

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131107

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees