JP4248828B2 - 文書処理装置、文書処理方法及び記録媒体 - Google Patents

文書処理装置、文書処理方法及び記録媒体 Download PDF

Info

Publication number
JP4248828B2
JP4248828B2 JP2002259918A JP2002259918A JP4248828B2 JP 4248828 B2 JP4248828 B2 JP 4248828B2 JP 2002259918 A JP2002259918 A JP 2002259918A JP 2002259918 A JP2002259918 A JP 2002259918A JP 4248828 B2 JP4248828 B2 JP 4248828B2
Authority
JP
Japan
Prior art keywords
document
concept
word
expression
concept expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002259918A
Other languages
English (en)
Other versions
JP2004102397A (ja
Inventor
哲郎 長束
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2002259918A priority Critical patent/JP4248828B2/ja
Publication of JP2004102397A publication Critical patent/JP2004102397A/ja
Application granted granted Critical
Publication of JP4248828B2 publication Critical patent/JP4248828B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、文書処理装置、文書処理方法及び記録媒体に関し、詳細には、文書集合を自動分類技術により部分集合に分類し、各部分集合において特徴的な概念を抽出する文書処理装置、文書処理方法及び当該文書処理方法とデータを記録した記録媒体に関する。
【0002】
【従来の技術】
近時、情報の電子化が進み、従来紙文書で保管されていた文書も電子化されるようになってきている。このような文書の電子化に伴って、大量の電子化文書が流通し、収集・蓄積された電子化文書をいかに管理して簡便に再利用するかが重量な問題となってきている。
【0003】
そこで、従来から大量の電子化文書から何らかの知見を見いだすための文書処理技術が提案されている。このような従来の文書処理技術としては、例えば、ユーザの意図にあった文書を検索する文書検索技術、大量の文書集合をいくつかの部分集合に分類する文書分類技術、文書または文書集合から重要な語句を抽出するキーワード抽出技術、キーワード抽出技術に基づいた文書要約技術などがある。
【0004】
また、最近では、アンケートデータやコールセンターデータ等の大量のテキストデータを分析することを目的としたテキストマイニング技術等も開発されている。
【0005】
そして、従来、特許文献1の「データ分析システム」が提案されており、このデータ分析システムは、テキストから概念(文節内キーワード)を抽出して、目的に特化したカテゴリ辞書(シソーラス)を用いて、文書中の表現をラベル付きデータに変換している。また、概念間の係り受け関係を解析し、概念の組み合わせも概念として、概念の頻度/クロス表により特徴的な概念を抽出している。
【0006】
また、従来、特許文献2の文書処理装置が提案されている。この文書処理装置は、入力した文書に対して形態素解析を行う形態素解析部と、形態素列の部分列を重み付きで特定表現候補とする特定表現候補取得部と、予めいくつかの特定表現を格納した特定表現辞書と、形態素列の特定表現辞書中の表現に対するマッチ度を表す実数を、特定表現辞書の検索結果として出力する特定表現辞書検索部と、特定表現候補に対して、前記候補に付与された重みと、前記候補の前記特定表現辞書に対する検索結果とを変数として判別スコアを計算し、前記判別スコアが一定の値を下回る候補を除外する判別分析実行部と、特定表現候補のうち、判別分析実行部によって除外されなかった形態素の文字列を特定表現として出力する出力部とを設け、判別スコアを計算して、特定表現候補として残すかどうか判断して、的確な判断を行うことを目的としている。
【0007】
すなわち、この従来技術は、テキストから単語解析、係り受け解析を行い、文構造の類似度により文をグループ化し、テキストから抽出したキーワードとグループ化された文との出現回数の相関関係から相関の強い項目を抽出している。
【0008】
さらに、従来、本出願人は、特許文献3の文書分類装置を提案している。この文書分類装置は、さまざまな特徴空間において部分テキストデータ群を生成し、それらの部分テキストデータ群を全ての特徴量空間を含む空間内で擬似階層構造を生成することで、ユーザがテキストデータ群の構造を容易に探索すことを支援するものである。
【0009】
【特許文献1】
特開2001−75966号公報
【特許文献2】
特開2000−172691号公報
【特許文献3】
特開2001−29082号公報
【0010】
【発明が解決しようとする課題】
しかしながら、このような従来技術にあっては、文書集合全体で特徴的でない概念を抽出する上で改良の必要があった。
【0011】
すなわち、アンケートデータやコールセンターデータ等の大量のテキストデータの分析を行う際には、文書集合内に含まれる特徴的な概念を把握することが1つの大きな目的であるが、ここで問題となるのは、文書集合全体において特徴的な概念、例えば、出現頻度が高い概念は、もちろん重要であるが、特徴的でない概念も分析には必要になることである。
【0012】
ところが、上記特許文献の各従来技術にあっては、文書集合(データ集合)全体における特徴を利用しているため、文書集合全体では特徴的でない概念を抽出することができない。
【0013】
すなわち、特許文献1の従来技術にあっては、カテゴリ辞書を予め作成する必要があり、その作成、維持に負荷がかかるだけでなく、全体的な頻度情報により特徴的な概念を抽出しているため、出現回数の多いものでないと抽出することができない。
【0014】
また、特許文献2の従来技術にあっては、相関関係を利用しているため、出現回数の多いものでないと抽出することができない。
【0015】
さらに、特許文献3の従来技術にあっては、概念の表現として単語または単語の論理式を用いて、単に単語の文書内共起関係を表しているため、例えば、「受信はできるが、送信できない。」と「送信はできるが、受信できない。」といった同じ単語構成の文書を分けることができず、表現力の問題という面から、改良の必要があった。
【0016】
そこで、本発明は、文書集合を自動分類技術により部分集合に分類して、各部分集合において特徴的な概念を抽出し、また、概念表現の表現力の問題点を解決するために、単語の論理式ではなく、文節内単語関係あるいは係り受け文節対内単語関係から得られる意味的に強い単語間関係を利用した概念表現方法を利用して、部分的に特徴的な概念を抽出することのできる文書処理装置、文書処理方法及び記録媒体を提供することを目的としている。
【0017】
【課題を解決するための手段】
請求項1記載の発明の文書処理装置は、複数の文書からなる文書集合を入力する文書入力手段と、前記文書入力手段から入力された文書集合の各文書に対して形態素解析、係り受け解析を行う言語解析手段と、前記文書集合の各文書を当該言語解析手段での言語解析結果に基づいて言語情報を保持する文書データ構造に変換する文書データ構造生成手段と、前記文書データ構造生成手段で生成された文書データ構造を記憶する文書データ構造記憶手段と、前記文書集合を文書の内容に応じて自動的に1つ以上の文書部分集合に分類する文書分類手段と、前記文書分類手段で生成された文書部分集合から単語または文節内単語関係及び係り受け文節対間単語関係に基づいて意味的に強い関係にある単語関係で表現される概念を抽出して当該抽出した概念表現の重要度を算出する概念表現抽出手段と、前記重要度に基づいて特定の概念表現を抽出する特徴概念表現抽出手段と、前記特徴概念表現抽出手段での特徴概念表現抽出結果を前記概念表現抽出に用いた文書部分集合の文書数とともに表示する概念表現表示手段と、前記特徴概念表現表示手段に表示される前記概念表現抽出に用いた文書部分集合の文書数に基づいて前記概念表現の選択指定を行う概念表現指定手段とを備えていることを特徴とする。
【0018】
上記構成によれば、文書入力手段から入力される複数の文書からなる文書集合の各文書に対して、言語解析手段で、形態素解析、係り受け解析を行い、文書データ構造生成手段で、文書集合の各文書を当該言語解析手段での言語解析結果に基づいて言語情報を保持する文書データ構造に変換して、文書データ構造記憶手段に記憶し、文書分類手段で、文書集合を文書の内容に応じて自動的に1つ以上の文書部分集合に分類し、概念表現抽出手段で、当該文書部分集合から単語または文節内単語関係及び係り受け文節対間単語関係に基づいて意味的に強い関係にある単語関係で表現される概念を抽出して当該抽出した概念表現の重要度を算出し、当該重要度に基づいて、特徴概念表現抽出手段で、特定の概念表現を抽出するので、複数の文書からなる文書集合から部分において特徴的な概念を表現力にとらわれずに抽出することができ、文書集合全体で特徴的でない概念表現を抽出して、利用性を向上させることができる。
【0019】
さらに、特徴概念表現抽出手段での特徴概念表現抽出結果を概念表現抽出に用いた文書部分集合の文書数とともに概念表現表示手段で表示し、当該表示される概念表現抽出に用いた文書部分集合の文書数に基づいて、概念表現指定手段で、概念表現の選択指定を行うので、ユーザが必要なレベルの部分の大きさ(全体的か局所的か)での特徴的な概念を閲覧して、当該特徴に基づいて概念表現の選択を行うことができ、より一層表現力のある概念表現を抽出して、より一層利用性を向上させることができる。
【0020】
請求項2記載の発明は、請求項1記載の文書処理装置において、前記概念表現指定手段で指定された概念表現を含む文書からなる文書部分集合を前記文書分類手段で生成し、前記概念表現抽出手段で、当該生成された文書部分集合から前記意味的に強い関係にある単語関係で表現される概念を抽出して当該抽出した概念の重要度を算出し、前記特徴概念表現抽出手段で、当該重要度に基づいて特定の概念表現を抽出することを特徴とする
【0021】
上記構成によれば、概念表現指定手段で指定された概念表現を含む文書からなる文書部分集合を生成して、当該生成した文書部分集合から特定の概念表現を抽出するので、ユーザが指定した概念表現を含む部分集合を生成して、その部分において特徴的な概念を抽出し、この処理を繰り返し行うことで、ユーザが自由に任意の部分における特徴的な概念を抽出することができ、より一層利用性を向上させることができる。
【0022】
請求項3記載の発明は、請求項1または2記載の文書処理装置において、前記文書データ構造生成手段は、文節内の付属語表現等から文書データ構造内の単語または文節に対して特定の付加的な意味を表す意味タグを付与し、前記概念表現として、単語及び単語間関係だけでなく当該意味タグをも用いることを特徴とする。
【0023】
上記構成によれば、文書データ構造生成手段で、文節内の付属語表現等から文書データ構造内の単語または文節に対して特定の付加的な意味を表す意味タグを付与し、概念表現として、単語及び単語間関係だけでなく当該意味タグをも用いるので、より表現力のある 概念表現を抽出することができ、より一層利用性を向上させることができる。
【0024】
請求項4記載の発明の文書処理方法は、コンピュータが、複数の文書からなる文書集合から当該文書集合の概念表現を抽出する文書処理方法であって、複数の文書からなる文書集合を入力する文書入力処理ステップと、前記入力された文書集合の各文書に対して形態素解析、係り受け解析を行う言語解析処理ステップと、前記文書集合の各文書を当該言語解析処理ステップでの言語解析結果に基づいて言語情報を保持する文書データ構造に変換する文書データ構造生成処理ステップと、前記文書データ構造生成処理ステップで生成された文書データ構造を記憶する文書データ構造記憶処理ステップと、前記文書集合を文書の内容に応じて自動的に1つ以上の文書部分集合に分類する文書分類処理ステップと、前記文書分類処理ステップで生成された文書部分集合から単語または文節内単語関係及び係り受け文節対間単語関係に基づいて意味的に強い関係にある単語関係で表現される概念を抽出して当該抽出した概念表現の重要度を算出する概念表現抽出処理ステップと、前記重要度に基づいて特定の概念表現を抽出する特徴概念表現抽出処理ステップと、前記特徴概念表現抽出処理ステップでの特徴概念表現抽出結果を前記概念表現抽出に用いた文書部分集合の文書数とともに表示する概念表現表示処理ステップと、前記特徴概念表現表示処理ステップで表示される前記概念表現抽出に用いた文書部分集合の文書数に基づいて前記概念表現の選択指定を行う概念表現指定処理ステップとを実行することを特徴とする。
【0025】
上記構成によれば、文書入力処理ステップで入力された複数文書からなる文書集合の各文書に対して、言語解析処理ステップで、形態素解析、係り受け解析を行い、当該言語解析処理ステップでの言語解析結果に基づいて、文書集合の各文書を、文書データ構造生成処理ステップで、言語情報を保持する文書データ構造に変換して、当該文書データ構造を文書データ構造記憶処理ステップで記憶し、文書分類処理ステップで、文書集合を文書の内容に応じて自動的に1つ以上の文書部分集合に分類し、概念表現抽出処理ステップで、当該文書部分集合から単語または文節内単語関係及び係り受け文節対間単語関係に基づいて意味的に強い関係にある単語関係で表現される概念を抽出して当該抽出した概念表現の重要度を算出し、特徴概念表現抽出処理ステップで、当該重要度に基づいて特定の概念表現を抽出するので、複数の文書からなる文書集合から部分において特徴的な概念を表現力にとらわれずに抽出することができ、文書集合全体で特徴的でない概念表現を抽出して、利用性を向上させることができる。
【0026】
さらに、特徴概念表現抽出処理ステップでの特徴概念表現抽出結果を概念表現抽出に用いた文書部分集合の文書数とともに表示する概念表現表示処理ステップと、当該特徴概念表現表示処理ステップで表示される概念表現抽出に用いた文書部分集合の文書数に基づいて前記概念表現の選択指定を行う概念表現指定処理ステップと、をさらに実行するので、ユーザが必要なレベルの部分の大きさ(全体的か局所的か)での特徴的な概念を閲覧して、当該特徴に基づいて概念表現の選択を行うことができ、より一層表現力のある概念表現を抽出して、より一層利用性を向上させることができる。
【0027】
請求項5記載の発明は、請求項4記載の文書処理方法において、前記文書分類処理ステップでは、前記概念表現指定処理ステップで指定された概念表現を含む文書からなる文書部分集合を生成し、前記概念表現抽出処理ステップでは、前記生成された文書部分集合から前記意味的に強い関係にある単語関係で表現される概念を抽出して当該抽出した概念の重要度を算出して、当該重要度に基づいて特定の概念表現を抽出することを特徴とする。
【0028】
上記構成によれば、概念表現指定処理ステップで指定された概念表現を含む文書からなる文書部分集合を生成し、当該生成された文書部分集合から意味的に強い関係にある単語関係で表現される概念を抽出して当該抽出した概念の重要度を算出して、当該重要度に基づいて特定の概念表現を抽出するので、ユーザが指定した概念表現を含む部分集合を生成して、その部分において特徴的な概念を抽出し、この処理を繰り返し行うことで、ユーザ が自由に任意の部分における特徴的な概念を抽出することができ、より一層利用性を向上させることができる。
【0029】
請求項6記載の発明は、請求項4または5記載の文書処理方法において、前記文書データ構造生成処理ステップで、文節内の付属語表現等から文書データ構造内の単語または文節に対して特定の付加的な意味を表す意味タグを付与し、前記概念表現として、単語及び単語間関係だけでなく当該意味タグをも用いることを特徴とする。
【0030】
上記構成によれば、文書データ構造生成処理ステップで、文節内の付属語表現等から文書データ構造内の単語または文節に対して特定の付加的な意味を表す意味タグを付与し、概念表現として、単語及び単語間関係だけでなく当該意味タグをも用いるので、より表現力のある概念表現を抽出することができ、より一層利用性を向上させることができる。
【0031】
請求項7記載の発明の記録媒体は、コンピュータに請求項4から請求項6のいずれか1項に記載の文書処理方法の各ステップを実行させるためのプログラムを記録したことを特徴とする。
【0032】
上記構成によれば、記録媒体が、コンピュータに請求項4から請求項6のいずれか1項に記載の文書処理方法の各ステップを実行させるためのプログラムを記録しているので、記録媒体を、コンピュータに読み取らせることで、複数の文書からなる文書集合から部分において特徴的な概念を表現力にとらわれずに抽出し、文書集合全体で特徴的でないが部分で特徴的な概念表現を抽出することのできる文書処理方法を実現する文書処理装置を構築することができ、利用性を向上させることができる。
【0033】
【発明の実施の形態】
以下、本発明の好適な実施の形態を添付図面に基づいて詳細に説明する。なお、以下に述べる実施の形態は、本発明の好適な実施の形態であるから、技術的に好ましい種々の限定が付されているが、本発明の範囲は、以下の説明において特に本発明を限定する旨の記載がない限り、これらの態様に限られるものではない。
【0034】
図1〜図7は、本発明の文書処理装置、文書処理方法及び記録媒体の第1の実施の形態を示す図であり、図1は、本発明の文書処理装置、文書処理方法及び記録媒体の第1の実施の形態を適用した文書処理装置1のブロック構成図である。
【0035】
図1において、文書処理装置1は、文書入力部2、言語解析部3、文書データ構造生成部4、文書データ構造記憶部5、文書分類部6、概念表現抽出部7及び特徴概念表現抽出部8等を備えており、文書処理プログラム及び必要なデータを記録するCD−ROM(Compact Disc Read Only Memory )等の記録媒体を、例えば、コンピュータ等に読み取らせて導入することで、構築される。
【0036】
文書入力部(文書入力手段)2は、文書処理対象の文書集合の各文書を入力するもので、各文書に識別子(文書ID)を付与して、記憶部等に格納して管理する。
【0037】
言語解析部(言語解析手段)3は、文書入力部2から入力された各文書集合の形態素を解析する形態素解析処理、解析対象の文書の文節間の係り受け関係を解析する係り受け解析処理等の各ステップ処理を実行し、これらの形態素解析処理、係り受け解析処理等の解析処理によって得られる言語的属性を解析単位に文書データ構造生成部4に出力する。具体的には、言語解析部3は、形態素解析処理では、文書集合の各文書に含まれる単語を解析し、係り受け解析処理では、文書に含まれる文、文節を解析して、文節間の関係として係りと受けの関係にある文節を解析する。例えば、言語解析部3は、「ソフトウェアのインストールが正常に実行できない。」という文を解析する場合、図2に示すように、形態素解析を行った後、係り受け解析を行う。なお、図2は、上記例の解析結果例を示しており、単語の区切りを「/」で表し、また、各単語の上の「自」は自立語を、「付」は付属語を表している。すなわち、図2では、「ソフトウェア」という自立語に、「の」という付属語がついた文節1が係りとして、「インストール」という自立語に、「が」という付属語がついた文節2を受けとして係っており、「正常」という自立語に、「に」という付属語がついた文節3が係りとして、「実行」という自立語に、「でき」と「ない」の2つの付属語がついた文節4を受けとして係っており、さらに、文節2が係りとして、文節4に係っていることを示している。
【0038】
文書データ構造生成部(文書データ構造生成手段)4は、言語解析部3の解析結果に基づいて、文書集合の各文書を図3に示すようなデータ構造に変換し、各構成要素は、図4に示すような情報を保持する。文書データ構造生成部4は、例えば、図5に示すような文書あるいは文書集合に含まれる単語に対して、ユニークな識別子を付与した単語リストを生成して、単語の管理を行い、その際、品詞情報や全体における出現頻度あるいは出現文書数を算出して付加する。
【0039】
すなわち、文書集合の各文書の変換された図3に示すデータ構造は、図4に示すようになっており、文書は、文書に含まれる文IDリストを管理し、文は、自分の文IDと文に含まれる文節リストを管理する。また、文節は、自分の文節IDと文節に含まれる単語IDリスト、係り文節IDリスト、受け文節IDを管理する。この単語IDは、図5に示す単語リストにおけるIDであり、係り文節IDリストは、当該文節を受けとする係り文節のIDである。そして、1つの受け文節に対して複数の文節が係り文節となりうるので、係り文節IDリストで管理する。また、受け文節IDは、当該文節が係り文節となる受け文節のIDであり、係り文節は、受け文節を1つしかとることができない。
【0040】
また、文書データ構造生成部4は、文節が管理する情報として、係り受けの関係の種類、例えば、連体修飾なのか連用修飾なのか、等を保持することもでき、また、文節を結ぶ助詞の種類により関係の種類を記述することもできる。
【0041】
さらに、文書データ構造生成部4は、文節内の付属語表現等から文書データ構造内の単語あるいは文節に対して付加的な意味を表す意味タグを付与し、概念表現指定部7、概念表現抽出部6、概念表現表示部6において、概念表現として単語だけでなく意味タグをも用いることができるようにする。この意味タグは、文節内の付属語等が特定の付加的な意味を表している場合に、その意味をタグとして文節に付加するものである。例えば、「打消」、「要望」、「可能」、「疑問」の意味タグは、文節内に以下のような単語が出現した場合に、その文節に付加し、また、1つの文節に複数の意味タグがつくこともある。
【0042】
意図タグID1「打消」:助動詞「ない」、助動詞「ず」、助動詞「まい」、補助助動詞「にくい」、形容詞「ない」
意図タグID2「要望」:助動詞「たい」、動詞「欲しい」、接続助詞「て」+動詞「欲しい」
意図タグID3「疑問」:終助詞「か」、終助詞「か」+終助詞「な」、記号「?」
意図タグID4「可能」:補助動詞「できる」、助動詞「れる」、助動詞「られる」
そして、概念表現では、たとえば「(+打消+可能)」といった表現で意味タグを表す。意味タグは、単独でも概念表現にもなるし、「実行(+可能+打消)」といったように単語に付加した形でも用いることができる。
【0043】
文書データ構造記憶部(文書データ構造記憶手段)5は、文書データ構造生成部4で生成された文書データ構造を記憶し、管理する。
【0044】
文書分類部(文書分類手段)6は、入力された文書集合を1つ以上の文書部分集合に分類する。この文書分類には、従来から用いられている一般的な自動分類技術を利用することができるが、本実施の形態の文書処理装置1では、さまざまな大きさ(文書数)の文書部分集合に分類することのできる分類技術が望ましく、例えば、階層的な構造をもつ文書部分集合を生成する文書分類技術を利用することが好適である。
【0045】
概念表現抽出部(概念表現抽出手段)7は、文書分類部6で生成された文書部分集合の1つ1つに対して、概念表現を抽出し、その重要度を算出して、特徴概念表現抽出部8に出力する。本実施の形態で利用する概念表現方式は、単語(自立語)と意味タグの組み合わせで表現される概念表現であり、原理的には、単語数や組み合わせ方は無限であるが、概念表現抽出部7は、ある決められた表現形式の概念表現を抽出する。また、概念表現抽出部7で抽出する概念表現の形式については、ユーザが適宜指定することができるようになっていてもよく、概念表現抽出部7は、例えば、以下の形式の概念表現を抽出する。
【0046】
1)単語1
2)単語1⇒単語2
3)単語1⇒単語2⇒単語3
4)(+意味タグ1)
5)単語1(+意味タグ1)
【0047】
特徴概念表現抽出部(特徴概念表現抽出手段)8は、概念表現抽出部7で抽出した概念表現から重要度に基づいて特定の概念表現を抽出し、以下のような条件で特徴概念表現の抽出を行う。
1)予め決められた閾値以上の重要度を持つ概念表現を抽出する。
【0048】
2)各部分集合において抽出された概念表現の重要度の高いものから決められた数の概念表現を抽出する。
【0049】
3)各部分集合において抽出された概念表現の重要度の高いものから決められた割合の概念表現を抽出する。
【0050】
また、特徴概念表現抽出部8での特徴概念の抽出においては、抽出する概念表現形式に応じて、条件を変えてもよい。例えば、含まれる単語が多い概念表現形式は、重要度が小さくても特徴概念表現とすることもできる。
【0051】
次に、本実施の形態の作用を説明する。本実施の形態の文書処理装置1は、文書集合を自動分類技術により部分集合に分類し、各部分集合において特徴的な概念を抽出する。
【0052】
まず、本本実施の形態の基本的な考え方である概念表現について説明する。本実施の形態で取り扱う文書は、基本的には日本語の文書で表現されているものとし、概念表現を、単語(自立語)を単位として表現する。単語1つでもある概念を表し、複数の単語の関係によってもある概念を表す。例えば、以下のような概念表現を用いる。
【0053】
1)検索
2)情報⇒検索
3)情報⇒検索⇒サービス
4)ソフトウェア⇒インストール(+可能+打消)
なお、「⇒」は、単語間に強い意味的関係があることを示しており、ここでいう強い意味的関係とは、同じ文節内に出現する単語(自立語)、または、係り受け関係にある文節対に出現する単語(自立語)を意味する。例えば、「情報⇒検索」は、以下に示すように、「情報」と「検索」が同じ文節内に出現するか、「情報」と「検索」が係り受け関係にある文節対に出現することを表している。
【0054】
文節 :「情報検索が」
係り受け文節対:「情報の」→「検索が」
また、「⇒」の方向は、単語の出現順序を表しており、出現順序が逆の場合、意味が異なってしまうこともあるため、語順は重要である。
【0055】
そして、概念表現では、単語(自立語)をいくつでもつなげて表現することができる。例えば、上記例の3)では、3つの単語をつないでいるが、この場合、この3つの単語が「情報」「検索」「サービス」の語順で連続して強い関係で現れていることを意味している。したがって、以下に示すAからDは、上記例の3)の概念表現に適合するが、E、Fは、適合しない。
【0056】
A:「情報の検索サービス」
B:「情報を検索するサービス」
C:「情報検索のサービス」
D:「情報検索サービス」
E:「情報検索を自動的に行うサービス」
F:「検索情報のサービス」
上記例4)では、意味タグを付加した例を示しており、意味タグは、文節内の付属語等の表現が特定の付加的な意味を表している場合に、その意味をタグとして利用するものである。例えば、「打消」「要望」「可能」「疑問」の意味タグは、文節内に以下のような単語が出現した場合にその文節に付加する。また、意味タグは、1つの文節に複数つくこともある。
【0057】
打消:助動詞「ない」、助動詞「ず」、助動詞「まい」、補助助動詞「にくい」、形容詞「ない」
要望:助動詞「たい」、動詞「欲しい」、接続助詞「て」+動詞「欲しい」
疑問:終助詞「か」、終助詞「か」+終助詞「な」、記号「?」
可能:補助動詞「できる」、助動詞「れる」、助動詞「られる」
そして、概念表現では、例えば、「(+打消+可能)」といった表現で意味タグを表し、意味タグは、単独でも概念表現にもなるし、「実行(+可能+打消)」といったように、単語に付加した形でも用いることができる。例えば、「実行できない」という文節は、「実行/できる/ない」と分かれるため、この文節には、「(+可能+打消)」という意味タグが付加される。また、「実行(+可能+打消)」という概念表現では、単語「実行」が意味タグ「打消」と「可能」が付加されている文節であることを意味している。
【0058】
このような概念表現を用いることで、ユーザは任意の数の単語(自立語)と意味タグの組み合わせにより、目的に沿った概念表現を表現することができる。
【0059】
そして、文書処理装置1は、概念表現抽出部7での概念表現の抽出処理を、図6に示すように行う。
【0060】
概念表現抽出部7は、まず、文書部分集合ID:p=1内の文書:d=1の文書データ構造内の文ID:s=1内の文節ID:k=1の文節からスタートし(ステップS101)、各概念表現形式の抽出を行って、抽出結果を、図7に示すように、抽出結果リストに登録する。その際、抽出した概念表現の出現回数も算出する。なお、以下の説明で、抽出する単語とは、自立語である。
【0061】
まず、概念表現抽出部7は、「単語」の抽出を行う(ステップS102)。この際の「単語」の抽出では、文節kに含まれる単語を抽出し、「単語」として、抽出結果リストに登録する。
【0062】
次に、概念表現抽出部7は、「単語⇒単語」の抽出を行う(ステップS103)。この際の「単語⇒単語」の抽出では、文節kから連続して出現する2単語を抽出し、「単語1⇒単語2」として抽出結果リストに登録する。また、文節kが係り文節となる受け文節k’を抽出し、文節kに含まれる単語1と文節k’に含まれる単語2の組み合わせを「単語1⇒単語2」として抽出結果リストに登録する。
【0063】
次に、概念表現抽出部7は、「単語⇒単語⇒単語」の抽出を行う(ステップS104)。この際、文節kから連続して出現する単語1、単語2、単語3を抽出し、「単語1⇒単語2⇒単語3」として抽出結果リストに登録する。また、文節kが係り文節となる受け文節k’を抽出し、文節k’が係り文節となる受け文節k’’を抽出し、文節kに含まれる単語1と文節k’に含まれる単語2と文節k’に含まれる単語3の組み合わせを「単語1⇒単語2⇒単語3」として抽出結果リストに登録する。さらに、文節kから連続して出現する単語1、単語2を抽出し、文節kが係り文節となる受け文節k’を抽出し、単語1、単語2と文節k’に含まれる単語3の組み合わせを「単語1⇒単語2⇒単語3」として抽出結果リストに登録する。また、文節kから単語1を抽出し、文節kが係り文節となる受け文節k’を抽出し、文節k’から連続して出現する単語2、単語3を抽出し、単語1と文節k’に含まれる単語2、単語3の組み合わせを「単語1⇒単語2⇒単語3」として抽出結果リストに登録する。
【0064】
次に、概念表現抽出部7は、「(+意図タグ)」の抽出を行う(ステップS105)。この際、文節kに含まれる意図タグ1を抽出し、「(+意図タグ1)」として抽出結果リストに登録する。
【0065】
次に、概念表現抽出部7は、「単語(+意図タグ)」の抽出を行う(ステップS106)。この際、文節kに含まれる単語1と意図タグ1を抽出し、「単語1(+意図タグ1)」として抽出結果リストに登録する。
【0066】
次に、概念表現抽出部7は、文節kが文s内の最後の文節であるかチェックし(ステップS107)、文節kが文s内の最後の文節でないときには、文節ID:kを「1」だけインクリメント(k=k+1)して、次の文節に移り、ステップS102に戻って、上記同様に概念表現抽出処理を行う(ステップS102〜S107)。
【0067】
ステップS107で、文節kが文s内の最後の文節であると、概念表現抽出部7は、文sが文書d内の最後の文であるかチェックし(ステップS108)、文sが文書d内の最後の文でないときには、文ID:sを「1」だけインクリメント(s=s+1)して、ステップS102に戻って、次の文について、上記同様に、当該文の文節に対して概念表現抽出処理を行う(ステップS102〜S108)。
【0068】
ステップS108で、文sが文書d内の最後の文であるときには、概念表現抽出部7は、文書dが部分集合p内の最後の文書であるかチェックし(ステップS109)、文書dが部分集合p内の最後の文書でないときには、文書dを「1」だけインクリメント(d=d+1)して、ステップS102に戻って、次の文書について、上記同様に、当該文書の当該文の文節に対して、概念表現抽出処理を行う(ステップS102〜S109)。
【0069】
ステップS109で、文書dが部分集合p内の最後の文書であると、概念表現抽出部7は、部分集合pが最後の部分集合であるかチェックし(ステップS110)、文書dが部分集合p内の最後の文書でないときには、文書部分集合ID:pを「1」だけインクリメント(p=p+1)して、ステップS102に戻って、次の文書部分集合について、上記同様に、当該部分集合の当該文書の当該文の文節に対して、概念表現抽出処理を行う(ステップS102〜S110)。
【0070】
ステップS110で、部分集合pが最後の部分集合であると、概念表現抽出部7は、文書部分集合に対して、概念表現の抽出処理を全て終了したと判断して、概念表現抽出処理を終了する。
【0071】
次に、概念表現抽出部7は、文書分類部6で生成された文書部分集合の1つ1つに対して、抽出した概念表現の重要度を算出して、特徴概念表現抽出部8に出力する。概念表現抽出部7は、各概念表現の重要度を、例えば、以下のような式で算出する。
【0072】
概念表現重要度=概念表現出現回数/部分集合文書数
そして、特徴概念表現抽出部8が、概念表現抽出部7の抽出した概念表現から重要度に基づいて特定の概念表現を抽出し、以下のような条件で特徴概念表現として抽出を行う。
【0073】
1)予め決められた閾値以上の重要度を持つ概念表現を抽出する。
【0074】
2)各部分集合において抽出された概念表現の重要度の高いものから決められた数の概念表現を抽出する。
【0075】
3)各部分集合において抽出された概念表現の重要度の高いものから決められた割合の概念表現を抽出する。
【0076】
また、特徴概念表現抽出部8での特徴概念の抽出においては、抽出する概念表現形式に応じて、条件を変えてもよい。例えば、含まれる単語が多い概念表現形式は、重要度が小さくても特徴概念表現とすることもできる。
【0077】
このように、本実施の形態の文書処理装置1は、文書入力部2から入力される複数の文書からなる文書集合の各文書に対して、言語解析部3で、形態素解析、係り受け解析を行い、文書データ構造生成部4で、文書集合の各文書を当該言語解析部3での言語解析結果に基づいて言語情報を保持する文書データ構造に変換して、文書データ構造記憶部5に記憶し、文書分類部6で、文書集合を文書の内容に応じて自動的に1つ以上の文書部分集合に分類し、概念表現抽出部7で、当該文書部分集合から単語または文節内単語関係及び係り受け文節対間単語関係に基づいて意味的に強い関係にある単語関係で表現される概念を抽出して当該抽出した概念表現の重要度を算出し、当該重要度に基づいて、特徴概念表現抽出部8で、特定の概念表現を抽出している。
【0078】
したがって、複数の文書からなる文書集合から部分において特徴的な概念を表現力にとらわれずに抽出することができ、文書集合全体で特徴的でない概念表現を抽出して、利用性を向上させることができる。
【0079】
また、本実施の形態の文書処理装置1は、文書データ構造生成部4で、文節内の付属語表現等から文書データ構造内の単語または文節に対して特定の付加的な意味を表す意味タグを付与し、概念表現として、単語及び単語間関係だけでなく当該意味タグをも用いている。
【0080】
したがって、より表現力のある概念表現を抽出することができ、より一層利用性を向上させることができる。
【0081】
図8〜図14は、本発明の文書処理装置、文書処理方法及び記録媒体の第2の実施の形態を示す図であり、図8は、本発明の文書処理装置、文書処理方法及び記録媒体の第2の実施の形態を適用した文書処理装置10のブロック構成図である。
【0082】
なお、本実施の形態は、上記第1の実施の形態の文書処理装置1と同様の文書処理装置に適用したものであり、本実施の形態の説明においては、上記第1の実施の形態の文書処理装置と同様の構成部分については、同一の符号を付して、その詳細な説明を省略する。
【0083】
図8において、文書処理装置10は、上記第1の実施の形態の文書処理装置1と同様の文書入力部2、言語解析部3、文書データ構造生成部4、文書データ構造記憶部5、文書分類部6、概念表現抽出部7及び特徴概念表現抽出部8等を備えているとともに、特徴概念表現表示部11と概念表現指定部12を備えており、文書処理プログラム及び必要なデータを記録するCD−ROM等の記録媒体を、例えば、コンピュータ等に読み取らせて導入することで、構築される。
【0084】
文書入力部2、言語解析部3、文書データ構造生成部4、文書データ構造記憶部5、文書分類部6、概念表現抽出部7及び特徴概念表現抽出部8は、上記第1の実施の形態と同様であるため、その説明を省略する。
【0085】
特徴概念表現表示部(概念表現表示手段)11は、CRT(陰極線管:Cathode Ray Tube)、LCD(Liquid Crystal Display)等であり、図9〜図14に示すように、特徴概念表現抽出部8の抽出した特徴概念表現を表示し、また、概念表現指定部12での概念表現の指定画面(概念ブラウザ)等の文書処理装置1が文書処理するのに必要な各種データを表示する。
【0086】
この特徴概念表現表示部11は、図9〜図14に示すように、概念表現形式毎に分けて特徴概念表現を表示し、また、各項目による並べ換えを行って表示し、さらに、単語検索機能として、ユーザが指定した表記を含む特徴概念表現だけを表示する。また、特徴概念表現表示部11は、ユーザが部分集合の文書数の範囲を指定(例えば、0以上50以下)すると、指定された文書数に適合する部分集合から抽出された特徴概念表現だけを表示させる。また、特徴概念表現表示部11は、特徴概念表現抽出部8での特徴概念表現抽出結果を概念表現抽出に用いた文書部分集合の文書数とともに表示する。
【0087】
概念表現指定部(概念表現指定手段)12は、例えば、文字・記号等の入力部及びマウス等のポインティングディバイス等を備え、ユーザが概念表現を指定するものである。概念表現指定部12での概念表現の指定方法としては、例えば、例えば、入力ダイアログを特徴概念表現表示部11に表示してユーザが直接概念表現を記入する直接記入方法、図9〜図14に示したように、特徴概念表現表示部11に表示される概念表示画面(概念ブラウザ)の特徴概念表現の中からマウス等のポインティングディバイスで指定する特徴概念表現を選択する選択方法等を用いることができる。図9〜図14に示した画面での選択方法においては、図9では、最初の状態として、選択可能な全種類の特徴概念表現を表示しており、図10では、ユーザが指定したい特徴概念表現を「単語」で選択する画面表示を示している。また、図11では、ユーザが指定したい特徴概念表現を、「単語⇒単語」、で選択する画面表示を示しており、図12では、ユーザが指定したい特徴概念表現を、[単語⇒単語⇒単語]、で選択する画面表示を示している。また、図13では、ユーザが指定したい特徴概念表現を、「(+意味タグ)」、で選択する画面表示を示しており、図14では、ユーザが指定したい特徴概念表現を、「単語(+意味タグ)」、で選択する画面表示を示している。
【0088】
そして、本実施の形態の文書処理装置10では、特徴概念表現表示部11が特徴概念表現抽出部8の抽出した特徴概念表現を特徴概念表現表示部11に表示し、この特徴概念表現表示部11の特徴概念表現の表示からユーザが概念表現指定部12で指定すると、文書分類部6が当該指定された概念表現を含む文書を文書データ構造に基づいて検索して文書部分集合を生成する。
【0089】
この生成された文書部分集合について、概念表現抽出部7が、概念表現を抽出して、その抽出した概念表現の重要度を算出し、特徴概念表現抽出部8が、当該重要度に基づいて特定の概念表現を抽出し、特徴概念の抽出を行って、再度、特徴概念表現表示部11に表示する処理を順次繰り返し行う。
【0090】
このように、本実施の形態の文書処理装置10は、特徴概念表現抽出部8での特徴概念表現抽出結果を特徴概念表現表示部11に表示している。
【0091】
したがって、ユーザが文書集合に含まれる特徴的な概念を閲覧することができ、より一層利用性を向上させることができる。
【0092】
また、本実施の形態の文書処理装置10は、特徴概念表現抽出部8での特徴概念表現抽出結果を概念表現抽出に用いた文書部分集合の文書数とともに特徴概念表現表示部11で表示し、当該表示される概念表現抽出に用いた文書部分集合の文書数に基づいて、概念表現指定部12で、概念表現の選択指定を行っている。
【0093】
したがって、ユーザが必要なレベルの部分の大きさ(全体的か局所的か)での特徴的な概念を閲覧して、当該特徴に基づいて概念表現の選択を行うことができ、より一層表現力のある概念表現を抽出して、より一層利用性を向上させることができる。
【0094】
さらに、本実施の形態の文書処理装置10は、概念表現指定部12で指定された概念表現を含む文書からなる文書部分集合を生成して、当該生成した文書部分集合から特定の概念表現を抽出している。
【0095】
したがって、ユーザが指定した概念表現を含む部分集合を生成して、その部分において特徴的な概念を抽出し、この処理を繰り返し行うことで、ユーザが自由に任意の部分における特徴的な概念を抽出することができ、より一層利用性を向上させることができる。
【0096】
以上、本発明者によってなされた発明を好適な実施の形態に基づき具体的に説明したが、本発明は上記のものに限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。
【0097】
【発明の効果】
請求項1記載の発明の文書処理装置によれば、文書入力手段から入力される複数の文書からなる文書集合の各文書に対して、言語解析手段で、形態素解析、係り受け解析を行い、文書データ構造生成手段で、文書集合の各文書を当該言語解析手段での言語解析結果に基づいて言語情報を保持する文書データ構造に変換して、文書データ構造記憶手段に記憶し、文書分類手段で、文書集合を文書の内容に応じて自動的に1つ以上の文書部分集合に分類し、概念表現抽出手段で、当該文書部分集合から単語または文節内単語関係及び係り受け文節対間単語関係に基づいて意味的に強い関係にある単語関係で表現される概念を抽出して当該抽出した概念表現の重要度を算出し、当該重要度に基づいて、特徴概念表現抽出手段で、特定の概念表現を抽出するので、複数の文書からなる文書集合から部分において特徴的な概念を表現力にとらわれずに抽出することができ、文書集合全体で特徴的でない概念表現を抽出して、利用性を向上させることができる。さらに、特徴概念表現抽出手段での特徴概念表現抽出結果を概念表現抽出に用いた文書部分集合の文書数とともに概念表現表示手段で表示し、当該表示される概念表現抽出に用いた文書部分集合の文書数に基づいて、概念表現指定手段で、概念表現の選択指定を行うので、ユーザが必要なレベルの部分の大きさ(全体的か局所的か)での特徴的な概念を閲覧して、当該特徴に基づいて概念表現の選択を行うことができ、より一層表現力のある概念表現を抽出して、より一層利用性を向上させることができる。
【0098】
請求項2記載の発明の文書処理装置によれば、概念表現指定手段で指定された概念表現を含む文書からなる文書部分集合を生成して、当該生成した文書部分集合から特定の概念表現を抽出するので、ユーザが指定した概念表現を含む部分集合を生成して、その部分において特徴的な概念を抽出し、この処理を繰り返し行うことで、ユーザが自由に任意の部分における特徴的な概念を抽出することができ、より一層利用性を向上させることができる。
【0099】
請求項3記載の発明の文書処理装置によれば、文書データ構造生成手段で、文節内の付属語表現等から文書データ構造内の単語または文節に対して特定の付加的な意味を表す意味タグを付与し、概念表現として、単語及び単語間関係だけでなく当該意味タグをも用いるので、より表現力のある概念表現を抽出することができ、より一層利用性を向上させることができる。
【0100】
請求項4記載の発明の文書処理方法によれば、コンピュータにおいて、文書入力処理ステップで入力された複数文書からなる文書集合の各文書に対して、言語解析処理ステップで、形態素解析、係り受け解析を行い、当該言語解析処理ステップでの言語解析結果に基づいて、文書集合の各文書を、文書データ構造生成処理ステップで、言語情報を保持する文書データ構造に変換して、当該文書データ構造を文書データ構造記憶処理ステップで記憶し、文書分類処理ステップで、文書集合を文書の内容に応じて自動的に1つ以上の文書部分集合に分類し、概念表現抽出処理ステップで、当該文書部分集合から単語または文節内単語関係及び係り受け文節対間単語関係に基づいて意味的に強い関係にある単語関係で表現される概念を抽出して当該抽出した概念表現の重要度を算出し、特徴概念表現抽出処理ステップで、当該重要度に基づいて特定の概念表現を抽出するので、複数の文書からなる文書集合から部分において特徴的な概念を表現力にとらわれずに抽出することができ、文書集合全体で特徴的でない概念表現を抽出して、利用性を向上させることができる。さらに、特徴概念表現抽出処理ステップでの特徴概念表現抽出結果を概念表現抽出に用いた文書部分集合の文書数とともに表示する概念表現表示処理ステップと、当該特徴概念表現表示処理ステップで表示される概念表現抽出に用いた文書部分集合の文書数に基づいて前記概念表現の選択指定を行う概念表現指定処理ステップと、をさらに実行するので、ユーザが必要なレベルの部分の大きさ(全体的か局所的か)での特徴的な概念を閲覧して、当該特徴に基づいて概念表現の選択を行うことができ、より一層表現力のある概念表現を抽出して、より一層利用性を向上させることができる。
【0101】
請求項5記載の発明の文書処理方法によれば、文書分類処理ステップでは、概念表現指定処理ステップで指定された概念表現を含む文書からなる文書部分集合を生成し、概念表現抽出処理ステップでは、該生成された文書部分集合から意味的に強い関係にある単語関係で表現される概念を抽出して当該抽出した概念の重要度を算出して、当該重要度に基づいて特定の概念表現を抽出するので、ユーザが指定した概念表現を含む部分集合を生成して、その部分において特徴的な概念を抽出し、この処理を繰り返し行うことで、ユーザが自由に任意の部分における特徴的な概念を抽出することができ、より一層利用性を向上させることができる。
【0102】
請求項6記載の発明の文書処理方法によれば、文書データ構造生成処理ステップで、文節内の付属語表現等から文書データ構造内の単語または文節に対して特定の付加的な意味を表す意味タグを付与し、概念表現として、単語及び単語間関係だけでなく当該意味タグをも用いるので、より表現力のある概念表現を抽出することができ、より一層利用性を向上させることができる。
【0103】
請求項7記載の発明の記録媒体によれば、コンピュータに請求項4から請求項6のいずれかに記載の文書処理方法の各ステップを実行させるためのプログラムを記録しているので、記録媒体を、コンピュータに読み取らせることで、複数の文書からなる文書集合から部分において特徴的な概念を表現力にとらわれずに抽出し、文書集合全体で特徴的でないが部分で特徴的な概念表現を抽出することのできる文書処理方法を実現する文書処理装置を構築することができ、利用性を向上させることができる。
【図面の簡単な説明】
【図1】本発明の文書処理装置、文書処理方法及び記録媒体の第1の実施の形態を適用した文書処理装置の要部ブロック構成図。
【図2】図1の言語解析部での言語解析の一例を示す図。
【図3】図1の文書データ構造生成部による文書集合の各文書のデータ構造への変換の一例を示す図。
【図4】図3の各データ構造の各構成要素の情報の一例を示す図。
【図5】図1の文書データ構造生成部により生成される文書あるいは文書集合に含まれる単語リストに対して付与するID、品詞、出現頻度、出現文書数及び同義語代表表記の一例を示す図。
【図6】図1の文書処理装置による概念抽出処理を示すフローチャート。
【図7】図1の概念表現抽出部による概念表現抽出結果リストの一例を示す図。
【図8】本発明の文書処理装置、文書処理方法及び記録媒体の第2の実施の形態を適用した文書処理装置の要部ブロック構成図。
【図9】図1の特徴概念表現抽出部で抽出された特徴概念表現を全種類についてユーザが選択指定して絞り込みを行う場合の特徴概念表現表示部に表示される画面の一例を示す図。
【図10】図1の特徴概念表現抽出部で抽出された特徴概念表現を単語についてユーザが選択指定して絞り込みを行う場合の特徴概念表現表示部に表示される画面の一例を示す図。
【図11】図1の特徴概念表現抽出部で抽出された特徴概念表現を単語⇒単語についてユーザが選択指定して絞り込みを行う場合の特徴概念表現表示部に表示される画面の一例を示す図。
【図12】図1の特徴概念表現抽出部で抽出された特徴概念表現を単語⇒単語⇒単語についてユーザが選択指定して絞り込みを行う場合の特徴概念表現表示部に表示される画面の一例を示す図。
【図13】図1の特徴概念表現抽出部で抽出された特徴概念表現を(+意味タグ)についてユーザが選択指定して絞り込みを行う場合の特徴概念表現表示部に表示される画面の一例を示す図。
【図14】図1の特徴概念表現抽出部で抽出された特徴概念表現を単語(+意味タグ)についてユーザが選択指定して絞り込みを行う場合の特徴概念表現表示部に表示される画面の一例を示す図。
【符号の説明】
1 文書処理装置
2 文書入力部
3 言語解析部
4 文書データ構造生成部
5 文書データ構造記憶部
6 文書分類部
7 概念表現抽出部
8 特徴概念表現抽出部
10 文書処理装置
11 特徴概念表現表示部
12 概念表現指定部

Claims (7)

  1. 複数の文書からなる文書集合を入力する文書入力手段と、
    前記文書入力手段から入力された文書集合の各文書に対して形態素解析、係り受け解析を行う言語解析手段と、
    前記文書集合の各文書を前記言語解析手段での言語解析結果に基づいて言語情報を保持する文書データ構造に変換する文書データ構造生成手段と、
    前記文書データ構造生成手段で生成された文書データ構造を記憶する文書データ構造記憶手段と、
    前記文書集合を文書の内容に応じて自動的に1つ以上の文書部分集合に分類する文書分類手段と、
    前記文書分類手段で生成された文書部分集合から単語または文節内単語関係及び係り受け文節対間単語関係に基づいて意味的に強い関係にある単語関係で表現される概念を抽出して当該抽出した概念表現の重要度を算出する概念表現抽出手段と、
    前記重要度に基づいて特定の概念表現を抽出する特徴概念表現抽出手段と、
    前記特徴概念表現抽出手段での特徴概念表現抽出結果を前記概念表現抽出に用いた文書部分集合の文書数とともに表示する概念表現表示手段と、
    前記当該特徴概念表現表示手段に表示される前記概念表現抽出に用いた文書部分集合の文書数に基づいて前記概念表現の選択指定を行う概念表現指定手段と、
    を備えていることを特徴とする文書処理装置。
  2. 前記概念表現指定手段で指定された概念表現を含む文書からなる文書部分集合を前記文書分類手段で生成し、前記概念表現抽出手段で、当該生成された文書部分集合から前記意味的に強い関係にある単語関係で表現される概念を抽出して当該抽出した概念の重要度を算出し、前記特徴概念表現抽出手段で、当該重要度に基づいて特定の概念表現を抽出することを特徴とする請求項1記載の文書処理装置。
  3. 前記文書データ構造生成手段は、文節内の付属語表現等から文書データ構造内の単語または文節に対して特定の付加的な意味を表す意味タグを付与し、前記概念表現として、単語及び単語間関係だけでなく当該意味タグをも用いることを特徴とする請求項1または2記載の文書処理装置。
  4. コンピュータが、複数の文書からなる文書集合から当該文書集合の概念表現を抽出する文書処理方法であって、
    複数の文書からなる文書集合を入力する文書入力処理ステップと、
    前記当該入力された文書集合の各文書に対して形態素解析、係り受け解析を行う言語解析処理ステップと、
    前記文書集合の各文書を前記言語解析処理ステップでの言語解析結果に基づいて言語情報を保持する文書データ構造に変換する文書データ構造生成処理ステップと、
    前記文書データ構造生成処理ステップで生成された文書データ構造を記憶する文書データ構造記憶処理ステップと、
    前記文書集合を文書の内容に応じて自動的に1つ以上の文書部分集合に分類する文書分類処理ステップと、
    前記文書分類処理ステップで生成された文書部分集合から単語または文節内単語関係及び係り受け文節対間単語関係に基づいて意味的に強い関係にある単語関係で表現される概念を抽出して当該抽出した概念表現の重要度を算出する概念表現抽出処理ステップと、
    前記重要度に基づいて特定の概念表現を抽出する特徴概念表現抽出処理ステップと、
    前記前記特徴概念表現抽出処理ステップでの特徴概念表現抽出結果を前記概念表現抽出に用いた文書部分集合の文書数とともに表示する概念表現表示処理ステップと、
    前記特徴概念表現表示処理ステップで表示される前記概念表現抽出に用いた文書部分集合の文書数に基づいて前記概念表現の選択指定を行う概念表現指定処理ステップと、
    を実行することを特徴とする文書処理方法。
  5. 前記文書分類処理ステップでは、前記概念表現指定処理ステップで指定された概念表現を含む文書からなる文書部分集合を生成し、
    前記概念表現抽出処理ステップでは、前記生成された文書部分集合から前記意味的に強い関係にある単語関係で表現される概念を抽出して当該抽出した概念の重要度を算出して、当該重要度に基づいて特定の概念表現を抽出することを特徴とする請求項4記載の文書処理方法。
  6. 前記文書データ構造生成処理ステップで、文節内の付属語表現等から文書データ構造内の単語または文節に対して特定の付加的な意味を表す意味タグを付与し、前記概念表現として、単語及び単語間関係だけでなく当該意味タグをも用いることを特徴とする請求項4または5記載の文書処理方法。
  7. コンピュータに請求項4から請求項6のいずれか1項に記載の文書処理方法の各ステップを実行させるためのプログラムを記録したことを特徴とする記録媒体。
JP2002259918A 2002-09-05 2002-09-05 文書処理装置、文書処理方法及び記録媒体 Expired - Fee Related JP4248828B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002259918A JP4248828B2 (ja) 2002-09-05 2002-09-05 文書処理装置、文書処理方法及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002259918A JP4248828B2 (ja) 2002-09-05 2002-09-05 文書処理装置、文書処理方法及び記録媒体

Publications (2)

Publication Number Publication Date
JP2004102397A JP2004102397A (ja) 2004-04-02
JP4248828B2 true JP4248828B2 (ja) 2009-04-02

Family

ID=32260781

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002259918A Expired - Fee Related JP4248828B2 (ja) 2002-09-05 2002-09-05 文書処理装置、文書処理方法及び記録媒体

Country Status (1)

Country Link
JP (1) JP4248828B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7849090B2 (en) * 2005-03-30 2010-12-07 Primal Fusion Inc. System, method and computer program for faceted classification synthesis

Also Published As

Publication number Publication date
JP2004102397A (ja) 2004-04-02

Similar Documents

Publication Publication Date Title
Singh et al. A systematic review of text stemming techniques
US6411924B1 (en) System and method for linguistic filter and interactive display
JP3577819B2 (ja) 情報探索装置及び情報探索方法
US6442540B2 (en) Information retrieval apparatus and information retrieval method
JP3266586B2 (ja) データ分析システム
US10552467B2 (en) System and method for language sensitive contextual searching
US20060080361A1 (en) Document information processing apparatus, document information processing method, and document information processing program
JP5321583B2 (ja) 共起辞書生成システム、スコアリングシステム、共起辞書生成方法、スコアリング方法及びプログラム
JP4361299B2 (ja) 評価表現抽出装置、プログラム、及び記憶媒体
JPH11272680A (ja) 文書データ提供装置およびそのプログラム記録媒体
JP4378106B2 (ja) 文書検索装置、文書検索方法及びプログラム
JP4248828B2 (ja) 文書処理装置、文書処理方法及び記録媒体
JP2004246491A (ja) テキストマイニング装置及びテキストマイニングプログラム
JP2000194721A (ja) 文書群分類装置および文書群分類方法
JPH06231178A (ja) 文書検索装置
JP4585768B2 (ja) 文書処理装置、文書処理方法および文書処理プログラム
JP2008276561A (ja) 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体
JP4046221B2 (ja) 文書処理装置
JPH11102372A (ja) 文書要約装置及びコンピュータ読み取り可能な記録媒体
JP2003271616A (ja) 文書分類装置、文書分類方法及び記録媒体
JP2003099429A (ja) 用語集生成装置及び用語集生成プログラム並びに用語集検索装置
JP3879329B2 (ja) 文書要約装置、文書要約方法及び記録媒体
JP2006039811A (ja) ドキュメント管理プログラム、ドキュメント管理方法、及びドキュメント管理装置
JP2003263458A (ja) テキスト分析方法及び装置
JPH1145255A (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050607

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20050609

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050609

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080724

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080806

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081001

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081027

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081203

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090107

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090114

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120123

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120123

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130123

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140123

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees