JP4585768B2 - 文書処理装置、文書処理方法および文書処理プログラム - Google Patents
文書処理装置、文書処理方法および文書処理プログラム Download PDFInfo
- Publication number
- JP4585768B2 JP4585768B2 JP2004012291A JP2004012291A JP4585768B2 JP 4585768 B2 JP4585768 B2 JP 4585768B2 JP 2004012291 A JP2004012291 A JP 2004012291A JP 2004012291 A JP2004012291 A JP 2004012291A JP 4585768 B2 JP4585768 B2 JP 4585768B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- category
- expression
- concept
- concept expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
1)定量的分析
テキストを含まれる概念や意味に基づいてカテゴリーに分類し、カテゴリーに属するテキストの数を利用して統計的な傾向や関係を分析する。
2)定性的分析
統計的な分析ではなく、テキスト1件1件の内容から意味的に特徴的な概念やカテゴリーを抽出する。たとえば新たな知見やアイデアの発見を行う場合などである。
図1は、この発明の実施の形態1である文書処理装置1の構成を示すブロック図である。文書処理装置1は、本実施の形態において特徴的なカテゴリー生成処理を行うカテゴリー処理部10と、テキストデータ構造記憶部12と、概念表現記憶部13と、テキストカテゴリー記憶部14と、指示受付部15と、モニタ16とを備えている。
1.ユーザから指定された表記を含む単語で構成される概念表現を表示する
2.ユーザから指定された表記を含む単語で構成される概念表現以外の概念表現を表示する
3.テキスト数が指定数以上の概念表現を指定する
4.指定されたテキストに含まれる概念表現を表示する
5.指定された品詞の単語で構成される概念表現を表示する
これらの指定はユーザからの入力により実現される。
トークン1: ソフトウェア
トークン2: インストール
トークン3: 正常
トークン4: 実行
文節1基本単位⇒文節2基本単位
文節2基本単位⇒文節4基本単位
概念表現基本単位間関係1: 文節1⇒文節2
概念表現基本単位間関係2: 文節2⇒文節4
概念表現基本単位間関係3: 文節3⇒文節4
概念表現基本単位間関係4: 文節1⇒文節2⇒文節4
概念表現1(文節1トークン) : ソフトウェア
概念表現2(文節2トークン) : インストール
概念表現3(文節3トークン) : 正常
概念表現4(文節4トークン) : 実行
概念表現5(概念表現基本単位間関係1): ソフトウェア⇒インストール
概念表現6(概念表現基本単位間関係2): インストール⇒実行
概念表現7(概念表現基本単位間関係3): 正常⇒実行
概念表現8(概念表現基本単位間関係4): ソフトウェア⇒インストール⇒実行
意図表現による拡張とは、指定された概念表現に含まれる概念表現基本単位に対して、意図表現を追加することで拡張する。図6に示した文の場合、指定概念表現として「インストール⇒実行」が指定されると、意図表現により拡張された概念表現として以下の概念表現を抽出する。
拡張概念表現1: 「インストール⇒実行(+可能)」
拡張概念表現2: 「インストール⇒実行(+打消)」
拡張概念表現3: 「インストール⇒実行(+可能+打消)」
拡張概念表現1: 「インストール⇒実行(+可能)」
拡張概念表現2: 「インストール⇒実行(+打消)」
拡張概念表現3: 「インストール⇒実行(+可能+打消)」
抽出された拡張概念表現は、概念表現記憶部13に記憶される。その際に、出現頻度や出現テキスト数を計数して管理する。
指定された概念表現に新たな概念表現基本単位を追加して、新たに拡張概念表現を生成することも可能である。図6に示す文の場合、指定概念表現として「インストール」が指定されると、概念表現基本単位の追加により拡張された概念表現として以下の概念表現を抽出する。
拡張概念表現1: 「ソフトウェア⇒インストール」
拡張概念表現2: 「 インストール⇒実行」
拡張概念表現3: 「 インストール⇒実行(+可能)」
拡張概念表現4: 「 インストール⇒実行(+打消)」
拡張概念表現5: 「 インストール⇒実行(+可能+打消)」
拡張概念表現6: 「ソフトウェア⇒インストール⇒実行」
拡張概念表現7: 「ソフトウェア⇒インストール⇒実行(+可能)」
拡張概念表現8: 「ソフトウェア⇒インストール⇒実行(+打消)」
拡張概念表現9: 「ソフトウェア⇒インストール⇒実行(+可能+打消)」
パターン1 XXX⇒インストール⇒実行
パターン2 インストール⇒実行⇒XXX
パターン3 インストール⇒XXX⇒実行
ここで、「XXX」は、任意の概念表現基本表現である。パターン1,2の場合、指定された概念表現の前後に概念表現基本表現を追加すればよい。しかし、パターン3の場合は、指定された概念表現に含まれる概念表現基本単位間に新たな概念表現基本単位を追加するので、指定された概念表現自体も変更してしまう。そのため指定された概念表現の意味が変わってしまう可能性がある。
指定された概念表現に含まれる概念表現基本単位間に新たな概念表現基本単位を追加した拡張概念表現のパターンを生成する。例えば、「インストール」という概念表現が指定されており、概念基本表現を1つ追加する場合は、以下のような拡張概念表現パターンを生成する。
拡張概念表現パターン1: 「XXX⇒インストール」
拡張概念表現パターン2: 「インストール⇒XXX」
拡張概念表現パターン1: 「XXX⇒YYY⇒インストール」
拡張概念表現パターン2: 「インストール⇒XXX⇒YYY」
また例えば、「インストール⇒実行」という概念表現が指定されている場合、概念基本表現を1つ追加する場合は、以下のような拡張概念表現パターンを生成する。
拡張概念表現パターン1: 「XXX⇒インストール⇒実行」
拡張概念表現パターン2: 「インストール⇒実行⇒XXX」
拡張概念表現パターン3: 「インストール⇒XXX⇒実行」
拡張概念表現パターン1: 「XXX⇒YYY⇒インストール⇒実行」
拡張概念表現パターン2: 「XXX⇒インストール⇒YYY⇒実行」
拡張概念表現パターン3: 「インストール⇒XXX⇒YYY⇒実行」
拡張概念表現パターン4: 「インストール⇒XXX⇒実行⇒YYY」
拡張概念表現パターン5: 「インストール⇒実行⇒XXX⇒YYY」
テキストデータ構造記憶部12に記憶されているテキストデータ構造から、1.で生成した拡張概念表現パターンと適合する構造を検索する。このとき、1.で生成した拡張概念パターンの拡張部分(「XXX」「YYY」)は任意の文節に適合するものとして検索を行う。複数テキストを対象とする場合は各テキストに対してこの処理を行う。
拡張概念表現パターン1: 「XXX⇒インストール」
拡張概念表現パターン2: 「インストール⇒XXX」
以下のテキストデータ構造が適合する。
拡張概念表現パターン1: 「文節1⇒文節2」
拡張概念表現パターン2: 「文節2⇒文節4」
検索されたテキストデータ構造のすべてに対して、その文節情報のトークン、意図表現情報に基づいて拡張概念表現を抽出する。テキストデータ構造「文節1⇒文節2」からは、
拡張概念表現1: 「ソフトウェア⇒インストール」
が抽出され、テキストデータ構造「文節2⇒文節4」からは、
拡張概念表現2: 「インストール⇒実行」
拡張概念表現3: 「インストール⇒実行(+可能)」
拡張概念表現4: 「インストール⇒実行(+打消)」
拡張概念表現5: 「インストール⇒実行(+可能+打消)」
が抽出される。
抽出された拡張概念表現をテキストカテゴリー記憶部14に記憶する。その際に、出現頻度や出現テキスト数を計数して管理する。
意図表現「打消」:助動詞「ない」、助動詞「ず」、助動詞「まい」、補助助動詞「にくい」
意図表現「要望」:助動詞「たい」
意図表現「疑問」:終助詞「か」、終助詞「か」+終助詞「な」、記号「?」
意図表現「可能」:補助動詞「できる」、助動詞「れる」、助動詞「られる」
意図表現1: (+可能+打消)
意図表現1: (+可能)
意図表現2: (+打消)
意図表現3: (+可能+打消)
文節1意図表現: なし
文節2意図表現: なし
文節3意図表現: なし
文節4意図表現: (+可能+打消)
概念表現1(文節4意図表現): (+可能+打消)
文節1意図表現: なし
文節2意図表現: なし
文節3意図表現: なし
文節4意図表現1: (+可能)
文節4意図表現2: (+打消)
文節4意図表現3: (+可能+打消)
概念表現1(文節4意図表現1): (+可能)
概念表現2(文節4意図表現2): (+打消)
概念表現3(文節4意図表現3): (+可能+打消)
概念表現基本単位1: ソフトウェア
概念表現基本単位2: インストール
概念表現基本単位3: 正常
概念表現基本単位4: 実行(+可能+打消)
概念表現基本単位1: ソフトウェア
概念表現基本単位2: インストール
概念表現基本単位3: 正常
概念表現基本単位4: 実行
概念表現基本単位4: 実行(+可能)
概念表現基本単位4: 実行(+打消)
概念表現基本単位4: 実行(+可能+打消)
文節1概念表現基本単位: ソフトウェア
文節2概念表現基本単位: インストール
文節3概念表現基本単位: 正常
文節4概念表現基本単位: 実行(+可能+打消)
概念表現1(文節1概念表現基本単位) : ソフトウェア
概念表現2(文節2概念表現基本単位) : インストール
概念表現3(文節3概念表現基本単位) : 正常
概念表現4(文節4概念表現基本単位) : 実行(+可能+打消)
概念表現5(概念表現基本単位間関係1): ソフトウェア⇒インストール
概念表現6(概念表現基本単位間関係2): インストール⇒実行(+可能+打消)
概念表現7(概念表現基本単位間関係3): 正常⇒実行(+可能+打消)
概念表現8(概念表現基本単位間関係4): ソフトウェア⇒インストール⇒実行(+可能+打消)
文節1概念表現基本単位1: ソフトウェア
文節2概念表現基本単位2: インストール
文節3概念表現基本単位3: 正常
文節4概念表現基本単位4: 実行
文節4概念表現基本単位5: 実行(+可能)
文節4概念表現基本単位6: 実行(+打消)
文節4概念表現基本単位7: 実行(+可能+打消)
その場合、概念表現は以下のものが生成される。
概念表現1(文節1概念表現基本単位1) :ソフトウェア
概念表現2(文節2概念表現基本単位2) :インストール
概念表現3(文節3概念表現基本単位3) :正常
概念表現4(文節4概念表現基本単位4) :実行
概念表現5(文節4概念表現基本単位5) :実行(+可能)
概念表現6(文節4概念表現基本単位6) :実行(+打消)
概念表現7(文節4概念表現基本単位7) :実行(+可能+打消)
概念表現8(概念表現基本単位間関係1) :ソフトウェア⇒インストール
概念表現9(概念表現基本単位間関係2) :インストール⇒実行
概念表現10(概念表現基本単位間関係2):インストール⇒実行(+可能)
概念表現11(概念表現基本単位間関係2):インストール⇒実行(+打消)
概念表現12(概念表現基本単位間関係2):インストール⇒実行(+可能+打消)
概念表現13(概念表現基本単位間関係3):正常⇒実行
概念表現14(概念表現基本単位間関係3):正常⇒実行(+可能
概念表現15(概念表現基本単位間関係3):正常⇒実行(+打消)
概念表現16(概念表現基本単位間関係3):正常⇒実行(+可能+打消)
概念表現17(概念表現基本単位間関係4):ソフトウェア⇒インストール⇒実行
概念表現18(概念表現基本単位間関係4):ソフトウェア⇒インストール⇒実行(+可能)
概念表現19(概念表現基本単位間関係4):ソフトウェア⇒インストール⇒実行(+打消)
概念表現20(概念表現基本単位間関係4):ソフトウェア⇒インストール⇒実行(+可能+打消)
次に、実施の形態2にかかる文書処理装置1について説明する。実施の形態2にかかる文書処理装置1は、自由記述回答のアンケートデータのような大量のテキスト集合からユーザに必要なカテゴリー構造を生成することができる。
カテゴリー生成部104は、ユーザが指定した文書に対して、文書カテゴリーを生成する。ここで文書カテゴリーとは、所属文書の基準となるカテゴリー定義を持ち、定義に基づいて集められた文書をメンバーとする文書グループのことである。
概念表現を定義とするカテゴリー。概念表現表示部103でユーザが指定した概念表現を利用してカテゴリーを生成する。
既存のカテゴリーの論理式を定義とするカテゴリー。ユーザは文書カテゴリー表示部105において操作を行うことで作成する。
文書IDリストを定義とするカテゴリーのことである。本実施例ではユーザが作成することはできない。
文字列を定義とするカテゴリーのことである。定義の文字列と完全一致するフィールドデータを文書がメンバーとなる。カテゴリカルデータ判別処理においてシステムにより自動的に作成されるカテゴリー。ユーザの指定により生成することもできる。
数値の一致、大小などをあらわす式を定義とするカテゴリーのことである。フィールドのデータ型が数値型である場合に作成することができる。
日時の一致、大小などをあらわす式を定義とするカテゴリーのことである。フィールドのデータ型が日時型である場合に作成することができる。
次に、データ判別部150の処理について説明する。データ判別部150は、以下の処理を行う。
1)データの型判別
2)カテゴリカルデータ判別
データ判別部150は、各フィールドに対してデータの表記フォーマットを検査する。これにより、データの型を数値型、日時型、テキスト型(数値型でも日時型でもない)のいずれであるかを判別する。そして、あるフィールドのデータがすべて数値型であればそのフィールドを数値型、データがすべて日時型であればそのフィールドを日時型、どちらでもなければそのフィールドをテキスト型とする。データ型の情報は図34に示した「データタイプ」として蓄積される。
データ判別部150は、さらに各フィールドに対して、フィールドデータ1件を1文字列とした場合に、フィールドデータがある特定の文字列パターンのみで構成されているか否かを検査する。特定の文字列パターンのみで構成されている場合は、そのフィールドをカテゴリカルデータであると判別する。判別結果、すなわちカテゴリカルデータであるか否かを示す情報は、図34に示した「フィールド情報」として蓄積される。
特定の文字列パターンのみで構成されているか否かは、たとえば「出現文字列パターン数が全フィールドデータ数の10%以下である」などのルールで判定することができる。なお判定の際のルールは、予め定められている。
次に、言語処理部120の処理について説明する。言語処理部120は、以下の処理を行う。
1)概念表現抽出
2)拡張概念表現検索
言語処理部120のテキストデータ構造生成部202では、言語解析部201の結果に基づいて各フィールドデータをデータ構造に変換する。さらに、実施の形態1において図8を参照しつつ説明した単語リストを生成する。なお、実施の形態2においては、フィールドデータに含まれる単語に対してユニークな単語IDを付与する。このとき、さらに品詞情報や全体における出現頻度あるいは出現文書数を算出しておいてもよい。
意図タグID1「打消」:助動詞「ない」、助動詞「ず」、助動詞「まい」、補助助動詞「にくい」、形容詞「ない」
意図タグIDに「要望」:助動詞「たい」、動詞「欲しい」、接続助詞「て」+動詞「欲しい」
意図タグID3「疑問」:終助詞「か」、終助詞「か」+終助詞「な」、記号「?」
意図タグID4「可能」:補助動詞「できる」、助動詞「れる」、助動詞「られる」
言語処理部120の拡張概念表現検索部205は、現在処理対象となっているフィールドに対して、拡張概念表現検索を行う。本実施の形態においては、ユーザが指定した概念表現に対して、トークンのみで構成される概念表現基本単位を1つ追加するパターンの概念表現と、指定された概念表現の末端の概念表現基本単位の意図タグを追加するパターンの概念表現を抽出する。実施の形態1におい図6において説明したテキストに対して「インストール⇒実行」という概念表現が指定された場合、以下の概念表現が抽出される。
拡張概念表現1 :インストール⇒実行(+可能)
拡張概念表現2 :インストール⇒実行(+打消)
拡張概念表現3 :インストール⇒実行(+可能+打消)
拡張概念表現4 :ソフトウェア⇒インストール⇒実行
概念表現表示部103は、言語処理部120によって抽出された概念表現を表示する。具体的には、図32に示す基本概念表現ブラウザをモニタ16に表示する。ユーザは、概念表現表示部103において、抽出された概念表現を参照、あるいは拡張概念表現検索結果を参照することなどで概念表現を探索することができる。
文書カテゴリー生成部104は、文書カテゴリーを生成する。文書カテゴリーとは、所属文書の基準となるカテゴリー定義を持ち、定義に基づいて集められた文書をメンバーとする文書グループのことである。文書カテゴリーは、以下の情報により記憶され、管理される。図35にカテゴリー情報の例を示す。なお、カテゴリー定義は、これとは別に管理されている。
1)概念表現カテゴリー
2)複合カテゴリー
3)データID指定カテゴリー
4)カテゴリカルデータカテゴリー
5)数値カテゴリー
6)日時カテゴリー
概念表現カテゴリーは概念表現を定義とするカテゴリーである。ユーザが概念表現表示部103において概念表現を指定することにより、文書カテゴリーを生成することができる。
複合カテゴリーは既存のカテゴリーの論理式を定義とするカテゴリーである。ユーザは文書カテゴリー表示部105において操作を行うことで作成することができる。文書カテゴリー表示部105、具体的には図32に示す画面に表示された「カテゴリーリスト」および「ワークスペース」において、ユーザが組み合わせを指定することで生成することができる。
データIDカテゴリーは文書IDリストを定義とするカテゴリーである。本実施の形態においては、「すべてのフィールドデータ」をメンバーとするカテゴリーを生成するために利用している。ユーザにより、任意に作成することはできない。
カテゴリカルデータカテゴリーは、カテゴリカルデータであると判別されたフィールドに対して自動的に作成されるカテゴリーである。セッション情報記憶部15に記憶されているフィールド情報において、「カテゴリカル」であると記載されているフィールドに対して、文書カテゴリー生成部104では自動でカテゴリー生成を行う。フィールドデータに出現する特定の文字列パターンを定義とし、その文字列パターンと一致するフィールドデータを持つ文書をカテゴリーの所属文書とする。
数値カテゴリーはデータ型が「数値型」であると判別されたフィールドに対して作成することのできるカテゴリーである。以下に示すような、数値の一致、大小などを表す式をカテゴリー定義とする。カテゴリー定義は文字列エディタを提示することにより、ユーザにより直接記述される。
FieldData =1
FieldData>=0
FieldData<0
日時カテゴリーはデータ型が「日時型」であると判別されたフィールドに対して作成することのできるカテゴリーである。以下に示すような日時の一致、大小などをあらわす式を定義とするカテゴリーである。ある特定の年、月、日、時、分、秒、曜日、午前/午後などを指定できるようにしてもよい。
FieldData= 2003/6
FieldData< 2002/4
FieldData> 2003/5/24:11:00
FieldData= 8月
FieldData= 月曜
FieldData= 午後
文書カテゴリー表示部105は、生成されたカテゴリーを表示する。図32に示す「カテゴリーリスト」のようにリスト表示したり、「ワークスペース」のようにグラフィカル表示してもよい。なお、表示形態は、本実施の形態に限定されるものではない。
文書データ表示部107は、ユーザから指定された概念表現を含むフィールドデータや、指定されたカテゴリーに属する文書データを表示することができる。
次に、実施の形態3にかかる文書処理装置1について説明する。図36に実施の形態3にかかる文書処理装置1の構成を示すブロック図である。実施の形態3にかかるカテゴリー処理部10は、実施の形態2にかかるカテゴリー処理部10の機能構成に加えて、既存文書カテゴリー検索部160および既存文書カテゴリー表示部162を有している。この点で、実施の形態3にかかる文書処理装置1は、実施の形態2にかかる文書処理装置1とその構成が異なっている。
現在のセッションあるいは他のセッションで作成された全カテゴリー情報を表示する。図37に示す既存文書カテゴリーブラウザ600の「カテゴリー一覧表示指定」エリア610において、対象となるセッションが選択され、「表示」ボタンが押下される。
現在のセッションあるいは他のセッションで作成されたカテゴリーから指定されたキーワードを含むカテゴリーラベルを持つカテゴリーを検索する。
カテゴリー一覧表示」エリア614または「カテゴリー一覧表示」エリア614に表示されている文書カテゴリーを現在対象となっている文書集合に適用することができる。各エリアに表示されているカテゴリーを選択し、文書カテゴリー表示部105が表示する画面にドラッグアンドドロップする。または、「カテゴリー再利用」メニューにより、カテゴリーの再利用を指定することとしてもよい。
10 カテゴリー処理部
12 テキストデータ構造記憶部
13 概念表現記憶部
14 テキストカテゴリー記憶部
15 指示受付部
16 モニタ
62 バス
101 テキスト取得部
103 概念表現表示部
104 テキストカテゴリー生成部
105 テキストカテゴリー表示部
106 テキスト管理部
107 テキストデータ表示部
120 言語処理部
201 言語解析部
202 テキストデータ構造生成部
204 概念表現抽出部
205 拡張概念表現検索部
241 トークン抽出部
242 トークン間関係抽出部
243 概念表現生成部
251 意図表現抽出部
252 意図表現間関係抽出部
253 概念表現生成部
261 トークン抽出部
262 意図表現抽出部
263 概念表現基本単位生成部
264 概念表現基本単位間関係抽出部
265 概念表現生成部
Claims (13)
- 文書のカテゴリーを生成する文書処理装置であって、
入力された、複数のフィールドデータが表形式で表現された文書集合データに含まれる前記複数のフィールドデータのそれぞれに対して言語解析を行う言語解析手段と、
前記言語解析手段における言語解析の結果に基づいて、所定の意味を有する1の単語または2以上の単語の組み合わせで表現された概念表現を抽出する概念表現抽出手段と、
前記複数のフィールドデータのそれぞれを含む文書集合データと、前記複数のフィールドデータのそれぞれを含む文書集合データを識別する文書識別情報とを対応付けて記憶する文書記憶手段と、
前記概念表現抽出手段が抽出した概念表現のうち、所定の概念表現の指定をユーザから受け付ける概念表現指定受付手段と、
前記概念表現指示受付手段が指定を受け付けた概念表現に基づいて文書カテゴリーを生成する文書カテゴリー生成手段と、
前記文書カテゴリーと、当該文書カテゴリーに属するフィールドデータの識別情報および前記文書識別情報とを対応付けて記憶する文書カテゴリー記憶手段と、
前記文書カテゴリー記憶手段に記憶されている前記文書カテゴリーを表示する文書カテゴリー表示手段と、
前記文書カテゴリー表示手段により表示された前記文書カテゴリーから、所定の文書カテゴリーの指定を、前記文書集合データの集合を管理するセッション情報の指定によりユーザから受け付ける文書カテゴリー指定受付手段と、
前記文書カテゴリー記憶手段において、前記文書カテゴリー指定受付手段が指定を受け付けた前記文書カテゴリーに対応付けられている前記フィールドデータの識別情報および前記文書識別情報で識別される前記フィールドデータを前記文書記憶手段から抽出し、抽出したフィールドデータを表示する文書表示手段と
を備えた
ことを特徴とする文書処理装置。 - 前記概念表現抽出手段が抽出した概念表現を表示する概念表現表示手段をさらに備え、
前記概念表現指定受付手段は、
前記概念表現表示手段が表示する前記概念表現のうちから、概念表現の指定を受け付ける
ことを特徴とする請求項1に記載の文書処理装置。 - 前記言語解析手段は、
言語解析により意図を表現する意図表現語と、前記フィールドデータに含まれる自立語とを前記フィールドデータから抽出し、
前記概念表現抽出手段は、
前記意図表現語と前記自立語の組み合わせを概念表現として抽出する
ことを特徴とする請求項1または2に記載の文書処理装置。 - 前記言語解析手段は、
前記フィールドデータを文節に分割し、各文節間の文節間関係を解析し、
前記概念表現抽出手段は、
複数の前記概念基本単位と、当該概念基本単位間の前記文節間関係により表現された概念表現を抽出する
ことを特徴とする請求項3に記載の文書処理装置。 - 前記概念表現抽出手段は、
複数の前記自立語の組み合わせで表現された拡張概念表現を抽出し、
前記概念表現指定受付手段は、
前記概念表現抽出手段が抽出した拡張概念表現のうち、所定の拡張概念表現の指定をユーザから受け付ける
ことを特徴とする請求項3または4に記載の文書処理装置。 - 前記概念表現抽出手段は、
概念表現と他の前記自立語との組み合わせで表現された前記拡張概念表現を抽出する
ことを特徴とする請求項5に記載の文書処理装置。 - 取得したフィールドデータのうち所定のフィールドデータの集合である部分集合の指定を受け付ける部分集合指定受付手段をさらに備え、
前記概念表現抽出手段は、
前記部分集合指定受付手段が指定を受け付けた部分集合から概念表現を抽出する
ことを特徴とする請求項1から6のいずれか一項に記載の文書処理装置。 - 前記概念表現指定受付手段が指定を受け付けた概念表現の表示位置を合わせる第1表示編集手段をさらに備え、
前記文書表示手段は、
前記第1表示編集手段により概念表現の表示位置が合わせられた複数のフィールドデータを表示する
ことを特徴とする請求項1から7のいずれか一項に記載の文書処理装置。 - 前記文書カテゴリー生成手段が文書カテゴリーを生成するときに利用した概念表現の表示形態を変更する第2表示編集手段をさらに備え、
前記概念表現表示手段は、
前記第2表示編集手段によって表示形態が変更された概念表現を表示する
ことを特徴とする請求項2から8のいずれか一項に記載の文書処理装置。 - 前記概念表現抽出手段は、各フィールドデータに対する概念表現を抽出し、
前記文書カテゴリー生成手段は、各フィールドデータに対する文書カテゴリーを生成する
ことを特徴とする請求項1から9のいずれか一項に記載の文書処理装置。 - 前記文書カテゴリー生成手段は、
ユーザから指定された複数の文書カテゴリーを組み合わせて、文書カテゴリーとする
ことを特徴とする請求項1から10のいずれか一項に記載の文書処理装置。 - 文書のカテゴリーを生成する文書処理装置で実行される文書処理方法であって、
前記文書処理装置は、
複数のフィールドデータが表形式で表現された文書集合データと、前記複数のフィールドデータが表形式で表現された文書集合データを識別する文書識別情報とを対応付けて記憶するための文書記憶手段と、
前記文書カテゴリーを記憶するための文書カテゴリー記憶手段と
を備え、
言語解析手段が、前記文書集合データに含まれる前記複数のフィールドデータのそれぞれに対して言語解析を行う言語解析ステップと、
概念表現抽出手段が、前記言語解析ステップにおける言語解析の結果に基づいて、所定の意味を有する1の単語または2以上の単語の組み合わせで表現された概念表現を抽出する概念表現抽出ステップと、
概念表現指定受付手段が、前記概念表現抽出ステップが抽出した概念表現のうち、所定の概念表現の指定をユーザから受け付ける概念表現指定受付ステップと、
文書カテゴリー生成手段が、前記概念表現指示受付ステップが指定を受け付けた概念表現に基づいて文書カテゴリーを生成し、生成した文書カテゴリーと、当該文書カテゴリーに属するフィールドデータの識別情報および前記文書識別情報とを対応付けて前記カテゴリー記憶手段に記憶する文書カテゴリー生成ステップと、
文書カテゴリー表示手段が、前記文書カテゴリー記憶手段に記憶されている前記文書カテゴリーを表示する文書カテゴリー表示ステップと、
文書カテゴリー指定受付手段が、前記文書カテゴリー表示ステップで表示された前記文書カテゴリーから、所定の文書カテゴリーの指定を、前記文書集合データの集合を管理するセッション情報の指定によりユーザから受け付ける文書カテゴリー指定受付ステップと、
文書表示手段が、前記文書カテゴリー記憶手段において、前記文書カテゴリー指定受付ステップが指定を受け付けた前記文書カテゴリーに対応付けられている前記フィールドデータの識別情報および前記文書識別情報で識別される前記フィールドデータを前記文書記憶手段から抽出し、抽出したフィールドデータを表示する文書表示ステップと
を有する
ことを特徴とする文書処理方法。 - 文書のカテゴリーを生成する文書処理方法をコンピュータに実行させるための文書処理プログラムであって、
前記コンピュータは、
複数のフィールドデータが表形式で表現された文書集合データと、前記複数のフィールドデータが表形式で表現された文書集合データを識別する文書識別情報とを対応付けて記憶するための文書記憶手段と、
前記文書カテゴリーを記憶するための文書カテゴリー記憶手段と
を備え、
前記文書集合データに含まれる前記複数のフィールドデータのそれぞれに対して言語解析を行う言語解析ステップと、
前記言語解析ステップにおける言語解析の結果に基づいて、所定の意味を有する1の単語または2以上の単語の組み合わせで表現された概念表現を抽出する概念表現抽出ステップと、
前記概念表現抽出ステップが抽出した概念表現のうち、所定の概念表現の指定をユーザから受け付ける概念表現指定受付ステップと、
前記概念表現指示受付ステップが指定を受け付けた概念表現に基づいて文書カテゴリーを生成し、生成した文書カテゴリーと、当該文書カテゴリーに属するフィールドデータの識別情報および前記文書識別情報とを対応付けて前記カテゴリー記憶手段に記憶する文書カテゴリー生成ステップと、
前記文書カテゴリー記憶手段に記憶されている前記文書カテゴリーを表示する文書カテゴリー表示ステップと、
前記文書カテゴリー表示ステップで表示された前記文書カテゴリーから、所定の文書カテゴリーの指定を、前記文書集合データの集合を管理するセッション情報の指定によりユーザから受け付ける文書カテゴリー指定受付ステップと、
前記文書カテゴリー記憶手段において、前記文書カテゴリー指定受付ステップが指定を受け付けた前記文書カテゴリーに対応付けられている前記フィールドデータの識別情報および前記文書識別情報で識別される前記フィールドデータを前記文書記憶手段から抽出し、抽出したフィールドデータを表示する文書表示ステップと
をコンピュータに実行させるための文書処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004012291A JP4585768B2 (ja) | 2003-03-18 | 2004-01-20 | 文書処理装置、文書処理方法および文書処理プログラム |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003074209 | 2003-03-18 | ||
JP2004012291A JP4585768B2 (ja) | 2003-03-18 | 2004-01-20 | 文書処理装置、文書処理方法および文書処理プログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2004303198A JP2004303198A (ja) | 2004-10-28 |
JP2004303198A5 JP2004303198A5 (ja) | 2007-02-22 |
JP4585768B2 true JP4585768B2 (ja) | 2010-11-24 |
Family
ID=33421815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004012291A Expired - Fee Related JP4585768B2 (ja) | 2003-03-18 | 2004-01-20 | 文書処理装置、文書処理方法および文書処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4585768B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4877930B2 (ja) * | 2006-03-22 | 2012-02-15 | 株式会社リコー | 文書処理装置及び文書処理方法 |
EP2798531A1 (en) * | 2011-12-27 | 2014-11-05 | Koninklijke Philips Electronics N.V. | Text analysis system |
JP5642229B2 (ja) * | 2013-04-30 | 2014-12-17 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | 重要性判定システム、重要性判定方法及びコンピュータプログラム |
JP2016103156A (ja) * | 2014-11-28 | 2016-06-02 | エヌ・ティ・ティ・コムウェア株式会社 | テキスト特徴量抽出装置、テキスト特徴量抽出方法、およびプログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001101199A (ja) * | 1999-09-29 | 2001-04-13 | Fuji Xerox Co Ltd | 文書処理装置 |
JP2003288355A (ja) * | 2002-03-27 | 2003-10-10 | Acot:Kk | データベースシステム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4075094B2 (ja) * | 1997-04-09 | 2008-04-16 | 松下電器産業株式会社 | 情報分類装置 |
-
2004
- 2004-01-20 JP JP2004012291A patent/JP4585768B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001101199A (ja) * | 1999-09-29 | 2001-04-13 | Fuji Xerox Co Ltd | 文書処理装置 |
JP2003288355A (ja) * | 2002-03-27 | 2003-10-10 | Acot:Kk | データベースシステム |
Also Published As
Publication number | Publication date |
---|---|
JP2004303198A (ja) | 2004-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9659071B2 (en) | Patent mapping | |
JP3577819B2 (ja) | 情報探索装置及び情報探索方法 | |
US6915308B1 (en) | Method and apparatus for information mining and filtering | |
Alexa et al. | A review of software for text analysis | |
US20090106238A1 (en) | Contextual Searching of Electronic Records and Visual Rule Construction | |
KR20040102071A (ko) | 자연어 인식 애플리케이션 구축을 위한 통합 개발 툴 | |
Scharpf et al. | Mathematics in wikidata | |
AU2012200701B2 (en) | Patent Mapping | |
Higuchi | KH Coder 2. x reference manual | |
JP4585768B2 (ja) | 文書処理装置、文書処理方法および文書処理プログラム | |
Edhlund et al. | NVivo for Mac essentials | |
KR101069278B1 (ko) | 청구항 시각화 장치 및 방법 | |
JP4877930B2 (ja) | 文書処理装置及び文書処理方法 | |
JP2000250908A (ja) | 電子書籍の作成支援装置 | |
JPH06231178A (ja) | 文書検索装置 | |
US7996356B2 (en) | Text searching and categorization tools | |
Behrisch et al. | The News Auditor: Visual Exploration of Clusters of Stories. | |
JP4525224B2 (ja) | ドキュメント管理プログラム、ドキュメント管理方法、及びドキュメント管理装置 | |
Weisser | Dialogue Annotation & Research Tool (DART) | |
JP4248828B2 (ja) | 文書処理装置、文書処理方法及び記録媒体 | |
JP2003167893A (ja) | 特許文献の理解支援システムおよび特許文献の理解支援プログラム | |
JPH08305726A (ja) | 情報検索装置 | |
Harikumar et al. | An augmented semantic search tool for multilingual news analytics | |
JP2003223466A (ja) | 特許検索装置、特許検索装置の制御方法、制御プログラムおよび記録媒体 | |
KR20220146923A (ko) | 검색키워드 다중 표기에 따른 우선순위 중심 선별문서 채택 시스템 및 그 구동방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070109 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070109 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090727 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090804 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091005 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091124 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100119 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100406 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100607 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100831 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100906 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130910 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |