JP4585768B2

JP4585768B2 - 文書処理装置、文書処理方法および文書処理プログラム

Info

Publication number: JP4585768B2
Application number: JP2004012291A
Authority: JP
Inventors: 哲郎長束
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2003-03-18
Filing date: 2004-01-20
Publication date: 2010-11-24
Anticipated expiration: 2024-01-20
Also published as: JP2004303198A

Description

本発明は、文書のカテゴリーを生成する文書処理装置、文書処理方法および文書処理プログラムに関するものである。

近年、大量の文書（テキスト情報）の収集／蓄積が可能となり、それらの情報を活用するためのテキスト処理技術、文書処理技術がさまざま開発されている。従来の処理技術としては、ユーザの意図に合った文書（テキスト）を検索する文書検索技術、大量の文書（テキスト）集合をいくつかの部分集合に分類する文書分類技術、文書（テキスト）あるいは文書（テキスト）集合から重要な語句を抽出するキーワード抽出技術、キーワード抽出技術に基づいた文書（テキスト）要約技術などがしられている。

最近ではアンケートデータやコールセンターデータなどの大量のテキストデータを分析することを目的としたテキストマイニング技術なども開発されている。テキストデータの分析をするには大きく以下の２つの方法がある。
１）定量的分析
テキストを含まれる概念や意味に基づいてカテゴリーに分類し、カテゴリーに属するテキストの数を利用して統計的な傾向や関係を分析する。
２）定性的分析
統計的な分析ではなく、テキスト１件１件の内容から意味的に特徴的な概念やカテゴリーを抽出する。たとえば新たな知見やアイデアの発見を行う場合などである。

１）定量的分析の場合、テキスト集合をある意味的な構造をもったカテゴリー構造に変換する必要がある。この際の問題点として、テキストデータの場合、含まれる概念の表現が多様であり、同じ意味の概念であっても複数の表現や言葉で表されていること、テキストに含まれる概念や意味のレベル（たとえば抽象度）が様々であること、が挙げられる。

従来技術では、テキストをカテゴリー化する方法として、文書クラスタリング技術などにより文書を自動分類する方法がある。しかし、自動分類により生成されたテキスト集合から意味を読み取ることが難しい、生成されたテキスト集合間が適切に意味的な構造を表していない、または、分析に必要なカテゴリーに分類されていないなどの問題がある。

テキストをカテゴリー化するもう１つの方法としては、予めカテゴリー構造を記述した辞書を利用する方法が知られている。このような方法としては、シソーラス辞書を用いた「情報マイニング方法」（例えば、特許文献１参照）や、カテゴリー辞書を用いた「データ分析システム」（例えば、特許文献２参照）や、では概念定義辞書を用いた「業務支援システム」（例えば、特許文献３参照）が知られている。

特開２０００−１７２６９１号公報特開２００１−０７５９６６号公報特開２００１−１４７９３７号公報

しかし、これらの辞書を用いてカテゴリー化を行う場合には、予め定められた辞書に沿って処理が行われるため、ユーザの希望に沿った自由なカテゴリー化を行うのが困難であった。

また、２）定性的分析の場合、テキストの内容の意味的な特徴を抽出する必要がある。テキスト分析を目的とした従来技術では、単語頻度や、カテゴリー所属テキスト数などの数量データを用いた統計的な特徴により分析を行っている。しかし、分析者ごとに必要な概念は異なることが多く、各分析者が必要とする概念を統計的な特徴に基づいて抽出することはできない。従って、この方法では、例えば分析者が知らなかった知見やアイデアを発見するという目的の分析は困難であるという問題がある。

この発明は上記に鑑みてなされたもので、ユーザの希望に即した文書カテゴリーを生成することのできる文書処理装置、文書処理方法および文書処理プログラムを得ることを目的とする。

カテゴリー化を行うにあたり、予め準備された辞書を利用して概念やカテゴリーを生成した場合には、ユーザの希望に沿ったカテゴリー化を行うのが困難であり、また、分析の際に必要となる概念構造やカテゴリー構造は１種類ではなく、分析者、あるいは分析目的により必要な概念やカテゴリー、あるいはその構造が異なることが問題である。

発明者は、以上の問題を見出し、当該問題を解決すべく本発明に想到した。すなわち、テキストデータでは新しい言葉や概念などが含まれることがあるので、このような新しい言葉や概念に対応したカテゴリー化を行うこと、および、予め概念構造やカテゴリー構造を辞書的に用意するのではなく、分析者が対象となるテキストから自分に必要な概念やカテゴリー、あるいはその意味的構造を簡単に生成できる技術を開発した。

請求項１にかかる発明は、文書のカテゴリーを生成する文書処理装置であって、入力された、複数のフィールドデータが表形式で表現された文書集合データに含まれる前記複数のフィールドデータのそれぞれに対して言語解析を行う言語解析手段と、前記言語解析手段における言語解析の結果に基づいて、所定の意味を有する１の単語または２以上の単語の組み合わせで表現された概念表現を抽出する概念表現抽出手段と、前記複数のフィールドデータのそれぞれを含む文書集合データと、前記複数のフィールドデータのそれぞれを含む文書集合データを識別する文書識別情報とを対応付けて記憶する文書記憶手段と、前記概念表現抽出手段が抽出した概念表現のうち、所定の概念表現の指定をユーザから受け付ける概念表現指定受付手段と、前記概念表現指示受付手段が指定を受け付けた概念表現に基づいて文書カテゴリーを生成する文書カテゴリー生成手段と、前記文書カテゴリーと、当該文書カテゴリーに属するフィールドデータの識別情報および前記文書識別情報とを対応付けて記憶する文書カテゴリー記憶手段と、前記文書カテゴリー記憶手段に記憶されている前記文書カテゴリーを表示する文書カテゴリー表示手段と、前記文書カテゴリー表示手段により表示された前記文書カテゴリーから、所定の文書カテゴリーの指定を、前記文書集合データの集合を管理するセッション情報の指定によりユーザから受け付ける文書カテゴリー指定受付手段と、前記文書カテゴリー記憶手段において、前記文書カテゴリー指定受付手段が指定を受け付けた前記文書カテゴリーに対応付けられている前記フィールドデータの識別情報および前記文書識別情報で識別される前記フィールドデータを前記文書記憶手段から抽出し、抽出したフィールドデータを表示する文書表示手段とを備えたことを特徴とする。

この請求項１の発明によれば、ユーザから概念表現の指定を受け付け、指定された概念表現に基づいて、テキストカテゴリーを生成するので、ユーザの希望に沿ったカテゴリーを生成することができる。すなわち、テキスト集合に含まれる概念を自由に探索し、分析や処理に必要な概念を発見し、その概念を用いてカテゴリーを生成し、カテゴリーの意味的な関係構造を生成することができる。従って、ユーザに必要なカテゴリー構造を容易に生成することができるので、ユーザによる発見などを目的とした定性的分析にも利用することができる。

また、請求項２にかかる発明は、請求項１に記載の文書処理装置であって、前記概念表現抽出手段が抽出した概念表現を表示する概念表現表示手段をさらに備え、前記概念表現指定受付手段は、前記概念表現表示手段が表示する前記概念表現のうちから、概念表現の指定を受け付けることを特徴とする。

この請求項２の発明によれば、概念表現表示手段は、概念表現抽出手段が抽出した概念表現を表示するので、ユーザは、概念表現を容易に把握することができ、また、表示された概念表現から所望の概念表現を指定することができる。

また、請求項３にかかる発明は、請求項１または２に記載の文書処理装置であって、前記言語解析手段は、言語解析により意図を表現する意図表現語と、前記文書に含まれる自立語とを前記文書から抽出し、前記概念表現抽出手段は、前記意図表現語と前記自立語の組み合わせを概念表現として抽出することを特徴とする。

この請求項３の発明によれば、概念表現抽出手段は、意図表現語と自立語との組み合わせを概念表現として抽出することができるので、ユーザは、多様な概念表現に基づいて文書カテゴリーを生成することができる。また、これにより、精度良く概念表現を生成することができる。

また、請求項４にかかる発明は、請求項３に記載の文書処理装置であって、前記言語解析手段は、前記文書を文節に分割し、各文節間の文節間関係を解析し、前記概念表現抽出手段は、複数の前記概念基本単位と、当該概念基本単位間の前記文節間関係により表現された前記概念表現を抽出することを特徴とする。

この請求項４の発明によれば、概念表現抽出手段は、概念表現基本単位と、文節間関係により表現された概念表現を抽出することができるので、ユーザは、多様な概念表現に基づいて文書カテゴリーを生成することができる。また、これにより、精度良く概念表現を生成することができる。

また、請求項５にかかる発明は、請求項３または４に記載の文書処理装置であって、前記概念表現抽出手段は、複数の前記自立語の組み合わせで表現された拡張概念表現を抽出し、前記概念表現指定受付手段は、前記概念表現抽出手段が抽出した前記拡張概念表現のうち、所定の拡張概念表現の指定をユーザから受け付けることを特徴とする。

この請求項５の発明によれば、概念表現抽出手段は、複数の自立語の組み合わせで表現された概念表現を抽出することができるので、ユーザは、多様な概念表現に基づいて文書カテゴリーを生成することができる。また、これにより、精度良く概念表現を生成することができる。

また、請求項６にかかる発明は、請求項５に記載の文書処理装置であって、前記概念表現抽出手段は、概念表現と他の前記自立語との組み合わせで表現された前記拡張概念表現を抽出することを特徴とする。

この請求項６の発明によれば、ユーザは、多様な概念表現に基づいて文書カテゴリーを生成することができる。また、これにより、精度良く概念表現を生成することができる。

また、請求項７にかかる発明は、請求項１から６のいずれか一項に記載の文書処理装置であって、入力された文書のうち所定の文書の集合である部分集合の指定を受け付ける部分集合指定受付手段をさらに備え、前記概念表現抽出手段は、前記部分集合指定受付手段が指定を受け付けた部分集合から概念表現を抽出することを特徴とする。

この請求項７の発明によれば、概念表現抽出手段は、部分集合の指定を受け付けた場合に、指定された部分集合を対象として概念表現を抽出することができるので、ユーザの希望に即した概念表現を抽出でき、さらに、当該概念表現に基づいて、文書カテゴリーを生成することができる。

また、請求項８にかかる発明は、請求項１から７のいずれか一項に記載の文書処理装置であって、前記概念表現指定受付手段が指定を受け付けた概念表現の表示位置を合わせる第１表示編集手段をさらに備え、前記文書表示手段は、前記第１表示編集手段により概念表現の表示位置が合わせられた複数の文書を表示することを特徴とする。

この請求項８の発明によれば、表示編集手段は、所定の概念表現の表示位置を合わせ、文書表示手段は、表示編集手段により概念表現の表示位置が合わせられた状態で複数の文書を表示するので、ユーザは、自分が着目した概念表現部分における特徴および傾向などを容易に理解することができる。また、ユーザは、所望の概念表現を効率的に検索することができる。

また、請求項９にかかる発明は、請求項２から８のいずれか一項に記載の文書処理装置であって、前記文書カテゴリー生成手段が文書カテゴリーを生成するときに利用した概念表現の表示形態を変更する第２表示編集手段をさらに備え、前記概念表現表示手段は、前記第２表示編集手段によって表示形態が変更された概念表現を表示することを特徴とする。

この請求項９の発明によれば、表示編集手段が、文書カテゴリーを生成するときに利用した概念表現の表示形態を変更し、概念表現表示手段は、表示編集手段により概念表現の表示形態が変更された状態で概念表現を表示するので、ユーザは、文書カテゴリーを生成するときに利用した概念表現を容易に把握することができる。

また、請求項１０にかかる発明は、請求項１から９のいずれか一項に記載の文書処理装置であって、複数のフィールドデータを有するフィールド文書を取得する取得手段をさらに備え、前記言語解析手段は、前記取得手段が取得した前記フィールド文書に含まれる各フィールドデータに対して言語解析し、前記概念表現抽出手段は、各フィールドデータに対する前記概念表現を抽出し、前記文書カテゴリー生成手段は、各フィールドデータに対する文書カテゴリーを生成することを特徴とする。

この請求項１０の発明によれば、ユーザは、各フィールドデータに対してカテゴリーを生成することができる。

また、請求項１１にかかる発明は、請求項１から１０のいずれか一項に記載の文書処理装置であって、前記文書カテゴリー生成手段は、ユーザから指定された複数の文書カテゴリーを組み合わせて、文書カテゴリーとすることを特徴とする。

この請求項１１の発明によれば、文書カテゴリー生成手段は、ユーザから指定された複数の文書カテゴリーを組み合わせて、文書カテゴリーとするので、異なるフィールドデータから作られた複数カテゴリーを組み合わせた文書カテゴリーの生成を行うことができる。さらに、このように、複数のカテゴリーを組み合わせた文書カテゴリーの生成を行うことにより、各フィールドデータの特徴を生かしたカテゴリーを生成することができる。

また、請求項１２にかかる発明は、文書のカテゴリーを生成する文書処理装置で実行される文書処理方法であって、前記文書処理装置は、複数のフィールドデータが表形式で表現された文書集合データと、前記複数のフィールドデータが表形式で表現された文書集合データを識別する文書識別情報とを対応付けて記憶するための文書記憶手段と、前記文書カテゴリーを記憶するための文書カテゴリー記憶手段とを備え、言語解析手段が、前記文書集合データに含まれる前記複数のフィールドデータのそれぞれに対して言語解析を行う言語解析ステップと、概念表現抽出手段が、前記言語解析ステップにおける言語解析の結果に基づいて、所定の意味を有する１の単語または２以上の単語の組み合わせで表現された概念表現を抽出する概念表現抽出ステップと、概念表現指定受付手段が、前記概念表現抽出ステップが抽出した概念表現のうち、所定の概念表現の指定をユーザから受け付ける概念表現指定受付ステップと、文書カテゴリー生成手段が、前記概念表現指示受付ステップが指定を受け付けた概念表現に基づいて文書カテゴリーを生成し、生成した文書カテゴリーと、当該文書カテゴリーに属するフィールドデータの識別情報および前記文書識別情報とを対応付けて前記カテゴリー記憶手段に記憶する文書カテゴリー生成ステップと、文書カテゴリー表示手段が、前記文書カテゴリー記憶手段に記憶されている前記文書カテゴリーを表示する文書カテゴリー表示ステップと、文書カテゴリー指定受付手段が、前記文書カテゴリー表示ステップで表示された前記文書カテゴリーから、所定の文書カテゴリーの指定を、前記文書集合データの集合を管理するセッション情報の指定によりユーザから受け付ける文書カテゴリー指定受付ステップと、文書表示手段が、前記文書カテゴリー記憶手段において、前記文書カテゴリー指定受付ステップが指定を受け付けた前記文書カテゴリーに対応付けられている前記フィールドデータの識別情報および前記文書識別情報で識別される前記フィールドデータを前記文書記憶手段から抽出し、抽出したフィールドデータを表示する文書表示ステップとを有することを特徴とする。

この請求項１２の発明によれば、ユーザから概念表現の指定を受け付け、指定された概念表現に基づいて、テキストカテゴリーを生成するので、ユーザの希望に沿ったカテゴリーを生成することができる。すなわち、テキスト集合に含まれる概念を自由に探索し、分析や処理に必要な概念を発見し、その概念を用いてカテゴリーを生成し、カテゴリーの意味的な関係構造を生成することができる。従って、ユーザに必要なカテゴリー構造を容易に生成することができるので、ユーザによる発見などを目的とした定性的分析にも利用することができる。

また、請求項１３にかかる発明は、文書のカテゴリーを生成する文書処理方法をコンピュータに実行させるための文書処理プログラムであって、前記コンピュータは、複数のフィールドデータが表形式で表現された文書集合データと、前記複数のフィールドデータが表形式で表現された文書集合データを識別する文書識別情報とを対応付けて記憶するための文書記憶手段と、前記文書カテゴリーを記憶するための文書カテゴリー記憶手段とを備え、前記文書集合データに含まれる前記複数のフィールドデータのそれぞれに対して言語解析を行う言語解析ステップと、前記言語解析ステップにおける言語解析の結果に基づいて、所定の意味を有する１の単語または２以上の単語の組み合わせで表現された概念表現を抽出する概念表現抽出ステップと、前記概念表現抽出ステップが抽出した概念表現のうち、所定の概念表現の指定をユーザから受け付ける概念表現指定受付ステップと、前記概念表現指示受付ステップが指定を受け付けた概念表現に基づいて文書カテゴリーを生成し、生成した文書カテゴリーと、当該文書カテゴリーに属するフィールドデータの識別情報および前記文書識別情報とを対応付けて前記カテゴリー記憶手段に記憶する文書カテゴリー生成ステップと、前記文書カテゴリー記憶手段に記憶されている前記文書カテゴリーを表示する文書カテゴリー表示ステップと、前記文書カテゴリー表示ステップで表示された前記文書カテゴリーから、所定の文書カテゴリーの指定を、前記文書集合データの集合を管理するセッション情報の指定によりユーザから受け付ける文書カテゴリー指定受付ステップと、前記文書カテゴリー記憶手段において、前記文書カテゴリー指定受付ステップが指定を受け付けた前記文書カテゴリーに対応付けられている前記フィールドデータの識別情報および前記文書識別情報で識別される前記フィールドデータを前記文書記憶手段から抽出し、抽出したフィールドデータを表示する文書表示ステップとをコンピュータに実行させるための文書処理プログラムである。

この請求項１３の発明によれば、ユーザから概念表現の指定を受け付け、指定された概念表現に基づいて、テキストカテゴリーを生成するので、ユーザの希望に沿ったカテゴリーを生成することができる。すなわち、テキスト集合に含まれる概念を自由に探索し、分析や処理に必要な概念を発見し、その概念を用いてカテゴリーを生成し、カテゴリーの意味的な関係構造を生成することができる。従って、ユーザに必要なカテゴリー構造を容易に生成することができるので、ユーザによる発見などを目的とした定性的分析にも利用することができる。

請求項１にかかる発明によれば、ユーザから概念表現の指定を受け付け、指定された概念表現に基づいて、テキストカテゴリーを生成するので、ユーザの希望に沿ったカテゴリーを生成することができる。すなわち、テキスト集合に含まれる概念を自由に探索し、分析や処理に必要な概念を発見し、その概念を用いてカテゴリーを生成し、カテゴリーの意味的な関係構造を生成することができる。従って、ユーザに必要なカテゴリー構造を容易に生成することができるので、ユーザによる発見などを目的とした定性的分析にも利用することができるという効果を奏する。

また、請求項２にかかる発明によれば、概念表現表示手段は、概念表現抽出手段が抽出した概念表現を表示するので、ユーザは、概念表現を容易に把握することができ、また、表示された概念表現から所望の概念表現を指定することができるという効果を奏する。

また、請求項３にかかる発明によれば、概念表現抽出手段は、言語解析により意図表現語と自立語との組み合わせを概念表現として抽出することができるので、ユーザは、多様な概念表現に基づいて文書カテゴリーを生成することができる。また、これにより、精度良く概念表現を生成することができるという効果を奏する。

また、請求項４にかかる発明によれば、概念表現抽出手段は、概念表現基本単位と、文節間関係により表現された概念表現を抽出することができるので、ユーザは、多様な概念表現に基づいて文書カテゴリーを生成することができる。また、これにより、精度良く概念表現を生成することができるという効果を奏する。

また、請求項５にかかる発明によれば、概念表現抽出手段は、複数の自立語の組み合わせで表現された概念表現を抽出することができるので、ユーザは、多様な概念表現に基づいて文書カテゴリーを生成することができる。また、これにより、精度良く概念表現を生成することができるという効果を奏する。

また、請求項６にかかる発明によれば、ユーザは、多様な概念表現に基づいて文書カテゴリーを生成することができる。また、これにより、精度良く概念表現を生成することができるという効果を奏する。

また、請求項７にかかる発明によれば、概念表現抽出手段は、部分集合の指定を受け付けた場合に、指定された部分集合を対象として概念表現を抽出することができるので、ユーザの希望に即した概念表現を抽出でき、さらに、当該概念表現に基づいて、文書カテゴリーを生成することができるという効果を奏する。

また、請求項８にかかる発明によれば、表示編集手段は、所定の概念表現の表示位置を合わせ、文書表示手段は、表示編集手段により概念表現の表示位置が合わせられた状態で複数の文書を表示するので、ユーザは、自分が着目した概念表現部分における特徴および傾向などを容易に理解することができる。また、ユーザは、所望の概念表現を効率的に検索することができるという効果を奏する。

また、請求項９にかかる発明によれば、表示編集手段が、文書カテゴリーを生成するときに利用した概念表現の表示形態を変更し、概念表現表示手段は、表示編集手段により概念表現の表示形態が変更された状態で概念表現を表示するので、ユーザは、文書カテゴリーを生成するときに利用した概念表現を容易に把握することができるという効果を奏する。

また、請求項１０にかかる発明によれば、ユーザは、各フィールドデータに対してカテゴリーを生成することができるという効果を奏する。

また、請求項１１の発明によれば、文書カテゴリー生成手段は、ユーザから指定された複数の文書カテゴリーを組み合わせて、文書カテゴリーとするので、異なるフィールドデータから作られた複数カテゴリーを組み合わせた文書カテゴリーの生成を行うことができる。さらに、このように、複数のカテゴリーを組み合わせた文書カテゴリーの生成を行うことにより、各フィールドデータの特徴を生かしたカテゴリーを生成することができる。

また、請求項１２にかかる発明によれば、ユーザから概念表現の指定を受け付け、指定された概念表現に基づいて、テキストカテゴリーを生成するので、ユーザの希望に沿ったカテゴリーを生成することができる。すなわち、テキスト集合に含まれる概念を自由に探索し、分析や処理に必要な概念を発見し、その概念を用いてカテゴリーを生成し、カテゴリーの意味的な関係構造を生成することができる。従って、ユーザに必要なカテゴリー構造を容易に生成することができるので、ユーザによる発見などを目的とした定性的分析にも利用することができるという効果を奏する。

また、請求項１３にかかる発明によれば、ユーザから概念表現の指定を受け付け、指定された概念表現に基づいて、テキストカテゴリーを生成するので、ユーザの希望に沿ったカテゴリーを生成することができる。すなわち、テキスト集合に含まれる概念を自由に探索し、分析や処理に必要な概念を発見し、その概念を用いてカテゴリーを生成し、カテゴリーの意味的な関係構造を生成することができる。従って、ユーザに必要なカテゴリー構造を容易に生成することができるので、ユーザによる発見などを目的とした定性的分析にも利用することができるという効果を奏する。

以下に添付図面を参照して、この発明にかかる文書処理装置、文書処理方法、および文書処理プログラムの好適な実施の形態を詳細に説明する。

（実施の形態１）
図１は、この発明の実施の形態１である文書処理装置１の構成を示すブロック図である。文書処理装置１は、本実施の形態において特徴的なカテゴリー生成処理を行うカテゴリー処理部１０と、テキストデータ構造記憶部１２と、概念表現記憶部１３と、テキストカテゴリー記憶部１４と、指示受付部１５と、モニタ１６とを備えている。

ここで、概念表現とは、ある意味を有する１つまたは２以上の単語の組み合わせのことである。また、テキストカテゴリーとは、テキスト集合に含まれる複数のテキストデータを分類するためのカテゴリーである。例えば、ソフトウェアというテキストカテゴリーには、「ソフトウェア」という単語を含むテキストデータを管理するテキストカテゴリーと、「ハードウェア」という単語を含むテキストデータを管理するテキストカテゴリーとを生成した場合には、テキスト集合に含まれる複数のテキストデータを、「ソフトウェア」という単語を含むテキストデータと、「ハードウェア」という単語を含むテキストデータとに分類することができる。

なお、「ソフトウェア」及び「ハードウェア」のいずれの単語も含むテキストデータは、いずれのテキストカテゴリーにも属することになる。

テキストデータ構造記憶部１２は、カテゴリー処理部１０が生成したテキストデータ構造を記憶している。概念表現記憶部１３は、カテゴリー処理部１０が生成した概念表現を記憶している。テキストカテゴリー記憶部１４は、カテゴリー処理部１０が生成したテキストカテゴリーを記憶している。

指示受付部１５は、ユーザからの指定を受け付けて、カテゴリー処理部１０に送る。指示受付部１５は、具体的にはマウスやキーボードなどのユーザインターフェースであってもよい。モニタ１６は、カテゴリー処理部１０から受け取った画像を表示する。

カテゴリー処理部１０は、テキストデータ取得部１０１と、言語処理部１２０と、概念表現表示部１０３と、テキストカテゴリー生成部１０４と、テキストカテゴリー表示部１０５と、テキストデータ管理部１０６と、テキストデータ表示部１０７とを有している。

テキストデータ取得部１０１は、外部からテキスト集合を取得し、言語処理部１２０に送る。ここで、テキスト集合とは，複数のテキストデータを含む集合のことである。言語処理部１２０は、テキストデータ取得部１０１からテキストデータを取得する。そして、取得したテキストデータに含まれる言語を解析し、テキストデータの構造を編集し、新たなテキストデータ構造を生成する。そして、生成したテキストデータ構造をテキストデータ構造記憶部１２に格納する。テキストデータ取得部１０１はまた、テキストデータから概念表現を抽出し、抽出した概念表現を概念表現記憶部１３に格納する。概念表現表示部１０３は、言語処理部１２０が生成した概念表現をモニタ１６に表示させる。

テキストカテゴリー生成部１０４は、言語処理部１２０が生成した概念表現に基づいてテキストカテゴリーを生成する。テキストカテゴリー生成部１０４は、生成したテキストカテゴリーをテキストカテゴリー記憶部１４に格納する。テキストカテゴリー表示部１０５は、テキストカテゴリー生成部１０４が生成したテキストカテゴリーをモニタ１６に表示させる。

テキストデータ管理部１０６は、テキストデータ取得部１０１が取得したテキストデータを、テキストカテゴリー生成部１０４が生成したテキストカテゴリー毎に分配して管理する。

テキストデータ表示部１０７は、テキストデータ管理部１０６が管理するテキストデータをモニタ１６に表示させる。

図２は、図１を参照しつつ説明した言語処理部１２０の詳細な機能構成を示すブロック図である。言語処理部１２０は、言語解析部２０１と、テキストデータ構造生成部２０２と、概念表現抽出部２０４と、拡張概念表現検索部２０５とを含む。

言語解析部２０１は、テキストデータ取得部１０１から受け取ったテキストデータに含まれるすべての文を文節に分割し、各文節毎に言語解析する。具体的には、文節に含まれる単語を解析し、また文節間の係り受けの関係を解析する。テキストデータ構造生成部２０２は、言語解析部２０１における言語解析の結果に基づいてテキストデータの構造を編集し、編集後のテキストデータ構造をテキストデータ構造記憶部１２に格納する。

概念表現抽出部２０４は、テキストデータ構造記憶部１２に格納されているテキストデータ構造に基づいて、テキスト集合に含まれる概念表現を抽出する。概念表現を抽出する処理については、後に詳述する。拡張概念表現検索部２０５は、指示受付部１５を介してユーザから指定された概念表現を拡張した拡張概念表現をテキスト集合から検索する。ここで、拡張概念表現とは、独立した複数の概念表現に、所定の意味を有する単語を組み合わせたものである。

図３は、図２を参照しつつ説明した概念表現抽出部２０４の詳細な機能構成を示すブロック図である。概念表現抽出部２０４は、トークン抽出部２４１と、トークン間関係抽出部２４２と、概念表現生成部２４３とを含む。

トークン抽出部２４１は、テキストデータ構造記憶部１２からトークンを抽出する。ここで、トークンとは、それ自体で１つの意味を有する単語のことである。トークン間関係抽出部２４２は、トークン抽出部２４１が抽出したトークン同士の関係を抽出する。ここで、トークン間関係とは、各トークンを含む文節間の関係を示す情報である。

概念表現生成部２４３は、トークン抽出部２４１が抽出したトークンと、トークン間関係抽出部２４２が抽出したトークン間関係とに基づいて、テキスト集合に対する概念表現を生成する。

図４は、テキストデータ構造記憶部１２に格納されているテキストデータのテキストデータ構造を模式的に示している。

テキストデータ構造は、木構造である。テキストデータ構造記憶部１２に格納されているテキスト集合は、この木構造により管理されている。具体的には、「テキスト集合」ノードを親ノードとし、その子ノードとして、「テキストデータ」ノードが設けられている。さらに、「テキストデータ」ノードは、複数の「文」ノードを子ノードとして有する。また、各「文」ノードは、複数の「文節：ノードを有する。そして、各「文節」ノードは、複数の「単語」を子ノードとして有している。

図３に示す「テキスト集合」ノード４００は、「テキストデータ」ノード４０２を子ノードとして有している。「テキストデータ」ノード４０２は、複数の「文」ノード４０４ａ〜ｃを子ノードとして有している。また、「文」ノード４０４ａは、複数の「文節」ノード４０６ａ〜ｅを子ノードとして有している。さらに、「文節」ノード４０６ａは、「単語」ノード４０８ａ〜ｃを子ノードとして有している。

図５−１〜図５−３は、図４において説明した各ノードが有する情報を示している。図５−１に示すように、「テキストデータ」ノード４０２は、当該テキストデータに含まれている各文を識別する文ＩＤのリストを有している。また、図５−２に示すように、「文」ノード４０４は、当該文を識別する文ＩＤと、当該文に含まれている各文節を識別する文節ＩＤのリストとを有している。

さらに、図５−３に示すように、「文節」ノード４０６は、当該文節を識別する文節ＩＤと、当該文節に含まれている各単語を識別する単語ＩＤリストとを有している。「文節」ノード４０６は、係り文節ＩＤリストと、受け文節リストと、関係種類と、意図タグリストとをさらに有している。

ここで、図６を参照しつつ、係り文節、受け文節、および関係種類について説明する。図６は、「ソフトウェアのインストールが正常に実行できない」という文の、言語解析部２０１における言語解析の結果を示している。図６において、単語の区切りを「／」で表している。また、「自」は自立語を表し、「付」は、付属語を表している。また、図６においては、各文節間の「係り」と「受け」の関係を示している。「係り文節」と「受け文節」は、それぞれ対象となる文節が係る文節と、対象となる文節に係る文節に対応する。

図６に示すように、一の受け文節に対して、複数の文節が係り文節となる場合がある。そこで、係り文節ＩＤリストにより複数の文節をそれぞれ管理する。なお、一の係り文節を受ける受け文節は一つしかないので、文節ノードにおいては、受け文節ＩＤは１つのみ保持されている。

関係種類は、例えば、連体修飾の関係にあることを示す情報や、連用修飾の関係にあることを示す情報である。また例えば、関係種類は、各文節を結びつける助詞の種類を示す情報である。

次に、意図タグについて説明する。意図タグは、付加的な意味を示すタグであある。意図タグは、テキストデータ構造生成部２０２によって各語句または各文節に付与される。例えば、文節内の付属語などが特定の付加的な意味を表している場合に、その意味が意図タグとして付与される。具体的には、「打消」、「要望」、「可能」、および「疑問」の意味を示す意図タグは、文節内に含まれる所定の単語に付与される。

これらの意図タグと文節に含まれる単語との関係を図７に示す。に示すように、各意図タグは、意図タグを識別する意図タグＩＤと、文節内に含まれる単語とに対応付けられている。テキストデータ構造生成部２０２は、この関係に基づいて、所定に単語に意図タグを付与する。

なお、１つの文節に複数の意図タグが付与される場合もある。概念表現では、たとえば「できない」（「できる」＋「ない」）という文節に対して、「（+可能＋打消）」のように、２つの意図タグを付与してもよい。

また、「実行できない」（「実行」＋「できる」＋「ない」）という文節に対して、「実行（＋可能＋打消）」のように、意図タグを自立語に付与し、全体として１つの概念表現としてもよい。

図８は、テキストデータ構造記憶部１２に格納されている単語リストを示している。単語リストは、テキストデータ構造生成部２０２によって、言語解析部２０１の言語解析の結果に基づいて作成される。単語リストは、各単語を識別する単語ＩＤと、単語表記、品詞、出現頻度、出現文書数、および同期後代表表記を対応付けている。

ここで、出現頻度とは、テキスト集合において当該単語表記が出現した回数である。また、出現文書数とは、当該単語表記が含まれる文書の数である。また、同義語代表表記とは、同一意味内容を示す単語の代表的な表記のことである。例えば、「ソフトウェア」を示す単語として、テキスト集合中に、「ソフトウエア」、「ソフト」という単語が含まれている場合、これらの単語の同義語代表表記は「ソフトウェア」である。なお、いずれを同義語代表表記とするかは任意である。

図９は、テキストカテゴリー記憶部１４のデータ構成を示している。図９−１に示すように、テキストカテゴリー記憶部１４は、テキストカテゴリーを識別するテキストカテゴリーＩＤに対応付けて、テキストカテゴリー定義、所属テキストデータＩＤリスト、所属テキストデータ数、およびカテゴリーラベルを格納している。

ここで、テキストカテゴリー定義とは、テキストカテゴリーとして定めた概念表現である。また、所属テキストデータＩＤリストとは、当該テキストカテゴリーに属するテキストデータを識別するテキストデータＩＤのリストである。また、所属テキストデータ数は、当該テキストカテゴリーに属するテキストデータの数である。

図９−２は、所属テキストデータＩＤリストを示している。所属テキストデータＩＤリストは、テキストカテゴリーＩＤリストを識別するリストＩＤ４１０を親ノードとし、当該テキストカテゴリーに含まれるテキストデータＩＤ４１２ａ〜ｃを子ノードとする木構造で管理されている。

図１０は、本実施の形態にかかるカテゴリー処理部１０のカテゴリー生成処理を示すフローチャートである。また、図１１は、当該カテゴリー生成処理において、モニタ１６に表示される基本概念表示ブラウザ５００を示している。ユーザは、基本概念表示ブラウザ５００に表示された内容に従って、所望の条件等の指定を入力する。そして、カテゴリー処理部１０は、ユーザからの指定を指示受付部１５を介して取得し、指定に従ってテキストカテゴリーを生成する。

以下、図１０に沿ってカテゴリー処理部１０のカテゴリー生成処理について説明する。カテゴリー処理部１０のテキストデータ取得部１０１は外部からテキスト集合を取得する（ステップＳ１００）。次に、ユーザから指示受付部１５を介して部分集合指定を受け付けた場合には（ステップＳ１０２，Ｙｅｓ）、指定された部分集合を処理対象とする（ステップＳ１０３）。次に、言語処理部１２０は、概念表現を抽出する（ステップＳ１０４）。次に、概念表現表示部１０３は、言語処理部１２０が抽出した概念表現をモニタ１６に表示する（ステップＳ１０５）。

次に、ユーザから指示受付部１５を介して、概念表現の変更の指定を受け付けた場合には（ステップＳ１０６，Ｙｅｓ）、ユーザからの指定に従って、拡張概念表現を検索する（ステップＳ１１０）。そして、Ｓ１０５へ進む。

一方、概念表現変更の指定がない場合には（ステップＳ１０６、Ｎｏ）、次のステップに進む。

ユーザから、カテゴリー化の指定を受け付けると(ステップＳ１０８，Ｙｅｓ)、テキストカテゴリー生成部１０４は、テキストカテゴリーを生成する。具体的には、ユーザから指定された概念表現をカテゴリー定義とし、その概念表現を含むテキストデータを所属メンバーとするテキストカテゴリーを生成する。このとき、カテゴリーＩＤ、カテゴリー定義、所属テキストＩＤリスト、所属テキスト数、カテゴリーラベルを同時に記録する。なお、カテゴリーラベルはユーザにより指定される。

ユーザからテキストデータの表示の指定を受け付けると（ステップＳ１２８，Ｙｅｓ）、テキストデータ表示部１０７は、指定されたテキストカテゴリーに属するテキストデータをモニタ１６に表示する（ステップＳ１３０）。具体的には、テキストデータ管理部１０６は、指定されたテキストカテゴリーの所属テキストＩＤを検出し、テキストデータ構造記憶部１２に格納されているテキストデータ構造に基づいて、所属テキストＩＤにより特定されるテキストデータを抽出し、テキストデータ表示部１０７に送る。そして、テキストデータ表示部１０７は、受け取ったテキストデータを表示する。

また、ユーザから複合カテゴリー生成の指定を受け付けると(ステップＳ１３２，Ｙｅｓ)、テキストデータ管理部１０６は、ユーザから指定を受け付けた複数のテキストカテゴリーを合併して、一の複合カテゴリーを生成する(ステップＳ１３４)。

複合カテゴリーの生成において、カテゴリーの組み合わせは既存カテゴリーのカテゴリーＩＤの論理演算式で表すことができる。

本実施例では、複合カテゴリーとして、「複合ＡＮＤカテゴリー」「複合ＯＲカテゴリー」「複合ＮＯＴカテゴリー」を生成することができるものとする。

「複合ＡＮＤカテゴリー」は指定されたカテゴリーＩＤの「ＡＮＤ」をとるカテゴリーである。例えば、「カテゴリー１」、「カテゴリー３」、「カテゴリー５」が指定されている場合、「複合ＡＮＤカテゴリー」のカテゴリー定義は「１ＡＮＤ３ＡＮＤ５」となる。そして、所属テキストは、３つのカテゴリーの所属テキスト集合の積集合となる。

「複合ＯＲカテゴリー」は指定されたカテゴリーＩＤの「ＯＲ」をとるカテゴリーである。例えば、「カテゴリー１」、「カテゴリー３」、「カテゴリー５」が指定されている場合、「複合ＯＲカテゴリー」のカテゴリー定義は「１ＯＲ３ＯＲ５」となり、所属テキストは３つのカテゴリーの所属テキスト集合の和集合となる。

「複合ＮＯＴカテゴリー」は指定されたカテゴリーＩＤの「ＮＯＴ」をとるカテゴリーである。たとえばカテゴリー１、カテゴリー３、カテゴリー５が指定されている場合、「複合ＮＯＴカテゴリー」のカテゴリー定義は「ＮＯＴ(１ＯＲ３ＯＲ５)」となり、所属テキストは３つのカテゴリーの所属テキスト集合の和集合の否定となる。以上で、カテゴリー処理部１０のカテゴリー生成処理は完了する。

また、図１１に示した基本概念表示ブラウザ５００には、基本概念表現表示領域５１０と、拡張概念表現表示領域５１２，５１４と、カテゴリーリスト表現領域５４０と、ワークスペース５４１と、テキストブラウザ５４２とが設けられている。

基本概念表現領域５１０には、「基本概念表現」と、当該概念表現が含まれているテキストデータの数を示す「出現テキスト数」と、当該基本概念表現の品詞が表示されている。

なお、本実施の形態においては、「１単語」、「２単語」、「３単語」、「１単語（+意図タグ）」、「意図タグ」に分類される概念表現を抽出すべく予め設定されている。また、テキストデータ取得部１０１がテキストデータを取得すると、これらの分類の概念表現が予め抽出されて、概念表現記憶部１３に格納されている。そして、基本概念表現領域５１０には、概念表現はこれらの種類毎に分類されて表示されている。

また、テキスト集合によっては、包含する概念表現が膨大であって、概念表現リストが長大になる場合もある。そのため、このような場合でも、ユーザが容易に所望の概念表現を検索するための機能が要求される。そこで、本実施の形態においては、ユーザのリスト探索を支援するため、以下の表示制限指定を可能とする機能を設けている。
１．ユーザから指定された表記を含む単語で構成される概念表現を表示する
２．ユーザから指定された表記を含む単語で構成される概念表現以外の概念表現を表示する
３．テキスト数が指定数以上の概念表現を指定する
４．指定されたテキストに含まれる概念表現を表示する
５．指定された品詞の単語で構成される概念表現を表示する
これらの指定はユーザからの入力により実現される。

また、拡張概念表現表示領域５１２，５１４には、基本概念表現領域５１０に表示される概念表現のうち、ユーザから指定された概念表現に基づいて生成された拡張概念表現が表示される。具体的には、基本概念表現領域５１０においてユーザが所定の概念表現を指定し、基本概念表現領域５１０の右側に表示された「絞り込み」ボタン５２０を選択すると、拡張概念表現検索部２０５は、ユーザから指定された概念表現を入力として、拡張概念表現の検索を実行する。そして、概念表現表示部１０３が、指定した概念表現に基づいて定まる拡張概念表現を拡張概念表現表示領域５１２に表示させる。

さらに、ユーザが拡張概念表現表示領域５１２の右側に表示された「絞り込み」ボタン５２２を選択すると、拡張概念表現表示領域５１２においてユーザから指定された拡張概念表現を入力として、さらに拡張概念表現の検索が実行される。このように、多様な概念表現を検索し、テキストカテゴリーとして指定することができる。

また、ユーザから、カテゴリー化の機能が選択されると、テキストデータ管理部１０６は、ユーザから指定された概念表現のテキストカテゴリーを生成し、当該テキストカテゴリーに該当するテキストデータを、指定された概念表現のテキストカテゴリーに属するテキストデータとして管理する。

ユーザは、基本概念表示ブラウザ５００において、所望の概念表現をカテゴリーとして指定することができる。指定の方法としては、例えば、メニュー画面を表示させ、その中に表示されるカテゴリー化という機能を選択する。また、他の方法としては、ユーザは所望の概念表現を選択し、カテゴリーを表示するカテゴリー表示領域５４０にドラッグアンドドロップすることにより、実現してもよい。

また、カテゴリーリスト表現領域５４０、ワークスペース５４１には、テキストカテゴリー生成部１０４によって生成されたテキストカテゴリーのカテゴリーリストが表示されている。ワークスペース５４１には、テキストカテゴリーがグラフィカル表示されている。

既存のカテゴリーを組み合わせて新たなテキストカテゴリー、すなわち複合カテゴリーを生成する場合、ユーザは、カテゴリーリスト表現領域５４０において、所望のテキストカテゴリーを選択する。この場合、テキストデータ管理部１０６は、指示受付部１５を介して、複数のテキストカテゴリーの指定を受け付け、これらのテキストカテゴリーを含む複合カテゴリーを生成する。カテゴリー表示部上で空の複合カテゴリー（ＡＮＤ，ＯＲ，ＮＯＴ）を作成し、他のカテゴリーを複合カテゴリーにドラッグアンドドロップするなどの方法で複合カテゴリーを生成することができる。

また、テキストブラウザ５４２には、生成された各テキストカテゴリーに分配されたテキストデータが表示される。基本概念表示ブラウザ５００において、ユーザから生成したテキストカテゴリーが指定されると、テキストデータ表示部１０７は、指示受付部１５を介してテキストを表示する旨の指定を受け付け、指定されたテキストカテゴリーの属するテキストデータをテキストブラウザ５４２に表示させる。

さらに、基本概念表現領域５１０等の上部に表示されたの「対象カテゴリー指定」の入力欄５３０に、ユーザから対象となるカテゴリーが入力されると、入力されたカテゴリーに属するテキストデータで構成されるテキスト集合に含まれる概念表現が表示される。このように、対象とすべきテキストデータを指定することができる。

また、基本概念表示ブラウザ５００において、表示された概念表現が指定され、さらに当該概念表現を含むテキストデータの表示の指定を受け付けると、指定された概念表現を含むテキストデータを基本概念表示ブラウザ５００に表示させる。

以上のようにユーザは、ユーザインターフェースを利用して、簡単な操作によりカテゴリー生成処理に関する指定を行うことができる。

次に、図１２を参照しつつ、図１０において説明した概念表現抽出処理（ステップＳ１０４）における言語処理部１２０の詳細な動作について説明する。まず、言語解析部２０１は、形態素解析を行う（ステップＳ２００）。言語解析部２０１は、さらに係り受け解析を行う（ステップＳ２０２）。

ここで、形態素解析とは、テキスト集合の各テキストデータに含まれる単語の解析のことである。形態素解析では、具体的には、言語解析部２０１はテキスト集合に含まれる各テキストデータを文章に分割し、さらに各文章を文単位に分割する。さらに、各文を文節に分割し、文節を単語に分割する。そして、各単語を解析する。

また、係り受け解析とは、テキストデータに含まれる文節の係り受けの解析である。各文節に対し、係り文節と、受け文節とを抽出する処理である。

次に、テキストデータ構造生成部２０２は、言語解析部２０１による形態素解析および係り受け解析の結果に基づいて、テキストデータ構造を生成する（ステップＳ２０４）。そして、概念表現抽出部２０４のトークン抽出部２４１は、テキストデータ構造生成部２０２が生成したテキストデータ構造から、トークンを抽出する（ステップＳ２０８）。そして、トークン間関係抽出部２４２は、テキストデータ構造生成部２０２が生成したテキストデータ構造から、トークン間関係を抽出する（ステップＳ２１０）。次に、概念表現生成部２４３は、トークンと、トークン間関係とに基づいて概念表現を生成する（ステップＳ２１０）。

図１３は、図１２において説明したトークン間関係抽出処理（ステップＳ２０８）における概念表現生成部２４３の詳細な処理を示すフローチャートである。概念表現生成部２４３は、テキストデータに含まれる文を、文ＩＤの順番で処理する。また、各文に含まれる文節は、文節ＩＤの順で処理する（ステップＳ３００）。文節Ｋｍが係り文節となる受け文節Ｋｘを検索する。受け文節Ｋｘが存在する場合（ステップＳ３０２、Ｙｅｓ）、現在対象としている文節Ｋｍと検索によりヒットした受け文節Ｋｘとの間に「文節Ｋｍ⇒文節Ｋｘ」という関係を生成する（ステップＳ３０４）。ここで、「文節Ｋｍ⇒文節Ｋｘ」は、トークン間関係である。

次に、文節Ｋｘが係り文節となる受け文節Ｋｙを検索する。係り文節Ｋｙが存在する場合（ステップＳ３０６，Ｙｅｓ）、現在対象としている文節Ｋｍと検索によりヒットした係り文節Ｋｙとの間に「文節Ｋｍ⇒・・・⇒文節Ｋｘ⇒文節Ｋｙ」という関係を生成する（ステップＳ３０８）。以上の処理を対象とする文Ｓｎに含まれる最後の文節まで繰り返す（ステップＳ３１０）。さらに、以上の処理を対象とするテキストデータに含まれる全ての文について行う（ステップＳ３１２）。以上で、トークン間関係抽出部２４２によるトークン間関係抽出処理が完了する。

ここで、図６に示した「ソフトウェアのインストールが正常に実行できない」という文からトークン間関係を抽出する場合の、具体的な処理について説明する。トークン抽出部２４１はテキストデータ構造記憶部１２に記憶されているテキストデータ構造内の文節に含まれる単語情報から、自立語品詞の単語を抽出し、トークンとする。本実施例では、言語解析時に１文節１自立語となるように解析をしているので、文節内の自立語をトークンとして利用することができる。トークンとして以下の4個が抽出される。
トークン１：ソフトウェア
トークン２：インストール
トークン３：正常
トークン４：実行

この場合、例えば、図６に示す文節２から生成される概念表現基本単位は、文節１及び文節４から生成される概念表現基本単位と関係があり、以下のような２つの関係表現が抽出される。
文節１基本単位⇒文節２基本単位
文節２基本単位⇒文節４基本単位

概念表現基本単間関係は３個以上あってもよい。この場合、図６に示す文からは以下の４個の概念表現基本単位間関係が抽出される。
概念表現基本単位間関係１：文節１⇒文節２
概念表現基本単位間関係２：文節２⇒文節４
概念表現基本単位間関係３：文節３⇒文節４
概念表現基本単位間関係４：文節１⇒文節２⇒文節４

概念表現は、概念表現基本単位および概念表現基本単位間関係により生成するので、以下の８個の概念表現が生成される。
概念表現１（文節１トークン）：ソフトウェア
概念表現２（文節２トークン）：インストール
概念表現３（文節３トークン）：正常
概念表現４（文節４トークン）：実行
概念表現５（概念表現基本単位間関係１）：ソフトウェア⇒インストール
概念表現６（概念表現基本単位間関係２）：インストール⇒実行
概念表現７（概念表現基本単位間関係３）：正常⇒実行
概念表現８（概念表現基本単位間関係４）：ソフトウェア⇒インストール⇒実行

図１４は、図１０において説明した拡張概念表現検索処理（ステップＳ１１０）における拡張概念表現検索部２０５の詳細な動作を示すフローチャートである。拡張概念表現検索部２０５は、各文に含まれる各文節に対して、順番に概念表現の検索を行う(ステップＳ４００)。

まず、拡張概念表現検索部２０５は、文節Ｋｊから、概念表現基本単位ＣＥｎを検索する。文節Ｋｊに、概念表現基本単位ＣＥｎが含まれている場合には(ステップＳ４０２，Ｙｅｓ)、さらに、次の概念表基本単位ＣＥ（ｎ＋１）を検索する(ステップＳ４０２〜Ｓ４１０)。

そして、拡張概念表現基本単位に含まれる最後の概念表現基本単位まで検索した場合（Ｓ４０６，Ｙｅｓ、Ｓ４２０）、および、文節Ｋｊに概念表現基本単位が含まれていない場合(ステップＳ４０２，Ｎｏ)、さらに次の文節に対して、上記処理を繰り返す(ステップＳ４３０)。さらに、以上の処理をテキストに含まれる全ての文に対して繰り返す(ステップＳ４３２)。以上で、拡張概念表現検索部２０５による拡張概念表現検索処理が完了する。

また、拡張概念の抽出を行う際に、ユーザは、追加する概念表現基本単位のトークンの品詞を指定することができる。この場合は拡張概念表現パターンを検索する際に、拡張部分（[ＸＸＸ]，[ＹＹＹ]）の適合条件に指定された品詞情報を利用すればよい。

さらにまた、拡張概念の抽出を行う際に、追加する概念表現基本単位を、ユーザが概念表現基本単位間の関係である文節間関係を指定することにより選択することができる。この場合は、拡張概念表現パターンを検索する際に、拡張部分（[ＸＸＸ]，[ＹＹＹ]）の適合条件に指定された文節関係情報を利用すればよい。

ここで、拡張概念表現の検出方法について、具体的に説明する。概念表現の拡張は、１）意図表現の追加による拡張と、２）概念表現基本単位の追加による拡張の２通りが考えられる。

１）意図表現の追加による拡張
意図表現による拡張とは、指定された概念表現に含まれる概念表現基本単位に対して、意図表現を追加することで拡張する。図６に示した文の場合、指定概念表現として「インストール⇒実行」が指定されると、意図表現により拡張された概念表現として以下の概念表現を抽出する。
拡張概念表現１：「インストール⇒実行（＋可能）」
拡張概念表現２：「インストール⇒実行（＋打消）」
拡張概念表現３：「インストール⇒実行（＋可能＋打消）」

具体的には、拡張概念表現検索部２０５は、テキストデータ構造記憶部１２に記憶されているテキストデータ構造から、指定された概念表現と適合する構造を検索する。拡張概念表現検索部２０５は、図１４において説明した処理に沿って、指定概念表現として「インストール⇒実行」が指定されると、「文節２⇒文節４」というテキストデータ構造を検出する。なお、図１４において説明した処理は、１つのテキストデータに対する処理であるが、複数のテキストデータを対象とする場合は各テキストに対して、この拡張概念表現抽出処理を行う。

次に、検索されたテキストデータ構造すべてに対して、その文節情報から、意図表現の拡張により拡張概念表現を抽出する。すなわち、検索された「文節２」と「文節４」の意図表現情報を参照し、指定概念表現に含まれていない意図表現を追加した拡張概念表現を生成する。「文節２」には意図表現情報はなく、「文節４」には「＋可能＋打消」という情報があるので、意図表現の組み合わせのバリエーションにより、以下の３つの拡張概念表現が抽出される。
拡張概念表現１：「インストール⇒実行（＋可能）」
拡張概念表現２：「インストール⇒実行（＋打消）」
拡張概念表現３：「インストール⇒実行（＋可能＋打消）」
抽出された拡張概念表現は、概念表現記憶部１３に記憶される。その際に、出現頻度や出現テキスト数を計数して管理する。

なお、拡張概念表現抽出処理においては、ユーザは概念表現内の概念表現基本単位を指定することができる。この場合には、ユーザから指定された概念表現基本単位に対応する文節情報にのみ基づいて拡張概念表現を抽出する。

また、拡張概念表現抽出処理においては、ユーザは、拡張する意図表現の種類を指定することができる。この場合には、ユーザから指定された意図表現についてのみ拡張概念表現を抽出する。たとえば上記例において、意図表現として「＋可能」が指定されていた場合、「インストール⇒実行（＋可能）」だけを拡張概念表現として抽出する。

２）概念表現基本単位の追加による拡張
指定された概念表現に新たな概念表現基本単位を追加して、新たに拡張概念表現を生成することも可能である。図６に示す文の場合、指定概念表現として「インストール」が指定されると、概念表現基本単位の追加により拡張された概念表現として以下の概念表現を抽出する。
拡張概念表現１：「ソフトウェア⇒インストール」
拡張概念表現２：「インストール⇒実行」
拡張概念表現３：「インストール⇒実行（＋可能）」
拡張概念表現４：「インストール⇒実行（＋打消）」
拡張概念表現５：「インストール⇒実行（＋可能＋打消）」
拡張概念表現６：「ソフトウェア⇒インストール⇒実行」
拡張概念表現７：「ソフトウェア⇒インストール⇒実行（＋可能）」
拡張概念表現８：「ソフトウェア⇒インストール⇒実行（＋打消）」
拡張概念表現９：「ソフトウェア⇒インストール⇒実行（＋可能＋打消）」

追加する概念表現基本単位の数は任意であるが、拡張の処理は繰り返し行うことができるので、通常は概念表現基本単位を1つ追加した拡張概念表現を抽出するようにしてもよい。

また、例えば「インストール⇒実行」という概念表現が指定されている場合、1つ概念表現基本単位を追加する場合、次の３つのパターンが考えられる。
パターン1 ＸＸＸ⇒インストール⇒実行
パターン２インストール⇒実行⇒ＸＸＸ
パターン３インストール⇒ＸＸＸ⇒実行
ここで、「ＸＸＸ」は、任意の概念表現基本表現である。パターン１，２の場合、指定された概念表現の前後に概念表現基本表現を追加すればよい。しかし、パターン３の場合は、指定された概念表現に含まれる概念表現基本単位間に新たな概念表現基本単位を追加するので、指定された概念表現自体も変更してしまう。そのため指定された概念表現の意味が変わってしまう可能性がある。

パターン３の場合には、拡張を行わないように設定してもよい。また、拡張を行うように設定する場合には、変更される可能性があることをユーザに認識しておいてもらう必要がある。そのため、この場合には，例えば、基本概念表示ブラウザ５００において、その旨を表示しておくのが望ましい。また、パターン３の場合の拡張は、追加する概念表現基本単位との関係が特定の係り受け関係（たとえば複合関係）の場合にのみ行うように設定してもよい。

概念表現基本単位の追加による拡張は以下の手順で行われる。

１．指定された概念表現の拡張パターンの生成
指定された概念表現に含まれる概念表現基本単位間に新たな概念表現基本単位を追加した拡張概念表現のパターンを生成する。例えば、「インストール」という概念表現が指定されており、概念基本表現を１つ追加する場合は、以下のような拡張概念表現パターンを生成する。
拡張概念表現パターン１：「ＸＸＸ⇒インストール」
拡張概念表現パターン２：「インストール⇒ＸＸＸ」

概念基本表現を２つ追加する場合は、以下のような拡張概念表現パターンを生成する。
拡張概念表現パターン１：「ＸＸＸ⇒ＹＹＹ⇒インストール」
拡張概念表現パターン２：「インストール⇒ＸＸＸ⇒ＹＹＹ」
また例えば、「インストール⇒実行」という概念表現が指定されている場合、概念基本表現を１つ追加する場合は、以下のような拡張概念表現パターンを生成する。
拡張概念表現パターン１：「ＸＸＸ⇒インストール⇒実行」
拡張概念表現パターン２：「インストール⇒実行⇒ＸＸＸ」
拡張概念表現パターン３：「インストール⇒ＸＸＸ⇒実行」

概念基本表現を２つ追加する場合は、以下のような拡張概念表現パターンを生成する。
拡張概念表現パターン１：「ＸＸＸ⇒ＹＹＹ⇒インストール⇒実行」
拡張概念表現パターン２：「ＸＸＸ⇒インストール⇒ＹＹＹ⇒実行」
拡張概念表現パターン３：「インストール⇒ＸＸＸ⇒ＹＹＹ⇒実行」
拡張概念表現パターン４：「インストール⇒ＸＸＸ⇒実行⇒ＹＹＹ」
拡張概念表現パターン５：「インストール⇒実行⇒ＸＸＸ⇒ＹＹＹ」

２．拡張概念表現パターンと適合するテキストデータ構造の検索
テキストデータ構造記憶部１２に記憶されているテキストデータ構造から、１．で生成した拡張概念表現パターンと適合する構造を検索する。このとき、１．で生成した拡張概念パターンの拡張部分（「ＸＸＸ」「ＹＹＹ」）は任意の文節に適合するものとして検索を行う。複数テキストを対象とする場合は各テキストに対してこの処理を行う。

図６に示したテキストの場合、指定概念表現として「インストール」、追加する概念表現基本単位の数を1とすると、拡張概念表現パターンとして以下のパターンが生成され、
拡張概念表現パターン１：「ＸＸＸ⇒インストール」
拡張概念表現パターン２：「インストール⇒ＸＸＸ」
以下のテキストデータ構造が適合する。
拡張概念表現パターン１：「文節１⇒文節２」
拡張概念表現パターン２：「文節２⇒文節４」

３．検索されたテキストデータ構造に基づいた拡張概念表現の抽出
検索されたテキストデータ構造のすべてに対して、その文節情報のトークン、意図表現情報に基づいて拡張概念表現を抽出する。テキストデータ構造「文節１⇒文節２」からは、
拡張概念表現１：「ソフトウェア⇒インストール」
が抽出され、テキストデータ構造「文節２⇒文節４」からは、
拡張概念表現２：「インストール⇒実行」
拡張概念表現３：「インストール⇒実行（＋可能）」
拡張概念表現４：「インストール⇒実行（＋打消）」
拡張概念表現５：「インストール⇒実行（＋可能＋打消）」
が抽出される。

拡張概念表現を抽出する際は、意図表現の組み合わせのバリエーションをすべて生成してもかまわないが、抽出する拡張概念表現の種類が増えてしまう問題もある。そのため、概念表現基本単位の追加による拡張は、トークン情報だけで行い（拡張概念表現１、２だけを抽出する）、意図表現の情報が知りたい場合は、抽出された拡張概念表現に対して「意図表現による拡張」を行うように設定しておいてもよい。

４．抽出した拡張概念表現の記録
抽出された拡張概念表現をテキストカテゴリー記憶部１４に記憶する。その際に、出現頻度や出現テキスト数を計数して管理する。

図１５は、カテゴリー処理部１０のハードウェア構成を示す図である。カテゴリー処理部１０は、ハードウェア構成として、カテゴリー処理部１０におけるカテゴリー生成処理を実行するプログラムなどが格納されているＲＯＭ５２、ＲＯＭ５２内のプログラムに従ってカテゴリー処理部１０の各部を制御し、カテゴリー生成処理等を実行するＣＰＵ５１、ワークエリアが形成され、カテゴリー処理部１０の制御に必要な種々のデータが記憶されているＲＡＭ５３、ネットワークに接続して、通信を行う通信I／Ｆ５７、および各部を接続するバス６２を備えている。

先に述べたカテゴリー処理部１０における文書管理処理を実行するカテゴリー生成処理プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、フロッピー（Ｒ）ディスク（ＦＤ）、ＤＶＤ等のコンピュータで読み取り可能な記録媒体に記録されて提供される。

また、本実施形態のカテゴリー生成処理プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。

この場合には、カテゴリー生成処理プログラムは、カテゴリー処理部１０において上記記録媒体から読み出して実行することにより主記憶装置上にロードされ、上記ソフトウェア構成で説明した各部が主記憶装置上に生成されるようになっている。

以上述べたカテゴリー処理部１０のカテゴリー生成処理は、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、フロッピー（Ｒ）ディスク、ＤＶＤ等のコンピュータで読み取り可能な記録媒体に記録されて提供される。

本実施形態にかかるカテゴリー生成処理プログラムは、カテゴリー処理部１０で上記記録媒体から読み出して実行することにより主記憶装置上にロードされ、上記ソフトウェア構成で説明した各部が主記憶装置上に生成されるようになっている。

以上、本発明を実施の形態を用いて説明したが、上記実施の形態に多様な変更または改良を加えることができる。

そうした第１変更例としては、本実施の形態にかかるカテゴリー処理部１０の概念表現抽出部２０４は、トークン抽出部２４１、トークン間関係抽出部２４２、および概念表現生成部２４３を有しているが、これにかえて、意図表現抽出部２５１、意図表現間関係抽出部２５２、および概念表現生成部２５３を有してもよい。本例にかかる概念表現抽出部２０４を図１６に示す。

本例にかかる概念表現抽出部２０４は、概念表現基本単位として意図表現を利用する。意図表現抽出部２５１は、テキストデータ構造記憶手段の情報から各文節に対して意図表現を抽出する。具体的には、文節内の単語情報から、特定の表現パターンを抽出し、意図表現情報を生成する。たとえば「打消」「要望」「疑問」「可能」という意図表現は、下記のような単語あるいは表現パターンが含まれている場合に抽出することができる。
意図表現「打消」：助動詞「ない」、助動詞「ず」、助動詞「まい」、補助助動詞「にくい」
意図表現「要望」：助動詞「たい」
意図表現「疑問」：終助詞「か」、終助詞「か」＋終助詞「な」、記号「？」
意図表現「可能」：補助動詞「できる」、助動詞「れる」、助動詞「られる」

また、「ソフトウェアのインストールが正常に実行できない」という文に対しては、意図表現として以下のものが抽出される。
意図表現１：（＋可能＋打消）

また、文節から抽出された意図表現を組み合わせることで意図表現を生成することもできる。その場合、上記の文からは以下の意図表現が抽出される。
意図表現１：（＋可能）
意図表現２：（＋打消）
意図表現３：（＋可能＋打消）

「ソフトウェアのインストールが正常に実行できない」という文の各文節からは以下の意図表現が抽出される。
文節１意図表現：なし
文節２意図表現：なし
文節３意図表現：なし
文節４意図表現：（＋可能＋打消）

文節１、２、３からは意図表現は抽出されないため、概念表現は以下の１個が生成される。
概念表現１（文節４意図表現）：（＋可能＋打消）

また、意図表現を文節から抽出された意図表現を組み合わせることで生成する場合は、各文節からは以下の意図表現が抽出される。
文節１意図表現：なし
文節２意図表現：なし
文節３意図表現：なし
文節４意図表現１：（＋可能）
文節４意図表現２：（＋打消）
文節４意図表現３：（＋可能＋打消）

この場合、概念表現として、以下のものが生成される。
概念表現１（文節４意図表現１）：（＋可能）
概念表現２（文節４意図表現２）：（＋打消）
概念表現３（文節４意図表現３）：（＋可能＋打消）

なお、概念表現抽出部２０４が拡張概念の抽出処理を行う際に、ユーザは、追加する概念表現基本単位の数を指定することができる。この場合は、概念表現抽出部２０４は、指定された数の概念表現基本単位を追加した場合の拡張概念表現パターンを生成する。

このように、本例の概念表現抽出部２０４によれば、意図表現と、意図表現間関係に基づいて、概念表現を生成することができる。

第２の変更例としては、本実施の形態にかかるカテゴリー処理部１０の概念表現抽出部２０４は、トークン抽出部２４１、トークン間関係抽出部２４２、および概念表現生成部２４３を有しているが、これにかえて、トークン抽出部２６１、意図表現抽出部２６２、概念表現基本単位生成部２６３、概念表現基本単位間関係抽出部２６４、および概念表現生成部２６５を有してもよい。本例にかかる概念表現抽出部２０４を図１７に示す。

本例にかかる概念表現抽出部２０４は、概念表現基本単位としてトークンと意図表現の組み合わせを利用する。図１７の概念表現基本単位生成部２６３は、トークン抽出部２６１と意図表現抽出部２６２からそれぞれ、トークンと、意図表現とを受け取り、これらに基づいて概念表現基本単位を生成する。ここで、概念表現基本単位は１つの文節に対応する。例えば、「実行できない」という文節に対して、トークン抽出部２６１によりトークンとして「実行」が抽出され、意図表現抽出部２６２により意図表現として「（＋可能＋打消）」が抽出される。概念表現基本単位生成部２６３では、これらを組み合わせた概念表現基本単位として「実行（＋可能＋打消）」を生成する。

「ソフトウェアのインストールが正常に実行できない」という文の場合、概念表現基本単位として以下のものが生成される。
概念表現基本単位１：ソフトウェア
概念表現基本単位２：インストール
概念表現基本単位３：正常
概念表現基本単位４：実行（＋可能＋打消）

また、意図表現を文節から抽出された意図表現を組み合わせることで生成する場合は、以下のものが概念表現基本単位として生成される。
概念表現基本単位１：ソフトウェア
概念表現基本単位２：インストール
概念表現基本単位３：正常
概念表現基本単位４：実行
概念表現基本単位４：実行（＋可能）
概念表現基本単位４：実行（＋打消）
概念表現基本単位４：実行（＋可能＋打消）

また、各文節からは以下の概念表現基本単位が抽出される。
文節１概念表現基本単位：ソフトウェア
文節２概念表現基本単位：インストール
文節３概念表現基本単位：正常
文節４概念表現基本単位：実行（＋可能＋打消）

概念表現は、概念表現基本単位および概念表現基本単位間関係により生成するので、以下の８個の概念表現が生成される。
概念表現１（文節１概念表現基本単位）：ソフトウェア
概念表現２（文節２概念表現基本単位）：インストール
概念表現３（文節３概念表現基本単位）：正常
概念表現４（文節４概念表現基本単位）：実行（＋可能＋打消）
概念表現５（概念表現基本単位間関係１）：ソフトウェア⇒インストール
概念表現６（概念表現基本単位間関係２）：インストール⇒実行（＋可能＋打消）
概念表現７（概念表現基本単位間関係３）：正常⇒実行（＋可能＋打消）
概念表現８（概念表現基本単位間関係４）：ソフトウェア⇒インストール⇒実行（＋可能＋打消）

また、意図表現を文節から抽出された意図表現を組み合わせることで生成する場合は、以下のものが概念表現基本単位として生成される。
文節１概念表現基本単位１：ソフトウェア
文節２概念表現基本単位２：インストール
文節３概念表現基本単位３：正常
文節４概念表現基本単位４：実行
文節４概念表現基本単位５：実行（＋可能）
文節４概念表現基本単位６：実行（＋打消）
文節４概念表現基本単位７：実行（＋可能＋打消）
その場合、概念表現は以下のものが生成される。
概念表現１（文節１概念表現基本単位１）：ソフトウェア
概念表現２（文節２概念表現基本単位２）：インストール
概念表現３（文節３概念表現基本単位３）：正常
概念表現４（文節４概念表現基本単位４）：実行
概念表現５（文節４概念表現基本単位５）：実行（＋可能）
概念表現６（文節４概念表現基本単位６）：実行（＋打消）
概念表現７（文節４概念表現基本単位７）：実行（＋可能＋打消）
概念表現８（概念表現基本単位間関係１）：ソフトウェア⇒インストール
概念表現９（概念表現基本単位間関係２）：インストール⇒実行
概念表現１０（概念表現基本単位間関係２）：インストール⇒実行（＋可能）
概念表現１１（概念表現基本単位間関係２）：インストール⇒実行（＋打消）
概念表現１２（概念表現基本単位間関係２）：インストール⇒実行（＋可能＋打消）
概念表現１３（概念表現基本単位間関係３）：正常⇒実行
概念表現１４（概念表現基本単位間関係３）：正常⇒実行（＋可能
概念表現１５（概念表現基本単位間関係３）：正常⇒実行（＋打消）
概念表現１６（概念表現基本単位間関係３）：正常⇒実行（＋可能＋打消）
概念表現１７（概念表現基本単位間関係４）：ソフトウェア⇒インストール⇒実行
概念表現１８（概念表現基本単位間関係４）：ソフトウェア⇒インストール⇒実行（＋可能）
概念表現１９（概念表現基本単位間関係４）：ソフトウェア⇒インストール⇒実行（＋打消）
概念表現２０（概念表現基本単位間関係４）：ソフトウェア⇒インストール⇒実行（＋可能＋打消）

なお、概念表現抽出部２０４が拡張概念の抽出を行う際に、ユーザは、概念表現基本単位を追加する方向（前方か後方か）を指定することができる。この場合は、概念表現抽出部２０４は、指定された方向に対して概念表現基本単位を追加した場合の拡張概念表現パターンを生成する。

第３の変更例としては、基本概念を表示する場合に、表示順を並べ替えてもよい。この場合、ユーザは、図１８に示す選択画面６００を参照しつつ並べ替えの規則を指定する。ユーザからの入力は、指定受付部１５を介してｑ０１０に入力される。そして、概念表現表示部１０３は、は、指示受付部１０５を介して取得した指示に基づいて、表示すべき概念表現を並べ替え、並べ替えた状態で、複数の概念表現を表示させる。なお、本実施の形態にかかる概念表現表示部１０３は、本発明にかかる表示編集手段を構成する。

図１８に示す選択画面６１０には、並べ替えの基準となる概念表現の基本単位属性の指定を受け付ける指定入力領域６１２ａ，６１２ｂ，６１２ｃが設けられている。

図１９は、並べ替えの対象となる概念表現のリストを示している。なお、図１９に示す並べ替えリストにおいては、各行に各文書データが各行に並べられている。図２０は、図１９に示す概念表現リストを、第１の概念表現により並べ替えた後の表示概念リストを示している。図１８に示す選択が面６００において第１キーとして、第１基本単位を選択すると、図１９に示す第１基本単位による並べ替えを行う。これにより、図２０に示すように、第１基本単位は、５０音順に並べ替えが行われる。

図２１は、第２基本単位により並べ替えが行われた後の基本概念リストを示している。図２２は、第３基本単位により並べ替えが行われた後の基本概念リストを示している。このように、所望の基本単位を基準に並べ替えることができる。

また、図２３は、第１基本単位で並べ替え、その後さらに第３基本単位により並べ替えた後の基本概念リストを示している。このように、複数の基本単位に基づいて並べ替えてもよい。このように、複数の基本単位により並べ替えることもできる。

以上のように、ユーザが希望する基本単位を基準に、基本概念リストを再配列することができるので、利便性を向上させることができる。

第４の変更例としては、概念表現を含む文書を表示する場合に、所定の基本概念の表示位置をそろえて表示してもよい。

図２４に示す選択画面６２０には、揃えるべき概念表現の指定を受け付ける指定入力領域６２２が設けられている。図２５は、概念表現リストを「安い」という概念表現で揃えた後の概念表現のリストを示している。また、図２６は、概念リストを「カメラ」という概念表現で揃えた後の概念表現のリストを示している。

以上のように、所望の概念表現でそろえて複数の文書を表示することができ、利便性を向上させることができる。

第５の変更例としては、概念表現のうち、すでにカテゴリー化されている概念表現を表示する場合に、当該概念表現を、他の概念表現と異なる表現形態で表現してもよい。

例えば、図２７は、カテゴリー化された概念表現が表示される行の背景の模様を異ならせている。これ以外にも概念表現の文字自体の色を変えてもよい。また、背景の色を異ならせてもよい。

更に他の例としては、文字の色、文字の大きさ、ゴシック、明朝などの表示フォント、太文字、イタリック体などの字体、下線の有無、点滅表示の有無等により、カテゴリー化における利用の有無を表示してもよい。

以上のように、カテゴリー化における利用の有無により概念表現の表示形態を異ならせることにより、視認により、いずれの概念表現をカテゴリー化に利用したかを容易に把握することができ、利便性を向上させることができる。

なお、カテゴリー化されているかどうかは、表示する概念表現と図1-14テキストカテゴリー記憶部に記憶されているカテゴリーのカテゴリー定義とのマッチングを取ることで調べることができる。

第６の変更例としては、拡張概念表現を検索し、検索結果としての拡張概念表現を表示する場合には、検索のために指定された概念表現とマッチする部分の表示形態を異ならせてもよい。

図２８および図２９は、拡張概念表現の検索結果を表示する画面を示している。なお図２８においては、指定された拡張概念表現とマッチする部分と他の部分との表示形態を異ならせている。具体的には、図２８においては、指定にマッチする部分に枠を表示している。また、図２９においては、指定にマッチする部分の背景の模様を異ならせている。

以上のように、拡張概念表現を表示する場合に、ユーザから指定された検索条件にマッチする部分を、他の部分と異なる表示形態で表することにより、視認により、いずれの拡張概念が指定された検索条件に合致したのかを視認により容易に把握することができ、利便性を向上させることができる。

なお、検索結果を表示する際の、検索結果概念表現と指定概念表現とのマッチングは以下のようにして行う。

まず、指定概念表現を記憶する。そして、概念表現拡張検索を行う。次に、検索の結果得られたすべての概念表現について以下の処理を行う。すなわち、検索結果概念表現のすべての概念表現基本単位について以下の処理を行う。当該基本単位が、指定概念表現に含まれるかを調べる。指定概念表現に含まれる場合は、当該基本単位の表示方法を変えて表示処理を行う。

また、指定概念表現に含まれない場合は、当該基本単位の表示方法を変えずに表示処理を行う。上記処理において、指定概念表現に含まれる概念表現基本単位と、検索結果概念表現に含まれる概念表現基本単位とが同じかどうかを調べることで、マッチングを取っている。これ以外にも、指定概念表現に含まれる概念表現基本単位がその順番を保持して、検索結果概念表現に現れるかを調べることでマッチングを取ることもできる。

（実施の形態２）
次に、実施の形態２にかかる文書処理装置１について説明する。実施の形態２にかかる文書処理装置１は、自由記述回答のアンケートデータのような大量のテキスト集合からユーザに必要なカテゴリー構造を生成することができる。

図３０は、実施の形態２にかかる文書処理装置１の構成を示ブロック図である。実施の形態２にかかる文書処理装置１は、セッション情報記憶部１５を備えている。また、カテゴリー処理部１０は、実施の形態１にかかるカテゴリー処理部１０の機能構成に加えて、データ判別部１５０を有している。この点で、実施の形態２にかかる文書処理装置１は、実施の形態１にかかる文書処理装置１とその構成が異なっている。

なお、これ以外の構成は、実施の形態１において説明した対応する番号の構成と同様である。

図３１は、実施の形態２にかかる文書処理装置１の処理対象である、文書集合データのデータ構成を示している。このように、文書集合データは、複数のフィールドデータを有している。なお、図３１に示す１行が１つの文書集合データである。すなわち、文書集合データは、４つのフィールドデータを有している。

文書データ取得部１０１は、対象となる文書集合を外部から取得する。そして、文書データを各フィールドごとのテキストデータ集合に分割する。

言語処理部１２０は、各フィールドのデータに対して、言語解析処理、概念表現抽出処理などを行うことで、フィールドデータ集合に含まれる概念表現を抽出する。

また言語処理部１２０では、各フィールドに対してデータの型の判別を行う。フィールドデータが数値型、日時型であるかを判別し、フィールドのすべてのデータが数値型であればそのフィールドを数値型、日付型であれば日時型、どちらでもなければテキスト型とする。

さらに言語処理部１２０では、各フィールドに対してデータがカテゴリカルデータであるかを判定する。フィールドデータ1件を1文字列とし、フィールドデータ1件1件を比較し、特定の文字列パターンしか出現しない場合はそのフィールドをカテゴリカルデータと判定し、出現文字列パターンを定義とするカテゴリカルデータカテゴリーを自動で生成する。

図３２は、基本概念表示ブラウザを示している。図３２の画面表示例では、前処理として予め「１単語」、「２単語」、「３単語」、「１単語（+意図タグ）」、「意図タグ」の５種類のパターンについてテキストデータ集合に含まれる概念表現をすべて抽出したものを表示している。

言語処理部１２０での処理が終了すると、ユーザは図３２に示す概念表現表示ブラウザから1つの対象フィールドにおけるテキストデータ集合に含まれる概念表現を探索する。そして、自分に必要な概念を検索する。

このとき、ユーザが指定した概念表現を拡張した概念表現を検索する拡張概念表現検索などの機能を利用することができる。また、すでに作成したカテゴリーに属する文書集合に対応するテキストデータ集合に含まれる概念表現を基本概念表示ブラウザに表示させることができる。

ユーザは概念表現表示部１０３において表示する対象フィールドを変更することで、他のフィールドにおけるテキストデータ集合に含まれる概念表現を表示することができる。
カテゴリー生成部１０４は、ユーザが指定した文書に対して、文書カテゴリーを生成する。ここで文書カテゴリーとは、所属文書の基準となるカテゴリー定義を持ち、定義に基づいて集められた文書をメンバーとする文書グループのことである。

本実施例では、以下の６種類にカテゴリーが生成できるものとする。

１）概念表現カテゴリー
概念表現を定義とするカテゴリー。概念表現表示部１０３でユーザが指定した概念表現を利用してカテゴリーを生成する。

２）複合カテゴリー
既存のカテゴリーの論理式を定義とするカテゴリー。ユーザは文書カテゴリー表示部１０５において操作を行うことで作成する。

３）データＩＤ指定カテゴリー
文書ＩＤリストを定義とするカテゴリーのことである。本実施例ではユーザが作成することはできない。

４）カテゴリカルデータカテゴリー
文字列を定義とするカテゴリーのことである。定義の文字列と完全一致するフィールドデータを文書がメンバーとなる。カテゴリカルデータ判別処理においてシステムにより自動的に作成されるカテゴリー。ユーザの指定により生成することもできる。

５）数値カテゴリー
数値の一致、大小などをあらわす式を定義とするカテゴリーのことである。フィールドのデータ型が数値型である場合に作成することができる。

６）日時カテゴリー
日時の一致、大小などをあらわす式を定義とするカテゴリーのことである。フィールドのデータ型が日時型である場合に作成することができる。

ユーザは、基本概念表示ブラウザに文書情報を表示させたり、基本概念表示ブラウザに表示されている概念表現を含むテキストを表示させたりすることができる。このような作業を繰り返し行うことで、文書集合に含まれる概念表現のうち、自分に必要な概念表現を探し出してカテゴリー化、あるいは複合カテゴリーなどのカテゴリーを生成することで、必要なカテゴリー構造を生成することができる。

以下、実施の形態２にかかる文書処理装置１について詳述する。文書処理装置１の文書データ取得部１０１は、対象となる文書集合を取得する。ここで、取得する文書は、ユーザによって入力された文書であってもよく、電子ファイルやデータベースに格納されているテキストを読み込んだものであってもよい。ただし、文書データは表形式に表現することが可能な、１つ以上のフィールドデータで構成されたデータであり、文書データ取得部１０１において各フィールドデータを抽出することが可能なフォーマットで記述されている必要がある。たとえば電子ファイルであればＣＳＶ形式が望ましい。

文書データ取得部１０１は、文書集合データを取得すると、取得した文書集合データに対して当該文書処理装置１において識別可能な文書ＩＤを付与する。さらに、各文書データをフィールドごとのデータに分割し、データ判別部１５０および言語処理部１２０に送る。

本実施例では、登録する１文書集合に対する情報を「セッション情報」として管理する。セッション情報には、ユニークなＩＤが付与され管理される。

図３３は、セッション情報のデータ構成を示している。このように、セッション情報は、セッションＩＤに対応付けて管理されている。なお、セッション名などは、ユーザからの指定により定めてもよい。

さらに、１セッションに含まれるフィールドに関する情報を「フィールド情報」として管理する。フィールドには、セッション内でユニークなＩＤが付与され、管理される。

図３４は、フィールド情報のデータ構成を示している。このように、フィールド情報はセフィールドＩＤに対応付けて管理されている。なお、フィールド名などは、ユーザからの指定により定めてもよい。フィールド名などはユーザに入力させてもよい。セッション情報およびフィールド情報は、図１に示すセッション情報記憶部１５に記憶されている。

（データ判別）
次に、データ判別部１５０の処理について説明する。データ判別部１５０は、以下の処理を行う。
１）データの型判別
２）カテゴリカルデータ判別

１）データの型判別
データ判別部１５０は、各フィールドに対してデータの表記フォーマットを検査する。これにより、データの型を数値型、日時型、テキスト型（数値型でも日時型でもない）のいずれであるかを判別する。そして、あるフィールドのデータがすべて数値型であればそのフィールドを数値型、データがすべて日時型であればそのフィールドを日時型、どちらでもなければそのフィールドをテキスト型とする。データ型の情報は図３４に示した「データタイプ」として蓄積される。

２）カテゴリカルデータ判別
データ判別部１５０は、さらに各フィールドに対して、フィールドデータ１件を１文字列とした場合に、フィールドデータがある特定の文字列パターンのみで構成されているか否かを検査する。特定の文字列パターンのみで構成されている場合は、そのフィールドをカテゴリカルデータであると判別する。判別結果、すなわちカテゴリカルデータであるか否かを示す情報は、図３４に示した「フィールド情報」として蓄積される。
特定の文字列パターンのみで構成されているか否かは、たとえば「出現文字列パターン数が全フィールドデータ数の１０％以下である」などのルールで判定することができる。なお判定の際のルールは、予め定められている。

（言語処理）
次に、言語処理部１２０の処理について説明する。言語処理部１２０は、以下の処理を行う。
１）概念表現抽出
２）拡張概念表現検索

なお、言語処理部１２０は、実施の形態２の文書処理装置１に特徴的な処理を行う。すなわち、実施の形態２に係る言語処理部１２０は、各フィールドに対して言語処理を行う。この点で、実施の形態１にかかる言語処理部１２０と異なっている。なお、各フィールドに対する言語処理部１２０の処理は、実施の形態１にかかる言語処理部１２０の処理と同様である。

１）概念表現抽出
言語処理部１２０のテキストデータ構造生成部２０２では、言語解析部２０１の結果に基づいて各フィールドデータをデータ構造に変換する。さらに、実施の形態１において図８を参照しつつ説明した単語リストを生成する。なお、実施の形態２においては、フィールドデータに含まれる単語に対してユニークな単語ＩＤを付与する。このとき、さらに品詞情報や全体における出現頻度あるいは出現文書数を算出しておいてもよい。

また、各構成要素が保持する情報は、実施の形態１において図５−１〜図５−２を参照しつつ説明した各ノードが有する情報と同様である。すなわち、フィールドデータはフィールドデータに含まれる文ＩＤリストを管理する、そして、各文は自分の文ＩＤと当該文に含まれる文節リストを管理する。文節は自分の文節ＩＤと文節に含まれる単語ＩＤリスト、係り文節ＩＤリストおよび受け文節ＩＤを管理する。単語ＩＤは図５−１〜図５−２に示した単語リストにおけるＩＤである。係り文節ＩＤリストは、当該文節を受けとする係り文節のＩＤである。

上記例にもあるように、１つの受け文節に対して複数の文節が係り文節となりうるので係り文節ＩＤリストで管理する。受け文節ＩＤは当該文節が係り文節となる受け文節のＩＤである。係り文節は受け文節を１つしかとることができない。

文節が管理する情報として、係り受けの関係の種類を保持することも可能である。たとえば連体修飾なのか連用修飾なのかなどである。また文節を結ぶ助詞の種類により関係の種類を記述することもできる。

またテキストデータ構造生成部２０２において、文節内の付属語表現などから文書データ構造内の単語あるいは文節に対して付加的な意味を表す意図タグを付与する。意図タグは文節内の付属語などが特定の付加的な意味を表している場合に、その意味をタグとして文節に付加するものである。たとえば「打消」、「要望」、「可能」および「疑問」の意味タグは、文節内に以下のような単語が出現した場合にその文節に付加する。1つの文節に複数の意図タグがつくこともある。
意図タグＩＤ１「打消」：助動詞「ない」、助動詞「ず」、助動詞「まい」、補助助動詞「にくい」、形容詞「ない」
意図タグＩＤに「要望」：助動詞「たい」、動詞「欲しい」、接続助詞「て」＋動詞「欲しい」
意図タグＩＤ３「疑問」：終助詞「か」、終助詞「か」＋終助詞「な」、記号「？」
意図タグＩＤ４「可能」：補助動詞「できる」、助動詞「れる」、助動詞「られる」

概念表現では、たとえば「（＋打消+可能）」といった表現で意図タグをあらわす。意図タグは単独でも概念表現にもなるし、「実行（＋可能＋打消）」といったように単語に付加した形でも用いることができる。

また、言語処理部１２０の概念表現抽出部２０４は、テキストデータ構造を利用して、フィールドデータに含まれる概念表現を抽出する。具体的には、まず前処理として予め特定のパターンの概念表現について、フィールドデータに含まれる全種類を抽出しておく。

そして、抽出した情報を元にしてユーザが基本概念表現の探索を行えるようするのが望ましい。本実施の形態においては、１単語」「２単語」「３単語」「１単語（＋意図タグ）」「意図タグ」の５種類について予め全種類を計算しておく。概念表現の抽出の際には、その概念表現が出現する文書数、又は出現頻度も算出する。

概念表現記憶部１３は、抽出された概念表現に対してユニークなＩＤを付与し、出現文書数、出現頻度などの情報とともに記憶し、管理する。

２）拡張概念表現検索
言語処理部１２０の拡張概念表現検索部２０５は、現在処理対象となっているフィールドに対して、拡張概念表現検索を行う。本実施の形態においては、ユーザが指定した概念表現に対して、トークンのみで構成される概念表現基本単位を１つ追加するパターンの概念表現と、指定された概念表現の末端の概念表現基本単位の意図タグを追加するパターンの概念表現を抽出する。実施の形態１におい図６において説明したテキストに対して「インストール⇒実行」という概念表現が指定された場合、以下の概念表現が抽出される。
拡張概念表現１：インストール⇒実行（＋可能）
拡張概念表現２：インストール⇒実行（＋打消）
拡張概念表現３：インストール⇒実行（＋可能＋打消）
拡張概念表現４：ソフトウェア⇒インストール⇒実行

さらに、１）概念表現抽出、２）拡張概念表現検索のいずれの処理も、ユーザが指定したフィールドデータ部分集合を対象として行うことができる。

具体的には、概念表現抽出部２０４が指定受付部１５を介して対象となるフィールドデータ部分集合の指定を取得し、取得した指定に示されるフィールドデータ部分集合に対してのみ概念表現抽出処理を行う。これにより、ユーザの希望するフィールドデータに対してのみ概念表現抽出処理を行うことができる。

また、フィールドデータ部分集合の指定として、既存の文書カテゴリーを指定することができる。この場合には、指定された文書カテゴリーの所属文書に属するフィールドデータを対照として処理を行う。これにより他フィールドに対して作成した文書カテゴリーの所属文書の情報を用いて概念表現の抽出、検索を行うことができる。なお、この場合、ユーザは、図３２に示した基本概念表示ブラウザに表示された「対象範囲指定カテゴリー」において対象範囲を指定する。

（概念表現表示）
概念表現表示部１０３は、言語処理部１２０によって抽出された概念表現を表示する。具体的には、図３２に示す基本概念表現ブラウザをモニタ１６に表示する。ユーザは、概念表現表示部１０３において、抽出された概念表現を参照、あるいは拡張概念表現検索結果を参照することなどで概念表現を探索することができる。

概念表現の表示は1フィールドに関するする情報のみが表示される。ユーザは表示対象フィールドを指定することで、概念表現表示部１０３で表示する概念表現の対象フィールドを変更することができる。

（文書カテゴリー生成）
文書カテゴリー生成部１０４は、文書カテゴリーを生成する。文書カテゴリーとは、所属文書の基準となるカテゴリー定義を持ち、定義に基づいて集められた文書をメンバーとする文書グループのことである。文書カテゴリーは、以下の情報により記憶され、管理される。図３５にカテゴリー情報の例を示す。なお、カテゴリー定義は、これとは別に管理されている。

図３５に示すようにカテゴリーＩＤと、関連フィールドＩＤ（リスト）、カテゴリーラベル、カテゴリー種類、所属文書ＩＤリストおよび所属文書数とが対応付けられている。

ここで、カテゴリーラベルは、ユーザからの指定により定められてもよい。関連フィールドＩＤとは、カテゴリー生成におかえる対象となるフィールドに関する情報を識別するＩＤである。複合カテゴリー以外の文書カテゴリーは関連フィールドＩＤは１つである。

複合カテゴリーの場合は、カテゴリー定義に含まれるカテゴリーの関連フィールドすべての列挙が関連フィールドＩＤ（リスト）となる。たとえば、フィールド３から作られたカテゴリーとフィールド4から作られたカテゴリーで構成される複合カテゴリーの関連フィールドＩＤは「３、４」である。

本実施の形態において生成される文書カテゴリーは以下の６種類である。
１）概念表現カテゴリー
２）複合カテゴリー
３）データＩＤ指定カテゴリー
４）カテゴリカルデータカテゴリー
５）数値カテゴリー
６）日時カテゴリー

１）概念表現カテゴリー
概念表現カテゴリーは概念表現を定義とするカテゴリーである。ユーザが概念表現表示部１０３において概念表現を指定することにより、文書カテゴリーを生成することができる。

概念表現表示部１０３において、カテゴリー化の操作が行われると、カテゴリー生成部１０４において、指定された概念表現をカテゴリー定義とし、その概念表現を含むフィールドデータを持つ文書を所属メンバーとする文書カテゴリーが生成される。

テキストデータ構造記憶部１２に記憶されているテキストデータ構造に基づいて、指定された概念表現を含むフィールドデータを抽出し、そのフィールドデータを持つ文書を文書カテゴリーの所属文書とする。関連フィールドＩＤは概念表現表示部１０３で現在表示対象となっているフィールドＩＤとなる。

２）複合カテゴリー
複合カテゴリーは既存のカテゴリーの論理式を定義とするカテゴリーである。ユーザは文書カテゴリー表示部１０５において操作を行うことで作成することができる。文書カテゴリー表示部１０５、具体的には図３２に示す画面に表示された「カテゴリーリスト」および「ワークスペース」において、ユーザが組み合わせを指定することで生成することができる。

カテゴリーの組み合わせは既存カテゴリーのカテゴリーIDの論理演算式であらわすことができる。本実施の形態においては、複合カテゴリーとして、「複合ＡＮＤカテゴリー」「複合ＯＲカテゴリー」「複合ＮＯＴカテゴリー」を生成することができる。

「複合ＡＮＤカテゴリー」は、指定されたカテゴリーＩＤのＡＮＤをとるカテゴリーである。例えば、カテゴリー１、カテゴリー３およびテゴリー５が指定されている場合、「複合ＡＮＤカテゴリー」のカテゴリー定義は「１ＡＮＤ３ＡＮＤ５」となる。そして、所属テキストは３つのカテゴリーの所属テキスト集合の積集合となる。

「複合ＯＲカテゴリー」は、指定されたカテゴリーＩＤのＯＲをとるカテゴリーである。例えば、カテゴリー１、カテゴリー３およびカテゴリー５が指定されている場合、「複合ＡＮＤカテゴリー」のカテゴリー定義は「１ＯＲ３ＯＲ５」となる。そして、所属テキストは３つのカテゴリーの所属テキスト集合の和集合となる。

「複合ＮＯＴカテゴリー」は、指定されたカテゴリーＩＤのＮＯＴをとるカテゴリーである。例えば、カテゴリー１、カテゴリー３およびリー５が指定されている場合、「複合ＡＮＤカテゴリー」のカテゴリー定義は「ＮＯＴ(１ＯＲ３ＯＲ５)」となる。そして、所属テキストは３つのカテゴリーの所属テキスト集合の和集合の否定となる。関連フィールドＩＤはカテゴリー定義に含まれるカテゴリーの関連フィールＩＤを列挙したリストとなる。

３）データＩＤ指定カテゴリー
データＩＤカテゴリーは文書ＩＤリストを定義とするカテゴリーである。本実施の形態においては、「すべてのフィールドデータ」をメンバーとするカテゴリーを生成するために利用している。ユーザにより、任意に作成することはできない。

なお、他の例としては、ユーザによる文書ＩＤの指定により、データＩＤ指定カテゴリーを生成してもよい。ただし、この場合、カテゴリー定義の再利用は同じ対象文書集合内でのみ有効であり、他の対照文書集合に対する再利用、再適用はできない点を注意する必要がある。すべての定義を再利用可能にするためには、データＩＤ指定カテゴリーはユーザからの指定による作成は、できないほうが望ましい。

４）カテゴリカルデータカテゴリー
カテゴリカルデータカテゴリーは、カテゴリカルデータであると判別されたフィールドに対して自動的に作成されるカテゴリーである。セッション情報記憶部１５に記憶されているフィールド情報において、「カテゴリカル」であると記載されているフィールドに対して、文書カテゴリー生成部１０４では自動でカテゴリー生成を行う。フィールドデータに出現する特定の文字列パターンを定義とし、その文字列パターンと一致するフィールドデータを持つ文書をカテゴリーの所属文書とする。

５）数値カテゴリー
数値カテゴリーはデータ型が「数値型」であると判別されたフィールドに対して作成することのできるカテゴリーである。以下に示すような、数値の一致、大小などを表す式をカテゴリー定義とする。カテゴリー定義は文字列エディタを提示することにより、ユーザにより直接記述される。
ＦｉｅｌｄＤａｔａ＝１
ＦｉｅｌｄＤａｔａ>＝０
ＦｉｅｌｄＤａｔａ<０

６）日時カテゴリー
日時カテゴリーはデータ型が「日時型」であると判別されたフィールドに対して作成することのできるカテゴリーである。以下に示すような日時の一致、大小などをあらわす式を定義とするカテゴリーである。ある特定の年、月、日、時、分、秒、曜日、午前／午後などを指定できるようにしてもよい。
ＦｉｅｌｄＤａｔａ= ２００３／６
ＦｉｅｌｄＤａｔａ< ２００２／４
ＦｉｅｌｄＤａｔａ> ２００３／５／２４：１１：００
ＦｉｅｌｄＤａｔａ= ８月
ＦｉｅｌｄＤａｔａ= 月曜
ＦｉｅｌｄＤａｔａ= 午後

（カテゴリー表示）
文書カテゴリー表示部１０５は、生成されたカテゴリーを表示する。図３２に示す「カテゴリーリスト」のようにリスト表示したり、「ワークスペース」のようにグラフィカル表示してもよい。なお、表示形態は、本実施の形態に限定されるものではない。

ユーザは関連フィールドＩＤを指定することにより、表示するカテゴリーを指定することができる。

（テキスト表示）
文書データ表示部１０７は、ユーザから指定された概念表現を含むフィールドデータや、指定されたカテゴリーに属する文書データを表示することができる。

文書データ表示部１０７、具体的には、図３２に示す画面に表示されている「データブラウザ」に、概念表現表示部１０３上でユーザが指定した概念表現を含むフィールドデータを持つ文書を表示させる。概念表現記憶部１３に記憶されているテキストデータ構造に基づいて、指定された概念表現を含むフィールドデータを抽出し表示する。

また文書データ表示部１０７は文書カテゴリー表示部１０５上でユーザが指定したカテゴリーに属するテ文書を表示することができる。文書カテゴリー記憶部１４が記憶しているカテゴリー情報から、指定されたカテゴリーに属する文書ＩＤ、関連フィールドＩＤを検出する。そして、テキストデータ構造記憶部１２に記憶されているテキストデータ構造に基づいて、検出した文書ＩＤ、関連フィールドＩＤに対応する文書（フィールドデータ）を抽出し表示する。

文書データがマルチフィールドである場合は、ユーザがデータを表示するフィールドを指定することもできる。

以上のように、実施の形態２にかかる文書処理装置１は、文書が複数のフィールドを有する場合に、各フィールドを対象として、文書カテゴリー生成等の処理を行うことができる。

（実施の形態３）
次に、実施の形態３にかかる文書処理装置１について説明する。図３６に実施の形態３にかかる文書処理装置１の構成を示すブロック図である。実施の形態３にかかるカテゴリー処理部１０は、実施の形態２にかかるカテゴリー処理部１０の機能構成に加えて、既存文書カテゴリー検索部１６０および既存文書カテゴリー表示部１６２を有している。この点で、実施の形態３にかかる文書処理装置１は、実施の形態２にかかる文書処理装置１とその構成が異なっている。

既存文書カテゴリー検索部１６０は、指定受付部１５を介してユーザからの指定を取得する。そして、取得した指定に基づいて既存文書カテゴリーを検索する。ここで、既存文書カテゴリーとは、既に登録されているカテゴリーのことである。また、既存文書カテゴリー表示部１６２は、既存文書カテゴリー検索部１６０によって検索された既存文書カテゴリーをモニター１６に表示させる。

図３７は、文書データ表示部１０７がモニタ１６に表示する既存文書カテゴリーブラウザ６００を示している。既存文書カテゴリーブラウザ６００は、「カテゴリー一覧表示指定」エリア６１０、「カテゴリー検索」エリア６１２、「カテゴリー一覧表示」エリア６１４および「カテゴリー構造一覧表示」エリア６１６を含んでいる。

「カテゴリー一覧表示指定」エリア６１０において、ユーザは、所望のカテゴリーを指定することができる。「カテゴリー検索」エリア６１２において、検索ワードを指定することにより、所望の」カテゴリーを指定することができる。「カテゴリー一覧表示」エリア６１４は、「カテゴリー一覧表示指定」エリア６１０または「カテゴリー検索」エリア６１２における指定に基づく検索結果の一覧を表示する。

このように、ユーザは、既存カテゴリーブラウザ６００の表示内容に基づいて、カテゴリーを参照、検索、および指定することができる。これらの操作により、既存カテゴリーの定義を現在の対象文書集合に適用することができる。すなわち、対象文書集合に対して、カテゴリーとして既存カテゴリーを割り当てることができる。

図３８は、指定ブラウザ７００を示している。ユーザは、モニタ１６に表示される指定ブラウザ７００を利用して、カテゴリーを指定する対象となるフィールドを指定することができる。

１）カテゴリーの一覧表示
現在のセッションあるいは他のセッションで作成された全カテゴリー情報を表示する。図３７に示す既存文書カテゴリーブラウザ６００の「カテゴリー一覧表示指定」エリア６１０において、対象となるセッションが選択され、「表示」ボタンが押下される。

このとき、既存文書カテゴリー検索部１６０は、指定条件を取得し、指定されたセッションで作成されたカテゴリーを文書カテゴリー記憶部１４から取得する。そして、既存文書カテゴリー表示部１６２は、既存文書カテゴリー検索部１６０からカテゴリーを取得し、取得したカテゴリーを「カテゴリー一覧表示」エリア６１４に表示させる。

２）カテゴリーの検索
現在のセッションあるいは他のセッションで作成されたカテゴリーから指定されたキーワードを含むカテゴリーラベルを持つカテゴリーを検索する。

「カテゴリー検索」エリア６１２において、対象となるセッションが選択され、「検索キーワード」入力エリアにキーワードが入力され、「検索」ボタンが押下される。

このとき、既存文書カテゴリー検索部１６０は、検索キーワードを含むカテゴリーを文書カテゴリー記憶部１４から取得する。そして、既存文書カテゴリー表示部１６２は、既存文書カテゴリー検索部１６０によって検索されたカテゴリーを「カテゴリー一覧表示」エリア６１４に表示させる。

さらに、「カテゴリー一覧表示」エリア６１４に表示されているカテゴリーから所定のカテゴリーを選択すると、「カテゴリー構造一覧表示」エリア６１６に選択されたカテゴリーを含むカテゴリー構造の一覧が表示される。

３）カテゴリーの再利用
カテゴリー一覧表示」エリア６１４または「カテゴリー一覧表示」エリア６１４に表示されている文書カテゴリーを現在対象となっている文書集合に適用することができる。各エリアに表示されているカテゴリーを選択し、文書カテゴリー表示部１０５が表示する画面にドラッグアンドドロップする。または、「カテゴリー再利用」メニューにより、カテゴリーの再利用を指定することとしてもよい。

具体的には、図３８に示すブラウザ７００において、対象となるフィ−ルド、すなわち読み込み元のカテゴリーの対象文書のフィールドと、現在対象となっている文書のフィールドの対応を指定する。

この指定に基づいて、カテゴリー生成部１０４は、指定された文書カテゴリーのカテゴリー定義とフィールド対応情報に基づいて、カテゴリーを生成する。生成したカテゴリーは、文書カテゴリー記憶部１４に記憶される。

以上のように、実施の形態３にかかる文書処理装置１によれば、既存カテゴリーを利用して、フィールドに対するカテゴリーを生成することができる。

以上のように、本発明にかかる文書処理装置、文書処理方法および文書処理プログラムは、文書データのカテゴリーを生成するのに有用であり、特に、言語解析結果に基づいてカテゴリーを生成するのに適している。

実施の形態１である文書処理装置１の構成を示すブロック図である。図１を参照しつつ説明した言語処理部１２０の詳細な機能構成を示すブロック図である。図２を参照しつつ説明した概念表現抽出部２０４の詳細な機能構成を示すブロック図である。テキストデータ構造記憶部１２に格納されているテキストデータのテキストデータ構造を模式的に示す図である。「テキストデータ」ノードが有する情報を示す図である。「文」ノードが有する情報を示す図である。「文節」ノードが有する情報を示す図である。係り文節、受け文節、および関係種類について説明するための図である。意図タグと文節に含まれる単語との関係を示す図である。テキストデータ構造記憶部１２に格納されている単語リストを示す図である。テキストカテゴリー記憶部１４のデータ構成を示す図である。所属テキストデータＩＤリストを示す図である。本実施の形態にかかるカテゴリー処理部１０のカテゴリー生成処理を示すフローチャートである。当該カテゴリー生成処理において、モニタ１６に表示される基本概念表示ブラウザ５００を示す図である。図１０において説明した概念表現抽出処理（ステップＳ１０４）における言語処理部１２０の詳細な処理動作を示すフローチャートである。図１２において説明したトークン間関係抽出処理（ステップＳ２０８）における概念表現生成部２４３の詳細な処理動作を示すフローチャートである。図１０において説明した拡張概念表現検索処理（ステップＳ１１０）における拡張概念表現検索部２０５の詳細な処理動作を示すフローチャートである。カテゴリー処理部１０のハードウェア構成を示す図である。第１の変更例にかかる概念表現抽出部２０４の機能構成を示すブロック図である。第２の変更例にかかる概念表現抽出部２０４の機能構成を示すブロック図である。第３の変更例にかかる選択画面６００を示す図である。並べ替えの対象となる概念表現リストを示す図である。図１９に示す概念表現リストを、第１の概念表現により並べ替えた後の表示概念リストを示す図である。第２基本単位により並べ替えが行われた後の基本概念リストを示す図である。第３基本単位により並べ替えが行われた後の基本概念リストを示す図である。第１基本単位で並べ替え、その後さらに第３基本単位により並べ替えた後の基本概念リストを示す図である。第４の変更例にかかる選択画面６２０を示す図である。概念表現リストを「安い」という概念表現で揃えた後の概念表現のリストを示す図である。概念リストを「カメラ」という概念表現で揃えた後の概念表現のリストを示す図である。概念表現リストの背景模様を異ならせる例を示す図である。拡張概念表現の検索結果を表示する画面を示す図である。拡張概念表現の検索結果を表示する画面を示す図である。実施の形態２にかかる文書処理装置１の構成を示ブロック図である。実施の形態２にかかる文書処理装置１の処理対象である、文書集合データのデータ構成を示す図である。基本概念表示ブラウザを示す図である。セッション情報のデータ構成を示す図である。フィールド情報のデータ構成を示す図である。カテゴリー情報の例を示す図である。実施の形態３にかかる文書処理装置１の構成を示すブロック図である。文書データ表示部１０７がモニタ１６に表示する既存文書カテゴリーブラウザ６００を示す図である。指定ブラウザ７００を示す図である。

符号の説明

１文書処理装置
１０カテゴリー処理部
１２テキストデータ構造記憶部
１３概念表現記憶部
１４テキストカテゴリー記憶部
１５指示受付部
１６モニタ
６２バス
１０１テキスト取得部
１０３概念表現表示部
１０４テキストカテゴリー生成部
１０５テキストカテゴリー表示部
１０６テキスト管理部
１０７テキストデータ表示部
１２０言語処理部
２０１言語解析部
２０２テキストデータ構造生成部
２０４概念表現抽出部
２０５拡張概念表現検索部
２４１トークン抽出部
２４２トークン間関係抽出部
２４３概念表現生成部
２５１意図表現抽出部
２５２意図表現間関係抽出部
２５３概念表現生成部
２６１トークン抽出部
２６２意図表現抽出部
２６３概念表現基本単位生成部
２６４概念表現基本単位間関係抽出部
２６５概念表現生成部

Claims

文書のカテゴリーを生成する文書処理装置であって、
入力された、複数のフィールドデータが表形式で表現された文書集合データに含まれる前記複数のフィールドデータのそれぞれに対して言語解析を行う言語解析手段と、
前記言語解析手段における言語解析の結果に基づいて、所定の意味を有する１の単語または２以上の単語の組み合わせで表現された概念表現を抽出する概念表現抽出手段と、
前記複数のフィールドデータのそれぞれを含む文書集合データと、前記複数のフィールドデータのそれぞれを含む文書集合データを識別する文書識別情報とを対応付けて記憶する文書記憶手段と、
前記概念表現抽出手段が抽出した概念表現のうち、所定の概念表現の指定をユーザから受け付ける概念表現指定受付手段と、
前記概念表現指示受付手段が指定を受け付けた概念表現に基づいて文書カテゴリーを生成する文書カテゴリー生成手段と、
前記文書カテゴリーと、当該文書カテゴリーに属するフィールドデータの識別情報および前記文書識別情報とを対応付けて記憶する文書カテゴリー記憶手段と、
前記文書カテゴリー記憶手段に記憶されている前記文書カテゴリーを表示する文書カテゴリー表示手段と、
前記文書カテゴリー表示手段により表示された前記文書カテゴリーから、所定の文書カテゴリーの指定を、前記文書集合データの集合を管理するセッション情報の指定によりユーザから受け付ける文書カテゴリー指定受付手段と、
前記文書カテゴリー記憶手段において、前記文書カテゴリー指定受付手段が指定を受け付けた前記文書カテゴリーに対応付けられている前記フィールドデータの識別情報および前記文書識別情報で識別される前記フィールドデータを前記文書記憶手段から抽出し、抽出したフィールドデータを表示する文書表示手段と
を備えた
ことを特徴とする文書処理装置。
前記概念表現抽出手段が抽出した概念表現を表示する概念表現表示手段をさらに備え、
前記概念表現指定受付手段は、
前記概念表現表示手段が表示する前記概念表現のうちから、概念表現の指定を受け付ける
ことを特徴とする請求項１に記載の文書処理装置。
前記言語解析手段は、
言語解析により意図を表現する意図表現語と、前記フィールドデータに含まれる自立語とを前記フィールドデータから抽出し、
前記概念表現抽出手段は、
前記意図表現語と前記自立語の組み合わせを概念表現として抽出する
ことを特徴とする請求項１または２に記載の文書処理装置。
前記言語解析手段は、
前記フィールドデータを文節に分割し、各文節間の文節間関係を解析し、
前記概念表現抽出手段は、
複数の前記概念基本単位と、当該概念基本単位間の前記文節間関係により表現された概念表現を抽出する
ことを特徴とする請求項３に記載の文書処理装置。
前記概念表現抽出手段は、
複数の前記自立語の組み合わせで表現された拡張概念表現を抽出し、
前記概念表現指定受付手段は、
前記概念表現抽出手段が抽出した拡張概念表現のうち、所定の拡張概念表現の指定をユーザから受け付ける
ことを特徴とする請求項３または４に記載の文書処理装置。
前記概念表現抽出手段は、
概念表現と他の前記自立語との組み合わせで表現された前記拡張概念表現を抽出する
ことを特徴とする請求項５に記載の文書処理装置。
取得したフィールドデータのうち所定のフィールドデータの集合である部分集合の指定を受け付ける部分集合指定受付手段をさらに備え、
前記概念表現抽出手段は、
前記部分集合指定受付手段が指定を受け付けた部分集合から概念表現を抽出する
ことを特徴とする請求項１から６のいずれか一項に記載の文書処理装置。
前記概念表現指定受付手段が指定を受け付けた概念表現の表示位置を合わせる第１表示編集手段をさらに備え、
前記文書表示手段は、
前記第１表示編集手段により概念表現の表示位置が合わせられた複数のフィールドデータを表示する
ことを特徴とする請求項１から７のいずれか一項に記載の文書処理装置。
前記文書カテゴリー生成手段が文書カテゴリーを生成するときに利用した概念表現の表示形態を変更する第２表示編集手段をさらに備え、
前記概念表現表示手段は、
前記第２表示編集手段によって表示形態が変更された概念表現を表示する
ことを特徴とする請求項２から８のいずれか一項に記載の文書処理装置。
前記概念表現抽出手段は、各フィールドデータに対する概念表現を抽出し、
前記文書カテゴリー生成手段は、各フィールドデータに対する文書カテゴリーを生成する
ことを特徴とする請求項１から９のいずれか一項に記載の文書処理装置。
前記文書カテゴリー生成手段は、
ユーザから指定された複数の文書カテゴリーを組み合わせて、文書カテゴリーとする
ことを特徴とする請求項１から１０のいずれか一項に記載の文書処理装置。
文書のカテゴリーを生成する文書処理装置で実行される文書処理方法であって、
前記文書処理装置は、
複数のフィールドデータが表形式で表現された文書集合データと、前記複数のフィールドデータが表形式で表現された文書集合データを識別する文書識別情報とを対応付けて記憶するための文書記憶手段と、
前記文書カテゴリーを記憶するための文書カテゴリー記憶手段と
を備え、
言語解析手段が、前記文書集合データに含まれる前記複数のフィールドデータのそれぞれに対して言語解析を行う言語解析ステップと、
概念表現抽出手段が、前記言語解析ステップにおける言語解析の結果に基づいて、所定の意味を有する１の単語または２以上の単語の組み合わせで表現された概念表現を抽出する概念表現抽出ステップと、
概念表現指定受付手段が、前記概念表現抽出ステップが抽出した概念表現のうち、所定の概念表現の指定をユーザから受け付ける概念表現指定受付ステップと、
文書カテゴリー生成手段が、前記概念表現指示受付ステップが指定を受け付けた概念表現に基づいて文書カテゴリーを生成し、生成した文書カテゴリーと、当該文書カテゴリーに属するフィールドデータの識別情報および前記文書識別情報とを対応付けて前記カテゴリー記憶手段に記憶する文書カテゴリー生成ステップと、
文書カテゴリー表示手段が、前記文書カテゴリー記憶手段に記憶されている前記文書カテゴリーを表示する文書カテゴリー表示ステップと、
文書カテゴリー指定受付手段が、前記文書カテゴリー表示ステップで表示された前記文書カテゴリーから、所定の文書カテゴリーの指定を、前記文書集合データの集合を管理するセッション情報の指定によりユーザから受け付ける文書カテゴリー指定受付ステップと、
文書表示手段が、前記文書カテゴリー記憶手段において、前記文書カテゴリー指定受付ステップが指定を受け付けた前記文書カテゴリーに対応付けられている前記フィールドデータの識別情報および前記文書識別情報で識別される前記フィールドデータを前記文書記憶手段から抽出し、抽出したフィールドデータを表示する文書表示ステップと
を有する
ことを特徴とする文書処理方法。
文書のカテゴリーを生成する文書処理方法をコンピュータに実行させるための文書処理プログラムであって、
前記コンピュータは、
複数のフィールドデータが表形式で表現された文書集合データと、前記複数のフィールドデータが表形式で表現された文書集合データを識別する文書識別情報とを対応付けて記憶するための文書記憶手段と、
前記文書カテゴリーを記憶するための文書カテゴリー記憶手段と
を備え、
前記文書集合データに含まれる前記複数のフィールドデータのそれぞれに対して言語解析を行う言語解析ステップと、
前記言語解析ステップにおける言語解析の結果に基づいて、所定の意味を有する１の単語または２以上の単語の組み合わせで表現された概念表現を抽出する概念表現抽出ステップと、
前記概念表現抽出ステップが抽出した概念表現のうち、所定の概念表現の指定をユーザから受け付ける概念表現指定受付ステップと、
前記概念表現指示受付ステップが指定を受け付けた概念表現に基づいて文書カテゴリーを生成し、生成した文書カテゴリーと、当該文書カテゴリーに属するフィールドデータの識別情報および前記文書識別情報とを対応付けて前記カテゴリー記憶手段に記憶する文書カテゴリー生成ステップと、
前記文書カテゴリー記憶手段に記憶されている前記文書カテゴリーを表示する文書カテゴリー表示ステップと、
前記文書カテゴリー表示ステップで表示された前記文書カテゴリーから、所定の文書カテゴリーの指定を、前記文書集合データの集合を管理するセッション情報の指定によりユーザから受け付ける文書カテゴリー指定受付ステップと、
前記文書カテゴリー記憶手段において、前記文書カテゴリー指定受付ステップが指定を受け付けた前記文書カテゴリーに対応付けられている前記フィールドデータの識別情報および前記文書識別情報で識別される前記フィールドデータを前記文書記憶手段から抽出し、抽出したフィールドデータを表示する文書表示ステップと
をコンピュータに実行させるための文書処理プログラム。