JP4585768B2 - 文書処理装置、文書処理方法および文書処理プログラム - Google Patents

文書処理装置、文書処理方法および文書処理プログラム Download PDF

Info

Publication number
JP4585768B2
JP4585768B2 JP2004012291A JP2004012291A JP4585768B2 JP 4585768 B2 JP4585768 B2 JP 4585768B2 JP 2004012291 A JP2004012291 A JP 2004012291A JP 2004012291 A JP2004012291 A JP 2004012291A JP 4585768 B2 JP4585768 B2 JP 4585768B2
Authority
JP
Japan
Prior art keywords
document
category
expression
concept
concept expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004012291A
Other languages
English (en)
Other versions
JP2004303198A (ja
JP2004303198A5 (ja
Inventor
哲郎 長束
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2004012291A priority Critical patent/JP4585768B2/ja
Publication of JP2004303198A publication Critical patent/JP2004303198A/ja
Publication of JP2004303198A5 publication Critical patent/JP2004303198A5/ja
Application granted granted Critical
Publication of JP4585768B2 publication Critical patent/JP4585768B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

本発明は、文書のカテゴリーを生成する文書処理装置、文書処理方法および文書処理プログラムに関するものである。
近年、大量の文書(テキスト情報)の収集/蓄積が可能となり、それらの情報を活用するためのテキスト処理技術、文書処理技術がさまざま開発されている。従来の処理技術としては、ユーザの意図に合った文書(テキスト)を検索する文書検索技術、大量の文書(テキスト)集合をいくつかの部分集合に分類する文書分類技術、文書(テキスト)あるいは文書(テキスト)集合から重要な語句を抽出するキーワード抽出技術、キーワード抽出技術に基づいた文書(テキスト)要約技術などがしられている。
最近ではアンケートデータやコールセンターデータなどの大量のテキストデータを分析することを目的としたテキストマイニング技術なども開発されている。テキストデータの分析をするには大きく以下の2つの方法がある。
1)定量的分析
テキストを含まれる概念や意味に基づいてカテゴリーに分類し、カテゴリーに属するテキストの数を利用して統計的な傾向や関係を分析する。
2)定性的分析
統計的な分析ではなく、テキスト1件1件の内容から意味的に特徴的な概念やカテゴリーを抽出する。たとえば新たな知見やアイデアの発見を行う場合などである。
1)定量的分析の場合、テキスト集合をある意味的な構造をもったカテゴリー構造に変換する必要がある。この際の問題点として、テキストデータの場合、含まれる概念の表現が多様であり、同じ意味の概念であっても複数の表現や言葉で表されていること、テキストに含まれる概念や意味のレベル(たとえば抽象度)が様々であること、が挙げられる。
従来技術では、テキストをカテゴリー化する方法として、文書クラスタリング技術などにより文書を自動分類する方法がある。しかし、自動分類により生成されたテキスト集合から意味を読み取ることが難しい、生成されたテキスト集合間が適切に意味的な構造を表していない、または、分析に必要なカテゴリーに分類されていないなどの問題がある。
テキストをカテゴリー化するもう1つの方法としては、予めカテゴリー構造を記述した辞書を利用する方法が知られている。このような方法としては、シソーラス辞書を用いた「情報マイニング方法」(例えば、特許文献1参照)や、カテゴリー辞書を用いた「データ分析システム」(例えば、特許文献2参照)や、では概念定義辞書を用いた「業務支援システム」(例えば、特許文献3参照)が知られている。
特開2000−172691号公報 特開2001−075966号公報 特開2001−147937号公報
しかし、これらの辞書を用いてカテゴリー化を行う場合には、予め定められた辞書に沿って処理が行われるため、ユーザの希望に沿った自由なカテゴリー化を行うのが困難であった。
また、2)定性的分析の場合、テキストの内容の意味的な特徴を抽出する必要がある。テキスト分析を目的とした従来技術では、単語頻度や、カテゴリー所属テキスト数などの数量データを用いた統計的な特徴により分析を行っている。しかし、分析者ごとに必要な概念は異なることが多く、各分析者が必要とする概念を統計的な特徴に基づいて抽出することはできない。従って、この方法では、例えば分析者が知らなかった知見やアイデアを発見するという目的の分析は困難であるという問題がある。
この発明は上記に鑑みてなされたもので、ユーザの希望に即した文書カテゴリーを生成することのできる文書処理装置、文書処理方法および文書処理プログラムを得ることを目的とする。
カテゴリー化を行うにあたり、予め準備された辞書を利用して概念やカテゴリーを生成した場合には、ユーザの希望に沿ったカテゴリー化を行うのが困難であり、また、分析の際に必要となる概念構造やカテゴリー構造は1種類ではなく、分析者、あるいは分析目的により必要な概念やカテゴリー、あるいはその構造が異なることが問題である。
発明者は、以上の問題を見出し、当該問題を解決すべく本発明に想到した。すなわち、テキストデータでは新しい言葉や概念などが含まれることがあるので、このような新しい言葉や概念に対応したカテゴリー化を行うこと、および、予め概念構造やカテゴリー構造を辞書的に用意するのではなく、分析者が対象となるテキストから自分に必要な概念やカテゴリー、あるいはその意味的構造を簡単に生成できる技術を開発した。
請求項1にかかる発明は、文書のカテゴリーを生成する文書処理装置であって、入力された、複数のフィールドデータが表形式で表現された文書集合データに含まれる前記複数のフィールドデータのそれぞれに対して言語解析を行う言語解析手段と、前記言語解析手段における言語解析の結果に基づいて、所定の意味を有する1の単語または2以上の単語の組み合わせで表現された概念表現を抽出する概念表現抽出手段と、前記複数のフィールドデータのそれぞれを含む文書集合データと、前記複数のフィールドデータのそれぞれを含む文書集合データを識別する文書識別情報とを対応付けて記憶する文書記憶手段と、前記概念表現抽出手段が抽出した概念表現のうち、所定の概念表現の指定をユーザから受け付ける概念表現指定受付手段と、前記概念表現指示受付手段が指定を受け付けた概念表現に基づいて文書カテゴリーを生成する文書カテゴリー生成手段と、前記文書カテゴリーと、当該文書カテゴリーに属するフィールドデータの識別情報および前記文書識別情報とを対応付けて記憶する文書カテゴリー記憶手段と、前記文書カテゴリー記憶手段に記憶されている前記文書カテゴリーを表示する文書カテゴリー表示手段と、前記文書カテゴリー表示手段により表示された前記文書カテゴリーから、所定の文書カテゴリーの指定を、前記文書集合データの集合を管理るセッション情報の指定によりユーザから受け付ける文書カテゴリー指定受付手段と、前記文書カテゴリー記憶手段において、前記文書カテゴリー指定受付手段が指定を受け付けた前記文書カテゴリーに対応付けられている前記フィールドデータの識別情報および前記文書識別情報で識別される前記フィールドデータを前記文書記憶手段から抽出し、抽出したフィールドデータを表示する文書表示手段とを備えたことを特徴とする。
この請求項1の発明によれば、ユーザから概念表現の指定を受け付け、指定された概念表現に基づいて、テキストカテゴリーを生成するので、ユーザの希望に沿ったカテゴリーを生成することができる。すなわち、テキスト集合に含まれる概念を自由に探索し、分析や処理に必要な概念を発見し、その概念を用いてカテゴリーを生成し、カテゴリーの意味的な関係構造を生成することができる。従って、ユーザに必要なカテゴリー構造を容易に生成することができるので、ユーザによる発見などを目的とした定性的分析にも利用することができる。
また、請求項2にかかる発明は、請求項1に記載の文書処理装置であって、前記概念表現抽出手段が抽出した概念表現を表示する概念表現表示手段をさらに備え、前記概念表現指受付手段は、前記概念表現表示手段が表示する前記概念表現のうちから、概念表現の指定を受け付けることを特徴とする。
この請求項2の発明によれば、概念表現表示手段は、概念表現抽出手段が抽出した概念表現を表示するので、ユーザは、概念表現を容易に把握することができ、また、表示された概念表現から所望の概念表現を指定することができる。
また、請求項にかかる発明は、請求項1または2に記載の文書処理装置であって、前記言語解析手段は、言語解析により意図を表現する意図表現語と、前記文書に含まれる自立語とを前記文書から抽出し、前記概念表現抽出手段は、前記意図表現語と前記自立語組み合わせ概念表現として抽出することを特徴とする。
この請求項の発明によれば、概念表現抽出手段は、意図表現語と自立語と組み合わせ概念表現として抽出することができるので、ユーザは、多様な概念表現に基づいて文書カテゴリーを生成することができる。また、これにより、精度良く概念表現を生成することができる。
また、請求項にかかる発明は、請求項に記載の文書処理装置であって、前記言語解析手段は、前記文書を文節に分割し、各文節間の文節間関係を解析し、前記概念表現抽出手段は、複数の前記概念基本単位と、当該概念基本単位間の前記文節間関係により表現された前記概念表現を抽出することを特徴とする。
この請求項の発明によれば、概念表現抽出手段は、概念表現基本単位と、文節間関係により表現された概念表現を抽出することができるので、ユーザは、多様な概念表現に基づいて文書カテゴリーを生成することができる。また、これにより、精度良く概念表現を生成することができる。
また、請求項にかかる発明は、請求項またはに記載の文書処理装置であって、前記概念表現抽出手段は、複数の前記自立語の組み合わせで表現された拡張概念表現を抽出し、前記概念表現指定受付手段は、前記概念表現抽出手段が抽出した前記拡張概念表現のうち、所定の拡張概念表現の指定をユーザから受け付けることを特徴とする。
この請求項の発明によれば、概念表現抽出手段は、複数の自立語の組み合わせで表現された概念表現を抽出することができるので、ユーザは、多様な概念表現に基づいて文書カテゴリーを生成することができる。また、これにより、精度良く概念表現を生成することができる。
また、請求項にかかる発明は、請求項に記載の文書処理装置であって、前記概念表現抽出手段は、概念表現と他の前記自立語との組み合わせで表現された前記拡張概念表現を抽出することを特徴とする。
この請求項の発明によれば、ユーザは、多様な概念表現に基づいて文書カテゴリーを生成することができる。また、これにより、精度良く概念表現を生成することができる。
また、請求項にかかる発明は、請求項1からのいずれか一項に記載の文書処理装置であって、入力された文書のうち所定の文書の集合である部分集合の指定を受け付ける部分集合指定受付手段をさらに備え、前記概念表現抽出手段は、前記部分集合指定受付手段が指定を受け付けた部分集合から概念表現を抽出することを特徴とする。
この請求項の発明によれば、概念表現抽出手段は、部分集合の指定を受け付けた場合に、指定された部分集合を対象として概念表現を抽出することができるので、ユーザの希望に即した概念表現を抽出でき、さらに、当該概念表現に基づいて、文書カテゴリーを生成することができる。
また、請求項にかかる発明は、請求項からのいずれか一項に記載の文書処理装置であって、前記概念表現指定受付手段が指定を受け付けた概念表現の表示位置を合わせる第1表示編集手段をさらに備え、前記文書表示手段は、前記第1表示編集手段により概念表現の表示位置が合わせられた複数の文書を表示することを特徴とする。
この請求項の発明によれば、表示編集手段は、所定の概念表現の表示位置を合わせ、文書表示手段は、表示編集手段により概念表現の表示位置が合わせられた状態で複数の文書を表示するので、ユーザは、自分が着目した概念表現部分における特徴および傾向などを容易に理解することができる。また、ユーザは、所望の概念表現を効率的に検索することができる。
また、請求項にかかる発明は、請求項2からのいずれか一項に記載の文書処理装置であって、前記文書カテゴリー生成手段が文書カテゴリーを生成するときに利用した概念表現の表示形態を変更する第2表示編集手段をさらに備え、前記概念表現表示手段は、前記第2表示編集手段によって表示形態が変更された概念表現を表示することを特徴とする。
この請求項の発明によれば、表示編集手段が、文書カテゴリーを生成するときに利用した概念表現の表示形態を変更し、概念表現表示手段は、表示編集手段により概念表現の表示形態が変更された状態で概念表現を表示するので、ユーザは、文書カテゴリーを生成するときに利用した概念表現を容易に把握することができる。
また、請求項1にかかる発明は、請求項1からのいずれか一項に記載の文書処理装置であって、複数のフィールドデータを有するフィールド文書を取得する取得手段をさらに備え、前記言語解析手段は、前記取得手段が取得した前記フィールド文書に含まれる各フィールドデータに対して言語解析し、前記概念表現抽出手段は、各フィールドデータに対する前記概念表現を抽出し、前記文書カテゴリー生成手段は、各フィールドデータに対する文書カテゴリーを生成することを特徴とする。
この請求項1の発明によれば、ユーザは、各フィールドデータに対してカテゴリーを生成することができる。
また、請求項1にかかる発明は、請求項1から10のいずれか一項に記載の文書処理装置であって、記文書カテゴリー生成手段は、ユーザから指定された複数の文書カテゴリーを組み合わせて、文書カテゴリーとすることを特徴とする。
この請求項1の発明によれば、文書カテゴリー生成手段は、ユーザから指定された複数の文書カテゴリーを組み合わせて、文書カテゴリーとするので、異なるフィールドデータから作られた複数カテゴリーを組み合わせた文書カテゴリーの生成を行うことができる。さらに、このように、複数のカテゴリーを組み合わせた文書カテゴリーの生成を行うことにより、各フィールドデータの特徴を生かしたカテゴリーを生成することができる。
また、請求項12にかかる発明は、文書のカテゴリーを生成する文書処理装置で実行される文書処理方法であって、前記文書処理装置は、複数のフィールドデータが表形式で表現された文書集合データと、前記複数のフィールドデータが表形式で表現された文書集合データを識別する文書識別情報とを対応付けて記憶するための文書記憶手段と、前記文書カテゴリーを記憶するための文書カテゴリー記憶手段とを備え、言語解析手段が、前記文書集合データに含まれる前記複数のフィールドデータのそれぞれに対して言語解析を行う言語解析ステップと、概念表現抽出手段が、前記言語解析ステップにおける言語解析の結果に基づいて、所定の意味を有する1の単語または2以上の単語の組み合わせで表現された概念表現を抽出する概念表現抽出ステップと、概念表現指定受付手段が、前記概念表現抽出ステップが抽出した概念表現のうち、所定の概念表現の指定をユーザから受け付ける概念表現指定受付ステップと、文書カテゴリー生成手段が、前記概念表現指示受付ステップが指定を受け付けた概念表現に基づいて文書カテゴリーを生成し、生成した文書カテゴリーと、当該文書カテゴリーに属するフィールドデータの識別情報および前記文書識別情報とを対応付けて前記カテゴリー記憶手段に記憶する文書カテゴリー生成ステップと、文書カテゴリー表示手段が、前記文書カテゴリー記憶手段に記憶されている前記文書カテゴリーを表示する文書カテゴリー表示ステップと、文書カテゴリー指定受付手段が、前記文書カテゴリー表示ステップで表示された前記文書カテゴリーから、所定の文書カテゴリーの指定を、前記文書集合データの集合を管理るセッション情報の指定によりユーザから受け付ける文書カテゴリー指定受付ステップと、文書表示手段が、前記文書カテゴリー記憶手段において、前記文書カテゴリー指定受付ステップが指定を受け付けた前記文書カテゴリーに対応付けられている前記フィールドデータの識別情報および前記文書識別情報で識別される前記フィールドデータを前記文書記憶手段から抽出し、抽出したフィールドデータを表示する文書表示ステップとを有することを特徴とする。
この請求項12の発明によれば、ユーザから概念表現の指定を受け付け、指定された概念表現に基づいて、テキストカテゴリーを生成するので、ユーザの希望に沿ったカテゴリーを生成することができる。すなわち、テキスト集合に含まれる概念を自由に探索し、分析や処理に必要な概念を発見し、その概念を用いてカテゴリーを生成し、カテゴリーの意味的な関係構造を生成することができる。従って、ユーザに必要なカテゴリー構造を容易に生成することができるので、ユーザによる発見などを目的とした定性的分析にも利用することができる。
また、請求項13にかかる発明は、文書のカテゴリーを生成する文書処理方法をコンピュータに実行させるための文書処理プログラムであって、前記コンピュータは、複数のフィールドデータが表形式で表現された文書集合データと、前記複数のフィールドデータが表形式で表現された文書集合データを識別する文書識別情報とを対応付けて記憶するための文書記憶手段と、前記文書カテゴリーを記憶するための文書カテゴリー記憶手段とを備え、前記文書集合データに含まれる前記複数のフィールドデータのそれぞれに対して言語解析を行う言語解析ステップと、前記言語解析ステップにおける言語解析の結果に基づいて、所定の意味を有する1の単語または2以上の単語の組み合わせで表現された概念表現を抽出する概念表現抽出ステップと、前記概念表現抽出ステップが抽出した概念表現のうち、所定の概念表現の指定をユーザから受け付ける概念表現指定受付ステップと、前記概念表現指示受付ステップが指定を受け付けた概念表現に基づいて文書カテゴリーを生成し、生成した文書カテゴリーと、当該文書カテゴリーに属するフィールドデータの識別情報および前記文書識別情報とを対応付けて前記カテゴリー記憶手段に記憶する文書カテゴリー生成ステップと、前記文書カテゴリー記憶手段に記憶されている前記文書カテゴリーを表示する文書カテゴリー表示ステップと、前記文書カテゴリー表示ステップで表示された前記文書カテゴリーから、所定の文書カテゴリーの指定を、前記文書集合データの集合を管理るセッション情報の指定によりユーザから受け付ける文書カテゴリー指定受付ステップと、前記文書カテゴリー記憶手段において、前記文書カテゴリー指定受付ステップが指定を受け付けた前記文書カテゴリーに対応付けられている前記フィールドデータの識別情報および前記文書識別情報で識別される前記フィールドデータを前記文書記憶手段から抽出し、抽出したフィールドデータを表示する文書表示ステップとをコンピュータに実行させるための文書処理プログラムである。
この請求項13の発明によれば、ユーザから概念表現の指定を受け付け、指定された概念表現に基づいて、テキストカテゴリーを生成するので、ユーザの希望に沿ったカテゴリーを生成することができる。すなわち、テキスト集合に含まれる概念を自由に探索し、分析や処理に必要な概念を発見し、その概念を用いてカテゴリーを生成し、カテゴリーの意味的な関係構造を生成することができる。従って、ユーザに必要なカテゴリー構造を容易に生成することができるので、ユーザによる発見などを目的とした定性的分析にも利用することができる。
請求項1にかかる発明によれば、ユーザから概念表現の指定を受け付け、指定された概念表現に基づいて、テキストカテゴリーを生成するので、ユーザの希望に沿ったカテゴリーを生成することができる。すなわち、テキスト集合に含まれる概念を自由に探索し、分析や処理に必要な概念を発見し、その概念を用いてカテゴリーを生成し、カテゴリーの意味的な関係構造を生成することができる。従って、ユーザに必要なカテゴリー構造を容易に生成することができるので、ユーザによる発見などを目的とした定性的分析にも利用することができるという効果を奏する。
また、請求項2にかかる発明によれば、概念表現表示手段は、概念表現抽出手段が抽出した概念表現を表示するので、ユーザは、概念表現を容易に把握することができ、また、表示された概念表現から所望の概念表現を指定することができるという効果を奏する。
また、請求項にかかる発明によれば、概念表現抽出手段は、言語解析により意図表現語と自立語と組み合わせ概念表現として抽出することができるので、ユーザは、多様な概念表現に基づいて文書カテゴリーを生成することができる。また、これにより、精度良く概念表現を生成することができるという効果を奏する。
また、請求項にかかる発明によれば、概念表現抽出手段は、概念表現基本単位と、文節間関係により表現された概念表現を抽出することができるので、ユーザは、多様な概念表現に基づいて文書カテゴリーを生成することができる。また、これにより、精度良く概念表現を生成することができるという効果を奏する。
また、請求項にかかる発明によれば、概念表現抽出手段は、複数の自立語の組み合わせで表現された概念表現を抽出することができるので、ユーザは、多様な概念表現に基づいて文書カテゴリーを生成することができる。また、これにより、精度良く概念表現を生成することができるという効果を奏する。
また、請求項にかかる発明によれば、ユーザは、多様な概念表現に基づいて文書カテゴリーを生成することができる。また、これにより、精度良く概念表現を生成することができるという効果を奏する。
また、請求項にかかる発明によれば、概念表現抽出手段は、部分集合の指定を受け付けた場合に、指定された部分集合を対象として概念表現を抽出することができるので、ユーザの希望に即した概念表現を抽出でき、さらに、当該概念表現に基づいて、文書カテゴリーを生成することができるという効果を奏する。
また、請求項にかかる発明によれば、表示編集手段は、所定の概念表現の表示位置を合わせ、文書表示手段は、表示編集手段により概念表現の表示位置が合わせられた状態で複数の文書を表示するので、ユーザは、自分が着目した概念表現部分における特徴および傾向などを容易に理解することができる。また、ユーザは、所望の概念表現を効率的に検索することができるという効果を奏する。
また、請求項にかかる発明によれば、表示編集手段が、文書カテゴリーを生成するときに利用した概念表現の表示形態を変更し、概念表現表示手段は、表示編集手段により概念表現の表示形態が変更された状態で概念表現を表示するので、ユーザは、文書カテゴリーを生成するときに利用した概念表現を容易に把握することができるという効果を奏する。
また、請求項1にかかる発明によれば、ユーザは、各フィールドデータに対してカテゴリーを生成することができるという効果を奏する。
また、請求項1の発明によれば、文書カテゴリー生成手段は、ユーザから指定された複数の文書カテゴリーを組み合わせて、文書カテゴリーとするので、異なるフィールドデータから作られた複数カテゴリーを組み合わせた文書カテゴリーの生成を行うことができる。さらに、このように、複数のカテゴリーを組み合わせた文書カテゴリーの生成を行うことにより、各フィールドデータの特徴を生かしたカテゴリーを生成することができる。
また、請求項12にかかる発明によれば、ユーザから概念表現の指定を受け付け、指定された概念表現に基づいて、テキストカテゴリーを生成するので、ユーザの希望に沿ったカテゴリーを生成することができる。すなわち、テキスト集合に含まれる概念を自由に探索し、分析や処理に必要な概念を発見し、その概念を用いてカテゴリーを生成し、カテゴリーの意味的な関係構造を生成することができる。従って、ユーザに必要なカテゴリー構造を容易に生成することができるので、ユーザによる発見などを目的とした定性的分析にも利用することができるという効果を奏する。
また、請求項13にかかる発明によれば、ユーザから概念表現の指定を受け付け、指定された概念表現に基づいて、テキストカテゴリーを生成するので、ユーザの希望に沿ったカテゴリーを生成することができる。すなわち、テキスト集合に含まれる概念を自由に探索し、分析や処理に必要な概念を発見し、その概念を用いてカテゴリーを生成し、カテゴリーの意味的な関係構造を生成することができる。従って、ユーザに必要なカテゴリー構造を容易に生成することができるので、ユーザによる発見などを目的とした定性的分析にも利用することができるという効果を奏する。
以下に添付図面を参照して、この発明にかかる文書処理装置、文書処理方法、および文書処理プログラムの好適な実施の形態を詳細に説明する。
(実施の形態1)
図1は、この発明の実施の形態1である文書処理装置1の構成を示すブロック図である。文書処理装置1は、本実施の形態において特徴的なカテゴリー生成処理を行うカテゴリー処理部10と、テキストデータ構造記憶部12と、概念表現記憶部13と、テキストカテゴリー記憶部14と、指示受付部15と、モニタ16とを備えている。
ここで、概念表現とは、ある意味を有する1つまたは2以上の単語の組み合わせのことである。また、テキストカテゴリーとは、テキスト集合に含まれる複数のテキストデータを分類するためのカテゴリーである。例えば、ソフトウェアというテキストカテゴリーには、「ソフトウェア」という単語を含むテキストデータを管理するテキストカテゴリーと、「ハードウェア」という単語を含むテキストデータを管理するテキストカテゴリーとを生成した場合には、テキスト集合に含まれる複数のテキストデータを、「ソフトウェア」という単語を含むテキストデータと、「ハードウェア」という単語を含むテキストデータとに分類することができる。
なお、「ソフトウェア」及び「ハードウェア」のいずれの単語も含むテキストデータは、いずれのテキストカテゴリーにも属することになる。
テキストデータ構造記憶部12は、カテゴリー処理部10が生成したテキストデータ構造を記憶している。概念表現記憶部13は、カテゴリー処理部10が生成した概念表現を記憶している。テキストカテゴリー記憶部14は、カテゴリー処理部10が生成したテキストカテゴリーを記憶している。
指示受付部15は、ユーザからの指定を受け付けて、カテゴリー処理部10に送る。指示受付部15は、具体的にはマウスやキーボードなどのユーザインターフェースであってもよい。モニタ16は、カテゴリー処理部10から受け取った画像を表示する。
カテゴリー処理部10は、テキストデータ取得部101と、言語処理部120と、概念表現表示部103と、テキストカテゴリー生成部104と、テキストカテゴリー表示部105と、テキストデータ管理部106と、テキストデータ表示部107とを有している。
テキストデータ取得部101は、外部からテキスト集合を取得し、言語処理部120に送る。ここで、テキスト集合とは,複数のテキストデータを含む集合のことである。言語処理部120は、テキストデータ取得部101からテキストデータを取得する。そして、取得したテキストデータに含まれる言語を解析し、テキストデータの構造を編集し、新たなテキストデータ構造を生成する。そして、生成したテキストデータ構造をテキストデータ構造記憶部12に格納する。テキストデータ取得部101はまた、テキストデータから概念表現を抽出し、抽出した概念表現を概念表現記憶部13に格納する。概念表現表示部103は、言語処理部120が生成した概念表現をモニタ16に表示させる。
テキストカテゴリー生成部104は、言語処理部120が生成した概念表現に基づいてテキストカテゴリーを生成する。テキストカテゴリー生成部104は、生成したテキストカテゴリーをテキストカテゴリー記憶部14に格納する。テキストカテゴリー表示部105は、テキストカテゴリー生成部104が生成したテキストカテゴリーをモニタ16に表示させる。
テキストデータ管理部106は、テキストデータ取得部101が取得したテキストデータを、テキストカテゴリー生成部104が生成したテキストカテゴリー毎に分配して管理する。
テキストデータ表示部107は、テキストデータ管理部106が管理するテキストデータをモニタ16に表示させる。
図2は、図1を参照しつつ説明した言語処理部120の詳細な機能構成を示すブロック図である。言語処理部120は、言語解析部201と、テキストデータ構造生成部202と、概念表現抽出部204と、拡張概念表現検索部205とを含む。
言語解析部201は、テキストデータ取得部101から受け取ったテキストデータに含まれるすべての文を文節に分割し、各文節毎に言語解析する。具体的には、文節に含まれる単語を解析し、また文節間の係り受けの関係を解析する。テキストデータ構造生成部202は、言語解析部201における言語解析の結果に基づいてテキストデータの構造を編集し、編集後のテキストデータ構造をテキストデータ構造記憶部12に格納する。
概念表現抽出部204は、テキストデータ構造記憶部12に格納されているテキストデータ構造に基づいて、テキスト集合に含まれる概念表現を抽出する。概念表現を抽出する処理については、後に詳述する。拡張概念表現検索部205は、指示受付部15を介してユーザから指定された概念表現を拡張した拡張概念表現をテキスト集合から検索する。ここで、拡張概念表現とは、独立した複数の概念表現に、所定の意味を有する単語を組み合わせたものである。
図3は、図2を参照しつつ説明した概念表現抽出部204の詳細な機能構成を示すブロック図である。概念表現抽出部204は、トークン抽出部241と、トークン間関係抽出部242と、概念表現生成部243とを含む。
トークン抽出部241は、テキストデータ構造記憶部12からトークンを抽出する。ここで、トークンとは、それ自体で1つの意味を有する単語のことである。トークン間関係抽出部242は、トークン抽出部241が抽出したトークン同士の関係を抽出する。ここで、トークン間関係とは、各トークンを含む文節間の関係を示す情報である。
概念表現生成部243は、トークン抽出部241が抽出したトークンと、トークン間関係抽出部242が抽出したトークン間関係とに基づいて、テキスト集合に対する概念表現を生成する。
図4は、テキストデータ構造記憶部12に格納されているテキストデータのテキストデータ構造を模式的に示している。
テキストデータ構造は、木構造である。テキストデータ構造記憶部12に格納されているテキスト集合は、この木構造により管理されている。具体的には、「テキスト集合」ノードを親ノードとし、その子ノードとして、「テキストデータ」ノードが設けられている。さらに、「テキストデータ」ノードは、複数の「文」ノードを子ノードとして有する。また、各「文」ノードは、複数の「文節:ノードを有する。そして、各「文節」ノードは、複数の「単語」を子ノードとして有している。
図3に示す「テキスト集合」ノード400は、「テキストデータ」ノード402を子ノードとして有している。「テキストデータ」ノード402は、複数の「文」ノード404a〜cを子ノードとして有している。また、「文」ノード404aは、複数の「文節」ノード406a〜eを子ノードとして有している。さらに、「文節」ノード406aは、「単語」ノード408a〜cを子ノードとして有している。
図5−1〜図5−3は、図4において説明した各ノードが有する情報を示している。図5−1に示すように、「テキストデータ」ノード402は、当該テキストデータに含まれている各文を識別する文IDのリストを有している。また、図5−2に示すように、「文」ノード404は、当該文を識別する文IDと、当該文に含まれている各文節を識別する文節IDのリストとを有している。
さらに、図5−3に示すように、「文節」ノード406は、当該文節を識別する文節IDと、当該文節に含まれている各単語を識別する単語IDリストとを有している。「文節」ノード406は、係り文節IDリストと、受け文節リストと、関係種類と、意図タグリストとをさらに有している。
ここで、図6を参照しつつ、係り文節、受け文節、および関係種類について説明する。図6は、「ソフトウェアのインストールが正常に実行できない」という文の、言語解析部201における言語解析の結果を示している。図6において、単語の区切りを「/」で表している。また、「自」は自立語を表し、「付」は、付属語を表している。また、図6においては、各文節間の「係り」と「受け」の関係を示している。「係り文節」と「受け文節」は、それぞれ対象となる文節が係る文節と、対象となる文節に係る文節に対応する。
図6に示すように、一の受け文節に対して、複数の文節が係り文節となる場合がある。そこで、係り文節IDリストにより複数の文節をそれぞれ管理する。なお、一の係り文節を受ける受け文節は一つしかないので、文節ノードにおいては、受け文節IDは1つのみ保持されている。
関係種類は、例えば、連体修飾の関係にあることを示す情報や、連用修飾の関係にあることを示す情報である。また例えば、関係種類は、各文節を結びつける助詞の種類を示す情報である。
次に、意図タグについて説明する。意図タグは、付加的な意味を示すタグであある。意図タグは、テキストデータ構造生成部202によって各語句または各文節に付与される。例えば、文節内の付属語などが特定の付加的な意味を表している場合に、その意味が意図タグとして付与される。具体的には、「打消」、「要望」、「可能」、および「疑問」の意味を示す意図タグは、文節内に含まれる所定の単語に付与される。
これらの意図タグと文節に含まれる単語との関係を図7に示す。に示すように、各意図タグは、意図タグを識別する意図タグIDと、文節内に含まれる単語とに対応付けられている。テキストデータ構造生成部202は、この関係に基づいて、所定に単語に意図タグを付与する。
なお、1つの文節に複数の意図タグが付与される場合もある。概念表現では、たとえば「できない」(「できる」+「ない」)という文節に対して、「(+可能+打消)」のように、2つの意図タグを付与してもよい。
また、「実行できない」(「実行」+「できる」+「ない」)という文節に対して、「実行(+可能+打消)」のように、意図タグを自立語に付与し、全体として1つの概念表現としてもよい。
図8は、テキストデータ構造記憶部12に格納されている単語リストを示している。単語リストは、テキストデータ構造生成部202によって、言語解析部201の言語解析の結果に基づいて作成される。単語リストは、各単語を識別する単語IDと、単語表記、品詞、出現頻度、出現文書数、および同期後代表表記を対応付けている。
ここで、出現頻度とは、テキスト集合において当該単語表記が出現した回数である。また、出現文書数とは、当該単語表記が含まれる文書の数である。また、同義語代表表記とは、同一意味内容を示す単語の代表的な表記のことである。例えば、「ソフトウェア」を示す単語として、テキスト集合中に、「ソフトウエア」、「ソフト」という単語が含まれている場合、これらの単語の同義語代表表記は「ソフトウェア」である。なお、いずれを同義語代表表記とするかは任意である。
図9は、テキストカテゴリー記憶部14のデータ構成を示している。図9−1に示すように、テキストカテゴリー記憶部14は、テキストカテゴリーを識別するテキストカテゴリーIDに対応付けて、テキストカテゴリー定義、所属テキストデータIDリスト、所属テキストデータ数、およびカテゴリーラベルを格納している。
ここで、テキストカテゴリー定義とは、テキストカテゴリーとして定めた概念表現である。また、所属テキストデータIDリストとは、当該テキストカテゴリーに属するテキストデータを識別するテキストデータIDのリストである。また、所属テキストデータ数は、当該テキストカテゴリーに属するテキストデータの数である。
図9−2は、所属テキストデータIDリストを示している。所属テキストデータIDリストは、テキストカテゴリーIDリストを識別するリストID410を親ノードとし、当該テキストカテゴリーに含まれるテキストデータID412a〜cを子ノードとする木構造で管理されている。
図10は、本実施の形態にかかるカテゴリー処理部10のカテゴリー生成処理を示すフローチャートである。また、図11は、当該カテゴリー生成処理において、モニタ16に表示される基本概念表示ブラウザ500を示している。ユーザは、基本概念表示ブラウザ500に表示された内容に従って、所望の条件等の指定を入力する。そして、カテゴリー処理部10は、ユーザからの指定を指示受付部15を介して取得し、指定に従ってテキストカテゴリーを生成する。
以下、図10に沿ってカテゴリー処理部10のカテゴリー生成処理について説明する。カテゴリー処理部10のテキストデータ取得部101は外部からテキスト集合を取得する(ステップS100)。次に、ユーザから指示受付部15を介して部分集合指定を受け付けた場合には(ステップS102,Yes)、指定された部分集合を処理対象とする(ステップS103)。次に、言語処理部120は、概念表現を抽出する(ステップS104)。次に、概念表現表示部103は、言語処理部120が抽出した概念表現をモニタ16に表示する(ステップS105)。
次に、ユーザから指示受付部15を介して、概念表現の変更の指定を受け付けた場合には(ステップS106,Yes)、ユーザからの指定に従って、拡張概念表現を検索する(ステップS110)。そして、S105へ進む。
一方、概念表現変更の指定がない場合には(ステップS106、No)、次のステップに進む。
ユーザから、カテゴリー化の指定を受け付けると(ステップS108,Yes)、テキストカテゴリー生成部104は、テキストカテゴリーを生成する。具体的には、ユーザから指定された概念表現をカテゴリー定義とし、その概念表現を含むテキストデータを所属メンバーとするテキストカテゴリーを生成する。このとき、カテゴリーID、カテゴリー定義、所属テキストIDリスト、所属テキスト数、カテゴリーラベルを同時に記録する。なお、カテゴリーラベルはユーザにより指定される。
ユーザからテキストデータの表示の指定を受け付けると(ステップS128,Yes)、テキストデータ表示部107は、指定されたテキストカテゴリーに属するテキストデータをモニタ16に表示する(ステップS130)。具体的には、テキストデータ管理部106は、指定されたテキストカテゴリーの所属テキストIDを検出し、テキストデータ構造記憶部12に格納されているテキストデータ構造に基づいて、所属テキストIDにより特定されるテキストデータを抽出し、テキストデータ表示部107に送る。そして、テキストデータ表示部107は、受け取ったテキストデータを表示する。
また、ユーザから複合カテゴリー生成の指定を受け付けると(ステップS132,Yes)、テキストデータ管理部106は、ユーザから指定を受け付けた複数のテキストカテゴリーを合併して、一の複合カテゴリーを生成する(ステップS134)。
複合カテゴリーの生成において、カテゴリーの組み合わせは既存カテゴリーのカテゴリーIDの論理演算式で表すことができる。
本実施例では、複合カテゴリーとして、「複合ANDカテゴリー」「複合ORカテゴリー」「複合NOTカテゴリー」を生成することができるものとする。
「複合ANDカテゴリー」は指定されたカテゴリーIDの「AND」をとるカテゴリーである。例えば、「カテゴリー1」、「カテゴリー3」、「カテゴリー5」が指定されている場合、「複合ANDカテゴリー」のカテゴリー定義は「1AND3AND5」となる。そして、所属テキストは、3つのカテゴリーの所属テキスト集合の積集合となる。
「複合ORカテゴリー」は指定されたカテゴリーIDの「OR」をとるカテゴリーである。例えば、「カテゴリー1」、「カテゴリー3」、「カテゴリー5」が指定されている場合、「複合ORカテゴリー」のカテゴリー定義は「1OR3OR5」となり、所属テキストは3つのカテゴリーの所属テキスト集合の和集合となる。
「複合NOTカテゴリー」は指定されたカテゴリーIDの「NOT」をとるカテゴリーである。たとえばカテゴリー1、カテゴリー3、カテゴリー5が指定されている場合、「複合NOTカテゴリー」のカテゴリー定義は「NOT(1OR3OR5)」となり、所属テキストは3つのカテゴリーの所属テキスト集合の和集合の否定となる。以上で、カテゴリー処理部10のカテゴリー生成処理は完了する。
また、図11に示した基本概念表示ブラウザ500には、基本概念表現表示領域510と、拡張概念表現表示領域512,514と、カテゴリーリスト表現領域540と、ワークスペース541と、テキストブラウザ542とが設けられている。
基本概念表現領域510には、「基本概念表現」と、当該概念表現が含まれているテキストデータの数を示す「出現テキスト数」と、当該基本概念表現の品詞が表示されている。
なお、本実施の形態においては、「1単語」、「2単語」、「3単語」、「1単語(+意図タグ)」、「意図タグ」に分類される概念表現を抽出すべく予め設定されている。また、テキストデータ取得部101がテキストデータを取得すると、これらの分類の概念表現が予め抽出されて、概念表現記憶部13に格納されている。そして、基本概念表現領域510には、概念表現はこれらの種類毎に分類されて表示されている。
また、テキスト集合によっては、包含する概念表現が膨大であって、概念表現リストが長大になる場合もある。そのため、このような場合でも、ユーザが容易に所望の概念表現を検索するための機能が要求される。そこで、本実施の形態においては、ユーザのリスト探索を支援するため、以下の表示制限指定を可能とする機能を設けている。
1.ユーザから指定された表記を含む単語で構成される概念表現を表示する
2.ユーザから指定された表記を含む単語で構成される概念表現以外の概念表現を表示する
3.テキスト数が指定数以上の概念表現を指定する
4.指定されたテキストに含まれる概念表現を表示する
5.指定された品詞の単語で構成される概念表現を表示する
これらの指定はユーザからの入力により実現される。
また、拡張概念表現表示領域512,514には、基本概念表現領域510に表示される概念表現のうち、ユーザから指定された概念表現に基づいて生成された拡張概念表現が表示される。具体的には、基本概念表現領域510においてユーザが所定の概念表現を指定し、基本概念表現領域510の右側に表示された「絞り込み」ボタン520を選択すると、拡張概念表現検索部205は、ユーザから指定された概念表現を入力として、拡張概念表現の検索を実行する。そして、概念表現表示部103が、指定した概念表現に基づいて定まる拡張概念表現を拡張概念表現表示領域512に表示させる。
さらに、ユーザが拡張概念表現表示領域512の右側に表示された「絞り込み」ボタン522を選択すると、拡張概念表現表示領域512においてユーザから指定された拡張概念表現を入力として、さらに拡張概念表現の検索が実行される。このように、多様な概念表現を検索し、テキストカテゴリーとして指定することができる。
また、ユーザから、カテゴリー化の機能が選択されると、テキストデータ管理部106は、ユーザから指定された概念表現のテキストカテゴリーを生成し、当該テキストカテゴリーに該当するテキストデータを、指定された概念表現のテキストカテゴリーに属するテキストデータとして管理する。
ユーザは、基本概念表示ブラウザ500において、所望の概念表現をカテゴリーとして指定することができる。指定の方法としては、例えば、メニュー画面を表示させ、その中に表示されるカテゴリー化という機能を選択する。また、他の方法としては、ユーザは所望の概念表現を選択し、カテゴリーを表示するカテゴリー表示領域540にドラッグアンドドロップすることにより、実現してもよい。
また、カテゴリーリスト表現領域540、ワークスペース541には、テキストカテゴリー生成部104によって生成されたテキストカテゴリーのカテゴリーリストが表示されている。ワークスペース541には、テキストカテゴリーがグラフィカル表示されている。
既存のカテゴリーを組み合わせて新たなテキストカテゴリー、すなわち複合カテゴリーを生成する場合、ユーザは、カテゴリーリスト表現領域540において、所望のテキストカテゴリーを選択する。この場合、テキストデータ管理部106は、指示受付部15を介して、複数のテキストカテゴリーの指定を受け付け、これらのテキストカテゴリーを含む複合カテゴリーを生成する。カテゴリー表示部上で空の複合カテゴリー(AND,OR,NOT)を作成し、他のカテゴリーを複合カテゴリーにドラッグアンドドロップするなどの方法で複合カテゴリーを生成することができる。
また、テキストブラウザ542には、生成された各テキストカテゴリーに分配されたテキストデータが表示される。基本概念表示ブラウザ500において、ユーザから生成したテキストカテゴリーが指定されると、テキストデータ表示部107は、指示受付部15を介してテキストを表示する旨の指定を受け付け、指定されたテキストカテゴリーの属するテキストデータをテキストブラウザ542に表示させる。
さらに、基本概念表現領域510等の上部に表示されたの「対象カテゴリー指定」の入力欄530に、ユーザから対象となるカテゴリーが入力されると、入力されたカテゴリーに属するテキストデータで構成されるテキスト集合に含まれる概念表現が表示される。このように、対象とすべきテキストデータを指定することができる。
また、基本概念表示ブラウザ500において、表示された概念表現が指定され、さらに当該概念表現を含むテキストデータの表示の指定を受け付けると、指定された概念表現を含むテキストデータを基本概念表示ブラウザ500に表示させる。
以上のようにユーザは、ユーザインターフェースを利用して、簡単な操作によりカテゴリー生成処理に関する指定を行うことができる。
次に、図12を参照しつつ、図10において説明した概念表現抽出処理(ステップS104)における言語処理部120の詳細な動作について説明する。まず、言語解析部201は、形態素解析を行う(ステップS200)。言語解析部201は、さらに係り受け解析を行う(ステップS202)。
ここで、形態素解析とは、テキスト集合の各テキストデータに含まれる単語の解析のことである。形態素解析では、具体的には、言語解析部201はテキスト集合に含まれる各テキストデータを文章に分割し、さらに各文章を文単位に分割する。さらに、各文を文節に分割し、文節を単語に分割する。そして、各単語を解析する。
また、係り受け解析とは、テキストデータに含まれる文節の係り受けの解析である。各文節に対し、係り文節と、受け文節とを抽出する処理である。
次に、テキストデータ構造生成部202は、言語解析部201による形態素解析および係り受け解析の結果に基づいて、テキストデータ構造を生成する(ステップS204)。そして、概念表現抽出部204のトークン抽出部241は、テキストデータ構造生成部202が生成したテキストデータ構造から、トークンを抽出する(ステップS208)。そして、トークン間関係抽出部242は、テキストデータ構造生成部202が生成したテキストデータ構造から、トークン間関係を抽出する(ステップS210)。次に、概念表現生成部243は、トークンと、トークン間関係とに基づいて概念表現を生成する(ステップS210)。
図13は、図12において説明したトークン間関係抽出処理(ステップS208)における概念表現生成部243の詳細な処理を示すフローチャートである。概念表現生成部243は、テキストデータに含まれる文を、文IDの順番で処理する。また、各文に含まれる文節は、文節IDの順で処理する(ステップS300)。文節Kmが係り文節となる受け文節Kxを検索する。受け文節Kxが存在する場合(ステップS302、Yes)、現在対象としている文節Kmと検索によりヒットした受け文節Kxとの間に「文節Km⇒文節Kx」という関係を生成する(ステップS304)。ここで、「文節Km⇒文節Kx」は、トークン間関係である。
次に、文節Kxが係り文節となる受け文節Kyを検索する。係り文節Kyが存在する場合(ステップS306,Yes)、現在対象としている文節Kmと検索によりヒットした係り文節Kyとの間に「文節Km⇒・・・⇒文節Kx⇒文節Ky」という関係を生成する(ステップS308)。以上の処理を対象とする文Snに含まれる最後の文節まで繰り返す(ステップS310)。さらに、以上の処理を対象とするテキストデータに含まれる全ての文について行う(ステップS312)。以上で、トークン間関係抽出部242によるトークン間関係抽出処理が完了する。
ここで、図6に示した「ソフトウェアのインストールが正常に実行できない」という文からトークン間関係を抽出する場合の、具体的な処理について説明する。トークン抽出部241はテキストデータ構造記憶部12に記憶されているテキストデータ構造内の文節に含まれる単語情報から、自立語品詞の単語を抽出し、トークンとする。本実施例では、言語解析時に1文節1自立語となるように解析をしているので、文節内の自立語をトークンとして利用することができる。トークンとして以下の4個が抽出される。
トークン1: ソフトウェア
トークン2: インストール
トークン3: 正常
トークン4: 実行
この場合、例えば、図6に示す文節2から生成される概念表現基本単位は、文節1及び文節4から生成される概念表現基本単位と関係があり、以下のような2つの関係表現が抽出される。
文節1基本単位⇒文節2基本単位
文節2基本単位⇒文節4基本単位
概念表現基本単間関係は3個以上あってもよい。この場合、図6に示す文からは以下の4個の概念表現基本単位間関係が抽出される。
概念表現基本単位間関係1: 文節1⇒文節2
概念表現基本単位間関係2: 文節2⇒文節4
概念表現基本単位間関係3: 文節3⇒文節4
概念表現基本単位間関係4: 文節1⇒文節2⇒文節4
概念表現は、概念表現基本単位および概念表現基本単位間関係により生成するので、以下の8個の概念表現が生成される。
概念表現1(文節1トークン) : ソフトウェア
概念表現2(文節2トークン) : インストール
概念表現3(文節3トークン) : 正常
概念表現4(文節4トークン) : 実行
概念表現5(概念表現基本単位間関係1): ソフトウェア⇒インストール
概念表現6(概念表現基本単位間関係2): インストール⇒実行
概念表現7(概念表現基本単位間関係3): 正常⇒実行
概念表現8(概念表現基本単位間関係4): ソフトウェア⇒インストール⇒実行
図14は、図10において説明した拡張概念表現検索処理(ステップS110)における拡張概念表現検索部205の詳細な動作を示すフローチャートである。拡張概念表現検索部205は、各文に含まれる各文節に対して、順番に概念表現の検索を行う(ステップS400)。
まず、拡張概念表現検索部205は、文節Kjから、概念表現基本単位CEnを検索する。文節Kjに、概念表現基本単位CEnが含まれている場合には(ステップS402,Yes)、さらに、次の概念表基本単位CE(n+1)を検索する(ステップS402〜S410)。
そして、拡張概念表現基本単位に含まれる最後の概念表現基本単位まで検索した場合(S406,Yes、S420)、および、文節Kjに概念表現基本単位が含まれていない場合(ステップS402,No)、さらに次の文節に対して、上記処理を繰り返す(ステップS430)。さらに、以上の処理をテキストに含まれる全ての文に対して繰り返す(ステップS432)。以上で、拡張概念表現検索部205による拡張概念表現検索処理が完了する。
また、拡張概念の抽出を行う際に、ユーザは、追加する概念表現基本単位のトークンの品詞を指定することができる。この場合は拡張概念表現パターンを検索する際に、拡張部分([XXX],[YYY])の適合条件に指定された品詞情報を利用すればよい。
さらにまた、拡張概念の抽出を行う際に、追加する概念表現基本単位を、ユーザが概念表現基本単位間の関係である文節間関係を指定することにより選択することができる。この場合は、拡張概念表現パターンを検索する際に、拡張部分([XXX],[YYY])の適合条件に指定された文節関係情報を利用すればよい。
ここで、拡張概念表現の検出方法について、具体的に説明する。概念表現の拡張は、1)意図表現の追加による拡張と、2)概念表現基本単位の追加による拡張の2通りが考えられる。
1)意図表現の追加による拡張
意図表現による拡張とは、指定された概念表現に含まれる概念表現基本単位に対して、意図表現を追加することで拡張する。図6に示した文の場合、指定概念表現として「インストール⇒実行」が指定されると、意図表現により拡張された概念表現として以下の概念表現を抽出する。
拡張概念表現1: 「インストール⇒実行(+可能)」
拡張概念表現2: 「インストール⇒実行(+打消)」
拡張概念表現3: 「インストール⇒実行(+可能+打消)」
具体的には、拡張概念表現検索部205は、テキストデータ構造記憶部12に記憶されているテキストデータ構造から、指定された概念表現と適合する構造を検索する。拡張概念表現検索部205は、図14において説明した処理に沿って、指定概念表現として「インストール⇒実行」が指定されると、「文節2⇒文節4」というテキストデータ構造を検出する。なお、図14において説明した処理は、1つのテキストデータに対する処理であるが、複数のテキストデータを対象とする場合は各テキストに対して、この拡張概念表現抽出処理を行う。
次に、検索されたテキストデータ構造すべてに対して、その文節情報から、意図表現の拡張により拡張概念表現を抽出する。すなわち、検索された「文節2」と「文節4」の意図表現情報を参照し、指定概念表現に含まれていない意図表現を追加した拡張概念表現を生成する。「文節2」には意図表現情報はなく、「文節4」には「+可能+打消」という情報があるので、意図表現の組み合わせのバリエーションにより、以下の3つの拡張概念表現が抽出される。
拡張概念表現1: 「インストール⇒実行(+可能)」
拡張概念表現2: 「インストール⇒実行(+打消)」
拡張概念表現3: 「インストール⇒実行(+可能+打消)」
抽出された拡張概念表現は、概念表現記憶部13に記憶される。その際に、出現頻度や出現テキスト数を計数して管理する。
なお、拡張概念表現抽出処理においては、ユーザは概念表現内の概念表現基本単位を指定することができる。この場合には、ユーザから指定された概念表現基本単位に対応する文節情報にのみ基づいて拡張概念表現を抽出する。
また、拡張概念表現抽出処理においては、ユーザは、拡張する意図表現の種類を指定することができる。この場合には、ユーザから指定された意図表現についてのみ拡張概念表現を抽出する。たとえば上記例において、意図表現として「+可能」が指定されていた場合、「インストール⇒実行(+可能)」だけを拡張概念表現として抽出する。
2)概念表現基本単位の追加による拡張
指定された概念表現に新たな概念表現基本単位を追加して、新たに拡張概念表現を生成することも可能である。図6に示す文の場合、指定概念表現として「インストール」が指定されると、概念表現基本単位の追加により拡張された概念表現として以下の概念表現を抽出する。
拡張概念表現1: 「ソフトウェア⇒インストール」
拡張概念表現2: 「 インストール⇒実行」
拡張概念表現3: 「 インストール⇒実行(+可能)」
拡張概念表現4: 「 インストール⇒実行(+打消)」
拡張概念表現5: 「 インストール⇒実行(+可能+打消)」
拡張概念表現6: 「ソフトウェア⇒インストール⇒実行」
拡張概念表現7: 「ソフトウェア⇒インストール⇒実行(+可能)」
拡張概念表現8: 「ソフトウェア⇒インストール⇒実行(+打消)」
拡張概念表現9: 「ソフトウェア⇒インストール⇒実行(+可能+打消)」
追加する概念表現基本単位の数は任意であるが、拡張の処理は繰り返し行うことができるので、通常は概念表現基本単位を1つ追加した拡張概念表現を抽出するようにしてもよい。
また、例えば「インストール⇒実行」という概念表現が指定されている場合、1つ概念表現基本単位を追加する場合、次の3つのパターンが考えられる。
パターン1 XXX⇒インストール⇒実行
パターン2 インストール⇒実行⇒XXX
パターン3 インストール⇒XXX⇒実行
ここで、「XXX」は、任意の概念表現基本表現である。パターン1,2の場合、指定された概念表現の前後に概念表現基本表現を追加すればよい。しかし、パターン3の場合は、指定された概念表現に含まれる概念表現基本単位間に新たな概念表現基本単位を追加するので、指定された概念表現自体も変更してしまう。そのため指定された概念表現の意味が変わってしまう可能性がある。
パターン3の場合には、拡張を行わないように設定してもよい。また、拡張を行うように設定する場合には、変更される可能性があることをユーザに認識しておいてもらう必要がある。そのため、この場合には,例えば、基本概念表示ブラウザ500において、その旨を表示しておくのが望ましい。また、パターン3の場合の拡張は、追加する概念表現基本単位との関係が特定の係り受け関係(たとえば複合関係)の場合にのみ行うように設定してもよい。
概念表現基本単位の追加による拡張は以下の手順で行われる。
1.指定された概念表現の拡張パターンの生成
指定された概念表現に含まれる概念表現基本単位間に新たな概念表現基本単位を追加した拡張概念表現のパターンを生成する。例えば、「インストール」という概念表現が指定されており、概念基本表現を1つ追加する場合は、以下のような拡張概念表現パターンを生成する。
拡張概念表現パターン1: 「XXX⇒インストール」
拡張概念表現パターン2: 「インストール⇒XXX」
概念基本表現を2つ追加する場合は、以下のような拡張概念表現パターンを生成する。
拡張概念表現パターン1: 「XXX⇒YYY⇒インストール」
拡張概念表現パターン2: 「インストール⇒XXX⇒YYY」
また例えば、「インストール⇒実行」という概念表現が指定されている場合、概念基本表現を1つ追加する場合は、以下のような拡張概念表現パターンを生成する。
拡張概念表現パターン1: 「XXX⇒インストール⇒実行」
拡張概念表現パターン2: 「インストール⇒実行⇒XXX」
拡張概念表現パターン3: 「インストール⇒XXX⇒実行」
概念基本表現を2つ追加する場合は、以下のような拡張概念表現パターンを生成する。
拡張概念表現パターン1: 「XXX⇒YYY⇒インストール⇒実行」
拡張概念表現パターン2: 「XXX⇒インストール⇒YYY⇒実行」
拡張概念表現パターン3: 「インストール⇒XXX⇒YYY⇒実行」
拡張概念表現パターン4: 「インストール⇒XXX⇒実行⇒YYY」
拡張概念表現パターン5: 「インストール⇒実行⇒XXX⇒YYY」
2.拡張概念表現パターンと適合するテキストデータ構造の検索
テキストデータ構造記憶部12に記憶されているテキストデータ構造から、1.で生成した拡張概念表現パターンと適合する構造を検索する。このとき、1.で生成した拡張概念パターンの拡張部分(「XXX」「YYY」)は任意の文節に適合するものとして検索を行う。複数テキストを対象とする場合は各テキストに対してこの処理を行う。
図6に示したテキストの場合、指定概念表現として「インストール」、追加する概念表現基本単位の数を1とすると、拡張概念表現パターンとして以下のパターンが生成され、
拡張概念表現パターン1: 「XXX⇒インストール」
拡張概念表現パターン2: 「インストール⇒XXX」
以下のテキストデータ構造が適合する。
拡張概念表現パターン1: 「文節1⇒文節2」
拡張概念表現パターン2: 「文節2⇒文節4」
3.検索されたテキストデータ構造に基づいた拡張概念表現の抽出
検索されたテキストデータ構造のすべてに対して、その文節情報のトークン、意図表現情報に基づいて拡張概念表現を抽出する。テキストデータ構造「文節1⇒文節2」からは、
拡張概念表現1: 「ソフトウェア⇒インストール」
が抽出され、テキストデータ構造「文節2⇒文節4」からは、
拡張概念表現2: 「インストール⇒実行」
拡張概念表現3: 「インストール⇒実行(+可能)」
拡張概念表現4: 「インストール⇒実行(+打消)」
拡張概念表現5: 「インストール⇒実行(+可能+打消)」
が抽出される。
拡張概念表現を抽出する際は、意図表現の組み合わせのバリエーションをすべて生成してもかまわないが、抽出する拡張概念表現の種類が増えてしまう問題もある。そのため、概念表現基本単位の追加による拡張は、トークン情報だけで行い(拡張概念表現1、2だけを抽出する)、意図表現の情報が知りたい場合は、抽出された拡張概念表現に対して「意図表現による拡張」を行うように設定しておいてもよい。
4.抽出した拡張概念表現の記録
抽出された拡張概念表現をテキストカテゴリー記憶部14に記憶する。その際に、出現頻度や出現テキスト数を計数して管理する。
図15は、カテゴリー処理部10のハードウェア構成を示す図である。カテゴリー処理部10は、ハードウェア構成として、カテゴリー処理部10におけるカテゴリー生成処理を実行するプログラムなどが格納されているROM52、ROM52内のプログラムに従ってカテゴリー処理部10の各部を制御し、カテゴリー生成処理等を実行するCPU51、ワークエリアが形成され、カテゴリー処理部10の制御に必要な種々のデータが記憶されているRAM53、ネットワークに接続して、通信を行う通信I/F57、および各部を接続するバス62を備えている。
先に述べたカテゴリー処理部10における文書管理処理を実行するカテゴリー生成処理プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フロッピー(R)ディスク(FD)、DVD等のコンピュータで読み取り可能な記録媒体に記録されて提供される。
また、本実施形態のカテゴリー生成処理プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。
この場合には、カテゴリー生成処理プログラムは、カテゴリー処理部10において上記記録媒体から読み出して実行することにより主記憶装置上にロードされ、上記ソフトウェア構成で説明した各部が主記憶装置上に生成されるようになっている。
以上述べたカテゴリー処理部10のカテゴリー生成処理は、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フロッピー(R)ディスク、DVD等のコンピュータで読み取り可能な記録媒体に記録されて提供される。
また、本実施形態のカテゴリー生成処理プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。
本実施形態にかかるカテゴリー生成処理プログラムは、カテゴリー処理部10で上記記録媒体から読み出して実行することにより主記憶装置上にロードされ、上記ソフトウェア構成で説明した各部が主記憶装置上に生成されるようになっている。
以上、本発明を実施の形態を用いて説明したが、上記実施の形態に多様な変更または改良を加えることができる。
そうした第1変更例としては、本実施の形態にかかるカテゴリー処理部10の概念表現抽出部204は、トークン抽出部241、トークン間関係抽出部242、および概念表現生成部243を有しているが、これにかえて、意図表現抽出部251、意図表現間関係抽出部252、および概念表現生成部253を有してもよい。本例にかかる概念表現抽出部204を図16に示す。
本例にかかる概念表現抽出部204は、概念表現基本単位として意図表現を利用する。意図表現抽出部251は、テキストデータ構造記憶手段の情報から各文節に対して意図表現を抽出する。具体的には、文節内の単語情報から、特定の表現パターンを抽出し、意図表現情報を生成する。たとえば「打消」「要望」「疑問」「可能」という意図表現は、下記のような単語あるいは表現パターンが含まれている場合に抽出することができる。
意図表現「打消」:助動詞「ない」、助動詞「ず」、助動詞「まい」、補助助動詞「にくい」
意図表現「要望」:助動詞「たい」
意図表現「疑問」:終助詞「か」、終助詞「か」+終助詞「な」、記号「?」
意図表現「可能」:補助動詞「できる」、助動詞「れる」、助動詞「られる」
また、「ソフトウェアのインストールが正常に実行できない」という文に対しては、意図表現として以下のものが抽出される。
意図表現1: (+可能+打消)
また、文節から抽出された意図表現を組み合わせることで意図表現を生成することもできる。その場合、上記の文からは以下の意図表現が抽出される。
意図表現1: (+可能)
意図表現2: (+打消)
意図表現3: (+可能+打消)
「ソフトウェアのインストールが正常に実行できない」という文の各文節からは以下の意図表現が抽出される。
文節1意図表現: なし
文節2意図表現: なし
文節3意図表現: なし
文節4意図表現: (+可能+打消)
文節1、2、3からは意図表現は抽出されないため、概念表現は以下の1個が生成される。
概念表現1(文節4意図表現): (+可能+打消)
また、意図表現を文節から抽出された意図表現を組み合わせることで生成する場合は、各文節からは以下の意図表現が抽出される。
文節1意図表現: なし
文節2意図表現: なし
文節3意図表現: なし
文節4意図表現1: (+可能)
文節4意図表現2: (+打消)
文節4意図表現3: (+可能+打消)
この場合、概念表現として、以下のものが生成される。
概念表現1(文節4意図表現1): (+可能)
概念表現2(文節4意図表現2): (+打消)
概念表現3(文節4意図表現3): (+可能+打消)
なお、概念表現抽出部204が拡張概念の抽出処理を行う際に、ユーザは、追加する概念表現基本単位の数を指定することができる。この場合は、概念表現抽出部204は、指定された数の概念表現基本単位を追加した場合の拡張概念表現パターンを生成する。
このように、本例の概念表現抽出部204によれば、意図表現と、意図表現間関係に基づいて、概念表現を生成することができる。
第2の変更例としては、本実施の形態にかかるカテゴリー処理部10の概念表現抽出部204は、トークン抽出部241、トークン間関係抽出部242、および概念表現生成部243を有しているが、これにかえて、トークン抽出部261、意図表現抽出部262、概念表現基本単位生成部263、概念表現基本単位間関係抽出部264、および概念表現生成部265を有してもよい。本例にかかる概念表現抽出部204を図17に示す。
本例にかかる概念表現抽出部204は、概念表現基本単位としてトークンと意図表現の組み合わせを利用する。図17の概念表現基本単位生成部263は、トークン抽出部261と意図表現抽出部262からそれぞれ、トークンと、意図表現とを受け取り、これらに基づいて概念表現基本単位を生成する。ここで、概念表現基本単位は1つの文節に対応する。例えば、「実行できない」という文節に対して、トークン抽出部261によりトークンとして「実行」が抽出され、意図表現抽出部262により意図表現として「(+可能+打消)」が抽出される。概念表現基本単位生成部263では、これらを組み合わせた概念表現基本単位として「実行(+可能+打消)」を生成する。
「ソフトウェアのインストールが正常に実行できない」という文の場合、概念表現基本単位として以下のものが生成される。
概念表現基本単位1: ソフトウェア
概念表現基本単位2: インストール
概念表現基本単位3: 正常
概念表現基本単位4: 実行(+可能+打消)
また、意図表現を文節から抽出された意図表現を組み合わせることで生成する場合は、以下のものが概念表現基本単位として生成される。
概念表現基本単位1: ソフトウェア
概念表現基本単位2: インストール
概念表現基本単位3: 正常
概念表現基本単位4: 実行
概念表現基本単位4: 実行(+可能)
概念表現基本単位4: 実行(+打消)
概念表現基本単位4: 実行(+可能+打消)
また、各文節からは以下の概念表現基本単位が抽出される。
文節1概念表現基本単位: ソフトウェア
文節2概念表現基本単位: インストール
文節3概念表現基本単位: 正常
文節4概念表現基本単位: 実行(+可能+打消)
概念表現は、概念表現基本単位および概念表現基本単位間関係により生成するので、以下の8個の概念表現が生成される。
概念表現1(文節1概念表現基本単位) : ソフトウェア
概念表現2(文節2概念表現基本単位) : インストール
概念表現3(文節3概念表現基本単位) : 正常
概念表現4(文節4概念表現基本単位) : 実行(+可能+打消)
概念表現5(概念表現基本単位間関係1): ソフトウェア⇒インストール
概念表現6(概念表現基本単位間関係2): インストール⇒実行(+可能+打消)
概念表現7(概念表現基本単位間関係3): 正常⇒実行(+可能+打消)
概念表現8(概念表現基本単位間関係4): ソフトウェア⇒インストール⇒実行(+可能+打消)
また、意図表現を文節から抽出された意図表現を組み合わせることで生成する場合は、以下のものが概念表現基本単位として生成される。
文節1概念表現基本単位1: ソフトウェア
文節2概念表現基本単位2: インストール
文節3概念表現基本単位3: 正常
文節4概念表現基本単位4: 実行
文節4概念表現基本単位5: 実行(+可能)
文節4概念表現基本単位6: 実行(+打消)
文節4概念表現基本単位7: 実行(+可能+打消)
その場合、概念表現は以下のものが生成される。
概念表現1(文節1概念表現基本単位1) :ソフトウェア
概念表現2(文節2概念表現基本単位2) :インストール
概念表現3(文節3概念表現基本単位3) :正常
概念表現4(文節4概念表現基本単位4) :実行
概念表現5(文節4概念表現基本単位5) :実行(+可能)
概念表現6(文節4概念表現基本単位6) :実行(+打消)
概念表現7(文節4概念表現基本単位7) :実行(+可能+打消)
概念表現8(概念表現基本単位間関係1) :ソフトウェア⇒インストール
概念表現9(概念表現基本単位間関係2) :インストール⇒実行
概念表現10(概念表現基本単位間関係2):インストール⇒実行(+可能)
概念表現11(概念表現基本単位間関係2):インストール⇒実行(+打消)
概念表現12(概念表現基本単位間関係2):インストール⇒実行(+可能+打消)
概念表現13(概念表現基本単位間関係3):正常⇒実行
概念表現14(概念表現基本単位間関係3):正常⇒実行(+可能
概念表現15(概念表現基本単位間関係3):正常⇒実行(+打消)
概念表現16(概念表現基本単位間関係3):正常⇒実行(+可能+打消)
概念表現17(概念表現基本単位間関係4):ソフトウェア⇒インストール⇒実行
概念表現18(概念表現基本単位間関係4):ソフトウェア⇒インストール⇒実行(+可能)
概念表現19(概念表現基本単位間関係4):ソフトウェア⇒インストール⇒実行(+打消)
概念表現20(概念表現基本単位間関係4):ソフトウェア⇒インストール⇒実行(+可能+打消)
なお、概念表現抽出部204が拡張概念の抽出を行う際に、ユーザは、概念表現基本単位を追加する方向(前方か後方か)を指定することができる。この場合は、概念表現抽出部204は、指定された方向に対して概念表現基本単位を追加した場合の拡張概念表現パターンを生成する。
第3の変更例としては、基本概念を表示する場合に、表示順を並べ替えてもよい。この場合、ユーザは、図18に示す選択画面600を参照しつつ並べ替えの規則を指定する。ユーザからの入力は、指定受付部15を介してq010に入力される。そして、概念表現表示部103は、は、指示受付部105を介して取得した指示に基づいて、表示すべき概念表現を並べ替え、並べ替えた状態で、複数の概念表現を表示させる。なお、本実施の形態にかかる概念表現表示部103は、本発明にかかる表示編集手段を構成する。
図18に示す選択画面610には、並べ替えの基準となる概念表現の基本単位属性の指定を受け付ける指定入力領域612a,612b,612cが設けられている。
図19は、並べ替えの対象となる概念表現のリストを示している。なお、図19に示す並べ替えリストにおいては、各行に各文書データが各行に並べられている。図20は、図19に示す概念表現リストを、第1の概念表現により並べ替えた後の表示概念リストを示している。図18に示す選択が面600において第1キーとして、第1基本単位を選択すると、図19に示す第1基本単位による並べ替えを行う。これにより、図20に示すように、第1基本単位は、50音順に並べ替えが行われる。
図21は、第2基本単位により並べ替えが行われた後の基本概念リストを示している。図22は、第3基本単位により並べ替えが行われた後の基本概念リストを示している。このように、所望の基本単位を基準に並べ替えることができる。
また、図23は、第1基本単位で並べ替え、その後さらに第3基本単位により並べ替えた後の基本概念リストを示している。このように、複数の基本単位に基づいて並べ替えてもよい。このように、複数の基本単位により並べ替えることもできる。
以上のように、ユーザが希望する基本単位を基準に、基本概念リストを再配列することができるので、利便性を向上させることができる。
第4の変更例としては、概念表現を含む文書を表示する場合に、所定の基本概念の表示位置をそろえて表示してもよい。
図24に示す選択画面620には、揃えるべき概念表現の指定を受け付ける指定入力領域622が設けられている。図25は、概念表現リストを「安い」という概念表現で揃えた後の概念表現のリストを示している。また、図26は、概念リストを「カメラ」という概念表現で揃えた後の概念表現のリストを示している。
以上のように、所望の概念表現でそろえて複数の文書を表示することができ、利便性を向上させることができる。
第5の変更例としては、概念表現のうち、すでにカテゴリー化されている概念表現を表示する場合に、当該概念表現を、他の概念表現と異なる表現形態で表現してもよい。
例えば、図27は、カテゴリー化された概念表現が表示される行の背景の模様を異ならせている。これ以外にも概念表現の文字自体の色を変えてもよい。また、背景の色を異ならせてもよい。
更に他の例としては、文字の色、文字の大きさ、ゴシック、明朝などの表示フォント、太文字、イタリック体などの字体、下線の有無、点滅表示の有無等により、カテゴリー化における利用の有無を表示してもよい。
以上のように、カテゴリー化における利用の有無により概念表現の表示形態を異ならせることにより、視認により、いずれの概念表現をカテゴリー化に利用したかを容易に把握することができ、利便性を向上させることができる。
なお、カテゴリー化されているかどうかは、表示する概念表現と図1-14テキストカテゴリー記憶部に記憶されているカテゴリーのカテゴリー定義とのマッチングを取ることで調べることができる。
第6の変更例としては、拡張概念表現を検索し、検索結果としての拡張概念表現を表示する場合には、検索のために指定された概念表現とマッチする部分の表示形態を異ならせてもよい。
図28および図29は、拡張概念表現の検索結果を表示する画面を示している。なお図28においては、指定された拡張概念表現とマッチする部分と他の部分との表示形態を異ならせている。具体的には、図28においては、指定にマッチする部分に枠を表示している。また、図29においては、指定にマッチする部分の背景の模様を異ならせている。
更に他の例としては、文字の色、文字の大きさ、ゴシック、明朝などの表示フォント、太文字、イタリック体などの字体、下線の有無、点滅表示の有無等により、カテゴリー化における利用の有無を表示してもよい。
以上のように、拡張概念表現を表示する場合に、ユーザから指定された検索条件にマッチする部分を、他の部分と異なる表示形態で表することにより、視認により、いずれの拡張概念が指定された検索条件に合致したのかを視認により容易に把握することができ、利便性を向上させることができる。
なお、検索結果を表示する際の、検索結果概念表現と指定概念表現とのマッチングは以下のようにして行う。
まず、指定概念表現を記憶する。そして、概念表現拡張検索を行う。次に、検索の結果得られたすべての概念表現について以下の処理を行う。すなわち、検索結果概念表現のすべての概念表現基本単位について以下の処理を行う。当該基本単位が、指定概念表現に含まれるかを調べる。指定概念表現に含まれる場合は、当該基本単位の表示方法を変えて表示処理を行う。
また、指定概念表現に含まれない場合は、当該基本単位の表示方法を変えずに表示処理を行う。上記処理において、指定概念表現に含まれる概念表現基本単位と、検索結果概念表現に含まれる概念表現基本単位とが同じかどうかを調べることで、マッチングを取っている。これ以外にも、指定概念表現に含まれる概念表現基本単位がその順番を保持して、検索結果概念表現に現れるかを調べることでマッチングを取ることもできる。
(実施の形態2)
次に、実施の形態2にかかる文書処理装置1について説明する。実施の形態2にかかる文書処理装置1は、自由記述回答のアンケートデータのような大量のテキスト集合からユーザに必要なカテゴリー構造を生成することができる。
図30は、実施の形態2にかかる文書処理装置1の構成を示ブロック図である。実施の形態2にかかる文書処理装置1は、セッション情報記憶部15を備えている。また、カテゴリー処理部10は、実施の形態1にかかるカテゴリー処理部10の機能構成に加えて、データ判別部150を有している。この点で、実施の形態2にかかる文書処理装置1は、実施の形態1にかかる文書処理装置1とその構成が異なっている。
なお、これ以外の構成は、実施の形態1において説明した対応する番号の構成と同様である。
図31は、実施の形態2にかかる文書処理装置1の処理対象である、文書集合データのデータ構成を示している。このように、文書集合データは、複数のフィールドデータを有している。なお、図31に示す1行が1つの文書集合データである。すなわち、文書集合データは、4つのフィールドデータを有している。
文書データ取得部101は、対象となる文書集合を外部から取得する。そして、文書データを各フィールドごとのテキストデータ集合に分割する。
言語処理部120は、各フィールドのデータに対して、言語解析処理、概念表現抽出処理などを行うことで、フィールドデータ集合に含まれる概念表現を抽出する。
また言語処理部120では、各フィールドに対してデータの型の判別を行う。フィールドデータが数値型、日時型であるかを判別し、フィールドのすべてのデータが数値型であればそのフィールドを数値型、日付型であれば日時型、どちらでもなければテキスト型とする。
さらに言語処理部120では、各フィールドに対してデータがカテゴリカルデータであるかを判定する。フィールドデータ1件を1文字列とし、フィールドデータ1件1件を比較し、特定の文字列パターンしか出現しない場合はそのフィールドをカテゴリカルデータと判定し、出現文字列パターンを定義とするカテゴリカルデータカテゴリーを自動で生成する。
図32は、基本概念表示ブラウザを示している。図32の画面表示例では、前処理として予め「1単語」、「2単語」、「3単語」、「1単語(+意図タグ)」、「意図タグ」の5種類のパターンについてテキストデータ集合に含まれる概念表現をすべて抽出したものを表示している。
言語処理部120での処理が終了すると、ユーザは図32に示す概念表現表示ブラウザから1つの対象フィールドにおけるテキストデータ集合に含まれる概念表現を探索する。そして、自分に必要な概念を検索する。
このとき、ユーザが指定した概念表現を拡張した概念表現を検索する拡張概念表現検索などの機能を利用することができる。また、すでに作成したカテゴリーに属する文書集合に対応するテキストデータ集合に含まれる概念表現を基本概念表示ブラウザに表示させることができる。
ユーザは概念表現表示部103において表示する対象フィールドを変更することで、他のフィールドにおけるテキストデータ集合に含まれる概念表現を表示することができる。
カテゴリー生成部104は、ユーザが指定した文書に対して、文書カテゴリーを生成する。ここで文書カテゴリーとは、所属文書の基準となるカテゴリー定義を持ち、定義に基づいて集められた文書をメンバーとする文書グループのことである。
本実施例では、以下の6種類にカテゴリーが生成できるものとする。
1)概念表現カテゴリー
概念表現を定義とするカテゴリー。概念表現表示部103でユーザが指定した概念表現を利用してカテゴリーを生成する。
2)複合カテゴリー
既存のカテゴリーの論理式を定義とするカテゴリー。ユーザは文書カテゴリー表示部105において操作を行うことで作成する。
3)データID指定カテゴリー
文書IDリストを定義とするカテゴリーのことである。本実施例ではユーザが作成することはできない。
4)カテゴリカルデータカテゴリー
文字列を定義とするカテゴリーのことである。定義の文字列と完全一致するフィールドデータを文書がメンバーとなる。カテゴリカルデータ判別処理においてシステムにより自動的に作成されるカテゴリー。ユーザの指定により生成することもできる。
5)数値カテゴリー
数値の一致、大小などをあらわす式を定義とするカテゴリーのことである。フィールドのデータ型が数値型である場合に作成することができる。
6)日時カテゴリー
日時の一致、大小などをあらわす式を定義とするカテゴリーのことである。フィールドのデータ型が日時型である場合に作成することができる。
ユーザは、基本概念表示ブラウザに文書情報を表示させたり、基本概念表示ブラウザに表示されている概念表現を含むテキストを表示させたりすることができる。このような作業を繰り返し行うことで、文書集合に含まれる概念表現のうち、自分に必要な概念表現を探し出してカテゴリー化、あるいは複合カテゴリーなどのカテゴリーを生成することで、必要なカテゴリー構造を生成することができる。
以下、実施の形態2にかかる文書処理装置1について詳述する。文書処理装置1の文書データ取得部101は、対象となる文書集合を取得する。ここで、取得する文書は、ユーザによって入力された文書であってもよく、電子ファイルやデータベースに格納されているテキストを読み込んだものであってもよい。ただし、文書データは表形式に表現することが可能な、1つ以上のフィールドデータで構成されたデータであり、文書データ取得部101において各フィールドデータを抽出することが可能なフォーマットで記述されている必要がある。たとえば電子ファイルであればCSV形式が望ましい。
文書データ取得部101は、文書集合データを取得すると、取得した文書集合データに対して当該文書処理装置1において識別可能な文書IDを付与する。さらに、各文書データをフィールドごとのデータに分割し、データ判別部150および言語処理部120に送る。
本実施例では、登録する1文書集合に対する情報を「セッション情報」として管理する。セッション情報には、ユニークなIDが付与され管理される。
図33は、セッション情報のデータ構成を示している。このように、セッション情報は、セッションIDに対応付けて管理されている。なお、セッション名などは、ユーザからの指定により定めてもよい。
さらに、1セッションに含まれるフィールドに関する情報を「フィールド情報」として管理する。フィールドには、セッション内でユニークなIDが付与され、管理される。
図34は、フィールド情報のデータ構成を示している。このように、フィールド情報はセフィールドIDに対応付けて管理されている。なお、フィールド名などは、ユーザからの指定により定めてもよい。フィールド名などはユーザに入力させてもよい。セッション情報およびフィールド情報は、図1に示すセッション情報記憶部15に記憶されている。
(データ判別)
次に、データ判別部150の処理について説明する。データ判別部150は、以下の処理を行う。
1)データの型判別
2)カテゴリカルデータ判別
1)データの型判別
データ判別部150は、各フィールドに対してデータの表記フォーマットを検査する。これにより、データの型を数値型、日時型、テキスト型(数値型でも日時型でもない)のいずれであるかを判別する。そして、あるフィールドのデータがすべて数値型であればそのフィールドを数値型、データがすべて日時型であればそのフィールドを日時型、どちらでもなければそのフィールドをテキスト型とする。データ型の情報は図34に示した「データタイプ」として蓄積される。
2)カテゴリカルデータ判別
データ判別部150は、さらに各フィールドに対して、フィールドデータ1件を1文字列とした場合に、フィールドデータがある特定の文字列パターンのみで構成されているか否かを検査する。特定の文字列パターンのみで構成されている場合は、そのフィールドをカテゴリカルデータであると判別する。判別結果、すなわちカテゴリカルデータであるか否かを示す情報は、図34に示した「フィールド情報」として蓄積される。
特定の文字列パターンのみで構成されているか否かは、たとえば「出現文字列パターン数が全フィールドデータ数の10%以下である」などのルールで判定することができる。なお判定の際のルールは、予め定められている。
(言語処理)
次に、言語処理部120の処理について説明する。言語処理部120は、以下の処理を行う。
1)概念表現抽出
2)拡張概念表現検索
なお、言語処理部120は、実施の形態2の文書処理装置1に特徴的な処理を行う。すなわち、実施の形態2に係る言語処理部120は、各フィールドに対して言語処理を行う。この点で、実施の形態1にかかる言語処理部120と異なっている。なお、各フィールドに対する言語処理部120の処理は、実施の形態1にかかる言語処理部120の処理と同様である。
1)概念表現抽出
言語処理部120のテキストデータ構造生成部202では、言語解析部201の結果に基づいて各フィールドデータをデータ構造に変換する。さらに、実施の形態1において図8を参照しつつ説明した単語リストを生成する。なお、実施の形態2においては、フィールドデータに含まれる単語に対してユニークな単語IDを付与する。このとき、さらに品詞情報や全体における出現頻度あるいは出現文書数を算出しておいてもよい。
また、各構成要素が保持する情報は、実施の形態1において図5−1〜図5−2を参照しつつ説明した各ノードが有する情報と同様である。すなわち、フィールドデータはフィールドデータに含まれる文IDリストを管理する、そして、各文は自分の文IDと当該文に含まれる文節リストを管理する。文節は自分の文節IDと文節に含まれる単語IDリスト、係り文節IDリストおよび受け文節IDを管理する。単語IDは図5−1〜図5−2に示した単語リストにおけるIDである。係り文節IDリストは、当該文節を受けとする係り文節のIDである。
上記例にもあるように、1つの受け文節に対して複数の文節が係り文節となりうるので係り文節IDリストで管理する。受け文節IDは当該文節が係り文節となる受け文節のIDである。係り文節は受け文節を1つしかとることができない。
文節が管理する情報として、係り受けの関係の種類を保持することも可能である。たとえば連体修飾なのか連用修飾なのかなどである。また文節を結ぶ助詞の種類により関係の種類を記述することもできる。
またテキストデータ構造生成部202において、文節内の付属語表現などから文書データ構造内の単語あるいは文節に対して付加的な意味を表す意図タグを付与する。意図タグは文節内の付属語などが特定の付加的な意味を表している場合に、その意味をタグとして文節に付加するものである。たとえば「打消」、「要望」、「可能」および「疑問」の意味タグは、文節内に以下のような単語が出現した場合にその文節に付加する。1つの文節に複数の意図タグがつくこともある。
意図タグID1「打消」:助動詞「ない」、助動詞「ず」、助動詞「まい」、補助助動詞「にくい」、形容詞「ない」
意図タグIDに「要望」:助動詞「たい」、動詞「欲しい」、接続助詞「て」+動詞「欲しい」
意図タグID3「疑問」:終助詞「か」、終助詞「か」+終助詞「な」、記号「?」
意図タグID4「可能」:補助動詞「できる」、助動詞「れる」、助動詞「られる」
概念表現では、たとえば「(+打消+可能)」といった表現で意図タグをあらわす。意図タグは単独でも概念表現にもなるし、「実行(+可能+打消)」といったように単語に付加した形でも用いることができる。
また、言語処理部120の概念表現抽出部204は、テキストデータ構造を利用して、フィールドデータに含まれる概念表現を抽出する。具体的には、まず前処理として予め特定のパターンの概念表現について、フィールドデータに含まれる全種類を抽出しておく。
そして、抽出した情報を元にしてユーザが基本概念表現の探索を行えるようするのが望ましい。本実施の形態においては、1単語」「2単語」「3単語」「1単語(+意図タグ)」「意図タグ」の5種類について予め全種類を計算しておく。概念表現の抽出の際には、その概念表現が出現する文書数、又は出現頻度も算出する。
概念表現記憶部13は、抽出された概念表現に対してユニークなIDを付与し、出現文書数、出現頻度などの情報とともに記憶し、管理する。
2)拡張概念表現検索
言語処理部120の拡張概念表現検索部205は、現在処理対象となっているフィールドに対して、拡張概念表現検索を行う。本実施の形態においては、ユーザが指定した概念表現に対して、トークンのみで構成される概念表現基本単位を1つ追加するパターンの概念表現と、指定された概念表現の末端の概念表現基本単位の意図タグを追加するパターンの概念表現を抽出する。実施の形態1におい図6において説明したテキストに対して「インストール⇒実行」という概念表現が指定された場合、以下の概念表現が抽出される。
拡張概念表現1 :インストール⇒実行(+可能)
拡張概念表現2 :インストール⇒実行(+打消)
拡張概念表現3 :インストール⇒実行(+可能+打消)
拡張概念表現4 :ソフトウェア⇒インストール⇒実行
さらに、1)概念表現抽出、2)拡張概念表現検索のいずれの処理も、ユーザが指定したフィールドデータ部分集合を対象として行うことができる。
具体的には、概念表現抽出部204が指定受付部15を介して対象となるフィールドデータ部分集合の指定を取得し、取得した指定に示されるフィールドデータ部分集合に対してのみ概念表現抽出処理を行う。これにより、ユーザの希望するフィールドデータに対してのみ概念表現抽出処理を行うことができる。
また、フィールドデータ部分集合の指定として、既存の文書カテゴリーを指定することができる。この場合には、指定された文書カテゴリーの所属文書に属するフィールドデータを対照として処理を行う。これにより他フィールドに対して作成した文書カテゴリーの所属文書の情報を用いて概念表現の抽出、検索を行うことができる。なお、この場合、ユーザは、図32に示した基本概念表示ブラウザに表示された「対象範囲指定カテゴリー」において対象範囲を指定する。
(概念表現表示)
概念表現表示部103は、言語処理部120によって抽出された概念表現を表示する。具体的には、図32に示す基本概念表現ブラウザをモニタ16に表示する。ユーザは、概念表現表示部103において、抽出された概念表現を参照、あるいは拡張概念表現検索結果を参照することなどで概念表現を探索することができる。
概念表現の表示は1フィールドに関するする情報のみが表示される。ユーザは表示対象フィールドを指定することで、概念表現表示部103で表示する概念表現の対象フィールドを変更することができる。
(文書カテゴリー生成)
文書カテゴリー生成部104は、文書カテゴリーを生成する。文書カテゴリーとは、所属文書の基準となるカテゴリー定義を持ち、定義に基づいて集められた文書をメンバーとする文書グループのことである。文書カテゴリーは、以下の情報により記憶され、管理される。図35にカテゴリー情報の例を示す。なお、カテゴリー定義は、これとは別に管理されている。
図35に示すようにカテゴリーIDと、関連フィールドID(リスト)、カテゴリーラベル、カテゴリー種類、所属文書IDリストおよび所属文書数とが対応付けられている。
ここで、カテゴリーラベルは、ユーザからの指定により定められてもよい。関連フィールドIDとは、カテゴリー生成におかえる対象となるフィールドに関する情報を識別するIDである。複合カテゴリー以外の文書カテゴリーは関連フィールドIDは1つである。
複合カテゴリーの場合は、カテゴリー定義に含まれるカテゴリーの関連フィールドすべての列挙が関連フィールドID(リスト)となる。たとえば、フィールド3から作られたカテゴリーとフィールド4から作られたカテゴリーで構成される複合カテゴリーの関連フィールドIDは「3、4」である。
本実施の形態において生成される文書カテゴリーは以下の6種類である。
1)概念表現カテゴリー
2)複合カテゴリー
3)データID指定カテゴリー
4)カテゴリカルデータカテゴリー
5)数値カテゴリー
6)日時カテゴリー
1)概念表現カテゴリー
概念表現カテゴリーは概念表現を定義とするカテゴリーである。ユーザが概念表現表示部103において概念表現を指定することにより、文書カテゴリーを生成することができる。
概念表現表示部103において、カテゴリー化の操作が行われると、カテゴリー生成部104において、指定された概念表現をカテゴリー定義とし、その概念表現を含むフィールドデータを持つ文書を所属メンバーとする文書カテゴリーが生成される。
テキストデータ構造記憶部12に記憶されているテキストデータ構造に基づいて、指定された概念表現を含むフィールドデータを抽出し、そのフィールドデータを持つ文書を文書カテゴリーの所属文書とする。関連フィールドIDは概念表現表示部103で現在表示対象となっているフィールドIDとなる。
2)複合カテゴリー
複合カテゴリーは既存のカテゴリーの論理式を定義とするカテゴリーである。ユーザは文書カテゴリー表示部105において操作を行うことで作成することができる。文書カテゴリー表示部105、具体的には図32に示す画面に表示された「カテゴリーリスト」および「ワークスペース」において、ユーザが組み合わせを指定することで生成することができる。
カテゴリーの組み合わせは既存カテゴリーのカテゴリーIDの論理演算式であらわすことができる。本実施の形態においては、複合カテゴリーとして、「複合ANDカテゴリー」「複合ORカテゴリー」「複合NOTカテゴリー」を生成することができる。
「複合ANDカテゴリー」は、指定されたカテゴリーIDのANDをとるカテゴリーである。例えば、カテゴリー1、カテゴリー3およびテゴリー5が指定されている場合、「複合ANDカテゴリー」のカテゴリー定義は「1AND3AND5」となる。そして、所属テキストは3つのカテゴリーの所属テキスト集合の積集合となる。
「複合ORカテゴリー」は、指定されたカテゴリーIDのORをとるカテゴリーである。例えば、カテゴリー1、カテゴリー3およびカテゴリー5が指定されている場合、「複合ANDカテゴリー」のカテゴリー定義は「1OR3OR5」となる。そして、所属テキストは3つのカテゴリーの所属テキスト集合の和集合となる。
「複合NOTカテゴリー」は、指定されたカテゴリーIDのNOTをとるカテゴリーである。例えば、カテゴリー1、カテゴリー3およびリー5が指定されている場合、「複合ANDカテゴリー」のカテゴリー定義は「NOT(1OR3OR5)」となる。そして、所属テキストは3つのカテゴリーの所属テキスト集合の和集合の否定となる。関連フィールドIDはカテゴリー定義に含まれるカテゴリーの関連フィールIDを列挙したリストとなる。
3)データID指定カテゴリー
データIDカテゴリーは文書IDリストを定義とするカテゴリーである。本実施の形態においては、「すべてのフィールドデータ」をメンバーとするカテゴリーを生成するために利用している。ユーザにより、任意に作成することはできない。
なお、他の例としては、ユーザによる文書IDの指定により、データID指定カテゴリーを生成してもよい。ただし、この場合、カテゴリー定義の再利用は同じ対象文書集合内でのみ有効であり、他の対照文書集合に対する再利用、再適用はできない点を注意する必要がある。すべての定義を再利用可能にするためには、データID指定カテゴリーはユーザからの指定による作成は、できないほうが望ましい。
4)カテゴリカルデータカテゴリー
カテゴリカルデータカテゴリーは、カテゴリカルデータであると判別されたフィールドに対して自動的に作成されるカテゴリーである。セッション情報記憶部15に記憶されているフィールド情報において、「カテゴリカル」であると記載されているフィールドに対して、文書カテゴリー生成部104では自動でカテゴリー生成を行う。フィールドデータに出現する特定の文字列パターンを定義とし、その文字列パターンと一致するフィールドデータを持つ文書をカテゴリーの所属文書とする。
5)数値カテゴリー
数値カテゴリーはデータ型が「数値型」であると判別されたフィールドに対して作成することのできるカテゴリーである。以下に示すような、数値の一致、大小などを表す式をカテゴリー定義とする。カテゴリー定義は文字列エディタを提示することにより、ユーザにより直接記述される。
FieldData =1
FieldData>=0
FieldData<0
6)日時カテゴリー
日時カテゴリーはデータ型が「日時型」であると判別されたフィールドに対して作成することのできるカテゴリーである。以下に示すような日時の一致、大小などをあらわす式を定義とするカテゴリーである。ある特定の年、月、日、時、分、秒、曜日、午前/午後などを指定できるようにしてもよい。
FieldData= 2003/6
FieldData< 2002/4
FieldData> 2003/5/24:11:00
FieldData= 8月
FieldData= 月曜
FieldData= 午後
(カテゴリー表示)
文書カテゴリー表示部105は、生成されたカテゴリーを表示する。図32に示す「カテゴリーリスト」のようにリスト表示したり、「ワークスペース」のようにグラフィカル表示してもよい。なお、表示形態は、本実施の形態に限定されるものではない。
ユーザは関連フィールドIDを指定することにより、表示するカテゴリーを指定することができる。
(テキスト表示)
文書データ表示部107は、ユーザから指定された概念表現を含むフィールドデータや、指定されたカテゴリーに属する文書データを表示することができる。
文書データ表示部107、具体的には、図32に示す画面に表示されている「データブラウザ」に、概念表現表示部103上でユーザが指定した概念表現を含むフィールドデータを持つ文書を表示させる。概念表現記憶部13に記憶されているテキストデータ構造に基づいて、指定された概念表現を含むフィールドデータを抽出し表示する。
また文書データ表示部107は文書カテゴリー表示部105上でユーザが指定したカテゴリーに属するテ文書を表示することができる。文書カテゴリー記憶部14が記憶しているカテゴリー情報から、指定されたカテゴリーに属する文書ID、関連フィールドIDを検出する。そして、テキストデータ構造記憶部12に記憶されているテキストデータ構造に基づいて、検出した文書ID、関連フィールドIDに対応する文書(フィールドデータ)を抽出し表示する。
文書データがマルチフィールドである場合は、ユーザがデータを表示するフィールドを指定することもできる。
以上のように、実施の形態2にかかる文書処理装置1は、文書が複数のフィールドを有する場合に、各フィールドを対象として、文書カテゴリー生成等の処理を行うことができる。
(実施の形態3)
次に、実施の形態3にかかる文書処理装置1について説明する。図36に実施の形態3にかかる文書処理装置1の構成を示すブロック図である。実施の形態3にかかるカテゴリー処理部10は、実施の形態2にかかるカテゴリー処理部10の機能構成に加えて、既存文書カテゴリー検索部160および既存文書カテゴリー表示部162を有している。この点で、実施の形態3にかかる文書処理装置1は、実施の形態2にかかる文書処理装置1とその構成が異なっている。
既存文書カテゴリー検索部160は、指定受付部15を介してユーザからの指定を取得する。そして、取得した指定に基づいて既存文書カテゴリーを検索する。ここで、既存文書カテゴリーとは、既に登録されているカテゴリーのことである。また、既存文書カテゴリー表示部162は、既存文書カテゴリー検索部160によって検索された既存文書カテゴリーをモニター16に表示させる。
図37は、文書データ表示部107がモニタ16に表示する既存文書カテゴリーブラウザ600を示している。既存文書カテゴリーブラウザ600は、「カテゴリー一覧表示指定」エリア610、「カテゴリー検索」エリア612、「カテゴリー一覧表示」エリア614および「カテゴリー構造一覧表示」エリア616を含んでいる。
「カテゴリー一覧表示指定」エリア610において、ユーザは、所望のカテゴリーを指定することができる。「カテゴリー検索」エリア612において、検索ワードを指定することにより、所望の」カテゴリーを指定することができる。「カテゴリー一覧表示」エリア614は、「カテゴリー一覧表示指定」エリア610または「カテゴリー検索」エリア612における指定に基づく検索結果の一覧を表示する。
このように、ユーザは、既存カテゴリーブラウザ600の表示内容に基づいて、カテゴリーを参照、検索、および指定することができる。これらの操作により、既存カテゴリーの定義を現在の対象文書集合に適用することができる。すなわち、対象文書集合に対して、カテゴリーとして既存カテゴリーを割り当てることができる。
図38は、指定ブラウザ700を示している。ユーザは、モニタ16に表示される指定ブラウザ700を利用して、カテゴリーを指定する対象となるフィールドを指定することができる。
1)カテゴリーの一覧表示
現在のセッションあるいは他のセッションで作成された全カテゴリー情報を表示する。図37に示す既存文書カテゴリーブラウザ600の「カテゴリー一覧表示指定」エリア610において、対象となるセッションが選択され、「表示」ボタンが押下される。
このとき、既存文書カテゴリー検索部160は、指定条件を取得し、指定されたセッションで作成されたカテゴリーを文書カテゴリー記憶部14から取得する。そして、既存文書カテゴリー表示部162は、既存文書カテゴリー検索部160からカテゴリーを取得し、取得したカテゴリーを「カテゴリー一覧表示」エリア614に表示させる。
2)カテゴリーの検索
現在のセッションあるいは他のセッションで作成されたカテゴリーから指定されたキーワードを含むカテゴリーラベルを持つカテゴリーを検索する。
「カテゴリー検索」エリア612において、対象となるセッションが選択され、「検索キーワード」入力エリアにキーワードが入力され、「検索」ボタンが押下される。
このとき、既存文書カテゴリー検索部160は、検索キーワードを含むカテゴリーを文書カテゴリー記憶部14から取得する。そして、既存文書カテゴリー表示部162は、既存文書カテゴリー検索部160によって検索されたカテゴリーを「カテゴリー一覧表示」エリア614に表示させる。
さらに、「カテゴリー一覧表示」エリア614に表示されているカテゴリーから所定のカテゴリーを選択すると、「カテゴリー構造一覧表示」エリア616に選択されたカテゴリーを含むカテゴリー構造の一覧が表示される。
3)カテゴリーの再利用
カテゴリー一覧表示」エリア614または「カテゴリー一覧表示」エリア614に表示されている文書カテゴリーを現在対象となっている文書集合に適用することができる。各エリアに表示されているカテゴリーを選択し、文書カテゴリー表示部105が表示する画面にドラッグアンドドロップする。または、「カテゴリー再利用」メニューにより、カテゴリーの再利用を指定することとしてもよい。
具体的には、図38に示すブラウザ700において、対象となるフィ−ルド、すなわち読み込み元のカテゴリーの対象文書のフィールドと、現在対象となっている文書のフィールドの対応を指定する。
この指定に基づいて、カテゴリー生成部104は、指定された文書カテゴリーのカテゴリー定義とフィールド対応情報に基づいて、カテゴリーを生成する。生成したカテゴリーは、文書カテゴリー記憶部14に記憶される。
以上のように、実施の形態3にかかる文書処理装置1によれば、既存カテゴリーを利用して、フィールドに対するカテゴリーを生成することができる。
以上のように、本発明にかかる文書処理装置、文書処理方法および文書処理プログラムは、文書データのカテゴリーを生成するのに有用であり、特に、言語解析結果に基づいてカテゴリーを生成するのに適している。
実施の形態1である文書処理装置1の構成を示すブロック図である。 図1を参照しつつ説明した言語処理部120の詳細な機能構成を示すブロック図である。 図2を参照しつつ説明した概念表現抽出部204の詳細な機能構成を示すブロック図である。 テキストデータ構造記憶部12に格納されているテキストデータのテキストデータ構造を模式的に示す図である。 「テキストデータ」ノードが有する情報を示す図である。 「文」ノードが有する情報を示す図である。 「文節」ノードが有する情報を示す図である。 係り文節、受け文節、および関係種類について説明するための図である。 意図タグと文節に含まれる単語との関係を示す図である。 テキストデータ構造記憶部12に格納されている単語リストを示す図である。 テキストカテゴリー記憶部14のデータ構成を示す図である。 所属テキストデータIDリストを示す図である。 本実施の形態にかかるカテゴリー処理部10のカテゴリー生成処理を示すフローチャートである。 当該カテゴリー生成処理において、モニタ16に表示される基本概念表示ブラウザ500を示す図である。 図10において説明した概念表現抽出処理(ステップS104)における言語処理部120の詳細な処理動作を示すフローチャートである。 図12において説明したトークン間関係抽出処理(ステップS208)における概念表現生成部243の詳細な処理動作を示すフローチャートである。 図10において説明した拡張概念表現検索処理(ステップS110)における拡張概念表現検索部205の詳細な処理動作を示すフローチャートである。 カテゴリー処理部10のハードウェア構成を示す図である。 第1の変更例にかかる概念表現抽出部204の機能構成を示すブロック図である。 第2の変更例にかかる概念表現抽出部204の機能構成を示すブロック図である。 第3の変更例にかかる選択画面600を示す図である。 並べ替えの対象となる概念表現リストを示す図である。 図19に示す概念表現リストを、第1の概念表現により並べ替えた後の表示概念リストを示す図である。 第2基本単位により並べ替えが行われた後の基本概念リストを示す図である。 第3基本単位により並べ替えが行われた後の基本概念リストを示す図である。 第1基本単位で並べ替え、その後さらに第3基本単位により並べ替えた後の基本概念リストを示す図である。 第4の変更例にかかる選択画面620を示す図である。 概念表現リストを「安い」という概念表現で揃えた後の概念表現のリストを示す図である。 概念リストを「カメラ」という概念表現で揃えた後の概念表現のリストを示す図である。 概念表現リストの背景模様を異ならせる例を示す図である。 拡張概念表現の検索結果を表示する画面を示す図である。 拡張概念表現の検索結果を表示する画面を示す図である。 実施の形態2にかかる文書処理装置1の構成を示ブロック図である。 実施の形態2にかかる文書処理装置1の処理対象である、文書集合データのデータ構成を示す図である。 基本概念表示ブラウザを示す図である。 セッション情報のデータ構成を示す図である。 フィールド情報のデータ構成を示す図である。 カテゴリー情報の例を示す図である。 実施の形態3にかかる文書処理装置1の構成を示すブロック図である。 文書データ表示部107がモニタ16に表示する既存文書カテゴリーブラウザ600を示す図である。 指定ブラウザ700を示す図である。
符号の説明
1 文書処理装置
10 カテゴリー処理部
12 テキストデータ構造記憶部
13 概念表現記憶部
14 テキストカテゴリー記憶部
15 指示受付部
16 モニタ
62 バス
101 テキスト取得部
103 概念表現表示部
104 テキストカテゴリー生成部
105 テキストカテゴリー表示部
106 テキスト管理部
107 テキストデータ表示部
120 言語処理部
201 言語解析部
202 テキストデータ構造生成部
204 概念表現抽出部
205 拡張概念表現検索部
241 トークン抽出部
242 トークン間関係抽出部
243 概念表現生成部
251 意図表現抽出部
252 意図表現間関係抽出部
253 概念表現生成部
261 トークン抽出部
262 意図表現抽出部
263 概念表現基本単位生成部
264 概念表現基本単位間関係抽出部
265 概念表現生成部

Claims (13)

  1. 文書のカテゴリーを生成する文書処理装置であって、
    入力された、複数のフィールドデータが表形式で表現された文書集合データに含まれる前記複数のフィールドデータのそれぞれに対して言語解析を行う言語解析手段と、
    前記言語解析手段における言語解析の結果に基づいて、所定の意味を有する1の単語または2以上の単語の組み合わせで表現された概念表現を抽出する概念表現抽出手段と、
    前記複数のフィールドデータのそれぞれを含む文書集合データと、前記複数のフィールドデータのそれぞれを含む文書集合データを識別する文書識別情報とを対応付けて記憶する文書記憶手段と、
    前記概念表現抽出手段が抽出した概念表現のうち、所定の概念表現の指定をユーザから受け付ける概念表現指定受付手段と、
    前記概念表現指示受付手段が指定を受け付けた概念表現に基づいて文書カテゴリーを生成する文書カテゴリー生成手段と、
    前記文書カテゴリーと、当該文書カテゴリーに属するフィールドデータの識別情報および前記文書識別情報とを対応付けて記憶する文書カテゴリー記憶手段と、
    前記文書カテゴリー記憶手段に記憶されている前記文書カテゴリーを表示する文書カテゴリー表示手段と、
    前記文書カテゴリー表示手段により表示された前記文書カテゴリーから、所定の文書カテゴリーの指定を、前記文書集合データの集合を管理るセッション情報の指定によりユーザから受け付ける文書カテゴリー指定受付手段と、
    前記文書カテゴリー記憶手段において、前記文書カテゴリー指定受付手段が指定を受け付けた前記文書カテゴリーに対応付けられている前記フィールドデータの識別情報および前記文書識別情報で識別される前記フィールドデータを前記文書記憶手段から抽出し、抽出したフィールドデータを表示する文書表示手段と
    を備えた
    ことを特徴とする文書処理装置。
  2. 前記概念表現抽出手段が抽出した概念表現を表示する概念表現表示手段をさらに備え、
    前記概念表現指定受付手段は、
    前記概念表現表示手段が表示する前記概念表現のうちから、概念表現の指定を受け付ける
    ことを特徴とする請求項1に記載の文書処理装置。
  3. 前記言語解析手段は、
    言語解析により意図を表現する意図表現語と、前記フィールドデータに含まれる自立語とを前記フィールドデータから抽出し、
    前記概念表現抽出手段は、
    前記意図表現語と前記自立語の組み合わせを概念表現として抽出する
    ことを特徴とする請求項1または2に記載の文書処理装置。
  4. 前記言語解析手段は、
    前記フィールドデータを文節に分割し、各文節間の文節間関係を解析し、
    前記概念表現抽出手段は、
    複数の前記概念基本単位と、当該概念基本単位間の前記文節間関係により表現された概念表現を抽出する
    ことを特徴とする請求項3に記載の文書処理装置。
  5. 前記概念表現抽出手段は、
    複数の前記自立語の組み合わせで表現された拡張概念表現を抽出し、
    前記概念表現指定受付手段は、
    前記概念表現抽出手段が抽出した拡張概念表現のうち、所定の拡張概念表現の指定をユーザから受け付ける
    ことを特徴とする請求項3または4に記載の文書処理装置。
  6. 前記概念表現抽出手段は、
    概念表現と他の前記自立語との組み合わせで表現された前記拡張概念表現を抽出する
    ことを特徴とする請求項5に記載の文書処理装置。
  7. 取得したフィールドデータのうち所定のフィールドデータの集合である部分集合の指定を受け付ける部分集合指定受付手段をさらに備え、
    前記概念表現抽出手段は、
    前記部分集合指定受付手段が指定を受け付けた部分集合から概念表現を抽出する
    ことを特徴とする請求項1から6のいずれか一項に記載の文書処理装置。
  8. 前記概念表現指定受付手段が指定を受け付けた概念表現の表示位置を合わせる第1表示編集手段をさらに備え、
    前記文書表示手段は、
    前記第1表示編集手段により概念表現の表示位置が合わせられた複数のフィールドデータを表示する
    ことを特徴とする請求項1から7のいずれか一項に記載の文書処理装置。
  9. 前記文書カテゴリー生成手段が文書カテゴリーを生成するときに利用した概念表現の表示形態を変更する第2表示編集手段をさらに備え、
    前記概念表現表示手段は、
    前記第2表示編集手段によって表示形態が変更された概念表現を表示する
    ことを特徴とする請求項2から8のいずれか一項に記載の文書処理装置。
  10. 前記概念表現抽出手段は、各フィールドデータに対する概念表現を抽出し、
    前記文書カテゴリー生成手段は、各フィールドデータに対する文書カテゴリーを生成する
    ことを特徴とする請求項1から9のいずれか一項に記載の文書処理装置。
  11. 前記文書カテゴリー生成手段は、
    ユーザから指定された複数の文書カテゴリーを組み合わせて、文書カテゴリーとする
    ことを特徴とする請求項1から10のいずれか一項に記載の文書処理装置。
  12. 文書のカテゴリーを生成する文書処理装置で実行される文書処理方法であって、
    前記文書処理装置は、
    複数のフィールドデータが表形式で表現された文書集合データと、前記複数のフィールドデータが表形式で表現された文書集合データを識別する文書識別情報とを対応付けて記憶するための文書記憶手段と、
    前記文書カテゴリーを記憶するための文書カテゴリー記憶手段と
    を備え、
    言語解析手段が、前記文書集合データに含まれる前記複数のフィールドデータのそれぞれに対して言語解析を行う言語解析ステップと、
    概念表現抽出手段が、前記言語解析ステップにおける言語解析の結果に基づいて、所定の意味を有する1の単語または2以上の単語の組み合わせで表現された概念表現を抽出する概念表現抽出ステップと、
    概念表現指定受付手段が、前記概念表現抽出ステップが抽出した概念表現のうち、所定の概念表現の指定をユーザから受け付ける概念表現指定受付ステップと、
    文書カテゴリー生成手段が、前記概念表現指示受付ステップが指定を受け付けた概念表現に基づいて文書カテゴリーを生成し、生成した文書カテゴリーと、当該文書カテゴリーに属するフィールドデータの識別情報および前記文書識別情報とを対応付けて前記カテゴリー記憶手段に記憶する文書カテゴリー生成ステップと、
    文書カテゴリー表示手段が、前記文書カテゴリー記憶手段に記憶されている前記文書カテゴリーを表示する文書カテゴリー表示ステップと、
    文書カテゴリー指定受付手段が、前記文書カテゴリー表示ステップで表示された前記文書カテゴリーから、所定の文書カテゴリーの指定を、前記文書集合データの集合を管理るセッション情報の指定によりユーザから受け付ける文書カテゴリー指定受付ステップと、
    文書表示手段が、前記文書カテゴリー記憶手段において、前記文書カテゴリー指定受付ステップが指定を受け付けた前記文書カテゴリーに対応付けられている前記フィールドデータの識別情報および前記文書識別情報で識別される前記フィールドデータを前記文書記憶手段から抽出し、抽出したフィールドデータを表示する文書表示ステップと
    を有する
    ことを特徴とする文書処理方法。
  13. 文書のカテゴリーを生成する文書処理方法をコンピュータに実行させるための文書処理プログラムであって、
    前記コンピュータは、
    複数のフィールドデータが表形式で表現された文書集合データと、前記複数のフィールドデータが表形式で表現された文書集合データを識別する文書識別情報とを対応付けて記憶するための文書記憶手段と、
    前記文書カテゴリーを記憶するための文書カテゴリー記憶手段と
    を備え、
    前記文書集合データに含まれる前記複数のフィールドデータのそれぞれに対して言語解析を行う言語解析ステップと、
    前記言語解析ステップにおける言語解析の結果に基づいて、所定の意味を有する1の単語または2以上の単語の組み合わせで表現された概念表現を抽出する概念表現抽出ステップと、
    前記概念表現抽出ステップが抽出した概念表現のうち、所定の概念表現の指定をユーザから受け付ける概念表現指定受付ステップと、
    前記概念表現指示受付ステップが指定を受け付けた概念表現に基づいて文書カテゴリーを生成し、生成した文書カテゴリーと、当該文書カテゴリーに属するフィールドデータの識別情報および前記文書識別情報とを対応付けて前記カテゴリー記憶手段に記憶する文書カテゴリー生成ステップと、
    前記文書カテゴリー記憶手段に記憶されている前記文書カテゴリーを表示する文書カテゴリー表示ステップと、
    前記文書カテゴリー表示ステップで表示された前記文書カテゴリーから、所定の文書カテゴリーの指定を、前記文書集合データの集合を管理るセッション情報の指定によりユーザから受け付ける文書カテゴリー指定受付ステップと、
    前記文書カテゴリー記憶手段において、前記文書カテゴリー指定受付ステップが指定を受け付けた前記文書カテゴリーに対応付けられている前記フィールドデータの識別情報および前記文書識別情報で識別される前記フィールドデータを前記文書記憶手段から抽出し、抽出したフィールドデータを表示する文書表示ステップと
    をコンピュータに実行させるための文書処理プログラム。
JP2004012291A 2003-03-18 2004-01-20 文書処理装置、文書処理方法および文書処理プログラム Expired - Fee Related JP4585768B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004012291A JP4585768B2 (ja) 2003-03-18 2004-01-20 文書処理装置、文書処理方法および文書処理プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2003074209 2003-03-18
JP2004012291A JP4585768B2 (ja) 2003-03-18 2004-01-20 文書処理装置、文書処理方法および文書処理プログラム

Publications (3)

Publication Number Publication Date
JP2004303198A JP2004303198A (ja) 2004-10-28
JP2004303198A5 JP2004303198A5 (ja) 2007-02-22
JP4585768B2 true JP4585768B2 (ja) 2010-11-24

Family

ID=33421815

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004012291A Expired - Fee Related JP4585768B2 (ja) 2003-03-18 2004-01-20 文書処理装置、文書処理方法および文書処理プログラム

Country Status (1)

Country Link
JP (1) JP4585768B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4877930B2 (ja) * 2006-03-22 2012-02-15 株式会社リコー 文書処理装置及び文書処理方法
EP2798531A1 (en) * 2011-12-27 2014-11-05 Koninklijke Philips Electronics N.V. Text analysis system
JP5642229B2 (ja) * 2013-04-30 2014-12-17 エヌ・ティ・ティ・コミュニケーションズ株式会社 重要性判定システム、重要性判定方法及びコンピュータプログラム
JP2016103156A (ja) * 2014-11-28 2016-06-02 エヌ・ティ・ティ・コムウェア株式会社 テキスト特徴量抽出装置、テキスト特徴量抽出方法、およびプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001101199A (ja) * 1999-09-29 2001-04-13 Fuji Xerox Co Ltd 文書処理装置
JP2003288355A (ja) * 2002-03-27 2003-10-10 Acot:Kk データベースシステム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4075094B2 (ja) * 1997-04-09 2008-04-16 松下電器産業株式会社 情報分類装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001101199A (ja) * 1999-09-29 2001-04-13 Fuji Xerox Co Ltd 文書処理装置
JP2003288355A (ja) * 2002-03-27 2003-10-10 Acot:Kk データベースシステム

Also Published As

Publication number Publication date
JP2004303198A (ja) 2004-10-28

Similar Documents

Publication Publication Date Title
US9659071B2 (en) Patent mapping
JP3577819B2 (ja) 情報探索装置及び情報探索方法
US6915308B1 (en) Method and apparatus for information mining and filtering
Alexa et al. A review of software for text analysis
US20090106238A1 (en) Contextual Searching of Electronic Records and Visual Rule Construction
KR20040102071A (ko) 자연어 인식 애플리케이션 구축을 위한 통합 개발 툴
Scharpf et al. Mathematics in wikidata
AU2012200701B2 (en) Patent Mapping
Higuchi KH Coder 2. x reference manual
JP4585768B2 (ja) 文書処理装置、文書処理方法および文書処理プログラム
Edhlund et al. NVivo for Mac essentials
KR101069278B1 (ko) 청구항 시각화 장치 및 방법
JP4877930B2 (ja) 文書処理装置及び文書処理方法
JP2000250908A (ja) 電子書籍の作成支援装置
JPH06231178A (ja) 文書検索装置
US7996356B2 (en) Text searching and categorization tools
Behrisch et al. The News Auditor: Visual Exploration of Clusters of Stories.
JP4525224B2 (ja) ドキュメント管理プログラム、ドキュメント管理方法、及びドキュメント管理装置
Weisser Dialogue Annotation & Research Tool (DART)
JP4248828B2 (ja) 文書処理装置、文書処理方法及び記録媒体
JP2003167893A (ja) 特許文献の理解支援システムおよび特許文献の理解支援プログラム
JPH08305726A (ja) 情報検索装置
Harikumar et al. An augmented semantic search tool for multilingual news analytics
JP2003223466A (ja) 特許検索装置、特許検索装置の制御方法、制御プログラムおよび記録媒体
KR20220146923A (ko) 검색키워드 다중 표기에 따른 우선순위 중심 선별문서 채택 시스템 및 그 구동방법

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070109

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070109

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090727

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090804

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091005

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091124

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100406

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100607

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100831

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100906

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130910

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees