JP2004078541A

JP2004078541A - 文書情報抽出処理装置、文書情報抽出処理方法、プログラム、および、記録媒体

Info

Publication number: JP2004078541A
Application number: JP2002237688A
Authority: JP
Inventors: Naoyuki Horai; 蓬莱　尚幸; Kiyoshi Nitta; 新田　清
Original assignee: Celestar Lexico Sciences Inc
Current assignee: Celestar Lexico Sciences Inc
Priority date: 2002-08-16
Filing date: 2002-08-16
Publication date: 2004-03-11

Abstract

【課題】テキストマイニング処理システムにおける情報抽出を高精度化し、抽出量の増加および抽出された情報の高度化を図ることができる、文書情報抽出処理装置、文書情報抽出処理方法、プログラム、および、記録媒体を提供することを課題とする。
【解決手段】本発明にかかる文書情報抽出処理装置は、表記辞書情報またはカテゴリ辞書に定義された各用語の正規形、別表記形またはカテゴリ項目に対して、情報抽出する際の条件となる属性情報を登録し、分析対象文書の原文情報の中に正規形、別表記形またはカテゴリ項目が存在した場合に、当該正規形、当該別表記形または当該カテゴリ項目が登録された対応する属性情報を有するときには当該正規形、当該別表記形または当該カテゴリ項目を情報抽出する。
【選択図】　　　図６

Description

【０００１】
【発明の属する技術分野】
本発明は、文書情報抽出処理装置、文書情報抽出処理方法、プログラム、および、記録媒体に関し、特に、テキストマイニング処理システムにおける情報抽出を高精度化し、抽出量の増加および抽出された情報の高度化を図ることができる文書情報抽出処理装置、文書情報抽出処理方法、プログラム、および、記録媒体に関する。
【０００２】
【従来の技術】
近年、論文などの各種の技術文献を蓄積した文献データベースが構築され、インターネットなどを介して広く利用されている。例えば、米国国立バイオテクノロジーセンター（ＮＣＢＩ）が米国国立医学図書館（ＮＬＭ）等の文献データを提供するＰｕｂＭｅｄなどが存在する（インターネット上のＰｕｂＭｅｄのＵＲＬ：　ｈｔｔｐ：／／ｗｗｗ．ｎｃｂｉ．ｎｌｍ．ｇｏｖ／ｅｎｔｒｅｚ／）。
【０００３】
従来の文献データベースの検索サービスにおいては、検索効率の向上などを図るために、各用語の正規形と表記形との対応を取るための「表記辞書」や、各用語についてカテゴリ分類するための「カテゴリ辞書」などが用いられている。
【０００４】
例えば、既存の表記辞書やカテゴリ辞書を用いたテキストマイニングシステムとして、ＩＢＭ（会社名）のＴＡＫＭＩ（製品名）が存在する（ＩＢＭ東京基礎研究所のテキストマイニング技術紹介のホームページのＵＲＬ：　ｈｔｔｐ：／／ｗｗｗ．ｔｒｌ．ｉｂｍ．ｃｏｍ／ｐｒｏｊｅｃｔｓ／ｓ７７１０／ｔｍ／ｉｎｄｅｘ．ｈｔｍ、ＴＡＫＭＩ紹介のホームページのＵＲＬ：　ｈｔｔｐ：／／ｗｗｗ．ｔｒｌ．ｉｂｍ．ｃｏｍ／ｐｒｏｊｅｃｔｓ／ｓ７７１０／ｔｍ／ｔａｋｍｉ／ｔａｋｍｉ．ｈｔｍ）。
【０００５】
また、医学用語のシソーラス検索サービスとして、ＭｅＳＨ（ＭｅｄｉｃａｌＳｕｂｊｅｃｔ　Ｈｅａｄｉｎｇｓ）などが存在する（ＮＬＭのＭｅＳＨのホームページのＵＲＬ：　ｈｔｔｐ：／／ｗｗｗ．ｎｌｍ．ｎｉｈ．ｇｏｖ／ｍｅｓｈ／ｍｅｓｈｈｏｍｅ．ｈｔｍｌ、ＭｅＳＨの概要を解説した論文のホームページのＵＲＬ：　ｈｔｔｐ：／／ｗｗｗ．ｎｌｍ．ｎｉｈ．ｇｏｖ／ｍｅｓｈ／ｐａｔｔｅｒｎｓ．ｈｔｍｌ、ＭｅＳＨ　ＢｒｏｗｓｅｒサービスのホームページのＵＲＬ：　ｈｔｔｐ：／／ｗｗｗ．ｎｃｂｉ．ｎｉｈ．ｇｏｖ／ｅｎｔｒｅｚ／ｍｅｓｈｂｒｏｗｓｅｒ．ｃｇｉ）。
【０００６】
【発明が解決しようとする課題】
ここで、テキストマイニングシステムの概要を図１を参照して説明する。図１は、テキストマイニング処理の概要を示す概念図である。
【０００７】
図１に示すように、本システムにおいて分析対象文書群に含まれる各文書情報に現れる語の文字列から概念への対応をつけるために、以下の手順を実行する。
【０００８】
まず、表記辞書を作成（手作業で作成される）し、英語や日本語などで記載された文書情報の各語に表記辞書を適用する（ステップＳＡ−１）。
【０００９】
そして、部分的に語区切りのついた文書情報に対して、判別ルールに従って専門用語を判別した後（ステップＳＡ−２）、構文解析処理を適用する（ステップＳＡ−３）。ここで、表記辞書の適用と構文解析の実行の順序は任意であり、また、これらを平行して実行してもよい。
【００１０】
そして、カテゴリ辞書を作成（手作業で作成される）し、構文解析結果である文書情報の適切な文構造、および、表記辞書を適用して得られた結果に対してカテゴリ辞書を適用してカテゴライズを行い、カテゴリに対応する用語を集計しインデックスを作成する（ステップＳＡ−４）。
【００１１】
そして、カテゴライズされた概念等の出現頻度などを計算・集計して所望の統計・分析処理を行い（ステップＳＡ−５）、文書情報中の単語の登場する頻度などをグラフ化した頻度グラフや、文献発行年月日毎等に頻度などをグラフ化した情報時系列グラフや、２−Ｄマップなどの形式に整形して表示する（ステップＳＡ−６）。そして、利用者は、表示された出現頻度などの各種の統計・分析情報から手作業・目視で所望の情報を抽出する。
【００１２】
しかしながら、従来のテキストマイニング処理システムにおいては、表記辞書情報に定義された各用語の正規形または別表記形を分析対象文書の原文から情報抽出し、その出現頻度などを統計・分析を行う際に、表記辞書に登録されたものであれば必ず抽出してしまうため情報抽出時のノイズが多いという問題点を有していた。
【００１３】
また、従来、表記辞書は主に人手により作成・更新されていたために、辞書に登録された各エントリの内容に不具合がある場合も多かった。しかしながら、従来のテキストマイニング処理システムにおいては、登録されたエントリに不具合がある場合であっても、その表記辞書に基づいて情報抽出を行うため、情報精度の悪い粗悪な表記辞書を使用すると情報抽出精度が低下するという問題点を有していた。
【００１４】
また、従来のテキストマイニング処理システムにおいては、表記辞書に登録されたものであれば必ず抽出してしまうため、同一の用語であっても品詞が異なると意味が異なる場合においても全て情報抽出することになり、情報抽出時のノイズが多いという問題点を有していた。
【００１５】
このように、従来のシステム等は数々の問題点を有しており、その結果、システムの利用者および管理者のいずれにとっても、利便性が悪く、また、利用効率が悪いものであった。
【００１６】
なお、これまで説明した従来の技術および発明が解決しようとする課題は、生物や医学や科学等の自然科学系の文献の文献情報データベース検索システムに限られず、全ての分野の文献情報を検索する全てのシステムにおいて、同様に考えることができる。
【００１７】
本発明は上記問題点に鑑みてなされたもので、テキストマイニング処理システムにおける情報抽出を高精度化し、抽出量の増加および抽出された情報の高度化を図ることができる、文書情報抽出処理装置、文書情報抽出処理方法、プログラム、および、記録媒体を提供することを目的としている。
【００１８】
【課題を解決するための手段】
このような目的を達成するため、請求項１に記載の文書情報抽出処理装置は、表記辞書情報またはカテゴリ辞書に定義された各用語の正規形、別表記形またはカテゴリ項目に対して、情報抽出する際の条件となる属性情報を登録する属性情報登録手段と、分析対象文書の原文情報の中に上記正規形、上記別表記形または上記カテゴリ項目が存在した場合に、当該正規形、当該別表記形または当該カテゴリ項目が上記属性情報登録手段にて登録された対応する上記属性情報を有するときには当該正規形、当該別表記形または当該カテゴリ項目を情報抽出する属性判定抽出手段とを備えたことを特徴とする。
【００１９】
この装置によれば、表記辞書情報またはカテゴリ辞書に定義された各用語の正規形、別表記形またはカテゴリ項目に対して、情報抽出する際の条件となる属性情報を登録し、分析対象文書の原文情報の中に正規形、別表記形またはカテゴリ項目が存在した場合に、当該正規形、当該別表記形または当該カテゴリ項目が登録された対応する属性情報を有するときには当該正規形、当該別表記形または当該カテゴリ項目を情報抽出するので、予め用語ごとに抽出条件を指定することにより情報抽出時のノイズを低減することができるようになり、また、情報抽出の精度を高めることができ、さらに、抽出効率を高めることができるようになる。
【００２０】
また、請求項２に記載の文書情報抽出処理装置は、表記辞書情報に定義された各用語の正規形または別表記形に対して、不具合のチェックを実行する辞書エントリチェック手段と、分析対象文書の原文情報の中に、上記辞書エントリチェック手段にて不具合が検出されなかった上記正規形または上記別表記形が存在した場合に、当該正規形または当該別表記形を情報抽出するチェック済辞書抽出手段とを備えたことを特徴とする。
【００２１】
この装置によれば、表記辞書情報に定義された各用語の正規形または別表記形に対して、不具合のチェックを実行し、分析対象文書の原文情報の中に不具合が検出されなかった正規形または別表記形が存在した場合に、当該正規形または当該別表記形を情報抽出するので、辞書情報の品質が悪い場合には不具合を除去することにより、情報抽出の精度を高めることができ、さらに、抽出効率を高めることができるようになる。
【００２２】
また、請求項３に記載の文書情報抽出処理装置は、情報抽出する際の条件となる品詞を定めた抽出対象品詞情報を登録する抽出対象品詞情報登録手段と、分析対象文書の原文情報に対して構文解析を行い、当該原文情報の中に登場する各単語の品詞を決定する構文解析手段と、上記分析対象文書の上記原文情報の中に上記単語が存在した場合に、当該単語が上記抽出対象品詞情報登録手段にて登録された上記品詞であるときには当該単語と当該品詞とを情報抽出する形態素抽出手段とを備えたことを特徴とする。
【００２３】
この装置によれば、情報抽出する際の条件となる品詞を定めた抽出対象品詞情報を登録し、分析対象文書の原文情報に対して構文解析を行い、当該原文情報の中に登場する各単語の品詞を決定し、分析対象文書の原文情報の中に単語が存在した場合に、当該単語が登録された品詞であるときには当該単語と当該品詞とを情報抽出するので、同一の単語であっても品詞が異なると意味が異なる場合においても、所望の意味の単語を情報抽出することができるようになる。
【００２４】
また、本発明は方法に関するものであり、請求項４に記載の文書情報抽出処理方法は、表記辞書情報またはカテゴリ辞書に定義された各用語の正規形、別表記形またはカテゴリ項目に対して、情報抽出する際の条件となる属性情報を登録する属性情報登録ステップと、分析対象文書の原文情報の中に上記正規形、上記別表記形または上記カテゴリ項目が存在した場合に、当該正規形、当該別表記形または当該カテゴリ項目が上記属性情報登録ステップにて登録された対応する上記属性情報を有するときには当該正規形、当該別表記形または当該カテゴリ項目を情報抽出する属性判定抽出ステップとを含むことを特徴とする。
【００２５】
この方法によれば、表記辞書情報またはカテゴリ辞書に定義された各用語の正規形、別表記形またはカテゴリ項目に対して、情報抽出する際の条件となる属性情報を登録し、分析対象文書の原文情報の中に正規形、別表記形またはカテゴリ項目が存在した場合に、当該正規形、当該別表記形または当該カテゴリ項目が登録された対応する属性情報を有するときには当該正規形、当該別表記形または当該カテゴリ項目を情報抽出するので、予め用語ごとに抽出条件を指定することにより情報抽出時のノイズを低減することができるようになり、また、情報抽出の精度を高めることができ、さらに、抽出効率を高めることができるようになる。
【００２６】
また、請求項５に記載の文書情報抽出処理方法は、表記辞書情報に定義された各用語の正規形または別表記形に対して、不具合のチェックを実行する辞書エントリチェックステップと、分析対象文書の原文情報の中に、上記辞書エントリチェックステップにて不具合が検出されなかった上記正規形または上記別表記形が存在した場合に、当該正規形または当該別表記形を情報抽出するチェック済辞書抽出ステップとを含むことを特徴とする。
【００２７】
この方法によれば、表記辞書情報に定義された各用語の正規形または別表記形に対して、不具合のチェックを実行し、分析対象文書の原文情報の中に不具合が検出されなかった正規形または別表記形が存在した場合に、当該正規形または当該別表記形を情報抽出するので、辞書情報の品質が悪い場合には不具合を除去することにより、情報抽出の精度を高めることができ、さらに、抽出効率を高めることができるようになる。
【００２８】
また、請求項６に記載の文書情報抽出処理方法は、情報抽出する際の条件となる品詞を定めた抽出対象品詞情報を登録する抽出対象品詞情報登録ステップと、分析対象文書の原文情報に対して構文解析を行い、当該原文情報の中に登場する各単語の品詞を決定する構文解析ステップと、上記分析対象文書の上記原文情報の中に上記単語が存在した場合に、当該単語が上記抽出対象品詞情報登録ステップにて登録された上記品詞であるときには当該単語と当該品詞とを情報抽出する形態素抽出ステップとを含むことを特徴とする。
【００２９】
この方法によれば、情報抽出する際の条件となる品詞を定めた抽出対象品詞情報を登録し、分析対象文書の原文情報に対して構文解析を行い、当該原文情報の中に登場する各単語の品詞を決定し、分析対象文書の原文情報の中に単語が存在した場合に、当該単語が登録された品詞であるときには当該単語と当該品詞とを情報抽出するので、同一の単語であっても品詞が異なると意味が異なる場合においても、所望の意味の単語を情報抽出することができるようになる。
【００３０】
また、本発明はプログラムに関するものであり、請求項７に記載のプログラムは、表記辞書情報またはカテゴリ辞書に定義された各用語の正規形、別表記形またはカテゴリ項目に対して、情報抽出する際の条件となる属性情報を登録する属性情報登録ステップと、分析対象文書の原文情報の中に上記正規形、上記別表記形または上記カテゴリ項目が存在した場合に、当該正規形、当該別表記形または当該カテゴリ項目が上記属性情報登録ステップにて登録された対応する上記属性情報を有するときには当該正規形、当該別表記形または当該カテゴリ項目を情報抽出する属性判定抽出ステップとを含む文書情報抽出処理方法をコンピュータに実行させることを特徴とする。
【００３１】
このプログラムによれば、表記辞書情報またはカテゴリ辞書に定義された各用語の正規形、別表記形またはカテゴリ項目に対して、情報抽出する際の条件となる属性情報を登録し、分析対象文書の原文情報の中に正規形、別表記形またはカテゴリ項目が存在した場合に、当該正規形、当該別表記形または当該カテゴリ項目が登録された対応する属性情報を有するときには当該正規形、当該別表記形または当該カテゴリ項目を情報抽出するので、予め用語ごとに抽出条件を指定することにより情報抽出時のノイズを低減することができるようになり、また、情報抽出の精度を高めることができ、さらに、抽出効率を高めることができるようになる。
【００３２】
また、請求項８に記載のプログラムは、表記辞書情報に定義された各用語の正規形または別表記形に対して、不具合のチェックを実行する辞書エントリチェックステップと、分析対象文書の原文情報の中に、上記辞書エントリチェックステップにて不具合が検出されなかった上記正規形または上記別表記形が存在した場合に、当該正規形または当該別表記形を情報抽出するチェック済辞書抽出ステップとを含む文書情報抽出処理方法をコンピュータに実行させることを特徴とする。
【００３３】
このプログラムによれば、表記辞書情報に定義された各用語の正規形または別表記形に対して、不具合のチェックを実行し、分析対象文書の原文情報の中に不具合が検出されなかった正規形または別表記形が存在した場合に、当該正規形または当該別表記形を情報抽出するので、辞書情報の品質が悪い場合には不具合を除去することにより、情報抽出の精度を高めることができ、さらに、抽出効率を高めることができるようになる。
【００３４】
また、請求項９に記載のプログラムは、情報抽出する際の条件となる品詞を定めた抽出対象品詞情報を登録する抽出対象品詞情報登録ステップと、分析対象文書の原文情報に対して構文解析を行い、当該原文情報の中に登場する各単語の品詞を決定する構文解析ステップと、上記分析対象文書の上記原文情報の中に上記単語が存在した場合に、当該単語が上記抽出対象品詞情報登録ステップにて登録された上記品詞であるときには当該単語と当該品詞とを情報抽出する形態素抽出ステップとを含む文書情報抽出処理方法をコンピュータに実行させることを特徴とする。
【００３５】
このプログラムによれば、情報抽出する際の条件となる品詞を定めた抽出対象品詞情報を登録し、分析対象文書の原文情報に対して構文解析を行い、当該原文情報の中に登場する各単語の品詞を決定し、分析対象文書の原文情報の中に単語が存在した場合に、当該単語が登録された品詞であるときには当該単語と当該品詞とを情報抽出するので、同一の単語であっても品詞が異なると意味が異なる場合においても、所望の意味の単語を情報抽出することができるようになる。
【００３６】
また、本発明は記録媒体に関するものであり、請求項１０に記載の記録媒体は、上記請求項７から９のいずれか一つに記載されたプログラムを記録したことを特徴とする。
【００３７】
この記録媒体によれば、当該記録媒体に記録されたプログラムをコンピュータに読み取らせて実行することによって、請求項７から９のいずれか一つに記載されたプログラムをコンピュータを利用して実現することができ、これら各方法と同様の効果を得ることができる。
【００３８】
【発明の実施の形態】
以下に、本発明にかかる文書情報抽出処理装置、文書情報抽出処理方法、プログラム、および、記録媒体の実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。
特に、以下の実施の形態においては、本発明を、生物や医学や科学等の自然科学系の文献の文献情報データベース検索システムに適用した例について説明するが、この場合に限られず、全ての分野の文献情報を検索する全てのシステムにおいて、同様に適用することができる。
【００３９】
［本発明の概要］
以下、本発明の概要について説明し、その後、本発明の構成および処理等について詳細に説明する。
本発明は、概略的に、以下の基本的特徴を有する。本発明は、図１に示したテキストマイニング処理における集計結果の統計・分析処理を行う際の情報抽出の高精度化・効率化・自動化を図る。すなわち、本発明は、表記辞書情報またはカテゴリ辞書情報に定義された各用語の正規形、別表記形またはカテゴリ項目に対して、情報抽出する際の条件となる属性情報を登録し、分析対象文書の原文情報の中に正規形、別表記形またはカテゴリ項目が存在した場合に、当該正規形、当該別表記形または当該カテゴリ項目が登録された対応する属性情報を有するときには当該正規形、当該別表記形または当該カテゴリ項目を情報抽出する。
【００４０】
また、本発明は、表記辞書情報に定義された各用語に対して、不具合のチェックを実行し、分析対象文書の原文情報の中に不具合が検出されなかった正規形または別表記形が存在した場合に、当該正規形または当該別表記形を情報抽出するので、辞書情報の品質が悪い場合には不具合を除去する。
【００４１】
さらに、本発明は、情報抽出する際の条件となる品詞を定めた抽出対象品詞情報を登録し、分析対象文書の原文情報に対して構文解析を行い、当該原文情報の中に登場する各単語の品詞を決定し、分析対象文書の原文情報の中に単語が存在した場合に、当該単語が登録された品詞であるときには当該単語と当該品詞とを情報抽出する。
【００４２】
［システム構成］
まず、本システムの構成について説明する。図２は、本発明が適用される本システムの構成の一例を示すブロック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。本システムは、概略的に、文書情報抽出処理装置１００と、文献情報や配列情報等に関する外部データベースや各種検索処理等の外部プログラム等を提供する外部システム２００とを、ネットワーク３００を介して通信可能に接続して構成されている。
【００４３】
図２においてネットワーク３００は、文書情報抽出処理装置１００と外部システム２００とを相互に接続する機能を有し、例えば、インターネット等である。
【００４４】
図２において外部システム２００は、ネットワーク３００を介して、文書情報抽出処理装置１００と相互に接続され、利用者に対して文献情報や配列情報等に関する外部データベースや各種検索処理等の外部プログラム等を実行するウェブサイトを提供する機能を有する。
【００４５】
ここで、外部システム２００は、ＷＥＢサーバやＡＳＰサーバ等として構成してもよく、そのハードウェア構成は、一般に市販されるワークステーション、パーソナルコンピュータ等の情報処理装置およびその付属装置により構成してもよい。また、外部システム２００の各機能は、外部システム２００のハードウェア構成中のＣＰＵ、ディスク装置、メモリ装置、入力装置、出力装置、通信制御装置等およびそれらを制御するプログラム等により実現される。
【００４６】
図２において文書情報抽出処理装置１００は、概略的に、文書情報抽出処理装置１００の全体を統括的に制御するＣＰＵ等の制御部１０２、通信回線等に接続されるルータ等の通信装置（図示せず）に接続される通信制御インターフェース部１０４、入力装置１１２や出力装置１１４に接続される入出力制御インターフェース部１０８、および、各種のデータベースやテーブルなどを格納する記憶部１０６を備えて構成されており、これら各部は任意の通信路を介して通信可能に接続されている。さらに、この文書情報抽出処理装置１００は、ルータ等の通信装置および専用線等の有線または無線の通信回線を介して、ネットワーク３００に通信可能に接続されている。
【００４７】
記憶部１０６に格納される各種のデータベースやテーブル（表記辞書情報ファイル１０６ａ〜処理結果ファイル１０６ｈ）は、固定ディスク装置等のストレージ手段であり、各種処理に用いる各種のプログラムやテーブルやファイルやデータベースやウェブページ用ファイル等を格納する。
【００４８】
これら記憶部１０６の各構成要素のうち、表記辞書情報ファイル１０６ａは、各用語の正規形と別表記形との対応関係を定義する表記辞書情報を格納した表記辞書情報格納手段である。図４は、表記辞書情報ファイル１０６ａに格納される表記辞書情報の一例を示す図である。この表記辞書情報ファイル１０６ａに格納される表記辞書情報は、図４に示すように、正規形と別表記形との対応関係、および、各用語の正規形、別表記形に対して情報抽出する際の条件となる属性情報を定義している。
【００４９】
また、カテゴリ辞書情報ファイル１０６ｂは、正規形の所属するカテゴリを定義するカテゴリ辞書情報を格納するカテゴリ辞書情報格納手段である。図５は、カテゴリ辞書情報ファイル１０６ｂに格納されるカテゴリ辞書情報の一例を示す図である。このカテゴリ辞書情報ファイル１０６ｂに格納されるカテゴリ辞書情報は、図５に示すように、カテゴリと正規形との対応関係、カテゴリ構造（図５ではカテゴリ構造の概念を示しており、実際のファイルにはノード（カテゴリ）毎の親ノードと子ノードの情報等を定義している。）、および、各用語のカテゴリ項目に対して情報抽出する際の条件となる属性情報を定義している。
【００５０】
また、分析対象文書ファイル１０６ｃは、解析対象の文書情報の原文情報や、その原文情報に設定されたリンク先のＵＲＬ等のアドレス情報等を格納する文書情報格納手段である。ここでアドレス情報は、原文中の一部分が外部データベースの識別子と解釈できる部分があれば、その外部データベースのハイパーリンク（ＷＷＷリンク）情報等を格納してもよい。
【００５１】
また、チェック用語句リストファイル１０６ｅは、チェック用語句リストを格納したチェック用語句リスト格納手段である。
【００５２】
また、チェック用パターンファイル１０６ｆは、チェック用パターンを格納したチェック用パターン格納手段である。
【００５３】
また、抽出対象品詞情報ファイル１０６ｇは、情報抽出する際の条件となる品詞を定めた抽出対象品詞情報を格納する抽出対象品詞情報格納手段である。図１９は、抽出対象品詞情報ファイル１０６ｇに格納される抽出対象品詞情報の一例を示す図である。この抽出対象品詞情報ファイル１０６ｇに格納される抽出対象品詞情報は、図１９に示すように、抽出対象品詞情報は、情報抽出する際の条件となる品詞を格納する。
【００５４】
また、処理結果ファイル１０６ｈは、制御部による各処理の処理結果や中間結果などのワークファイル等を格納する処理結果格納手段である。
【００５５】
ここで、表記辞書情報ファイル１０６ａ、カテゴリ辞書情報ファイル１０６ｂおよび構文解析用辞書情報ファイル１０６ｄなどに格納された各種の辞書は、ユーザ編集用と、計算機処理用で構造を変えてもよい。すなわち、ユーザ編集用は、属性の着脱が容易や属性値の変更が容易な辞書構造が好ましいため、例えば、ＸＭＬを用いた辞書構築を行い、属性の着脱はＤＴＤの変更により、また、属性値の変更はタグ付きテキスト文書の編集などにより実現してもよい。
また、計算機処理用は、高速処理が容易な形式が好ましいため、例えば、ＣＳＶ形式などを用いた辞書構築を行ってもよい。そして、文書情報抽出処理装置１００がユーザ編集用辞書から計算機処理用辞書への自動変換機能を備えることにより、自動生成してもよい。
【００５６】
また、図２において、通信制御インターフェース部１０４は、文書情報抽出処理装置１００とネットワーク３００（またはルータ等の通信装置）との間における通信制御を行う。すなわち、通信制御インターフェース部１０４は、他の端末と通信回線を介してデータを通信する機能を有する。
【００５７】
また、図２において、入出力制御インターフェース部１０８は、入力装置１１２や出力装置１１４の制御を行う。ここで、出力装置１１４としては、モニタ（家庭用テレビを含む）の他、スピーカを用いることができる（なお、以下においては出力装置１１４をモニタとして記載する場合がある）。また、入力装置１１２としては、キーボード、マウス、および、マイク等を用いることができる。また、モニタも、マウスと協働してポインティングデバイス機能を実現する。
【００５８】
また、図２において、制御部１０２は、ＯＳ（Ｏｐｅｒａｔｉｎｇ　Ｓｙｓｔｅｍ）等の制御プログラム、各種の処理手順等を規定したプログラム、および所要データを格納するための内部メモリを有し、これらのプログラム等により、種々の処理を実行するための情報処理を行う。制御部１０２は、機能概念的に、属性情報登録部１０２ａ、属性判定抽出部１０２ｂ、辞書エントリチェック部１０２ｃ、チェック済辞書抽出部１０２ｄ、抽出対象品詞情報登録部１０２ｅ、構文解析部１０２ｆ、形態素抽出部１０２ｇ、テキストマイニング処理部１０２ｈ、および、名寄せ処理部１０２ｉを備えて構成されている。
【００５９】
このうち、属性情報登録部１０２ａは、表記辞書情報またはカテゴリ辞書に定義された各用語の正規形、別表記形またはカテゴリ項目に対して、情報抽出する際の条件となる属性情報を登録する属性情報登録手段である。
【００６０】
また、属性判定抽出部１０２ｂは、分析対象文書の原文情報の中に正規形、別表記形またはカテゴリ項目が存在した場合に、当該正規形、当該別表記形または当該カテゴリ項目が属性情報登録手段にて登録された対応する属性情報を有するときには当該正規形、当該別表記形または当該カテゴリ項目を情報抽出する属性判定抽出手段である。
【００６１】
また、辞書エントリチェック部１０２ｃは、表記辞書情報に定義された各用語の正規形または別表記形に対して、不具合のチェックを実行する辞書エントリチェック手段である。ここで、辞書エントリチェック部１０２ｃは、図３に示すように、正規形不整合チェック部１０２ｒ、統計チェック部１０２ｓ、共起チェック部１０２ｔ、および、エントリ単位チェック部１０２ｕを備えて構成される。正規形不整合チェック部１０２ｒは、表記辞書情報に登録された別表記形が他の正規形として登録されているか否かをチェックする正規形不整合チェック手段である。また、統計チェック部１０２ｓは、表記辞書情報および／またはカテゴリ辞書情報に登録された正規形、別表記形、または、カテゴリに関する登録状況および利用状況について統計処理を行い、当該統計処理の結果が予め定めた正常値範囲に入っているか否かをチェックする統計チェック手段である。また、共起チェック部１０２ｔは、表記辞書情報および／またはカテゴリ辞書情報に登録された正規形、別表記形、または、カテゴリに関する共起関係に基づいて類似度を計算する共起チェック手段である。また、エントリ単位チェック部１０２ｕは、チェック用語句リスト、チェック用プログラム、チェック用パターンのうち少なくとも一つに基づいて、表記辞書情報および／またはカテゴリ辞書情報を各エントリ単位にチェックするエントリ単位チェック手段である。
【００６２】
また、チェック済辞書抽出部１０２ｄは、分析対象文書の原文情報の中に、辞書エントリチェック手段にて不具合が検出されなかった正規形または別表記形が存在した場合に、当該正規形または当該別表記形を情報抽出するチェック済辞書抽出手段である。
【００６３】
また、抽出対象品詞情報登録部１０２ｅは、情報抽出する際の条件となる品詞を定めた抽出対象品詞情報を登録する抽出対象品詞情報登録手段である。
【００６４】
また、構文解析部１０２ｆは、分析対象文書の原文情報に対して構文解析を行い、当該原文情報の中に登場する各単語の品詞を決定する構文解析手段である。
【００６５】
また、形態素抽出部１０２ｇは、分析対象文書の上記原文情報の中に上記単語が存在した場合に、当該単語が抽出対象品詞情報登録手段にて登録された品詞であるときには当該単語と当該品詞とを情報抽出する形態素抽出手段である。
【００６６】
また、テキストマイニング処理部１０２ｈは、例えば上述した図１に示すテキストマイニング処理により情報抽出結果に対して統計・分析処理を実行するテキストマイニング手段である。
【００６７】
また、名寄せ処理部１０２ｉは、原文情報や各種の辞書情報に登録された各用語について小文字化や単数形化することにより同一の用語となるものを名寄せする名寄せ処理手段である。
なお、これら各部によって行なわれる処理の詳細については、後述する。
【００６８】
［システムの処理］
次に、このように構成された本実施の形態における本システムの処理の一例について、以下に図６〜図１８等を参照して詳細に説明する。
【００６９】
［属性情報による情報抽出処理］
まず、属性情報による情報抽出処理の詳細について図６を参照して説明する。図６は、本実施形態における本システムの属性情報による情報抽出処理の一例を示す概念図である。
【００７０】
まず、文書情報抽出処理装置１００は、属性情報登録部１０２ａの処理により、表記辞書情報ファイル１０６ａに予め格納された表記辞書情報に定義された各用語の正規形または別表記形に対して、情報抽出する際の条件となる属性情報を登録する（ステップＳＢ−１）。ここで、属性情報の登録は、属性情報登録部１０２ａが出力装置１１４に属性情報登録用画面を表示して、各用語の正規形および別表記形に対応する属性情報を入力装置１１２を介して利用者に入力させ、当該入力情報を表記辞書情報ファイル１０６ａに格納することにより登録してもよい。
【００７１】
そして、文書情報抽出処理装置１００は、分析対象文書ファイル１０６ｃに格納された分析対象文書の原文情報から表記辞書を参照しながら正規形や別表記形の抽出しその抽出数等から出現頻度等の統計・分析処理を行う際に、属性判定抽出部１０２ｂの処理により、表記辞書情報ファイル１０６ａを当てた結果、分析対象文書の中に正規形または別表記形が存在した場合に、当該正規形または当該別表記形が属性情報登録部１０２ａにより登録されたそれぞれに対応する属性情報を有するときには当該正規形、当該別表記形または当該カテゴリ項目を情報抽出する（ステップＳＢ−２）。
【００７２】
ここで、図６では表記辞書情報ファイル１０６ａに格納された表記辞書情報を用いて、表記辞書情報に定義された正規形と別表記形に対する属性情報による情報抽出処理の一例を示したが、文書情報抽出処理装置１００は、カテゴリ辞書情報ファイル１０６ｂに格納されたカテゴリ辞書情報を用いて、カテゴリ辞書情報に定義された正規形とカテゴリ項目に対する属性情報による情報抽出処理も同様に実行することができる。
これにて、属性情報による情報抽出処理が終了する。
【００７３】
［辞書エントリの自動調整処理］
次に、辞書エントリの自動調整処理の詳細について図７〜図１７を参照して説明する。図７は、本実施形態における本システムの辞書エントリの自動調整処理の一例を示す概念図である。
まず、文書情報抽出処理装置１００は、辞書エントリチェック部１０２ｃの処理により、分析対象文書ファイル１０６ｃに格納された表記辞書情報に定義された各用語の正規形または別表記形に対して、不具合のチェックを実行し、不具合を検出した場合にはそのエントリを不具合エントリリストに登録して処理結果ファイル１０６ｈに格納する（ステップＳＣ−１）。
【００７４】
そして、文書情報抽出処理装置１００は、分析対象文書ファイル１０６ｃに格納された分析対象文書の原文情報から表記辞書を参照しながら表記形や別表記形の抽出しその抽出数等から出現頻度等の統計・分析処理を行う際に、チェック済辞書抽出部１０２ｄの処理により、分析対象文書の原文情報の中に、辞書エントリチェック部１０２ｃにて不具合が検出されなかった正規形または別表記形が存在した場合に、当該正規形または当該別表記形を情報抽出する（ステップＳＣ−２）。
【００７５】
ここで、辞書エントリチェック部１０２ｃによる辞書エントリの不具合のチェック手法を以下に例示する。
【００７６】
（１）チェック用語句リストを用いた辞書エントリの不具合のチェック手法
図８は、本実施形態における本システムのチェック用語句リストを用いた辞書エントリの不具合のチェック手法の一例を示す概念図である。まず、図８に示すように、文書情報抽出処理装置１００は、エントリ単位チェック部１０２ｕの処理により、チェック用語句リストファイル１０６ｅに格納されたチェック用語句リストに基づいて、表記辞書情報ファイル１０６ａに格納された表記辞書情報および／またはカテゴリ辞書情報ファイル１０６ｂに格納されたカテゴリ辞書情報を各エントリ単位にチェックする。ここで、チェック用語句リストは、例えば、前置詞、冠詞、代名詞などの正規形や別表記形として登録してはいけない用語をリストとして保存したものである。
【００７７】
（２）チェック用パターンやロジックを用いた辞書エントリの不具合のチェック手法
また、図９は、本実施形態における本システムのチェック用パターンやロジックを用いた辞書エントリの不具合のチェック手法の一例を示す概念図である。図９に示すように、文書情報抽出処理装置１００は、エントリ単位チェック部１０２ｕの処理により、チェック用パターンファイル１０６ｆに格納されたチェック用パターンや、チェック用プログラムに基づいて、表記辞書情報ファイル１０６ａに格納された表記辞書情報および／またはカテゴリ辞書情報ファイル１０６ｂに格納されたカテゴリ辞書情報を各エントリ単位にチェックする。ここで、チェック用パターンは、使用してはいけない数表現や記号列表現などのパターン（たとえば、正規表現などで記述される）を登録したものである。また、チェック用プログラムは、正規形の複数形が別の正規形として登録されたもの等をチェックするプログラムである。また、チェック用プログラムは、図１０に示すように、各正規形や別表記形の文字列長、単語数、文字種毎の文字数等を計測して、予め定めた計測項目ごとの正常範囲に入るか否かをチェックし、異常なチェック結果を出力するための計測プログラムであってもよい。
【００７８】
（３）正規形不整合チェックを用いた辞書エントリの不具合のチェック手法
次に、正規形不整合チェック処理の詳細について図１１を参照して説明する。図１１は、本実施形態における本システムの正規形不整合チェック処理の一例を示す概念図である。
【００７９】
まず、図１１に示すように、文書情報抽出処理装置１００は、正規形不整合チェック部１０２ｒの処理により、表記辞書情報ファイル１０６ａに格納された表記辞書情報に登録された別表記形が他の正規形として登録されているか否かをチェックする。これにより、正規形が他の正規形の別表記形とされて、表記辞書上に重複登録されているものをチェックすることができるようになる。
【００８０】
また、正規形不整合チェック部１０２ｒによる正規形と別表記形の自動調整の一例として、以下の手法を用いてもよい。
まず、正規形不整合チェック部１０２ｒは、表記辞書を複製してコピー辞書を作成する。そして、正規形不整合チェック部１０２ｒは、このコピー辞書のすべてのエントリの組（Ｅ１、Ｅ２）について、変化がなくなるまで以下の処理を繰返し実行する。まず、Ｅ１の別表記形をＷ１とする。次に、Ｅ２の正規形と別表記形をそれぞれＣ２とＷ２とする。そして、Ｗ１がＣ２を含むならばＣ２とＷ２をＥ１の別表記形に追加する。そして、このように作成したコピー辞書を用いて辞書当てを行うことにより、別表記形を正規形として持つエントリを利用して別表記形を拡充することができ、情報抽出の精度及び効率を向上することができる。
【００８１】
（４）統計チェックを用いた辞書エントリの不具合のチェック手法
次に、統計チェック処理の詳細について図１２および図１３を参照して説明する。図１２および図１３は、本実施形態における本システムの統計チェック処理の一例を示す概念図である。
【００８２】
まず、図１２に示すように、文書情報抽出処理装置１００は、統計チェック部１０２ｓの処理により、表記辞書情報ファイル１０６ａの格納された表記辞書情報および／またはカテゴリ辞書情報ファイル１０６ｂに格納されたカテゴリ辞書情報に登録された正規形、別表記形、または、カテゴリに関する登録状況および利用状況について統計量を求める統計処理を行い、当該統計処理の結果が予め定めた正常値範囲に入っているか否かをチェックする。
【００８３】
ここで、登録状況に関する統計処理として、例えば、図１２に示すように、同一別表記形に対する正規形数、同一正規形に対するカテゴリ数、同一カテゴリに対する正規形数などについて統計処理を行ってもよい。
【００８４】
また、利用状況に関する統計処理として、統計チェック部１０２ｓは、例えば、図１３に示すように、分析対象文書ファイル１０６ｃに格納された文書情報の原データ毎、および、辞書のエントリ毎に辞書引きのヒット回数をカウントしてマトリックスを作成し、縦方向または横方向で集計や分布を見る等の統計処理を行ってもよい。また、ここで、統計チェック部１０２ｓは、縦方向または横方向で集計を取る際には、単純に数の合計をとってもよく、また、０以外のマスの数をカウントしてもよい。また、統計チェック部１０２ｓは、情報の種類（例えば、正規形、表記辞書名、パーザで抽出した情報、ｎ項関係の情報など）毎に単純な数の合計や０以外のマスの数をカウントしてもよい。また、統計チェック部１０２ｓは、統計量の算出の際には、縦方向または横方向ごとに、最大値、最小値、平均値、または、分布等を計算してもよく、また、情報の種類毎または表全体で、最大値、最小値、平均値、または、分布等を計算してもよい。
【００８５】
また、カテゴリ辞書に関する統計処理として、統計チェック部１０２ｓは、分析対象文書ファイル１０６ｃに格納された文書情報の原データ毎、および、カテゴリ辞書のノード毎に抽出回数をカウントしてもよい。また、統計チェック部１０２ｓは、マトリックスを作成し、縦方向または横方向で集計や分布を見る等の統計処理を行ってもよい。ここで、統計チェック部１０２ｓは、縦方向または横方向で集計を取る際には、単純に数の合計をとってもよく、また、０以外のマスの数をカウントしてもよい。また、統計チェック部１０２ｓは、部分木毎に、単純に数の合計をとってもよく、また、０以外のマスの数をカウントしてもよい。また、統計チェック部１０２ｓは、統計量の算出の際には、縦方向または横方向ごとに、最大値、最小値、平均値、または、分布等を計算してもよく、また、情報の種類毎または表全体で、最大値、最小値、平均値、または、分布等を計算してもよい。
【００８６】
また、統計チェック部１０２ｓは、原データごと、または、情報のｍ項組毎に、テキスト上で連続した箇所から抽出された回数のカウントをとってもよい。これにより、連語や出現順番に意味がある用語の組が正しく登録されているかをチェックすることができる。
【００８７】
また、統計チェック部１０２ｓは、原データごとに、辞書引きで当たらなかった箇所や、情報が抽出されなかった箇所の単語数をカウントして統計処理をしてもよく、また、カテゴリが付与されなかった正規形数や、ｎ項関係の要素にならなかった正規形数をカウントして統計処理をしてもよい。
【００８８】
（５）共起チェックを用いた辞書エントリの不具合のチェック手法
次に、共起チェック処理の詳細について図１４および図１５を参照して説明する。図１４および図１５は、本実施形態における本システムの共起チェック処理の一例を示す概念図である。
【００８９】
まず、図１４に示すように、文書情報抽出処理装置１００は、共起チェック部１０２ｔの処理により、同じ別表記形を持つ表記辞書エントリや、同じ正規形を持つカテゴリなどの共起関係に基づいてそれぞれの類似度を計算する。例えば、図１４の例を表記辞書（ＸＸＸが正規形、ＹＹＹ群が別表記形）に当てはめると、正規形Ａと正規形Ｂが同一の別表記形Ｗをもつことから共起関係を持っている。そして、正規形Ａと正規形Ｂが全て同じ別表記形を持つ場合には、正規形Ａと正規形Ｂは同一ということになり、また、違うものが含まれる場合には類似ということになる。また、図１４の例をカテゴリ辞書（ＸＸＸがカテゴリ、ＹＹＹ群が正規形）に当てはめると、カテゴリＡとカテゴリＢが同一の正規形Ｗをもつことから共起関係を持っている。そして、カテゴリＡとカテゴリＢが全て同じ正規形を持つ場合には、カテゴリＡとカテゴリＢは同一ということになり、また、違うものが含まれる場合には類似ということになる。
【００９０】
ここで、類似度の計算は、図１５に示すように、一致数で示してよく（図１５の例１では、ＸとＷの２つが一致しているので、類似度が２となる）、また、一致割合で示してもよい（図１５の例２では、全要素数１３のうち一致数が２であるので、２／１３）。
【００９１】
（６）チェック結果の出力処理
次に、チェック結果の出力処理の詳細について図１７を参照して説明する。図１７は、本実施形態における本システムのチェック結果の出力処理の一例を示す概念図である。
文書情報抽出処理装置１００は、図１７に示すように、辞書エントリチェック部１０２ｃによるチェック結果などについて、予め定めた正常値範囲を超える場合には、チェック結果（不具合エントリリスト）を出力装置１１４に出力する。
これにて、辞書エントリの自動調整処理が終了する。
【００９２】
［ロジックを用いた名寄せ処理］
次に、ロジックを用いた名寄せ処理の詳細について図１６を参照して説明する。図１６は、本実施形態における本システムのロジックを用いた名寄せ処理の一例を示す概念図である。
まず、図１６に示すように、文書情報抽出処理装置１００は、名寄せ処理部１０２ｉの処理により、各辞書チェック項目や分析対象文書の原文情報における語句の同一性の判断において、小文字化、単数形化などを行うことにより、チェック精度の向上を図っている。このように、このように、名寄せ処理部１０２ｉは、制御部１０２の各部（例えば、上述したチェック済辞書抽出部１０２ｄ等）の中で個別にコールされることにより、各処理中で名寄せ処理を随時実行することができる。これにより、各辞書チェック項目や分析対象文書の原文情報で、同一のロジックにより名寄せを行うことにより、分析精度および効率の向上を図ることができるようになる。
これにて、ロジックを用いた名寄せ処理が終了する。
【００９３】
［形態素抽出処理］
次に、形態素抽出処理の詳細について図１８を参照して説明する。図１８は、本実施形態における本システムの形態素抽出処理の一例を示す概念図である。
まず、文書情報抽出処理装置１００は、抽出対象品詞情報登録部１０２ｅの処理により、情報抽出する際の条件となる品詞を定めた抽出対象品詞情報を抽出対象品詞情報ファイル１０６ｇに登録する（ステップＳＤ−１）。ここで、抽出対象品詞情報の登録は、抽出対象品詞情報登録部１０２ｅが出力装置１１４に抽出対象品詞情報登録用画面を表示して、抽出対象品詞情報を入力装置１１２を介して利用者に入力させ、当該入力情報を抽出対象品詞情報ファイル１０６ｇに格納することにより登録してもよい。
【００９４】
そして、文書情報抽出処理装置１００は、構文解析部１０２ｆの処理より、分析対象文書ファイル１０６ｃに格納された分析対象文書の原文情報に対して既知の自然言語パーザ等の機能を用いて構文解析を行い、当該原文情報の中に登場する各単語の品詞を決定する。そして形態素抽出部１０２ｇは、分析対象文書の原文情報の中に登場する各単語について、分析対象文書内表記と、それに対応する正規形（分析対象文書内表記が別表記形である場合のみ）と、構文解析による品詞とを含む形態素を作成する（ステップＳＤ−２）。
【００９５】
そして、文書情報抽出処理装置１００は、形態素抽出部１０２ｇの処理により、分析対象文書の原文情報の中に単語が存在した場合に、形態素の当該単語が抽出対象品詞情報登録部１０２ｅにより登録された品詞であるときには当該単語と当該品詞を情報抽出する（ステップＳＤ−３）。
これにて、形態素抽出処理が終了する。
【００９６】
［他の実施の形態］
さて、これまで本発明の実施の形態について説明したが、本発明は、上述した実施の形態以外にも、上記特許請求の範囲に記載した技術的思想の範囲内において種々の異なる実施の形態にて実施されてよいものである。
【００９７】
例えば、文書情報抽出処理装置１００がスタンドアローンの形態で処理を行う場合を一例に説明したが、文書情報抽出処理装置１００とは別筐体で構成されるクライアント端末からの要求に応じて処理を行い、その処理結果を当該クライアント端末に返却するように構成してもよい。
【００９８】
また、実施形態において説明した各処理のうち、自動的に行なわれるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行なわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。
この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種の登録データや検索条件等のパラメータを含む情報、画面例、データベース構成については、特記する場合を除いて任意に変更することができる。
【００９９】
また、文書情報抽出処理装置１００に関して、図示の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。
例えば、文書情報抽出処理装置１００の各部または各装置が備える処理機能、特に制御部１０２にて行なわれる各処理機能については、その全部または任意の一部を、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）および当該ＣＰＵにて解釈実行されるプログラムにて実現することができ、あるいは、ワイヤードロジックによるハードウェアとして実現することも可能である。なお、プログラムは、後述する記録媒体に記録されており、必要に応じて文書情報抽出処理装置１００に機械的に読み取られる。
【０１００】
すなわち、ＲＯＭまたはＨＤなどの記憶部１０６などには、ＯＳ（Ｏｐｅｒａｔｉｎｇ　Ｓｙｓｔｅｍ）と協働してＣＰＵに命令を与え、各種処理を行うためのコンピュータプログラムが記録されている。このコンピュータプログラムは、ＲＡＭ等にロードされることによって実行され、ＣＰＵと協働して制御部１０２を構成する。また、このコンピュータプログラムは、文書情報抽出処理装置１００に対して任意のネットワーク３００を介して接続されたアプリケーションプログラムサーバに記録されてもよく、必要に応じてその全部または一部をダウンロードすることも可能である。
【０１０１】
また、本発明にかかるプログラムを、コンピュータ読み取り可能な記録媒体に格納することもできる。ここで、この「記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ等の任意の「可搬用の物理媒体」や、各種コンピュータシステムに内蔵されるＲＯＭ、ＲＡＭ、ＨＤ等の任意の「固定用の物理媒体」、あるいは、ＬＡＮ、ＷＡＮ、インターネットに代表されるネットワークを介してプログラムを送信する場合の通信回線や搬送波のように、短期にプログラムを保持する「通信媒体」を含むものとする。
【０１０２】
また、「プログラム」とは、任意の言語や記述方法にて記述されたデータ処理方法であり、ソースコードやバイナリコード等の形式を問わない。なお、「プログラム」は必ずしも単一的に構成されるものに限られず、複数のモジュールやライブラリとして分散構成されるものや、ＯＳ（Ｏｐｅｒａｔｉｎｇ　Ｓｙｓｔｅｍ）に代表される別個のプログラムと協働してその機能を達成するものをも含む。なお、実施の形態に示した各装置において記録媒体を読み取るための具体的な構成、読み取り手順、あるいは、読み取り後のインストール手順等については、周知の構成や手順を用いることができる。
【０１０３】
記憶部１０６に格納される各種のデータベース等（表記辞書情報ファイル１０６ａ〜処理結果ファイル１０６ｈ）は、ＲＡＭ、ＲＯＭ等のメモリ装置、ハードディスク等の固定ディスク装置、フレキシブルディスク、光ディスク等のストレージ手段であり、各種処理やウェブサイト提供に用いる各種のプログラムやテーブルやファイルやデータベースやウェブページ用ファイル等を格納する。
【０１０４】
また、文書情報抽出処理装置１００は、既知のパーソナルコンピュータ、ワークステーション等の情報処理端末等の情報処理装置にプリンタやモニタやイメージスキャナ等の周辺装置を接続し、該情報処理装置に本発明の方法を実現させるソフトウェア（プログラム、データ等を含む）を実装することにより実現してもよい。
【０１０５】
さらに、文書情報抽出処理装置１００の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷等に応じた任意の単位で、機能的または物理的に分散・統合して構成することができる。例えば、各データベースを独立したデータベース装置として独立に構成してもよく、また、処理の一部をＣＧＩ（Ｃｏｍｍｏｎ　Ｇａｔｅｗａｙ　Ｉｎｔｅｒｆａｃｅ）を用いて実現してもよい。
【０１０６】
また、ネットワーク３００は、文書情報抽出処理装置１００と外部システム２００とを相互に接続する機能を有し、例えば、インターネットや、イントラネットや、ＬＡＮ（有線／無線の双方を含む）や、ＶＡＮや、パソコン通信網や、公衆電話網（アナログ／デジタルの双方を含む）や、専用回線網（アナログ／デジタルの双方を含む）や、ＣＡＴＶ網や、ＩＭＴ２０００方式、ＧＳＭ方式またはＰＤＣ／ＰＤＣ―Ｐ方式等の携帯回線交換網／携帯パケット交換網や、無線呼出網や、Ｂｌｕｅｔｏｏｔｈ等の局所無線網や、ＰＨＳ網や、ＣＳ、ＢＳまたはＩＳＤＢ等の衛星通信網等のうちいずれかを含んでもよい。すなわち、本システムは、有線・無線を問わず任意のネットワークを介して、各種データを送受信することができる。
【０１０７】
【発明の効果】
以上詳細に説明したように、本発明によれば、表記辞書情報またはカテゴリ辞書に定義された各用語の正規形、別表記形またはカテゴリ項目に対して、情報抽出する際の条件となる属性情報を登録し、分析対象文書の原文情報の中に正規形、別表記形またはカテゴリ項目が存在した場合に、当該正規形、当該別表記形または当該カテゴリ項目が登録された対応する属性情報を有するときには当該正規形、当該別表記形または当該カテゴリ項目を情報抽出するので、予め用語ごとに抽出条件を指定することにより情報抽出時のノイズを低減することができるようになり、また、情報抽出の精度を高めることができ、さらに、抽出効率を高めることができる文書情報抽出処理装置、文書情報抽出処理方法、プログラム、および、記録媒体を提供することができる。
【０１０８】
また、本発明によれば、表記辞書情報に定義された各用語の正規形または別表記形に対して、不具合のチェックを実行し、分析対象文書の原文情報の中に不具合が検出されなかった正規形または別表記形が存在した場合に、当該正規形または当該別表記形を情報抽出するので、辞書情報の品質が悪い場合には不具合を除去することにより、情報抽出の精度を高めることができ、さらに、抽出効率を高めることができる文書情報抽出処理装置、文書情報抽出処理方法、プログラム、および、記録媒体を提供することができる。
【０１０９】
さらに、本発明によれば、情報抽出する際の条件となる品詞を定めた抽出対象品詞情報を登録し、分析対象文書の原文情報に対して構文解析を行い、当該原文情報の中に登場する各単語の品詞を決定し、分析対象文書の原文情報の中に単語が存在した場合に、当該単語が登録された品詞であるときには当該単語と当該品詞とを情報抽出するので、同一の単語であっても品詞が異なると意味が異なる場合においても、所望の意味の単語を情報抽出することができる文書情報抽出処理装置、文書情報抽出処理方法、プログラム、および、記録媒体を提供することができる。
【図面の簡単な説明】
【図１】テキストマイニング処理の概要を示す概念図である。
【図２】本発明が適用される本システムの構成の一例を示すブロック図である。
【図３】本発明が適用される本システムの辞書エントリチェック部１０２ｃの構成の一例を示すブロック図である。
【図４】表記辞書情報ファイル１０６ａに格納される表記辞書情報の一例を示す図である。
【図５】カテゴリ辞書情報ファイル１０６ｂに格納されるカテゴリ辞書情報の一例を示す図である。
【図６】本実施形態における本システムの属性情報による情報抽出処理の一例を示す概念図である。
【図７】本実施形態における本システムの辞書エントリの自動調整処理の一例を示す概念図である。
【図８】本実施形態における本システムのチェック用語句リストを用いた辞書エントリの不具合のチェック手法の一例を示す概念図である。
【図９】本実施形態における本システムのチェック用パターンやロジックを用いた辞書エントリの不具合のチェック手法の一例を示す概念図である。
【図１０】本実施形態における本システムのチェック用の計測ロジックを用いた辞書エントリの不具合のチェック手法の一例を示す概念図である。
【図１１】本実施形態における本システムの正規形不整合チェック処理の一例を示す概念図である。
【図１２】本実施形態における本システムの統計チェック処理の一例を示す概念図である。
【図１３】本実施形態における本システムの統計チェック処理の一例を示す概念図である。
【図１４】本実施形態における本システムの共起チェック処理の一例を示す概念図である。
【図１５】本実施形態における本システムの共起チェック処理の一例を示す概念図である。
【図１６】本実施形態における本システムのロジックを用いた名寄せ処理の一例を示す概念図である。
【図１７】本実施形態における本システムのチェック結果の出力処理の一例を示す概念図である。
【図１８】本実施形態における本システムの形態素抽出処理の一例を示す概念図である。
【図１９】抽出対象品詞情報ファイル１０６ｇに格納される抽出対象品詞情報の一例を示す図である。
【符号の説明】
１００　文書情報抽出処理装置
１０２ａ　属性情報登録部
１０２ｂ　属性判定抽出部
１０２ｃ　辞書エントリチェック部
１０２ｄ　チェック済辞書抽出部
１０２ｅ　抽出対象品詞情報登録部
１０２ｆ　構文解析部
１０２ｇ　形態素抽出部
１０２ｈ　テキストマイニング処理部
１０２ｒ　正規形不整合チェック部
１０２ｓ　統計チェック部
１０２ｔ　共起チェック部
１０２ｕ　エントリ単位チェック部
１０４　通信制御インターフェース部
１０６　記憶部
１０６ａ　表記辞書情報ファイル
１０６ｂ　カテゴリ辞書情報ファイル
１０６ｃ　分析対象文書ファイル
１０６ｅ　チェック用語句リストファイル
１０６ｆ　チェック用パターンファイル
１０６ｇ　抽出対象品詞情報ファイル
１０６ｈ　処理結果ファイル
１０８　入出力制御インターフェース部
１１２　入力装置
１１４　出力装置
２００　外部システム
３００　ネットワーク

Claims

表記辞書情報またはカテゴリ辞書に定義された各用語の正規形、別表記形またはカテゴリ項目に対して、情報抽出する際の条件となる属性情報を登録する属性情報登録手段と、
分析対象文書の原文情報の中に上記正規形、上記別表記形または上記カテゴリ項目が存在した場合に、当該正規形、当該別表記形または当該カテゴリ項目が上記属性情報登録手段にて登録された対応する上記属性情報を有するときには当該正規形、当該別表記形または当該カテゴリ項目を情報抽出する属性判定抽出手段と、
を備えたことを特徴とする文書情報抽出処理装置。
表記辞書情報に定義された各用語の正規形または別表記形に対して、不具合のチェックを実行する辞書エントリチェック手段と、
分析対象文書の原文情報の中に、上記辞書エントリチェック手段にて不具合が検出されなかった上記正規形または上記別表記形が存在した場合に、当該正規形または当該別表記形を情報抽出するチェック済辞書抽出手段と、
を備えたことを特徴とする文書情報抽出処理装置。
情報抽出する際の条件となる品詞を定めた抽出対象品詞情報を登録する抽出対象品詞情報登録手段と、
分析対象文書の原文情報に対して構文解析を行い、当該原文情報の中に登場する各単語の品詞を決定する構文解析手段と、
上記分析対象文書の上記原文情報の中に上記単語が存在した場合に、当該単語が上記抽出対象品詞情報登録手段にて登録された上記品詞であるときには当該単語と当該品詞とを情報抽出する形態素抽出手段と、
を備えたことを特徴とする文書情報抽出処理装置。
表記辞書情報またはカテゴリ辞書に定義された各用語の正規形、別表記形またはカテゴリ項目に対して、情報抽出する際の条件となる属性情報を登録する属性情報登録ステップと、
分析対象文書の原文情報の中に上記正規形、上記別表記形または上記カテゴリ項目が存在した場合に、当該正規形、当該別表記形または当該カテゴリ項目が上記属性情報登録ステップにて登録された対応する上記属性情報を有するときには当該正規形、当該別表記形または当該カテゴリ項目を情報抽出する属性判定抽出ステップと、
を含むことを特徴とする文書情報抽出処理方法。
表記辞書情報に定義された各用語の正規形または別表記形に対して、不具合のチェックを実行する辞書エントリチェックステップと、
分析対象文書の原文情報の中に、上記辞書エントリチェックステップにて不具合が検出されなかった上記正規形または上記別表記形が存在した場合に、当該正規形または当該別表記形を情報抽出するチェック済辞書抽出ステップと、
を含むことを特徴とする文書情報抽出処理方法。
情報抽出する際の条件となる品詞を定めた抽出対象品詞情報を登録する抽出対象品詞情報登録ステップと、
分析対象文書の原文情報に対して構文解析を行い、当該原文情報の中に登場する各単語の品詞を決定する構文解析ステップと、
上記分析対象文書の上記原文情報の中に上記単語が存在した場合に、当該単語が上記抽出対象品詞情報登録ステップにて登録された上記品詞であるときには当該単語と当該品詞とを情報抽出する形態素抽出ステップと、
を含むことを特徴とする文書情報抽出処理方法。
表記辞書情報またはカテゴリ辞書に定義された各用語の正規形、別表記形またはカテゴリ項目に対して、情報抽出する際の条件となる属性情報を登録する属性情報登録ステップと、
分析対象文書の原文情報の中に上記正規形、上記別表記形または上記カテゴリ項目が存在した場合に、当該正規形、当該別表記形または当該カテゴリ項目が上記属性情報登録ステップにて登録された対応する上記属性情報を有するときには当該正規形、当該別表記形または当該カテゴリ項目を情報抽出する属性判定抽出ステップと、
を含む文書情報抽出処理方法をコンピュータに実行させることを特徴とするプログラム。
表記辞書情報に定義された各用語の正規形または別表記形に対して、不具合のチェックを実行する辞書エントリチェックステップと、
分析対象文書の原文情報の中に、上記辞書エントリチェックステップにて不具合が検出されなかった上記正規形または上記別表記形が存在した場合に、当該正規形または当該別表記形を情報抽出するチェック済辞書抽出ステップと、
を含む文書情報抽出処理方法をコンピュータに実行させることを特徴とするプログラム。
情報抽出する際の条件となる品詞を定めた抽出対象品詞情報を登録する抽出対象品詞情報登録ステップと、
分析対象文書の原文情報に対して構文解析を行い、当該原文情報の中に登場する各単語の品詞を決定する構文解析ステップと、
上記分析対象文書の上記原文情報の中に上記単語が存在した場合に、当該単語が上記抽出対象品詞情報登録ステップにて登録された上記品詞であるときには当該単語と当該品詞とを情報抽出する形態素抽出ステップと、
を含む文書情報抽出処理方法をコンピュータに実行させることを特徴とするプログラム。
上記請求項７から９のいずれか一つに記載されたプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。