JP2004078541A - 文書情報抽出処理装置、文書情報抽出処理方法、プログラム、および、記録媒体 - Google Patents
文書情報抽出処理装置、文書情報抽出処理方法、プログラム、および、記録媒体 Download PDFInfo
- Publication number
- JP2004078541A JP2004078541A JP2002237688A JP2002237688A JP2004078541A JP 2004078541 A JP2004078541 A JP 2004078541A JP 2002237688 A JP2002237688 A JP 2002237688A JP 2002237688 A JP2002237688 A JP 2002237688A JP 2004078541 A JP2004078541 A JP 2004078541A
- Authority
- JP
- Japan
- Prior art keywords
- information
- notation
- extraction
- dictionary
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】テキストマイニング処理システムにおける情報抽出を高精度化し、抽出量の増加および抽出された情報の高度化を図ることができる、文書情報抽出処理装置、文書情報抽出処理方法、プログラム、および、記録媒体を提供することを課題とする。
【解決手段】本発明にかかる文書情報抽出処理装置は、表記辞書情報またはカテゴリ辞書に定義された各用語の正規形、別表記形またはカテゴリ項目に対して、情報抽出する際の条件となる属性情報を登録し、分析対象文書の原文情報の中に正規形、別表記形またはカテゴリ項目が存在した場合に、当該正規形、当該別表記形または当該カテゴリ項目が登録された対応する属性情報を有するときには当該正規形、当該別表記形または当該カテゴリ項目を情報抽出する。
【選択図】 図6
【解決手段】本発明にかかる文書情報抽出処理装置は、表記辞書情報またはカテゴリ辞書に定義された各用語の正規形、別表記形またはカテゴリ項目に対して、情報抽出する際の条件となる属性情報を登録し、分析対象文書の原文情報の中に正規形、別表記形またはカテゴリ項目が存在した場合に、当該正規形、当該別表記形または当該カテゴリ項目が登録された対応する属性情報を有するときには当該正規形、当該別表記形または当該カテゴリ項目を情報抽出する。
【選択図】 図6
Description
【0001】
【発明の属する技術分野】
本発明は、文書情報抽出処理装置、文書情報抽出処理方法、プログラム、および、記録媒体に関し、特に、テキストマイニング処理システムにおける情報抽出を高精度化し、抽出量の増加および抽出された情報の高度化を図ることができる文書情報抽出処理装置、文書情報抽出処理方法、プログラム、および、記録媒体に関する。
【0002】
【従来の技術】
近年、論文などの各種の技術文献を蓄積した文献データベースが構築され、インターネットなどを介して広く利用されている。例えば、米国国立バイオテクノロジーセンター(NCBI)が米国国立医学図書館(NLM)等の文献データを提供するPubMedなどが存在する(インターネット上のPubMedのURL: http://www.ncbi.nlm.gov/entrez/)。
【0003】
従来の文献データベースの検索サービスにおいては、検索効率の向上などを図るために、各用語の正規形と表記形との対応を取るための「表記辞書」や、各用語についてカテゴリ分類するための「カテゴリ辞書」などが用いられている。
【0004】
例えば、既存の表記辞書やカテゴリ辞書を用いたテキストマイニングシステムとして、IBM(会社名)のTAKMI(製品名)が存在する(IBM東京基礎研究所のテキストマイニング技術紹介のホームページのURL: http://www.trl.ibm.com/projects/s7710/tm/index.htm、TAKMI紹介のホームページのURL: http://www.trl.ibm.com/projects/s7710/tm/takmi/takmi.htm)。
【0005】
また、医学用語のシソーラス検索サービスとして、MeSH(MedicalSubject Headings)などが存在する(NLMのMeSHのホームページのURL: http://www.nlm.nih.gov/mesh/meshhome.html、MeSHの概要を解説した論文のホームページのURL: http://www.nlm.nih.gov/mesh/patterns.html、MeSH BrowserサービスのホームページのURL: http://www.ncbi.nih.gov/entrez/meshbrowser.cgi)。
【0006】
【発明が解決しようとする課題】
ここで、テキストマイニングシステムの概要を図1を参照して説明する。図1は、テキストマイニング処理の概要を示す概念図である。
【0007】
図1に示すように、本システムにおいて分析対象文書群に含まれる各文書情報に現れる語の文字列から概念への対応をつけるために、以下の手順を実行する。
【0008】
まず、表記辞書を作成(手作業で作成される)し、英語や日本語などで記載された文書情報の各語に表記辞書を適用する(ステップSA−1)。
【0009】
そして、部分的に語区切りのついた文書情報に対して、判別ルールに従って専門用語を判別した後(ステップSA−2)、構文解析処理を適用する(ステップSA−3)。ここで、表記辞書の適用と構文解析の実行の順序は任意であり、また、これらを平行して実行してもよい。
【0010】
そして、カテゴリ辞書を作成(手作業で作成される)し、構文解析結果である文書情報の適切な文構造、および、表記辞書を適用して得られた結果に対してカテゴリ辞書を適用してカテゴライズを行い、カテゴリに対応する用語を集計しインデックスを作成する(ステップSA−4)。
【0011】
そして、カテゴライズされた概念等の出現頻度などを計算・集計して所望の統計・分析処理を行い(ステップSA−5)、文書情報中の単語の登場する頻度などをグラフ化した頻度グラフや、文献発行年月日毎等に頻度などをグラフ化した情報時系列グラフや、2−Dマップなどの形式に整形して表示する(ステップSA−6)。そして、利用者は、表示された出現頻度などの各種の統計・分析情報から手作業・目視で所望の情報を抽出する。
【0012】
しかしながら、従来のテキストマイニング処理システムにおいては、表記辞書情報に定義された各用語の正規形または別表記形を分析対象文書の原文から情報抽出し、その出現頻度などを統計・分析を行う際に、表記辞書に登録されたものであれば必ず抽出してしまうため情報抽出時のノイズが多いという問題点を有していた。
【0013】
また、従来、表記辞書は主に人手により作成・更新されていたために、辞書に登録された各エントリの内容に不具合がある場合も多かった。しかしながら、従来のテキストマイニング処理システムにおいては、登録されたエントリに不具合がある場合であっても、その表記辞書に基づいて情報抽出を行うため、情報精度の悪い粗悪な表記辞書を使用すると情報抽出精度が低下するという問題点を有していた。
【0014】
また、従来のテキストマイニング処理システムにおいては、表記辞書に登録されたものであれば必ず抽出してしまうため、同一の用語であっても品詞が異なると意味が異なる場合においても全て情報抽出することになり、情報抽出時のノイズが多いという問題点を有していた。
【0015】
このように、従来のシステム等は数々の問題点を有しており、その結果、システムの利用者および管理者のいずれにとっても、利便性が悪く、また、利用効率が悪いものであった。
【0016】
なお、これまで説明した従来の技術および発明が解決しようとする課題は、生物や医学や科学等の自然科学系の文献の文献情報データベース検索システムに限られず、全ての分野の文献情報を検索する全てのシステムにおいて、同様に考えることができる。
【0017】
本発明は上記問題点に鑑みてなされたもので、テキストマイニング処理システムにおける情報抽出を高精度化し、抽出量の増加および抽出された情報の高度化を図ることができる、文書情報抽出処理装置、文書情報抽出処理方法、プログラム、および、記録媒体を提供することを目的としている。
【0018】
【課題を解決するための手段】
このような目的を達成するため、請求項1に記載の文書情報抽出処理装置は、表記辞書情報またはカテゴリ辞書に定義された各用語の正規形、別表記形またはカテゴリ項目に対して、情報抽出する際の条件となる属性情報を登録する属性情報登録手段と、分析対象文書の原文情報の中に上記正規形、上記別表記形または上記カテゴリ項目が存在した場合に、当該正規形、当該別表記形または当該カテゴリ項目が上記属性情報登録手段にて登録された対応する上記属性情報を有するときには当該正規形、当該別表記形または当該カテゴリ項目を情報抽出する属性判定抽出手段とを備えたことを特徴とする。
【0019】
この装置によれば、表記辞書情報またはカテゴリ辞書に定義された各用語の正規形、別表記形またはカテゴリ項目に対して、情報抽出する際の条件となる属性情報を登録し、分析対象文書の原文情報の中に正規形、別表記形またはカテゴリ項目が存在した場合に、当該正規形、当該別表記形または当該カテゴリ項目が登録された対応する属性情報を有するときには当該正規形、当該別表記形または当該カテゴリ項目を情報抽出するので、予め用語ごとに抽出条件を指定することにより情報抽出時のノイズを低減することができるようになり、また、情報抽出の精度を高めることができ、さらに、抽出効率を高めることができるようになる。
【0020】
また、請求項2に記載の文書情報抽出処理装置は、表記辞書情報に定義された各用語の正規形または別表記形に対して、不具合のチェックを実行する辞書エントリチェック手段と、分析対象文書の原文情報の中に、上記辞書エントリチェック手段にて不具合が検出されなかった上記正規形または上記別表記形が存在した場合に、当該正規形または当該別表記形を情報抽出するチェック済辞書抽出手段とを備えたことを特徴とする。
【0021】
この装置によれば、表記辞書情報に定義された各用語の正規形または別表記形に対して、不具合のチェックを実行し、分析対象文書の原文情報の中に不具合が検出されなかった正規形または別表記形が存在した場合に、当該正規形または当該別表記形を情報抽出するので、辞書情報の品質が悪い場合には不具合を除去することにより、情報抽出の精度を高めることができ、さらに、抽出効率を高めることができるようになる。
【0022】
また、請求項3に記載の文書情報抽出処理装置は、情報抽出する際の条件となる品詞を定めた抽出対象品詞情報を登録する抽出対象品詞情報登録手段と、分析対象文書の原文情報に対して構文解析を行い、当該原文情報の中に登場する各単語の品詞を決定する構文解析手段と、上記分析対象文書の上記原文情報の中に上記単語が存在した場合に、当該単語が上記抽出対象品詞情報登録手段にて登録された上記品詞であるときには当該単語と当該品詞とを情報抽出する形態素抽出手段とを備えたことを特徴とする。
【0023】
この装置によれば、情報抽出する際の条件となる品詞を定めた抽出対象品詞情報を登録し、分析対象文書の原文情報に対して構文解析を行い、当該原文情報の中に登場する各単語の品詞を決定し、分析対象文書の原文情報の中に単語が存在した場合に、当該単語が登録された品詞であるときには当該単語と当該品詞とを情報抽出するので、同一の単語であっても品詞が異なると意味が異なる場合においても、所望の意味の単語を情報抽出することができるようになる。
【0024】
また、本発明は方法に関するものであり、請求項4に記載の文書情報抽出処理方法は、表記辞書情報またはカテゴリ辞書に定義された各用語の正規形、別表記形またはカテゴリ項目に対して、情報抽出する際の条件となる属性情報を登録する属性情報登録ステップと、分析対象文書の原文情報の中に上記正規形、上記別表記形または上記カテゴリ項目が存在した場合に、当該正規形、当該別表記形または当該カテゴリ項目が上記属性情報登録ステップにて登録された対応する上記属性情報を有するときには当該正規形、当該別表記形または当該カテゴリ項目を情報抽出する属性判定抽出ステップとを含むことを特徴とする。
【0025】
この方法によれば、表記辞書情報またはカテゴリ辞書に定義された各用語の正規形、別表記形またはカテゴリ項目に対して、情報抽出する際の条件となる属性情報を登録し、分析対象文書の原文情報の中に正規形、別表記形またはカテゴリ項目が存在した場合に、当該正規形、当該別表記形または当該カテゴリ項目が登録された対応する属性情報を有するときには当該正規形、当該別表記形または当該カテゴリ項目を情報抽出するので、予め用語ごとに抽出条件を指定することにより情報抽出時のノイズを低減することができるようになり、また、情報抽出の精度を高めることができ、さらに、抽出効率を高めることができるようになる。
【0026】
また、請求項5に記載の文書情報抽出処理方法は、表記辞書情報に定義された各用語の正規形または別表記形に対して、不具合のチェックを実行する辞書エントリチェックステップと、分析対象文書の原文情報の中に、上記辞書エントリチェックステップにて不具合が検出されなかった上記正規形または上記別表記形が存在した場合に、当該正規形または当該別表記形を情報抽出するチェック済辞書抽出ステップとを含むことを特徴とする。
【0027】
この方法によれば、表記辞書情報に定義された各用語の正規形または別表記形に対して、不具合のチェックを実行し、分析対象文書の原文情報の中に不具合が検出されなかった正規形または別表記形が存在した場合に、当該正規形または当該別表記形を情報抽出するので、辞書情報の品質が悪い場合には不具合を除去することにより、情報抽出の精度を高めることができ、さらに、抽出効率を高めることができるようになる。
【0028】
また、請求項6に記載の文書情報抽出処理方法は、情報抽出する際の条件となる品詞を定めた抽出対象品詞情報を登録する抽出対象品詞情報登録ステップと、分析対象文書の原文情報に対して構文解析を行い、当該原文情報の中に登場する各単語の品詞を決定する構文解析ステップと、上記分析対象文書の上記原文情報の中に上記単語が存在した場合に、当該単語が上記抽出対象品詞情報登録ステップにて登録された上記品詞であるときには当該単語と当該品詞とを情報抽出する形態素抽出ステップとを含むことを特徴とする。
【0029】
この方法によれば、情報抽出する際の条件となる品詞を定めた抽出対象品詞情報を登録し、分析対象文書の原文情報に対して構文解析を行い、当該原文情報の中に登場する各単語の品詞を決定し、分析対象文書の原文情報の中に単語が存在した場合に、当該単語が登録された品詞であるときには当該単語と当該品詞とを情報抽出するので、同一の単語であっても品詞が異なると意味が異なる場合においても、所望の意味の単語を情報抽出することができるようになる。
【0030】
また、本発明はプログラムに関するものであり、請求項7に記載のプログラムは、表記辞書情報またはカテゴリ辞書に定義された各用語の正規形、別表記形またはカテゴリ項目に対して、情報抽出する際の条件となる属性情報を登録する属性情報登録ステップと、分析対象文書の原文情報の中に上記正規形、上記別表記形または上記カテゴリ項目が存在した場合に、当該正規形、当該別表記形または当該カテゴリ項目が上記属性情報登録ステップにて登録された対応する上記属性情報を有するときには当該正規形、当該別表記形または当該カテゴリ項目を情報抽出する属性判定抽出ステップとを含む文書情報抽出処理方法をコンピュータに実行させることを特徴とする。
【0031】
このプログラムによれば、表記辞書情報またはカテゴリ辞書に定義された各用語の正規形、別表記形またはカテゴリ項目に対して、情報抽出する際の条件となる属性情報を登録し、分析対象文書の原文情報の中に正規形、別表記形またはカテゴリ項目が存在した場合に、当該正規形、当該別表記形または当該カテゴリ項目が登録された対応する属性情報を有するときには当該正規形、当該別表記形または当該カテゴリ項目を情報抽出するので、予め用語ごとに抽出条件を指定することにより情報抽出時のノイズを低減することができるようになり、また、情報抽出の精度を高めることができ、さらに、抽出効率を高めることができるようになる。
【0032】
また、請求項8に記載のプログラムは、表記辞書情報に定義された各用語の正規形または別表記形に対して、不具合のチェックを実行する辞書エントリチェックステップと、分析対象文書の原文情報の中に、上記辞書エントリチェックステップにて不具合が検出されなかった上記正規形または上記別表記形が存在した場合に、当該正規形または当該別表記形を情報抽出するチェック済辞書抽出ステップとを含む文書情報抽出処理方法をコンピュータに実行させることを特徴とする。
【0033】
このプログラムによれば、表記辞書情報に定義された各用語の正規形または別表記形に対して、不具合のチェックを実行し、分析対象文書の原文情報の中に不具合が検出されなかった正規形または別表記形が存在した場合に、当該正規形または当該別表記形を情報抽出するので、辞書情報の品質が悪い場合には不具合を除去することにより、情報抽出の精度を高めることができ、さらに、抽出効率を高めることができるようになる。
【0034】
また、請求項9に記載のプログラムは、情報抽出する際の条件となる品詞を定めた抽出対象品詞情報を登録する抽出対象品詞情報登録ステップと、分析対象文書の原文情報に対して構文解析を行い、当該原文情報の中に登場する各単語の品詞を決定する構文解析ステップと、上記分析対象文書の上記原文情報の中に上記単語が存在した場合に、当該単語が上記抽出対象品詞情報登録ステップにて登録された上記品詞であるときには当該単語と当該品詞とを情報抽出する形態素抽出ステップとを含む文書情報抽出処理方法をコンピュータに実行させることを特徴とする。
【0035】
このプログラムによれば、情報抽出する際の条件となる品詞を定めた抽出対象品詞情報を登録し、分析対象文書の原文情報に対して構文解析を行い、当該原文情報の中に登場する各単語の品詞を決定し、分析対象文書の原文情報の中に単語が存在した場合に、当該単語が登録された品詞であるときには当該単語と当該品詞とを情報抽出するので、同一の単語であっても品詞が異なると意味が異なる場合においても、所望の意味の単語を情報抽出することができるようになる。
【0036】
また、本発明は記録媒体に関するものであり、請求項10に記載の記録媒体は、上記請求項7から9のいずれか一つに記載されたプログラムを記録したことを特徴とする。
【0037】
この記録媒体によれば、当該記録媒体に記録されたプログラムをコンピュータに読み取らせて実行することによって、請求項7から9のいずれか一つに記載されたプログラムをコンピュータを利用して実現することができ、これら各方法と同様の効果を得ることができる。
【0038】
【発明の実施の形態】
以下に、本発明にかかる文書情報抽出処理装置、文書情報抽出処理方法、プログラム、および、記録媒体の実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。
特に、以下の実施の形態においては、本発明を、生物や医学や科学等の自然科学系の文献の文献情報データベース検索システムに適用した例について説明するが、この場合に限られず、全ての分野の文献情報を検索する全てのシステムにおいて、同様に適用することができる。
【0039】
[本発明の概要]
以下、本発明の概要について説明し、その後、本発明の構成および処理等について詳細に説明する。
本発明は、概略的に、以下の基本的特徴を有する。本発明は、図1に示したテキストマイニング処理における集計結果の統計・分析処理を行う際の情報抽出の高精度化・効率化・自動化を図る。すなわち、本発明は、表記辞書情報またはカテゴリ辞書情報に定義された各用語の正規形、別表記形またはカテゴリ項目に対して、情報抽出する際の条件となる属性情報を登録し、分析対象文書の原文情報の中に正規形、別表記形またはカテゴリ項目が存在した場合に、当該正規形、当該別表記形または当該カテゴリ項目が登録された対応する属性情報を有するときには当該正規形、当該別表記形または当該カテゴリ項目を情報抽出する。
【0040】
また、本発明は、表記辞書情報に定義された各用語に対して、不具合のチェックを実行し、分析対象文書の原文情報の中に不具合が検出されなかった正規形または別表記形が存在した場合に、当該正規形または当該別表記形を情報抽出するので、辞書情報の品質が悪い場合には不具合を除去する。
【0041】
さらに、本発明は、情報抽出する際の条件となる品詞を定めた抽出対象品詞情報を登録し、分析対象文書の原文情報に対して構文解析を行い、当該原文情報の中に登場する各単語の品詞を決定し、分析対象文書の原文情報の中に単語が存在した場合に、当該単語が登録された品詞であるときには当該単語と当該品詞とを情報抽出する。
【0042】
[システム構成]
まず、本システムの構成について説明する。図2は、本発明が適用される本システムの構成の一例を示すブロック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。本システムは、概略的に、文書情報抽出処理装置100と、文献情報や配列情報等に関する外部データベースや各種検索処理等の外部プログラム等を提供する外部システム200とを、ネットワーク300を介して通信可能に接続して構成されている。
【0043】
図2においてネットワーク300は、文書情報抽出処理装置100と外部システム200とを相互に接続する機能を有し、例えば、インターネット等である。
【0044】
図2において外部システム200は、ネットワーク300を介して、文書情報抽出処理装置100と相互に接続され、利用者に対して文献情報や配列情報等に関する外部データベースや各種検索処理等の外部プログラム等を実行するウェブサイトを提供する機能を有する。
【0045】
ここで、外部システム200は、WEBサーバやASPサーバ等として構成してもよく、そのハードウェア構成は、一般に市販されるワークステーション、パーソナルコンピュータ等の情報処理装置およびその付属装置により構成してもよい。また、外部システム200の各機能は、外部システム200のハードウェア構成中のCPU、ディスク装置、メモリ装置、入力装置、出力装置、通信制御装置等およびそれらを制御するプログラム等により実現される。
【0046】
図2において文書情報抽出処理装置100は、概略的に、文書情報抽出処理装置100の全体を統括的に制御するCPU等の制御部102、通信回線等に接続されるルータ等の通信装置(図示せず)に接続される通信制御インターフェース部104、入力装置112や出力装置114に接続される入出力制御インターフェース部108、および、各種のデータベースやテーブルなどを格納する記憶部106を備えて構成されており、これら各部は任意の通信路を介して通信可能に接続されている。さらに、この文書情報抽出処理装置100は、ルータ等の通信装置および専用線等の有線または無線の通信回線を介して、ネットワーク300に通信可能に接続されている。
【0047】
記憶部106に格納される各種のデータベースやテーブル(表記辞書情報ファイル106a〜処理結果ファイル106h)は、固定ディスク装置等のストレージ手段であり、各種処理に用いる各種のプログラムやテーブルやファイルやデータベースやウェブページ用ファイル等を格納する。
【0048】
これら記憶部106の各構成要素のうち、表記辞書情報ファイル106aは、各用語の正規形と別表記形との対応関係を定義する表記辞書情報を格納した表記辞書情報格納手段である。図4は、表記辞書情報ファイル106aに格納される表記辞書情報の一例を示す図である。この表記辞書情報ファイル106aに格納される表記辞書情報は、図4に示すように、正規形と別表記形との対応関係、および、各用語の正規形、別表記形に対して情報抽出する際の条件となる属性情報を定義している。
【0049】
また、カテゴリ辞書情報ファイル106bは、正規形の所属するカテゴリを定義するカテゴリ辞書情報を格納するカテゴリ辞書情報格納手段である。図5は、カテゴリ辞書情報ファイル106bに格納されるカテゴリ辞書情報の一例を示す図である。このカテゴリ辞書情報ファイル106bに格納されるカテゴリ辞書情報は、図5に示すように、カテゴリと正規形との対応関係、カテゴリ構造(図5ではカテゴリ構造の概念を示しており、実際のファイルにはノード(カテゴリ)毎の親ノードと子ノードの情報等を定義している。)、および、各用語のカテゴリ項目に対して情報抽出する際の条件となる属性情報を定義している。
【0050】
また、分析対象文書ファイル106cは、解析対象の文書情報の原文情報や、その原文情報に設定されたリンク先のURL等のアドレス情報等を格納する文書情報格納手段である。ここでアドレス情報は、原文中の一部分が外部データベースの識別子と解釈できる部分があれば、その外部データベースのハイパーリンク(WWWリンク)情報等を格納してもよい。
【0051】
また、チェック用語句リストファイル106eは、チェック用語句リストを格納したチェック用語句リスト格納手段である。
【0052】
また、チェック用パターンファイル106fは、チェック用パターンを格納したチェック用パターン格納手段である。
【0053】
また、抽出対象品詞情報ファイル106gは、情報抽出する際の条件となる品詞を定めた抽出対象品詞情報を格納する抽出対象品詞情報格納手段である。図19は、抽出対象品詞情報ファイル106gに格納される抽出対象品詞情報の一例を示す図である。この抽出対象品詞情報ファイル106gに格納される抽出対象品詞情報は、図19に示すように、抽出対象品詞情報は、情報抽出する際の条件となる品詞を格納する。
【0054】
また、処理結果ファイル106hは、制御部による各処理の処理結果や中間結果などのワークファイル等を格納する処理結果格納手段である。
【0055】
ここで、表記辞書情報ファイル106a、カテゴリ辞書情報ファイル106bおよび構文解析用辞書情報ファイル106dなどに格納された各種の辞書は、ユーザ編集用と、計算機処理用で構造を変えてもよい。すなわち、ユーザ編集用は、属性の着脱が容易や属性値の変更が容易な辞書構造が好ましいため、例えば、XMLを用いた辞書構築を行い、属性の着脱はDTDの変更により、また、属性値の変更はタグ付きテキスト文書の編集などにより実現してもよい。
また、計算機処理用は、高速処理が容易な形式が好ましいため、例えば、CSV形式などを用いた辞書構築を行ってもよい。そして、文書情報抽出処理装置100がユーザ編集用辞書から計算機処理用辞書への自動変換機能を備えることにより、自動生成してもよい。
【0056】
また、図2において、通信制御インターフェース部104は、文書情報抽出処理装置100とネットワーク300(またはルータ等の通信装置)との間における通信制御を行う。すなわち、通信制御インターフェース部104は、他の端末と通信回線を介してデータを通信する機能を有する。
【0057】
また、図2において、入出力制御インターフェース部108は、入力装置112や出力装置114の制御を行う。ここで、出力装置114としては、モニタ(家庭用テレビを含む)の他、スピーカを用いることができる(なお、以下においては出力装置114をモニタとして記載する場合がある)。また、入力装置112としては、キーボード、マウス、および、マイク等を用いることができる。また、モニタも、マウスと協働してポインティングデバイス機能を実現する。
【0058】
また、図2において、制御部102は、OS(Operating System)等の制御プログラム、各種の処理手順等を規定したプログラム、および所要データを格納するための内部メモリを有し、これらのプログラム等により、種々の処理を実行するための情報処理を行う。制御部102は、機能概念的に、属性情報登録部102a、属性判定抽出部102b、辞書エントリチェック部102c、チェック済辞書抽出部102d、抽出対象品詞情報登録部102e、構文解析部102f、形態素抽出部102g、テキストマイニング処理部102h、および、名寄せ処理部102iを備えて構成されている。
【0059】
このうち、属性情報登録部102aは、表記辞書情報またはカテゴリ辞書に定義された各用語の正規形、別表記形またはカテゴリ項目に対して、情報抽出する際の条件となる属性情報を登録する属性情報登録手段である。
【0060】
また、属性判定抽出部102bは、分析対象文書の原文情報の中に正規形、別表記形またはカテゴリ項目が存在した場合に、当該正規形、当該別表記形または当該カテゴリ項目が属性情報登録手段にて登録された対応する属性情報を有するときには当該正規形、当該別表記形または当該カテゴリ項目を情報抽出する属性判定抽出手段である。
【0061】
また、辞書エントリチェック部102cは、表記辞書情報に定義された各用語の正規形または別表記形に対して、不具合のチェックを実行する辞書エントリチェック手段である。ここで、辞書エントリチェック部102cは、図3に示すように、正規形不整合チェック部102r、統計チェック部102s、共起チェック部102t、および、エントリ単位チェック部102uを備えて構成される。正規形不整合チェック部102rは、表記辞書情報に登録された別表記形が他の正規形として登録されているか否かをチェックする正規形不整合チェック手段である。また、統計チェック部102sは、表記辞書情報および/またはカテゴリ辞書情報に登録された正規形、別表記形、または、カテゴリに関する登録状況および利用状況について統計処理を行い、当該統計処理の結果が予め定めた正常値範囲に入っているか否かをチェックする統計チェック手段である。また、共起チェック部102tは、表記辞書情報および/またはカテゴリ辞書情報に登録された正規形、別表記形、または、カテゴリに関する共起関係に基づいて類似度を計算する共起チェック手段である。また、エントリ単位チェック部102uは、チェック用語句リスト、チェック用プログラム、チェック用パターンのうち少なくとも一つに基づいて、表記辞書情報および/またはカテゴリ辞書情報を各エントリ単位にチェックするエントリ単位チェック手段である。
【0062】
また、チェック済辞書抽出部102dは、分析対象文書の原文情報の中に、辞書エントリチェック手段にて不具合が検出されなかった正規形または別表記形が存在した場合に、当該正規形または当該別表記形を情報抽出するチェック済辞書抽出手段である。
【0063】
また、抽出対象品詞情報登録部102eは、情報抽出する際の条件となる品詞を定めた抽出対象品詞情報を登録する抽出対象品詞情報登録手段である。
【0064】
また、構文解析部102fは、分析対象文書の原文情報に対して構文解析を行い、当該原文情報の中に登場する各単語の品詞を決定する構文解析手段である。
【0065】
また、形態素抽出部102gは、分析対象文書の上記原文情報の中に上記単語が存在した場合に、当該単語が抽出対象品詞情報登録手段にて登録された品詞であるときには当該単語と当該品詞とを情報抽出する形態素抽出手段である。
【0066】
また、テキストマイニング処理部102hは、例えば上述した図1に示すテキストマイニング処理により情報抽出結果に対して統計・分析処理を実行するテキストマイニング手段である。
【0067】
また、名寄せ処理部102iは、原文情報や各種の辞書情報に登録された各用語について小文字化や単数形化することにより同一の用語となるものを名寄せする名寄せ処理手段である。
なお、これら各部によって行なわれる処理の詳細については、後述する。
【0068】
[システムの処理]
次に、このように構成された本実施の形態における本システムの処理の一例について、以下に図6〜図18等を参照して詳細に説明する。
【0069】
[属性情報による情報抽出処理]
まず、属性情報による情報抽出処理の詳細について図6を参照して説明する。図6は、本実施形態における本システムの属性情報による情報抽出処理の一例を示す概念図である。
【0070】
まず、文書情報抽出処理装置100は、属性情報登録部102aの処理により、表記辞書情報ファイル106aに予め格納された表記辞書情報に定義された各用語の正規形または別表記形に対して、情報抽出する際の条件となる属性情報を登録する(ステップSB−1)。ここで、属性情報の登録は、属性情報登録部102aが出力装置114に属性情報登録用画面を表示して、各用語の正規形および別表記形に対応する属性情報を入力装置112を介して利用者に入力させ、当該入力情報を表記辞書情報ファイル106aに格納することにより登録してもよい。
【0071】
そして、文書情報抽出処理装置100は、分析対象文書ファイル106cに格納された分析対象文書の原文情報から表記辞書を参照しながら正規形や別表記形の抽出しその抽出数等から出現頻度等の統計・分析処理を行う際に、属性判定抽出部102bの処理により、表記辞書情報ファイル106aを当てた結果、分析対象文書の中に正規形または別表記形が存在した場合に、当該正規形または当該別表記形が属性情報登録部102aにより登録されたそれぞれに対応する属性情報を有するときには当該正規形、当該別表記形または当該カテゴリ項目を情報抽出する(ステップSB−2)。
【0072】
ここで、図6では表記辞書情報ファイル106aに格納された表記辞書情報を用いて、表記辞書情報に定義された正規形と別表記形に対する属性情報による情報抽出処理の一例を示したが、文書情報抽出処理装置100は、カテゴリ辞書情報ファイル106bに格納されたカテゴリ辞書情報を用いて、カテゴリ辞書情報に定義された正規形とカテゴリ項目に対する属性情報による情報抽出処理も同様に実行することができる。
これにて、属性情報による情報抽出処理が終了する。
【0073】
[辞書エントリの自動調整処理]
次に、辞書エントリの自動調整処理の詳細について図7〜図17を参照して説明する。図7は、本実施形態における本システムの辞書エントリの自動調整処理の一例を示す概念図である。
まず、文書情報抽出処理装置100は、辞書エントリチェック部102cの処理により、分析対象文書ファイル106cに格納された表記辞書情報に定義された各用語の正規形または別表記形に対して、不具合のチェックを実行し、不具合を検出した場合にはそのエントリを不具合エントリリストに登録して処理結果ファイル106hに格納する(ステップSC−1)。
【0074】
そして、文書情報抽出処理装置100は、分析対象文書ファイル106cに格納された分析対象文書の原文情報から表記辞書を参照しながら表記形や別表記形の抽出しその抽出数等から出現頻度等の統計・分析処理を行う際に、チェック済辞書抽出部102dの処理により、分析対象文書の原文情報の中に、辞書エントリチェック部102cにて不具合が検出されなかった正規形または別表記形が存在した場合に、当該正規形または当該別表記形を情報抽出する(ステップSC−2)。
【0075】
ここで、辞書エントリチェック部102cによる辞書エントリの不具合のチェック手法を以下に例示する。
【0076】
(1)チェック用語句リストを用いた辞書エントリの不具合のチェック手法
図8は、本実施形態における本システムのチェック用語句リストを用いた辞書エントリの不具合のチェック手法の一例を示す概念図である。まず、図8に示すように、文書情報抽出処理装置100は、エントリ単位チェック部102uの処理により、チェック用語句リストファイル106eに格納されたチェック用語句リストに基づいて、表記辞書情報ファイル106aに格納された表記辞書情報および/またはカテゴリ辞書情報ファイル106bに格納されたカテゴリ辞書情報を各エントリ単位にチェックする。ここで、チェック用語句リストは、例えば、前置詞、冠詞、代名詞などの正規形や別表記形として登録してはいけない用語をリストとして保存したものである。
【0077】
(2)チェック用パターンやロジックを用いた辞書エントリの不具合のチェック手法
また、図9は、本実施形態における本システムのチェック用パターンやロジックを用いた辞書エントリの不具合のチェック手法の一例を示す概念図である。図9に示すように、文書情報抽出処理装置100は、エントリ単位チェック部102uの処理により、チェック用パターンファイル106fに格納されたチェック用パターンや、チェック用プログラムに基づいて、表記辞書情報ファイル106aに格納された表記辞書情報および/またはカテゴリ辞書情報ファイル106bに格納されたカテゴリ辞書情報を各エントリ単位にチェックする。ここで、チェック用パターンは、使用してはいけない数表現や記号列表現などのパターン(たとえば、正規表現などで記述される)を登録したものである。また、チェック用プログラムは、正規形の複数形が別の正規形として登録されたもの等をチェックするプログラムである。また、チェック用プログラムは、図10に示すように、各正規形や別表記形の文字列長、単語数、文字種毎の文字数等を計測して、予め定めた計測項目ごとの正常範囲に入るか否かをチェックし、異常なチェック結果を出力するための計測プログラムであってもよい。
【0078】
(3)正規形不整合チェックを用いた辞書エントリの不具合のチェック手法
次に、正規形不整合チェック処理の詳細について図11を参照して説明する。図11は、本実施形態における本システムの正規形不整合チェック処理の一例を示す概念図である。
【0079】
まず、図11に示すように、文書情報抽出処理装置100は、正規形不整合チェック部102rの処理により、表記辞書情報ファイル106aに格納された表記辞書情報に登録された別表記形が他の正規形として登録されているか否かをチェックする。これにより、正規形が他の正規形の別表記形とされて、表記辞書上に重複登録されているものをチェックすることができるようになる。
【0080】
また、正規形不整合チェック部102rによる正規形と別表記形の自動調整の一例として、以下の手法を用いてもよい。
まず、正規形不整合チェック部102rは、表記辞書を複製してコピー辞書を作成する。そして、正規形不整合チェック部102rは、このコピー辞書のすべてのエントリの組(E1、E2)について、変化がなくなるまで以下の処理を繰返し実行する。まず、E1の別表記形をW1とする。次に、E2の正規形と別表記形をそれぞれC2とW2とする。そして、W1がC2を含むならばC2とW2をE1の別表記形に追加する。そして、このように作成したコピー辞書を用いて辞書当てを行うことにより、別表記形を正規形として持つエントリを利用して別表記形を拡充することができ、情報抽出の精度及び効率を向上することができる。
【0081】
(4)統計チェックを用いた辞書エントリの不具合のチェック手法
次に、統計チェック処理の詳細について図12および図13を参照して説明する。図12および図13は、本実施形態における本システムの統計チェック処理の一例を示す概念図である。
【0082】
まず、図12に示すように、文書情報抽出処理装置100は、統計チェック部102sの処理により、表記辞書情報ファイル106aの格納された表記辞書情報および/またはカテゴリ辞書情報ファイル106bに格納されたカテゴリ辞書情報に登録された正規形、別表記形、または、カテゴリに関する登録状況および利用状況について統計量を求める統計処理を行い、当該統計処理の結果が予め定めた正常値範囲に入っているか否かをチェックする。
【0083】
ここで、登録状況に関する統計処理として、例えば、図12に示すように、同一別表記形に対する正規形数、同一正規形に対するカテゴリ数、同一カテゴリに対する正規形数などについて統計処理を行ってもよい。
【0084】
また、利用状況に関する統計処理として、統計チェック部102sは、例えば、図13に示すように、分析対象文書ファイル106cに格納された文書情報の原データ毎、および、辞書のエントリ毎に辞書引きのヒット回数をカウントしてマトリックスを作成し、縦方向または横方向で集計や分布を見る等の統計処理を行ってもよい。また、ここで、統計チェック部102sは、縦方向または横方向で集計を取る際には、単純に数の合計をとってもよく、また、0以外のマスの数をカウントしてもよい。また、統計チェック部102sは、情報の種類(例えば、正規形、表記辞書名、パーザで抽出した情報、n項関係の情報など)毎に単純な数の合計や0以外のマスの数をカウントしてもよい。また、統計チェック部102sは、統計量の算出の際には、縦方向または横方向ごとに、最大値、最小値、平均値、または、分布等を計算してもよく、また、情報の種類毎または表全体で、最大値、最小値、平均値、または、分布等を計算してもよい。
【0085】
また、カテゴリ辞書に関する統計処理として、統計チェック部102sは、分析対象文書ファイル106cに格納された文書情報の原データ毎、および、カテゴリ辞書のノード毎に抽出回数をカウントしてもよい。また、統計チェック部102sは、マトリックスを作成し、縦方向または横方向で集計や分布を見る等の統計処理を行ってもよい。ここで、統計チェック部102sは、縦方向または横方向で集計を取る際には、単純に数の合計をとってもよく、また、0以外のマスの数をカウントしてもよい。また、統計チェック部102sは、部分木毎に、単純に数の合計をとってもよく、また、0以外のマスの数をカウントしてもよい。また、統計チェック部102sは、統計量の算出の際には、縦方向または横方向ごとに、最大値、最小値、平均値、または、分布等を計算してもよく、また、情報の種類毎または表全体で、最大値、最小値、平均値、または、分布等を計算してもよい。
【0086】
また、統計チェック部102sは、原データごと、または、情報のm項組毎に、テキスト上で連続した箇所から抽出された回数のカウントをとってもよい。これにより、連語や出現順番に意味がある用語の組が正しく登録されているかをチェックすることができる。
【0087】
また、統計チェック部102sは、原データごとに、辞書引きで当たらなかった箇所や、情報が抽出されなかった箇所の単語数をカウントして統計処理をしてもよく、また、カテゴリが付与されなかった正規形数や、n項関係の要素にならなかった正規形数をカウントして統計処理をしてもよい。
【0088】
(5)共起チェックを用いた辞書エントリの不具合のチェック手法
次に、共起チェック処理の詳細について図14および図15を参照して説明する。図14および図15は、本実施形態における本システムの共起チェック処理の一例を示す概念図である。
【0089】
まず、図14に示すように、文書情報抽出処理装置100は、共起チェック部102tの処理により、同じ別表記形を持つ表記辞書エントリや、同じ正規形を持つカテゴリなどの共起関係に基づいてそれぞれの類似度を計算する。例えば、図14の例を表記辞書(XXXが正規形、YYY群が別表記形)に当てはめると、正規形Aと正規形Bが同一の別表記形Wをもつことから共起関係を持っている。そして、正規形Aと正規形Bが全て同じ別表記形を持つ場合には、正規形Aと正規形Bは同一ということになり、また、違うものが含まれる場合には類似ということになる。また、図14の例をカテゴリ辞書(XXXがカテゴリ、YYY群が正規形)に当てはめると、カテゴリAとカテゴリBが同一の正規形Wをもつことから共起関係を持っている。そして、カテゴリAとカテゴリBが全て同じ正規形を持つ場合には、カテゴリAとカテゴリBは同一ということになり、また、違うものが含まれる場合には類似ということになる。
【0090】
ここで、類似度の計算は、図15に示すように、一致数で示してよく(図15の例1では、XとWの2つが一致しているので、類似度が2となる)、また、一致割合で示してもよい(図15の例2では、全要素数13のうち一致数が2であるので、2/13)。
【0091】
(6)チェック結果の出力処理
次に、チェック結果の出力処理の詳細について図17を参照して説明する。図17は、本実施形態における本システムのチェック結果の出力処理の一例を示す概念図である。
文書情報抽出処理装置100は、図17に示すように、辞書エントリチェック部102cによるチェック結果などについて、予め定めた正常値範囲を超える場合には、チェック結果(不具合エントリリスト)を出力装置114に出力する。
これにて、辞書エントリの自動調整処理が終了する。
【0092】
[ロジックを用いた名寄せ処理]
次に、ロジックを用いた名寄せ処理の詳細について図16を参照して説明する。図16は、本実施形態における本システムのロジックを用いた名寄せ処理の一例を示す概念図である。
まず、図16に示すように、文書情報抽出処理装置100は、名寄せ処理部102iの処理により、各辞書チェック項目や分析対象文書の原文情報における語句の同一性の判断において、小文字化、単数形化などを行うことにより、チェック精度の向上を図っている。このように、このように、名寄せ処理部102iは、制御部102の各部(例えば、上述したチェック済辞書抽出部102d等)の中で個別にコールされることにより、各処理中で名寄せ処理を随時実行することができる。これにより、各辞書チェック項目や分析対象文書の原文情報で、同一のロジックにより名寄せを行うことにより、分析精度および効率の向上を図ることができるようになる。
これにて、ロジックを用いた名寄せ処理が終了する。
【0093】
[形態素抽出処理]
次に、形態素抽出処理の詳細について図18を参照して説明する。図18は、本実施形態における本システムの形態素抽出処理の一例を示す概念図である。
まず、文書情報抽出処理装置100は、抽出対象品詞情報登録部102eの処理により、情報抽出する際の条件となる品詞を定めた抽出対象品詞情報を抽出対象品詞情報ファイル106gに登録する(ステップSD−1)。ここで、抽出対象品詞情報の登録は、抽出対象品詞情報登録部102eが出力装置114に抽出対象品詞情報登録用画面を表示して、抽出対象品詞情報を入力装置112を介して利用者に入力させ、当該入力情報を抽出対象品詞情報ファイル106gに格納することにより登録してもよい。
【0094】
そして、文書情報抽出処理装置100は、構文解析部102fの処理より、分析対象文書ファイル106cに格納された分析対象文書の原文情報に対して既知の自然言語パーザ等の機能を用いて構文解析を行い、当該原文情報の中に登場する各単語の品詞を決定する。そして形態素抽出部102gは、分析対象文書の原文情報の中に登場する各単語について、分析対象文書内表記と、それに対応する正規形(分析対象文書内表記が別表記形である場合のみ)と、構文解析による品詞とを含む形態素を作成する(ステップSD−2)。
【0095】
そして、文書情報抽出処理装置100は、形態素抽出部102gの処理により、分析対象文書の原文情報の中に単語が存在した場合に、形態素の当該単語が抽出対象品詞情報登録部102eにより登録された品詞であるときには当該単語と当該品詞を情報抽出する(ステップSD−3)。
これにて、形態素抽出処理が終了する。
【0096】
[他の実施の形態]
さて、これまで本発明の実施の形態について説明したが、本発明は、上述した実施の形態以外にも、上記特許請求の範囲に記載した技術的思想の範囲内において種々の異なる実施の形態にて実施されてよいものである。
【0097】
例えば、文書情報抽出処理装置100がスタンドアローンの形態で処理を行う場合を一例に説明したが、文書情報抽出処理装置100とは別筐体で構成されるクライアント端末からの要求に応じて処理を行い、その処理結果を当該クライアント端末に返却するように構成してもよい。
【0098】
また、実施形態において説明した各処理のうち、自動的に行なわれるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行なわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。
この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種の登録データや検索条件等のパラメータを含む情報、画面例、データベース構成については、特記する場合を除いて任意に変更することができる。
【0099】
また、文書情報抽出処理装置100に関して、図示の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。
例えば、文書情報抽出処理装置100の各部または各装置が備える処理機能、特に制御部102にて行なわれる各処理機能については、その全部または任意の一部を、CPU(Central Processing Unit)および当該CPUにて解釈実行されるプログラムにて実現することができ、あるいは、ワイヤードロジックによるハードウェアとして実現することも可能である。なお、プログラムは、後述する記録媒体に記録されており、必要に応じて文書情報抽出処理装置100に機械的に読み取られる。
【0100】
すなわち、ROMまたはHDなどの記憶部106などには、OS(Operating System)と協働してCPUに命令を与え、各種処理を行うためのコンピュータプログラムが記録されている。このコンピュータプログラムは、RAM等にロードされることによって実行され、CPUと協働して制御部102を構成する。また、このコンピュータプログラムは、文書情報抽出処理装置100に対して任意のネットワーク300を介して接続されたアプリケーションプログラムサーバに記録されてもよく、必要に応じてその全部または一部をダウンロードすることも可能である。
【0101】
また、本発明にかかるプログラムを、コンピュータ読み取り可能な記録媒体に格納することもできる。ここで、この「記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、EPROM、EEPROM、CD−ROM、MO、DVD等の任意の「可搬用の物理媒体」や、各種コンピュータシステムに内蔵されるROM、RAM、HD等の任意の「固定用の物理媒体」、あるいは、LAN、WAN、インターネットに代表されるネットワークを介してプログラムを送信する場合の通信回線や搬送波のように、短期にプログラムを保持する「通信媒体」を含むものとする。
【0102】
また、「プログラム」とは、任意の言語や記述方法にて記述されたデータ処理方法であり、ソースコードやバイナリコード等の形式を問わない。なお、「プログラム」は必ずしも単一的に構成されるものに限られず、複数のモジュールやライブラリとして分散構成されるものや、OS(Operating System)に代表される別個のプログラムと協働してその機能を達成するものをも含む。なお、実施の形態に示した各装置において記録媒体を読み取るための具体的な構成、読み取り手順、あるいは、読み取り後のインストール手順等については、周知の構成や手順を用いることができる。
【0103】
記憶部106に格納される各種のデータベース等(表記辞書情報ファイル106a〜処理結果ファイル106h)は、RAM、ROM等のメモリ装置、ハードディスク等の固定ディスク装置、フレキシブルディスク、光ディスク等のストレージ手段であり、各種処理やウェブサイト提供に用いる各種のプログラムやテーブルやファイルやデータベースやウェブページ用ファイル等を格納する。
【0104】
また、文書情報抽出処理装置100は、既知のパーソナルコンピュータ、ワークステーション等の情報処理端末等の情報処理装置にプリンタやモニタやイメージスキャナ等の周辺装置を接続し、該情報処理装置に本発明の方法を実現させるソフトウェア(プログラム、データ等を含む)を実装することにより実現してもよい。
【0105】
さらに、文書情報抽出処理装置100の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷等に応じた任意の単位で、機能的または物理的に分散・統合して構成することができる。例えば、各データベースを独立したデータベース装置として独立に構成してもよく、また、処理の一部をCGI(Common Gateway Interface)を用いて実現してもよい。
【0106】
また、ネットワーク300は、文書情報抽出処理装置100と外部システム200とを相互に接続する機能を有し、例えば、インターネットや、イントラネットや、LAN(有線/無線の双方を含む)や、VANや、パソコン通信網や、公衆電話網(アナログ/デジタルの双方を含む)や、専用回線網(アナログ/デジタルの双方を含む)や、CATV網や、IMT2000方式、GSM方式またはPDC/PDC―P方式等の携帯回線交換網/携帯パケット交換網や、無線呼出網や、Bluetooth等の局所無線網や、PHS網や、CS、BSまたはISDB等の衛星通信網等のうちいずれかを含んでもよい。すなわち、本システムは、有線・無線を問わず任意のネットワークを介して、各種データを送受信することができる。
【0107】
【発明の効果】
以上詳細に説明したように、本発明によれば、表記辞書情報またはカテゴリ辞書に定義された各用語の正規形、別表記形またはカテゴリ項目に対して、情報抽出する際の条件となる属性情報を登録し、分析対象文書の原文情報の中に正規形、別表記形またはカテゴリ項目が存在した場合に、当該正規形、当該別表記形または当該カテゴリ項目が登録された対応する属性情報を有するときには当該正規形、当該別表記形または当該カテゴリ項目を情報抽出するので、予め用語ごとに抽出条件を指定することにより情報抽出時のノイズを低減することができるようになり、また、情報抽出の精度を高めることができ、さらに、抽出効率を高めることができる文書情報抽出処理装置、文書情報抽出処理方法、プログラム、および、記録媒体を提供することができる。
【0108】
また、本発明によれば、表記辞書情報に定義された各用語の正規形または別表記形に対して、不具合のチェックを実行し、分析対象文書の原文情報の中に不具合が検出されなかった正規形または別表記形が存在した場合に、当該正規形または当該別表記形を情報抽出するので、辞書情報の品質が悪い場合には不具合を除去することにより、情報抽出の精度を高めることができ、さらに、抽出効率を高めることができる文書情報抽出処理装置、文書情報抽出処理方法、プログラム、および、記録媒体を提供することができる。
【0109】
さらに、本発明によれば、情報抽出する際の条件となる品詞を定めた抽出対象品詞情報を登録し、分析対象文書の原文情報に対して構文解析を行い、当該原文情報の中に登場する各単語の品詞を決定し、分析対象文書の原文情報の中に単語が存在した場合に、当該単語が登録された品詞であるときには当該単語と当該品詞とを情報抽出するので、同一の単語であっても品詞が異なると意味が異なる場合においても、所望の意味の単語を情報抽出することができる文書情報抽出処理装置、文書情報抽出処理方法、プログラム、および、記録媒体を提供することができる。
【図面の簡単な説明】
【図1】テキストマイニング処理の概要を示す概念図である。
【図2】本発明が適用される本システムの構成の一例を示すブロック図である。
【図3】本発明が適用される本システムの辞書エントリチェック部102cの構成の一例を示すブロック図である。
【図4】表記辞書情報ファイル106aに格納される表記辞書情報の一例を示す図である。
【図5】カテゴリ辞書情報ファイル106bに格納されるカテゴリ辞書情報の一例を示す図である。
【図6】本実施形態における本システムの属性情報による情報抽出処理の一例を示す概念図である。
【図7】本実施形態における本システムの辞書エントリの自動調整処理の一例を示す概念図である。
【図8】本実施形態における本システムのチェック用語句リストを用いた辞書エントリの不具合のチェック手法の一例を示す概念図である。
【図9】本実施形態における本システムのチェック用パターンやロジックを用いた辞書エントリの不具合のチェック手法の一例を示す概念図である。
【図10】本実施形態における本システムのチェック用の計測ロジックを用いた辞書エントリの不具合のチェック手法の一例を示す概念図である。
【図11】本実施形態における本システムの正規形不整合チェック処理の一例を示す概念図である。
【図12】本実施形態における本システムの統計チェック処理の一例を示す概念図である。
【図13】本実施形態における本システムの統計チェック処理の一例を示す概念図である。
【図14】本実施形態における本システムの共起チェック処理の一例を示す概念図である。
【図15】本実施形態における本システムの共起チェック処理の一例を示す概念図である。
【図16】本実施形態における本システムのロジックを用いた名寄せ処理の一例を示す概念図である。
【図17】本実施形態における本システムのチェック結果の出力処理の一例を示す概念図である。
【図18】本実施形態における本システムの形態素抽出処理の一例を示す概念図である。
【図19】抽出対象品詞情報ファイル106gに格納される抽出対象品詞情報の一例を示す図である。
【符号の説明】
100 文書情報抽出処理装置
102a 属性情報登録部
102b 属性判定抽出部
102c 辞書エントリチェック部
102d チェック済辞書抽出部
102e 抽出対象品詞情報登録部
102f 構文解析部
102g 形態素抽出部
102h テキストマイニング処理部
102r 正規形不整合チェック部
102s 統計チェック部
102t 共起チェック部
102u エントリ単位チェック部
104 通信制御インターフェース部
106 記憶部
106a 表記辞書情報ファイル
106b カテゴリ辞書情報ファイル
106c 分析対象文書ファイル
106e チェック用語句リストファイル
106f チェック用パターンファイル
106g 抽出対象品詞情報ファイル
106h 処理結果ファイル
108 入出力制御インターフェース部
112 入力装置
114 出力装置
200 外部システム
300 ネットワーク
【発明の属する技術分野】
本発明は、文書情報抽出処理装置、文書情報抽出処理方法、プログラム、および、記録媒体に関し、特に、テキストマイニング処理システムにおける情報抽出を高精度化し、抽出量の増加および抽出された情報の高度化を図ることができる文書情報抽出処理装置、文書情報抽出処理方法、プログラム、および、記録媒体に関する。
【0002】
【従来の技術】
近年、論文などの各種の技術文献を蓄積した文献データベースが構築され、インターネットなどを介して広く利用されている。例えば、米国国立バイオテクノロジーセンター(NCBI)が米国国立医学図書館(NLM)等の文献データを提供するPubMedなどが存在する(インターネット上のPubMedのURL: http://www.ncbi.nlm.gov/entrez/)。
【0003】
従来の文献データベースの検索サービスにおいては、検索効率の向上などを図るために、各用語の正規形と表記形との対応を取るための「表記辞書」や、各用語についてカテゴリ分類するための「カテゴリ辞書」などが用いられている。
【0004】
例えば、既存の表記辞書やカテゴリ辞書を用いたテキストマイニングシステムとして、IBM(会社名)のTAKMI(製品名)が存在する(IBM東京基礎研究所のテキストマイニング技術紹介のホームページのURL: http://www.trl.ibm.com/projects/s7710/tm/index.htm、TAKMI紹介のホームページのURL: http://www.trl.ibm.com/projects/s7710/tm/takmi/takmi.htm)。
【0005】
また、医学用語のシソーラス検索サービスとして、MeSH(MedicalSubject Headings)などが存在する(NLMのMeSHのホームページのURL: http://www.nlm.nih.gov/mesh/meshhome.html、MeSHの概要を解説した論文のホームページのURL: http://www.nlm.nih.gov/mesh/patterns.html、MeSH BrowserサービスのホームページのURL: http://www.ncbi.nih.gov/entrez/meshbrowser.cgi)。
【0006】
【発明が解決しようとする課題】
ここで、テキストマイニングシステムの概要を図1を参照して説明する。図1は、テキストマイニング処理の概要を示す概念図である。
【0007】
図1に示すように、本システムにおいて分析対象文書群に含まれる各文書情報に現れる語の文字列から概念への対応をつけるために、以下の手順を実行する。
【0008】
まず、表記辞書を作成(手作業で作成される)し、英語や日本語などで記載された文書情報の各語に表記辞書を適用する(ステップSA−1)。
【0009】
そして、部分的に語区切りのついた文書情報に対して、判別ルールに従って専門用語を判別した後(ステップSA−2)、構文解析処理を適用する(ステップSA−3)。ここで、表記辞書の適用と構文解析の実行の順序は任意であり、また、これらを平行して実行してもよい。
【0010】
そして、カテゴリ辞書を作成(手作業で作成される)し、構文解析結果である文書情報の適切な文構造、および、表記辞書を適用して得られた結果に対してカテゴリ辞書を適用してカテゴライズを行い、カテゴリに対応する用語を集計しインデックスを作成する(ステップSA−4)。
【0011】
そして、カテゴライズされた概念等の出現頻度などを計算・集計して所望の統計・分析処理を行い(ステップSA−5)、文書情報中の単語の登場する頻度などをグラフ化した頻度グラフや、文献発行年月日毎等に頻度などをグラフ化した情報時系列グラフや、2−Dマップなどの形式に整形して表示する(ステップSA−6)。そして、利用者は、表示された出現頻度などの各種の統計・分析情報から手作業・目視で所望の情報を抽出する。
【0012】
しかしながら、従来のテキストマイニング処理システムにおいては、表記辞書情報に定義された各用語の正規形または別表記形を分析対象文書の原文から情報抽出し、その出現頻度などを統計・分析を行う際に、表記辞書に登録されたものであれば必ず抽出してしまうため情報抽出時のノイズが多いという問題点を有していた。
【0013】
また、従来、表記辞書は主に人手により作成・更新されていたために、辞書に登録された各エントリの内容に不具合がある場合も多かった。しかしながら、従来のテキストマイニング処理システムにおいては、登録されたエントリに不具合がある場合であっても、その表記辞書に基づいて情報抽出を行うため、情報精度の悪い粗悪な表記辞書を使用すると情報抽出精度が低下するという問題点を有していた。
【0014】
また、従来のテキストマイニング処理システムにおいては、表記辞書に登録されたものであれば必ず抽出してしまうため、同一の用語であっても品詞が異なると意味が異なる場合においても全て情報抽出することになり、情報抽出時のノイズが多いという問題点を有していた。
【0015】
このように、従来のシステム等は数々の問題点を有しており、その結果、システムの利用者および管理者のいずれにとっても、利便性が悪く、また、利用効率が悪いものであった。
【0016】
なお、これまで説明した従来の技術および発明が解決しようとする課題は、生物や医学や科学等の自然科学系の文献の文献情報データベース検索システムに限られず、全ての分野の文献情報を検索する全てのシステムにおいて、同様に考えることができる。
【0017】
本発明は上記問題点に鑑みてなされたもので、テキストマイニング処理システムにおける情報抽出を高精度化し、抽出量の増加および抽出された情報の高度化を図ることができる、文書情報抽出処理装置、文書情報抽出処理方法、プログラム、および、記録媒体を提供することを目的としている。
【0018】
【課題を解決するための手段】
このような目的を達成するため、請求項1に記載の文書情報抽出処理装置は、表記辞書情報またはカテゴリ辞書に定義された各用語の正規形、別表記形またはカテゴリ項目に対して、情報抽出する際の条件となる属性情報を登録する属性情報登録手段と、分析対象文書の原文情報の中に上記正規形、上記別表記形または上記カテゴリ項目が存在した場合に、当該正規形、当該別表記形または当該カテゴリ項目が上記属性情報登録手段にて登録された対応する上記属性情報を有するときには当該正規形、当該別表記形または当該カテゴリ項目を情報抽出する属性判定抽出手段とを備えたことを特徴とする。
【0019】
この装置によれば、表記辞書情報またはカテゴリ辞書に定義された各用語の正規形、別表記形またはカテゴリ項目に対して、情報抽出する際の条件となる属性情報を登録し、分析対象文書の原文情報の中に正規形、別表記形またはカテゴリ項目が存在した場合に、当該正規形、当該別表記形または当該カテゴリ項目が登録された対応する属性情報を有するときには当該正規形、当該別表記形または当該カテゴリ項目を情報抽出するので、予め用語ごとに抽出条件を指定することにより情報抽出時のノイズを低減することができるようになり、また、情報抽出の精度を高めることができ、さらに、抽出効率を高めることができるようになる。
【0020】
また、請求項2に記載の文書情報抽出処理装置は、表記辞書情報に定義された各用語の正規形または別表記形に対して、不具合のチェックを実行する辞書エントリチェック手段と、分析対象文書の原文情報の中に、上記辞書エントリチェック手段にて不具合が検出されなかった上記正規形または上記別表記形が存在した場合に、当該正規形または当該別表記形を情報抽出するチェック済辞書抽出手段とを備えたことを特徴とする。
【0021】
この装置によれば、表記辞書情報に定義された各用語の正規形または別表記形に対して、不具合のチェックを実行し、分析対象文書の原文情報の中に不具合が検出されなかった正規形または別表記形が存在した場合に、当該正規形または当該別表記形を情報抽出するので、辞書情報の品質が悪い場合には不具合を除去することにより、情報抽出の精度を高めることができ、さらに、抽出効率を高めることができるようになる。
【0022】
また、請求項3に記載の文書情報抽出処理装置は、情報抽出する際の条件となる品詞を定めた抽出対象品詞情報を登録する抽出対象品詞情報登録手段と、分析対象文書の原文情報に対して構文解析を行い、当該原文情報の中に登場する各単語の品詞を決定する構文解析手段と、上記分析対象文書の上記原文情報の中に上記単語が存在した場合に、当該単語が上記抽出対象品詞情報登録手段にて登録された上記品詞であるときには当該単語と当該品詞とを情報抽出する形態素抽出手段とを備えたことを特徴とする。
【0023】
この装置によれば、情報抽出する際の条件となる品詞を定めた抽出対象品詞情報を登録し、分析対象文書の原文情報に対して構文解析を行い、当該原文情報の中に登場する各単語の品詞を決定し、分析対象文書の原文情報の中に単語が存在した場合に、当該単語が登録された品詞であるときには当該単語と当該品詞とを情報抽出するので、同一の単語であっても品詞が異なると意味が異なる場合においても、所望の意味の単語を情報抽出することができるようになる。
【0024】
また、本発明は方法に関するものであり、請求項4に記載の文書情報抽出処理方法は、表記辞書情報またはカテゴリ辞書に定義された各用語の正規形、別表記形またはカテゴリ項目に対して、情報抽出する際の条件となる属性情報を登録する属性情報登録ステップと、分析対象文書の原文情報の中に上記正規形、上記別表記形または上記カテゴリ項目が存在した場合に、当該正規形、当該別表記形または当該カテゴリ項目が上記属性情報登録ステップにて登録された対応する上記属性情報を有するときには当該正規形、当該別表記形または当該カテゴリ項目を情報抽出する属性判定抽出ステップとを含むことを特徴とする。
【0025】
この方法によれば、表記辞書情報またはカテゴリ辞書に定義された各用語の正規形、別表記形またはカテゴリ項目に対して、情報抽出する際の条件となる属性情報を登録し、分析対象文書の原文情報の中に正規形、別表記形またはカテゴリ項目が存在した場合に、当該正規形、当該別表記形または当該カテゴリ項目が登録された対応する属性情報を有するときには当該正規形、当該別表記形または当該カテゴリ項目を情報抽出するので、予め用語ごとに抽出条件を指定することにより情報抽出時のノイズを低減することができるようになり、また、情報抽出の精度を高めることができ、さらに、抽出効率を高めることができるようになる。
【0026】
また、請求項5に記載の文書情報抽出処理方法は、表記辞書情報に定義された各用語の正規形または別表記形に対して、不具合のチェックを実行する辞書エントリチェックステップと、分析対象文書の原文情報の中に、上記辞書エントリチェックステップにて不具合が検出されなかった上記正規形または上記別表記形が存在した場合に、当該正規形または当該別表記形を情報抽出するチェック済辞書抽出ステップとを含むことを特徴とする。
【0027】
この方法によれば、表記辞書情報に定義された各用語の正規形または別表記形に対して、不具合のチェックを実行し、分析対象文書の原文情報の中に不具合が検出されなかった正規形または別表記形が存在した場合に、当該正規形または当該別表記形を情報抽出するので、辞書情報の品質が悪い場合には不具合を除去することにより、情報抽出の精度を高めることができ、さらに、抽出効率を高めることができるようになる。
【0028】
また、請求項6に記載の文書情報抽出処理方法は、情報抽出する際の条件となる品詞を定めた抽出対象品詞情報を登録する抽出対象品詞情報登録ステップと、分析対象文書の原文情報に対して構文解析を行い、当該原文情報の中に登場する各単語の品詞を決定する構文解析ステップと、上記分析対象文書の上記原文情報の中に上記単語が存在した場合に、当該単語が上記抽出対象品詞情報登録ステップにて登録された上記品詞であるときには当該単語と当該品詞とを情報抽出する形態素抽出ステップとを含むことを特徴とする。
【0029】
この方法によれば、情報抽出する際の条件となる品詞を定めた抽出対象品詞情報を登録し、分析対象文書の原文情報に対して構文解析を行い、当該原文情報の中に登場する各単語の品詞を決定し、分析対象文書の原文情報の中に単語が存在した場合に、当該単語が登録された品詞であるときには当該単語と当該品詞とを情報抽出するので、同一の単語であっても品詞が異なると意味が異なる場合においても、所望の意味の単語を情報抽出することができるようになる。
【0030】
また、本発明はプログラムに関するものであり、請求項7に記載のプログラムは、表記辞書情報またはカテゴリ辞書に定義された各用語の正規形、別表記形またはカテゴリ項目に対して、情報抽出する際の条件となる属性情報を登録する属性情報登録ステップと、分析対象文書の原文情報の中に上記正規形、上記別表記形または上記カテゴリ項目が存在した場合に、当該正規形、当該別表記形または当該カテゴリ項目が上記属性情報登録ステップにて登録された対応する上記属性情報を有するときには当該正規形、当該別表記形または当該カテゴリ項目を情報抽出する属性判定抽出ステップとを含む文書情報抽出処理方法をコンピュータに実行させることを特徴とする。
【0031】
このプログラムによれば、表記辞書情報またはカテゴリ辞書に定義された各用語の正規形、別表記形またはカテゴリ項目に対して、情報抽出する際の条件となる属性情報を登録し、分析対象文書の原文情報の中に正規形、別表記形またはカテゴリ項目が存在した場合に、当該正規形、当該別表記形または当該カテゴリ項目が登録された対応する属性情報を有するときには当該正規形、当該別表記形または当該カテゴリ項目を情報抽出するので、予め用語ごとに抽出条件を指定することにより情報抽出時のノイズを低減することができるようになり、また、情報抽出の精度を高めることができ、さらに、抽出効率を高めることができるようになる。
【0032】
また、請求項8に記載のプログラムは、表記辞書情報に定義された各用語の正規形または別表記形に対して、不具合のチェックを実行する辞書エントリチェックステップと、分析対象文書の原文情報の中に、上記辞書エントリチェックステップにて不具合が検出されなかった上記正規形または上記別表記形が存在した場合に、当該正規形または当該別表記形を情報抽出するチェック済辞書抽出ステップとを含む文書情報抽出処理方法をコンピュータに実行させることを特徴とする。
【0033】
このプログラムによれば、表記辞書情報に定義された各用語の正規形または別表記形に対して、不具合のチェックを実行し、分析対象文書の原文情報の中に不具合が検出されなかった正規形または別表記形が存在した場合に、当該正規形または当該別表記形を情報抽出するので、辞書情報の品質が悪い場合には不具合を除去することにより、情報抽出の精度を高めることができ、さらに、抽出効率を高めることができるようになる。
【0034】
また、請求項9に記載のプログラムは、情報抽出する際の条件となる品詞を定めた抽出対象品詞情報を登録する抽出対象品詞情報登録ステップと、分析対象文書の原文情報に対して構文解析を行い、当該原文情報の中に登場する各単語の品詞を決定する構文解析ステップと、上記分析対象文書の上記原文情報の中に上記単語が存在した場合に、当該単語が上記抽出対象品詞情報登録ステップにて登録された上記品詞であるときには当該単語と当該品詞とを情報抽出する形態素抽出ステップとを含む文書情報抽出処理方法をコンピュータに実行させることを特徴とする。
【0035】
このプログラムによれば、情報抽出する際の条件となる品詞を定めた抽出対象品詞情報を登録し、分析対象文書の原文情報に対して構文解析を行い、当該原文情報の中に登場する各単語の品詞を決定し、分析対象文書の原文情報の中に単語が存在した場合に、当該単語が登録された品詞であるときには当該単語と当該品詞とを情報抽出するので、同一の単語であっても品詞が異なると意味が異なる場合においても、所望の意味の単語を情報抽出することができるようになる。
【0036】
また、本発明は記録媒体に関するものであり、請求項10に記載の記録媒体は、上記請求項7から9のいずれか一つに記載されたプログラムを記録したことを特徴とする。
【0037】
この記録媒体によれば、当該記録媒体に記録されたプログラムをコンピュータに読み取らせて実行することによって、請求項7から9のいずれか一つに記載されたプログラムをコンピュータを利用して実現することができ、これら各方法と同様の効果を得ることができる。
【0038】
【発明の実施の形態】
以下に、本発明にかかる文書情報抽出処理装置、文書情報抽出処理方法、プログラム、および、記録媒体の実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。
特に、以下の実施の形態においては、本発明を、生物や医学や科学等の自然科学系の文献の文献情報データベース検索システムに適用した例について説明するが、この場合に限られず、全ての分野の文献情報を検索する全てのシステムにおいて、同様に適用することができる。
【0039】
[本発明の概要]
以下、本発明の概要について説明し、その後、本発明の構成および処理等について詳細に説明する。
本発明は、概略的に、以下の基本的特徴を有する。本発明は、図1に示したテキストマイニング処理における集計結果の統計・分析処理を行う際の情報抽出の高精度化・効率化・自動化を図る。すなわち、本発明は、表記辞書情報またはカテゴリ辞書情報に定義された各用語の正規形、別表記形またはカテゴリ項目に対して、情報抽出する際の条件となる属性情報を登録し、分析対象文書の原文情報の中に正規形、別表記形またはカテゴリ項目が存在した場合に、当該正規形、当該別表記形または当該カテゴリ項目が登録された対応する属性情報を有するときには当該正規形、当該別表記形または当該カテゴリ項目を情報抽出する。
【0040】
また、本発明は、表記辞書情報に定義された各用語に対して、不具合のチェックを実行し、分析対象文書の原文情報の中に不具合が検出されなかった正規形または別表記形が存在した場合に、当該正規形または当該別表記形を情報抽出するので、辞書情報の品質が悪い場合には不具合を除去する。
【0041】
さらに、本発明は、情報抽出する際の条件となる品詞を定めた抽出対象品詞情報を登録し、分析対象文書の原文情報に対して構文解析を行い、当該原文情報の中に登場する各単語の品詞を決定し、分析対象文書の原文情報の中に単語が存在した場合に、当該単語が登録された品詞であるときには当該単語と当該品詞とを情報抽出する。
【0042】
[システム構成]
まず、本システムの構成について説明する。図2は、本発明が適用される本システムの構成の一例を示すブロック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。本システムは、概略的に、文書情報抽出処理装置100と、文献情報や配列情報等に関する外部データベースや各種検索処理等の外部プログラム等を提供する外部システム200とを、ネットワーク300を介して通信可能に接続して構成されている。
【0043】
図2においてネットワーク300は、文書情報抽出処理装置100と外部システム200とを相互に接続する機能を有し、例えば、インターネット等である。
【0044】
図2において外部システム200は、ネットワーク300を介して、文書情報抽出処理装置100と相互に接続され、利用者に対して文献情報や配列情報等に関する外部データベースや各種検索処理等の外部プログラム等を実行するウェブサイトを提供する機能を有する。
【0045】
ここで、外部システム200は、WEBサーバやASPサーバ等として構成してもよく、そのハードウェア構成は、一般に市販されるワークステーション、パーソナルコンピュータ等の情報処理装置およびその付属装置により構成してもよい。また、外部システム200の各機能は、外部システム200のハードウェア構成中のCPU、ディスク装置、メモリ装置、入力装置、出力装置、通信制御装置等およびそれらを制御するプログラム等により実現される。
【0046】
図2において文書情報抽出処理装置100は、概略的に、文書情報抽出処理装置100の全体を統括的に制御するCPU等の制御部102、通信回線等に接続されるルータ等の通信装置(図示せず)に接続される通信制御インターフェース部104、入力装置112や出力装置114に接続される入出力制御インターフェース部108、および、各種のデータベースやテーブルなどを格納する記憶部106を備えて構成されており、これら各部は任意の通信路を介して通信可能に接続されている。さらに、この文書情報抽出処理装置100は、ルータ等の通信装置および専用線等の有線または無線の通信回線を介して、ネットワーク300に通信可能に接続されている。
【0047】
記憶部106に格納される各種のデータベースやテーブル(表記辞書情報ファイル106a〜処理結果ファイル106h)は、固定ディスク装置等のストレージ手段であり、各種処理に用いる各種のプログラムやテーブルやファイルやデータベースやウェブページ用ファイル等を格納する。
【0048】
これら記憶部106の各構成要素のうち、表記辞書情報ファイル106aは、各用語の正規形と別表記形との対応関係を定義する表記辞書情報を格納した表記辞書情報格納手段である。図4は、表記辞書情報ファイル106aに格納される表記辞書情報の一例を示す図である。この表記辞書情報ファイル106aに格納される表記辞書情報は、図4に示すように、正規形と別表記形との対応関係、および、各用語の正規形、別表記形に対して情報抽出する際の条件となる属性情報を定義している。
【0049】
また、カテゴリ辞書情報ファイル106bは、正規形の所属するカテゴリを定義するカテゴリ辞書情報を格納するカテゴリ辞書情報格納手段である。図5は、カテゴリ辞書情報ファイル106bに格納されるカテゴリ辞書情報の一例を示す図である。このカテゴリ辞書情報ファイル106bに格納されるカテゴリ辞書情報は、図5に示すように、カテゴリと正規形との対応関係、カテゴリ構造(図5ではカテゴリ構造の概念を示しており、実際のファイルにはノード(カテゴリ)毎の親ノードと子ノードの情報等を定義している。)、および、各用語のカテゴリ項目に対して情報抽出する際の条件となる属性情報を定義している。
【0050】
また、分析対象文書ファイル106cは、解析対象の文書情報の原文情報や、その原文情報に設定されたリンク先のURL等のアドレス情報等を格納する文書情報格納手段である。ここでアドレス情報は、原文中の一部分が外部データベースの識別子と解釈できる部分があれば、その外部データベースのハイパーリンク(WWWリンク)情報等を格納してもよい。
【0051】
また、チェック用語句リストファイル106eは、チェック用語句リストを格納したチェック用語句リスト格納手段である。
【0052】
また、チェック用パターンファイル106fは、チェック用パターンを格納したチェック用パターン格納手段である。
【0053】
また、抽出対象品詞情報ファイル106gは、情報抽出する際の条件となる品詞を定めた抽出対象品詞情報を格納する抽出対象品詞情報格納手段である。図19は、抽出対象品詞情報ファイル106gに格納される抽出対象品詞情報の一例を示す図である。この抽出対象品詞情報ファイル106gに格納される抽出対象品詞情報は、図19に示すように、抽出対象品詞情報は、情報抽出する際の条件となる品詞を格納する。
【0054】
また、処理結果ファイル106hは、制御部による各処理の処理結果や中間結果などのワークファイル等を格納する処理結果格納手段である。
【0055】
ここで、表記辞書情報ファイル106a、カテゴリ辞書情報ファイル106bおよび構文解析用辞書情報ファイル106dなどに格納された各種の辞書は、ユーザ編集用と、計算機処理用で構造を変えてもよい。すなわち、ユーザ編集用は、属性の着脱が容易や属性値の変更が容易な辞書構造が好ましいため、例えば、XMLを用いた辞書構築を行い、属性の着脱はDTDの変更により、また、属性値の変更はタグ付きテキスト文書の編集などにより実現してもよい。
また、計算機処理用は、高速処理が容易な形式が好ましいため、例えば、CSV形式などを用いた辞書構築を行ってもよい。そして、文書情報抽出処理装置100がユーザ編集用辞書から計算機処理用辞書への自動変換機能を備えることにより、自動生成してもよい。
【0056】
また、図2において、通信制御インターフェース部104は、文書情報抽出処理装置100とネットワーク300(またはルータ等の通信装置)との間における通信制御を行う。すなわち、通信制御インターフェース部104は、他の端末と通信回線を介してデータを通信する機能を有する。
【0057】
また、図2において、入出力制御インターフェース部108は、入力装置112や出力装置114の制御を行う。ここで、出力装置114としては、モニタ(家庭用テレビを含む)の他、スピーカを用いることができる(なお、以下においては出力装置114をモニタとして記載する場合がある)。また、入力装置112としては、キーボード、マウス、および、マイク等を用いることができる。また、モニタも、マウスと協働してポインティングデバイス機能を実現する。
【0058】
また、図2において、制御部102は、OS(Operating System)等の制御プログラム、各種の処理手順等を規定したプログラム、および所要データを格納するための内部メモリを有し、これらのプログラム等により、種々の処理を実行するための情報処理を行う。制御部102は、機能概念的に、属性情報登録部102a、属性判定抽出部102b、辞書エントリチェック部102c、チェック済辞書抽出部102d、抽出対象品詞情報登録部102e、構文解析部102f、形態素抽出部102g、テキストマイニング処理部102h、および、名寄せ処理部102iを備えて構成されている。
【0059】
このうち、属性情報登録部102aは、表記辞書情報またはカテゴリ辞書に定義された各用語の正規形、別表記形またはカテゴリ項目に対して、情報抽出する際の条件となる属性情報を登録する属性情報登録手段である。
【0060】
また、属性判定抽出部102bは、分析対象文書の原文情報の中に正規形、別表記形またはカテゴリ項目が存在した場合に、当該正規形、当該別表記形または当該カテゴリ項目が属性情報登録手段にて登録された対応する属性情報を有するときには当該正規形、当該別表記形または当該カテゴリ項目を情報抽出する属性判定抽出手段である。
【0061】
また、辞書エントリチェック部102cは、表記辞書情報に定義された各用語の正規形または別表記形に対して、不具合のチェックを実行する辞書エントリチェック手段である。ここで、辞書エントリチェック部102cは、図3に示すように、正規形不整合チェック部102r、統計チェック部102s、共起チェック部102t、および、エントリ単位チェック部102uを備えて構成される。正規形不整合チェック部102rは、表記辞書情報に登録された別表記形が他の正規形として登録されているか否かをチェックする正規形不整合チェック手段である。また、統計チェック部102sは、表記辞書情報および/またはカテゴリ辞書情報に登録された正規形、別表記形、または、カテゴリに関する登録状況および利用状況について統計処理を行い、当該統計処理の結果が予め定めた正常値範囲に入っているか否かをチェックする統計チェック手段である。また、共起チェック部102tは、表記辞書情報および/またはカテゴリ辞書情報に登録された正規形、別表記形、または、カテゴリに関する共起関係に基づいて類似度を計算する共起チェック手段である。また、エントリ単位チェック部102uは、チェック用語句リスト、チェック用プログラム、チェック用パターンのうち少なくとも一つに基づいて、表記辞書情報および/またはカテゴリ辞書情報を各エントリ単位にチェックするエントリ単位チェック手段である。
【0062】
また、チェック済辞書抽出部102dは、分析対象文書の原文情報の中に、辞書エントリチェック手段にて不具合が検出されなかった正規形または別表記形が存在した場合に、当該正規形または当該別表記形を情報抽出するチェック済辞書抽出手段である。
【0063】
また、抽出対象品詞情報登録部102eは、情報抽出する際の条件となる品詞を定めた抽出対象品詞情報を登録する抽出対象品詞情報登録手段である。
【0064】
また、構文解析部102fは、分析対象文書の原文情報に対して構文解析を行い、当該原文情報の中に登場する各単語の品詞を決定する構文解析手段である。
【0065】
また、形態素抽出部102gは、分析対象文書の上記原文情報の中に上記単語が存在した場合に、当該単語が抽出対象品詞情報登録手段にて登録された品詞であるときには当該単語と当該品詞とを情報抽出する形態素抽出手段である。
【0066】
また、テキストマイニング処理部102hは、例えば上述した図1に示すテキストマイニング処理により情報抽出結果に対して統計・分析処理を実行するテキストマイニング手段である。
【0067】
また、名寄せ処理部102iは、原文情報や各種の辞書情報に登録された各用語について小文字化や単数形化することにより同一の用語となるものを名寄せする名寄せ処理手段である。
なお、これら各部によって行なわれる処理の詳細については、後述する。
【0068】
[システムの処理]
次に、このように構成された本実施の形態における本システムの処理の一例について、以下に図6〜図18等を参照して詳細に説明する。
【0069】
[属性情報による情報抽出処理]
まず、属性情報による情報抽出処理の詳細について図6を参照して説明する。図6は、本実施形態における本システムの属性情報による情報抽出処理の一例を示す概念図である。
【0070】
まず、文書情報抽出処理装置100は、属性情報登録部102aの処理により、表記辞書情報ファイル106aに予め格納された表記辞書情報に定義された各用語の正規形または別表記形に対して、情報抽出する際の条件となる属性情報を登録する(ステップSB−1)。ここで、属性情報の登録は、属性情報登録部102aが出力装置114に属性情報登録用画面を表示して、各用語の正規形および別表記形に対応する属性情報を入力装置112を介して利用者に入力させ、当該入力情報を表記辞書情報ファイル106aに格納することにより登録してもよい。
【0071】
そして、文書情報抽出処理装置100は、分析対象文書ファイル106cに格納された分析対象文書の原文情報から表記辞書を参照しながら正規形や別表記形の抽出しその抽出数等から出現頻度等の統計・分析処理を行う際に、属性判定抽出部102bの処理により、表記辞書情報ファイル106aを当てた結果、分析対象文書の中に正規形または別表記形が存在した場合に、当該正規形または当該別表記形が属性情報登録部102aにより登録されたそれぞれに対応する属性情報を有するときには当該正規形、当該別表記形または当該カテゴリ項目を情報抽出する(ステップSB−2)。
【0072】
ここで、図6では表記辞書情報ファイル106aに格納された表記辞書情報を用いて、表記辞書情報に定義された正規形と別表記形に対する属性情報による情報抽出処理の一例を示したが、文書情報抽出処理装置100は、カテゴリ辞書情報ファイル106bに格納されたカテゴリ辞書情報を用いて、カテゴリ辞書情報に定義された正規形とカテゴリ項目に対する属性情報による情報抽出処理も同様に実行することができる。
これにて、属性情報による情報抽出処理が終了する。
【0073】
[辞書エントリの自動調整処理]
次に、辞書エントリの自動調整処理の詳細について図7〜図17を参照して説明する。図7は、本実施形態における本システムの辞書エントリの自動調整処理の一例を示す概念図である。
まず、文書情報抽出処理装置100は、辞書エントリチェック部102cの処理により、分析対象文書ファイル106cに格納された表記辞書情報に定義された各用語の正規形または別表記形に対して、不具合のチェックを実行し、不具合を検出した場合にはそのエントリを不具合エントリリストに登録して処理結果ファイル106hに格納する(ステップSC−1)。
【0074】
そして、文書情報抽出処理装置100は、分析対象文書ファイル106cに格納された分析対象文書の原文情報から表記辞書を参照しながら表記形や別表記形の抽出しその抽出数等から出現頻度等の統計・分析処理を行う際に、チェック済辞書抽出部102dの処理により、分析対象文書の原文情報の中に、辞書エントリチェック部102cにて不具合が検出されなかった正規形または別表記形が存在した場合に、当該正規形または当該別表記形を情報抽出する(ステップSC−2)。
【0075】
ここで、辞書エントリチェック部102cによる辞書エントリの不具合のチェック手法を以下に例示する。
【0076】
(1)チェック用語句リストを用いた辞書エントリの不具合のチェック手法
図8は、本実施形態における本システムのチェック用語句リストを用いた辞書エントリの不具合のチェック手法の一例を示す概念図である。まず、図8に示すように、文書情報抽出処理装置100は、エントリ単位チェック部102uの処理により、チェック用語句リストファイル106eに格納されたチェック用語句リストに基づいて、表記辞書情報ファイル106aに格納された表記辞書情報および/またはカテゴリ辞書情報ファイル106bに格納されたカテゴリ辞書情報を各エントリ単位にチェックする。ここで、チェック用語句リストは、例えば、前置詞、冠詞、代名詞などの正規形や別表記形として登録してはいけない用語をリストとして保存したものである。
【0077】
(2)チェック用パターンやロジックを用いた辞書エントリの不具合のチェック手法
また、図9は、本実施形態における本システムのチェック用パターンやロジックを用いた辞書エントリの不具合のチェック手法の一例を示す概念図である。図9に示すように、文書情報抽出処理装置100は、エントリ単位チェック部102uの処理により、チェック用パターンファイル106fに格納されたチェック用パターンや、チェック用プログラムに基づいて、表記辞書情報ファイル106aに格納された表記辞書情報および/またはカテゴリ辞書情報ファイル106bに格納されたカテゴリ辞書情報を各エントリ単位にチェックする。ここで、チェック用パターンは、使用してはいけない数表現や記号列表現などのパターン(たとえば、正規表現などで記述される)を登録したものである。また、チェック用プログラムは、正規形の複数形が別の正規形として登録されたもの等をチェックするプログラムである。また、チェック用プログラムは、図10に示すように、各正規形や別表記形の文字列長、単語数、文字種毎の文字数等を計測して、予め定めた計測項目ごとの正常範囲に入るか否かをチェックし、異常なチェック結果を出力するための計測プログラムであってもよい。
【0078】
(3)正規形不整合チェックを用いた辞書エントリの不具合のチェック手法
次に、正規形不整合チェック処理の詳細について図11を参照して説明する。図11は、本実施形態における本システムの正規形不整合チェック処理の一例を示す概念図である。
【0079】
まず、図11に示すように、文書情報抽出処理装置100は、正規形不整合チェック部102rの処理により、表記辞書情報ファイル106aに格納された表記辞書情報に登録された別表記形が他の正規形として登録されているか否かをチェックする。これにより、正規形が他の正規形の別表記形とされて、表記辞書上に重複登録されているものをチェックすることができるようになる。
【0080】
また、正規形不整合チェック部102rによる正規形と別表記形の自動調整の一例として、以下の手法を用いてもよい。
まず、正規形不整合チェック部102rは、表記辞書を複製してコピー辞書を作成する。そして、正規形不整合チェック部102rは、このコピー辞書のすべてのエントリの組(E1、E2)について、変化がなくなるまで以下の処理を繰返し実行する。まず、E1の別表記形をW1とする。次に、E2の正規形と別表記形をそれぞれC2とW2とする。そして、W1がC2を含むならばC2とW2をE1の別表記形に追加する。そして、このように作成したコピー辞書を用いて辞書当てを行うことにより、別表記形を正規形として持つエントリを利用して別表記形を拡充することができ、情報抽出の精度及び効率を向上することができる。
【0081】
(4)統計チェックを用いた辞書エントリの不具合のチェック手法
次に、統計チェック処理の詳細について図12および図13を参照して説明する。図12および図13は、本実施形態における本システムの統計チェック処理の一例を示す概念図である。
【0082】
まず、図12に示すように、文書情報抽出処理装置100は、統計チェック部102sの処理により、表記辞書情報ファイル106aの格納された表記辞書情報および/またはカテゴリ辞書情報ファイル106bに格納されたカテゴリ辞書情報に登録された正規形、別表記形、または、カテゴリに関する登録状況および利用状況について統計量を求める統計処理を行い、当該統計処理の結果が予め定めた正常値範囲に入っているか否かをチェックする。
【0083】
ここで、登録状況に関する統計処理として、例えば、図12に示すように、同一別表記形に対する正規形数、同一正規形に対するカテゴリ数、同一カテゴリに対する正規形数などについて統計処理を行ってもよい。
【0084】
また、利用状況に関する統計処理として、統計チェック部102sは、例えば、図13に示すように、分析対象文書ファイル106cに格納された文書情報の原データ毎、および、辞書のエントリ毎に辞書引きのヒット回数をカウントしてマトリックスを作成し、縦方向または横方向で集計や分布を見る等の統計処理を行ってもよい。また、ここで、統計チェック部102sは、縦方向または横方向で集計を取る際には、単純に数の合計をとってもよく、また、0以外のマスの数をカウントしてもよい。また、統計チェック部102sは、情報の種類(例えば、正規形、表記辞書名、パーザで抽出した情報、n項関係の情報など)毎に単純な数の合計や0以外のマスの数をカウントしてもよい。また、統計チェック部102sは、統計量の算出の際には、縦方向または横方向ごとに、最大値、最小値、平均値、または、分布等を計算してもよく、また、情報の種類毎または表全体で、最大値、最小値、平均値、または、分布等を計算してもよい。
【0085】
また、カテゴリ辞書に関する統計処理として、統計チェック部102sは、分析対象文書ファイル106cに格納された文書情報の原データ毎、および、カテゴリ辞書のノード毎に抽出回数をカウントしてもよい。また、統計チェック部102sは、マトリックスを作成し、縦方向または横方向で集計や分布を見る等の統計処理を行ってもよい。ここで、統計チェック部102sは、縦方向または横方向で集計を取る際には、単純に数の合計をとってもよく、また、0以外のマスの数をカウントしてもよい。また、統計チェック部102sは、部分木毎に、単純に数の合計をとってもよく、また、0以外のマスの数をカウントしてもよい。また、統計チェック部102sは、統計量の算出の際には、縦方向または横方向ごとに、最大値、最小値、平均値、または、分布等を計算してもよく、また、情報の種類毎または表全体で、最大値、最小値、平均値、または、分布等を計算してもよい。
【0086】
また、統計チェック部102sは、原データごと、または、情報のm項組毎に、テキスト上で連続した箇所から抽出された回数のカウントをとってもよい。これにより、連語や出現順番に意味がある用語の組が正しく登録されているかをチェックすることができる。
【0087】
また、統計チェック部102sは、原データごとに、辞書引きで当たらなかった箇所や、情報が抽出されなかった箇所の単語数をカウントして統計処理をしてもよく、また、カテゴリが付与されなかった正規形数や、n項関係の要素にならなかった正規形数をカウントして統計処理をしてもよい。
【0088】
(5)共起チェックを用いた辞書エントリの不具合のチェック手法
次に、共起チェック処理の詳細について図14および図15を参照して説明する。図14および図15は、本実施形態における本システムの共起チェック処理の一例を示す概念図である。
【0089】
まず、図14に示すように、文書情報抽出処理装置100は、共起チェック部102tの処理により、同じ別表記形を持つ表記辞書エントリや、同じ正規形を持つカテゴリなどの共起関係に基づいてそれぞれの類似度を計算する。例えば、図14の例を表記辞書(XXXが正規形、YYY群が別表記形)に当てはめると、正規形Aと正規形Bが同一の別表記形Wをもつことから共起関係を持っている。そして、正規形Aと正規形Bが全て同じ別表記形を持つ場合には、正規形Aと正規形Bは同一ということになり、また、違うものが含まれる場合には類似ということになる。また、図14の例をカテゴリ辞書(XXXがカテゴリ、YYY群が正規形)に当てはめると、カテゴリAとカテゴリBが同一の正規形Wをもつことから共起関係を持っている。そして、カテゴリAとカテゴリBが全て同じ正規形を持つ場合には、カテゴリAとカテゴリBは同一ということになり、また、違うものが含まれる場合には類似ということになる。
【0090】
ここで、類似度の計算は、図15に示すように、一致数で示してよく(図15の例1では、XとWの2つが一致しているので、類似度が2となる)、また、一致割合で示してもよい(図15の例2では、全要素数13のうち一致数が2であるので、2/13)。
【0091】
(6)チェック結果の出力処理
次に、チェック結果の出力処理の詳細について図17を参照して説明する。図17は、本実施形態における本システムのチェック結果の出力処理の一例を示す概念図である。
文書情報抽出処理装置100は、図17に示すように、辞書エントリチェック部102cによるチェック結果などについて、予め定めた正常値範囲を超える場合には、チェック結果(不具合エントリリスト)を出力装置114に出力する。
これにて、辞書エントリの自動調整処理が終了する。
【0092】
[ロジックを用いた名寄せ処理]
次に、ロジックを用いた名寄せ処理の詳細について図16を参照して説明する。図16は、本実施形態における本システムのロジックを用いた名寄せ処理の一例を示す概念図である。
まず、図16に示すように、文書情報抽出処理装置100は、名寄せ処理部102iの処理により、各辞書チェック項目や分析対象文書の原文情報における語句の同一性の判断において、小文字化、単数形化などを行うことにより、チェック精度の向上を図っている。このように、このように、名寄せ処理部102iは、制御部102の各部(例えば、上述したチェック済辞書抽出部102d等)の中で個別にコールされることにより、各処理中で名寄せ処理を随時実行することができる。これにより、各辞書チェック項目や分析対象文書の原文情報で、同一のロジックにより名寄せを行うことにより、分析精度および効率の向上を図ることができるようになる。
これにて、ロジックを用いた名寄せ処理が終了する。
【0093】
[形態素抽出処理]
次に、形態素抽出処理の詳細について図18を参照して説明する。図18は、本実施形態における本システムの形態素抽出処理の一例を示す概念図である。
まず、文書情報抽出処理装置100は、抽出対象品詞情報登録部102eの処理により、情報抽出する際の条件となる品詞を定めた抽出対象品詞情報を抽出対象品詞情報ファイル106gに登録する(ステップSD−1)。ここで、抽出対象品詞情報の登録は、抽出対象品詞情報登録部102eが出力装置114に抽出対象品詞情報登録用画面を表示して、抽出対象品詞情報を入力装置112を介して利用者に入力させ、当該入力情報を抽出対象品詞情報ファイル106gに格納することにより登録してもよい。
【0094】
そして、文書情報抽出処理装置100は、構文解析部102fの処理より、分析対象文書ファイル106cに格納された分析対象文書の原文情報に対して既知の自然言語パーザ等の機能を用いて構文解析を行い、当該原文情報の中に登場する各単語の品詞を決定する。そして形態素抽出部102gは、分析対象文書の原文情報の中に登場する各単語について、分析対象文書内表記と、それに対応する正規形(分析対象文書内表記が別表記形である場合のみ)と、構文解析による品詞とを含む形態素を作成する(ステップSD−2)。
【0095】
そして、文書情報抽出処理装置100は、形態素抽出部102gの処理により、分析対象文書の原文情報の中に単語が存在した場合に、形態素の当該単語が抽出対象品詞情報登録部102eにより登録された品詞であるときには当該単語と当該品詞を情報抽出する(ステップSD−3)。
これにて、形態素抽出処理が終了する。
【0096】
[他の実施の形態]
さて、これまで本発明の実施の形態について説明したが、本発明は、上述した実施の形態以外にも、上記特許請求の範囲に記載した技術的思想の範囲内において種々の異なる実施の形態にて実施されてよいものである。
【0097】
例えば、文書情報抽出処理装置100がスタンドアローンの形態で処理を行う場合を一例に説明したが、文書情報抽出処理装置100とは別筐体で構成されるクライアント端末からの要求に応じて処理を行い、その処理結果を当該クライアント端末に返却するように構成してもよい。
【0098】
また、実施形態において説明した各処理のうち、自動的に行なわれるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行なわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。
この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種の登録データや検索条件等のパラメータを含む情報、画面例、データベース構成については、特記する場合を除いて任意に変更することができる。
【0099】
また、文書情報抽出処理装置100に関して、図示の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。
例えば、文書情報抽出処理装置100の各部または各装置が備える処理機能、特に制御部102にて行なわれる各処理機能については、その全部または任意の一部を、CPU(Central Processing Unit)および当該CPUにて解釈実行されるプログラムにて実現することができ、あるいは、ワイヤードロジックによるハードウェアとして実現することも可能である。なお、プログラムは、後述する記録媒体に記録されており、必要に応じて文書情報抽出処理装置100に機械的に読み取られる。
【0100】
すなわち、ROMまたはHDなどの記憶部106などには、OS(Operating System)と協働してCPUに命令を与え、各種処理を行うためのコンピュータプログラムが記録されている。このコンピュータプログラムは、RAM等にロードされることによって実行され、CPUと協働して制御部102を構成する。また、このコンピュータプログラムは、文書情報抽出処理装置100に対して任意のネットワーク300を介して接続されたアプリケーションプログラムサーバに記録されてもよく、必要に応じてその全部または一部をダウンロードすることも可能である。
【0101】
また、本発明にかかるプログラムを、コンピュータ読み取り可能な記録媒体に格納することもできる。ここで、この「記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、EPROM、EEPROM、CD−ROM、MO、DVD等の任意の「可搬用の物理媒体」や、各種コンピュータシステムに内蔵されるROM、RAM、HD等の任意の「固定用の物理媒体」、あるいは、LAN、WAN、インターネットに代表されるネットワークを介してプログラムを送信する場合の通信回線や搬送波のように、短期にプログラムを保持する「通信媒体」を含むものとする。
【0102】
また、「プログラム」とは、任意の言語や記述方法にて記述されたデータ処理方法であり、ソースコードやバイナリコード等の形式を問わない。なお、「プログラム」は必ずしも単一的に構成されるものに限られず、複数のモジュールやライブラリとして分散構成されるものや、OS(Operating System)に代表される別個のプログラムと協働してその機能を達成するものをも含む。なお、実施の形態に示した各装置において記録媒体を読み取るための具体的な構成、読み取り手順、あるいは、読み取り後のインストール手順等については、周知の構成や手順を用いることができる。
【0103】
記憶部106に格納される各種のデータベース等(表記辞書情報ファイル106a〜処理結果ファイル106h)は、RAM、ROM等のメモリ装置、ハードディスク等の固定ディスク装置、フレキシブルディスク、光ディスク等のストレージ手段であり、各種処理やウェブサイト提供に用いる各種のプログラムやテーブルやファイルやデータベースやウェブページ用ファイル等を格納する。
【0104】
また、文書情報抽出処理装置100は、既知のパーソナルコンピュータ、ワークステーション等の情報処理端末等の情報処理装置にプリンタやモニタやイメージスキャナ等の周辺装置を接続し、該情報処理装置に本発明の方法を実現させるソフトウェア(プログラム、データ等を含む)を実装することにより実現してもよい。
【0105】
さらに、文書情報抽出処理装置100の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷等に応じた任意の単位で、機能的または物理的に分散・統合して構成することができる。例えば、各データベースを独立したデータベース装置として独立に構成してもよく、また、処理の一部をCGI(Common Gateway Interface)を用いて実現してもよい。
【0106】
また、ネットワーク300は、文書情報抽出処理装置100と外部システム200とを相互に接続する機能を有し、例えば、インターネットや、イントラネットや、LAN(有線/無線の双方を含む)や、VANや、パソコン通信網や、公衆電話網(アナログ/デジタルの双方を含む)や、専用回線網(アナログ/デジタルの双方を含む)や、CATV網や、IMT2000方式、GSM方式またはPDC/PDC―P方式等の携帯回線交換網/携帯パケット交換網や、無線呼出網や、Bluetooth等の局所無線網や、PHS網や、CS、BSまたはISDB等の衛星通信網等のうちいずれかを含んでもよい。すなわち、本システムは、有線・無線を問わず任意のネットワークを介して、各種データを送受信することができる。
【0107】
【発明の効果】
以上詳細に説明したように、本発明によれば、表記辞書情報またはカテゴリ辞書に定義された各用語の正規形、別表記形またはカテゴリ項目に対して、情報抽出する際の条件となる属性情報を登録し、分析対象文書の原文情報の中に正規形、別表記形またはカテゴリ項目が存在した場合に、当該正規形、当該別表記形または当該カテゴリ項目が登録された対応する属性情報を有するときには当該正規形、当該別表記形または当該カテゴリ項目を情報抽出するので、予め用語ごとに抽出条件を指定することにより情報抽出時のノイズを低減することができるようになり、また、情報抽出の精度を高めることができ、さらに、抽出効率を高めることができる文書情報抽出処理装置、文書情報抽出処理方法、プログラム、および、記録媒体を提供することができる。
【0108】
また、本発明によれば、表記辞書情報に定義された各用語の正規形または別表記形に対して、不具合のチェックを実行し、分析対象文書の原文情報の中に不具合が検出されなかった正規形または別表記形が存在した場合に、当該正規形または当該別表記形を情報抽出するので、辞書情報の品質が悪い場合には不具合を除去することにより、情報抽出の精度を高めることができ、さらに、抽出効率を高めることができる文書情報抽出処理装置、文書情報抽出処理方法、プログラム、および、記録媒体を提供することができる。
【0109】
さらに、本発明によれば、情報抽出する際の条件となる品詞を定めた抽出対象品詞情報を登録し、分析対象文書の原文情報に対して構文解析を行い、当該原文情報の中に登場する各単語の品詞を決定し、分析対象文書の原文情報の中に単語が存在した場合に、当該単語が登録された品詞であるときには当該単語と当該品詞とを情報抽出するので、同一の単語であっても品詞が異なると意味が異なる場合においても、所望の意味の単語を情報抽出することができる文書情報抽出処理装置、文書情報抽出処理方法、プログラム、および、記録媒体を提供することができる。
【図面の簡単な説明】
【図1】テキストマイニング処理の概要を示す概念図である。
【図2】本発明が適用される本システムの構成の一例を示すブロック図である。
【図3】本発明が適用される本システムの辞書エントリチェック部102cの構成の一例を示すブロック図である。
【図4】表記辞書情報ファイル106aに格納される表記辞書情報の一例を示す図である。
【図5】カテゴリ辞書情報ファイル106bに格納されるカテゴリ辞書情報の一例を示す図である。
【図6】本実施形態における本システムの属性情報による情報抽出処理の一例を示す概念図である。
【図7】本実施形態における本システムの辞書エントリの自動調整処理の一例を示す概念図である。
【図8】本実施形態における本システムのチェック用語句リストを用いた辞書エントリの不具合のチェック手法の一例を示す概念図である。
【図9】本実施形態における本システムのチェック用パターンやロジックを用いた辞書エントリの不具合のチェック手法の一例を示す概念図である。
【図10】本実施形態における本システムのチェック用の計測ロジックを用いた辞書エントリの不具合のチェック手法の一例を示す概念図である。
【図11】本実施形態における本システムの正規形不整合チェック処理の一例を示す概念図である。
【図12】本実施形態における本システムの統計チェック処理の一例を示す概念図である。
【図13】本実施形態における本システムの統計チェック処理の一例を示す概念図である。
【図14】本実施形態における本システムの共起チェック処理の一例を示す概念図である。
【図15】本実施形態における本システムの共起チェック処理の一例を示す概念図である。
【図16】本実施形態における本システムのロジックを用いた名寄せ処理の一例を示す概念図である。
【図17】本実施形態における本システムのチェック結果の出力処理の一例を示す概念図である。
【図18】本実施形態における本システムの形態素抽出処理の一例を示す概念図である。
【図19】抽出対象品詞情報ファイル106gに格納される抽出対象品詞情報の一例を示す図である。
【符号の説明】
100 文書情報抽出処理装置
102a 属性情報登録部
102b 属性判定抽出部
102c 辞書エントリチェック部
102d チェック済辞書抽出部
102e 抽出対象品詞情報登録部
102f 構文解析部
102g 形態素抽出部
102h テキストマイニング処理部
102r 正規形不整合チェック部
102s 統計チェック部
102t 共起チェック部
102u エントリ単位チェック部
104 通信制御インターフェース部
106 記憶部
106a 表記辞書情報ファイル
106b カテゴリ辞書情報ファイル
106c 分析対象文書ファイル
106e チェック用語句リストファイル
106f チェック用パターンファイル
106g 抽出対象品詞情報ファイル
106h 処理結果ファイル
108 入出力制御インターフェース部
112 入力装置
114 出力装置
200 外部システム
300 ネットワーク
Claims (10)
- 表記辞書情報またはカテゴリ辞書に定義された各用語の正規形、別表記形またはカテゴリ項目に対して、情報抽出する際の条件となる属性情報を登録する属性情報登録手段と、
分析対象文書の原文情報の中に上記正規形、上記別表記形または上記カテゴリ項目が存在した場合に、当該正規形、当該別表記形または当該カテゴリ項目が上記属性情報登録手段にて登録された対応する上記属性情報を有するときには当該正規形、当該別表記形または当該カテゴリ項目を情報抽出する属性判定抽出手段と、
を備えたことを特徴とする文書情報抽出処理装置。 - 表記辞書情報に定義された各用語の正規形または別表記形に対して、不具合のチェックを実行する辞書エントリチェック手段と、
分析対象文書の原文情報の中に、上記辞書エントリチェック手段にて不具合が検出されなかった上記正規形または上記別表記形が存在した場合に、当該正規形または当該別表記形を情報抽出するチェック済辞書抽出手段と、
を備えたことを特徴とする文書情報抽出処理装置。 - 情報抽出する際の条件となる品詞を定めた抽出対象品詞情報を登録する抽出対象品詞情報登録手段と、
分析対象文書の原文情報に対して構文解析を行い、当該原文情報の中に登場する各単語の品詞を決定する構文解析手段と、
上記分析対象文書の上記原文情報の中に上記単語が存在した場合に、当該単語が上記抽出対象品詞情報登録手段にて登録された上記品詞であるときには当該単語と当該品詞とを情報抽出する形態素抽出手段と、
を備えたことを特徴とする文書情報抽出処理装置。 - 表記辞書情報またはカテゴリ辞書に定義された各用語の正規形、別表記形またはカテゴリ項目に対して、情報抽出する際の条件となる属性情報を登録する属性情報登録ステップと、
分析対象文書の原文情報の中に上記正規形、上記別表記形または上記カテゴリ項目が存在した場合に、当該正規形、当該別表記形または当該カテゴリ項目が上記属性情報登録ステップにて登録された対応する上記属性情報を有するときには当該正規形、当該別表記形または当該カテゴリ項目を情報抽出する属性判定抽出ステップと、
を含むことを特徴とする文書情報抽出処理方法。 - 表記辞書情報に定義された各用語の正規形または別表記形に対して、不具合のチェックを実行する辞書エントリチェックステップと、
分析対象文書の原文情報の中に、上記辞書エントリチェックステップにて不具合が検出されなかった上記正規形または上記別表記形が存在した場合に、当該正規形または当該別表記形を情報抽出するチェック済辞書抽出ステップと、
を含むことを特徴とする文書情報抽出処理方法。 - 情報抽出する際の条件となる品詞を定めた抽出対象品詞情報を登録する抽出対象品詞情報登録ステップと、
分析対象文書の原文情報に対して構文解析を行い、当該原文情報の中に登場する各単語の品詞を決定する構文解析ステップと、
上記分析対象文書の上記原文情報の中に上記単語が存在した場合に、当該単語が上記抽出対象品詞情報登録ステップにて登録された上記品詞であるときには当該単語と当該品詞とを情報抽出する形態素抽出ステップと、
を含むことを特徴とする文書情報抽出処理方法。 - 表記辞書情報またはカテゴリ辞書に定義された各用語の正規形、別表記形またはカテゴリ項目に対して、情報抽出する際の条件となる属性情報を登録する属性情報登録ステップと、
分析対象文書の原文情報の中に上記正規形、上記別表記形または上記カテゴリ項目が存在した場合に、当該正規形、当該別表記形または当該カテゴリ項目が上記属性情報登録ステップにて登録された対応する上記属性情報を有するときには当該正規形、当該別表記形または当該カテゴリ項目を情報抽出する属性判定抽出ステップと、
を含む文書情報抽出処理方法をコンピュータに実行させることを特徴とするプログラム。 - 表記辞書情報に定義された各用語の正規形または別表記形に対して、不具合のチェックを実行する辞書エントリチェックステップと、
分析対象文書の原文情報の中に、上記辞書エントリチェックステップにて不具合が検出されなかった上記正規形または上記別表記形が存在した場合に、当該正規形または当該別表記形を情報抽出するチェック済辞書抽出ステップと、
を含む文書情報抽出処理方法をコンピュータに実行させることを特徴とするプログラム。 - 情報抽出する際の条件となる品詞を定めた抽出対象品詞情報を登録する抽出対象品詞情報登録ステップと、
分析対象文書の原文情報に対して構文解析を行い、当該原文情報の中に登場する各単語の品詞を決定する構文解析ステップと、
上記分析対象文書の上記原文情報の中に上記単語が存在した場合に、当該単語が上記抽出対象品詞情報登録ステップにて登録された上記品詞であるときには当該単語と当該品詞とを情報抽出する形態素抽出ステップと、
を含む文書情報抽出処理方法をコンピュータに実行させることを特徴とするプログラム。 - 上記請求項7から9のいずれか一つに記載されたプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002237688A JP2004078541A (ja) | 2002-08-16 | 2002-08-16 | 文書情報抽出処理装置、文書情報抽出処理方法、プログラム、および、記録媒体 |
EP03705045A EP1473639A1 (en) | 2002-02-04 | 2003-02-04 | Document knowledge management apparatus and method |
PCT/JP2003/001120 WO2003067471A1 (fr) | 2002-02-04 | 2003-02-04 | Appareil et procede permettant de traiter des connaissances dans des documents |
US10/503,387 US20050154690A1 (en) | 2002-02-04 | 2003-02-04 | Document knowledge management apparatus and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002237688A JP2004078541A (ja) | 2002-08-16 | 2002-08-16 | 文書情報抽出処理装置、文書情報抽出処理方法、プログラム、および、記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004078541A true JP2004078541A (ja) | 2004-03-11 |
Family
ID=32021316
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002237688A Pending JP2004078541A (ja) | 2002-02-04 | 2002-08-16 | 文書情報抽出処理装置、文書情報抽出処理方法、プログラム、および、記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004078541A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009015394A (ja) * | 2007-06-29 | 2009-01-22 | Toshiba Corp | 辞書構築支援装置 |
-
2002
- 2002-08-16 JP JP2002237688A patent/JP2004078541A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009015394A (ja) * | 2007-06-29 | 2009-01-22 | Toshiba Corp | 辞書構築支援装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gonçalves et al. | The variable quality of metadata about biological samples used in biomedical experiments | |
US9817888B2 (en) | Supplementing structured information about entities with information from unstructured data sources | |
CN1906609B (zh) | 在数据中心中使用的用于进行数据格式转换的系统 | |
US8630989B2 (en) | Systems and methods for information extraction using contextual pattern discovery | |
US8195693B2 (en) | Automatic composition of services through semantic attribute matching | |
KR101758669B1 (ko) | 매치를 특징화하는 규칙을 사용하는 메타데이터 소스의 매칭 | |
KR101715432B1 (ko) | 단어쌍취득장치, 단어쌍취득방법 및 기록 매체 | |
US8832133B2 (en) | Answering web queries using structured data sources | |
van den Burg et al. | Wrangling messy CSV files by detecting row and type patterns | |
CA2684822C (en) | Data transformation based on a technical design document | |
US7392243B2 (en) | Using permanent identifiers in documents for change management | |
US8433560B2 (en) | Rule based apparatus for modifying word annotations | |
US20100169311A1 (en) | Approaches for the unsupervised creation of structural templates for electronic documents | |
US9367581B2 (en) | System and method of quality assessment of a search index | |
US7636739B2 (en) | Method for efficient maintenance of XML indexes | |
JP2006024179A (ja) | 構造化文書処理装置、構造化文書処理方法、及びプログラム | |
KR20060131753A (ko) | 고성능의 구조적 데이터 변환을 위한 하드웨어/소프트웨어파티션 | |
US12125000B2 (en) | Automatic document classification | |
US20210295031A1 (en) | Automated classification and interpretation of life science documents | |
JP2004355224A (ja) | 対訳表現抽出装置、対訳表現抽出方法、および対訳表現抽出プログラム | |
JP7305566B2 (ja) | 情報処理装置、情報処理システム、および情報処理プログラム | |
CN117435189A (zh) | 金融系统接口的测试用例分析方法、装置、设备及介质 | |
JP2004078541A (ja) | 文書情報抽出処理装置、文書情報抽出処理方法、プログラム、および、記録媒体 | |
US20090249197A1 (en) | Document proofreading support method and document proofreading support apparatus | |
JP2011086156A (ja) | 漏洩情報追跡システムおよび漏洩情報追跡プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050809 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080805 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20081202 |