JP2007199885A

JP2007199885A - 情報分析知識管理装置、データ構造、情報分析装置、辞書生成方法およびプログラム

Info

Publication number: JP2007199885A
Application number: JP2006015823A
Authority: JP
Inventors: Itaru Hosomi; 格細見
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2006-01-25
Filing date: 2006-01-25
Publication date: 2007-08-09
Anticipated expiration: 2026-01-25
Also published as: JP4904828B2

Abstract

【課題】情報の抽出や分類に必要な複数種類の辞書を効率よく正確に管理、保守できるようにする。
【解決手段】オントロジー格納手段１に、登録編集手段２を用いて階層構造を持つオントロジーを登録し、辞書生成手段２０が該オントロジーを参照することにより、概念辞書１０および分類辞書１３をそれぞれ該オントロジーの特定階層部分から機械的に生成する。入力文書からの情報抽出または分類を行なうプログラムは、概念辞書１０および分類辞書１３を直接参照して各処理を行なう。
【選択図】図１

Description

本発明は、文書データから情報を抽出し、さらには抽出した情報を分類する情報分析システムにおける知識の管理方法に関し、特に情報の抽出や分類に用いる複数種類の知識の作成と管理の方法に関する。

２００５年４月より、個人情報の保護に関する法律、いわゆる個人情報保護法が全面施行されるなど、個人情報の取り扱いは社会的にも重要な問題となっている。対して、近年の情報処理技術とインターネットや組織内ＬＡＮを活用したサービスの普及により、個人情報の蓄積量、流通量は急激な拡大を続けている。また、企業コンプライアンスの重要性も叫ばれ、米国企業改革法、いわゆるＳＯＸ法の日本版も検討され始めたことで、個人情報に限らずあらゆる組織内情報の安全で確実な管理が求められている。このような社会動向の中、組織内で既に膨大な量が蓄積されている文書やデータベースから、個人情報をはじめとする重要な情報を抽出し、その管理や活用のための分類、評価を行なうことが急務となっているが、ほとんどの場合これらを人手で実施することは数量の問題からだけでも不可能に近い。

文書やデータベースなどの情報源から必要な情報を抽出し、その分類や評価を効率的に行なう技術を、ここでは情報分析技術と総称することにする。情報分析技術は古くから開発されているが、その技術は自然言語解析技術、情報または概念の抽出技術、分類技術といった複数の要素技術からなる。これら個々の要素技術はそれぞれに適した辞書やルールを必要とするため、情報分析技術を実装した情報分析システムの運用には、一般に複数種類の辞書やルールを用意しておく必要がある。具体的には、言語解析用の単語辞書、概念抽出用の概念辞書、情報の分類基準を定義した分類辞書や分類ルールなどがある。概念辞書や分類辞書、分類ルールは、それぞれにオントロジーと称される場合もある。ただし、従来は、一言にオントロジーと称していても、１つのシステム内での各処理内容に合わせた複数種類のオントロジーを用意している場合がある。

特許文献１では、形態素解析用辞書、意味属性分類辞書、格フレームオントロジ辞書といった複数の辞書やオントロジーを用いて照会文の意味を考慮した情報検索を可能にするシステムについて記載している。特許文献２では、類似文書検索に用いるＩＳ−Ａ辞書、ＨＡＳ−Ａ辞書、格辞書、言い換え辞書などの各種辞書をオントロジーとまとめているが、それぞれの辞書は異なる表現で個別に記述している。これらとは逆に、特許文献３には、情報抽出のために一般的に用いられるテンプレートや抽出規則を１種類のオントロジ辞書でまとめて記述した情報抽出方法が記載されている。

オントロジーの記述方法は、その用途によって様々である。特許文献４に記載されたオントロジーでは、データベース内の情報の概念体系を抽象度に応じた階層構造で表している。特許文献５では、概念間のリンクに意味的関係とリンク両端のノード共起性に基づく重みを与えた概念辞書を定義している。特許文献６では、概念構造ではないが、文字列照合用ビット列の階層からなる先行パタンと、その後続パタン列を結びつけた木構造の知識を定義している。

オントロジーを情報処理のための知識として利用するアプローチの１つが、世界的に「セマンティックＷｅｂ」の名で知られている。Ｗ３Ｃ（ＷｏｒｌｄＷｉｄｅＷｅｂＣｏｎｓｏｒｔｉｕｍ）は、セマンティックＷｅｂのための標準規格として、メタデータを記述するフレームワークと言語を定義したＲＤＦ（ＲｅｓｏｕｒｃｅＤｅｆｉｎｉｔｉｏｎＦｒａｍｅｗｏｒｋ）と、オントロジーを記述するＲＤＦベースの言語ＯＷＬ（ＷｅｂＯｎｔｏｌｏｇｙＬａｎｇｕａｇｅ）を策定し、広く利用されている。

特開２００５−１６５９５８号公報特開２００１−８４２５２公報特開２０００−２０７４０７公報特開２０００−２２２４３６号公報特開２００５−１５７８８７号公報特開２００５−０２５６５７号公報形態素解析システム「茶筌」、［平成１８年１月２４日検索］、インターネット＜URL: http://chasen.naist.jp/hiki/ChaSen/＞

特許文献１や特許文献２で示されているような従来の多くの情報分析システムでは、情報分析に必要な対象領域に依存した辞書やルールなどの知識を複数種類記述しなければならない。このうち、抽出や分類の対象となる領域に対して依存性の低い一般的な知識に関する辞書、例えば形態素解析辞書などは、予め既存のものを利用することができる。例えば、非特許文献１に記載されているフリーウェアの形態素解析システム「茶筌」では、形態素解析辞書ｉｐａｄｉｃを併せて配布している。しかし、例えば個人情報の抽出には何をもって個人情報とするのかをまず定義することが必要となり、その定義は組織によって異なるように、既存の汎用的な辞書を利用するだけでは特定の対象領域に依存した情報の抽出、分類はできない。そこで、前述のように情報の抽出や分類には、テキスト情報を対象とした場合、概念辞書や分類辞書などをそれぞれ対象領域に応じて用意する必要がある。

辞書を複数種類用意すると、多くの場合それらの辞書の間には相互に関連性があり、具体的には同じ語を使って概念や分類体系を記述している。すると、辞書間で語の表記が異なれば互いに照合できなくなり、情報分析システムが正しく動作しなくなる原因となりうる。例えば、ある辞書で「氏名」と記載した語について他の辞書では「人名」となっていると、別途類義語辞書を用意するなどの対策がなければ照合できない。また、人手で辞書を記述する場合、単に辞書が複数あるというだけでも全体の見通しが悪くなるほか、前述のように同じ語を複数の辞書で使用する場合はそれぞれに記述する手間と記述ミスの可能性も問題となりうる。

一方、特許文献３のように１種類のオントロジ辞書に対象領域に依存した情報抽出用の知識を全て記述しておく方法も開示されているが、従来の記述方法では、木構造や網構造で表現されるオントロジーのどの部分がどのような情報抽出・分類処理に用いる要素なのかが分かり難く、人が辞書を記述する際も、情報の抽出や分類を行なう各処理プログラムがオントロジーを参照する場合も、煩雑な解析が必要となっていた。例えば、特許文献３の図４に示されたオントロジ辞書では、木構造の第２階層に「ＴＡＮ−ＤＳＵ」、「Ｎ社」、「４９，８００円」といった固有名詞や数値と単位の組が記載されているほか、「同期」、「内蔵」といった一般名詞による概念も同階層に記載されている。「Ｎ社」も「同期」も上位ノードとの間は「ｉｓ−ａ」という属性で結ばれており、固有名詞か一般名詞かの区別はこのオントロジ辞書だけではできない。ここで、製品をその機能別に分類する処理を行ないたい場合、「同期」といった概念を表す一般名詞は「非同期」との対で分類に利用できるが、「Ｎ社」といった固有名詞は機能別分類には利用できない。逆にメーカー別分類では「Ｎ社」のような固有名詞が利用できるが「同期」は利用できない。このように、特定の分類処理を行なうために必要な語がオントロジーのどの部分にあるのかを構造や属性から容易に判断できなければ、複雑な解析や別の辞書が必要となる。

また、特許文献３に記載の方法では、出現単語認識手段や単語関係展開手段がともに同じオントロジ辞書を直接参照している。このような構成では、互いに異なる各処理にとってオントロジ辞書の記述形式は必ずしも最適ではなく、処理効率が悪くなる可能性がある。例えば、特許文献３の図４に示されたオントロジ辞書をメーカー別分類を行なうプログラムが利用するとした場合、必要なのは「メーカー」とその下位の「Ｎ社」などのｉｓ−ａ属性値のみであり、他の要素は毎回オントロジを参照する際に読み飛ばすことになる。そのような読み飛ばしの処理時間は、オントロジ辞書が大きくなるほど深刻な速度低下に繋がる。また、オントロジ辞書をファイルやメモリ上に静的に配置して「メーカー」ノードを固定アドレスで直接参照する方法も採れるが、その場合は別途単語と参照アドレスとの対応テーブルを用意する必要がある。さらには、「メーカー」ノードの下にｉｓ−ａ属性以外の属性（例えば「製造元」などの同義語を指す属性）もある場合、やはりメーカー別分類処理には不要な情報も参照し属性を見て読み飛ばす必要がある。

なお、Ｗ３Ｃで策定されたオントロジーの標準言語ＯＷＬでは、概念を表すクラスや具体的な事物や現象を表すリテラル、クラスやリテラル間の基本的な関係（上下関係、同一、非同一、一方が他方の一部である、など）を定義しているが、例えばある親クラスにとってある子クラスがどの程度必要な要素か、クラス階層においてある範囲の階層のクラス集合がどのような意味や役割を持つかといったことを記述する語彙は用意されていない。ＯＷＬで記述されたオントロジーをどのような仕組みで解釈するかについても定義されていない。

本発明は以上のような問題に鑑みてなされたものであり、辞書の記述者と情報の抽出や分類のためのプログラムとの双方にとって記述や処理の効率が良く理解し易いオントロジーのデータ構造と、そのようなオントロジーを用いた情報分析システムの効果的な実現手段を提供することを目的とする。

本発明による情報分析知識管理装置は、少なくとも三階層以上の階層構造を持つオントロジーを格納するオントロジー格納手段と、オントロジーを該オントロジー格納手段へ登録または編集する登録編集手段と、該オントロジーの最上位階層を含む第一の範囲の階層部分から情報抽出または情報分類に用いる第一の辞書を生成し、該オントロジーの第一の範囲の階層部分と少なくとも一階層を共有する第二の範囲の階層部分から情報抽出または情報分類に用いる第二の辞書をさらに生成する辞書生成手段と、該第一の辞書を格納する第一の辞書格納手段と、該第二の辞書を格納する第二の辞書格納手段とを備えたことを特徴とする。

また、本発明による情報分析知識管理装置は、少なくとも三階層以上の階層構造を持つオントロジーを格納するオントロジー格納手段と、オントロジーを該オントロジー格納手段へ登録または編集する登録編集手段と、該オントロジーの最上位階層を含む第一の範囲の階層部分から情報抽出または情報分類に用いる第一の辞書を生成する第一の辞書生成手段と、該第一の辞書を格納する第一の辞書格納手段と、該オントロジーの第一の範囲の階層部分と少なくとも一階層を共有する第二の範囲の階層部分から情報抽出または情報分類に用いる第二の辞書を生成する第二の辞書生成手段と、該第二の辞書を格納する第二の辞書格納手段とを備えた構成であってもよい。

また、前記第一の辞書が、テキスト情報を含む文書から特定の概念に相当する情報を抽出するための概念辞書であってもよい。

また、前記第二の辞書が、第一の辞書を用いて抽出された情報を１つ以上のカテゴリーに分類するための分類辞書であってもよい。

また、前記オントロジーのどの部分がどの種類の知識に相当するかを階層単位で指定する階層範囲指定手段をさらに備えていてもよい。

また、本発明によるデータ構造は、階層構造を持つオントロジーにおいて、概念の名称の集合からなる階層と、該概念それぞれを分類するカテゴリーの名称の集合からなる階層とで構成される二階層以上の分類知識と、概念またはカテゴリーの名称の集合からなる階層と、該概念またはカテゴリーそれぞれを構成する要素となる下位概念の名称の集合からなる階層とで構成される二階層以上の概念知識とを含み、少なくとも該分類知識の最下位階層と該概念知識の最上位階層は共通の階層であることを特徴とする。

また、本発明による他のデータ構造は、階層構造を持つオントロジーにおいて、概念またはカテゴリーの名称の集合からなる階層と、該概念またはカテゴリーそれぞれを構成する要素となる下位概念の名称の集合からなる階層とで構成される二階層以上の概念知識と、入力データから該オントロジーを用いて抽出すべき概念の名称の集合からなる階層と、該データに含まれる値のうち該抽出すべき概念に相当する部分が満たすべき制約からなる階層とで構成される二階層以上の値制約知識とを含み、少なくとも該概念知識の最下位階層と該値制約知識の最上位階層は共通の階層であることを特徴とする。

また、前記概念知識は、特定の専門領域に依存した概念に関する知識を記述した領域概念知識に相当する階層群と、特定の専門領域に依存しない汎用的な概念に関する知識を記述した一般概念知識に相当する階層群とでさらに構成されてもよい。

また、本発明による情報分析装置は、少なくとも三階層以上の階層構造を持つオントロジーの最上位階層を含む第一の範囲の階層部分から、特定の概念に相当する情報を文書中から抽出するための概念辞書を生成し、前記オントロジーの第一の範囲の階層部分と少なくとも一階層を共有する第二の範囲の階層部分から、情報を１つ以上のカテゴリーに分類するための分類辞書を生成する辞書生成手段と、前記第一の辞書を参照して、入力文書から特定の概念に相当する情報を抽出する概念抽出手段と、前記第二の辞書を参照して、前記第一の辞書を用いて抽出された情報を１つ以上のカテゴリーに分類する分類手段と、
を備えたことを特徴とする。

また、前記オントロジーは、親子間の関係を表す属性として、親がその子を必須の要素とすることを表す第一の属性と、親がその子のうち少なくとも１つ以上を要素として必要とすることを表す第二の属性とを少なくとも有し、前記辞書生成手段により作成される前記概念辞書には、ある概念が抽出される制約条件として前記親子間の関係を表す属性が設定され、前記概念抽出手段は、前記概念辞書中の前記第一および第二の属性による制約条件を満足する概念を入力文書から抽出するものであってもよい。

また、本発明による辞書生成方法は、コンピュータを用いて辞書を生成する方法であって、前記コンピュータが、オントロジーのどの部分がどの種類の知識に相当するかを階層単位で指定する階層範囲指定表を参照し、作成対象となる辞書に必要なオントロジーの階層範囲を決定する第１のステップと、前記コンピュータが、少なくとも三階層以上の階層構造を持ち、かつ、親子間の関係を表す属性として、親がその子を必須の要素とすることを表す第一の属性と、親がその子のうち少なくとも１つ以上を要素として必要とすることを表す第二の属性とを少なくとも有するオントロジーから、前記決定した階層範囲の内容を読み出す第２のステップと、前記コンピュータが、前記読み出した内容に基づいて、ある概念が抽出される制約条件として前記親子間の関係を表す属性を設定した辞書を生成する第３のステップとを含むことを特徴とする。

また、本発明による辞書生成プログラムは、少なくとも三階層以上の階層構造を持つオントロジーを格納するオントロジー格納手段と、第一の辞書を格納する第一の辞書格納手段と、第二の辞書を格納する第二の辞書格納手段とを備えたコンピュータを、オントロジーを前記オントロジー格納手段へ登録または編集する登録編集手段と、前記オントロジーの最上位階層を含む第一の範囲の階層部分から情報抽出または情報分類に用いる第一の辞書を生成し、前記オントロジーの第一の範囲の階層部分と少なくとも一階層を共有する第二の範囲の階層部分から情報抽出または情報分類に用いる第二の辞書をさらに生成する辞書生成手段として機能させることを特徴とする。

また、本発明による辞書生成プログラムは、コンピュータに、オントロジーのどの部分がどの種類の知識に相当するかを階層単位で指定する階層範囲指定表を参照し、作成対象となる辞書に必要なオントロジーの階層範囲を決定する第１の処理と、少なくとも三階層以上の階層構造を持ち、かつ、親子間の関係を表す属性として、親がその子を必須の要素とすることを表す第一の属性と、親がその子のうち少なくとも１つ以上を要素として必要とすることを表す第二の属性とを少なくとも有するオントロジーから、前記決定した階層範囲の内容を読み出す第２の処理と、前記コンピュータが、前記読み出した内容に基づいて、ある概念が抽出される制約条件として前記親子間の関係を表す属性を設定した辞書を生成する第３の処理とを行わせることを特徴とする。

『作用』
本発明によるオントロジーのデータ構造にあっては、特定の階層範囲が特定の種類の知識を表すように階層化されているため、辞書の記述者にとって記述や理解が容易になると同時に、情報の抽出や分類のための辞書の作成も容易となる。また、こうして作成された辞書を用いて情報の抽出や分類を行うことにより、オントロジーを直接参照する場合に比べて処理の効率を高めることができる。

本発明によれば、入力文書からの特定の情報の抽出または分類において、キーとなる文字列や単語の抽出、概念の抽出、概念の分類といった相互に関連する個々の部分的処理に対し、各々個別に専用辞書を人手で作成する必要が無く、１種類の記述容易なオントロジーを作成するだけで前記個別の専用辞書を自動生成できる。これにより、情報の抽出や分類を行なう作業者の負担が軽減できるほか、同作業者の記述ミスによる処理の不具合発生率を低減できる。また、作成したオントロジーを情報の抽出や分類に直接利用するのではなく、個別の専用辞書に変換してから利用するため、個々の部分的処理を効率よく行なうことができる。

以下、本発明を実施するための最良の形態を、図面を参照して説明する。

図１は、本発明による情報分析知識管理装置の第１の実施の形態を示すブロック図である。オントロジー格納手段１は、登録編集手段２により情報分析に登録された知識を保管する。辞書生成手段２０が、オントロジー格納手段１に登録された知識から概念辞書１０および分類辞書１３を生成する。

オントロジー格納手段１に格納される知識は一定のデータ構造を持つ。本発明によるデータ構造で個人情報を定義した知識は、例えば図３のような構造を持つ。すなわち、「個人情報」は、ＡＬＴ属性の値として「個人特性」、「資産関連情報」、「個人連絡先」、「業務連絡先」の４種類の要素を持ち、さらに「個人連絡先」についてはそのＭＤＴ属性の値として「人名」を、ＡＬＴ属性の値として「住所」、「電話番号」、「Ｅメールアドレス」を、ＯＰＴ属性の値として「ＦＡＸ番号」といった要素を持つオントロジーとして表現される。ここで、「個人情報」、「個人特性」、「人名」などはそれぞれ特定の概念を表すクラスとする。ＭＤＴ属性は、親クラスがその属性値を必須の要素とすることを表す。ＡＬＴ属性は、親クラスがその属性値のうち少なくとも１つ以上を要素として必要とすることを表す。ＯＰＴ属性は、親クラスがその属性値のクラスを必ず持つ必要はないが、あれば要素と認められることを表す。すなわち、ＯＰＴ属性の値は０個以上必要な要素を表す。従って図３の例では、ある情報源が、「個人特性」クラスまたは「資産関連情報」クラスまたは「個人連絡先」クラスまたは「業務連絡先」クラスのうちいずれか一つ以上のインスタンスを含む場合、その情報源は「個人情報」クラスのインスタンスを含むと判断できる。同様に、ある情報源が、「人名」クラスのインスタンスを含み、「住所」クラスまたは「電話番号」クラスまたは「Ｅメールアドレス」クラスのうちいずれか一つ以上のインスタンスを含む場合、その情報源は「個人連絡先」クラスのインスタンスを含むと判断できる。ここで、当該情報源に「ＦＡＸ番号」クラスのインスタンスが含まれている場合、当該インスタンスは「個人連絡先」クラスのインスタンスが当該情報源に含まれているための必要条件の一部とはならないが、「個人連絡先」クラスのインスタンスが含まれていることを示唆する要素となる。

図３に示したオントロジーは、第１階層（「個人情報」クラスが記述された階層）から第２階層（「個人特性」クラスなどが記述された階層）までを分類知識、第２階層から第３階層（「人名」クラスなどが記述された階層）までを概念知識という、一部の階層が重複した２種類の知識で構成されているとみなすことができる。ここで概念知識とは、情報源となる文書などの記載内容から直接抽出されうる概念（クラス）を定義した知識とする。これに対して分類知識とは、情報源から直接は抽出されず、直接抽出された概念知識の要素集合から間接的に抽出される概念を定義した知識とする。図３の例では、情報源となる文書からは「人名」クラスや「電話番号」クラスのインスタンスとして「鈴木太郎」や「０３−１２３４−ＸＸＸＸ」といった文字列が直接抽出されると、そこから「個人連絡先」という概念（クラス）を構成する要素集合（インスタンス）が当該文書に含まれていると判断される。「個人連絡先」クラスのインスタンスが当該文書に含まれていることが分かると、間接的に当該文書には「個人情報」という概念の要素集合（この場合は「個人連絡先」という１つの概念）が含まれていると判断される。このように、本発明による情報分析知識管理装置の第１の実施の形態では、階層構造を持ったオントロジー内の特定の階層範囲が特定の種類の知識を表す。したがって、図１に示した登録編集手段２を通じてオントロジー格納手段１に格納されるオントロジーの編集者や閲覧者は、オントロジーの各階層を見ることで、抽出対象となる情報がどのような要素概念で構成されているか、どのように分類されているかを容易に把握でき、分類のカテゴリーや要素となる概念の追加または変更もし易い。また、辞書生成手段２０は、オントロジー格納手段１に格納されたオントロジーから概念知識と分類知識それぞれに対応した特定範囲の階層のみを参照することで、概念辞書１０と分類辞書１３を効率良く生成することができる。

図３に示したオントロジーからは、辞書生成手段２０によって、「個人連絡先」という概念が「人名」、「住所」、「電話番号」、「ＦＡＸ番号」、「Ｅメールアドレス」から構成されることを表す概念辞書１０が生成される。「個人特性」や「資産関連情報」、「業務連絡先」といった概念も概念知識としてオントロジーに記述してあれば、概念辞書１０にそれらの概念構造が記載される。同様に、辞書生成手段２０によって、「個人情報」という概念が「個人特性」、「資産関連情報」、「個人連絡先」、「業務連絡先」から構成されることを表す分類辞書１３が生成される。当該オントロジーの分類知識に記載されたこれらの概念構造は、「個人情報」という概念の構成要素を定義しているというよりも、「個人情報」がどのようなカテゴリ（「個人特性」など）に分類されるかを定義しているものとして利用される。したがって、分類知識の概念構造は、本実施の形態において同階層の属性にＭＤＴ属性、ＡＬＴ属性、ＯＰＴ属性が混在することは無く、混在していても分類処理では利用されない。

なお、図１では、辞書生成手段２０が概念辞書１０と分類辞書１３を共に生成するものとしたが、本発明はこのような構成に限らず、図２のように概念辞書生成手段９がオントロジー格納手段１に登録された知識から概念辞書１０を生成し、同様に分類辞書生成手段１２がオントロジー格納手段１に登録された知識から分類辞書１３を生成するとしても良い。

さらに、本発明による情報分析知識管理装置の実施の形態では、オントロジー格納手段１に登録された知識から生成される辞書は概念辞書１０と分類辞書１３に限定されない。例えば、図４に示した１つのオントロジーから辞書生成手段２０によって単語辞書と概念辞書とを生成する構成であっても良い。図４のオントロジーでは、概念知識からは前記と同様に概念辞書が生成される。一方、概念知識より下位の階層を含む値制約知識には、「人名」や「住所」などのクラスのインスタンスを要素集合または値のパタンで表している。これらは情報源となる文書などのデータから直接検出されるリテラル文字列やその特定のパタン列を記述したものである。値制約知識からは、上位階層の各クラス（「人名」など）を項目名、下位階層の各要素集合や値のパタンを各項目の説明とした単語辞書を生成することができる。以上のようにして生成された単語辞書と概念辞書は、それぞれ情報分析システムの入力文書から単語を抽出する単語抽出手段と、抽出された単語の集合から当該文書に含まれる概念を抽出する概念抽出手段に参照され、結果として抽出された情報が出力される。

上記のような情報分析システムを、オントロジーを用いた従来技術で構成した場合、例えば図１８のようになる。図１８では１つのオントロジー格納手段１を単語抽出手段８と概念抽出手段１１がそれぞれ直接参照し、入力文書１５から情報を抽出して抽出情報１７を出力する。特許文献３では、単語抽出手段８が出現単語認識手段に、概念抽出手段１１が単語関係展開手段にそれぞれ相当する。ただし、特許文献３における単語関係展開手段は、３階層以上からなる概念間の関係をまとめて抽出している。

従来技術に基づくオントロジーの典型的な構造の例を図１９に示す。図１９（ａ）は、デジタルカメラに関する概念構造を表現している。「製品名」や「ＣＣＤ」、「メーカー」、「標準価格」といった要素が「デジタルカメラ」という概念の一部であるという属性（ｐａｒｔ−ｏｆ）値として記述され、さらに、「画素数」という概念が「ＣＣＤ」の要素であることが記述されている。また、「ＣＤ−Ｎ１００」や「５，０００，０００」、「Ｎ社」、「２９，８００円」といった要素が「製品名」などの概念の具体的な値であるという属性（ｉｓ−ｖａｌｕｅ）値として記述されている。図１９（ａ）のオントロジーは、特許文献３の図４に記載されたオントロジーとほぼ同様である。

図１９（ｂ）は、図１９（ａ）と同様の記述方法を個人情報の概念に適用したオントロジーの例である。図１９の（ａ）、（ｂ）における各階層間のｐａｒｔ−ｏｆ関係やｉｓ−ｖａｌｕｅ関係は、本発明によるオントロジーの階層関係と類似しているが、ｐａｒｔ−ｏｆ関係やｉｓ−ｖａｌｕｅ関係では、上位階層の概念にとって下位階層の概念やリテラルが必須の属性（ＭＤＴ）属性か、１つ以上必要な属性（ＡＬＴ属性）か、０個以上含まれていてよい属性（ＯＰＴ属性）かといった必要度合いは表現できない。また、図１９の（ａ）、（ｂ）とも、「画素数」や「都道府県」といった概念が他の「ＤＣ−Ｎ１００」や「鈴木太郎」といったリテラルと同階層に含まれ、それらの概念の下位階層にリテラル属性値を持つ。このように従来のオントロジーでは概念知識や単語知識、分類知識など特定の知識が特定の階層範囲に対応付けられておらず、概念の階層関係も考慮した知識の参照には、オントロジーの木構造や網構造を毎回辿らなければならない。このような設計は、オントロジーを各種の処理プログラムが直接参照する場合に効率が悪くなる要因となりうる。

図５に示した情報分析システムでは、図１や図２で示したような概念辞書や分類辞書に加え、さらにキー文字列辞書生成手段３によってキー文字列辞書４が、単語辞書生成手段６によって単語辞書７がそれぞれオントロジー格納手段１に登録された知識から生成されるシステムの構成例を表している。

図５に示した情報分析システムで利用可能なオントロジーの例を図６に示す。図６は、６階層からなる網構造を持つオントロジーの例である。図６の左端にあるトップノードは「文書」の概念を表すクラスである。この例では、「文書」クラスは前述したＯＰＴ属性の値として「タイトル」クラス、「個人情報」クラス、「機密ラベル」クラスをそれぞれ要素に持つ。ここで「機密ラベル」とは、「取扱注意」や「関係者外秘」といった、ある文書が組織内または特定の文書や関係者内だけで共有可能な秘密情報を含むことを表す、文書の先頭や各ページの上端、下端などに記載されるラベルのことを指すものとする。

同様に、「個人情報」クラスは「個人特性」クラス、「資産関連情報」クラス、「業務連絡先」クラス、「個人連絡先」クラスをいずれもＡＬＴ属性値として持つ。このうち「業務連絡先」クラスは、「人名」クラスと「所属」クラスをＭＤＴ属性値として持ち、「住所」クラス、「電話番号」クラス、「Ｅメールアドレス」クラスをそれぞれＡＬＴ属性値として持ち、「ＦＡＸ番号」クラスをＯＰＴ属性値として持つ。当該オントロジーの第１階層である「文書」クラスと「機密ラベル」クラス等を含む第２階層を１つの領域概念知識とし、また「個人特性」クラス等を含む第３階層と「人名」クラス等を含む第４階層は別の領域概念知識としている。これらに対し、第２階層と第３階層の組を分類知識としている。本発明におけるデータ構造では、オントロジーはこのような階層構造を持ち、第何階層から第何階層までをどの種類の知識とするかを予め決めておく。また、以下のような表で別途指定するように設計しても良い。

図７は、知識の種類とオントロジーの階層とを対応付けた表である。本発明による情報分析知識管理装置では、このような表の作成機能を前記の登録編集手段２に備えても良い。図７では、図６に示したオントロジーの各階層に対する知識の種類（以下、知識レイヤーと称する）を定義している。図７によれば、分類知識はオントロジーの第２階層から第３階層まで、領域概念知識は第１階層から第２階層までと第３階層から第４階層まで、一般概念知識は第４階層から第５階層まで、値制約知識は第５階層から第６階層までとなっている。このように、各知識レイヤー間には重複があってよく、典型的には次のような階層の順序関係が成り立つ。
｛分類知識，領域概念知識｝＞一般概念知識＞値制約知識

すなわち、分類知識と領域概念知識は互いに前後関係の制約は無く、これら２種類の知識の下位レイヤーに一般概念知識が、さらにその下位レイヤーに値制約知識が位置する。また、第１階層を含む知識以外の知識レイヤーはその上位の知識レイヤーと１階層を共有した２階層分となる。ある知識レイヤーの階層範囲は、直接の上位にあたる知識レイヤーおよび直接の下位にあたる知識レイヤーとの間で少なくとも１階層は重複している必要がある。ただし、本発明では各知識レイヤーの階層数や知識レイヤー間で共有する階層数をそれぞれ２階層と１階層に制限するものではなく、例えば、領域概念知識の階層が分類知識の階層を全て包含していたり、一般概念知識や値制約知識が３階層以上を持っていても良い。ただし、一般概念知識の最上位階層が領域概念知識の最上位階層よりも上になることはなく、同様に値制約知識の最上位階層が一般概念知識の最上位階層よりも上になることはない。また、領域概念知識の最下位階層が一般概念知識の最下位階層以下になることはなく、同様に一般概念知識の最下位階層が値制約知識の最下位階層以下になることもない。

なお、図６ではさらに、一部の要素間の関係記述にｏｒｄｅｒという属性を使用している。ｏｒｄｅｒ属性は要素間の出現順序に制約を与える属性であり、図６の例では、値制約知識において「県名集合」クラスが「県」というリテラル文字の前に出現することを表し、また「アカウント文字列パタン」クラスが「＠」というリテラル文字列の前に、さらに「＠」が「ドメイン文字列パタン」クラスの前にそれぞれ出現することを表している。ｏｒｄｅｒ属性で接続されたこれらの要素は共通の親クラスを持つ同階層のクラスやリテラルであり、このような要素集合を辞書化する際には、要素の記述順序をｏｒｄｅｒ属性が示す順序に基づいて記述し、その順序で情報抽出を行なったり、これらの要素は互いに隣接または規定文字数内の近傍に出現するという制約を辞書生成手段や単語情報抽出手段、概念抽出手段に与えても良い。

登録編集手段２は、上記のようなオントロジーをオントロジー格納手段１に登録したり編集する機能を備える。具体的には、ＧＵＩ（グラフィカル・ユーザ・インタフェース）を用いてのクラスやリテラルの要素記述と要素間のリンク作成、各リンクに対する属性（ＭＤＴ、ＡＬＴ、ＯＰＴ、ｏｒｄｅｒ）設定、階層の範囲指定による知識レイヤーの定義といった機能を用意する。後述するブランクノードについては、他のクラスと同様に手動で記述するほか、隣接していない階層間で上下階層関係のリンクを作成した際に自動生成しても良い。登録編集手段２の出力は、作成したオントロジーのほか、知識レイヤーと階層範囲との対応表を含んでいても良く、それぞれをオントロジー格納手段１に保存する。

図６および図７における各知識レイヤーは、図５に示した情報分析システムの各辞書との間で以下のように対応付けられる。
・分類知識→分類辞書１３
・領域概念知識→概念辞書１０
・一般概念知識→概念辞書１０
・値制約知識→単語辞書７、キー文字列辞書４

分類辞書１３は、分類辞書生成手段１２によって、オントロジーの分類知識に相当する部分から各階層ごとに例えば図１２のようなＸＭＬデータとして生成される。同様に、概念辞書１０は、概念辞書生成手段９によって、オントロジーの領域概念知識と一般概念知識に相当する部分から各階層ごとに例えば図１１のようなＸＭＬデータとして生成される。

単語辞書７は、単語辞書生成手段６によって、オントロジーの値制約知識に相当する部分から上位階層のクラス名とその属性値となる要素やパタン定義の組が、例えば図１０のようなＸＭＬデータとして生成される。図１０では１つの概念（「Ｅメールアドレス」または「都道府県」）に対して１つのパタンをｄｅｆ属性で定義しているが、これは、図６のオントロジー上で同じ１つの親クラスを持つ要素について、ｏｒｄｅｒ属性で接続されている要素同士を順序付きのＡＮＤ条件、それ以外のＡＬＴ属性値である要素間をＯＲ条件で統合することによって実現できる。すなわち、「Ｅメールアドレス」の例では、「アカウント文字列パタン」に相当する“［￥ｗ￥−￥．］＋”と、リテラル文字である「＠」と、「ドメイン文字列パタン」に相当する“［￥ｗ￥−］＋（￥．［￥ｗ￥−］＋）＋”とをこの順序で連結し、その先頭に“＾”を、末尾に“＄”をさらに追加することにより１つの正規表現パタンとして記述している。同様に「都道府県」では、「県名集合」に相当する“(青森|岩手|…|沖縄)”とリテラル文字である「県」とを連結したパタンに対し、「東京都」、「北海道」、「大阪府」、「京都府」をそれぞれＯＲ（“｜”で表す演算子）で連結することにより１つの正規表現パタンとして記述している。ここで、「県名集合」や「アカウント文字列パタン」、「ドメイン文字列パタン」といった値制約知識内のクラスに対応する具体的な正規表現パタンは図６には記載していないが、「県名集合」などのクラスに対してさらに下位の階層となるＭＤＴ属性のインスタンスとして正規表現パタンを直接記述しても良く、または図１７のような表で別途定義しておいてもよい。さらには、「県名集合」といったクラスを定義せず、「都道府県」クラスの下に直接「（青森｜岩手｜・・・｜沖縄）」というパタンをリテラル文字列の要素としてオントロジー内に定義しても良い。なお、本発明による単語辞書の生成方法は、上記のようにオントロジー内の同じクラスを構成する各値制約パタンを合成した辞書に限定するものではなく、より単純に各パタンを列挙した記述方法でも良い。

キー文字列辞書４は、キー文字列辞書生成手段３によって、単語辞書７と同じく値制約知識からクラスやパタン定義を除く具体的なリテラル文字列のみを抽出し、各リテラルの上位クラスと対応づけて例えば図９のようなＸＭＬデータとして生成される。図９に示したキー文字列辞書では、「Ｅメールアドレス」というクラスに対して他の辞書から参照するためのＩＤ（ｉｄ＝”１”など）と、該クラスの下位属性の値のうちリテラル文字である「＠」をキー文字列として定義している。同様に「都道府県」クラスに対しては、「東京都」「北海道」「京都府」「大阪府」「県」の各文字列がキー文字列として定義されている。キー文字列辞書を使ったキー文字列検出を、単語辞書を使った単語抽出の前に実行することで、単語辞書に記載された正規表現などによるパタンの照合を入力文書中のテキスト全てに対して行なわずとも、「＠」などのキー文字列を検出した部分的な領域のみにパタン照合を行なえば良いため、効率よく高速な単語抽出が可能となる。

上記の例では、領域概念知識と一般概念知識が共に同じ概念辞書１０として生成されるものとしたが、本発明はこのような辞書の分類に限らず、それぞれ領域概念辞書と一般概念辞書に分けても良い。ただし、情報分析システムの１つの機能（例えば概念抽出手段１１）で共に利用される知識であっても、領域概念知識と一般概念知識のように明示的に知識レイヤーを分離することで、他の領域に依存した領域概念知識からも同じ一般概念知識にリンクして利用するといった、知識の再利用を分かり易く定義できるという利点がある。

各辞書上で上位の知識レイヤーと下位の知識レイヤーとは、双方のレイヤーで共有しているクラス名（「業務連絡先」など）で相互に参照できるほか、各知識レイヤーに対応した辞書を生成する際、高速化のために個々のクラスにＩＤを付けてＩＤで参照するようにしても良い。ＩＤなどによる階層間の相互参照は、１つの知識レイヤーの中での階層間の参照に適用しても良い。

図８は、図６に記載された「機密ラベル」クラスの下位属性について詳細に記述したオントロジーの例である。図６のオントロジーにおける「Ｅメールアドレス」クラスの下位属性値にもあるが、図８のオントロジーで「社外秘」クラスや「部外秘」クラスの直下の属性値で空白のクラスが定義されている。これは、当該階層に記載すべき要素がなく、且つその更に下位の階層には記載すべき要素がある場合のつなぎとしてのクラスである。このようなクラスをここでは「ブランクノード」と呼ぶことにする。ブランクノードは、その直接の上位クラスと１対１対応である場合はＭＤＴ属性の値として定義し、１対１対応ではない、もしくは将来的に１対多対応となりうる場合はＡＬＴ属性の値として定義する。ブランクノードとのその直接の上位クラスとの対応関係は各辞書（前記の概念辞書１０など）には記載しないが、その更に下位の属性でブランクノードではない要素と、ブランクノードを介した上位クラスとの対応関係は辞書に記載する。例えば、図８のオントロジーにおいて、値制約知識に記載された「取扱注意」というリテラルと、その上位でブランクノードではない「社外秘」クラスとの対応関係は、前記の単語辞書７およびキー文字列辞書４に記載される。

図５に示した情報分析システムでは、以上のようにして一連の必要な辞書を生成したのち、入力文書１５を読み込み、まずキー文字列検出手段５がキー文字列辞書４を参照して入力文書１５中から各キー文字列を検出する。次に、単語抽出手段８が単語辞書７を参照し、検出されたキー文字列を含む単語を入力文書１５中の該キー文字列の周辺から抽出する。概念抽出手段１１は、抽出に成功した単語の集合が、概念辞書１０に含まれるいずれかの概念に相当するかどうかを判定し、概念辞書１０中のＭＤＴ属性やＡＬＴ属性、ＯＰＴ属性による制約条件を考慮した上で概念を抽出する。分類手段１４は、抽出された概念の集合から、それらの概念を含む文書が分類辞書１３に記載されたどのクラス（カテゴリー）に該当するかを判断する。

例えば、ある文書からキー文字列として「＠」と「県」が検出され、それらのキー文字列周辺の文字列を単語辞書に記載された文字列パタンと照合することにより「ｓｕｚｕｋｉ＠ｎｅｃ．ｃｏｍ」と「神奈川県」という単語が検出され、それらの単語がそれぞれ「Ｅメールアドレス」クラスと「都道府県」クラスとして認識される。「都道府県」クラスが認識されると、「神奈川県」という単語の周辺を探索して「市区町村」クラスや「番地」クラスに対応するインスタンスがあるかどうかを確認し、それらのインスタンスが見つかれば「住所」クラスが認識される。「Ｅメールアドレス」クラスと「住所」クラスが認識されると、それらを属性値に持つ「業務連絡先」クラスや「個人連絡先」クラスの他の属性値を探索し、ここでは「業務連絡先」クラスのみが認識されたとする。「業務連絡先」クラスと「個人連絡先」クラスの両方について必要な条件を満たす場合もあり、その際にいずれか一方を選ぶか両方を採用するかは、情報分析システムの仕様、図５に示した例では特に分類手段１４の仕様に依る。「業務連絡先」クラスに必要なインスタンスが含まれると判断された文書は、更に「業務連絡先」クラスの上位クラスである「個人情報」クラスの条件も満たし、業務連絡先を含んだ個人情報を含む文書として分類される。このような一連の処理の結果として、情報分析システムは例えば図１３のような構造を持つ抽出・分類結果情報１６を出力する。なお、抽出・分類結果情報１６は、図１３に示したような表構造のほか、図１４に示したような木構造で表現されても良い。

オントロジーからの各種辞書の生成方法について、さらに詳細に述べる。図１５は、図１の辞書生成手段２０、または図２や図５に示した各種辞書専用の辞書生成手段について、基本的な処理の流れを示したフロー図である。これらの辞書生成手段では、まず図７に示したような知識レイヤー表を参照し、抽出すべき辞書に対応する知識レイヤーの階層範囲（第ｍ階層から第ｎ階層まで）を取得する（Ｓ１）。次に、値を０に初期化した変数ｋを用意し（Ｓ２）、オントロジーの第ｍ＋ｋ階層と第ｍ＋ｋ＋１階層の要素を、両階層の要素間の接続関係を含めて全て収集する（Ｓ３）。そして、収集した２階層分の要素をＸＭＬなど適切な記述形式を用いて辞書化する（Ｓ４）。

図６に示したオントロジーから辞書を生成する場合、まず第１階層を含む知識レイヤーは領域概念知識であり、その階層範囲は第１階層から第２階層までである。そこで、これらの階層の要素である「文書」、「機密ラベル」、「個人情報」、「タイトル」とそれらの接続関係（例えば「文書」と「機密ラベル」とが順序付きのＯＰＴ属性によるリンクで接続されていること）を全て収集する。

収集した要素と要素間の関係は、図１２のｃａｔｅｇｏｒｙ要素のように辞書化する。すなわち、「個人情報」をｎａｍｅ属性値としたｃａｔｅｇｏｒｙ要素に、「資産関連情報」、「個人特性」、「個人連絡先」、「業務連絡先」をそれぞれｎａｍｅ属性値としたｇｒｏｕｐ要素を下位要素として記述している。このように、オントロジー内の連続した特定の２階層からＸＭＬ形式の辞書への変換は１対１の対応関係で機械的に行なうことができる。ただし、図１２のような分類辞書には、要素間のＡＬＴ属性といった接続関係の種類は記載されていない。前述したように、分類処理ではこれらの属性が利用されないため、辞書への記載も不要なためである。

オントロジー内のある連続した２階層分の要素の辞書化が済むと、変数ｋの値に１を加え（Ｓ５）、ｍ＋ｋの値がｎ以上であれば辞書生成の処理を終了する。ｍ＋ｋの値がｎ未満であれば、再びオントロジーの第ｍ＋ｋ階層と第ｍ＋ｋ＋１階層の要素を収集する（Ｓ３）。以上を繰り返すことで、オントロジーから特定種類の辞書を生成できる。

図６の例では、オントロジーの第１階層と第２階層について辞書化が済んだ後、次の第２階層と第３階層の要素を収集する。すなわち、「機密ラベル」、「個人情報」、「タイトル」、「個人特性」、「資産関連情報」、「業務連絡先」、「個人連絡先」の各要素を要素間の接続関係（今回は全てＡＬＴ属性）を含めて収集する。本来は、「機密ラベル」や「タイトル」にも下位のクラスが存在するが、図６の例では「個人情報」についてのみ下位のクラスを記載している。「機密ラベル」についてのオントロジーのみ図８に別途記載し、それぞれの下位クラスについての説明は省略する。「個人情報」クラスとその下位属性および属性値となるクラスについては、分類知識に関する図１２のｃａｔｅｇｏｒｙ要素のような辞書が生成される。なお、図１１および図１２に示した辞書では、一部の要素間でｉｄ属性とｒｅｆ＿ｉｄ属性による参照を定義している。ｉｄ属性は前述のキー文字列辞書と同様にその要素のｉｄを定義し、ｒｅｆ＿ｉｄ属性は他所で定義されたｉｄ属性値を参照する。例えば、図１１のｃｏｎｃｅｐｔ要素で定義された「業務連絡先」のｉｄ属性値「２００４」を、図１２のｃａｔｅｇｏｒｙ要素で定義された「個人情報」の下位要素であるｃｌａｓｓ要素で定義された「業務連絡先」のｒｅｆ＿ｉｄ＝“２００４”で参照している。このようなＩＤを用いた参照により、入力文書に「業務連絡先」クラスのインスタンスが含まれていると判断された場合、その文書は「個人情報」が含まれていることをｉｄの参照によって「業務連絡先」という文字列のマッチングよりも素早く確実に判定できる。ｉｄ属性とｒｅｆ＿ｉｄ属性による同様の参照関係は他の辞書内や辞書間でも定義でき、図１０の単語辞書や図１１の概念辞書でも図９のキー文字列辞書のｉｄ属性値をｒｅｆ＿ｉｄ属性で参照している。

本発明による実施の形態の実施例を以下に示す。図１６は、本発明の実施の形態における情報分析システムの構成例、および情報分析システムに接続される装置の例を示すブロック図である。

当該情報分析システムは、情報分析装置１００によって実現され、情報分析装置１００は、通信ネットワーク２００を介して文書蓄積装置３００に接続されている。情報分析装置１００は、ＣＰＵ１０２と、情報分析システムのプログラム１０５を記憶するメインメモリ１０１と、情報分析のためのオントロジーや該オントロジーから生成される各種の辞書、および情報の抽出・分類結果情報をそれぞれ記憶するデータ記憶装置１０３と、通信ネットワーク２００を介して情報分析装置１００の外部との通信を行なうための通信装置１０４と、情報分析システムの実行指示やオントロジーの登録または編集操作を行なうための入力装置１０６と、オントロジーや情報の抽出・分類結果情報を情報分析システムの利用者が参照するための出力装置１０７とを少なくとも備える。

情報分析システムの利用者は、入力装置１０６を用いてオントロジーの登録または編集を行ない、当該オントロジーはデータ記憶装置１０３に記憶される。その後、情報分析システムを実行すると、情報分析装置１００のメインメモリ１０１に記憶されたプログラム１０５に従って、文書蓄積装置３００に蓄積されている文書をＣＰＵ１０２が通信装置１０４を介して読み込み、データ記憶装置１０３に記憶されたキー文字列辞書や単語辞書、概念辞書、分類辞書などを用いて情報の抽出および分類を行ない、その抽出・分類結果情報をデータ記憶装置１０３に記憶させると共に、出力装置１０７に出力する。

なお、図１６の実施例では情報分析装置１００が通信ネットワーク２００を介して文書蓄積装置３００と接続されているが、本発明はこのような形態に限らず、情報分析装置１００と文書蓄積装置３００が通信ネットワークを介さずにケーブルなどで直接接続されていたり、情報分析装置１００に文書蓄積装置３００が内蔵され、情報分析装置１００内部のローカルバスで接続されていてもよい。また、オントロジーは必ずしも情報分析装置１００内のデータ記憶装置１０３に記憶されている必要は無く、別途作成されたオントロジーが他の装置内、例えば文書蓄積装置３００内に格納されていても良い。その場合は、情報分析装置１００が文書蓄積装置３００内に格納されたオントロジーを参照して前記各種の辞書を生成し、データ記憶装置１０３に該辞書群を記憶するという手順を採ることで本発明による実施の形態に基づく情報分析システムを機能させることができる。

本発明は、大規模なＷｅｂサーバや共有ファイルサーバのどこに個人情報や組織内の機密情報があるかを確認する情報セキュリティ監査ツールや、確認された個人情報や機密情報をさらに分類し、各種類の情報が組織外部に漏洩したり改竄または消失した際の被害規模を想定することによりリスク分析を行なう情報セキュリティ管理支援システムに適用できる。また、分類された情報を組織の資産としてそれぞれ適切な保管場所に再配置するなど、資産管理システムへの適用も可能である。

本発明による実施の形態を示した情報分析知識管理装置の構成を表すブロック図である。本発明による他の実施の形態を示した情報分析知識管理装置の構成を表すブロック図である。本発明によるオントロジーの構成例を示す図である。本発明によるオントロジーの構成例を示す図である。本発明による実施の形態を示した情報分析システムの構成を表すブロック図である。本発明によるオントロジーの構成例を示す図である。知識レイヤー表の例を示す図である。本発明によるオントロジーの構成例を示す図である。キー文字列辞書の記述例を示す図である。単語辞書の記述例を示す図である。概念辞書の記述例を示す図である。分類辞書の記述例を示す図である。抽出・分類結果情報の記述例を示す図である。抽出・分類結果情報の記述例を示す図である。辞書生成の基本な処理の流れを示したフロー図である。情報分析装置のハードウェア構成図である。値制約に関するパタンまたは集合の定義を示す図である。従来技術による情報分析システムの構成を表すブロック図である。従来技術によるオントロジーの構造例を示す図である。

符号の説明

１…オントロジー格納手段
２…登録編集手段
３…キー文字列辞書生成手段
４…キー文字列辞書
５…キー文字列検出手段
６…単語辞書生成手段
７…単語辞書
８…単語抽出手段
９…概念辞書生成手段
１０…概念辞書
１１…概念抽出手段
１２…分類辞書生成手段
１３…分類辞書
１４…分類手段
１５…入力文書
１６…抽出・分類結果情報
１７…抽出情報
２０…辞書生成手段
１００…情報分析装置
１０１…メインメモリ
１０２…ＣＰＵ
１０３…データ記憶装置
１０４…通信装置
１０５…プログラム
１０６…入力装置
１０７…出力装置
２００…通信ネットワーク
３００…文書蓄積装置

Claims

少なくとも三階層以上の階層構造を持つオントロジーを格納するオントロジー格納手段と、
オントロジーを該オントロジー格納手段へ登録または編集する登録編集手段と、
該オントロジーの最上位階層を含む第一の範囲の階層部分から情報抽出または情報分類に用いる第一の辞書を生成し、該オントロジーの第一の範囲の階層部分と少なくとも一階層を共有する第二の範囲の階層部分から情報抽出または情報分類に用いる第二の辞書をさらに生成する辞書生成手段と、
該第一の辞書を格納する第一の辞書格納手段と、
該第二の辞書を格納する第二の辞書格納手段と、
を備えたことを特徴とする情報分析知識管理装置。
少なくとも三階層以上の階層構造を持つオントロジーを格納するオントロジー格納手段と、
オントロジーを該オントロジー格納手段へ登録または編集する登録編集手段と、
該オントロジーの最上位階層を含む第一の範囲の階層部分から情報抽出または情報分類に用いる第一の辞書を生成する第一の辞書生成手段と、
該第一の辞書を格納する第一の辞書格納手段と、
該オントロジーの第一の範囲の階層部分と少なくとも一階層を共有する第二の範囲の階層部分から情報抽出または情報分類に用いる第二の辞書を生成する第二の辞書生成手段と、
該第二の辞書を格納する第二の辞書格納手段と、
を備えたことを特徴とする情報分析知識管理装置。
前記第一の辞書が、テキスト情報を含む文書から特定の概念に相当する情報を抽出するための概念辞書であることを特徴とする請求項１または２に記載の情報分析知識管理装置。
前記第二の辞書が、前記第一の辞書を用いて抽出された情報を１つ以上のカテゴリーに分類するための分類辞書であることを特徴とする請求項１、２または３に記載の情報分析知識管理装置。
前記オントロジーのどの部分がどの種類の知識に相当するかを階層単位で指定する階層範囲指定手段をさらに備えたことを特徴とする請求項１乃至４の何れか１項に記載の情報分析知識管理装置。
階層構造を持つオントロジーにおいて、
概念の名称の集合からなる階層と、該概念それぞれを分類するカテゴリーの名称の集合からなる階層とで構成される二階層以上の分類知識と、
概念またはカテゴリーの名称の集合からなる階層と、該概念またはカテゴリーそれぞれを構成する要素となる下位概念の名称の集合からなる階層とで構成される二階層以上の概念知識とを含み、
少なくとも該分類知識の最下位階層と該概念知識の最上位階層は共通の階層であることを特徴とするデータ構造。
階層構造を持つオントロジーにおいて、
概念またはカテゴリーの名称の集合からなる階層と、該概念またはカテゴリーそれぞれを構成する要素となる下位概念の名称の集合からなる階層とで構成される二階層以上の概念知識と、
入力データから該オントロジーを用いて抽出すべき概念の名称の集合からなる階層と、該データに含まれる値のうち該抽出すべき概念に相当する部分が満たすべき制約からなる階層とで構成される二階層以上の値制約知識とを含み、
少なくとも該概念知識の最下位階層と該値制約知識の最上位階層は共通の階層であることを特徴とするデータ構造。
前記概念知識が、特定の専門領域に依存した概念に関する知識を記述した領域概念知識に相当する階層群と、特定の専門領域に依存しない汎用的な概念に関する知識を記述した一般概念知識に相当する階層群とでさらに構成されることを特徴とする請求項６または７に記載のデータ構造。
ある階層に属する要素とその下位の階層に属する要素との親子間の関係を表す属性として、親がその子を必須の要素とすることを表す第一の属性と、親がその子のうち少なくとも１つ以上を要素として必要とすることを表す第二の属性とを少なくとも有することを特徴とする請求項６または７に記載のデータ構造。
少なくとも三階層以上の階層構造を持つオントロジーの最上位階層を含む第一の範囲の階層部分から、特定の概念に相当する情報を文書中から抽出するための概念辞書を生成し、前記オントロジーの第一の範囲の階層部分と少なくとも一階層を共有する第二の範囲の階層部分から、情報を１つ以上のカテゴリーに分類するための分類辞書を生成する辞書生成手段と、
前記第一の辞書を参照して、入力文書から特定の概念に相当する情報を抽出する概念抽出手段と、
前記第二の辞書を参照して、前記第一の辞書を用いて抽出された情報を１つ以上のカテゴリーに分類する分類手段と、
を備えたことを特徴とする情報分析装置。
前記オントロジーは、親子間の関係を表す属性として、親がその子を必須の要素とすることを表す第一の属性と、親がその子のうち少なくとも１つ以上を要素として必要とすることを表す第二の属性とを少なくとも有し、
前記辞書生成手段により作成される前記概念辞書には、ある概念が抽出される制約条件として前記親子間の関係を表す属性が設定され、
前記概念抽出手段は、前記概念辞書中の前記第一および第二の属性による制約条件を満足する概念を入力文書から抽出することを特徴とする請求項１０記載の情報分析装置。
コンピュータを用いて辞書を生成する方法であって、
前記コンピュータが、オントロジーのどの部分がどの種類の知識に相当するかを階層単位で指定する階層範囲指定表を参照し、作成対象となる辞書に必要なオントロジーの階層範囲を決定する第１のステップと、
前記コンピュータが、少なくとも三階層以上の階層構造を持ち、かつ、親子間の関係を表す属性として、親がその子を必須の要素とすることを表す第一の属性と、親がその子のうち少なくとも１つ以上を要素として必要とすることを表す第二の属性とを少なくとも有するオントロジーから、前記決定した階層範囲の内容を読み出す第２のステップと、
前記コンピュータが、前記読み出した内容に基づいて、ある概念が抽出される制約条件として前記親子間の関係を表す属性を設定した辞書を生成する第３のステップと、
を含むことを特徴とする辞書生成方法。
少なくとも三階層以上の階層構造を持つオントロジーを格納するオントロジー格納手段と、第一の辞書を格納する第一の辞書格納手段と、第二の辞書を格納する第二の辞書格納手段とを備えたコンピュータを、
オントロジーを前記オントロジー格納手段へ登録または編集する登録編集手段と、
前記オントロジーの最上位階層を含む第一の範囲の階層部分から情報抽出または情報分類に用いる第一の辞書を生成し、前記オントロジーの第一の範囲の階層部分と少なくとも一階層を共有する第二の範囲の階層部分から情報抽出または情報分類に用いる第二の辞書をさらに生成する辞書生成手段と、
して機能させるためのプログラム。
コンピュータに、
オントロジーのどの部分がどの種類の知識に相当するかを階層単位で指定する階層範囲指定表を参照し、作成対象となる辞書に必要なオントロジーの階層範囲を決定する第１の処理と、
少なくとも三階層以上の階層構造を持ち、かつ、親子間の関係を表す属性として、親がその子を必須の要素とすることを表す第一の属性と、親がその子のうち少なくとも１つ以上を要素として必要とすることを表す第二の属性とを少なくとも有するオントロジーから、前記決定した階層範囲の内容を読み出す第２の処理と、
前記コンピュータが、前記読み出した内容に基づいて、ある概念が抽出される制約条件として前記親子間の関係を表す属性を設定した辞書を生成する第３の処理と、
を行わせるためのプログラム。