JP2007199885A - 情報分析知識管理装置、データ構造、情報分析装置、辞書生成方法およびプログラム - Google Patents

情報分析知識管理装置、データ構造、情報分析装置、辞書生成方法およびプログラム Download PDF

Info

Publication number
JP2007199885A
JP2007199885A JP2006015823A JP2006015823A JP2007199885A JP 2007199885 A JP2007199885 A JP 2007199885A JP 2006015823 A JP2006015823 A JP 2006015823A JP 2006015823 A JP2006015823 A JP 2006015823A JP 2007199885 A JP2007199885 A JP 2007199885A
Authority
JP
Japan
Prior art keywords
dictionary
ontology
hierarchy
concept
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006015823A
Other languages
English (en)
Other versions
JP4904828B2 (ja
Inventor
Itaru Hosomi
格 細見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2006015823A priority Critical patent/JP4904828B2/ja
Publication of JP2007199885A publication Critical patent/JP2007199885A/ja
Application granted granted Critical
Publication of JP4904828B2 publication Critical patent/JP4904828B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】情報の抽出や分類に必要な複数種類の辞書を効率よく正確に管理、保守できるようにする。
【解決手段】オントロジー格納手段1に、登録編集手段2を用いて階層構造を持つオントロジーを登録し、辞書生成手段20が該オントロジーを参照することにより、概念辞書10および分類辞書13をそれぞれ該オントロジーの特定階層部分から機械的に生成する。入力文書からの情報抽出または分類を行なうプログラムは、概念辞書10および分類辞書13を直接参照して各処理を行なう。
【選択図】図1

Description

本発明は、文書データから情報を抽出し、さらには抽出した情報を分類する情報分析システムにおける知識の管理方法に関し、特に情報の抽出や分類に用いる複数種類の知識の作成と管理の方法に関する。
2005年4月より、個人情報の保護に関する法律、いわゆる個人情報保護法が全面施行されるなど、個人情報の取り扱いは社会的にも重要な問題となっている。対して、近年の情報処理技術とインターネットや組織内LANを活用したサービスの普及により、個人情報の蓄積量、流通量は急激な拡大を続けている。また、企業コンプライアンスの重要性も叫ばれ、米国企業改革法、いわゆるSOX法の日本版も検討され始めたことで、個人情報に限らずあらゆる組織内情報の安全で確実な管理が求められている。このような社会動向の中、組織内で既に膨大な量が蓄積されている文書やデータベースから、個人情報をはじめとする重要な情報を抽出し、その管理や活用のための分類、評価を行なうことが急務となっているが、ほとんどの場合これらを人手で実施することは数量の問題からだけでも不可能に近い。
文書やデータベースなどの情報源から必要な情報を抽出し、その分類や評価を効率的に行なう技術を、ここでは情報分析技術と総称することにする。情報分析技術は古くから開発されているが、その技術は自然言語解析技術、情報または概念の抽出技術、分類技術といった複数の要素技術からなる。これら個々の要素技術はそれぞれに適した辞書やルールを必要とするため、情報分析技術を実装した情報分析システムの運用には、一般に複数種類の辞書やルールを用意しておく必要がある。具体的には、言語解析用の単語辞書、概念抽出用の概念辞書、情報の分類基準を定義した分類辞書や分類ルールなどがある。概念辞書や分類辞書、分類ルールは、それぞれにオントロジーと称される場合もある。ただし、従来は、一言にオントロジーと称していても、1つのシステム内での各処理内容に合わせた複数種類のオントロジーを用意している場合がある。
特許文献1では、形態素解析用辞書、意味属性分類辞書、格フレームオントロジ辞書といった複数の辞書やオントロジーを用いて照会文の意味を考慮した情報検索を可能にするシステムについて記載している。特許文献2では、類似文書検索に用いるIS−A辞書、HAS−A辞書、格辞書、言い換え辞書などの各種辞書をオントロジーとまとめているが、それぞれの辞書は異なる表現で個別に記述している。これらとは逆に、特許文献3には、情報抽出のために一般的に用いられるテンプレートや抽出規則を1種類のオントロジ辞書でまとめて記述した情報抽出方法が記載されている。
オントロジーの記述方法は、その用途によって様々である。特許文献4に記載されたオントロジーでは、データベース内の情報の概念体系を抽象度に応じた階層構造で表している。特許文献5では、概念間のリンクに意味的関係とリンク両端のノード共起性に基づく重みを与えた概念辞書を定義している。特許文献6では、概念構造ではないが、文字列照合用ビット列の階層からなる先行パタンと、その後続パタン列を結びつけた木構造の知識を定義している。
オントロジーを情報処理のための知識として利用するアプローチの1つが、世界的に「セマンティックWeb」の名で知られている。W3C(World Wide Web Consortium)は、セマンティックWebのための標準規格として、メタデータを記述するフレームワークと言語を定義したRDF(Resource Definition Framework)と、オントロジーを記述するRDFベースの言語OWL(Web Ontology Language)を策定し、広く利用されている。
特開2005−165958号公報 特開2001−84252公報 特開2000−207407公報 特開2000−222436号公報 特開2005−157887号公報 特開2005−025657号公報 形態素解析システム「茶筌」、[平成18年1月24日検索]、インターネット<URL: http://chasen.naist.jp/hiki/ChaSen/>
特許文献1や特許文献2で示されているような従来の多くの情報分析システムでは、情報分析に必要な対象領域に依存した辞書やルールなどの知識を複数種類記述しなければならない。このうち、抽出や分類の対象となる領域に対して依存性の低い一般的な知識に関する辞書、例えば形態素解析辞書などは、予め既存のものを利用することができる。例えば、非特許文献1に記載されているフリーウェアの形態素解析システム「茶筌」では、形態素解析辞書ipadicを併せて配布している。しかし、例えば個人情報の抽出には何をもって個人情報とするのかをまず定義することが必要となり、その定義は組織によって異なるように、既存の汎用的な辞書を利用するだけでは特定の対象領域に依存した情報の抽出、分類はできない。そこで、前述のように情報の抽出や分類には、テキスト情報を対象とした場合、概念辞書や分類辞書などをそれぞれ対象領域に応じて用意する必要がある。
辞書を複数種類用意すると、多くの場合それらの辞書の間には相互に関連性があり、具体的には同じ語を使って概念や分類体系を記述している。すると、辞書間で語の表記が異なれば互いに照合できなくなり、情報分析システムが正しく動作しなくなる原因となりうる。例えば、ある辞書で「氏名」と記載した語について他の辞書では「人名」となっていると、別途類義語辞書を用意するなどの対策がなければ照合できない。また、人手で辞書を記述する場合、単に辞書が複数あるというだけでも全体の見通しが悪くなるほか、前述のように同じ語を複数の辞書で使用する場合はそれぞれに記述する手間と記述ミスの可能性も問題となりうる。
一方、特許文献3のように1種類のオントロジ辞書に対象領域に依存した情報抽出用の知識を全て記述しておく方法も開示されているが、従来の記述方法では、木構造や網構造で表現されるオントロジーのどの部分がどのような情報抽出・分類処理に用いる要素なのかが分かり難く、人が辞書を記述する際も、情報の抽出や分類を行なう各処理プログラムがオントロジーを参照する場合も、煩雑な解析が必要となっていた。例えば、特許文献3の図4に示されたオントロジ辞書では、木構造の第2階層に「TAN−DSU」、「N社」、「49,800円」といった固有名詞や数値と単位の組が記載されているほか、「同期」、「内蔵」といった一般名詞による概念も同階層に記載されている。「N社」も「同期」も上位ノードとの間は「is−a」という属性で結ばれており、固有名詞か一般名詞かの区別はこのオントロジ辞書だけではできない。ここで、製品をその機能別に分類する処理を行ないたい場合、「同期」といった概念を表す一般名詞は「非同期」との対で分類に利用できるが、「N社」といった固有名詞は機能別分類には利用できない。逆にメーカー別分類では「N社」のような固有名詞が利用できるが「同期」は利用できない。このように、特定の分類処理を行なうために必要な語がオントロジーのどの部分にあるのかを構造や属性から容易に判断できなければ、複雑な解析や別の辞書が必要となる。
また、特許文献3に記載の方法では、出現単語認識手段や単語関係展開手段がともに同じオントロジ辞書を直接参照している。このような構成では、互いに異なる各処理にとってオントロジ辞書の記述形式は必ずしも最適ではなく、処理効率が悪くなる可能性がある。例えば、特許文献3の図4に示されたオントロジ辞書をメーカー別分類を行なうプログラムが利用するとした場合、必要なのは「メーカー」とその下位の「N社」などのis−a属性値のみであり、他の要素は毎回オントロジを参照する際に読み飛ばすことになる。そのような読み飛ばしの処理時間は、オントロジ辞書が大きくなるほど深刻な速度低下に繋がる。また、オントロジ辞書をファイルやメモリ上に静的に配置して「メーカー」ノードを固定アドレスで直接参照する方法も採れるが、その場合は別途単語と参照アドレスとの対応テーブルを用意する必要がある。さらには、「メーカー」ノードの下にis−a属性以外の属性(例えば「製造元」などの同義語を指す属性)もある場合、やはりメーカー別分類処理には不要な情報も参照し属性を見て読み飛ばす必要がある。
なお、W3Cで策定されたオントロジーの標準言語OWLでは、概念を表すクラスや具体的な事物や現象を表すリテラル、クラスやリテラル間の基本的な関係(上下関係、同一、非同一、一方が他方の一部である、など)を定義しているが、例えばある親クラスにとってある子クラスがどの程度必要な要素か、クラス階層においてある範囲の階層のクラス集合がどのような意味や役割を持つかといったことを記述する語彙は用意されていない。OWLで記述されたオントロジーをどのような仕組みで解釈するかについても定義されていない。
本発明は以上のような問題に鑑みてなされたものであり、辞書の記述者と情報の抽出や分類のためのプログラムとの双方にとって記述や処理の効率が良く理解し易いオントロジーのデータ構造と、そのようなオントロジーを用いた情報分析システムの効果的な実現手段を提供することを目的とする。
本発明による情報分析知識管理装置は、少なくとも三階層以上の階層構造を持つオントロジーを格納するオントロジー格納手段と、オントロジーを該オントロジー格納手段へ登録または編集する登録編集手段と、該オントロジーの最上位階層を含む第一の範囲の階層部分から情報抽出または情報分類に用いる第一の辞書を生成し、該オントロジーの第一の範囲の階層部分と少なくとも一階層を共有する第二の範囲の階層部分から情報抽出または情報分類に用いる第二の辞書をさらに生成する辞書生成手段と、該第一の辞書を格納する第一の辞書格納手段と、該第二の辞書を格納する第二の辞書格納手段とを備えたことを特徴とする。
また、本発明による情報分析知識管理装置は、少なくとも三階層以上の階層構造を持つオントロジーを格納するオントロジー格納手段と、オントロジーを該オントロジー格納手段へ登録または編集する登録編集手段と、該オントロジーの最上位階層を含む第一の範囲の階層部分から情報抽出または情報分類に用いる第一の辞書を生成する第一の辞書生成手段と、該第一の辞書を格納する第一の辞書格納手段と、該オントロジーの第一の範囲の階層部分と少なくとも一階層を共有する第二の範囲の階層部分から情報抽出または情報分類に用いる第二の辞書を生成する第二の辞書生成手段と、該第二の辞書を格納する第二の辞書格納手段とを備えた構成であってもよい。
また、前記第一の辞書が、テキスト情報を含む文書から特定の概念に相当する情報を抽出するための概念辞書であってもよい。
また、前記第二の辞書が、第一の辞書を用いて抽出された情報を1つ以上のカテゴリーに分類するための分類辞書であってもよい。
また、前記オントロジーのどの部分がどの種類の知識に相当するかを階層単位で指定する階層範囲指定手段をさらに備えていてもよい。
また、本発明によるデータ構造は、階層構造を持つオントロジーにおいて、概念の名称の集合からなる階層と、該概念それぞれを分類するカテゴリーの名称の集合からなる階層とで構成される二階層以上の分類知識と、概念またはカテゴリーの名称の集合からなる階層と、該概念またはカテゴリーそれぞれを構成する要素となる下位概念の名称の集合からなる階層とで構成される二階層以上の概念知識とを含み、少なくとも該分類知識の最下位階層と該概念知識の最上位階層は共通の階層であることを特徴とする。
また、本発明による他のデータ構造は、階層構造を持つオントロジーにおいて、概念またはカテゴリーの名称の集合からなる階層と、該概念またはカテゴリーそれぞれを構成する要素となる下位概念の名称の集合からなる階層とで構成される二階層以上の概念知識と、入力データから該オントロジーを用いて抽出すべき概念の名称の集合からなる階層と、該データに含まれる値のうち該抽出すべき概念に相当する部分が満たすべき制約からなる階層とで構成される二階層以上の値制約知識とを含み、少なくとも該概念知識の最下位階層と該値制約知識の最上位階層は共通の階層であることを特徴とする。
また、前記概念知識は、特定の専門領域に依存した概念に関する知識を記述した領域概念知識に相当する階層群と、特定の専門領域に依存しない汎用的な概念に関する知識を記述した一般概念知識に相当する階層群とでさらに構成されてもよい。
また、本発明による情報分析装置は、少なくとも三階層以上の階層構造を持つオントロジーの最上位階層を含む第一の範囲の階層部分から、特定の概念に相当する情報を文書中から抽出するための概念辞書を生成し、前記オントロジーの第一の範囲の階層部分と少なくとも一階層を共有する第二の範囲の階層部分から、情報を1つ以上のカテゴリーに分類するための分類辞書を生成する辞書生成手段と、前記第一の辞書を参照して、入力文書から特定の概念に相当する情報を抽出する概念抽出手段と、前記第二の辞書を参照して、前記第一の辞書を用いて抽出された情報を1つ以上のカテゴリーに分類する分類手段と、
を備えたことを特徴とする。
また、前記オントロジーは、親子間の関係を表す属性として、親がその子を必須の要素とすることを表す第一の属性と、親がその子のうち少なくとも1つ以上を要素として必要とすることを表す第二の属性とを少なくとも有し、前記辞書生成手段により作成される前記概念辞書には、ある概念が抽出される制約条件として前記親子間の関係を表す属性が設定され、前記概念抽出手段は、前記概念辞書中の前記第一および第二の属性による制約条件を満足する概念を入力文書から抽出するものであってもよい。
また、本発明による辞書生成方法は、コンピュータを用いて辞書を生成する方法であって、前記コンピュータが、オントロジーのどの部分がどの種類の知識に相当するかを階層単位で指定する階層範囲指定表を参照し、作成対象となる辞書に必要なオントロジーの階層範囲を決定する第1のステップと、前記コンピュータが、少なくとも三階層以上の階層構造を持ち、かつ、親子間の関係を表す属性として、親がその子を必須の要素とすることを表す第一の属性と、親がその子のうち少なくとも1つ以上を要素として必要とすることを表す第二の属性とを少なくとも有するオントロジーから、前記決定した階層範囲の内容を読み出す第2のステップと、前記コンピュータが、前記読み出した内容に基づいて、ある概念が抽出される制約条件として前記親子間の関係を表す属性を設定した辞書を生成する第3のステップとを含むことを特徴とする。
また、本発明による辞書生成プログラムは、少なくとも三階層以上の階層構造を持つオントロジーを格納するオントロジー格納手段と、第一の辞書を格納する第一の辞書格納手段と、第二の辞書を格納する第二の辞書格納手段とを備えたコンピュータを、オントロジーを前記オントロジー格納手段へ登録または編集する登録編集手段と、前記オントロジーの最上位階層を含む第一の範囲の階層部分から情報抽出または情報分類に用いる第一の辞書を生成し、前記オントロジーの第一の範囲の階層部分と少なくとも一階層を共有する第二の範囲の階層部分から情報抽出または情報分類に用いる第二の辞書をさらに生成する辞書生成手段として機能させることを特徴とする。
また、本発明による辞書生成プログラムは、コンピュータに、オントロジーのどの部分がどの種類の知識に相当するかを階層単位で指定する階層範囲指定表を参照し、作成対象となる辞書に必要なオントロジーの階層範囲を決定する第1の処理と、少なくとも三階層以上の階層構造を持ち、かつ、親子間の関係を表す属性として、親がその子を必須の要素とすることを表す第一の属性と、親がその子のうち少なくとも1つ以上を要素として必要とすることを表す第二の属性とを少なくとも有するオントロジーから、前記決定した階層範囲の内容を読み出す第2の処理と、前記コンピュータが、前記読み出した内容に基づいて、ある概念が抽出される制約条件として前記親子間の関係を表す属性を設定した辞書を生成する第3の処理とを行わせることを特徴とする。
『作用』
本発明によるオントロジーのデータ構造にあっては、特定の階層範囲が特定の種類の知識を表すように階層化されているため、辞書の記述者にとって記述や理解が容易になると同時に、情報の抽出や分類のための辞書の作成も容易となる。また、こうして作成された辞書を用いて情報の抽出や分類を行うことにより、オントロジーを直接参照する場合に比べて処理の効率を高めることができる。
本発明によれば、入力文書からの特定の情報の抽出または分類において、キーとなる文字列や単語の抽出、概念の抽出、概念の分類といった相互に関連する個々の部分的処理に対し、各々個別に専用辞書を人手で作成する必要が無く、1種類の記述容易なオントロジーを作成するだけで前記個別の専用辞書を自動生成できる。これにより、情報の抽出や分類を行なう作業者の負担が軽減できるほか、同作業者の記述ミスによる処理の不具合発生率を低減できる。また、作成したオントロジーを情報の抽出や分類に直接利用するのではなく、個別の専用辞書に変換してから利用するため、個々の部分的処理を効率よく行なうことができる。
以下、本発明を実施するための最良の形態を、図面を参照して説明する。
図1は、本発明による情報分析知識管理装置の第1の実施の形態を示すブロック図である。オントロジー格納手段1は、登録編集手段2により情報分析に登録された知識を保管する。辞書生成手段20が、オントロジー格納手段1に登録された知識から概念辞書10および分類辞書13を生成する。
オントロジー格納手段1に格納される知識は一定のデータ構造を持つ。本発明によるデータ構造で個人情報を定義した知識は、例えば図3のような構造を持つ。すなわち、「個人情報」は、ALT属性の値として「個人特性」、「資産関連情報」、「個人連絡先」、「業務連絡先」の4種類の要素を持ち、さらに「個人連絡先」についてはそのMDT属性の値として「人名」を、ALT属性の値として「住所」、「電話番号」、「Eメールアドレス」を、OPT属性の値として「FAX番号」といった要素を持つオントロジーとして表現される。ここで、「個人情報」、「個人特性」、「人名」などはそれぞれ特定の概念を表すクラスとする。MDT属性は、親クラスがその属性値を必須の要素とすることを表す。ALT属性は、親クラスがその属性値のうち少なくとも1つ以上を要素として必要とすることを表す。OPT属性は、親クラスがその属性値のクラスを必ず持つ必要はないが、あれば要素と認められることを表す。すなわち、OPT属性の値は0個以上必要な要素を表す。従って図3の例では、ある情報源が、「個人特性」クラスまたは「資産関連情報」クラスまたは「個人連絡先」クラスまたは「業務連絡先」クラスのうちいずれか一つ以上のインスタンスを含む場合、その情報源は「個人情報」クラスのインスタンスを含むと判断できる。同様に、ある情報源が、「人名」クラスのインスタンスを含み、「住所」クラスまたは「電話番号」クラスまたは「Eメールアドレス」クラスのうちいずれか一つ以上のインスタンスを含む場合、その情報源は「個人連絡先」クラスのインスタンスを含むと判断できる。ここで、当該情報源に「FAX番号」クラスのインスタンスが含まれている場合、当該インスタンスは「個人連絡先」クラスのインスタンスが当該情報源に含まれているための必要条件の一部とはならないが、「個人連絡先」クラスのインスタンスが含まれていることを示唆する要素となる。
図3に示したオントロジーは、第1階層(「個人情報」クラスが記述された階層)から第2階層(「個人特性」クラスなどが記述された階層)までを分類知識、第2階層から第3階層(「人名」クラスなどが記述された階層)までを概念知識という、一部の階層が重複した2種類の知識で構成されているとみなすことができる。ここで概念知識とは、情報源となる文書などの記載内容から直接抽出されうる概念(クラス)を定義した知識とする。これに対して分類知識とは、情報源から直接は抽出されず、直接抽出された概念知識の要素集合から間接的に抽出される概念を定義した知識とする。図3の例では、情報源となる文書からは「人名」クラスや「電話番号」クラスのインスタンスとして「鈴木太郎」や「03−1234−XXXX」といった文字列が直接抽出されると、そこから「個人連絡先」という概念(クラス)を構成する要素集合(インスタンス)が当該文書に含まれていると判断される。「個人連絡先」クラスのインスタンスが当該文書に含まれていることが分かると、間接的に当該文書には「個人情報」という概念の要素集合(この場合は「個人連絡先」という1つの概念)が含まれていると判断される。このように、本発明による情報分析知識管理装置の第1の実施の形態では、階層構造を持ったオントロジー内の特定の階層範囲が特定の種類の知識を表す。したがって、図1に示した登録編集手段2を通じてオントロジー格納手段1に格納されるオントロジーの編集者や閲覧者は、オントロジーの各階層を見ることで、抽出対象となる情報がどのような要素概念で構成されているか、どのように分類されているかを容易に把握でき、分類のカテゴリーや要素となる概念の追加または変更もし易い。また、辞書生成手段20は、オントロジー格納手段1に格納されたオントロジーから概念知識と分類知識それぞれに対応した特定範囲の階層のみを参照することで、概念辞書10と分類辞書13を効率良く生成することができる。
図3に示したオントロジーからは、辞書生成手段20によって、「個人連絡先」という概念が「人名」、「住所」、「電話番号」、「FAX番号」、「Eメールアドレス」から構成されることを表す概念辞書10が生成される。「個人特性」や「資産関連情報」、「業務連絡先」といった概念も概念知識としてオントロジーに記述してあれば、概念辞書10にそれらの概念構造が記載される。同様に、辞書生成手段20によって、「個人情報」という概念が「個人特性」、「資産関連情報」、「個人連絡先」、「業務連絡先」から構成されることを表す分類辞書13が生成される。当該オントロジーの分類知識に記載されたこれらの概念構造は、「個人情報」という概念の構成要素を定義しているというよりも、「個人情報」がどのようなカテゴリ(「個人特性」など)に分類されるかを定義しているものとして利用される。したがって、分類知識の概念構造は、本実施の形態において同階層の属性にMDT属性、ALT属性、OPT属性が混在することは無く、混在していても分類処理では利用されない。
なお、図1では、辞書生成手段20が概念辞書10と分類辞書13を共に生成するものとしたが、本発明はこのような構成に限らず、図2のように概念辞書生成手段9がオントロジー格納手段1に登録された知識から概念辞書10を生成し、同様に分類辞書生成手段12がオントロジー格納手段1に登録された知識から分類辞書13を生成するとしても良い。
さらに、本発明による情報分析知識管理装置の実施の形態では、オントロジー格納手段1に登録された知識から生成される辞書は概念辞書10と分類辞書13に限定されない。例えば、図4に示した1つのオントロジーから辞書生成手段20によって単語辞書と概念辞書とを生成する構成であっても良い。図4のオントロジーでは、概念知識からは前記と同様に概念辞書が生成される。一方、概念知識より下位の階層を含む値制約知識には、「人名」や「住所」などのクラスのインスタンスを要素集合または値のパタンで表している。これらは情報源となる文書などのデータから直接検出されるリテラル文字列やその特定のパタン列を記述したものである。値制約知識からは、上位階層の各クラス(「人名」など)を項目名、下位階層の各要素集合や値のパタンを各項目の説明とした単語辞書を生成することができる。以上のようにして生成された単語辞書と概念辞書は、それぞれ情報分析システムの入力文書から単語を抽出する単語抽出手段と、抽出された単語の集合から当該文書に含まれる概念を抽出する概念抽出手段に参照され、結果として抽出された情報が出力される。
上記のような情報分析システムを、オントロジーを用いた従来技術で構成した場合、例えば図18のようになる。図18では1つのオントロジー格納手段1を単語抽出手段8と概念抽出手段11がそれぞれ直接参照し、入力文書15から情報を抽出して抽出情報17を出力する。特許文献3では、単語抽出手段8が出現単語認識手段に、概念抽出手段11が単語関係展開手段にそれぞれ相当する。ただし、特許文献3における単語関係展開手段は、3階層以上からなる概念間の関係をまとめて抽出している。
従来技術に基づくオントロジーの典型的な構造の例を図19に示す。図19(a)は、デジタルカメラに関する概念構造を表現している。「製品名」や「CCD」、「メーカー」、「標準価格」といった要素が「デジタルカメラ」という概念の一部であるという属性(part−of)値として記述され、さらに、「画素数」という概念が「CCD」の要素であることが記述されている。また、「CD−N100」や「5,000,000」、「N社」、「29,800円」といった要素が「製品名」などの概念の具体的な値であるという属性(is−value)値として記述されている。図19(a)のオントロジーは、特許文献3の図4に記載されたオントロジーとほぼ同様である。
図19(b)は、図19(a)と同様の記述方法を個人情報の概念に適用したオントロジーの例である。図19の(a)、(b)における各階層間のpart−of関係やis−value関係は、本発明によるオントロジーの階層関係と類似しているが、part−of関係やis−value関係では、上位階層の概念にとって下位階層の概念やリテラルが必須の属性(MDT)属性か、1つ以上必要な属性(ALT属性)か、0個以上含まれていてよい属性(OPT属性)かといった必要度合いは表現できない。また、図19の(a)、(b)とも、「画素数」や「都道府県」といった概念が他の「DC−N100」や「鈴木太郎」といったリテラルと同階層に含まれ、それらの概念の下位階層にリテラル属性値を持つ。このように従来のオントロジーでは概念知識や単語知識、分類知識など特定の知識が特定の階層範囲に対応付けられておらず、概念の階層関係も考慮した知識の参照には、オントロジーの木構造や網構造を毎回辿らなければならない。このような設計は、オントロジーを各種の処理プログラムが直接参照する場合に効率が悪くなる要因となりうる。
図5に示した情報分析システムでは、図1や図2で示したような概念辞書や分類辞書に加え、さらにキー文字列辞書生成手段3によってキー文字列辞書4が、単語辞書生成手段6によって単語辞書7がそれぞれオントロジー格納手段1に登録された知識から生成されるシステムの構成例を表している。
図5に示した情報分析システムで利用可能なオントロジーの例を図6に示す。図6は、6階層からなる網構造を持つオントロジーの例である。図6の左端にあるトップノードは「文書」の概念を表すクラスである。この例では、「文書」クラスは前述したOPT属性の値として「タイトル」クラス、「個人情報」クラス、「機密ラベル」クラスをそれぞれ要素に持つ。ここで「機密ラベル」とは、「取扱注意」や「関係者外秘」といった、ある文書が組織内または特定の文書や関係者内だけで共有可能な秘密情報を含むことを表す、文書の先頭や各ページの上端、下端などに記載されるラベルのことを指すものとする。
同様に、「個人情報」クラスは「個人特性」クラス、「資産関連情報」クラス、「業務連絡先」クラス、「個人連絡先」クラスをいずれもALT属性値として持つ。このうち「業務連絡先」クラスは、「人名」クラスと「所属」クラスをMDT属性値として持ち、「住所」クラス、「電話番号」クラス、「Eメールアドレス」クラスをそれぞれALT属性値として持ち、「FAX番号」クラスをOPT属性値として持つ。当該オントロジーの第1階層である「文書」クラスと「機密ラベル」クラス等を含む第2階層を1つの領域概念知識とし、また「個人特性」クラス等を含む第3階層と「人名」クラス等を含む第4階層は別の領域概念知識としている。これらに対し、第2階層と第3階層の組を分類知識としている。本発明におけるデータ構造では、オントロジーはこのような階層構造を持ち、第何階層から第何階層までをどの種類の知識とするかを予め決めておく。また、以下のような表で別途指定するように設計しても良い。
図7は、知識の種類とオントロジーの階層とを対応付けた表である。本発明による情報分析知識管理装置では、このような表の作成機能を前記の登録編集手段2に備えても良い。図7では、図6に示したオントロジーの各階層に対する知識の種類(以下、知識レイヤーと称する)を定義している。図7によれば、分類知識はオントロジーの第2階層から第3階層まで、領域概念知識は第1階層から第2階層までと第3階層から第4階層まで、一般概念知識は第4階層から第5階層まで、値制約知識は第5階層から第6階層までとなっている。このように、各知識レイヤー間には重複があってよく、典型的には次のような階層の順序関係が成り立つ。
{分類知識,領域概念知識}>一般概念知識>値制約知識
すなわち、分類知識と領域概念知識は互いに前後関係の制約は無く、これら2種類の知識の下位レイヤーに一般概念知識が、さらにその下位レイヤーに値制約知識が位置する。また、第1階層を含む知識以外の知識レイヤーはその上位の知識レイヤーと1階層を共有した2階層分となる。ある知識レイヤーの階層範囲は、直接の上位にあたる知識レイヤーおよび直接の下位にあたる知識レイヤーとの間で少なくとも1階層は重複している必要がある。ただし、本発明では各知識レイヤーの階層数や知識レイヤー間で共有する階層数をそれぞれ2階層と1階層に制限するものではなく、例えば、領域概念知識の階層が分類知識の階層を全て包含していたり、一般概念知識や値制約知識が3階層以上を持っていても良い。ただし、一般概念知識の最上位階層が領域概念知識の最上位階層よりも上になることはなく、同様に値制約知識の最上位階層が一般概念知識の最上位階層よりも上になることはない。また、領域概念知識の最下位階層が一般概念知識の最下位階層以下になることはなく、同様に一般概念知識の最下位階層が値制約知識の最下位階層以下になることもない。
なお、図6ではさらに、一部の要素間の関係記述にorderという属性を使用している。order属性は要素間の出現順序に制約を与える属性であり、図6の例では、値制約知識において「県名集合」クラスが「県」というリテラル文字の前に出現することを表し、また「アカウント文字列パタン」クラスが「@」というリテラル文字列の前に、さらに「@」が「ドメイン文字列パタン」クラスの前にそれぞれ出現することを表している。order属性で接続されたこれらの要素は共通の親クラスを持つ同階層のクラスやリテラルであり、このような要素集合を辞書化する際には、要素の記述順序をorder属性が示す順序に基づいて記述し、その順序で情報抽出を行なったり、これらの要素は互いに隣接または規定文字数内の近傍に出現するという制約を辞書生成手段や単語情報抽出手段、概念抽出手段に与えても良い。
登録編集手段2は、上記のようなオントロジーをオントロジー格納手段1に登録したり編集する機能を備える。具体的には、GUI(グラフィカル・ユーザ・インタフェース)を用いてのクラスやリテラルの要素記述と要素間のリンク作成、各リンクに対する属性(MDT、ALT、OPT、order)設定、階層の範囲指定による知識レイヤーの定義といった機能を用意する。後述するブランクノードについては、他のクラスと同様に手動で記述するほか、隣接していない階層間で上下階層関係のリンクを作成した際に自動生成しても良い。登録編集手段2の出力は、作成したオントロジーのほか、知識レイヤーと階層範囲との対応表を含んでいても良く、それぞれをオントロジー格納手段1に保存する。
図6および図7における各知識レイヤーは、図5に示した情報分析システムの各辞書との間で以下のように対応付けられる。
・分類知識→分類辞書13
・領域概念知識→概念辞書10
・一般概念知識→概念辞書10
・値制約知識→単語辞書7、キー文字列辞書4
分類辞書13は、分類辞書生成手段12によって、オントロジーの分類知識に相当する部分から各階層ごとに例えば図12のようなXMLデータとして生成される。同様に、概念辞書10は、概念辞書生成手段9によって、オントロジーの領域概念知識と一般概念知識に相当する部分から各階層ごとに例えば図11のようなXMLデータとして生成される。
単語辞書7は、単語辞書生成手段6によって、オントロジーの値制約知識に相当する部分から上位階層のクラス名とその属性値となる要素やパタン定義の組が、例えば図10のようなXMLデータとして生成される。図10では1つの概念(「Eメールアドレス」または「都道府県」)に対して1つのパタンをdef属性で定義しているが、これは、図6のオントロジー上で同じ1つの親クラスを持つ要素について、order属性で接続されている要素同士を順序付きのAND条件、それ以外のALT属性値である要素間をOR条件で統合することによって実現できる。すなわち、「Eメールアドレス」の例では、「アカウント文字列パタン」に相当する“[¥w¥−¥.]+”と、リテラル文字である「@」と、「ドメイン文字列パタン」に相当する“[¥w¥−]+(¥.[¥w¥−]+)+”とをこの順序で連結し、その先頭に“^”を、末尾に“$”をさらに追加することにより1つの正規表現パタンとして記述している。同様に「都道府県」では、「県名集合」に相当する“(青森|岩手|…|沖縄)”とリテラル文字である「県」とを連結したパタンに対し、「東京都」、「北海道」、「大阪府」、「京都府」をそれぞれOR(“|”で表す演算子)で連結することにより1つの正規表現パタンとして記述している。ここで、「県名集合」や「アカウント文字列パタン」、「ドメイン文字列パタン」といった値制約知識内のクラスに対応する具体的な正規表現パタンは図6には記載していないが、「県名集合」などのクラスに対してさらに下位の階層となるMDT属性のインスタンスとして正規表現パタンを直接記述しても良く、または図17のような表で別途定義しておいてもよい。さらには、「県名集合」といったクラスを定義せず、「都道府県」クラスの下に直接「(青森|岩手|・・・|沖縄)」というパタンをリテラル文字列の要素としてオントロジー内に定義しても良い。なお、本発明による単語辞書の生成方法は、上記のようにオントロジー内の同じクラスを構成する各値制約パタンを合成した辞書に限定するものではなく、より単純に各パタンを列挙した記述方法でも良い。
キー文字列辞書4は、キー文字列辞書生成手段3によって、単語辞書7と同じく値制約知識からクラスやパタン定義を除く具体的なリテラル文字列のみを抽出し、各リテラルの上位クラスと対応づけて例えば図9のようなXMLデータとして生成される。図9に示したキー文字列辞書では、「Eメールアドレス」というクラスに対して他の辞書から参照するためのID(id=”1”など)と、該クラスの下位属性の値のうちリテラル文字である「@」をキー文字列として定義している。同様に「都道府県」クラスに対しては、「東京都」「北海道」「京都府」「大阪府」「県」の各文字列がキー文字列として定義されている。キー文字列辞書を使ったキー文字列検出を、単語辞書を使った単語抽出の前に実行することで、単語辞書に記載された正規表現などによるパタンの照合を入力文書中のテキスト全てに対して行なわずとも、「@」などのキー文字列を検出した部分的な領域のみにパタン照合を行なえば良いため、効率よく高速な単語抽出が可能となる。
上記の例では、領域概念知識と一般概念知識が共に同じ概念辞書10として生成されるものとしたが、本発明はこのような辞書の分類に限らず、それぞれ領域概念辞書と一般概念辞書に分けても良い。ただし、情報分析システムの1つの機能(例えば概念抽出手段11)で共に利用される知識であっても、領域概念知識と一般概念知識のように明示的に知識レイヤーを分離することで、他の領域に依存した領域概念知識からも同じ一般概念知識にリンクして利用するといった、知識の再利用を分かり易く定義できるという利点がある。
各辞書上で上位の知識レイヤーと下位の知識レイヤーとは、双方のレイヤーで共有しているクラス名(「業務連絡先」など)で相互に参照できるほか、各知識レイヤーに対応した辞書を生成する際、高速化のために個々のクラスにIDを付けてIDで参照するようにしても良い。IDなどによる階層間の相互参照は、1つの知識レイヤーの中での階層間の参照に適用しても良い。
図8は、図6に記載された「機密ラベル」クラスの下位属性について詳細に記述したオントロジーの例である。図6のオントロジーにおける「Eメールアドレス」クラスの下位属性値にもあるが、図8のオントロジーで「社外秘」クラスや「部外秘」クラスの直下の属性値で空白のクラスが定義されている。これは、当該階層に記載すべき要素がなく、且つその更に下位の階層には記載すべき要素がある場合のつなぎとしてのクラスである。このようなクラスをここでは「ブランクノード」と呼ぶことにする。ブランクノードは、その直接の上位クラスと1対1対応である場合はMDT属性の値として定義し、1対1対応ではない、もしくは将来的に1対多対応となりうる場合はALT属性の値として定義する。ブランクノードとのその直接の上位クラスとの対応関係は各辞書(前記の概念辞書10など)には記載しないが、その更に下位の属性でブランクノードではない要素と、ブランクノードを介した上位クラスとの対応関係は辞書に記載する。例えば、図8のオントロジーにおいて、値制約知識に記載された「取扱注意」というリテラルと、その上位でブランクノードではない「社外秘」クラスとの対応関係は、前記の単語辞書7およびキー文字列辞書4に記載される。
図5に示した情報分析システムでは、以上のようにして一連の必要な辞書を生成したのち、入力文書15を読み込み、まずキー文字列検出手段5がキー文字列辞書4を参照して入力文書15中から各キー文字列を検出する。次に、単語抽出手段8が単語辞書7を参照し、検出されたキー文字列を含む単語を入力文書15中の該キー文字列の周辺から抽出する。概念抽出手段11は、抽出に成功した単語の集合が、概念辞書10に含まれるいずれかの概念に相当するかどうかを判定し、概念辞書10中のMDT属性やALT属性、OPT属性による制約条件を考慮した上で概念を抽出する。分類手段14は、抽出された概念の集合から、それらの概念を含む文書が分類辞書13に記載されたどのクラス(カテゴリー)に該当するかを判断する。
例えば、ある文書からキー文字列として「@」と「県」が検出され、それらのキー文字列周辺の文字列を単語辞書に記載された文字列パタンと照合することにより「suzuki@nec.com」と「神奈川県」という単語が検出され、それらの単語がそれぞれ「Eメールアドレス」クラスと「都道府県」クラスとして認識される。「都道府県」クラスが認識されると、「神奈川県」という単語の周辺を探索して「市区町村」クラスや「番地」クラスに対応するインスタンスがあるかどうかを確認し、それらのインスタンスが見つかれば「住所」クラスが認識される。「Eメールアドレス」クラスと「住所」クラスが認識されると、それらを属性値に持つ「業務連絡先」クラスや「個人連絡先」クラスの他の属性値を探索し、ここでは「業務連絡先」クラスのみが認識されたとする。「業務連絡先」クラスと「個人連絡先」クラスの両方について必要な条件を満たす場合もあり、その際にいずれか一方を選ぶか両方を採用するかは、情報分析システムの仕様、図5に示した例では特に分類手段14の仕様に依る。「業務連絡先」クラスに必要なインスタンスが含まれると判断された文書は、更に「業務連絡先」クラスの上位クラスである「個人情報」クラスの条件も満たし、業務連絡先を含んだ個人情報を含む文書として分類される。このような一連の処理の結果として、情報分析システムは例えば図13のような構造を持つ抽出・分類結果情報16を出力する。なお、抽出・分類結果情報16は、図13に示したような表構造のほか、図14に示したような木構造で表現されても良い。
オントロジーからの各種辞書の生成方法について、さらに詳細に述べる。図15は、図1の辞書生成手段20、または図2や図5に示した各種辞書専用の辞書生成手段について、基本的な処理の流れを示したフロー図である。これらの辞書生成手段では、まず図7に示したような知識レイヤー表を参照し、抽出すべき辞書に対応する知識レイヤーの階層範囲(第m階層から第n階層まで)を取得する(S1)。次に、値を0に初期化した変数kを用意し(S2)、オントロジーの第m+k階層と第m+k+1階層の要素を、両階層の要素間の接続関係を含めて全て収集する(S3)。そして、収集した2階層分の要素をXMLなど適切な記述形式を用いて辞書化する(S4)。
図6に示したオントロジーから辞書を生成する場合、まず第1階層を含む知識レイヤーは領域概念知識であり、その階層範囲は第1階層から第2階層までである。そこで、これらの階層の要素である「文書」、「機密ラベル」、「個人情報」、「タイトル」とそれらの接続関係(例えば「文書」と「機密ラベル」とが順序付きのOPT属性によるリンクで接続されていること)を全て収集する。
収集した要素と要素間の関係は、図12のcategory要素のように辞書化する。すなわち、「個人情報」をname属性値としたcategory要素に、「資産関連情報」、「個人特性」、「個人連絡先」、「業務連絡先」をそれぞれname属性値としたgroup要素を下位要素として記述している。このように、オントロジー内の連続した特定の2階層からXML形式の辞書への変換は1対1の対応関係で機械的に行なうことができる。ただし、図12のような分類辞書には、要素間のALT属性といった接続関係の種類は記載されていない。前述したように、分類処理ではこれらの属性が利用されないため、辞書への記載も不要なためである。
オントロジー内のある連続した2階層分の要素の辞書化が済むと、変数kの値に1を加え(S5)、m+kの値がn以上であれば辞書生成の処理を終了する。m+kの値がn未満であれば、再びオントロジーの第m+k階層と第m+k+1階層の要素を収集する(S3)。以上を繰り返すことで、オントロジーから特定種類の辞書を生成できる。
図6の例では、オントロジーの第1階層と第2階層について辞書化が済んだ後、次の第2階層と第3階層の要素を収集する。すなわち、「機密ラベル」、「個人情報」、「タイトル」、「個人特性」、「資産関連情報」、「業務連絡先」、「個人連絡先」の各要素を要素間の接続関係(今回は全てALT属性)を含めて収集する。本来は、「機密ラベル」や「タイトル」にも下位のクラスが存在するが、図6の例では「個人情報」についてのみ下位のクラスを記載している。「機密ラベル」についてのオントロジーのみ図8に別途記載し、それぞれの下位クラスについての説明は省略する。「個人情報」クラスとその下位属性および属性値となるクラスについては、分類知識に関する図12のcategory要素のような辞書が生成される。なお、図11および図12に示した辞書では、一部の要素間でid属性とref_id属性による参照を定義している。id属性は前述のキー文字列辞書と同様にその要素のidを定義し、ref_id属性は他所で定義されたid属性値を参照する。例えば、図11のconcept要素で定義された「業務連絡先」のid属性値「2004」を、図12のcategory要素で定義された「個人情報」の下位要素であるclass要素で定義された「業務連絡先」のref_id=“2004”で参照している。このようなIDを用いた参照により、入力文書に「業務連絡先」クラスのインスタンスが含まれていると判断された場合、その文書は「個人情報」が含まれていることをidの参照によって「業務連絡先」という文字列のマッチングよりも素早く確実に判定できる。id属性とref_id属性による同様の参照関係は他の辞書内や辞書間でも定義でき、図10の単語辞書や図11の概念辞書でも図9のキー文字列辞書のid属性値をref_id属性で参照している。
本発明による実施の形態の実施例を以下に示す。図16は、本発明の実施の形態における情報分析システムの構成例、および情報分析システムに接続される装置の例を示すブロック図である。
当該情報分析システムは、情報分析装置100によって実現され、情報分析装置100は、通信ネットワーク200を介して文書蓄積装置300に接続されている。情報分析装置100は、CPU102と、情報分析システムのプログラム105を記憶するメインメモリ101と、情報分析のためのオントロジーや該オントロジーから生成される各種の辞書、および情報の抽出・分類結果情報をそれぞれ記憶するデータ記憶装置103と、通信ネットワーク200を介して情報分析装置100の外部との通信を行なうための通信装置104と、情報分析システムの実行指示やオントロジーの登録または編集操作を行なうための入力装置106と、オントロジーや情報の抽出・分類結果情報を情報分析システムの利用者が参照するための出力装置107とを少なくとも備える。
情報分析システムの利用者は、入力装置106を用いてオントロジーの登録または編集を行ない、当該オントロジーはデータ記憶装置103に記憶される。その後、情報分析システムを実行すると、情報分析装置100のメインメモリ101に記憶されたプログラム105に従って、文書蓄積装置300に蓄積されている文書をCPU102が通信装置104を介して読み込み、データ記憶装置103に記憶されたキー文字列辞書や単語辞書、概念辞書、分類辞書などを用いて情報の抽出および分類を行ない、その抽出・分類結果情報をデータ記憶装置103に記憶させると共に、出力装置107に出力する。
なお、図16の実施例では情報分析装置100が通信ネットワーク200を介して文書蓄積装置300と接続されているが、本発明はこのような形態に限らず、情報分析装置100と文書蓄積装置300が通信ネットワークを介さずにケーブルなどで直接接続されていたり、情報分析装置100に文書蓄積装置300が内蔵され、情報分析装置100内部のローカルバスで接続されていてもよい。また、オントロジーは必ずしも情報分析装置100内のデータ記憶装置103に記憶されている必要は無く、別途作成されたオントロジーが他の装置内、例えば文書蓄積装置300内に格納されていても良い。その場合は、情報分析装置100が文書蓄積装置300内に格納されたオントロジーを参照して前記各種の辞書を生成し、データ記憶装置103に該辞書群を記憶するという手順を採ることで本発明による実施の形態に基づく情報分析システムを機能させることができる。
本発明は、大規模なWebサーバや共有ファイルサーバのどこに個人情報や組織内の機密情報があるかを確認する情報セキュリティ監査ツールや、確認された個人情報や機密情報をさらに分類し、各種類の情報が組織外部に漏洩したり改竄または消失した際の被害規模を想定することによりリスク分析を行なう情報セキュリティ管理支援システムに適用できる。また、分類された情報を組織の資産としてそれぞれ適切な保管場所に再配置するなど、資産管理システムへの適用も可能である。
本発明による実施の形態を示した情報分析知識管理装置の構成を表すブロック図である。 本発明による他の実施の形態を示した情報分析知識管理装置の構成を表すブロック図である。 本発明によるオントロジーの構成例を示す図である。 本発明によるオントロジーの構成例を示す図である。 本発明による実施の形態を示した情報分析システムの構成を表すブロック図である。 本発明によるオントロジーの構成例を示す図である。 知識レイヤー表の例を示す図である。 本発明によるオントロジーの構成例を示す図である。 キー文字列辞書の記述例を示す図である。 単語辞書の記述例を示す図である。 概念辞書の記述例を示す図である。 分類辞書の記述例を示す図である。 抽出・分類結果情報の記述例を示す図である。 抽出・分類結果情報の記述例を示す図である。 辞書生成の基本な処理の流れを示したフロー図である。 情報分析装置のハードウェア構成図である。 値制約に関するパタンまたは集合の定義を示す図である。 従来技術による情報分析システムの構成を表すブロック図である。 従来技術によるオントロジーの構造例を示す図である。
符号の説明
1…オントロジー格納手段
2…登録編集手段
3…キー文字列辞書生成手段
4…キー文字列辞書
5…キー文字列検出手段
6…単語辞書生成手段
7…単語辞書
8…単語抽出手段
9…概念辞書生成手段
10…概念辞書
11…概念抽出手段
12…分類辞書生成手段
13…分類辞書
14…分類手段
15…入力文書
16…抽出・分類結果情報
17…抽出情報
20…辞書生成手段
100…情報分析装置
101…メインメモリ
102…CPU
103…データ記憶装置
104…通信装置
105…プログラム
106…入力装置
107…出力装置
200…通信ネットワーク
300…文書蓄積装置

Claims (14)

  1. 少なくとも三階層以上の階層構造を持つオントロジーを格納するオントロジー格納手段と、
    オントロジーを該オントロジー格納手段へ登録または編集する登録編集手段と、
    該オントロジーの最上位階層を含む第一の範囲の階層部分から情報抽出または情報分類に用いる第一の辞書を生成し、該オントロジーの第一の範囲の階層部分と少なくとも一階層を共有する第二の範囲の階層部分から情報抽出または情報分類に用いる第二の辞書をさらに生成する辞書生成手段と、
    該第一の辞書を格納する第一の辞書格納手段と、
    該第二の辞書を格納する第二の辞書格納手段と、
    を備えたことを特徴とする情報分析知識管理装置。
  2. 少なくとも三階層以上の階層構造を持つオントロジーを格納するオントロジー格納手段と、
    オントロジーを該オントロジー格納手段へ登録または編集する登録編集手段と、
    該オントロジーの最上位階層を含む第一の範囲の階層部分から情報抽出または情報分類に用いる第一の辞書を生成する第一の辞書生成手段と、
    該第一の辞書を格納する第一の辞書格納手段と、
    該オントロジーの第一の範囲の階層部分と少なくとも一階層を共有する第二の範囲の階層部分から情報抽出または情報分類に用いる第二の辞書を生成する第二の辞書生成手段と、
    該第二の辞書を格納する第二の辞書格納手段と、
    を備えたことを特徴とする情報分析知識管理装置。
  3. 前記第一の辞書が、テキスト情報を含む文書から特定の概念に相当する情報を抽出するための概念辞書であることを特徴とする請求項1または2に記載の情報分析知識管理装置。
  4. 前記第二の辞書が、前記第一の辞書を用いて抽出された情報を1つ以上のカテゴリーに分類するための分類辞書であることを特徴とする請求項1、2または3に記載の情報分析知識管理装置。
  5. 前記オントロジーのどの部分がどの種類の知識に相当するかを階層単位で指定する階層範囲指定手段をさらに備えたことを特徴とする請求項1乃至4の何れか1項に記載の情報分析知識管理装置。
  6. 階層構造を持つオントロジーにおいて、
    概念の名称の集合からなる階層と、該概念それぞれを分類するカテゴリーの名称の集合からなる階層とで構成される二階層以上の分類知識と、
    概念またはカテゴリーの名称の集合からなる階層と、該概念またはカテゴリーそれぞれを構成する要素となる下位概念の名称の集合からなる階層とで構成される二階層以上の概念知識とを含み、
    少なくとも該分類知識の最下位階層と該概念知識の最上位階層は共通の階層であることを特徴とするデータ構造。
  7. 階層構造を持つオントロジーにおいて、
    概念またはカテゴリーの名称の集合からなる階層と、該概念またはカテゴリーそれぞれを構成する要素となる下位概念の名称の集合からなる階層とで構成される二階層以上の概念知識と、
    入力データから該オントロジーを用いて抽出すべき概念の名称の集合からなる階層と、該データに含まれる値のうち該抽出すべき概念に相当する部分が満たすべき制約からなる階層とで構成される二階層以上の値制約知識とを含み、
    少なくとも該概念知識の最下位階層と該値制約知識の最上位階層は共通の階層であることを特徴とするデータ構造。
  8. 前記概念知識が、特定の専門領域に依存した概念に関する知識を記述した領域概念知識に相当する階層群と、特定の専門領域に依存しない汎用的な概念に関する知識を記述した一般概念知識に相当する階層群とでさらに構成されることを特徴とする請求項6または7に記載のデータ構造。
  9. ある階層に属する要素とその下位の階層に属する要素との親子間の関係を表す属性として、親がその子を必須の要素とすることを表す第一の属性と、親がその子のうち少なくとも1つ以上を要素として必要とすることを表す第二の属性とを少なくとも有することを特徴とする請求項6または7に記載のデータ構造。
  10. 少なくとも三階層以上の階層構造を持つオントロジーの最上位階層を含む第一の範囲の階層部分から、特定の概念に相当する情報を文書中から抽出するための概念辞書を生成し、前記オントロジーの第一の範囲の階層部分と少なくとも一階層を共有する第二の範囲の階層部分から、情報を1つ以上のカテゴリーに分類するための分類辞書を生成する辞書生成手段と、
    前記第一の辞書を参照して、入力文書から特定の概念に相当する情報を抽出する概念抽出手段と、
    前記第二の辞書を参照して、前記第一の辞書を用いて抽出された情報を1つ以上のカテゴリーに分類する分類手段と、
    を備えたことを特徴とする情報分析装置。
  11. 前記オントロジーは、親子間の関係を表す属性として、親がその子を必須の要素とすることを表す第一の属性と、親がその子のうち少なくとも1つ以上を要素として必要とすることを表す第二の属性とを少なくとも有し、
    前記辞書生成手段により作成される前記概念辞書には、ある概念が抽出される制約条件として前記親子間の関係を表す属性が設定され、
    前記概念抽出手段は、前記概念辞書中の前記第一および第二の属性による制約条件を満足する概念を入力文書から抽出することを特徴とする請求項10記載の情報分析装置。
  12. コンピュータを用いて辞書を生成する方法であって、
    前記コンピュータが、オントロジーのどの部分がどの種類の知識に相当するかを階層単位で指定する階層範囲指定表を参照し、作成対象となる辞書に必要なオントロジーの階層範囲を決定する第1のステップと、
    前記コンピュータが、少なくとも三階層以上の階層構造を持ち、かつ、親子間の関係を表す属性として、親がその子を必須の要素とすることを表す第一の属性と、親がその子のうち少なくとも1つ以上を要素として必要とすることを表す第二の属性とを少なくとも有するオントロジーから、前記決定した階層範囲の内容を読み出す第2のステップと、
    前記コンピュータが、前記読み出した内容に基づいて、ある概念が抽出される制約条件として前記親子間の関係を表す属性を設定した辞書を生成する第3のステップと、
    を含むことを特徴とする辞書生成方法。
  13. 少なくとも三階層以上の階層構造を持つオントロジーを格納するオントロジー格納手段と、第一の辞書を格納する第一の辞書格納手段と、第二の辞書を格納する第二の辞書格納手段とを備えたコンピュータを、
    オントロジーを前記オントロジー格納手段へ登録または編集する登録編集手段と、
    前記オントロジーの最上位階層を含む第一の範囲の階層部分から情報抽出または情報分類に用いる第一の辞書を生成し、前記オントロジーの第一の範囲の階層部分と少なくとも一階層を共有する第二の範囲の階層部分から情報抽出または情報分類に用いる第二の辞書をさらに生成する辞書生成手段と、
    して機能させるためのプログラム。
  14. コンピュータに、
    オントロジーのどの部分がどの種類の知識に相当するかを階層単位で指定する階層範囲指定表を参照し、作成対象となる辞書に必要なオントロジーの階層範囲を決定する第1の処理と、
    少なくとも三階層以上の階層構造を持ち、かつ、親子間の関係を表す属性として、親がその子を必須の要素とすることを表す第一の属性と、親がその子のうち少なくとも1つ以上を要素として必要とすることを表す第二の属性とを少なくとも有するオントロジーから、前記決定した階層範囲の内容を読み出す第2の処理と、
    前記コンピュータが、前記読み出した内容に基づいて、ある概念が抽出される制約条件として前記親子間の関係を表す属性を設定した辞書を生成する第3の処理と、
    を行わせるためのプログラム。
JP2006015823A 2006-01-25 2006-01-25 情報分析知識管理装置、データ構造、情報分析装置、辞書生成方法およびプログラム Expired - Fee Related JP4904828B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006015823A JP4904828B2 (ja) 2006-01-25 2006-01-25 情報分析知識管理装置、データ構造、情報分析装置、辞書生成方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006015823A JP4904828B2 (ja) 2006-01-25 2006-01-25 情報分析知識管理装置、データ構造、情報分析装置、辞書生成方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2007199885A true JP2007199885A (ja) 2007-08-09
JP4904828B2 JP4904828B2 (ja) 2012-03-28

Family

ID=38454469

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006015823A Expired - Fee Related JP4904828B2 (ja) 2006-01-25 2006-01-25 情報分析知識管理装置、データ構造、情報分析装置、辞書生成方法およびプログラム

Country Status (1)

Country Link
JP (1) JP4904828B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013002436A1 (ko) * 2011-06-27 2013-01-03 한국과학기술정보연구원 온톨로지 기반의 문서 분류 방법 및 장치
US11531703B2 (en) * 2019-06-28 2022-12-20 Capital One Services, Llc Determining data categorizations based on an ontology and a machine-learning model

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1196177A (ja) * 1997-09-22 1999-04-09 Nippon Telegr & Teleph Corp <Ntt> 用語辞書生成方法および用語辞書生成プログラムを記録した記録媒体
JP2000207407A (ja) * 1999-01-13 2000-07-28 Nippon Telegr & Teleph Corp <Ntt> 情報抽出方法及び装置及び情報抽出プログラムを格納した記憶媒体
JP2001092827A (ja) * 1999-09-20 2001-04-06 Toshiba Corp データ管理装置および方法
JP2006011739A (ja) * 2004-06-24 2006-01-12 Internatl Business Mach Corp <Ibm> オントロジを利用する装置、コンピュータシステムおよびデータ処理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1196177A (ja) * 1997-09-22 1999-04-09 Nippon Telegr & Teleph Corp <Ntt> 用語辞書生成方法および用語辞書生成プログラムを記録した記録媒体
JP2000207407A (ja) * 1999-01-13 2000-07-28 Nippon Telegr & Teleph Corp <Ntt> 情報抽出方法及び装置及び情報抽出プログラムを格納した記憶媒体
JP2001092827A (ja) * 1999-09-20 2001-04-06 Toshiba Corp データ管理装置および方法
JP2006011739A (ja) * 2004-06-24 2006-01-12 Internatl Business Mach Corp <Ibm> オントロジを利用する装置、コンピュータシステムおよびデータ処理方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013002436A1 (ko) * 2011-06-27 2013-01-03 한국과학기술정보연구원 온톨로지 기반의 문서 분류 방법 및 장치
US11531703B2 (en) * 2019-06-28 2022-12-20 Capital One Services, Llc Determining data categorizations based on an ontology and a machine-learning model
US12056188B2 (en) 2019-06-28 2024-08-06 Capital One Services, Llc Determining data categorizations based on an ontology and a machine-learning model

Also Published As

Publication number Publication date
JP4904828B2 (ja) 2012-03-28

Similar Documents

Publication Publication Date Title
JP7201299B2 (ja) コグニティブな文書イメージのデジタル化のための方法、コンピュータ・プログラム及びシステム
JP7289047B2 (ja) ブロックに基づく文書メタデータの抽出のための方法、コンピュータ・プログラム及びシステム
Haentjens Dekker et al. Computer-supported collation of modern manuscripts: CollateX and the Beckett Digital Manuscript Project
US7114123B2 (en) User controllable data grouping in structural document translation
US6502112B1 (en) Method in a computing system for comparing XMI-based XML documents for identical contents
JP4657432B2 (ja) 階層構造の構造化文書を変換する装置
JP3842577B2 (ja) 構造化文書検索方法および構造化文書検索装置およびプログラム
Laclavík et al. Email analysis and information extraction for enterprise benefit
KR20060070416A (ko) 워크북을 나타내기 위한 파일 포맷, 방법, 및 컴퓨터프로그램 제품
El Abdouli et al. Sentiment analysis of moroccan tweets using naive bayes algorithm
CN115358200A (zh) 一种基于SysML元模型的模板化文档自动生成方法
JPH11328218A (ja) コンテンツ属性情報正規化方法、情報収集・サービス提供システム、属性情報設定装置並びにプログラム格納記録媒体
CN112597410A (zh) 基于规则配置库对网页内容执行结构化提取的方法及装置
CN114462384A (zh) 一种面向数字对象建模的元数据自动生成装置
JP2010108208A (ja) 文書処理装置
JP2006350729A (ja) アプリケーションソフトウェア構築方法、アプリケーションソフトウェア構築処理プログラム及びアプリケーションソフトウェア構築装置
JP4904828B2 (ja) 情報分析知識管理装置、データ構造、情報分析装置、辞書生成方法およびプログラム
JP2008027431A (ja) 情報解析装置、情報解析方法、及び情報解析プログラム
JP2013218627A (ja) 構造化文書からの情報抽出方法、装置、及びプログラム
JP3842576B2 (ja) 構造化文書編集方法及び構造化文書編集システム
US8719693B2 (en) Method for storing localized XML document values
JP4937709B2 (ja) 構造化文書生成方法及び装置及びプログラム
JP2021101375A (ja) 辞書構築装置、辞書の生産方法、およびプログラム
JP5534523B2 (ja) 情報処理装置
Vlahovic Web 2.0 and its Impact on Information Extraction Practices

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081212

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20090805

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20090805

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110301

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110425

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111213

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111226

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150120

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4904828

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees