JP5430989B2 - オントロジー生成装置、及び方法 - Google Patents

オントロジー生成装置、及び方法 Download PDF

Info

Publication number
JP5430989B2
JP5430989B2 JP2009070959A JP2009070959A JP5430989B2 JP 5430989 B2 JP5430989 B2 JP 5430989B2 JP 2009070959 A JP2009070959 A JP 2009070959A JP 2009070959 A JP2009070959 A JP 2009070959A JP 5430989 B2 JP5430989 B2 JP 5430989B2
Authority
JP
Japan
Prior art keywords
concept
pattern
information storage
storage unit
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009070959A
Other languages
English (en)
Other versions
JP2010224833A (ja
Inventor
伸一 長野
真純 稲葉
祐美子 下郡
貴之 飯田
正典 服部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2009070959A priority Critical patent/JP5430989B2/ja
Publication of JP2010224833A publication Critical patent/JP2010224833A/ja
Application granted granted Critical
Publication of JP5430989B2 publication Critical patent/JP5430989B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、オントロジー生成装置、及び方法に関する。
従来から、情報処理装置などに用いられるオントロジー技術が知られている。「オントロジー」とは、辞書の一種で、言葉の持つ概念を体系的に整理したものである。オントロジーでは、概念の位置関係が概念間の相対的な意味を表現しており、この意味情報を利用することにより、高度な知識処理を行うことが可能となってきている。
そして、近年では、大量の文書データから概念および概念間の関係を抽出してオントロジーを構築する技術への取り組みが行われている。
このような技術として、文書データに対して自然言語処理技術を適用し、品詞情報、構文情報、又は意味情報など(例えば、文字列パターンや構文木パターン)を用いて概念と関係を抽出し、オントロジーを構築する手法がある。また、文書データに対して自然言語処理技術を適用して得られた特徴語や文の言語情報(品詞情報、構文情報、意味情報など)を素性として、正しい関係にある概念の組を抽出し、オントロジーを構築する手法がある(非特許文献1、2参照)。
Patrick Pantel,Marco Pennacchiotti,「Espresso:Leveraging Generic Patterns for Automatically Harvesting Semantic Relations」,In Proceedings of Conference on Computational Linguistics/Association for Computational Linguistics(Coling/ACL−06),pp.113−120,2006 Fabian M.Suchanek,Georgiana Ifrim,Gerhard Weikum,「LEILA:Learning to Extract Information by Linguistic Analysis」,In Proceedings of the 2nd Workshop on Ontology Learning and Population,pp.18−25, 2006
しかしながら、上述したような従来技術では、抽出した概念の組の中に、概念間の関係は正しいものの互いの概念を相互に参照してしまうなど矛盾が生じている概念の組が含まれる可能性がある。そして、このような矛盾が生じていることをユーザが判別できない可能性がある。
本発明は、上記事情に鑑みてなされたものであり、生成されたオントロジーを構成する概念間の矛盾をユーザが容易に判別することができるオントロジー生成装置、及び方法を提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明の一態様にかかるオントロジー生成装置は、文書データを取得する取得部と、語彙の概念の組である概念ペアを記憶する概念情報記憶部と、前記文書データから、前記概念ペアが共起する文の文字列のうち、前記概念ペアの概念を表す語彙それぞれを変数に置き換えた第1及び第2文字列と他の文字列との依存関係を示すパターンを抽出する第1抽出部と、抽出された前記パターンを記憶するパターン情報記憶部と、前記パターン情報記憶部に記憶されている前記パターンを用いて、前記文書データから新たな概念ペアを抽出し、前記概念情報記憶部に記憶させる第2抽出部と、前記概念情報記憶部に記憶されている複数の前記概念ペアを用いて、概念間の関係を整理したオントロジーを生成する生成部と、前記オントロジーを構成する概念間の矛盾の有無を判定する判定部と、前記オントロジーとともに判定結果を出力する出力部と、を備えることを特徴とする。
また、本発明の別の態様にかかるオントロジー生成方法は、取得部が、文書データを取得する取得ステップと、第1抽出部が、前記文書データから、語彙の概念の組である概念ペアを記憶する概念情報記憶部に記憶されている前記概念ペアが共起する文の文字列のうち、前記概念ペアの概念を表す語彙それぞれを変数に置き換えた第1及び第2文字列と他の文字列との依存関係を示すパターンを抽出して、パターン情報記憶部に記憶させる第1抽出ステップと、第2抽出部が、前記パターン情報記憶部に記憶されている前記パターンを用いて、前記文書データから新たな概念ペアを抽出し、前記概念情報記憶部に記憶させる第2抽出ステップと、生成部が、前記概念情報記憶部に記憶されている複数の前記概念ペアを用いて、概念間の関係を整理したオントロジーを生成する生成ステップと、判定部が、前記オントロジーを構成する概念間の矛盾の有無を判定する判定ステップと、出力部が、前記オントロジーとともに判定結果を出力部に出力させる出力制御ステップと、を含むことを特徴とする。
本発明によれば、生成されたオントロジーを構成する概念間の矛盾をユーザが容易に判別することができるという効果を奏する。
図1は、オントロジーの一例を示す図である。 図2は、本実施の形態のオントロジー生成装置の構成の一例を示すブロック図である。 図3は、本実施の形態の抽出概念情報記憶部に記憶されている概念情報の一例を示す図である。 図4は、本実施の形態のユーザ概念情報記憶部に記憶されている概念情報の一例を示す図である。 図5は、本実施の形態の抽出パターン情報記憶部に記憶されているパターン情報の一例を示す図である。 図6は、本実施の形態のユーザパターン情報記憶部に記憶されているパターン情報の一例を示す図である。 図7は、本実施の形態の構文木情報の一例を示す図である。 図8は、本実施の形態の構文木パターンの一例を示す図である。 図9は、新たなパターン情報が本実施の形態の抽出パターン情報記憶部に記憶された状態の一例を示す図である。 図10は、本実施の形態の構文木パターンの一例を示す図である。 図11は、本実施の形態の構文木パターンを有する文の構文木情報の一例を示す図である。 図12は、新たな概念情報が本実施の形態の抽出概念情報記憶部に記憶された状態の一例を示す図である。 図13は、本実施の形態のオントロジーの一例を示す図である。 図14は、本実施の形態のオントロジーの出力態様の一例を示す図である。 図15は、矛盾判定結果が本実施の形態の抽出概念情報記憶部に記憶された状態の一例を示す図である。 図16は、矛盾判定結果が本実施の形態のユーザ概念情報記憶部に記憶された状態の一例を示す図である。 図17は、本実施の形態のオントロジー生成装置で行われる処理の手順の流れの一例を示すフローチャートである。 図18は、本実施の形態のパターン情報抽出処理の手順の流れの一例を示すフローチャートである。 図19は、構文木パターンの機械学習に用いるベクトルの一例を示す図である。 図20は、概念ペアと、概念ペアが共起する文の一例を示す図である。 図21は、構文木パターンの機械学習に用いるベクトルの一例を示す図である。 図22は、本実施の形態の分類器の概念の一例を示す図である。 図23は、本実施の形態の分類器の一例を示す図である。 図24は、本実施の形態の概念情報抽出処理の手順の流れの一例を示すフローチャートである。 図25は、概念ペアの相関性を検定する例を示す図である。 図26は、本実施の形態のオントロジー生成処理の手順の流れの一例を示すフローチャートである。 図27は、本実施の形態の矛盾判定処理の手順の流れの一例を示すフローチャートである。 図28は、本実施の形態の登録処理の手順の流れの一例を示すフローチャートである。 図29は、本実施の形態の比較処理の手順の流れの一例を示すフローチャートである。
以下、添付図面を参照しながら、本発明にかかるオントロジー生成装置、及び方法の最良な実施の形態を詳細に説明する。
まず、オントロジーの概要について説明する。
「オントロジー」は、言葉の概念を体系的に整理したものである。「概念」には、主としてクラスとインスタンスの2種類が利用されるが、これに限定されるものではない。なお、「クラス」は、概念の分類名を示し、「インスタンス」は、概念の実例を示す。
また、オントロジーでは、オントロジー上に配置された概念の位置関係が概念間の相対的な意味を表現しており、一般的に、概念の関係には、上位下位関係(is−a関係)、全体部分関係(part−of関係)、及びインスタンス関係(instance−of関係)などのいずれかが含まれる。
図1は、オントロジーの一例を示す図である。図1に示す例では、オントロジーは、7つのクラスと3つのインスタンスから構成されており、クラスは、自動車の車種分類を示し,インスタンスは自動車の年式を示している。また、図1に示す例では、クラス間の関係は上位下位関係であり、クラス及びインスタンス間の関係はインスタンス関係となっている。
なお、オントロジーの表現には、例えばオントロジー記述言語であるOWLなどを用いることができるが、これに限定されるものではない。
次に、本実施の形態のオントロジー生成装置の構成について説明する。
図2は、本実施の形態のオントロジー生成装置1の構成の一例を示すブロック図である。図2に示すように、オントロジー生成装置1は、入力部10と、出力部20と、記憶部30と、受付部40と、取得部45と、パターン抽出部50と、概念抽出部55と、生成部60と、判定部65と、出力制御部70と、登録部75と、比較部80とを備える。
入力部10は、文書の取得を指示する取得操作などの各種操作の入力を行うものであり、例えば、キーボード、マウス、又はタッチパネルなどの既存の入力装置により実現できる。
出力部20は、後述する出力制御部70の指示により、後述する生成部60により生成されたオントロジーや、後述する判定部65の判定結果などを出力するものであり、例えば、CRTディスプレイ、液晶ディスプレイ、プラズマディスプレイ、有機ELディスプレイ、又はタッチパネル式ディスプレイなどの既存の表示装置により実現できる。なお出力部20を、プリンタなどの既存の印刷装置により実現してもよいし、これらを併用して実現するようにしてもよい。
記憶部30は、オントロジー生成装置1で行われる各種処理に使用される情報を記憶するものであり、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、メモリカード、光ディスク、又はRAM(Random Access Memory)などの磁気的、電気的、又は光学的に記憶可能な既存の記憶媒体により実現できる。そして記憶部30は、概念情報記憶部31と、パターン情報記憶部36とを含む。
概念情報記憶部31は、概念の組である概念ペアなどを含む概念情報を記憶するものであり、後述の概念抽出部55により抽出された概念ペアなどを含む概念情報を記憶する抽出概念情報記憶部32と、ユーザにより登録される概念情報を記憶するユーザ概念情報記憶部33とを含む。
図3は、抽出概念情報記憶部32に記憶されている概念情報の一例を示す図であり、図4は、ユーザ概念情報記憶部33に記憶されている概念情報の一例を示す図である。図3及び図4に示す例では、概念情報は、概念ペア(概念1及び概念2)と、関係と、ラベル(第1ラベルの一例)と、矛盾とを含む情報となっている。「概念ペア」は、オントロジーの構成要素である概念を表す語彙のペアを示す情報である。「関係」は、概念ペア間の関係性を示す情報である。「ラベル」は、概念ペア間の関係が正しいか否かを示す情報であり、正しい関係であれば「正例」、正しくない関係であれば「負例」となる。「矛盾」は、概念ペア間に相互参照や巡回参照などの矛盾が生じるか否かを示す情報であり、矛盾があれば「あり」、矛盾がなければ「なし」となる。
パターン情報記憶部36は、文字列の依存関係を示す構文木パターンなどを含むパターン情報を記憶するものであり、後述のパターン抽出部50により抽出された構文木パターンなどを含むパターン情報を記憶する抽出パターン情報記憶部37と、ユーザにより登録されるパターン情報を記憶するユーザパターン情報記憶部38とを含む。
図5は、抽出パターン情報記憶部37に記憶されているパターン情報の一例を示す図であり、図6は、ユーザパターン情報記憶部38に記憶されているパターン情報の一例を示す図である。図5及び図6に示す例では、パターン情報は、構文木パターンと、関係と、ラベル(第2ラベルの一例)とを含む情報となっている。「構文木パターン」は、文字列の係り受け関係を示す情報である。「関係」は、構文木パターンによって抽出される概念ペア間の関係性を示す情報である。「ラベル」は、概念ペアの抽出に有効か否かを示す情報であり、有効であれば「正例」、有効でなければ「負例」となる。
受付部40は、入力部10により入力された各種操作の入力を受け付ける。具体的には、受付部40は、取得操作、ユーザ概念情報記憶部33に対する概念情報の登録操作、ユーザパターン情報記憶部38に対するパターン情報の登録操作、抽出概念情報記憶部32及びユーザ概念情報記憶部33間での概念情報の比較操作、又は抽出パターン情報記憶部37及びユーザパターン情報記憶部38間でのパターン情報の比較操作などを受け付ける。
取得部45は、文書データを取得する。具体的には、取得部45は、受付部40により取得操作が受け付けられると、文書データを取得する。なお、記憶部30に文書データを格納しておき、取得部45が記憶部30から文書データを取得するようにしてもよいし、例えばサーバなどの図示せぬ外部装置に格納された文書データを取得するようにしてもよい。
なお、取得部45が取得する文書データは、特定ドメインについて書かれた文書データの集合であり、例えば、特許文書、技術文書、営業文書、業務文書などが挙げられる。また、取得部45が取得する文書データの形式は限定されず、構造化文書、半構造化文書、非構造化文書のいずれであってもよい。
パターン抽出部50(第1抽出部の一例)は、取得部45により取得された文書データから、概念情報記憶部31に記憶されている概念ペアが共起する文の文字列のうち、前記概念ペアの概念を表す語彙それぞれを変数に置き換えた第1及び第2文字列と他の文字列との依存関係を示すパターンを抽出する。
具体的には、パターン抽出部50は、抽出概念情報記憶部32又はユーザ概念情報記憶部33から概念情報を読み出し、読み出した概念情報の概念ペアが共起する文書データを検索する。そして、パターン抽出部50は、検索された文書データを構文解析し、概念ペアが共起する文を構文木情報として抽出する。
図7は、パターン抽出部50により、図4に示す概念情報113を用いて抽出された構文木情報の一例を示す図である。図7に示す構文木情報は、文字列121〜125から構成される文を構文解析して生成された構文木情報であり、文字列121〜125が構文木となっている。そして、図7に示す構文木情報は、構文木である文字列121〜125それぞれの係り受け関係を示している。
そして、パターン抽出部50は、抽出した構文木情報から不要な文字列を削除し、概念情報に対応する文字列を変数に置き換えた構文木パターンを、関係やラベルとともに抽出概念情報記憶部32に記憶させる。
なお、不要な文字列の削除として、パターン抽出部50は、概念情報に対応する文字列が出現する最短パス、及び当該文字列が直結する文字列以外の文字列を削除する。また、抽出概念情報記憶部32に記憶される関係は、構文木パターンの抽出に用いた概念ペアの関係が示す情報であり、抽出概念情報記憶部32に記憶されるラベルについては後述する。
図8は、図7に示す構文木情報の構文木パターンの一例を示す図である。図に示す例では、図7に示す構文木情報から文字列121が削除され、概念情報113の概念ペアに対応する文字列122、124が、それぞれ変数を含む文字列132、134に置き換えられている。
図9は、図8に示す構文木パターンを含むパターン情報が、抽出パターン情報記憶部37に新たに記憶された状態の一例を示す図である。図9に示す例では、文字列132、123、134、及び125から構成される構文木パターンが、関係やラベルとともにパターン情報141として抽出パターン情報記憶部37に記憶されている。なお、図8に示す構文木パターンの抽出に用いた概念情報は、図4に示す概念情報113であるため、パターン情報141の関係は、「車種」となっている。
概念抽出部55(第2抽出部の一例)は、パターン情報記憶部36に記憶されている構文木パターンを用いて、文書データから新たな概念ペアを抽出し、概念情報記憶部31に記憶させる。
具体的には、概念抽出部55は、抽出パターン情報記憶部37又はユーザパターン情報記憶部38からパターン情報を読み出し、読み出したパターン情報の構文木パターンを有する文を、取得部45により取得された文書データから抽出する。
図10は、図6に示すパターン情報117の構文木パターンの一例を示す図である。図10に示す構文木パターンは、文字列153〜155から構成されている。
図11は、図10に示す構文木パターンを有する文の構文木情報の一例を示す図である。図11に示す構文木情報は、文字列161〜165から構成される文の構文木情報であり、文字列163〜165が、それぞれ図10に示す構文木パターンの文字列153〜155に対応している。従って、図11に示す文字列161〜165から構成される文は、概念抽出部55により抽出される。
そして、概念抽出部55は、抽出した文の構文木パターンのうち、変数部分を含む語彙の相関性を検定し、相関性がある場合には、構文木パターンの変数部分に対応する文字列を概念ペアとして抽出し、関係やラベルとともに抽出概念情報記憶部32に記憶させる。
図12は、図11に示す文から抽出された概念ペアを含む概念情報が、新たに抽出概念情報記憶部32に記憶された状態の一例を示す図である。図12に示す例では、図11に示す文字列163及び文字列164に含まれる文字のペアである概念ペアが、関係、ラベル、及び矛盾とともに概念情報171として抽出概念情報記憶部32に記憶されている。なお、概念ペアの抽出に用いたパターン情報は、図6に示すパターン情報117であるため、概念情報171の関係は、「車種」となっている。ラベル、及び矛盾については後述する。
生成部60は、概念情報記憶部31に記憶されている複数の概念ペアを用いてオントロジーを生成する。具体的には、生成部60は、抽出概念情報記憶部32又はユーザ概念情報記憶部33から概念情報を読み出し、読み出した概念情報の概念ペアのそれぞれの名称を付与したノードとともに、各ノード間のリンクを作成する。
図13は、図4に示す概念情報113、114及び、図12に示す概念情報111の概念ペアを用いて生成されたオントロジーの一例を示す図である。図13に示すオントロジーは、ノード181〜183により構成されるオントロジーであり、ノード181及びノード182間ではリンクが巡回している。
判定部65は、生成部60により生成されたオントロジーを構成する概念間の矛盾の有無を判定する。具体的には、判定部65は、生成部60により生成されたオントロジーを構成する概念間に巡回が生じる場合に、当該概念間に矛盾があると判定する。そして、判定部65は、判定結果である矛盾の有無をオントロジーの生成に用いられた概念ペアに対応付けて抽出概念情報記憶部32又はユーザ概念情報記憶部33に記憶させる。
図13に示す例では、ノード181及びノード182間ではリンクが巡回しているため、判定部65は、図14に示すようにノード181及びノード182の生成元の概念ペアに矛盾があると判定する。
図15は、図14に示すオントロジーの矛盾判定により、矛盾の有無が抽出概念情報記憶部32に記憶された状態の一例を示す図であり、図16は、図14に示すオントロジーの矛盾判定により、矛盾の有無がユーザ概念情報記憶部33に記憶された状態の一例を示す図である。
図13に示すオントロジーでは、ノード181及びノード182の生成元の概念ペアに矛盾があると判定されるため、図15に示す抽出概念情報記憶部32の概念情報111、及び図16に示すユーザ概念情報記憶部33の概念情報114には、矛盾ありが設定される。
出力制御部70は、生成部60により生成されたオントロジーとともに判定部65の判定結果を出力部20に出力させる。例えば、出力制御部70は、図14に示すように、矛盾が生じる部分を出力部20に強調表示させる。また出力制御部70は、後述の比較部80の比較結果を出力部20に出力させる。
登録部75は、受付部40により登録操作が受け付けられると、受け付けられた概念ペアをユーザ概念情報記憶部33に登録したり、受け付けられた構文木パターンをユーザパターン情報記憶部38に登録する。
比較部80は、受付部40により比較操作が受け付けられると、抽出概念情報記憶部32及びユーザ概念情報記憶部33の双方に記憶された同一の概念ペアに対するラベルの比較や、抽出パターン情報記憶部37及びユーザパターン情報記憶部38の双方に記憶された同一の構文木パターンに対するラベルの比較を行う。
次に、本実施の形態のオントロジー生成装置の動作について説明する。
図17は、本実施の形態のオントロジー生成装置1で行われるオントロジー生成処理の手順の流れの一例を示すフローチャートである。
まず、取得部45は、受付部40に取得操作が受け付けられると、文書データ群を取得する(ステップS10)。
続いて、パターン抽出部50は、取得部45により取得された文書から、概念情報記憶部31に記憶されている概念情報の概念ペアが共起する文の構文木情報であって、前記概念ペアの概念それぞれを変数に置き換えた構文木と他の構文木との依存関係を示す構文木パターンを抽出して、パターン情報記憶部36に記憶させるパターン情報抽出処理を行う(ステップS20)。なお、パターン情報抽出処理の詳細は後述する。
続いて、概念抽出部55は、パターン情報記憶部36に記憶されている構文木パターンを用いて、取得部45により取得された文書データから新たな概念ペアを抽出し、概念情報記憶部31に記憶させる概念情報抽出処理を行う(ステップS30)。なお、概念情報抽出処理の詳細は後述する。
続いて、概念抽出部55により新たな概念ペアを含む概念情報が概念情報記憶部31に記憶され、概念情報記憶部31の概念情報数が増加した場合には(ステップS40でYes)、生成部60は、概念情報記憶部31に記憶されている概念情報の概念ペアを用いて、オントロジー生成処理を行う(ステップS50)。なお、オントロジー生成処理の詳細は後述する。
続いて、判定部65は、生成部60により生成されたオントロジーを構成する概念間の矛盾の有無を判定する矛盾判定処理を行う(ステップS60)。なお、矛盾判定処理の詳細は後述する。
続いて、出力制御部70は、生成部60により生成されたオントロジーとともに、判定部65の判定結果を出力部20に出力させる(ステップS70)。
図18は、図17のステップS20に示すパターン情報抽出処理の手順の流れの一例を示すフローチャートである。
まず、パターン抽出部50は、抽出概念情報記憶部32又はユーザ概念情報記憶部33から読み出す概念情報を選択する(ステップS202)。
この際、パターン抽出部50は、抽出概念情報記憶部32及びユーザ概念情報記憶部33に同一の概念ペアを有する概念情報が記憶され、両概念ペアのラベルが異なる場合には、ユーザ概念情報記憶部33に記憶された概念情報を選択する。
例えば、図3に示す抽出概念情報記憶部32に記憶された概念情報112と、図4に示すユーザ概念情報記憶部33に記憶された概念情報113とは、概念ペアが同一であり、ラベルが互いに異なるため、パターン抽出部50は、ユーザ概念情報記憶部33に記憶された概念情報113を選択する。
続いて、パターン抽出部50は、選択した概念情報を読み出し、読み出した概念情報の概念ペアが共起する文書データを、取得部45により取得された文書データの中から検索する(ステップS204)。
続いて、パターン抽出部50は、検索した文書データを構文解析し、概念ペアが共起する文を構文木情報として抽出する(ステップS206)。図7に示す例では、パターン抽出部50は、図4に示す概念情報113を用いて、文字列121〜125から構成される文を構文木情報として抽出している。
続いて、パターン抽出部50は、抽出した文の構文木情報から不要な文字列を削除し、概念情報に対応する文字列を変数に置き換えた構文木パターンを、新たに抽出概念情報記憶部32に格納する(ステップS208)。
図8に示す例では、パターン抽出部50は、図7に示す構文木情報から文字列121を削除し、概念情報113の概念ペアに対応する文字列122、124を、それぞれ変数を含む文字列132、134に置き換えている。
続いて、パターン抽出部50は、抽出した構文木情報を構成する文字列(部分木)、抽出に用いた概念ペア、及び概念ペアのラベルを素性として構文木パターンを機械学習することで、構文木パターンのラベルの付与に用いる分類器を生成する(ステップS210)。なお、機械学習の手法としては、例えばSVMなどが挙げられるが、これに限定されるものではない。
ここで、図19〜図23を参照しながら、分類器について説明する。
図19は、構文木パターンの機械学習に用いるベクトルの一例を示す図である。図19に示す例では、図7に示す構文木情報を構成する文字列121〜125、図8に示す構文木パターンの抽出に用いた図4に示す概念情報113の概念ペア、及び概念情報113の正例を示すラベルを素性としたベクトルを生成している。
具体的には、図19に示す例では、概念情報113の正例を示すラベル、文字列121〜125、概念情報113の概念ペア、文字列121〜125及び概念情報113の概念ペアの係り受け関係のそれぞれに対して、ベクトルを生成している。
図20は、概念ペアと、概念ペアが共起する文の一例を示す図である。図20に示す例では、概念ペア211〜215のそれぞれに文221〜225が共起する。
図21は、図20に示す概念ペア及び当該概念ペアが共起する文から生成したベクトル集合の一例を示す図である。なお、図21に示す例では、表227が表226の右列に続くものであり、表228が表227の右列に続くものである。
図22は、図21に示すベクトル集合を機械学習することで生成される分類器の概念の一例を示す図であり、図23は、図21に示すベクトル集合を機械学習することで生成される分類器の一例を示す図である。なお、図23に示す例では、表242が表241の右列に続くものであり、表243が表242の右列に続くものである。
図22に示す例では、ベクトル空間230上に、「正例」、「負例」のベクトルが存在しており、境界曲線233により負例のベクトル空間231と正例のベクトル空間232に分けられている。従って、ベクトル集合を図22に示す分類器に入力することにより、構文木パターンに付与するラベルが正例であるか負例であるかを決定することができる。
図18に戻り、パターン抽出部50は、抽出概念情報記憶部32及びユーザ概念情報記憶部33に記憶された全ての選択可能な概念情報を処理するまで、ステップS202〜ステップS210の処理を繰り返す(ステップS212でNo)。
そして、全ての選択可能な概念情報を処理した場合には(ステップS212でYes)、パターン抽出部50は、抽出した構文木パターンを選択して、分類器に入力する(ステップS214)。
続いて、パターン抽出部50は、分類器から、入力した構文木パターンに対応付ける分類ラベルを獲得し、構文木パターンに対応付けて抽出パターン情報記憶部37及びユーザパターン情報記憶部38に格納する(ステップS216)。例えば、図8に示す構文木パターンを図23に示す分類器に入力した場合、いずれの文字列(構文木)も正例となるため、図8に示す構文木パターンには正例のラベルが対応付けられる。
続いて、パターン抽出部50は、抽出した全ての構文木パターンを処理するまで、ステップS214〜ステップS216の処理を繰り返す(ステップS218でNo)。そして、抽出した全ての構文木パターンを処理した場合には(ステップS218でYes)、パターン抽出部50は、処理を終了する。
図24は、図17のステップS30に示す概念情報抽出処理の手順の流れの一例を示すフローチャートである。
まず、概念抽出部55は、抽出パターン情報記憶部37又はユーザパターン情報記憶部38から読み出すパターン情報を選択する(ステップS302)。
この際、概念抽出部55は、抽出パターン情報記憶部37及びユーザパターン情報記憶部38に同一の構文木パターンを有するパターン情報が記憶され、両構文木パターンのラベルが異なる場合には、ユーザパターン情報記憶部38に記憶されたパターン情報を選択する。
例えば、図5に示す抽出パターン情報記憶部37に記憶されたパターン情報116と、図4に示すユーザパターン情報記憶部38に記憶されたパターン情報117とは、構文木パターンが同一であり、ラベルが互いに異なるため、概念抽出部55は、ユーザパターン情報記憶部38に記憶されたパターン情報117を選択する。
続いて、概念抽出部55は、選択したパターン情報を読み出し、読み出したパターン情報の構文木パターンが正例であるか否かを確認する(ステップS304)。
続いて、概念抽出部55は、選択した構文木パターンが正例である場合(ステップS304でYes)には、取得部45により取得された文書データの中から、当該構文木パターンを有する文を抽出する(ステップS306)。図11に示す例では、概念抽出部55は、図10に示す構文木情報を有する文字列161〜165から構成される文を抽出する。なお、選択した構文木パターンが負例である場合(ステップS304でNo)には、概念抽出部55は、新たなパターン情報を選択する。
続いて、概念抽出部55は、構文木パターンの変数に相当する語彙のペアを概念情報として抽出する(ステップS308)。図11に示す例では、概念抽出部55は、文字列163及び文字列164に含まれる文字のペアを概念ペアとして抽出する。
続いて、概念抽出部55は、抽出した概念情報を統計的に検定する(ステップS310)。なお、概念情報の統計的検定には、例えば、カイ二乗検定などを用いることができるがこれに限定されるものではない。
図25は、図12の概念情報171の概念ペアの相関性をカイ二乗検定で検定した例を示す図である。図25に示す例では、文書データに対する概念情報171の概念ペアそれぞれの出現頻度及び共起頻度のカウント結果を示しており、概念ペアの双方が出現する場合が共起頻度を示している。
そして、概念ペアそれぞれの出現に関する独立性を判定することで、概念ペアそれぞれの相関性を統計的に判定できる。なお、独立性の判定には、統計解析でよく用いられる検定手法の1つであるカイ二乗検定を用いることができるが、これに限定されるものではない。ここで、帰無仮説として「概念ペアは互いに独立である」とし,対立仮説を「SUVと概念ペアは互いに独立ではない」と定める。
図25に示す例では、カイ二乗統計量は6.2071、p値は0.013となる。つまり、自由度1のカイ二乗分布において、カイ二乗統計量6.2071が起こる確率は0.0013となる。そして、p値が有意水準0.05よりも小さいため、帰無仮説は棄却され、概念ペアは互いに独立ではなく、統計的には相関性があるとみなされる。
このため、図25に示す例では、概念抽出部55は、概念ペアに対して正例のラベルを付与する。なお、カイ二乗検定の結果,互いに独立であると判定された場合は、概念抽出部55は、概念ペアに対して負例のラベルを付与する。
図24に戻り、概念抽出部55は、概念ペアに相関性がある場合には(ステップS312でYes)、概念ペアに正例を示すラベルを対応付けて抽出概念情報記憶部32又はユーザ概念情報記憶部33に格納する(ステップS314)。一方、概念抽出部55は、概念ペアに相関性がない場合には(ステップS312でNo)、概念ペアに負例を示すラベルを対応付けて抽出概念情報記憶部32又はユーザ概念情報記憶部33に格納する(ステップS316)。
続いて、概念抽出部55は、全ての選択可能なパターン情報を処理するまで、ステップS302〜ステップS316の処理を繰り返す(ステップS318でNo)。そして、全ての選択可能なパターン情報を処理した場合には(ステップS318でYes)、概念抽出部55は、処理を終了する。
図26は、図17のステップS50に示すオントロジー生成処理の手順の流れの一例を示すフローチャートである。
まず、生成部60は、抽出概念情報記憶部32又はユーザ概念情報記憶部33から概念情報を選択する(ステップS502)。
続いて、生成部60は、選択した概念情報の概念ペアが正例であるか否かを確認する(ステップS503)。
続いて、生成部60は、選択した概念ペアが正例である場合には(ステップS503でYes)、概念ペアのそれぞれの名称を付与したノードとともに、各ノード間のリンクを作成する(ステップS504)。図13に示す例では、生成部60は、ノード181〜183により構成されるオントロジーを生成している。
続いて、生成部60は、全ての概念情報を処理するまで、ステップS502〜ステップS504の処理を繰り返す(ステップS506でNo)。そして、全ての概念情報を処理した場合には(ステップS506でYes)、生成部60は、処理を終了する。
図27は、図17のステップS60に示す矛盾判定処理の手順の流れの一例を示すフローチャートである。
まず、判定部65は、生成部60により生成されたオントロジーからノードを選択する(ステップS602)。
続いて、判定部65は、選択したノードを開始点として、オントロジー上で深さ優先探索を行う(ステップS604)。
続いて、判定部65は、深さ優先探索の結果、訪問済みのノードにたどり着いたか否かを確認する(ステップS606)。
続いて、訪問済みのノードにたどり着いた場合には(ステップS606でYes)、判定部65は、深さ優先探索で訪問した全ての訪問済みのノードの生成元となった概念ペアに矛盾ありを対応付けて抽出概念情報記憶部32又はユーザ概念情報記憶部33に格納する(ステップS608)。なお、深さ優先探索中に訪問済みのノードにたどり着かなかった場合には(ステップS606でNo)、判定部65は、ステップS608の処理を行わない。図14に示す例では、ノード181及びノード182間ではリンクが巡回しているため、判定部65は、ノード181及びノード182の生成元の概念ペアに矛盾があると判定する。
続いて、判定部65は、全てのノードを処理するまで、ステップS602〜ステップS608の処理を繰り返す(ステップS610でNo)。そして、全てのノードを処理した場合には(ステップS610でYes)、判定部65は、処理を終了する。
図28は、本実施の形態のオントロジー生成装置1で行われるユーザ概念情報記憶部33への概念情報の登録処理の手順の流れの一例を示すフローチャートである。なお、図28に示す例では、概念情報の登録処理について説明するが、パターン情報についても同様の手法で登録することができる。
まず、受付部40は、入力部10から概念情報の登録操作の入力を受け付ける(ステップS802)。
続いて、登録部75は、受け付けた概念情報をユーザ概念情報記憶部33へ登録(格納)する(ステップS804)。
図29は、本実施の形態のオントロジー生成装置1で行われる概念情報の比較処理の手順の流れの一例を示すフローチャートである。なお、図29に示す例では、概念情報の比較処理について説明するが、パターン情報についても同様の手法で比較することができる。
まず、受付部40は、入力部10から概念情報の比較操作の入力を受け付ける(ステップS902)。
続いて、比較部80は、受付部40により比較操作の入力が受け付けられると、抽出概念情報記憶部32及びユーザ概念情報記憶部33の双方に記憶されている同一の概念ペアを有する概念情報を読み出す(ステップS904)。
続いて、比較部80は、読み出した概念情報のラベルを比較する(ステップS906)。
そして、出力制御部70は、ラベルの不一致により互いの概念情報が一致しない場合には(ステップS908でNo)、互いの概念情報が一致しない旨を出力部20に出力させる(ステップS910)。なお、ラベルの一致により互いの概念情報が一致する場合には(ステップS908でYes)、出力制御部70は、ステップS910に示す処理を行わない。
続いて、比較部80は、抽出概念情報記憶部32及びユーザ概念情報記憶部33の双方に記憶されている同一の概念ペアを全て処理するまで、ステップS902〜ステップS910の処理を繰り返す(ステップS912でNo)。
そして、同一の概念ペアを全て処理した場合には(ステップS912でYes)、比較部80は、処理を終了する。
このように本実施の形態では、オントロジーを生成して出力するだけでなく、オントロジーを構成する概念間の矛盾の有無まで判定して出力しているため、生成されたオントロジーを構成する概念間の矛盾をユーザが容易に判別することができる。
また本実施の形態では、オントロジーを構成する概念間の矛盾の有無の判定結果を、オントロジーを構成する概念に対応づけて記憶するため、この情報を用いれば、オントロジーを構成する概念間の矛盾の有無を容易に判別可能なオントロジーを構築することができる。
また本実施の形態では、概念ペアを用いて構文木パターンを抽出するとともに、抽出した構文木パターンを用いて概念ペアを抽出することを繰り返し行うため、概念及び概念の関係の抽出漏れを減らし,幅広く獲得することができる。
また本実施の形態では、概念ペア及び構文木パターンにそれぞれラベルを対応付けているため、正しい関係にない概念ペアや、概念ペアの抽出に適さない構文木パターンを排除することができる。
また本実施の形態では、概念ペア及び構文木パターンのそれぞれを、オントロジー生成装置自身により抽出できるだけでなく、ユーザによる登録を併用することもできる。
なお本実施の形態のオントロジー生成装置1は、CPU(Central Processing Unit)などの制御装置、ROM(Read Only Memory)やRAM(Random Access Memory)などの記憶装置、液晶ディスプレイなどの表示装置、キーボードやマウスなどの入力装置、ネットワークに接続して通信を行う通信I/F等を備えたハードウェア構成となっている。
また、本発明は、上記実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また、上記実施の形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施の形態にわたる構成要素を適宜組み合わせても良い。
1 オントロジー生成装置
10 入力部
20 出力部
30 記憶部
31 概念情報記憶部
32 抽出概念情報記憶部
33 ユーザ概念情報記憶部
36 パターン情報記憶部
37 抽出パターン情報記憶部
38 ユーザパターン情報記憶部
40 受付部
45 取得部
50 パターン抽出部
55 概念抽出部
60 生成部
65 判定部
70 出力制御部
75 登録部
80 比較部
111、112、113、114、171 概念情報
116、117、141 パターン情報
121〜125、132、134、153〜155、161〜165 文字列
181〜183 ノード
211〜215 概念ペア
221〜225 文
230 ベクトル空間
231 負例ベクトル空間
232 正例ベクトル空間
233 境界曲線

Claims (7)

  1. 文書データを取得する取得部と、
    語彙の概念の組である概念ペアを記憶する概念情報記憶部と、
    前記文書データから、前記概念ペアが共起する文の文字列のうち、前記概念ペアの概念
    を表す語彙それぞれを変数に置き換えた第1及び第2文字列と他の文字列との依存関係を
    示すパターンを抽出する第1抽出部と、
    抽出された前記パターンを記憶するパターン情報記憶部と、
    前記パターン情報記憶部に記憶されている前記パターンを用いて、前記文書データから
    新たな概念ペアを抽出し、前記概念情報記憶部に記憶させる第2抽出部と、
    前記概念情報記憶部に記憶されている複数の前記概念ペアを用いて、概念間の関係を整
    理したオントロジーを生成する生成部と、
    前記オントロジーを構成する概念間の矛盾の有無を判定する判定部と、
    前記オントロジーとともに判定結果を出力する出力部と、を備え
    前記概念情報記憶部は、更に、前記概念ペアの関係が正しいか否かを示す第1ラベルを
    前記概念ペアに対応付けて記憶し、
    前記パターン情報記憶部は、更に、前記パターンが前記新たな概念ペアの抽出に有効か
    否かを示す第2ラベルを当該パターンに対応付けて記憶し、
    前記第1抽出部は、抽出した前記パターンを構成する言語情報、抽出に用いた前記概念
    ペア、及び当該概念ペアの前記第1ラベルを素性として機械学習することにより、抽出し
    た前記パターンの前記第2ラベルを生成して、抽出した前記パターンに対応付けて前記パ
    ターン情報記憶部に記憶させ、
    前記第2抽出部は、前記パターン情報記憶部に記憶されている前記パターンのうち前記
    第2ラベルが有効を示す前記パターンを用いて、前記文書データから前記新たな概念ペア
    を抽出して、前記概念情報記憶部に記憶させ、
    前記生成部は、前記概念情報記憶部に記憶されている複数の前記概念ペアのうち前記第
    1ラベルが有効を示す前記概念ペアを用いて、前記オントロジーを生成することを特徴と
    するオントロジー生成装置。
  2. 前記判定部は、前記オントロジーを構成する概念間において巡回が生じる場合に、当該
    概念間に矛盾があると判定することを特徴とする請求項1に記載のオントロジー生成装置
  3. 前記判定部は、前記判定結果を前記概念ペアに対応付けて前記概念情報記憶部に記憶さ
    せることを特徴とする請求項に記載のオントロジー生成装置。
  4. 前記概念情報記憶部は、前記第2抽出部により抽出された前記新たな概念ペアを記憶す
    る第1概念情報記憶部と、ユーザにより登録される前記概念ペアを記憶する第2概念情報
    記憶部と、を含み、
    前記パターン情報記憶部は、前記第1抽出部により抽出された前記パターンを記憶する
    第1パターン情報記憶部と、ユーザにより登録される前記パターンを記憶する第2パター
    ン情報記憶部と、を含み、
    前記第1抽出部は、前記第1概念情報記憶部、及び前記第2概念情報記憶部に記憶され
    ている前記概念ペアを用いて、前記文書データから前記パターンを抽出して、前記第1概
    念情報記憶部に記憶させ、
    前記第2抽出部は、前記第1パターン情報記憶部、及び前記第2パターン情報記憶部に
    記憶されている前記パターンを用いて、前記文書データから前記新たな概念ペアを抽出し
    て、前記第1概念情報記憶部に記憶させることを特徴とする請求項に記載のオントロジ
    ー生成装置。
  5. 前記概念ペア及び前記パターンの少なくとも一方の入力を受け付ける受付部と、
    受け付けられた前記概念ペアを前記第2概念情報記憶部に登録し、受け付けられた前記
    パターンを前記第2パターン情報記憶部に登録する登録部と、を更に備えることを特徴と
    する請求項に記載のオントロジー生成装置。
  6. 前記第1概念情報記憶部及び前記第2概念情報記憶部の双方に記憶された同一の前記概
    念ペアに対する前記第1ラベルの比較、及び前記第1パターン情報記憶部及び前記第2パ
    ターン情報記憶部の双方に記憶された同一の前記パターンに対する前記第2ラベルの比較
    の少なくとも一方を行う比較部を更に備え、
    前記出力部は、更に、比較結果を出力することを特徴とする請求項に記載のオントロ
    ジー生成装置。
  7. 取得部が、文書データを取得する取得ステップと、
    第1抽出部が、前記文書データから、語彙の概念の組である概念ペアを記憶する概念情
    報記憶部に記憶されている前記概念ペアが共起する文の文字列のうち、前記概念ペアの概
    念を表す語彙それぞれを変数に置き換えた第1及び第2文字列と他の文字列との依存関係
    を示すパターンを抽出して、パターン情報記憶部に記憶させる第1抽出ステップと、
    第2抽出部が、前記パターン情報記憶部に記憶されている前記パターンを用いて、前記
    文書データから新たな概念ペアを抽出し、前記概念情報記憶部に記憶させる第2抽出ステ
    ップと、
    生成部が、前記概念情報記憶部に記憶されている複数の前記概念ペアを用いて、概念間
    の関係を整理したオントロジーを生成する生成ステップと、
    判定部が、前記オントロジーを構成する概念間の矛盾の有無を判定する判定ステップと

    出力部が、前記オントロジーとともに判定結果を出力部に出力させる出力制御ステップ
    と、を含み、
    前記概念情報記憶部は、更に、前記概念ペアの関係が正しいか否かを示す第1ラベルを
    前記概念ペアに対応付けて記憶し、
    前記パターン情報記憶部は、更に、前記パターンが前記新たな概念ペアの抽出に有効か
    否かを示す第2ラベルを当該パターンに対応付けて記憶し、
    前記第1抽出部は、抽出した前記パターンを構成する言語情報、抽出に用いた前記概念
    ペア、及び当該概念ペアの前記第1ラベルを素性として機械学習することにより、抽出し
    た前記パターンの前記第2ラベルを生成して、抽出した前記パターンに対応付けて前記パ
    ターン情報記憶部に記憶させ、
    前記第2抽出部は、前記パターン情報記憶部に記憶されている前記パターンのうち前記
    第2ラベルが有効を示す前記パターンを用いて、前記文書データから前記新たな概念ペア
    を抽出して、前記概念情報記憶部に記憶させ、
    前記生成部は、前記概念情報記憶部に記憶されている複数の前記概念ペアのうち前記第
    1ラベルが有効を示す前記概念ペアを用いて、前記オントロジーを生成することを特徴と
    するオントロジー生成方法。
JP2009070959A 2009-03-23 2009-03-23 オントロジー生成装置、及び方法 Expired - Fee Related JP5430989B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009070959A JP5430989B2 (ja) 2009-03-23 2009-03-23 オントロジー生成装置、及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009070959A JP5430989B2 (ja) 2009-03-23 2009-03-23 オントロジー生成装置、及び方法

Publications (2)

Publication Number Publication Date
JP2010224833A JP2010224833A (ja) 2010-10-07
JP5430989B2 true JP5430989B2 (ja) 2014-03-05

Family

ID=43041959

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009070959A Expired - Fee Related JP5430989B2 (ja) 2009-03-23 2009-03-23 オントロジー生成装置、及び方法

Country Status (1)

Country Link
JP (1) JP5430989B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130132209A1 (en) * 2011-11-11 2013-05-23 Google Inc. Generating an advertising campaign
KR101675946B1 (ko) * 2014-12-02 2016-11-15 주식회사 솔트룩스 반정형데이터 기반 동적 온톨로지 인스턴스 구축 방법 및 시스템

Also Published As

Publication number Publication date
JP2010224833A (ja) 2010-10-07

Similar Documents

Publication Publication Date Title
US7707026B2 (en) Multilingual translation memory, translation method, and translation program
CN102982021B (zh) 用于消除语言转换中的多个读法的歧义的方法
CN111488466B (zh) 中文带标记错误语料生成方法、计算装置和存储介质
KR101326354B1 (ko) 문자 변환 처리 장치, 기록 매체 및 방법
Shaalan et al. Arabic word generation and modelling for spell checking.
US20070011160A1 (en) Literacy automation software
KR101509727B1 (ko) 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법
Al‐Shawakfa et al. A comparison study of some Arabic root finding algorithms
CN100429648C (zh) 一种文本自动分块的方法、分块器和文本到语言合成系统
US10650195B2 (en) Translated-clause generating method, translated-clause generating apparatus, and recording medium
CN111950263A (zh) 一种日志解析方法、系统及电子设备
CN113010679A (zh) 问答对生成方法、装置、设备及计算机可读存储介质
Uthayamoorthy et al. Ddspell-a data driven spell checker and suggestion generator for the tamil language
JP5430989B2 (ja) オントロジー生成装置、及び方法
Neme A lexicon of Arabic verbs constructed on the basis of Semitic taxonomy and using finite-state transducers
Sakkas et al. Seq2Parse: neurosymbolic parse error repair
CN116360794A (zh) 数据库语言解析方法、装置、计算机设备及存储介质
Liu et al. Mining detailed information from the description for App functions comparison
US20230124402A1 (en) Inference Methods For Word Or Wordpiece Tokenization
JP7135730B2 (ja) 要約生成方法及び要約生成プログラム
CN104641367B (zh) 用于格式化电子字符序列的格式化模块、系统和方法
Mande et al. Regular expression rule-based algorithm for multiple documents key information extraction
JP5302784B2 (ja) 機械翻訳方法、及びシステム
Hünemörder et al. SePass: Semantic Password Guessing Using k-nn Similarity Search in Word Embeddings
CN111209724A (zh) 文本的校验方法、装置、存储介质以及处理器

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110916

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130314

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130319

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130716

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131016

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20131023

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131204

LAPS Cancellation because of no payment of annual fees