JP2010224833A - Ontology generation device and method - Google Patents
Ontology generation device and method Download PDFInfo
- Publication number
- JP2010224833A JP2010224833A JP2009070959A JP2009070959A JP2010224833A JP 2010224833 A JP2010224833 A JP 2010224833A JP 2009070959 A JP2009070959 A JP 2009070959A JP 2009070959 A JP2009070959 A JP 2009070959A JP 2010224833 A JP2010224833 A JP 2010224833A
- Authority
- JP
- Japan
- Prior art keywords
- concept
- information storage
- pattern
- storage unit
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
Description
本発明は、オントロジー生成装置、及び方法に関する。 The present invention relates to an ontology generation apparatus and method.
従来から、情報処理装置などに用いられるオントロジー技術が知られている。「オントロジー」とは、辞書の一種で、言葉の持つ概念を体系的に整理したものである。オントロジーでは、概念の位置関係が概念間の相対的な意味を表現しており、この意味情報を利用することにより、高度な知識処理を行うことが可能となってきている。 Conventionally, ontology techniques used for information processing apparatuses and the like are known. “Ontology” is a type of dictionary that systematically organizes the concepts of words. In ontology, the positional relationship of concepts expresses the relative meaning between concepts, and it has become possible to perform advanced knowledge processing by using this semantic information.
そして、近年では、大量の文書データから概念および概念間の関係を抽出してオントロジーを構築する技術への取り組みが行われている。 In recent years, efforts have been made to develop an ontology by extracting concepts and relationships between concepts from a large amount of document data.
このような技術として、文書データに対して自然言語処理技術を適用し、品詞情報、構文情報、又は意味情報など(例えば、文字列パターンや構文木パターン)を用いて概念と関係を抽出し、オントロジーを構築する手法がある。また、文書データに対して自然言語処理技術を適用して得られた特徴語や文の言語情報(品詞情報、構文情報、意味情報など)を素性として、正しい関係にある概念の組を抽出し、オントロジーを構築する手法がある(非特許文献1、2参照)。
As such a technique, natural language processing technology is applied to document data, and the concept and relationship are extracted using part-of-speech information, syntax information, or semantic information (for example, a character string pattern or a syntax tree pattern), There are techniques to build ontology. In addition, feature language and sentence linguistic information (part of speech information, syntax information, semantic information, etc.) obtained by applying natural language processing technology to document data are used as features to extract a set of concepts that have the correct relationship. There are techniques for constructing an ontology (see Non-Patent
しかしながら、上述したような従来技術では、抽出した概念の組の中に、概念間の関係は正しいものの互いの概念を相互に参照してしまうなど矛盾が生じている概念の組が含まれる可能性がある。そして、このような矛盾が生じていることをユーザが判別できない可能性がある。 However, in the conventional technology as described above, there is a possibility that the extracted concept set includes a set of concepts that have contradictions such as mutual reference to each other although the relationship between the concepts is correct. There is. The user may not be able to determine that such a contradiction has occurred.
本発明は、上記事情に鑑みてなされたものであり、生成されたオントロジーを構成する概念間の矛盾をユーザが容易に判別することができるオントロジー生成装置、及び方法を提供することを目的とする。 The present invention has been made in view of the above circumstances, and an object thereof is to provide an ontology generation apparatus and method that allow a user to easily discriminate between contradictions between the concepts constituting the generated ontology. .
上述した課題を解決し、目的を達成するために、本発明の一態様にかかるオントロジー生成装置は、文書データを取得する取得部と、語彙の概念の組である概念ペアを記憶する概念情報記憶部と、前記文書データから、前記概念ペアが共起する文の文字列のうち、前記概念ペアの概念を表す語彙それぞれを変数に置き換えた第1及び第2文字列と他の文字列との依存関係を示すパターンを抽出する第1抽出部と、抽出された前記パターンを記憶するパターン情報記憶部と、前記パターン情報記憶部に記憶されている前記パターンを用いて、前記文書データから新たな概念ペアを抽出し、前記概念情報記憶部に記憶させる第2抽出部と、前記概念情報記憶部に記憶されている複数の前記概念ペアを用いて、概念間の関係を整理したオントロジーを生成する生成部と、前記オントロジーを構成する概念間の矛盾の有無を判定する判定部と、前記オントロジーとともに判定結果を出力する出力部と、を備えることを特徴とする。 In order to solve the above-described problems and achieve the object, an ontology generation apparatus according to one aspect of the present invention includes a acquisition unit that acquires document data and a concept information storage that stores a concept pair that is a set of vocabulary concepts. And the first and second character strings obtained by replacing each vocabulary representing the concept of the concept pair with a variable among the character strings of the sentence in which the concept pair co-occurs from the document data and other character strings. A first extraction unit that extracts a pattern indicating a dependence relationship, a pattern information storage unit that stores the extracted pattern, and a new information from the document data using the pattern stored in the pattern information storage unit. An ontology in which relationships between concepts are organized using a second extraction unit that extracts concept pairs and stores them in the concept information storage unit, and a plurality of concept pairs stored in the concept information storage unit A generating unit that generates a determination unit that determines presence or absence of conflict between concepts that constitute the ontology, characterized in that it comprises an output unit for outputting a determination result together with the ontology.
また、本発明の別の態様にかかるオントロジー生成方法は、取得部が、文書データを取得する取得ステップと、第1抽出部が、前記文書データから、語彙の概念の組である概念ペアを記憶する概念情報記憶部に記憶されている前記概念ペアが共起する文の文字列のうち、前記概念ペアの概念を表す語彙それぞれを変数に置き換えた第1及び第2文字列と他の文字列との依存関係を示すパターンを抽出して、パターン情報記憶部に記憶させる第1抽出ステップと、第2抽出部が、前記パターン情報記憶部に記憶されている前記パターンを用いて、前記文書データから新たな概念ペアを抽出し、前記概念情報記憶部に記憶させる第2抽出ステップと、生成部が、前記概念情報記憶部に記憶されている複数の前記概念ペアを用いて、概念間の関係を整理したオントロジーを生成する生成ステップと、判定部が、前記オントロジーを構成する概念間の矛盾の有無を判定する判定ステップと、出力部が、前記オントロジーとともに判定結果を出力部に出力させる出力制御ステップと、を含むことを特徴とする。 An ontology generation method according to another aspect of the present invention includes an acquisition step in which an acquisition unit acquires document data, and a first extraction unit that stores a concept pair that is a set of vocabulary concepts from the document data. First and second character strings and other character strings obtained by replacing each vocabulary representing the concept of the concept pair with a variable among character strings of sentences co-occurring with the concept pair stored in the concept information storage unit A first extraction step of extracting a pattern indicating a dependency relationship with the pattern information storage unit and storing the pattern in the pattern information storage unit, and the second extraction unit using the pattern stored in the pattern information storage unit, the document data A second extraction step of extracting a new concept pair from the concept information storage unit and storing it in the concept information storage unit, and a generation unit using the plurality of concept pairs stored in the concept information storage unit, The A generation step for generating the processed ontology, a determination step for determining whether there is a contradiction between the concepts constituting the ontology, and an output control step for causing the output unit to output a determination result together with the ontology. It is characterized by including these.
本発明によれば、生成されたオントロジーを構成する概念間の矛盾をユーザが容易に判別することができるという効果を奏する。 According to the present invention, there is an effect that a user can easily discriminate between contradictions between the concepts constituting the generated ontology.
以下、添付図面を参照しながら、本発明にかかるオントロジー生成装置、及び方法の最良な実施の形態を詳細に説明する。 DESCRIPTION OF EXEMPLARY EMBODIMENTS Hereinafter, embodiments of an ontology generation device and method according to the invention will be described in detail with reference to the accompanying drawings.
まず、オントロジーの概要について説明する。 First, an overview of the ontology will be described.
「オントロジー」は、言葉の概念を体系的に整理したものである。「概念」には、主としてクラスとインスタンスの2種類が利用されるが、これに限定されるものではない。なお、「クラス」は、概念の分類名を示し、「インスタンス」は、概念の実例を示す。 "Ontology" is a systematic arrangement of the concept of words. As the “concept”, two types of classes and instances are mainly used, but the present invention is not limited to this. “Class” indicates the classification name of the concept, and “Instance” indicates an example of the concept.
また、オントロジーでは、オントロジー上に配置された概念の位置関係が概念間の相対的な意味を表現しており、一般的に、概念の関係には、上位下位関係(is−a関係)、全体部分関係(part−of関係)、及びインスタンス関係(instance−of関係)などのいずれかが含まれる。 In Ontology, the positional relationship of concepts placed on the ontology expresses the relative meaning between the concepts. In general, the relationship between concepts is an upper-lower relationship (is-a relationship), the whole Any of a partial relationship (part-of relationship) and an instance relationship (instance-of relationship) is included.
図1は、オントロジーの一例を示す図である。図1に示す例では、オントロジーは、7つのクラスと3つのインスタンスから構成されており、クラスは、自動車の車種分類を示し,インスタンスは自動車の年式を示している。また、図1に示す例では、クラス間の関係は上位下位関係であり、クラス及びインスタンス間の関係はインスタンス関係となっている。 FIG. 1 is a diagram illustrating an example of an ontology. In the example shown in FIG. 1, the ontology is composed of seven classes and three instances. The class indicates the vehicle type classification of the automobile, and the instance indicates the year of the automobile. In the example shown in FIG. 1, the relationship between classes is an upper-lower relationship, and the relationship between classes and instances is an instance relationship.
なお、オントロジーの表現には、例えばオントロジー記述言語であるOWLなどを用いることができるが、これに限定されるものではない。 For example, the ontology description language OWL, which is an ontology description language, can be used, but is not limited thereto.
次に、本実施の形態のオントロジー生成装置の構成について説明する。 Next, the configuration of the ontology generation device according to the present embodiment will be described.
図2は、本実施の形態のオントロジー生成装置1の構成の一例を示すブロック図である。図2に示すように、オントロジー生成装置1は、入力部10と、出力部20と、記憶部30と、受付部40と、取得部45と、パターン抽出部50と、概念抽出部55と、生成部60と、判定部65と、出力制御部70と、登録部75と、比較部80とを備える。
FIG. 2 is a block diagram illustrating an example of the configuration of the
入力部10は、文書の取得を指示する取得操作などの各種操作の入力を行うものであり、例えば、キーボード、マウス、又はタッチパネルなどの既存の入力装置により実現できる。
The
出力部20は、後述する出力制御部70の指示により、後述する生成部60により生成されたオントロジーや、後述する判定部65の判定結果などを出力するものであり、例えば、CRTディスプレイ、液晶ディスプレイ、プラズマディスプレイ、有機ELディスプレイ、又はタッチパネル式ディスプレイなどの既存の表示装置により実現できる。なお出力部20を、プリンタなどの既存の印刷装置により実現してもよいし、これらを併用して実現するようにしてもよい。
The
記憶部30は、オントロジー生成装置1で行われる各種処理に使用される情報を記憶するものであり、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、メモリカード、光ディスク、又はRAM(Random Access Memory)などの磁気的、電気的、又は光学的に記憶可能な既存の記憶媒体により実現できる。そして記憶部30は、概念情報記憶部31と、パターン情報記憶部36とを含む。
The
概念情報記憶部31は、概念の組である概念ペアなどを含む概念情報を記憶するものであり、後述の概念抽出部55により抽出された概念ペアなどを含む概念情報を記憶する抽出概念情報記憶部32と、ユーザにより登録される概念情報を記憶するユーザ概念情報記憶部33とを含む。
The concept
図3は、抽出概念情報記憶部32に記憶されている概念情報の一例を示す図であり、図4は、ユーザ概念情報記憶部33に記憶されている概念情報の一例を示す図である。図3及び図4に示す例では、概念情報は、概念ペア(概念1及び概念2)と、関係と、ラベル(第1ラベルの一例)と、矛盾とを含む情報となっている。「概念ペア」は、オントロジーの構成要素である概念を表す語彙のペアを示す情報である。「関係」は、概念ペア間の関係性を示す情報である。「ラベル」は、概念ペア間の関係が正しいか否かを示す情報であり、正しい関係であれば「正例」、正しくない関係であれば「負例」となる。「矛盾」は、概念ペア間に相互参照や巡回参照などの矛盾が生じるか否かを示す情報であり、矛盾があれば「あり」、矛盾がなければ「なし」となる。
FIG. 3 is a diagram illustrating an example of concept information stored in the extracted concept information storage unit 32, and FIG. 4 is a diagram illustrating an example of concept information stored in the user concept information storage unit 33. In the example illustrated in FIGS. 3 and 4, the concept information is information including a concept pair (
パターン情報記憶部36は、文字列の依存関係を示す構文木パターンなどを含むパターン情報を記憶するものであり、後述のパターン抽出部50により抽出された構文木パターンなどを含むパターン情報を記憶する抽出パターン情報記憶部37と、ユーザにより登録されるパターン情報を記憶するユーザパターン情報記憶部38とを含む。
The pattern information storage unit 36 stores pattern information including a syntax tree pattern indicating the dependency relationship between character strings, and stores pattern information including a syntax tree pattern extracted by the
図5は、抽出パターン情報記憶部37に記憶されているパターン情報の一例を示す図であり、図6は、ユーザパターン情報記憶部38に記憶されているパターン情報の一例を示す図である。図5及び図6に示す例では、パターン情報は、構文木パターンと、関係と、ラベル(第2ラベルの一例)とを含む情報となっている。「構文木パターン」は、文字列の係り受け関係を示す情報である。「関係」は、構文木パターンによって抽出される概念ペア間の関係性を示す情報である。「ラベル」は、概念ペアの抽出に有効か否かを示す情報であり、有効であれば「正例」、有効でなければ「負例」となる。
FIG. 5 is a diagram illustrating an example of pattern information stored in the extracted pattern
受付部40は、入力部10により入力された各種操作の入力を受け付ける。具体的には、受付部40は、取得操作、ユーザ概念情報記憶部33に対する概念情報の登録操作、ユーザパターン情報記憶部38に対するパターン情報の登録操作、抽出概念情報記憶部32及びユーザ概念情報記憶部33間での概念情報の比較操作、又は抽出パターン情報記憶部37及びユーザパターン情報記憶部38間でのパターン情報の比較操作などを受け付ける。
The accepting
取得部45は、文書データを取得する。具体的には、取得部45は、受付部40により取得操作が受け付けられると、文書データを取得する。なお、記憶部30に文書データを格納しておき、取得部45が記憶部30から文書データを取得するようにしてもよいし、例えばサーバなどの図示せぬ外部装置に格納された文書データを取得するようにしてもよい。
The
なお、取得部45が取得する文書データは、特定ドメインについて書かれた文書データの集合であり、例えば、特許文書、技術文書、営業文書、業務文書などが挙げられる。また、取得部45が取得する文書データの形式は限定されず、構造化文書、半構造化文書、非構造化文書のいずれであってもよい。
The document data acquired by the
パターン抽出部50(第1抽出部の一例)は、取得部45により取得された文書データから、概念情報記憶部31に記憶されている概念ペアが共起する文の文字列のうち、前記概念ペアの概念を表す語彙それぞれを変数に置き換えた第1及び第2文字列と他の文字列との依存関係を示すパターンを抽出する。
The pattern extraction unit 50 (an example of a first extraction unit) uses the concept from the document data acquired by the
具体的には、パターン抽出部50は、抽出概念情報記憶部32又はユーザ概念情報記憶部33から概念情報を読み出し、読み出した概念情報の概念ペアが共起する文書データを検索する。そして、パターン抽出部50は、検索された文書データを構文解析し、概念ペアが共起する文を構文木情報として抽出する。
Specifically, the
図7は、パターン抽出部50により、図4に示す概念情報113を用いて抽出された構文木情報の一例を示す図である。図7に示す構文木情報は、文字列121〜125から構成される文を構文解析して生成された構文木情報であり、文字列121〜125が構文木となっている。そして、図7に示す構文木情報は、構文木である文字列121〜125それぞれの係り受け関係を示している。
FIG. 7 is a diagram illustrating an example of syntax tree information extracted by the
そして、パターン抽出部50は、抽出した構文木情報から不要な文字列を削除し、概念情報に対応する文字列を変数に置き換えた構文木パターンを、関係やラベルとともに抽出概念情報記憶部32に記憶させる。
Then, the
なお、不要な文字列の削除として、パターン抽出部50は、概念情報に対応する文字列が出現する最短パス、及び当該文字列が直結する文字列以外の文字列を削除する。また、抽出概念情報記憶部32に記憶される関係は、構文木パターンの抽出に用いた概念ペアの関係が示す情報であり、抽出概念情報記憶部32に記憶されるラベルについては後述する。
In addition, as deletion of an unnecessary character string, the
図8は、図7に示す構文木情報の構文木パターンの一例を示す図である。図に示す例では、図7に示す構文木情報から文字列121が削除され、概念情報113の概念ペアに対応する文字列122、124が、それぞれ変数を含む文字列132、134に置き換えられている。
FIG. 8 is a diagram illustrating an example of the syntax tree pattern of the syntax tree information illustrated in FIG. In the example shown in the figure, the
図9は、図8に示す構文木パターンを含むパターン情報が、抽出パターン情報記憶部37に新たに記憶された状態の一例を示す図である。図9に示す例では、文字列132、123、134、及び125から構成される構文木パターンが、関係やラベルとともにパターン情報141として抽出パターン情報記憶部37に記憶されている。なお、図8に示す構文木パターンの抽出に用いた概念情報は、図4に示す概念情報113であるため、パターン情報141の関係は、「車種」となっている。
FIG. 9 is a diagram illustrating an example of a state in which pattern information including the syntax tree pattern illustrated in FIG. 8 is newly stored in the extracted pattern
概念抽出部55(第2抽出部の一例)は、パターン情報記憶部36に記憶されている構文木パターンを用いて、文書データから新たな概念ペアを抽出し、概念情報記憶部31に記憶させる。
The concept extraction unit 55 (an example of a second extraction unit) uses the syntax tree pattern stored in the pattern information storage unit 36 to extract a new concept pair from the document data and stores it in the concept
具体的には、概念抽出部55は、抽出パターン情報記憶部37又はユーザパターン情報記憶部38からパターン情報を読み出し、読み出したパターン情報の構文木パターンを有する文を、取得部45により取得された文書データから抽出する。
Specifically, the
図10は、図6に示すパターン情報117の構文木パターンの一例を示す図である。図10に示す構文木パターンは、文字列153〜155から構成されている。
FIG. 10 is a diagram illustrating an example of the syntax tree pattern of the pattern information 117 illustrated in FIG. The syntax tree pattern shown in FIG. 10 is composed of
図11は、図10に示す構文木パターンを有する文の構文木情報の一例を示す図である。図11に示す構文木情報は、文字列161〜165から構成される文の構文木情報であり、文字列163〜165が、それぞれ図10に示す構文木パターンの文字列153〜155に対応している。従って、図11に示す文字列161〜165から構成される文は、概念抽出部55により抽出される。
FIG. 11 is a diagram illustrating an example of syntax tree information of a sentence having the syntax tree pattern illustrated in FIG. The syntax tree information shown in FIG. 11 is the syntax tree information of a sentence composed of
そして、概念抽出部55は、抽出した文の構文木パターンのうち、変数部分を含む語彙の相関性を検定し、相関性がある場合には、構文木パターンの変数部分に対応する文字列を概念ペアとして抽出し、関係やラベルとともに抽出概念情報記憶部32に記憶させる。
Then, the
図12は、図11に示す文から抽出された概念ペアを含む概念情報が、新たに抽出概念情報記憶部32に記憶された状態の一例を示す図である。図12に示す例では、図11に示す文字列163及び文字列164に含まれる文字のペアである概念ペアが、関係、ラベル、及び矛盾とともに概念情報171として抽出概念情報記憶部32に記憶されている。なお、概念ペアの抽出に用いたパターン情報は、図6に示すパターン情報117であるため、概念情報171の関係は、「車種」となっている。ラベル、及び矛盾については後述する。
FIG. 12 is a diagram illustrating an example of a state in which the concept information including the concept pair extracted from the sentence illustrated in FIG. 11 is newly stored in the extracted concept information storage unit 32. In the example illustrated in FIG. 12, the concept pair that is a pair of characters included in the
生成部60は、概念情報記憶部31に記憶されている複数の概念ペアを用いてオントロジーを生成する。具体的には、生成部60は、抽出概念情報記憶部32又はユーザ概念情報記憶部33から概念情報を読み出し、読み出した概念情報の概念ペアのそれぞれの名称を付与したノードとともに、各ノード間のリンクを作成する。
The
図13は、図4に示す概念情報113、114及び、図12に示す概念情報111の概念ペアを用いて生成されたオントロジーの一例を示す図である。図13に示すオントロジーは、ノード181〜183により構成されるオントロジーであり、ノード181及びノード182間ではリンクが巡回している。
FIG. 13 is a diagram illustrating an example of an ontology generated using the concept information 113 and 114 illustrated in FIG. 4 and the concept pair of the
判定部65は、生成部60により生成されたオントロジーを構成する概念間の矛盾の有無を判定する。具体的には、判定部65は、生成部60により生成されたオントロジーを構成する概念間に巡回が生じる場合に、当該概念間に矛盾があると判定する。そして、判定部65は、判定結果である矛盾の有無をオントロジーの生成に用いられた概念ペアに対応付けて抽出概念情報記憶部32又はユーザ概念情報記憶部33に記憶させる。
The
図13に示す例では、ノード181及びノード182間ではリンクが巡回しているため、判定部65は、図14に示すようにノード181及びノード182の生成元の概念ペアに矛盾があると判定する。
In the example shown in FIG. 13, since the link circulates between the
図15は、図14に示すオントロジーの矛盾判定により、矛盾の有無が抽出概念情報記憶部32に記憶された状態の一例を示す図であり、図16は、図14に示すオントロジーの矛盾判定により、矛盾の有無がユーザ概念情報記憶部33に記憶された状態の一例を示す図である。 FIG. 15 is a diagram illustrating an example of a state in which the presence or absence of contradiction is stored in the extracted concept information storage unit 32 by the ontology contradiction determination illustrated in FIG. 14. FIG. 16 is a diagram illustrating the ontology contradiction determination illustrated in FIG. FIG. 5 is a diagram illustrating an example of a state in which the presence or absence of contradiction is stored in a user concept information storage unit 33.
図13に示すオントロジーでは、ノード181及びノード182の生成元の概念ペアに矛盾があると判定されるため、図15に示す抽出概念情報記憶部32の概念情報111、及び図16に示すユーザ概念情報記憶部33の概念情報114には、矛盾ありが設定される。
In the ontology shown in FIG. 13, since it is determined that there is a contradiction in the concept pair of the generation source of the
出力制御部70は、生成部60により生成されたオントロジーとともに判定部65の判定結果を出力部20に出力させる。例えば、出力制御部70は、図14に示すように、矛盾が生じる部分を出力部20に強調表示させる。また出力制御部70は、後述の比較部80の比較結果を出力部20に出力させる。
The
登録部75は、受付部40により登録操作が受け付けられると、受け付けられた概念ペアをユーザ概念情報記憶部33に登録したり、受け付けられた構文木パターンをユーザパターン情報記憶部38に登録する。
When the registration operation is accepted by the accepting
比較部80は、受付部40により比較操作が受け付けられると、抽出概念情報記憶部32及びユーザ概念情報記憶部33の双方に記憶された同一の概念ペアに対するラベルの比較や、抽出パターン情報記憶部37及びユーザパターン情報記憶部38の双方に記憶された同一の構文木パターンに対するラベルの比較を行う。
When a comparison operation is received by the receiving
次に、本実施の形態のオントロジー生成装置の動作について説明する。 Next, the operation of the ontology generation device according to the present embodiment will be described.
図17は、本実施の形態のオントロジー生成装置1で行われるオントロジー生成処理の手順の流れの一例を示すフローチャートである。
FIG. 17 is a flowchart illustrating an example of a flow of an ontology generation process performed by the
まず、取得部45は、受付部40に取得操作が受け付けられると、文書データ群を取得する(ステップS10)。
First, when the
続いて、パターン抽出部50は、取得部45により取得された文書から、概念情報記憶部31に記憶されている概念情報の概念ペアが共起する文の構文木情報であって、前記概念ペアの概念それぞれを変数に置き換えた構文木と他の構文木との依存関係を示す構文木パターンを抽出して、パターン情報記憶部36に記憶させるパターン情報抽出処理を行う(ステップS20)。なお、パターン情報抽出処理の詳細は後述する。
Subsequently, the
続いて、概念抽出部55は、パターン情報記憶部36に記憶されている構文木パターンを用いて、取得部45により取得された文書データから新たな概念ペアを抽出し、概念情報記憶部31に記憶させる概念情報抽出処理を行う(ステップS30)。なお、概念情報抽出処理の詳細は後述する。
Subsequently, the
続いて、概念抽出部55により新たな概念ペアを含む概念情報が概念情報記憶部31に記憶され、概念情報記憶部31の概念情報数が増加した場合には(ステップS40でYes)、生成部60は、概念情報記憶部31に記憶されている概念情報の概念ペアを用いて、オントロジー生成処理を行う(ステップS50)。なお、オントロジー生成処理の詳細は後述する。
Subsequently, when the concept information including the new concept pair is stored in the concept
続いて、判定部65は、生成部60により生成されたオントロジーを構成する概念間の矛盾の有無を判定する矛盾判定処理を行う(ステップS60)。なお、矛盾判定処理の詳細は後述する。
Subsequently, the
続いて、出力制御部70は、生成部60により生成されたオントロジーとともに、判定部65の判定結果を出力部20に出力させる(ステップS70)。
Subsequently, the
図18は、図17のステップS20に示すパターン情報抽出処理の手順の流れの一例を示すフローチャートである。 FIG. 18 is a flowchart showing an example of the flow of the pattern information extraction process shown in step S20 of FIG.
まず、パターン抽出部50は、抽出概念情報記憶部32又はユーザ概念情報記憶部33から読み出す概念情報を選択する(ステップS202)。
First, the
この際、パターン抽出部50は、抽出概念情報記憶部32及びユーザ概念情報記憶部33に同一の概念ペアを有する概念情報が記憶され、両概念ペアのラベルが異なる場合には、ユーザ概念情報記憶部33に記憶された概念情報を選択する。
At this time, the
例えば、図3に示す抽出概念情報記憶部32に記憶された概念情報112と、図4に示すユーザ概念情報記憶部33に記憶された概念情報113とは、概念ペアが同一であり、ラベルが互いに異なるため、パターン抽出部50は、ユーザ概念情報記憶部33に記憶された概念情報113を選択する。
For example, the concept information 112 stored in the extracted concept information storage unit 32 shown in FIG. 3 and the concept information 113 stored in the user concept information storage unit 33 shown in FIG. Since they are different from each other, the
続いて、パターン抽出部50は、選択した概念情報を読み出し、読み出した概念情報の概念ペアが共起する文書データを、取得部45により取得された文書データの中から検索する(ステップS204)。
Subsequently, the
続いて、パターン抽出部50は、検索した文書データを構文解析し、概念ペアが共起する文を構文木情報として抽出する(ステップS206)。図7に示す例では、パターン抽出部50は、図4に示す概念情報113を用いて、文字列121〜125から構成される文を構文木情報として抽出している。
Subsequently, the
続いて、パターン抽出部50は、抽出した文の構文木情報から不要な文字列を削除し、概念情報に対応する文字列を変数に置き換えた構文木パターンを、新たに抽出概念情報記憶部32に格納する(ステップS208)。
Subsequently, the
図8に示す例では、パターン抽出部50は、図7に示す構文木情報から文字列121を削除し、概念情報113の概念ペアに対応する文字列122、124を、それぞれ変数を含む文字列132、134に置き換えている。
In the example illustrated in FIG. 8, the
続いて、パターン抽出部50は、抽出した構文木情報を構成する文字列(部分木)、抽出に用いた概念ペア、及び概念ペアのラベルを素性として構文木パターンを機械学習することで、構文木パターンのラベルの付与に用いる分類器を生成する(ステップS210)。なお、機械学習の手法としては、例えばSVMなどが挙げられるが、これに限定されるものではない。
Subsequently, the
ここで、図19〜図23を参照しながら、分類器について説明する。 Here, the classifier will be described with reference to FIGS.
図19は、構文木パターンの機械学習に用いるベクトルの一例を示す図である。図19に示す例では、図7に示す構文木情報を構成する文字列121〜125、図8に示す構文木パターンの抽出に用いた図4に示す概念情報113の概念ペア、及び概念情報113の正例を示すラベルを素性としたベクトルを生成している。
FIG. 19 is a diagram illustrating an example of a vector used for machine learning of a syntax tree pattern. In the example shown in FIG. 19, the
具体的には、図19に示す例では、概念情報113の正例を示すラベル、文字列121〜125、概念情報113の概念ペア、文字列121〜125及び概念情報113の概念ペアの係り受け関係のそれぞれに対して、ベクトルを生成している。
Specifically, in the example illustrated in FIG. 19, a label indicating a positive example of the concept information 113, a
図20は、概念ペアと、概念ペアが共起する文の一例を示す図である。図20に示す例では、概念ペア211〜215のそれぞれに文221〜225が共起する。
FIG. 20 is a diagram illustrating an example of a concept pair and a sentence in which the concept pair co-occurs. In the example illustrated in FIG. 20,
図21は、図20に示す概念ペア及び当該概念ペアが共起する文から生成したベクトル集合の一例を示す図である。なお、図21に示す例では、表227が表226の右列に続くものであり、表228が表227の右列に続くものである。 FIG. 21 is a diagram illustrating an example of a vector set generated from the concept pair illustrated in FIG. 20 and a sentence in which the concept pair co-occurs. In the example shown in FIG. 21, the table 227 follows the right column of the table 226, and the table 228 continues after the right column of the table 227.
図22は、図21に示すベクトル集合を機械学習することで生成される分類器の概念の一例を示す図であり、図23は、図21に示すベクトル集合を機械学習することで生成される分類器の一例を示す図である。なお、図23に示す例では、表242が表241の右列に続くものであり、表243が表242の右列に続くものである。 FIG. 22 is a diagram illustrating an example of the concept of a classifier generated by machine learning of the vector set shown in FIG. 21, and FIG. 23 is generated by machine learning of the vector set shown in FIG. It is a figure which shows an example of a classifier. In the example illustrated in FIG. 23, the table 242 continues to the right column of the table 241, and the table 243 continues to the right column of the table 242.
図22に示す例では、ベクトル空間230上に、「正例」、「負例」のベクトルが存在しており、境界曲線233により負例のベクトル空間231と正例のベクトル空間232に分けられている。従って、ベクトル集合を図22に示す分類器に入力することにより、構文木パターンに付与するラベルが正例であるか負例であるかを決定することができる。
In the example shown in FIG. 22, “positive example” and “negative example” vectors exist on the
図18に戻り、パターン抽出部50は、抽出概念情報記憶部32及びユーザ概念情報記憶部33に記憶された全ての選択可能な概念情報を処理するまで、ステップS202〜ステップS210の処理を繰り返す(ステップS212でNo)。
Returning to FIG. 18, the
そして、全ての選択可能な概念情報を処理した場合には(ステップS212でYes)、パターン抽出部50は、抽出した構文木パターンを選択して、分類器に入力する(ステップS214)。
If all selectable conceptual information has been processed (Yes in step S212), the
続いて、パターン抽出部50は、分類器から、入力した構文木パターンに対応付ける分類ラベルを獲得し、構文木パターンに対応付けて抽出パターン情報記憶部37及びユーザパターン情報記憶部38に格納する(ステップS216)。例えば、図8に示す構文木パターンを図23に示す分類器に入力した場合、いずれの文字列(構文木)も正例となるため、図8に示す構文木パターンには正例のラベルが対応付けられる。
Subsequently, the
続いて、パターン抽出部50は、抽出した全ての構文木パターンを処理するまで、ステップS214〜ステップS216の処理を繰り返す(ステップS218でNo)。そして、抽出した全ての構文木パターンを処理した場合には(ステップS218でYes)、パターン抽出部50は、処理を終了する。
Subsequently, the
図24は、図17のステップS30に示す概念情報抽出処理の手順の流れの一例を示すフローチャートである。 FIG. 24 is a flowchart illustrating an example of a procedure flow of the conceptual information extraction process illustrated in step S30 of FIG.
まず、概念抽出部55は、抽出パターン情報記憶部37又はユーザパターン情報記憶部38から読み出すパターン情報を選択する(ステップS302)。
First, the
この際、概念抽出部55は、抽出パターン情報記憶部37及びユーザパターン情報記憶部38に同一の構文木パターンを有するパターン情報が記憶され、両構文木パターンのラベルが異なる場合には、ユーザパターン情報記憶部38に記憶されたパターン情報を選択する。
At this time, the
例えば、図5に示す抽出パターン情報記憶部37に記憶されたパターン情報116と、図4に示すユーザパターン情報記憶部38に記憶されたパターン情報117とは、構文木パターンが同一であり、ラベルが互いに異なるため、概念抽出部55は、ユーザパターン情報記憶部38に記憶されたパターン情報117を選択する。
For example, the pattern information 116 stored in the extracted pattern
続いて、概念抽出部55は、選択したパターン情報を読み出し、読み出したパターン情報の構文木パターンが正例であるか否かを確認する(ステップS304)。
Subsequently, the
続いて、概念抽出部55は、選択した構文木パターンが正例である場合(ステップS304でYes)には、取得部45により取得された文書データの中から、当該構文木パターンを有する文を抽出する(ステップS306)。図11に示す例では、概念抽出部55は、図10に示す構文木情報を有する文字列161〜165から構成される文を抽出する。なお、選択した構文木パターンが負例である場合(ステップS304でNo)には、概念抽出部55は、新たなパターン情報を選択する。
Subsequently, when the selected syntax tree pattern is a correct example (Yes in step S304), the
続いて、概念抽出部55は、構文木パターンの変数に相当する語彙のペアを概念情報として抽出する(ステップS308)。図11に示す例では、概念抽出部55は、文字列163及び文字列164に含まれる文字のペアを概念ペアとして抽出する。
Subsequently, the
続いて、概念抽出部55は、抽出した概念情報を統計的に検定する(ステップS310)。なお、概念情報の統計的検定には、例えば、カイ二乗検定などを用いることができるがこれに限定されるものではない。
Subsequently, the
図25は、図12の概念情報171の概念ペアの相関性をカイ二乗検定で検定した例を示す図である。図25に示す例では、文書データに対する概念情報171の概念ペアそれぞれの出現頻度及び共起頻度のカウント結果を示しており、概念ペアの双方が出現する場合が共起頻度を示している。
FIG. 25 is a diagram showing an example in which the correlation between the concept pairs in the
そして、概念ペアそれぞれの出現に関する独立性を判定することで、概念ペアそれぞれの相関性を統計的に判定できる。なお、独立性の判定には、統計解析でよく用いられる検定手法の1つであるカイ二乗検定を用いることができるが、これに限定されるものではない。ここで、帰無仮説として「概念ペアは互いに独立である」とし,対立仮説を「SUVと概念ペアは互いに独立ではない」と定める。 And the correlation of each concept pair can be statistically determined by determining the independence regarding the appearance of each concept pair. Independence can be determined using a chi-square test, which is one of the test methods often used in statistical analysis, but is not limited to this. Here, the null hypothesis is “concept pairs are independent of each other” and the alternative hypothesis is “SUV and concept pairs are not independent”.
図25に示す例では、カイ二乗統計量は6.2071、p値は0.013となる。つまり、自由度1のカイ二乗分布において、カイ二乗統計量6.2071が起こる確率は0.0013となる。そして、p値が有意水準0.05よりも小さいため、帰無仮説は棄却され、概念ペアは互いに独立ではなく、統計的には相関性があるとみなされる。 In the example shown in FIG. 25, the chi-square statistic is 6.2071, and the p-value is 0.013. That is, in the chi-square distribution with one degree of freedom, the probability that the chi-square statistic 6.2071 will occur is 0.0013. Since the p-value is smaller than the significance level 0.05, the null hypothesis is rejected, and the concept pairs are not independent of each other and are considered statistically correlated.
このため、図25に示す例では、概念抽出部55は、概念ペアに対して正例のラベルを付与する。なお、カイ二乗検定の結果,互いに独立であると判定された場合は、概念抽出部55は、概念ペアに対して負例のラベルを付与する。
For this reason, in the example shown in FIG. 25, the
図24に戻り、概念抽出部55は、概念ペアに相関性がある場合には(ステップS312でYes)、概念ペアに正例を示すラベルを対応付けて抽出概念情報記憶部32又はユーザ概念情報記憶部33に格納する(ステップS314)。一方、概念抽出部55は、概念ペアに相関性がない場合には(ステップS312でNo)、概念ペアに負例を示すラベルを対応付けて抽出概念情報記憶部32又はユーザ概念情報記憶部33に格納する(ステップS316)。
Returning to FIG. 24, when the concept pair has a correlation (Yes in step S312), the
続いて、概念抽出部55は、全ての選択可能なパターン情報を処理するまで、ステップS302〜ステップS316の処理を繰り返す(ステップS318でNo)。そして、全ての選択可能なパターン情報を処理した場合には(ステップS318でYes)、概念抽出部55は、処理を終了する。
Subsequently, the
図26は、図17のステップS50に示すオントロジー生成処理の手順の流れの一例を示すフローチャートである。 FIG. 26 is a flowchart illustrating an example of the flow of the ontology generation process shown in step S50 of FIG.
まず、生成部60は、抽出概念情報記憶部32又はユーザ概念情報記憶部33から概念情報を選択する(ステップS502)。
First, the
続いて、生成部60は、選択した概念情報の概念ペアが正例であるか否かを確認する(ステップS503)。
Subsequently, the
続いて、生成部60は、選択した概念ペアが正例である場合には(ステップS503でYes)、概念ペアのそれぞれの名称を付与したノードとともに、各ノード間のリンクを作成する(ステップS504)。図13に示す例では、生成部60は、ノード181〜183により構成されるオントロジーを生成している。
Subsequently, when the selected concept pair is a positive example (Yes in step S503), the
続いて、生成部60は、全ての概念情報を処理するまで、ステップS502〜ステップS504の処理を繰り返す(ステップS506でNo)。そして、全ての概念情報を処理した場合には(ステップS506でYes)、生成部60は、処理を終了する。
Subsequently, the
図27は、図17のステップS60に示す矛盾判定処理の手順の流れの一例を示すフローチャートである。 FIG. 27 is a flowchart showing an example of the flow of the contradiction determination process shown in step S60 of FIG.
まず、判定部65は、生成部60により生成されたオントロジーからノードを選択する(ステップS602)。
First, the
続いて、判定部65は、選択したノードを開始点として、オントロジー上で深さ優先探索を行う(ステップS604)。
Subsequently, the
続いて、判定部65は、深さ優先探索の結果、訪問済みのノードにたどり着いたか否かを確認する(ステップS606)。
Subsequently, the
続いて、訪問済みのノードにたどり着いた場合には(ステップS606でYes)、判定部65は、深さ優先探索で訪問した全ての訪問済みのノードの生成元となった概念ペアに矛盾ありを対応付けて抽出概念情報記憶部32又はユーザ概念情報記憶部33に格納する(ステップS608)。なお、深さ優先探索中に訪問済みのノードにたどり着かなかった場合には(ステップS606でNo)、判定部65は、ステップS608の処理を行わない。図14に示す例では、ノード181及びノード182間ではリンクが巡回しているため、判定部65は、ノード181及びノード182の生成元の概念ペアに矛盾があると判定する。
Subsequently, when the visited node is reached (Yes in step S606), the
続いて、判定部65は、全てのノードを処理するまで、ステップS602〜ステップS608の処理を繰り返す(ステップS610でNo)。そして、全てのノードを処理した場合には(ステップS610でYes)、判定部65は、処理を終了する。
Subsequently, the
図28は、本実施の形態のオントロジー生成装置1で行われるユーザ概念情報記憶部33への概念情報の登録処理の手順の流れの一例を示すフローチャートである。なお、図28に示す例では、概念情報の登録処理について説明するが、パターン情報についても同様の手法で登録することができる。
FIG. 28 is a flowchart illustrating an example of a flow of a procedure for registering concept information in the user concept information storage unit 33 performed by the
まず、受付部40は、入力部10から概念情報の登録操作の入力を受け付ける(ステップS802)。
First, the receiving
続いて、登録部75は、受け付けた概念情報をユーザ概念情報記憶部33へ登録(格納)する(ステップS804)。
Subsequently, the
図29は、本実施の形態のオントロジー生成装置1で行われる概念情報の比較処理の手順の流れの一例を示すフローチャートである。なお、図29に示す例では、概念情報の比較処理について説明するが、パターン情報についても同様の手法で比較することができる。
FIG. 29 is a flowchart illustrating an example of a flow of a conceptual information comparison process performed by the
まず、受付部40は、入力部10から概念情報の比較操作の入力を受け付ける(ステップS902)。
First, the receiving
続いて、比較部80は、受付部40により比較操作の入力が受け付けられると、抽出概念情報記憶部32及びユーザ概念情報記憶部33の双方に記憶されている同一の概念ペアを有する概念情報を読み出す(ステップS904)。
Subsequently, when the
続いて、比較部80は、読み出した概念情報のラベルを比較する(ステップS906)。
Subsequently, the
そして、出力制御部70は、ラベルの不一致により互いの概念情報が一致しない場合には(ステップS908でNo)、互いの概念情報が一致しない旨を出力部20に出力させる(ステップS910)。なお、ラベルの一致により互いの概念情報が一致する場合には(ステップS908でYes)、出力制御部70は、ステップS910に示す処理を行わない。
If the concept information does not match due to label mismatch (No in step S908), the
続いて、比較部80は、抽出概念情報記憶部32及びユーザ概念情報記憶部33の双方に記憶されている同一の概念ペアを全て処理するまで、ステップS902〜ステップS910の処理を繰り返す(ステップS912でNo)。
Subsequently, the
そして、同一の概念ペアを全て処理した場合には(ステップS912でYes)、比較部80は、処理を終了する。
If all the same concept pairs have been processed (Yes in step S912), the
このように本実施の形態では、オントロジーを生成して出力するだけでなく、オントロジーを構成する概念間の矛盾の有無まで判定して出力しているため、生成されたオントロジーを構成する概念間の矛盾をユーザが容易に判別することができる。 As described above, in this embodiment, not only the ontology is generated and output, but also whether there is a contradiction between concepts constituting the ontology is determined and output. The user can easily discriminate the contradiction.
また本実施の形態では、オントロジーを構成する概念間の矛盾の有無の判定結果を、オントロジーを構成する概念に対応づけて記憶するため、この情報を用いれば、オントロジーを構成する概念間の矛盾の有無を容易に判別可能なオントロジーを構築することができる。 In this embodiment, the determination result of the existence of contradiction between the concepts constituting the ontology is stored in association with the concept constituting the ontology. An ontology that can easily determine the presence or absence can be constructed.
また本実施の形態では、概念ペアを用いて構文木パターンを抽出するとともに、抽出した構文木パターンを用いて概念ペアを抽出することを繰り返し行うため、概念及び概念の関係の抽出漏れを減らし,幅広く獲得することができる。 In the present embodiment, the syntax tree pattern is extracted using the concept pair and the concept pair is extracted using the extracted syntax tree pattern repeatedly. You can earn a wide range.
また本実施の形態では、概念ペア及び構文木パターンにそれぞれラベルを対応付けているため、正しい関係にない概念ペアや、概念ペアの抽出に適さない構文木パターンを排除することができる。 Further, in the present embodiment, since labels are associated with concept pairs and syntax tree patterns, concept pairs that are not in a correct relationship and syntax tree patterns that are not suitable for extracting concept pairs can be excluded.
また本実施の形態では、概念ペア及び構文木パターンのそれぞれを、オントロジー生成装置自身により抽出できるだけでなく、ユーザによる登録を併用することもできる。 In the present embodiment, not only the concept pair and the syntax tree pattern can be extracted by the ontology generation device itself, but also registration by the user can be used together.
なお本実施の形態のオントロジー生成装置1は、CPU(Central Processing Unit)などの制御装置、ROM(Read Only Memory)やRAM(Random Access Memory)などの記憶装置、液晶ディスプレイなどの表示装置、キーボードやマウスなどの入力装置、ネットワークに接続して通信を行う通信I/F等を備えたハードウェア構成となっている。
The
また、本発明は、上記実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また、上記実施の形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施の形態にわたる構成要素を適宜組み合わせても良い。 The present invention is not limited to the above-described embodiment as it is, and can be embodied by modifying the constituent elements without departing from the scope of the invention in the implementation stage. In addition, various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the above embodiments. For example, some components may be deleted from all the components shown in the embodiment. Furthermore, constituent elements over different embodiments may be appropriately combined.
1 オントロジー生成装置
10 入力部
20 出力部
30 記憶部
31 概念情報記憶部
32 抽出概念情報記憶部
33 ユーザ概念情報記憶部
36 パターン情報記憶部
37 抽出パターン情報記憶部
38 ユーザパターン情報記憶部
40 受付部
45 取得部
50 パターン抽出部
55 概念抽出部
60 生成部
65 判定部
70 出力制御部
75 登録部
80 比較部
111、112、113、114、171 概念情報
116、117、141 パターン情報
121〜125、132、134、153〜155、161〜165 文字列
181〜183 ノード
211〜215 概念ペア
221〜225 文
230 ベクトル空間
231 負例ベクトル空間
232 正例ベクトル空間
233 境界曲線
DESCRIPTION OF
Claims (8)
語彙の概念の組である概念ペアを記憶する概念情報記憶部と、
前記文書データから、前記概念ペアが共起する文の文字列のうち、前記概念ペアの概念を表す語彙それぞれを変数に置き換えた第1及び第2文字列と他の文字列との依存関係を示すパターンを抽出する第1抽出部と、
抽出された前記パターンを記憶するパターン情報記憶部と、
前記パターン情報記憶部に記憶されている前記パターンを用いて、前記文書データから新たな概念ペアを抽出し、前記概念情報記憶部に記憶させる第2抽出部と、
前記概念情報記憶部に記憶されている複数の前記概念ペアを用いて、概念間の関係を整理したオントロジーを生成する生成部と、
前記オントロジーを構成する概念間の矛盾の有無を判定する判定部と、
前記オントロジーとともに判定結果を出力する出力部と、を備えることを特徴とするオントロジー生成装置。 An acquisition unit for acquiring document data;
A concept information storage unit for storing a concept pair which is a set of vocabulary concepts;
From the document data, among the character strings of the sentences in which the concept pair co-occurs, the dependency relationship between the first and second character strings obtained by replacing each vocabulary representing the concept of the concept pair with a variable and other character strings A first extraction unit for extracting a pattern to be shown;
A pattern information storage unit for storing the extracted pattern;
A second extraction unit that extracts a new concept pair from the document data using the pattern stored in the pattern information storage unit and stores the new concept pair in the concept information storage unit;
A generation unit that generates an ontology that organizes relationships between concepts using the plurality of concept pairs stored in the concept information storage unit;
A determination unit for determining the presence or absence of contradiction between concepts constituting the ontology;
And an output unit that outputs a determination result together with the ontology.
前記パターン情報記憶部は、更に、前記パターンが前記新たな概念ペアの抽出に有効か否かを示す第2ラベルを当該パターンに対応付けて記憶し、
前記第1抽出部は、抽出した前記パターンを構成する言語情報、抽出に用いた前記概念ペア、及び当該概念ペアの前記第1ラベルを素性として機械学習することにより、抽出した前記パターンの前記第2ラベルを生成して、抽出した前記パターンに対応付けて前記パターン情報記憶部に記憶させ、
前記第2抽出部は、前記パターン情報記憶部に記憶されている前記パターンのうち前記第2ラベルが有効を示す前記パターンを用いて、前記文書データから前記新たな概念ペアを抽出して、前記概念情報記憶部に記憶させ、
前記生成部は、前記概念情報記憶部に記憶されている複数の前記概念ペアのうち前記第1ラベルが有効を示す前記概念ペアを用いて、前記オントロジーを生成することを特徴とする請求項1〜3のいずれか1つに記載のオントロジー生成装置。 The concept information storage unit further stores a first label indicating whether the relationship of the concept pair is correct or not in association with the concept pair,
The pattern information storage unit further stores a second label indicating whether or not the pattern is effective for extraction of the new concept pair in association with the pattern,
The first extraction unit performs machine learning using the linguistic information constituting the extracted pattern, the concept pair used for extraction, and the first label of the concept pair as a feature, thereby the first of the extracted pattern. 2 labels are generated, stored in the pattern information storage unit in association with the extracted pattern,
The second extraction unit extracts the new concept pair from the document data using the pattern in which the second label is valid among the patterns stored in the pattern information storage unit, and Store it in the concept information storage unit,
The said generation part produces | generates the said ontology using the said concept pair in which the said 1st label shows validity among the several said concept pairs memorize | stored in the said concept information storage part. The ontology generation device according to any one of?
前記パターン情報記憶部は、前記第1抽出部により抽出された前記パターンを記憶する第1パターン情報記憶部と、ユーザにより登録される前記パターンを記憶する第2パターン情報記憶部と、を含み、
前記第1抽出部は、前記第1概念情報記憶部、及び前記第2概念情報記憶部に記憶されている前記概念ペアを用いて、前記文書データから前記パターンを抽出して、前記第1概念情報記憶部に記憶させ、
前記第2抽出部は、前記第1パターン情報記憶部、及び前記第2パターン情報記憶部に記憶されている前記パターンを用いて、前記文書データから前記新たな概念ペアを抽出して、前記第1概念情報記憶部に記憶させることを特徴とする請求項4に記載のオントロジー生成装置。 The concept information storage unit includes a first concept information storage unit that stores the new concept pair extracted by the second extraction unit, and a second concept information storage unit that stores the concept pair registered by a user. Including,
The pattern information storage unit includes a first pattern information storage unit that stores the pattern extracted by the first extraction unit, and a second pattern information storage unit that stores the pattern registered by a user,
The first extraction unit extracts the pattern from the document data by using the concept pair stored in the first concept information storage unit and the second concept information storage unit, and the first concept Store it in the information storage unit,
The second extraction unit extracts the new concept pair from the document data using the patterns stored in the first pattern information storage unit and the second pattern information storage unit, and The ontology generation apparatus according to claim 4, wherein the ontology generation apparatus is stored in one concept information storage unit.
受け付けられた前記概念ペアを前記第2概念情報記憶部に登録し、受け付けられた前記パターンを前記第2パターン情報記憶部に登録する登録部と、を更に備えることを特徴とする請求項5に記載のオントロジー生成装置。 An accepting unit that accepts input of at least one of the concept pair and the pattern;
The registration unit that registers the accepted concept pair in the second concept information storage unit and registers the accepted pattern in the second pattern information storage unit. The ontology generation device described.
前記出力部は、更に、比較結果を出力することを特徴とする請求項5又は6に記載のオントロジー生成装置。 Comparison of the first label with respect to the same concept pair stored in both the first concept information storage unit and the second concept information storage unit, and the first pattern information storage unit and the second pattern information storage unit A comparison unit that performs at least one of the comparison of the second label with respect to the same pattern stored in both of
The ontology generation apparatus according to claim 5, wherein the output unit further outputs a comparison result.
第1抽出部が、前記文書データから、語彙の概念の組である概念ペアを記憶する概念情報記憶部に記憶されている前記概念ペアが共起する文の文字列のうち、前記概念ペアの概念を表す語彙それぞれを変数に置き換えた第1及び第2文字列と他の文字列との依存関係を示すパターンを抽出して、パターン情報記憶部に記憶させる第1抽出ステップと、
第2抽出部が、前記パターン情報記憶部に記憶されている前記パターンを用いて、前記文書データから新たな概念ペアを抽出し、前記概念情報記憶部に記憶させる第2抽出ステップと、
生成部が、前記概念情報記憶部に記憶されている複数の前記概念ペアを用いて、概念間の関係を整理したオントロジーを生成する生成ステップと、
判定部が、前記オントロジーを構成する概念間の矛盾の有無を判定する判定ステップと、
出力部が、前記オントロジーとともに判定結果を出力部に出力させる出力制御ステップと、を含むことを特徴とするオントロジー生成方法。 An acquisition step in which the acquisition unit acquires document data;
The first extraction unit stores, from the document data, a character string of the concept pair out of a character string of a sentence co-occurring with the concept pair stored in a concept information storage unit that stores a concept pair that is a set of vocabulary concepts. A first extraction step of extracting a pattern indicating a dependency relationship between the first and second character strings obtained by replacing each vocabulary representing a concept with a variable and another character string and storing the pattern in a pattern information storage unit;
A second extraction step in which a second extraction unit extracts a new concept pair from the document data using the pattern stored in the pattern information storage unit and stores the new concept pair in the concept information storage unit;
A generation step of generating an ontology in which relationships between concepts are organized using the plurality of concept pairs stored in the concept information storage unit;
A determination step for determining whether or not there is a contradiction between concepts constituting the ontology; and
And an output control step for causing the output unit to output a determination result together with the ontology.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009070959A JP5430989B2 (en) | 2009-03-23 | 2009-03-23 | Ontology generation apparatus and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009070959A JP5430989B2 (en) | 2009-03-23 | 2009-03-23 | Ontology generation apparatus and method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010224833A true JP2010224833A (en) | 2010-10-07 |
JP5430989B2 JP5430989B2 (en) | 2014-03-05 |
Family
ID=43041959
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009070959A Expired - Fee Related JP5430989B2 (en) | 2009-03-23 | 2009-03-23 | Ontology generation apparatus and method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5430989B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015521301A (en) * | 2011-11-11 | 2015-07-27 | グーグル・インコーポレーテッド | Generate ad campaign |
KR20160066237A (en) * | 2014-12-02 | 2016-06-10 | 주식회사 솔트룩스 | Method and system for constructing ontology instance based on semi-structured data |
-
2009
- 2009-03-23 JP JP2009070959A patent/JP5430989B2/en not_active Expired - Fee Related
Non-Patent Citations (10)
Title |
---|
CSNB200700370001; 鶴岡慶雅: '4-22 オントロジー学習' 人工知能学事典 初版 初版, 20051210, page 262-263, 共立出版株式会社 * |
CSNG200600839008; 上田 俊夫: 'オントロジーエディタProtege-OWLを使ったOWLオントロジー構築' 人工知能学会誌 第21巻,第4号, 20060701, page446-454, (社)人工知能学会 * |
CSNG200800938017; 下畑 さより: 'ラダリング型検索サービスのためのドメイン知識構築,及び,実証実験' 情報処理学会研究報告 第2008巻,第67号, 20080710, page103-108, 社団法人情報処理学会 * |
CSNG200900251004; 鈴木 敏: '辞書からの上位語情報抽出とオントロジー自動生成' 自然言語処理 第16巻,第1号, 20090110, page101-116, 言語処理学会 * |
CSNJ200910112079; 古崎 晃司: '分散型オントロジー構築・利用環境の開発' 1997年度人工知能学会全国大会(第11回)論文集 , 19970624, page245-248, 社団法人人工知能学会 * |
JPN6013013306; 鶴岡慶雅: '4-22 オントロジー学習' 人工知能学事典 初版 初版, 20051210, page 262-263, 共立出版株式会社 * |
JPN6013034722; 下畑 さより: 'ラダリング型検索サービスのためのドメイン知識構築,及び,実証実験' 情報処理学会研究報告 第2008巻,第67号, 20080710, page103-108, 社団法人情報処理学会 * |
JPN6013034723; 上田 俊夫: 'オントロジーエディタProtege-OWLを使ったOWLオントロジー構築' 人工知能学会誌 第21巻,第4号, 20060701, page446-454, (社)人工知能学会 * |
JPN6013034725; 古崎 晃司: '分散型オントロジー構築・利用環境の開発' 1997年度人工知能学会全国大会(第11回)論文集 , 19970624, page245-248, 社団法人人工知能学会 * |
JPN6013034726; 鈴木 敏: '辞書からの上位語情報抽出とオントロジー自動生成' 自然言語処理 第16巻,第1号, 20090110, page101-116, 言語処理学会 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015521301A (en) * | 2011-11-11 | 2015-07-27 | グーグル・インコーポレーテッド | Generate ad campaign |
KR20160066237A (en) * | 2014-12-02 | 2016-06-10 | 주식회사 솔트룩스 | Method and system for constructing ontology instance based on semi-structured data |
KR101675946B1 (en) | 2014-12-02 | 2016-11-15 | 주식회사 솔트룩스 | Method and system for constructing ontology instance based on semi-structured data |
Also Published As
Publication number | Publication date |
---|---|
JP5430989B2 (en) | 2014-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7707026B2 (en) | Multilingual translation memory, translation method, and translation program | |
Christen et al. | Accurate synthetic generation of realistic personal information | |
US8239349B2 (en) | Extracting data | |
CN103140849B (en) | Transliteration device and method | |
CN111488466B (en) | Chinese language marking error corpus generating method, computing device and storage medium | |
Shaalan et al. | Arabic word generation and modelling for spell checking. | |
KR101509727B1 (en) | Apparatus for creating alignment corpus based on unsupervised alignment and method thereof, and apparatus for performing morphological analysis of non-canonical text using the alignment corpus and method thereof | |
US20070011160A1 (en) | Literacy automation software | |
WO2016121048A1 (en) | Text generation device and text generation method | |
Al‐Shawakfa et al. | A comparison study of some Arabic root finding algorithms | |
CN111950263B (en) | Log analysis method and system and electronic equipment | |
CN100429648C (en) | Automatic segmentation of texts comprising chunsk without separators | |
Arias et al. | A framework for managing requirements of software product lines | |
US10650195B2 (en) | Translated-clause generating method, translated-clause generating apparatus, and recording medium | |
JP2020190970A (en) | Document processing device, method therefor, and program | |
CN113010679A (en) | Question and answer pair generation method, device and equipment and computer readable storage medium | |
Uthayamoorthy et al. | Ddspell-a data driven spell checker and suggestion generator for the tamil language | |
JP5430989B2 (en) | Ontology generation apparatus and method | |
Sakkas et al. | Seq2Parse: neurosymbolic parse error repair | |
CN116360794A (en) | Database language analysis method, device, computer equipment and storage medium | |
JP7135730B2 (en) | Summary generation method and summary generation program | |
JP5302784B2 (en) | Machine translation method and system | |
Mande et al. | Regular expression rule-based algorithm for multiple documents key information extraction | |
CN111209724A (en) | Text verification method and device, storage medium and processor | |
Hasso et al. | Enhanced abbreviation–expansion pair detection for glossary term extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110916 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130314 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130319 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130716 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131016 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20131023 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131108 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131204 |
|
LAPS | Cancellation because of no payment of annual fees |