JP2002334091A - Method, device and program for acquiring knowledge and recording medium recording the program - Google Patents
Method, device and program for acquiring knowledge and recording medium recording the programInfo
- Publication number
- JP2002334091A JP2002334091A JP2001140176A JP2001140176A JP2002334091A JP 2002334091 A JP2002334091 A JP 2002334091A JP 2001140176 A JP2001140176 A JP 2001140176A JP 2001140176 A JP2001140176 A JP 2001140176A JP 2002334091 A JP2002334091 A JP 2002334091A
- Authority
- JP
- Japan
- Prior art keywords
- spot
- text information
- phrase
- clauses
- explanation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
【0001】[0001]
【発明の属する技術分野】本発明は、旅行先、商品など
の事物について説明した電子テキストから、事物を説明
している部分(以下、説明句と呼ぶ)を抽出する知識獲
得装置に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a knowledge acquisition apparatus for extracting a part (hereinafter referred to as an explanation phrase) describing an object from an electronic text describing an object such as a travel destination or a product.
【0002】[0002]
【従来の技術】近年、インターネットの普及により、多
くのテキストが電子的に提供されるようになってきた。
こうした状況に鑑みて、知的システムや機械翻訳に利用
する知識ベースをネット上のテキストから自動的に構成
しようとする研究が行われている。2. Description of the Related Art In recent years, with the spread of the Internet, many texts have been provided electronically.
In view of such circumstances, research has been conducted to automatically construct a knowledge base used for intelligent systems and machine translation from texts on the Internet.
【0003】例として、旅行先を選定するための知的シ
ステムを取り上げる。旅行先を提示するシステムとして
は、従来から、「場所」、「価格」などを入力し、要望
にあった旅行先を推薦する旅行検索サイトがある。しか
し、こうした検索システムでは、場所や価格など、「旅
行についての具体的なプランをもっていないユーザ」に
適切な旅行先を提示することは難しい。また、従来の検
索システムでは、「ファミリーで楽しめる」や「スリル
が味わえる」といったキーワードで検索を行う場合、そ
のようなユーザ側の要望に合致した知識ベースが存在し
ない。したがって、こうした曖昧な願望に基づく検索が
難しいという問題点がある。As an example, an intelligent system for selecting a travel destination will be described. As a system for presenting travel destinations, there has conventionally been a travel search site that inputs “place”, “price”, etc., and recommends a travel destination that meets a request. However, with such a search system, it is difficult to present an appropriate travel destination to “users who do not have a specific plan for travel” such as location and price. Further, in the conventional search system, when a search is performed using a keyword such as "enjoy in a family" or "a thrill," there is no knowledge base that meets such a user's request. Therefore, there is a problem that a search based on such ambiguous desires is difficult.
【0004】このように、まだ具体的なプランをもって
いないユーザに適切な旅行先を薦める方法として、ユー
ザの願望となり得るフレーズをシステム側から提示し、
それを選択させる方法が考えられる。このように、ユー
ザの願望となり得るフレーズを提示してやることによ
り、ユーザの潜在的な願望を引き出し、それに基いて適
切な旅行先の検索が可能となる。これを実現するには、
ユーザの願望となり得るフレーズを数多く集めることが
必要となり、こうしたフレーズを電子テキストから自動
的に集める技術が望まれている。As described above, as a method of recommending an appropriate travel destination to a user who does not yet have a specific plan, a phrase that can be a user's desire is presented from the system side,
There is a way to make it select. In this way, by presenting a phrase that can be a user's desire, the user's potential desire can be extracted, and an appropriate travel destination can be searched based on the potential desire. To achieve this,
It is necessary to collect a large number of phrases that can be a user's desire, and a technique for automatically collecting such phrases from an electronic text is desired.
【0005】電子テキストからフレーズを取り出す技術
としては、従来からテキスト自動要約があり、それに
は、テキスト中のキーワード出現頻度に基づき抽出する
重要文抽出法などがある。As a technique for extracting a phrase from an electronic text, there has been an automatic text summarization, and there is an important sentence extraction method for extracting the phrase based on the frequency of appearance of a keyword in the text.
【0006】[0006]
【発明が解決しようとする課題】しかし、このような方
法では、上記例の「ファミリーで楽しめる」といったよ
うな重要単語に隣接しない語や、出現頻度の少ないキー
ワードは取り出せないという問題点がある。このよう
に、従来技術では、テキストからユーザの願望となり得
るフレーズを取り出すのに、出現頻度の多い語に着目し
た方法を用いていたため、テキストにはあまり出現しな
いが重要な語は抽出できないという問題点があった。However, with such a method, there is a problem that words that are not adjacent to important words, such as "enjoy in the family" in the above example, and keywords with a low frequency of appearance cannot be extracted. As described above, in the related art, a method that focuses on words that appear frequently is used to extract a phrase that can be a user's desire from the text. There was a point.
【0007】本発明の目的は、こうした観光案内などの
電子テキストから、観光スポットなどの事物を説明する
部分を抽出する知識獲得方法、装置を提供することにあ
る。[0007] An object of the present invention is to provide a knowledge acquisition method and apparatus for extracting a part describing an object such as a tourist spot from an electronic text such as a tourist guide.
【0008】[0008]
【課題を解決するための手段】上記の目的を達成するた
めに、本発明の知識獲得装置は、スポット語彙データベ
ースとテキスト情報初期データベースと説明テキスト情
報データベースとスポット情報抽出手段と文節情報抽出
手段と係り受け情報抽出手段と説明句構成手段を有す
る。In order to achieve the above object, a knowledge acquiring apparatus according to the present invention comprises a spot vocabulary database, a text information initial database, an explanatory text information database, a spot information extracting means, a phrase information extracting means, It has a dependency information extracting unit and an explanation phrase forming unit.
【0009】スポット情報抽出手段は、スポット名と、
スポット名の事物について記述された説明テキストの組
を入力し、該説明テキストを1文毎に分割してテキスト
番号、スポット名、部分テキストの組からなる部分テキ
スト情報を構成し、テキスト情報初期データベースに格
納し、各部分テキスト情報について、各スポット名につ
いて、語彙である複数のスポット値と、これらスポット
値との関係の種別(関係種別)を保持するスポット語彙
データベース中のスポット値と同一の語彙が出現してい
れば、入力されたスポット名と該文との組に、該スポッ
ト値と、入力されたスポット名と該スポット値との関係
種別との組を付与して説明テキスト情報データを構成
し、説明テキスト情報データベースに格納する。The spot information extracting means includes: a spot name;
A set of explanatory texts describing a spot name object is input, and the explanatory text is divided for each sentence to form partial text information including a set of a text number, a spot name, and a partial text. And the same vocabulary as the spot values in the spot vocabulary database that stores a plurality of spot values, which are vocabulary, and a relationship type (relation type) between these spot values for each spot name for each partial text information Appears, a set of the input spot name and the sentence is assigned a set of the spot value and a relation type between the input spot name and the spot value, and the explanatory text information data is generated. Configure and store in the explanatory text information database.
【0010】文節情報抽出手段は、説明テキスト情報デ
ータベースから説明テキスト情報データの文を入力し、
該文を構成する文節の列(文節列)を出力する。The phrase information extracting means inputs a sentence of explanatory text information data from an explanatory text information database,
A sequence of phrases (phrase sequence) constituting the sentence is output.
【0011】係り受け情報抽出手段は文節列を入力し、
該文節の係り受け関係を抽出し、出力する。The dependency information extracting means inputs a phrase string,
The dependency relation of the phrase is extracted and output.
【0012】説明句構成手段は説明テキスト情報データ
ベースから説明テキスト情報を入力し、(1)該説明テ
キスト情報中の文に対応する関係種別が、説明テキスト
情報中のスポット名と同一のときには、スポット値が格
係の関係になっている文節とその文節から順次係り受け
している文節の集合を取り出し、スポット値に述語の連
体形となっている文節とその文節に係り受けしている文
節の集合を取り出す処理を行い、(2)該説明テキスト
情報中の文に対応する関係種別が、スポット名の種類を
表す語のときには、スポット値に述語の連体形となって
いる文節とその文節に係り受けしている文節の集合を全
て取り出す処理を行い、(3)該説明テキスト情報中の
文に対応する関係種別が、スポット名の一部を表す語の
ときには、スポット値が格係の関係になっている文節と
その文節から順次係り受けしている文節の集合を取り出
し、スポット値に述語の連体形となっている文節とその
文節に係り受けしている文節の集合を取り出す処理を行
う。The explanation phrase constructing means inputs explanation text information from the explanation text information database. (1) When the relation type corresponding to a sentence in the explanation text information is the same as the spot name in the explanation text information, Extract the set of clauses whose values are in a case relation and the clauses that are sequentially related from the clauses. (2) When the relation type corresponding to the sentence in the explanation text information is a word representing the type of the spot name, the phrase having the adjunct form of the predicate in the spot value and the phrase (3) When the relation type corresponding to the sentence in the explanation text information is a word that represents a part of the spot name, A set of clauses whose values are in a case relation and the clauses that are sequentially affected from the clauses are extracted, and the clauses that are adjuncts of the predicates in the spot value and the clauses that are affected by the clause are extracted. Perform a process to retrieve the set.
【0013】スポット情報抽出手段が説明テキスト情報
データを構成することにより、各文中のスポット値とス
ポット名との関係種別を知ることが可能となる。文節情
報抽出手段が文を文節の単位に分割することにより、文
を文節単位で扱うことが可能になる。係り受け情報抽出
手段が、文節間の係り受け関係を出力することにより、
文節の係り受け関係を知ることができ、これに基づい
て、スポット名について書かれた部分を特定することが
可能となる。説明句構成手段が説明テキスト情報中の文
に対応する関係種別に基づいて、該文から、スポット名
について書かれた部分を抽出する。When the spot information extracting means forms the explanation text information data, it is possible to know the relation type between the spot value and the spot name in each sentence. The phrase information extraction unit divides the sentence into phrase units, so that the phrase can be handled in phrase units. The dependency information extracting means outputs the dependency relationship between the phrases,
It is possible to know the dependency relation of the phrase, and based on this, it is possible to specify the portion written about the spot name. The explanatory phrase constructing means extracts, from the sentence based on the relation type corresponding to the sentence in the explanation text information, a portion written about the spot name.
【0014】以上のようにして、本発明によれば、テキ
ストからスポット名について書かれた部分を獲得するこ
とができる。As described above, according to the present invention, it is possible to obtain a portion written about a spot name from a text.
【0015】[0015]
【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して説明する。Next, embodiments of the present invention will be described with reference to the drawings.
【0016】図1を参照すると、本発明の一実施形態の
知識獲得装置はスポット情報抽出部1と文節情報抽出部
2と係り受け情報抽出部3と説明句構成部4とコンテン
ツDB5とスポット語彙DB6とテキスト情報初期DB7と説
明テキスト情報DB8と説明句DB9から構成されている。Referring to FIG. 1, a knowledge acquisition apparatus according to an embodiment of the present invention includes a spot information extraction unit 1, a phrase information extraction unit 2, a dependency information extraction unit 3, an explanatory phrase construction unit 4, a content DB 5, a spot vocabulary, and the like. It consists of DB6, text information initial DB7, explanation text information DB8, and explanation phrase DB9.
【0017】コンテンツDB5は、図2に示すように、ス
ポットを示す名称(スポット名)とスポットについて記
述されたテキスト(説明テキスト)の組の集合が格納さ
れている。また、スポット語彙DB6は、図3のように、
複数の語彙(スポット値)について、スポット値が各ス
ポット名とどのような関係(関係種別)にあるかを対応
付けたデータを格納している。なお、スポット語彙デー
タ中の関係種別は、スポット名称に対応付けられた「sp
ot」と、スポット名称とpart of (下位)の関係にある
「part」と、スポット名称とpart of (上位)の関係に
ある「part *」と、スポット名称とkind of の関係にあ
る「kind」の4種類とする。As shown in FIG. 2, the content DB 5 stores a set of pairs of names (spot names) indicating spots and texts (explanatory texts) describing the spots. In addition, the spot vocabulary DB6, as shown in FIG.
For a plurality of vocabularies (spot values), data is stored in which the spot values are associated with the respective spot names and in what relation (relation type). Note that the relation type in the spot vocabulary data is “sp” associated with the spot name.
ot "," part "having a relationship of spot name and part of (lower)," part * "having a relationship of spot name and part of (higher), and" kind "having a relationship of spot name and kind of ".
【0018】スポット情報抽出部1は、説明テキストを
1文毎に分割する「テキスト分割処理」と、テキスト分
割処理により分割された文からテキスト情報を抽出する
「テキスト情報抽出処理」の二つの処理を行う。The spot information extracting unit 1 has two processes, a "text dividing process" for dividing the explanation text for each sentence and a "text information extracting process" for extracting text information from the sentences divided by the text dividing process. I do.
【0019】テキスト分割処理は、コンテンツDB5から
スポット名と説明テキストの組を取り出し、該説明テキ
ストを文単位に分割してそれぞれ部分テキストとし、該
部分テキストに1から順に番号を与え、コンテンツDB5
から取り出したスポット名と合わせて、|テキスト番
号、スポット名、部分テキスト|の3つの組からなるデ
ータ(以下、部分テキスト情報と呼ぶ)のリストを構成
する。文単位への分割は、例えば、説明テキストの文字
列を1文字ずつ調べ、句点「。」が出現した個所でテキ
ストの分割を行うという方法で実現することができる。
テキスト分割処理は、コンテンツDB5中の全てのスポッ
ト名と説明テキストの組に対して部分テキスト情報を作
成し、これをテキスト情報初期DB7として構築する。部
分テキスト情報のリスト例を図4に示す。In the text division process, a set of a spot name and a description text is extracted from the content DB 5, the description text is divided into sentence units, each of which is a partial text.
A list of data (hereinafter, referred to as partial text information) composed of three sets of | text number, spot name, and partial text | The division into sentence units can be realized by, for example, examining the character string of the explanation text one character at a time, and dividing the text at the place where the period "."
In the text division processing, partial text information is created for all pairs of spot names and explanation texts in the content DB 5 and is constructed as the text information initial DB 7. FIG. 4 shows an example of a list of partial text information.
【0020】テキスト情報抽出処理は、テキスト情報初
期DB7から部分テキスト情報を順に取り出し、部分テキ
スト情報中のスポット名と一致するスポット名を含むス
ポット語彙データをスポット語彙DB6から取り出す。こ
こに、スポット語彙データとは、図3に示す通り、複数
のスポット値について、該スポット値と各スポットとの
関係種別を対応付けたデータである。次に、テキスト情
報抽出処理は、スポット語彙DB6から取り出したスポッ
ト語彙データ中の各スポット値について、部分テキスト
情報中の部分テキストに該スポット値と一致する文字列
が含まれているものだけを選び出す。そして、こうして
選ばれたスポット値と「該スポット値と対応する関係種
別」を組にして、部分テキスト情報と合わせて、説明テ
キスト情報データを構成する。テキスト情報抽出処理
は、テキスト情報初期DB7中の全ての部分テキスト情報
に対して説明テキスト情報データを作成し、これを説明
テキスト情報DB8として構築する。説明テキスト情報DB
8の構成例を図5に示す。In the text information extraction process, partial text information is sequentially extracted from the text information initial DB 7, and spot vocabulary data including a spot name matching a spot name in the partial text information is extracted from the spot vocabulary DB 6. Here, the spot vocabulary data is data in which a plurality of spot values are associated with a type of relationship between the spot values and each spot, as shown in FIG. Next, the text information extraction process selects, for each spot value in the spot vocabulary data extracted from the spot vocabulary DB 6, only those whose partial text in the partial text information includes a character string that matches the spot value. . Then, the spot value selected in this way and the “relation type corresponding to the spot value” are combined to form explanatory text information data together with the partial text information. In the text information extraction processing, explanatory text information data is created for all the partial text information in the initial text information DB 7, and this is constructed as the explanatory text information DB 8. Explanation text information DB
8 shows an example of the configuration of FIG.
【0021】文節情報抽出部2は、説明テキスト情報DB
8から説明テキスト情報データを入力し、該文を構成す
る文節の列(文節列)を出力する。文節列を得るには、
従来技術である形態素解析技術を用いる。具体的には、
説明テキスト情報DB8から説明テキスト情報データを順
に読み込み、説明テキスト情報データ中の部分テキスト
を入力文字列として、該入力文字列の左端の文字列で始
まる入力文の文字列と、単語辞書の見出し語との照合を
行い、対応する全ての見出し語のうち、最も長い見出し
語を一つ目の単語とする。次に、該単語を入力文字列か
ら除いた文字列を入力文字列として単語辞書との照合が
行われる。次の照合も最初の照合と同様に行われ、入力
文字列がなくなるまで単語を抽出する。こうして集めら
れた単語の列(以下、単語列と呼ぶ)と、品詞の列(以
下、品詞列と呼ぶ)は、単語辞書において見出し語に対
応する品詞名を並べたものを利用し、単語列を1語以上
の自立語(名詞、動詞など)+0語以上の付属語(助
詞、接尾辞など)からなる単位の文節列にまとめる。こ
うして集められた文節の列が文節列である。The phrase information extraction unit 2 includes an explanation text information DB
The description text information data is input from step 8 and a sequence of phrases (phrase sequence) constituting the sentence is output. To get the phrase sequence,
The conventional morphological analysis technology is used. In particular,
The explanation text information data is sequentially read from the explanation text information DB 8, and the partial text in the explanation text information data is used as an input character string, and the character string of the input sentence starting with the character string at the left end of the input character string and the headword of the word dictionary And the longest headword among all corresponding headwords is set as the first word. Next, a character string obtained by removing the word from the input character string is used as an input character string, and collation with the word dictionary is performed. The next collation is performed in the same manner as the first collation, and words are extracted until there is no more input character string. The word sequence (hereinafter referred to as a word sequence) and the part-of-speech sequence (hereinafter referred to as a part-of-speech sequence) thus collected are obtained by arranging part-of-speech names corresponding to headwords in a word dictionary. Are grouped into a unitary phrase string consisting of one or more independent words (nouns, verbs, etc.) + 0 or more attached words (particles, suffixes, etc.). The phrase sequence thus collected is a phrase sequence.
【0022】係り受け情報抽出部3は、文節情報抽出部
2で取得した文節列を入力し、該文節の係り受け情報を
出力する。文節の係り受け情報を得るには、従来技術の
係り受け解析技術を用いる。具体的には、文節列から文
節に働きを示す属性を付与し、それに基いて並列構造や
係り受け構造の解析を行う。文節に付与する属性として
は、「体言」、「用言」、「ガ格」、「ヲ格」、「体言
並列のキー」、「用言並列キー」などがある。並列キー
とは、例えば、「本と鉛筆を買った」の「本と」のよう
に、並列構造の存在を示す表現を並列構造のキーと呼
ぶ。並列構造の分析では、例えば、「体言並列キー」の
文節があれば、その前後の文節列から、末尾が「体言」
文節で、最も類似する文節列を求め、「並列構造の範囲
とする」。係受けの分析は、例えば、「『ガ格』文節は
『用言』に係る」などの規則によって行われる。こうし
て得られた文節間の係り受け情報を係り受け情報リスト
として構成する。ここで、係り受け情報リストとは、
{係り受け元文節、係り受け先文節、係り受け属性}の
3つ組からなるデータのリストである。係り受け属性と
は、上位の文節と下位の文節との係り受け関係を示す。
たとえば、格係の関係にある「格係」と、格助詞
“の”、連体格助詞相当語、連体詞による関係の「体
体」と、述語の連体形による関係の「埋込」等がある。
例えば、3文節の{“日本最長を”、“誇る”、“吊り
橋”}というテキストの例文において、このスポット値
{吊り橋}の係り受けは、{“誇る”→“吊り橋”}と
なっており、「誇る」から「吊り橋」文節の係り受け関
係は、「述語の連体形による関係」で係り受け属性「埋
込」を付与する。このように、「埋込」、「体体」、
「格係」等の属性を係り受けが生じる文節の組み合わせ
毎に付与する。The dependency information extraction unit 3 inputs the phrase string acquired by the phrase information extraction unit 2 and outputs dependency information of the phrase. In order to obtain phrase dependency information, a conventional dependency analysis technique is used. Specifically, an attribute indicating a function is added to a phrase from a phrase sequence, and a parallel structure and a dependency structure are analyzed based on the attribute. The attributes to be added to the clause include “nominal”, “decim”, “ga”, “、”, “key of parallel”, “parallel key”, and the like. The expression “parallel key” refers to an expression indicating the existence of a parallel structure, such as “book and pencil” and “book”. In the analysis of the parallel structure, for example, if there is a clause of “Nominal parallel key”, the end of “Nominal”
The most similar phrase sequence is found in the phrase, and "the range of the parallel structure" is determined. The analysis of the dependency is performed according to a rule such as, for example, “a“ ga-ga ”clause pertains to“ declarations ””. The dependency information between the phrases thus obtained is configured as a dependency information list. Here, the dependency information list is
This is a list of data consisting of three sets of {dependency source clause, dependency destination clause, dependency attribute}. The dependency attribute indicates a dependency relationship between a higher-level clause and a lower-level clause.
For example, there is a case relation "case", a case particle "no", an adjunct case particle, an "adjective" relation "body", and a predicate adnominal form "embed". .
For example, in the example sentence of the three phrases {"Longest in Japan", "Proud", and "Suspension Bridge"}, the dependency of this spot value "Suspension Bridge" is "" Proud "→" Suspension Bridge "}. As for the dependency relationship from the phrase “proud” to the “suspension bridge”, the dependency attribute “embedded” is given by “relation by the union form of the predicate”. Thus, "embed", "body",
An attribute such as “case” is assigned to each combination of clauses in which dependency occurs.
【0023】説明句構成部4は、部分テキストのテキス
トパターンを判定する「パターン判定処理」と、該部分
テキストの係り受け情報から説明句を生成する「説明句
生成処理」の二つの処理を行う。The explanatory phrase constructing unit 4 performs two processes: a "pattern determining process" for determining the text pattern of the partial text and an "explanatory phrase generating process" for generating an explanatory phrase from the dependency information of the partial text. .
【0024】パターン判定処理は、説明テキスト情報DB
8から説明テキスト情報データを順に取り出し、説明テ
キスト情報データ中に存在する全ての関係種別を取り出
す。次に、関係種別が複数存在するか調べる。複数存在
する場合は、まず、パターン判定テーブルの組みフラグ
が「1」となっている列の関係種別と一致するか調べ
る。ここに、パターン判定テーブルとは、部分テキスト
中のスポット値が含まれる文節の係り受け関係から、テ
キストパターンを判定するための係り受け関係と関係種
別の組み合わせを定義したテーブルである。パターン判
定テーブルは、図6に示すように、関係種別が1つもし
くは2つの組で構成されているかを判定する「組みフラ
グ」と、パターン値を表す「パターン」と、関係種別に
対応するスポット値に上位の文節から係り受けが存在す
るかを判定するための「上位係り受けフラグ1」と、関
係種別に対応するスポット値が下位の文節に係り受けが
存在しているかを判定するための「下位係り受けフラグ
1」と、そのスポット値に対応する関係種別の「関係種
別1」の組からなる。また、組フラグが「1」の場合に
は、さらに「上位係り受けフラグ2」と「下位係り受け
フラグ2」と「関係種別2」の組からなる。次に、該関
係種別がパターン判定テーブルの最初の関係種別と、次
の該関係種別がパターン判定テーブルの次の関係種別と
一致するか調べる。両方の関係種別が一致する場合は、
説明テキスト情報データから該関係種別に対応するスポ
ット値を取り出し、該スポット値と一致する文字列が、
係り受け情報の係り受け元文節に含まれており、該係り
受け元文節に対応する係り受け属性が「格係」で、かつ
係り受け先文節にも含まれており、該係り受け先文節に
対応する係り受け属性が「埋込」もしくは、「体体」で
あるか調べる。該スポット値と一致する文字列が両方に
含まれていて、かつ両方の係り受け属性が一致した場合
は、パターン判定テーブルの上位係り受けフラグ「0以
外」、下位係り受けフラグ「1」となっているか判定す
る。また、該スポット値と一致する文字列が、係り受け
情報の係り受け元文節のみに含まれている場合は、該係
り受け元文節に対応する係り受け属性が「格係」である
か調べる。一致した場合は、パターン判定テーブルの上
位係り受けフラグ「0」、下位係り受けフラグ「1」と
なっているか判定する。次に、説明テキスト情報データ
中の次の該関係種別に対応するスポット値を取り出し、
該スポット値と一致する文字列が、係り受け情報の係り
受け先文節に含まれている場合は、パターン判定テーブ
ルの上位係り受けフラグ「1」、下位係り受けフラグ
「0」となっているか判定する。以上のパターンの組み
合わせに一致したパターン値が説明テキスト情報データ
中の該部分テキストのテキストパターンとなる。The pattern determination process is performed in the explanation text information DB
8, the description text information data is sequentially extracted, and all the relation types existing in the explanation text information data are extracted. Next, it is checked whether a plurality of relation types exist. If there are a plurality of them, first, it is checked whether or not they match the relation type of the column whose combination flag in the pattern determination table is “1”. Here, the pattern determination table is a table that defines a combination of a dependency relationship and a relationship type for determining a text pattern from a dependency relationship of a clause including a spot value in a partial text. As shown in FIG. 6, the pattern determination table includes a “combination flag” for determining whether the relation type is composed of one or two sets, a “pattern” representing a pattern value, and a spot corresponding to the relation type. A “higher-order dependency flag 1” for determining whether a dependency exists from a higher-ranking clause in the value, and a spot value corresponding to the relation type for determining whether a dependency exists in a lower-ranking clause It is composed of a set of “lower-order dependency flag 1” and “relation type 1” of the relation type corresponding to the spot value. When the set flag is “1”, the set further includes a set of “upper-order dependency flag 2”, “lower-order dependency flag 2”, and “relation type 2”. Next, it is checked whether the relation type matches the first relation type in the pattern determination table and the next relation type matches the next relation type in the pattern determination table. If both relationship types match,
A spot value corresponding to the relation type is extracted from the explanation text information data, and a character string that matches the spot value is
The dependency attribute included in the dependency source clause of the dependency information is “case” and the dependency attribute corresponding to the dependency source clause is also included in the dependency destination clause. Check whether the corresponding dependency attribute is “embedded” or “body”. If a character string that matches the spot value is included in both, and both dependency attributes match, the upper dependency flag “other than 0” and the lower dependency flag “1” in the pattern determination table are set. Is determined. When a character string that matches the spot value is included only in the dependency source clause of the dependency information, it is checked whether the dependency attribute corresponding to the dependency source clause is “case”. If they match, it is determined whether the upper-order dependency flag is “0” and the lower-order dependency flag is “1” in the pattern determination table. Next, the spot value corresponding to the next relation type in the explanation text information data is extracted,
If a character string that matches the spot value is included in the dependency clause of the dependency information, it is determined whether the upper dependency flag is “1” and the lower dependency flag is “0” in the pattern determination table. I do. The pattern value that matches the combination of the above patterns becomes the text pattern of the partial text in the explanation text information data.
【0025】上記パターンで一致しない場合と、説明テ
キスト情報データ中の関係種別の数が一つの場合は、パ
ターン判定テーブルの組フラグ「0」の関係種別と個々
に一致するか調べる。該関係種別と一致した場合は、該
関係種別に対応するスポット値を取り出し、該スポット
値と一致する文字列が、係り受け情報の係り元文節に含
まれており、該係り受け元文節に対応する係り受け属性
が「格係」で、また係り受け先文節にも含まれており、
該係り受け先文節に対応する係り受け属性が「埋込」も
しくは「体体」であるか調べる。両方に含まれていて、
かつ両方の係り受け属性が一致した場合は、パターン判
定テーブルの上位係り受けフラグ「0以外」、下位係り
受けフラグ「1」となっているか判定する。また、該ス
ポット値と一致する文字列が、係り受け情報の受け元文
節のみに含まれており、該係り受け元文節に対応する係
り受け属性が「格係」であるか調べる。一致した場合
は、パターン判定テーブルの上位係り受けフラグ
「0」、下位係り受けフラグ「1」となっているか判定
する。また、該スポット値と一致する文字列が、係り受
け情報の係り受け先文節のみに含まれている場合は、パ
ターン判定テーブルの上位係り受けフラグ「1」、下位
係り受けフラグ「0」となっているか判定する。以上の
パターンの組み合わせに一致したパターン値が説明テキ
スト情報データ中の該部分テキストのテキストパターン
となる。When the patterns do not match and when the number of relation types in the explanatory text information data is one, it is checked whether they individually match the relation types of the set flag “0” in the pattern judgment table. In the case of matching with the relation type, the spot value corresponding to the relation type is extracted, and the character string matching with the spot value is included in the dependency source clause of the dependency information and corresponds to the dependency source clause. Dependency attribute is "case" and is also included in the dependency clause,
It is checked whether the dependency attribute corresponding to the dependency destination clause is “embedded” or “body”. Included in both,
If both dependency attributes match, it is determined whether the upper dependency flag is "other than 0" and the lower dependency flag is "1" in the pattern determination table. Further, it is checked whether a character string that matches the spot value is included only in the source clause of the dependency information, and whether the dependency attribute corresponding to the dependency source clause is “case”. If they match, it is determined whether the upper-order dependency flag is “0” and the lower-order dependency flag is “1” in the pattern determination table. When the character string that matches the spot value is included only in the dependency clause of the dependency information, the upper dependency flag “1” and the lower dependency flag “0” of the pattern determination table are set. Is determined. The pattern value that matches the combination of the above patterns becomes the text pattern of the partial text in the explanation text information data.
【0026】説明句生成処理は、パターン判定処理にて
獲得したパターン値から、該関係種別に対応するパター
ン判定テーブルの上位係り受けフラグを判定する。上位
係り受けフラグが「2」のとき、説明テキスト情報中の
該関係種別に対応するスポット値を取り出し、該スポッ
ト値が係り受け情報の係り受け先文節中の文字列中に含
まれているか判定する。一致する文字列が存在する場合
は、該係り受け先文節に対応する受け元文節の文節を取
り出し、説明句2とする。そして、取り出した、該係り
受け元文節の文字列をキーに再度、係り受け情報の係り
受け先文節を検索し、一致する文字列が存在すると、該
係り受け先文節に対応する係り受け元文節の文節を取り
出し、説明句2の前に連結し、説明句2とする。この作
業を係り受け先文節の文字列が一致しなくなるまで繰り
返す。また、該関係種別に対応するパターン判定テーブ
ルの上位係り受けフラグが「1」の場合は、説明テキス
ト情報データ中の該関係種別に対応するスポット値を取
り出し、該スポット値が係り受け情報の係り受け先文節
中の文字列に含まれているか判定する。一致する文字列
が存在する場合は、該係り受け先文節に対応する係り受
け元文節の文節を取り出し、説明句1とする。そして取
り出した、該係り受け元文節の文字列をキーに再度、係
り受け情報の係り受け先文節を検索し、一致する文字列
が存在すると、該係り受け先文節に対応する係り受け元
文節の文節を取り出し、説明句1の前に連結し、説明句
1とする。この作業を係り受け先文節の文字列が一致し
なくなるまで繰り返す。該関係種別に対応する説明句の
生成が終了した時点で、説明テキスト情報データの該関
係種別に対応する列のスポット名、説明句1、説明句2
を付与し、説明句DB9を構成する。ここで、{スポット
名、パターン値、説明句1、説明句2}の3つの組で説
明句データを作成し、説明句DB9として構築する。ただ
し、説明句1または説明句2が複数作成された場合は、
その多い方に合わせて説明句データを作成する。In the explanatory phrase generation processing, a higher-order dependency flag of the pattern determination table corresponding to the relation type is determined from the pattern value obtained in the pattern determination processing. When the higher-order dependency flag is “2”, the spot value corresponding to the relation type in the explanation text information is extracted, and it is determined whether the spot value is included in the character string in the dependency destination clause of the dependency information. I do. If there is a matching character string, the phrase of the source clause corresponding to the dependency clause is extracted and set as the explanatory phrase 2. Then, using the extracted character string of the dependency source clause as a key, the dependency destination clause of the dependency information is searched again, and if a matching character string exists, the dependency source clause corresponding to the dependency destination clause is found. Is extracted and concatenated before description phrase 2 to form description phrase 2. This operation is repeated until the character strings of the destination clause no longer match. When the higher-order dependency flag of the pattern determination table corresponding to the relation type is “1”, a spot value corresponding to the relation type in the explanatory text information data is extracted, and the spot value is used as the dependency information. It is determined whether it is included in the character string in the destination clause. If there is a matching character string, the clause of the dependency source clause corresponding to the dependency destination clause is extracted and set as the explanatory phrase 1. Then, using the extracted character string of the dependency source clause as a key, a search is again made for the dependency clause of the dependency information. If a matching character string exists, the dependency source clause corresponding to the dependency source clause is searched. The clause is taken out and concatenated before the explanatory phrase 1 to obtain the explanatory phrase 1. This operation is repeated until the character strings of the destination clause no longer match. When the generation of the description phrase corresponding to the relation type is completed, the spot name of the column of the description text information data corresponding to the relation type, description phrase 1, description phrase 2
To form an explanatory phrase DB9. Here, explanation phrase data is created by three sets of {spot name, pattern value, explanation phrase 1, explanation phrase 2}, and is constructed as an explanation phrase DB9. However, if multiple explanation phrases 1 or 2 are created,
The explanation phrase data is created in accordance with the larger one.
【0027】以上のようにして、コンテンツDB5中のス
ポット名と説明テキストの組からスポット名を説明する
ために必要な説明句DB9を出力することができる。As described above, it is possible to output the explanation phrase DB9 necessary for explaining the spot name from the set of the spot name and the explanation text in the content DB5.
【0028】次に、図7に示す、コンテンツDB5から読
み込んだスポット名{琴引浜}と、説明テキスト{網野
町の北東部に位置する琴引浜は、・・・}の組の例と、
図8に示す、スポット名に対するスポット語彙DB6の例
を元に上記各部の処理について詳しく説明する。Next, as shown in FIG. 7, an example of a set of a spot name {Kotohikihama} read from the content DB 5 and a description text {Kotohikihama located in the northeastern part of Amino-cho,.
The processing of each section will be described in detail based on the example of the spot vocabulary DB 6 for the spot names shown in FIG.
【0029】スポット情報抽出部1は、図7に示す例の
スポット名{琴引浜}と、説明テキスト{網野町の北東
部に位置する琴引浜は、・・・}を入力し、該説明テキ
ストの分割を行う(テキスト分割処理)。説明テキスト
は部分テキストとして{網野町の北東部に・・・}、
{浜の一部には、・・・}のように5分割され、それぞ
れにテキスト番号、スポット名を付与して、部分テキス
ト情報のリストをテキスト情報初期DB7として構成す
る。このテキスト情報初期DB7の格納例を図9に示す。The spot information extraction unit 1 inputs the spot name {Kotohikihama} in the example shown in FIG. 7 and the explanation text {Kotohikihama located in the northeastern part of Amino-cho,. Is divided (text division processing). The explanatory text is a partial text に Northeast part of Amino-cho ...},
A part of the beach is divided into five parts as in..., And a text number and a spot name are assigned to each part, and a list of partial text information is configured as a text information initial DB 7. FIG. 9 shows a storage example of the text information initial DB 7.
【0030】テキスト情報抽出処理は、テキスト情報初
期DB7から部分テキスト情報を順に取り出し、スポット
名の{琴引浜}と一致するスポット語彙DB6の語彙デー
タを取り出す。テキスト番号「1」の部分テキスト中
の、スポット語彙DB6のスポット値と一致した文字列は
「琴引浜」、「海岸」である。部分テキスト情報のテキ
スト番号「1」、スポット名「琴引浜」、部分テキスト
「網野町の北東部に・・・」と該部分テキスト中に含ま
れていた二つの関係種別とスポット値の組の{spot:琴
引浜}、{kind:海岸}からなる説明テキスト情報デー
タを作成し、説明テキスト情報DB8を構成する。残りの
部分テキストについても同様の処理を行う。テキスト番
号「5」の部分テキスト情報については、スポット語彙
DB6中のスポット値と一致する文字列が存在しないた
め、説明テキスト情報データは出力されない。この説明
テキスト情報DB8の出力例を図10に示す。In the text information extraction processing, the partial text information is sequentially extracted from the text information initial DB 7, and the vocabulary data of the spot vocabulary DB 6 corresponding to the spot name {Kotohikihama} is extracted. The character strings in the partial text of the text number “1” that match the spot value of the spot vocabulary DB 6 are “Kotobiki Beach” and “Coast”. The text number “1” of the partial text information, the spot name “Kotohikihama”, the partial text “in the northeastern part of Amino-cho ...” and the set of two relation types and spot values included in the partial text It creates explanation text information data consisting of {spot: Kotohikihama} and {kind: coast} and composes explanation text information DB8. The same processing is performed on the remaining partial text. For the partial text information of text number "5", the spot vocabulary
Since there is no character string that matches the spot value in DB6, no explanation text information data is output. FIG. 10 shows an output example of the explanatory text information DB8.
【0031】これより以下は、テキスト番号「1」を処
理する例にて説明する。Hereinafter, an example in which the text number "1" is processed will be described.
【0032】文節情報抽出部2は、説明テキスト情報DB
8の説明テキスト情報データを順に取り出し、文節情報
を出力する。テキスト番号「1」の説明テキスト情報デ
ータに対しては、{“網野町の”、“北東部に”、“位
置する”、“琴引浜は、”、“全長:1.8kmの”、
“白砂青松の”、“大変”、“美しい”、“海岸で
す。”}の文節列を出力する。The phrase information extraction unit 2 is provided with an explanation text information DB
8 are extracted in order and phrase information is output. For the explanatory text information data of text number "1", "{" in Amino-cho, "in the northeast", "located", "Kotobikihama", "total length: 1.8km",
The phrase string of “white sand blue pine”, “very”, “beautiful”, “shore” is output.
【0033】係り受け情報抽出部3は、スポット情報抽
出部1から出力された文節列を入力して、文節毎に係り
受け情報を出力する。テキスト情報番号「1」の説明テ
キスト情報に対しては、図11に示すように、{{網野
町の:北東部に:体体}、{北東部に:位置する:格
係}、{位置する:琴引浜は、:埋込}、{琴引浜
は、:海岸です。:格係}、{全長:1.8kmの:体
体}、{1.8kmの:白砂青松の:体体}、{白砂青松
の:海岸です。:体体}、{大変:美しい:副詞}、
{美しい:海岸です。:埋込}、{海岸です。:NIL:N
IL}}の係り受け情報を出力する。The dependency information extraction unit 3 receives the phrase string output from the spot information extraction unit 1 and outputs dependency information for each phrase. For the description text information of text information number “1”, as shown in FIG. 11, {Amino town: in the northeast: body}, {in the northeast: located: case in charge}, {position To: Kotobiki beach: embedded}, Kotobiki beach: coast. : Body}, {Length: 1.8km: Body}, 1.8km: White sand and blue pine: Body, {White sand and blue pine: Beach. : Body}, {Very: Beautiful: Adverb},
{Beautiful: The coast. : Embed 埋,} beach. : NIL: N
Outputs dependency information of IL}}.
【0034】説明句構成部4は、まず、パターン判定処
理として、説明テキスト情報DB8から説明テキスト情報
データを順に取り出す。テキスト番号「1」に対応する
関係種別として「spot」、「kind」が取り出される。関
係種別が複数であるため、図6のパターン判定テーブル
の組フラグ「1」となっている列の関係種別と両方の関
係種別が一致するか判定する。説明テキスト情報データ
の関係種別が「spot」、「kind」の組み合わせになって
いることから、パターン値「pt1」、「pt2」が候補と
判定できる。次に、最初の関係種別「spot」に対応する
スポット値「琴引浜」と一致する文字列が、係り受け情
報抽出部3から出力された係り受け情報の係り受け元文
節と係り受け先文節に含まれているかを調べ、かつ、係
り受け元文節に対応する係り受け属性が「格係」で、係
り受け先文節に対応する係り受け属性が「埋込」もしく
は「体体」であるか判定する。係り受け情報の3番目の
{位置する:琴引浜は、:埋込}の係り受け先文節と、
4番目の{琴引浜は、:海岸です。:格係}の係り受け
元文節の両方に存在し、係り受け属性も「埋込」、「格
係」で一致する。パターン判定テーブルの上位係り受け
フラグ「0以外」、下位係り受けフラグ「1」の条件と
一致することから、テキスト番号1に対応する対応する
パターン値は「pt2」となる。The explanation phrase constructing section 4 first extracts the explanation text information data from the explanation text information DB 8 in order as the pattern judgment processing. “Spot” and “kind” are extracted as the relation types corresponding to the text number “1”. Since there are a plurality of relationship types, it is determined whether the relationship type of the column with the set flag “1” in the pattern determination table of FIG. Since the relationship type of the explanation text information data is a combination of “spot” and “kind”, the pattern values “pt1” and “pt2” can be determined as candidates. Next, a character string that matches the spot value “Kotohikihama” corresponding to the first relation type “spot” is used as the dependency source clause and the dependency destination clause of the dependency information output from the dependency information extraction unit 3. Check whether it is included and determine whether the dependency attribute corresponding to the dependency source clause is "case" and the dependency attribute corresponding to the dependency clause is "embedded" or "body" I do. The third line of the dependency information is located at: Kotobikihama: The embedding destination clause and
The fourth is Kotohiki Beach: The coast. : Exists in both of the dependency source clauses of case}, and the dependency attribute matches “embed” and “case”. The pattern value corresponding to the text number 1 is “pt2” because the conditions of the upper dependency flag “other than 0” and the lower dependency flag “1” of the pattern determination table are matched.
【0035】説明句生成処理は、取得したパターン値
「pt2」から、パターン判定テーブルのパターン値pt2
の列の上位係り受けフラグが「2」であるため、説明テ
キスト情報データ中の関係種別「spot」に対応するスポ
ット値「琴引浜」を取り出す。このスポット値が、図1
1に示す係り受け情報の係り受け先文節中の文字列と一
致するか判定する。スポット値「琴引浜」が係り受け情
報の3番目の係り受け先文節に含まれているため、この
係り受け先文節に対応する係り受け元文節情報「位置す
る」を説明句2として取り出す。そして、取り出した係
り受け元文節「位置する」の文字列をキーとそして再
度、係り受け情報の係り受け先文節を検索する。一致す
る文字列が2番目の係り受け先文節に含まれているた
め、この係り受け先文節に対応する係り受け元文節「北
東部に」を説明句2の前に連結し、説明句2とする。こ
の作業を繰り返すことにより、説明句2は「網野町の北
東部に位置する」となる。次に、パターン判定テーブル
のパターン値pt2の次の上位係り受けフラグを判定す
る。上位係り受けフラグが「1」であるため、説明テキ
スト情報データ中の次の関係種別に対応するスポット値
「海岸」を取り出す。このスポット値が、図11中の係
り受け情報の係り受け先文節中の文字列と一致するか判
定する。スポット値「海岸」が係り受け情報の7、9番
目の文節に含まれているため、この2つの係り受け先文
節に対応する係り受け元文節「白砂青松の」、「美し
い」を説明句1として取り出す。ここで取り出された2
つの係り受け元文節「白砂青松の」、「美しい」の文字
列をキーとして再度、係り受け情報の係り受け先文節を
検索する。「白砂青松の」については、6番目の係り受
け先文節に含まれているため、この係り受け先文節に対
応する係り受け元文節を説明句1の前に連結し、説明句
1とする。ここで取り出された係り受け元文節をキーと
して再度、係り受け情報の係り受け先文節を検索する。
一致する文字列の文節が見つからなくなるまで繰り返
し、片方の説明句1は「全長1.8kmの白砂青松の」と
なる。そして、もう一つの説明句1「美しい」について
も同様の判定を行い、説明句1は「大変美しい」とな
る。テキスト番号「1」の説明句の生成が終了した時点
で、今回は、説明句1が2つの作成されたため、{琴引
浜;全長1.8kmの白砂青松の;網野町の北東部に位置
する}と{琴引浜;大変美しい;網野町の北東部に位置
する}の2つの説明句データを説明句DB9に構成する。
ここで抽出される説明句の手順を図12、13、14
に、構成される説明DB9を図15に示す。The explanation phrase generation processing is based on the acquired pattern value “pt2” and the pattern value pt2 in the pattern determination table.
Since the upper-level dependency flag in the column of “2” is “2”, the spot value “Kotohikihama” corresponding to the relation type “spot” in the explanation text information data is extracted. This spot value is
It is determined whether the character string matches the character string in the dependency destination clause of the dependency information shown in FIG. Since the spot value “Kotobikihama” is included in the third dependency clause of the dependency information, the dependency source clause information “located” corresponding to this dependency clause is extracted as the explanatory phrase 2. Then, the extracted character string of the dependency source phrase “located” is used as a key, and the dependency destination phrase of the dependency information is searched again. Since the matching character string is included in the second dependency clause, the dependency source clause "northeast" corresponding to this dependency clause is connected before description phrase 2, and the description phrase 2 I do. By repeating this operation, the explanatory phrase 2 becomes “located in the northeastern part of Amino-cho”. Next, a higher order dependency flag next to the pattern value pt2 in the pattern determination table is determined. Since the higher-order dependency flag is “1”, the spot value “coast” corresponding to the next relation type in the explanation text information data is extracted. It is determined whether this spot value matches the character string in the dependency destination clause of the dependency information in FIG. Since the spot value “coast” is included in the seventh and ninth clauses of the dependency information, the dependency phrases “white sand and blue pine” and “beautiful” corresponding to the two dependency clauses are explanatory phrases 1 Take out as. 2 taken out here
The dependency destination phrase of the dependency information is searched again using the character strings of the two dependency source phrases "white sand blue pine" and "beautiful" as keys. Since “Shirasago Aomatsu no” is included in the sixth dependency clause, the dependency source clause corresponding to this dependency clause is connected before description phrase 1 to form description phrase 1. The dependency destination clause extracted from the dependency information is searched again using the extracted dependency source clause as a key.
Repeat until no phrase with a matching character string is found, and one of the explanatory phrases 1 is “1.8 km of white sand and blue pine”. Then, the same determination is made for another explanatory phrase 1 “beautiful”, and the explanatory phrase 1 becomes “very beautiful”. At the time when the description phrase for text number "1" has been generated, this time, two description phrases 1 have been created, so this is located in Kotohikihama; 1.8km in length of white sand and blue pine; northeast of Amino-cho説明 and {Kotohikihama; very beautiful; located in the northeastern part of Amino Town} are composed in the explanatory phrase DB9.
The procedure of the description phrase extracted here is shown in FIGS.
FIG. 15 shows the description DB 9 configured.
【0036】なお、図1に示したスポット情報抽出部
1、文節情報抽出部2、係り受け情報抽出部3、説明句
構成部4からなる処理は知識獲得プログラムとしてフロ
ッピィ・ディスク、CD―ROM、光磁気ディスク、DVD等の
記録媒体に記録し、パソコン等のコンピュータ上で実行
することができる。The processing including the spot information extracting unit 1, the phrase information extracting unit 2, the dependency information extracting unit 3, and the explanatory phrase constructing unit 4 shown in FIG. 1 is a knowledge acquisition program such as a floppy disk, a CD-ROM, It can be recorded on a recording medium such as a magneto-optical disk or a DVD and executed on a computer such as a personal computer.
【0037】[0037]
【発明の効果】以上説明したように、本発明は、観光案
内文書などの電子テキストから、観光スポットなどの事
物を説明する部分を抽出し、知識ベースを構成すること
により、従来の検索システムに対し、ユーザ願望なり得
るフレーズをシステム側から提示し、ユーザの潜在的な
願望を導き出し、ユーザの願望に合致した検索システム
を構築することが可能となる。As described above, according to the present invention, a portion describing an object such as a sightseeing spot is extracted from an electronic text such as a tourist guide document, and a knowledge base is constructed. On the other hand, it is possible to present a phrase that can be a user's desire from the system side, derive a potential desire of the user, and construct a search system that matches the user's desire.
【図1】本発明の一実施形態の知識獲得装置の構成図で
ある。FIG. 1 is a configuration diagram of a knowledge acquisition device according to an embodiment of the present invention.
【図2】コンテンツDB5中のスポット名と説明テキスト
の関係を示す図である。FIG. 2 is a diagram showing a relationship between a spot name in a content DB 5 and an explanation text.
【図3】スポット語彙DB6の構成を示す図である。FIG. 3 is a diagram showing a configuration of a spot vocabulary DB6.
【図4】テキスト情報初期DB7中の部分テキスト情報の
構成を示す図である。FIG. 4 is a diagram showing a configuration of partial text information in a text information initial DB 7;
【図5】説明テキスト情報DB8中の説明テキスト情報デ
ータの構成を示す図である。FIG. 5 is a diagram showing a configuration of explanation text information data in an explanation text information DB8.
【図6】パターン判定テーブルの構成を示す図である。FIG. 6 is a diagram showing a configuration of a pattern determination table.
【図7】スポット名と説明テキストを示す図である。FIG. 7 is a diagram showing spot names and explanation texts.
【図8】スポット語彙DB6の例を示す図である。FIG. 8 is a diagram showing an example of a spot vocabulary DB 6.
【図9】スポット情報初期DB7の例を示す図である。FIG. 9 is a diagram showing an example of a spot information initial DB 7;
【図10】説明テキスト情報DB8の例を示す図である。FIG. 10 is a diagram showing an example of an explanation text information DB8.
【図11】係り受け情報の例を示す図である。FIG. 11 is a diagram illustrating an example of dependency information.
【図12】説明句の構成手順の例を示す図である。FIG. 12 is a diagram illustrating an example of a configuration procedure of an explanatory phrase.
【図13】説明句の構成手順の例を示す図である。FIG. 13 is a diagram illustrating an example of a configuration procedure of an explanatory phrase.
【図14】説明句の構成手順の例を示す図である。FIG. 14 is a diagram illustrating an example of a configuration procedure of an explanatory phrase.
【図15】説明句DB9の例を示す図である。FIG. 15 is a diagram showing an example of an explanatory phrase DB9.
【符号の説明】 1 スポット情報抽出部 2 文節情報抽出部 3 係り受け情報抽出部 4 説明句構成部 5 コンテンツDB 6 スポット語彙DB 7 テキスト情報初期DB 8 説明テキスト情報DB 9 説明句DB[Description of Signs] 1 Spot Information Extraction Unit 2 Clause Information Extraction Unit 3 Dependency Information Extraction Unit 4 Explanation Phrase Composition Unit 5 Content DB 6 Spot Vocabulary DB 7 Text Information Initial DB 8 Explanation Text Information DB 9 Explanation Phrase DB
Claims (4)
スポット名の事物について記述されたテキストである説
明テキストの組を入力し、該説明テキストを文単位に分
割してそれぞれ部分テキストとして、テキスト番号、ス
ポット名、部分テキストの組からなる部分テキスト情報
を構成し、テキスト情報初期データベースに格納し、該
テキスト情報初期データベースから部分テキスト情報を
順に取り出し、各スポット名について、語彙である複数
のスポット値と、これらスポット値との関係の種別であ
る関係種別を保持するスポット語彙データベース中のス
ポット値と一致する語彙が含まれていれば、該部分テキ
スト情報に、該スポット値と、該部分テキスト情報中の
スポット名と該スポット値の関係種別の組を付加して説
明テキスト情報データを作成し、説明テキスト情報デー
タベースに格納するスポット情報抽出段階と、 前記説明テキスト情報データベースから説明テキスト情
報データを入力し、該説明テキスト情報データを構成す
る文節の列を出力する文節情報出力段階と、 前記文節の列を入力し、該文節の係り受け関係を抽出
し、出力する係り受け情報抽出段階と、 前記説明テキスト情報データベースから説明テキスト情
報を入力し、(1)該説明テキスト情報中の文に対応す
る関係種別が、説明テキスト情報中のスポット名と同一
のときには、スポット値が格係の関係になっている文節
とその文節から順次係り受けしている文節の集合を取り
出し、スポット値に述語の連体形となっている文節とそ
の文節に係り受けしている文節の集合を取り出す処理を
行い、(2)該説明テキスト情報中の文に対応する関係
種別がスポット名の種類を表す語のときには、スポット
値に述語の連体形となっている文節とその文節に係り受
けしている文節の集合を全て取り出す処理を行い、
(3)該説明テキスト情報中の文に対応する関係種別が
スポット名の一部を表す語のときには、スポット値が格
係の関係になっている文節とその文節から順次係り受け
している文節の集合を取り出し、スポット値に述語の連
体形となっている文節とその文節に係り受けしている文
節の集合を取り出す処理を行う説明句構成段階を有する
知識獲得方法。1. A set of a spot name, which is a name of a certain thing, and a description text, which is a text describing the thing with the spot name, is inputted, and the description text is divided into sentence units, and each is divided into partial texts. A text number, a spot name, and partial text information composed of a set of partial texts are configured and stored in a text information initial database, and partial text information is sequentially extracted from the text information initial database. If a vocabulary that matches a spot value in a spot vocabulary database that holds a spot type and a relationship type that is a type of relationship between the spot value and the spot value is included in the partial text information, the spot value and the partial The description text information data is added by adding a pair of the spot name in the text information and the relation type of the spot value. A spot information extracting step of creating a description data and storing the spot text information in the explanatory text information database; and a phrase information outputting step of inputting explanatory text information data from the explanatory text information database and outputting a sequence of phrases constituting the explanatory text information data. Inputting a sequence of the phrases, extracting a dependency relationship of the phrases and outputting the dependency information, and inputting the description text information from the description text information database; When the relation type corresponding to the sentence is the same as the spot name in the explanation text information, a set of clauses whose spot values are related to each other and the clauses that are sequentially affected from that clause are extracted, and the spot (2) performing a process of retrieving a set of clauses that are adjunct forms of the predicates in the value and a set of clauses related to the clauses; When the relation type corresponding to the sentence in the text information is a word representing the type of the spot name, the process of extracting all the clauses that are connected to the predicate in the spot value and the set of the clauses related to the phrase are performed. Do
(3) When the relation type corresponding to a sentence in the explanation text information is a word representing a part of a spot name, a phrase whose spot value has a relationship with a case, and a phrase that is sequentially affected from the phrase. And a step of taking out a set of clauses that are adjuncts of predicates in spot values and a set of clauses related to the clauses.
いて、語彙である複数のスポット値と、これらスポット
値との関係の種別である関係種別を保持するスポット語
彙データベースと、 テキスト情報初期データベースと、 説明テキスト情報データベースと、 スポット名と、該スポット名の事物について記述された
テキストである説明テキストの組を入力し、該説明テキ
ストを文単位に分割してそれぞれ部分テキストとして、
テキスト番号、スポット名、部分テキストの組からなる
部分テキスト情報を構成し、前記テキスト情報初期デー
タベースに格納し、該テキスト情報初期データベースか
ら部分テキスト情報を順に取り出し、前記スポット語彙
データベース中のスポット値と一致する語彙が含まれて
いれば、該部分テキスト情報に、該スポット値と、該部
分テキスト情報中のスポット名と該スポット値の関係種
別の組を付加して説明テキスト情報データを作成し、前
記説明テキスト情報データベースに格納するスポット情
報抽出手段と、 前記説明テキスト情報データベースから説明テキスト情
報データを入力し、該説明テキスト情報データを構成す
る文節の列を出力する文節情報出力手段と、 前記文節の列を入力し、該文節の係り受け関係を抽出
し、出力する係り受け情報抽出手段と、 前記説明テキスト情報データベースから説明テキスト情
報を入力し、(1)該説明テキスト情報中の文に対応す
る関係種別が、説明テキスト情報中のスポット名と同一
のときには、スポット値が格係の関係になっている文節
とその文節から順次係り受けしている文節の集合を取り
出し、スポット値に述語の連体形となっている文節とそ
の文節に係り受けしている文節の集合を取り出す処理を
行い、(2)該説明テキスト情報中の文に対応する関係
種別がスポット名の種類を表す語のときには、スポット
値に述語の連体形となっている文節とその文節に係り受
けしている文節の集合を全て取り出す処理を行い、
(3)該説明テキスト情報中の文に対応する関係種別が
スポット名の一部を表す語のときには、スポット値が格
係の関係になっている文節とその文節から順次係り受け
している文節の集合を取り出し、スポット値に述語の連
体形となっている文節とその文節に係り受けしている文
節の集合を取り出す処理を行う説明句構成段階を有する
知識獲得装置。2. A spot vocabulary database that holds a plurality of spot values that are vocabulary and a relationship type that is a type of a relationship between these spot values for each spot name that is a name of a certain thing; a text information initial database; A description text information database, a spot name, and a set of description texts, which are texts describing the thing of the spot name, are input, and the description text is divided into sentence units and each is divided into partial texts.
A text number, a spot name, and a partial text information composed of a set of partial texts are configured, stored in the text information initial database, and the partial text information is sequentially extracted from the text information initial database. If a matching vocabulary is included, the partial text information is added with the spot value and a set of a spot name in the partial text information and a relation type of the spot value to create explanatory text information data, Spot information extraction means for storing in the explanation text information database; description information information means for inputting explanation text information data from the explanation text information database and outputting a sequence of phrases constituting the explanation text information data; , And extract and output the dependency relation of the phrase. Receiving information extracting means, and inputting the explanation text information from the explanation text information database; (1) when the relation type corresponding to the sentence in the explanation text information is the same as the spot name in the explanation text information, A set of clauses whose values are in a case relation and the clauses that are sequentially affected from the clauses are extracted, and the clauses that are adjuncts of the predicates in the spot value and the clauses that are affected by the clause are extracted. (2) When the relation type corresponding to the sentence in the explanatory text information is a word representing the type of the spot name, the spot value is associated with the phrase which is a continuous form of the predicate and the phrase. Perform the process of extracting all the set of clauses received,
(3) When the relation type corresponding to a sentence in the explanation text information is a word representing a part of a spot name, a phrase whose spot value has a relationship with a case, and a phrase that is sequentially affected from the phrase. A knowledge acquisition apparatus having an explanatory phrase construction step of performing a process of extracting a set of phrases having a continuous form of a predicate in a spot value and a set of phrases related to the phrase.
ポット名の事物について記述されたテキストである説明
テキストの組を入力し、該説明テキストを文単位に分割
してそれぞれ部分テキストとし、テキスト番号、スポッ
ト名、部分テキストの組からなる部分テキスト情報を構
成し、テキスト情報初期データベースに格納し、該テキ
スト情報初期データベースから部分テキスト情報を順に
取り出し、各スポット名について、語彙である複数のス
ポット値と、これらスポット値との関係の種別である関
係種別を保持するスポット語彙データベース中のスポッ
ト値と一致する語彙が含まれていれば、該部分テキスト
情報に、該スポット値と、該部分テキスト情報中のスポ
ット名と該スポット値の関係種別の組を付加して説明テ
キスト情報データを作成し、前記説明テキスト情報デー
タベースに格納するスポット情報抽出処理と、 前記説明テキスト情報データベースから説明テキスト情
報データを入力し、該説明テキスト情報データを構成す
る文節の列を出力する文節情報出力処理と、 前記文節の列を入力し、該文節の係り受け関係を抽出
し、出力する係り受け情報抽出処理と、 前記説明テキスト情報データベースから説明テキスト情
報を入力し、(1)該説明テキスト情報中の文に対応す
る関係種別が、説明テキスト情報中のスポット名と同一
のときには、スポット値が格係の関係になっている文節
とその文節から順次係り受けしている文節の集合を取り
出し、スポット値に述語の連体形となっている文節とそ
の文節に係り受けしている文節の集合を取り出す処理を
行い、(2)該説明テキスト情報中の文に対応する関係
種別がスポット名の種類を表す語のときには、スポット
値に述語の連体形となっている文節とその文節に係り受
けしている文節の集合を全て取り出す処理を行い、
(3)該説明テキスト情報中の文に対応する関係種別が
スポット名の一部を表す語のときには、スポット値が格
係の関係になっている文節とその文節から順次係り受け
している文節の集合を取り出し、スポット値に述語の連
体形となっている文節とその文節に係り受けしている文
節の集合を取り出す処理を行う説明句構成処理をコンピ
ュータに実行させる知識獲得プログラム。3. A set of a spot name, which is the name of a certain thing, and a description text, which is a text describing the thing with the spot name, is input, and the description text is divided into sentence units to form partial texts. Partial text information consisting of a set of a number, a spot name, and a partial text is configured and stored in a text information initial database, and partial text information is sequentially extracted from the text information initial database. If the vocabulary that matches the spot value in the spot vocabulary database that holds the relationship type that is the relationship type between the value and the spot value is included in the partial text information, the spot value and the partial text The description text information data is added by adding a set of the spot name in the information and the relation type of the spot value. A spot information extraction process for creating and storing in the explanation text information database; a clause information output process for inputting explanation text information data from the explanation text information database and outputting a sequence of phrases constituting the explanation text information data; Inputting a column of the phrase, extracting a dependency relationship of the phrase and outputting the same, and inputting the description text information from the description text information database, and (1) inputting the description text information from the description text information database; When the relation type corresponding to the sentence is the same as the spot name in the explanation text information, a set of clauses whose spot values are related to each other and the clauses which are sequentially affected from the clause are taken out, and the spot value is extracted. Performs a process of extracting a set of clauses that are adjunct forms of the predicate and the clauses related to the clause, and (2) When the relation type corresponding to the sentence in the text information is a word representing the type of the spot name, the process of extracting all the clauses that are connected to the predicate in the spot value and the set of the clauses related to the phrase are performed. Do
(3) When the relation type corresponding to a sentence in the explanation text information is a word representing a part of a spot name, a phrase whose spot value has a relationship with a case, and a phrase that is sequentially affected from the phrase. Is a knowledge acquisition program that causes a computer to execute an explanation phrase construction process of extracting a set of phrases having a continuous form of a predicate in a spot value and a set of phrases related to the phrase.
記録した記録媒体。4. A recording medium on which the knowledge acquisition program according to claim 3 is recorded.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001140176A JP2002334091A (en) | 2001-05-10 | 2001-05-10 | Method, device and program for acquiring knowledge and recording medium recording the program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001140176A JP2002334091A (en) | 2001-05-10 | 2001-05-10 | Method, device and program for acquiring knowledge and recording medium recording the program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2002334091A true JP2002334091A (en) | 2002-11-22 |
Family
ID=18986823
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001140176A Pending JP2002334091A (en) | 2001-05-10 | 2001-05-10 | Method, device and program for acquiring knowledge and recording medium recording the program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2002334091A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008250887A (en) * | 2007-03-30 | 2008-10-16 | Kyushu Institute Of Technology | Information extractor, its method and program |
-
2001
- 2001-05-10 JP JP2001140176A patent/JP2002334091A/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008250887A (en) * | 2007-03-30 | 2008-10-16 | Kyushu Institute Of Technology | Information extractor, its method and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4654780B2 (en) | Question answering system, data retrieval method, and computer program | |
Al‐Sughaiyer et al. | Arabic morphological analysis techniques: A comprehensive survey | |
US20070055493A1 (en) | String matching method and system and computer-readable recording medium storing the string matching method | |
Bjarnadóttir | The database of modern Icelandic inflection (Beygingarlýsing íslensks nútímamáls) | |
JP2006293731A (en) | Question answering system, data retrieval method, and computer program | |
US7162413B1 (en) | Rule induction for summarizing documents in a classified document collection | |
JPH03172966A (en) | Similar document retrieving device | |
McKeown et al. | “Got You!”: Automatic vandalism detection in wikipedia with web-based shallow syntactic-semantic modeling | |
JP3372532B2 (en) | Computer-readable recording medium for emotion information extraction method and emotion information extraction program | |
JP4768882B2 (en) | Information search device, information search method, information search program, and recording medium on which information search program is recorded | |
JP2007047974A (en) | Information extraction device and information extraction method | |
JP2006244305A (en) | Word-of-mouth information determination method, device, and program | |
Osman et al. | Plagiarism detection using graph-based representation | |
CN113361252B (en) | Text depression tendency detection system based on multi-modal features and emotion dictionary | |
CN101499056A (en) | Backward reference sentence pattern language analysis method | |
Brinton | Historical pragmatics and corpus linguistics: problems and strategies | |
Goweder et al. | Identifying broken plurals in unvowelised arabic tex | |
JP2008204133A (en) | Answer search apparatus and computer program | |
Luong et al. | Word graph-based multi-sentence compression: Re-ranking candidates using frequent words | |
JP2007122525A (en) | Paraphrase processing method and device | |
JP2002334091A (en) | Method, device and program for acquiring knowledge and recording medium recording the program | |
JP5019315B2 (en) | Information processing apparatus, information processing method, and program | |
Freebury-Jones | Introduction: Computational Approaches to Examining Early Modern Texts | |
JPS63228326A (en) | Automatic key word extracting system | |
JP2005284776A (en) | Text mining apparatus and text analysis method |