JP2019197577A - Anaphora-omission analyzer - Google Patents

Anaphora-omission analyzer Download PDF

Info

Publication number
JP2019197577A
JP2019197577A JP2019129714A JP2019129714A JP2019197577A JP 2019197577 A JP2019197577 A JP 2019197577A JP 2019129714 A JP2019129714 A JP 2019129714A JP 2019129714 A JP2019129714 A JP 2019129714A JP 2019197577 A JP2019197577 A JP 2019197577A
Authority
JP
Japan
Prior art keywords
term
predicate
candidate
sharing
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019129714A
Other languages
Japanese (ja)
Other versions
JP6976585B2 (en
Inventor
龍 飯田
Ryu Iida
龍 飯田
健太郎 鳥澤
Kentaro Torisawa
健太郎 鳥澤
力 橋本
Chikara Hashimoto
力 橋本
鍾勲 呉
Jong Hoon Oh
鍾勲 呉
清敬 大竹
Kiyotaka Otake
清敬 大竹
豊 木俵
Yutaka Kidawara
豊 木俵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Publication of JP2019197577A publication Critical patent/JP2019197577A/en
Application granted granted Critical
Publication of JP6976585B2 publication Critical patent/JP6976585B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

To provide an anaphora-omission analyzer which can analyze anaphora and omission by using an item sharing relation knowledge.SOLUTION: An anaphora-omission analyzer 1150 includes: a predicate pair extraction part 1166 and an item sharing determination part 1168 for analyzing a text 250 input by an item sharing knowledge and generating information on the sharing of an item of a predicate pair in the input text 250; and an item sharing predicate network generation part 1174, a sharing item determination part 1176, and an antecedent update part 1184 for performing an analysis of anaphora and omission by using the analysis result obtained by the item sharing determination part 1168 on the input text by automatic processing, and outputting a text 254 annotated for the part of anaphora and omission and the indication destination.SELECTED DRAWING: Figure 30

Description

この発明は、自然言語処理技術に関し、特に、自然言語の文章中に頻出する省略、代名詞等の指示語の照応関係を解析するときに使用される項共有判別器の学習装置、項共有知識を含む言語知識収集装置、及び項共有知識を用いた照応・省略解析装置に関する。   The present invention relates to a natural language processing technique, and more particularly to a learning device for a term sharing discriminator used when analyzing an anaphoric relationship of an abbreviation that frequently appears in a natural language sentence, pronouns, and term sharing knowledge. The present invention relates to a linguistic knowledge collection device and an anaphora / omission analysis device using term sharing knowledge.

自然言語のテキスト中には、省略及び指示語が頻出する。例えば図1に示す例文30を考える。例文30は第1文と第2文とからなる。第2文には、「それ」という指示語(代名詞)42が含まれる。この場合、「それ」という指示語は第1文の「モン歴の正月の日付」という表現40を指す。このように指示語の指す語を特定する処理を「照応解析」と呼ぶ。一方、図2の例文60を考える。この例文60は、第1文と第2文とからなる。第2文において、「自己診断機能を搭載」という述部の主語は省略されているが、この主語の省略箇所76には、第1文の「新型交換機」という単語72が省略されている。同様に、「200システムを設置する予定だ。」という述部の主語は省略されている。この主語の省略箇所74には、第1文の「N社」という単語70が省略されている。このように、主語等の省略を検出し、それを補完する処理を「省略解析」と呼ぶ。以後、照応解析と省略解析とをまとめて「照応・省略解析」と呼ぶ。   Abbreviations and directives appear frequently in natural language text. For example, consider the example sentence 30 shown in FIG. The example sentence 30 includes a first sentence and a second sentence. The second sentence includes an instruction word (pronoun) 42 “it”. In this case, the instruction word “it” indicates the expression 40 “Month history New Year date” in the first sentence. The process of specifying the word indicated by the instruction word is called “anaphoric analysis”. On the other hand, consider the example sentence 60 of FIG. This example sentence 60 includes a first sentence and a second sentence. In the second sentence, the subject of the predicate “with self-diagnosis function” is omitted, but the word 72 “new switch” in the first sentence is omitted in the omitted part 76 of the subject. Similarly, the subject of the predicate “scheduled to install 200 systems” is omitted. In the omitted portion 74 of the subject, the word 70 “N company” in the first sentence is omitted. The process of detecting omission of a subject or the like and complementing it is called “omission analysis”. Hereinafter, the anaphoric analysis and the omitted analysis are collectively referred to as “anaphoric / omitted analysis”.

いわゆる人工知能において、人間とのコミュニケーションをとるために、自然言語処理は欠かせない技術である。自然言語処理の重要な問題として、自動翻訳及び質問応答等が存在する。照応・省略解析の技術は、このような自動翻訳及び質問応答において必須の要素技術である。   In so-called artificial intelligence, natural language processing is an indispensable technology for communicating with humans. There are automatic translation and question answering as important problems in natural language processing. The anaphora and omission analysis technique is an essential element technique in such automatic translation and question answering.

既存の照応・省略解析技術では、形態素解析、構文・係り受け解析等が出力する情報に加え、例えば「食べる」の目的語に「食べ物」に相当する表現が含まれるという特性をまとめた辞書などを利用した自動解析技術が開発されている。後掲の非特許文献1には、自動的に、一定の手順で照応・省略解析を行う照応・省略解析アルゴリズムが開示されている。この文献に開示された技術は、形態素解析、構文・係り受け解析(以下単に「係り受け解析」と呼ぶ。)等が出力する情報と、辞書等の外部資源ツールを利用する。ここで利用される辞書とは、例えば「食べる」という動詞の目的語には「食べ物」に相当する表現が含まれる、という特性をまとめたものである。非特許文献1に開示された技術では、これ以外にも、テキストの中から得られる情報を参照して代名詞の指し先及び省略の補完が行われている。   In the existing anaphoric / abbreviated analysis technology, in addition to information output by morphological analysis, syntax / dependency analysis, etc., for example, a dictionary that summarizes the characteristics that the expression of “food” is included in the object of “eating” An automatic analysis technology that uses GIS has been developed. Non-Patent Document 1 described later discloses an anaphora / omission analysis algorithm that automatically performs anaphora / omission analysis in a predetermined procedure. The technique disclosed in this document uses information output by morphological analysis, syntax / dependency analysis (hereinafter simply referred to as “dependency analysis”), and an external resource tool such as a dictionary. The dictionary used here is a collection of characteristics that the object of the verb “eat” includes an expression corresponding to “food”, for example. In the technique disclosed in Non-Patent Document 1, in addition to this, the indication of pronouns and supplementation of omissions are performed with reference to information obtained from text.

しかし、非特許文献1によれば、日本語の照応解析の場合で、再現率が44%、精度が42%、主語の省略解析の場合で再現率及び精度がいずれも35%という数字が報告されている。日常生活で目にする文書には、省略及び代名詞等が頻繁に使用されている。正確な自然言語処理を行うためには、省略箇所の検出、省略箇所及び代名詞の指示先の検出が正確に行われなければならない。そのためには、精度の高い照応・省略解析器を得る必要がある。しかし、前述のように、既存の照応・省略解析器の精度は実用の域に達していない。   However, according to Non-Patent Document 1, in the case of Japanese anaphora analysis, the number of recalls is 44%, the accuracy is 42%, and in the case of subject omission analysis, the numbers are both 35% and recall. Has been. Abbreviations and pronouns are frequently used in documents found in daily life. In order to perform accurate natural language processing, it is necessary to accurately detect the omitted part and the destination of the omitted part and the pronoun designation. For this purpose, it is necessary to obtain an accurate anaphoric / omitted analyzer. However, as described above, the accuracy of existing anaphoric / omitted analyzers has not reached the practical level.

Ryu Iida, Massimo Poesio. A Cross-Lingual ILP Solution to Zero Anaphora Resolution. The 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies (ACL-HLT2011), pp.804-813.2011.Ryu Iida, Massimo Poesio.A Cross-Lingual ILP Solution to Zero Anaphora Resolution.The 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies (ACL-HLT2011), pp.804-813.2011.

このように照応・省略解析の性能が向上しない理由は種々考えられる。主な理由として、このような解析には一般常識が必要であることが挙げられる。一般常識として、因果関係、含意関係、事態の生起の順序関係、ある事態の発生により他の事態の発生が無効となったり、禁止されたりする関係等、様々な知識が考えられる。照応・省略解析に関しては、これらだけではなく、2つの述語が主語を共有したり、目的語を共有したりする関係に関する知識があれば、解析の精度がより高くなることが期待できる。   There are various reasons why the performance of anaphora and omission analysis is not improved. The main reason is that such analysis requires common sense. As general common sense, various knowledge such as a causal relationship, an implication relationship, an order relationship of occurrence of a situation, a relationship in which the occurrence of another situation is invalidated or prohibited is considered. With regard to anaphora / abbreviation analysis, it is expected that the accuracy of the analysis will be higher if there is knowledge about the relationship in which not only these but two predicates share the subject or the object.

例えば、「社会党が理念や政策を定めた綱領的文書を採択した。党としての新党準備会を設置、統一地方選直後の五月に新党結成を(φガ)目指す案が浮上している」というテキストを考える。ここで、「φガ」は「目指す」の主語の省略を表している。この「φ」が「社会党」であることを特定するためには、「Xが採択する←→Xが目指す」のような、2つの述語の2つの格が項を共有するか否かに関する知識(これを項共有知識と呼ぶ)が必要となる(「←→」はその左右の表現が、主格、目的格等の項を共有することを表す)。照応解析の場合でも同様である。例えば「Aクラブでは、3種類の岩盤浴とエステ等のサービスを備えています。若年層からシニア層まで幅広い年齢層でそれを利用可能です。」というテキストを考える。このテキストで、「それ」は「3種類の岩盤浴とエステ等のサービス」を指す。このようにある語が指示する語句を特定するためにも「Xを備える←→Xを利用可能だ」という項共有知識が必要となる。 For example, “The Socialist Party has adopted a framework document that defines philosophies and policies. A new party preparatory committee has been established as a party, and a plan to form a new party in May immediately after the unified district election (φ moth) has emerged.” Think of the text. Here, “φ Ga” represents omission of the subject of “aiming”. To specify that this “φ” is a “Social Party”, knowledge about whether two cases of two predicates share a term, such as “← adopted by X ← → X aims” (This is called term sharing knowledge.) ("← →" indicates that the left and right expressions share terms such as the main case and objective case). The same applies to anaphora analysis. For example, consider the text “A Club has three types of bedrock baths and beauty services. It can be used by a wide range of ages from young to senior.” In this text, “it” refers to “three kinds of bedrock baths and services such as esthetics”. Thus, in order to specify the phrase indicated by a certain word, the term sharing knowledge that “with X → ← X can be used” is required.

しかし、既存の照応・省略解析の自動解析技術では、このような知識は利用されていない。照応・省略解析器の精度が向上しない1つの原因はこの事実にあると思われる。   However, such knowledge is not used in the existing automatic analysis technology for anaphora and omission analysis. This may be one reason why the accuracy of the anaphoric / omitted analyzer is not improved.

それゆえにこの発明の目的は、照応・省略解析で利用可能な項共有関係知識を効率的に収集するために、2つの述語が項を共有するか否かを判別できる項共有判別器の学習を行える項共有判別器学習装置を提供することである。   Therefore, an object of the present invention is to learn a term sharing classifier that can determine whether two predicates share a term in order to efficiently collect term sharing relationship knowledge that can be used in anaphora and omission analysis. It is to provide a term sharing classifier learning device that can perform.

この発明の他の目的は、照応・省略解析で利用可能な項共有関係知識を含む言語知識を効率的に収集できる言語知識収集装置を提供することである。   Another object of the present invention is to provide a linguistic knowledge collection device that can efficiently collect linguistic knowledge including term sharing relation knowledge that can be used in anaphora and omission analysis.

この発明のさらに他の目的は、項共有関係知識を利用して照応・省略解析を行うことができる照応・省略解析装置を提供することである。   Still another object of the present invention is to provide an anaphora / abbreviation analysis apparatus that can perform an anaphora / abbreviation analysis using term sharing relation knowledge.

本発明の第1の局面に係る項共有判別器学習装置は、照応・省略関係に関するアノテーション済の自然言語のテキストデータを用いて、述語対の項共有関係を判別する項共有判別器の学習を行う。この項共有判別器学習装置は、アノテーション済の自然言語のテキストデータから複数の述語対を選択する述語対選択手段と、述語対選択手段により選択された述語対の各々について、形態素解析及び構文解析を行って、当該解析の結果から少なくとも当該述語対を構成する述語の各々の文字列、品詞、係り元、係り先、当該述語対の間に出現する語数、及び当該述語対の間に出現する機能語を含む特徴量を抽出する特徴量抽出手段と、特徴量抽出手段により特徴量が抽出された述語対が項を共有しているとアノテーションされているか否かにしたがって、正例及び負例の学習データを特徴量を用いて生成する学習データ生成手段と、学習データ生成手段により生成された学習データを用いた機械学習により、述語対が与えられると、当該述語対が項を共有しているか否かを示すように統計的モデルからなる項共有判別器の学習を行う学習手段とを含む。   The term sharing discriminator learning device according to the first aspect of the present invention performs learning of a term sharing discriminator that discriminates a term sharing relationship between predicate pairs by using annotated natural language text data related to an anaphoric / omitted relationship. Do. The term shared classifier learning device is configured to select a plurality of predicate pairs from annotated natural language text data, and morpheme analysis and syntax analysis for each predicate pair selected by the predicate pair selection unit. And at least the character strings of the predicates that constitute the predicate pair, the part of speech, the relation source, the relation destination, the number of words that appear between the predicate pair, and the predicate pair appear from the analysis result. A positive example and a negative example according to whether or not a feature quantity extraction unit that extracts a feature quantity including a function word and whether the predicate pair from which the feature quantity is extracted by the feature quantity extraction unit is annotated as sharing a term When a predicate pair is given by learning data generation means for generating learning data using feature amounts and machine learning using learning data generated by the learning data generation means, Pair and a learning means for performing learning of the term shared classifiers consisting statistical models to indicate whether they share the term.

本発明の第2の局面に係る項共有判別器学習装置は、照応・省略関係に関するアノテーション済の自然言語のテキストデータ、及び自然言語の複数のテキストを含むテキストアーカイブを用いて、項共有判別器の学習を行う。この項共有判別器学習装置は、テキストアーカイブに含まれる各文から述語対を抽出する述語対抽出手段と、述語対抽出手段により抽出された述語対の各々について、既存の項共有判別器を用いて当該述語対が項を共有するか否かを判別するための項共有判別手段と、項共有判別手段により項共有の有無が判別された述語対の種類ごとに、当該種類の述語対が項を共有していると判別された率である項共有率を算出する項共有率算出手段と、アノテーション済の自然言語のテキストデータから複数の述語対を選択する述語対選択手段と、述語対選択手段により選択された述語対の各々について、形態素解析及び構文解析を行って、当該解析の結果から少なくとも当該述語対を構成する述語の各々の文字列、品詞、係り元、係り先、当該述語対の間に出現する語数、当該述語対の間に出現する機能語、及び当該述語対について項共有率算出手段により算出された項共有率を含む特徴量を抽出する特徴量抽出手段と、特徴量抽出手段により特徴量が抽出された述語対が項を共有しているとアノテーションされているか否かにしたがって、正例及び負例の学習データを特徴量を用いて生成する学習データ生成手段と、学習データ生成手段により生成された学習データを用いた機械学習により、述語対が与えられると、当該述語対が項を共有しているか否かを示すように統計的モデルからなる項共有判別器の学習を行う学習手段とを含む。   A term sharing classifier learning device according to a second aspect of the present invention uses an annotated natural language text data related to anaphora and omission relationships and a text archive including a plurality of natural language texts. To learn. The term shared classifier learning device uses an existing term shared classifier for each of the predicate pair extracting means for extracting a predicate pair from each sentence included in the text archive and the predicate pair extracting means. For each type of predicate pair for which the presence or absence of term sharing is determined by the term sharing determination unit, a term sharing determination unit for determining whether or not the predicate pair shares a term. A term sharing ratio calculation means for calculating a term sharing ratio, which is a ratio determined to be shared, a predicate pair selection means for selecting a plurality of predicate pairs from annotated natural language text data, and a predicate pair selection. For each predicate pair selected by the means, morphological analysis and syntactic analysis are performed, and at least the character string, part of speech, source of relation, relation destination, predicate pair of the predicate constituting the predicate pair from the result of the analysis A feature quantity extracting means for extracting a feature quantity including a term share ratio calculated by the term share ratio calculation means for the number of words appearing between them, a function word appearing between the predicate pairs, and the predicate pair; and feature quantity extraction Learning data generation means for generating learning data of positive examples and negative examples using feature quantities according to whether or not the predicate pair from which the feature quantity has been extracted by means is annotated as sharing a term; When a predicate pair is given by machine learning using learning data generated by the data generation means, learning of a term sharing classifier consisting of a statistical model so as to indicate whether or not the predicate pair shares a term Learning means.

好ましくは、項共有率算出手段は、項共有判別手段により項共有の有無が判別された述語対の種類ごとに、学習データ中における当該述語対の出現頻度が所定のしきい値より大きいか否かにしたがって、当該種類の述語対が項を共有していると判別された率である項共有率を算出する処理と、当該種類の述語対の項共有率に所定の定数を割当てる処理とを選択的に実行する選択的算出手段を含む。   Preferably, the term sharing rate calculating means determines whether or not the appearance frequency of the predicate pair in the learning data is greater than a predetermined threshold for each type of predicate pair for which the presence or absence of term sharing is determined by the term sharing determining means. Accordingly, a process of calculating a term sharing ratio, which is a rate at which the type of predicate pair is determined to share a term, and a process of assigning a predetermined constant to the term sharing rate of the type of predicate pair. Selective calculation means for selectively executing is included.

本発明の第3の局面に係る言語知識収集装置は、自然言語の複数のテキストを含むテキストアーカイブから、項を共有する述語対に関する言語知識を収集する。この言語知識収集装置は、テキストアーカイブの各テキストから述語対を選択する述語対選択手段と、述語対選択手段により選択された述語対の各々から、所定の特徴量を算出し、上記したいずれかの項共有判別器学習装置により学習した項判別器に入力してその判別結果を得ることにより、当該述語対が項を共有するか否かを判別するための項共有判別手段と、項共有判別手段により項を共有すると判別された述語対について、当該述語対が項を共有することを示す項共有知識を蓄積するための項共有知識蓄積手段とを含む。   The language knowledge collection apparatus according to the third aspect of the present invention collects language knowledge about predicate pairs sharing a term from a text archive including a plurality of natural language texts. This linguistic knowledge collection device calculates a predetermined feature amount from each of the predicate pair selection means for selecting a predicate pair from each text of the text archive, and the predicate pair selected by the predicate pair selection means. A term sharing discriminator for determining whether or not the predicate pair shares a term by inputting to the term discriminator learned by the term sharing discriminator learning device and obtaining the discrimination result; And a term sharing knowledge storage unit for storing term sharing knowledge indicating that the predicate pair shares a term.

好ましくは、項共有判別器は、入力された特徴量に対応する述語対が項を共有するか否かについての判別結果とあわせて、当該判別結果の信頼度を表すスコアを出力し、項共有知識蓄積手段は、項共有判別手段により項を共有すると判別された述語対であって、かつ項共有判別手段により出力されたスコアがしきい値以上であるものを、項共有知識として選択し蓄積するための手段を含む。   Preferably, the term sharing discriminator outputs a score representing the reliability of the discrimination result together with the discrimination result as to whether or not the predicate pair corresponding to the input feature quantity shares the term, and the term sharing The knowledge accumulating means selects and accumulates the predicate pairs determined to share the term by the term sharing discriminating means and the score output by the term sharing discriminating means is equal to or greater than the threshold as the term sharing knowledge. Means for doing so.

本発明の第4の局面に係る照応・省略解析装置は、項を共有する述語対に関する項共有知識を用いて、入力されたテキストの照応・省略解析を行う。この照応・省略解析装置は、項共有知識を記憶する項共有知識記憶手段と、項共有知識を用いて入力されたテキストを解析することにより、入力されたテキスト中の述語対の項の共有に関する情報を生成する項共有解析手段と、入力されたテキストに対し、自動的な処理により、項共有解析手段による解析結果を用いた照応・省略解析を行って、照応・省略箇所とその指し先とに関してアノテーションされたテキストを出力する照応・省略解析手段とを含んでもよい。   The anaphoric / omitted analysis apparatus according to the fourth aspect of the present invention performs an anaphoric / omitted analysis of input text using term sharing knowledge regarding a predicate pair sharing a term. This anaphoric / abbreviated analysis device relates to term sharing knowledge storage means for storing term sharing knowledge, and sharing of terms of predicate pairs in the input text by analyzing the text input using the term sharing knowledge. The term sharing analysis means for generating information, and the input text is subjected to anaphora and omission analysis using the analysis result by the term sharing analysis means by automatic processing. And an anaphoric / abbreviated analyzing means for outputting the annotated text.

照応・省略解析装置は、項を共有する述語対に関する項共有関係知識を用いて、入力されたテキストの照応・省略解析を行う。この照応・省略解析装置は、自動的な処理により照応・省略解析を行って、照応・省略箇所とその指し先とに関してアノテーションされたテキストを出力する照応・省略解析手段と、照応・省略解析手段の出力するアノテーションされたテキスト中の述語対であって、双方の述語に関する所定格の項の指し先が互いに異なる指し先を示すようにアノテーションされた述語対を選択する述語対選択手段と、述語対選択手段により選択された述語対の所定格の項に関する項共有知識を検索する検索手段と、検索手段により述語対の所定格の項に関する項共有知識が見出されたことに応答して、当該述語対を構成する述語のうち、予め定める方法により選択された一方の所定格の項の指し先を、他方の所定格の項の指し先で書き換えて新たなアノテーション候補を出力する書換手段とを含む。   The anaphora / omission analysis device performs an anaphora / omission analysis of the input text using the term sharing relation knowledge regarding the predicate pairs sharing the terms. This anaphoric / abbreviated analyzer performs an anaphoric / abbreviated analysis by automatic processing, and outputs an annotated / abbreviated analysis means and an anaphoric / abbreviated analyzing means that outputs the annotated text regarding the anaphoric / abbreviated part and the pointing destination. A predicate pair selection means for selecting a predicate pair in the annotated text to be output, wherein the predicate pairs are annotated so that the specified term points of both predicates are different from each other. In response to the search means for searching for the term shared knowledge regarding the term of the predetermined case of the predicate pair selected by the pair selection means, and the fact that the term shared knowledge regarding the term of the predetermined case of the predicate pair is found by the search means, Among the predicates that make up the predicate pair, the point of one specified case selected by a predetermined method is rewritten with the point of the other specified case and a new annotation is added. And outputs the Deployment candidate and a rewriting means.

好ましくは、照応・省略解析手段は、項共有解析手段により項を共有すると判別された述語対について、同じ項を共有する複数の述語からなる項共有述語ネットワークを生成するネットワーク生成手段と、ネットワーク生成手段により生成された項共有述語ネットワークの各々について、当該項共有述語ネットワークに属する述語の共有する項の値を決定する項決定手段と、項決定手段により決定された値を、当該項共有述語ネットワーク内の述語により共有される項に伝搬させてアノテーションを行う値伝搬手段とを含む。   Preferably, the anaphoric / abbreviated analysis means includes a network generation means for generating a term shared predicate network composed of a plurality of predicates sharing the same term for the predicate pair determined to be shared by the term sharing analysis means, and network generation For each of the term shared predicate networks generated by the means, a term determining means for determining a value of a term shared by the predicates belonging to the term shared predicate network, and a value determined by the term determining means for the term shared predicate network Value propagation means for annotating by propagating to a term shared by the predicates within.

より好ましくは、項決定手段は、ネットワーク生成手段により生成された項共有述語ネットワークの各々に属する述語の各々について、当該述語が他の述語と共有する項の値の候補を決定する候補決定手段と、候補決定手段により決定された値の候補が1つであるときには、当該項共有述語ネットワークに属する述語の共有する項の値を当該候補に決定する手段と、候補決定手段により決定された値の候補が複数であるときは、候補決定手段により各候補が決定されたときの信頼度の最も高い候補を選択し、当該項共有述語ネットワークに属する述語の共有する項の値を当該候補に決定する手段とを含む。   More preferably, the term determining means, for each predicate belonging to each of the term shared predicate networks generated by the network generating means, candidate determining means for determining a candidate value of a term that the predicate shares with other predicates; When there is one value candidate determined by the candidate determining means, means for determining the value of a term shared by predicates belonging to the term shared predicate network as the candidate, and the value determined by the candidate determining means When there are a plurality of candidates, the candidate having the highest reliability when each candidate is determined by the candidate determination unit is selected, and the value of the term shared by the predicates belonging to the term shared predicate network is determined as the candidate. Means.

さらに好ましくは、照応・省略解析装置はさらに、ある項共有述語ネットワークに属する述語の各々について、候補決定手段により決定された値の候補が1つもないときに、当該項共有述語ネットワークに属する述語が共有する項の値を、照応・省略解析手段と異なる手法により決定するための手段を含む。   More preferably, the anaphoric / abbreviation analysis apparatus further includes a predicate belonging to the term shared predicate network when each of the predicates belonging to a certain term shared predicate network has no value candidate determined by the candidate determining means. Means for determining the value of the term to be shared by a technique different from the anaphora and omission analysis means.

照応・省略解析装置はさらに、入力されたテキストにおいて、項共有解析手段により他の述語と項を共有しないと判定された述語に対して、照応・省略解析手段と異なる手法により、当該述語の指す項の値を特定する手段を含んでもよい。   The anaphoric / abbreviation analysis device further points to a predicate that is determined not to share a term with another predicate by the term sharing analysis unit in the input text by a method different from that of the anaphora / omission analysis unit. Means for specifying the value of the term may be included.

本発明の第5の局面に係るコンピュータプログラムは、コンピュータを、上記したいずれかの装置の全ての手段として機能させる。   A computer program according to the fifth aspect of the present invention causes a computer to function as all means of any of the above-described devices.

照応解析を説明するための模式図である。It is a schematic diagram for demonstrating anaphora analysis. 省略解析を説明するための模式図である。It is a mimetic diagram for explaining omission analysis. 学習データ生成のための省略解析と、その結果に対する人手による選択処理を説明するための模式図である。It is a schematic diagram for demonstrating the omission analysis for learning data generation, and the manual selection process with respect to the result. 本発明の一実施の形態に係る学習データ生成補助装置を含む照応・省略解析のためのシステムの全体ブロック図である。1 is an overall block diagram of a system for anaphora and omission analysis including a learning data generation assisting device according to an embodiment of the present invention. 言語知識を構成する規則の概略構成を説明するための図である。It is a figure for demonstrating schematic structure of the rule which comprises linguistic knowledge. 項共有判別器学習装置の構成を示すブロック図である。It is a block diagram which shows the structure of a term sharing discriminator learning device. 項共有判別器のための学習データを作成するプログラムの制御構造を示すフローチャートである。It is a flowchart which shows the control structure of the program which produces the learning data for a term shared discriminator. 項共有判別器を用いた項共有知識収集部の概略構成を示すブロック図である。It is a block diagram which shows schematic structure of the term sharing knowledge collection part using a term sharing discriminator. 質問タイプDBの概略構成を説明する模式図である。It is a schematic diagram explaining schematic structure of question type DB. 質問応答システムを利用したアノテーション方法の概略を示す模式図である。It is a schematic diagram which shows the outline of the annotation method using a question answering system. 学習データ生成補助装置のブロック図である。It is a block diagram of a learning data generation auxiliary device. アノテーション候補を生成する第1の候補生成部のブロック図である。It is a block diagram of the 1st candidate production | generation part which produces | generates an annotation candidate. アノテーション候補を生成する第2の候補生成部のブロック図である。It is a block diagram of the 2nd candidate production | generation part which produces | generates an annotation candidate. 言語知識を利用したアノテーション候補の生成プロセスを説明する図である。It is a figure explaining the production | generation process of the annotation candidate using linguistic knowledge. 言語知識を利用したアノテーション候補の生成プロセスを説明する図である。It is a figure explaining the production | generation process of the annotation candidate using linguistic knowledge. 言語知識を利用したアノテーション候補の生成プロセスを説明する図である。It is a figure explaining the production | generation process of the annotation candidate using linguistic knowledge. 言語知識を利用したアノテーション候補の生成プロセスを説明する図である。It is a figure explaining the production | generation process of the annotation candidate using linguistic knowledge. 項共有知識を利用したアノテーション候補の生成プロセスの例を説明する図である。It is a figure explaining the example of the production | generation process of the annotation candidate using term sharing knowledge. アノテーション候補を生成する第3の候補生成部のブロック図である。It is a block diagram of the 3rd candidate production | generation part which produces | generates an annotation candidate. アノテーション候補を生成する第4の候補生成部のブロック図である。It is a block diagram of the 4th candidate production | generation part which produces | generates an annotation candidate. テキストへのアノテーションをユーザとの対話により実行して学習データを生成するためのプログラムの状態遷移図である。FIG. 6 is a state transition diagram of a program for generating learning data by executing annotation on a text through interaction with a user. 検出器学習装置222の詳細な機能ブロック図である。3 is a detailed functional block diagram of a detector learning device 222. FIG. 項共有関係知識を用いてアノテーションの検証を行う項共有関係検証処理の概念図である。It is a conceptual diagram of the term sharing relationship verification process which performs annotation verification using term sharing relationship knowledge. 項共有関係検証装置を実現するプログラムの制御構造の概略フローチャートである。It is a schematic flowchart of the control structure of the program which implement | achieves a term sharing relationship verification apparatus. 第2の実施の形態に係る項共有判別器再学習装置の機能的ブロック図である。It is a functional block diagram of the term sharing discriminator relearning device according to the second embodiment. 第2の実施の形態に係る項共有判別器の性能を他手法と比較して示すグラフである。It is a graph which shows the performance of the term sharing discriminator concerning a 2nd embodiment compared with other methods. 第4の実施の形態において、項共有の3つの型を説明するための模式図である。In a 4th embodiment, it is a mimetic diagram for explaining three types of term sharing. 図27に示す3つの型に応じた項共有判別器の学習装置のブロック図である。It is a block diagram of the learning apparatus of the term sharing discriminator according to three types shown in FIG. 第4の実施の形態に係る項共有知識収集装置のブロック図である。It is a block diagram of the term shared knowledge collection device concerning a 4th embodiment. 第4の実施の形態における照応・省略解析器のブロック図である。FIG. 10 is a block diagram of an anaphoric / omitted analyzer according to a fourth embodiment. 図30に示す照応・省略解析器を実現するコンピュータプログラムの制御構造を示すフローチャートである。It is a flowchart which shows the control structure of the computer program which implement | achieves the anaphora and omission analyzer shown in FIG. 学習データを生成するためのプログラムを実行するコンピュータの外観を示す図である。It is a figure which shows the external appearance of the computer which performs the program for producing | generating learning data. 図32に外観を示すコンピュータのハードウェアブロック図である。FIG. 33 is a hardware block diagram of a computer whose appearance is shown in FIG. 32.

以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。   In the following description and drawings, the same parts are denoted by the same reference numerals. Therefore, detailed description thereof will not be repeated.

<第1の実施の形態>
[概略]
図3を参照して、本発明の第1の実施の形態に係る項共有判別器により収集した項共有知識を用いた学習データ生成補助装置においてアノテーションをテキストに付する作業の概略を説明する。図3の上段を参照して、表示装置の画面に、アノテーション対象のテキスト90が表示される。このテキスト90は2つの文からなる。第1の文には、「導入する」という述部と、述部の主語である「N社」という単語100と、述部の目的語である「新型交換機」という単語110とが含まれる。第2の文は実質的には2つの節からなる。前半の文の先頭には「自己診断機能を搭載」の主語が省略されている箇所(省略箇所)114がある。前半の文と後半の文との中間箇所には、「200システムを設置する予定だ。」の主語が省略されている省略箇所104がある。
<First Embodiment>
[Outline]
With reference to FIG. 3, the outline of the operation | work which attaches an annotation to a text in the learning data generation assistance apparatus using the term shared knowledge collected by the term shared discriminator based on the 1st Embodiment of this invention is demonstrated. With reference to the upper part of FIG. 3, the annotation target text 90 is displayed on the screen of the display device. This text 90 consists of two sentences. The first sentence includes a predicate “introducing”, a word 100 “N company” that is the subject of the predicate, and a word 110 “new switch” that is the object of the predicate. The second sentence essentially consists of two sections. At the beginning of the first half of the sentence, there is a portion (omitted portion) 114 in which the subject “with self-diagnosis function” is omitted. There is an abbreviated portion 104 where the subject “200 system is scheduled to be installed” is omitted in the middle portion between the first half sentence and the latter half sentence.

照応・省略解析では、図3の矩形102及び矩形112内に記載したように、まず省略箇所104又は114を発見する。その後、その省略箇所を補完すべき表現を探索し決定する。省略箇所104の場合には単語100が補完すべき表現となる。省略箇所114の場合には、単語110が補完すべき表現となる。   In the anaphora / omission analysis, as described in the rectangle 102 and the rectangle 112 in FIG. Thereafter, an expression to be supplemented for the omitted portion is searched and determined. In the case of the omitted portion 104, the word 100 is an expression to be complemented. In the case of the omitted portion 114, the word 110 is an expression to be complemented.

従来は、こうした省略箇所の発見と、補完表現の候補の探索及び決定とを、いずれも人間が行っていた。しかしそのような作業は非効率的であり、学習データの生成コストを押し上げる要因となっていた。本実施の形態では、上記した省略箇所の発見と、補完表現の候補の探索とをコンピュータプログラムで自動的に行う。こうした処理には、後述するように様々な手法を使用する。特に、項共有知識を含む言語知識を活用することで、人間が行うような作業と同様、省略箇所の発見と補完表現の候補の探索及び決定とを効率的に行う。   Conventionally, humans have performed both the discovery of such omitted parts and the search and determination of candidates for complementary expressions. However, such work is inefficient and has been a factor in raising the cost of generating learning data. In the present embodiment, the above-mentioned omission spot discovery and complementary expression candidate search are automatically performed by a computer program. For such processing, various methods are used as described later. In particular, by utilizing linguistic knowledge including term-sharing knowledge, it is possible to efficiently find abbreviations and search for and determine candidates for complementary expressions, similar to work performed by humans.

省略箇所の発見と補完表現の候補の探索とが終わると、各省略箇所に対して、図3の下段に示すような処理を行う。この例では、図3の上段に示す省略箇所114に対する補完表現に対しては「新型交換機」という単語110が発見され、省略箇所104には単語100を含む複数の単語が発見されたものとする。この場合、学習データ生成補助装置は、省略箇所114に単語110と同じ「新型交換機」という単語と主格の格助詞「ハ」とからなる文字列130を挿入し、さらにその右側には、いわゆるドロップダウンリストが存在することを意味するアイコン「▼」を表示する。ユーザがこのアイコンをクリックするとドロップダウンリスト132が表示される。ドロップダウンリスト132には、表示された候補をこの省略箇所114に対するアノテーションとして付加して良いか否かを尋ねる2つのオプション(YES、NO)と、人間が手入力するオプション(「手入力」)が表示される。利用者がYESを選択すると、この省略箇所114に文字列130がアノテーションとして付加される。NOを選択すればこの省略箇所114にはアノテーションは付加されない。「手入力」を選択すると、図示しない入力ダイアログが開き、アノテーションを直接入力できる。   When the discovery of the omitted part and the search for the candidate for the complementary expression are completed, the processing as shown in the lower part of FIG. In this example, it is assumed that the word 110 “new switch” is found for the supplementary expression for the omitted portion 114 shown in the upper part of FIG. 3, and a plurality of words including the word 100 are found in the omitted portion 104. . In this case, the learning data generation assisting device inserts a character string 130 composed of the word “new type switch”, which is the same as the word 110, and the main case particle “c” in the omitted portion 114, and a so-called drop on the right side thereof. An icon “▼” indicating that a down list exists is displayed. When the user clicks on this icon, a drop-down list 132 is displayed. In the drop-down list 132, two options (YES, NO) for asking whether or not the displayed candidate can be added as an annotation to the omitted portion 114, and an option for manual input by a human ("manual input") Is displayed. When the user selects YES, the character string 130 is added as an annotation to the omitted portion 114. If NO is selected, no annotation is added to the omitted portion 114. When “Manual Input” is selected, an input dialog (not shown) is opened and annotations can be directly input.

省略箇所104の場合、候補の一つ、例えば単語100と同じ単語と格助詞「ハ」からなる文字列134が表示され、右側にドロップダウンリストを示すアイコン「▼」が表示される。このアイコンをユーザがクリックすると、複数の候補のリストと「直接入力」とをオプションとして含むドロップダウンリストが表示される。ユーザが候補のいずれかを選択すると、その候補の単語が省略箇所104に対するアノテーションとして付加される。直接入力が選択されたときについては、省略箇所114と同様である。   In the case of the omitted portion 104, a character string 134 including one of the candidates, for example, the same word as the word 100 and the case particle “c” is displayed, and an icon “▼” indicating a drop-down list is displayed on the right side. When the user clicks on this icon, a drop-down list including a plurality of candidate lists and “direct input” as options is displayed. When the user selects one of the candidates, the candidate word is added as an annotation for the omitted portion 104. The case where the direct input is selected is the same as the omitted portion 114.

[照応・解析システムの全体構成]
図4を参照して、最初に、本実施の形態に係る学習データ生成補助装置を使用する照応・省略解析システム150の全体構成について説明する。
[Overall configuration of anaphora / analysis system]
With reference to FIG. 4, first, the overall configuration of the anaphora / omission analysis system 150 that uses the learning data generation assisting device according to the present embodiment will be described.

この照応・省略解析システム150は、予め準備された大量のテキストについて、省略箇所及び照応詞の検出を行い、それらが指す表現(先行詞)の候補をユーザに提示して簡単な操作で選択させることにより、ユーザが照応・省略解析に必要なモデルの学習データ(アノテーションデータ)を生成するのを補助するアノテーションデータ生成補助システム160と、アノテーションデータ生成補助システム160を用いてユーザにより生成された学習データを記憶する学習データDB162と、学習データDB162に記憶された学習データを用いて、後述する省略検出器166、照応詞検出器168、及び先行詞特定器170の学習を行うための学習システム164とを含む。省略検出器166は、テキスト中の任意の述語を対象に、省略検出を行う。省略検出器166は、テキスト中の主語、目的語等が省略された省略箇所を検出するための統計的モデルを含む。照応詞検出器168は、テキスト中の任意の名詞句(照応詞候補)を分類対象として、他の単語などを指示するための照応詞を検出するための統計的モデルを含む。先行詞特定器170は、テキスト中の、省略を持つ述語と先行詞候補である名詞句とを分類対象に、省略が指す先(先行詞)を特定するための検出器と、テキスト中の名詞句の対(照応詞と先行詞候補)とを分類対象に、照応詞が指す先行詞を特定するための検出器とを含む。これら検出器は、それぞれ別個の統計的モデルを有する。本実施の形態では、省略検出器166、照応詞検出器168、及び先行詞特定器170は、いずれもSVM(Support Vector Machine)を統計的モデルとして用いる。   This anaphoric / abbreviated analysis system 150 detects abbreviations and anaphors for a large amount of text prepared in advance, and presents candidates for expressions (preceding antecedents) pointed to by a user to select them with a simple operation. Thus, the annotation data generation auxiliary system 160 that assists the user in generating the model learning data (annotation data) necessary for anaphora and omission analysis, and the learning generated by the user using the annotation data generation auxiliary system 160 A learning data DB 162 for storing data, and a learning system 164 for learning an abbreviation detector 166, an anaphor detector 168, and an antecedent identifier 170 described later using the learning data stored in the learning data DB 162. Including. The abbreviation detector 166 detects abbreviations for any predicate in the text. The omission detector 166 includes a statistical model for detecting omissions where the subject, object, etc. in the text are omitted. The anaphoric detector 168 includes a statistical model for detecting an anaphor for indicating another word or the like with an arbitrary noun phrase (anaphor candidate) in the text as a classification target. The antecedent specifying unit 170 classifies a predicate having an abbreviation and a noun phrase that is an antecedent candidate in a text as a classification target, a noun in the text, and a noun in the text. A phrase pair (anaphoric and antecedent candidate) is classified, and a detector for specifying the antecedent pointed to by the anaphor is included. Each of these detectors has a separate statistical model. In the present embodiment, each of the omission detector 166, the anaphoric detector 168, and the antecedent identifier 170 uses SVM (Support Vector Machine) as a statistical model.

照応・省略解析システム150はさらに、省略検出器166、照応詞検出器168、及び先行詞特定器170を用いて、入力テキスト中の省略箇所及び照応詞を検出し、それらの指す先行詞を特定する情報を付して出力する照応・省略解析装置172を含む。   The anaphoric / abbreviated analysis system 150 further detects an abbreviation and an anaphor in the input text using the abbreviation detector 166, the anaphor detector 168, and the antecedent identifier 170, and identifies the antecedent pointed to by them. And an anaphoric / omitted analysis device 172 that outputs information attached thereto.

<アノテーションデータ生成補助システム160>
アノテーションデータ生成補助システム160は、表示装置とキーボート及びマウス等を用いてユーザとの間で対話的な入出力を行う入出力装置202と、言語知識を含む様々な資源を用いて、テキストアーカイブ192に記憶された大量のテキストに対するユーザのアノテーション付与作業を補助することで、学習データを生成し学習データDB162に出力する学習データ生成補助装置204とを含む。
<Annotation Data Generation Auxiliary System 160>
The annotation data generation assisting system 160 is a text archive 192 using an input / output device 202 that performs interactive input / output with a user using a display device, a keyboard, a mouse, and the like, and various resources including language knowledge. A learning data generation assisting device 204 that generates learning data and outputs it to the learning data DB 162 by assisting the user with annotating work on a large amount of text stored in.

学習データ生成補助装置204が使用する資源は、学習データDB162と同様の学習データを記憶した既存小規模学習データDB190と、テキストアーカイブ192に記憶されたテキストに対して適用可能な形式の言語知識を規則の形で記憶した言語知識DB194と、学習データ生成補助装置204が言語知識DB194に記憶された言語知識をテキストに対して適用する際に、規則中の表現を他の表現に言換えたり、規則中の単語を別の単語に入れ替えたりするために使用される言換え規則及びカテゴリを記憶した言換え・カテゴリ辞書196と、テキストが特定のパターンを持つときに、そのパターンに付随する省略箇所を特定できるよう、予め準備されたパターンを記憶するためのパターン辞書198とを含む。   The resources used by the learning data generation assisting device 204 include language knowledge in a format applicable to the existing small-scale learning data DB 190 storing learning data similar to the learning data DB 162 and text stored in the text archive 192. When the language knowledge DB 194 stored in the form of a rule and the learning data generation assisting device 204 apply the language knowledge stored in the language knowledge DB 194 to text, the expression in the rule is rephrased to another expression, A paraphrase / category dictionary 196 storing a paraphrase rule and category used to replace a word in the rule with another word, and an abbreviated portion accompanying the pattern when the text has a specific pattern A pattern dictionary 198 for storing patterns prepared in advance.

アノテーションデータ生成補助システム160はさらに、学習データ生成補助装置204が、テキスト中に省略箇所を発見したときに、その省略箇所が指し示す単語の候補を問い合わせる質問応答システム206と、学習データ生成補助装置204が質問応答システム206に対する質問をテキストに基づいて作成するときに参照する質問タイプDB200と、テキストに対して照応・省略解析を行って、学習データ生成補助装置204が実行する照応・省略解析の際に、省略箇所、照応詞、先行詞等の候補を学習データ生成補助装置204に対して提示するための既存照応・省略解析器208とを含む。   The annotation data generation assisting system 160 further includes a question answering system 206 that inquires about a word candidate indicated by the omitted portion when the learned data generation assisting device 204 finds an omitted portion in the text, and the learning data generation assisting device 204. Is a question type DB 200 that is referred to when creating a question for the question answering system 206 based on the text, and an anaphoric / omitted analysis executed by the learning data generation auxiliary device 204 by performing an anaphoric / omitted analysis on the text. In addition, an existing anaphoric / abbreviated analyzer 208 for presenting candidates such as omitted parts, anaphors, antecedents, etc. to the learning data generation assisting device 204 is included.

既存小規模学習データDB190の構成は、テキスト中の省略箇所、照応詞、及び先行詞の特定ができるようなフォーマットであればどのような形式でもよい。   The configuration of the existing small-scale learning data DB 190 may be in any format as long as it can specify an abbreviation, an anaphor, and an antecedent in the text.

テキストアーカイブ192に記憶されたテキストは、本実施の形態では単純なテキストであり、形態素解析、構造・係り受け解析がされていないことを前提とする。しかし、本発明はそのような実施の形態には限定されない。他のシステムで形態素解析若しくは構造・係り受け解析又はその双方が行われ、そうした情報が付されたものを用いてもよい。   The text stored in the text archive 192 is a simple text in the present embodiment, and it is assumed that morphological analysis and structure / dependency analysis have not been performed. However, the present invention is not limited to such an embodiment. A morphological analysis and / or a structure / dependency analysis performed by another system and the information to which such information is attached may be used.

〈言語知識DB194〉
図5を参照して、言語知識DB194に記憶された言語知識の規則は、大きく分けて5種類ある。すなわち、因果関係知識270、含意関係知識272、事態生起順序関係知識274、事態生起無効化関係知識276、及び項共有知識278である。各知識は、ワイルドカード的な役割を果たす、任意の名詞句等に置換可能な変数(以下では、「X」,「Y」等によって表わす)を含んでもよい。
<Language knowledge DB 194>
Referring to FIG. 5, the language knowledge rules stored in language knowledge DB 194 are roughly divided into five types. That is, causal relationship knowledge 270, implication relationship knowledge 272, event occurrence order relationship knowledge 274, event occurrence invalidation relationship knowledge 276, and term sharing knowledge 278. Each knowledge may include a variable (hereinafter, represented by “X”, “Y”, etc.) that can be replaced with an arbitrary noun phrase or the like that plays a role of a wild card.

因果関係知識270は、例えば「Xがタバコを吸う」という、原因に相当する表現と、「Xが肺がんの可能性を高める」という、結果に相当する表現との順序付ペアである。ここでは、原因に相当する表現が先に、結果に相当する表現が後に位置するものとする。   The causal relationship knowledge 270 is an ordered pair of an expression corresponding to the cause, for example, “X smokes tobacco” and an expression corresponding to the result, “X increases the possibility of lung cancer”. Here, it is assumed that the expression corresponding to the cause is located first and the expression corresponding to the result is located later.

含意関係知識272は、例えば「XがYの著者だ」という表現により、「XがYを執筆した」という表現が含意されている、ということをこれら2つの表現の順序付ペアで表す。ここでは、含意する表現が先に、含意される表現が後に位置するものとする。   The implication relation knowledge 272 indicates that the expression “X wrote Y” is implied by the expression “X is the author of Y”, for example, by an ordered pair of these two expressions. Here, it is assumed that an implied expression comes first and an implied expression comes later.

事態生起順序関係知識274は、例えば「XがYを発見する」という事象が生じると、「XがYを発表する」という事象が生じ得る、という事象の正規の順序関係を、これら2つの表現の順序付ペアで表す。ここでは、事象の順序関係にしたがって表現が配置されるものとする。   The event occurrence order relationship knowledge 274 expresses the normal order relationship of an event that an event “X announces Y” can occur when an event “X discovers Y” occurs. This is expressed as an ordered pair. Here, it is assumed that expressions are arranged according to the order relation of events.

事態生起無効化関係知識276は、例えば「Xを禁止する」という事象が発生すると、「Xを公開できない」という事象が発生するように、ある事象が発生したことにより別のある事象の発生が無効化されるような関係にある表現の順序付ペアである。ここでは、発生する事象が先に位置し、その事象により発生が無効化される事象が後に位置するものとする。   In the event occurrence invalidation relation knowledge 276, for example, when an event “Prohibit X” occurs, an occurrence of another event occurs due to the occurrence of an event such that an event “X cannot be disclosed” occurs. An ordered pair of expressions that are in a relationship that is invalidated. Here, it is assumed that an event that occurs is positioned first, and an event whose generation is invalidated by the event is positioned later.

後述するように、これら知識は単独でテキストに対して適用できるが、それだけではなく、例えば2つの知識のうち、一方の知識の後半の表現が、他方の知識の前半の表現と一致するような場合には、知識を連鎖させて適用できる。なお、ここでいう「一致」は、例えば同義語の言換え、含意等も含む。   As will be described later, these knowledge can be applied to the text alone, but not only that. For example, in the two knowledges, the latter half of one knowledge matches the first half of the other knowledge. In some cases, knowledge can be chained and applied. Here, “match” includes, for example, synonyms, paraphrases, implications, and the like.

一方、項共有知識278は、他の知識とやや異なった性格を持つ。図5に示すように、項共有知識278は、2つの述語(例えば「深める」と「協議する」、「目指す」と「続ける」等)が、それらの意味とは独立に、主語を共有することが多いという知識である。このような知識があれば、ある文章中で、項を共有する確率が高い2つの述語のうちの一方(第1の述語)と関係するある項(例えば主格の単語)が分かっているときに、他方の述語(第2の述語)に関係する同じ項が省略されていれば、第2の述語の項が、第1の述語の項と同じである確率が高い。したがって、その単語を第2の述語の省略箇所が指す単語の候補とすることができる。   On the other hand, the term sharing knowledge 278 has a slightly different personality from other knowledge. As shown in FIG. 5, in the term sharing knowledge 278, two predicates (for example, “deepen” and “discuss”, “aim” and “continue”, etc.) share the subject independently of their meanings. It is knowledge that there are many things. With such knowledge, when a certain term (for example, a prominent word) related to one (first predicate) of two predicates with high probability of sharing a term is known in a sentence. If the same term related to the other predicate (second predicate) is omitted, it is highly probable that the term of the second predicate is the same as the term of the first predicate. Therefore, the word can be a candidate for the word indicated by the omitted part of the second predicate.

〈項共有判別器〉
このような項共有知識を効率的に収集するためには、照応・省略関係がアノテーションされたコーパスを利用して、与えられた2つの述語の2つの格が項を共有するか否かを判別する判別器が有効である。判別器自体には、機械学習を用いることとし、統計的モデルとして例えばSVMを利用する。もちろん、統計的モデルとしてはSVMに限定されず、ニューラルネットワーク等を用いることもできる。
<Term sharing classifier>
In order to collect such term sharing knowledge efficiently, it is determined whether or not two cases of two given predicates share a term by using a corpus that is annotated with anaphora and omission relations. The discriminator is effective. For the discriminator itself, machine learning is used, and for example, SVM is used as a statistical model. Of course, the statistical model is not limited to SVM, and a neural network or the like can also be used.

図6を参照して、本実施の形態では、アノテート済テキスト記憶部281から得た学習データにより項共有判別器283の学習を行う項共有判別器学習装置282を用いる。アノテート済テキスト記憶部281には、例えば以下の様な文が格納されている。   Referring to FIG. 6, in the present embodiment, term sharing discriminator learning device 282 that performs learning of term sharing discriminator 283 using learning data obtained from annotated text storage unit 281 is used. The annotated text storage unit 281 stores, for example, the following sentence.

村山富市首相は年頭にあたり首相官邸で内閣記者会と二十八日会見し、社会党の新民主連合所属議員の離党問題について離党者がいても、その範囲にとどまる思う述べ、大量離党には至らないとの見通しを示した。」
このテキストには複数の述語が出現している。アノテート済テキスト記憶部281に記憶されたテキストにおいては、各述語の各々の格について、その項がどの表現であるかがアノテーションされている。この例では、「会見する」「思う」「述べる」「示す」「示す」の主語が「村山富市首相」であることがアノテーションされている。それ以外の述語「いる」「とどまる」「至る」についてはそれ以外の表現が主語となっている。このようなアノテーション結果が与えられたときに、任意の述語の対を抽出し、その対の格、例えば述語の主語同士が共有されている場合には正例、それ以外の場合には負例として学習データを作成し、この学習データにより、2つの述語が格を共有するか否かを判別するように項共有判別器283の学習を行う。
"Tomiichi Murayama Prime Minister met the Cabinet press conference and twenty-eight days in the Prime Minister's Office Upon the beginning of the year, even if defections's stomach for the defection issue of the New Democratic Coalition lawmakers of the Socialist Party, said that I think that remains in that range, a large amount defections It showed the prospect that does not lead to. "
Several predicates appear in this text. In the text stored in the annotated text storage unit 281, the expression of the term is annotated for each case of each predicate. In this example, it is annotated that the subject of “consult”, “think”, “state”, “show”, “show” is “Prime Minister Tomiichi Murayama”. For other predicates “is”, “stays” and “to”, other expressions are the subject. When such an annotation result is given, an arbitrary predicate pair is extracted, and the case of the pair, for example, the subject of the predicate is shared, a positive example, otherwise a negative example Learning data is created, and the term sharing discriminator 283 is trained so as to determine whether or not two predicates share a case based on the learning data.

項共有判別器学習装置282は、アノテート済テキスト記憶部281に格納されたテキスト中の各述語対について、述語の文字列、品詞、係り元、係り先の情報、述語間の距離、その間に出現する機能語等を特徴量として抽出し、格ごとに分けて学習データを生成する学習データ生成部284と、学習データ生成部284が出力する格ごとの学習データを記憶する学習データ記憶部285と、学習データ記憶部285に記憶された格ごとの学習データにより、格ごとの項共有判別器283の学習を行う学習処理部286とを含む。述語対としては、同一文内の述語対についてのみ考慮してもよいし、テキスト中で文境界を超えて出現する述語対まで考慮してもよい。本実施の形態では、後者を採用し、文境界を超えて出現する述語対からも学習データを生成する。   The term sharing discriminator learning device 282 generates, for each predicate pair in the text stored in the annotated text storage unit 281, a predicate character string, part of speech, information on a relation source, information on a relation destination, a distance between predicates, and an appearance between them. A learning data generation unit 284 that extracts learning function words and the like as feature quantities, generates learning data for each case, and a learning data storage unit 285 that stores learning data for each case output by the learning data generation unit 284 A learning processing unit 286 that learns the term sharing discriminator 283 for each case using the learning data for each case stored in the learning data storage unit 285. As predicate pairs, only predicate pairs in the same sentence may be considered, or even predicate pairs appearing beyond the sentence boundary in the text may be considered. In the present embodiment, the latter is adopted, and learning data is also generated from a predicate pair appearing beyond a sentence boundary.

図7を参照して、学習データ生成部284を実現するコンピュータプログラムは、アノテート済テキスト記憶部281の中の全てのテキストの各々について、以下の処理292を行うステップ291を含む。   Referring to FIG. 7, the computer program for realizing learning data generation unit 284 includes step 291 for performing the following processing 292 for each of all texts in annotated text storage unit 281.

処理292は、処理対象の文書に含まれる全ての述語対の各々について、処理294を行うステップ293を含む。   The process 292 includes a step 293 for performing the process 294 for each of all predicate pairs included in the document to be processed.

処理294は、処理対象の述語対から前述した特徴量を抽出するステップ295と、抽出された特徴量を用いて学習データを生成し出力する処理296とを含む。ステップ295では、具体的には、処理対象の述語対を含む文の各々について形態素解析及び構文解析を行った後、得られた形態素列及び係り受け関係から特徴量が抽出される。本実施の形態では、特徴量は、品詞情報を含む形態素列、及び文の係り受け構造のみであるため、特徴量抽出は単純な処理で実現できる。処理296は、述語格の組み合わせごとに実行される。図7では、図面を分かりやすくするために、主語についての処理のみを処理296として示してある。目的語等についての処理は図示していないが、ステップ295の後、主語の処理と並列に行う事ができる。   The process 294 includes a step 295 of extracting the above-described feature quantity from the predicate pair to be processed, and a process 296 of generating and outputting learning data using the extracted feature quantity. Specifically, in step 295, after performing morphological analysis and syntactic analysis for each of the statements including the predicate pair to be processed, feature quantities are extracted from the obtained morpheme strings and dependency relationships. In the present embodiment, feature amounts are only a morpheme sequence including part-of-speech information and a dependency structure of sentences, and thus feature amount extraction can be realized by a simple process. Process 296 is executed for each combination of predicate cases. In FIG. 7, only the processing for the subject is shown as processing 296 for easy understanding of the drawing. The processing for the object or the like is not shown, but can be performed in parallel with the processing of the subject after step 295.

処理296は、処理対象の述語対が主語を共有するか否かを判定するステップ297と、ステップ297の判定が肯定の時に、正例としてマークされた学習データをステップ295で抽出された特徴量から生成するステップ298と、ステップ297の判定が否定のときに、負例としてマークされた学習データをステップ295で抽出された特徴量から生成するステップ299と、ステップ298及びステップ299で生成された学習データを現在の処理中の格に応じたファイルに出力するステップ300とを含む。   Process 296 includes step 297 for determining whether or not the predicate pair to be processed shares the subject, and the feature quantity extracted in step 295 as the learning data marked as a positive example when the determination in step 297 is affirmative Generated at step 298, and when the determination at step 297 is negative, the learning data marked as a negative example is generated from the feature amount extracted at step 295, and generated at step 298 and step 299. Outputting the learning data to a file corresponding to the case currently being processed.

図8を参照して、上に説明したようにして学習が行われた項共有判別器283を用いて未アノテートテキストアーカイブ302から項共有知識を抽出する項共有知識収集装置301について説明する。ここでは、項共有判別器283として、判別の対象となる項別に3つの項共有判別器306,307及び308を用いるものとする。項共有知識収集装置301は、未アノテートテキストアーカイブ302から全ての述語対を抽出する述語対抽出部303と、述語対抽出部303により抽出された述語対の各々について、図7のステップ295で抽出されたものと同じ特徴量を抽出する特徴量抽出部304と、特徴量抽出部304により抽出された特徴量を、判別対象の項の格にしたがって3つの項共有判別器306,307及び308に振り分ける振り分け部305と、項共有判別器306、307及び308の判別結果と処理対象となっている述語対と判別対象の格の情報とをまとめて項共有知識として記憶する項共有知識記憶部310とを含む。判別結果は、処理対象の述語対が項を共有しているか否かを示す情報と、そのスコアとを含む。項共有判別器306,307及び308はいずれも前述したとおりSVMからなる。ここでのスコアは、SVMから出力される、判別の基準となる分離平面から判別対象のデータポイントまでの距離に相当するスコアを用いる。   With reference to FIG. 8, the term shared knowledge collection device 301 that extracts the term shared knowledge from the unannotated text archive 302 using the term shared discriminator 283 that has been learned as described above will be described. Here, as the term sharing discriminator 283, three term sharing discriminators 306, 307, and 308 are used for each term to be discriminated. The term sharing knowledge collection apparatus 301 extracts the predicate pair extraction unit 303 that extracts all predicate pairs from the unannotated text archive 302 and the predicate pair extracted by the predicate pair extraction unit 303 in step 295 of FIG. The feature quantity extraction unit 304 that extracts the same feature quantity as that obtained, and the feature quantity extracted by the feature quantity extraction unit 304 are transferred to the three term sharing classifiers 306, 307, and 308 according to the classification of the term to be discriminated. The sorting unit 305 for sorting and the term sharing knowledge storage unit 310 that stores the discrimination results of the term sharing classifiers 306, 307, and 308, the predicate pairs to be processed, and the information of the case to be discriminated together as the term sharing knowledge. Including. The determination result includes information indicating whether or not the predicate pair to be processed shares a term, and its score. The term sharing discriminators 306, 307, and 308 are all made of SVM as described above. As the score here, a score corresponding to the distance from the separation plane serving as a criterion for discrimination to the data point to be discriminated, which is output from the SVM, is used.

本実施の形態ではさらに、項共有知識記憶部310に記憶された項共有知識について、人手による対話型処理312により検証して取捨選択を行うための検証処理部309を含む。検証処理部309は例えば、項共有知識記憶部310に記憶された項共有知識の内、スコアが低い判別結果を表示装置に表示し、人手によりその取捨選択を行う。ただし、人手による対話型処理312を用いて項共有知識の取捨判別を行うことに限定されない。例えば、項共有判別器306、307及び308が信頼度の低い判別結果を破棄する(出力しない)ようにしてもよい。又は、項共有知識記憶部310に記憶された項共有知識を利用する際に、スコアが一定の値より高いもののみを使用してもよい。このスコアはアプリケーションごとに変更してもよく、また格ごとに別々の値にしてもよい。   This embodiment further includes a verification processing unit 309 for verifying and selecting the term shared knowledge stored in the term shared knowledge storage unit 310 by manual interactive processing 312. For example, the verification processing unit 309 displays, on the display device, a discrimination result having a low score among the term sharing knowledge stored in the term sharing knowledge storage unit 310, and performs manual selection. However, the present invention is not limited to performing the discriminating determination of the term sharing knowledge using the interactive processing 312 by hand. For example, the term sharing discriminators 306, 307, and 308 may discard (not output) discrimination results with low reliability. Alternatively, when using the term shared knowledge stored in the term shared knowledge storage unit 310, only those having a score higher than a certain value may be used. This score may be changed for each application, or may be a different value for each case.

〈質問タイプDB200〉
図9を参照して、質問タイプDB200は、学習データ生成補助装置204が質問応答システム206を利用して先行詞の候補を入手するときに利用される。質問タイプDB200は、複数のエントリを持つ。各エントリは例えば、ある動詞について、ある表現内でのその動詞の係り受け関係において省略されている部分の文法役割と、省略部分に挿入されるべき表現を求める際に、どのような形で質問文を生成すればよいかを示す情報(質問タイプ)とを含む。例えば「食べる」という動詞について、ある表現内でその主語が省略されている場合には、「誰が」を文の先頭に配置して文を生成すれば、回答として「食べる」の主語になるべき表現が質問応答システムから得られる。
<Question type DB200>
Referring to FIG. 9, question type DB 200 is used when learning data generation assisting device 204 uses a question answering system 206 to obtain antecedent candidates. The question type DB 200 has a plurality of entries. For example, each entry asks what form a verb is asked to determine the grammatical role of the part omitted in the dependency relationship of the verb in an expression and the expression to be inserted into the omitted part. Information (question type) indicating whether a sentence should be generated. For example, for the verb “eating”, if the subject is omitted in an expression, if “who” is placed at the beginning of the sentence and the sentence is generated, the answer should be the subject of “eating” A representation is obtained from the question answering system.

〈質問応答システム206〉
図10を参照して、質問応答システム206を利用して省略箇所の指す表現の候補を得るプロセスについて説明する。まず、入力テキスト320が2つの文を含むものとする。第1の文は「夕食に赤ワインを飲みましょう」という文であり、第2の文は「心臓病を防ぎます」であるものとする。第2の文の先頭には「防ぎます」という動詞332の主語が省略されており、この省略箇所334には省略を示すタグが付されているものとする。ここでは、この省略箇所には「赤ワイン」という単語330が入るべきである。
<Question answering system 206>
With reference to FIG. 10, a process for obtaining a candidate for an expression pointed to by an omitted part using the question answering system 206 will be described. First, it is assumed that the input text 320 includes two sentences. The first sentence is "Let's drink red wine for dinner", and the second sentence is "Prevent heart disease". It is assumed that the subject of the verb 332 “Prevent” is omitted at the beginning of the second sentence, and a tag indicating the omission is attached to the omitted portion 334. Here, the word 330 “red wine” should be placed in this omitted part.

ここで、このテキストから省略箇所334に入るべき表現の候補を質問応答システムから得るためには、適切な質問文を生成して質問応答システム206への入力として与える必要がある。ここでは、入力テキスト320の省略箇所の文で「防ぎます」の主語を知る必要がある。図示しないが、言換え・カテゴリ辞書196に「予防」と「防ぐ」との言換えが可能であるという情報が格納されているものとする。すると、図9に示す質問タイプDB200に、動詞が「予防する」、文法役割が「主語」となったエントリが見つかる。その「質問タイプ」のカラムには「何が」が格納されている。学習データ生成補助装置204は、これら情報から、「何が心臓病を防ぐのか」という質問文336を生成する。質問文の生成において、文末は質問文にふさわしく、予め準備された規則にしたがって変換する。文末の変換規則を、質問タイプDB200の各エントリに予め格納しておくようにしてもよい。   Here, in order to obtain from the question answering system candidates for expressions to be included in the omitted part 334 from this text, it is necessary to generate an appropriate question sentence and give it as an input to the question answering system 206. Here, it is necessary to know the subject of “prevent” in the sentence of the omitted part of the input text 320. Although not shown, it is assumed that the paraphrase / category dictionary 196 stores information that “prevent” and “prevent” can be paraphrased. Then, an entry with the verb “prevent” and the grammatical role “subject” is found in the question type DB 200 shown in FIG. “What” is stored in the “question type” column. The learning data generation assisting device 204 generates a question sentence 336 “what prevents heart disease” from these pieces of information. In generating a question sentence, the end of the sentence is suitable for the question sentence, and is converted according to a rule prepared in advance. The conversion rule at the end of the sentence may be stored in advance in each entry of the question type DB 200.

図10を参照して、質問応答システム206は、この質問文336を受け取ると、システム内のデータベース内から、質問文336に対する回答としてふさわしい単語候補群342を検索して取り出す。質問応答システム206はさらに、このようにして得られた単語候補群342を、カテゴリ別に、各カテゴリ344、346、及び348が1又は複数の回答候補を含むようにして学習データ生成補助装置204に送信する。ここでは、カテゴリ344が「赤ワイン」、「酒」、「ビール」を含むものとする。他のカテゴリ346及び348も同様である。学習データ生成補助装置204は、例えば、こうして得られた単語の候補のうち、入力テキスト320内で省略箇所334より前の位置にある単語と一致する表現(この例では「赤ワイン」という単語330)を選択し、省略箇所334と、その指し先の候補としての単語330とをアノテーション350の対象とする。以上が質問応答システム206を用いたアノテーション付加作業の概略である。   Referring to FIG. 10, upon receiving this question sentence 336, the question answering system 206 searches and extracts a word candidate group 342 suitable as an answer to the question sentence 336 from the database in the system. The question answering system 206 further transmits the word candidate group 342 obtained in this way to the learning data generation assisting device 204 so that each category 344, 346, and 348 includes one or more answer candidates for each category. . Here, it is assumed that the category 344 includes “red wine”, “sake”, and “beer”. The same applies to the other categories 346 and 348. The learning data generation assisting device 204, for example, of the word candidates obtained in this way, an expression that matches the word in the position before the omitted part 334 in the input text 320 (in this example, the word 330 “red wine”). Is selected, and the omitted portion 334 and the word 330 as a candidate for the destination are set as the target of the annotation 350. The above is the outline of the annotation addition work using the question answering system 206.

〈既存照応・省略解析器208〉
図11を参照して、既存照応・省略解析器208は、既存の、照応・省略解析を行うものである。ここでは、既存照応・省略解析器208は、省略箇所の候補、照応詞の候補、及び省略箇所及び照応詞の先行詞の候補を提示するために使用される。最終的には人間がこれら候補の中から正しい候補を選択する。したがって、ここで用いる既存照応・省略解析器208の精度は必ずしも高くなくてもよい。
<Existing anaphoric / abbreviated analyzer 208>
Referring to FIG. 11, the existing anaphora / omission analyzer 208 performs existing anaphora / omission analysis. Here, the existing anaphoric / abbreviated analyzer 208 is used to present a candidate for an abbreviation, a candidate for an anaphor, and a candidate for an antecedent of the abbreviation and an anaphor. Eventually, a human selects a correct candidate from these candidates. Therefore, the accuracy of the existing anaphoric / omitted analyzer 208 used here is not necessarily high.

〈学習データ生成補助装置204〉
図11はアノテーションデータ生成補助システム160を示しており、学習データ生成補助装置204は、テキストアーカイブ192に含まれる各テキストに対して形態素解析を行い、さまざまな文法情報が付された形態素列を出力する形態素解析システム380と、形態素解析システム380の出力する形態素列に対し、文の構造及び係り受け解析を行い、構造・係り受け情報が付された形態素列を出力する係り受け関係解析システム382と、係り受け関係解析システム382が出力する形態素列を、それらの文法情報及び構造・係り受け関係とともに記憶する解析後テキストDB384とを含む。ここでは、係り受け関係解析システム382は、少なくともどの単語がどの単語に係っているかを示す係り受け情報を各形態素列に付すものとする。なお、図11においては、図面を簡略にするために図示していないが、本実施の形態では、学習データ生成補助装置204内の各要素は、入出力装置202を介したユーザの指示により動作する。
<Learning data generation auxiliary device 204>
FIG. 11 shows an annotation data generation auxiliary system 160. The learning data generation auxiliary device 204 performs morpheme analysis on each text included in the text archive 192, and outputs a morpheme string with various grammatical information. A morpheme analysis system 380 that performs a sentence structure and dependency analysis on a morpheme sequence output from the morpheme analysis system 380, and outputs a morpheme sequence to which structure / dependency information is attached; The post-analysis text DB 384 stores the morpheme string output by the dependency relationship analysis system 382 together with the grammatical information and the structure / dependency relationship. Here, the dependency relationship analysis system 382 attaches dependency information indicating at least which word is related to which word to each morpheme string. Although not shown in FIG. 11 for the sake of brevity, in the present embodiment, each element in the learning data generation auxiliary device 204 operates according to a user instruction via the input / output device 202. To do.

学習データ生成補助装置204はさらに、解析後テキストDB384に記憶された解析後テキストにおいて、省略箇所を検出し、質問タイプDB200及び質問応答システム206を用いて各省略箇所の先行詞を指すアノテーション候補群を生成する第1の候補生成部388と、解析後テキストDB384に記憶された解析後テキストにおいて、第1の候補生成部388と同様に省略箇所を検出し、各省略箇所に対して言語知識DB194、言換え・カテゴリ辞書196、及びパターン辞書198を用いて省略箇所に関するアノテーション候補群を生成する第2の候補生成部390と、既存小規模学習データDB190に記憶された学習データに対して、その中に存在している照応関係、省略関係の一部を変更して新たな学習データを生成し、その学習データから新たなアノテーション候補を生成する第3の候補生成部392と、既存照応・省略解析器208を用い、解析後テキストDB384に記憶されたテキストに対する照応・省略解析を行って、その結果をアノテーション候補として生成する第4の候補生成部394とを含む。   The learning data generation assisting device 204 further detects an abbreviated portion in the analyzed text stored in the analyzed text DB 384 and uses the question type DB 200 and the question answering system 206 to indicate an annotated candidate group indicating the antecedent of each omitted portion. In the first candidate generation unit 388 that generates and the post-analysis text stored in the post-analysis text DB 384, the omission is detected in the same manner as the first candidate generation unit 388, and the language knowledge DB 194 is detected for each omission. The second candidate generation unit 390 that generates an annotation candidate group related to the omitted part using the paraphrase / category dictionary 196 and the pattern dictionary 198, and the learning data stored in the existing small-scale learning data DB 190, Create new learning data by changing some of the anaphoric relationships and omission relationships that exist inside Using the third candidate generation unit 392 that generates a new annotation candidate from the learning data and the existing anaphora / omission analyzer 208, the anaphora / omission analysis is performed on the text stored in the post-analysis text DB 384, and the result And a fourth candidate generation unit 394 that generates as an annotation candidate.

学習データ生成補助装置204はさらに、第1の候補生成部388、第2の候補生成部390、第3の候補生成部392、及び第4の候補生成部394の出力するアノテーション候補群を、各アノテーションが付されるべき省略箇所、照応詞等と関連付けて記憶する候補DB386と、解析後テキストDB384に記憶された各テキストの省略箇所及び照応詞の各々について、候補DB386を参照して候補を選択可能な形式で入出力装置202の表示装置に表示し、ユーザからの選択入力を受け付けて学習データDB162に学習データとして出力する対話型アノテーション装置396とを含む。   The learning data generation assisting device 204 further selects the annotation candidate groups output from the first candidate generation unit 388, the second candidate generation unit 390, the third candidate generation unit 392, and the fourth candidate generation unit 394, respectively. Candidate DB 386 to be stored in association with an abbreviation, an anaphor, etc. to be annotated, and each abbreviation and anaphor of each text stored in post-analysis text DB 384, with reference to candidate DB 386, select a candidate And an interactive annotation device 396 that displays it on the display device of the input / output device 202 in a possible format, accepts a selection input from the user, and outputs it as learning data to the learning data DB 162.

再び図4を参照して、学習システム164は、アノテーションデータ生成補助システム160で用いられた質問タイプDB200及び学習データ生成補助装置204とそれぞれ同様の質問タイプDB220及び質問応答システム226と、後述するように、先行詞特定器170の学習の際に、選択される先行詞に課される制約を記述した選択制限DB224と、アノテーションデータ生成補助システム160で使用される言語知識DB194と同様の構成を持つ言語知識を記憶した言語知識DB228と、学習データDB162に記憶された学習データ、質問タイプDB220、質問応答システム226、言語知識DB228、及び選択制限DB224を用い、省略検出器166、照応詞検出器168、及び先行詞特定器170の学習処理を実行する検出器学習装置222とを含む。   Referring to FIG. 4 again, the learning system 164 includes a question type DB 220 and a question answering system 226 similar to the question type DB 200 and the learning data generation auxiliary device 204 used in the annotation data generation auxiliary system 160, respectively, as will be described later. In addition, when learning by the antecedent identifier 170, the selection restriction DB 224 describing the restrictions imposed on the antecedent selected is similar to the language knowledge DB 194 used in the annotation data generation auxiliary system 160. Using the language knowledge DB 228 storing language knowledge, the learning data stored in the learning data DB 162, the question type DB 220, the question answering system 226, the language knowledge DB 228, and the selection restriction DB 224, an omission detector 166, an anaphoric detector 168 , And the learning process of the antecedent identifier 170 And a detector learning unit 222 of the row to.

〈第1の候補生成部388〉
図12を参照して、第1の候補生成部388は、解析後テキストDB384に記憶された各テキストデータのうちの述語を検索する述語検索部420と、述語検索部420が出力した各述語のリストを各述語の出現位置とともに記憶する述語リスト記憶部422と、述語リスト記憶部422に記憶された各述語のうち、当該述語が関与する係り受け関係のうちで省略されている箇所を検出し、省略候補として出力する省略候補検出部424と、省略候補検出部424に記憶された省略候補の各々に対して、質問タイプDB200を参照してその省略箇所を補完する単語を回答として求める質問文を生成し、質問応答システム206に質問文として与える質問文自動生成部426と、質問文自動生成部426から質問文を、その質問文に対する回答候補群を質問応答システム206から受信し、質問文とその回答候補群とを組み合わせて出力する回答受信部428と、回答受信部428が出現する質問文と回答候補群とのペアを受け、回答候補群に含まれる候補のうち、解析後テキストDB384に記憶された解析後テキスト文内の出現箇所を確認し、質問の対象となっている省略箇所より前の位置に出現するものを全て選択して省略箇所の指し先候補として出力する出現位置確認部430と、出現位置確認部430から出力される省略箇所とその省略箇所を補完する候補群とを組にしてアノテーション候補として候補DB386に追加する候補追加部432とを含む。
<First candidate generation unit 388>
Referring to FIG. 12, the first candidate generation unit 388 includes a predicate search unit 420 that searches for a predicate in each text data stored in the post-analysis text DB 384, and each predicate that the predicate search unit 420 outputs. A predicate list storage unit 422 that stores the list together with the appearance position of each predicate, and a portion that is omitted from the dependency relationship involving the predicate is detected among the predicates stored in the predicate list storage unit 422. The question sentence for obtaining, as an answer, a word that complements the omitted part by referring to the question type DB 200 for each of the omitted candidates detecting section 424 that is output as an omitted candidate and each of the omitted candidates stored in the omitted candidate detecting section 424. Is generated and given to the question answering system 206 as a question sentence. The question sentence from the question sentence automatic generation section 426 is assigned to the question sentence. The answer receiving unit 428 receives the answer candidate group from the question answering system 206 and outputs the combination of the question sentence and the answer candidate group, and receives the pair of the question sentence and the answer candidate group in which the answer receiving unit 428 appears, Check candidates appearing in the post-analysis text sentence stored in the post-analysis text DB 384 among candidates included in the answer candidate group, and select all appearing before the omitted part that is the subject of the question Then, the appearance position confirming unit 430 that is output as a candidate for the omitted part and the omitted part that is output from the appearance position confirming unit 430 and a candidate group that complements the omitted part are added to the candidate DB 386 as an annotation candidate. And a candidate addition unit 432 for

〈第2の候補生成部390〉
図13を参照して、第2の候補生成部390は、図12に示す述語検索部420、述語リスト記憶部422、及び省略候補検出部424とそれぞれ同様の述語検索部450、述語リスト記憶部452、及び省略候補検出部454と、省略候補検出部454により検出された省略候補のうち、テキスト内でその省略の候補を持つ述語よりも前に出現している他の述語を検索し、検索された各述語とその省略の候補を持つ述語とをペアにして出力する対象述語検索部456と、対象述語検索部456が出力する各述語ペアについて、それらペアを構成する述語、又はそれを言換え・カテゴリ辞書196を参照して得られた等価な表現で言換えた述語が、第1文と第2文とにそれぞれ出現するような言語知識が言語知識DB194内にあるか、又はそうした表現のパターンがパターン辞書198にあるか否かを判定し、あればその言語知識又はパターンを出力する言語知識検索部458と、言語知識検索部458が出力する言語知識又はパターンを一時記憶する合致言語知識記憶部460と、合致言語知識記憶部460に記憶された言語知識又はパターンを用い、対象述語検索部456が出力した述語ペアの各述語を含む表現を用いて、それら表現に含まれる省略箇所の指し先を推定し、省略箇所と指し先とを組にしてアノテーション候補として候補DB386に記憶させる候補追加部462とを含む。
<Second candidate generation unit 390>
Referring to FIG. 13, second candidate generation unit 390 includes predicate search unit 450 and predicate list storage unit similar to predicate search unit 420, predicate list storage unit 422, and abbreviation candidate detection unit 424 shown in FIG. 452, and abbreviation candidate detection unit 454, and among the abbreviation candidates detected by the abbreviation candidate detection unit 454, a search is performed for other predicates that appear before the predicate having the abbreviation candidate in the text. The target predicate search unit 456 that outputs each predicate and a predicate having a candidate for the omission as a pair, and for each predicate pair that the target predicate search unit 456 outputs, There is language knowledge in the language knowledge DB 194 such that predicates paraphrased with equivalent expressions obtained by referring to the substitution / category dictionary 196 appear in the first sentence and the second sentence, respectively, or It is determined whether or not the pattern of such expression is in the pattern dictionary 198, and if there is, the language knowledge search unit 458 that outputs the language knowledge or pattern, and the language knowledge or pattern output by the language knowledge search unit 458 are temporarily stored. Match language knowledge storage unit 460, and language knowledge or patterns stored in the match language knowledge storage unit 460, using expressions including each predicate of the predicate pair output by the target predicate search unit 456, and included in these expressions A candidate adding unit 462 that estimates a point of the omitted part to be stored and stores the pair of the omitted part and the pointing destination in the candidate DB 386 as an annotation candidate.

候補追加部462による省略箇所の指し先の推定は以下のようにして行われる。図14を参照して、テキスト482中に出現するある述語対(文字列494の「導入する」、文字列500の「設置する」)に対して、言語知識検索部458が言語知識480を検索したものとする。テキスト482は、図2に示す例文60と同文である。言語知識480は、「XがYを導入する」という第1文と、「XがYを設置する」という第2文とからなる。テキスト482内で、第1文の変数Xに相当する表現は「N社は」という文字列490である。第1文の「Y」に相当する表現は、テキスト482内の「新型交換機を」という文字列492である。そして、言語知識480の第1文の「導入する」という表現は、テキスト482内の「導入する」という文字列494と一致している。この関係から、変数Xが指す候補は文字列490中の「N社」という単語であり、変数Yが指す候補は文字列492中の「新型交換機」という単語であることが分かる。   The candidate addition unit 462 estimates the destination of the omitted portion as follows. Referring to FIG. 14, language knowledge search unit 458 searches language knowledge 480 for a predicate pair appearing in text 482 (“install” in character string 494, “install” in character string 500). Shall be. Text 482 is the same sentence as example sentence 60 shown in FIG. The language knowledge 480 includes a first sentence “X introduces Y” and a second sentence “X installs Y”. In the text 482, the expression corresponding to the variable X of the first sentence is a character string 490 “N company is”. The expression corresponding to “Y” in the first sentence is a character string 492 “new switch” in the text 482. The expression “introducing” in the first sentence of the language knowledge 480 matches the character string 494 “introducing” in the text 482. From this relationship, it can be seen that the candidate indicated by the variable X is the word “N company” in the character string 490, and the candidate indicated by the variable Y is the word “new switch” in the character string 492.

一方、言語知識480の第2文の「設置する」という表現と合致する表現としてテキスト482に出現するのは、「200システムを設置する」の中の「設置する」という文字列500である。この表現の先頭には省略箇所496を示すタグが付されている。この文(「(〈主語〉は)200システムを設置する」)という文と言語知識480の第2文とを比較することにより、Yは「システム」に相当し、Xは省略されていることがわかる。言語知識480の第1文から得られた知識を用いると、テキスト482の省略箇所496は、言語知識480のXを指し、したがって「N社は」という文字列490が「設置する」の主語であることが分かる。さらに、テキスト482の第2文の「システム」が言語知識480の変数Yに相当し、したがってテキスト482の「新型交換機は」という文字列492がテキスト482の「システム」という文字列498に対応するものであることが分かる。このようにして、省略箇所496の指し先の候補が言語知識480とテキストとを比較することにより求められる。   On the other hand, what appears in the text 482 as an expression that matches the expression “install” in the second sentence of the language knowledge 480 is the character string 500 “install” in “install 200 systems”. A tag indicating an abbreviated portion 496 is attached to the head of this expression. By comparing this sentence ("(<subject>) installs 200 system") and the second sentence of the language knowledge 480, Y corresponds to "system" and X is omitted. I understand. Using the knowledge obtained from the first sentence of the language knowledge 480, the omitted part 496 of the text 482 indicates X of the language knowledge 480, and therefore the character string 490 “N company” is the subject of “installation”. I understand that there is. Further, the second sentence “system” of the text 482 corresponds to the variable Y of the language knowledge 480, and therefore the character string 492 “new switch is” in the text 482 corresponds to the character string 498 “system” in the text 482. It turns out that it is a thing. In this way, the candidate for the destination of the omitted portion 496 is obtained by comparing the language knowledge 480 with the text.

言語知識を用いた別の例について、図15を参照して説明する。この例では、2つ以上の規則を順次結合することにより、3つ以上の文についての連続した因果関係が得られ、その関係を用いることで、テキスト中に出現する3つ以上の述語に関連して検出される2か所以上の省略箇所の指し先候補を特定する処理を表す。   Another example using language knowledge will be described with reference to FIG. In this example, two or more rules are combined sequentially to obtain a continuous causal relationship for three or more sentences, and the relationship is used to relate to three or more predicates appearing in the text. Represents a process for identifying two or more abbreviated point candidates that are detected in this manner.

図15に示すように、第1の言語知識520として「砂漠化が進む→黄砂が増える」、第2の言語知識522として「黄砂が増える→喘息が悪化する」という知識があるものとする。第1の言語知識520の第2文と、第2の言語知識522の第1文とは一致する。したがって、これら2つの知識を連鎖させることにより、「砂漠化が進む→黄砂が増える→喘息が悪化する」という第3の知識524が得られる。この第3の知識524とたとえば図15に示すテキスト526とを、特に述語その出現順序に注目して比較する。ここで、テキスト526については省略箇所の推定がされており、省略箇所542、省略箇所548等を示すタグが付加されているものとする。なお、テキスト526において、「(φ1)」は第1の省略箇所を、「(φ2)」は第2の省略箇所を、それぞれ表し、以下同様である。すると、テキスト526に「砂漠化が進んでいて」という表現540、「(φ1が)増えている」という表現544、及び「(φ2が)悪化して」という表現546が、第3の知識524の3つの述語部分と同じ順序で出現している。これらの表現の述語部分は、第3の知識524の述語と同じか、その活用形である。そこで、第3の知識524とテキスト526のうちで上記述語の出現している箇所とを比較することにより、φ1は黄砂を指し、φ2は喘息を指すことが分かる。   As shown in FIG. 15, it is assumed that the first language knowledge 520 has knowledge that “desertification proceeds → yellow dust increases”, and the second language knowledge 522 has “yellow dust increases → asthma worsens”. The second sentence of the first language knowledge 520 matches the first sentence of the second language knowledge 522. Therefore, by linking these two knowledge, the third knowledge 524 that “desertification advances → yellow sand increases → asthma worsens” is obtained. The third knowledge 524 is compared with, for example, the text 526 shown in FIG. Here, it is assumed that the omitted portion of the text 526 is estimated, and tags indicating the omitted portion 542, the omitted portion 548, and the like are added. In the text 526, “(φ1)” represents the first omitted portion, “(φ2)” represents the second omitted portion, and so on. Then, in the text 526, the expression 540 “desertification is progressing”, the expression 544 “(φ1 is increasing)”, and the expression 546 “(φ2 is getting worse)” are the third knowledge 524. Appear in the same order as the three predicate parts. The predicate part of these expressions is the same as the predicate of the third knowledge 524 or its utilization form. Therefore, by comparing the third knowledge 524 and the text 526 where the upper descriptive word appears, it can be seen that φ1 indicates yellow sand and φ2 indicates asthma.

このような比較により、2つ以上の知識を連結して得た知識を活用することで、省略箇所の指し先を効率よく探索できる。なお、知識をどの程度まで連結するかは、設計事項に関する。知識が長くなると1つの知識で探索可能な省略箇所の指し先数の最大値は大きくなるが、規則が適用可能なテキストは少なくなる。本実施の形態では、2つの知識までの連結することを想定している。ただし、本発明はそのような実施の形態には限定されない。もっと多くの知識を連結して省略箇所の指し先の探索に用いてもよい。又は、文の種類により連結数の最大値を変化させたり、ユーザに知識の連結数の最大値を指定させたりしてもよい。   By making use of knowledge obtained by connecting two or more pieces of knowledge through such comparison, it is possible to efficiently search for a point to be omitted. The extent to which knowledge is linked is related to design matters. As the knowledge becomes longer, the maximum value of the number of points to be omitted that can be searched with one knowledge increases, but the number of texts to which the rules can be applied decreases. In this embodiment, it is assumed that up to two pieces of knowledge are connected. However, the present invention is not limited to such an embodiment. More knowledge may be concatenated and used to search for the abbreviation point. Alternatively, the maximum value of the number of connections may be changed depending on the type of sentence, or the user may specify the maximum value of the number of connections of knowledge.

図16を参照して、知識の述語の言換えを適用することにより、一つの知識でより多くの指し先の探索を行う例について説明する。知識として「Xが生まれる→Xを販売する」という事態生起順序関係言語知識570があるものとする。一方、「販売する」を「売る」と言換えられるという言換え規則574が言換え・カテゴリ辞書196に記憶されているものとする。処理対象のテキストとして、「ウィスキー『W』が北海道で生まれA社が(φヲ)販売した」というテキスト572を考える。処理対象のテキストは、(φヲ)で表される省略箇所582を含む。テキスト572の前半部分と事態生起順序関係言語知識570の第1文とを比較すると、変数Xがテキスト572中の「ウィスキー『W』」という単語580を指すことが分かる。一方、テキスト572の述語「販売する」の目的語がXとなっている。この結果と、テキスト572の後半部の述語が「販売した」という表現584であることから、テキスト572中の「φヲ」で示される省略箇所582が「ウィスキー『W』」という単語580に相当することが分かる。そこで、まずこのようなアノテーション済のテキスト572が得られる。さらに、こうして得られたテキスト572に対し、言換え規則574を適用した言換え576により「販売した」を「売った」という表現586に置換し、アノテーションはそのまま残すことで、アノテーション済の新たなアノテーション済テキスト578が得られる。   With reference to FIG. 16, an example in which more points are searched with one piece of knowledge by applying paraphrasing of knowledge predicates will be described. It is assumed that there is a situation occurrence order relation language knowledge 570 “X is born → X is sold” as knowledge. On the other hand, it is assumed that a paraphrase rule 574 that “sell” can be paraphrased as “sell” is stored in the paraphrase / category dictionary 196. As a text to be processed, a text 572 “Whisky“ W ”was born in Hokkaido and sold by Company A (φwo)” is considered. The text to be processed includes an abbreviated portion 582 represented by (φ). Comparing the first half of the text 572 with the first sentence of the occurrence order relational language knowledge 570, it can be seen that the variable X points to the word 580 of “whiskey“ W ”” in the text 572. On the other hand, the object of the predicate “sell” in the text 572 is X. As a result, and the predicate in the latter half of the text 572 is the expression 584 “sold”, the omitted part 582 indicated by “φ wo” in the text 572 corresponds to the word 580 “whiskey“ W ””. I understand that Therefore, such an annotated text 572 is first obtained. Further, the text 572 thus obtained is replaced with the expression 586 of “sold” by “replaced” 576 to which the rephrase rule 574 is applied, and the annotation is left as it is. Annotated text 578 is obtained.

図17を参照して、さらに、経験的に得られた文のパターンを用いて省略箇所又は照応詞の指し元及び/又は指し先を特定する処理について説明する。例えば、「Xは〜して、〜する」のようなパターンが出現する場合、「〈述語〉して」の主語と「〈述語〉する」の主語とがいずれもXであるような例が多いことが経験的に知られている。そうした知識を文法的なパターンとしてパターン辞書198に記憶しておく。パターン中には、省略箇所に相当する部分を特定する情報と、その指し先を示す情報とを挿入しておいてもよい。そして、処理対象のテキスト中にパターン辞書198に記憶されたパターンに合致するような表現が出現した場合、その表現をパターンと比較することで、入力箇所内の省略箇所(指し元)と、その省略箇所の指し先との候補を特定できる。   With reference to FIG. 17, the process of specifying the omitted part and / or the pointing destination of the anaphor using an empirically obtained sentence pattern will be described. For example, when a pattern such as “X is to be” appears, there is an example in which the subject of “<predicate>” and the subject of “<predicate>” are both X. Many have been empirically known. Such knowledge is stored in the pattern dictionary 198 as a grammatical pattern. Information specifying a portion corresponding to the omitted portion and information indicating the pointing destination may be inserted into the pattern. Then, when an expression that matches the pattern stored in the pattern dictionary 198 appears in the text to be processed, the expression is compared with the pattern, so that the omitted part (pointer) in the input part, Can identify candidates for the point of omission.

例えば、図17に示すように、パターン612がパターン辞書198に記憶されているものとする。このパターン612は、「Xは」という表現650、「…して」という表現652、及び「…する」という表現654がこの順序で出現した場合、表現654の先頭に表現654の主語が省略された箇所を示すタグ656が付されること、そのタグ656の指先がXであることが記述されているものとする。   For example, assume that a pattern 612 is stored in the pattern dictionary 198 as shown in FIG. In this pattern 612, when an expression 650 “X is”, an expression 652 “... do”, and an expression 654 “... do” appear in this order, the subject of the expression 654 is omitted at the head of the expression 654. It is assumed that a tag 656 indicating the location is attached and that the fingertip of the tag 656 is X.

入力としてテキスト610が与えられたものとする。テキスト610には、「台風20号は」という表現630、「…を北上し」という表現632、及び「接近する」という表現634がこの順番で出現する。このテキスト610をパターン612と照合614することにより、Xが台風20号に相当すること、「接近する」の主語が省略されており、その指し先は台風20号であることが判明する。そこで、「接近する」の直前の省略箇所を示すタグ636と、その指し先としての「台風20号」とを対にしてアノテーション候補616とする。このように、人の経験から導き出されたパターンを照応・省略解析に適応することで、人が持つ知識を生かした照応・省略解析を実現できる。   Assume that text 610 is given as input. In the text 610, an expression 630 “Typhoon No. 20”, an expression 632 “Move north ...”, and an expression 634 “approach” appear in this order. By collating 614 this text 610 with the pattern 612, it is found that X is equivalent to Typhoon No. 20, the subject of “approaching” is omitted, and the destination is Typhoon No. 20. Therefore, a tag 636 indicating an abbreviated portion immediately before “approaching” and “typhoon No. 20” as the pointing destination are paired as an annotation candidate 616. In this way, by applying the pattern derived from the human experience to the anaphora / omission analysis, the anaphora / omission analysis utilizing the knowledge of the person can be realized.

図18を参照して、項共有知識を用いた候補検索は例えば以下のようにして行われる。項共有知識660として「Xは…北上する」という表現662と「Xは…接近する」という表現とを対にした項共有知識660があったものとする。入力テキストとして、図18に示すアノテーション候補616が与えられた場合を考える。この例では、タグ636により示される省略の指し先として誤って別の単語が挙げられているか、そもそも指し先候補が見つかっていない場合があり得る。その場合、項共有知識660を用いて正しい指し先を示すアノテーション候補668が以下のようにして得られる。   Referring to FIG. 18, candidate search using term sharing knowledge is performed as follows, for example. It is assumed that the term sharing knowledge 660 includes a term sharing knowledge 660 in which an expression 662 “X is ... northward” and an expression “X is ... approaching” are paired. Consider a case where an annotation candidate 616 shown in FIG. 18 is given as input text. In this example, there may be a case where another word is mistakenly cited as the destination of omission indicated by the tag 636, or the destination candidate is not found in the first place. In that case, an annotation candidate 668 indicating the correct pointing destination is obtained using the term sharing knowledge 660 as follows.

すなわち、アノテーション候補616に出現する述語対である表現「北上(する)」と「接近する」について、項共有知識を検索し照合666することにより、該当する項共有知識660を見出すことができる。項共有知識660によれば「北上する」と「接近する」とは主格を共有することが多い。そこで、アノテーション候補616において主格が省略されているタグ636が、述語である表現632と同じ主語(台風20号)を指している可能性が高く、タグ636と、その指し先としての「台風20号」とを対にしてアノテーション候補668とする。このように、人の経験により導き出された項共有知識を用いて、省略箇所とその指し先とを対にしてアノテーション候補を生成できる。他の解析時に得られた手がかりに加え、項共有知識を用いた項共有の可能性も手がかりとすることで、正しい解析結果が得られる可能性が高くなるという効果がある。なお、項共有知識を用いて項を共有する述語対を探索する代わりに、前述した項共有判別器を用いるようにしてもよい。   That is, for the expressions “Kitakami” and “approach” which are predicate pairs appearing in the annotation candidate 616, the term shared knowledge 660 can be found by searching for the term shared knowledge and collating 666. According to the term sharing knowledge 660, “go north” and “approach” often share the main character. Therefore, there is a high possibility that the tag 636 in which the main character is omitted in the annotation candidate 616 indicates the same subject (typhoon No. 20) as the predicate expression 632, and the tag 636 and the “typhoon 20” as the pointing destination. “No.” is taken as a pair of annotation candidates 668. In this way, using the term sharing knowledge derived from human experience, it is possible to generate an annotation candidate by pairing an abbreviated portion and its pointing destination. In addition to the clues obtained at the time of other analysis, the possibility of sharing the terms using the term sharing knowledge is also a clue, so that the possibility of obtaining a correct analysis result is increased. Instead of searching for a predicate pair that shares a term using term sharing knowledge, the term sharing classifier described above may be used.

〈第3の候補生成部392〉
図19を参照して、第3の候補生成部392は、既存小規模学習データDB190の中からアノテーション済の照応関係及び省略関係を検索し、両者を区別して出力する照応・省略関係検索部680と、照応・省略関係検索部680の出力する照応関係を構成する名詞句対の各々について、その名詞句の内の指し元(テキスト内で後方に位置するもの)を自動的に省略した新たな文を生成して新たなテキストを生成する指し元省略文生成部682と、指し元省略文生成部682の生成した文のうち、省略された箇所と、省略された箇所とともに照応関係がアノテーションされていた名詞句との間に新たな省略関係のアノテーション候補を付すアノテーション追加部684と、照応・省略関係検索部680が出力する省略関係を含むテキスト部分のうち、省略箇所について、アノテーションに基づいて省略箇所に、その指し先の要素を代名詞として復元することで新たな文を生成する省略要素復元部688と、省略要素復元部688により生成された新たな文に、省略要素復元部688により復元された代名詞の指し元とその指し先とからなるアノテーション候補を追加するアノテーション追加部690と、アノテーション追加部684及びアノテーション追加部690により生成された新たな文をそのアノテーション候補とともに候補DB386に追加する候補追加部686とを含む。
<Third candidate generation unit 392>
Referring to FIG. 19, the third candidate generation unit 392 searches for an annotated anaphoric relationship and an abbreviated relationship from the existing small-scale learning data DB 190, and distinguishes and outputs the anaphoric / omitted relationship search unit 680. And for each of the noun phrase pairs constituting the anaphoric relation output by the anaphoric / abbreviated relation searching unit 680, the noun phrase (those located behind in the text) is automatically omitted. An abbreviated sentence generation unit 682 that generates a new text by generating a sentence, and among the sentences generated by the specified abbreviated sentence generation unit 682, an anaphoric relationship is annotated with the omitted part and the omitted part. An annotation adding unit 684 that adds a new omission relationship annotation candidate between the noun phrase and the text portion including the omission relationship output by the anaphora / omission relationship search unit 680 Among the omitted parts, the omitted element restoration unit 688 that generates a new sentence by restoring the pointed element as a pronoun in the omitted part based on the annotation, and the new part generated by the omitted element restoration unit 688 A new annotation generated by the annotation adding unit 684 and the annotation adding unit 690. The annotation adding unit 690 adds an annotation candidate including the pronoun pointing source and the pointing destination restored by the omitted element restoring unit 688. A candidate adding unit 686 for adding a sentence to the candidate DB 386 together with the annotation candidates.

第3の候補生成部392により指し元を省略した場合、省略は機械によりある基準にしたがって自動的に行われる。そのため、省略語の表現について、その省略部分の指し先が何かを人が判断できない場合も生ずる。そうした場合には、そのアノテーションを負例として学習データに追加する。   When the third candidate generation unit 392 omits the pointing source, the omission is automatically performed according to a certain standard by the machine. For this reason, there is a case where a person cannot determine what the abbreviated part is pointed to. In such a case, the annotation is added to the learning data as a negative example.

なお、候補追加部686は、照応・省略関係検索部680及び省略要素復元部688の出力するテキストが解析後テキストDB384に存在しない場合には、これらテキストを解析後テキストDB384に追加し、アノテーション候補を解析後テキストDB384に追加されたテキストと関連付けて候補DB386に追加する。   Note that if the text output from the anaphora / omission relation retrieval unit 680 and the omission element restoration unit 688 does not exist in the analyzed text DB 384, the candidate addition unit 686 adds these texts to the analyzed text DB 384, and adds annotation candidates. Is added to the candidate DB 386 in association with the text added to the post-analysis text DB 384.

〈第4の候補生成部394〉
図20を参照して、第4の候補生成部394は、解析後テキストDB384に記憶された解析後テキストに対して、既存照応・省略解析器208を適用することにより、照応・省略解析の実行結果を得て、解析後テキストにアノテーションとして追加する照応・省略解析実行部710と、照応・省略解析実行部710の出力する照応・省略解析結果のアノテーションが付されたテキストを記憶する解析結果記憶部712と、解析結果記憶部712に記憶された解析結果に含まれるアノテーションを、解析後テキストDB384で解析対象となったテキストに対するアノテーション候補として候補DB386に追加する候補追加部714とを含む。
<Fourth candidate generation unit 394>
Referring to FIG. 20, the fourth candidate generation unit 394 executes the anaphora / omission analysis by applying the existing anaphora / omission analyzer 208 to the post-analysis text stored in the post-analysis text DB 384. An anaphoric / omission analysis execution unit 710 that obtains the result and adds it as an annotation to the analyzed text, and an analysis result storage that stores the annotated anaphoric / omission analysis result annotation output by the anaphoric / omission analysis execution unit 710 A candidate adding unit 714 that adds an annotation included in the analysis result stored in the analysis result storage unit 712 to the candidate DB 386 as an annotation candidate for the text to be analyzed in the post-analysis text DB 384.

〈対話型アノテーション装置396〉
図11に示す対話型アノテーション装置396は、図21に示すような状態遷移を行うプログラムにより実現される。図21を参照して、このプログラムは、プログラム実行開始時及び文書クローズ時等に初期処理を実行し、初期画面を表示した状態(初期状態)740から開始する。この状態では、テキストアーカイブから処理対象の文書を選択する処理と、プログラムの実行を終了する処理とのいずれかを選択できる。文書の選択が選ばれるとプログラムの状態は文書選択状態742に遷移する。文書選択状態742では、文書ファイルの選択ダイアログが表示される。ここでは文書ファイルの選択と、処理のキャンセルとを選ぶことができる。処理のキャンセルが選ばれると状態は初期状態740に戻る。文書選択状態742で文書が選択されるとプログラムは文書の内容を表示する状態(文書表示状態)744に遷移する。文書表示状態744では、文書の表示をキャンセルし、更新を反映せずに再度文書選択状態742に戻る処理と、更新を反映して文書をクローズする処理と、照応・省略解析の学習データを作成するために、アノテーション候補の選択を指示する処理とのいずれかを選択できる。アノテーション候補の選択が指示されると、文書の、現在処理中の位置から文書の末尾方向に向かって、アノテーション候補を検索する状態(候補検索状態)746を経由した後、アノテーション候補を表示してユーザによるアノテーション候補の選択を待つ状態(候補選択待機状態)748に遷移する。
<Interactive annotation device 396>
The interactive annotation apparatus 396 shown in FIG. 11 is realized by a program that performs state transition as shown in FIG. Referring to FIG. 21, this program starts from a state (initial state) 740 in which initial processing is executed at the start of program execution and when a document is closed and the initial screen is displayed. In this state, it is possible to select either a process for selecting a document to be processed from the text archive or a process for terminating the execution of the program. When document selection is selected, the program state transitions to the document selection state 742. In the document selection state 742, a document file selection dialog is displayed. Here, selection of a document file and cancellation of processing can be selected. If cancel processing is selected, the state returns to the initial state 740. When a document is selected in the document selection state 742, the program transitions to a state (document display state) 744 that displays the contents of the document. In the document display state 744, processing for canceling the display of the document, returning to the document selection state 742 again without reflecting the update, processing for closing the document reflecting the update, and learning data for anaphora and omission analysis are created. In order to do this, it is possible to select one of the processes for instructing selection of annotation candidates. When the selection of the annotation candidate is instructed, the annotation candidate is displayed after passing through the state (candidate search state) 746 for searching for an annotation candidate from the current processing position of the document toward the end of the document. Transition is made to a state of waiting for selection of an annotation candidate by the user (candidate selection standby state) 748.

候補検索状態746では、アノテーション候補が付された次の位置を検索し、検索された位置に付されているアノテーション候補が1つだけであれば図3の下段に示したような、アノテーション候補を承認するか否かを指定するドロップダウンリストを生成し、ドロップダウンリスト表示のためのアイコン「▼」を対象箇所に表示する。アノテーション候補が複数個ある場合には、それらを全て表示するドロップダウンリストを生成し、ドロップダウンリスト表示のためのアイコンを対象箇所に表示する。なお、ドロップダウンリストの表示時に、ユーザがリストのいずれかにポインタを合わせると、その候補と、その候補に対応する文書上の表現とが同じ色でハイライトされる。こうした処理により、指し元と指し先との対応についてユーザが容易に理解できる。この状態では、アノテーション選択処理を中断して文書表示状態744に状態を遷移させる処理と、それまでに行われたアノテーションの選択を文書に反映させて文書を保存し、文書ファイルをクローズする処理とのいずれかが選択できる。   In the candidate search state 746, the next position to which the annotation candidate is attached is searched. If there is only one annotation candidate attached to the searched position, the annotation candidate as shown in the lower part of FIG. A drop-down list for designating whether or not to approve is generated, and an icon “▼” for displaying the drop-down list is displayed at the target location. When there are a plurality of annotation candidates, a drop-down list for displaying all of them is generated, and an icon for displaying the drop-down list is displayed at the target location. When the user moves the pointer to any of the lists when the drop-down list is displayed, the candidate and the expression on the document corresponding to the candidate are highlighted in the same color. By such processing, the user can easily understand the correspondence between the pointing source and the pointing destination. In this state, the annotation selection processing is interrupted and the state is changed to the document display state 744, the annotation selection performed so far is reflected in the document, the document is saved, and the document file is closed. Either of these can be selected.

ドロップダウンリストの操作により候補のいずれかが選択がされると、プログラムはアノテート付加状態750に遷移する。アノテート付加状態750では、選択にしたがって文書内の指定箇所に選択されたアノテートを付し、他の候補には選択されなかったことを示す情報を付すよう、メモリ上の文書を更新する。プログラムは再び候補検索状態746に移動し、次の候補が見つかると候補選択待機状態748に遷移する。   When any of the candidates is selected by operating the drop-down list, the program transits to the annotation addition state 750. In the annotate addition state 750, the selected annotation is added to the designated place in the document according to the selection, and the document on the memory is updated so as to add information indicating that the other candidate is not selected. The program again moves to candidate search state 746 and transitions to candidate selection wait state 748 when the next candidate is found.

候補選択待機状態748で文書を表示させたままアノテーション処理を中断することを選択すると、プログラムは文書表示状態744に遷移する。文書に対して行ったアノテーション処理を反映させて現在の文書を保存することを選択した場合、プログラムは、文書クローズ状態752に遷移する。文書クローズ状態752では、プログラムは、メモリにロードされている更新済の文書データを文書ファイルとして上書き保存し、開いている文書ファイルをクローズする処理と、文書を保存せず、文書選択状態742に遷移する処理とのいずれかを選択できる。文書を保存しないことが選択されると、状態は文書選択状態742に直接遷移する。文書を保存することが選択されると、メモリ上のファイルを文書ファイルとして記憶媒体に上書き保存する状態(上書保存状態)754に遷移し、保存が完了すると文書選択状態742に遷移する。   If it is selected in the candidate selection standby state 748 that the annotation process is interrupted while the document is displayed, the program transitions to the document display state 744. If the current document is selected to reflect the annotation processing performed on the document, the program transitions to a document close state 752. In the document close state 752, the program overwrites and saves the updated document data loaded in the memory as a document file, closes the open document file, and does not save the document, and enters the document selection state 742. One of the transition processes can be selected. If it is selected not to save the document, the state transitions directly to the document selection state 742. When saving the document is selected, the state transits to a state (overwrite saving state) 754 in which the file on the memory is overwritten and saved on the storage medium as the document file, and when saving is completed, the state transits to the document selection state 742.

このプログラムを実行することにより、省略箇所、照応詞を装置側で自動的に検索し、いずれかが検索されるたびに、その箇所に付されたアノテーション候補が表示される。アノテーション候補が1つであればユーザはそのアノテーション候補を承認するか否かを入力すればよい。場合によってはアノテーション候補を手入力してもよい。いずれにせよ、削除位置又は照応詞をユーザが目視で探し、その指し先をさらに目視で探す場合と比較して、はるかに容易にアノテーションを行える。   By executing this program, the omitted part and the anaphor are automatically searched on the apparatus side, and each time any one is searched, the annotation candidate attached to the part is displayed. If there is one annotation candidate, the user may input whether to approve the annotation candidate. In some cases, annotation candidates may be entered manually. In any case, it is possible to annotate much more easily than when the user visually finds the deletion position or the anaphor, and further finds the pointing destination visually.

<検出器学習装置222>
再び図4を参照して、検出器学習装置222は、前述したとおり、学習データDB162に記憶された学習データから、選択制限DB224、質問タイプDB220及び質問応答システム226を用いて省略検出器166、照応詞検出器168、及び先行詞特定器170の学習をそれぞれ別々に行う。先行詞特定器170についてはさらに、省略箇所の先行詞用の特定器と、照応詞の先行詞用の特定器との学習を独立に行う。
<Detector learning device 222>
Referring to FIG. 4 again, as described above, the detector learning device 222 uses the selection restriction DB 224, the question type DB 220, and the question answering system 226 from the learning data stored in the learning data DB 162, and the omission detector 166, Learning of the anaphor detector 168 and the antecedent identifier 170 is performed separately. Further, the antecedent identifier 170 is further independently learned for the abbreviation antecedent identifier and the antecedent antecedent identifier.

図22を参照して、検出器学習装置222は、このために、省略検出器学習部770、照応詞検出器学習部772、及び先行詞特定器学習部774を含む。   With reference to FIG. 22, the detector learning device 222 includes an abbreviation detector learning unit 770, an anaphor detector learning unit 772, and an antecedent identifier learning unit 774 for this purpose.

〈省略検出器学習部770〉
本実施の形態では、省略検出器166は、主語省略検出器800、目的語省略検出器802,及び間接目的語省略検出器804を含む。省略検出器学習部770は、これら3つの検出器の学習を個別に行うため、学習データDB162に記憶された学習データの省略箇所の各々が、述語の主語(ガ格)、直接目的語(ヲ格)、又は間接目的語(二格)であるときに、それらを分類して、主語省略検出器800、目的語省略検出器802、及び間接目的語省略検出器804の学習をそれぞれ行うための素性ベクトル群782、784及び786を生成するための格別素性ベクトル生成部780と、これら素性ベクトル群782,784及び786を用いてそれぞれ主語省略検出器800、目的語省略検出器802、及び間接目的語省略検出器804を構成するSVMの学習を行うためのSVM学習処理部788とを含む。
<Omitted Detector Learning Unit 770>
In the present embodiment, the omission detector 166 includes a subject omission detector 800, an object omission detector 802, and an indirect object omission detector 804. Since the abbreviated detector learning unit 770 performs learning of these three detectors individually, each of the omitted parts of the learning data stored in the learning data DB 162 includes the subject of the predicate (ga) and the direct object (W Class) or indirect object (second case), and classifying them to perform learning of the subject omission detector 800, the object omission detector 802, and the indirect object omission detector 804, respectively. An exceptional feature vector generation unit 780 for generating feature vector groups 782, 784 and 786, and a subject omission detector 800, an object omission detector 802, and an indirect purpose using these feature vector groups 782, 784 and 786, respectively. And an SVM learning processing unit 788 for learning SVMs constituting the word abbreviation detector 804.

ここでは、述語とは、動詞、形容詞、及び「名詞+『だ』」の形式の文字列である。素性ベクトルに含む学習のラベルとしては、述語が省略を持つ場合に1,それ以外なら0を用いる。   Here, the predicate is a verb, an adjective, and a character string in the form of “noun +“ da ””. As a learning label included in the feature vector, 1 is used when the predicate has omission, and 0 is used otherwise.

格別素性ベクトル生成部780が生成する素性ベクトルは、以下のような要素を含む。   The feature vector generated by the exceptional feature vector generation unit 780 includes the following elements.

・省略検出対象の述語に関して、検出対象の文法役割(例えば、主語)が係り受け関係にあるなら1,それ以外なら0
・主題となる表現(「は」でマークされた名詞句)が述語と同一文内に出現しているなら1,それ以外なら0
・省略検出対象の述語が対象テキストの1文目に出現しているなら1,それ以外なら0
・省略検出対象の述語が文の最初の後であるなら1,それ以外なら0
・省略検出対象の述語と係り受け関係にある語の見出し語、品詞
-Regarding the predicate of the omission detection target, 1 if the grammatical role of the detection target (for example, subject) is in a dependency relationship, 0 otherwise.
-1 if the subject expression (noun phrase marked with "ha") appears in the same sentence as the predicate, 0 otherwise
-1 if the omission detection target predicate appears in the first sentence of the target text, 0 otherwise
-1 if the omission detection target predicate is after the beginning of the statement, 0 otherwise
-Headwords and parts of speech of words that have a dependency relationship with the predicate to be omitted

〈照応詞検出器学習部772〉
照応詞検出器学習部772は、学習データDB162に記憶された学習データから、照応詞検出器168のSVMの学習を行うために、照応関係の指し元(照応詞)としてアノテーションが付された単語を選択する照応詞候補選択部830と、照応詞候補選択部830により選択された照応詞の各々について、後述するような素性ベクトルを生成するための素性ベクトル生成部832と、素性ベクトル生成部832により生成された素性ベクトル群を用い、照応詞検出器168を構成するSVMの学習を行うためのSVM学習処理部834とを含む。
<Anaphoric detector learning unit 772>
The anaphoric detector learning unit 772 uses the learning data stored in the learning data DB 162 to perform the SVM learning of the anaphoric detector 168, and is annotated as an anaphoric relationship indicator (anaphoric). An anaphor candidate selection unit 830 for selecting, a feature vector generation unit 832 for generating a feature vector as described later, and a feature vector generation unit 832 for each of the anaphors selected by the anaphor candidate selection unit 830. And an SVM learning processing unit 834 for performing learning of SVMs constituting the anaphor detector 168 using the feature vector group generated by.

素性ベクトル生成部832が生成する素性ベクトルにおいて、学習のラベルは、分類対象の名詞句が、テキストの前方に照応関係となる指し先を持つなら1,それ以外なら0である。照応詞検出学習のための素性ベクトルの要素は以下を含む。   In the feature vector generated by the feature vector generation unit 832, the learning label is 1 if the noun phrase to be classified has a pointing destination that has an anaphoric relationship in front of the text, and 0 otherwise. Elements of the feature vector for anaphoric detection learning include:

・照応詞候補の品詞、見出し語文字列、及びその候補に後続する格助詞
・照応詞候補の係り先の品詞、見出し語、その係り先に後続する格助詞
・テキスト中で照応詞候補より前の位置に出現する名詞句が文字列として照応詞候補と完全一致する場合に1,それ以外は0
・テキスト中で照応詞候補と部分一致する場合に1,それ以外は0
・ Part of speech, headword character string of anaphoric candidate, and case particle following the candidate ・ Part of speech, headword, and case particle following the subject of anaphoric candidate ・ Before anaphor candidate in text 1 if the noun phrase that appears at the position exactly matches the anaphor candidate as a character string, 0 otherwise
-1 if the anaphora candidate partially matches in the text, 0 otherwise

〈先行詞特定器学習部774〉
先行詞特定器170は、照応詞用先行詞特定器900と、省略用先行詞特定器902とを含む。そのため、先行詞特定器学習部774はこの2つの特定器900及び902の学習を別個に行う構成を有する。
<Predecessor identifier learning unit 774>
The antecedent identifier 170 includes an anaphoric antecedent identifier 900 and an abbreviation antecedent identifier 902. Therefore, the antecedent specifying device learning unit 774 has a configuration in which learning of the two specifying devices 900 and 902 is performed separately.

具体的には、先行詞特定器学習部774は、照応詞用先行詞特定器900の学習を行う照応詞用先行詞特定器学習部840と、省略用先行詞特定器902の学習を行う省略用先行詞特定器学習部842とを含む。   Specifically, the antecedent specifier learning unit 774 is an anaphoric antecedent specifier learning unit 840 that performs learning of the anaphoric antecedent specifier 900 and an abbreviation antecedent identifier 902 that is omitted. An antecedent classifier learning unit 842.

照応詞用先行詞特定器学習部840は、学習データDB162に記憶された学習データから照応関係の指し元(照応詞)としてアノテーションが付された表現を選択する照応詞選択部850と、照応詞選択部850が選択した照応詞に対し、実際に先行詞としてアノテーションされたものとそれ以外の先行詞の可能性がある表現とからなる先行詞候補を選択する先行詞候補選択部852と、照応詞選択部850が選択した照応詞と、先行詞候補選択部852が選択した照応詞候補との組み合わせの各々について照応詞用先行詞特定器900の学習を行うための素性ベクトルを生成する素性ベクトル生成部854と、素性ベクトル生成部854が生成した素性ベクトルを用いて照応詞用先行詞特定器900を構成するSVMの学習を行うためのSVM学習処理部856とを含む。   The antecedent antecedent identifier specifier learning unit 840 includes an anaphoric selector 850 that selects an expression annotated as an anaphoric relation indicator (anaphor) from the learning data stored in the learning data DB 162, and an anaphor An antecedent candidate selecting section 852 that selects an antecedent candidate composed of an annotated phrase that is actually annotated as an antecedent and an expression that may be another antecedent for the anaphor selected by the selecting section 850; Feature vector for generating a feature vector for learning the anaphor antecedent identifier 900 for each of the combinations of the anaphor selected by the verse selection unit 850 and the anaphor candidate selected by the antecedent candidate selection unit 852 The learning unit 854 and the learning of the SVM that constitutes the antecedent antecedent identifier 900 using the feature vector generated by the feature vector generation unit 854 And a VM learning processing unit 856.

一方、省略用先行詞特定器学習部842は、学習データDB162内の学習データのうち、省略関係としてアノテーションされた表現(省略)を選択する省略選択部870と、省略選択部870が選択した省略に対する先行詞としてアノテーションされた表現を含め、先行詞となる可能性のある候補を学習データ中で選択する先行詞候補選択部872と、省略選択部870が選択した省略部と、先行詞候補選択部872が選択した先行詞候補との組み合わせの各々について、素性ベクトルを生成するための素性ベクトル生成部874と、素性ベクトル生成部874により生成された素性ベクトルを用いて、省略用先行詞特定器902を構成するSVMの学習を行うSVM学習処理部876とを含む。なお、素性ベクトル生成部874は後述するように選択制限DB224、質問タイプDB220、質問応答システム226、及び言語知識DB228に接続されており、素性ベクトルの生成時にこれらから得られる情報を用いる。   On the other hand, the abbreviation antecedent identifier learning unit 842 selects an expression (omitted) annotated as an abbreviation relationship from the learning data in the learning data DB 162, and the omission selected by the abbreviated selection unit 870. Including an annotated expression as an antecedent for an antecedent, an antecedent candidate selecting unit 872 for selecting candidates that may become an antecedent in the learning data, an abbreviation selected by the abbreviation selecting unit 870, and an antecedent candidate selection For each combination with the antecedent candidate selected by the unit 872, a feature vector generation unit 874 for generating a feature vector and a feature vector generated by the feature vector generation unit 874 are used to omit an antecedent antecedent identifier And an SVM learning processing unit 876 that performs learning of the SVM that constitutes 902. As will be described later, the feature vector generation unit 874 is connected to the selection restriction DB 224, the question type DB 220, the question answering system 226, and the language knowledge DB 228, and uses information obtained from these when generating the feature vectors.

素性ベクトル生成部854及び素性ベクトル生成部874が生成する素性ベクトルにおいて、学習のラベルは、分類対象の省略・先行詞候補又は照応詞・先行詞候補の対が照応・省略関係となるなら1,それ以外は0である。   In the feature vector generated by the feature vector generation unit 854 and the feature vector generation unit 874, the learning label is 1, if the abbreviation / antecedent candidate or the anaphoric / precedent candidate pair to be classified has an anaphoric / abbreviated relationship. Otherwise it is 0.

素性ベクトルの要素は以下のとおりである。   The elements of the feature vector are as follows.

・先行詞候補の品詞、見出し語文字列、その候補に後続する格助詞
・先行詞候補がテキストの1文目に出現するなら1,それ以外なら0
・先行詞候補が文内で最初に言及された先行詞候補なら1,それ以外なら0
・先行詞候補と照応詞が完全に同じ文字列なら1,それ以外なら0
・先行詞候補と照応詞が部分的に同じ文字列なら1,それ以外なら0
・選択制限DB224を用い、省略を持つ述語と先行詞となる名詞句の間で選択制限が満たされる場合には1,それ以外なら0
・省略を含む文、その省略の箇所について、質問タイプDB220を用いてその箇所が回答となるような質問文を生成し質問応答システム226に与えて得られた回答のいずれかが先行詞候補と一致すれば1,それ以外なら0
・省略を持つ述語、先行詞の係り先の述語が検出器学習装置222に登録されている因果関係知識に含まれる述語対と合致するなら1,それ以外なら0
-Part of speech candidate, headword character string, case particle following the candidate-1 if the antecedent candidate appears in the first sentence of the text, 0 otherwise
-1 if the antecedent candidate is the first antecedent candidate mentioned in the sentence, 0 otherwise
-1 if the antecedent candidate and anaphor are exactly the same string, 0 otherwise
-1 if the antecedent candidate and the anaphor are partially the same string, 0 otherwise
Uses the selection restriction DB 224, 1 if the selection restriction is satisfied between the predicate having an abbreviation and the noun phrase as an antecedent, 0 otherwise
For a sentence including an abbreviation and the omitted part, the question type DB 220 is used to generate a question sentence in which the part is an answer and give to the question answering system 226 that one of the answers is an antecedent candidate 1 if they match, 0 otherwise
1 if the predicate having an abbreviation or the predicate's predecessor predicate matches the predicate pair included in the causal relationship knowledge registered in the detector learning device 222, and 0 otherwise.

〈照応・省略解析装置172〉
図4を参照して、照応・省略解析装置172は、省略検出器166、照応詞検出器168及び先行詞特定器170に接続され、これらを用いて入力250に対する照応・省略解析をし、自動的にアノテーションを入力250に追加して出力するための照応・省略解析器252と、照応・省略解析器252が照応・省略解析をする際の素性ベクトル生成に使用する言語知識DB256、質問タイプDB258、質問応答システム260、及び選択制限DB262とを含む。言語知識DB256は、照応・省略解析システム150で使用される言語知識DB194、学習システム164で使用される言語知識DB228と同様の言語知識を記憶したデータベースである。質問タイプDB258は、アノテーションデータ生成補助システム160で使用される質問タイプDB200及び学習システム164で使用される質問タイプDB220と同様の構成を持ち、その記憶内容も同様である。質問応答システム260は、アノテーションデータ生成補助システム160で使用される質問応答システム206及び学習システム164で使用される質問応答システム226と同様の機能を持つシステムである。選択制限DB262は、学習システム164における素性ベクトルの生成時に使用される選択制限DB224と同様のものである。なお、ここで同様の構成を持つと記載したDBは、互いに同一のものでもよいし、互いに異なるものでもよい。
<Anaphoric / Omitted Analysis Device 172>
Referring to FIG. 4, the anaphora / omission analyzer 172 is connected to an omission detector 166, an anaphoric detector 168, and an antecedent identifier 170, and uses these to perform an anaphora / omission analysis and automatically An anaphoric / omitted analyzer 252 for adding an annotation to the input 250 and outputting it, and a language knowledge DB 256 and a question type DB 258 used for feature vector generation when the anaphoric / omitted analyzer 252 performs an anaphoric / omitted analysis. , A question answering system 260, and a selection restriction DB 262. The language knowledge DB 256 is a database storing language knowledge similar to the language knowledge DB 194 used in the anaphora / abbreviation analysis system 150 and the language knowledge DB 228 used in the learning system 164. The question type DB 258 has the same configuration as the question type DB 200 used in the annotation data generation auxiliary system 160 and the question type DB 220 used in the learning system 164, and the storage contents thereof are also the same. The question answering system 260 is a system having functions similar to the question answering system 206 used in the annotation data generation assisting system 160 and the question answering system 226 used in the learning system 164. The selection restriction DB 262 is the same as the selection restriction DB 224 used when generating a feature vector in the learning system 164. The DBs described as having the same configuration here may be the same as each other or different from each other.

[動作]
以上に構成を述べた照応・省略解析システム150は以下のように動作する。項共有判別器283の学習、項共有知識の収集、学習データの作成、検出器の学習、及び入力に対する自動アノテーションの5つのフェーズに分けて説明する。
[Operation]
The anaphora / abbreviation analysis system 150 whose configuration has been described above operates as follows. The description will be divided into five phases: learning of the term sharing classifier 283, collection of term sharing knowledge, creation of learning data, learning of the detector, and automatic annotation for input.

<項共有判別器283の学習>
図6を参照して、予めアノテート済テキスト記憶部281にアノテート済のテキストが格納される。このテキストは、多くの場合人手で準備する。その量はそれほど多くなくてもよい。学習データ生成部284により、項を共有する述語対からなる正例と、項を共有しない負例とが、述語に対する格ごとの学習データとして生成され、学習データ記憶部285に格ごとに格納される。図7を参照して、具体的には、アノテート済テキスト記憶部281に記憶された全テキストについて(ステップ291)、以下の処理292が実行される。処理292では、処理中の文書に含まれる全述語対について、以下の処理294が実行される。
<Learning of the term sharing classifier 283>
Referring to FIG. 6, annotated text is stored in advance in annotated text storage unit 281. This text is often prepared manually. The amount may not be so large. The learning data generation unit 284 generates a positive example composed of predicate pairs sharing a term and a negative example not sharing a term as learning data for each case for the predicate, and stores it in the learning data storage unit 285 for each case. The Referring to FIG. 7, specifically, the following processing 292 is executed for all the texts stored in the annotated text storage unit 281 (step 291). In the process 292, the following process 294 is executed for all predicate pairs included in the document being processed.

処理294では、処理対象の述語対について、構成の欄で説明した特徴量の抽出が行われる。抽出された特徴量を用い、格ごとに以下の処理296が行われる。まず、アノテーションにしたがい、ステップ297で処理対象の述語対が対象の格の項を共有するか否かが判定される。項を共有する場合には、特徴量からなる学習データがステップ298で正例としてマークされ、ステップ300で対象の格用のファイルに出力される。ステップ297で述語対が項を共有しないと判定された場合には、学習データがステップ299で負例としてマークされ、ステップ300で対象の格用のファイルに出力される。   In the process 294, the feature amount described in the configuration column is extracted for the predicate pair to be processed. The following processing 296 is performed for each case using the extracted feature amount. First, according to the annotation, it is determined in step 297 whether or not the predicate pair to be processed shares the target case term. If the term is shared, the learning data consisting of the feature quantity is marked as a positive example in step 298 and output to the target case file in step 300. If it is determined in step 297 that the predicate pair does not share a term, the learning data is marked as a negative example in step 299 and is output to the target case file in step 300.

上記した処理が、アノテート済テキスト記憶部281中の全てのテキストの全ての述語対について実行され、学習データ記憶部285に学習データが記憶される。   The processing described above is executed for all predicate pairs of all texts in the annotated text storage unit 281, and the learning data is stored in the learning data storage unit 285.

学習処理部286が、格ごとに準備された項共有判別器283の学習を行う。その結果、述語対について所与の特徴ベクトルが与えられると、その述語対がある格の項を共有するか否かを判別する項共有判別器283が得られる。   The learning processing unit 286 learns the term sharing classifier 283 prepared for each case. As a result, when a given feature vector is given for the predicate pair, a term sharing discriminator 283 that determines whether or not the predicate pair shares a certain term is obtained.

図6の構成によって、項共有判別器283が得られれば、図8に示すように項共有知識収集装置301が未アノテートテキストアーカイブ302から項共有知識を収集して項共有知識記憶部310に蓄積できる。すなわち、項共有知識収集装置301の述語対抽出部303は、未アノテートテキストアーカイブ302から述語対を抽出し特徴量抽出部304に与える。特徴量抽出部304は、学習データ生成部284により抽出されたものと同様の特徴量を各述語対について算出し振り分け部305に与える。振り分け部305は、各述語対について処理すべき格ごとに、その格に応じた項共有判別器306、307及び308に特徴量からなる特徴ベクトルを与える。項共有判別器306、307及び308はそれぞれ、特徴ベクトルが与えられると、各共有判別器が担当している格についてその述語対が項を共有しているか否かについての判定をスコアとともに出力し、項共有知識記憶部310に蓄積する。   If the term sharing discriminator 283 is obtained by the configuration of FIG. 6, the term sharing knowledge collection device 301 collects the term sharing knowledge from the unannotated text archive 302 and stores it in the term sharing knowledge storage unit 310 as shown in FIG. it can. That is, the predicate pair extraction unit 303 of the term shared knowledge collection device 301 extracts predicate pairs from the unannotated text archive 302 and supplies the predicate pair to the feature amount extraction unit 304. The feature amount extraction unit 304 calculates the same feature amount as that extracted by the learning data generation unit 284 for each predicate pair, and provides the same to the distribution unit 305. For each case to be processed for each predicate pair, the sorting unit 305 gives a feature vector including feature amounts to the term sharing classifiers 306, 307, and 308 corresponding to the case. Each of the term sharing classifiers 306, 307, and 308, when given a feature vector, outputs a determination as to whether or not the predicate pair shares a term with the score for the case that each shared classifier is in charge of. Are stored in the term shared knowledge storage unit 310.

このようにして項共有知識記憶部310に蓄積された項共有知識について、作業者が対話型処理312及び検証処理部309を用いて検証し、不適切なもの、又はスコアが低いものを削除することで項共有知識が得られる。   The term shared knowledge stored in the term shared knowledge storage unit 310 in this way is verified by the operator using the interactive processing 312 and the verification processing unit 309, and the inappropriate or low score is deleted. The term sharing knowledge can be obtained.

〈学習データの作成〉
学習データの作成はアノテーションデータ生成補助システム160により行われる。この処理に先立ち、既存小規模学習データDB190、テキストアーカイブ192、言語知識DB194、言換え・カテゴリ辞書196、パターン辞書198、既存照応・省略解析器208、及び質問タイプDB200を準備しておく必要がある。また、質問応答システム206については、予めアノテーションデータ生成補助システム160内に準備し学習データ生成補助装置204からアクセス可能にしておくか、外部の質問応答システムに対して質問文を送れるよう準備しておく必要がある。
<Creating learning data>
Creation of learning data is performed by the annotation data generation auxiliary system 160. Prior to this processing, it is necessary to prepare the existing small-scale learning data DB 190, the text archive 192, the language knowledge DB 194, the paraphrase / category dictionary 196, the pattern dictionary 198, the existing anaphora / abbreviation analyzer 208, and the question type DB 200. is there. The question answering system 206 is prepared in advance in the annotation data generation auxiliary system 160 and is made accessible from the learning data generation auxiliary device 204, or prepared so that a question sentence can be sent to an external question answering system. It is necessary to keep.

図11を参照して、利用者は学習データ生成補助装置204を起動し、テキストアーカイブ192を指定して学習データの生成の開始を指示する。形態素解析システム380は、テキストアーカイブ192に記憶された各テキストを読出し、形態素解析をして種々の文法的情報が付された形態素列を係り受け関係解析システム382に与える。係り受け関係解析システム382は、与えられた形態素列からなる各文について文法的構造解析及び係り受け解析を行い、構造情報と係り受け情報とが付された形態素列を解析後テキストDB384に出力する。こうして、テキストアーカイブ192に記憶された各テキストが解析され、解析後テキストが解析後テキストDB384に蓄積される。   Referring to FIG. 11, the user activates learning data generation auxiliary device 204, designates text archive 192, and instructs the start of learning data generation. The morpheme analysis system 380 reads each text stored in the text archive 192, performs morpheme analysis, and gives a morpheme sequence with various grammatical information to the dependency relationship analysis system 382. The dependency relationship analysis system 382 performs grammatical structure analysis and dependency analysis for each sentence including a given morpheme sequence, and outputs the morpheme sequence to which the structure information and dependency information are attached to the text DB 384 after analysis. . In this way, each text stored in the text archive 192 is analyzed, and the analyzed text is accumulated in the analyzed text DB 384.

図12を参照して、第1の候補生成部388の述語検索部420は、解析後テキストDB384に記憶された解析後テキストの各々を読出し、述語を検索して述語リスト記憶部422に書き出す。省略候補検出部424は、述語リスト記憶部422に蓄積された述語リスト内の各述語について、その述語を含む係り受け関係において、その述語の主語、目的語、間接目的語等のいずれかが存在している否かを判定し、存在していないときにはその部分を省略候補として検出し質問文自動生成部426に与える。質問文自動生成部426は、省略候補の部分が回答となるような質問文から質問文を生成する。この際、質問文自動生成部426は、処理対象となっている述語と、省略候補の文法役割(主語、目的語、等)とをキーとして質問タイプDB200をアクセスし、質問タイプを読み出す。質問文自動生成部426はさらに、読み出した質問タイプの表現を用いて、省略箇所を含む文を変形して図10に示す質問文336のような質問文を生成する。質問文自動生成部426はこの質問文を質問応答システム206と回答受信部428に与える。回答受信部428は、質問文自動生成部426から質問文を受けると、質問文に対する回答が質問応答システム206から与えられるまで待機する。   Referring to FIG. 12, predicate search unit 420 of first candidate generation unit 388 reads each post-analysis text stored in post-analysis text DB 384, searches for a predicate, and writes it to predicate list storage unit 422. The abbreviation candidate detection unit 424 has, for each predicate in the predicate list stored in the predicate list storage unit 422, any of the subject of the predicate, the object, the indirect object, etc. in the dependency relationship including the predicate. If it does not exist, that portion is detected as an omission candidate and given to the question sentence automatic generation unit 426. The question sentence automatic generation unit 426 generates a question sentence from a question sentence whose answer is a part of the omission candidate. At this time, the question sentence automatic generation unit 426 accesses the question type DB 200 using the predicate to be processed and the grammatical role (subject, object, etc.) of the omission candidate as keys, and reads out the question type. The question sentence automatic generation unit 426 further generates a question sentence such as the question sentence 336 shown in FIG. 10 by modifying the sentence including the omitted part using the read expression of the question type. The question sentence automatic generation unit 426 gives this question sentence to the question answering system 206 and the answer receiving unit 428. When receiving the question message from the question message automatic generating unit 426, the answer receiving unit 428 waits until an answer to the question message is given from the question answering system 206.

質問応答システム206は、本実施の形態では、与えられた質問文に対し、いくつかのカテゴリ別に、各カテゴリについて複数の回答候補を生成し、回答受信部428に与える。回答受信部428は、質問応答システム206から回答を受信すると、その回答が質問文自動生成部426から送信されたどの質問文に対するものかを確認し、出現位置確認部430に処理対象となっている述語を特定する情報と回答とを与える。   In this embodiment, the question answering system 206 generates a plurality of answer candidates for each category for each given category and gives the answer to the answer receiving unit 428. When the answer receiving unit 428 receives an answer from the question answering system 206, the answer receiving unit 428 confirms to which question sentence the answer is sent from the question sentence automatic generating unit 426, and becomes an object to be processed by the appearance position confirmation unit 430. Give information and answer to identify the predicate.

出現位置確認部430は、回答受信部428からの情報に基づき、処理対象の解析後テキストのうち、処理の対象となっている述語より前に出現している省略の指し先候補の位置を確認し、それらを省略箇所の補完候補として、処理対象となっている述語と、候補の各々とを組みにして候補追加部432に出力する。候補追加部432は、出現位置確認部430から与えられた候補を候補DB386に追加する。   Based on the information from the answer reception unit 428, the appearance position confirmation unit 430 confirms the position of the abbreviated pointing destination candidate that appears before the predicate that is the processing target in the post-analysis text to be processed. Then, using these as candidates for omission of complementation, the predicates that are the processing targets and each of the candidates are combined and output to the candidate adding unit 432. The candidate addition unit 432 adds the candidate given from the appearance position confirmation unit 430 to the candidate DB 386.

図13を参照して、第2の候補生成部390は以下のように動作する。述語検索部450は、解析後テキストDB384に格納された解析後テキストの内の各述語を検索し、述語リスト記憶部452に蓄積する。省略候補検出部454は、図11に示す省略候補検出部424と同様、述語リスト記憶部452に蓄積された述語リスト内の各述語について、その述語を含む係り受け関係において、その述語の主語、目的語、間接目的語等のいずれかが存在している否かを判定し、存在していないときにはその部分を省略候補として検出する。省略候補検出部454は、検出された省略候補の位置を示す情報を対象述語検索部456に与える。対象述語検索部456は、省略候補検出部454により検出された省略候補のうち、テキスト内でその省略の候補を持つ述語よりも前に出現している他の述語を検索し、検索された各述語とその省略の候補を持つ述語とをペアにして言語知識検索部458に与える。   Referring to FIG. 13, second candidate generation unit 390 operates as follows. The predicate search unit 450 searches each predicate in the analyzed text stored in the analyzed text DB 384 and accumulates it in the predicate list storage unit 452. Similar to the abbreviation candidate detection unit 424 shown in FIG. 11, the abbreviation candidate detection unit 454 has the subject of the predicate in the dependency relationship including the predicate for each predicate in the predicate list storage unit 452. It is determined whether or not any of the object and the indirect object is present, and when it does not exist, that part is detected as an omission candidate. The omission candidate detection unit 454 gives information indicating the position of the detected omission candidate to the target predicate search unit 456. The target predicate search unit 456 searches for other predicates that appear before the predicate having the abbreviation candidate in the text among the abbreviation candidates detected by the abbreviation candidate detection unit 454. The predicate and the predicate having a candidate for the omission are paired and given to the language knowledge search unit 458.

言語知識検索部458は、対象述語検索部456が出力する各述語ペアについて、それらペアを構成する述語又はそれを言換えた述語が言語知識DB194内の言語知識のいずれかにおいて、第1文と第2文とに出現するような言語知識があるか否かを判定し、あればその言語知識を出力する。言語知識検索部458はまた、対象述語検索部456から与えられる述語ペアを含む表現であって、かつパターン辞書198に記憶されたパターンに合致するものがあればそれも出力する。言語知識検索部458はこれら言語知識及びパターンをテキストに適用する際に、言換え・カテゴリ辞書196に記憶された言換え規則及びカテゴリを用い、規則中の表現を他の表現に言換えたり、規則中の単語を別の単語に入れ替えたりすることにより、言語知識の適用対象を広げる。言語知識検索部458により検索された言語知識は、その言語知識の検索の際に用いられた述語ペアとともに合致言語知識記憶部460に蓄積される。最後に、候補追加部462が、図14〜図18を参照して説明したように、合致言語知識記憶部460に記憶された述語ペアと、合致した言語知識又はパターンとを照合することにより、省略候補の指し先候補を特定し、省略候補と、各指し先候補とのペアをアノテーション候補として候補DB386に追加する。この場合、後述するように、項共有知識を用いることで、述語ペアのうち、省略候補を持つ述語と項を共有する述語があれば、省略候補と、その述語の持つ項の内容とのペアをアノテーション候補として候補DB386に追加する。このようにすることで、アノテーション候補の生成に項共有知識を活かすことができる。   For each predicate pair output by the target predicate search unit 456, the linguistic knowledge search unit 458 includes the first sentence in any of the linguistic knowledge in the linguistic knowledge DB 194 in which the predicate constituting the pair or the predicate rephrasing it is It is determined whether there is linguistic knowledge that appears in the second sentence, and if there is, linguistic knowledge is output. The linguistic knowledge search unit 458 also outputs an expression including the predicate pair given from the target predicate search unit 456, and if there is a match with the pattern stored in the pattern dictionary 198. The linguistic knowledge search unit 458 uses the paraphrase rules and categories stored in the paraphrase / category dictionary 196 when applying these linguistic knowledge and patterns to text, and paraphrases expressions in the rules to other expressions, Expand the scope of linguistic knowledge by replacing words in the rules with other words. The linguistic knowledge retrieved by the linguistic knowledge retrieval unit 458 is accumulated in the matching language knowledge storage unit 460 together with the predicate pair used in the retrieval of the linguistic knowledge. Finally, as described with reference to FIGS. 14 to 18, the candidate adding unit 462 collates the predicate pair stored in the matching language knowledge storage unit 460 with the matching language knowledge or pattern, The pointing candidate of the omission candidate is specified, and a pair of the omission candidate and each pointing destination candidate is added to the candidate DB 386 as an annotation candidate. In this case, as will be described later, by using term sharing knowledge, if there is a predicate that shares a term with a predicate that has an abbreviation candidate in the predicate pair, a pair of the abbreviation candidate and the content of the term that the predicate has Are added to the candidate DB 386 as annotation candidates. In this way, the term sharing knowledge can be utilized for generating annotation candidates.

図19を参照して、第3の候補生成部392の照応・省略関係検索部680は、既存小規模学習データDB190の中でアノテーション済の照応関係及び省略関係を検索し、照応関係を含む文を指し元省略文生成部682に、省略関係を含む文を省略要素復元部688に、それぞれ出力する。   Referring to FIG. 19, the anaphoric / omitted relationship searching unit 680 of the third candidate generating unit 392 searches the existing small learning data DB 190 for the annotated anaphoric relationship and the omitted relationship, and a sentence including the anaphoric relationship. Is output to the source abbreviated sentence generation unit 682, and the sentence including the omission relation is output to the omitted element restoration unit 688.

指し元省略文生成部682は、照応関係を含むテキストから、照応関係を構成する名詞句対を探し、その各々について、その名詞句の内、テキスト内で後方に位置する指し元を自動的に省略した新たなテキストを生成してアノテーション追加部684に与える。アノテーション追加部684は、このようにして指し元省略文生成部682の生成した文のうち、省略された箇所と、省略された箇所とともに照応関係がアノテーションされていた名詞句との間に新たな省略関係のアノテーション候補を付して候補追加部686に出力する。   The ellipsis abbreviation generator 682 searches the text including the anaphoric relationship for a noun phrase pair that constitutes the anaphoric relationship, and for each of them, automatically identifies the locator located behind in the text within the noun phrase. A new omitted text is generated and given to the annotation adding unit 684. The annotation adding unit 684 creates a new line between the omitted part and the noun phrase in which the anaphoric relationship is annotated together with the omitted part of the sentence generated by the pointing source omitted sentence generating unit 682 in this way. Annotated annotation candidates are attached and output to the candidate adding unit 686.

候補追加部686は、照応・省略関係検索部680が出力する省略関係を含むテキストのうち、省略箇所について、アノテーションに基づいて、その指し先の要素を代名詞として復元することで新たなテキストを生成しアノテーション追加部690に与える。アノテーション追加部690は、省略要素復元部688により生成された新たなテキストに、省略要素復元部688により復元された代名詞からなる指し元と、もともとのアノテーションにより指し先とされていた部分とからなる新たな照応関係のアノテーション候補を追加し候補追加部686に出力する。   The candidate adding unit 686 generates new text by restoring the pointed element as a pronoun based on the annotation for the omitted part of the text including the omitted relationship output from the anaphoric / omitted relationship searching unit 680. To the annotation adding unit 690. The annotation adding unit 690 includes a new text generated by the omitted element restoring unit 688 and a pointing source composed of pronouns restored by the omitted element restoring unit 688 and a portion that was pointed to by the original annotation. A new anaphoric annotation candidate is added and output to the candidate addition unit 686.

候補追加部686は、アノテーション追加部684及びアノテーション追加部690から出力されたテキストをそれらに付加されたアノテーション候補とともに候補DB386に追加する。   The candidate adding unit 686 adds the text output from the annotation adding unit 684 and the annotation adding unit 690 to the candidate DB 386 together with the annotation candidates added to them.

図20を参照して、第4の候補生成部394の照応・省略解析実行部710は、解析後テキストDB384からテキストを読出し、既存照応・省略解析器208による照応・省略解析を実行する。既存照応・省略解析器208は、その性能には限界があるものの、入力されたテキストに対して照応・省略解析を実行し、アノテーションされたテキストを照応・省略解析実行部710に返す。照応・省略解析実行部710は、そのアノテーションされた解析結果を解析結果記憶部712に蓄積する。候補追加部714は、解析結果記憶部712に記憶された解析結果に含まれるアノテーションをアノテーション候補として候補DB386に追加する。   Referring to FIG. 20, the anaphora / omission analysis execution unit 710 of the fourth candidate generation unit 394 reads the text from the post-analysis text DB 384 and executes the anaphora / omission analysis by the existing anaphora / omission analyzer 208. Although the existing anaphora / omission analyzer 208 has a limit in its performance, the anaphora / omission analysis is performed on the input text, and the annotated text is returned to the anaphora / omission analysis execution unit 710. The anaphora / omission analysis execution unit 710 accumulates the annotated analysis result in the analysis result storage unit 712. The candidate addition unit 714 adds the annotation included in the analysis result stored in the analysis result storage unit 712 to the candidate DB 386 as an annotation candidate.

以上の処理をテキストアーカイブ192(図4及び図11参照)に記憶された全てのテキストに対して実行することにより、最終的に候補DB386にはアノテーション候補が付されたテキストが蓄積される。候補DB386に蓄積されたテキストは、省略候補及び照応詞候補を含み、各省略候補及び照応詞候補には、それらの指し先を示すアノテーション候補が1又は複数個付加されている。   By executing the above processing for all the texts stored in the text archive 192 (see FIGS. 4 and 11), the text with the annotation candidates is finally stored in the candidate DB 386. The text accumulated in the candidate DB 386 includes abbreviation candidates and anaphoric candidates, and each abbreviation candidate and anaphoric candidate is added with one or more annotation candidates indicating their pointing destinations.

対話型アノテーション装置396は、候補DB386に蓄積された候補の各々について、入出力装置202を用いたユーザとの対話型処理により、省略候補及び照応詞候補の各々について、以下のように動作する。   The interactive annotation device 396 operates as follows for each of the omission candidates and the anaphoric candidates for each of the candidates accumulated in the candidate DB 386 by interactive processing with the user using the input / output device 202.

図3の下段を参照して、対話型アノテーション装置396は、アノテーション候補を含むテキスト92を画面に表示する。その際、対話型アノテーション装置396は、省略候補及び照応詞候補の各々について、以下のようにしてアノテーション候補を選択するドロップダウンメニューを作成する。すなわち、省略候補の指し先が1箇所しか存在しない場合には、図3において文字列130で示される省略候補の位置に、その指し先候補である単語110と同じ単語を表示し、さらにその右側にドロップダウンメニューがあることを示すアイコン「▼」を表示する。ドロップダウンメニューには、表示されている候補を受け入れるか否かを示すオプション(YES・NO)と、直接入力とを示すオプションとが表示される。ユーザがYESを選択すると、選択されたアノテーションがアノテーションとして確定される。NOが選択された場合、アノテーションは未確定で残される。直接入力が選択されると、文字列130で示される省略候補の指し先を直接指定するためのダイアログが表示される。ユーザが指し先を入力することにより、ユーザの指定にしたがった新たなアノテーションが生成され、確定アノテーションとなる。この場合、最初に表示されていながらユーザにより選択されなかったアノテーションは、学習時の素性ベクトル作成の際の負例を生成するために使用される。したがって、負例であることを示すフラグがこのアノテーション候補に付される。   With reference to the lower part of FIG. 3, the interactive annotation apparatus 396 displays text 92 including annotation candidates on the screen. At that time, the interactive annotation apparatus 396 creates a drop-down menu for selecting an annotation candidate as follows for each of the omission candidate and the anaphoric candidate. That is, when there is only one point where the omission candidate is pointed, the same word as the word 110 that is the pointed candidate is displayed at the position of the omission candidate indicated by the character string 130 in FIG. An icon “▼” indicating that there is a drop-down menu is displayed. In the drop-down menu, an option (YES / NO) indicating whether or not to accept the displayed candidate and an option indicating direct input are displayed. When the user selects YES, the selected annotation is confirmed as an annotation. If NO is selected, the annotation is left indeterminate. When direct input is selected, a dialog for directly specifying the destination of the omission candidate indicated by the character string 130 is displayed. When the user inputs the pointing destination, a new annotation according to the user's specification is generated and becomes a final annotation. In this case, the annotation that is initially displayed but not selected by the user is used to generate a negative example when generating a feature vector during learning. Therefore, a flag indicating a negative example is attached to this annotation candidate.

アノテーション候補が複数個ある場合には、それら複数個のアノテーション候補をオプションとして含むドロップダウンリストが生成される。該当箇所には、アノテーション候補のうち先頭のもの、又は何らかの形でアノテーション候補にスコア付けした際の最高スコアのアノテーション候補が表示される。その右側には、ドロップダウンリストがあることを示すアイコン「▼」が表示される。この場合にも、ドロップダウンリストには、直接入力することを選択するオプション項目が表示される。ユーザがいずれかのオプションを選択すると、選択されたアノテーション候補がアノテーションとして確定する。選択されなかった候補については、学習時の素性ベクトル作成の際に、負例を生成するために使用される。   When there are a plurality of annotation candidates, a drop-down list including the plurality of annotation candidates as options is generated. In the corresponding part, the top one of the annotation candidates or the annotation candidate with the highest score when scoring the annotation candidate in some form is displayed. On the right side, an icon “▼” indicating that there is a drop-down list is displayed. In this case as well, an option item for selecting to input directly is displayed in the drop-down list. When the user selects any option, the selected annotation candidate is confirmed as an annotation. The candidates that are not selected are used to generate a negative example when generating a feature vector during learning.

いずれの場合も、アノテーションが確定した解析後テキストは学習データDB162に蓄積される。候補DB386に記憶された全ての解析後テキストについて、上記したアノテーションの選択が完了すると、学習データDB162が完成する。   In any case, the post-analysis text in which the annotation is confirmed is accumulated in the learning data DB 162. When the above-described annotation selection is completed for all the analyzed texts stored in the candidate DB 386, the learning data DB 162 is completed.

〈検出器の学習〉
図22を参照して、検出器学習装置222は以下のように動作する。省略検出器学習部770の格別素性ベクトル生成部780は、学習データDB162に記憶されたアノテーション確定済の学習データのうち、省略を含む学習データを読出す。格別素性ベクトル生成部780は、学習データの省略箇所の各々が、述語の主語(ガ格)、直接目的語(ヲ格)、又は間接目的語(二格)であるときに、それらを分類して、それぞれ素性ベクトル群782、784及び786を生成し図示しない記憶装置に蓄積する。この際、格別素性ベクトル生成部780は、確定したアノテーションについては学習ラベルを1、それ以外のアノテーションについては学習ラベルを0とする。SVM学習処理部788は、これら素性ベクトル群782、784及び786を用いて、主語省略検出器800、目的語省略検出器802、及び間接目的語省略検出器804が有するSVMの学習を行う。
<Learning the detector>
Referring to FIG. 22, detector learning device 222 operates as follows. The exceptional feature vector generation unit 780 of the omission detector learning unit 770 reads out learning data including omissions from the learning data that has been confirmed annotation stored in the learning data DB 162. The case-specific feature vector generation unit 780 classifies each omitted part of the learning data when the predicate subject (ga case), direct object (wo case), or indirect object (second case). Thus, feature vector groups 782, 784 and 786 are generated and stored in a storage device (not shown). At this time, the exceptional feature vector generation unit 780 sets the learning label to 1 for the confirmed annotation and sets the learning label to 0 for the other annotations. The SVM learning processing unit 788 uses these feature vector groups 782, 784, and 786 to learn SVMs included in the subject omission detector 800, the object omission detector 802, and the indirect object omission detector 804.

照応詞検出器学習部772の照応詞候補選択部830は、学習データDB162に蓄積された学習データのうち、照応詞候補を含むテキストを読み出し、照応関係の指し元(照応詞)としてアノテーションが付された単語を選択する。素性ベクトル生成部832は、照応詞候補選択部830により選択された照応詞候補の各々について、前述した素性ベクトルを生成する。この際、素性ベクトル生成部832は、確定したアノテーションについては学習ラベルを1,それ以外のアノテーションについては学習ラベルを0とする。素性ベクトル生成部832が生成した素性ベクトルは図示しない記憶装置に蓄積される。SVM学習処理部834は、このようにして蓄積された素性ベクトル群を用い、照応詞検出器168を構成するSVMの学習を行う。   The anaphoric candidate selection unit 830 of the anaphoric detector learning unit 772 reads the text including the anaphoric candidate from the learning data accumulated in the learning data DB 162, and annotates it as the reference of the anaphoric relationship (anaphoric). Selected words. The feature vector generation unit 832 generates the above-described feature vector for each of the anaphor candidates selected by the anaphor candidate selection unit 830. At this time, the feature vector generation unit 832 sets the learning label to 1 for the confirmed annotation and sets the learning label to 0 for the other annotations. The feature vectors generated by the feature vector generator 832 are stored in a storage device (not shown). The SVM learning processing unit 834 performs learning of the SVM constituting the anaphoric detector 168 using the feature vector group accumulated in this way.

先行詞特定器学習部774において、照応詞用先行詞特定器学習部840は以下のように動作する。照応詞用先行詞特定器学習部840の照応詞選択部850は、学習データDB162に記憶された学習データのうち、照応関係の指し元(照応詞)としてアノテーションされている表現を選択し、先行詞候補選択部852に与える。先行詞候補選択部852は、照応詞選択部850が選択した照応詞に対し、実際に先行詞としてアノテーションされたものとそれ以外の先行詞の可能性がある表現(名詞句)との双方を含む先行詞候補を選択する。素性ベクトル生成部854は、照応詞選択部850が選択した照応詞と、先行詞候補選択部852が選択した照応詞候補の各々との組み合わせについて照応詞用先行詞特定器900の学習を行うための素性ベクトルを生成する。この際、素性ベクトル生成部854は、照応関係において照応詞の指し先としてアノテーションされた表現については学習ラベルを1,それ以外の学習ラベルを0とする。SVM学習処理部856は、素性ベクトル生成部854が生成した素性ベクトルを用いて照応詞用先行詞特定器900を構成するSVMの学習を行う。   In the antecedent classifier learning unit 774, the antecedent class antecedent classifier learning unit 840 operates as follows. The anaphoric selector 850 of the antecedent antecedent specifier learning unit 840 selects, from the learning data stored in the learning data DB 162, an expression that is annotated as an anaphoric relationship indicator (anaphor), and precedes it. This is given to the word candidate selection unit 852. The antecedent candidate selection unit 852 displays both an annotated actual annotator and an expression (noun phrase) that may be another antecedent for the anaphor selected by the anaphor selector 850. Select an antecedent candidate to contain. The feature vector generation unit 854 performs learning of the antecedent antecedent specifier 900 for the combination of the anaphor selected by the anaphor selection unit 850 and each of the anaphor candidates selected by the antecedent candidate selection unit 852. Generate feature vectors of. At this time, the feature vector generation unit 854 sets the learning label as 1 and the other learning labels as 0 for the annotated expression as the pointing destination of the anaphor in the anaphoric relation. The SVM learning processing unit 856 learns the SVM that constitutes the antecedent antecedent specifier 900 using the feature vector generated by the feature vector generation unit 854.

一方、省略用先行詞特定器学習部842は以下のように動作する。省略用先行詞特定器学習部842の省略選択部870は、学習データDB162内の学習データのうち、省略関係としてアノテーションされた表現(省略)を選択し、先行詞候補選択部872に与える。先行詞候補選択部872は、省略選択部870が選択した省略に対する先行詞としてアノテーションされた表現を含め、省略の先行詞となる可能性のある候補を学習データ中で選択する。素性ベクトル生成部874は、省略選択部870が選択した省略部と、先行詞候補選択部872が選択した先行詞候補の各々との組み合わせについて、素性ベクトルを生成し図示しない記憶装置に蓄積する。このとき、素性ベクトル生成部874が生成する素性ベクトルにおいて、学習のラベルは、分類対象の省略・先行詞候補の対が省略関係となるなら1、それ以外は0である。また素性ベクトル生成部874は、素性ベクトルの生成にあたって、前述したとおり、選択制限DB224、質問タイプDB220、質問応答システム226及び言語知識DB228を用いる。SVM学習処理部876は、素性ベクトル生成部874により生成された素性ベクトルを用いて、省略用先行詞特定器902を構成するSVMの学習を行う。   On the other hand, the abbreviation antecedent identifier learning unit 842 operates as follows. The abbreviation selection unit 870 of the abbreviation antecedent identifier learning unit 842 selects an expression (omitted) that is annotated as an abbreviation relationship from the learning data in the learning data DB 162, and provides it to the antecedent candidate selection unit 872. The antecedent candidate selection unit 872 selects a candidate that may be an abbreviated antecedent in the learning data, including an annotated expression as an antecedent for the abbreviation selected by the abbreviation selection unit 870. The feature vector generation unit 874 generates a feature vector for each combination of the abbreviation selected by the abbreviation selection unit 870 and each of the antecedent candidates selected by the antecedent candidate selection unit 872 and stores it in a storage device (not shown). At this time, in the feature vector generated by the feature vector generation unit 874, the learning label is 1 if the omission / preceding candidate pair to be classified has an omission relationship, and 0 otherwise. Also, the feature vector generation unit 874 uses the selection restriction DB 224, the question type DB 220, the question answering system 226, and the language knowledge DB 228 as described above for generating the feature vector. The SVM learning processing unit 876 uses the feature vector generated by the feature vector generation unit 874 to learn the SVM that constitutes the abbreviation antecedent identifier 902.

以上の処理により、省略検出器166に含まれる主語省略検出器800、目的語省略検出器802、及び間接目的語省略検出器804、照応詞検出器168、並びに先行詞特定器170に含まれる照応詞用先行詞特定器900及び省略用先行詞特定器902の学習が完了する。   Through the above processing, the subject omission detector 800, the object omission detector 802, the indirect object omission detector 804, the anaphor detector 168, and the antecedent identifier 170 included in the omission detector 166 are included. Learning of the antecedent antecedent identifier 900 and the abbreviation antecedent identifier 902 is completed.

〈自動アノテーション〉
図4に戻り、照応・省略解析器252による入力250に対する照応・省略解析とその結果の自動アノテーションは以下のようにして実行される。なお、この解析は省略解析、照応解析、省略及び照応詞に対する先行詞解析に分割される。省略解析では省略検出器166が用いられる。照応解析では照応詞検出器168が用いられる。先行詞解析では先行詞特定器170が用いられる。
<Automatic annotation>
Returning to FIG. 4, the anaphora / omission analysis for the input 250 by the anaphora / omission analyzer 252 and the automatic annotation of the result are executed as follows. This analysis is divided into an abbreviation analysis, an anaphoric analysis, an abbreviation, and an antecedent analysis for the anaphor. In the omission analysis, an omission detector 166 is used. In the anaphora analysis, an anaphor detector 168 is used. In the antecedent analysis, an antecedent identifier 170 is used.

最初に、入力250に対する形態素解析及び構造・係り受け解析が実行され、構造・係り受け情報が付された形態素列が処理の対象となる。この形態素列に対し、省略解析では、それぞれ図22に示す主語省略検出器800、目的語省略検出器802、及び間接目的語省略検出器804の学習を行ったときと同様の構成の素性ベクトルを生成し、これら検出器に与える。主語省略検出器800、目的語省略検出器802、及び間接目的語省略検出器804の出力により、入力250のうちでそれぞれ最も高いスコアを示す部分に省略箇所としてのアノテーションが付される。   First, morphological analysis and structure / dependency analysis are performed on the input 250, and a morpheme string to which structure / dependency information is attached is processed. For this morpheme sequence, in the omission analysis, feature vectors having the same structure as those obtained when the subject omission detector 800, the object omission omission detector 802, and the indirect object omission omission detector 804 shown in FIG. Generated and fed to these detectors. By the outputs of the subject omission detector 800, the object omission detector 802, and the indirect object omission detector 804, an annotation as an abbreviation is attached to each portion of the input 250 indicating the highest score.

この後、このようなアノテーションが付された入力に対し、省略又は照応詞(以下単に「省略等」と呼ぶ。)を持つ述語を含む項共有知識を適用し、その述語と項を共有する述語が入力中にあるか否かを判定する。そのような述語が見つかれば、省略等の箇所に、見つかった述語が持つ項の内容を補完するよう、アノテーションする。この場合、項共有知識を直接用いるのではなく、図6に示した項共有判別器283等を利用して、省略等を持つ述語と項を共有する述語を入力中で見つけるようにしてもよい。このような処理で省略等されている項を補完すべき語が見つかれば、この省略等の箇所に対してはこの後の解析を打ち切り、次の省略等の箇所に対する処理に進めばよい。補完すべき語が見つからなければ、以後の照応・省略解析を実行する。もちろん、ここで見つかった語を補完候補の1つとしてアノテートし、照応・省略解析の処理に進んでも良い。   After that, to the input with such an annotation, a predicate that shares the term with the predicate is applied by applying the term sharing knowledge including the predicate having an abbreviation or an anaphor (hereinafter simply referred to as “abbreviation etc.”). It is determined whether or not is being input. If such a predicate is found, annotate the annotation so that the content of the term of the found predicate is complemented in the omitted part. In this case, instead of using the term sharing knowledge directly, the predicate sharing the term with the predicate having the omission etc. may be found in the input using the term sharing discriminator 283 shown in FIG. . If a word to be supplemented with a term omitted in such processing is found, the subsequent analysis is terminated for the omitted portion, and the processing for the next omitted portion may be performed. If a word to be complemented is not found, the subsequent anaphora and omission analysis is executed. Of course, it is also possible to annotate the word found here as one of the completion candidates and proceed to the anaphora / omission analysis process.

照応詞解析では、入力250に含まれる名詞句対中から照応詞候補となり得る語句を選択し、その各々について、図22に示す素性ベクトル生成部832により生成された素性ベクトルと同様の構成の素性ベクトルを入力250から生成する。この組成ベクトルを照応詞検出器168に与えることにより、照応詞検出器168からスコアが得られる。このスコアにより、照応詞か否かを決定し、その旨のアノテーションを付する。   In the anaphoric analysis, a phrase that can be an anaphor candidate is selected from the noun phrase pair included in the input 250, and each of the features has the same configuration as the feature vector generated by the feature vector generation unit 832 shown in FIG. A vector is generated from input 250. By providing this composition vector to the anaphor detector 168, a score is obtained from the anaphor detector 168. Based on this score, it is determined whether or not it is an anaphor, and an annotation to that effect is attached.

照応詞用先行詞特定器900による先行詞の推定は以下のようにして行われる。照応詞検出器168により照応詞と判定された表現の各々について、先行詞となり得る表現を入力250中で選択し、両者をペアとして図22の素性ベクトル生成部854と同様に素性ベクトルを生成する。この素性ベクトルを照応詞用先行詞特定器900への入力とし、照応詞用先行詞特定器900のスコアを得て、しきい値より高いスコアで、かつ最も高いスコアを示した先行詞候補と、処理対象の照応詞との間で照応関係のアノテーションを追加する。   The antecedent is estimated by the antecedent antecedent identifier 900 as follows. For each expression determined to be an anaphor by the anaphor detector 168, an expression that can be an antecedent is selected in the input 250, and a feature vector is generated in the same manner as the feature vector generation unit 854 in FIG. . Using this feature vector as an input to the antecedent antecedent identifier 900, the score of the antecedent antecedent identifier 900 is obtained, and the antecedent candidate that has the highest score with a score higher than the threshold Add an anaphoric annotation with the anaphor to be processed.

省略用先行詞特定器902による先行詞の推定も同様である。ただしこの場合、素性ベクトル生成部854により生成される素性ベクトルではなく素性ベクトル生成部874により作成されるものと同様の構成の素性ベクトルが使用される。したがってこのときには、選択制限DB224、質問タイプDB220、質問応答システム226及び言語知識DB228が必要となる。   The presumption of the antecedent by the abbreviation antecedent identifier 902 is the same. However, in this case, a feature vector having the same configuration as that created by the feature vector generation unit 874 is used instead of the feature vector generated by the feature vector generation unit 854. Therefore, at this time, the selection restriction DB 224, the question type DB 220, the question answering system 226, and the language knowledge DB 228 are required.

以上のように本実施の形態によれば、テキストアーカイブから、照応・省略解析のための検出器の学習を行うための学習データ生成が容易に行える。例えば照応・省略関係の候補が自動的に検索され、その先行詞候補がリストとして表示される。ユーザは、リストに表示された候補が1つでかつ正しいものであればそれを承認し、リストに表示された候補が複数個であればそのうちの1つを選択すればよい。従来のように、照応・省略関係の位置を目視で探し、次にその指し示す位置をさらに目視で探して両者に照応・省略関係のアノテーションを付す、という作業を行う必要はない。仮に表示されたリストに正しい指し先が示されないときには、手入力により正しい指し先を指定することができる。   As described above, according to the present embodiment, it is possible to easily generate learning data for learning a detector for anaphora and omission analysis from a text archive. For example, candidates for an anaphoric / abbreviated relationship are automatically searched, and the antecedent candidates are displayed as a list. The user may approve if there is one candidate displayed in the list and is correct, and select one of them if there are a plurality of candidates displayed in the list. As in the prior art, there is no need to visually search for an anaphoric / omission-related position, and then visually search for the indicated position and attach an anaphoric / omission-related annotation to both. If the correct pointer is not shown in the displayed list, the correct pointer can be designated manually.

したがって、従来の技術よりもはるかに簡便に、照応・省略解析の検出器の学習を行うための学習データを準備できる。その結果、学習データの作成コスト及び作成時間をいずれも低減できる。大量の学習データを低コストで準備できるため、この学習データを使用して学習を行った省略検出器166、照応詞検出器168、及び先行詞特定器170を用いてテキストの照応・省略解析を効率的に行うことが可能になる。また、学習データが大量になるため、これら検出器の精度が向上することが期待でき、高い精度でほぼ自動的にテキストの照応・省略解析を行うことができる。   Therefore, it is possible to prepare learning data for learning the detector for anaphora and omission analysis much more easily than the conventional technique. As a result, both the learning data creation cost and creation time can be reduced. Since a large amount of learning data can be prepared at a low cost, text anaphora / abbreviation analysis is performed using the abbreviation detector 166, the anaphoric detector 168, and the antecedent identifier 170 that have been trained using the learning data. It becomes possible to carry out efficiently. In addition, since the amount of learning data is large, it can be expected that the accuracy of these detectors will be improved, and text adaptation and omission analysis can be performed almost automatically with high accuracy.

なお、上記実施の形態では、質問応答システム206は単数であるものとして説明した。しかし本発明はそのような実施の形態には限定されない。質問応答システムが複数個利用できるのであれば、複数個の質問応答システムを利用してもよい。この場合、各質問応答システムがいずれも自然言語のテキストを入力とするのであれば、同一の質問文をそれらに送信するだけで回答候補を得ることができる。   In the above embodiment, the question answering system 206 has been described as being singular. However, the present invention is not limited to such an embodiment. If a plurality of question answering systems can be used, a plurality of question answering systems may be used. In this case, if each question answering system receives natural language texts as input, answer candidates can be obtained simply by sending the same question text to them.

また上記実施の形態では、照応・省略解析では、最初に項共有知識を用いた処理で省略等の箇所に補完すべき語が見つかれば、その後はその省略等の箇所についての照応・省略解析は行わず、補完すべき語が見つからない場合のみ、照応・省略解析を行うようにしている。しかし本発明はそのような実施の形態には限定されない。項共有知識を適用することによって得られた補完候補に関する情報を、照応・省略解析のための素性の一部として使用してもよい。   Further, in the above embodiment, in the anaphora / abbreviation analysis, if a word to be supplemented is found in a place such as an abbreviation in the process using the term sharing knowledge first, then the anaphora / abbreviation analysis for the abbreviated place is not performed. The anaphora and omission analysis is performed only when no word to be complemented is found. However, the present invention is not limited to such an embodiment. Information regarding the candidate for completion obtained by applying the term sharing knowledge may be used as a part of the feature for anaphora and omission analysis.

<第2の実施の形態>
第1の実施の形態では、図6に示すように、アノテート済テキスト記憶部281に記憶されたテキストから項共有判別器283の学習を行っている。しかし、アノテート済テキスト記憶部281のテキストが少量の場合には、項共有判別器283の精度はあまり高くならない。その結果、十分な量のテキストがアノテート済テキスト記憶部281に準備できないと、項共有関係による指し先候補の推定の精度が高くならないおそれがある。そこで、この第2の実施の形態では、アノテート済テキスト記憶部281のテキストが少量でも、項共有判別の精度が高くなるような項共有判別器の学習方法を示す。
<Second Embodiment>
In the first embodiment, as shown in FIG. 6, the term sharing discriminator 283 learns from the text stored in the annotated text storage unit 281. However, when the amount of text in the annotated text storage unit 281 is small, the accuracy of the term sharing discriminator 283 is not so high. As a result, if a sufficient amount of text cannot be prepared in the annotated text storage unit 281, there is a possibility that the estimation accuracy of the pointing destination candidate based on the term sharing relationship may not be improved. Therefore, in this second embodiment, a method for learning a term sharing discriminator is shown in which the accuracy of term sharing discrimination is increased even if the amount of text in the annotated text storage unit 281 is small.

図25を参照して、この方法を採用した項共有判別器学習装置972は、いずれも第1の実施の形態で使用したアノテート済テキスト記憶部281に記憶されたテキスト及びテキストアーカイブ192を用いて項共有判別器974の学習を行う。項共有判別器学習装置972は、テキストアーカイブ192の各文に対し形態素解析及び構文解析を行い、ある述語が構文的に他の述語に依存するような述語対を抽出する述語対抽出部980と、述語対抽出部980が抽出した述語対の各々について項共有関係の有無を判別する、第1の実施の形態で得た項共有判別器283と、項共有判別器283により得られた結果に対する統計的処理により、変化形を含む同じ述語の対に対して共有関係があると判定された率(項共有率)を算出する統計処理部984と、図1に示すものと同様のアノテート済テキスト記憶部281に記憶されたテキスト、及び統計処理部984の処理結果を入力として、図6に示す学習データ生成部284と同様の特徴量に、さらに統計処理部984により算出された項共有率を特徴量として加えた学習データを生成する学習データ生成部986とを含む。   Referring to FIG. 25, the term sharing discriminator learning device 972 adopting this method uses the text and text archive 192 stored in the annotated text storage unit 281 used in the first embodiment. The term sharing classifier 974 is learned. The term sharing discriminator learning device 972 performs a morphological analysis and a syntax analysis on each sentence of the text archive 192, and extracts a predicate pair extraction unit 980 that extracts a predicate pair in which a certain predicate is syntactically dependent on another predicate; The predicate pair extraction unit 980 determines whether or not there is a term sharing relationship for each predicate pair, and the term sharing discriminator 283 obtained in the first embodiment and the result obtained by the term sharing discriminator 283 Statistical processing unit 984 that calculates a rate (term sharing rate) determined to have a shared relationship for the same pair of predicates including a variation by statistical processing, and annotated text similar to that shown in FIG. Using the text stored in the storage unit 281 and the processing result of the statistical processing unit 984 as an input, the statistical processing unit 984 further calculates a feature amount similar to that of the learning data generation unit 284 shown in FIG. And a learning data generating unit 986 for generating learning data added as a feature section sharing ratio.

項共有判別器学習装置972はさらに、学習データ生成部986の出力する学習データを記憶する学習データ記憶部988と、学習データ記憶部988に記憶された学習データを用いてSVMからなる項共有判別器974の学習を行う学習処理部990とを含む。   The term sharing discriminator learning device 972 further includes a learning data storage unit 988 that stores the learning data output from the learning data generation unit 986, and a term sharing determination that includes SVM using the learning data stored in the learning data storage unit 988. And a learning processing unit 990 that performs learning of the device 974.

なお、統計処理部984による処理において、出現頻度の低い述語対については、項共有の有無に関する判別結果の信頼性は低いと考えられる。そこで、本実施の形態では、出現頻度があるしきい値(例えば5)以下の述語対については、項共有率をデフォルト値の0に設定した。このしきい値については他の値に変更して同様の処理を行ったが、最終的な結果には大きな影響をもたらさなかった。   In addition, in the processing by the statistical processing unit 984, it is considered that the reliability of the determination result regarding the presence / absence of term sharing is low for the predicate pair with low appearance frequency. Therefore, in the present embodiment, the term sharing rate is set to the default value of 0 for predicate pairs whose appearance frequency is less than a threshold value (for example, 5). The threshold value was changed to another value and the same processing was performed, but the final result was not greatly affected.

[評価実験]
この項共有判別器974の性能を確認するために評価実験を行った。評価実験は、述語対の主語の共有について行い、NAISTテキストコーパス1.4内の80%を学習に用いた。学習データは42,806の述語対を含んでいた。そのうちで8,496個の述語対が主語を共有していた。
[Evaluation experiment]
An evaluation experiment was performed to confirm the performance of the term sharing discriminator 974. In the evaluation experiment, the subject of the predicate pair was shared, and 80% of the NAIST text corpus 1.4 was used for learning. The learning data included 42,806 predicate pairs. Among them, 8,496 predicate pairs shared the subject.

評価実験では、6億のウェブページから、後掲の参考文献1に記載の手法で2,451,254個の因果関係に関する例をサンプリングした。元の文の中には述語の主語が含まれているケースがあったので、それらは対象から除外した。より具体的には、名詞の後に助詞「は」又は「が」が続く例を除外した。その結果、サンプルの数は2,451,254から1,321,172となった。これらの中から1000個をランダムサンプリングした。これらの各々について、述語対が主語を共有するか否かについて3人の判定者により判定した。これらの判定に関する平均カッパ係数(Cohen’s Kappa)は0.683であった。最終的なアノテーションラベルは3人の判定者の判定結果の多数決により決定した。その結果、1000個のサンプル中で644個が主語を共有すると判定された。この割合は予想より高いが、この原因は元になるデータが因果関係を表す例であったせいであると思われる。   In the evaluation experiment, 2,451,254 examples of causal relationships were sampled from 600 million web pages by the method described in Reference Document 1 described later. There were cases where the subject of the predicate was included in the original sentence, so they were excluded from the subject. More specifically, examples where the noun is followed by the particle “ha” or “ga” were excluded. As a result, the number of samples was changed from 2,451,254 to 1,321,172. 1000 of these samples were randomly sampled. For each of these, three determiners determined whether the predicate pair shared the subject. The average kappa coefficient (Cohen's Kappa) for these determinations was 0.683. The final annotation label was determined by the majority of the judgment results of the three judges. As a result, it was determined that 644 out of 1000 samples shared the subject. This percentage is higher than expected, but this is likely due to the fact that the underlying data represents a causal relationship.

評価実験では以下の3つの手法とこの第2の実施の形態に係る項共有判別器(主語に関するもの)との性能を比較した。   In the evaluation experiment, the performances of the following three methods and the term sharing classifier (related to the subject) according to the second embodiment were compared.

(1)BaselineKNP
これは日本語構文解析システムの出力に基づいて主語の共有を判定するものであって、後掲の参考文献2による照応・省略解析システムが組み込まれたものによる解析結果である。
(1) BaselineKNP
This is to determine whether to share the subject based on the output of the Japanese parsing system, and is an analysis result obtained by incorporating the anaphora / abbreviation analysis system according to Reference 2 described later.

(2)BaselineAllShare
入力中の全ての述語対が主語を共有すると判定するもの。前述したとおり、元のデータが因果関係を表すものであることから、この仮定は妥当であってベースラインをなすものと思われる。
(2) BaselineAllShare
It is determined that all predicate pairs in the input share the subject. As mentioned earlier, this assumption is reasonable and seems to be a baseline because the original data represents a causal relationship.

(3)FirstStepClassifier
第1の実施の形態に係る項共有判別器である。
(3) FirstStepClassifier
It is a term sharing discriminator according to the first embodiment.

結果を次のテーブル1に示す。   The results are shown in Table 1 below.

Figure 2019197577
平均精度は、各手法の分類器により計算されたスコアの値によってサンプルをランキングした結果による。FirstStepClassifier及び本実施の形態による手法では、主語を共有するか否かはSVMで判定している。BaselineAllShareでは、参考文献1によるSVMによるスコアを用いている。
Figure 2019197577
The average accuracy depends on the result of ranking the samples according to the score value calculated by the classifier of each method. In FirstStepClassifier and the method according to the present embodiment, whether or not to share a subject is determined by SVM. In BaselineAllShare, the score by SVM according to Reference 1 is used.

テーブル1から以下のように本実施の形態の効果を見ることができる。まず、F値において、本実施の形態の手法による値は他の全手法より大幅な改善を示していることが分かる。FirstStepClassifierと比較してもそのF値の向上幅は大きい。これは、主として再現率の向上(0.155→0.826)によるものと思われる。   From Table 1, the effect of the present embodiment can be seen as follows. First, in the F value, it can be seen that the value obtained by the method of the present embodiment shows a significant improvement over all other methods. Compared to FirstStepClassifier, the improvement in F value is large. This seems to be mainly due to the improvement of the reproducibility (0.155 → 0.826).

これら手法により得られた再現率−適合率カーブを図26に示す。このグラフは、各手法のSVMにより得られたスコアのしきい値を変化させて描いたものである。なお、BaselineKNPについては、出力された結果にもとづく再現率と精度の1点をグラフ上にプロットしてある。   FIG. 26 shows the recall-matching rate curve obtained by these methods. This graph is drawn by changing the threshold value of the score obtained by the SVM of each method. For BaselineKNP, one point of the recall and accuracy based on the output result is plotted on the graph.

図26から、この第2の実施の形態に係る項共有判別器は、FirstStepClassifier及びBaselineKBNによる判別結果に比して、広い範囲の再現率の値に対して適合率が5〜10%程度高くなっていることが分かる。またこの項共有判別器は、同じ再現率では、BaselineKNP に対して20%程度高い適合率を示していることが分かる。   From FIG. 26, the term sharing discriminator according to the second embodiment has a relevance ratio of about 5 to 10% higher than the reproducibility values in a wide range as compared with the discrimination result by FirstStepClassifier and BaselineKBN. I understand that It can also be seen that this term sharing discriminator shows a precision of about 20% higher than BaselineKNP at the same recall rate.

以上のようにこの実施の形態によれば、第1実施の形態で用いた項共有判別器283よりも精度の高い項共有判別器をほぼ自動的な処理で得ることができる。このような項共有判別器を用いれば、アノテーションの検証だけではなく、第1の実施の形態で説明した項共有知識の収集も高い精度で効率よく行うことができる。   As described above, according to this embodiment, a term sharing discriminator with higher accuracy than the term sharing discriminator 283 used in the first embodiment can be obtained by almost automatic processing. If such a term sharing discriminator is used, not only the annotation verification but also the term sharing knowledge described in the first embodiment can be efficiently collected with high accuracy.

なお、上記第2の実施の形態は照応・省略解析に本発明に係る装置で学習した項共有判別器を適用した例を示した。この結果、照応・省略解析の精度が実用レベルまで向上することが考えられる。その効果が特に発揮されるのは、日本語から英語への自動翻訳である。日本語のテキストには、主語等が省略されていることが多い。一方、英語は主語の存在を要求する。したがって、日本語から英語への翻訳にあたっては、日本語で省略されている主語を高い精度で特定する必要がある。したがって、照応・省略解析の精度が向上することで日本語から英語への自動翻訳の精度も高くなることが期待できる。   The second embodiment has shown an example in which the term sharing classifier learned by the apparatus according to the present invention is applied to the anaphora / omission analysis. As a result, it is conceivable that the accuracy of anaphora and omission analysis is improved to a practical level. The effect is particularly evident in automatic translation from Japanese to English. In Japanese text, the subject is often omitted. On the other hand, English requires the presence of a subject. Therefore, when translating from Japanese to English, it is necessary to identify the subject omitted in Japanese with high accuracy. Therefore, it can be expected that the accuracy of automatic translation from Japanese to English will be improved by improving the accuracy of anaphora and omission analysis.

さらに、他の例としては、質問応答システムがある。質問応答システムでは、質問に対する回答を探す先の文書が自然言語で書かれたテキストであることが多い。仮にテキストに照応・省略関係が含まれる場合には、正しく回答を発見することができない可能性がある。そこで、予めテキストに対して照応・省略解析を適用し、照応関係の特定及び省略の補完を適切に行っておけば、これまで回答できなかった質問に対しても適切な回答をテキスト中から発見することが可能になる。   Another example is a question answering system. In a question answering system, a document to be searched for an answer to a question is often a text written in a natural language. If the text contains an anaphoric / omitted relationship, it may not be possible to find the answer correctly. Therefore, if you apply anaphora / abbreviation analysis to the text in advance and identify anaphoric relations appropriately and supplement the omission appropriately, you will find appropriate answers in the text that could not be answered before. It becomes possible to do.

さらに、一般的な言語知識を大量のテキストから収集する際にも、予め照応関係の特定及び省略の補完が適切に行えていれば、1文からの知識獲得のカバレッジが向上するため、結果的に獲得できる知識の規模の拡大に貢献できると考えられる。   Furthermore, when general linguistic knowledge is collected from a large amount of text, the coverage of knowledge acquisition from a single sentence will be improved if the anaphoric relationship is specified appropriately and omission complementation is appropriately performed in advance. It is thought that it can contribute to the expansion of the scale of knowledge that can be acquired.

<第3の実施の形態>
上記実施の形態では、項共有知識は照応・省略解析前、及び照応・解析処理中において使用されている。しかし、本発明はそのような実施の形態には限定されない。例えば、項共有知識を用いない照応・省略解析の出力に対して項共有知識を適用して解析結果を検証・修正する事もできる。図23にそのようなアノテーション処理を実現するプログラムの機能を概略ブロック図形式で示す。
<Third Embodiment>
In the above embodiment, the term sharing knowledge is used before the anaphora / omission analysis and during the anaphora / analysis process. However, the present invention is not limited to such an embodiment. For example, the analysis result can be verified and corrected by applying the term sharing knowledge to the output of anaphora and omission analysis that does not use the term sharing knowledge. FIG. 23 shows the function of a program that realizes such annotation processing in the form of a schematic block diagram.

図23を参照して、項共有知識を用いて照応・省略解析結果を検証・修正するプログラムは、照応・省略解析器の出力911に対して、項共有知識910を利用して指し先の検証を行い、必要なら修正を行った出力912を生成するためのものである。例えば、照応・省略解析器の出力911において、「示した」の主格の省略の指し先が「村山富市首相」であるとアノテーション913され、「述べ」の主格の省略の指し先が誤って「離党者」になっていたものとする(アノテーション914)。この場合、項共有関係の検証・修正をするプログラムは、両者が項を共有していない結果になっているので、まず2つの表現「示す」と「述べる」とを含む項共有知識を検索する。そのような項共有知識910があったとすると、項共有関係の検証・検証をするプログラムは、その項共有知識910と出力911とを照合915する。具体的には、プログラムは、照応・省略解析器の出力911から「示した」と「述べ」とが主格を共有するか否かを判別するための特徴量を抽出し、SVMからなる項共有判別器により判別する。この項共有判別器は図6〜図8に示したものと同様のものである。共有しないという結果であればプログラムはそれ以上何もしない。共有するという結果であれば、プログラムは、処理対象の述語対のうち、照応・省略解析器の出力中で指し先の信頼性としてアノテーションに付されていたスコアのうち、値の低い方の指し先を、値の高い方の指し先によって書き換える。この結果、例えば、図23に示すアノテーション914のスコアが低ければ、その指し先を、アノテーション913の指し先と同じ「村山富市首相」に変更した新たなアノテーション916がされ正しく出力912される。ただし、このプログラムによる項共有判別の信頼性(スコア)が低い場合にはそのような書き換えをしないようにしてもよい。なお、述語対のうち一方の指し先が省略されていないときには、省略としてアノテーションされた方の指し先を、省略されていない方の指し先によって書き換えればよい。   Referring to FIG. 23, the program for verifying / correcting the anaphora / abbreviation analysis result using the term sharing knowledge uses the term sharing knowledge 910 to verify the pointing destination for the output 911 of the anaphora / omission analyzer. For generating an output 912 corrected if necessary. For example, in the output 911 of the anaphora / abbreviation analyzer, it is annotated 913 that the designation of “shown” principal is “Prime Minister Tomi Murayama”, and the designation of omission of “description” is incorrect. It is assumed that it had been a “retired party” (annotation 914). In this case, since the program that verifies and corrects the term sharing relationship does not share the terms, first the term sharing knowledge including the two expressions “show” and “describe” is searched. . If there is such term sharing knowledge 910, the program for verifying / verifying the term sharing relationship collates 915 with the term sharing knowledge 910 and the output 911. Specifically, the program extracts a feature amount for determining whether “shown” and “description” share the main character from the output 911 of the anaphoric / omitted analyzer, and shares the term including SVM. It discriminates with a discriminator. This term sharing discriminator is the same as that shown in FIGS. If it does not share, the program does nothing further. If the result indicates that the result is shared, the program indicates the lower value of the scores of the predicate pairs to be processed that are attached to the annotation as the reliability of the target in the output of the anaphoric / omitting analyzer. Rewrite the tip with the higher point. As a result, for example, if the score of the annotation 914 shown in FIG. 23 is low, the new annotation 916 is changed to the same “Prime Minister Murayama Tomiichi” as that of the annotation 913, and is correctly output 912. However, when the reliability (score) of the term sharing determination by this program is low, such rewriting may not be performed. If one of the predicate pairs is not omitted, the pointer that is annotated as omitted may be rewritten with the pointer that is not omitted.

図24を参照して、このアノテーションを実行するプログラムは、照応・省略解析器の出力のうち、照応・省略を含む述語対であって、項を共有しない述語対の各々について以下の処理922を実行するステップ920を含む。   Referring to FIG. 24, the program that executes this annotation includes the following processing 922 for each predicate pair that includes anaphora and omission among the outputs of the anaphora and omission analyzer and does not share a term. Step 920 is performed.

処理922は、処理対象の述語対のアノテーションによる指し先が一致するか否かを判定し、判定の結果が肯定である場合にはこの述語対に対する処理を終了するステップ924と、ステップ924の判定が否定である場合に、処理中の述語対と合致する項共有知識を検索し、判定が否定のときには現在の述語対に対する処理を終了するステップ926と、ステップ926の判定が肯定であるときに、2つのアノテーションのうち、照応・省略解析器によるスコアの低い方の指し先をスコアの高い方の指し先に書き換えてこの述語対に対する処理を終了するステップ928とを含む。アノテーションのスコアは、照応・省略解析を実現している機械学習モデルによるスコア(SVMの場合には分離平面からデータポイントまでの距離)を用いればよい。   The process 922 determines whether or not the pointed to by the annotation of the predicate pair to be processed matches. If the result of the determination is affirmative, the process for the predicate pair is terminated in step 924 and the determination of step 924 Is negative, step 926 that searches for the term shared knowledge that matches the predicate pair being processed, and ends the processing for the current predicate pair when the determination is negative, and when the determination of step 926 is affirmative And the step 928 of rewriting the pointing point with the lower score by the anaphoric / omitting analyzer of the two annotations to the pointing point with the higher score, and ending the processing for this predicate pair. The score of the annotation may be a score (a distance from the separation plane to the data point in the case of SVM) based on a machine learning model that realizes anaphora / omission analysis.

こうした処理を行うことにより、事後的に照応・解析処理の結果を項共有知識を用いて検証及び修正できる。   By performing such processing, it is possible to verify and correct the results of the anaphora / analysis processing afterwards using the term sharing knowledge.

<第4の実施の形態>
〈概略〉
上記第1〜第3の実施の形態では、未アノテートテキストアーカイブ302内のアノテーションを用いて項共有判別器306、307及び308の学習をし、これらを用いて項共有知識の獲得を行っている。項共有判別器306、307及び308はいずれも、各述語対が個別に項を共有しているか否かを判別するものである。しかし、本発明はそのような実施の形態には限定されない。項を共有する述語が3個以上ある場合も考えられる。そうした場合、各述語対について個別に項共有知識を適用して照応解析を行おうとすると、結果が矛盾したり、判定の条件が複雑になったりすることがある。そこで、互いに項を共有する述語群については、まとめて判定できるようにすることが望ましい。第4の実施の形態では、これを項共有述語ネットワークという概念を導入して解決する。
<Fourth embodiment>
<Outline>
In the first to third embodiments, the term sharing discriminators 306, 307, and 308 are learned using the annotations in the unannotated text archive 302, and the term sharing knowledge is acquired using these. . Each of the term sharing discriminators 306, 307, and 308 discriminates whether or not each predicate pair individually shares a term. However, the present invention is not limited to such an embodiment. There may be cases where there are three or more predicates that share a term. In such a case, if the anaphora analysis is performed by applying the term sharing knowledge to each predicate pair individually, the results may be inconsistent or the judgment conditions may be complicated. Therefore, it is desirable that predicate groups that share terms with each other can be collectively determined. In the fourth embodiment, this is solved by introducing the concept of a term shared predicate network.

項共有述語ネットワークとは、互いに項を共有する述語群を頂点とし、各頂点をエッジで結んで得られるネットワークのことをいう。項を共有する述語群の集まりを表すので、項共有グループと呼んでも良い。このようなネットワークを考えた場合、頂点をなす1つの述語についてその項(例えば主語)の値が分かれば、同じネットワークの他の頂点にその項の値を伝搬させることにより、同じネットワークに属する各述語群の項の値が定められる。同じネットワーク内で複数の述語についてその項の値があり得るときは、それらの中で最も信頼度の高い値を各述語群の項の値として定めれば良い。   The term shared predicate network refers to a network obtained by using a group of predicates sharing terms as vertices and connecting the vertices with edges. Since it represents a group of predicates that share a term, it may be called a term sharing group. When such a network is considered, if the value of the term (for example, the subject) is known for one predicate that forms a vertex, the value of the term is propagated to other vertices of the same network, so that each The value of a predicate group term is defined. When the value of the term can exist for a plurality of predicates in the same network, the most reliable value among them may be determined as the value of the term of each predicate group.

本実施の形態では、第1の実施の形態で使用した項共有判別器306、307及び308とは異なり、項共有関係にある述語の出現するパターンに応じた3種類の項共有判別器を使用する。パターンには3種類がある。DEP型、ADJ型、及びPNP型である。以下、これらについて順番に説明する。   In this embodiment, unlike the term sharing discriminators 306, 307 and 308 used in the first embodiment, three types of term sharing discriminators corresponding to patterns in which predicates having a term sharing relationship appear are used. To do. There are three types of patterns. DEP type, ADJ type, and PNP type. Hereinafter, these will be described in order.

―DEP型―
DEP型は、典型的な項共有パターンであり、述語対が互いに係り受け関係において依存関係にある場合を言う。例えば「トムはインフルエンザになったので、(φが)薬を飲んだ。」という文における2つの述語「なった」と「飲んだ」との関係である。なぜなら、これらは同じ主語(トム、φ)を持っているからである。この係り受け関係を図27(A)に示す。このような項共有関係をDEP型と呼ぶ。
―DEP type―
The DEP type is a typical term sharing pattern, and refers to a case where predicate pairs are dependent on each other in a dependency relationship. For example, there is a relationship between two predicates “Done” and “Drinked” in the sentence “Tom got flu, so I took medicine (φi)”. This is because they have the same subject (Tom, φ i ). This dependency relationship is shown in FIG. Such a term sharing relationship is called a DEP type.

─ADJ型─
一文中で隣接する位置にある述語は互いに同じ主語を持つ傾向にあるが、それらが常にDEP型の項共有関係にあるとは限らない。これは2つの述語の間での長距離の係り受け関係が存在するからである。例えば、「飛行機は無事に着陸したが誘導路に入った後に操縦桿が効かなくなった。」という文において、2つの述語「着陸した」と「入った」は同じ主語を持つが、直接の係り受け関係を持たない。この関係を図27(B)に示す。このような項共有関係を明らかにするために、2つの述語が表層構造において互いに隣接して出現するケースもADJ型に分類する。
─ADJ type─
Predicates located adjacent to each other in a sentence tend to have the same subject, but they are not always in a DEP-type term sharing relationship. This is because there is a long-range dependency relationship between two predicates. For example, in the sentence "The plane has landed successfully but the control sticks have stopped working after entering the taxiway." The two predicates "Landed" and "Entered" have the same subject, but are directly related. Does not have a relationship. This relationship is shown in FIG. In order to clarify such a term sharing relationship, cases where two predicates appear adjacent to each other in the surface layer structure are also classified into the ADJ type.

─PNP型─
日本語の述語対の場合、述語が統語関係上である名詞(又は名詞句)に依存し、その名詞(又は名詞句)が統語関係上で別の述語に依存しているという場合がしばしばである。例えば「知事は(φが)条項を撤回する方針を明らかにした。」という文における「撤回する」と「明らかにした」のような場合である。この関係を図27(C)に示す。このような型の項共有関係をPNP型と呼ぶ。
─PNP type─
In the case of Japanese predicate pairs, the predicate often depends on a noun (or noun phrase) that is syntactically related, and the noun (or noun phrase) depends on another predicate in the syntactic relation. is there. For example, it is the case of “withdrawn” and “clarified” in the sentence “The governor has revealed the policy (φ i ) has withdrawn the clause”. This relationship is shown in FIG. This type of term sharing relationship is called a PNP type.

本実施の形態では、このような項共有関係(特に主語)の検出をバイナリ識別問題としてとらえ、2つの述語が同じ主語を共有するか否かを判定する判別器を構成する。ここでは、教師付学習を用いて判別器の学習を行う。そのために、例えば図4に示すようなアノテート済のテキストアーカイブから、各型の学習データを別々に抽出する。アノテーションとしては、最低限、(ゼロ)代名詞関係、coreference関係、及び主語がアノテートされていればよい。抽出された2つの述語がcoreference関係及び(ゼロ)代名詞関係を共有している場合にはラベルを正、そうでいない場合にはラベルを負とし、それぞれ所定の素性とともに学習データを作成する。本実施の形態では判別器にSVMlightを用いる。各関係の学習に用いる素性を次のテーブル2に示す。 In the present embodiment, such a term sharing relationship (particularly subject) is detected as a binary identification problem, and a discriminator that determines whether two predicates share the same subject is configured. Here, the discriminator is learned using supervised learning. For this purpose, for example, each type of learning data is extracted separately from an annotated text archive as shown in FIG. As an annotation, at least, a (zero) pronoun relationship, a coreference relationship, and a subject need only be annotated. If the two extracted predicates share a coreference relationship and a (zero) pronoun relationship, the label is positive, and if not, the label is negative, and learning data is created with a predetermined feature. In this embodiment, SVM light is used for the discriminator. The features used for learning each relationship are shown in Table 2 below.

Figure 2019197577
Figure 2019197577

〈構成〉
図28(A)に、本実施の形態においてDEP型項共有判別器1014の学習を行うDEP型項共有判別器学習装置1012のブロック図を、図28(B)にADJ型項共有判別器1054の学習を行うADJ型項共有判別器学習装置1052のブロック図を、図28(C)にPNP型項共有判別器1094の学習を行うPNP型項共有判別器学習装置1092のブロック図を、それぞれ示す。DEP型項共有判別器学習装置1012は例えば学習データDB162から手作業で抽出し、DEP型テキスト記憶部1010に記憶されたDEP型の項共有関係学習のためのデータを用いてDEP型項共有判別器1014の学習を行う。ADJ型項共有判別器学習装置1052は同様に、ADJ型テキスト記憶部1050に記憶されたADJ型の項共有関係の学習データを用いてADJ型項共有判別器1054の学習を行う。PNP型項共有判別器学習装置1092は、PNP型テキスト記憶部1090に記憶されたPNP型の項共有の学習データを用いてPNP型項共有判別器1094の学習を行う。DEP型テキスト記憶部1010、ADJ型テキスト記憶部1050、及びPNP型テキスト記憶部1090はいずれも、各型の項共有関係の判別器の学習をするために準備された、正例にマークされた文例と負例にマークされた文例とを記憶している。
<Constitution>
FIG. 28A shows a block diagram of a DEP-type term sharing discriminator learning device 1012 that performs learning of the DEP-type term sharing discriminator 1014 in this embodiment, and FIG. 28B shows an ADJ-type term sharing discriminator 1054. FIG. 28C is a block diagram of an ADJ-type term sharing discriminator learning device 1092 that performs learning of PNP type term sharing discriminator 1094, and FIG. Show. The DEP type term sharing discriminator learning device 1012 is manually extracted from, for example, the learning data DB 162 and stored in the DEP type text storage unit 1010 using DEP type term sharing relation learning data. The device 1014 is learned. Similarly, the ADJ type term sharing discriminator learning device 1052 performs learning of the ADJ type term sharing discriminator 1054 using ADJ type term sharing relation learning data stored in the ADJ type text storage unit 1050. The PNP type term sharing discriminator learning device 1092 performs learning of the PNP type term sharing discriminator 1094 using the PNP type term sharing learning data stored in the PNP type text storage unit 1090. The DEP type text storage unit 1010, the ADJ type text storage unit 1050, and the PNP type text storage unit 1090 are all marked as positive examples prepared for learning the classifiers of each type of term sharing relationship. It stores sentence examples and sentence examples marked as negative examples.

DEP型項共有判別器学習装置1012、ADJ型項共有判別器学習装置1052、及びPNP型項共有判別器学習装置1092は、いずれも図6に示す第1の実施の形態の項共有判別器学習装置282と同様の構成を持つ。例えばDEP型項共有判別器学習装置1012は、DEP型テキスト記憶部1010に格納された正例の文例と負例の文例とを読出し、テーブル2の上段に示すような素性を抽出し、正例、又は負例のラベルを付けた学習データを生成し出力する学習データ生成部1030と、この学習データを記憶する学習データ記憶部1032と、学習データ記憶部1032に記憶された学習データを用いてDEP型項共有判別器1014のトレーニングを行う学習処理部1034とを含む。ADJ型項共有判別器学習装置1052は同様に、学習データ生成部1070、学習データ記憶部1072、及び学習処理部1074を含む。PNP型項共有判別器学習装置1092は、学習データ生成部1110、学習データ記憶部1112、及び学習処理部1114を含む。   The DEP type shared terminator learning device 1012, the ADJ type shared terminator learning device 1052, and the PNP type shared terminator learning device 1092 are all term shared discriminator learning according to the first embodiment shown in FIG. It has the same configuration as the device 282. For example, the DEP-type term shared discriminator learning device 1012 reads out the positive example sentence and the negative example sentence stored in the DEP type text storage unit 1010, extracts the features as shown in the upper part of Table 2, and extracts the positive examples. Or a learning data generation unit 1030 that generates and outputs learning data labeled with a negative example, a learning data storage unit 1032 that stores the learning data, and learning data stored in the learning data storage unit 1032. A learning processing unit 1034 that performs training of the DEP-type term sharing classifier 1014. Similarly, the ADJ-type term sharing discriminator learning device 1052 includes a learning data generation unit 1070, a learning data storage unit 1072, and a learning processing unit 1074. The PNP-type term sharing discriminator learning device 1092 includes a learning data generation unit 1110, a learning data storage unit 1112, and a learning processing unit 1114.

ここで、学習データ生成部1030及び学習データ生成部1070は、テーブル2の上段に示した素性を抽出して学習データを生成する。一方、学習データ生成部1110は、テーブル2の上段に示した素性に加え、下段に加えた素性も抽出して学習データを生成する。   Here, the learning data generation unit 1030 and the learning data generation unit 1070 generate the learning data by extracting the features shown in the upper part of Table 2. On the other hand, the learning data generation unit 1110 generates learning data by extracting the features added to the lower stage in addition to the features shown in the upper stage of Table 2.

図29を参照して、この実施の形態に係る項共有知識収集装置1130は、上に説明したようにして学習が行われたDEP型項共有判別器1014、ADJ型項共有判別器1054、及びPNP型項共有判別器1094等を用いて、未アノテートテキストアーカイブ302から項共有知識を抽出するものであって、第1の実施の形態に係る項共有知識収集装置301(図8参照)に替えて使用できる。   Referring to FIG. 29, the term sharing knowledge collection device 1130 according to this embodiment includes a DEP type term sharing discriminator 1014, an ADJ type term sharing discriminator 1054 that have been learned as described above, and The term shared knowledge is extracted from the unannotated text archive 302 by using the PNP type term shared discriminator 1094 or the like, and is replaced with the term shared knowledge collection device 301 (see FIG. 8) according to the first embodiment. Can be used.

項共有知識収集装置1130は、未アノテートテキストアーカイブ302から全ての述語対を抽出する述語対抽出部303と、述語対抽出部303により抽出された各述語対に対し、それらが出現する文中での係り受け関係と依存関係とによってDEP型、ADJ型、及びPNP型のいずれかに分類し、DEP型項共有判別器1014、ADJ型項共有判別器1054、及びPNP型項共有判別器1094にそれぞれ与えて各型の共有関係があるか否かを判定させるための振り分け部1140と、DEP型項共有判別器1014、ADJ型項共有判別器1054、及びPNP型項共有判別器1094による項共有関係の判別結果を表す情報を、その判定の基になった述語対とともに項共有知識として記憶する項共有知識記憶部310とを含む。   The term sharing knowledge collection device 1130 includes a predicate pair extraction unit 303 that extracts all predicate pairs from the unannotated text archive 302, and each predicate pair extracted by the predicate pair extraction unit 303 in a sentence in which they appear. It is classified into one of DEP type, ADJ type, and PNP type according to the dependency relationship and dependency relationship, and is classified into the DEP type term sharing classifier 1014, the ADJ type term sharing classifier 1054, and the PNP type term sharing classifier 1094, respectively. A distribution unit 1140 for determining whether there is a sharing relationship of each type, a term sharing relationship by a DEP type term sharing classifier 1014, an ADJ type term sharing classifier 1054, and a PNP type term sharing classifier 1094 A term sharing knowledge storage unit 310 that stores information representing the discrimination result of the item as a term sharing knowledge together with the predicate pair that is the basis of the determination

一方、図30を参照して、この実施の形態では、図4に示す照応・省略解析器252内の先行詞特定器170に替えて、図30に示す先行詞特定器1150を用いる。先行詞特定器1150は、照応・省略解析の対象となる入力250から全ての述語を抽出する述語抽出部1162と、述語抽出部1162により抽出された述語を記憶する述語DB1164と、述語DB1164に記憶された述語の集合から全ての述語対を抽出する述語対抽出部1166と、述語対抽出部1166により抽出された各述語対に対し、図28に示すようなDEP型項共有判別器1014、ADJ型項共有判別器1054、PNP型項共有判別器1094及びその他の項共有判別器にそれぞれ与えてその述語対に項共有関係があるか否かを判定し、項共有関係がある場合にはその述語対の両者に同じラベルを付すように述語DB1164を更新するための項共有判定部1168とを含む。   On the other hand, referring to FIG. 30, in this embodiment, an antecedent identifier 1150 shown in FIG. 30 is used in place of the antecedent identifier 170 in the anaphoresis / omission analyzer 252 shown in FIG. The antecedent specifying unit 1150 stores a predicate extraction unit 1162 that extracts all predicates from the input 250 to be subjected to anaphora and omission analysis, a predicate DB 1164 that stores predicates extracted by the predicate extraction unit 1162, and a predicate DB 1164. 28. A predicate pair extraction unit 1166 that extracts all predicate pairs from the set of predicates thus obtained, and for each predicate pair extracted by the predicate pair extraction unit 1166, a DEP type term sharing discriminator 1014, ADJ as shown in FIG. Type term sharing discriminator 1054, PNP type term sharing discriminator 1094 and other term sharing discriminators are respectively determined to determine whether or not the predicate pair has a term sharing relationship. A term sharing determination unit 1168 for updating the predicate DB 1164 so as to attach the same label to both of the predicate pairs.

項共有判定部1168は、処理対象の述語対の間に項共有関係がある場合、以下のように述語DB1164を更新する。項共有関係が見出された述語対の双方にまだラベルが付されていない場合、新たな述語グループを作成し、それを示すラベルを述語対の双方に付す。したがって、項共有判定部1168は、今までに作成されたグループのラベルを記憶するラベルDB(図示せず)を持つ必要がある。述語対の一方のみにラベルが付されており、他方にはラベルが付されていない場合、ラベルが付されていない方に、他方のラベルを付す。述語対の双方にラベルが付されている場合には、いずれか一方に統一するとともに、他方のラベルを有している他の述語のラベルを全てこの一方のラベルに統一する。他方のラベルはラベルDBから削除する。こうすることで、項共有関係を持つ述語対がラベルによりグルーピングされる。このように、順次、ラベルを統一していくと、複数の述語対について共有された項を個別に決定した後にさらにそれらを統一する場合と比較して処理が容易になるという効果がある。   The term sharing determination unit 1168 updates the predicate DB 1164 as follows when there is a term sharing relationship between the predicate pairs to be processed. If both of the predicate pairs in which the term sharing relationship is found are not yet labeled, a new predicate group is created and a label indicating the group is attached to both of the predicate pairs. Therefore, the term sharing determination unit 1168 needs to have a label DB (not shown) for storing the labels of the groups created so far. In the case where only one of the predicate pairs is labeled and the other is not labeled, the other label is attached to the unlabeled side. When labels are attached to both of the predicate pairs, the labels are unified to one of them, and the labels of the other predicates having the other label are unified to the one label. The other label is deleted from the label DB. By doing so, predicate pairs having a term sharing relationship are grouped by label. Thus, when the labels are sequentially unified, there is an effect that the processing becomes easier as compared with the case where the terms shared for a plurality of predicate pairs are individually determined and then further unified.

先行詞特定器1150はさらに、項共有判定部1168による述語DB1164の更新が完了した後に、述語DB1164から同じラベルが付された項共有述語グループをグループ別に検索する項共有述語グループ検索部1170と、項共有述語グループ検索部1170により検索された各グループに属する述語により項共有述語ネットワークを生成する項共有述語ネットワーク生成部1172とを含む。   The antecedent identifier 1150 further includes a term shared predicate group search unit 1170 that searches for the term shared predicate group with the same label from the predicate DB 1164 for each group after the update of the predicate DB 1164 by the term sharing determination unit 1168 is completed. A term shared predicate network generation unit 1172 that generates a term shared predicate network based on the predicates belonging to each group searched by the term shared predicate group search unit 1170.

ここで、項共有述語ネットワークとは、同じ項を共有する複数の述語からなるグループのことを言う。項共有述語ネットワークのデータ形式は、あるグループに属する述語から、その同じグループに属する述語を全てたどれるようなものであればよい。例えばリスト形式でもよいし、グループの述語を要素とする配列からなる配列でもよい。   Here, the term shared predicate network refers to a group of a plurality of predicates sharing the same term. The data format of the term shared predicate network may be such that all predicates belonging to the same group can be traced from predicates belonging to a certain group. For example, it may be a list format or an array composed of arrays having group predicates as elements.

先行詞特定器1150はさらに、項共有述語ネットワーク生成部1172が生成した項共有述語ネットワークを記憶する項共有述語ネットワークDB1174と、項共有述語ネットワーク生成部1172によって、他の述語と項を共有しないと判定された述語を記憶する非項共有述語記憶部1180と、項共有述語ネットワークDB1174に記憶された項共有述語ネットワークの各々について、その項共有述語ネットワークに属する述語が共有する項を特定する共有項判定部1176と、項共有述語ネットワークDB1174を参照することにより、共有項判定部1176により判定された項の値を同じ項共有述語ネットワークに属する全ての述語に伝搬させ、それらの述語に対応する項にその値を代入(埋め込む)する共有項伝搬部1178と、非項共有述語記憶部1180に記憶された述語、及び、共有項判定部1176によって、共有する項(主語)の値が特定できないと判定された項共有述語ネットワークに属する述語の各々について、既存の項判定方式によって各述語の項(主語)を特定する処理を補充的に行う補充判定部1182と、共有項伝搬部1178による処理結果と補充判定部1182による処理結果とを用いて、入力250内の省略箇所にその項を先行詞として埋め込むことで入力250を更新して出力254を出力する先行詞更新部1184とを含む。   The antecedent identifier 1150 further has to share a term with other predicates by the term shared predicate network DB 1174 that stores the term shared predicate network generated by the term shared predicate network generating unit 1172 and the term shared predicate network generating unit 1172. For each of the non-term shared predicate storage unit 1180 that stores the determined predicate and the term shared predicate network stored in the term shared predicate network DB 1174, a shared term that identifies a term shared by predicates belonging to the term shared predicate network By referring to the determination unit 1176 and the term shared predicate network DB 1174, the values of the terms determined by the shared term determination unit 1176 are propagated to all predicates belonging to the same term shared predicate network, and terms corresponding to those predicates. The shared term propagation unit 11 that substitutes (embeds) the value into 8 and the predicates stored in the non-term shared predicate storage unit 1180 and the predicates belonging to the term shared predicate network determined by the shared term determining unit 1176 that the value of the shared term (subject) cannot be specified The supplementary determination unit 1182 that supplementarily performs the process of specifying the term (subject) of each predicate using the existing term determination method, the processing result by the shared term propagation unit 1178, and the processing result by the supplemental determination unit 1182, An antecedent update unit 1184 that updates the input 250 and outputs the output 254 by embedding the term as an antecedent in the omitted part of the input 250.

補充判定部1182としては、既存のものが利用できる。例えば非特許文献1に記載された手法、又は参考文献2に記載された手法を使用できる。また、従来技術の説明に述べたように、形態素解析、構文・係り受け解析等が出力する情報に加え、例えば「食べる」の目的語に「食べ物」に相当する表現が含まれるという特性をまとめた辞書などを利用した自動解析技術を適用することもできる。   An existing one can be used as the replenishment determination unit 1182. For example, the technique described in Non-Patent Document 1 or the technique described in Reference Document 2 can be used. Also, as described in the description of the prior art, in addition to the information output by morphological analysis, syntax / dependency analysis, etc., for example, the characteristic that “food” is included in the object of “eating” is summarized It is also possible to apply automatic analysis technology using a dictionary.

図31に、図30に示す先行詞特定器1150をコンピュータにより実現するためのコンピュータプログラムのフローチャートを示す。図31を参照して、このプログラムは、入力250(図30を参照)に対する形態素解析、構文解析、及び係り受け解析を行うステップ1190と、解析結果を使用して入力250内の全ての述語を抽出し、空のラベルとともに述語DB1164に各述語を登録するステップ1192と、全ての述語対について項共有関係があるか否かを判定して、判定結果を用いて各述語にその属する項共有述語グループのラベルを付す処理を行うステップ1194と、ステップ1194の結果を用いて項共有述語ネットワークを生成するステップ1196と、各項共有述語ネットワークごとに共有されている項の値を判定するステップ1198と、ステップ1198までの処理で決定できなかった省略箇所を従来の手法等を用いて判定するステップ1200とを含む。   FIG. 31 shows a flowchart of a computer program for realizing the antecedent identifier 1150 shown in FIG. 30 by a computer. Referring to FIG. 31, this program performs step 1190 for performing morphological analysis, syntax analysis, and dependency analysis for input 250 (see FIG. 30), and uses all the predicates in input 250 by using the analysis result. Step 1192 for extracting and registering each predicate in the predicate DB 1164 together with an empty label, and determining whether or not there is a term sharing relationship for all predicate pairs, and using the determination result, the term shared predicate belonging to each predicate Step 1194 for performing a process of labeling a group, Step 1196 for generating a term shared predicate network using the result of Step 1194, and Step 1198 for determining a value of a term shared for each term shared predicate network Step 120 for determining an abbreviated portion that could not be determined by the processing up to Step 1198 using a conventional method or the like. Including the door.

ステップ1194の処理は、全ての述語対についてステップ1212及び1214の処理を繰返し実行するステップ1210を含む。   The processing in step 1194 includes step 1210 in which the processing in steps 1212 and 1214 is repeatedly executed for all predicate pairs.

ステップ1212では、処理対象の述語対が項を共有しているか否かを判定する。述語対が項を共有している場合には、ステップ1214で、その述語対を構成する述語に、項を共有していることを示すラベルを付してそれぞれ述語DBを更新する。ここでのラベルは、項を共有する述語からなるグループを表す。述語対の双方ともラベルが付されていなければ、新たなラベルを付して両者を更新するとともに、そのラベルをラベルDBに記憶する。述語対の一方のみにラベルが付されている場合、述語対の他方に同じラベルを付して述語DBを更新する。述語対の双方にラベルが付されている場合、いずれかの方法で一方のラベルを採用してラベルを統一する。ここで採用されなかったラベルはラベルDBから削除する。   In step 1212, it is determined whether the predicate pair to be processed shares a term. If the predicate pair shares a term, in step 1214, the predicate constituting the predicate pair is attached with a label indicating that the term is shared, and the predicate DB is updated. The label here represents a group of predicates that share a term. If both predicate pairs are not labeled, a new label is added to update both, and the label is stored in the label DB. When only one of the predicate pairs is labeled, the same label is attached to the other predicate pair and the predicate DB is updated. If labels are attached to both predicate pairs, one of the labels is used to unify the labels. Labels not adopted here are deleted from the label DB.

ステップ1196は、述語DBからラベルをキーにしてソートして述語を検索するステップ1230と、検索された述語に対し、ラベルごとにステップ1234の処理を実行するステップ1232とを含む。ステップ1232では、同一のラベルが付されている述語を用いて項共有述語ネットワークを構築する。   Step 1196 includes a step 1230 for searching for predicates by sorting from the predicate DB using labels as keys, and a step 1232 for executing the processing of step 1234 for each label on the searched predicates. In step 1232, a term sharing predicate network is constructed using predicates with the same label.

ステップ1198は、ステップ1196で生成された項共有述語ネットワークごとに、ステップ1252,1254及び1256の処理を実行するステップ1250を含む。   Step 1198 includes a step 1250 that executes the processing of steps 1252, 1254, and 1256 for each term-shared predicate network generated in step 1196.

ステップ1252では、処理対象の項共有述語ネットワーク内の各述語について、共有項の値を判定することを試みる。ここでは、1つのみ項の値が決定できればその値を採用する。2つ以上の項の値の候補がある場合には、何らかの基準でいずれか1つに決定する。例えば判定の信頼度が最も高いものを採用してもよい。項の値の候補が見つからない場合にはそのまま次の処理に進む。続くステップ1254では、ステップ1252により、項の値が決定できたか否かを判定する。項の値が決定できていれば、その値を同じ項共有述語ネットワーク内の全ての述語に伝搬させる。項の値が決定できなければ、そのまま次の処理に進む。   In step 1252, an attempt is made to determine the value of the shared term for each predicate in the processing-target term shared predicate network. Here, if the value of only one term can be determined, that value is adopted. When there are two or more term value candidates, any one of them is determined by some criterion. For example, you may employ | adopt the thing with the highest reliability of determination. If no term value candidate is found, the process proceeds to the next process. In the subsequent step 1254, it is determined in step 1252 whether or not the value of the term has been determined. If the value of the term has been determined, the value is propagated to all predicates in the same term sharing predicate network. If the value of the term cannot be determined, the process proceeds directly to the next process.

ステップ1200では、ステップ1198までの処理で共有項の値が決定できなかった箇所の値を、他の手法(例えば従来の手法)で判定する。   In step 1200, the value of the location where the value of the shared term could not be determined by the processing up to step 1198 is determined by another method (for example, a conventional method).

〈動作〉
この項共有述語ネットワークの動作には大きく分けて3つのフェーズが存在する。第1のフェーズは図28に示すDEP型項共有判別器1014、ADJ型項共有判別器1054、及びPNP型項共有判別器1094の学習である。第2のフェーズは、図29に示す、DEP型項共有判別器1014、ADJ型項共有判別器1054、及びPNP型項共有判別器1094を用いた項共有知識収集装置1130による項共有知識の収集である。第3のフェーズは、図30に示す先行詞特定器1150により、入力250の内で省略された箇所の先行詞を項共有知識又は項共有判別器を用いて特定する処理である。
<Operation>
The operation of this term shared predicate network is roughly divided into three phases. The first phase is learning of the DEP type term sharing discriminator 1014, the ADJ type term sharing discriminator 1054, and the PNP type term sharing discriminator 1094 shown in FIG. The second phase is the collection of term sharing knowledge by the term sharing knowledge collection device 1130 using the DEP type term sharing discriminator 1014, the ADJ type term sharing discriminator 1054, and the PNP type term sharing discriminator 1094 shown in FIG. It is. The third phase is processing for specifying an antecedent at a place omitted in the input 250 by using the term sharing knowledge or the term sharing discriminator by the antecedent specifying device 1150 shown in FIG.

図28に示すDEP型項共有判別器1014、ADJ型項共有判別器1054、及びPNP型項共有判別器1094の学習は、互いによく似ている。例えばDEP型項共有判別器1014の学習は以下のように行われる。最初に、DEP型の項共有判別器のための述語対を含むテキストからなる学習データが人手で収集され、DEP型テキスト記憶部1010に記憶される。この際、学習データには、述語対がDEP型の項共有関係を持つか否かを示すラベルが付される。学習データ生成部1030は、これらのテキストから、テーブル2に示すような素性とラベルとからなる学習データを生成し、学習データ記憶部1032に蓄積する。学習処理部1034は、学習データ記憶部1032に蓄積された学習データを用いて、SVMからなるDEP型項共有判別器1014の学習を行う。学習後のDEP型項共有判別器1014は、2つの述語対を含むテキストが与えられると、それらが項共有関係を持つか否かを判定できる。   The learning of the DEP type term sharing discriminator 1014, the ADJ type term sharing discriminator 1054, and the PNP type term sharing discriminator 1094 shown in FIG. 28 is very similar to each other. For example, the learning of the DEP type term sharing discriminator 1014 is performed as follows. First, learning data including text including a predicate pair for a DEP-type term sharing classifier is manually collected and stored in the DEP-type text storage unit 1010. At this time, a label indicating whether or not the predicate pair has a DEP-type term sharing relationship is attached to the learning data. The learning data generation unit 1030 generates learning data including features and labels as shown in Table 2 from these texts, and stores the learning data in the learning data storage unit 1032. The learning processing unit 1034 uses the learning data stored in the learning data storage unit 1032 to perform learning of the DEP type term sharing classifier 1014 made of SVM. The DEP-type term sharing discriminator 1014 after learning can determine whether or not they have a term sharing relationship when given a text including two predicate pairs.

ADJ型項共有判別器学習装置1052によるADJ型項共有判別器1054の学習、及びPNP型項共有判別器学習装置1092によるPNP型項共有判別器1094の学習も同様である。   The same applies to learning of the ADJ type term sharing classifier 1054 by the ADJ type term sharing classifier learning device 1052 and learning of the PNP type term sharing classifier 1094 by the PNP type term sharing classifier learning device 1092.

図29を参照して、項共有知識収集装置1130による項共有知識の収集は以下のように行われる。述語対抽出部303が未アノテートテキストアーカイブ302からあらゆる述語対を抽出する。振り分け部1140は、抽出された各述語対を含むテキストの構文解析及び係り受け解析を行い、各語の間の依存関係に基づいて、述語対をDEP型、ADJ型、及びPNP型のいずれかに分類し、それぞれDEP型項共有判別器1014、ADJ型項共有判別器1054、及びPNP型項共有判別器1094のいずれかに与えて項共有関係の有無を判定させる。DEP型項共有判別器1014、ADJ型項共有判別器1054、PNP型項共有判別器1094はそれぞれ、与えられた述語対がDEP型、ADJ型、及びPNP型か否かを判定し、項共有関係にある場合にはその項を特定し、後に項共有関係が判定可能となるような情報(係り受け関係、単語、品詞他の情報)を項共有知識記憶部310に出力する。項共有知識記憶部310は、この情報を項共有知識として蓄積する。   Referring to FIG. 29, the term shared knowledge collection by the term shared knowledge collection device 1130 is performed as follows. The predicate pair extraction unit 303 extracts all predicate pairs from the unannotated text archive 302. The sorting unit 1140 performs syntax analysis and dependency analysis of the text including each extracted predicate pair, and determines the predicate pair as one of the DEP type, the ADJ type, and the PNP type based on the dependency between the words. And is given to any one of the DEP-type term sharing discriminator 1014, the ADJ-type term sharing discriminator 1054, and the PNP-type term sharing discriminator 1094 to determine the presence or absence of the term sharing relationship. The DEP type term sharing discriminator 1014, the ADJ type term sharing discriminator 1054, and the PNP type term sharing discriminator 1094 determine whether the given predicate pair is a DEP type, an ADJ type, and a PNP type, respectively. If there is a relationship, the term is specified, and information (dependency relationship, information on words, parts of speech, etc.) that enables the term sharing relationship to be determined later is output to the term shared knowledge storage unit 310. The term shared knowledge storage unit 310 accumulates this information as term shared knowledge.

一方、入力文に対して照応・省略解析を行う場合には、先行詞特定器1150は以下のように動作する。述語抽出部1162は入力250から全ての述語を抽出し、それぞれ述語DB1164に空のラベルとともに登録する(図31のステップ1190、1192)。   On the other hand, when performing anaphora / abbreviation analysis on the input sentence, the antecedent identifier 1150 operates as follows. The predicate extraction unit 1162 extracts all predicates from the input 250, and registers them in the predicate DB 1164 together with empty labels (steps 1190 and 1192 in FIG. 31).

述語抽出部1162による述語の抽出が完了すると、述語対抽出部1166が述語DB1164に含まれる全ての述語対を抽出し、項共有判定部1168に与える(図31のステップ1210)。項共有判定部1168が、各述語対について、項共有関係にあるか否かを判定し(図31、ステップ1212)、項共有関係にあればその述語対を構成する述語の双方に、項を共有することを示すラベルを付して述語DB1164を更新する。この際のラベルの付し方については前述したとおりで、同じ項を共有する述語については同じラベルが付されるようにする。   When the predicate extraction by the predicate extraction unit 1162 is completed, the predicate pair extraction unit 1166 extracts all the predicate pairs included in the predicate DB 1164 and gives them to the term sharing determination unit 1168 (step 1210 in FIG. 31). The term sharing determination unit 1168 determines whether or not each predicate pair has a term sharing relationship (FIG. 31, step 1212). If there is a term sharing relationship, a term is added to both of the predicates constituting the predicate pair. The predicate DB 1164 is updated with a label indicating sharing. The labeling method at this time is as described above, and the same label is attached to predicates that share the same term.

このようにして全ての述語対について項共有関係の判定が終わると、項共有述語グループ検索部1170が述語DB1164からラベル別に述語を検索する(図31、ステップ1230)。項共有述語ネットワーク生成部1172が、ラベルごとに、同一ラベルを持つ述語で項共有ネットワークを生成し(図31,ステップ1232,1234)、項共有述語ネットワークDB1174に登録する。項共有述語ネットワークに属さない述語、他の述語対とグループを形成しない述語対等は非項共有述語記憶部1180に出力される。   When the determination of the term sharing relationship is completed for all predicate pairs in this way, the term sharing predicate group search unit 1170 searches the predicate DB 1164 for predicates by label (FIG. 31, step 1230). The term shared predicate network generation unit 1172 generates a term shared network with predicates having the same label for each label (FIG. 31, steps 1232 and 1234), and registers them in the term shared predicate network DB 1174. Predicates that do not belong to the term shared predicate network, predicate pairs that do not form a group with other predicate pairs, and the like are output to the non-term shared predicate storage unit 1180.

共有項判定部1176が、項共有述語ネットワークごとに、共有項の値を決定することを試みる(図31,ステップ1250,1252)。値が決定すれば(ステップ1254でYES)、共有項伝搬部1178が同じ項共有ネットワークに属する全ての述語に対して、決定された項の値を伝搬させる(ステップ1256)。一方、補充判定部1182は、非項共有述語記憶部1180に記憶されていた述語、及び共有項判定部1176により共有項の値が決定できなかった項共有述語グループに属する述語の項の値を従来の手法等何らかの手法により決定する。   The shared term determination unit 1176 attempts to determine the value of the shared term for each term sharing predicate network (FIG. 31, steps 1250 and 1252). If the value is determined (YES in step 1254), the shared term propagation unit 1178 propagates the value of the determined term to all the predicates belonging to the same term shared network (step 1256). On the other hand, the supplement determination unit 1182 uses the predicate stored in the non-term shared predicate storage unit 1180 and the value of the predicate term belonging to the term shared predicate group whose shared term value cannot be determined by the shared term determination unit 1176. It is determined by some method such as a conventional method.

先行詞更新部1184は、共有項伝搬部1178による伝搬結果と、補充判定部1182による判定結果とを統合して、出力254を生成して出力する。   The antecedent update unit 1184 integrates the propagation result from the shared term propagation unit 1178 and the determination result from the supplement determination unit 1182 to generate and output an output 254.

以上のように、本実施の形態によれば、文型により適切な項共有判定器を構成し、入力に含まれる述語のうち、項を共有するものを特定する。さらに、同じ項を共有する述語により項共有述語ネットワークを生成し、何らかの手法で項共有述語ネットワークの述語で共有されている語を決定し、同じ項共有述語ネットワークに属する項の全てにその値を伝搬させる。したがって、入力250に複数の省略箇所があったときに、それらが指す値が同じ場合に、効率よく省略箇所の特定を行うことができる。   As described above, according to the present embodiment, an appropriate term sharing determiner is configured according to a sentence pattern, and among predicates included in an input, those sharing a term are specified. Furthermore, a term sharing predicate network is generated by predicates that share the same term, a word shared by the term sharing predicate network predicate is determined by some method, and the value is assigned to all the terms belonging to the same term sharing predicate network. Propagate. Therefore, when there are a plurality of omitted parts in the input 250 and the values indicated by them are the same, the omitted parts can be identified efficiently.

例えば、「政府は、被災地に50人を派遣することを計画し、その準備作業を進めている。」というテキストについて考える。このテキストには、「派遣する」「計画する」「進める」の3つの述語が出現している。項共有関係判別器を適用することで、例えば、「派遣する」と「計画する」、「計画する」と「進める」の2つの述語対に対して項を共有することが特定できたとする。その場合、これらに関係する3つの述語(「派遣する」「計画する」「進める」)は同じ項を持つ述語と考えられる。したがってこれら3つの述語をグルーピングできる。このグループに属する3つの述語のいずれかに対して項が特定できた場合に、このグループに属する他の述語にそれを伝搬させる処理を行うことで省略解析が実現できる。例えば、「進める」に対して主語「政府」が同定できた場合に、その主語を「派遣する」と「計画する」の主語の位置に補完することで主語省略の補完を達成する。   For example, consider the text “The government is planning to dispatch 50 people to the disaster area and is preparing for it”. In this text, three predicates “dispatch”, “plan”, and “progress” appear. By applying the term sharing relation discriminator, for example, it is possible to specify that a term is shared for two predicate pairs of “dispatch”, “plan”, “plan”, and “progress”. In that case, the three predicates related to these ("dispatch", "plan", "progress") are considered to be predicates having the same term. Therefore, these three predicates can be grouped. When a term can be specified for any of the three predicates belonging to this group, an omission analysis can be realized by performing a process of propagating it to other predicates belonging to this group. For example, when the subject “government” can be identified with respect to “advance”, the subject omission is complemented by complementing the subject to the positions of the subjects “dispatch” and “plan”.

このような項共有に着目した省略解析技術で解析できない問題には既存の省略解析の技術を適用することで頑健に省略解析が行える。   Omission analysis can be performed robustly by applying existing abbreviation analysis techniques to problems that cannot be analyzed by such abbreviation analysis techniques that focus on term sharing.

[参考文献1]
Chikara Hashimoto, Kentaro Torisawa, Julien Kloetzer, Motoki Sano, Istvan Varga, Jong-Hoon Oh, and Yutaka Kidawara. 2014. Toward future scenario generation: Extracting event causality exploiting semantic relation, context, and association features. In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, pages 987-997.
[参考文献2]
Ryohei Sasano and Sadao Kurohashi. 2011. A discriminative approach to Japanese zero anaphora resolution with large-scale lexicalized case frames. In Proceedings of 5th International Joint Conference on Natural Language Processing, pages 758-766.
[Reference 1]
Chikara Hashimoto, Kentaro Torisawa, Julien Kloetzer, Motoki Sano, Istvan Varga, Jong-Hoon Oh, and Yutaka Kidawara. 2014.Toward future scenario generation: Extracting event causality exploiting semantic relation, context, and association features.In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, pages 987-997.
[Reference 2]
Ryohei Sasano and Sadao Kurohashi. 2011.A discriminative approach to Japanese zero anaphora resolution with large-scale lexicalized case frames.In Proceedings of 5th International Joint Conference on Natural Language Processing, pages 758-766.

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。   The embodiment disclosed herein is merely an example, and the present invention is not limited to the above-described embodiment. The scope of the present invention is indicated by each claim of the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are included. Including.

[コンピュータによる実現]
上記実施の形態に係る学習データ生成補助装置204、検出器学習装置222、照応・省略解析器252、DEP型項共有判別器学習装置1012、ADJ型項共有判別器学習装置1052、PNP型項共有判別器学習装置1092、項共有知識収集装置1130、及び先行詞特定器1150は、いずれも、コンピュータハードウェアと、そのコンピュータハードウェア上で実行されるコンピュータプログラムとにより実現できる。図32はこのコンピュータシステム1330の外観を示し、図33はコンピュータシステム1330の内部構成を示す。
[Realization by computer]
Learning data generation assisting device 204, detector learning device 222, anaphora / omission analyzer 252, DEP type term sharing discriminator learning device 1012, ADJ type term sharing discriminator learning device 1052, PNP type term sharing according to the above embodiment Each of the discriminator learning device 1092, the term sharing knowledge collection device 1130, and the antecedent identifier 1150 can be realized by computer hardware and a computer program executed on the computer hardware. FIG. 32 shows the external appearance of this computer system 1330, and FIG. 33 shows the internal configuration of the computer system 1330.

図32を参照して、このコンピュータシステム1330は、メモリポート1352及びDVD(Digital Versatile Disc)ドライブ1350を有するコンピュータ1340と、いずれもコンピュータ1340に接続されたキーボード1346、マウス1348、及びモニタ1342とを含む。   Referring to FIG. 32, this computer system 1330 includes a computer 1340 having a memory port 1352 and a DVD (Digital Versatile Disc) drive 1350, and a keyboard 1346, a mouse 1348, and a monitor 1342 that are all connected to the computer 1340. Including.

図33を参照して、コンピュータ1340は、メモリポート1352及びDVDドライブ1350に加えて、CPU(中央処理装置)1356と、CPU1356、メモリポート1352及びDVDドライブ1350に接続されたバス1366と、ブートプログラム等を記憶する読出専用メモリ(ROM)1358と、バス1366に接続され、プログラム命令、システムプログラム及び作業データ等を記憶するランダムアクセスメモリ(RAM)1360と、ハードディスク1354を含む。コンピュータシステム1330はさらに、他端末との通信を可能とするネットワーク1368への接続を提供するネットワークインターフェイス(I/F)1344を含む。   Referring to FIG. 33, in addition to the memory port 1352 and the DVD drive 1350, the computer 1340 includes a CPU (Central Processing Unit) 1356, a bus 1366 connected to the CPU 1356, the memory port 1352, and the DVD drive 1350, and a boot program. A read-only memory (ROM) 1358 for storing etc., a random access memory (RAM) 1360 connected to the bus 1366 for storing program instructions, system programs, work data and the like, and a hard disk 1354 are included. The computer system 1330 further includes a network interface (I / F) 1344 that provides a connection to a network 1368 that allows communication with other terminals.

コンピュータシステム1330を上記した実施の形態に係る学習データ生成補助装置204の各機能部として機能させるためのコンピュータプログラムは、DVDドライブ1350又はメモリポート1352に装着されるDVD1362又はリムーバブルメモリ1364に記憶され、さらにハードディスク1354に転送される。又は、プログラムはネットワーク1368を通じてコンピュータ1340に送信されハードディスク1354に記憶されてもよい。プログラムは実行の際にRAM1360にロードされる。DVD1362から、リムーバブルメモリ1364から又はネットワーク1368を介して、直接にRAM1360にプログラムをロードしてもよい。   A computer program for causing the computer system 1330 to function as each function unit of the learning data generation assisting device 204 according to the above-described embodiment is stored in the DVD 1362 or the removable memory 1364 mounted in the DVD drive 1350 or the memory port 1352, Further, it is transferred to the hard disk 1354. Alternatively, the program may be transmitted to the computer 1340 through the network 1368 and stored in the hard disk 1354. The program is loaded into the RAM 1360 when executed. The program may be directly loaded into the RAM 1360 from the DVD 1362, from the removable memory 1364, or via the network 1368.

このプログラムは、コンピュータ1340を、上記実施の形態に係る学習データ生成補助装置204の各機能部として機能させるための複数の命令からなる命令列を含む。コンピュータ1340にこの動作を行わせるのに必要な基本的機能のいくつかはコンピュータ1340上で動作するオペレーティングシステム若しくはサードパーティのプログラム又はコンピュータ1340にインストールされる、ダイナミックリンク可能な各種プログラミングツールキット又はプログラムライブラリにより提供される。したがって、このプログラム自体はこの実施の形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令の内、所望の結果が得られるように制御されたやり方で適切な機能又はプログラミングツールキット又はプログラムライブラリ内の適切なプログラムを実行時に動的に呼出すことにより、上記したシステムとしての機能を実現する命令のみを含んでいればよい。もちろん、プログラムのみで必要な機能を全て提供してもよい。   This program includes an instruction sequence including a plurality of instructions for causing the computer 1340 to function as each functional unit of the learning data generation assisting device 204 according to the above embodiment. Some of the basic functions necessary to cause computer 1340 to perform this operation are an operating system or third party program that runs on computer 1340 or various dynamically linkable programming toolkits or programs installed on computer 1340 Provided by the library. Therefore, this program itself does not necessarily include all functions necessary for realizing the system and method of this embodiment. This program can be used as a system as described above by dynamically calling the appropriate program in the appropriate function or programming toolkit or program library at run time in a controlled manner to achieve the desired result. It is only necessary to include an instruction for realizing the function. Of course, all necessary functions may be provided only by the program.

150 照応・省略解析システム
160 アノテーションデータ生成補助システム
162 学習データDB
164 学習システム
166 省略検出器
168 照応詞検出器
170 先行詞特定器
172 照応・省略解析装置
190 既存小規模学習データDB
192 テキストアーカイブ
194,228,256 言語知識DB
196 言換え・カテゴリ辞書
198 パターン辞書
200,220,258 質問タイプDB
202 入出力装置
204 学習データ生成補助装置
206,226,260 質問応答システム
222 検出器学習装置
224,262 選択制限DB
252 照応・省略解析器
278 項共有知識
282,972 項共有判別器学習装置
283,974 項共有判別器
1014 DEP型項共有判別器
1054 ADJ型項共有判別器
1094 PNP型項共有判別器
1130 項共有知識収集装置
1150 先行詞特定器
1162 述語抽出部
1164 述語DB
1168 項共有判定部
1170 項共有述語グループ検索部
1172 項共有述語ネットワーク生成部
1176 共有項判定部
1178 共有項伝搬部
1182 補充判定部
150 Anaphoric / Omission Analysis System 160 Annotation Data Generation Auxiliary System 162 Learning Data DB
164 Learning system 166 Omission detector 168 Anaphoric detector 170 Antecedent identification device 172 Anaphoric / omission analysis device 190 Existing small learning data DB
192 Text Archive 194, 228, 256 Language Knowledge DB
196 Paraphrase / Category Dictionary 198 Pattern Dictionary 200, 220, 258 Question Type DB
202 I / O device 204 Learning data generation auxiliary device 206, 226, 260 Question answering system 222 Detector learning device 224, 262 Selection restriction DB
252 Anaphoric / omission analyzer 278 Term sharing knowledge 282, 972 Term sharing discriminator learning device 283, 974 Term sharing discriminator 1014 DEP type term sharing discriminator 1054 ADJ type term sharing discriminator 1094 PNP type term sharing discriminator 1130 Term sharing Knowledge Collection Device 1150 Antecedent Identifier 1162 Predicate Extraction Unit 1164 Predicate DB
1168 term sharing determination unit 1170 term shared predicate group search unit 1172 term shared predicate network generation unit 1176 shared term determination unit 1178 shared term propagation unit 1182 supplement determination unit

Claims (6)

項を共有する述語対に関する項共有知識を用いて、入力されたテキストの照応・省略解析を行う照応・省略解析装置であって、
2つの述語の2つの格が項を共有するか否かに関する知識項共有知識を記憶する項共有知識記憶手段と、
前記項共有知識を用いて前記入力されたテキストを解析することにより、前記入力されたテキスト中の述語対の項の共有に関する情報を生成する項共有解析手段と、
前記入力されたテキストに対し、自動的な処理により、前記項共有解析手段による解析結果を用いた照応・省略解析を行って、照応・省略箇所とその指し先とに関してアノテーションされたテキストを出力する照応・省略解析手段とを含む、照応・省略解析装置。
An anaphoric / elliptical analysis device that performs anaphoric / elliptical analysis of input text using term sharing knowledge about predicate pairs sharing terms,
A term sharing knowledge storage means for storing knowledge term sharing knowledge regarding whether or not two cases of two predicates share a term;
A term sharing analysis unit that generates information related to sharing a term of a predicate pair in the input text by analyzing the input text using the term sharing knowledge;
The input text is subjected to anaphora / omission analysis using the analysis result of the term sharing analysis means by automatic processing, and the annotated text regarding the anaphora / omission part and its pointing destination is output. An anaphoric / abbreviated analysis device including an anaphoric / abbreviated analyzing means.
前記照応・省略解析手段は、
前記項共有解析手段により項を共有すると判別された述語対について、同じ項を共有する複数の述語からなる項共有述語ネットワークを生成するネットワーク生成手段と、
前記ネットワーク生成手段により生成された前記項共有述語ネットワークの各々について、当該項共有述語ネットワークに属する述語の共有する項の値を決定する項決定手段と、
前記項決定手段により決定された値を、当該項共有述語ネットワーク内の述語により共有される項に伝搬させてアノテーションを行う値伝搬手段とを含む、請求項1に記載の照応・省略解析装置。
The anaphoric / abbreviated analysis means is:
Network generation means for generating a term sharing predicate network consisting of a plurality of predicates sharing the same term for the predicate pair determined to share the term by the term sharing analysis means;
For each of the term shared predicate networks generated by the network generating means, term determining means for determining a value of a term shared by predicates belonging to the term shared predicate network;
The anaphoresis / omission analysis device according to claim 1, further comprising value propagation means for performing annotation by propagating a value determined by the term determination means to a term shared by predicates in the term shared predicate network.
前記項決定手段は、
前記ネットワーク生成手段により生成された前記項共有述語ネットワークの各々に属する述語の各々について、当該述語が他の述語と共有する項の値の候補を決定する候補決定手段と、
前記候補決定手段により決定された値の候補が1つであるときには、当該項共有述語ネットワークに属する述語の共有する項の値を当該候補に決定する手段と、
前記候補決定手段により決定された値の候補が複数であるときは、前記候補決定手段により各候補が決定されたときの信頼度の最も高い候補を選択し、当該項共有述語ネットワークに属する述語の共有する項の値を当該候補に決定する手段とを含む、請求項2に記載の照応・省略解析装置。
The term determining means includes
For each predicate belonging to each of the term shared predicate networks generated by the network generating means, candidate determining means for determining a candidate value of a term that the predicate shares with other predicates;
Means for determining a value of a term shared by predicates belonging to the term sharing predicate network as the candidate, when there is one value candidate determined by the candidate determining means;
When there are a plurality of candidate values determined by the candidate determination unit, the candidate having the highest reliability when each candidate is determined by the candidate determination unit is selected, and the predicate belonging to the term shared predicate network is selected. The anaphoresis / omission analysis apparatus according to claim 2, further comprising: means for determining a value of a shared term as the candidate.
前記照応・省略解析装置はさらに、ある項共有述語ネットワークに属する述語の各々について、前記候補決定手段により決定された値の候補が1つもないときに、当該項共有述語ネットワークに属する述語が共有する項の値を、前記照応・省略解析手段と異なる手法により決定するための手段を含む、請求項3に記載の照応・省略解析装置。   The anaphoric / abbreviated analysis device further shares, for each predicate belonging to a certain term shared predicate network, a predicate belonging to the term shared predicate network when there is no value candidate determined by the candidate determining means. 4. The anaphoresis / omission analysis device according to claim 3, further comprising means for determining a value of a term by a method different from the anaphora / omission analysis means. 前記照応・省略解析装置はさらに、前記入力されたテキストにおいて、前記項共有解析手段により他の述語と項を共有しないと判定された述語に対して、前記照応・省略解析手段と異なる手法により、当該述語の指す項の値を特定する手段を含む、請求項3又は請求項4に記載の照応・省略解析装置。   The anaphoric / abbreviated analysis device further uses a method different from the anaphoric / abbreviated analyzing unit for the predicate determined not to share a term with another predicate by the term sharing analyzing unit in the input text, The anaphoresis / omission analysis device according to claim 3 or 4, further comprising means for specifying a value of a term indicated by the predicate. コンピュータを、請求項1〜請求項5のいずれかに記載の照応・省略解析装置の全ての手段として機能させる、コンピュータプログラム。 A computer program that causes a computer to function as all means of the anaphoric / omitted analysis device according to any one of claims 1 to 5.
JP2019129714A 2015-03-30 2019-07-12 Anaphora / abbreviated analyzer and computer program Active JP6976585B2 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2015068498 2015-03-30
JP2015068498 2015-03-30
JP2015147002A JP2016192198A (en) 2015-03-30 2015-07-24 Argument-sharing discriminator learning apparatus, language knowledge collecting device, and anaphor/abbreviation analyzer

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2015147002A Division JP2016192198A (en) 2015-03-30 2015-07-24 Argument-sharing discriminator learning apparatus, language knowledge collecting device, and anaphor/abbreviation analyzer

Publications (2)

Publication Number Publication Date
JP2019197577A true JP2019197577A (en) 2019-11-14
JP6976585B2 JP6976585B2 (en) 2021-12-08

Family

ID=57246955

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2015147002A Pending JP2016192198A (en) 2015-03-30 2015-07-24 Argument-sharing discriminator learning apparatus, language knowledge collecting device, and anaphor/abbreviation analyzer
JP2019129714A Active JP6976585B2 (en) 2015-03-30 2019-07-12 Anaphora / abbreviated analyzer and computer program

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2015147002A Pending JP2016192198A (en) 2015-03-30 2015-07-24 Argument-sharing discriminator learning apparatus, language knowledge collecting device, and anaphor/abbreviation analyzer

Country Status (1)

Country Link
JP (2) JP2016192198A (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797296B (en) * 2020-07-08 2024-04-09 中国人民解放军军事科学院军事医学研究院 Method and system for mining poison-target literature knowledge based on network crawling

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
大村舞 他2名: "複数の述語間関係を考慮した日本語述語項構造解析", 言語処理学会第21回年次大会 発表論文集, JPN6019015957, 9 March 2015 (2015-03-09), JP, pages 67 - 70, ISSN: 0004343362 *
阿部修也 他2名: "項の共有関係と統語パターンを用いた事態間関係獲得", 自然言語処理, vol. 第17巻 第1号, JPN6019015962, 10 January 2010 (2010-01-10), JP, pages 121 - 139, ISSN: 0004343363 *
飯田龍 他1名: "述語対の項共有情報を利用した文間ゼロ照応解析", 言語処理学会第16回年次大会 発表論文集, JPN6019015952, 8 March 2010 (2010-03-08), JP, pages 804 - 807, ISSN: 0004343361 *

Also Published As

Publication number Publication date
JP2016192198A (en) 2016-11-10
JP6976585B2 (en) 2021-12-08

Similar Documents

Publication Publication Date Title
JP6074820B2 (en) Annotation auxiliary device and computer program therefor
Hamborg et al. Giveme5w1h: A universal system for extracting main events from news articles
Derczynski et al. Microblog-genre noise and impact on semantic annotation accuracy
US8903707B2 (en) Predicting pronouns of dropped pronoun style languages for natural language translation
US9323747B2 (en) Deep model statistics method for machine translation
CN107247707B (en) Enterprise association relation information extraction method and device based on completion strategy
US9613026B2 (en) System and method for interactive automatic translation
US8972240B2 (en) User-modifiable word lattice display for editing documents and search queries
US10496756B2 (en) Sentence creation system
KR101864361B1 (en) Method and system for providing translated result
JP2013502643A (en) Structured data translation apparatus, system and method
US11593557B2 (en) Domain-specific grammar correction system, server and method for academic text
US20220414463A1 (en) Automated troubleshooter
JP2020190970A (en) Document processing device, method therefor, and program
JP3899414B2 (en) Teacher data creation device and program, and language analysis processing device and program
KR101851786B1 (en) Apparatus and method for generating undefined label for labeling training set of chatbot
Malik et al. NLP techniques, tools, and algorithms for data science
JP6976585B2 (en) Anaphora / abbreviated analyzer and computer program
KR101916781B1 (en) Method and system for providing translated result
CN105335416B (en) Method for extracting content, contents extraction device and the system for contents extraction
CN108304367A (en) Segmenting method and device
JP4933118B2 (en) Sentence extraction device and program
Love Benchmarking the performance of Two Automated Term-extraction systems: LOGOS and ATAO
Amon Setswana grammar checker for declarative sentences using LSTM-Recurrent Neural Network
CN117828007A (en) Construction sign land immigration archive management method and system based on natural language processing

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190730

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191011

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200915

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210406

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210525

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211012

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211102

R150 Certificate of patent or registration of utility model

Ref document number: 6976585

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150