JP2006251843A - Synonym pair extracting device, and computer program therefor - Google Patents

Synonym pair extracting device, and computer program therefor Download PDF

Info

Publication number
JP2006251843A
JP2006251843A JP2005063272A JP2005063272A JP2006251843A JP 2006251843 A JP2006251843 A JP 2006251843A JP 2005063272 A JP2005063272 A JP 2005063272A JP 2005063272 A JP2005063272 A JP 2005063272A JP 2006251843 A JP2006251843 A JP 2006251843A
Authority
JP
Japan
Prior art keywords
synonym
pair
word
synonymous
synonym pair
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005063272A
Other languages
Japanese (ja)
Inventor
Mitsuo Shimohata
光夫 下畑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2005063272A priority Critical patent/JP2006251843A/en
Publication of JP2006251843A publication Critical patent/JP2006251843A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a synonym pair extracting device capable of accurately extracting a synonym pair even from few data. <P>SOLUTION: The synonym pair extracting device 32 includes a word string extracting part 52 creating synonymous expression pairs comprised of pairs of synonymous expressions included in a synonymous text from each of a plurality of synonymous texts composing a word parallel corpus 30, comparing the created synonymous expression pairs with each other, and extracting a word string pair comprised of two character strings common in each synonymous expression pair, and mutually different word strings between the two character strings as a candidate for the synonym pair, and a synonym pair filtering part 54 and a word trimming part 56 carrying out editing in accordance with predetermined rules with respect to candidates satisfying predetermined conditions from the extracted candidates for the synonym pairs, and outputting them as synonym pairs. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

この発明は、一般的には自然言語に関する機械処理をより効率的にするための技術に関し、特に、コーパスから同義語対を自動的に獲得するための技術に関する。   The present invention generally relates to a technique for making machine processing related to a natural language more efficient, and more particularly to a technique for automatically acquiring synonym pairs from a corpus.

同一の概念や事物を示す異表記の語は同義語と呼ばれる。日本語に限らずどの言語にも同義語が多数存在する。   Different notations that indicate the same concept or thing are called synonyms. There are many synonyms in any language, not just Japanese.

同義語の多様性は、語彙的情報の不一致を引起す。そのため、自然言語処理の効率が低下するという問題がある。情報検索、文書の自動要約、文書分類、機械翻訳の前処理等の自然言語処理の応用分野において、この問題は特に重要である。   The diversity of synonyms causes inconsistencies in lexical information. Therefore, there is a problem that the efficiency of natural language processing is reduced. This problem is particularly important in fields of application of natural language processing, such as information retrieval, automatic document summarization, document classification, and machine translation preprocessing.

例えば、「切符」、「キップ」、「乗車券」は同義語である。これらが同義語であることが分かれば、情報検索において検索語として「切符」が入力された場合に、「キップ」、「乗車券」を含むデータも併せて出力することができる。文書要約では、語の重要度判定において頻度を基にすることが多い。その場合に、文書データベース中における「切符」、「キップ」、及び「乗車券」の語の頻度をそれぞれ算出して別々に扱うより、これらの語は同一概念を表わすものとして合算して扱える。その結果、語の性質を正確にとらえることができる。逆に言えば、同義語が正しく判定できなければ検索漏れが発生したり、文書の分析の精度が低下したりする。   For example, “ticket”, “kip”, and “ticket” are synonymous. If it is known that these are synonyms, when “ticket” is input as a search term in the information search, data including “kip” and “passage ticket” can be output together. Document summaries are often based on frequency in determining the importance of words. In this case, rather than calculating the frequency of the words “ticket”, “kip”, and “passenger ticket” in the document database and handling them separately, these words can be combined and treated as representing the same concept. As a result, the nature of the word can be accurately captured. In other words, if the synonym cannot be determined correctly, a search omission may occur or the accuracy of document analysis may be reduced.

例えば日本語に関する同義語の自動獲得に関連する技術として、特許文献1に記載のものがある。この技術では、単言語コーパス(日本語の文のみからなるコーパス)と、既存の同義語を記憶したシソーラスとから、既知の単語と、共起関係及び係り受け関係を多く共有するという関係に基づいて、シソーラスに登録されていない単語により表される概念を推定している。
特開平11−212975号公報
For example, there is a technique described in Patent Document 1 as a technique related to automatic acquisition of synonyms relating to Japanese. This technology is based on the relationship of sharing many co-occurrence and dependency relationships with known words from a monolingual corpus (corpus consisting of only Japanese sentences) and a thesaurus that stores existing synonyms. Thus, a concept represented by a word not registered in the thesaurus is estimated.
Japanese Patent Application Laid-Open No. 11-212975

しかし、特許文献1に記載の技術では、統計的な情報を用いているため、単語概念の推定の精度を高めるためには単言語コーパスとして大量のデータが必要になる。また、大量のデータが利用できたとしても、得られる精度はそれほど高くないという問題がある。   However, since the technique described in Patent Document 1 uses statistical information, a large amount of data is required as a monolingual corpus in order to increase the accuracy of word concept estimation. In addition, even if a large amount of data can be used, there is a problem that the obtained accuracy is not so high.

それゆえに本発明の目的は、少ないデータからでも精度高く同義語対を抽出できる同義語対抽出装置を提供することを目的とする。   Therefore, an object of the present invention is to provide a synonym pair extraction apparatus that can extract synonym pairs with high accuracy even from a small amount of data.

本発明の第1の局面に係る同義語対抽出装置は、複数の同義テキストを含む機械可読な単言語パラレルコーパスから同義語対を抽出するための同義語対抽出装置であって、複数の同義テキストの各々は、互いに同じ意味を表す複数の表現を含み、複数の同義テキストの各々から、当該同義テキストに含まれる同義表現の対からなる同義表現対を作成するための同義表現対作成手段と、同義表現対作成手段により作成された同義表現対を互いに比較し、当該同義表現対に共通する二つの文字列と、当該二つの文字列に挟まれる互いに相違する単語列とからなる単語列対を、当該同義表現対を構成する二つの同義表現からそれぞれ同義語対候補として抽出するための同義語対候補抽出手段と、同義語対候補抽出手段により抽出される同義語対候補のうち、所定の条件を満たすものに対し、所定の規則に従った編集を行なって同義語対として出力するための同義語対出力手段とを含む。   A synonym pair extraction apparatus according to a first aspect of the present invention is a synonym pair extraction apparatus for extracting a synonym pair from a machine-readable monolingual parallel corpus including a plurality of synonym texts. Each of the texts includes a plurality of expressions representing the same meaning, and synonymous expression pair creating means for creating, from each of the plurality of synonymous texts, a synonym expression pair composed of a pair of synonymous expressions included in the synonymous text. The synonymous expression pairs created by the synonymous expression pair creating means are compared with each other, and a word string pair consisting of two character strings common to the synonymous expression pairs and different word strings sandwiched between the two character strings. Are extracted as synonym pair candidate extraction means from the two synonymous expressions constituting the synonym expression pair, and synonym pair candidates extracted by the synonym pair candidate extraction means Among them, for a given condition is satisfied ones, and a synonym versus output means for outputting as a synonym pairs by performing editing in accordance with a predetermined rule.

同義表現対作成手段は、同義テキストの各々から同義表現対を作成する。同義表現対は、同じ意味を表す二つの表現を含む。同義語対候補抽出手段は、同義表現対を構成する二つの同義表現に共通する二つの文字列と、これら二つの文字列に挟まれる互いに相違する単語列とからなる単語列対を二つの同義表現からそれぞれ抽出する。これらが同義表現対候補となる。同義語対出力手段は、同義表現対候補のうちで、所定の条件を満たすものに対し、所定の規則に従った編集を行なって同義語対として出力する。単言語パラレルコーパスから同義表現対を作成し、それらから同義語対を作成する。単言語パラレルコーパスは、その性格上、既に同義テキストに分割されているため、単なる単言語コーパスから同義語対を抽出する場合と比較して、少ないデータでも精度高く同義語対を抽出できる。なお、同義表現の例としては、同義文及び、同じ内容を表す二つの文章又は文書等を挙げることができる。また、上にいう「文字列」は単独の文字の場合もあるし、複数の文字からなる場合もある。同様に「単語列」は単独の単語の場合もあるし、複数の単語からなる場合もある。   The synonym expression pair creating means creates a synonym expression pair from each of the synonym texts. A synonymous expression pair includes two expressions representing the same meaning. The synonym pair candidate extraction means uses two synonyms for a word string pair consisting of two character strings common to two synonym expressions constituting a synonym expression pair and different word strings sandwiched between the two character strings. Extract from each representation. These become synonymous expression pair candidates. The synonym pair output unit performs editing according to a predetermined rule for synonym pair candidates that satisfy a predetermined condition and outputs the same as a synonym pair. A synonym pair is created from a monolingual parallel corpus, and a synonym pair is created from them. Since the monolingual parallel corpus is already divided into synonymous texts by its nature, synonym pairs can be extracted with high accuracy even with a small amount of data, compared to the case where synonym pairs are extracted from a simple monolingual corpus. Examples of synonymous expressions include synonymous sentences and two sentences or documents representing the same contents. Further, the “character string” mentioned above may be a single character or a plurality of characters. Similarly, the “word string” may be a single word or a plurality of words.

好ましくは、同義語対抽出装置は、単言語パラレルコーパスに含まれる表現の各々を構成する単語に、対応する品詞情報を付与するための品詞情報付与手段をさらに含み、同義語対候補抽出手段は、同義表現対作成手段により作成された同義表現対を構成する単語列を、各単語の品詞を含めて互いに比較し、当該同義表現対に共通する同一品詞の二つの単語と、当該二つの単語に挟まれる互いに相違する単語列とからなる単語列対を、当該同義表現対を構成する二つの同義表現からそれぞれ抽出するための手段を含む。   Preferably, the synonym pair extraction device further includes a part-of-speech information adding unit for adding a corresponding part-of-speech information to a word constituting each expression included in the monolingual parallel corpus, and the synonym pair candidate extracting unit is The word strings constituting the synonymous expression pair created by the synonymous expression pair creating means are compared with each other including the part of speech of each word, the two words of the same part of speech common to the synonymous expression pair, and the two words Means for extracting a word string pair composed of different word strings sandwiched between two from the two synonymous expressions constituting the synonymous expression pair.

品詞情報を用いて同義表現対から単語列対を抽出し、同義語対候補とする。品詞情報を用いるため、抽出の精度が高くなる。   A word string pair is extracted from a synonym pair using part-of-speech information to make a synonym pair candidate. Since the part-of-speech information is used, the extraction accuracy is increased.

さらに好ましくは、同義語対出力手段は、同義語対候補抽出手段により抽出された同義語対候補の各々に対し、互いに相違する単語列のうち、当該同義語対候補の一方に属する単語が、当該同義語対候補の他方が属する同義表現の、互いに相違する単語列以外の所定の領域に存在しないという条件が充足されているもののみを選択するための選択手段と、選択手段により選択された同義語対候補のうち、所定の編集規則により規定される条件に合致するものに対し、当該条件により指定される編集処理を実行して同義語対を出力するための編集手段とを含む。   More preferably, the synonym pair output means includes, for each of the synonym pair candidates extracted by the synonym pair candidate extraction means, a word belonging to one of the synonym pair candidates among different word strings. A selection means for selecting only a synonym expression to which the other of the synonym pair candidates belongs and that satisfies a condition that it does not exist in a predetermined region other than a word string different from each other, and selected by the selection means Editing means for executing a editing process specified by the condition for a synonym pair candidate that matches a condition defined by a predetermined editing rule, and outputting a synonym pair.

同義語対候補を構成する単語列のうち、一方に含まれる単語が他方では全く関係のない場所に出現している場合、当該同義語対候補は適切なものでない可能性が高い。それらを選択しないことにより、同義語対の作成の精度を高めることができる。   When words included in one of the word strings constituting the synonym pair candidate appear in a place that is completely unrelated on the other side, it is highly likely that the synonym pair candidate is not appropriate. By not selecting them, the accuracy of creating synonym pairs can be increased.

所定の編集規則は、所定の刈込み規則を含んでもよい。編集手段は、選択手段により選択された同義語対候補のうち、刈込み規則のいずれかにより規定される条件に合致するものに、当該刈込み規則により指定される編集処理に従い、同義語対候補の少なくとも一方の先頭又は末尾に位置する単語又は単語列を削除するための手段を含んでもよい。   The predetermined editing rule may include a predetermined pruning rule. The editing unit selects at least one of the synonym pair candidates according to the editing process specified by the pruning rule for a synonym pair candidate selected by the selecting unit that matches a condition defined by any of the pruning rules. Means for deleting a word or a word string located at one head or tail may be included.

同義語対候補のうち、共通単語は不要であることが多い。それら共通単語を適切な規則により削除することで、得られる同義語対の精度が高くなる。   Of the synonym pair candidates, a common word is often unnecessary. By deleting these common words according to appropriate rules, the accuracy of the obtained synonym pairs is increased.

好ましくは、選択手段は、同義語対候補抽出手段により抽出された同義語対候補の各々に対し、互いに相違する単語列のうち、当該同義語対候補の一方に属する単語が、当該同義語対候補の他方が属する同義表現の、互いに相違する単語列以外の領域のいずれにも存在しないという条件が充足されているものを選択するための手段を含む。   Preferably, the selection unit is configured such that, for each of the synonym pair candidates extracted by the synonym pair candidate extraction unit, a word belonging to one of the synonym pair candidates is different from the synonym pair candidate. Means for selecting a synonymous expression to which the other candidate belongs and that satisfies the condition that it does not exist in any region other than different word strings.

互いに相違する単語列のうち、同義語対候補の一方に属する単語が、他方の属する同義表現の、互いに相違する単語列以外の領域にある場合、この同義語対候補は適切なものではない可能性が高い。従ってそうした候補を除外することで、同義語対作成の精度を高めることができる。   Of the different word strings, if a word belonging to one of the synonym pair candidates is in an area other than the different word strings of the other synonym expression, this synonym pair candidate may not be appropriate High nature. Therefore, the accuracy of creating synonym pairs can be increased by excluding such candidates.

より好ましくは、選択手段は、同義語対候補抽出手段により抽出された同義語対候補の各々に対し、互いに相違する単語列のうち、当該同義語対候補の一方に属する単語が、当該同義語対候補の他方が属する同義表現の、互いに相違する単語列の前後に隣接する所定長の領域のいずれにも存在しないという条件が充足されているもののみを選択するための手段を含む。   More preferably, the selection unit is configured such that, for each of the synonym pair candidates extracted by the synonym pair candidate extraction unit, a word belonging to one of the synonym pair candidates is different from the synonym pair candidate. Means for selecting only a synonymous expression to which the other of the pair candidates belongs and satisfying a condition that it does not exist in any of the adjacent regions of a predetermined length before and after different word strings.

互いに相違する単語列のうち、同義語対候補の一方に属する単語が、他方の属する同義表現の、互いに相違する単語列以外の領域にある場合、この同義語対候補は適切なものではない可能性が高い。従ってそうした候補を除外することで、同義語対作成の精度を高めることができる。ただしこの場合、互いに相違する単語列以外の領域が広いと、上記した条件が充足されなくなることが多くなる。そのため、対象領域をその単語列に隣接する所定長の領域に限定することで、精度を高くすることができる。   Of the different word strings, if a word belonging to one of the synonym pair candidates is in an area other than the different word strings of the other synonym expression, this synonym pair candidate may not be appropriate High nature. Therefore, the accuracy of creating synonym pairs can be increased by excluding such candidates. However, in this case, if the area other than the word strings that are different from each other is wide, the above-mentioned condition is often not satisfied. Therefore, accuracy can be increased by limiting the target region to a predetermined length region adjacent to the word string.

本発明の第2の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを上記したいずれかの同義語対抽出装置として動作させる。   When the computer program according to the second aspect of the present invention is executed by a computer, it causes the computer to operate as any of the above synonym pair extraction devices.

従ってこのコンピュータプログラムにより、上記したいずれかの同義語対抽出装置と同様の効果を奏することができる。   Therefore, this computer program can achieve the same effects as any of the above synonym pair extraction devices.

<第1の実施の形態>
[構成]
図1に、本発明の第1の実施の形態に係る同義表現抽出装置32のブロック図を示す。この同義表現抽出装置32は、形態素解析用辞書34及び後述する単語刈込み処理に用いられる単語刈込み用規則群36を用い、英語の単言語パラレルコーパス30から英語の同義表現(同義語)を抽出し、記憶装置38に蓄積する機能を持つ。
<First Embodiment>
[Constitution]
FIG. 1 shows a block diagram of the synonymous expression extraction apparatus 32 according to the first embodiment of the present invention. The synonym expression extraction device 32 extracts an English synonym expression (synonym) from an English monolingual parallel corpus 30 using a morphological analysis dictionary 34 and a word pruning rule group 36 used for word pruning processing to be described later. And has a function of storing in the storage device 38.

同義表現抽出装置32の構成については後に説明することとし、まず単言語パラレルコーパス30の構成について説明する。図2を参照して、単言語パラレルコーパス30は、複数の同義テキスト70,72,74,76,…,80を含む。各同義テキストは、同じ内容を記述した、互いに異なる複数のテキストからなる。   The configuration of the synonym expression extraction device 32 will be described later. First, the configuration of the monolingual parallel corpus 30 will be described. Referring to FIG. 2, the monolingual parallel corpus 30 includes a plurality of synonymous texts 70, 72, 74, 76,. Each synonymous text consists of a plurality of different texts describing the same content.

すなわち、単言語パラレルコーパスは複数の同義テキストを含み、各同義テキストは2以上の同義文を含むような構成を持つもののことをいう。なお、ここでは「同義文」と呼んでいるが、後述する第2の実施の形態で対象とされているように、文章又は文書等、複数の文を含む文法的単位でもよい。要するに、単言語パラレルコーパスとは、一つの言語の文又は文章などの文法的な単位を構成する表現であって、意味的なまとまりのあるものを多数集め、同じ意味を表すグループに分類したものである。単言語パラレルコーパスは、機械可読となるように準備する必要がある。   In other words, the monolingual parallel corpus includes a plurality of synonymous texts, and each synonymous text has a configuration including two or more synonymous sentences. In addition, although it is called a “synonymous sentence” here, it may be a grammatical unit including a plurality of sentences, such as sentences or documents, as targeted in the second embodiment described later. In short, a monolingual parallel corpus is an expression that constitutes a grammatical unit, such as a sentence or sentence in one language, and a large number of semantically organized pieces are collected and grouped into groups that represent the same meaning. It is. The monolingual parallel corpus needs to be prepared to be machine readable.

図3に、英語の同義テキストの例を示す。図3に示す同義テキスト90は、3つの文からなる。図3に示すこれら3つの文は、表現は異なるがその意味する内容は同じである。図2に示す同義テキスト70,72,74,76,…,80は、いずれも図3に示す同義テキスト90と同様、同じ内容を表す複数の文を含む。   FIG. 3 shows an example of English synonymous text. The synonymous text 90 shown in FIG. 3 consists of three sentences. These three sentences shown in FIG. 3 are different in expression but have the same meaning. The synonymous texts 70, 72, 74, 76,..., 80 shown in FIG. 2 each include a plurality of sentences that represent the same content as the synonymous text 90 shown in FIG.

単言語パラレルコーパス30自体は、人手によって作成してもよいし、何らかの形で機械的に作成してもよい。例えば同じ内容を記述した複数の新聞の記事などから単言語パラレルコーパスを作成するようにしてもよい。単言語パラレルコーパス30では、文が予め同義テキストに分類されていることになる。二つの同義文の間で、互いに相違する部分があれば、それが同義表現である可能性は高く、かつそうした部分は比較的容易に特定できる。従って、単言語パラレルコーパス30に含まれる文の数が少なくても、比較的多くの同義語対を獲得することができる。   The monolingual parallel corpus 30 itself may be created manually or mechanically in some form. For example, a monolingual parallel corpus may be created from a plurality of newspaper articles describing the same content. In the monolingual parallel corpus 30, sentences are classified in advance as synonymous texts. If there are different parts between two synonyms, it is highly likely that they are synonymous expressions, and such parts can be identified relatively easily. Therefore, even if the number of sentences included in the monolingual parallel corpus 30 is small, a relatively large number of synonym pairs can be acquired.

再び図1を参照して、同義表現抽出装置32は、単言語パラレルコーパス30に含まれる各文に対し、形態素解析用辞書34を用いて形態素解析し、品詞に関する情報が付与された形態素列(単語列)を出力するための形態素解析処理部50と、形態素解析処理部50から出力される、同一の同義テキストに含まれる二つの文から得られた形態素列の間で互いに相違する部分を構成する複数の単語列を、その前後の単語も含んだ形の同義語対候補として抽出するための単語列抽出部52と、単語列抽出部52が出力する同義語対候補のうち、所定の条件を充足するもののみを選択し、出力する処理を行なうための同義語対フィルタリング部54と、同義語対フィルタリング部54により出力された複数の同義語対候補の各々に対し、単語刈込み用規則群36に記憶された単語刈込み用の規則の条件に合致するものについて、当該規則により規定される刈込み用の編集規則に従い、同義語対候補のうちの共通単語又は単語列を削除する刈込み処理を行なって記憶装置38に蓄積する処理を行なうための単語刈込み部56とを含む。   Referring again to FIG. 1, the synonym expression extraction device 32 performs morphological analysis on each sentence included in the monolingual parallel corpus 30 using the morphological analysis dictionary 34, and provides a morpheme string to which information on parts of speech is given ( A morpheme analysis processing unit 50 for outputting a word string), and a morpheme sequence obtained from two sentences included in the same synonym text output from the morpheme analysis processing unit 50. A word string extraction unit 52 for extracting a plurality of word strings as synonym pair candidates including the preceding and following words, and a predetermined condition among the synonym pair candidates output by the word string extraction unit 52 For each of a plurality of synonym pair candidates output by the synonym pair filtering unit 54 and the synonym pair filtering unit 54 for selecting and outputting only those satisfying Pruning that deletes a common word or word string from synonym pair candidates according to the pruning editing rule defined by the rule for those that match the conditions of the pruning rule stored in the rule group 36 A word trimming unit 56 for performing processing and performing processing to be stored in the storage device 38.

以下、同義表現抽出装置32を構成する各機能ブロックについて説明する。   Hereinafter, each functional block constituting the synonym expression extracting device 32 will be described.

形態素解析処理部50は、形態素解析用辞書34を用いて単言語パラレルコーパス30に含まれる各文を形態素解析し、それぞれ品詞情報等が付された単語列の形で出力する機能を持つ。形態素解析自体は周知の技術であり、容易に入手できるプログラムにより実現することができる。   The morpheme analysis processing unit 50 has a function of performing morphological analysis on each sentence included in the monolingual parallel corpus 30 using the morpheme analysis dictionary 34 and outputting each sentence in the form of a word string to which part-of-speech information is attached. Morphological analysis itself is a well-known technique and can be realized by a readily available program.

単語列抽出部52は、形態素解析処理部50が出力する同義テキストに含まれる二つの文の単語列を互いに比較し、相互に異なる部分を、その前後の単語を含めて同義語対候補として抽出する機能を持つ。図4にそのブロック図を示す。   The word string extraction unit 52 compares the word strings of two sentences included in the synonymous text output by the morphological analysis processing unit 50 and extracts different parts as synonym pair candidates including the preceding and following words. It has a function to do. The block diagram is shown in FIG.

図4を参照して、この単語列抽出部52は、形態素解析処理部50から与えられる各同義テキストの単語列を同義テキストごとに記憶するための単語列記憶部100と、単語列記憶部100に記憶された各同義テキストから同義文を二つずつ選択し、同義文対として出力するための同義文対作成部102と、同義文対作成部102により作成された同義文対を記憶するための同義文対記憶部104と、同義文対記憶部104に記憶された同義文対の各々に対し、当該同義文対を構成する二つの単語列を比較し、後述の3種類の条件を全て満たす単語列対を抽出するための単語列比較部106と、単語列比較部106により抽出された単語列対を同義語対候補として記憶するための同義語対候補記憶部108とを含む。   Referring to FIG. 4, this word string extraction unit 52 includes a word string storage unit 100 for storing a word string of each synonymous text given from the morphological analysis processing unit 50 for each synonymous text, and a word string storage unit 100. To select two synonym sentences from the synonym texts stored in, and to output synonym sentence pair creation unit 102 for outputting as synonym sentence pairs, and to store synonym sentence pairs created by synonym sentence pair creation unit 102 For each of the synonym sentence pair storage unit 104 and the synonym sentence pair stored in the synonym sentence pair storage unit 104, the two word strings constituting the synonym sentence pair are compared, and all of the following three types of conditions are compared. It includes a word string comparison unit 106 for extracting a word string pair that satisfies, and a synonym pair candidate storage unit 108 for storing the word string pair extracted by the word string comparison unit 106 as a synonym pair candidate.

同義文対作成部102が行なう同義文対作成について図5を参照して説明する。図5を参照して、例えば同義テキスト90は3つの文を形成する単語列(a)(b)及び(c)を含む。同義文対作成部102は、これら3つの単語列の間で可能な対を全て作成する。図5に示す例では、単語列(a)及び(b)からなる同義文対122、単語列(a)及び(c)からなる同義文対124、並びに単語列(b)及び(c)からなる同義文対126からなる同義文対グループ120が作成される。この処理は単純な順列・組合せの処理である。   The synonym sentence pair creation performed by the synonym sentence pair creation unit 102 will be described with reference to FIG. Referring to FIG. 5, for example, synonymous text 90 includes word strings (a), (b), and (c) that form three sentences. The synonym sentence pair creation unit 102 creates all possible pairs between these three word strings. In the example shown in FIG. 5, the synonym sentence pair 122 consisting of the word strings (a) and (b), the synonym sentence pair 124 consisting of the word strings (a) and (c), and the word strings (b) and (c). A synonym sentence pair group 120 composed of synonym sentence pairs 126 is created. This process is a simple permutation / combination process.

単語列比較部106は、同義文対の各々に対し、同義文対に含まれる同義文同士を互いに比較し、以下の3つの条件を全て充足する、互いに異なる単語列対を、その前後の単語も含めて同義語対候補として抽出する。   For each synonym sentence pair, the word string comparison unit 106 compares synonym sentences included in the synonym sentence pair with each other, and sets different word string pairs that satisfy all of the following three conditions to the preceding and following words. Are extracted as synonym pair candidates.

単語列比較部106が調べる条件は以下の3つである。   The following three conditions are checked by the word string comparison unit 106.

(1)単語列対の前に存在する単語が互いに等しく、
(2)単語列対の後に存在する単語が互いに等しく、かつ
(3)単語列対の品詞に関する所定の条件を満たす。
(1) The words existing before the word string pair are equal to each other,
(2) The words existing after the word string pair are equal to each other, and (3) a predetermined condition regarding the part of speech of the word string pair is satisfied.

なお、3番目の「品詞に関する所定の条件」とは、「すべて名詞から構成される単語列」又は「動詞1語からなる単語(列)」等、同義語対として収集する対象にあわせて様々に設定される条件のことをいう。   The third “predetermined condition for part of speech” varies depending on the target to be collected as a synonym pair, such as “a word string composed of all nouns” or “a word (sequence) composed of one verb”. It means the condition set in.

また、上記した条件(1)(2)により互いに等しいと判定された単語を共通単語と呼ぶ。   In addition, words determined to be equal to each other according to the above conditions (1) and (2) are referred to as common words.

図6は、単語列比較部106による同義語対候補の抽出を示す。図6を参照して、例えば同義文対122を互いに比較すると、上記した条件を満たす単語列対は2個存在する。その一つが単語列対132であり、他の一つが単語列対134である。例えば単語列対132の場合、同義文対122の二つの単語列のうち、「is」が互いに等しく、「that」も互いに等しい。そして、その間の単語(列)「supposed」と「expected」とは互いに異なっている。従って単語列「is−supposed−that」と「is−expected−that」とが同義語対候補として抽出される。同義語対候補134についても同様である。   FIG. 6 shows extraction of synonym pair candidates by the word string comparison unit 106. Referring to FIG. 6, for example, when synonymous sentence pairs 122 are compared with each other, there are two word string pairs that satisfy the above-described conditions. One of them is the word string pair 132 and the other is the word string pair 134. For example, in the case of the word string pair 132, among the two word strings of the synonym sentence pair 122, “is” is equal to each other, and “that” is also equal to each other. The words (sequences) “supposed” and “expected” in the meantime are different from each other. Therefore, the word strings “is-supposed-that” and “is-expected-that” are extracted as synonym pair candidates. The same applies to the synonym pair candidate 134.

以下に、図1に示す同義語対フィルタリング部54の機能について説明する。同義語対フィルタリング部54は、同義語対候補のうち、「同義語対候補の一方の単語列の中にある単語が、他方の単語列の外のいずれの領域にも存在しない」ようなもののみを選択する。例を図7に示す。   The function of the synonym pair filtering unit 54 shown in FIG. 1 will be described below. The synonym pair filtering unit 54 is such that “a word in one word string of the synonym pair candidates does not exist in any region outside the other word string” among the synonym pair candidates. Select only. An example is shown in FIG.

図7を参照して、同義語対候補150の共通単語は「REPORT」と「YUAN」とである。この二つの単語を先頭及び末尾とする同義語対候補の単語列を図7では大文字で示してある。相違部分は矩形152及び154で示している。これらをそれぞれ「相違部分152」及び「相違部分154」と呼ぶ。   Referring to FIG. 7, common words of synonym pair candidates 150 are “REPORT” and “YUAN”. A word string of synonym pair candidates having these two words at the beginning and the end is shown in capital letters in FIG. Differences are indicated by rectangles 152 and 154. These are respectively referred to as “difference portion 152” and “difference portion 154”.

相違部分152に含まれる二つの単語160(「VOICE」)と単語162(「AMERICA」)とは、他方の相違部分154には含まれておらず、その外部の単語170及び172として存在している。従ってこの同義語対候補150は同義語対フィルタリング部54により削除される。同義語対フィルタリング部54は、上記した条件を満たすもののみを選択し、単語刈込み部56に与える機能を持つ。   The two words 160 (“VOICE”) and the word 162 (“AMERICA”) included in the difference 152 are not included in the other difference 154 and exist as the external words 170 and 172. Yes. Therefore, the synonym pair candidate 150 is deleted by the synonym pair filtering unit 54. The synonym pair filtering unit 54 has a function of selecting only those satisfying the above conditions and giving them to the word pruning unit 56.

最後に、図1に示す単語刈込み部56は、単語刈込み用規則群36に記憶された規則を用いて、同義語対フィルタリング部54により選択された同義語対候補の各々に対し、その前後の単語列を刈込む処理を行なう。二つの単語列から抽出された同義語対候補に含まれる共通単語には、同義語として不要なものが含まれることが多い。従って、単語刈込み部56は各単語の品詞に基づいて、それら不要な語を削除する(刈込む)。   Finally, the word pruning unit 56 shown in FIG. 1 uses the rules stored in the word pruning rule group 36 for each of the synonym pair candidates selected by the synonym pair filtering unit 54. Process to trim the word string. Common words included in synonym pair candidates extracted from two word strings often include unnecessary words as synonyms. Therefore, the word trimming unit 56 deletes (prunes) those unnecessary words based on the part of speech of each word.

単語刈込み用規則群36に含まれる規則の例は以下の通りである。   Examples of rules included in the word trimming rule group 36 are as follows.

(1)共通単語は一律除外する、
(2)共通単語のうち、共通単語以外の単語と一致しない品詞の共通単語は除外する、又は
(3)他の単語列対の一部分となる単語列対は除外する。
(1) Common words are excluded uniformly.
(2) Among common words, exclude common words with parts of speech that do not match words other than common words, or (3) exclude word string pairs that are part of other word string pairs.

これら規則の内、処理の目的を考えて適切と思われる1または複数の規則の組合せを採用する。また、これら規則は、いずれも「条件→処理」という形で機械可読な形式で準備される。単語刈込み部56は、与えられた単語列が規則の左辺の条件に合致するか否かを判定し、合致する場合に規則の右辺の処理をその単語列に適用する。   Among these rules, a combination of one or a plurality of rules that are considered appropriate in consideration of the purpose of processing is adopted. These rules are prepared in a machine-readable form in the form of “condition → processing”. The word trimming unit 56 determines whether or not the given word string matches the condition on the left side of the rule, and applies the process on the right side of the rule to the word string if it matches.

図8に、上記した単語の刈込みの例を示す。図8に示す例240は、上の規則(2)に従って刈込みを行なう例である。例えば単語列「the statement said」と「the announcement said」とが同義語対候補であるものとする。この場合、「statement」と「announcement」とが相違部分であり、その品詞は名詞である。従って、同義語対候補に含まれる共通単語のうち、名詞以外のものを除外する。その結果、「the」と「said」との双方が除外され、「statement」と「announcement」とが同義語対候補として残される。   FIG. 8 shows an example of the above-described word trimming. An example 240 shown in FIG. 8 is an example in which pruning is performed according to the above rule (2). For example, it is assumed that the word strings “the statement aid” and “the announcement aid” are synonym pair candidates. In this case, “statement” and “announcement” are different parts, and the part of speech is a noun. Accordingly, common words included in the synonym pair candidates other than nouns are excluded. As a result, both “the” and “said” are excluded, and “statement” and “announcement” are left as synonym pair candidates.

例240のもう一つの同義語対候補についても同様で、「The Yemeni government」と「The Yemen government」とにおいて、相違部分である「Yemeni」と「Yemen」との品詞は形容詞及び名詞である。従ってこれらのいずれとも品詞が一致しない「The」は除外され、名詞である「government」は残される。   The same applies to the other synonym pair candidates in Example 240, and the parts of speech of “Yemeni” and “Yemen” that are the differences in “The Yemeni governance” and “The Yemeni governance” are adjectives and nouns. Therefore, “The” whose part of speech does not match any of these is excluded, and the noun “government” is left.

例242は、上記した規則(3)に合致するものを示す。例えば、一つの単語列対から二つの同義語対候補「Building Materials=Construction Material」と「Building Materials Industry=Construction Material Industry」とが抽出されたものとする。このうち前者の単語列は、いずれも後者の単語列に含まれている。従って上記した規則(3)に従い、前者は除外され後者のみ残される。   Example 242 shows what meets rule (3) above. For example, it is assumed that two synonym pair candidates “Building Materials = Construction Material” and “Building Materials Industry = Construction Material Industry” are extracted from one word string pair. Of these, the former word string is included in the latter word string. Therefore, according to the above rule (3), the former is excluded and only the latter is left.

[動作]
以上に構成を説明した同義表現抽出装置32は以下のように動作する。図1を参照して、まず、単言語パラレルコーパス30が予め人手または何らかの機械処理により準備される。形態素解析用辞書34についても、形態素解析処理部50の要求するフォーマットに従い、予め準備される。単語刈込み用規則群36についても、予め使用者がその目的に応じて所定の書式で準備する。
[Operation]
The synonymous expression extraction device 32 whose configuration has been described above operates as follows. Referring to FIG. 1, first, a monolingual parallel corpus 30 is prepared in advance by hand or some machine processing. The morphological analysis dictionary 34 is also prepared in advance according to the format requested by the morphological analysis processing unit 50. The word trimming rule group 36 is also prepared in advance in a predetermined format according to the purpose by the user.

同義表現抽出装置32の形態素解析処理部50は、単言語パラレルコーパス30に含まれる各同義テキスト内の各文を形態素解析用辞書34を参照して形態素解析し、各単語に品詞情報を付加する。この結果得られた単語列は同義テキストごとに単語列抽出部52の単語列記憶部100(図4を参照されたい。)に蓄積される。   The morphological analysis processing unit 50 of the synonym expression extracting device 32 performs morphological analysis on each sentence in each synonymous text included in the monolingual parallel corpus 30 with reference to the morphological analysis dictionary 34 and adds part-of-speech information to each word. . The word string obtained as a result is accumulated in the word string storage unit 100 (see FIG. 4) of the word string extraction unit 52 for each synonymous text.

同義文対作成部102は、各同義テキストから同義文対を作成し、同義文対記憶部104に与える。   The synonym sentence pair creation unit 102 creates a synonym sentence pair from each synonym text and gives the synonym sentence pair storage unit 104.

単語列比較部106は、同義文対記憶部104に記憶された同義文対の各々を読出し、その単語列を比較することで同義語対候補となる単語列対を同義文対から抽出し、同義語対候補記憶部108に蓄積する。   The word string comparison unit 106 reads each of the synonym sentence pairs stored in the synonym sentence pair storage unit 104, and extracts a word string pair as a synonym pair candidate from the synonym sentence pair by comparing the word strings. Accumulated in the synonym pair candidate storage unit 108.

図1を参照して、同義語対フィルタリング部54は、単語列抽出部52の同義語対候補記憶部108に記憶された同義語対候補を読出し、既に述べたようにそれらのうち「同義語対候補の一方の単語列の中にある単語が、他方の単語列の外のいずれの領域にもに存在しない」ようなもののみを選択して単語刈込み部56に与える。   Referring to FIG. 1, synonym pair filtering unit 54 reads the synonym pair candidates stored in synonym pair candidate storage unit 108 of word string extraction unit 52, and as described above, “synonym pair” Only words that are not present in any region outside the other word string are selected and given to the word trimming unit 56.

単語刈込み部56は、同義語対フィルタリング部54から与えられる同義語対候補と単語刈込み用規則群36に含まれる規則の条件とを照合し、条件に合致する同義語対候補に対し、規則に規定されている単語刈込みの処理を適用する。単語刈込み部56は、単語刈込み処理後の同義語対候補を同義語対として記憶装置38に蓄積する。   The word trimming unit 56 collates the synonym pair candidates given from the synonym pair filtering unit 54 with the conditions of the rules included in the word trimming rule group 36, and sets the rules for the synonym pair candidates that match the conditions. Apply the specified word trimming process. The word trimming unit 56 accumulates the synonym pair candidates after the word trimming process in the storage device 38 as synonym pairs.

こうして、単言語パラレルコーパス30に含まれる全ての同義テキストに対する処理が終了すると、記憶装置38には多数の同義語対が記憶されている。   Thus, when processing for all synonymous texts included in the monolingual parallel corpus 30 is completed, a large number of synonym pairs are stored in the storage device 38.

以上のようにこの第1の実施の形態に係る同義表現抽出装置32によれば、単言語パラレルコーパス30から同義語対を多数抽出することができる。単言語パラレルコーパス30に含まれる同義語対の数が比較的少なくても、同義語対を精度良く多数抽出することができる。   As described above, according to the synonym expression extracting device 32 according to the first embodiment, a large number of synonym pairs can be extracted from the monolingual parallel corpus 30. Even if the number of synonym pairs included in the monolingual parallel corpus 30 is relatively small, a large number of synonym pairs can be extracted with high accuracy.

[コンピュータによる実現]
この実施の形態の同義表現抽出装置32(及びその部品である機能ブロック)は、コンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムと、コンピュータハードウェアに格納されるデータとにより実現される。図9はこのコンピュータシステム330の外観を示し、図10はコンピュータシステム330の内部構成を示す。
[Realization by computer]
The synonym expression extraction device 32 (and functional blocks that are parts thereof) of this embodiment is realized by computer hardware, a program executed by the computer hardware, and data stored in the computer hardware. . FIG. 9 shows the external appearance of the computer system 330, and FIG. 10 shows the internal configuration of the computer system 330.

図9を参照して、このコンピュータシステム330は、FD(フレキシブルディスク)ドライブ352及びCD−ROM(コンパクトディスク読出専用メモリ)ドライブ350を有するコンピュータ340と、キーボード346と、マウス348と、モニタ342とを含む。   Referring to FIG. 9, the computer system 330 includes a computer 340 having an FD (flexible disk) drive 352 and a CD-ROM (compact disk read only memory) drive 350, a keyboard 346, a mouse 348, and a monitor 342. including.

図10を参照して、コンピュータ340は、FDドライブ352及びCD−ROMドライブ350に加えて、CPU(中央処理装置)356と、CPU356、FDドライブ352及びCD−ROMドライブ350に接続されたバス366と、ブートアッププログラム等を記憶する読出専用メモリ(ROM)358と、バス366に接続され、プログラム命令、システムプログラム、及び作業データ等を記憶するランダムアクセスメモリ(RAM)360とを含む。コンピュータシステム330はさらに、プリンタ344を含んでいる。   10, in addition to the FD drive 352 and the CD-ROM drive 350, the computer 340 includes a CPU (central processing unit) 356 and a bus 366 connected to the CPU 356, the FD drive 352, and the CD-ROM drive 350. And a read only memory (ROM) 358 for storing a boot-up program and the like, and a random access memory (RAM) 360 connected to the bus 366 for storing a program command, a system program, work data, and the like. Computer system 330 further includes a printer 344.

ここでは示さないが、コンピュータ340はさらにローカルエリアネットワーク(LAN)への接続を提供するネットワークアダプタボードを含んでもよい。   Although not shown here, the computer 340 may further include a network adapter board that provides a connection to a local area network (LAN).

コンピュータシステム330に同義表現抽出装置32としての動作を行なわせるためのコンピュータプログラムは、CD−ROMドライブ350またはFDドライブ352に挿入されるCD−ROM362またはFD364に記憶され、さらにハードディスク354に転送される。または、プログラムは図示しないネットワークを通じてコンピュータ340に送信されハードディスク354に記憶されてもよい。プログラムは実行の際にRAM360にロードされる。CD−ROM362から、FD364から、またはネットワークを介して、直接にRAM360にプログラムをロードしてもよい。   A computer program for causing the computer system 330 to operate as the synonymous expression extracting device 32 is stored in the CD-ROM 362 or FD 364 inserted in the CD-ROM drive 350 or FD drive 352 and further transferred to the hard disk 354. . Alternatively, the program may be transmitted to the computer 340 through a network (not shown) and stored in the hard disk 354. The program is loaded into the RAM 360 when executed. The program may be loaded directly into the RAM 360 from the CD-ROM 362, from the FD 364, or via a network.

このプログラムは、コンピュータ340にこの実施の形態の同義表現抽出装置32として動作を行なわせる複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ340上で動作するオペレーティングシステム(OS)またはサードパーティのプログラム、もしくはコンピュータ340にインストールされる各種ツールキットのモジュールにより提供される。従って、このプログラムはこの実施の形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能または「ツール」を呼出すことにより、上記した同義表現抽出装置32としての動作を実行する命令のみを含んでいればよい。コンピュータシステム330の動作は周知であるので、ここでは繰返さない。   This program includes a plurality of instructions that cause the computer 340 to operate as the synonymous expression extraction device 32 of this embodiment. Some of the basic functions required to perform this operation are provided by operating system (OS) or third party programs running on the computer 340 or various toolkit modules installed on the computer 340. Therefore, this program does not necessarily include all functions necessary to realize the system and method of this embodiment. This program includes only instructions that execute the operation as the above-described synonymous expression extraction device 32 by calling an appropriate function or “tool” in a controlled manner so as to obtain a desired result. Just go out. The operation of computer system 330 is well known and will not be repeated here.

<第2の実施の形態>
上記した第1の実施の形態では、同義文を単位として単言語パラレルコーパス30を構築し、同義テキストごとに上記した同義語対を抽出している。しかし本発明はそのような実施の形態には限定されない。例えば、処理単位を文でなく文書とすることもできる。「同義文書」とはこの場合、例えば同じ題材に対する複数種類の新聞社又は通信社により配信された記事とか、同じ文献を複数の翻訳者が翻訳した文書の各段落とか、文よりも長い単位で互いにほぼ同じ内容を表していると考えられる文書対(文書グループ)のことをいう。
<Second Embodiment>
In the first embodiment described above, the monolingual parallel corpus 30 is constructed with synonym sentences as units, and the above synonym pairs are extracted for each synonym text. However, the present invention is not limited to such an embodiment. For example, the processing unit can be a document instead of a sentence. In this case, “synonymous documents” means, for example, articles distributed by multiple types of newspapers or news agencies on the same subject, paragraphs of documents translated by the same translator, or longer units than sentences. A document pair (document group) that is considered to represent almost the same content.

この場合、単言語パラレルコーパス30には複数の同義文書グループを格納し、同義文書グループごとに、上記第1の実施の形態で行なったのと同様の処理を行なえばよい。ただし、文単位の場合と比較して、文書単位で上記処理を行なう場合には、単語列を比較する際の対象範囲が広くなる。その結果、例えば図1に示す同義語対フィルタリング部54の処理を行なう際には、第1の実施の形態の際に使用した「同義語対候補のうち、『同義語対候補の一方の単語列の中にある単語が、他方の単語列の外のいずれの領域にも存在しない』もののみを選択する」という条件を満たさない場合が多くなるおそれがある。その場合、適切な同義語対を多数抽出することは困難となる。   In this case, a plurality of synonymous document groups may be stored in the monolingual parallel corpus 30 and the same processing as that performed in the first embodiment may be performed for each synonymous document group. However, when the above processing is performed in document units, the target range when comparing word strings is wider than in sentence units. As a result, for example, when the processing of the synonym pair filtering unit 54 shown in FIG. 1 is performed, “one of synonym pair candidates among“ synonym pair candidates ”used in the first embodiment. There is a possibility that the word “in the row does not exist in any area outside the other word row” and the condition of “select only those” is not satisfied. In that case, it is difficult to extract many appropriate synonym pairs.

そこで、この第2の実施の形態では、同義語対フィルタリング部54で行なわれるフィルタリング処理の条件に代えて、抽出された同義語対候補の前後の所定数の単語のみを対象として、「同義語対候補の一方の単語列の中にある単語が、他方の単語列の外に存在しない」という条件を適用する。すなわち、同義語対候補のうち、「同義語対候補の一方の単語列の中の相違部分にある単語が、他方の単語列に隣接する、その前後N単語の範囲内でかつ他方の単語列の外となる位置に存在しない」という条件を用いる。この条件を図11を参照して説明する。   Therefore, in the second embodiment, instead of the filtering process condition performed by the synonym pair filtering unit 54, only a predetermined number of words before and after the extracted synonym pair candidates are targeted. The condition that a word in one word string of the pair candidate does not exist outside the other word string is applied. That is, among the synonym pair candidates, “a word in a different part in one word string of the synonym pair candidates is adjacent to the other word string, and within the range of N words before and after the word string, and the other word string Is not present at a position outside of "." This condition will be described with reference to FIG.

図11を参照して、同義文書対として文書400と402とが選ばれたものとする。この二つの文書の単語列を比較することにより、文書400内の単語列410と、文書402の単語列412とが同義語対候補として抽出されたものとする。   Referring to FIG. 11, it is assumed that documents 400 and 402 are selected as a synonymous document pair. It is assumed that the word string 410 in the document 400 and the word string 412 in the document 402 are extracted as synonym pair candidates by comparing the word strings of the two documents.

この場合、単語列410の前後のN個の単語を含む範囲420及び422と、単語列412の前後のN個の単語を含む範囲430及び432とを考える。本実施の形態では、一方の単語列(例えば単語列410)内の単語が、他方(単語列412)の外であって、かつ単語列412の前後のN個の範囲430又は432内に存在する場合には、この単語列410及び412からなる同義語対候補は採用しない。それ以外の場合のみ、この同義語対候補を採用する。   In this case, the ranges 420 and 422 including N words before and after the word string 410 and the ranges 430 and 432 including N words before and after the word string 412 are considered. In the present embodiment, a word in one word string (for example, word string 410) is outside the other (word string 412) and exists in N ranges 430 or 432 before and after word string 412. In this case, the synonym pair candidate consisting of the word strings 410 and 412 is not adopted. Only in other cases, this synonym pair candidate is adopted.

こうした規則を採用して同義語対フィルタリングを行なうことにより、比較対象を文から文書単位に拡張した場合にも、実施の形態1と同様の精度で多数の同義語対を抽出できる。文書単位で同義文書グループを作成することは、ネットワークで収集する資源を用いて比較的容易に機械処理により実現できる。従って、第1の実施の形態の場合と比較して単言語パラレルコーパス30を準備する手間が少なくなるという効果を奏する。   By adopting such rules and performing synonym pair filtering, even when the comparison target is expanded from a sentence to a document unit, a large number of synonym pairs can be extracted with the same accuracy as in the first embodiment. Creating a synonymous document group in document units can be realized by machine processing relatively easily using resources collected in a network. Therefore, compared with the case of the first embodiment, there is an effect that the trouble of preparing the monolingual parallel corpus 30 is reduced.

なお、この実施の形態では、単語列の比較を行なう領域を、同義語対を構成する単語列の前後N語の範囲という形で限定した。しかし本発明では、この限定は所定長という形で決定可能であればよい。この場合の所定長としては、例えば同義語対候補の先頭から文頭(又は末尾から文末)までの語数の例えば50%という形で決定しても良いし、対象領域の長さを前後で変えても良い。また所定長というときの長さの単位は、必ずしも単なる単語数には限らず、内容語の語数等という形で限定してもよい。   In this embodiment, the region where word strings are compared is limited in the form of a range of N words before and after the word strings constituting the synonym pair. However, in the present invention, this limitation may be determined in the form of a predetermined length. The predetermined length in this case may be determined, for example, in the form of 50% of the number of words from the beginning of the synonym pair candidate to the beginning of the sentence (or from the end to the end of the sentence), or the length of the target region may be changed before and after Also good. Further, the unit of length when the predetermined length is used is not necessarily limited to the number of words, but may be limited in the form of the number of content words.

<変形例>
上記した第1及び第2の実施の形態は、いずれも英語を対象としている。しかし本発明が適用可能な言語は英語に限定されるわけではない。どのような言語でもよい。例えば日本語又は韓国語のような膠着語でもよいし、インド・ヨーロッパ語などに代表される屈折語でもよいし、中国語に代表される孤立語でもよい。
<Modification>
Both the first and second embodiments described above are directed to English. However, the language to which the present invention is applicable is not limited to English. Any language is acceptable. For example, a sticky language such as Japanese or Korean, a refraction word represented by Indo-European language, or an isolated word represented by Chinese may be used.

また、上記実施の形態では、同義文対の間の共通単語と、共通単語により挟まれた相違部分の単語列とから同義語対候補を抽出している。しかし本発明はそのような実施の形態には限定されない。構文解析をし、その結果得られた係受け関係を用いて同義語対候補を抽出するようにしてもよい。   Moreover, in the said embodiment, a synonym pair candidate is extracted from the common word between synonym sentence pairs, and the word string of the difference part pinched | interposed by the common word. However, the present invention is not limited to such an embodiment. It is also possible to perform syntactic analysis and extract synonym pair candidates using the dependency relationship obtained as a result.

また、上記第1の実施の形態では、図1に示すように同義語対フィルタリング部54による処理の後、単語刈込み部56による単語刈込みを行なっている。しかし、同義語対フィルタリングと単語刈込みとを行なう順序はこの順序には限定されない。これらを逆の順序で行なうようにしてもよい。さらに、上記した実施の形態では、図1に示す形態素解析処理部50による形態素解析処理を、図4に示す同義文対作成部102による同義文対作成より前に行なっている。しかしこの二つの処理順序はこの順序には限定されず、逆になってもよい。   In the first embodiment, as shown in FIG. 1, after the processing by the synonym pair filtering unit 54, the word pruning unit 56 performs word pruning. However, the order in which synonym pair filtering and word pruning are performed is not limited to this order. These may be performed in the reverse order. Furthermore, in the above-described embodiment, the morpheme analysis processing by the morpheme analysis processing unit 50 shown in FIG. 1 is performed before the synonym sentence pair creation by the synonym sentence pair creation unit 102 shown in FIG. However, the two processing orders are not limited to this order, and may be reversed.

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるというわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。   The embodiment disclosed herein is merely an example, and the present invention is not limited to the above-described embodiment. The scope of the present invention is indicated by each claim in the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are intended. Including.

本発明の第1の実施の形態に係る同義表現抽出装置32のブロック図である。It is a block diagram of synonymous expression extraction device 32 concerning a 1st embodiment of the present invention. 単言語パラレルコーパス30の構成を模式的に示す図である。2 is a diagram schematically showing a configuration of a monolingual parallel corpus 30. FIG. 同義テキストの例を示す図である。It is a figure which shows the example of a synonymous text. 単語列抽出部52の構成を示す図である。3 is a diagram illustrating a configuration of a word string extraction unit 52. FIG. 図4に示す同義文対作成部102の動作を説明するための図である。It is a figure for demonstrating operation | movement of the synonym sentence pair preparation part 102 shown in FIG. 図4に示す単語列比較部106の動作を説明するための図である。It is a figure for demonstrating operation | movement of the word string comparison part 106 shown in FIG. 図1に示す同義語対フィルタリング部54の動作を説明するための図である。It is a figure for demonstrating operation | movement of the synonym pair filtering part 54 shown in FIG. 図1に示す単語刈込み部56の動作を説明するための図である。It is a figure for demonstrating operation | movement of the word pruning part 56 shown in FIG. 本発明の第1の実施の形態に係る同義表現抽出装置32を実現するコンピュータシステムの外観図である。It is an external view of the computer system which implement | achieves the synonymous expression extraction apparatus 32 which concerns on the 1st Embodiment of this invention. 図9に示すコンピュータのブロック図である。FIG. 10 is a block diagram of the computer shown in FIG. 9. 本発明の第2の実施の形態に係る同義表現抽出装置における同義語対フィルタリング処理を説明するための図である。It is a figure for demonstrating the synonym pair filtering process in the synonym expression extraction apparatus which concerns on the 2nd Embodiment of this invention.

符号の説明Explanation of symbols

30 単言語パラレルコーパス
32 同義表現抽出装置
34 形態素解析用辞書
36 単語刈込み用規則群
38 記憶装置
50 形態素解析処理部
52 単語列抽出部
54 同義語対フィルタリング部
56 単語刈込み部
30 monolingual parallel corpus 32 synonym expression extraction device 34 morpheme analysis dictionary 36 word pruning rule group 38 storage device 50 morpheme analysis processing unit 52 word string extraction unit 54 synonym pair filtering unit 56 word pruning unit

Claims (7)

複数の同義テキストを含む機械可読な単言語パラレルコーパスから同義語対を抽出するための同義語対抽出装置であって、前記複数の同義テキストの各々は、互いに同じ意味を表す複数の表現を含み、
前記複数の同義テキストの各々から、当該同義テキストに含まれる同義表現の対からなる同義表現対を作成するための同義表現対作成手段と、
前記同義表現対作成手段により作成された同義表現対を互いに比較し、当該同義表現対に共通する二つの文字列と、当該二つの文字列に挟まれる互いに相違する単語列とからなる単語列対を、当該同義表現対を構成する二つの同義表現からそれぞれ同義語対候補として抽出するための同義語対候補抽出手段と、
前記同義語対候補抽出手段により抽出される同義語対候補のうち、所定の条件を満たすものに対し、所定の規則に従った編集を行なって同義語対として出力するための同義語対出力手段とを含む、同義語対抽出装置。
A synonym pair extraction apparatus for extracting a synonym pair from a machine-readable monolingual parallel corpus including a plurality of synonymous texts, each of the plurality of synonym texts including a plurality of expressions representing the same meaning to each other. ,
Synonymous expression pair creating means for creating a synonymous expression pair consisting of a pair of synonymous expressions included in the synonymous text from each of the plurality of synonymous texts;
The synonymous expression pairs created by the synonymous expression pair creating means are compared with each other, and a word string pair consisting of two character strings common to the synonymous expression pair and different word strings sandwiched between the two character strings Synonym pair candidate extraction means for extracting each as a synonym pair candidate from two synonym expressions constituting the synonym expression pair,
Synonym pair output means for performing editing according to a predetermined rule and outputting as a synonym pair for the synonym pair candidates extracted by the synonym pair candidate extracting means And a synonym pair extraction device.
前記単言語パラレルコーパスに含まれる表現の各々を構成する単語に、対応する品詞情報を付与するための品詞情報付与手段をさらに含み、
前記同義語対候補抽出手段は、前記同義表現対作成手段により作成された同義表現対を構成する単語列を、各単語の品詞を含めて互いに比較し、当該同義表現対に共通する同一品詞の二つの単語と、当該二つの単語に挟まれる互いに相違する単語列とからなる単語列対を、当該同義表現対を構成する二つの同義表現からそれぞれ抽出するための手段を含む、請求項1に記載の同義語対抽出装置。
Part-of-speech information giving means for giving corresponding part-of-speech information to words constituting each of the expressions included in the monolingual parallel corpus;
The synonym pair candidate extraction means compares the word strings constituting the synonym expression pair created by the synonym expression pair creation means, including the part of speech of each word, and has the same part of speech common to the synonym expression pair. 2. Means for extracting a word string pair composed of two words and different word strings sandwiched between the two words from two synonymous expressions constituting the synonymous expression pair, respectively. The synonym pair extraction device described.
前記同義語対出力手段は、
前記同義語対候補抽出手段により抽出された同義語対候補の各々に対し、前記互いに相違する単語列のうち、当該同義語対候補の一方に属する単語が、当該同義語対候補の他方が属する同義表現の、前記互いに相違する単語列以外の所定の領域に存在しないという条件が充足されているもののみを選択するための選択手段と、
前記選択手段により選択された同義語対候補のうち、所定の編集規則により規定される条件に合致するものに対し、当該条件により指定される編集処理を実行して同義語対を出力するための編集手段とを含む、請求項1又は請求項2に記載の同義語対抽出装置。
The synonym pair output means includes:
For each of the synonym pair candidates extracted by the synonym pair candidate extraction means, a word belonging to one of the synonym pair candidates among the different word strings belongs to the other of the synonym pair candidates. A selection means for selecting only those satisfying the condition that the synonymous expression does not exist in a predetermined region other than the different word strings;
Among the synonym pair candidates selected by the selection means, for executing a editing process specified by the condition and outputting a synonym pair for a condition that matches a condition defined by a predetermined editing rule The synonym pair extraction device according to claim 1, further comprising an editing unit.
前記所定の編集規則は、所定の刈込み規則を含み、
前記編集手段は、前記選択手段により選択された同義語対候補のうち、前記刈込み規則のいずれかにより規定される条件に合致するものに、当該刈込み規則により指定される編集処理に従い、前記同義語対候補のうちの少なくとも一方の、先頭又は末尾に位置する単語又は単語列を削除するための手段を含む、請求項3に記載の同義語対抽出装置。
The predetermined editing rule includes a predetermined pruning rule,
The editing means, according to the editing process specified by the pruning rule, to the synonym pair candidate selected by the selecting means, which matches the condition specified by any of the pruning rules, The synonym pair extraction device according to claim 3, further comprising means for deleting a word or a word string located at the head or tail of at least one of the pair candidates.
前記選択手段は、前記同義語対候補抽出手段により抽出された同義語対候補の各々に対し、前記互いに相違する単語列のうち、当該同義語対候補の一方に属する単語が、当該同義語対候補の他方が属する同義表現の、前記互いに相違する単語列以外の領域のいずれにも存在しないという条件が充足されているものを選択するための手段を含む、請求項3又は請求項4に記載の同義語対抽出装置。 The selection means is configured such that, for each of the synonym pair candidates extracted by the synonym pair candidate extraction means, a word belonging to one of the synonym pair candidates among the different word strings is the synonym pair candidate. 5. The method according to claim 3, further comprising means for selecting a synonymous expression to which the other candidate belongs and that satisfies a condition that it does not exist in any of the regions other than the different word strings. Synonym pair extraction device. 前記選択手段は、前記同義語対候補抽出手段により抽出された同義語対候補の各々に対し、前記互いに相違する単語列のうち、当該同義語対候補の一方に属する単語が、当該同義語対候補の他方が属する同義表現の、前記互いに相違する単語列の前後に隣接する所定長の領域のいずれにも存在しないという条件が充足されているもののみを選択するための手段を含む、請求項3又は請求項4に記載の同義語対抽出装置。 The selection means is configured such that, for each of the synonym pair candidates extracted by the synonym pair candidate extraction means, a word belonging to one of the synonym pair candidates among the different word strings is the synonym pair candidate. A means for selecting only a synonymous expression to which the other candidate belongs, satisfying a condition that it does not exist in any of the adjacent predetermined length regions before and after the different word strings. The synonym pair extraction device according to claim 3 or claim 4. コンピュータにより実行されると、当該コンピュータを請求項1〜請求項6のいずれかに記載の同義語対抽出装置として動作させる、コンピュータプログラム。 A computer program that, when executed by a computer, causes the computer to operate as the synonym pair extraction device according to any one of claims 1 to 6.
JP2005063272A 2005-03-08 2005-03-08 Synonym pair extracting device, and computer program therefor Pending JP2006251843A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005063272A JP2006251843A (en) 2005-03-08 2005-03-08 Synonym pair extracting device, and computer program therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005063272A JP2006251843A (en) 2005-03-08 2005-03-08 Synonym pair extracting device, and computer program therefor

Publications (1)

Publication Number Publication Date
JP2006251843A true JP2006251843A (en) 2006-09-21

Family

ID=37092319

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005063272A Pending JP2006251843A (en) 2005-03-08 2005-03-08 Synonym pair extracting device, and computer program therefor

Country Status (1)

Country Link
JP (1) JP2006251843A (en)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007172315A (en) * 2005-12-22 2007-07-05 Nec Corp System, method and program for creating synonym dictionary
JP2009128968A (en) * 2007-11-20 2009-06-11 Fuji Xerox Co Ltd Orthographic variant analyzing device
JP2010134501A (en) * 2008-12-02 2010-06-17 Nec Corp Identification system, identification method and identification program
JP2011008576A (en) * 2009-06-26 2011-01-13 Fuji Xerox Co Ltd Information processor and program
JP2017167851A (en) * 2016-03-16 2017-09-21 株式会社東芝 Concept dictionary creation device, method and program
JP2020042858A (en) * 2016-03-16 2020-03-19 株式会社東芝 Concept dictionary creation device, method and program
CN111581950A (en) * 2020-04-30 2020-08-25 支付宝(杭州)信息技术有限公司 Method for determining synonym and method for establishing synonym knowledge base
CN111859974A (en) * 2019-04-22 2020-10-30 广东小天才科技有限公司 Semantic disambiguation method and device combined with knowledge graph and intelligent learning equipment
CN112395867A (en) * 2020-11-16 2021-02-23 中国平安人寿保险股份有限公司 Synonym mining method, synonym mining device, synonym mining storage medium and computer equipment

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007172315A (en) * 2005-12-22 2007-07-05 Nec Corp System, method and program for creating synonym dictionary
JP2009128968A (en) * 2007-11-20 2009-06-11 Fuji Xerox Co Ltd Orthographic variant analyzing device
JP2010134501A (en) * 2008-12-02 2010-06-17 Nec Corp Identification system, identification method and identification program
JP2011008576A (en) * 2009-06-26 2011-01-13 Fuji Xerox Co Ltd Information processor and program
JP2017167851A (en) * 2016-03-16 2017-09-21 株式会社東芝 Concept dictionary creation device, method and program
JP2020042858A (en) * 2016-03-16 2020-03-19 株式会社東芝 Concept dictionary creation device, method and program
CN111859974A (en) * 2019-04-22 2020-10-30 广东小天才科技有限公司 Semantic disambiguation method and device combined with knowledge graph and intelligent learning equipment
CN111581950A (en) * 2020-04-30 2020-08-25 支付宝(杭州)信息技术有限公司 Method for determining synonym and method for establishing synonym knowledge base
CN111581950B (en) * 2020-04-30 2024-01-02 支付宝(杭州)信息技术有限公司 Method for determining synonym names and method for establishing knowledge base of synonym names
CN112395867A (en) * 2020-11-16 2021-02-23 中国平安人寿保险股份有限公司 Synonym mining method, synonym mining device, synonym mining storage medium and computer equipment
CN112395867B (en) * 2020-11-16 2023-08-08 中国平安人寿保险股份有限公司 Synonym mining method and device, storage medium and computer equipment

Similar Documents

Publication Publication Date Title
US6539348B1 (en) Systems and methods for parsing a natural language sentence
JP4404211B2 (en) Multilingual translation memory, translation method and translation program
JP2006251843A (en) Synonym pair extracting device, and computer program therefor
US6876963B1 (en) Machine translation method and apparatus capable of automatically switching dictionaries
JP2001043236A (en) Synonym extracting method, document retrieving method and device to be used for the same
WO2005059771A1 (en) Translation judgment device, method, and program
JPH083815B2 (en) Natural language co-occurrence relation dictionary maintenance method
KR20160138077A (en) Machine translation system and method
Graliński et al. PSI-toolkit: A natural language processing pipeline
Sornlertlamvanich et al. Thai Part-of-Speech Tagged Corpus: ORCHID
Chiarcos et al. Analyzing middle high German syntax with RDF and SPARQL
US7752033B2 (en) Text generation method and text generation device
Ogrodniczuk et al. Rule-based coreference resolution module for Polish
Hajbi et al. Natural Language Processing Based Approach to Overcome Arabizi and Code Switching in Social Media Moroccan Dialect
Yeshambel et al. Evaluation of corpora, resources and tools for Amharic information retrieval
JP2005202924A (en) Translation determination system, method, and program
JP2009110081A (en) Document relevancy analyzing device, method, and program
JP2005284723A (en) Natural language processing system, natural language processing method, and computer program
JP2006190072A (en) Automatic paraphrasing apparatus, automatic paraphrasing method and paraphrasing process program
Thant et al. Syntactic Analysis of Myanmar Language
JPH0561902A (en) Mechanical translation system
Shah et al. Combining statistical, structural, and linguistic features for keyword extraction from web pages
Rennes Improved Automatic Text Simplification by Manual Training
JP4262529B2 (en) Full-text search device, method, program, and recording medium
JP2010122823A (en) Text processing system, information processing apparatus, method for processing text and information, and processing program