JP5341375B2 - Parallel translation expression processing apparatus and program - Google Patents

Parallel translation expression processing apparatus and program Download PDF

Info

Publication number
JP5341375B2
JP5341375B2 JP2008066392A JP2008066392A JP5341375B2 JP 5341375 B2 JP5341375 B2 JP 5341375B2 JP 2008066392 A JP2008066392 A JP 2008066392A JP 2008066392 A JP2008066392 A JP 2008066392A JP 5341375 B2 JP5341375 B2 JP 5341375B2
Authority
JP
Japan
Prior art keywords
bilingual
word
language
languages
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008066392A
Other languages
Japanese (ja)
Other versions
JP2009223547A (en
Inventor
功雄 後藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2008066392A priority Critical patent/JP5341375B2/en
Publication of JP2009223547A publication Critical patent/JP2009223547A/en
Application granted granted Critical
Publication of JP5341375B2 publication Critical patent/JP5341375B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a translated expression processing device which presumes correspondence between long translated expressions while presuming correspondence among a plurality of words. <P>SOLUTION: The translated expression processing device includes: a translated document set group data storage part which stores a plurality of translated document set group data which are sets of translated documents by a plurality of languages; and a translated document set group data analysis processing part which counts the frequency that a word sequence which appears in a single translated document set data concurrently appears in a plurality of languages based on the translated document set data read from the translated document set data storage part, and extracts and outputs the set of the word sequence by the plurality of languages as a translated phrase set candidate so that a total value of the co-occurrence frequencies in all the translated document set data becomes more than predetermined frequency threshold. <P>COPYRIGHT: (C)2010,JPO&amp;INPIT

Description

本発明は、自然言語処理に関する。特に、相互に対応する複数言語の文書間の対訳表現の対応を自動的に推定するなどの処理を行なう対訳表現処理装置およびそのプログラムに関する。   The present invention relates to natural language processing. In particular, the present invention relates to a bilingual expression processing apparatus and program for performing processing such as automatically estimating the correspondence of bilingual expressions between documents in a plurality of languages corresponding to each other.

二言語による対訳文中に含まれる表現の対応関係を自動的に推定するための従来技術は、下記の通りである。
[単語単位の手法] 非特許文献1には、単語単位で対訳関係を推定する手法が記載されている。また、この文献の筆者は、単語単位で対訳関係を推定するコンピュータプログラム「GIZA++」を公開している。
[同時生起確率に基づく手法] 非特許文献2には、各言語の文書を複数の表現の列に分割し、対訳表現候補のペアの同時生起確率に基づいて,確率が最も高くなる表現のペアを対訳表現として推定する手法が記載されている。
Franz Josef Och,Hermann Ney,“A Systematic Comparison of Various Statistical Alignment Models”,Computational Linguistics,2003年,volume 29,number 1,pp.19−51,March 2003. Daniel Marcu,外1名,“A Phrase-Based, Joint Probability Model for Statistical Machine Translation”,Proceedings of the ACL-02 conference on Empirical methods in natural language processing,2002年,Volume 10,p.133−139.
The prior art for automatically estimating the correspondence between expressions contained in bilingual bilingual sentences is as follows.
[Word Unit Method] Non-Patent Document 1 describes a method of estimating a translation relationship in word units. In addition, the author of this document has released a computer program “GIZA ++” that estimates the translation relationship in word units.
[Method Based on Co-occurrence Probability] Non-Patent Document 2 divides a document in each language into a plurality of expression columns, and based on the co-occurrence probability of a pair of translation expression candidates, a pair of expressions having the highest probability Is described as a bilingual expression.
Franz Josef Och, Hermann Ney, “A Systematic Comparison of Various Statistical Alignment Models”, Computational Linguistics, 2003, volume 29, number 1, pp. 19-51, March 2003. Daniel Marcu, 1 other, “A Phrase-Based, Joint Probability Model for Statistical Machine Translation”, Proceedings of the ACL-02 conference on Empirical methods in natural language processing, 2002, Volume 10, p. 133-139.

上述した従来技術には、次のような問題がある。
非特許文献1に記載された手法では、1単語と複数単語との対訳関係を推定するため、複数単語からなる表現同士の対訳関係を推定することができないという問題があった。
また、非特許文献2に記載された手法では、長い対訳表現を獲得することができないという問題があった。
The prior art described above has the following problems.
In the method described in Non-Patent Document 1, there is a problem in that a parallel translation relationship between expressions composed of a plurality of words cannot be estimated because a parallel translation relationship between one word and a plurality of words is estimated.
In addition, the technique described in Non-Patent Document 2 has a problem that a long parallel expression cannot be acquired.

本発明は、上記の課題認識に基づいて行なわれたものであり、対訳の文書対において、対訳関係である表現同士を推定(以下、アラインメント(alignment)と呼ぶ)する処理であって、より広く対訳の表現同士の対応が取れるように、複数単語同士のアラインメントができるとともに、長い対訳表現のアラインメントを可能とする対訳表現処理装置およびプログラムを提供することを目的とする。   The present invention has been performed based on the above problem recognition, and is a process for estimating expressions (hereinafter referred to as alignment) between parallel translations in a bilingual document pair. It is an object of the present invention to provide a bilingual expression processing apparatus and program that can align a plurality of words so that correspondence between bilingual expressions can be taken, and enables alignment of long bilingual expressions.

[1]上記の課題を解決するため、本発明の一態様による対訳表現処理装置は、複数言語による対訳文書の組である対訳文書組データを複数記憶する対訳文書組群データ記憶部と、前記対訳文書組データ記憶部から読み出した前記対訳文書組データに基づき、単一の前記対訳文書組データ内に出現する語系列の前記複数の言語間での共起頻度をカウントし、全ての前記対訳文書組データにおける前記共起頻度の合計値が所定の頻度閾値以上となるような、前記複数言語による前記語系列の組を対訳フレーズ組候補として抽出して出力する対訳文書組群データ分析処理部とを具備することを特徴とする。
ここで、複数言語とは、代表的には二言語の場合であるが、三言語以上の場合も含む。
この構成によれば、文書内における言語間の語系列の共起頻度を計算し、その共起頻度が頻度閾値(ζ)以上のものを抽出することができる。共起頻度が頻度閾値以上であるということは、対訳フレーズである可能性が高く、これを対訳フレーズの組の候補とすることは妥当である。
[1] In order to solve the above-described problem, a bilingual expression processing apparatus according to an aspect of the present invention includes a bilingual document set group data storage unit that stores a plurality of bilingual document set data that is a set of bilingual documents in a plurality of languages, Based on the bilingual document set data read from the bilingual document set data storage unit, the co-occurrence frequency between the plurality of languages of the word series appearing in the single bilingual document set data is counted, and all the bilingual Bilingual document set group data analysis processing unit for extracting and outputting the set of word sequences in the plurality of languages as parallel phrase set candidates such that the total value of the co-occurrence frequencies in the document set data is equal to or greater than a predetermined frequency threshold It is characterized by comprising.
Here, the plurality of languages is typically a case of two languages, but includes a case of three or more languages.
According to this configuration, it is possible to calculate the co-occurrence frequency of word sequences between languages in a document and extract those whose co-occurrence frequency is equal to or higher than the frequency threshold (ζ). If the co-occurrence frequency is equal to or higher than the frequency threshold, there is a high possibility that the co-occurrence frequency is a parallel translation phrase, and it is appropriate to make this a candidate for a pair of translation phrases.

[2]また、本発明の一態様は、上記の対訳表現処理装置において、前記対訳文書組群データ分析処理部は、前記複数言語のうちの第1の言語のデータ内で語系列を探索することによって全ての前記対訳文書組データ内の当該第1の言語における語系列の出現頻度をカウントし、前記出現頻度が前記頻度閾値以上であるような前記第1の言語における語系列それぞれについて、前記複数言語のうちの他の言語のデータ内で語系列を探索することによって、前記第1の言語の語系列と前記他の言語の語系列の前記共起頻度をカウントし、これを前記複数の言語間での共起頻度とすることを特徴とする。
この構成による具体的な手順で、共起頻度を実際にカウントすることが可能である。
[2] Further, according to one aspect of the present invention, in the bilingual expression processing apparatus, the bilingual document set group data analysis processing unit searches a word sequence in data of a first language of the plurality of languages. By counting the appearance frequency of the word sequence in the first language in all the parallel document set data, for each word sequence in the first language such that the appearance frequency is equal to or higher than the frequency threshold, The co-occurrence frequency of the word sequence of the first language and the word sequence of the other language is counted by searching the word sequence in the data of another language of the plurality of languages, It is characterized by co-occurrence frequency between languages.
It is possible to actually count the co-occurrence frequency by a specific procedure with this configuration.

[3]また、本発明の一態様は、上記の対訳表現処理装置において、前記対訳文書組群データ分析処理部は、前記の語系列の探索を順次行なう際に、現在の語系列の次に、前記現在の語系列の中の一語を置き換えて得られる新たな語系列よりも、前記現在の語系列に一語を加えて得られる新たな語系列のほうを、優先して先に探索対象とすることを特徴とする。
つまり、この態様における対訳文書組群データ分析処理部は、深さ優先の探索(Depth First Search)を行なう。幅優先の探索(Breadth First Search)を行なう場合には、幅方向の広がりに伴う膨大な状態の情報をメモリに記憶しておく必要があるが、本態様では深さ優先探索であるため、メモリ量が少なくて済み、現実的な装置構成で探索処理を行なうことができる。
[3] Further, according to an aspect of the present invention, in the above-described bilingual expression processing apparatus, the bilingual document set group data analysis processing unit performs a search next to the current word series when sequentially searching for the word series. The new word sequence obtained by adding one word to the current word sequence is preferentially searched before the new word sequence obtained by replacing one word in the current word sequence. It is a target.
That is, the bilingual document set group data analysis processing unit in this aspect performs a depth-first search. When performing breadth-first search, it is necessary to store a large amount of information associated with the spread in the width direction in the memory. The search process can be performed with a realistic apparatus configuration.

[4]また、本発明の一態様は、上記の対訳表現処理装置において、前記対訳文書組群データ分析処理部は、抽出する前記対訳フレーズ組候補それぞれについて対訳フレーズ組である確からしさを表わす統計量を算出し、算出した統計量を前記対訳フレーズ組候補とともに出力することを特徴とする。   [4] Further, according to one aspect of the present invention, in the bilingual expression processing apparatus, the bilingual document set group data analysis processing unit is a statistic representing a probability that each of the extracted bilingual phrase set candidates is a bilingual phrase set. An amount is calculated, and the calculated statistic is output together with the bilingual phrase set candidate.

[5]また、本発明の一態様は、上記の対訳表現処理装置において、前記対訳文書組群データ分析処理部は、前記他の言語のデータ内での語系列の探索中に、前記第1の言語の語系列と前記他の言語の語系列との組が対訳フレーズ組である確からしさを表わす統計量を算出し、現在の当該他の言語の語系列に関して算出した前記統計量が表わす確からしさが、当該現在の当該他の言語の語系列から一語を除いた語系列について既に算出されていた前記統計量が表わす確からしさよりも低く、かつ所定の統計量閾値(τ)が表わす確からしさよりも低い場合には、以後の、当該現在の当該他の言語の語系列に一語を加えて得られる新たな語系列の探索を抑止することを特徴とする。
この構成により、統計量に基づいて、枝刈りしながらの探索を行なうことができ、トータルな計算量を削減することができる。
[5] Further, according to one aspect of the present invention, in the bilingual expression processing apparatus, the bilingual document set group data analysis processing unit is configured to search the first series during the search for the word series in the data of the other language. A statistic indicating the certainty that the pair of the word sequence of the other language and the word sequence of the other language is a bilingual phrase set, and the statistic calculated for the current word sequence of the other language The probability that the probability is lower than the probability represented by the statistic already calculated for the word sequence obtained by removing one word from the current word sequence of the other language, and the predetermined statistic threshold (τ) represents If it is lower than the likelihood, the search for a new word sequence obtained by adding one word to the current word sequence of the other language is suppressed.
With this configuration, it is possible to perform a search while pruning based on the statistic, thereby reducing the total calculation amount.

[6]また、本発明の一態様によるコンピュータプログラムは、複数言語による対訳文書の組である対訳文書組データを複数記憶する対訳文書組群データ記憶部を具備するコンピュータに、前記対訳文書組データ記憶部から読み出した前記対訳文書組データに基づき、単一の前記対訳文書組データ内に出現する語系列の前記複数の言語間での共起頻度をカウントし、全ての前記対訳文書組データにおける前記共起頻度の合計値が所定の頻度閾値以上となるような、前記複数言語による前記語系列の組を対訳フレーズ組候補として抽出して出力する対訳文書組群データ分析処理過程の処理を実行させる。   [6] A computer program according to an aspect of the present invention provides a computer program including a parallel document group data storage unit that stores a plurality of parallel document group data that is a set of parallel documents in a plurality of languages. Based on the bilingual document set data read from the storage unit, the co-occurrence frequency between the plurality of languages of the word series appearing in the single bilingual document set data is counted, and all the bilingual document set data The bilingual document group data analysis process for extracting and outputting the word sequence pairs in the plurality of languages as bilingual phrase group candidates such that the total value of the co-occurrence frequencies is equal to or greater than a predetermined frequency threshold is executed. Let

本発明によれば、対訳文書組群データ内の表現(語系列)を探索して、言語間におけるその表現の共起頻度(文数)をカウントし、その結果に基づいて対訳フレーズ候補を抽出するため、複数単語の表現同士を対訳フレーズ候補として対応付けることができる。
また、この方法により、アラインメントする表現の長さに制約を受けない。
また上記において、対訳文書組群データ分析処理部は、深さ優先の探索を行なうため、探索空間中に記憶しておくべきメモリの量が少なくて済む。膨大な探索空間を探索することになるが、深さ優先としていることによって、現実的なメモリ量で必要な探索を実際に行なうことができる。
また、統計量を用いて、探索空間の枝刈りを行なうため、全体の計算量が少なくて済み、短時間で処理を行なえるようになる。
また、包含的にアラインメントするため,長い表現から短い表現まで複数の長さのアラインメント結果が得られる.
According to the present invention, the expression (word sequence) in the bilingual document set group data is searched, the co-occurrence frequency (number of sentences) of the expression between languages is counted, and the bilingual phrase candidate is extracted based on the result. Therefore, expressions of a plurality of words can be associated as parallel translation phrase candidates.
Also, this method does not restrict the length of the expression to be aligned.
In the above description, the parallel document group data analysis processing unit performs a depth-first search, so that the amount of memory to be stored in the search space is small. Although a huge search space is searched, priority is given to depth, so that a necessary search can be actually performed with a realistic amount of memory.
In addition, since the search space is pruned using the statistics, the total amount of calculation is small, and processing can be performed in a short time.
In addition, in order to align inclusively, multiple length alignment results can be obtained from long to short representations.

以下、図面を参照して本発明の実施形態を説明する。
本実施形態は、次の2段階の処理でアラインメントを行なう。まず、第1段階で、対訳文書対群データ(パラレルデータ)から複数の統計量がしきい値以上となる対訳フレーズ候補を抽出する。次の第2段階では、他のアラインメントと整合性がとれる対訳フレーズ候補の中から、複数の特徴量を用いて識別的に候補を選択していくことでアラインメントを確立させていく。この特徴量としては、単語レベルとフレーズレベルの統計量や対訳辞書の登録の有無を利用する。以下では、これらの段階ごとの処理について述べる。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
In the present embodiment, alignment is performed by the following two-stage processing. First, in the first stage, bilingual phrase candidates having a plurality of statistics equal to or greater than a threshold value are extracted from the bilingual document pair group data (parallel data). In the next second stage, the alignment is established by selecting candidates using a plurality of feature quantities from among the parallel translation phrase candidates that are consistent with other alignments. As the feature amount, the statistic amount at the word level and the phrase level and the presence / absence of registration of the parallel dictionary are used. Below, the process for each of these stages will be described.

<1. 対訳フレーズ候補の抽出>
図1は、本実施形態による対訳表現処理装置100の機能構成を示すブロック図である。この対訳表現処理装置100は、対訳文書の対を大量に記憶する対訳文書対群データを基に、対訳フレーズ候補(対訳フレーズ組候補)を抽出するとともにそれら候補の統計量を算出するものである。
<1. Extraction of parallel phrase candidates>
FIG. 1 is a block diagram illustrating a functional configuration of the parallel expression processing apparatus 100 according to the present embodiment. The bilingual expression processing apparatus 100 extracts bilingual phrase candidates (translated phrase group candidates) and calculates the statistic of these candidates based on bilingual document pair group data that stores a large number of bilingual document pairs. .

図示するように、対訳表現処理装置100は、対訳文書対群データ記憶部1(対訳文書組群データ記憶部)と、対訳文書対群データ分析処理部2(対訳文書組群データ分析処理部)と、対訳フレーズ候補データ記憶部3とを含んで構成される。
対訳文書対群データ記憶部1は、二言語(複数言語)による対訳文書の対(組)である対訳文書対(組)データを、数多く記憶するものである。
対訳文書対群データ分析処理部2は、対訳文書対データ記憶部1から読み出した対訳文書対(組)データに基づき、単一の対訳文書対(組)データ内に出現する語系列の複数の言語間での共起頻度をカウントし、全ての対訳文書対(組)データにおける共起頻度の合計値が所定の頻度閾値以上となるような、複数言語による語系列の対(組)を対訳フレーズ対(組)候補として抽出して、対訳フレーズ候補データ記憶部3に書き込む。
対訳フレーズ候補データ記憶部3は、抽出された対訳フレーズ候補データを記憶する。
なお、対訳文書対群データ分析処理部2は電子的な回路等によって構成される。また、対訳文書対群データ記憶部1や対訳フレーズ候補データ記憶部3は、半導体メモリやハードディスク装置などを用いて実現され、電子的な手段を介してデータを読み書きすることが可能となっている。
As shown in the figure, the parallel translation expression processing apparatus 100 includes a parallel document pair group data storage unit 1 (parallel translation document group data storage unit) and a parallel document pair group data analysis processing unit 2 (parallel translation document group data analysis processing unit). And a parallel translation phrase candidate data storage unit 3.
The bilingual document pair data storage unit 1 stores a large number of bilingual document pair (group) data which are bilingual document pairs (groups).
The bilingual document pair group data analysis processing unit 2 is based on the bilingual document pair (set) data read out from the bilingual document pair data storage unit 1 and a plurality of word sequences appearing in the single bilingual document pair (set) data. Counts the co-occurrence frequency between languages, and translates pairs of word sequences (sets) in multiple languages so that the total value of co-occurrence frequencies in all parallel document pairs (sets) data is greater than or equal to a predetermined frequency threshold Extracted as a phrase pair (group) candidate and written in the parallel phrase candidate data storage unit 3.
The parallel phrase candidate data storage unit 3 stores the extracted parallel phrase candidate data.
The bilingual document pair data analysis processing unit 2 is configured by an electronic circuit or the like. The bilingual document pair group data storage unit 1 and the bilingual phrase candidate data storage unit 3 are realized using a semiconductor memory, a hard disk device, or the like, and can read and write data via electronic means. .

図2は、対訳表現文書対群データ記憶部に格納される対訳表現文書対群データの構成を示す概略図である。図示するように、対訳表現文書対群データは、例えば表形式のデータとして表現され、文番号と文(言語J、第1の言語)と文(言語E、他の言語)のデータ項目(列)を有する。つまり、複数の言語による文が関連付けられている。このデータの各行が対訳表現文書対に対応する。文番号は、この対訳表現文書対群データ内において対訳表現文書対を一意に特定することのできる通し番号である。文(言語J)の列は、各行の対訳表現文書対における第1の言語(言語J)による文を格納する。文(言語E)の列は、各行の対訳表現文書対における第2の言語(言語E)による文を格納する。ここで、言語Jおよび言語Eは、例えば、日本語や英語などといった言語であるが、これら2種類の言語には限定されず、任意の言語であってよい。   FIG. 2 is a schematic diagram showing a configuration of parallel translation document pair data stored in the parallel translation document pair data storage unit. As shown in the drawing, the parallel translation document pair data is expressed as, for example, tabular data, and data items (columns) of sentence numbers, sentences (language J, first language), and sentences (language E, other languages). ). That is, sentences in a plurality of languages are associated. Each line of this data corresponds to a bilingual document pair. The sentence number is a serial number that can uniquely identify the bilingual expression document pair in the bilingual expression document pair group data. The sentence (language J) column stores sentences in the first language (language J) in the parallel translation document pair of each line. The sentence (language E) column stores a sentence in the second language (language E) in the bilingual document pair of each line. Here, the language J and the language E are, for example, languages such as Japanese and English, but are not limited to these two types of languages, and may be arbitrary languages.

図3は、対訳表現文書対群データ記憶部に格納される対訳表現文書対の例を示す概略図である。このデータの例では、言語Jは日本語であり、言語Eは英語である。そして、格納されている文番号「1」のデータは、言語Jの文「台風 は あす の 昼 頃 九州 の 南東 の 海上 で 温帯 低 気圧 に 変わる 見込み です 。」と言語Eの文「The typhoon is expected to downgrade over the sea southeast of Kyushu tomorrow afternoon .」が対訳表現文書対であることを表わしている。ここで、両言語による対訳は、必ずしも厳密な逐語訳であることを要しない。なお、日本語のように通常使われる際に分かち書きされない言語の文の場合には、予め形態素解析処理などを行なうことによって、形態素間に空白文字を入れておく。また、日本語の句点「。」や読点「、」、および英語のピリオドやカンマなども、便宜上、独立した形態素として扱う。   FIG. 3 is a schematic diagram illustrating an example of a bilingual expression document pair stored in the bilingual expression document pair group data storage unit. In this example of data, the language J is Japanese and the language E is English. And the stored data of sentence number “1” is the language J sentence “Typhoon is expected to change to temperate cyclone in the southeast of Kyushu at noon tomorrow” and the language E sentence “The typhoon is "expected to downgrade over the sea southeast of Kyushu tomorrow afternoon." Here, bilingual translations in both languages do not necessarily have to be exact verbatim translations. Note that in the case of a sentence in a language that is not divided when normally used, such as Japanese, a blank character is inserted between morphemes by performing morpheme analysis processing in advance. In addition, Japanese punctuation marks “.”, Punctuation marks “,”, and English periods and commas are also treated as independent morphemes for convenience.

図4は、対訳フレーズ候補データ記憶部3に記憶される対訳フレーズ候補データの構成およびデータ例を示す概略図である。対訳フレーズ候補データは、例えば表形式で表わされるデータであり、フレーズ(言語J)pとフレーズ(言語E)pと4種類の統計量の各項目(列)を有する。本実施形態で用いている統計量は、有意確率(−log(p-value×2))と、Dice係数と、フレーズ平均生成確率と、フレーズ生成確率の4種類である。これらの統計量の詳細については後述する。一例として、図中のテーブルのデータの第6行目は、言語Jのフレーズ「気象庁」と言語Eのフレーズ「The meteorological agency」とが対訳フレーズとなる対の候補であり、この対の統計値としては、有意確率が2430.25、Dice係数が0.743797、フレーズ平均生成確率が0.286288、フレーズ生成確率が0.240436であることを表わしている。 FIG. 4 is a schematic diagram illustrating a configuration and data example of parallel phrase candidate data stored in the parallel phrase candidate data storage unit 3. The bilingual phrase candidate data is, for example, data represented in a tabular format, and includes a phrase (language J) p j , a phrase (language E) p e, and four types of statistics items (columns). There are four types of statistics used in the present embodiment: significant probability (−log (p-value × 2)), Dice coefficient, phrase average generation probability, and phrase generation probability. Details of these statistics will be described later. As an example, the sixth line of the table data in the figure is a candidate for a pair in which the phrase “meteorological agency” in language J and the phrase “The meteorological agency” in language E are parallel translation phrases. Indicates that the significance probability is 2430.25, the Dice coefficient is 0.743797, the phrase average generation probability is 0.286288, and the phrase generation probability is 0.240436.

次に、対訳表現処理装置100の具体的な処理内容について説明する。
ここでは、フレーズ対の列挙アルゴリズムと枝刈り手法を用いて、複数の統計量が閾値以上となるフレーズ対を効率的に抽出する手法について述べる。ここでフレーズとは、連続する1つ以上の単語からなる任意長の表現である。二種類の言語(ここでは、日本語と英語)各々毎に頻出表現を抽出すると、取得される表現の数が多くなるため、それら二言語の表現の組合せ数は膨大になり、従ってデータ量の多い組合せの計算は困難である。ただし、共起する文数が閾値以上であるような表現対を探索する場合に,各言語毎に出現文数が閾値以上の表現を抽出して、得られた各言語の表現の組(ここでは、日本語表現と英語表現の組)が共起する文を数えるとしきい値未満になる組が多く含まれることになる。そこで、本実施形態の手法では、共起する文数が閾値以上となるフレーズ対を直接探索するアルゴリズムを用いる。この手法のアルゴリズムの基本的な考え方は、深さ優先探索を2段階で行い、頻度以外の統計量を用いて枝刈りするというものである。
以下においては、まず、単言語での出現文数が多いフレーズの深さ優先探索を定式化し、その次に、2段階の深さ優先探索を行なう方法について説明する。
Next, specific processing contents of the bilingual expression processing apparatus 100 will be described.
Here, a technique for efficiently extracting phrase pairs having a plurality of statistics equal to or greater than a threshold value using a phrase pair enumeration algorithm and a pruning technique will be described. Here, the phrase is an arbitrary length expression composed of one or more continuous words. If frequent expressions are extracted for each of the two languages (here, Japanese and English), the number of expressions that are acquired increases, so the number of combinations of these two languages is enormous, and the amount of data Calculation of many combinations is difficult. However, when searching for an expression pair in which the number of co-occurring sentences is greater than or equal to the threshold, expressions with the number of appearing sentences greater than or equal to the threshold are extracted for each language, and pairs of expressions obtained here (here Then, when a sentence in which a combination of Japanese expression and English expression) co-occurs, many pairs that fall below the threshold are included. Therefore, in the method of the present embodiment, an algorithm that directly searches for phrase pairs in which the number of co-occurring sentences is equal to or greater than a threshold is used. The basic idea of the algorithm of this method is that depth-first search is performed in two stages and pruned using statistics other than frequency.
In the following, a method for formulating a depth-first search for a phrase having a large number of appearing sentences in a single language and then performing a two-step depth-first search will be described.

<1.1 単言語でのフレーズの深さ優先探索手法>
深さ優先探索を利用した、出現文数が多いフレーズの単言語での探索を以下のように定式化する。
単語の集合をW={w,w,・・・,w}とする。文をsとし、文番号をdとし、文番号と文のペア(d,s)の集合をコーパスSとする。フレーズをpとする。単語の系列(語系列)をf=f・・・f(ただし、f∈W,i∈{1,2,・・・,l}と定義する。sとpは系列で表される。コーパスSの中でのフレーズpの出現文数をc(p)とする。
<1.1 Depth-first search method for phrases in a single language>
A search in a single language of a phrase having a large number of appearing sentences using a depth-first search is formulated as follows.
Let W = {w 1 , w 2 ,..., W n } be a set of words. A sentence is s, a sentence number is d, and a set of sentence number and sentence pairs (d, s) is a corpus S. Let the phrase be p. A word sequence (word sequence) is defined as f = f 1 f 2 ... F 1 (where f i εW, iε {1, 2,..., L}. S and p are sequences. Let c (p) be the number of sentences in the phrase p in the corpus S.

単言語での出現文数が閾値ζ(頻度閾値)以上のフレーズの探索とは、任意の自然数ζに対し、c(p)≧ζとなるようなフレーズpをすべて列挙することである。このような列挙は、以下に説明する深さ優先探索に基づくアルゴリズムにより実行することができる。   Searching for a phrase whose number of sentences appearing in a single language is greater than or equal to a threshold ζ (frequency threshold) is to enumerate all phrases p that satisfy c (p) ≧ ζ for an arbitrary natural number ζ. Such enumeration can be performed by an algorithm based on a depth-first search described below.

ここで、アルゴリズムの説明の前に、以下で使用する変数を定義する。ある系列fを含む部分コーパスをXとする(X⊆S)。索引として利用する集合Y,H,Gを次のように定義する。
即ち、Xにおいて、文番号dに対応する文の中において系列fに一致する末尾の単語位置に1を加えた値をrとする。そして、文番号dと値rとのペア(d,r)の集合をYとする。ただし、r が文末の単語位置より大きい場合にはそのペア(d,r)を集合Yに含めない。
部分コーパスXの中の全てのペア(d,s)において、(d,r)∈Yとなるような文番号dおよび値rと、その文における単語位置rの単語gとの組(d,r,g)の集合をHとする。
そして、集合Hに含まれる単語gの集合をGとする。
Here, before describing the algorithm, variables used in the following are defined. Let X be a partial corpus that includes a sequence f (X⊆S). The sets Y, H, and G that are used as indexes are defined as follows.
That is, in X, a value obtained by adding 1 to the last word position matching the sequence f in the sentence corresponding to the sentence number d is set to r. A set of pairs (d, r) of the sentence number d and the value r is Y. However, if r is larger than the word position at the end of the sentence, the pair (d, r) is not included in the set Y.
In all pairs (d, s) in the partial corpus X, a pair (d, r) of a sentence number d and a value r such that (d, r) εY and a word g at a word position r in the sentence Let H be the set of r, g).
A set of words g included in the set H is defined as G.

図5は、ζ=2とした場合に,単語”a”で開始するフレーズを取得する処理の動作を説明的に示す概略図である。つまり、この図は、単言語における深さ優先でのフレーズの探索の例である。   FIG. 5 is a schematic diagram illustrating the operation of a process for acquiring a phrase starting with the word “a” when ζ = 2. In other words, this figure is an example of a phrase search with depth priority in a single language.

深さ優先でのフレーズの探索の処理は、次の手順の通りである。
ステップ1: 初期値として、f=aとし、f=fとする。
ステップ2: fを含む文の文番号dとその文sのペア(d,s)の集合Xを生成するとともに、文番号dと、fが出現した末尾位置プラス1の値rからなるペア(d,r)の集合Yを生成する。
ステップ3: Xの基数であるところの|X|がζ以上(ここでは、ζ=2)の場合にはそのfをフレーズとして出力する。|X|がζ未満の場合には、現在のfについての処理を終了する。
ステップ4: 集合Xと集合Yから、集合Hと集合Gを生成する。そして、fに後続する各単語w(w∈G)について、fの末尾にwを追加したところの、
The processing of searching for a phrase with depth priority is as follows.
Step 1: As initial values, f 1 = a and f = f 1 are set.
Step 2: A set X of a pair (d, s) of a sentence number d and a sentence s of a sentence including f is generated, and a pair (s) of the sentence number d and the end position where f appears plus a value r of 1 ( A set Y of d, r) is generated.
Step 3: If | X |, which is the radix of X, is greater than or equal to ζ (here, ζ = 2), the f is output as a phrase. If | X | is less than ζ, the process for the current f ends.
Step 4: Set H and set G are generated from set X and set Y. And for each word w i (w i ∈G) following f, we added w i to the end of f,

Figure 0005341375
Figure 0005341375

を作成し、さらに、 And then

Figure 0005341375
Figure 0005341375
Figure 0005341375
Figure 0005341375

を作成する。そして、作成したこれらの、 Create And these created,

Figure 0005341375
Figure 0005341375

を新たなf,X,Yとして、上記のステップ3に戻る。
この「新たなf」とは、現在のfに、集合Yの各要素(d,r)について、コーパスX内の文番号dなる文の単語位置rにおける単語gを連結したものである。
As new f, X, and Y, the process returns to step 3 above.
The “new f” is obtained by concatenating the current f with the word g at the word position r of the sentence with the sentence number d in the corpus X for each element (d, r) of the set Y.

上記のステップ1から3までの処理は、探索する対象の探索空間を木(tree)構造と見たときに、その木における現ノードから伸びる各枝につながる副木(sub tree)の探索の処理を再帰的に呼び出している。これを繰り返すことによって、aから始まり、且つc(p)≧2となる、全てのフレーズを抽出することができる。
なお、この探索の際には、深さ優先の探索を行なう。このように深さ優先の探索とすることによって、探索処理の途中で記憶しておくべき情報の量が爆発的に増えるのを防ぐことができる。
The processing from step 1 to step 3 described above is processing for searching for a sub-tree connected to each branch extending from the current node in the tree when the search space to be searched is regarded as a tree structure. Is called recursively. By repeating this, all phrases starting from a and satisfying c (p) ≧ 2 can be extracted.
In this search, a depth-first search is performed. By making the depth-first search in this way, it is possible to prevent an explosive increase in the amount of information to be stored during the search process.

上記手順を図示している実例に適用した場合の具体的処理について説明する。
ノード(1): 図の一番左のノードでは、探索の初期値として、f=aとなっている。そして、コーパスSの中で、系列fに対応する集合Xを求める。すると、(d=1,s=abcd)、(d=2,s=dabc)、(d=3,s=acab)、(d=4,s=bdac)という4つのペアを要素とする集合Xが得られる。ここで|X|=4(|X|≧ζ)であるので、f=aはフレーズとして出力される。そして、新たなfとして、f=ab(d=1,2,3で出現)とf=ac(d=3,4で出現)について、次の探索を行なう。
ノード(1−1): 図中の上の枝の最初のノードは、f=abに対応している。ここでは、|X|=3であるので(|X|≧ζ)、f=abはフレーズとして出力される。そして、新たなfとして、f=abc(d=1,2で出現)について、次の探索を行なう。ここでd=3に対応する文sは、abの後に単語が存在しないため、集合Yには含まれず、よってこれ以上の探索の対象とはならない。
ノード(1−1−1): 次のノードは、f=abcに対応している。ここでは、|X|=2であるので(|X|≧ζ)、f=abcはフレーズとして出力される。そして、新たなfとして、f=abcd(d=1で出現)について、次の探索を行なう。
ノード(1−1−1−1): 次のノードは、f=abcdに対応している。ここでは、|X|=1であるので(|X|<ζ)、f=abcdは出力されない。そして、この枝の処理を終了する。
ノード(1−2): 次に、ノード(1)の直下のもう一つのノードであるノード(1−2)に移る。このノードは、f=acに対応している。ここでは、|X|=2であるので(|X|≧ζ)、f=acはフレーズとして出力される。そして、新たなfとして、f=aca(d=3で出現)について、次の探索を行なう。
ノード(1−2−1): 次のノードは、f=acaに対応している。ここでは、|X|=1であるので(|X|<ζ)、f=acaは出力されない。そして、この枝の処理を終了する。
以上で、f=aを初期値としたときのすべての探索が終了した。
A specific process when the above procedure is applied to the illustrated example will be described.
Node (1): In the leftmost node in the figure, f = a is set as the initial value of the search. Then, in the corpus S, a set X corresponding to the sequence f is obtained. Then, a set having four pairs of elements (d = 1, s = abcd), (d = 2, s = dabc), (d = 3, s = acab), (d = 4, s = bdac) as elements. X is obtained. Since | X | = 4 (| X | ≧ ζ), f = a is output as a phrase. Then, the following search is performed for f = ab (appears when d = 1, 2, 3) and f = ac (appears when d = 3, 4) as new f.
Node (1-1): The first node of the upper branch in the figure corresponds to f = ab. Here, since | X | = 3 (| X | ≧ ζ), f = ab is output as a phrase. Then, the next search is performed for f = abc (appears when d = 1, 2) as a new f. Here, the sentence s corresponding to d = 3 is not included in the set Y because there is no word after ab, and therefore is not subjected to further search.
Node (1-1-1): The next node corresponds to f = abc. Here, since | X | = 2 (| X | ≧ ζ), f = abc is output as a phrase. Then, the next search is performed for f = abcd (appears when d = 1) as a new f.
Node (1-1-1-1): The next node corresponds to f = abcd. Here, since | X | = 1 (| X | <ζ), f = abcd is not output. Then, the processing of this branch is finished.
Node (1-2): Next, the process moves to node (1-2), which is another node immediately below node (1). This node corresponds to f = ac. Here, since | X | = 2 (| X | ≧ ζ), f = ac is output as a phrase. Then, the next search is performed for f = aca (appears when d = 3) as a new f.
Node (1-2-1): The next node corresponds to f = aca. Here, since | X | = 1 (| X | <ζ), f = aca is not output. Then, the processing of this branch is finished.
This completes all searches when f = a is the initial value.

図6は、上記の、単言語でのフレーズの深さ優先探索の処理手順を示す疑似コードである。この疑似コードは、ブロック構造を有する手続き型の言語によるものである。また、この図において、コードの左側の数字は行番号である。
1行目のコードは、φ(空系列)と、コーパスSと、集合Yinitとを実引数として、下に述べる手続きDepthFirstSearchを呼び出すものである。ここで集合Yinitとは、(d,s)∈Sにおける、dと(その文sの中の全ての単語の位置)−1の値との、ペアの集合である。
2行目のコードは、手続きDepthFirstSearchおよびそのパラメータf,X,Yの宣言である。
3行目から14行目までが、手続きDepthFirstSearchの実行部分である。
3行目は、ブロックの始まりを表わすbegin文である。
4行目は、集合Xと集合Yとを基に、集合Hと集合Gとを作る処理である。
5行目は、集合Gに含まれる各々の単語wについて、6行目から13行目までの処理を実行させるための制御文「foreach」である。
6行目から8行目までは、現在のwについて、
FIG. 6 is a pseudo code showing a processing procedure of the phrase depth-first search in the above-described single language. This pseudo code is in a procedural language having a block structure. In this figure, the number on the left side of the code is the line number.
The code on the first line calls the procedure DepthFirstSearch described below using φ (empty series), corpus S, and set Y init as actual arguments. Here, the set Y init is a set of pairs of d and (positions of all words in the sentence s) −1 in (d, s) ∈S.
The code on the second line is a declaration of the procedure DepthFirstSearch and its parameters f, X, and Y.
The third to fourteenth lines are the execution part of the procedure DepthFirstSearch.
The third line is a begin statement representing the beginning of the block.
The fourth line is a process for creating a set H and a set G based on the set X and the set Y.
The fifth line is a control statement “foreach” for executing the processing from the sixth line to the thirteenth line for each word w i included in the set G.
From the 6th line to the 8th line, about the current w i ,

Figure 0005341375
Figure 0005341375

を作成させるための処理である。
9行目から12行目までは、
It is a process for making.
From the 9th line to the 12th line,

Figure 0005341375
Figure 0005341375

の基数が閾値ζ以上の場合には(9行目のif文の条件が真の場合)、現在の If the cardinal number of the is greater than or equal to the threshold ζ (if the condition of the if statement on the ninth line is true),

Figure 0005341375
Figure 0005341375

をフレーズとして出力する(10行目の「output」)とともに、 As a phrase ("output" on line 10)

Figure 0005341375
Figure 0005341375

を実引数として再帰的に手続きDepthFirstSearchを呼び出す(11行目)、という処理である。
なお、9行目のif文の条件が偽の場合には、何もしない。
13行目のコードは、5行目の「foreach」に対応するend文である。
14行目のコードは、3行目の「begin」に対応するend文である。
Is a process of recursively calling the procedure DepthFirstSearch (line 11).
If the condition of the if statement on the 9th line is false, nothing is done.
The code on the 13th line is an end sentence corresponding to “foreach” on the 5th line.
The code on the 14th line is an end statement corresponding to “begin” on the 3rd line.

<1.2 対訳フレーズ候補の抽出方法>
次に、本実施形態の対訳文書対群データ分析処理部2による対訳フレーズ候補の抽出処理の手順について説明する。この手順は、上で図5と図6を参照しながら説明した単言語におけるフレーズ探索の処理手順を拡張している。
以下では、まず共起文数に基づくフレーズ対の列挙アルゴリズムについて述べ、次に対訳らしさの統計的指標について述べ、最後に統計量に基づく枝刈り手法について述べる。
<1.2 Method of extracting parallel translation phrase candidates>
Next, a procedure of bilingual phrase candidate extraction processing by the bilingual document pair data analysis processing unit 2 according to the present embodiment will be described. This procedure extends the phrase search processing procedure in the single language described above with reference to FIGS.
In the following, the enumeration algorithm for phrase pairs based on the number of co-occurrence sentences will be described first, then the statistical index of parallelism will be described, and finally the pruning technique based on statistics will be described.

<1.2.1 共起文数に基づくフレーズ対の列挙アルゴリズム>
まず、パラレルデータの各言語を区別するために、単言語におけるフレーズ探索の際に導入した変数を次のように拡張する。即ち、前で導入した変数に言語を識別するための文字を付加する。第1の言語である言語J(例として、ここでは日本語)についての変数には、変数の右肩に「j」を付け、第2の言語である言語E(例として、ここでは英語)についての変数には、変数の右肩に「e」を付ける。つまり、例えば変数sは日本語の文を示し、変数sは英語の文を示す。また、コーパスSおよびXのそれぞれは、文番号dと言語Jの文sと言語Eの文sとの組(d,s,s)の集合である。なお、パラレルデータは対訳関係にある両言語(言語Jと言語E)の文が文番号を共有するため、言い換えればある文番号dに対応して言語Jの文のsと言語Eの文sが存在しているため、文番号自体には言語を区別するための情報を付加する必要はない。この組(d,s,s)は、対訳表現文書対群データ記憶部1に記憶されている対訳表現文書対群データにあたり、先に説明したデータ構成に対応している。
<1.2.1 Phrase Pair Enumeration Algorithm Based on Co-occurrence Sentence>
First, in order to distinguish each language of parallel data, the variables introduced at the time of phrase search in a single language are expanded as follows. That is, a character for identifying the language is added to the previously introduced variable. The variable for the first language, language J (for example, Japanese here) is appended with “j” on the right shoulder of the variable, and the second language, language E (for example, English here). “E” is attached to the right shoulder of the variable. That is, for example, the variable s j indicates a Japanese sentence, and the variable s e indicates an English sentence. Each of the corpora S and X is a set of sets (d, s j , s e ) of a sentence number d, a sentence s j in language J, and a sentence s e in language E. In parallel data, sentences in both languages (language J and language E) in a parallel translation relationship share sentence numbers. In other words, the sentence s j of language J and the sentence of language E correspond to a sentence number d. Since s e exists, it is not necessary to add information for distinguishing languages to the sentence number itself. This group (d, s j , s e ) corresponds to the bilingual expression document pair group data stored in the bilingual expression document pair group data storage unit 1 and corresponds to the data configuration described above.

図7は、対訳文書対群データ分析処理部2による処理の手順を示す疑似コードであり、このコードは、深さ優先探索に基づく頻出フレーズ対を対訳文書対群データの中から抽出する処理を実現するものである。この図において、コードの左側の数字は行番号である。
図示するように、このコードには、手続きExpandJの定義と、手続きExpandEの定義と、メイン処理部分とが含まれている。メイン処理部分からは手続きExpandJを呼び出し、手続きExpandJの中からは手続きExpandEを呼び出すとともに手続きExpandJを再帰的に呼び出し、手続きExpandEの中からは手続きExpandEを再帰的に呼び出す構造となっている。
FIG. 7 is a pseudo code showing a processing procedure by the bilingual document pair group data analysis processing unit 2. This code extracts a frequent phrase pair based on a depth-first search from the bilingual document pair group data. It is realized. In this figure, the number on the left side of the code is the line number.
As shown in the figure, this code includes the definition of the procedure ExpandJ, the definition of the procedure ExpandE, and the main processing part. The procedure ExpandJ is called from the main processing portion, the procedure ExpandE is called from the procedure ExpandJ, the procedure ExpandJ is recursively called, and the procedure ExpandE is recursively called from the procedure ExpandE.

1行目のコードは、メイン処理部分であり、φ(空系列)と、コーパスSと、集合Y initとを実引数として、手続きExpandJを呼び出すものである。ここで集合Y initとは、(d,s,s)∈Sにおける、文番号dと(その文番号dに対応する言語Jの文sの中の全ての単語の位置)−1の値rとの、ペアの集合である。
2行目のコードは、手続きExpandJおよびそのパラメータf,X,Yの宣言である。
3行目から15行目までが、手続きExpandJの実行部分である。
3行目は、ブロックの始まりを表わすbegin文である。
4行目は、集合Xと集合Yとを基に、集合Hと集合Gとを作る処理である。
5行目は、集合Gに含まれる各々の単語w について、6行目から14行目までの処理を実行させるための制御文「foreach」である。
6行目から8行目までは、現在のw について、
The code on the first line is a main processing part, and calls the procedure ExpandJ with φ (empty series), corpus S, and set Y j init as actual arguments. Here, the set Y j init is the sentence number d in (d, s j , s e ) εS and (the positions of all words in the sentence s j of the language J corresponding to the sentence number d) − A set of pairs with a value r j of 1.
The code on the second line is a declaration of the procedure ExpandJ and its parameters f j , X, Y j .
The third to fifteenth lines are the execution part of the procedure ExpandJ.
The third line is a begin statement representing the beginning of the block.
The fourth line is a process of creating a set H j and a set G j based on the set X and the set Y j .
The fifth line is a control statement “foreach” for causing the processes from the sixth line to the 14th line to be executed for each word w j i included in the set G j .
From the 6th line to the 8th line, about the current w j i ,

Figure 0005341375
Figure 0005341375

を作成させるための処理である。
9行目から12行目までは、
It is a process for making.
From the 9th line to the 12th line,

Figure 0005341375
Figure 0005341375

の基数が閾値ζ以上の場合には(9行目のif文の条件が真の場合)、 If the cardinal number of the is greater than or equal to the threshold ζ (if the condition of the if statement on the ninth line is true)

Figure 0005341375
Figure 0005341375

を作成する(なお、ここで集合Y initとは、(d,s,s)∈Sにおける、文番号dと(その文番号dに対応する言語Eの文sの中の全ての単語の位置)−1の値rとの、ペアの集合である)とともに、手続きExpandEを呼び出し(11行目のcall)、そして手続きExpandJを再帰的に呼び出す(12行目のcall)。ここで手続きExpandEを呼び出す際には、実引数として、 (Here, the set Y e init is the sentence number d in (d, s j , s e ) εS and all of the sentences s e in the language E corresponding to the sentence number d) word position) with a value of -1 r e, as well as a set of pairs), calls the procedure ExpandE (11 line call), and recursively calling the procedure ExpandJ (12 line call). When calling procedure ExpandE here, as an actual argument,

Figure 0005341375
Figure 0005341375

を渡す。また、手続きExpandJを呼び出す際には、実引数として、 give. When calling the procedure ExpandJ, as an actual argument,

Figure 0005341375
Figure 0005341375

を渡す。
なお、9行目のif文の条件が偽の場合には、何もしない。
14行目のコードは、5行目の「foreach」に対応するend文である。
15行目のコードは、3行目の「begin」に対応するend文である。
give.
If the condition of the if statement on the 9th line is false, nothing is done.
The code on the 14th line is an end sentence corresponding to “foreach” on the 5th line.
The code on the 15th line is an end statement corresponding to “begin” on the 3rd line.

16行目のコードは、手続きExpandEおよびそのパラメータf,X,Y,fの宣言である。
17行目から28行目までが、手続きExpandEの実行部分である。
17行目は、ブロックの始まりを表わすbegin文である。
18行目は、集合Xと集合Yとを基に、集合Hと集合Gとを作る処理である。
19行目は、集合Gに含まれる各々の単語w について、20行目から27行目までの処理を実行させるための制御文「foreach」である。
20行目から22行目までは、現在のw について、
The code on the 16th line is a declaration of the procedure ExpandE and its parameters f e , X, Y e , and f j .
The 17th to 28th lines are the execution part of the procedure ExpandE.
The 17th line is a begin statement representing the beginning of a block.
The 18th line is a process for creating a set H e and a set G e based on the set X and the set Y e .
Line 19 is for the word w e i of each included in the set G e, a control statement for executing the processing from the 20th line to line 27 "foreach".
From line 20 to line 22, for the current w e i,

Figure 0005341375
Figure 0005341375

を作成させるための処理である。
23行目から26行目までは、
It is a process for making.
From the 23rd line to the 26th line,

Figure 0005341375
Figure 0005341375

の基数が閾値ζ以上の場合には(23行目のif文の条件が真の場合)、fIf radix is not less than the threshold value ζ of (if the condition is true 23 line if statement), and f j

Figure 0005341375
Figure 0005341375

をフレーズ対として出力するとともに、手続きExpandEを再帰的に呼び出す(25行目のcall)。ここで手続ExpandEを呼び出す際には、実引数として、 As a phrase pair and the procedure ExpandE is recursively called (call on line 25). Here, when calling the procedure ExpandE, as an actual argument,

Figure 0005341375
Figure 0005341375

を渡す。
なお、23行目のif文の条件が偽の場合には、何もしない。
27行目のコードは、19行目の「foreach」に対応するend文である。
28行目のコードは、17行目の「begin」に対応するend文である。
give.
If the condition of the if statement on the 23rd line is false, nothing is done.
The code on the 27th line is an end sentence corresponding to “foreach” on the 19th line.
The code on the 28th line is an end statement corresponding to “begin” on the 17th line.

つまり、疑似コードを用いて上で説明した処理手順では、単言語(言語J)でフレーズを深さ優先探索する手続きExpandJの中で、他方の言語(言語E)のフレーズを深さ優先探索するための手続きExpandEを呼び出す(11行目のコード)といったように、深さ優先探索を2段階で行なっている。また、この処理手順の特徴は、手続きExpandJの中で手続きExpandEを呼び出す(11行目のコード)際に、その2番目の実引数として、対訳文書対群データ全体にあたるコーパスSではなく、   In other words, in the processing procedure described above using the pseudo code, the phrase of the other language (language E) is depth-first searched in the procedure ExpandJ that searches for the phrase in depth priority in the single language (language J). The depth-first search is performed in two stages, such as calling the procedure ExpandE (the 11th line code). In addition, the feature of this processing procedure is that, when the procedure ExpandE is called in the procedure ExpandJ (the 11th line code), the second actual argument is not the corpus S corresponding to the entire bilingual document pair group data,

Figure 0005341375
Figure 0005341375

を渡している点である。これにより、呼び出される手続きExpandEの側ではfが出現する文のみを探索することとなる。これにより、手続きExpandEの中の23行目のコードにおける It is a point that passes. As a result, on the called procedure ExpandE side, only the sentence in which f j appears is searched. As a result, in the code on the 23rd line in the procedure ExpandE

Figure 0005341375
Figure 0005341375

は、パラメータとして渡されたfと手続きExpandEで探索するノードに対応する Corresponds to f j passed as a parameter and the node to be searched by the procedure ExpandE

Figure 0005341375
Figure 0005341375

とのフレーズ対が共起する文数となり、共起文数が閾値ζ以上のフレーズ対を直接列挙することができる。 The number of sentences in which the phrase pair co-occurs, and the phrase pairs having the co-occurrence sentence number equal to or greater than the threshold ζ can be directly listed.

言い換えれば、上で説明した手続きExpandJおよびExpandEの処理を実行することにより、第1の言語(言語J)のデータ内で語系列を探索することによって全ての対訳文書対のデータ(コーパスS)内の当該第1の言語における語系列の出現頻度をカウントし、カウント結果の出現頻度が頻度閾値ζ以上であるような第1の言語における語系列それぞれについて、手続きExpandEを呼び出し、他の言語(言語E)のデータ内で語系列を探索することによって、第1の言語の語系列と他の言語の語系列の共起頻度をカウントし、この共起頻度が頻度閾値ζ以上であるか否かに応じて、対訳フレーズ対候補を抽出している。   In other words, by executing the procedures ExpandJ and ExpandE described above, by searching the word sequence in the data of the first language (language J), all the parallel document pair data (corpus S) For each word sequence in the first language in which the appearance frequency of the count result is equal to or higher than the frequency threshold value ζ, the procedure ExpandE is called and another language (language E) By searching for word sequences in the data, the co-occurrence frequency of the word sequence of the first language and the word sequence of another language is counted, and whether or not the co-occurrence frequency is equal to or higher than the frequency threshold ζ. In accordance with the above, bilingual phrase pair candidates are extracted.

また、上で説明した手続きExpandJおよびExpandEの処理では、それぞれの言語について深さ優先探索を行なっているが、これは、言い換えれば、語系列の探索を順次行なう際に、現在の語系列の次に、現在の語系列の中の一語を置き換えて得られる新たな語系列(この新たな語系列は幅方向に広がる)よりも、現在の語系列に一語を加えて得られる新たな語系列(この新たな語系列は深さ方向に広がる)のほうを、優先して先に探索対象としているということである。   Further, in the processes of the procedures ExpandJ and ExpandE described above, a depth-first search is performed for each language. In other words, when the search for a word sequence is performed sequentially, In addition, a new word obtained by adding one word to the current word sequence rather than a new word sequence obtained by replacing one word in the current word sequence (this new word sequence spreads in the width direction). This means that the sequence (this new word sequence spreads in the depth direction) is preferentially searched first.

<1.2.2 対訳らしさの統計的指標>
対訳文書対群データ分析処理部2は、上述した探索処理の際に、フレーズ対を抽出する処理を行ないながら、同時にフレーズ対の統計的指標値を算出する処理を行なう。以下、統計的指標について説明する。
<1.2.2 Statistical indicators of parallelism>
The bilingual document pair group data analysis processing unit 2 performs a process of calculating a statistical index value of the phrase pair at the same time as performing the process of extracting the phrase pair in the search process described above. Hereinafter, statistical indicators will be described.

上述した列挙アルゴリズムは、共起文数に基づいてフレーズ対を列挙するものであるが、これによって列挙されるフレーズ対の中には、実際には対訳である可能性が低いものも多く含まれてしまう。そこで、対訳らしさを示す指標として、以下で説明する4種類の統計量を用いることによって、実際に対訳である可能性が高いものを対訳フレーズ候補として選択することが可能となる。   The enumeration algorithm described above enumerates phrase pairs based on the number of co-occurrence sentences, but there are many phrase pairs enumerated by this that are unlikely to be actually translated. End up. Therefore, by using the four types of statistics described below as an index indicating the likelihood of parallel translation, it is possible to select those that are actually highly likely to be parallel translations as parallel phrase candidates.

そこで、対訳文書対群データ分析処理部2は、これら4種類の統計量を算出して、算出された統計量が所定の閾値以上となるフレーズ対のみを、対訳フレーズ候補として抽出し、対訳候補フレーズデータとする。また、対訳文書対群データ分析処理部2は、算出した統計量を、フレーズ対と関連付けて、対訳フレーズ候補データ記憶部3に書き込んでおく。言い換えれば、対訳文書対群データ分析処理部2は、抽出する対訳フレーズ対候補それぞれについて対訳フレーズ対である確からしさを表わす統計量を算出し、算出した統計量を対訳フレーズ対候補とともに関連付けて出力する(対訳フレーズ候補データ記憶部3に書き込む)。
これにより、フレーズ対と関連付けたれた統計量の値を後で利用することができるようになる。なお、これら4種類の統計量は、図4にも示して、対訳フレーズ候補データの一部として説明した通りである。
Therefore, the bilingual document pair data analysis processing unit 2 calculates these four types of statistics, extracts only phrase pairs for which the calculated statistics are equal to or greater than a predetermined threshold as bilingual phrase candidates, Use phrase data. The parallel document pair data analysis processing unit 2 writes the calculated statistic in the parallel phrase candidate data storage unit 3 in association with the phrase pair. In other words, the bilingual document pair data analysis processing unit 2 calculates a statistic indicating the probability of being a bilingual phrase pair for each bilingual phrase pair candidate to be extracted, and outputs the calculated statistic in association with the bilingual phrase pair candidate. (Write to the parallel translation phrase candidate data storage unit 3).
As a result, the value of the statistic associated with the phrase pair can be used later. These four types of statistics are as shown in FIG. 4 and described as part of the parallel phrase candidate data.

本実施形態におけるこれら4種類の統計量とは、有意確率、Dice係数、フレーズ平均生成確率,フレーズ生成確率である。
<1.2.2.1 有意確率>
統計的仮説検定であるフィッシャーの正確確率検定(Fisher’s Exact Test)の片側検定をフレーズ対の共起文数について行い、その有意確率(p−value)を2倍して負の対数をとった値を統計量として用いる。つまり、式で表わすと、
−log(p−value × 2)
である。
These four types of statistics in the present embodiment are significance probability, Dice coefficient, phrase average generation probability, and phrase generation probability.
<1.2.2.1 Significance probability>
A one-sided test of Fisher's Exact Test, which is a statistical hypothesis test, is performed on the number of co-occurrence sentences in a phrase pair, and the significance (p-value) is doubled to obtain a negative logarithm. Values are used as statistics. In other words, when expressed as an expression:
-Log (p-value x 2)
It is.

ここで、図8は、コーパス中のデータ数(文数)a,a,a,aを要素とする2×2(2行・2列)の分割表である。a,a,a,a各々の定義は次の通りである。
は、言語Jの系列fと言語Eの系列fがどちらも出現するコーパス中のデータ数である。つまり、分割表におけるfの行でfの列の位置がaである。
は、系列fが出現せず、且つ系列fが出現するデータ数である。つまり、分割表におけるfの行で¬(not)fの列の位置がaである。
は、系列fが出現し、且つ系列fが出現しないデータ数である。つまり、分割表における¬fの行でfの列の位置がaである。
は、系列fも系列fもどちらも出現しないデータ数である。つまり、分割表における¬fの行で¬fの列の位置がaである。
Here, FIG. 8 is a 2 × 2 (2 rows / 2 columns) contingency table having the number of data (number of sentences) a 1 , a 2 , a 3 , a 4 in the corpus as elements. The definitions of a 1 , a 2 , a 3 , and a 4 are as follows.
a 1 is the number of data in the corpus of sequences f e sequence f j and Language E language J is neither appear. In other words, the position of the row of f j in the row of the f e in the contingency table is a 1.
a 2 is the number of data in which the series f j does not appear and the series f e appears. In other words, the position of the column of the row with ¬ (not) f j of f e in the contingency table is a 2.
a 3 is the number of data in which the sequence f j appears and the sequence f e does not appear. That is, in the contingency table, the position of the column f j in the row ƒ e is a 3 .
a 4 is the number of data in which neither the sequence f j nor the sequence fe appears. In other words, the position of the row of ¬F j in the row of ¬F e in contingency table is a 4.

このとき、p−valueは、次の式(1)で計算することができる。   At this time, p-value can be calculated by the following equation (1).

Figure 0005341375
但し、
Figure 0005341375
Figure 0005341375
However,
Figure 0005341375

上の式において、min(a,a)は、aあるいはaのいずれか小さいほうを値とする関数である。
なお、対訳文書対群データ分析処理部2は、手続きExpandJの中の8行目において手続きExpandEを呼び出す際に、2個目の引数として、
In the above formula, min (a 2 , a 3 ) is a function whose value is the smaller of a 2 or a 3 .
When the parallel document pair data analysis processing unit 2 calls the procedure ExpandE on the 8th line in the procedure ExpandJ, as the second argument,

Figure 0005341375
Figure 0005341375

を用いているが、さらに別に、2個目の引数としてSを用いて手続きExpandEを呼び出すことによってコーパスS全体を対象とするfの探索ができるため、その結果としてa+aの値を得ることができる。 However, it is possible to search fe for the entire corpus S by calling the procedure ExpandE using S as the second argument, and as a result, the value of a 1 + a 2 is obtained. Can be obtained.

<1.2.2.2 Dice係数>
図8に示した2×2分割表の値を用いて、対訳文書対群データ分析処理部2は、次の式(2)で表わされるDice係数を計算する。
<1.2.2.2 Dice coefficient>
Using the values of the 2 × 2 contingency table shown in FIG. 8, the bilingual document pair group data analysis processing unit 2 calculates a Dice coefficient represented by the following equation (2).

Figure 0005341375
Figure 0005341375

<1.2.2.3 フレーズ平均生成確率>
対訳文書対群データ分析処理部2は、次の式(3)で定義されるフレーズ平均生成確率を計算する。
<1.2.2.3 Phrase average generation probability>
The bilingual document pair data analysis processing unit 2 calculates a phrase average generation probability defined by the following equation (3).

Figure 0005341375
Figure 0005341375

上の式における単語の条件付き確率Pは、EMアルゴリズムにより最尤推定する確率モデルであるIBM model 1を用いる。なお、IBM model 1については、次の文献に記載されている。文献:Franz Josef Och,Hermann Ney,“A Systematic Comparison of Various Statistical Alignment Models”,Computational Linguistics,2003年,volume 29,number 1,pp.19−51,March 2003.
<1.2.2.4 フレーズ生成確率>
対訳文書対群データ分析処理部2は、次の式(4)で定義されるフレーズ生成確率を計算する。
The conditional probability P of the word in the above formula uses IBM model 1, which is a probability model that is most likely estimated by the EM algorithm. The IBM model 1 is described in the following document. Literature: Franz Josef Och, Hermann Ney, “A Systematic Comparison of Various Statistical Alignment Models”, Computational Linguistics, 2003, volume 29, number 1, pp. 19-51, March 2003.
<1.2.2.4 Phrase generation probability>
The bilingual document pair data analysis processing unit 2 calculates a phrase generation probability defined by the following equation (4).

Figure 0005341375
Figure 0005341375

上の式における単語の条件付き確率Pは、EMアルゴリズムにより最尤推定する確率モデルであるIBM model 1を用いる。   The conditional probability P of the word in the above formula uses IBM model 1, which is a probability model that is most likely estimated by the EM algorithm.

<1.2.3 統計量に基づく枝刈りの方法>
前述した処理手順によって、対訳文書対群データ分析処理部2はコーパス内のフレーズ対の探索を行なってフレーズ対候補を抽出することができるが、ここで述べる方法を用いることによって、さらに探索の処理時間を削減することも可能である。
具体的には、対訳文書対群データ分析処理部2は、計算量を削減するために探索中に、統計量を用いて探索対象の空間の枝刈りを行なう。
<1.2.3 Pruning method based on statistics>
According to the processing procedure described above, the bilingual document pair data analysis processing unit 2 can search for phrase pairs in the corpus and extract phrase pair candidates. By using the method described here, further search processing can be performed. It is also possible to reduce time.
Specifically, the bilingual document pair group data analysis processing unit 2 prunes the space to be searched using a statistic during searching in order to reduce the amount of calculation.

前述した処理手順では、言語Jと言語Eのフレーズ対の候補のうち、共起文数が閾値ζ以上のものを列挙することとした。ここでは、たとえ共起文数が閾値ζ以上であっても前記の統計量が所定の閾値未満となるものを探索空間から除外することにより計算量を削減する。しかしながら、探索処理の途中で前記の4種類の統計量(有意確率、Dice係数、フレーズ平均生成確率、フレーズ生成確率)が閾値以上となるフレーズ対を直接列挙することは困難である。   In the processing procedure described above, among the phrase pair candidates of language J and language E, those having the number of co-occurrence sentences equal to or greater than the threshold ζ are listed. Here, even if the number of co-occurrence sentences is greater than or equal to the threshold ζ, the amount of calculation is reduced by excluding those whose statistic is less than the predetermined threshold from the search space. However, it is difficult to directly enumerate phrase pairs whose four types of statistics (significance probability, Dice coefficient, phrase average generation probability, and phrase generation probability) are equal to or greater than a threshold value during the search process.

そこで、探索中に、これから探索する範囲の空間に統計量が閾値以上となるフレーズ対が出現するかどうかを予測し、その結果により、出現する見込みが少ないと予測した範囲を探索空間から除く枝刈りを行なう。具体的には次の通りである。   Therefore, during the search, it is predicted whether a phrase pair whose statistic is equal to or greater than the threshold value will appear in the space of the range to be searched in the future. Mow. Specifically, it is as follows.

対訳文書対群データ分析処理部2は、手続きExpandEを再帰的に呼び出して深さ優先の探索を行なっていくが、その探索途中において、言語Eの現在の系列(フレーズ候補)である   The bilingual document pair group data analysis processing unit 2 performs a depth-first search by recursively calling the procedure ExpandE, and the current sequence (phrase candidate) of the language E is in the middle of the search.

Figure 0005341375
Figure 0005341375

の統計量が閾値(統計量閾値)未満で、かつひとつ前の(言い換えれば探索木において一段階分上の)系列であるfの統計量よりも小さくなった場合には、それ以上深く探索しても(言い換えれば語を加えて系列をさらに長く伸ばしても)統計量は十分には大きくならないと予測して、それ以上深い探索を行なわずにその段階で打ち切る。言い換えれば、それ以上深い枝(つまり、その枝に続く探索空間)を刈る。 If the statistic of is less than the threshold (statistics threshold) and becomes smaller than the statistic of the previous fe (in other words, one step higher in the search tree), the search is further deeper. Even so (in other words, even if a word is added and the sequence is further extended), the statistic is predicted not to be sufficiently large, and the search is terminated at that stage without further deep search. In other words, a deeper branch (that is, the search space following the branch) is mowed.

上記のような予測が有効である理由は次の通りである。言語Jのフレーズpの対訳であるところの言語Eの対訳のpが長い表現である場合、pの先頭からの部分的な系列fは、深さ方向への探索に伴ってその長さが対訳のpに近づくほど統計量が大きくなることが期待される。つまり、統計量が所定の閾値未満の場合であって、且つ系列を一語分伸ばしても統計量がより小さくなってしまうような場合は、それ以上系列を延長しても統計量が当該閾値以上にはならないことが期待される。 The reason why the above prediction is effective is as follows. If p e bilingual phrase p j bilingual a is at the Language E language J is long representation, partial sequence f e from the beginning of the p e is the with the search in the depth direction it is expected that the length becomes larger statistics closer to the bilingual of p e. In other words, if the statistic is less than the predetermined threshold value and the statistic becomes smaller even if the sequence is extended by one word, the statistic will remain even if the sequence is further extended. It is expected that it will not be more.

図9は、枝刈り手法を適用した探索処理の手順を示す疑似コードである。この図において、コードの左側の数字は行番号である。この図に示す手続きExpandEのコードによって図7で説明した手続きExpandEのコードを置き換え、探索処理をすることによって、上で説明した枝刈りしながらの探索が行なえる。この疑似コードでは、統計量を一つの変数uとして簡略的に表現しているが、判断に用いる統計量は複数であっても良い。複数の統計量を用いて枝刈りを行なうか否かを判断する場合にも、この変数uをベクトルとみなして、そのベクトルの大小関係を適宜定義して閾値(複数の統計量のベクトル)との関係を判断すれば良いので、本質的にはこの図に示すコードの処理手順を適用できる。   FIG. 9 is a pseudo code showing a procedure of search processing to which the pruning technique is applied. In this figure, the number on the left side of the code is the line number. By replacing the code of the procedure ExpandE described in FIG. 7 with the code of the procedure ExpandE shown in this figure and performing a search process, the above-described search while pruning can be performed. In this pseudo code, a statistic is simply expressed as one variable u, but a plurality of statistic may be used for determination. Even when determining whether or not to perform pruning using a plurality of statistics, the variable u is regarded as a vector, and a magnitude relationship between the vectors is appropriately defined and a threshold value (a vector of a plurality of statistics) is defined. Therefore, the code processing procedure shown in this figure is essentially applicable.

1行目のコードは、手続きExpandEおよびそのパラメータf,X,Y,f,uの宣言である。手続きExpandEがパラメータとして受け取るuは、系列fに対応する統計量である。
2行目から18行目までが、手続きExpandEの実行部分である。
2行目は、ブロックの始まりを表わすbegin文である。
3行目は、集合Xと集合Yとを基に、集合Hと集合Gとを作る処理である。
4行目は、集合Gに含まれる各々の単語w について、5行目から17行目までの処理を実行させるための制御文「foreach」である。
5行目から7行目までは、現在のw について、
The code on the first line is a declaration of the procedure ExpandE and its parameters f e , X, Y e , f j and u. U received as a parameter by the procedure ExpandE is a statistic corresponding to the sequence fe .
The second to the 18th lines are the execution part of the procedure ExpandE.
The second line is a begin statement representing the beginning of the block.
The third line is a process of creating a set H e and a set G e based on the set X and the set Y e .
The fourth line, the word w e i of each included in the set G e, a control statement for executing the processing from the fifth line to the 17th line "foreach".
From fifth to seventh lines, for the current w e i,

Figure 0005341375
Figure 0005341375

を作成させるための処理である。
8行目は、
It is a process for making.
The eighth line is

Figure 0005341375
Figure 0005341375

の基数が閾値ζ以上であるか否かを条件とする条件節を備えたif文である。この条件が真の場合には、9行目から15行目までの処理を実行する。
9行目は、系列fと系列
This is an “if” statement with a conditional clause that makes a condition whether or not the cardinal number of the above is greater than or equal to a threshold value ζ. When this condition is true, the processing from the 9th line to the 15th line is executed.
The ninth line is the series f j and the series

Figure 0005341375
Figure 0005341375

を対とするときの統計量である Is the statistic when pairing

Figure 0005341375
Figure 0005341375

を算出する処理である。
10行目は、9行目で算出した統計量が所定の閾値τ(統計量閾値)以上であるか否かを条件とする条件節を備えたif文である。この条件が真の場合には、系列fと系列
Is a process for calculating.
The 10th line is an “if” statement having a conditional clause that makes a condition whether or not the statistic calculated in the 9th line is equal to or greater than a predetermined threshold τ (statistical threshold). If this condition is true, the sequence f j and the sequence

Figure 0005341375
Figure 0005341375

をフレーズ対として出力する(11行目)とともに、手続きExpandEを再帰的に呼び出す(12行目)。
10行目の条件が偽の場合には、13行目のif文の中の
Is output as a phrase pair (line 11) and the procedure ExpandE is recursively called (line 12).
If the condition on line 10 is false, the if statement on line 13

Figure 0005341375
Figure 0005341375

が真である場合(言い換えれば、9行目で算出した統計量が、ひとつ前からパラメータとして受け取った統計量uよりも大きい場合)、現在のフレーズ対を出力することはないものの、さらに深く探索するために手続きExpandEを再帰的に呼び出す(14行目)。
12行目あるいは14行目の処理で手続きExpandEを呼び出す場合の実引数は、
Is true (in other words, the statistic calculated in the 9th line is larger than the statistic u received as a parameter from the previous line), the current phrase pair will not be output, but a deeper search will be performed. To do this, the procedure ExpandE is called recursively (line 14).
The actual argument when calling procedure ExpandE in the processing of the 12th or 14th line is

Figure 0005341375
Figure 0005341375

である。
8行目のif文の条件が偽の場合には、何もしない。
17行目のコードは、4行目の「foreach」に対応するend文である。
18行目のコードは、2行目の「begin」に対応するend文である。
以上のように、ここに示した処理手順の特徴は、たとえフレーズ対候補の共起文数が閾値ζ以上であっても、特徴量が閾値τ以上でない限りはそのフレーズ対を出力せず、さらに、特徴量が一つ前のそれよりも低下した場合には当該枝に関してはそれ以上の深さ優先の探索(手続きExpandEの再帰的呼び出し)すら行なわない(枝刈りしている)ということである。
It is.
If the condition of the if statement on the 8th line is false, nothing is done.
The code on the 17th line is an end sentence corresponding to “foreach” on the 4th line.
The code on the 18th line is an end statement corresponding to “begin” on the 2nd line.
As described above, the feature of the processing procedure shown here is that even if the number of co-occurrence sentences of a phrase pair candidate is equal to or greater than the threshold ζ, the phrase pair is not output unless the feature amount is equal to or greater than the threshold τ. Furthermore, when the feature value is lower than that of the previous one, no further depth-first search (recursive call of procedure ExpandE) is performed on the branch (pruning). is there.

なお、枝刈りするか否かの判断を行なう際には、次の系列に関する有意確率(−log(p−value × 2)の値)とDice係数の両方ともが、現在の系列に関するそれらの値よりも小さくなったときに、次の系列の枝を刈るようにすることが好適である。このように、これら2種類の統計量が両方とも悪く(小さく)なる場合に限って枝刈りするようにしたことで、枝刈りのし過ぎを防止でき、従って、計算量を削減しながらも必要な対訳フレーズ候補を十分に抽出することができる。   When determining whether or not to prun, both the significant probability (the value of -log (p-value x 2)) and the Dice coefficient related to the next series are those values related to the current series. It is preferable that the branch of the next series is cut when it becomes smaller. In this way, pruning is performed only when both of these two types of statistics are worse (smaller), so that excessive pruning can be prevented, and therefore it is necessary while reducing the amount of calculation. Can be extracted sufficiently.

以上、枝刈りを行なう手続きExpandEの処理を言い換えれば、他の言語(言語E)のデータ内での語系列の探索中に、第1の言語(言語J)の語系列と前記他の言語の語系列との組が対訳フレーズ組である確からしさを表わす統計量を算出し(図9の疑似コードの9行目)、現在の言語Eの語系列に関して算出した統計量が表わす確からしさが、現在の言語Eの語系列から一語を除いた語系列(つまり、これは、探索空間の木における親ノードに対応する語系列)について既に算出されていた統計量(その疑似コードでは、手続きExpandEの第5パラメータである変数u)が表わす確からしさよりも低く(その疑似コードの13行目のif文における比較)、かつ閾値(統計量閾値τ)が表わす確からしさよりも低い場合(その疑似コードの10行目のif文における比較)には、以後の、現在の言語Eの語系列に一語を加えて得られる新たな語系列の探索を抑止する(つまり、その疑似コードの14行目に記述されている手続きExpandEの再帰的呼び出しを行なわない)。   As described above, in other words, the processing of the procedure ExpandE that performs pruning is performed, while the word sequence of the first language (language J) and the language of the other language are searched during the search of the word sequence in the data of another language (language E). A statistic representing the probability that the pair with the word sequence is a parallel phrase set is calculated (line 9 of the pseudo code in FIG. 9), and the probability represented by the statistic calculated with respect to the current language E word sequence is: A statistic that has already been calculated for a word sequence obtained by removing one word from the current language E word sequence (that is, the word sequence corresponding to the parent node in the tree of the search space) (in the pseudo code, procedure ExpandE Variable u) which is the fifth parameter of (the comparison in the if statement of the 13th line of the pseudo code) and lower than the probability represented by the threshold (statistic threshold τ) In the comparison of the if code on the 10th line of the similar code, the search for a new word sequence obtained by adding one word to the current language E word sequence is suppressed (that is, the pseudo code 14). Do not recursively call the procedure ExpandE described in the line).

<2. フレーズ対のアラインメント>
次に、対訳フレーズ候補データに基づいて、与えられる対訳文書対におけるフレーズ対のアラインメントを行なう処理について説明する。
図10は、アラインメント処理を行なうための対訳表現処理装置200の機能構成を示すブロック図である。図示するように、対訳表現処理装置200は、対訳フレーズ候補データ記憶部3と、対訳辞書データ記憶部4と、対訳文書対データ入力部5と、対訳フレーズ候補取得部6と、対訳フレーズ候補順位付け処理部7と、アラインメント処理部8とを含んで構成され、そのアラインメント処理の結果を出力する。
<2. Phrase pair alignment>
Next, processing for aligning phrase pairs in a given bilingual document pair based on bilingual phrase candidate data will be described.
FIG. 10 is a block diagram showing a functional configuration of the parallel expression processing apparatus 200 for performing the alignment process. As shown in the figure, the bilingual expression processing apparatus 200 includes a bilingual phrase candidate data storage unit 3, a bilingual dictionary data storage unit 4, a bilingual document pair data input unit 5, a bilingual phrase candidate acquisition unit 6, and a bilingual phrase candidate rank. It includes an attaching processing unit 7 and an alignment processing unit 8, and outputs the result of the alignment processing.

対訳フレーズ候補データ記憶部3は、前述した処理によって作成された対訳フレーズ候補データを記憶している。つまり、対訳フレーズ候補データとは、複数言語のそれぞれによる語系列を関連付けてなる対訳フレーズ対(組)候補を複数有するものである。対訳フレーズ候補データの構成については、図4を参照して説明した通りである。   The bilingual phrase candidate data storage unit 3 stores bilingual phrase candidate data created by the process described above. In other words, the parallel phrase candidate data includes a plurality of parallel phrase pair (group) candidates in which word sequences in a plurality of languages are associated with each other. The configuration of the bilingual phrase candidate data is as described with reference to FIG.

対訳辞書データ記憶部4は、二言語間の対訳フレーズ同士を関連付けて保持している対訳辞書データを記憶する。このデータは、語学的には充分な信頼度を有するデータである。但し、単言語でのフレーズの出現頻度や、二言語間でのフレーズ対の共起頻度や、フレーズの長さ(語数)などに基づく優先度を、付加的に、フレーズ対に関連付けて保持するようにしても良い。この優先度がフレーズの長さにも依存する理由は、例えば英語のイディオムに直接対応する日本語のフレーズが、そのイディオムを構成する個々の語に対応する日本語の語を組み合わせて成立するフレーズよりも、対訳フレーズとして優先されるべきである場合などがあるためである。
つまり、対訳辞書データ記憶部4は、複数言語(言語Jおよび言語E)のそれぞれによる語系列を関連付けてなる対訳フレーズを複数有する対訳辞書データを記憶する。
The bilingual dictionary data storage unit 4 stores bilingual dictionary data that holds bilingual bilingual phrases associated with each other. This data has sufficient reliability in terms of language. However, the priority based on the frequency of appearance of phrases in a single language, the frequency of co-occurrence of phrase pairs between two languages, the length (number of words) of phrases, etc. are additionally stored in association with the phrase pairs. You may do it. The reason why this priority also depends on the length of the phrase is, for example, a phrase that is formed by combining a Japanese word corresponding directly to an English idiom with a Japanese word corresponding to each individual word constituting the idiom This is because there are cases where priority should be given to the translated phrase rather than the case.
That is, the bilingual dictionary data storage unit 4 stores bilingual dictionary data having a plurality of bilingual phrases associated with word sequences in a plurality of languages (language J and language E).

対訳文書対データ入力部5は、アライメント処理の対象となる対訳文書の入力を受け付ける機能を有する。対訳文書対データ入力部5は、具体的には、利用者からの入力を受け付けるキーボード等であったり、ハードディスク装置からテキストを読み取る読み取り手段であったり、光学的に文字を読み取って認識するOCR(光学式文字認識,Optical Character Recognition)装置など、処理対象のテキストを取り込む手段である。   The bilingual document pair data input unit 5 has a function of receiving input of a bilingual document to be subjected to alignment processing. More specifically, the bilingual document pair data input unit 5 is a keyboard or the like that receives input from a user, a reading unit that reads text from a hard disk device, or an OCR (optical character that is read and recognized). It is means for capturing text to be processed, such as an optical character recognition (Optical Character Recognition) device.

対訳フレーズ候補取得部6は、対訳フレーズ候補データ記憶部3や対訳辞書データ記憶部4から読み取ったデータを参照することにより、対訳文書対データ入力部5が取り込んだ対訳文書対に合致する対訳フレーズ候補を全て取得する。対訳フレーズ候補が「合致する」とは、その対訳フレーズ候補の各言語のフレーズが、対訳文書対の中のそれぞれの言語に含まれている状態である。なお、このとき、対訳フレーズ候補取得部6は、対訳フレーズ候補データの中から取得した対訳フレーズ候補と、対訳辞書データから取得した対訳フレーズ候補とを区別する情報も保持しておく。また、対訳フレーズ候補データの中から取得した対訳フレーズ候補については、その統計量の値も関連付けて保持しておく。また、対訳辞書データが上記の優先度のデータを有している場合は、対訳辞書データの中から取得した対訳フレーズ候補については、その優先度の値も関連付けて保持しておく。
言い換えれば、対訳フレーズ候補取得部6は、複数言語それぞれによる文書を関連付けてなる対訳文書を表わす対訳文書対(組)データを基に、対訳フレーズ候補データ記憶部3から対訳フレーズ候補データを読み出し、複数言語の全てについて(つまり言語Jと言語Eの両方について)対訳文書の中に語系列が存在するような対訳フレーズ組候補を選択して取得する。
また、対訳フレーズ候補取得部6は、対訳辞書データ記憶部4から対訳辞書データを読み出し、対訳辞書に登録されているエントリであって、複数言語の全てについて対訳文書対の中に当該エントリの語系列が存在するような対訳フレーズを選択して取得する。
The bilingual phrase candidate acquisition unit 6 refers to the data read from the bilingual phrase candidate data storage unit 3 and the bilingual dictionary data storage unit 4, thereby matching the bilingual document pair captured by the bilingual document pair data input unit 5. Get all candidates. The phrase “matched” with the parallel phrase candidate is a state in which the phrase of each language of the parallel phrase candidate is included in each language in the parallel document pair. At this time, the translation phrase candidate acquisition unit 6 also holds information for distinguishing between the translation phrase candidates acquired from the translation phrase candidate data and the translation phrase candidates acquired from the translation dictionary data. In addition, the bilingual phrase candidates acquired from the bilingual phrase candidate data are also stored in association with their statistical values. Further, when the bilingual dictionary data has the above-mentioned priority data, the bilingual phrase candidates acquired from the bilingual dictionary data are also stored in association with the priority values.
In other words, the bilingual phrase candidate acquisition unit 6 reads the bilingual phrase candidate data from the bilingual phrase candidate data storage unit 3 based on the bilingual document pair (group) data representing the bilingual document formed by associating documents in each of a plurality of languages. For all of a plurality of languages (that is, for both the language J and the language E), a bilingual phrase set candidate in which a word series exists in the bilingual document is selected and acquired.
The parallel phrase candidate acquisition unit 6 reads the parallel dictionary data from the parallel dictionary data storage unit 4 and is an entry registered in the parallel dictionary, and includes the word of the entry in the parallel document pair for all of a plurality of languages. Select and acquire bilingual phrases that have a series.

対訳フレーズ候補順位付け処理部7は、フレーズ候補取得部6によって取得された順位付けを行なう。順位付けはスコア等に基づくものである。順位およびスコアの詳細については後述する。対訳フレーズ候補順位付け処理部7が順位付けを行なうことによって、対訳フレーズ候補取得部6によって取得されたすべての対訳フレーズ候補に全順序が与えられる。言い換えれば、対訳フレーズ候補取得部6取得されたすべての対訳フレーズ候補の中から任意に選んだ2つの対訳フレーズ候補について、一方が上位で他方が下位であるか或いはこれらが同順位であるかが決定的となる。   The parallel phrase candidate ranking processing unit 7 performs ranking obtained by the phrase candidate obtaining unit 6. Ranking is based on a score or the like. Details of the ranking and score will be described later. The bilingual phrase candidate ranking processing unit 7 ranks all the translated phrase candidates acquired by the bilingual phrase candidate acquiring unit 6 in the entire order. In other words, about two bilingual phrase candidates arbitrarily selected from all the bilingual phrase candidates acquired by the bilingual phrase candidate acquiring unit 6, whether one is higher and the other is lower or they are in the same rank? Become decisive.

アラインメント処理部8は、対訳フレーズ候補順位付け処理部7によって付けられた対訳フレーズ候補の順位に従って、所定の手順で包含的にアラインメントを行い、その処理結果を出力する。「包含的」の定義や、アラインメントの処理手順については後述する。   The alignment processing unit 8 performs inclusive alignment in a predetermined procedure according to the order of the parallel translation phrase candidates assigned by the parallel translation phrase candidate ranking processing unit 7 and outputs the processing result. The definition of “inclusive” and the alignment processing procedure will be described later.

なお、後述するように、本実施形態では、アラインメント結果を利用する統計量(対訳フレーズ候補アラインメント率)にも基づいてスコアを算出し、このスコアに基づいた医薬フレーズ候補の順位付けを行なっている。よって、対訳フレーズ候補順位付け処理部7の処理とアラインメント処理部8の処理とを複数回繰り返すようにしている。このとき、最初の順位付けでは、アラインメント処理結果がないため、アラインメント処理結果に基づく統計量を使わずにスコアを計算し、順位付けを行ない、その順位に基づいてアラインメント処理を行なう。その結果、アラインメント処理結果が得られるため、2回目以降は、アラインメント結果を利用する統計量を利用してアラインメント処理を行なえるようになる。2回目のアラインメント処理結果は最初のアラインメント結果より信頼性が高いので、2回目のアラインメント処理結果からさらにまたアラインメント処理結果を利用する統計量を計算し、その結果の順位に基づいて3回目のアラインメントを行なう。このように、処理結果が所定範囲に収束するまで、上記の繰り返しを行なっても良いし、予め定めた所定回数(例えば、3回)で繰り返しを停止するようにしても良い。   As will be described later, in this embodiment, a score is calculated based on a statistic (translation phrase candidate alignment rate) using the alignment result, and ranking of the medical phrase candidates is performed based on this score. . Therefore, the process of the bilingual phrase candidate ranking processing unit 7 and the process of the alignment processing unit 8 are repeated a plurality of times. At this time, since there is no alignment processing result in the first ranking, the score is calculated without using the statistic based on the alignment processing result, ranking is performed, and the alignment processing is performed based on the ranking. As a result, since the alignment processing result is obtained, the alignment processing can be performed by using a statistic that uses the alignment result after the second time. Since the second alignment processing result is more reliable than the first alignment result, a statistic that uses the alignment processing result is calculated again from the second alignment processing result, and the third alignment is performed based on the ranking of the result. To do. As described above, the above-described repetition may be performed until the processing result converges within a predetermined range, or the repetition may be stopped at a predetermined number of times (for example, three times).

次に、対訳表現処理装置200による処理の詳細について説明する。以下では、まずアラインメントの方法について述べ、次にアラインメントで利用する統計的な特徴量について述べ、その後スコアの計算方法について述べ、最後に位置選択手法について述べる。   Next, the details of the processing by the bilingual expression processing device 200 will be described. In the following, the alignment method will be described first, then the statistical feature amounts used in the alignment will be described, the score calculation method will be described, and finally the position selection method will be described.

<2.1 アラインメントの方法>
対訳フレーズ候補順位付け処理部7は、対訳フレーズ候補取得部6によって取得された対訳フレーズについて、対訳らしさの順位付けを行なう。対訳らしさの順位は次のように決定する。即ち、まず、前述した対訳辞書データに登録がある対訳フレーズ候補をまとめて便宜的にティア1とする。次に、ティア1には含まれず、且つ、フレーズ対の両言語側に内容語類を含む対訳フレーズ候補であってそのスコアが所定の閾値以上のものをまとめてティア2とする。次に、ティア1にも2にも含まれず、且つ、そのスコアが所定の閾値以上の対訳フレーズ候補をまとめてティア3とする。
ティア1から3までのいずれにも入らなかった対訳フレーズ候補(即ち、スコアが上記の各閾値に未たなかったもの)は、使われない。
<2.1 Alignment method>
The bilingual phrase candidate ranking processing unit 7 ranks the parallelism of the bilingual phrases acquired by the bilingual phrase candidate acquiring unit 6. The order of parallelism is determined as follows. That is, first, the translation phrase candidates registered in the aforementioned translation dictionary data are collectively referred to as Tier 1 for convenience. Next, candidates for bilingual phrases that are not included in tier 1 and that include content words on both sides of the phrase pair and whose scores are equal to or higher than a predetermined threshold are collectively referred to as tier 2. Next, candidates for parallel phrases that are not included in tiers 1 and 2 and whose scores are equal to or higher than a predetermined threshold are collectively referred to as tier 3.
Bilingual phrase candidates that are not included in any of Tiers 1 to 3 (that is, those whose scores are not in the above thresholds) are not used.

ここで、内容語類とは、日本語では一般的な名詞や動詞や形容詞など内容的な意味を持つ語である。一方、内容語類でないものは機能語であり、機能語は文法上の機能を果たすものの内容的な意味を持たない。   Here, content words are words having content meanings such as general nouns, verbs, and adjectives in Japanese. On the other hand, what is not a content word is a function word, and a function word has a grammatical function but has no content meaning.

上記の3つのティア間の順位としては、上位から順に、ティア1、ティア2、ティア3の順である。
ティア1内での対訳フレーズ候補の順位は、次の通りである。即ち、対訳辞書データが、前述した優先度を持っている場合には、各対訳フレーズ候補の順位は、その優先度の順である。但し、優先度がたまたま同じ場合には、同順位となる。対訳辞書データがこの優先度を持たない場合には、ティア1内のすべての対訳フレーズ候補は同順位である。
ティア2内での対訳フレーズ候補の順位は、各対訳フレーズ候補のスコアの順である。スコアがたまたま同じ場合には、同順位となる。
ティア3内での対訳フレーズ候補の順位は、各対訳フレーズ候補のスコアの順である。スコアがたまたま同じ場合には、同順位となる。
以上により、対象とするすべての対訳フレーズ候補の順位付けが行なわれる。
The order among the above three tiers is tier 1, tier 2, and tier 3 in order from the top.
The ranks of the parallel phrase candidates within Tier 1 are as follows. That is, when the bilingual dictionary data has the above-mentioned priority, the order of each bilingual phrase candidate is the order of the priority. However, if the priority happens to be the same, the ranking is the same. When the bilingual dictionary data does not have this priority, all the bilingual phrase candidates in the tier 1 have the same rank.
The ranking of the translation phrase candidates within the tier 2 is the order of the scores of the respective translation phrase candidates. If the scores happen to be the same, they will be tied.
The ranking of the translation phrase candidates in the tier 3 is the order of the scores of the respective translation phrase candidates. If the scores happen to be the same, they will be tied.
As described above, all the target parallel phrase candidates are ranked.

言い換えれば、対訳フレーズ候補順位付け処理部7は、対訳フレーズ候補データ記憶部3から読み出した統計量に基づき、対訳フレーズ対(組)候補の確からしさの順位付けを行なう。   In other words, the bilingual phrase candidate ranking processing unit 7 ranks the likelihood of the bilingual phrase pair (group) candidates based on the statistics read from the bilingual phrase candidate data storage unit 3.

アラインメント処理部8は、対訳の文ペアに出現する対訳フレーズ候補の中から、対訳フレーズを識別的に選択することでアラインメントする。ここでアラインメントするフレーズ対は、他のアラインメントと連結しないもの(非連結)、または他のアラインメントと包含的な関係にあるものに制限する。ここで言う「非連結」および「包含的」の定義については、後述する。   The alignment processing unit 8 performs alignment by discriminatingly selecting a parallel translation phrase from the parallel translation phrase candidates that appear in the parallel sentence pair. The phrase pairs to be aligned here are limited to those that are not connected to other alignments (not connected) or that have an inclusive relationship with other alignments. The definitions of “unconnected” and “inclusive” here will be described later.

上記の制限を満たすアラインメントを整合するアラインメントと呼ぶ。アラインメント処理部8は、順位が上位の対訳フレーズ候補から順に、アラインメントを試みていく。ある順位の対訳フレーズ候補を用いたアラインメントを試みるとき、そのアラインメントが既に確立しているアラインメントと連結しない場合或いは連結しても包含的である場合にはそのアラインメントは確立し、その他の場合にはそのアラインメントは確立しない(つまりその対訳フレーズ候補は使われない)。そして、アラインメント処理部8は、順位に従って、対象となるすべての対訳フレーズ候補のアラインメントを試みた結果を出力する。このような手順で処理を行なうことにより、処理結果に含まれるすべてのアラインメントは整合するアラインメントとなる。また、順位に従ってアラインメントを試みることにより、対訳である可能性が高いフレーズ対が優先的にアラインされる。   An alignment that satisfies the above restrictions is called an aligned alignment. The alignment processing unit 8 tries the alignment in order from the translated phrase candidate having the higher rank. When trying to align using a parallel phrase candidate in a certain order, if the alignment is not connected to an already established alignment or if it is inclusive but connected, the alignment is established, otherwise The alignment is not established (that is, the translated phrase candidate is not used). And the alignment process part 8 outputs the result of having tried the alignment of all the target parallel translation phrase candidates according to order. By performing the processing in such a procedure, all the alignments included in the processing result are aligned with each other. Also, by trying to align according to the rank, phrase pairs that are highly likely to be translated are preferentially aligned.

図11は、アラインメント処理部8によって出力されるアラインメント処理結果の例を示す概略図である。この処理結果の例は、図3にも示した対訳文の例を、対訳文書対データ入力部5から入力して処理した結果である。図11は、まず、入力される対訳文の各言語における文中の単語の位置を、その単語の直後の括弧内の数字で示している。例えば、日本語文の中の単語「台風」は位置「1」であり、単語「は」は位置「2」であり、単語「あす」は位置「3」であり、以下同様である。日本語文の最後の句点「。」もここでは便宜的に単語として扱い、その位置は「20」である。また対する英語文の中の単語「The」は位置「1」であり、単語「typhoon」は位置「2」であり、単語「is」は位置「3」であり、以下同様である。英語文の最後のピリオド「.」もここでは便宜的に単語として扱い、その位置は「15」である。   FIG. 11 is a schematic diagram illustrating an example of the alignment processing result output by the alignment processing unit 8. This example of processing results is the result of processing the bilingual text example shown in FIG. 3 by inputting it from the bilingual document pair data input unit 5. FIG. 11 first shows the position of a word in the sentence in each language of the input bilingual sentence as a number in parentheses immediately after the word. For example, the word “typhoon” in the Japanese sentence is at position “1”, the word “ha” is at position “2”, the word “tomorrow” is at position “3”, and so on. The last punctuation mark “.” Of the Japanese sentence is also treated as a word here for convenience, and its position is “20”. Also, the word “The” in the corresponding English sentence is at position “1”, the word “typhoon” is at position “2”, the word “is” is at position “3”, and so on. The last period “.” Of the English sentence is also treated as a word here for convenience, and its position is “15”.

また、図11は、アラインメントの処理結果も示している。処理結果の1行目では、日本語のフレーズ「台風」(位置「1」)が英語のフレーズ「typhoon」(位置「2」)にアラインされている。同2行目では、日本語のフレーズ「台風」(位置「1」)が英語のフレーズ「The」(位置「1」)・「typhoon」(位置「2」)にアラインされている。同3行目では、日本語のフレーズ「あす」(位置「3」)・「の」(位置「4」)が英語のフレーズ「tomorrow」(位置「13」)にアラインされている。4行目以下に示すフレーズ同士のアラインメントも同様である。
以上説明したように、アラインメント処理結果のデータには、採用された対訳フレーズ対(組)候補の情報が含まれている。
FIG. 11 also shows alignment processing results. In the first line of the processing result, the Japanese phrase “typhoon” (position “1”) is aligned with the English phrase “typhoon” (position “2”). In the second line, the Japanese phrase “typhoon” (position “1”) is aligned with the English phrases “The” (position “1”) and “typhoon” (position “2”). In the third line, the Japanese phrases “As” (position “3”) and “no” (position “4”) are aligned with the English phrase “tomorrow” (position “13”). The same applies to the alignment between phrases shown in the fourth and subsequent lines.
As described above, the data of the alignment processing result includes information on the adopted parallel phrase pair (group) candidates.

図12は、アラインメントの整合性について説明するための概略図である。ここでは、図11のアラインメント処理結果を参照しながら図12(a)〜(c)を説明する。   FIG. 12 is a schematic diagram for explaining alignment consistency. Here, FIGS. 12A to 12C will be described with reference to the alignment processing result of FIG.

まず図12(a)は、図11に示した1行目および2行目のアラインメントを、概念的に平面図で表わしている。この図において、記号J1は位置「1」の日本語単語「台風」に対応する。また、記号E1は位置「1」の英語単語「The」に対応し、記号E2は位置「2」の英語単語「typhoon」に対応する。記号アは1行目のアラインメントに対応する。「ア」の枠線が記号J1とE2を囲っているのは、1行目のアラインメントにおいては日本語フレーズ「台風」と英語フレーズ「typhoon」が対応していることを表わしている。同様に、記号イは、2行目のアラインメントに対応し、「イ」の枠線が記号J1とE1とE2を囲っているのは、日本語フレーズ「台風」と英語フレーズ「The」・「typhoon」が対応していることを表わしている。この図に示すように、記号「イ」は記号「ア」を包含している。よって、これらの記号「ア」と「イ」が表わすアラインメントは整合している。   First, FIG. 12A conceptually shows the alignment of the first and second rows shown in FIG. 11 in a plan view. In this figure, the symbol J1 corresponds to the Japanese word “typhoon” at position “1”. The symbol E1 corresponds to the English word “The” at the position “1”, and the symbol E2 corresponds to the English word “typhoon” at the position “2”. The symbol A corresponds to the alignment of the first line. The frame of “A” encloses the symbols J1 and E2 indicates that the Japanese phrase “typhoon” and the English phrase “typhoon” correspond in the alignment of the first line. Similarly, the symbol i corresponds to the alignment of the second line, and the frame of “I” surrounds the symbols J1, E1, and E2 because the Japanese phrase “Typhoon” and the English phrases “The”, “ "typhoon" shows that it corresponds. As shown in this figure, the symbol “I” includes the symbol “A”. Therefore, the alignments represented by these symbols “a” and “a” are consistent.

次に図12(b)は、図11に示したアラインメントの3行目、4行目、5行目、6行目を表わしており、これらはそれぞれ、記号カ、キ、ク、ケに対応している。上と同様に、J3は日本語単語「あす」を表わし、J4は単語「の」を表わし、J5は単語「昼」を表わし、J6は単語「頃」を表わし、E13は英語単語「tomorrow」を表わし、E14は単語「afternoon」を表わしている。この図では、記号「カ」が記号「キ」を包含している。また、記号「ク」は、記号「カ」、「キ」、「ケ」をそれぞれ包含している。また、記号「カ」と記号「ケ」とは非連結であり、記号「キ」と記号「ケ」とは非連結である。このように、記号「カ」から「ク」までは互いに包含関係にあるか非連結であるかのいずれかであるので、これらの記号「カ」から「ク」までが表わすアラインメントは整合している。   Next, FIG. 12 (b) shows the third, fourth, fifth, and sixth lines of the alignment shown in FIG. 11, which correspond to the symbols K, K, K, and K, respectively. doing. Similar to the above, J3 represents the Japanese word “Tomorrow”, J4 represents the word “no”, J5 represents the word “daytime”, J6 represents the word “around”, and E13 represents the English word “tomorrow”. E14 represents the word “afternoon”. In this figure, the symbol “K” includes the symbol “K”. The symbol “K” includes the symbols “K”, “K”, and “K”, respectively. In addition, the symbol “K” and the symbol “K” are not connected, and the symbol “K” and the symbol “K” are not connected. Thus, since the symbols “K” to “K” are either inclusive of each other or not connected, the alignments represented by these symbols “K” to “K” are consistent. Yes.

次に図12(c)は、2つのアラインメントが互いに整合しない例を示している。この図において、実線の枠で示すアラインメントは、単語J3とE13とを含んでいる。一方、破線の枠で示すアラインメントは、単語J4とE13とを含んでいる。つまり、これら両者は、包含関係でもなく非連結関係でもないため、互いに整合していない。逆に言うと、実線の枠で示すアラインメントが既に確立している場合、破線の枠で示す対訳フレーズ候補がたとえ存在していたとしても、先に述べたアラインメント処理部8は、この候補を採用せず、よって破線の枠で示されるアラインメントは確立されない。   Next, FIG. 12C shows an example in which the two alignments do not match each other. In this figure, the alignment indicated by the solid frame includes the words J3 and E13. On the other hand, the alignment indicated by the dashed frame includes the words J4 and E13. In other words, these two are not inclusive of each other and are not in an unconnected relationship, so they are not consistent with each other. Conversely, if the alignment indicated by the solid frame has already been established, the alignment processing unit 8 described above adopts this candidate even if there is a parallel translation candidate candidate indicated by the dashed frame. Therefore, the alignment indicated by the dashed frame is not established.

図12を用いて例示した包含関係および非連結関係の定義は次の通りである。
アラインメントAとBとが包含関係にある(包含的である)とは、アラインメントAに含まれる要素(単語)は全てアラインメントBに含まれる要素であるか、或いは、アラインメントBに含まれる要素は全てアラインメントAに含まれる要素である、の少なくともいずれかが成り立つ場合であり、且つその場合のみである。
アラインメントAとBとが非連結関係にあるとは、アラインメントAに含まれる要素(単語)のいずれもアラインメントBの要素ではなく、且つ、アラインメントBに含まれる要素のいずれもアラインメントAの要素ではない場合であり、且つその場合のみである。
The definitions of the inclusion relationship and the non-connection relationship illustrated using FIG. 12 are as follows.
Alignment A and B are inclusive (inclusive) means that all elements (words) included in alignment A are included in alignment B, or all elements included in alignment B are all This is the case where at least one of the elements included in the alignment A holds, and only in that case.
The fact that the alignments A and B are in an unconnected relationship means that none of the elements (words) included in the alignment A are elements of the alignment B, and none of the elements included in the alignment B are elements of the alignment A. It is a case and only in that case.

そして、処理手順として、アラインメント処理部8が対訳フレーズ候補を用いて新たなアラインメントを確立させることができるのは、その新たなアラインメントが、既に確立しているいかなるアラインメントに対しても包含関係あるいは非連結関係のいずれかの関係が成り立つ場合であって、且つその場合のみである。   Then, as a processing procedure, the alignment processing unit 8 can establish a new alignment by using the translation phrase candidate because the new alignment is inclusive or non-existent with respect to any already established alignment. This is the case when any of the connection relationships is established, and only in that case.

まとめると、アラインメント処理部8は、対訳文書対(組)データを基に、対訳フレーズ候補取得部6によって取得された複数の対訳フレーズ対(組)候補から、複数の対訳フレーズ対(組)候補が互いに整合する関係(包含的関係あるいは非連結関係のいずれかの関係)を有するように、各々の前記対訳フレーズ対(組)候補を採用するか否かを決定し、採用された対訳フレーズ対(組)候補の情報を含んだアラインメント処理結果を出力する。
また、アラインメント処理部8は、対訳フレーズ候補順位付け処理部7による順位付けに基づき、確からしい対訳フレーズ対(組)候補を優先的に採用する。
また、アラインメント処理部8は、対訳フレーズ候補取得部6によって対訳辞書データ記憶部4から取得された対訳フレーズを、対訳フレーズ候補データ記憶部3から取得された対訳フレーズ対(組)候補よりも優先的に採用して、採用された対訳フレーズの情報をも含んだアラインメント処理結果を出力する。これは、対訳フレーズ候補順位付け処理部7が、対訳辞書データに登録されていた対訳フレーズに対して、前述の通りティア1として高い順位を与えていることによる。
In summary, the alignment processing unit 8 selects a plurality of parallel phrase pair (group) candidates from a plurality of parallel phrase pair (group) candidates acquired by the parallel phrase candidate acquisition unit 6 based on the parallel document pair (group) data. Determine whether or not to adopt each of the above-mentioned translated phrase pair (set) candidates so that they have a matching relationship (either inclusive relationship or non-linked relationship), and the adopted translated phrase pair (Set) Outputs alignment processing results including candidate information.
In addition, the alignment processing unit 8 preferentially adopts a probable translation phrase pair (group) candidate based on the ranking by the translation phrase candidate ranking processing unit 7.
The alignment processing unit 8 prioritizes the parallel phrase acquired from the parallel translation dictionary data storage unit 4 by the parallel phrase candidate acquisition unit 6 over the parallel phrase pair (group) candidate acquired from the parallel phrase candidate data storage unit 3. The alignment processing result including the information of the adopted parallel translation phrases is output. This is because the bilingual phrase candidate ranking processing unit 7 gives a higher rank as the tier 1 to the bilingual phrases registered in the bilingual dictionary data as described above.

<2.2 統計的な特徴量>
次に、対訳フレーズ候補に関する対訳らしさのスコアを計算するために用いる特徴量について説明する。ここでは、6種類の特徴量を使用することができる。それらは、有意確率、Dice係数、フレーズ平均生成確率、フレーズ生成確率、単語アラインメント結果含有率、対訳フレーズ候補アラインメント率である。これら6種のうち、最初の4種の特徴量については既に説明したのでここでは説明を省略する。
<2.2 Statistical features>
Next, the feature amount used for calculating the bilinguality score for the bilingual phrase candidate will be described. Here, six types of feature quantities can be used. They are significance probability, Dice coefficient, phrase average generation probability, phrase generation probability, word alignment result content rate, and parallel phrase candidate alignment rate. Of these six types, the first four types of feature quantities have already been described, and thus description thereof is omitted here.

<2.2.1 単語アラインメント結果含有率>
単語単位のアラインメント結果において、対訳フレーズ候補のフレーズ中の単語のうち、対応するフレーズ中の単語にアラインメントされた単語の率が、単語アラインメント結果含有率である。ここでは,単語単位のアラインメント結果としてコンピュータプログラム「GIZA++」の標準設定であるIBM model 4のアラインメント結果を用いる。単語アラインメントは、一方の言語の1単語と他方の言語の任意の数の単語とのアラインメントを行なうため、どの言語からどの言語に向けてアラインメントを行なうかによって、その結果が異なる。ここでは、単語アラインメントを日英および英日の双方向について行った結果、どちらの方向においてもアラインメントされた単語対のみをアラインメント結果とした場合の含有率(便宜上、「AND」と呼ぶ)と、少なくともいずれか一方の方向においてアラインメントされた単語対をアラインメント結果とした場合の含有率(便宜上、「OR」と呼ぶ)とを、統計量として算出し用いることができる。
<2.2.1 Word alignment result content rate>
In the word-by-word alignment result, the word alignment result content rate is the word alignment rate among the words in the corresponding translation phrase candidate phrase. Here, the alignment result of IBM model 4 which is the standard setting of the computer program “GIZA ++” is used as the alignment result in units of words. Since word alignment aligns one word in one language with an arbitrary number of words in the other language, the result differs depending on which language is used for alignment. Here, as a result of performing word alignment for both Japanese and English and English-Japanese bi-directional, the content rate (referred to as “AND” for convenience) when only word pairs aligned in either direction are the alignment results, The content rate (referred to as “OR” for convenience) when word pairs aligned in at least one of the directions are used as the alignment result can be calculated and used as a statistic.

<2.2.2 対訳フレーズ候補アラインメント率>
パラレルデータをアラインメントした結果において、対訳フレーズ候補がアラインメントとして選択された数qと対訳フレーズ候補が出現した総数qを用いて、(q+1)/(q+1)を対訳フレーズ候補アラインメント率と定義する。
このように、対訳フレーズ候補アラインメント率は、アラインメント処理結果を基に算出される統計量(第2の統計量)である。
<2.2.2 Bilingual phrase candidate alignment rate>
As a result of aligning parallel data, (q s +1) / (q a +1) is converted into a parallel phrase candidate alignment by using the number q s in which the parallel phrase candidates are selected as the alignment and the total number q a in which the parallel phrase candidates appear. It is defined as rate.
Thus, the translation phrase candidate alignment rate is a statistic (second statistic) calculated based on the alignment processing result.

<2.3 スコアの計算手法>
前記の6種類(そのうち単語アラインメント結果含有率は、さらにANDとORの2種類に分かれる)の特徴量のうち、−log(p−value × 2)をhとし、Dice係数をhとし、フレーズ平均生成確率をhとし、フレーズ生成確率をhとし、単語アラインメント結果含有率(AND)をhとし、単語アラインメント結果含有率(OR)をhとし、対訳フレーズ候補アラインメント率をhとする。対訳フレーズ候補順位付け処理部7は、これらh〜hの特徴量を用いて、次の式(5)によりスコア(score)を計算する。
<2.3 Score Calculation Method>
Of the six types (of which the word alignment result content rate is further divided into two types, AND and OR), −log (p-value × 2) is set to h 1 , and the Dice coefficient is set to h 2 . the phrase average generation probability and h 3, the phrase generation probability and h 4, word alignment results content of (aND) and h 5, the word alignment results content of (OR) and h 6, the bilingual phrase candidate alignment factor h 7 The bilingual phrase candidate ranking processing unit 7 uses the feature values of h 1 to h 7 to calculate a score according to the following equation (5).

Figure 0005341375
Figure 0005341375

ここで、λは各特徴量を重みづけるパラメータであり、γはスムージングのパラメータである。これらのパラメータの値は、どのような手段を用いて設定しても良いが、例えば、エラー率最小化学習によりパラメータの値を設定することができる。エラー率最小化学習については、次の文献に記載されている。文献:Franz Josef Och,“Minimum Error Rate Training in Statistical Machine Translation”,ACL,pp.160-167,2003. Here, λ i is a parameter for weighting each feature amount, and γ i is a smoothing parameter. These parameter values may be set using any means. For example, the parameter values can be set by error rate minimization learning. The error rate minimization learning is described in the following document. Literature: Franz Josef Och, “Minimum Error Rate Training in Statistical Machine Translation”, ACL, pp. 160-167, 2003.

<3. 対訳フレーズ候補の抽出およびフレーズ対のアラインメント>
次に、対訳フレーズ候補の抽出処理およびフレーズ対のアラインメント処理を併せ持つ形態の対訳表現処理装置300について説明する。
図13は、この対訳表現処理装置300の機能構成を示すブロック図である。図示するように、対訳表現処理装置300は、対訳文書対群データ記憶部1Aと、対訳文書対群データ分析処理部2Aと、対訳フレーズ候補データ記憶部3Aと、対訳辞書データ記憶部4Aと、対訳文書対データ入力部5Aと、対訳フレーズ候補取得部6Aと、対訳フレーズ候補順位付け処理部7Aと、アラインメント処理部8Aとを含んで構成される。
<3. Bilingual phrase candidate extraction and phrase pair alignment>
Next, a bilingual expression processing apparatus 300 having a form that includes both parallel phrase candidate extraction processing and phrase pair alignment processing will be described.
FIG. 13 is a block diagram illustrating a functional configuration of the parallel expression processing apparatus 300. As illustrated, the parallel translation expression processing device 300 includes a parallel document pair group data storage unit 1A, a parallel document pair group data analysis processing unit 2A, a parallel phrase candidate data storage unit 3A, a parallel dictionary data storage unit 4A, A bilingual document pair data input unit 5A, a bilingual phrase candidate acquisition unit 6A, a bilingual phrase candidate ranking processing unit 7A, and an alignment processing unit 8A are included.

対訳表現処理装置300の機能のうち、対訳文書対群データ記憶部1Aと、対訳文書対群データ分析処理部2Aと、対訳フレーズ候補データ記憶部3Aの部分は、対訳文書対群データから対訳フレーズ候補を抽出する処理であり、その具体的な処理手順等は前述の対訳表現処理装置100のそれと同様である。また、対訳フレーズ候補データ記憶部3Aおよび対訳辞書データ記憶部4Aのデータに基づく、対訳文書対データ入力部5Aと、対訳フレーズ候補取得部6Aと、対訳フレーズ候補順位付け処理部7Aと、アラインメント処理部8Aの部分の処理は、アラインメントを行なう処理であり、その具体的な処理手順等は前述の対訳表現処理装置200のそれと同様である。
このように、対訳表現処理装置300は、対訳フレーズ候補抽出処理を行なって対訳フレーズ候補データ記憶部3Aに対訳フレーズ候補データを書き込み、この対訳フレーズ候補データを読み出しながらアラインメント処理を行なう。
Among the functions of the bilingual expression processing device 300, the bilingual document pair group data storage unit 1A, the bilingual document pair group data analysis processing unit 2A, and the bilingual phrase candidate data storage unit 3A include bilingual phrase pairs from bilingual document pair group data. This is a process of extracting candidates, and the specific processing procedure and the like are the same as those of the bilingual expression processing apparatus 100 described above. Also, the bilingual document pair data input unit 5A, the bilingual phrase candidate acquisition unit 6A, the bilingual phrase candidate ranking processing unit 7A, and the alignment process based on the data of the bilingual phrase candidate data storage unit 3A and the bilingual dictionary data storage unit 4A The processing of the part 8A is alignment processing, and the specific processing procedure is the same as that of the bilingual expression processing apparatus 200 described above.
Thus, the parallel translation expression processing device 300 performs the parallel translation phrase candidate extraction process, writes the parallel translation phrase candidate data in the parallel translation phrase candidate data storage unit 3A, and performs the alignment process while reading the parallel translation phrase candidate data.

なお、図13に示した対訳文書対群データ記憶部1Aのデータと対訳文書対データ入力部5Aから入力されるデータが同一の場合は、対訳フレーズ候補を抽出する際に、図7に示したアルゴリズムにおける出てくるYおよびYの値を対訳フレーズ候補とセットで出力して保存しておくことにより、どの対訳文書対のどの位置にどの候補が出現するのかが既にわかっている状態で対訳フレーズ候補取得の処理を開始することができ、つまり図13の構成における対訳フレーズ候補取得部6Aの処理を効率化することができる。 If the data input from the parallel document pair data storage unit 1A shown in FIG. 13 and the data input from the parallel document pair data input unit 5A are the same, the bilingual phrase candidate is extracted as shown in FIG. By outputting and storing the values of Y j and Y e that appear in the algorithm as a set together with bilingual phrase candidates, it is already known which candidate appears at which position in which bilingual document pair. The parallel phrase candidate acquisition process can be started, that is, the process of the parallel phrase candidate acquisition unit 6A in the configuration of FIG. 13 can be made efficient.

なお、上述した実施形態における対訳表現処理装置の一部または全部の機能をコンピュータで実現するようにしても良い。その場合、対訳文書処理を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。   In addition, you may make it implement | achieve a part or all function of the bilingual expression processing apparatus in embodiment mentioned above with a computer. In that case, the program for realizing the bilingual document processing may be recorded on a computer-readable recording medium, and the program recorded on the recording medium may be read into the computer system and executed. Here, the “computer system” includes an OS and hardware such as peripheral devices. The “computer-readable recording medium” refers to a storage device such as a flexible medium, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Further, the “computer-readable recording medium” dynamically holds a program for a short time, like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. It is also possible to include those that hold a program for a certain time, such as a volatile memory inside a computer system serving as a server or client in that case. The program may be a program for realizing a part of the functions described above, and may be a program capable of realizing the functions described above in combination with a program already recorded in a computer system.

以上、本発明の実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。
例えば、上述した実施形態では、二言語(言語Jと言語E)のみに対訳文書および対訳フレーズを対象としたが、三言語以上の役の組を対象としても、本質的には同様の処理方法で対訳フレーズ候補の抽出やアラインメントが行なえる。例えば、言語Jと言語Eに加えて言語Fの三言語とする場合、図7や図9に示した疑似コードを拡張してExpandFという手続きを設け、ExpandEでフレーズ対を出力する代わりに手続きExpandFを呼び出すようにして、手続きExpandFの中でフレーズの組を出力するとともに手続きExpandFを再帰的に呼び出すようにする。四言語以上の場合も本質的には同様である。
As mentioned above, although embodiment of this invention was described, this invention can also be implemented also in the following modifications.
For example, in the above-described embodiment, the bilingual document and the bilingual phrase are targeted only in two languages (language J and language E), but the same processing method is essentially applicable to a combination of roles in three languages or more. You can extract and align bilingual phrase candidates. For example, in the case of language F in addition to language J and language E, the pseudo code shown in FIGS. 7 and 9 is extended to provide a procedure called ExpandF, and instead of outputting a phrase pair in ExpandE, procedure ExpandF , The phrase pair is output in the procedure ExpandF and the procedure ExpandF is called recursively. The same is true for four or more languages.

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。   The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and includes designs and the like that do not depart from the gist of the present invention.

例えば、上述した実施形態では、統計量として、有意確率、Dice係数、フレーズ平均生成確率、フレーズ生成確率、単語アラインメント結果含有率、対訳フレーズ候補アラインメント率を用いたが、適宜、別の統計量を用いるようにしても良い。また、本実施形態では、アラインメント処理結果に基づく統計量を一部に用いているため、アラインメント処理部8による処理結果を対訳フレーズ候補順位付け処理部7に帰還させ、順位付けの処理とアラインメント処理とを複数回繰り返すようにしているが、対訳フレーズ候補の順位付けの際にアラインメント処理結果に依存しない統計量のみに基づく順位付けを行なうようにすれば、このような複数回繰り返しの処理は必要ない。
また、上述した実施形態では、深さ優先探索の処理を行なう際に、木状の探索空間において、親ノードから子ノードに移る際に、系列の最後に語を加えて新たな系列を作成しているが、語を加える場所は任意であり、先頭に語を連結して新たな系列を生成しても良いし、また、既存系列中の任意の位置に語を挿入して新たな系列を生成しても良い。
また、上述した実施形態では、深さ優先の探索処理を行なうようにしたが、代わりに幅優先探索を行なっても良い。幅優先探索の場合は探索途中の状態を記憶するメモリ(空間計算量)が膨大に必要になるが、装置が充分なメモリさえ備えていれば、深さ優先探索と同等の結果が得られる。
For example, in the above-described embodiment, significant probability, Dice coefficient, phrase average generation probability, phrase generation probability, word alignment result content rate, bilingual phrase candidate alignment rate are used as the statistical amount. It may be used. Further, in the present embodiment, since a statistic based on the alignment processing result is used in part, the processing result by the alignment processing unit 8 is fed back to the parallel phrase candidate ranking processing unit 7 for ranking processing and alignment processing. Is repeated multiple times, but if ranking is performed based only on statistics that do not depend on the result of alignment processing when ranking parallel phrase candidates, such multiple iteration processing is necessary. Absent.
In the above-described embodiment, when depth-first search processing is performed, a new sequence is created by adding words to the end of the sequence when moving from a parent node to a child node in a tree-like search space. However, the location where the word is added is arbitrary, and a new sequence may be generated by concatenating the words at the beginning, or a new sequence may be inserted by inserting a word at an arbitrary position in the existing sequence. It may be generated.
In the above-described embodiment, the depth-first search process is performed, but a breadth-first search may be performed instead. In the case of the breadth-first search, a large amount of memory (spatial calculation amount) for storing the state during the search is required, but if the apparatus has sufficient memory, the same result as the depth-first search can be obtained.

本発明の実施形態による対訳表現処理装置(対訳フレーズ候補の抽出処理)の機能構成を示すブロック図である。It is a block diagram which shows the function structure of the bilingual expression processing apparatus (extraction process of a bilingual phrase candidate) by embodiment of this invention. 同実施形態による対訳表現文書対群データの構成を示す概略図である。It is the schematic which shows the structure of the parallel translation expression document pair group data by the embodiment. 同実施形態における対訳表現文書対の一例を示す概略図である。It is the schematic which shows an example of the parallel translation expression document pair in the embodiment. 同実施形態による対訳フレーズ候補データの構成およびデータ例を示す概略図である。It is the schematic which shows the structure and data example of bilingual phrase candidate data by the embodiment. 同実施形態による、単言語におけるフレーズの深さ優先探索(単語aで始まるフレーズを探索し、閾値ζ=2)の処理の動作を説明的に示す概略図である。FIG. 6 is a schematic diagram illustrating the operation of processing of a phrase depth priority search in a single language (searching for a phrase starting with the word a, threshold ζ = 2) according to the embodiment. 同実施形態による、単言語でのフレーズの深さ優先探索の処理手順を示す疑似コードである。It is a pseudo code which shows the processing sequence of the phrase depth priority search in a single language by the embodiment. 同実施形態による、深さ優先探索に基づく頻出フレーズ対を対訳文書対群データの中から抽出する処理を示す疑似コードである。It is a pseudo code which shows the process which extracts the frequent phrase pair based on a depth priority search from parallel document pair group data by the embodiment. 同実施形態による、コーパス中のデータ数(文数)の2×2分割表である。4 is a 2 × 2 contingency table of the number of data (number of sentences) in the corpus according to the embodiment. 同実施形態による、探索空間の枝刈り手法を適用した探索処理の手順を示す疑似コードである。It is a pseudo code which shows the procedure of the search process which applied the pruning method of search space by the embodiment. 本発明の実施形態による対訳表現処理装置(アラインメント処理)の機能構成を示すブロック図である。It is a block diagram which shows the function structure of the parallel translation expression processing apparatus (alignment process) by embodiment of this invention. 同実施形態によるアラインメント処理部によって出力されるアラインメント処理結果の例を示す概略図である。It is the schematic which shows the example of the alignment process result output by the alignment process part by the same embodiment. 同実施形態におけるアラインメントの整合性を説明する概略図である。It is the schematic explaining the alignment consistency in the same embodiment. 本発明の実施形態による対訳表現処理装置(対訳フレーズ候補の抽出処理およびアラインメント処理)の機能構成を示すブロック図である。It is a block diagram which shows the function structure of the bilingual expression processing apparatus (the extraction process and the alignment process of a bilingual phrase candidate) by embodiment of this invention.

符号の説明Explanation of symbols

1,1A 対訳文書対群データ記憶部(対訳文書組群データ記憶部)
2,2A 対訳文書対群データ分析処理部(対訳文書組群データ分析処理部)
3,3A 対訳フレーズ候補データ記憶部
4,4A 対訳辞書データ記憶部
5,5A 対訳文書対データ入力部
6,6A 対訳フレーズ候補取得部
7,7A 対訳フレーズ候補順位付け処理部
8,8A アラインメント処理部
100 対訳表現処理装置(対訳フレーズ候補データを抽出する処理)
200 対訳表現処理装置(対訳フレーズをアラインメントする処理)
300 対訳表現処理装置(対訳フレーズ候補データの抽出処理および対訳フレーズのアラインメント処理)
1,1A Bilingual document group data storage unit (Bilingual document group data storage unit)
2,2A Bilingual document group data analysis processing unit (Bilingual document group data analysis processing unit)
3, 3A Bilingual phrase candidate data storage unit 4, 4A Bilingual dictionary data storage unit 5, 5A Bilingual document pair data input unit 6, 6A Bilingual phrase candidate acquisition unit 7, 7A Bilingual phrase candidate ranking processing unit 8, 8A Alignment processing unit 100 parallel translation expression processing device (processing for extracting parallel phrase candidate data)
200 Parallel expression processing device (Process to align parallel phrases)
300 Bilingual expression processing device (Branch phrase candidate data extraction process and Bilingual phrase alignment process)

Claims (5)

複数言語による対訳文書の組である対訳文書組データを複数記憶する対訳文書組群データ記憶部と、
前記対訳文書組データ記憶部から読み出した前記対訳文書組データに基づき、単一の前記対訳文書組データ内に出現する語系列の前記複数の言語間での共起頻度をカウントし、全ての前記対訳文書組データにおける前記共起頻度の合計値が所定の頻度閾値以上となるような、前記複数言語による前記語系列の組を対訳フレーズ組候補として抽出して出力する対訳文書組群データ分析処理部と、
を具備す対訳表現処理装置であって、
前記対訳文書組群データ分析処理部は、前記複数言語のうちの第1の言語のデータ内で語系列を探索することによって全ての前記対訳文書組データ内の当該第1の言語における語系列の出現頻度をカウントし、前記出現頻度が前記頻度閾値以上であるような前記第1の言語における語系列それぞれについて、前記複数言語のうちの他の言語のデータ内で語系列を探索することによって、前記第1の言語の語系列と前記他の言語の語系列の前記共起頻度をカウントし、これを前記複数の言語間での共起頻度とするとともに、
前記対訳文書組群データ分析処理部は、前記の語系列の探索を順次行なう際に、現在の語系列の次に、前記現在の語系列の中の一語を置き換えて得られる新たな語系列よりも、前記現在の語系列に一語を加えて得られる新たな語系列のほうを、優先して先に探索対象とする、
ことを特徴とする対訳表現処理装置。
A bilingual document group data storage unit for storing a plurality of bilingual document group data which is a set of bilingual documents in a plurality of languages;
Based on the bilingual document set data read from the bilingual document set data storage unit, the co-occurrence frequency between the plurality of languages of word sequences appearing in a single bilingual document set data is counted, Bilingual document set group data analysis processing for extracting and outputting the set of word sequences in the plurality of languages as a bilingual phrase set candidate such that the total value of the co-occurrence frequencies in the bilingual document set data is equal to or greater than a predetermined frequency threshold And
A translated expression processor you equipped with,
The bilingual document set group data analysis processing unit searches the word series in the first language data of the plurality of languages to search for the word series in the first language in all the bilingual document set data. Counting the appearance frequency, and searching for word sequences in the data of other languages of the plurality of languages for each word sequence in the first language such that the appearance frequency is equal to or higher than the frequency threshold, Counting the co-occurrence frequency of the word sequence of the first language and the word sequence of the other language, and making this a co-occurrence frequency between the plurality of languages ,
The bilingual document set group data analysis processing unit obtains a new word sequence obtained by replacing one word in the current word sequence after the current word sequence when sequentially searching for the word sequence. Rather, the new word sequence obtained by adding one word to the current word sequence is preferentially searched first.
The bilingual expression processing apparatus characterized by this.
請求項1記載の対訳表現処理装置であって、
前記対訳文書組群データ分析処理部は、抽出する前記対訳フレーズ組候補それぞれについて対訳フレーズ組である確からしさを表わす統計量を算出し、算出した統計量を前記対訳フレーズ組候補とともに出力する、
ことを特徴とする対訳表現処理装置。
The bilingual expression processing device according to claim 1,
The bilingual document set group data analysis processing unit calculates a statistic indicating the probability of being a bilingual phrase set for each of the bilingual phrase set candidates to be extracted, and outputs the calculated statistic together with the bilingual phrase set candidate.
The bilingual expression processing apparatus characterized by this.
複数言語による対訳文書の組である対訳文書組データを複数記憶する対訳文書組群データ記憶部と、
前記対訳文書組データ記憶部から読み出した前記対訳文書組データに基づき、単一の前記対訳文書組データ内に出現する語系列の前記複数の言語間での共起頻度をカウントし、全ての前記対訳文書組データにおける前記共起頻度の合計値が所定の頻度閾値以上となるような、前記複数言語による前記語系列の組を対訳フレーズ組候補として抽出して出力する対訳文書組群データ分析処理部と、
を具備する対訳表現処理装置であって、
前記対訳文書組群データ分析処理部は、前記複数言語のうちの第1の言語のデータ内で語系列を探索することによって全ての前記対訳文書組データ内の当該第1の言語における語系列の出現頻度をカウントし、前記出現頻度が前記頻度閾値以上であるような前記第1の言語における語系列それぞれについて、前記複数言語のうちの他の言語のデータ内で語系列を探索することによって、前記第1の言語の語系列と前記他の言語の語系列の前記共起頻度をカウントし、これを前記複数の言語間での共起頻度とするとともに、
前記対訳文書組群データ分析処理部は、前記他の言語のデータ内での語系列の探索中に、前記第1の言語の語系列と前記他の言語の語系列との組が対訳フレーズ組である確からしさを表わす統計量を算出し、現在の当該他の言語の語系列に関して算出した前記統計量が表わす確からしさが、当該現在の当該他の言語の語系列から一語を除いた語系列について既に算出されていた前記統計量が表わす確からしさよりも低く、かつ所定の統計量閾値が表わす確からしさよりも低い場合には、以後の、当該現在の当該他の言語の語系列に一語を加えて得られる新たな語系列の探索を抑止する、
ことを特徴とする対訳表現処理装置。
A bilingual document group data storage unit for storing a plurality of bilingual document group data which is a set of bilingual documents in a plurality of languages;
Based on the bilingual document set data read from the bilingual document set data storage unit, the co-occurrence frequency between the plurality of languages of word sequences appearing in a single bilingual document set data is counted, Bilingual document set group data analysis processing for extracting and outputting the set of word sequences in the plurality of languages as a bilingual phrase set candidate such that the total value of the co-occurrence frequencies in the bilingual document set data is equal to or greater than a predetermined frequency threshold And
A bilingual expression processing apparatus comprising:
The bilingual document set group data analysis processing unit searches the word series in the first language data of the plurality of languages to search for the word series in the first language in all the bilingual document set data. Counting the appearance frequency, and searching for word sequences in the data of other languages of the plurality of languages for each word sequence in the first language such that the appearance frequency is equal to or higher than the frequency threshold, Counting the co-occurrence frequency of the word sequence of the first language and the word sequence of the other language, and making this a co-occurrence frequency between the plurality of languages,
The bilingual document set group data analysis processing unit converts a pair of the first language word series and the other language word series into a bilingual phrase set during a search for a word series in the other language data. A statistic representing the certainty is calculated, and the probability represented by the statistic calculated for the current word sequence in the other language is a word obtained by subtracting one word from the current word sequence in the other language. If it is lower than the probability expressed by the statistic already calculated for the sequence and lower than the probability expressed by the predetermined statistic threshold, it is not matched with the current word sequence of the other language. Suppress the search for new word sequences obtained by adding words,
The bilingual expression processing apparatus characterized by this.
複数言語による対訳文書の組である対訳文書組データを複数記憶する対訳文書組群データ記憶部を具備するコンピュータに、
前記対訳文書組データ記憶部から読み出した前記対訳文書組データに基づき、単一の前記対訳文書組データ内に出現する語系列の前記複数の言語間での共起頻度をカウントし、全ての前記対訳文書組データにおける前記共起頻度の合計値が所定の頻度閾値以上となるような、前記複数言語による前記語系列の組を対訳フレーズ組候補として抽出して出力する対訳文書組群データ分析処理過程、
の処理を実行させるコンピュータプログラムであって、
前記対訳文書組群データ分析処理過程では、前記複数言語のうちの第1の言語のデータ内で語系列を探索することによって全ての前記対訳文書組データ内の当該第1の言語における語系列の出現頻度をカウントし、前記出現頻度が前記頻度閾値以上であるような前記第1の言語における語系列それぞれについて、前記複数言語のうちの他の言語のデータ内で語系列を探索することによって、前記第1の言語の語系列と前記他の言語の語系列の前記共起頻度をカウントし、これを前記複数の言語間での共起頻度とするとともに、
前記対訳文書組群データ分析処理過程では、前記の語系列の探索を順次行なう際に、現在の語系列の次に、前記現在の語系列の中の一語を置き換えて得られる新たな語系列よりも、前記現在の語系列に一語を加えて得られる新たな語系列のほうを、優先して先に探索対象とする、
ことを特徴とするコンピュータプログラム。
A computer having a parallel document group data storage unit that stores a plurality of parallel document group data that is a set of parallel documents in a plurality of languages.
Based on the bilingual document set data read from the bilingual document set data storage unit, the co-occurrence frequency between the plurality of languages of word sequences appearing in a single bilingual document set data is counted, Bilingual document set group data analysis processing for extracting and outputting the set of word sequences in the plurality of languages as a bilingual phrase set candidate such that the total value of the co-occurrence frequencies in the bilingual document set data is equal to or greater than a predetermined frequency threshold process,
A computer program for executing the process of
In the bilingual document set group data analysis process, the word series in the first language in all the bilingual document set data is searched by searching for the word series in the data of the first language of the plurality of languages. Counting the appearance frequency, and searching for word sequences in the data of other languages of the plurality of languages for each word sequence in the first language such that the appearance frequency is equal to or higher than the frequency threshold, Counting the co-occurrence frequency of the word sequence of the first language and the word sequence of the other language, and making this a co-occurrence frequency between the plurality of languages ,
In the bilingual document set data analysis process, a new word sequence obtained by replacing one word in the current word sequence after the current word sequence when sequentially searching for the word sequence Rather, the new word sequence obtained by adding one word to the current word sequence is preferentially searched first.
A computer program characterized by the above.
複数言語による対訳文書の組である対訳文書組データを複数記憶する対訳文書組群データ記憶部を具備するコンピュータに、  A computer having a parallel document group data storage unit that stores a plurality of parallel document group data that is a set of parallel documents in a plurality of languages.
前記対訳文書組データ記憶部から読み出した前記対訳文書組データに基づき、単一の前記対訳文書組データ内に出現する語系列の前記複数の言語間での共起頻度をカウントし、全ての前記対訳文書組データにおける前記共起頻度の合計値が所定の頻度閾値以上となるような、前記複数言語による前記語系列の組を対訳フレーズ組候補として抽出して出力する対訳文書組群データ分析処理過程、  Based on the bilingual document set data read from the bilingual document set data storage unit, the co-occurrence frequency between the plurality of languages of word sequences appearing in a single bilingual document set data is counted, Bilingual document set group data analysis processing for extracting and outputting the set of word sequences in the plurality of languages as a bilingual phrase set candidate such that the total value of the co-occurrence frequencies in the bilingual document set data is equal to or greater than a predetermined frequency threshold process,
の処理を実行させるコンピュータプログラムであって、  A computer program for executing the process of
前記対訳文書組群データ分析処理過程では、前記複数言語のうちの第1の言語のデータ内で語系列を探索することによって全ての前記対訳文書組データ内の当該第1の言語における語系列の出現頻度をカウントし、前記出現頻度が前記頻度閾値以上であるような前記第1の言語における語系列それぞれについて、前記複数言語のうちの他の言語のデータ内で語系列を探索することによって、前記第1の言語の語系列と前記他の言語の語系列の前記共起頻度をカウントし、これを前記複数の言語間での共起頻度とするとともに、  In the bilingual document set group data analysis process, the word series in the first language in all the bilingual document set data is searched by searching for the word series in the data of the first language of the plurality of languages. Counting the appearance frequency, and searching for word sequences in the data of other languages of the plurality of languages for each word sequence in the first language such that the appearance frequency is equal to or higher than the frequency threshold, Counting the co-occurrence frequency of the word sequence of the first language and the word sequence of the other language, and making this a co-occurrence frequency between the plurality of languages,
前記対訳文書組群データ分析処理過程では、前記他の言語のデータ内での語系列の探索中に、前記第1の言語の語系列と前記他の言語の語系列との組が対訳フレーズ組である確からしさを表わす統計量を算出し、現在の当該他の言語の語系列に関して算出した前記統計量が表わす確からしさが、当該現在の当該他の言語の語系列から一語を除いた語系列について既に算出されていた前記統計量が表わす確からしさよりも低く、かつ所定の統計量閾値が表わす確からしさよりも低い場合には、以後の、当該現在の当該他の言語の語系列に一語を加えて得られる新たな語系列の探索を抑止する、  In the bilingual document set group data analysis process, a set of the first language word sequence and the other language word sequence is converted into a parallel phrase set during the search of the word sequence in the data of the other language. A statistic representing the certainty is calculated, and the probability represented by the statistic calculated for the current word sequence in the other language is a word obtained by subtracting one word from the current word sequence in the other language. If it is lower than the probability expressed by the statistic already calculated for the sequence and lower than the probability expressed by the predetermined statistic threshold, it is not matched with the current word sequence of the other language. Suppress the search for new word sequences obtained by adding words,
ことを特徴とするコンピュータプログラム。  A computer program characterized by the above.
JP2008066392A 2008-03-14 2008-03-14 Parallel translation expression processing apparatus and program Expired - Fee Related JP5341375B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008066392A JP5341375B2 (en) 2008-03-14 2008-03-14 Parallel translation expression processing apparatus and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008066392A JP5341375B2 (en) 2008-03-14 2008-03-14 Parallel translation expression processing apparatus and program

Publications (2)

Publication Number Publication Date
JP2009223547A JP2009223547A (en) 2009-10-01
JP5341375B2 true JP5341375B2 (en) 2013-11-13

Family

ID=41240267

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008066392A Expired - Fee Related JP5341375B2 (en) 2008-03-14 2008-03-14 Parallel translation expression processing apparatus and program

Country Status (1)

Country Link
JP (1) JP5341375B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6044963B2 (en) 2014-02-12 2016-12-14 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation Information processing apparatus, method, and program
JP2020535731A (en) 2017-09-27 2020-12-03 ジーエヌ ヒアリング エー/エスGN Hearing A/S Hearing devices and related methods for conversational exposure assessment

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003323425A (en) * 2002-05-02 2003-11-14 Just Syst Corp Parallel translation dictionary creating device, translation device, parallel translation dictionary creating program, and translation program
JP2004326584A (en) * 2003-04-25 2004-11-18 Nippon Telegr & Teleph Corp <Ntt> Parallel translation unique expression extraction device and method, and parallel translation unique expression extraction program
JP4961755B2 (en) * 2006-01-23 2012-06-27 富士ゼロックス株式会社 Word alignment device, word alignment method, word alignment program

Also Published As

Publication number Publication date
JP2009223547A (en) 2009-10-01

Similar Documents

Publication Publication Date Title
US8670975B2 (en) Adaptive pattern learning for bilingual data mining
Chiang Statistical parsing with an automatically-extracted tree adjoining grammar
US8249856B2 (en) Machine translation
CN108681574B (en) Text abstract-based non-fact question-answer selection method and system
Lin et al. Common sense beyond english: Evaluating and improving multilingual language models for commonsense reasoning
US20130018650A1 (en) Selection of Language Model Training Data
KR101732634B1 (en) Statistical Machine Translation Method using Dependency Forest
KR20180078318A (en) Methods and Apparatus for Determining the Agents
US9684647B2 (en) Domain-specific computational lexicon formation
CN112818711B (en) Machine translation method for translating ambiguous technical terms in scientific literature
JP5341375B2 (en) Parallel translation expression processing apparatus and program
JP5100460B2 (en) Parallel translation expression processing apparatus and program
JP2018072979A (en) Parallel translation sentence extraction device, parallel translation sentence extraction method and program
JP2005202924A (en) Translation determination system, method, and program
Khenglawt Machine translation and its approaches
KR101753708B1 (en) Apparatus and method for extracting noun-phrase translation pairs of statistical machine translation
JP2009176148A (en) Unknown word determining system, method and program
KR100574887B1 (en) Apparatus And Method For Word Sense Disambiguation In Machine Translation System
Tiedemann Optimization of word alignment clues
Demir Context tailoring for text normalization
JP5416021B2 (en) Machine translation apparatus, machine translation method, and program thereof
Smith Coherence in machine translation
Park et al. Affix modification-based bilingual pivoting method for paraphrase extraction in agglutinative languages
Costa Automatic Extraction and Validation of Lexical Ontologies from text
KR100941155B1 (en) The method and apparatus for summarizing document using domain of ontology

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100310

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120417

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120608

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121218

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130709

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130808

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees