JP2005258637A - Translation word extraction device and program - Google Patents

Translation word extraction device and program Download PDF

Info

Publication number
JP2005258637A
JP2005258637A JP2004067020A JP2004067020A JP2005258637A JP 2005258637 A JP2005258637 A JP 2005258637A JP 2004067020 A JP2004067020 A JP 2004067020A JP 2004067020 A JP2004067020 A JP 2004067020A JP 2005258637 A JP2005258637 A JP 2005258637A
Authority
JP
Japan
Prior art keywords
language
expression
document
pronunciation
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004067020A
Other languages
Japanese (ja)
Other versions
JP4035111B2 (en
Inventor
Norio Goto
功雄 後藤
Hideki Tanaka
英輝 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2004067020A priority Critical patent/JP4035111B2/en
Publication of JP2005258637A publication Critical patent/JP2005258637A/en
Application granted granted Critical
Publication of JP4035111B2 publication Critical patent/JP4035111B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a translation word extraction device and program for extracting, with high precision and on the basis of phonetic similarities, translation words in a second language that correspond to expressions written in a first language, from documents in the second language. <P>SOLUTION: The translation word extraction device, for extracting from documents in the second language translation words in the second language that correspond to expressions in the first language, includes an extraction means for extracting from previously stored documents in both the first and second languages the documents in the first language including expressions inputted in the first language and the documents in the second language corresponding to the documents in the first language; a first conversion means for converting the documents in the first language into phonetic expressions; a second conversion means for converting the documents in the second language into phonetic expressions; a similarity calculation means for calculating similarities between the phonetic expressions obtained by the first conversion means and the phonetic expressions obtained by the second conversion means; an occurrence frequency obtaining means for obtaining the occurrence frequency of the documents in the first language that are included in the documents in the second language; and an output means for outputting translation words on the basis of the similarities obtained by the similarity calculation means and the occurrence frequency obtained by the occurrence frequency obtaining means. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

本発明は、対訳語抽出装置、及び対訳語抽出プログラムに係り、特に、第1言語からなる表現に対応する第2言語の訳語を、第2言語の文書中から高精度に抽出する対訳語抽出装置、及び対訳語抽出プログラムに関する。   The present invention relates to a bilingual word extraction device and a bilingual word extraction program, and in particular, to extract a bilingual word corresponding to an expression made in the first language with high accuracy from a document in the second language. The present invention relates to an apparatus and a parallel word extraction program.

従来、英語や日本語等の文字が異なる言語間において、特に固有名詞等は、多くの場合に元の単語の発音を表す外来語に訳される。このため、2つの言語間での単語の発音情報に基づいて対訳語を抽出する方法が提案されている。   Conventionally, proper nouns and the like are often translated into foreign words representing the pronunciation of the original word among languages with different characters such as English and Japanese. For this reason, there has been proposed a method of extracting parallel translation words based on pronunciation information of words between two languages.

例えば、日本語と英語を発音記号に変換して一致する部分を抽出する方式(例えば、非特許文献1参照。)や、日本語と韓国語とを発音記号に変換して類似した部分を抽出する方式(例えば、非特許文献2参照。)がある。   For example, Japanese and English are converted into phonetic symbols to extract matching parts (for example, see Non-Patent Document 1), or Japanese and Korean are converted into phonetic symbols to extract similar parts. There is a method (for example, see Non-Patent Document 2).

ここで、外来語として他の言語で表現した場合には、発音は類似したものとなるが、言語により母音や子音の種類や数等の発音体系が異なる場合が多く、また、表音文字でない場合は、発音の推定が容易ではないことが多い。したがって、2つの言語で表現された語の発音を同一の発音体系の表現に変換しても、完全に一致するとは限らない。そのため、発音の類似度の比較を精度良く行うことが重要となる。
松尾 義博,白井 諭,1996,“発音情報を用いた対語対の自動抽出”,情報処理学会研究会報告,NL−116−15,pp.101−106. 金 玉錦,藤井 敦,石川 徹也,2003,“韓国語コーパスからの外来語自動抽出と言語解析への応用”,言語処理学会第9回年次大会,pp.258−261.
Here, when expressed in another language as a foreign language, the pronunciation is similar, but the pronunciation system such as the type and number of vowels and consonants is often different depending on the language, and it is not a phonetic character In many cases, pronunciation estimation is not easy. Therefore, even if the pronunciation of a word expressed in two languages is converted into an expression of the same pronunciation system, it does not always match completely. Therefore, it is important to accurately compare the similarity of pronunciation.
Matsuo Yoshihiro, Shirai Satoshi, 1996, “Automatic Extraction of Word Pairs Using Pronunciation Information”, Report of IPSJ Study Group, NL-116-15, pp. 101-106. Kintamanishiki, Satoshi Fujii, Tetsuya Ishikawa, 2003, “Automatic extraction of foreign words from Korean corpus and application to linguistic analysis”, 9th Annual Meeting of the Association for Natural Language Processing, pp. 258-261.

しかしながら、非特許文献1に記載されている手法は、発音表現において全て一致したもの、又は子音列が全て一致したもののみを抽出している。この手法では、一部が一致していない場合には抽出することができない。そのため、高精度な対訳を実現することができない。また、非特許文献2に記載された手法は、発音表現間の類似度を計算して訳語を抽出している。このとき、2つの発音表現の文字列間の類似度の算出において、子音を重要な要素として、子音と母音との重要度を異にした挿入、置換、削除による文字列間の最小差異数を正規化した値を用いているが、上位解を効率よく抽出する手法については明らかにされていない。   However, the method described in Non-Patent Document 1 extracts only the phonetic expression that matches all or the consonant strings that match all. In this method, extraction cannot be performed when some of the data do not match. Therefore, it is not possible to realize a highly accurate parallel translation. Further, the method described in Non-Patent Document 2 calculates a similarity between pronunciation expressions and extracts a translated word. At this time, in calculating the similarity between the strings of two phonetic expressions, the minimum number of differences between the strings due to insertion, replacement, and deletion with the importance of the consonant and the vowel differing as the consonant is an important element. Although the normalized value is used, the method for efficiently extracting the upper solution has not been clarified.

本発明は、上述した問題点に鑑みなされたものであり、第1言語で書かれた表現に対応する第2言語の訳語を第2言語の文書中から発音の類似度に基づいて、高精度に抽出するための対訳語抽出装置、対訳語抽出プログラムを提供することを目的とする。   The present invention has been made in view of the above-described problems, and is based on the similarity of pronunciation of a second language translation corresponding to an expression written in the first language based on the similarity of pronunciation in the second language document. It is an object of the present invention to provide a bilingual word extraction device and a bilingual word extraction program for extraction into a word.

上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。   In order to solve the above problems, the present invention employs means for solving the problems having the following characteristics.

請求項1に記載された発明は、第1言語の表現に対応する第2言語の訳語を第2言語の文書中から抽出する対訳語抽出装置において、予め蓄積されている第1言語と第2言語との対訳の文書から、第1言語で入力された表現を含む第1言語の文書と、該文書の対訳の第2言語の文書を抽出する抽出手段と、前記第1言語の文書を発音表現に変換する第1の変換手段と、前記第2言語の文書を発音表現に変換する第2の変換手段と、前記第1の変換手段により得られる発音表現と前記第2の変換手段により得られる発音表現との類似度を計算する類似度算出手段と、前記第2言語の文書中に含まれる前記第1言語の文書の出現頻度を取得する出現頻度取得手段と、前記類似度算出手段により得られる類似度と前記出現頻度取得手段により得られる出現頻度とに基づいて、訳語を出力する出力手段とを有することを特徴とする。   According to a first aspect of the present invention, there is provided a bilingual word extraction apparatus that extracts a translation of a second language corresponding to an expression of the first language from a document of the second language. A first language document including an expression inputted in the first language, a second language document that is a bilingual translation of the document, and a pronunciation of the first language document. Obtained by the first conversion means for converting into a representation, the second conversion means for converting the document in the second language into the pronunciation expression, the phonetic expression obtained by the first conversion means and the second conversion means. A similarity calculation unit that calculates a similarity with a pronunciation expression, an appearance frequency acquisition unit that acquires an appearance frequency of a document in the first language included in the document in the second language, and the similarity calculation unit Obtained by the similarity and the appearance frequency acquisition means Based on the occurrence frequency, and having an output means for outputting the translation.

請求項1記載の発明によれば、第1言語で書かれた表現に対応する第2言語の訳語を第2言語の文書中から発音の類似度に基づいて、高精度に抽出することができる。   According to the first aspect of the present invention, the translation of the second language corresponding to the expression written in the first language can be extracted from the document of the second language with high accuracy based on the similarity of pronunciation. .

請求項2に記載された発明は、前記類似度算出手段は、前記第1の変換手段により得られる発音表現と前記第2の変換手段により得られる発音表現との類似度を計算する場合、前記発音表現の表現長に基づいて、編集コストを算出することを特徴とする。   In the invention described in claim 2, when the similarity calculation unit calculates the similarity between the pronunciation expression obtained by the first conversion unit and the pronunciation expression obtained by the second conversion unit, The editing cost is calculated based on the expression length of the pronunciation expression.

請求項2記載の発明によれば、編集コストに基づいて、高精度に類似度を算出することができる。これにより、高精度に対訳語を抽出することができる。   According to the second aspect of the present invention, the similarity can be calculated with high accuracy based on the editing cost. Thereby, a bilingual word can be extracted with high precision.

請求項3に記載された発明は、前記類似度算出手段は、前記第1の変換手段により得られる発音表現と前記第2の変換手段により得られる発音表現との類似度を計算する場合、前記第1言語と第2言語との対訳の文書から学習した挿入及び削除の編集コストの比率に基づいて、類似度を算出することを特徴とする。   In the invention described in claim 3, when the similarity calculation unit calculates the similarity between the pronunciation expression obtained by the first conversion unit and the pronunciation expression obtained by the second conversion unit, The similarity is calculated based on the ratio of the editing costs of insertion and deletion learned from the bilingual document of the first language and the second language.

請求項3記載の発明によれば、挿入及び削除の編集コストの比率に基づいて、高精度に類似度を算出することができる。これにより、高精度に対訳語を抽出することができる。   According to the third aspect of the present invention, the similarity can be calculated with high accuracy based on the ratio of the editing costs of insertion and deletion. Thereby, a bilingual word can be extracted with high precision.

請求項4に記載された発明は、前記類似度算出手段は、前記編集コストを置換により算出する場合、置換する前後の文字の組み合わせにより前記編集コストを変更して設定することを特徴とする。   The invention described in claim 4 is characterized in that, when the editing cost is calculated by replacement, the similarity calculation means changes and sets the editing cost by a combination of characters before and after replacement.

請求項4記載の発明によれば、置換する場合のコストを置換される前後の文字の組み合わせに対応して変更することで、高精度に類似度を算出することができる。これにより、高精度に対訳語を抽出することができる。   According to the fourth aspect of the present invention, the similarity can be calculated with high accuracy by changing the cost for replacement in accordance with the combination of characters before and after the replacement. Thereby, a bilingual word can be extracted with high precision.

請求項5に記載された発明は、第1言語の表現に対応する第2言語の訳語を第2言語の文書中から抽出する処理をコンピュータに実行させるための対訳語抽出プログラムにおいて、予め蓄積されている第1言語と第2言語との対訳の文書から、第1言語で入力された表現を含む第1言語の文書と、該文書の対訳の第2言語の文書を抽出する抽出処理と、前記第1言語の文書を発音表現に変換する第1の変換処理と、前記第2言語の文書を発音表現に変換する第2の変換処理と、前記第1の変換処理により得られる発音表現と前記第2の変換処理により得られる発音表現との類似度を計算する類似度算出処理と、前記第2言語の文書中に含まれる前記第1言語の文書の出現頻度を取得する出現頻度取得処理と、前記類似度算出処理により得られる類似度と前記出現頻度取得処理により得られる出現頻度とに基づいて、訳語を出力する出力処理とをコンピュータに実行させる。   The invention described in claim 5 is stored in advance in a parallel word extraction program for causing a computer to execute a process of extracting a translation of a second language corresponding to an expression of the first language from a document of the second language. An extraction process for extracting a document in a first language including an expression inputted in the first language, and a document in a second language in a parallel translation of the document, from a parallel translation document in the first language and the second language; A first conversion process for converting a document in the first language into a phonetic expression; a second conversion process for converting the document in the second language into a phonetic expression; and a phonetic expression obtained by the first conversion process; Similarity calculation processing for calculating the similarity to the pronunciation expression obtained by the second conversion processing, and appearance frequency acquisition processing for acquiring the appearance frequency of the first language document included in the second language document And obtained by the similarity calculation process Based on the appearance frequency obtained by the frequency acquisition process similarity, to perform an output process for outputting the translation to the computer.

請求項5記載の発明によれば、第1言語で書かれた表現に対応する第2言語の訳語を第2言語の文書中から発音の類似度に基づいて、高精度に抽出することができる。また、プログラムをインストールすることにより、容易に対訳語の抽出処理を実現することができる。   According to the fifth aspect of the present invention, the translation of the second language corresponding to the expression written in the first language can be extracted from the document of the second language with high accuracy based on the similarity of pronunciation. . Also, by installing the program, it is possible to easily realize the bilingual word extraction process.

本発明によれば、第1言語で書かれた表現に対応する第2言語の訳語を第2言語の文書中から発音の類似度に基づいて、高精度に抽出することができる。   According to the present invention, a translation of a second language corresponding to an expression written in the first language can be extracted with high accuracy from a second language document based on the similarity of pronunciation.

<本発明の概要>
本発明は、第1言語で書かれた表現に対応する第2言語の訳語を第2言語の文書中から発音の類似性を利用して抽出する。ここで、抽出手法は、まず両方の言語の表現を文字又は部分文字列単位で変換テーブルを用いて発音表現に変換する。そして、発音表現間の類似度が高い第2言語の表現を訳語の候補として抽出する。また、類似度が等しい場合は、第2言語の文書中において、出現文書数の頻度で順位付けを行って出力する。
<Outline of the present invention>
The present invention extracts translations of the second language corresponding to expressions written in the first language from the second language document using pronunciation similarity. Here, the extraction method first converts expressions in both languages into pronunciation expressions using a conversion table in units of characters or partial character strings. Then, a second language expression having a high similarity between pronunciation expressions is extracted as a candidate for a translation word. If the similarities are equal, the documents are ranked according to the frequency of the number of appearing documents in the second language document and output.

これにより、第1言語で書かれた表現に対応する第2言語の訳語を第2言語の文書中から発音の類似度に基づいて、高精度に対訳語を抽出することができる。   As a result, it is possible to extract the translation word of the second language translation word corresponding to the expression written in the first language with high accuracy from the second language document based on the similarity of pronunciation.

なお、本発明において、「第1言語の表現と、その表現に対応する第2言語の訳語」とは、「両方とも翻字や音訳により生成された語である。」、「第1言語の表現が原言語の語(翻訳により生成された語ではなく、その言語の固有の語を表す。)で第2言語の訳語が翻字や音訳により生成された語である。」、又は「第1言語の表現が翻字や音訳により生成された語で、第2言語の訳語が原言語の語である。」の何れかである。   In the present invention, “the expression in the first language and the translation in the second language corresponding to the expression” are “both words generated by transliteration or transliteration”, “the first language. The expression is a word in the source language (not a word generated by translation, but a word specific to that language), and a translation in the second language is a word generated by transliteration or transliteration. " "The expression in one language is a word generated by transliteration or transliteration, and the translation in the second language is a word in the source language."

<実施の形態>
次に、本発明における実施の形態について図を用いて説明する。なお、以下に示す実施形態では、一例として第1言語に日本語、第2言語に中国語を用いて、日本語のカタカナ入力に対する中国語の対訳語を出力する例を用いる。つまり、本実施形態では、訳語を知りたい表現が日本語で表記され、訳語は中国語の場合である。また、発音表現として、ここではローマ字を用いた場合を考える。なお、本発明は、これらの言語の組み合わせや発音表現に限定されるものではない。
<Embodiment>
Next, embodiments of the present invention will be described with reference to the drawings. In the embodiment described below, as an example, Japanese is used as the first language and Chinese is used as the second language, and an example of outputting a bilingual Chinese word corresponding to Japanese katakana input is used. In other words, in this embodiment, the expression for which the translated word is desired is written in Japanese, and the translated word is in Chinese. Also, consider the case where Roman letters are used as pronunciation expressions. The present invention is not limited to combinations of these languages and pronunciation expressions.

図1は、本発明における対訳語抽出装置の一構成例を示す図である。図1に示す対訳語抽出装置10は、中国語文書取得部11と、第1の発音表現変換部12と、第2の発音表現変換部13と、発音類似度算出部14と、中国語表現復元部15と、出現頻度取得部16と、訳語順位選定部17とを有するよう構成されている。   FIG. 1 is a diagram illustrating a configuration example of a parallel word extraction apparatus according to the present invention. The bilingual word extraction device 10 shown in FIG. 1 includes a Chinese document acquisition unit 11, a first pronunciation expression conversion unit 12, a second pronunciation expression conversion unit 13, a pronunciation similarity calculation unit 14, a Chinese expression The restoration unit 15, the appearance frequency acquisition unit 16, and the translated word rank selection unit 17 are configured.

まず、中国語文書取得部11は、訳語を抽出するために入力されたカタカナに対して、予め蓄積されている日中対訳コーパス(文書対コーパス)21から入力したカタカナの表現を含む日本語文書の対訳の中国語文書を取得する。また、中国語文書取得部11は、取得した中国語文書を中国語コーパス22として出力する。   First, the Chinese document acquisition unit 11 receives a Japanese document including a katakana expression inputted from a bilingual bilingual corpus (document-to-corpus) 21 stored in advance for katakana inputted to extract a translated word. Get the Chinese translation of the bilingual. In addition, the Chinese document acquisition unit 11 outputs the acquired Chinese document as a Chinese corpus 22.

次に、第1の発音表現変換部12は、取得した中国語文書を予め蓄積されている漢字/ローマ字変換テーブル23により、文字単位で発音記号(ローマ字)に変換する。ここで、漢字/ローマ字変換テーブル23は、漢字1文字に対応するローマ字が登録された変換テーブルである。   Next, the first phonetic expression conversion unit 12 converts the acquired Chinese document into phonetic symbols (Roman characters) in units of characters using the Kanji / Romaji conversion table 23 stored in advance. Here, the kanji / romaji conversion table 23 is a conversion table in which romaji corresponding to one kanji is registered.

なお、変換される発音表現の候補が複数存在する場合は、場合は全て出力する。例えば、漢字「阿」についての発音表現(ローマ字)が「a」と「e」である場合、その両方を出力する。また、発音表現(ローマ字)は1文字に限らず、例えば、漢字「会」についての発音表現(ローマ字)は、「hui」、「kuai」、及び「kuo」となる。第1の発音表現変換部12は、上述のように変換テーブルにより変換した発音表現の中国語コーパス24を出力する。   If there are a plurality of pronunciation expression candidates to be converted, all of them are output. For example, if the pronunciation expression (Roman character) for the Chinese character “A” is “a” and “e”, both are output. Further, the pronunciation expression (Roman character) is not limited to one character. For example, the pronunciation expressions (Roman characters) for the Chinese character “kai” are “hui”, “kuai”, and “kuo”. The first phonetic expression conversion unit 12 outputs the Chinese corpus 24 of the phonetic expression converted by the conversion table as described above.

一方、訳語を抽出するために入力されたカタカナが入力される第2の発音表現変換部13は、入力されたカタカナに対して予め蓄積されているカタカナ/ローマ字変換テーブル25により、文字又は部分文字列単位で発音表現(ローマ字)に変換する。また、第2の発音表現変換部13は、変換した発音表現を発音類似度算出部14に出力する。   On the other hand, the second phonetic expression conversion unit 13 to which the input katakana is input to extract the translated word uses the katakana / romaji conversion table 25 stored in advance for the input katakana to generate a character or a partial character. Convert to phonetic expression (romaji) in units of columns. In addition, the second pronunciation expression conversion unit 13 outputs the converted pronunciation expression to the pronunciation similarity calculation unit 14.

発音類似度算出部14は、発音表現の中国語コーパス24に基づいて、類似度を示す編集距離と、発音表現が類似する表現の情報(対応する元の表現の文字位置と編集距離のコスト)を算出する。なお、編集距離を基にした類似度の算出の具体例については後述する。また、発音類似度算出部14は、算出した類似度の値を中国語表現復元部15に出力する。   The pronunciation similarity calculation unit 14, based on the Chinese corpus 24 of the pronunciation expression, edit distance indicating the similarity and information of the expression with similar pronunciation expression (the character position of the corresponding original expression and the cost of the edit distance) Is calculated. A specific example of calculating the similarity based on the editing distance will be described later. Further, the pronunciation similarity calculation unit 14 outputs the calculated similarity value to the Chinese expression restoration unit 15.

中国語表現復元部15は、抽出された発音表現が類似する表現の対応するものと、表現の文字位置の情報とから、中国語コーパス22に基づいて対応する中国語の表現を取得する。また、中国語表現復元部15は、復元した中国語表現を出現頻度取得部16に出力する。   The Chinese expression restoration unit 15 acquires the corresponding Chinese expression based on the Chinese corpus 22 from the corresponding expression having similar extracted pronunciation expressions and the character position information of the expression. In addition, the Chinese expression restoration unit 15 outputs the restored Chinese expression to the appearance frequency acquisition unit 16.

出現頻度取得部16は、取得した中国語表現が出現する文書の頻度を取得する。ここでは、例えば、発音類似度算出部14で算出した類似度が同一の対訳語に優先順位を付けるために中国語コーパス22に蓄積されている「カタカナを含む日本語文書の対訳の中国語文書」において、出現する文書の頻度を取得する。また、出現頻度取得部16は、取得した出現頻度の情報と発音類似度の情報とを訳語順位選定部17に出力する。   The appearance frequency acquisition unit 16 acquires the frequency of the document in which the acquired Chinese expression appears. Here, for example, the “Chinese document of the bilingual translation of the Japanese document including katakana” stored in the Chinese corpus 22 in order to prioritize the parallel translation words having the same similarity calculated by the pronunciation similarity calculation unit 14. The frequency of the appearing document is acquired. In addition, the appearance frequency acquisition unit 16 outputs the acquired appearance frequency information and pronunciation similarity information to the translated word rank selection unit 17.

訳語順位選定部17は、訳語の順位を決定して中国語の訳語を出力する、訳語の順位は、発音類似度算出部14から得られる複数の対訳語のうち、対訳語の編集距離の小さい順で、更に、編集距離が同じ場合は出現頻度取得部16により得られる文書の頻度の多い順とする。この条件に基づいて、誤訳順位選定部17は、中国語訳語を出力する。   The translated word rank selecting unit 17 determines the translated word rank and outputs the translated Chinese word. The translated word rank is short among the plurality of parallel translated words obtained from the pronunciation similarity calculating unit 14. Further, if the editing distance is the same, the document frequency obtained by the appearance frequency acquisition unit 16 is set in descending order. Based on this condition, the mistranslation rank selection unit 17 outputs a Chinese translation.

図1に示すような、対訳語抽出装置10により、日本語(第1言語)で書かれた表現に対応する中国語(第2言語)の訳語を中国語の文書中から発音の類似度に基づいて高精度に抽出することができる。   As shown in FIG. 1, the parallel word extraction device 10 converts the Chinese (second language) translation corresponding to the expression written in Japanese (first language) from the Chinese document to the similarity of pronunciation. Based on this, it can be extracted with high accuracy.

<編集距離を基にした類似度の算出の具体例>
次に、発音類似度算出部14における類似度の算出手順について具体的に説明する。本発明では、類似度を編集距離の値により定義する。つまり、編集距離のコストの値が小さいほど類似度が高いと判断する。ここで、編集距離とは、中国語の発音表現を日本語の発音表現と同じになるように編集する際のコストが最小となるコストとして定義する。また、本手法で用いる編集の種類と対応するコストは次の3種類((A)〜(C))を用いる。
(A)文字の挿入(コスト=CostInsert)
(B)文字の削除(コスト=CostDelete)
(C)文字の置換(コスト=CostReplace(char1,char2)
ここで、上述のchar1,char2は置換する前と後の文字を示す。
<Specific example of similarity calculation based on edit distance>
Next, the procedure for calculating the similarity in the pronunciation similarity calculator 14 will be specifically described. In the present invention, the similarity is defined by the value of the edit distance. That is, it is determined that the similarity is higher as the cost of the edit distance is smaller. Here, the edit distance is defined as a cost that minimizes the cost when editing the Chinese pronunciation expression to be the same as the Japanese pronunciation expression. Further, the following three types ((A) to (C)) are used as the cost corresponding to the type of editing used in this method.
(A) Character insertion (cost = CostInsert)
(B) Delete character (Cost = CostDelete)
(C) Character replacement (Cost = CostReplace (char1, char2)
Here, the above char1 and char2 indicate characters before and after replacement.

また、本実施形態では、非特許文献2に示されているように子音と母音で重要度を区別する手法以外の手法を用いて、編集距離(編集コスト)を補正することにより、類似度の精度を向上させることができる。以下にその手法について説明する。   Further, in this embodiment, as shown in Non-Patent Document 2, the similarity is calculated by correcting the edit distance (editing cost) using a method other than the method of distinguishing the importance between the consonant and the vowel. Accuracy can be improved. The method will be described below.

<表現長に対応したコスト補正>
まず、表現長に対応した編集コストの補正について説明する。一般的に、長い文字列中での1文字の編集と、短い文字列中での1文字の編集とでは、文字列全体が表現する発音への影響の大きさが異なる。例えば、10文字中における1文字の編集の影響は全体の1/10、5文字中における1文字の編集は全体の1/5の影響があると考えることができる。そこで、この影響の大きさの差を編集コストに反映させる。
<Cost correction corresponding to expression length>
First, editing cost correction corresponding to expression length will be described. In general, editing of one character in a long character string and editing of one character in a short character string have different effects on pronunciation expressed by the entire character string. For example, it can be considered that the effect of editing one character in 10 characters is 1/10 of the whole, and the editing of one character in 5 characters has the influence of 1/5 of the whole. Therefore, the difference in the magnitude of this influence is reflected in the editing cost.

また、編集後の日本語発音表現の文字列の長さをa文字、編集前の中国語発音表現の文字列の長さをb文字とする。ここで、挿入・削除・置換の各操作による合計の最小コストである編集距離Cを計算した後に、以下に示す(1)式により文字列の長さを考慮したコストに変換する。
表現長に応じた編集距離=C×a/b ・・・(1)
Further, the length of the character string of the Japanese phonetic expression after editing is a character, and the length of the character string of the Chinese phonetic expression before editing is b character. Here, after calculating the edit distance C which is the total minimum cost by each operation of insertion / deletion / replacement, it is converted into a cost in consideration of the length of the character string by the following equation (1).
Edit distance according to expression length = C × a / b (1)

<コーパスから学習した挿入及び削除のコストの比率によるコスト補正>
また、同一の発音を表現することを目的としている場合でも、例えば日本語の発音表現では短い表現になり、中国語側の発音表現では長い表現になる傾向があれば、挿入及び削除のコストの比率を、挿入よりも削除が起こり易くなるように調整する。
<Cost correction by ratio of insertion and deletion costs learned from corpus>
Also, even if the purpose is to express the same pronunciation, if there is a tendency for a short expression in Japanese pronunciation expression and a long expression in Chinese pronunciation expression, the insertion and deletion costs are reduced. The ratio is adjusted so that deletion is more likely to occur than insertion.

この比率を日中の外来語の対訳コーパスから求める。ここで、比率の設定方法について説明する。なお、本実施形態では、編集の方向を「中国語の発音表現を日本語の発音表現と同じになるように編集する。」としているので、まず中国語の発音表現を全て削除し、次に発音表現が0文字の状態から日本語の発音表現を生成する操作を行う。   This ratio is obtained from a bilingual corpus of foreign words during the day. Here, the ratio setting method will be described. In this embodiment, since the editing direction is “edit the Chinese pronunciation expression to be the same as the Japanese pronunciation expression”, first, all the Chinese pronunciation expressions are deleted, and then An operation for generating a Japanese phonetic expression from a state where the phonetic expression is 0 characters is performed.

ここで、中国語の発音表現を全て削除する操作にかかるコストと、0文字の状態から文字を挿入(追加)することで日本語の発音表現を生成する操作にかかるコストとは、どちらも1つの発音表現全体の編集コストと考えることができる。これらの表現全体の編集コストを等しいとすることで、挿入と削除の比率を調整する。   Here, both the cost of deleting all Chinese phonetic expressions and the cost of generating a Japanese phonetic expression by inserting (adding) characters from the zero-character state are both 1 It can be thought of as the editing cost of one pronunciation expression as a whole. The ratio of insertion and deletion is adjusted by making the editing costs of these expressions equal.

そこで、挿入及び削除の比率として、以下に示す(2)式を用いる。
CostDelete×b’=CostInsert×a’ ・・・(2)
ここで、a’は日中対訳コーパス中の日本語発音表現の平均文字数、b’は日中対訳コーパス中の中国語発音表現の平均文字数を示している。
Therefore, the following expression (2) is used as the ratio of insertion and deletion.
CostDelete × b ′ = CostInsert × a ′ (2)
Here, a ′ represents the average number of Japanese pronunciation expressions in the bilingual corpus and b ′ represents the average number of Chinese pronunciation expressions in the bilingual corpus.

更に、文字挿入のコスト(CostInsert)を1とする。この場合、削除コストは以下に示す(3)式となる。
CostDelete=a’/b’ ・・・(3)
なお、上述の(3)式の値は、例えば、日本語/中国語の外国人名辞書等を用いて算出する。これにより、挿入及び削除におけるコストを補正することができる。
Further, the cost of inserting characters (CostInsert) is set to 1. In this case, the deletion cost is expressed by the following equation (3).
CostDelete = a ′ / b ′ (3)
Note that the value of the above equation (3) is calculated using, for example, a Japanese / Chinese foreign name dictionary. Thereby, the cost in insertion and deletion can be corrected.

<置換する文字に対応した置換コストの補正>
置換される文字(char1)と置換した文字(char2)との発音の近さに基づいて、置換のコストを用いることで、発音の類似度比較をよりきめ細かく計算することができる。ここでは、経験的に置換のコストを定義したテーブルを作成して用いる。ここで、テーブル例について図を用いて説明する。図2は、置換コストに用いられるテーブルの一例である。図2に示すように、置換する前後の文字と、その前後の文字の組み合わせに対応するコストが設定されている。なお、置換前及び置換後の文字の区別はない。このようなテーブルを利用することにより、編集コストを高精度に算出することができる。
<Correction of replacement cost corresponding to the character to be replaced>
Based on the closeness of pronunciation between the replaced character (char1) and the replaced character (char2), the similarity of pronunciation can be calculated more finely by using the replacement cost. Here, a table in which the replacement cost is defined empirically is created and used. Here, a table example will be described with reference to the drawings. FIG. 2 is an example of a table used for the replacement cost. As shown in FIG. 2, the cost corresponding to the combination of the characters before and after replacement and the characters before and after the replacement is set. Note that there is no distinction between characters before and after replacement. By using such a table, the editing cost can be calculated with high accuracy.

次に、上述した編集の種類(上述の(A)〜(C))を用いて編集距離の算出し、編集距離が近い上位の類似表現を、長い表現から抽出する処理について、図を用いて説明する。   Next, the processing for calculating the editing distance using the above-described editing types (the above-mentioned (A) to (C)) and extracting the upper similar expression having a short editing distance from the long expression will be described with reference to the drawings. explain.

<編集距離算出方法>
図3は、本発明における編集距離の算出例を説明するための一例の図である。なお、図3の例では、以下に示す[外1]に示すように日本語カタカナの「アロヨ」に対応する対訳中国語を抽出するための編集距離の算出例である。
<Edit distance calculation method>
FIG. 3 is an example for explaining an example of calculating the edit distance in the present invention. Note that the example of FIG. 3 is an example of calculating the edit distance for extracting bilingual Chinese corresponding to “Arroyo” in Japanese katakana as shown in [External 1] shown below.

[外1]

Figure 2005258637
図3に示すように、編集距離の算出は、予め抽出する最大文字数Nを指定することで、その最大文字数N以下の文字数の任意の文字列の編集距離を全て得ることができる。ここで、Nは、元になるカタカナ(本実施形態では、日本語カタカナ)の文字数に対応して設定することにより、文字数の不足を防ぐことができる。また、図3における最大文字数Nを6とし、”#”記号はダミーのコストを示している。 [Outside 1]
Figure 2005258637
As shown in FIG. 3, the edit distance is calculated by designating a maximum number N of characters to be extracted in advance, thereby obtaining all edit distances of arbitrary character strings having the number of characters equal to or less than the maximum number N. Here, N is set corresponding to the number of characters of the original katakana (Japanese katakana in the present embodiment), thereby preventing a shortage of the number of characters. Also, the maximum number of characters N in FIG. 3 is 6, and the “#” symbol indicates a dummy cost.

なお、図3においては、削除、挿入、置換における夫々のコストを全て1としているが、本発明においてはこの限りではなく、上述したコストの補正を行うことで、更に高精度に対訳語を抽出することができる。   In FIG. 3, the costs for deletion, insertion, and replacement are all set to 1. However, the present invention is not limited to this, and bilingual words can be extracted with higher accuracy by correcting the costs described above. can do.

ここで、図3に基づいた編集距離の算出例についてフローチャートを用いて具体的に説明する。図4は、編集距離の算出例の一例を示すフローチャートである。図4において、まず、日本語のローマ宇と、最大でN文字の中国語の漢字とを対応させた複数のテーブル(“Main Table”)を作成する(S01)。これらのテーブルは、図1に示す発音表現の中国語コーパス24に含まれている中国語表現(例えば、以下に示す[外2])について、テーブルにおける中国語の漢字の先頭を1文字ずつ移動させた最大文字数6のテーブルが作成される。   Here, an example of calculating the edit distance based on FIG. 3 will be specifically described with reference to a flowchart. FIG. 4 is a flowchart illustrating an example of calculating the edit distance. In FIG. 4, first, a plurality of tables (“Main Table”) in which Japanese Roman characters are associated with a maximum of N Chinese characters are created (S01). These tables move the Chinese characters in the table one character at a time for the Chinese expressions included in the Chinese corpus 24 of pronunciation expressions shown in FIG. 1 (for example, [External 2] shown below). A table with the maximum number of characters 6 is created.

[外2]

Figure 2005258637
なお、各テーブルの先頭行の前にダミーの行“#”を挿入する。また、ダミーの行の先頭のみコストを「0」とする。また、#行は、右に移動すると、コストが1増加させる。ここで、アロヨはローマ字表記により「aroyo」となるため、#行は、“0,1,2,3,4,5”となる。 [Outside 2]
Figure 2005258637
A dummy row “#” is inserted before the first row of each table. Further, the cost is set to “0” only at the top of the dummy row. If the # row moves to the right, the cost is increased by one. Here, since Arroyo is “aroyo” in Roman notation, the # line is “0, 1, 2, 3, 4, 5”.

なお、図3では、編集コストを1としているので、このような値になったが、例えば、編集コストを2とすれば、“0,2,4,6,8,10”となる。   In FIG. 3, since the editing cost is 1, this value is obtained. However, if the editing cost is 2, for example, “0, 2, 4, 6, 8, 10” is obtained.

したがって、図3では、“Main Table”の縦に6文字の中国語表現と、各中国漢字のローマ字表現が格納され、横にカタカナのローマ字表現が格納される。なお、図3において、例えば、“Main Table”の中国語表現「阿」に対応するローマ字表現が「a/e」としているが、これは中国語表現「阿」の発音表現として「a」と「e」があることを示している。   Therefore, in FIG. 3, “Main Table” stores six Chinese characters in the vertical direction and Roman character representations of each Chinese character, and Katakana Roman characters in the horizontal direction. In FIG. 3, for example, the Roman character expression “a / e” corresponding to the Chinese expression “A” of “Main Table” is “a / e”, but this is expressed as “a” as the pronunciation expression of the Chinese expression “A”. “E” is present.

次に、作成した“Main Table”の各テーブルに対して、中国語漢字の1文字に対応するローマ字表現と、日本語のローマ字表現を対応させたテーブル(“Sub Table”)を作成する(S02)。なお、S02の処理では、“Main Table”の各行に対して、行の先頭から順番に行う。また、“Main Table”上での1つ前の行で編集されたコストを“Sub Table”のダミーの行にコピーする(S03)。   Next, a table (“Sub Table”) is created for each created “Main Table” table in which a Roman character expression corresponding to one Chinese character is associated with a Japanese Roman character expression (S02). ). Note that the processing of S02 is performed in order from the top of each row for each “Main Table” row. Further, the cost edited in the previous row on the “Main Table” is copied to a dummy row of the “Sub Table” (S03).

次に、"Sub Table"の各位置における編集距離のコストをダイナミックプログラミング等により計算する(S04)。また、“Sub Table”の末尾行のコストを“Main Table”にコピーする(S05)。なお、1つの漢字に対して"Sub Table"が複数存在する場合は、最もコストが小さい値を“Main Table”にコピーする。   Next, the cost of the edit distance at each position of the “Sub Table” is calculated by dynamic programming or the like (S04). Further, the cost of the last row of “Sub Table” is copied to “Main Table” (S05). When there are a plurality of “Sub Tables” for one Chinese character, the value with the lowest cost is copied to “Main Table”.

ここで、上述の"Sub Table"におけるコストの算出例について図3に基づいて具体的に説明する。図3に示すように、挿入、置換、削除の様子を矢印により示している。まず、中国語表現「阿」については、「a」と「e」の2つの"Sub Table"が作成される。ここで、カタカナのローマ字表記「aroyo」と、「a」及び「e」の夫々についてのコストの計算が行われる。   Here, an example of calculating the cost in the above-mentioned “Sub Table” will be specifically described with reference to FIG. As shown in FIG. 3, the state of insertion, replacement, and deletion is indicated by arrows. First, for the Chinese expression “A”, two “Sub Tables” of “a” and “e” are created. Here, the cost is calculated for each of the katakana romanizations “aroyo” and “a” and “e”.

まず、「#aroyo」と「a」の比較において、「#aroyo」の先頭の「#」と「a」とを比較して文字が異なるため、コストは今までの合計コスト0に1を加算して1となる。次に、「#aroyo」の「a」と「a」とを比較して、文字が同一であるため、コストは0となる。次に、「a」と「r」とを比較して文字が異なり、文字が挿入されるため、コストは今までの合計コスト0に1を加算して2となる。同様に、「o」と「a」とを比較して文字が異なるため、コストは今までの合計コスト1に1を加算して2となる。また、「y」と「a」と比較して文字が異なるため、コストは今までの合計コスト2に1を加算して3となる。また、「o」と「a」とを比較して文字が異なるため、コストは今までの合計コスト3に1を加算して4となる。したがって、「#aroyo」と「a」における最終的な編集コストは“1,0,1,2,3,4”となる。   First, in the comparison between “#aroyo” and “a”, the characters “#” and “a” at the beginning of “#aroyo” are compared and the characters are different. And becomes 1. Next, “a” and “a” of “#aroyo” are compared, and the characters are the same, so the cost is zero. Next, since “a” and “r” are compared and the characters are different and the characters are inserted, the cost becomes 2 by adding 1 to the total cost 0 so far. Similarly, since “o” and “a” are compared and the characters are different, the cost becomes 2 by adding 1 to the total cost 1 so far. Further, since the characters are different compared to “y” and “a”, the cost becomes 3 by adding 1 to the total cost 2 so far. Further, since “o” and “a” are compared and the characters are different, the cost becomes 4 by adding 1 to the total cost 3 so far. Therefore, the final editing costs for “#aroyo” and “a” are “1, 0, 1, 2, 3, 4”.

同様に漢字「阿」のローマ字表記「e」と「#aroyo」とを比較すると、コストは“1,1,2,3,4,5”となる。ここで、2つのコストから小さい方のコストを選択する。これにより、最終的な中国語表現「阿」のコストは、“1,0,1,2,3,4”となる。   Similarly, comparing the Roman character notation “e” and “#aroyo” of the Chinese character “A”, the cost is “1, 1, 2, 3, 4, 5”. Here, the smaller cost is selected from the two costs. As a result, the cost of the final Chinese expression “A” is “1, 0, 1, 2, 3, 4”.

上述と同様に“Main Table”の次の行の中国語表現についてもコストの算出を行っていく。なお、ダミー行には、“Main Table”の前の行のコスト“1,0,1,2,3,4”が入力される。   In the same manner as described above, the cost is also calculated for the Chinese expression in the next line of “Main Table”. The cost “1, 0, 1, 2, 3, 4” of the row before “Main Table” is input to the dummy row.

このような手法でコストを算出していくことにより、“Main Table”の全ての行についてコストを算出する。   By calculating the cost by such a method, the cost is calculated for all the rows of “Main Table”.

次に、上述したようなコストの算出について“Main Table”の全ての行について行ったかを判断し(S06)、全ての行について行っていない場合(S06において、NO)、“Main Table”の次の行へ移動し(S07)、S03に戻り処理を行う。また、S06について、“Main Table”の全ての行について、コストの算出を行った場合(S06において、YES)、全ての“Main Table”について処理を行ったかを判断する(S08)。   Next, it is determined whether the cost calculation as described above has been performed for all the rows of “Main Table” (S06). If not performed for all the rows (NO in S06), the next of “Main Table” is determined. (S07), and the process returns to S03. Further, in S06, when the cost is calculated for all the rows of “Main Table” (YES in S06), it is determined whether the processing has been performed for all “Main Table” (S08).

全てのMain Table”について行っていない場合(S08において、NO)、次の“Main Table”へ移動し(S09)、S02に戻り処理を行う。   If not performed for all Main Tables (NO in S08), the process moves to the next “Main Table” (S09), and returns to S02 for processing.

また、S08について、“Main Table”の全ての行について、コスト算出を行った場合(S08において、YES)、“Main Table”の開始位置が中国語漢字の開始位置となり、“Main Table”の末尾列の位置と値が、中国語漢字の各終了位置と対応するローマ字表現の編集距離のコストとなる。具体的には、図3に示されている、漢字「阿」から始まる"Main Table"において、最終的なコストは末尾列の"4,2,2,6,9,12"となる。   In S08, when the cost calculation is performed for all the lines of “Main Table” (YES in S08), the start position of “Main Table” becomes the start position of Chinese characters, and the end of “Main Table” The position and value of the column becomes the cost of the edit distance of the Romaji expression corresponding to each end position of Chinese Kanji. Specifically, in "Main Table" starting with the Chinese character "A" shown in FIG. 3, the final cost is "4, 2, 2, 6, 9, 12" in the last column.

このようにして、全ての"Main Table"の最終的な編集距離のコストを算出する。ここで、上述した編集距離のコストを、例えば「表現長に応じた編集コスト」の値に補正することもできる。   In this way, the cost of the final editing distance of all “Main Tables” is calculated. Here, the cost of the edit distance described above can be corrected to a value of “edit cost according to expression length”, for example.

次に、このコストを小さい順にソートして上位の開始位置と終了位置を抽出する(S10)。ここで、コストが小さいとは、編集による挿入・削除・置換が少なかったことを示すと共に同時に言語間の類似度が高いこと示している。次に、取得した中国語漢字の開始位置と終了位置から中国語表現を抽出し(S11)、中国語表現をコストと共に出力する(S12)。   Next, this cost is sorted in ascending order to extract the upper start position and end position (S10). Here, the low cost indicates that the number of insertion / deletion / replacement by editing is small, and at the same time, the similarity between languages is high. Next, a Chinese expression is extracted from the start position and end position of the acquired Chinese kanji (S11), and the Chinese expression is output together with the cost (S12).

なお、本実施形態では、上述の算出処理により中国語表現をコストと共に出力した後に、コストが同じ中国語表現については、日中対訳コーパスから訳語を抽出するために入力されたカタカナの表現を含む日本語文書の対訳の中国語文書(中国語コーパス)に含まれる中国語表現を含む記事の数(頻度)が多い順にソートして出力する。   In the present embodiment, after the Chinese expression is output together with the cost by the above calculation process, the Chinese expression having the same cost includes the katakana expression input to extract the translated word from the bilingual corpus. Sorted and output in descending order of the number (frequency) of articles containing Chinese expressions contained in the Chinese document (Chinese corpus) that is a parallel translation of the Japanese document.

上述したように、対訳語抽出処理を行うことにより、日本語(第1言語)で書かれた表現に対応する中国語(第2言語)の訳語を中国語の文書中から発音の類似度に基づいて、高精度に抽出することができる。   As described above, by performing the bilingual word extraction process, the Chinese (second language) translation corresponding to the expression written in Japanese (first language) is converted into the similarity of pronunciation from the Chinese document. Based on this, it is possible to extract with high accuracy.

<ハードウェア構成>
ここで、上述したように対訳語抽出装置10は、専用の装置構成により本発明における対訳語抽出を行うこともできるが、後述する各構成における対訳語抽出処理処理をコンピュータに実行させることができる実行プログラムを生成し、例えば、汎用のパーソナルコンピュータ、ワークステーション等にプログラムをインストールすることにより、本発明における対訳語抽出を実現することができる。
<Hardware configuration>
Here, as described above, the bilingual word extraction device 10 can also perform bilingual word extraction in the present invention with a dedicated device configuration, but can cause a computer to execute bilingual word extraction processing in each configuration described later. By generating an execution program and installing the program in, for example, a general-purpose personal computer or workstation, it is possible to realize the bilingual word extraction in the present invention.

ここで、本発明における実行可能なコンピュータのハードウェア構成例について図を用いて説明する。図5は、本発明における対訳語抽出処理が実現可能なハードウェア構成の一例を示す図である。   Here, an example of a hardware configuration of an executable computer in the present invention will be described with reference to the drawings. FIG. 5 is a diagram illustrating an example of a hardware configuration capable of realizing the bilingual word extraction processing according to the present invention.

図5におけるコンピュータ本体には、入力装置51と、出力装置52と、ドライブ装置53と、補助記憶装置54と、メモリ装置55と、各種制御を行うCPU(Central Processing Unit)56と、ネットワーク接続装置57とを有するよう構成されており、これらはシステムバスBで相互に接続されている。   5 includes an input device 51, an output device 52, a drive device 53, an auxiliary storage device 54, a memory device 55, a CPU (Central Processing Unit) 56 for performing various controls, and a network connection device. 57 are connected to each other by a system bus B.

入力装置51は、使用者が操作するキーボード及びマウス等のポインティングデバイスを有しており、使用者からのプログラムの実行等、各種操作信号を入力する。出力装置52は、本発明における対訳語抽出処理を行うためのコンピュータ本体を操作するのに必要な各種ウィンドウやデータ等を表示するディスプレイを有し、CPU56が有する制御プログラムによりプログラムの実行経過や結果等を表示することができる。   The input device 51 has a pointing device such as a keyboard and a mouse operated by the user, and inputs various operation signals such as execution of a program from the user. The output device 52 has a display for displaying various windows and data necessary for operating the computer main body for performing the bilingual word extraction processing according to the present invention. Etc. can be displayed.

ここで、本発明において、コンピュータ本体にインストールされる実行プログラムは、例えば、CD−ROM等の記録媒体58等により提供される。プログラムを記録した記録媒体58は、ドライブ装置53にセット可能であり、記録媒体58に含まれる実行プログラムが、記録媒体58からドライブ装置33を介して補助記憶装置54にインストールされる。   Here, in the present invention, the execution program installed in the computer main body is provided by, for example, a recording medium 58 such as a CD-ROM. The recording medium 58 on which the program is recorded can be set in the drive device 53, and the execution program included in the recording medium 58 is installed in the auxiliary storage device 54 from the recording medium 58 via the drive device 33.

補助記憶装置54は、ハードディスク等のストレージ手段であり、本発明における実行プログラムや、コンピュータに設けられた制御プログラム等を蓄積し必要に応じて入出力を行うことができる。   The auxiliary storage device 54 is a storage means such as a hard disk, and can store an execution program according to the present invention, a control program provided in a computer, etc., and perform input / output as necessary.

CPU56は、OS(Operating System)等の制御プログラム、メモリ装置55により読み出され格納されている実行プログラムに基づいて、各種演算や各ハードウェア構成部とのデータの入出力等、コンピュータ全体の処理を制御して、上述した対訳語抽出における各処理を実現することができる。プログラムの実行中に必要な各種情報は、補助記憶装置54から取得することができ、また格納することもできる。   The CPU 56 performs processing of the entire computer, such as various operations and input / output of data with each hardware component, based on a control program such as an OS (Operating System) and an execution program read and stored by the memory device 55. The above-described bilingual word extraction processing can be realized by controlling the above. Various information necessary during the execution of the program can be acquired from the auxiliary storage device 54 and can also be stored.

ネットワーク接続装置57は、通信ネットワーク等と接続することにより、実行プログラムを通信ネットワークに接続されている他の端末等から取得したり、プログラムを実行することで得られた実行結果又は本発明における実行プログラム自体を他の端末等に提供することができる。   The network connection device 57 obtains an execution program from another terminal connected to the communication network by connecting to a communication network or the like, or an execution result obtained by executing the program or an execution in the present invention The program itself can be provided to other terminals.

上述したようなハードウェア構成により、特別な装置構成を必要とせず、低コストで高精度なコンテンツ提供を実現することができる。また、プログラムをインストールすることにより、容易に対訳語の抽出処理を実現することができる。   With the hardware configuration described above, it is possible to provide a highly accurate content at low cost without requiring a special device configuration. Also, by installing the program, it is possible to easily realize the bilingual word extraction process.

<処理手順>
次に、本発明における対訳語の処理手順についてフローチャートを用いて説明する。なお、本発明において対訳語を抽出するにあたっては、第1言語と、第2言語とにより発音表現のコーパスを生成しておく。そこで、処理手順は、コーパスを生成する手順と、訳語を抽出する手順について説明する。
<Processing procedure>
Next, the parallel word processing procedure in the present invention will be described with reference to a flowchart. In the present invention, when extracting parallel translation words, a corpus of pronunciation expressions is generated in the first language and the second language. Accordingly, the processing procedure will be described with respect to a procedure for generating a corpus and a procedure for extracting a translation.

また、後述する処理手順においては、上述したように第1言語を日本語とし、第2言語を中国語としている。つまり、訳語を知りたい表現が日本語で表記され、訳語は中国語である場合についての例を示している。   Further, in the processing procedure described later, as described above, the first language is Japanese and the second language is Chinese. That is, an example is shown in which an expression for which a translation is desired is written in Japanese and the translation is in Chinese.

図6は、コーパス生成処理手順の一例を示すフローチャートである。図6において、まず、訳語を抽出するためのカタカナを入力し(S61)、入力したカタカナの表現を含む日本語文書の対訳の中国語文書を取得する(S62)。次に、上述したように発音表現への変換を行い(S63)、発音表現の中国語コーパスを出力する(S64)。   FIG. 6 is a flowchart illustrating an example of a corpus generation processing procedure. In FIG. 6, first, a katakana for extracting a translated word is input (S61), and a bilingual Chinese document including a representation of the input katakana is acquired (S62). Next, the phonetic expression is converted as described above (S63), and the Chinese corpus of the phonetic expression is output (S64).

次に、対訳語抽出処理手順についてフローチャートを用いて説明する。図7は、対訳語抽出処理手順の一例のフローチャートである。   Next, the bilingual word extraction processing procedure will be described with reference to a flowchart. FIG. 7 is a flowchart of an example of a parallel word extraction processing procedure.

図7において、まず、訳語を抽出するためのカタカナを入力し(S71)、発音表現への変換を行う(S72)。次に、上述したような編集コストの計算により、発音類似度の算出を行う(S73)。また、コーパス生成処理手順により生成した中国語コーパスを参照して中国語表現の復元を行う(S74)。また、同様に中国語コーパスを参照して編集コストにより算出された中国語表現に基づいて出現頻度を取得する(S75)。   In FIG. 7, first, katakana for extracting translated words is input (S71), and converted into pronunciation expression (S72). Next, pronunciation similarity is calculated by calculating the editing cost as described above (S73). Further, the Chinese expression is restored by referring to the Chinese corpus generated by the corpus generation processing procedure (S74). Similarly, the appearance frequency is acquired based on the Chinese expression calculated by the editing cost with reference to the Chinese corpus (S75).

次に、類似度及び出現頻度に基づいて訳語順位を選定し(S76)、入力されたカタカナに対応する中国語の訳語を出力する(S77)。   Next, the translation word rank is selected based on the similarity and the appearance frequency (S76), and the Chinese translation corresponding to the inputted katakana is output (S77).

上述したような処理手順により、日本語(第1言語)で書かれた表現に対応する中国語(第2言語)の訳語を中国語の文書中から発音の類似度に基づいて、高精度に抽出することができる。また、特別な装置構成を必要とせず、低コストで高精度なコンテンツ提供を実現することができる。更に、プログラムをインストールすることにより、容易に対訳語の抽出処理を実現することができる。   Through the processing procedure as described above, the translation of Chinese (second language) corresponding to the expression written in Japanese (first language) can be made with high accuracy based on the similarity of pronunciation from the Chinese document. Can be extracted. Further, it is possible to provide highly accurate content at low cost without requiring a special device configuration. Further, by installing the program, it is possible to easily realize the bilingual word extraction process.

以上に説明したように、本発明によれば、第1言語で書かれた表現に対応する第2言語の訳語を第2言語の文書中から発音の類似度及び出現頻度に基づいて、高精度に抽出することができる。   As described above, according to the present invention, the translation of the second language corresponding to the expression written in the first language can be obtained with high accuracy based on the similarity and appearance frequency of pronunciation from the document in the second language. Can be extracted.

これにより、例えば固有名詞等の外来の表現の訳語を自動的に最新のニュース記事等の対訳文書から取得することができる。また、対訳辞書の自動構築を実現することができる。   Thereby, for example, translations of foreign expressions such as proper nouns can be automatically acquired from a bilingual document such as the latest news article. Moreover, automatic construction of a bilingual dictionary can be realized.

また、訳語抽出の場合の類似度の計算に本発明を適用することにより、高い精度で訳語を抽出することができる。更に、効率的に上位解の訳語候補を取得することができ、高精度な対訳語の抽出を実現することができる。   Further, by applying the present invention to the similarity calculation in the case of translation extraction, translation words can be extracted with high accuracy. Furthermore, it is possible to efficiently acquire a translation word candidate of a higher-order solution, and it is possible to realize highly accurate parallel translation extraction.

以上本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。   Although the preferred embodiment of the present invention has been described in detail above, the present invention is not limited to the specific embodiment, and various modifications, within the scope of the gist of the present invention described in the claims, It can be changed.

本発明における対訳語抽出装置の一構成例を示す図である。It is a figure which shows one structural example of the bilingual word extraction apparatus in this invention. 置換コストに用いられるテーブルの一例である。It is an example of the table used for replacement cost. 本発明における編集距離を説明するための一例の図である。It is a figure of an example for demonstrating the edit distance in this invention. 編集距離の算出例の一例を示すフローチャートである。It is a flowchart which shows an example of the example of calculation of edit distance. 本発明における対訳語抽出処理が実現可能なハードウェア構成の一例を示す図である。It is a figure which shows an example of the hardware constitutions which can implement | achieve the bilingual word extraction process in this invention. コーパス生成処理手順の一例を示すフローチャートである。It is a flowchart which shows an example of a corpus production | generation process procedure. 対訳語抽出処理手順の一例のフローチャートである。It is a flowchart of an example of a bilingual word extraction processing procedure.

符号の説明Explanation of symbols

10 対訳語抽出装置
11 中国語文書取得部
12 第1の発音表現変換部
13 第2の発音表現変換部
14 発音類似度算出部
15 中国語表現復元部
16 出現頻度取得部
17 訳語順位選定部
21 日中対訳コーパス
22 中国語コーパス
23 漢字/ローマ字変換テーブル
24 発音表現の中国語コーパス
25 カタカナ/ローマ字変換テーブル
51 入力装置
52 出力装置
53 ドライブ装置
54 補助記憶装置
55 メモリ装置
56 CPU
57 ネットワーク接続装置
58 記録媒体
DESCRIPTION OF SYMBOLS 10 Parallel word extraction apparatus 11 Chinese document acquisition part 12 1st pronunciation expression conversion part 13 2nd pronunciation expression conversion part 14 pronunciation similarity calculation part 15 Chinese expression restoration part 16 appearance frequency acquisition part 17 translation word rank selection part 21 Japanese-Chinese Bilingual Corpus 22 Chinese Corpus 23 Chinese Character / Romaji Conversion Table 24 Chinese Corpus for Pronunciation Expression 25 Katakana / Roman Character Conversion Table 51 Input Device 52 Output Device 53 Drive Device 54 Auxiliary Storage Device 55 Memory Device 56 CPU
57 Network connection device 58 Recording medium

Claims (5)

第1言語の表現に対応する第2言語の訳語を第2言語の文書中から抽出する対訳語抽出装置において、
予め蓄積されている第1言語と第2言語との対訳の文書から、第1言語で入力された表現を含む第1言語の文書と、該文書の対訳の第2言語の文書を抽出する抽出手段と、
前記第1言語の文書を発音表現に変換する第1の変換手段と、
前記第2言語の文書を発音表現に変換する第2の変換手段と、
前記第1の変換手段により得られる発音表現と前記第2の変換手段により得られる発音表現との類似度を計算する類似度算出手段と、
前記第2言語の文書中に含まれる前記第1言語の文書の出現頻度を取得する出現頻度取得手段と、
前記類似度算出手段により得られる類似度と前記出現頻度取得手段により得られる出現頻度とに基づいて、訳語を出力する出力手段とを有することを特徴とする対訳語抽出装置。
In a bilingual word extraction device for extracting a translation of a second language corresponding to an expression of the first language from a document of the second language,
Extraction that extracts a document in a first language including an expression input in the first language and a document in a second language that is a parallel translation of the document from previously translated documents in the first language and the second language Means,
First conversion means for converting the document in the first language into a phonetic expression;
Second conversion means for converting the second language document into a phonetic expression;
Similarity calculation means for calculating the similarity between the pronunciation expression obtained by the first conversion means and the pronunciation expression obtained by the second conversion means;
Appearance frequency acquisition means for acquiring an appearance frequency of the first language document included in the second language document;
A bilingual word extraction apparatus comprising: output means for outputting a translation based on the similarity obtained by the similarity calculation means and the appearance frequency obtained by the appearance frequency acquisition means.
前記類似度算出手段は、
前記第1の変換手段により得られる発音表現と前記第2の変換手段により得られる発音表現との類似度を計算する場合、前記発音表現の表現長に基づいて、編集コストを算出することを特徴とする請求項1に記載の対訳語抽出装置。
The similarity calculation means includes:
When calculating the similarity between the pronunciation expression obtained by the first conversion means and the pronunciation expression obtained by the second conversion means, the editing cost is calculated based on the expression length of the pronunciation expression. The bilingual word extraction device according to claim 1.
前記類似度算出手段は、
前記第1の変換手段により得られる発音表現と前記第2の変換手段により得られる発音表現との類似度を計算する場合、前記第1言語と第2言語との対訳の文書から学習した挿入及び削除の編集コストの比率に基づいて、類似度を算出することを特徴とする請求項1又は2に記載の対訳語抽出装置。
The similarity calculation means includes:
When calculating the similarity between the pronunciation expression obtained by the first conversion means and the pronunciation expression obtained by the second conversion means, the insertion learned from the bilingual document of the first language and the second language, and The bilingual word extraction device according to claim 1, wherein the similarity is calculated based on a ratio of deletion editing costs.
前記類似度算出手段は、
前記編集コストを置換により算出する場合、置換する前後の文字の組み合わせにより前記編集コストを変更して設定することを特徴とする請求項2又は3に記載の対訳語抽出装置。
The similarity calculation means includes:
The bilingual word extraction device according to claim 2 or 3, wherein when the editing cost is calculated by replacement, the editing cost is changed and set by a combination of characters before and after replacement.
第1言語の表現に対応する第2言語の訳語を第2言語の文書中から抽出する処理をコンピュータに実行させるための対訳語抽出プログラムにおいて、
予め蓄積されている第1言語と第2言語との対訳の文書から、第1言語で入力された表現を含む第1言語の文書と、該文書の対訳の第2言語の文書を抽出する抽出処理と、
前記第1言語の文書を発音表現に変換する第1の変換処理と、
前記第2言語の文書を発音表現に変換する第2の変換処理と、
前記第1の変換処理により得られる発音表現と前記第2の変換処理により得られる発音表現との類似度を計算する類似度算出処理と、
前記第2言語の文書中に含まれる前記第1言語の文書の出現頻度を取得する出現頻度取得処理と、
前記類似度算出処理により得られる類似度と前記出現頻度取得処理により得られる出現頻度とに基づいて、訳語を出力する出力処理とをコンピュータに実行させるための対訳語抽出プログラム。
In a bilingual word extraction program for causing a computer to execute a process of extracting a translation of a second language corresponding to an expression of the first language from a document of the second language,
Extraction that extracts a document in a first language including an expression input in the first language and a document in a second language that is a parallel translation of the document from previously translated documents in the first language and the second language Processing,
A first conversion process for converting the document in the first language into a phonetic expression;
A second conversion process for converting the second language document into a phonetic expression;
A similarity calculation process for calculating a similarity between the pronunciation expression obtained by the first conversion process and the pronunciation expression obtained by the second conversion process;
An appearance frequency acquisition process for acquiring an appearance frequency of the document in the first language included in the document in the second language;
A parallel word extraction program for causing a computer to execute an output process for outputting a translation based on the similarity obtained by the similarity calculation process and the appearance frequency obtained by the appearance frequency acquisition process.
JP2004067020A 2004-03-10 2004-03-10 Parallel word extraction device and parallel word extraction program Expired - Fee Related JP4035111B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004067020A JP4035111B2 (en) 2004-03-10 2004-03-10 Parallel word extraction device and parallel word extraction program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004067020A JP4035111B2 (en) 2004-03-10 2004-03-10 Parallel word extraction device and parallel word extraction program

Publications (2)

Publication Number Publication Date
JP2005258637A true JP2005258637A (en) 2005-09-22
JP4035111B2 JP4035111B2 (en) 2008-01-16

Family

ID=35084312

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004067020A Expired - Fee Related JP4035111B2 (en) 2004-03-10 2004-03-10 Parallel word extraction device and parallel word extraction program

Country Status (1)

Country Link
JP (1) JP4035111B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010134922A (en) * 2008-12-08 2010-06-17 Nhn Corp Similar word determination method and system
JP2011018330A (en) * 2009-07-08 2011-01-27 Nhn Corp System and method for transforming kanji into vernacular pronunciation string by statistical method
US8069027B2 (en) 2006-01-23 2011-11-29 Fuji Xerox Co., Ltd. Word alignment apparatus, method, and program product, and example sentence bilingual dictionary

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8069027B2 (en) 2006-01-23 2011-11-29 Fuji Xerox Co., Ltd. Word alignment apparatus, method, and program product, and example sentence bilingual dictionary
JP2010134922A (en) * 2008-12-08 2010-06-17 Nhn Corp Similar word determination method and system
JP2011018330A (en) * 2009-07-08 2011-01-27 Nhn Corp System and method for transforming kanji into vernacular pronunciation string by statistical method

Also Published As

Publication number Publication date
JP4035111B2 (en) 2008-01-16

Similar Documents

Publication Publication Date Title
Karimi et al. Machine transliteration survey
US20110184723A1 (en) Phonetic suggestion engine
JP2007141133A (en) Device, method and program of example translation
JP2007004633A (en) Language model generation device and language processing device using language model generated by the same
KR101544690B1 (en) Word division device, word division method, and word division program
CN103970798A (en) Technology for searching and matching data
CN110678868B (en) Translation support system, translation support apparatus, translation support method, and computer-readable medium
JP2008083994A (en) Dictionary registration device, dictionary registration method, and dictionary registration program
Eryani et al. A spelling correction corpus for multiple Arabic dialects
US20190286702A1 (en) Display control apparatus, display control method, and computer-readable recording medium
JP2009205357A (en) Device, method and program for determining parts-of-speech in chinese,
Al-Mannai et al. Unsupervised word segmentation improves dialectal Arabic to English machine translation
JP4035111B2 (en) Parallel word extraction device and parallel word extraction program
JP7102710B2 (en) Information generation program, word extraction program, information processing device, information generation method and word extraction method
JP2009157888A (en) Transliteration model generation device, transliteration apparatus, and computer program therefor
JP6144458B2 (en) Sign language translation apparatus and sign language translation program
JP6926175B2 (en) Display support devices, methods and programs
JP7124358B2 (en) Output program, information processing device and output control method
JP2013186673A (en) Machine translation device and machine translation program
JP2020166501A (en) Segmentation model generation system, text segmentation device and segmentation model generation method
WO2009144890A1 (en) Pre-translation rephrasing rule generating system
WO2024004183A1 (en) Extraction device, generation device, extraction method, generation method, and program
WO2024004184A1 (en) Generation device, generation method, and program
JP6325789B2 (en) Translation apparatus and translation program
JP3961858B2 (en) Transliteration device and program thereof

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060324

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070227

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070501

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070522

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070621

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20070816

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070904

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071005

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071023

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071026

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101102

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111102

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121102

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees