JP4588657B2 - Translation device - Google Patents

Translation device Download PDF

Info

Publication number
JP4588657B2
JP4588657B2 JP2006083092A JP2006083092A JP4588657B2 JP 4588657 B2 JP4588657 B2 JP 4588657B2 JP 2006083092 A JP2006083092 A JP 2006083092A JP 2006083092 A JP2006083092 A JP 2006083092A JP 4588657 B2 JP4588657 B2 JP 4588657B2
Authority
JP
Japan
Prior art keywords
translation
unit
sentence
word
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006083092A
Other languages
Japanese (ja)
Other versions
JP2006228242A (en
Inventor
秀 富士
明 潮田
清司 大倉
達雄 山下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2006083092A priority Critical patent/JP4588657B2/en
Publication of JP2006228242A publication Critical patent/JP2006228242A/en
Application granted granted Critical
Publication of JP4588657B2 publication Critical patent/JP4588657B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、原言語での入力文に基づいて、原言語の例文とその例文の翻訳言語による翻訳文を対訳例文として検索し翻訳を行う翻訳装置、翻訳プログラム及び翻訳方法に関するものである。   The present invention relates to a translation apparatus, a translation program, and a translation method for searching and translating an example sentence in the source language and a translation sentence in the translation language of the example sentence as a parallel translation example sentence based on an input sentence in the source language.

産業翻訳(「実務翻訳」、「業務翻訳」等とも呼ばれる)の分野では、大量文書を効率良く高速に、かつ均質に翻訳する必要がある。均質な翻訳とは、用語や表現が統一された翻訳のことであり、作業対象文書内での統一はもちろんのこと、対象分野内の用語・表現との整合性を保証する必要がある。   In the field of industrial translation (also called “practical translation”, “business translation”, etc.), it is necessary to translate a large amount of documents efficiently, at high speed and uniformly. Homogeneous translation is a translation in which terms and expressions are unified, and it is necessary to guarantee consistency with terms and expressions in the target field as well as in the work target document.

このように統一性が重要視される産業翻訳では、同分野において過去に翻訳して作成された対訳例文を蓄積しておき、これを参照しながら翻訳作業を進めることを支援するようなシステムが使われてきた。このようなシステムは「翻訳メモリ」システムと呼ばれることも多いが、本明細書では以下、「対訳例文検索」と呼ぶこととする。   In such industrial translation where unity is important, there is a system that accumulates bilingual translation examples created in the past in the same field and supports the translation work while referring to this. It has been used. Such a system is often referred to as a “translation memory” system, but is hereinafter referred to as a “translation example sentence search” in this specification.

対訳例文検索システムでは、過去に翻訳された同内容の文書から作成された対訳文をデータベースとして蓄積する機能を備え、翻訳者はこのデータベースから作業対象の入力文に類似した例文を検索しながら翻訳作業を進める。さらに翻訳者は、自ら翻訳した訳文も原文とともに対訳文としてデータベースに登録することができるようになっているため、自らの作業範囲の中でも用語や表現を統一させることができる。 The bilingual example sentence search system has a function to accumulate bilingual sentences created from documents of the same content translated in the past as a database, and the translator translates while searching for example sentences similar to the input sentence to be worked on from this database. Proceed with work. Furthermore, the translator can register the translation translated by himself / herself in the database as a parallel translation along with the original sentence, so that the terms and expressions can be unified within the scope of his / her work.

従来の対訳例文検索システムは、翻訳対象文の入力に対して、文レベルで類似した文が過去に蓄積された対訳例文データベース中に含まれることを想定して構築されている。例えば、入力文と検索対象文を比較したときに、1つ名詞のみが異なっていて、それ以外は全く同じであるような場合がこれに相当する。この前提から、検索結果のランキングも、文レベルで類似した対訳例文に対して有効なランキングを採用していた。また、システムユーザはこのような文全体での類似性が期待できるような理想的な場面に限定してシステムを利用していた。   The conventional bilingual example sentence search system is constructed on the assumption that sentences similar to each other at the sentence level are included in the bilingual example sentence database accumulated in the past with respect to the input of the translation target sentence. For example, when an input sentence and a search target sentence are compared, only one noun is different, and the others are exactly the same. Based on this premise, the ranking of the search results has also been adopted as an effective ranking for the parallel translation example sentences at the sentence level. In addition, the system user uses the system only in an ideal scene where the similarity in the whole sentence can be expected.

一方、実在する対訳例文中には、文レベルでは入力文とマッチしないが、再利用可能なフレーズ(複合語や句など)を含む文が含まれている場合の方が圧倒的に多い。従来型の文レベルの類似を想定した対訳例文検索システムを流用した場合でも、ユーザが試行錯誤的に入力文の部分列を入力してみて、再利用可能なフレーズを見つけることは枠組みとしては可能である。しかしこのような使用方法は工数面で大きな負担を伴い、作業効率が重要視される実際の場面で利用されることはほとんどなかった。   On the other hand, there are overwhelmingly more cases in which actual bilingual example sentences contain sentences that do not match the input sentence at the sentence level but include reusable phrases (compound words, phrases, etc.). Even when diverting the conventional sentence example search system assuming similarities at the sentence level, it is possible as a framework for the user to find a reusable phrase by trying to input a substring of the input sentence by trial and error. It is. However, such a usage method has a large burden in terms of man-hours, and is rarely used in an actual scene where work efficiency is regarded as important.

なお、従来技術の参考技術として、下記特許文献が知られる(例えば、特許文献1参照)。
特開平10−116286号公報
In addition, the following patent document is known as a reference technique of a prior art (for example, refer patent document 1).
JP-A-10-116286

従来の対訳例文検索システムは、上述したように、文レベルの一致を前提としているため、これを転用して再利用可能なフレーズを含む文を人手で探し出すためには、かなりの試行錯誤が必要となり、実用的な場面で利用することができないという問題点があった。   As described above, the conventional bilingual example sentence search system is premised on matching at the sentence level, so it takes a lot of trial and error to manually search for sentences containing reusable phrases by diverting them. Therefore, there was a problem that it could not be used in practical situations.

例えば従来のシステムでは、「This is the pen which I love very much.」という入力文を英日翻訳する際に、文レベルで類似している「This is the pencil which I love very much.=これは、私がかつてとても愛した鉛筆です。」のような理想的な対訳文対が存在すれば、これを検索してきて再利用することを主に想定していた。   For example, in the conventional system, when translating the input sentence "This is the pen which I love very much." If there was an ideal bilingual sentence pair like "I once loved a pencil," it was mainly supposed to be searched and reused.

しかしながら、実際にはこのような文全体として類似した文がデータベース中に存在ことは稀で、例えば、「This is the pen.これがペンです。」、「They saw the pen which I love.=彼らは、私が愛するペンを見た。」、「She loves it very much.=彼女はそれを大変に愛している。」といった、入力文中に該入力文を構成するフレーズを含むような複数の文が存在する場合の方が多い。 However, in reality, it is rare that similar sentences exist in the database as a whole . For example, “ This is the pen . ”, “They saw the pen which I love. saw the pen that I love. "," she loves it very much. = she is such loves it very much. ", multiple statements such as those containing phrases that make up the said input print statements to the input sentence There are more cases where there is.

理論的には、これらのフレーズを組み合わせて訳文を完成させればよいが、このような複数の対訳フレーズを検索してくるのには大きな手間がかかり、現実的な場面ではこのような再利用方法はなされてこなかった。   Theoretically, these phrases can be combined to complete the translation, but it takes a lot of work to search for such multiple parallel phrases, and in practical situations such reuse is possible. No method has been made.

手間がかかる理由としては、例えば「This is the pen which I love very much.」という入力文を構成するフレーズとしてどんなものがデータベース中に存在するかを従来システムを用いて調べるためには、「This」、「This is」、「This is the」…、のような可能性のある部分列を一つ一つ入力してみて、ヒットするかどうかを試行錯誤することになるからである。   For example, in order to investigate what is in the database as a phrase constituting the input sentence “This is the pen which I love very much.” This is because it is tried and input whether or not each partial sequence such as “This is”, “This is the”...

この操作は、繰返し作業による手間がかかるばかりでなく、従来システムのランキング表示がこのような部分一致の結果を表示するには不向きであり、作業効率を下げていた。   This operation is not only troublesome due to repetitive work, but the ranking display of the conventional system is unsuitable for displaying the result of such partial matching, thus reducing the work efficiency.

また仮にランキング方式がフレーズ用に改善されても、従来システムを流用した試行錯誤では、個々のフレーズ候補を探し出すところまではできても、入力文を構成するような適当なフレーズの組合せを計算するところまではできなかった。この点に関しては、従来システムの単なる組合せでは不十分で、フレーズ候補の組合せを見つける枠組みが必要となっていた。   Also, even if the ranking method is improved for phrases, trial and error using the conventional system can calculate the appropriate combination of phrases that make up the input sentence, even though it can find individual phrase candidates. I couldn't. In this regard, a simple combination of conventional systems is not sufficient, and a framework for finding a combination of phrase candidates is required.

このような技術的な問題点が原因となって、システムの対象範囲も大幅に狭められていた。従来の文レベルで類似した文を検索するシステムでは、これに適したデータの存在する翻訳分野のみが対象であったが、これは全翻訳市場のほんの一部である。市場全体から見ると、文レベルで再利用できる例文よりもフレーズレベルで再利用できる例文のほうが圧倒的に多く、システムの対象とする市場が大幅に限定されているという問題があった。   Due to such technical problems, the scope of the system has been greatly narrowed. The conventional system for retrieving similar sentences at the sentence level is only for the translation field where there is data suitable for this, but this is only a part of the entire translation market. From the viewpoint of the market as a whole, there are overwhelmingly more example sentences that can be reused at the phrase level than example sentences that can be reused at the sentence level, and there is a problem that the market targeted by the system is greatly limited.

本発明は、翻訳市場に関わらず、翻訳作業を効率的に進めることができ、迅速で、信頼性の高い翻訳を行うことができる翻訳装置、翻訳プログラム及び翻訳方法を提供することを目的としている。   An object of the present invention is to provide a translation apparatus, a translation program, and a translation method that can efficiently perform translation work regardless of the translation market, and can perform quick and reliable translation. .

上述した課題を解決するため、本発明は、第1言語での入力文に基づいて、第1言語の例文とその例文の第2言語による翻訳文を対訳例文として検索し翻訳を行う翻訳装置であって、前記入力文を受付ける入力文受付部と、前記入力文受付部で受付けられた例文の部分列を作成する部分列作成部と、前記部分列作成部により作成された例文の部分列を用いて第1言語と第2言語の対訳例文を検索する対訳例文検索部と、前記対訳例文検索部により検索された対訳例文と該対訳例文に係る例文の部分列とに基づいて、検索された前記対訳例文の評価を行い評価値を付与する評価値付与部と、前記評価値付与部により付与された評価値に基づいて、前記対訳例文検索部で検索された前記対訳例文から所定の対訳例文をフレーズ候補として抽出するフレーズ候補抽出部と、前記フレーズ候補抽出部により抽出されたフレーズ候補から所定のフレーズを選択するフレーズ候補整理部と、入力文の構文を解析する構文解析部と、前記構文解析部で得られた構文の意味を解析し対応訳語を含む概念構造を生成する意味解析部と、前記フレーズ候補整理部で得られたフレーズ候補における第1言語の単語で前記対応訳語を検索する対応訳語検索部と、前記対応訳語検索部により前記対応訳語がヒットした場合に、前記意味解析部で生成された概念構造の対応訳語における第2言語の単語を、前記フレーズ候補における前記第1言語の単語に対応する第2言語の単語に置き換える訳語置き換え部と、訳語置き換え部により置き換えられた訳語を用いて訳文を生成する訳文生成部とを備える。   In order to solve the above-described problem, the present invention provides a translation apparatus that searches and translates an example sentence in the first language and a translation sentence of the example sentence in the second language as a parallel translation example sentence based on an input sentence in the first language. An input sentence receiving unit that receives the input sentence, a partial sequence creating unit that creates a partial sequence of example sentences received by the input sentence receiving unit, and a partial sequence of example sentences created by the partial sequence creating unit A bilingual example sentence search unit that uses bilingual example sentences to search for bilingual example sentences in the first language and the second language, a bilingual example sentence searched by the bilingual example sentence search unit, and a partial sequence of example sentences related to the bilingual example sentence An evaluation value providing unit that evaluates the bilingual example sentence and assigns an evaluation value; and a predetermined bilingual example sentence from the bilingual example sentence searched by the bilingual example sentence searching unit based on the evaluation value provided by the evaluation value providing unit Is extracted as a phrase candidate Obtained by a candidate candidate extracting unit, a phrase candidate organizing unit that selects a predetermined phrase from the phrase candidates extracted by the phrase candidate extracting unit, a syntax analyzing unit that analyzes the syntax of an input sentence, and the syntax analyzing unit A semantic analysis unit that analyzes the meaning of the syntax and generates a conceptual structure including a corresponding translation; a corresponding translation search unit that searches for the corresponding translation with a word in the first language in the phrase candidate obtained by the phrase candidate organization unit; When the corresponding translated word is hit by the corresponding translated word search unit, the second language word in the corresponding translated word of the conceptual structure generated by the semantic analyzing unit corresponds to the first language word in the phrase candidate. A translation replacement unit that replaces words in two languages, and a translation generation unit that generates a translation using the translations replaced by the translation replacement unit.

ここで、生成された訳文において、訳文側フレーズ候補とそれに対応する原文側フレーズが対応付けられて表示する表示部を備えることもできる。   Here, the generated translated sentence may include a display unit that displays the translated sentence side phrase candidate and the corresponding original sentence side phrase in association with each other.

また、本発明は、第1言語の入力文を第2言語の文に翻訳する処理をコンピュータに実行させる翻訳プログラムであって、前記入力文を受付ける入力文受付ステップと、前記入力文受付けステップで受付けられた例文の部分列を作成する部分列作成ステップと、前記部分列作成ステップにより作成された例文の部分列を用いて第1言語と第2言語の対訳例文を検索する対訳例文検索ステップと、前記対訳例文検索ステップにより検索された対訳例文と該対訳例文に係る例文の部分列とに基づいて、検索された前記対訳例文の評価を行い評価値を付与する評価値付与ステップと、前記評価値付与ステップにより付与された評価値に基づいて、前記対訳例文検索ステップで検索された前記対訳例文から所定の対訳例文をフレーズ候補として抽出するフレーズ候補抽出ステップと、前記フレーズ候補抽出ステップにより抽出されたフレーズ候補から所定のフレーズを選択するフレーズ候補整理ステップと、入力文の構文を解析する構文解析ステップと、前記構文解析ステップで得られた構文の意味を解析し対応訳語を含む概念構造を生成する意味解析ステップと、前記フレーズ候補整理ステップで得られたフレーズ候補における第1言語の単語で前記対応訳語における第1言語の単語を検索する対応訳語検索ステップと、前記対応訳語検索ステップにより前記対応訳語における第1言語の単語がヒットした場合に、前記意味解析部で生成された概念構造の対応訳語における第2言語の単語を、前記ヒットした前記第1言語の単語に対応する第2言語の単語に置き換える訳語置き換えステップと、訳語置き換えステップにより置き換えられた訳語を用いて訳文を生成する訳文生成ステップと、をコンピュータに実行させる。   The present invention is also a translation program for causing a computer to execute a process of translating an input sentence in a first language into a sentence in a second language, wherein the input sentence accepting step accepts the input sentence and the input sentence accepting step. A partial sequence creating step for creating a partial sequence of accepted example sentences; a parallel example sentence retrieving step for retrieving bilingual example sentences in the first language and the second language using the partial sequence of example sentences created in the partial sequence creating step; An evaluation value providing step of evaluating the parallel translation example sentence searched for based on the parallel translation example sentence searched by the parallel translation example sentence searching step and a partial sequence of the example sentence related to the parallel translation example sentence and assigning an evaluation value; and Based on the evaluation value given in the value assigning step, a predetermined translated example sentence is extracted as a phrase candidate from the parallel example sentence searched in the parallel example sentence searching step. Obtained in the phrase candidate extracting step, the phrase candidate organizing step for selecting a predetermined phrase from the phrase candidates extracted in the phrase candidate extracting step, the syntax analyzing step for analyzing the syntax of the input sentence, and the syntax analyzing step A semantic analysis step that analyzes the meaning of the syntax and generates a conceptual structure including the corresponding translation word, and searches for the first language word in the corresponding translation word from the first language word in the phrase candidate obtained in the phrase candidate organization step. When the first language word in the corresponding target word is hit by the corresponding target word searching step and the corresponding target word searching step, the second language word in the corresponding target word of the conceptual structure generated by the semantic analysis unit is hit. The translated word replacement step for replacing with the second language word corresponding to the first language word. When, it is executed and target generation step of generating a translation using a translation that was replaced by the translation replacing step, to the computer.

また、本発明は、第1言語での入力文に基づいて、第1言語の例文とその例文の第2言語による翻訳文を対訳例文として検索し翻訳を行う翻訳方法であって、前記入力文を受付けるステップと、前記入力文受付部で受付けられた例文の部分列を作成するステップと、前記部分列作成部により作成された例文の部分列を用いて第1言語と第2言語の対訳例文を検索するステップと、前記対訳例文検索部により検索された対訳例文と該対訳例文に係る例文の部分列とに基づいて、検索された前記対訳例文の評価を行い評価値を付与するステップと、前記評価値付与部により付与された評価値に基づいて、前記対訳例文検索部で検索された前記対訳例文から所定の対訳例文をフレーズ候補として抽出するステップと、前記フレーズ候補抽出部により抽出されたフレーズ候補から所定のフレーズを選択するステップと、入力文の構文を解析するステップと、前記構文解析部で得られた構文の意味を解析し対応訳語を含む概念構造を生成するステップと、前記フレーズ候補整理部で得られたフレーズ候補における第1言語の単語で前記対応訳語を検索するステップと、前記対応訳語検索部により前記対応訳語がヒットした場合に、前記意味解析部で生成された概念構造の対応訳語における第2言語の単語を、前記フレーズ候補における前記第1言語の単語に対応する第2言語の単語に置き換えるステップと、訳語置き換え部により置き換えられた訳語を用いて訳文を生成するステップと、を備えてなる。   The present invention also provides a translation method for searching and translating an example sentence in the first language and a translation sentence in the second language of the example sentence as a parallel example sentence based on the input sentence in the first language, , A step of creating a partial sequence of example sentences received by the input sentence receiving unit, and a bilingual example sentence of the first language and the second language using the partial sequence of example sentences created by the partial sequence creating unit A step of evaluating the bilingual example sentence retrieved by the bilingual example sentence and a partial sequence of the example sentence related to the bilingual example sentence, and assigning an evaluation value; A step of extracting a predetermined bilingual example sentence as a phrase candidate from the bilingual example sentence searched by the bilingual example sentence based on the evaluation value given by the evaluation value giving unit; and the phrase candidate extracting unit A step of selecting a predetermined phrase from the issued phrase candidates, a step of analyzing a syntax of the input sentence, a step of analyzing a meaning of the syntax obtained by the syntax analysis unit and generating a conceptual structure including a corresponding translation word; And the step of searching for the corresponding translation word with a word in the first language in the phrase candidate obtained by the phrase candidate organizing unit, and when the corresponding translation word hits by the corresponding translation word search unit, the semantic analysis unit generates Replacing a second language word in the corresponding translated word of the conceptual structure with a second language word corresponding to the first language word in the phrase candidate, and using the translated word replaced by the translated word replacing unit, Generating.

以上説明したように本発明によれば、入力文に対して、再利用可能性が高い対訳フレーズの候補が事前に自動的に計算されて、その存在がユーザに提示され、或いは又、それぞれの対訳フレーズについて対応する対訳例文が表示される。こうして本発明によれば、翻訳者にとって、入力文を対訳例文に沿った形で翻訳しようとしている作業者にとって、見通しよく迅速に作業を行うことができて効率良く翻訳作業を行うことができる。   As described above, according to the present invention, a candidate for a translated phrase having a high reusability is automatically calculated in advance for an input sentence, and its existence is presented to the user. A corresponding bilingual example sentence is displayed for the bilingual phrase. Thus, according to the present invention, for the translator who is trying to translate the input sentence in the form of the parallel translation example sentence, the translator can work quickly with high visibility and can efficiently perform the translation work.

本発明では、従来技術の問題点であげたような手作業による試行錯誤に相当する操作を自動的にまとめて行い、得られた候補を適切な組合せとしてユーザに提示する構成とすることで、ユーザが実際に操作する時間を大幅に短縮できるようにするものである。これを実現するために、検索システムの方で事前に翻訳文の全部分列の組み合わせによる検索を行っておき、その中から対訳フレーズとして再利用価値が高そうなものをユーザに提示する。また、提示された対訳フレーズ候補から実際の検索結果が素早く参照できるように構成する。さらに、入力文に対する適切なフレーズ候補の組合せが見つかった時点で、これらフレーズ候補を構成要素とするような訳文を生成するように構成することにより、さらに作業効率を上げることができる。この機能は、従来の機械翻訳の文解析および文生成の技術を利用することにより、実現することができる。   In the present invention, by automatically collecting operations corresponding to trial and error by manual work as mentioned in the problems of the prior art, and configured to present the obtained candidates to the user as an appropriate combination, The time for the user to actually operate can be greatly reduced. In order to realize this, the search system performs a search based on a combination of all subsequences of the translated sentence in advance, and presents the user with a high reuse value as a parallel translation phrase. In addition, an actual search result can be quickly referred to from the presented parallel phrase candidates. Furthermore, when an appropriate combination of phrase candidates for the input sentence is found, a configuration is made such that a translation that uses these phrase candidates as components is generated, thereby further improving the work efficiency. This function can be realized by using conventional machine translation sentence analysis and sentence generation techniques.

以下、本発明の実施の形態について図面を参照しつつ説明する。
実施の形態1.
図1は、本発明の実施の形態1に係る翻訳支援装置の構成を示すブロック図である。実施の形態1における翻訳支援装置は、翻訳対象の文を入力文(原言語:第1言語)として入力する入力文受付部1と、入力文から入力文の部分列として、全ての可能な部分列の組み合わせを作成する入力文部分列作成部2と、入力部分列から対訳例文をデータベース10,11に対して検索する対訳例文検索部3と、対訳例文検索部3で検索された部分候補に対して評価を行い、候補としての適切さの指標である評価値を付与する評価値付与部4とを備える。
Embodiments of the present invention will be described below with reference to the drawings.
Embodiment 1 FIG.
FIG. 1 is a block diagram showing the configuration of the translation support apparatus according to Embodiment 1 of the present invention. The translation support apparatus according to Embodiment 1 includes an input sentence receiving unit 1 that inputs a sentence to be translated as an input sentence (source language: first language), and all possible parts as a partial sequence of input sentences from the input sentence. An input sentence subsequence creating unit 2 that creates a combination of columns, a bilingual example sentence searching unit 3 that searches the databases 10 and 11 for bilingual example sentences from the input subsequence, and a partial candidate searched by the bilingual example sentence searching unit 3 An evaluation value providing unit 4 that performs evaluation on the image and assigns an evaluation value that is an index of appropriateness as a candidate is provided.

更に、翻訳支援装置は、評価値の付与された検索結果の中から、対訳フレーズ候補として提示するのに適当なものを抽出するフレーズ候補抽出部5と、部分列が包含関係にあるような複数の候補が存在する場合に、この中で最も候補として適当なものを残して重複を削除してフレーズ候補を整理するフレーズ候補整理部6と、整理されて残されたフレーズ候補を翻訳対象である入力文に付加してなるフレーズ候補付き入力文を作成するフレーズ候補付き入力文作成部7と、フレーズ候補付き入力文を画面に表示する表示部8と、入力文に対してフレーズ候補に基づく対訳例文表示データをデータベース10,11から抽出して作成する対訳例文表示データ作成部9を備える。   Further, the translation support apparatus includes a phrase candidate extraction unit 5 that extracts a suitable phrase to be presented as a parallel translation phrase candidate from the search results to which the evaluation value is assigned, and a plurality of partial strings in an inclusive relationship. If there are candidates, the phrase candidate organizing unit 6 for organizing the phrase candidates by deleting the duplication while leaving the most suitable candidate among them, and the phrase candidates remaining after organizing are candidates for translation Input sentence creation unit 7 with a phrase candidate for creating an input sentence with a phrase candidate added to the input sentence, a display unit 8 for displaying the input sentence with a phrase candidate on the screen, and a parallel translation based on the phrase candidate for the input sentence A bilingual example sentence display data creation unit 9 that extracts and creates example sentence display data from the databases 10 and 11 is provided.

対訳例文のデータベース10,11としては、対訳例文における原言語を格納した原言語側データベース10と、対訳例文における目標言語を格納した目標言語側データベース11とを備えている。なお、これらデータベース10,11それぞれに格納される互いに対訳関係にある原言語例文と目標言語例文は、文単位で対訳対応がなされている。   The parallel translated example sentence databases 10 and 11 include a source language side database 10 that stores a source language in a translated example sentence and a target language side database 11 that stores a target language in a translated example sentence. The source language example sentence and the target language example sentence which are stored in the databases 10 and 11 and have a parallel translation relationship with each other are translated in a sentence unit.

以下、本発明の動作を図2〜図12を用いて説明する。図2は実施の形態1の動作を示すフローチャート、図3〜図12は各動作における状態を示す説明図である。なお、この動作においては、英日翻訳を例にして説明する。すなわち、ここでは入力文および原言語側例文が英語で、目標言語側例文が日本語となる。もっとも、この言語対はあくまでも例であり、本発明は原理的には任意の言語対に適用可能であることは言うまでもない。   The operation of the present invention will be described below with reference to FIGS. FIG. 2 is a flowchart showing the operation of the first embodiment, and FIGS. 3 to 12 are explanatory diagrams showing states in each operation. This operation will be described using English-Japanese translation as an example. That is, here, the input sentence and the source language side example sentence are English, and the target language side example sentence is Japanese. However, this language pair is merely an example, and it goes without saying that the present invention can be applied to any language pair in principle.

まず、入力文受付部1により、翻訳対象文である入力文が1文受け付けられる(ステップS1)。ここでは、入力文として「This is the pen which I love very much.」が入力されたところである。   First, the input sentence receiving unit 1 receives one input sentence that is a translation target sentence (step S1). Here, “This is the pen which I love very much.” Is input as an input sentence.

次ぎに、入力文部分列作成部2により、入力文の各構成要素で始まる全ての長さの部分単語列が作成される(ステップS2)。入力文が英語のように単語単位で区切られる言語では、単語列の組み合わせが作られることになる。図3では、英語の単語区切りを使い、「部分単語列」を示している。入力文の先頭単語を始点とする全ての長さの部分単語列を作成し、次に先頭から第2単語目を始点とする全ての長さの部分列を作成し…、という具合に入力文の最後の単語を始点とする部分列まで、全ての組み合わせを作成する。   Next, a partial word string having all lengths starting with each component of the input sentence is created by the input sentence partial string creating unit 2 (step S2). In a language in which the input sentence is divided in units of words such as English, a combination of word strings is created. In FIG. 3, “partial word string” is shown using English word breaks. Create a partial word string of all lengths starting from the first word of the input sentence, then create a partial string of all lengths starting from the second word from the beginning, and so on. All combinations are created up to the substring starting from the last word of.

なお、入力文が日本語の場合には、文字単位で部分列を作ってもよいし、形態素列としてもよい。   When the input sentence is Japanese, a partial sequence may be created in units of characters or a morpheme sequence.

次ぎに、対訳例文検索部3により、ステップS2で作成した部分列の一覧から、図4に示すように部分単語列を一つ取り出し(ステップS3)、取り出した部分単語列を入力として、対訳例文データベース10,11において、原言語側文を対象に類似文検索を行なう(ステップS4)。検索結果として、入力された部分単語列に類似した原言語文、および検索された原言語文に対応付けられた目標言語文の対の候補一覧が取り出される。これら候補を以下では「部分候補」と呼ぶ。部分候補が取り出されると、次ぎに評価値付与部4により、各部分列に対する各部分候補に対して「部分評価値」が付与され、各部分列における部分評価値の最大値である「最大部分評価値」が得られる(ステップS5)。   Next, the bilingual example sentence search unit 3 extracts one partial word string as shown in FIG. 4 from the list of partial strings created in step S2 (step S3), and inputs the extracted partial word string as an input. In the databases 10 and 11, a similar sentence search is performed for the source language side sentence (step S4). As a search result, a candidate list of pairs of source language sentences similar to the input partial word string and target language sentences associated with the retrieved source language sentences is extracted. These candidates are hereinafter referred to as “partial candidates”. When the partial candidates are extracted, the evaluation value assigning unit 4 then assigns a “partial evaluation value” to each partial candidate for each partial sequence, and the “maximum part” is the maximum value of the partial evaluation values in each partial sequence. An “evaluation value” is obtained (step S5).

図4では、図3で作成した部分単語列一覧から一つの部分単語列(「This is the pen which」)を取り出し、これを検索キーとして対訳例文データベースを検索したところを表している。   In FIG. 4, one partial word string (“This is the pen which”) is extracted from the partial word string list created in FIG. 3, and this is used as a search key to search the parallel example sentence database.

図4の下半分では、検索結果の原言語側文の候補、およびこれらに対して評価値を付与するところを表している。「部分候補」は、入力部分単語列に対する検索結果の原言語側文の一覧である。部分候補では、部分単語列と一致した単語は、下線で示している。   The lower half of FIG. 4 represents the source language side sentence candidates of the search results and places where evaluation values are assigned to them. The “partial candidate” is a list of source language side sentences of search results for the input partial word string. In the partial candidates, words that match the partial word string are underlined.

例えば、原言語側候補の「This is the pen」では、全4単語が部分単語列と一致しているので、「マッチ数」が4となっている。「候補側」では、原言語側候補文の4単語中4単語(全単語)がマッチしていることを表している。「入力側」では、入力部分列の5単語のうち4単語がマッチしていることを表している。 For example, in the source language candidate “This is the pen”, since all four words match the partial word string, the “match number” is four. “Candidate side” indicates that 4 words (all words) of 4 words in the source language side candidate sentence are matched. “Input side” indicates that 4 words out of 5 words in the input subsequence match.

「部分評価値」は各部分候補に対する評価値であり、ここでは、「マッチ数」と「候補側」比率と「入力側」比率の積となっている。この評価式は、候補が提示するフレーズとして適切であるかを示す指標であり、本実施の形態の上記式はそれを実現する一例である。   The “partial evaluation value” is an evaluation value for each partial candidate, and here is the product of the “number of matches”, the “candidate side” ratio, and the “input side” ratio. This evaluation formula is an index indicating whether it is appropriate as a phrase presented by a candidate, and the above formula of the present embodiment is an example for realizing it.

このようにして、部分単語列に対する全部分候補について部分評価値が計算され、その部分評価値の中の最大値がその部分単語列に対する「最大部分評価値」となる。   In this way, partial evaluation values are calculated for all partial candidates for the partial word string, and the maximum value among the partial evaluation values becomes the “maximum partial evaluation value” for the partial word string.

次ぎに、以上の処理において、取り出した部分列が部分列一覧の中で最後のエントリであるかどうかの判定が行われ(ステップS6)、最後のエントリであれば次ステップS7に進み、最後のエントリでなければ最後のエントリとなるまでステップS3,S4の処理が繰り返される。   Next, in the above processing, it is determined whether or not the extracted partial sequence is the last entry in the partial sequence list (step S6). If it is the last entry, the process proceeds to the next step S7. If not, the processes in steps S3 and S4 are repeated until the last entry is reached.

ステップS3〜ステップS6のループ処理が全エントリに対して終了すると、全ての部分列の検索結果に対して最大部分評価値が付加された状態になる。そこで、次ぎの処理として、フレーズ候補抽出部5により、これらの部分列検索結果の中で、閾値以上の最大部分評価値を与えられたものがフレーズ候補として取り出される(ステップS7)と共に、フレーズ候補整理部6により、取り出された評価値以上のフレーズ候補の中で重複がある場合に、重複されているものが削除されて整理される(ステップS8)。   When the loop processing from step S3 to step S6 is completed for all entries, the maximum partial evaluation value is added to the search results of all partial strings. Therefore, as a next process, the phrase candidate extraction unit 5 takes out the partial sequence search results given the maximum partial evaluation value equal to or greater than the threshold value as a phrase candidate (step S7), and the phrase candidate. When there is an overlap among the extracted phrase candidates equal to or higher than the evaluation value, the organizer 6 deletes the overlapped phrase and arranges it (step S8).

図5は、各部分単語列とその最大部分評価値を取り出したものである。ここで閾値が仮に3だとすると、"This …"で始まる部分単語列では、"This is the"および"This is the pen"の二つが閾値以上となる。"is …"で始まる部分単語列には、閾値を超えるものはない。"This is the"および"This is the pen"は、前者が後者の部分列であるため、整理を行い、最長である後者のほうが残る。   FIG. 5 shows each partial word string and its maximum partial evaluation value. Here, if the threshold value is 3, in the partial word string starting with “This ...”, two of “This is the” and “This is the pen” are equal to or more than the threshold value. None of the partial word strings starting with "is ..." exceed the threshold. Since “This is the” and “This is the pen” are subsequences of the latter, they are arranged, and the latter, which is the longest, remains.

図6では、ある閾値(ここでは3)以上の最大部分評価値を持った部分単語列候補を取り出し、整理を行なった結果の一覧を示している。各候補は、対訳データベース中に対応する目標言語側文を持っているため、これら目標言語側文も一緒に取り出される。これら候補を、「対訳フレーズ候補」と呼ぶ。   FIG. 6 shows a list of results obtained by extracting and organizing partial word string candidates having a maximum partial evaluation value equal to or greater than a certain threshold (here, 3). Since each candidate has a corresponding target language side sentence in the parallel translation database, these target language side sentences are also taken out together. These candidates are called “translation phrase candidates”.

対訳フレーズ候補が取得されると、フレーズ候補付き入力文作成部7により、翻訳対象である入力文に対してフレーズ候補が付与された入力文が作成され(ステップS9)、その結果が表示される(ステップS10)。   When the translated phrase candidate is acquired, the input sentence creation unit 7 with phrase candidate creates an input sentence with the phrase candidate added to the input sentence to be translated (step S9), and the result is displayed. (Step S10).

図7は、図6で作成された対訳フレーズ候補の情報を入力文に付与した状態を示し、表示部8における表示結果を示している。図6の1番目の候補におけるマッチ部分である、「This is the pen」に対応する入力文の部分に下線が付与されて表示されている。同様にして、2番目の候補のマッチ部分である「which I love」、3番目の候補のマッチ部分である「very much」がそれぞれ下線によって示されている。   FIG. 7 shows a state where the information of the parallel phrase candidate created in FIG. 6 is added to the input sentence, and shows the display result on the display unit 8. The part of the input sentence corresponding to “This is the pen”, which is the match part in the first candidate in FIG. 6, is displayed with an underline. Similarly, “which I love”, which is the match part of the second candidate, and “very much”, which is the match part of the third candidate, are indicated by underlines.

図8は、図7に示したフレーズ候補付き入力文の表示画面に対して、更にユーザが操作を行ったところをあらわしている。ユーザは、入力文中の「This is the pen」に下線が付与されていることから、この部分列がフレーズ候補である可能性があると認識する。この部分列はハイパーリンクとして構成されており、ユーザがこのハイパーリンクを辿ることによって、この部分列を含む対訳例文が表示される。この対訳例文は対訳例文表示データ作成部9により作成され表示される。   FIG. 8 shows a state where the user has further operated the display screen for the phrase-added input sentence shown in FIG. The user recognizes that this subsequence may be a phrase candidate because “This is the pen” in the input sentence is underlined. This partial sequence is configured as a hyperlink, and when the user traces the hyperlink, a bilingual example sentence including the partial sequence is displayed. This bilingual example sentence is created and displayed by the bilingual example sentence display data creation unit 9.

図9は、図8と同様に、候補のハイパーリンクを辿った状態を示している。 FIG. 9 shows a state in which candidate hyperlinks are traced as in FIG.

本実施の形態における表示方法として、図10のようにフレーズ候補付きで入力文を表示することもできる。図10において、入力文の下部に、フレーズ候補の一覧が表示されている。フレーズ候補はそれぞれがハイパーリンクになっている。   As a display method in the present embodiment, an input sentence can be displayed with phrase candidates as shown in FIG. In FIG. 10, a list of phrase candidates is displayed at the bottom of the input sentence. Each phrase candidate is a hyperlink.

図11は、図10の表示に対して、さらにユーザが操作を行った場合の表示を示している。図中、ユーザは、フレーズ候補のうち「this is the pen」を指定するが、そうすると、このフレーズ候補のハイパーリンクが辿られ、対応する対訳例文がポップアップして表示される。   FIG. 11 shows a display when the user further performs an operation on the display of FIG. In the figure, the user designates “this is the pen” among the phrase candidates. Then, the hyperlink of the phrase candidate is traced, and the corresponding bilingual example sentence is popped up and displayed.

本実施の形態における他の表示方法として、図12に示すように表示することもできる。対訳例文の原言語側は「this is the pen」であるが、対訳辞書を検索した結果、これらの原言語側文中の単語が目標言語側の「これはペン」に対応していることがわかっている。そこで、このことをあらわすために、図12に示す表示方法では、目標言語側文の対応する部分に下線による表示を行っている。   As another display method in the present embodiment, it is possible to display as shown in FIG. The source language side of the bilingual example sentence is "this is the pen", but as a result of searching the bilingual dictionary, it turns out that the words in these source language side sentences correspond to "this is a pen" on the target language side ing. Therefore, in order to represent this, in the display method shown in FIG. 12, the underlined display is performed on the corresponding portion of the target language side sentence.

実施の形態2.
以下、実施の形態2について説明する。実施の形態2は、実施の形態1で得られるフレーズ候補を構成要素とし、自然文の訳文を生成する翻訳装置について説明する。
Embodiment 2. FIG.
The second embodiment will be described below. In the second embodiment, a translation device that generates a natural sentence translation using the phrase candidate obtained in the first embodiment as a constituent element will be described.

図13は実施の形態2を示すブロック図である。実施の形態2の翻訳装置は、実施の形態1において上述した翻訳支援装置における入力文受付部1〜フレーズ候補整理部6及び表示部8、例文データベース10,11と、入力文の構文を解析する構文解析部20と、構文の意味を解析する意味解析部21と、フレーズ候補整理部6で得られたフレーズ候補から対応訳語を検索する対応訳語検索部24と、構文意味の解析結果と検索された対応訳語とに基づいて訳語を変更する訳語変更部(訳語置き換え部)22と、変更された訳語を用いて訳文を生成する訳文生成部25と、意味解析部21により解析された情報を格納する解析結果格納データベース23とを備える。   FIG. 13 is a block diagram showing the second embodiment. The translation device of the second embodiment analyzes the input sentence receiving unit 1 to the phrase candidate organizing unit 6 and the display unit 8, the example sentence databases 10 and 11, and the syntax of the input sentence in the translation support device described in the first embodiment. The syntactic analysis unit 20, the semantic analysis unit 21 that analyzes the meaning of the syntax, the corresponding translation search unit 24 that searches for the corresponding translation from the phrase candidates obtained by the phrase candidate organization unit 6, and the analysis result of the syntax semantics are searched. A translation change unit (translation replacement unit) 22 that changes a translation based on the corresponding translation, a translation generation unit 25 that generates a translation using the changed translation, and information analyzed by the semantic analysis unit 21 is stored. And an analysis result storage database 23.

実施の形態2における翻訳装置は、入力文を構成するフレーズ候補に対応する目標言語側フレーズ群を対象に機械翻訳の文生成技術を用いて、文の形で出力するものである。   The translation device according to the second embodiment outputs a sentence in the form of a sentence using a machine translation sentence generation technique for a target language side phrase group corresponding to a phrase candidate constituting an input sentence.

構文解析部20は、自然言語処理分野で従来から用いられている構文解析装置であり、入力文受付部1からの入力文字列を形態素列に分解してから構文構造を解析して文の構文情報を表す構文木を出力する。   The syntax analysis unit 20 is a syntax analysis device conventionally used in the field of natural language processing. The syntax analysis unit 20 analyzes the syntax structure after decomposing the input character string from the input sentence reception unit 1 into morpheme strings, and constructs the sentence syntax. Outputs a syntax tree representing information.

意味解析部21は、従来の機械翻訳で用いられるような意味解析部であり、構文解析部20から得られた構文木に対して意味解析を行うことによって概念構造を出力する。出力された概念構造は解析結果格納データベース23に蓄積されると同時に訳語変更部22に渡される。   The semantic analysis unit 21 is a semantic analysis unit as used in conventional machine translation, and outputs a conceptual structure by performing semantic analysis on the syntax tree obtained from the syntax analysis unit 20. The output conceptual structure is accumulated in the analysis result storage database 23 and is simultaneously transferred to the translated word changing unit 22.

対応訳語検索部24は、フレーズ候補整理部6から出力された原言語の各フレーズ候補に対応する目標言語候補群の中から、第1候補のみを取り出す。そして、ここでは、原言語側のフレーズ候補中の単語と目標言語側の第1候補中の単語との間でマッチングをとり、対応訳語を見出す。さらに、このようにして得られた対応訳語の原言語側単語を用いて、解析結果格納データベース23の概念構造における各概念ノード中の原言語単語を検索する。   The corresponding translated word search unit 24 extracts only the first candidate from the target language candidate group corresponding to each source language phrase candidate output from the phrase candidate organizing unit 6. Here, matching is performed between the word in the phrase candidate on the source language side and the word in the first candidate on the target language side to find the corresponding translated word. Further, the source language word in each concept node in the concept structure of the analysis result storage database 23 is searched using the source language side word of the corresponding translation word obtained in this way.

訳語変更部22は、対応訳語検索部24において概念ノードに対する検索がヒットした場合に、その対応する目標言語側単語列をフレーズ候補から得られた目標言語側単語で置き換える。   When the search for the concept node is hit in the corresponding translated word search unit 24, the translated word changing unit 22 replaces the corresponding target language side word string with the target language side word obtained from the phrase candidate.

訳文生成部25は、訳語変更部22によって訳語(目標言語側単語)を置き換えられた概念構造から、既存の文生成装置を用いて訳文を出力する。文生成装置は、機械翻訳等で従来から用いられているものを用いる。   The translation generation unit 25 outputs the translation using the existing sentence generation device from the conceptual structure in which the translation (target language side word) is replaced by the translation change unit 22. As the sentence generation device, one conventionally used for machine translation or the like is used.

このようにして、本実施の形態では、構文解析部20により、原言語文から構文解析を用いて構文構造を取り出し、得られた構文構造を意味解析部21により、概念構造に変換し、訳文生成部25により、変換された概念構造から目標言語の訳文を生成するようにしたものであり、構文構造の段階において、訳語変更部22と対応訳語検索部24により、フレーズ候補の目標言語側単語を組み入れることによって、フレーズを生かした訳文生成を行う。なお、他の方式による機械翻訳を用いて同様に適用しても良いことは言うまでもない。   In this way, in the present embodiment, the syntax analysis unit 20 extracts the syntax structure from the source language sentence using the syntax analysis, converts the obtained syntax structure into the conceptual structure by the semantic analysis unit 21, and translates the sentence structure. The generation unit 25 generates a target language translation from the converted conceptual structure. At the syntax structure stage, the target language side word of the phrase candidate is generated by the translation change unit 22 and the corresponding translation search unit 24. The translation is generated using the phrase. Needless to say, it may be similarly applied using machine translation by other methods.

以下、図14に示すフローチャートを用いて実施の形態2の動作について説明する。
まず、入力文が一文受け付けられる(ステップS21)。ここで、入力文に対する処理はステップS22,S27に分岐する。分岐の一方であるステップS22では、図2に示したステップS1〜S8に対応する処理であり、入力文からフレーズ候補を作成する。
The operation of the second embodiment will be described below using the flowchart shown in FIG.
First, an input sentence is accepted (step S21). Here, the process for the input sentence branches to steps S22 and S27. Step S22, which is one of the branches, is a process corresponding to steps S1 to S8 shown in FIG. 2, and a phrase candidate is created from the input sentence.

ステップS23では、作成されたフレーズ候補から原言語側フレーズを1つ取り出し、ステップS24では、取り出されたフレーズ候補から各単語が1つずつ取り出され、それぞれの単語をキーとして、目標言語側フレーズ群の各単語が検索される。ステップS25により、原言語側のフレーズ毎に全ての単語について処理が繰り返される。ステップS26では、ステップS25までの繰り返し処理の中で、単語同士がヒットしたフレーズ対とそれら単語対自身が集計される。   In step S23, one source language side phrase is extracted from the created phrase candidates, and in step S24, each word is extracted one by one from the extracted phrase candidates, and the target language side phrase group is set using each word as a key. Are searched for. By step S25, the process is repeated for all words for each phrase on the source language side. In step S26, the phrase pairs in which the words are hit and the word pairs themselves are counted in the repetition process up to step S25.

分岐の他方であるステップS27では、ステップS21での入力文に対して構文解析が行われ、結果として構文木が出力される。   In step S27 which is the other of the branches, syntax analysis is performed on the input sentence in step S21, and a syntax tree is output as a result.

図15は、構文解析部20により、入力文に対する構文解析を行っている状態を示す説明図である。内部処理的には、入力文の構文構造が木構造で格納されている。構文解析の手法および結果の格納方法は、機械翻訳をはじめとする自然言語処理で一般的に使われるものであり、その処理の詳細についての説明は省略する。   FIG. 15 is an explanatory diagram illustrating a state in which the syntax analysis unit 20 performs syntax analysis on the input sentence. In terms of internal processing, the syntax structure of the input sentence is stored in a tree structure. The parsing method and the result storage method are generally used in natural language processing such as machine translation, and a detailed description of the processing is omitted.

図15において、Sは文(Sentence)、NPは名詞句(noun phrase)、VPは動詞句(verb phrase)を表しており、“this”、“is”などは木構造の終端ノードを表し、全体として、原言語側の文法構造を表したものとなっている。   In FIG. 15, S represents a sentence (Sentence), NP represents a noun phrase, VP represents a verb phrase, “this”, “is”, etc. represent end nodes of the tree structure, Overall, it represents the grammatical structure of the source language.

ステップS28では、構文木に対して意味解析が行われ、結果として概念構造が生成される。   In step S28, semantic analysis is performed on the syntax tree, and a conceptual structure is generated as a result.

図16は、図15に示した木構造から、意味解析部21により、概念構造を生成した状態を示す説明図である。構文構造から概念構造への変換においても、機械翻訳等で一般的に用いられる周知の手法を用いている。   FIG. 16 is an explanatory diagram illustrating a state in which the conceptual structure is generated by the semantic analysis unit 21 from the tree structure illustrated in FIG. 15. Also in the conversion from the syntax structure to the conceptual structure, a well-known method generally used in machine translation or the like is used.

図中、概念ノードが円で表され、関係アークが矢印で表されており、概念名は角カッコで表されている。概念ノードにおける概念は、原言語側の単語と目標言語側の単語群の両方を持っている。たとえば、概念「this」には、原文中の原言語単語である「this」が対応付けられている。なお、これら概念には、さらに図示しない「是」、「こちら」等の目標言語側単語も持っている。   In the figure, concept nodes are represented by circles, relational arcs are represented by arrows, and concept names are represented by square brackets. The concept in the concept node has both a source language side word and a target language side word group. For example, the concept “this” is associated with “this” which is a source language word in the original sentence. Note that these concepts also have target language side words such as “m” and “here” (not shown).

これら目標言語側単語群は、最初は機械翻訳用対訳辞書に格納されており、概念構造が生成されるときに、各概念ノードに情報が伝達される。概念構造は、概念同士のつながりを表したものであり、これに対して目標言語の生成規則を適用することによって、訳文を生成することができる。   These target language side word groups are initially stored in the parallel translation dictionary for machine translation, and information is transmitted to each concept node when the concept structure is generated. The concept structure represents a connection between concepts, and a translation can be generated by applying a target language generation rule thereto.

通常の機械翻訳であれば、上述のように、各概念に対応する目標言語の単語が格納されていて、これら単語を使って生成が行われる。たとえば、概念「I」に対して「わたくし」、「僕」等の目標言語単語が格納されている。   In the case of normal machine translation, as described above, words of a target language corresponding to each concept are stored, and generation is performed using these words. For example, target language words such as “I” and “I” are stored for the concept “I”.

本実施の形態では、機械翻訳が用意した目標言語の単語列を使う代わりに、フレーズ候補整理部6により整理されたフレーズ候補を用いて対訳フレーズの目標言語側単語列を概念ノードに割当て、これら目標言語側単語を用いて訳文生成を行うわけである。   In this embodiment, instead of using the target language word string prepared by machine translation, the target language side word string of the translated phrase is assigned to the concept nodes using the phrase candidates arranged by the phrase candidate organizing unit 6, Translation is generated using the target language side word.

図17は、フレーズ候補の第1候補のみを取り出した状態を示す説明図であり、対訳辞書の辞書引きによって単語対応が付けられた状態となっている。たとえば、図8では、「This is the pen」の対訳として3つの目標言語文である日本語文が存在しているが、その中の先頭にある「これがそのペンです」を採用する。   FIG. 17 is an explanatory diagram showing a state in which only the first candidate phrase is extracted, and is in a state in which word correspondence is attached by dictionary lookup of the bilingual dictionary. For example, in FIG. 8, there are three target language sentences, Japanese sentences, as a parallel translation of “This is the pen”, and “this is the pen” at the top of the sentences is adopted.

複数候補に対する順位付けとしては、原言語側文字列と目標言語側文字列の類似度を使うことができ、類似度自体は「編集距離」等を始めとする周知の様々な手法で計算することができる。同様にして、「which I love」および「very much」に関しても、第1候補の目標言語文字列を採用する。   As ranking for multiple candidates, the similarity between the source language side character string and the target language side character string can be used, and the similarity degree itself can be calculated by various known methods such as "edit distance". Can do. Similarly, the target language character string of the first candidate is adopted for “which I love” and “very much”.

このようにして各フレーズに目標言語文字列を一つずつ割り当ててから、原言語側と目標言語側で単語間の対応をとる。これは、機械翻訳対訳辞書等の対訳辞書を用いる。例えば、対訳辞書に「this」の訳語として「これ」が入っていれば、これらの対応付けを行う。同様にして、他のフレーズ対に関しても対応付け処理を行う。   In this way, after assigning a target language character string to each phrase one by one, correspondence between words is taken on the source language side and the target language side. This uses a bilingual dictionary such as a machine translation bilingual dictionary. For example, if “this” is included as a translation of “this” in the bilingual dictionary, these are associated. Similarly, association processing is performed for other phrase pairs.

この例では、概念「I」に対して機械翻訳辞書が用意した「わたくし」、「僕」の代わりに、対訳フレーズに現れる「私」が割り当てられる。この割当ての処理について、以下に述べる。   In this example, “I” appearing in the parallel translation phrase is assigned to the concept “I” instead of “Watakushi” and “I” prepared by the machine translation dictionary. This allocation process will be described below.

ステップS29では、ステップS26から単語対応付けされたフレーズ対と、ステップS28からの概念構造の形となった入力文が入力される。ここで、フレーズ1つが取り出される。ステップS30では、フレーズの原言語側の各単語で概念構造の各概念ノードの原言語単語が検索される。   In step S29, the phrase pair associated with the word from step S26 and the input sentence in the form of the conceptual structure from step S28 are input. Here, one phrase is taken out. In step S30, the source language word of each concept node of the concept structure is searched for in each word on the source language side of the phrase.

ステップS31では、ステップS30の検索において、ヒットがあれば、フレーズにおける対応する目標言語側単語で、概念ノードの目標言語側単語を置き換える。   In step S31, if there is a hit in the search in step S30, the target language side word of the concept node is replaced with the corresponding target language side word in the phrase.

ステップS32でフレーズ毎に処理が繰り返される。ステップS23では、目標言語側単語の置き換えが済んだ概念構造に対して訳文生成処理が行われ、出力文が生成される。   In step S32, the process is repeated for each phrase. In step S23, a translated sentence generation process is performed on the conceptual structure in which the target language side word has been replaced, and an output sentence is generated.

図18は、図16に示した概念構造のそれぞれの概念に対して、フレーズ候補の単語対応情報から訳語側フレーズを対応付けした状態を示す説明図である。   FIG. 18 is an explanatory diagram showing a state in which the translated word side phrase is associated with each concept of the conceptual structure shown in FIG. 16 from the word correspondence information of the phrase candidate.

上述のように、各概念ノードには、原言語単語と目標言語側単語群が格納されている。ここでは、もともと格納されている目標言語側単語群は用いない。図17に示した原言語側単語で各概念ノードの原言語単語を検索し、ヒットした場合には、対応付けられた目標言語側単語フレーズの単語をその概念ノードに割り付ける。実際には、概念ノードは名詞的な概念や動詞的な概念が中心となるので、「the」等の冠詞や「which」等の関係詞はヒットしない。   As described above, each concept node stores a source language word and a target language side word group. Here, the target language side word group stored originally is not used. When the source language word of each concept node is searched with the source language side word shown in FIG. 17 and hit, the word of the associated target language side word phrase is assigned to the concept node. Actually, since the concept node is centered on a noun concept or a verb concept, an article such as “the” and a relative noun such as “which” do not hit.

このようにして、図18に示すように、各概念ノードに対訳フレーズ中の単語が割り振られる。なお、フレーズ中の単語とヒットしないノードに関しては、機械翻訳でもともと用意された目標言語側単語群の中から単語を選んで使うことができる。   In this way, as shown in FIG. 18, the words in the parallel translation phrase are assigned to each concept node. For nodes that do not hit a word in the phrase, a word can be selected from the target language side word group originally prepared by machine translation.

この訳語側フレーズを指定訳語として生成した訳文が、図18の下部に表されている。概念構造からの訳文生成に関しては、従来の訳文生成技術を用いる。   A translation generated by using this translated side phrase as a designated translated word is shown in the lower part of FIG. For the translation generation from the conceptual structure, a conventional translation generation technique is used.

図19は、訳語側フレーズ候補を指定訳語として生成した訳文について、フレーズ候補の対訳関係を表示するようにした表示状態を示している。   FIG. 19 shows a display state in which the translation relationship of phrase candidates is displayed for the translation generated with the translated word side phrase candidate as the designated translated word.

以上、本発明の実施の形態について、英語を日本語に翻訳する場合に例をとって説明したが、本発明は、入力文を部分列に区切れて、各区分において対訳例文を検索できる全ての言語翻訳に適用でき、また、上述した構文解析手法及び意味解析手法についても、既存の全ての手法が適用できることは言うまでもない。   As described above, the embodiment of the present invention has been described by taking an example when English is translated into Japanese. However, the present invention is all capable of searching a parallel example sentence in each section by dividing an input sentence into substrings. Needless to say, all existing methods can be applied to the above-described syntax analysis method and semantic analysis method.

なお、本発明の翻訳プログラムは、コンピュータに読取り可能な記録媒体に記録されることができ、ここで、コンピュータにより読取り可能な記録媒体には、CD−ROMやフレキシブルディスク、DVDディスク、光磁気ディスク、ICカード等の可搬型記憶媒体や、コンピュータプログラムを保持するデータベース、或いは、他のコンピュータ並びにそのデータベースや、更に回線上の伝送媒体をも含むものである。   The translation program of the present invention can be recorded on a computer-readable recording medium. Here, the computer-readable recording medium includes a CD-ROM, a flexible disk, a DVD disk, and a magneto-optical disk. It also includes a portable storage medium such as an IC card, a database holding a computer program, another computer and its database, and a transmission medium on a line.

本発明の実施の形態1に係る翻訳支援装置の構成を示すブロック図である。It is a block diagram which shows the structure of the translation assistance apparatus which concerns on Embodiment 1 of this invention. 実施の形態1の動作を示すフローチャートである。3 is a flowchart showing the operation of the first embodiment. 入力文を部分単語列で表した状態図である。It is the state figure which represented the input sentence by the partial word string. 最大部分評価値の取得方法を説明するための説明図である。It is explanatory drawing for demonstrating the acquisition method of the largest partial evaluation value. 部分単語列毎の最大部分評価値を示す説明図である。It is explanatory drawing which shows the largest partial evaluation value for every partial word string. 3以上の最大部分評価値を持った部分単語列候補を取り出し、整理を行なった結果の一覧を示す状態図である。It is a state diagram which shows the list of the result of having taken out and rearranging the partial word sequence candidate with the maximum partial evaluation value of 3 or more. 図6で作成された対訳フレーズ候補の情報を入力文に付与した状態を表示結果として示す図である。It is a figure which shows the state which provided the information of the bilingual phrase candidate produced in FIG. 6 to the input sentence as a display result. 図7に示したフレーズ候補付き入力文の表示画面に対して、更にユーザが操作を行った状態を示す図である。It is a figure which shows the state which the user performed further operation with respect to the display screen of the input sentence with a phrase candidate shown in FIG. 図8と同様に、候補のハイパーリンクを辿った状態を示す図である。FIG. 9 is a diagram illustrating a state in which candidate hyperlinks are traced, as in FIG. 8. フレーズ候補付きで入力文を表示した表示状態を示す図である。It is a figure which shows the display state which displayed the input sentence with the phrase candidate. 図10の表示に対して、さらにユーザが操作を行った場合の表示状態を示す図である。It is a figure which shows the display state when a user further operates with respect to the display of FIG. 目標言語側文の対応する部分に下線による表示を行った表示状態を示す図である。It is a figure which shows the display state which performed the display by the underline to the part corresponding to a target language side sentence. 本発明の実施の形態2に係る翻訳装置の構成を示すブロック図である。It is a block diagram which shows the structure of the translation apparatus which concerns on Embodiment 2 of this invention. 実施の形態2の動作を示すフローチャートである。10 is a flowchart showing the operation of the second embodiment. 構文解析部により、入力文に対する構文解析を行っている状態を示す説明図である。It is explanatory drawing which shows the state which is performing the syntax analysis with respect to an input sentence by a syntax analysis part. 図15に示した木構造から、意味解析部により、概念構造を生成した状態を示す説明図である。It is explanatory drawing which shows the state which produced | generated the conceptual structure by the semantic analysis part from the tree structure shown in FIG. フレーズ候補の第1候補のみを取り出した状態を示す説明図である。It is explanatory drawing which shows the state which extracted only the 1st candidate of a phrase candidate. 図16に示した概念構造のそれぞれの概念に対して、フレーズ候補の単語対応情報から訳語側フレーズを対応付けした状態を示す説明図である。It is explanatory drawing which shows the state which matched the translation side phrase from the word corresponding information of a phrase candidate with respect to each concept of the conceptual structure shown in FIG. 訳語側フレーズ候補を指定訳語として生成した訳文について、フレーズ候補の対訳関係を表示した状態を示す図である。It is a figure which shows the state which displayed the translation relationship of the phrase candidate about the translated sentence produced | generated as the translation target side phrase candidate.

符号の説明Explanation of symbols

1 入力文受付部、2 入力文部分列作成部、3 対訳例文検索部、4 評価値付与部、5 フレーズ候補抽出部、6 フレーズ候補整理部、7 フレーズ候補付き入力文作成部、8 表示部、9 対訳例文表示データ作成部、10,11 対訳例文データベース、20 構文解析部、21 意味解析部、22 訳語変更(置き換え)部、23 解析結果格納データベース、24 対応訳語検索部、25 訳文生成部。   DESCRIPTION OF SYMBOLS 1 Input sentence reception part, 2 Input sentence subsequence preparation part, 3 Bilingual example sentence search part, 4 Evaluation value provision part, 5 Phrase candidate extraction part, 6 Phrase candidate arrangement part, 7 Phrase candidate input sentence preparation part, 8 Display part , 9 Bilingual example sentence display data creation unit, 10, 11 Bilingual example sentence database, 20 syntax analysis unit, 21 semantic analysis unit, 22 translation change (replacement) unit, 23 analysis result storage database, 24 corresponding translation search unit, 25 translation generation unit .

Claims (2)

電子データとして入力される複数の単語からなる第1言語での入力文に基づいて、第1言語の例文とその例文の第2言語による翻訳文を対訳例文として検索し表示する翻訳装置であって、
複数の単語からなる前記入力文を電子データで受付ける入力文受付部と、
前記入力文受付部で電子データとして受付けられた入力文の部分列を電子データにより作成する部分列作成部と、
前記部分列作成部により作成された入力文の部分列を用いて該部分列に類似した第1言語とその第1言語に対応した第2言語の対訳例文をデータベースから検索する対訳例文検索部と、
前記対訳例文検索部により前記データベースから検索された前記部分列に類似した第1言語の部分候補を構成する単語が前記部分列の単語に一致する数であるマッチ数の前記第1言語の部分候補を構成する単語数との割合、及び前記部分列の単語数と前記マッチ数との割合とを算出し、これら割合の算出値に基づいて前記部分候補の評価値を算出して付与する評価値付与部と、
前記評価値付与部により付与された評価値が所定の値以上となる対訳例文をフレーズ候補として抽出するフレーズ候補抽出部と、
前記フレーズ候補抽出部により抽出されたフレーズ候補から対応する部分列が重複したものを削除するフレーズ候補整理部と、
前記入力文を機械翻訳により構文解析し、構文木を生成する構文解析部と、
前記構文解析部で得られた構文木の意味を機械翻訳により解析し、対応訳語を含む概念構造を生成する意味解析部と、
前記フレーズ候補整理部で得られたフレーズ候補における第1言語の単語で前記意味解析部で得られた概念における第1言語を検索する対応訳語検索部と、
前記対応訳語検索部により前記対応訳語がヒットした場合に、前記意味解析部で生成された概念構造の対応訳語における第2言語の単語を、前記フレーズ候補における前記第1言語の単語に対応する第2言語の単語に置き換える訳語置き換え部と、
前記訳語置き換え部により置き換えられた訳語を用いて訳文を表示データとして生成する訳文生成部と
を備える翻訳装置。
A translation device that searches and displays an example sentence of a first language and a translated sentence of the example sentence in a second language as a bilingual example sentence based on an input sentence in a first language composed of a plurality of words inputted as electronic data. ,
An input sentence receiving unit for receiving the input sentence consisting of a plurality of words as electronic data;
A partial sequence creating unit that creates a partial sequence of the input sentence accepted as electronic data by the input sentence accepting unit, using electronic data;
A bilingual example sentence search unit for retrieving from the database a bilingual example sentence in a first language similar to the partial string and a second language corresponding to the first language, using the partial sequence of the input sentence created by the partial sequence creating unit; ,
The partial candidate of the first language with the number of matches, which is the number of words constituting the partial candidate of the first language similar to the partial sequence retrieved from the database by the bilingual example sentence search unit, which matches the word of the partial sequence An evaluation value that calculates a ratio between the number of words that constitutes and a ratio between the number of words in the partial sequence and the number of matches, and calculates and assigns evaluation values of the partial candidates based on the calculated values of these ratios A granting unit;
A phrase candidate extraction unit that extracts, as a phrase candidate, a bilingual example sentence in which the evaluation value given by the evaluation value giving unit is a predetermined value or more;
A phrase candidate organizing unit that deletes duplicated corresponding partial sequences from the phrase candidates extracted by the phrase candidate extracting unit;
A syntax analysis unit that parses the input sentence by machine translation and generates a syntax tree;
A semantic analysis unit that analyzes the meaning of the syntax tree obtained by the syntax analysis unit by machine translation and generates a conceptual structure including a corresponding translation word;
A corresponding word search unit for searching for a first language in the concept obtained by the semantic analysis unit with a word in the first language in the phrase candidate obtained by the phrase candidate organizing unit;
When the corresponding translated word is hit by the corresponding translated word search unit, the second language word in the corresponding translated word of the conceptual structure generated by the semantic analyzing unit corresponds to the first language word in the phrase candidate. A translation replacement unit that replaces words in two languages;
A translation apparatus comprising: a translation generation unit that generates a translation as display data using the translation replaced by the translation replacement unit.
請求項1に記載の翻訳装置において、
生成された訳文において、訳文側フレーズ候補とそれに対応する原文側フレーズが対応付けられて表示する表示部を備えることを特徴とする翻訳装置。
The translation device according to claim 1,
A translation apparatus comprising a display unit that displays a translation-side phrase candidate and a corresponding original-sentence phrase in association with each other in the generated translation.
JP2006083092A 2006-03-24 2006-03-24 Translation device Expired - Fee Related JP4588657B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006083092A JP4588657B2 (en) 2006-03-24 2006-03-24 Translation device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006083092A JP4588657B2 (en) 2006-03-24 2006-03-24 Translation device

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2004322269A Division JP4588417B2 (en) 2004-11-05 2004-11-05 Translation device

Publications (2)

Publication Number Publication Date
JP2006228242A JP2006228242A (en) 2006-08-31
JP4588657B2 true JP4588657B2 (en) 2010-12-01

Family

ID=36989501

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006083092A Expired - Fee Related JP4588657B2 (en) 2006-03-24 2006-03-24 Translation device

Country Status (1)

Country Link
JP (1) JP4588657B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5100460B2 (en) * 2008-03-14 2012-12-19 日本放送協会 Parallel translation expression processing apparatus and program
JP2012185654A (en) * 2011-03-04 2012-09-27 Fujitsu Ltd Translation apparatus, translation program, and translation method
EP2893480B1 (en) * 2012-09-07 2017-11-08 Kroll Information Assurance, LLC Snippet matching in file sharing networks

Also Published As

Publication number Publication date
JP2006228242A (en) 2006-08-31

Similar Documents

Publication Publication Date Title
JPS62163173A (en) Mechanical translating device
WO2001084376A2 (en) System for answering natural language questions
JP2003030185A (en) Automatic extraction of transfer mapping from bilingual corpora
JP2002229981A (en) System for generating normalized representation of character string
KR20160138077A (en) Machine translation system and method
US20070011160A1 (en) Literacy automation software
KR20030094632A (en) Method and Apparatus for developing a transfer dictionary used in transfer-based machine translation system
KR20120021933A (en) Statistical machine translation method using dependency forest
Hutchins Example-based machine translation: a review and commentary
Koeva et al. Natural language processing pipeline to annotate Bulgarian legislative documents
JP4588657B2 (en) Translation device
Bakari et al. Logic-based approach for improving Arabic question answering
Pouliquen et al. Automatic construction of multilingual name dictionaries
JP4588417B2 (en) Translation device
Krstev et al. WS4LR: A Workstation for Lexical Resources.
Jha et al. Inflectional morphology analyzer for Sanskrit
Nivre Multilingual dependency parsing from universal dependencies to sesame street
Faaß et al. A general lexicographic model for a typological variety of dictionaries in African languages
JP5148583B2 (en) Machine translation apparatus, method and program
Fan et al. Automatic extraction of bilingual terms from a chinese-japanese parallel corpus
Sankaravelayuthan et al. A Comprehensive Study of Shallow Parsing and Machine Translation in Malaylam
JP4007630B2 (en) Bilingual example sentence registration device
Wang et al. Web-based pattern learning for named entity translation in Korean–Chinese cross-language information retrieval
Fahmy et al. Towards Structuring an Arabic-English Machine-Readable Dictionary Using Parsing Expression Grammars
WO2024004184A1 (en) Generation device, generation method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071023

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071218

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080115

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080314

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20080401

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20080516

A912 Removal of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20080606

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100817

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100908

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130917

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees