JP2015146216A - machine translation apparatus, machine translation method and machine translation program - Google Patents

machine translation apparatus, machine translation method and machine translation program Download PDF

Info

Publication number
JP2015146216A
JP2015146216A JP2015080209A JP2015080209A JP2015146216A JP 2015146216 A JP2015146216 A JP 2015146216A JP 2015080209 A JP2015080209 A JP 2015080209A JP 2015080209 A JP2015080209 A JP 2015080209A JP 2015146216 A JP2015146216 A JP 2015146216A
Authority
JP
Japan
Prior art keywords
sentence
language
proposition
source language
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015080209A
Other languages
Japanese (ja)
Inventor
聡史 釜谷
Satoshi Kamaya
聡史 釜谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2015080209A priority Critical patent/JP2015146216A/en
Publication of JP2015146216A publication Critical patent/JP2015146216A/en
Pending legal-status Critical Current

Links

Images

Abstract

PROBLEM TO BE SOLVED: To provide a machine translation apparatus capable of handling diversity of source language sentence at low cost.SOLUTION: The machine translation apparatus is an apparatus for translating a source language sentence of a first language into a target language sentence of a second language. The machine translation apparatus includes: source language sentence conversion means; translation means; and proposition sentence conversion means. The source language sentence conversion means analyzes the language of the first source language sentence on the basis of the original language propositional sentence; extracts tense, phase, and mode, or voice as expression features; separates the expression features from the source language sentence; and converts source language proposition sentence excluding the expression features. The translation means translates the source language propositional sentence into a target language proposition sentence of the second language. The proposition sentence conversion means converts the target language propositional sentence into the target language sentence of the second language based on the expression features.

Description

本発明の実施形態は、機械翻訳装置、機械翻訳方法および機械翻訳プログラムに関する
Embodiments described herein relate generally to a machine translation apparatus, a machine translation method, and a machine translation program.

近年、自然言語処理技術の進展により、第1言語で表現された原言語文を、所望する第
2言語で表現された目的言語文に翻訳する機械翻訳装置が開発されている。機械翻訳装置
には、互いに翻訳関係にある原言語文と目的言語文からなる対訳用例を基に翻訳するデー
タ駆動型、文法規則や翻訳規則などの規則を基に翻訳する規則ベース型などがある。特に
、前述の2つの手法は広く実用に供されており、データ駆動型には訳出結果が自然な表現
になるという利点が、規則ベース型には訳出文の一貫性が高いという利点がある。
2. Description of the Related Art In recent years, machine translation devices that translate a source language sentence expressed in a first language into a target language sentence expressed in a desired second language have been developed with the progress of natural language processing technology. Machine translation devices include a data-driven type that translates based on parallel translation examples consisting of source language sentences and target language sentences that are in translation relation, and a rule base type that translates based on rules such as grammar rules and translation rules. . In particular, the two methods described above are widely used in practice. The data driven type has the advantage that the translation result is a natural expression, and the rule-based type has the advantage that the translation is highly consistent.

しかしながら、これらの手法で原言語文の多様性に対応するためには、データ駆動型で
は大量な対訳用例ベースが、規則ベース型では種々の規則の整備が必要になり、開発コス
トが高くなるという問題があった。
However, in order to cope with the diversity of source language sentences using these methods, it is necessary to prepare a large number of parallel translation examples for the data-driven type, and various rules for the rule-based type, resulting in high development costs. There was a problem.

特開2007−328483号公報JP 2007-328483 A 特開2009−217360号公報JP 2009-217360 A 特開平5−35784号公報Japanese Patent Laid-Open No. 5-35784

発明が解決しようとする課題は、原言語文の多様性に対応することができる機械翻訳装
置を低コストで開発することである。
The problem to be solved by the invention is to develop a machine translation apparatus capable of dealing with the diversity of source language sentences at a low cost.

本実施形態の機械翻訳装置は、第1言語による原言語文を第2言語による目的言語文に翻
訳する機械翻訳装置であって、原言語文変換手段と翻訳手段と命題文変換手段とを備える
。原言語文変換手段は、第1言語による原言語文を言語解析することにより時制、相、法
または態を表現素性として抽出し、前記原言語文から前記表現素性を分離し、前記表現素
性を含まない原言語命題文に変換する。翻訳手段は、前記原言語命題文を前記第2言語に
よる目的言語命題文に翻訳する。命題文変換手段は、前記表現素性に基づいて、前記目的
言語命題文を第2言語による目的言語文に変換する。
The machine translation apparatus according to the present embodiment is a machine translation apparatus that translates a source language sentence in a first language into a target language sentence in a second language, and includes a source language sentence conversion unit, a translation unit, and a proposition sentence conversion unit. . The source language sentence conversion means extracts a tense, phase, law or state as an expression feature by analyzing the source language sentence in the first language, separates the expression feature from the source language sentence, Convert to a source language proposition sentence that does not include. The translating means translates the source language proposition sentence into a target language proposition sentence in the second language. The proposition sentence conversion means converts the target language proposition sentence into a target language sentence in the second language based on the expression feature.

第1の実施形態の機械翻訳装置を示すブロック図。1 is a block diagram illustrating a machine translation apparatus according to a first embodiment. 実施形態の機械翻訳装置のハードウェア構成を示す図。The figure which shows the hardware constitutions of the machine translation apparatus of embodiment. 実施形態の解析候補集合の一例を示す図。The figure which shows an example of the analysis candidate set of embodiment. 実施形態の形態素辞書の一例を示す図。The figure which shows an example of the morpheme dictionary of embodiment. 実施形態の翻訳候補集合の一例を示す図。The figure which shows an example of the translation candidate set of embodiment. 実施形態の機械翻訳装置のフローチャート。The flowchart of the machine translation apparatus of embodiment. 実施形態の改変表現情報の一例を示す図。The figure which shows an example of the modification expression information of embodiment. 変形例の機械翻訳装置を示すブロック図。The block diagram which shows the machine translation apparatus of a modification. 変形例の機械翻訳装置を示すブロック図。The block diagram which shows the machine translation apparatus of a modification.

以下、本発明の実施形態について図面を参照しながら説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.

(第1の実施形態)
第1の実施形態の機械翻訳装置は、第1言語で表現された原言語文を所望する第2言語
で表現された目的言語文に翻訳する装置である。本実施形態では、第1言語を英語、第2
言語を日本語とした場合について説明をするが、対象言語はこれら2言語に限られない。
(First embodiment)
The machine translation apparatus according to the first embodiment is an apparatus that translates a source language sentence expressed in a first language into a target language sentence expressed in a desired second language. In this embodiment, the first language is English and the second language
Although the case where the language is Japanese will be described, the target language is not limited to these two languages.

図1は、第1の実施形態にかかる機械翻訳装置100を示すブロック図である。本実施形
態の機械翻訳装置は、英語で表現された原言語文を取得する取得部101と、原言語文か
ら表現素性を抽出し、原言語文を、表現素性を含まない原言語命題文に変換する原言語文
変換部102と、原言語命題文を日本語の目的言語命題文に翻訳する翻訳部103と、翻
訳部103において最も翻訳スコアが高かった目的言語命題文とその表現素性の組み合わ
せを選択する最尤候補選択部104と、最尤候補選択部104で選択された表現素性を編
集する素性編集部105と、素性編集部105で編集された表現素性に基づいて、最尤候
補選択部104で選択された目的言語命題文を日本語の目的言語文に変換する命題文変換
部106と、日本語の目的言語文をユーザに提示する提示部107とを備える。
FIG. 1 is a block diagram showing a machine translation apparatus 100 according to the first embodiment. The machine translation apparatus according to the present embodiment includes an acquisition unit 101 that acquires a source language sentence expressed in English, extracts an expression feature from the source language sentence, and converts the source language sentence into a source language proposition sentence that does not include the expression feature. A source language sentence conversion unit 102 for conversion, a translation unit 103 for translating a source language proposition sentence into a Japanese target language proposition sentence, and a combination of a target language proposition sentence having the highest translation score in the translation unit 103 and its expression feature Is selected based on the feature feature edited by the feature editing unit 105, the feature editing unit 105 that edits the expression feature selected by the maximum likelihood candidate selection unit 104, A proposition sentence conversion unit 106 that converts the target language proposition sentence selected by the unit 104 into a Japanese target language sentence; and a presentation unit 107 that presents the Japanese target language sentence to the user.

ここで、表現素性とは、原言語文における話し手の命題に対する主観的認識や発話態度
を表すものであり、本実施形態では、時制、相、法、態などを用いる。また、命題文とは
、表現素性を含まない客観的事物を表す文である。原言語命題文は、英語で表現された命
題文であり、原言語文と比べて多様性が取り除かれた表現になる。目的言語命題文は、英
語の原言語命題文を翻訳して得られた日本語の命題文である。
Here, the expression feature represents the subjective recognition and the utterance attitude with respect to the proposition of the speaker in the source language sentence. In this embodiment, tense, phase, law, state, and the like are used. A proposition sentence is a sentence representing an objective thing that does not include an expression feature. The source language proposition sentence is a proposition sentence expressed in English, and is an expression in which diversity is removed compared to the source language sentence. The target language proposition sentence is a Japanese proposition sentence obtained by translating an English source language proposition sentence.

本実施形態の機械翻訳装置は、翻訳対象となる原言語文から表現素性を抽出し、原言語
文を、表現素性を含まない原言語命題文に変換する。そして、この原言語命題文を翻訳部
で目的言語命題文に翻訳する。原言語命題文は多様性が取り除かれていることから、これ
を翻訳する翻訳部の開発コストを下げることができる。
The machine translation apparatus of this embodiment extracts an expression feature from a source language sentence to be translated, and converts the source language sentence into a source language proposition sentence that does not include the expression feature. Then, the source language proposition sentence is translated into the target language proposition sentence by the translation section. Since the source language proposition sentence has been removed from the diversity, the development cost of the translation section that translates the sentence can be reduced.

また、本実施形態の機械翻訳装置は、編集された表現素性に基づいて、目的言語命題文を
目的言語文に変換する。これにより、原言語文が持っていた多様性を反映し、かつ、ユー
ザ所望の表現を伴った目的言語文を生成することができる。
The machine translation apparatus according to the present embodiment converts the target language proposition sentence into the target language sentence based on the edited expression feature. As a result, it is possible to generate a target language sentence that reflects the diversity of the source language sentence and is accompanied by an expression desired by the user.

(ハードウェア構成)
本実施形態の機械翻訳装置は、図2に示すような通常のコンピュータを利用したハードウ
ェアで構成されており、装置全体を制御するCPU(Central Processing Unit)等の制
御部201と、各種データや各種プログラムを記憶するROM(Read Only Memory)やR
AM(Random Access Memory)等の記憶部202と、各種データや各種プログラムを記憶
するHDD(Hard Disk Drive)やCD(Compact Disk)ドライブ装置等の外部記憶部2
03と、ユーザの指示入力を受け付けるキーボードやマウスなどの操作部204と、外部
装置との通信を制御する通信部205と、ユーザの発声を取得するマイク206と、音声
波形を再生して再生音を発生させるスピーカ207と、映像を表示するディスプレイ20
9と、これらを接続するバス208とを備えている。
(Hardware configuration)
The machine translation apparatus according to the present embodiment is configured by hardware using a normal computer as shown in FIG. 2, and includes a control unit 201 such as a CPU (Central Processing Unit) that controls the entire apparatus, various data, ROM (Read Only Memory) and R for storing various programs
A storage unit 202 such as an AM (Random Access Memory) and an external storage unit 2 such as an HDD (Hard Disk Drive) or a CD (Compact Disk) drive device that stores various data and various programs.
03, an operation unit 204 such as a keyboard and a mouse that accepts user instruction input, a communication unit 205 that controls communication with an external device, a microphone 206 that acquires user utterances, and a sound waveform that is reproduced by reproducing an audio waveform And a display 20 for displaying video
9 and a bus 208 for connecting them.

このようなハードウェア構成において、制御部201がROM等の記憶部202や外部記
憶部203に記憶された各種プログラムを実行することにより以下の機能が実現される。
In such a hardware configuration, the following functions are realized when the control unit 201 executes various programs stored in the storage unit 202 such as the ROM or the external storage unit 203.

(入力部)
取得部101は、英語で表現された原言語文を取得する。ユーザは、操作部204のキー
ボードを介して、原言語文を入力することができる。また、マイク206で取得したユー
ザの音声を認識して、原言語文を取得してもよい。この他にも、手書き文字認識により原
言語文を取得してもよいし、通信部205を介して接続された外部装置から原言語文を取
得してもよい。
(Input section)
The acquisition unit 101 acquires a source language sentence expressed in English. The user can input a source language sentence via the keyboard of the operation unit 204. Further, the user's voice acquired by the microphone 206 may be recognized to acquire the source language sentence. In addition, the source language sentence may be acquired by handwritten character recognition, or the source language sentence may be acquired from an external device connected via the communication unit 205.

(原言語文変換部)
原言語文変換部102は、取得部101で取得された原言語文から表現素性を抽出し、原
言語文を、この表現素性を含まない原言語命題文に変換する。原言語文変換部102は、
形態素解析技術、構文解析技術、照応解析技術などを用いて原言語文を解析する。そして
、この解析結果を用いて、原言語文から複数の表現素性を抽出すると共に、原言語文を複
数の原言語命題文に変換する。ここで、形態素解析技術には、接続コストに基づく解析手
法、統計的言語モデルに基づく解析手法などが、構文解析技術には、CYK法、一般化L
R法などがある。
(Source language sentence conversion part)
The source language sentence conversion unit 102 extracts a representation feature from the source language sentence acquired by the acquisition unit 101, and converts the source language sentence into a source language proposition sentence that does not include the expression feature. The source language sentence conversion unit 102
Analyzes source language sentences using morphological analysis technology, syntax analysis technology, anaphora analysis technology, etc. Then, using this analysis result, a plurality of expression features are extracted from the source language sentence, and the source language sentence is converted into a plurality of source language proposition sentences. Here, the morphological analysis technology includes an analysis method based on a connection cost, an analysis method based on a statistical language model, and the syntax analysis technology includes a CYK method, a generalized L
There is the R method.

本実施形態では、時制、相、法、態などを表現素性として抽出し、これらを原言語文から
分離した文を原言語命題文とする。ここで、原言語命題文は、原言語文と比較して多様性
が取り除かれた表現となっている。これにより、原言語命題文を翻訳する翻訳部103の
開発コストを下げることができる。
In the present embodiment, tense, phase, law, state, and the like are extracted as expressive features, and a sentence obtained by separating these from the source language sentence is used as a source language proposition sentence. Here, the source language proposition sentence is an expression in which diversity is removed as compared with the source language sentence. Thereby, the development cost of the translation part 103 which translates a source language proposition sentence can be reduced.

図3は、原言語文変換部102における表現素性と原言語命題文の一例を示す図である。
本実施形態の原言語文変換部102は、表現素性およびそれに関する情報(表現情報)と
、この表現素性を含まない原言語命題文とからなる複数の組み合わせを解析候補集合とし
て出力する。図3では、「Shall I have him call you back when returns?」という原言
語文309から、301〜303に示す3つの組み合わせが生成されている。組み合わせ
301では、304が原言語命題文を、305が表現情報をそれぞれ表している。表現情
報305は、表現素性308と、表現素性308が原言語命題文304のどの形態素に対
応付けられているかを示す識別子306と、識別子306が示す原言語命題文の形態素3
07とからなる。識別子306は、原言語命題文304において先頭の形態素を1とした
場合の形態素の位置を表している。この例では、表現素性308「(現在)(使役 (対象 he
))(提案 (主語 I))(疑問)」が、形態素307「calls」に対応付けられている。
FIG. 3 is a diagram illustrating an example of the representation feature and the source language proposition sentence in the source language sentence conversion unit 102.
The source language sentence conversion unit 102 according to the present embodiment outputs a plurality of combinations of expression features and information related thereto (expression information) and source language proposition sentences not including this expression feature as an analysis candidate set. In FIG. 3, three combinations 301 to 303 are generated from the source language sentence 309 “Shall I have him call you back when returns?”. In the combination 301, 304 represents a source language proposition sentence, and 305 represents expression information. The expression information 305 includes an expression feature 308, an identifier 306 indicating which morpheme of the source language proposition sentence 304 is associated with the expression feature 308, and a morpheme 3 of the source language proposition sentence indicated by the identifier 306.
07. The identifier 306 represents the position of the morpheme when the leading morpheme is 1 in the source language proposition sentence 304. In this example, the expression feature 308 “(current) (use (target he
)) (Proposal (Subject I)) (Question) ”is associated with morpheme 307“ calls ”.

原言語文変換部102は、図4に示すような形態素辞書、および構文情報に基づいて表現
素性を抽出する。例えば、「解析された」という文は、図4の辞書を参照すれば、「解析
・する・れる・た」と解析できるので、この文から「解析する」という命題文と「(受動
)(過去)」という表現素性を生成できる。また、例えば「Shall I have him call you
back when returns?」という英語の原言語文においては、「Shall I」が「Shall N」に相
当すると解析できるので(提案 (主語 I))という表現素性が、「have him call」が「have
N V」に相当すると解析できるので(使役 (対象 he))という表現素性が、それぞれ抽出で
きる。なお、Nは名詞を、Vは動詞を表す。
The source language sentence conversion unit 102 extracts expression features based on the morpheme dictionary and the syntax information as shown in FIG. For example, a sentence “analyzed” can be analyzed as “analyze / can / are /” by referring to the dictionary in FIG. 4, so a proposition sentence “analyze” and “(passive) ( "Past)" can be generated. For example, `` Shall I have him call you
In the English source language sentence “back when returns?”, it can be analyzed that “Shall I” is equivalent to “Shall N”, so the expression feature (proposition (subject I)) is “have him call” is “have
Since it can be analyzed if it corresponds to “NV”, the expression feature (use (target he)) can be extracted. N represents a noun and V represents a verb.

(翻訳部)
翻訳部103は、英語の原言語命題文を日本語の目的言語命題文に翻訳する。翻訳部1
03により行われる翻訳処理は、一般的な規則ベース型の翻訳手法であるトランスファ方
式や、データ駆動型の翻訳手法である用例ベース方式や統計ベース方式などを用いること
ができる。
(Translation Department)
The translation unit 103 translates an English source language proposition sentence into a Japanese target language proposition sentence. Translation Department 1
For the translation processing performed by 03, a transfer method that is a general rule-based translation method, an example-based method that is a data-driven translation method, a statistics-based method, or the like can be used.

本実施形態の翻訳部103は、原言語文変換部102が生成した解析候補集合に属する全
ての原言語命題文に対して翻訳処理を実行し、各原言語命題文を翻訳した目的言語命題文
およびその翻訳スコアを得る。そして、原言語命題文、表現情報、目的言語命題文および
翻訳スコアの組み合わせからなる翻訳候補を生成する。
The translation unit 103 according to the present embodiment executes a translation process on all source language proposition sentences belonging to the analysis candidate set generated by the source language sentence conversion unit 102, and translates each source language proposition sentence. And get its translation score. Then, a translation candidate including a combination of the source language proposition sentence, the expression information, the target language proposition sentence, and the translation score is generated.

ここで、翻訳スコアとは翻訳品質を表す指標であり、用例ベース方式であれば入力文字列
と用例との類似度を、統計ベース方式であれば言語モデルに基づく翻訳の生成確率を、規
則ベース型の翻訳方式であれば構文の尤度、用いられた規則の優先度に基づく値を用いる
ことができる。
Here, the translation score is an index representing the translation quality. In the case of the example-based method, the similarity between the input character string and the example is used. If it is a type translation system, a value based on the likelihood of the syntax and the priority of the rule used can be used.

図5は、翻訳部103が出力する翻訳候補の集合(翻訳候補集合)の一例を示している
。この図では、501〜503の3つの翻訳候補がある。翻訳候補501において、50
4が翻訳スコアを、506が原言語命題文304を翻訳した目的言語命題文をそれぞれ表
している。各翻訳候補には、原言語文変換部102で抽出された表現情報が付加される。
FIG. 5 shows an example of a set of translation candidates (translation candidate set) output by the translation unit 103. In this figure, there are three translation candidates 501 to 503. Translation candidate 501, 50
Reference numeral 4 denotes a translation score, and 506 denotes a target language proposition sentence obtained by translating the source language proposition sentence 304. Expression information extracted by the source language sentence conversion unit 102 is added to each translation candidate.

本実施形態の翻訳部103は、多様性が取り除かれた原言語命題文を翻訳するものであ
るため、その開発コストを下げることができる。データ駆動型の手法であれば、収集する
対訳用例の量を少なくすることができ、規則ベース型の手法であれば、記述する規則を原
言語命題文に関する知識のみに限定することができる。
The translation unit 103 according to the present embodiment translates a source language proposition sentence from which diversity has been removed, so that the development cost can be reduced. If it is a data-driven method, the amount of parallel translation examples to be collected can be reduced, and if it is a rule-based method, a rule to be described can be limited to knowledge about a source language proposition sentence.

(最尤候補選択部)
最尤候補選択部104は、翻訳部103で計算された翻訳スコアに基づいて、翻訳候補
集合に属する表現情報と目的言語命題文の組み合わせの中から、最も高い翻訳スコアをも
つ組み合わせを選択する。選択された組み合わせにおける表現情報および目的言語命題文
を、それぞれ最尤表現素性および最尤目的言語命題文と呼ぶ。
(Maximum likelihood candidate selection unit)
Based on the translation score calculated by the translation unit 103, the maximum likelihood candidate selection unit 104 selects a combination having the highest translation score from combinations of expression information and target language proposition sentences belonging to the translation candidate set. The expression information and the target language proposition sentence in the selected combination are called a maximum likelihood expression feature and a maximum likelihood target language proposition sentence, respectively.

(素性編集部)
素性編集部105は、最尤表現素性を編集する。素性編集部105は、操作部204か
らのユーザの指示に応じて、表現素性を追加したり、削除したり、変更したりすることが
できる。編集後の表現素性を改編表現素性と呼ぶ。
(Feature Editor)
The feature editing unit 105 edits the maximum likelihood expression feature. The feature editing unit 105 can add, delete, or change an expression feature in accordance with a user instruction from the operation unit 204. The expression feature after editing is called a modified expression feature.

このように、本実施形態の素性編集部105は、表現素性をユーザの指示に応じて編集
する。これにより、後述する命題文変換部106において、ユーザが所望する文体で統一
した目的言語文を生成することができる。
As described above, the feature editing unit 105 according to the present embodiment edits the expression feature according to a user instruction. Thereby, in the proposition sentence conversion part 106 mentioned later, the target language sentence unified by the sentence style which a user desires can be produced | generated.

(命題文変換部)
命題文変換部106は、改編表現素性に基づいて、最尤目的言語命題文を日本語の目的
言語文に変換する。本実施形態の命題文変換部106は、生成文法に基づいて最尤目的言
語命題文を目的言語文に変換するようにしているが、他にも広く使われる言語生成方法を
用いることもできる。命題文変換部106の詳細は後述する。
(Proposition sentence conversion part)
The proposition sentence conversion unit 106 converts the maximum likelihood target language proposition sentence into a Japanese target language sentence based on the revised expression feature. The proposition sentence conversion unit 106 of the present embodiment converts the maximum likelihood target language proposition sentence into the target language sentence based on the generation grammar, but other widely used language generation methods can also be used. Details of the proposition sentence conversion unit 106 will be described later.

このように、本実施形態の命題文変換部106は、改編表現素性に基づいて、最尤目的
言語命題文を目的言語文に変換する。これにより、原言語文が持っていた多様性を反映し
、かつ、ユーザ所望の表現を伴った目的言語文を生成することができる。
As described above, the proposition sentence conversion unit 106 according to the present embodiment converts the maximum likelihood target language proposition sentence into the target language sentence based on the modified expression feature. As a result, it is possible to generate a target language sentence that reflects the diversity of the source language sentence and is accompanied by an expression desired by the user.

(出力部)
提示部107は、命題文変換部106で生成された日本語の目的言語文をユーザに提示
する。提示部107は、目的言語文をディスプレイ209に表示したり、通信部205で
接続されたプリンタで印字出力したりすることができる。この他にも、目的言語文を音声
合成により音声波形に変換して、スピーカ207から再生することもできる。
(Output part)
The presentation unit 107 presents the Japanese target language sentence generated by the proposition sentence conversion unit 106 to the user. The presentation unit 107 can display the target language sentence on the display 209 or print it out with a printer connected by the communication unit 205. In addition, the target language sentence can be converted into a speech waveform by speech synthesis and reproduced from the speaker 207.

(フローチャート)
図6のフローチャートを利用して、本実施形態にかかる機械翻訳装置の処理を説明する
(flowchart)
The process of the machine translation apparatus according to the present embodiment will be described using the flowchart of FIG.

まず、ステップS1では、取得部101は、英語の原言語文Sを取得する。本実施形態で
は、図3の原言語文309「Shall I have him call you back when returns?」が取得さ
れたものとする。
First, in step S1, the acquisition unit 101 acquires an English source language sentence S. In the present embodiment, it is assumed that the source language sentence 309 “Shall I have him call you back when returns?” In FIG. 3 is acquired.

ステップS2では、原言語文変換部102は、原言語文Sを解析して、表現情報Fと原言
語命題文Psとの組み合わせを要素とする解析候補集合Csを抽出する。図3の301〜
303が解析候補集合Csを表している。
In step S2, the source language sentence conversion unit 102 analyzes the source language sentence S and extracts an analysis candidate set Cs having a combination of the expression information F and the source language proposition sentence Ps as elements. 301 in FIG.
Reference numeral 303 denotes an analysis candidate set Cs.

ここで、原言語命題文Psは、原言語文Sと比べて多様性が取り除かれた表現となってい
る。これにより、原言語命題文を翻訳する翻訳部103の開発コストを下げることができ
る。つまり、データ駆動型の手法であれば、収集する対訳用例の量を少なくすることがで
き、規則ベース型の手法であれば、記述する規則を原言語命題文に関する知識のみに限定
することができる。
Here, the source language proposition sentence Ps is an expression from which diversity is removed as compared with the source language sentence S. Thereby, the development cost of the translation part 103 which translates a source language proposition sentence can be reduced. In other words, if it is a data-driven method, the amount of parallel translation examples to be collected can be reduced, and if it is a rule-based method, the rules to be described can be limited to knowledge about the source language proposition sentence. .

ステップS3では、翻訳部103は、原言語命題文Psを翻訳して目的言語命題文Pt
とその翻訳スコアVを取得する。そして、原言語命題文Ps、表現情報F、目的言語命題
文Ptおよび翻訳スコアVの組み合わせからなる翻訳候補の集合(翻訳候補集合Ct)を
生成する。図5の501〜503が、翻訳候補集合Ctに含まれる各翻訳候補を表してい
る。
In step S3, the translation unit 103 translates the source language proposition sentence Ps to produce the target language proposition sentence Pt.
And its translation score V. Then, a set of translation candidates (translation candidate set Ct) including a combination of the source language proposition sentence Ps, the expression information F, the target language proposition sentence Pt, and the translation score V is generated. Reference numerals 501 to 503 in FIG. 5 represent translation candidates included in the translation candidate set Ct.

ステップS4では、最尤候補選択部104は、翻訳候補集合Ctから、最も高い翻訳ス
コアをもつ目的言語命題文Ptおよびその表現情報Fをそれぞれ最尤目的言語命題文Pp
tおよび最尤表現情報Fpとして選択する。図5の例では、翻訳スコア504が0.95
で最も高い値となるため、最尤目的言語命題文Pptとして304が、最尤表現情報Fp
として305がそれぞれ選択される。
In step S4, the maximum likelihood candidate selection unit 104 obtains the target language proposition sentence Pt having the highest translation score and its expression information F from the translation candidate set Ct, respectively, and the maximum likelihood target language proposition sentence Pp.
t and maximum likelihood expression information Fp are selected. In the example of FIG. 5, the translation score 504 is 0.95.
The maximum likelihood target language proposition sentence Ppt is 304, and the maximum likelihood expression information Fp
305 are respectively selected.

ステップS5では、素性編集部105は、最尤表現情報Fpを編集して改変表現情報Fe
を得る。素性編集部105は、ユーザの指示に応じて最尤表現情報Fpを編集することが
できる。また、素性編集部105は、予め設定した表現素性を自動的に設定するようにし
てもよい。例えば、原言語文Sが文書として与えられている場合、文書全体の表現統一を
図るために、適当な表現素性を追加することができる。
In step S5, the feature editing unit 105 edits the maximum likelihood expression information Fp to change the modified expression information Fe.
Get. The feature editing unit 105 can edit the maximum likelihood expression information Fp in accordance with a user instruction. Further, the feature editing unit 105 may automatically set a preset expression feature. For example, when the source language sentence S is given as a document, an appropriate expression feature can be added in order to unify the entire document.

図7は、改変表現情報Feの一例を示す図である。この例では、新たな表現素性として、
703に示す「(丁寧)」の表現素性と、704に示す「(主語 he)」という表現素
性が追加されている。表現素性703は、対応付けられている形態素の識別子702が「
1−5」となっている。つまり、「(丁寧)」という表現素性が最尤対訳命題文Ppt全
体に影響を与えることを表している。また、表現素性704は、形態素「returns
」に対応付けられており、同形態素の「主語」として「he」が補われることを表してい
る。
FIG. 7 is a diagram illustrating an example of the modified expression information Fe. In this example, as a new expression feature,
An expression feature “(Polite)” shown in 703 and an expression feature “(subject he)” shown in 704 are added. The representation feature 703 has an identifier 702 of the associated morpheme “
1-5 ". That is, the expression feature of “(Polite)” influences the entire maximum likelihood parallel translation proposition sentence Ppt. In addition, the expression feature 704 is a morpheme
”And“ he ”is supplemented as the“ subject ”of the morpheme.

ステップS6では、命題文変換部106は、改変表現情報Feに基づいて、最尤目的言
語命題文Pptを日本語の目的言語文Tに変換する。ここで、目的言語文Tは、原言語文
Sから生成した原言語命題文Psおよび改編表現素性Feを全て変換した結果といえる。
図7では、706の改変表現情報Feに基づいて、705の最尤目的言語命題文Ppt「
彼が折り返し電話する。戻る。」が、701の目的言語文T「彼が戻りましたら、彼に折
り返しお電話をさせましょうか?」に変換される。
In step S6, the proposition sentence conversion unit 106 converts the maximum likelihood target language proposition sentence Ppt into a Japanese target language sentence T based on the modified expression information Fe. Here, the target language sentence T can be said to be the result of converting all of the source language proposition sentence Ps and the modified expression feature Fe generated from the source language sentence S.
In FIG. 7, based on the modified expression information Fe 706, the maximum likelihood target language proposition sentence Ppt “705” is displayed.
He calls back. Return. "Is converted into a target language sentence T of 701" If he returns, will I call him back? "

本実施形態において、命題文変換部106は、原言語文変換部102における処理の逆変
換として動作させることにより、目的言語文を生成する様にしている。例えば、図7にお
いて、原言語命題文「He calls you back. Returns」の第2番目の単語「calls」に対し
て、表現素性「(現在)(使役 (対象 he))(提案 (主語 I))(疑問)」が付与されている。こ
こで、第2番目の単語が「calls」は、「電話する」と訳されていると仮定すると、命題
文変換部106は、表現素性「(現在)」を用いて、これを「電話する」に変換し、同「(
使役 (対象 he))」を用いて「電話させる」に、同「(提案 (主語 I))」を用いて「電話さ
せます」に、同「(疑問)」を用いて「電話させますか」にそれぞれ変換する。更に、原
言語命題文全体に付与された表現素性「(丁寧)」を用いて「電話させましょうか」を生
成する。また、原言語命題文の第5番目の単語「Returns」についても同様に変換するこ
とで、「彼が戻りましたら」を生成する。
In the present embodiment, the proposition sentence conversion unit 106 generates a target language sentence by operating as a reverse conversion of processing in the source language sentence conversion unit 102. For example, in FIG. 7, for the second word “calls” of the source language proposition sentence “He calls you back. Returns”, the expression feature “(present) (use (subject he)) (proposed (subject I)” ) (Question) ”. Here, assuming that the second word “calls” is translated as “call”, the proposition sentence conversion unit 106 uses the expression feature “(present)” to “call” this. ”And the same` `(
“Use (subject he))” to “call”, “(suggest (subject I))” to “call”, “(question)” to “call” Respectively. Furthermore, the expression feature “(Polite)” given to the entire source language proposition sentence is used to generate “Let's call”. Similarly, the fifth word “Returns” in the source language proposition is converted in the same manner to generate “if he returns”.

ところで、命題文変換部106における目的言語文の生成には、ここで説明した方法以
外にも、生成文法を用いた自然言語生成技術や、マルコフモデルを用いた統計的な自然言
語生成技術等を用いてもよい。
By the way, in the generation of the target language sentence in the proposition sentence conversion unit 106, in addition to the method described here, a natural language generation technique using a generation grammar, a statistical natural language generation technique using a Markov model, or the like is used. It may be used.

最後に、ステップS7では、提示部107は、ステップS6で生成された目的言語文T
をユーザに提示する。
Finally, in step S7, the presentation unit 107 causes the target language sentence T generated in step S6.
To the user.

(変形例)
本実施形態の機械翻訳装置を、図8あるいは図9のような構成に変更することも可能で
ある。
(Modification)
It is also possible to change the machine translation apparatus of this embodiment to the configuration as shown in FIG. 8 or FIG.

図8の機械翻訳装置800は、最尤候補選択部104および素性編集部105を有して
いない点が、図1の機械翻訳装置100と異なる。この機械翻訳装置800では、翻訳部
103が最尤の翻訳スコアをもつ翻訳候補を1つだけ出力することにより、機械翻訳装置
100と同様な処理を実行することができる。
The machine translation apparatus 800 of FIG. 8 is different from the machine translation apparatus 100 of FIG. 1 in that the maximum likelihood candidate selection unit 104 and the feature editing unit 105 are not included. In this machine translation device 800, the translation unit 103 outputs only one translation candidate having the maximum likelihood translation score, whereby the same processing as the machine translation device 100 can be executed.

図9の機械翻訳装置900は、素性編集部105を有していない点が、図1の機械翻訳
装置100と異なる。この場合も、翻訳部103が最尤の翻訳スコアをもつ翻訳候補を1
つだけ出力することにより、あるいは、素性編集部105が、最尤の翻訳スコアをもつ翻
訳候補における表現情報を編集対象にすることにより、機械翻訳装置100と同様な処理
を実行することができる。
The machine translation apparatus 900 of FIG. 9 is different from the machine translation apparatus 100 of FIG. 1 in that the feature editing unit 105 is not included. Also in this case, the translation unit 103 selects 1 translation candidate having the most likely translation score.
The feature editing unit 105 can execute the same processing as the machine translation device 100 by outputting only one of them or by using the expression information in the translation candidate having the maximum likelihood translation score as the editing target.

(効果)
本実施形態の機械翻訳装置は、翻訳対象となる原言語文から表現素性を抽出し、原言語
文を、表現素性を含まない原言語命題文に変換する。そして、この原言語命題文を翻訳部
で目的言語命題文に翻訳する。原言語命題文は多様性が取り除かれていることから、これ
を翻訳する翻訳部の開発コストを下げることができる。
(effect)
The machine translation apparatus of this embodiment extracts an expression feature from a source language sentence to be translated, and converts the source language sentence into a source language proposition sentence that does not include the expression feature. Then, the source language proposition sentence is translated into the target language proposition sentence by the translation section. Since the source language proposition sentence has been removed from the diversity, the development cost of the translation section that translates the sentence can be reduced.

また、本実施形態の機械翻訳装置は、編集された表現素性に基づいて、目的言語命題文を
目的言語文に変換する。これにより、原言語文が持っていた多様性を反映し、かつ、ユー
ザ所望の表現を伴った目的言語文を生成することができる。
The machine translation apparatus according to the present embodiment converts the target language proposition sentence into the target language sentence based on the edited expression feature. As a result, it is possible to generate a target language sentence that reflects the diversity of the source language sentence and is accompanied by an expression desired by the user.

なお、以上説明した本実施形態における一部機能もしくは全ての機能は、ソフトウェア
処理により実現可能である。
Note that some or all of the functions in the present embodiment described above can be realized by software processing.

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したもの
であり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他
の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省
略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要
旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
Although several embodiments of the present invention have been described, these embodiments are presented by way of example and are not intended to limit the scope of the invention. These novel embodiments can be implemented in various other forms, and various omissions, replacements, and changes can be made without departing from the scope of the invention. These embodiments and modifications thereof are included in the scope and gist of the invention, and are included in the invention described in the claims and the equivalents thereof.

100、800、900 機械翻訳装置
101 取得部
102 原言語文変換部
103 翻訳部
104 最尤候補選択部
105 素性編集部
106 命題文変換部
107 提示部
201 制御部
202 記憶部
203 外部記憶部
204 操作部
205 通信部
206 マイク
207 スピーカ
208 バス
301〜303 表現情報と原言語命題文の組み合わせ
304 原言語命題文
305 表現情報
308、703、704 表現素性
306、702 識別子
501〜503 翻訳候補
504 翻訳スコア
506 目的言語命題文
701 目的言語文
706 改変表現情報
705 最尤目的言語命題文
100, 800, 900 Machine translation device 101 Acquisition unit 102 Source language sentence conversion unit 103 Translation unit 104 Maximum likelihood candidate selection unit 105 Feature editing unit 106 Proposition sentence conversion unit 107 Presentation unit 201 Control unit 202 Storage unit 203 External storage unit 204 Operation Unit 205 communication unit 206 microphone 207 speaker 208 bus 301 to 303 combination of expression information and source language proposition sentence 304 source language proposition sentence 305 expression information 308, 703, 704 expression feature 306, 702 identifier 501 to 503 translation candidate 504 translation score 506 Target language proposition sentence 701 Target language sentence 706 Modified expression information 705 Maximum likelihood target language proposition sentence

Claims (5)

第1言語による原言語文を第2言語による目的言語文に翻訳する機械翻訳装置であって、
第1言語による原言語文を言語解析することにより時制、相、法または態を表現素性とし
て抽出し、前記原言語文から前記表現素性を分離し、前記表現素性を含まない原言語命題
文に変換する原言語文変換手段と、
前記原言語命題文を前記第2言語による目的言語命題文に翻訳する翻訳手段と、
前記表現素性に基づいて、前記目的言語命題文を第2言語による目的言語文に変換する命
題文変換手段と、
を備える機械翻訳装置。
A machine translation device that translates a source language sentence in a first language into a target language sentence in a second language,
The linguistic analysis of the source language sentence in the first language extracts the tense, phase, law or state as the expression feature, separates the expression feature from the source language sentence, and converts it into a source language proposition sentence that does not include the expression feature. Source language sentence conversion means for conversion;
Translation means for translating the source language proposition sentence into a target language proposition sentence in the second language;
A proposition sentence conversion means for converting the target language proposition sentence into a target language sentence in a second language based on the representation feature;
A machine translation apparatus comprising:
前記表現素性を編集する素性編集手段を更に備え、
前記命題文変換手段が、前記素性編集された表現素性に基づいて、前記目的言語命題文を
第2言語による目的言語文に変換する請求項1記載の機械翻訳装置。
A feature editing means for editing the expression feature;
The machine translation device according to claim 1, wherein the proposition sentence conversion means converts the target language proposition sentence into a target language sentence in a second language based on the feature feature edited expression feature.
前記原言語文変換手段が、前記原言語文を複数の原言語命題文に変換し、
前記翻訳手段が、前記複数の原言語命題文を前記第2言語による複数の目的言語命題文に
翻訳し、
前記命題文変換手段が、前記翻訳手段における翻訳スコアが最も高くなる前記目的言語命
題文を、第2言語による目的言語文に変換する請求項1乃至請求項2記載の機械翻訳装置
The source language sentence conversion means converts the source language sentence into a plurality of source language proposition sentences,
The translating means translates the plurality of source language proposition sentences into a plurality of target language proposition sentences in the second language;
The machine translation device according to claim 1, wherein the proposition sentence conversion unit converts the target language proposition sentence having the highest translation score in the translation unit into a target language sentence in a second language.
第1言語による原言語文を第2言語による目的言語文に翻訳する機械翻訳方法であって、
第1言語による原言語文を言語解析することにより時制、相、法または態を表現素性とし
て抽出し、前記原言語文から前記表現素性を分離し、前記表現素性を含まない原言語命題
文に変換するステップと、
前記原言語命題文を前記第2言語による目的言語命題文に翻訳するステップと、
前記表現素性に基づいて、前記目的言語命題文を第2言語による目的言語文に変換するス
テップと、
を備えた、コンピュータが実行する機械翻訳方法。
A machine translation method for translating a source language sentence in a first language into a target language sentence in a second language,
The linguistic analysis of the source language sentence in the first language extracts the tense, phase, law or state as the expression feature, separates the expression feature from the source language sentence, and converts it into a source language proposition sentence that does not include the expression feature. Converting, and
Translating the source language proposition sentence into a target language proposition sentence in the second language;
Converting the target language proposition sentence into a target language sentence in a second language based on the representation feature;
A computer-implemented machine translation method comprising:
第1言語による原言語文を第2言語による目的言語文に翻訳する機械翻訳装置に、
第1言語による原言語文を言語解析することにより時制、相、法または態を表現素性とし
て抽出し、前記原言語文から前記表現素性を分離し、前記表現素性を含まない原言語命題
文に変換する機能と、
前記原言語命題文を前記第2言語による目的言語命題文に翻訳する機能と、
前記表現素性に基づいて、前記目的言語命題文を第2言語による目的言語文に変換する機
能と、
を実現させるための機械翻訳プログラム。
A machine translation device that translates a source language sentence in a first language into a target language sentence in a second language,
The linguistic analysis of the source language sentence in the first language extracts the tense, phase, law or state as the expression feature, separates the expression feature from the source language sentence, and converts it into a source language proposition sentence that does not include the expression feature. The ability to convert,
A function of translating the source language proposition sentence into a target language proposition sentence in the second language;
A function of converting the target language proposition sentence into a target language sentence in a second language based on the representation feature;
Machine translation program for realizing
JP2015080209A 2015-04-09 2015-04-09 machine translation apparatus, machine translation method and machine translation program Pending JP2015146216A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015080209A JP2015146216A (en) 2015-04-09 2015-04-09 machine translation apparatus, machine translation method and machine translation program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015080209A JP2015146216A (en) 2015-04-09 2015-04-09 machine translation apparatus, machine translation method and machine translation program

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2011207824A Division JP2013069158A (en) 2011-09-22 2011-09-22 Machine translation device, machine translation method and machine translation program

Publications (1)

Publication Number Publication Date
JP2015146216A true JP2015146216A (en) 2015-08-13

Family

ID=53890378

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015080209A Pending JP2015146216A (en) 2015-04-09 2015-04-09 machine translation apparatus, machine translation method and machine translation program

Country Status (1)

Country Link
JP (1) JP2015146216A (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009217360A (en) * 2008-03-07 2009-09-24 Toshiba Corp Machine translation device, method, and program
JP2011048576A (en) * 2009-08-26 2011-03-10 Sharp Corp Information processing apparatus, translation connection method and program

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009217360A (en) * 2008-03-07 2009-09-24 Toshiba Corp Machine translation device, method, and program
JP2011048576A (en) * 2009-08-26 2011-03-10 Sharp Corp Information processing apparatus, translation connection method and program

Similar Documents

Publication Publication Date Title
US9805718B2 (en) Clarifying natural language input using targeted questions
US8954333B2 (en) Apparatus, method, and computer program product for processing input speech
US20060224378A1 (en) Communication support apparatus and computer program product for supporting communication by performing translation between languages
WO2003065245A1 (en) Translating method, translated sentence outputting method, recording medium, program, and computer device
JP2008243080A (en) Device, method, and program for translating voice
JP4811557B2 (en) Voice reproduction device and speech support device
van Esch et al. Future directions in technological support for language documentation
JP7110055B2 (en) Speech synthesis system and speech synthesizer
JP2008276543A (en) Interactive processing apparatus, response sentence generation method, and response sentence generation processing program
JP5636309B2 (en) Voice dialogue apparatus and voice dialogue method
KR20150027465A (en) Method and apparatus for generating multiple phoneme string for foreign proper noun
JP2006236037A (en) Voice interaction content creation method, device, program and recording medium
JP2009157888A (en) Transliteration model generation device, transliteration apparatus, and computer program therefor
JP2013069158A (en) Machine translation device, machine translation method and machine translation program
JP2015146216A (en) machine translation apparatus, machine translation method and machine translation program
JP4940251B2 (en) Document processing program and document processing apparatus
JP4643183B2 (en) Translation apparatus and translation program
JP2008305291A (en) Information processor, information processing method and program
JP2006243976A (en) Frequency information equipped word set generation method, program, program storage medium, frequency information equipped word set generation device, text index word production device, full text retrieval device and text classification device
JP3958908B2 (en) Transcription text automatic generation device, speech recognition device, and recording medium
JP6002598B2 (en) Emphasized position prediction apparatus, method thereof, and program
US11250837B2 (en) Speech synthesis system, method and non-transitory computer readable medium with language option selection and acoustic models
KR20200004176A (en) Text to speech conversion apparatus for providing a translation function based on application of an optional speech model and operating method thereof
JP5909123B2 (en) Machine translation apparatus, machine translation method and program
US20230143110A1 (en) System and metohd of performing data training on morpheme processing rules

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160510

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160708

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20161104