JP4729063B2 - Machine translation apparatus, method and program - Google Patents
Machine translation apparatus, method and program Download PDFInfo
- Publication number
- JP4729063B2 JP4729063B2 JP2008063878A JP2008063878A JP4729063B2 JP 4729063 B2 JP4729063 B2 JP 4729063B2 JP 2008063878 A JP2008063878 A JP 2008063878A JP 2008063878 A JP2008063878 A JP 2008063878A JP 4729063 B2 JP4729063 B2 JP 4729063B2
- Authority
- JP
- Japan
- Prior art keywords
- translation
- document
- sentence
- language
- hierarchy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Machine Translation (AREA)
Description
本発明は、電子メール送受信ツール、Webブラウザ等において第一言語と第二言語との間の翻訳を行うものに好適な機械翻訳装置、方法及びプログラムに関する。 The present invention relates to a machine translation apparatus, method, and program suitable for performing translation between a first language and a second language in an e-mail transmission / reception tool, a web browser, or the like.
近年、パソコンの普及率は高くインターネット環境が整備されるに伴って、電子メールやWeb(world wide web)サイトを利用した掲示板(以降、Web掲示板)により海外との情報のやり取りが盛んになってきた。機械翻訳装置による翻訳精度も向上してきており、電子メールソフトやWebブラウザソフトから機械翻訳プログラムを呼び出して、翻訳処理を行うこともできるようになっている。 In recent years, the spread of personal computers has been high and the Internet environment has been improved. As a result, the exchange of information with foreign countries has become popular through bulletin boards (hereinafter referred to as web bulletin boards) using e-mail and the web (world wide web) sites. It was. Translation accuracy by machine translation devices has also been improved, and translation processing can be performed by calling a machine translation program from e-mail software or Web browser software.
ところで、翻訳精度を向上させるために、文脈情報を利用した翻訳方法が採用されることがある。この文書翻訳技術においては、文書全体を前もって解析して各種情報を抽出し、抽出した内容を翻訳に利用したり、文書の翻訳を進めながら翻訳した文の情報を後の文の翻訳に利用する。 By the way, in order to improve translation accuracy, a translation method using context information may be employed. In this document translation technology, the entire document is analyzed in advance and various information is extracted, and the extracted contents are used for translation, or the sentence information translated while the document is being translated is used for subsequent sentence translation. .
また、メール文書やWeb掲示板の翻訳を向上させるために、翻訳対象の文書以外の関連を有する文書から翻訳処理に利用可能な情報を抽出することにより、翻訳精度を向上させるようにしたものがある(例えば、特許文献1参照)。
しかしながら、文書全体や関連文書を前もって解析して各種情報を抽出し、抽出した内容を翻訳に利用するので、適切な訳語を決定するためには、形態素解析、構文・意味解析、第一言語から第二言語への意味構造変換、構文生成、形態素生成という翻訳処理の各ステップの中で意味構造変換のステップまで行わないと訳語が決定しないなど、実際に翻訳するのと同等のコストがかかってしまう。 However, since the entire document and related documents are analyzed in advance and various information is extracted, and the extracted contents are used for translation. In order to determine an appropriate translation, morphological analysis, syntax / semantic analysis, from the first language There is a cost equivalent to the actual translation, such as the translation is not determined unless the semantic structure conversion step is performed in the translation processing steps of semantic structure conversion, syntax generation, and morpheme generation to the second language. End up.
また、文書の翻訳を進めながら翻訳した文の情報を後の文の翻訳に利用する場合は、前者の手法のようにコストはかからないが、文の出現順によって翻訳精度が左右されるという問題がある。例えば、電子メールのやりとりを考えた場合、受信したメールを引用して返信を行う際、引用内容の下に返信内容を記述する場合と、引用内容の上に記述する場合、引用の途中に記述する場合など様々な形態が存在する。返信部分を翻訳するうえで、引用部分に翻訳精度を向上させる情報が存在したとしても、引用部分の上に返信部分が記述されていると、その情報を利用できずに翻訳をすることになり、引用の下に記述した場合と比較して翻訳精度が低下するという問題がある。また、引用の途中に記述した場合も、翻訳精度を向上させる情報が存在する位置との関係で、翻訳精度が低下するという問題がある。 In addition, when the translated sentence information is used for the subsequent sentence translation while the document is being translated, the cost is not as high as the former method, but the translation accuracy depends on the order of appearance of the sentence. is there. For example, when considering exchange of e-mail, when replying by quoting the received mail, when replying content is written below the quoted content, when writing on the quoted content, write in the middle of the quote There are various forms such as when When translating the reply part, even if there is information that improves the translation accuracy in the quoted part, if the reply part is described on the quoted part, it will be translated without using that information. There is a problem that the translation accuracy is lower than the case described under the quotation. In addition, even when described in the middle of citation, there is a problem that the translation accuracy is lowered due to the relationship with the position where the information for improving the translation accuracy exists.
このように、電子メールやWeb掲示板等の電子情報の授受において、文書の内容が同じであっても、文の出現順により翻訳精度が左右されるという問題点があった。また、文書全体を前もって解析した場合には翻訳処理にコストがかかるという問題点があった。 As described above, in the exchange of electronic information such as an electronic mail or a Web bulletin board, there is a problem that even if the contents of the document are the same, the translation accuracy depends on the order of appearance of the sentences. Further, when the entire document is analyzed in advance, there is a problem that the translation processing is expensive.
本発明の目的は、電子メールやWeb掲示板などのやり取りの際に含まれる引用記号を利用して、同一内容の文書が文の出現順に左右されずに翻訳精度を向上させることができる機械翻訳装置、方法及びプログラムを提供することである。 SUMMARY OF THE INVENTION An object of the present invention is to provide a machine translation apparatus that can improve the translation accuracy by using quotation marks included in exchanges such as e-mails and Web bulletin boards, and documents having the same contents are not affected by the order of appearance of sentences. It is to provide a method and a program.
本発明に係る機械翻訳装置は、機械翻訳プログラム、翻訳に必要な語彙・規則を蓄積した翻訳辞書部を記憶した記憶装置と、翻訳対象の第一言語の原文をデータとして入力する入力装置と、翻訳後の第二言語の訳文を出力する出力装置と、前記機械翻訳プログラムを演算実行するプロセッサとを備えた機械翻訳装置において、前記入力装置から入力された第一言語文書の文の先頭に引用記号が存在するか否かを判定し引用記号が存在するときは文の先頭からの引用記号の個数を引用形式の階層と判定する文書階層判定部と、前記文書階層判定部で判定された引用形式の階層ごとに第一言語文書の文を格納する文書記憶部と、前記入力装置から入力された第一言語文書の文を翻訳する際に用いられる翻訳知識情報を格納するための翻訳知識情報格納部と、前記文書記憶部に格納された第一言語文書の文のうち引用形式の階層が深い順に前記翻訳辞書部の語彙や変換規則及び前記翻訳知識情報格納部に格納された翻訳知識情報を利用して翻訳を行いその翻訳の際に使用した前記翻訳辞書部の語彙や変換規則から訳語を選択する際に用いた翻訳知識情報を取り出し前記翻訳知識情報格納部に格納し翻訳結果を前記出力装置に出力する翻訳部とを備えたことを特徴とする。
A machine translation device according to the present invention includes a machine translation program, a storage device that stores a translation dictionary unit that stores vocabulary and rules necessary for translation, an input device that inputs a source text of a first language to be translated, and an output device for outputting the translated sentence of the second language after translation, the first sentence of the machine translation program Te machine translation apparatus odor and a processor for execution, the first language document entered from the entering force system The document hierarchy determination unit determines whether the number of quotes from the beginning of the sentence is a citation format hierarchy, and the document hierarchy determination unit A document storage unit for storing sentences of the first language document for each hierarchy of the citation format, and a translation for storing translation knowledge information used when translating the sentence of the first language document input from the input device Knowledge information A pay unit, said translation dictionary of vocabulary and conversion rule and translation knowledge information stored in the translation knowledge information storage unit in the hierarchy deeper order of citation form of the sentence in the first language document stored in the document storage unit The translation knowledge information used when selecting the translation word from the vocabulary and conversion rules of the translation dictionary part used for the translation and the translation rule is extracted and stored in the translation knowledge information storage part. And a translation unit for outputting to the output device .
本発明によれば、電子メールやWeb掲示板などのやり取りの際に含まれる引用記号を利用して、文書の引用形式の階層構造を判断し、引用形式の階層が深い順に翻訳することにより、翻訳処理に要するコストを抑え、引用形式の階層が浅い文の翻訳において、同一内容の文書が文の出現順に左右されずに翻訳精度を向上させることができる。 According to the present invention, the quotation structure included in the exchange of e-mail, Web bulletin board, etc. is used to determine the hierarchical structure of the citation format of the document, The cost required for processing can be suppressed, and in translation of a sentence with a shallow citation format, the translation accuracy can be improved without the documents having the same contents being affected by the order in which the sentences appear.
図1は本発明の実施の形態に係る機械翻訳装置のハードウエア構成を示すブロック構成図である。機械翻訳装置11は、例えば一般的なコンピュータに機械翻訳プログラムなどのソフトウェアプログラムがインストールされ、そのソフトウェアプログラムが演算制御装置12のプロセッサ13において実行されることにより実現される。
FIG. 1 is a block configuration diagram showing a hardware configuration of a machine translation apparatus according to an embodiment of the present invention. The
演算制御装置12は機械翻訳に関する各種演算を行うものであり、演算制御装置12はプロセッサ13とメモリ14とを有し、メモリ14には翻訳に関する機械翻訳プログラム15が記憶され、プロセッサ13により処理が実行される際には作業エリア16が用いられる。演算制御装置12の演算結果等は出力装置17である表示装置18に表示出力され、また、通信制御装置19を介して通信ネットワークに出力される。
The
入力装置20は演算制御装置12に情報を入力するものであり、例えば、マウス21、キーボード22、ディスクドライブ23、通信制御装置19から構成され、例えば、マウス21やキーボード22は表示装置18を介して演算制御装置12に各種指令を入力し、キーボード22、ディスクドライブ23、通信制御装置19は翻訳対象の文書を入力する。
The
すなわち、ディスクドライブ23は翻訳対象の文書のファイルを記憶媒体に入出力するものであり、通信制御装置19は機械翻訳装置11をインターネットやLANなどの通信ネットワークに接続するものである。通信制御装置19はLANカードやモデムなどの装置であり、通信制御装置19を介して通信ネットワークと送受信したデータは入力信号又は出力信号として演算制御装置12に送受信される。さらに、演算制御装置12の演算結果や翻訳に必要な知識・規則を蓄積した翻訳辞書等を記憶するハードディスクドライブ(HDD)24が設けられている。
That is, the
図2は本発明の実施の形態に係わる機械翻訳装置11の機能ブロック図である。図2に示す演算制御装置12内の各機能ブロックは、上述の機械翻訳プログラム15を構成する各プログラムに対応する。すなわち、プロセッサ13が機械翻訳プログラム15を構成する各プログラムを実行することで、演算制御装置12は、各機能ブロックとして機能することとなる。また、記憶装置25の各ブロックは、演算制御装置12内のメモリ14及びハードディスクドライブ24の記憶領域に対応する。
FIG. 2 is a functional block diagram of the
機械翻訳装置11は、装置全体の制御を行う制御部26、外部との入力のインターフェースを行う入力部27、外部との出力のインターフェースを行う出力部28、入力部27を介して入手された入力文書を翻訳するための翻訳部29、入力部27から入力された第一言語文書の文の先頭に引用記号が存在するか否かを判定し引用記号が存在するときは文の先頭からの引用記号の個数を引用形式の階層と判定する文書階層判定部30、翻訳部29が翻訳時に用いる各種翻訳知識を収納した翻訳辞書部31、文書階層判定部30で判定された引用形式の階層ごとに第一言語文書の文を格納する文書記憶部32、引用記号が存在する文に関連した文を翻訳する際の訳語を選択するに有用な翻訳知識情報を格納する翻訳知識情報格納部33、引用記号を記憶する引用記号記憶部39によって構成されている。
The
入力部27は、入力装置20であるインターネットなどの通信制御装置19やキーボード22等を通じて、翻訳対象の第一言語文書やコマンドを受け取るものである。制御部26は、入力部27から送られた翻訳対象の第一言語文書の文章データを文書階層判定部30に送ったり、文書記憶部32から取り出した文書を翻訳部29に送り、翻訳部29での翻訳結果を出力部28に送るなどの全体の制御を司るものである。
The
翻訳部29は、制御部26から送られてきた第一言語文書による文章データに対して、翻訳辞書部31の辞書や翻訳知識情報格納部33に格納された知識情報を参照しながら翻訳処理を行うものである。
The
翻訳辞書部31は、翻訳部29の翻訳処理に必要な翻訳知識を記憶している。例えば、翻訳部29が日英・英日双方向の翻訳処理を行うものとすると、辞書部31は夫々の翻訳方向毎に、基本辞書部34、専門用語辞書部35、ユーザ辞書部36を有している。基本辞書部34は、語彙部34a、形態素解析規則34b、構文・意味解析規則34c、変換規則34d、構文生成規則34e、形態素生成規則34fからなり、専門用語辞書部35は語彙部35aのみからなり、ユーザ辞書部36は、語彙部36a、訳語学習部36bからなる。基本辞書部34、専門用語辞書部35、ユーザ辞書部36の構成は以下の通りである。
The
(1)基本辞書部
(a)語彙部
少なくとも第1言語の語彙の各々についての活用情報、意味情報、分野情報、訳語情報、訳語毎の分野情報
(b)形態素解析規則
第1言語の入力文を形態素解析するための知識
(c) 構文・意味解析規則
第1言語の入力文を形態素解析した後、構文的・意味的な解析を行うための知識
(d)変換規則
構文・意味解析された結果の第1言語の意味構造を第2言語の意味構造へ変換するための知識
(e)構文生成規則
第2言語の意味構造から第2言語の単語列を生成するための知識
(f)形態素生成規則
第2言語の語の活用を反映し、最終的な訳文を出力するための知識
(2)専門用語辞書部
専門用語辞書部は、複数の分野別辞書が用意されており、入力文書の内容により翻訳時に用いる辞書を選択することが出来る。語彙部のみからなる 。
(1) Basic dictionary part (a) Vocabulary part Utilization information, semantic information, field information, translation information, field information for each translation word at least for each vocabulary in the first language (b) Morphological analysis rules Input sentence in the first language (C) Syntax / semantic analysis rules Knowledge for syntactic / semantic analysis after morphological analysis of input sentences in the first language (d) Conversion rules Syntax / semantic analysis Knowledge for converting the resulting semantic structure of the first language into the semantic structure of the second language (e) Syntax generation rules Knowledge for generating a word string of the second language from the semantic structure of the second language (f) Morpheme Generation rule Knowledge to output the final translation reflecting the use of words in the second language (2) Technical term dictionary part The technical term dictionary part is provided with a plurality of field-specific dictionaries. Select a dictionary to use for translation according to the contents Door can be. Consists only of vocabulary.
(3)ユーザ辞書部
ユーザ辞書部は、ユーザ定義用の辞書である。翻訳する文書に合わせてユーザが複数作成することができる。各々について語彙部と訳語学習部とがある 。
(3) User dictionary part The user dictionary part is a user-defined dictionary. The user can create a plurality of documents according to the document to be translated. There is a vocabulary part and a translation learning part for each.
(a)語彙部
ユーザが新規登録した用語についての活用情報、意味情報、訳語情報等
(b)訳語学習部
ある第1言語の語句に対してユーザが学習させた訳語の情報を格納する。
(A) Vocabulary section Utilization information, semantic information, translated word information, etc. for terms newly registered by the user (b) Translated word learning section Stores information on translated words learned by the user for a certain first language phrase.
次に、翻訳知識情報格納部33は、翻訳部29において翻訳辞書部31を参照した際に、参照した見出し語に特定の分野情報が付与されている場合は分野情報を格納したり、語の共起関係で決定した見出し語と訳語のペア等、翻訳の過程で他の文にも適用できると判定された情報が格納される。例えば、引用記号が存在する文に関連した他の文を翻訳する際の訳語を選択するに有用な翻訳知識情報が格納される。詳細については具体例を用いて後述する。
Next, when referring to the
出力部28は、翻訳部104により訳出された第二言語の文章(訳文)を、制御部26からの指示により出力する。文書階層判定部30は、制御部26より渡された入力データに引用形式の階層情報が含まれるかを判定して、引用形式の階層毎に文書記憶部32に格納する。そして、文書記憶部32は、文書階層判定部30で判定された引用形式の階層ごとに第一言語文書の文を格納する。文書階層判定部30での処理が完了すると制御部26より文書記憶部32の記憶内容が取り出され、翻訳部29に渡され翻訳が行われる。これらの処理内容の詳細については後述する。
The
図3は本発明の実施の形態に係る機械翻訳装置の第一言語文書が入力されてから訳文を出力するまでの処理内容の一例を示すフローチャートである。以下の説明では、入力装置20から入力部27を介して入力された第一言語文書は英語による原文であり、第二言語の日本語による訳文に翻訳する場合について説明する。
FIG. 3 is a flowchart showing an example of the processing contents from the input of the first language document of the machine translation device according to the embodiment of the present invention to the output of the translation. In the following description, a case where the first language document input from the
制御部26は、入力部27を介して第一言語文書の原文データが入力されると、文書階層判定部30を起動し、文書解析判定部30は文書の引用形式の階層を判定する(S101)。ここでは、入力部27よりに以下に示す原文が入力されたとする。
When the original text data of the first language document is input via the
He is a reliever.
>We got Taro Toshiba.
>Do you know him?
2文目、3文目の先頭に存在する「>」はメールの引用記号であり、2文目、3文目のメールの内容に対して、1文目に返信内容を記述したものである。ここでは引用記号を「>」としているが、メールツールにより引用記号は異なる場合もあるため、引用記号は機械翻訳装置の利用者が自由に引用記号記憶部39に設定できるようにしてもよい。また引用記号の指定は単一ではなく、複数の組合せを指定できるようにしてもよい。
He is a reliever.
> We got Taro Toshiba.
> Do you know him?
The ">" at the beginning of the second and third sentences is an email quoting symbol, and the reply contents are described in the first sentence relative to the contents of the second and third sentence mails. . Here, although the quote symbol is “>”, the quote symbol may differ depending on the mail tool. Therefore, the quote symbol may be freely set in the quote
本発明の実施の形態では、引用記号記憶部39は、図4に示すように、予め引用記号として「>」、「|」の二つが指定されており、引用記号の配列位置MがM=1のときは、引用記号は「>」であり、引用記号の配列位置MがM=2のときは、引用記号は「|」である場合を示している。
In the embodiment of the present invention, as shown in FIG. 4, the quote
図5は、図3中のステップS101における文書階層判定部30の処理内容を示すフローチャートである。文書階層判定部30は、第一言語文書の原文データが入力されると、入力された文字列を改行毎に文Sを取得する(S201)。続いて文書の引用形式の階層を示す変数L、取得した文Sの判定開始位置を示す変数N、引用記号の配列位置を示す変数Mをそれぞれ初期値の1に設定する(S21)。引用形式の階層を示す変数Lが初期値(L=1)であるときは引用記号がない文S、取得した文Sの判定開始位置を示す変数Nが初期値(N=1)であるときは文Sの先頭位置、引用記号の配列位置を示す変数Mが初期値(M=1)であるときは引用記号が「>」である場合である。
FIG. 5 is a flowchart showing the processing contents of the document
次に、引用記号の配列位置の変数M(M=1)が示す引用記号「>」と文Sの先頭位置(N=1)の文字とを比較し一致するか否かを判定する(S203)。一致する場合には、L=L+1を行い、引用形式の階層を示す変数Lを1つだけ深くする(S204)。そして、N=N+1を行い、文Sの判定開始位置を次の文字位置(2番目の文字位置)にずらし、引用記号の配列位置M(M=1)の引用記号「>」と一致するか否かを判定する(S205)。一致する場合には、L=L+1を行い、引用形式の階層を示す変数Lを1つだけ深くし(S206)、ステップS205に戻る。そして、文Sの判定開始位置(N番目の位置)の文字が引用記号の配列位置M(M=1)の引用記号「>」と一致しないと判定されるまでS205、S206の処理を繰り返し行う。 Next, the quote symbol “>” indicated by the variable M (M = 1) at the quote symbol array position is compared with the character at the head position (N = 1) of the sentence S to determine whether or not they match (S203). ). If they match, L = L + 1 is performed, and the variable L indicating the hierarchy of the citation format is deepened by one (S204). Then, N = N + 1 is performed, the determination start position of the sentence S is shifted to the next character position (second character position), and is matched with the quote symbol “>” of the quote symbol arrangement position M (M = 1)? It is determined whether or not (S205). If they match, L = L + 1 is performed, the variable L indicating the hierarchy of the citation format is deepened by one (S206), and the process returns to step S205. The processes in S205 and S206 are repeated until it is determined that the character at the determination start position (Nth position) of the sentence S does not match the quotation mark “>” at the quotation mark arrangement position M (M = 1). .
ステップS205の判定で、文Sの判定開始位置(N番目の位置)の文字が引用記号の配列位置M(M=1)の引用記号「>」と一致しないと判定されたときは、そのときの引用形式の階層を示す変数Lを階層Lの文として文書記憶部32に格納する(S207)。そして、第一言語文書の原文データの最後の文Sであるかどうかを判定し、最後の文SでないときはステップS201に戻り、最後の文Sであるときは処理を終了し、文書階層判定部30は制御部26に処理を戻す。
If it is determined in step S205 that the character at the determination start position (Nth position) of the sentence S does not match the quotation mark “>” at the quotation mark arrangement position M (M = 1), then Is stored in the
一方、ステップS203の判定で、引用記号の配列位置の変数M(M=1)が示す引用記号「>」と文Sの先頭位置(N=1)の文字とが一致しない場合は、M=M+1を行い、引用記号の配列位置M(M=2)から別の引用記号「|」を取得して、文Sの先頭位置(N=1)の文字と比較する(S209)。一致しない場合は、そのときの引用形式の階層を示す変数Lを階層Lの文として文書記憶部32に格納する(S207)。
On the other hand, if it is determined in step S203 that the quote symbol “>” indicated by the variable M (M = 1) of the quote symbol array position does not match the character at the head position (N = 1) of the sentence S, M = M + 1 is performed, another quotation symbol “|” is obtained from the arrangement position M (M = 2) of the quotation marks, and compared with the character at the head position (N = 1) of the sentence S (S209). If they do not match, the variable L indicating the hierarchy of the citation format at that time is stored in the
一方、一致する場合には、L=L+1を行い、引用形式の階層を示す変数Lを1つだけ深くする(S210)。そして、N=N+1を行い、文Sの判定開始位置を次の文字位置(2番目の文字位置)にずらし、引用記号の配列位置M(M=2)の引用記号「|」と一致するか否かを判定する(S211)。一致する場合には、L=L+1を行い、引用形式の階層を示す変数Lを1つだけ深くし(S212)、ステップS211に戻る。そして、文Sの判定開始位置(N番目の位置)の文字が引用記号の配列位置M(M=2)の引用記号「|」と一致しないと判定されたときは、そのときの引用形式の階層を示す変数Lを階層Lの文として文書記憶部32に格納する(S207)。このようにして文Sの先頭から引用記号配列に格納されている各引用記号と一致するかを判定する。
On the other hand, if they match, L = L + 1 is performed, and the variable L indicating the hierarchy of the citation format is deepened by one (S210). Then, N = N + 1 is performed, the determination start position of the sentence S is shifted to the next character position (second character position), and is matched with the quote symbol “|” at the quote symbol arrangement position M (M = 2). It is determined whether or not (S211). If they match, L = L + 1 is performed, the variable L indicating the hierarchy of the citation format is deepened by one (S212), and the process returns to step S211. When it is determined that the character at the determination start position (Nth position) of the sentence S does not match the quotation mark “|” at the quotation mark arrangement position M (M = 2), The variable L indicating the hierarchy is stored in the
例えば、1文目の” He is a reliever.”には引用記号が存在しないため、ステップS201、S202、S203、S209、S207に進む。ステップS207では、階層を示す変数L(L=1)とともに文Sを文書記憶部32に記憶する。続いてステップS208において最後の文まで読み込んだか否かを判定し、まだ文書が存在する場合は、ステップS201に戻り、次の文Sを取得する。そして、各変数L、N、Mを前述と同様に初期化する。
For example, since there is no quotation mark in the first sentence “He is a reliever.”, The process proceeds to steps S201, S202, S203, S209, and S207. In step S207, the sentence S is stored in the
2文目の” We got Taro Toshiba.”の場合は、ステップS203の判定において、引用記号配列の「>」と文SのNが指す位置の文字である「>」が一致するためS204に進む。S204では、L=L+1を行い、引用形式の階層を示す変数Lを1つだけ深くする。そして、N=N+1を行い、文Sの判定開始位置を次の文字位置(2番目の文字位置)にずらし、引用記号の配列位置M(M=1)の引用記号「>」と一致するか否かを判定する(S205)。引用記号と一致する部分がなくなった時点で、S207に進み、階層を示す変数Lとともに文Sを文書記憶部32に記憶する。3文目に対しても同様の処理を行う。
In the case of “We got Taro Toshiba” in the second sentence, in the determination in step S203, “>” in the quote symbol array matches “>” as the character indicated by N in the sentence S, and the process proceeds to S204. . In S204, L = L + 1 is performed, and the variable L indicating the citation format hierarchy is deepened by one. Then, N = N + 1 is performed, the determination start position of the sentence S is shifted to the next character position (second character position), and is matched with the quote symbol “>” of the quote symbol arrangement position M (M = 1)? It is determined whether or not (S205). When there is no part that matches the quotation mark, the process proceeds to S207, and the sentence S is stored in the
図6は文書記憶部32に格納される第一言語文書の一例の説明図である。図6に示すように、翻訳対象である第一言語文書の文は引用形式の階層ごとに格納される。すなわち、引用記号のない1文目は「He is a reliever.」は階層1に格納され、引用記号が一つの2文目「We got Taro Toshiba.」、及び3文目「Do you know him?」は階層2に格納される。この場合、階層1は階層2より階層が浅く、逆に階層2は階層1より階層が深いことになる。なお、文書記憶部32には、後の処理で翻訳部29で翻訳された第二言語の訳文も格納されるようになっている。
FIG. 6 is an explanatory diagram of an example of a first language document stored in the
以上の説明では、引用記号を基に文書の引用形式の階層を判定したが、転送メールの場合は、転送部分と転送時に記述した内容とが区別できるように転送内容の直前に、”-------- Original Message --------“や、”<zzzz@bbb.co.jp> wrote:”などが含まれることがある。これらを階層の判断として利用してもよい。 In the above description, the hierarchy of the document citation format is determined based on the citation symbol, but in the case of forwarded mail, “- ------ Original Message -------- "" and "<zzzz@bbb.co.jp> wrote:" may be included. You may utilize these as judgment of a hierarchy.
図3のステップS101の処理が終了すると、次に制御部26において、文書記憶部32より階層の最大値Lmaxを取得する(S102)。続いて、文書記憶部32より、階層の最大値Lmaxに対応する文を取得する(S103)。この場合、同じ階層の分が複数あるときはすべての文を取得する。取得した文データを対象に翻訳部29が起動され翻訳が行われる(S104)。これにより、つまり、階層の深いものから翻訳されることになる。図6に示した文書記憶部32の一例では、引用形式の階層Lの最大値は2である。そして、階層Lの最大値(L=2)の文は、2文目「We got Taro Toshiba.」及び3文目「Do you know him?」の2つの文がある。階層の最大値に複数の文がある場合には、第一言語文書の文の出現順に翻訳対象の文とする。従って、この場合には、「We got Taro Toshiba.」が最初の翻訳対象の文となる。
When the process of step S101 in FIG. 3 is completed, the
図7は図3中のステップS104における翻訳部29の翻訳処理を示すフローチャートである。図7では、第一言語文書の原文中の1文に対する翻訳部29の翻訳処理を示しており、入力された原文全体の翻訳には、文書末まで図7のステップS301〜S308が繰り返し処理される。
FIG. 7 is a flowchart showing the translation processing of the
翻訳部29は、制御部26から翻訳対象の原文が送られてくると、まず、翻訳知識情報格納部33より翻訳知識情報を読み込む(S301)。図8は翻訳知識情報格納部33に格納される翻訳知識情報の一例の説明図である。翻訳知識情報は、翻訳対象文書の分野を特定する分野情報37や、変換規則の適用により決定した見出し語、品詞、訳語の訳語選択情報38などである。初期状態ではいずれも空の状態である。
When the original text to be translated is sent from the
翻訳部29は、2文目の入力文「We got Taro Toshiba.」に対して辞書部31の下記知識を用いて、辞書引き及び形態素解析処理を行う(S302)。
The
(1)基本辞書部34
(a)語彙部34a
(b)形態素解析規則34b
(2)専門用語辞書部35
(3)ユーザ辞書部36
次に、翻訳部29は、図7のステップS303 において、基本辞書部34の構文・意味解析規則34cを用いて、入力原文の構文・意味解析を行う。この段階で、入力言語の解析結果の構造が構築されている。
(1) Basic dictionary 34
(A)
(B)
(2) Technical
(3)
Next, in step S303 of FIG. 7, the
次に、翻訳部29は、図7のステップS304に処理を移行して、基本辞書部34の語彙部34a、変換規則34d、専門用語辞書部35の語彙部35a、ユーザ辞書部36の語彙部36a、訳語学習部36bの知識を用いて、入力言語の構造を出力言語の構造に変換する処理を行う。この段階で、出力言語の言語的な構造と共に、入力単語に対する訳語の決定も行う。
Next, the
図9は、2文目の入力文「We got Taro Toshiba.」の入力文字列「Taro Toshiba.」に対する基本辞書部34の語彙部34aの一例の説明図である。翻訳部29は、入力文字列「Taro Toshiba.」に対する基本辞書部34の語彙部34aの中から見出し語分野情報37aを参照し、見出し語分野情報37aの有無を判定する(S305)。見出し語分野情報37aが存在する場合は、その見出し語分野情報37a(スポーツ:野球)を翻訳知識情報格納部33に格納する(S306)。これにより、図8に示すように、入力文の”Taro Toshiba”に付与されている「スポーツ:野球」が翻訳知識情報格納部33に格納される。
FIG. 9 is an explanatory diagram of an example of the
この一例による例文では、翻訳知識情報格納部33に分野情報37が格納されるが、分野情報37だけではなく、共に使用される単語との関係(訳語選択情報)によって訳語が決定された場合も翻訳知識情報として格納するようにしてもよい。以下の例文を用いて説明する。
In the example sentence according to this example, the
例文
「He erected a tent city along the banks of the Grand Canal.」
この例文中の「bank」には、「銀行」と「土手」という全く異なる性質の訳語が含まれている。このような場合は、基本辞書部34の変換規則34dには、例えば、下記のような規則1、2、3が記述されている。
Example sentence `` He erected a tent city along the banks of the Grand Canal. ''
In this example sentence, “bank” includes translations of completely different properties, “bank” and “bank”. In such a case, the following
規則1 (「of」の目的語が都市名の場合は「銀行」)
規則2 (「of」 の目的語が「* canal」or 「* river」の場合は「土手」)
規則3 (いずれにも該当しない場合は「銀行」)
この例文には、「Grand Canal」が存在するため規則2が採用され、訳語が「土手」に決定される。このように決定された情報も翻訳知識情報格納部33に格納する。こうして、出力言語の構造が構築されると、翻訳部29は処理をステップS307に移行して、基本辞書部34の構文生成規則34eを用いて、2次元的な構造を1次元的な構造に変換する。最後に、翻訳部29は、ステップS308において、基本辞書部34の形態素生成規則34fを用いて、個々の語の表層形態を生成し、最終的な訳文を文書記憶部32に出力する。
Rule 1 ("Bank" if the object of "of" is a city name)
Rule 2 (If the object of “of” is “* canal” or “* river”, “bank”)
Rule 3 (“Bank” if none of these apply)
In this example sentence, “Grand Canal” exists, so
引き続き、次の文である3文目の「Do you know him?」に対してもステップS301〜S308の処理を行い、文書記憶部32に訳文を出力する。そして、文書記憶部32に訳文を出力した時点で階層2の翻訳が完了し制御部26に処理が戻る。
Subsequently, the third sentence “Do you know him?”, Which is the next sentence, is also processed in steps S301 to S308, and the translated sentence is output to the
次に、制御部26は、図3のステップS105により、引用形式の階層1の翻訳が完了したかの判定を行う(S105)。翻訳を完了した「Do you know him?」の引用形式の階層(L)は、階層1ではない(階層2である)ため、L=L−1を実行した後(S106)、ステップS103に処理を移行する。これにより、階層1の文である1文目の「He is a reliever.」を取得し、翻訳部29は、階層1の文である「He is a reliever.」に対して、図7のステップS301〜S308の翻訳処理を行う。
Next, in step S105 in FIG. 3, the
すなわち、翻訳部29は、翻訳知識情報格納部33より、階層2の文書を翻訳した際に格納された図8の分野情報37より分野が「スポーツ:野球」という翻訳知識情報を取得する(S301)。続いて、入力文「He is a reliever.」に対して辞書部31の知識を用いて、辞書引き及び形態素解析処理(S302)、構文・意味解析を行い(S303)、ステップS304の変換処理に移行する。ステップS304において訳語を決定する際に、取得した翻訳知識情報である「スポーツ:野球」と、図9の訳語分野情報37bを参照して同じ分野の訳語が存在するか判定する。
That is, the
ここで、見出し語に多数の訳語がある場合には、見出し語分野情報37aを一義的に定めることができないので、そのような見出し語に対する見出し語分野情報37aには「0」が記述され、各々の訳語ごとに訳語分野情報37bが記述されている。
Here, when there are a large number of translated words in the headword, the
これにより、「reliever」の訳語を決定するときに、訳語分野情報37bが「スポーツ:野球」である「リリーフ投手」が取得される。引き続き、新たに取得された翻訳知識情報があるかを判定し(S305)、翻訳知識情報がある場合は翻訳知識情報格納部33に翻訳知識を格納し(S306)、構文生成処理を行い(S307)、形態素生成処理を行って(S308)訳文が文書記憶部32に格納される。
Thus, when the translated word “reliever” is determined, “relief pitcher” whose translated
階層1の文である「He is a reliever.」の翻訳が完了すると制御部26は、図3のステップS107に示すように、翻訳結果を文書記憶部32より取得して(S107)、出力部28を呼び出す。出力部28は渡された翻訳結果を出力する(S108)。
When the translation of “He is a reliever.”, Which is a sentence in
図10は本発明の実施の形態に係る機械翻訳装置の第一言語文書が入力されてから訳文を出力するまでの処理内容の他の一例を示すフローチャートである。この他の一例は、図3に示した一例に対し、文書階層判定部30は、ステップS401の文書階層判定処理において、入力装置20から入力部27を介して入力された第一言語文書の文の出現順序を文書記憶部32に記憶し、制御部26はステップS402の訳文のソート処理において、第一言語の文書を構成する各文の出現順序と同じ順序に訳文をソートし、出力部28は、ステップS403の翻訳結果出力処理において、第一言語の文書を構成する各文の出現順序と同じ順序で翻訳結果の文を出力するようにしたものである。図3と同一処理については同一符号を付し重複する説明は省略する。
FIG. 10 is a flowchart showing another example of the processing contents from when the first language document of the machine translation apparatus according to the embodiment of the present invention is input until the translation is output. In another example, in contrast to the example shown in FIG. 3, the document
制御部26は、入力部27を介して原文データが入力されると、文書階層判定部30を起動する(S401)。ここでは、入力部27よりに以下に示す原文が入力されたとする。
When the original text data is input via the
No, He is reliever.
>>We got Taro Toshiba.
>>He is a pitcher.
>Is he a starter?
図11は、図10中のステップS401における文書階層判定部30の処理内容を示すフローチャートである。図11は、図5に示した一例に対して、ステップS501において、入力された原文の行番号を格納する変数Pを設け、ステップS502において、入力された原文の行番号の変数Pを更新し、ステップS507において、引用形式の階層Lの文として行番号Pとともに文書記憶部32に格納するようにしたものである。図5と同一処理については同一符号を付し重複する説明は省略する。
No, He is reliever.
>> We got Taro Toshiba.
>> He is a pitcher.
> Is he a starter?
FIG. 11 is a flowchart showing the processing contents of the document
図11において、まず、入力された原文の行番号を格納する変数Pに0を設定する(S501)。続いて文Sを取得して(S201)、続いて文書の階層を示す変数L、取得した文Sの判定開始位置を示す変数N、引用記号配列の位置を示す変数Mをそれぞれ1に設定するとともに、Pに1を加える(S502)。 In FIG. 11, first, a variable P that stores the line number of the input original text is set to 0 (S501). Subsequently, the sentence S is acquired (S201), then the variable L indicating the document hierarchy, the variable N indicating the determination start position of the acquired sentence S, and the variable M indicating the position of the quote symbol array are set to 1, respectively. At the same time, 1 is added to P (S502).
そして、ステップS203〜S206、ステップS209〜S212において、図3と同様な処理により、引用形式の階層Lを求め、ステップS507において、階層Lの文とともに、行番号Pを文書記憶部32に格納する。
Then, in steps S203 to S206 and steps S209 to S212, the citation format hierarchy L is obtained by the same processing as in FIG. 3, and the line number P is stored in the
図12は本発明の実施の形態に係る機械翻訳装置の他の一例での文書記憶部32に格納される第一言語文書の一例の説明図である。図12に示すように、文書記憶部32には、引用形式の階層、原文とともにその原文が存在した行番号が記憶される。最後の文まで処理が終わったか否かを判定し(S208)、最後の文まで処理が終わった場合は制御部26に復帰する。
FIG. 12 is an explanatory diagram of an example of the first language document stored in the
このようにして、ステップ401にて原文が存在した行番号が記憶された状態で、図10のステップS102〜S107の処理が図3の場合と同様に行われる。そして、制御部26は、文書記憶部32より訳文とともに行番号を取得し、取得したデータに対して、行番号を元に昇順にソートを行い(S402)、出力部28を呼び出し、出力部28は渡された翻訳結果を第一言語の文書を構成する各文の出現順序と同じ順序で出力する(S403)。
In this way, the process of steps S102 to S107 of FIG. 10 is performed in the same manner as in FIG. Then, the
本発明の実施の形態によれば、電子メールやWeb掲示板などのやり取りの際に含まれる引用記号などを利用して文書の階層構造を判断し、階層が深い順に翻訳することにより、獲得した翻訳知識情報を階層が浅い文の翻訳に適用できる。従って、同一内容の文書が文の出現順に左右されずに翻訳精度を向上させることができる。 According to the embodiment of the present invention, a translation obtained by judging the hierarchical structure of a document using quotation marks included when exchanging e-mails, Web bulletin boards, etc., and translating in descending order of hierarchy. Knowledge information can be applied to translation of sentences with a shallow hierarchy. Accordingly, it is possible to improve translation accuracy without affecting documents having the same content in the order of appearance of sentences.
また、階層が深い順に翻訳するため原文の記述状態によっては、翻訳した順序に出力すると、原文と訳文の並びがことなる結果となる場合がある。そこで、原文の出現順を記憶させ、対応する訳文を原文の並び順にソートすることで訳文を原文と同じ順に出力することができるので、翻訳結果が読みやすくなる。 In addition, since translation is performed in the order of deeper hierarchy, depending on the description state of the original sentence, if the output is performed in the translated order, the original sentence and the translated sentence may be arranged differently. Therefore, by storing the order of appearance of the original sentences and sorting the corresponding translated sentences in the order of the original sentences, the translated sentences can be output in the same order as the original sentences, so that the translation results are easy to read.
11…機械翻訳装置、12…演算制御装置、13…プロセッサ、14…メモリ、15…機械翻訳プログラム、16…作業エリア、17…出力装置、18…表示装置、19…通信制御装置、20…入力装置、21…マウス、22…キーボード、23…ディスクドライブ、24…ハードディスクドライブ、25…記憶装置、26…制御部、27…入力部、28…出力部、29…翻訳部、30…文書階層判定部、31…翻訳辞書部、32…文書記憶部、33…翻訳知識情報格納部、34…基本辞書部、35…専門用語辞書部、36…ユーザ辞書部、37…分野情報、38…訳語選択情報、39…引用記号記憶部
DESCRIPTION OF
Claims (4)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008063878A JP4729063B2 (en) | 2008-03-13 | 2008-03-13 | Machine translation apparatus, method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008063878A JP4729063B2 (en) | 2008-03-13 | 2008-03-13 | Machine translation apparatus, method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009223365A JP2009223365A (en) | 2009-10-01 |
JP4729063B2 true JP4729063B2 (en) | 2011-07-20 |
Family
ID=41240117
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008063878A Active JP4729063B2 (en) | 2008-03-13 | 2008-03-13 | Machine translation apparatus, method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4729063B2 (en) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02228765A (en) * | 1989-03-01 | 1990-09-11 | Hitachi Ltd | Translation processing method for plural sentences |
JPH04283864A (en) * | 1991-03-13 | 1992-10-08 | Ricoh Co Ltd | Machine translation system |
JPH10162006A (en) * | 1996-12-03 | 1998-06-19 | Matsushita Electric Ind Co Ltd | Document translation and display device |
JP2002091876A (en) * | 2000-09-11 | 2002-03-29 | Ricoh Co Ltd | Electronic mail system and electronic mail display method |
JP2003141027A (en) * | 2001-10-31 | 2003-05-16 | Toshiba Corp | Summary creation method, summary creation support device and program |
JP2006092260A (en) * | 2004-09-24 | 2006-04-06 | Fuji Xerox Co Ltd | Summary preparation device and summary preparation method and summary preparation program |
-
2008
- 2008-03-13 JP JP2008063878A patent/JP4729063B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02228765A (en) * | 1989-03-01 | 1990-09-11 | Hitachi Ltd | Translation processing method for plural sentences |
JPH04283864A (en) * | 1991-03-13 | 1992-10-08 | Ricoh Co Ltd | Machine translation system |
JPH10162006A (en) * | 1996-12-03 | 1998-06-19 | Matsushita Electric Ind Co Ltd | Document translation and display device |
JP2002091876A (en) * | 2000-09-11 | 2002-03-29 | Ricoh Co Ltd | Electronic mail system and electronic mail display method |
JP2003141027A (en) * | 2001-10-31 | 2003-05-16 | Toshiba Corp | Summary creation method, summary creation support device and program |
JP2006092260A (en) * | 2004-09-24 | 2006-04-06 | Fuji Xerox Co Ltd | Summary preparation device and summary preparation method and summary preparation program |
Also Published As
Publication number | Publication date |
---|---|
JP2009223365A (en) | 2009-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5362353B2 (en) | Handle collocation errors in documents | |
US8005662B2 (en) | Translation method, translation output method and storage medium, program, and computer used therewith | |
US8209604B2 (en) | Mathematical expression buildup and builddown | |
JP5513898B2 (en) | Shared language model | |
US20020123877A1 (en) | Method and apparatus for performing machine translation using a unified language model and translation model | |
Salloum et al. | Elissa: A dialectal to standard Arabic machine translation system | |
WO2010046782A2 (en) | Hybrid machine translation | |
KR20130018205A (en) | Method for disambiguating multiple readings in language conversion | |
Scannell | Statistical unicodification of African languages | |
JP2010520531A (en) | Integrated pinyin and image input | |
JP2006164293A (en) | Automatic natural language translation | |
WO2007005884A2 (en) | Generating chinese language couplets | |
JP5323652B2 (en) | Similar word determination method and system | |
JP4729063B2 (en) | Machine translation apparatus, method and program | |
JP5652824B2 (en) | Text input device, translation device including the same, text input method, and computer program | |
JP5025603B2 (en) | Machine translation apparatus, machine translation program, and machine translation method | |
Babych et al. | Ukrainian part-of-speech tagger for hybrid MT: Rapid induction of morphological disambiguation resources from a closely related language | |
Kaur et al. | Toward normalizing romanized gurumukhi text from social media | |
JP2003178087A (en) | Retrieval device and method for electronic foreign language dictionary | |
JP2004118461A (en) | Method and device for training language model, method and device for kana/kanji conversion, computer program, and computer readable recording medium | |
WO2021009972A1 (en) | Natural language processing method, natural language processing system, and natural language processing program | |
Sowmya et al. | Transliteration based text input methods for telugu | |
Szpektor et al. | Cross lingual and semantic retrieval for cultural heritage appreciation | |
JP2006053867A (en) | Bilingual dictionary creation method and device, and computer program | |
Zhou | Super-Function Based Machine Translation System for Business User |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101221 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110120 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110322 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110415 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4729063 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140422 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |