KR20090061158A - Method and apparatus for correcting of translation error by using error-correction pattern in a translation system - Google Patents

Method and apparatus for correcting of translation error by using error-correction pattern in a translation system Download PDF

Info

Publication number
KR20090061158A
KR20090061158A KR1020070128041A KR20070128041A KR20090061158A KR 20090061158 A KR20090061158 A KR 20090061158A KR 1020070128041 A KR1020070128041 A KR 1020070128041A KR 20070128041 A KR20070128041 A KR 20070128041A KR 20090061158 A KR20090061158 A KR 20090061158A
Authority
KR
South Korea
Prior art keywords
translation
error
error correction
correction pattern
sentence
Prior art date
Application number
KR1020070128041A
Other languages
Korean (ko)
Other versions
KR100911834B1 (en
Inventor
서영애
김창현
양성일
황영숙
윤창호
최승권
권오욱
이기영
노윤형
박은진
김운
오영순
김영길
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020070128041A priority Critical patent/KR100911834B1/en
Publication of KR20090061158A publication Critical patent/KR20090061158A/en
Application granted granted Critical
Publication of KR100911834B1 publication Critical patent/KR100911834B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Abstract

A translation error correcting method using error correction patterns in a translation system and an apparatus thereof are provided to improve the translation performance by correcting translation errors in real time. An error correction pattern is constructed through the error correction learning which uses the bilingual corpus including translation correct answer sentences of an object language form for a source language sentence(200). The translation for a specific sentence is performed by using an automatic translator(204). By comparing the translated sentence with the conditional part of the error correction pattern, a translation error is grasped(206). The predicted translation error is corrected and outputted(208,210).

Description

번역 시스템에서 오류 보정 패턴을 이용한 번역 오류 수정 방법 및 장치{METHOD AND APPARATUS FOR CORRECTING OF TRANSLATION ERROR BY USING ERROR-CORRECTION PATTERN IN A TRANSLATION SYSTEM}METHOD AND APPARATUS FOR CORRECTING OF TRANSLATION ERROR BY USING ERROR-CORRECTION PATTERN IN A TRANSLATION SYSTEM}

본 발명은 자동번역 시스템에 관한 것으로서, 특히 자동번역 시스템의 번역결과 오류를 자동으로 파악하고, 이를 수정함으로써 번역 시스템의 번역 성능을 향상시킬 수 있는 번역 시스템에서 오류 보정 패턴을 이용한 번역 오류 수정 방법 및 장치에 관한 것이다.The present invention relates to an automatic translation system, and in particular, a translation error correction method using an error correction pattern in a translation system that can automatically identify and correct a translation result error of an automatic translation system, thereby improving the translation performance of the translation system. Relates to a device.

본 발명은 정보통신부의 IT신성장동력핵심기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-037-02, 과제명: 응용 특화 한중영 자동번역 기술 개발].The present invention is derived from a study conducted as part of the IT new growth engine core technology development project of the Ministry of Information and Communication [Task Management Number: 2006-S-037-02, Title: Development of application-specific Korean-Chinese automatic translation technology].

근래 들어 국문으로 작성된 데이터를 영문이나 일문 혹은 중문과 같이 다른 국가의 언어로 실시간 번역하고, 또한 다른 나라 언어로 작성된 데이터를 국문으로 실시간 번역을 수행하는 자동번역 시스템에 대한 많은 연구가 이루어지고 있으며, 이를 통해 자동 번역 시스템은 계속 발전해 나아가고 있다.Recently, a lot of researches have been conducted on the automatic translation system which translates the data written in Korean into the languages of other countries such as English, Japanese or Chinese, and also translates the data written in other languages into Korean. Automatic translation systems continue to evolve.

이와 같이 자동번역 시스템의 성능은 많은 연구를 통해 계속적으로 향상되고 있으나, 최종 번역결과에는 여전히 오류가 많이 내포되어 있다. 특히 규칙기반이나 패턴기반의 자동번역 시스템의 경우는 최종적으로 생성된 문장이 비문의 형태이거나 자연스럽지 못한 문장의 형태를 띠는 경우가 많다. 이러한 오류들은 번역 엔진내의 개별 모듈의 성능 향상으로도 일부 해소가 가능하나, 이들 개별 모듈은 생성된 문장 전체를 고려하지 않기 때문에 여전히 오류의 가능성이 높게 남게 된다. 따라서, 현재의 자동번역 시스템의 성능 향상을 위해서는 최종 번역문에 발생한 오류를 자동으로 수정해주는 기능이 필요하다.As such, the performance of the automatic translation system has been continuously improved through many studies, but the final translation results still contain many errors. In particular, in the case of rule-based or pattern-based automatic translation systems, the final generated sentences are often in the form of inscriptions or unnatural sentences. These errors can be partially resolved by improving the performance of individual modules in the translation engine, but these individual modules still have a high probability of error because they do not consider the generated sentences as a whole. Therefore, in order to improve the performance of the current automatic translation system, a function for automatically correcting an error occurring in the final translation is required.

일반적으로 자연언어처리에서 음성인식이나 자동번역의 오류를 수정하기 위해 통계적 언어모델에 기반한 방법들이 제시되고 있다. 통계적 언어 모델은 대량의 코퍼스로부터 특정 단어들의 열이 나타난 확률을 데이터베이스의 형태로 구축해 놓은 것으로, 음성인식이나 기계번역, 정보 검색 등과 같이 자연 언어 처리의 여러 분야에서 사용되고 있다. In general, methods based on statistical language models have been proposed to correct errors in speech recognition and automatic translation in natural language processing. Statistical language model is a database of the probability of a certain word string from a large corpus, which is used in various fields of natural language processing such as speech recognition, machine translation, and information retrieval.

자동 번역 오류 수정의 관점에서 보면, 언어 모델은 목적 언어에서 올바르게 쓰이는 표현들에 대한 지표가 되므로, 자동 번역 시스템이 생성한 번역문에 대해 이를 언어모델과 비교함으로써 오류가 발생한 부분을 자동으로 찾아내고, 이를 올바르게 수정하는 데 있어서의 근거를 제공해줄 수 있다. 이러한 언어 모델은 대부분 문장의 길이나 코퍼스 양의 제약 등으로 인해 문장 전체 열에 대한 통계 정보를 추출하는 대신 smoothed N-gram 모델에 기반한 추정치 정보를 사용한다. From the point of view of correcting the automatic translation error, the language model is an indicator of the expressions used correctly in the target language, so that the translations generated by the automatic translation system are compared with the language model to automatically find out where the error occurred. This can provide a basis for correcting this. Most of these language models use estimation information based on smoothed N-gram model instead of extracting statistical information about the entire sentence string due to sentence length or corpus constraints.

상기한 바와 같이 동작하는 종래 기술에 의한 자동 번역 시스템에 있어서, N-gram 언어모델을 이용하여 자동번역 시스템의 오류를 추정할 경우에는, N-gram 언어모델 자체의 제약으로 인해 오류 인식의 정확도가 떨어지며, 인식된 오류를 어떻게 수정해야 할지에 대해 번역 모델 등을 이용한 추가 추정이 필요하다는 문제점이 있었다.In the conventional automatic translation system operating as described above, when the error of the automatic translation system is estimated using the N-gram language model, the accuracy of the error recognition is limited due to the limitation of the N-gram language model itself. There was a problem that additional estimation using a translation model or the like was required for how to correct the recognized error.

이에 본 발명은, 자동번역 시스템의 번역결과 오류를 자동으로 파악하고, 이를 수정함으로써 번역 시스템의 번역 성능을 향상시킬 수 있는 번역 시스템에서 오류 보정 패턴을 이용한 번역 오류 수정 방법 및 장치를 제공한다. Accordingly, the present invention provides a method and apparatus for correcting a translation error using an error correction pattern in a translation system capable of automatically detecting a translation result error of an automatic translation system and correcting the translation result.

또한 본 발명은, 자동 번역 시스템에 적응된 오류 보정 패턴을 기반으로 번역 오류를 수정할 수 있는 번역 시스템에서 오류 보정 패턴을 이용한 번역 오류 수정 방법 및 장치를 제공한다.The present invention also provides a translation error correction method and apparatus using an error correction pattern in a translation system capable of correcting a translation error based on an error correction pattern adapted to an automatic translation system.

또한 본 발명은, 자동 번역 시스템의 번역 오류를 자동으로 파악하고 이를 수정하기 위하여, 병렬 코퍼스(bilingual corpus)를 이용하여 자동으로 구축된 오류 보정 패턴을 구축한 후, 자동번역 시스템이 생성한 번역결과를 오류 보정 패턴의 조건부와 비교하여 번역 오류를 자동으로 파악하고, 파악된 번역 오류 부분을 오류 보정 패턴의 행위부와 같은 형태로 수정할 수 있는 번역 시스템에서 오류 보정 패턴을 이용한 번역 오류 수정 방법 및 장치를 제공한다.In addition, the present invention, in order to automatically detect the translation errors of the automatic translation system and correct them, by using a parallel corpus (bilingual corpus) to build the error correction pattern automatically constructed, the translation result generated by the automatic translation system Method and device for correcting translation errors using an error correction pattern in a translation system that automatically detects translation errors by comparing them with the conditional conditions of error correction patterns and corrects the identified translation errors in the form of an action part of error correction patterns. To provide.

본 발명의 일 실시예 방법은, 원시언어 문장에 대한 목적언어 형태의 번역 정답 문장들을 포함하는 병렬 코퍼스를 이용한 오류 보정 학습을 통하여 오류 보정 패턴을 구축하는 과정과, 자동번역기를 이용하여 특정 문장에 대한 번역을 수행하는 과정과, 상기 번역된 문장에 대해 상기 오류 보정 패턴의 조건부와 비교하여 번역 오류를 파악하는 오류 추정 과정과, 상기 추정된 번역 오류를 상기 오류 보정 패턴의 행위부에 따라 수정하는 오류 보정 과정과, 상기 오류 보정된 번역 문장을 출력하는 과정을 포함한다.According to an embodiment of the present invention, a method of constructing an error correction pattern through an error correction learning using a parallel corpus including translation correct answer sentences in a target language form for a source language sentence, and using an automatic translator to a specific sentence A process of performing a translation, a error estimation process of identifying a translation error by comparing the translated sentence with a conditional condition of the error correction pattern, and correcting the estimated translation error according to an action unit of the error correction pattern. An error correction process and a process of outputting the error-corrected translation sentence.

본 발명의 일 실시예 장치는, 원시언어 문장에 대한 목적언어 형태의 번역 정답 문장들을 포함하는 병렬 코퍼스를 이용한 오류 보정 학습을 통하여 구축되는 오류 보정 패턴과, 입력된 문장에 대한 번역을 수행하는 자동번역기와, 상기 번역된 문장에 대해 상기 오류 보정 패턴의 조건부와 비교하여 번역 오류를 파악하는 오류 추정기와, 상기 추정된 번역 오류를 상기 오류 보정 패턴의 행위부에 따라 수정하고, 상기 오류 보정된 번역 문장을 출력하는 오류 보정기를 포함한다.According to an embodiment of the present invention, an error correction pattern constructed by using an error correction learning using a parallel corpus including translation correct answer sentences in a target language form for a source language sentence, and an automatic translation for input sentence A translator, an error estimator for identifying a translation error by comparing the translated sentence with a conditional part of the error correction pattern, and correcting the estimated translation error according to an action unit of the error correction pattern, and correcting the error corrected translation. It includes an error corrector for outputting sentences.

본 발명에 있어서, 개시되는 발명 중 대표적인 것에 의하여 얻어지는 효과를 간단히 설명하면 다음과 같다.In the present invention, the effects obtained by the representative ones of the disclosed inventions will be briefly described as follows.

본 발명은, 비문이나 자연스럽지 못한 표현 등과 같은 자동 번역 시스템의 번역 오류를 실시간으로 보정함으로써 자동 번역 시스템의 번역 성능을 향상시킬 수 있는 효과가 있다.The present invention has the effect of improving the translation performance of the automatic translation system by correcting translation errors of the automatic translation system such as inscriptions or unnatural expressions in real time.

이하 첨부된 도면을 참조하여 본 발명의 동작 원리를 상세히 설명한다. 하기에서 본 발명을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. Hereinafter, the operating principle of the present invention will be described in detail with reference to the accompanying drawings. In the following description of the present invention, when it is determined that a detailed description of a known function or configuration may unnecessarily obscure the subject matter of the present invention, the detailed description thereof will be omitted. Terms to be described later are terms defined in consideration of functions in the present invention, and may be changed according to intentions or customs of users or operators. Therefore, the definition should be made based on the contents throughout the specification.

본 발명은 자동번역 시스템의 번역결과 오류를 자동으로 파악하고 이를 수정하기 위하여, 병렬 코퍼스를 이용하여 자동으로 구축된 오류 보정 패턴을 구축한 후, 자동번역 시스템이 생성한 번역결과를 오류 보정 패턴의 조건부와 비교하여 번역 오류를 자동으로 파악하고, 파악된 번역 오류 부분은 오류 보정 패턴의 행위부와 같은 형태로 수정하는 것이다.The present invention is to automatically detect the error of the translation result of the automatic translation system and to correct it, to build an error correction pattern automatically constructed using a parallel corpus, and then to translate the translation result generated by the automatic translation system The translation error is automatically detected in comparison with the conditional condition, and the identified translation error part is corrected in the form of an action part of the error correction pattern.

도 1은 본 발명의 바람직한 실시예에 따른 자동 번역 및 오류 수정 장치의 구조를 도시한 도면이다.1 is a diagram showing the structure of an automatic translation and error correction apparatus according to a preferred embodiment of the present invention.

도 1을 참조하면, 자동 번역 및 오류 수정 장치(100)는 병렬 코퍼스(bilingual corpus)를 이용하여 구축된 오류 보정 패턴을 기반으로, 자동번역기(102) 의 오류를 자동으로 파악하고 오류를 수정하기 위한 것으로서, 자동번역기(102), 병렬 코퍼스 DB(104), 오류 보정 학습기(106), 오류 보정 패턴 DB(108), 오류 추정기(110), 오류 보정기(112)를 포함한다.Referring to FIG. 1, the automatic translation and error correction apparatus 100 automatically detects an error of the automatic translator 102 and corrects an error based on an error correction pattern constructed using a parallel corpus. As an example, the automatic translator 102, the parallel corpus DB 104, the error correction learner 106, the error correction pattern DB 108, the error estimator 110, and the error corrector 112 are included.

병렬 코퍼스 DB(104)는 원시언어와 목적언어로 이루어진 코퍼스들을 저장하 고 있는 DB로서, 원시언어 문장에 대한 목적언어 형태의 번역 정답 문장들이라 할 수 있다. 따라서 자동번역기(102)의 번역 결과를 병렬코퍼스의 정답문장과 비교함으로써 번역의 오류를 파악하고 이를 수정하는 방법에 대해서도 알 수 있다.Parallel corpus DB (104) is a DB that stores the corpus consisting of the source language and the target language, it can be said that the translation of the correct answer sentences in the target language form for the source language sentences. Therefore, by comparing the translation result of the automatic translator 102 with the correct sentence of the parallel corpus can also know how to identify the error of the translation and correct it.

오류 보정 패턴 DB(108)는 병렬 코퍼스를 이용한 자동학습을 통하여 구축된다. 이를 구체적으로 설명하면, 병렬 코퍼스의 원시언어 문장을 자동번역기(102)를 이용하여 번역함을 수행하고, 이렇게 번역된 번역문장을 원시언어 문장에 대한 번역결과의 정답에 해당하는 병렬 코퍼스 DB(108)의 목적언어 문장과 비교하여 번역이 다른 부분을 추출해 내고, 번역 결과가 다른 부분이 있는 원시언어와 목적언어의 문장을 단어 정렬 모듈을 이용하여 정렬한다.The error correction pattern DB 108 is constructed through automatic learning using a parallel corpus. Specifically, the parallel corpus DB of the corpus is translated using the automatic translator 102, and the translated corpus DB corresponding to the correct answer of the translation result for the primitive language sentence DB 108 Compares the sentences with the target language of) and extracts the parts with different translations, and sorts the sentences of the source language and the target language with the different parts of the translation using the word alignment module.

이에 추출된 번역결과가 다른 부분들에 대해 오류 보정 학습기(106)에서의 자동 학습 과정을 거쳐 오류 보정 패턴을 만든다. 여기서, 오류 보정 패턴은 어휘, 형태소, 구문, 의미 레벨 등의 다양한 형태로 구축 가능하다. 이렇게 구축된 오류 보정 패턴은 오류를 가지고 있는 목적언어 형태의 결과가 어떻게 수정되어야 하는지에 대한 정보를 포함하고 있다. 즉, 오류 보정 패턴은 번역 시스템이 생성한 목적 언어 문장에서 오류를 가지고 있는 부분을 인식하는 오류 조건부와 해당 부분이 어떻게 수정되어야 하는 지의 대한 정보를 가지고 있는 오류 행위부를 포함한다.The extracted translation result is an error correction pattern through the automatic learning process in the error correction learner 106 for the other parts. Here, the error correction pattern may be constructed in various forms such as vocabulary, morpheme, syntax, and semantic level. The error correction pattern thus constructed contains information on how the result in the form of the target language that contains the error should be corrected. That is, the error correction pattern includes an error condition part that recognizes a part having an error in the target language sentence generated by the translation system and an error action part having information on how the part should be corrected.

이후, 자동 번역기(102)가 임의의 원시 문장에 대해 번역을 수행하여 생성된 목적 언어의 번역 문장에 대해 오류 보정 패턴과의 매칭을 시도하여 매칭이 이루어진 부분 즉, 번역 오류가 판단되는 부분에 대해서는 오류 보정 패턴에서의 수정 정보(조건부, 행위부)에 기반하여 해당 번역 부분을 수정함으로써 번역문장에 대한 오류 보정이 이루어진다. Subsequently, the automatic translator 102 attempts to match the error correction pattern with respect to the translation sentence of the target language generated by translating an arbitrary source sentence, so that the matching is made, that is, the portion where the translation error is determined. By correcting the corresponding translation part based on the correction information (conditional and action part) in the error correction pattern, error correction of the translated sentence is performed.

하기에서는 자동 번역 및 오류 수정 장치(100)를 이용한 번역 오류의 보정 절차를 설명하도록 한다. 예를 들어, 국문을 영어로의 번역을 수행하는 경우, 한영 병렬 코퍼스 DB(104)는 다음과 같은 형태로 구축되어 있다.Hereinafter, a procedure for correcting a translation error using the automatic translation and error correction apparatus 100 will be described. For example, when translating Korean into English, the Korean-English parallel corpus DB 104 is constructed in the following form.

한국어 문장 1 : 나는 너를 매우 사랑한다.Korean sentence 1: I love you very much

영어 문장 1 : I love you very much.English sentence 1: I love you very much.

한국어 문장 2 : 그는 내 친구들 중에서 가장 성공한 사람이다.Korean Sentence 2: He is the most successful of all my friends.

영어 문장 2 : He is the most successful man among my friends.English sentence 2: He is the most successful man among my friends.

오류 보정 패턴을 구축하기 위해서 한영 자동번역기(102)는 병렬코퍼스 DB(104)의 한국어 문장에 대해 다음과 같이 오류를 포함한 번역 결과를 생성해낸다. In order to construct an error correction pattern, the Han-Young automatic translator 102 generates a translation result including an error for the Korean sentence of the parallel corpus DB 104 as follows.

한국어 문장 1 : 나는 너를 매우 사랑한다.Korean sentence 1: I love you very much

영어 번역문 1 : I love very much you.English Translation 1: I love very much you.

한국어 문장 2 : 그는 내 친구들 중에서 가장 성공한 사람이다.Korean Sentence 2: He is the most successful of all my friends.

영어 번역문 2 : He is the most successful man among my friend. English translation 2: He is the most successful man among my friend.

부사의 위치 선정이나 단복수, 관사 처리 오류 등은 규칙 또는 패턴기반 자 동번역 시스템에서 자주 발생하는 문제이다. 위의 두 문장의 경우는 밑줄 친 부분에 해당하는 곳에서 very much와 my friend에 해당하는 부분이 부사 위치 오류 및 복수처리 오류가 발생하였다. Positioning of adverbs, singular plurals, and errors in article processing are common problems in rule- or pattern-based automatic translation systems. In the case of the above two sentences, the parts corresponding to very much and my friend in the underlined part are the adverb position error and the plural processing error.

오류 보정 패턴 학습기(106)는 동일 한국어 문장에 대해 병렬 코퍼스(104)내의 영어 문장과 자동번역 시스템이 생성한 영어 번역문을 비교하여 아래와 같이 한국어 문장1에 대해서는 very much의 위치 변경이 있음을 파악하고, my friend의 경우는 복수가 다름을 파악한다. The error correction pattern learner 106 compares the English sentences in the parallel corpus 104 with the English translations generated by the automatic translation system for the same Korean sentence, and then finds that there is a very much change of position for the Korean sentence 1 as follows. In the case of my friend, the plural is different.

love very much you. -> love you very much.love very much you. -> love you very much .

among my friend. -> among my friends among my friend. -> among my friends

이를 단어 정렬 정보 및 한국어, 영어 문장의 형태소, 구문 분석 정보 등을 이용하고, 해당 번역결과 주위의 문맥 정보까지를 고려하여 자동 번역기(102)의 오류 유형에 대해 자동학습을 통하여, 다음과 같은 오류 보정 패턴들을 포함하는 오류 보정 패턴 DB(108)를 얻게 된다. By using the word alignment information, the morpheme of the Korean, English sentences, parsing information, etc., and taking into account the contextual information around the translation result, through the automatic learning about the error type of the automatic translator 102, Error correction pattern DB 108 is obtained that includes correction patterns.

오류 보정 패턴 1 : Error Correction Pattern 1:

Verb Adverb Pronoun:objective (조건부) -> Verb Pronoun:objective Adverb (행위부)Verb Adverb Pronoun: objective (Conditional)-> Verb Pronoun: objective Adverb (Action)

오류 보정 패턴 2 :Error Correction Pattern 2:

among Noun:single (조건부) -> among Noun:plural (행위부)among Noun: single (conditional)-> among Noun: plural

즉, 각각의 오류 보정 패턴들은 조건부와 행위부로 이루어지며, 조건들을 통해 번역 오류 문장을 검색하고, 조건에 해당하는 번역 오류를 검색한 경우, 이를 행위부의 형태로 오류 보정을 가능하게 한다.That is, each error correction pattern is composed of a conditional part and an action part. When a translation error sentence is searched through the conditions, and a translation error corresponding to the condition is searched, this error correction pattern is possible.

이러한 오류 보정 패턴들은 오류 보정 패턴 DB(108)에 저장되어 실제 자동 번역기(102)에서 번역을 수행할 때 실시간으로 오류를 인식하고 보정하는 과정을 거치게 된다. 자동 번역기(102)가 한국어 문장 3을 번역하고 그에 대한 번역문으로 영어 번역문 3을 번역하는 경우, These error correction patterns are stored in the error correction pattern DB 108 and undergo a process of recognizing and correcting an error in real time when the translation is actually performed by the automatic translator 102. If the automatic translator (102) translates Korean sentence 3 and the English translation 3 to the translation for it,

한국어 문장 3 : 나는 그를 매우 잘 안다.Korean sentence 3: I know him very well

영어 번역문 3 : I know very well him.English Translation 3: I know very well him.

오류 추정기(110)는 영어 번역문 3을 오류 보정 패턴 DB(108) 내의 패턴들의 조건과 현재 번역문을 비교하여 다음과 같이 오류 보정 패턴 1의 조건부와 매칭됨을 파악함으로써, 문장에 오류가 있음을 인식한다. The error estimator 110 recognizes that there is an error in the sentence by comparing the English translation 3 with the condition of the patterns in the error correction pattern DB 108 and matching the conditional condition of the error correction pattern 1 as follows. .

영어 번역문 3 :English translation 3:

knowknow very wellvery well himhim

Verb Adverb Pronoun:objectiveVerb Adverb Pronoun: objective

오류 보정 패턴 1 의 조건부 : Conditional in error correction pattern 1:

Verb Adverb Pronoun:objectiveVerb Adverb Pronoun: objective

인식된 오류에 대해 오류 보정기(112)은 "knows verb well him" 부분을 오류 보정패턴1의 행위부에 따라 수정함으로써, 자동번역기(102)에서 오류 보정전의 번역 결과인 영어 번역문 3 "I know very well him"은 "I know him very well"로 오류가 자동으로 수정된다. For the recognized error, the error corrector 112 corrects the "knows verb well him" part according to the action part of the error correction pattern 1, so that the English translation 3 "I know very" which is the translation result before the error correction in the automatic translator 102. well him "is" I know him very well "and the error is corrected automatically.

영어 번역문 3 :English translation 3:

knowknow himhim very wellvery well

Verb Pronoun:objective Adverb Verb Pronoun: objective Adverb

오류 보정 패턴 1 의 행위부 : Behavior section of error correction pattern 1:

Verb Pronoun:objective Adverb Verb Pronoun: objective Adverb

도 2는 본 발명의 바람직한 실시예에 따른 자동 번역 및 오류 수정 장치의 동작 절차를 도시한 흐름이다.2 is a flowchart illustrating an operation procedure of an automatic translation and error correction apparatus according to a preferred embodiment of the present invention.

도 2를 참조하면, 200단계에서 원시언어 문장에 대한 목적언어 형태의 번역 정답 문장들을 포함하는 병렬 코퍼스를 이용하여 오류 보정 학습을 수행하고, 이를 통해 오류 보정 패턴을 구축한다.Referring to FIG. 2, in step 200, error correction learning is performed using a parallel corpus including translation correct answer sentences in a target language form for a source language sentence, thereby constructing an error correction pattern.

즉, 병렬 코퍼스의 원시언어 문장을 자동 번역기(102)를 이용하여 번역함으로써 번역된 문장은 병렬코퍼스의 목적언어 문장과 비교하여 번역이 다른 부분을 추출해 내고, 번역 결과가 다른 부분이 있는 원시언어와 목적언어의 문장을 단어 정렬 모듈을 이용하여 정렬한다.That is, a sentence translated by translating the parallel language source language sentence of the parallel corpus using the automatic translator 102 extracts a different portion of the translation compared to the target language sentence of the parallel corpus, and the source language having a different portion of the translation result. The sentences of the target language are sorted using the word sort module.

추출된 번역결과가 다른 부분들에 대해서는 오류 보정 학습기(106)에서 자동 학습 과정을 수행하여 오류 보정 패턴을 만들게 된다. 이때, 오류 보정 패턴은 어휘, 형태소, 구문, 의미 레벨 등의 다양한 형태로 구축 가능하다. 이렇게 구축된 오류 보정 패턴은 오류를 가지고 있는 목적언어 형태의 결과가 어떻게 수정되어야 하는지에 대한 정보를 포함하는 것으로서, 번역 시스템이 생성한 목적 언어 문장에서 오류를 가지고 있는 부분을 인식하는 오류 조건부와, 해당 부분이 어떻게 수정 되어야 하는 지의 대한 정보를 가지고 있는 오류 행위부를 포함한다.The parts of the extracted translation result are different from each other, and the error correction learner 106 performs an automatic learning process to create an error correction pattern. In this case, the error correction pattern may be constructed in various forms such as vocabulary, morpheme, syntax, and semantic level. The error correction pattern thus constructed includes information on how the result in the form of the target language with the error should be corrected. The error conditional part recognizes the part having the error in the target language sentence generated by the translation system, Include an error action section containing information on how the section should be corrected.

이후, 202단계에서 임의의 문장을 자동번역기(102)에 입력하면, 204단계에서 입력된 문장에 대한 번역을 수행하고, 206단계에서 번역된 문장을 오류 보정 패턴의 조건부와 비교하여 번역 오류를 추정하게 된다.Thereafter, if an arbitrary sentence is input to the automatic translator 102 in step 202, the sentence is translated in step 204, and the translated error is estimated by comparing the sentence translated in step 206 with a conditional condition of an error correction pattern. Done.

이에 208단계에서는 특정 번역 부분에 대해 추정된 번역 오류가 존재하는 경우, 추정된 번역 오류를 오류 보정 패턴의 행위부에 따라 해당 번역 부분을 수정하고, 210단계에서는 수정된 번역 문장을 출력하게 된다. In step 208, if there is an estimated translation error for a specific translation part, the corresponding translation part is corrected according to the action part of the error correction pattern, and in step 210, the corrected translation sentence is output.

이상 설명한 바와 같이, 본 발명은 자동번역 시스템의 번역결과 오류를 자동으로 파악하고 이를 수정하기 위하여, 병렬 코퍼스를 이용하여 자동으로 구축된 오류 보정 패턴을 구축한 후, 자동번역 시스템이 생성한 번역결과를 오류 보정 패턴의 조건부와 비교하여 번역 오류를 자동으로 파악하고, 파악된 번역 오류 부분을 오류 보정 패턴의 행위부와 같은 형태로 수정한다.As described above, in the present invention, in order to automatically detect and correct a translation result error of an automatic translation system, a translation result generated by the automatic translation system after constructing an error correction pattern automatically constructed using a parallel corpus. Is compared with the conditional part of the error correction pattern to automatically detect the translation error, and corrects the identified translation error part in the same form as the action part of the error correction pattern.

한편 본 발명의 상세한 설명에서는 구체적인 실시예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시예에 국한되지 않으며, 후술되는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다. Meanwhile, in the detailed description of the present invention, specific embodiments have been described, but various modifications are possible without departing from the scope of the present invention. Therefore, the scope of the present invention should not be limited to the described embodiments, but should be defined not only by the scope of the following claims, but also by those equivalent to the scope of the claims.

도 1은 본 발명의 바람직한 실시예에 따른 자동 번역 및 오류 수정 장치의 구조를 도시한 도면,1 is a view showing the structure of an automatic translation and error correction apparatus according to a preferred embodiment of the present invention,

도 2는 본 발명의 바람직한 실시예에 따른 자동 번역 및 오류 수정 장치의 동작 절차를 도시한 흐름도.2 is a flowchart illustrating an operation procedure of an automatic translation and error correction apparatus according to a preferred embodiment of the present invention.

< 도면의 주요 부분에 대한 부호 설명 > <Explanation of Signs of Major Parts of Drawings>

100 : 자동 번역 및 오류 수정 장치 102 : 자동번역기 100: automatic translation and error correction device 102: automatic translator

104 : 병렬 코퍼스 DB 106 : 오류 보정 학습기104: Parallel Corpus DB 106: Error Correction Learner

108 : 오류 보정 패턴 DB 110 : 오류 추정기108: error correction pattern DB 110: error estimator

112 : 오류 보정기112: Error Compensator

Claims (6)

원시언어 문장에 대한 목적언어 형태의 번역 정답 문장들을 포함하는 병렬 코퍼스를 이용한 오류 보정 학습을 통하여 오류 보정 패턴을 구축하는 과정과,A process of constructing an error correction pattern through an error correction learning using a parallel corpus including translation correct answer sentences in a target language form for a source language sentence, 자동번역기를 이용하여 특정 문장에 대한 번역을 수행하는 과정과,Performing a translation on a specific sentence using an automatic translator, 상기 번역된 문장에 대해 상기 오류 보정 패턴의 조건부와 비교하여 번역 오류를 파악하는 오류 추정 과정과,An error estimating process of identifying a translation error by comparing the translated sentence with a conditional condition of the error correction pattern; 상기 추정된 번역 오류를 상기 오류 보정 패턴의 행위부에 따라 수정하는 오류 보정 과정과, An error correction process of correcting the estimated translation error according to an action unit of the error correction pattern; 상기 오류 보정된 번역 문장을 출력하는 과정Outputting the error-corrected translation sentence 을 포함하는 번역 시스템에서 오류 보정 패턴을 이용한 번역 오류 수정 방법.Translation error correction method using an error correction pattern in a translation system comprising a. 제 1항에 있어서,The method of claim 1, 상기 오류 보정 패턴은,The error correction pattern is, 상기 병렬 코퍼스의 원시언어 문장을 상기 자동번역기를 이용하여 번역한 번역문과, 상기 병렬 코퍼스의 목적언어 문장을 비교하여 번역 결과가 다른 부분을 찾아내고, 상기 번역 결과가 다른 부분에 대해 병렬코퍼스의 목적 언어 문장을 정답으로 하여, 어휘, 형태소, 구문, 의미정보 중 적어도 하나로 기술된 패턴을 자동으로 구축하여 번역 오류의 인식 및 수정에 사용하는 것을 특징으로 하는 번역 시 스템에서 오류 보정 패턴을 이용한 번역 오류 수정 방법.Comparing the translations of the source language sentences of the parallel corpus by using the automatic translator and the target language sentences of the parallel corpus, finding portions having different translation results, and the purpose of the parallel corpus for the portions having different translation results. Translation error using an error correction pattern in a translation system, characterized by automatically constructing a pattern described by at least one of a vocabulary, morpheme, phrase, and semantic information by using a language sentence as an answer. How to fix. 제 1항에 있어서,The method of claim 1, 상기 오류 보정 패턴은,The error correction pattern is, 상기 자동번역기가 번역한 문자에서 번역 오류 부분을 인식하는 상기 오류 조건부와, 해당 부분이 어떻게 수정되어야 하는 지의 대한 정보를 가진 상기 오류 행위부를 포함하는 것을 특징으로 하는 오류 보정 패턴을 이용한 번역 오류 수정 방법.Translation error correction method using an error correction pattern, characterized in that it comprises the error condition unit for recognizing the translation error portion in the text translated by the automatic translator and information on how the portion should be corrected . 원시언어 문장에 대한 목적언어 형태의 번역 정답 문장들을 포함하는 병렬 코퍼스를 이용한 오류 보정 학습을 통하여 구축되는 오류 보정 패턴과,An error correction pattern constructed through error correction learning using a parallel corpus including translation correct answer sentences in a target language form for a source language sentence, 입력된 문장에 대한 번역을 수행하는 자동번역기와, An automatic translator for translating the entered sentences, 상기 번역된 문장에 대해 상기 오류 보정 패턴의 조건부와 비교하여 번역 오류를 파악하는 오류 추정기와,An error estimator for detecting a translation error by comparing the translated sentence with a conditional condition of the error correction pattern; 상기 추정된 번역 오류를 상기 오류 보정 패턴의 행위부에 따라 수정하고, 상기 오류 보정된 번역 문장을 출력하는 오류 보정기An error corrector for correcting the estimated translation error according to an action unit of the error correction pattern and outputting the error corrected translation sentence 를 포함하는 번역 시스템에서 오류 보정 패턴을 이용한 번역 오류 수정 장치.Translation error correction apparatus using the error correction pattern in the translation system comprising a. 제 4항에 있어서,The method of claim 4, wherein 상기 병렬 코퍼스의 원시언어 문장을 상기 자동번역기를 이용하여 번역한 번역문과, 상기 병렬 코퍼스의 목적언어 문장을 비교하여 번역 결과가 다른 부분을 찾아내고, 상기 번역 결과가 다른 부분에 대해 병렬코퍼스의 목적 언어 문장을 정답으로 하여, 어휘, 형태소, 구문, 의미정보 중 적어도 하나로 기술된 패턴을 자동으로 구축하여 번역 오류의 인식 및 수정에 사용하는 것을 특징으로 하는 번역 시스템에서 오류 보정 패턴을 이용한 번역 오류 수정 장치.Comparing the source language sentences of the parallel corpus by using the automatic translator, and comparing the target language sentences of the parallel corpus to find a different translation result, and the purpose of the parallel corpus for the different translation results. Correcting a translation error using an error correction pattern in a translation system, characterized by automatically constructing a pattern described by at least one of a vocabulary, morpheme, phrase, and semantic information using a language sentence as an answer. Device. 제 4항에 있어서,The method of claim 4, wherein 상기 오류 보정 패턴은,The error correction pattern is, 상기 자동번역기가 번역한 문자에서 번역 오류 부분을 인식하는 상기 오류 조건부와, 해당 부분이 어떻게 수정되어야 하는 지의 대한 정보를 가진 상기 오류 행위부를 포함하는 것을 특징으로 하는 오류 보정 패턴을 이용한 번역 오류 수정 장치.Translation error correction apparatus using the error correction pattern, characterized in that it comprises the error condition unit for recognizing the translation error portion in the text translated by the automatic translator and information on how the portion should be corrected .
KR1020070128041A 2007-12-11 2007-12-11 Method and apparatus for correcting of translation error by using error-correction pattern in a translation system KR100911834B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020070128041A KR100911834B1 (en) 2007-12-11 2007-12-11 Method and apparatus for correcting of translation error by using error-correction pattern in a translation system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070128041A KR100911834B1 (en) 2007-12-11 2007-12-11 Method and apparatus for correcting of translation error by using error-correction pattern in a translation system

Publications (2)

Publication Number Publication Date
KR20090061158A true KR20090061158A (en) 2009-06-16
KR100911834B1 KR100911834B1 (en) 2009-08-13

Family

ID=40990685

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070128041A KR100911834B1 (en) 2007-12-11 2007-12-11 Method and apparatus for correcting of translation error by using error-correction pattern in a translation system

Country Status (1)

Country Link
KR (1) KR100911834B1 (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110066467A (en) * 2009-12-11 2011-06-17 한국전자통신연구원 Method and apparatus for automatic post-editing based on factored language model
KR101509727B1 (en) * 2013-10-02 2015-04-07 주식회사 시스트란인터내셔널 Apparatus for creating alignment corpus based on unsupervised alignment and method thereof, and apparatus for performing morphological analysis of non-canonical text using the alignment corpus and method thereof
CN110047488A (en) * 2019-03-01 2019-07-23 北京彩云环太平洋科技有限公司 Voice translation method, device, equipment and control equipment
KR102008789B1 (en) * 2018-03-26 2019-08-08 한국카카오은행 주식회사 Agent for processing bank affairs, system for processing bank affairs, and method for establishing accounts using the same
WO2019190132A1 (en) * 2018-03-26 2019-10-03 한국카카오은행 주식회사 Banking processing method and computer-readable storage medium having application for banking processing stored therein
CN111539231A (en) * 2020-04-29 2020-08-14 北京金山安全软件有限公司 Translation method, translation device, server and computer readable storage medium
KR20220067371A (en) * 2020-11-17 2022-05-24 넷마블 주식회사 Translation method

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8423346B2 (en) 2007-09-05 2013-04-16 Electronics And Telecommunications Research Institute Device and method for interactive machine translation
KR100958340B1 (en) 2007-09-05 2010-05-17 한국전자통신연구원 Device and Method for Real-time Interactive Machine Translation

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2004202391A1 (en) * 2003-06-20 2005-01-13 Microsoft Corporation Adaptive machine translation
KR100561227B1 (en) * 2003-12-19 2006-03-15 한국전자통신연구원 Verb pattern automatic extension and verification apparatus of korean-chinese machine translation system and method thereof

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110066467A (en) * 2009-12-11 2011-06-17 한국전자통신연구원 Method and apparatus for automatic post-editing based on factored language model
KR101509727B1 (en) * 2013-10-02 2015-04-07 주식회사 시스트란인터내셔널 Apparatus for creating alignment corpus based on unsupervised alignment and method thereof, and apparatus for performing morphological analysis of non-canonical text using the alignment corpus and method thereof
WO2015050321A1 (en) * 2013-10-02 2015-04-09 주식회사 시스트란인터내셔날 Apparatus for generating self-learning alignment-based alignment corpus, method therefor, apparatus for analyzing destructive expression morpheme by using alignment corpus, and morpheme analysis method therefor
US10282413B2 (en) 2013-10-02 2019-05-07 Systran International Co., Ltd. Device for generating aligned corpus based on unsupervised-learning alignment, method thereof, device for analyzing destructive expression morpheme using aligned corpus, and method for analyzing morpheme thereof
KR102008789B1 (en) * 2018-03-26 2019-08-08 한국카카오은행 주식회사 Agent for processing bank affairs, system for processing bank affairs, and method for establishing accounts using the same
WO2019190132A1 (en) * 2018-03-26 2019-10-03 한국카카오은행 주식회사 Banking processing method and computer-readable storage medium having application for banking processing stored therein
US20210027308A1 (en) * 2018-03-26 2021-01-28 Kakaobank Corp. Banking Processing Method And Computer-Readable Storage Medium Having Application For Banking Processing Stored Therein
CN110047488A (en) * 2019-03-01 2019-07-23 北京彩云环太平洋科技有限公司 Voice translation method, device, equipment and control equipment
CN111539231A (en) * 2020-04-29 2020-08-14 北京金山安全软件有限公司 Translation method, translation device, server and computer readable storage medium
KR20220067371A (en) * 2020-11-17 2022-05-24 넷마블 주식회사 Translation method
KR20220130659A (en) * 2020-11-17 2022-09-27 넷마블 주식회사 Translation method

Also Published As

Publication number Publication date
KR100911834B1 (en) 2009-08-13

Similar Documents

Publication Publication Date Title
KR100911834B1 (en) Method and apparatus for correcting of translation error by using error-correction pattern in a translation system
CN106537370B (en) Method and system for robust tagging of named entities in the presence of source and translation errors
US20140163951A1 (en) Hybrid adaptation of named entity recognition
Huang et al. Automatic extraction of named entity translingual equivalence based on multi-feature cost minimization
KR20100037813A (en) Statistical machine translation apparatus and method
KR101509727B1 (en) Apparatus for creating alignment corpus based on unsupervised alignment and method thereof, and apparatus for performing morphological analysis of non-canonical text using the alignment corpus and method thereof
KR20140056753A (en) Apparatus and method for syntactic parsing based on syntactic preprocessing
Dien et al. POS-tagger for English-Vietnamese bilingual corpus
EP2833269B1 (en) Terminology verification system and method for machine translation services for domain-specific texts
CN112447172B (en) Quality improvement method and device for voice recognition text
Liyanapathirana et al. Sinspell: A comprehensive spelling checker for sinhala
Mansouri et al. State-of-the-art english to persian statistical machine translation system
JP2018206262A (en) Word linking identification model learning device, word linking detection device, method and program
Huang et al. Words without boundaries: Computational approaches to Chinese word segmentation
Ganfure et al. Design and implementation of morphology based spell checker
US8041556B2 (en) Chinese to english translation tool
Gerlach Improving statistical machine translation of informal language: a rule-based pre-editing approach for French forums
Mudge The design of a proofreading software service
Wu et al. Integrating dictionary and web N-grams for chinese spell checking
Ganji et al. Novel textual features for language modeling of intra-sentential code-switching data
Oflazer Statistical machine translation into a morphologically complex language
Muhamad et al. Proposal: A hybrid dictionary modelling approach for malay tweet normalization
Boubas et al. GENESTEM: A novel approach for an Arabic stemmer using genetic algorithms
Anik et al. An approach towards multilingual translation by semantic-based verb identification and root word analysis
Wu et al. Correcting serial grammatical errors based on n-grams and syntax

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120730

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee