KR20220067371A - Translation method - Google Patents

Translation method Download PDF

Info

Publication number
KR20220067371A
KR20220067371A KR1020200153994A KR20200153994A KR20220067371A KR 20220067371 A KR20220067371 A KR 20220067371A KR 1020200153994 A KR1020200153994 A KR 1020200153994A KR 20200153994 A KR20200153994 A KR 20200153994A KR 20220067371 A KR20220067371 A KR 20220067371A
Authority
KR
South Korea
Prior art keywords
sentence
data
obtaining
processor
inputting
Prior art date
Application number
KR1020200153994A
Other languages
Korean (ko)
Other versions
KR102446404B1 (en
Inventor
서호
안수남
조혜민
류나현
류진혁
Original Assignee
넷마블 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 넷마블 주식회사 filed Critical 넷마블 주식회사
Priority to KR1020200153994A priority Critical patent/KR102446404B1/en
Publication of KR20220067371A publication Critical patent/KR20220067371A/en
Priority to KR1020220117992A priority patent/KR102466164B1/en
Application granted granted Critical
Publication of KR102446404B1 publication Critical patent/KR102446404B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/191Automatic line break hyphenation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

According to one embodiment of the present invention, disclosed is a translation method by a processor of a computing device, which can increase productivity of machine translation. The method may include: inputting a first sentence to a machine translation model trained by using pair data consisting of a pair of start sentence data and arrival sentence data to obtain a translated second sentence; inputting the second sentence to a grammar correction model trained by using a learning data set consisting of non-text data and plain text data labeled on the non-text data to obtain a corrected third sentence; and obtaining a fourth sentence, which is a final translation sentence for the first sentence, by performing an additional correction operation on the third sentence, using a preset rule.

Description

번역 방법{TRANSLATION METHOD}TRANSLATION METHOD

본 개시 내용은 번역 방법에 관한 것으로서, 보다 구체적으로, 컴퓨팅 장치의 프로세서가 인공신경망 기반의 번역 모델을 이용하여 번역하는 방법에 관한 것이다.The present disclosure relates to a translation method, and more particularly, to a method for a processor of a computing device to translate using an artificial neural network-based translation model.

신경망 기계번역(Neural Machine Translation, NMT)에는 인코더-디코더(Encoder-Decoder) 메커니즘에 기반한 방식이 있다. 인코더-디코더 메커니즘에 기반한 방식은 장단기 메모리 기반 재귀적 인공신경망(RNN-LSTM, Recurrent Neural Network with Long Short Term Memory) 또는 합성곱 인공 신경망(CNN, Convolutional Neural Network)을 사용하여, 인코더에 의해 원문언어의 입력문을 단일 또는, 다중의 N-차원의 벡터로 압축(또는 추상화)시키고, 압축된(추상화된) 표현에 디코더를 이용하여 대역언어의 출력문(번역 결과)을 생성해내는 인공 신경망 학습 및 예측 메커니즘을 의미한다. 이러한 메커니즘을 구현하기 위한 신경망 네트워크 구조 및 학습 방법 등에 대해서 많은 연구들이 진행되고 있다, 또한, 신경망 기반의 기계번역 기술은 현재 구글, 네이버 등의 기업에서 제공하는 서비스의 핵심 기술로 알려져 있다.Neural Machine Translation (NMT) has a method based on an encoder-decoder mechanism. The method based on the encoder-decoder mechanism uses a Recurrent Neural Network with Long Short Term Memory (RNN-LSTM) or Convolutional Neural Network (CNN), Artificial neural network learning that compresses (or abstracts) the input text of the . Prediction Mechanism. A lot of research is being done on the neural network structure and learning method to implement this mechanism. Also, neural network-based machine translation technology is currently known as a core technology of services provided by companies such as Google and Naver.

한편, 신경망 기반의 기계번역 기술이 발전하고 사용할 수 있는 학습데이터의 양이 증가하면서 번역기의 성능이 향상되었지만, 인공 신경망의 블랙박스(black box) 특성으로 인해 문법적인 오류 또는 일부 단어를 생략/추가하는 오류 등의 문제가 반복적으로 발생하고 있다.On the other hand, the performance of the translator improved as the neural network-based machine translation technology developed and the amount of available learning data increased. However, grammatical errors or some words were omitted/added due to the black box characteristics of the artificial neural network. Errors, etc., occur repeatedly.

이를 개선하기 위해 현재는 두가지 관점의 방법이 사용되고 있다. 첫 번째로 기계번역 자체의 성능 개선을 시도하고 있다. 구체적으로, 기존 기계번역 결과의 품질을 향상시키기 위해서는 학습 모델 수정, 데이터 추가 등의 기법이 사용되고 있다. 하지만, 이는 투자 시간 및 비용 대비 성능 향상을 보장할 수 없고, 성능 향상 폭이 작다. 두 번째로, 번역 결과를 직접 수정하는 방법이 있다. 기계 번역의 결과를 rule-base 로 자동 수정하거나, 사람 번역가에게 수정을 맡기는 방법이 사용되고 있다. 또한, 문법 교정을 해주는 모듈과 번역 오류를 감지하는 장치의 보조를 받기도 한다.In order to improve this, there are currently two aspects of method being used. First, we are trying to improve the performance of machine translation itself. Specifically, in order to improve the quality of the existing machine translation results, techniques such as modifying the learning model and adding data are used. However, this cannot guarantee performance improvement compared to investment time and cost, and the performance improvement range is small. Second, there is a way to directly modify the translation result. A method of automatically correcting the results of machine translation as a rule-base or entrusting the correction to a human translator is being used. It is also assisted by a module that corrects grammar and a device that detects translation errors.

하지만, 이들을 통하여 번역 결과를 얻기 위해서는 번역 및 교정의 두 단계를 별도로 거쳐야 하기 때문에 생산성 향상에 한계가 존재하고, 인력 자원의 소모가 불가피할 수 있다.However, in order to obtain a translation result through these, two separate steps of translation and proofing are required, so there is a limit to productivity improvement, and consumption of human resources may be inevitable.

따라서, 기존 번역 방법의 한계를 극복할 수 있는 번역 방법에 대한 연구 및 개발의 필요성이 존재한다.Therefore, there is a need for research and development of a translation method that can overcome the limitations of the existing translation method.

대한민국 공개특허공보 제2000-0031651호Republic of Korea Patent Publication No. 2000-0031651

본 개시는 전술한 배경기술에 대응하여 안출된 것으로, 컴퓨팅 장치를 이용하여 보다 정확한 번역을 수행함으로써 기계 번역의 생산성을 높이고자 하는 것이다.The present disclosure has been devised in response to the above-described background art, and is intended to increase the productivity of machine translation by performing more accurate translation using a computing device.

본 개시의 기술적 과제들은 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.The technical problems of the present disclosure are not limited to the technical problems mentioned above, and other technical problems not mentioned will be clearly understood by those skilled in the art from the following description.

전술한 바와 같은 과제를 해결하기 위한 본 개시의 몇몇 실시예에 따라, 컴퓨팅 장치의 프로세서가 번역하는 방법이 개시된다. 상기 방법은: 출발 문장 데이터 및 도착 문장 데이터 쌍으로 이루어진 페어 데이터(pair data)를 이용하여 학습된 기계 번역 모델에 제 1 문장을 입력하여, 번역된 제 2 문장을 획득하는 단계; 비문 데이터와 상기 비문 데이터에 라벨링된 평문 데이터로 구성된 학습용 데이터셋을 이용하여 학습된 문법 교정 모델에 상기 제 2 문장을 입력하여, 교정된 제 3 문장을 획득하는 단계; 및 사전 설정된 룰을 이용하여, 상기 제 3 문장에 대한 추가 교정 작업을 통해 상기 제 1 문장에 대한 최종 번역 문장인 제 4 문장을 획득하는 단계;를 포함할 수 있다.According to some embodiments of the present disclosure for solving the above-described problems, a method for a processor of a computing device to translate is disclosed. The method includes: inputting a first sentence into a machine translation model learned using pair data consisting of a pair of starting sentence data and arriving sentence data to obtain a translated second sentence; obtaining a corrected third sentence by inputting the second sentence into a grammar correction model learned using a learning dataset composed of inscription data and plaintext data labeled with the inscription data; and obtaining a fourth sentence that is a final translated sentence for the first sentence through an additional proofreading operation for the third sentence by using a preset rule.

또한, 상기 제 1 문장은, 전처리 과정을 통해 번역 대상 문장에서 사전 설정된 텍스트 또는, 특수기호를 제거한 문장일 수 있다.In addition, the first sentence may be a text preset from the translation target sentence through a pre-processing process or a sentence in which special symbols are removed.

또한, 상기 출발 문장 데이터는, 전처리 과정을 통해 제 1 언어로 작성된 출발 문장의 앞에 도착 문장의 제 2 언어의 종류를 나타내는 라벨이 추가된 데이터이고, 상기 도착 문장 데이터는, 상기 전처리 과정을 통해 상기 제 2 언어로 작성된 상기 도착 문장의 앞에 상기 제 1 언어의 종류를 나타내는 라벨이 추가된 데이터일 수 있다.In addition, the departure sentence data is data in which a label indicating the type of the second language of the arrival sentence is added to the front of the departure sentence written in the first language through the preprocessing process, and the arrival sentence data is It may be data in which a label indicating the type of the first language is added to the front of the arrival sentence written in the second language.

또한, 상기 비문 데이터는, 관사 오류, 전치사 오류, 숫자의 위치 오류, 문장 구조 오류 또는 띄어쓰기 오류 중 적어도 하나를 포함하는 문장 데이터이고, 상기 평문 데이터는, 상기 비문 데이터에 포함된 오류가 교정된 문장 데이터일 수 있다.In addition, the inscription data is sentence data including at least one of an article error, a preposition error, a position error of a number, a sentence structure error, or a spacing error, and the plaintext data is a sentence in which errors included in the inscription data are corrected. It can be data.

또한, 상기 비문 데이터와 상기 비문 데이터에 라벨링된 평문 데이터로 구성된 학습용 데이터셋을 이용하여 학습된 문법 교정 모델에 상기 제 2 문장을 입력하여, 교정된 제 3 문장을 획득하는 단계는, 상기 제 2 문장에 줄 바꿈 기호가 존재하는 경우, 상기 줄 바꿈 기호를 제거하고, 상기 줄 바꿈 기호의 위치 정보를 메모리에 저장하는 단계; 및 상기 줄 바꿈 기호가 제거된 상기 제 2 문장을 상기 문법 교정 모델에 입력하여 상기 제 3 문장을 획득하는 단계;를 포함할 수 있다.In addition, the step of obtaining a corrected third sentence by inputting the second sentence into a grammar correction model learned using a learning dataset consisting of the inscription data and the plaintext data labeled in the inscription data includes: when a line break symbol exists in a sentence, removing the line break symbol and storing location information of the line break symbol in a memory; and obtaining the third sentence by inputting the second sentence from which the newline symbol has been removed into the grammar correction model.

또한, 상기 사전 설정된 룰을 이용하여, 상기 제 3 문장에 대한 추가 교정 작업을 통해 상기 제 1 문장에 대한 최종 번역 문장인 제 4 문장을 획득하는 단계는, 상기 줄 바꿈 기호의 위치 정보를 이용하여, 상기 제 3 문장에서 상기 줄 바꿈 기호의 삽입 위치가 단어 내부에 존재하는지 여부를 인식하는 단계; 및 상기 삽입 위치가 단어 내부에 존재한다고 인식한 경우, 상기 단어의 앞에 상기 줄 바꿈 기호를 삽입하여, 상기 제 4 문장을 획득하는 단계;를 포함할 수 있다.In addition, the step of obtaining a fourth sentence that is a final translated sentence for the first sentence through an additional proofing operation for the third sentence using the preset rule may include: , recognizing whether the insertion position of the line break symbol in the third sentence exists within a word; and when it is recognized that the insertion position exists within the word, inserting the newline symbol in front of the word to obtain the fourth sentence.

또한, 상기 비문 데이터와 상기 비문 데이터에 라벨링된 평문 데이터로 구성된 학습용 데이터셋을 이용하여 학습된 문법 교정 모델에 상기 제 2 문장을 입력하여, 교정된 제 3 문장을 획득하는 단계는, 상기 제 1 문장과 상기 제 2 문장을 비교하여, 상기 기계 번역 모델을 통한 번역 과정에서 소실된 숫자가 있는지 여부를 인식하는 단계; 상기 소실된 숫자가 있다고 인식한 경우, 상기 소실된 숫자를 상기 제 2 문장의 말단에 추가하는 단계; 및 상기 소실된 숫자가 문장의 말단에 추가된 상기 제 2 문장을 상기 문법 교정 모델에 입력하여 상기 제 3 문장을 획득하는 단계;를 포함할 수 있다.In addition, the step of obtaining a corrected third sentence by inputting the second sentence into a grammar correction model learned using a learning dataset consisting of the inscription data and the plaintext data labeled in the inscription data includes: comparing the sentence with the second sentence and recognizing whether there is a number lost in the translation process through the machine translation model; adding the missing number to the end of the second sentence when it is recognized that there is the missing number; and obtaining the third sentence by inputting the second sentence in which the missing number is added to the end of the sentence into the grammar correction model.

또한, 상기 소실된 숫자가 추가된 상기 제 2 문장을 상기 문법 교정 모델에 입력하여 상기 제 3 문장을 획득하는 단계는, 상기 문법 교정 모델로부터 상기 소실된 숫자가 적합한 위치에 복원된 상기 제 3 문장을 획득하는 단계;를 포함할 수 있다.In addition, the step of obtaining the third sentence by inputting the second sentence to which the lost number is added to the grammar correction model may include: the third sentence in which the lost number is restored from the grammar correction model to an appropriate position may include; obtaining

또한, 상기 사전 설정된 룰을 이용하여, 상기 제 3 문장에 대한 추가 교정 작업을 통해 상기 제 1 문장에 대한 최종 번역 문장인 제 4 문장을 획득하는 단계는, 상기 제 3 문장에 포함된 문장 부호 중 문장이 끝나는 것과 관련된 문장 부호 뒤에 줄 바꿈 기호를 삽입하여, 상기 제 4 문장을 획득하는 단계;를 포함할 수 있다.In addition, the step of obtaining a fourth sentence that is a final translated sentence for the first sentence through an additional proofing operation on the third sentence using the preset rule includes: among the punctuation marks included in the third sentence and obtaining the fourth sentence by inserting a newline symbol after a punctuation mark related to the end of the sentence.

또한, 상기 사전 설정된 룰을 이용하여, 상기 제 3 문장에 대한 추가 교정 작업을 통해 상기 제 1 문장에 대한 최종 번역 문장인 제 4 문장을 획득하는 단계는, 상기 사전 설정된 룰에 기초하여, 상기 제 3 문장에 띄어쓰기를 추가하여, 상기 제 4 문장을 획득하는 단계;를 포함할 수 있다.In addition, the step of using the preset rule to obtain a fourth sentence that is a final translation sentence for the first sentence through an additional proofing operation for the third sentence may include, based on the preset rule, It may include; adding a space to the third sentence to obtain the fourth sentence.

전술한 바와 같은 과제를 해결하기 위한 본 개시의 몇몇 실시예에 따라, 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램이 개시된다. 상기 컴퓨터 프로그램은 컴퓨팅 장치의 프로세서로 하여금 이하의 단계들을 수행하기 위한 명령들을 포함하며, 상기 단계들은: 출발 문장 데이터 및 도착 문장 데이터 쌍으로 이루어진 페어 데이터(pair data)를 이용하여 학습된 기계 번역 모델에 제 1 문장을 입력하여, 번역된 제 2 문장을 획득하는 단계; 비문 데이터와 상기 비문 데이터에 라벨링된 평문 데이터로 구성된 학습용 데이터셋을 이용하여 학습된 문법 교정 모델에 상기 제 2 문장을 입력하여, 교정된 제 3 문장을 획득하는 단계; 및 사전 설정된 룰을 이용하여, 상기 제 3 문장에 대한 추가 교정 작업을 통해 상기 제 1 문장에 대한 최종 번역 문장인 제 4 문장을 획득하는 단계;를 포함할 수 있다.According to some embodiments of the present disclosure for solving the problems as described above, a computer program stored in a computer-readable storage medium is disclosed. The computer program includes instructions for causing a processor of a computing device to perform the following steps: A machine translation model learned using pair data consisting of pairs of starting sentence data and arrival sentence data. inputting the first sentence to to obtain a translated second sentence; obtaining a corrected third sentence by inputting the second sentence into a grammar correction model learned using a learning dataset composed of inscription data and plaintext data labeled with the inscription data; and obtaining a fourth sentence that is a final translated sentence for the first sentence through an additional proofreading operation for the third sentence by using a preset rule.

본 개시에서 얻을 수 있는 기술적 해결 수단은 이상에서 언급한 해결 수단들로 제한되지 않으며, 언급하지 않은 또 다른 해결 수단들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.The technical solutions obtainable in the present disclosure are not limited to the above-mentioned solutions, and other solutions not mentioned are clearly to those of ordinary skill in the art to which the present disclosure belongs from the description below. can be understood

본 개시는 컴퓨팅 장치가 보다 정확한 번역을 수행할 수 있는 번역 방법을 제공하여, 기계 번역의 생산성을 높일 수 있다.The present disclosure provides a translation method in which a computing device can perform more accurate translation, thereby increasing productivity of machine translation.

본 개시에서 얻을 수 있는 효과는 이상에서 언급한 효과로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.Effects obtainable in the present disclosure are not limited to the above-mentioned effects, and other effects not mentioned will be clearly understood by those of ordinary skill in the art to which the present disclosure belongs from the description below. .

다양한 양상들이 이제 도면들을 참조로 기재되며, 여기서 유사한 참조 번호들은 총괄적으로 유사한 구성요소들을 지칭하는데 이용된다. 이하의 실시예에서, 설명 목적을 위해, 다수의 특정 세부사항들이 하나 이상의 양상들의 총체적 이해를 제공하기 위해 제시된다. 그러나, 그러한 양상(들)이 이러한 구체적인 세부사항들 없이 실시될 수 있음은 명백할 것이다.
도 1은 본 개시의 몇몇 실시예에 따른 번역을 수행하는 컴퓨팅 장치의 블록 구성도이다.
도 2는 본 개시의 몇몇 실시예에 따른 번역 방법의 일례를 설명하기 위한 흐름도이다.
도 3은 본 개시의 몇몇 실시예에 따른 문법 교정 모델의 학습을 위한 학습용 데이터셋의 일례를 설명하기 위한 도면이다.
도 4는 본 개시의 몇몇 실시예에 따른 번역 과정의 일례를 설명하기 위한 흐름도이다.
도 5는 본 개시의 몇몇 실시예에 따른 번역 과정의 다른 일례를 설명하기 위한 흐름도이다.
도 6은 본 개시의 몇몇 실시예에 따른 번역 과정 각각의 예시를 설명하기 위한 도면이다.
도 7은 본 개시 내용의 실시예들이 구현될 수 있는 예시적인 컴퓨팅 환경에 대한 간략하고 일반적인 개략도를 도시한다.
Various aspects are now described with reference to the drawings, wherein like reference numbers are used to refer to like elements collectively. In the following example, for purposes of explanation, numerous specific details are set forth in order to provide a thorough understanding of one or more aspects. It will be evident, however, that such aspect(s) may be practiced without these specific details.
1 is a block diagram of a computing device performing translation according to some embodiments of the present disclosure.
2 is a flowchart illustrating an example of a translation method according to some embodiments of the present disclosure.
3 is a view for explaining an example of a training dataset for learning a grammar correction model according to some embodiments of the present disclosure.
4 is a flowchart illustrating an example of a translation process according to some embodiments of the present disclosure.
5 is a flowchart illustrating another example of a translation process according to some embodiments of the present disclosure.
6 is a view for explaining an example of each of the translation process according to some embodiments of the present disclosure.
7 depicts a simplified, general schematic diagram of an exemplary computing environment in which embodiments of the present disclosure may be implemented.

다양한 실시예들 및/또는 양상들이 이제 도면들을 참조하여 개시된다. 하기 설명에서는 설명을 목적으로, 하나 이상의 양상들의 전반적 이해를 돕기 위해 다수의 구체적인 세부사항들이 개시된다. 그러나, 이러한 양상(들)은 이러한 구체적인 세부사항들 없이도 실행될 수 있다는 점 또한 본 개시의 기술 분야에서 통상의 지식을 가진 자에게 감지될 수 있을 것이다. 이후의 기재 및 첨부된 도면들은 하나 이상의 양상들의 특정한 예시적인 양상들을 상세하게 기술한다. 하지만, 이러한 양상들은 예시적인 것이고 다양한 양상들의 원리들에서의 다양한 방법들 중 일부가 이용될 수 있으며, 기술되는 설명들은 그러한 양상들 및 그들의 균등물들을 모두 포함하고자 하는 의도이다. 구체적으로, 본 명세서에서 사용되는 "실시예", "예", "양상", "예시" 등은 기술되는 임의의 양상 또는 설계가 다른 양상 또는 설계들보다 양호하다거나, 이점이 있는 것으로 해석되지 않을 수도 있다.Various embodiments and/or aspects are now disclosed with reference to the drawings. In the following description, for purposes of explanation, numerous specific details are set forth to provide a thorough understanding of one or more aspects. However, it will also be appreciated by one of ordinary skill in the art that such aspect(s) may be practiced without these specific details. The following description and accompanying drawings set forth in detail certain illustrative aspects of one or more aspects. These aspects are illustrative, however, and some of various methods may be employed in the principles of the various aspects, and the descriptions set forth are intended to include all such aspects and their equivalents. Specifically, as used herein, “embodiment”, “example”, “aspect”, “exemplary”, etc. are not to be construed as advantageous or advantageous over any aspect or design described herein. It may not be.

또한, 다양한 양상들 및 특징들이 하나 이상의 장치들, 단말들, 서버들, 디바이스들, 컴포넌트들 및/또는 모듈들 등을 포함할 수 있는 시스템에 의하여 제시될 것이다. 다양한 시스템들이, 추가적인 장치들, 단말들, 서버들, 디바이스들, 컴포넌트들 및/또는 모듈들 등을 포함할 수 있다는 점 그리고/또는 도면들과 관련하여 논의된 장치들, 단말들, 서버들, 디바이스들, 컴포넌트들, 모듈들 등의 전부를 포함하지 않을 수도 있다는 점 또한 이해되고 인식되어야 한다. Further, various aspects and features will be presented by a system that may include one or more apparatuses, terminals, servers, devices, components and/or modules, and the like. The various systems may include additional apparatuses, terminals, servers, devices, components and/or modules, etc. and/or the apparatuses, terminals, servers, etc. discussed in connection with the drawings; It should also be understood and appreciated that it may not include all of devices, components, modules, etc.

본 명세서에서 사용되는 용어 "컴퓨터 프로그램", "컴포넌트", "모듈", "시스템" 등은 서로 호환가능하게 사용될 수 있으며, 그리고 컴퓨터-관련 엔티티, 하드웨어, 펌웨어, 소프트웨어, 소프트웨어 및 하드웨어의 조합, 또는 소프트웨어의 실행을 지칭한다. 예를 들어, 컴포넌트는 프로세서상에서 실행되는 처리과정(procedure), 프로세서, 객체, 실행 스레드, 프로그램, 및/또는 컴퓨터일 수 있지만, 이들로 제한되는 것은 아니다. 예를 들어, 컴퓨팅 장치에서 실행되는 애플리케이션 및 컴퓨팅 장치 모두 컴포넌트일 수 있다. 하나 이상의 컴포넌트는 프로세서 및/또는 실행 스레드 내에 상주할 수 있다. 일 컴포넌트는 하나의 컴퓨터 내에 로컬화 될 수 있다. 일 컴포넌트는 2개 이상의 컴퓨터들 사이에 분배될 수 있다.As used herein, the terms "computer program," "component," "module," "system," and the like, may be used interchangeably with each other, and include computer-related entities, hardware, firmware, software, combinations of software and hardware; or to the execution of software. For example, a component can be, but is not limited to being, a process running on a processor, a processor, an object, a thread of execution, a program, and/or a computer. For example, both an application running on a computing device and the computing device may be a component. One or more components may reside within a processor and/or thread of execution. A component may be localized within one computer. A component may be distributed between two or more computers.

또한, 이러한 컴포넌트들은 그 내부에 저장된 다양한 데이터 구조들을 갖는 다양한 컴퓨터 판독가능한 매체로부터 실행할 수 있다. 컴포넌트들은 예를 들어 하나 이상의 데이터 패킷들을 갖는 신호(예를 들면, 로컬 시스템, 분산 시스템에서 다른 컴포넌트와 상호작용하는 하나의 컴포넌트로부터의 데이터 및/또는 신호를 통해 다른 시스템과 인터넷과 같은 네트워크를 통해 전송되는 데이터)에 따라 로컬 및/또는 원격 처리들을 통해 통신할 수 있다.In addition, these components can execute from various computer readable media having various data structures stored therein. Components may communicate via a network such as the Internet with another system, for example, via a signal having one or more data packets (eg, data and/or signals from one component interacting with another component in a local system, distributed system, etc.) may communicate via local and/or remote processes depending on the data being transmitted).

이하, 도면 부호에 관계없이 동일하거나 유사한 구성 요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략한다. 또한, 본 명세서에 개시된 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않는다.Hereinafter, the same or similar components are assigned the same reference numerals regardless of reference numerals, and overlapping descriptions thereof will be omitted. In addition, in describing the embodiments disclosed in the present specification, if it is determined that detailed descriptions of related known technologies may obscure the gist of the embodiments disclosed in the present specification, the detailed description thereof will be omitted. In addition, the accompanying drawings are only for easy understanding of the embodiments disclosed in the present specification, and the technical ideas disclosed in the present specification are not limited by the accompanying drawings.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 개시를 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다.The terminology used herein is for the purpose of describing the embodiments and is not intended to limit the present disclosure. In this specification, the singular also includes the plural unless specifically stated otherwise in the phrase. As used herein, “comprises” and/or “comprising” does not exclude the presence or addition of one or more other components in addition to the stated components.

비록 제1, 제2 등이 다양한 소자나 구성요소들을 서술하기 위해서 사용되나, 이들 소자나 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 소자나 구성요소를 다른 소자나 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 소자나 구성요소는 본 개시의 기술적 사상 내에서 제2 소자나 구성요소 일 수도 있음은 물론이다.Although the first, second, etc. are used to describe various elements or elements, these elements or elements are not limited by these terms, of course. These terms are only used to distinguish one element or component from another. Accordingly, it goes without saying that the first element or component mentioned below may be the second element or component within the spirit of the present disclosure.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다. Unless otherwise defined, all terms (including technical and scientific terms) used herein may be used with the meaning commonly understood by those of ordinary skill in the art to which this disclosure belongs. In addition, terms defined in a commonly used dictionary are not to be interpreted ideally or excessively unless clearly defined in particular.

더불어, 용어 "또는"은 배타적 "또는"이 아니라 내포적 "또는"을 의미하는 것으로 의도된다. 즉, 달리 특정되지 않거나 문맥상 명확하지 않은 경우에, "X는 A 또는 B를 이용한다"는 자연적인 내포적 치환 중 하나를 의미하는 것으로 의도된다. 즉, X가 A를 이용하거나; X가 B를 이용하거나; 또는 X가 A 및 B 모두를 이용하는 경우, "X는 A 또는 B를 이용한다"가 이들 경우들 어느 것으로도 적용될 수 있다. 또한, 본 명세서에 사용된 "및/또는"이라는 용어는 열거된 관련 아이템들 중 하나 이상의 아이템의 가능한 모든 조합을 지칭하고 포함하는 것으로 이해되어야 한다.In addition, the term “or” is intended to mean an inclusive “or” rather than an exclusive “or.” That is, unless otherwise specified or clear from context, "X employs A or B" is intended to mean one of the natural implicit substitutions. That is, X employs A; X employs B; or when X employs both A and B, "X employs A or B" may apply to either of these cases. It should also be understood that the term “and/or” as used herein refers to and includes all possible combinations of one or more of the listed related items.

더불어, 본 명세서에서 사용되는 용어 "정보" 및 "데이터"는 종종 서로 상호교환 가능하도록 사용될 수 있다.In addition, as used herein, the terms “information” and “data” can often be used interchangeably.

이하의 설명에서 사용되는 구성 요소에 대한 접미사 “모듈” 및 “부”는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다.The suffixes “module” and “part” for components used in the following description are given or mixed in consideration of only the ease of writing the specification, and do not have distinct meanings or roles by themselves.

본 개시의 목적 및 효과, 그리고 그것들을 달성하기 위한 기술적 구성들은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 본 개시를 설명하는데 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 개시에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다.Objects and effects of the present disclosure, and technical configurations for achieving them will become clear with reference to the embodiments described below in detail in conjunction with the accompanying drawings. In describing the present disclosure, if it is determined that a detailed description of a well-known function or configuration may unnecessarily obscure the subject matter of the present disclosure, the detailed description thereof will be omitted. In addition, the terms to be described later are terms defined in consideration of functions in the present disclosure, which may vary according to intentions or customs of users and operators.

그러나 본 개시는 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있다. 단지 본 실시예들은 본 개시가 완전하도록 하고, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 개시의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 개시는 청구항의 범주에 의해 정의될 뿐이다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.However, the present disclosure is not limited to the embodiments disclosed below and may be implemented in various different forms. Only the present embodiments are provided so that the present disclosure is complete, and to fully inform those of ordinary skill in the art to which the present disclosure belongs, the scope of the disclosure, and the present disclosure is only defined by the scope of the claims . Therefore, the definition should be made based on the content throughout this specification.

본 개시내용의 청구범위에서의 단계들에 대한 권리범위는, 각 단계들에 기재된 기능 및 특징들에 의해 발생되는 것이지, 각각의 단계에서 그 순서의 선후관계를 명시하지 않는 이상, 청구범위에서의 각 단계들의 기재 순서에 영향을 받지 않는다. 예를 들어, A단계 및 B단계를 포함하는 단계로 기재된 청구범위에서, A단계가 B단계 보다 먼저 기재되었다고 하더라도, A단계가 B단계 이전에 선행되어야 한다는 것으로 권리범위가 제한되지는 않는다.The scope of the steps in the claims of the present disclosure is generated by the functions and features described in each step, and unless the precedence of the order in each step is specified, in the claims The order of description of each step is not affected. For example, in a claim described as a step comprising step A and step B, even if step A is described before step B, the scope of the rights is not limited that step A must precede step B.

도 1은 본 개시의 몇몇 실시예에 따른 번역을 수행하는 컴퓨팅 장치의 블록 구성도이다.1 is a block diagram of a computing device performing translation according to some embodiments of the present disclosure.

도 1을 참조하면, 컴퓨팅 장치(100)는 프로세서(110), 통신부(120) 및 메모리(130)를 포함할 수 있다. 다만, 상술한 구성 요소들은 컴퓨팅 장치(100)를 구현하는데 있어서 필수적인 것은 아니어서, 컴퓨팅 장치(100)는 위에서 열거된 구성요소들 보다 많거나, 또는 적은 구성요소들을 가질 수 있다.Referring to FIG. 1 , a computing device 100 may include a processor 110 , a communication unit 120 , and a memory 130 . However, since the above-described components are not essential in implementing the computing device 100 , the computing device 100 may have more or fewer components than those listed above.

컴퓨팅 장치(100)는 예를 들어, 마이크로프로세서, 메인프레임 컴퓨터, 디지털 프로세서, 휴대용 디바이스 및 디바이스 제어기 등과 같은 임의의 타입의 컴퓨터 시스템 또는 컴퓨터 디바이스를 포함할 수 있다. 또한, 컴퓨팅 장치(100)는 휴대폰, 스마트 폰(smart phone), 노트북 컴퓨터(laptop computer), PDA(personal digital assistants), 슬레이트 PC(slate PC), 태블릿 PC(tablet PC), 울트라북(ultrabook), 웨어러블 디바이스(wearable device) 등이 포함될 수 있다. 다만, 이에 한정되는 것은 아니다.Computing apparatus 100 may include any type of computer system or computer device, such as, for example, microprocessors, mainframe computers, digital processors, portable devices and device controllers, and the like. In addition, the computing device 100 is a mobile phone, a smart phone (smart phone), a laptop computer (laptop computer), personal digital assistants (PDA), slate PC (slate PC), tablet PC (tablet PC), ultrabook (ultrabook) , a wearable device, and the like may be included. However, the present invention is not limited thereto.

컴퓨팅 장치(100)의 프로세서(110)는 통상적으로 컴퓨팅 장치(100)의 전반적인 동작을 제어한다. 프로세서(110)는 컴퓨팅 장치(100)에 포함된 구성요소들을 통해 입력 또는 출력되는 신호, 데이터, 정보 등을 처리하거나 메모리(130)에 저장된 응용 프로그램을 구동함으로써, 사용자에게 적절한 정보 또는 기능을 제공 또는 처리할 수 있다.The processor 110 of the computing device 100 typically controls the overall operation of the computing device 100 . The processor 110 processes signals, data, information, etc. input or output through components included in the computing device 100 or drives an application program stored in the memory 130 to provide appropriate information or functions to the user. or can be dealt with.

또한, 프로세서(110)는 메모리(130)에 저장된 응용 프로그램을 구동하기 위하여, 컴퓨팅 장치(100)의 구성요소들 중 적어도 일부를 제어할 수 있다. 나아가, 프로세서(110)는 상기 응용 프로그램의 구동을 위하여, 컴퓨팅 장치(100)에 포함된 구성요소들 중 적어도 둘 이상을 서로 조합하여 동작시킬 수 있다.In addition, the processor 110 may control at least some of the components of the computing device 100 in order to drive an application program stored in the memory 130 . Furthermore, the processor 110 may operate by combining at least two or more of the components included in the computing device 100 to drive the application program.

본 개시의 몇몇 실시예에 따르면, 컴퓨팅 장치(100)의 프로세서(110)는 번역 대상 문장을 전처리한 후, 전처리된 번역 대상 문장을 번역과 관련된 인공 신경망 모델에 입력하여, 최종 번역 문장을 획득할 수 있다.According to some embodiments of the present disclosure, the processor 110 of the computing device 100 pre-processes the translation target sentence, and then inputs the pre-processed translation target sentence to an artificial neural network model related to translation to obtain a final translation sentence. can

구체적으로, 프로세서(110)는 출발 문장 데이터 및 도착 문장 데이터 쌍으로 이루어진 페어 데이터(pair data)를 이용하여 학습된 기계 번역 모델에 제 1 문장을 입력하여, 번역된 제 2 문장을 획득할 수 있다. 여기서, 제 1 문장은 전처리된 번역 대상 문장일 수 있다.Specifically, the processor 110 may obtain a translated second sentence by inputting the first sentence into the machine translation model learned using pair data consisting of a pair of departure sentence data and arrival sentence data. . Here, the first sentence may be a pre-processed translation target sentence.

한편, 프로세서(110)는 제 2 문장을 획득한 경우, 비문 데이터와 상기 비문 데이터에 라벨링된 평문 데이터로 구성된 학습용 데이터셋을 이용하여 학습된 문법 교정 모델에 제 2 문장을 입력하여, 교정된 제 3 문장을 획득할 수 있다. 그리고, 프로세서(110)는 사전 설정된 룰을 이용하여, 제 3 문장에 대한 추가 교정 작업을 통해 제 1 문장에 대한 최종 번역 문장인 제 4 문장을 획득할 수 있다. 여기서, 사전 설정된 룰은 사용자가 미리 설정한 교정 규칙으로, 메모리(130)에 사전 저장되어 있을 수 있다.On the other hand, when the second sentence is obtained, the processor 110 inputs the second sentence to the grammar correction model learned using a learning dataset consisting of inscription data and plaintext data labeled in the inscription data, You can get 3 sentences. In addition, the processor 110 may obtain a fourth sentence that is a final translated sentence for the first sentence through an additional proofreading operation on the third sentence using a preset rule. Here, the preset rule is a correction rule preset by the user, and may be pre-stored in the memory 130 .

따라서, 본 개시의 번역 방법은 번역 과정에서 별도의 사람에 대한 리소스를 필요로 하지 않아, 번역의 생산성을 향상시킬 수 있다.Accordingly, the translation method of the present disclosure does not require a resource for a separate person in the translation process, thereby improving the productivity of translation.

이하, 본 개시의 컴퓨팅 장치(100)가 번역하는 방법에 대한 설명은 도 2 내지 도 6을 참조하여 후술한다.Hereinafter, a description of how the computing device 100 of the present disclosure translates will be described later with reference to FIGS. 2 to 6 .

한편, 컴퓨팅 장치(100)의 통신부(120)는, 컴퓨팅 장치(100)와 사용자 단말 사이 및 컴퓨팅 장치(100)와 서버들 사이의 통신을 가능하게 하는 하나 이상의 모듈을 포함할 수 있다. 또한, 상기 통신부(120)는, 컴퓨팅 장치(100)를 하나 이상의 네트워크에 연결하는 하나 이상의 모듈을 포함할 수 있다.Meanwhile, the communication unit 120 of the computing device 100 may include one or more modules that enable communication between the computing device 100 and the user terminal and between the computing device 100 and servers. Also, the communication unit 120 may include one or more modules for connecting the computing device 100 to one or more networks.

컴퓨팅 장치(100)와 사용자 단말 사이 및 컴퓨팅 장치(100)와 서버들 사이의 통신을 연결하는 네트워크는 공중전화 교환망(PSTN:Public Switched Telephone Network), xDSL(x Digital Subscriber Line), RADSL(Rate Adaptive DSL), MDSL(Multi Rate DSL), VDSL(Very High Speed DSL), UADSL(Universal Asymmetric DSL), HDSL(High Bit Rate DSL) 및 근거리 통신망(LAN) 등과 같은 다양한 유선 통신 시스템들을 사용할 수 있다.A network connecting the communication between the computing device 100 and the user terminal and between the computing device 100 and the servers is a Public Switched Telephone Network (PSTN), x Digital Subscriber Line (xDSL), and Rate Adaptive (RADSL). DSL), MDSL (Multi Rate DSL), VDSL (Very High Speed DSL), UADSL (Universal Asymmetric DSL), HDSL (High Bit Rate DSL), and a variety of wired communication systems such as local area network (LAN) can be used.

또한, 여기서 제시되는 네트워크는 CDMA(Code Division Multi Access), TDMA(Time Division Multi Access), FDMA(Frequency Division Multi Access), OFDMA(Orthogonal Frequency Division Multi Access), SC-FDMA(Single Carrier-FDMA) 및 다른 시스템들과 같은 다양한 무선 통신 시스템들을 사용할 수 있다.In addition, the networks presented herein include Code Division Multi Access (CDMA), Time Division Multi Access (TDMA), Frequency Division Multi Access (FDMA), Orthogonal Frequency Division Multi Access (OFDMA), Single Carrier-FDMA (SC-FDMA) and Various wireless communication systems may be used, such as other systems.

본 개시의 실시예들에 따른 네트워크는 유선 및 무선 등과 같은 그 통신 양태를 가리지 않고 구성될 수 있으며, 단거리 통신망(LAN: Local Area Network), 원거리 통신망(WAN: Wide Area Network) 등 다양한 통신망으로 구성될 수 있다. 또한, 상기 네트워크는 공지의 월드와이드웹(WWW:World Wide Web)일 수 있으며, 적외선(IrDA:Infrared Data Association) 또는 블루투스(Bluetooth)와 같이 단거리 통신에 이용되는 무선 전송 기술을 이용할 수도 있다.The network according to the embodiments of the present disclosure may be configured regardless of its communication mode, such as wired and wireless, and is composed of various communication networks such as a local area network (LAN) and a wide area network (WAN). can be In addition, the network may be a well-known World Wide Web (WWW), and may use a wireless transmission technology used for short-range communication such as Infrared Data Association (IrDA) or Bluetooth.

본 명세서에서 설명된 기술들은 위에서 언급된 네트워크들뿐만 아니라, 다른 네트워크들에서도 사용될 수 있다.The techniques described herein may be used in the networks mentioned above, as well as in other networks.

컴퓨팅 장치(100)의 메모리(130)는 프로세서(110)의 동작을 위한 프로그램을 저장할 수 있고, 입/출력되는 데이터들을 임시 또는 영구 저장할 수도 있다. 메모리(130)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(Random Access Memory, RAM), SRAM(Static Random Access Memory), 롬(Read-Only Memory, ROM), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적 어도 하나의 타입의 저장매체를 포함할 수 있다. 이러한 메모리(130)는 프로세서(110)에 제어에 의하여 동작 될 수 있다.The memory 130 of the computing device 100 may store a program for the operation of the processor 110 , and may temporarily or permanently store input/output data. The memory 130 may include a flash memory type, a hard disk type, a multimedia card micro type, a card type memory (eg, SD or XD memory, etc.), RAM (Random Access Memory, RAM), SRAM (Static Random Access Memory), ROM (Read-Only Memory, ROM), EEPROM (Electrically Erasable Programmable Read-Only Memory), PROM (Programmable Read-Only Memory), magnetic memory, magnetic It may include at least one type of storage medium among disks and optical disks. The memory 130 may be operated under the control of the processor 110 .

소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 상기 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 작동을 수행할 수 있다. 적절한 프로그램 언어로 쓰여진 소프트웨어 어플리케이션으로 소프트웨어 코드가 구현될 수 있다. 상기 소프트웨어 코드는 컴퓨팅 장치(100)의 메모리(130)에 저장되고, 컴퓨팅 장치(100)의 프로세서(110)에 의해 실행될 수 있다.According to the software implementation, embodiments such as the procedures and functions described in this specification may be implemented as separate software modules. Each of the software modules may perform one or more functions and operations described herein. The software code may be implemented as a software application written in a suitable programming language. The software code may be stored in the memory 130 of the computing device 100 and executed by the processor 110 of the computing device 100 .

도 2는 본 개시의 몇몇 실시예에 따른 번역 방법의 일례를 설명하기 위한 흐름도이다. 도 3은 본 개시의 몇몇 실시예에 따른 문법 교정 모델의 학습을 위한 학습용 데이터셋의 일례를 설명하기 위한 도면이다.2 is a flowchart illustrating an example of a translation method according to some embodiments of the present disclosure. 3 is a view for explaining an example of a training dataset for learning a grammar correction model according to some embodiments of the present disclosure.

도 2를 참조하면, 컴퓨팅 장치(100)의 프로세서(110)는 출발 문장 데이터 및 도착 문장 데이터 쌍으로 이루어진 페어 데이터(pair data)를 이용하여 학습된 기계 번역 모델에 제 1 문장을 입력하여, 번역된 제 2 문장을 획득할 수 있다(S110).Referring to FIG. 2 , the processor 110 of the computing device 100 inputs a first sentence into a machine translation model learned using pair data consisting of a pair of departure sentence data and arrival sentence data, and translates it. The second sentence can be obtained (S110).

여기서, 기계 번역 모델은 인공 신경망이 학습되어, 제 1 언어로 작성된 문장을 입력 받으면 상기 제 1 언어와 상이한 제 2 언어로 번역된 문장을 출력하는 모델을 의미할 수 있다. 이러한, 기계 번역 모델은 전처리 과정 및 학습 과정을 통해, 입력과 출력 모두 다국어를 지원할 수 있다. 또한, 본 개시의 기계 번역 모델은 적어도 하나의 인코더(encoder)와 적어도 하나의 디코더(decoder)를 포함하는 모델일 수 있다. 여기서, 트랜스포머(transformer) 모델, sequence to sequence 기법을 사용하는 모델, T5 모델 등과 같이 공지된 기계 번역 모델이 본 개시의 기계 번역 모델로 사용될 수 있다. 다만, 이에 한정되는 것은 아니다.Here, the machine translation model may refer to a model in which an artificial neural network is trained and, upon receiving a sentence written in the first language, outputs a sentence translated into a second language different from the first language. Such a machine translation model may support multilingual input and output through a preprocessing process and a learning process. Also, the machine translation model of the present disclosure may be a model including at least one encoder and at least one decoder. Here, a known machine translation model such as a transformer model, a model using a sequence-to-sequence technique, and a T5 model may be used as the machine translation model of the present disclosure. However, the present invention is not limited thereto.

구체적으로, 기계 번역 모델에 제 1 언어로 작성된 문장이 입력된 경우, 제 1 언어로 작성된 문장은 적어도 하나의 토큰으로 분할되어 적어도 하나의 인코더에 입력될 수 있다. 이 경우, 적어도 하나의 인코더는 다중의 N-차원의 벡터로 압축된 데이터를 출력할 수 있다. 그리고, 출력된 데이터가 적어도 하나의 디코더에 입력된 경우, 적어도 하나의 디코더는 번역 결과인 제 2 언어로 번역된 문장을 출력할 수 있다. 다만, 이에 한정되는 것은 아니다.Specifically, when a sentence written in the first language is input to the machine translation model, the sentence written in the first language may be divided into at least one token and input to at least one encoder. In this case, at least one encoder may output data compressed into multiple N-dimensional vectors. And, when the output data is input to the at least one decoder, the at least one decoder may output a sentence translated into the second language as a result of the translation. However, the present invention is not limited thereto.

컴퓨팅 장치(100)의 프로세서(110)는 기계 번역 모델에 전처리된 번역 대상 문장을 입력할 수 있다. 구체적으로, 프로세서(110)가 기계 번역 모델에 입력하는 제 1 문장은 전처리 과정을 통해 번역 대상 문장에서 사전 설정된 텍스트 또는, 특수기호를 제거한 문장일 수 있다. 예를 들어, 프로세서(110)는 번역 대상 문장이 영어인 경우, 번역 대상 문장에서 영어가 아닌 문장(예컨대, 한국어)을 제거할 수 있다. 다만, 이에 한정되는 것은 아니다.The processor 110 of the computing device 100 may input the preprocessed translation target sentence to the machine translation model. Specifically, the first sentence input by the processor 110 to the machine translation model may be a text preset from the translation target sentence through a preprocessing process or a sentence in which special symbols are removed. For example, when the translation target sentence is English, the processor 110 may remove non-English sentences (eg, Korean) from the translation target sentence. However, the present invention is not limited thereto.

한편, 본 개시의 몇몇 실시예에 따르면, 컴퓨팅 장치(100)의 프로세서(110)는 기계 번역 모델에 제 1 문장을 입력할 때, 전처리 과정을 통해 도착 문장(번역이 완료된 문장)의 언어를 제 1 문장의 라벨로 추가할 수 있다. 즉, 기계 번역 모델은 다국어를 지원할 수 있도록 학습되었기 때문에 기계 번역 모델에 제 1 문장을 입력할 때, 어느 언어로 번역되야 하는지에 대한 라벨이 제 1 문장에 추가될 수도 있다.On the other hand, according to some embodiments of the present disclosure, when the processor 110 of the computing device 100 inputs the first sentence to the machine translation model, the language of the arrival sentence (the translated sentence) is generated through a preprocessing process. It can be added as a label for 1 sentence. That is, since the machine translation model has been trained to support multiple languages, when the first sentence is input to the machine translation model, a label for which language should be translated may be added to the first sentence.

한편, 기계 번역 모델이 다국어를 지원할 수 있도록 기계 번역 모델을 학습시키는 방법은 다음과 같다.Meanwhile, the method of training the machine translation model so that the machine translation model can support multiple languages is as follows.

컴퓨팅 장치(100)의 프로세서(110)는 기계 번역 모델을 학습시킬 때 제 1 언어로 작성된 출발 문장(번역 대상 문장)의 앞에 도착 문장의 제 2 언어의 종류를 나타내는 라벨을 추가한 출발 문장 데이터를 생성할 수 있다. 또한, 프로세서(110)는 제 2 언어로 작성된 도착 문장(번역이 완료된 문장)의 앞에 제 1 언어의 종류를 나타내는 라벨을 추가한 도착 문장 데이터를 생성할 수 있다. 그리고, 프로세서(110)는 출발 문장 데이터 및 도착 문장 데이터로 구성된 페어 데이터를 이용하여 기계 번역 모델을 학습시킬 수 있다. When the processor 110 of the computing device 100 trains the machine translation model, the departure sentence data obtained by adding a label indicating the type of the second language of the arrival sentence in front of the starting sentence (translation target sentence) written in the first language can create Also, the processor 110 may generate arrival sentence data in which a label indicating the type of the first language is added to the front of the arrival sentence (translation completed sentence) written in the second language. In addition, the processor 110 may train the machine translation model by using pair data composed of the departure sentence data and the arrival sentence data.

예를 들어, 프로세서(110)는 출발 문장의 언어의 종류가 한국어이고, 도착 문장의 언어의 종류가 영어인 경우, 출발 문장의 앞에 제 2 언어의 종류인 영어를 나타내는 'EN'과 같은 라벨을 추가하여 출발 문장 데이터를 생성할 수 있다. 또한, 프로세서(110)는 영어로 작성된 도착 문장의 앞에 출발 문장의 언어의 종류인 한국어를 나타내는 'KR'과 같은 라벨을 추가하여 도착 문장 데이터를 생성할 수 있다. 그리고, 프로세서(110)는 출발 문장 데이터와 도착 문장 데이터가 쌍으로 이루어진 페어 데이터를 이용하여 기계 번역 모델을 학습시킬 수 있다. 다만, 이에 한정되는 것은 아니다.For example, when the language type of the departure sentence is Korean and the language type of the arrival sentence is English, the processor 110 displays a label such as 'EN' indicating English as the second language type in front of the departure sentence. In addition, starting sentence data can be generated. Also, the processor 110 may generate arrival sentence data by adding a label such as 'KR' indicating Korean, which is the language of the departure sentence, in front of the arrival sentence written in English. In addition, the processor 110 may train the machine translation model by using pair data in which the departure sentence data and the arrival sentence data are a pair. However, the present invention is not limited thereto.

즉, 학습 과정에서 사용되는 페어 데이터를 구성하는 출발 문장 데이터는 전처리 과정을 통해 제 1 언어로 작성된 출발 문장의 앞에 도착 문장의 제 2 언어의 종류를 나타내는 라벨이 추가된 데이터일 수 있다. 그리고, 학습 과정에서 사용되는 페어 데이터를 구성하는 도착 문장 데이터는 전처리 과정을 통해 제 2 언어로 작성된 도착 문장의 앞에 제 1 언어의 종류를 나타내는 라벨이 추가된 데이터일 수 있다. 다만, 이에 한정되는 것은 아니다.That is, the starting sentence data constituting the pair data used in the learning process may be data in which a label indicating the type of the second language of the arrival sentence is added to the front of the starting sentence written in the first language through the preprocessing process. And, the arrival sentence data constituting the pair data used in the learning process may be data in which a label indicating the type of the first language is added to the front of the arrival sentence written in the second language through the preprocessing process. However, the present invention is not limited thereto.

한편, 본 개시의 몇몇 실시예에 따르면, 도착 문장 데이터에는 출발 문장의 언어가 라벨로 추가되어 있으며, 출발 문장이 페어 데이터로 존재하기 때문에 프로세서(110)는 제 2 언어를 제 1 언어로 번역하도록 기계 번역 모델을 학습시킬 수도 있다. 결과적으로, 프로세서(110)는 하나의 페어 데이터를 통해 제 1 언어를 제 2 언어로 번역할 수 있도록 기계 번역 모델을 학습시킬 수도 있고 제 2 언어를 제 1 언어로 번역할 수 있도록 기계 학습 모델을 학습시킬 수도 있다. 다만, 이에 한정되는 것은 아니다.Meanwhile, according to some embodiments of the present disclosure, the language of the departure sentence is added to the arrival sentence data as a label, and since the departure sentence exists as pair data, the processor 110 may translate the second language into the first language. It is also possible to train a machine translation model. As a result, the processor 110 may train the machine translation model to translate the first language into the second language through one pair of data, or train the machine learning model to translate the second language into the first language. You can also learn However, the present invention is not limited thereto.

추가적으로, 본 개시의 기계 번역 모델은 사용되는 분야에 따라, 사용되는 분야와 관련된 추가적인 데이터를 통해 미세 조정(fine-tuning)될 수 있다. 예를 들어, '정의'라는 단어가 번역 대상 문장 내에 있을 때 상황에 따라서 '용어의 뜻'을 의미할 수도 있고, '진리에 맞는 올바른 도리'일 수도 있다. 기계 번역 모델은 이를 구분하기 위해 사용되는 분야에 따라, 가중치가 다르게 표시된 데이터를 이용하여 가중치 조정이 수행될 수 있다.Additionally, the machine translation model of the present disclosure may be fine-tuned through additional data related to the field to be used according to the field used. For example, when the word 'justice' is in the sentence to be translated, it may mean 'the meaning of the term' or 'correct reason for the truth' depending on the situation. In the machine translation model, weight adjustment may be performed using data with different weights according to fields used to classify them.

본 개시의 기계 번역 모델은 상기와 같은 미세 조정 과정을 통해 사용되는 분야에서 더 전문적인 기계 번역 기능을 제공할 수 있다.The machine translation model of the present disclosure may provide a more specialized machine translation function in the field used through the fine adjustment process as described above.

본 개시의 몇몇 실시예에 따르면, 컴퓨팅 장치(100)의 프로세서(110)는 제 2 문장을 획득한 후, 비문 데이터와 비문 데이터에 라벨링된 평문 데이터로 구성된 학습용 데이터셋을 이용하여 학습된 문법 교정 모델에 제 2 문장을 입력하여, 교정된 제 3 문장을 획득할 수 있다(S120).According to some embodiments of the present disclosure, after obtaining the second sentence, the processor 110 of the computing device 100 corrects the learned grammar using a learning dataset including inscription data and plaintext data labeled in the inscription data. By inputting the second sentence to the model, a corrected third sentence may be obtained (S120).

여기서, 문법 교정 모델은 인공 신경망이 학습되어, 문법적 오류가 존재하는 문장을 입력 받으면 상기 문법적 오류가 제거된 문장을 출력하는 모델을 의미할 수 있다. 이러한 문법 교정 모델은 전처리 과정 및 학습 과정을 통해, 입력과 출력 모두 다국어를 지원할 수 있다. 또한, 본 개시의 문법 교정 모델은 적어도 하나의 인코더과 적어도 하나의 디코더를 포함하는 텍스트 생성 모델(text generation model)일 수 있다. 또한, 본 개시의 문법 교정 모델은 사전에 교정하고자 하는 언어들에 대하여 대량의 평문 텍스트(평문 데이터)와 이를 바탕으로 생성한 비문 텍스트(비문 데이터)로부터 교정된 정문을 유추해내도록 훈련될 수 있다. 예를 들어, 본 개시의 문법 교정 모델에는 Bert-base-multilingual-cased model이 사용될 수 있다. 다만, 이에 한정되는 것은 아니다.Here, the grammar correction model may refer to a model in which an artificial neural network is trained and, when a sentence in which a grammatical error exists is inputted, a sentence in which the grammatical error is removed is output. This grammar correction model can support multilingual input and output through a preprocessing process and a learning process. Also, the grammar correction model of the present disclosure may be a text generation model including at least one encoder and at least one decoder. In addition, the grammar correction model of the present disclosure may be trained to infer a corrected main sentence from a large amount of plaintext (plaintext data) and inscription text (inscription data) generated based on the large amount of plaintext (plaintext data) for languages to be corrected in advance. . For example, the Bert-base-multilingual-cased model may be used for the grammar correction model of the present disclosure. However, the present invention is not limited thereto.

문법 교정 모델의 학습에 이용되는 비문 데이터는 관사 오류, 전치사 오류, 숫자의 위치 오류, 문장 구조 오류 또는 띄어쓰기 오류 중 적어도 하나를 포함하는 문장 데이터일 수 있다. 추가적으로, 비문 데이터는 문법적 오류를 포함하는 문장 데이터뿐만 아니라, 인터넷의 최신 텍스트 데이터를 수집하여 신조어 및 유행어와 관련된 텍스트 데이터를 포함할 수도 있다. 한편, 문법 교정 모델의 학습에 이용되는 평문 데이터는 비문 데이터에 포함된 오류, 신조어, 또는 유행어가 표준 언어로 교정된 문장 데이터일 수 있다. 다만, 이에 한정되는 것은 아니다.The inscription data used for learning the grammar correction model may be sentence data including at least one of an article error, a preposition error, a position error of a number, a sentence structure error, or a spacing error. Additionally, the inscription data may include not only sentence data including grammatical errors, but also text data related to new words and buzzwords by collecting the latest text data from the Internet. Meanwhile, the plaintext data used for learning the grammar correction model may be sentence data in which errors, new words, or buzzwords included in the inscription data are corrected in a standard language. However, the present invention is not limited thereto.

도 3에서 밑줄은 설명의 편의를 위해 입력 데이터에서 오류가 존재하는 위치를 표시하거나 문법 교정 모델에서 출력된 문장에서 교정된 위치를 표시하기 위한 것이고, 실제 입력 데이터 또는 출력된 문장에는 밑줄이 존재하지 않을 수 있다. 또한, 도 3과 관련된 설명에 존재하는 밑줄 및 굵은 표시는 입력 데이터에서 오류가 존재하는 위치를 표시하거나 문법 교정 모델에서 출력된 문장에서 교정된 위치를 표시하기 위한 것이고, 실제 입력 데이터 또는 출력된 문장에는 밑줄 및 굵은 표시가 존재하지 않을 수 있다. 3, the underline in FIG. 3 is for indicating a position where an error exists in the input data or a corrected position in a sentence output from the grammar correction model for convenience of explanation, and the underline does not exist in the actual input data or the output sentence. it may not be In addition, the underline and bold marks present in the description related to FIG. 3 are for indicating the position where an error exists in the input data or the corrected position in the sentence output from the grammar correction model, and the actual input data or the output sentence underline and bold may not exist.

예를 들어, 도 3의 (a)를 참조하면, 학습 과정에서 문법 교정 모델을 학습시키기 위해 사용되는 입력 데이터인 비문 데이터는 숫자의 위치 오류가 존재하는 문장인'The redevelopment of the Angolan mining industry started in the late s. 2000 '일 수 있다. 그리고, 상기 비문 데이터에 라벨링된 평문 데이터(label)는 'The redevelopment of the Angolan mining industry started in the late 2000 s.'일 수 있다. 이러한 비문 데이터와 비문 데이터에 라벨링된 평문 데이터로 구성된 학습용 데이터셋을 이용하여 학습된 문법 교정 모델은 'The redevelopment of the Angolan mining industry started in the late s. 2000 '라는 문장을 입력(input)을 받는 경우, 'The redevelopment of the Angolan mining industry started in the late 2000 s.'라는 문장을 출력(output)하도록 학습될 수 있다.For example, referring to FIG. 3A , inscription data, which is input data used to train a grammar correction model in a learning process, is a sentence in which a position error of a number exists, 'The redevelopment of the Angolan mining industry started in the late s. It can be 2000 '. In addition, the plaintext data labeled on the inscription data may be 'The redevelopment of the Angolan mining industry started in the late 2000 s.' The grammar correction model trained using this inscription data and the training dataset consisting of the plaintext data labeled in the inscription data is 'The redevelopment of the Angolan mining industry started in the late s. When the sentence ' 2000 ' is received as input, it may be learned to output the sentence 'The redevelopment of the Angolan mining industry started in the late 2000 s.'

다른 예를 들어, 도 3의 (b)를 참조하면, 학습 과정에서 문법 교정 모델을 학습시키기 위해 사용되는 입력 데이터인 비문 데이터는 숫자의 위치 오류가 존재하는 문장인'The Angolan government loses million annually from diamond smuggling. $ 375 ' 일 수 있다. 그리고, 상기 비문 데이터에 라벨링된 평문 데이터(label)는 'The Angolan government loses $ 375 million annually from diamond smuggling.'일 수 있다. 이러한 비문 데이터와 비문 데이터에 라벨링된 평문 데이터로 구성된 학습용 데이터셋을 이용하여 학습된 문법 교정 모델은 'The Angolan government loses million annually from diamond smuggling. $ 375 '라는 문장을 입력(input)을 받는 경우, 'The Angolan government loses $ 375 million annually from diamond smuggling.'라는 문장을 출력(output)하도록 학습될 수 있다.For another example, referring to (b) of FIG. 3 , the inscription data, which is input data used to train the grammar correction model in the learning process, is a sentence in which a positional error of a number exists, 'The Angolan government loses million annually from diamond smuggling. It can be $375 '. In addition, the plaintext data labeled on the inscription data may be 'The Angolan government loses $ 375 million annually from diamond smuggling.' The grammar correction model learned using the training dataset consisting of the inscription data and the plaintext data labeled in the inscription data is 'The Angolan government loses million annually from diamond smuggling. When a sentence of ' $ 375 ' is received as an input, it may be learned to output the sentence 'The Angolan government loses $ 375 million annually from diamond smuggling.'

또 다른 예를 들어, 도 3의 (c)를 참조하면, 학습 과정에서 문법 교정 모델을 학습시키기 위해 사용되는 입력 데이터인 비문 데이터는 전치사(또는, 접속사) 오류가 존재하는 문장인'Andorra was admitted to UEFA and FIFA and the same year, 1996.' 일 수 있다. 그리고, 상기 비문 데이터에 라벨링된 평문 데이터(label)는 'Andorra was admitted to UEFA and FIFA in the same year, 1996.'일 수 있다. 이러한 비문 데이터와 비문 데이터에 라벨링된 평문 데이터로 구성된 학습용 데이터셋을 이용하여 학습된 문법 교정 모델은 'Andorra was admitted to UEFA and FIFA and the same year, 1996.'라는 문장을 입력(input)을 받는 경우, 'Andorra was admitted to UEFA and FIFA in the same year, 1996.'라는 문장을 출력(output)하도록 학습될 수 있다.As another example, referring to (c) of FIG. 3 , inscription data, which is input data used to train a grammar correction model in the learning process, is a sentence in which a preposition (or conjunction) error exists, 'Andorra was admitted' to UEFA and FIFA and the same year, 1996.' can be In addition, the plaintext data labeled on the inscription data may be 'Andorra was admitted to UEFA and FIFA in the same year, 1996.'. A grammar correction model trained using this inscription data and a training dataset consisting of plaintext data labeled on the inscription data is subjected to an input of the sentence 'Andorra was admitted to UEFA and FIFA and the same year, 1996.' case, it may be trained to output the sentence 'Andorra was admitted to UEFA and FIFA in the same year, 1996.'.

또 다른 예를 들어, 도 3의 (d)를 참조하면, 학습 과정에서 문법 교정 모델을 학습시키기 위해 사용되는 입력 데이터인 비문 데이터는 관사 오류가 존재하는 문장인'Andorra first participated at an Olympic Games in 1976.'일 수 있다. 그리고, 상기 비문 데이터에 라벨링된 평문 데이터(label)는 'Andorra first participated at the Olympic Games in 1976.'일 수 있다. 이러한 비문 데이터와 비문 데이터에 라벨링된 평문 데이터로 구성된 학습용 데이터셋을 이용하여 학습된 문법 교정 모델은 'Andorra first participated at an Olympic Games in 1976.'라는 문장을 입력(input)을 받는 경우, 'Andorra first participated at the Olympic Games in 1976.'라는 문장을 출력(output)하도록 학습될 수 있다.As another example, referring to (d) of FIG. 3 , the inscription data, which is input data used to train the grammar correction model in the learning process, is a sentence with an article error, 'Andorra first participated at an Olympic Games in 1976.' In addition, the plaintext data labeled on the inscription data may be 'Andorra first participated at the Olympic Games in 1976.'. The grammar correction model trained using the training dataset consisting of the inscription data and the plaintext data labeled in the inscription data is 'Andorra first participated at an Olympic Games in 1976.' It can be learned to output the sentence 'first participated at the Olympic Games in 1976.'

본 개시의 추가적인 몇몇 실시예에 따르면, 컴퓨팅 장치(100)의 프로세서(110)는 평문 데이터를 이용하여, 비문 데이터를 생성할 수 있다. 그리고, 프로세서(110)는 생성된 비문 데이터에 평문 데이터를 라벨링하여 문법 교정 모델을 학습시키기 위한 학습용 데이터 셋으로 활용할 수 있다. According to some additional embodiments of the present disclosure, the processor 110 of the computing device 100 may generate inscription data by using the plaintext data. In addition, the processor 110 may label the generated inscription data with plaintext data and use it as a learning data set for learning the grammar correction model.

구체적으로, 프로세서(110)는 평문 데이터(평문으로 구성된 문장)에 포함된 단어들 각각의 타입(전치사, 관사 및 띄어쓰기 등)을 인식할 수 있다. 그리고, 프로세서(110)는 특정 오류(예를 들어, 전치사 오류)와 관련된 비문 데이터를 생성하는 경우, 평문 데이터 내에서 특정 오류(예를 들어, 전치사 오류)를 발생시킬 수 있는 적어도 하나의 단어를 인식할 수 있다. 그리고, 프로세서(110)는 인식된 적어도 하나의 단어를 동일한 타입을 갖는 다른 단어 또는 공백으로 변경하여 문법적 오류를 포함하는 비문 데이터를 생성할 수 있다. 그리고, 프로세서(110)는 생성된 비문 데이터에 평문 데이터를 라벨링 하여 문법 교정 모델을 학습시킬 수 있다.Specifically, the processor 110 may recognize each type (preposition, article, space, etc.) of words included in plaintext data (sentences composed of plaintext). In addition, when the processor 110 generates inscription data related to a specific error (eg, a preposition error), at least one word that may generate a specific error (eg, a preposition error) in the plaintext data can recognize In addition, the processor 110 may generate inscription data including a grammatical error by changing at least one recognized word to another word having the same type or a space. Then, the processor 110 may learn the grammar correction model by labeling the generated inscription data with plaintext data.

예를 들어, 프로세서(110)는 'The redevelopment of the Angolan mining industry started in the late 2000 s.'라는 평문 데이터에 포함된 단어들 각각의 타입을 인식할 수 있다. 그리고, 프로세서(110)는 전치사 오류를 발생시키기 위해 평문 데이터에서 전치사인 of 및 in을 인식할 수 있다. 그리고, 프로세서(110)는 of 및 in 각각을 다른 단어인 for 및 공백으로 변경하여, 문법적 오류를 포함하는 비문 데이터인 'The redevelopment for the Angolan mining industry started the late 2000 s.'를 생성할 수 있다. 프로세서(110)는 생성된 비문 데이터인 'The redevelopment for the Angolan mining industry started the late 2000 s.'에 평문 데이터인 'The redevelopment of the Angolan mining industry started in the late 2000 s.'를 라벨링 하여 문법 교정 모델을 학습시킬 수 있다.For example, the processor 110 may recognize each type of words included in the plaintext data 'The redevelopment of the Angolan mining industry started in the late 2000 s.' In addition, the processor 110 may recognize the prepositions of and in in the plaintext data in order to generate a preposition error. Then, the processor 110 changes each of and in to different words for and space, 'The redevelopment for the Angolan mining industry started', which is inscription data including a grammatical error. the late 2000 s.' The processor 110 'The redevelopment for the Angolan mining industry started The grammar correction model can be trained by labeling the plaintext data 'The redevelopment of the Angolan mining industry started in the late 2000 s.' to the late 2000 s.'

다만, 이에 한정되는 것은 아니고, 본 개시의 프로세서(110)는 평문 데이터에 포함된 문장의 일부를 다양한 방식으로 변경하여, 비문 데이터를 생성할 수 있다. 이와 같이 비문 데이터를 생성하여 문법 교정 모델을 학습시키는 경우, 비문 데이터를 별도로 수집할 필요가 없어 시간과 비용을 절감시킬 수 있다. However, the present disclosure is not limited thereto, and the processor 110 of the present disclosure may generate inscription data by changing a part of a sentence included in the plaintext data in various ways. In this way, when the grammar correction model is trained by generating inscription data, there is no need to separately collect inscription data, thereby saving time and cost.

추가적으로, 본 개시의 문법 교정 모델은 사용되는 분야에 따라, 사용되는 분야와 관련된 추가적인 데이터를 통해 미세 조정(fine-tuning)될 수 있다. 구체적으로, 문법 교정 모델은 교정 대상 문장에 존재하는 특정 오류를 교정 가능한 복수의 단어들에 대하여, 가중치가 각각 다르게 표시된 데이터를 이용하여 가중치 조정이 수행될 수 있다.Additionally, the grammar correction model of the present disclosure may be fine-tuned through additional data related to the field to be used according to the field to be used. Specifically, in the grammar correction model, weight adjustment may be performed on a plurality of words capable of correcting a specific error existing in a sentence to be corrected by using data each having different weights.

본 개시의 문법 교정 모델은 상기와 같은 미세 조정 과정을 통해 사용되는 분야에서 더 전문적인 문법 교정 기능을 제공할 수 있다.The grammar correction model of the present disclosure may provide a more professional grammar correction function in the field used through the fine adjustment process as described above.

다시 도 2를 참조하면, 본 개시의 컴퓨팅 장치(100)의 프로세서(110)는 제 3 문장을 획득한 후, 사전 설정된 룰을 이용하여, 제 3 문장에 대한 추가 교정 작업을 통해 제 1 문장에 대한 최종 번역 문장인 제 4 문장을 획득할 수 있다(S130). 여기서, 사전 설정된 룰은 사용자가 미리 설정한 교정 규칙으로, 메모리(130)에 사전 저장되어 있을 수 있다. 다만, 이에 한정되는 것은 아니다.Referring back to FIG. 2 , the processor 110 of the computing device 100 of the present disclosure obtains the third sentence, and then uses a preset rule to add the third sentence to the first sentence through additional proofreading. It is possible to obtain a fourth sentence that is the final translated sentence for the text (S130). Here, the preset rule is a correction rule preset by the user, and may be pre-stored in the memory 130 . However, the present invention is not limited thereto.

일례로, 프로세서(110)는 제 3 문장에 포함된 문장 부호 중 문장이 끝나는 것과 관련된 문장 부호 뒤에 줄 바꿈 기호를 삽입하여, 제 4 문장을 획득할 수 있다. For example, the processor 110 may obtain the fourth sentence by inserting a line break symbol after the punctuation related to the end of the sentence among the punctuation marks included in the third sentence.

여기서, 문장이 끝나는 것과 관련된 문장 부호는 예를 들어, 온점(.), 느낌표(!) 및 물음표(?)를 포함할 수 있다. 즉, 프로세서(110)는 제 3 문장에 온점, 느낌표 및 물음표가 존재하는 경우, 상기 온점, 느낌표 및 물음표의 뒤에 줄 바꿈 기호를 삽입하여, 제 4 문장을 획득할 수 있다.Here, punctuation marks related to the end of a sentence may include, for example, a period (.), an exclamation point (!), and a question mark (?). That is, when a dot, an exclamation point, and a question mark exist in the third sentence, the processor 110 may obtain the fourth sentence by inserting a line break symbol after the dot, exclamation point, and question mark.

예를 들어, 줄바꿈 기호가 '\n'이라고 가정하면, 프로세서(110)는 '적군 1명에서 130% 물리 데미지를 입힙니다. 50% 확률로 실명이 2턴 간 적용됩니다.'라는 제 3 문장에서 온점 뒤에 줄 바꿈 기호를 삽입하여, 제 4 문장인'적군 1명에서 130% 물리 데미지를 입힙니다.\n50% 확률로 실명이 2턴 간 적용됩니다.'를 획득할 수 있다. 다만, 이에 한정되는 것은 아니다.For example, assuming that the newline symbol is ' \n ', the processor 110 will 'inflict 130% physical damage to one enemy. There is a 50% chance that the blindness will be applied for 2 turns.' In the third sentence, inserts a line break symbol after the dot, and in the fourth sentence, 'Inflicts 130% physical damage to one enemy. \n There is a 50% chance that the blindness will be applied for 2 turns.' However, the present invention is not limited thereto.

다른 일례로, 프로세서(110)는 사전 설정된 룰에 기초하여, 제 3 문장에 띄어쓰기를 추가하여, 제 4 문장을 획득할 수 있다.As another example, the processor 110 may obtain the fourth sentence by adding a space to the third sentence based on a preset rule.

예를 들어, 프로세서(110)는 색상 태그 우측에는 공백이 없어야 한다는 사전 설정된 룰이 존재하는 경우, '[fff31b]<QUEST> [-] Unlocked!!'라는 제 3 문장에서 색상 태그 우측에 존재하는 공백을 제거하여, 제 4 문장인 '[fff31b]<QUEST>[-] Unlocked!!'를 획득할 수 있다. 다만, 이에 한정되는 것은 아니다.For example, if there is a preset rule that the processor 110 has no space to the right of the color tag, '[fff31b]<QUEST> The fourth sentence, '[fff31b]<QUEST>[-] Unlocked!!', can be obtained by removing the space on the right side of the color tag in the 3rd sentence, '[-] Unlocked!!'. However, the present invention is not limited thereto.

다른 예를 들어, 프로세서(110)는 프랑스어는 % 기호 앞에 공백이 있어야 한다는 사전 설정된 룰이 존재하는 경우, 'Ignore 40% de D

Figure pat00001
FENSA'라는 제 3 문장에서 % 기호 앞에 공백을 추가하여, 제 4 문장인 'Ignore 40 % de D
Figure pat00002
FENSA'를 획득할 수 있다. 다만, 이에 한정되는 것은 아니다.For another example, if there is a preset rule that French requires a space before the % sign, 'Ignore 40% de D'
Figure pat00001
By adding a space before the % sign in the third sentence of 'FENSA', the fourth sentence 'Ignore 40' % de D
Figure pat00002
FENSA' can be obtained. However, the present invention is not limited thereto.

본 개시의 컴퓨팅 장치(100)는 기계 번역 및 문법 교정까지 완료된 결과를 출력하기 때문에 번역의 품질을 상승시킬 수 있다. 또한, 본 개시의 컴퓨팅 장치(100)는 기존 문법 교정 방법에서는 고려하지 않았던 신조어, 유행어와 관련된 오류까지 해결할 수 있다.Since the computing device 100 of the present disclosure outputs the results of machine translation and grammar proofreading, the quality of translation may be improved. In addition, the computing device 100 of the present disclosure may resolve errors related to new words and buzzwords that were not considered in the existing grammar correction method.

이를 통해 본 개시의 컴퓨팅 장치(100)는 기계 번역 자체의 성능 향상을 위해 요구되던 수많은 인적 자원과 데이터를 모으는 비용을 절감할 수 있다.Through this, the computing device 100 of the present disclosure can reduce the cost of collecting numerous human resources and data required to improve the performance of machine translation itself.

또한, 본 개시의 번역 방법에 따르면, 데이터를 다양한 언어로 번역, 제공해야 하는 글로벌 서비스에서 완성도 높은 번역본을 적은 인프라로 제공할 수 있다. 예를 들어, 본 개시의 번역 방법은 메일, 공지문, 인게임 텍스트 번역 등의 서비스에 사용될 수 있다.In addition, according to the translation method of the present disclosure, it is possible to provide a highly complete translation with a small infrastructure in a global service that needs to translate and provide data into various languages. For example, the translation method of the present disclosure may be used for services such as mail, announcement, and in-game text translation.

도 4는 본 개시의 몇몇 실시예에 따른 번역 과정의 일례를 설명하기 위한 흐름도이다.4 is a flowchart illustrating an example of a translation process according to some embodiments of the present disclosure.

본 개시의 몇몇 실시예에 따르면, 컴퓨팅 장치(100)의 프로세서(110)는 기계 번역 모델에 제 1 문장을 입력하여, 번역된 제 2 문장을 획득할 수 있다. 또한, 프로세서(110)는 제 2 문장을 문법 교정 모델에 입력하여, 제 3 문장을 획득할 수 있다. 그리고, 프로세서(110)는 제 3 문장에 대한 추가 교정 작업을 통해 제 1 문장에 대한 최종 번역 문장인 제 4 문장을 획득할 수 있다.According to some embodiments of the present disclosure, the processor 110 of the computing device 100 may obtain a translated second sentence by inputting the first sentence into the machine translation model. Also, the processor 110 may obtain the third sentence by inputting the second sentence into the grammar correction model. In addition, the processor 110 may obtain a fourth sentence that is a final translated sentence for the first sentence through an additional proofreading operation for the third sentence.

이하에서, 컴퓨팅 장치(100)의 프로세서(110)가 제 2 문장을 문법 교정 모델에 입력하여, 제 3 문장을 획득하는 단계 및 상기 프로세서(110)가 제 3 문장에 대한 추가 교정 작업을 수행하는 단계에 대하여 구체적으로 설명한다.Hereinafter, the processor 110 of the computing device 100 inputs the second sentence to the grammar correction model to obtain the third sentence, and the processor 110 performs an additional correction operation on the third sentence. Steps will be described in detail.

도 4를 참조하면, 컴퓨팅 장치(100)의 프로세서(110)는 제 2 문장을 문법 교정 모델에 입력하기 전에, 제 2 문장에 줄 바꿈 기호가 존재하는 경우, 줄 바꿈 기호를 제거하고, 줄 바꿈 기호의 위치 정보를 메모리에 저장할 수 있다(S210). 그리고, 프로세서(110)는 줄 바꿈 기호가 제거된 제 2 문장을 문법 교정 모델에 입력하여 제 3 문장을 획득할 수 있다(S220). 여기서, 줄 바꿈 기호의 위치 정보는 문자열 인덱스(string index)를 포함할 수 있다. 다만, 이에 한정되는 것은 아니다.Referring to FIG. 4 , before inputting the second sentence into the grammar correction model, the processor 110 of the computing device 100 removes the newline symbol and removes the newline if the second sentence contains a newline symbol. The location information of the symbol may be stored in the memory (S210). Then, the processor 110 may obtain the third sentence by inputting the second sentence from which the newline symbol is removed to the grammar correction model ( S220 ). Here, the position information of the newline symbol may include a string index. However, the present invention is not limited thereto.

본 개시의 몇몇 실시예에 따르면, 프로세서(110)는 제 2 문장에서 줄 바꿈 기호를 제거한 후, 상기 줄 바꿈 기호가 제거된 제 2 문장을 문법 교정 모델에 입력하여, 보다 정확하게 상기 문법 교정 모델에 의해 문법이 교정되도록 유도할 수 있다. 즉, 본 개시의 문법 교정 모델은 줄 바꿈 기호가 없는 문장에 대하여, 보다 높은 정확도로 문법 교정을 수행할 수 있다.According to some embodiments of the present disclosure, the processor 110 removes the line break symbol from the second sentence, and then inputs the second sentence from which the line break symbol is removed to the grammar correction model, so that the grammar correction model is more accurately applied to the grammar correction model. This can lead to grammar correction. That is, the grammar correction model of the present disclosure may perform grammar correction with higher accuracy on a sentence without a newline symbol.

한편, 프로세서(110)는 제 3 문장을 획득한 후, 줄 바꿈 기호의 위치 정보를 이용하여, 제 3 문장에서 줄 바꿈 기호의 삽입 위치가 단어 내부에 존재하는지 여부를 인식할 수 있다(S230). 그리고, 프로세서(110)는 삽입 위치가 단어 내부에 존재한다고 인식한 경우, 단어의 앞에 줄 바꿈 기호를 삽입하여, 제 4 문장을 획득할 수 있다(S240).Meanwhile, after obtaining the third sentence, the processor 110 may recognize whether the insertion position of the newline symbol in the third sentence exists within the word by using the position information of the newline symbol ( S230 ). . Then, when recognizing that the insertion position exists within the word, the processor 110 may insert a newline symbol in front of the word to obtain the fourth sentence ( S240 ).

예를 들어, 제 3 문장은 'This is a translated string'이고, 줄 바꿈 기호(\n)의 삽입 위치가 문자열 인덱스 '14'라고 가정하면(즉, 'This is a tran\nslated string'), 프로세서(110)는 줄바꿈 기호의 삽입 위치가 'translated'라는 단어 내부에 존재한다고 인식할 수 있다. 이 경우, 프로세서(110)는 'translated'라는 단어 앞에 줄 바꿈 기호를 삽입하여, 제 4 문장인 'This is a\ntranslated string'를 획득할 수 있다. 다만, 이에 한정되는 것은 아니다.For example, suppose the 3rd sentence is 'This is a translated string', and the insertion position of the newline symbol ( \n ) is the string index '14' (i.e., 'This is a tran \n slated string'). , the processor 110 may recognize that the insertion position of the newline symbol exists within the word 'translated'. In this case, the processor 110 may obtain the fourth sentence 'This is a \n translated string' by inserting a newline symbol before the word 'translated'. However, the present invention is not limited thereto.

본 개시의 몇몇 실시예에 따르면, 프로세서(110)는 줄 바꿈 기호가 제거된 제 2 문장을 문법 교정 모델에 입력하여, 보다 정확하게 상기 문법 교정 모델에 의해 문법이 교정되도록 유도할 뿐만 아니라, 문법 교정 모델에 의해 교정된 문장이 자연스럽도록 적합한 위치에 줄 바꿈 기호를 삽입할 수 있다.According to some embodiments of the present disclosure, the processor 110 inputs the second sentence from which the newline symbol has been removed into the grammar correction model, and not only induces the grammar to be more accurately corrected by the grammar correction model, but also corrects the grammar. Line break marks can be inserted at appropriate positions so that the sentences corrected by the model are natural.

도 5는 본 개시의 몇몇 실시예에 따른 번역 과정의 다른 일례를 설명하기 위한 흐름도이다.5 is a flowchart illustrating another example of a translation process according to some embodiments of the present disclosure.

본 개시의 몇몇 실시예에 따르면, 컴퓨팅 장치(100)의 프로세서(110)는 기계 번역 모델에 제 1 문장을 입력하여, 번역된 제 2 문장을 획득할 수 있다. 또한, 프로세서(110)는 제 2 문장을 문법 교정 모델에 입력하여, 제 3 문장을 획득할 수 있다. 그리고, 프로세서(110)는 제 3 문장에 대한 추가 교정 작업을 통해 제 1 문장에 대한 최종 번역 문장인 제 4 문장을 획득할 수 있다.According to some embodiments of the present disclosure, the processor 110 of the computing device 100 may obtain a translated second sentence by inputting the first sentence into the machine translation model. Also, the processor 110 may obtain the third sentence by inputting the second sentence into the grammar correction model. In addition, the processor 110 may obtain a fourth sentence that is a final translated sentence for the first sentence through an additional proofreading operation for the third sentence.

이하에서, 컴퓨팅 장치(100)의 프로세서(110)가 제 2 문장을 문법 교정 모델에 입력하기 전에, 제 2 문장에 대한 전처리를 수행하는 과정에 대하여 구체적으로 설명한다.Hereinafter, a process in which the processor 110 of the computing device 100 performs pre-processing on the second sentence before inputting the second sentence into the grammar correction model will be described in detail.

도 5를 참조하면, 컴퓨팅 장치(100)의 프로세서(110)는 제 1 문장과 제 2 문장을 비교하여, 기계 번역 모델을 통한 번역 과정에서 소실된 숫자가 있는지 여부를 인식할 수 있다(S310).Referring to FIG. 5 , the processor 110 of the computing device 100 may compare the first sentence with the second sentence and recognize whether there is a number lost in the translation process through the machine translation model ( S310 ). .

구체적으로, 프로세서(110)는 제 1 문장과 제 2 문장 각각에 대한 숫자(digit)의 순서(sequence)를 이용하여, 소실된 숫자를 인식할 수 있다. 예를 들어, 프로세서(110)는 Number Detecting 함수(모든 문장의 letter 중 isdigit()인 부분만 골라내어 비교하는 함수)를 이용하여, 제 1 문장과 제 2 문장 각각에 포함된 숫자의 차이가 있는지를 확인하고, 숫자의 변동 여부에 따라 소실된 숫자를 인식할 수 있다. 예를 들어, 프로세서(110)는 기계 번역 모델을 통해 번역이 진행된 후, 제 1 문장에 포함된 '50%'가 제 2 문장에는 '*%'로 표기될 수 있다. 이 경우, 프로세서(110)는 %앞에 '50'이라는 숫자가 소실되었다고 인식할 수 있다.Specifically, the processor 110 may recognize the missing number by using a sequence of digits for each of the first sentence and the second sentence. For example, the processor 110 uses the Number Detecting function (a function that selects and compares only the isdigit() part of the letters of all sentences) to determine whether there is a difference between the numbers included in each of the first sentence and the second sentence. can be checked, and the lost number can be recognized according to whether the number has changed. For example, the processor 110 may indicate '50%' included in the first sentence as '*%' in the second sentence after the translation is performed through the machine translation model. In this case, the processor 110 may recognize that the number '50' in front of the % has been lost.

한편, 프로세서(110)는 제 2 문장에 소실된 숫자가 있다고 인식한 경우, 소실된 숫자를 제 2 문장의 말단에 추가할 수 있다(S320). 그리고, 프로세서(110)는 소실된 숫자가 문장의 말단에 추가된 제 2 문장을 문법 교정 모델에 입력하여 제 3 문장을 획득할 수 있다(S330).Meanwhile, when the processor 110 recognizes that there is a missing number in the second sentence, the processor 110 may add the missing number to the end of the second sentence ( S320 ). Then, the processor 110 may obtain the third sentence by inputting the second sentence in which the missing number is added to the end of the sentence into the grammar correction model (S330).

예를 들어, 제 1 문장이 '50% 확률로 실명이 2턴 간 적용됩니다.'이고, 제 2 문장이 'There is a *% chance that your real name is applied for 2 turns.'라고 가정하면, 프로세서(110)는 %앞에 '50'이라는 숫자가 소실되었다고 인식할 수 있다. 이 경우, 프로세서(110)는 제 2 문장에서 소실된 숫자인 '50'을 제 2 문장의 말단에 추가할 수 있다. 그리고, 프로세서(110)는 소실된 숫자가 문장의 말단에 추가된 제 2 문장인 'There is a *% chance that your real name is applied for 2 turns.50'을 문법 교정 모델에 입력하여, 제 3 문장인 'There is a 50% chance that your real name is applied for 2 turns.'를 획득할 수 있다. 다만, 이에 한정되는 것은 아니다.For example, if the first sentence is '50% chance that your real name is applied for 2 turns.' and the second sentence is 'There is a *% chance that your real name is applied for 2 turns.' The processor 110 may recognize that the number '50' in front of the % has been lost. In this case, the processor 110 may add '50', which is a number lost in the second sentence, to the end of the second sentence. Then, the processor 110 inputs 'There is a *% chance that your real name is applied for 2 turns.50', which is the second sentence in which the missing number is added to the end of the sentence, into the grammar correction model, and the third You can obtain the sentence 'There is a 50% chance that your real name is applied for 2 turns.' However, the present invention is not limited thereto.

일반적으로, 번역 과정에서 숫자가 소실되는 경우, 문장 내에서 소실된 숫자를 예측하는 것은 불가능에 가까울 수 있다. 따라서, 본 개시의 프로세서(110)는 소실된 숫자를 번역 과정에서 복원하여, 문장 내에 포함된 숫자 소실을 방지할 수 있다.In general, when a number is lost in a translation process, it may be nearly impossible to predict the missing number in a sentence. Accordingly, the processor 110 of the present disclosure restores the lost number in the translation process, thereby preventing the loss of the number included in the sentence.

도 6은 본 개시의 몇몇 실시예에 따른 번역 과정 각각의 예시를 설명하기 위한 도면이다.6 is a view for explaining an example of each of the translation process according to some embodiments of the present disclosure.

본 개시의 몇몇 실시예에 따르면, 컴퓨팅 장치(100)의 프로세서(110)는 기계 번역 모델에 제 1 문장을 입력하여, 번역된 제 2 문장을 획득할 수 있다. 또한, 프로세서(110)는 제 2 문장을 문법 교정 모델에 입력하여, 제 3 문장을 획득할 수 있다. 그리고, 프로세서(110)는 제 3 문장에 대한 추가 교정 작업을 통해 제 1 문장에 대한 최종 번역 문장인 제 4 문장을 획득할 수 있다.According to some embodiments of the present disclosure, the processor 110 of the computing device 100 may obtain a translated second sentence by inputting the first sentence into the machine translation model. Also, the processor 110 may obtain the third sentence by inputting the second sentence into the grammar correction model. In addition, the processor 110 may obtain a fourth sentence that is a final translated sentence for the first sentence through an additional proofreading operation for the third sentence.

이하에서, 도 6을 참조하여, 컴퓨팅 장치(100)가 '적군 1명에게 130% 물리 데미지를 입힙니다.\n50% 확률로 실명이 2턴 간 적용됩니다.'라는 문장을 번역하는 과정 각각의 예시를 설명한다. Hereinafter, referring to FIG. 6 , the computing device 100 'Inflicts 130% physical damage to one enemy. \n 50% chance to apply blindness for 2 turns.' Explain each example of the process of translating the sentence.

먼저, 컴퓨팅 장치(100)의 프로세서(110)는 '적군 1명에게 130% 물리 데미지를 입힙니다.\n50% 확률로 실명이 2턴 간 적용됩니다.'라는 번역 대상 문장(1)을 획득한 경우, 전처리 과정을 통해 번역 대상 문장에서 사전 설정된 텍스트 또는, 특수기호를 제거할 수 있다.First, the processor 110 of the computing device 100 'Inflicts 130% physical damage to one enemy. If you obtain a translation target sentence (1) saying \n 50% chance that your real name will be applied for 2 turns.

예를 들어, 프로세서(110)는 번역 대상 문장(1)에서 줄 바꿈 기호를 제거하고, 줄 바꿈 기호에 대한 위치 정보인 [27]를 메모리(130)에 저장할 수 있다. 여기서, 줄 바꿈 기호에 대한 위치 정보는 문자열 인덱스를 의미할 수 있다. 즉, 본 개시의 프로세서(110)는 번역 대상 문장(1)에서 27번째 문자열에 줄 바꿈 기호가 제거되었다고 기억할 수 있다.For example, the processor 110 may remove a line break symbol from the translation target sentence 1 and store [27], which is location information on the line break symbol, in the memory 130 . Here, the position information on the newline symbol may mean a string index. That is, the processor 110 of the present disclosure may remember that the newline symbol is removed from the 27th character string in the translation target sentence 1 .

프로세서(110)는 줄 바꿈 기호가 제거된 '적군 1명에게 130% 물리 데미지를 입힙니다.50% 확률로 실명이 2턴 간 적용됩니다.'라는 제 1 문장(2)을 획득할 수 있다. 프로세서(110)는 제 1 문장(2)을 기계 번역 모델에 입력하여, 'Deals % Physical Damage to 1 enemy.50% chance to Blind of target for 2 turns.'라는 제 2 문장(3)(즉, 번역문)을 획득할 수 있다. 여기서, 제 2 문장(3)은 % 앞에 '130'이라는 숫자가 소실된 상태다.The processor 110 can obtain the first sentence (2) with the line break symbol removed, 'Inflicts 130% physical damage to one enemy. There is a 50% chance that the blindness will be applied for 2 turns.' The processor 110 inputs the first sentence 2 into the machine translation model, and the second sentence 3 (ie, 'Deals % Physical Damage to 1 enemy.50% chance to Blind of target for 2 turns.') translation) can be obtained. Here, in the second sentence (3), the number '130' in front of % is lost.

한편, 프로세서(110)는 제 1 문장(2)과 제 2 문장(3)을 비교하여, 기계 번역 모델을 통한 번역 과정에서 소실된 숫자가 있는지 여부를 인식할 수 있다. 프로세서(110)는 소실된 숫자인 '130'을 제 2 문장(3)의 말단에 추가할 수 있다. 그리고, 소실된 숫자가 문장의 말단에 추가된 제 2 문장(4)을 문법 교정 모델에 입력하여 제 3 문장(5)을 획득할 수 있다. 여기서, 문법 교정 모델은 소실된 숫자인 '130'을 복원하고, 'of'를 'the'로 수정하여 문장 구조의 오류를 교정할 수 있다.Meanwhile, the processor 110 may compare the first sentence 2 and the second sentence 3 to recognize whether there is a number lost in the translation process through the machine translation model. The processor 110 may add the missing number '130' to the end of the second sentence 3 . Then, the third sentence 5 may be obtained by inputting the second sentence 4 in which the missing number is added to the end of the sentence into the grammar correction model. Here, the grammar correction model may correct an error in the sentence structure by restoring the lost number '130' and correcting 'of' to 'the'.

즉, 프로세서(110)는 문법 교정 모델이 출력하는 'Deals 130% Physical Damage to 1 enemy.50% chance to Blind the target for 2 turns.'라는 제 3 문장(5)을 획득할 수 있다.That is, the processor 110 may obtain the third sentence 5 'Deals 130% Physical Damage to 1 enemy.50% chance to Blind the target for 2 turns.' output by the grammar correction model.

그리고, 프로세서(110)는 제 3 문장(5)에 대한 추가 교정 작업을 통해 제 1 문장(2)에 대한 최종 번역 문장인 제 4 문장(6)을 획득할 수 있다.In addition, the processor 110 may acquire the fourth sentence 6 that is the final translation sentence for the first sentence 2 through an additional proofreading operation on the third sentence 5 .

예를 들어, 프로세서(110)는 문장이 끝나는 것과 관련된 문장 부호인 온점(.)의 뒤에 줄 바꿈 기호를 삽입하여, 제 4 문장인 'Deals 130% Physical Damage to 1 enemy.\n50% chance to Blind the target for 2 turns.'를 획득할 수 있다.For example, the processor 110 inserts a newline symbol after the dot (.), which is a punctuation mark related to the end of a sentence, and inserts a newline symbol after the fourth sentence, 'Deals 130% Physical Damage to 1 enemy. \n 50% chance to Blind the target for 2 turns.'

도 6의 설명은 본 개시의 전반적인 흐름의 이해를 돕기 위해, 특정 문장에 대한 번역 과정 각각을 설명하였으며, 본 개시는 도 6에 개시되는 실시예들에 한정되는 것은 아니다.The description of FIG. 6 describes each translation process for a specific sentence in order to help the understanding of the overall flow of the present disclosure, and the present disclosure is not limited to the embodiments disclosed in FIG. 6 .

도 7은 본 개시 내용의 실시예들이 구현될 수 있는 예시적인 컴퓨팅 환경에 대한 간략하고 일반적인 개략도를 도시한다.7 depicts a simplified, general schematic diagram of an exemplary computing environment in which embodiments of the present disclosure may be implemented.

본 개시가 일반적으로 하나 이상의 컴퓨터 상에서 실행될 수 있는 컴퓨터 실행가능 명령어와 관련하여 전술되었지만, 당업자라면 본 개시가 기타 프로그램 모듈들과 결합되어 및/또는 하드웨어와 소프트웨어의 조합으로 구현될 수 있다는 것을 잘 알 것이다.Although the present disclosure has been described above generally in the context of computer-executable instructions that may be executed on one or more computers, those skilled in the art will appreciate that the present disclosure may be implemented in combination with other program modules and/or in a combination of hardware and software. will be.

일반적으로, 본 명세서에서의 모듈은 특정의 태스크를 수행하거나 특정의 추상 데이터 유형을 구현하는 루틴, 프로시져, 프로그램, 컴포넌트, 데이터 구조, 기타 등등을 포함한다. 또한, 당업자라면 본 개시의 방법이 단일-프로세서 또는 멀티프로세서 컴퓨터 시스템, 미니컴퓨터, 메인프레임 컴퓨터는 물론 퍼스널 컴퓨터, 핸드헬드 컴퓨팅 장치, 마이크로프로세서-기반 또는 프로그램가능 가전 제품, 기타 등등(이들 각각은 하나 이상의 연관된 장치와 연결되어 동작할 수 있음)을 비롯한 다른 컴퓨터 시스템 구성으로 실시될 수 있다는 것을 잘 알 것이다.Generally, modules herein include routines, procedures, programs, components, data structures, etc. that perform particular tasks or implement particular abstract data types. In addition, those skilled in the art will appreciate that the methods of the present disclosure can be applied to single-processor or multiprocessor computer systems, minicomputers, mainframe computers as well as personal computers, handheld computing devices, microprocessor-based or programmable consumer electronics, etc. (each of which is It will be appreciated that other computer system configurations may be implemented, including those that may operate in connection with one or more associated devices.

본 개시의 설명된 실시예들은 또한 어떤 태스크들이 통신 네트워크를 통해 연결되어 있는 원격 처리 장치들에 의해 수행되는 분산 컴퓨팅 환경에서 실시될 수 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 로컬 및 원격 메모리 저장 장치 둘 다에 위치할 수 있다.The described embodiments of the present disclosure may also be practiced in distributed computing environments where certain tasks are performed by remote processing devices that are linked through a communications network. In a distributed computing environment, program modules may be located in both local and remote memory storage devices.

컴퓨터는 통상적으로 다양한 컴퓨터 판독가능 매체를 포함한다. 컴퓨터에 의해 액세스 가능한 매체는 그 어떤 것이든지 컴퓨터 판독가능 매체가 될 수 있고, 이러한 컴퓨터 판독가능 매체는 휘발성 및 비휘발성 매체, 일시적(transitory) 및 비일시적(non-transitory) 매체, 이동식 및 비-이동식 매체를 포함한다. 제한이 아닌 예로서, 컴퓨터 판독가능 매체는 컴퓨터 판독가능 저장 매체 및 컴퓨터 판독가능 전송 매체를 포함할 수 있다. Computers typically include a variety of computer-readable media. Any medium accessible by a computer can be a computer-readable medium, and such computer-readable media includes volatile and nonvolatile media, transitory and non-transitory media, removable and non-transitory media. including removable media. By way of example, and not limitation, computer-readable media may include computer-readable storage media and computer-readable transmission media.

컴퓨터 판독가능 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보를 저장하는 임의의 방법 또는 기술로 구현되는 휘발성 및 비휘발성 매체, 일시적 및 비-일시적 매체, 이동식 및 비이동식 매체를 포함한다. 컴퓨터 판독가능 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 기타 메모리 기술, CD-ROM, DVD(digital video disk) 또는 기타 광 디스크 저장 장치, 자기 카세트, 자기 테이프, 자기 디스크 저장 장치 또는 기타 자기 저장 장치, 또는 컴퓨터에 의해 액세스될 수 있고 원하는 정보를 저장하는 데 사용될 수 있는 임의의 기타 매체를 포함하지만, 이에 한정되지 않는다.Computer readable storage media includes volatile and nonvolatile media, temporary and non-transitory media, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data. includes media. A computer-readable storage medium may be RAM, ROM, EEPROM, flash memory or other memory technology, CD-ROM, digital video disk (DVD) or other optical disk storage device, magnetic cassette, magnetic tape, magnetic disk storage device, or other magnetic storage device. device, or any other medium that can be accessed by a computer and used to store the desired information.

컴퓨터 판독가능 전송 매체는 통상적으로 반송파(carrier wave) 또는 기타 전송 메커니즘(transport mechanism)과 같은 피변조 데이터 신호(modulated data signal)에 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터등을 구현하고 모든 정보 전달 매체를 포함한다. 피변조 데이터 신호라는 용어는 신호 내에 정보를 인코딩하도록 그 신호의 특성들 중 하나 이상을 설정 또는 변경시킨 신호를 의미한다. 제한이 아닌 예로서, 컴퓨터 판독가능 전송 매체는 유선 네트워크 또는 직접 배선 접속(direct-wired connection)과 같은 유선 매체, 그리고 음향, RF, 적외선, 기타 무선 매체와 같은 무선 매체를 포함한다. 상술된 매체들 중 임의의 것의 조합도 역시 컴퓨터 판독가능 전송 매체의 범위 안에 포함되는 것으로 한다.A computer readable transmission medium typically embodies computer readable instructions, data structures, program modules or other data in a modulated data signal, such as a carrier wave or other transport mechanism, and the like. Includes all information delivery media. The term modulated data signal means a signal in which one or more of the characteristics of the signal is set or changed so as to encode information in the signal. By way of example, and not limitation, computer-readable transmission media includes wired media such as a wired network or direct-wired connection, and wireless media such as acoustic, RF, infrared, and other wireless media. Combinations of any of the above are also intended to be included within the scope of computer-readable transmission media.

컴퓨터(1102)를 포함하는 본 개시의 여러가지 측면들을 구현하는 예시적인 환경(1100)이 나타내어져 있으며, 컴퓨터(1102)는 처리 장치(1104), 시스템 메모리(1106) 및 시스템 버스(1108)를 포함한다. 시스템 버스(1108)는 시스템 메모리(1106)(이에 한정되지 않음)를 비롯한 시스템 컴포넌트들을 처리 장치(1104)에 연결시킨다. 처리 장치(1104)는 다양한 상용 프로세서들 중 임의의 프로세서일 수 있다. 듀얼 프로세서 및 기타 멀티프로세서 아키텍처도 역시 처리 장치(1104)로서 이용될 수 있다.An example environment 1100 implementing various aspects of the disclosure is shown including a computer 1102 , the computer 1102 including a processing unit 1104 , a system memory 1106 , and a system bus 1108 . do. A system bus 1108 couples system components, including but not limited to system memory 1106 , to the processing device 1104 . The processing device 1104 may be any of a variety of commercially available processors. Dual processor and other multiprocessor architectures may also be used as processing unit 1104 .

시스템 버스(1108)는 메모리 버스, 주변장치 버스, 및 다양한 상용 버스 아키텍처 중 임의의 것을 사용하는 로컬 버스에 추가적으로 상호 연결될 수 있는 몇가지 유형의 버스 구조 중 임의의 것일 수 있다. 시스템 메모리(1106)는 판독 전용 메모리(ROM)(1110) 및 랜덤 액세스 메모리(RAM)(1112)를 포함한다. 기본 입/출력 시스템(BIOS)은 ROM, EPROM, EEPROM 등의 비휘발성 메모리(1110)에 저장되며, 이 BIOS는 시동 중과 같은 때에 컴퓨터(1102) 내의 구성요소들 간에 정보를 전송하는 일을 돕는 기본적인 루틴을 포함한다. RAM(1112)은 또한 데이터를 캐싱하기 위한 정적 RAM 등의 고속 RAM을 포함할 수 있다.The system bus 1108 may be any of several types of bus structures that may be further interconnected to a memory bus, a peripheral bus, and a local bus using any of a variety of commercial bus architectures. System memory 1106 includes read only memory (ROM) 1110 and random access memory (RAM) 1112 . A basic input/output system (BIOS) is stored in non-volatile memory 1110, such as ROM, EPROM, EEPROM, etc., the BIOS is the basic input/output system (BIOS) that helps transfer information between components within computer 1102, such as during startup. contains routines. RAM 1112 may also include high-speed RAM, such as static RAM, for caching data.

컴퓨터(1102)는 또한 내장형 하드 디스크 드라이브(HDD)(1114)(예를 들어, EIDE, SATA)―이 내장형 하드 디스크 드라이브(1114)는 또한 적당한 섀시(도시 생략) 내에서 외장형 용도로 구성될 수 있음―, 자기 플로피 디스크 드라이브(FDD)(1116)(예를 들어, 이동식 디스켓(1118)으로부터 판독을 하거나 그에 기록을 하기 위한 것임), 및 광 디스크 드라이브(1120)(예를 들어, CD-ROM 디스크(1122)를 판독하거나 DVD 등의 기타 고용량 광 매체로부터 판독을 하거나 그에 기록을 하기 위한 것임)를 포함한다. 하드 디스크 드라이브(1114), 자기 디스크 드라이브(1116) 및 광 디스크 드라이브(1120)는 각각 하드 디스크 드라이브 인터페이스(1124), 자기 디스크 드라이브 인터페이스(1126) 및 광 드라이브 인터페이스(1128)에 의해 시스템 버스(1108)에 연결될 수 있다. 외장형 드라이브 구현을 위한 인터페이스(1124)는 예를 들어, USB(Universal Serial Bus) 및 IEEE 1394 인터페이스 기술 중 적어도 하나 또는 그 둘다를 포함한다.The computer 1102 may also include an internal hard disk drive (HDD) 1114 (eg, EIDE, SATA) - this internal hard disk drive 1114 may also be configured for external use within a suitable chassis (not shown). Yes—a magnetic floppy disk drive (FDD) 1116 (eg, for reading from or writing to removable diskette 1118), and an optical disk drive 1120 (eg, a CD-ROM) for reading from, or writing to, disk 1122, or other high capacity optical media, such as DVD. The hard disk drive 1114 , the magnetic disk drive 1116 , and the optical disk drive 1120 are connected to the system bus 1108 by the hard disk drive interface 1124 , the magnetic disk drive interface 1126 , and the optical drive interface 1128 , respectively. ) can be connected to Interface 1124 for external drive implementation includes, for example, at least one or both of Universal Serial Bus (USB) and IEEE 1394 interface technologies.

이들 드라이브 및 그와 연관된 컴퓨터 판독가능 매체는 데이터, 데이터 구조, 컴퓨터 실행가능 명령어, 기타 등등의 비휘발성 저장을 제공한다. 컴퓨터(1102)의 경우, 드라이브 및 매체는 임의의 데이터를 적당한 디지털 형식으로 저장하는 것에 대응한다. 상기에서의 컴퓨터 판독가능 저장 매체에 대한 설명이 HDD, 이동식 자기 디스크, 및 CD 또는 DVD 등의 이동식 광 매체를 언급하고 있지만, 당업자라면 집 드라이브(zip drive), 자기 카세트, 플래쉬 메모리 카드, 카트리지, 기타 등등의 컴퓨터에 의해 판독가능한 다른 유형의 저장 매체도 역시 예시적인 운영 환경에서 사용될 수 있으며 또 임의의 이러한 매체가 본 개시의 방법들을 수행하기 위한 컴퓨터 실행가능 명령어를 포함할 수 있다는 것을 잘 알 것이다.These drives and their associated computer-readable media provide non-volatile storage of data, data structures, computer-executable instructions, and the like. In the case of computer 1102, drives and media correspond to storing any data in a suitable digital format. Although the description of computer-readable storage media above refers to HDDs, removable magnetic disks, and removable optical media such as CDs or DVDs, those skilled in the art will use zip drives, magnetic cassettes, flash memory cards, cartridges, It will be appreciated that other tangible computer-readable storage media and the like may also be used in the exemplary operating environment and any such media may include computer-executable instructions for performing the methods of the present disclosure. .

운영 체제(1130), 하나 이상의 애플리케이션 프로그램(1132), 기타 프로그램 모듈(1134) 및 프로그램 데이터(1136)를 비롯한 다수의 프로그램 모듈이 드라이브 및 RAM(1112)에 저장될 수 있다. 운영 체제, 애플리케이션, 모듈 및/또는 데이터의 전부 또는 그 일부분이 또한 RAM(1112)에 캐싱될 수 있다. 본 개시가 여러가지 상업적으로 이용가능한 운영 체제 또는 운영 체제들의 조합에서 구현될 수 있다는 것을 잘 알 것이다.A number of program modules may be stored in the drive and RAM 1112 , including an operating system 1130 , one or more application programs 1132 , other program modules 1134 , and program data 1136 . All or portions of the operating system, applications, modules, and/or data may also be cached in RAM 1112 . It will be appreciated that the present disclosure may be implemented in various commercially available operating systems or combinations of operating systems.

사용자는 하나 이상의 유선/무선 입력 장치, 예를 들어, 키보드(1138) 및 마우스(1140) 등의 포인팅 장치를 통해 컴퓨터(1102)에 명령 및 정보를 입력할 수 있다. 기타 입력 장치(도시 생략)로는 마이크, IR 리모콘, 조이스틱, 게임 패드, 스타일러스 펜, 터치 스크린, 기타 등등이 있을 수 있다. 이들 및 기타 입력 장치가 종종 시스템 버스(1108)에 연결되어 있는 입력 장치 인터페이스(1142)를 통해 처리 장치(1104)에 연결되지만, 병렬 포트, IEEE 1394 직렬 포트, 게임 포트, USB 포트, IR 인터페이스, 기타 등등의 기타 인터페이스에 의해 연결될 수 있다.A user may enter commands and information into the computer 1102 via one or more wired/wireless input devices, for example, a pointing device such as a keyboard 1138 and a mouse 1140 . Other input devices (not shown) may include a microphone, IR remote control, joystick, game pad, stylus pen, touch screen, and the like. Although these and other input devices are connected to the processing unit 1104 through an input device interface 1142 that is often connected to the system bus 1108, parallel ports, IEEE 1394 serial ports, game ports, USB ports, IR interfaces, It may be connected by other interfaces, etc.

모니터(1144) 또는 다른 유형의 디스플레이 장치도 역시 비디오 어댑터(1146) 등의 인터페이스를 통해 시스템 버스(1108)에 연결된다. 모니터(1144)에 부가하여, 컴퓨터는 일반적으로 스피커, 프린터, 기타 등등의 기타 주변 출력 장치(도시 생략)를 포함한다.A monitor 1144 or other type of display device is also coupled to the system bus 1108 via an interface, such as a video adapter 1146 . In addition to the monitor 1144, the computer typically includes other peripheral output devices (not shown), such as speakers, printers, and the like.

컴퓨터(1102)는 유선 및/또는 무선 통신을 통한 원격 컴퓨터(들)(1148) 등의 하나 이상의 원격 컴퓨터로의 논리적 연결을 사용하여 네트워크화된 환경에서 동작할 수 있다. 원격 컴퓨터(들)(1148)는 워크스테이션, 서버 컴퓨터, 라우터, 퍼스널 컴퓨터, 휴대용 컴퓨터, 마이크로프로세서-기반 오락 기기, 피어 장치 또는 기타 통상의 네트워크 노드일 수 있으며, 일반적으로 컴퓨터(1102)에 대해 기술된 구성요소들 중 다수 또는 그 전부를 포함하지만, 간략함을 위해, 메모리 저장 장치(1150)만이 도시되어 있다. 도시되어 있는 논리적 연결은 근거리 통신망(LAN)(1152) 및/또는 더 큰 네트워크, 예를 들어, 원거리 통신망(WAN)(1154)에의 유선/무선 연결을 포함한다. 이러한 LAN 및 WAN 네트워킹 환경은 사무실 및 회사에서 일반적인 것이며, 인트라넷 등의 전사적 컴퓨터 네트워크(enterprise-wide computer network)를 용이하게 해주며, 이들 모두는 전세계 컴퓨터 네트워크, 예를 들어, 인터넷에 연결될 수 있다.Computer 1102 may operate in a networked environment using logical connections to one or more remote computers, such as remote computer(s) 1148 via wired and/or wireless communications. Remote computer(s) 1148 may be workstations, server computers, routers, personal computers, portable computers, microprocessor-based entertainment devices, peer devices, or other common network nodes, and are generally Although including many or all of the components described, only memory storage device 1150 is shown for simplicity. The logical connections shown include wired/wireless connections to a local area network (LAN) 1152 and/or a larger network, eg, a wide area network (WAN) 1154 . Such LAN and WAN networking environments are common in offices and companies, and facilitate enterprise-wide computer networks, such as intranets, all of which can be connected to a worldwide computer network, for example, the Internet.

LAN 네트워킹 환경에서 사용될 때, 컴퓨터(1102)는 유선 및/또는 무선 통신 네트워크 인터페이스 또는 어댑터(1156)를 통해 로컬 네트워크(1152)에 연결된다. 어댑터(1156)는 LAN(1152)에의 유선 또는 무선 통신을 용이하게 해줄 수 있으며, 이 LAN(1152)은 또한 무선 어댑터(1156)와 통신하기 위해 그에 설치되어 있는 무선 액세스 포인트를 포함하고 있다. WAN 네트워킹 환경에서 사용될 때, 컴퓨터(1102)는 모뎀(1158)을 포함할 수 있거나, WAN(1154) 상의 통신 서버에 연결되거나, 또는 인터넷을 통하는 등, WAN(1154)을 통해 통신을 설정하는 기타 수단을 갖는다. 내장형 또는 외장형 및 유선 또는 무선 장치일 수 있는 모뎀(1158)은 직렬 포트 인터페이스(1142)를 통해 시스템 버스(1108)에 연결된다. 네트워크화된 환경에서, 컴퓨터(1102)에 대해 설명된 프로그램 모듈들 또는 그의 일부분이 원격 메모리/저장 장치(1150)에 저장될 수 있다. 도시된 네트워크 연결이 예시적인 것이며 컴퓨터들 사이에 통신 링크를 설정하는 기타 수단이 사용될 수 있다는 것을 잘 알 것이다.When used in a LAN networking environment, the computer 1102 is coupled to the local network 1152 through a wired and/or wireless communication network interface or adapter 1156 . Adapter 1156 may facilitate wired or wireless communication to LAN 1152 , which LAN 1152 also includes a wireless access point installed therein for communicating with wireless adapter 1156 . When used in a WAN networking environment, the computer 1102 may include a modem 1158 , connected to a communication server on the WAN 1154 , or otherwise establishing communications over the WAN 1154 , such as over the Internet. have the means A modem 1158 , which may be internal or external and a wired or wireless device, is coupled to the system bus 1108 via a serial port interface 1142 . In a networked environment, program modules described for computer 1102 , or portions thereof, may be stored in remote memory/storage device 1150 . It will be appreciated that the network connections shown are exemplary and other means of establishing a communication link between the computers may be used.

컴퓨터(1102)는 무선 통신으로 배치되어 동작하는 임의의 무선 장치 또는 개체, 예를 들어, 프린터, 스캐너, 데스크톱 및/또는 휴대용 컴퓨터, PDA(portable data assistant), 통신 위성, 무선 검출가능 태그와 연관된 임의의 장비 또는 장소, 및 전화와 통신을 하는 동작을 한다. 이것은 적어도 Wi-Fi 및 블루투스 무선 기술을 포함한다. 따라서, 통신은 종래의 네트워크에서와 같이 미리 정의된 구조이거나 단순하게 적어도 2개의 장치 사이의 애드혹 통신(ad hoc communication)일 수 있다.The computer 1102 may be associated with any wireless device or object that is deployed and operates in wireless communication, for example, a printer, scanner, desktop and/or portable computer, portable data assistant (PDA), communication satellite, wireless detectable tag. It operates to communicate with any device or place, and phone. This includes at least Wi-Fi and Bluetooth wireless technologies. Accordingly, the communication may be a predefined structure as in a conventional network or may simply be an ad hoc communication between at least two devices.

Wi-Fi(Wireless Fidelity)는 유선 없이도 인터넷 등으로의 연결을 가능하게 해준다. Wi-Fi는 이러한 장치, 예를 들어, 컴퓨터가 실내에서 및 실외에서, 즉 기지국의 통화권 내의 아무 곳에서나 데이터를 전송 및 수신할 수 있게 해주는 셀 전화와 같은 무선 기술이다. Wi-Fi 네트워크는 안전하고 신뢰성 있으며 고속인 무선 연결을 제공하기 위해 IEEE 802.11(a,b,g, 기타)이라고 하는 무선 기술을 사용한다. 컴퓨터를 서로에, 인터넷에 및 유선 네트워크(IEEE 802.3 또는 이더넷을 사용함)에 연결시키기 위해 Wi-Fi가 사용될 수 있다. Wi-Fi 네트워크는 비인가 2.4 및 5 GHz 무선 대역에서, 예를 들어, 11Mbps(802.11a) 또는 54 Mbps(802.11b) 데이터 레이트로 동작하거나, 양 대역(듀얼 대역)을 포함하는 제품에서 동작할 수 있다.Wi-Fi (Wireless Fidelity) makes it possible to connect to the Internet, etc. without a wired connection. Wi-Fi is a wireless technology such as cell phones that allows these devices, eg, computers, to transmit and receive data indoors and outdoors, ie anywhere within range of a base station. Wi-Fi networks use a radio technology called IEEE 802.11 (a, b, g, etc.) to provide secure, reliable, and high-speed wireless connections. Wi-Fi can be used to connect computers to each other, to the Internet, and to wired networks (using IEEE 802.3 or Ethernet). Wi-Fi networks may operate in unlicensed 2.4 and 5 GHz radio bands, for example, at 11 Mbps (802.11a) or 54 Mbps (802.11b) data rates, or in products that include both bands (dual band). have.

본 개시의 기술 분야에서 통상의 지식을 가진 자는 여기에 개시된 실시예들과 관련하여 설명된 다양한 예시적인 논리 블록들, 모듈들, 프로세서들, 수단들, 회로들 및 알고리즘 단계들이 전자 하드웨어, (편의를 위해, 여기에서 "소프트웨어"로 지칭되는) 다양한 형태들의 프로그램 또는 설계 코드 또는 이들 모두의 결합에 의해 구현될 수 있다는 것을 이해할 것이다. 하드웨어 및 소프트웨어의 이러한 상호 호환성을 명확하게 설명하기 위해, 다양한 예시적인 컴포넌트들, 블록들, 모듈들, 회로들 및 단계들이 이들의 기능과 관련하여 위에서 일반적으로 설명되었다. 이러한 기능이 하드웨어 또는 소프트웨어로서 구현되는지 여부는 특정한 애플리케이션 및 전체 시스템에 대하여 부과되는 설계 제약들에 따라 좌우된다. 본 개시의 기술 분야에서 통상의 지식을 가진 자는 각각의 특정한 애플리케이션에 대하여 다양한 방식들로 설명된 기능을 구현할 수 있으나, 이러한 구현 결정들은 본 개시의 범위를 벗어나는 것으로 해석되어서는 안 될 것이다.Those of ordinary skill in the art of the present disclosure will recognize that the various illustrative logical blocks, modules, processors, means, circuits, and algorithm steps described in connection with the embodiments disclosed herein include electronic hardware, (convenience For this purpose, it will be understood that it may be implemented by various forms of program or design code (referred to herein as "software") or a combination of both. To clearly illustrate this interchangeability of hardware and software, various illustrative components, blocks, modules, circuits, and steps have been described above generally in terms of their functionality. Whether such functionality is implemented as hardware or software depends upon the particular application and design constraints imposed on the overall system. A person skilled in the art of the present disclosure may implement the described functionality in various ways for each specific application, but such implementation decisions should not be interpreted as a departure from the scope of the present disclosure.

여기서 제시된 다양한 실시예들은 방법, 장치, 또는 표준 프로그래밍 및/또는 엔지니어링 기술을 사용한 제조 물품(article)으로 구현될 수 있다. 용어 "제조 물품"은 임의의 컴퓨터-판독가능 장치로부터 액세스 가능한 컴퓨터 프로그램, 캐리어, 또는 매체(media)를 포함한다. 예를 들어, 컴퓨터-판독가능 저장 매체는 자기 저장 장치(예를 들면, 하드 디스크, 플로피 디스크, 자기 스트립, 등), 광학 디스크(예를 들면, CD, DVD, 등), 스마트 카드, 및 플래쉬 메모리 장치(예를 들면, EEPROM, 카드, 스틱, 키 드라이브, 등)를 포함하지만, 이들로 제한되는 것은 아니다. 용어 "기계-판독가능 매체"는 명령(들) 및/또는 데이터를 저장, 보유, 및/또는 전달할 수 있는 무선 채널 및 다양한 다른 매체를 포함하지만, 이들로 제한되는 것은 아니다. The various embodiments presented herein may be implemented as methods, apparatus, or articles of manufacture using standard programming and/or engineering techniques. The term “article of manufacture” includes a computer program, carrier, or media accessible from any computer-readable device. For example, computer-readable storage media include magnetic storage devices (eg, hard disks, floppy disks, magnetic strips, etc.), optical disks (eg, CDs, DVDs, etc.), smart cards, and flash drives. memory devices (eg, EEPROMs, cards, sticks, key drives, etc.). The term “machine-readable medium” includes, but is not limited to, wireless channels and various other media that can store, hold, and/or convey instruction(s) and/or data.

제시된 프로세스들에 있는 단계들의 특정한 순서 또는 계층 구조는 예시적인 접근들의 일례임을 이해하도록 한다. 설계 우선순위들에 기반하여, 본 개시의 범위 내에서 프로세스들에 있는 단계들의 특정한 순서 또는 계층 구조가 재배열될 수 있다는 것을 이해하도록 한다. 첨부된 방법 청구항들은 샘플 순서로 다양한 단계들의 엘리먼트들을 제공하지만 제시된 특정한 순서 또는 계층 구조에 한정되는 것을 의미하지는 않는다.It is understood that the specific order or hierarchy of steps in the presented processes is an example of exemplary approaches. Based on design priorities, it is understood that the specific order or hierarchy of steps in the processes may be rearranged within the scope of the present disclosure. The appended method claims present elements of the various steps in a sample order, but are not meant to be limited to the specific order or hierarchy presented.

제시된 실시예들에 대한 설명은 임의의 본 개시의 기술 분야에서 통상의 지식을 가진 자가 본 개시를 이용하거나 또는 실시할 수 있도록 제공된다. 이러한 실시예들에 대한 다양한 변형들은 본 개시의 기술 분야에서 통상의 지식을 가진 자에게 명백할 것이며, 여기에 정의된 일반적인 원리들은 본 개시의 범위를 벗어남이 없이 다른 실시예들에 적용될 수 있다. 그리하여, 본 개시는 여기에 제시된 실시예들로 한정되는 것이 아니라, 여기에 제시된 원리들 및 신규한 특징들과 일관되는 최광의의 범위에서 해석되어야 할 것이다.The description of the presented embodiments is provided to enable any person skilled in the art to make or use the present disclosure. Various modifications to these embodiments will be readily apparent to those skilled in the art, and the generic principles defined herein may be applied to other embodiments without departing from the scope of the present disclosure. Thus, the present disclosure is not intended to be limited to the embodiments presented herein, but is to be construed in the widest scope consistent with the principles and novel features presented herein.

Claims (11)

컴퓨팅 장치의 프로세서가 번역하는 방법에 있어서,
출발 문장 데이터 및 도착 문장 데이터 쌍으로 이루어진 페어 데이터(pair data)를 이용하여 학습된 기계 번역 모델에 제 1 문장을 입력하여, 번역된 제 2 문장을 획득하는 단계;
비문 데이터와 상기 비문 데이터에 라벨링된 평문 데이터로 구성된 학습용 데이터셋을 이용하여 학습된 문법 교정 모델에 상기 제 2 문장을 입력하여, 교정된 제 3 문장을 획득하는 단계; 및
사전 설정된 룰을 이용하여, 상기 제 3 문장에 대한 추가 교정 작업을 통해 상기 제 1 문장에 대한 최종 번역 문장인 제 4 문장을 획득하는 단계;
를 포함하는,
번역 방법.
A method for a processor of a computing device to translate, comprising:
obtaining a translated second sentence by inputting a first sentence into a machine translation model learned using pair data consisting of a pair of departure sentence data and arrival sentence data;
obtaining a corrected third sentence by inputting the second sentence into a grammar correction model learned using a learning dataset composed of inscription data and plaintext data labeled with the inscription data; and
obtaining a fourth sentence that is a final translated sentence for the first sentence through an additional proofing operation on the third sentence using a preset rule;
containing,
How to translate.
제 1 항에 있어서,
상기 제 1 문장은,
전처리 과정을 통해 번역 대상 문장에서 사전 설정된 텍스트 또는, 특수기호를 제거한 문장인,
번역 방법.
The method of claim 1,
The first sentence is
Pre-set text or special symbols removed from the text to be translated through the pre-processing process,
How to translate.
제 1 항에 있어서,
상기 출발 문장 데이터는,
전처리 과정을 통해 제 1 언어로 작성된 출발 문장의 앞에 도착 문장의 제 2 언어의 종류를 나타내는 라벨이 추가된 데이터이고,
상기 도착 문장 데이터는,
상기 전처리 과정을 통해 상기 제 2 언어로 작성된 상기 도착 문장의 앞에 상기 제 1 언어의 종류를 나타내는 라벨이 추가된 데이터인,
번역 방법.
The method of claim 1,
The starting sentence data is,
It is data in which a label indicating the type of the second language of the arrival sentence is added to the front of the departure sentence written in the first language through the preprocessing process,
The arrival sentence data is
Data in which a label indicating the type of the first language is added in front of the arrival sentence written in the second language through the preprocessing process,
How to translate.
제 1 항에 있어서,
상기 비문 데이터는,
관사 오류, 전치사 오류, 숫자의 위치 오류, 문장 구조 오류 또는 띄어쓰기 오류 중 적어도 하나를 포함하는 문장 데이터이고,
상기 평문 데이터는,
상기 비문 데이터에 포함된 오류가 교정된 문장 데이터인,
번역 방법.
The method of claim 1,
The inscription data is
It is sentence data including at least one of an article error, a preposition error, a position error of a number, a sentence structure error, or a space error,
The plaintext data is
Sentence data in which errors included in the inscription data are corrected,
How to translate.
제 1 항에 있어서,
상기 비문 데이터와 상기 비문 데이터에 라벨링된 평문 데이터로 구성된 학습용 데이터셋을 이용하여 학습된 문법 교정 모델에 상기 제 2 문장을 입력하여, 교정된 제 3 문장을 획득하는 단계는,
상기 제 2 문장에 줄 바꿈 기호가 존재하는 경우, 상기 줄 바꿈 기호를 제거하고, 상기 줄 바꿈 기호의 위치 정보를 메모리에 저장하는 단계; 및
상기 줄 바꿈 기호가 제거된 상기 제 2 문장을 상기 문법 교정 모델에 입력하여 상기 제 3 문장을 획득하는 단계;
를 포함하는,
번역 방법.
The method of claim 1,
The step of obtaining a corrected third sentence by inputting the second sentence into a grammar correction model learned using a learning dataset consisting of the inscription data and the plaintext data labeled in the inscription data includes:
removing the line break symbol when the line break symbol is present in the second sentence, and storing location information of the line break symbol in a memory; and
obtaining the third sentence by inputting the second sentence from which the newline symbol is removed into the grammar correction model;
containing,
How to translate.
제 5 항에 있어서,
상기 사전 설정된 룰을 이용하여, 상기 제 3 문장에 대한 추가 교정 작업을 통해 상기 제 1 문장에 대한 최종 번역 문장인 제 4 문장을 획득하는 단계는,
상기 줄 바꿈 기호의 위치 정보를 이용하여, 상기 제 3 문장에서 상기 줄 바꿈 기호의 삽입 위치가 단어 내부에 존재하는지 여부를 인식하는 단계; 및
상기 삽입 위치가 단어 내부에 존재한다고 인식한 경우, 상기 단어의 앞에 상기 줄 바꿈 기호를 삽입하여, 상기 제 4 문장을 획득하는 단계;
를 포함하는,
번역 방법.
6. The method of claim 5,
Using the preset rule, obtaining a fourth sentence that is a final translated sentence for the first sentence through additional proofreading for the third sentence includes:
recognizing whether the insertion position of the newline symbol in the third sentence exists within a word by using the position information of the newline symbol; and
when it is recognized that the insertion position exists within the word, inserting the newline symbol in front of the word to obtain the fourth sentence;
containing,
How to translate.
제 1 항에 있어서,
상기 비문 데이터와 상기 비문 데이터에 라벨링된 평문 데이터로 구성된 학습용 데이터셋을 이용하여 학습된 문법 교정 모델에 상기 제 2 문장을 입력하여, 교정된 제 3 문장을 획득하는 단계는,
상기 제 1 문장과 상기 제 2 문장을 비교하여, 상기 기계 번역 모델을 통한 번역 과정에서 소실된 숫자가 있는지 여부를 인식하는 단계;
상기 소실된 숫자가 있다고 인식한 경우, 상기 소실된 숫자를 상기 제 2 문장의 말단에 추가하는 단계; 및
상기 소실된 숫자가 문장의 말단에 추가된 상기 제 2 문장을 상기 문법 교정 모델에 입력하여 상기 제 3 문장을 획득하는 단계;
를 포함하는,
번역 방법.
The method of claim 1,
The step of obtaining a corrected third sentence by inputting the second sentence into a grammar correction model learned using a learning dataset consisting of the inscription data and the plaintext data labeled in the inscription data includes:
comparing the first sentence with the second sentence, and recognizing whether there is a number lost in a translation process through the machine translation model;
adding the missing number to the end of the second sentence when it is recognized that there is the missing number; and
obtaining the third sentence by inputting the second sentence in which the missing number is added to the end of the sentence into the grammar correction model;
containing,
How to translate.
제 7 항에 있어서,
상기 소실된 숫자가 추가된 상기 제 2 문장을 상기 문법 교정 모델에 입력하여 상기 제 3 문장을 획득하는 단계는,
상기 문법 교정 모델로부터 상기 소실된 숫자가 적합한 위치에 복원된 상기 제 3 문장을 획득하는 단계;
를 포함하는,
번역 방법.
8. The method of claim 7,
The step of obtaining the third sentence by inputting the second sentence to which the missing number is added to the grammar correction model includes:
obtaining the third sentence in which the lost number is restored to an appropriate position from the grammar correction model;
containing,
How to translate.
제 1 항에 있어서,
상기 사전 설정된 룰을 이용하여, 상기 제 3 문장에 대한 추가 교정 작업을 통해 상기 제 1 문장에 대한 최종 번역 문장인 제 4 문장을 획득하는 단계는,
상기 제 3 문장에 포함된 문장 부호 중 문장이 끝나는 것과 관련된 문장 부호 뒤에 줄 바꿈 기호를 삽입하여, 상기 제 4 문장을 획득하는 단계;
를 포함하는,
번역 방법.
The method of claim 1,
Using the preset rule, obtaining a fourth sentence that is a final translated sentence for the first sentence through an additional proofreading operation for the third sentence includes:
obtaining the fourth sentence by inserting a line break symbol after a punctuation mark related to an end of a sentence among punctuation marks included in the third sentence;
containing,
How to translate.
제 1 항에 있어서,
상기 사전 설정된 룰을 이용하여, 상기 제 3 문장에 대한 추가 교정 작업을 통해 상기 제 1 문장에 대한 최종 번역 문장인 제 4 문장을 획득하는 단계는,
상기 사전 설정된 룰에 기초하여, 상기 제 3 문장에 띄어쓰기를 추가하여, 상기 제 4 문장을 획득하는 단계;
를 포함하는,
번역 방법.
The method of claim 1,
Using the preset rule, obtaining a fourth sentence that is a final translated sentence for the first sentence through additional proofreading for the third sentence includes:
obtaining the fourth sentence by adding a space to the third sentence based on the preset rule;
containing,
How to translate.
컴퓨터 판독가능 저장 매체 저장된 컴퓨터 프로그램으로서,
상기 컴퓨터 프로그램은 컴퓨팅 장치의 프로세서로 하여금 이하의 단계들을 수행하기 위한 명령들을 포함하며, 상기 단계들은:
출발 문장 데이터 및 도착 문장 데이터 쌍으로 이루어진 페어 데이터(pair data)를 이용하여 학습된 기계 번역 모델에 제 1 문장을 입력하여, 번역된 제 2 문장을 획득하는 단계;
비문 데이터와 상기 비문 데이터에 라벨링된 평문 데이터로 구성된 학습용 데이터셋을 이용하여 학습된 문법 교정 모델에 상기 제 2 문장을 입력하여, 교정된 제 3 문장을 획득하는 단계; 및
사전 설정된 룰을 이용하여, 상기 제 3 문장에 대한 추가 교정 작업을 통해 상기 제 1 문장에 대한 최종 번역 문장인 제 4 문장을 획득하는 단계;
를 포함하는,
컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램.
A computer program stored in a computer readable storage medium, comprising:
The computer program includes instructions for causing a processor of a computing device to perform the following steps:
obtaining a translated second sentence by inputting a first sentence into a machine translation model learned using pair data consisting of a pair of departure sentence data and arrival sentence data;
obtaining a corrected third sentence by inputting the second sentence into a grammar correction model learned using a learning dataset composed of inscription data and plaintext data labeled with the inscription data; and
obtaining a fourth sentence that is a final translated sentence for the first sentence through additional proofreading for the third sentence using a preset rule;
containing,
A computer program stored on a computer-readable storage medium.
KR1020200153994A 2020-11-17 2020-11-17 Translation method KR102446404B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020200153994A KR102446404B1 (en) 2020-11-17 2020-11-17 Translation method
KR1020220117992A KR102466164B1 (en) 2020-11-17 2022-09-19 Translation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200153994A KR102446404B1 (en) 2020-11-17 2020-11-17 Translation method

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020220117992A Division KR102466164B1 (en) 2020-11-17 2022-09-19 Translation method

Publications (2)

Publication Number Publication Date
KR20220067371A true KR20220067371A (en) 2022-05-24
KR102446404B1 KR102446404B1 (en) 2022-09-21

Family

ID=81807427

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020200153994A KR102446404B1 (en) 2020-11-17 2020-11-17 Translation method
KR1020220117992A KR102466164B1 (en) 2020-11-17 2022-09-19 Translation method

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020220117992A KR102466164B1 (en) 2020-11-17 2022-09-19 Translation method

Country Status (1)

Country Link
KR (2) KR102446404B1 (en)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000031651A (en) 1998-11-09 2000-06-05 정선종 Method for generating various generative sentences using selection technique in machine translation system and apparatus thereby
KR20090061158A (en) * 2007-12-11 2009-06-16 한국전자통신연구원 Method and apparatus for correcting of translation error by using error-correction pattern in a translation system
US20190018837A1 (en) * 2015-06-30 2019-01-17 Facebook, Inc. Machine-translation based corrections
KR20200083111A (en) * 2018-12-31 2020-07-08 주식회사 엘솔루 System for correcting language and method thereof, and method for learning language correction model
US20200285807A1 (en) * 2019-03-07 2020-09-10 Nec Laboratories America, Inc. Complex system anomaly detection based on discrete event sequences
US20210397787A1 (en) * 2020-06-22 2021-12-23 Crimson AI LLP Domain-specific grammar correction system, server and method for academic text

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000031651A (en) 1998-11-09 2000-06-05 정선종 Method for generating various generative sentences using selection technique in machine translation system and apparatus thereby
KR20090061158A (en) * 2007-12-11 2009-06-16 한국전자통신연구원 Method and apparatus for correcting of translation error by using error-correction pattern in a translation system
US20190018837A1 (en) * 2015-06-30 2019-01-17 Facebook, Inc. Machine-translation based corrections
KR20200083111A (en) * 2018-12-31 2020-07-08 주식회사 엘솔루 System for correcting language and method thereof, and method for learning language correction model
US20200285807A1 (en) * 2019-03-07 2020-09-10 Nec Laboratories America, Inc. Complex system anomaly detection based on discrete event sequences
US20210397787A1 (en) * 2020-06-22 2021-12-23 Crimson AI LLP Domain-specific grammar correction system, server and method for academic text

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Chan-Jun Park et al., ‘A Study on Automatic Post Editing of Machine Translation’, Journal of the Korea Convergence Society, Vol. 11, No. 5, 2020.05.28. *

Also Published As

Publication number Publication date
KR20220130659A (en) 2022-09-27
KR102446404B1 (en) 2022-09-21
KR102466164B1 (en) 2022-11-10

Similar Documents

Publication Publication Date Title
US20180225274A1 (en) Systems and methods for assessing quality of input text using recurrent neural networks
CN101730898B (en) Handwriting recognition using neural networks
US10402474B2 (en) Keyboard input corresponding to multiple languages
US20100235780A1 (en) System and Method for Identifying Words Based on a Sequence of Keyboard Events
CN101133411A (en) Fault-tolerant romanized input method for non-roman characters
US20180039608A1 (en) Correction of previously received textual messages based on one or more later received textual messages
US20210248498A1 (en) Method and apparatus for training pre-trained knowledge model, and electronic device
EP2447854A1 (en) Method and system of automatic diacritization of Arabic
JP2008052740A (en) Spell checking method for document with marked data block, and signal carrying medium
KR20240006688A (en) Correct multilingual grammar errors
CN113743101B (en) Text error correction method, apparatus, electronic device and computer storage medium
CN110929026B (en) Abnormal text recognition method, device, computing equipment and medium
CN113918031A (en) System and method for Chinese punctuation recovery using sub-character information
KR102466164B1 (en) Translation method
CN113673228A (en) Text error correction method, text error correction device, computer storage medium and computer program product
CN111090970B (en) Text standardization processing method after voice recognition
JP6568968B2 (en) Document review device and program
CN116955610A (en) Text data processing method and device and storage medium
US10789410B1 (en) Identification of source languages for terms
CN113345409B (en) Speech synthesis method, speech synthesis device, electronic equipment and computer-readable storage medium
US9740667B2 (en) Method and system for generating portable electronic documents
CN114997148A (en) Chinese spelling proofreading pre-training model construction method based on contrast learning
CN111782773B (en) Text matching method and device based on cascade mode
CN114298032A (en) Text punctuation detection method, computer device and storage medium
US8548800B2 (en) Substitution, insertion, and deletion (SID) distance and voice impressions detector (VID) distance

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right