RU2790026C2 - Method and server for training machine learning algorithm for translation - Google Patents

Method and server for training machine learning algorithm for translation Download PDF

Info

Publication number
RU2790026C2
RU2790026C2 RU2020142417A RU2020142417A RU2790026C2 RU 2790026 C2 RU2790026 C2 RU 2790026C2 RU 2020142417 A RU2020142417 A RU 2020142417A RU 2020142417 A RU2020142417 A RU 2020142417A RU 2790026 C2 RU2790026 C2 RU 2790026C2
Authority
RU
Russia
Prior art keywords
sentence
synthetic
language
server
translation
Prior art date
Application number
RU2020142417A
Other languages
Russian (ru)
Other versions
RU2020142417A (en
Inventor
Антон Александрович Дворкович
Роман Олегович Пешкуров
Original Assignee
Общество С Ограниченной Ответственностью "Яндекс"
Filing date
Publication date
Application filed by Общество С Ограниченной Ответственностью "Яндекс" filed Critical Общество С Ограниченной Ответственностью "Яндекс"
Priority to US17/553,798 priority Critical patent/US20220198159A1/en
Publication of RU2020142417A publication Critical patent/RU2020142417A/en
Application granted granted Critical
Publication of RU2790026C2 publication Critical patent/RU2790026C2/en

Links

Images

Abstract

FIELD: machine learning.
SUBSTANCE: group of inventions relates to the field of machine learning; it can be used for translation between a rare language and a target language. The method contains stages of: obtainment by a server of a certain real example having the first sentence on one language of a group of languages and the corresponding second sentence on the target language, which is a real translation of the first sentence; generation by the server applying a transliteration function of the first synthetic sentence, thereby generating a synthetic real example having the first synthetic sentence and the corresponding second sentence; obtainment by the server of the third sentence on the target language; generation by the server of the fourth sentence on the rear language for the third sentence, using back translation, wherein the fourth sentence and the third sentence form a certain artificial example; generation by the server applying the transliteration function of the fourth synthetic sentence based on the fourth sentence for the mentioned certain artificial example, thereby generating a synthetic artificial example having the fourth synthetic sentence and the third sentence; training by the server of a translation model based on the synthetic real example and the synthetic artificial example.
EFFECT: increase in the quality of translation from a rear language to a target language.
22 cl, 8 dwg

Description

ОБЛАСТЬ ТЕХНИКИFIELD OF TECHNOLOGY

[01] Настоящая технология относится к машинному обучению в целом и, в частности, к способу и серверу для обучения алгоритма машинного обучения для перевода.[01] The present technology relates to machine learning in general, and specifically to a method and server for training a machine learning algorithm for translation.

УРОВЕНЬ ТЕХНИКИBACKGROUND OF THE INVENTION

[02] С ростом числа пользователей, осуществляющих доступ в Интернет, появилось огромное количество Интернет-служб. К таким службам относятся, например, службы поисковых систем (например, поисковые системы Яндекс™ и Google™), которые позволяют пользователям получать ин формацию, отправляя запросы в поисковую систему. Кроме того, службы социальных сетей, а также мультимедийные службы позволяют большому количеству пользователей с различными социальными и культурными происхождениями взаимодействовать на унифицированных платформах для обмена контентом и информацией. Цифровой контент и другая информация, которыми пользователи обмениваются, могут представляться на различных языках. По этой причине из-за постоянно растущего объема информации, которой обмениваются в Интернете, часто используются службы перевода такие как, например, Яндекс.Переводчик™.[02] With the increase in the number of users accessing the Internet, a huge number of Internet services have emerged. Such services include, for example, search engine services (for example, Yandex™ and Google™ search engines), which allow users to obtain information by sending queries to a search engine. In addition, social networking services as well as multimedia services allow a large number of users from different social and cultural backgrounds to interact on unified platforms for the exchange of content and information. Digital content and other information exchanged between users may be presented in various languages. For this reason, due to the ever-increasing volume of information exchanged on the Internet, translation services such as Yandex.Translate™ are often used.

[03] Последняя упомянутая служба является особенно полезной, поскольку она позволяет пользователям с легкостью переводить текст (или даже речь) с одного языка, который пользователь не понимает, на другой язык, который он понимает. Это означает, что службы перевода обычно предназначены для предоставления переведенной версии контента на понятном пользователю языке, чтобы сделать этот контент доступным для восприятия пользователем.[03] The last mentioned service is particularly useful because it allows users to easily translate text (or even speech) from one language that the user does not understand to another language that they understand. This means that translation services are typically designed to provide a translated version of content in a language that the user understands in order to make that content accessible to the user.

[04] Системы перевода обычно обучаются на основе большого количества примеров параллельных предложений между исходным языком и целевым языком. По этой причине системы перевода хорошо подходят для перевода предложений между «популярными языками», поскольку для обучения доступен очень большой корпус параллельных предложений.[04] Translation systems are usually trained on the basis of a large number of examples of parallel sentences between the source language and the target language. For this reason, translation systems are well suited for translating sentences between "popular languages" because a very large corpus of parallel sentences is available for learning.

[05] Однако традиционные компьютерные системы, обеспечивающие службы перевода, по-прежнему имеют много недостатков, например, когда речь идет о переводе с языка, для которого доступен ограниченный корпус параллельных предложений, этот язык можно считать «редким» языком с точки зрения доступности параллельных предложений, которые могут быть использованы для обучения алгоритма перевода.[05] However, traditional computer systems that provide translation services still have many disadvantages, for example, when it comes to translating from a language for which a limited corpus of parallel sentences is available, this language can be considered a "rare" language in terms of the availability of parallel sentences that can be used to train the translation algorithm.

[06] Патентная заявка Китая №. 110717341, озаглавленная «Method and device for constructing old-Chinese bilingual corpus with Thai as pivot» и опубликованная 21 января 2020 года, относится, согласно ее машинному переводу на английский язык, к способу и устройству для построения древнекитайского двуязычного корпуса с тайским языком в качестве основы, что принадлежит к области обработки естественного языка. Сначала, выполняют обработку сегментации слов тайского языка над данными китайско-тайского параллельного корпуса; строят лаосско-тайский двуязычный словарь и переводят тайские предложения в слова подпоследовательностей лаосских предложений с использованием лаосско-тайского двуязычного словаря для получения возможных пар лаосско-тайских параллельных предложений; строят двустороннюю основанную на LSTM модель классификации лаосско-тайских пар параллельных предложений, классифицируют возможные пары лаосско-тайских параллельных предложений и получают лаосско-тайские двуязычные пары параллельных предложений; и сопоставляют лаосский язык с китайским языком посредством использования тайского языка в качестве основного языка для построения лаосско-китайского двуязычного параллельного корпуса.[06] China Patent Application No. 110717341, entitled "Method and device for constructing old-Chinese bilingual corpus with Thai as pivot" and published on January 21, 2020, refers, according to its machine translation into English, to a method and apparatus for constructing an ancient Chinese bilingual corpus with Thai as pivot fundamentals, which belongs to the field of natural language processing. First, Thai word segmentation processing is performed on the Chinese-Thai parallel corpus data; building a Lao-Thai bilingual dictionary and translating the Thai sentences into words of subsequences of the Lao sentences using the Lao-Thai bilingual dictionary to obtain possible pairs of Lao-Thai parallel sentences; building a two-way LSTM-based Lao-Thai parallel sentence pair classification model, classifying possible Lao-Thai parallel sentence pairs, and deriving Lao-Thai bilingual parallel sentence pairs; and collate Lao with Chinese by using Thai as the base language to construct a Lao-Chinese bilingual parallel corpus.

СУЩНОСТЬ ИЗОБРЕТЕНИЯSUMMARY OF THE INVENTION

[07] Разработчики настоящей технологии осознали некоторые технические проблемы, связанные с существующими службами перевода. Целью настоящей технологии является устранение по меньшей мере некоторых неудобств, имеющихся в предшествующем уровне техники.[07] The developers of the present technology have recognized some of the technical problems associated with existing translation services. The purpose of the present technology is to eliminate at least some of the disadvantages of the prior art.

[08] Традиционные системы хорошо подходят для служб перевода между «популярными» языками. Некоторые примеры популярных языков включают в себя английский, французский, русский, немецкий, турецкий и подобные. Это связано с тем, что традиционные системы имеют доступ к большим корпусам параллельных предложений между такими языками, что позволяет лучше обучать алгоритмы машинного обучения (MLA) для целей перевода.[08] Traditional systems are well suited for translation services between "popular" languages. Some examples of popular languages include English, French, Russian, German, Turkish and the like. This is because traditional systems have access to large corpora of parallel sentences between such languages, allowing better training of machine learning algorithms (MLA) for translation purposes.

[09] Однако, традиционные системы плохо подходят для перевода предложений с «редких» языков. Некоторые примеры редких языков включают в себя чувашский, фарерский, галисийский и подобные. Это объясняется ограниченным числом параллельных предложений, которые доступны между некоторым определенным редким языком и целевым языком.[09] However, traditional systems are not well suited for translating sentences from "rare" languages. Some examples of rare languages include Chuvash, Faroese, Galician and the like. This is due to the limited number of parallel sentences that are available between some specific rare language and the target language.

[10] В по меньшей мере некоторых вариантах осуществления настоящей технологии были разработаны способы и системы для генерирования «искусственных» примеров, в отличие от «реальных» примеров, из параллельных предложений между определенным редким языком и целевым языком. Разработчики настоящей технологии осознали, что генерирование искусственных примеров может позволить повысить качество служб перевода, которое может быть достигнуто традиционными системами при переводе предложения с редкого языка. В некоторых вариантах осуществления настоящей технологии наборы обучающих данных, генерируемые на основе искусственных примеров перевода, могут быть помечены как таковые, чтобы позволить модели перевода различать во время фазы обучения реальные примеры перевода и искусственные примеры перевода.[10] In at least some embodiments of the present technology, methods and systems have been developed for generating "artificial" examples, as opposed to "real" examples, from parallel sentences between a certain rare language and a target language. The developers of the present technology have realized that the generation of artificial examples can improve the quality of translation services that can be achieved by traditional systems when translating a sentence from a rare language. In some embodiments of the present technology, training datasets generated from artificial translation examples may be labeled as such to allow the translation model to distinguish between real translation examples and artificial translation examples during the training phase.

[11] Как станет очевидно из приведенного ниже описания, разработчики настоящей технологии также разработали способы и системы, которые позволяют использовать знания о популярных языках, которые являются частью той же группы или семейства языков, что и редкий язык, для повышения качества перевода с редкого языка на целевой язык.[11] As will become apparent from the description below, the developers of the present technology have also developed methods and systems that allow the use of knowledge about popular languages that are part of the same group or family of languages as a rare language, to improve the quality of translation from a rare language into the target language.

[12] В по меньшей мере некоторых вариантах осуществления настоящей технологии обеспечивается модель перевода, которая выполнена с возможностью получения входного предложения, которое было транслитерировано с одного языка из некоторой определенной группы языков в «систему синтетического письма», и обеспечения переведенного выходного предложения на целевом языке. Входное предложение может быть сгенерировано моделью транслитерации на основе исходного предложения на одном языке из упомянутой определенной группы языков.[12] In at least some embodiments of the present technology, a translation model is provided that is configured to receive an input sentence that has been transliterated from one language from a certain group of languages into a "synthetic writing system" and provide a translated output sentence in the target language. . The input sentence can be generated by the transliteration model based on the original sentence in one language from the specified group of languages.

[13] То, как модель транслитерации реализуется, конкретным образом не ограничивается. В одном варианте осуществления модель транслитерации может быть реализована как модель статистического машинного перевода (SMT), обученная транслитерировать предложения с любого одного языка из некоторой определенной группы языков в систему синтетического письма. Например, тюркская группа или семья языков содержит, среди прочих, турецкий, киргизский, узбекский и чувашский языки. В этом примере, в зависимости от конкретного тюркского исходного языка, слово «серебро» может быть записано как «gümüş», «көмөш», «көмеш», «күміс», «күмүш», «gümüş», «kumush» и «кӗмӗл». Таким образом, модель транслитерации обучается таким образом, что определенное слово записывается одинаково в системе синтетического письма, независимо от того, какой из тюркских языков является исходным языком для данного определенного слова. Следует отметить, что в некоторых вариантах осуществления настоящей технологии система синтетического письма может быть системой письма одного из языков упомянутой группы языков. В некоторых вариантах осуществления настоящей технологии использование системы синтетического письма позволяет сделать процесс обучения алгоритма машинного обучения (MLA) более эффективным путем устранения фонетических или орфографических различий между языками из упомянутой группы языков.[13] How the transliteration model is implemented is not specifically limited. In one embodiment, the transliteration model may be implemented as a statistical machine translation (SMT) model trained to transliterate sentences from any one language from a certain group of languages into a synthetic writing system. For example, the Turkic group or language family contains Turkish, Kyrgyz, Uzbek, and Chuvash, among others. In this example, depending on the specific Turkic source language, the word "silver" can be written as "gümüş", "kömösh", "kömesh", "kümis", "kümush", "gümüş", "kumush" and "kömöl ". Thus, the transliteration model is trained in such a way that a certain word is written the same in the synthetic writing system, regardless of which of the Turkic languages is the source language for this particular word. It should be noted that in some embodiments of the present technology, the synthetic writing system may be the writing system of one of the languages of the mentioned group of languages. In some embodiments of the present technology, the use of a synthetic writing system makes it possible to make the learning process of a machine learning algorithm (MLA) more efficient by eliminating phonetic or spelling differences between languages from said group of languages.

[14] Таким образом, в некоторых вариантах осуществления настоящей технологии можно сказать, что модель перевода может быть некоторой определенной моделью, которая способна переводить предложения с любого языка из некоторой определенной группы языков на целевой язык. В частности, исходное предложение на любом языке из группы языков может быть принято компьютерной системой, транслитерировано в систему синтетического письма через модель транслитерации, введено в модель перевода и использовано, таким образом, для генерирования выходного предложения на целевом языке.[14] Thus, in some embodiments of the present technology, it can be said that the translation model may be some specific model that is capable of translating sentences from any language in some specific group of languages into the target language. In particular, a source sentence in any language from a group of languages can be received by a computer system, transliterated into a synthetic writing system via a transliteration model, entered into a translation model, and thus used to generate an output sentence in the target language.

[15] В первом широком аспекте настоящей технологии обеспечен способ обучения модели перевода для выполнения перевода между редким языком из группы языков и целевым языком. Способ является исполняемым посредством сервера. Сервер имеет доступ к множеству реальных примеров параллельных предложений между языками упомянутой группы и целевым языком. Число реальных примеров между редким языком и целевым языком сравнительно невелико по сравнению с числом реальных примеров между другими языками из упомянутой группы языков и целевым языком. Способ содержит получение сервером определенного реального примера, имеющего первое предложение на одном языке из группы языков и соответствующее второе предложение на целевом языке, являющееся реальным (фактическим) переводом первого предложения. Способ содержит генерирование сервером, применяющим функцию транслитерации, первого синтетического предложения на основе первого предложения для упомянутого определенного реального примера, тем самым генерируя синтетический реальный пример, имеющий первое синтетическое предложение и соответствующее второе предложение. Первым синтетическим предложением является транслитерация первого предложения в систему синтетического письма. Способ содержит получение сервером третьего предложения на целевом языке. Способ содержит генерирование сервером, применяющим другую модель перевода, четвертого предложения на редком языке для третьего предложения с использованием обратного перевода. Четвертым предложением является искусственный перевод третьего предложения. Четвертое предложение и третье предложение образуют некоторый определенный искусственный пример. Способ содержит генерирование сервером, применяющим функцию транслитерации, четвертого синтетического предложения на основе четвертого предложения для упомянутого определенного искусственного примера, тем самым генерируя синтетический искусственный пример, имеющий четвертое синтетическое предложение и третье предложение. Четвертым синтетическим предложением является транслитерация четвертого предложения в систему синтетического письма. Способ содержит обучение сервером модели перевода на основе синтетического реального примера и синтетического искусственного примера. Обучение предназначено для приема определенного используемого предложения на редком языке, генерирования синтетического используемого предложения на основе упомянутого определенного используемого предложения с применением функции транслитерации и перевода с использованием модели перевода используемого синтетического предложения в соответствующее используемое предложение на целевом языке.[15] In a first broad aspect of the present technology, a method is provided for training a translation model to perform translation between a rare language from a group of languages and a target language. The method is executable by the server. The server has access to many real examples of parallel sentences between the languages of the mentioned group and the target language. The number of real examples between the rare language and the target language is relatively small compared to the number of real examples between other languages from the said group of languages and the target language. The method comprises receiving by the server a certain real example having a first sentence in one language from a group of languages and a corresponding second sentence in the target language being a real (actual) translation of the first sentence. The method comprises generating, by the server applying the transliteration function, a first synthetic sentence based on the first sentence for said specific real example, thereby generating a synthetic real example having the first synthetic sentence and a corresponding second sentence. The first synthetic sentence is the transliteration of the first sentence into the synthetic writing system. The method comprises receiving by the server a third sentence in the target language. The method comprises generating, by a server using a different translation model, a fourth sentence in a rare language for the third sentence using back translation. The fourth sentence is an artificial translation of the third sentence. The fourth sentence and the third sentence form some definite artificial example. The method comprises generating, by the server applying the transliteration function, a fourth synthetic sentence based on the fourth sentence for said specific artificial example, thereby generating a synthetic artificial example having a fourth synthetic sentence and a third sentence. The fourth synthetic sentence is the transliteration of the fourth sentence into the synthetic writing system. The method comprises training a translation model by a server based on a synthetic real example and a synthetic artificial example. The training is designed to receive a certain used sentence in a rare language, generate a synthetic used sentence based on said certain used sentence, applying a transliteration function and translate using a model of translating the used synthetic sentence into the corresponding used sentence in the target language.

[16] В некоторых вариантах осуществления способа способ дополнительно содержит генерирование сервером набора обучающих данных на основе синтетического искусственного примера. Причем набор обучающих данных содержит метку, указывающую, что четвертое синтетическое предложение сгенерировано на основе искусственного перевода третьего предложения. Обучение модели перевода содержит ввод сервером набора обучающих данных в модель перевода. Модель перевода использует метку для различения между (i) наборами обучающих данных, сгенерированными на основе реальных переводов, и (ii) наборами обучающих данных, сгенерированными на основе искусственных переводов.[16] In some embodiments of the method, the method further comprises generating, by the server, a set of training data based on the synthetic artificial example. Moreover, the training data set contains a label indicating that the fourth synthetic sentence is generated based on the artificial translation of the third sentence. Training a translation model involves the server injecting a set of training data into the translation model. The translation model uses a label to distinguish between (i) training datasets generated from real translations and (ii) training datasets generated from artificial translations.

[17] В некоторых вариантах осуществления способа генерирование синтетического реального примера содержит генерирование сервером множества синтетических реальных примеров для соответствующих из упомянутого множества реальных примеров. Третьим предложением является одно из множества третьих предложений. Генерирование синтетического искусственного примера содержит генерирование сервером множества синтетических искусственных примеров для соответствующих из множества искусственных примеров. Обучение модели перевода содержит обучение сервером модели перевода на основе упомянутого множества синтетических реальных примеров и упомянутого множества синтетических искусственных примеров.[17] In some embodiments of the method, generating a synthetic real example comprises generating by the server a plurality of synthetic real examples for corresponding ones from said set of real examples. The third sentence is one of a plurality of third sentences. Generating a synthetic artificial example comprises generating, by the server, a plurality of synthetic artificial examples for corresponding ones from the plurality of artificial examples. Training a translation model comprises training a translation model by a server based on said set of synthetic real examples and said set of synthetic artificial examples.

[18] В некоторых вариантах осуществления способа способ дополнительно содержит генерирование сервером функции транслитерации путем обучения модели статистического машинного перевода (SMT) на основе выровненных корпусов текста между языками в упомянутой группе языков. Модель SMT обучается для определения правил транслитерации между предложениями на каждом из языков упомянутой группы и синтетическими предложениями в системе синтетического письма.[18] In some embodiments of the method, the method further comprises generating a transliteration function by the server by training a statistical machine translation (SMT) model based on justified text corpora between languages in said language group. The SMT model is trained to determine the rules of transliteration between sentences in each of the languages of the mentioned group and synthetic sentences in the synthetic writing system.

[19] В некоторых вариантах осуществления способа упомянутая группа языков представляет собой тюркскую группу языков, причем тюркская группа языков содержит турецкий язык, узбекский язык, чувашский язык и киргизский язык. Редким языком является чувашский язык.[19] In some embodiments of the method, said language group is a Turkic language group, wherein the Turkic language group comprises Turkish, Uzbek, Chuvash, and Kyrgyz. Chuvash is a rare language.

[20] В некоторых вариантах осуществления способа упомянутая группа языков представляет собой германскую группу языков, причем германская группа языков содержит английский язык, немецкий язык, голландский язык и фарерский язык. Редким языком является фарерский язык.[20] In some embodiments of the method, said language group is the Germanic language group, wherein the Germanic language group comprises English, German, Dutch, and Faroese. Faroese is a rare language.

[21] В некоторых вариантах осуществления способа упомянутая группа языков представляет собой романскую группу языков, причем романская группа языков содержит французский язык, итальянский язык, испанский язык и галисийский язык. Редким языком является галисийский язык.[21] In some embodiments of the method, said language group is a Romance language group, wherein the Romance language group comprises French, Italian, Spanish, and Galician. A rare language is Galician.

[22] В некоторых вариантах осуществления способа упомянутая другая модель перевода обучается на основе реальных примеров между редким языком и целевым языком.[22] In some embodiments of the method, said other translation model is trained based on real examples between the rare language and the target language.

[23] В некоторых вариантах осуществления способа способ дополнительно содержит прием сервером определенного используемого предложения на редком языке, генерирование сервером, применяющим модель транслитерации, синтетического используемого предложения на основе упомянутого определенного используемого предложения и генерирование сервером, применяющим модель перевода, соответствующего используемого предложения на целевом языке на основе используемого синтетического предложения.[23] In some embodiments of the method, the method further comprises receiving by the server the specific use sentence in the rare language, generating by the server applying the transliteration model a synthetic use sentence based on said defined use sentence, and generating by the server applying the translation model a corresponding use sentence in the target language. based on the synthetic sentence used.

[24] В некоторых вариантах осуществления способа упомянутой другой моделью перевода является упомянутая модель перевода и обучение содержит обучение сервером модели перевода на основе синтетических реальных примеров, генерирование сервером, применяющим модель перевода, четвертого предложения на редком языке для третьего предложения с использованием обратного перевода; и дополнительное обучение сервером модели перевода на основе синтетического искусственного примера.[24] In some embodiments of the method, said other translation model is said translation model, and training comprises teaching the translation model server based on synthetic real examples, generating, by the server applying the translation model, a fourth rare language sentence for the third sentence using reverse translation; and additional training by the server of the translation model based on the synthetic artificial example.

[25] В некоторых вариантах осуществления способа третьим предложением является чистое предложение на целевом языке, причем чистое предложение предварительно выбирается человеком-оператором.[25] In some embodiments of the method, the third sentence is a blank sentence in the target language, the blank sentence being pre-selected by the human operator.

[26] Во втором широком аспекте настоящей технологии обеспечен сервер для обучения модели перевода для выполнения перевода между редким языком из группы языков и целевым языком. Сервер имеет доступ к множеству реальных примеров параллельных предложений между языками упомянутой группы и целевым языком. Число реальных примеров между редким языком и целевым языком сравнительно невелико по сравнению с числом реальных примеров между другими языками из упомянутой группы языков и целевым языком. Сервер выполнен с возможностью получения определенного реального примера, имеющего первое предложение на одном языке из группы языков и соответствующее второе предложение на целевом языке, являющееся реальным переводом первого предложения. Сервер выполнен с возможностью генерирования, применяя функцию транслитерации, первого синтетического предложения на основе первого предложения для упомянутого определенного реального примера, тем самым генерируя синтетический реальный пример, имеющий первое синтетическое предложение и соответствующее второе предложение. Первым синтетическим предложением является транслитерация первого предложения в систему синтетического письма. Сервер выполнен с возможностью получения третьего предложения на целевом языке. Сервер выполнен с возможностью генерирования, применяя другую модель перевода, четвертого предложения на редком языке для третьего предложения с использованием обратного перевода. Четвертым предложением является искусственный перевод третьего предложения. Четвертое предложение и третье предложение образуют некоторый определенный искусственный пример. Сервер выполнен с возможностью генерирования, применяя функцию транслитерации, четвертого синтетического предложения на основе четвертого предложения для упомянутого определенного искусственного примера, тем самым генерируя синтетический искусственный пример, имеющий четвертое синтетическое предложение и третье предложение. Четвертым синтетическим предложением является транслитерация четвертого предложения в систему синтетического письма. Сервер выполнен с возможностью обучения модели перевода на основе синтетического реального примера и синтетического искусственного примера. Сервер выполнен с возможностью обучения для приема определенного используемого предложения на редком языке, генерирования синтетического используемого предложения на основе упомянутого определенного используемого предложения с применением функции транслитерации и перевода с использованием модели перевода используемого синтетического предложения в соответствующее используемое предложение на целевом языке.[26] In a second broad aspect of the present technology, a server is provided for training a translation model to perform translation between a rare language from a group of languages and a target language. The server has access to many real examples of parallel sentences between the languages of the mentioned group and the target language. The number of real examples between the rare language and the target language is relatively small compared to the number of real examples between other languages from the said group of languages and the target language. The server is configured to receive a specific real example having a first sentence in one language from the language group and a corresponding second sentence in the target language being a real translation of the first sentence. The server is configured to generate, using the transliteration function, a first synthetic sentence based on the first sentence for said specific real example, thereby generating a synthetic real example having the first synthetic sentence and a corresponding second sentence. The first synthetic sentence is the transliteration of the first sentence into the synthetic writing system. The server is configured to receive a third sentence in the target language. The server is configured to generate, using a different translation model, a fourth sentence in a rare language for a third sentence using reverse translation. The fourth sentence is an artificial translation of the third sentence. The fourth sentence and the third sentence form some definite artificial example. The server is configured to generate, using the transliteration function, a fourth synthetic sentence based on the fourth sentence for said specific artificial example, thereby generating a synthetic artificial example having a fourth synthetic sentence and a third sentence. The fourth synthetic sentence is the transliteration of the fourth sentence into the synthetic writing system. The server is configured to train a translation model based on a synthetic real example and a synthetic artificial example. The server is configured to learn to receive a specific used sentence in a rare language, generate a synthetic used sentence based on said specific used sentence using a transliteration function and translate using a model for translating the used synthetic sentence into the corresponding used sentence in the target language.

[27] В некоторых вариантах осуществления сервера сервер дополнительно выполнен с возможностью генерирования набора обучающих данных на основе синтетического искусственного примера. Причем набор обучающих данных содержит метку, указывающую, что четвертое синтетическое предложение сгенерировано на основе искусственного перевода третьего предложения. Сервер, выполненный с возможностью обучения модели перевода, представляет собой сервер, выполненный с возможностью ввода набора обучающих данных в модель перевода. Модель перевода использует метку для различения между (i) наборами обучающих данных, сгенерированными на основе реальных переводов, и (ii) наборами обучающих данных, сгенерированными на основе искусственных переводов.[27] In some server embodiments, the server is further configured to generate a training data set based on the synthetic artificial example. Moreover, the training data set contains a label indicating that the fourth synthetic sentence is generated based on the artificial translation of the third sentence. A server configured to train a translation model is a server configured to input a set of training data to the translation model. The translation model uses a label to distinguish between (i) training datasets generated from real translations and (ii) training datasets generated from artificial translations.

[28] В некоторых вариантах осуществления сервера для генерирования синтетического реального примера сервер выполнен с возможностью генерирования множества синтетических реальных примеров для соответствующих из упомянутого множества реальных примеров. Третьим предложением является одно из множества третьих предложений и для генерирования синтетического искусственного примера сервер выполнен с возможностью генерирования множества синтетических искусственных примеров для соответствующих из множества искусственных примеров. Сервер, выполненный с возможностью обучения модели перевода, представляет собой сервер, выполненный с возможностью обучения модели перевода на основе упомянутого множества синтетических реальных примеров и упомянутого множества синтетических искусственных примеров.[28] In some embodiments of a server for generating a synthetic real example, the server is configured to generate a plurality of synthetic real examples for corresponding ones from said plurality of real examples. The third sentence is one of the plurality of third sentences, and in order to generate a synthetic artificial example, the server is configured to generate a plurality of synthetic artificial examples for corresponding ones from the plurality of artificial examples. A server capable of learning a translation model is a server configured to learn a translation model based on said set of synthetic real examples and said set of synthetic artificial examples.

[29] В некоторых вариантах осуществления сервера сервер дополнительно выполнен с возможностью генерирования функции транслитерации путем обучения модели статистического машинного перевода (SMT) на основе выровненных корпусов текста между языками в упомянутой группе языков. Модель SMT обучается для определения правил транслитерации между предложениями на каждом из языков упомянутой группы и синтетическими предложениями в системе синтетического письма.[29] In some server embodiments, the server is further configured to generate a transliteration function by training a statistical machine translation (SMT) model based on justified text corpora between languages in said language group. The SMT model is trained to determine the rules of transliteration between sentences in each of the languages of the mentioned group and synthetic sentences in the synthetic writing system.

[30] В некоторых вариантах осуществления сервера упомянутая группа языков представляет собой тюркскую группу языков, причем тюркская группа языков содержит турецкий язык, узбекский язык, чувашский язык и киргизский язык. Редким языком является чувашский язык.[30] In some server embodiments, said language group is a Turkic language group, wherein the Turkic language group comprises Turkish, Uzbek, Chuvash, and Kyrgyz. Chuvash is a rare language.

[31] В некоторых вариантах осуществления сервера упомянутая группа языков представляет собой германскую группу языков, причем германская группа языков содержит английский язык, немецкий язык, голландский язык и фарерский язык. Редким языком является фарерский язык.[31] In some server embodiments, said language group is the German language group, where the German language group comprises English, German, Dutch, and Faroese. Faroese is a rare language.

[32] В некоторых вариантах осуществления сервера упомянутая группа языков представляет собой романскую группу языков, причем романская группа языков содержит французский язык, итальянский язык, испанский язык и галисийский язык. Редким языком является галисийский язык.[32] In some server embodiments, said language group is a Romance language group, wherein the Romance language group comprises French, Italian, Spanish, and Galician. A rare language is Galician.

[33] В некоторых вариантах осуществления сервера упомянутая другая модель перевода обучается на основе реальных примеров между редким языком и целевым языком.[33] In some server embodiments, said other translation model is trained based on real examples between the rare language and the target language.

[34] В некоторых вариантах осуществления сервера сервер дополнительно выполнен с возможностью приема определенного используемого предложения на редком языке, генерирования, применяя модель транслитерации, синтетического используемого предложения на основе упомянутого определенного используемого предложения и генерирования, применяя модель перевода, соответствующего используемого предложения на целевом языке на основе используемого синтетического предложения.[34] In some embodiments of the server, the server is further configured to receive a specific used sentence in a rare language, generate, using a transliteration model, a synthetic used sentence based on said specific used sentence, and generate, using a translation model, a corresponding used sentence in a target language in the basis of the synthetic sentence used.

[35] В некоторых вариантах осуществления сервера другой моделью перевода является упомянутая модель перевода. Сервер, выполненный с возможностью обучения, представляет собой сервер, выполненный с возможностью обучения модели перевода на основе синтетических реальных примеров, генерирования, применяя модель перевода, четвертого предложения на редком языке для третьего предложения с использованием обратного перевода, и дополнительного обучения модели перевода на основе синтетического искусственного примера.[35] In some embodiments of the server, another translation model is the above translation model. The server capable of learning is a server capable of learning a translation model based on synthetic real examples, generating, using the translation model, a fourth sentence in a rare language for a third sentence using back translation, and further training a translation model based on synthetic artificial example.

[36] В некоторых вариантах осуществления сервера третьим предложением является чистое предложение на целевом языке. Чистое предложение предварительно выбирается человеком-оператором.[36] In some server embodiments, the third sentence is a pure sentence in the target language. The net offer is pre-selected by the human operator.

[37] В контексте настоящего описания «сервер» представляет собой компьютерную программу, которая работает на надлежащем аппаратном обеспечении и способна принимать запросы (например, от клиентских устройств) по сети и выполнять эти запросы, или вызывать выполнение этих запросов. Аппаратное обеспечение может быть одним физическим компьютером или одной физической компьютерной системой, но ни то, ни другое не является обязательным для настоящей технологии. В настоящем контексте использование выражения «сервер» не предполагает, что каждая задача (например, принятые инструкции или запросы) или какая-либо конкретная задача будут приняты, выполнены или вызваны для выполнения одним и тем же сервером (т.е. тем же самым программным обеспечением и/или аппаратным обеспечением); данное выражение предполагает, что любое число программных элементов или аппаратных устройств может быть задействовано в приеме/отправке, выполнении или вызове для выполнения любой задачи или запроса, или последствий любой задачи или запроса; и все это программное обеспечение и аппаратное обеспечение может быть одним сервером или многочисленными серверами, причем оба данных случая включены в выражение «по меньшей мере один сервер».[37] As used herein, a "server" is a computer program that runs on appropriate hardware and is capable of receiving requests (eg, from client devices) over a network and fulfilling or causing those requests to be executed. The hardware may be one physical computer or one physical computer system, but neither is required for the present technology. In the present context, the use of the term "server" does not imply that every task (e.g., received instructions or requests) or any particular task will be received, executed, or called for execution by the same server (i.e., the same software software and/or hardware); this expression implies that any number of software elements or hardware devices can be involved in receiving / sending, executing or calling to perform any task or request, or the consequences of any task or request; and all of this software and hardware may be a single server or multiple servers, both of which are included in the expression "at least one server".

[38] В контексте настоящего описания «клиентское устройство» представляет собой любое компьютерное оборудование, которое способно выполнять программное обеспечение, которое является надлежащим для релевантной поставленной задачи. Таким образом, некоторые (неограничивающие) примеры клиентских устройств включают в себя персональные компьютеры (настольные ПК, ноутбуки, нетбуки и т.д.), смартфоны и планшеты, а также сетевое оборудование, такое как маршрутизаторы, коммутаторы и шлюзы. Следует отметить, что устройство, выступающее в качестве клиентского устройства в настоящем контексте, не исключается из возможности выступать в качестве сервера для других клиентских устройств. Использование выражения «клиентское устройство» не исключает использования многочисленных клиентских устройств при приеме/отправке, выполнении или вызове для выполнения какой-либо задачи или запроса, или последствий любой задачи или запроса, или этапов любого описанного в данном документе способа.[38] As used herein, a "client device" is any computer hardware that is capable of executing software that is appropriate for the relevant task at hand. Thus, some (non-limiting) examples of client devices include personal computers (desktops, laptops, netbooks, etc.), smartphones and tablets, and network equipment such as routers, switches, and gateways. It should be noted that a device acting as a client device in the present context is not excluded from acting as a server for other client devices. The use of the term "client device" does not preclude the use of multiple client devices in receiving/sending, executing, or calling to perform any task or request, or the consequences of any task or request, or the steps of any method described herein.

[39] В контексте настоящего описания «база данных» представляет собой любую структурированную совокупность данных, независимо от ее конкретной структуры, программное обеспечение для администрирования базы данных, или компьютерное оборудование, на котором данные хранятся, реализуются или их делают доступными для использования иным образом. База данных может находиться на том же оборудовании, что и процесс, который хранит или использует информацию, хранящуюся в базе данных, или она может находиться на отдельном аппаратном обеспечении, например на выделенном сервере или множестве серверов.[39] As used herein, a "database" is any structured collection of data, regardless of its specific structure, database administration software, or computer equipment on which data is stored, implemented, or otherwise made available for use. The database may reside on the same hardware as the process that stores or uses the information stored in the database, or it may reside on separate hardware such as a dedicated server or multiple servers.

[40] В контексте настоящего описания выражение «информация» включает в себя информацию любого характера или вида, который способен храниться в базе данных любым образом. Таким образом, информация включает в себя, но без ограничения, аудиовизуальные произведения (изображения, фильмы, звуковые записи, презентации и т.д.), данные (данные о местоположении, численные данные и т.д.), текст (мнения, комментарии, вопросы, сообщения и т.д.), документы, электронные таблицы, списки слов и т.д.[40] In the context of the present description, the expression "information" includes information of any nature or form that is capable of being stored in the database in any way. Thus, information includes, but is not limited to, audiovisual works (images, films, sound recordings, presentations, etc.), data (location data, numerical data, etc.), text (opinions, comments , questions, messages, etc.), documents, spreadsheets, word lists, etc.

[41] В контексте настоящего описания, если специально не указано иное, подразумевается, что термин «компонент» включает в себя программное обеспечение (соответствующее конкретному аппаратному контексту), которое является как необходимым, так и достаточным для реализации конкретной функции (функций), на которую ссылаются.[41] As used herein, unless specifically stated otherwise, the term "component" is intended to include software (as appropriate in a particular hardware context) that is both necessary and sufficient to implement a particular function(s), on which is being referenced.

[42] В контексте настоящего описания предполагается, что выражение «используемый компьютером носитель хранения информации» включает в себя носители любого характера и вида, в том числе RAM, ROM, диски (CD-ROM, DVD, дискеты, накопители на жестких дисках и т.д.), USB-ключи, твердотельные накопители, ленточные накопители и т.д.[42] As used herein, the term "computer-used storage medium" is intended to include media of any kind and kind, including RAM, ROM, disks (CD-ROMs, DVDs, floppy disks, hard disk drives, etc.). .d.), USB keys, solid state drives, tape drives, etc.

[43] В контексте настоящего описания слова «первый», «второй», «третий» и т.д. используются в качестве прилагательных только для того, чтобы позволить отличать существительные, которые они модифицируют, друг от друга, а не для описания какой-либо особой взаимосвязи между такими существительными. Таким образом, например, следует понимать, что использование терминов «первый сервер» и «третий сервер» не подразумевает какого-либо конкретного порядка, типа, хронологии, иерархии или ранжирования (например) таких серверов, равно как и их использование (само по себе) не означает, что какой-либо «второй сервер» должен обязательно существовать в любой определенной ситуации. Кроме того, как обсуждается в других контекстах данного документа, ссылка на «первый» элемент и «второй» элемент не исключает того, что эти два элемента фактически являются одним и тем же элементом реального мира. Таким образом, например, в некоторых случаях «первый» сервер и «второй» сервер могут быть одним и тем же программным и/или аппаратным обеспечением, в других случаях они могут быть разными программными и/или аппаратными обеспечениями.[43] In the context of the present description, the words "first", "second", "third", etc. are used as adjectives only to allow the nouns they modify to be distinguished from each other, and not to describe any particular relationship between such nouns. Thus, for example, it should be understood that the use of the terms "first server" and "third server" does not imply any particular order, type, chronology, hierarchy or ranking (for example) of such servers, nor does their use (in itself ) does not mean that some "second server" must necessarily exist in any given situation. Also, as discussed elsewhere in this document, reference to a "first" element and a "second" element does not exclude that the two elements are in fact the same real world element. Thus, for example, in some cases the "first" server and the "second" server may be the same software and/or hardware, in other cases they may be different software and/or hardware.

[44] Каждая из реализаций настоящей технологии обладает по меньшей мере одним из вышеупомянутых аспектов и/или цели, но не обязательно имеет их все. Следует понимать, что некоторые аспекты настоящей технологии, которые возникли в попытке достичь вышеупомянутой цели, могут не удовлетворять этой цели и/или удовлетворять другим целям, которые явным образом в данном документе не описаны.[44] Each of the implementations of the present technology has at least one of the above aspects and/or goals, but not necessarily all of them. It should be understood that some aspects of the present technology that have arisen in an attempt to achieve the above goal may not satisfy this goal and/or satisfy other goals that are not explicitly described in this document.

[45] Дополнительные и/или альтернативные признаки, аспекты и преимущества реализаций настоящей технологии станут очевидными из нижеследующего описания, сопроводительных чертежей и приложенной формулы изобретения.[45] Additional and/or alternative features, aspects, and advantages of implementations of the present technology will become apparent from the following description, the accompanying drawings, and the appended claims.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙBRIEF DESCRIPTION OF THE DRAWINGS

[46] Для лучшего понимания настоящей технологии, а также других аспектов и ее дополнительных признаков, ссылка приводится на нижеследующее описание, которое должно использоваться в сочетании с сопроводительными чертежами, на которых:[46] For a better understanding of the present technology, as well as other aspects and additional features thereof, reference is made to the following description, which is to be used in conjunction with the accompanying drawings, in which:

[47] Фигура 1 иллюстрирует систему, подходящую для реализации неограничивающих вариантов осуществления настоящей технологии.[47] Figure 1 illustrates a system suitable for implementing non-limiting embodiments of the present technology.

[48] Фигура 2 иллюстрирует представление трех групп языков в соответствии с некоторыми неограничивающими вариантами осуществления настоящей технологии.[48] Figure 2 illustrates a representation of three groups of languages in accordance with some non-limiting embodiments of the present technology.

[49] Фигура 3 иллюстрирует представление множества реальных примеров перевода между некоторой определенной группой языков с Фигуры 2 и некоторым определенным целевым языком, хранимым системой с Фигуры 1, и представление множества чистых предложений на целевом языке, хранимом системой с Фигуры 1, в соответствии с некоторыми неограничивающими вариантами осуществления настоящей технологии.[49] Figure 3 illustrates a representation of a plurality of real examples of translation between a certain defined language group of Figure 2 and a certain certain target language stored by the system of Figure 1, and a presentation of a plurality of pure sentences in the target language stored by the system of Figure 1, in accordance with some non-limiting embodiments of the present technology.

[50] Фигура 4 иллюстрирует представление определенной модели перевода упомянутой системы с Фигуры 1 и то, как данная модель перевода используется для выполнения обратного перевода множества чистых предложений на целевом языке, в соответствии с некоторыми неограничивающими вариантами осуществления настоящей технологии.[50] Figure 4 illustrates a representation of a specific translation model of said system from Figure 1 and how this translation model is used to back-translate a plurality of pure sentences in a target language, in accordance with some non-limiting embodiments of the present technology.

[51] Фигура 5 иллюстрирует представление того, как определенный реальный пример и определенный искусственный пример обрабатываются системой с Фигуры 1 для генерирования наборов обучающих данных для обучения другой модели перевода упомянутой системы с Фигуры 1 в соответствии с некоторыми неограничивающими вариантами осуществления настоящей технологии.[51] Figure 5 illustrates a view of how a certain real-world example and a certain artificial example are processed by the system of Figure 1 to generate training datasets for training another translation model of said system of Figure 1, in accordance with some non-limiting embodiments of the present technology.

[52] Фигура 6 иллюстрирует представление двух отдельных итераций обучения другой модели перевода в соответствии с некоторыми неограничивающими вариантами осуществления настоящей технологии.[52] Figure 6 illustrates a representation of two separate iterations of training a different translation model in accordance with some non-limiting embodiments of the present technology.

[53] Фигура 7 иллюстрирует представление отдельной итерации использования другой модели перевода в соответствии с некоторыми неограничивающими вариантами осуществления настоящей технологии.[53] Figure 7 illustrates a representation of a single iteration of using a different translation model in accordance with some non-limiting embodiments of the present technology.

[54] Фигура 8 иллюстрирует схематичное блочное представление способа, выполняемого системой с Фигуры 1, в соответствии с некоторыми неограничивающими вариантами осуществления настоящей технологии.[54] Figure 8 illustrates a schematic block diagram of a method performed by the system of Figure 1, in accordance with some non-limiting embodiments of the present technology.

ПОДРОБНОЕ ОПИСАНИЕDETAILED DESCRIPTION

[55] Со ссылкой на Фигуру 1 проиллюстрировано схематичное представление системы 100, причем система 100 подходит для реализации неограничивающих вариантов осуществления настоящей технологии. Следует четко понимать, что изображенная система 100 является лишь иллюстративной реализацией настоящей технологии. Таким образом, нижеследующее описание предназначено лишь для того, чтобы использоваться в качестве описания иллюстративных примеров настоящей технологии. Это описание не предназначено для определения объема или установления границ настоящей технологии. В некоторых случаях то, что считается полезными примерами модификаций системы 100, также может быть изложено ниже. Это делается просто для помощи в понимании и, опять же, не для определения объема или установления границ настоящей технологии. Эти модификации не являются исчерпывающим списком и, как будет понятно специалисту в данной области техники, возможны другие модификации. Кроме того, те случаи, когда этого не было сделано (т.е. когда не было представлено примеров модификаций), не следует интерпретировать так, что никакие модификации не возможны и/или что описанное является единственным способом реализации такого элемента в настоящей технологии. Специалисту в данной области будет понятно, что это, вероятно, не так. Кроме того, следует понимать, что система 100 может обеспечивать в некоторых случаях простые реализации настоящей технологии, и что в таком случае они были представлены для помощи в понимании. Специалисты в данной области поймут, что различные реализации настоящей технологии могут иметь большую сложность.[55] With reference to Figure 1, a schematic representation of system 100 is illustrated, system 100 being suitable for implementing non-limiting embodiments of the present technology. It should be clearly understood that the depicted system 100 is only an illustrative implementation of the present technology. Thus, the following description is only intended to be used as a description of illustrative examples of the present technology. This description is not intended to define the scope or set the boundaries of the present technology. In some cases, what are considered useful examples of modifications to system 100 may also be set forth below. This is done simply to aid understanding and, again, not to define the scope or delimitation of the present technology. These modifications are not intended to be an exhaustive list and, as one skilled in the art will appreciate, other modifications are possible. In addition, cases where this has not been done (i.e., where no examples of modifications have been provided) should not be interpreted to mean that no modifications are possible and/or that what is described is the only way to implement such an element in the present technology. One skilled in the art will appreciate that this is probably not the case. In addition, it should be understood that system 100 may provide simple implementations of the present technology in some cases, and that in such a case they have been presented to aid in understanding. Those skilled in the art will appreciate that various implementations of the present technology may be more complex.

[56] Вообще говоря, система 100 выполнена с возможностью обеспечения служб электронного перевода для пользователя 102 электронного устройства 104. Например, система 100 может быть выполнена с возможностью получения предложения на исходном языке и обеспечения переведенной версии этого предложения на целевом языке. Теперь будут описаны по меньшей мере некоторые компоненты системы 100, однако следует понимать, что другие компоненты, помимо тех, что проиллюстрированы на Фигуре 1, могут быть частью системы 100, не выходя за рамки объема настоящей технологии.[56] Generally speaking, system 100 is configured to provide electronic translation services to user 102 of electronic device 104. For example, system 100 can be configured to receive a sentence in a source language and provide a translated version of that sentence in a target language. At least some components of system 100 will now be described, however, it should be understood that other components than those illustrated in Figure 1 may be part of system 100 without departing from the scope of the present technology.

Электронное устройствоElectronic device

[57] Система 100 содержит электронное устройство 104, причем электронное устройство 104 ассоциировано с пользователем 102. Как таковое, электронное устройство 104 иногда может именоваться «клиентским устройством», «конечным пользовательским устройством», «клиентским электронным устройством» или просто «устройством». Следует отметить, что тот факт, что устройство 104 связано с пользователем 102, не обязательно предполагает или подразумевает какой-либо режим работы - например необходимость входа в систему, необходимость регистрации или тому подобное.[57] System 100 includes an electronic device 104, with electronic device 104 associated with user 102. As such, electronic device 104 may sometimes be referred to as a "client device", "end user device", "client electronic device", or simply "device". It should be noted that the fact that device 104 is associated with user 102 does not necessarily imply or imply any mode of operation, such as needing to log in, needing to register, or the like.

[58] Реализация устройства 104 особым образом не ограничена, но, в качестве примера, устройство 104 может быть реализовано в виде персонального компьютера (настольных компьютеров, ноутбуков, нетбуков и т.д.), устройства беспроводной связи (такого как смартфон, мобильный телефон, планшет и тому подобное), а также сетевого оборудования (такого как маршрутизаторы, коммутаторы и шлюзы). Устройство 104 содержит аппаратное обеспечение и/или программное обеспечение и/или микропрограммное обеспечение (или их комбинацию), которое известно в данной области техники, для исполнения приложения браузера.[58] The implementation of the device 104 is not particularly limited, but, as an example, the device 104 can be implemented as a personal computer (desktops, laptops, netbooks, etc.), a wireless communication device (such as a smartphone, a mobile phone , tablet, etc.), as well as network equipment (such as routers, switches, and gateways). Device 104 includes hardware and/or software and/or firmware (or a combination thereof), as is known in the art, for running a browser application.

[59] Вообще говоря, назначением приложения браузера является предоставление пользователю 102 возможности доступа к одному или более сетевым ресурсам, таким как, например, веб-страницы. То, как приложение браузера реализуется, конкретным образом не ограничивается. Один пример приложения браузера может быть воплощен как браузер Яндекс™.[59] Generally speaking, the purpose of a browser application is to allow the user 102 to access one or more network resources, such as, for example, web pages. How the browser application is implemented is not particularly limited. One example of a browser application may be implemented as a Yandex™ browser.

[60] Пользователь 102 может использовать приложение браузера для осуществления доступа к системе 160 перевода для перевода одного или более предложений с исходного языка на целевой язык. Например, электронное устройство 104 может быть выполнено с возможностью генерирования запроса 180, указывающего одно или более предложений, которые пользователь 102 желает перевести. Кроме того, электронное устройство 104 может быть выполнено с возможностью приема ответа 190 для отображения пользователю 102 переведенной версии одного или более предложений на целевом языке.[60] The user 102 may use a browser application to access the translation system 160 to translate one or more sentences from a source language into a target language. For example, the electronic device 104 may be configured to generate a request 180 indicating one or more sentences that the user 102 wishes to translate. In addition, the electronic device 104 may be configured to receive a response 190 to display to the user 102 a translated version of one or more sentences in the target language.

Сеть связиCommunication network

[61] Устройство 104 соединено с возможностью связи с сетью 110 связи для доступа к системе 160 перевода сервера 112. Например, устройство 104 может быть соединено с возможностью связи с сервером 112 через сеть 110 связи для обеспечения пользователю 102 служб перевода, упомянутых выше. Сеть 110 связи выполнена с возможностью передачи, среди прочего, запроса 180 и ответа 190.[61] Device 104 is communicably connected to communication network 110 to access translation system 160 of server 112. For example, device 104 can be communicatively connected to server 112 via communication network 110 to provide user 102 with the translation services mentioned above. The communication network 110 is configured to transmit, among other things, a request 180 and a response 190.

[62] В некоторых неограничивающих вариантах осуществления настоящей технологии сеть 110 связи может быть реализована как Интернет. В других вариантах осуществления настоящей технологии сеть 110 связи может быть реализована иначе, например как какая-либо глобальная сеть связи, локальная сеть связи, частная сеть связи и тому подобное. То, как реализована линия связи (отдельно не пронумерована) между устройством 104 и сетью 110 связи, будет зависеть, среди прочего, от того, как реализовано устройство 104.[62] In some non-limiting embodiments of the present technology, communication network 110 may be implemented as the Internet. In other embodiments of the present technology, communication network 110 may be implemented differently, such as any wide area network, local area network, private network, and the like. How the communication link (not individually numbered) between device 104 and communication network 110 is implemented will depend on how device 104 is implemented, among other things.

[63] Просто как пример, а не как ограничение, в тех вариантах осуществления настоящей технологии, в которых устройство 104 реализовано как устройство беспроводной связи (например, как смартфон), линия связи может быть реализована как линия беспроводной связи (такая как, но без ограничения, линия сети связи 3G, линия сети связи 4G, Wireless Fidelity или WiFi® для краткости, Bluetooth® и подобные). В тех примерах, в которых устройство 104 реализовано как ноутбук, линия связи может быть либо беспроводной (такой как Wireless Fidelity или WiFi® для краткости, Bluetooth® или подобной), либо проводной (такой как Ethernet-соединение).[63] Just as an example, and not as a limitation, in those embodiments of the present technology in which the device 104 is implemented as a wireless communication device (such as a smartphone), the communication link may be implemented as a wireless communication link (such as, but without restrictions, 3G network link, 4G network link, Wireless Fidelity or WiFi® for short, Bluetooth® and the like). In instances where device 104 is implemented as a laptop, the link may be either wireless (such as Wireless Fidelity or WiFi® for short, Bluetooth® or the like) or wired (such as an Ethernet connection).

Сервер и База данныхServer and Database

[64] Возвращаясь к описанию Фигуры 1, система 100 также содержит сервер 112, который может быть реализован как обычный компьютерный сервер. В проиллюстрированном неограничивающем варианте осуществления настоящей технологии сервер 112 является единственным сервером. В альтернативных неограничивающих вариантах осуществления настоящей технологии функциональные возможности сервера 112 могут быть распределены и могут быть реализованы посредством многочисленных серверов. Сервер 112 может включать в себя один или более процессоров, одно или более энергонезависимых запоминающих устройств, считываемые компьютером инструкции и/или дополнительные аппаратные компоненты, дополнительные программные компоненты и/или их комбинацию для реализации различных функциональных возможностей сервера 112, не выходя за рамки объема настоящей технологии.[64] Returning to the description of Figure 1, system 100 also includes a server 112, which can be implemented as a conventional computer server. In the illustrated non-limiting embodiment of the present technology, server 112 is the only server. In alternative non-limiting embodiments of the present technology, the functionality of server 112 may be distributed and may be implemented by multiple servers. Server 112 may include one or more processors, one or more non-volatile storage devices, computer-readable instructions, and/or additional hardware components, additional software components, and/or combinations thereof to implement various functionality of server 112 without departing from the scope of this technologies.

[65] Система 100 также содержит базу 150 данных, которая соединена с возможностью связи с сервером 112 и выполнена с возможностью хранения информации, извлекаемой, или иным образом определяемой или генерируемой сервером 112. Вообще говоря, база 150 данных может принимать данные от сервера 112, которые были извлечены, или иным образом определены или сгенерированы сервером 112 во время обработки, для их временного и/или постоянного хранения, и может обеспечивать сохраненные данные серверу 112 для их использования. Предполагается, что база 150 данных может быть разделена на несколько распределенных баз данных без выхода за рамки объема настоящей технологии.[65] The system 100 also includes a database 150 that is communicatively coupled to the server 112 and configured to store information retrieved from, or otherwise determined or generated by, the server 112. Generally speaking, the database 150 may receive data from the server 112, that have been retrieved or otherwise determined or generated by server 112 during processing, for temporary and/or permanent storage, and may provide the stored data to server 112 for use. It is contemplated that database 150 may be partitioned into multiple distributed databases without departing from the scope of the present technology.

[66] База 150 данных может быть выполнена с возможностью хранения данных 170 для поддержки служб перевода, обеспечиваемых системой 160 перевода сервера 170. То, какие данные могут быть частью данных 170, будет более подробно описано в данном документе ниже со ссылкой на Фигуру 3.[66] The database 150 may be configured to store data 170 to support the translation services provided by the translation system 160 of the server 170. What data may be part of the data 170 will be described in more detail herein below with reference to Figure 3.

[67] Вообще говоря, сервер 112 может находиться под контролем и/или управлением поставщика службы перевода (не показан), например оператора служб перевода Яндекс™. Предполагается, что поставщик служб перевода и поставщик приложения браузера могут быть одним и тем же поставщиком. Например, приложение браузера (например, браузер Яндекс™) и службы перевода (например, службы перевода Яндекс™) могут предоставляться, контролироваться и/или управляться одним и тем же оператором или организацией.[67] Generally speaking, server 112 may be under the control and/or management of a translation service provider (not shown), such as a Yandex™ translation services operator. It is assumed that the translation service provider and the browser application provider can be the same provider. For example, a browser application (eg, Yandex™ Browser) and translation services (eg, Yandex™ Translation Services) may be provided, controlled, and/or operated by the same operator or entity.

[68] Как упоминалось выше, сервер 112 размещает систему 160 перевода. Вообще говоря, система 160 перевода воплощается как множество реализуемых компьютером процедур, которые выполнены с возможностью перевода одного или более предложений с исходного языка на целевой язык.[68] As mentioned above, the server 112 hosts the translation system 160. Generally speaking, the translation system 160 is embodied as a set of computer-implemented procedures that are configured to translate one or more sentences from a source language to a target language.

[69] Следует отметить, что система 160 перевода может быть выполнена с возможностью исполнения одного или более алгоритмов машинного обучения (MLA). Вообще говоря, MLA могут учиться по обучающим выборкам и делать прогнозы на основе новых (неизвестных) данных. MLA обычно используются для изначального построения модели на основе обучающих входных данных, чтобы затем делать прогнозы или принимать основанные на данных решения, выражаемые в виде выходных данных, а не следовать статичным считываемым компьютером инструкциям.[69] It should be noted that the translation system 160 may be configured to execute one or more machine learning algorithms (MLA). Generally speaking, MLAs can learn from training samples and make predictions based on new (unknown) data. MLAs are typically used to initially build a model based on training inputs to then make predictions or data-driven decisions expressed as outputs rather than following static computer-readable instructions.

[70] MLA обычно используются в качестве моделей оценки, моделей перевода, моделей классификации и подобного. Следует понимать, что разные типы MLA, имеющих разные структуры или топологии, могут использоваться для различных задач.[70] MLAs are commonly used as evaluation models, translation models, classification models, and the like. It should be understood that different types of MLAs having different structures or topologies may be used for different tasks.

[71] Один конкретный тип MLA включает в себя нейронные сети (NN). Вообще говоря, определенная NN состоит из взаимосвязанной группы искусственных «нейронов», которые обрабатывают информацию, используя коннекционистский подход к вычислению. NN используются для моделирования сложных взаимосвязей между входными и выходными данными (без фактического знания этих взаимосвязей) или для поиска закономерностей в данных. NN сначала подготавливаются во время фазы обучения, во время которой им обеспечивается некоторый известный набор «входных данных» и информации для адаптации NN к генерированию надлежащих выходных данных (для некоторой определенной ситуации, которую пытаются смоделировать). Во время этой фазы обучения эта NN адаптируется к изучаемой ситуации и меняет свою структуру так, чтобы данная NN могла обеспечивать разумные прогнозные выходные данные для определенных входных данных во время некоторой новой ситуации (на основе того, что было изучено). Таким образом, вместо того, чтобы пытаться определить сложные статистические схемы или математические алгоритмы для некоторой определенной ситуации; определенная NN пытается дать «интуитивный» ответ, основанный на «восприятии» ситуации.[71] One particular type of MLA includes neural networks (NNs). Generally speaking, a given NN consists of an interconnected group of artificial "neurons" that process information using a connectionist approach to computation. NNs are used to model complex relationships between inputs and outputs (without actually knowing those relationships) or to look for patterns in data. NNs are first trained during a training phase, during which they are provided with some known set of "inputs" and information to adapt the NN to generate the proper output (for some particular situation that is being modeled). During this learning phase, this NN adapts to the situation being learned and changes its structure so that the given NN can provide reasonable predictive output for certain inputs during some new situation (based on what has been learned). Thus, instead of trying to define complex statistical schemes or mathematical algorithms for some specific situation; a certain NN tries to give an "intuitive" answer based on the "perception" of the situation.

[72] NN обычно используются во многих таких ситуациях, в которых важно знать лишь выходные данные, основанные на некоторых определенных входных данных, но то, как именно эти выходные данные были получены, имеет меньшее значение или значения не имеет. Например, NN обычно используются для оптимизации распределения веб-трафика между серверами, автоматического перевода текста на разные языки, обработки данных, включая фильтрацию, кластеризацию, векторное представление и подобное.[72] NNs are commonly used in many of these situations in which it is important to know only the output based on some specific input, but how that output was obtained is of little or no importance. For example, NNs are commonly used to optimize the distribution of web traffic between servers, automatic translation of text into different languages, data processing, including filtering, clustering, vector representation, and the like.

[73] В некоторых вариантах осуществления настоящей технологии сервер 112 может быть выполнен с возможностью исполнения модели типа кодер-декодер. Например, кодирующая часть таких моделей может быть предназначена для исходных языков, в то время как декодирующая часть таких моделей может быть предназначена для целевых языков. В других вариантах осуществления сервер 112 может быть выполнен с возможностью исполнения модели типа трансформера.[73] In some embodiments of the present technology, server 112 may be configured to execute an encoder-decoder model. For example, the encoding part of such models may be for source languages, while the decoding part of such models may be for target languages. In other embodiments, server 112 may be configured to execute a transformer type model.

[74] Кроме того, реализацию определенной MLA сервером 112 можно в общем разделить на две фазы - фазу обучения и фазу использования. Сначала, определенный MLA обучают во время фазы обучения. Затем, как только определенный MLA узнает, какие данные следует ожидать в качестве входных данных и какие данные следует обеспечивать в качестве выходных данных, определенный MLA фактически прогоняют с использованием используемых данных во время фазы использования.[74] In addition, the implementation of a certain MLA by the server 112 can be generally divided into two phases, a learning phase and a usage phase. First, a specific MLA is taught during the training phase. Then, once the determined MLA knows what data to expect as input and what data to provide as output, the determined MLA is actually run using the used data during the use phase.

[75] Как показано на Фигуре 1, сервер 112 выполнен с возможностью исполнения первой модели 120 перевода, второй модели 130 перевода и модели 140 транслитерации. В некоторых вариантах осуществления настоящей технологии первая модель 120 перевода, вторая модель 130 перевода и модель 140 транслитерации могут быть реализованы сервером 112 как соответствующие MLA, обученные для выполнения соответствующих компьютерных задач. То, как первая модель 120 перевода, вторая модель 130 перевода и модель 140 транслитерации могут быть реализованы сервером 112, будет дополнительно описано ниже в данном документе.[75] As shown in Figure 1, the server 112 is configured to execute the first translation model 120, the second translation model 130, and the transliteration model 140. In some embodiments of the present technology, the first translation model 120, the second translation model 130, and the transliteration model 140 may be implemented by the server 112 as corresponding MLAs trained to perform the respective computer tasks. How the first translation model 120, the second translation model 130, and the transliteration model 140 may be implemented by the server 112 will be further described later in this document.

[76] Со ссылкой на Фигуру 2 проиллюстрировано представление 200 трех групп языков, а именно первой группы 210 языков, второй группы 220 языков и третьей группы 230 языков. Вообще говоря, некоторая определенная группа языков содержит один или более языков из языкового семейства и связаны через происхождение от общего предкового языка или родительского языка, обычно называемого протоязыком этого семейства.[76] Referring to Figure 2, a representation 200 of three language groups is illustrated, namely the first language group 210, the second language group 220, and the third language group 230. Generally speaking, a certain group of languages contains one or more languages from a language family and are related through descent from a common ancestral language or parent language, usually referred to as the proto-language of that family.

[77] Как показано, (i) первая группа 210 языков содержит языки 211, 212, 213 и 214, (ii) вторая группа 220 языков содержит языки 221, 222, 223 и 224 и (iii) третья группа 230 языков содержит языки 231, 232, 233 и 234. Для иллюстрации предположим, что первая группа 210 языков 210 представляет собой тюркскую группу языков, вторая группа 220 языков представляет собой германскую группу языков, а третья группа 230 языков представляет собой романскую группу языков. В таком примере:[77] As shown, (i) the first language group 210 contains languages 211, 212, 213, and 214, (ii) the second language group 220 contains languages 221, 222, 223, and 224, and (iii) the third language group 230 contains languages 231 , 232, 233, and 234. For illustration, assume that the first language group 210 210 is the Turkic language group, the second language group 220 is the Germanic language group, and the third language group 230 is the Romance language group. In such an example:

языками 211, 212, 213 и 214 в тюркской группе языков соответственно могут быть чувашский язык, узбекский язык, киргизский язык и турецкий языки;the languages 211, 212, 213, and 214 in the Turkic language group, respectively, may be Chuvash, Uzbek, Kyrgyz, and Turkish;

языками 221, 222, 223 и 224 в германской группе языков соответственно могут быть английский язык, немецкий язык, голландский язык и фарерский язык; иthe languages 221, 222, 223 and 224 in the Germanic language group may respectively be English, German, Dutch and Faroese; And

языками 231, 232, 233 и 234 в романской группе языков соответственно могут быть французский язык, итальянский язык, испанский язык и галисийский язык.languages 231, 232, 233, and 234 in the Romance language group, respectively, may be French, Italian, Spanish, and Galician.

[78] Сервер 112 может быть выполнен с возможностью выполнения первой модели 120 перевода, выполненной с возможностью перевода предложений с любого языка из некоторой определенной группы языков на некоторый определенный целевой язык. Предположим, что модель 120 перевода выполнена с возможностью перевода между языками первой группы 210(тюркской группы языков) и русским языком (целевой язык). В таком случае сервер 112 может быть выполнен с возможностью использования модели 120 перевода для перевода предложений на любом из чувашского языка, узбекского языка, киргизского языка и турецкого языка на русский язык. В этом примере модель 120 перевода можно назвать моделью перевода «c пантюркского на русский». [78] The server 112 may be configured to execute a first translation model 120 configured to translate sentences from any language in some specific language group into some specific target language. Assume that the translation model 120 is configured to translate between the languages of the first group 210 (the Turkic language group) and Russian (the target language). In such a case, server 112 may be configured to use translation model 120 to translate sentences in any of Chuvash, Uzbek, Kyrgyz, and Turkish into Russian. In this example, the translation model 120 can be referred to as the "Pan-Turkic to Russian" translation model.

[79] Следует отметить, что некоторая определенная группа языков может содержать некоторый определенный язык, который имеет ограниченное число реальных примеров перевода между этим языком и целевым языком. В контексте настоящей технологии некоторый определенный язык, имеющий ограниченное число реальных примеров перевода между этим языком и целевым языком, называется «редким» языком.[79] It should be noted that a particular group of languages may contain a particular language that has a limited number of actual examples of translation between that language and the target language. In the context of the present technology, a particular language that has a limited number of actual examples of translation between that language and the target language is referred to as a "rare" language.

[80] Например, в тюркской группе языков редким языком может быть чувашский язык, поскольку существует ограниченное число реальных примеров перевода с чувашского языка на русский язык (или наоборот). В германской группе языков редким языком может быть фарерский язык, поскольку существует ограниченное число реальных примеров перевода с фарерского языка на русский язык (или наоборот). В романской группе языков редким языком может быть галисийский язык, поскольку существует ограниченное число реальных примеров перевода с галисийского языка на русский язык (или наоборот).[80] For example, in the Turkic group of languages, Chuvash may be a rare language, since there are a limited number of real examples of translation from Chuvash into Russian (or vice versa). In the Germanic group of languages, Faroese may be a rare language, since there are a limited number of real examples of translation from Faroese into Russian (or vice versa). In the Romance group of languages, Galician may be a rare language, since there are a limited number of real examples of translation from Galician into Russian (or vice versa).

[81] Как будет обсуждаться в данном документе более подробно ниже, можно сказать, что число реальных примеров, доступных между редким языком и целевым языком, сравнительно невелико по сравнению с числом реальных примеров между другими языками из некоторой определенной группы языков и целевым языком.[81] As will be discussed in more detail in this document below, it can be said that the number of real examples available between the rare language and the target language is relatively small compared to the number of real examples between other languages from a certain group of languages and the target language.

[82] Как упомянуто выше, сервер 112 выполнен с возможностью исполнения модели 140 транслитерации. Вообще говоря, модель 140 транслитерации выполнена с возможностью транслитерации предложений с любого языка из некоторой определенной группы языков в «систему синтетического письма». Например, тюркская группа или семья языков содержит, среди прочих, турецкий, киргизский, узбекский и чувашский языки. В этом примере, в зависимости от конкретного тюркского исходного языка, слово «серебро» может быть записано как «gümüş», «көмөш», «көмеш», «күміс», «күмүш», «gümüş», «kumush» и «кӗмӗл». Таким образом, модель 140 транслитерации выполнена с возможностью вывода одинаковой транслитерации некоторого определенного слова в системе синтетического письма, независимо от того, какой из тюркских языков является исходным языком для данного определенного слова.[82] As mentioned above, the server 112 is configured to execute the transliteration model 140. Generally speaking, the transliteration model 140 is configured to transliterate sentences from any language from a certain group of languages into a "synthetic writing system". For example, the Turkic group or language family contains Turkish, Kyrgyz, Uzbek, and Chuvash, among others. In this example, depending on the specific Turkic source language, the word "silver" can be written as "gümüş", "kömösh", "kömesh", "kümis", "kümush", "gümüş", "kumush" and "kömöl ". Thus, the transliteration model 140 is configured to output the same transliteration of a particular word in the synthetic writing system, regardless of which Turkic language is the source language for that particular word.

[83] То, как модель 140 транслитерации реализуется, конкретным образом не ограничивается. В одном варианте осуществления модель 140 транслитерации может быть реализована как модель статистического машинного перевода (SMT), обученная транслитерировать предложения с любого одного языка из некоторой определенной группы языков в систему синтетического письма.[83] How the transliteration model 140 is implemented is not particularly limited. In one embodiment, the transliteration model 140 may be implemented as a statistical machine translation (SMT) model trained to transliterate sentences from any one language from a certain group of languages into a synthetic writing system.

[84] В некоторых вариантах осуществления настоящей технологии предполагается, что сервер 112 может быть выполнен с возможностью генерирования некоторой определенной функции транслитерации путем обучения модели SMT на основе выровненных корпусов текста между языками в некоторой определенной группе языков. В этих вариантах осуществления модель SMT обучается для определения правил транслитерации между предложениями на каждом из языков этой определенной группы и синтетическими версиями этих предложений в системе синтетического письма.[84] In some embodiments of the present technology, it is contemplated that server 112 can be configured to generate some specific transliteration function by learning an SMT model based on justified text corpora between languages in some specific language group. In these embodiments, the SMT model is trained to determine transliteration rules between sentences in each of the languages of that particular group and synthetic versions of those sentences in a synthetic writing system.

[85] В по меньшей мере некоторых вариантах осуществления настоящей технологии функция транслитерации может быть сгенерирована сервером 112 с использованием параллельных корпусов текста, извлеченных из литературных произведений, содержащих точно выровненные предложения. Такие литературные произведения могут содержать Библию, Коран, Тору и подобные, где каждое предложение однозначно идентифицируется в своих соответствующих лингвистических версиях.[85] In at least some embodiments of the present technology, a transliteration function may be generated by server 112 using parallel text corpora extracted from literary works containing finely aligned sentences. Such literary works may contain the Bible, the Quran, the Torah, and the like, where each sentence is uniquely identified in its respective linguistic versions.

[86] Со ссылкой на Фигуру 3 проиллюстрировано представление 300 по меньшей мере некоторых данных, хранящихся посредством базы 150 данных. Более конкретно, на ней проиллюстрировано представление 350 множества 310 реальных примеров параллельных предложений. Проиллюстрированы первый реальный пример 322, второй реальный пример 324, третий реальный пример 326 и четвертый реальный пример 328. Множество 310 реальных примеров параллельных предложений является частью данных 170, хранящихся посредством базы 150 данных.[86] With reference to Figure 3, a representation 300 of at least some of the data stored by the database 150 is illustrated. More specifically, it illustrates a representation 350 of a set 310 of real examples of parallel sentences. The first real example 322, the second real example 324, the third real example 326 and the fourth real example 328 are illustrated.

[87] Следует отметить, что база 150 данных хранит множество 310 реальных примеров для группы 210 языков. Другими словами, множество 310 реальных примеров содержит реальные примеры параллельных предложений между языками в группе 210 языков и целевым языком.[87] It should be noted that the database 150 stores a plurality of 310 real examples for the group 210 languages. In other words, real example set 310 contains real examples of parallel sentences between languages in the language group 210 and the target language.

[88] Например, предположим, что:[88] For example, suppose that:

в первом реальном примере 322 есть предложение 302 на чувашском языке и предложение 312 на русском языке;in the first real example 322 there is sentence 302 in Chuvash and sentence 312 in Russian;

во втором реальном примере 324 есть предложение 304 на узбекском языке и предложение 314 на русском языке;in the second real example 324 there is sentence 304 in Uzbek and sentence 314 in Russian;

в третьем реальном примере 326 есть предложение 306 на киргизском языке и предложение 316 на русском языке; иin the third real example 326 there is sentence 306 in Kyrgyz and sentence 316 in Russian; And

в четвертом реальном примере 328 есть предложение 308 на турецком языке и предложение 318 на русском языке.in the fourth real example 328 there is sentence 308 in Turkish and sentence 318 in Russian.

[89] Как упоминалось выше, чувашский язык является редким языком в группе 210 языков, поскольку ограниченное число реальных примеров доступно в базе 150 данных. Это означает, что число реальных примеров во множестве 310 примеров, которые имеются между чувашским языком и русским языком, значительно меньше, чем число реальных примеров между другими языками из группы 210 языков и русским языком. Как станет очевидно из приведенного ниже описания, множество 310 реальных примеров может использоваться сервером 112 для обучения модели 120 перевода.[89] As mentioned above, Chuvash is a rare language in the group of 210 languages, since a limited number of real examples are available in the 150 database. This means that the number of real examples in the set of 310 examples that exist between Chuvash and Russian is much less than the number of real examples between other languages from the group of 210 languages and Russian. As will become apparent from the description below, a set of 310 real examples can be used by the server 112 to train the translation model 120.

[90] На Фигуре 3 также проиллюстрировано представление 380 множества 390 «чистых» предложений на целевом языке. Предложения во множестве 390 чистых предложений могут быть выбраны людьми-оценщиками, например, которым поручено идентифицировать предложения на целевом языке, которые написаны аккуратно. Как будет дополнительно описано в данном документе ниже, множество 390 чистых предложений на целевом языке может быть использовано сервером 112 для генерирования «искусственных» примеров перевода между некоторым определенным редким языком и целевым языком, которые могут использоваться для дополнительного обучения модели 120 перевода.[90] Figure 3 also illustrates a representation 380 of a set of 390 "pure" sentences in the target language. The sentences in the clean sentence set 390 can be selected by human evaluators, for example, who are tasked with identifying sentences in the target language that are neatly written. As will be further described herein below, the net sentence set 390 in the target language may be used by the server 112 to generate "artificial" translation examples between some specific rare language and the target language, which may be used to further train the translation model 120.

[91] Со ссылкой на Фигуру 4 проиллюстрировано представление 400 того, как вторая модель 130 перевода может быть использована сервером 112 для выполнения перевода с исходного языка на целевой язык, и представление 450 того, как вторая модель 130 перевода используется сервером 112 для выполнения «обратного перевода» с целевого языка на исходный язык в контексте настоящей технологии.[91] Referring to Figure 4, illustrated is a representation 400 of how the second translation model 130 may be used by the server 112 to perform translation from a source language to a target language, and a representation 450 of how the second translation model 130 is used by the server 112 to perform "reverse translation" from the target language to the source language in the context of the present technology.

[92] Вторая модель 130 перевода может быть обучена сервером 112 на основе реальных примеров между редким языком (то есть исходным языком) и целевым языком из множества 310 реальных примеров. Например, во время ее фазы обучения сервер 112 может быть выполнен с возможностью использования некоторого определенного предложения на чувашском языке в качестве входных данных во вторую модель 130 перевода, а выходные данные второй модели 130 перевода могут сравниваться с параллельным предложением на русском языке для подстройки второй модели 130 перевода. По существу, вторая модель 130 перевода может быть обучена для приема, во время фазы ее использования, некоторого определенного предложения 402 на чувашском языке и вывода используемого предложения 404 на русском языке.[92] The second translation model 130 can be trained by the server 112 based on real examples between a rare language (ie, source language) and a target language from a set of 310 real examples. For example, during its training phase, the server 112 may be configured to use some specific Chuvash language sentence as input to the second translation model 130, and the output of the second translation model 130 may be compared to the parallel Russian sentence to adjust the second model. 130 translations. As such, the second translation model 130 can be trained to receive, during its use phase, some specific sentence 402 in Chuvash and output the used sentence 404 in Russian.

[93] Следует отметить, что качество перевода обученной таким образом второй модели 130 перевода может быть ограничено из-за числа реальных примеров перевода между чувашским языком и русским языком, доступных для целей обучения, поскольку чувашский язык является редким языком.[93] It should be noted that the quality of the translation of the second translation model 130 thus trained may be limited due to the number of real examples of translation between Chuvash and Russian available for training purposes, since Chuvash is a rare language.

[94] Однако в контексте настоящей технологии предполагается, что сервер 112 может быть выполнен с возможностью использования второй модели 130 перевода для выполнения обратного перевода с целевого языка (например, русского) на редкий язык (например, чувашский). Как показано на Фигуре 4, несмотря на то, что сервер 112 может обучать вторую модель 130 перевода переводить предложения в направлении 410 (с редкого на целевой), сервер 112 может быть выполнен с возможностью использования второй модели 130 перевода для перевода в направлении 420 (с целевого на редкий), противоположном направлению 410.[94] However, in the context of the present technology, it is contemplated that the server 112 may be configured to use the second translation model 130 to perform back translation from a target language (eg, Russian) to a rare language (eg, Chuvash). As shown in Figure 4, while server 112 may train second translation model 130 to translate sentences in direction 410 (rare to target), server 112 may be configured to use second translation model 130 to translate in direction 420 (from target to rare) opposite direction 410.

[95] Сервер 112 может быть выполнен с возможностью использования второй модели 130 перевода в направлении 420 для генерирования искусственных примеров перевода между редким языком и целевым языком. С этой целью сервер 112 может быть выполнен с возможностью извлечения множества 390 чистых предложений на целевом языке (например, аккуратно написанных предложений на русском языке) и ввода их во вторую модель 130 перевода для выполнения обратного перевода на чувашский язык. Таким образом, сервер 112 может быть выполнен с возможностью генерирования искусственного предложения 451 для предложения 391, искусственного предложения 452 для предложения 392 и искусственного предложения 453 для предложения 393.[95] The server 112 may be configured to use the second translation model 130 in direction 420 to generate artificial translation examples between the rare language and the target language. To this end, the server 112 may be configured to extract a plurality of 390 clean sentences in the target language (eg, neatly written sentences in Russian) and input them into the second translation model 130 to perform a reverse translation into Chuvash. Thus, server 112 may be configured to generate artificial offer 451 for offer 391, artificial offer 452 for offer 392, and artificial offer 453 for offer 393.

[96] Сервер 112 может быть выполнен с возможностью генерирования множества 480 искусственных примеров между редким языком и целевым языком. Как показано на Фигуре 4 упомянутое множество искусственных примеров 480 содержит:[96] The server 112 may be configured to generate a plurality of 480 artificial examples between the rare language and the target language. As shown in Figure 4, said set of artificial examples 480 contains:

искусственный пример 481 с искусственным предложением 451 и предложением 391;artificial example 481 with artificial sentence 451 and sentence 391;

искусственный пример 482 с искусственным предложением 452 и предложением 392; иartificial example 482 with artificial sentence 452 and sentence 392; And

искусственный пример 483 с искусственным предложением 453 и предложением 393.artificial example 483 with artificial sentence 453 and sentence 393.

[97] Сервер 112 может быть выполнен с возможностью использования множества 480 искусственных примеров в дополнение к упомянутому множеству 310 реальных примеров для обучения первой модели 120 перевода. Как теперь будет описано со ссылкой на Фигуру 5, сервер 112 может быть выполнен с возможностью использования модели 140 транслитерации для того, чтобы генерировать множество синтетических реальных примеров на основе упомянутого множества 310 реальных примеров и множества синтетических искусственных примеров, основанных на упомянутом множестве 480 искусственных примеров.[97] The server 112 may be configured to use a plurality of 480 artificial examples in addition to the aforementioned set 310 of real examples to train the first translation model 120. As will now be described with reference to Figure 5, the server 112 may be configured to use the transliteration model 140 to generate a set of synthetic real examples based on said set 310 of real examples and a set of synthetic artificial examples based on said set 480 of artificial examples. .

[98] На Фигуре 5 проиллюстрировано представление 500 того, как сервер 112 может быть выполнен с возможностью генерирования синтетического реального примера 560 на основе реального примера 322, и представление 550 того, как сервер 112 может быть выполнен с возможностью генерирования синтетического искусственного примера 570 на основе искусственного примера 481.[98] Figure 5 illustrates a representation 500 of how a server 112 can be configured to generate a synthetic real example 560 based on a real example 322, and a representation 550 of how a server 112 can be configured to generate a synthetic artificial example 570 based on artificial example 481.

[99] Сервер 112 выполнен с возможностью ввода предложения 302 из реального примера 322 в модель 140 транслитерации, которая выполнена с возможностью вывода синтетического предложения 502, написанного в системе синтетического письма. Сервер 112 выполнен с возможностью генерирования синтетического реального примера 560 путем объединения в пару синтетического предложения 502 с предложением 312 из реального примера 322. Следует отметить, что сервер 112 может быть выполнен с возможностью генерирования множества синтетических реальных примеров на основе соответствующих примеров из упомянутого множества 310 реальных примеров аналогично тому, как синтетический реальный пример 560 генерируется на основе реального примера 322.[99] The server 112 is configured to input a sentence 302 from a real example 322 into a transliteration model 140, which is configured to output a synthetic sentence 502 written in a synthetic writing system. The server 112 is configured to generate a synthetic real example 560 by pairing the synthetic sentence 502 with the sentence 312 from the real example 322. examples in the same way that a synthetic real example 560 is generated from a real example 322.

[100] Сервер 112 выполнен с возможностью ввода искусственного предложения 451 из искусственного примера 481 в модель 140 транслитерации, которая выполнена с возможностью вывода синтетического предложения 551, написанного в системе синтетического письма. Сервер 112 выполнен с возможностью генерирования синтетического искусственного примера 570 путем объединения в пару синтетического предложения 551 с предложением 391 из искусственного примера 481. Следует отметить, что сервер 112 может быть выполнен с возможностью генерирования множества синтетических искусственных примеров на основе соответствующих примеров из упомянутого множества 480 искусственных примеров аналогично тому, как синтетический искусственный пример 570 генерируется на основе искусственного примера 481.[100] The server 112 is configured to input the artificial sentence 451 from the artificial example 481 into the transliteration model 140, which is configured to output the synthetic sentence 551 written in the synthetic writing system. Server 112 is configured to generate a synthetic artificial example 570 by pairing synthetic sentence 551 with sentence 391 from artificial example 481. examples in the same way as synthetic artificial example 570 is generated based on artificial example 481.

[101] Со ссылкой на Фигуру 7 проиллюстрировано представление 600 отдельной итерации обучения, выполняемой в отношении первой модели 120 перевода на основе синтетического реального примера 560, и представление 602 отдельной итерации обучения, выполняемой в отношении первой модели 120 перевода на основе синтетического искусственного примера 570.[101] Referring to Figure 7, illustrated is a representation 600 of a single training iteration performed on a first translation model 120 based on a synthetic real example 560, and a representation 602 of a single training iteration performed on a first translation model 120 based on a synthetic artificial example 570.

[102] Сервер 112 может использовать синтетический реальный пример 560 для генерирования синтетического реального обучающего набора 610. Сервер 112 может быть выполнен с возможностью ввода синтетического предложения 502 в первую модель 120 перевода, а первая модель 120 перевода выполнена с возможностью вывода предложения 612 на целевом языке. Сервер 112 выполнен с возможностью сравнения предложения 612 с предложением 312 из синтетического реального обучающего набора 610 и выполнен с возможностью, основываясь на этом сравнении, подстройки первой модели 120 перевода. С этой целью сервер 112 может быть выполнен с возможностью применения одного или более методов подстройки, например метода обратного распространения ошибки. Однако могут использоваться другие методы подстройки, известные в данной области техники.[102] The server 112 may use the synthetic real example 560 to generate the synthetic real training set 610. The server 112 may be configured to input the synthetic sentence 502 into the first translation model 120, and the first translation model 120 may be configured to output the sentence 612 in the target language . The server 112 is configured to compare sentence 612 with sentence 312 from the synthetic real training set 610 and is configured to adjust the first translation model 120 based on this comparison. To this end, server 112 may be configured to apply one or more tuning techniques, such as backpropagation. However, other tuning methods known in the art may be used.

[103] Сервер 112 может быть выполнен с возможностью генерирования множества синтетических реальных обучающих наборов на основе множества синтетических реальных примеров, аналогично тому, как сервер 112 выполнен с возможностью генерирования синтетического реального обучающего набора 610. Сервер 112 может быть выполнен с возможностью выполнения большого числа итераций обучения на основе соответствующих примеров из упомянутого множества синтетических реальных примеров, аналогично тому, как сервер 112 выполнен с возможностью выполнения итерации обучения на основе синтетического реального обучающего набора 610.[103] Server 112 may be configured to generate a plurality of synthetic real training sets based on a plurality of synthetic real examples, similar to how server 112 may be configured to generate a synthetic real training set 610. Server 112 may be configured to perform a large number of iterations learning from the corresponding examples from said set of synthetic real examples, similar to how the server 112 is configured to iterate learning from the synthetic real training set 610.

[104] Помимо использования множества синтетических реальных примеров для обучения первой модели 120 перевода, сервер 112 также выполнен с возможностью использования множества синтетических искусственных примеров для обучения первой модели 120 перевода. Это может позволить повысить качество перевода первой модели 120 перевода, когда исходное предложение написано на редком языке.[104] In addition to using a plurality of synthetic real examples to train the first translation model 120, the server 112 is also configured to use a plurality of synthetic artificial examples to train the first translation model 120. This can improve the quality of the translation of the first translation model 120 when the original sentence is written in a rare language.

[105] Сервер 112 может использовать синтетический искусственный пример 570 для генерирования синтетического искусственного обучающего набора 620. В некоторых вариантах осуществления сервер 112 может быть выполнен с возможностью генерирования метки 625, указывающей, что синтетический искусственный обучающий набор 620 сгенерирован на основе некоторого определенного искусственного примера, в отличие от некоторого определенного реального примера.[105] Server 112 may use synthetic artificial example 570 to generate synthetic artificial training set 620. In some embodiments, server 112 may be configured to generate a label 625 indicating that synthetic artificial training set 620 is generated based on some particular artificial example, as opposed to some specific real world example.

[106] Сервер 112 может быть выполнен с возможностью ввода синтетического предложения 551 в первую модель 120 перевода, а первая модель 120 перевода выполнена с возможностью вывода предложения 622 на целевом языке. Сервер 112 выполнен с возможностью сравнения предложения 622 с предложением 391 из синтетического искусственного обучающего набора 620 и выполнен с возможностью, основываясь на этом сравнении, подстройки первой модели 120 перевода. С этой целью сервер 112 может быть выполнен с возможностью применения одного или более методов подстройки, например метода обратного распространения ошибки. Однако могут использоваться другие методы подстройки, известные в данной области техники.[106] The server 112 may be configured to input the synthetic sentence 551 into the first translation model 120, and the first translation model 120 may be configured to output the sentence 622 in the target language. Server 112 is configured to compare sentence 622 with sentence 391 from synthetic artificial training set 620 and is configured to adjust first translation model 120 based on this comparison. To this end, server 112 may be configured to apply one or more tuning techniques, such as backpropagation. However, other tuning methods known in the art may be used.

[107] Следует отметить, что в некоторых вариантах осуществления настоящей технологии сервер 112 может быть дополнительно выполнен с возможностью ввода метки 625, указывающей, что обучающий набор основан на искусственном примере перевода, а не на реальном примере перевода. Это может позволить первой модели 120 перевода различать искусственные и реальные примеры перевода. То, что первая модель 120 перевода способна различать искусственные и реальные примеры, может позволить первой модели 120 перевода минимизировать эффект итераций обучения, выполняемых на основе искусственных примеров, по сравнению с итерациями обучения, выполняемыми на основе реальных примеров.[107] It should be noted that in some embodiments of the present technology, the server 112 may be further configured to input a label 625 indicating that the training set is based on an artificial translation example rather than a real translation example. This may allow the first translation model 120 to distinguish between artificial and real examples of translation. That the first translation model 120 is able to distinguish between artificial and real examples may allow the first translation model 120 to minimize the effect of training iterations performed on artificial examples compared to training iterations performed on real examples.

[108] Сервер 112 может быть выполнен с возможностью генерирования множества синтетических искусственных обучающих наборов на основе множества синтетических искусственных примеров, аналогично тому, как сервер 112 выполнен с возможностью генерирования синтетического искусственного обучающего набора 620. Сервер 112 может быть выполнен с возможностью выполнения большого числа итераций обучения на основе соответствующих примеров из упомянутого множества синтетических искусственных примеров, аналогично тому, как сервер 112 выполнен с возможностью выполнения итерации обучения на основе синтетического искусственного обучающего набора 620.[108] Server 112 may be configured to generate a plurality of synthetic artificial training sets based on a plurality of synthetic artificial examples, similar to how server 112 may be configured to generate a synthetic artificial training set 620. Server 112 may be configured to perform a large number of iterations learning from the respective examples from said set of synthetic artificial examples, similar to how the server 112 is configured to iterate learning from the synthetic artificial training set 620.

[109] В некоторых вариантах осуществления настоящей технологии сервер 112 может быть выполнен с возможностью исполнения фазы использования модели 120 перевода. Со ссылкой на Фигуру 7 проиллюстрировано представление 700 того, как сервер 112 может быть выполнен с возможностью генерирования предложения 706 на целевом языке на основе некоторого определенного используемого предложения 702 на редком языке.[109] In some embodiments of the present technology, the server 112 may be configured to execute the use phase of the translation model 120. With reference to Figure 7, a representation 700 of how the server 112 can be configured to generate a target language sentence 706 based on some specific rare language sentence 702 in use is illustrated.

[110] Сервер 112 выполнен с возможностью приема используемого предложения 702 на редком языке. Например, сервер 112 может быть выполнен с возможностью получения указания используемого предложения 702 от электронного устройства 104, связанного с пользователем 102, через сеть 110 связи. Сервер 112 выполнен с возможностью применения модели 140 транслитерации для того, чтобы сгенерировать синтетическое используемое предложение 704 на основе используемого предложения 702. Сервер 112 выполнен с возможностью ввода синтетического используемого предложения 704 в модель 120 перевода, которая выполнена с возможностью генерирования предложения 706, которое является переводом используемого предложения 702 с редкого языка на целевой язык.[110] The server 112 is configured to receive the used sentence 702 in a rare language. For example, the server 112 may be configured to receive an indication of the used sentence 702 from the electronic device 104 associated with the user 102 via the communication network 110. The server 112 is configured to apply the transliteration model 140 to generate a synthetic usage sentence 704 based on the usage sentence 702. The server 112 is configured to input the synthetic usage sentence 704 into the translation model 120, which is configured to generate a sentence 706 that is a translation used sentence 702 from the rare language to the target language.

[111] Со ссылкой на Фигуру 8 проиллюстрировано схематичное представление способа 800 обучения модели 120 перевода. Способ 800 выполняется сервером 112. Различные этапы реализуемого компьютером способа 800 теперь будут описаны более подробно.[111] With reference to Figure 8, a schematic representation of a method 800 for training a translation model 120 is illustrated. Method 800 is performed by server 112. The various steps of computer-implemented method 800 will now be described in more detail.

ЭТАП 802: получение некоторого определенного реального примера, имеющего первое предложение на одном языке из группы языков и соответствующее второе предложение на целевом языке, являющееся реальным переводом первого предложенияSTEP 802: Obtaining some specific real-world example having a first sentence in one language from the language group and a corresponding second sentence in the target language being a real translation of the first sentence

[112] Способ 800 начинается с этапа 802, на котором сервер 112 выполнен с возможностью получения некоторого определенного реального примера, имеющего первое предложение на одном языке из группы языков и соответствующее второе предложение на целевом языке, являющееся реальным переводом первого предложения. [112] The method 800 begins at step 802, in which the server 112 is configured to obtain some specific real example having a first sentence in one language from the language group and a corresponding second sentence in the target language being a real translation of the first sentence.

[113] Например, сервер 112 может быть выполнен с возможностью получения некоторого определенного примера из числа множества 310 реальных примеров (см. Фигуру 3). Предположим, что целевым языком является русский, а упомянутой группой языков является тюркская группа языков. Таким образом, сервер 112 может быть выполнен с возможностью получения некоторого примера из числа первого реального примера 322, второго реального примера 324, третьего реального примера 326 и четвертого реального примера 328.[113] For example, the server 112 may be configured to obtain some specific example from among the set 310 of real examples (see Figure 3). Assume that the target language is Russian and the mentioned language group is the Turkic group of languages. Thus, the server 112 may be configured to obtain some example from among the first real example 322, the second real example 324, the third real example 326, and the fourth real example 328.

[114] В некоторых вариантах осуществления группа языков представляет собой тюркскую группу языков. Тюркская группа языков содержит турецкий язык, узбекский язык, чувашский язык и киргизский язык. Чувашский язык является редким языком в тюркской группе языков.[114] In some embodiments, the language group is the Turkic language group. The Turkic language group contains Turkish, Uzbek, Chuvash and Kyrgyz. Chuvash is a rare language in the Turkic group of languages.

[115] В других вариантах осуществления группа языков представляет собой германскую группу языков. Германская группа языков содержит английский язык, немецкий язык, голландский язык и фарерский язык. Фарерский язык является редким языком в германской группе языков.[115] In other embodiments, the language group is the Germanic language group. The Germanic language group contains English, German, Dutch and Faroese. Faroese is a rare language in the Germanic language group.

[116] В дополнительных вариантах осуществления группа языков представляет собой романскую группу языков. Романская группа языков содержит французский язык, итальянский язык, испанский язык и галисийский язык. Галисийский язык является редким языком в романской группе языков.[116] In further embodiments, the language group is a Romance language group. The Romance language group contains French, Italian, Spanish and Galician. Galician is a rare language in the Romance group of languages.

ЭТАП 804: генерирование, применяя функцию транслитерации, первого синтетического предложения на основе первого предложения для определенного реального примераSTEP 804: generating, using the transliteration function, a first synthetic sentence based on the first sentence for a certain real-life example

[117] Способ 800 переходит на этап 804, на котором сервер 112 выполнен с возможностью генерирования, применяя функцию транслитерации, первого синтетического предложения на основе первого предложения для определенного реального примера. Первым синтетическим предложением является транслитерация первого предложения в систему синтетического письма. Тем самым сервер 112 генерирует синтетический реальный пример, имеющий первое синтетическое предложение и соответствующее второе предложение.[117] The method 800 proceeds to step 804, where the server 112 is configured to generate, using a transliteration function, a first synthetic sentence based on the first sentence for the determined real-life example. The first synthetic sentence is the transliteration of the first sentence into the synthetic writing system. Thereby, the server 112 generates a synthetic real example having a first synthetic sentence and a corresponding second sentence.

[118] Предположим, что первым предложением и вторым предложением упомянутого определенного реального примера являются предложение 302 и предложение 312 первого реального примера 322. Таким образом, сервер 112 выполнен с возможностью генерирования синтетического предложения 502 на основе предложения 302. Сервер 112 тем самым генерирует синтетический реальный пример 560, имеющий синтетическое предложение 502 и предложение 312.[118] Assume that the first sentence and the second sentence of said specific real example are sentence 302 and sentence 312 of the first real example 322. Thus, server 112 is configured to generate a synthetic sentence 502 based on sentence 302. Server 112 thereby generates a synthetic real example 560 having synthetic sentence 502 and sentence 312.

[119] В некоторых вариантах осуществления настоящей технологии сервер 112 может быть выполнен с возможностью генерирования функции транслитерации путем обучения модели SMT на основе выровненных корпусов текста между языками в определенной группе языков. Модель SMT обучается для определения правил транслитерации между предложениями на каждом из языков упомянутой группы и синтетическими предложениями в системе синтетического письма.[119] In some embodiments of the present technology, server 112 may be configured to generate a transliteration function by learning an SMT model based on justified text corpora between languages in a particular language group. The SMT model is trained to determine the rules of transliteration between sentences in each of the languages of the mentioned group and synthetic sentences in the synthetic writing system.

ЭТАП 806: получение третьего предложения на целевом языкеSTEP 806: receiving the third sentence in the target language

[120] Способ 800 переходит на этап 806, на котором сервер 112 выполнен с возможностью получения третьего предложения на целевом языке. Например, сервер 112 может быть выполнен с возможностью получения одного из множества 390 чистых предложений на целевом языке. Предположим, что сервер 112 получает из базы 150 данных предложение 391. Можно сказать, что предложение 391 является предложением высокого качества на целевом языке. Предложение 391 может быть предварительно выбрано человеком-оператором и сохранено в базе 150 данных.[120] Method 800 proceeds to step 806, where server 112 is configured to receive a third sentence in the target language. For example, server 112 may be configured to receive one of a plurality of 390 pure sentences in the target language. Suppose server 112 receives sentence 391 from database 150. Sentence 391 can be said to be a high quality sentence in the target language. Offer 391 may be preselected by a human operator and stored in database 150.

ЭТАП 808: генерирование, применяя другую модель перевода, четвертого предложения на редком языке для третьего предложения с использованием обратного переводаSTEP 808: generating, using a different translation model, a fourth rare language sentence for the third sentence using reverse translation

[121] Способ 800 переходит на этап 808, на котором сервер 112 выполнен с возможностью генерирования, применяя другую модель перевода, четвертого предложения на редком языке для третьего предложения с использованием обратного перевода. Четвертым предложением является искусственный перевод третьего предложения. Четвертое предложение и третье предложение образуют некоторый определенный искусственный пример. Например, сервер 112 может быть выполнен с возможностью использования модели 130 перевода в направлении 420 (обратный перевод) для перевода предложения 391 и, таким образом, генерирования предложения 451.[121] The method 800 proceeds to step 808, where the server 112 is configured to generate, using a different translation model, a fourth rare language sentence for the third sentence using reverse translation. The fourth sentence is an artificial translation of the third sentence. The fourth sentence and the third sentence form some definite artificial example. For example, server 112 may be configured to use translation model 130 in direction 420 (reverse translation) to translate sentence 391 and thus generate sentence 451.

[122] В некоторых вариантах осуществления упомянутая другая модель перевода может обучаться на основе реальных примеров между редким языком и целевым языком.[122] In some embodiments, said other translation model may be trained on real examples between a rare language and a target language.

[123] В других вариантах осуществления другой моделью перевода может быть упомянутая модель перевода. Другими словами, сервер 112 может быть выполнен с возможностью использования модели 120 перевода для выполнения обратного перевода предложения 391 для генерирования предложения 451. Это означает, что в таких вариантах осуществления упомянутой другой моделью перевода может быть модель 120 перевода, обучаемая сервером 112 с помощью способа 800. В таком варианте осуществления сервер 112 может быть выполнен с возможностью сначала обучения модели 120 перевода на основе синтетических реальных примеров, затем использования модели 120 перевода для генерирования синтетических искусственных примеров посредством обратного перевода, а затем дополнительного обучения модели 120 перевода на основе синтетических искусственных примеров.[123] In other embodiments, another translation model may be the above translation model. In other words, server 112 may be configured to use translation model 120 to back-translate sentence 391 to generate sentence 451. This means that in such embodiments, said other translation model may be translation model 120 trained by server 112 using method 800 In such an embodiment, server 112 may be configured to first train translation model 120 based on synthetic real examples, then use translation model 120 to generate synthetic artificial examples via back translation, and then further train translation model 120 based on synthetic artificial examples.

ЭТАП 810: генерирование, применяя функцию транслитерации, четвертого синтетического предложения на основе четвертого предложения для определенного искусственного примераSTEP 810: generating, using the transliteration function, a fourth synthetic sentence based on the fourth sentence for a certain artificial example

[124] Способ 800 переходит на этап 810, на котором сервер 112 выполнен с возможностью генерирования, применяя функцию транслитерации, четвертого синтетического предложения на основе четвертого предложения для определенного искусственного примера. Четвертым синтетическим предложением является транслитерация четвертого предложения в систему синтетического письма. Тем самым сервер 112 генерирует синтетический искусственный пример, имеющий четвертое синтетическое предложение и третье предложение.[124] The method 800 proceeds to step 810, where the server 112 is configured to generate, using the transliteration function, a fourth synthetic sentence based on the fourth sentence for the determined artificial example. The fourth synthetic sentence is the transliteration of the fourth sentence into the synthetic writing system. Thereby, the server 112 generates a synthetic artificial example having a fourth synthetic sentence and a third sentence.

[125] Например, сервер 112 может быть выполнен с возможностью генерирования синтетического предложения 551 на основе предложения 451. Таким образом сервер 112 может быть выполнен с возможностью генерирования синтетического искусственного примера 570, имеющего синтетическое предложение 551 и предложение 391.[125] For example, server 112 may be configured to generate a synthetic sentence 551 based on sentence 451. Thus, server 112 may be configured to generate a synthetic synthetic instance 570 having synthetic sentence 551 and sentence 391.

ЭТАП 812: обучение модели перевода на основе синтетического реального примера и синтетического искусственного примераSTEP 812: training a translation model based on a synthetic real example and a synthetic artificial example

[126] Способ 800 переходит на этап 812, на котором сервер 112 выполнен с возможностью обучения модели 120 перевода на основе синтетического реального примера и синтетического искусственного примера. Например, сервер 112 может быть выполнен с возможностью использования синтетического реального примера 560 и синтетического искусственного примера 570 для обучения модели 120 перевода. Сервер 112 выполнен с возможностью обучения модели 120 перевода для приема некоторого определенного используемого предложения на редком языке, генерирования синтетического используемого предложения на основе упомянутого определенного используемого предложения с применением функции транслитерации и перевода с использованием модели 120 перевода используемого синтетического предложения в соответствующее используемое предложение на целевом языке.[126] The method 800 proceeds to step 812, where the server 112 is configured to train the translation model 120 based on the synthetic real example and the synthetic artificial example. For example, server 112 may be configured to use synthetic real example 560 and synthetic artificial example 570 to train translation model 120. The server 112 is configured to train the translation model 120 to receive some specific used sentence in a rare language, generate a synthetic used sentence based on said specific used sentence using a transliteration function, and translate using the model 120 to translate the used synthetic sentence into the corresponding used sentence in the target language .

[127] В некоторых вариантах осуществления сервер 112 может быть выполнен с возможностью генерирования набора 620 обучающих данных на основе синтетического искусственного примера 570. Набор 620 обучающих данных содержит метку 625, указывающую, что четвертое синтетическое предложение 551 сгенерировано на основе искусственного перевода третьего предложения 391. Сервер 112 может вводить набор 625 обучающих данных в модель 120 перевода, а модель 120 перевода может использовать метку 625 для различения между (i) наборами обучающих данных, сгенерированными на основе реальных переводов, и (ii) наборами обучающих данных, сгенерированными на основе искусственных переводов.[127] In some embodiments, the server 112 may be configured to generate a training data set 620 based on the synthetic artificial example 570. The training data set 620 includes a label 625 indicating that the fourth synthetic sentence 551 was generated based on the artificial translation of the third sentence 391. Server 112 may input training dataset 625 to translation model 120, and translation model 120 may use label 625 to distinguish between (i) training datasets generated from real translations and (ii) training datasets generated from artificial translations .

[128] Например, во время фазы использования модели 120 перевода сервер 112 может быть выполнен с возможностью приема используемого предложения 702 на редком языке, генерирования синтетического используемого предложения 704 на основе используемого предложения 702 и генерирования используемого предложения 706 на целевом языке на основе используемого синтетического предложения 704.[128] For example, during the use phase of the translation model 120, the server 112 may be configured to receive a used sentence 702 in a rare language, generate a synthetic used sentence 704 based on the used sentence 702, and generate a used sentence 706 in the target language based on the used synthetic sentence. 704.

[129] Модификации и улучшения вышеописанных реализаций настоящей технологии могут стать очевидными для специалистов в данной области техники. Предшествующее описание предназначено для того, чтобы быть примерным, а не ограничивающим. Поэтому подразумевается, что объем настоящей технологии ограничен лишь объемом прилагаемой формулы изобретения.[129] Modifications and improvements to the above-described implementations of the present technology may become apparent to those skilled in the art. The preceding description is intended to be exemplary and not limiting. Therefore, the scope of the present technology is intended to be limited only by the scope of the appended claims.

Claims (80)

1. Способ обучения модели перевода для выполнения перевода между редким языком из группы языков и целевым языком, причем способ является исполняемым посредством сервера, сервер имеет доступ к множеству реальных примеров параллельных предложений между языками упомянутой группы и целевым языком, число реальных примеров между редким языком и целевым языком является сравнительно небольшим по сравнению с числом реальных примеров между другими языками из упомянутой группы языков и целевым языком, причем способ содержит:1. A method for training a translation model to perform translation between a rare language from a group of languages and a target language, wherein the method is executable by a server, the server has access to a plurality of real examples of parallel sentences between the languages of the mentioned group and the target language, the number of real examples between the rare language and the target language is relatively small compared to the number of real examples between other languages from said group of languages and the target language, the method comprising: получение сервером определенного реального примера, имеющего первое предложение на одном языке из группы языков и соответствующее второе предложение на целевом языке, являющееся реальным переводом первого предложения;receiving by the server a specific real example having a first sentence in one language of the language group and a corresponding second sentence in the target language being a real translation of the first sentence; генерирование сервером, применяющим функцию транслитерации, первого синтетического предложения на основе первого предложения для упомянутого определенного реального примера, причем первое синтетическое предложение является транслитерацией первого предложения в систему синтетического письма,generating, by the server applying the transliteration function, a first synthetic sentence based on the first sentence for said specific real-life example, the first synthetic sentence being the transliteration of the first sentence into the synthetic writing system, тем самым генерируя синтетический реальный пример, имеющий первое синтетическое предложение и соответствующее второе предложение;thereby generating a synthetic real-life example having a first synthetic sentence and a corresponding second sentence; получение сервером третьего предложения на целевом языке;receiving by the server a third sentence in the target language; генерирование сервером, применяющим другую модель перевода, четвертого предложения на редком языке для третьего предложения с использованием обратного перевода, четвертое предложение является искусственным переводом третьего предложения, причем четвертое предложение и третье предложение образуют определенный искусственный пример;the server using the different translation model generating a fourth sentence in rare language for the third sentence using reverse translation, the fourth sentence being an artificial translation of the third sentence, the fourth sentence and the third sentence forming a certain artificial example; генерирование сервером, применяющим функцию транслитерации, четвертого синтетического предложения на основе четвертого предложения для упомянутого определенного искусственного примера, причем четвертое синтетическое предложение является транслитерацией четвертого предложения в систему синтетического письма,generating, by the server applying the transliteration function, a fourth synthetic sentence based on the fourth sentence for said specific artificial example, the fourth synthetic sentence being the transliteration of the fourth sentence into the synthetic writing system, тем самым генерируя синтетический искусственный пример, имеющий четвертое синтетическое предложение и третье предложение;thereby generating a synthetic artificial example having a fourth synthetic sentence and a third sentence; обучение сервером упомянутой модели перевода на основе синтетического реального примера и синтетического искусственного примера, причем обучение проводят для:training by the server of the mentioned translation model based on a synthetic real example and a synthetic artificial example, and training is carried out for: приема определенного используемого предложения на редком языке;accepting a particular used sentence in a rare language; генерирования синтетического используемого предложения на основе упомянутого определенного используемого предложения с применением функции транслитерации, иgenerating a synthetic used sentence based on said specific used sentence using a transliteration function, and перевода с использованием модели перевода используемого синтетического предложения в соответствующее используемое предложение на целевом языке.translation using the model of translating the used synthetic sentence into the corresponding used sentence in the target language. 2. Способ по п. 1, при этом способ дополнительно содержит:2. The method of claim 1, wherein the method further comprises: генерирование сервером набора обучающих данных на основе синтетического искусственного примера,server generating a set of training data based on a synthetic artificial example, причем набор обучающих данных содержит метку, указывающую, что четвертое синтетическое предложение сгенерировано на основе искусственного перевода третьего предложения;moreover, the training data set contains a label indicating that the fourth synthetic sentence is generated based on an artificial translation of the third sentence; и при этом обучение модели перевода содержит:and at the same time, the training of the translation model contains: ввод сервером набора обучающих данных в модель перевода,input by the server of the training data set into the translation model, причем модель перевода использует метку для различения между (i) наборами обучающих данных, сгенерированными на основе реальных переводов, и (ii) наборами обучающих данных, сгенерированными на основе искусственных переводов.wherein the translation model uses a label to distinguish between (i) training datasets generated from real translations and (ii) training datasets generated from artificial translations. 3. Способ по п. 1, в котором генерирование синтетического реального примера содержит:3. The method of claim 1, wherein generating a synthetic real example comprises: генерирование сервером множества синтетических реальных примеров для соответствующих из упомянутого множества реальных примеров;generating by the server a plurality of synthetic real examples for corresponding ones from said plurality of real examples; и в котором третьим предложением является одно из упомянутого множества третьих предложений, и в котором генерирование синтетического искусственного примера содержит:and wherein the third sentence is one of said plurality of third sentences, and wherein the synthetic artificial example generation comprises: генерирование сервером множества синтетических искусственных примеров для соответствующих из упомянутого множества искусственных примеров;generating by the server a plurality of synthetic artificial examples for corresponding ones from said plurality of artificial examples; и при этом обучение модели перевода содержит:and at the same time, the training of the translation model contains: обучение сервером упомянутой модели перевода на основе упомянутого множества синтетических реальных примеров и упомянутого множества синтетических искусственных примеров.server training said translation model based on said set of synthetic real examples and said set of synthetic artificial examples. 4. Способ по п. 1, при этом способ дополнительно содержит:4. The method according to p. 1, while the method further comprises: генерирование сервером функции транслитерации путем обучения модели статистического машинного перевода (SMT) на основе выровненных корпусов текста между языками в упомянутой группе языков,server generating a transliteration function by training a statistical machine translation (SMT) model based on aligned text corpora between languages in said language group, причем модель SMT обучается для определения правил транслитерации между предложениями на каждом из языков упомянутой группы и синтетическими предложениями в системе синтетического письма.wherein the SMT model is trained to determine transliteration rules between sentences in each of the languages of said group and synthetic sentences in the synthetic writing system. 5. Способ по п. 1, в котором упомянутая группа языков представляет собой тюркскую группу языков, причем тюркская группа языков содержит турецкий язык, узбекский язык, чувашский язык и киргизский язык, причем редким языком является чувашский язык.5. The method according to claim 1, wherein said group of languages is a Turkic group of languages, wherein the Turkic group of languages comprises Turkish, Uzbek, Chuvash, and Kyrgyz, with Chuvash being a rare language. 6. Способ по п. 1, в котором упомянутая группа языков представляет собой германскую группу языков, причем германская группа языков содержит английский язык, немецкий язык, голландский язык и фарерский язык, причем редким языком является фарерский язык.6. The method of claim 1, wherein said language group is a Germanic language group, wherein the Germanic language group comprises English, German, Dutch and Faroese, with Faroese being a rare language. 7. Способ по п. 1, в котором упомянутая группа языков представляет собой романскую группу языков, причем романская группа языков содержит французский язык, итальянский язык, испанский язык и галисийский язык, причем редким языком является галисийский язык.7. The method of claim 1, wherein said language group is a Romance language group, wherein the Romance language group comprises French, Italian, Spanish, and Galician, with Galician being a rare language. 8. Способ по п. 1, в котором упомянутая другая модель перевода обучается на основе реальных примеров между редким языком и целевым языком.8. The method of claim 1, wherein said other translation model is trained based on real examples between the rare language and the target language. 9. Способ по п. 1, при этом способ дополнительно содержит:9. The method according to p. 1, while the method further comprises: прием сервером определенного используемого предложения на редком языке;receiving by the server a certain used sentence in a rare language; генерирование сервером, применяющим модель транслитерации, синтетического используемого предложения на основе упомянутого определенного используемого предложения; иgenerating, by the server applying the transliteration model, a synthetic use sentence based on said specific use sentence; And генерирование сервером, применяющим модель перевода, соответствующего используемого предложения на целевом языке на основе используемого синтетического предложения.generating, by the server applying the translation model, a corresponding used sentence in the target language based on the used synthetic sentence. 10. Способ по п. 1, в котором упомянутой другой моделью перевода является упомянутая модель перевода, и при этом обучение содержит:10. The method of claim 1, wherein said other translation model is said translation model, and wherein the training comprises: обучение сервером модели перевода на основе синтетических реальных примеров;training by the server of the translation model based on synthetic real examples; генерирование сервером, применяющим модель перевода, четвертого предложения на редком языке для третьего предложения с использованием обратного перевода; иgenerating, by the server applying the translation model, a fourth rare language sentence for the third sentence using reverse translation; And дополнительное обучение сервером модели перевода на основе синтетического искусственного примера.additional training by the server of the translation model based on a synthetic artificial example. 11. Способ по п. 1, в котором третьим предложением является чистое предложение на целевом языке, причем чистое предложение предварительно выбирается человеком-оператором.11. The method of claim 1, wherein the third sentence is a blank sentence in the target language, the blank sentence being pre-selected by the human operator. 12. Сервер для обучения модели перевода для выполнения перевода между редким языком из группы языков и целевым языком, причем сервер имеет доступ к множеству реальных примеров параллельных предложений между языками упомянутой группы и целевым языком, число реальных примеров между редким языком и целевым языком является сравнительно небольшим по сравнению с числом реальных примеров между другими языками из упомянутой группы языков и целевым языком, причем сервер выполнен с возможностью:12. A server for training a translation model to perform translation between a rare language from a group of languages and a target language, wherein the server has access to a plurality of real examples of parallel sentences between the languages of said group and the target language, the number of real examples between the rare language and the target language is relatively small compared with the number of real examples between other languages from the mentioned group of languages and the target language, and the server is configured to: получения определенного реального примера, имеющего первое предложение на одном языке из группы языков и соответствующее второе предложение на целевом языке, являющееся реальным переводом первого предложения;obtaining a specific real example having a first sentence in one language of the group of languages and a corresponding second sentence in the target language being a real translation of the first sentence; генерирования, применяя функцию транслитерации, первого синтетического предложения на основе первого предложения для упомянутого определенного реального примера, причем первое синтетическое предложение является транслитерацией первого предложения в систему синтетического письма,generating, using the transliteration function, a first synthetic sentence based on the first sentence for said specific real-life example, the first synthetic sentence being the transliteration of the first sentence into the synthetic writing system, тем самым генерируя синтетический реальный пример, имеющий первое синтетическое предложение и соответствующее второе предложение;thereby generating a synthetic real-life example having a first synthetic sentence and a corresponding second sentence; получения третьего предложения на целевом языке;receiving a third sentence in the target language; генерирования, применяя другую модель перевода, четвертого предложения на редком языке для третьего предложения с использованием обратного перевода, четвертое предложение является искусственным переводом третьего предложения, причем четвертое предложение и третье предложение образуют определенный искусственный пример;generating, using a different translation model, a fourth sentence in a rare language for the third sentence using reverse translation, the fourth sentence is an artificial translation of the third sentence, and the fourth sentence and the third sentence form a certain artificial example; генерирования, применяя функцию транслитерации, четвертого синтетического предложения на основе четвертого предложения для упомянутого определенного искусственного примера, причем четвертое синтетическое предложение является транслитерацией четвертого предложения в систему синтетического письма,generating, using the transliteration function, a fourth synthetic sentence based on the fourth sentence for said specific artificial example, the fourth synthetic sentence being the transliteration of the fourth sentence into the synthetic writing system, тем самым генерируя синтетический искусственный пример, имеющий четвертое синтетическое предложение и третье предложение;thereby generating a synthetic artificial example having a fourth synthetic sentence and a third sentence; обучения упомянутой модели перевода на основе синтетического реального примера и синтетического искусственного примера, причем сервер выполнен с возможностью обучения для:training said translation model based on a synthetic real example and a synthetic artificial example, wherein the server is configured to learn to: приема определенного используемого предложения на редком языке;accepting a particular used sentence in a rare language; генерирования синтетического используемого предложения на основе упомянутого определенного используемого предложения с применением функции транслитерации, иgenerating a synthetic used sentence based on said specific used sentence using a transliteration function, and перевода с использованием модели перевода используемого синтетического предложения в соответствующее используемое предложение на целевом языке.translation using the model of translating the used synthetic sentence into the corresponding used sentence in the target language. 13. Сервер по п. 12, при этом сервер дополнительно выполнен с возможностью:13. Server according to claim 12, wherein the server is additionally configured to: генерирования набора обучающих данных на основе синтетического искусственного примера,generating a set of training data based on a synthetic artificial example, причем набор обучающих данных содержит метку, указывающую, что четвертое синтетическое предложение сгенерировано на основе искусственного перевода третьего предложения;moreover, the training data set contains a label indicating that the fourth synthetic sentence is generated based on an artificial translation of the third sentence; и при этом для обучения модели перевода сервер выполнен с возможностью:and at the same time, for training the translation model, the server is configured to: ввода набора обучающих данных в модель перевода,inputting the training dataset into the translation model, причем модель перевода использует метку для различения между (i) наборами обучающих данных, сгенерированными на основе реальных переводов, и (ii) наборами обучающих данных, сгенерированными на основе искусственных переводов.wherein the translation model uses a label to distinguish between (i) training datasets generated from real translations and (ii) training datasets generated from artificial translations. 14. Сервер по п. 12, в котором для генерирования синтетического реального примера сервер выполнен с возможностью:14. The server according to claim 12, in which, in order to generate a synthetic real-life example, the server is configured to: генерирования множества синтетических реальных примеров для соответствующих из упомянутого множества реальных примеров;generating a plurality of synthetic real examples for corresponding ones from said plurality of real examples; и в котором третьим предложением является одно из множества третьих предложений, и в котором для генерирования синтетического искусственного примера сервер выполнен с возможностью:and wherein the third sentence is one of a plurality of third sentences, and wherein, in order to generate the synthetic artificial example, the server is configured to: генерирования множества синтетических искусственных примеров для соответствующих из множества искусственных примеров;generating a plurality of synthetic artificial examples for corresponding ones from the plurality of artificial examples; и при этом для обучения модели перевода сервер выполнен с возможностью:and at the same time, for training the translation model, the server is configured to: обучения упомянутой модели перевода на основе упомянутого множества синтетических реальных примеров и упомянутого множества синтетических искусственных примеров.learning said translation model based on said set of synthetic real examples and said set of synthetic artificial examples. 15. Сервер по п. 12, при этом сервер дополнительно выполнен с возможностью:15. The server according to claim 12, while the server is additionally configured to: генерирования функции транслитерации путем обучения модели статистического машинного перевода (SMT) на основе выровненных корпусов текста между языками в упомянутой группе языков,generating a transliteration function by training a statistical machine translation (SMT) model based on aligned text corpora between languages in said group of languages, причем модель SMT обучается для определения правил транслитерации между предложениями на каждом из языков упомянутой группы и синтетическими предложениями в системе синтетического письма.wherein the SMT model is trained to determine transliteration rules between sentences in each of the languages of said group and synthetic sentences in the synthetic writing system. 16. Сервер по п. 12, в котором упомянутая группа языков представляет собой тюркскую группу языков, причем тюркская группа языков содержит турецкий язык, узбекский язык, чувашский язык и киргизский язык, причем редким языком является чувашский язык.16. The server according to claim 12, wherein said language group is a Turkic language group, wherein the Turkic language group comprises Turkish, Uzbek, Chuvash, and Kyrgyz, with Chuvash being a rare language. 17. Сервер по п. 12, в котором упомянутая группа языков представляет собой германскую группу языков, причем германская группа языков содержит английский язык, немецкий язык, голландский язык и фарерский язык, причем редким языком является фарерский язык.17. The server according to claim 12, wherein said language group is a Germanic language group, wherein the Germanic language group comprises English, German, Dutch and Faroese, with Faroese being a rare language. 18. Сервер по п. 12, в котором упомянутая группа языков представляет собой романскую группу языков, причем романская группа языков содержит французский язык, итальянский язык, испанский язык и галисийский язык, причем редким языком является галисийский язык.18. The server of claim 12, wherein said language group is a Romance language group, wherein the Romance language group comprises French, Italian, Spanish and Galician, with Galician being a rare language. 19. Сервер по п. 12, в котором упомянутая другая модель перевода обучается на основе реальных примеров между редким языком и целевым языком.19. The server of claim 12, wherein said other translation model is trained based on real examples between the rare language and the target language. 20. Сервер по п. 12, при этом сервер дополнительно выполнен с возможностью:20. Server according to claim 12, wherein the server is additionally configured to: приема определенного используемого предложения на редком языке;accepting a particular used sentence in a rare language; генерирования, применяя модель транслитерации, синтетического используемого предложения на основе упомянутого определенного используемого предложения; иgenerating, using the transliteration model, a synthetic use sentence based on said specific use sentence; And генерирования, применяя модель перевода, соответствующего используемого предложения на целевом языке на основе используемого синтетического предложения.generating, using the translation model, a corresponding sentence used in the target language based on the used synthetic sentence. 21. Сервер по п. 12, в котором упомянутой другой моделью перевода является упомянутая модель перевода, и для обучения сервер выполнен с возможностью:21. The server of claim 12, wherein said other translation model is said translation model, and for learning, the server is configured to: обучения модели перевода на основе синтетических реальных примеров;learning a translation model based on synthetic real examples; генерирования, применяя модель перевода, четвертого предложения на редком языке для третьего предложения с использованием обратного перевода; иgenerating, using the translation model, a fourth rare language sentence for the third sentence using reverse translation; And дополнительного обучения модели перевода на основе синтетического искусственного примера.additional training of the translation model based on a synthetic artificial example. 22. Сервер по п. 12, в котором третьим предложением является чистое предложение на целевом языке, причем чистое предложение предварительно выбирается человеком-оператором.22. The server of claim 12, wherein the third sentence is a blank sentence in the target language, the blank sentence being pre-selected by the human operator.
RU2020142417A 2020-12-22 2020-12-22 Method and server for training machine learning algorithm for translation RU2790026C2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/553,798 US20220198159A1 (en) 2020-12-22 2021-12-17 Methods and systems for creating a training dataset for training a machine learning algorithm (mla) for a machine-translation task

Publications (2)

Publication Number Publication Date
RU2020142417A RU2020142417A (en) 2022-06-22
RU2790026C2 true RU2790026C2 (en) 2023-02-14

Family

ID=

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2607989C1 (en) * 2015-07-08 2017-01-11 Закрытое акционерное общество "МНИТИ" (сокращенно ЗАО "МНИТИ") Method for automated identification of language or linguistic group of text
RU2644071C2 (en) * 2013-03-15 2018-02-07 Дзе Дан Энд Брэдстрит Корпорейшн Curation of multilingual commercial indicators and synthesis of transliteration
CN110298046A (en) * 2019-07-03 2019-10-01 科大讯飞股份有限公司 A kind of translation model training method, text interpretation method and relevant apparatus
CN110717341A (en) * 2019-09-11 2020-01-21 昆明理工大学 Method and device for constructing old-Chinese bilingual corpus with Thai as pivot
CN111046677A (en) * 2019-12-09 2020-04-21 北京字节跳动网络技术有限公司 Method, device, equipment and storage medium for obtaining translation model

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2644071C2 (en) * 2013-03-15 2018-02-07 Дзе Дан Энд Брэдстрит Корпорейшн Curation of multilingual commercial indicators and synthesis of transliteration
RU2607989C1 (en) * 2015-07-08 2017-01-11 Закрытое акционерное общество "МНИТИ" (сокращенно ЗАО "МНИТИ") Method for automated identification of language or linguistic group of text
CN110298046A (en) * 2019-07-03 2019-10-01 科大讯飞股份有限公司 A kind of translation model training method, text interpretation method and relevant apparatus
CN110717341A (en) * 2019-09-11 2020-01-21 昆明理工大学 Method and device for constructing old-Chinese bilingual corpus with Thai as pivot
CN111046677A (en) * 2019-12-09 2020-04-21 北京字节跳动网络技术有限公司 Method, device, equipment and storage medium for obtaining translation model

Similar Documents

Publication Publication Date Title
Torfi et al. Natural language processing advancements by deep learning: A survey
US10713441B2 (en) Hybrid learning system for natural language intent extraction from a dialog utterance
US11403288B2 (en) Querying a data graph using natural language queries
JP6776448B2 (en) Implicit bridging of machine learning tasks
US8694303B2 (en) Systems and methods for tuning parameters in statistical machine translation
US10789431B2 (en) Method and system of translating a source sentence in a first language into a target sentence in a second language
US9514098B1 (en) Iteratively learning coreference embeddings of noun phrases using feature representations that include distributed word representations of the noun phrases
Davydov et al. Mathematical method of translation into Ukrainian sign language based on ontologies
RU2720074C2 (en) Method and system for creating annotation vectors for document
Kenny Human and machine translation
Dandala et al. Word sense disambiguation using Wikipedia
Zhang et al. Xlink: An unsupervised bilingual entity linking system
US20220229994A1 (en) Operational modeling and optimization system for a natural language understanding (nlu) framework
US20220198159A1 (en) Methods and systems for creating a training dataset for training a machine learning algorithm (mla) for a machine-translation task
US11989528B2 (en) Method and server for training a machine learning algorithm for executing translation
RU2790026C2 (en) Method and server for training machine learning algorithm for translation
Li et al. Cross-lingual transferring of pre-trained contextualized language models
Newell et al. Assessing the verifiability of attributions in news text
RU2812301C2 (en) Method and server for performing context-sensitive translation
RU2789796C2 (en) Method and server for training machine learning algorithm for translation
US20230206011A1 (en) Method and a server for performing a context-specific translation
US20230177282A1 (en) Method and server for performing domain-specific translation
Miao et al. An unknown word processing method in NMT by integrating syntactic structure and semantic concept
US11868737B2 (en) Method and server for processing text sequence for machine processing task
Lin et al. Introduction to the Special Issue of Recent Advances in Computational Linguistics for Asian Languages