JP2022006237A - Natural language processing system and natural language processing method - Google Patents

Natural language processing system and natural language processing method Download PDF

Info

Publication number
JP2022006237A
JP2022006237A JP2020108361A JP2020108361A JP2022006237A JP 2022006237 A JP2022006237 A JP 2022006237A JP 2020108361 A JP2020108361 A JP 2020108361A JP 2020108361 A JP2020108361 A JP 2020108361A JP 2022006237 A JP2022006237 A JP 2022006237A
Authority
JP
Japan
Prior art keywords
synonymous
adaptation
synonymous expression
translation
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020108361A
Other languages
Japanese (ja)
Inventor
夢如 王
Mengru Wang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2020108361A priority Critical patent/JP2022006237A/en
Publication of JP2022006237A publication Critical patent/JP2022006237A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

To efficiently improve an accuracy of natural language processing such as machine translation.SOLUTION: A natural language processing system generates a synonymous expression of a sentence of a single language corpus using a synonymous expression generation model, calculates an evaluation value of an ease of natural language processing for a sentence and the synonymous expression of the sentence, generates the synonymous expression generation model using synonymous expression information including the sentence, the synonymous expression of the sentence, and the evaluation value as learning data, learns the synonymous expression generation model such that an evaluation value of the synonymous expression to be translated more easily becomes high and an evaluation value of the synonymous expression difficult to be translated becomes low, generates an adaptive destination bilingual corpus by collecting a pair of a synonymous expression easy to be machine-translated with an adaptive source translation model and a translation of the synonymous expression and a pair of a synonymous expression difficult to be machine-translated with the adaptive source translation model and a reference translation for a sentence in an adaptive source bilingual corpus which is an origin of the synonymous expression difficult to be machine-translated with the adaptive source translation model, and learns an adaptive destination translation model using the generated adaptive destination bilingual corpus.SELECTED DRAWING: Figure 1

Description

本発明は、自然言語処理システム、及び自然言語処理方法に関する。 The present invention relates to a natural language processing system and a natural language processing method.

特許文献1には、エンコーダ/デコーダ方式のニューラル機械翻訳技術に関し、翻訳器全体の精度を向上させるため、目的言語の単言語コーパスを用いてエンコーダを強化することが記載されている。 Patent Document 1 describes an encoder / decoder-type neural machine translation technique for enhancing an encoder by using a monolingual corpus of a target language in order to improve the accuracy of the entire translator.

また、非特許文献1には、原文の中から目的語の予測に関連する部分を自動的に検索する技術に関して記載されている。 Further, Non-Patent Document 1 describes a technique for automatically searching a part related to the prediction of an object from the original text.

また、非特許文献2には、単言語コーパスのみを用いてニューラル機械翻訳(NMT(Neural Machine Translation))と統計的機械翻訳(SMT(Statistical machine translation))の双方のシステムを訓練する技術に関して記載されている。 In addition, Non-Patent Document 2 describes a technique for training both systems of neural machine translation (NMT) and statistical machine translation (SMT) using only a monolingual corpus. Has been done.

特開2019-153023号公報Japanese Unexamined Patent Publication No. 2019-153023

Bahdanau, Dzmitry, Kyunghyun Cho, Yoshua Bengio、 "Neural machine translation by jointly learning to align and translate."、 arXiv preprint arXiv:1409.0473 (2014). 、[Online]、 [令和2年6月1日検索]、インターネット<URL:https://arxiv.org/pdf/1409.0473.pdf>Bahdanau, Dzmitry, Kyunghyun Cho, Yoshua Bengio, "Neural machine translation by jointly learning to align and translate.", ArXiv preprint arXiv: 1409.0473 (2014)., [Online], [Search June 1, 2nd year], Internet <URL: https://arxiv.org/pdf/1409.0473.pdf> Mikel, et al. An effective approach to unsupervised machine translation. arXiv preprint arXiv:1902.01313, 2019. 、[Online]、 [令和2年6月1日検索]、インターネット<URL:https://arxiv.org/pdf/1902.01313.pdf>Mikel, et al. An effective approach to unsupervised machine translation. ArXiv preprint arXiv: 1902.01313, 2019., [Online], [Search June 1, 2nd year of Reiwa], Internet <URL: https://arxiv.org/ pdf / 1902.01313.pdf >

近年、NMTの登場により、規則ベース機械翻訳(RMT(Rule Based Machine Translation))やSMTに比べて翻訳精度が大幅に向上し、とくに十分な対訳コーパスが整備されているドメインにおいては実用的な精度での翻訳が可能になった。しかし翻訳モデルの学習に必要な対訳コーパスが十分に存在しない状況ではNMTを適用することは難しい。 In recent years, with the advent of NMT, translation accuracy has improved significantly compared to rule-based machine translation (RMT) and SMT, and practical accuracy is particularly high in domains with sufficient bilingual corpora. Translation is now possible. However, it is difficult to apply NMT in a situation where there is not enough bilingual corpus necessary for learning a translation model.

あるドメイン(以下、「適応先ドメイン」と称する。)において十分な学習リソースが確保できない場合、リソースリッチな他のドメイン(以下、「適応元ドメイン」と称する。)において得られた知識を適応先ドメインに転移させることで、適応先ドメインにおいて高い翻訳精度を実現できることが知られている。例えば、少量であっても適用先ドメインの対訳コーパスが存在している場合、適応元ドメインの対訳コーパスによって翻訳モデルを事前学習しておき、その後、適応先ドメインにおいてファインチューニング(fine tuning)を行う手法が提案されている。また、適応先ドメインの単言語コーパスしか利用
できない場合、逆翻訳を用いることにより疑似的に対訳コーパスを生成することができる。逆翻訳とは、処理方向が真逆の翻訳モデルを二つ用意し(例えば、英日翻訳モデルと日英翻訳モデル)、一方の翻訳モデルで生成されたターゲット文を他方の翻訳モデルのソース文にして学習を行う手法のことである(例えば、特許文献1、非特許文献2を参照)。
逆翻訳を用いて適応先ドメインの単言語コーパスによって擬似的に作成された対訳コーパスを適応元ドメインの対訳コーパスに追加し再学習することを繰り返すことで、単言語コーパスのみが利用可能な状況でもNMTの学習が可能である。
When sufficient learning resources cannot be secured in a certain domain (hereinafter referred to as "adaptation destination domain"), the knowledge gained in another resource-rich domain (hereinafter referred to as "adaptation source domain") is applied to the adaptation destination. It is known that high translation accuracy can be achieved in the target domain by transferring to a domain. For example, if a translation corpus of the target domain exists even in a small amount, the translation model is pre-learned by the translation corpus of the adaptation source domain, and then fine tuning is performed in the adaptation destination domain. A method has been proposed. In addition, when only a single language corpus of the adaptation destination domain can be used, a pseudo bilingual corpus can be generated by using reverse translation. In reverse translation, two translation models with opposite processing directions are prepared (for example, English-Japanese translation model and Japanese-English translation model), and the target sentence generated by one translation model is the source sentence of the other translation model. (For example, refer to Patent Document 1 and Non-Patent Document 2).
Even in a situation where only a monolingual corpus can be used, by repeatedly adding a bilingual corpus simulated by the monolingual corpus of the adaptation destination domain to the bilingual corpus of the adaptation source domain and re-learning using reverse translation. NMT learning is possible.

ところで、適応先ドメインにおける翻訳モデルの精度の向上に際しては、通常は適用元ドメインとして適応先ドメインと分野が近いものが選択される。しかしドメインの性質上、適応元ドメインの文と適用先ドメインの文とで文体が異なることも少なくない。例えば、特許に関わる分野において、十分な対訳コーパスが用意されていない適用先ドメインの拒絶理由通知書を翻訳する翻訳モデルを学習するため適用元ドメインの特許明細書(特許公報、特許公開公報等)として利用する場合を考える。この場合、例えば、拒絶理由通知書では審査官からの要望や疑問点等に関して「…を参考されたい」等の表現がよく使われるが、こうした表現は特許明細書では殆ど用いられることがない。そのため、特許明細書を適応元ドメインとして学習した翻訳モデルをそのまま利用しても十分な翻訳精度を得ることができない。 By the way, in order to improve the accuracy of the translation model in the adaptation destination domain, a domain having a field close to that of the adaptation destination domain is usually selected as the application source domain. However, due to the nature of the domain, the writing style of the statement of the application source domain and the statement of the application destination domain are often different. For example, in the field related to patents, the patent specification of the application source domain (patent gazette, patent publication, etc.) is used to learn a translation model for translating the notice of reasons for refusal of the application domain for which a sufficient bilingual corpus is not prepared. Consider the case of using as. In this case, for example, in the notice of reasons for refusal, expressions such as "please refer to ..." regarding the request or question from the examiner are often used, but such expressions are rarely used in the patent specification. Therefore, even if the translation model learned by using the patent specification as the application source domain is used as it is, sufficient translation accuracy cannot be obtained.

本発明は、このような背景に基づきなされたものであり、機械翻訳等の自然言語処理の精度を効率よく向上することが可能な、自然言語処理システム、及び自然言語処理方法を提供することを目的とする。 The present invention has been made based on such a background, and provides a natural language processing system and a natural language processing method capable of efficiently improving the accuracy of natural language processing such as machine translation. The purpose.

上記目的を達成するための本発明の一つは、自然言語処理システムであって、情報処理装置を用いて構成され、単言語コーパス、及び同義表現生成モデルを記憶する記憶部と、前記単言語コーパスの文の同義表現を前記同義表現生成モデルを用いて生成する同義表現生成部と、前記文と当該文について生成される前記同義表現の夫々について自然言語処理のしやすさの評価値を算出する評価部と、前記文、当該文から生成される前記同義表現、及び前記評価値を含む前記同義表現情報を学習データとして、入力される文から前記自然言語処理がしやすい同義表現を生成する前記同義表現生成モデルを生成する同義表現生成モデル学習部と、を備える。 One of the present inventions for achieving the above object is a natural language processing system, which is configured by using an information processing apparatus, and has a storage unit for storing a monolingual corpus and a synonymous expression generation model, and the monolingual. Calculates the evaluation value of the ease of natural language processing for each of the synonymous expression generation unit that generates synonymous expressions of the corpus sentence using the synonymous expression generation model and the synonymous expressions generated for the sentence and the sentence. The evaluation unit, the synonymous expression generated from the sentence, and the synonymous expression information including the evaluation value are used as learning data, and the synonymous expression that is easy to process in natural language is generated from the input sentence. It includes a synonymous expression generation model learning unit that generates the synonymous expression generation model.

その他、本願が開示する課題、及びその解決方法は、発明を実施するための形態の欄、及び図面により明らかにされる。 In addition, the problems disclosed in the present application and the solutions thereof will be clarified by the column of the form for carrying out the invention and the drawings.

本発明によれば、機械翻訳等の自然言語処理の精度を効率よく向上することができる。 According to the present invention, the accuracy of natural language processing such as machine translation can be efficiently improved.

機械翻訳システムの機能を説明するシステムフロー図である。It is a system flow diagram explaining the function of a machine translation system. 情報処理システムを構成する情報処理装置の構成例である。This is a configuration example of an information processing device constituting an information processing system. ドメイン適応学習処理を説明するフローチャートである。It is a flowchart explaining the domain adaptive learning process. ノイズ除去処理の前処理を説明する図である。It is a figure explaining the preprocessing of a noise reduction process. 翻訳処理を説明するフローチャートである。It is a flowchart explaining a translation process. 従来の機械翻訳技術による翻訳例を示す図である。It is a figure which shows the translation example by the conventional machine translation technique. 従来の機械翻訳技術による翻訳例を示す図である。It is a figure which shows the translation example by the conventional machine translation technique. 機械翻訳システムによる翻訳例を示す図である。It is a figure which shows the translation example by a machine translation system. 機械翻訳システムによる翻訳例を示す図である。It is a figure which shows the translation example by a machine translation system. 機械翻訳システムによる翻訳例を示す図である。It is a figure which shows the translation example by a machine translation system. 機械翻訳システムによる翻訳例を示す図である。It is a figure which shows the translation example by a machine translation system. 第2実施形態の検索システムのシステムフロー図である。It is a system flow diagram of the search system of 2nd Embodiment. 同義表現生成モデル生成処理を説明するフローチャートである。It is a flowchart explaining the synonymous expression generation model generation process. 検索処理を説明するフローチャートである。It is a flowchart explaining the search process.

以下、図面を参照しつつ本発明の実施形態について説明する。尚、以下の記載及び図面は、本発明を説明するための例示であって、説明の明確化のため、適宜、省略及び簡略化がなされている。本発明は、他の種々の形態でも実施することが可能である。とくに限定しない限り、各構成要素は単数でも複数でも構わない。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. The following description and drawings are examples for explaining the present invention, and are appropriately omitted or simplified for the sake of clarification of the description. The present invention can also be implemented in various other forms. Unless otherwise specified, each component may be singular or plural.

[第1実施形態]
図1に第1実施形態として説明する機械翻訳システム1のシステムフロー図を示している。機械翻訳システム1は、対象とするドメイン(以下、「適応先ドメイン」と称する。)における翻訳モデル(以下、「適応先翻訳モデル」と称する。)の学習に用いる対訳コーパス(以下、「適応先対訳コーパス」と称する。)を生成する情報処理システムである。機械翻訳システム1は、適応先対訳コーパスの生成を実現するための手段としてリソースリッチなドメイン(以下、「適応元ドメイン」と称する。)において学習済みの翻訳モデル(以下、「適応元翻訳モデル」と称する。)と適応先ドメインにおける翻訳元の言語(以下、「ソース言語」と称する。)の単言語コーパスのみが入手可能であるという制約の下、適応先ドメインに特有な表現の翻訳結果を獲得する。
[First Embodiment]
FIG. 1 shows a system flow diagram of the machine translation system 1 described as the first embodiment. The machine translation system 1 is a bilingual corpus (hereinafter, "adaptation destination") used for learning a translation model (hereinafter, "adaptation destination translation model") in a target domain (hereinafter, "adaptation destination domain"). It is an information processing system that generates a "translation corpus". The machine translation system 1 is a translation model trained in a resource-rich domain (hereinafter referred to as "adaptation source domain") as a means for realizing generation of an adaptation destination translation corpus (hereinafter, "adaptation source translation model"). The translation result of the expression peculiar to the target domain is obtained under the restriction that only a single language corpus of the source language (hereinafter referred to as "source language") in the target domain is available. Acquire.

一般に適応先ドメインに特有な表現については、適応元ドメインに対応する同義表現が存在する。例えば、特許に関わる分野において、十分な対訳コーパスが用意されていない適用先ドメインの拒絶理由通知書を翻訳する適応先翻訳モデルを学習するために適用元ドメインの特許明細書(特許公報、特許公開公報等)として利用する場合を考える。この場合、例えば、適応先ドメインにおける「を参考されたい」という命令口調の表現については、適応元ドメインに「を参考」という同義表現が存在する。また、適応先ドメインにおける「どのようなことを意味しているか」という疑問形の表現については、適応元ドメインに「何を意味しているか」という同義表現が存在する。ここで適応元ドメインにおける表現は適応元翻訳モデルにとっては見慣れた表現であるため精度よく翻訳することができる。従って、適用先ドメインの拒絶理由通知書の文を精度よく翻訳するには、適用元ドメインの特許明細書の同義表現を介することが有効であると考えられる。こうした観点から、本実施形態の機械翻訳システム1は、適応先ドメインの表現と適応元ドメインの表現を関連付ける機能(文体変換機能)を備える。 Generally, for expressions specific to the adaptation destination domain, there are synonymous expressions corresponding to the adaptation source domain. For example, in the field related to patents, the patent specification of the applicable source domain (patent gazette, patent publication) for learning the applicable destination translation model for translating the notice of reasons for refusal of the applicable domain for which a sufficient bilingual corpus is not prepared. Consider the case of using it as a gazette etc.). In this case, for example, with respect to the command tone expression "please refer to" in the adaptation destination domain, there is a synonymous expression "reference" in the adaptation source domain. In addition, regarding the questionable expression of "what does it mean" in the adaptation destination domain, there is a synonymous expression of "what does it mean" in the adaptation source domain. Here, since the expression in the adaptation source domain is a familiar expression for the adaptation source translation model, it can be translated accurately. Therefore, in order to accurately translate the text of the notice of reasons for refusal of the applicable domain, it is considered effective to use synonymous expressions in the patent specification of the applicable domain. From this point of view, the machine translation system 1 of the present embodiment has a function (stylistic conversion function) of associating the expression of the adaptation destination domain with the expression of the adaptation source domain.

機械翻訳システム1は、翻訳のしやすさに応じて文を同義表現に変換することにより対訳対を獲得する。機械翻訳システム1は、ロジックが異なる二つの手法から、適応先翻訳モデルの学習に用いる適応先対訳コーパスを自動的に生成する。 The machine translation system 1 acquires a bilingual pair by converting a sentence into a synonymous expression according to the ease of translation. The machine translation system 1 automatically generates an adaptive translation corpus to be used for learning an adaptive translation model from two methods having different logics.

第1の手法(以下、「easy example生成」と称する。)では、機械翻訳システム1は、適応先ドメインの翻訳しにくい(正しく翻訳することができなかった)表現を、適応元翻訳モデルを用いて翻訳しやすい同義表現に変換する。変換後の同義表現を用いて翻訳処理を行うことで、正しい翻訳結果が得られる可能性が高くなる。また、機械翻訳システム1は、翻訳しにくい適応先ドメインの表現と当該表現の同義表現を介して得られた翻訳結果の対を収集したものを適応先対訳コーパス(以下、「easy example」と称する。)として生成する。 In the first method (hereinafter referred to as "easy example generation"), the machine translation system 1 uses an adaptation source translation model to express an expression that is difficult to translate (cannot be correctly translated) in the adaptation destination domain. Convert to synonymous expressions that are easy to translate. By performing translation processing using the converted synonymous expressions, there is a high possibility that correct translation results will be obtained. Further, the machine translation system 1 collects a pair of translation results obtained through an expression of an adaptation destination domain that is difficult to translate and a synonymous expression of the expression, and collects a pair of adaptation destination translation corpus (hereinafter referred to as "easy example"). .) Generated as.

第2の手法(以下、「hard example生成」と称する。)では、機械翻訳システム1は、適応元ドメインの翻訳しやすい表現を適応先ドメインの翻訳しにくい表現に変換する。そして、適応先ドメインの翻訳しにくい表現と適応元ドメインの文に対応する参照訳との対を収集したものを適応先対訳コーパス(以下、「hard example」と称する。)として生成する。このように、翻訳しにくい表現と上記手順で得られた参照訳とに基づき適応先翻訳モデルを学習させると、適応先ドメインにおける翻訳しにくい適応先ドメインの表現をい
かにして翻訳先の言語(以下、「ターゲット言語」と称する。)に翻訳すべきかを学習することができる。
In the second method (hereinafter referred to as "hard example generation"), the machine translation system 1 converts an easily translatable expression of the adaptation source domain into a difficult-to-translate expression of the adaptation destination domain. Then, a collection of pairs of difficult-to-translate expressions of the adaptation destination domain and reference translations corresponding to the sentences of the adaptation source domain is generated as an adaptation destination bilingual corpus (hereinafter referred to as "hard example"). In this way, if the adaptation destination translation model is trained based on the expressions that are difficult to translate and the reference translation obtained in the above procedure, how can the expressions of the adaptation destination domain that are difficult to translate in the adaptation destination domain be translated into the target language (? Hereinafter, it is possible to learn whether to translate into a "target language").

図1に示すように、機械翻訳システム1は、ドメイン適応学習部10、データ拡張部20、適応先翻訳モデル学習部30、及び翻訳処理部40の各機能を備える。このうち、ドメイン適応学習部10は、データ入力処理部11、データ記憶部12、適応元翻訳モデル学習部13、適応元翻訳モデル記憶部14、ドメイン適応モデル学習部15、及びドメイン適応モデル記憶部16を含む。また、データ入力処理部11は、ユーザインタフェース111とデータ処理部112を含む。また、ドメイン適応モデル学習部15は、単言語コーパス入力部151、同義表現生成部152、reward出力部153、同義表現情報記憶部154、及び同義表現生成モデル学習部155を含む。また、データ拡張部20は、適応先対訳コーパス生成部21と適応先対訳コーパス選択部22を含む。また、適応先翻訳モデル学習部30は、適応先対訳コーパス記憶部31、適応先翻訳モデル学習部32、及び適応先翻訳モデル記憶部33を含む。また、翻訳処理部40は、入力インタフェース41、翻訳部42、及び出力インタフェース43を備える。これらの各機能の詳細については後述する。 As shown in FIG. 1, the machine translation system 1 includes functions of a domain adaptation learning unit 10, a data expansion unit 20, an adaptation destination translation model learning unit 30, and a translation processing unit 40. Of these, the domain adaptive learning unit 10 includes a data input processing unit 11, a data storage unit 12, an adaptive source translation model learning unit 13, an adaptive source translation model storage unit 14, a domain adaptive model learning unit 15, and a domain adaptive model storage unit. Includes 16. Further, the data input processing unit 11 includes a user interface 111 and a data processing unit 112. Further, the domain adaptation model learning unit 15 includes a single language corpus input unit 151, a synonymous expression generation unit 152, a reward output unit 153, a synonymous expression information storage unit 154, and a synonymous expression generation model learning unit 155. Further, the data expansion unit 20 includes an adaptation destination translation corpus generation unit 21 and an adaptation destination translation corpus selection unit 22. Further, the adaptation destination translation model learning unit 30 includes an adaptation destination translation model learning unit 31, an adaptation destination translation model learning unit 32, and an adaptation destination translation model storage unit 33. Further, the translation processing unit 40 includes an input interface 41, a translation unit 42, and an output interface 43. Details of each of these functions will be described later.

図2に機械翻訳システム1を構成する情報処理装置100のハードウェア構成の一例を示す。同図に示すように、情報処理装置100は、プロセッサ101、主記憶装置102、通信装置103、入力装置104、出力装置105、及び補助記憶装置106を備える。 FIG. 2 shows an example of the hardware configuration of the information processing apparatus 100 constituting the machine translation system 1. As shown in the figure, the information processing device 100 includes a processor 101, a main storage device 102, a communication device 103, an input device 104, an output device 105, and an auxiliary storage device 106.

プロセッサ101は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)、AI(Artificial Intelligence)チップ、FPGA(Field Programmable Gate Array)、SoC(System on Chip)、ASIC(Application Specific Integrated Circuit)等を用いて構成される。 The processor 101 is, for example, a CPU (Central Processing Unit), an MPU (Micro Processing Unit), a GPU (Graphics Processing Unit), an AI (Artificial Intelligence) chip, an FPGA (Field Programmable Gate Array), a SoC (System on Chip), and an ASIC. (Application Specific Integrated Circuit) etc. are used.

主記憶装置102は、プログラムやデータを記憶する装置であり、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、不揮発性メモリ(NVRAM(Non Volatile RAM))等である。 The main storage device 102 is a device for storing programs and data, and is, for example, a ROM (Read Only Memory), a RAM (Random Access Memory), a non-volatile memory (NVRAM (Non Volatile RAM)), and the like.

通信装置103は、通信ネットワークや通信ケーブル等を介してユーザ端末等の他の情報処理装置との間で通信を行う装置であり、無線又は有線の通信モジュール(無線通信モジュール、通信ネットワークアダプタ、USBモジュール等)である。 The communication device 103 is a device that communicates with other information processing devices such as a user terminal via a communication network, a communication cable, or the like, and is a wireless or wired communication module (wireless communication module, communication network adapter, USB). Module etc.).

入力装置104と出力装置105は、機械翻訳システム1のユーザインタフェース部3を構成する。入力装置104は、外部からのユーザ入力やデータ入力を受け付けるユーザインタフェースであり、例えば、キーボード、マウス、タッチパネル、カードリーダ、音声入力装置(例えば、マイクロフォン)等である。出力装置105は、各種情報をユーザに向けて出力するユーザインタフェースであり、各種情報を表示する表示装置(液晶ディスプレイ、有機ELパネル等)、各種情報を音声によって出力する音声出力装置(例えば、スピーカ)、紙媒体に印刷するプリンタ等である。 The input device 104 and the output device 105 form a user interface unit 3 of the machine translation system 1. The input device 104 is a user interface that accepts user input and data input from the outside, and is, for example, a keyboard, a mouse, a touch panel, a card reader, a voice input device (for example, a microphone), and the like. The output device 105 is a user interface that outputs various information to the user, and is a display device (liquid crystal display, organic EL panel, etc.) that displays various information, and a voice output device (for example, a speaker) that outputs various information by voice. ), Printers that print on paper media, etc.

補助記憶装置106は、プログラムやデータを格納する装置であり、例えば、SSD(Solid State Drive)、ハードディスクドライブ、光学式記憶媒体(CD(Compact Disc
)、DVD(Digital Versatile Disc)等)、ICカード、SDカード等である。補助記憶装置106には、機械翻訳システム1の機能を実現するためのプログラム及びデータが格納されている。補助記憶装置106は、記録媒体の読取装置や通信装置103を介してプログラムやデータの書き込み/読み出しが可能である。
The auxiliary storage device 106 is a device for storing programs and data, for example, an SSD (Solid State Drive), a hard disk drive, and an optical storage medium (CD (Compact Disc)).
), DVD (Digital Versatile Disc), etc.), IC card, SD card, etc. The auxiliary storage device 106 stores programs and data for realizing the functions of the machine translation system 1. The auxiliary storage device 106 can write / read programs and data via the reading device of the recording medium and the communication device 103.

補助記憶装置106に格納(記憶)されているプログラムやデータは、主記憶装置102に随時読み出される。機械翻訳システム1が備える各機能は、プロセッサ101が、主記憶装置102に格納されているプログラムを読み出して実行することによりまた、図1に示した各記憶部(12,14,154,16,31,33)は、補助記憶装置106に所定のデータが読み出し可能に格納されることで実現される。 Programs and data stored (stored) in the auxiliary storage device 106 are read out to the main storage device 102 at any time. Each function included in the machine translation system 1 is obtained by the processor 101 reading and executing a program stored in the main storage device 102, and each storage unit (12, 14, 154, 16, 16; 31 and 33) are realized by readable storage of predetermined data in the auxiliary storage device 106.

機械翻訳システム1の機能の全部又は一部を、他の演算装置(例えば、FPGA(Field Programable Gate Array)やASIC(Application Specific Integrated Circuit)
等のハードウェアによって実現してもよい。
All or part of the functions of the machine translation system 1 can be combined with other arithmetic units (for example, FPGA (Field Programable Gate Array) or ASIC (Application Specific Integrated Circuit)).
It may be realized by hardware such as.

情報処理装置100は、例えば、パーソナルコンピュータ(デスクトップ型又はノートブック型)、スマートフォン、タブレット、汎用機等である。情報処理装置100の全部又は一部は、例えば、クラウドシステムにより提供されるクラウドサーバのように仮想的な情報処理資源を用いて実現されるものであってもよい。 The information processing device 100 is, for example, a personal computer (desktop type or notebook type), a smartphone, a tablet, a general-purpose machine, or the like. All or part of the information processing apparatus 100 may be realized by using virtual information processing resources such as a cloud server provided by a cloud system.

図3は、図1に示したドメイン適応学習部10が行う処理(以下、「ドメイン適応学習処理S300」と称する。)を説明するフローチャートである。以下、適宜図1を参照しつつ、図3に沿ってドメイン適応学習処理S300を説明する。 FIG. 3 is a flowchart illustrating a process performed by the domain adaptive learning unit 10 shown in FIG. 1 (hereinafter, referred to as “domain adaptive learning process S300”). Hereinafter, the domain adaptive learning process S300 will be described with reference to FIG. 1 as appropriate.

まずドメイン適応学習部10のデータ入力処理部11のユーザインタフェース111が、機械翻訳システムの管理者等のユーザから、適応元対訳コーパスと適応先ドメインの単言語コーパス(以下、「適応先単元後コーパス」と称する。)の夫々の所在情報の入力を受け付ける。そして、ユーザインタフェース111は、受け付けた所在情報により特定されるデータ記憶領域から適応元対訳コーパスと適応先単言語コーパスを取得し(s301)、取得した適応元対訳コーパスと適応先単言語コーパスをデータ処理部112に出力する。 First, the user interface 111 of the data input processing unit 11 of the domain adaptation learning unit 10 is subjected to a monolingual corpus of the adaptation source bilingual corpus and the adaptation destination domain from a user such as a machine translation system administrator (hereinafter, "adaptation destination unit post-corpus corpus"). ”) Accepts the input of each location information. Then, the user interface 111 acquires the adaptation source bilingual corpus and the adaptation destination monolingual corpus from the data storage area specified by the received location information (s301), and data the acquired adaptation source bilingual corpus and the adaptation destination monolingual corpus. Output to the processing unit 112.

尚、上記所在情報は、フォルダ名やディレクトリ名等、機械翻訳システム1を構成する情報処理装置の記憶領域を指定する情報でもよいし、URL(Uniform Resource Locater)のようにインターネット等の通信ネットワークに接続するデータベースの所在を示す情報でもよい。ユーザインタフェース111は、機械翻訳システム1を構成する情報処理装置が備える入力装置104(キーボード等)に限らず、例えば、通信装置103でもよい。通信装置103がユーザインタフェース111であれば、ユーザインタフェース111は、ユーザの情報処理装置(パーソナルコンピュータ等)に入力された所在情報を通信ネットワークを介して受け付ける。 The location information may be information that specifies a storage area of an information processing device constituting the machine translation system 1, such as a folder name or a directory name, or may be used in a communication network such as the Internet such as a URL (Uniform Resource Locater). It may be information indicating the location of the database to be connected. The user interface 111 is not limited to the input device 104 (keyboard or the like) included in the information processing device constituting the machine translation system 1, and may be, for example, a communication device 103. If the communication device 103 is the user interface 111, the user interface 111 receives the location information input to the user's information processing device (personal computer or the like) via the communication network.

続いて、データ処理部112が、入力された適応元対訳コーパスと適応先単言語コーパスを読み込み、これらに含まれる文を翻訳処理部40において機械翻訳が可能な形式のデータに変換し、変換後のデータをデータ記憶部12に格納する(s302)。データ処理部112により変換されたデータは、例えば、x1,x2,…,xS等と記述される単語列のよう
なシンボル系列からなる。上記シンボル系列では、「xS」と記述される最終シンボルは、末記号(以下、「EOS」と称する。)であり、系列に含まれるシンボル数は、EOSを含めてS個である。
Subsequently, the data processing unit 112 reads the input adaptation source bilingual corpus and adaptation destination single language corpus, converts the sentences contained therein into data in a format that can be machine translated by the translation processing unit 40, and after conversion. Data is stored in the data storage unit 12 (s302). The data converted by the data processing unit 112 is composed of a symbol sequence such as a word string described as, for example, x 1 , x 2 , ..., X S and the like. In the above symbol series, the final symbol described as "x S " is a terminal symbol (hereinafter referred to as "EOS"), and the number of symbols included in the series is S including EOS.

続いて、適応元翻訳モデル学習部13が、適応元翻訳モデルの生成と学習を行う(s303)。適応元翻訳モデル学習部13は、エンコーダ/デコーダ方式のニューラル機械翻訳を実行する。適応元翻訳モデル学習部13は、機械学習を行うモード(以下、「学習モード」と称する。)、もしくは機械翻訳を行うモード(以下、「機械翻訳モード」と称する。)で動作する。学習モードでは、適応元翻訳モデル学習部13は、データ記憶部12から読み出した適応元対訳コーパスを学習データとして適応元翻訳モデルを生成し、生成
した適応元翻訳モデルのうち、精度が最も高いものを適応元翻訳モデル記憶部14に格納する。機械翻訳モードでは、適応元翻訳モデル学習部13は、ソース言語で記述されている入力文を、適応元翻訳モデルを用いてターゲット言語に変換する。後述するように、機械翻訳モードにおいて、適応元翻訳モデル学習部13は、ドメイン適応モデル学習部15から出力される、最終シンボルがEOSとなるシンボル系列からなる適応先の文xn(n=1,2,…,s)と、当該文の同義表現yn m(m=1,2,…,b、n=1,2,…,T)とを入
力データとして受け取り、受け取った入力データxn、yn mに対して機械翻訳を実行する。
そして、適応元翻訳モデル学習部13は、機械翻訳の結果として、最終シンボルがEOSとなるT個のシンボル系列からなる出力データy1,y2,…,yTをドメイン適応モデル学習部
15にフィードバックする。
Subsequently, the adaptation source translation model learning unit 13 generates and learns the adaptation source translation model (s303). The adaptation source translation model learning unit 13 executes an encoder / decoder type neural machine translation. The adaptation source translation model learning unit 13 operates in a mode for performing machine learning (hereinafter referred to as "learning mode") or a mode for performing machine translation (hereinafter referred to as "machine translation mode"). In the learning mode, the adaptation source translation model learning unit 13 generates an adaptation source translation model using the adaptation source translation corpus read from the data storage unit 12 as learning data, and among the generated adaptation source translation models, the one with the highest accuracy. Is stored in the adaptation source translation model storage unit 14. In the machine translation mode, the adaptation source translation model learning unit 13 converts the input sentence described in the source language into the target language using the adaptation source translation model. As will be described later, in the machine translation mode, the adaptation source translation model learning unit 13 is output from the domain adaptation model learning unit 15, and the adaptation destination sentence x n (n = 1) consisting of a symbol sequence whose final symbol is EOS. , 2, ..., s) and the synonymous expression y n m (m = 1,2, ..., b, n = 1,2, ..., T) of the sentence are received as input data, and the received input data x Perform machine translation on n , y n m .
Then, the adaptation source translation model learning unit 13 transfers the output data y 1 , y 2 , ..., Y T consisting of T symbol sequences whose final symbol is EOS to the domain adaptation model learning unit 15 as a result of machine translation. give feedback.

続いて、ドメイン適応モデル学習部15が、単言語コーパスにおける適応先の文が適切に翻訳できるように、適応先の文の同義表現を生成する学習モデル(以下、「同義表現生成モデル」と称する。)を生成するとともに、適応先の文が適切に翻訳されるように適応元翻訳モデルの学習を行う(s304、及びs305~s318のループ処理)。 Subsequently, the domain adaptation model learning unit 15 generates a learning model (hereinafter referred to as "synonymous expression generation model") that generates synonymous expressions of the adaptation destination sentences so that the adaptation destination sentences in the monolingual corpus can be appropriately translated. ) Is generated, and the adaptation source translation model is trained so that the adaptation destination sentence is appropriately translated (loop processing of s304 and s305 to s318).

具体的には、まずループ処理s305~s318の準備として、ドメイン適応モデル学習部15の単言語コーパス入力部151が、データ記憶部12から適応先単言語コーパスを読み込み、適応先単言語コーパスを同義表現生成部152へ出力する。また同義表現生成部152が、入力された適応先単言語コーパスと、ドメイン適応モデル記憶部16に格納されている同義表現生成モデルを読み込む(s304)。 Specifically, first, in preparation for the loop processes s305 to s318, the single language corpus input unit 151 of the domain adaptation model learning unit 15 reads the adaptation destination single language corpus from the data storage unit 12, and synonymous with the adaptation destination single language corpus. Output to the expression generation unit 152. Further, the synonymous expression generation unit 152 reads the input adaptation destination monolingual corpus and the synonymous expression generation model stored in the domain adaptation model storage unit 16 (s304).

ループ処理s305~s318では、まず同義表現生成部152が、エンコーダ/デコーダ方式のニューラル文生成処理を実行する(s305)。具体的には、同義表現生成部152は、学習済みの同義表現生成モデルを用いて文を生成するモード(以下、「文生成モード」と称する。)では、読み込んだ単言語コーパスにおける一つの文x1,x2…xSをエ
ンコーディングした後、beam searchデコーディングを実行し、b個の出力データy1,y2,
…,ybを生成する。尚、b個の出力データy1,y2,…,ybの夫々は、EOSを最終シンボルとしたT個の単語からなるシンボル系列である。例えば、y1であれば、y1=y1 1,y2 1,…,yT 1である。beam searchデコーディングの実行により生成されたb個のシンボル系列y1,y2,
…,ybの一つ一つが単言語コーパスにおける一つの文x1,x2…xSについての同義表現となる。
In the loop processes s305 to s318, the synonymous expression generation unit 152 first executes the encoder / decoder method neural statement generation process (s305). Specifically, in the mode in which the synonymous expression generation unit 152 generates a sentence using the learned synonymous expression generation model (hereinafter referred to as "sentence generation mode"), one sentence in the read single language corpus is used. After encoding x 1 , x 2 … x S , beam search decoding is executed, and b output data y 1 , y 2 ,
…, Generate y b . It should be noted that each of the b output data y 1 , y 2 , ..., Y b is a symbol series consisting of T words with EOS as the final symbol. For example, if y 1 , y 1 = y 1 1 , y 2 1 , ..., y T 1 . b symbol sequences generated by executing beam search decoding y 1 , y 2 ,
Each of ..., y b is a synonym for one sentence x 1 , x 2 ... x S in a monolingual corpus.

続いて、同義表現生成部152が、b個の同義表現y1,y2,…,ybから不適切な表現であ
るノイズを除去する(s306)。ノイズの除去に用いられる類似度計算は、BLEU、RIBES等の評価指標に基づいて行うことができる。尚、同義表現生成部152は、同義語の言
い換えによる過剰なペナルティを抑制するための前処理を行った上でノイズを除去するための類似度計算を行う。上記の前処理では、同義表現生成部152は、単言語コーパスに含まれる元となる適応先の文(以下、「元となる文」と称することがある。)と、beam searchデコーディングにより生成されたb個の同義表現の夫々の中から、共通の文字列を
抽出し、この抽出した共通の文字列を、ある変数名に置換する。尚、共通の文字列を抽出する際には、例えば、最長一致を基準とする。そして、基準を満たす全ての箇所が変数名に置き換えられた後、前後となる二つ変数の間にある部分を同義語と見なす。
Subsequently, the synonymous expression generation unit 152 removes noise, which is an inappropriate expression, from the b synonymous expressions y 1 , y 2 , ..., Y b (s306). The similarity calculation used for noise removal can be performed based on evaluation indexes such as BLEU and RIBES. The synonym expression generation unit 152 performs preprocessing for suppressing an excessive penalty due to paraphrase of synonyms, and then performs similarity calculation for removing noise. In the above preprocessing, the synonymous expression generation unit 152 is generated by the original adaptation destination sentence (hereinafter, may be referred to as “original sentence”) included in the single language corpus and beam search decoding. A common character string is extracted from each of the b synonymous expressions, and the extracted common character string is replaced with a certain variable name. When extracting a common character string, for example, the longest match is used as a reference. Then, after all the parts that satisfy the criteria are replaced with the variable names, the part between the two variables before and after is regarded as a synonym.

図4に前処理の一例を示す。同図に示すように、意味が同じで表記が異なる四つの文「明細書の先行技術文献6と7に開示された材料を参照してください。」、「明細書の先行技術文献6および7に開示されている材料を参照。」、「明細書の先行技術文献6及び7に開示された材料を参照されたい。」、「明細書の先行技術文献6に開示された材料を参照すべき。」がある場合、同義表現生成部152は、これらの文のうち、共通の文字列として、「明細書の先行技術文献6」、「7に開示され」、「材料を参考」を抽出する。そし
て、「明細書の先行技術文献6」の変数名を「ele.1」とし、「7に開示され」を「ele.2」とし、「材料を参考」を「ele.3」、句点「。」を「ele.4」とすると、同義表現生成部152は、各変数の間にある「と」、「および」、「及び」を同義語とみなす。同義表現生成部152は、このような前処理を行うことで、ノイズ除去に用いられる類似度計算に際し、図4に示した手順で識別した同義語が違う文字列としてカウントされないようにする。
FIG. 4 shows an example of preprocessing. As shown in the figure, four sentences having the same meaning but different notations "Refer to the materials disclosed in the prior art documents 6 and 7 of the specification.", "Prior art documents 6 and 7 of the specification. ”,“ Refer to the materials disclosed in the prior art documents 6 and 7 of the specification. ”,“ The materials disclosed in the prior art document 6 of the specification should be referred to. If there is ".", The synonymous expression generation unit 152 extracts "disclosed in Prior Art Documents 6" and "7" and "reference materials" as common character strings from these sentences. .. Then, the variable name of "Prior Art Document 6 of the specification" is set to "ele.1", "disclosed in 7" is set to "ele.2", "reference to material" is set to "ele.3", and the kuten " When "." Is "ele.4", the synonym expression generation unit 152 considers "to", "and", and "and" between each variable as synonyms. By performing such preprocessing, the synonym expression generation unit 152 prevents the synonyms identified by the procedure shown in FIG. 4 from being counted as different character strings in the similarity calculation used for noise reduction.

同義表現生成部152は、前処理を実行すると、ノイズを除去するため、夫々の同義表現と、元となる文との間で類似度を計算し、最終的に計算した類似度が所定の指標(例えば、BLUE値)において所定の値以下(例えば、BLUE値≦0.5)となった同義表現をノイズとみなして除去する。また同義表現生成部152は、ノイズ除去の後の同義表現に対し、一つの適応先の文と、beam searchにより取得されたb個の同義表現の夫々を組にしたも
のを、reward出力部153に送信する。尚、適応先の文は、N個あるものとする。即ち、文体変換を行うための学習データがN組あるものとする。
The synonymous expression generation unit 152 calculates the similarity between each synonymous expression and the original sentence in order to remove noise when the preprocessing is executed, and the finally calculated similarity is a predetermined index. A synonymous expression having a predetermined value or less (for example, BLUE value ≤ 0.5) in (for example, BLUE value) is regarded as noise and removed. Further, the synonymous expression generation unit 152 sets a set of one adaptation destination sentence and b synonymous expressions acquired by beam search for the synonymous expression after noise reduction, in a reward output unit 153. Send to. It is assumed that there are N sentences to which the application is made. That is, it is assumed that there are N sets of learning data for performing stylistic conversion.

図3に戻り、続いて、reward出力部153が、元となる文xn、及びその文xn(n=1,2,…,s)の同義表現yn m(m=1,2,…,b、n=1,2,…,T)とに対する機
械翻訳のしやすさを評価する。まずreward出力部153は、適応元翻訳モデル記憶部14から、適応元翻訳モデル学習部13によって生成された学習済みの適応元翻訳モデルを読み込む(s307)。そしてreward出力部153は、元となる文xnを同義表現生成部152から送信された適応先の文xnと、同義表現yn mを、読み込んだ適応元翻訳モデルによっ
て適応元翻訳モデル学習部13に機械翻訳させ、適応先の文xnと、同義表現yn mとに対す
る機械翻訳のしやすさ(reward)を算出する(s308)。
Returning to FIG. 3, the reward output unit 153 subsequently uses the original sentence x n and the synonymous expression y n m (m = 1, 2, ..., S) of the sentence x n (n = 1, 2, ..., S). ..., b, n = 1, 2, ..., T) and the ease of machine translation are evaluated. First, the reward output unit 153 reads the learned adaptation source translation model generated by the adaptation source translation model learning unit 13 from the adaptation source translation model storage unit 14 (s307). Then, the reward output unit 153 learns the adaptation source translation model by reading the adaptation source sentence x n sent from the synonymous expression generation unit 152 and the synonymous expression y n m . Let Part 13 perform machine translation, and calculate the ease of machine translation (reward) for the sentence x n to which it is applied and the synonymous expression y n m (s308).

ここで処理のしやすさは、文の長さや文の係り受け構造等の面から評価してもよいが、機械翻訳システム1では、機械翻訳のしやすさの指標として、対数尤度logp(yn m)を用い
る。対数尤度logp(yn m)は、対象となる同義表現を、適応元翻訳モデルに基づきターゲッ
ト言語に翻訳する際に求められる。対数尤度logp(yn m)は、適応元翻訳モデルの信頼性を
表す値であり、翻訳結果の正確性を示す値である。対数尤度logp(yn m)は、翻訳結果が正
しく生成された場合に大きくなり、翻訳結果が誤って生成された場合に小さくなる。reward出力部153は、適応先の文xnと、その同義表現yn mと、reward出力部153の処理に
より得られた機械翻訳のしやすさの評価値logp(yn m)とからなる三つ一組のデータ(以下
、「同義表現情報」と称する。)を同義表現情報記憶部154に格納する(s309)。
Here, the ease of processing may be evaluated in terms of the length of the sentence, the dependency structure of the sentence, etc., but in the machine translation system 1, the log-likelihood logp ( y n m ) is used. The log-likelihood logp (y n m ) is required when translating the target synonymous expression into the target language based on the adaptation source translation model. The log-likelihood logp (y n m ) is a value indicating the reliability of the adaptation source translation model and is a value indicating the accuracy of the translation result. The log-likelihood logp (y n m ) increases when the translation result is generated correctly and decreases when the translation result is generated incorrectly. The reward output unit 153 consists of the sentence x n of the adaptation destination, its synonymous expression y n m , and the evaluation value logp (y n m ) of the ease of machine translation obtained by the processing of the reward output unit 153. A set of three pieces of data (hereinafter referred to as "synonymous expression information") is stored in the synonymous expression information storage unit 154 (s309).

続いて、同義表現生成モデル学習部155が、同義表現生成モデルを生成する(s310)。同義表現生成モデル学習部155は、エンコーダ/デコーダ方式のニューラル文生成処理を実行する機能であり、学習モードにおいて、同義表現情報記憶部154から同義表現情報を抽出し、この抽出した同義表現情報を学習データとし、より翻訳しやすい同義表現の尤度を高くし、翻訳し難い同義表現の尤度を低下させるように、適応先の文xnから、その文xnの同義表現yn mを生成するように学習する。即ち、上述した「easy exampl生成」と、「hard example生成」の手法が当該学習に適用される。 Subsequently, the synonymous expression generation model learning unit 155 generates a synonymous expression generation model (s310). The synonymous expression generation model learning unit 155 is a function of executing the encoder / decoder type neural sentence generation processing. In the learning mode, the synonymous expression information is extracted from the synonymous expression information storage unit 154, and the extracted synonymous expression information is used. In order to increase the likelihood of synonymous expressions that are easier to translate as learning data and reduce the likelihood of synonymous expressions that are difficult to translate, the synonymous expression y n m of that sentence x n is derived from the sentence x n to which it is applied. Learn to generate. That is, the above-mentioned methods of "easy exampl generation" and "hard example generation" are applied to the learning.

ここで同義表現yn mが生成される確率は、その同義表現に対する処理のしやすさlogp(ym)に従う。そこで、同義表現生成モデル学習部155は、学習モードにおいて、まず次の
数式1に示すように、適応先の文xnから算出されたrewardの評価値logp(xn)を基準とし、当該基準と同義表現yn mのrewardの評価値logp(yn m) との差分rを求める。
[数式1]

Figure 2022006237000002
Here, the probability that the synonymous expression y n m is generated follows the ease of processing logp (y m ) for the synonymous expression. Therefore, in the learning mode, the synonymous expression generation model learning unit 155 first uses the evaluation value logp (x n ) of the reward calculated from the sentence x n of the adaptation destination as a reference, as shown in the following formula 1, and uses the reference. And the difference r from the evaluation value logp (y n m ) of the reward of the synonymous expression y n m is obtained.
[Formula 1]
Figure 2022006237000002

「easy exampl生成」によって生成される同義表現生成モデルは、適応先の文xnを、適
応元翻訳モデルで処理可能な同義表現に変換するためのモデルである。そのため、「easy
exampl生成」は、同義表現が元となる文より翻訳しやすい場合に尤度が高くなり、元と
なる文より翻訳し難い場合に尤度が低くなる。そこで、同義表現生成モデル学習部155は、以下の数式2に示した損失関数Leを最小化するように同義表現生成モデルを生成する。
[数式2]

Figure 2022006237000003
The synonymous expression generation model generated by "easy exampl generation" is a model for converting the sentence x n of the adaptation destination into a synonymous expression that can be processed by the adaptation source translation model. Therefore, "easy
"Examppl generation" has a higher likelihood when it is easier to translate than the original sentence, and a lower likelihood when it is more difficult to translate than the original sentence. Therefore, the synonymous expression generation model learning unit 155 generates a synonymous expression generation model so as to minimize the loss function L e shown in the following mathematical expression 2.
[Formula 2]
Figure 2022006237000003

一方、「hard example生成」によって生成された同義表現生成モデルは、適応先の文xnの翻訳が難くなるように変換するためのモデルである。そこで、同義表現生成モデル学習部155は、「hard example生成」を行う場合には以下の数式3に示した損失関数Lhを最小化するように同義表現生成モデルを生成する。
[数式3]

Figure 2022006237000004
On the other hand, the synonymous expression generation model generated by "hard example generation" is a model for converting the sentence x n to which it is applied so that it is difficult to translate. Therefore, the synonymous expression generation model learning unit 155 generates a synonymous expression generation model so as to minimize the loss function L h shown in the following mathematical formula 3 when performing “hard example generation”.
[Formula 3]
Figure 2022006237000004

同義表現生成モデル学習部155は、上述したように生成した同義表現生成モデルをドメイン適応モデル記憶部16に格納する(s311)。そして、同義表現生成モデル学習部155は、学習モードの実行機会ごとに同義表現生成モデルを更新する。 The synonymous expression generation model learning unit 155 stores the synonymous expression generation model generated as described above in the domain adaptive model storage unit 16 (s311). Then, the synonymous expression generation model learning unit 155 updates the synonymous expression generation model at each execution opportunity of the learning mode.

同義表現生成モデルは、例えば、同義表現生成モデル学習部155による事前学習によって生成してもよい。その場合、同義表現生成部152は、文生成モードにおいて、最初に同義表現生成モデルを読み込む際、ドメイン適応モデル記憶部16に格納されている事前学習済みの同義表現生成モデルを利用することができる。同義表現生成モデル学習部155による事前学習は、例えば、次のようにして行われる。 The synonymous expression generation model may be generated by, for example, pre-learning by the synonymous expression generation model learning unit 155. In that case, the synonymous expression generation unit 152 can use the pre-learned synonymous expression generation model stored in the domain adaptive model storage unit 16 when the synonymous expression generation model is first read in the sentence generation mode. .. Pre-learning by the synonymous expression generation model learning unit 155 is performed, for example, as follows.

まず同義表現生成モデル学習部155は、単言語コーパス入力部151から適応先ドメインの単言語コーパスを読み込み、適応先の文xnを復元するように、エンコーダ/デコーダ方式のニューラルモデルを学習する。このような手順で事前学習された同義表現生成モデルは、適応先の単言語コーパスと同じ言語の文を生成できるようになるため、beam searchデコーディングを行うことで複数の同義表現を生成することが可能となる。同義表現
生成モデル学習部155は、事前学習された同義表現生成モデルをドメイン適応モデル記憶部16に格納する。
First, the synonymous expression generation model learning unit 155 reads the monolingual corpus of the adaptation destination domain from the monolingual corpus input unit 151, and learns an encoder / decoder method neural model so as to restore the adaptation destination sentence x n . Since the synonymous expression generation model pre-learned by such a procedure can generate sentences in the same language as the single language corpus to which it is applied, multiple synonymous expressions should be generated by performing beam search decoding. Is possible. The synonymous expression generation model learning unit 155 stores the pre-learned synonymous expression generation model in the domain adaptive model storage unit 16.

以上のように、事前学習、及びその後の学習の機会毎に、同義表現生成モデルが訓練されていく。同義表現生成部152は、同義表現生成モデル学習部155による学習の機会毎に、ドメイン適応モデル記憶部16に格納されている同義表現生成モデルを読み込むとともに、単言語コーパス入力部151から適応先ドメインの単言語コーパスを読み込む(s312)。そして同義表現生成部152は、上述した同義表現を生成する処理(s305)、ノイズを除去する処理(s306)と同様に、文生成モードによって、b個の出力データy1,y2,…,yb を同義表現として生成するとともに(s313)、生成した同義表現のノイズを上述した前処理を行った上で除去し(s314)、ノイズ除去後の同義表現、及びその元となる文をreward出力部153に送信する。 As described above, the synonymous expression generation model is trained for each pre-learning and subsequent learning opportunities. The synonymous expression generation unit 152 reads the synonymous expression generation model stored in the domain adaptation model storage unit 16 at each learning opportunity by the synonymous expression generation model learning unit 155, and also reads the synonymous expression generation model stored in the domain adaptation model storage unit 16 and adapts the target domain from the single language corpus input unit 151. Read the monolingual corpus of (s312). Then, the synonymous expression generation unit 152 has b output data y 1 , y 2 , ..., Depending on the sentence generation mode, as in the process of generating the synonymous expression (s305) and the process of removing noise (s306) described above. While y b is generated as a synonymous expression (s313), the noise of the generated synonymous expression is removed after performing the above-mentioned preprocessing (s314), and the synonymous expression after noise reduction and the original sentence thereof are rewarded. It is transmitted to the output unit 153.

reward出力部153は、同義表現生成部152から送信された同義表現、及びその元となる文を受け付けると、上述した翻訳のしやすさ(reward)の場合と同様に、同義表現を適応元翻訳モデル学習部13によってターゲット言語に翻訳させ、その翻訳結果に基づくreward(対数尤度)を出力し、同義表現、その翻訳結果、対数尤度、及び元となる文から
なる組(以下、「同義表現関連情報」と称する。)を対訳対抽出部156に送信する(s315)。
When the reward output unit 153 receives the synonymous expression transmitted from the synonymous expression generation unit 152 and the sentence that is the source thereof, the reward output unit 153 applies the synonymous expression to the adaptive source translation as in the case of the above-mentioned ease of translation (reward). The model learning unit 13 translates it into the target language, outputs a reward (log-likelihood) based on the translation result, and sets up a synonymous expression, the translation result, the log-likelihood, and the original sentence (hereinafter, "synonymous"). (Representation-related information) ”is transmitted to the bilingual logarithm extraction unit 156 (s315).

対訳対抽出部156は、同義表現生成部152により送信された同義表現関連情報に基づいて対訳対を抽出する処理を実行する(s316)。当該処理では、まず対訳対抽出部156が、同義表現生成部152から受け付けた同義表現関連情報を、対数尤度が大きい方から順に並べ替え、学習の回数に応じ、対数尤度が上位r%に含まれる組を抽出する。
尚rは、学習の回数が増えるたびに小さくしていく。対訳対抽出部156は、このように
して対訳対を抽出することで、reward出力部153により生成されたノイズを含む翻訳結果が学習に悪影響を及ぼす可能性を低減させる。即ち、対訳対抽出部156は、同義表現生成部152がノイズの多い状態で学習データを事前学習した後、比較的質がよい学習データを用いて同義表現生成モデルをファインチューニングする。そのため、同義表現生成部152に対してランダムに同義表現生成モデルを与える場合より、高い翻訳精度が得られる同義表現が生成されるようになる。
The bilingual pair extraction unit 156 executes a process of extracting the bilingual pair based on the synonymous expression-related information transmitted by the synonymous expression generation unit 152 (s316). In this process, the bilingual pair extraction unit 156 first sorts the synonymous expression-related information received from the synonymous expression generation unit 152 in order from the one with the largest log-likelihood, and the log-likelihood is higher r% according to the number of learnings. Extract the pairs contained in.
Note that r is reduced as the number of learnings increases. By extracting the translation pair in this way, the translation pair extraction unit 156 reduces the possibility that the translation result including the noise generated by the reward output unit 153 adversely affects the learning. That is, the bilingual pair extraction unit 156 fine-tunes the synonymous expression generation model using the relatively high-quality learning data after the synonymous expression generation unit 152 pre-learns the learning data in a noisy state. Therefore, a synonymous expression with higher translation accuracy can be generated than when a synonymous expression generation model is randomly given to the synonymous expression generation unit 152.

対訳対抽出部156は、抽出した同義表現関連情報から、元となる文と翻訳結果とを抽出して対にしたものを学習データとして生成し、この学習データを適応元翻訳モデル学習部13に送信する。適応元翻訳モデル学習部13は、対訳対抽出部156から送信されてきた学習データにより適応元翻訳モデルを学習し(s317)、学習済みの適応元翻訳モデルを適応元翻訳モデル記憶部14に格納する(s318)。 The parallel translation pair extraction unit 156 extracts the original sentence and the translation result from the extracted synonymous expression-related information, generates a pair as learning data, and uses this learning data in the adaptation source translation model learning unit 13. Send. The adaptation source translation model learning unit 13 learns the adaptation source translation model from the learning data transmitted from the parallel translation pair extraction unit 156 (s317), and stores the learned adaptation source translation model in the adaptation source translation model storage unit 14. (S318).

図5は、データ拡張部20、適応先翻訳モデル学習部30、及び翻訳処理部40が行う処理(以下、「翻訳処理S500」と称する。)を説明するフローチャートである。以下、適宜図1を参照しつつ、図5に沿って翻訳処理S500を説明する。 FIG. 5 is a flowchart illustrating processing performed by the data expansion unit 20, the adaptation destination translation model learning unit 30, and the translation processing unit 40 (hereinafter, referred to as “translation processing S500”). Hereinafter, the translation process S500 will be described with reference to FIG. 1 as appropriate.

データ拡張部20の適応先対訳コーパス生成部21は、適応元翻訳モデル学習部13が、適応元翻訳モデルによって適応先ドメインの文を翻訳できるように学習するための対訳コーパスを疑似的に生成する。適応先対訳コーパス生成部21は、データ記憶部12から適応先ドメインの単言語コーパスを読み込み、適応元翻訳モデル記憶部14から学習済みの適応元翻訳モデルを読み込み、ドメイン適応モデル記憶部16から学習済みの同義表現生成モデルを読み込む(s501)。 The adaptation destination translation corpus generation unit 21 of the data expansion unit 20 pseudo-generates a translation translation corpus for learning so that the adaptation source translation model learning unit 13 can translate the sentence of the adaptation destination domain by the adaptation source translation model. .. The adaptation destination translation corpus generation unit 21 reads the monolingual corpus of the adaptation destination domain from the data storage unit 12, reads the learned adaptation source translation model from the adaptation source translation model storage unit 14, and learns from the domain adaptation model storage unit 16. Read the completed synonymous expression generation model (s501).

適応先対訳コーパス生成部21は、擬似的な対訳コーパスを生成する際、まず同義表現生成モデルを用いて適応先ドメインの単言語コーパスの中に含まれている文に対する同義表現を生成する(s502)。さらに、適応先対訳コーパス生成部21は、生成した同義表現を、学習済みの適応元翻訳モデルによりターゲット言語に翻訳する。そして、適応先対訳コーパス生成部21は、元となる適応先ドメインの文、同義表現を介して得られた翻訳結果、及び翻訳モデルが出力する尤度の三つのデータからなる組の集合を取得する(s503)。 When generating a pseudo translation corpus, the adaptation destination translation corpus generation unit 21 first generates synonymous expressions for sentences contained in the monolingual corpus of the adaptation destination domain using a synonymous expression generation model (s502). ). Further, the adaptation destination translation corpus generation unit 21 translates the generated synonymous expression into the target language by the learned adaptation source translation model. Then, the adaptation destination translation corpus generation unit 21 acquires a set of three data consisting of the sentence of the original adaptation destination domain, the translation result obtained through the synonymous expression, and the likelihood output by the translation model. (S503).

データ拡張部20の適応先対訳コーパス選択部22は、適応先対訳コーパス生成部21が取得した上記組の集合を翻訳モデルに基づいて出力される尤度の順で並び替える(s504)。そして適応先対訳コーパス選択部22は、並び変えた順番の上位r%のデータを、適応先ドメインの文を翻訳するための翻訳モデル(適応先翻訳モデル)を学習するための擬似的な対訳コーパス(適応先対訳コーパス)として抽出し、抽出した適応先対訳コーパスを適応先翻訳モデル学習部30の適応先対訳コーパス記憶部31に格納する(s505)。 The adaptation destination translation corpus selection unit 22 of the data expansion unit 20 sorts the set of the above sets acquired by the adaptation destination translation corpus generation unit 21 in the order of the likelihood output based on the translation model (s504). Then, the adaptation destination translation corpus selection unit 22 uses the data of the upper r% in the rearranged order to learn a translation model (adaptation destination translation model) for translating the sentence of the adaptation destination domain. (Adaptation destination translation corpus) is extracted, and the extracted adaptation destination translation corpus is stored in the adaptation destination translation corpus storage unit 31 of the adaptation destination translation model learning unit 30 (s505).

適応先翻訳モデル学習部30の適応先翻訳モデル学習部32は、学習済みの適応先翻訳モデルを生成する。適応先翻訳モデル学習部32は、エンコーダ/デコーダ方式のニュー
ラル機械翻訳を実行する機能である。適応先翻訳モデル学習部32は、適応先対訳コーパス記憶部31から適応先対訳コーパスを読み出し、この適応先対訳コーパスを学習データとして学習済みの適応先翻訳モデルを生成し(s506)、その適応先翻訳モデルを適応先翻訳モデル記憶部33に格納する(s507)。尚、適応先翻訳モデルとして、ルールベース形式や統計的機械翻訳形式等、他の翻訳モデルを利用してもよい。
The adaptation destination translation model learning unit 32 of the adaptation destination translation model learning unit 30 generates a trained adaptation destination translation model. The adaptive destination translation model learning unit 32 is a function of executing an encoder / decoder type neural machine translation. The adaptation destination translation model learning unit 32 reads the adaptation destination translation corpus from the adaptation destination translation corpus storage unit 31, generates a trained adaptation destination translation model using this adaptation destination translation corpus as training data (s506), and generates an adaptation destination translation model (s506). The translation model is stored in the adaptation destination translation model storage unit 33 (s507). As the adaptation destination translation model, other translation models such as a rule-based format and a statistical machine translation format may be used.

続いて、翻訳処理部40が、適応先翻訳モデル学習部30にて生成された適応先翻訳モデルを用いてユーザから受け付けた適応先ドメインの文を翻訳し、その翻訳結果を出力する。具体的には、まず入力インタフェース41が、機械翻訳システム1のユーザから文の入力を受け付ける(s508)。続いて、翻訳部42が適応先翻訳モデル記憶部33から翻訳モデルを読み込み、受け付けた文をターゲット言語に翻訳する(s509)。続いて、出力インタフェース43が、翻訳文を、ディスプレイ等の出力装置105に出力する(s510)。 Subsequently, the translation processing unit 40 translates the sentence of the adaptation destination domain received from the user using the adaptation destination translation model generated by the adaptation destination translation model learning unit 30, and outputs the translation result. Specifically, first, the input interface 41 accepts a sentence input from the user of the machine translation system 1 (s508). Subsequently, the translation unit 42 reads the translation model from the adaptation destination translation model storage unit 33, and translates the received sentence into the target language (s509). Subsequently, the output interface 43 outputs the translated text to an output device 105 such as a display (s510).

以上に説明したように、本実施形態の機械翻訳システム1によれば、適応先ドメインに特有な表現には対応する同義表現が適応元ドメインに存在することを利用して、適応先ドメインにおけるソース言語の単言語コーパスのみが入手可能であるという制約の下で適応先ドメインにおける文を精度よく翻訳することができる。このように本実施形態の機械翻訳システム1によれば、自然言語処理の精度を効率よく向上することができる。 As described above, according to the machine translation system 1 of the present embodiment, the source in the adaptation destination domain utilizes the fact that the synonymous expression corresponding to the expression peculiar to the adaptation destination domain exists in the adaptation destination domain. Sentences in the target domain can be translated accurately under the constraint that only a monolingual corpus of languages is available. As described above, according to the machine translation system 1 of the present embodiment, the accuracy of natural language processing can be efficiently improved.

機械翻訳システム1による翻訳処理の具対例として、日本語をソース言語とし、英語をターゲット言語とするとともに、適応元ドメインの文書を特許公報とし、適応先ドメインの文書を拒絶理由通知書として、日本語の拒絶理由通知を英語に翻訳する例を示す。尚、特許公報の対訳コーパスと、日本語の拒絶理由通知書の単言語コーパスは、データ入力処理部11を介してデータ記憶部12に格納されているものとする。 As an example of translation processing by the machine translation system 1, Japanese is used as the source language, English is used as the target language, the document of the source domain is used as the patent gazette, and the document of the destination domain is used as the notice of reasons for refusal. An example of translating a Japanese notice of reasons for refusal into English is shown. It is assumed that the bilingual corpus of the patent gazette and the single language corpus of the notice of reasons for refusal in Japanese are stored in the data storage unit 12 via the data input processing unit 11.

図6A、図6Bは、夫々、従来の機械翻訳技術による翻訳例(比較例)であり、日本語の拒絶理由通知書の文と特許公報の文とを入力文とし、その入力文を特許公報のドメインで学習された翻訳モデルを用いて英語に翻訳した例を示している。図6Aに示す拒絶理由通知書では、図中下線で示す審査官からの要望や疑問点等に関する記載部分(図中、下線で示す部分)が、図6Bに示す特許公報における表現(図中、下線で示す部分)とは異なっている。このように、特許公報のドメインで学習された翻訳モデルをそのまま拒絶理由通知に適用しただけでは、拒絶理由通知書に特有な表現を適切に翻訳することができない。 6A and 6B are translation examples (comparative examples) by conventional machine translation technology, respectively, in which the text of the notice of reasons for refusal in Japanese and the text of the patent gazette are input texts, and the input texts are the patent gazettes. An example of translation into English using a translation model learned in the domain of is shown. In the notice of reasons for refusal shown in FIG. 6A, the description part (underlined part in the figure) regarding the request or question from the examiner shown by the underline in the figure is the expression in the patent gazette shown in FIG. 6B (in the figure, It is different from the underlined part). As described above, simply applying the translation model learned in the domain of the patent gazette to the notice of reasons for refusal cannot appropriately translate the expression peculiar to the notice of reasons for refusal.

図7A~図7Dに、本実施形態の機械翻訳システム1の適応先翻訳モデルにより拒絶理由通知書の日本語(適用元ドメイン)の文を英語(適用先ドメイン)の文に翻訳した例(同図に示す入力文と翻訳文)を示す。尚、各図に示す同義表現は、適応先翻訳モデルの学習に用いる学習データ(適応先対訳コーパス)の生成に用いた同義表現の例である。このように本実施形態の機械翻訳システム1によれば、拒絶理由通知書の文を精度よく英語の文に翻訳することができる。 7A-7D show an example in which the Japanese (source domain) sentence of the notice of reasons for refusal is translated into the English (application domain) sentence by the application destination translation model of the machine translation system 1 of the present embodiment (same as above). The input sentence and the translated sentence shown in the figure) are shown. The synonymous expressions shown in each figure are examples of synonymous expressions used to generate learning data (adapted target translation corpus) used for learning the adaptive destination translation model. As described above, according to the machine translation system 1 of the present embodiment, the sentence of the notice of reasons for refusal can be accurately translated into an English sentence.

[第2実施形態]
図8は第2実施形態として示す情報処理システム(以下、「検索システム50」と称する。)の機能を説明するシステムフロー図である。検索システム50のハードウェア構成は、図2に示した情報処理装置100と同様である。
[Second Embodiment]
FIG. 8 is a system flow diagram illustrating the functions of the information processing system (hereinafter, referred to as “search system 50”) shown as the second embodiment. The hardware configuration of the search system 50 is the same as that of the information processing apparatus 100 shown in FIG.

同図に示すように、検索システム50は、ドメイン適応学習部60と検索処理部70を備える。また、ドメイン適応学習部60は、データ入力処理部61、検索エンジン記憶部62、記憶部63、ドメイン適応モデル学習部64、及びドメイン適応モデル記憶部65
を含む。また、ドメイン適応モデル学習部64は、クエリ入力部641、同義表現生成部642、reward出力部643、同義表現情報記憶部644、及び同義表現生成モデル学習部645を含む。また、検索処理部70は、入力インタフェース71、ドメイン適応判別部72、クエリ同義表現生成部73、検索エンジン部74、及び出力インタフェース75を含む。また、検索エンジン部74は、クエリ投入部741、検索コンテンツ記憶部742、類似度計算部743、及び検索結果出力部を含む。尚、類似度計算部743は、例えば、インターネット上の情報検索サイト等で一般的に用いられている検索エンジンである。
As shown in the figure, the search system 50 includes a domain adaptive learning unit 60 and a search processing unit 70. Further, the domain adaptive learning unit 60 includes a data input processing unit 61, a search engine storage unit 62, a storage unit 63, a domain adaptive model learning unit 64, and a domain adaptive model storage unit 65.
including. Further, the domain adaptation model learning unit 64 includes a query input unit 641, a synonymous expression generation unit 642, a reward output unit 643, a synonymous expression information storage unit 644, and a synonymous expression generation model learning unit 645. Further, the search processing unit 70 includes an input interface 71, a domain adaptation determination unit 72, a query synonymous expression generation unit 73, a search engine unit 74, and an output interface 75. Further, the search engine unit 74 includes a query input unit 741, a search content storage unit 742, a similarity calculation unit 743, and a search result output unit. The similarity calculation unit 743 is, for example, a search engine generally used in an information retrieval site on the Internet.

検索処理部70は、インターネットに公開されている情報検索サイトを構成する情報処理システムや、スタンドアロン型のデータベース検索装置等と同様に、ユーザに対して情報検索サービスを提供する。具体的には、検索処理部70は、インターネット等の通信ネットワークを介してユーザからクエリの入力を受け付けると、受け付けたクエリに対する検索結果として、検索コンテンツ記憶部742に格納されているコンテンツをユーザが操作するユーザ端末に送信する。また検索処理部70は、単一の文や複数の文の組み合わせにより構成されるクエリをユーザから受け付けると、より関連度の高い適切なコンテンツを提供する。そしてドメイン適応学習部60は、ユーザが検索処理部70に入力したクエリを集約したもの(以下、「クエリコーパス」と称する。)を単言語コーパスとし、当該クエリコーパスに基づき、ユーザから受け付けたクエリを正解のコンテンツが抽出されやすい同義表現に変換する同義表現生成モデルを生成する。 The search processing unit 70 provides an information search service to a user, similar to an information processing system constituting an information search site open to the Internet, a stand-alone database search device, and the like. Specifically, when the search processing unit 70 receives an input of a query from a user via a communication network such as the Internet, the user receives the content stored in the search content storage unit 742 as a search result for the received query. Send to the user terminal to operate. Further, when the search processing unit 70 receives a query composed of a single sentence or a combination of a plurality of sentences from the user, the search processing unit 70 provides more relevant and appropriate content. Then, the domain adaptive learning unit 60 uses a single language corpus as a collection of queries input by the user into the search processing unit 70 (hereinafter referred to as "query corpus"), and a query received from the user based on the query corpus. Generates a synonymous expression generation model that transforms the correct content into a synonymous expression that is easy to extract.

図9は、ドメイン適応学習部60が行う処理(以下、「同義表現生成モデル生成処理S900」と称する。)を説明するフローチャートである。以下、適宜図8を参照しつつ、図9に沿って同義表現生成モデル生成処理S900を説明する。 FIG. 9 is a flowchart illustrating a process performed by the domain adaptive learning unit 60 (hereinafter, referred to as “synonymous expression generation model generation process S900”). Hereinafter, the synonymous expression generation model generation process S900 will be described with reference to FIG. 8 as appropriate.

まずデータ入力処理部61のユーザインタフェース611が、ユーザの操作入力等により適応先の単言語コーパスの所在に関する情報が入力されると、入力された所在情報から読み込んだクエリコーパスをデータ処理部612に出力する。データ処理部612は、入力されたクエリコーパスにおける文をドメイン適応モデル学習部64が処理できる形式のデータに変換し、変換後のデータを記憶部63に格納する。続いて、クエリ入力部641が、記憶部63からクエリコーパスを読み込み、読み込んだクエリコーパスを同義表現生成部642に出力する(s901)。尚、データ処理部612により変換されたデータは、第1実施形態の機械翻訳システム1と同様に、クエリを記述する一つの文が、単語列のようなシンボル系列x1,x2,…,xSに変換されたものである。 First, when the user interface 611 of the data input processing unit 61 inputs information regarding the location of the single language corpus to which the data is applied by inputting a user's operation or the like, the query corpus read from the input location information is transmitted to the data processing unit 612. Output. The data processing unit 612 converts the input sentence in the query corpus into data in a format that can be processed by the domain adaptation model learning unit 64, and stores the converted data in the storage unit 63. Subsequently, the query input unit 641 reads the query corpus from the storage unit 63, and outputs the read query corpus to the synonymous expression generation unit 642 (s901). As for the data converted by the data processing unit 612, as in the machine translation system 1 of the first embodiment, one sentence describing the query is a symbol sequence such as a word string x 1 , x 2 , ..., It has been converted to x S.

続いて、ドメイン適応学習部60は、ループ処理s901~s910を開始し、まず同義表現生成部642が、エンコーダ/デコーダ方式のニューラル文生成処理を実行する(s902)。同義表現生成部642は、第1実施形態の機械翻訳システム1の同義表現生成部152と同様に動作し、文生成モードにおいて、記憶部63から読み込んだクエリコーパスにおける一つの文x1,x2,…,xsをエンコーディングした後、beam searchデコーディングを実行し、同義表現であるb個の出力データy1,y2,…ybを生成する。尚、b個の出力データy1,y2,…ybの夫々は、EOSを最終シンボルとしたT個の単語からなるシンボル系列である。 Subsequently, the domain adaptive learning unit 60 starts the loop processes s901 to s910, and first, the synonymous expression generation unit 642 executes the encoder / decoder type neural statement generation process (s902). The synonymous expression generation unit 642 operates in the same manner as the synonymous expression generation unit 152 of the machine translation system 1 of the first embodiment, and in the sentence generation mode, one sentence x 1 , x 2 in the query corpus read from the storage unit 63. After encoding ,…, x s , beam search decoding is executed to generate b output data y 1 , y 2 ,… y b , which are synonymous expressions. It should be noted that each of the b output data y 1 , y 2 , ... y b is a symbol series consisting of T words with EOS as the final symbol.

続いて、同義表現生成部642は、生成した同義表現y1,y2,…,ybとクエリx1,x2,…,xsとの類似度に基づき、生成したb個の同義表現y1,y2,…,ybから不適切な表現を除去する
ノイズ除去処理を行う(s903)。尚、その際、同義表現生成部642は、第1実施形態の機械翻訳システム1と同様に、生成した同義表現に対して前処理を行い、夫々の同義表現と元となる文との間で類似度を求め、求めた類似度が最終的に所定の指標(例えば、BLUE値)において所定の値以下(例えば、BLUE値≦0.5)となった同義表現をノイズとみ
なして除去する。同義表現生成部642は、ノイズ除去後の同義表現、及びその元となるクエリをreward出力部643に送信する(s904)。
Subsequently, the synonymous expression generation unit 642 generated b synonymous expressions based on the degree of similarity between the generated synonymous expressions y 1 , y 2 , ..., y b and the query x 1 , x 2 , ..., x s . Noise reduction processing is performed to remove inappropriate expressions from y 1 , y 2 , ..., y b (s903). At that time, the synonymous expression generation unit 642 performs preprocessing on the generated synonymous expression as in the machine translation system 1 of the first embodiment, and between each synonymous expression and the original sentence. The similarity is obtained, and the synonymous expression in which the obtained similarity is finally equal to or less than a predetermined value (for example, BLUE value ≤ 0.5) in a predetermined index (for example, BLUE value) is regarded as noise and removed. The synonymous expression generation unit 642 transmits the synonymous expression after noise reduction and the query that is the source thereof to the reward output unit 643 (s904).

続いて、reward出力部643が、検索エンジン記憶部62から既存の検索エンジンを読み込み(s905)、クエリxn(n=1,2,…,s)をその同義表現yn m(m=1,2
,…,b、n=1,2,…,T)に変換し、同義表現yn mを検索エンジンに問い合わせる
場合の処理しやすさを算出する(s906)。またreward出力部643は、クエリxnに対しても処理のしやすさを求める。尚、第2実施形態の検索システム50では、処理のしやすさ(reward)の指標として、例えば、TF/IDF等、クエリxnと、検索対象として検索コンテンツ記憶部742に格納されている全てのコンテンツとの関連度から算出されたエントロピーH(yn m)を用いている。検索エンジンは、エントロピーの値が高いほど、クエリxnに対してより適切なコンテンツを抽出する。
Subsequently, the reward output unit 643 reads the existing search engine from the search engine storage unit 62 (s905), and the query x n (n = 1, 2, ..., S) is expressed as a synonym for it y n m (m = 1). , 2
, ..., b, n = 1, 2, ..., T), and the ease of processing when inquiring the synonymous expression y n m to the search engine is calculated (s906). The reward output unit 643 also requests the ease of processing for the query x n . In the search system 50 of the second embodiment, as an index of ease of processing (reward), for example, a query x n such as TF / IDF and all stored in the search content storage unit 742 as a search target. The entropy H (y n m ) calculated from the degree of relevance to the content of is used. The higher the entropy value, the better the search engine will extract the content for the query x n .

続いて、reward出力部643は、一つのクエリxnについて、当該クエリxn、同義表現表現yn m、及び処理のしやすさの評価値H(yn m)からなる三つ一組からなる同義表現情報を同
義表現情報記憶部644に格納する(s907)。尚、本例では同義表現情報は、N組あるものとする。同義表現情報は同義表現生成モデル学習部645が同義表現生成モデルを生成するための学習データとして用いられる。
Subsequently, the reward output unit 643 is composed of a set of a query x n , a synonymous expression expression y n m , and an evaluation value H (y n m ) for ease of processing for one query x n . The synonymous expression information is stored in the synonymous expression information storage unit 644 (s907). In this example, it is assumed that there are N sets of synonymous expression information. The synonymous expression information is used as learning data for the synonymous expression generation model learning unit 645 to generate a synonymous expression generation model.

続いて、同義表現生成モデル学習部645が、同義表現生成モデルを読み込む(s908)。同義表現生成モデル学習部645は、エンコーダ/デコーダ方式のニューラル文生成処理を実行する機能であり、学習モードにおいて、ドメイン適応モデル記憶部16から、同義表現生成モデルを読み込む。 Subsequently, the synonymous expression generation model learning unit 645 reads the synonymous expression generation model (s908). The synonymous expression generation model learning unit 645 is a function of executing the neural sentence generation process of the encoder / decoder method, and reads the synonymous expression generation model from the domain adaptive model storage unit 16 in the learning mode.

続いて、同義表現生成モデル学習部645は、同義表現情報を学習データとして、クエリxnから、その同義表現yn mを生成するように学習し、学習結果である同義表現生成モデ
ルを生成する(s909)。尚、同義表現yn mが生成される確率は、その同義表現に対す
る処理のしやすさ(reward)の評価値H(yn m)に応じて学習される。
Subsequently, the synonymous expression generation model learning unit 645 learns to generate the synonymous expression y n m from the query x n using the synonymous expression information as learning data, and generates a synonymous expression generation model which is a learning result. (S909). The probability that the synonymous expression y n m is generated is learned according to the evaluation value H (y n m ) of the ease of processing (reward) for the synonymous expression.

具体的には、同義表現生成モデル学習部645は、まず以下に示した数式4により、クエリxnから算出された処理のしやすさの評価値H(xn)を基準とし、当該基準と同義表現yn mの評価値H(yn m)との差分を求める。
[数式4]

Figure 2022006237000005
Specifically, the synonymous expression generation model learning unit 645 first uses the evaluation value H (x n ) of the ease of processing calculated from the query x n by the formula 4 shown below as a reference, and uses the standard. Find the difference between the synonymous expression y n m and the evaluation value H (y n m ).
[Formula 4]
Figure 2022006237000005

そして同義表現生成モデル学習部645は、以下の数式5に示した損失関数が最小となるように学習する。
[数式5]

Figure 2022006237000006
Then, the synonymous expression generation model learning unit 645 learns so that the loss function shown in the following equation 5 is minimized.
[Formula 5]
Figure 2022006237000006

同義表現生成モデル学習部645は、学習処理が完了する度にドメイン適応モデル記憶部65に最新の同義表現生成モデルを格納する(s910)。 The synonymous expression generation model learning unit 645 stores the latest synonymous expression generation model in the domain adaptive model storage unit 65 each time the learning process is completed (s910).

同義表現生成モデルは、例えば、同義表現生成モデル学習部645による事前学習によって生成してもよい。その場合、同義表現生成部642は、文生成モードにおいて、最初に同義表現生成モデルを読み込む際にドメイン適応モデル記憶部65に格納されている事前学習済みの同義表現生成モデルを利用することができる。上記の事前学習は、例えば、同義表現生成モデル学習部645が、記憶部63からクエリコーパスを読み込み、クエリ
xnを復元するようにエンコーダ/デコーダ方式のニューラルモデルを学習することにより行う。同義表現生成モデル学習部155が、事前学習された同義表現生成モデルをドメイン適応モデル記憶部16に格納する。このような手順で事前学習されたモデルは、クエリコーパスと同じ言語の文を生成できるようになるため、beam search デコーディングを行うことで、複数の同義表現を生成することが可能になる。
The synonymous expression generation model may be generated by, for example, pre-learning by the synonymous expression generation model learning unit 645. In that case, the synonymous expression generation unit 642 can use the pre-learned synonymous expression generation model stored in the domain adaptive model storage unit 65 when the synonymous expression generation model is first read in the sentence generation mode. .. In the above pre-learning, for example, the synonymous expression generation model learning unit 645 reads the query corpus from the storage unit 63 and queries.
This is done by learning an encoder / decoder neural model to restore x n . The synonymous expression generation model learning unit 155 stores the pre-learned synonymous expression generation model in the domain adaptive model storage unit 16. Since the model pre-trained by such a procedure can generate sentences in the same language as the query corpus, it is possible to generate multiple synonymous expressions by performing beam search decoding.

続いて、検索処理部70が行う処理(以下、「検索処理S1000」と称する。)について説明する。 Subsequently, the processing performed by the search processing unit 70 (hereinafter, referred to as “search processing S1000”) will be described.

図10は、検索処理S1000を説明するフローチャートである。以下、同図とともに検索処理S1000について説明する。 FIG. 10 is a flowchart illustrating the search process S1000. Hereinafter, the search process S1000 will be described with reference to the figure.

まず入力インタフェース51が、ユーザからクエリの入力を受け付け(s1001)、受け付けたクエリをドメイン適応判別部72に送信する(s1002)。 First, the input interface 51 accepts a query input from the user (s1001), and transmits the accepted query to the domain adaptation determination unit 72 (s1002).

ドメイン適応判別部72は、送信されてきたクエリを同義表現に変換する必要があるか否かを判別する(s1003)。具体的には、ドメイン適応判別部72は、検索エンジン記憶部62から、検索エンジンを読み込み、クエリを検索エンジン部74に問い合わせる。クエリを検索エンジン部74の類似度計算部743は、クエリと、検索コンテンツ記憶部122に含まれている全てのコンテンツとの関連度を用いて、各コンテンツにランキングを付与して検索結果を生成し、ランキングが付与された夫々の検索結果をドメイン適応判別部72に送信する。 The domain adaptation determination unit 72 determines whether or not it is necessary to convert the transmitted query into synonymous expressions (s1003). Specifically, the domain adaptation determination unit 72 reads the search engine from the search engine storage unit 62 and inquires the query to the search engine unit 74. The similarity calculation unit 743 of the search engine unit 74 assigns a ranking to each content and generates a search result by using the degree of association between the query and all the contents included in the search content storage unit 122. Then, each search result to which the ranking is given is transmitted to the domain adaptation determination unit 72.

ドメイン適応判別部72は、送信されてきたコンテンツのうち、ランキングが一位のコンテンツとクエリとの間の関連度(例えば、TF/IDF等の評価指標)を判定する(S1003)。関連度が所定の閾値s未満である場合(s1003:YES)、処理はs1004に進む。関連度が閾値s以上である場合(s1003:NO)、処理はs1006に進む。 The domain adaptation determination unit 72 determines the degree of relevance (for example, an evaluation index such as TF / IDF) between the content having the highest ranking among the transmitted contents and the query (S1003). If the degree of relevance is less than the predetermined threshold s (s1003: YES), the process proceeds to s1004. If the degree of relevance is equal to or greater than the threshold s (s1003: NO), the process proceeds to s1006.

S1004では、クエリ同義表現生成部73は、ドメイン適応判別部72から送信されてきたクエリを受け取る。そしてクエリ同義表現生成部73は、ドメイン適応モデル記憶部65から同義表現生成モデルを読み込み、クエリの同義表現を生成し、生成した同義表現をクエリとして検索エンジン部74のクエリ投入部741に送信する(s1005)。 In S1004, the query synonym expression generation unit 73 receives the query transmitted from the domain adaptation determination unit 72. Then, the query synonymous expression generation unit 73 reads the synonymous expression generation model from the domain adaptation model storage unit 65, generates the synonymous expression of the query, and transmits the generated synonymous expression as a query to the query input unit 741 of the search engine unit 74. (S1005).

s1006では、クエリ投入部741が、クエリ同義表現生成部73、あるいはドメイン適応判別部72から受け取ったクエリの文字列を類似度計算部743に送信する。類似度計算部743は、クエリと検索コンテンツ記憶部742に含まれている全てのコンテンツとの関連度を算出し、各コンテンツにランキングを付与して検索結果を生成する(s1007)。 In s1006, the query input unit 741 transmits the character string of the query received from the query synonym expression generation unit 73 or the domain adaptation determination unit 72 to the similarity calculation unit 743. The similarity calculation unit 743 calculates the degree of relevance between the query and all the contents included in the search content storage unit 742, assigns a ranking to each content, and generates a search result (s1007).

続いて、出力インタフェース75が、上記検索結果を出力する(s1008)。尚、出力インタフェース75は、例えば、検索結果を、ランキングが一位のコンテンツやそのコンテンツへのリンク、あるいはコンテンツや各コンテンツへのリンクをランキング順に並べたリスト等、適宜な形式で出力する。 Subsequently, the output interface 75 outputs the above search result (s1008). The output interface 75 outputs the search results in an appropriate format, for example, a content having the highest ranking and a link to the content, or a list in which the content and links to each content are arranged in the order of ranking.

以上に説明したように、本実施形態の検索システム50は、クエリコーパス中の各クエリと、その同義表現と、クエリ及び同義表現の夫々と検索システム50が保有する全コンテンツとの関連度とを含む同義表現情報を学習データとして、入力されたクエリを正解のコンテンツが抽出され易い同義表現のクエリに変換するための同義表現生成モデルを生成し、入力されたクエリを同義表現生成モデルで同義表現に変換して新たなクエリとして入
力する。そのため、曖昧な表現を含んだ自然言語で記述されたクエリが入力された場合でも正解のコンテンツを出力することができる。
As described above, the search system 50 of the present embodiment determines the relevance of each query in the query corpus, its synonymous expression, each of the query and the synonymous expression, and all the contents possessed by the search system 50. Using the included synonymous expression information as training data, generate a synonymous expression generation model for converting the input query into a synonymous expression query for which the correct content can be easily extracted, and synonymously express the input query with the synonymous expression generation model. Convert to and enter as a new query. Therefore, even if a query written in natural language including ambiguous expressions is input, the correct content can be output.

以上、本発明の実施形態につき説明したが、本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。また例えば、上記した実施形態は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また各実施形態の構成の一部について、他の構成に追加、削除、置換することが可能である。 Although the embodiments of the present invention have been described above, the present invention is not limited to the above-described embodiments, and includes various modifications. Further, for example, the above-described embodiment is described in detail in order to explain the present invention in an easy-to-understand manner, and is not necessarily limited to the one including all the described configurations. Further, it is possible to add, delete, or replace a part of the configuration of each embodiment with other configurations.

また、上記の各構成、機能部、処理部、処理手段等は、それらの一部または全部を、例えば、集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサが夫々の機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリやハードディスク、SSD(Solid State Drive)等の記録装置、IC
カード、SDカード、DVD等の記録媒体に置くことができる。
Further, each of the above configurations, functional units, processing units, processing means and the like may be realized by hardware by designing a part or all of them by, for example, an integrated circuit. Further, each of the above configurations, functions, and the like may be realized by software by the processor interpreting and executing a program that realizes each function. Information such as programs, tables, and files that realize each function can be stored in memory, hard disks, recording devices such as SSDs (Solid State Drives), and ICs.
It can be placed on a recording medium such as a card, SD card, or DVD.

また、以上に説明した各情報処理装置の各種機能部、各種処理部、各種データベースの配置形態は一例に過ぎない。各種機能部、各種処理部、各種データベースの配置形態は、これらの装置が備えるハードウェアやソフトウェアの性能、処理効率、通信効率等の観点から最適な配置形態に変更し得る。 Further, the arrangement form of various functional units, various processing units, and various databases of each information processing apparatus described above is only an example. The arrangement form of various function units, various processing units, and various databases can be changed to the optimum arrangement form from the viewpoint of the performance, processing efficiency, communication efficiency, and the like of the hardware and software included in these devices.

また、前述した各種のデータを格納するデータベースの構成(スキーマ(Schema)等)は、リソースの効率的な利用、処理効率向上、アクセス効率向上、検索効率向上等の観点から柔軟に変更し得る。 Further, the configuration of the database (schema, etc.) for storing various data described above can be flexibly changed from the viewpoints of efficient use of resources, improvement of processing efficiency, improvement of access efficiency, improvement of search efficiency, and the like.

1 機械翻訳システム、10,60 ドメイン適応学習部、11,61 データ入力処理部、12,63 記憶部、13 適応元翻訳モデル学習部、14 適応元翻訳モデル記憶部、15,64 ドメイン適応モデル学習部、16,65 ドメイン適応モデル記憶部、20 データ拡張部、21 適応先対訳コーパス生成部、22 適応先対訳コーパス選択部、30 適応先翻訳モデル学習部、31 適応先対訳コーパス記憶部、32 適応先翻訳モデル学習部、33 適応先翻訳モデル記憶部、40 翻訳処理部、41,71 入力インタフェース、42 翻訳部、43,75 出力インタフェース、50 検索システム、62 検索エンジン記憶部、70 検索処理部、72 ドメイン適応判別部、73 クエリ同義表現生成部、111,611 ユーザインタフェース、112,612 データ処理部、151 単言語コーパス入力部、152,642 同義表現生成部、153,643 reward出力部、154,644 同義表現情報記憶部、156 対訳対抽出部、641 クエリ入力部、741 クエリ投入部、742 検索コンテンツ記憶部、743 類似度計算部、744 検索結果出力部 1 Machine translation system, 10,60 domain adaptive learning unit, 11,61 data input processing unit, 12,63 storage unit, 13 adaptation source translation model learning unit, 14 adaptation source translation model storage unit, 15,64 domain adaptation model learning unit Unit, 16,65 Domain adaptation model storage unit, 20 data expansion unit, 21 adaptation destination translation corpus generation unit, 22 adaptation destination translation corpus selection unit, 30 adaptation destination translation model learning unit, 31 adaptation destination translation corpus storage unit, 32 adaptation Destination translation model learning unit, 33 adaptation destination translation model storage unit, 40 translation processing unit, 41,71 input interface, 42 translation unit, 43,75 output interface, 50 search system, 62 search engine storage unit, 70 search processing unit, 72 Domain adaptation discrimination unit, 73 Query synonymous expression generation unit, 111,611 user interface, 112,612 data processing unit, 151 single language corpus input unit, 152,642 synonymous expression generation unit, 153,643 reward output unit, 154 644 Synonymous expression information storage unit, 156 translation pair extraction unit, 641 query input unit, 741 query input unit, 742 search content storage unit, 743 similarity calculation unit, 744 search result output unit

Claims (12)

情報処理装置を用いて構成され、
単言語コーパス、及び同義表現生成モデルを記憶する記憶部と、
前記単言語コーパスの文の同義表現を前記同義表現生成モデルを用いて生成する同義表現生成部と、
前記文と当該文について生成される前記同義表現の夫々について自然言語処理のしやすさの評価値を算出する評価部と、
前記文、当該文から生成される前記同義表現、及び前記評価値を含む情報である同義表現情報を学習データとして、入力される文から前記自然言語処理がしやすい同義表現を生成する前記同義表現生成モデルを生成するドメイン適応モデル学習部と、
を備えた自然言語処理システム。
It is configured using an information processing device and
A storage unit that stores a monolingual corpus and a synonymous expression generation model,
A synonymous expression generation unit that generates synonymous expressions of sentences in the monolingual corpus using the synonymous expression generation model, and
An evaluation unit that calculates the evaluation value of the ease of natural language processing for each of the sentence and the synonymous expression generated for the sentence, and an evaluation unit.
The synonymous expression that generates the synonymous expression that is easy to process in natural language from the input sentence by using the sentence, the synonymous expression generated from the sentence, and the synonymous expression information that is information including the evaluation value as learning data. The domain adaptive model learning unit that generates the generation model,
Natural language processing system with.
請求項1に記載の自然言語処理システムであって、
前記ドメイン適応モデル学習部は、前記単言語コーパスの文を復元するためのエンコーダ/デコーダ方式のニューラルモデルを前記同義表現生成モデルとして生成する事前学習処理を実行し、
前記同義表現生成部は、最初に文の同義表現を生成する際に前記事前学習処理によって生成された前記同義表現生成モデルを用いる、
自然言語処理システム。
The natural language processing system according to claim 1.
The domain adaptive model learning unit executes a pre-learning process to generate an encoder / decoder-type neural model for restoring a sentence of the monolingual corpus as the synonymous expression generation model.
The synonymous expression generation unit uses the synonymous expression generation model generated by the pre-learning process when first generating a synonymous expression of a sentence.
Natural language processing system.
請求項1に記載の自然言語処理システムであって、
前記同義表現生成部は、前記同義表現生成モデルを用いて生成した前記同義表現をエンコードした後にbeam searchデコーディングを実行することにより複数の前記同義表現を
生成し、
前記ドメイン適応モデル学習部は、前記文、当該文から生成される前記複数の同義表現、及び前記評価値を含む前記同義表現情報を学習データとして、入力される文について前記自然言語処理がしやすい同義表現を生成する前記同義表現生成モデルを生成する、
自然言語処理システム。
The natural language processing system according to claim 1.
The synonymous expression generation unit generates a plurality of the synonymous expressions by executing beam search decoding after encoding the synonymous expressions generated by using the synonymous expression generation model.
The domain adaptation model learning unit can easily perform the natural language processing on an input sentence using the sentence, the plurality of synonymous expressions generated from the sentence, and the synonymous expression information including the evaluation value as learning data. Generate the synonymous expression Generate the synonymous expression generation model,
Natural language processing system.
請求項3に記載の自然言語処理システムであって、
前記同義表現生成部は、生成した複数の前記同義表現に含まれる同義語を同じ文字列として認識する前処理と、
前記前処理に続いて、複数の前記同義表現からノイズを除去するノイズ除去処理と、
を実行し、
前記前処理では、共通する文字列を、最長一致を基準として抽出するとともに、各同義表現にて抽出される前記共通する文字列間の文字を同義語とし、
前記ノイズ除去処理では、所定の指標に基づき、前記同義表現と当該同義表現の起源となった文との類似度を求めるとともに、当該類似度が所定の値以下となった同義表現をノイズとみなして除去する、
自然言語処理システム。
The natural language processing system according to claim 3.
The synonym expression generation unit performs preprocessing for recognizing synonyms included in a plurality of generated synonyms as the same character string, and
Following the preprocessing, a noise reduction process for removing noise from the plurality of synonymous expressions,
And run
In the preprocessing, the common character string is extracted based on the longest match, and the characters between the common character strings extracted by each synonym are used as synonyms.
In the noise reduction processing, the similarity between the synonymous expression and the sentence from which the synonymous expression is derived is obtained based on a predetermined index, and the synonymous expression whose similarity is equal to or less than a predetermined value is regarded as noise. To remove,
Natural language processing system.
請求項1乃至4のいずれか一項に記載の自然言語処理システムであって、
前記記憶部は、適応元ドメインの対訳コーパスである適応元対訳コーパス、適応先ドメインの単言語コーパスである適応先単言語コーパスを記憶し、
前記適応元対訳コーパスを学習データとして前記適応元ドメインの文を機械翻訳する翻訳モデルである適応元翻訳モデルを生成する適応元翻訳モデル学習部と、
前記適応先ドメインの文を翻訳する適応先翻訳モデルを生成する適応先翻訳モデル学習部と、
前記適応先ドメインの対訳コーパスである適応先対訳コーパスを生成する適応先対訳コ
ーパス生成部と、
入力された前記適応先ドメインの文を、前記適応先翻訳モデルを用いて翻訳する翻訳部と、
を備え、
前記同義表現生成部は、前記適応先単言語コーパスの前記適応先ドメインの文の同義表現を生成し、
前記評価部は、前記適応元翻訳モデル学習部が、前記適応先ドメインの文と、当該文の同義表現の夫々を機械翻訳する際の処理のしやすさを前記評価値として算出し、
前記ドメイン適応モデル学習部は、より翻訳しやすい同義表現の前記評価値が高くなるともに、翻訳し難い同義表現の評価値が低くなるように前記同義表現生成モデルを学習し、
前記適応先対訳コーパス生成部は、前記適応元翻訳モデルでの機械翻訳がしやすい同義表現と当該同義表現の訳文との対、及び前記適応元翻訳モデルでの機械翻訳がし難い同義表現と当該同義表現の起源となった前記適応元対訳コーパスにおける文に対する参照訳との対の夫々を収集して前記適応先対訳コーパスを生成し、
前記適応先翻訳モデル学習部は、前記適応先対訳コーパスを学習データとして前記適応先翻訳モデルを生成する、
自然言語処理システム。
The natural language processing system according to any one of claims 1 to 4.
The storage unit stores an adaptation source bilingual corpus, which is a bilingual corpus of the adaptation source domain, and an adaptation destination monolingual corpus, which is a monolingual corpus of the adaptation destination domain.
An adaptation source translation model learning unit that generates an adaptation source translation model, which is a translation model that machine-translates a sentence of the adaptation source domain using the adaptation source bilingual corpus as learning data.
The adaptation destination translation model learning unit that generates the adaptation destination translation model that translates the sentence of the adaptation destination domain,
An adaptation destination translation corpus generator that generates an adaptation destination translation corpus, which is a translation corpus of the adaptation destination domain,
A translation unit that translates the input sentence of the adaptation destination domain using the adaptation destination translation model, and
Equipped with
The synonymous expression generation unit generates a synonymous expression of the sentence of the adaptation destination domain of the adaptation destination monolingual corpus.
The evaluation unit calculates the ease of processing when the adaptation source translation model learning unit machine-translates the sentence of the adaptation destination domain and each of the synonymous expressions of the sentence as the evaluation value.
The domain adaptation model learning unit learns the synonymous expression generation model so that the evaluation value of the synonymous expression that is easier to translate becomes high and the evaluation value of the synonymous expression that is difficult to translate becomes low.
The adaptation destination translation corpus generation unit is a pair of a synonymous expression that is easy to machine translate in the adaptation source translation model and a translation of the synonymous expression, and a synonym expression that is difficult to machine translate in the adaptation source translation model. The target translation corpus is generated by collecting each pair of the reference translation for the sentence in the adaptation source translation corpus that is the origin of the synonymous expression.
The adaptation destination translation model learning unit generates the adaptation destination translation model using the adaptation destination translation corpus as learning data.
Natural language processing system.
請求項1乃至4のいずれか以降に記載の自然言語処理システムであって、
検索エンジンにより、ユーザ入力されたクエリに対応するコンテンツを出力する検索処理部を備え、
前記記憶部は、前記単言語コーパスとして検索エンジンに対するクエリを収集したクエリコーパスを記憶するとともに、前記コンテンツとを記憶し、
前記同義表現生成部は、前記クエリコーパスの文の同義表現を生成し、
前記評価部は、前記クエリコーパスに含まれるクエリとその同義表現の夫々と、前記記憶部が記憶する全ての前記コンテンツとの関連度とに基づいて前記評価値を算出し、
前記ドメイン適応モデル学習部は、前記クエリと前記コンテンツとの関連度に基づく前記評価値と、当該クエリの同義表現と前記コンテンツとの関連度に基づく評価値との差分の損失関数が最小となるように前記同義表現生成モデルを生成し、
前記検索処理部は、ユーザ入力されたクエリを前記前記同義表現生成モデルにより同義表現を生成し、当該同義表現をクエリとして検索エンジンに入力する、
自然言語処理システム。
The natural language processing system according to any one of claims 1 to 4, wherein the natural language processing system is used.
It has a search processing unit that outputs the content corresponding to the query entered by the user by the search engine.
The storage unit stores a query corpus that collects queries for search engines as the monolingual corpus, and stores the contents.
The synonymous expression generation unit generates a synonymous expression of the sentence of the query corpus.
The evaluation unit calculates the evaluation value based on the query included in the query corpus, each of its synonymous expressions, and the degree of relevance to all the contents stored in the storage unit.
The domain adaptation model learning unit minimizes the loss function of the difference between the evaluation value based on the degree of association between the query and the content and the evaluation value based on the synonymous expression of the query and the degree of association with the content. To generate the synonymous expression generation model as described above,
The search processing unit generates a synonymous expression from the user-input query by the synonymous expression generation model, and inputs the synonymous expression as a query to the search engine.
Natural language processing system.
情報処理装置が、
単言語コーパス、及び同義表現生成モデルを記憶するステップ、
前記単言語コーパスの文の同義表現を前記同義表現生成モデルを用いて生成するステップ、
前記文と当該文について生成される前記同義表現の夫々について自然言語処理のしやすさの評価値を算出するステップ、及び、
前記文、当該文から生成される前記同義表現、及び前記評価値を含む情報である同義表現情報を学習データとして、入力される文から前記自然言語処理がしやすい同義表現を生成する前記同義表現生成モデルを生成するステップ、
を実行する、自然言語処理方法。
Information processing equipment
A monolingual corpus, and a step to memorize synonymous expression generation models,
A step of generating a synonymous expression of a sentence of the monolingual corpus using the synonymous expression generation model,
A step of calculating the evaluation value of the ease of natural language processing for each of the sentence and the synonymous expression generated for the sentence, and
The synonymous expression that generates the synonymous expression that is easy to process in natural language from the input sentence by using the sentence, the synonymous expression generated from the sentence, and the synonymous expression information that is information including the evaluation value as learning data. Steps to generate a generation model,
Natural language processing method to execute.
請求項7に記載の自然言語処理方法であって、
前記情報処理装置が、
前記単言語コーパスの文を復元するためのエンコーダ/デコーダ方式のニューラルモデルを前記同義表現生成モデルとして生成する事前学習処理を実行するステップ、
最初に文の同義表現を生成する際に前記事前学習処理によって生成された前記同義表現
生成モデルを用いるステップ、
をさらに実行する、自然言語処理方法。
The natural language processing method according to claim 7.
The information processing device
A step of executing a pre-learning process to generate an encoder / decoder neural model for restoring a sentence of the monolingual corpus as the synonymous expression generation model.
A step of using the synonymous expression generation model generated by the pre-learning process when first generating a synonymous expression of a sentence,
A natural language processing method that further executes.
請求項7に記載の自然言語処理方法であって、
前記情報処理装置が、
前記同義表現生成モデルを用いて生成した前記同義表現をエンコードした後にbeam searchデコーディングを実行することにより複数の前記同義表現を生成するステップ、及び

前記文、当該文から生成される前記複数の同義表現、及び前記評価値を含む前記同義表現情報を学習データとして、入力される文について前記自然言語処理がしやすい同義表現を生成する前記同義表現生成モデルを生成するステップ、
をさらに実行する、自然言語処理方法。
The natural language processing method according to claim 7.
The information processing device
A step of generating a plurality of the synonyms by executing beam search decoding after encoding the synonyms generated using the synonym generation model, and
Using the sentence, the plurality of synonymous expressions generated from the sentence, and the synonymous expression information including the evaluation value as learning data, the synonymous expression that generates the synonymous expression that is easy to process in natural language for the input sentence. Steps to generate a generative model,
A natural language processing method that further executes.
請求項9に記載の自然言語処理方法であって、
前記情報処理装置が、
生成した複数の前記同義表現に含まれる同義語を同じ文字列として認識する前処理を実行するステップ、
前記前処理に続いて、複数の前記同義表現からノイズを除去するノイズ除去処理を実行するステップ、
をさらに実行し、
前記前処理において、共通する文字列を、最長一致を基準として抽出するとともに、各同義表現にて抽出される前記共通する文字列間の文字を同義語とし、
前記ノイズ除去処理では、所定の指標に基づき、前記同義表現と当該同義表現の起源となった文との類似度を求めるとともに、当該類似度が所定の値以下となった同義表現をノイズとみなして除去する、
自然言語処理方法。
The natural language processing method according to claim 9.
The information processing device
A step of executing preprocessing for recognizing synonyms contained in a plurality of generated synonyms as the same character string,
Following the preprocessing, a step of executing a noise reduction process for removing noise from the plurality of synonymous expressions.
Further run,
In the preprocessing, the common character string is extracted based on the longest match, and the characters between the common character strings extracted by each synonym are used as synonyms.
In the noise reduction processing, the similarity between the synonymous expression and the sentence from which the synonymous expression is derived is obtained based on a predetermined index, and the synonymous expression whose similarity is equal to or less than a predetermined value is regarded as noise. To remove,
Natural language processing method.
請求項7乃至10のいずれか一項に記載の自然言語処理方法であって、
前記情報処理装置が、
適応元ドメインの対訳コーパスである適応元対訳コーパス、適応先ドメインの単言語コーパスである適応先単言語コーパスを記憶するステップ、
前記適応元対訳コーパスを学習データとして前記適応元ドメインの文を機械翻訳する翻訳モデルである適応元翻訳モデルを生成するステップ、
前記適応先ドメインの文を翻訳する適応先翻訳モデルを生成するステップ、
前記適応先ドメインの対訳コーパスである適応先対訳コーパスを生成するステップ、
入力された前記適応先ドメインの文を、前記適応先翻訳モデルを用いて翻訳するステップ、
前記適応先単言語コーパスの前記適応先ドメインの文の同義表現を生成するステップ、
前記適応先ドメインの文と、当該文の同義表現の夫々を機械翻訳する際の処理のしやすさを前記評価値として算出するステップ、
より翻訳しやすい同義表現の前記評価値が高くなるともに、翻訳し難い同義表現の評価値が低くなるように前記同義表現生成モデルを学習するステップ、
前記適応元翻訳モデルでの機械翻訳がしやすい同義表現と当該同義表現の訳文との対、及び前記適応元翻訳モデルでの機械翻訳がし難い同義表現と当該同義表現の起源となった前記適応元対訳コーパスにおける文に対する参照訳との対の夫々を収集して前記適応先対訳コーパスを生成するステップ、及び、
前記適応先対訳コーパスを学習データとして前記適応先翻訳モデルを生成するステップ、
をさらに実行する、自然言語処理方法。
The natural language processing method according to any one of claims 7 to 10.
The information processing device
A step to memorize the adaptation source bilingual corpus, which is the translation corpus of the adaptation source domain, and the adaptation destination monolingual corpus, which is the monolingual corpus of the adaptation destination domain.
A step of generating an adaptation source translation model, which is a translation model for machine-translating a sentence of the adaptation source domain using the adaptation source bilingual corpus as learning data.
A step of generating an adaptive translation model that translates a sentence in the destination domain,
A step of generating an adaptation destination bilingual corpus, which is a bilingual corpus of the adaptation destination domain,
The step of translating the input sentence of the adaptation destination domain using the adaptation destination translation model,
A step of generating a synonym for a sentence in the destination domain of the destination monolingual corpus,
A step of calculating the ease of processing when machine-translating each of the sentence of the adaptation destination domain and the synonymous expression of the sentence as the evaluation value.
A step of learning the synonymous expression generation model so that the evaluation value of the synonymous expression that is easier to translate becomes higher and the evaluation value of the synonymous expression that is difficult to translate becomes lower.
The pair of synonymous expressions that are easy to machine translate in the adaptation source translation model and the translation of the synonymous expressions, and the synonymous expressions that are difficult to machine translate in the adaptation source translation model and the adaptation that became the origin of the synonymous expressions. A step of collecting each pair of a reference translation for a sentence in the original translation corpus to generate the adaptation destination translation corpus, and
A step of generating the adaptive translation model using the adaptive translation corpus as learning data.
A natural language processing method that further executes.
請求項7乃至10のいずれか一項に記載の自然言語処理方法であって、
前記情報処理装置が、
検索エンジンにより、ユーザ入力されたクエリに対応するコンテンツを出力するステップ、
前記単言語コーパスとして検索エンジンに対するクエリを収集したクエリコーパスを記憶するとともに前記コンテンツを記憶するステップ、
前記クエリコーパスの文の同義表現を生成するステップ、
前記クエリコーパスに含まれるクエリとその同義表現の夫々と、記憶する全ての前記コンテンツとの関連度とに基づいて前記評価値を算出するステップ、
前記クエリと前記コンテンツとの関連度に基づく前記評価値と、当該クエリの同義表現と前記コンテンツとの関連度に基づく評価値との差分の損失関数が最小となるように前記同義表現生成モデルを生成するステップ、及び、
ユーザ入力されたクエリを前記前記同義表現生成モデルにより同義表現を生成し、当該同義表現をクエリとして検索エンジンに入力するステップ、
をさらに実行する、自然言語処理方法。
The natural language processing method according to any one of claims 7 to 10.
The information processing device
A step in which a search engine outputs content that corresponds to a user-entered query,
A step of storing the query corpus that collects queries to search engines as the monolingual corpus and storing the content.
Steps to generate synonyms for the query corpus statement,
A step of calculating the evaluation value based on each of the queries included in the query corpus and their synonymous expressions and the degree of relevance to all the contents to be stored.
The synonymous expression generation model is set so that the loss function of the difference between the evaluation value based on the degree of association between the query and the content and the evaluation value based on the synonymous expression of the query and the content is minimized. Steps to generate and
A step of generating a synonymous expression from a user-input query by the synonymous expression generation model and inputting the synonymous expression into a search engine as a query.
A natural language processing method that further executes.
JP2020108361A 2020-06-24 2020-06-24 Natural language processing system and natural language processing method Pending JP2022006237A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020108361A JP2022006237A (en) 2020-06-24 2020-06-24 Natural language processing system and natural language processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020108361A JP2022006237A (en) 2020-06-24 2020-06-24 Natural language processing system and natural language processing method

Publications (1)

Publication Number Publication Date
JP2022006237A true JP2022006237A (en) 2022-01-13

Family

ID=80110483

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020108361A Pending JP2022006237A (en) 2020-06-24 2020-06-24 Natural language processing system and natural language processing method

Country Status (1)

Country Link
JP (1) JP2022006237A (en)

Similar Documents

Publication Publication Date Title
US8694303B2 (en) Systems and methods for tuning parameters in statistical machine translation
US11544474B2 (en) Generation of text from structured data
CN108475262A (en) Electronic equipment and method for text-processing
Tahsin Mayeesha et al. Deep learning based question answering system in Bengali
CN109992775B (en) Text abstract generation method based on high-level semantics
KR20180048624A (en) A training device of the Q &amp; A system and a computer program for it
JP5710581B2 (en) Question answering apparatus, method, and program
JP7335300B2 (en) Knowledge pre-trained model training method, apparatus and electronic equipment
US11669695B2 (en) Translation method, learning method, and non-transitory computer-readable storage medium for storing translation program to translate a named entity based on an attention score using neural network
JP7413630B2 (en) Summary generation model training method, apparatus, device and storage medium
JP7329929B2 (en) LEARNING DATA EXPANSION DEVICE, LEARNING DEVICE, TRANSLATION DEVICE, AND PROGRAM
JP2020135456A (en) Generation device, learning device, generation method and program
Prabhakar et al. Machine transliteration and transliterated text retrieval: a survey
CN112581327A (en) Knowledge graph-based law recommendation method and device and electronic equipment
JP7103264B2 (en) Generation device, learning device, generation method and program
CN112765977B (en) Word segmentation method and device based on cross-language data enhancement
Belay et al. The effect of normalization for bi-directional amharic-english neural machine translation
Muniraj et al. HNTSumm: Hybrid text summarization of transliterated news articles
Lin et al. Chinese story generation of sentence format control based on multi-channel word embedding and novel data format
JP2018072979A (en) Parallel translation sentence extraction device, parallel translation sentence extraction method and program
JP2022006237A (en) Natural language processing system and natural language processing method
CN112182159B (en) Personalized search type dialogue method and system based on semantic representation
JP7247460B2 (en) Correspondence Generating Program, Correspondence Generating Device, Correspondence Generating Method, and Translation Program
Almansor Translating Arabic as low resource language using distribution representation and neural machine translation models
Thu et al. Generating myanmar news headlines using recursive neural network