JP2022006237A - Natural language processing system and natural language processing method - Google Patents
Natural language processing system and natural language processing method Download PDFInfo
- Publication number
- JP2022006237A JP2022006237A JP2020108361A JP2020108361A JP2022006237A JP 2022006237 A JP2022006237 A JP 2022006237A JP 2020108361 A JP2020108361 A JP 2020108361A JP 2020108361 A JP2020108361 A JP 2020108361A JP 2022006237 A JP2022006237 A JP 2022006237A
- Authority
- JP
- Japan
- Prior art keywords
- synonymous
- adaptation
- synonymous expression
- translation
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
本発明は、自然言語処理システム、及び自然言語処理方法に関する。 The present invention relates to a natural language processing system and a natural language processing method.
特許文献1には、エンコーダ/デコーダ方式のニューラル機械翻訳技術に関し、翻訳器全体の精度を向上させるため、目的言語の単言語コーパスを用いてエンコーダを強化することが記載されている。
また、非特許文献1には、原文の中から目的語の予測に関連する部分を自動的に検索する技術に関して記載されている。
Further, Non-Patent
また、非特許文献2には、単言語コーパスのみを用いてニューラル機械翻訳(NMT(Neural Machine Translation))と統計的機械翻訳(SMT(Statistical machine translation))の双方のシステムを訓練する技術に関して記載されている。
In addition, Non-Patent
近年、NMTの登場により、規則ベース機械翻訳(RMT(Rule Based Machine Translation))やSMTに比べて翻訳精度が大幅に向上し、とくに十分な対訳コーパスが整備されているドメインにおいては実用的な精度での翻訳が可能になった。しかし翻訳モデルの学習に必要な対訳コーパスが十分に存在しない状況ではNMTを適用することは難しい。 In recent years, with the advent of NMT, translation accuracy has improved significantly compared to rule-based machine translation (RMT) and SMT, and practical accuracy is particularly high in domains with sufficient bilingual corpora. Translation is now possible. However, it is difficult to apply NMT in a situation where there is not enough bilingual corpus necessary for learning a translation model.
あるドメイン(以下、「適応先ドメイン」と称する。)において十分な学習リソースが確保できない場合、リソースリッチな他のドメイン(以下、「適応元ドメイン」と称する。)において得られた知識を適応先ドメインに転移させることで、適応先ドメインにおいて高い翻訳精度を実現できることが知られている。例えば、少量であっても適用先ドメインの対訳コーパスが存在している場合、適応元ドメインの対訳コーパスによって翻訳モデルを事前学習しておき、その後、適応先ドメインにおいてファインチューニング(fine tuning)を行う手法が提案されている。また、適応先ドメインの単言語コーパスしか利用
できない場合、逆翻訳を用いることにより疑似的に対訳コーパスを生成することができる。逆翻訳とは、処理方向が真逆の翻訳モデルを二つ用意し(例えば、英日翻訳モデルと日英翻訳モデル)、一方の翻訳モデルで生成されたターゲット文を他方の翻訳モデルのソース文にして学習を行う手法のことである(例えば、特許文献1、非特許文献2を参照)。
逆翻訳を用いて適応先ドメインの単言語コーパスによって擬似的に作成された対訳コーパスを適応元ドメインの対訳コーパスに追加し再学習することを繰り返すことで、単言語コーパスのみが利用可能な状況でもNMTの学習が可能である。
When sufficient learning resources cannot be secured in a certain domain (hereinafter referred to as "adaptation destination domain"), the knowledge gained in another resource-rich domain (hereinafter referred to as "adaptation source domain") is applied to the adaptation destination. It is known that high translation accuracy can be achieved in the target domain by transferring to a domain. For example, if a translation corpus of the target domain exists even in a small amount, the translation model is pre-learned by the translation corpus of the adaptation source domain, and then fine tuning is performed in the adaptation destination domain. A method has been proposed. In addition, when only a single language corpus of the adaptation destination domain can be used, a pseudo bilingual corpus can be generated by using reverse translation. In reverse translation, two translation models with opposite processing directions are prepared (for example, English-Japanese translation model and Japanese-English translation model), and the target sentence generated by one translation model is the source sentence of the other translation model. (For example, refer to
Even in a situation where only a monolingual corpus can be used, by repeatedly adding a bilingual corpus simulated by the monolingual corpus of the adaptation destination domain to the bilingual corpus of the adaptation source domain and re-learning using reverse translation. NMT learning is possible.
ところで、適応先ドメインにおける翻訳モデルの精度の向上に際しては、通常は適用元ドメインとして適応先ドメインと分野が近いものが選択される。しかしドメインの性質上、適応元ドメインの文と適用先ドメインの文とで文体が異なることも少なくない。例えば、特許に関わる分野において、十分な対訳コーパスが用意されていない適用先ドメインの拒絶理由通知書を翻訳する翻訳モデルを学習するため適用元ドメインの特許明細書(特許公報、特許公開公報等)として利用する場合を考える。この場合、例えば、拒絶理由通知書では審査官からの要望や疑問点等に関して「…を参考されたい」等の表現がよく使われるが、こうした表現は特許明細書では殆ど用いられることがない。そのため、特許明細書を適応元ドメインとして学習した翻訳モデルをそのまま利用しても十分な翻訳精度を得ることができない。 By the way, in order to improve the accuracy of the translation model in the adaptation destination domain, a domain having a field close to that of the adaptation destination domain is usually selected as the application source domain. However, due to the nature of the domain, the writing style of the statement of the application source domain and the statement of the application destination domain are often different. For example, in the field related to patents, the patent specification of the application source domain (patent gazette, patent publication, etc.) is used to learn a translation model for translating the notice of reasons for refusal of the application domain for which a sufficient bilingual corpus is not prepared. Consider the case of using as. In this case, for example, in the notice of reasons for refusal, expressions such as "please refer to ..." regarding the request or question from the examiner are often used, but such expressions are rarely used in the patent specification. Therefore, even if the translation model learned by using the patent specification as the application source domain is used as it is, sufficient translation accuracy cannot be obtained.
本発明は、このような背景に基づきなされたものであり、機械翻訳等の自然言語処理の精度を効率よく向上することが可能な、自然言語処理システム、及び自然言語処理方法を提供することを目的とする。 The present invention has been made based on such a background, and provides a natural language processing system and a natural language processing method capable of efficiently improving the accuracy of natural language processing such as machine translation. The purpose.
上記目的を達成するための本発明の一つは、自然言語処理システムであって、情報処理装置を用いて構成され、単言語コーパス、及び同義表現生成モデルを記憶する記憶部と、前記単言語コーパスの文の同義表現を前記同義表現生成モデルを用いて生成する同義表現生成部と、前記文と当該文について生成される前記同義表現の夫々について自然言語処理のしやすさの評価値を算出する評価部と、前記文、当該文から生成される前記同義表現、及び前記評価値を含む前記同義表現情報を学習データとして、入力される文から前記自然言語処理がしやすい同義表現を生成する前記同義表現生成モデルを生成する同義表現生成モデル学習部と、を備える。 One of the present inventions for achieving the above object is a natural language processing system, which is configured by using an information processing apparatus, and has a storage unit for storing a monolingual corpus and a synonymous expression generation model, and the monolingual. Calculates the evaluation value of the ease of natural language processing for each of the synonymous expression generation unit that generates synonymous expressions of the corpus sentence using the synonymous expression generation model and the synonymous expressions generated for the sentence and the sentence. The evaluation unit, the synonymous expression generated from the sentence, and the synonymous expression information including the evaluation value are used as learning data, and the synonymous expression that is easy to process in natural language is generated from the input sentence. It includes a synonymous expression generation model learning unit that generates the synonymous expression generation model.
その他、本願が開示する課題、及びその解決方法は、発明を実施するための形態の欄、及び図面により明らかにされる。 In addition, the problems disclosed in the present application and the solutions thereof will be clarified by the column of the form for carrying out the invention and the drawings.
本発明によれば、機械翻訳等の自然言語処理の精度を効率よく向上することができる。 According to the present invention, the accuracy of natural language processing such as machine translation can be efficiently improved.
以下、図面を参照しつつ本発明の実施形態について説明する。尚、以下の記載及び図面は、本発明を説明するための例示であって、説明の明確化のため、適宜、省略及び簡略化がなされている。本発明は、他の種々の形態でも実施することが可能である。とくに限定しない限り、各構成要素は単数でも複数でも構わない。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. The following description and drawings are examples for explaining the present invention, and are appropriately omitted or simplified for the sake of clarification of the description. The present invention can also be implemented in various other forms. Unless otherwise specified, each component may be singular or plural.
[第1実施形態]
図1に第1実施形態として説明する機械翻訳システム1のシステムフロー図を示している。機械翻訳システム1は、対象とするドメイン(以下、「適応先ドメイン」と称する。)における翻訳モデル(以下、「適応先翻訳モデル」と称する。)の学習に用いる対訳コーパス(以下、「適応先対訳コーパス」と称する。)を生成する情報処理システムである。機械翻訳システム1は、適応先対訳コーパスの生成を実現するための手段としてリソースリッチなドメイン(以下、「適応元ドメイン」と称する。)において学習済みの翻訳モデル(以下、「適応元翻訳モデル」と称する。)と適応先ドメインにおける翻訳元の言語(以下、「ソース言語」と称する。)の単言語コーパスのみが入手可能であるという制約の下、適応先ドメインに特有な表現の翻訳結果を獲得する。
[First Embodiment]
FIG. 1 shows a system flow diagram of the
一般に適応先ドメインに特有な表現については、適応元ドメインに対応する同義表現が存在する。例えば、特許に関わる分野において、十分な対訳コーパスが用意されていない適用先ドメインの拒絶理由通知書を翻訳する適応先翻訳モデルを学習するために適用元ドメインの特許明細書(特許公報、特許公開公報等)として利用する場合を考える。この場合、例えば、適応先ドメインにおける「を参考されたい」という命令口調の表現については、適応元ドメインに「を参考」という同義表現が存在する。また、適応先ドメインにおける「どのようなことを意味しているか」という疑問形の表現については、適応元ドメインに「何を意味しているか」という同義表現が存在する。ここで適応元ドメインにおける表現は適応元翻訳モデルにとっては見慣れた表現であるため精度よく翻訳することができる。従って、適用先ドメインの拒絶理由通知書の文を精度よく翻訳するには、適用元ドメインの特許明細書の同義表現を介することが有効であると考えられる。こうした観点から、本実施形態の機械翻訳システム1は、適応先ドメインの表現と適応元ドメインの表現を関連付ける機能(文体変換機能)を備える。
Generally, for expressions specific to the adaptation destination domain, there are synonymous expressions corresponding to the adaptation source domain. For example, in the field related to patents, the patent specification of the applicable source domain (patent gazette, patent publication) for learning the applicable destination translation model for translating the notice of reasons for refusal of the applicable domain for which a sufficient bilingual corpus is not prepared. Consider the case of using it as a gazette etc.). In this case, for example, with respect to the command tone expression "please refer to" in the adaptation destination domain, there is a synonymous expression "reference" in the adaptation source domain. In addition, regarding the questionable expression of "what does it mean" in the adaptation destination domain, there is a synonymous expression of "what does it mean" in the adaptation source domain. Here, since the expression in the adaptation source domain is a familiar expression for the adaptation source translation model, it can be translated accurately. Therefore, in order to accurately translate the text of the notice of reasons for refusal of the applicable domain, it is considered effective to use synonymous expressions in the patent specification of the applicable domain. From this point of view, the
機械翻訳システム1は、翻訳のしやすさに応じて文を同義表現に変換することにより対訳対を獲得する。機械翻訳システム1は、ロジックが異なる二つの手法から、適応先翻訳モデルの学習に用いる適応先対訳コーパスを自動的に生成する。
The
第1の手法(以下、「easy example生成」と称する。)では、機械翻訳システム1は、適応先ドメインの翻訳しにくい(正しく翻訳することができなかった)表現を、適応元翻訳モデルを用いて翻訳しやすい同義表現に変換する。変換後の同義表現を用いて翻訳処理を行うことで、正しい翻訳結果が得られる可能性が高くなる。また、機械翻訳システム1は、翻訳しにくい適応先ドメインの表現と当該表現の同義表現を介して得られた翻訳結果の対を収集したものを適応先対訳コーパス(以下、「easy example」と称する。)として生成する。
In the first method (hereinafter referred to as "easy example generation"), the
第2の手法(以下、「hard example生成」と称する。)では、機械翻訳システム1は、適応元ドメインの翻訳しやすい表現を適応先ドメインの翻訳しにくい表現に変換する。そして、適応先ドメインの翻訳しにくい表現と適応元ドメインの文に対応する参照訳との対を収集したものを適応先対訳コーパス(以下、「hard example」と称する。)として生成する。このように、翻訳しにくい表現と上記手順で得られた参照訳とに基づき適応先翻訳モデルを学習させると、適応先ドメインにおける翻訳しにくい適応先ドメインの表現をい
かにして翻訳先の言語(以下、「ターゲット言語」と称する。)に翻訳すべきかを学習することができる。
In the second method (hereinafter referred to as "hard example generation"), the
図1に示すように、機械翻訳システム1は、ドメイン適応学習部10、データ拡張部20、適応先翻訳モデル学習部30、及び翻訳処理部40の各機能を備える。このうち、ドメイン適応学習部10は、データ入力処理部11、データ記憶部12、適応元翻訳モデル学習部13、適応元翻訳モデル記憶部14、ドメイン適応モデル学習部15、及びドメイン適応モデル記憶部16を含む。また、データ入力処理部11は、ユーザインタフェース111とデータ処理部112を含む。また、ドメイン適応モデル学習部15は、単言語コーパス入力部151、同義表現生成部152、reward出力部153、同義表現情報記憶部154、及び同義表現生成モデル学習部155を含む。また、データ拡張部20は、適応先対訳コーパス生成部21と適応先対訳コーパス選択部22を含む。また、適応先翻訳モデル学習部30は、適応先対訳コーパス記憶部31、適応先翻訳モデル学習部32、及び適応先翻訳モデル記憶部33を含む。また、翻訳処理部40は、入力インタフェース41、翻訳部42、及び出力インタフェース43を備える。これらの各機能の詳細については後述する。
As shown in FIG. 1, the
図2に機械翻訳システム1を構成する情報処理装置100のハードウェア構成の一例を示す。同図に示すように、情報処理装置100は、プロセッサ101、主記憶装置102、通信装置103、入力装置104、出力装置105、及び補助記憶装置106を備える。
FIG. 2 shows an example of the hardware configuration of the
プロセッサ101は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)、AI(Artificial Intelligence)チップ、FPGA(Field Programmable Gate Array)、SoC(System on Chip)、ASIC(Application Specific Integrated Circuit)等を用いて構成される。
The
主記憶装置102は、プログラムやデータを記憶する装置であり、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、不揮発性メモリ(NVRAM(Non Volatile RAM))等である。
The
通信装置103は、通信ネットワークや通信ケーブル等を介してユーザ端末等の他の情報処理装置との間で通信を行う装置であり、無線又は有線の通信モジュール(無線通信モジュール、通信ネットワークアダプタ、USBモジュール等)である。
The
入力装置104と出力装置105は、機械翻訳システム1のユーザインタフェース部3を構成する。入力装置104は、外部からのユーザ入力やデータ入力を受け付けるユーザインタフェースであり、例えば、キーボード、マウス、タッチパネル、カードリーダ、音声入力装置(例えば、マイクロフォン)等である。出力装置105は、各種情報をユーザに向けて出力するユーザインタフェースであり、各種情報を表示する表示装置(液晶ディスプレイ、有機ELパネル等)、各種情報を音声によって出力する音声出力装置(例えば、スピーカ)、紙媒体に印刷するプリンタ等である。
The
補助記憶装置106は、プログラムやデータを格納する装置であり、例えば、SSD(Solid State Drive)、ハードディスクドライブ、光学式記憶媒体(CD(Compact Disc
)、DVD(Digital Versatile Disc)等)、ICカード、SDカード等である。補助記憶装置106には、機械翻訳システム1の機能を実現するためのプログラム及びデータが格納されている。補助記憶装置106は、記録媒体の読取装置や通信装置103を介してプログラムやデータの書き込み/読み出しが可能である。
The
), DVD (Digital Versatile Disc), etc.), IC card, SD card, etc. The
補助記憶装置106に格納(記憶)されているプログラムやデータは、主記憶装置102に随時読み出される。機械翻訳システム1が備える各機能は、プロセッサ101が、主記憶装置102に格納されているプログラムを読み出して実行することによりまた、図1に示した各記憶部(12,14,154,16,31,33)は、補助記憶装置106に所定のデータが読み出し可能に格納されることで実現される。
Programs and data stored (stored) in the
機械翻訳システム1の機能の全部又は一部を、他の演算装置(例えば、FPGA(Field Programable Gate Array)やASIC(Application Specific Integrated Circuit)
等のハードウェアによって実現してもよい。
All or part of the functions of the
It may be realized by hardware such as.
情報処理装置100は、例えば、パーソナルコンピュータ(デスクトップ型又はノートブック型)、スマートフォン、タブレット、汎用機等である。情報処理装置100の全部又は一部は、例えば、クラウドシステムにより提供されるクラウドサーバのように仮想的な情報処理資源を用いて実現されるものであってもよい。
The
図3は、図1に示したドメイン適応学習部10が行う処理(以下、「ドメイン適応学習処理S300」と称する。)を説明するフローチャートである。以下、適宜図1を参照しつつ、図3に沿ってドメイン適応学習処理S300を説明する。
FIG. 3 is a flowchart illustrating a process performed by the domain
まずドメイン適応学習部10のデータ入力処理部11のユーザインタフェース111が、機械翻訳システムの管理者等のユーザから、適応元対訳コーパスと適応先ドメインの単言語コーパス(以下、「適応先単元後コーパス」と称する。)の夫々の所在情報の入力を受け付ける。そして、ユーザインタフェース111は、受け付けた所在情報により特定されるデータ記憶領域から適応元対訳コーパスと適応先単言語コーパスを取得し(s301)、取得した適応元対訳コーパスと適応先単言語コーパスをデータ処理部112に出力する。
First, the
尚、上記所在情報は、フォルダ名やディレクトリ名等、機械翻訳システム1を構成する情報処理装置の記憶領域を指定する情報でもよいし、URL(Uniform Resource Locater)のようにインターネット等の通信ネットワークに接続するデータベースの所在を示す情報でもよい。ユーザインタフェース111は、機械翻訳システム1を構成する情報処理装置が備える入力装置104(キーボード等)に限らず、例えば、通信装置103でもよい。通信装置103がユーザインタフェース111であれば、ユーザインタフェース111は、ユーザの情報処理装置(パーソナルコンピュータ等)に入力された所在情報を通信ネットワークを介して受け付ける。
The location information may be information that specifies a storage area of an information processing device constituting the
続いて、データ処理部112が、入力された適応元対訳コーパスと適応先単言語コーパスを読み込み、これらに含まれる文を翻訳処理部40において機械翻訳が可能な形式のデータに変換し、変換後のデータをデータ記憶部12に格納する(s302)。データ処理部112により変換されたデータは、例えば、x1,x2,…,xS等と記述される単語列のよう
なシンボル系列からなる。上記シンボル系列では、「xS」と記述される最終シンボルは、末記号(以下、「EOS」と称する。)であり、系列に含まれるシンボル数は、EOSを含めてS個である。
Subsequently, the
続いて、適応元翻訳モデル学習部13が、適応元翻訳モデルの生成と学習を行う(s303)。適応元翻訳モデル学習部13は、エンコーダ/デコーダ方式のニューラル機械翻訳を実行する。適応元翻訳モデル学習部13は、機械学習を行うモード(以下、「学習モード」と称する。)、もしくは機械翻訳を行うモード(以下、「機械翻訳モード」と称する。)で動作する。学習モードでは、適応元翻訳モデル学習部13は、データ記憶部12から読み出した適応元対訳コーパスを学習データとして適応元翻訳モデルを生成し、生成
した適応元翻訳モデルのうち、精度が最も高いものを適応元翻訳モデル記憶部14に格納する。機械翻訳モードでは、適応元翻訳モデル学習部13は、ソース言語で記述されている入力文を、適応元翻訳モデルを用いてターゲット言語に変換する。後述するように、機械翻訳モードにおいて、適応元翻訳モデル学習部13は、ドメイン適応モデル学習部15から出力される、最終シンボルがEOSとなるシンボル系列からなる適応先の文xn(n=1,2,…,s)と、当該文の同義表現yn
m(m=1,2,…,b、n=1,2,…,T)とを入
力データとして受け取り、受け取った入力データxn、yn
mに対して機械翻訳を実行する。
そして、適応元翻訳モデル学習部13は、機械翻訳の結果として、最終シンボルがEOSとなるT個のシンボル系列からなる出力データy1,y2,…,yTをドメイン適応モデル学習部
15にフィードバックする。
Subsequently, the adaptation source translation
Then, the adaptation source translation
続いて、ドメイン適応モデル学習部15が、単言語コーパスにおける適応先の文が適切に翻訳できるように、適応先の文の同義表現を生成する学習モデル(以下、「同義表現生成モデル」と称する。)を生成するとともに、適応先の文が適切に翻訳されるように適応元翻訳モデルの学習を行う(s304、及びs305~s318のループ処理)。
Subsequently, the domain adaptation
具体的には、まずループ処理s305~s318の準備として、ドメイン適応モデル学習部15の単言語コーパス入力部151が、データ記憶部12から適応先単言語コーパスを読み込み、適応先単言語コーパスを同義表現生成部152へ出力する。また同義表現生成部152が、入力された適応先単言語コーパスと、ドメイン適応モデル記憶部16に格納されている同義表現生成モデルを読み込む(s304)。
Specifically, first, in preparation for the loop processes s305 to s318, the single language
ループ処理s305~s318では、まず同義表現生成部152が、エンコーダ/デコーダ方式のニューラル文生成処理を実行する(s305)。具体的には、同義表現生成部152は、学習済みの同義表現生成モデルを用いて文を生成するモード(以下、「文生成モード」と称する。)では、読み込んだ単言語コーパスにおける一つの文x1,x2…xSをエ
ンコーディングした後、beam searchデコーディングを実行し、b個の出力データy1,y2,
…,ybを生成する。尚、b個の出力データy1,y2,…,ybの夫々は、EOSを最終シンボルとしたT個の単語からなるシンボル系列である。例えば、y1であれば、y1=y1
1,y2
1,…,yT
1である。beam searchデコーディングの実行により生成されたb個のシンボル系列y1,y2,
…,ybの一つ一つが単言語コーパスにおける一つの文x1,x2…xSについての同義表現となる。
In the loop processes s305 to s318, the synonymous
…, Generate y b . It should be noted that each of the b output data y 1 , y 2 , ..., Y b is a symbol series consisting of T words with EOS as the final symbol. For example, if y 1 , y 1 = y 1 1 , y 2 1 , ..., y T 1 . b symbol sequences generated by executing beam search decoding y 1 , y 2 ,
Each of ..., y b is a synonym for one sentence x 1 , x 2 ... x S in a monolingual corpus.
続いて、同義表現生成部152が、b個の同義表現y1,y2,…,ybから不適切な表現であ
るノイズを除去する(s306)。ノイズの除去に用いられる類似度計算は、BLEU、RIBES等の評価指標に基づいて行うことができる。尚、同義表現生成部152は、同義語の言
い換えによる過剰なペナルティを抑制するための前処理を行った上でノイズを除去するための類似度計算を行う。上記の前処理では、同義表現生成部152は、単言語コーパスに含まれる元となる適応先の文(以下、「元となる文」と称することがある。)と、beam searchデコーディングにより生成されたb個の同義表現の夫々の中から、共通の文字列を
抽出し、この抽出した共通の文字列を、ある変数名に置換する。尚、共通の文字列を抽出する際には、例えば、最長一致を基準とする。そして、基準を満たす全ての箇所が変数名に置き換えられた後、前後となる二つ変数の間にある部分を同義語と見なす。
Subsequently, the synonymous
図4に前処理の一例を示す。同図に示すように、意味が同じで表記が異なる四つの文「明細書の先行技術文献6と7に開示された材料を参照してください。」、「明細書の先行技術文献6および7に開示されている材料を参照。」、「明細書の先行技術文献6及び7に開示された材料を参照されたい。」、「明細書の先行技術文献6に開示された材料を参照すべき。」がある場合、同義表現生成部152は、これらの文のうち、共通の文字列として、「明細書の先行技術文献6」、「7に開示され」、「材料を参考」を抽出する。そし
て、「明細書の先行技術文献6」の変数名を「ele.1」とし、「7に開示され」を「ele.2」とし、「材料を参考」を「ele.3」、句点「。」を「ele.4」とすると、同義表現生成部152は、各変数の間にある「と」、「および」、「及び」を同義語とみなす。同義表現生成部152は、このような前処理を行うことで、ノイズ除去に用いられる類似度計算に際し、図4に示した手順で識別した同義語が違う文字列としてカウントされないようにする。
FIG. 4 shows an example of preprocessing. As shown in the figure, four sentences having the same meaning but different notations "Refer to the materials disclosed in the prior art documents 6 and 7 of the specification.", "Prior art documents 6 and 7 of the specification. ”,“ Refer to the materials disclosed in the prior art documents 6 and 7 of the specification. ”,“ The materials disclosed in the prior art document 6 of the specification should be referred to. If there is ".", The synonymous
同義表現生成部152は、前処理を実行すると、ノイズを除去するため、夫々の同義表現と、元となる文との間で類似度を計算し、最終的に計算した類似度が所定の指標(例えば、BLUE値)において所定の値以下(例えば、BLUE値≦0.5)となった同義表現をノイズとみなして除去する。また同義表現生成部152は、ノイズ除去の後の同義表現に対し、一つの適応先の文と、beam searchにより取得されたb個の同義表現の夫々を組にしたも
のを、reward出力部153に送信する。尚、適応先の文は、N個あるものとする。即ち、文体変換を行うための学習データがN組あるものとする。
The synonymous
図3に戻り、続いて、reward出力部153が、元となる文xn、及びその文xn(n=1,2,…,s)の同義表現yn
m(m=1,2,…,b、n=1,2,…,T)とに対する機
械翻訳のしやすさを評価する。まずreward出力部153は、適応元翻訳モデル記憶部14から、適応元翻訳モデル学習部13によって生成された学習済みの適応元翻訳モデルを読み込む(s307)。そしてreward出力部153は、元となる文xnを同義表現生成部152から送信された適応先の文xnと、同義表現yn
mを、読み込んだ適応元翻訳モデルによっ
て適応元翻訳モデル学習部13に機械翻訳させ、適応先の文xnと、同義表現yn
mとに対す
る機械翻訳のしやすさ(reward)を算出する(s308)。
Returning to FIG. 3, the
ここで処理のしやすさは、文の長さや文の係り受け構造等の面から評価してもよいが、機械翻訳システム1では、機械翻訳のしやすさの指標として、対数尤度logp(yn
m)を用い
る。対数尤度logp(yn
m)は、対象となる同義表現を、適応元翻訳モデルに基づきターゲッ
ト言語に翻訳する際に求められる。対数尤度logp(yn
m)は、適応元翻訳モデルの信頼性を
表す値であり、翻訳結果の正確性を示す値である。対数尤度logp(yn
m)は、翻訳結果が正
しく生成された場合に大きくなり、翻訳結果が誤って生成された場合に小さくなる。reward出力部153は、適応先の文xnと、その同義表現yn
mと、reward出力部153の処理に
より得られた機械翻訳のしやすさの評価値logp(yn
m)とからなる三つ一組のデータ(以下
、「同義表現情報」と称する。)を同義表現情報記憶部154に格納する(s309)。
Here, the ease of processing may be evaluated in terms of the length of the sentence, the dependency structure of the sentence, etc., but in the
続いて、同義表現生成モデル学習部155が、同義表現生成モデルを生成する(s310)。同義表現生成モデル学習部155は、エンコーダ/デコーダ方式のニューラル文生成処理を実行する機能であり、学習モードにおいて、同義表現情報記憶部154から同義表現情報を抽出し、この抽出した同義表現情報を学習データとし、より翻訳しやすい同義表現の尤度を高くし、翻訳し難い同義表現の尤度を低下させるように、適応先の文xnから、その文xnの同義表現yn
mを生成するように学習する。即ち、上述した「easy exampl生成」と、「hard example生成」の手法が当該学習に適用される。
Subsequently, the synonymous expression generation
ここで同義表現yn
mが生成される確率は、その同義表現に対する処理のしやすさlogp(ym)に従う。そこで、同義表現生成モデル学習部155は、学習モードにおいて、まず次の
数式1に示すように、適応先の文xnから算出されたrewardの評価値logp(xn)を基準とし、当該基準と同義表現yn
mのrewardの評価値logp(yn
m) との差分rを求める。
[数式1]
Here, the probability that the synonymous expression y n m is generated follows the ease of processing logp (y m ) for the synonymous expression. Therefore, in the learning mode, the synonymous expression generation
[Formula 1]
「easy exampl生成」によって生成される同義表現生成モデルは、適応先の文xnを、適
応元翻訳モデルで処理可能な同義表現に変換するためのモデルである。そのため、「easy
exampl生成」は、同義表現が元となる文より翻訳しやすい場合に尤度が高くなり、元と
なる文より翻訳し難い場合に尤度が低くなる。そこで、同義表現生成モデル学習部155は、以下の数式2に示した損失関数Leを最小化するように同義表現生成モデルを生成する。
[数式2]
The synonymous expression generation model generated by "easy exampl generation" is a model for converting the sentence x n of the adaptation destination into a synonymous expression that can be processed by the adaptation source translation model. Therefore, "easy
"Examppl generation" has a higher likelihood when it is easier to translate than the original sentence, and a lower likelihood when it is more difficult to translate than the original sentence. Therefore, the synonymous expression generation
[Formula 2]
一方、「hard example生成」によって生成された同義表現生成モデルは、適応先の文xnの翻訳が難くなるように変換するためのモデルである。そこで、同義表現生成モデル学習部155は、「hard example生成」を行う場合には以下の数式3に示した損失関数Lhを最小化するように同義表現生成モデルを生成する。
[数式3]
On the other hand, the synonymous expression generation model generated by "hard example generation" is a model for converting the sentence x n to which it is applied so that it is difficult to translate. Therefore, the synonymous expression generation
[Formula 3]
同義表現生成モデル学習部155は、上述したように生成した同義表現生成モデルをドメイン適応モデル記憶部16に格納する(s311)。そして、同義表現生成モデル学習部155は、学習モードの実行機会ごとに同義表現生成モデルを更新する。
The synonymous expression generation
同義表現生成モデルは、例えば、同義表現生成モデル学習部155による事前学習によって生成してもよい。その場合、同義表現生成部152は、文生成モードにおいて、最初に同義表現生成モデルを読み込む際、ドメイン適応モデル記憶部16に格納されている事前学習済みの同義表現生成モデルを利用することができる。同義表現生成モデル学習部155による事前学習は、例えば、次のようにして行われる。
The synonymous expression generation model may be generated by, for example, pre-learning by the synonymous expression generation
まず同義表現生成モデル学習部155は、単言語コーパス入力部151から適応先ドメインの単言語コーパスを読み込み、適応先の文xnを復元するように、エンコーダ/デコーダ方式のニューラルモデルを学習する。このような手順で事前学習された同義表現生成モデルは、適応先の単言語コーパスと同じ言語の文を生成できるようになるため、beam searchデコーディングを行うことで複数の同義表現を生成することが可能となる。同義表現
生成モデル学習部155は、事前学習された同義表現生成モデルをドメイン適応モデル記憶部16に格納する。
First, the synonymous expression generation
以上のように、事前学習、及びその後の学習の機会毎に、同義表現生成モデルが訓練されていく。同義表現生成部152は、同義表現生成モデル学習部155による学習の機会毎に、ドメイン適応モデル記憶部16に格納されている同義表現生成モデルを読み込むとともに、単言語コーパス入力部151から適応先ドメインの単言語コーパスを読み込む(s312)。そして同義表現生成部152は、上述した同義表現を生成する処理(s305)、ノイズを除去する処理(s306)と同様に、文生成モードによって、b個の出力データy1,y2,…,yb を同義表現として生成するとともに(s313)、生成した同義表現のノイズを上述した前処理を行った上で除去し(s314)、ノイズ除去後の同義表現、及びその元となる文をreward出力部153に送信する。
As described above, the synonymous expression generation model is trained for each pre-learning and subsequent learning opportunities. The synonymous
reward出力部153は、同義表現生成部152から送信された同義表現、及びその元となる文を受け付けると、上述した翻訳のしやすさ(reward)の場合と同様に、同義表現を適応元翻訳モデル学習部13によってターゲット言語に翻訳させ、その翻訳結果に基づくreward(対数尤度)を出力し、同義表現、その翻訳結果、対数尤度、及び元となる文から
なる組(以下、「同義表現関連情報」と称する。)を対訳対抽出部156に送信する(s315)。
When the
対訳対抽出部156は、同義表現生成部152により送信された同義表現関連情報に基づいて対訳対を抽出する処理を実行する(s316)。当該処理では、まず対訳対抽出部156が、同義表現生成部152から受け付けた同義表現関連情報を、対数尤度が大きい方から順に並べ替え、学習の回数に応じ、対数尤度が上位r%に含まれる組を抽出する。
尚rは、学習の回数が増えるたびに小さくしていく。対訳対抽出部156は、このように
して対訳対を抽出することで、reward出力部153により生成されたノイズを含む翻訳結果が学習に悪影響を及ぼす可能性を低減させる。即ち、対訳対抽出部156は、同義表現生成部152がノイズの多い状態で学習データを事前学習した後、比較的質がよい学習データを用いて同義表現生成モデルをファインチューニングする。そのため、同義表現生成部152に対してランダムに同義表現生成モデルを与える場合より、高い翻訳精度が得られる同義表現が生成されるようになる。
The bilingual
Note that r is reduced as the number of learnings increases. By extracting the translation pair in this way, the translation
対訳対抽出部156は、抽出した同義表現関連情報から、元となる文と翻訳結果とを抽出して対にしたものを学習データとして生成し、この学習データを適応元翻訳モデル学習部13に送信する。適応元翻訳モデル学習部13は、対訳対抽出部156から送信されてきた学習データにより適応元翻訳モデルを学習し(s317)、学習済みの適応元翻訳モデルを適応元翻訳モデル記憶部14に格納する(s318)。
The parallel translation
図5は、データ拡張部20、適応先翻訳モデル学習部30、及び翻訳処理部40が行う処理(以下、「翻訳処理S500」と称する。)を説明するフローチャートである。以下、適宜図1を参照しつつ、図5に沿って翻訳処理S500を説明する。
FIG. 5 is a flowchart illustrating processing performed by the
データ拡張部20の適応先対訳コーパス生成部21は、適応元翻訳モデル学習部13が、適応元翻訳モデルによって適応先ドメインの文を翻訳できるように学習するための対訳コーパスを疑似的に生成する。適応先対訳コーパス生成部21は、データ記憶部12から適応先ドメインの単言語コーパスを読み込み、適応元翻訳モデル記憶部14から学習済みの適応元翻訳モデルを読み込み、ドメイン適応モデル記憶部16から学習済みの同義表現生成モデルを読み込む(s501)。
The adaptation destination translation
適応先対訳コーパス生成部21は、擬似的な対訳コーパスを生成する際、まず同義表現生成モデルを用いて適応先ドメインの単言語コーパスの中に含まれている文に対する同義表現を生成する(s502)。さらに、適応先対訳コーパス生成部21は、生成した同義表現を、学習済みの適応元翻訳モデルによりターゲット言語に翻訳する。そして、適応先対訳コーパス生成部21は、元となる適応先ドメインの文、同義表現を介して得られた翻訳結果、及び翻訳モデルが出力する尤度の三つのデータからなる組の集合を取得する(s503)。
When generating a pseudo translation corpus, the adaptation destination translation
データ拡張部20の適応先対訳コーパス選択部22は、適応先対訳コーパス生成部21が取得した上記組の集合を翻訳モデルに基づいて出力される尤度の順で並び替える(s504)。そして適応先対訳コーパス選択部22は、並び変えた順番の上位r%のデータを、適応先ドメインの文を翻訳するための翻訳モデル(適応先翻訳モデル)を学習するための擬似的な対訳コーパス(適応先対訳コーパス)として抽出し、抽出した適応先対訳コーパスを適応先翻訳モデル学習部30の適応先対訳コーパス記憶部31に格納する(s505)。
The adaptation destination translation
適応先翻訳モデル学習部30の適応先翻訳モデル学習部32は、学習済みの適応先翻訳モデルを生成する。適応先翻訳モデル学習部32は、エンコーダ/デコーダ方式のニュー
ラル機械翻訳を実行する機能である。適応先翻訳モデル学習部32は、適応先対訳コーパス記憶部31から適応先対訳コーパスを読み出し、この適応先対訳コーパスを学習データとして学習済みの適応先翻訳モデルを生成し(s506)、その適応先翻訳モデルを適応先翻訳モデル記憶部33に格納する(s507)。尚、適応先翻訳モデルとして、ルールベース形式や統計的機械翻訳形式等、他の翻訳モデルを利用してもよい。
The adaptation destination translation
続いて、翻訳処理部40が、適応先翻訳モデル学習部30にて生成された適応先翻訳モデルを用いてユーザから受け付けた適応先ドメインの文を翻訳し、その翻訳結果を出力する。具体的には、まず入力インタフェース41が、機械翻訳システム1のユーザから文の入力を受け付ける(s508)。続いて、翻訳部42が適応先翻訳モデル記憶部33から翻訳モデルを読み込み、受け付けた文をターゲット言語に翻訳する(s509)。続いて、出力インタフェース43が、翻訳文を、ディスプレイ等の出力装置105に出力する(s510)。
Subsequently, the
以上に説明したように、本実施形態の機械翻訳システム1によれば、適応先ドメインに特有な表現には対応する同義表現が適応元ドメインに存在することを利用して、適応先ドメインにおけるソース言語の単言語コーパスのみが入手可能であるという制約の下で適応先ドメインにおける文を精度よく翻訳することができる。このように本実施形態の機械翻訳システム1によれば、自然言語処理の精度を効率よく向上することができる。
As described above, according to the
機械翻訳システム1による翻訳処理の具対例として、日本語をソース言語とし、英語をターゲット言語とするとともに、適応元ドメインの文書を特許公報とし、適応先ドメインの文書を拒絶理由通知書として、日本語の拒絶理由通知を英語に翻訳する例を示す。尚、特許公報の対訳コーパスと、日本語の拒絶理由通知書の単言語コーパスは、データ入力処理部11を介してデータ記憶部12に格納されているものとする。
As an example of translation processing by the
図6A、図6Bは、夫々、従来の機械翻訳技術による翻訳例(比較例)であり、日本語の拒絶理由通知書の文と特許公報の文とを入力文とし、その入力文を特許公報のドメインで学習された翻訳モデルを用いて英語に翻訳した例を示している。図6Aに示す拒絶理由通知書では、図中下線で示す審査官からの要望や疑問点等に関する記載部分(図中、下線で示す部分)が、図6Bに示す特許公報における表現(図中、下線で示す部分)とは異なっている。このように、特許公報のドメインで学習された翻訳モデルをそのまま拒絶理由通知に適用しただけでは、拒絶理由通知書に特有な表現を適切に翻訳することができない。 6A and 6B are translation examples (comparative examples) by conventional machine translation technology, respectively, in which the text of the notice of reasons for refusal in Japanese and the text of the patent gazette are input texts, and the input texts are the patent gazettes. An example of translation into English using a translation model learned in the domain of is shown. In the notice of reasons for refusal shown in FIG. 6A, the description part (underlined part in the figure) regarding the request or question from the examiner shown by the underline in the figure is the expression in the patent gazette shown in FIG. 6B (in the figure, It is different from the underlined part). As described above, simply applying the translation model learned in the domain of the patent gazette to the notice of reasons for refusal cannot appropriately translate the expression peculiar to the notice of reasons for refusal.
図7A~図7Dに、本実施形態の機械翻訳システム1の適応先翻訳モデルにより拒絶理由通知書の日本語(適用元ドメイン)の文を英語(適用先ドメイン)の文に翻訳した例(同図に示す入力文と翻訳文)を示す。尚、各図に示す同義表現は、適応先翻訳モデルの学習に用いる学習データ(適応先対訳コーパス)の生成に用いた同義表現の例である。このように本実施形態の機械翻訳システム1によれば、拒絶理由通知書の文を精度よく英語の文に翻訳することができる。
7A-7D show an example in which the Japanese (source domain) sentence of the notice of reasons for refusal is translated into the English (application domain) sentence by the application destination translation model of the
[第2実施形態]
図8は第2実施形態として示す情報処理システム(以下、「検索システム50」と称する。)の機能を説明するシステムフロー図である。検索システム50のハードウェア構成は、図2に示した情報処理装置100と同様である。
[Second Embodiment]
FIG. 8 is a system flow diagram illustrating the functions of the information processing system (hereinafter, referred to as “
同図に示すように、検索システム50は、ドメイン適応学習部60と検索処理部70を備える。また、ドメイン適応学習部60は、データ入力処理部61、検索エンジン記憶部62、記憶部63、ドメイン適応モデル学習部64、及びドメイン適応モデル記憶部65
を含む。また、ドメイン適応モデル学習部64は、クエリ入力部641、同義表現生成部642、reward出力部643、同義表現情報記憶部644、及び同義表現生成モデル学習部645を含む。また、検索処理部70は、入力インタフェース71、ドメイン適応判別部72、クエリ同義表現生成部73、検索エンジン部74、及び出力インタフェース75を含む。また、検索エンジン部74は、クエリ投入部741、検索コンテンツ記憶部742、類似度計算部743、及び検索結果出力部を含む。尚、類似度計算部743は、例えば、インターネット上の情報検索サイト等で一般的に用いられている検索エンジンである。
As shown in the figure, the
including. Further, the domain adaptation
検索処理部70は、インターネットに公開されている情報検索サイトを構成する情報処理システムや、スタンドアロン型のデータベース検索装置等と同様に、ユーザに対して情報検索サービスを提供する。具体的には、検索処理部70は、インターネット等の通信ネットワークを介してユーザからクエリの入力を受け付けると、受け付けたクエリに対する検索結果として、検索コンテンツ記憶部742に格納されているコンテンツをユーザが操作するユーザ端末に送信する。また検索処理部70は、単一の文や複数の文の組み合わせにより構成されるクエリをユーザから受け付けると、より関連度の高い適切なコンテンツを提供する。そしてドメイン適応学習部60は、ユーザが検索処理部70に入力したクエリを集約したもの(以下、「クエリコーパス」と称する。)を単言語コーパスとし、当該クエリコーパスに基づき、ユーザから受け付けたクエリを正解のコンテンツが抽出されやすい同義表現に変換する同義表現生成モデルを生成する。
The
図9は、ドメイン適応学習部60が行う処理(以下、「同義表現生成モデル生成処理S900」と称する。)を説明するフローチャートである。以下、適宜図8を参照しつつ、図9に沿って同義表現生成モデル生成処理S900を説明する。 FIG. 9 is a flowchart illustrating a process performed by the domain adaptive learning unit 60 (hereinafter, referred to as “synonymous expression generation model generation process S900”). Hereinafter, the synonymous expression generation model generation process S900 will be described with reference to FIG. 8 as appropriate.
まずデータ入力処理部61のユーザインタフェース611が、ユーザの操作入力等により適応先の単言語コーパスの所在に関する情報が入力されると、入力された所在情報から読み込んだクエリコーパスをデータ処理部612に出力する。データ処理部612は、入力されたクエリコーパスにおける文をドメイン適応モデル学習部64が処理できる形式のデータに変換し、変換後のデータを記憶部63に格納する。続いて、クエリ入力部641が、記憶部63からクエリコーパスを読み込み、読み込んだクエリコーパスを同義表現生成部642に出力する(s901)。尚、データ処理部612により変換されたデータは、第1実施形態の機械翻訳システム1と同様に、クエリを記述する一つの文が、単語列のようなシンボル系列x1,x2,…,xSに変換されたものである。
First, when the
続いて、ドメイン適応学習部60は、ループ処理s901~s910を開始し、まず同義表現生成部642が、エンコーダ/デコーダ方式のニューラル文生成処理を実行する(s902)。同義表現生成部642は、第1実施形態の機械翻訳システム1の同義表現生成部152と同様に動作し、文生成モードにおいて、記憶部63から読み込んだクエリコーパスにおける一つの文x1,x2,…,xsをエンコーディングした後、beam searchデコーディングを実行し、同義表現であるb個の出力データy1,y2,…ybを生成する。尚、b個の出力データy1,y2,…ybの夫々は、EOSを最終シンボルとしたT個の単語からなるシンボル系列である。
Subsequently, the domain
続いて、同義表現生成部642は、生成した同義表現y1,y2,…,ybとクエリx1,x2,…,xsとの類似度に基づき、生成したb個の同義表現y1,y2,…,ybから不適切な表現を除去する
ノイズ除去処理を行う(s903)。尚、その際、同義表現生成部642は、第1実施形態の機械翻訳システム1と同様に、生成した同義表現に対して前処理を行い、夫々の同義表現と元となる文との間で類似度を求め、求めた類似度が最終的に所定の指標(例えば、BLUE値)において所定の値以下(例えば、BLUE値≦0.5)となった同義表現をノイズとみ
なして除去する。同義表現生成部642は、ノイズ除去後の同義表現、及びその元となるクエリをreward出力部643に送信する(s904)。
Subsequently, the synonymous
続いて、reward出力部643が、検索エンジン記憶部62から既存の検索エンジンを読み込み(s905)、クエリxn(n=1,2,…,s)をその同義表現yn
m(m=1,2
,…,b、n=1,2,…,T)に変換し、同義表現yn
mを検索エンジンに問い合わせる
場合の処理しやすさを算出する(s906)。またreward出力部643は、クエリxnに対しても処理のしやすさを求める。尚、第2実施形態の検索システム50では、処理のしやすさ(reward)の指標として、例えば、TF/IDF等、クエリxnと、検索対象として検索コンテンツ記憶部742に格納されている全てのコンテンツとの関連度から算出されたエントロピーH(yn
m)を用いている。検索エンジンは、エントロピーの値が高いほど、クエリxnに対してより適切なコンテンツを抽出する。
Subsequently, the
, ..., b, n = 1, 2, ..., T), and the ease of processing when inquiring the synonymous expression y n m to the search engine is calculated (s906). The
続いて、reward出力部643は、一つのクエリxnについて、当該クエリxn、同義表現表現yn
m、及び処理のしやすさの評価値H(yn
m)からなる三つ一組からなる同義表現情報を同
義表現情報記憶部644に格納する(s907)。尚、本例では同義表現情報は、N組あるものとする。同義表現情報は同義表現生成モデル学習部645が同義表現生成モデルを生成するための学習データとして用いられる。
Subsequently, the
続いて、同義表現生成モデル学習部645が、同義表現生成モデルを読み込む(s908)。同義表現生成モデル学習部645は、エンコーダ/デコーダ方式のニューラル文生成処理を実行する機能であり、学習モードにおいて、ドメイン適応モデル記憶部16から、同義表現生成モデルを読み込む。
Subsequently, the synonymous expression generation
続いて、同義表現生成モデル学習部645は、同義表現情報を学習データとして、クエリxnから、その同義表現yn
mを生成するように学習し、学習結果である同義表現生成モデ
ルを生成する(s909)。尚、同義表現yn
mが生成される確率は、その同義表現に対す
る処理のしやすさ(reward)の評価値H(yn
m)に応じて学習される。
Subsequently, the synonymous expression generation
具体的には、同義表現生成モデル学習部645は、まず以下に示した数式4により、クエリxnから算出された処理のしやすさの評価値H(xn)を基準とし、当該基準と同義表現yn
mの評価値H(yn
m)との差分を求める。
[数式4]
Specifically, the synonymous expression generation
[Formula 4]
そして同義表現生成モデル学習部645は、以下の数式5に示した損失関数が最小となるように学習する。
[数式5]
Then, the synonymous expression generation
[Formula 5]
同義表現生成モデル学習部645は、学習処理が完了する度にドメイン適応モデル記憶部65に最新の同義表現生成モデルを格納する(s910)。
The synonymous expression generation
同義表現生成モデルは、例えば、同義表現生成モデル学習部645による事前学習によって生成してもよい。その場合、同義表現生成部642は、文生成モードにおいて、最初に同義表現生成モデルを読み込む際にドメイン適応モデル記憶部65に格納されている事前学習済みの同義表現生成モデルを利用することができる。上記の事前学習は、例えば、同義表現生成モデル学習部645が、記憶部63からクエリコーパスを読み込み、クエリ
xnを復元するようにエンコーダ/デコーダ方式のニューラルモデルを学習することにより行う。同義表現生成モデル学習部155が、事前学習された同義表現生成モデルをドメイン適応モデル記憶部16に格納する。このような手順で事前学習されたモデルは、クエリコーパスと同じ言語の文を生成できるようになるため、beam search デコーディングを行うことで、複数の同義表現を生成することが可能になる。
The synonymous expression generation model may be generated by, for example, pre-learning by the synonymous expression generation
This is done by learning an encoder / decoder neural model to restore x n . The synonymous expression generation
続いて、検索処理部70が行う処理(以下、「検索処理S1000」と称する。)について説明する。 Subsequently, the processing performed by the search processing unit 70 (hereinafter, referred to as “search processing S1000”) will be described.
図10は、検索処理S1000を説明するフローチャートである。以下、同図とともに検索処理S1000について説明する。 FIG. 10 is a flowchart illustrating the search process S1000. Hereinafter, the search process S1000 will be described with reference to the figure.
まず入力インタフェース51が、ユーザからクエリの入力を受け付け(s1001)、受け付けたクエリをドメイン適応判別部72に送信する(s1002)。 First, the input interface 51 accepts a query input from the user (s1001), and transmits the accepted query to the domain adaptation determination unit 72 (s1002).
ドメイン適応判別部72は、送信されてきたクエリを同義表現に変換する必要があるか否かを判別する(s1003)。具体的には、ドメイン適応判別部72は、検索エンジン記憶部62から、検索エンジンを読み込み、クエリを検索エンジン部74に問い合わせる。クエリを検索エンジン部74の類似度計算部743は、クエリと、検索コンテンツ記憶部122に含まれている全てのコンテンツとの関連度を用いて、各コンテンツにランキングを付与して検索結果を生成し、ランキングが付与された夫々の検索結果をドメイン適応判別部72に送信する。
The domain
ドメイン適応判別部72は、送信されてきたコンテンツのうち、ランキングが一位のコンテンツとクエリとの間の関連度(例えば、TF/IDF等の評価指標)を判定する(S1003)。関連度が所定の閾値s未満である場合(s1003:YES)、処理はs1004に進む。関連度が閾値s以上である場合(s1003:NO)、処理はs1006に進む。
The domain
S1004では、クエリ同義表現生成部73は、ドメイン適応判別部72から送信されてきたクエリを受け取る。そしてクエリ同義表現生成部73は、ドメイン適応モデル記憶部65から同義表現生成モデルを読み込み、クエリの同義表現を生成し、生成した同義表現をクエリとして検索エンジン部74のクエリ投入部741に送信する(s1005)。
In S1004, the query synonym
s1006では、クエリ投入部741が、クエリ同義表現生成部73、あるいはドメイン適応判別部72から受け取ったクエリの文字列を類似度計算部743に送信する。類似度計算部743は、クエリと検索コンテンツ記憶部742に含まれている全てのコンテンツとの関連度を算出し、各コンテンツにランキングを付与して検索結果を生成する(s1007)。
In s1006, the query input unit 741 transmits the character string of the query received from the query synonym
続いて、出力インタフェース75が、上記検索結果を出力する(s1008)。尚、出力インタフェース75は、例えば、検索結果を、ランキングが一位のコンテンツやそのコンテンツへのリンク、あるいはコンテンツや各コンテンツへのリンクをランキング順に並べたリスト等、適宜な形式で出力する。
Subsequently, the
以上に説明したように、本実施形態の検索システム50は、クエリコーパス中の各クエリと、その同義表現と、クエリ及び同義表現の夫々と検索システム50が保有する全コンテンツとの関連度とを含む同義表現情報を学習データとして、入力されたクエリを正解のコンテンツが抽出され易い同義表現のクエリに変換するための同義表現生成モデルを生成し、入力されたクエリを同義表現生成モデルで同義表現に変換して新たなクエリとして入
力する。そのため、曖昧な表現を含んだ自然言語で記述されたクエリが入力された場合でも正解のコンテンツを出力することができる。
As described above, the
以上、本発明の実施形態につき説明したが、本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。また例えば、上記した実施形態は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また各実施形態の構成の一部について、他の構成に追加、削除、置換することが可能である。 Although the embodiments of the present invention have been described above, the present invention is not limited to the above-described embodiments, and includes various modifications. Further, for example, the above-described embodiment is described in detail in order to explain the present invention in an easy-to-understand manner, and is not necessarily limited to the one including all the described configurations. Further, it is possible to add, delete, or replace a part of the configuration of each embodiment with other configurations.
また、上記の各構成、機能部、処理部、処理手段等は、それらの一部または全部を、例えば、集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサが夫々の機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリやハードディスク、SSD(Solid State Drive)等の記録装置、IC
カード、SDカード、DVD等の記録媒体に置くことができる。
Further, each of the above configurations, functional units, processing units, processing means and the like may be realized by hardware by designing a part or all of them by, for example, an integrated circuit. Further, each of the above configurations, functions, and the like may be realized by software by the processor interpreting and executing a program that realizes each function. Information such as programs, tables, and files that realize each function can be stored in memory, hard disks, recording devices such as SSDs (Solid State Drives), and ICs.
It can be placed on a recording medium such as a card, SD card, or DVD.
また、以上に説明した各情報処理装置の各種機能部、各種処理部、各種データベースの配置形態は一例に過ぎない。各種機能部、各種処理部、各種データベースの配置形態は、これらの装置が備えるハードウェアやソフトウェアの性能、処理効率、通信効率等の観点から最適な配置形態に変更し得る。 Further, the arrangement form of various functional units, various processing units, and various databases of each information processing apparatus described above is only an example. The arrangement form of various function units, various processing units, and various databases can be changed to the optimum arrangement form from the viewpoint of the performance, processing efficiency, communication efficiency, and the like of the hardware and software included in these devices.
また、前述した各種のデータを格納するデータベースの構成(スキーマ(Schema)等)は、リソースの効率的な利用、処理効率向上、アクセス効率向上、検索効率向上等の観点から柔軟に変更し得る。 Further, the configuration of the database (schema, etc.) for storing various data described above can be flexibly changed from the viewpoints of efficient use of resources, improvement of processing efficiency, improvement of access efficiency, improvement of search efficiency, and the like.
1 機械翻訳システム、10,60 ドメイン適応学習部、11,61 データ入力処理部、12,63 記憶部、13 適応元翻訳モデル学習部、14 適応元翻訳モデル記憶部、15,64 ドメイン適応モデル学習部、16,65 ドメイン適応モデル記憶部、20 データ拡張部、21 適応先対訳コーパス生成部、22 適応先対訳コーパス選択部、30 適応先翻訳モデル学習部、31 適応先対訳コーパス記憶部、32 適応先翻訳モデル学習部、33 適応先翻訳モデル記憶部、40 翻訳処理部、41,71 入力インタフェース、42 翻訳部、43,75 出力インタフェース、50 検索システム、62 検索エンジン記憶部、70 検索処理部、72 ドメイン適応判別部、73 クエリ同義表現生成部、111,611 ユーザインタフェース、112,612 データ処理部、151 単言語コーパス入力部、152,642 同義表現生成部、153,643 reward出力部、154,644 同義表現情報記憶部、156 対訳対抽出部、641 クエリ入力部、741 クエリ投入部、742 検索コンテンツ記憶部、743 類似度計算部、744 検索結果出力部 1 Machine translation system, 10,60 domain adaptive learning unit, 11,61 data input processing unit, 12,63 storage unit, 13 adaptation source translation model learning unit, 14 adaptation source translation model storage unit, 15,64 domain adaptation model learning unit Unit, 16,65 Domain adaptation model storage unit, 20 data expansion unit, 21 adaptation destination translation corpus generation unit, 22 adaptation destination translation corpus selection unit, 30 adaptation destination translation model learning unit, 31 adaptation destination translation corpus storage unit, 32 adaptation Destination translation model learning unit, 33 adaptation destination translation model storage unit, 40 translation processing unit, 41,71 input interface, 42 translation unit, 43,75 output interface, 50 search system, 62 search engine storage unit, 70 search processing unit, 72 Domain adaptation discrimination unit, 73 Query synonymous expression generation unit, 111,611 user interface, 112,612 data processing unit, 151 single language corpus input unit, 152,642 synonymous expression generation unit, 153,643 reward output unit, 154 644 Synonymous expression information storage unit, 156 translation pair extraction unit, 641 query input unit, 741 query input unit, 742 search content storage unit, 743 similarity calculation unit, 744 search result output unit
Claims (12)
単言語コーパス、及び同義表現生成モデルを記憶する記憶部と、
前記単言語コーパスの文の同義表現を前記同義表現生成モデルを用いて生成する同義表現生成部と、
前記文と当該文について生成される前記同義表現の夫々について自然言語処理のしやすさの評価値を算出する評価部と、
前記文、当該文から生成される前記同義表現、及び前記評価値を含む情報である同義表現情報を学習データとして、入力される文から前記自然言語処理がしやすい同義表現を生成する前記同義表現生成モデルを生成するドメイン適応モデル学習部と、
を備えた自然言語処理システム。 It is configured using an information processing device and
A storage unit that stores a monolingual corpus and a synonymous expression generation model,
A synonymous expression generation unit that generates synonymous expressions of sentences in the monolingual corpus using the synonymous expression generation model, and
An evaluation unit that calculates the evaluation value of the ease of natural language processing for each of the sentence and the synonymous expression generated for the sentence, and an evaluation unit.
The synonymous expression that generates the synonymous expression that is easy to process in natural language from the input sentence by using the sentence, the synonymous expression generated from the sentence, and the synonymous expression information that is information including the evaluation value as learning data. The domain adaptive model learning unit that generates the generation model,
Natural language processing system with.
前記ドメイン適応モデル学習部は、前記単言語コーパスの文を復元するためのエンコーダ/デコーダ方式のニューラルモデルを前記同義表現生成モデルとして生成する事前学習処理を実行し、
前記同義表現生成部は、最初に文の同義表現を生成する際に前記事前学習処理によって生成された前記同義表現生成モデルを用いる、
自然言語処理システム。 The natural language processing system according to claim 1.
The domain adaptive model learning unit executes a pre-learning process to generate an encoder / decoder-type neural model for restoring a sentence of the monolingual corpus as the synonymous expression generation model.
The synonymous expression generation unit uses the synonymous expression generation model generated by the pre-learning process when first generating a synonymous expression of a sentence.
Natural language processing system.
前記同義表現生成部は、前記同義表現生成モデルを用いて生成した前記同義表現をエンコードした後にbeam searchデコーディングを実行することにより複数の前記同義表現を
生成し、
前記ドメイン適応モデル学習部は、前記文、当該文から生成される前記複数の同義表現、及び前記評価値を含む前記同義表現情報を学習データとして、入力される文について前記自然言語処理がしやすい同義表現を生成する前記同義表現生成モデルを生成する、
自然言語処理システム。 The natural language processing system according to claim 1.
The synonymous expression generation unit generates a plurality of the synonymous expressions by executing beam search decoding after encoding the synonymous expressions generated by using the synonymous expression generation model.
The domain adaptation model learning unit can easily perform the natural language processing on an input sentence using the sentence, the plurality of synonymous expressions generated from the sentence, and the synonymous expression information including the evaluation value as learning data. Generate the synonymous expression Generate the synonymous expression generation model,
Natural language processing system.
前記同義表現生成部は、生成した複数の前記同義表現に含まれる同義語を同じ文字列として認識する前処理と、
前記前処理に続いて、複数の前記同義表現からノイズを除去するノイズ除去処理と、
を実行し、
前記前処理では、共通する文字列を、最長一致を基準として抽出するとともに、各同義表現にて抽出される前記共通する文字列間の文字を同義語とし、
前記ノイズ除去処理では、所定の指標に基づき、前記同義表現と当該同義表現の起源となった文との類似度を求めるとともに、当該類似度が所定の値以下となった同義表現をノイズとみなして除去する、
自然言語処理システム。 The natural language processing system according to claim 3.
The synonym expression generation unit performs preprocessing for recognizing synonyms included in a plurality of generated synonyms as the same character string, and
Following the preprocessing, a noise reduction process for removing noise from the plurality of synonymous expressions,
And run
In the preprocessing, the common character string is extracted based on the longest match, and the characters between the common character strings extracted by each synonym are used as synonyms.
In the noise reduction processing, the similarity between the synonymous expression and the sentence from which the synonymous expression is derived is obtained based on a predetermined index, and the synonymous expression whose similarity is equal to or less than a predetermined value is regarded as noise. To remove,
Natural language processing system.
前記記憶部は、適応元ドメインの対訳コーパスである適応元対訳コーパス、適応先ドメインの単言語コーパスである適応先単言語コーパスを記憶し、
前記適応元対訳コーパスを学習データとして前記適応元ドメインの文を機械翻訳する翻訳モデルである適応元翻訳モデルを生成する適応元翻訳モデル学習部と、
前記適応先ドメインの文を翻訳する適応先翻訳モデルを生成する適応先翻訳モデル学習部と、
前記適応先ドメインの対訳コーパスである適応先対訳コーパスを生成する適応先対訳コ
ーパス生成部と、
入力された前記適応先ドメインの文を、前記適応先翻訳モデルを用いて翻訳する翻訳部と、
を備え、
前記同義表現生成部は、前記適応先単言語コーパスの前記適応先ドメインの文の同義表現を生成し、
前記評価部は、前記適応元翻訳モデル学習部が、前記適応先ドメインの文と、当該文の同義表現の夫々を機械翻訳する際の処理のしやすさを前記評価値として算出し、
前記ドメイン適応モデル学習部は、より翻訳しやすい同義表現の前記評価値が高くなるともに、翻訳し難い同義表現の評価値が低くなるように前記同義表現生成モデルを学習し、
前記適応先対訳コーパス生成部は、前記適応元翻訳モデルでの機械翻訳がしやすい同義表現と当該同義表現の訳文との対、及び前記適応元翻訳モデルでの機械翻訳がし難い同義表現と当該同義表現の起源となった前記適応元対訳コーパスにおける文に対する参照訳との対の夫々を収集して前記適応先対訳コーパスを生成し、
前記適応先翻訳モデル学習部は、前記適応先対訳コーパスを学習データとして前記適応先翻訳モデルを生成する、
自然言語処理システム。 The natural language processing system according to any one of claims 1 to 4.
The storage unit stores an adaptation source bilingual corpus, which is a bilingual corpus of the adaptation source domain, and an adaptation destination monolingual corpus, which is a monolingual corpus of the adaptation destination domain.
An adaptation source translation model learning unit that generates an adaptation source translation model, which is a translation model that machine-translates a sentence of the adaptation source domain using the adaptation source bilingual corpus as learning data.
The adaptation destination translation model learning unit that generates the adaptation destination translation model that translates the sentence of the adaptation destination domain,
An adaptation destination translation corpus generator that generates an adaptation destination translation corpus, which is a translation corpus of the adaptation destination domain,
A translation unit that translates the input sentence of the adaptation destination domain using the adaptation destination translation model, and
Equipped with
The synonymous expression generation unit generates a synonymous expression of the sentence of the adaptation destination domain of the adaptation destination monolingual corpus.
The evaluation unit calculates the ease of processing when the adaptation source translation model learning unit machine-translates the sentence of the adaptation destination domain and each of the synonymous expressions of the sentence as the evaluation value.
The domain adaptation model learning unit learns the synonymous expression generation model so that the evaluation value of the synonymous expression that is easier to translate becomes high and the evaluation value of the synonymous expression that is difficult to translate becomes low.
The adaptation destination translation corpus generation unit is a pair of a synonymous expression that is easy to machine translate in the adaptation source translation model and a translation of the synonymous expression, and a synonym expression that is difficult to machine translate in the adaptation source translation model. The target translation corpus is generated by collecting each pair of the reference translation for the sentence in the adaptation source translation corpus that is the origin of the synonymous expression.
The adaptation destination translation model learning unit generates the adaptation destination translation model using the adaptation destination translation corpus as learning data.
Natural language processing system.
検索エンジンにより、ユーザ入力されたクエリに対応するコンテンツを出力する検索処理部を備え、
前記記憶部は、前記単言語コーパスとして検索エンジンに対するクエリを収集したクエリコーパスを記憶するとともに、前記コンテンツとを記憶し、
前記同義表現生成部は、前記クエリコーパスの文の同義表現を生成し、
前記評価部は、前記クエリコーパスに含まれるクエリとその同義表現の夫々と、前記記憶部が記憶する全ての前記コンテンツとの関連度とに基づいて前記評価値を算出し、
前記ドメイン適応モデル学習部は、前記クエリと前記コンテンツとの関連度に基づく前記評価値と、当該クエリの同義表現と前記コンテンツとの関連度に基づく評価値との差分の損失関数が最小となるように前記同義表現生成モデルを生成し、
前記検索処理部は、ユーザ入力されたクエリを前記前記同義表現生成モデルにより同義表現を生成し、当該同義表現をクエリとして検索エンジンに入力する、
自然言語処理システム。 The natural language processing system according to any one of claims 1 to 4, wherein the natural language processing system is used.
It has a search processing unit that outputs the content corresponding to the query entered by the user by the search engine.
The storage unit stores a query corpus that collects queries for search engines as the monolingual corpus, and stores the contents.
The synonymous expression generation unit generates a synonymous expression of the sentence of the query corpus.
The evaluation unit calculates the evaluation value based on the query included in the query corpus, each of its synonymous expressions, and the degree of relevance to all the contents stored in the storage unit.
The domain adaptation model learning unit minimizes the loss function of the difference between the evaluation value based on the degree of association between the query and the content and the evaluation value based on the synonymous expression of the query and the degree of association with the content. To generate the synonymous expression generation model as described above,
The search processing unit generates a synonymous expression from the user-input query by the synonymous expression generation model, and inputs the synonymous expression as a query to the search engine.
Natural language processing system.
単言語コーパス、及び同義表現生成モデルを記憶するステップ、
前記単言語コーパスの文の同義表現を前記同義表現生成モデルを用いて生成するステップ、
前記文と当該文について生成される前記同義表現の夫々について自然言語処理のしやすさの評価値を算出するステップ、及び、
前記文、当該文から生成される前記同義表現、及び前記評価値を含む情報である同義表現情報を学習データとして、入力される文から前記自然言語処理がしやすい同義表現を生成する前記同義表現生成モデルを生成するステップ、
を実行する、自然言語処理方法。 Information processing equipment
A monolingual corpus, and a step to memorize synonymous expression generation models,
A step of generating a synonymous expression of a sentence of the monolingual corpus using the synonymous expression generation model,
A step of calculating the evaluation value of the ease of natural language processing for each of the sentence and the synonymous expression generated for the sentence, and
The synonymous expression that generates the synonymous expression that is easy to process in natural language from the input sentence by using the sentence, the synonymous expression generated from the sentence, and the synonymous expression information that is information including the evaluation value as learning data. Steps to generate a generation model,
Natural language processing method to execute.
前記情報処理装置が、
前記単言語コーパスの文を復元するためのエンコーダ/デコーダ方式のニューラルモデルを前記同義表現生成モデルとして生成する事前学習処理を実行するステップ、
最初に文の同義表現を生成する際に前記事前学習処理によって生成された前記同義表現
生成モデルを用いるステップ、
をさらに実行する、自然言語処理方法。 The natural language processing method according to claim 7.
The information processing device
A step of executing a pre-learning process to generate an encoder / decoder neural model for restoring a sentence of the monolingual corpus as the synonymous expression generation model.
A step of using the synonymous expression generation model generated by the pre-learning process when first generating a synonymous expression of a sentence,
A natural language processing method that further executes.
前記情報処理装置が、
前記同義表現生成モデルを用いて生成した前記同義表現をエンコードした後にbeam searchデコーディングを実行することにより複数の前記同義表現を生成するステップ、及び
、
前記文、当該文から生成される前記複数の同義表現、及び前記評価値を含む前記同義表現情報を学習データとして、入力される文について前記自然言語処理がしやすい同義表現を生成する前記同義表現生成モデルを生成するステップ、
をさらに実行する、自然言語処理方法。 The natural language processing method according to claim 7.
The information processing device
A step of generating a plurality of the synonyms by executing beam search decoding after encoding the synonyms generated using the synonym generation model, and
Using the sentence, the plurality of synonymous expressions generated from the sentence, and the synonymous expression information including the evaluation value as learning data, the synonymous expression that generates the synonymous expression that is easy to process in natural language for the input sentence. Steps to generate a generative model,
A natural language processing method that further executes.
前記情報処理装置が、
生成した複数の前記同義表現に含まれる同義語を同じ文字列として認識する前処理を実行するステップ、
前記前処理に続いて、複数の前記同義表現からノイズを除去するノイズ除去処理を実行するステップ、
をさらに実行し、
前記前処理において、共通する文字列を、最長一致を基準として抽出するとともに、各同義表現にて抽出される前記共通する文字列間の文字を同義語とし、
前記ノイズ除去処理では、所定の指標に基づき、前記同義表現と当該同義表現の起源となった文との類似度を求めるとともに、当該類似度が所定の値以下となった同義表現をノイズとみなして除去する、
自然言語処理方法。 The natural language processing method according to claim 9.
The information processing device
A step of executing preprocessing for recognizing synonyms contained in a plurality of generated synonyms as the same character string,
Following the preprocessing, a step of executing a noise reduction process for removing noise from the plurality of synonymous expressions.
Further run,
In the preprocessing, the common character string is extracted based on the longest match, and the characters between the common character strings extracted by each synonym are used as synonyms.
In the noise reduction processing, the similarity between the synonymous expression and the sentence from which the synonymous expression is derived is obtained based on a predetermined index, and the synonymous expression whose similarity is equal to or less than a predetermined value is regarded as noise. To remove,
Natural language processing method.
前記情報処理装置が、
適応元ドメインの対訳コーパスである適応元対訳コーパス、適応先ドメインの単言語コーパスである適応先単言語コーパスを記憶するステップ、
前記適応元対訳コーパスを学習データとして前記適応元ドメインの文を機械翻訳する翻訳モデルである適応元翻訳モデルを生成するステップ、
前記適応先ドメインの文を翻訳する適応先翻訳モデルを生成するステップ、
前記適応先ドメインの対訳コーパスである適応先対訳コーパスを生成するステップ、
入力された前記適応先ドメインの文を、前記適応先翻訳モデルを用いて翻訳するステップ、
前記適応先単言語コーパスの前記適応先ドメインの文の同義表現を生成するステップ、
前記適応先ドメインの文と、当該文の同義表現の夫々を機械翻訳する際の処理のしやすさを前記評価値として算出するステップ、
より翻訳しやすい同義表現の前記評価値が高くなるともに、翻訳し難い同義表現の評価値が低くなるように前記同義表現生成モデルを学習するステップ、
前記適応元翻訳モデルでの機械翻訳がしやすい同義表現と当該同義表現の訳文との対、及び前記適応元翻訳モデルでの機械翻訳がし難い同義表現と当該同義表現の起源となった前記適応元対訳コーパスにおける文に対する参照訳との対の夫々を収集して前記適応先対訳コーパスを生成するステップ、及び、
前記適応先対訳コーパスを学習データとして前記適応先翻訳モデルを生成するステップ、
をさらに実行する、自然言語処理方法。 The natural language processing method according to any one of claims 7 to 10.
The information processing device
A step to memorize the adaptation source bilingual corpus, which is the translation corpus of the adaptation source domain, and the adaptation destination monolingual corpus, which is the monolingual corpus of the adaptation destination domain.
A step of generating an adaptation source translation model, which is a translation model for machine-translating a sentence of the adaptation source domain using the adaptation source bilingual corpus as learning data.
A step of generating an adaptive translation model that translates a sentence in the destination domain,
A step of generating an adaptation destination bilingual corpus, which is a bilingual corpus of the adaptation destination domain,
The step of translating the input sentence of the adaptation destination domain using the adaptation destination translation model,
A step of generating a synonym for a sentence in the destination domain of the destination monolingual corpus,
A step of calculating the ease of processing when machine-translating each of the sentence of the adaptation destination domain and the synonymous expression of the sentence as the evaluation value.
A step of learning the synonymous expression generation model so that the evaluation value of the synonymous expression that is easier to translate becomes higher and the evaluation value of the synonymous expression that is difficult to translate becomes lower.
The pair of synonymous expressions that are easy to machine translate in the adaptation source translation model and the translation of the synonymous expressions, and the synonymous expressions that are difficult to machine translate in the adaptation source translation model and the adaptation that became the origin of the synonymous expressions. A step of collecting each pair of a reference translation for a sentence in the original translation corpus to generate the adaptation destination translation corpus, and
A step of generating the adaptive translation model using the adaptive translation corpus as learning data.
A natural language processing method that further executes.
前記情報処理装置が、
検索エンジンにより、ユーザ入力されたクエリに対応するコンテンツを出力するステップ、
前記単言語コーパスとして検索エンジンに対するクエリを収集したクエリコーパスを記憶するとともに前記コンテンツを記憶するステップ、
前記クエリコーパスの文の同義表現を生成するステップ、
前記クエリコーパスに含まれるクエリとその同義表現の夫々と、記憶する全ての前記コンテンツとの関連度とに基づいて前記評価値を算出するステップ、
前記クエリと前記コンテンツとの関連度に基づく前記評価値と、当該クエリの同義表現と前記コンテンツとの関連度に基づく評価値との差分の損失関数が最小となるように前記同義表現生成モデルを生成するステップ、及び、
ユーザ入力されたクエリを前記前記同義表現生成モデルにより同義表現を生成し、当該同義表現をクエリとして検索エンジンに入力するステップ、
をさらに実行する、自然言語処理方法。
The natural language processing method according to any one of claims 7 to 10.
The information processing device
A step in which a search engine outputs content that corresponds to a user-entered query,
A step of storing the query corpus that collects queries to search engines as the monolingual corpus and storing the content.
Steps to generate synonyms for the query corpus statement,
A step of calculating the evaluation value based on each of the queries included in the query corpus and their synonymous expressions and the degree of relevance to all the contents to be stored.
The synonymous expression generation model is set so that the loss function of the difference between the evaluation value based on the degree of association between the query and the content and the evaluation value based on the synonymous expression of the query and the content is minimized. Steps to generate and
A step of generating a synonymous expression from a user-input query by the synonymous expression generation model and inputting the synonymous expression into a search engine as a query.
A natural language processing method that further executes.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020108361A JP2022006237A (en) | 2020-06-24 | 2020-06-24 | Natural language processing system and natural language processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020108361A JP2022006237A (en) | 2020-06-24 | 2020-06-24 | Natural language processing system and natural language processing method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022006237A true JP2022006237A (en) | 2022-01-13 |
Family
ID=80110483
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020108361A Pending JP2022006237A (en) | 2020-06-24 | 2020-06-24 | Natural language processing system and natural language processing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2022006237A (en) |
-
2020
- 2020-06-24 JP JP2020108361A patent/JP2022006237A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8694303B2 (en) | Systems and methods for tuning parameters in statistical machine translation | |
US11544474B2 (en) | Generation of text from structured data | |
CN108475262A (en) | Electronic equipment and method for text-processing | |
Tahsin Mayeesha et al. | Deep learning based question answering system in Bengali | |
CN109992775B (en) | Text abstract generation method based on high-level semantics | |
KR20180048624A (en) | A training device of the Q & A system and a computer program for it | |
JP5710581B2 (en) | Question answering apparatus, method, and program | |
JP7335300B2 (en) | Knowledge pre-trained model training method, apparatus and electronic equipment | |
US11669695B2 (en) | Translation method, learning method, and non-transitory computer-readable storage medium for storing translation program to translate a named entity based on an attention score using neural network | |
JP7413630B2 (en) | Summary generation model training method, apparatus, device and storage medium | |
JP7329929B2 (en) | LEARNING DATA EXPANSION DEVICE, LEARNING DEVICE, TRANSLATION DEVICE, AND PROGRAM | |
JP2020135456A (en) | Generation device, learning device, generation method and program | |
Prabhakar et al. | Machine transliteration and transliterated text retrieval: a survey | |
CN112581327A (en) | Knowledge graph-based law recommendation method and device and electronic equipment | |
JP7103264B2 (en) | Generation device, learning device, generation method and program | |
CN112765977B (en) | Word segmentation method and device based on cross-language data enhancement | |
Belay et al. | The effect of normalization for bi-directional amharic-english neural machine translation | |
Muniraj et al. | HNTSumm: Hybrid text summarization of transliterated news articles | |
Lin et al. | Chinese story generation of sentence format control based on multi-channel word embedding and novel data format | |
JP2018072979A (en) | Parallel translation sentence extraction device, parallel translation sentence extraction method and program | |
JP2022006237A (en) | Natural language processing system and natural language processing method | |
CN112182159B (en) | Personalized search type dialogue method and system based on semantic representation | |
JP7247460B2 (en) | Correspondence Generating Program, Correspondence Generating Device, Correspondence Generating Method, and Translation Program | |
Almansor | Translating Arabic as low resource language using distribution representation and neural machine translation models | |
Thu et al. | Generating myanmar news headlines using recursive neural network |