JP7745822B1

JP7745822B1 - 学習装置、学習方法、学習プログラム、推論装置、推論方法及び推論プログラム

Info

Publication number: JP7745822B1
Application number: JP2025542382A
Authority: JP
Inventors: 隼人内出
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2024-02-19
Filing date: 2024-02-19
Publication date: 2025-09-29
Anticipated expiration: 2044-02-19
Also published as: WO2025177345A1; JPWO2025177345A1

Abstract

フィルタリング部（２２）は、第１モデル（４１）における注意機構を用いて、教師元データ（３１１）と教師先データ（３１２）とを含む第１教師データ（３１）における教師元データ（３１１）に含まれる複数の要素それぞれのスコアを計算する。フィルタリング部（２２）は、複数の要素それぞれのスコアに基づき、教師元データ（３１１）に含まれる複数の要素をフィルタリングして教師元フィルタリングデータ（３２１）を生成する。フィルタリングデータ学習部（２３）は、教師元フィルタリングデータ（３２１）と教師先データ（３１２）とを含む第２教師データ（３２）を入力として、教師元フィルタリングデータ（３２１）から教師先データ（３１２）に変換する第２モデル（４２）のパラメータを学習する。

Description

本開示は、注意機構を有するモデルを用いた技術に関する。

機械学習技術を用いた機械翻訳をはじめとする系列変換タスクでは、エンコーダ及びデコーダからなるニューラルネットワークモデルが使用される。以下、エンコーダ及びデコーダからなるニューラルネットワークモデルを、エンコーダデコーダモデルと呼ぶ。エンコーダデコーダモデルに注意機構を導入することで精度が大きく向上することが知られている。注意機構とは、機械翻訳の例では、デコーダにおいて目的言語文のどの単語の情報を利用するかをデータ駆動で決定する仕組みである。

現在では、注意機構と全結合層とを組み合わせてエンコーダを並列化したエンコーダデコーダモデルであるＴｒａｎｓｆｏｒｍｅｒが主流となっている。Ｔｒａｎｓｆｏｒｍｅｒは、マルチヘッド注意機構又はマスク付きマルチヘッド注意機構と全結合層との組合せを積み重ねることによって、エンコーダ及びデコーダを構成するモデルである。
以下、マルチヘッド注意機構又はマスク付きマルチヘッド注意機構と全結合層との組み合わせを１つの層とみなし、Ｔｒａｎｓｆｏｒｍｅｒ層と呼ぶ。

Ｔｒａｎｓｆｏｒｍｅｒの注意機構は、入力シーケンス中の全要素間の組合せを計算する。入力シーケンスの要素数をｎとすると全要素間の組合せはｎ^２になる。そのため、Ｔｒａｎｓｆｏｒｍｅｒの注意機構は、ＧＰＵメモリ使用量がＯ（ｎ^２）で増加する性質がある。ＧＰＵは、ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔの略である。したがって、入力シーケンスが長くなった場合、処理に必要な計算コストが二次的に増加する。

特許文献１には、長いテキストを話題単位に区切ることで、ブロック化テキストを生成し、ブロック毎にテキストを要約し、話題毎の要約結果を生成することが記載されている。

特開２０２３－０３４２３５号公報

特許文献１に記載された技術では、特定の話題に対応するブロック化テキストが長くなった場合には、依然として必要な計算コストが増加してしまう。ブロック化テキストが長い場合、さらに細かくブロック化することで入力シーケンスを短くし、計算コストを抑えることが可能である。しかし、各ブロック化テキストは独立に処理されるため、細かくブロック化してしまうと、コンテキストの欠落が生じ、生成テキストの品質が劣化する場合がある。つまり、生成結果の品質を保ちつつ、入力シーケンスの長さを適切に調整できない。
本開示は、生成結果の品質を保ちつつ、入力シーケンスの長さを適切に調整可能にすることを目的とする。

本開示に係る学習装置は、
変換元のシーケンスデータから変換先のシーケンスデータを推論する第１モデルにおける注意機構を用いて、変換元のシーケンスデータである教師元データと変換先のシーケンスデータである教師先データとを含む第１教師データにおける前記教師元データに含まれる複数の要素それぞれのスコアを計算し、前記複数の要素それぞれのスコアに基づき、前記教師元データに含まれる前記複数の要素をフィルタリングして教師元フィルタリングデータを生成するフィルタリング部と、
前記フィルタリング部によって生成された前記教師元フィルタリングデータと前記教師先データとを含む第２教師データを入力として、前記教師元フィルタリングデータから前記教師先データに変換する第２モデルのパラメータを学習するフィルタリングデータ学習部と
を備える。

本開示では、注意機構を用いて変換元のシーケンスデータに含まれる複数の要素それぞれのスコアを計算し、複数の要素をフィルタリングする。注意機構を用いて計算したスコアによりフィルタリングするため、生成結果の品質を保ちつつ、入力シーケンスである変換元のシーケンスデータの長さを適切に調整可能にすることが可能になる。

実施の形態１に係る学習推論装置１０のハードウェア構成図。実施の形態１に係る学習推論装置１０の機能構成図。実施の形態１で対象とするエンコーダデコーダモデルの説明図。実施の形態１に係る学習フェーズの処理のフローチャート。実施の形態１に係るフィルタリング処理の説明図。実施の形態１に係るフィルタリング処理のフローチャート。実施の形態１に係る通常のデコーディングの説明図。実施の形態１に係るＴｅａｃｈｅｒＦｏｒｃｉｎｇＤｅｃｏｄｉｎｇの説明図。実施の形態１に係るフィルタリング実行処理の説明図。実施の形態１に係る推論フェーズの処理のフローチャート。変形例１に係る学習装置１０１の機能構成図。変形例１に係る推論装置１０２の機能構成図。実施の形態２に係る学習推論装置１０の構成図。実施の形態２に係るフィルタリング処理のフローチャート。実施の形態３に係る学習推論装置１０の構成図。実施の形態３に係るフィルタリング処理のフローチャート。実施の形態３に係るスコア調整処理の説明図。実施の形態４に係るフィルタリングデータ学習処理の説明図。実施の形態６に係る学習推論装置１０の構成図。実施の形態６に係るフィルタリング処理のフローチャート。実施の形態６に係るフィルタリング処理の説明図。実施の形態７に係るフィルタリング処理のフローチャート。実施の形態７に係るフィルタリング処理の説明図。実施の形態８に係る学習推論装置１０の構成図。実施の形態８に係るフィルタリング処理のフローチャート。実施の形態８に係るフィルタリング実行処理の説明図。実施の形態８に係るフィルタリング修正処理の説明図。

実施の形態１．
＊＊＊構成の説明＊＊＊
図１を参照して、実施の形態１に係る学習推論装置１０のハードウェア構成を説明する。
学習推論装置１０は、コンピュータである。
学習推論装置１０は、プロセッサ１１と、メモリ１２と、入力装置１３と、表示装置１４と、外部インタフェース１５と、通信インタフェース１６とのハードウェアを備える。プロセッサ１１は、信号線を介して他のハードウェアと接続され、これら他のハードウェアを制御する。

プロセッサ１１は、プロセッシングを行うＩＣである。ＩＣはＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔの略である。プロセッサ１１は、具体例としては、ＣＰＵ、ＤＳＰ、ＧＰＵである。ＣＰＵは、ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔの略である。ＤＳＰは、ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒの略である。ＧＰＵは、ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔの略である。

メモリ１２は、データを記憶する記憶装置である。メモリ１２は、具体例としては、ＨＤＤ、ＳＳＤ、ＲＡＭ、ＲＯＭである。ＨＤＤは、ＨａｒｄＤｉｓｋＤｒｉｖｅの略である。ＳＳＤは、ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅの略である。ＲＡＭは、ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙの略である。ＲＯＭは、ＲｅａｄＯｎｌｙＭｅｍｏｒｙの略である。

入力装置１３は、情報を入力するための装置である。入力装置１３は、具体例としては、キーボード、マウス、タッチパネルである。表示装置１４は、情報を表示するための装置である。表示装置１４は、具体例としては、ＬＣＤである。ＬＣＤは、ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙの略である。
学習推論装置１０は、入力装置１３と表示装置１４との少なくとも一方を備えていなくてもよい。

外部インタフェース１５は、記録媒体１７等の外部装置とのインタフェースである。記録媒体１７は、データを記憶する装置である。プロセッサ１１は、外部インタフェース１５を介して記録媒体１７に記憶されたデータの読み取りと記録媒体１７へのデータの書き込みとが可能である。
記録媒体１７は、具体例としては、ＳＤ（登録商標）メモリカード、ＣｏｍｐａｃｔＦｌａｓｈ（登録商標）、ＮＡＮＤフラッシュ、フレキシブルディスク、光ディスク、コンパクトディスク、Ｂｌｕ－ｒａｙ（登録商標）ディスク、ＤＶＤといった可搬記録媒体であってもよい。ＳＤは、ＳｅｃｕｒｅＤｉｇｉｔａｌの略である。ＤＶＤは、ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋの略である。

通信インタフェース１６は、通信ネットワークに接続するためのインタフェースである。通信インタフェース１４は、具体例としては、Ｅｔｈｅｒｎｅｔ（登録商標）のポートである。

図２を参照して、実施の形態１に係る学習推論装置１０の機能構成を説明する。
学習推論装置１０は、機能構成要素として、通常データ学習部２１と、フィルタリング部２２と、フィルタリングデータ学習部２３と、フィルタリングデータ推論部２４とを備える。フィルタリング部２２は、スコア計算部２２１と、フィルタリング実行部２２２とを備える。学習推論装置１０の各機能構成要素の機能はソフトウェアにより実現される。

メモリ１２には、学習推論装置１０の各機能構成要素の機能を実現するプログラムが格納されている。このプログラムは、プロセッサ１１により読み込まれ、プロセッサ１１によって実行される。これにより、学習推論装置１０の各機能構成要素の機能が実現される。
なお、学習推論装置１０の各機能構成要素の機能を実現するプログラムは、記録媒体１７に格納されていてもよい。この場合には、プロセッサ１１は、外部インタフェース１５を介して、記録媒体１７からプログラムを読み込み、実行する。また、学習推論装置１０の各機能構成要素の機能を実現するプログラムは、外部のサーバ等に格納されていてもよい。この場合には、プロセッサ１１は、通信インタフェース１６を介して、サーバ等からプログラムを読み込み、実行する。

メモリ１２には、第１教師データ３１と、第２教師データ３２と、第１モデル４１と、第２モデル４２といったデータが記憶される。これらのデータは、メモリ１２ではなく、記録媒体１７又は外部のサーバ等に記憶されてもよい。

図１では、プロセッサ１１は、１つだけ示されていた。しかし、プロセッサ１１は、複数であってもよく、複数のプロセッサ１１が、各機能を実現するプログラムを連携して実行してもよい。

＊＊＊動作の説明＊＊＊
図３から図１０を参照して、実施の形態１に係る学習推論装置１０の動作を説明する。
学習推論装置１０の動作には、学習フェーズと、推論フェーズとが含まれる。
実施の形態１に係る学習推論装置１０の学習フェーズの動作手順は、実施の形態１に係る学習方法に相当する。また、実施の形態１に係る学習推論装置１０の学習フェーズの動作を実現するプログラムは、実施の形態１に係る学習プログラムに相当する。
実施の形態１に係る学習推論装置１０の推論フェーズの動作手順は、実施の形態１に係る推論方法に相当する。また、実施の形態１に係る学習推論装置１０の推論フェーズの動作を実現するプログラムは、実施の形態１に係る推論プログラムに相当する。

図３を参照して、実施の形態１で対象とするエンコーダデコーダモデルを説明する。
実施の形態１で対象とするエンコーダデコーダモデルは、注意機構と全結合層とを組み合わせてエンコーダを並列化したエンコーダデコーダモデルであるＴｒａｎｓｆｏｒｍｅｒである。Ｔｒａｎｓｆｏｒｍｅｒは、マルチヘッド注意機構又はマスク付きマルチヘッド注意機構と全結合層との組合せを積み重ねることによって、エンコーダ及びデコーダを構成する。

図４を参照して、実施の形態１に係る学習フェーズの処理を説明する。
（ステップＳ１１：通常データ学習処理）
通常データ学習部２１は、第１教師データ３１を入力として、第１モデル４１のパラメータを学習する。
第１モデル４１は、変換元のシーケンスデータから変換先のシーケンスデータを推論するエンコーダデコーダモデルである。ここでは、第１モデル４１は、Ｔｒａｎｓｆｏｒｍｅｒである。Ｔｒａｎｓｆｏｒｍｅｒであるため、第１モデル４１は、注意機構を有する。学習対象となる第１モデル４１のパラメータは、エンコーダデコーダモデルの学習対象のパラメータである。
第１教師データ３１は、エンコーダデコーダモデルが入出力することができる任意のシーケンスデータである。第１教師データ３１は、変換元のシーケンスデータである教師元データ３１１と変換先のシーケンスデータである教師先データ３１２とを含むデータ構造である。
第１教師データ３１は、例えば、機械翻訳用のデータである。この場合には、変換元のシーケンスデータである教師元データ３１１は、翻訳元言語の単語のシーケンスである。単語のシーケンスとは、文又は句である。変換後のシーケンスデータである教師先データ３１２は、翻訳元言語の翻訳先言語への変換結果である。つまり、教師先データ３１２は、翻訳元言語の単語のシーケンスと同じ意味を表す翻訳先言語の単語のシーケンスである。

（ステップＳ１２：フィルタリング処理）
フィルタリング部２２は、ステップＳ１１の学習により得られた第１モデル４１のパラメータを用いて、第１教師データ３１に含まれる教師元データ３１１をフィルタリングする。教師元データ３１１をフィルタリングするとは、教師元データ３１１に含まれる複数の要素のうち一部の要素を除くことである。第１教師データ３１が機械翻訳用のデータである場合には、教師元データ３１１に含まれる複数の要素とは、教師元データ３１１を構成する複数の単語である。これにより、フィルタリング部２２は、教師元データ３１１から一部の要素が除かれた教師元フィルタリングデータ３２１を生成する。
図５に示す各マスが教師元データ３１１に含まれる要素であるとする。フィルタリング部２２は、教師元データ３１１に含まれる要素のうち、×が付けられた一部の要素を除く。これにより、フィルタリング部２２は、教師元データ３１１から教師元フィルタリングデータ３２１を生成する。図５では、教師元データ３１１に含まれる要素のうち５０％の要素が除かれ、教師元フィルタリングデータ３２１が生成されている。
そして、フィルタリング部２２は、教師元フィルタリングデータ３２１と教師先データ３１２とを含む第２教師データ３２を生成する。

（ステップＳ１３：フィルタリングデータ学習処理）
フィルタリングデータ学習部２３は、ステップＳ１２で生成された第２教師データ３２を入力として、第２モデル４２のパラメータを学習する。
第２モデル４２は、変換元のシーケンスデータから変換先のシーケンスデータを推論するエンコーダデコーダモデルである。ここでは、第２モデル４２は、Ｔｒａｎｓｆｏｒｍｅｒである。学習対象となる第２モデル４２のパラメータは、エンコーダデコーダモデルの学習対象のパラメータである。パラメータの学習に用いる最適化手法としては、任意の最適化手法を用いればよい。例えば、最適化手法として、Ａｄａｍを用いることが考えられる。Ａｄａｍは、ＡＤＡｐｔｉｖｅＭｏｍｅｎｔの略である。
フィルタリングデータ学習部２３は、学習して得られた第２モデル４２のパラメータをメモリ１２に書き込む。あるいは、フィルタリングデータ学習部２３は、パラメータを記録媒体１７又は外部のサーバ又は表示装置１４に出力してもよい。

図６を参照して、実施の形態１に係るフィルタリング処理（図４のステップＳ１２）を説明する。
（ステップＳ２１：スコア計算処理）
スコア計算部２２１は、第１モデル４１における注意機構を用いて、教師元データ３１１に含まれる複数の要素それぞれのスコアを計算する。
具体的には、スコア計算部２２１は、第１モデル４１の注意機構であるＡｔｔｅｎｔｉｏｎ_{ｄ，ｌ，ｈ，ｉ}を用いて、複数の要素それぞれのスコアを計算する。Ａｔｔｅｎｔｉｏｎは、デコーダのマルチヘッド注意機構で計算されるＣｒｏｓｓ－Ａｔｔｅｎｔｉｏｎである。つまり、スコア計算部２２１は、デコーダの出力シーケンスを生成する際に計算される、エンコーダの入力シーケンスにおける複数の要素それぞれに対するＡｔｔｅｎｔｉｏｎをスコアとして計算する。言い換えると、スコア計算部２２１は、エンコーダの入力シーケンスにおける複数の要素それぞれに対する第１モデル４１の内部状態をスコアとして計算する。ここでは、エンコーダの入力シーケンスは、教師元データ３１１である。

Ａｔｔｅｎｔｉｏｎ_{ｄ，ｌ，ｈ，ｉ}におけるｄ，ｌ，ｈ，ｉはそれぞれ以下を示す。ｄは、デコーダの出力シーケンスにおける要素数を示す。ｌは、Ｔｒａｎｓｆｏｒｍｅｒ層の層数を示す。ｈは、マルチヘッド注意機構のヘッド数を示す。ｉは、エンコーダの入力シーケンスにおける要素数を示す。
スコア計算部２２１は、各ｉについて、ｄ，ｌ，ｈについてのＡｔｔｅｎｔｉｏｎ_{ｄ，ｌ，ｈ，ｉ}の最大値を計算することにより、要素ｉについてのスコアＳ_ｉを計算する。つまり、Ｓ_ｉ＝ＭａｘＡｔｔｅｎｔｉｏｎ（ｉ）＝ｍａｘ_{ｄ，ｌ，ｈ}（Ａｔｔｅｎｔｉｏｎ_{ｄ，ｌ，ｈ，ｉ}）である。
なお、ここでは、スコア計算部２２１は、Ａｔｔｅｎｔｉｏｎ_{ｄ，ｌ，ｈ，ｉ}の最大値を計算するとしたが、最大値以外の統計値を計算してもよい。また、スコア計算部２２１は、全てのｄ，ｌ，ｈを用いてスコアを計算してもよいが、特定のｄ，ｌ，ｈのみを用いてスコアを計算してもよい。また、スコア計算部２２１は、ビームサーチ等の一般的なデコーディングを用いて複数のデコーダの出力シーケンスを生成することにより複数のスコアを取得し、複数のスコアから最大値を抽出して最終的なスコアとして計算してもよい。なお、最大値ではなく、他の方法により複数のスコアから抽出したスコアを最終的なスコアとしてもよい。
また、スコア計算部２２１は、スコアを教師信号とした系列ラベリングモデルを別途用意し、系列ラベリングモデルでエンコーダの入力シーケンスにおける複数の要素それぞれのスコアを推定してもよい。

上記説明では、Ａｔｔｅｎｔｉｏｎは、デコーダのマルチヘッド注意機構で計算されるＣｒｏｓｓ－Ａｔｔｅｎｔｉｏｎとした。しかし、Ａｔｔｅｎｔｉｏｎは、エンコーダのマルチヘッド注意機構で計算されるＳｅｌｆ－Ａｔｔｅｎｔｉｏｎであってもよい。また、Ａｔｔｅｎｔｉｏｎは、Ｃｒｏｓｓ－ＡｔｔｅｎｔｉｏｎとＳｅｌｆ－Ａｔｔｅｎｔｉｏｎとを組み合わせたものであってもよい。Ｃｒｏｓｓ－ＡｔｔｅｎｔｉｏｎとＳｅｌｆ－Ａｔｔｅｎｔｉｏｎとの和又は平均値を計算することにより、Ｃｒｏｓｓ－ＡｔｔｅｎｔｉｏｎとＳｅｌｆ－Ａｔｔｅｎｔｉｏｎとを組み合わせることができる。

スコア計算部２２１は、Ａｔｔｅｎｔｉｏｎを計算する際、目標とする出力シーケンスを利用できる場合、ＴｅａｃｈｅｒＦｏｒｃｉｎｇＤｅｃｏｄｉｎｇを用いてもよい。スコア計算部２２１は、Ａｔｔｅｎｔｉｏｎを計算する際、目標とする出力シーケンスを利用できない場合、通常のデコーディングを用いてもよい。
図７に示すように、通常のデコーディングは、モデルの予測を次の予測のための入力とする。モデルの予測とは、モデルが１つ前に出力した要素である。
図７では、まずＢＯＳがデコーダに与えられて、出力１が得られる。ＢＯＳは、ＢｅｇｉｎＯｆＳｅｎｔｅｎｃｅの略である。次に、ＢＯＳと出力１とがデコーダに与えられて、出力２が得られる。そして、ＢＯＳと出力１と出力２とがデコーダに与えられて、ＥＯＳが得られる。ＥＯＳは、ＥｎｄＯｆＳｅｎｔｅｎｃｅの略である。
これに対して、図８に示すように、ＴｅａｃｈｅｒＦｏｒｃｉｎｇＤｅｃｏｄｉｎｇは、目標とする出力シーケンスを直接モデルに提供する。つまり、ＴｅａｃｈｅｒＦｏｒｃｉｎｇＤｅｃｏｄｉｎｇは、通常のデコーディングと違い、モデルが予測した結果を用いない。
図８では、目標とする出力シーケンスとして、ＢＯＳ＋正解１＋正解２＋ＥＯＳが与えられている。まず、まずＢＯＳがデコーダに与えられて、出力１が得られる。次に、ＢＯＳと正解１とがデコーダに与えられて、出力２が得られる。そして、ＢＯＳと正解１と正解２とがデコーダに与えられて、ＥＯＳが得られる。

（ステップＳ２２：フィルタリング実行処理）
フィルタリング実行部２２２は、ステップＳ２１で計算されたスコアに基づき、教師元データ３１１に含まれる要素をフィルタリングして、教師元フィルタリングデータ３２１を生成する。
具体的には、図９に示すように、フィルタリング実行部２２２は、教師元データ３１１に含まれる要素のうち、スコアが低い方から基準割合の要素を除いて、教師元フィルタリングデータ３２１を生成する。図９では、教師元データ３１１に４つの要素が含まれており、基準割合が５０％である。そこで、フィルタリング実行部２２２は、４つの要素のうち、スコアが低い方から２つの要素を除いて、教師元フィルタリングデータ３２１を生成する。その結果、教師元データ３１１に含まれる入力１～入力４のうち、スコアが低い入力２と入力４とが除かれ、入力１と入力３とを含む教師元フィルタリングデータ３２１が生成される。

なお、フィルタリング実行部２２２は、上述した方法によりフィルタリングして得られたデータと、教師元データ３１１を他の方法によりフィルタリングして得られたデータとを組み合わせて教師元フィルタリングデータ３２１としてもよい。他の方法によるフィルタリングは、具体例としては、最大値又は平均値又は中央値と等を用いて、スコアが上位又は下位又は中位の基準割合の要素を教師元データ３１１から除くことである。また、他の方法によるフィルタリングは、他の具体例としては、教師元データ３１１の先頭又は末尾又は中央部分の基準割合の要素を教師元データ３１１から除くことである。
また、フィルタリング実行部２２２は、異なる割合で教師元データ３１１をフィルタリングしたデータを組み合わせて教師元フィルタリングデータ３２１としてもよい。例えば、フィルタリング実行部２２２は、教師元データ３１１から１０％を除いたデータと、教師元データ３１１から３０％を除いたデータと、教師元データ３１１から５０％を除いたデータとを組み合わせて教師元フィルタリングデータ３２１としてもよい。

図１０を参照して、実施の形態１に係る推論フェーズの処理を説明する。
（ステップＳ３１：フィルタリング処理）
フィルタリング部２２は、ステップＳ１１の学習により得られた第１モデル４１のパラメータを用いて、入力データ３３をフィルタリングする。入力データ３３は、エンコーダデコーダモデルが入出力することができる任意のシーケンスデータである。これにより、フィルタリング部２２は、入力フィルタリングデータを生成する。
入力データ３３をフィルタリングする処理は、図４のステップＳ１２で教師元データ３１１をフィルタリングする処理と同じである。つまり、教師元データ３１１がフィルタリングされて教師元フィルタリングデータ３２１が生成される処理と同様の処理によって、入力データ３３がフィルタリングされて入力フィルタリングデータが生成される。

なお、フィルタリング部２２は、図４のステップＳ１２で教師元データ３１１をフィルタリングする場合と、ここで入力データ３３をフィルタリングする場合とで、フィルタリングする割合を変更してもよい。例えば、フィルタリング部２２は、図４のステップＳ１２で教師元データ３１１をフィルタリングする場合には５０％フィルタリングし、ここで入力データ３３をフィルタリングする場合には３０％フィルタリングする。

（ステップＳ３２：フィルタリングデータ推論処理）
フィルタリングデータ推論部２４は、第２モデル４２を用いて、ステップＳ３１で生成された入力フィルタリングデータから出力データ３４を推論する。第２モデル４２を用いてとは、学習フェーズで生成された第２モデル４２のパラメータを用いてと言う意味である。
フィルタリングデータ推論部２４は、推論された出力データ３４をメモリ１２に書き込む。あるいは、フィルタリングデータ推論部２４は、出力データ３４を記録媒体１７又は外部のサーバ又は表示装置１４に出力してもよい。

＊＊＊実施の形態１の効果＊＊＊
以上のように、実施の形態１に係る学習推論装置１０は、注意機構を用いて変換元のシーケンスデータに含まれる複数の要素それぞれのスコアを計算し、複数の要素をフィルタリングする。注意機構を用いて計算したスコアは、貢献度合いが高い要素ほど高い値になる。そのため、注意機構を用いて計算したスコアによりフィルタリングすることで、生成結果の品質を保ちつつ、変換元のシーケンスデータの長さを適切に調整可能にすることが可能になる。変換元のシーケンスデータとは、教師元データ３１１と入力データ３３とのことである。

変換元のシーケンスデータの長さを短くできるため、計算コストを抑えることができる。つまり、第２モデル４２のパラメータの学習にかかる計算コストは、第１モデル４１のパラメータの学習にかかる計算コストよりも低くできる。また、入力フィルタリングデータから出力データ３４を推論することで、入力データ３３から出力データ３４を推論するよりも計算コストを低くできる。

ここで、第１モデル４１は、フィルタリングされていない第１教師データ３１を入力としてパラメータが学習される。そのため、計算コストが高く、高性能な計算機環境が必要である。これに対して、第２モデル４２は、フィルタリングされた第２教師データ３２を入力としてパラメータが学習される。そのため、計算コストが低く、高性能な計算機環境は不要である。
複数の業務又は複数のシステムにエンコーダデコーダモデルを用いた処理を横展開するといった場合がある。この場合には、第１モデル４１のための高性能な計算機環境を１か所に集中させ、展開先には第２モデル４２のための低性能な計算機環境を用意することが考えられる。
なお、第１モデル４１はできてしまえば、第２モデル４２のパラメータを学習する際に、図４のステップＳ１１の通常データ学習処理は必要ない。つまり、第１モデル４１はできてしまえば、第２モデル４２のパラメータを学習する際には、図４のステップ１１をスキップしてステップＳ１２から処理を行えばよい。そのため、高性能な計算機環境で第１モデル４１を用意しておき、展開先の低性能な計算機環境で、その展開先用の第２モデル４２のパラメータを学習すればよい。

＊＊＊他の構成＊＊＊
＜変形例１＞
実施の形態１では、学習フェーズを行う機能と、推論フェーズを行う機能との両方を１つの学習推論装置１０が備えている例を説明した。しかし、学習推論装置１０は、学習フェーズを行う機能のみを有している構成であってもよい。学習フェーズを行う機能のみを有している構成の学習推論装置１０を学習装置１０１と呼ぶ。また、学習推論装置１０は、推論フェーズを行う機能のみを有している構成であってもよい。推論フェーズを行う機能のみを有している構成の学習推論装置１０を推論装置１０２と呼ぶ。
具体的には、学習装置１０１は、図１１に示すように、学習推論装置１０が備える機能構成要素のうち、フィルタリングデータ推論部２４を備えず、通常データ学習部２１とフィルタリング部２２とフィルタリングデータ学習部２３とを備えている。また、推論装置１０２は、図１２に示すように、学習推論装置１０が備える機能構成要素のうち、通常データ学習部２１とフィルタリングデータ学習部２３とを備えず、フィルタリング部２２とフィルタリングデータ推論部２４とを備えている。

なお、外部から第１モデル４１を取得可能な場合には、学習装置１０１は、通常データ学習部２１を備えていなくてもよい。

＜変形例２＞
実施の形態１では、第１教師データ３１は、具体例として機械翻訳用のデータであるとした。しかし、第１教師データ３１は、シーケンスデータであれば、これに限らず他のデータであってもよい。なお、第２教師データ３２は、第１教師データ３１の教師元データ３１１がフィルタリングされたデータであるから、第１教師データ３１と同じ種類のデータである。また、入力データ３３及び出力データ３４の組も、第１教師データ３１と同じ種類のデータである。

（例１）第１教師データ３１は、自然言語処理用のデータである。教師元データ３１１は、特定の言語の単語のシーケンス、例えば文や句である。そして、教師先データ３１２は、特定の言語の要約結果、つまり教師元データ３１１よりも少ない単語で構成されるが、教師元データ３１１の本質的な意味を保持するシーケンスである。
（例２）第１教師データ３１は、自然言語処理用のデータでる。教師元データ３１１は、質問を意味する単語のシーケンスである。そして、教師先データ３１２は、質問への回答を意味する単語のシーケンスである。
（例３）第１教師データ３１は、音声認識用のデータでる。教師元データ３１１は、人間の口頭での発話を表す音声データのシーケンスである。そして、教師先データ３１２は、発話内容を表す、音素、特徴量、又は単語のシーケンスである。
（例４）第１教師データ３１は、画像処理用のデータでる。教師元データ３１１は、画像、つまり画像に含まれる色及び明度等のシーケンスである。そして、教師先データ３１２は、画像を説明するテキストのシーケンスである。
（例５）第１教師データ３１は、異常検知用のデータでる。教師元データ３１１は、特定のセンサで取得されたデータのシーケンスである。そして、教師先データ３１２は、正常又は異常を表すテキストのシーケンスである。
（例６）第１教師データ３１は、異常予測用のデータでる。教師元データ３１１は、特定のセンサで取得されたデータのシーケンスである。そして、教師先データ３１２は、未来の異常発生の可能性を表すテキストのシーケンスである。
（例７）第１教師データ３１は、需要予測用のデータでる。教師元データ３１１は、任意の期間における製品販売数に関するデータのシーケンスである。そして、教師先データ３１２は、未来の製品需要を表すテキストのシーケンスである。

＜変形例３＞
実施の形態１で対象とするエンコーダデコーダモデルは、Ｔｒａｎｓｆｏｒｍｅｒであるとした。Ｔｒａｎｓｆｏｒｍｅｒの例としては、ＢＥＲＴと、ＧＰＴと、Ｔ５と等がある。
ＢＥＲＴは、文献：Ｄｅｖｌｉｎ，Ｊ．，Ｃｈａｎｇ，Ｍ．Ｗ．，Ｌｅｅ，Ｋ．，＆Ｔｏｕｔａｎｏｖａ，Ｋ．（２０１８）．Ｂｅｒｔ：Ｐｒｅ－ｔｒａｉｎｉｎｇｏｆｄｅｅｐｂｉｄｉｒｅｃｔｉｏｎａｌｔｒａｎｓｆｏｒｍｅｒｓｆｏｒｌａｎｇｕａｇｅｕｎｄｅｒｓｔａｎｄｉｎｇ．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１８１０．０４８０５．に記載されている。
ＧＰＴは、文献：Ｒａｄｆｏｒｄ，Ａ．，Ｎａｒａｓｉｍｈａｎ，Ｋ．，Ｓａｌｉｍａｎｓ，Ｔ．，＆Ｓｕｔｓｋｅｖｅｒ，Ｉ．（２０１８）．Ｉｍｐｒｏｖｉｎｇｌａｎｇｕａｇｅｕｎｄｅｒｓｔａｎｄｉｎｇｂｙｇｅｎｅｒａｔｉｖｅｐｒｅ－ｔｒａｉｎｉｎｇ．
Ｔ５は、文献：Ｒａｆｆｅｌ，Ｃ．，Ｓｈａｚｅｅｒ，Ｎ．，Ｒｏｂｅｒｔｓ，Ａ．，Ｌｅｅ，Ｋ．，Ｎａｒａｎｇ，Ｓ．，Ｍａｔｅｎａ，Ｍ．，．．．＆Ｌｉｕ，Ｐ．Ｊ．（２０２０）．Ｅｘｐｌｏｒｉｎｇｔｈｅｌｉｍｉｔｓｏｆｔｒａｎｓｆｅｒｌｅａｒｎｉｎｇｗｉｔｈａｕｎｉｆｉｅｄｔｅｘｔ－ｔｏ－ｔｅｘｔｔｒａｎｓｆｏｒｍｅｒ．ＴｈｅＪｏｕｒｎａｌｏｆＭａｃｈｉｎｅＬｅａｒｎｉｎｇＲｅｓｅａｒｃｈ，２１（１），５４８５－５５５１．に記載されている。

＜変形例４＞
実施の形態１では、各機能構成要素がソフトウェアで実現された。しかし、変形例４として、各機能構成要素はハードウェアで実現されてもよい。この変形例４について、実施の形態１と異なる点を説明する。

各機能構成要素がハードウェアで実現される場合には、学習推論装置１０は、プロセッサ１１とメモリ１２とに代えて、電子回路を備える。電子回路は、各機能構成要素と、メモリ１２と、ストレージ１３との機能とを実現する専用の回路である。

電子回路としては、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ロジックＩＣ、ＧＡ、ＡＳＩＣ、ＦＰＧＡが想定される。ＧＡは、ＧａｔｅＡｒｒａｙの略である。ＡＳＩＣは、ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔの略である。ＦＰＧＡは、Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙの略である。
各機能構成要素を１つの電子回路で実現してもよいし、各機能構成要素を複数の電子回路に分散させて実現してもよい。

＜変形例５＞
変形例５として、一部の各機能構成要素がハードウェアで実現され、他の各機能構成要素がソフトウェアで実現されてもよい。

プロセッサ１１とメモリ１２と電子回路とを処理回路という。つまり、各機能構成要素の機能は、処理回路により実現される。

実施の形態２．
実施の形態２は、入力シーケンスに含まれる複数の要素の並び順に従いスコアを並べた場合に、スコアの変化量が大きい要素に近い要素が除かれ難くなるようにフィルタリング方法を調整する点が実施の形態１と異なる。実施の形態２では、この異なる点を説明し、同一の点については説明を省略する。

＊＊＊構成の説明＊＊＊
図１３を参照して、実施の形態２に係る学習推論装置１０の構成を説明する。
学習推論装置１０は、機能構成要素として、フィルタリング調整部２２３を備える点が図２に示す学習推論装置１０と異なる。フィルタリング調整部２２３の機能は、他の機能構成要素と同様に、ソフトウェア又はハードウェアによって実現される。

＊＊＊動作の説明＊＊＊
図１４を参照して、実施の形態２に係るフィルタリング処理を説明する。
ここでは、図４のステップＳ１２のフィルタリング処理を説明する。しかし、図１０のステップＳ３１のフィルタリング処理についても同様である。図４のステップＳ１２では、教師元データ３１１がフィルタリングされて教師元フィルタリングデータ３２１が生成されるが、図１０のステップＳ３１では、入力データ３３がフィルタリングされて入力フィルタリングデータが生成される点が異なる。

ステップＳ４１の処理は、図６のステップＳ２１の処理と同じである。

（ステップＳ４２：フィルタリング調整処理）
フィルタリング調整部２２３は、教師元データ３１１に含まれる複数の要素の並び順に従いステップＳ４１で計算されたスコアを並べた場合に、スコアの変化量が大きい要素に近い要素が除かれ難くなるようにフィルタリング方法を調整する。つまり、フィルタリング調整部２２３は、スコアの変化が急峻な要素の前後の要素が除かれ難くなるようにフィルタリング方法を調整する。
具体的には、フィルタリング調整部２２３は、スコアの変化量が大きい要素の前後ほど広い範囲の要素が除かれずに残るように調整する。例えば、フィルタリング調整部２２３は、各要素についてスコアの移動平均を計算する。この際、フィルタリング調整部２２３は、スコアの変化量が大きい要素の前後ほど移動平均を計算する範囲を広くする。そして、フィルタリング調整部２２３は、フィルタリング実行部２２２に対して、移動平均の値により要素をフィルタリングさせる。これにより、フィルタリング調整部２２３は、スコアの変化量に応じてフィルタリングに用いる値を平滑化する。その結果、スコアの変化量が大きい要素に近い要素が除かれ難くなるようになる。

フィルタリング調整部２２３は、スコアの変化量の大きさについては、値の変化量を示す微分値等の変化点の検出に用いられる値を計算することによって特定すればよい。

なお、フィルタリング調整部２２３は、スコアが急に高くなる要素に近い要素が除かれ難くなるように調整すればよい。つまり、フィルタリング調整部２２３は、スコアが急に低くなる要素に近い要素が除かれ難くなるように調整する必要はない。

（ステップＳ４３：フィルタリング実行処理）
フィルタリング実行部２２２は、ステップＳ４２で調整されたフィルタリング方法に従いフィルタリングする。
例えば、ステップＳ４２で説明したように、各要素についてスコアの移動平均が計算された場合には、フィルタリング実行部２２２は、各要素の移動平均が低い方から基準割合の要素を除いて、教師元フィルタリングデータ３２１を生成する。

＊＊＊実施の形態２の効果＊＊＊
以上のように、実施の形態２に係る学習推論装置１０は、スコアの変化量が大きい要素に近い要素が除かれ難くなるようにフィルタリング方法を調整する。
スコアの変化量が大きい要素に近い要素が除かれてしまうと、スコアが高い要素の前後の要素が削除されてしまい、必要以上にコンテキストが失われる可能性がある。実施の形態２に係る学習推論装置１０は、スコアが高い要素の前後の要素が削除されることを防止できるので、必要以上にコンテキストが失われることを防ぐことができる。これにより、生成結果の品質劣化を防ぐことができる。

実施の形態３．
実施の形態３は、スコアに対して、スコアとは別の情報により重み付けして、前記スコアを調整する点が実施の形態１，２と異なる。実施の形態３では、この異なる点を説明し、同一の点については説明を省略する。
実施の形態３では、実施の形態１に機能を加えた場合について説明する。しかし、実施の形態２に機能を加えることも可能である。

＊＊＊構成の説明＊＊＊
図１５を参照して、実施の形態３に係る学習推論装置１０の構成を説明する。
学習推論装置１０は、機能構成要素として、スコア調整部２２４を備える点が図２に示す学習推論装置１０と異なる。スコア調整部２２４の機能は、他の機能構成要素と同様に、ソフトウェア又はハードウェアによって実現される。

＊＊＊動作の説明＊＊＊
図１６を参照して、実施の形態３に係るフィルタリング処理を説明する。
ここでは、図４のステップＳ１２のフィルタリング処理を説明する。しかし、図１０のステップＳ３１のフィルタリング処理についても同様である。図４のステップＳ１２では、教師元データ３１１がフィルタリングされて教師元フィルタリングデータ３２１が生成されるが、図１０のステップＳ３１では、入力データ３３がフィルタリングされて入力フィルタリングデータが生成される点が異なる。

ステップＳ５１の処理は、図６のステップＳ２１の処理と同じである。

（ステップＳ５２：スコア調整処理）
スコア調整部２２４は、ステップＳ４１で計算されたスコアに対して、スコアとは別の情報により重み付けして、スコアを調整する。
別の情報は、例えば、ユーザによって定義された要素毎の重み情報である。別の情報は、ＴＦ－ＩＤＦ等の統計情報であってもよい。ＴＦ－ＩＤＦは、ＴｅｒｍＦｒｅｑｕｅｎｃｙ－ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙの略である。
図１７の例１に示すように、スコア調整部２２４は、スコアと別の情報とを用いて、加算又は乗算のような基本的な演算によって重み付けを行い、スコアを調整する。図１７の例１では、スコアと別の情報である重みとを加算してスコアが調整されている。また、図１７の例２に示すように、スコア調整部２２４は、閾値を超える重みが与えられた要素については、スコアに関係なくフィルタリングされないようにスコアを調整してもよい。図１７の例２では、別の情報である重みが閾値２．０を超える要素についてはフィルタリングされないように∞の値がスコアに設定されている。

（ステップＳ５３：フィルタリング実行処理）
フィルタリング実行部２２２は、ステップＳ５２で調整されたスコアに基づきフィルタリングする。

＊＊＊実施の形態３の効果＊＊＊
以上のように、実施の形態３に係る学習推論装置１０は、スコアに対して、スコアとは別の情報により重み付けして、前記スコアを調整する。これにより、入力シーケンスにおける各要素のスコアのみで生じる意図しないコンテキストの消失を防止できる。これにより、生成結果の品質劣化を防ぐことができる。

実施の形態４．
実施の形態４は、フィルタリングする要素の割合を難易度としたカリキュラム学習をすることで、モデルを安定的に学習する点が実施の形態１～３と異なる。実施の形態４では、この異なる点を説明し、同一の点については説明を省略する。
実施の形態４では、実施の形態１に機能を加えた場合について説明する。しかし、実施の形態２，３に機能を加えることも可能である。

＊＊＊動作の説明＊＊＊
図４を参照して、実施の形態４に係る学習フェーズの処理を説明する。
ステップＳ１１の処理は、実施の形態１と同じである。

（ステップＳ１２：フィルタリング処理）
フィルタリング部２２は、ステップＳ１１の学習により得られた第１モデル４１のパラメータを用いて、第１教師データ３１に含まれる教師元データ３１１をフィルタリングする。
この際、フィルタリング部２２は、複数の割合それぞれを対象の割合に設定する。そして、フィルタリング部２２は、教師元データ３１１に含まれる要素から対象の割合の要素を除くようにフィルタリングして、対象の割合に対応する教師元フィルタリングデータ３２１を生成する。そして、フィルタリング部２２は、対象の割合に対応する教師元フィルタリングデータ３２１と教師先データ３１２とを含む第２教師データ３２を生成する。
例えば、フィルタリング部２２は、５０％と７０％と９０％とのそれぞれを対象の割合に設定する。そして、フィルタリング部２２は、教師元データ３１１に含まれる要素から５０％の要素を除くようにフィルタリングして、５０％に対応する教師元フィルタリングデータ３２１を生成する。また、フィルタリング部２２は、教師元データ３１１に含まれる要素から７０％の要素を除くようにフィルタリングして、７０％に対応する教師元フィルタリングデータ３２１を生成する。また、フィルタリング部２２は、教師元データ３１１に含まれる要素から９０％の要素を除くようにフィルタリングして、９０％に対応する教師元フィルタリングデータ３２１を生成する。

（ステップＳ１３：フィルタリングデータ学習処理）
フィルタリングデータ学習部２３は、複数の割合それぞれに対応する教師元フィルタリングデータ３２１を割合が低い方から順に対象の教師元フィルタリングデータ３２１に設定する。そして、フィルタリングデータ学習部２３は、対象の教師元フィルタリングデータ３２１と教師先データ３１２とを含む第２教師データ３２を入力として、対象の教師元フィルタリングデータ３２１から教師先データ３１２に変換する第２モデル４２のパラメータを学習する。
例えば、５０％と７０％と９０％とについての第２教師データ３２が生成されているとする。この場合には、図１８に示すように、まず、フィルタリングデータ学習部２３は、５０％に対応する第２教師データ３２により第２モデル４２のパラメータを学習する。次に、フィルタリングデータ学習部２３は、７０％に対応する第２教師データ３２により第２モデル４２のパラメータを学習する。そして、フィルタリングデータ学習部２３は、９０％に対応する第２教師データ３２により第２モデル４２のパラメータを学習する。

なお、フィルタリングデータ学習部２３は、学習時における第２モデル４２のパラメータの初期値として、１段階前に学習されて得られた第２モデル４２のパラメータを用いる。しかし、フィルタリングデータ学習部２３は、学習時における第２モデル４２のパラメータの初期値として、２段階以上前に学習されて得られた第２モデル４２のパラメータを用いるようにしてもよい。

＊＊＊実施の形態４の効果＊＊＊
以上のように、実施の形態４に係る学習推論装置１０は、フィルタリングする要素の割合を難易度としたカリキュラム学習をする。これにより、フィルタリングによって生じた、フィルタリング前の教師元データ３１１との差異を段階的に学習できる。そのため、安定して第２モデル４２のパラメータの学習を行うことができる。

実施の形態５．
実施の形態５は、第１モデル４１における注意機構による計算結果から得られるスコアと第２モデル４２における注意機構による計算結果から得られるスコアとが近くなるように、第２モデルのパラメータを学習する点が実施の形態１～４と異なる。実施の形態５では、この異なる点を説明し、同一の点については説明を省略する。
実施の形態５では、実施の形態１に機能を加えた場合について説明する。しかし、実施の形態２～４に機能を加えることも可能である。

＊＊＊動作の説明＊＊＊
図４を参照して、実施の形態５に係る学習フェーズの処理を説明する。
ステップＳ１１及びステップＳ１２の処理は、実施の形態１と同じである。

（ステップＳ１３：フィルタリングデータ学習処理）
フィルタリングデータ学習部２３は、第１モデル４１における注意機構による計算結果から得られるスコアと第２モデル４２における注意機構による計算結果から得られるスコアとが近くなるように、第２モデル４２のパラメータを学習する。
具体的には、フィルタリングデータ学習部２３は、第２モデル４２を学習する際に用いられる損失関数に、第１モデル４１における注意機構による計算結果から得られるスコアと第２モデル４２における注意機構による計算結果から得られるスコアとの差又は類似度を導入する。ここで、第１モデル４１における注意機構による計算結果から得られるスコアは、ステップＳ２１で計算されるスコアである。つまり、第１モデル４１における注意機構による計算結果から得られるスコアは、第１モデル４１の注意機構であるＡｔｔｅｎｔｉｏｎにより得られるスコアである。第２モデル４２における注意機構による計算結果から得られるスコアは、ステップＳ２１で説明した方法により計算されるスコアである。つまり、第２モデル４２における注意機構による計算結果から得られるスコアは、第２モデル４２の注意機構であるＡｔｔｅｎｔｉｏｎにより得られるスコアである。

例えば、フィルタリングデータ学習部２３は、損失関数として、第１モデル４１のスコアと第２モデル４２のスコアとの間の平均二乗誤差ＭＳＥを用いる。第１モデル４１のスコアと第２モデル４２のスコアとの間の平均二乗誤差ＭＳＥは、式１のように表される。
（式１）
ＭＳＥ＝（１／Ｎ）Σ_ｉ＝１ ^Ｎ（Ａ_ｉ－Ｂ_ｉ）^２
ここで、ＮはＡｔｔｅｎｔｉｏｎの要素数を示す。Ａは第１モデル４１のＡｔｔｅｎｔｉｏｎを示す。Ｂは第２モデル４２のＡｔｔｅｎｔｉｏｎを示す。
ここでのＡｔｔｅｎｔｉｏｎは、デコーダのマルチヘッド注意機構で計算されるＣｒｏｓｓ－Ａｔｔｅｎｔｉｏｎでもよいし、エンコーダのマルチヘッド注意機構で計算されるＳｅｌｆ－Ａｔｔｅｎｔｉｏｎでもよい。また、ここでのＡｔｔｅｎｔｉｏｎは、Ｃｒｏｓｓ－ＡｔｔｅｎｔｉｏｎとＳｅｌｆ－Ａｔｔｅｎｔｉｏｎとを組み合わせたものであってもよい。

なお、上述したＡｔｔｅｎｔｉｏｎは、第１モデル４１と第２モデル４２との全体を近似させるものである。しかし、特定の層又は特定のヘッドを近似させるようにしてもよい。

また、ここでは、損失関数として平均二乗誤差ＭＳＥが用いられた。しかし、損失関数は、クロスエントロピー誤差又はコサイン類似度といった他の関数を用いてもよい。

＊＊＊実施の形態５の効果＊＊＊
以上のように、実施の形態５に係る学習推論装置１０は、第１モデル４１のスコアと第２モデル４２のスコアとが近くなるように、第２モデルのパラメータを学習する。これにより、フィルタリングの結果だけでなく、フィルタリングに用いられた第１モデル４１の内部状態も教師データとして第２モデル４２を学習できる。そのため、安定して学習を進めることができる。

実施の形態６．
実施の形態６は、教師元データ３１１を任意の長さ単位でフィルタリングして得られた結果を結合して教師先データ３１２を生成する点が実施の形態１～５と異なる。実施の形態６では、この異なる点を説明し、同一の点については説明を省略する。
実施の形態６では、実施の形態１に機能を加えた場合について説明する。しかし、実施の形態２～５に機能を加えることも可能である。

＊＊＊構成の説明＊＊＊
図１９を参照して、実施の形態６に係る学習推論装置１０の構成を説明する。
学習推論装置１０は、機能構成要素として、フィルタリングデータ結合部２２５を備える点が図２に示す学習推論装置１０と異なる。フィルタリングデータ結合部２２５の機能は、他の機能構成要素と同様に、ソフトウェア又はハードウェアによって実現される。

＊＊＊動作の説明＊＊＊
図２０を参照して、実施の形態６に係るフィルタリング処理を説明する。
ここでは、図４のステップＳ１２のフィルタリング処理を説明する。しかし、図１０のステップＳ３１のフィルタリング処理についても同様である。図４のステップＳ１２では、教師元データ３１１がフィルタリングされて教師元フィルタリングデータ３２１が生成されるが、図１０のステップＳ３１では、入力データ３３がフィルタリングされて入力フィルタリングデータが生成される点が異なる。

ステップＳ６１の処理は、図６のステップＳ２１の処理と同じである。

（ステップＳ６２：フィルタリング実行処理）
図２１に示すように、フィルタリング実行部２２２は、教師元データ３１１を分割して得られた複数の分割データ３５それぞれを対象の分割データ３５に設定する。フィルタリング実行部２２２は、対象の分割データ３５に含まれる要素をフィルタリングして、対象の分割データ３５に対応する分割フィルタリングデータ３６を生成する。
図２１では、フィルタリング実行部２２２は、教師元データ３１１を２つに分割して２つの分割データ３５を生成している。そして、フィルタリング実行部２２２は、２つの分割データ３５それぞれについてフィルタリングして２つの分割フィルタリングデータ３６を生成している。
なお、フィルタリング実行部２２２は、教師元データ３１１を任意の長さに分割すればよい。例えば、フィルタリング実行部２２２は、教師元データ３１１を話題毎に分割してもよい。また、フィルタリング実行部２２２は、教師元データ３１１を基準とする長さ毎に分割してもよい。

（ステップＳ６３：フィルタリングデータ結合処理）
図２１に示すように、フィルタリングデータ結合部２２５は、ステップＳ６２で生成された複数の分割データ３５それぞれに対応する分割フィルタリングデータ３６を結合して、教師元フィルタリングデータ３２１を生成する。
図２１では、フィルタリングデータ結合部２２５は、２つの分割データ３５それぞれに対応する分割フィルタリングデータ３６を結合して、教師元フィルタリングデータ３２１を生成している。

＊＊＊実施の形態６の効果＊＊＊
以上のように、実施の形態６に係る学習推論装置１０は、教師元データ３１１を任意の長さ単位でフィルタリングして得られた結果を結合して教師元フィルタリングデータ３２１を生成する。これにより、フィルタリングに係る計算コストが大きくなってしまう場合に、コンテキストの欠落を防ぎながら、フィルタリングに係る計算コストを抑えることができる。

実施の形態７．
実施の形態７は、指定長さ以下になるまでフィルタリングとフィルタリングされたデータの結合とを繰り返す点が実施の形態６と異なる。実施の形態７では、この異なる点を説明し、同一の点については説明を省略する。

＊＊＊動作の説明＊＊＊
図２２を参照して、実施の形態７に係るフィルタリング処理を説明する。
ここでは、図４のステップＳ１２のフィルタリング処理を説明する。しかし、図１０のステップＳ３１のフィルタリング処理についても同様である。図４のステップＳ１２では、教師元データ３１１がフィルタリングされて教師元フィルタリングデータ３２１が生成されるが、図１０のステップＳ３１では、入力データ３３がフィルタリングされて入力フィルタリングデータが生成される点が異なる。

ステップＳ７１からステップＳ７３の処理は、図２０のステップＳ６１からステップＳ６３の処理と同じである。

（ステップＳ７４：長さ判定処理）
フィルタリングデータ結合部２２５は、ステップＳ７３で生成された教師元フィルタリングデータ３２１の長さが指定長さ以下であるか否かを判定する。
フィルタリングデータ結合部２２５は、教師元フィルタリングデータ３２１の長さが指定長さ以下である場合には、処理を終了する。一方、フィルタリングデータ結合部２２５は、教師元フィルタリングデータ３２１の長さが指定長さ以下でない場合には、処理をステップＳ７２に戻す。

図２３に示すように、処理がステップＳ７２に戻された場合には、フィルタリング実行部２２２は、ステップＳ７３で生成された教師元フィルタリングデータ３２１を分割して得られた１つ以上に分割データ３５それぞれを対象の分割データ３５に設定する。フィルタリング実行部２２２は、対象の分割データ３５に含まれる要素をフィルタリングして、対象の分割データ３５に対応する分割フィルタリングデータ３６を新たに生成する。そして、ステップＳ７３でフィルタリングデータ結合部２２５は、新たに生成された分割フィルタリングデータ３６を結合して、教師元フィルタリングデータ３２１を新たに生成する。
図２３では、１度目のフィルタリング実行処理で２つの分割データ３５それぞれに対して分割フィルタリングデータ３６が生成され、教師元フィルタリングデータ３２１が生成されている。そして、２度目のフィルタリング実行処理では１つの分割データ３５に対して分割フィルタリングデータ３６が新たに生成され、分割フィルタリングデータ３６がそのまま教師元フィルタリングデータ３２１に設定されている。

＊＊＊実施の形態７の効果＊＊＊
以上のように、実施の形態７に係る学習推論装置１０は、指定長さ以下になるまでフィルタリングとフィルタリングされたデータの結合とを繰り返す。これにより、入力シーケンスが長い場合であっても、コンテキストの欠落を防ぎつつ、フィルタリングに係る計算コストを抑えながら、意図した長さの教師元フィルタリングデータ３２１を生成することができる。

実施の形態８．
実施の形態８は、フィルタリングして除いた要素に特殊トークンを付与する点が実施の形態１～７と異なる。実施の形態５では、この異なる点を説明し、同一の点については説明を省略する。
実施の形態８では、実施の形態１に機能を加えた場合について説明する。しかし、実施の形態２～７に機能を加えることも可能である。

＊＊＊構成の説明＊＊＊
図２４を参照して、実施の形態８に係る学習推論装置１０の構成を説明する。
学習推論装置１０は、機能構成要素として、フィルタリング修正部２２６を備える点が図２に示す学習推論装置１０と異なる。フィルタリング修正部２２６の機能は、他の機能構成要素と同様に、ソフトウェア又はハードウェアによって実現される。

＊＊＊動作の説明＊＊＊
図２５を参照して、実施の形態８に係るフィルタリング処理を説明する。
ここでは、図４のステップＳ１２のフィルタリング処理を説明する。しかし、図１０のステップＳ３１のフィルタリング処理についても同様である。図４のステップＳ１２では、教師元データ３１１がフィルタリングされて教師元フィルタリングデータ３２１が生成されるが、図１０のステップＳ３１では、入力データ３３がフィルタリングされて入力フィルタリングデータが生成される点が異なる。

ステップＳ８１の処理は、図６のステップＳ２１の処理と同じである。

（ステップＳ８２：フィルタリング実行処理）
フィルタリング実行部２２２は、ステップＳ２１で計算されたスコアに基づき、教師元データ３１１に含まれる要素をフィルタリングして、教師元フィルタリングデータ３２１を生成する。
この際、図２６に示すように、フィルタリング実行部２２２は、フィルタリングにより除いた要素に特殊トークンを付与する。図２６では、図９と同様に、入力２と入力４とが除かれ、入力１と入力３とを含む教師元フィルタリングデータ３２１が生成されている。そこで、フィルタリング実行部２２２は、除かれた入力２と入力４とに、特殊トークン［Ｍ］を付与する。

（ステップＳ８３：フィルタリング修正処理）
フィルタリング修正部２２６は、ステップＳ８２で行われたフィルタリングの結果を表示装置１４に出力する。この際、フィルタリング修正部２２６は、フィルタリングによって除かれた要素に特殊トークン［Ｍ］を示した上で、教師元データ３１１の各要素を表示する。これにより、どの要素が除かれたかがユーザに分かるようにする。
そして、フィルタリング修正部２２６は、除くことが不適当であるとユーザが考える要素の指定を受け付ける。図２７に示すように、フィルタリング修正部２２６は、除くことが不適当であると指定された要素について、除くのを止め、教師元フィルタリングデータ３２１に加える。図２７では、入力２については除くことが不適当であると指定されたため、教師元フィルタリングデータ３２１に加えられている。

＊＊＊実施の形態８の効果＊＊＊
以上のように、実施の形態８に係る学習推論装置１０は、フィルタリングして除いた要素に特殊トークンを付与する。これにより、フィルタリングにより除かれた要素をユーザが容易に特定することができる。

また、実施の形態８に係る学習推論装置１０は、フィルタリング修正部２２６がユーザに指定された要素を教師元フィルタリングデータ３２１に加える。これにより、ユーザがフィルタリングされた結果を修正して、望ましい教師元フィルタリングデータ３２１を得ることができる。

なお、以上の説明における「部」を、「回路」、「工程」、「手順」、「処理」又は「処理回路」に読み替えてもよい。

以上、本開示の実施の形態及び変形例について説明した。これらの実施の形態及び変形例のうち、いくつかを組み合わせて実施してもよい。また、いずれか１つ又はいくつかを部分的に実施してもよい。なお、本開示は、以上の実施の形態及び変形例に限定されるものではなく、必要に応じて種々の変更が可能である。

１０学習推論装置、１１プロセッサ、１２メモリ、１３入力装置、１４表示装置、１５外部インタフェース、１６通信インタフェース、１７記録媒体、２１通常データ学習部、２２フィルタリング部、２２１スコア計算部、２２２フィルタリング実行部、２２３フィルタリング調整部、２２４スコア調整部、２２５フィルタリングデータ結合部、２２６フィルタリング修正部、２３フィルタリングデータ学習部、２４フィルタリングデータ推論部、３１第１教師データ、３１１教師元データ、３１２教師先データ、３２第２教師データ、３２１教師元フィルタリングデータ、３３入力データ、３４出力データ、３５分割データ、３６分割フィルタリングデータ、４１第１モデル、４２第２モデル、１０１学習装置、１０２推論装置。

Claims

変換元のシーケンスデータから変換先のシーケンスデータを推論する第１モデルにおける注意機構を用いて、変換元のシーケンスデータである教師元データと変換先のシーケンスデータである教師先データとを含む第１教師データにおける前記教師元データに含まれる複数の要素それぞれのスコアを計算し、前記複数の要素それぞれのスコアに基づき、前記教師元データに含まれる前記複数の要素をフィルタリングして教師元フィルタリングデータを生成するフィルタリング部と、
前記フィルタリング部によって生成された前記教師元フィルタリングデータと前記教師先データとを含む第２教師データを入力として、前記教師元フィルタリングデータから前記教師先データに変換する第２モデルのパラメータを学習するフィルタリングデータ学習部と
を備え、
前記フィルタリング部は、前記教師元データを分割して得られた複数の分割データそれぞれを対象の分割データとして、前記対象の分割データに含まれる要素をフィルタリングして、前記対象の分割データに対応する分割フィルタリングデータを生成し、
さらに、前記複数の分割データそれぞれに対応する前記分割フィルタリングデータを結合して、前記教師元フィルタリングデータを生成するフィルタリングデータ結合部
を備える学習装置。
変換元のシーケンスデータから変換先のシーケンスデータを推論する第１モデルにおける注意機構を用いて、変換元のシーケンスデータである教師元データと変換先のシーケンスデータである教師先データとを含む第１教師データにおける前記教師元データに含まれる複数の要素それぞれのスコアを計算し、前記複数の要素それぞれのスコアに基づき、前記教師元データに含まれる前記複数の要素をフィルタリングして教師元フィルタリングデータを生成するフィルタリング部と、
前記フィルタリング部によって生成された前記教師元フィルタリングデータと前記教師先データとを含む第２教師データを入力として、前記教師元フィルタリングデータから前記教師先データに変換する第２モデルのパラメータを学習するフィルタリングデータ学習部と
を備え、
前記フィルタリング部は、フィルタリングして除いた要素に特殊トークンを付与し、
さらに、指定された前記特殊トークンを元の要素に戻すフィルタリング修正部
を備える学習装置。
前記フィルタリング部は、
前記複数の要素それぞれの前記スコアを計算するスコア計算部と、
前記教師元データに含まれる前記複数の要素の並び順に従い前記スコア計算部によって計算された前記スコアを並べた場合に、前記スコアの変化量が大きい要素に近い要素が除かれ難くなるようにフィルタリング方法を調整するフィルタリング調整部と、
前記フィルタリング調整部によって調整された前記フィルタリング方法に従いフィルタリングするフィルタリング実行部と
を備える請求項１又は２に記載の学習装置。
前記フィルタリング部は、
前記複数の要素それぞれの前記スコアを計算するスコア計算部と、
前記スコア計算部によって計算された前記スコアに対して、前記スコアとは別の情報により重み付けして、前記スコアを調整するスコア調整部と、
前記スコア調整部によって調整された前記スコアに基づきフィルタリングするフィルタリング実行部と
を備える請求項１又は２に記載の学習装置。
前記フィルタリング部は、複数の割合それぞれを対象の割合として、前記教師元データに含まれる要素から前記対象の割合の要素を除くようにフィルタリングして、前記対象の割合に対応する前記教師元フィルタリングデータを生成し、
前記フィルタリングデータ学習部は、前記複数の割合それぞれに対応する前記教師元フィルタリングデータを前記割合が低い方から順に対象の教師元フィルタリングデータとし、前記対象の教師元フィルタリングデータと前記教師先データとを含む第２教師データを入力として、前記対象の教師元フィルタリングデータから前記教師先データに変換する第２モデルのパラメータを学習する
請求項１又は２に記載の学習装置。
前記フィルタリングデータ学習部は、前記第１モデルにおける注意機構による計算結果から得られるスコアと前記第２モデルにおける注意機構による計算結果から得られるスコアとが近くなるように、前記第２モデルのパラメータを学習する
請求項１又は２に記載の学習装置。
前記フィルタリング部は、前記教師元フィルタリングデータが指定長さよりも長い場合には、前記教師元フィルタリングデータを分割して得られた１つ以上の分割データそれぞれを対象の分割データとして、前記対象の分割データに含まれる要素をフィルタリングして、前記対象の分割データに対応する分割フィルタリングデータを新たに生成し、
前記フィルタリングデータ結合部は、新たに生成された前記分割フィルタリングデータを結合して、前記教師元フィルタリングデータを新たに生成する
請求項１に記載の学習装置。
変換元のシーケンスデータから変換先のシーケンスデータを推論する第１モデルにおける注意機構を用いて、変換元のシーケンスデータである入力データに含まれる複数の要素それぞれのスコアを計算し、前記複数の要素それぞれのスコアに基づき、前記入力データに含まれる前記複数の要素をフィルタリングして入力フィルタリングデータを生成するフィルタリング部と、
変換元のシーケンスデータから変換先のシーケンスデータを推論する第２モデルを用いて、前記フィルタリング部によって生成された前記入力フィルタリングデータから出力データを推論するフィルタリングデータ推論部と
を備え、
前記フィルタリング部は、前記入力データを分割して得られた複数の分割データそれぞれを対象の分割データとして、前記対象の分割データに含まれる要素をフィルタリングして、前記対象の分割データに対応する分割フィルタリングデータを生成し、
さらに、前記複数の分割データそれぞれに対応する前記分割フィルタリングデータを結合して、前記入力フィルタリングデータを生成するフィルタリングデータ結合部
を備える推論装置。
変換元のシーケンスデータから変換先のシーケンスデータを推論する第１モデルにおける注意機構を用いて、変換元のシーケンスデータである入力データに含まれる複数の要素それぞれのスコアを計算し、前記複数の要素それぞれのスコアに基づき、前記入力データに含まれる前記複数の要素をフィルタリングして入力フィルタリングデータを生成するフィルタリング部と、
変換元のシーケンスデータから変換先のシーケンスデータを推論する第２モデルを用いて、前記フィルタリング部によって生成された前記入力フィルタリングデータから出力データを推論するフィルタリングデータ推論部と
を備え、
前記フィルタリング部は、フィルタリングして除いた要素に特殊トークンを付与し、
さらに、指定された前記特殊トークンを元の要素に戻すフィルタリング修正部
を備える推論装置。
前記フィルタリング部は、
前記複数の要素それぞれの前記スコアを計算するスコア計算部と、
前記入力データに含まれる前記複数の要素の並び順に従い前記スコア計算部によって計算された前記スコアを並べた場合に、前記スコアの変化量が大きい要素の近傍の要素が除かれ難くなるようにフィルタリング方法を調整するフィルタリング調整部と、
前記フィルタリング調整部によって調整された前記フィルタリング方法に従いフィルタリングするフィルタリング実行部と
を備える請求項８又は９に記載の推論装置。
前記フィルタリング部は、
前記複数の要素それぞれの前記スコアを計算するスコア計算部と、
前記スコア計算部によって計算された前記スコアに対して、前記スコアとは別の情報により重み付けして、前記スコアを調整するスコア調整部と、
前記スコア調整部によって調整された前記スコアに基づきフィルタリングするフィルタリング実行部と
を備える請求項８又は９に記載の推論装置。
前記第２モデルは、変換元のシーケンスデータである教師元データと変換先のシーケンスデータである教師先データとを含む第１教師データにおける前記教師元データに含まれる前記複数の要素をフィルタリングして生成された教師元フィルタリングデータと前記教師先データとを含む第２教師データを入力として、パラメータが学習されることにより得られた
請求項８又は９に記載の推論装置。
前記第２モデルは、複数の割合それぞれを対象の割合として、前記教師元データに含まれる要素から前記対象の割合の要素を除くようにフィルタリングして、前記対象の割合に対応する前記教師元フィルタリングデータが生成され、前記複数の割合それぞれに対応する前記教師元フィルタリングデータを前記割合が低い方から順に対象の教師元フィルタリングデータとし、前記対象の教師元フィルタリングデータと前記教師先データとを含む教師データを入力として、パラメータが学習されることにより得られた
請求項１２に記載の推論装置。
前記第２モデルは、前記第１モデルにおける注意機構による計算結果から得られるスコアと前記第２モデルにおける注意機構による計算結果から得られるスコアとが近くなるように、パラメータが学習されることにより得られた
請求項１２に記載の推論装置。
前記フィルタリング部は、前記入力フィルタリングデータが指定長さよりも長い場合には、前記入力フィルタリングデータを分割して得られた複数の分割データそれぞれを対象の分割データとして、前記対象の分割データに含まれる要素をフィルタリングして、前記対象の分割データに対応する分割フィルタリングデータを新たに生成し、
前記フィルタリングデータ結合部は、新たに生成された前記分割フィルタリングデータを結合して、前記入力フィルタリングデータを新たに生成する
請求項８に記載の推論装置。
コンピュータが、変換元のシーケンスデータから変換先のシーケンスデータを推論する第１モデルにおける注意機構を用いて、変換元のシーケンスデータである教師元データと変換先のシーケンスデータである教師先データとを含む第１教師データにおける前記教師元データに含まれる複数の要素それぞれのスコアを計算し、前記複数の要素それぞれのスコアに基づき、前記教師元データに含まれる前記複数の要素をフィルタリングして教師元フィルタリングデータを生成し、
コンピュータが、前記教師元フィルタリングデータと前記教師先データとを含む第２教師データを入力として、前記教師元フィルタリングデータから前記教師先データに変換する第２モデルのパラメータを学習し、
コンピュータが、前記教師元データを分割して得られた複数の分割データそれぞれを対象の分割データとして、前記対象の分割データに含まれる要素をフィルタリングして、前記対象の分割データに対応する分割フィルタリングデータを生成し、
コンピュータが、前記複数の分割データそれぞれに対応する前記分割フィルタリングデータを結合して、前記教師元フィルタリングデータを生成する学習方法。
コンピュータが、変換元のシーケンスデータから変換先のシーケンスデータを推論する第１モデルにおける注意機構を用いて、変換元のシーケンスデータである教師元データと変換先のシーケンスデータである教師先データとを含む第１教師データにおける前記教師元データに含まれる複数の要素それぞれのスコアを計算し、前記複数の要素それぞれのスコアに基づき、前記教師元データに含まれる前記複数の要素をフィルタリングして教師元フィルタリングデータを生成し、
コンピュータが、前記教師元フィルタリングデータと前記教師先データとを含む第２教師データを入力として、前記教師元フィルタリングデータから前記教師先データに変換する第２モデルのパラメータを学習し、
コンピュータが、フィルタリングして除いた要素に特殊トークンを付与し、
コンピュータが、指定された前記特殊トークンを元の要素に戻す学習方法。
変換元のシーケンスデータから変換先のシーケンスデータを推論する第１モデルにおける注意機構を用いて、変換元のシーケンスデータである教師元データと変換先のシーケンスデータである教師先データとを含む第１教師データにおける前記教師元データに含まれる複数の要素それぞれのスコアを計算し、前記複数の要素それぞれのスコアに基づき、前記教師元データに含まれる前記複数の要素をフィルタリングして教師元フィルタリングデータを生成するフィルタリング処理と、
前記フィルタリング処理によって生成された前記教師元フィルタリングデータと前記教師先データとを含む第２教師データを入力として、前記教師元フィルタリングデータから前記教師先データに変換する第２モデルのパラメータを学習するフィルタリングデータ学習処理と
を行い、
前記フィルタリング処理では、前記教師元データを分割して得られた複数の分割データそれぞれを対象の分割データとして、前記対象の分割データに含まれる要素をフィルタリングして、前記対象の分割データに対応する分割フィルタリングデータを生成し、
さらに、前記複数の分割データそれぞれに対応する前記分割フィルタリングデータを結合して、前記教師元フィルタリングデータを生成するフィルタリングデータ結合処理
を行う学習装置としてコンピュータを機能させる学習プログラム。
変換元のシーケンスデータから変換先のシーケンスデータを推論する第１モデルにおける注意機構を用いて、変換元のシーケンスデータである教師元データと変換先のシーケンスデータである教師先データとを含む第１教師データにおける前記教師元データに含まれる複数の要素それぞれのスコアを計算し、前記複数の要素それぞれのスコアに基づき、前記教師元データに含まれる前記複数の要素をフィルタリングして教師元フィルタリングデータを生成するフィルタリング処理と、
前記フィルタリング処理によって生成された前記教師元フィルタリングデータと前記教師先データとを含む第２教師データを入力として、前記教師元フィルタリングデータから前記教師先データに変換する第２モデルのパラメータを学習するフィルタリングデータ学習処理と
を行い、
前記フィルタリング処理では、フィルタリングして除いた要素に特殊トークンを付与し、
さらに、指定された前記特殊トークンを元の要素に戻すフィルタリング修正処理
を行う学習装置としてコンピュータを機能させる学習プログラム。
コンピュータが、変換元のシーケンスデータから変換先のシーケンスデータを推論する第１モデルにおける注意機構を用いて、変換元のシーケンスデータである入力データに含まれる複数の要素それぞれのスコアを計算し、前記複数の要素それぞれのスコアに基づき、前記入力データに含まれる前記複数の要素をフィルタリングして入力フィルタリングデータを生成し、
コンピュータが、変換元のシーケンスデータから変換先のシーケンスデータを推論する第２モデルを用いて、前記入力フィルタリングデータから出力データを推論し、
コンピュータが、前記入力データを分割して得られた複数の分割データそれぞれを対象の分割データとして、前記対象の分割データに含まれる要素をフィルタリングして、前記対象の分割データに対応する分割フィルタリングデータを生成し、
コンピュータが、前記複数の分割データそれぞれに対応する前記分割フィルタリングデータを結合して、前記入力フィルタリングデータを生成する推論方法。
コンピュータが、変換元のシーケンスデータから変換先のシーケンスデータを推論する第１モデルにおける注意機構を用いて、変換元のシーケンスデータである入力データに含まれる複数の要素それぞれのスコアを計算し、前記複数の要素それぞれのスコアに基づき、前記入力データに含まれる前記複数の要素をフィルタリングして入力フィルタリングデータを生成し、
コンピュータが、変換元のシーケンスデータから変換先のシーケンスデータを推論する第２モデルを用いて、前記入力フィルタリングデータから出力データを推論し、
コンピュータが、フィルタリングして除いた要素に特殊トークンを付与し、
コンピュータが、指定された前記特殊トークンを元の要素に戻す推論方法。
変換元のシーケンスデータから変換先のシーケンスデータを推論する第１モデルにおける注意機構を用いて、変換元のシーケンスデータである入力データに含まれる複数の要素それぞれのスコアを計算し、前記複数の要素それぞれのスコアに基づき、前記入力データに含まれる前記複数の要素をフィルタリングして入力フィルタリングデータを生成するフィルタリング処理と、
変換元のシーケンスデータから変換先のシーケンスデータを推論する第２モデルを用いて、前記フィルタリング処理によって生成された前記入力フィルタリングデータから出力データを推論するフィルタリングデータ推論処理と
を行い、
前記フィルタリング処理では、前記入力データを分割して得られた複数の分割データそれぞれを対象の分割データとして、前記対象の分割データに含まれる要素をフィルタリングして、前記対象の分割データに対応する分割フィルタリングデータを生成し、
さらに、前記複数の分割データそれぞれに対応する前記分割フィルタリングデータを結合して、前記入力フィルタリングデータを生成するフィルタリングデータ結合処理
を行う推論装置としてコンピュータを機能させる推論プログラム。
変換元のシーケンスデータから変換先のシーケンスデータを推論する第１モデルにおける注意機構を用いて、変換元のシーケンスデータである入力データに含まれる複数の要素それぞれのスコアを計算し、前記複数の要素それぞれのスコアに基づき、前記入力データに含まれる前記複数の要素をフィルタリングして入力フィルタリングデータを生成するフィルタリング処理と、
変換元のシーケンスデータから変換先のシーケンスデータを推論する第２モデルを用いて、前記フィルタリング処理によって生成された前記入力フィルタリングデータから出力データを推論するフィルタリングデータ推論処理と
を行い、
前記フィルタリング処理は、フィルタリングして除いた要素に特殊トークンを付与し、
さらに、指定された前記特殊トークンを元の要素に戻すフィルタリング修正処理
を行う推論装置としてコンピュータを機能させる推論プログラム。