JP7745822B1 - 学習装置、学習方法、学習プログラム、推論装置、推論方法及び推論プログラム - Google Patents
学習装置、学習方法、学習プログラム、推論装置、推論方法及び推論プログラムInfo
- Publication number
- JP7745822B1 JP7745822B1 JP2025542382A JP2025542382A JP7745822B1 JP 7745822 B1 JP7745822 B1 JP 7745822B1 JP 2025542382 A JP2025542382 A JP 2025542382A JP 2025542382 A JP2025542382 A JP 2025542382A JP 7745822 B1 JP7745822 B1 JP 7745822B1
- Authority
- JP
- Japan
- Prior art keywords
- data
- teacher
- filtering
- source
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
Description
以下、マルチヘッド注意機構又はマスク付きマルチヘッド注意機構と全結合層との組み合わせを1つの層とみなし、Transformer層と呼ぶ。
本開示は、生成結果の品質を保ちつつ、入力シーケンスの長さを適切に調整可能にすることを目的とする。
変換元のシーケンスデータから変換先のシーケンスデータを推論する第1モデルにおける注意機構を用いて、変換元のシーケンスデータである教師元データと変換先のシーケンスデータである教師先データとを含む第1教師データにおける前記教師元データに含まれる複数の要素それぞれのスコアを計算し、前記複数の要素それぞれのスコアに基づき、前記教師元データに含まれる前記複数の要素をフィルタリングして教師元フィルタリングデータを生成するフィルタリング部と、
前記フィルタリング部によって生成された前記教師元フィルタリングデータと前記教師先データとを含む第2教師データを入力として、前記教師元フィルタリングデータから前記教師先データに変換する第2モデルのパラメータを学習するフィルタリングデータ学習部と
を備える。
***構成の説明***
図1を参照して、実施の形態1に係る学習推論装置10のハードウェア構成を説明する。
学習推論装置10は、コンピュータである。
学習推論装置10は、プロセッサ11と、メモリ12と、入力装置13と、表示装置14と、外部インタフェース15と、通信インタフェース16とのハードウェアを備える。プロセッサ11は、信号線を介して他のハードウェアと接続され、これら他のハードウェアを制御する。
学習推論装置10は、入力装置13と表示装置14との少なくとも一方を備えていなくてもよい。
記録媒体17は、具体例としては、SD(登録商標)メモリカード、CompactFlash(登録商標)、NANDフラッシュ、フレキシブルディスク、光ディスク、コンパクトディスク、Blu-ray(登録商標)ディスク、DVDといった可搬記録媒体であってもよい。SDは、Secure Digitalの略である。DVDは、Digital Versatile Diskの略である。
学習推論装置10は、機能構成要素として、通常データ学習部21と、フィルタリング部22と、フィルタリングデータ学習部23と、フィルタリングデータ推論部24とを備える。フィルタリング部22は、スコア計算部221と、フィルタリング実行部222とを備える。学習推論装置10の各機能構成要素の機能はソフトウェアにより実現される。
なお、学習推論装置10の各機能構成要素の機能を実現するプログラムは、記録媒体17に格納されていてもよい。この場合には、プロセッサ11は、外部インタフェース15を介して、記録媒体17からプログラムを読み込み、実行する。また、学習推論装置10の各機能構成要素の機能を実現するプログラムは、外部のサーバ等に格納されていてもよい。この場合には、プロセッサ11は、通信インタフェース16を介して、サーバ等からプログラムを読み込み、実行する。
図3から図10を参照して、実施の形態1に係る学習推論装置10の動作を説明する。
学習推論装置10の動作には、学習フェーズと、推論フェーズとが含まれる。
実施の形態1に係る学習推論装置10の学習フェーズの動作手順は、実施の形態1に係る学習方法に相当する。また、実施の形態1に係る学習推論装置10の学習フェーズの動作を実現するプログラムは、実施の形態1に係る学習プログラムに相当する。
実施の形態1に係る学習推論装置10の推論フェーズの動作手順は、実施の形態1に係る推論方法に相当する。また、実施の形態1に係る学習推論装置10の推論フェーズの動作を実現するプログラムは、実施の形態1に係る推論プログラムに相当する。
実施の形態1で対象とするエンコーダデコーダモデルは、注意機構と全結合層とを組み合わせてエンコーダを並列化したエンコーダデコーダモデルであるTransformerである。Transformerは、マルチヘッド注意機構又はマスク付きマルチヘッド注意機構と全結合層との組合せを積み重ねることによって、エンコーダ及びデコーダを構成する。
(ステップS11:通常データ学習処理)
通常データ学習部21は、第1教師データ31を入力として、第1モデル41のパラメータを学習する。
第1モデル41は、変換元のシーケンスデータから変換先のシーケンスデータを推論するエンコーダデコーダモデルである。ここでは、第1モデル41は、Transformerである。Transformerであるため、第1モデル41は、注意機構を有する。学習対象となる第1モデル41のパラメータは、エンコーダデコーダモデルの学習対象のパラメータである。
第1教師データ31は、エンコーダデコーダモデルが入出力することができる任意のシーケンスデータである。第1教師データ31は、変換元のシーケンスデータである教師元データ311と変換先のシーケンスデータである教師先データ312とを含むデータ構造である。
第1教師データ31は、例えば、機械翻訳用のデータである。この場合には、変換元のシーケンスデータである教師元データ311は、翻訳元言語の単語のシーケンスである。単語のシーケンスとは、文又は句である。変換後のシーケンスデータである教師先データ312は、翻訳元言語の翻訳先言語への変換結果である。つまり、教師先データ312は、翻訳元言語の単語のシーケンスと同じ意味を表す翻訳先言語の単語のシーケンスである。
フィルタリング部22は、ステップS11の学習により得られた第1モデル41のパラメータを用いて、第1教師データ31に含まれる教師元データ311をフィルタリングする。教師元データ311をフィルタリングするとは、教師元データ311に含まれる複数の要素のうち一部の要素を除くことである。第1教師データ31が機械翻訳用のデータである場合には、教師元データ311に含まれる複数の要素とは、教師元データ311を構成する複数の単語である。これにより、フィルタリング部22は、教師元データ311から一部の要素が除かれた教師元フィルタリングデータ321を生成する。
図5に示す各マスが教師元データ311に含まれる要素であるとする。フィルタリング部22は、教師元データ311に含まれる要素のうち、×が付けられた一部の要素を除く。これにより、フィルタリング部22は、教師元データ311から教師元フィルタリングデータ321を生成する。図5では、教師元データ311に含まれる要素のうち50%の要素が除かれ、教師元フィルタリングデータ321が生成されている。
そして、フィルタリング部22は、教師元フィルタリングデータ321と教師先データ312とを含む第2教師データ32を生成する。
フィルタリングデータ学習部23は、ステップS12で生成された第2教師データ32を入力として、第2モデル42のパラメータを学習する。
第2モデル42は、変換元のシーケンスデータから変換先のシーケンスデータを推論するエンコーダデコーダモデルである。ここでは、第2モデル42は、Transformerである。学習対象となる第2モデル42のパラメータは、エンコーダデコーダモデルの学習対象のパラメータである。パラメータの学習に用いる最適化手法としては、任意の最適化手法を用いればよい。例えば、最適化手法として、Adamを用いることが考えられる。Adamは、ADAptive Momentの略である。
フィルタリングデータ学習部23は、学習して得られた第2モデル42のパラメータをメモリ12に書き込む。あるいは、フィルタリングデータ学習部23は、パラメータを記録媒体17又は外部のサーバ又は表示装置14に出力してもよい。
(ステップS21:スコア計算処理)
スコア計算部221は、第1モデル41における注意機構を用いて、教師元データ311に含まれる複数の要素それぞれのスコアを計算する。
具体的には、スコア計算部221は、第1モデル41の注意機構であるAttentiond,l,h,iを用いて、複数の要素それぞれのスコアを計算する。Attentionは、デコーダのマルチヘッド注意機構で計算されるCross-Attentionである。つまり、スコア計算部221は、デコーダの出力シーケンスを生成する際に計算される、エンコーダの入力シーケンスにおける複数の要素それぞれに対するAttentionをスコアとして計算する。言い換えると、スコア計算部221は、エンコーダの入力シーケンスにおける複数の要素それぞれに対する第1モデル41の内部状態をスコアとして計算する。ここでは、エンコーダの入力シーケンスは、教師元データ311である。
スコア計算部221は、各iについて、d,l,hについてのAttentiond,l,h,iの最大値を計算することにより、要素iについてのスコアSiを計算する。つまり、Si=MaxAttention(i)=maxd,l,h(Attentiond,l,h,i)である。
なお、ここでは、スコア計算部221は、Attentiond,l,h,iの最大値を計算するとしたが、最大値以外の統計値を計算してもよい。また、スコア計算部221は、全てのd,l,hを用いてスコアを計算してもよいが、特定のd,l,hのみを用いてスコアを計算してもよい。また、スコア計算部221は、ビームサーチ等の一般的なデコーディングを用いて複数のデコーダの出力シーケンスを生成することにより複数のスコアを取得し、複数のスコアから最大値を抽出して最終的なスコアとして計算してもよい。なお、最大値ではなく、他の方法により複数のスコアから抽出したスコアを最終的なスコアとしてもよい。
また、スコア計算部221は、スコアを教師信号とした系列ラベリングモデルを別途用意し、系列ラベリングモデルでエンコーダの入力シーケンスにおける複数の要素それぞれのスコアを推定してもよい。
図7に示すように、通常のデコーディングは、モデルの予測を次の予測のための入力とする。モデルの予測とは、モデルが1つ前に出力した要素である。
図7では、まずBOSがデコーダに与えられて、出力1が得られる。BOSは、Begin Of Sentenceの略である。次に、BOSと出力1とがデコーダに与えられて、出力2が得られる。そして、BOSと出力1と出力2とがデコーダに与えられて、EOSが得られる。EOSは、End Of Sentenceの略である。
これに対して、図8に示すように、Teacher Forcing Decodingは、目標とする出力シーケンスを直接モデルに提供する。つまり、Teacher Forcing Decodingは、通常のデコーディングと違い、モデルが予測した結果を用いない。
図8では、目標とする出力シーケンスとして、BOS+正解1+正解2+EOSが与えられている。まず、まずBOSがデコーダに与えられて、出力1が得られる。次に、BOSと正解1とがデコーダに与えられて、出力2が得られる。そして、BOSと正解1と正解2とがデコーダに与えられて、EOSが得られる。
フィルタリング実行部222は、ステップS21で計算されたスコアに基づき、教師元データ311に含まれる要素をフィルタリングして、教師元フィルタリングデータ321を生成する。
具体的には、図9に示すように、フィルタリング実行部222は、教師元データ311に含まれる要素のうち、スコアが低い方から基準割合の要素を除いて、教師元フィルタリングデータ321を生成する。図9では、教師元データ311に4つの要素が含まれており、基準割合が50%である。そこで、フィルタリング実行部222は、4つの要素のうち、スコアが低い方から2つの要素を除いて、教師元フィルタリングデータ321を生成する。その結果、教師元データ311に含まれる入力1~入力4のうち、スコアが低い入力2と入力4とが除かれ、入力1と入力3とを含む教師元フィルタリングデータ321が生成される。
また、フィルタリング実行部222は、異なる割合で教師元データ311をフィルタリングしたデータを組み合わせて教師元フィルタリングデータ321としてもよい。例えば、フィルタリング実行部222は、教師元データ311から10%を除いたデータと、教師元データ311から30%を除いたデータと、教師元データ311から50%を除いたデータとを組み合わせて教師元フィルタリングデータ321としてもよい。
(ステップS31:フィルタリング処理)
フィルタリング部22は、ステップS11の学習により得られた第1モデル41のパラメータを用いて、入力データ33をフィルタリングする。入力データ33は、エンコーダデコーダモデルが入出力することができる任意のシーケンスデータである。これにより、フィルタリング部22は、入力フィルタリングデータを生成する。
入力データ33をフィルタリングする処理は、図4のステップS12で教師元データ311をフィルタリングする処理と同じである。つまり、教師元データ311がフィルタリングされて教師元フィルタリングデータ321が生成される処理と同様の処理によって、入力データ33がフィルタリングされて入力フィルタリングデータが生成される。
フィルタリングデータ推論部24は、第2モデル42を用いて、ステップS31で生成された入力フィルタリングデータから出力データ34を推論する。第2モデル42を用いてとは、学習フェーズで生成された第2モデル42のパラメータを用いてと言う意味である。
フィルタリングデータ推論部24は、推論された出力データ34をメモリ12に書き込む。あるいは、フィルタリングデータ推論部24は、出力データ34を記録媒体17又は外部のサーバ又は表示装置14に出力してもよい。
以上のように、実施の形態1に係る学習推論装置10は、注意機構を用いて変換元のシーケンスデータに含まれる複数の要素それぞれのスコアを計算し、複数の要素をフィルタリングする。注意機構を用いて計算したスコアは、貢献度合いが高い要素ほど高い値になる。そのため、注意機構を用いて計算したスコアによりフィルタリングすることで、生成結果の品質を保ちつつ、変換元のシーケンスデータの長さを適切に調整可能にすることが可能になる。変換元のシーケンスデータとは、教師元データ311と入力データ33とのことである。
複数の業務又は複数のシステムにエンコーダデコーダモデルを用いた処理を横展開するといった場合がある。この場合には、第1モデル41のための高性能な計算機環境を1か所に集中させ、展開先には第2モデル42のための低性能な計算機環境を用意することが考えられる。
なお、第1モデル41はできてしまえば、第2モデル42のパラメータを学習する際に、図4のステップS11の通常データ学習処理は必要ない。つまり、第1モデル41はできてしまえば、第2モデル42のパラメータを学習する際には、図4のステップ11をスキップしてステップS12から処理を行えばよい。そのため、高性能な計算機環境で第1モデル41を用意しておき、展開先の低性能な計算機環境で、その展開先用の第2モデル42のパラメータを学習すればよい。
<変形例1>
実施の形態1では、学習フェーズを行う機能と、推論フェーズを行う機能との両方を1つの学習推論装置10が備えている例を説明した。しかし、学習推論装置10は、学習フェーズを行う機能のみを有している構成であってもよい。学習フェーズを行う機能のみを有している構成の学習推論装置10を学習装置101と呼ぶ。また、学習推論装置10は、推論フェーズを行う機能のみを有している構成であってもよい。推論フェーズを行う機能のみを有している構成の学習推論装置10を推論装置102と呼ぶ。
具体的には、学習装置101は、図11に示すように、学習推論装置10が備える機能構成要素のうち、フィルタリングデータ推論部24を備えず、通常データ学習部21とフィルタリング部22とフィルタリングデータ学習部23とを備えている。また、推論装置102は、図12に示すように、学習推論装置10が備える機能構成要素のうち、通常データ学習部21とフィルタリングデータ学習部23とを備えず、フィルタリング部22とフィルタリングデータ推論部24とを備えている。
実施の形態1では、第1教師データ31は、具体例として機械翻訳用のデータであるとした。しかし、第1教師データ31は、シーケンスデータであれば、これに限らず他のデータであってもよい。なお、第2教師データ32は、第1教師データ31の教師元データ311がフィルタリングされたデータであるから、第1教師データ31と同じ種類のデータである。また、入力データ33及び出力データ34の組も、第1教師データ31と同じ種類のデータである。
(例2)第1教師データ31は、自然言語処理用のデータでる。教師元データ311は、質問を意味する単語のシーケンスである。そして、教師先データ312は、質問への回答を意味する単語のシーケンスである。
(例3)第1教師データ31は、音声認識用のデータでる。教師元データ311は、人間の口頭での発話を表す音声データのシーケンスである。そして、教師先データ312は、発話内容を表す、音素、特徴量、又は単語のシーケンスである。
(例4)第1教師データ31は、画像処理用のデータでる。教師元データ311は、画像、つまり画像に含まれる色及び明度等のシーケンスである。そして、教師先データ312は、画像を説明するテキストのシーケンスである。
(例5)第1教師データ31は、異常検知用のデータでる。教師元データ311は、特定のセンサで取得されたデータのシーケンスである。そして、教師先データ312は、正常又は異常を表すテキストのシーケンスである。
(例6)第1教師データ31は、異常予測用のデータでる。教師元データ311は、特定のセンサで取得されたデータのシーケンスである。そして、教師先データ312は、未来の異常発生の可能性を表すテキストのシーケンスである。
(例7)第1教師データ31は、需要予測用のデータでる。教師元データ311は、任意の期間における製品販売数に関するデータのシーケンスである。そして、教師先データ312は、未来の製品需要を表すテキストのシーケンスである。
実施の形態1で対象とするエンコーダデコーダモデルは、Transformerであるとした。Transformerの例としては、BERTと、GPTと、T5と等がある。
BERTは、文献:Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.に記載されている。
GPTは、文献:Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). Improving language understanding by generative pre-training.
T5は、文献:Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., ... & Liu, P. J. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. The Journal of Machine Learning Research, 21(1), 5485-5551.に記載されている。
実施の形態1では、各機能構成要素がソフトウェアで実現された。しかし、変形例4として、各機能構成要素はハードウェアで実現されてもよい。この変形例4について、実施の形態1と異なる点を説明する。
各機能構成要素を1つの電子回路で実現してもよいし、各機能構成要素を複数の電子回路に分散させて実現してもよい。
変形例5として、一部の各機能構成要素がハードウェアで実現され、他の各機能構成要素がソフトウェアで実現されてもよい。
実施の形態2は、入力シーケンスに含まれる複数の要素の並び順に従いスコアを並べた場合に、スコアの変化量が大きい要素に近い要素が除かれ難くなるようにフィルタリング方法を調整する点が実施の形態1と異なる。実施の形態2では、この異なる点を説明し、同一の点については説明を省略する。
図13を参照して、実施の形態2に係る学習推論装置10の構成を説明する。
学習推論装置10は、機能構成要素として、フィルタリング調整部223を備える点が図2に示す学習推論装置10と異なる。フィルタリング調整部223の機能は、他の機能構成要素と同様に、ソフトウェア又はハードウェアによって実現される。
図14を参照して、実施の形態2に係るフィルタリング処理を説明する。
ここでは、図4のステップS12のフィルタリング処理を説明する。しかし、図10のステップS31のフィルタリング処理についても同様である。図4のステップS12では、教師元データ311がフィルタリングされて教師元フィルタリングデータ321が生成されるが、図10のステップS31では、入力データ33がフィルタリングされて入力フィルタリングデータが生成される点が異なる。
フィルタリング調整部223は、教師元データ311に含まれる複数の要素の並び順に従いステップS41で計算されたスコアを並べた場合に、スコアの変化量が大きい要素に近い要素が除かれ難くなるようにフィルタリング方法を調整する。つまり、フィルタリング調整部223は、スコアの変化が急峻な要素の前後の要素が除かれ難くなるようにフィルタリング方法を調整する。
具体的には、フィルタリング調整部223は、スコアの変化量が大きい要素の前後ほど広い範囲の要素が除かれずに残るように調整する。例えば、フィルタリング調整部223は、各要素についてスコアの移動平均を計算する。この際、フィルタリング調整部223は、スコアの変化量が大きい要素の前後ほど移動平均を計算する範囲を広くする。そして、フィルタリング調整部223は、フィルタリング実行部222に対して、移動平均の値により要素をフィルタリングさせる。これにより、フィルタリング調整部223は、スコアの変化量に応じてフィルタリングに用いる値を平滑化する。その結果、スコアの変化量が大きい要素に近い要素が除かれ難くなるようになる。
フィルタリング実行部222は、ステップS42で調整されたフィルタリング方法に従いフィルタリングする。
例えば、ステップS42で説明したように、各要素についてスコアの移動平均が計算された場合には、フィルタリング実行部222は、各要素の移動平均が低い方から基準割合の要素を除いて、教師元フィルタリングデータ321を生成する。
以上のように、実施の形態2に係る学習推論装置10は、スコアの変化量が大きい要素に近い要素が除かれ難くなるようにフィルタリング方法を調整する。
スコアの変化量が大きい要素に近い要素が除かれてしまうと、スコアが高い要素の前後の要素が削除されてしまい、必要以上にコンテキストが失われる可能性がある。実施の形態2に係る学習推論装置10は、スコアが高い要素の前後の要素が削除されることを防止できるので、必要以上にコンテキストが失われることを防ぐことができる。これにより、生成結果の品質劣化を防ぐことができる。
実施の形態3は、スコアに対して、スコアとは別の情報により重み付けして、前記スコアを調整する点が実施の形態1,2と異なる。実施の形態3では、この異なる点を説明し、同一の点については説明を省略する。
実施の形態3では、実施の形態1に機能を加えた場合について説明する。しかし、実施の形態2に機能を加えることも可能である。
図15を参照して、実施の形態3に係る学習推論装置10の構成を説明する。
学習推論装置10は、機能構成要素として、スコア調整部224を備える点が図2に示す学習推論装置10と異なる。スコア調整部224の機能は、他の機能構成要素と同様に、ソフトウェア又はハードウェアによって実現される。
図16を参照して、実施の形態3に係るフィルタリング処理を説明する。
ここでは、図4のステップS12のフィルタリング処理を説明する。しかし、図10のステップS31のフィルタリング処理についても同様である。図4のステップS12では、教師元データ311がフィルタリングされて教師元フィルタリングデータ321が生成されるが、図10のステップS31では、入力データ33がフィルタリングされて入力フィルタリングデータが生成される点が異なる。
スコア調整部224は、ステップS41で計算されたスコアに対して、スコアとは別の情報により重み付けして、スコアを調整する。
別の情報は、例えば、ユーザによって定義された要素毎の重み情報である。別の情報は、TF-IDF等の統計情報であってもよい。TF-IDFは、Term Frequency-Inverse Document Frequencyの略である。
図17の例1に示すように、スコア調整部224は、スコアと別の情報とを用いて、加算又は乗算のような基本的な演算によって重み付けを行い、スコアを調整する。図17の例1では、スコアと別の情報である重みとを加算してスコアが調整されている。また、図17の例2に示すように、スコア調整部224は、閾値を超える重みが与えられた要素については、スコアに関係なくフィルタリングされないようにスコアを調整してもよい。図17の例2では、別の情報である重みが閾値2.0を超える要素についてはフィルタリングされないように∞の値がスコアに設定されている。
フィルタリング実行部222は、ステップS52で調整されたスコアに基づきフィルタリングする。
以上のように、実施の形態3に係る学習推論装置10は、スコアに対して、スコアとは別の情報により重み付けして、前記スコアを調整する。これにより、入力シーケンスにおける各要素のスコアのみで生じる意図しないコンテキストの消失を防止できる。これにより、生成結果の品質劣化を防ぐことができる。
実施の形態4は、フィルタリングする要素の割合を難易度としたカリキュラム学習をすることで、モデルを安定的に学習する点が実施の形態1~3と異なる。実施の形態4では、この異なる点を説明し、同一の点については説明を省略する。
実施の形態4では、実施の形態1に機能を加えた場合について説明する。しかし、実施の形態2,3に機能を加えることも可能である。
図4を参照して、実施の形態4に係る学習フェーズの処理を説明する。
ステップS11の処理は、実施の形態1と同じである。
フィルタリング部22は、ステップS11の学習により得られた第1モデル41のパラメータを用いて、第1教師データ31に含まれる教師元データ311をフィルタリングする。
この際、フィルタリング部22は、複数の割合それぞれを対象の割合に設定する。そして、フィルタリング部22は、教師元データ311に含まれる要素から対象の割合の要素を除くようにフィルタリングして、対象の割合に対応する教師元フィルタリングデータ321を生成する。そして、フィルタリング部22は、対象の割合に対応する教師元フィルタリングデータ321と教師先データ312とを含む第2教師データ32を生成する。
例えば、フィルタリング部22は、50%と70%と90%とのそれぞれを対象の割合に設定する。そして、フィルタリング部22は、教師元データ311に含まれる要素から50%の要素を除くようにフィルタリングして、50%に対応する教師元フィルタリングデータ321を生成する。また、フィルタリング部22は、教師元データ311に含まれる要素から70%の要素を除くようにフィルタリングして、70%に対応する教師元フィルタリングデータ321を生成する。また、フィルタリング部22は、教師元データ311に含まれる要素から90%の要素を除くようにフィルタリングして、90%に対応する教師元フィルタリングデータ321を生成する。
フィルタリングデータ学習部23は、複数の割合それぞれに対応する教師元フィルタリングデータ321を割合が低い方から順に対象の教師元フィルタリングデータ321に設定する。そして、フィルタリングデータ学習部23は、対象の教師元フィルタリングデータ321と教師先データ312とを含む第2教師データ32を入力として、対象の教師元フィルタリングデータ321から教師先データ312に変換する第2モデル42のパラメータを学習する。
例えば、50%と70%と90%とについての第2教師データ32が生成されているとする。この場合には、図18に示すように、まず、フィルタリングデータ学習部23は、50%に対応する第2教師データ32により第2モデル42のパラメータを学習する。次に、フィルタリングデータ学習部23は、70%に対応する第2教師データ32により第2モデル42のパラメータを学習する。そして、フィルタリングデータ学習部23は、90%に対応する第2教師データ32により第2モデル42のパラメータを学習する。
以上のように、実施の形態4に係る学習推論装置10は、フィルタリングする要素の割合を難易度としたカリキュラム学習をする。これにより、フィルタリングによって生じた、フィルタリング前の教師元データ311との差異を段階的に学習できる。そのため、安定して第2モデル42のパラメータの学習を行うことができる。
実施の形態5は、第1モデル41における注意機構による計算結果から得られるスコアと第2モデル42における注意機構による計算結果から得られるスコアとが近くなるように、第2モデルのパラメータを学習する点が実施の形態1~4と異なる。実施の形態5では、この異なる点を説明し、同一の点については説明を省略する。
実施の形態5では、実施の形態1に機能を加えた場合について説明する。しかし、実施の形態2~4に機能を加えることも可能である。
図4を参照して、実施の形態5に係る学習フェーズの処理を説明する。
ステップS11及びステップS12の処理は、実施の形態1と同じである。
フィルタリングデータ学習部23は、第1モデル41における注意機構による計算結果から得られるスコアと第2モデル42における注意機構による計算結果から得られるスコアとが近くなるように、第2モデル42のパラメータを学習する。
具体的には、フィルタリングデータ学習部23は、第2モデル42を学習する際に用いられる損失関数に、第1モデル41における注意機構による計算結果から得られるスコアと第2モデル42における注意機構による計算結果から得られるスコアとの差又は類似度を導入する。ここで、第1モデル41における注意機構による計算結果から得られるスコアは、ステップS21で計算されるスコアである。つまり、第1モデル41における注意機構による計算結果から得られるスコアは、第1モデル41の注意機構であるAttentionにより得られるスコアである。第2モデル42における注意機構による計算結果から得られるスコアは、ステップS21で説明した方法により計算されるスコアである。つまり、第2モデル42における注意機構による計算結果から得られるスコアは、第2モデル42の注意機構であるAttentionにより得られるスコアである。
(式1)
MSE=(1/N)Σi=1 N(Ai-Bi)2
ここで、NはAttentionの要素数を示す。Aは第1モデル41のAttentionを示す。Bは第2モデル42のAttentionを示す。
ここでのAttentionは、デコーダのマルチヘッド注意機構で計算されるCross-Attentionでもよいし、エンコーダのマルチヘッド注意機構で計算されるSelf-Attentionでもよい。また、ここでのAttentionは、Cross-AttentionとSelf-Attentionとを組み合わせたものであってもよい。
以上のように、実施の形態5に係る学習推論装置10は、第1モデル41のスコアと第2モデル42のスコアとが近くなるように、第2モデルのパラメータを学習する。これにより、フィルタリングの結果だけでなく、フィルタリングに用いられた第1モデル41の内部状態も教師データとして第2モデル42を学習できる。そのため、安定して学習を進めることができる。
実施の形態6は、教師元データ311を任意の長さ単位でフィルタリングして得られた結果を結合して教師先データ312を生成する点が実施の形態1~5と異なる。実施の形態6では、この異なる点を説明し、同一の点については説明を省略する。
実施の形態6では、実施の形態1に機能を加えた場合について説明する。しかし、実施の形態2~5に機能を加えることも可能である。
図19を参照して、実施の形態6に係る学習推論装置10の構成を説明する。
学習推論装置10は、機能構成要素として、フィルタリングデータ結合部225を備える点が図2に示す学習推論装置10と異なる。フィルタリングデータ結合部225の機能は、他の機能構成要素と同様に、ソフトウェア又はハードウェアによって実現される。
図20を参照して、実施の形態6に係るフィルタリング処理を説明する。
ここでは、図4のステップS12のフィルタリング処理を説明する。しかし、図10のステップS31のフィルタリング処理についても同様である。図4のステップS12では、教師元データ311がフィルタリングされて教師元フィルタリングデータ321が生成されるが、図10のステップS31では、入力データ33がフィルタリングされて入力フィルタリングデータが生成される点が異なる。
図21に示すように、フィルタリング実行部222は、教師元データ311を分割して得られた複数の分割データ35それぞれを対象の分割データ35に設定する。フィルタリング実行部222は、対象の分割データ35に含まれる要素をフィルタリングして、対象の分割データ35に対応する分割フィルタリングデータ36を生成する。
図21では、フィルタリング実行部222は、教師元データ311を2つに分割して2つの分割データ35を生成している。そして、フィルタリング実行部222は、2つの分割データ35それぞれについてフィルタリングして2つの分割フィルタリングデータ36を生成している。
なお、フィルタリング実行部222は、教師元データ311を任意の長さに分割すればよい。例えば、フィルタリング実行部222は、教師元データ311を話題毎に分割してもよい。また、フィルタリング実行部222は、教師元データ311を基準とする長さ毎に分割してもよい。
図21に示すように、フィルタリングデータ結合部225は、ステップS62で生成された複数の分割データ35それぞれに対応する分割フィルタリングデータ36を結合して、教師元フィルタリングデータ321を生成する。
図21では、フィルタリングデータ結合部225は、2つの分割データ35それぞれに対応する分割フィルタリングデータ36を結合して、教師元フィルタリングデータ321を生成している。
以上のように、実施の形態6に係る学習推論装置10は、教師元データ311を任意の長さ単位でフィルタリングして得られた結果を結合して教師元フィルタリングデータ321を生成する。これにより、フィルタリングに係る計算コストが大きくなってしまう場合に、コンテキストの欠落を防ぎながら、フィルタリングに係る計算コストを抑えることができる。
実施の形態7は、指定長さ以下になるまでフィルタリングとフィルタリングされたデータの結合とを繰り返す点が実施の形態6と異なる。実施の形態7では、この異なる点を説明し、同一の点については説明を省略する。
図22を参照して、実施の形態7に係るフィルタリング処理を説明する。
ここでは、図4のステップS12のフィルタリング処理を説明する。しかし、図10のステップS31のフィルタリング処理についても同様である。図4のステップS12では、教師元データ311がフィルタリングされて教師元フィルタリングデータ321が生成されるが、図10のステップS31では、入力データ33がフィルタリングされて入力フィルタリングデータが生成される点が異なる。
フィルタリングデータ結合部225は、ステップS73で生成された教師元フィルタリングデータ321の長さが指定長さ以下であるか否かを判定する。
フィルタリングデータ結合部225は、教師元フィルタリングデータ321の長さが指定長さ以下である場合には、処理を終了する。一方、フィルタリングデータ結合部225は、教師元フィルタリングデータ321の長さが指定長さ以下でない場合には、処理をステップS72に戻す。
図23では、1度目のフィルタリング実行処理で2つの分割データ35それぞれに対して分割フィルタリングデータ36が生成され、教師元フィルタリングデータ321が生成されている。そして、2度目のフィルタリング実行処理では1つの分割データ35に対して分割フィルタリングデータ36が新たに生成され、分割フィルタリングデータ36がそのまま教師元フィルタリングデータ321に設定されている。
以上のように、実施の形態7に係る学習推論装置10は、指定長さ以下になるまでフィルタリングとフィルタリングされたデータの結合とを繰り返す。これにより、入力シーケンスが長い場合であっても、コンテキストの欠落を防ぎつつ、フィルタリングに係る計算コストを抑えながら、意図した長さの教師元フィルタリングデータ321を生成することができる。
実施の形態8は、フィルタリングして除いた要素に特殊トークンを付与する点が実施の形態1~7と異なる。実施の形態5では、この異なる点を説明し、同一の点については説明を省略する。
実施の形態8では、実施の形態1に機能を加えた場合について説明する。しかし、実施の形態2~7に機能を加えることも可能である。
図24を参照して、実施の形態8に係る学習推論装置10の構成を説明する。
学習推論装置10は、機能構成要素として、フィルタリング修正部226を備える点が図2に示す学習推論装置10と異なる。フィルタリング修正部226の機能は、他の機能構成要素と同様に、ソフトウェア又はハードウェアによって実現される。
図25を参照して、実施の形態8に係るフィルタリング処理を説明する。
ここでは、図4のステップS12のフィルタリング処理を説明する。しかし、図10のステップS31のフィルタリング処理についても同様である。図4のステップS12では、教師元データ311がフィルタリングされて教師元フィルタリングデータ321が生成されるが、図10のステップS31では、入力データ33がフィルタリングされて入力フィルタリングデータが生成される点が異なる。
フィルタリング実行部222は、ステップS21で計算されたスコアに基づき、教師元データ311に含まれる要素をフィルタリングして、教師元フィルタリングデータ321を生成する。
この際、図26に示すように、フィルタリング実行部222は、フィルタリングにより除いた要素に特殊トークンを付与する。図26では、図9と同様に、入力2と入力4とが除かれ、入力1と入力3とを含む教師元フィルタリングデータ321が生成されている。そこで、フィルタリング実行部222は、除かれた入力2と入力4とに、特殊トークン[M]を付与する。
フィルタリング修正部226は、ステップS82で行われたフィルタリングの結果を表示装置14に出力する。この際、フィルタリング修正部226は、フィルタリングによって除かれた要素に特殊トークン[M]を示した上で、教師元データ311の各要素を表示する。これにより、どの要素が除かれたかがユーザに分かるようにする。
そして、フィルタリング修正部226は、除くことが不適当であるとユーザが考える要素の指定を受け付ける。図27に示すように、フィルタリング修正部226は、除くことが不適当であると指定された要素について、除くのを止め、教師元フィルタリングデータ321に加える。図27では、入力2については除くことが不適当であると指定されたため、教師元フィルタリングデータ321に加えられている。
以上のように、実施の形態8に係る学習推論装置10は、フィルタリングして除いた要素に特殊トークンを付与する。これにより、フィルタリングにより除かれた要素をユーザが容易に特定することができる。
Claims (23)
- 変換元のシーケンスデータから変換先のシーケンスデータを推論する第1モデルにおける注意機構を用いて、変換元のシーケンスデータである教師元データと変換先のシーケンスデータである教師先データとを含む第1教師データにおける前記教師元データに含まれる複数の要素それぞれのスコアを計算し、前記複数の要素それぞれのスコアに基づき、前記教師元データに含まれる前記複数の要素をフィルタリングして教師元フィルタリングデータを生成するフィルタリング部と、
前記フィルタリング部によって生成された前記教師元フィルタリングデータと前記教師先データとを含む第2教師データを入力として、前記教師元フィルタリングデータから前記教師先データに変換する第2モデルのパラメータを学習するフィルタリングデータ学習部と
を備え、
前記フィルタリング部は、前記教師元データを分割して得られた複数の分割データそれぞれを対象の分割データとして、前記対象の分割データに含まれる要素をフィルタリングして、前記対象の分割データに対応する分割フィルタリングデータを生成し、
さらに、前記複数の分割データそれぞれに対応する前記分割フィルタリングデータを結合して、前記教師元フィルタリングデータを生成するフィルタリングデータ結合部
を備える学習装置。 - 変換元のシーケンスデータから変換先のシーケンスデータを推論する第1モデルにおける注意機構を用いて、変換元のシーケンスデータである教師元データと変換先のシーケンスデータである教師先データとを含む第1教師データにおける前記教師元データに含まれる複数の要素それぞれのスコアを計算し、前記複数の要素それぞれのスコアに基づき、前記教師元データに含まれる前記複数の要素をフィルタリングして教師元フィルタリングデータを生成するフィルタリング部と、
前記フィルタリング部によって生成された前記教師元フィルタリングデータと前記教師先データとを含む第2教師データを入力として、前記教師元フィルタリングデータから前記教師先データに変換する第2モデルのパラメータを学習するフィルタリングデータ学習部と
を備え、
前記フィルタリング部は、フィルタリングして除いた要素に特殊トークンを付与し、
さらに、指定された前記特殊トークンを元の要素に戻すフィルタリング修正部
を備える学習装置。 - 前記フィルタリング部は、
前記複数の要素それぞれの前記スコアを計算するスコア計算部と、
前記教師元データに含まれる前記複数の要素の並び順に従い前記スコア計算部によって計算された前記スコアを並べた場合に、前記スコアの変化量が大きい要素に近い要素が除かれ難くなるようにフィルタリング方法を調整するフィルタリング調整部と、
前記フィルタリング調整部によって調整された前記フィルタリング方法に従いフィルタリングするフィルタリング実行部と
を備える請求項1又は2に記載の学習装置。 - 前記フィルタリング部は、
前記複数の要素それぞれの前記スコアを計算するスコア計算部と、
前記スコア計算部によって計算された前記スコアに対して、前記スコアとは別の情報により重み付けして、前記スコアを調整するスコア調整部と、
前記スコア調整部によって調整された前記スコアに基づきフィルタリングするフィルタリング実行部と
を備える請求項1又は2に記載の学習装置。 - 前記フィルタリング部は、複数の割合それぞれを対象の割合として、前記教師元データに含まれる要素から前記対象の割合の要素を除くようにフィルタリングして、前記対象の割合に対応する前記教師元フィルタリングデータを生成し、
前記フィルタリングデータ学習部は、前記複数の割合それぞれに対応する前記教師元フィルタリングデータを前記割合が低い方から順に対象の教師元フィルタリングデータとし、前記対象の教師元フィルタリングデータと前記教師先データとを含む第2教師データを入力として、前記対象の教師元フィルタリングデータから前記教師先データに変換する第2モデルのパラメータを学習する
請求項1又は2に記載の学習装置。 - 前記フィルタリングデータ学習部は、前記第1モデルにおける注意機構による計算結果から得られるスコアと前記第2モデルにおける注意機構による計算結果から得られるスコアとが近くなるように、前記第2モデルのパラメータを学習する
請求項1又は2に記載の学習装置。 - 前記フィルタリング部は、前記教師元フィルタリングデータが指定長さよりも長い場合には、前記教師元フィルタリングデータを分割して得られた1つ以上の分割データそれぞれを対象の分割データとして、前記対象の分割データに含まれる要素をフィルタリングして、前記対象の分割データに対応する分割フィルタリングデータを新たに生成し、
前記フィルタリングデータ結合部は、新たに生成された前記分割フィルタリングデータを結合して、前記教師元フィルタリングデータを新たに生成する
請求項1に記載の学習装置。 - 変換元のシーケンスデータから変換先のシーケンスデータを推論する第1モデルにおける注意機構を用いて、変換元のシーケンスデータである入力データに含まれる複数の要素それぞれのスコアを計算し、前記複数の要素それぞれのスコアに基づき、前記入力データに含まれる前記複数の要素をフィルタリングして入力フィルタリングデータを生成するフィルタリング部と、
変換元のシーケンスデータから変換先のシーケンスデータを推論する第2モデルを用いて、前記フィルタリング部によって生成された前記入力フィルタリングデータから出力データを推論するフィルタリングデータ推論部と
を備え、
前記フィルタリング部は、前記入力データを分割して得られた複数の分割データそれぞれを対象の分割データとして、前記対象の分割データに含まれる要素をフィルタリングして、前記対象の分割データに対応する分割フィルタリングデータを生成し、
さらに、前記複数の分割データそれぞれに対応する前記分割フィルタリングデータを結合して、前記入力フィルタリングデータを生成するフィルタリングデータ結合部
を備える推論装置。 - 変換元のシーケンスデータから変換先のシーケンスデータを推論する第1モデルにおける注意機構を用いて、変換元のシーケンスデータである入力データに含まれる複数の要素それぞれのスコアを計算し、前記複数の要素それぞれのスコアに基づき、前記入力データに含まれる前記複数の要素をフィルタリングして入力フィルタリングデータを生成するフィルタリング部と、
変換元のシーケンスデータから変換先のシーケンスデータを推論する第2モデルを用いて、前記フィルタリング部によって生成された前記入力フィルタリングデータから出力データを推論するフィルタリングデータ推論部と
を備え、
前記フィルタリング部は、フィルタリングして除いた要素に特殊トークンを付与し、
さらに、指定された前記特殊トークンを元の要素に戻すフィルタリング修正部
を備える推論装置。 - 前記フィルタリング部は、
前記複数の要素それぞれの前記スコアを計算するスコア計算部と、
前記入力データに含まれる前記複数の要素の並び順に従い前記スコア計算部によって計算された前記スコアを並べた場合に、前記スコアの変化量が大きい要素の近傍の要素が除かれ難くなるようにフィルタリング方法を調整するフィルタリング調整部と、
前記フィルタリング調整部によって調整された前記フィルタリング方法に従いフィルタリングするフィルタリング実行部と
を備える請求項8又は9に記載の推論装置。 - 前記フィルタリング部は、
前記複数の要素それぞれの前記スコアを計算するスコア計算部と、
前記スコア計算部によって計算された前記スコアに対して、前記スコアとは別の情報により重み付けして、前記スコアを調整するスコア調整部と、
前記スコア調整部によって調整された前記スコアに基づきフィルタリングするフィルタリング実行部と
を備える請求項8又は9に記載の推論装置。 - 前記第2モデルは、変換元のシーケンスデータである教師元データと変換先のシーケンスデータである教師先データとを含む第1教師データにおける前記教師元データに含まれる前記複数の要素をフィルタリングして生成された教師元フィルタリングデータと前記教師先データとを含む第2教師データを入力として、パラメータが学習されることにより得られた
請求項8又は9に記載の推論装置。 - 前記第2モデルは、複数の割合それぞれを対象の割合として、前記教師元データに含まれる要素から前記対象の割合の要素を除くようにフィルタリングして、前記対象の割合に対応する前記教師元フィルタリングデータが生成され、前記複数の割合それぞれに対応する前記教師元フィルタリングデータを前記割合が低い方から順に対象の教師元フィルタリングデータとし、前記対象の教師元フィルタリングデータと前記教師先データとを含む教師データを入力として、パラメータが学習されることにより得られた
請求項12に記載の推論装置。 - 前記第2モデルは、前記第1モデルにおける注意機構による計算結果から得られるスコアと前記第2モデルにおける注意機構による計算結果から得られるスコアとが近くなるように、パラメータが学習されることにより得られた
請求項12に記載の推論装置。 - 前記フィルタリング部は、前記入力フィルタリングデータが指定長さよりも長い場合には、前記入力フィルタリングデータを分割して得られた複数の分割データそれぞれを対象の分割データとして、前記対象の分割データに含まれる要素をフィルタリングして、前記対象の分割データに対応する分割フィルタリングデータを新たに生成し、
前記フィルタリングデータ結合部は、新たに生成された前記分割フィルタリングデータを結合して、前記入力フィルタリングデータを新たに生成する
請求項8に記載の推論装置。 - コンピュータが、変換元のシーケンスデータから変換先のシーケンスデータを推論する第1モデルにおける注意機構を用いて、変換元のシーケンスデータである教師元データと変換先のシーケンスデータである教師先データとを含む第1教師データにおける前記教師元データに含まれる複数の要素それぞれのスコアを計算し、前記複数の要素それぞれのスコアに基づき、前記教師元データに含まれる前記複数の要素をフィルタリングして教師元フィルタリングデータを生成し、
コンピュータが、前記教師元フィルタリングデータと前記教師先データとを含む第2教師データを入力として、前記教師元フィルタリングデータから前記教師先データに変換する第2モデルのパラメータを学習し、
コンピュータが、前記教師元データを分割して得られた複数の分割データそれぞれを対象の分割データとして、前記対象の分割データに含まれる要素をフィルタリングして、前記対象の分割データに対応する分割フィルタリングデータを生成し、
コンピュータが、前記複数の分割データそれぞれに対応する前記分割フィルタリングデータを結合して、前記教師元フィルタリングデータを生成する学習方法。 - コンピュータが、変換元のシーケンスデータから変換先のシーケンスデータを推論する第1モデルにおける注意機構を用いて、変換元のシーケンスデータである教師元データと変換先のシーケンスデータである教師先データとを含む第1教師データにおける前記教師元データに含まれる複数の要素それぞれのスコアを計算し、前記複数の要素それぞれのスコアに基づき、前記教師元データに含まれる前記複数の要素をフィルタリングして教師元フィルタリングデータを生成し、
コンピュータが、前記教師元フィルタリングデータと前記教師先データとを含む第2教師データを入力として、前記教師元フィルタリングデータから前記教師先データに変換する第2モデルのパラメータを学習し、
コンピュータが、フィルタリングして除いた要素に特殊トークンを付与し、
コンピュータが、指定された前記特殊トークンを元の要素に戻す学習方法。 - 変換元のシーケンスデータから変換先のシーケンスデータを推論する第1モデルにおける注意機構を用いて、変換元のシーケンスデータである教師元データと変換先のシーケンスデータである教師先データとを含む第1教師データにおける前記教師元データに含まれる複数の要素それぞれのスコアを計算し、前記複数の要素それぞれのスコアに基づき、前記教師元データに含まれる前記複数の要素をフィルタリングして教師元フィルタリングデータを生成するフィルタリング処理と、
前記フィルタリング処理によって生成された前記教師元フィルタリングデータと前記教師先データとを含む第2教師データを入力として、前記教師元フィルタリングデータから前記教師先データに変換する第2モデルのパラメータを学習するフィルタリングデータ学習処理と
を行い、
前記フィルタリング処理では、前記教師元データを分割して得られた複数の分割データそれぞれを対象の分割データとして、前記対象の分割データに含まれる要素をフィルタリングして、前記対象の分割データに対応する分割フィルタリングデータを生成し、
さらに、前記複数の分割データそれぞれに対応する前記分割フィルタリングデータを結合して、前記教師元フィルタリングデータを生成するフィルタリングデータ結合処理
を行う学習装置としてコンピュータを機能させる学習プログラム。 - 変換元のシーケンスデータから変換先のシーケンスデータを推論する第1モデルにおける注意機構を用いて、変換元のシーケンスデータである教師元データと変換先のシーケンスデータである教師先データとを含む第1教師データにおける前記教師元データに含まれる複数の要素それぞれのスコアを計算し、前記複数の要素それぞれのスコアに基づき、前記教師元データに含まれる前記複数の要素をフィルタリングして教師元フィルタリングデータを生成するフィルタリング処理と、
前記フィルタリング処理によって生成された前記教師元フィルタリングデータと前記教師先データとを含む第2教師データを入力として、前記教師元フィルタリングデータから前記教師先データに変換する第2モデルのパラメータを学習するフィルタリングデータ学習処理と
を行い、
前記フィルタリング処理では、フィルタリングして除いた要素に特殊トークンを付与し、
さらに、指定された前記特殊トークンを元の要素に戻すフィルタリング修正処理
を行う学習装置としてコンピュータを機能させる学習プログラム。 - コンピュータが、変換元のシーケンスデータから変換先のシーケンスデータを推論する第1モデルにおける注意機構を用いて、変換元のシーケンスデータである入力データに含まれる複数の要素それぞれのスコアを計算し、前記複数の要素それぞれのスコアに基づき、前記入力データに含まれる前記複数の要素をフィルタリングして入力フィルタリングデータを生成し、
コンピュータが、変換元のシーケンスデータから変換先のシーケンスデータを推論する第2モデルを用いて、前記入力フィルタリングデータから出力データを推論し、
コンピュータが、前記入力データを分割して得られた複数の分割データそれぞれを対象の分割データとして、前記対象の分割データに含まれる要素をフィルタリングして、前記対象の分割データに対応する分割フィルタリングデータを生成し、
コンピュータが、前記複数の分割データそれぞれに対応する前記分割フィルタリングデータを結合して、前記入力フィルタリングデータを生成する推論方法。 - コンピュータが、変換元のシーケンスデータから変換先のシーケンスデータを推論する第1モデルにおける注意機構を用いて、変換元のシーケンスデータである入力データに含まれる複数の要素それぞれのスコアを計算し、前記複数の要素それぞれのスコアに基づき、前記入力データに含まれる前記複数の要素をフィルタリングして入力フィルタリングデータを生成し、
コンピュータが、変換元のシーケンスデータから変換先のシーケンスデータを推論する第2モデルを用いて、前記入力フィルタリングデータから出力データを推論し、
コンピュータが、フィルタリングして除いた要素に特殊トークンを付与し、
コンピュータが、指定された前記特殊トークンを元の要素に戻す推論方法。 - 変換元のシーケンスデータから変換先のシーケンスデータを推論する第1モデルにおける注意機構を用いて、変換元のシーケンスデータである入力データに含まれる複数の要素それぞれのスコアを計算し、前記複数の要素それぞれのスコアに基づき、前記入力データに含まれる前記複数の要素をフィルタリングして入力フィルタリングデータを生成するフィルタリング処理と、
変換元のシーケンスデータから変換先のシーケンスデータを推論する第2モデルを用いて、前記フィルタリング処理によって生成された前記入力フィルタリングデータから出力データを推論するフィルタリングデータ推論処理と
を行い、
前記フィルタリング処理では、前記入力データを分割して得られた複数の分割データそれぞれを対象の分割データとして、前記対象の分割データに含まれる要素をフィルタリングして、前記対象の分割データに対応する分割フィルタリングデータを生成し、
さらに、前記複数の分割データそれぞれに対応する前記分割フィルタリングデータを結合して、前記入力フィルタリングデータを生成するフィルタリングデータ結合処理
を行う推論装置としてコンピュータを機能させる推論プログラム。 - 変換元のシーケンスデータから変換先のシーケンスデータを推論する第1モデルにおける注意機構を用いて、変換元のシーケンスデータである入力データに含まれる複数の要素それぞれのスコアを計算し、前記複数の要素それぞれのスコアに基づき、前記入力データに含まれる前記複数の要素をフィルタリングして入力フィルタリングデータを生成するフィルタリング処理と、
変換元のシーケンスデータから変換先のシーケンスデータを推論する第2モデルを用いて、前記フィルタリング処理によって生成された前記入力フィルタリングデータから出力データを推論するフィルタリングデータ推論処理と
を行い、
前記フィルタリング処理は、フィルタリングして除いた要素に特殊トークンを付与し、
さらに、指定された前記特殊トークンを元の要素に戻すフィルタリング修正処理
を行う推論装置としてコンピュータを機能させる推論プログラム。
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/JP2024/005756 WO2025177345A1 (ja) | 2024-02-19 | 2024-02-19 | 学習装置、学習方法、学習プログラム、推論装置、推論方法及び推論プログラム |
Publications (3)
| Publication Number | Publication Date |
|---|---|
| JPWO2025177345A1 JPWO2025177345A1 (ja) | 2025-08-28 |
| JP7745822B1 true JP7745822B1 (ja) | 2025-09-29 |
| JPWO2025177345A5 JPWO2025177345A5 (ja) | 2026-01-28 |
Family
ID=96846586
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2025542382A Active JP7745822B1 (ja) | 2024-02-19 | 2024-02-19 | 学習装置、学習方法、学習プログラム、推論装置、推論方法及び推論プログラム |
Country Status (2)
| Country | Link |
|---|---|
| JP (1) | JP7745822B1 (ja) |
| WO (1) | WO2025177345A1 (ja) |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20210182489A1 (en) * | 2019-12-11 | 2021-06-17 | Microsoft Technology Licensing, Llc | Sentence similarity scoring using neural network distillation |
| US20220374766A1 (en) * | 2021-05-20 | 2022-11-24 | Samsung Electronics Co., Ltd. | Learned threshold token pruning for transformer neural networks |
| CN117275040A (zh) * | 2023-10-07 | 2023-12-22 | 浙江理工大学 | 一种基于决策网络和细化特征的高效人体姿态估计方法 |
-
2024
- 2024-02-19 JP JP2025542382A patent/JP7745822B1/ja active Active
- 2024-02-19 WO PCT/JP2024/005756 patent/WO2025177345A1/ja active Pending
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20210182489A1 (en) * | 2019-12-11 | 2021-06-17 | Microsoft Technology Licensing, Llc | Sentence similarity scoring using neural network distillation |
| US20220374766A1 (en) * | 2021-05-20 | 2022-11-24 | Samsung Electronics Co., Ltd. | Learned threshold token pruning for transformer neural networks |
| CN117275040A (zh) * | 2023-10-07 | 2023-12-22 | 浙江理工大学 | 一种基于决策网络和细化特征的高效人体姿态估计方法 |
Non-Patent Citations (2)
| Title |
|---|
| 朱 中元、中山英樹,文脈を考慮したアテンションメカニズムの計算量の削減,一般社団法人 人工知能学会 第31回全国大会論文集DVD [DVD-ROM],日本,一般社団法人人工知能学会,2017年05月26日,pp.1-4(2O4-2) |
| 朱 中元、中山英樹: "文脈を考慮したアテンションメカニズムの計算量の削減", 一般社団法人 人工知能学会 第31回全国大会論文集DVD [DVD-ROM], JPN6024015221, 26 May 2017 (2017-05-26), JP, pages 1 - 4, ISSN: 0005667145 * |
Also Published As
| Publication number | Publication date |
|---|---|
| WO2025177345A1 (ja) | 2025-08-28 |
| JPWO2025177345A1 (ja) | 2025-08-28 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Wang et al. | Cat-gen: Improving robustness in nlp models via controlled adversarial text generation | |
| US20230359898A1 (en) | Augmentation of Audiographic Images for Improved Machine Learning | |
| Oord et al. | Parallel wavenet: Fast high-fidelity speech synthesis | |
| Huang et al. | SNDCNN: Self-normalizing deep CNNs with scaled exponential linear units for speech recognition | |
| CN110782008B (zh) | 深度学习模型的训练方法、预测方法和装置 | |
| US20210182662A1 (en) | Training of neural network based natural language processing models using dense knowledge distillation | |
| US12087272B2 (en) | Training speech synthesis to generate distinct speech sounds | |
| CN110556100A (zh) | 端到端语音识别模型的训练方法及系统 | |
| CN110706692A (zh) | 儿童语音识别模型的训练方法及系统 | |
| US11687723B2 (en) | Natural language processing with missing tokens in a corpus | |
| US11748594B2 (en) | Electronic apparatus and control method thereof | |
| Li et al. | Deep causal speech enhancement and recognition using efficient long-short term memory Recurrent Neural Network | |
| CN114203155A (zh) | 训练声码器和语音合成的方法和装置 | |
| Wang et al. | Attention‐based neural network for end‐to‐end music separation | |
| JP7745822B1 (ja) | 学習装置、学習方法、学習プログラム、推論装置、推論方法及び推論プログラム | |
| CN117953874A (zh) | 多模态通用模型的预训练方法、语音识别方法及相关装置 | |
| Chen et al. | TRNet: Two-level Refinement Network leveraging speech enhancement for noise robust speech emotion recognition | |
| CN114758649B (zh) | 一种语音识别方法、装置、设备和介质 | |
| CN114299910B (zh) | 语音合成模型的训练方法、使用方法、装置、设备及介质 | |
| CN113689867B (zh) | 一种语音转换模型的训练方法、装置、电子设备及介质 | |
| CN115050379B (zh) | 一种基于fhgan的高保真语音增强模型及其应用 | |
| US12205026B2 (en) | Enhanced word embedding | |
| Kinouchi et al. | Domain adaptation using non-parallel target domain corpus for self-supervised learning-based automatic speech recognition | |
| WO2024069978A1 (ja) | 生成装置、学習装置、生成方法、学習方法、及びプログラム | |
| CN114333762A (zh) | 基于表现力的语音合成方法、系统、电子设备及存储介质 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20250723 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20250723 |
|
| A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20250723 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20250819 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20250916 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7745822 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |