JP7745822B1 - 学習装置、学習方法、学習プログラム、推論装置、推論方法及び推論プログラム - Google Patents

学習装置、学習方法、学習プログラム、推論装置、推論方法及び推論プログラム

Info

Publication number
JP7745822B1
JP7745822B1 JP2025542382A JP2025542382A JP7745822B1 JP 7745822 B1 JP7745822 B1 JP 7745822B1 JP 2025542382 A JP2025542382 A JP 2025542382A JP 2025542382 A JP2025542382 A JP 2025542382A JP 7745822 B1 JP7745822 B1 JP 7745822B1
Authority
JP
Japan
Prior art keywords
data
teacher
filtering
source
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2025542382A
Other languages
English (en)
Other versions
JPWO2025177345A5 (ja
JPWO2025177345A1 (ja
Inventor
隼人 内出
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2025177345A1 publication Critical patent/JPWO2025177345A1/ja
Application granted granted Critical
Publication of JP7745822B1 publication Critical patent/JP7745822B1/ja
Publication of JPWO2025177345A5 publication Critical patent/JPWO2025177345A5/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

フィルタリング部(22)は、第1モデル(41)における注意機構を用いて、教師元データ(311)と教師先データ(312)とを含む第1教師データ(31)における教師元データ(311)に含まれる複数の要素それぞれのスコアを計算する。フィルタリング部(22)は、複数の要素それぞれのスコアに基づき、教師元データ(311)に含まれる複数の要素をフィルタリングして教師元フィルタリングデータ(321)を生成する。フィルタリングデータ学習部(23)は、教師元フィルタリングデータ(321)と教師先データ(312)とを含む第2教師データ(32)を入力として、教師元フィルタリングデータ(321)から教師先データ(312)に変換する第2モデル(42)のパラメータを学習する。

Description

本開示は、注意機構を有するモデルを用いた技術に関する。
機械学習技術を用いた機械翻訳をはじめとする系列変換タスクでは、エンコーダ及びデコーダからなるニューラルネットワークモデルが使用される。以下、エンコーダ及びデコーダからなるニューラルネットワークモデルを、エンコーダデコーダモデルと呼ぶ。エンコーダデコーダモデルに注意機構を導入することで精度が大きく向上することが知られている。注意機構とは、機械翻訳の例では、デコーダにおいて目的言語文のどの単語の情報を利用するかをデータ駆動で決定する仕組みである。
現在では、注意機構と全結合層とを組み合わせてエンコーダを並列化したエンコーダデコーダモデルであるTransformerが主流となっている。Transformerは、マルチヘッド注意機構又はマスク付きマルチヘッド注意機構と全結合層との組合せを積み重ねることによって、エンコーダ及びデコーダを構成するモデルである。
以下、マルチヘッド注意機構又はマスク付きマルチヘッド注意機構と全結合層との組み合わせを1つの層とみなし、Transformer層と呼ぶ。
Transformerの注意機構は、入力シーケンス中の全要素間の組合せを計算する。入力シーケンスの要素数をnとすると全要素間の組合せはnになる。そのため、Transformerの注意機構は、GPUメモリ使用量がO(n)で増加する性質がある。GPUは、Graphics Processing Unitの略である。したがって、入力シーケンスが長くなった場合、処理に必要な計算コストが二次的に増加する。
特許文献1には、長いテキストを話題単位に区切ることで、ブロック化テキストを生成し、ブロック毎にテキストを要約し、話題毎の要約結果を生成することが記載されている。
特開2023-034235号公報
特許文献1に記載された技術では、特定の話題に対応するブロック化テキストが長くなった場合には、依然として必要な計算コストが増加してしまう。ブロック化テキストが長い場合、さらに細かくブロック化することで入力シーケンスを短くし、計算コストを抑えることが可能である。しかし、各ブロック化テキストは独立に処理されるため、細かくブロック化してしまうと、コンテキストの欠落が生じ、生成テキストの品質が劣化する場合がある。つまり、生成結果の品質を保ちつつ、入力シーケンスの長さを適切に調整できない。
本開示は、生成結果の品質を保ちつつ、入力シーケンスの長さを適切に調整可能にすることを目的とする。
本開示に係る学習装置は、
変換元のシーケンスデータから変換先のシーケンスデータを推論する第1モデルにおける注意機構を用いて、変換元のシーケンスデータである教師元データと変換先のシーケンスデータである教師先データとを含む第1教師データにおける前記教師元データに含まれる複数の要素それぞれのスコアを計算し、前記複数の要素それぞれのスコアに基づき、前記教師元データに含まれる前記複数の要素をフィルタリングして教師元フィルタリングデータを生成するフィルタリング部と、
前記フィルタリング部によって生成された前記教師元フィルタリングデータと前記教師先データとを含む第2教師データを入力として、前記教師元フィルタリングデータから前記教師先データに変換する第2モデルのパラメータを学習するフィルタリングデータ学習部と
を備える。
本開示では、注意機構を用いて変換元のシーケンスデータに含まれる複数の要素それぞれのスコアを計算し、複数の要素をフィルタリングする。注意機構を用いて計算したスコアによりフィルタリングするため、生成結果の品質を保ちつつ、入力シーケンスである変換元のシーケンスデータの長さを適切に調整可能にすることが可能になる。
実施の形態1に係る学習推論装置10のハードウェア構成図。 実施の形態1に係る学習推論装置10の機能構成図。 実施の形態1で対象とするエンコーダデコーダモデルの説明図。 実施の形態1に係る学習フェーズの処理のフローチャート。 実施の形態1に係るフィルタリング処理の説明図。 実施の形態1に係るフィルタリング処理のフローチャート。 実施の形態1に係る通常のデコーディングの説明図。 実施の形態1に係るTeacher Forcing Decodingの説明図。 実施の形態1に係るフィルタリング実行処理の説明図。 実施の形態1に係る推論フェーズの処理のフローチャート。 変形例1に係る学習装置101の機能構成図。 変形例1に係る推論装置102の機能構成図。 実施の形態2に係る学習推論装置10の構成図。 実施の形態2に係るフィルタリング処理のフローチャート。 実施の形態3に係る学習推論装置10の構成図。 実施の形態3に係るフィルタリング処理のフローチャート。 実施の形態3に係るスコア調整処理の説明図。 実施の形態4に係るフィルタリングデータ学習処理の説明図。 実施の形態6に係る学習推論装置10の構成図。 実施の形態6に係るフィルタリング処理のフローチャート。 実施の形態6に係るフィルタリング処理の説明図。 実施の形態7に係るフィルタリング処理のフローチャート。 実施の形態7に係るフィルタリング処理の説明図。 実施の形態8に係る学習推論装置10の構成図。 実施の形態8に係るフィルタリング処理のフローチャート。 実施の形態8に係るフィルタリング実行処理の説明図。 実施の形態8に係るフィルタリング修正処理の説明図。
実施の形態1.
***構成の説明***
図1を参照して、実施の形態1に係る学習推論装置10のハードウェア構成を説明する。
学習推論装置10は、コンピュータである。
学習推論装置10は、プロセッサ11と、メモリ12と、入力装置13と、表示装置14と、外部インタフェース15と、通信インタフェース16とのハードウェアを備える。プロセッサ11は、信号線を介して他のハードウェアと接続され、これら他のハードウェアを制御する。
プロセッサ11は、プロセッシングを行うICである。ICはIntegrated Circuitの略である。プロセッサ11は、具体例としては、CPU、DSP、GPUである。CPUは、Central Processing Unitの略である。DSPは、Digital Signal Processorの略である。GPUは、Graphics Processing Unitの略である。
メモリ12は、データを記憶する記憶装置である。メモリ12は、具体例としては、HDD、SSD、RAM、ROMである。HDDは、Hard Disk Driveの略である。SSDは、Solid State Driveの略である。RAMは、Random Access Memoryの略である。ROMは、Read Only Memoryの略である。
入力装置13は、情報を入力するための装置である。入力装置13は、具体例としては、キーボード、マウス、タッチパネルである。表示装置14は、情報を表示するための装置である。表示装置14は、具体例としては、LCDである。LCDは、Liquid Crystal Displayの略である。
学習推論装置10は、入力装置13と表示装置14との少なくとも一方を備えていなくてもよい。
外部インタフェース15は、記録媒体17等の外部装置とのインタフェースである。記録媒体17は、データを記憶する装置である。プロセッサ11は、外部インタフェース15を介して記録媒体17に記憶されたデータの読み取りと記録媒体17へのデータの書き込みとが可能である。
記録媒体17は、具体例としては、SD(登録商標)メモリカード、CompactFlash(登録商標)、NANDフラッシュ、フレキシブルディスク、光ディスク、コンパクトディスク、Blu-ray(登録商標)ディスク、DVDといった可搬記録媒体であってもよい。SDは、Secure Digitalの略である。DVDは、Digital Versatile Diskの略である。
通信インタフェース16は、通信ネットワークに接続するためのインタフェースである。通信インタフェース14は、具体例としては、Ethernet(登録商標)のポートである。
図2を参照して、実施の形態1に係る学習推論装置10の機能構成を説明する。
学習推論装置10は、機能構成要素として、通常データ学習部21と、フィルタリング部22と、フィルタリングデータ学習部23と、フィルタリングデータ推論部24とを備える。フィルタリング部22は、スコア計算部221と、フィルタリング実行部222とを備える。学習推論装置10の各機能構成要素の機能はソフトウェアにより実現される。
メモリ12には、学習推論装置10の各機能構成要素の機能を実現するプログラムが格納されている。このプログラムは、プロセッサ11により読み込まれ、プロセッサ11によって実行される。これにより、学習推論装置10の各機能構成要素の機能が実現される。
なお、学習推論装置10の各機能構成要素の機能を実現するプログラムは、記録媒体17に格納されていてもよい。この場合には、プロセッサ11は、外部インタフェース15を介して、記録媒体17からプログラムを読み込み、実行する。また、学習推論装置10の各機能構成要素の機能を実現するプログラムは、外部のサーバ等に格納されていてもよい。この場合には、プロセッサ11は、通信インタフェース16を介して、サーバ等からプログラムを読み込み、実行する。
メモリ12には、第1教師データ31と、第2教師データ32と、第1モデル41と、第2モデル42といったデータが記憶される。これらのデータは、メモリ12ではなく、記録媒体17又は外部のサーバ等に記憶されてもよい。
図1では、プロセッサ11は、1つだけ示されていた。しかし、プロセッサ11は、複数であってもよく、複数のプロセッサ11が、各機能を実現するプログラムを連携して実行してもよい。
***動作の説明***
図3から図10を参照して、実施の形態1に係る学習推論装置10の動作を説明する。
学習推論装置10の動作には、学習フェーズと、推論フェーズとが含まれる。
実施の形態1に係る学習推論装置10の学習フェーズの動作手順は、実施の形態1に係る学習方法に相当する。また、実施の形態1に係る学習推論装置10の学習フェーズの動作を実現するプログラムは、実施の形態1に係る学習プログラムに相当する。
実施の形態1に係る学習推論装置10の推論フェーズの動作手順は、実施の形態1に係る推論方法に相当する。また、実施の形態1に係る学習推論装置10の推論フェーズの動作を実現するプログラムは、実施の形態1に係る推論プログラムに相当する。
図3を参照して、実施の形態1で対象とするエンコーダデコーダモデルを説明する。
実施の形態1で対象とするエンコーダデコーダモデルは、注意機構と全結合層とを組み合わせてエンコーダを並列化したエンコーダデコーダモデルであるTransformerである。Transformerは、マルチヘッド注意機構又はマスク付きマルチヘッド注意機構と全結合層との組合せを積み重ねることによって、エンコーダ及びデコーダを構成する。
図4を参照して、実施の形態1に係る学習フェーズの処理を説明する。
(ステップS11:通常データ学習処理)
通常データ学習部21は、第1教師データ31を入力として、第1モデル41のパラメータを学習する。
第1モデル41は、変換元のシーケンスデータから変換先のシーケンスデータを推論するエンコーダデコーダモデルである。ここでは、第1モデル41は、Transformerである。Transformerであるため、第1モデル41は、注意機構を有する。学習対象となる第1モデル41のパラメータは、エンコーダデコーダモデルの学習対象のパラメータである。
第1教師データ31は、エンコーダデコーダモデルが入出力することができる任意のシーケンスデータである。第1教師データ31は、変換元のシーケンスデータである教師元データ311と変換先のシーケンスデータである教師先データ312とを含むデータ構造である。
第1教師データ31は、例えば、機械翻訳用のデータである。この場合には、変換元のシーケンスデータである教師元データ311は、翻訳元言語の単語のシーケンスである。単語のシーケンスとは、文又は句である。変換後のシーケンスデータである教師先データ312は、翻訳元言語の翻訳先言語への変換結果である。つまり、教師先データ312は、翻訳元言語の単語のシーケンスと同じ意味を表す翻訳先言語の単語のシーケンスである。
(ステップS12:フィルタリング処理)
フィルタリング部22は、ステップS11の学習により得られた第1モデル41のパラメータを用いて、第1教師データ31に含まれる教師元データ311をフィルタリングする。教師元データ311をフィルタリングするとは、教師元データ311に含まれる複数の要素のうち一部の要素を除くことである。第1教師データ31が機械翻訳用のデータである場合には、教師元データ311に含まれる複数の要素とは、教師元データ311を構成する複数の単語である。これにより、フィルタリング部22は、教師元データ311から一部の要素が除かれた教師元フィルタリングデータ321を生成する。
図5に示す各マスが教師元データ311に含まれる要素であるとする。フィルタリング部22は、教師元データ311に含まれる要素のうち、×が付けられた一部の要素を除く。これにより、フィルタリング部22は、教師元データ311から教師元フィルタリングデータ321を生成する。図5では、教師元データ311に含まれる要素のうち50%の要素が除かれ、教師元フィルタリングデータ321が生成されている。
そして、フィルタリング部22は、教師元フィルタリングデータ321と教師先データ312とを含む第2教師データ32を生成する。
(ステップS13:フィルタリングデータ学習処理)
フィルタリングデータ学習部23は、ステップS12で生成された第2教師データ32を入力として、第2モデル42のパラメータを学習する。
第2モデル42は、変換元のシーケンスデータから変換先のシーケンスデータを推論するエンコーダデコーダモデルである。ここでは、第2モデル42は、Transformerである。学習対象となる第2モデル42のパラメータは、エンコーダデコーダモデルの学習対象のパラメータである。パラメータの学習に用いる最適化手法としては、任意の最適化手法を用いればよい。例えば、最適化手法として、Adamを用いることが考えられる。Adamは、ADAptive Momentの略である。
フィルタリングデータ学習部23は、学習して得られた第2モデル42のパラメータをメモリ12に書き込む。あるいは、フィルタリングデータ学習部23は、パラメータを記録媒体17又は外部のサーバ又は表示装置14に出力してもよい。
図6を参照して、実施の形態1に係るフィルタリング処理(図4のステップS12)を説明する。
(ステップS21:スコア計算処理)
スコア計算部221は、第1モデル41における注意機構を用いて、教師元データ311に含まれる複数の要素それぞれのスコアを計算する。
具体的には、スコア計算部221は、第1モデル41の注意機構であるAttentiond,l,h,iを用いて、複数の要素それぞれのスコアを計算する。Attentionは、デコーダのマルチヘッド注意機構で計算されるCross-Attentionである。つまり、スコア計算部221は、デコーダの出力シーケンスを生成する際に計算される、エンコーダの入力シーケンスにおける複数の要素それぞれに対するAttentionをスコアとして計算する。言い換えると、スコア計算部221は、エンコーダの入力シーケンスにおける複数の要素それぞれに対する第1モデル41の内部状態をスコアとして計算する。ここでは、エンコーダの入力シーケンスは、教師元データ311である。
Attentiond,l,h,iにおけるd,l,h,iはそれぞれ以下を示す。dは、デコーダの出力シーケンスにおける要素数を示す。lは、Transformer層の層数を示す。hは、マルチヘッド注意機構のヘッド数を示す。iは、エンコーダの入力シーケンスにおける要素数を示す。
スコア計算部221は、各iについて、d,l,hについてのAttentiond,l,h,iの最大値を計算することにより、要素iについてのスコアSを計算する。つまり、S=MaxAttention(i)=maxd,l,h(Attentiond,l,h,i)である。
なお、ここでは、スコア計算部221は、Attentiond,l,h,iの最大値を計算するとしたが、最大値以外の統計値を計算してもよい。また、スコア計算部221は、全てのd,l,hを用いてスコアを計算してもよいが、特定のd,l,hのみを用いてスコアを計算してもよい。また、スコア計算部221は、ビームサーチ等の一般的なデコーディングを用いて複数のデコーダの出力シーケンスを生成することにより複数のスコアを取得し、複数のスコアから最大値を抽出して最終的なスコアとして計算してもよい。なお、最大値ではなく、他の方法により複数のスコアから抽出したスコアを最終的なスコアとしてもよい。
また、スコア計算部221は、スコアを教師信号とした系列ラベリングモデルを別途用意し、系列ラベリングモデルでエンコーダの入力シーケンスにおける複数の要素それぞれのスコアを推定してもよい。
上記説明では、Attentionは、デコーダのマルチヘッド注意機構で計算されるCross-Attentionとした。しかし、Attentionは、エンコーダのマルチヘッド注意機構で計算されるSelf-Attentionであってもよい。また、Attentionは、Cross-AttentionとSelf-Attentionとを組み合わせたものであってもよい。Cross-AttentionとSelf-Attentionとの和又は平均値を計算することにより、Cross-AttentionとSelf-Attentionとを組み合わせることができる。
スコア計算部221は、Attentionを計算する際、目標とする出力シーケンスを利用できる場合、Teacher Forcing Decodingを用いてもよい。スコア計算部221は、Attentionを計算する際、目標とする出力シーケンスを利用できない場合、通常のデコーディングを用いてもよい。
図7に示すように、通常のデコーディングは、モデルの予測を次の予測のための入力とする。モデルの予測とは、モデルが1つ前に出力した要素である。
図7では、まずBOSがデコーダに与えられて、出力1が得られる。BOSは、Begin Of Sentenceの略である。次に、BOSと出力1とがデコーダに与えられて、出力2が得られる。そして、BOSと出力1と出力2とがデコーダに与えられて、EOSが得られる。EOSは、End Of Sentenceの略である。
これに対して、図8に示すように、Teacher Forcing Decodingは、目標とする出力シーケンスを直接モデルに提供する。つまり、Teacher Forcing Decodingは、通常のデコーディングと違い、モデルが予測した結果を用いない。
図8では、目標とする出力シーケンスとして、BOS+正解1+正解2+EOSが与えられている。まず、まずBOSがデコーダに与えられて、出力1が得られる。次に、BOSと正解1とがデコーダに与えられて、出力2が得られる。そして、BOSと正解1と正解2とがデコーダに与えられて、EOSが得られる。
(ステップS22:フィルタリング実行処理)
フィルタリング実行部222は、ステップS21で計算されたスコアに基づき、教師元データ311に含まれる要素をフィルタリングして、教師元フィルタリングデータ321を生成する。
具体的には、図9に示すように、フィルタリング実行部222は、教師元データ311に含まれる要素のうち、スコアが低い方から基準割合の要素を除いて、教師元フィルタリングデータ321を生成する。図9では、教師元データ311に4つの要素が含まれており、基準割合が50%である。そこで、フィルタリング実行部222は、4つの要素のうち、スコアが低い方から2つの要素を除いて、教師元フィルタリングデータ321を生成する。その結果、教師元データ311に含まれる入力1~入力4のうち、スコアが低い入力2と入力4とが除かれ、入力1と入力3とを含む教師元フィルタリングデータ321が生成される。
なお、フィルタリング実行部222は、上述した方法によりフィルタリングして得られたデータと、教師元データ311を他の方法によりフィルタリングして得られたデータとを組み合わせて教師元フィルタリングデータ321としてもよい。他の方法によるフィルタリングは、具体例としては、最大値又は平均値又は中央値と等を用いて、スコアが上位又は下位又は中位の基準割合の要素を教師元データ311から除くことである。また、他の方法によるフィルタリングは、他の具体例としては、教師元データ311の先頭又は末尾又は中央部分の基準割合の要素を教師元データ311から除くことである。
また、フィルタリング実行部222は、異なる割合で教師元データ311をフィルタリングしたデータを組み合わせて教師元フィルタリングデータ321としてもよい。例えば、フィルタリング実行部222は、教師元データ311から10%を除いたデータと、教師元データ311から30%を除いたデータと、教師元データ311から50%を除いたデータとを組み合わせて教師元フィルタリングデータ321としてもよい。
図10を参照して、実施の形態1に係る推論フェーズの処理を説明する。
(ステップS31:フィルタリング処理)
フィルタリング部22は、ステップS11の学習により得られた第1モデル41のパラメータを用いて、入力データ33をフィルタリングする。入力データ33は、エンコーダデコーダモデルが入出力することができる任意のシーケンスデータである。これにより、フィルタリング部22は、入力フィルタリングデータを生成する。
入力データ33をフィルタリングする処理は、図4のステップS12で教師元データ311をフィルタリングする処理と同じである。つまり、教師元データ311がフィルタリングされて教師元フィルタリングデータ321が生成される処理と同様の処理によって、入力データ33がフィルタリングされて入力フィルタリングデータが生成される。
なお、フィルタリング部22は、図4のステップS12で教師元データ311をフィルタリングする場合と、ここで入力データ33をフィルタリングする場合とで、フィルタリングする割合を変更してもよい。例えば、フィルタリング部22は、図4のステップS12で教師元データ311をフィルタリングする場合には50%フィルタリングし、ここで入力データ33をフィルタリングする場合には30%フィルタリングする。
(ステップS32:フィルタリングデータ推論処理)
フィルタリングデータ推論部24は、第2モデル42を用いて、ステップS31で生成された入力フィルタリングデータから出力データ34を推論する。第2モデル42を用いてとは、学習フェーズで生成された第2モデル42のパラメータを用いてと言う意味である。
フィルタリングデータ推論部24は、推論された出力データ34をメモリ12に書き込む。あるいは、フィルタリングデータ推論部24は、出力データ34を記録媒体17又は外部のサーバ又は表示装置14に出力してもよい。
***実施の形態1の効果***
以上のように、実施の形態1に係る学習推論装置10は、注意機構を用いて変換元のシーケンスデータに含まれる複数の要素それぞれのスコアを計算し、複数の要素をフィルタリングする。注意機構を用いて計算したスコアは、貢献度合いが高い要素ほど高い値になる。そのため、注意機構を用いて計算したスコアによりフィルタリングすることで、生成結果の品質を保ちつつ、変換元のシーケンスデータの長さを適切に調整可能にすることが可能になる。変換元のシーケンスデータとは、教師元データ311と入力データ33とのことである。
変換元のシーケンスデータの長さを短くできるため、計算コストを抑えることができる。つまり、第2モデル42のパラメータの学習にかかる計算コストは、第1モデル41のパラメータの学習にかかる計算コストよりも低くできる。また、入力フィルタリングデータから出力データ34を推論することで、入力データ33から出力データ34を推論するよりも計算コストを低くできる。
ここで、第1モデル41は、フィルタリングされていない第1教師データ31を入力としてパラメータが学習される。そのため、計算コストが高く、高性能な計算機環境が必要である。これに対して、第2モデル42は、フィルタリングされた第2教師データ32を入力としてパラメータが学習される。そのため、計算コストが低く、高性能な計算機環境は不要である。
複数の業務又は複数のシステムにエンコーダデコーダモデルを用いた処理を横展開するといった場合がある。この場合には、第1モデル41のための高性能な計算機環境を1か所に集中させ、展開先には第2モデル42のための低性能な計算機環境を用意することが考えられる。
なお、第1モデル41はできてしまえば、第2モデル42のパラメータを学習する際に、図4のステップS11の通常データ学習処理は必要ない。つまり、第1モデル41はできてしまえば、第2モデル42のパラメータを学習する際には、図4のステップ11をスキップしてステップS12から処理を行えばよい。そのため、高性能な計算機環境で第1モデル41を用意しておき、展開先の低性能な計算機環境で、その展開先用の第2モデル42のパラメータを学習すればよい。
***他の構成***
<変形例1>
実施の形態1では、学習フェーズを行う機能と、推論フェーズを行う機能との両方を1つの学習推論装置10が備えている例を説明した。しかし、学習推論装置10は、学習フェーズを行う機能のみを有している構成であってもよい。学習フェーズを行う機能のみを有している構成の学習推論装置10を学習装置101と呼ぶ。また、学習推論装置10は、推論フェーズを行う機能のみを有している構成であってもよい。推論フェーズを行う機能のみを有している構成の学習推論装置10を推論装置102と呼ぶ。
具体的には、学習装置101は、図11に示すように、学習推論装置10が備える機能構成要素のうち、フィルタリングデータ推論部24を備えず、通常データ学習部21とフィルタリング部22とフィルタリングデータ学習部23とを備えている。また、推論装置102は、図12に示すように、学習推論装置10が備える機能構成要素のうち、通常データ学習部21とフィルタリングデータ学習部23とを備えず、フィルタリング部22とフィルタリングデータ推論部24とを備えている。
なお、外部から第1モデル41を取得可能な場合には、学習装置101は、通常データ学習部21を備えていなくてもよい。
<変形例2>
実施の形態1では、第1教師データ31は、具体例として機械翻訳用のデータであるとした。しかし、第1教師データ31は、シーケンスデータであれば、これに限らず他のデータであってもよい。なお、第2教師データ32は、第1教師データ31の教師元データ311がフィルタリングされたデータであるから、第1教師データ31と同じ種類のデータである。また、入力データ33及び出力データ34の組も、第1教師データ31と同じ種類のデータである。
(例1)第1教師データ31は、自然言語処理用のデータである。教師元データ311は、特定の言語の単語のシーケンス、例えば文や句である。そして、教師先データ312は、特定の言語の要約結果、つまり教師元データ311よりも少ない単語で構成されるが、教師元データ311の本質的な意味を保持するシーケンスである。
(例2)第1教師データ31は、自然言語処理用のデータでる。教師元データ311は、質問を意味する単語のシーケンスである。そして、教師先データ312は、質問への回答を意味する単語のシーケンスである。
(例3)第1教師データ31は、音声認識用のデータでる。教師元データ311は、人間の口頭での発話を表す音声データのシーケンスである。そして、教師先データ312は、発話内容を表す、音素、特徴量、又は単語のシーケンスである。
(例4)第1教師データ31は、画像処理用のデータでる。教師元データ311は、画像、つまり画像に含まれる色及び明度等のシーケンスである。そして、教師先データ312は、画像を説明するテキストのシーケンスである。
(例5)第1教師データ31は、異常検知用のデータでる。教師元データ311は、特定のセンサで取得されたデータのシーケンスである。そして、教師先データ312は、正常又は異常を表すテキストのシーケンスである。
(例6)第1教師データ31は、異常予測用のデータでる。教師元データ311は、特定のセンサで取得されたデータのシーケンスである。そして、教師先データ312は、未来の異常発生の可能性を表すテキストのシーケンスである。
(例7)第1教師データ31は、需要予測用のデータでる。教師元データ311は、任意の期間における製品販売数に関するデータのシーケンスである。そして、教師先データ312は、未来の製品需要を表すテキストのシーケンスである。
<変形例3>
実施の形態1で対象とするエンコーダデコーダモデルは、Transformerであるとした。Transformerの例としては、BERTと、GPTと、T5と等がある。
BERTは、文献:Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.に記載されている。
GPTは、文献:Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). Improving language understanding by generative pre-training.
T5は、文献:Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., ... & Liu, P. J. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. The Journal of Machine Learning Research, 21(1), 5485-5551.に記載されている。
<変形例4>
実施の形態1では、各機能構成要素がソフトウェアで実現された。しかし、変形例4として、各機能構成要素はハードウェアで実現されてもよい。この変形例4について、実施の形態1と異なる点を説明する。
各機能構成要素がハードウェアで実現される場合には、学習推論装置10は、プロセッサ11とメモリ12とに代えて、電子回路を備える。電子回路は、各機能構成要素と、メモリ12と、ストレージ13との機能とを実現する専用の回路である。
電子回路としては、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ロジックIC、GA、ASIC、FPGAが想定される。GAは、Gate Arrayの略である。ASICは、Application Specific Integrated Circuitの略である。FPGAは、Field-Programmable Gate Arrayの略である。
各機能構成要素を1つの電子回路で実現してもよいし、各機能構成要素を複数の電子回路に分散させて実現してもよい。
<変形例5>
変形例5として、一部の各機能構成要素がハードウェアで実現され、他の各機能構成要素がソフトウェアで実現されてもよい。
プロセッサ11とメモリ12と電子回路とを処理回路という。つまり、各機能構成要素の機能は、処理回路により実現される。
実施の形態2.
実施の形態2は、入力シーケンスに含まれる複数の要素の並び順に従いスコアを並べた場合に、スコアの変化量が大きい要素に近い要素が除かれ難くなるようにフィルタリング方法を調整する点が実施の形態1と異なる。実施の形態2では、この異なる点を説明し、同一の点については説明を省略する。
***構成の説明***
図13を参照して、実施の形態2に係る学習推論装置10の構成を説明する。
学習推論装置10は、機能構成要素として、フィルタリング調整部223を備える点が図2に示す学習推論装置10と異なる。フィルタリング調整部223の機能は、他の機能構成要素と同様に、ソフトウェア又はハードウェアによって実現される。
***動作の説明***
図14を参照して、実施の形態2に係るフィルタリング処理を説明する。
ここでは、図4のステップS12のフィルタリング処理を説明する。しかし、図10のステップS31のフィルタリング処理についても同様である。図4のステップS12では、教師元データ311がフィルタリングされて教師元フィルタリングデータ321が生成されるが、図10のステップS31では、入力データ33がフィルタリングされて入力フィルタリングデータが生成される点が異なる。
ステップS41の処理は、図6のステップS21の処理と同じである。
(ステップS42:フィルタリング調整処理)
フィルタリング調整部223は、教師元データ311に含まれる複数の要素の並び順に従いステップS41で計算されたスコアを並べた場合に、スコアの変化量が大きい要素に近い要素が除かれ難くなるようにフィルタリング方法を調整する。つまり、フィルタリング調整部223は、スコアの変化が急峻な要素の前後の要素が除かれ難くなるようにフィルタリング方法を調整する。
具体的には、フィルタリング調整部223は、スコアの変化量が大きい要素の前後ほど広い範囲の要素が除かれずに残るように調整する。例えば、フィルタリング調整部223は、各要素についてスコアの移動平均を計算する。この際、フィルタリング調整部223は、スコアの変化量が大きい要素の前後ほど移動平均を計算する範囲を広くする。そして、フィルタリング調整部223は、フィルタリング実行部222に対して、移動平均の値により要素をフィルタリングさせる。これにより、フィルタリング調整部223は、スコアの変化量に応じてフィルタリングに用いる値を平滑化する。その結果、スコアの変化量が大きい要素に近い要素が除かれ難くなるようになる。
フィルタリング調整部223は、スコアの変化量の大きさについては、値の変化量を示す微分値等の変化点の検出に用いられる値を計算することによって特定すればよい。
なお、フィルタリング調整部223は、スコアが急に高くなる要素に近い要素が除かれ難くなるように調整すればよい。つまり、フィルタリング調整部223は、スコアが急に低くなる要素に近い要素が除かれ難くなるように調整する必要はない。
(ステップS43:フィルタリング実行処理)
フィルタリング実行部222は、ステップS42で調整されたフィルタリング方法に従いフィルタリングする。
例えば、ステップS42で説明したように、各要素についてスコアの移動平均が計算された場合には、フィルタリング実行部222は、各要素の移動平均が低い方から基準割合の要素を除いて、教師元フィルタリングデータ321を生成する。
***実施の形態2の効果***
以上のように、実施の形態2に係る学習推論装置10は、スコアの変化量が大きい要素に近い要素が除かれ難くなるようにフィルタリング方法を調整する。
スコアの変化量が大きい要素に近い要素が除かれてしまうと、スコアが高い要素の前後の要素が削除されてしまい、必要以上にコンテキストが失われる可能性がある。実施の形態2に係る学習推論装置10は、スコアが高い要素の前後の要素が削除されることを防止できるので、必要以上にコンテキストが失われることを防ぐことができる。これにより、生成結果の品質劣化を防ぐことができる。
実施の形態3.
実施の形態3は、スコアに対して、スコアとは別の情報により重み付けして、前記スコアを調整する点が実施の形態1,2と異なる。実施の形態3では、この異なる点を説明し、同一の点については説明を省略する。
実施の形態3では、実施の形態1に機能を加えた場合について説明する。しかし、実施の形態2に機能を加えることも可能である。
***構成の説明***
図15を参照して、実施の形態3に係る学習推論装置10の構成を説明する。
学習推論装置10は、機能構成要素として、スコア調整部224を備える点が図2に示す学習推論装置10と異なる。スコア調整部224の機能は、他の機能構成要素と同様に、ソフトウェア又はハードウェアによって実現される。
***動作の説明***
図16を参照して、実施の形態3に係るフィルタリング処理を説明する。
ここでは、図4のステップS12のフィルタリング処理を説明する。しかし、図10のステップS31のフィルタリング処理についても同様である。図4のステップS12では、教師元データ311がフィルタリングされて教師元フィルタリングデータ321が生成されるが、図10のステップS31では、入力データ33がフィルタリングされて入力フィルタリングデータが生成される点が異なる。
ステップS51の処理は、図6のステップS21の処理と同じである。
(ステップS52:スコア調整処理)
スコア調整部224は、ステップS41で計算されたスコアに対して、スコアとは別の情報により重み付けして、スコアを調整する。
別の情報は、例えば、ユーザによって定義された要素毎の重み情報である。別の情報は、TF-IDF等の統計情報であってもよい。TF-IDFは、Term Frequency-Inverse Document Frequencyの略である。
図17の例1に示すように、スコア調整部224は、スコアと別の情報とを用いて、加算又は乗算のような基本的な演算によって重み付けを行い、スコアを調整する。図17の例1では、スコアと別の情報である重みとを加算してスコアが調整されている。また、図17の例2に示すように、スコア調整部224は、閾値を超える重みが与えられた要素については、スコアに関係なくフィルタリングされないようにスコアを調整してもよい。図17の例2では、別の情報である重みが閾値2.0を超える要素についてはフィルタリングされないように∞の値がスコアに設定されている。
(ステップS53:フィルタリング実行処理)
フィルタリング実行部222は、ステップS52で調整されたスコアに基づきフィルタリングする。
***実施の形態3の効果***
以上のように、実施の形態3に係る学習推論装置10は、スコアに対して、スコアとは別の情報により重み付けして、前記スコアを調整する。これにより、入力シーケンスにおける各要素のスコアのみで生じる意図しないコンテキストの消失を防止できる。これにより、生成結果の品質劣化を防ぐことができる。
実施の形態4.
実施の形態4は、フィルタリングする要素の割合を難易度としたカリキュラム学習をすることで、モデルを安定的に学習する点が実施の形態1~3と異なる。実施の形態4では、この異なる点を説明し、同一の点については説明を省略する。
実施の形態4では、実施の形態1に機能を加えた場合について説明する。しかし、実施の形態2,3に機能を加えることも可能である。
***動作の説明***
図4を参照して、実施の形態4に係る学習フェーズの処理を説明する。
ステップS11の処理は、実施の形態1と同じである。
(ステップS12:フィルタリング処理)
フィルタリング部22は、ステップS11の学習により得られた第1モデル41のパラメータを用いて、第1教師データ31に含まれる教師元データ311をフィルタリングする。
この際、フィルタリング部22は、複数の割合それぞれを対象の割合に設定する。そして、フィルタリング部22は、教師元データ311に含まれる要素から対象の割合の要素を除くようにフィルタリングして、対象の割合に対応する教師元フィルタリングデータ321を生成する。そして、フィルタリング部22は、対象の割合に対応する教師元フィルタリングデータ321と教師先データ312とを含む第2教師データ32を生成する。
例えば、フィルタリング部22は、50%と70%と90%とのそれぞれを対象の割合に設定する。そして、フィルタリング部22は、教師元データ311に含まれる要素から50%の要素を除くようにフィルタリングして、50%に対応する教師元フィルタリングデータ321を生成する。また、フィルタリング部22は、教師元データ311に含まれる要素から70%の要素を除くようにフィルタリングして、70%に対応する教師元フィルタリングデータ321を生成する。また、フィルタリング部22は、教師元データ311に含まれる要素から90%の要素を除くようにフィルタリングして、90%に対応する教師元フィルタリングデータ321を生成する。
(ステップS13:フィルタリングデータ学習処理)
フィルタリングデータ学習部23は、複数の割合それぞれに対応する教師元フィルタリングデータ321を割合が低い方から順に対象の教師元フィルタリングデータ321に設定する。そして、フィルタリングデータ学習部23は、対象の教師元フィルタリングデータ321と教師先データ312とを含む第2教師データ32を入力として、対象の教師元フィルタリングデータ321から教師先データ312に変換する第2モデル42のパラメータを学習する。
例えば、50%と70%と90%とについての第2教師データ32が生成されているとする。この場合には、図18に示すように、まず、フィルタリングデータ学習部23は、50%に対応する第2教師データ32により第2モデル42のパラメータを学習する。次に、フィルタリングデータ学習部23は、70%に対応する第2教師データ32により第2モデル42のパラメータを学習する。そして、フィルタリングデータ学習部23は、90%に対応する第2教師データ32により第2モデル42のパラメータを学習する。
なお、フィルタリングデータ学習部23は、学習時における第2モデル42のパラメータの初期値として、1段階前に学習されて得られた第2モデル42のパラメータを用いる。しかし、フィルタリングデータ学習部23は、学習時における第2モデル42のパラメータの初期値として、2段階以上前に学習されて得られた第2モデル42のパラメータを用いるようにしてもよい。
***実施の形態4の効果***
以上のように、実施の形態4に係る学習推論装置10は、フィルタリングする要素の割合を難易度としたカリキュラム学習をする。これにより、フィルタリングによって生じた、フィルタリング前の教師元データ311との差異を段階的に学習できる。そのため、安定して第2モデル42のパラメータの学習を行うことができる。
実施の形態5.
実施の形態5は、第1モデル41における注意機構による計算結果から得られるスコアと第2モデル42における注意機構による計算結果から得られるスコアとが近くなるように、第2モデルのパラメータを学習する点が実施の形態1~4と異なる。実施の形態5では、この異なる点を説明し、同一の点については説明を省略する。
実施の形態5では、実施の形態1に機能を加えた場合について説明する。しかし、実施の形態2~4に機能を加えることも可能である。
***動作の説明***
図4を参照して、実施の形態5に係る学習フェーズの処理を説明する。
ステップS11及びステップS12の処理は、実施の形態1と同じである。
(ステップS13:フィルタリングデータ学習処理)
フィルタリングデータ学習部23は、第1モデル41における注意機構による計算結果から得られるスコアと第2モデル42における注意機構による計算結果から得られるスコアとが近くなるように、第2モデル42のパラメータを学習する。
具体的には、フィルタリングデータ学習部23は、第2モデル42を学習する際に用いられる損失関数に、第1モデル41における注意機構による計算結果から得られるスコアと第2モデル42における注意機構による計算結果から得られるスコアとの差又は類似度を導入する。ここで、第1モデル41における注意機構による計算結果から得られるスコアは、ステップS21で計算されるスコアである。つまり、第1モデル41における注意機構による計算結果から得られるスコアは、第1モデル41の注意機構であるAttentionにより得られるスコアである。第2モデル42における注意機構による計算結果から得られるスコアは、ステップS21で説明した方法により計算されるスコアである。つまり、第2モデル42における注意機構による計算結果から得られるスコアは、第2モデル42の注意機構であるAttentionにより得られるスコアである。
例えば、フィルタリングデータ学習部23は、損失関数として、第1モデル41のスコアと第2モデル42のスコアとの間の平均二乗誤差MSEを用いる。第1モデル41のスコアと第2モデル42のスコアとの間の平均二乗誤差MSEは、式1のように表される。
(式1)
MSE=(1/N)Σi=1 (A-B
ここで、NはAttentionの要素数を示す。Aは第1モデル41のAttentionを示す。Bは第2モデル42のAttentionを示す。
ここでのAttentionは、デコーダのマルチヘッド注意機構で計算されるCross-Attentionでもよいし、エンコーダのマルチヘッド注意機構で計算されるSelf-Attentionでもよい。また、ここでのAttentionは、Cross-AttentionとSelf-Attentionとを組み合わせたものであってもよい。
なお、上述したAttentionは、第1モデル41と第2モデル42との全体を近似させるものである。しかし、特定の層又は特定のヘッドを近似させるようにしてもよい。
また、ここでは、損失関数として平均二乗誤差MSEが用いられた。しかし、損失関数は、クロスエントロピー誤差又はコサイン類似度といった他の関数を用いてもよい。
***実施の形態5の効果***
以上のように、実施の形態5に係る学習推論装置10は、第1モデル41のスコアと第2モデル42のスコアとが近くなるように、第2モデルのパラメータを学習する。これにより、フィルタリングの結果だけでなく、フィルタリングに用いられた第1モデル41の内部状態も教師データとして第2モデル42を学習できる。そのため、安定して学習を進めることができる。
実施の形態6.
実施の形態6は、教師元データ311を任意の長さ単位でフィルタリングして得られた結果を結合して教師先データ312を生成する点が実施の形態1~5と異なる。実施の形態6では、この異なる点を説明し、同一の点については説明を省略する。
実施の形態6では、実施の形態1に機能を加えた場合について説明する。しかし、実施の形態2~5に機能を加えることも可能である。
***構成の説明***
図19を参照して、実施の形態6に係る学習推論装置10の構成を説明する。
学習推論装置10は、機能構成要素として、フィルタリングデータ結合部225を備える点が図2に示す学習推論装置10と異なる。フィルタリングデータ結合部225の機能は、他の機能構成要素と同様に、ソフトウェア又はハードウェアによって実現される。
***動作の説明***
図20を参照して、実施の形態6に係るフィルタリング処理を説明する。
ここでは、図4のステップS12のフィルタリング処理を説明する。しかし、図10のステップS31のフィルタリング処理についても同様である。図4のステップS12では、教師元データ311がフィルタリングされて教師元フィルタリングデータ321が生成されるが、図10のステップS31では、入力データ33がフィルタリングされて入力フィルタリングデータが生成される点が異なる。
ステップS61の処理は、図6のステップS21の処理と同じである。
(ステップS62:フィルタリング実行処理)
図21に示すように、フィルタリング実行部222は、教師元データ311を分割して得られた複数の分割データ35それぞれを対象の分割データ35に設定する。フィルタリング実行部222は、対象の分割データ35に含まれる要素をフィルタリングして、対象の分割データ35に対応する分割フィルタリングデータ36を生成する。
図21では、フィルタリング実行部222は、教師元データ311を2つに分割して2つの分割データ35を生成している。そして、フィルタリング実行部222は、2つの分割データ35それぞれについてフィルタリングして2つの分割フィルタリングデータ36を生成している。
なお、フィルタリング実行部222は、教師元データ311を任意の長さに分割すればよい。例えば、フィルタリング実行部222は、教師元データ311を話題毎に分割してもよい。また、フィルタリング実行部222は、教師元データ311を基準とする長さ毎に分割してもよい。
(ステップS63:フィルタリングデータ結合処理)
図21に示すように、フィルタリングデータ結合部225は、ステップS62で生成された複数の分割データ35それぞれに対応する分割フィルタリングデータ36を結合して、教師元フィルタリングデータ321を生成する。
図21では、フィルタリングデータ結合部225は、2つの分割データ35それぞれに対応する分割フィルタリングデータ36を結合して、教師元フィルタリングデータ321を生成している。
***実施の形態6の効果***
以上のように、実施の形態6に係る学習推論装置10は、教師元データ311を任意の長さ単位でフィルタリングして得られた結果を結合して教師元フィルタリングデータ321を生成する。これにより、フィルタリングに係る計算コストが大きくなってしまう場合に、コンテキストの欠落を防ぎながら、フィルタリングに係る計算コストを抑えることができる。
実施の形態7.
実施の形態7は、指定長さ以下になるまでフィルタリングとフィルタリングされたデータの結合とを繰り返す点が実施の形態6と異なる。実施の形態7では、この異なる点を説明し、同一の点については説明を省略する。
***動作の説明***
図22を参照して、実施の形態7に係るフィルタリング処理を説明する。
ここでは、図4のステップS12のフィルタリング処理を説明する。しかし、図10のステップS31のフィルタリング処理についても同様である。図4のステップS12では、教師元データ311がフィルタリングされて教師元フィルタリングデータ321が生成されるが、図10のステップS31では、入力データ33がフィルタリングされて入力フィルタリングデータが生成される点が異なる。
ステップS71からステップS73の処理は、図20のステップS61からステップS63の処理と同じである。
(ステップS74:長さ判定処理)
フィルタリングデータ結合部225は、ステップS73で生成された教師元フィルタリングデータ321の長さが指定長さ以下であるか否かを判定する。
フィルタリングデータ結合部225は、教師元フィルタリングデータ321の長さが指定長さ以下である場合には、処理を終了する。一方、フィルタリングデータ結合部225は、教師元フィルタリングデータ321の長さが指定長さ以下でない場合には、処理をステップS72に戻す。
図23に示すように、処理がステップS72に戻された場合には、フィルタリング実行部222は、ステップS73で生成された教師元フィルタリングデータ321を分割して得られた1つ以上に分割データ35それぞれを対象の分割データ35に設定する。フィルタリング実行部222は、対象の分割データ35に含まれる要素をフィルタリングして、対象の分割データ35に対応する分割フィルタリングデータ36を新たに生成する。そして、ステップS73でフィルタリングデータ結合部225は、新たに生成された分割フィルタリングデータ36を結合して、教師元フィルタリングデータ321を新たに生成する。
図23では、1度目のフィルタリング実行処理で2つの分割データ35それぞれに対して分割フィルタリングデータ36が生成され、教師元フィルタリングデータ321が生成されている。そして、2度目のフィルタリング実行処理では1つの分割データ35に対して分割フィルタリングデータ36が新たに生成され、分割フィルタリングデータ36がそのまま教師元フィルタリングデータ321に設定されている。
***実施の形態7の効果***
以上のように、実施の形態7に係る学習推論装置10は、指定長さ以下になるまでフィルタリングとフィルタリングされたデータの結合とを繰り返す。これにより、入力シーケンスが長い場合であっても、コンテキストの欠落を防ぎつつ、フィルタリングに係る計算コストを抑えながら、意図した長さの教師元フィルタリングデータ321を生成することができる。
実施の形態8.
実施の形態8は、フィルタリングして除いた要素に特殊トークンを付与する点が実施の形態1~7と異なる。実施の形態5では、この異なる点を説明し、同一の点については説明を省略する。
実施の形態8では、実施の形態1に機能を加えた場合について説明する。しかし、実施の形態2~7に機能を加えることも可能である。
***構成の説明***
図24を参照して、実施の形態8に係る学習推論装置10の構成を説明する。
学習推論装置10は、機能構成要素として、フィルタリング修正部226を備える点が図2に示す学習推論装置10と異なる。フィルタリング修正部226の機能は、他の機能構成要素と同様に、ソフトウェア又はハードウェアによって実現される。
***動作の説明***
図25を参照して、実施の形態8に係るフィルタリング処理を説明する。
ここでは、図4のステップS12のフィルタリング処理を説明する。しかし、図10のステップS31のフィルタリング処理についても同様である。図4のステップS12では、教師元データ311がフィルタリングされて教師元フィルタリングデータ321が生成されるが、図10のステップS31では、入力データ33がフィルタリングされて入力フィルタリングデータが生成される点が異なる。
ステップS81の処理は、図6のステップS21の処理と同じである。
(ステップS82:フィルタリング実行処理)
フィルタリング実行部222は、ステップS21で計算されたスコアに基づき、教師元データ311に含まれる要素をフィルタリングして、教師元フィルタリングデータ321を生成する。
この際、図26に示すように、フィルタリング実行部222は、フィルタリングにより除いた要素に特殊トークンを付与する。図26では、図9と同様に、入力2と入力4とが除かれ、入力1と入力3とを含む教師元フィルタリングデータ321が生成されている。そこで、フィルタリング実行部222は、除かれた入力2と入力4とに、特殊トークン[M]を付与する。
(ステップS83:フィルタリング修正処理)
フィルタリング修正部226は、ステップS82で行われたフィルタリングの結果を表示装置14に出力する。この際、フィルタリング修正部226は、フィルタリングによって除かれた要素に特殊トークン[M]を示した上で、教師元データ311の各要素を表示する。これにより、どの要素が除かれたかがユーザに分かるようにする。
そして、フィルタリング修正部226は、除くことが不適当であるとユーザが考える要素の指定を受け付ける。図27に示すように、フィルタリング修正部226は、除くことが不適当であると指定された要素について、除くのを止め、教師元フィルタリングデータ321に加える。図27では、入力2については除くことが不適当であると指定されたため、教師元フィルタリングデータ321に加えられている。
***実施の形態8の効果***
以上のように、実施の形態8に係る学習推論装置10は、フィルタリングして除いた要素に特殊トークンを付与する。これにより、フィルタリングにより除かれた要素をユーザが容易に特定することができる。
また、実施の形態8に係る学習推論装置10は、フィルタリング修正部226がユーザに指定された要素を教師元フィルタリングデータ321に加える。これにより、ユーザがフィルタリングされた結果を修正して、望ましい教師元フィルタリングデータ321を得ることができる。
なお、以上の説明における「部」を、「回路」、「工程」、「手順」、「処理」又は「処理回路」に読み替えてもよい。
以上、本開示の実施の形態及び変形例について説明した。これらの実施の形態及び変形例のうち、いくつかを組み合わせて実施してもよい。また、いずれか1つ又はいくつかを部分的に実施してもよい。なお、本開示は、以上の実施の形態及び変形例に限定されるものではなく、必要に応じて種々の変更が可能である。
10 学習推論装置、11 プロセッサ、12 メモリ、13 入力装置、14 表示装置、15 外部インタフェース、16 通信インタフェース、17 記録媒体、21 通常データ学習部、22 フィルタリング部、221 スコア計算部、222 フィルタリング実行部、223 フィルタリング調整部、224 スコア調整部、225 フィルタリングデータ結合部、226 フィルタリング修正部、23 フィルタリングデータ学習部、24 フィルタリングデータ推論部、31 第1教師データ、311 教師元データ、312 教師先データ、32 第2教師データ、321 教師元フィルタリングデータ、33 入力データ、34 出力データ、35 分割データ、36 分割フィルタリングデータ、41 第1モデル、42 第2モデル、101 学習装置、102 推論装置。

Claims (23)

  1. 変換元のシーケンスデータから変換先のシーケンスデータを推論する第1モデルにおける注意機構を用いて、変換元のシーケンスデータである教師元データと変換先のシーケンスデータである教師先データとを含む第1教師データにおける前記教師元データに含まれる複数の要素それぞれのスコアを計算し、前記複数の要素それぞれのスコアに基づき、前記教師元データに含まれる前記複数の要素をフィルタリングして教師元フィルタリングデータを生成するフィルタリング部と、
    前記フィルタリング部によって生成された前記教師元フィルタリングデータと前記教師先データとを含む第2教師データを入力として、前記教師元フィルタリングデータから前記教師先データに変換する第2モデルのパラメータを学習するフィルタリングデータ学習部と
    を備え
    前記フィルタリング部は、前記教師元データを分割して得られた複数の分割データそれぞれを対象の分割データとして、前記対象の分割データに含まれる要素をフィルタリングして、前記対象の分割データに対応する分割フィルタリングデータを生成し、
    さらに、前記複数の分割データそれぞれに対応する前記分割フィルタリングデータを結合して、前記教師元フィルタリングデータを生成するフィルタリングデータ結合部
    を備える学習装置。
  2. 変換元のシーケンスデータから変換先のシーケンスデータを推論する第1モデルにおける注意機構を用いて、変換元のシーケンスデータである教師元データと変換先のシーケンスデータである教師先データとを含む第1教師データにおける前記教師元データに含まれる複数の要素それぞれのスコアを計算し、前記複数の要素それぞれのスコアに基づき、前記教師元データに含まれる前記複数の要素をフィルタリングして教師元フィルタリングデータを生成するフィルタリング部と、
    前記フィルタリング部によって生成された前記教師元フィルタリングデータと前記教師先データとを含む第2教師データを入力として、前記教師元フィルタリングデータから前記教師先データに変換する第2モデルのパラメータを学習するフィルタリングデータ学習部と
    を備え
    前記フィルタリング部は、フィルタリングして除いた要素に特殊トークンを付与し、
    さらに、指定された前記特殊トークンを元の要素に戻すフィルタリング修正部
    を備える学習装置。
  3. 前記フィルタリング部は、
    前記複数の要素それぞれの前記スコアを計算するスコア計算部と、
    前記教師元データに含まれる前記複数の要素の並び順に従い前記スコア計算部によって計算された前記スコアを並べた場合に、前記スコアの変化量が大きい要素に近い要素が除かれ難くなるようにフィルタリング方法を調整するフィルタリング調整部と、
    前記フィルタリング調整部によって調整された前記フィルタリング方法に従いフィルタリングするフィルタリング実行部と
    を備える請求項1又は2に記載の学習装置。
  4. 前記フィルタリング部は、
    前記複数の要素それぞれの前記スコアを計算するスコア計算部と、
    前記スコア計算部によって計算された前記スコアに対して、前記スコアとは別の情報により重み付けして、前記スコアを調整するスコア調整部と、
    前記スコア調整部によって調整された前記スコアに基づきフィルタリングするフィルタリング実行部と
    を備える請求項1又は2に記載の学習装置。
  5. 前記フィルタリング部は、複数の割合それぞれを対象の割合として、前記教師元データに含まれる要素から前記対象の割合の要素を除くようにフィルタリングして、前記対象の割合に対応する前記教師元フィルタリングデータを生成し、
    前記フィルタリングデータ学習部は、前記複数の割合それぞれに対応する前記教師元フィルタリングデータを前記割合が低い方から順に対象の教師元フィルタリングデータとし、前記対象の教師元フィルタリングデータと前記教師先データとを含む第2教師データを入力として、前記対象の教師元フィルタリングデータから前記教師先データに変換する第2モデルのパラメータを学習する
    請求項1又は2に記載の学習装置。
  6. 前記フィルタリングデータ学習部は、前記第1モデルにおける注意機構による計算結果から得られるスコアと前記第2モデルにおける注意機構による計算結果から得られるスコアとが近くなるように、前記第2モデルのパラメータを学習する
    請求項1又は2に記載の学習装置。
  7. 前記フィルタリング部は、前記教師元フィルタリングデータが指定長さよりも長い場合には、前記教師元フィルタリングデータを分割して得られた1つ以上の分割データそれぞれを対象の分割データとして、前記対象の分割データに含まれる要素をフィルタリングして、前記対象の分割データに対応する分割フィルタリングデータを新たに生成し、
    前記フィルタリングデータ結合部は、新たに生成された前記分割フィルタリングデータを結合して、前記教師元フィルタリングデータを新たに生成する
    請求項に記載の学習装置。
  8. 変換元のシーケンスデータから変換先のシーケンスデータを推論する第1モデルにおける注意機構を用いて、変換元のシーケンスデータである入力データに含まれる複数の要素それぞれのスコアを計算し、前記複数の要素それぞれのスコアに基づき、前記入力データに含まれる前記複数の要素をフィルタリングして入力フィルタリングデータを生成するフィルタリング部と、
    変換元のシーケンスデータから変換先のシーケンスデータを推論する第2モデルを用いて、前記フィルタリング部によって生成された前記入力フィルタリングデータから出力データを推論するフィルタリングデータ推論部と
    を備え
    前記フィルタリング部は、前記入力データを分割して得られた複数の分割データそれぞれを対象の分割データとして、前記対象の分割データに含まれる要素をフィルタリングして、前記対象の分割データに対応する分割フィルタリングデータを生成し、
    さらに、前記複数の分割データそれぞれに対応する前記分割フィルタリングデータを結合して、前記入力フィルタリングデータを生成するフィルタリングデータ結合部
    を備える推論装置。
  9. 変換元のシーケンスデータから変換先のシーケンスデータを推論する第1モデルにおける注意機構を用いて、変換元のシーケンスデータである入力データに含まれる複数の要素それぞれのスコアを計算し、前記複数の要素それぞれのスコアに基づき、前記入力データに含まれる前記複数の要素をフィルタリングして入力フィルタリングデータを生成するフィルタリング部と、
    変換元のシーケンスデータから変換先のシーケンスデータを推論する第2モデルを用いて、前記フィルタリング部によって生成された前記入力フィルタリングデータから出力データを推論するフィルタリングデータ推論部と
    を備え
    前記フィルタリング部は、フィルタリングして除いた要素に特殊トークンを付与し、
    さらに、指定された前記特殊トークンを元の要素に戻すフィルタリング修正部
    を備える推論装置。
  10. 前記フィルタリング部は、
    前記複数の要素それぞれの前記スコアを計算するスコア計算部と、
    前記入力データに含まれる前記複数の要素の並び順に従い前記スコア計算部によって計算された前記スコアを並べた場合に、前記スコアの変化量が大きい要素の近傍の要素が除かれ難くなるようにフィルタリング方法を調整するフィルタリング調整部と、
    前記フィルタリング調整部によって調整された前記フィルタリング方法に従いフィルタリングするフィルタリング実行部と
    を備える請求項8又は9に記載の推論装置。
  11. 前記フィルタリング部は、
    前記複数の要素それぞれの前記スコアを計算するスコア計算部と、
    前記スコア計算部によって計算された前記スコアに対して、前記スコアとは別の情報により重み付けして、前記スコアを調整するスコア調整部と、
    前記スコア調整部によって調整された前記スコアに基づきフィルタリングするフィルタリング実行部と
    を備える請求項8又は9に記載の推論装置。
  12. 前記第2モデルは、変換元のシーケンスデータである教師元データと変換先のシーケンスデータである教師先データとを含む第1教師データにおける前記教師元データに含まれる前記複数の要素をフィルタリングして生成された教師元フィルタリングデータと前記教師先データとを含む第2教師データを入力として、パラメータが学習されることにより得られた
    請求項8又は9に記載の推論装置。
  13. 前記第2モデルは、複数の割合それぞれを対象の割合として、前記教師元データに含まれる要素から前記対象の割合の要素を除くようにフィルタリングして、前記対象の割合に対応する前記教師元フィルタリングデータが生成され、前記複数の割合それぞれに対応する前記教師元フィルタリングデータを前記割合が低い方から順に対象の教師元フィルタリングデータとし、前記対象の教師元フィルタリングデータと前記教師先データとを含む教師データを入力として、パラメータが学習されることにより得られた
    請求項12に記載の推論装置。
  14. 前記第2モデルは、前記第1モデルにおける注意機構による計算結果から得られるスコアと前記第2モデルにおける注意機構による計算結果から得られるスコアとが近くなるように、パラメータが学習されることにより得られた
    請求項12に記載の推論装置。
  15. 前記フィルタリング部は、前記入力フィルタリングデータが指定長さよりも長い場合には、前記入力フィルタリングデータを分割して得られた複数の分割データそれぞれを対象の分割データとして、前記対象の分割データに含まれる要素をフィルタリングして、前記対象の分割データに対応する分割フィルタリングデータを新たに生成し、
    前記フィルタリングデータ結合部は、新たに生成された前記分割フィルタリングデータを結合して、前記入力フィルタリングデータを新たに生成する
    請求項に記載の推論装置。
  16. コンピュータが、変換元のシーケンスデータから変換先のシーケンスデータを推論する第1モデルにおける注意機構を用いて、変換元のシーケンスデータである教師元データと変換先のシーケンスデータである教師先データとを含む第1教師データにおける前記教師元データに含まれる複数の要素それぞれのスコアを計算し、前記複数の要素それぞれのスコアに基づき、前記教師元データに含まれる前記複数の要素をフィルタリングして教師元フィルタリングデータを生成し、
    コンピュータが、前記教師元フィルタリングデータと前記教師先データとを含む第2教師データを入力として、前記教師元フィルタリングデータから前記教師先データに変換する第2モデルのパラメータを学習し、
    コンピュータが、前記教師元データを分割して得られた複数の分割データそれぞれを対象の分割データとして、前記対象の分割データに含まれる要素をフィルタリングして、前記対象の分割データに対応する分割フィルタリングデータを生成し、
    コンピュータが、前記複数の分割データそれぞれに対応する前記分割フィルタリングデータを結合して、前記教師元フィルタリングデータを生成する学習方法。
  17. コンピュータが、変換元のシーケンスデータから変換先のシーケンスデータを推論する第1モデルにおける注意機構を用いて、変換元のシーケンスデータである教師元データと変換先のシーケンスデータである教師先データとを含む第1教師データにおける前記教師元データに含まれる複数の要素それぞれのスコアを計算し、前記複数の要素それぞれのスコアに基づき、前記教師元データに含まれる前記複数の要素をフィルタリングして教師元フィルタリングデータを生成し、
    コンピュータが、前記教師元フィルタリングデータと前記教師先データとを含む第2教師データを入力として、前記教師元フィルタリングデータから前記教師先データに変換する第2モデルのパラメータを学習し、
    コンピュータが、フィルタリングして除いた要素に特殊トークンを付与し、
    コンピュータが、指定された前記特殊トークンを元の要素に戻す学習方法。
  18. 変換元のシーケンスデータから変換先のシーケンスデータを推論する第1モデルにおける注意機構を用いて、変換元のシーケンスデータである教師元データと変換先のシーケンスデータである教師先データとを含む第1教師データにおける前記教師元データに含まれる複数の要素それぞれのスコアを計算し、前記複数の要素それぞれのスコアに基づき、前記教師元データに含まれる前記複数の要素をフィルタリングして教師元フィルタリングデータを生成するフィルタリング処理と、
    前記フィルタリング処理によって生成された前記教師元フィルタリングデータと前記教師先データとを含む第2教師データを入力として、前記教師元フィルタリングデータから前記教師先データに変換する第2モデルのパラメータを学習するフィルタリングデータ学習処理と
    を行い、
    前記フィルタリング処理では、前記教師元データを分割して得られた複数の分割データそれぞれを対象の分割データとして、前記対象の分割データに含まれる要素をフィルタリングして、前記対象の分割データに対応する分割フィルタリングデータを生成し、
    さらに、前記複数の分割データそれぞれに対応する前記分割フィルタリングデータを結合して、前記教師元フィルタリングデータを生成するフィルタリングデータ結合処理
    を行う学習装置としてコンピュータを機能させる学習プログラム。
  19. 変換元のシーケンスデータから変換先のシーケンスデータを推論する第1モデルにおける注意機構を用いて、変換元のシーケンスデータである教師元データと変換先のシーケンスデータである教師先データとを含む第1教師データにおける前記教師元データに含まれる複数の要素それぞれのスコアを計算し、前記複数の要素それぞれのスコアに基づき、前記教師元データに含まれる前記複数の要素をフィルタリングして教師元フィルタリングデータを生成するフィルタリング処理と、
    前記フィルタリング処理によって生成された前記教師元フィルタリングデータと前記教師先データとを含む第2教師データを入力として、前記教師元フィルタリングデータから前記教師先データに変換する第2モデルのパラメータを学習するフィルタリングデータ学習処理と
    を行い、
    前記フィルタリング処理では、フィルタリングして除いた要素に特殊トークンを付与し、
    さらに、指定された前記特殊トークンを元の要素に戻すフィルタリング修正処理
    を行う学習装置としてコンピュータを機能させる学習プログラム。
  20. コンピュータが、変換元のシーケンスデータから変換先のシーケンスデータを推論する第1モデルにおける注意機構を用いて、変換元のシーケンスデータである入力データに含まれる複数の要素それぞれのスコアを計算し、前記複数の要素それぞれのスコアに基づき、前記入力データに含まれる前記複数の要素をフィルタリングして入力フィルタリングデータを生成し、
    コンピュータが、変換元のシーケンスデータから変換先のシーケンスデータを推論する第2モデルを用いて、前記入力フィルタリングデータから出力データを推論し、
    コンピュータが、前記入力データを分割して得られた複数の分割データそれぞれを対象の分割データとして、前記対象の分割データに含まれる要素をフィルタリングして、前記対象の分割データに対応する分割フィルタリングデータを生成し、
    コンピュータが、前記複数の分割データそれぞれに対応する前記分割フィルタリングデータを結合して、前記入力フィルタリングデータを生成する推論方法。
  21. コンピュータが、変換元のシーケンスデータから変換先のシーケンスデータを推論する第1モデルにおける注意機構を用いて、変換元のシーケンスデータである入力データに含まれる複数の要素それぞれのスコアを計算し、前記複数の要素それぞれのスコアに基づき、前記入力データに含まれる前記複数の要素をフィルタリングして入力フィルタリングデータを生成し、
    コンピュータが、変換元のシーケンスデータから変換先のシーケンスデータを推論する第2モデルを用いて、前記入力フィルタリングデータから出力データを推論し、
    コンピュータが、フィルタリングして除いた要素に特殊トークンを付与し、
    コンピュータが、指定された前記特殊トークンを元の要素に戻す推論方法。
  22. 変換元のシーケンスデータから変換先のシーケンスデータを推論する第1モデルにおける注意機構を用いて、変換元のシーケンスデータである入力データに含まれる複数の要素それぞれのスコアを計算し、前記複数の要素それぞれのスコアに基づき、前記入力データに含まれる前記複数の要素をフィルタリングして入力フィルタリングデータを生成するフィルタリング処理と、
    変換元のシーケンスデータから変換先のシーケンスデータを推論する第2モデルを用いて、前記フィルタリング処理によって生成された前記入力フィルタリングデータから出力データを推論するフィルタリングデータ推論処理と
    を行い、
    前記フィルタリング処理では、前記入力データを分割して得られた複数の分割データそれぞれを対象の分割データとして、前記対象の分割データに含まれる要素をフィルタリングして、前記対象の分割データに対応する分割フィルタリングデータを生成し、
    さらに、前記複数の分割データそれぞれに対応する前記分割フィルタリングデータを結合して、前記入力フィルタリングデータを生成するフィルタリングデータ結合処理
    を行う推論装置としてコンピュータを機能させる推論プログラム。
  23. 変換元のシーケンスデータから変換先のシーケンスデータを推論する第1モデルにおける注意機構を用いて、変換元のシーケンスデータである入力データに含まれる複数の要素それぞれのスコアを計算し、前記複数の要素それぞれのスコアに基づき、前記入力データに含まれる前記複数の要素をフィルタリングして入力フィルタリングデータを生成するフィルタリング処理と、
    変換元のシーケンスデータから変換先のシーケンスデータを推論する第2モデルを用いて、前記フィルタリング処理によって生成された前記入力フィルタリングデータから出力データを推論するフィルタリングデータ推論処理と
    を行い、
    前記フィルタリング処理は、フィルタリングして除いた要素に特殊トークンを付与し、
    さらに、指定された前記特殊トークンを元の要素に戻すフィルタリング修正処理
    を行う推論装置としてコンピュータを機能させる推論プログラム。
JP2025542382A 2024-02-19 2024-02-19 学習装置、学習方法、学習プログラム、推論装置、推論方法及び推論プログラム Active JP7745822B1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2024/005756 WO2025177345A1 (ja) 2024-02-19 2024-02-19 学習装置、学習方法、学習プログラム、推論装置、推論方法及び推論プログラム

Publications (3)

Publication Number Publication Date
JPWO2025177345A1 JPWO2025177345A1 (ja) 2025-08-28
JP7745822B1 true JP7745822B1 (ja) 2025-09-29
JPWO2025177345A5 JPWO2025177345A5 (ja) 2026-01-28

Family

ID=96846586

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2025542382A Active JP7745822B1 (ja) 2024-02-19 2024-02-19 学習装置、学習方法、学習プログラム、推論装置、推論方法及び推論プログラム

Country Status (2)

Country Link
JP (1) JP7745822B1 (ja)
WO (1) WO2025177345A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210182489A1 (en) * 2019-12-11 2021-06-17 Microsoft Technology Licensing, Llc Sentence similarity scoring using neural network distillation
US20220374766A1 (en) * 2021-05-20 2022-11-24 Samsung Electronics Co., Ltd. Learned threshold token pruning for transformer neural networks
CN117275040A (zh) * 2023-10-07 2023-12-22 浙江理工大学 一种基于决策网络和细化特征的高效人体姿态估计方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210182489A1 (en) * 2019-12-11 2021-06-17 Microsoft Technology Licensing, Llc Sentence similarity scoring using neural network distillation
US20220374766A1 (en) * 2021-05-20 2022-11-24 Samsung Electronics Co., Ltd. Learned threshold token pruning for transformer neural networks
CN117275040A (zh) * 2023-10-07 2023-12-22 浙江理工大学 一种基于决策网络和细化特征的高效人体姿态估计方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
朱 中元、中山英樹,文脈を考慮したアテンションメカニズムの計算量の削減,一般社団法人 人工知能学会 第31回全国大会論文集DVD [DVD-ROM],日本,一般社団法人人工知能学会,2017年05月26日,pp.1-4(2O4-2)
朱 中元、中山英樹: "文脈を考慮したアテンションメカニズムの計算量の削減", 一般社団法人 人工知能学会 第31回全国大会論文集DVD [DVD-ROM], JPN6024015221, 26 May 2017 (2017-05-26), JP, pages 1 - 4, ISSN: 0005667145 *

Also Published As

Publication number Publication date
WO2025177345A1 (ja) 2025-08-28
JPWO2025177345A1 (ja) 2025-08-28

Similar Documents

Publication Publication Date Title
Wang et al. Cat-gen: Improving robustness in nlp models via controlled adversarial text generation
US20230359898A1 (en) Augmentation of Audiographic Images for Improved Machine Learning
Oord et al. Parallel wavenet: Fast high-fidelity speech synthesis
Huang et al. SNDCNN: Self-normalizing deep CNNs with scaled exponential linear units for speech recognition
CN110782008B (zh) 深度学习模型的训练方法、预测方法和装置
US20210182662A1 (en) Training of neural network based natural language processing models using dense knowledge distillation
US12087272B2 (en) Training speech synthesis to generate distinct speech sounds
CN110556100A (zh) 端到端语音识别模型的训练方法及系统
CN110706692A (zh) 儿童语音识别模型的训练方法及系统
US11687723B2 (en) Natural language processing with missing tokens in a corpus
US11748594B2 (en) Electronic apparatus and control method thereof
Li et al. Deep causal speech enhancement and recognition using efficient long-short term memory Recurrent Neural Network
CN114203155A (zh) 训练声码器和语音合成的方法和装置
Wang et al. Attention‐based neural network for end‐to‐end music separation
JP7745822B1 (ja) 学習装置、学習方法、学習プログラム、推論装置、推論方法及び推論プログラム
CN117953874A (zh) 多模态通用模型的预训练方法、语音识别方法及相关装置
Chen et al. TRNet: Two-level Refinement Network leveraging speech enhancement for noise robust speech emotion recognition
CN114758649B (zh) 一种语音识别方法、装置、设备和介质
CN114299910B (zh) 语音合成模型的训练方法、使用方法、装置、设备及介质
CN113689867B (zh) 一种语音转换模型的训练方法、装置、电子设备及介质
CN115050379B (zh) 一种基于fhgan的高保真语音增强模型及其应用
US12205026B2 (en) Enhanced word embedding
Kinouchi et al. Domain adaptation using non-parallel target domain corpus for self-supervised learning-based automatic speech recognition
WO2024069978A1 (ja) 生成装置、学習装置、生成方法、学習方法、及びプログラム
CN114333762A (zh) 基于表现力的语音合成方法、系统、电子设备及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20250723

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20250723

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20250723

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20250819

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20250916

R150 Certificate of patent or registration of utility model

Ref document number: 7745822

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150