JP2020154076A - 推論器、学習方法および学習プログラム - Google Patents

推論器、学習方法および学習プログラム Download PDF

Info

Publication number
JP2020154076A
JP2020154076A JP2019051008A JP2019051008A JP2020154076A JP 2020154076 A JP2020154076 A JP 2020154076A JP 2019051008 A JP2019051008 A JP 2019051008A JP 2019051008 A JP2019051008 A JP 2019051008A JP 2020154076 A JP2020154076 A JP 2020154076A
Authority
JP
Japan
Prior art keywords
sequence
output
asr
encoder
attribute information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019051008A
Other languages
English (en)
Inventor
勝 李
Sheng Li
勝 李
シュガン ルー
Xugang Lu
シュガン ルー
ラジ ダブレ
Dabre Raj
ラジ ダブレ
恒 河井
Hisashi Kawai
恒 河井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2019051008A priority Critical patent/JP2020154076A/ja
Publication of JP2020154076A publication Critical patent/JP2020154076A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】音声信号の入力に対してテキストを含む出力シーケンスを生成するモデルにおいて、パラメータ数の増加を抑制しつつ、性能を向上させる。【解決手段】音声信号から生成された入力シーケンスを受けて、前記音声信号に対応するテキストを含む出力シーケンスを出力する推論器が提供される。推論器は、前記入力シーケンスから中間表現のシーケンスを出力するエンコーダと、前記エンコーダから出力される中間表現のシーケンス、および、先に出力された出力シーケンスから前記出力シーケンスを出力するデコーダとを含む学習済モデルを含む。前記学習済モデルは、音声信号と、当該音声信号に対応するテキストおよび属性情報とからなるトレーニングデータセットを用いて最適化されている。【選択図】図3

Description

本技術は、音声信号が入力される推論器、ならびに、その学習方法および学習プログラムに関する。
音声認識分野においては、音響モデル、辞書(lexicon)、および言語モデルを一体化したニューラルネットワークである、E2E(end-to-end)モデルが検討および提案されている(非特許文献1および2など参照)。E2Eモデルを用いることで、自動音声認識(ASR:Automatic Speech Recognition)システムの構築および学習を容易化できる。
このような音声認識タスクに向けられたE2Eモデルとして、トランスフォーマベースE2EのASRモデル(以下、「ASRトランスフォーマモデル」とも称す。)が注目されている(非特許文献3など参照)。
ASRトランスフォーマモデルは、エンコーダおよびデコーダから構成され、アテンションおよびフィードフォワードコンポーネントを用いることで、文脈間の依存性を見つけることができる。
また、ASRトランスフォーマモデルを多言語音声認識タスクに適用した場合にも良好な結果が得られることが報告されている(非特許文献4および5参照)。すなわち、ASRトランスフォーマモデルは、翻訳タスクへの応用も有望視されている。
A. Graves and N. Jaitly, "Towards End-to-End speech recognition with recurrent neural networks," in Proc. ICML, 2014. A. W. Chan, N. Jaitly, Q. Le, and O. Vinyals, "Listen, attend and spell: A neural network for large vocabulary conversational speech recognition," in Proc. IEEE-ICASSP, 2016. A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. Gomez, L. Kaiser, and I. Polosukhin, "Attention is all you need," in CoRR abs/1706.03762, 2017. S. Zhou, L. Dong, S. Xu, and B. Xu, "A comparison of modeling units in sequence-to-sequence speech recognition with the transformer on Mandarin Chinese," in CoRR abs/1805.06239, 2018. S. Zhou, L. Dong, S. Xu, and B. Xu, "Syllable-based sequence-to-sequence speech recognition with the transformer in mandarin Chinese," in Proc. INTERSPEECH, 2018.
ASRトランスフォーマモデルの音声認識性能を高める最も一般的な方法は、エンコーダおよびデコーダに多数のフィードフォワード層を積層することである。一方で、多数のフィードフォワード層を積層することで、パラメータ数の増加および応答性能の低下(デコード待ち時間の増加)が生じ得る。
本技術は、音声信号の入力に対してテキストを含む出力シーケンスを生成するモデルにおいて、パラメータ数の増加を抑制しつつ、性能を向上させることを目的とする。
ある実施の形態によれば、音声信号から生成された入力シーケンスを受けて、音声信号に対応するテキストを含む出力シーケンスを出力する推論器が提供される。推論器は、入力シーケンスから中間表現のシーケンスを出力するエンコーダと、エンコーダから出力される中間表現のシーケンス、および、先に出力された出力シーケンスから出力シーケンスを出力するデコーダとを含む学習済モデルを含む。学習済モデルは、音声信号と、当該音声信号に対応するテキストおよび属性情報とからなるトレーニングデータセットを用いて最適化されている。
出力シーケンスには、入力シーケンスに対応する属性情報に引き続いて、入力シーケンスに対応するテキストが配置されていてもよい。
出力シーケンスは、入力シーケンスに対応する複数種類の属性情報を含んでいてもよい。
出力シーケンスは、属性情報として、属性値を示すワンホット表現の値を含んでいてもよい。
出力シーケンスは、属性情報として、属性値を示すラベルを含んでいてもよい。
エンコーダは積層された複数のエンコーダブロックを含み、複数のエンコーダブロック間でパラメータが共有されてもよい。デコーダは積層された複数のデコータブロックを含み、複数のデコータブロック間でパラメータが共有されていてもよい。
別の実施の形態によれば、音声信号から生成された入力シーケンスを受けて、音声信号に対応するテキストを含む出力シーケンスを出力するモデルを学習させる学習方法が提供される。モデルは、入力シーケンスから中間表現のシーケンスを出力するエンコーダと、エンコーダから出力される中間表現のシーケンス、および、先に出力された出力シーケンスから出力シーケンスを出力するデコーダとを含む。学習方法は、音声信号と、当該音声信号に対応するテキストおよび属性情報とからなるトレーニングデータセットを用意するステップと、トレーニングデータセットを用いてモデルに含まれるパラメータを最適化するステップとを含む。
さらに別の実施の形態によれば、コンピュータに上述の学習方法を実行させるための学習プログラムが提供される。
本技術によれば、音声信号の入力に対してテキストを含む出力シーケンスを生成するモデルにおいて、パラメータ数の増加を抑制しつつ、性能を向上できる。
本実施の形態に従うASRトランスフォーマモデルの構成例を示す模式図である。 本実施の形態に従う改良されたASRトランスフォーマモデルの構成例を示す模式図である。 本実施の形態に従う学習処理を説明するための図である。 本実施の形態に従うASRトランスフォーマモデルに用いられる入力シーケンス6および出力シーケンスのデータ構造例を示す模式図である。 本実施の形態に従うASRトランスフォーマモデルを含む推論器を実現するハードウェア構成の一例を示す模式図である。 本実施の形態に従うASRトランスフォーマモデルの学習処理の手順を示すフローチャートである。 本実施の形態に従うASRトランスフォーマモデルを用いた推論処理の手順を示すフローチャートである。 本実施の形態に従うASRトランスフォーマモデルを用いたアプリケーション例を示す模式図である。
本発明の実施の形態について、図面を参照しながら詳細に説明する。なお、図中の同一または相当部分については、同一符号を付してその説明は繰り返さない。
[A.ASRトランスフォーマモデル]
まず、ASRトランスフォーマモデルの構成例について説明する。
図1は、本実施の形態に従うASRトランスフォーマモデルの構成例を示す模式図である。図1を参照して、ASRトランスフォーマモデル1は、入力シーケンス6の入力を受けて出力シーケンス8を出力する。ASRトランスフォーマモデル1の各パラメータは、後述するような学習処理により最適化される。このようにパラメータが最適化されたASRトランスフォーマモデル1が学習済モデルとなる。
ASRトランスフォーマモデル1を音声認識タスクに適用する場合には、入力シーケンス6を音声信号から生成し、出力シーケンス8をテキストとすればよい。また、ASRトランスフォーマモデル1を翻訳タスクに適用する場合には、入力シーケンス6を第1言語の音声信号から生成し、出力シーケンス8を第2の言語のテキストとすればよい。なお、出力シーケンス8には、複数言語のテキストを含めるようにしてもよい。この場合には、多言語音声認識タスクあるいは多言語翻訳タスクに対応できる。
このように、ASRトランスフォーマモデル1は、音声信号から生成された入力シーケンス6の入力を受けて、音声信号に対応するテキストを含む出力シーケンス8を出力するように、コンピュータを機能させるための学習済モデルである。そして、学習済モデルであるASRトランスフォーマモデル1は推論器として機能する。
ASRトランスフォーマモデル1は、エンコーダ10およびデコーダ20を含む。エンコーダ10は、入力シーケンス6をマッピングすることで、入力シーケンス6から中間表現のシーケンスを出力する。デコーダ20は、エンコーダ10から出力される中間表現のシーケンス、および、先に出力された出力シーケンス8に基づいて出力シーケンス8を出力する。出力シーケンス8は、シンボル(単音(phones)、音節(syllable)、単語(word)、語句(words)などの単位)を含んでいてもよい。ASRトランスフォーマモデル1は、アテンションおよびフィードフォワードコンポーネントを用いることで、入力シーケンス6に対する出力シーケンス8の生成を実現する。
エンコーダ10の前段には、PE(positional-encoding)30およびEmbedding層32が設けられている。PE30は、入力シーケンス6である音声に含まれるシンボルの位置情報(シーケンス内の相対的または絶対的な位置)を付加する。Embedding層32は、入力シーケンス6およびPE30からの位置情報を含むベクトルを生成する。
エンコーダ10は、積層された複数のエンコーダブロック12からなり、デコーダ20は、積層された複数のデコーダブロック22からなる。
エンコーダブロック12の各々は、MHA(multi-head self-attention)層14と、PFFN(positional-wise feed-forward networks)層16とを含む。MHA層14は、入力シーケンス6に含まれるベクトルに対してアテンションを演算する。PFFN層16は、位置順序に沿ったフィードフォワードを演算する。
図示していないが、MHA層14およびPFFN層16の各出力側には、Residual層および正規化層が設けられている。
デコーダ20は、エンコーダ10からの中間表現のシーケンスと、デコーダ20が先に出力した出力シーケンス(既出力)に含まれる特徴量を抽出して、出力シーケンス8を生成する。
デコーダ20の前段には、PE34およびEmbedding層36が設けられている。PE34は、出力シーケンス(既出力)に含まれるシンボルの位置情報(シーケンス内の相対的または絶対的な位置)を付加する。Embedding層36は、中間表現のシーケンスおよびPE34からの位置情報を含むベクトルを生成する。
デコーダ20は、積層された複数のデコーダブロック22からなる。デコーダブロック22の各々は、エンコーダ10を構成するエンコーダブロック12と類似した構成となっているが、Mask MHA層を含んでいる点が異なっている。すなわち、デコーダブロック22の各々は、Mask MHA層24と、MHA層26と、PFFN層28とを含む。Mask MHA層24は、既出力の存在しないベクトルに対してマスク処理を実行する。MHA層26はMHA層14と同様であり、PFFN層28はPFFN層16と同様である。
デコーダ20の後段には出力層40が設けられる。出力層40は、デコーダ20の最終出力を全結合して、ソフトマックス関数で演算した結果を出力シーケンス8として決定する。
図2は、本実施の形態に従う改良されたASRトランスフォーマモデルの構成例を示す模式図である。図2を参照して、ASRトランスフォーマモデル2は、図1に示すASRトランスフォーマモデル1に比較して、パラメータ数を低減することを目的として改良されたものである。
図2に示すASRトランスフォーマモデル2は、ブロック間でパラメータを共有するエンコーダ10Aおよびデコーダ20Aからなる。
エンコーダ10Aは、MHA層14およびPFFN層16を含むエンコーダブロック12と、エンコーダブロック12とパラメータを共有する1または複数の共有エンコーダブロック12Aとからなる。このように、エンコーダ10Aは、積層された複数のエンコーダブロックを含み、複数のエンコーダブロックの間でパラメータが共有される。すなわち、エンコーダ10Aにおいては、図1に示すASRトランスフォーマモデル2のエンコーダ10と同じ層数の演算が実行されるものの、その演算に用いられるパラメータは、エンコーダブロック12の単位で共通化される。
同様に、デコーダ20Aは、Mask MHA層24、MHA層26およびPFFN層28を含むデコーダブロック22と、デコーダブロック22とパラメータを共有する1または複数の共有デコーダブロック22Aとからなる。このように、デコーダ20Aは、積層された複数のデコーダブロックを含み、複数のデコーダブロックの間でパラメータが共有される。すなわち、デコーダ20Aにおいては、図1に示すASRトランスフォーマモデル2のデコーダ20と同じ層数の演算が実行されるものの、その演算に用いられるパラメータは、デコーダブロック22の単位で共通化される。
図2に示すようなASRトランスフォーマモデル2を用いることで、エンコーダ10およびデコーダ20を構成する各ブロックについてパラメータを用意するのに比較して、大幅にパラメータ数を低減できる。
しかしながら、図2に示すようなASRトランスフォーマモデル2の音声認識性能は、図1に示すASRトランスフォーマモデル1の音声認識性能より低下し得る。本実施の形態においては、図2に示すようなASRトランスフォーマモデル2を用いた場合であっても、十分な音声認識性能を発揮し得る学習処理および推論処理について説明する。
[B.学習処理および推論処理の概要]
次に、本実施の形態に従う学習処理および推論処理について説明する。
本実施の形態に従うASRトランスフォーマモデルに対しては、音声信号に対応するテキストだけではなく、当該音声信号に関連付けられる属性情報をも出力するように、学習処理が実行される。このような関連付けられる属性情報を含ませることで、図2に示すようなパラメータ数を低減させたASRトランスフォーマモデルであっても、音声認識性能を維持することができる。
図3は、本実施の形態に従う学習処理を説明するための図である。図3を参照して、音声信号52と対応するテキスト54および属性情報56とからなるトレーニングデータセット50が用意される。トレーニングデータセット50に含まれる音声信号52から生成される入力シーケンス6をASRトランスフォーマモデル2に入力したときに演算される出力シーケンス8(テキストおよび属性情報を含む)と、トレーニングデータセット50に含まれるテキスト54および属性情報56との誤差に基づいて、ASRトランスフォーマモデル2を規定するパラメータが最適化される。
すなわち、ASRトランスフォーマモデル2(より正確には、ASRトランスフォーマモデル2に含まれる各パラメータ)は、音声信号52と、音声信号52に対応するテキスト54および属性情報56とからなるトレーニングデータセット50を用いて最適化される。
ASRトランスフォーマモデル2においては、入力シーケンス6として、可変長の音声特徴ベクトルが順次入力され、対応する出力シーケンス8が順次決定される。テキストおよび属性情報を順次決定される出力シーケンス8にどのように含めるのかについては任意に設計できる。
本実施の形態においては、一例として、出力シーケンス8の先頭部分に対応する1または複数の属性情報を配置するとともに、属性情報に引き続く部分にテキストを配置する。
図4は、本実施の形態に従うASRトランスフォーマモデルに用いられる入力シーケンス6および出力シーケンス8のデータ構造例を示す模式図である。図4を参照して、ASRトランスフォーマモデル2に入力される入力シーケンス6は、入力される音声信号から生成された音声特徴ベクトルを含む。また、ASRトランスフォーマモデル2から出力される出力シーケンス8は、先頭部分に1または複数の属性情報が配置されるとともに、その属性情報に続いてテキストが配置される。このように、出力シーケンス8には、入力シーケンス6に対応する属性情報に引き続いて、入力シーケンス6に対応するテキストが配置される。
また、図4に示すように、出力シーケンス8は、入力シーケンス6に対応する複数種類の属性情報を含んでいてもよい。
通常、属性情報の数および種類が予め定められているのに対して、テキストの長さは可変長である。そのため、図4に示すようなデータ構成を採用することで、出力シーケンス8において、属性情報とテキストとを容易に分離できる。そのため、ASRトランスフォーマモデル2のデコーダ20に与える出力シーケンス(既出力)の生成処理なども容易化する。
なお、属性情報は、各属性値(カテゴリ)に割り当てられた数値(ワンホット表現)が用いられてもよいし、各属性値を示すラベル(トークン)が用いられてもよい。これらの表現の相違による性能差については、後述する。
推論処理においては、学習済のASRトランスフォーマモデル2に対して音声信号を入力すると、対応する属性情報が出力された後に、対応するテキストが出力されることになる。後述するように、入力された音声信号に対応するテキストおよび属性情報の両方を用いてもよいし、いずれか一方のみを用いるようにしてもよい。出力シーケンス8の利用形態については、適用されるアプリケーションに応じて任意に設計できる。
[C.属性情報]
入力される音声信号に関連付けられる属性情報としては任意の情報を用いることができる。一例として、以下のような属性情報を用いてもよい。
(1)発話長さ(DUR:Duration of the utterance)
属性値としては、「Short」(例えば、3秒以下)および「Long」(例えば、3秒より長い)を設定できる。
(2)発話の内容(TOP:Topic of the lecture)
属性値としては、「Academic」(学術)、「Simulated」(仮想の内容)、「Dialogue」(会話)、「Read」(書籍の内容)、「Misc」(その他)、「Unknown」(未知)などを設定できる。
(3)話者の性別(SEX:Sex of the speaker)
属性値としては、「Male」(男性)、「Female」(女性)、「Unknown」(未知)などを設定できる。
(4)話者の年齢(AGE:Age of the speaker)
属性値としては、「Young」(10−20代)、「Middle−age」(30−50代)、「Old」(60−80代)、Unknown(未知)などを設定できる。
(5)話者の学歴(EDU:Education of the speaker)
属性値としては、「Middle−school」(中卒)、「Highschool」(高卒)、「Bechelor」(学士)、「Master−Doctor」(修士または博士)、「Unknown」(未知)などを設定できる。
(6)話者の識別情報(SPK:The speaker)
属性値としては、話者ごとに設定された識別情報などを設定できる。
これらの属性情報は、トレーニングデータセット50を生成する際の事前情報などから決定してもよいし、トレーニングデータセット50に含まれる情報から任意の方法で推定するようにしてもよい。
上述の属性情報の種類および属性値はいずれも任意に選択されたものであり、アプリケーションなどに応じて、任意の種類の属性情報および属性値を設計できる。
[D.ハードウェア構成]
次に、本実施の形態に従うASRトランスフォーマモデルを含む推論器を実現するためのハードウェア構成の一例について説明する。
図5は、本実施の形態に従うASRトランスフォーマモデルを含む推論器を実現するハードウェア構成の一例を示す模式図である。ASRトランスフォーマモデルは、典型的には、コンピュータの一例である情報処理装置500を用いて実現される。
図5を参照して、ASRトランスフォーマモデルを実現する情報処理装置500は、主要なハードウェアコンポーネントとして、CPU(central processing unit)502と、GPU(graphics processing unit)504と、主メモリ506と、ディスプレイ508と、ネットワークインターフェイス(I/F:interface)510と、二次記憶装置512と、入力デバイス522と、光学ドライブ524とを含む。これらのコンポーネントは、内部バス528を介して互いに接続される。
CPU502および/またはGPU504は、本実施の形態に従うASRトランスフォーマモデルの実現に必要な処理を実行するプロセッサである。CPU502およびGPU504は、複数個配置されてもよいし、複数のコアを有していてもよい。
主メモリ506は、プロセッサ(CPU502および/またはGPU504)が処理を実行するにあたって、プログラムコードやワークデータなどを一時的に格納(あるいは、キャッシュ)する記憶領域であり、例えば、DRAM(dynamic random access memory)やSRAM(static random access memory)などの揮発性メモリデバイスなどで構成される。
ディスプレイ508は、処理に係るユーザインターフェイスや処理結果などを出力する表示部であり、例えば、LCD(liquid crystal display)や有機EL(electroluminescence)ディスプレイなどで構成される。
ネットワークインターフェイス510は、インターネット上またはイントラネット上の任意の情報処理装置などとの間でデータを遣り取りする。ネットワークインターフェイス510としては、例えば、イーサネット(登録商標)、無線LAN(local area network)、Bluetooth(登録商標)などの任意の通信方式を採用できる。
入力デバイス522は、ユーザからの指示や操作などを受け付けるデバイスであり、例えば、キーボード、マウス、タッチパネル、ペンなどで構成される。また、入力デバイス522は、学習およびデコーディングに必要な音声信号を収集するための集音デバイスを含んでいてもよいし、集音デバイスにより収集された音声信号の入力を受け付けるためのインターフェイスを含んでいてもよい。
光学ドライブ524は、CD−ROM(compact disc read only memory)、DVD(digital versatile disc)などの光学ディスク526に格納されている情報を読出して、内部バス528を介して他のコンポーネントへ出力する。光学ディスク526は、非一過的(non-transitory)な記録媒体の一例であり、任意のプログラムを不揮発的に格納した状態で流通する。光学ドライブ524が光学ディスク526からプログラムを読み出して、二次記憶装置512などにインストールすることで、コンピュータが情報処理装置500として機能するようになる。したがって、本発明の主題は、二次記憶装置512などにインストールされたプログラム自体、または、本実施の形態に従う機能や処理を実現するためのプログラムを格納した光学ディスク526などの記録媒体でもあり得る。
図5には、非一過的な記録媒体の一例として、光学ディスク526などの光学記録媒体を示すが、これに限らず、フラッシュメモリなどの半導体記録媒体、ハードディスクまたはストレージテープなどの磁気記録媒体、MO(magneto-optical disk)などの光磁気記録媒体を用いてもよい。
二次記憶装置512は、コンピュータを情報処理装置500として機能させるために必要なプログラムおよびデータを格納する。例えば、ハードディスク、SSD(solid state drive)などの不揮発性記憶装置で構成される。
より具体的には、二次記憶装置512は、図示しないOS(operating system)の他、学習処理を実現するための学習プログラム514と、ASRトランスフォーマモデルの構造を定義するモデル定義データ516と、ASRトランスフォーマモデル(学習済モデル)を規定する複数のパラメータからなるパラメータセット518と、トレーニングデータセット50とを格納している。
学習プログラム514は、プロセッサ(CPU502および/またはGPU504)により実行されることで、パラメータセット518を決定するための学習処理を実現する。すなわち、学習プログラム514は、コンピュータにASRトランスフォーマモデル2を学習させるための学習方法を実行させる。
モデル定義データ516は、ASRトランスフォーマモデルに含まれるコンポーネントおよびコンポーネント間の接続関係などを定義するための情報を含む。パラメータセット518は、ASRトランスフォーマモデルを構成する各コンポーネントについてのパラメータを含む。パラメータセット518に含まれる各パラメータは、学習プログラム514の実行により最適化される。トレーニングデータセット50は、図4に示すようなデータの組み合わせからなる。
プロセッサ(CPU502および/またはGPU504)がプログラムを実行する際に必要となるライブラリや機能モジュールの一部を、OSが標準で提供するライブラリまたは機能モジュールにより代替してもよい。この場合には、プログラム単体では、対応する機能を実現するために必要なプログラムモジュールのすべてを含むものにはならないが、OSの実行環境下にインストールされることで、目的の処理を実現できる。このような一部のライブラリまたは機能モジュールを含まないプログラムであっても、本発明の技術的範囲に含まれ得る。
また、これらのプログラムは、上述したようないずれかの記録媒体に格納されて流通するだけでなく、インターネットまたはイントラネットを介してサーバ装置などからダウンロードすることで配布されてもよい。
図5には、単一のコンピュータを用いて情報処理装置500を構成する例を示すが、これに限らず、コンピュータネットワークを介して接続された複数のコンピュータが明示的または黙示的に連携して、ASRトランスフォーマモデルを含む推論器を実現するようにしてもよい。
プロセッサ(CPU502および/またはGPU504)がプログラムを実行することで実現される機能の全部または一部を、集積回路などのハードワイヤード回路(hard-wired circuit)を用いて実現してもよい。例えば、ASIC(application specific integrated circuit)やFPGA(field-programmable gate array)などを用いて実現してもよい。
当業者であれば、本発明が実施される時代に応じた技術を適宜用いて、本実施の形態に従う情報処理装置500を実現できるであろう。
説明の便宜上、同一の情報処理装置500を用いて、学習処理および推論処理を実行する例を示すが、学習処理および推論処理を異なるハードウェアを用いて実現してもよい。
[E.学習処理の手順]
次に、本実施の形態に従うASRトランスフォーマモデルの学習処理について説明する。
図6は、本実施の形態に従うASRトランスフォーマモデルの学習処理の手順を示すフローチャートである。図6に示す主要なステップは、典型的には、情報処理装置500のプロセッサ(CPU502および/またはGPU504)が学習プログラム514を実行することで実現される。
図6を参照して、音声信号52および対応するテキスト54からなるデータセットを用意する(ステップS100)。用意されたデータセットに含まれる音声信号52に関連付けられる属性情報56を付与することで、トレーニングデータセットを生成する(ステップS102)。なお、ステップS100およびステップS102の処理を必ずしも分ける必要はない。このように、ステップS100およびS102においては、音声信号52と、音声信号52に対応するテキスト54および属性情報56とからなるトレーニングデータセットが用意される。
続いて、情報処理装置500は、ASRトランスフォーマモデルのパラメータを初期化する(ステップS104)。そして、パラメータの最適化が実行される。すなわち、トレーニングデータセットを用いてASRトランスフォーマモデルに含まれるパラメータが最適化される。
情報処理装置500は、トレーニングデータセットに含まれる音声信号から入力シーケンスを生成し(ステップS106)、ASRトランスフォーマモデルに入力して出力シーケンスを演算する(ステップS108)。そして、情報処理装置500は、出力シーケンスに含まれるテキスト(推論結果)および属性情報(推論結果)と、トレーニングデータセットの対応するテキスト(正解)および属性情報(正解)とを比較して誤差情報を演算し(ステップS110)、当該演算した誤差情報に基づいてパラメータを最適化する(ステップS112)。
情報処理装置500は、予め定められた学習処理の終了条件が満たされているか否かを判断する(ステップS114)。予め定められた学習処理の終了条件が満たされていなければ(ステップS114においてNO)、情報処理装置500は、トレーニングデータセットに含まれる別の音声信号を選択して、ステップS106以下の処理を再度実行する。
これに対して、予め定められた学習処理の終了条件が満たされていれば(ステップS114においてYES)、情報処理装置500は、当該時点のパラメータ値で規定されるASRトランスフォーマモデルを学習済モデルとして決定する(ステップS116)。このときのパラメータ値がパラメータセット518として出力される。そして、処理は終了する。
[F.推論処理の手順]
次に、本実施の形態に従うASRトランスフォーマモデル2を用いた推論処理について説明する。すなわち、ASRトランスフォーマモデル2を含む推論器の動作について説明する。
図7は、本実施の形態に従うASRトランスフォーマモデル2を用いた推論処理の手順を示すフローチャートである。推論処理は、典型的には、情報処理装置500のプロセッサ(CPU502および/またはGPU504)がASRトランスフォーマモデル(モデル定義データ516およびパラメータセット518)に従う演算を行うことで実現される。
図7を参照して、情報処理装置500は、入力される音声信号から音声特徴ベクトルを演算することで入力シーケンスを生成する(ステップS200)。情報処理装置500は、生成した入力シーケンスをASRトランスフォーマモデルに入力して、推論結果として、出力シーケンスを演算する(ステップS202)。続いて、情報処理装置500は、演算した出力シーケンスに含まれるテキストおよび属性情報をそれぞれ出力する(ステップS204)。
そして、情報処理装置500は、音声信号の入力が継続しているか否かを判断する(ステップS206)。音声信号の入力が継続していれば(ステップS206においてYES)、ステップS200以下の処理が繰り返される。
一方、音声信号の入力が継続していなければ(ステップS206においてNO)、推論処理は一旦終了する。
[G.性能評価]
本願発明者らは、本実施の形態に従うASRトランスフォーマモデルの性能について評価実験を行った。以下、評価実験の内容および結果について説明する。
(g1:トレーニングデータおよび評価データ)
評価実験には、トレーニングデータおよび評価データとして、国立国語研究所が提供している「日本語話し言葉コーパス(Corpus of Spontaneous Japanese:CSJ)」を用いた。
先行研究における知見に従って、CSJに含まれる240時間分の講演の音声をトレーニングデータセット(以下、「CSJ−Train」とも称す。)として構成した。CSJは、3個の公式の評価データセット(CSJ−Eval01,CSJ−Eval02,CSJ−Eval03)を含む。各評価データセットは、10講演分の音声を含む。これらの評価データセットを音声認識結果の評価に用いた。また、10講演分の音声からなる開発データセット(CSJ−Dev)をトレーニング中の評価用として用いた。
(g2:ASRトランスフォーマモデル1およびASRトランスフォーマモデル2)
まず、図1に示すASRトランスフォーマモデル1と図2に示すASRトランスフォーマモデル2とについて、音声認識性能および処理速度の評価結果を示す。
ASRトランスフォーマモデル1(Table1において「Full」と記す。)については、エンコーダ10およびデコーダ20の各々が、1,2,3,4,5,6,9個のブロックを有する場合について音声認識性能および処理速度をそれぞれ評価した。
ASRトランスフォーマモデル2(Table1において「Shared」と記す。)についても同様に、エンコーダ10Aおよびデコーダ20Aの各々が、1,2,3,4,5,6,9個のブロックを有する場合について音声認識性能および処理速度をそれぞれ評価した。
Table1において、「Blocks」の列の(n−n)は、エンコーダおよびデコーダの数を示す。
評価に用いたモデルにおいては、エンコーダブロックおよびデコーダブロックの一組が約36×10個のパラメータを有している。そのため、ASRトランスフォーマモデル1(Full)においては、エンコーダ10およびデコーダ20のブロック数に応じてパラメータが増加する。これに対して、ASRトランスフォーマモデル2(Shared)においては、ブロック間でパラメータが共有されるため、ブロック数が増加してもパラメータ数は変化しない。そのため、例えば、6−6のモデルで比較すると、パラメータ数は1/6に低減できる。
Table1には、ASRトランスフォーマモデル1(Full)およびASRトランスフォーマモデル2(Shared)の各々について、推論処理における音声認識性能および処理速度を評価した結果を示す。なお、上述したような属性情報は用いることなく学習処理を行った結果を示す。
音声認識性能の評価指標として、文字誤り率(CER%:Character Error Rate)を用いている。処理速度の評価指標として、実時間ファクタ(RTD(real-time factor)を用いている。なお、実時間ファクタとしては、NVIDIA社製のTesla K40mプロセッサを1台用いた場合の処理時間が示されている。
また、Table1において、「E01」,「E02」,「E03」は、CSJ−Eval01,CSJ−Eval02,CSJ−Eval03をそれぞれ意味する。
Table1の音声認識性能(CER%)において、t−検定でp<0.05であるものを太字で示している。
Table1を参照して、例えば、6−6のモデルで比較すると、ASRトランスフォーマモデル2(Shared)は、処理速度を2倍以上高めることができる(0.054vs0.115)ものの、平均の音声認識性能は1.8%低下している(8.4vs6.6)ことが分かる。
(g3:属性情報を用いた学習)
次に、図2に示すASRトランスフォーマモデル2について、属性情報を含むトレーニングデータセットを用いた学習処理を行った場合の音声認識性能および処理速度の評価結果を示す。
属性情報の一例として、発話長さ(DUR)、発話の内容(TOP)、話者の性別(SEX)、話者の年齢(AGE)、話者の学歴(EDU)、話者の識別情報(SPK)の6種類を想定した。Table2には、これらの6種類の属性情報から選択された1〜5種類の属性情報を組み合わせた場合のそれぞれについて音声認識性能(CER%)を評価した結果を示す。なお、ASRトランスフォーマモデル2のエンコーダ10およびデコーダ20のブロック数は、いずれも6とした。
Table2の音声認識性能(CER%)において、t−検定でp<0.05であるものを太字で示している。
Table2に示される評価結果によれば、単一の属性情報としては、性別(SEX)を用いた場合に最も高い音声認識性能を得ることができた。属性情報の組み合わせのうち、発話長さ(DUR)、発話の内容(TOP)、話者の性別(SEX)、話者の年齢(AGE)を用いた場合に最大の音声認識性能(平均値:6.9)を得ることができた。但し、性別(SEX)および発話長さ(DUR)の2種類からなる属性情報の組み合わせを用いることで、遜色のない音声認識性能(平均値:6.9)を得ることができる。
これらの音声認識性能は、属性情報を用いない場合のASRトランスフォーマモデル1(Full)の音声認識性能(平均値:6.6)に対しても遜色がない。
(g4:属性情報の表現による性能差)
次に、属性情報の表現による性能差についての評価結果を示す。
上述したように、属性情報は、各属性値(カテゴリ)に割り当てられた数値(ワンホット表現)として出力シーケンスに含める方法(feature−based method)を採用してもよいし、各属性値を示すラベル(トークン)として出力シーケンスに含める方法(label−based method)を採用してもよい。前者の場合には、出力シーケンス8は、属性情報として、属性値を示すワンホット表現の値を含む。一方、後者の場合には、出力シーケンス8は、属性情報として、属性値を示すラベルを含む。
Table3には、これらの2つの方法による音声認識性能および処理速度の評価結果を示す。なお、ASRトランスフォーマモデル2のエンコーダ10およびデコーダ20のブロック数は、いずれも6とした。
Table3の音声認識性能(CER%)において、t−検定でp<0.05であるものを太字で示している。
Table3に示す評価結果によれば、各属性値を示すラベル(トークン)として出力シーケンスに含める方法(label−based method)を用いる方が音声認識性能を高めることができる。一方で、各属性値(カテゴリ)に割り当てられた数値(ワンホット表現)として出力シーケンスに含める方法(feature−based method)を用いる方が処理速度を高めることができる。
このように、音声認識性能および処理速度のいずれを優先するのかに応じて、いずれかの方法を適宜採用すればよいことが分かる。
[H.アプリケーション例]
次に、本実施の形態に従うASRトランスフォーマモデルを用いたアプリケーションの一例について説明する。
図8は、本実施の形態に従うASRトランスフォーマモデルを用いたアプリケーション例を示す模式図である。図8には、推論器の一例として、多言語翻訳システム100を示す。
図8を参照して、多言語翻訳システム100は、通信ネットワーク80を介して接続される携帯端末90からの入力音声(第1言語で発話された何らかのことば)に対応するテキストを出力し、当該出力されたテキストに対応する音声を合成して、出力音声として携帯端末90へ出力する。
例えば、ユーザUSRは、携帯端末90に対して、「Where is the station ?」という英語のことばを発すると、携帯端末90は、その発話されたことばからマイクロフォンなどにより入力音声を生成し、生成した入力音声を多言語翻訳システム100へ送信する。多言語翻訳システム100は、「Where is the station ?」に対応する、日本語の「駅はどこですか?」ということばを示す出力音声を応答する。携帯端末90は、多言語翻訳システム100からの出力音声を再生する。これによって、ユーザUSRの対話相手には、日本語の「駅はどこですか?」とのことばが聞こえる。
図示していないが、ユーザUSRの対話相手も同様の携帯端末90を有していてもよく、例えば、ユーザUSRからの質問に対して、「まっすぐ行って左です」との回答を自身の携帯端末90に向かって発すると、上述したような処理が実行されて、ユーザUSRの対話相手の携帯端末90から、対応する英語の「Go straight and turn left」ということばが回答される。
このような自動音声翻訳の機能を利用することで、外国旅行や外国人とのコミュニケーションを容易化できる。
多言語翻訳システム100は、多言語翻訳に関するコンポーネントとして、携帯端末90との間で通信処理を行うための通信処理部60と、ASRトランスフォーマモデル2と、音声合成部70とを含む。
ASRトランスフォーマモデル2は、入力される音声信号(入力音声)に対応するテキストおよび属性情報を出力する。多言語翻訳を実現するためには、ASRトランスフォーマモデル2からテキストのみを音声合成部70に出力するようにしてもよい。但し、対応する属性情報を音声合成部70に与えることで、より提供するサービスの品質を高めることができる。
例えば、属性情報として話者の性別(SEX)を出力する場合には、音声合成部70は、性別に応じた音声を合成して出力することができる。これにより、男性が第1言語で発話した場合には男性の声で出力音声を合成するとともに、女性が第1言語で発話した場合には女性の声で出力音声が合成することができる。
さらに、本実施の形態に従うASRトランスフォーマモデル2を用いることで、入力される音声信号(入力音声)を発話したユーザUSRの属性情報を取得できるので、これらの属性情報に応じた任意のサービスを提供してもよい。
[I.まとめ]
本実施の形態に従う学習処理によれば、音声信号と対応するテキストだけではなく、対応する属性情報をも含むデータセットを用いて、ASRトランスフォーマモデルを学習させることで、音声認識性能を高めることができる。
この結果、ASRトランスフォーマモデルにおいて、積層された複数のエンコーダブロックの間またはデコーダブロックの間でパラメータを共有化するような手法により、モデルを規定するパラメータ数を低減させた場合であっても、音声認識性能を維持できる。
また、ASRトランスフォーマモデルをコンパクト化して処理速度を高めた場合であっても、所定の音声認識性能を維持できる。
さらに、本実施の形態に従うASRトランスフォーマモデルによれば、入力された音声信号に関連付けられる属性情報のみを出力することもできる。このような属性情報を用いることで、音声信号に関連付けられた各種サービスを提供することもできる。
今回開示された実施の形態は、すべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した実施の形態の説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
1,2 ASRトランスフォーマモデル、6 入力シーケンス、8 出力シーケンス、10,10A エンコーダ、12 エンコーダブロック、12A 共有エンコーダブロック、14,26 MHA層、16,28 PFFN層、20,20A デコーダ、22 デコーダブロック、22A 共有デコーダブロック、24 Mask MHA層、30,34 PE、32,36 Embedding層、40 出力層、50 トレーニングデータセット、52 音声信号、54 テキスト、56 属性情報、60 通信処理部、70 音声合成部、80 通信ネットワーク、90 携帯端末、100 多言語翻訳システム、500 情報処理装置、502 CPU、504 GPU、506 主メモリ、508 ディスプレイ、510 ネットワークインターフェイス、512 二次記憶装置、514 学習プログラム、516 モデル定義データ、518 パラメータセット、522 入力デバイス、524 光学ドライブ、526 光学ディスク、528 内部バス、USR ユーザ。

Claims (6)

  1. 音声信号から生成された入力シーケンスを受けて、前記音声信号に対応するテキストを含む出力シーケンスを出力する推論器であって、
    推論器は、前記入力シーケンスから中間表現のシーケンスを出力するエンコーダと、前記エンコーダから出力される中間表現のシーケンス、および、先に出力された出力シーケンスから前記出力シーケンスを出力するデコーダとを含む学習済モデルを備えており、
    前記学習済モデルは、音声信号と、当該音声信号に対応するテキストおよび属性情報とからなるトレーニングデータセットを用いて最適化されている、推論器。
  2. 前記出力シーケンスには、前記入力シーケンスに対応する属性情報に引き続いて、前記入力シーケンスに対応するテキストが配置されている、請求項1に記載の推論器。
  3. 前記出力シーケンスは、前記入力シーケンスに対応する複数種類の属性情報を含む、請求項1または2に記載の推論器。
  4. 前記エンコーダは積層された複数のエンコーダブロックを含み、前記複数のエンコーダブロック間でパラメータが共有され、
    前記デコーダは積層された複数のデコータブロックを含み、前記複数のデコータブロック間でパラメータが共有されている、請求項1〜3のいずれか1項に記載の推論器。
  5. 音声信号から生成された入力シーケンスを受けて、前記音声信号に対応するテキストを含む出力シーケンスを出力するモデルを学習させる学習方法であって、
    前記モデルは、
    前記入力シーケンスから中間表現のシーケンスを出力するエンコーダと、
    前記エンコーダから出力される中間表現のシーケンス、および、先に出力された出力シーケンスから前記出力シーケンスを出力するデコーダとを含み、
    前記学習方法は、
    音声信号と、当該音声信号に対応するテキストおよび属性情報とからなるトレーニングデータセットを用意するステップと、
    前記トレーニングデータセットを用いて前記モデルに含まれるパラメータを最適化するステップとを含む、学習方法。
  6. コンピュータに請求項5に記載の学習方法を実行させるための学習プログラム。
JP2019051008A 2019-03-19 2019-03-19 推論器、学習方法および学習プログラム Pending JP2020154076A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019051008A JP2020154076A (ja) 2019-03-19 2019-03-19 推論器、学習方法および学習プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019051008A JP2020154076A (ja) 2019-03-19 2019-03-19 推論器、学習方法および学習プログラム

Publications (1)

Publication Number Publication Date
JP2020154076A true JP2020154076A (ja) 2020-09-24

Family

ID=72558838

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019051008A Pending JP2020154076A (ja) 2019-03-19 2019-03-19 推論器、学習方法および学習プログラム

Country Status (1)

Country Link
JP (1) JP2020154076A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112951200A (zh) * 2021-01-28 2021-06-11 北京达佳互联信息技术有限公司 语音合成模型的训练方法、装置、计算机设备及存储介质
CN113821053A (zh) * 2021-09-28 2021-12-21 中国民航大学 一种基于语音识别和关系抽取技术的飞行辅助方法和系统
JP2022020006A (ja) * 2021-03-04 2022-01-27 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド ニューラルネットワークモデルの事前トレーニング方法、装置、電子機器及び媒体
JP2022020051A (ja) * 2020-11-18 2022-01-31 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 意味認識方法、装置、機器及び記憶媒体
WO2023073886A1 (ja) * 2021-10-28 2023-05-04 日本電気株式会社 情報処理システム、情報処理装置、情報処理方法、及び記録媒体

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017159614A1 (ja) * 2016-03-14 2017-09-21 オムロン株式会社 学習サービス提供装置
WO2018051945A1 (ja) * 2016-09-14 2018-03-22 日本電気株式会社 音声処理装置、音声処理方法、および記録媒体
WO2018071389A1 (en) * 2016-10-10 2018-04-19 Google Llc Very deep convolutional neural networks for end-to-end speech recognition

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017159614A1 (ja) * 2016-03-14 2017-09-21 オムロン株式会社 学習サービス提供装置
WO2018051945A1 (ja) * 2016-09-14 2018-03-22 日本電気株式会社 音声処理装置、音声処理方法、および記録媒体
WO2018071389A1 (en) * 2016-10-10 2018-04-19 Google Llc Very deep convolutional neural networks for end-to-end speech recognition

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
RAJ DABLE ET AL.: ""Recurrent Stacking of Layers for Compact Neural Machine Translation Models"", ARXIV:1807.05353V2 [CS.CL], JPN6023003049, 17 July 2018 (2018-07-17), ISSN: 0005112888 *
SEKI, HIROSHI, ET AL.: "AN END-TO-END LANGUAGE-TRACKING SPEECH RECOGNIZER FOR MIXED-LANGUAGE SPEECH", PROC. ICASSP 2018, JPN6023029910, 15 April 2018 (2018-04-15), CA, pages 4919 - 4923, XP033401497, ISSN: 0005112889, DOI: 10.1109/ICASSP.2018.8462180 *
SHI ZHOU ET AL.: ""Multilingual End-to-End Speech Recognition with A Single Transformer on Low-Resource Languages"", ARXIV:1806.05059V2 [EESS.AS], JPN6023003048, 14 June 2018 (2018-06-14), ISSN: 0005112887 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022020051A (ja) * 2020-11-18 2022-01-31 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 意味認識方法、装置、機器及び記憶媒体
JP7280930B2 (ja) 2020-11-18 2023-05-24 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 意味認識方法、装置、機器及び記憶媒体
CN112951200A (zh) * 2021-01-28 2021-06-11 北京达佳互联信息技术有限公司 语音合成模型的训练方法、装置、计算机设备及存储介质
CN112951200B (zh) * 2021-01-28 2024-03-12 北京达佳互联信息技术有限公司 语音合成模型的训练方法、装置、计算机设备及存储介质
JP2022020006A (ja) * 2021-03-04 2022-01-27 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド ニューラルネットワークモデルの事前トレーニング方法、装置、電子機器及び媒体
JP7297038B2 (ja) 2021-03-04 2023-06-23 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド ニューラルネットワークモデルの事前トレーニング方法、装置、電子機器及び媒体
CN113821053A (zh) * 2021-09-28 2021-12-21 中国民航大学 一种基于语音识别和关系抽取技术的飞行辅助方法和系统
WO2023073886A1 (ja) * 2021-10-28 2023-05-04 日本電気株式会社 情報処理システム、情報処理装置、情報処理方法、及び記録媒体

Similar Documents

Publication Publication Date Title
US10559299B1 (en) Reconciliation between simulator and speech recognition output using sequence-to-sequence mapping
AU2019347734B2 (en) Conversational agent pipeline trained on synthetic data
CN106688034B (zh) 具有情感内容的文字至语音转换
JP2020154076A (ja) 推論器、学習方法および学習プログラム
KR102375115B1 (ko) 엔드-투-엔드 모델들에서 교차-언어 음성 인식을 위한 음소-기반 컨텍스트화
CN114242033A (zh) 语音合成方法、装置、设备、存储介质及程序产品
JP7192882B2 (ja) 発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム
WO2023045186A1 (zh) 意图识别方法、装置、电子设备和存储介质
Baljekar et al. An Investigation of Convolution Attention Based Models for Multilingual Speech Synthesis of Indian Languages.
JP2024511198A (ja) シーケンスにわたって対照損失を用いる教師ありトレーニングおよび教師なしトレーニング
Nasr et al. End-to-end speech recognition for arabic dialects
JP2022037862A (ja) テキスト基盤の事前学習モデルを活用した縦断型音声言語理解知識を蒸留するための方法、システム、およびコンピュータ読み取り可能な記録媒体
Tan et al. Four-in-One: a joint approach to inverse text normalization, punctuation, capitalization, and disfluency for automatic speech recognition
Pakoci et al. Language model optimization for a deep neural network based speech recognition system for Serbian
JP2021157145A (ja) 推論器および推論器の学習方法
WO2024069978A1 (ja) 生成装置、学習装置、生成方法、学習方法、及びプログラム
WO2023129352A1 (en) Using token level context to generate ssml tags
JP6625961B2 (ja) 発音辞書及び音響モデル生成装置、音声認識装置、方法及びプログラム
JP7146038B2 (ja) 音声認識システム及び方法
JP7173339B2 (ja) 発話評価装置、発話評価方法、およびプログラム
US20240071368A1 (en) System and Method for Adapting Natural Language Understanding (NLU) Engines Optimized on Text to Audio Input
TWI829312B (zh) 訓練一自動語音辨識系統之方法、電腦程式產品及電腦系統
US20220310061A1 (en) Regularizing Word Segmentation
JP6790791B2 (ja) 音声対話装置および対話方法
JP2021043272A (ja) 推論器、推論プログラムおよび学習方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220214

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230131

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230328

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230725

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240206