JP7190146B2

JP7190146B2 - テキスト基盤の事前学習モデルを活用した縦断型音声言語理解知識を蒸留するための方法、システム、およびコンピュータ読み取り可能な記録媒体

Info

Publication number: JP7190146B2
Application number: JP2021028194A
Authority: JP
Inventors: 南秀金; 元翼趙; 東賢郭
Original assignee: Naver Corp
Current assignee: Naver Corp
Priority date: 2020-08-25
Filing date: 2021-02-25
Publication date: 2022-12-15
Anticipated expiration: 2041-02-25
Also published as: JP2022037862A; KR102368064B1

Description

以下の説明は、音声言語理解（ＳＬＵ：ＳｐｏｋｅｎＬａｎｇｕａｇｅＵｎｄｅｒｓｔａｎｄｉｎｇ）技術に関する。

音声言語理解（ＳＬＵ）は、典型的に、音声認識（ＡＳＲ：ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）と自然言語理解（ＮＬＵ：ＮａｔｕｒａｌＬａｎｇｕａｇｅＵｎｄｅｒｓｔａｎｄｉｎｇ）のパイプライン構造で実現される。音声認識（ＡＳＲ）は、音声をテキストに転写する技術であり、自然言語理解（ＮＬＵ）は、転写されたテキストから意図（ｉｎｔｅｎｔ）を抽出し、実行する行動を正確に認識する技術である。

一例として、特許文献１（公開日２０１７年９月２２日）には、音声転写のための転写モデルを学習する技術が開示されている。

しかし、パイプライン構造の場合は、音声認識（ＡＳＲ）のエラーが自然言語理解（ＮＬＵ）にまで否定的な影響を及ぼすことがあり、構造自体で発生するディレイも存在する。

したがって、近年は、音声データを入力して意図把握やスロット埋込み（ｓｌｏｔｆｉｌｌｉｎｇ）のようなタスクを直接実行するシステムを一度に学習する縦断型方式が研究されている。

韓国公開特許第１０－２０１７－０１０７０１５号公報

意図把握やスロット埋込みなどのための縦断型音声言語理解（ＳＬＵ）において、テキスト基盤の教師なし事前学習された言語モデル（ＬＭ：ｌａｎｇｕａｇｅｍｏｄｅｌ）をファインチューニングして活用することができる技術を提供する。

ファインチューニングされた言語モデルの予測値を蒸留することができ、言語モデルの予測端情報を一種の思考過程として蒸留することができる技術を提供する。

コンピュータシステムが実行する方法であって、前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、前記方法は、前記少なくとも１つのプロセッサにより、音声認識モデルと自然言語理解モデルが連結された縦断型構造の音声言語理解（ｓｐｏｋｅｎｌａｎｇｕａｇｅｕｎｄｅｒｓｔａｎｄｉｎｇ）モデルを学習する段階を含み、前記学習する段階は、テキスト基盤の事前学習された言語モデルを利用したクロスモーダル知識蒸留（ｃｒｏｓｓ－ｍｏｄａｌｋｎｏｗｌｅｄｇｅｄｉｓｔｉｌｌａｔｉｏｎ）によって前記音声言語理解モデルを学習することを特徴とする方法を提供する。

一側面によると、前記学習する段階は、前記音声言語理解モデルの出力確率を前記言語モデルの出力確率と合わせる方式により、前記言語モデルの知識を前記音声言語理解モデルに蒸留してよい。

他の側面によると、前記音声認識モデルは、与えられた音声の特定の単語の連続する確率を出力し、前記自然言語理解モデルは、前記確率を入力として前記音声に対する意図を抽出し、前記音声言語理解モデルは、前記音声を入力として前記音声に対する意図を抽出してよい。

また他の側面によると、前記学習する段階は、前記音声言語理解モデルの学習に使用される損失関数に、前記音声言語理解モデルの出力確率と前記言語モデルの出力確率の間の平均二乗誤差（ＭＳＥ）または平均絶対誤差（ＭＡＥ）を反映する段階を含んでよい。

また他の側面によると、前記学習する段階は、前記音声言語理解モデルの予測値と応答ラベルの間の第１損失関数、および前記音声言語理解モデルの予測値と前記言語モデルの間の第２損失関数に基づいて前記音声言語理解モデルを学習してよい。

また他の側面によると、前記学習する段階は、前記言語モデルとして全体文章に対する共通トークンを使用する第１モデル、および前記共通トークンとともに各ワード別に個別トークンを使用する第２モデルのうちの少なくとも１つを利用して前記音声言語理解モデルを学習してよい。

また他の側面によると、前記学習する段階は、前記第１モデルと前記第２モデルの損失を混合するハイブリッド構造の場合、前記第１モデルと前記第２モデルの損失の割合をスケジューリングする段階を含んでよい。

また他の側面によると、前記スケジューリングする段階は、バッチ（ｂａｔｃｈ）あたりの学習意図エラー率にしたがい、前記第１モデルと前記第２モデルの損失の割合を調節してよい。

また他の側面によると、前記スケジューリングする段階は、指数関数的減衰（ｅｘｐｏｎｅｎｔｉａｌｄｅｃａｙ）によるエポック（ｅｐｏｃｈ）にしたがい、前記第１モデルと前記第２モデルの損失の割合を調節してよい。

さらに他の側面によると、前記スケジューリングする段階は、トライアングルスケジューリング（ｔｒｉａｎｇｕｌａｒｓｃｈｅｄｕｌｉｎｇ）により、前記第１モデルと前記第２モデルの損失の割合を調節してよい。

前記方法をコンピュータに実行させるためのプログラムが記録されている、コンピュータ読み取り可能な記録媒体を提供する。

コンピュータシステムであって、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、前記少なくとも１つのプロセッサは、音声認識モデルと自然言語理解モデルが連結された縦断型構造の音声言語理解モデルを学習するものであって、テキスト基盤の事前学習された言語モデルを利用したクロスモーダル知識蒸留によって前記音声言語理解モデルを学習することを特徴とする、コンピュータシステムを提供する。

本発明の一実施形態における、コンピュータシステムの内部構成の一例を説明するためのブロック図である。本発明の一実施形態における、コンピュータシステムのプロセッサが含むことのできる構成要素の例を示したブロック図である。本発明の一実施形態における、クロスモーダル知識蒸留によって縦断型音声言語理解（ＳＬＵ）モデルを学習するプロセスを説明するための例示図である。本発明の一実施形態における、知識蒸留方法論を説明するための例示図である。本発明に対する実験結果として、教師モデルと教授モデルの性能を示した実験結果テーブルである。本発明に対する実験結果として、全体データシナリオで知識蒸留の影響に対する実験結果を示した図である。本発明に対する実験結果として、データ不足シナリオで知識蒸留の影響に対する実験結果を示した図である。

以下、本発明の実施形態について、添付の図面を参照しながら詳しく説明する。

本発明の実施形態は、音声言語理解（ＳＬＵ）技術に関する。

本明細書で具体的に開示される事項を含む実施形態は、クロスモーダル知識蒸留（ｃｒｏｓｓ－ｍｏｄａｌｋｎｏｗｌｅｄｇｅｄｉｓｔｉｌｌａｔｉｏｎ）方法論に基づき、テキスト基盤の事前学習された言語モデルでデータの不足に直面し得る縦断型音声言語理解（ＳＬＵ）モジュールに知識を伝達することができる。

本明細書で具体的に開示される事項を含む実施形態によると、パイプライン構造に比べて縦断型音声言語理解（ＳＬＵ）がもつ長所を維持しながら、テキスト基盤の自然言語理解（ＮＬＵ）モジュールがもつ正確性およびデータ柔軟性を保障することができる。

本明細書で具体的に開示される事項を含む実施形態によると、少量の加工された音声データがある状況であっても、テキストデータによって学習された高性能のモジュールを音声基盤のシステムに知識蒸留（ｋｎｏｗｌｅｄｇｅｄｉｓｔｉｌｌａｔｉｏｎ）することにより、表現の共有とリソースの効率的な活用を可能にする。

本明細書で具体的に開示される事項を含む実施形態によると、加工あるいはラベルされた音声データが足りなくても、同じタスクを他の入力形態として活用して実行する自然言語データを十分に確保することができる状況で、有用な使用環境を提供することができる。

図１は、本発明の一実施形態における、コンピュータシステムの例を示したブロック図である。例えば、本発明の実施形態に係る縦断型音声言語理解学習システムは、図１に示したコンピュータシステム１００によって実現されてよい。

図１に示すように、コンピュータシステム１００は、本発明の実施形態に係る縦断型音声言語理解学習方法を実行するための構成要素として、メモリ１１０、プロセッサ１２０、通信インタフェース１３０、および入力／出力インタフェース１４０を含んでよい。

メモリ１１０は、コンピュータ読み取り可能な記録媒体であって、ＲＡＭ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、ＲＯＭ（ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、およびディスクドライブのような永続的大容量記録装置を含んでよい。ここで、ＲＯＭやディスクドライブのような永続的大容量記録装置は、メモリ１１０とは区分される別の永続的記録装置としてコンピュータシステム１００に含まれてもよい。また、メモリ１１０には、オペレーティングシステムと、少なくとも１つのプログラムコードが記録されてよい。このようなソフトウェア構成要素は、メモリ１１０とは別のコンピュータ読み取り可能な記録媒体からメモリ１１０にロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー（登録商標）ドライブ、ディスク、テープ、ＤＶＤ／ＣＤ－ＲＯＭドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信インタフェース１３０を通じてメモリ１１０にロードされてもよい。例えば、ソフトウェア構成要素は、ネットワーク１６０を介して受信されるファイルによってインストールされるコンピュータプログラムに基づいてコンピュータシステム１００のメモリ１１０にロードされてよい。

プロセッサ１２０は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ１１０または通信インタフェース１３０によって、プロセッサ１２０に提供されてよい。例えば、プロセッサ１２０は、メモリ１１０のような記録装置に記録されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。

通信インタフェース１３０は、ネットワーク１６０を介してコンピュータシステム１００が他の装置と互いに通信するための機能を提供してよい。一例として、コンピュータシステム１００のプロセッサ１２０がメモリ１１０のような記録装置に記録されたプログラムコードにしたがって生成した要求や命令、データ、ファイルなどが、通信インタフェース１３０の制御にしたがってネットワーク１６０を介して他の装置に伝達されてよい。これとは逆に、他の装置からの信号や命令、データ、ファイルなどが、ネットワーク１６０を経てコンピュータシステム１００の通信インタフェース１３０を通じてコンピュータシステム１００に受信されてよい。通信インタフェース１３０を通じて受信された信号や命令、データ、ファイルなどは、プロセッサ１２０やメモリ１１０に伝達されてよく、ファイルなどは、コンピュータシステム１００がさらに含むことのできる記録媒体（上述した永続的記録装置）に記録されてよい。

通信方式が限定されることはなく、ネットワーク１６０が含むことのできる通信網（一例として、移動通信網、有線インターネット、無線インターネット、放送網）を利用する通信方式だけではなく、機器間の近距離有線／無線通信が含まれてもよい。例えば、ネットワーク１６０は、ＰＡＮ（ｐｅｒｓｏｎａｌａｒｅａｎｅｔｗｏｒｋ）、ＬＡＮ（ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）、ＣＡＮ（ｃａｍｐｕｓａｒｅａｎｅｔｗｏｒｋ）、ＭＡＮ（ｍｅｔｒｏｐｏｌｉｔａｎａｒｅａｎｅｔｗｏｒｋ）、ＷＡＮ（ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）、ＢＢＮ（ｂｒｏａｄｂａｎｄｎｅｔｗｏｒｋ）、インターネットなどのネットワークのうちの１つ以上の任意のネットワークを含んでよい。さらに、ネットワーク１６０は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター－バスネットワーク、ツリーまたはレイヤ的ネットワークなどを含むネットワークトポロジのうちの任意の１つ以上を含んでもよいが、これらに限定されることはない。

入力／出力インタフェース１４０は、入力／出力装置１５０とのインタフェースのための手段であってよい。例えば、入力装置は、マイク、キーボード、カメラ、またはマウスなどの装置を、出力装置は、ディスプレイ、スピーカなどのような装置を含んでよい。他の例として、入力／出力インタフェース１４０は、タッチスクリーンのように入力と出力のための機能が１つに統合された装置とのインタフェースのための手段であってもよい。入力／出力装置１５０は、コンピュータシステム１００と１つの装置で構成されてもよい。

また、他の実施形態において、コンピュータシステム１００は、図１の構成要素よりも少ないか多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、コンピュータシステム１００は、上述した入力／出力装置１５０のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ、カメラ、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。

音声言語理解（ＳＬＵ）に使用される音声認識（ＡＳＲ）－自然言語理解（ＮＬＵ）のパイプライン構造は、各モジュールを順に改善する方式によってシステム全体の正確度を上げることができるという側面において有用されている。

しかし、音声認識（ＡＳＲ）と自然言語理解（ＮＬＵ）は、その入力の性質がそれぞれ音声とテキストとして異なるため、音声認識過程でエラーが生じ、テキスト端で他の発話によって離散化されて伝達されれば、従来のファインチューニング過程で学習した内容が音声認識エラーを相殺することができず、性能の低下に繋がる恐れがある。また、音声認識（ＡＳＲ）と自然言語理解（ＮＬＵ）を個別に高度化すれば、２つのモジュールを連結するのにディレイが発生することがあり、音声がテキストに転写される過程でプロソディーやトーンのような非言語的情報が看過されるなどの問題が発生することもある。

このような背景から、近年では、音声言語理解（ＳＬＵ）として、音声認識（ＡＳＲ）と自然言語理解（ＮＬＵ）を連結させた縦断型学習方式が多く使用されるようになった。縦断型音声言語理解（ＳＬＵ）は、ラベルされた音声資源の不足を扱うために、単語事後レベル（ｗｏｒｄｐｏｓｔｅｒｉｏｒｌｅｖｅｌ）または音素事後レベル（ｐｈｏｎｅｍｅｐｏｓｔｅｒｉｏｒｌｅｖｅｌ）の事前学習されたモジュールを使用する。

また、近年は、回帰型ニューラルネットワーク（ＲＮＮ）やトランスフォーマ（ｔｒａｎｓｆｏｒｍｅｒ）基盤の事前学習された言語モデル（ＬＭ）が各種タスクで力強い性能を発揮しており、事前学習されたモジュール上に学習可能なレイヤを追加してファインチューニングを実行すれば、タスク上の学習が可能となる。

本実施形態では、従来のパイプライン構造に比べて縦断型学習方式がもつ長所（エラー拡散防止、ディレイ除去、非言語的情報の格納）を維持しながらも、事前学習された言語モデル（ＬＭ）がもつ正確性およびデータ柔軟性を保障することが可能な音声言語理解（ＳＬＵ）技術を提供する。

本発明の核心内容は、クロスモデルファインチューニングによって事前学習された言語モデル（ＬＭ）を音声言語理解（ＳＬＵ）に活用（ｌｅｖｅｒａｇｉｎｇ）することにあるが、ここで、チューニングは、蒸留形態を含んでもよい。

図２は、本発明の一実施形態における、コンピュータシステムのプロセッサが含むことのできる構成要素の例を示したブロック図である。

図２を参照すると、プロセッサ１２０は、音声認識モジュール２１０、意図学習モジュール２２０、縦断型モジュール２３０、および自然言語処理モジュール２４０を含んでよい。

このようなプロセッサ１２０の構成要素は、少なくとも１つのプログラムコードによって提供される制御命令にしたがってプロセッサ１２０によって実行される、互いに異なる機能（ｄｉｆｆｅｒｅｎｔｆｕｎｃｔｉｏｎｓ）の表現であってよい。

プロセッサ１２０およびプロセッサ１２０の構成要素は、縦断型の音声言語理解学習方法が含む段階を実行してよい。例えば、プロセッサ１２０およびプロセッサ１２０の構成要素は、メモリ１１０が含むオペレーティングシステムのコードと、上述した少なくとも１つのプログラムコードとによる命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行するように実現されてよい。ここで、少なくとも１つのプログラムコードは、縦断型の音声言語理解学習方法を処理するために実現されたプログラムのコードに対応してよい。

プロセッサ１２０は、縦断型の音声言語理解学習方法のためのプログラムファイルに記録されたプログラムコードをメモリ１１０にロードしてよい。例えば、縦断型の音声言語理解学習方法のためのプログラムファイルは、メモリ１１０とは区分される永続的記録装置に記録されていてよく、プロセッサ１２０は、バスを介して永続的記録装置に記録されたプログラムファイルからプログラムコードがメモリ１１０にロードされるようにコンピュータシステム１００を制御してよい。このとき、プロセッサ１２０およびプロセッサ１２０が含む音声認識モジュール２１０、意図学習モジュール２２０、縦断型モジュール２３０、および自然言語処理モジュール２４０それぞれは、メモリ１１０にロードされたプログラムコードのうちの対応する部分の命令を実行して以下の段階を実行するためのプロセッサ１２０の互いに異なる機能的表現であってよい。縦断型の音声言語理解学習方法に含まれた段階の実行のために、プロセッサ１２０およびプロセッサ１２０の構成要素は、制御命令による演算を直接処理するか、またはコンピュータシステム１００を制御してよい。

音声認識モジュール２１０は、事前に学習された音声認識（ＡＳＲ）モデルを含むものであって、音声認識の結果としてテキストを直接使用するよりは、特定の単語の連続する確率値を表現するレイヤを抽出して使用する。これによって情報が明確に離散化され、曖昧さを補完する不確実性がなくなることを防ぐことができる。音声認識モジュール２１０としては、音響処理モジュール（例えば、ｓｉｎｃＮｅｔなど）や、音素列／単語列推論モジュール（例えば、ＲＮＮなど）が活用されてよい。

意図学習モジュール２２０は、自然言語理解（ＮＬＵ）モデルを含むものであって、音声認識モジュール２１０の出力である確率値を入力として意図を学習する役割をする。意図学習モジュール２２０は、音声認識モジュール２１０の確率出力を入力にするという点において、テキスト基盤の自然言語理解（ＮＬＵ）モジュールとは差があるが、結果的に実行するタスクは同じである。意図学習モジュール２２０としては、ＲＮＮやトランスフォーマなどのｓｅｑ２ｓｅｑモデルが活用されてよい。

音声認識モジュール２１０と意図学習モジュール２２０は、音声言語理解（ＳＬＵ）システムを構成するものであり、音声認識モジュール２１０が事前学習されたモデルであるという仮定の元、互いに連結して学習可能である。音声認識モジュール２１０と意図学習モジュール２２０が連結された音声言語理解（ＳＬＵ）モジュールとして縦断型モジュール２３０を構成してよく、このとき、縦断型モジュール２３０は、テキスト基盤の自然言語理解（ＮＬＵ）モジュールとは異なり、音声を入力として受けて意図を推測する役割をする。

自然言語処理モジュール２４０は、教師なし事前学習された言語モデル（ＬＭ）に縦断型モジュール２３０の意図推測結果（テキスト）をファインチューニングした高性能の自然言語処理モジュールに該当する。自然言語処理モジュール２４０は、音声や音声認識モジュール２１０の確率出力ではなく、テキストを入力として受けるという点において意図学習モジュール２２０や縦断型モジュール２３０とは差があるが、意図把握という自然言語処理タスクを実行するという点においては、その目的が同じである。自然言語処理モジュール２４０としては、ＢＥＲＴ（ｂｉｄｉｒｅｃｔｉｏｎａｌｅｎｃｏｄｅｒｒｅｐｒｅｓｅｎｔａｔｉｏｎｆｒｏｍＴｒａｎｓｆｏｒｍｅｒｓ）などのように、大容量コーパスによって事前学習されたＲＮＮおよびＴｒａｎｓｆｏｒｍｅｒ基盤のオープンソースモジュールが活用されてよい。

本実施形態では、縦断型モジュール２３０を学習する過程において、自然言語処理モジュール２４０の出力確率を縦断型モジュール２３０の出力確率部分と合わせる方式である知識蒸留方式を適用する。より詳しく説明すると、学習過程で使用される損失関数（ｌｏｓｓｆｕｎｃｔｉｏｎ）に両側の出力確率部分の平均二乗誤差（ｍｅａｎｓｑｕａｒｅｅｒｒｏｒ）を測定して加えることにより、縦断型モジュール２３０と自然言語処理モジュール２４０との差が学習過程に反映され、学習によって減少していくようにする。自然言語処理モジュール２４０は、同じタスクを実行し、より性能が良く、事前学習およびファインチューニングを既に終えた状態であるためさらなる学習を経る必要がない。このように、少ない音声データを学習するにあたり、多くのテキストデータによって事前学習されたモジュールの正確な正解予測の過程を教師することにより、データ不足の問題を相殺すると同時に、互いに異なるモダリティー（ｍｏｄａｌｉｔｙ）間の知識共有を確認することができる。

事前学習された言語モデル（ＬＭ）を利用した蒸留方式の縦断型音声言語理解（ＳＬＵ）学習過程については、以下のように詳しく説明する。

本実施形態の縦断型音声言語理解（ＳＬＵ）学習は、互いに異なるモダリティーの統合が音声基盤の分析に肯定的な影響を及ぼすという点と、知識共有が可能な形態で音声処理が自然言語理解（ＮＬＵ）によって促進されるという点を考慮したものであり、ＳＴＴ（ｓｐｅｅｃｈｔｏｔｅｘｔ）変換過程がなくても言語モデル（ＬＭ）の暗黙的言語処理を音声言語理解（ＳＬＵ）モジュールに送信することを目標とする。

本実施形態では、音声言語理解（ＳＬＵ）に対する２つの処理方式、すなわち、音声認識（ＡＳＲ）－自然言語理解（ＮＬＵ）のパイプライン構造と縦断型学習方式をクロスモーダルの観点で結合することができる。

図３を参照すると、本発明に係る縦断型音声言語理解（ＳＬＵ）学習プロセス３００は、原本音声（ｏｒｉｇｉｎａｌａｕｄｉｏ）、実測資料（ｇｒｏｕｎｄｔｒｕｔｈ）スクリプト、目的意図（ｔａｒｇｅｔｉｎｔｅｎｔ）が与えられれば、事前学習された言語モデル（ＬＭ）３０１の推論過程で、縦断型音声言語理解（ＳＬＵ）モデル３０２によって知識を伝達する。ここで、核心は、音響データとデジタル化されたテキスト、すなわち、音声および語彙データが意味論的側面で一致する表現のための地点を設定することにある。

音声とテキストは互いに異なるモダリティーとして見なされるが、タスクとしては音声とテキストは両者ともに同じ類型の推論を導き出すという点において、生徒音声翻訳モデル（ｓｔｕｄｅｎｔｓｐｅｅｃｈｔｒａｎｓｌａｔｉｏｎｍｏｄｅｌ）を教師機械翻訳モジュール（ｔｅａｃｈｅｒｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎｍｏｄｕｌｅ）の予測から学習する場合、本発明の縦断型音声言語理解（ＳＬＵ）モデル３０２は、ファインチューニングされたトランスフォーマ基盤の言語モデル（ＬＭ）３０１のロジック（ｌｏｇｉｔ）推論に有利である。

本プロセスでは、モデルアキテクチャと損失関数に関してトランスフォーマ言語モデル（ＬＭ）の詳細な圧縮手順を適用する。最初の段階では、トランスフォーマ（ＢＥＲＴ）の双方向エンコーダ表現のような事前学習された言語モデル（ＬＭ）３０１がスクリプトとファインチューニングされ、最終的には教師モデルを構成する。結果的に、縦断型音声言語理解（ＳＬＵ）モデル３０２を学習する過程において、損失関数は、教師から蒸留された知識にアップデートされてよい。ここで、知識とは、ロジックレイヤに関する２つのモジュールの差を示す損失を意味する。最後に、事前学習された言語モデル（ＬＭ）３０１を縦断型音声言語理解（ＳＬＵ）に活用することは、事前学習された言語モデル（ＬＭ）３０１のファインチューニングと事前学習された言語モデル（ＬＭ）３０１で縦断型音声言語理解（ＳＬＵ）モデル３０２に蒸留することを含む。

縦断型音声言語理解（ＳＬＵ）学習のための知識蒸留の具体的な構造については、次のように説明する。

教師モデルは、事前学習された言語モデル（ＬＭ）をテキスト入力として活用する。生徒モデルは、音声インスタンスを採択する反面、教師モデルと類型の予測を共有する。

このような過程で与えられた構造と学習資源を最大限効率的に活用するために、次のような経験法則（ｒｕｌｅｓｏｆｔｈｕｍｂ）を定める。１）バックボーン生徒モデルは、音声認識（ＡＳＲ）事前学習モジュールとＲＮＮ基盤の意図分類器を採択し、それぞれ単語事後シーケンスおよびスロットのような予測を算出する。２）教師モデルの場合は、事前学習されたＢＥＲＴを追加の修正なく活用し、ファインチューニングは、自由に利用することのできるベンチマークを活用する。３）縦断型音声言語理解（ＳＬＵ）モジュールの損失として使用されるクロスエントロピー関数の他にも、知識蒸留の損失が全体の損失に拡がり、生徒モデルの学習段階で教師モデルの影響力を移転する。

上述したように、知識を共有するにあたり、学習指導（ｇｕｉｄａｎｃｅ）は、生徒モデルがテキスト入力から出る表現と一致するようにファインチューニングされたＢＥＲＴロジックレイヤの上位構成要素から伝達される。言語モデル（ＬＭ）のテキストに友好的な入力レイヤ（ｒａｗ－ｔｅｘｔ－ｆｒｉｅｎｄｌｙｉｎｐｕｔｌａｙｅｒｓ）とは異なり、上位レイヤは、抽象化されたテキスト情報が音声特性に最も適する部分に該当してよい。

具体的には、共有知識を学習段階で教師モデルが生徒モデルに与える規定（損失関数）に基づいて示してよく、生徒モデルを好ましい方向に導く。

図４を参照すると、知識の蒸留は、予め学習された大きいネットワーク、すなわち、教師モデル４１の知識を実際に使用しようとする小さいネットワーク、すなわち、生徒モデル４２に伝達することにある。言い換えれば、生徒モデル４２でも教師モデル４１の性能を発揮することができるように、学習過程で教師モデル４１の知識を生徒モデル４２に伝達して生徒モデル４２の性能を高めようとする方法論である。

生徒モデル４２の分類性能に対する損失により、生徒モデル４２の分類結果と実測資料（スクリプト）の差からクロスエントロピー損失関数を計算してよい。また、教師モデル４１の分類結果と生徒モデル４２の分類結果の差を含んでよく、言い換えれば、教師モデル４１と生徒モデル４２の出力ロジックをソフトマックスに変換した値の差をクロスエントロピー損失によって計算してよい。

教師モデル４１と生徒モデル４２の分類結果を比較するためにソフトレベルを適用することにより、情報の損失なく教師モデル４１の分類結果を生徒モデル４２の分類結果と比較し、生徒モデル４２が教師モデル４１を模倣するように学習させることができる。

したがって、知識の蒸留は、教師モデル４１の出力を生徒モデル４２が模倣して学習することにより、生徒モデル４２が相対的に少ないパラメータしか持っていなくても、モデルの性能を高めることができる。

全体損失関数（Ｌ）の表記法は、数式（１）のとおりとなる。

Ｌ＝α_ｔ×Ｌ_ｃｅ＋β_ｔ×Ｌ_ｋｄ・・・（１）

ここで、ｔはスケジューリング因子であり、α_ｔとβ_ｔは知識蒸留加重値を意味し、α_ｔとβ_ｔの和は１である。α_ｔとβ_ｔはそれぞれ、固定または動的にアップデートされるＬ_ｃｅとＬ_ｋｄの影響を決定するハイパーパラメータに該当する。

Ｌ_ｃｅは、数式（２）のように、音声言語理解（ＳＬＵ）構成要素の応答ラベルと予測ロジックとのＣＥ（クロスエントロピ）であるが、ここで、ｆ（・）はロジック表現であり、Ｙは目的ラベルを意味する。

Ｌ_ｃｅ＝ＣＥ（ｆ_ＳＬＵ，Ｙ）・・・（２）

Ｌ_ｋｄは、数式（３）のように、音声言語理解（ＳＬＵ）構成要素の予測ロジックとファインチューニングされたＢＥＲＴとの平均二乗誤差（ＭＳＥ）または平滑化されたＬ１損失（ＭＡＥ）である。ここで、Ｄは距離類型を決定する。

Ｌ_ｋｄ＝Ｄ（ｆ_ＳＬＵ，ｆ_ＢＥＲＴ）・・・（３）

Ｌ_ｋｄは、最上位端にあるＳＬＵモデルとＢＥＲＴ最上位レイヤの隠し（ｈｉｄｄｅｎ）が等しくなるようにする関数である。

ＢＥＲＴファインチューニングでは、多様なパフォーマンスの教師モデルを調査するために２種類の方式を採択する。１つは、ＢＥＲＴモデルの［ＣＬＳ］表現上端にＦＣ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）レイヤを構築し、他の１つは、ＢＥＲＴモデルのすべての出力表現に対してＦＣレイヤを設定した後、プーリングを適用する。両方の学習の正確度の差を考慮した上で、前者は教師モデルと称し、後者のモデルは教授モデルと称する。

他の例として、教師モデルと教授モデルの同時的な利益を得るために、数式（４）のように、各ネットワークからくる損失を混合してハイブリッド構造を構成してよい。

Ｌ_ｋｄ＝（１－γ）×Ｄ（ｆ_ＳＬＵ，ｆ_{ｔｅａｃｈｅｒ}）＋γ×Ｄ（ｆ_ＳＬＵ，ｆ_{ｐｒｏｆｅｓｓｏｒ}）・・・（４）

ここで、γ＝０は教師モデルだけを示したものであり、γ＝１は教授モデルだけを示したものである。０＜γ＜１の場合は、ハイブリッドモデルを示したものであり、バッチごとの意図エラー率（ｂａｔｃｈ－ｗｉｓｅｉｎｔｅｎｔｅｒｒｏｒｒａｔｅ）（＝ｅｒｒ）を適用する。これは、教授モデルが、挑戦的サンプルに対して教師モデル以上に教えることを意味する。

教師モデルは、文章全体を要約した共通トークンを使用して学習するモデルであり、教授モデルは、もう少し多くの情報を予測するモデルであって、共通トークンと各ワードに対する個別のトークンをともに使用して学習するモデルであると言える。

本実施形態に対する実験のために、１）ＦＳＣ（ＦｌｕｅｎｔＳｐｅｅｃｈＣｏｍｍａｎｄ）データセットを利用する完全な縦断型音声言語理解（ＳＬＵ）モジュール、２）事前学習されたＢＥＲＴモデル、３）タスクごとにＢＥＲＴをＢｉＬＳＴＭに蒸留するプロセスを実現する。１）をバックボーンとし、学習段階で１）のＲＮＮエンコーダ－デコーダに２）の知識を蒸留することにより、全体的に３）のようにＢＥＲＴとＢｉＬＳＴＭの蒸留を実行する。

このとき、３つの類型のシステムが考慮されるが、最初の類型は、実測資料スクリプトによってファインチューニングされた事前学習された言語モデル（ＬＭ）（ＢＥＲＴ）であって、正確なスクリプトが入力として必要な教師モデルである。教師モデル学習は、全体のＦＳＣスクリプトを含み、ワードピース（ｗｏｒｄｐｉｅｃｅ）モデルトークン化によってトークン化される。すべての教師モデルに対して５０エポック（ｅｐｏｃｈ）以前に収斂がなされる。次の類型は、音声認識（ＡＳＲ）の出力記録が入力となる教師モデルであって、言い換えれば、共通ベースラインである音声認識（ＡＳＲ）－自然言語理解（ＮＬＵ）パイプラインである。音声認識（ＡＳＲ）は、ＦＳＣの代わりにここ最近に配布されたＪａｓｐｅｒモデルを使用することで、システムが単語エラーにどのように敏感に反応するかを点検する。最後の類型のモデルは、音声基盤モデルである。すなわち、単語レベル事後を利用するＲＮＮ基盤の縦断型モデルと順列言語モデルを有する音素事後基盤のモデルである。このようなモデルの試験には、音声発言だけが使用される。

上述した類型のシステムを本発明に係るシステムと比べると、次のようになる。誰が教えて、損失はどのくらいで、学習指導がどれほど影響を及ぼすかなどの３つの要素がＬ_ｋｄを決定する。最初は、蒸留ソース、すなわち、教師モデルと教授モデルに対するものである。次は、ＭＳＥやＭＡＥのうちのＤに関するものである。最後は、α_ｔとβ_ｔのスケジュールを示す。

α_ｔ／β_ｔが知識蒸留（ＫＤ）加重値を設定し、時間要因と関連して３つの知識蒸留加重戦略を実行する。

（ａ）β_ｔ＝ｅｒｒ_{ｔ，ｂａｔｃｈ}（＝１－ａｃｃ_{ｔ，ｂａｔｃｈ}）
（ｂ）β_ｔ＝ｅｘｐ（１－ｔ）
（ｃ）β_ｔ＝０．１×ｍａｘ（０，｜ｔ－μ｜／（０．５×μ）＋１）・・・（５）

言い換えれば、教師モデルと教授モデルの割合を動的に調節するスケジューリング方式を適用する。１つ目は、正確度（ａｃｃｕｒａｃｙ）を利用したスケジューリング方式であって、学習しようとする音声言語理解（ＳＬＵ）モデルの性能が良くなるほど、加重値が教師モデルから教授モデルに移行する方式である。すなわち、数式（５）の（ａ）のように、バッチごとの学習意図エラー率によって異なる。２つ目は、漸進的に一貫するように教師モデルと教授モデルの割合を調節する方式であって、数式（５）の（ｂ）のように、指数関数的減衰（ｅｘｐｏｎｅｎｔｉａｌｄｅｃａｙ）（ｅｘｐ．）でエポック（ｅｐｏｃｈ）によって教師モデルの影響力が指数的に低下する。３つ目は、トライアングルスケジューリング方式（Ｔｒｉ．）であって、最大エポック数μ＝Ｔ／２およびＴに対して数式（５）の（ｃ）のように定義される。教師モデルは、初期の段階で変数をウォームアップ（ｗａｒｍｕｐ）するｅｘｐスケジューリングとは異なり、トライアングルスケジューリングでは、最初は生徒モデルが自ら学習し、途中から教師モデルが介入する。

図５は、教師モデルと教授モデルの性能を示したものであって、Ｊａｓｐｅｒは、高性能（ｌｏｗｗｏｒｄｅｒｒｏｒｒａｔｅ）の音声認識（ＡＳＲ）モデルである。全体的に、ＢＥＲＴモデルが実測資料（ＧＴ）テキストとともに重要性を示すものと確認される。ＢＥＲＴモデルを活用したモデル性能はもちろん、教授モデルが学習正確度の側面において教師モデルよりも高い性能を示すことを確認することができる。

図６は、全体データシナリオの実験結果を示した図である。教師モデルとハイブリッドモデルにおいて、従来のモデルの性能を超える水準を示していることが分かる。

図７は、多様なスケジューリング方式により、データ不足シナリオで知識蒸留が影響を受ける結果を示した図である。学習段階において、音声テキストペアの使用を１０％と１％に制限することにより、テキストデータの量が音声を支配する場合であっても、本発明に係る学習方法が効果的であることを確認することができる。すべてのシナリオに対して等しいテスト集合を考慮するとき、データの減少によってエラー減少量がさらに可視化されることが分かる。さらに、スケジューリングがデータシナリオ全体の場合よりも多くの影響を及ぼすことが分かり、特に、ｅｘｐスケジューリングが、他のシナリオと比べたときに成果を示している。これは、ｅｘｐスケジューリング方式が、資源が十分でない場合に、早期影響力と消滅が生徒モデルをより良い方向に導くということを意味する。

したがって、本実施形態では、テキスト基盤のファインチューニングされた言語モデル（ＬＭ）の高性能推論を、クロスモーダル知識蒸留によって縦断型音声言語理解（ＳＬＵ）に活用することができる。

本実施形態に係る縦断型音声言語理解学習方法は、意図把握およびスロット埋込みタスクはもちろん、話行（言語行為）把握や感情認識などのように音声で表現することのできる自然言語を活用した多様なタスクに適用することができ、さらにはイメージを含んだマルチモーダルタスクにも適用することが可能である。

このように、本発明の実施形態によると、パイプライン構造に比べて縦断型音声言語理解（ＳＬＵ）がもつ長所を維持しながらも、テキスト基盤の自然言語理解（ＮＬＵ）モジュールがもつ正確性およびデータ柔軟性を保障することができる。特に、少量の加工された音声データがある状況でも、テキストデータによって学習された高性能のモジュールを音声基盤のシステムに知識蒸留することにより、表現の共有とリソースの効率的な活用を可能にする。加工あるいはラベルされた音声データが足りなくても、同じタスクを他の入力形態で活用して実行する自然言語データを十分に確保することができる状況において、有用な使用環境を提供することができる。

上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および／またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ、マイクロコンピュータ、ＦＰＧＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、１つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム（ＯＳ）およびＯＳ上で実行される１つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、１つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および／または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは１つのプロセッサおよび１つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの１つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび／またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、１つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。

実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。ここで、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク、および磁気テープのような磁気媒体、ＣＤ－ＲＯＭおよびＤＶＤのような光媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような光磁気媒体、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。

以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ／あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。

したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。

１２０：プロセッサ
２１０：音声認識モジュール
２２０：意図学習モジュール
２３０：縦断型モジュール
２４０：自然言語処理モジュール

Claims

コンピュータシステムが実行する方法であって、
前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、
前記方法は、
前記少なくとも１つのプロセッサにより、音声を入力として受け取り、音声認識結果の確率値を出力するように予め学習された音声認識モデルと、前記音声認識モデルが出力した前記音声認識結果の確率値を入力として受け取り、前記音声の意図を推測する自然言語理解モデルを連結して学習することによって、入力される音声に対してその意図をすぐ推測するように構成される縦断型（ｅｎｄ－ｔｏ－ｅｎｄ）音声言語理解（ｓｐｏｋｅｎｌａｎｇｕａｇｅｕｎｄｅｒｓｔａｎｄｉｎｇ）モデルを生成する段階
を含み、
前記音声言語理解モデルは、
テキストの入力に対してその意図を推測するように構成される予め学習された言語モデルを利用するクロスモーダル知識蒸留（ｃｒｏｓｓ－ｍｏｄａｌｋｎｏｗｌｅｄｇｅｄｉｓｔｉｌｌａｔｉｏｎ）方法によって学習され、前記言語モデルによって出力される確率と、前記音声言語理解モデルによって出力される確率との差が減少するように学習されることを特徴とする、方法。
前記生成する段階は、
前記音声言語理解モデルの学習に使用される損失関数に、前記音声言語理解モデルが出力した意図の確率と前記言語モデルが出力した意図の確率の平均二乗誤差（ＭＳＥ）または平均絶対誤差（ＭＡＥ）を反映する段階
を含む、請求項１に記載の方法。
前記音声言語理解モデルは、
前記音声言語理解モデルによる予測の結果値と応答ラベルとの間のクロスエントロピーを示す第１損失関数、および前記音声言語理解モデルによる予測の結果値と前記言語モデルによる予測の結果との間の損失を示す第２損失関数に基づいて学習されること
を特徴とする、請求項１～２のうちのいずれか一項に記載の方法。
前記音声言語理解モデルは、
前記言語モデルとして教師モデルである第１モデル、および第１モデルに比べて相対的により正確な予測の結果を出力する教授モデルである第２モデルのうちの少なくとも１つを利用して学習されること
を特徴とする、請求項１～３のうちのいずれか一項に記載の方法。
前記音声言語理解モデルは、
前記第１モデルと前記第２モデルの損失を混合するハイブリッド構造を利用して学習され、前記第１モデルと前記第２モデルの損失の割合がスケジューリングされること
を特徴とする、請求項４に記載の方法。
前記スケジューリングは、
前記第１モデルと前記第２モデルの損失の割合を動的に調節し、学習される前記音声言語理解モデルの予測の精度が高くなるほど、前記第２モデルの加重値が大きくなるものであること
を特徴とする、請求項５に記載の方法。
請求項１～６のうちのいずれか一項に記載の方法をコンピュータに実行させるためのプログラムが記録されている、コンピュータ読み取り可能な記録媒体。
コンピュータシステムであって、
メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサ
を含み、
前記少なくとも１つのプロセッサは、
音声を入力として受け取り、音声認識結果の確率値を出力するように予め学習された音声認識モデルと、前記音声認識モデルが出力した前記音声認識結果の確率値を入力として受け取り、前記音声の意図を推測する自然言語理解モデルを連結して学習することによって、入力される音声に対してその意図をすぐ推測するように構成される縦断型（ｅｎｄ－ｔｏ－ｅｎｄ）音声言語理解モデルを生成するものであって、
前記音声言語理解モデルは、テキストの入力に対してその意図を推測するように構成される予め学習された言語モデルを利用するクロスモーダル知識蒸留方法によって学習され、前記言語モデルによって出力される確率と、前記音声言語理解モデルによって出力される確率との差が減少するように学習されること
を特徴とする、コンピュータシステム。
前記少なくとも１つのプロセッサは、
前記音声言語理解モデルの学習に使用される損失関数に、前記音声言語理解モデルが出力した意図の確率と前記言語モデルが出力した意図の確率の平均二乗誤差（ＭＳＥ）または平均絶対誤差（ＭＡＥ）を反映すること
を特徴とする、請求項８に記載のコンピュータシステム。
前記音声言語理解モデルは、
前記音声言語理解モデルによる予測の結果値と応答ラベルとの間のクロスエントロピーを示す第１損失関数、および前記音声言語理解モデルによる予測の結果値と前記言語モデルによる予測の結果との間の損失を示す第２損失関数に基づいて学習されること
を特徴とする、請求項８～９のうちのいずれか一項に記載のコンピュータシステム。
前記音声言語理解モデルは、
前記言語モデルとして教師モデルである第１モデル、および第１モデルに比べて相対的により正確な予測の結果を出力する教授モデルである第２モデルのうちの少なくとも１つを利用して学習されること
を特徴とする、請求項８～１０のうちのいずれか一項に記載のコンピュータシステム。
前記音声言語理解モデルは、
前記第１モデルと前記第２モデルの損失を混合するハイブリッド構造を利用して学習され、前記第１モデルと前記第２モデルの損失の割合がスケジューリングされること
を特徴とする、請求項１１に記載のコンピュータシステム。
前記スケジューリングは、
前記第１モデルと前記第２モデルの損失の割合を動的に調節し、学習される前記音声言語理解モデルの予測の精度が高くなるほど、前記第２モデルの加重値が大きくなるものであること
を特徴とする、請求項１２に記載のコンピュータシステム。