JP2021190101A - アテンション基盤シーケンスツーシーケンスモデルの性能向上方法及び装置 - Google Patents

アテンション基盤シーケンスツーシーケンスモデルの性能向上方法及び装置 Download PDF

Info

Publication number
JP2021190101A
JP2021190101A JP2021068894A JP2021068894A JP2021190101A JP 2021190101 A JP2021190101 A JP 2021190101A JP 2021068894 A JP2021068894 A JP 2021068894A JP 2021068894 A JP2021068894 A JP 2021068894A JP 2021190101 A JP2021190101 A JP 2021190101A
Authority
JP
Japan
Prior art keywords
attention
sequence
head
output
weight matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021068894A
Other languages
English (en)
Inventor
敏重 李
Min-Joong Lee
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2021190101A publication Critical patent/JP2021190101A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Programmable Controllers (AREA)
  • Adjustment Of The Magnetic Head Position Track Following On Tapes (AREA)

Abstract

【課題】アテンション基盤シーケンスツーシーケンスモデルの性能向上方法及び装置を提供する。【解決手段】一実施形態に係るアテンション基盤シーケンスツーシーケンスモデルの性能向上方法は、アテンション基盤シーケンスツーシーケンスモデルに基づいて入力シーケンスに対応する出力シーケンスを決定するステップと、複数のアテンションヘッドのうち、1つ以上のターゲットアテンションヘッドを選択するステップと、前記出力シーケンスを構成する出力トークンのうち、前記ターゲットアテンションヘッドに基づいて1つ以上のエラー出力トークンを検出するステップと、前記エラー出力トークンに基づいて前記出力シーケンスを補正するステップを含む。【選択図】図5

Description

下記の実施形態は、アテンション基盤シーケンスツーシーケンスモデルの性能向上方法及び装置に関する。
人工神経網を用いて解決する問題のうち長さが決まっていないシーケンスを入力として受け、決まっていない長さの出力を生成しなければならない問題を解決するための方法として、シーケンスツーシーケンス(sequence−to−sequence)モデルの1つであるエンコーダー−デコーダーの人工神経網モデルが導入された。
可変の長さを入力として可変の長さを生成するシーケンスツーシーケンスモデルは、翻訳、音声認識、カンバセーション、文書要約などの様々なタスクで使用される人工神経網モデルであって、可変入力を上位表現であるコンテキスト・ベクトルに作り出すエンコーダーと、そのコンテキスト・ベクトルに基づいて可変出力を生成するデコーダーからなる。しかし、シーケンスツーシーケンスモデルは、コンテキスト・ベクトルが長くなれば性能が低下するという短所がある。
本発明の目的は、アテンション基盤シーケンスツーシーケンスモデルの性能向上方法及び装置を提供する。
一実施形態に係るアテンション基盤シーケンスツーシーケンスモデルの性能向上方法は、アテンション基盤シーケンスツーシーケンスモデルに基づいて入力シーケンスに対応する出力シーケンスを決定するステップと、複数のアテンションヘッドのうち、1つ以上のターゲットアテンションヘッドを選択するステップと、前記出力シーケンスを構成する出力トークンのうち、前記ターゲットアテンションヘッドに基づいて、1つ以上のエラー出力トークンを検出するステップと、前記1つ以上のエラー出力トークンに基づいて前記出力シーケンスを補正するステップと、を含む。
前記選択するステップは、前記ターゲットアテンションヘッドに対応するターゲットアテンション重み行列になるように学習された特定のアテンション重み行列を作り出すアテンションヘッドを前記ターゲットアテンションヘッドとして選択するステップを含み得る。
前記特定のアテンション重み行列は、予め決定された形態を有するガイド重み行列に基づいて、学習され得る。
前記ガイド重み行列は、出力シーケンス長さ、入力フレーム長さ、開始シフト、終了シフト、及びディフュージョン比率のうち少なくとも1つに基づいて決定され得る。
前記特定のアテンション重み行列は、ステップごとにアテンション重みの分布が異なるように学習され得る。
前記特定のアテンション重み行列は、以前ステップのアテンション重み累積和に基づいて、現在ステップのアテンション重みが決定されるように学習され得る。
前記選択するステップは、予め決定された目的に最も適するアテンション重み行列を生成するアテンションヘッドを、前記ターゲットアテンションヘッドとして選択するステップを含み得る。
前記選択するステップは、予め決定された目的による予め決定された形態を有するガイド重み行列に基づいて、前記ターゲットアテンションヘッドを選択するステップを含み得る。
前記選択するステップは、前記アテンション基盤シーケンスツーシーケンスモデルが単調性質を有する場合、前記複数のアテンションヘッドが作り出すアテンション重み行列に対して単調回帰分析(monotonic regression analysis)を行って前記ターゲットアテンションヘッドを選択するステップを含み得る。
前記選択するステップは、前記複数のアテンションヘッドが作り出すアテンション重み行列のエントロピーに基づいて前記ターゲットアテンションヘッドを選択するステップを含み得る。
前記エントロピーに基づいて前記ターゲットアテンションヘッドを選択するステップは、前記アテンション重み行列のうち、前記エントロピーが最大のアテンション重み行列を作り出すアテンションヘッドを前記ターゲットアテンションヘッドとして選択するステップを含み得る。
前記エントロピーに基づいて前記ターゲットアテンションヘッドを選択するステップは、カルバック・ライブラー情報量(Kullback Leibler divergence)に基づいて前記ターゲットアテンションヘッドを選択するステップを含み得る。
前記選択するステップは、アテンション重み行列の各行の分布間の距離が最も遠いアテンション重み行列を作り出すアテンションヘッドを前記ターゲットアテンションヘッドとして選択するステップを含み得る。
前記検出するステップは、前記ターゲットアテンションヘッドの前記入力シーケンスと前記出力シーケンスとの間のアテンション重みのうち、前記ターゲットアテンションヘッドのアテンション重みとガイド重み行列との差が閾値以上の1つ以上のエラーアテンション重みを検出するステップと、前記1つ以上のエラーアテンション重みに対応する出力トークンを前記1つ以上のエラー出力トークンとして決定するステップとを含み得る。
前記検出するステップは、前記ターゲットアテンションヘッドの前記入力シーケンスと前記出力シーケンスとの間のアテンション重みのうち、以前ステップのアテンション重みと閾値以上の類似度を有する1つ以上のエラーアテンション重みを検出するステップと、前記1つ以上のエラーアテンション重みに対応する出力トークンを前記1つ以上のエラー出力トークンとして決定するステップとを含み得る。
前記補正するステップは、前記1つ以上のエラー出力トークンを前記出力シーケンスから取り除くステップを含み得る。
前記補正するステップは、前記1つ以上のエラー出力トークンを取り除いた他の出力トークン候補のうち、次の入力トークンを決定するステップを含み得る。
一実施形態に係るアテンション基盤シーケンスツーシーケンスモデルの性能向上方法は、前記1つ以上のエラー出力トークンが出力されたステップの入力トークンを前記次の入力トークンとして決定するステップをさらに含み得る。
前記複数のアテンションヘッドの数は、前記アテンション基盤シーケンスツーシーケンスモデルのアテンションレイヤー数とデコーダーレイヤー数の積に該当し得る。
一実施形態に係るアテンション基盤シーケンスツーシーケンスモデルの電子装置は、アテンション基盤シーケンスツーシーケンスモデルに基づいて、入力シーケンスに対応する出力シーケンスを決定し、複数のアテンションヘッドのうち1つ以上のターゲットアテンションヘッドを選択し、前記出力シーケンスを構成する出力トークンのうち、前記ターゲットアテンションヘッドに基づいて、1つ以上のエラー出力トークンを検出し、前記1つ以上のエラー出力トークンに基づいて、前記出力シーケンスを補正する、プロセッサを含む。
前記プロセッサは、前記ターゲットアテンションヘッドに対応するターゲットアテンション重み行列になるよう学習された特定のアテンション重み行列を作り出すアテンションヘッドを、前記ターゲットアテンションヘッドとして選択し得る。
前記特定のアテンション重み行列は、予め決定された形態を有するガイド重み行列に基づいて、学習され得る。
前記特定のアテンション重み行列は、ステップごとにアテンション重みの分布が異なるように学習され得る。
前記プロセッサは、予め決定された目的に最も適するアテンション重み行列を生成するアテンションヘッドを、前記ターゲットアテンションヘッドとして選択し得る。
前記プロセッサは、予め決定された目的による予め決定された形態を有するガイド重み行列に基づいて、前記ターゲットアテンションヘッドを選択し得る。
前記プロセッサは、前記アテンション基盤シーケンスツーシーケンスモデルが単調性質を有する場合に、前記複数のアテンションヘッドが作り出すアテンション重み行列に対して単調回帰分析を行って、前記ターゲットアテンションヘッドを選択し得る。
前記プロセッサは、前記複数のアテンションヘッドが作り出すアテンション重み行列のエントロピーに基づいて、前記ターゲットアテンションヘッドを選択し得る。
前記プロセッサは、前記アテンション重み行列のうち、前記エントロピーが最大のアテンション重み行列を作り出すアテンションヘッドを、前記ターゲットアテンションヘッドとして選択し得る。
前記プロセッサは、アテンション重み行列の各行の分布間の距離が最も遠いアテンション重み行列を作り出すアテンションヘッドを、前記ターゲットアテンションヘッドとして選択し得る。
前記プロセッサは、前記ターゲットアテンションヘッドの前記入力シーケンスと前記出力シーケンスとの間のアテンション重みのうち、前記ターゲットアテンションヘッドのアテンション重みとガイド重み行列との差が第1閾値以上である、1つ以上のエラーアテンション重みを検出し、前記エラー1つ以上のアテンション重みに対応する出力トークンを、前記1つ以上のエラー出力トークンとして決定し得る。
前記プロセッサは、前記ターゲットアテンションヘッドの前記入力シーケンスと前記出力シーケンスとの間のアテンション重みのうち、以前ステップのアテンション重みと第2閾値以上の類似度を有する、1つ以上のエラーアテンション重みを検出し、前記エラーアテンション重みに対応する出力トークンを、前記1つ以上のエラー出力トークンとして決定し得る。
前記プロセッサは、前記1つ以上のエラー出力トークンを前記出力シーケンスから取り除くことができる。
前記プロセッサは、前記1つ以上のエラー出力トークンを取り除いた他の出力トークン候補のうち次の入力トークンを決定し得る。
前記プロセッサは、前記1つ以上のエラー出力トークンを出力したステップの入力トークンを前記次の入力トークンとして決定し得る。
一実施形態に係る電子装置は、入力シーケンスを受信し、前記入力シーケンスに基づいて、出力シーケンスを出力するエンコーダー及びデコーダーと、少なくとも1つのプロセッサとを含み、前記少なくとも1つのプロセッサは、前記デコーダーのアテンション基盤シーケンスツーシーケンスモデルに含まれた複数のアテンションヘッドのうちターゲットアテンションヘッドを選択し、前記ターゲットアテンションヘッドに基づいて前記出力シーケンスに含まれているエラー出力トークンを検出し、前記エラー出力トークンに基づいて前記出力シーケンスを補正し、前記補正された出力シーケンスを出力する。
前記エンコーダー及び前記デコーダーは、人工神経網に含まれてもよい。
前記少なくとも1つのプロセッサは、前記アテンション基盤シーケンスツーシーケンスモデルに格納されている複数のアテンション重み行列のうち前記ターゲットアテンションヘッドを選択し得る。
前記アテンション基盤シーケンスツーシーケンスモデルは、正しい結果が出る例題入力を前記エンコーダー及び前記デコーダーに入力することで、複数のアテンションヘッドに対応する複数のアテンション重み行列を格納し、前記少なくとも1つのプロセッサは、前記シーケンスツーシーケンスモデルの予め決定された目的に最も適するアテンション重み行列を生成するアテンションヘッドを、前記ターゲットアテンションヘッドとして選択し得る。
前記少なくとも1つのプロセッサは、前記複数のアテンションヘッドのうち特定アテンションヘッドを希望する形態のアテンション重み行列を生成するよう学習し、前記特定アテンションヘッドを前記特定アテンションヘッドとして決定し得る。
本発明によると、アテンション基盤シーケンスツーシーケンスモデルの性能向上方法及び装置を提供することができる。
一実施形態に係るシーケンスツーシーケンスモデルが使用されるシステムの構成図である。 一実施形態に係るエンコーダー−デコーダー構造のエンドツーエンド人工神経網を有する電子装置の動作を説明するための図である。 一実施形態に係るアテンション重みを決定する方法を説明するための図である。 一実施形態に係るアテンション重みを決定する方法を説明するための図である。 一実施形態に係るアテンション重み行列を説明するための図である。 一実施形態に係るアテンション重み行列を説明するための図である。 一実施形態に係る電子装置のブロック図である。 他の実施形態に係る電子装置のブロック図である。 一実施形態に係るアテンション基盤シーケンスツーシーケンスモデルの性能向上方法を説明するためのフローチャートである。 一実施形態に係る予め決定された形態を有するガイド重み行列を説明するための図である。 一実施形態に係る毎出力トークンを生成するとき以前とは異なるアテンション重みを有するように構成されたガイド重み行列を説明するための図である。
実施形態に対する特定な構造的又は機能的な説明は単なる例示を目的として開示されたものとして、様々な形態に変更される。したがって、実施形態は特定な開示形態に限定されるものではなく、本明細書の範囲は技術的な思想に含まれる変更、均等物ないし代替物を含む。
第1又は第2などの用語を複数の構成要素を説明するために用いることがあるが、このような用語は1つの構成要素を他の構成要素から区別する目的としてのみ解釈されなければならない。例えば、第1構成要素は第2構成要素と命名することができ、同様に第2構成要素は第1構成要素としても命名することができる。
また、実施形態の構成要素を説明することにおいて、第1、第2、A、B、(a)、(b)などの用語を使用することができる。これらの用語は、その構成要素を他の構成要素と区別するためのものに過ぎず、その用語によって当該構成要素の本質や順序などが限定されることはない。いずれかの構成要素が他の構成要素に「連結」、「結合」、又は「接続」されていると言及されたときには、その他の構成要素に直接的に連結されているか又は接続されているが、各構成要素との間にさらなる構成要素が「連結」、「結合」、又は「接続」され得るものと理解されなければならない。
単数の表現は、文脈上、明白に異なる意味をもたない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品、又はこれらを組み合わせたものが存在することを示すものであって、1つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものなどの存在、又は、付加の可能性を予め排除しないものとして理解しなければならない。
異なるように定義さがれない限り、技術的であるか又は科学的な用語を含む、ここで用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる、予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈すべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。
以下、実施形態を添付の図面を参照しながら詳説する。各図面に提示された同じ参照符号は同じ部材を示す。
図1は、一実施形態に係るシーケンスツーシーケンスモデルが使用されるシステムの構成図である。
図1を参照すると、シーケンスツーシーケンス(Sequence−to−sequence)モデルが使用されるシステムは、ユーザ端末110及び電子装置120を含む。図1に示すシーケンスツーシーケンスモデルが使用されるシステムの各構成要素は、機能的に区分される機能要素を示すものであって、少なくとも1つの構成要素が実際の物理的環境では互いに統合される形態において実現されてもよい。例えば、図1には、電子装置120が一種のサーバー装置として示されているが、実施形態によって電子装置120の各機能は、ユーザ端末110に内蔵されている形態に実現されてもよい。
シーケンスツーシーケンスモデルは、入力シーケンスから他のドメインの出力シーケンスを出力する様々な分野で使用され得る。例えば、シーケンスツーシーケンスモデルは、音声認識システム、機械翻訳システム、チャットボットシステムなどで使用され得る。音声認識システムは、音声を受信して音声認識文章を出力することができ、機械翻訳システムは、第1言語文章を受信し、これに対応する第2言語文章を出力することができ、チャットボットシステムは、質問を受信して、質問に対応する返答を出力することができる。以下では、説明の便宜のために音声認識システムにおけるシーケンスツーシーケンスモデルを基準にして説明するが、実施形態は、シーケンスツーシーケンスモデルが使用され得る様々な分野に適用されてもよい。
音声認識システムにおいて、ユーザ端末110は、入力シーケンス130を受信して電子装置120に伝達し、電子装置120から受信した出力シーケンス140をユーザに提供する端末である。図1において、ユーザ端末110は、スマートフォンとして示されているが、ユーザ端末110は、コンピュータ、UMPC(Ultra Mobile PC)、ワークステーション、ネッブック(net−book)、PDA(Personal Digital Assistants)、ポータブル(portable)コンピュータ、ウェブタブレット(web tablet)、無線電話機(wireless phone)、モバイルフォン(mobile phone)、e−ブック(e−book)、PMP(portable multimedia player)、ポータブルゲーム機、ナビゲーション(navigation)装置、ブラックボックス(black box)又はデジタルカメラ(digital camera)のような電子装置の1つであり得る。
電子装置120は、話者の入力シーケンス130の入力を受けて認識結果である出力シーケンス140を提供するコンピュータ装置であって、シーケンスツーシーケンスモデル基盤の電子装置である。入力シーケンス130は、入力データと入力データから抽出された入力特徴ベクトルを含む。例えば、音声認識システムにおいて、入力シーケンス130は、入力音声と入力音声から抽出された入力音声特徴ベクトルを含む。また、コンピュータ装置は、ノート型パソコン、デスクトップ(desktop)、ラップトップ(laptop)、スマートフォン(smart phone)などのモバイル装置であってもよいが、これに限定されることなく、演算装置が具備された全ての種類の装置を含んでもよい。
電子装置120は、人工神経網で構成されたシーケンスツーシーケンスモデルを構築し、構築されたシーケンスツーシーケンスモデルを用いて入力シーケンス130に対する認識結果である出力シーケンス140を提供する。人工神経網は、例えば、リカレントニューラルネットワーク(RNN; Recurrent Neural Network)、畳み込みニューラルネットワーク(CNN; Convolutional Neural Network)、セルフアテンション神経網(SANN; Self−Attention Neural Network)、BRNN(Bi−directional RNN)、LSTM(Long Short Term Memory)、BLSTM(Bi−directional LSTM)、GRU(Gated Recurrent Unit)、BGRU(Bi−directional GRU)などであり得るが、これに限定されることはない。
また、電子装置120は、出力シーケンス140の正確度を向上するための補正装置を含む。補正装置は、電子装置120と機能的に区分される機能要素を示すものであり、実際の物理的環境では、補正装置の少なくとも1つの構成要素が電子装置120と統合される形態において実現されてもよい。電子装置120は、補正装置を用いて出力シーケンス140のエラーを検出し、補正された出力シーケンスを出力することができる。
以下では、図2A〜図2Cを参照して、多重ヘッドアテンション基盤シーケンスツーシーケンスモデルの動作方法を説明し、図3A〜図3Bを参照して、アテンション重み行列を説明し、図4A〜図7を参照して、アテンション基盤シーケンスツーシーケンスモデルの性能向上方法を説明する。
図2Aは、一実施形態に係るエンコーダー−デコーダー構造のエンドツーエンド人工神経網を有する電子装置の動作を説明するための図である。
図2Aを参照すると、一実施形態に係る人工神経網は、エンコーダー220及びデコーダー230を含む。
人工神経網は、エンコーダー220−デコーダー230構造のエンドツーエンド人工神経網であり、モデルの全ての媒介変数が1つの損失関数に対して同時に訓練される経路が可能であるため、エンコーダー220とデコーダー230が同時に学習され得る。人工神経網は、一方のエンドから入力され、他方のエンドに出力を生成するが、入力及び出力を直接考慮してネットワーク重みを最適化することができる。人工神経網内のレイヤーのノードは非線型的で互いに影響を与える関係であり、各ノードから出力される値、ノード間の関係など、人工神経網のパラメータは学習によって最適化され得る。
エンコーダー220−デコーダー230構造のエンドツーエンド人工神経網は、エンコーダー220とデコーダー230が統合されたネットワーク構造であって、エンコーダー220とデコーダー230は、入力シーケンスから入力シーケンスに対応する出力シーケンスを直接生成する。
例えば、電子装置は、入力データ210から入力特徴ベクトル215を抽出し、エンコーダー220は、入力特徴ベクトル215を符号化し、符号化された特徴225を生成する。エンコーダー220は、入力特徴ベクトル215の次元を変換させ、符号化された特徴225を生成し得る。即ち、エンコーダー220は、入力シーケンスの意味を円滑に要約する役割を果たす。
符号化された特徴225は、人工神経網のデコーダー230に印加されてもよい。デコーダー230は、トークン単位で符号化された特徴225と以前に決定された認識結果に基づいて出力トークンを決定することができる。
具体的に、符号化された特徴225を受信したデコーダー230は、トークン単位で認識結果を出力し、トークンは、単語、部分語(subword)、単一字(character)、あるいは単一字をなす単位(ハングルにおいては初声、中性、終声など)になる。以下では、デコーダー230が出力する全体認識結果を出力シーケンスと称する。出力シーケンスは、複数の出力トークンを含む。
デコーダー230は、決定されていない長さの出力を人工神経網で算出するために、終わりを意味する特殊トークンである<EOS>が出力される以前まで、今まで推正したトークンを入力として次のトークンを1つずつ、次に、予測することができる。デコーダー230は、ステップごとにエンコーダー220から算出された情報に基づいて出力トークンを求めるが、ここでは、以前ステップの出力トークンに属して求めることができ、このような方法を自己回帰(auto−regressive)デコーディングと言う。
即ち、自己回帰デコーディングを行うエンドツーエンド人工神経網モデルから出力トークンに選択されたトークンが、次の入力トークンとして決定され得る。例えば、「tell me a joke」という文章において「me」を認識するとき、以前ステップの出力トークンである「tell」を考慮する。
但し、エンコーダー220−デコーダー230構造のエンドツーエンド人工神経網は、全体入力データを単一のベクトルに処理するため、入力データが長くなればデータの前の部分の情報が希薄にされ、出力シーケンスの品質が落ちる問題がある。これを解決するために、デコーダー230で出力トークンを推正するステップごとに、エンコーダー220における全体入力データを再度参考することができる。但し、全体入力データを全て同じ割合で参考にすることなく、該当ステップで予測しなければならない出力トークンと関連のある入力音声部分にもっと集中することができる。
より具体的に、入力シーケンスを構成している各入力フレームは、該当ステップで予測しなければならない出力トークンと関連する程度に応じて、アテンション重み(attention weight)が設定され、デコーダー230は、設定されたアテンション重みに基づいて、ステップごとに出力トークンを推正することができる。
エンコーダー220とデコーダー230は、入力された入力特徴ベクトルから認識結果のシーケンスを生成するように予め学習されてもよい。例えば、エンコーダー220とデコーダー230のモデルパラメータ(例えば、シナプス接続の重みとニューロンの偏向)は、入力データに対応する正解データ対のシーケンスから認識結果のシーケンスを生成するように予め学習され得る。さらに、エンコーダー220とデコーダー230のアテンション重みについても、入力データに対応する正解テキスト対のシーケンスから認識結果のシーケンスを生成するように予め学習されてもよい。
図2B〜図2Cは、一実施形態に係るアテンション重みを決定する方法を説明するための図である。
図2Bを参照すると、エンコーダー240は、入力フレーム(例えば、i〜i、Nは入力フレームの数)を含む入力シーケンスを受信し、エンコーダーの隠れ状態ベクトル(例えば、h〜h)を生成することができる。
アテンションモジュール251は、デコーダー250がステップごとに出力トークンを推正するときに使用される、該当ステップで入力シーケンスを構成する各入力フレーム(例えば、i〜i)のアテンション重みを決定し、決定されたアテンション重みに基づいて、コンテキスト・ベクトル(context vector)(例えば、c〜c、Mは出力トークンの数)を生成する。
多重ヘッドアテンション基盤シーケンスツーシーケンスモデルである場合、アテンションモジュール251は多重ヘッドアテンションモジュールであってもよく、アテンションレイヤーは複数のアテンションレイヤー(例えば、第1アテンションレイヤーないし第kアテンションレイヤー)を含み、各アテンションレイヤーは、並列的にアテンション重みを決定し、決定されたアテンション重みに基づいてコンテキスト・ベクトルを生成することができる。アテンションモジュール251は、暗黙的に様々な役割をするように学習された複数のアテンションレイヤーを用いてもよい。
デコーダー250は、以前ステップのデコーダーの隠れ状態ベクトルst−1、以前ステップの出力トークンyt−1、及び現在ステップのコンテキスト・ベクトルcが入力され、現在ステップのデコーダーの隠れ状態ベクトルs及び現在ステップの出力トークンyを抽出する。デコーダーが現在ステップで出力トークンを抽出するときに使用される現在ステップのコンテキスト・ベクトルcは次の数式(1)のように求めることができる。
Figure 2021190101
数式(1)のα は、ステップtに対してi番目の入力フレームに対するアテンション重みを意味する。
図2Cを参照すると、α は、ステップtに対してi番目の入力フレームに対するアテンション重みで全ての入力フレーム(例えば、1番目からN番目のまで)に対するアテンション重みを和すると1である。もし、α ないしα のうちα の値が最大である場合、デコーダー250は、現在ステップtで2番目の入力フレームに最も集中して出力トークンを抽出することができる。
多重ヘッドアテンションモデルは、既存の単一アテンションモデルよりも性能が改善されたが、可変の長さを出力するシーケンスツーシーケンスモデルの慢性的な短所である一部の出力をジャンピング(jumping)したり、以前出力の内容を繰り返す(repeating)という問題が依然として残っている。
例えば、多重ヘッド基盤シーケンスツーシーケンスモデルは「tell me a joke」という文章に対応する音声が入力される場合、場合に応じて、「tell」の後に「me a」をジャンピングして「joke」を出力する現象が発生し得る。
また、多重ヘッド基盤シーケンスツーシーケンスモデルは、下記のように珍しい音声あるいは前に見られなかった単語(essendi rerum)に対応する音声が入力されると、下表1のように節、あるいは一つの単語を繰り返す現象が発生し得る。
Figure 2021190101
これに、一実施形態に係る補正装置は、複数のアテンションヘッドのうちターゲットアテンションヘッドを選択し、ターゲットアテンションヘッドに基づいて1つ以上のエラー出力トークンを検出し、エラー出力トークンに基づいて出力シーケンスを補正して電子装置の最終出力シーケンスの正確度を向上することができる。
図3A〜図3Bは、一実施形態に係るアテンション重み行列を説明するための図である。
一実施形態に係るアテンション重み行列は、出力シーケンスを構成するそれぞれの出力トークンに対して、入力シーケンスを構成するそれぞれの入力フレームのアテンション重みをエレメントとして有してもよい。例えば、電子装置が「tell me a joke」のような出力シーケンスを出力するケースであり、アテンション重み行列は下記の表2の通りである。
Figure 2021190101
表2の例示において、出力トークンは単語単位であり、各入力フレームは、10msの時間単位を有してもよい。表2を参照すると、出力トークン「tell」の場合、入力フレームiのアテンション重みが0.9として最も大きく、iのアテンション重みは0.07として2番目に大きく、iのアテンション重みは0.02として3番目に大きく、i〜iのアテンション重みを全て和すると、0.99であり、出力トークン「tell」は入力フレームi〜iに集中して抽出されることが分かる。
多重ヘッド基盤シーケンスツーシーケンスモデルでは、アテンションヘッド当たり1つのアテンション重み行列が作られ、各アテンション重み行列は暗黙的に各自の役割を果たすように学習され得る。例えば、n個のアテンションヘッドを有する多重ヘッド基盤シーケンスツーシーケンスモデルでは、n個のアテンション重み行列が作られてもよい。
図3Aを参照すると、アテンション重み行列のアテンション重みは色を用いて表現されてもよい。例えば、2つのアテンション重み行列310、320において、アテンション重みが大きいほど白色に近く表現され、反対に、アテンション重みが小さいほど黒色に近づいて表現される。2つのアテンション重み行列310、320の横軸は、左側から右側に時間の流れによる入力フレームの順であり、縦軸は、上側から下側に時間の流れによる出力トークン(例えば、単語)の順である。
複数のアテンション重み行列を用いて出力シーケンスを推正する場合、それぞれのアテンション重み行列の役割が異なってもよい。暗黙的に学習されたが、2つのアテンション重み行列310、320は互いに異なる役割を行っているものと解釈できる。例えば、アテンション重み行列310は、音声のうち、実際発話のない黙音区間でアテンション重みが大きく示され、これは出力を構成するとき背景騒音を無視できるように助け、アテンション重み行列320は、各単語が実際発話された音声の位置でアテンション重みが高いことから、実際に認識する単語の音声部分に集中可能にする。
前述したように、多重ヘッドアテンションモデルは、既存の単一アテンションモデルより性能が改善しているものの、可変の長さを出力するシーケンスツーシーケンスモデルの慢性的な短所である一部の出力をジャンピングしたり、以前の出力内容を繰り返すという問題がある。
例えば、図3Bに示すアテンション重み行列330は、認識を正常にできず、繰り返されるエラーを出力する場合のアテンション重み行列である。アテンション重み行列330は、アテンション重み行列320のようなアテンションヘッドで作られたアテンション重み行列であってもよいが、アテンション重み行列320は、正常に出力トークンを生成するときのアテンション重み行列であってもよく、アテンション重み行列330は、以前の出力内容を繰り返すエラーを出力する場合のアテンション重み行列であってもよい。アテンション重み行列330を参照すると、出力トークン軸であるx軸を基準にして、約1/3地点までは結果が正常に出力されたが、その後の数個の出力トークン(例えば、単語)が繰り返されて出力されていることが分かる。
一実施形態に係る補正装置は、上記のようなエラーを補正するために、特定のアテンションヘッドを選択し、このアテンションヘッド(以下、ターゲットアテンションヘッド)のアテンション重みを分析しエラー出力を抑制することで、多重ヘッドアテンションシーケンス−ツー−シーケンスモデルの性能を高めることができる。具体的なアテンション基盤シーケンスツーシーケンスモデルの性能向上方法については、次の図4A〜図7を参照して説明される。
図4Aは、一実施形態に係る電子装置のブロック図である。
図4Aを参照すると、一実施形態に係る電子装置401は、エンコーダー420、デコーダー430、ターゲットアテンションヘッド選択モジュール460、及びエラー出力トークン検出及び補正モジュール470を含む。但し、図4Aには、実施形態に係る構成要素のみが示されており、他の汎用的な構成要素がさらに含まれてもよい。また、図4Aに示す電子装置401の各構成要素は、機能的及び論理的に分離できることを示すために別途に示し、物理的に必ずしも別途の構成要素、又は別途のコードに実現されることを意味するものではなく、実際の物理的環境では互いに統合される形態において実現され得ることに留意しなければならない。以下、電子装置401の各構成要素について説明する。
電子装置401は、特徴ベクトル抽出モジュール(図示せず)をさらに含む。特徴ベクトル抽出モジュールは、入力信号(例えば、音声信号)から特徴ベクトルを抽出する。入力信号は、複数のフレームごとの情報を含む信号であり、特徴ベクトルは、少なくとも1つのフレーム単位に抽出された情報のシーケンスであり、多次元のベクトルに表現されてもよい。以下、入力シーケンスは、入力信号と入力信号から抽出された特徴ベクトルを含んでもよく、入力フレーム単位で情報を含んでもよい。
図4Aに示すエンコーダー420及びデコーダー430は、図2Aを参照して説明したエンコーダー220及びデコーダー230に対応する。したがって、図2Aと重複される説明は省略することにする。デコーダー430は、ステップごとに出力トークンを推正するたびに、どのような入力フレームにもっと集中することがよいかを決定するアテンションモジュール440を含む。具体的に、アテンションモジュール440は、デコーダー430がステップごとに出力トークンを推正するとき使用され、該当ステップで入力シーケンスを構成している各入力フレームのアテンション重みを決定するデコーダー430は、設定されたアテンション重みに基づいてステップごとに出力トークンを推正することができる。アテンションモジュール440は、多重ヘッドアテンションモジュールであってもよい。多重ヘッドアテンションモジュールは、様々な役割を果たすように学習された複数のアテンションレイヤーを用いて、全体ディメンションに対して1回のみのアテンションを適用することなく、全体ディメンションを複数に分けてアテンションを複数回適用させることができる。また、アテンションモジュール440は、全てのアテンションヘッドのアテンション重み行列を格納することができる。
電子装置401は、エンコーダー420及びデコーダー430を用いて入力シーケンス410に対応する出力シーケンス450を出力する。但し、前述したように、予想とは異なる出力シーケンス450が出力されてもよい。
一実施形態に係る電子装置401は、ターゲットアテンションヘッド選択モジュール460を用いて複数のアテンションヘッドのうち、ターゲットアテンションヘッドを選択し、エラー出力トークン検出及び補正モジュール470を用いて選択されたターゲットアテンションヘッドに基づいて、出力シーケンスに含まれた出力トークンのうちエラー出力トークンを検出し、補正された出力シーケンス480を最終結果として出力することができる。
より具体的に、ターゲットアテンションヘッド選択モジュール460は、アテンションモジュール440に格納されている複数のアテンション重み行列のうち、ターゲットアテンションヘッドを選択してもよい。アテンションモジュール440は、エンコーダー420及びデコーダー430に正しい結果が出る例題を入力し、全てのアテンションヘッドに対するアテンション重み行列を格納することができ、ターゲットアテンションヘッド選択モジュール460は、格納されている全てのアテンションヘッドのうちシーケンスツーシーケンスモデルが行う目的に応じて、最も適切なアテンション重み行列を作り出すアテンションヘッドをターゲットアテンションヘッドとして選定することができる。ここで、アテンション重み行列を格納してターゲットアテンションヘッドを選定する動作について、エラー可否の判断を受けようとする入力シーケンス410が入力される以前に予め行われ得る。
前述したように、電子装置401は、補正装置を含み、補正装置は、ターゲットアテンションヘッド選択モジュール460及びエラー出力トークン検出及び補正モジュール470を含む。
図4Bは、他の実施形態に係る電子装置のブロック図である。
図4Bに示す電子装置402は、図4Aに示す電子装置401のターゲットアテンションヘッド選択モジュール460の代りにアテンションガイドモジュール490を含んでもよい。図1〜図4Aに示す説明は図4Bにも適用可能であるため、重複される内容の説明は省略する。
図4Aに示す電子装置401がアテンションモジュール440に格納されているアテンション重み行列のうち、ターゲットアテンションヘッドを選択することとは異なって、図4Bに示す電子装置402は、明示的に特定アテンションヘッドをターゲットアテンションヘッドとして活用するよう学習することができる。
より具体的に、アテンションガイドモジュール490は、任意に決定されたアテンションヘッドが希望する形態のアテンション重み行列を生成するように学習することができ、後で出力シーケンスのエラー可否を判断する時、エラー出力トークン検出及び補正モジュール470にターゲットアテンションレイヤーに学習したアテンションヘッドを知らせることができる。
前述したように、電子装置402は補正装置を含んでもよく、補正装置は、アテンションガイドモジュール490、及び、エラー出力トークン検出及び補正モジュール470を含んでもよい。
図5は、一実施形態に係るアテンション基盤シーケンスツーシーケンスモデルの性能向上方法を説明するためのフローチャートである。
図5を参照すると、ステップS510〜S540は図1ないし図4Bを参照して前述した電子装置によって行うことができる。電子装置は、1つ以上のハードウェアモジュール、1つ以上のソフトウェアモジュール、又はこれらの様々な組み合せによって実現され、前述したように、電子装置は、補正装置を含む。図1ないし図4Bの説明は図5にも適用され得るため、重複する内容の説明は省略する。
ステップS510において、電子装置は、アテンション基盤シーケンスツーシーケンスモデルに基づいて入力シーケンスに対応する出力シーケンスを決定する。例えば、電子装置は、入力音声又は入力音声に対応する入力音声特徴ベクトルを受信してもよい。
ステップS520において、電子装置は、複数のアテンションヘッドのうち、1つ以上のターゲットアテンションヘッドを選択する。多重ヘッドアテンション基盤シーケンスツーシーケンスモデルに基盤した電子装置は、アテンションレイヤー数とデコーダーレイヤー数の積分だけのアテンションヘッドを有してもよい。それぞれのアテンションヘッドが作り出すアテンション重み行列の役割が異なってもよい。電子装置は、互いに異なる役割を行うアテンション重み行列を作り出すアテンションヘッドのうち、該当する多重ヘッドアテンション基盤シーケンスツーシーケンスモデルが行う目的に最も適したアテンション重み行列を作り出す1つ以上のアテンションヘッドをターゲットアテンションヘッドとして選定してもよい。
ターゲットアテンションヘッドを選択する方法は、大きく2つに区分される。第1に、電子装置に正しい結果が出る例題入力を入れ、全てのアテンションヘッドに対するアテンション重み行列を予め格納し、格納された全てのアテンションヘッドのうち、シーケンスツーシーケンスモデルが行う目的に応じて最も適切なアテンション重み行列を作り出すアテンションヘッドを求める方法である。第2に、任意に決定されたアテンションヘッドが希望する形態のアテンション重み行列を生成するように学習し、そのように学習されたアテンション重み行列をターゲットアテンションレイヤーとして選択する方法である。
第1の方法によれば、電子装置は、複数のアテンションヘッドのうち、予め決定された目的に最も適するアテンション重み行列を生成するアテンションヘッドをターゲットアテンションヘッドとして選択する。
一実施形態によると、電子装置は、予め決定された目的による予め決定された形態を有するガイド重み行列に基づいて、ターゲットアテンションヘッドを選択してもよい。例えば、音声認識は、入力シーケンス(例えば、入力音声)と出力シーケンス(例えば、認識された単語)を時間に応じてマッピングすれば単調性質を有することになる。この場合、電子装置は、複数のアテンションヘッドが作り出すアテンション重み行列に対して単調回帰分析(monotonic regression analysis)を行い、最も単調性質を満足するアテンションヘッドをターゲットアテンションヘッドとして選択する。この場合、ガイド重み行列は、単調行列であってもよい。
図6は、一実施形態に係る予め決定された形態を有するガイド重み行列を説明するための図である。
図6を参照すると、ガイド重み行列600は、アテンション基盤シーケンスツーシーケンスモデルが単調性質を有するように誘導するアテンション重みを有し得る。ガイド重み行列600のアテンション重みは、下記の数式(2)のように決定される。
Figure 2021190101
数式(2)において、iは出力シーケンスの長さ、jは入力シーケンスの長さ、sは開始シフト(start shift)、sは終了シフト(end shift)、gはディフュージョン比率(diffusion ratio)を意味する。図面610を参照すると、ガイド重み行列600の色はアテンション重みを意味する。
また、図5を参照すると、第1方法の他の例として、翻訳、要約など入力を多様に見なければならないタスクの場合、ガイド重み行列のガイドアテンション重みは予め決定された形態を有するものではない、出力トークンを生成するたびに以前とは異なるアテンション重みを有するよう構成される。このような場合、電子装置は、複数のアテンションヘッドが作り出すアテンション重み行列のエントロピー(entropy)に基づいてターゲットアテンションヘッドを選択することができる。電子装置は、アテンション重み行列のうち、エントロピーが最大のアテンション重み行列を作り出すアテンションヘッドを前記ターゲットアテンションヘッドとして選択してもよい。例えば、電子装置は、アテンション重み行列のうち、アテンション重み行列の各行の分布間の距離が最も遠いアテンション重み行列を作り出すアテンションヘッドをターゲットアテンションヘッドとして選択してもよい。具体的に、電子装置は、カルバック・ライブラー情報量(Kullback Leibler divergence)を算出し、カルバック・ライブラー情報量が最大のアテンション重みを作り出すアテンションヘッドをターゲットアテンションヘッドとして選択してもよい。当該分野で通常の知識を有する者であれば、カルバック・ライブラー情報量を明確に理解できるため、より詳細な説明は省略する。
図7は、一実施形態に係る出力トークンを生成するたびに以前とは異なるアテンション重みを有するよう構成されたガイド重み行列を説明するための図である。
図7を参照すると、ガイド重み行列700は、出力トークンを生成するたびに以前とは異なるアテンション重みを有するよう構成されてもよい。図7において、x軸は出力シーケンス、y軸は入力シーケンスに対応する。t出力トークンを予測するとき、以前出力トークンを予測するとき、比重の低かった6番目の入力フレームにさらに大きいアテンション重みを有してもよい。
また、図5を参照すると、2番目の方法によれば、電子装置は、任意に決定されたアテンションヘッドが希望する形態のアテンション重み行列を生成するように学習し、そのように学習されたアテンション重み行列をターゲットアテンションレイヤーとして選択してもよい。電子装置は、ターゲットアテンションヘッドに対応するターゲットアテンション重み行列になるよう学習された特定のアテンション重み行列を作り出すアテンションヘッドをターゲットアテンションヘッドとして選択してもよい。
一例として、特定のアテンション重み行列は、予め決定された目的による予め決定された形態を有するガイド重み行列に基づいて学習されてもよい。予め決定された目的による予め決定された形態を有するガイド重み行列は、1番目の方法により前述したガイド行列である。例えば、電子装置は、図6に示すガイド行列600に基づいて特定のアテンション重み行列が単調性質を有するように学習してもよい。
他の例として、翻訳、要約など入力を多様に見なければならないタスクの場合、特定のアテンション重み行列は、ステップごとにアテンション重みの分布が異なるように学習されてもよい。特定のアテンション重み行列は、以前ステップのアテンション重みの累積和に基づいて、現在ステップのアテンション重みが決定されるように学習されてもよい。例えば、図7を参照すると、出力トークンを予測するステップごとに以前ステップのアテンション重み累積和を算出し、以前ステップのアテンション重み累積和が小さい箇所に高いアテンション重みを有するよう特定のアテンション重み行列を学習することができる。
第2方法において、特定のアテンション重み行列を学習する方法として、ガイド重み行列をバイアスのように活用し、人工神経網学習過程で自然にガイド重み行列と類似形態のアテンション重みを生成するよう学習したり、明示的にカルバック・ライブラー情報量のような損失関数(loss function)を人工神経網学習損失として追加してもよい。
ステップS530において、電子装置は、出力シーケンスを構成する出力トークンのうち、ターゲットアテンションヘッドに基づいて、1つ以上のエラー出力トークンを検出する。電子装置は、出力シーケンスのエラー可否を判断する前に、予めターゲットアテンションヘッドを決定してもよい。電子装置は、決定されたターゲットアテンションヘッドに基づいて、1つ以上のエラー出力トークンを検出してもよい。
一例として、電子装置は、ターゲットアテンションヘッドのエラー可否の判断対象の入力シーケンスと出力シーケンスとの間のアテンション重み行列(以下では、対象アテンション重み行列と称する)を取得することができる。電子装置は、対象アテンション重み行列のアテンション重みとガイド重み行列のアテンション重みとの差が、第1閾値以上である、1つ以上のエラーアテンション重みを検出することができる。例えば、電子装置は、対象アテンション重み行列のアテンション重みとガイド重み行列のアテンション重みのカルバック・ライブラー情報量の差が、第1閾値以上である、1つ以上のエラーアテンション重みを検出してもよい。電子装置は、エラーアテンション重みに対応する出力トークンを前記エラー出力トークンとして決定してもよい。
他の例として、翻訳、要約などの入力を様々に見なければならないタスクの場合、電子装置は、対象アテンション重み行列のアテンション重みのうち、以前ステップのアテンション重みと第2閾値以上の類似度を有する1つ以上のエラーアテンション重みを検出してもよい。
ステップS540において、電子装置は、エラー出力トークンに基づいて、出力シーケンスを補正する。一実施形態に係る電子装置は、一旦、出力シーケンスの全体を決定した後で、エラー出力トークンを検出し、エラー出力トークンに基づいて、出力シーケンスを補正してもよい。この場合、電子装置は、エラー出力トークンを出力シーケンスから取り除くことで、出力シーケンスのエラーを補正することができる。
又は、他の実施形態に係る電子装置は、リアルタイムで出力トークンを予測するステップごとにエラー出力トークンを検出し、エラー出力トークンに基づいて、出力シーケンスを補正してもよい。エラー出力トークンを修正しない場合、電子装置は、エラー出力トークンに基づいて、次の出力トークンを決定するしかない。しかし、電子装置は、エラー出力トークンを出力シーケンスから取り除くだけでなく、エラー出力トークンを取り除いた他の出力トークン候補のうち、次の入力トークンを決定することができる。一実施形態によると、エラー出力トークンを出力したステップの入力トークンを、次の入力トークンとして決定してもよい。「tell me a joke」という文章に対応する音声が入力される場合、場合に応じて、「tell」の後に「me a」をジャンピングし「joke」を出力する現象が発生する場合、「joke」を次の入力トークンとして入力せず、「tell」をもう1回入力トークンとして入力する。又は、エラー出力トークンを除外し、最も高い確率を有する出力トークン候補を次の入力トークンとして決定することができる。
一実施形態に係る電子装置は、下記の表3のように、一単語を繰り返す現象を補正したことが分かる。
Figure 2021190101
実施形態に係る方法は、様々なコンピュータ手段を介して実施されるプログラム命令の形態で具現化され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例として、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカルディスクのような磁気−光媒体、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。ハードウェア装置は、本発明に示す動作を実行するために1つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。
ソフトウェアは、コンピュータプログラム、コード、命令、又はそのうちの1つ以上の組合せを含み、希望通りに動作するよう処理装置を構成したり、独立的又は結合的に処理装置を命令することができる。ソフトウェア及び/又はデータは、処理装置によって解釈されたり、処理装置に命令又はデータを提供するために、いずれかの類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、もしくは、送信される信号波に永久的又は一時的に具体化することができる。ソフトウェアは、ネットワークに連結されたコンピュータシステム上に分散され、分散した方法で格納されたり、実行され得る。ソフトウェア及びデータは、1つ以上のコンピュータで読出し可能な記録媒体に格納され得る。
上述したように、実施形態がたとえ限定された図面によって説明されても、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて、様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が、説明された方法と異なる順で実行され得るし、及び/又は説明されたシステム、構造、装置、回路などの構成要素が、説明された方法と異なる形態で結合又は組み合わせられてもよいし、他の構成要素又は均等物によって置き換え又は置換されたとしても適切な結果を達成することができる。
したがって、本発明の範囲は、開示された実施形態に限定されて定められるものではなく、特許請求の範囲及び特許請求の範囲と均等なものなどによって定められるものである。
110 ユーザ端末 120 電子装置
210 入力データ
215 入力特徴ベクトル
220 エンコーダー
225 符号化された特徴
230 デコーダー
240 エンコーダー
250 デコーダー
310、320、330 アテンション重み行列
401、402 電子装置

Claims (40)

  1. アテンション基盤シーケンスツーシーケンスモデルに基づいて、入力シーケンスに対応する出力シーケンスを決定するステップと、
    複数のアテンションヘッドのうち、1つ以上のターゲットアテンションヘッドを選択するステップと、
    前記出力シーケンスを構成する出力トークンのうち、前記ターゲットアテンションヘッドに基づいて、1つ以上のエラー出力トークンを検出するステップと、
    前記1つ以上のエラー出力トークンに基づいて、前記出力シーケンスを補正するステップと、
    を含む、アテンション基盤シーケンスツーシーケンスモデルの性能向上方法。
  2. 前記選択するステップは、
    前記ターゲットアテンションヘッドに対応するターゲットアテンション重み行列になるように学習された特定のアテンション重み行列を作り出すアテンションヘッドを、前記ターゲットアテンションヘッドとして選択する、ステップを含む、
    請求項1に記載の性能向上方法。
  3. 前記特定のアテンション重み行列は、予め決定された形態を有するガイド重み行列に基づいて学習される、
    請求項2に記載の性能向上方法。
  4. 前記ガイド重み行列は、出力シーケンス長さ、入力フレーム長さ、開始シフト、終了シフト、及びディフュージョン比率のうち少なくとも1つに基づいて、決定される、
    請求項3に記載の性能向上方法。
  5. 前記特定のアテンション重み行列は、ステップごとにアテンション重みの分布が異なるように学習される、
    請求項2に記載の性能向上方法。
  6. 前記特定のアテンション重み行列は、以前ステップのアテンション重み累積和に基づいて、現在ステップのアテンション重みが決定されるように学習される、
    請求項2に記載の性能向上方法。
  7. 前記選択するステップは、
    予め決定された目的に最も適するアテンション重み行列を生成するアテンションヘッドを、前記ターゲットアテンションヘッドとして選択する、ステップを含む、
    請求項1に記載の性能向上方法。
  8. 前記選択するステップは、
    予め決定された目的による予め決定された形態を有するガイド重み行列に基づいて、前記ターゲットアテンションヘッドを選択する、ステップを含む、
    請求項1に記載の性能向上方法。
  9. 前記選択するステップは、
    前記アテンション基盤シーケンスツーシーケンスモデルが単調性質を有する場合に、前記複数のアテンションヘッドが作り出すアテンション重み行列に対して単調回帰分析を行って、前記ターゲットアテンションヘッドを選択する、ステップを含む、
    請求項1に記載の性能向上方法。
  10. 前記選択するステップは、
    前記複数のアテンションヘッドが作り出すアテンション重み行列のエントロピーに基づいて、前記ターゲットアテンションヘッドを選択する、ステップを含む、
    請求項1に記載の性能向上方法。
  11. 前記エントロピーに基づいて、前記ターゲットアテンションヘッドを選択するステップは、
    前記アテンション重み行列のうち、前記エントロピーが最大のアテンション重み行列を作り出すアテンションヘッドを、前記ターゲットアテンションヘッドとして選択する、ステップを含む、
    請求項10に記載の性能向上方法。
  12. 前記エントロピーに基づいて、前記ターゲットアテンションヘッドを選択するステップは、
    カルバック・ライブラー情報量に基づいて、前記ターゲットアテンションヘッドを選択する、ステップを含む、
    請求項10に記載の性能向上方法。
  13. 前記選択するステップは、
    アテンション重み行列の各行の分布間の距離が最も遠いアテンション重み行列を作り出すアテンションヘッドを、前記ターゲットアテンションヘッドとして選択する、ステップを含む、
    請求項1に記載の性能向上方法。
  14. 前記検出するステップは、
    前記ターゲットアテンションヘッドの前記入力シーケンスと前記出力シーケンスとの間のアテンション重みのうち、前記ターゲットアテンションヘッドのアテンション重みとガイド重み行列との差が閾値以上である、1つ以上のエラーアテンション重みを検出するステップと、
    前記1つ以上のエラーアテンション重みに対応する出力トークンを、前記1つ以上のエラー出力トークンとして決定するステップと、
    を含む、請求項1に記載の性能向上方法。
  15. 前記検出するステップは、
    前記ターゲットアテンションヘッドの前記入力シーケンスと前記出力シーケンスとの間のアテンション重みのうち、以前ステップのアテンション重みと閾値以上の類似度を有する、1つ以上のエラーアテンション重みを検出するステップと、
    前記1つ以上のエラーアテンション重みに対応する出力トークンを、前記1つ以上のエラー出力トークンとして決定するステップと、
    を含む、請求項1に記載の性能向上方法。
  16. 前記補正するステップは、
    前記1つ以上のエラー出力トークンを前記出力シーケンスから取り除くステップを含む、
    請求項1に記載の性能向上方法。
  17. 前記補正するステップは、
    前記1つ以上のエラー出力トークンを取り除いた他の出力トークン候補のうち、次の入力トークンを決定する、ステップを含む、
    請求項1に記載の性能向上方法。
  18. 前記性能向上方法は、さらに、
    前記1つ以上のエラー出力トークンが出力されたステップの入力トークンを、前記次の入力トークンとして決定する、ステップを含む、
    請求項17に記載の性能向上方法。
  19. 前記複数のアテンションヘッドの数は、前記アテンション基盤シーケンスツーシーケンスモデルのアテンションレイヤー数とデコーダーレイヤー数の積に該当する、
    請求項1に記載の性能向上方法。
  20. コンピュータで読取り可能な記憶媒体に保管された、インストラクションを含むコンピュータプログラムであり、
    前記インストラクションが実行されると、前記コンピュータのハードウェアと協働して、請求項1乃至19いずれか一項に記載の方法を実施する、
    コンピュータプログラム。
  21. プロセッサを含む、アテンション基盤シーケンスツーシーケンスモデルの電子装置であって、前記プロセッサは、
    アテンション基盤シーケンスツーシーケンスモデルに基づいて、入力シーケンスに対応する出力シーケンスを決定し、
    複数のアテンションヘッドのうち1つ以上のターゲットアテンションヘッドを選択し、
    前記出力シーケンスを構成する出力トークンのうち、前記ターゲットアテンションヘッドに基づいて、1つ以上のエラー出力トークンを検出し、
    前記1つ以上のエラー出力トークンに基づいて、前記出力シーケンスを補正する、
    電子装置。
  22. 前記プロセッサは、
    前記ターゲットアテンションヘッドに対応するターゲットアテンション重み行列になるよう学習された特定のアテンション重み行列を作り出すアテンションヘッドを、前記ターゲットアテンションヘッドとして選択する、
    請求項21に記載の電子装置。
  23. 前記特定のアテンション重み行列は、予め決定された形態を有するガイド重み行列に基づいて学習される、
    請求項22に記載の電子装置。
  24. 前記特定のアテンション重み行列は、ステップごとにアテンション重みの分布が異なるように学習される、
    請求項22に記載の電子装置。
  25. 前記プロセッサは、
    予め決定された目的に最も適するアテンション重み行列を生成するアテンションヘッドを、前記ターゲットアテンションヘッドとして選択する、
    請求項21に記載の電子装置。
  26. 前記プロセッサは、
    予め決定された目的による予め決定された形態を有するガイド重み行列に基づいて、前記ターゲットアテンションヘッドを選択する、
    請求項21に記載の電子装置。
  27. 前記プロセッサは、
    前記アテンション基盤シーケンスツーシーケンスモデルが単調性質を有する場合に、前記複数のアテンションヘッドが作り出すアテンション重み行列に対して単調回帰分析を行って、前記ターゲットアテンションヘッドを選択する、
    請求項21に記載の電子装置。
  28. 前記プロセッサは、
    前記複数のアテンションヘッドが作り出すアテンション重み行列のエントロピーに基づいて、前記ターゲットアテンションヘッドを選択する、
    請求項21に記載の電子装置。
  29. 前記プロセッサは、
    前記アテンション重み行列のうち、前記エントロピーが最大のアテンション重み行列を作り出すアテンションヘッドを、前記ターゲットアテンションヘッドとして選択する、
    請求項28に記載の電子装置。
  30. 前記プロセッサは、
    アテンション重み行列の各行の分布間の距離が最も遠いアテンション重み行列を作り出すアテンションヘッドを、前記ターゲットアテンションヘッドとして選択する、
    請求項21に記載の電子装置。
  31. 前記プロセッサは、
    前記ターゲットアテンションヘッドの前記入力シーケンスと前記出力シーケンスとの間のアテンション重みのうち、前記ターゲットアテンションヘッドのアテンション重みとガイド重み行列との差が第1閾値以上である、1つ以上のエラーアテンション重みを検出し、
    前記1つ以上のエラーアテンション重みに対応する出力トークンを、前記1つ以上のエラー出力トークンとして決定する、
    請求項21に記載の電子装置。
  32. 前記プロセッサは、
    前記ターゲットアテンションヘッドの前記入力シーケンスと前記出力シーケンスとの間のアテンション重みのうち、以前ステップのアテンション重みと第2閾値以上の類似度を有する、1つ以上のエラーアテンション重みを検出し、
    前記エラーアテンション重みに対応する出力トークンを、前記1つ以上のエラー出力トークンとして決定する、
    請求項21に記載の電子装置。
  33. 前記プロセッサは、
    前記1つ以上のエラー出力トークンを前記出力シーケンスから取り除く、
    請求項21に記載の電子装置。
  34. 前記プロセッサは、
    前記1つ以上のエラー出力トークンを取り除いた他の出力トークン候補のうち次の入力トークンを決定する、
    請求項21に記載の電子装置。
  35. 前記プロセッサは、
    前記1つ以上のエラー出力トークンを出力したステップの入力トークンを、前記次の入力トークンとして決定する、
    請求項34に記載の電子装置。
  36. 電子装置であって、
    入力シーケンスを受信し、前記入力シーケンスに基づいて、出力シーケンスを出力する、エンコーダー及びデコーダーと、
    少なくとも1つのプロセッサと、
    を含み、
    前記少なくとも1つのプロセッサは、
    前記デコーダーのアテンション基盤シーケンスツーシーケンスモデルに含まれた複数のアテンションヘッドのうちターゲットアテンションヘッドを選択し、
    前記ターゲットアテンションヘッドに基づいて、前記出力シーケンスに含まれているエラー出力トークンを検出し、
    前記エラー出力トークンに基づいて、前記出力シーケンスを補正し、
    前記補正された出力シーケンスを出力する、
    電子装置。
  37. 前記エンコーダー及び前記デコーダーは、人工神経網に含まれている、
    請求項36に記載の電子装置。
  38. 前記少なくとも1つのプロセッサは、
    前記アテンション基盤シーケンスツーシーケンスモデルに格納されている複数のアテンション重み行列のうち、前記ターゲットアテンションヘッドを選択する、
    請求項36に記載の電子装置。
  39. 前記アテンション基盤シーケンスツーシーケンスモデルは、
    正しい結果が出る例題入力を前記エンコーダー及び前記デコーダーに入力することで、複数のアテンションヘッドに対応する複数のアテンション重み行列を格納し、
    前記少なくとも1つのプロセッサは、
    前記シーケンスツーシーケンスモデルの予め決定された目的に最も適するアテンション重み行列を生成するアテンションヘッドを、前記ターゲットアテンションヘッドとして選択する、
    請求項38に記載の電子装置。
  40. 前記少なくとも1つのプロセッサは、
    前記複数のアテンションヘッドのうち特定アテンションヘッドを希望する形態のアテンション重み行列を生成するよう学習し、
    前記特定アテンションヘッドを、前記特定アテンションヘッドとして決定する、
    請求項36に記載の電子装置。
JP2021068894A 2020-05-25 2021-04-15 アテンション基盤シーケンスツーシーケンスモデルの性能向上方法及び装置 Pending JP2021190101A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2020-0062450 2020-05-25
KR1020200062450A KR20210145490A (ko) 2020-05-25 2020-05-25 어텐션 기반 시퀀스 투 시퀀스 모델의 성능 향상 방법 및 장치

Publications (1)

Publication Number Publication Date
JP2021190101A true JP2021190101A (ja) 2021-12-13

Family

ID=74758658

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021068894A Pending JP2021190101A (ja) 2020-05-25 2021-04-15 アテンション基盤シーケンスツーシーケンスモデルの性能向上方法及び装置

Country Status (5)

Country Link
US (1) US11983626B2 (ja)
EP (1) EP3916640A3 (ja)
JP (1) JP2021190101A (ja)
KR (1) KR20210145490A (ja)
CN (1) CN113793594A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220170183A (ko) * 2021-06-22 2022-12-29 공주대학교 산학협력단 신경망을 기반으로 암호화 데이터를 분류하는 방법, 컴퓨팅장치 및 컴퓨터-판독가능 매체
US11514370B1 (en) 2021-12-03 2022-11-29 FriendliAI Inc. Selective batching for inference system for transformer-based generation tasks
US11442775B1 (en) 2021-12-03 2022-09-13 FriendliAI Inc. Dynamic batching for inference system for transformer-based generation tasks

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9830709B2 (en) 2016-03-11 2017-11-28 Qualcomm Incorporated Video analysis with convolutional attention recurrent neural networks
US10049279B2 (en) 2016-03-11 2018-08-14 Qualcomm Incorporated Recurrent networks with motion-based attention for video understanding
US10281885B1 (en) * 2016-05-20 2019-05-07 Google Llc Recurrent neural networks for online sequence generation
US11093813B2 (en) * 2016-10-20 2021-08-17 Google Llc Answer to question neural networks
US10565305B2 (en) 2016-11-18 2020-02-18 Salesforce.Com, Inc. Adaptive attention model for image captioning
WO2018204706A2 (en) * 2017-05-03 2018-11-08 Google Llc Recurrent neural networks for online sequence generation
EP4156032A1 (en) 2017-05-23 2023-03-29 Google LLC Attention-based sequence transduction neural networks
US11556786B2 (en) * 2017-10-27 2023-01-17 Google Llc Attention-based decoder-only sequence transduction neural networks
CN109726794B (zh) 2017-10-27 2024-03-12 谷歌有限责任公司 基于关注的图像生成神经网络
US11928600B2 (en) 2017-10-27 2024-03-12 Salesforce, Inc. Sequence-to-sequence prediction using a neural network model
US20190205761A1 (en) 2017-12-28 2019-07-04 Adeptmind Inc. System and method for dynamic online search result generation
US20190266474A1 (en) 2018-02-27 2019-08-29 Sap Se Systems And Method For Character Sequence Recognition
US11287894B2 (en) 2018-03-09 2022-03-29 Adobe Inc. Utilizing a touchpoint attribution attention neural network to identify significant touchpoints and measure touchpoint contribution in multichannel, multi-touch digital content campaigns
US10650230B2 (en) 2018-06-13 2020-05-12 Sap Se Image data extraction using neural networks
US11145293B2 (en) * 2018-07-20 2021-10-12 Google Llc Speech recognition with sequence-to-sequence models
US11138392B2 (en) 2018-07-26 2021-10-05 Google Llc Machine translation using neural network models
US11107463B2 (en) * 2018-08-01 2021-08-31 Google Llc Minimum word error rate training for attention-based sequence-to-sequence models
CN109829172B (zh) 2019-01-04 2023-07-04 北京先声智能科技有限公司 一种基于神经翻译的双向解码自动语法改错模型
KR102057926B1 (ko) 2019-03-19 2019-12-20 휴멜로 주식회사 음성 합성 장치 및 그 방법
CN111738021B (zh) * 2019-03-25 2023-10-31 株式会社理光 神经机器翻译模型的词向量处理方法、装置及存储介质

Also Published As

Publication number Publication date
CN113793594A (zh) 2021-12-14
EP3916640A2 (en) 2021-12-01
KR20210145490A (ko) 2021-12-02
US11983626B2 (en) 2024-05-14
EP3916640A3 (en) 2022-03-09
US20210366501A1 (en) 2021-11-25

Similar Documents

Publication Publication Date Title
US9818409B2 (en) Context-dependent modeling of phonemes
CN108417202B (zh) 语音识别方法及系统
JP2021190101A (ja) アテンション基盤シーケンスツーシーケンスモデルの性能向上方法及び装置
CN108711421B (zh) 一种语音识别声学模型建立方法及装置和电子设备
KR102167719B1 (ko) 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
CN110706692B (zh) 儿童语音识别模型的训练方法及系统
CN110516253B (zh) 中文口语语义理解方法及系统
Lou et al. Disfluency detection using auto-correlational neural networks
CN110556100A (zh) 端到端语音识别模型的训练方法及系统
US11947920B2 (en) Man-machine dialogue method and system, computer device and medium
CN111814489A (zh) 口语语义理解方法及系统
JP2021179593A (ja) 発話時間推定方法及び装置
CN112183061A (zh) 一种多意图口语理解方法、电子设备和存储介质
CN113591462A (zh) 弹幕回复生成方法、装置及电子设备
CN112967739A (zh) 一种基于长短期记忆网络的语音端点检测方法及系统
CN113254582A (zh) 一种基于预训练模型的知识驱动对话方法
CN108491380B (zh) 用于口语理解的对抗多任务训练方法
CN110516053A (zh) 对话处理方法、设备及计算机存储介质
Chandak et al. Streaming language identification using combination of acoustic representations and ASR hypotheses
KR20220010259A (ko) 음성 신호 처리 방법 및 장치
Heymann et al. Improving ctc using stimulated learning for sequence modeling
CN114420098A (zh) 唤醒词检测模型训练方法、电子设备和存储介质
KR102292921B1 (ko) 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
KR20230064304A (ko) 자동 레이블링 장치 및 이를 이용한 발화 문장의 레이블링 방법
Hayashi et al. Marginalized Viterbi algorithm for hierarchical hidden Markov models

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240306