JP2020086436A - 人工神経網における復号化方法、音声認識装置及び音声認識システム - Google Patents

人工神経網における復号化方法、音声認識装置及び音声認識システム Download PDF

Info

Publication number
JP2020086436A
JP2020086436A JP2019171730A JP2019171730A JP2020086436A JP 2020086436 A JP2020086436 A JP 2020086436A JP 2019171730 A JP2019171730 A JP 2019171730A JP 2019171730 A JP2019171730 A JP 2019171730A JP 2020086436 A JP2020086436 A JP 2020086436A
Authority
JP
Japan
Prior art keywords
token
neural network
artificial neural
output
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019171730A
Other languages
English (en)
Inventor
敏重 李
Min-Joong Lee
敏重 李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2020086436A publication Critical patent/JP2020086436A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/274Converting codes to words; Guess-ahead of partial word inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Acoustics & Sound (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)

Abstract

【課題】 自己回帰に基づくシーケンス生成人工神経網における低い確率トークンの処理方法及び装置が提供される。【解決手段】人工神経網におけるデコーダは以前に入力された少なくとも1つの入力トークンに基づいて、出力トークンの候補の確率を予測し、予測された確率に基づいて、候補のうち出力トークンを決定し、出力トークンの決定された確率に基づいて出力トークン及び予め定義された特殊トークンのいずれか1つを選択することによって、次の入力トークンを決定する。【選択図】 図1

Description

本発明の実施形態は、人工神経網における復号化方法及びその装置に関する。
長さの決められていないシーケンスを人工神経網の入力として受け、決められていない長さの出力を生成しなければならない問題を解決するための方法として、シーケンスツーシーケンス(sequence−to−sequence)モデルの1つであるエンコーダ−デコーダの人工神経網モデルが導入されたが、特に、その中でも決められていない長さの出力を人工神経網に算出するために、1つのシーケンスを構成している単位であるトークン(token)ごとに人工神経網の以前出力を入力にして次の出力を続けて出力する方法は、自己回帰(auto−regressive)復号化と呼ばれる。
本発明の目的は、人工神経網における復号化方法及びその装置を提供する。
一実施形態に係る第1人工神経網における復号化方法は、以前に入力された少なくとも1つの入力トークンに基づいて、出力トークンの候補の確率を予測するステップと、前記予測された確率に基づいて、前記候補のうち前記出力トークンを決定するステップと、前記出力トークンの決定された確率に基づいて、前記出力トークン及び予め定義された特殊トークンのいずれか1つを選択することによって、次の入力トークンを決定するステップとを含む。
前記特殊トークンを次の入力トークンとして決定する場合、前記特殊トークンに基づいて予測される次の出力トークンの候補の信頼度は、前記出力トークンに基づいて予測される次の出力トークンの候補の信頼度よりも高い。
前記出力トークンを決定するステップは、前記第1人工神経網と連動する少なくとも1つの第2人工神経網によって予測された前記候補の確率と、前記第1人工神経網によって予測された前記候補の確率との組合せに基づいて、前記候補のうち前記出力トークンを選択し得る。
前記人工神経網の入力レイヤは、前記候補それぞれに対応する複数のノード及び前記特殊トークンに対応する特殊ノードを含み得る。
前記少なくとも1つの入力トークンは、前記人工神経網によって予め予測された出力トークン及び前記特殊トークンのうち少なくとも1つを含み得る。
前記出力トークンを決定するステップは、前記候補のうち確率が最も高いトークンを選択するステップを含み得る。
前記次の入力トークンを決定するステップは、前記出力トークンの確率と予め決定した閾値確率とを比較するステップと、前記出力トークンの確率が前記閾値確率よりも小さい場合、前記特殊トークンを前記次の入力トークンとして選択するステップと、前記出力トークンの確率が前記閾値確率よりも大きい場合、前記出力トークンを前記次の入力トークンとして選択するステップとを含み得る。
前記出力トークンの候補の確率を予測するステップは、前記少なくとも1つの入力トークンと前記出力トークンとの間の相関関係に基づいて、前記出力トークンの候補の確率を予測するステップを含み得る。
一実施形態に係る人工神経網における復号化方法は、前記少なくとも1つの入力トークン及び前記次の入力トークンに基づいて次の出力トークンを決定するステップをさらに含み得る。
一実施形態に係る人工神経網における復号化方法は、前記特殊トークン以外のトークンが前記特殊トークンにアテンションしないように前記特殊トークンをマスキングするステップをさらに含み得る。
一実施形態に係る人工神経網における復号化方法は、前記特殊トークンが前記次の入力トークンとして決定された場合、次の出力トークンと前記特殊トークンとの間の相関関係を予め決定した数値以下に設定するステップをさらに含み得る。
前記出力トークンを決定するステップは、前記出力トークンが前記特殊トークンと同一であるかを判断するステップと、前記出力トークンが前記特殊トークンと同一である場合、前記候補のうち2番目に確率の高いトークンを前記出力トークンとして決定するステップとを含み得る。
第1人工神経網における復号化方法において、人工神経網における復号化方法は、以前に入力された少なくとも1つの入力トークンに基づいて、出力トークンの候補の確率を予測するステップと、前記第1人工神経網と連動する少なくとも1つの第2人工神経網によって予測された前記候補の確率と、前記第1人工神経網によって予測された前記候補の確率との組合せに基づいて、前記候補のうち前記出力トークンを選択するステップと、前記少なくとも1つの第2人工神経網のうち、前記出力トークンの確率を最も高く判断した人工神経網と前記第1人工神経網との間で前記出力トークンの確率を比較するステップと、前記比較結果に基づいて、前記出力トークン及び予め定義された特殊トークンのいずれか1つを選択することによって、前記第1人工神経網の次の入力トークンを決定するステップとを含む。
前記次の入力トークンを決定するステップは、前記出力トークンの確率を最も高く判断した人工神経網と前記第1人工神経網の前記出力トークンの確率の差が予め決定した閾値よりも大きい場合、前記特殊トークンを前記第1人工神経網の前記次の入力トークンとして選択するステップと、前記出力トークンの確率を最も高く判断した人工神経網と前記第1人工神経網の前記出力トークンの確率の差が予め決定した閾値よりも小さい場合、前記出力トークンを前記第1人工神経網の前記次の入力トークンとして選択するステップとを含み得る。
前記特殊トークンに基づいて予測される次の出力トークンの候補の信頼度は、記閾値よりも大きい場合、前記出力トークンに基づいて予測される次の出力トークンの候補の信頼度よりも高い。
一実施形態に係る音声認識装置は、以前に入力された少なくとも1つの入力トークンに基づいて、出力トークンの候補の確率を予測し、前記予測された確率に基づいて前記候補のうち前記出力トークンを決定し、前記出力トークンの決定された確率に基づいて、前記出力トークン及び予め定義された特殊トークンのいずれか1つを選択することによって次の入力トークンを決定するプロセッサとを含む。
一実施形態に係る音声認識装置は、現在まで入力された少なくとも1つの入力トークンに基づいて、出力トークンの候補の確率を予測し、第1人工神経網と連動する少なくとも1つの第2人工神経網によって予測された前記候補の確率と前記第1人工神経網によって予測された前記候補の確率との組合せに基づいて、前記候補のうち前記出力トークンを選択し、前記少なくとも1つの第2人工神経網のうち、前記出力トークンの確率を最も高く判断した人工神経網と前記第1人工神経網との間で前記出力トークンの確率を比較し、前記比較結果に基づいて、前記出力トークン及び予め定義された特殊トークンのいずれか1つを選択することによって、前記第1人工神経網の次の入力トークンを決定するプロセッサを含む。
一実施形態に係る音声認識システムは、命令を格納するメモリと、1つ以上のプロセッサとを含み、前記命令が前記プロセッサによって実行されるとき、前記プロセッサは、入力音声から音声特徴を抽出し、音声特徴を符号化して符号化された特徴を生成し、前記符号化された特徴及び以前に決定された認識結果に基づいて出力トークンの候補の確率を決定し、言語モデル人工神経網によって決定された前記出力トークンの候補の加重値と音声認識人工神経網によって決定された前記出力トークンの候補の加重値に基づいて次の出力トークンを決定する。
本発明によると、人工神経網における復号化方法及びその装置を提供することができる。
一実施形態に係る1つの人工神経網で自己回帰復号化を行うデコーダの動作方法を説明するための図である。 一実施形態に係るアテンションメカニズム(attention mechanism)が適用された人工神経網において、特殊トークンをマスキングする方法を説明するための図である。 一実施形態に係るエンコーダ−デコーダ構造の人工神経網システムを示すブロック図である。 一実施形態に係るアンサンブル方式を用いたエンコーダ−デコーダ構造の人工神経網システムを示すブロック図である。 一実施形態に係る追加言語モデルを有する音声認識人工神経網における適用実施形態を示すブロック図である。 一実施形態に係る追加言語モデル人工神経網を有する音声認識人工神経網システムを示す図である。 一実施形態に係る言語モデル人工神経網デコーダと音声認識人工神経網デコーダにおけるアンサンブル方式を適用した実施形態を示す図である。 一実施形態に係る特殊トークンを用いた言語モデル人工神経網デコーダと音声認識人工神経網デコーダにおけるアンサンブル方式を適用した実施形態を示す図である。 一実施形態に係る人工神経網における復号化方法を示すフローチャートである。 一実施形態に係る自己回帰に基づくシーケンス生成人工神経網における低い確率トークンの処理方法を説明するためのフローチャートである。 一実施形態に係る自己回帰に基づくシーケンス生成人工神経網における低い確率トークンの処理装置のブロック図である。
実施形態に対する特定な構造的又は機能的な説明は単なる例示のための目的として開示されたものとして、様々な形態に変更される。したがって、実施形態は特定な開示形態に限定されるものではなく、本明細書の範囲は技術的な思想に含まれる変更、均等物ないし代替物を含む。
第1又は第2などの用語を複数の構成要素を説明するために用いることがあるが、このような用語は1つの構成要素を他の構成要素から区別する目的としてのみ解釈されなければならない。例えば、第1構成要素は第2構成要素と命名することができ、同様に第2構成要素は第1構成要素にも命名することができる。
いずれかの構成要素が他の構成要素に「連結」されているか「接続」されていると言及されたときには、その他の構成要素に直接的に連結されているか又は接続されているが、中間に他の構成要素が存在し得るものと理解されなければならない。
本明細書で用いられる用語は、単に特定の実施形態を説明するために使用されたものであり、本発明を限定しようとする意図はない。単数の表現は、文脈上、明白に異なる意味をもたない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品又はこれらを組み合わせたものが存在することを示すものであって、1つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。
異なるように定義さがれない限り、技術的であるか又は科学的な用語を含むここで用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈すべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。
以下、実施形態を添付の図面を参照して詳説する。添付図面を参照して説明することにおいて、図面符号に関わらず同じ構成要素は同じ参照符号を付与し、これに関する重複説明は省略することにする。
図1は、一実施形態に係る1つの人工神経網で自己回帰復号化方法を説明するための図である。
図1を参照すると、一実施形態に係るデコーダ120は、符号化された特徴110を入力(input)として受信する。例えば、デコーダ120は、人工神経網内デコーダ120の前端に接続されたエンコーダ(図示せず)から入力を受信する。
エンコーダとデコーダ120は、ニューラルネットワークで具現されたシーケンスツーシーケンスエンコーダ−デコーダであってもよい。一例としてニューラルネットワークは、DNN(Deep Neural Network)であるが、これに限定されることはない。DNNは、1つ又はそれ以上のFCN(Fully connected network)、DCN(Deep ConVolutional Nnetwork)、RNN(Recurrent Neural Network)、RDNN(Recurrent Deep Neural Network)及びBDRNN(Bidirectional Recurrent Neural Network)などを含んでもよく、DNNは、FCN、DCN、RNN、RDNN、BDRNNを組み合わせて構成されてもよい。ニューラルネットワーク内レイヤのノードは、非線形で互いに影響を与える関係であり、各ノードから出力される値、ノード間の関係など、ニューラルネットワークのパラメータは学習、例えば、誤差逆伝播(loss based back propagation)によって最適化されることができる。
ニューラルネットワークは、プロセッサで具現されたニューラルネットワークモデルであってもよく、ニューラルネットワークモデルを介して学習後に入力パターンと出力パターン、又は入力パターンのパターン認識間の直観的なマッピングを提供することのできる特殊な算出構造として様々なプロセスが実現される。マッピングを生成したり、このような例示的なパターン認識を行う学習能力は、神経網の学習能力と称される。学習能力は、また、特殊な算出構造が入力パターン又は入力パターンの部分を1つ以上の所定のグループに属する構成員に分類される。また、学習を介して訓練された神経網は、例えば、神経網が訓練されていない入力パターンに対して比較的に正確であるか、信頼できる出力を生成する一般化能力を有する。
一例として、シーケンスツーシーケンスエンコーダ−デコーダは、エンコーダとデコーダが統合されたネットワーク構造であって、入力シーケンスから認識結果のシーケンスを生成することができる。例えば、シーケンスツーシーケンス構造で具現されたエンコーダとデコーダ120は、入力音声から入力音声に対応する認識結果を直接生成する。エンコーダとデコーダ120は、入力音声を受信する前に、予め学習された入力シーケンスから認識結果のシーケンスを生成するように予め学習される。
エンコーダは、入力シーケンスを符号化して符号化された特徴110を生成する。エンコーダは、入力シーケンスから特徴を抽出し、符号化された情報を生成する。符号化された特徴110は、デコーダ120に印加される。デコーダ120は、符号化された特徴110に基づいて認識結果を生成する。
図1を参照すると、符号化された特徴110を受信したデコーダ120は、入力トークンである開始トークン115に基づいて、トークン1(token1)105を出力トークンとして決定する。トークン1(token1)105を出力トークンとして決定し、デコーダ120は、トークン1(token1)105を次の入力トークンとして決定する。
エンコーダ−デコーダ構造の人工神経網のデコーダ120は、ステップごとにエンコーダから算出された情報に基づいて出力トークンを求めるが、ここで、以前のステップまで選択された入力トークンに依存して求めることができる。
例えば、トークン1(token1)105を入力トークンとして決定したデコーダ120は、トークン1(token1)105に基づいて出力トークンの候補の確率を予測する。cないしcが出力トークンの候補であり、pないしpが各候補の確率である。確率に基づいて、候補のうち出力トークンを決定する。例えば、候補のうち確率が最も高いトークンを出力トークンとして選択する。
ステップiにおいて、トークンtの条件付き確率は数式(1)のように表現することができる。
p(t|t,t,...,ti−1,H) (1)
は、エンコーダの隠れリプリゼンテーション(hidden representation)に符号化された特徴110に該当する。tないしti−1は、今まで選択された入力トークンである。説明の便宜上、図1で符号化された特徴110がデコーダ120内に最初のステップのノードにのみ印加されるものと図示したが、符号化された特徴110は、以後のステップの他のノードにも同様に印加されてもよい。
一般的な自己回帰復号化を行うシーケンスツーシーケンスモデルで出力トークンとして選択されたトークンが次の入力トークンとして決定される。以前のステップまで選択された入力トークンに依存して出力トークンを決定するため、シーケンスツーシーケンスモデルで出力トークンとして選択された後、入力トークンが低い確率を有する場合、選択された出力トークンによって次のトークンを予測する性能が低下する。
例えば、出力トークンの候補cないしcのうち確率の低いcが出力トークンとして決定されてしまうかもしれない。以前のトークンに基づいて次の出力を生成する特徴のために自己回帰復号化過程で確率の低いトークンに基づいて次のトークンを生成しなければならない場合、即ち以前のトークンの確率が低い場合、以後トークンを円満に生成し難い。一例として、cないしcのうち、相対的にはcの確率が最も高いが、cないしcの確率がすべて高くない値を有する場合が存在し得る。又は、様々な人工神経網モデルで生成するトークンのうちの1つを選択し、使用するモデルアンサンブル自己回帰復号化する環境では、アンサンブルの結果として他の人工神経網によって生成されたトークンに基づいて次のトークンを生成しなければならない場合が生じる。
人工神経網は、入力トークンti−1の確率が低い場合、p(t|t,t,...,ti−1,H)を介して出力トークンであるtを予測できなくなる。
低い確率を有する入力トークンti−1であってもそれに基づいて出力トークンtを円満に予測するために、条件付き確率に関する数式(1)でトークンti−1を除いて確率を算出すれば、このような問題を解決することができるかもしれない。しかし、学習データから上述の条件付き確率で学習するように設計されているため、以前のトークンに独立的に条件付き確率を算出することは、本来の目的を没却してしまうことが懸念される。
一実施形態に係る復号化方法によれば、条件付き確率に影響を与えない特殊トークンtNCを導入して入力トークンti−1の確率の低い場合にも出力トークンであるtを円満に予測することができる。
図1を参照すると、トークン1に対する出力に決定された出力トークンcの確率であるpを、予め決定した閾値確率θnc¬と比較する。閾値確率θnc¬は予め決定した値であって、所望する出力を取得することができる入力トークン確率の最小値である。例えば、出力トークンcの確率であるpが閾値確率θnc¬よりも大きい場合、出力トークンcを次の入力トークンとして決定する場合に所望する出力を取得することができると判断されるため、出力トークンcを次の入力トークンとして決定することができる。
出力トークンcの確率であるpが閾値確率θnc¬よりも小さい場合、出力トークンcを次の入力トークンとして決定する場合、所望する出力が取得されないと判断されるため、出力トークンcを次の入力トークンとして決定し難い。この場合、もし、出力トークンcの確率pが閾値確率θnc¬よりも小さい場合、出力トークンcの代わりに予め定義された特殊トークンNCを次の入力トークンとして決定する。
特殊トークンに基づいて予測される次の出力トークンの候補の信頼度は、閾値確率よりも低い確率の出力トークンに基づいて予測される次の出力トークンの候補の信頼度よりも高い。人工神経網は、このような特性を満足するよう予め学習されてもよい。人工神経網を学習させる具体的な内容については後述する。例えば、cの確率であるpが閾値確率θnc¬よりも小さい場合、特殊トークンNCに基づいて予測される次の出力トークンの候補の信頼度は、cに基づいて予測される次の出力トークンの候補の信頼度よりも高い。
信頼度は、トークンに対する信頼度であって、学習データの正解出力トークンに近い程度を意味する。例えば、cの確率であるpが閾値確率θnc¬よりも小さい場合、特殊トークンNCに基づいて予測される次の出力トークンの候補のうち、最も確率が高い出力トークンは、cに基づいて予測される次の出力トークンの候補のうち最も確率が高い出力トークンよりも正解の出力トークンに近い。
人工神経網は、出力トークン及び特殊トークンのいずれか1つを選択することによって、次の入力トークンを決定すれば、少なくとも1つの入力トークン及び次の入力トークンに基づいて次の出力トークンをより適切に決定することができる。例えば、人工神経網は、特殊トークンNCを次の入力トークンとして決定すれば、入力トークンであるトークン1と次の入力トークンである特殊トークンNCに基づいて次の出力トークンであるトークン3(token3)を決定することができる。
図2は、一実施形態に係るアテンションメカニズムが適用された人工神経網において、特殊トークンをマスキングする方法を説明するための図である。
図2を参照すると、一実施形態に係るデコーダ220は、少なくとも1つの入力トークンと出力トークンとの間の相関関係に基づいて、出力トークンの候補の確率を予測する。出力トークンは、入力トークンに応じて異なる加重値をもって出力トークンの候補の確率を予測できる。
例えば、人工神経網は、アテンションメカニズム(attention mechanism)が適用された人工神経網であってもよい。人工神経網は、今まで予測したトークン間の関係をアテンションメカニズムによく表現されるよう学習されることができる。
特殊トークンが他のトークンに影響を及ぼすことを防止するために、他のトークンが特殊トークンにアテンションされないよう強制するために、特殊トークンをマスキングする。
例えば、入力トークン「is」に対応する出力トークンの場合、「Hi」、「this」、「is」の入力トークンだけでなく、特殊トークンNCまでアテンションする。特殊トークンが他のトークンに影響を及ぼしてはならないため、入力トークン「is」に対応する出力トークンが、特殊トークンNCにアテンションをしないよう強制するために特殊トークンをマスキングする。
以下、で図3〜図5を参照してエンコーダ−デコーダ構造の人工神経網システムに対して詳細に説明される。
図3は、一実施形態に係るエンコーダ−デコーダ構造の人工神経網システムを示すブロック図である。
図3を参照すると、一実施形態に係るエンコーダ−デコーダ構造の人工神経網システムは、エンコーダ320、デコーダ330を含む人工神経網310を含む。エンコーダ−デコーダ構造人工神経網は、前処理プロセッサ340、アテンションマスキング算出装置350、及びトークン修正装置360を含む。図3に示すデコーダ330は、図1及び2を参照して前述したデコーダ220に対応する。
一実施形態に係るエンコーダ−デコーダ構造の人工神経網システムは、1つの人工神経網310で低い確率を有するトークンを処理する。
シーケンスツーシーケンスエンコーダ320−デコーダ330は、エンコーダ320とデコーダ330が統合されたネットワーク構造であって、入力シーケンスから認識結果のシーケンスを生成する。
前処理プロセッサ340は、人工神経網の入力を前処理するモジュールであって、例えば、入力信号に含まれたノイズを除去したり、入力信号を人工神経網に入力するために適切な形態に加工する。
トークン修正装置360は、実行時に、予測された出力トークンの確率が閾値確率θNCよりも低い出力トークンを特殊トークンに代替して次の出力トークンを予測するように修正できる。
また、トークン修正装置360は、出力トークンが特殊トークンと同一であるかを判断する。出力トークンが特殊トークンと同一である場合、候補のうち2番目に確率の高いトークンを出力トークンとして決定する。これによって、特殊トークンが出力されないようにする。
アテンションマスキング算出装置350は、他のトークンが特殊トークンに条件付き確率を有しないようにするために、他のトークンが特殊トークンにアテンションがかからないようアテンション加重値をマスキングする。アテンションマスキング算出装置350は、学習の実行時に同一に動作し得る。
このような図3は、発明の説明のための一例として、限定された図面に基づいて説明されたが、当技術分野で通常の知識を有する者であれば、図3に基づいて様々な技術的修正及び変形を適用することができる。例えば、デコーダ330は、アテンションマスキング算出装置350とトークン修正装置360を含む広い概念である。
図4は、一実施形態に係るアンサンブル方式を用いたエンコーダ−デコーダ構造の人工神経網システムを示すブロック図である。
図4を参照すると、一実施形態に係る人工神経網システムは、複数の人工神経網410,420,430を含む。
アンサンブル方式を用いたエンコーダ−デコーダ構造の人工神経網システムにおいて、m個のデコーダに対応するエンコーダは必ずしもm個である必要はない。エンコーダのないデコーダが存在してもよい。例えば、人工神経網420,430にはデコーダ422,432だけが存在し、エンコーダ421,431がなくてもよい。
アンサンブル方式によれば、複数の人工神経網410,420,430を用いて複数のデコーダ412,422,432が予測した出力トークンの候補の確率の組合せに基づいて、出力トークンの候補のうち出力トークンを選択することができる。
アンサンブル方式を用いる場合、デコーダ412,422,432ごとに異なる出力トークンを最も確率が高いと判断する。例えば、人工神経網410のデコーダ412はc1が、人工神経網420のデコーダ422はc2が、人工神経網430のデコーダ432はc3の確率が最も高いと判断する。
デコーダ412,422,432ごとに異なる出力トークンを最も確率が高いと判断しても、1つの出力トークンを決定することができる。例えば、最終的に複数のデコーダ412,422,432が予測した出力トークンの候補の確率の組合せに基づいて、出力トークンの候補のうち出力トークンを選択し得る。
選択された出力トークンが強制的に全てのデコーダの次の入力トークンとして入力される場合、確率が最も高いと判断されない出力トークンを、次の入力トークンとして入力するデコーダが発生する可能性がある。
例えば、最終的に複数のデコーダ412,422,432が予測した出力トークンの候補c1、c2、c3の確率の組合せに基づいてc1を出力トークンとして選択する場合、デコーダ422とデコーダ432は、結果的に自身の基準に最も確率の高い出力トークンの候補c2、c3に基づいて次の出力トークンを生成することができず、他のデコーダ412が生成した出力トークンの候補であるc1に基づいて次のトークンを生成しなければならない場合が生じる。以前のトークンに基づいて次のトークンを求める自己回帰的な特徴に起因して、自身のデコーダ422,432において確率の低い次の入力トークンc1を入力にする人工神経網420,430は、次の出力トークンを円満に予測することができなくなる。
一実施形態に係るアンサンブル方式を用いたエンコーダ−デコーダ構造の人工神経網システムにも、条件付き確率に影響を与えることができない特殊トークンを導入し、自身が確率の最も高いと判断しないトークンを入力にして出力トークンを正常に予測することができる。
複数の人工神経網のアンサンブルを行う場合には、j番目の人工神経網ごとに出力トークンとして決定されたtmaxに対する確率P(tmax)と、tmaxを最も高く判断した人工神経網410の確率とを比較する。例えば、出力トークンの候補c1、c2、c3のうち、人工神経網420における出力トークンとして決定されたc1に対する確率p2(c1)と、c1を最も高く判断した人工神経網410におけるc1に対する確率p1(c1)とを比較する。
出力トークン確率を最も高く判断した人工神経網410と、j番目の人工神経網の出力トークン確率の差
Figure 2020086436

が予め決定した閾値よりも大きい場合、特殊トークンは、j番目の人工神経網の次の入力トークンとして選択される。例えば、p1(c1)とp2(c1)の差が予め決定した閾値θDIFFよりも大きい場合、c1ではない特殊トークンが人工神経網420の次の入力トークンとして選択される。出力トークン確率を最も高く判断した人工神経網410と、j番目の人工神経網の出力トークン確率の差が予め決定した閾値よりも小さい場合には、決定された出力トークンがj番目の人工神経網の次の入力トークンとして選択される。
出力トークン確率を最も高く判断した人工神経網と、j番目の人工神経網の出力トークン確率の差
Figure 2020086436
が予め決定した閾値よりも大きい場合、特殊トークンに基づいて予測される次の出力トークンの候補の信頼度は、出力トークンに基づいて予測される次の出力トークンの候補の信頼度よりも高い。
図2を参照して説明した特殊トークンをマスキングする方法は、図4に示すアンサンブル方式を用いたエンコーダ−デコーダ構造の人工神経網システムにも同様に適用される。
トークン修正装置460は、実行時に、予測された出力トークンの確率が閾値確率θNCよりも低い出力トークンを特殊トークンに代替して次の出力トークンを予測するように修正することができる。
トークン修正装置460は、実行時に、出力トークン確率を最も高く判断した人工神経網410と、j番目の人工神経網の出力トークン確率の差
Figure 2020086436
が予め決定した閾値よりも大きい場合、特殊トークンをj番目の人工神経網の次の入力トークンとして選択する。
また、トークン修正装置460は、出力トークンが特殊トークンと同一であるかを判断する。出力トークンが特殊トークンと同一である場合、候補のうち2番目に確率の高いトークンを出力トークンとして決定する。これによって、特殊トークンが出力されないようにする。
アテンションマスキング算出装置450は、他のトークンが特殊トークンに条件付き確率を有しないようにするために、他のトークンが特殊トークンにアテンションがかかることができないようアテンション加重値をマスキングする。アテンションマスキング算出装置450は、学習される間のみならず、実行−推論又は実現される間にも同一に動作される。
図5は、一実施形態に係る追加言語モデル人工神経網を有する音声認識人工神経網における適用実施形態を示すブロック図である。音声認識人工神経網は、音声認識装置の一例として実現される。音声認識装置は、音声認識装置の構成要素である受信機又はセンサ(例えば、マイクロホン)を用いて、ユーザから音声又は入力を収集したり、受信機から音声信号を受信することができ、受信機は、分離されたり音声認識装置の外部に存在してもよい。
音声認識装置は、個人ユーザが使用する電子装置であってもよく、例えば、スマートフォン、スマートパッド、スマートバンドのような着用型装置(wearable device)、個人携帯情報端末(Personal Digital Assistant;PDA)、ラップトップ、その内部の構成要素又はそれに関する独立型装置であってもよい。異なる例として、音声認識装置は、複数のユーザによって共有される電子装置、例えば、音声認識スピーカ及び音声認識TVを含む。
図5を参照すると、一実施形態に係る言語モデル人工神経網を有する音声認識人工神経網は、音声認識モデル人工神経網510と言語モデル人工神経網520を含む。
音声認識の場合、音声をエンコーダ511の入力として認識結果である単語の連続を出力するデコーダ512から構成されることが基本的であるが、これに加えて、単語の連続がどれ程一般的な文章で確率が高いかを判断するデコーダ521で形成される言語モデル人工神経網520をさらに活用し、その性能を高めることができる。
実際の音声に基づいて、単語を時点ごとに予測する音声認識モデル人工神経網は、新しい単語といっても音声を聞いて発音に応じて音素を組み合わせて単語を作り出すが、一般的な文章で学習された言語モデル人工神経網の場合、学習時に習っていない新しい単語(新しい場所、新造語など)が出てくると、その単語の出力確率は極めて低くなる。このような低い確率を有する単語を入力として次の単語を予測しようとするとき、言語モデル人工神経網は、習っていない入力から次の単語を出力しなければならないことから、正しく予測することが難い。
一実施形態に係る言語モデル人工神経網520にもトークン修正装置560とアテンションマスキング算出装置550を用いて、図4を参照して前述した条件付き確率に影響を与えることができない特殊トークンを導入し、自身が確率の最も高いと判断していないトークンを入力として出力トークンを正常に予測することができる。
以下、図6〜図7Bを参照して、追加言語モデル人工神経網を有する音声認識人工神経網における適用実施形態に対して詳細に説明される。
図6は、一実施形態に係る追加言語モデル人工神経網を有する音声認識人工神経網システムを示す図である。
図6を参照すると、一実施形態に係る追加言語モデル人工神経網を有する音声認識人工神経網システムは、エンコーダ610、音声認識人工神経網デコーダ620、及び言語モデル人工神経網デコーダ630を含む。
追加言語モデル人工神経網を有する音声認識人工神経網システムは、入力音声から音声特徴640を抽出する。入力音声は、複数のフレームごとに情報を含む音声信号であり、音声特徴640は、少なくとも1つのフレーム単位で抽出された情報のシーケンスであり、多次元のベクトルに表現される。以下、説明の便宜のために入力音声が「Hi MinChul this is」である場合の実施形態について説明する。
追加言語モデル人工神経網を有する音声認識人工神経網システムは、言語モデル人工神経網デコーダ630と音声認識人工神経網デコーダ620のアンサンブルを用いて入力音声のシーケンスから認識結果のシーケンスを生成する。「アンサンブル」は、ともに考慮する個別人工神経網モジュールを指す。例えば、アンサンブルとは、言語モデル人工神経網デコーダ630と音声認識人工神経網デコーダ620の組合せであり得る。
言語モデル人工神経網デコーダ630と音声認識人工神経網デコーダ620は、トークン単位でそれぞれの認識結果を出力し、それぞれの認識結果をアンサンブル加重値に応じてアンサンブルして最終の認識結果を生成する。例えば、音声認識人工神経網デコーダ620は、入力音声と以前に決定された認識結果に基づいて出力トークンの候補を決定し、言語モデル人工神経網デコーダ630は、以前に決定された認識結果に基づいて出力トークンの候補を決定し、それぞれの出力トークンの候補をアンサンブル加重値(weighted sum)に応じてアンサンブルして最終の認識結果を生成する。
エンコーダ610とデコーダ620は、入力音声に対応する正解テキスト対のシーケンスから認識結果のシーケンスを生成するように予め学習されている一方、言語モデル人工神経網デコーダ630は、任意のテキストシーケンスから認識結果のシーケンスを生成するように予め学習される。
エンコーダ610は、音声特徴640を符号化して符号化された特徴650を生成する。エンコーダ610は、音声特徴640の次元を変換し、符号化された情報を生成する。符号化された特徴650は、音声認識人工神経網デコーダ620に印加される。音声認識人工神経網デコーダ620はトークン単位で、符号化された特徴650と以前に決定された認識結果に基づいて出力トークンの候補を生成し、言語モデル人工神経網デコーダ630はトークン単位で、以前に決定された認識結果に基づいて出力トークンの候補を生成する。2つの認識結果を予め決定したアンサンブル加重値に応じてアンサンブルし、最終の認識結果を生成することができる。例えば、音声認識人工神経網デコーダ620と言語モデル人工神経網デコーダ630のアンサンブル加重値は1:0.2であってもよい。
以下、図7A〜図7Bを参照して、言語モデル人工神経網デコーダと音声認識人工神経網デコーダにおけるアンサンブル方式を適用した実施形態について詳細に説明される。
図7Aは、一実施形態に係る言語モデル人工神経網デコーダと音声認識人工神経網デコーダにおけるアンサンブル方式を適用した実施形態を示す図である。
図7Aを参照すると、一実施形態に係る音声認識人工神経網デコーダ710と言語モデル人工神経網デコーダ720は、それぞれ図6に示す音声認識人工神経網デコーダ620と言語モデル人工神経網デコーダ630に対応する。
音声認識人工神経網デコーダ710と言語モデル人工神経網デコーダ720は、自己回帰デコーダとして入力トークン「Hi」に基づいて、出力トークンの候補の確率を予測する。例えば、音声認識人工神経網デコーダ710は、入力トークン「Hi」と符号化された音声特徴に基づいて、「MinChul」と「Bixby」を出力トークンの候補として出力し、それぞれの確率を0.7と0.1に予測する。また、言語モデル人工神経網デコーダ720は、入力トークン「Hi」に基づいて、「MinChul」と「Bixby」を出力トークンの候補として出力し、それぞれの確率を0.001と0.8に予測する。
音声認識人工神経網デコーダ710と言語モデル人工神経網デコーダ720は、アンサンブル加重値を用いて候補のうち出力トークンを決定する。例えば、「MinChul」は0.7+0.2×0.001=0.7002の最終加重値を有し、「Bixby」は0.1+0.2×0.8=0.26の最終加重値を有するため、「MinChul」が出力トークンとして決定される。
自己回帰復号化の環境では、言語モデル人工神経網デコーダ720で自身の基準として最も確率が高い「Bixby」でないアンサンブルの結果として決定された「MinChul」を次の入力トークンとして入力する。言語モデル人工神経網デコーダ720で「MinChul」は低い確率を有するため、次の出力トークンを円満に予測し難い。
例えば、言語モデル人工神経網デコーダ720は、次の入力トークン「MinChul」に基づいて、「this」と「dis」を次の出力トークンの候補として出力し、それぞれの確率を0.01と0.01に予測する。音声認識人工神経網デコーダ710は、次の入力トークン「MinChul」に基づいて、「this」と「dis」を次の出力トークンの候補として出力し、それぞれの確率を0.34と0.38に予測する。「this」と「dis」の発音が似ているため、音声認識人工神経網デコーダ710で「this」と「dis」の確率が類似し得る。
音声認識人工神経網デコーダ710と言語モデル人工神経網デコーダ720は、アンサンブル加重値を用いて候補のうち次の出力トークンを決定する。例えば、「this」は0.34+0.2×0.01=0.342の最終加重値を有し、「dis」は0.38+0.2×0.01=0.382の最終加重値を有するため、「dis」が次の出力トークンとして決定される。その結果、図7Aによる音声認識人工神経網デコーダ710と言語モデル人工神経網デコーダ720は、入力音声「this」とは異なる「dis」を出力する。
前述した実施形態で、言語モデル人工神経網デコーダ720によって予測された現在出力トークンの候補のうち、音声認識人工神経網デコーダ710と言語モデル人工神経網デコーダ720との間のアンサンブルによって決定された「MinChul」の確率は、予め決定した閾値確率よりも低い。低い確率の「MinChul」によって、言語モデル人工神経網デコーダ720は、次の出力トークンから「this」と「dis」をよく区分することができない。このように、音声モデル人工神経網デコーダ710の性能を補完しなければならない言語モデル人工神経網デコーダ720の性能が低下するにつれ、前述した実施形態のように「this」とは異なる「dis」を出力するなど、誤った結果が導き出される。
以下、図7Bを参照して特殊トークンを用いた言語モデル人工神経網デコーダと音声認識人工神経網デコーダにおけるアンサンブル方式を適用した実施形態について詳細に説明される。
図7Bは、一実施形態に係る特殊トークンを用いた言語モデル人工神経網デコーダと音声認識人工神経網デコーダにおけるアンサンブル方式を適用した実施形態を示す図である。
図7Bを参照すると、一実施形態に係る音声認識人工神経網デコーダ710と言語モデル人工神経網デコーダ720は、アンサンブル加重値を用いて候補のうち「MinChul」を出力トークンとして決定する。
言語モデル人工神経網デコーダ720は、「MinChul」の確率と予め決定した閾値確率とを比較する。例えば、予め決定した閾値確率は0.01であってもよい。言語モデル人工神経網デコーダ720の「MinChul」の確率は0.001として、閾値確率0.01よりも小さいため、「MinChul」の代わりに特殊トークンNCを次の入力トークンとして選択する。
言語モデル人工神経網デコーダ720は、次の入力トークンである特殊トークンNCに基づいて、「this」と「dis」を次の出力トークンの候補として出力し、それぞれの確率を0.4と0.1に予測する。音声認識人工神経網デコーダ710は、次の入力トークン「MinChul」に基づいて、「this」と「dis」を次の出力トークンの候補として出力し、それぞれの確率を0.34と0.38に予測する。
音声認識人工神経網デコーダ710と言語モデル人工神経網デコーダ720は、アンサンブル加重値を用いて候補のうち次の出力トークンを決定する。例えば、「this」は、0.34+0.2×0.4=0.42の最終加重値を有し、「dis」は0.38+0.2×0.1=0.4の最終加重値を有するため、「this」が次の出力トークンとして決定される。
図8は、一実施形態に係る人工神経網における復号化方法を示すフローチャートである。図8に示す動作は、示された順序及び方式により実行されるが、示された実施形態の思想及び範囲を逸脱しない限り、一部の動作の順序が変更されたり一部の動作が省略されてもよい。図8に示された複数の動作は、並列又は同時に実行されてもよい。図8に示す1つ以上のブロック及びブロックの組合せは、特定の機能を行う特殊目的のハードウェアに基づくコンピュータ、又は、特殊目的のハードウェア及びコンピュータ命令の組合せによって実現される。以下の図8に示す説明に加えて、図1〜図7の説明は図8に適用可能であるため、重複する内容の説明は省略する。
図8を参照すると、一実施形態に係るステップS810〜830は、図3を参照して前述されたデコーダ330によって実行される。デコーダ330は、1つ又はそれ以上のハードウェアコンポーネント、又は、ハードウェアとソフトウェアを含む1つ又はそれ以上のコンポーネントによって実現される。
ステップS810において、デコーダ330は、現在まで入力された少なくとも1つの入力トークンに基づいて、出力トークンの候補の確率を予測する。
ステップS820において、デコーダ330は、確率に基づいて候補のうち出力トークンを決定する。候補のうち確率が最も高いトークンを選択する。又は、第1人工神経網と連動する第2人工神経網によって予測された候補の確率と第1人工神経網によって予測された候補の確率の組合せに基づいて、候補のうち出力トークンを選択する。
ステップS830において、デコーダ330は、出力トークンの確率に基づいて出力トークン及び予め定義された特殊トークンのいずれか1つを選択することによって、次の入力トークンを決定する。
少なくとも1つの入力トークンは、人工神経網によって予め予測された出力トークン及び特殊トークンのうち少なくとも1つを含む。
人工神経網の入力レイヤは、候補に対応する複数のノード及び特殊トークンに対応する特殊ノードを含む。
図9は、一実施形態に係る自己回帰に基づくのシーケンス生成人工神経網における低い確率トークンの処理方法を説明するためのフローチャートである。図9に示す動作は、示された順序及び方式で実行されるが、示された実施形態の思想及び範囲を逸脱しない限り、一部の動作の順序が変更されたり、一部の動作が省略されてもよい。図9に示された複数の動作は、並列又は同時に実行されてもよい。図9に示す1つ以上のブロック及びブロックの組合せは、特定機能を行う特殊目的のハードウェアに基づくコンピュータ、又は、特殊目的のハードウェア及びコンピュータ命令の組合せによって実現される。以下の図9に示す説明に加えて、図1〜図8の説明は図9に適用可能であるため、重複する内容の説明は省略する。
図9を参照すると、ステップS901において、一実施形態に係る自己回帰に基づくシーケンス生成人工神経網は入力を受信する。例えば、音声認識人工神経網システムでは入力音声を受信する。
ステップS902において、エンコーダは、受信した入力から符号化された特徴を生成する。例えば、エンコーダは、音声特徴の次元を変換させ、符号化された情報を生成する。
ステップS903において、デコーダは、符号化された特徴に基づいて出力トークンの候補の確率を予測する。デコーダは、ステップごとにエンコーダーから算出された情報に基づいて出力トークンを求めるが、ここで、以前のステップまで選択された入力トークンに依存して求めることができる。
ステップS904において、デコーダは、確率に基づいて候補のうち出力トークンを決定する。例えば、i番目のステップで最も確率の高いt(top likelihood token)を出力トークンとして決定する。
ステップS905において、デコーダは、出力トークンが特殊トークンと同一であるかを判断する。
ステップS906において、出力トークンが特殊トークンと同一である場合、デコーダは候補のうち2番目に確率の高いトークンを出力トークンとして決定する。これによって特殊トークンが出力されないようにする。
ステップS907において、出力トークンが特殊トークンと同一でない場合、デコーダは、出力トークンの確率と予め決定した閾値確率とを比較する。
ステップS908において、出力トークンの確率が閾値確率よりも大きい場合、デコーダは、出力トークンを次の入力トークンとして選択する。
ステップS909において、出力トークンの確率が閾値確率よりも小さい場合、デコーダは、出力トークンの代わりに特殊トークンを次の入力トークンとして選択する。
ステップS910において、デコーダは、特殊トークンが異なるトークンに影響を及ぼすことを防止するために、他のトークンが特殊トークンにアテンションしないよう強制するために特殊トークンをマスキングする。
条件付き確率に影響を与えることができない特殊トークンtNCを導入し、入力トークンti−1の確率が低い場合にも出力トークンであるtを円満に予測することができる。特殊トークンは、数式(2)のような特徴を有するよう学習される。
Figure 2020086436
<T>、<T>は任意のトークンシーケンスであって、空シーケンス(empty sequence)を含む。数式(2)のように学習されたtNCが利用可能であれば、決定した閾値θNCよりもti−1の確率が低い場合、トークンti−1を含む条件付き確率が算出されることを防止するため、ti−1をtNCに代替して次のトークンを正しく予測することができる。任意の確率で学習に使用する正解文章のトークンを特定確率θReplaceからtNCに代替して人工神経網を学習させることができる。
すなわち、補助人工神経網が区分される場合、補助人工神経網の学習データだけで正解トークンを特定確率θReplaceに変更して学習させ得る。例えば、追加言語モデル人工神経網を有する音声認識人工神経網システムの場合、言語モデル人工神経網が補助人工神経網であってもよく、このとき言語モデル人工神経網だけの学習データだけで正解トークンを特定確率θReplaceに変更して学習させることができる。
図10は、一実施形態に係る自己回帰に基づくシーケンス生成人工神経網における低い確率トークンの処理装置のブロック図である。
図10を参照すると、一実施形態に係る自己回帰に基づくシーケンス生成人工神経網における低い確率トークンの処理装置1000は、センサ1010、プロセッサ1030、及び通信インターフェース1070を含む。自己回帰に基づくシーケンス生成人工神経網における低い確率トークンの処理装置1000は、メモリ1050、及びディスプレイ1090をさらに含む。センサ1010、プロセッサ1030、メモリ1050、通信インターフェース1070、及びディスプレイ1090は、通信バス1005を介して通信する。
センサ1010は、例えば、マイクセンサ、音声センサを含む。
プロセッサ1030は、図1〜図9を参照して前述した少なくとも1つの方法又は少なくとも1つの方法に対応するアルゴリズムを行ってもよい。プロセッサ1030は、プログラムを実行し、自己回帰に基づくシーケンス生成人工神経網における低い確率トークンの処理装置1000を制御する。プロセッサ1030によって実行されるプログラムコードは、メモリ1050に格納される。
プロセッサ1030は、例えば、CPU(Central Processing Unit)又はGPU(Graphics Processing Unit)から構成する。
メモリ1050は、プロセッサ1030が処理したデータを格納する。例えば、メモリ1050は、プログラムを格納する。格納されるプログラムは、ユーザの歩行を補助するようにコーディングされ、プロセッサ1030によって実行可能なシンタックス(syntax)の集合であってもよい。メモリ1050は、揮発性メモリ又は不揮発性メモリであってもよい。
通信インターフェース1070は、複数のセンサ1010、プロセッサ1030、及びメモリ1050と接続してデータを送受信する。通信インターフェース1070は、外部の他の装置と接続してデータを送受信する。以下、「A」を送受信するという表現は、「Aを示す情報(information)又はデータ」を送受信することを示す。
通信インターフェース1070は、自己回帰に基づくシーケンス生成人工神経網における低い確率トークンの処理装置1000内の回路網で実現される。例えば、通信インターフェース1070は、内部バス及び外部バスを含む。異なる例として、通信インターフェース1070は、自己回帰に基づくシーケンス生成人工神経網における低い確率トークンの処理装置1000と外部の装置を接続する要素であってもよい。通信インターフェース1070は、外部の装置からデータを受信し、プロセッサ1030及びメモリ1050にデータを送信する。
ディスプレイ1090は、デコードされた結果を表示する。例えば、翻訳結果、音声認識結果がディスプレイ1090に表示される。
以上で図1〜図10を参照して説明された前処理プロセッサ340,440,441,442、アテンションマスキング算出装置350,450,550、エンコーダ320,411,421,431,511、デコーダ330,412,422,432,512,521、トークン修正装置360,460,560、センサ1010、プロセッサ1030、メモリ1050、通信インターフェース1070、及びディスプレイ1090は、ハードウェア構成要素、ソフトウェア構成要素、又はハードウェア構成要素及びソフトウェア構成要素の組み合せで具現される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ(digital signal processor)、マイクロコンピュータ、FPA(field programmable array)、PLU(programmable logic unit)、マイクロプロセッサー、又は命令(instruction)を実行して応答する異なる装置のように、1つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現される。処理装置は、オペレーティングシステム(OS)及びオペレーティングシステム上で実行される1つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理、及び生成する。理解の便宜のために、処理装置は1つが使用されるものとして説明する場合もあるが、当技術分野で通常の知識を有する者は、処理装置が複数の処理要素(processing element)及び/又は複数類型の処理要素を含むことが把握する。例えば、処理装置は、複数のプロセッサ又は1つのプロセッサ及び1つのコントローラを含む。また、並列プロセッサ(parallel processor)のような、他の処理構成も可能である。
ソフトウェアは、コンピュータプログラム、コード、命令、又はそのうちの一つ以上の組合せを含み、希望の通りに動作するよう処理装置を構成したり、独立的又は結合的に処理装置を命令することができる。ソフトウェア及び/又はデータは、処理装置によって解釈されたり処理装置に命令又はデータを提供するために、いずれかの類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、又は送信される信号波に永久的又は一時的に具体化することができる。ソフトウェアはネットワークに連結されたコンピュータシステム上に分散され、分散した方法で格納されたり実行され得る。ソフトウェア及びデータは一つ以上のコンピュータで読出し可能な記録媒体に格納され得る。
本実施形態による方法は、様々なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD−ROM、DYIJDのような光記録媒体、フロプティカルディスクのような磁気−光媒体、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。ハードウェア装置は、本発明に示す動作を実行するために1つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。
上述したように実施形態をたとえ限定された図面によって説明したが、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順で実行されるし、及び/又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組み合わせられてもよいし、他の構成要素又は均等物によって置き換え又は置換されたとしても適切な結果を達成することができる。
したがって、本発明の範囲は、開示された実施形態に限定されて定められるものではなく、特許請求の範囲及び特許請求の範囲と均等なものなどによって定められるものである。

Claims (39)

  1. 第1人工神経網における復号化方法において、
    以前に入力された少なくとも1つの入力トークンに基づいて、出力トークンの候補の確率を予測するステップと、
    前記予測された確率に基づいて、前記候補のうち前記出力トークンを決定するステップと、
    前記出力トークンの決定された確率に基づいて、前記出力トークン及び予め定義された特殊トークンのいずれか1つを選択することによって、次の入力トークンを決定するステップと、
    を含む人工神経網における復号化方法。
  2. 前記特殊トークンを次の入力トークンとして決定する場合、
    前記特殊トークンに基づいて予測される次の出力トークンの候補の信頼度は、前記出力トークンに基づいて予測される次の出力トークンの候補の信頼度よりも高い、請求項1に記載の人工神経網における復号化方法。
  3. 前記出力トークンを決定するステップは、前記第1人工神経網と連動する少なくとも1つの第2人工神経網によって予測された前記候補の確率と、前記第1人工神経網によって予測された前記候補の確率との組合せに基づいて、前記候補のうち前記出力トークンを選択するステップを含む、請求項1に記載の人工神経網における復号化方法。
  4. 前記人工神経網の入力レイヤは、前記候補それぞれに対応する複数のノード及び前記特殊トークンに対応する特殊ノードを含む、請求項1−3のうち何れか1項に記載の人工神経網における復号化方法。
  5. 前記少なくとも1つの入力トークンは、前記人工神経網によって予め予測された出力トークン及び前記特殊トークンのうち少なくとも1つを含む、請求項1−3のうち何れか1項に記載の人工神経網における復号化方法。
  6. 前記出力トークンを決定するステップは、前記候補のうち確率が最も高いトークンを選択するステップを含む、請求項1に記載の人工神経網における復号化方法。
  7. 前記次の入力トークンを決定するステップは、
    前記出力トークンの確率と予め決定した閾値確率とを比較するステップと、
    前記出力トークンの確率が前記閾値確率よりも小さい場合、前記特殊トークンを前記次の入力トークンとして選択するステップと、
    前記出力トークンの確率が前記閾値確率よりも大きい場合、前記出力トークンを前記次の入力トークンとして選択するステップと、
    を含む、請求項1に記載の人工神経網における復号化方法。
  8. 前記出力トークンの候補の確率を予測するステップは、前記少なくとも1つの入力トークンと前記出力トークンとの間の相関関係に基づいて、前記出力トークンの候補の確率を予測するステップを含む、請求項1に記載の人工神経網における復号化方法。
  9. 前記少なくとも1つの入力トークン及び前記次の入力トークンに基づいて次の出力トークンを決定するステップをさらに含む、請求項1−8のうち何れか1項に記載の人工神経網における復号化方法。
  10. 前記特殊トークン以外のトークンが前記特殊トークンにアテンションしないように前記特殊トークンをマスキングするステップをさらに含む、請求項1−9のうち何れか1項に記載の人工神経網における復号化方法。
  11. 前記特殊トークンが前記次の入力トークンとして決定された場合、次の出力トークンと前記特殊トークンとの間の相関関係を予め決定した数値以下に設定するステップをさらに含む、請求項1−10のうち何れか1項に記載の人工神経網における復号化方法。
  12. 前記出力トークンを決定するステップは、
    前記出力トークンが前記特殊トークンと同一であるかを判断するステップと、
    前記出力トークンが前記特殊トークンと同一である場合、前記候補のうち2番目に確率の高いトークンを前記出力トークンとして決定するステップと、
    を含む、請求項1に記載の人工神経網における復号化方法。
  13. 第1人工神経網における復号化方法において、
    以前に入力された少なくとも1つの入力トークンに基づいて、出力トークンの候補の確率を予測するステップと、
    前記第1人工神経網と連動する少なくとも1つの第2人工神経網によって予測された前記候補の確率と、前記第1人工神経網によって予測された前記候補の確率との組合せに基づいて、前記候補のうち前記出力トークンを選択するステップと、
    前記少なくとも1つの第2人工神経網のうち、前記出力トークンの確率を最も高く判断した人工神経網と前記第1人工神経網との間で前記出力トークンの確率を比較するステップと、
    前記比較結果に基づいて、前記出力トークン及び予め定義された特殊トークンのいずれか1つを選択することによって、前記第1人工神経網の次の入力トークンを決定するステップと、
    を含む人工神経網における復号化方法。
  14. 前記次の入力トークンを決定するステップは、
    前記出力トークンの確率を最も高く判断した人工神経網と前記第1人工神経網の前記出力トークンの確率の差が予め決定した閾値よりも大きい場合、前記特殊トークンを前記第1人工神経網の前記次の入力トークンとして選択するステップと、
    前記出力トークンの確率を最も高く判断した人工神経網と前記第1人工神経網の前記出力トークンの確率の差が予め決定した閾値よりも小さい場合、前記出力トークンを前記第1人工神経網の前記次の入力トークンとして選択するステップと、
    を含む、請求項13に記載の人工神経網における復号化方法。
  15. 前記特殊トークンに基づいて予測される次の出力トークンの候補の信頼度は、前記閾値よりも大きい場合、前記出力トークンに基づいて予測される次の出力トークンの候補の信頼度よりも高い、請求項14に記載の人工神経網における復号化方法。
  16. 前記人工神経網の入力レイヤは、前記候補それぞれに対応する複数のノード及び前記特殊トークンに対応する特殊ノードを含む、請求項13−15のうち何れか1項に記載の人工神経網における復号化方法。
  17. 前記少なくとも1つの入力トークンは、前記人工神経網によって予め予測された出力トークン及び前記特殊トークンのうち少なくとも1つを含む、請求項13−15のうち何れか1項に記載の人工神経網における復号化方法。
  18. 前記出力トークンの候補の確率を予測するステップは、前記少なくとも1つの入力トークンと前記出力トークンとの間の相関関係に基づいて、前記出力トークンの候補の確率を予測するステップを含む、請求項13に記載の人工神経網における復号化方法。
  19. 前記少なくとも1つの入力トークン及び前記次の入力トークンに基づいて次の出力トークンを決定するステップをさらに含む、請求項13−18のうち何れか1項に記載の人工神経網における復号化方法。
  20. 前記特殊トークン以外のトークンが前記特殊トークンにアテンションしないように前記特殊トークンをマスキングするステップをさらに含む、請求項13−19のうち何れか1項に記載の人工神経網における復号化方法。
  21. 前記特殊トークンが前記次の入力トークンとして決定された場合、次の出力トークンと前記特殊トークンとの間の相関関係を予め決定した数値以下に設定するステップをさらに含む、請求項13−20のうち何れか1項に記載の人工神経網における復号化方法。
  22. 前記出力トークンを決定するステップは、
    前記出力トークンが前記特殊トークンと同一であるかを判断するステップと、
    前記出力トークンが前記特殊トークンと同一である場合、前記候補のうち2番目に確率の高いトークンを前記出力トークンとして決定するステップと、
    を含む、請求項13に記載の人工神経網における復号化方法。
  23. 請求項1乃至請求項22のいずれか一項に記載の復号化方法をコンピュータに実行させるコンピュータプログラム。
  24. 人工神経網における音声認識装置であって、
    以前に入力された少なくとも1つの入力トークンに基づいて、出力トークンの候補の確率を予測し、
    前記予測された確率に基づいて前記候補のうち前記出力トークンを決定し、
    前記出力トークンの決定された確率に基づいて、前記出力トークン及び予め定義された特殊トークンのいずれか1つを選択することによって次の入力トークンを決定するプロセッサと、
    を含む音声認識装置。
  25. 前記特殊トークンを次の入力トークンとして決定する場合、
    前記特殊トークンに基づいて予測される次の出力トークンの候補の信頼度は、前記出力トークンに基づいて予測される次の出力トークンの候補の信頼度よりも高い、請求項24に記載の音声認識装置。
  26. 前記人工神経網の入力レイヤは、前記候補それぞれに対応する複数のノード及び前記特殊トークンに対応する特殊ノードを含む、請求項24又は25に記載の音声認識装置。
  27. 前記少なくとも1つの入力トークンは、前記人工神経網によって予め予測された出力トークン及び前記特殊トークンのうち少なくとも1つを含む、請求項24−26のうち何れか1項に記載の音声認識装置。
  28. 前記プロセッサは、前記候補のうち確率が最も高いトークンを選択する、請求項24に記載の音声認識装置。
  29. 前記プロセッサは、前記人工神経網と連動する他の人工神経網によって予測された前記候補の確率と前記人工神経網によって予測された前記候補の確率との組合せに基づいて、前記候補のうち前記出力トークンを選択する、請求項24に記載の音声認識装置。
  30. 前記プロセッサは、
    前記出力トークンの確率と予め決定した閾値確率とを比較し、
    前記出力トークンの確率が前記閾値確率よりも小さい場合、前記特殊トークンを前記次の入力トークンとして選択し、
    前記出力トークンの確率が前記閾値確率よりも大きい場合、前記出力トークンを前記次の入力トークンとして選択する、請求項24に記載の音声認識装置。
  31. 前記プロセッサは、前記少なくとも1つの入力トークンと前記出力トークンとの間の相関関係に基づいて、前記出力トークンの候補の確率を予測する、請求項24−30のうち何れか1項に記載の音声認識装置。
  32. 前記プロセッサは、前記少なくとも1つの入力トークン及び前記次の入力トークンに基づいて次の出力トークンを決定する、請求項24−31のうち何れか1項に記載の音声認識装置。
  33. 前記プロセッサは、前記特殊トークン以外のトークンが前記特殊トークンにアテンションしないように前記特殊トークンをマスキングする、請求項24−32のうち何れか1項に記載の音声認識装置。
  34. 前記プロセッサは、前記特殊トークンが前記次の入力トークンとして決定された場合、次の出力トークンと前記特殊トークンとの間の相関関係を予め決定した数値以下に設定する、請求項24に記載の音声認識装置。
  35. 前記プロセッサは、
    前記出力トークンが前記特殊トークンと同一であるかを判断し、
    前記出力トークンが前記特殊トークンと同一である場合、前記候補のうち2番目に確率の高いトークンを前記出力トークンとして決定する、請求項24に記載の音声認識装置。
  36. 現在まで入力された少なくとも1つの入力トークンに基づいて、出力トークンの候補の確率を予測し、
    第1人工神経網と連動する少なくとも1つの第2人工神経網によって予測された前記候補の確率と前記第1人工神経網によって予測された前記候補の確率との組合せに基づいて、前記候補のうち前記出力トークンを選択し、
    前記少なくとも1つの第2人工神経網のうち、前記出力トークンの確率を最も高く判断した人工神経網と前記第1人工神経網との間で前記出力トークンの確率を比較し、
    前記比較結果に基づいて、前記出力トークン及び予め定義された特殊トークンのいずれか1つを選択することによって、前記第1人工神経網の次の入力トークンを決定するプロセッサを含む、音声認識装置。
  37. 前記プロセッサは、
    前記出力トークンの確率を最も高く判断した人工神経網と前記第1人工神経網の前記出力トークンの確率の差が予め決定した閾値よりも大きい場合、前記特殊トークンを前記第1人工神経網の前記次の入力トークンとして選択し、
    前記出力トークンの確率を最も高く判断した人工神経網と前記第1人工神経網の前記出力トークンの確率の差が予め決定した閾値よりも小さい場合、前記出力トークンを前記第1人工神経網の前記次の入力トークンとして選択する、請求項36に記載の音声認識装置。
  38. 前記特殊トークンに基づいて予測される次の出力トークンの候補の信頼度は、前記閾値よりも大きい場合、前記出力トークンに基づいて予測される次の出力トークンの候補の信頼度よりも高い、請求項37に記載の音声認識装置。
  39. 命令を格納するメモリと、
    1つ以上のプロセッサと、
    を含み、
    前記命令が前記プロセッサによって実行されるとき、前記プロセッサは、
    入力音声から音声特徴を抽出し、音声特徴を符号化して符号化された特徴を生成し、
    前記符号化された特徴及び以前に決定された認識結果に基づいて出力トークンの候補の確率を決定し、
    言語モデル人工神経網によって決定された前記出力トークンの候補の加重値と音声認識人工神経網によって決定された前記出力トークンの候補の加重値に基づいて次の出力トークンを決定する、音声認識システム。
JP2019171730A 2018-11-14 2019-09-20 人工神経網における復号化方法、音声認識装置及び音声認識システム Pending JP2020086436A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020180139787A KR20200056001A (ko) 2018-11-14 2018-11-14 인공신경망에서의 디코딩 방법 및 그 장치
KR10-2018-0139787 2018-11-14

Publications (1)

Publication Number Publication Date
JP2020086436A true JP2020086436A (ja) 2020-06-04

Family

ID=67988924

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019171730A Pending JP2020086436A (ja) 2018-11-14 2019-09-20 人工神経網における復号化方法、音声認識装置及び音声認識システム

Country Status (5)

Country Link
US (1) US11361757B2 (ja)
EP (1) EP3654328A1 (ja)
JP (1) JP2020086436A (ja)
KR (1) KR20200056001A (ja)
CN (1) CN111192576A (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11043214B1 (en) * 2018-11-29 2021-06-22 Amazon Technologies, Inc. Speech recognition using dialog history
US11158307B1 (en) * 2019-03-25 2021-10-26 Amazon Technologies, Inc. Alternate utterance generation
US11176321B2 (en) * 2019-05-02 2021-11-16 International Business Machines Corporation Automated feedback in online language exercises
US11790895B2 (en) * 2019-06-26 2023-10-17 Samsung Electronics Co., Ltd. System and method for natural language understanding
KR20210044559A (ko) 2019-10-15 2021-04-23 삼성전자주식회사 출력 토큰 결정 방법 및 장치
KR20220093653A (ko) * 2020-12-28 2022-07-05 삼성전자주식회사 전자 장치 및 그 제어 방법
US11830480B2 (en) * 2021-02-17 2023-11-28 Kwai Inc. Systems and methods for accelerating automatic speech recognition based on compression and decompression
US20230029196A1 (en) * 2021-07-22 2023-01-26 XRSpace CO., LTD. Method and apparatus related to sentence generation

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2409750B (en) 2004-01-05 2006-03-15 Toshiba Res Europ Ltd Speech recognition system and technique
US10867597B2 (en) 2013-09-02 2020-12-15 Microsoft Technology Licensing, Llc Assignment of semantic labels to a sequence of words using neural network architectures
US9953171B2 (en) 2014-09-22 2018-04-24 Infosys Limited System and method for tokenization of data for privacy
US10115055B2 (en) 2015-05-26 2018-10-30 Booking.Com B.V. Systems methods circuits and associated computer executable code for deep learning based natural language understanding
KR102371188B1 (ko) * 2015-06-30 2022-03-04 삼성전자주식회사 음성 인식 장치 및 방법과 전자 장치
KR102450853B1 (ko) * 2015-11-30 2022-10-04 삼성전자주식회사 음성 인식 장치 및 방법
US9799327B1 (en) 2016-02-26 2017-10-24 Google Inc. Speech recognition with attention-based recurrent neural networks
US10019438B2 (en) * 2016-03-18 2018-07-10 International Business Machines Corporation External word embedding neural network language models
US10409911B2 (en) 2016-04-29 2019-09-10 Cavium, Llc Systems and methods for text analytics processor
US9858265B1 (en) 2016-06-08 2018-01-02 Rovi Guides, Inc. Systems and methods for determining context switching in conversation
US10565493B2 (en) * 2016-09-22 2020-02-18 Salesforce.Com, Inc. Pointer sentinel mixture architecture
US20180150742A1 (en) 2016-11-28 2018-05-31 Microsoft Technology Licensing, Llc. Source code bug prediction
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
CN106933785A (zh) * 2017-02-23 2017-07-07 中山大学 一种基于递归神经网络的摘要生成方法
US10593321B2 (en) * 2017-12-15 2020-03-17 Mitsubishi Electric Research Laboratories, Inc. Method and apparatus for multi-lingual end-to-end speech recognition
US11170158B2 (en) * 2018-03-08 2021-11-09 Adobe Inc. Abstractive summarization of long documents using deep learning

Also Published As

Publication number Publication date
KR20200056001A (ko) 2020-05-22
US20200152180A1 (en) 2020-05-14
EP3654328A1 (en) 2020-05-20
CN111192576A (zh) 2020-05-22
US11361757B2 (en) 2022-06-14

Similar Documents

Publication Publication Date Title
JP2020086436A (ja) 人工神経網における復号化方法、音声認識装置及び音声認識システム
US11935516B2 (en) Speech recognition method and appratus using weighted scores
US11017777B2 (en) Language processing method and apparatus
CN108269569B (zh) 语音识别方法和设备
KR102608469B1 (ko) 자연어 생성 방법 및 장치
JP7170405B2 (ja) ニューラルネットワークを用いた認識方法及び装置並びにトレーニング方法
JP2016110082A (ja) 言語モデル学習方法及び装置、音声認識方法及び装置
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
KR20200044388A (ko) 음성을 인식하는 장치 및 방법, 음성 인식 모델을 트레이닝하는 장치 및 방법
CN113901799B (zh) 模型训练、文本预测方法、装置、电子设备及介质
CN112837669B (zh) 语音合成方法、装置及服务器
JP7164098B2 (ja) 音声を認識する方法及び装置
JP2020042257A (ja) 音声認識方法及び装置
US20230237993A1 (en) Systems and Methods for Training Dual-Mode Machine-Learned Speech Recognition Models
KR20210014949A (ko) 음성 인식을 위한 인공신경망에서의 디코딩 방법 및 장치
CN118043885A (zh) 用于半监督语音识别的对比孪生网络
CN115376495A (zh) 语音识别模型训练方法、语音识别方法及装置
JP2020057357A (ja) 神経網の動作方法と学習方法及びその神経網
JP7044856B2 (ja) 増強された一貫性正規化を利用した音声認識モデル学習方法およびシステム
US11508369B2 (en) Method and apparatus with speech processing
TWI818427B (zh) 使用基於文本的說話者變更檢測的說話者劃分糾正方法及系統
JP7291099B2 (ja) 音声認識方法及び装置
KR20230124266A (ko) 적대적 학습 기법을 이용한 음성 합성 방법 및 장치
CN116888665A (zh) 电子设备及其控制方法
KR20200117826A (ko) 음성 인식 방법 및 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220829

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231017

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240416