JP2018109760A - 音声認識方法及び音声認識装置 - Google Patents

音声認識方法及び音声認識装置 Download PDF

Info

Publication number
JP2018109760A
JP2018109760A JP2017245280A JP2017245280A JP2018109760A JP 2018109760 A JP2018109760 A JP 2018109760A JP 2017245280 A JP2017245280 A JP 2017245280A JP 2017245280 A JP2017245280 A JP 2017245280A JP 2018109760 A JP2018109760 A JP 2018109760A
Authority
JP
Japan
Prior art keywords
speech recognition
attention weight
speech
neural network
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017245280A
Other languages
English (en)
Other versions
JP7093626B2 (ja
Inventor
鎬 式 李
Ho-Shik Lee
鎬 式 李
輝 棟 羅
Hwi Dong Na
輝 棟 羅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2018109760A publication Critical patent/JP2018109760A/ja
Application granted granted Critical
Publication of JP7093626B2 publication Critical patent/JP7093626B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】 ニューラルネットワーク基盤の音声認識モデルを用いた音声認識方法及び音声認識装置を提供する。【解決手段】 音声認識方法は、ニューラルネットワークの1つ以上のレイヤが以前時間で出力した出力値に基づいてアテンション加重値を決定するステップと、アテンション加重値を現在時間の音声信号に適用するステップと、音声認識モデルを用いて前記アテンション加重値が適用された音声信号を認識するステップとを含む。【選択図】 図3

Description

本発明は、音声認識に用いられる音声認識モデルを学習させる技術及び音声認識モデルを用いて音声信号を認識する技術に関する。
音声認識技術は、人がコミュニケーションのために話す音声言語をコンピュータが解釈して文字データに切り替える技術であって、便利さを所望するユーザの要求により迅速に発展している。最近では、ニューラルネットワーク(neural network)を用いて音声認識を行う技術が盛んに研究されている。ニューラルネットワークは、人の生物学的な神経細胞の特性を数学的な表現によりモデリングしたモデルであって、人が有している学習という能力を模倣したアルゴリズムを用いる。ニューラルネットワークは、学習された結果に基づいて学習に利用されていない入力パターンに対して比較的に正しい出力を生成することのできる一般化能力を有する。このような一般化能力が有する長所により、ニューラルネットワークが音声認識技術の分野に幅広く利用されている。
本発明の目的は、音声認識において雑音成分の影響を減らしたり、又は特定話者の音声信号に集中して認識できることによって、認識性能を改善させることにある。
一実施形態に係るニューラルネットワーク基盤の音声認識モデルを用いた音声認識方法は、前記ニューラルネットワークの1つ以上のレイヤが以前時間で出力した出力値に基づいてアテンション加重値を決定するステップと、前記決定されたアテンション加重値を現在時間の音声信号に適用するステップと、前記音声認識モデルを用いて前記アテンション加重値が適用された音声信号を認識するステップとを含む。
一実施形態に係る音声認識方法において、前記決定するステップは、前記以前時間で前記ニューラルネットワークの隠れレイヤ及び出力レイヤのうちの1つ以上が出力した出力値に基づいて前記アテンション加重値を決定し得る。
一実施形態に係る音声認識方法において、前記決定するステップは、前記以前時間で前記1つ以上のレイヤが出力した出力値及び認識しようとする話者の情報に基づいて決定されるコンテキスト値に基づいて前記アテンション加重値を決定し得る。
一実施形態に係る音声認識方法において、前記決定するステップは、前記以前時間で前記1つ以上のレイヤが出力した出力値及び前記現在時間で前記音声認識モデルに入力される音声フレームの特徴値に基づいて前記アテンション加重値を決定し得る。
一実施形態に係る音声認識方法において、前記決定するステップは、前記音声認識モデルに前記音声信号に含まれた複数の音声フレームが入力される場合、前記音声フレームそれぞれに対するアテンション加重値を決定し、前記適用するステップは、前記決定されたアテンション加重値を前記アテンション加重値それぞれに対応する音声フレームに適用し得る。
他の実施形態に係るニューラルネットワーク基盤の音声認識モデルを用いた音声認識方法は、音線信号を受信するステップと、前記音声認識モデルを用いて前記音声信号を認識するステップとを含み、前記認識するステップは、前記ニューラルネットワークの1つ以上のレイヤが以前時間で出力した出力値に基づいてアテンション加重値を決定するステップと、前記決定されたアテンション加重値を前記ニューラルネットワークのレイヤが現在時間で出力した出力値に適用するステップとを含む。
他の実施形態に係る音声認識方法において、前記決定するステップは、前記以前時間で前記ニューラルネットワークの隠れレイヤ及び出力レイヤのうちの1つ以上が出力した出力値に基づいて前記アテンション加重値を決定し得る。
他の実施形態に係る音声認識方法において、前記決定するステップは、前記以前時間で前記1つ以上のレイヤが出力した出力値及び認識しようとする話者の情報に基づいて決定されるコンテキスト値に基づいて前記アテンション加重値を決定し得る。
他の実施形態に係る音声認識方法において、前記アテンション加重値が、前記ニューラルネットワークの現在レイヤが出力した出力値に適用される場合、前記アテンション加重値によって前記現在レイヤの上位レイヤに伝達される前記現在レイヤの出力値のサイズが調整され得る。
一実施形態に係るニューラルネットワーク基盤の音声認識モデルを用いた音声認識装置は、プロセッサと、前記プロセッサによって実行可能な1つ以上の命令を格納するメモリとを含み、前記1つ以上の命令が前記プロセッサによって実行されれば、前記プロセッサは、前記ニューラルネットワークの1つ以上のレイヤが以前時間で出力した出力値に基づいてアテンション加重値を決定し、前記決定されたアテンション加重値を現在時間の音声信号に適用し、前記音声認識モデルを用いて前記アテンション加重値が適用された音声信号を認識できる。
一実施形態に係るニューラルネットワーク基盤の音声認識モデルを用いた音声認識装置は、プロセッサと、前記プロセッサによって実行可能な1つ以上の命令を含むメモリとを含み、前記1つ以上の命令が前記プロセッサによって実行されれば、前記プロセッサは、前記音声認識モデルを用いて音声信号を認識するとき、前記ニューラルネットワークの1つ以上レイヤが以前時間で出力した出力値に基づいてアテンション加重値を決定し、前記決定されたアテンション加重値を前記ニューラルネットワークのレイヤが現在時間で出力した出力値に適用し、前記適用結果に基づいて前記音声信号の認識結果を推定できる。
一実施形態によると、音声認識において雑音成分の影響を減らしたり、又は特定話者の音声信号に集中して認識できることによって、認識性能を改善させることができる。
一実施形態に係る音声認識過程を説明するための図である。 一実施形態に係る音声認識方法の動作を示すフローチャートである。 一実施形態に係る音声認識過程をより具体的に説明するためのフローチャートである。 一実施形態に係る音声認識モデルに基づいて音声認識が実行される過程を説明するための図である。 一実施形態に係る音声認識モデルに基づいて音声認識が実行される過程を説明するための図である。 他の実施形態に係る音声認識過程をより具体的に説明するためのフローチャートである。 他の実施形態に係る音声認識モデルに基づいて音声認識が実行される過程を説明するための図である。 他の実施形態に係る音声認識モデルに基づいて音声認識が実行される過程を説明するための図である。 更なる実施形態に係る音声認識過程をより具体的に説明するためのフローチャートである。 一実施形態に係る音声認識装置の構成を示す図である。 一実施形態に係る音声認識モデルの学習方法の動作を示すフローチャートである。
本明細書で開示されている特定の構造的又は機能的説明は単に実施形態を説明するための目的として例示されたものであり、実施形態は様々な異なる形態で実施され、本明細書に説明された実施形態に限定されることはない。
第1又は第2などの用語を複数の構成要素を説明するために用いることができるが、このような用語は1つの構成要素を他の構成要素から区別する目的としてのみ解釈されなければならない。例えば、第1構成要素は第2構成要素と命名することができ、同様に第2構成要素は第1構成要素にも命名することができる。
いずれかの構成要素が他の構成要素に「連結されて」いると言及された場合、その次の構成要素に直接的に連結されてもよく、又は、中間に他の構成要素が存在することもあり得ると理解されなければならない。一方、構成要素が他の構成要素に「直接連結されて」いるか「直接接続されて」いると言及される場合には、中間に他の構成要素が存在しないものとして理解されなければならない。構成要素間の関係を説明する表現、例えば「〜間に」と「すぐ〜の間に」、又は「〜に隣接する」と「〜に直接に隣接する」などのように解釈されなければならない。
異なるように定義さがれない限り、技術的であるか又は科学的な用語を含むここで用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈すべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。
以下、実施形態を例示的である図面によって詳細に説明する。各図面の構成要素に参照符号を付加するにおいて、同一の構成要素に対してはたとえ他の図面上に表示されたとしても、可能な限り同一の符号を付加したことに留意しなければならない。また、実施形態を説明するにおいて、関連する公知構成又は機能に対する具体的な説明が実施形態に対する理解を妨げると判断される場合にはその詳細な説明は省略する。
図1は、一実施形態に係る音声認識過程を説明するための図である。
音声認識装置110は、音声認識を行う装置として、音声認識装置110に入力された音声信号を認識して音声認識の結果を出力する。音声認識は、音声信号に含まれた言語情報をこれに対応するテキスト情報に変換する過程である。音声認識装置110は、入力された音声信号を分析して音声信号に含まれた言語情報がいかなるテキスト情報を示すかを推定する。
一実施形態によると、音声認識装置110は、モバイルフォン、セルラーフォン、スマートフォン、パーソナルコンピュータ、ラップトップ、ノート型パソコン、ネットブック又はタブレット、携帯情報端末(personal digital assistant;PDA)、デジタルカメラ、ゲームコンソール、MP3プレーヤー、パーソナルマルチメディアプレーヤー(personal multimedia player;PMP)、電子ブック(E−Book)、ナビゲーション、ディスクプレーヤー、セットトップボックス、家庭用電子機器(home appliance)、通信装置、ディスプレイ装置、又は、その他の電子機器に内蔵されたり、これと相互に動作する。また、音声認識装置110は、スマート家電機器、知能型車両、自律走行装置、スマートホーム環境、スマートビルディング環境、スマートオフィス環境、スマート電子セキュリティーシステムなどに内蔵されたり、又はこれと相互に動作する。また、音声認識装置110は、ユーザの体に着用されるウェアラブル機器(wearable device)に含まれて動作したり、これと相互に動作する。ウェアラブル機器は、例えば、指輪、時計、メガネ、腕輪、ベルト、バンド、ネックレス、イヤリング、ヘルメット、又は服の形態を有する。
音声認識装置110は音声信号から特徴を抽出し、抽出された特徴に基づいて音声認識の結果を推定する。一例として、音声認識装置110は、音声信号からスペクトログラム(spectrogram)を取得し、スペクトログラムから音声信号の周波数特徴を抽出する。音声認識装置110は、音声信号をフーリエ変換(Fourier transform)を用いたスペクトルの分析結果を時間・周波数に対して表現すれば、スペクトログラムを取得できる。音声認識装置110は、フーリエ変換によって音声信号の基本周波数を算出し、基本周波数の自然数倍(1、2、3...倍)に該当する周波数の振幅値を算出して周波数値をx軸に、振幅値をy軸に示してスペクトルを生成する。スペクトログラムは、生成されたスペクトルで振幅値が大きいほどビン(bin)のサイズを大きく示し、振幅値が小さいほどビンのサイズを小さく示し、それぞれの周波数位置に対して振幅値のサイズを連続に表示したものである。音声認識装置110は、スペクトログラムに示された周波数特徴情報を音声信号の特徴として抽出する。
音声信号から特徴を抽出する方法は上記の実施形態に限定されることなく、音声信号の特徴を抽出するために様々な方法を用いてもよい。例えば、音声認識装置110は、音声認識のために人の耳が有する非線形である周波数特徴を用いたMFCC(Mel Frequency Cepstral Coefficients)の特徴値を用いてもよい。MFCCの特徴値は、(1)時間ウィンドウに基づいて音声信号を音声フレーム単位に分割、(2)FFT(Fast Fourier Transform)を用いて音声フレームを周波数領域に変換、(3)フィルタバンク(filterbank)を用いて音声フレームを様々な周波数帯域の信号に分割、(4)各周波数帯域の信号のエネルギーを算出、(5)算出されたエネルギーにDCT(Discrete Cosine Transform)を適用の過程により取得される。
音声認識装置110は、音声認識の結果を推定するために音声認識モデルとして、音響モデル120と言語モデル130を用いる。音響モデル120は、音声信号から抽出された特徴に基づいて音声信号を音素(phoneme)単位として認識するために用いられる。音声認識装置110は、音響モデル120によって取得された音素単位の認識結果に基づいて音声信号が示す単語を推定する。言語モデル130は、単語間の連結関係に基づいた確率情報を取得するために用いられる。言語モデル130は、言語モデル130に入力された単語に連結される次の単語に対する確率情報を提供する。例えば、言語モデル130に「this」の単語が入力される場合、言語モデル130は「this」の次に「is」又は「was」が連結される確率情報を提供する。一実施形態に係る音声認識装置110は、言語モデル130によって確率情報に基づいて最も確率の高い単語間の連結関係を選択し、選択結果を音声認識の結果として出力する。
上記のような音響モデル120及び言語モデル130として、ニューラルネットワークを用いてもよい。ニューラルネットワークは、複数の人工ニューロン(又は、ノード)を用いて生物学的なシステムの算出能力を模倣するソフトウェアやハードウェアで具現化された認識モデルである。ニューラルネットワークは、人工ニューロンを用いて人の認知作用や学習過程を行う。一例として、以前時間の隠れレイヤの出力値が現在時間の隠れレイヤに再び入力されるリカレントニューラルネットワーク(recurrent neural network;RNN)が音響モデル120及び言語モデル130に用いられてもよい。
一実施形態に係るニューラルネットワークに基づいた音声認識モデルは、以前時間で当該ニューラルネットワークによって算出された結果がフィードバックされ、動的にスペックトロールマスキングを実現し得る。スペックトロールマスキングでは、音声信号の周波数帯域ごとの特徴値そのままが音声認識に用いられるものではなく、各周波数帯域ごとの特徴値のサイズを調整した結果が音声認識に用いられる。例えば、騒音が混合された音声信号において、騒音ではない人の音声のみが集中的に認識したり、又は音声信号に様々な人の話者(speaker)が存在する場合認識しようとする話者の音声のみを集中して認識しようとするとき、スペックトロールマスキングが用いられる。
人は入力される音声により、特定のスペクトル領域の信号に集中し、音声信号に含まれた騒音を適応的に除去する能力がある。人の聴覚器官は、脳の聴覚器官から末梢にくる下り経路が存在し、その下り経路は、選択的注意集中能力と騒音環境で音声を知覚するために影響を及ぼすことが知られている。音声認識モデルは、このような人の聴覚器官に存在する下り経路をモデリングして騒音環境で音声を円満に認識することができ、選択的注意集中能力を実現可能にする効果を提供する。そのために、音声認識モデルを形成しているニューラルネットワークは、アテンション加重値を用いてニューラルネットワークに入力される音声信号を調整し得る。ニューラルネットワークには、アテンション加重値が適用された音声フレームの特徴が入力され、アテンション加重値によって音声フレームの周波数領域ごとの特徴値のうち、いずれかの周波数領域の特徴値をより重要に見るかが決定される。例えば、アテンション加重値は、音声認識モデルに音声フレームの周波数領域ごとの特徴値が入力されるとき、各周波数領域の特徴値に対する比重を決定する。
一実施形態によると、音声認識装置110は、以前時間でニューラルネットワークの1つ以上のレイヤが出力した出力値に基づいて音声信号に適用されるアテンション加重値を決定する。他の実施形態によると、ニューラルネットワークは、コンテキスト値を追加的に考慮してアテンション加重値を決定してもよい。更なる実施形態では、現在時間から入力される音声信号の特徴値がアテンション加重値を決定するために追加的に用いてもよい。
音声認識装置110は、以前時間における情報を用いてアテンション加重値を決定し、アテンション加重値により現在時間で認識しようとする音声信号の周波数領域ごとの比重を適応的に調整することができる。これにより、音声信号の認識結果から雑音成分の影響を減らしたり、又は、特定話者の音声信号に集中して認識することができることから認識性能を改善することができる。
以下は、音声認識装置110がニューラルネットワーク基盤の音声認識モデルを用いて音声信号を認識する過程をより具体的に説明する。
図2は、一実施形態に係る音声認識方法の動作を示すフローチャートである。
音声認識方法は、音声認識装置(例えば、図1に示す音声認識装置120、又は図10に示す音声認識装置1000)によって実行される。図2を参照すると、ステップS210において、音声認識装置は音声信号を受信する。一例として、音声信号は、時間により変化する音声情報を含む複数の音声フレームから構成される。音声フレームは、例えば、スペクトログラムに示された周波数成分によるビン(bin)の値又はMFCCの周波数特徴値を含んでもよい。音声認識装置は、音声信号を互いに異なる周波数成分の信号に分離し、分離した信号から当該の周波数特徴値を抽出する。各音声フレームは、周波数成分による複数のチャネルに構成されてもよく、各チャネルごとに対応する周波数成分の周波数特徴値を含んでもよい。
ステップS220において、音声認識装置は、ニューラルネットワーク基盤の音声認識モデルを用いて音声信号を認識する。音声認識モデルには、1つの音声フレームが入力されてもよく、複数の音声フレームが同時に入力されてもよい。ここで、音声認識モデルには、音声信号に分離した互いに異なる周波数成分の信号に対する特徴値が入力される。
一実施形態における音声認識装置は、以前時間で音声認識モデルを形成するニューラルネットワークの1つ以上のレイヤが出力した出力値、コンテキスト値及び現在時間での音声認識モデルの入力値のうち1つ以上に基づいてアテンション加重値を決定し、決定されたアテンション加重値を音声認識モデルに入力される音声信号に適用する。音声認識装置は、音声認識モデルに入力される音声フレームで周波数成分ごとにアテンション加重値を適用する。一例として、アテンション加重値は、入力された情報に基づいてアテンション加重値を決定するよう、学習されたニューラルネットワーク又は音声認識モデルのニューラルネットワークに含まれた1つ以上のレイヤによって決定されてもよい。
アテンション加重値によって音声認識モデルに入力される音声フレームで特定周波数成分の信号に対する比重が大きくなるか、小さくなるか、又は保持される。ここで、比重が大きくなることは、音声認識モデルが音声フレームの認識結果を推定することにおいて、当該の周波数成分の信号をより多く考慮することを示す。反対に、比重が小さくなることは、音声認識モデルが音声フレームの認識結果を推定することにおいて、当該周波数成分の信号をより少なく考慮することを示す。このように、アテンション加重値は、スペックトロールマスキングの役割を行う。
他の実施形態において、音声認識装置は、アテンション加重値をニューラルネットワークのレイヤの間で伝達される値に適用してもよい。ニューラルネットワークの下位レイヤと上位レイヤとの間の連結関係のうち、1つ以上にアテンション加重値が適用される。アテンション加重値が適用される場合、下位レイヤから上位レイヤに伝達される値のサイズがアテンション加重値によって変わり得る。アテンション加重値は、以前時間でニューラルネットワークの1つ以上のレイヤが出力した出力値、コンテキスト値、及び現在時間における音声認識モデルの入力値のうちの1つ以上に基づいて決定される。
音声認識装置は、音声認識モデルを用いてアテンション加重値が適用された音声信号を認識して認識結果を出力する。一実施形態における音声認識モデルは、音声信号に含まれた言語情報を音素単位に推定する音響モデルである。音素単位に推定された認識結果は、言語モデルのような他の音声認識モデルに入力され、他の音声認識モデルによって音声信号に含まれた言語情報の全体的なテキスト情報が推定される。音声認識モデルを形成するニューラルネットワークは、入力された情報に対応する認識結果を出力するよう予め学習される。音声認識モデルが出力する認識結果は、学習過程で決定されたニューラルネットワークの構造的な特徴に起因する。
音声認識装置が音声認識モデルを用いて音声信号を認識する実施形態を以下の図3ないし図9を参照して詳しく説明する。
図3は、一実施形態に係る音声認識過程をより具体的に説明するためのフローチャートである。図3の実施形態において、音声認識装置は、アテンション加重値を音声認識モデルに入力される音声信号に適用し、アテンション加重値が適用された音声信号に対して音声認識を行う。
図3を参照すると、ステップS310において、音声認識装置は、音声認識モデルを形成するニューラルネットワークの1つ以上のレイヤ(例えば、隠れレイヤ及び出力レイヤのうちの1つ以上のレイヤ)が以前時間で出力した出力値に基づいてアテンション加重値を決定する。一実施形態に係る音声認識モデルには、互いに異なる周波数成分の信号を含む音声フレームが入力され、音声認識装置は、互いに異なる周波数成分の信号それぞれに対するアテンション加重値を決定する。アテンション加重値は、音声フレームが音声認識モデルによって認識されるとき、音声認識モデルに入力される互いに異なる周波数成分の信号間の比重を決定する。他の実施形態において、音声認識装置は、現在時間で音声認識モデルに入力される音声フレームの特徴値をさらに用いてアテンション加重値を決定してもよい。
更なる実施形態において、音声認識装置は、以前時間でニューラルネットワークの1つ以上のレイヤが出力した出力値のみならず、認識しようとする話者の情報に基づいて決定されるコンテキスト値をさらに用いて、アテンション加重値を決定してもよい。コンテキスト値は、音声信号に様々な話者の音声が含まれた場合、認識しようとする話者の音声のみを集中して認識しようとするときに利用される。コンテキスト値は、例えば、話者の年齢、性別、話者に対するサンプル音声、又は話者が位置する方向に関する情報に基づいて決定される。また、音声認識装置は、コンテキスト値だけではなく、現在時間で音声認識モデルに入力される音声フレームの特徴値をさらに用いて、アテンション加重値を決定してもよい。
ステップS320において、音声認識装置は、決定されたアテンション加重値を現在時間の音声信号に適用する。音声認識装置は、音声認識モデルに入力される音声フレームの各周波数成分の信号にアテンション加重値を適用する。アテンション加重値によって各周波数成分ごとに音声認識モデルに入力される信号の比重が調整され、これにより、音声認識で雑音成分の影響を減らしたり、特定話者の音声に集中して音声認識を行うことができる。
他の実施形態によると、音声認識モデルに音声信号に含まれた複数の音声フレームが同時に入力されてもよい。この場合、音声認識装置は、入力される音声フレームそれぞれに対するアテンション加重値を決定し、決定されたアテンション加重値をアテンション加重値それぞれに対応する音声フレームに適用する。
ステップS330において、音声認識装置は、音声認識モデルを用いてアテンション加重値が適用された音声信号を認識する。一実施形態における音声認識モデルは、アテンション加重値が適用された音声信号が入力されれば、当該の音声信号が示す言語情報を音素単位に推定し、推定結果を出力する。
図4及び図5は、一実施形態に係る音声認識モデルに基づいて音声認識が実行される過程を説明するための図である。
図4を参照すると、音声認識モデル410には、毎時間のステップごとに音声信号の特徴が入力される。例えば、第1時間で音声認識モデル410には音声信号Vt−1の特徴が入力され、第2及び第3時間ではそれぞれ音声信号V及びVt+1の特徴が音声認識モデル410に入力される。Vt−1、V及びVt+1は、時間により順次音声認識モデルに入力される音声フレームである。音声信号の特徴は、例えば、スペクトログラムから抽出された特徴値(例えば、周波数成分値)、フィルタバンクを用いて抽出された特徴値及びMFCCの特徴値を含む。
音声認識モデル410を形成しているニューラルネットワークは、様々なレイヤ415,420,425を含むが、レイヤ415,420は隠れレイヤであり、レイヤ425は音声認識モデル410の認識結果であるYt−1、Y、Yt+1を出力する出力レイヤである。ニューラルネットワークは、以前時間ステップで算出された情報を現在時間ステップで用いる循環状の連結を有するリカレントニューラルネットワーク(recurrent neural network)である。循環状連結によって、以前時間で算出された情報が現在時間のレイヤに入力される。例えば、第1時間でレイヤ420から出力された出力値は、第1時間の次の時間である第2時間で再びレイヤ420に入力され、第2時間でレイヤ420から出力された出力値は再び第2時間の次の時間は、第3時間でレイヤ420に入力される。レイヤ420は、第1時間で出力されたレイヤ420の出力値に基づいて第2時間で出力する値を算出する。
音声認識モデル410に含まれる加重値決定器430は、ニューラルネットワークの上位レイヤから以前時間の情報がフィードバックされ、フィードバックされた情報に基づいて、音声信号に適用されるアテンション加重値を適応的に決定する。例えば、加重値決定器430は、第1時間でニューラルネットワークのレイヤ415,420,425のうちの1つ以上のレイヤが出力した出力値がフィードバックされ、フィードバックされた情報に基づいて第2時間で音声信号Vに適用するアテンション加重値を決定する。アテンション加重値によって音声信号Vに含まれた様々な周波数領域の信号間の比重が調整される。加重値決定器430は、以前時間で出力されたニューラルネットワークの隠れレイヤの出力値又は出力レイヤの出力値(又は、音声認識モデル410の出力値)が入力され、入力された情報に基づいて入力される音声信号の周波数成分を動的に調整することから、人の聴覚器官に存在する下り経路のような役割を果たす。一実施形態に係る加重値決定器430は、音声認識モデル410のニューラルネットワークに含まれる1つ以上のレイヤから構成されたり、又は別途のニューラルネットワークから形成される。
他の実施形態によると、加重値決定器430は、コンテキスト値C及び現在時間から入力される音声信号Vのうち1つ以上をさらに考慮してアテンション加重値を決定する。コンテキスト値は、認識しようとする話者の情報(例えば、話者の年齢、性別、話者に対するサンプル音声、又は話者が位置する方向)に基づいて決定される。
一実施形態では、加重値決定器430は、次の数式(1)及び(2)に基づいてアテンション加重値を決定する。
ここで、Vは、現在時間tで音声認識モデル410に入力される音声信号として、音声信号は、例えば、音声フレームの周波数特徴値を含んでもよい。h t−1、h t−1、h t−1、・・・は、以前時間t−1で隠れレイヤh、h、h、...から出力された出力値(又は、隠れステート値)である。St−1は以前時間t−1で出力レイヤから出力された出力値である。例えば、St−1はニューラルネットワークに含まれたソフトマックス(softmax)レイヤ(例えば、レイヤ425)の出力値として、以前音声フレームに対する認識結果値(例えば、音素に対する確率値又は確率ベクトル)であり得る。アテンション加重値を決定するためにh t−1、h t−1、h t−1、・・・、St−1のうち1つ以上のレイヤの出力値を用いる。Cは認識しようとするターゲットの話者に関する情報を含むコンテキスト値として、ターゲット話者の音声に集中して音声認識を行うためのパラメータである。Cは、例えば、ターゲット話者の映像、声、ID、ターゲット話者が位置する方向に関する情報を含む。例えば、Cとして、Aという話者の音声に対するサンプル情報が入力されれば、音声認識モデル410はAの話者の音声に適切な音声信号フィルタとして機能する。アテンション加重値を決定するために上記のパラメータのうちの1つ以上を用いてもよい。
attend()は、上記のパラメータに基づいて中間結果値eを算出する関数である。一例として、attend()は、ニューラルネットワークでパラメータが入力されれば、eを算出する1つ以上のレイヤで実現できる。
σ()は、()の中の値を0から1までの値のいずれか1つの値に出力するシグモイド関数(sigmoid function)である。αはシグモイド関数に中間結果値eを適用した結果値として、アテンション加重値を示す。一例として、eは、音声認識モデルに入力される音声フレームの特徴値(入力ベクトル)のような次元を有するベクトルであってもよい。
数式(1)及び(2)によると、加重値決定器430は、入力された1つ以上のパラメータに基づいて0から1の間の値を有するアテンション加重値αを算出する。一例として、音声認識モデル410に入力される音声フレームは、周波数帯域により様々なチャネルで構成され、各チャネルごとに対応するαが算出される。
一実施形態においてアテンション加重値が音声信号に適用されたとき、図4でニューラルネットワークの隠れレイヤ415の出力値Oは、次の数式(3)のように算出される。
は現在時間tで音声認識モデル410に入力される入力値であり、αは現在時間tで加重値決定器430によって決定されたアテンション加重値である。(×)は、エレメントごとの乗算(element wise multiplication)演算を示す。ht−1は以前時間t−1で隠れレイヤから出力された出力値である。Wは下位レイヤと現在レイヤとの間に適用されるフォワード加重値であり、Wはht−1に適用されるリカレントニューラルネットワークにおけるリカレント加重値である。bは、現在時間tで隠れレイヤ415によって出力された出力値Oを調整するためのバイアス(bias)値である。σ()は、シグモイド関数である。ニューラルネットワークの学習過程では、α、W、W、bが学習される。
数式(3)によると、ニューラルネットワークの隠れレイヤは、アテンション加重値が適用された音声信号に基づいて上位レイヤに伝達する出力値を算出する。
他の実施形態によると、音声認識モデル410に音声信号に含まれた複数の音声フレームが同時に入力されてもよい。この場合、音声認識装置は、入力される音声フレームそれぞれに対するアテンション加重値を決定し、決定されたアテンション加重値をアテンション加重値それぞれに対応する音声フレームに適用する。音声認識モデル410が複数の音声フレームの入力された場合、隣接している時間の音声フレームのコンテキストまで考慮して音声認識を行う。
図5を参照すると、加重値決定器の機能は、音声認識モデル510のニューラルネットワークに含まれる1つ以上のレイヤ515に実現される。レイヤ515には、ニューラルネットワークの1つ以上のレイヤが以前時間で出力した出力値、現在時間で音声認識モデルに入力される音声フレームの特徴値、及びコンテキスト値のうちの1つ以上が入力される。一例として、レイヤ515は、上記の数式(1)及び(2)によりアテンション加重値を決定する。レイヤ515は、アテンション加重値を入力された音声信号に適用し、アテンション加重値が適用された音声信号に基づいてレイヤ515の出力値を算出する。レイヤ515の出力値は、上位レイヤ520に伝達され、レイヤ525及びレイヤ530を経て音声認識モデル510の認識結果Yが決定される。
図6は、他の実施形態に係る音声認識過程をより具体的に説明するためのフローチャートである。図6の実施形態において、音声認識装置は、アテンション加重値をニューラルネットワークのレイヤの間で伝達される値に適用する。上記で説明した図3に対する内容については、下記の図6に対する説明に適用される。
図6を参照すると、ステップS610において、音声認識装置は、音声認識モデルを形成するニューラルネットワークの1つ以上のレイヤが以前時間で出力した出力値に基づいて、アテンション加重値を決定する。アテンション加重値は、ニューラルネットワークの現在レイヤの上位レイヤに伝達される現在レイヤの出力値のサイズを調整する役割をする。一実施形態において、音声認識装置は、以前時間でニューラルネットワークの隠れレイヤと出力レイヤのうちの1つ以上が出力した出力値に基づいてアテンション加重値を決定する。他の実施形態において、音声認識装置は、現在時間で音声認識モデルに入力される音声フレームの特徴値をさらに用いてアテンション加重値を決定してもよい。
更なる実施形態において、音声認識装置は、以前時間でニューラルネットワークの1つ以上のレイヤが出力した出力値だけではなく、認識しようとする話者の情報に基づいて決定されるコンテキスト値をさらに用いてアテンション加重値を決定してもよい。異なる例として、音声認識装置は、以前時間でニューラルネットワークの1つ以上のレイヤが出力した出力値、現在時間の音声フレームの特徴値、及びコンテキスト値を全てを用いてアテンション加重値を決定してもよい。
ステップS620において、音声認識装置は、決定されたアテンション加重値を1つ以上のレイヤが現在時間で出力した出力値に適用する。音声認識装置は、アテンション加重値をニューラルネットワークの下位レイヤと上位レイヤとの間の連結関係のうちの1つ以上に適用する。アテンション加重値が適用される場合、下位レイヤから上位レイヤに伝達される値のサイズがアテンション加重値によって変わり得る。例えば、アテンション加重値によって当該の伝達される値が0になったり、又は、本来の値の1/2、1/4、又は、1/8倍になってもよい。
アテンション加重値は、様々な連結関係に適用されてもよく、1つの連結関係にのみ適用されてもよい。アテンション加重値が様々な連結関係に適用される場合、適用される各アテンション加重値は互いに同一であってもよく、それぞれ異なってもよい。例えば、アテンション加重値が一回決定されれば、決定された同じ値のアテンション加重値が様々な連結関係に適用される。又は、アテンション加重値が適用される連結関係ごとに適用されるアテンション加重値が独立的に決定されることで、適用されるアテンション加重値が連結関係の間でそれぞれ異なってもよい。
ステップS630において、音声認識装置は、音声信号の認識結果を出力する。一例として、認識結果は音素に対する確率値又は確率ベクトルの情報であってもよい。
図7及び図8は、他の実施形態に係る音声認識モデルに基づいて音声認識が実行される過程を説明するための図である。
図7を参照すると、音声認識モデル710は、現在時間tで入力された音声信号Vに基づいて認識結果Yを出力する。音声認識モデル710を形成するニューラルネットワークは、様々なレイヤ715,720,730,735を含む。ニューラルネットワークは、循環状連結を有するリカレントニューラルネットワークであってもよい。
図4を参照して説明したように、加重値決定器740は、ニューラルネットワークの上位レイヤから受信した以前時間の情報に基づいてアテンション加重値を決定する。例えば、加重値決定器740は、以前時間でニューラルネットワークのレイヤ715,720,730,735のうち1つ以上のレイヤが出力した出力値がフィードバックされ、フィードバックされた情報に基づいて現在時間におけるアテンション加重値を決定する。例えば、加重値決定器740は、上記の数式(1)及び(2)に基づいてアテンション加重値を決定する。ここで、数式(1)及び(2)のαとeは、アテンション加重値が適用されるレイヤの出力値のような次元を有するベクトルである。
加重値決定器740は、音声認識モデル710のニューラルネットワークに含まれる1つ以上のレイヤから構成されたり、又は、別途のニューラルネットワークで形成される。又は、加重値決定器740は、コンテキスト値C及び現在時間から入力される音声信号Vのうちの1つ以上をさらに考慮してアテンション加重値を決定する。アテンション加重値の決定については、上記で説明した図4を参照して説明した内容の通りである。
加重値決定器740によって決定されたアテンション加重値は、ニューラルネットワークの下位レイヤと上位レイヤとの間の連結関係のうち1つ以上に適用される。図7に示された実施形態では、アテンション加重値がレイヤ720の出力値に適用された後、上位レイヤ730に伝達される。他の実施形態では、アテンション加重値がレイヤの間の連結関係ごとに適用されてもよく、適用されるアテンション加重値がそれぞれ異なってもよい。アテンション加重値によって音声認識で特定のコンポーネントの影響を減らすマスキング機能が実現される。
図8を参照すると、加重値決定器の機能は、音声認識モデル810のニューラルネットワークに含まれる1つ以上のレイヤ825で実現される。現在時間tで、音声信号Vがレイヤ815に入力されれば、レイヤ815,820を経て算出された値がレイヤ825に伝達される。レイヤ825には、また、ニューラルネットワークの1つ以上のレイヤが以前時間で出力した出力値及びコンテキスト値のうちの1つ以上が入力され、レイヤ825は、入力された情報に基づいてアテンション加重値を決定する。レイヤ825は、アテンション加重値を下位レイヤから受信した値に適用した後、適用された値を上位レイヤ830に伝達する。レイヤ830及びレイヤ835を経て音声認識モデル810の認識結果Yが決定される。音声認識モデル810のニューラルネットワークは、上記のレイヤ825の機能を行うレイヤを1つ以上含む。
図9は、更なる実施形態に係る音声認識過程をより具体的に説明するためのフローチャートである。図9に示された動作は、図示するように順次実行されたり、又は、説明された実施形態の範囲及び技術的な思想から離れることなく動作の順序が変更されてもよい。また、図9に示された動作は、並列的又は同時に実行されてもよい。
図9を参照すると、ステップS910において、音声認識装置は、音声フレームのスペクトログラムを取得する。一例として、音声認識装置は、フーリエ変換などを用いて音声信号を周波数領域の信号に変換してスペクトログラムを生成し、スペクトログラムから音声信号の特徴を抽出する。スペクトログラムから音声信号の特徴を抽出することについては、上記で説明された図1を参照して説明した内容の通りである。ステップS920において、音声認識装置は、音声フレームに適用されるアテンション加重値を決定する。アテンション加重値は、決定する過程に対する説明は、図1〜図5を参照して説明した内容が参照としてここに含まれている。ステップS930において、音声認識装置は、音声認識モデルを用いてアテンション加重値が適用された音声フレームを音素単位として認識する。音声認識装置は、音素単位の認識結果に基づいて音声信号が示す単語を推定する。
ステップS940において、音声認識装置は、現在の音声フレームが最後の音声フレームであるか否かを判断する。判断の結果で、現在の音声フレームが最後の音声フレームであれば上記の過程を終了し、現在の音声フレームが最後の音声フレームでなければ、次の音声フレームに対して上のステップS910〜ステップS940の過程を再び行う。
図10は、一実施形態に係る音声認識装置の構成を示す図である。
図10を参照すると、音声認識装置1000は、メモリ1020及びプロセッサ1010を含む。メモリ1020は、プロセッサ1010によって実行可能な1つ以上の命令を格納する。プロセッサ1010は、メモリ1020に格納された1つ以上の命令を実行する。プロセッサ1010は、命令を実行することによって図2〜図9に関して上述した1つ以上の動作を実行する。プロセッサ1010は、命令に応じてニューラルネットワーク基盤の音声認識モデルを用いて音声信号を認識する。ニューラルネットワークの構造及び動作については、図3、図4、図7及び図8を参照して説明した内容の通りである。
一実施形態によると、プロセッサ1010は、ニューラルネットワークの1つ以上のレイヤが以前時間で出力した出力値に基づいてアテンション加重値を決定する。プロセッサ1010は、決定されたアテンション加重値を現在時間の音声信号に適用し、音声認識モデルを用いて上記のアテンション加重値が適用された音声信号を認識する。
他の実施形態によると、プロセッサ1010は、音声認識モデルを用いて音声信号を認識するとき、ニューラルネットワークの1つ以上レイヤが以前時間で出力した出力値に基づいてアテンション加重値を決定し、決定されたアテンション加重値をニューラルネットワークのレイヤが現在時間で出力した出力値に適用する。プロセッサ1010は、適用結果に基づいて音声信号の認識結果を推定する。
図11は、一実施形態に係る音声認識モデルの学習方法の動作を示すフローチャートである。図11に示す学習方法はトレーニング装置によって実行され、図1ないし図10の音声認識モデルを学習するために適用される。
図11を参照すると、ステップS1110において、トレーニング装置は、学習データに適用されるアテンション加重値を決定する。学習データは、音声認識モデルの学習過程に用いられるデータとして、音声信号及びコンテキスト値を含む。一例として、トレーニング装置は、上記の数式(1)及び(2)によりアテンション加重値を決定する。
ステップS1120において、トレーニング装置は、音声認識モデルを用いて学習データの認識結果を取得する。トレーニング装置は、学習のための音声信号にアテンション加重値を適用し、アテンション加重値が適用された音声信号を音声認識モデルに入力させ得る。一例として、音声認識モデルは、アテンション加重値が適用された音声信号に基づいて音素単位の認識結果を出力する。
ステップS1130において、トレーニング装置は、ステップS1120の認識結果に基づいて音声認識モデルを学習させる。一実施形態によると、トレーニング装置は、監督学習の方式により音声認識モデルを学習させることができる。例えば、トレーニング装置は、音声認識モデルが学習データに対応する好ましい認識結果を出力するように、音声認識モデルのニューラルネットワークを構成する人工ニューロン間の連結加重値をアップデートする。トレーニング装置は、損失逆伝搬学習(back−propagation learning)によって人工ニューロンの間の連結加重値をアップデートする。損失逆伝搬学習は、与えられた学習データに対して前方算出によって損失を推定した後、ニューラルネットワークの出力レイヤから開始して、下位レイヤへ向かう逆方向に推定した損失を伝搬しながら、損失を減らす方向に連結加重値をアップデートする方法である。トレーニング装置は、現在の設定された連結加重値がどれ程最適に近いかを測定するための目的関数を定義し、目的関数の結果に基づいて連結加重値を続けて変更し、音声認識モデルの学習を繰り返し行う。
学習過程は、アテンション加重値を決定する動作を学習させる過程を含む。一実施形態では、音声信号の互いに異なる周波数成分の特徴値が音声認識モデルに入力されるとき、音声認識モデルは、以前時間の情報を用いて現在時間で周波数成分の特徴値のうちいずれかの周波数成分の特徴値をさらに集中的に見るべきかが学習される。一例として、トレーニング装置は、アテンション加重値がどれ程最適に近いかを測定するための目的関数を定義し、目的関数の結果が最適に近づくようにアテンション加重値を決定するレイヤのパラメータを継続的にアップデートする。
上述の実施形態は、ハードウェア構成要素、ソフトウェア構成要素、又はハードウェア構成要素及びソフトウェア構成要素の組み合わせで具現化される。例えば、実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ(digital signal processor)、マイクロコンピュータ、FPA(field programmable array)、PLU(programmable logic unit)、マイクロプロセッサー、又は命令(instruction)を実行して応答する異なる装置のように、1つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現化される。処理装置は、オペレーティングシステム(OS)及びオペレーティングシステム上で実行される1つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答して、データをアクセス、格納、操作、処理、及び生成する。理解の便宜のために、処理装置は1つが使用されるものとして説明する場合もあるが、当該技術分野で通常の知識を有する者は、処理装置が複数の処理要素(processing element)及び/又は複数類型の処理要素を含むことが分かる。例えば、処理装置は、複数のプロセッサ又は1つのプロセッサ及び1つのコントローラを含む。また、並列プロセッサ(parallel processor)のような、他の処理構成も可能である。
ソフトウェアは、コンピュータプログラム、コード、命令、又はこれらのうちの1つ以上の組み合わせを含み、希望通りに動作するように処理装置を構成し、独立的又は結合的に処理装置に命令する。ソフトウェア及び/又はデータは、処理装置によって解釈され、処理装置に命令又はデータを提供するためのあらゆる類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、或いは送信される信号波を介して永久的又は一時的に具現化される。ソフトウェアは、ネットワークに接続されたコンピュータシステム上に分散され、分散された方法で格納されるか又は実行される。ソフトウェア及びデータは1つ以上のコンピュータ読み取り可能な記録媒体に格納される。
本実施形態による方法は、多様なコンピュータ手段を介して実施されるプログラム命令の形態で具現化され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合わせて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり、使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカルディスクのような磁気−光媒体、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。ハードウェア装置は、本発明の動作を実行するために1つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。
上述のように実施形態をたとえ限定された図面によって説明したとしても、当技術分野で通常の知識を有する者であれば、前記に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順序で実行されたり、及び/又は、説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組合わせられたり、他の構成要素又は均等物によって置き換えたり置換されても、適切な結果を達成することができる。
110、1000:音声認識装置
120:音響モデル
130:言語モデル
1010:プロセッサ
1020:メモリ

Claims (20)

  1. ニューラルネットワーク基盤の音声認識モデルを用いた音声認識方法において、
    前記ニューラルネットワークの1つ以上のレイヤが以前時間で出力した出力値に基づいてアテンション加重値を決定するステップと、
    前記決定されたアテンション加重値を現在時間の音声信号に適用するステップと、
    前記音声認識モデルを用いて前記アテンション加重値が適用された音声信号を認識するステップと、
    を含む、音声認識方法。
  2. 前記決定するステップは、前記以前時間で前記ニューラルネットワークの隠れレイヤ及び出力レイヤのうちの1つ以上が出力した出力値に基づいて前記アテンション加重値を決定する、
    請求項1に記載の音声認識方法。
  3. 前記決定するステップは、前記以前時間で前記1つ以上のレイヤが出力した出力値及び認識しようとする話者の情報に基づいて決定されるコンテキスト値に基づいて前記アテンション加重値を決定する、
    請求項1に記載の音声認識方法。
  4. 前記決定するステップは、前記以前時間で前記1つ以上のレイヤが出力した出力値及び前記現在時間で前記音声認識モデルに入力される音声フレームの特徴値に基づいて前記アテンション加重値を決定する、
    請求項1に記載の音声認識方法。
  5. 前記音声信号を互いに異なる周波数成分の信号に分離するステップをさらに含み、
    前記適用するステップは、前記決定されたアテンション加重値を前記互いに異なる周波数成分の信号に対する特徴値に適用する、
    請求項1ないし4のいずれか一項に記載の音声認識方法。
  6. 前記アテンション加重値によって音声フレームが前記音声認識モデルにより認識されるとき、前記音声認識モデルに入力される前記互いに異なる周波数成分の信号間の比重が決定される、
    請求項5に記載の音声認識方法。
  7. 前記決定するステップは、前記音声認識モデルに前記音声信号に含まれた複数の音声フレームが入力される場合、前記音声フレームそれぞれに対するアテンション加重値を決定し、
    前記適用するステップは、前記決定されたアテンション加重値を前記アテンション加重値それぞれに対応する音声フレームに適用する、
    請求項1ないし6のいずれか一項に記載の音声認識方法。
  8. 前記認識するステップは、前記音声認識モデルを用いて前記アテンション加重値が適用された音声信号が示す言語情報を推定する、
    請求項1に記載の音声認識方法。
  9. 前記ニューラルネットワークは、リカレントニューラルネットワークである、
    請求項1に記載の音声認識方法。
  10. ニューラルネットワーク基盤の音声認識モデルを用いた音声認識方法において、
    音線信号を受信するステップと、
    前記音声認識モデルを用いて前記音声信号を認識するステップと、
    を含み、
    前記認識するステップは、
    前記ニューラルネットワークの1つ以上のレイヤが以前時間で出力した出力値に基づいてアテンション加重値を決定するステップと、
    前記決定されたアテンション加重値を前記ニューラルネットワークのレイヤが現在時間で出力した出力値に適用するステップと、
    を含む、音声認識方法。
  11. 前記決定するステップは、前記以前時間で前記ニューラルネットワークの隠れレイヤ及び出力レイヤのうちの1つ以上が出力した出力値に基づいて前記アテンション加重値を決定する、
    請求項10に記載の音声認識方法。
  12. 前記決定するステップは、前記以前時間で前記1つ以上のレイヤが出力した出力値及び認識しようとする話者の情報に基づいて決定されるコンテキスト値に基づいて前記アテンション加重値を決定する、
    請求項10に記載の音声認識方法。
  13. 前記決定するステップは、前記以前時間で前記1つ以上のレイヤが出力した出力値及び前記現在時間で前記音声認識モデルに入力される音声フレームの特徴値に基づいて前記アテンション加重値を決定する、
    請求項10に記載の音声認識方法。
  14. 前記アテンション加重値が、前記ニューラルネットワークの現在レイヤが出力した出力値に適用される場合、前記アテンション加重値によって前記現在レイヤの上位レイヤに伝達される前記現在レイヤの出力値のサイズが調整される、
    請求項10ないし13のいずれか一項に記載の音声認識方法。
  15. 請求項1ないし請求項14のいずれか一項に記載の方法を実行するための命令を格納するコンピュータで読み出し可能な格納媒体。
  16. ニューラルネットワーク基盤の音声認識モデルを用いた音声認識装置において、
    プロセッサと、
    前記プロセッサによって実行可能な1つ以上の命令を格納するメモリと、
    を含み、
    前記1つ以上の命令が前記プロセッサによって実行されると、前記プロセッサは、
    前記ニューラルネットワークの1つ以上のレイヤが以前時間で出力した出力値に基づいてアテンション加重値を決定し、前記決定されたアテンション加重値を現在時間の音声信号に適用し、かつ、前記音声認識モデルを用いて前記アテンション加重値が適用された音声信号を認識する、
    音声認識装置。
  17. 前記ニューラルネットワークは、前記アテンション加重値を決定するための1つ以上のレイヤを含む、
    請求項16に記載の音声認識装置。
  18. 前記アテンション加重値を決定するための1つ以上のレイヤには、前記ニューラルネットワークの1つ以上のレイヤが以前時間で出力した出力値、前記現在時間で前記音声認識モデルに入力される音声フレームの特徴値及びコンテキスト値のうち少なくとも1つが入力される、
    請求項17に記載の音声認識装置。
  19. ニューラルネットワーク基盤の音声認識モデルを用いた音声認識装置において、
    プロセッサと、
    前記プロセッサによって実行可能な1つ以上の命令を含むメモリと、
    を含み、
    前記1つ以上の命令が前記プロセッサによって実行されると、前記プロセッサは、
    前記音声認識モデルを用いて音声信号を認識するとき、前記ニューラルネットワークの1つ以上レイヤが以前時間で出力した出力値に基づいてアテンション加重値を決定し、前記決定されたアテンション加重値を前記ニューラルネットワークのレイヤが現在時間で出力した出力値に適用し、かつ、前記適用結果に基づいて前記音声信号の認識結果を推定する、
    音声認識装置。
  20. 前記ニューラルネットワークは、前記ニューラルネットワークの1つ以上のレイヤが以前時間で出力した出力値、前記現在時間で前記音声認識モデルに入力される音声フレームの特徴値及びコンテキスト値のうち少なくとも1つに基づいて前記アテンション加重値を決定する1つ以上のレイヤを含む、
    請求項19に記載の音声認識装置。
JP2017245280A 2017-01-04 2017-12-21 音声認識方法及び音声認識装置 Active JP7093626B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2017-0001173 2017-01-04
KR1020170001173A KR20180080446A (ko) 2017-01-04 2017-01-04 음성 인식 방법 및 음성 인식 장치

Publications (2)

Publication Number Publication Date
JP2018109760A true JP2018109760A (ja) 2018-07-12
JP7093626B2 JP7093626B2 (ja) 2022-06-30

Family

ID=60781901

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017245280A Active JP7093626B2 (ja) 2017-01-04 2017-12-21 音声認識方法及び音声認識装置

Country Status (5)

Country Link
US (1) US10679612B2 (ja)
EP (1) EP3346462B1 (ja)
JP (1) JP7093626B2 (ja)
KR (1) KR20180080446A (ja)
CN (1) CN108269569B (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110299149A (zh) * 2019-06-18 2019-10-01 电子科技大学 一种基于注意力机制的语音增强算法
WO2020162238A1 (ja) * 2019-02-07 2020-08-13 日本電信電話株式会社 音声認識装置、音声認識方法、プログラム
JP2021018413A (ja) * 2019-07-17 2021-02-15 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド ストリーミングアテンションモデルに基づく音声認識復号化方法、装置、機器及びコンピュータ可読記憶媒体
JP2021032909A (ja) * 2019-08-13 2021-03-01 日本電信電話株式会社 予測装置、予測方法及び予測プログラム
JP2022010410A (ja) * 2019-02-07 2022-01-14 日本電信電話株式会社 音声認識装置、音声認識学習装置、音声認識方法、音声認識学習方法、プログラム
JP2022530284A (ja) * 2019-06-19 2022-06-28 グーグル エルエルシー 音声認識のためのコンテキストバイアス

Families Citing this family (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6736786B2 (ja) * 2017-03-29 2020-08-05 グーグル エルエルシー エンドツーエンドのテキスト音声変換
CN107103903B (zh) * 2017-05-05 2020-05-29 百度在线网络技术(北京)有限公司 基于人工智能的声学模型训练方法、装置及存储介质
CN107240395B (zh) * 2017-06-16 2020-04-28 百度在线网络技术(北京)有限公司 一种声学模型训练方法和装置、计算机设备、存储介质
CN107679618B (zh) * 2017-07-28 2021-06-11 赛灵思电子科技(北京)有限公司 一种静态策略定点化训练方法及装置
US10706840B2 (en) 2017-08-18 2020-07-07 Google Llc Encoder-decoder models for sequence to sequence mapping
US10311861B1 (en) * 2018-01-15 2019-06-04 Gyrfalcon Technology Inc. System and method for encoding data in a voice recognition integrated circuit solution
CA3020884A1 (en) * 2018-01-24 2019-07-24 Wai Kit Ricky Fok Parallel residual neural network architechture and system and method for trainning a residual neural network
WO2019176986A1 (ja) * 2018-03-15 2019-09-19 日本電気株式会社 信号処理システム、信号処理装置、信号処理方法、および記録媒体
US10937438B2 (en) * 2018-03-29 2021-03-02 Ford Global Technologies, Llc Neural network generative modeling to transform speech utterances and augment training data
CN110209807A (zh) * 2018-07-03 2019-09-06 腾讯科技(深圳)有限公司 一种事件识别的方法、模型训练的方法、设备及存储介质
US10720151B2 (en) 2018-07-27 2020-07-21 Deepgram, Inc. End-to-end neural networks for speech recognition and classification
CN109256135B (zh) * 2018-08-28 2021-05-18 桂林电子科技大学 一种端到端说话人确认方法、装置及存储介质
CN110931028B (zh) * 2018-09-19 2024-04-26 北京搜狗科技发展有限公司 一种语音处理方法、装置和电子设备
CN109147774B (zh) * 2018-09-19 2021-07-20 华南理工大学 一种改进的延时神经网络声学模型
CN110931000B (zh) * 2018-09-20 2022-08-02 杭州海康威视数字技术股份有限公司 语音识别的方法和装置
KR102651413B1 (ko) * 2018-10-17 2024-03-27 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
CN111091817B (zh) * 2018-10-24 2022-10-11 中国科学院声学研究所 一种基于窗口输入的双向回馈神经网络的语音识别方法
CN109472024B (zh) * 2018-10-25 2022-10-11 安徽工业大学 一种基于双向循环注意力神经网络的文本分类方法
KR20200059703A (ko) * 2018-11-21 2020-05-29 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
CN109448707A (zh) * 2018-12-18 2019-03-08 北京嘉楠捷思信息技术有限公司 一种语音识别方法及装置、设备、介质
US10803875B2 (en) * 2019-02-08 2020-10-13 Nec Corporation Speaker recognition system and method of using the same
CN111640424B (zh) * 2019-03-01 2024-02-13 北京搜狗科技发展有限公司 一种语音识别方法、装置和电子设备
KR102163862B1 (ko) * 2019-03-25 2020-10-12 한국과학기술원 멀티스케일 음성 감정 인식을 위한 전자 장치 및 그의 동작 방법
KR20200119377A (ko) * 2019-03-25 2020-10-20 삼성전자주식회사 화자 식별 뉴럴 네트워크를 구현하는 방법 및 장치
CN110135427B (zh) * 2019-04-11 2021-07-27 北京百度网讯科技有限公司 用于识别图像中的字符的方法、装置、设备和介质
US11170789B2 (en) * 2019-04-16 2021-11-09 Microsoft Technology Licensing, Llc Attentive adversarial domain-invariant training
CN113330511B (zh) * 2019-04-17 2022-04-22 深圳市欢太科技有限公司 语音识别方法、装置、存储介质及电子设备
CN110085249B (zh) * 2019-05-09 2021-03-16 南京工程学院 基于注意力门控的循环神经网络的单通道语音增强方法
WO2020232180A1 (en) * 2019-05-14 2020-11-19 Dolby Laboratories Licensing Corporation Method and apparatus for speech source separation based on a convolutional neural network
KR20210010133A (ko) * 2019-07-19 2021-01-27 삼성전자주식회사 음성 인식 방법, 음성 인식을 위한 학습 방법 및 그 장치들
CN110556114B (zh) * 2019-07-26 2022-06-17 国家计算机网络与信息安全管理中心 基于注意力机制的通话人识别方法及装置
KR20210014949A (ko) * 2019-07-31 2021-02-10 삼성전자주식회사 음성 인식을 위한 인공신경망에서의 디코딩 방법 및 장치
CN110706690A (zh) * 2019-09-16 2020-01-17 平安科技(深圳)有限公司 语音识别方法及其装置
KR102577589B1 (ko) * 2019-10-22 2023-09-12 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
KR102351021B1 (ko) * 2019-11-15 2022-01-14 주식회사 셀바스에이아이 음성 트레이닝 데이터 선별 방법 및 이를 이용하는 장치
CN111128117B (zh) * 2019-12-30 2022-03-29 思必驰科技股份有限公司 声码器模型、语音合成方法及装置
JP2021117800A (ja) * 2020-01-28 2021-08-10 株式会社東芝 信号処理装置、信号処理方法およびプログラム
CN111312288A (zh) * 2020-02-20 2020-06-19 阿基米德(上海)传媒有限公司 一种广播音频事件处理方法、系统和计算机可读存储介质
CN111383628B (zh) * 2020-03-09 2023-08-25 第四范式(北京)技术有限公司 一种声学模型的训练方法、装置、电子设备及存储介质
CN111554305B (zh) * 2020-04-26 2023-06-09 兰州理工大学 一种基于语谱图和注意力机制的声纹识别方法
CN111582382B (zh) * 2020-05-09 2023-10-31 Oppo广东移动通信有限公司 状态识别方法、装置以及电子设备
US11678120B2 (en) * 2020-05-14 2023-06-13 Nvidia Corporation Audio noise determination using one or more neural networks
WO2022015043A1 (ko) * 2020-07-14 2022-01-20 고려대학교 산학협력단 신경질환 양방향 모니터링 시스템
CN112133288A (zh) * 2020-09-22 2020-12-25 中用科技有限公司 一种语音转文字的处理方法、系统及设备
WO2022086274A1 (ko) * 2020-10-22 2022-04-28 삼성전자 주식회사 전자 장치 및 이의 제어 방법
CN112581979B (zh) * 2020-12-10 2022-07-12 重庆邮电大学 一种基于语谱图的语音情绪识别方法
US20220319494A1 (en) * 2021-03-31 2022-10-06 International Business Machines Corporation End to end spoken language understanding model
KR20230009110A (ko) * 2021-07-08 2023-01-17 삼성전자주식회사 전자 장치 및 전자 장치의 화자 인증 방법
CN113782051B (zh) * 2021-07-28 2024-03-19 北京中科模识科技有限公司 广播效果分类方法及系统、电子设备和存储介质
CN114596879B (zh) * 2022-03-25 2022-12-30 北京远鉴信息技术有限公司 一种虚假语音的检测方法、装置、电子设备及存储介质
WO2024036213A1 (en) * 2022-08-09 2024-02-15 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods for decoding speech from neural activity
KR20240058549A (ko) * 2022-10-26 2024-05-03 삼성전자주식회사 오디오 데이터로부터 오디오 객체를 분리하기 위한 전자 장치 및 그 제어 방법
CN115602152B (zh) * 2022-12-14 2023-02-28 成都启英泰伦科技有限公司 一种基于多阶段注意力网络的语音增强方法
CN115631746B (zh) * 2022-12-20 2023-04-07 深圳元象信息科技有限公司 热词识别方法、装置、计算机设备及存储介质
CN116782093B (zh) * 2023-08-28 2023-11-07 深圳市奇创想科技有限公司 便携式音箱的音频调节方法、装置、电子设备及介质
CN117470976B (zh) * 2023-12-28 2024-03-26 烟台宇控软件有限公司 一种基于声纹特征的输电线路缺陷检测方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000298663A (ja) * 1992-03-30 2000-10-24 Seiko Epson Corp ニューラルネットワークを用いた認識装置およびその学習方法
JP2016218309A (ja) * 2015-05-22 2016-12-22 国立研究開発法人情報通信研究機構 音声認識装置及びコンピュータプログラム

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5991726A (en) * 1997-05-09 1999-11-23 Immarco; Peter Speech recognition devices
US20030233233A1 (en) 2002-06-13 2003-12-18 Industrial Technology Research Institute Speech recognition involving a neural network
US9672811B2 (en) * 2012-11-29 2017-06-06 Sony Interactive Entertainment Inc. Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection
US9263036B1 (en) 2012-11-29 2016-02-16 Google Inc. System and method for speech recognition using deep recurrent neural networks
JP6222821B2 (ja) 2013-10-10 2017-11-01 日本放送協会 誤り修正モデル学習装置、及びプログラム
US9881631B2 (en) 2014-10-21 2018-01-30 Mitsubishi Electric Research Laboratories, Inc. Method for enhancing audio signal using phase information
US9286888B1 (en) * 2014-11-13 2016-03-15 Hyundai Motor Company Speech recognition system and speech recognition method
US10832138B2 (en) 2014-11-27 2020-11-10 Samsung Electronics Co., Ltd. Method and apparatus for extending neural network
KR102380833B1 (ko) 2014-12-02 2022-03-31 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
CN104700828B (zh) * 2015-03-19 2018-01-12 清华大学 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法
CN104952448A (zh) 2015-05-04 2015-09-30 张爱英 一种双向长短时记忆递归神经网络的特征增强方法及系统
JP6628350B2 (ja) * 2015-05-11 2020-01-08 国立研究開発法人情報通信研究機構 リカレント型ニューラルネットワークの学習方法及びそのためのコンピュータプログラム、並びに音声認識装置
US9818409B2 (en) * 2015-06-19 2017-11-14 Google Inc. Context-dependent modeling of phonemes
CN108475505B (zh) * 2015-11-12 2023-03-17 谷歌有限责任公司 使用部分条件从输入序列生成目标序列
US9792534B2 (en) * 2016-01-13 2017-10-17 Adobe Systems Incorporated Semantic natural language vector space
US10249305B2 (en) * 2016-05-19 2019-04-02 Microsoft Technology Licensing, Llc Permutation invariant training for talker-independent multi-talker speech separation
US10366163B2 (en) * 2016-09-07 2019-07-30 Microsoft Technology Licensing, Llc Knowledge-guided structural attention processing
US11086918B2 (en) * 2016-12-07 2021-08-10 Mitsubishi Electric Research Laboratories, Inc. Method and system for multi-label classification
US10607463B2 (en) * 2016-12-09 2020-03-31 The Boeing Company Automated object and activity tracking in a live video feed
US20180330718A1 (en) * 2017-05-11 2018-11-15 Mitsubishi Electric Research Laboratories, Inc. System and Method for End-to-End speech recognition
US10354656B2 (en) * 2017-06-23 2019-07-16 Microsoft Technology Licensing, Llc Speaker recognition

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000298663A (ja) * 1992-03-30 2000-10-24 Seiko Epson Corp ニューラルネットワークを用いた認識装置およびその学習方法
JP2016218309A (ja) * 2015-05-22 2016-12-22 国立研究開発法人情報通信研究機構 音声認識装置及びコンピュータプログラム

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7028203B2 (ja) 2019-02-07 2022-03-02 日本電信電話株式会社 音声認識装置、音声認識方法、プログラム
WO2020162238A1 (ja) * 2019-02-07 2020-08-13 日本電信電話株式会社 音声認識装置、音声認識方法、プログラム
JP2020129015A (ja) * 2019-02-07 2020-08-27 日本電信電話株式会社 音声認識装置、音声認識方法、プログラム
JP7160170B2 (ja) 2019-02-07 2022-10-25 日本電信電話株式会社 音声認識装置、音声認識学習装置、音声認識方法、音声認識学習方法、プログラム
JP2022010410A (ja) * 2019-02-07 2022-01-14 日本電信電話株式会社 音声認識装置、音声認識学習装置、音声認識方法、音声認識学習方法、プログラム
CN110299149A (zh) * 2019-06-18 2019-10-01 电子科技大学 一种基于注意力机制的语音增强算法
JP2022530284A (ja) * 2019-06-19 2022-06-28 グーグル エルエルシー 音声認識のためのコンテキストバイアス
JP7200405B2 (ja) 2019-06-19 2023-01-06 グーグル エルエルシー 音声認識のためのコンテキストバイアス
US11664021B2 (en) 2019-06-19 2023-05-30 Google Llc Contextual biasing for speech recognition
JP7051919B2 (ja) 2019-07-17 2022-04-11 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド ストリーミングアテンションモデルに基づく音声認識復号化方法、装置、機器及びコンピュータ可読記憶媒体
US11355113B2 (en) 2019-07-17 2022-06-07 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus, device and computer readable storage medium for recognizing and decoding voice based on streaming attention model
JP2021018413A (ja) * 2019-07-17 2021-02-15 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド ストリーミングアテンションモデルに基づく音声認識復号化方法、装置、機器及びコンピュータ可読記憶媒体
JP2021032909A (ja) * 2019-08-13 2021-03-01 日本電信電話株式会社 予測装置、予測方法及び予測プログラム
JP7306626B2 (ja) 2019-08-13 2023-07-11 日本電信電話株式会社 予測装置、予測方法及び予測プログラム

Also Published As

Publication number Publication date
EP3346462A1 (en) 2018-07-11
CN108269569A (zh) 2018-07-10
US20180190268A1 (en) 2018-07-05
JP7093626B2 (ja) 2022-06-30
KR20180080446A (ko) 2018-07-12
US10679612B2 (en) 2020-06-09
CN108269569B (zh) 2023-10-27
EP3346462B1 (en) 2022-06-08

Similar Documents

Publication Publication Date Title
JP7093626B2 (ja) 音声認識方法及び音声認識装置
Saito et al. Statistical parametric speech synthesis incorporating generative adversarial networks
CN110444214B (zh) 语音信号处理模型训练方法、装置、电子设备及存储介质
US20220159403A1 (en) System and method for assisting selective hearing
Zhang et al. Deep learning based binaural speech separation in reverberant environments
JP6993353B2 (ja) ニューラルネットワークベースの声紋情報抽出方法及び装置
US10607597B2 (en) Speech signal recognition system and method
US9020822B2 (en) Emotion recognition using auditory attention cues extracted from users voice
JP7170405B2 (ja) ニューラルネットワークを用いた認識方法及び装置並びにトレーニング方法
Hummersone et al. On the ideal ratio mask as the goal of computational auditory scene analysis
JP2019197203A (ja) 音声認識モデルを個人化する方法及び装置
Kang et al. DNN-based monaural speech enhancement with temporal and spectral variations equalization
US11602287B2 (en) Automatically aiding individuals with developing auditory attention abilities
JP2020086436A (ja) 人工神経網における復号化方法、音声認識装置及び音声認識システム
KR101984283B1 (ko) 기계학습모델을 이용한 자동화된 피평가자분석 시스템, 방법, 및 컴퓨터 판독가능매체
Keshavarzi et al. Use of a deep recurrent neural network to reduce wind noise: Effects on judged speech intelligibility and sound quality
Haridas et al. A novel approach to improve the speech intelligibility using fractional delta-amplitude modulation spectrogram
Saleem et al. Multi-objective long-short term memory recurrent neural networks for speech enhancement
Nielsen et al. Model-based noise PSD estimation from speech in non-stationary noise
Tobing et al. Deep acoustic-to-articulatory inversion mapping with latent trajectory modeling
Darekar et al. A hybrid meta-heuristic ensemble based classification technique speech emotion recognition
González-Salazar et al. Enhancing speech recorded from a wearable sensor using a collection of autoencoders
Chen et al. Voice conversion using generative trained deep neural networks with multiple frame spectral envelopes.
KR20230078376A (ko) 인공지능 모델을 이용하여 오디오 신호를 처리하는 방법 및 장치
Tachioka Knowledge distillation using soft and hard labels and annealing for acoustic model training

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201006

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211028

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211102

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220531

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220620

R150 Certificate of patent or registration of utility model

Ref document number: 7093626

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150