JP2020173441A - 音声認識方法及び装置 - Google Patents

音声認識方法及び装置 Download PDF

Info

Publication number
JP2020173441A
JP2020173441A JP2020067912A JP2020067912A JP2020173441A JP 2020173441 A JP2020173441 A JP 2020173441A JP 2020067912 A JP2020067912 A JP 2020067912A JP 2020067912 A JP2020067912 A JP 2020067912A JP 2020173441 A JP2020173441 A JP 2020173441A
Authority
JP
Japan
Prior art keywords
special
voice
sequence
input
token
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020067912A
Other languages
English (en)
Other versions
JP7291099B2 (ja
Inventor
敏重 李
Min-Joong Lee
敏重 李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020190141750A external-priority patent/KR20200117826A/ko
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2020173441A publication Critical patent/JP2020173441A/ja
Application granted granted Critical
Publication of JP7291099B2 publication Critical patent/JP7291099B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Abstract

【課題】エンドツーエンド(End−to−End)人工神経網音声認識システムでノイズのアウトプット抑制及び主話者の音声集中認識方法の技術を提供する。【解決手段】音声認識方法は、話者の入力音声に対応する入力シーケンスの前端に予め決められた特殊シーケンスを付加するステップと、特殊シーケンス及び入力シーケンスを認識するステップと、特殊シーケンス及び音声認識の結果に基づいて、入力シーケンスを認識するステップを含む。【選択図】図7

Description

以下の実施形態は、音声認識方法及び装置に関する。より詳しく、エンドツーエンド(End−to−End)人工神経網音声認識システムでノイズのアウトプット抑制及び主話者の音声集中認識方法の技術に関する。
音声認識(speech recognition)技術とは、人が発話した音声のような音響学的信号(acoustic speech signal)をコンピューティング装置の分析を介して認識又は理解する技術を意味する。従来では、音声データから抽出された周波数特徴などを用いて音声を認識する方式が主に利用されており、ここで、隠れマルコフモデル(Hidden Markov Model;HMM)が主に利用されている。このようなHMM基盤の音声認識方式は音声データから発音を分析し、分析された発音に基づいて単語や文章を組み合わせる過程を介して音声を認識することになる。
ディープラーニング(deep learning)基盤の機械学習(machine learning)技術が成熟するにつれ、人工神経網(artificial neural network)で構成された音響モデルを用いて音声データから発音を分析する過程を介することなく、音声データから単語や文章などのテキストを直接認識するエンドツーエンド(End−to−End)音声認識技術に対する研究が盛んに行われている。
しかし、エンドツーエンド人工神経網音声認識システムは、音素単位でリアルタイム復号化を行うため、ユーザが発話していないホワイトノイズの区間においても強制的な音声認識により、予期しないテキストが出力される問題がある。
本発明の目的は、エンドツーエンド(End−to−End)人工神経網音声認識システムでノイズのアウトプット抑制及び主話者の音声集中認識方法の技術を提供することにある。
一実施形態に係る音声認識方法は、話者の入力音声に対応する入力シーケンスの前端に予め決められた特殊シーケンスを付加するステップと、人工神経網を用いて前記特殊シーケンス及び前記入力シーケンスを認識するステップと、前記特殊シーケンス及び前記認識結果に基づいて、前記入力シーケンスを認識するステップとを含む。
前記入力シーケンスは、前記入力音声又は前記入力音声から抽出されたベクトルを含み得る。
前記特殊シーケンスは、前記話者の予め決められた音声又は前記予め決められた音声から抽出された少なくとも1つのベクトルを含み得る。
前記特殊シーケンスは、任意の話者の予め決められた音声であり得る。
前記特殊シーケンスは「hi」という音声であり得る。
前記特殊シーケンス及び前記入力シーケンスを認識するステップは、前記特殊シーケンス及び前記入力シーケンスを符号化し、符号化された特徴を生成するステップと、前記符号化された特徴に基づいて前記特殊シーケンスに対応する1つ以上の特殊トークンを出力するステップと、前記符号化された特徴及び前記特殊トークンに基づいて、前記入力シーケンスに対応する1つ以上の出力トークンを決定するステップとを含み得る。
前記特殊トークンは、前記話者の予め決められた音声に対応するテキストを含み得る。
前記特殊シーケンス及び前記入力シーケンスを認識するステップは、前記特殊シーケンス及び前記入力シーケンスを符号化し、符号化された特徴を生成するステップと、前記符号化された特徴及び前記特殊シーケンスに対応する特殊トークンに基づいて、前記入力シーケンスに対応する1つ以上の出力トークンを決定するステップとを含み得る。
前記特殊シーケンス及び前記入力シーケンスを認識するステップは、前記特殊シーケンス及び前記入力シーケンスをエンコーダ−デコーダ構造のエンドツーエンド(End−to−End)人工神経網に入力し、前記特殊シーケンス及び前記入力シーケンスに対応する音声認識の結果を出力するステップを含み得る。
前記エンコーダ−デコーダ構造のエンドツーエンド人工神経網のデコーダは、ステップごとのエンコーダーから算出された情報に基づいて、以前のステップの音声認識の結果に従属して前記音声認識の結果を出力し得る。
前記人工神経網は、循環神経網(RNN:Recurrent Neural Network)、畳み込み神経網(CNN:Convolutional Neural Network)及び自己注意神経網(SANN:Self−Attention Neural Network)のうち少なくとも1つを含み得る。
前記入力シーケンスを認識するステップは、前記特殊シーケンス及び前記入力シーケンスに対応する音声認識の結果から、前記特殊シーケンスに対応する音声認識の結果を除くステップを含み得る。
前記特殊シーケンスは、前記話者の予め決められた音声のうち一部から抽出された少なくとも1つの特徴ベクトルを含み、前記特殊シーケンス及び前記入力シーケンスを認識するステップは、前記特殊シーケンス及び前記入力シーケンスをエンコーダ−デコーダ構造のエンドツーエンド人工神経網のエンコーダに入力して符号化された特徴を生成するステップと、前記符号化された特徴に基づいて前記特徴ベクトルに対応する特殊トークンを出力するステップとを含み、前記人工神経網は、前記特徴ベクトルが入力されれば、前記特殊トークンを出力するように学習され得る。
一実施形態に係る音声認識方法は、前記入力シーケンスにノイズだけが含まれている場合、前記特殊シーケンス以後の前記入力シーケンスをEOSトークンとして認識するステップをさらに含み得る。
一実施形態に係るコンピュータプログラムは、ハードウェアと結合して上述した方法のいずれか1つに記載の方法を実行させるために媒体に格納される。
一実施形態に係る音声認識装置は、話者の入力音声に対応する入力シーケンスの前端に予め決められた特殊シーケンスを付加し、人工神経網を用いて前記特殊シーケンス及び前記入力シーケンスを認識し、前記特殊シーケンス及び前記認識結果に基づいて、前記入力シーケンスを認識するプロセッサを含む。
前記入力シーケンスは、前記入力音声、又は前記入力音声から抽出されたベクトルを含み得る。
前記特殊シーケンスは、前記話者の予め決められた音声、又は、前記予め決められた音声から抽出された少なくとも1つのベクトルを含み得る。
前記プロセッサは、前記特殊シーケンス及び前記入力シーケンスを符号化し、符号化された特徴を生成し、前記符号化された特徴に基づいて前記特殊シーケンスに対応する特殊トークンを出力し、前記符号化された特徴及び前記特殊トークンに基づいて前記入力シーケンスに対応する1つ以上の出力トークンを決定し得る。
前記特殊トークンは、前記話者の予め決められた音声に対応するテキストを含み得る。
前記プロセッサは、前記特殊シーケンス及び前記入力シーケンスを符号化し、符号化された特徴を生成し、前記符号化された特徴及び前記特殊シーケンスに対応する特殊トークンに基づいて、前記入力シーケンスに対応する1つ以上の出力トークンを決定し得る。
前記プロセッサは、前記特殊シーケンス及び前記入力シーケンスをエンコーダ−デコーダ構造のエンドツーエンド人工神経網に入力し、前記特殊シーケンス及び前記入力シーケンスに対応する音声認識の結果を出力し得る。
前記エンコーダ−デコーダ構造のエンドツーエンド人工神経網のデコーダは、ステップごとのエンコーダーから算出された情報に基づいて、以前のステップの音声認識の結果に従属して前記音声認識の結果を出力し得る。
前記人工神経網は、循環神経網、畳み込み神経網、及び自己注意神経網のうち少なくとも1つを含み得る。
前記プロセッサは、前記特殊シーケンス及び前記入力シーケンスに対応する音声認識の結果から、前記特殊シーケンスに対応する音声認識の結果を除くことがある。
前記特殊シーケンスは、前記話者の予め決められた音声のうち一部から抽出された少なくとも1つの特徴ベクトルを含み、前記プロセッサは、前記特殊シーケンス及び前記入力シーケンスをエンコーダ−デコーダ構造のエンドツーエンド人工神経網のエンコーダに入力して符号化された特徴を生成し、前記符号化された特徴に基づいて前記特徴ベクトルに対応する特殊トークンを出力し、前記人工神経網は、前記特徴ベクトルが入力されれば、前記特殊トークンを出力するように学習され得る。
前記プロセッサは、前記入力シーケンスにノイズだけが含まれている場合、前記特殊シーケンス以後の前記入力シーケンスをEOSトークンとして認識し得る。
一実施形態に係るプロセッサで実現される音声認識方法は、入力音声及び前記入力音声の前端に付加された特殊音声を含む音声から特徴ベクトルを抽出するステップと、前記特徴ベクトルを符号化し、符号化された特徴を生成するステップと、前記符号化された特徴及び所定の認識結果に基づいて出力トークンを決定するステップとを含む。
一実施形態に係るプロセッサで実現される音声認識方法は、前記特殊音声に対応する特殊トークンを前記出力トークンとして出力するステップをさらに含み得る。
一実施形態に係るプロセッサで実現される音声認識方法は、前記特殊トークンを出力するために入力トークン及び前記符号化された特徴を復号化するステップをさらに含み得る。
一実施形態に係るプロセッサで実現される音声認識方法は、前記特殊音声を含む認識結果から前記特殊トークンを除去するステップと、前記入力音声に対応する現在の認識結果を出力するステップとをさらに含み得る。
一実施形態に係るプロセッサで実現される音声認識方法は、前記特殊トークンに基づいて次の出力トークンの候補の確率を予測するステップと、前記確率に基づいて次の出力トークンを決定するステップと、前記次の出力トークンを次の入力トークンとして決定するステップとをさらに含み得る。
前記特徴ベクトルを符号化し、符号化された特徴を生成するステップは、前記特徴ベクトルの次元を変換して前記符号化された特徴を生成するステップを含み得る。
本発明によると、エンドツーエンド(End−to−End)人工神経網音声認識システムでノイズのアウトプット抑制及び主話者の音声集中認識方法の技術を提供することができる。
一実施形態に係る音声認識システムの構成図である。 一実施形態に係る発話のない区間でノイズ出力を防止する方法を説明するための図である。 一実施形態に係る発話のない区間でノイズ出力を防止する方法を説明するための図である。 一実施形態に係る音声認識装置のブロック図である。 一実施形態の他の側面に係る音声認識装置のブロック図である。 他の実施形態に係る音声認識装置のブロック図である。 一実施形態に係るエンコーダ−デコーダ構造のエンドツーエンド人工神経網を有する音声認識装置の動作を説明するための図である。 一実施形態に係る音声認識装置の主話者集中方法を説明するための図である。 一実施形態に係る音声認識装置のノイズ除去方法を説明するための図である。 一実施形態に係る音声認識方法を説明するためのフローチャートである。 更なる実施形態に係る音声認識装置のハードウェア構成図である。
実施形態に対する特定な構造的又は機能的な説明は単なる例示のための目的として開示されたものとして、様々な形態に変更される。したがって、実施形態は特定の開示形態に限定されるものではなく、本明細書の範囲は技術的な思想に含まれる変更、均等物ないし代替物を含む。
第1又は第2などの用語を複数の構成要素を説明するために用いることがあるが、このような用語は1つの構成要素を他の構成要素から区別する目的としてのみ解釈しなければならない。例えば、第1構成要素を第2構成要素と命名することができ、同様に第2構成要素を第1構成要素にも命名することができる。
いずれかの構成要素が他の構成要素に「連結」されているか「接続」されていると言及されたときには、その他の構成要素に直接的に連結されているか、又は接続されているが、中間に他の構成要素が存在し得るものと理解されなければならない。
単数の表現は、文脈上、明白に異なる意味をもたない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品又はこれらを組み合わせたものが存在することを示すものであって、1つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。
また、異なるように定義されない限り、技術的であるか又は科学的な用語を含むここで用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈すべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。
以下、実施形態を添付の図面を参照して詳細に説明する。各図面に提示される同一の参照符号は同一の部材を示す。
図1は、一実施形態に係る音声認識システムの構成図である。
図1を参照すると、音声認識システムは、ユーザ端末110及び音声認識装置120を含む。図1に示された音声認識システムのそれぞれの構成要素は、機能的に区分される機能要素を示すものであり、少なくとも1つの構成要素が実際の物理的な環境では互いに統合される形態で実現されてもよい。例えば、図1には音声認識装置120が一種のサーバ装置であると示しているが、実施形態により音声認識装置120の各機能は、ユーザ端末110に内蔵されている形態で実現されてもよい。
音声認識システムにおいて、ユーザ端末110は、ユーザから音声シーケンス(例えば、入力シーケンス)130が入力されて入力シーケンス130を音声認識装置120に伝達し、音声認識装置120によって認識された認識結果140をユーザに提供する端末である。図1において、ユーザ端末110は、スマートフォンとして示しているが、いかなる装置で具現されても構わない。
音声認識システムにおいて、音声認識装置120は、話者の入力シーケンス130が入力され、認識結果140を提供するコンピューティング装置である。入力シーケンス130は、入力音声と入力音声から抽出された入力音声特徴ベクトルとを含む。入力音声は、話者の入力音声信号をウェーブ(wave)形態で示したウェーブファイルを周波数の形態で示したスペクトログラム(spectrogram)、MFCC(Mel−Frequency Cepstral Coefficient)などを全て含む包括的な意味である。また、コンピューティング装置は、ノート型パソコン、デスクトップ(desktop)、ラップトップ(laptop)、スマートフォン(smart phone)などであるが、これに限定されることなく、演算手段を備えている全ての種類の装置を含むことができる。
音声認識装置120は、エンドツーエンド音声認識を提供する。従来では、音声認識のために隠れマルコフモデル(HMM:Hidden Markov Model)を主に使用していた。このようなHMM基盤の音声認識方式は、音声データから発音を分析し、分析された発音に基づいて単語や文章を組み合わせる過程を経由する。発音は、発話者、言語の種類などに応じて変わり得るため、発音を分析して音声を認識することは、多くの施行錯誤を通じた矯正作業が伴う。また、HMM基盤の音声認識方式は、発音に基づいて音声を認識する点で、周辺の雑音に脆弱な問題がある。
エンドツーエンド人工神経網音声認識システムにおいて、既存の音声認識の実現のために必要な信号処理、発音変換、言語モデル、復号化ステップに専門的な知識が介入することを最小化にしながら、この部分のモデリングを神経網が学習させることで、より優れた性能を表す。
エンドツーエンド音声認識を提供するために、音声認識装置120は、人工神経網から構成された音響モデルを構築し、構築された音響モデルを用いて入力シーケンス130に対する認識結果140を提供する。人工神経網は、例えば、循環神経網(RNN;Recurrent Neural Network)、畳み込み神経網(CNN;Convolutional Neural Network)、自己注意神経網(SANN;Self−Attention Neural Network)、BRNN(Bi−directional RNN)、LSTM(Long Short Term Memory)、BLSTM(Bi−directional LSTM)、GRU(Gated Recurrent Unit)、BGRU(Bi−directional GRU)などであるが、これに限定されるものではない。
また、音声認識装置120は、話者の入力音声に対応する入力シーケンス130の前端に、話者に対応して予め決められた特殊シーケンスを付加して音声認識を行うことができる。さらに、音声認識装置120は、決まっていない長さの出力を人工神経網に算出するために、一シーケンスを構成している単位であるトークン(token)ごとに人工神経網の以前の出力を入力し、次の出力を続けて出力していく自己回帰(auto−regressive)の復号化を行い、ノイズの出力を抑制して主話者の音声に集中することができる。これに対する詳しい説明は、次の図2〜図10を参照して詳細に説明される。まず、音声認識装置120の入力及び出力データの例について、図2A〜図2Bを参照して簡単に述べる。
図2A及び図2Bは、一実施形態に係る発話のない区間でノイズ出力を防止する方法を説明するための図である。
一実施形態に係る音声認識方法を説明する前に、図面210を参照して一般的なエンドツーエンド人工神経網音声認識方法を簡略に説明する。話者の入力シーケンスは、0.3s〜0.4sの間の一地点から話者の発話(例えば、「where are you」)を含む。0〜0.3sの区間は、話者の発話のない区間であって、音声認識装置は、当該の区間において音声がないことを出力しなければならないが、一般的なエンドツーエンド人工神経網音声認識システムは、音素単位でリアルタイム復号化を行うため、ユーザの発話がないノイズ区間でも強制的な音声認識を行い、これにより予期しないテキストを出力することがあり得る。
実際に発話がなくて雑音のみがある場合、一般的なエンドツーエンド人工神経網は音声がないことを出力できず、雑音の特性と最も類似の認識結果、例えば、0〜0.1s区間では「hi bixby」を、0〜0.2s区間では「hi galaxy」を、0〜0.3s区間では「turn on」を出力する。
上記の問題を解決するために、ノイズデータを学習する方法が求められているが、ノイズデータがさらに必要であり、全てのノイズを学習できないという限界があった。
図面220を参照すると、一実施形態に係る音声認識装置は、話者の入力シーケンスの前端に予め決められた特殊シーケンスを付加して音声認識を行うことができ、以前の出力トークンが次の出力トークンの決定に影響を及ぼす自己回帰(auto−regressive)の復号化の特性上、ノイズ出力を抑制して主話者の音声に集中することができる。音声認識装置は、話者の入力シーケンス、例えば「Where are you」の音声前端に、話者に対応して予め決められた特殊シーケンス、例えば「hi」に対応する話者の音声を付加する。特殊シーケンスは、話者が実際に発話する入力音声とは異なって、音声認識の際に入力音声の前端に強制に付加されるシーケンスで、音声認識装置が明らかに認識できる予め取得された話者の特殊音声又は予め取得された話者の特殊音声から抽出された特殊特徴ベクトルを含むことができる。例えば、音声認識方法は、登録ステップとテストステップとに区分され、特殊シーケンスは登録ステップで予め取得され、テストステップにおいて自動的に話者の入力音声の前端に付加される。
テストステップにおいて、音声認識装置は、特殊シーケンスが入力された認識結果「hi」を出力する。音声認識装置は、自己回帰の復号化に従っているため、特殊シーケンスに対する認識結果である「hi」が以後の出力に影響を与え、以後の出力は「hi」を発話した話者の音声に集中され得る。したがって、話者の音声特徴を有するトークンのみを出力することができる。復号化方法は、次の図4及び図5を参照して詳細に説明される。
話者の発話がない0〜0.3s区間において、音声がないことを出力できず、雑音の特性と最も類似の認識結果を出力した一般的なエンドツーエンド音声認識方法とは異なって、図面220を参照すると、一実施形態に係る音声認識装置は、特殊シーケンスに対する認識結果である「hi」が以後の出力に影響を与えるため、「hi」以後の入力シーケンス内のノイズ区間の出力を別に認識しなくてもよい。その後、音声認識装置は、認識結果である「hi where are you」から「hi」を除去し、最終的に「where are you」だけを出力する。このように、音声認識装置は、特殊シーケンスを用いて簡単にノイズ出力を抑制して主話者の音声に集中することができる。
以上、話者に対応する特殊シーケンスについて説明したが、特殊シーケンスが必ず話者の特殊音声である必要はない。例えば、特殊シーケンス「hi」に対応する音声を、話者のものではない平均的な「hi」音声又は任意の「hi」音声に代替することもできる。前述した主話者の音声集中の効果はやや減少するが、ノイズ区間の出力を別に認識しないという効果は、話者のものではない特殊シーケンスを用いても得ることができる。
図3Aは、一実施形態に係る音声認識装置のブロック図である。
図3を参照すると、一実施形態に係る音声認識装置は、人工神経網310、特徴ベクトル抽出モジュール320、及び特殊トークン除去モジュール330を含む。ただし、図3Aには実施形態に関連する構成要素のみが図示されているが、他の汎用的な構成要素をさらに含んでもよい。また、図3Aに示された音声認識装置それぞれの構成要素は、機能的及び論理的に分離し得ることを示すために、別途図示したものであり、物理的に必ず別途の構成要素や別途のコードに実現されることを意味するのではなく、実際の物理的な環境では互いに統合される形態に実現され得ることに留意しなければならない。以下、音声認識装置の各構成要素について説明する。
音声認識装置は、話者の入力音声を受信すると、話者の入力音声の前端に予め決められた特殊音声を付加する。特殊音声は、音声認識の際に入力音声の前端に強制的に付加される音声として、音声認識装置が明らかに認識できる予め取得された話者の音声であってもよく、登録ステップで予め取得されてもよい。これとは異なって、予め決められた特殊音声は、話者の特殊音声ではなくても構わない。
特徴ベクトル抽出モジュール320は、話者から受信した入力音声から入力特徴ベクトルを抽出し、特殊音声から特殊特徴ベクトルを抽出する。音声は、複数のフレームごとに情報を含んでいる音声信号であり、特徴ベクトルは、少なくとも1つのフレーム単位から抽出された情報のシーケンスであってもよく、多次元のベクトルのように表現される。
人工神経網310は、特徴ベクトル抽出モジュール320から入力特徴ベクトルと特殊特徴ベクトルとが入力され、これに対応する認識結果を出力する。人工神経網310は、エンコーダ311とデコーダ312とを含むエンコーダ311−デコーダ312構造のエンドツーエンド人工神経網であってもよい。人工神経網は、例えば、循環神経網(RNN;Recurrent Neural Network)、畳み込み神経網(CNN;Convolutional Neural Network)、自己注意神経網(SANN;Self−Attention Neural Network)、BRNN(Bi−directional RNN)、LSTM(Long Short Term Memory)、BLSTM(Bi−directional LSTM)、GRU(Gated Recurrent Unit)、BGRU(Bi−directional GRU)などで実現されるが、これに限定されるものではない。人工神経網内のレイヤのノードは非線形的に相互影響を与える関係であってもよく、各ノードから出力される値、ノード間の関係など、人工神経網のパラメータは学習によって最適化され得る。
エンドツーエンドエンコーダ311−デコーダ312は、エンコーダ311及びデコーダ312が統合されたネットワーク構造として、入力特徴ベクトル及び特殊特徴ベクトルが入力され、認識結果のシーケンスを生成する。例えば、エンドツーエンド構造で具現されたエンコーダ311及びデコーダ312は、入力音声から入力音声に対応する認識結果を直接生成する。エンコーダ311及びデコーダ312は、入力された特徴ベクトルから認識結果のシーケンスを生成するように予め学習され得る。例えば、エンコーダ311及びデコーダ312は、入力音声に対応する正解テキスト対のシーケンスから認識結果のシーケンスを生成するように予め学習され得る。
エンコーダ311は、入力された特徴ベクトル(入力特徴ベクトル及び特殊特徴ベクトル)を符号化し、符号化された特徴を生成する。エンコーダ311は、特徴ベクトルから特徴を抽出し、符号化された情報を生成する。例えば、エンコーダ311は、特徴ベクトルの次元を切り替え、符号化された情報を生成する。
符号化された特徴はデコーダ312に印加される。デコーダ312は、符号化された特徴に基づいて認識結果を生成する。符号化された特徴を受信したデコーダ312は、トークン単位で認識結果を出力し、トークンは、単語、部分単語(subword)、単一字(character)、あるいは単一字をなしている単位(ハングルにおいては初声、中声、終声など)になる。
デコーダ312は、ステップごとのエンコーダー311から算出された情報に基づいて出力トークンを求めるが、ここで、以前のステップまで選択された入力トークンに従属して求めることができる。自己回帰復号化を行うエンドツーエンド人工神経網モデルで出力トークンとして選択されたトークンが、次の入力トークとして決定されてもよい。デコーダ312は、各ステップで次のトークンを出力するとき、以前に出力された出力トークンを用いることができる。例えば、「私はヒトです」という文章で「ヒトです」を認識するとき、「私は」という出力を用いることができる。このような特性を自己回帰すると言われる。
より具体的に、デコーダ312は、入力トークンである開始トークン及び符号化された特徴に基づいて、特殊音声に対応する1つ以上の特殊トークンを出力する。1つ以上の特殊トークンは、特殊音声に対応するテキストであってもよい。
特殊トークンを出力したデコーダ312は、特殊トークンに基づいて次の出力トークンの複数の候補の確率を予測する。ステップiにおいて、トークンtの条件付き確率は数式(1)のように表現される。
はエンコーダの隠れリプリゼンテーション(hidden representation)で符号化された特徴に当該する。tないしti−1は今まで選択された入力トークンであり、特に、tは特殊トークンである。数式(1)のように、デコーダ312は、特殊トークンに基づいて次の出力トークンを決定するため、以後の出力トークンは話者の音声にバイアスがかかり、その結果として、主話者の音声に集中することができる。ノイズ出力の抑制についても特殊トークンの影響を受け、この結果は、特殊トークンが話者の音声でなくても取得することができる。
特殊トークン除去モジュール330は、特殊音声を含む認識結果から特殊トークンを除去し、最終的に入力音声に対応する認識結果のみを出力することができる。
図3Bは、一実施形態の他の側面に係る音声認識装置のブロック図である。
図3Bを参照すると、一実施形態に係る音声認識装置は、人工神経網310、特徴ベクトル抽出モジュール321、及び特殊トークン除去モジュール330を含む。図3Aに基づいた説明は、図3Bにも適用可能であるため、重複する内容の説明は省略する。
音声認識装置は、話者の入力音声に特殊音声を付加する代わりに、入力特徴ベクトルに予め備えられた特殊特徴ベクトルを付加することができる。具体的に、特徴ベクトル抽出モジュール321は、話者から受信した入力音声から入力特徴ベクトルを抽出する。音声認識装置は、抽出された入力特徴ベクトルに予め備えられた特殊特徴ベクトルを付加する。特殊特徴ベクトルは、登録ステップで予め取得される。特殊特徴ベクトルは話者の音声特徴を含む。
人工神経網310は、特徴ベクトル抽出モジュール320から入力特徴ベクトルと特殊特徴ベクトルとが入力され、これに対応する認識結果を出力することができる。
図3Cは、他の実施形態に係る音声認識装置のブロック図である。
図3Cを参照すると、一実施形態に係る音声認識装置は、人工神経網315、入力特徴ベクトル抽出モジュール322、特殊特徴ベクトル抽出モジュール323、特殊トークン除去モジュール330、及び出力制御モジュール340を含む。
音声認識装置は、入力音声と特殊音声とに各々異なる特徴ベクトル抽出モジュールを使用する。例えば、入力特徴ベクトル抽出モジュール322は、入力音声から入力特徴ベクトルを抽出し、特殊特徴ベクトル抽出モジュール323は、特殊音声から特殊特徴ベクトルを抽出する。さらに、算出の効率性の増大のような理由により、特殊特徴ベクトル抽出モジュール323は、図3Aに示す特徴ベクトル抽出モジュール320とは異なる方式で特徴ベクトルを抽出することができる。例えば、特殊特徴ベクトル抽出モジュール323は、特殊音声の一部から特殊特徴ベクトルを抽出してもよい。
人工神経網315は、エンコーダ316及びデコーダ317を含むエンコーダ316−デコーダ317構造のエンドツーエンド人工神経網である。エンコーダ316は、入力された特徴ベクトル(入力特徴ベクトル及び特殊特徴ベクトル)を符号化し、符号化された特徴を生成してデコーダ317に印加し、デコーダ317は、符号化された特徴に基づいて認識結果を生成することができる。
より具体的に、人工神経網315は、特殊特徴ベクトルが入力されれば、特殊トークンを出力するよう学習される。図3A、図3Bを参照して説明した特殊トークンは、特殊音声に対応するテキストを意味する一方、デコーダ317が出力する特殊トークンは話者情報のみを含んでいるだけで、特殊音声に対応するテキストを出力することができない。例えば、図3Aに示す人工神経網310は、入力音声に対応する正解テキスト対のシーケンスから認識結果のシーケンスを生成するよう予め学習されているため、特殊音声に対応する特殊トークンを別に学習する必要がない。しかし、人工神経網315は、図3Aの人工神経網310で学習されていない形態の特殊特徴ベクトルが入力されるため、人工神経網315は、特殊特徴ベクトルが入力されれば、それに対応する特殊トークンを出力するよう学習されなければならない。以下、特殊特徴ベクトルとこれに対応する特殊トークンについて、図3A及び図3Bを参照して説明した特殊特徴ベクトル、特殊トークンに区分するため、各々ボイスID特徴ベクトル、ボイスIDトークンのように称する。
ボイスID特徴ベクトルが入力された人工神経網315は、ボイスIDトークンを出力する。出力制御モジュール340は、ボイスIDトークンが出力されれば、当該のトークンに話者情報に対するバイアスをかける。デコーダ317は、話者情報がバイアスされたボイスIDトークンに基づいて、次の出力トークンの候補の確率を予測する。デコーダ317は、ボイスIDトークンに基づいて次の出力トークンの候補の確率を予測するため、後続の出力トークンは、話者の音声によりバイアスされ、その結果として音声認識装置はノイズ出力を抑制し、主話者の音声に集中することができる。
特殊トークン除去モジュール330は、特殊音声を含む認識結果から特殊トークンを除去し、最終的に入力音声に対応する認識結果だけを出力することができる。
図4は、一実施形態に係るエンコーダ−デコーダ構造のエンドツーエンド人工神経網を有する音声認識装置の動作を説明するための図である。
図4を参照すると、一実施形態に係る人工神経網400は、エンコーダ410及びデコーダ420を含む。
人工神経網400は、エンコーダ410−デコーダ420構造のエンドツーエンド人工神経網であって、モデルの全ての媒介変数が1つの損失関数に対して同時に訓練される経路が可能であるため、エンコーダ410及びデコーダ420が同時に学習され得る。人工神経網400は、一方の端から入力され、他の端に出力を生成するが、入力及び出力を直接考慮してネットワーク加重値を最適化することができる。
音声認識装置は、音声411から特徴ベクトル412を抽出する。音声411は入力音声と特殊音声とを含み、特徴ベクトル412は入力音声ベクトルと特殊特徴ベクトルとを含む。以下、説明の便宜のために、特殊音声が「hi」である場合について実施形態を説明する。
エンコーダ410は特徴ベクトル412を符号化し、符号化された特徴413を生成する。エンコーダ410は、音声特徴413の次元を切り替え、符号化された情報を生成する。符号化された特徴413は、人工神経網のデコーダ420に印加される。デコーダ420は、トークン単位で、符号化された特徴413と以前に決定された認識結果とに基づいて出力トークンを決定することができる。
より具体的に、人工神経網400のデコーダ420は、入力トークンである開始トークン及び符号化された特徴413を復号化して特殊音声に対応する1つ以上の特殊トークン「hi」を出力する。「hi」を出力したデコーダ420は、特殊トークン「hi」に基づいて、次の出力トークンの候補の確率を予測することができ、確率の最も高い候補トークンを次の出力トークンとして決定する。例えば、「hi」を出力トークンとして決めたデコーダ420は、「hi」を次の入力トークンとして決定する。
人工神経網450のデコーダ421は、デコーダ420とは相違して、開始トークン及び符号化された特徴413を復号化して特殊音声に対応する1つ以上の特殊トークン「hi」を出力するステップを省略する。デコーダ421は、復号化を介して特殊トークンを別に出力せず、特殊トークンを予め備えて次の入力トークンに入力することができる。一実施形態に係る音声認識装置は、特殊トークンを後続の入力トークンとして使用することが目的であるため、デコーダ421と共に予め備えられた特殊トークンを次の入力トークンとして直接入力してもデコーダ420と同一に出力しながら、算出の効率性を増大させることができる。図3Aに示す人工神経網310と図3Cに示す人工神経網350とは、人工神経網400のみならず、人工神経網450も含むことができる。
図5は、一実施形態に係る音声認識装置の主話者集中方法を説明するための図である。
図5を参照すると、一実施形態に係る音声認識装置は、主話者の入力音声だけでなく他の話者の入力音声も受信することがある。他の話者を主話者とは区別するために副話者と称し、副話者は1つ以上であってもよい。例えば、テレビ音が発生する環境で音声認識を行う場合、意図せずにもテレビ音が音声認識装置に入力されることがあり、この場合にテレビ音が副話者であり得る。以下で、説明の便宜のために主話者の入力音声は「where are you」であり、副話者の入力音声は「breaking news today prime mini..」である場合について実施形態を説明する。
図面510は、一般的な音声認識装置の認識結果を示すものであり、副話者の入力音声が主話者の入力音声より先に入力される場合、副話者の入力音声にバイアスがかかって副話者の入力音声に対応するテキスト「breaking news today prime mini..」が出力される。
図面520は、一実施形態に係る音声認識装置の認識結果を示すものであり、副話者の入力音声が主話者の入力音声よりも先に入力されるが、音声認識装置は、副話者の入力音声が入力される前に主話者に対応する特殊音声を付加して主話者の入力音声に対応するテキストを出力することができる。一実施形態に係る音声認識装置は、副話者の入力音声の前端に主話者に対応する特殊音声を付加しているため、特殊音声に対応する認識結果「hi」を出力し、その後「hi」に基づいて次の出力トークンの候補の確率を予測する。ここで、後続の出力トークンは、主話者の音声にバイアスがかかることになり、その結果として、音声認識装置は主話者の音声に集中することになり、主話者の入力音声に対応するテキスト「where are you」を出力することができる。
図6は、一実施形態に係る音声認識装置のノイズ除去方法を説明するための図である。
図6を参照すると、一実施形態に係る音声認識装置は、ノイズ音声611が含まれている入力音声610を受信する。音声認識装置は、入力特徴ベクトル630の前端に特殊特徴ベクトル620を付加する。入力特徴ベクトル630は、ノイズ音声611に対応する特徴ベクトルの部分631を含む。
音声認識装置は、特殊特徴ベクトル620に対応する特殊トークンを出力し、自己回帰の特性に応じて話者の音声に集中することになり、ノイズ音声611は無視され、ノイズ音声611に対応するテキストは出力されない。これは自己注意加重値640からも把握することができる。全体の自己注意加重値640でノイズ音声611に対応する特定の自己注意加重値641は0である。
図7は、一実施形態に係る音声認識方法を説明するためのフローチャートである。
図7を参照すると、ステップS710ないしS730は、図1〜図6を参照して前述した音声認識装置により実行される。音声認識装置は、1つ又はそれ以上のハードウェアモジュール、1つ又はそれ以上のソフトウェアモジュール、又は、これらの様々な組合せにより実現される。
ステップS710において、音声認識装置は、話者の入力音声に対応する入力シーケンスの前端に予め決められた特殊シーケンスを付加する。入力シーケンスは、入力音声又は入力音声から抽出されたベクトルを含んでもよく、特殊シーケンスは話者の予め決められた音声又は前記予め決められた音声から抽出された少なくとも1つのベクトルを含んでもよい。
ステップS720において、音声認識装置は、特殊シーケンス及び入力シーケンスを認識する。音声認識装置は、特殊シーケンス及び入力シーケンスを符号化し、符号化された特徴を生成し、符号化された特徴に基づいて特殊シーケンスに対応する1つ以上の特殊トークンを出力し、符号化された特徴、及び特殊トークンに基づいて入力シーケンスに対応する1つ以上の出力トークンを決定することができる。特殊トークンは、話者の予め決められた音声に対応するテキストを含む。
音声認識装置は、特殊シーケンス及び入力シーケンスを符号化し、符号化された特徴を生成し、符号化された特徴及び特殊シーケンスに対応する特殊トークンに基づいて、入力シーケンスに対応する1つ以上の出力トークンを決定する。
音声認識装置は、特殊シーケンス及び入力シーケンスをエンコーダ−デコーダ構造のエンドツーエンド人工神経網に入力し、特殊シーケンス及び入力シーケンスに対応する音声認識の結果を出力する。人工神経網は、ステップごとのエンコーダーから算出された情報に基づいて、以前のステップの音声認識の結果に従属して音声認識の結果を出力することができる。
ステップS730において、音声認識装置は、特殊シーケンス及び音声認識の結果に基づいて、入力シーケンスを認識する。音声認識装置は、特殊シーケンス及び入力シーケンスに対応する音声認識の結果から、特殊シーケンスに対応する音声認識の結果を除いて入力シーケンス認識結果を出力することができる。
図8は、更なる実施形態に係る音声認識装置のハードウェア構成図である。
図8を参照すると、音声認識装置は、1つ以上のプロセッサ810、バス840、ネットワークインターフェース850、プロセッサ810によって実行されるコンピュータプログラムをロード(load)するメモリ820、及び音声認識ソフトウェア830を格納するストレージ860を含む。
プロセッサ810は、音声認識装置の各構成の全般的な動作を制御する。プロセッサ810は、MCPU(Central Processing Unit)、MPU(Micro Processor Unit)、MCU(Micro Controller Unit)、GPU(Graphic Processing Unit)又は当技術分野に周知の任意の形態のプロセッサを含んで構成することができる。また、プロセッサ810は、実施形態に係る方法を実行するための少なくとも1つのアプリケーション又はプログラムに対する演算を行ってもよい。音声認識装置は1つ以上のプロセッサを備えてもよい。
メモリ820は、各種のデータ、命令及び/又は情報を格納する。メモリ820は、実施形態に係る音声認識方法を実行するためにストレージ860から音声認識ソフトウェア830をロードする。図8において、メモリ820の例示としてRAMが示されている。
バス840は、音声認識装置100の構成要素同士の間の通信機能を提供する。バス840は、アドレスバス(Address Bus)、データバス(Data Bus)及び制御バス(Control Bus)など様々な形態のバスに実現することができる。
ネットワークインターフェース850は、音声認識装置の有線/無線インターネット通信をサポートする。また、ネットワークインターフェース850は、インターネット通信以外の様々な通信方式をサポートしてもよい。そのために、ネットワークインターフェース850は、当技術分野に周知の通信モジュールを含んで構成することができる。
ストレージ860は、音声認識ソフトウェア830を非一時的に格納する。
ストレージ860は、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、フラッシュメモリなどのような不揮発性メモリ、ハードディスク、取り外し型ディスク、又は、当該の分野で周知の任意の形態のコンピュータで読み出し可能な記録媒体を含んで構成することができる。
音声認識ソフトウェア830は、実施形態に係る音声認識方法を行って人工神経網基盤の音響モデルを構築し、音響モデルを用いて認識対象音声データに対する最終テキストを出力する。
具体的に、音声認識ソフトウェア830はメモリ820にロードされ、1つ以上のプロセッサ810により、話者の入力音声に対応する入力シーケンスの前端に予め決められた特殊シーケンスを付加し、特殊シーケンス及び入力シーケンスを認識し、特殊シーケンス及び音声認識の結果に基づいて、入力シーケンスを認識する。また、プロセッサ810は、特殊シーケンス及び入力シーケンスを符号化し、符号化された特徴を生成し、符号化された特徴に基づいて特殊シーケンスに対応する特殊トークンを出力し、符号化された特徴及び特殊トークンに基づいて入力シーケンスに対応する1つ以上の出力トークンを決定することができる。また、プロセッサは、特殊シーケンス及び入力シーケンスを符号化し、符号化された特徴を生成し、符号化された特徴及び特殊シーケンスに対応する特殊トークンに基づいて入力シーケンスに対応する1つ以上の出力トークンを決定する。また、プロセッサは、特殊シーケンス及び入力シーケンスをエンコーダ−デコーダ構造のエンドツーエンド(End−to−End)人工神経網に入力し、特殊シーケンス及び入力シーケンスに対応する音声認識の結果を出力する。また、プロセッサは、特殊シーケンス及び入力シーケンスに対応する音声認識の結果から、特殊シーケンスに対応する音声認識の結果を除くことができる。また、プロセッサは、特殊シーケンス以後の入力シーケンス区間をEOSトークンとして認識する。一例として、入力シーケンスにノイズだけがある場合、特殊シーケンス以後の部分(例えば、図2に示す実施形態でノイズだけが含む0〜0.3s区間)をEOSトークンとして認識することができる。
以上述した実施形態は、ハードウェア構成要素、ソフトウェア構成要素、又はハードウェア構成要素及びソフトウェア構成要素の組み合せで具現される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ(digital signal processor)、マイクロコンピュータ、FPA(field programmable array)、PLU(programmable logic unit)、マイクロプロセッサー、又は命令(instruction)を実行して応答する異なる装置のように、1つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現される。処理装置は、オペレーティングシステム(OS)及びオペレーティングシステム上で実行される1つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理、及び生成する。理解の便宜のために、処理装置は1つが使用されるものとして説明する場合もあるが、当技術分野で通常の知識を有する者は、処理装置が複数の処理要素(processing element)及び/又は複数類型の処理要素を含むことを把握する。例えば、処理装置は、複数のプロセッサ又は1つのプロセッサ及び1つのコントローラを含む。また、並列プロセッサ(parallel processor)のような、他の処理構成も可能である。
ソフトウェアは、コンピュータプログラム、コード、命令、又はそのうちの一つ以上の組合せを含み、希望の通りに動作するよう処理装置を構成したり、独立的又は結合的に処理装置を命令することができる。ソフトウェア及び/又はデータは、処理装置によって解釈されたり処理装置に命令又はデータを提供するために、いずれかの類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、又は送信される信号波に永久的又は一時的に具体化することができる。ソフトウェアはネットワークに連結されたコンピュータシステム上に分散され、分散した方法で格納されたり実行され得る。ソフトウェア及びデータは一つ以上のコンピュータで読出し可能な記録媒体に格納され得る。
本実施形態による方法は、様々なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例として、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカルディスクのような磁気−光媒体、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。ハードウェア装置は、本発明に示す動作を実行するために1つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。
上述したように実施形態を限定された図面によって例として説明したが、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順で実行されるし、及び/又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組み合わせられてもよいし、他の構成要素又は均等物によって置き換え又は置換されたとしても適切な結果を達成することができる。
したがって、本発明の範囲は、開示された実施形態に限定されて定められるものではなく、特許請求の範囲及び特許請求の範囲と均等なものなどによって定められるものである。

Claims (22)

  1. 話者の入力音声に対応する入力シーケンスの前端に予め決められた特殊シーケンスを付加するステップと、
    人工神経網を用いて前記特殊シーケンス及び前記入力シーケンスを認識するステップと、
    前記特殊シーケンス及び前記認識結果に基づいて、前記入力シーケンスを認識するステップと、
    を含む音声認識方法。
  2. 前記入力シーケンスは、前記入力音声又は前記入力音声から抽出されたベクトルを含む、請求項1に記載の音声認識方法。
  3. 前記特殊シーケンスは、前記話者の予め決められた音声又は前記予め決められた音声から抽出された少なくとも1つのベクトルを含む、請求項1に記載の音声認識方法。
  4. 前記特殊シーケンスは、任意の話者の予め決められた音声である、請求項1に記載の音声認識方法。
  5. 前記特殊シーケンスは「hi」という音声である、請求項1に記載の音声認識方法。
  6. 前記特殊シーケンス及び前記入力シーケンスを認識するステップは、
    前記特殊シーケンス及び前記入力シーケンスを符号化し、符号化された特徴を生成するステップと、
    前記符号化された特徴に基づいて前記特殊シーケンスに対応する1つ以上の特殊トークンを出力するステップと、
    前記符号化された特徴及び前記特殊トークンに基づいて、前記入力シーケンスに対応する1つ以上の出力トークンを決定するステップと、
    を含む、請求項1に記載の音声認識方法。
  7. 前記特殊トークンは、前記話者の予め決められた音声に対応するテキストを含む、請求項6に記載の音声認識方法。
  8. 前記特殊シーケンス及び前記入力シーケンスを認識するステップは、
    前記特殊シーケンス及び前記入力シーケンスを符号化し、符号化された特徴を生成するステップと、
    前記符号化された特徴及び前記特殊シーケンスに対応する特殊トークンに基づいて、前記入力シーケンスに対応する1つ以上の出力トークンを決定するステップと、
    を含む、請求項1に記載の音声認識方法。
  9. 前記特殊シーケンス及び前記入力シーケンスを認識するステップは、前記特殊シーケンス及び前記入力シーケンスをエンコーダ−デコーダ構造のエンドツーエンド(End−to−End)人工神経網に入力し、前記特殊シーケンス及び前記入力シーケンスに対応する音声認識の結果を出力するステップを含む、請求項1に記載の音声認識方法。
  10. 前記エンコーダ−デコーダ構造のエンドツーエンド人工神経網のデコーダは、ステップごとのエンコーダーから算出された情報に基づいて、以前のステップの音声認識の結果に従属して前記音声認識の結果を出力する、請求項9に記載の音声認識方法。
  11. 前記人工神経網は、循環神経網(RNN:Recurrent Neural Network)、畳み込み神経網(CNN:Convolutional Neural Network)及び自己注意神経網(SANN:Self−Attention Neural Network)のうち少なくとも1つを含む、請求項9に記載の音声認識方法。
  12. 前記入力シーケンスを認識するステップは、前記特殊シーケンス及び前記入力シーケンスに対応する音声認識の結果から、前記特殊シーケンスに対応する音声認識の結果を除くステップを含む、請求項1に記載の音声認識方法。
  13. 前記特殊シーケンスは、前記話者の予め決められた音声のうち一部から抽出された少なくとも1つの特徴ベクトルを含み、
    前記特殊シーケンス及び前記入力シーケンスを認識するステップは、
    前記特殊シーケンス及び前記入力シーケンスをエンコーダ−デコーダ構造のエンドツーエンド人工神経網のエンコーダに入力して符号化された特徴を生成するステップと、
    前記符号化された特徴に基づいて前記特徴ベクトルに対応する特殊トークンを出力するステップと、
    を含み、
    前記人工神経網は、前記特徴ベクトルが入力されれば、前記特殊トークンを出力するように学習される、請求項1に記載の音声認識方法。
  14. 前記入力シーケンスにノイズだけが含まれている場合、前記特殊シーケンス以後の前記入力シーケンスをEOSトークンとして認識するステップをさらに含む、請求項1に記載の音声認識方法。
  15. ハードウェアと結合して請求項1〜請求項14のいずれか1項に記載の方法を実行させるために媒体に格納されたコンピュータプログラム。
  16. プロセッサを含み、該プロセッサに請求項1〜14のいずれか一項に記載の方法を実行させる音声認識装置。
  17. プロセッサで実現される音声認識方法において、
    入力音声及び前記入力音声の前端に付加された特殊音声を含む音声から特徴ベクトルを抽出するステップと、
    前記特徴ベクトルを符号化し、符号化された特徴を生成するステップと、
    前記符号化された特徴及び所定の認識結果に基づいて出力トークンを決定するステップと、
    を含むプロセッサで実現される音声認識方法。
  18. 前記特殊音声に対応する特殊トークンを前記出力トークンとして出力するステップをさらに含む、請求項17に記載のプロセッサで実現される音声認識方法。
  19. 前記特殊トークンを出力するために入力トークン及び前記符号化された特徴を復号化するステップをさらに含む、請求項18に記載のプロセッサで実現される音声認識方法。
  20. 前記特殊音声を含む認識結果から前記特殊トークンを除去するステップと、
    前記入力音声に対応する現在の認識結果を出力するステップと、
    をさらに含む、請求項18に記載のプロセッサで実現される音声認識方法。
  21. 前記特殊トークンに基づいて次の出力トークンの候補の確率を予測するステップと、
    前記確率に基づいて次の出力トークンを決定するステップと、
    前記次の出力トークンを次の入力トークンとして決定するステップと、
    をさらに含む、請求項18に記載のプロセッサで実現される音声認識方法。
  22. 前記特徴ベクトルを符号化し、符号化された特徴を生成するステップは、前記特徴ベクトルの次元を変換して前記符号化された特徴を生成するステップを含む、請求項17に記載のプロセッサで実現される音声認識方法。
JP2020067912A 2019-04-05 2020-04-03 音声認識方法及び装置 Active JP7291099B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2019-0040120 2019-04-05
KR20190040120 2019-04-05
KR10-2019-0141750 2019-11-07
KR1020190141750A KR20200117826A (ko) 2019-04-05 2019-11-07 음성 인식 방법 및 장치

Publications (2)

Publication Number Publication Date
JP2020173441A true JP2020173441A (ja) 2020-10-22
JP7291099B2 JP7291099B2 (ja) 2023-06-14

Family

ID=70049874

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020067912A Active JP7291099B2 (ja) 2019-04-05 2020-04-03 音声認識方法及び装置

Country Status (3)

Country Link
US (2) US11501761B2 (ja)
EP (1) EP3719797B1 (ja)
JP (1) JP7291099B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11501761B2 (en) * 2019-04-05 2022-11-15 Samsung Electronics Co., Ltd. Method and apparatus for speech recognition

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160110085A (ko) * 2015-03-13 2016-09-21 삼성전자주식회사 음성 인식 시스템 및 방법
JP2018136493A (ja) * 2017-02-23 2018-08-30 富士通株式会社 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
US20180261225A1 (en) * 2017-03-13 2018-09-13 Mitsubishi Electric Research Laboratories, Inc. System and Method for Multichannel End-to-End Speech Recognition
WO2019026313A1 (ja) * 2017-08-02 2019-02-07 パナソニックIpマネジメント株式会社 情報処理装置、音声認識システム、及び、情報処理方法

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4195267B2 (ja) 2002-03-14 2008-12-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、その音声認識方法及びプログラム
US7574358B2 (en) 2005-02-28 2009-08-11 International Business Machines Corporation Natural language system and method based on unisolated performance metric
WO2010019831A1 (en) 2008-08-14 2010-02-18 21Ct, Inc. Hidden markov model for speech processing with training method
US10170114B2 (en) 2013-05-30 2019-01-01 Promptu Systems Corporation Systems and methods for adaptive proper name entity recognition and understanding
KR20140147587A (ko) 2013-06-20 2014-12-30 한국전자통신연구원 Wfst를 이용한 음성 끝점 검출 장치 및 방법
US10438581B2 (en) 2013-07-31 2019-10-08 Google Llc Speech recognition using neural networks
US9286883B1 (en) 2013-09-26 2016-03-15 Amazon Technologies, Inc. Acoustic echo cancellation and automatic speech recognition with random noise
KR102158315B1 (ko) 2013-10-14 2020-09-21 삼성전자주식회사 음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법
US9378735B1 (en) 2013-12-19 2016-06-28 Amazon Technologies, Inc. Estimating speaker-specific affine transforms for neural network based speech recognition systems
US9842592B2 (en) * 2014-02-12 2017-12-12 Google Inc. Language models using non-linguistic context
KR101610161B1 (ko) 2014-11-26 2016-04-08 현대자동차 주식회사 음성인식 시스템 및 그 방법
DE102015003136A1 (de) * 2015-03-11 2016-09-15 Kuka Roboter Gmbh Roboterlagerung
US9818409B2 (en) 2015-06-19 2017-11-14 Google Inc. Context-dependent modeling of phonemes
US9799327B1 (en) 2016-02-26 2017-10-24 Google Inc. Speech recognition with attention-based recurrent neural networks
US10431205B2 (en) * 2016-04-27 2019-10-01 Conduent Business Services, Llc Dialog device with dialog support generated using a mixture of language models combined using a recurrent neural network
JP6727607B2 (ja) 2016-06-09 2020-07-22 国立研究開発法人情報通信研究機構 音声認識装置及びコンピュータプログラム
US10832664B2 (en) * 2016-08-19 2020-11-10 Google Llc Automated speech recognition using language models that selectively use domain-specific model components
US11080591B2 (en) 2016-09-06 2021-08-03 Deepmind Technologies Limited Processing sequences using convolutional neural networks
US20180174576A1 (en) 2016-12-21 2018-06-21 Google Llc Acoustic-to-word neural network speech recognizer
US11164570B2 (en) 2017-01-17 2021-11-02 Ford Global Technologies, Llc Voice assistant tracking and activation
US10657955B2 (en) 2017-02-24 2020-05-19 Baidu Usa Llc Systems and methods for principled bias reduction in production speech models
CN107054144B (zh) 2017-04-28 2020-03-06 北京新能源汽车股份有限公司 一种电动汽车的控制方法、装置及电动汽车
US10170112B2 (en) * 2017-05-11 2019-01-01 Google Llc Detecting and suppressing voice queries
TWI767000B (zh) 2017-05-20 2022-06-11 英商淵慧科技有限公司 產生波形之方法及電腦儲存媒體
CN107180632A (zh) 2017-06-19 2017-09-19 微鲸科技有限公司 语音控制方法、装置及可读存储介质
US10770094B2 (en) 2018-01-09 2020-09-08 Intel IP Corporation Routing audio streams based on semantically generated result sets
US11501761B2 (en) * 2019-04-05 2022-11-15 Samsung Electronics Co., Ltd. Method and apparatus for speech recognition
JP7234415B2 (ja) * 2019-05-06 2023-03-07 グーグル エルエルシー 音声認識のためのコンテキストバイアス
US11373639B2 (en) * 2019-12-12 2022-06-28 Mitsubishi Electric Research Laboratories, Inc. System and method for streaming end-to-end speech recognition with asynchronous decoders pruning prefixes using a joint label and frame information in transcribing technique
US11626103B2 (en) * 2020-02-28 2023-04-11 Rovi Guides, Inc. Methods for natural language model training in natural language understanding (NLU) systems
US11393455B2 (en) * 2020-02-28 2022-07-19 Rovi Guides, Inc. Methods for natural language model training in natural language understanding (NLU) systems
US11893983B2 (en) * 2021-06-23 2024-02-06 International Business Machines Corporation Adding words to a prefix tree for improving speech recognition

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160110085A (ko) * 2015-03-13 2016-09-21 삼성전자주식회사 음성 인식 시스템 및 방법
JP2018136493A (ja) * 2017-02-23 2018-08-30 富士通株式会社 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
US20180261225A1 (en) * 2017-03-13 2018-09-13 Mitsubishi Electric Research Laboratories, Inc. System and Method for Multichannel End-to-End Speech Recognition
WO2019026313A1 (ja) * 2017-08-02 2019-02-07 パナソニックIpマネジメント株式会社 情報処理装置、音声認識システム、及び、情報処理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LINHAO DONG ET AL.: "Speech-Transformer: A No-Recurrence Sequence-to-Sequence Model for Speech Recognition", 2018 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, JPN6022016956, April 2018 (2018-04-01), pages 5884 - 5888, XP033401817, ISSN: 0004920504, DOI: 10.1109/ICASSP.2018.8462506 *
河原 達也: "音声認識技術の変遷と最先端−深層学習によるEnd-to-Endモデル−", 日本音響学会誌, vol. 第74巻,第7号, JPN6022016957, July 2018 (2018-07-01), pages 381 - 386, ISSN: 0004920503 *

Also Published As

Publication number Publication date
JP7291099B2 (ja) 2023-06-14
US20230076073A1 (en) 2023-03-09
EP3719797B1 (en) 2021-11-10
US11501761B2 (en) 2022-11-15
US20200320983A1 (en) 2020-10-08
US12073825B2 (en) 2024-08-27
EP3719797A1 (en) 2020-10-07

Similar Documents

Publication Publication Date Title
WO2021093449A1 (zh) 基于人工智能的唤醒词检测方法、装置、设备及介质
US20240021202A1 (en) Method and apparatus for recognizing voice, electronic device and medium
JP6802005B2 (ja) 音声認識装置、音声認識方法及び音声認識システム
JP6637848B2 (ja) 音声認識装置及び方法と電子装置
KR102413692B1 (ko) 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치
JP2021515905A (ja) 音声認識方法、並びにその装置、デバイス、記憶媒体及びプログラム
Liu et al. An investigation into back-end advancements for speaker recognition in multi-session and noisy enrollment scenarios
JP2023545988A (ja) トランスフォーマトランスデューサ:ストリーミング音声認識と非ストリーミング音声認識を統合する1つのモデル
CN112435653B (zh) 语音识别方法、装置和电子设备
KR20200080681A (ko) 음성 합성 방법 및 장치
CN115004296A (zh) 基于审议模型的两轮端到端言语辨识
KR20170007107A (ko) 음성인식 시스템 및 방법
US20230096805A1 (en) Contrastive Siamese Network for Semi-supervised Speech Recognition
EP4392972A1 (en) Speaker-turn-based online speaker diarization with constrained spectral clustering
CN114999463A (zh) 语音识别方法、装置、设备及介质
JP2024050983A (ja) 自動音声認識のための多言語再スコアリングモデル
US12073825B2 (en) Method and apparatus for speech recognition
US20230107493A1 (en) Predicting Word Boundaries for On-Device Batching of End-To-End Speech Recognition Models
US12087279B2 (en) Regularizing word segmentation
KR20200117826A (ko) 음성 인식 방법 및 장치
KR20220004272A (ko) 음성 감정 인식 및 합성의 반복 학습 방법 및 장치
CN111816164B (en) Method and apparatus for speech recognition
US20240304185A1 (en) Mixture-of-expert conformer for streaming multilingual asr
US20240257804A1 (en) Language model customization techniques and applications thereof
Hegde et al. Paramount—A Hidden Markov Model Based Intelligent Voice Assistant

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210331

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220510

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220810

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230516

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230602

R150 Certificate of patent or registration of utility model

Ref document number: 7291099

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150