JP2021184087A - サウンド特徴に対する音響モデル条件付け - Google Patents

サウンド特徴に対する音響モデル条件付け Download PDF

Info

Publication number
JP2021184087A
JP2021184087A JP2021074216A JP2021074216A JP2021184087A JP 2021184087 A JP2021184087 A JP 2021184087A JP 2021074216 A JP2021074216 A JP 2021074216A JP 2021074216 A JP2021074216 A JP 2021074216A JP 2021184087 A JP2021184087 A JP 2021184087A
Authority
JP
Japan
Prior art keywords
speech
sound
segment
acoustic model
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021074216A
Other languages
English (en)
Inventor
ジズ・ゴウェイド
Gowayyed Zizu
キーバン・モハジャー
Mohajer Keyvan
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SoundHound Inc
Original Assignee
SoundHound Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SoundHound Inc filed Critical SoundHound Inc
Publication of JP2021184087A publication Critical patent/JP2021184087A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

【課題】珍しい環境条件による、スピーチ認識能力の不正確さを改善したスピーチ処理システム及び方法を提供する。【解決手段】方法は、キーフレーズ音声と、そのすぐ後に続く発話と、を有するスピーチ音声のセグメントをキャプチャし、エンコーダが、キーフレーズに対応するセグメントを用いてサウンド埋め込みを計算し、音声認識のための音響モデルが、入力としてのサウンド埋め込みに対して条件付けされたモデルを用いて、発話音声信号からの音素を推定する。【選択図】図4A

Description

発明の分野
本発明は、サウンド埋め込み(embedding)に基づく条件付け(conditioning)の分野に属する。
背景
我々は、自然言語スピーチインターフェイスが新たなタイプのヒューマンマシンインターフェイスとして今まさに普及しようとしている歴史上のターニングポイントにいる。このインターフェイスがスピーチを文字に変える能力は、近いうちに最速で最も正確なテキスト入力方法としてキーボードに取って代わるであろう。このインターフェイスが自然言語コマンドをサポートする能力は、近いうちに非テキストコントロールの操作方法としてマウスおよびタッチスクリーンに取って代わるであろう。総合的に、上記インターフェイスは、仕事、娯楽、教育、リラクゼーション、および雑用の補助のために人間がマシンを制御するためのクリーンで無菌の方法を提供する。
しかしながら、現在のところ、自然言語スピーチインターフェイスが上記利点のすべてを提供する能力は、そのスピーチ認識能力の不正確さによって妨げられている。アイルランド語のアクセントの「サーティ・スリー(13)」を「ダーティ・ツリー(汚い木)」としてとらえるなど、単語を間違って認識することは、往々にして滑稽である。場合によって、騒音が大きい車からの「text mon(お母さんにメールして)」を、「text tom(明日メールして)」、「text none(何もメールしないで)」、「text some(何かメールして)」ととらえる場合などは、フラストレーションを引き起こす可能性がある。場合によって、高い声の医者が口頭で下した「失語症(aphasia)」という医学的診断を「嚥下障害(aphagia)」ととらえる場合など、音声認識の間違いは、危険を伴い得る。
図1は、仮想アシスタントという文脈における音声認識失敗のシナリオを示す。ユーザ10は、独特の声道を持つ人物であり、ニュージーランドアクセントで話をし、窓11に雨が落ちている騒々しい部屋にいる。ユーザ10は、ニュージーランドの首都であるAuckland(オークランド)では明日雨が降るか否かを予測するために、仮想アシスタントを呼び出す12。サンフランシスコ・ベイエリアの企業の仮想アシスタント13は、Aucklandという単語をベイエリアシティのOakland(オークランド)と認識し、その場所の天気に関する役に立たない反応を返す14。米国北西部の企業の別の仮想アシスタント15は、Aucklandという単語をカナダ西部の都市であるFalkland(フォークランド)と認識し、これも役に立たない反応を返す16。
珍しいアクセントで珍しいボイスタイプのスピーチ、ノイズ、バックグラウンドボイス、または音楽のような珍しい環境条件、珍しいデバイスの使用、およびその他の珍しいシナリオの場合、従来の音声認識は、正確性の問題に遭遇し、そのために、静かな家の中で音楽を再生するといった狭い用途にしか適さないものになってしまう。これらの問題を解決して初めて、ボイスインターフェイスを備えた製品は、日常生活におけるその潜在的な有用性を実現する。
発明の概要
サウンド特徴に対する音響モデル条件付け(音素確率の推定にサウンドの特徴を利用する音響モデルであって、以下、「条件付き音響モデル」と称される)は、自動音声認識(automatic speech recognition)(ASR)の精度を大幅に改善する単純で強力な技術を提供する。
用途
条件付き音響モデルは、ボイスタイプ、アクセント、環境条件などの珍しいユースケースおいて最大の改善をもたらす。これには、バックグラウンドノイズ、音楽、またはスピーチがあってもASRを正確なものにするといった特有の利点がある。
多くのASRシステムは、データで訓練されたニューラルネットワークを使用する。ニューラルネットワークアーキテクチャは、層の数、ノードの数、畳み込み、回帰、および訓練方法という点で、多岐にわたる。本発明は、使用される特定のニューラルネットワークアーキテクチャとは関係なく、ASRの精度にとっての利点をもたらす。さらに、改善された精度を提供することで、ASRシステムを、ASRに対する従来のアプローチで必要な時間および訓練データよりも少ない時間および訓練データで、要求される精度仕様を満たすように、訓練することが可能である。これにより、音声認識製品およびサービスの提供者が、より迅速に新たな特徴を開発して市場に投入し、その競争市場における地位と総収益力を改善することを、可能にする。
ASRにとってのこれらの利点は、図1の例のようにキーフレーズに応答して起動する仮想アシスタント内だけでなく、口述システム、車両制御インターフェイス、小売販売システム、および、一般的に話されている既知のキーフレーズを認識するボイスインターフェイスのその他任意の用途でも、実現することができる。
実装例
音響モデル(acoustic model)(AM)は、ASRのための方法であり、かつ、ASRのためのコンピュータ化されたシステムの重要な要素でもある。特に、AMは、スピーチ音声における音素の確率を推定する。条件付き音響モデルは、既知の音素シーケンスを有するキーフレーズのスピーチの第1セグメントからサウンド埋め込みを符号化することに依拠する。機械学習において、埋め込みは、単に、入力表現を別のより好都合な表現空間内に投射することを意味する、専門用語である。音声の第1セグメントは、少数の音声サンプルまたは1つのスペクトルフレームほどのごく小さいものである可能性がある、または、数個の単語のストリングほどの大きさかもしれない。符号化されたベクトルは、音声の第1セグメントの終わりの直後(immediately after)またはすぐ後(shortly after)に、計算されて記憶される。
次に、条件付き音響モデルは、キーフレーズ音声のすぐ後に続く、発話を含むスピーチ音声の第2セグメントについて、音素確率の推定を実行する。AMに対する入力は、スピーチ音声の発話セグメントおよび記憶されたベクトルの両方である。出力は、少なくとも1つの音素の確率であるが、多くの実装例では、一組の音素のうちの各々についての、確率のソフトマックス(SoftMax)セットである。
いくつかの実装例は、音響モデルに対してニューラルネットワークを使用し、ニューラルネットワークを、各サンプルが対応するキーフレーズのサウンド埋め込みを有する、スピーチ音声のラベル付けされたサンプルで、訓練する。この対応関係は、AMの学習された予測に対するサウンド埋め込みの効果が、各訓練データサンプルごとに、正しい方向およびバランスであることを、保証する。
多様な範囲のユーザをサポートするASRシステムの場合、訓練サンプルが多種多様なボイスと多種多様なアクセントとを含むならば、結果として推定精度は最高になる。さらに、推定精度は、訓練音声サンプルのうちの少なくとも一部がノイズ音声サンプルと混合された場合に、最高になる。しかしながら、サウンド埋め込みの学習効果は、キーフレーズ音声と混合されたノイズと訓練発話音声と混合されたノイズとが同一のノイズプロファイルを有する場合に、最高になる。
さまざまな種類のエンコーダが可能である。慎重にプログラムされたものがあってもよい。ニューラルネットワーク等のデータから学習されたモデルがあってもよい。エンコーダに対し、予め訓練されたモデルを使用することが可能である。しかしながら、エンコーダモデルを音響モデルと合同で訓練することも可能である。これは、エンコーダモデル内における音響モデル勾配のニューラルネットワークノードへの誤差逆伝播を含み得る。合同訓練は、一般的に、より高い精度をもたらすが、その理由は、エンコーダが、訓練されたAMモデルに弁別能力を与えるサウンド埋め込みのパープレキシティ(perplexity)を最適化するサウンド埋め込みを学習するからである。
1つ以上の合同訓練された符号化モデルおよび1つ以上の独立して訓練された符号化モデルに、キーフレーズ音声からサウンド埋め込みを符号化および記憶させ、符号化したものを音響モデルへの入力として提供させることも可能である。
異なるデバイスにおいてエンコーダと音響モデルとを有することが可能である。たとえば、ウェイクフレーズスポッターを実行するためにマイクおよびコンピュータ化されたコードを備えたクライアントデバイスは、キーフレーズの符号化を計算することもできる。次に、その後の発話を有する音声第2セグメントを、符号化されたベクトルとともに、条件付き音響モデルを実行するASRサーバに送ることができる。サーバに基づくASRは、ユーザデバイスにおけるコストおよび消費電力要件を低くした状態で高い精度を提供する。
しかしながら、サウンド埋め込みを符号化することおよびそれを条件付き音響モデルで使用することのすべてを同一システム内で行うことも可能である。それは、キーフレーズ音声とそれに続く発話付きの発話音声セグメントとを受けるサーバであってもよい。しかしながら、このシステム全体が、自動車等のユーザデバイスの中に、またはネットワーク接続なしの「機内モード」でASRを実行できるモバイルハンドセットの中に含まれていてもよい。
従来のシステムにおける音声認識の失敗を示す図である。 キーフレーズと発話とを含むスピーチ音声の波形を示す図である。 一般的な処理されたスピーチ音声内の情報の表を示す図である。 実施形態に係る、1つのエンコーダおよび条件付けられた音響モデルの図を示す。 実施形態に係る、複数のエンコーダおよび条件付けられた音響モデルの図を示す。 実施形態に係る、サウンド埋め込みに対して条件付けられた音響モデルの訓練の図を示す。 実施形態に係る、エンコーダと、サウンド埋め込みに対して条件付けられた音響モデルとの合同訓練の図を示す。 実施形態に係る、エンコーダと、ノイズが混合された訓練データを用いてサウンド埋め込みに対して条件付けられた音響モデルとの合同訓練の図を示す。 実施形態に係る、クラウドサーバに対して音響モデルを条件付けするためのベクトルを提供するエンコーダを備えたデバイスの図を示す。 実施形態に係るクラウドサーバを示す図である。 実施形態に係るクラウドサーバの図を示す。 実施形態に係る、エンコーダと、局所音声認識のための条件付き音響モデルとを備えたモバイルハンドセットを示す図である。 実施形態に係る、パッケージングされたシステムオンチップを示す図である。 実施形態に係る、システムオンチップの図を示す。 実施形態に係る、非一時的なコンピュータ読取可能媒体を示す図である。
詳細な説明
以下のテキストは、条件付き音響モデルの関連する側面についてのさまざまな設計選択肢を説明する。特に明記されていない限り、異なる側面についての設計選択肢は、互いに独立しており、任意に組み合わされてともに機能する。
音響モデル
ASRのための音響モデルは、スピーチ音声のセグメントを含む入力を取り込み、1つ以上の音素の推定された確率の出力を生成する。いくつかのモデルは、一種の音素確率である、音声要素(senone)確率を推定してもよい。いくつかのアプリケーションにおいて、音響モデルの出力は、一組の認識可能な音素または音声要素全体についての確率のソフトマックスセットである。
いくつかのASRアプリケーションは、音声のフレームから計算されたスペクトル成分に対して音響モデルを実行する。スペクトル成分は、たとえば、音声サンプルの25ミリ秒のウィンドウで計算されたメル周波数ケプストラム係数(mel-frequency cepstral coefficient)(MFCC)である。音響モデル推定は、たとえば10ミリ秒ごとに繰り返してもよい。
スペクトル成分は、スピーチ制御デバイスのユーザインターフェイスの一部としてのマイクが取り込んだもののような、音声波形のサンプルから、計算することができる。これに代えて、音響モデルを訓練することで、このようなサンプルを入力として直接取り込むことができる。
1つのシステムまたはデバイスが、2つ以上の音響モデルを含んでいてもよい。キーフレーズが話されたときにトリガ信号をアサートするだけのフレーズスポッターについては、単純なもので十分であろう。高精度音声認識用の音響モデルは、記録されたスピーチを解析するために、高性能コンピュータプロセッサ上でリアルタイムでまたは非リアルタイムでさえ利用できる、妥当なリソース予算内で実現するのに現実的な数の層およびノードを有するニューラルネットワークを使用することができる。いくつかの音響モデルは、妥当なボキャブラリサイズの携帯用バッテリーを電源とするデバイスの処理能力予算内に収まる中間精度レベルで設計してもよい。
いくつかの音響モデルは、入力された特徴の畳み込みを計算することにより、推定精度を改善できるさまざまな粒度レベルの情報を利用することができる。いくつかの音響モデルは、長・短期記憶(long short-term memory)(LSTM)またはゲート付き回帰型ユニット(gated recurrent unit)(GRU)のニューラルネットワークノードのような回帰を用いることにより、入力信号の一時的変化に含まれる情報を利用することができる。
図2は、スピーチ波形の一例を示す。これは、話者がキーフレーズを話した場所である、スピーチの第1セグメント21を含む。キーフレーズは、既知の単語のフレーズであり、したがって、既知の音素シーケンスである。キーフレーズは、クエリまたはコマンドである短い発話を認識してそれに反応するボイス仮想アシスタントを起動するのに有効である。いくつかの例として、「OK、グーグル(Okay Google(登録商標))」および「アレクサ(Alexa(登録商標))」が挙げられる。キーフレーズは、自動口述を実行するシステムを制御するために使用される、スピーチのボイスコマンドとしても発生する。いくつかの例として、「ピリオド(period)」、「改行(new line)」、および「元に戻す(undo that)」が挙げられる。
スピーチ波形においてキーフレーズ21に続くのは、発話であるスピーチの第2セグメント22である。発話は、事前にわかっていない単語および音素のスピーチである。条件付き音響モデルの目的は、ユーザの発話のASRに高い精度をもたらすことである。
図3は、スピーチ音声のさまざまな表現に含まれる情報の表である。一般的に、発話音声は、話されている音素に関する情報を含む。これはまた、話者の性別および年齢の推測等にも使用可能な、話者の声道の生理機能のようなものを含む、話者のボイスに関する情報を含む。また、発話音声は、話者のアクセント、スピーチ速度、および、話者が自身の考えをスピーチにする方法のその他の属性に関する情報を含む。また、発話音声は、モータおよび風のような連続するバックグラウンドノイズ、ならびに、そのサウンドのデジタルでキャプチャされた表現の音である空気圧の波の間の伝達関数に影響するその他のひずみパラメータ等の、環境に関する情報を含む。
キーフレーズ音声は、話された音素以外の情報すべてを含む。なぜなら、キーフレーズは既知の一組の音素を有するからである。システムが、キーフレーズが話されたことを正確に識別する限り、キーフレーズ内の音素は、事前にわかっており、したがって、スピーチ音声に含まれる冗長情報である。
これに対し、音響モデルの所望の出力は音素である。巧妙に作成された音響モデルは、スピーチ音声からのボイス、属性、および環境情報を拒絶し、話された音素のみを出力する。
図2の例のようにキーフレーズ21のすぐ後に発話22が続く場合、ボイス、属性、および環境情報は、キーフレーズ音声と発話音声との間でほぼ同一である可能性が非常に高い。このため、キーフレーズ音声の特徴を解析しそれらを適切な符号化で表すことにより、これらの特徴を、当該特徴を拒絶することで音素を表すスピーチ音声の特徴をより正確に識別できる条件付き音響モデルに、与えることが可能である。
キーフレーズ音声から特徴を符号化するステップも、音響モデルを用いて音素を推定するステップも、注意深く構成されたデジタル信号処理アルゴリズムにより、または、ニューラルネットワーク等の1つ以上のモデルを大きく多様なデータセットで訓練することにより、または信号処理と訓練されたモデルとの双方の組み合わせにより、行うことができる。訓練された条件付き音響モデルは、符号化されたキーフレーズ音声特徴の入力を有するように、訓練されている。キーフレーズ音声の特徴を認識し符号化するためのモデルは、独立して訓練する、または音響モデルと合同で訓練することができる。
スマートスピーカーのような遠距離デバイスおよびモバイルハンドセットのような近距離デバイスをサポートするクラウドASRシステムのような、さまざまな種類のデバイスまたは環境をサポートするシステムにおいて、複数の音響モデルを持つことが可能である。同様に、異なる言語または地域に対してASRをサポートするシステムは、複数の音響モデルを有していてもよい。エンコーダを用いて、推定する音響モデル間で単純に選択された出力を生成することが、最も適切であろう。
サウンド埋め込み
キーフレーズからの、符号化されたボイス、アクセント、および環境情報は、サウンド埋め込みの中で表される。サウンド埋め込みは、話者のボイスの物理的属性、そのアクセントおよびスピーチスタイルの属性、そのバックグラウンドノイズ、反響等の環境の属性、ならびにマイクおよびアナログデジタル変換器の伝達関数に関する情報をキャプチャする。換言すれば、サウンド埋め込みは、話者のボイスの物理的属性、話者のアクセントの属性、話者のスピーチスタイルの属性、ならびに、話者の環境(バックグラウンドノイズ、反響、マイクおよびアナログデジタル変換器の伝達関数、など)のうちの少なくとも1つを表す情報を含む。キーフレーズのキャプチャされた音声からサウンド埋め込みを計算することで、サウンド埋め込みは、フレーズ間の変動の影響を受けず、大抵の場合は文脈および心情を原因とする変動の影響を受けない。発話の少し前のサウンド埋め込みをキャプチャすることにより、さまざまなデバイス特徴の影響、または、温度、感情、健康状態、およびその他の身体的要素を原因とするボイスの変動の影響を受けない。サウンド埋め込みは、サウンドの音響特徴を表すベクトルである。サウンド埋め込みベクトルは、(word2vec、GloVe、等の)単語埋め込みベクトルが単語を意味空間に埋め込むように、サウンドの音響特徴をサウンドの特徴空間に埋め込む。ベクトル形式で表現された音響特徴は、削減された次元数を有することができ、これが、処理リソース要件を減じる。たとえば、ウェイクフレーズの1秒間の音声について毎秒8000サンプルで音声がサンプリングされた場合、当該ウェイクフレーズに関する音響特徴は8000次元の情報になり得る。エンコーダモデルは、この8000次元の情報を、当該ウェイクフレーズの音響特徴を表現する、10または1000次元のサウンド埋め込みベクトルに変換してもよい。
サウンド埋め込みは、コールセンターのセキュリティのために使用されるもののような話者認識に使用される特徴ベクトルとは異なる。このような話者認識特徴ベクトルは、環境情報を拒絶することにより、環境変化の影響、ならびに時間およびキャプチャデバイスの違いの影響を受けないようにしている。このようなシステムは、話者に対してフレーズを複数回繰り返すことを要求するまたはその他の技術を採用することで、話者のボイスを環境情報から区別することを実現する。
サウンド埋め込みは、フレーズに依存しないダイアライゼーション(diarization)に使用される話者のID情報とも異なる。これは、スピーチの音素内容が未知であることを埋め合わせる、フレーズに依存しないアルゴリズムを用いる。
サウンド埋め込みは、環境情報を含むが表音情報を含まない空間にある。このような空間は、エンコーダを訓練するプロセスを経て学習できる。このような場合、訓練は、多数のボイス、アクセント、および環境変動を含むであろうが、すべて、予め定められたキーフレーズの音素を話している間のものである。
サウンド埋め込み空間を学習することは、データから、フレーズに依存するiベクトルまたはxベクトル空間を学習することに匹敵する。たとえば、性別、アクセント、またはノイズ等のカテゴリでラベル付けされたデータを用いて訓練を行う必要はない。埋め込み空間はその情報を学習する。条件付き音響モデル間の合同訓練を使用しないシステムの場合、xベクトルまたはiベクトル用のもののようなオフザシェルフまたはサードパーティエンコーダモデルのようなエンコーダモデルを使用することが可能である。
エンコーダ
図4Aは、サウンド特徴に対する音響モデル条件付けの図を示す。一実施形態において、図4Aに示された処理は、コンピュータ(仮想アシスタント、自動車制御システム、その他のボイスユーザインターフェイス、等)が音声認識処理を実施するソフトウェアプログラムを実行することによって実現される。音声認識処理として、このソフトウェアプログラムは、コンピュータに、キーフレーズ音声をエンコーダ41に入力させる。エンコーダ41は、キーフレーズ音声を受け、サウンド埋め込みを計算する。コンピュータは、キーフレーズの最後または最後の近くで、エンコーダ41からサウンド埋め込みを取得し、このサウンド埋め込みをメモリに記憶する。
エンコーダは、わずか数ミリ秒の音声に対して動作することができる。これは、フレーズスポッターがトリガされる前の、0.2または1.0秒等の一定期間からバッファされた音声のセグメントに対して動作することができる。エンコーダは、ボイスアクティビティ検出器(voice activity detector)(VAD)がスピーチを検出してトリガした時点、その少し前、またはそのすぐ後から、フレーズスポッターがトリガされた時点、その少し前、またはそのすぐ後までの、音声のセグメントに対して動作することができる。エンコーダは、キーフレーズではない認識された単語が終わったすぐ後から、キーフレーズが認識された時点、その少し前、またはそのすぐ後までの、音声のセグメントに対して動作することができる。エンコーダは、VADの終了時点からVADの開始時点までの、非スピーチ音声のセグメントに対して動作することができる。エンコーダが使用するキーフレーズ音声のセグメント化のためのさまざまな機構が可能である。エンコーダが、ボイス、アクセント、および/または環境情報を含むが事前にわかっていない音素のスピーチを含まないサウンドを主に解析することが重要である。
上記スピーチ認識処理の一部として、上記ソフトウェアプログラムは、コンピュータに、発話音声とサウンド埋め込みとを音響モデル42に入力させる。図4Aにおいて、条件付き音響モデル42は、発話音声と、記憶されたサウンド埋め込みとを取り込み、音素確率を推定する。コンピュータは、音響モデル42から音素確率の推定結果を取得し、当該推定結果を、統計言語モデル等のその他の機能および自然言語理解等のサービスを提供するサーバに送信する。記憶されたサウンド埋め込みは、変更されず、新たなキーフレーズが検出されてエンコーダ41が再び動作してサウンド埋め込みを再度生成するかまたはセッションが終了するかまたは長時間が経過してその後話者もしくは環境が変化したときに初めて、置き換えられる。音響モデル42は、キーフレーズのすぐ後のセグメントの音素確率の推定に、このセグメントだけでなく、このキーフレーズからエンコードされたサウンド埋め込みを利用する。キーフレーズからエンコードされたサウンド埋め込みは、当該キーフレーズのすぐ後のセグメントに存在する可能性があるスピーチ音声の特徴を表す。音響モデル42は、そのセグメントと同じ特徴を表すサウンド埋め込みを利用することにより、当該セグメントの音素確率を高い精度で推定し得る。たとえば、人間が「シュッ(sh)」と言っても、風が吹いても、マイクは「シュッ(sh)」というサウンドを受け取る。音響モデル42は、セグメントと同じ特徴を表すサウンド埋め込みを利用することにより、マイクが受けた「シュッ(sh)」というサウンドの出所として、人間が特定のやり方で言った「シュッ(sh)」を、より正確に風と区別し得る。また、人間が「ウーッ(oooo)」と言っても、トンネルの中でそのサウンドが取得されても、マイクは「ウーッ(oooo)」というサウンドを受け取る。セグメントと同じ特徴を表すサウンド埋め込みを利用することにより、音響モデル42は、マイクが受けた「ウーッ(oooo)」というサウンドの出所として、人間が特定のやり方で言った「ウーッ(oooo)」を、より正確に、トンネルの中で受けた他のサウンドと区別し得る。
複数のエンコーダ
合同訓練されるエンコーダおよび条件付き音響モデルの場合、十分に訓練された1つのエンコーダは、一般的に、精度改善の実現のためのコンピューティングリソースの最も効率的な使用であろう。しかしながら、いくつかの実装例の場合、オフザシェルフ(off-the-shelf)エンコーダ、異なるコードベースからのエンコーダ、または特定の用途のために最適化されたエンコーダのような、予め訓練された複数のエンコーダを使用することは有益となり得る。これは、最小の再訓練作業でさまざまなアプリケーションのためにシステムをカスタマイズするためのモジュール性を提供することができる。
2つ以上のエンコーダを備えることも好都合となり得る。これは、たとえば、多数のアプリケーションまたは言語全体において有用な汎用サウンド埋め込みエンコーダを、次に、特定のアプリケーションまたは言語について精度を改善するためのモジュラーエンコーダを備えるのに役立つ。その簡単な例は、各々が、条件付き音響モデルに対する有用な入力であるキーフレーズに対してサウンド埋め込みを符号化する、性別検出エンコーダおよび言語検出エンコーダを有するシステムであろう。
理論上、使用できるエンコーダの数、および、条件付き音響モデルに対する入力として使用できるサウンド埋め込みの数には制限がない。各々が、キーフレーズスピーチ音声を処理することにより、1つ以上の次元値のベクトルを出力する。図4Bは、複数のサウンド埋め込みを生成する複数のエンコーダ43を用いる、サウンド埋め込みに対する音響モデル条件付けの図を示す。複数のサウンド埋め込みが、キーフレーズ処理の最後に記憶され、次に、発話音声に対して動作することにより音素確率を推定する条件付き音響モデル44への入力として使用される。
異なるエンコーダがまたはエンコーダと音響モデルとが、異なるサンプリングレートまたはビット深度で動作することも可能である。これは、たとえば、エンコーダが生の入力音声に対しては高精度で動作するが圧縮された音声を帯域幅が制限された接続を通して音響モデルに送信する場合に、または、フレーズスポッターが音声を低サンプリングレートでキャプチャしてパワーを節約しその音声セグメントを用いてサウンド埋め込みを計算する一方で音響モデルが発話スピーチに対して動作するためにサンプリングレートを高める場合に、有用となり得る。
口述システム
サウンド埋め込みに対する音響モデル条件付けは、汎用仮想アシスタント、自動車制御システム、およびその他のボイスユーザインターフェイスにおける1つのクエリごとの場合には有用であるが、これは口述システムにおいても有用である。口述システムは、キーフレーズを検出すると常にサウンド埋め込みを再計算して記憶する。これは、キーフレーズの後で、セッションが終了するまでまたは別のキーフレーズがキャプチャされるまで、認識を継続的に改善することができる。
キーフレーズは、「ピリオド」、「改行」または「元に戻す」等の一般的なコマンドとすることができる。一般的に、検出したキーフレーズの精度が高いことが重要である。長い単語は音声認識において確実性が高いので、10音素等の特定の長さにわたる任意の単語の間に話された音声を用いることが可能である。しきい値を超える認識確率スコアに対して新たなサウンド埋め込みの記憶を条件付けすることも可能である。
更新されたサウンド埋め込みの計算および記憶は、口述システムのユーザには聞こえず見えないように起こり得る。これは、ユーザが選択できる任意の特徴であってもよい。
訓練
データから学習されない音響モデルを設計することが可能である。しかしながら、本セクションは、音響モデルをデータから訓練する方法に注目する。本セクションは、学習されるモデルのタイプの一例としてニューラルネットワークに注目するが、隠れマルコフモデル(hidden Markov model)(HMM)等のその他のタイプの統計モデルを訓練することが可能である。
サウンド埋め込みに対して条件付けされる音響モデルは精度が改善されているので、目標ワードエラー率等の所定の目標精度の場合、この目標を、訓練時間、訓練の反復回数、および/または訓練データを少なくして、達成することが可能である。
従来の音響モデルとの重要な違いは、条件付き音響モデルが、ボイス、アクセント、および環境情報を含む音声にアクセスすることができ、事実上、既知のフレーズのスピーチであることから、暗に「ラベル付けされている」点である。
図5は、音響モデルの訓練を示す。これは、キーフレーズスピーチセグメントとキーフレーズのすぐ後に続く発話セグメントとの双方を有するスピーチ記録53を訓練データして用いる。キーフレーズと発話との間の時間の長さが、大抵の人々がボイス仮想アシスタントに対して起動するように要求してからボイス仮想アシスタントにコマンドを与えるまでに休止する時間の長さより短い場合、発話セグメントはキーフレーズのすぐ後に続く。この時間の長さはメモリに格納され得る。エンコーダモデル51は、キーフレーズスピーチセグメントを処理することによってサウンド埋め込みを計算し、計算したサウンド埋め込みをメモリに格納する。
厳密には必要ではないが、多くの訓練システムは、ラベル付けされたデータについての教師あり学習を用いる。そのような場合、発話音声は、ラベル付けされる54。ラベル付けは、典型的に、人間が発話を聴くこと、機械による文字起こしが正確か否かを確認すること、および、機械による文字起こしが正しくなければ正しい文字起こしを入力することを必要とする。人間のラベラーは、人間が読み取ることができるテキストを用いてラベルを入力する傾向がある。これは次に音素のシーケンスに変換される。同形異義−同形異音語の場合、正しい音素はコンテキストから選択してもよく、または、このようなサンプルは訓練から除外してもよい。手法に関係なく、音響モデル訓練55への入力は、ラベリングされた音素、音素と一致するように時系列で並べられた音声サンプルまたはスペクトル値、およびサウンド埋め込みの、グラウンドトゥルース音素シーケンス(ground-truth sequence of phonemes)である。換言すれば、音響モデルの訓練データでは、音素と一致するように時間的に並べられた音声サンプルまたはスペクトル値が正しい音素およびサウンド埋め込みでラベル付けされる。一実施形態において、音響モデル訓練55は、機械学習プログラムを実行して音響モデル52を訓練するデバイスによって実現されてもよい。当該機械学習プログラムは、各々がサウンド埋め込みに対応付けられている訓練データを利用して、音響モデル52を訓練する。訓練結果は、サウンド埋め込みなしで訓練された音響モデルよりも正確に、サウンド埋め込みを用いて入力スピーチ音声について推定を実行できる音響モデル52である。より具体的には、音響モデル42は、キーフレーズサウンド埋め込みが対応付けられている訓練データによって、より高い精度で音素確率を推定するように訓練され得る。たとえば、マイクは、「シュッ(sh)」というサウンドを、人間が「シュッ(sh)」と言っても風が吹いても受け取る。セグメントと同じ特徴を表すサウンド埋め込みを用いることにより、音響モデル42は、マイクが受けた「シュッ(sh)」というサウンドの出所として、人間が特定のやり方で言った「シュッ(sh)」を、より正確に風と区別することができる。また、マイクは、「ウーッ(oooo)」というサウンドを、人間が「ウーッ(oooo)」と言っても、トンネルの中でこのサウンドが取得されても、受け取る。セグメントと同じ特徴を表すサウンド埋め込みを利用することにより、音響モデル42は、マイクが受けた「ウーッ(oooo)」というサウンドの出所として、人間が特定のやり方で言った「ウーッ(oooo)」を、トンネルの中で受けた他のサウンドと、より正確に区別することができる。
訓練されたいずれのデータとも同様に、訓練された音響モデル52は、訓練データ53のコーパスが多様でありかつモデルが実際の用途で遭遇するであろうスピーチの範囲をカバーしている場合、最も正確になる。
合同訓練
サウンド埋め込みを計算するエンコーダは、デジタル信号処理アルゴリズムで実現されてもよい。これはデータから学習される統計モデルであってもよい。具体的には、ニューラルネットワークを用いて実現されてもよい。エンコーダニューラルネットワークは、1つ以上の畳み込み層、回帰ノード、LSTMまたはGRU等の長期回帰ノード、および、少なくとも1つまたは2つの「ディープ」フィードフォワード層を含み得る。
エンコーダニューラルネットワークを訓練することにより、キーフレーズ音声に対するサウンド埋め込みの多様な範囲を与える埋め込み空間を学習することが可能である。これは、条件付き音響モデルから独立して実行されてもよい。独立した訓練は、異なるチームまたは企業によって実行されるのであれば、または、エンコーダがローパワー埋め込みシステムのために最適化され音響モデルが高性能クラウドコンピューティングデータセンターのために最適化されるなど、異なるプロジェクトの一部としてまたは異なる性能要件のために実行されるのであれば、優れた手法となり得る。
しかしながら、エンコーダモデルと条件付き音響モデルとを合同で訓練することも可能である。図6は、エンコーダモデルおよび条件付き音響モデルの合同訓練を示す。独立した音響モデルの訓練について先に述べたように、訓練は、訓練データ63のコーパスで始まる。訓練データサンプルの各々が、キーフレーズとそのすぐ後に続く発話とを含む。発話音声セグメントはラベル付けされる64。キーフレーズ音声は、エンコーダモデル61によって符号化され、結果として得られたサウンド埋め込みを、その対応する発話音声セグメントおよびグラウンドトゥルースラベルとともに使用することにより、訓練65の反復を実行する。この訓練の反復は、コスト関数に従って音響モデル62内のパラメータの勾配を計算し、勾配をこのモデルを通して誤差逆伝播する。勾配は次にエンコーダモデル66のための訓練プロセスに誤差逆伝播され、これが、エンコーダモデル61のパラメータを更新する。多数の反復について実行することにより、エンコーダモデルは、音響モデルの条件付けに一層役立つサウンド埋め込みを生成することを学習し、音響モデルは、サウンド埋め込みを使用することにより、このモデルが独立して訓練された場合よりも高い精度を実現することを学習する。
多くのASRシステムは、言語モデルを、音響モデルからの仮説化された音素シーケンスに適用する。いくつかの実験システムは、合同訓練された音響モデルおよび言語モデル、または、スピーチ音声のセグメントからテキストを直接推定する一体型ニューラルネットワークを用いる。キーフレーズ音声から計算されたサウンド埋め込みに対するニューラルネットワークの「エンドツーエンド」音声認識等の条件付けは、全体の精度を改善することができる。理由はおそらく、サウンド埋め込みにおけるボイス、アクセント、および環境情報を、それを音素情報とともに含む信号から除外することを学習するニューラルネットワークは、この情報を、音声からの単語の推定に関連するより高レベルの特徴の推定から除外することによっても利益を得ることができることにある。
ノイズ混合
クリーンなスピーチ音声で訓練された音響モデルの、現実世界のノイズが多いスピーチ音声の精度は、ノイズが多いスピーチで訓練されたモデルよりも低い。しかしながら、まだ作られていないまたは市場で発表されていない製品について、ASRの予測されるノイズ条件を正確に表す訓練データを収集することは難しい。一般的な技術は、ノイズを比較的クリーンなスピーチ音声と混合することにより、音声データ訓練を条件付けすることである。これを、スピーチ音声をノイズの記録と混合すること、信号処理を通して故意にひずみを与えること、反響等の効果を同期させること、および同様の技術によって行うことで、現実世界の条件をモデル化することができる。
条件付き音響モデルは、現実世界の発話音声に存在する見込みがあるノイズおよびひずみを表すサウンド埋め込みを持つことから利益を得る。認識すべき発話がすぐ後に続く音声からサウンド埋め込みが計算されるので、見込みは高い。このことには、ノイズおよびひずみ等の環境情報を音響モデルに与えるという利点がある。結果として、エンコーダと条件付き音響モデルとの最適な合同訓練を実施するには、同一プロファイルのノイズまたはひずみを、キーフレーズおよび発話音声の双方に混合することが重要である。混合されたノイズは、キーフレーズと発話との間で同一である必要はないが、同一プロファイルを有していなければならない。すなわち、これは、同一のレシピによって、または、連続ノイズの1つの記録されたセッションから、生成されねばならない。
図7は、ノイズが訓練に混合されたエンコーダモデルおよび条件付き音響モデルの合同訓練を示す。これは、キーフレーズとそのすぐ後に話された発話との双方を有するスピーチ音声セグメントのサンプルを含む訓練データ73のコーパスを使用する。発話音声セグメントはラベル付けされる74。ノイズモデル77は、発話スピーチセグメント78およびキーフレーズスピーチセグメント79と混合されるノイズを生成する。ノイズが混合されたキーフレーズを、エンコーダ訓練76のために用い、エンコーダモデル71がサウンド埋め込みを計算するために用いる。サウンド埋め込みおよびラベルは、音響モデル訓練プロセス75において、ノイズが混合された発話スピーチセグメントとともに適用されて、訓練された条件付き音響モデル72を生成する。
音響モデル訓練75は、勾配を計算しエンコーダ訓練76に誤差逆伝播することにより、エンコーダモデル71と条件付き音響モデル72とを、訓練の各繰り返しにおいて、合同訓練する。
コンピュータ化されたシステム
コンピュータ化された多くのシステムは、高精度ASRのために条件付き音響モデルを使用することができる。いくつかの例として、ASRを実行するクラウドサーバ等のサーバ、埋め込まれたシステム、モノのインターネット(Internet of Things)(IoT)デバイス、携帯電話またはその他のモバイルハンドセット、パーソナルコンピュータ口述システム、自動車およびその他の車両のためのボイス制御システム、ならびに小売販売システムおよびデバイスが挙げられる。以下のセクションでは、その他各種のアプリケーションに適用可能な関連する特徴を示すいくつかの例について説明する。
クライアントサーバシステム
ホームスマートスピーカー等のいくつかのシステムは、クライアント−サーバ方式を使用する。スマートスピーカーデバイスはエンコーダ機能を含み得る。スマートスピーカーデバイスが、ウェイクフレーズを話すユーザの音声をキャプチャすると、これは、キーフレーズ音声として取り込まれ、符号化され、サーバに送られる。サーバは、ASR、自然言語理解(natural language understanding)(NLU)等のサービスを提供することができ、第三者アプリケーションプログラミングインターフェイス(API)からのデータを要求し、コマンドをデバイスに戻すことを要求する。
図8は、実施形態に係る、ユーザ80と、クライアントとしてネットワーク83を通してサーバ81に結合されるデバイス82とのやり取りを示す。デバイス82は、そのすぐ後に発話が続くキーフレーズのスピーチ音声を受ける。デバイス82は、ソフトウェアで実現されたエンコーダ86によってキーフレーズ音声を処理することにより、キーフレーズ音声からサウンド埋め込みを計算する。デバイス82は、サウンド埋め込みをメモリに記憶させ、次に、記憶されているサウンド埋め込みをサーバ81に送り、スピーチから発話音声をキャプチャし、発話音声をサーバ81に送る。サーバ81は次に、高性能プロセッサ上のソフトウェアですべて実現される条件付き音響モデル85を用いてASR84を実行する。条件付き音響モデル85は、デバイス82が送ったサウンド埋め込みを使用する。
異なるデバイスがそれぞれの計算能力に基づいて異なるエンコーダを使用する場合、デバイス上でサウンド埋め込みを符号化することが有益となり得る。たとえば、スマートスピーカーのような壁のコンセントに接続されるデバイスは、通常、スマートフォンのようなバッテリーを電源とするポータブルデバイスよりも高い処理性能を維持することができる。また、エンコーダをデバイス上で実行することは、そうすることでウェイクフレーズ音声をネットワークを通じてサーバに送信する必要がなくなるので、有益となり得る。
一体型システム
エンコーダ86、ASR84、および条件付き音響モデル85と等価の機能を、ユーザのローカルデバイス内で実現することも可能である。そうすることは、デバイスがインターネット接続なしで音声認識を実行できることになるので、有益となり得る。このことは、モバイルワイヤレスネットワーク接続がない場所に運転する場合がある自動車、または、ユーザが移動中にまたはプライバシーを守るために「機内モード」に切り替える場合があるモバイルデバイスにとって、重要である。
ネットワーク接続を利用できるときはサウンド埋め込みおよび発話音声をサーバに送信するがネットワーク接続を利用できないときはローカルASRモードに切り替わるデュアルモードシステムを備えることも可能である。
サーバシステム
エンコーダ86、ASR84、および条件付き音響モデル85の機能すべてをサーバ上で実行することも可能である。そうするためには、キーフレーズの音声を、エンコーダ機能が処理できるよう、クライアントからサーバに送る必要がある。これは、サーバのオペレータがエンコーダまたは条件付き音響モデルを容易にアップグレードできるので、利点となり得る。これはまた、サーバの処理能力は通常クライアントデバイスよりも遥かに高くそのためローカルエンコーダを複雑にせずに単に音声をサーバに送る低機能のクライアントを用いてシステムを設計するのはより簡単であるため、利点となり得る。
図9Aは、複数のブレードを有するデータセンターにおけるサーバシステム91の図を示す。
図9Bは、サウンド特徴に対して音響モデルを条件付けするのに役立ち得るサーバシステム内の機能のブロック図である。サーバシステム91は、中央処理装置(CPU)92の1つ以上のクラスタと、グラフィック処理装置(GPU)93の1つ以上のクラスタとを含む。各種実装例は、推定と訓練のいずれかまたは双方のために、CPUとGPUのいずれかまたは双方を使用し得る。また、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、テンソル・プロセッシング・ユニット(tensor processing unit)(TPU)またはその他のコプロセッサ、アクセレレータ、または専用デバイスを使用することも可能である。
CPU92およびGPU93は、相互接続94を通してランダムアクセスメモリ(RAM)デバイス95に接続される。RAMデバイスは、サウンド埋め込み、CPUおよびGPUに対するソフトウェア命令、ニューラルネットワークまたはその他のモデルのパラメータ値、音声データ、オペレーティングシステムソフトウェア、ならびにシステム動作に必要なその他のデータ等の、一時的なデータ値を記憶することができる。
サーバシステム91は、相互接続94に接続されたネットワークインターフェイス96をさらに含む。ネットワークインターフェイス96は、遠隔クライアントデバイスからの、サウンド埋め込み、発話のスピーチ音声、ならびに、場合によっては、キーフレーズ、およびシステム動作に必要なその他のデータ等の、データを、送受信する。
ユーザデバイス
先に述べたように、多数のタイプのデバイスが、スピーチ制御インターフェイスをユーザに対して提示することができる。図10は、携帯電話である一例を示す。ユーザ100はスピーチ音声を携帯電話101に与える。携帯電話101は、航空機のように見えるアイコン102で示されるように機内モードである。
携帯電話101は、スピーチ音声を受けキーフレーズのスピーチ音声からサウンド埋め込みを符号化するエンコーダ106を含む。携帯電話101はさらに、スピーチ音声およびサウンド埋め込みを受けるASR機能104を含む。ASR機能104は、サウンド埋め込みを用いて、スピーチ音声から音素確率を推定する、音響モデル105を含む。
結果として、この携帯電話は、ユーザスピーチを認識し、デバイスRAMに記憶されているopening appまたはプレイミュージックもしくはムービー等のローカル機能を実行することができる。
SoC
多くの埋め込まれたデバイス、IoTデバイス、モバイルデバイス、およびダイレクトユーザインターフェイスを備えたその他のデバイスは、制御されてASRをSoCによって実行させる。SoCは、デバイス機能を制御するために、統合されたプロセッサおよび数重または数百のインターフェイスを有する。図11Aは、パッケージングされたシステムオンチップデバイス111の底面を示し、プリント回路基板に対する表面実装はんだ付けのためのボールグリッドアレイがある。各種SoC実装例に対して各種パッケージ形状およびサイズが可能である。
図11Bは、システムオンチップ111のブロック図を示す。これは、CPUコア112のマルチコアクラスタと、GPUコア113のマルチコアクラスタとを含む。プロセッサは、ネットワークオンチップ114を介して、揮発性プログラムのためおよびサウンド埋め込み等のデータのデータ記憶のためのオフチップダイナミックランダムアクセスメモリ(DRAM)インターフェイス115と、フラッシュRAM非一時的コンピュータ読取可能媒体におけるコンピュータプログラムコードの不揮発性記憶のためのフラッシュインターフェイス116とに、接続される。SoC111はまた、ASRトランスクリプションをユーザに対して表示するまたは仮想アシスタントコマンドの結果を表示するといった機能のためにグラフィカルユーザインターフェイスを表示するためのディスプレイインターフェイス116と、異なる周辺機器に応じて必要な各種I/Oインターフェイスデバイスへの接続のためのI/Oインターフェイスモジュール117とを有する。I/Oインターフェイスは、特に、タッチスクリーンセンサ等のセンサ、ジオロケーション受信機、マイク、スピーカー、ブルートゥース(登録商標)周辺機器、およびキーボードおよびマウス等のUSBデバイスを、可能にする。SoC111はまた、WiFi(登録商標)、3G、4Gロングタームエボリューション(long-term evolution)(LTE)、5G、およびその他のワイヤレスインターフェイス標準無線ならびにイーサネット(登録商標)接続ハードウェアのような、有線または無線接続を通して、プロセッサがインターネットにアクセスできるようにする、ネットワークインターフェイス118を含む。インターフェイス115を介してRAMデバイスに記憶されている命令を、または、インターフェイス116を介してフラッシュデバイスに記憶されている命令を、実行することにより、CPU112およびGPU113は本明細書に記載の方法のステップを実行する。
CRM
プログラムコード、サウンド埋め込み等のデータ、キーフレーズおよび発話についての音声データ、オペレーティングシステムコード、ならびにその他必要なデータは、非一時的なコンピュータ読取可能媒体によって記憶される。
図12は、フラッシュランダムアクセスメモリ(RAM)チップである、一例としてのコンピュータ読取可能媒体121を示す。データセンターは一般的にフラッシュメモリを用いてサーバプロセッサのためのデータおよびコードを記憶する。モバイルデバイスは一般的にフラッシュメモリを用いてプロセッサのためのデータおよびコードをSoCに記憶する。非一時的なコンピュータ読取可能媒体121は、1つ以上のコンピュータによって実行されると当該コンピュータに本明細書に記載の方法ステップを実行させる命令を含むコードを記憶する。その他のデジタルデータ記憶媒体は、さまざまなアプリケーションにおいて適切なものとなり得る。
特記事項
示され説明されている例は、特定の口頭言語を使用する。さまざまな実装例が、その他の言語または言語の組み合わせに対して同様に動作する。いくつかの実装例は、表示画面を持たないイヤピースのように画面なしである。いくつかの実装例は、自動販売機のように静止型である。いくつかの実装例は、自動車のように移動型である。いくつかの実装例は携帯電話のように携帯型である。いくつかの実装例は人体に埋め込まれてもよい。いくつかの実装例は、キーボードまたはタッチスクリーン等のマニュアルインターフェイスを含む。いくつかの実装例は、人間の思考を自然言語表現の一形態として使用するニューラルインターフェイスを含む。
いくつかの実装例は、ARMまたはx86アーキテクチャを有するもの等の汎用CPU上でソフトウェアを実行することにより、機能する。いくつかのパワーセンシティブ実装例、および、とりわけ高性能を必要とするいくつかの実装例は、ハードウェア最適化を使用する。いくつかの実装例は、Synopsys社のARCプロセッサおよびCadence社のXtensaプロセッサ等の、専用システムオンチップにおける設定可能な命令とともにアプリケーションをカスタマイズ可能なプロセッサを使用する。いくつかの実装例は、FPGAに焼き込まれた専用ハードウェアブロックを使用する。いくつかの実装例は、GPUのアレイを使用する。いくつかの実装例は、カスタマイズされたロジックとともにASICを使用することにより最高のパフォーマンスを与える。いくつかの実装例は、言語Verilogで記述されたコード等のハードウェア記述言語のものである。
本明細書において、原理、特徴、および実施形態を述べている説明は、その構造および機能的均等物を包含する。当業者は、数多くの改良形および変形を認識するであろう。

Claims (11)

  1. コンピュータで実現される、スピーチ音声における音素確率を推定する方法であって、前記方法は、
    スピーチの第1セグメントからサウンド埋め込みを符号化するステップを含み、前記第1セグメントは、キーフレーズに対応し、前記方法は、さらに、
    前記サウンド埋め込みを記憶するステップと、
    スピーチの前記第1セグメントのすぐ後に続くスピーチの第2セグメントと、記憶された前記サウンド埋め込みとを、入力として有する音響モデルを利用して、音素確率を推定するステップとを含む、方法。
  2. 前記音響モデルは、スピーチ音声のラベル付けされたサンプルで訓練され、ラベル付けされた前記サンプルのそれぞれは、対応付けられたキーフレーズを有し、前記キーフレーズから前記サウンド埋め込みが計算される、請求項1に記載の方法。
  3. コンピュータで実現される、音響モデルの機械学習を実施する方法であって、
    訓練データを利用して前記音響モデルを訓練するステップを含み、
    前記訓練は、サウンド埋め込みを含み、各前記サウンド埋め込みは、各サンプルにおいてスピーチの第1セグメントから符号化され、前記第1セグメントは、キーフレーズに対応し、
    前記訓練データは、スピーチの第2セグメントを含み、前記第2セグメントのそれぞれは、スピーチの前記第1セグメントのそれぞれのすぐ後に続き、
    前記訓練データは、前記第2セグメントのそれぞれのグラウンドトゥルース音素シーケンスを含む、方法。
  4. 前記サンプルは、多様なノイズプロファイルと混合された多様なボイスを含み、前記サンプルのそれぞれについて、前記第1セグメントおよび前記2セグメントは同じノイズプロファイルと混合されている、請求項1〜3のいずれか1項に記載の方法。
  5. コンピュータで実現される、音響モデルの機械学習を実施する方法であって、
    訓練データを利用して前記音響モデルを訓練するステップを含み、
    前記訓練データは、スピーチの第1セグメントを含み、前記スピーチの第1セグメントのそれぞれは、キーフレーズに対応し、
    前記訓練データは、サウンド埋め込みを含み、前記サウンド埋め込みのそれぞれは、スピーチの前記第1セグメントのそれぞれから符号化される、方法。
  6. 前記符号化は、前記音響モデルと合同訓練されるエンコーダモデルを使用する、請求項1〜5のいずれか1項に記載の方法。
  7. 前記合同訓練は、
    コスト関数に従って計算された勾配を誤差逆伝搬させて前記音響モデルを訓練することと、
    前記勾配を誤差逆伝搬させて前記エンコーダモデルを訓練することとを含む、請求項6に記載の方法。
  8. スピーチの前記第1セグメントから第2のサウンド埋め込みを符号化するステップと、
    前記第2のサウンド埋め込みを記憶するステップと、をさらに含み、
    前記音響モデルは、記憶された前記第2のサウンド埋め込みに対して、さらに他の入力を有する、請求項1〜7のいずれか1項に記載の方法。
  9. コンピュータ化されたスピーチ処理システムであって、前記コンピュータ化されたスピーチ処理システムは、
    キーフレーズのスピーチ音声を受けることと、
    エンコーダモデルを用いて、前記キーフレーズのスピーチ音声からサウンド埋め込みを符号化することと、
    前記キーフレーズを受けたすぐ後に前記サウンド埋め込みをメモリデバイスに記憶させることと、
    前記キーフレーズのスピーチのセグメントのすぐ後に続く未知のフレーズの発話のスピーチ音声を受けることと、
    前記記憶させたサウンド埋め込みと前記発話のスピーチ音声とをネットワークを介して音声認識サーバに送信することとを、可能にするようにされる、コンピュータ化されたスピーチ処理システム。
  10. 前記キーフレーズのスピーチのセグメントのすぐ後に続く未知のフレーズの発話のスピーチ音声を受けることと、
    前記発話のスピーチ音声に対する前記音響モデルおよび前記サウンド埋め込みを用いて音素確率を推定することとを、さらに可能にするようにされる、請求項9に記載のコンピュータ化されたスピーチ処理システム。
  11. 前記エンコーダモデルは、前記サウンド埋め込みに対してその出力を条件付けする音響モデルとともに合同訓練されたものである、請求項9または10に記載のコンピュータ化されたスピーチ処理システム。
JP2021074216A 2020-04-27 2021-04-26 サウンド特徴に対する音響モデル条件付け Pending JP2021184087A (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US202062704202P 2020-04-27 2020-04-27
US62/704,202 2020-04-27
US17/224,967 2021-04-07
US17/224,967 US11741943B2 (en) 2020-04-27 2021-04-07 Method and system for acoustic model conditioning on non-phoneme information features

Publications (1)

Publication Number Publication Date
JP2021184087A true JP2021184087A (ja) 2021-12-02

Family

ID=75728619

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021074216A Pending JP2021184087A (ja) 2020-04-27 2021-04-26 サウンド特徴に対する音響モデル条件付け

Country Status (5)

Country Link
US (2) US11741943B2 (ja)
EP (1) EP3905237A1 (ja)
JP (1) JP2021184087A (ja)
KR (1) KR20210132615A (ja)
CN (1) CN113643693B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11011162B2 (en) 2018-06-01 2021-05-18 Soundhound, Inc. Custom acoustic models
JP2023552090A (ja) * 2020-11-20 2023-12-14 ザ トラスティーズ オブ コロンビア ユニバーシティ イン ザ シティー オブ ニューヨーク 連邦政府が後援する研究に関する音声ノイズ除去の声明のためのニューラルネットワークベースの手法
US20230031702A1 (en) * 2021-07-14 2023-02-02 Google Llc Neural Networks based Multimodal Transformer for Multi-Task User Interface Modeling
KR102559488B1 (ko) * 2022-11-02 2023-07-25 주식회사 포지큐브 범죄 예방 서비스 방법 및 시스템

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2482874B (en) 2010-08-16 2013-06-12 Toshiba Res Europ Ltd A speech processing system and method
WO2013110125A1 (en) 2012-01-24 2013-08-01 Auraya Pty Ltd Voice authentication and speech recognition system and method
JP2015049254A (ja) 2013-08-29 2015-03-16 株式会社日立製作所 音声データ認識システム及び音声データ認識方法
CN103632667B (zh) 2013-11-25 2017-08-04 华为技术有限公司 声学模型优化方法、装置及语音唤醒方法、装置和终端
US9613624B1 (en) * 2014-06-25 2017-04-04 Amazon Technologies, Inc. Dynamic pruning in speech recognition
US10373612B2 (en) 2016-03-21 2019-08-06 Amazon Technologies, Inc. Anchored speech detection and speech recognition
CN107481728B (zh) 2017-09-29 2020-12-11 百度在线网络技术(北京)有限公司 背景声消除方法、装置及终端设备
CN108932944B (zh) 2017-10-23 2021-07-30 北京猎户星空科技有限公司 解码方法及装置
US10672380B2 (en) 2017-12-27 2020-06-02 Intel IP Corporation Dynamic enrollment of user-defined wake-up key-phrase for speech enabled computer system
US11011162B2 (en) * 2018-06-01 2021-05-18 Soundhound, Inc. Custom acoustic models
CN110619871B (zh) 2018-06-20 2023-06-30 阿里巴巴集团控股有限公司 语音唤醒检测方法、装置、设备以及存储介质
US11295739B2 (en) * 2018-08-23 2022-04-05 Google Llc Key phrase spotting
US10573312B1 (en) * 2018-12-04 2020-02-25 Sorenson Ip Holdings, Llc Transcription generation from multiple speech recognition systems
CN110085217A (zh) 2019-03-15 2019-08-02 中科恒运股份有限公司 语音导航方法、装置及终端设备
US20200090657A1 (en) 2019-11-22 2020-03-19 Intel Corporation Adaptively recognizing speech using key phrases

Also Published As

Publication number Publication date
CN113643693B (zh) 2024-02-09
EP3905237A1 (en) 2021-11-03
US20230352000A1 (en) 2023-11-02
KR20210132615A (ko) 2021-11-04
US20210335340A1 (en) 2021-10-28
CN113643693A (zh) 2021-11-12
US11741943B2 (en) 2023-08-29

Similar Documents

Publication Publication Date Title
US11848018B2 (en) Utterance classifier
JP6574169B2 (ja) 多方向の復号をする音声認識
JP2021184087A (ja) サウンド特徴に対する音響モデル条件付け
US20190318759A1 (en) Context-based detection of end-point of utterance
US9070367B1 (en) Local speech recognition of frequent utterances
US20210312914A1 (en) Speech recognition using dialog history
JP2020515877A (ja) ささやき声変換方法、装置、デバイス及び可読記憶媒体
US11302329B1 (en) Acoustic event detection
JP2013205842A (ja) プロミネンスを使用した音声対話システム
KR20210042523A (ko) 전자 장치 및 이의 제어 방법
Basak et al. Challenges and Limitations in Speech Recognition Technology: A Critical Review of Speech Signal Processing Algorithms, Tools and Systems.
CN114120979A (zh) 语音识别模型的优化方法、训练方法、设备及介质
US20240071408A1 (en) Acoustic event detection
JP2023511390A (ja) アテンションベースのジョイント音響およびテキストのオンデバイス・エンド・ツー・エンドモデル
Fadel et al. Which French speech recognition system for assistant robots?
Kos et al. A speech-based distributed architecture platform for an intelligent ambience
JP7291099B2 (ja) 音声認識方法及び装置
US11699444B1 (en) Speech recognition using multiple voice-enabled devices
Bhagath et al. Speech recognition for indian spoken languages towards automated home appliances
KR20210081166A (ko) 다국어 음성 환경에서의 언어 식별 장치 및 방법
WO2022226782A1 (en) Keyword spotting method based on neural network
US11763814B2 (en) Hybrid voice command processing
Ahmed et al. 8. Modern Approach of Speech Recognition
CN117690424A (zh) 一种智能对话机器人的控制系统及方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231222