JP2021184087A

JP2021184087A - サウンド特徴に対する音響モデル条件付け

Info

Publication number: JP2021184087A
Application number: JP2021074216A
Authority: JP
Inventors: ジズ・ゴウェイド; Gowayyed Zizu; キーバン・モハジャー; Mohajer Keyvan
Original assignee: SoundHound Inc
Current assignee: SoundHound Inc
Priority date: 2020-04-27
Filing date: 2021-04-26
Publication date: 2021-12-02
Also published as: CN113643693B; EP3905237A1; US20230352000A1; KR20210132615A; US20210335340A1; CN113643693A; US11741943B2

Abstract

【課題】珍しい環境条件による、スピーチ認識能力の不正確さを改善したスピーチ処理システム及び方法を提供する。【解決手段】方法は、キーフレーズ音声と、そのすぐ後に続く発話と、を有するスピーチ音声のセグメントをキャプチャし、エンコーダが、キーフレーズに対応するセグメントを用いてサウンド埋め込みを計算し、音声認識のための音響モデルが、入力としてのサウンド埋め込みに対して条件付けされたモデルを用いて、発話音声信号からの音素を推定する。【選択図】図４Ａ

Description

発明の分野
本発明は、サウンド埋め込み（embedding）に基づく条件付け（conditioning）の分野に属する。

背景
我々は、自然言語スピーチインターフェイスが新たなタイプのヒューマンマシンインターフェイスとして今まさに普及しようとしている歴史上のターニングポイントにいる。このインターフェイスがスピーチを文字に変える能力は、近いうちに最速で最も正確なテキスト入力方法としてキーボードに取って代わるであろう。このインターフェイスが自然言語コマンドをサポートする能力は、近いうちに非テキストコントロールの操作方法としてマウスおよびタッチスクリーンに取って代わるであろう。総合的に、上記インターフェイスは、仕事、娯楽、教育、リラクゼーション、および雑用の補助のために人間がマシンを制御するためのクリーンで無菌の方法を提供する。

しかしながら、現在のところ、自然言語スピーチインターフェイスが上記利点のすべてを提供する能力は、そのスピーチ認識能力の不正確さによって妨げられている。アイルランド語のアクセントの「サーティ・スリー（１３）」を「ダーティ・ツリー（汚い木）」としてとらえるなど、単語を間違って認識することは、往々にして滑稽である。場合によって、騒音が大きい車からの「text mon（お母さんにメールして）」を、「text tom（明日メールして）」、「text none（何もメールしないで）」、「text some（何かメールして）」ととらえる場合などは、フラストレーションを引き起こす可能性がある。場合によって、高い声の医者が口頭で下した「失語症（aphasia）」という医学的診断を「嚥下障害（aphagia）」ととらえる場合など、音声認識の間違いは、危険を伴い得る。

図１は、仮想アシスタントという文脈における音声認識失敗のシナリオを示す。ユーザ１０は、独特の声道を持つ人物であり、ニュージーランドアクセントで話をし、窓１１に雨が落ちている騒々しい部屋にいる。ユーザ１０は、ニュージーランドの首都であるAuckland（オークランド）では明日雨が降るか否かを予測するために、仮想アシスタントを呼び出す１２。サンフランシスコ・ベイエリアの企業の仮想アシスタント１３は、Aucklandという単語をベイエリアシティのOakland（オークランド）と認識し、その場所の天気に関する役に立たない反応を返す１４。米国北西部の企業の別の仮想アシスタント１５は、Aucklandという単語をカナダ西部の都市であるFalkland（フォークランド）と認識し、これも役に立たない反応を返す１６。

珍しいアクセントで珍しいボイスタイプのスピーチ、ノイズ、バックグラウンドボイス、または音楽のような珍しい環境条件、珍しいデバイスの使用、およびその他の珍しいシナリオの場合、従来の音声認識は、正確性の問題に遭遇し、そのために、静かな家の中で音楽を再生するといった狭い用途にしか適さないものになってしまう。これらの問題を解決して初めて、ボイスインターフェイスを備えた製品は、日常生活におけるその潜在的な有用性を実現する。

発明の概要
サウンド特徴に対する音響モデル条件付け（音素確率の推定にサウンドの特徴を利用する音響モデルであって、以下、「条件付き音響モデル」と称される）は、自動音声認識（automatic speech recognition）（ＡＳＲ）の精度を大幅に改善する単純で強力な技術を提供する。

用途
条件付き音響モデルは、ボイスタイプ、アクセント、環境条件などの珍しいユースケースおいて最大の改善をもたらす。これには、バックグラウンドノイズ、音楽、またはスピーチがあってもＡＳＲを正確なものにするといった特有の利点がある。

多くのＡＳＲシステムは、データで訓練されたニューラルネットワークを使用する。ニューラルネットワークアーキテクチャは、層の数、ノードの数、畳み込み、回帰、および訓練方法という点で、多岐にわたる。本発明は、使用される特定のニューラルネットワークアーキテクチャとは関係なく、ＡＳＲの精度にとっての利点をもたらす。さらに、改善された精度を提供することで、ＡＳＲシステムを、ＡＳＲに対する従来のアプローチで必要な時間および訓練データよりも少ない時間および訓練データで、要求される精度仕様を満たすように、訓練することが可能である。これにより、音声認識製品およびサービスの提供者が、より迅速に新たな特徴を開発して市場に投入し、その競争市場における地位と総収益力を改善することを、可能にする。

ＡＳＲにとってのこれらの利点は、図１の例のようにキーフレーズに応答して起動する仮想アシスタント内だけでなく、口述システム、車両制御インターフェイス、小売販売システム、および、一般的に話されている既知のキーフレーズを認識するボイスインターフェイスのその他任意の用途でも、実現することができる。

実装例
音響モデル（acoustic model）（ＡＭ）は、ＡＳＲのための方法であり、かつ、ＡＳＲのためのコンピュータ化されたシステムの重要な要素でもある。特に、ＡＭは、スピーチ音声における音素の確率を推定する。条件付き音響モデルは、既知の音素シーケンスを有するキーフレーズのスピーチの第１セグメントからサウンド埋め込みを符号化することに依拠する。機械学習において、埋め込みは、単に、入力表現を別のより好都合な表現空間内に投射することを意味する、専門用語である。音声の第１セグメントは、少数の音声サンプルまたは１つのスペクトルフレームほどのごく小さいものである可能性がある、または、数個の単語のストリングほどの大きさかもしれない。符号化されたベクトルは、音声の第１セグメントの終わりの直後（immediately after）またはすぐ後（shortly after）に、計算されて記憶される。

次に、条件付き音響モデルは、キーフレーズ音声のすぐ後に続く、発話を含むスピーチ音声の第２セグメントについて、音素確率の推定を実行する。ＡＭに対する入力は、スピーチ音声の発話セグメントおよび記憶されたベクトルの両方である。出力は、少なくとも１つの音素の確率であるが、多くの実装例では、一組の音素のうちの各々についての、確率のソフトマックス（SoftMax）セットである。

いくつかの実装例は、音響モデルに対してニューラルネットワークを使用し、ニューラルネットワークを、各サンプルが対応するキーフレーズのサウンド埋め込みを有する、スピーチ音声のラベル付けされたサンプルで、訓練する。この対応関係は、ＡＭの学習された予測に対するサウンド埋め込みの効果が、各訓練データサンプルごとに、正しい方向およびバランスであることを、保証する。

多様な範囲のユーザをサポートするＡＳＲシステムの場合、訓練サンプルが多種多様なボイスと多種多様なアクセントとを含むならば、結果として推定精度は最高になる。さらに、推定精度は、訓練音声サンプルのうちの少なくとも一部がノイズ音声サンプルと混合された場合に、最高になる。しかしながら、サウンド埋め込みの学習効果は、キーフレーズ音声と混合されたノイズと訓練発話音声と混合されたノイズとが同一のノイズプロファイルを有する場合に、最高になる。

さまざまな種類のエンコーダが可能である。慎重にプログラムされたものがあってもよい。ニューラルネットワーク等のデータから学習されたモデルがあってもよい。エンコーダに対し、予め訓練されたモデルを使用することが可能である。しかしながら、エンコーダモデルを音響モデルと合同で訓練することも可能である。これは、エンコーダモデル内における音響モデル勾配のニューラルネットワークノードへの誤差逆伝播を含み得る。合同訓練は、一般的に、より高い精度をもたらすが、その理由は、エンコーダが、訓練されたＡＭモデルに弁別能力を与えるサウンド埋め込みのパープレキシティ（perplexity）を最適化するサウンド埋め込みを学習するからである。

１つ以上の合同訓練された符号化モデルおよび１つ以上の独立して訓練された符号化モデルに、キーフレーズ音声からサウンド埋め込みを符号化および記憶させ、符号化したものを音響モデルへの入力として提供させることも可能である。

異なるデバイスにおいてエンコーダと音響モデルとを有することが可能である。たとえば、ウェイクフレーズスポッターを実行するためにマイクおよびコンピュータ化されたコードを備えたクライアントデバイスは、キーフレーズの符号化を計算することもできる。次に、その後の発話を有する音声第２セグメントを、符号化されたベクトルとともに、条件付き音響モデルを実行するＡＳＲサーバに送ることができる。サーバに基づくＡＳＲは、ユーザデバイスにおけるコストおよび消費電力要件を低くした状態で高い精度を提供する。

しかしながら、サウンド埋め込みを符号化することおよびそれを条件付き音響モデルで使用することのすべてを同一システム内で行うことも可能である。それは、キーフレーズ音声とそれに続く発話付きの発話音声セグメントとを受けるサーバであってもよい。しかしながら、このシステム全体が、自動車等のユーザデバイスの中に、またはネットワーク接続なしの「機内モード」でＡＳＲを実行できるモバイルハンドセットの中に含まれていてもよい。

従来のシステムにおける音声認識の失敗を示す図である。キーフレーズと発話とを含むスピーチ音声の波形を示す図である。一般的な処理されたスピーチ音声内の情報の表を示す図である。実施形態に係る、１つのエンコーダおよび条件付けられた音響モデルの図を示す。実施形態に係る、複数のエンコーダおよび条件付けられた音響モデルの図を示す。実施形態に係る、サウンド埋め込みに対して条件付けられた音響モデルの訓練の図を示す。実施形態に係る、エンコーダと、サウンド埋め込みに対して条件付けられた音響モデルとの合同訓練の図を示す。実施形態に係る、エンコーダと、ノイズが混合された訓練データを用いてサウンド埋め込みに対して条件付けられた音響モデルとの合同訓練の図を示す。実施形態に係る、クラウドサーバに対して音響モデルを条件付けするためのベクトルを提供するエンコーダを備えたデバイスの図を示す。実施形態に係るクラウドサーバを示す図である。実施形態に係るクラウドサーバの図を示す。実施形態に係る、エンコーダと、局所音声認識のための条件付き音響モデルとを備えたモバイルハンドセットを示す図である。実施形態に係る、パッケージングされたシステムオンチップを示す図である。実施形態に係る、システムオンチップの図を示す。実施形態に係る、非一時的なコンピュータ読取可能媒体を示す図である。

詳細な説明
以下のテキストは、条件付き音響モデルの関連する側面についてのさまざまな設計選択肢を説明する。特に明記されていない限り、異なる側面についての設計選択肢は、互いに独立しており、任意に組み合わされてともに機能する。

音響モデル
ＡＳＲのための音響モデルは、スピーチ音声のセグメントを含む入力を取り込み、１つ以上の音素の推定された確率の出力を生成する。いくつかのモデルは、一種の音素確率である、音声要素（senone）確率を推定してもよい。いくつかのアプリケーションにおいて、音響モデルの出力は、一組の認識可能な音素または音声要素全体についての確率のソフトマックスセットである。

いくつかのＡＳＲアプリケーションは、音声のフレームから計算されたスペクトル成分に対して音響モデルを実行する。スペクトル成分は、たとえば、音声サンプルの２５ミリ秒のウィンドウで計算されたメル周波数ケプストラム係数（mel-frequency cepstral coefficient）（ＭＦＣＣ）である。音響モデル推定は、たとえば１０ミリ秒ごとに繰り返してもよい。

スペクトル成分は、スピーチ制御デバイスのユーザインターフェイスの一部としてのマイクが取り込んだもののような、音声波形のサンプルから、計算することができる。これに代えて、音響モデルを訓練することで、このようなサンプルを入力として直接取り込むことができる。

１つのシステムまたはデバイスが、２つ以上の音響モデルを含んでいてもよい。キーフレーズが話されたときにトリガ信号をアサートするだけのフレーズスポッターについては、単純なもので十分であろう。高精度音声認識用の音響モデルは、記録されたスピーチを解析するために、高性能コンピュータプロセッサ上でリアルタイムでまたは非リアルタイムでさえ利用できる、妥当なリソース予算内で実現するのに現実的な数の層およびノードを有するニューラルネットワークを使用することができる。いくつかの音響モデルは、妥当なボキャブラリサイズの携帯用バッテリーを電源とするデバイスの処理能力予算内に収まる中間精度レベルで設計してもよい。

いくつかの音響モデルは、入力された特徴の畳み込みを計算することにより、推定精度を改善できるさまざまな粒度レベルの情報を利用することができる。いくつかの音響モデルは、長・短期記憶（long short-term memory）（ＬＳＴＭ）またはゲート付き回帰型ユニット（gated recurrent unit）（ＧＲＵ）のニューラルネットワークノードのような回帰を用いることにより、入力信号の一時的変化に含まれる情報を利用することができる。

図２は、スピーチ波形の一例を示す。これは、話者がキーフレーズを話した場所である、スピーチの第１セグメント２１を含む。キーフレーズは、既知の単語のフレーズであり、したがって、既知の音素シーケンスである。キーフレーズは、クエリまたはコマンドである短い発話を認識してそれに反応するボイス仮想アシスタントを起動するのに有効である。いくつかの例として、「ＯＫ、グーグル（Okay Google（登録商標））」および「アレクサ（Alexa（登録商標））」が挙げられる。キーフレーズは、自動口述を実行するシステムを制御するために使用される、スピーチのボイスコマンドとしても発生する。いくつかの例として、「ピリオド（period）」、「改行（new line）」、および「元に戻す（undo that）」が挙げられる。

スピーチ波形においてキーフレーズ２１に続くのは、発話であるスピーチの第２セグメント２２である。発話は、事前にわかっていない単語および音素のスピーチである。条件付き音響モデルの目的は、ユーザの発話のＡＳＲに高い精度をもたらすことである。

図３は、スピーチ音声のさまざまな表現に含まれる情報の表である。一般的に、発話音声は、話されている音素に関する情報を含む。これはまた、話者の性別および年齢の推測等にも使用可能な、話者の声道の生理機能のようなものを含む、話者のボイスに関する情報を含む。また、発話音声は、話者のアクセント、スピーチ速度、および、話者が自身の考えをスピーチにする方法のその他の属性に関する情報を含む。また、発話音声は、モータおよび風のような連続するバックグラウンドノイズ、ならびに、そのサウンドのデジタルでキャプチャされた表現の音である空気圧の波の間の伝達関数に影響するその他のひずみパラメータ等の、環境に関する情報を含む。

キーフレーズ音声は、話された音素以外の情報すべてを含む。なぜなら、キーフレーズは既知の一組の音素を有するからである。システムが、キーフレーズが話されたことを正確に識別する限り、キーフレーズ内の音素は、事前にわかっており、したがって、スピーチ音声に含まれる冗長情報である。

これに対し、音響モデルの所望の出力は音素である。巧妙に作成された音響モデルは、スピーチ音声からのボイス、属性、および環境情報を拒絶し、話された音素のみを出力する。

図２の例のようにキーフレーズ２１のすぐ後に発話２２が続く場合、ボイス、属性、および環境情報は、キーフレーズ音声と発話音声との間でほぼ同一である可能性が非常に高い。このため、キーフレーズ音声の特徴を解析しそれらを適切な符号化で表すことにより、これらの特徴を、当該特徴を拒絶することで音素を表すスピーチ音声の特徴をより正確に識別できる条件付き音響モデルに、与えることが可能である。

キーフレーズ音声から特徴を符号化するステップも、音響モデルを用いて音素を推定するステップも、注意深く構成されたデジタル信号処理アルゴリズムにより、または、ニューラルネットワーク等の１つ以上のモデルを大きく多様なデータセットで訓練することにより、または信号処理と訓練されたモデルとの双方の組み合わせにより、行うことができる。訓練された条件付き音響モデルは、符号化されたキーフレーズ音声特徴の入力を有するように、訓練されている。キーフレーズ音声の特徴を認識し符号化するためのモデルは、独立して訓練する、または音響モデルと合同で訓練することができる。

スマートスピーカーのような遠距離デバイスおよびモバイルハンドセットのような近距離デバイスをサポートするクラウドＡＳＲシステムのような、さまざまな種類のデバイスまたは環境をサポートするシステムにおいて、複数の音響モデルを持つことが可能である。同様に、異なる言語または地域に対してＡＳＲをサポートするシステムは、複数の音響モデルを有していてもよい。エンコーダを用いて、推定する音響モデル間で単純に選択された出力を生成することが、最も適切であろう。

サウンド埋め込み
キーフレーズからの、符号化されたボイス、アクセント、および環境情報は、サウンド埋め込みの中で表される。サウンド埋め込みは、話者のボイスの物理的属性、そのアクセントおよびスピーチスタイルの属性、そのバックグラウンドノイズ、反響等の環境の属性、ならびにマイクおよびアナログデジタル変換器の伝達関数に関する情報をキャプチャする。換言すれば、サウンド埋め込みは、話者のボイスの物理的属性、話者のアクセントの属性、話者のスピーチスタイルの属性、ならびに、話者の環境（バックグラウンドノイズ、反響、マイクおよびアナログデジタル変換器の伝達関数、など）のうちの少なくとも１つを表す情報を含む。キーフレーズのキャプチャされた音声からサウンド埋め込みを計算することで、サウンド埋め込みは、フレーズ間の変動の影響を受けず、大抵の場合は文脈および心情を原因とする変動の影響を受けない。発話の少し前のサウンド埋め込みをキャプチャすることにより、さまざまなデバイス特徴の影響、または、温度、感情、健康状態、およびその他の身体的要素を原因とするボイスの変動の影響を受けない。サウンド埋め込みは、サウンドの音響特徴を表すベクトルである。サウンド埋め込みベクトルは、（word2vec、GloVe、等の）単語埋め込みベクトルが単語を意味空間に埋め込むように、サウンドの音響特徴をサウンドの特徴空間に埋め込む。ベクトル形式で表現された音響特徴は、削減された次元数を有することができ、これが、処理リソース要件を減じる。たとえば、ウェイクフレーズの１秒間の音声について毎秒８０００サンプルで音声がサンプリングされた場合、当該ウェイクフレーズに関する音響特徴は８０００次元の情報になり得る。エンコーダモデルは、この８０００次元の情報を、当該ウェイクフレーズの音響特徴を表現する、１０または１０００次元のサウンド埋め込みベクトルに変換してもよい。

サウンド埋め込みは、コールセンターのセキュリティのために使用されるもののような話者認識に使用される特徴ベクトルとは異なる。このような話者認識特徴ベクトルは、環境情報を拒絶することにより、環境変化の影響、ならびに時間およびキャプチャデバイスの違いの影響を受けないようにしている。このようなシステムは、話者に対してフレーズを複数回繰り返すことを要求するまたはその他の技術を採用することで、話者のボイスを環境情報から区別することを実現する。

サウンド埋め込みは、フレーズに依存しないダイアライゼーション（diarization）に使用される話者のＩＤ情報とも異なる。これは、スピーチの音素内容が未知であることを埋め合わせる、フレーズに依存しないアルゴリズムを用いる。

サウンド埋め込みは、環境情報を含むが表音情報を含まない空間にある。このような空間は、エンコーダを訓練するプロセスを経て学習できる。このような場合、訓練は、多数のボイス、アクセント、および環境変動を含むであろうが、すべて、予め定められたキーフレーズの音素を話している間のものである。

サウンド埋め込み空間を学習することは、データから、フレーズに依存するｉベクトルまたはｘベクトル空間を学習することに匹敵する。たとえば、性別、アクセント、またはノイズ等のカテゴリでラベル付けされたデータを用いて訓練を行う必要はない。埋め込み空間はその情報を学習する。条件付き音響モデル間の合同訓練を使用しないシステムの場合、ｘベクトルまたはｉベクトル用のもののようなオフザシェルフまたはサードパーティエンコーダモデルのようなエンコーダモデルを使用することが可能である。

エンコーダ
図４Ａは、サウンド特徴に対する音響モデル条件付けの図を示す。一実施形態において、図４Ａに示された処理は、コンピュータ（仮想アシスタント、自動車制御システム、その他のボイスユーザインターフェイス、等）が音声認識処理を実施するソフトウェアプログラムを実行することによって実現される。音声認識処理として、このソフトウェアプログラムは、コンピュータに、キーフレーズ音声をエンコーダ４１に入力させる。エンコーダ４１は、キーフレーズ音声を受け、サウンド埋め込みを計算する。コンピュータは、キーフレーズの最後または最後の近くで、エンコーダ４１からサウンド埋め込みを取得し、このサウンド埋め込みをメモリに記憶する。

エンコーダは、わずか数ミリ秒の音声に対して動作することができる。これは、フレーズスポッターがトリガされる前の、０．２または１．０秒等の一定期間からバッファされた音声のセグメントに対して動作することができる。エンコーダは、ボイスアクティビティ検出器（voice activity detector）（ＶＡＤ）がスピーチを検出してトリガした時点、その少し前、またはそのすぐ後から、フレーズスポッターがトリガされた時点、その少し前、またはそのすぐ後までの、音声のセグメントに対して動作することができる。エンコーダは、キーフレーズではない認識された単語が終わったすぐ後から、キーフレーズが認識された時点、その少し前、またはそのすぐ後までの、音声のセグメントに対して動作することができる。エンコーダは、ＶＡＤの終了時点からＶＡＤの開始時点までの、非スピーチ音声のセグメントに対して動作することができる。エンコーダが使用するキーフレーズ音声のセグメント化のためのさまざまな機構が可能である。エンコーダが、ボイス、アクセント、および／または環境情報を含むが事前にわかっていない音素のスピーチを含まないサウンドを主に解析することが重要である。

上記スピーチ認識処理の一部として、上記ソフトウェアプログラムは、コンピュータに、発話音声とサウンド埋め込みとを音響モデル４２に入力させる。図４Ａにおいて、条件付き音響モデル４２は、発話音声と、記憶されたサウンド埋め込みとを取り込み、音素確率を推定する。コンピュータは、音響モデル４２から音素確率の推定結果を取得し、当該推定結果を、統計言語モデル等のその他の機能および自然言語理解等のサービスを提供するサーバに送信する。記憶されたサウンド埋め込みは、変更されず、新たなキーフレーズが検出されてエンコーダ４１が再び動作してサウンド埋め込みを再度生成するかまたはセッションが終了するかまたは長時間が経過してその後話者もしくは環境が変化したときに初めて、置き換えられる。音響モデル４２は、キーフレーズのすぐ後のセグメントの音素確率の推定に、このセグメントだけでなく、このキーフレーズからエンコードされたサウンド埋め込みを利用する。キーフレーズからエンコードされたサウンド埋め込みは、当該キーフレーズのすぐ後のセグメントに存在する可能性があるスピーチ音声の特徴を表す。音響モデル４２は、そのセグメントと同じ特徴を表すサウンド埋め込みを利用することにより、当該セグメントの音素確率を高い精度で推定し得る。たとえば、人間が「シュッ（sh）」と言っても、風が吹いても、マイクは「シュッ（sh）」というサウンドを受け取る。音響モデル４２は、セグメントと同じ特徴を表すサウンド埋め込みを利用することにより、マイクが受けた「シュッ（sh）」というサウンドの出所として、人間が特定のやり方で言った「シュッ（sh）」を、より正確に風と区別し得る。また、人間が「ウーッ（oooo）」と言っても、トンネルの中でそのサウンドが取得されても、マイクは「ウーッ（oooo）」というサウンドを受け取る。セグメントと同じ特徴を表すサウンド埋め込みを利用することにより、音響モデル４２は、マイクが受けた「ウーッ（oooo）」というサウンドの出所として、人間が特定のやり方で言った「ウーッ（oooo）」を、より正確に、トンネルの中で受けた他のサウンドと区別し得る。

複数のエンコーダ
合同訓練されるエンコーダおよび条件付き音響モデルの場合、十分に訓練された１つのエンコーダは、一般的に、精度改善の実現のためのコンピューティングリソースの最も効率的な使用であろう。しかしながら、いくつかの実装例の場合、オフザシェルフ（off-the-shelf）エンコーダ、異なるコードベースからのエンコーダ、または特定の用途のために最適化されたエンコーダのような、予め訓練された複数のエンコーダを使用することは有益となり得る。これは、最小の再訓練作業でさまざまなアプリケーションのためにシステムをカスタマイズするためのモジュール性を提供することができる。

２つ以上のエンコーダを備えることも好都合となり得る。これは、たとえば、多数のアプリケーションまたは言語全体において有用な汎用サウンド埋め込みエンコーダを、次に、特定のアプリケーションまたは言語について精度を改善するためのモジュラーエンコーダを備えるのに役立つ。その簡単な例は、各々が、条件付き音響モデルに対する有用な入力であるキーフレーズに対してサウンド埋め込みを符号化する、性別検出エンコーダおよび言語検出エンコーダを有するシステムであろう。

理論上、使用できるエンコーダの数、および、条件付き音響モデルに対する入力として使用できるサウンド埋め込みの数には制限がない。各々が、キーフレーズスピーチ音声を処理することにより、１つ以上の次元値のベクトルを出力する。図４Ｂは、複数のサウンド埋め込みを生成する複数のエンコーダ４３を用いる、サウンド埋め込みに対する音響モデル条件付けの図を示す。複数のサウンド埋め込みが、キーフレーズ処理の最後に記憶され、次に、発話音声に対して動作することにより音素確率を推定する条件付き音響モデル４４への入力として使用される。

異なるエンコーダがまたはエンコーダと音響モデルとが、異なるサンプリングレートまたはビット深度で動作することも可能である。これは、たとえば、エンコーダが生の入力音声に対しては高精度で動作するが圧縮された音声を帯域幅が制限された接続を通して音響モデルに送信する場合に、または、フレーズスポッターが音声を低サンプリングレートでキャプチャしてパワーを節約しその音声セグメントを用いてサウンド埋め込みを計算する一方で音響モデルが発話スピーチに対して動作するためにサンプリングレートを高める場合に、有用となり得る。

口述システム
サウンド埋め込みに対する音響モデル条件付けは、汎用仮想アシスタント、自動車制御システム、およびその他のボイスユーザインターフェイスにおける１つのクエリごとの場合には有用であるが、これは口述システムにおいても有用である。口述システムは、キーフレーズを検出すると常にサウンド埋め込みを再計算して記憶する。これは、キーフレーズの後で、セッションが終了するまでまたは別のキーフレーズがキャプチャされるまで、認識を継続的に改善することができる。

キーフレーズは、「ピリオド」、「改行」または「元に戻す」等の一般的なコマンドとすることができる。一般的に、検出したキーフレーズの精度が高いことが重要である。長い単語は音声認識において確実性が高いので、１０音素等の特定の長さにわたる任意の単語の間に話された音声を用いることが可能である。しきい値を超える認識確率スコアに対して新たなサウンド埋め込みの記憶を条件付けすることも可能である。

更新されたサウンド埋め込みの計算および記憶は、口述システムのユーザには聞こえず見えないように起こり得る。これは、ユーザが選択できる任意の特徴であってもよい。

訓練
データから学習されない音響モデルを設計することが可能である。しかしながら、本セクションは、音響モデルをデータから訓練する方法に注目する。本セクションは、学習されるモデルのタイプの一例としてニューラルネットワークに注目するが、隠れマルコフモデル（hidden Markov model）（ＨＭＭ）等のその他のタイプの統計モデルを訓練することが可能である。

サウンド埋め込みに対して条件付けされる音響モデルは精度が改善されているので、目標ワードエラー率等の所定の目標精度の場合、この目標を、訓練時間、訓練の反復回数、および／または訓練データを少なくして、達成することが可能である。

従来の音響モデルとの重要な違いは、条件付き音響モデルが、ボイス、アクセント、および環境情報を含む音声にアクセスすることができ、事実上、既知のフレーズのスピーチであることから、暗に「ラベル付けされている」点である。

図５は、音響モデルの訓練を示す。これは、キーフレーズスピーチセグメントとキーフレーズのすぐ後に続く発話セグメントとの双方を有するスピーチ記録５３を訓練データして用いる。キーフレーズと発話との間の時間の長さが、大抵の人々がボイス仮想アシスタントに対して起動するように要求してからボイス仮想アシスタントにコマンドを与えるまでに休止する時間の長さより短い場合、発話セグメントはキーフレーズのすぐ後に続く。この時間の長さはメモリに格納され得る。エンコーダモデル５１は、キーフレーズスピーチセグメントを処理することによってサウンド埋め込みを計算し、計算したサウンド埋め込みをメモリに格納する。

厳密には必要ではないが、多くの訓練システムは、ラベル付けされたデータについての教師あり学習を用いる。そのような場合、発話音声は、ラベル付けされる５４。ラベル付けは、典型的に、人間が発話を聴くこと、機械による文字起こしが正確か否かを確認すること、および、機械による文字起こしが正しくなければ正しい文字起こしを入力することを必要とする。人間のラベラーは、人間が読み取ることができるテキストを用いてラベルを入力する傾向がある。これは次に音素のシーケンスに変換される。同形異義−同形異音語の場合、正しい音素はコンテキストから選択してもよく、または、このようなサンプルは訓練から除外してもよい。手法に関係なく、音響モデル訓練５５への入力は、ラベリングされた音素、音素と一致するように時系列で並べられた音声サンプルまたはスペクトル値、およびサウンド埋め込みの、グラウンドトゥルース音素シーケンス（ground-truth sequence of phonemes）である。換言すれば、音響モデルの訓練データでは、音素と一致するように時間的に並べられた音声サンプルまたはスペクトル値が正しい音素およびサウンド埋め込みでラベル付けされる。一実施形態において、音響モデル訓練５５は、機械学習プログラムを実行して音響モデル５２を訓練するデバイスによって実現されてもよい。当該機械学習プログラムは、各々がサウンド埋め込みに対応付けられている訓練データを利用して、音響モデル５２を訓練する。訓練結果は、サウンド埋め込みなしで訓練された音響モデルよりも正確に、サウンド埋め込みを用いて入力スピーチ音声について推定を実行できる音響モデル５２である。より具体的には、音響モデル４２は、キーフレーズサウンド埋め込みが対応付けられている訓練データによって、より高い精度で音素確率を推定するように訓練され得る。たとえば、マイクは、「シュッ（sh）」というサウンドを、人間が「シュッ（sh）」と言っても風が吹いても受け取る。セグメントと同じ特徴を表すサウンド埋め込みを用いることにより、音響モデル４２は、マイクが受けた「シュッ（sh）」というサウンドの出所として、人間が特定のやり方で言った「シュッ（sh）」を、より正確に風と区別することができる。また、マイクは、「ウーッ（oooo）」というサウンドを、人間が「ウーッ（oooo）」と言っても、トンネルの中でこのサウンドが取得されても、受け取る。セグメントと同じ特徴を表すサウンド埋め込みを利用することにより、音響モデル４２は、マイクが受けた「ウーッ（oooo）」というサウンドの出所として、人間が特定のやり方で言った「ウーッ（oooo）」を、トンネルの中で受けた他のサウンドと、より正確に区別することができる。

訓練されたいずれのデータとも同様に、訓練された音響モデル５２は、訓練データ５３のコーパスが多様でありかつモデルが実際の用途で遭遇するであろうスピーチの範囲をカバーしている場合、最も正確になる。

合同訓練
サウンド埋め込みを計算するエンコーダは、デジタル信号処理アルゴリズムで実現されてもよい。これはデータから学習される統計モデルであってもよい。具体的には、ニューラルネットワークを用いて実現されてもよい。エンコーダニューラルネットワークは、１つ以上の畳み込み層、回帰ノード、ＬＳＴＭまたはＧＲＵ等の長期回帰ノード、および、少なくとも１つまたは２つの「ディープ」フィードフォワード層を含み得る。

エンコーダニューラルネットワークを訓練することにより、キーフレーズ音声に対するサウンド埋め込みの多様な範囲を与える埋め込み空間を学習することが可能である。これは、条件付き音響モデルから独立して実行されてもよい。独立した訓練は、異なるチームまたは企業によって実行されるのであれば、または、エンコーダがローパワー埋め込みシステムのために最適化され音響モデルが高性能クラウドコンピューティングデータセンターのために最適化されるなど、異なるプロジェクトの一部としてまたは異なる性能要件のために実行されるのであれば、優れた手法となり得る。

しかしながら、エンコーダモデルと条件付き音響モデルとを合同で訓練することも可能である。図６は、エンコーダモデルおよび条件付き音響モデルの合同訓練を示す。独立した音響モデルの訓練について先に述べたように、訓練は、訓練データ６３のコーパスで始まる。訓練データサンプルの各々が、キーフレーズとそのすぐ後に続く発話とを含む。発話音声セグメントはラベル付けされる６４。キーフレーズ音声は、エンコーダモデル６１によって符号化され、結果として得られたサウンド埋め込みを、その対応する発話音声セグメントおよびグラウンドトゥルースラベルとともに使用することにより、訓練６５の反復を実行する。この訓練の反復は、コスト関数に従って音響モデル６２内のパラメータの勾配を計算し、勾配をこのモデルを通して誤差逆伝播する。勾配は次にエンコーダモデル６６のための訓練プロセスに誤差逆伝播され、これが、エンコーダモデル６１のパラメータを更新する。多数の反復について実行することにより、エンコーダモデルは、音響モデルの条件付けに一層役立つサウンド埋め込みを生成することを学習し、音響モデルは、サウンド埋め込みを使用することにより、このモデルが独立して訓練された場合よりも高い精度を実現することを学習する。

多くのＡＳＲシステムは、言語モデルを、音響モデルからの仮説化された音素シーケンスに適用する。いくつかの実験システムは、合同訓練された音響モデルおよび言語モデル、または、スピーチ音声のセグメントからテキストを直接推定する一体型ニューラルネットワークを用いる。キーフレーズ音声から計算されたサウンド埋め込みに対するニューラルネットワークの「エンドツーエンド」音声認識等の条件付けは、全体の精度を改善することができる。理由はおそらく、サウンド埋め込みにおけるボイス、アクセント、および環境情報を、それを音素情報とともに含む信号から除外することを学習するニューラルネットワークは、この情報を、音声からの単語の推定に関連するより高レベルの特徴の推定から除外することによっても利益を得ることができることにある。

ノイズ混合
クリーンなスピーチ音声で訓練された音響モデルの、現実世界のノイズが多いスピーチ音声の精度は、ノイズが多いスピーチで訓練されたモデルよりも低い。しかしながら、まだ作られていないまたは市場で発表されていない製品について、ＡＳＲの予測されるノイズ条件を正確に表す訓練データを収集することは難しい。一般的な技術は、ノイズを比較的クリーンなスピーチ音声と混合することにより、音声データ訓練を条件付けすることである。これを、スピーチ音声をノイズの記録と混合すること、信号処理を通して故意にひずみを与えること、反響等の効果を同期させること、および同様の技術によって行うことで、現実世界の条件をモデル化することができる。

条件付き音響モデルは、現実世界の発話音声に存在する見込みがあるノイズおよびひずみを表すサウンド埋め込みを持つことから利益を得る。認識すべき発話がすぐ後に続く音声からサウンド埋め込みが計算されるので、見込みは高い。このことには、ノイズおよびひずみ等の環境情報を音響モデルに与えるという利点がある。結果として、エンコーダと条件付き音響モデルとの最適な合同訓練を実施するには、同一プロファイルのノイズまたはひずみを、キーフレーズおよび発話音声の双方に混合することが重要である。混合されたノイズは、キーフレーズと発話との間で同一である必要はないが、同一プロファイルを有していなければならない。すなわち、これは、同一のレシピによって、または、連続ノイズの１つの記録されたセッションから、生成されねばならない。

図７は、ノイズが訓練に混合されたエンコーダモデルおよび条件付き音響モデルの合同訓練を示す。これは、キーフレーズとそのすぐ後に話された発話との双方を有するスピーチ音声セグメントのサンプルを含む訓練データ７３のコーパスを使用する。発話音声セグメントはラベル付けされる７４。ノイズモデル７７は、発話スピーチセグメント７８およびキーフレーズスピーチセグメント７９と混合されるノイズを生成する。ノイズが混合されたキーフレーズを、エンコーダ訓練７６のために用い、エンコーダモデル７１がサウンド埋め込みを計算するために用いる。サウンド埋め込みおよびラベルは、音響モデル訓練プロセス７５において、ノイズが混合された発話スピーチセグメントとともに適用されて、訓練された条件付き音響モデル７２を生成する。

音響モデル訓練７５は、勾配を計算しエンコーダ訓練７６に誤差逆伝播することにより、エンコーダモデル７１と条件付き音響モデル７２とを、訓練の各繰り返しにおいて、合同訓練する。

コンピュータ化されたシステム
コンピュータ化された多くのシステムは、高精度ＡＳＲのために条件付き音響モデルを使用することができる。いくつかの例として、ＡＳＲを実行するクラウドサーバ等のサーバ、埋め込まれたシステム、モノのインターネット（Internet of Things）（ＩｏＴ）デバイス、携帯電話またはその他のモバイルハンドセット、パーソナルコンピュータ口述システム、自動車およびその他の車両のためのボイス制御システム、ならびに小売販売システムおよびデバイスが挙げられる。以下のセクションでは、その他各種のアプリケーションに適用可能な関連する特徴を示すいくつかの例について説明する。

クライアントサーバシステム
ホームスマートスピーカー等のいくつかのシステムは、クライアント−サーバ方式を使用する。スマートスピーカーデバイスはエンコーダ機能を含み得る。スマートスピーカーデバイスが、ウェイクフレーズを話すユーザの音声をキャプチャすると、これは、キーフレーズ音声として取り込まれ、符号化され、サーバに送られる。サーバは、ＡＳＲ、自然言語理解（natural language understanding）（ＮＬＵ）等のサービスを提供することができ、第三者アプリケーションプログラミングインターフェイス（ＡＰＩ）からのデータを要求し、コマンドをデバイスに戻すことを要求する。

図８は、実施形態に係る、ユーザ８０と、クライアントとしてネットワーク８３を通してサーバ８１に結合されるデバイス８２とのやり取りを示す。デバイス８２は、そのすぐ後に発話が続くキーフレーズのスピーチ音声を受ける。デバイス８２は、ソフトウェアで実現されたエンコーダ８６によってキーフレーズ音声を処理することにより、キーフレーズ音声からサウンド埋め込みを計算する。デバイス８２は、サウンド埋め込みをメモリに記憶させ、次に、記憶されているサウンド埋め込みをサーバ８１に送り、スピーチから発話音声をキャプチャし、発話音声をサーバ８１に送る。サーバ８１は次に、高性能プロセッサ上のソフトウェアですべて実現される条件付き音響モデル８５を用いてＡＳＲ８４を実行する。条件付き音響モデル８５は、デバイス８２が送ったサウンド埋め込みを使用する。

異なるデバイスがそれぞれの計算能力に基づいて異なるエンコーダを使用する場合、デバイス上でサウンド埋め込みを符号化することが有益となり得る。たとえば、スマートスピーカーのような壁のコンセントに接続されるデバイスは、通常、スマートフォンのようなバッテリーを電源とするポータブルデバイスよりも高い処理性能を維持することができる。また、エンコーダをデバイス上で実行することは、そうすることでウェイクフレーズ音声をネットワークを通じてサーバに送信する必要がなくなるので、有益となり得る。

一体型システム
エンコーダ８６、ＡＳＲ８４、および条件付き音響モデル８５と等価の機能を、ユーザのローカルデバイス内で実現することも可能である。そうすることは、デバイスがインターネット接続なしで音声認識を実行できることになるので、有益となり得る。このことは、モバイルワイヤレスネットワーク接続がない場所に運転する場合がある自動車、または、ユーザが移動中にまたはプライバシーを守るために「機内モード」に切り替える場合があるモバイルデバイスにとって、重要である。

ネットワーク接続を利用できるときはサウンド埋め込みおよび発話音声をサーバに送信するがネットワーク接続を利用できないときはローカルＡＳＲモードに切り替わるデュアルモードシステムを備えることも可能である。

サーバシステム
エンコーダ８６、ＡＳＲ８４、および条件付き音響モデル８５の機能すべてをサーバ上で実行することも可能である。そうするためには、キーフレーズの音声を、エンコーダ機能が処理できるよう、クライアントからサーバに送る必要がある。これは、サーバのオペレータがエンコーダまたは条件付き音響モデルを容易にアップグレードできるので、利点となり得る。これはまた、サーバの処理能力は通常クライアントデバイスよりも遥かに高くそのためローカルエンコーダを複雑にせずに単に音声をサーバに送る低機能のクライアントを用いてシステムを設計するのはより簡単であるため、利点となり得る。

図９Ａは、複数のブレードを有するデータセンターにおけるサーバシステム９１の図を示す。

図９Ｂは、サウンド特徴に対して音響モデルを条件付けするのに役立ち得るサーバシステム内の機能のブロック図である。サーバシステム９１は、中央処理装置（ＣＰＵ）９２の１つ以上のクラスタと、グラフィック処理装置（ＧＰＵ）９３の１つ以上のクラスタとを含む。各種実装例は、推定と訓練のいずれかまたは双方のために、ＣＰＵとＧＰＵのいずれかまたは双方を使用し得る。また、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、テンソル・プロセッシング・ユニット（tensor processing unit）（ＴＰＵ）またはその他のコプロセッサ、アクセレレータ、または専用デバイスを使用することも可能である。

ＣＰＵ９２およびＧＰＵ９３は、相互接続９４を通してランダムアクセスメモリ（ＲＡＭ）デバイス９５に接続される。ＲＡＭデバイスは、サウンド埋め込み、ＣＰＵおよびＧＰＵに対するソフトウェア命令、ニューラルネットワークまたはその他のモデルのパラメータ値、音声データ、オペレーティングシステムソフトウェア、ならびにシステム動作に必要なその他のデータ等の、一時的なデータ値を記憶することができる。

サーバシステム９１は、相互接続９４に接続されたネットワークインターフェイス９６をさらに含む。ネットワークインターフェイス９６は、遠隔クライアントデバイスからの、サウンド埋め込み、発話のスピーチ音声、ならびに、場合によっては、キーフレーズ、およびシステム動作に必要なその他のデータ等の、データを、送受信する。

ユーザデバイス
先に述べたように、多数のタイプのデバイスが、スピーチ制御インターフェイスをユーザに対して提示することができる。図１０は、携帯電話である一例を示す。ユーザ１００はスピーチ音声を携帯電話１０１に与える。携帯電話１０１は、航空機のように見えるアイコン１０２で示されるように機内モードである。

携帯電話１０１は、スピーチ音声を受けキーフレーズのスピーチ音声からサウンド埋め込みを符号化するエンコーダ１０６を含む。携帯電話１０１はさらに、スピーチ音声およびサウンド埋め込みを受けるＡＳＲ機能１０４を含む。ＡＳＲ機能１０４は、サウンド埋め込みを用いて、スピーチ音声から音素確率を推定する、音響モデル１０５を含む。

結果として、この携帯電話は、ユーザスピーチを認識し、デバイスＲＡＭに記憶されているopening appまたはプレイミュージックもしくはムービー等のローカル機能を実行することができる。

ＳｏＣ
多くの埋め込まれたデバイス、ＩｏＴデバイス、モバイルデバイス、およびダイレクトユーザインターフェイスを備えたその他のデバイスは、制御されてＡＳＲをＳｏＣによって実行させる。ＳｏＣは、デバイス機能を制御するために、統合されたプロセッサおよび数重または数百のインターフェイスを有する。図１１Ａは、パッケージングされたシステムオンチップデバイス１１１の底面を示し、プリント回路基板に対する表面実装はんだ付けのためのボールグリッドアレイがある。各種ＳｏＣ実装例に対して各種パッケージ形状およびサイズが可能である。

図１１Ｂは、システムオンチップ１１１のブロック図を示す。これは、ＣＰＵコア１１２のマルチコアクラスタと、ＧＰＵコア１１３のマルチコアクラスタとを含む。プロセッサは、ネットワークオンチップ１１４を介して、揮発性プログラムのためおよびサウンド埋め込み等のデータのデータ記憶のためのオフチップダイナミックランダムアクセスメモリ（ＤＲＡＭ）インターフェイス１１５と、フラッシュＲＡＭ非一時的コンピュータ読取可能媒体におけるコンピュータプログラムコードの不揮発性記憶のためのフラッシュインターフェイス１１６とに、接続される。ＳｏＣ１１１はまた、ＡＳＲトランスクリプションをユーザに対して表示するまたは仮想アシスタントコマンドの結果を表示するといった機能のためにグラフィカルユーザインターフェイスを表示するためのディスプレイインターフェイス１１６と、異なる周辺機器に応じて必要な各種Ｉ／Ｏインターフェイスデバイスへの接続のためのＩ／Ｏインターフェイスモジュール１１７とを有する。Ｉ／Ｏインターフェイスは、特に、タッチスクリーンセンサ等のセンサ、ジオロケーション受信機、マイク、スピーカー、ブルートゥース（登録商標）周辺機器、およびキーボードおよびマウス等のＵＳＢデバイスを、可能にする。ＳｏＣ１１１はまた、ＷｉＦｉ（登録商標）、３Ｇ、４Ｇロングタームエボリューション（long-term evolution）（ＬＴＥ）、５Ｇ、およびその他のワイヤレスインターフェイス標準無線ならびにイーサネット（登録商標）接続ハードウェアのような、有線または無線接続を通して、プロセッサがインターネットにアクセスできるようにする、ネットワークインターフェイス１１８を含む。インターフェイス１１５を介してＲＡＭデバイスに記憶されている命令を、または、インターフェイス１１６を介してフラッシュデバイスに記憶されている命令を、実行することにより、ＣＰＵ１１２およびＧＰＵ１１３は本明細書に記載の方法のステップを実行する。

ＣＲＭ
プログラムコード、サウンド埋め込み等のデータ、キーフレーズおよび発話についての音声データ、オペレーティングシステムコード、ならびにその他必要なデータは、非一時的なコンピュータ読取可能媒体によって記憶される。

図１２は、フラッシュランダムアクセスメモリ（ＲＡＭ）チップである、一例としてのコンピュータ読取可能媒体１２１を示す。データセンターは一般的にフラッシュメモリを用いてサーバプロセッサのためのデータおよびコードを記憶する。モバイルデバイスは一般的にフラッシュメモリを用いてプロセッサのためのデータおよびコードをＳｏＣに記憶する。非一時的なコンピュータ読取可能媒体１２１は、１つ以上のコンピュータによって実行されると当該コンピュータに本明細書に記載の方法ステップを実行させる命令を含むコードを記憶する。その他のデジタルデータ記憶媒体は、さまざまなアプリケーションにおいて適切なものとなり得る。

特記事項
示され説明されている例は、特定の口頭言語を使用する。さまざまな実装例が、その他の言語または言語の組み合わせに対して同様に動作する。いくつかの実装例は、表示画面を持たないイヤピースのように画面なしである。いくつかの実装例は、自動販売機のように静止型である。いくつかの実装例は、自動車のように移動型である。いくつかの実装例は携帯電話のように携帯型である。いくつかの実装例は人体に埋め込まれてもよい。いくつかの実装例は、キーボードまたはタッチスクリーン等のマニュアルインターフェイスを含む。いくつかの実装例は、人間の思考を自然言語表現の一形態として使用するニューラルインターフェイスを含む。

いくつかの実装例は、ＡＲＭまたはｘ８６アーキテクチャを有するもの等の汎用ＣＰＵ上でソフトウェアを実行することにより、機能する。いくつかのパワーセンシティブ実装例、および、とりわけ高性能を必要とするいくつかの実装例は、ハードウェア最適化を使用する。いくつかの実装例は、Ｓｙｎｏｐｓｙｓ社のＡＲＣプロセッサおよびＣａｄｅｎｃｅ社のＸｔｅｎｓａプロセッサ等の、専用システムオンチップにおける設定可能な命令とともにアプリケーションをカスタマイズ可能なプロセッサを使用する。いくつかの実装例は、ＦＰＧＡに焼き込まれた専用ハードウェアブロックを使用する。いくつかの実装例は、ＧＰＵのアレイを使用する。いくつかの実装例は、カスタマイズされたロジックとともにＡＳＩＣを使用することにより最高のパフォーマンスを与える。いくつかの実装例は、言語Ｖｅｒｉｌｏｇで記述されたコード等のハードウェア記述言語のものである。

本明細書において、原理、特徴、および実施形態を述べている説明は、その構造および機能的均等物を包含する。当業者は、数多くの改良形および変形を認識するであろう。

Claims

コンピュータで実現される、スピーチ音声における音素確率を推定する方法であって、前記方法は、
スピーチの第１セグメントからサウンド埋め込みを符号化するステップを含み、前記第１セグメントは、キーフレーズに対応し、前記方法は、さらに、
前記サウンド埋め込みを記憶するステップと、
スピーチの前記第１セグメントのすぐ後に続くスピーチの第２セグメントと、記憶された前記サウンド埋め込みとを、入力として有する音響モデルを利用して、音素確率を推定するステップとを含む、方法。
前記音響モデルは、スピーチ音声のラベル付けされたサンプルで訓練され、ラベル付けされた前記サンプルのそれぞれは、対応付けられたキーフレーズを有し、前記キーフレーズから前記サウンド埋め込みが計算される、請求項１に記載の方法。
コンピュータで実現される、音響モデルの機械学習を実施する方法であって、
訓練データを利用して前記音響モデルを訓練するステップを含み、
前記訓練は、サウンド埋め込みを含み、各前記サウンド埋め込みは、各サンプルにおいてスピーチの第１セグメントから符号化され、前記第１セグメントは、キーフレーズに対応し、
前記訓練データは、スピーチの第２セグメントを含み、前記第２セグメントのそれぞれは、スピーチの前記第１セグメントのそれぞれのすぐ後に続き、
前記訓練データは、前記第２セグメントのそれぞれのグラウンドトゥルース音素シーケンスを含む、方法。
前記サンプルは、多様なノイズプロファイルと混合された多様なボイスを含み、前記サンプルのそれぞれについて、前記第１セグメントおよび前記２セグメントは同じノイズプロファイルと混合されている、請求項１〜３のいずれか１項に記載の方法。
コンピュータで実現される、音響モデルの機械学習を実施する方法であって、
訓練データを利用して前記音響モデルを訓練するステップを含み、
前記訓練データは、スピーチの第１セグメントを含み、前記スピーチの第１セグメントのそれぞれは、キーフレーズに対応し、
前記訓練データは、サウンド埋め込みを含み、前記サウンド埋め込みのそれぞれは、スピーチの前記第１セグメントのそれぞれから符号化される、方法。
前記符号化は、前記音響モデルと合同訓練されるエンコーダモデルを使用する、請求項１〜５のいずれか１項に記載の方法。
前記合同訓練は、
コスト関数に従って計算された勾配を誤差逆伝搬させて前記音響モデルを訓練することと、
前記勾配を誤差逆伝搬させて前記エンコーダモデルを訓練することとを含む、請求項６に記載の方法。
スピーチの前記第１セグメントから第２のサウンド埋め込みを符号化するステップと、
前記第２のサウンド埋め込みを記憶するステップと、をさらに含み、
前記音響モデルは、記憶された前記第２のサウンド埋め込みに対して、さらに他の入力を有する、請求項１〜７のいずれか１項に記載の方法。
コンピュータ化されたスピーチ処理システムであって、前記コンピュータ化されたスピーチ処理システムは、
キーフレーズのスピーチ音声を受けることと、
エンコーダモデルを用いて、前記キーフレーズのスピーチ音声からサウンド埋め込みを符号化することと、
前記キーフレーズを受けたすぐ後に前記サウンド埋め込みをメモリデバイスに記憶させることと、
前記キーフレーズのスピーチのセグメントのすぐ後に続く未知のフレーズの発話のスピーチ音声を受けることと、
前記記憶させたサウンド埋め込みと前記発話のスピーチ音声とをネットワークを介して音声認識サーバに送信することとを、可能にするようにされる、コンピュータ化されたスピーチ処理システム。
前記キーフレーズのスピーチのセグメントのすぐ後に続く未知のフレーズの発話のスピーチ音声を受けることと、
前記発話のスピーチ音声に対する前記音響モデルおよび前記サウンド埋め込みを用いて音素確率を推定することとを、さらに可能にするようにされる、請求項９に記載のコンピュータ化されたスピーチ処理システム。
前記エンコーダモデルは、前記サウンド埋め込みに対してその出力を条件付けする音響モデルとともに合同訓練されたものである、請求項９または１０に記載のコンピュータ化されたスピーチ処理システム。