JP5423670B2 - 音響モデル学習装置および音声認識装置 - Google Patents

音響モデル学習装置および音声認識装置 Download PDF

Info

Publication number
JP5423670B2
JP5423670B2 JP2010510052A JP2010510052A JP5423670B2 JP 5423670 B2 JP5423670 B2 JP 5423670B2 JP 2010510052 A JP2010510052 A JP 2010510052A JP 2010510052 A JP2010510052 A JP 2010510052A JP 5423670 B2 JP5423670 B2 JP 5423670B2
Authority
JP
Japan
Prior art keywords
variation
model
acoustic model
unspecified
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010510052A
Other languages
English (en)
Other versions
JPWO2009133719A1 (ja
Inventor
孝文 越仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010510052A priority Critical patent/JP5423670B2/ja
Publication of JPWO2009133719A1 publication Critical patent/JPWO2009133719A1/ja
Application granted granted Critical
Publication of JP5423670B2 publication Critical patent/JP5423670B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Telephone Function (AREA)

Description

本発明は、音響モデルを構築するための学習技術に関する。
情報入力、情報検索、音声入力支援、映像インデクシングに加え、話者認識、音声による個人認証、音質測定、環境測定などの広範囲において、音声認識技術が利用されている。音声認識の精度を高めるために、音響モデルを学習することにより、伝送チャネルや雑音などに起因する変動要因の影響を軽減する試みがなされている。
図10は、非特許文献1と非特許文献2に開示された音響モデル学習技術を実現する音響モデル学習装置の模式の例を示す。図示のように、音響モデル学習装置1は、音声データ記憶手段11と、チャネルラベル記憶手段12と、不特定話者モデル学習手段13と、チャネルモデル学習手段14と、不特定話者モデル記憶手段15と、チャネルモデル記憶手段16を備える。
音声データ記憶手段11は、様々な伝送チャネルを介して取得されたサンプル音声データを記憶している。伝送チャネルとは、話者などの音声ソースから、該音声が録音されるまでに通った物理的装置の種類を意味し、固定電話(固定電話端末と固定電話通信回線を含む)や、携帯電話(携帯電話端末と携帯電話回線を含む)や、ボーカルマイクなどを例として挙げることができる。以下、伝送チャネルを単にチャネルともいう。
また、音声の内容が同一であっても、話者が女性であるか男性であるかによってデータとしての音声が異なる。同様に、同一の音声内容、同一の話者であっても、固定電話を介して録音したか携帯電話を介して録音したかによってデータとしての音声が異なる。複数の種類を有し、種類が異なることにより音声に変動が生じる音声ソースや、伝送チャネルなどは音環境と呼ばれる。
音響モデル学習装置1のチャネルラベル記憶手段12は、音声データ記憶手段11に記憶されたサンプル音声データに夫々対応した、該サンプル音声データが通ったチャネルを示すラベルデータを記憶している。
不特定話者モデル学習手段13は、音声データ記憶手段11とチャネルラベル記憶手段12からサンプル音声データとラベルデータを受け取り、サンプル音声データからチャネルという音環境に依存する変動成分を除去して、話者という音環境に依存する変動成分のみを抽出することにより、不特定話者音響モデルを学習する。以下の説明において、「不特定話者音響モデル」を「不特定話者モデル」ともいう。
チャネルモデル学習手段14は、音声データ記憶手段11とチャネルラベル記憶手段12からサンプル音声データとラベルデータを受け取り、チャネル毎に、該チャネルの音響モデルに相当するアフィン変換のパラメータを学習する。すなわち、チャネル音響モデルは、不特定話者モデルにアフィン変換を施すことにより得られるとの仮定に基づき、そのパラメータを学習することにより求められる。以下の説明において、「チャネル音響モデル」を「チャネルモデル」ともいう。
なお、不特定話者モデル学習手段13とチャネルモデル学習手段14は、互いに連動して非特許文献3に記載された反復解法を行い、不特定話者音響モデルとアフィン変換パラメータ(チャネル音響モデル)を更新し、反復解法が収束した後に、最終的な不特定話者音響モデルとアフィン変換パラメータを出力する。
不特定話者モデル記憶手段15は、不特定話者モデル学習手段13から不特定話者モデルを受け取って記憶し、チャネルモデル記憶手段16は、チャネルモデル学習手段14からチャネルモデルを受け取って記憶する。
音響モデル学習装置1によれば、チャネル毎に該チャネル固有のアフィン変換パラメータを取得することができる。従って、既知のいずれかのチャネルから入力された音声データに対して、アフィン変換を施した音響モデルを適用するか、音声データに対して逆アフィン変換を施すことにより、チャネルによる変動要因を軽減し、認識対象を正しく認識することができると考えられている。
D. A. Reynolds, "Channel robust speaker verification via feature mapping," Proc. ICASSP2003, Vol.II, pp.53−56, 2003 D. Zhu et al., "A generalized feature transformation approach for channel robust speaker verification," Proc. ICASSP2007, Vol.IV, pp.61−64, 2007 T. Anastasakos et al., "A compact model for speaker-adaptive training," Proc. ICSLP96, 1996
ところで、図10に示す音響モデル学習装置1では、チャネルモデル学習手段14は、チャネル毎にアフィン変換のパラメータを正確に推定するために、不特定話者モデル学習手段13が話者という音環境に起因する変動成分が無視できることを前提とするが、この前提は、必ず成立するとは限らない。
例えば、図11に示すようなサンプルデータ例の場合、すべての種類の話者について、すべてのチャネルを介した音声データが取得されている。この場合、同一の種類の話者がすべてのチャネルを通して発声した音声データを利用することができるため、どの話者が発声した音声であるかが未知であっても、チャネルの変化により音声の正味がどのように変わるかを知ることができる。これは、チャネル毎にまとめた音声データの集合をチャネル間で比較する場合にも同じである。
しかし、通常収集できるサンプルデータは、図11に示すような完璧なものではない。図12に示すサンプルデータの例を参照して、一部のチャネルで発声しなかった話者が存在する場合を考える。図12に示す例では、「女性」である話者が、「固定電話」と「携帯電話」の2つのチャネルを介した音声データがあるものの、「マイク」チャネルを介した音声データが無い。また、「高齢者」である話者が、「マイク」と「固定電話」の2つのチャネルを介した音声データがあるものの、「携帯電話」チャネルを介した音声データが無い。また、「男性」である発話者が、「携帯電話」チャネルを介した音声データのみがあり、「マイク」と「固定電話」の2つのチャネルを介した音声データが無い。
このような場合、例えば、「女性」である発話者について、「固定電話」チャネルと「携帯電話」チャネル間で音声がどのように異なるかを知ることができるが、「マイク」チャネルでの音声がどのようになるかについては把握することができない。
また、チャネル毎にまとめた音声データの集合についても同様のことが言える。たとえば、図12に示す例では、「マイク」チャネルの音声データの集合は、「高齢者」の音声データのみで構成、高齢者の音声の特徴を含んでいる。一方、「携帯電話」チャネルの音声データの集合には、「高齢者」の音声データが無いため、高齢者の音声の特徴を含まない。このような状況では、チャネルの違いによる変動要因と、話者の種類の違いによる変動要因が混ざっているため、チャネルの違いによる変動要因を把握することが困難である。
この状況は、収集方法を注意深く設計すると共に実行することによって収集されたサンプルデータではない限り、ごく普通に発生する。一方、収集方法を注意深く設計すると共に実行することは、計画や、被験者の確保に莫大なコストがかかり、現実的ではない。
本発明は、上記事情に鑑みてなされたものであり、完璧ではないサンプルデータの場合でも、精度の良い音響モデルを学習することができ、ひいては精度の良い音声認識ができる技術を提供する。
本発明の一つの態様は、音響モデル学習装置である。この音響モデル学習装置は、第1の変動モデル学習部と、第2の変動モデル学習部と、不特定音響モデル学習部を備える。
第1の変動モデル学習部は、複数の種類を有し、種類が異なることにより音声に変動が生じる第1の音環境のいずれか1種と、複数の種類を有し、種類が異なることにより音声に変動が生じる第2の音環境のいずれか1種とを介して取得されたサンプル音声データを用いて、第1の音環境の種類毎に、該種類の第1の音環境が音声に生じさせる変動を示す第1の変動モデルを規定するパラメータを推定する。
第2の変動モデル学習部は、上記複数のサンプル音声データを用いて、第2の音環境の種類毎に、該種類の第2の音環境が音声に生じさせる変動を示す第2の変動モデルを規定するパラメータを推定する。
不特定音響モデル学習部は、上記複数のサンプル音声データを用いて、第1の音環境の種類と第2の音環境の種類のいずれにも特定しない音響モデル(不特定音響モデル)を規定するパラメータを推定する。
これらの3つの学習部は、第1の変動モデルのサンプル音声データへの適合度と、第2の変動モデルのサンプル音声データへの適合度と、不特定音響モデルのサンプル音声データへの適合度を統合した統合適応度が最も高くなるように、それぞれのパラメータを推定する。
本発明の別の態様は、音声認識装置である。この音声認識装置は、本発明の上記態様の音響モデル学習装置により得られた各第1の変動モデルのうちの、所定種類の第1の音環境を介して取得された認識対象の音声データの当該所定種類に対応した第1の変動モデルが示す変動と逆の変換を、該認識対象の音声データに対して施す音声変換部を備え、該音声変換部により得た音声データに対して音声認識を行う。
本発明のまた別の態様も、音声認識装置である。この音声認識装置は、本発明の上記態様の音響モデル学習装置により得られた各第2の変動モデルのうちの、所定種類の第2の音環境を介して取得された認識対象の音声データの該所定種類に対応した第2の変動モデルが示す変動と逆の変換を、該認識対象の音声データに対して施す音声変換部を備え、該音声変換部により得た音声データに対して音声認識を行う。
本発明のさらなる別の態様は、音環境認識装置である。この音環境認識装置は、第2の音声変換部と、第1の音声変換部と、識別部を備える。
第2の音声変換部は、本発明の上記態様の音響モデル学習装置により得られた各第2の変動モデルのうちの、所定種類の第2の音環境を介して取得された認識対象の音声データの当該所定種類に対応した第2の変動モデルが示す変動と逆の変換を、該認識対象の音声データに対して施す。
第1の音声変換部は、本発明の上記態様の音響モデル学習装置により得られた各第1の変動モデルが示す変動と逆の変換を、第2の音声変換部により得た音声データに対して夫々行って複数の音声データを得る。
識別部は、上記第1の音声変換部が得た複数の音声データと、本発明の上記態様の音響モデル学習装置により得られた不特定音響モデルとを用いて、認識対象の音声データが通った第1の音環境の種類を識別する。
なお、上記各態様の装置を方法やシステム、またはコンピュータを当該装置として動作せしめるプログラムとして置き換えて表現したものも、本発明の態様として有効である。
本発明にかかる技術によれば、完璧ではないサンプルデータの場合でも、精度の良い音響モデルを学習することができ、ひいては音声認識の精度を高めることができる。
本発明にかかる技術を説明するための音響モデル学習装置の模式図である。 図1における音響モデル学習装置のサンプルデータ記憶部に記憶されたデータの構成例を示す図である。 音声データの生成過程を表すモデルの概念図である。 図1に示す音響モデル学習装置のおける処理の流れを示すフローチャートである。 本発明の第1の実施の形態にかかる音響モデル学習装置を示す図である。 本発明の第2の実施の形態にかかる音声認識装置を示す図である。 図6に示す音声認識装置における処理の流れを示すフローチャートである。 本発明の第3の実施の形態にかかる音声認識装置を示す図である。 図8に示す音声認識装置における処理の流れを示すフローチャートである。 従来の音響モデル学習方法の説明するための音響モデル学習装置の模式図である。 サンプル音声データの例を示す図である(その1)。 サンプル音声データの例を示す図である(その2)。
符号の説明
1 音響モデル学習装置 11 音声データ記憶手段
12 チャネルラベル記憶手段 13 不特定話者モデル学習手段
14 チャネルモデル学習手段 15 不特定話者モデル記憶手段
16 チャネルモデル記憶手段 100 音響モデル学習装置
110 サンプルデータ記憶部 120 第1の変動モデル学習部
130 第2の変動モデル学習部 140 不特定音響モデル学習部
200 音響モデル学習装置 212 サンプルデータ記憶部
214 話者ラベル記憶部 216 チャネルラベル記憶部
220 話者の変動モデル学習部 230 チャネルの変動モデル学習部
240 不特定音響モデル学習部 252 話者の変動モデル記憶部
254 チャネルの変動モデル記憶部 256 不特定音響モデル記憶部
300 音声認識装置 312 チャネル入力部
314 音声入力部 324 チャネルの変動モデル記憶部
326 不特定音響モデル記憶部 330 音声変換部
340 音声認識部 400 音声認識装置
412 チャネル入力部 414 音声入力部
422 チャネルの変動モデル記憶部 424 話者の変動モデル記憶部
426 不特定音響モデル記憶部 430 第2の音声変換部
440 第1の音声変換部 450 話者識別部
以下の説明に用いられる図面に、様々な処理を行う機能ブロックとして記載される各要素は、ハードウェア的には、プロセッサ、メモリ、その他の回路で構成することができ、ソフトウェア的には、メモリに記録された、またはロードされたプログラムなどによって実現される。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。また、分かりやすいように、これらの図面において、本発明の技術を説明するために必要なもののみを示す。
本発明の具体的な実施の形態を説明する前に、まず、本発明の原理を説明する。
図1は、本発明にかかる技術に基づく音響モデル学習装置100の模式図の例である。音響モデル学習装置100は、サンプルデータ記憶部110と、第1の変動モデル学習部120と、第2の変動モデル学習部130と、不特定音響モデル学習部140を備える。
サンプルデータ記憶部110は、様々なサンプル音声データ(以下単にサンプルデータという)と、該サンプルデータが取得された第1の音環境の種類と、第2の音環境の種類とを対応付けて記憶している。第1の音環境は、複数の種類を有し、この種類が異なることにより音声に変動が生じる。第2の音環境も、複数の種類を有し、この種類が異なることにより音声に変動が生じる。
図2は、サンプルデータ記憶部110に記憶されたデータの例を示す。図示のように、サンプルデータ記憶部110において、サンプルデータと、該サンプルデータがどの第1の音環境で取得されたかを示す第1の音環境ラベルAと、該サンプルデータがどの第2の音環境で取得されたかを示す第2の音環境ラベルBとを対応付けて記憶されている。各第1の音環境ラベルは、第1の音環境の複数の種類とそれぞれ対応し、各第2の音環境ラベルは、第2の音環境の複数の種類とそれぞれ対応する。
例えば、第1の音環境と第2の音環境をそれぞれ「話者」と「チャネル」とした場合、サンプルデータ1は、チャネルB3を介して取得した話者A2の音声データであり、サンプルデータ2は、チャネルB2を介して取得した話者A1の音声データである。
第1の変動モデル学習部120は、第1の音環境の種類毎に、該種類の第1の音環境が音声に生じさせる変動を示す第1の変動モデルを規定するパラメータを推定する。例えば、第1の音環境が話者である場合には、各第1の変動モデルは、話者の変動モデルとなる。
第2の変動モデル学習部130は、第2の音環境の種類毎に、該種類の第2の音環境が音声に生じさせる変動を示す第2の変動モデルを規定するパラメータを推定する。たとえば、第2の音環境がチャネルである場合には、各第2の変動モデルは、チャネルの変動モデルとなる。
不特定音響モデル学習部140は、第1の音環境と第2の音環境のいずれにも依存しない音響モデルを学習する。以下、この音響モデルを不特定音響モデルという。
まず、不特定音響モデル学習部140について説明する。
不特定音響モデル学習部140は、不特定音響モデルを初期化して、サンプルデータ記憶部110に記憶された各サンプルデータおよび2種類の音環境ラベルを読み出して、不特定音響モデルのパラメータを更新する。この不特定音響モデルは、従来知られているガウス混合モデル(GMM)や隠れマルコフモデル(HMM)などを用いることができる。以下の説明においてGMMを例にするが、他のモデルを用いた場合も同様の動作を導出することができる。
GMMでは、混合数をMとした場合、モデルを規定するパラメータは、式(1)により表すことができる。
Figure 0005423670
式(1)において、μとΣはそれぞれ第k番目のガウス分布の平均および分散であり、Cは第k番目のガウス分布にかかる混合係数(重み係数)である。
これらのパラメータの初期化は、各パラメータに適当な値をセットすることにより行われる。たとえば、音声データが特徴ベクトルの時系列の形で与えられるとして、Cには「1/M」、μとΣには、特徴ベクトルの平均と分散をそれぞれセットすればよい。以下、モデルを規定するパラメータをモデルパラメータという。
特徴ベクトルとしてメルケプストラム係数(MFCC)を用いて、式(2)に示すように、第1の音環境がi番目であり、第2の音環境がj番目である音声データを特徴ベクトルの時系列で表すことができる。
Figure 0005423670
なお、式中Ti,jは、特徴ベクトルのフレーム数(個数)である。
次に第1の変動モデルを学習する第1の変動モデル学習部120を説明する。
第1の変動モデル学習部120は、各第1の変動モデルを初期化して、サンプルデータ記憶部110に記憶されたサンプルデータと音環境ラベルAを読み出してモデルパラメータを更新する。第1の変動モデルのモデルパラメータは、例えば式(3)に示すアフィン変換のパラメータセット{V、λ|i=1,2,・・・,N}(N:第1の音環境の種類の数)を用いることができる。
Figure 0005423670
第1の変動モデルの初期化は、各パラメータに適当な値をセットすることにより行われる。たとえば、アフィン変換が恒等変換となるように、「V=I、λ=0」(I:単位行列)とすればよい。
第2の変動モデルを学習する第2の変動モデル学習部130は、第2の変動モデルを初期化して、サンプルデータ記憶部110に記憶されたサンプルデータと音環境ラベルBを読み出してモデルパラメータを更新する。第2の変動モデルのモデルパラメータは、例えば式(4)に示すアフィン変換のパラメータセット{W、ν|j=1,2,・・・,C}(C:第2の音環境の種類の数)を用いることができる。
Figure 0005423670
第2の変動モデルの初期化は、各パラメータに適当な値をセットすることにより行われる。たとえば、第1の変動モデルの初期化と同様に、アフィン変換が恒等変換となるように、「W=I、ν=0」(I:単位行列)とすればよい。
第1の変動モデル学習部120、第2の変動モデル学習部130、不特定音響モデル学習部140は、第1の変動モデルのサンプル音声データへの適合度と、第2の変動モデルのサンプル音声データへの適合度と、不特定音響モデルのサンプル音声データへの適合度とを統合した統合適合度が最も高くなるように、それぞれのパラメータを推定する。
統合適合度は、例えば、これらの3つのモデルのパラメータにより表わされる、サンプル音声データが観測される確率を用いることができる。サンプル音声データの生成過程を参照して、この確率について説明する。
図3は、第1の音環境、第2の音環境の順で該2つの音環境を通ることにより変動が生じた音声データが観測されるという現象を表現したサンプル音声データの生成モデルの概念図である。まず、変動が生じる前の音声が、不特定音響モデルの確率分布に従い、「z,z,・・・,z」のような特徴ベクトル系列として生成される。この音声は、種類iの第1の音環境(1≦i≦N)を通ることによって、式(5)に示す変換がなされ、元とは異なる音声「y,y,・・・,y」になる。
Figure 0005423670
第1の音環境を通った音声は、さらに種類jの第2の音環境(1≦j≦C)を通ることによって、式(6)に示す変換がなされ、音声「x,x,・・・,x」になる。
Figure 0005423670
一般に、観測できる音声は、音声「x,x,・・・,x」であり、「z,z,・・・,z」や「y,y,・・・,y」は観測不可能である。
図3に示す生成モデルの場合、ある音声データX=(x,x,・・・,x)が観測される確率は、式(7)で表すことができる。
Figure 0005423670
なお、式(7)におけるθは、不特定音響モデル、第1の変動モデル、第2の変動モデルのパラメータ、すなわちC、μ、Σ、V、λ、W、νのいずれかを表す。また、f(x|μ,Σ)は、平均μ、分散Σのガウス分布を表す。
第1の変動モデルと第2の変動モデル、および不特定音響モデルが、式(2)で表される、種々の第1の音環境iおよび第2の音環境jで観測されたサンプル音声データに適合するほど、これらのモデルが正確である。しかし、サンプル音声データに第1の音環境の影響と第2の音環境の影響が混ざっているため、各モデル個々について、サンプル音声データへ最も適合するように求められたモデルパラメータは、精度に欠けてしまう。
そこで、本願発明者が提案した、第1の変動モデルのサンプル音声データへの適合度と、第2の変動モデルのサンプル音声データへの適合度と、不特定音響モデルのサンプル音声データへの適合度を統合して得た統合適合度が最も高くなるようにそれぞれのパラメータを推定する手法を用いれば、最も正確な音響モデルを推定することができる。この統合適合度として、式(7)で表される確率を用いることができる。すなわち、式(7)で表わされる確率が最も大きくなるように、第1の変動モデル、第2の変動モデル、および不特定音響モデルのパラメータθを推定すれば、最も正確な音響モデルを得ることができる。
そのため、本発明にかかる技術において、各学習部は、下記の式(8)に従ってそれぞれのパラメータθを更新する。
Figure 0005423670
式(8)において、argmaxは、与えられた関数の値が最大となるように変数(ここではθ)の値を求めることを意味する。式(8)に示す演算は、最尤推定法としてよく知られており、期待値最大化(EM)法として知られる反復計算アルゴリズムによる数値解法を適用することができる。
また、パラメータθの更新は、最尤推定法以外にも、よく知られた最大事後確率(MAP)推定法、ベイズ推定法などの手法により行うことができる。
ここで、図4に示すフローチャートを参照して、音響モデル学習装置100における第1の変動モデル学習部120、第2の変動モデル学習部130、不特定音響モデル学習部140によるパラメータの推定処理の流れを説明する。
図4に示すように、まず、各学習部は、サンプルデータ記憶部110からサンプルデータ、第1の音環境ラベル、第2の音環境ラベルを読み込む(S10、S12、S14)。なお、ステップS10、S12、S14の実行順序は図示に限らず、任意である。
そして、各学習部は、それぞれのモデルパラメータを初期化する(S16)。具体的には、不特定音響モデル学習部140は、パラメータC、μ、Σを初期化し、第1の変動モデル学習部120はパラメータV、λを初期化し、第2の変動モデル学習部130はパラメータW、νを初期化する。初期化により各パラメータにセットされる値の例は、前に述べた通りであり、ここで詳細を省略する。
なお、ステップS16における初期化は、ステップS10〜S14の前に実行されてもよい。この場合、サンプルデータを参照することができないので、不特定音響モデル学習部140は、乱数でμ、Σを初期化するなどの手法を用いる。
次に、不特定音響モデル学習部140は、式(9)、(10)、(11)に従って、不特定音響モデルのパラメータC、μ、Σを更新する(S18)。
Figure 0005423670
Figure 0005423670
Figure 0005423670
なお、式(9)、(10)、(11)におけるγijktは、不特定音響モデルの第k番目のガウス分布に属する確率として式(12)に従って予め算出されたものである。
Figure 0005423670
ステップS18における不特定音響モデル学習部140のパラメータ更新は、1回のみ行ってもよく、所定の回数繰り返してもよい。さらに、収束判定例えば式(8)の右辺の対数確率を指標とした収束判定を導入して、収束するまで繰り返すようにしてもよい。
次に、第1の変動モデル学習部120は、式(13)と式(14)に従って、第1の変動モデルのパラメータV、λを更新する(S20)。
Figure 0005423670
Figure 0005423670
なお、式(7)と式(8)におけるγijktも、不特定音響モデル学習部140のときと同じように式(12)に従って予め算出されたものである。また、パラメータの更新回数は、不特定音響モデル学習部140の場合と同様に決めればよい。
そして、第2の変動モデル学習部130は、式(15)と式(16)に従って、第2の変動モデルのパラメータν、Wを更新する(S22)。
Figure 0005423670
Figure 0005423670
なお、式(15)と式(16)におけるγijktも、不特定音響モデル学習部140のときと同じように式(12)に従って予め算出されたものである。また、パラメータの更新回数も、不特定音響モデル学習部140の場合と同様に決めればよい。
ステップS18〜S22までの更新処理は、収束するまで繰り返される(S24:No、S18〜)。なお、収束した時点で(S24:Yes)、第1の変動モデル学習部120、第2の変動モデル学習部130、不特定音響モデル学習部140から、第1の変動モデル、第2の変動モデル、不特定音響モデルのパラメータがそれぞれ出力され、音響モデル学習装置100による学習処理は終了する。
このように、本発明にかかる技術によれば、第1の変動モデル学習部120は第1の音環境に起因する変動要因のみを抽出することができ、第2の変動モデル学習部130は第2の音環境に起因する変動要因のみを抽出することができ、完璧ではないサンプルデータでも、精度の良い音響モデルを構築することができる。ひいては、これらの音響モデルを用いた音声認識も、精度良くできる。
以上の説明を踏まえて本発明の実施の形態を説明する。
<第1の実施の形態>
図5は、本発明の第1の実施の形態にかかる音響モデル学習装置200を示す。音響モデル学習装置200は、サンプルデータ記憶部212と、話者ラベル記憶部214と、チャネルラベル記憶部216と、話者の変動モデル学習部220と、チャネルの変動モデル学習部230と、不特定音響モデル学習部240と、話者の変動モデル記憶部252と、チャネルの変動モデル記憶部254と、不特定音響モデル記憶部256を備える。
サンプルデータ記憶部212は、様々なチャネルを介して録音した複数の話者のサンプル音声データを記憶している。
話者ラベル記憶部214は、サンプルデータ記憶部212に記憶された各サンプルデータの夫々の話者を示すラベル(話者ラベル)のデータを記憶している。
チャネルラベル記憶部216は、サンプルデータ記憶部212に記憶された各サンプルデータのそれぞれのチャネルを示すラベル(チャネルラベル)のデータを記憶している。
なお、サンプルデータ記憶部212と、話者ラベル記憶部214と、チャネルラベル記憶部216は、サンプルデータと、話者ラベルと、チャネルラベルとを対応付けできるように記憶している。
話者の変動モデル学習部220は、図1に示す音響モデル学習装置100の第1の変動モデル学習部120に対応する。ここで、話者が第1の音環境であり、話者の変動モデル学習部220は、話者毎の第1の変動モデルを得る。この第1の変動モデルを以下話者の変動モデルという。
チャネルの変動モデル学習部230は、音響モデル学習装置100の第2の変動モデル学習部130に対応する。ここで、チャネルが第2の音環境であり、チャネルの変動モデル学習部230は、チャネル毎の第2の変動モデルを得る。この第2の変動モデルを以下チャネルの変動モデルという。
不特定音響モデル学習部240は、音響モデル学習装置100の不特定音響モデル学習部140に対応し、話者とチャネルのいずれにも依存しない不特定音響モデルを学習する。
この3つの学習部は、話者の変動モデルのサンプル音声データへの適合度と、チャネルの変動モデルのサンプル音声データへの適合度と、不特定音響モデルのサンプル音声データへの適合度を統合して得た統合適合度が最も高くなるように、それぞれのパラメータを推定する。各学習部の具体的な処理は、音響モデル学習装置100における相対応の学習部と同様であるので、ここで詳細な説明を省略する。
話者の変動モデル記憶部252と、チャネルの変動モデル記憶部254と、不特定音響モデル記憶部256は、話者の変動モデル学習部220、チャネルの変動モデル学習部230、不特定音響モデル学習部240が得た話者の変動モデルと、チャネルの変動モデルと、不特定音響モデルをそれぞれ格納する。
本実施の形態の音響モデル学習装置200は、本発明の原理を具現化したものであり、音響モデル学習装置100と同様の効果を発揮することができる。
次いで、第2の実施の形態と第3の実施の形態と用いて、本発明の音響モデル学習技術により得られた音響モデルの使用例を説明する。
<第2の実施の形態>
図6は、本発明の第2の実施の形態にかかる音声認識装置300を示す。この音声認識装置300は、チャネル入力部312と、音声入力部314と、チャネルの変動モデル記憶部324と、不特定音響モデル記憶部326と、音声変換部330と、音声認識部340を備える。
音声入力部314は、音声認識の対象となる音声データを音声変換部330に入力する。
チャネル入力部312は、音声入力部314により入力される音声データが通ったチャネルを示すラベルを入力する。なお、チャネル入力部312が入力するラベルは、チャネルの種類を示すデータであり、チャネルの変動モデル記憶部324に記憶されたチャネル毎のモデルを指定することができれば、ラベルに限られず、任意の名前や番号でもよい。
チャネルの変動モデル記憶部324は、図5に示す音響モデル学習装置200におけるチャネルの変動モデル記憶部254に該当し、チャネルの変動モデル学習部230が得たチャネルの変動モデルを格納する。具体的には、C種類のチャネル毎に、該種類のチャネルを示すラベルに対応付けて、パラメータν、Wを記憶している。
不特定音響モデル記憶部326は、図5に示す音響モデル学習装置200における不特定音響モデル記憶部256に該当し、不特定音響モデル学習部240が得た不特定音響モデルを格納している。
音声変換部330は、音声入力部314が入力された音声データに対して、チャネルによる影響を取り除くための変換を行う。具体的には、チャネル入力部312が入力したラベルに対応するパラメータν、Wをチャネルの変動モデル記憶部324から読み出して、式(17)に従って、入力された音声データ「x,x,・・・,x」を「y,y,・・・,y」に変換する。
Figure 0005423670
前述したように、種類jのチャネルを通ることで音声データが前述した下記の式(6)のように変化する。
Figure 0005423670
式(17)と式(6)を比較して分かるように、音声変換部330が行った変換は、式(6)が示す、種類jのチャネルが音声へ与える影響の逆変換に相当する。すなわち、この変換によって、音声入力部314が入力した音声データから、チャネル入力部312が入力した、この音声データが通った種類jのチャネルの影響は取り除かれる。
音声変換部330がチャネルの影響を取り除いて得た音声データ「y,y,・・・,y」を音声認識部340に出力する。
音声認識部340は、不特定音響モデル記憶部326から不特定音響モデルを読出し、音声変換部330からの音声データ「y,y,・・・,y」に対して、図示しない辞書、言語モデル、文法規則などを用いて、従来知られている音声認識手法により音声認識を行って結果である文字列を出力する。
図7は、図6に示す音声認識装置300の処理の流れを示すフローチャートである。音声認識を行うにあたり、音声認識部340は、不特定音響モデル記憶部326から不特定音響モデルを読み込む(S50)。なお、ステップS50の処理は、不特定音響モデル記憶部326が音声認識を開始する前であれば、いつ実行されてもよい。
音声変換部330は、音声入力部314から音声データを読み込むと共に、チャネル入力部312から、該音声データの音声が通ったチャネルを示すチャネルラベルを読み込む(S52、S54)。そして、音声変換部330は、チャネル入力部312から読み込んだチャネルラベルに対応するチャネルの変動モデルのパラメータをチャネルの変動モデル記憶部324から読み出して、音声入力部314から読み込んだ音声データに対して音声変換を行って、チャネルによる影響を取り除く(S58)。
最後に、音声認識部340は、音声変換部330によりチャネルの影響が取り除かれた音声データに対して音声認識を行って文字列を得る(S60)。
本実施の形態の音声認識装置300によれば、チャネルの変動モデルがチャネルという音環境による変動成分のみを抽出しているため、認識対象の音声データに対して、チャネルの影響を取り除いた上で音声認識を行うことができ、音声認識の精度を高めることができる。
なお、本実施の形態では、音声変換部330により音声データに対してアフィン変換をすることによってチャネルの影響を取り除くようにしているが、音響モデルの話者適応化技術の分野でよく行われるように、音声データに対する変換の代わりに、不特定音響モデルに対して相当の変換を行うようにしても、同様の効果を得ることができる。
なお、音声認識装置300は、本発明にかかる音響モデル学習技術により得られたチャネルの変動モデルを音声認識に適用した例である。勿論、本発明にかかる音響モデル学習技術により得られた話者の変動モデル話者の変動モデルを、音声入力装置などに適用してもよい。この場合も、話者の変動モデルが話者という音環境に起因する変動成分のみを抽出しているので、認識対象の音声データに対して、話者の影響を取り除いた上で音声認識を行うことができ、精度が良い。
<第3の実施の形態>
図8は、本発明の第3の実施の形態にかかる音声認識装置400を示す。この音声認識装置400は、入力された音声の話者を識別するものであり、チャネル入力部412と、音声入力部414と、話者の変動モデル記憶部424と、不特定音響モデル記憶部426と、チャネルの変動モデル記憶部422と、第2の音声変換部430と、第1の音声変換部440と、話者識別部450を備える。
チャネル入力部412、音声入力部414、チャネルの変動モデル記憶部422、不特定音響モデル記憶部426、第2の音声変換部430は、図6に示す音声認識装置300におけるチャネル入力部312と、音声入力部314と、チャネルの変動モデル記憶部324と、不特定音響モデル記憶部326、音声変換部330とそれぞれ同様の機能および構成を有し、ここで説明を省略する。
話者の変動モデル記憶部424は、図5に示す音響モデル学習装置200における話者の変動モデル記憶部252に該当し、話者の変動モデル特定学習部220が得た話者の変動モデルを格納している。具体的には、N人の話者毎にパラメータセット「V、λ」を記憶している。
音声認識装置400において、第2の音声変換部430によりチャネルの影響が取り除かれた音声データは、第1の音声変換部440に出力される。
第1の音声変換部440は、話者の変動モデル記憶部424からN人の話者にそれぞれ対応するパラメータセット「V、λ」を読み出して、それぞれのパラメータセットを用いて下記の式(18)が示す変換を行って、N個の音声データ「z1,1,z1,2,・・・,z1,T」、「z2,1,z2,2,・・・,z2,T」、・・・、「zN,1,zN,2,・・・,zN,T」を取得する。
Figure 0005423670
前述したように、種類iの話者による発声により音声データが前述した下記の式(5)のように変化する。
Figure 0005423670
式(18)と式(5)を比較して分かるように、第1の音声変換部440が行った変換は、式(5)が示す、種類iの話者が音声へ与える影響の逆変換に相当する。すなわち、この変換によって、音声入力部314が入力した音声データが、話者iが発声したものでれば、この音声データから話者iによる影響が取り除かれる。
話者識別部450は、第1の音声変換部440が得られた各音声データ「zi,1,zi,2,・・・,zi,T」(i=1、2、・・・、N)について、不特定音響モデル記憶部426に記憶されたモデルとの類似度S、S、,・・・,Sをそれぞれ算出する。そして、これらの類似度のうちの最も大きい類似度の番号iを出力する。これにより、音声入力部414から入力された音声データの話者が認識される。
なお、話者識別部450による類似度Siの算出は、例えば下記の式(19)に従って行うことができる。
Figure 0005423670
または、対数をとった下記の式(20)を用いてもよい。
Figure 0005423670
図9は、図8に示す音声認識装置400の処理の流れを示すフローチャートである。ステップS80〜S88までの処理は、図7に示す音声認識装置300のステップS50〜S58までの処理を同様であり、ここで詳細な説明を省略する。ステップS90において、第1の音声変換部440は、話者の変動モデル記憶部424に記憶された話者の変動モデルのすべてのパラメータを読出し、話者が話者i〜話者Nであるとそれぞれ仮定して、第2の音声変換部430からの音声データに対して、当該話者の影響を取り除く第1の音声変換を行ってN個の音声データを得る(S92)。話者識別部450は、第1の音声変換部440によりステップS92で得られたN個の音声データと不特定音響モデルの類似度Si(i=1〜N)をそれぞれ算出し、類似度が最も大きい音声データに対応するiを得ることにより、音声入力部414から入力された音声が、話者iにより発声したものであるとの認識結果を得る(S94)。
本実施の形態の音声認識装置400によれば、第2の音声変換部430によりチャネルが音声データに与えた影響を取り除いた上で話者の認識を行うので、認識精度を高めることができる。
以上、実施の形態(および実施例)を参照して本願発明を説明したが、本願発明は上記実施の形態(および実施例)に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
例えば、上述した各実施の形態による音響モデル学習処理または音声認識処理の手順を記述したプログラムをコンピュータに実装し、コンピュータを上述した各実施の形態の音響モデル学習装置または音声認識装置として動作せしめるようにしてもよい。この場合、各モデルを記憶する記憶部としては、コンピュータの記憶装置例えばハードディスクなどを用いればよい。
この出願は、2008年4月30日に出願された日本出願特願2008−118662を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明は、例えば、音響モデルを構築するための学習技術に使用される。

Claims (13)

  1. 変化することにより音声に変動を生じさせる複数の環境要因のうちの1つである第1の環境要因の複数の種類のうちのいずれか1種と、前記複数の環境要因のうちの別の1つである第2の環境要因の複数の種類のうちのいずれか1種との組わせ毎に取得された複数のサンプル音声データを用いて、前記第1の環境要因の種類毎に、音声の変動を示す第1の変動モデルを規定するパラメータを推定する第1の変動モデル学習部と、
    前記複数のサンプル音声データを用いて、前記第2の環境要因の種類毎に、音声の変動を示す第2の変動モデルを規定するパラメータを推定する第2の変動モデル学習部と、
    前記複数のサンプル音声データを用いて、前記第1の環境要因の種類と前記第2の環境要因の種類のいずれにも特定しない不特定音響モデルを規定するパラメータを推定する不特定音響モデル学習部とを備え、
    各前記学習部は、前記第1の変動モデルの前記サンプル音声データへの適合度と、前記第2の変動モデルの前記サンプル音声データへの適合度と、前記不特定音響モデルの前記サンプル音声データへの適合度を統合した統合適応度が最も高くなるように、それぞれのパラメータを推定することを特徴とする音響モデル学習装置。
  2. 各前記学習部は、前記第1の変動モデルと前記第2の変動モデルと前記不特定音響モデルのパラメータにより表わされる、前記サンプル音声データが観測される確率を前記統合適合度として用いることを特徴とする請求項1に記載の音響モデル学習装置。
  3. 各前記学習部は、最尤推定法、最大事後確率推定法、及びベイズ推定法のいずれかに基づく反復解法を用いてパラメータを推定することを特徴とする請求項1または2に記載の音響モデル学習装置。
  4. 前記第1の変動モデルと前記第2の変動モデルは、アフィン変換で定義されることを特徴とする請求項3に記載の音響モデル学習装置。
  5. 前記不特定音響モデルは、ガウス混合モデルまたは隠れマルコフモデルであることを特徴とする請求項3または4に記載の音響モデル学習装置。
  6. 請求項1から5のいずれか1項に記載の音響モデル学習装置により得られた各前記第1の変動モデルのうちの、所定種類の前記第1の環境要因を介して取得された認識対象の音声データの前記所定種類に対応した第1の変動モデルが示す変動と逆の変換を、前記音声データに対して施す音声変換部を備え、
    該音声変換部により得た音声データに対して音声認識を行う特徴とする音声認識装置。
  7. 請求項1から5のいずれか1項に記載の音響モデル学習装置により得られた各前記第2の変動モデルのうちの、所定種類の前記第2の環境要因を介して取得された認識対象の音声データの前記所定種類に対応した第2の変動モデルが示す変動と逆の変換を、前記音声データに対して施す音声変換部を備え、
    該音声変換部により得た音声データに対して音声認識を行う特徴とする音声認識装置。
  8. 請求項1から5のいずれか1項に記載の音響モデル学習装置により得られた各前記第2の変動モデルのうちの、所定種類の前記第2の環境要因を介して取得された認識対象の音声データの前記所定種類に対応した第2の変動モデルが示す変動と逆の変換を、前記音声データに対して施す第2の音声変換部と、
    請求項1から5のいずれか1項に記載の音響モデル学習装置により得られた各前記第1の変動モデルが示す変動と逆の変換を、前記第2の音声変換部により得た音声データに対して夫々行って複数の音声データを得る第1の音声変換部と、
    該第1の音声変換部が得た前記複数の音声データと、請求項1から5のいずれか1項に記載の音響モデル学習装置により得られた不特定音響モデルとを用いて、前記認識対象の音声データが通った第1の環境要因の種類を識別する識別部とを備えることを特徴とする音環境認識装置。
  9. 前記第1の環境要因は話者であり、前記第2の環境要因は伝送チャネルであることを特徴とする請求項8に記載の音環境認識装置。
  10. 変化することにより音声に変動を生じさせる複数の環境要因のうちの1つである第1の環境要因の複数の種類のうちのいずれか1種と、前記複数の環境要因のうちの別の1つである第2の環境要因の複数の種類のうちのいずれか1種との組わせ毎に取得された複数のサンプル音声データを用いて、前記第1の環境要因の種類毎に、音声の変動を示す第1の変動モデルを規定するパラメータを推定する第1の変動モデル学習工程と、
    前記複数のサンプル音声データを用いて、前記第2の環境要因の種類毎に、音声の変動を示す第2の変動モデルを規定するパラメータを推定する第2の変動モデル学習工程と、
    前記複数のサンプル音声データを用いて、前記第1の環境要因の種類と前記第2の環境要因の種類のいずれにも特定しない不特定音響モデルを規定するパラメータを推定する不特定音響モデル学習工程とを備え、
    各前記音響モデル学習工程は、前記第1の変動モデルの前記サンプル音声データへの適合度と、前記第2の変動モデルの前記サンプル音声データへの適合度と、前記不特定音響モデルの前記サンプル音声データへの適合度を統合した統合適応度が最も高くなるように、それぞれのパラメータを推定することを特徴とする音響モデル学習方法。
  11. 各前記音響モデル学習工程は、前記第1の変動モデルと前記第2の変動モデルと前記不特定音響モデルのパラメータにより表わされる、前記サンプル音声データが観測される確率を前記統合適合度として用いることを特徴とする請求項10に記載の音響モデル学習方法。
  12. 変化することにより音声に変動を生じさせる複数の環境要因のうちの1つである第1の環境要因の複数の種類のうちのいずれか1種と、前記複数の環境要因のうちの別の1つである第2の環境要因の複数の種類のうちのいずれか1種との組わせ毎に取得された複数のサンプル音声データを用いて、前記第1の環境要因の種類毎に、音声の変動を示す第1の変動モデルを規定するパラメータを推定する第1の変動モデル学習ステップと、
    前記複数のサンプル音声データを用いて、前記第2の環境要因の種類毎に、音声の変動を示す第2の変動モデルを規定するパラメータを推定する第2の変動モデル学習ステップと、
    前記複数のサンプル音声データを用いて、前記第1の環境要因の種類と前記第2の環境要因の種類のいずれにも特定しない不特定音響モデルを規定するパラメータを推定する不特定音響モデル学習ステップとをコンピュータに実行せしめるプログラムであって、
    各前記音響モデル学習ステップは、前記第1の変動モデルの前記サンプル音声データへの適合度と、前記第2の変動モデルの前記サンプル音声データへの適合度と、前記不特定音響モデルの前記サンプル音声データへの適合度を統合した統合適応度が最も高くなるように、それぞれのパラメータを推定することを特徴とするプログラム。
  13. 各前記音響モデル学習ステップは、前記第1の変動モデルと前記第2の変動モデルと前記不特定音響モデルのパラメータにより表わされる、前記サンプル音声データが観測される確率を前記統合適合度として用いることを特徴とする請求項12に記載のプログラム。
JP2010510052A 2008-04-30 2009-02-10 音響モデル学習装置および音声認識装置 Active JP5423670B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010510052A JP5423670B2 (ja) 2008-04-30 2009-02-10 音響モデル学習装置および音声認識装置

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2008118662 2008-04-30
JP2008118662 2008-04-30
PCT/JP2009/052193 WO2009133719A1 (ja) 2008-04-30 2009-02-10 音響モデル学習装置および音声認識装置
JP2010510052A JP5423670B2 (ja) 2008-04-30 2009-02-10 音響モデル学習装置および音声認識装置

Publications (2)

Publication Number Publication Date
JPWO2009133719A1 JPWO2009133719A1 (ja) 2011-08-25
JP5423670B2 true JP5423670B2 (ja) 2014-02-19

Family

ID=41254942

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010510052A Active JP5423670B2 (ja) 2008-04-30 2009-02-10 音響モデル学習装置および音声認識装置

Country Status (3)

Country Link
US (1) US8751227B2 (ja)
JP (1) JP5423670B2 (ja)
WO (1) WO2009133719A1 (ja)

Families Citing this family (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8819554B2 (en) 2008-12-23 2014-08-26 At&T Intellectual Property I, L.P. System and method for playing media
US9098467B1 (en) * 2012-12-19 2015-08-04 Rawles Llc Accepting voice commands based on user identity
US9818427B2 (en) * 2015-12-22 2017-11-14 Intel Corporation Automatic self-utterance removal from multimedia files
US10743101B2 (en) 2016-02-22 2020-08-11 Sonos, Inc. Content mixing
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10531157B1 (en) * 2017-09-21 2020-01-07 Amazon Technologies, Inc. Presentation and management of audio and visual content across devices
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
WO2019152722A1 (en) 2018-01-31 2019-08-08 Sonos, Inc. Device designation of playback and network microphone device arrangements
US10600408B1 (en) * 2018-03-23 2020-03-24 Amazon Technologies, Inc. Content output management based on speech quality
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
US11741398B2 (en) 2018-08-03 2023-08-29 Samsung Electronics Co., Ltd. Multi-layered machine learning system to support ensemble learning
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11315553B2 (en) * 2018-09-20 2022-04-26 Samsung Electronics Co., Ltd. Electronic device and method for providing or obtaining data for training thereof
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
EP3709194A1 (en) 2019-03-15 2020-09-16 Spotify AB Ensemble-based data comparison
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11094319B2 (en) 2019-08-30 2021-08-17 Spotify Ab Systems and methods for generating a cleaned version of ambient sound
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11308959B2 (en) 2020-02-11 2022-04-19 Spotify Ab Dynamic adjustment of wake word acceptance tolerance thresholds in voice-controlled devices
US11328722B2 (en) * 2020-02-11 2022-05-10 Spotify Ab Systems and methods for generating a singular voice audio stream
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11308962B2 (en) * 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
CN115171654B (zh) * 2022-06-24 2024-07-19 中国电子科技集团公司第二十九研究所 一种改进的基于总变化量因子的语种识别方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06175678A (ja) * 1992-07-30 1994-06-24 Nec Corp 音声認識装置
JP2002091485A (ja) * 2000-09-18 2002-03-27 Pioneer Electronic Corp 音声認識システム
JP2003099082A (ja) * 2001-09-21 2003-04-04 Nec Corp 音声標準パタン学習装置、方法および音声標準パタン学習プログラムを記録した記録媒体

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9706174D0 (en) * 1997-03-25 1997-11-19 Secr Defence Recognition system
US6230122B1 (en) * 1998-09-09 2001-05-08 Sony Corporation Speech detection with noise suppression based on principal components analysis
US6134524A (en) * 1997-10-24 2000-10-17 Nortel Networks Corporation Method and apparatus to detect and delimit foreground speech
US6980952B1 (en) * 1998-08-15 2005-12-27 Texas Instruments Incorporated Source normalization training for HMM modeling of speech
US6826528B1 (en) * 1998-09-09 2004-11-30 Sony Corporation Weighted frequency-channel background noise suppressor
US6173258B1 (en) * 1998-09-09 2001-01-09 Sony Corporation Method for reducing noise distortions in a speech recognition system
US6233556B1 (en) * 1998-12-16 2001-05-15 Nuance Communications Voice processing and verification system
US6766295B1 (en) * 1999-05-10 2004-07-20 Nuance Communications Adaptation of a speech recognition system across multiple remote sessions with a speaker
US7219058B1 (en) * 2000-10-13 2007-05-15 At&T Corp. System and method for processing speech recognition results
US6999926B2 (en) * 2000-11-16 2006-02-14 International Business Machines Corporation Unsupervised incremental adaptation using maximum likelihood spectral transformation
US6915259B2 (en) * 2001-05-24 2005-07-05 Matsushita Electric Industrial Co., Ltd. Speaker and environment adaptation based on linear separation of variability sources
US6778957B2 (en) * 2001-08-21 2004-08-17 International Business Machines Corporation Method and apparatus for handset detection
US6934364B1 (en) * 2002-02-28 2005-08-23 Hewlett-Packard Development Company, L.P. Handset identifier using support vector machines

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06175678A (ja) * 1992-07-30 1994-06-24 Nec Corp 音声認識装置
JP2002091485A (ja) * 2000-09-18 2002-03-27 Pioneer Electronic Corp 音声認識システム
JP2003099082A (ja) * 2001-09-21 2003-04-04 Nec Corp 音声標準パタン学習装置、方法および音声標準パタン学習プログラムを記録した記録媒体

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNG200000598010; 山口 義和: 'Taylor展開による音響モデルの適応' 情報処理学会研究報告 Vol.96 No.123 , 社団法人情報処理学会 *
CSNG200501506003; 秋田 祐哉: '話し言葉音声認識のための汎用的な統計的発音変動モデル' 電子情報通信学会論文誌 (J88-D-II) 第9号 , 社団法人電子情報通信学会 *
JPN6013044265; 秋田 祐哉: '話し言葉音声認識のための汎用的な統計的発音変動モデル' 電子情報通信学会論文誌 (J88-D-II) 第9号 , 社団法人電子情報通信学会 *
JPN6013044266; 山口 義和: 'Taylor展開による音響モデルの適応' 情報処理学会研究報告 Vol.96 No.123 , 社団法人情報処理学会 *

Also Published As

Publication number Publication date
US8751227B2 (en) 2014-06-10
US20110046952A1 (en) 2011-02-24
JPWO2009133719A1 (ja) 2011-08-25
WO2009133719A1 (ja) 2009-11-05

Similar Documents

Publication Publication Date Title
JP5423670B2 (ja) 音響モデル学習装置および音声認識装置
US11264044B2 (en) Acoustic model training method, speech recognition method, acoustic model training apparatus, speech recognition apparatus, acoustic model training program, and speech recognition program
US8566093B2 (en) Intersession variability compensation for automatic extraction of information from voice
Li et al. An overview of noise-robust automatic speech recognition
US11450332B2 (en) Audio conversion learning device, audio conversion device, method, and program
JP2005062866A (ja) コンパクトな音響モデルを作成するためのバブル分割方法
CN111696522B (zh) 基于hmm和dnn的藏语语音识别方法
JP2019215500A (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
KR102406512B1 (ko) 음성인식 방법 및 그 장치
JP6499095B2 (ja) 信号処理方法、信号処理装置及び信号処理プログラム
JP5881454B2 (ja) 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム
JP2020060757A (ja) 話者認識装置、話者認識方法、及び、プログラム
CN102237082B (zh) 语音识别系统的自适应方法
Tanweer et al. Analysis of combined use of nn and mfcc for speech recognition
Wu et al. An environment-compensated minimum classification error training approach based on stochastic vector mapping
Long et al. Offline to online speaker adaptation for real-time deep neural network based LVCSR systems
JP4004368B2 (ja) 音声認識システム
JP7552898B2 (ja) 学習方法、検出方法、それらの装置、およびプログラム
Kumar Feature normalisation for robust speech recognition
Debnath et al. Automatic speech recognition based on clustering technique
Gody et al. Novel Image PreprocessingApproach for Automatic Speech Recognition
JP2013178343A (ja) 事前分布計算装置、音声認識装置、事前分布計算方法、音声認識方法、プログラム
JP3412501B2 (ja) タスク適応化装置及び音声認識装置
Chen et al. Estimation of Window Coefficients for Dynamic Feature Extraction for HMM-Based Speech Synthesis.
Kannadaguli et al. Multivariate gaussian mixture model based automatic phoneme recognizer for kannada

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130910

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131003

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131029

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131111

R150 Certificate of patent or registration of utility model

Ref document number: 5423670

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150