JP5242724B2 - 音声プロセッサ、音声処理方法および音声プロセッサの学習方法 - Google Patents

音声プロセッサ、音声処理方法および音声プロセッサの学習方法 Download PDF

Info

Publication number
JP5242724B2
JP5242724B2 JP2011045161A JP2011045161A JP5242724B2 JP 5242724 B2 JP5242724 B2 JP 5242724B2 JP 2011045161 A JP2011045161 A JP 2011045161A JP 2011045161 A JP2011045161 A JP 2011045161A JP 5242724 B2 JP5242724 B2 JP 5242724B2
Authority
JP
Japan
Prior art keywords
acoustic model
speech
learning data
model
decision tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011045161A
Other languages
English (en)
Other versions
JP2011180596A (ja
Inventor
ゼン・ヘイガ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of JP2011180596A publication Critical patent/JP2011180596A/ja
Application granted granted Critical
Publication of JP5242724B2 publication Critical patent/JP5242724B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Description

本発明は、音声認識およびテキスト音声合成の両方を処理する音声分野に関する。本発明は特に、音声認識および音声合成の両方の音響モデルに文脈依存性を組み込むことに関する。
多くの言語における音声認識または音声合成に伴う固有の問題は、所与の音素が文脈に応じて様々に発音されうるということである。例えば、破裂音の音素「g」は用語「guage」においては異なる発音をされる。この問題に対処するために、文脈依存音響モデルが広く使用されてきた。
文脈数が増大すると、文脈の結合数もまた大幅に増大する。限定的な量の学習データまたは適応データのうちにすべての可能な文脈の組合せを有することはほとんど不可能である。この問題に対処するために、決定木ベースの文脈クラスタリング技術が使用されてきた。ここでは、類似の状態のHMMが、決定木を使用して少数のクラスタにクラスタリングされる。決定木は通常最尤(ML)基準で構築される。構築された決定木をトラバースすることによって、学習データに見られない文脈の組合せが決定木のリーフノードに割り当て可能になる。モデルパラメータもまた、ML基準に基づいた決定木クラスタリングプロセスで推定される。
このモデルが話者に適応される場合、モデルパラメータは一定の基準に基づいて変換または更新される。最大尤度線形回帰または最大事後基準がしばしば使用される。隠れマルコフモデルベースの統計的パラメトリック音声合成システムの一般的な音響モデルを、目標音声特徴、話し方および/または感情に適応させるために、モデルパラメータの線形変換(例えば、最大尤度線形回帰の種々の変形例)が使用される。これらの技術は、最尤基準などの何らかの基準に基づいて、隠れマルコフモデルの状態に関連した平均ベクトルおよび共分散メトリクスを線形変換する。
この適応段階において、構築された決定木は固定であり、適応データごとに異なるオリジナル学習データから構築される。学習データおよび適応データが極めて異なる文脈依存性を有する場合、適応データの文脈依存性のモデリングは可能ではない。例えば、一般的なモデルが中性音声によって学習され、かつ適応データが表出型音声である場合、表出性をコントロールするために、表出性は文脈としてモデリングされることがある。しかしながら、一般的な音響モデルが表出型文脈を有していない場合、このモデルは表出型音声に適切に適応されない。
本発明は、上記問題への少なくとも部分的な対処を試みるものである。第1の態様は音声認識方法を提供するものであり、該方法は、
一連の観測値を含む既知の話者から音声入力を受け取り、
該一連の観測値から生じる一連の語の尤度を音響モデルを使用して判断し、該音響モデルは、1つの語またはその一部を1つの観測値に関連付ける確率分布を記述する複数のモデルパラメータを有しており、該音響モデルは、第1の学習データを使用して学習され、かつ第2の学習データを使用して前記話者に適応されており、
所与の言語に生じる一連の観測値の尤度を言語モデルを使用して判断し、
前記音響モデルおよび前記言語モデルによって判断された尤度を組み合わせて前記音声入力信号から識別された一連の語を出力し、該音響モデルは前記話者に対して文脈ベースであり、該文脈ベース情報は、複数の決定木を使用して前記音響モデルに含まれており、該決定木の構造は第2の学習データに基づいていることを特徴とする。
本発明はまたテキスト音声システムに適用されてもよい。第2の態様では、本発明はテキスト音声処理方法を提供し、該方法は、
一連の語を含むテキスト入力を受け取り、
該一連の語から生じる一連の音声ベクトルの尤度を音響モデルを使用して判断し、該音響モデルが、1つの語またはその一部を1つの観測値に関連付ける確率分布を記述する複数のモデルパラメータを有しており、該音響モデルは、第1の学習データを使用して学習され、かつ第2の学習データを使用して前記話者に適応されており、
前記音響モデルは前記話者に対して文脈ベースであり、該文脈ベース情報は、複数の決定木を使用して前記音響モデルに含まれており、該決定木の構造は第2の学習データに基づいていることを特徴とする。
上記両方の態様について、決定木自体は適応データに基づいて適応されるため、これらの構成は該適応データに影響され、オリジナルの学習データには存在しない文脈をモデリングすることが可能である。誤解を避けるために、該決定木の構造は、ノードの次数と、該ノードにおける分割のサイズの両方を備えている。決定木は、最大の分割を与えるノードの分岐が該決定木のルートで提供されように構築され、かつブランチは、リーフノードに対してより小さな分割を与えるように構成されている。
好ましい実施形態では、該決定木の構造は該第1および第2の学習データの両方に基づいている。
さらなる実施形態では、該決定木の構造は該決定木のノードの分割から判断され、最大事後基準を用いて算出される。ここで、決定木およびモデルパラメータの両方が、該最大事後基準に基づいて、該適応データに共に適応される。これによって、該適応データの決定木を再構築することができる。さらに、一般的データおよび適応データの両方の統計が使用されるため、モデルパラメータのより良好な推定が取得可能である。このことは、所与の適応データに関するモデルパラメータおよび決定木の統計的に確実な推定を与える。本技術を使用することにより、種々の音声特徴、話し方および感情に音声を合成するための良好なモデルを限定的な量の適応データによって得ることができる。
本方法は、限定的な量の適応データを使用して、種々の音声特徴、話し方および/または感情との高品質な統計的パラメトリックテキスト音声合成を実現する。本方法は、該最大事後基準に基づいて、隠れマルコフモデルベースの統計的パラメトリック音声合成システムの基本的部分であるモデルパラメータおよび決定木を共に推定する。本方法は、一般的データおよび適応データの両方の統計を使用して該所与の適応データに適切な決定木を発見する。本方法はまた、一般的データおよび適応データの両方の該統計からモデルパラメータを再度推定する。該方法は、該限定的な適応データから統計的に確実な決定木およびモデルパラメータを推定可能である。
分割は、次のように実現される最大事後基準を使用して算出可能である:
Figure 0005242724
ここで、O’は第1の学習データであり、Oは第2の学習データであり、mはパラメータ結合構造を示しており、λは1セットのHMMパラメータであり、
Figure 0005242724
は最大事後基準のパラメータ結合構造を示しており、
Figure 0005242724
は最大事後基準のHMMパラメータであり、αは設定されるパラメータである。
好ましい基準はMAPに基づくものであるが、他の技術、例えば最小音素誤差基準や最大相互情報基準などの識別適応方法を使用することも可能である。実際、決定木を構成する場合に任意の適応技術が使用可能である。
該文脈依存性はトライフォンとして実現されてもよいが、より高次または低次の音素も可能である。
該音響モデルは、平均および分散によって表される確率分布を含んでおり、好ましい実施形態では、決定木は平均および分散の両方に提供される。しかしながら、具現化によっては、平均の決定木のみが該適応データから構築されることもある。
該文脈ベース情報は、音声的、言語的および韻律的な文脈から選択可能である。
該決定木は、表出型文脈や、例えば性別、年齢および音声特徴などの他の文脈をモデリングするために使用可能である。
第3の態様において、本発明は、音声処理システム用の音響モデル学習方法を提供する。該方法は、
音声と、該音声に対応するテキストとを含む第1の学習データを受け取り、
該第1の学習データを使用して第1の音響モデルを学習し、
既知の話者からの第2の学習データを受け取り、
該第2の学習データを使用して第2の音響モデルを形成するように該第1の音響モデルを適応させ、
該第2のモデルを形成するように該第1のモデルを適応させることは、文脈依存性をモデリングするために決定木を構築することを含み、該決定木の構造は該第2の学習データに基づいていることを特徴とする。
該第1および第2の音響モデルの学習は、好ましくは、第1および第2の学習データの両方を使用して学習された製品をエンドユーザが受信するように行われる。しかしながら、第1の学習データのみを使用して学習された製品がエンドユーザに提供されることも可能であり、この場合、該エンドユーザや他の仲介人が第2の学習データを使用して該製品を学習する。したがって、該方法はさらに、該第2の音響モデルへの適応が異なる位置で実行可能になるように該第1の音響モデルを記憶することを含む。
一実施形態において、該第1の音響モデルを学習することは、複数の隠れマルコフモデルを初期化し、前記第1の学習データに基づいて該HMMを再度推定し、該第1の学習データの文脈をモデリングするために決定木を構築することを含む。
該第1のモデルの学習はさらに、該決定木によってクラスタリングされた該HMMを再度推定することを含んでもよい。しかしながら、このステップは、特に該モデルがテキスト音声システムに対して学習される場合には省略されてもよい。
該第2のモデルの学習は、該第2の学習データおよび該第1の学習データにフォワード−バックワードアルゴリズムを実行することによって該第2のモデルのHMMパラメータを導出し、パラメータを使用して該第1の学習データから取得された統計値をスケーリングし、該第1および第2の学習データを使用して決定木をそれぞれ構築することを含んでもよい。
該第2のモデルの学習は、該決定木によってクラスタリングされた該HMMを再度推定することを更に含んでもよい。しかしながら、このステップは、特に該モデルがテキスト音声システムに対して学習される場合には省略されてもよい。
該パラメータを試行錯誤によって判断してもよい。
第4の態様において、本発明は音声認識装置を提供する。該装置は、
一連の観測値を含む既知の話者からの音声入力を受信する受信機と、プロセッサとを備えており、該プロセッサは、
音響モデルを使用して該一連の観測値から生じる一連の語の尤度を判断し、該音響モデルは、1つの語またはその一部を1つの観測値に関連付ける確率分布を記述する複数のモデルパラメータを有しており、該音響モデルは第1の学習データを使用して学習され、かつ第2の学習データを使用して前記話者に適応され、
所与の言語で生じる一連の観測値の尤度を言語モデルを使用して判断し、
該音響モデルおよび該言語モデルによって判断された該確率を組み合わせて前記音声入力信号から識別された一連の語を出力するように構成されており、
該音響モデルは前記話者に対して文脈ベースであり、該文脈ベース情報は、複数の決定木を使用して該モデルに含まれており、該決定木の構造は第2の学習データに基づいていることを特徴とする。
第5の態様において、本発明はテキスト音声システムを提供する。該システムは、
一連の語を含むテキスト入力を受信する受信機と、プロセッサとを備えており、該プロセッサは、
音響モデルを使用して該一連の語から生じる一連の音声ベクトルの尤度を判断し、該音響モデルが、1つの語またはその一部を1つの観測値に関連付ける確率分布を記述する複数のモデルパラメータを有しており、該音響モデルが第1の学習データを使用して学習され、かつ第2の学習データを使用して前記話者に適応されるように構成されており、
該音響モデルは前記話者に対して文脈ベースであり、該文脈ベース情報は複数の決定木を使用して該モデルに含まれており、該決定木の構造は第2の学習データに基づいていることを特徴とする。
一実施形態において、本発明は音声翻訳システムに適用される。該システムは、第1の言語の音声を認識するように構成された上記第4の態様に従った音声認識システムと、第1の言語で受信されたテキストを第2の言語のテキストに翻訳するように構成された翻訳モジュールと、該第2の言語の音声を出力するように構成された上記第5の態様に従ったテキスト音声システムとを備えている。
該翻訳モジュールは既知の自動翻訳システムまたは機械翻訳システムのいずれかであってもよい。
本発明は、汎用コンピュータにおいてハードウェアまたはソフトウェアのいずれかで実現可能である。さらに、本発明はハードウェアおよびソフトウェアの組合せで実現可能である。本発明はまた、単一の処理装置、または複数の処理装置の分散ネットワークによって実現可能である。
本発明はソフトウェアで実現可能であるため、本発明は、任意の適切な搬送媒体上の汎用コンピュータに提供されるコンピュータコードを包含している。搬送媒体は、フロッピー(登録商標)ディスク、CD―ROM、磁気デバイスまたはプログラマブルメモリデバイス、あるいは、例えば電気、光学またはマイクロ波信号などの任意の信号の一時媒体(transient medium)などの記憶媒体を備えることができる。
上記音響モデルは好ましくはHMMベースモデルであるが、他のモデルも使用可能である。
次に、本発明について、以下の好ましい非制限的実施形態を参照して説明する。
図1は、極めて基本的な音声認識システムの概略図である。 図2は、図1のモデルを実現するための音声認識プロセッサのアーキテクチャの概略図である。 図3は、テキスト音声合成向けに構成されたプロセッサのアーキテクチャの概略図である。 図4は、図1に示されているタイプの音声認識プロセッサの標準コンポーネントのブロック図である。 図5は、特定の語またはその一部を観測値に関連付けるガウス分布のプロットである。 図6は、音響空間の概略プロットである。 図7は、既知の方法にしたがって決定木が構築される様子を示すフロー図である。 図8は、本発明の理解に有用な実施形態に従って決定木が構築される様子を示すフロー図である。 図9は、音響モデルを学習するための基本ステップを示すフロー図である。 図10は、オリジナルデータO’および新データOの両方を使用して特定の話者のモデルを学習するための、本発明の実施形態で必要な追加学習ステップの概略図である。 図11は、本発明の実施形態にしたがった音声認識方法を示す概略フロー図である。 図12は、音声合成向けの本発明の実施形態にしたがったフロー図である。
図1は、極めて基本的な音声処理システムの概略図であり、図1のシステムは音声認識向けに構成されている。ユーザ(図示せず)がマイク1、または他のオーディオ信号用収集デバイスに話す。デバイス1は、事前に記録されているオーディオデータを含むメモリと置き換えられてもよく、あるいはデバイス1はリモートからオーディオデータを受信するネットワーク接続であってもよい。
音声信号は次いで、図2を参照してより詳細に後述される音声プロセッサ3に送られる。
音声プロセッサ3は音声信号を受け取り、該音声信号に対応するテキストに変換する。多数の異なる出力形態が使用可能である。例えば、出力は、スクリーンに出力するディスプレイ5の形態であってもよい。あるいはまた、プリンタなどに出力してもよい。また、出力は、別のシステム9に提供される電子信号の形態であってもよい。例えば、別のシステム9は、プロセッサ3から出力されたテキストを受け取り、異なる言語に変換する音声翻訳システムの一部であってもよい。変換されたテキストは、別のテキストまたは音声システムを介して出力される。
あるいは、プロセッサ3によって出力されたテキストは、様々なタイプの機器を操作するために使用されてもよく、例えば、ユーザが音声を介して種々の機能をコントロールするモバイルフォンや自動車の一部であってもよい。
図2は、音声認識システム向けを想定した基本アーキテクチャを示している。音声認識は、プログラム25を実行するプロセッサ23を備えている。音声認識システム21は記憶装置27を備えている。記憶装置27は、テキストを音声に変換するためのプログラム25によって使用されるデータを記憶している。テキスト音声システム21は、入力モジュール11および出力モジュール33を備えている。入力モジュール31は音声入力35に接続されている。音声入力35は音声を受信する。音声入力35は例えばマイクであってもよい。あるいはまた、音声入力35は、外部記憶媒体やネットワークから音声データを受信する手段であってもよい。
テキスト出力37は出力モジュール33に接続される。テキスト出力37は、音声入力33から変換されたテキストを出力するために使用される。テキスト出力37は例えばテキストを直接出力するモニタ、プリンタであってもよく、記憶媒体やネットワークデバイスに送られるデータファイルを出力するものであってもよい。
使用時において、音声認識システム21は音声入力33を介して音声を受信する。プロセッサ23で実行されるプログラム25は、記憶装置27に記憶されているデータを使用して音声をテキストデータに変換する。テキストは出力モジュール33を介してテキスト出力37に出力される。
本発明はまた、音声合成ならびに音声認識に適用されてもよい。図3は、テキスト音声システム51の基本アーキテクチャを示している。テキスト音声システム51は、プログラム55を実行するプロセッサ53を備えている。テキスト音声システム51はさらに記憶装置57を備えている。記憶装置57は、テキストを音声に変換するためにプログラム55によって使用されるデータを記憶している。テキスト音声システム51はさらに入力モジュール61および出力モジュール63を備えている。入力モジュール61はテキスト入力65に接続される。テキスト入力65はテキストを受信する。テキスト入力65は例えばキーボードであってもよい。あるいはまた、テキスト入力65は、外部記憶媒体やネットワークからテキストデータを受信する手段であってもよい。
オーディオ出力67が出力モジュール63に接続される。オーディオ出力67は、テキスト入力から変換された音声信号をテキスト入力63に出力するために使用される。オーディオ出力67は例えばダイレクトオーディオ出力であってもよく、例えば、話者や、記憶媒体に送信されたりネットワーク化などがされたりしてもよいオーディオデータファイルの出力であってもよい。
使用中、テキスト音声システム51はテキスト入力63を介してテキストを受信する。プロセッサ53で実行されるプログラム55は、記憶装置57に記憶されているデータを使用してテキストを音声データに変換する。音声は出力モジュール65を介してオーディオ出力67に出力される。
図4は、図1に示されているタイプの音声認識プロセッサ3の標準コンポーネントのブロック図である。ネットワークや記録媒体1を介してマイクから受信された音声信号はフロントエンドユニット11に向けられる。
フロントエンドユニット11は受信された音声信号をディジタル化して、長さの等しいフレームに分ける(split)。音声信号は次いでスペクトル分析を施され、「音響空間」にプロットされる種々のパラメータが判断される。導出されるパラメータの詳細については後述する。
フロントエンドユニット11はまた、音声信号でない信号、および他の無関係な情報を除去する。一般的なフロントエンドユニットは、フィルタバンク(F BANK)パラメータ、メル周波数ケプストラム係数および知覚線形予測(PLP)パラメータを使用する装置を備える。フロントエンドユニットの出力は、n次元音響空間である入力ベクトルの形態であってもよい。
入力ベクトルは次いで、音響モデル部15および言語モデル部17の両方と協働するデコーダ13に供給される。音響モデル部15は通常、隠れマルコフモデルを用いて動作する。しかしながら、コネクショニストモデルおよびハイブリッドモデルに基づいた音響モデルを使用することも可能である。
音響モデルユニット15は、音響入力のみに基づいて、1つの語またはその一部に対応する一連の観測値の尤度を導出する。
言語モデル部17は、所与の言語の特定の一連の語や、相互にフォローしあう語の一部の確率に関する情報を含む。一般的に静的モデルが使用される。最も一般的な方法はNグラムモデルである。
デコーダ13は従来、音響モデル15および言語モデル17からの結果を使用して所与の音声発話の最良のトランスクリプションを発見するために、動的プログラミング(DP)アプローチを使用する。
このトランスクリプションは、テキストを表示し、呈示し、例えば音声起動デバイスを制御したり音声翻訳でさらに使用するための変換を行う出力デバイス19を介して出力される。
本明細書では、主に、隠れマルコフモデル(HMM)である音響モデルを用いる場合について説明するが、他のモデルが使用されてもよい。
本実施形態で使用される実際のモデルは標準的なモデルであり、その詳細は本特許出願の範囲外である。しかしながら、このモデルは、1つの語またはその一部と関連付けられている音響ベクトルによって表されている観測値の確率に関する確率密度関数(pdf)の用意を必要とする。一般的に、この確率分布はn次元空間のガウス分布である。
一般的なガウス分布の概略的な例が図5に示されている。ここでは、横軸は1次元の入力ベクトルのパラメータに相当し、確率分布は、観測値に関する特定の語またはその一部のものである。例えば、図5において、音響ベクトルxに対応する観測値は、確率分布が図5に示されている語に対応する確率p1を有する。ガウスの形状および位置は平均および共分散によって定義される。これらのパラメータは音響モデルの語彙の学習中に判断され、「モデルパラメータ」と称される。
HMMにおいて、モデルパラメータが判断されると、このモデルは、一連の語または語の一部に対応する一連の観測値の確率を判断するために使用可能である。
図6は、観測が観測ベクトルまたは特徴ベクトルxによって表される音響空間の概略プロットである。開放円gは、音響空間にプロットされたガウス分布関数または他の確率分布関数の平均値に対応する。
復号時に音響モデルは、特徴ベクトルxがガウス分布によって表される単語または単語の一部に対応する多数の異なる尤度を計算するであろう。それからこれらの尤度は口述されたテキストを決定するために音響モデルで使用されて、言語モデルからの確率に組み合わされる。
最新技術の音声認識システムの大部分は、入力音声から抽出される特徴ベクトルとして表される一連の音声パラメータoに関する最尤単語列ωを見出す統計的フレームワークに基づいている。これは下記のように書き表され得る:
Figure 0005242724
ここでp(ω|o)は所定のoに関するωの事後確率分布である。p(ω|o)を直接モデル化することは困難であるので、ベイズのルール(rule)に基づく下記の再公式化がしばしば使用される:
Figure 0005242724
ここでp(o)はoの周辺分布(しばしば「痕跡(evidence)」と呼ばれる)である。p(o)は最大化とは無関係であるので、式(4)は下記のように書き換えられ得る:
Figure 0005242724
音声認識システムの大部分は、式(5)における最大を実現するための3つのモジュール、すなわちp(ω|o)に関する音響モデル、p(ω)に関する言語モデル、および最善の単語列を探索するための復号子である3つのモジュール(図4を参照のこと)からなる。
統計的音声合成は下記のように書かれ得る:
Figure 0005242724
音声認識とは異なり、ベイズのルールによる変換は、図3を参照しながら説明されたユニットのタイプに関する統計的音声合成では必要とされない。基本的にこれは、音響モデルだけからなる。ここで説明される音響モデルは、音声認識および音声合成の両者に関連している。
統計的音声認識および音声合成の両者において、文脈依存性隠れマルコフモデル(HMM)は、これの効率および性能のゆえに音響モデルとして広く使用されている。最尤(ML)基準は、HMMパラメータを推定し、推定されるパラメータの数を減らすためにHMM状態レベルパラメータ結合構造を定義する決定木を構築するために最もポピュラーな基準の1つである。HMMパラメータのML推定は下記のように書かれ得る:
Figure 0005242724
ここでλは1セットのHMMパラメータであり、Oは1セットの学習データである。ML基準に基づいて推定されたHMMは、しばしば学習データにオーバーフィットすることが知られている。オーバーフィット問題の1つの可能な解決策は、最大事後確率(MAP)推定を使用することである。HMMパラメータのMAP推定は下記のように書かれ得る:
Figure 0005242724
ここでp(λ|O)は所定のOに関するλの事後確率である。式(8)はベイズのルールによって下記のように再公式化され得る:
Figure 0005242724
ここでp(λ)はλの事前分布である。式(11)の分子は最大化とは無関係であるので、これは下記のように書き換えられ得る:
Figure 0005242724
ML基準におけるMAP推定の主要な利点は、従来技術の分布の使用可能性である。データに関する事前知識を事前分布に組み込むことによって学習データに対するオーバーフィットを防止することができる。MAP推定は、音声認識および音声合成の両者においてML推定された話者独立性HMMを目標話者に適応させるために使用されてきた。
従来からMAP推定は、パラメータ推定だけのために使用されてきた。文脈依存性HMMを学習するための本質的部分の1つである決定木ベースの文脈クラスタリングのために、ML基準が使用されてきた。本発明の方法による一実施形態では、HMMパラメータとMAP基準に基づく決定木との合同推定技法が使用される。MAP基準の使用は、モデルパラメータと決定木とを推定しながら、合同事前分布としてのHMMパラメータおよび決定木の両者に関する事前知識の組み込みを可能にする。
一例として破裂音「g」は、これが単語「ゲージ」を使用している2つの事例において異なって発音される。これらの音素は、破裂音b、d、g、k、p、t、摩擦音dh、th、f、v、s、sh、z、zh、鼻音m、em、n、en、ng、および識別されてきた他のグループといった異なるグループに分割されるものと考えることができる。決定木は、例えば先行および後続の音素が属するグループに関して質問することによって設定され得る。したがってこれらの決定木を構築することによって、言語のすべての事例に関してモデル化し、そして異なる文脈における音素の異なる発音に対応することが可能となる。
HMMベースの音声認識および音声合成システムの両者において、文脈依存性音素HMM(例えばトライフォオンHMM)が広く使用されている。文脈独立性音素HMM(単一音)よりむしろ文脈依存性音素HMMの使用は、より高い認識性能を与えることが知られている。多数の文脈依存性HMMは音声データにおける変動を捕捉する助けとなり得るが、これはシステムにおいて推定されるべきパラメータがあまりにも多くなるという結果を招き、学習データに対するオーバーフィットの原因となる。したがってモデルの複雑さとモデルの堅牢さとの間の良好なバランスを維持することは、音響モデル化において重要である。トップダウンの決定木ベースの文脈クラスタリングの使用は、この問題に対する良好で既知の解決策である。これは、ボトムアップ式のアプローチに対して2つの利点を有する。第1に、1セットの質問に音声知識を組み込むことによって決定木の葉ノードに目に見えない文脈依存性音素を割り当てることができる。第2に、決定木の分割手順は、モデルの複雑さと堅牢さとのバランスを維持する方法を与える。
決定木ベースの文脈クラスタリング技法は、学習データに対するモデルの尤度を最大化するパラメータ結合構造(決定木)およびモデルパラメータを見出すことを目的にしている。これは下記のように書かれ得る:
Figure 0005242724
ここでmはパラメータ結合構造を表す。決定木ベースのクラスタリングの手順は、これから図7を参照しながら説明されるであろう。
ステップS101で、すべての文脈独立性音素HMMが決定木のルートノードにプールされる。
ステップS103で、学習データに対するモデルの対数尤度が下記を使用して計算される:
Figure 0005242724
(上記の式は1995年のケンブリッジ大学のJulian Odellの博士論文から取られている。)ここで尤度はE個の例からなる学習データOを生成する1セットの分布Sを備える1セットのモデルについて計算され、またγ (t)は時刻tにおける状態占有であり、そしてTeはE個の例の音声の時間の全長である。
ステップS105では、決定木におけるノードと文脈に関する予め決められた二値質問(binary question)とのすべての組合せに関して学習データに対するモデルの対数尤度が、質問によってノードを分割した後に計算される。
ステップS107で、対数尤度における最も大きな利得を与えるノードと質問との最善の組合せが選択される。
ステップS109で、見出された質問による見出されたノードが分割され、もし対数尤度における利得が予め決められた閾値を超えればプロセスはステップS103に戻る。
もし利得が予め決められた閾値より低ければ、クラスタリングはステップS111で終了する。
推定されたパラメータ結合構造mとHMMパラメータλは、音声認識および音声合成のための音響モデルとして使用される。
図8は、本発明の好適な実施形態による方法を示す。
対照的に本発明の一実施形態による方法において。ここではML基準の代わりにMAP基準が決定木ベースの文脈クラスタリングに使用される。これは下記のように書かれ得る:
Figure 0005242724
ここでp(m,λ)はパラメータ結合構造と1セットのHMMパラメータとの合同事前分布を表す。次に合同事前分布を定義する方法が説明される。
HMMベースの統計的音声認識および音声合成に関するMAP推定による適応において、事前分布の特性を指定する事前分布のハイパーパラメータが通常、大量の学習データによって推定されるHMM(例えば話者独立性HMM)のパラメータにしたがって設定される。これは下記のように書かれ得る:
Figure 0005242724
ここでO’はHMMのパラメータを推定するための大量の学習データを示し、p(m,λ|O’)はモデル構造mとモデルパラメータλとの合同事後確率分布である。ベイズのルールを使用して式(19)は下記のように書き換えられ得る:
Figure 0005242724
ここでp’(m,λ)はmとλとの合同事前分布であり、またp’(O’|m,λ)は推定される。もしp’(m,λ)が非説明的(non-informative)(均等)分布であれば、式(18)の最大化問題は下記のように書き換えられ得る:
Figure 0005242724
なぜならばp(O’)およびp’(m,λ)の両者は最大化とは無関係であるからである。実際には下記のようにOとO’との間の寄与のバランスを制御するためにパラメータαが導入される:
Figure 0005242724
興味深いことにこのαは、HMMパラメータのMAP推定における重み付けの項(weight term)と同じ働きをする。
式(25)は、ML基準に基づく決定木ベースの文脈クラスタリング(式(14))とほぼ同じである。本質的な違いは、O’に対するモデルの対数尤度が加えられていることである。木構築プロセスは、前述のセクションで説明したML基準のプロセスと同じになる。木クラスタリングプロセスを図8に示す。相違点は、O’に対するモデルの対数尤度も考えられていることである。したがってこれは、決定木ベースの文脈クラスタリングの既存の実現形態に容易に組み込まれ得る。
図8のステップS151においてHMMは、図7を参照して説明した方法と同じようにしてプールされる。
学習データの対数尤度は、ステップS153でOおよびO’データを使用して実行される。これには式25を使用し、尤度は式14(a)を使用して計算される。
図7と同じ方法ですべてのノード組合せに関して、ステップS155で分割が計算され、ステップS157で最大の分割を与えるノードと質問との組合せが選択される。それからステップS159でノードが分割される。もし分割による利得がある閾値を超えるならば、システムはステップS153にループバック(loop back)する。もし利得が閾値を超えなければ、これは決定木が十分な程度に分割されていることを意味し、クラスタリングはステップS161で終了する。
この閾値は、必要とされる精度と計算上の考慮事項とに依存して選択される。もし閾値が適度に低ければ、決定木はより大きくなるであろうし、また図8の方法を使用して構築された決定木を使用するモデルを動作させるためにより大きなコンピュータパワーが必要とされるであろう。しかしながらもしより高い閾値が使用されるならば、決定木にはより少ない質問が現れて精度の損失という結果を招くであろう。
OおよびO’データを使用して学習データに対するモデルの対数尤度を計算するときにO’分布に重み付けするためにパラメータαが使用されることは前に説明されている。αは手作業で選択される。実際に多数の異なるαがテストされて、最善のαが選択されるであろう。1つの可能性は、OおよびO’のデータ量にしたがってαを設定することである。例えばもしOが1時間分の音声データを備え、O’が10時間分を備えるならば、αは0.1に等しい1/10に設定されるであろう。こうしてこの状況ではOおよびO’は想像上の同じデータ量(the same amount of data imaginary)を有する。
良好なαは、オフラインで決定されるであろう。音声合成のために、テスト文を使用して推定されたHMMセット(種々のα)から音声サンプルが合成されて、聴き取られるであろう。最善の主観的聴き取りテスト得点を与えるアルファが選択されるであろう。認識のために、推定されたHMMセット(種々のαを有する)によって音声認識子が動作させられるであろう。それは、発声をテストし、これの認識精度を検査するためである。最善の認識精度を与えるアルファが選択されるであろう。
次に、本発明の一実施形態による方法を使用して音声認識子を学習する方法が図9および10を参照しながら説明されるであろう。図9の流れ図はO’データに関して実行される基本的学習に対応し、図10の流れ図はOおよびO’データを使用するデータの学習に対応する。
データは、モデルを最初に学習するために使用されるデータである。これは多数の話者から得られるであろう。
ステップS201で、単一音HMMが初期化される。これは、初期HMMパラメータを、例えば単一音素に関するガウス分散を、確立することである。HMMを初期化することはよく知られており、すべての平均値と分散とをゼロに設定すること、各HMMに関するすべての平均値と分散とをグローバル(global)平均と分散とに設定すること、または前のデータをHMMの平均値と分散とに関する推定値として使用すること、といった多数の技法が使用され得る。
ステップS203で、単一音HMMに対して埋込み再推定(embedded re-estimation)が実行される。これは、各セグメントに基づいて音素レベルHMMを再推定するために使用される。これは、音声認識時に各セグメントに関してパラメータが正しく推定された場合に、より高い精度が取得されるという理由で、必要とされる。好適な実施形態では埋込み再推定は、1フレームに割り当てられる状態の確率が存在する状態ごとに1フレームのソフト割り当てが存在することが仮定される場合に使用される。Baum Welchアルゴリズムまたはフォワード−バックワードアルゴリズムもこのステージで使用され得るが、これらのアルゴリズムの両者とも状態へのフレームのソフト割り当てを想定している。状態へのフレームのハード割り当てを想定するビタビアルゴリズムも使用され得る。
ステップS205で、単一音HMMが文脈依存性HMMにコピーされる。文脈依存性HMM(例えばトライフォン(triphone))は前に説明されている。トライフォンは、先行および後続の音素を有する中間または「現在」音素を備える。このステージですべての現在音素すなわち中間音素は同じ統計値を有する。
それからステップS207で、文脈依存性HMMに埋込み再推定が実行される。これは、HMMが文全体に基づいて推定されることを可能にする。
次にステップS209で、決定木文脈ベースのクラスタリングが実行される。これは、図7を参照しながら説明されたものと同じである。これはデータセットO’に対して実行される初期学習であるので、これは純粋にO’データに対して実行されるであろう。
決定木はHMM混合体をサポートしないので、ステップS211で決定木文脈ベースのクラスタリングが実行された後に埋め込み再推定が実行される必要がある。
前に示されたように、音声認識および音声合成の両者に関して音響モデルを学習するための図9のステップはよく知られている。
音声合成のための音響モデルを学習するために上記が使用されているならば、一般にガウス分布の混合物がこれの大きな計算費用のゆえに音声合成の音響モデルのために使用されないので埋込み再推定ステップは省略され得る。
図10は、OおよびO’モデルが推定される場合の本発明の一実施形態による方法である。OおよびO’モデルを推定するために、上記のO’モデルがOの状態レベル割り当て(これは状態/フレーム割り当てである)を取得するために使用される。これは、周知のフォワード−バックワードアルゴリズムを使用して実行される。フォワード−バックワードアルゴリズムはフォワード確率およびバックワード確率を計算する。フォワード/バックワード確率を使用して、観測ベクトルを与えるためのHMM状態の状態占有確率を計算することが可能である。この状態占有確率は上記の「Oの状態レベル割り当て」に対応する。状態占有を取得することに加えて1次および2次統計値も取得される。
HMM状態の状態占有は、下記の全学習データにおけるこのHMM状態の状態占有確率の総計値である:
Figure 0005242724
HMM状態に関する1次統計値は、全学習データにおけるこのHMM状態に関連する観測ベクトルに乗算された状態占有確率の総計値である。
HMM状態に関する2次統計値は、全学習データにおけるこのHMM状態に関連する2乗された観測ベクトルに乗算された状態占有確率の総計値である。
1次および2次統計値は下記のように平均値および分散に関連付けられる:
Figure 0005242724
上記を使用することによって、HMMの平均値と分散とを計算することが可能である。
いったん統計値が取得されると、これらの統計値はパラメータαによってスケール(scale)される。パラメータαは、決定木の構築を参照しながら説明されたものと同じである。これらのパラメータは下記のように基準化される:
占有は
Figure 0005242724
であり、1次統計値から導出された平均値は
Figure 0005242724
であり、そして2次統計値から導出された分散は下記の通りである:
Figure 0005242724
次に、ステップS235でOおよびO’を使用して決定木ベースの文脈クラスタリングが実行される。これは図8を参照しながら説明された仕方と同じ仕方で実行される。
フォワード−バックワードアルゴリズムがO’モデルによって、またステップS209で実行された状態結合構造によって動作させられることは留意されるべきである。しかしながらステップS235の決定木ベースの文脈クラスタリングは「結合されていない」統計値を必要とする、すなわち各個別の文脈依存性モデルはそれ自身の占有数、それ自身にだけ累積された1次および2次統計値を有する。
ステップS235が実行されたとき、クラスタリングされた文脈依存性HMMに対して埋込み再推定が実行されるステップ237が実行される。再び、混合ガウス分布は通常使用されないので音声合成のために音響モデルが使用されることになっている場合、このステップは省略され得る。
第1および第2のモデルの学習は、製造業者側で行われ得る。しかしながら初期学習データによって学習されたばかりの音声処理製品が製造されることも可能である。それからこの製品は後で第2の学習データで学習され得るであろう。
図11で本発明は、音声認識システムにおいて使用され得る。音声認識システムでは図11で説明されている基本ステップが実行されるであろう。
ステップS301で話者からの入力音声が受信される。このシステムは好適には、話者データOを使用してこの話者に関して学習されているであろう。
ステップS303で、音声入力から生じる一連の語の尤度は、図9および10を参照しながら説明されたように、学習された音響モデルを使用して決定される。次にステップS305で、所定の言語において発生する一連の観測値の尤度が言語モデルを使用して評価される。ステップS307で、一連の語を生成するために言語モデルと音響モデルとの結果が組み合わされる。ステップS309で、この一連の語が出力される。一連の語はモニタに出力され得るか、あるいは探索エンジン内に向けられ得るか、またはSatNavシステムなどに向けられ得る。一実施形態では、出力された一連の語は、それからこれが第2の言語に翻訳される翻訳システムに向けられる。
図12は、音声合成のための極めて単純なシステムを示す。ステップS321でテキスト入力を受け取る。このテキスト入力はデータファイルから取得され、あるいはコンピュータに直接入力され得る。
それからステップS323で、入力テキストに対応する一連の音声ベクトルを決定するために音響モデルを実行する。それからステップS325で、テキスト入力に対応するオーディオが出力される。
音声対音声翻訳システムに関して図11および図12の動作は、異なる言語に翻訳されて図12のテキスト入力321として入力された図11のステップS309からの出力によって順次に実行され得るであろう。

Claims (18)

  1. 一連の観測値を含む既知の話者から音声入力信号を受け取り、
    該一連の観測値から生じる一連の語の尤度を音響モデルを使用して判断し、該音響モデルは、1つの語またはその一部を1つの観測値に関連付ける確率分布を記述する複数のモデルパラメータを有しており、該音響モデルは、第1の学習データを使用して学習され、かつ第2の学習データを使用して前記話者に適応されており、
    所与の言語に生じる一連の観測値の尤度を言語モデルを使用して判断し、
    前記音響モデルおよび前記言語モデルによって判断された尤度を組み合わせて前記音声入力信号から識別された一連の語を出力し、
    前記音響モデルを文脈に依存してクラスタリングするための決定木が前記第2の学習データに適応され
    前記決定木の構造は、前記第1および第2の学習データの両方に基づいており、かつ該決定木のノードの分割から判断され、該分割は、該決定木の構造を表すパラメータ結合構造および前記モデルパラメータを条件として前記第2の学習データに対する前記音響モデルの尤度を事後的に最大化させる最大事後基準を用いて算出されることを特徴とする、音声認識方法。
  2. 前記分割は、次式によって表される最大事後基準:
    Figure 0005242724
    ただし、O’は前記第1の学習データ、Oは前記第2の学習データ、mは前記パラメータ結合構造、λは1セットの前記モデルパラメータ、
    Figure 0005242724
    は最大事後基準のパラメータ結合構造、
    Figure 0005242724
    は最大事後基準のモデルパラメータ、αは設定されるスケーリングパラメータ、
    を用いて算出されることを特徴とする、請求項記載の音声認識方法。
  3. 前記文脈への依存性がトライフォンとして実現されることを特徴とする、請求項1又は2に記載の音声認識方法。
  4. 前記音響モデルは、平均および分散によって表される確率分布を含んでおり、前記決定木は平均および共分散の両方について提供されることを特徴とする、請求項1乃至のいずれかに記載の音声認識方法。
  5. 前記文脈は、音声的、言語的および韻律的に選択されることを特徴とする、請求項1乃至のいずれかに記載の音声認識方法。
  6. 前記決定木を、少なくとも表出型文脈、性別、年齢または音声特徴のいずれかをモデリングするために用いることを特徴とする、請求項1乃至のいずれかに記載の音声認識方法。
  7. 一連の語を含むテキスト入力を受け取り、
    該一連の語から生じる一連の音声ベクトルの尤度を音響モデルを使用して判断し、
    前記一連の音声ベクトルの尤度に基づく音声信号を出力し、
    前記音響モデルは、1つの語またはその一部を1つの観測値に関連付ける確率分布を記述する複数のモデルパラメータを有しており、該音響モデルは、第1の学習データを使用して学習され、かつ第2の学習データを使用して前記第2の学習データの話者に適応されており、
    前記音響モデルを文脈に依存してクラスタリングするための決定木が前記第2の学習データに適応され
    前記決定木の構造は、前記第1および第2の学習データの両方に基づいており、かつ該決定木のノードの分割から判断され、該分割は、該決定木の構造を表すパラメータ結合構造および前記モデルパラメータを条件として前記第2の学習データに対する前記音響モデルの尤度を事後的に最大化させる最大事後基準を用いて算出されることを特徴とする、音声合成方法。
  8. 音声と、該音声に対応するテキストとを含む第1の学習データを受け取り、
    該第1の学習データを使用して第1の音響モデルを学習し、
    既知の話者からの第2の学習データを受け取り、
    該第2の学習データを使用して第2の音響モデルを形成するように該第1の音響モデルを適応させ、
    該第2の音響モデルを形成するように該第1の音響モデルを適応させることは、文脈依存性をモデリングするために複数の決定木を構築することを含み、
    前記決定木が前記第2の学習データに適応され
    前記決定木の構造は、前記第1および第2の学習データの両方に基づいており、かつ該決定木のノードの分割から判断され、該分割は、該決定木の構造を表すパラメータ結合構造、および前記第1の音響モデルのモデルパラメータを条件として前記第2の学習データに対する前記第1の音響モデルの尤度を事後的に最大化させる最大事後基準を用いて算出されることを特徴とする、音声処理システム用の音響モデル学習方法。
  9. 前記第2の音響モデルへの適応が異なる位置で実行可能になるように前記第1の音響モデルを記憶することをさらに含む、請求項記載の音響モデル学習方法。
  10. 前記第1の音響モデルを学習することは、複数の隠れマルコフモデル(HMM)を初期化し、前記第1の学習データに基づいて該HMMを再度推定し、該第1の学習データの文脈をモデリングするために決定木を構築することを含む、請求項またはに記載の音響モデル学習方法。
  11. 前記第1の音響モデルの学習は、前記決定木によってクラスタリングされた前記HMMを再度推定することを含む請求項10記載の音響モデル学習方法。
  12. 前記第2の音響モデルの学習は、前記第2の学習データおよび前記第1の学習データについてフォワード−バックワードアルゴリズムを実行することにより該第2の音響モデルのモデルパラメータを導出し、
    スケーリングパラメータを使用して該第1の学習データから取得された統計値をスケーリングし、該第1および第2の学習データを使用して決定木をそれぞれ構築することを含む、請求項乃至11のいずれかに記載の音響モデル学習方法。
  13. 前記スケーリングパラメータを試行錯誤によって判断する、請求項12記載の音響モデル学習方法。
  14. 前記第2の音響モデルの学習は、前記決定木によってクラスタリングされた前記第2の音響モデルを再度推定することを更に含む、請求項12又は13記載の音響モデル学習方法。
  15. 請求項1−14のいずれかに記載された方法を実行するようにコンピュータを制御するためのプログラム。
  16. 一連の観測値を含む既知の話者からの音声入力信号を受信する受信機と、プロセッサとを備えており、該プロセッサは、
    音響モデルを使用して該一連の観測値から生じる一連の語の尤度を判断し、該音響モデルは、1つの語またはその一部を1つの観測値に関連付ける確率分布を記述する複数のモデルパラメータを有しており、該音響モデルは第1の学習データを使用して学習され、かつ第2の学習データを使用して前記話者に適応され、
    所与の言語で生じる一連の観測値の尤度を言語モデルを使用して判断し、
    該音響モデルおよび該言語モデルによって判断された該尤度を組み合わせて前記音声入力信号から識別された一連の語を出力するように構成されており、
    前記音響モデルを文脈に依存してクラスタリングするための決定木が前記第2の学習データに適応され
    前記決定木の構造は、前記第1および第2の学習データの両方に基づいており、かつ該決定木のノードの分割から判断され、該分割は、該決定木の構造を表すパラメータ結合構造および前記モデルパラメータを条件として前記第2の学習データに対する前記音響モデルの尤度を事後的に最大化させる最大事後基準を用いて算出されることを特徴とする、音声認識装置。
  17. 一連の語を含むテキスト入力を受信する受信機と、プロセッサとを備えており、該プロセッサは、
    音響モデルを使用して該一連の語から生じる一連の音声ベクトルの尤度を判断し、
    前記一連の音声ベクトルの尤度に基づく音声信号を出力し、
    前記音響モデルは、1つの語またはその一部を1つの観測値に関連付ける確率分布を記述する複数のモデルパラメータを有しており、該音響モデルは第1の学習データを使用して学習され、かつ第2の学習データを使用して前記第2の学習データの話者に適応されるように構成されており、
    前記音響モデルを文脈に依存してクラスタリングするための決定木が前記第2の学習データに適応され
    前記決定木の構造は、前記第1および第2の学習データの両方に基づいており、かつ該決定木のノードの分割から判断され、該分割は、該決定木の構造を表すパラメータ結合構造および前記モデルパラメータを条件として前記第2の学習データに対する前記音響モデルの尤度を事後的に最大化させる最大事後基準を用いて算出されることを特徴とする、音声合成装置。
  18. 第1の言語の音声を認識するように構成された請求項16に記載の音声認識装置と、
    第1の言語で受信されたテキストを第2の言語のテキストに翻訳するように構成された翻訳モジュールと、
    前記第2の言語の音声を出力するように構成された請求項17に記載の音声合成装置とを備える、音声翻訳システム。
JP2011045161A 2010-03-02 2011-03-02 音声プロセッサ、音声処理方法および音声プロセッサの学習方法 Expired - Fee Related JP5242724B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB1003496.5 2010-03-02
GB1003496.5A GB2478314B (en) 2010-03-02 2010-03-02 A speech processor, a speech processing method and a method of training a speech processor

Publications (2)

Publication Number Publication Date
JP2011180596A JP2011180596A (ja) 2011-09-15
JP5242724B2 true JP5242724B2 (ja) 2013-07-24

Family

ID=42125880

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011045161A Expired - Fee Related JP5242724B2 (ja) 2010-03-02 2011-03-02 音声プロセッサ、音声処理方法および音声プロセッサの学習方法

Country Status (3)

Country Link
US (1) US9043213B2 (ja)
JP (1) JP5242724B2 (ja)
GB (1) GB2478314B (ja)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9798653B1 (en) * 2010-05-05 2017-10-24 Nuance Communications, Inc. Methods, apparatus and data structure for cross-language speech adaptation
CN102385858B (zh) * 2010-08-31 2013-06-05 国际商业机器公司 情感语音合成方法和系统
US8484023B2 (en) * 2010-09-24 2013-07-09 Nuance Communications, Inc. Sparse representation features for speech recognition
KR20120046627A (ko) * 2010-11-02 2012-05-10 삼성전자주식회사 화자 적응 방법 및 장치
US9558738B2 (en) * 2011-03-08 2017-01-31 At&T Intellectual Property I, L.P. System and method for speech recognition modeling for mobile voice search
GB2489473B (en) * 2011-03-29 2013-09-18 Toshiba Res Europ Ltd A voice conversion method and system
US8682670B2 (en) * 2011-07-07 2014-03-25 International Business Machines Corporation Statistical enhancement of speech output from a statistical text-to-speech synthesis system
CN102270449A (zh) * 2011-08-10 2011-12-07 歌尔声学股份有限公司 参数语音合成方法和系统
US9275636B2 (en) * 2012-05-03 2016-03-01 International Business Machines Corporation Automatic accuracy estimation for audio transcriptions
GB2505400B (en) * 2012-07-18 2015-01-07 Toshiba Res Europ Ltd A speech processing system
BR112015017106B1 (pt) * 2012-07-20 2023-12-12 Interactive Intelligence, Inc Método implementado por computador para detectar palavras-chave predeterminadas
US20150199960A1 (en) * 2012-08-24 2015-07-16 Microsoft Corporation I-Vector Based Clustering Training Data in Speech Recognition
JP6314828B2 (ja) * 2012-10-16 2018-04-25 日本電気株式会社 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム
US8935170B2 (en) 2012-11-27 2015-01-13 Longsand Limited Speech recognition
CN103871403B (zh) * 2012-12-13 2017-04-12 北京百度网讯科技有限公司 建立语音识别模型的方法、语音识别方法及对应装置
GB2517503B (en) * 2013-08-23 2016-12-28 Toshiba Res Europe Ltd A speech processing system and method
US9640173B2 (en) * 2013-09-10 2017-05-02 At&T Intellectual Property I, L.P. System and method for intelligent language switching in automated text-to-speech systems
US10140981B1 (en) * 2014-06-10 2018-11-27 Amazon Technologies, Inc. Dynamic arc weights in speech recognition models
WO2016042626A1 (ja) * 2014-09-17 2016-03-24 株式会社東芝 音声処理装置、音声処理方法及びプログラム
CN104795063A (zh) * 2015-03-20 2015-07-22 中国人民解放军信息工程大学 一种基于声学空间非线性流形结构的声学模型构建方法
JP6523893B2 (ja) * 2015-09-16 2019-06-05 株式会社東芝 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム
CN111243606B (zh) * 2017-05-12 2023-07-21 苹果公司 用户特定的声学模型
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
CN111201565A (zh) 2017-05-24 2020-05-26 调节股份有限公司 用于声对声转换的系统和方法
CN107515862A (zh) * 2017-09-01 2017-12-26 北京百度网讯科技有限公司 语音翻译方法、装置及服务器
US11694681B2 (en) * 2018-01-08 2023-07-04 Ebay Inc. Artificial assistant system notifications
WO2019139428A1 (ko) * 2018-01-11 2019-07-18 네오사피엔스 주식회사 다중 언어 텍스트-음성 합성 방법
EP3739476A4 (en) * 2018-01-11 2021-12-08 Neosapience, Inc. SPEECH SYNTHESIS PROCESS FROM MULTILINGUAL TEXT
JP7124358B2 (ja) 2018-03-13 2022-08-24 富士通株式会社 出力プログラム、情報処理装置及び出力制御方法
US11308939B1 (en) * 2018-09-25 2022-04-19 Amazon Technologies, Inc. Wakeword detection using multi-word model
US11955120B1 (en) 2019-01-31 2024-04-09 Alan AI, Inc. Systems and methods for integrating voice controls into applications
US11935539B1 (en) * 2019-01-31 2024-03-19 Alan AI, Inc. Integrating voice controls into applications
CN109887484B (zh) * 2019-02-22 2023-08-04 平安科技(深圳)有限公司 一种基于对偶学习的语音识别与语音合成方法及装置
US11538485B2 (en) 2019-08-14 2022-12-27 Modulate, Inc. Generation and detection of watermark for real-time voice conversion
CN110737268B (zh) * 2019-10-14 2022-07-15 哈尔滨工程大学 一种基于Viterbi算法的确定指令的方法
KR20210053020A (ko) 2019-11-01 2021-05-11 삼성전자주식회사 전자 장치 및 그 동작 방법
CN116670754A (zh) 2020-10-08 2023-08-29 调节公司 用于内容审核的多阶段自适应系统
CN113627153B (zh) * 2021-07-30 2023-10-27 湖南提奥医疗科技有限公司 处理数据的方法、装置、设备及存储介质
CN115831089B (zh) * 2021-12-27 2023-12-01 北京百度网讯科技有限公司 声学特征的确定方法、装置、设备、介质及产品
CN116386637B (zh) * 2023-06-05 2023-08-04 中国电子科技集团公司第十五研究所 雷达飞行指挥语音指令生成方法及系统

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5715367A (en) * 1995-01-23 1998-02-03 Dragon Systems, Inc. Apparatuses and methods for developing and using models for speech recognition
US6151575A (en) * 1996-10-28 2000-11-21 Dragon Systems, Inc. Rapid adaptation of speech models
JP2991288B2 (ja) * 1997-01-30 1999-12-20 日本電気株式会社 話者認識装置
US6574597B1 (en) * 1998-05-08 2003-06-03 At&T Corp. Fully expanded context-dependent networks for speech recognition
DE19912405A1 (de) 1999-03-19 2000-09-21 Philips Corp Intellectual Pty Bestimmung einer Regressionsklassen-Baumstruktur für Spracherkenner
US6725190B1 (en) * 1999-11-02 2004-04-20 International Business Machines Corporation Method and system for speech reconstruction from speech recognition features, pitch and voicing with resampled basis functions providing reconstruction of the spectral envelope
US6442519B1 (en) * 1999-11-10 2002-08-27 International Business Machines Corp. Speaker model adaptation via network of similar users
US6571208B1 (en) 1999-11-29 2003-05-27 Matsushita Electric Industrial Co., Ltd. Context-dependent acoustic models for medium and large vocabulary speech recognition with eigenvoice training
US7472064B1 (en) * 2000-09-30 2008-12-30 Intel Corporation Method and system to scale down a decision tree-based hidden markov model (HMM) for speech recognition
EP1205907B1 (en) * 2000-11-14 2005-06-08 International Business Machines Corporation Phonetic context adaptation for improved speech recognition
DE60111329T2 (de) * 2000-11-14 2006-03-16 International Business Machines Corp. Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung
US6754626B2 (en) * 2001-03-01 2004-06-22 International Business Machines Corporation Creating a hierarchical tree of language models for a dialog system based on prompt and dialog context
WO2002091357A1 (en) * 2001-05-08 2002-11-14 Intel Corporation Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (lvcsr) system
US7668718B2 (en) * 2001-07-17 2010-02-23 Custom Speech Usa, Inc. Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
WO2004047077A1 (en) * 2002-11-15 2004-06-03 Voice Signal Technologies, Inc. Multilingual speech recognition
US7574359B2 (en) * 2004-10-01 2009-08-11 Microsoft Corporation Speaker selection training via a-posteriori Gaussian mixture model analysis, transformation, and combination of hidden Markov models
US7409346B2 (en) * 2004-11-05 2008-08-05 Microsoft Corporation Two-stage implementation for phonetic recognition using a bi-directional target-filtering model of speech coarticulation and reduction
US20070033027A1 (en) * 2005-08-03 2007-02-08 Texas Instruments, Incorporated Systems and methods employing stochastic bias compensation and bayesian joint additive/convolutive compensation in automatic speech recognition
JP4087400B2 (ja) * 2005-09-15 2008-05-21 株式会社東芝 音声対話翻訳装置、音声対話翻訳方法および音声対話翻訳プログラム
KR100815115B1 (ko) * 2006-03-31 2008-03-20 광주과학기술원 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치
US20080059200A1 (en) * 2006-08-22 2008-03-06 Accenture Global Services Gmbh Multi-Lingual Telephonic Service
JP4705535B2 (ja) 2006-08-31 2011-06-22 日本放送協会 音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラム
ATE457511T1 (de) * 2007-10-10 2010-02-15 Harman Becker Automotive Sys Sprechererkennung
CA2724753A1 (en) * 2008-05-30 2009-12-03 Nokia Corporation Method, apparatus and computer program product for providing improved speech synthesis
GB2464093B (en) * 2008-09-29 2011-03-09 Toshiba Res Europ Ltd A speech recognition method
JP2010152081A (ja) * 2008-12-25 2010-07-08 Toshiba Corp 話者適応装置及びそのプログラム
US8340965B2 (en) * 2009-09-02 2012-12-25 Microsoft Corporation Rich context modeling for text-to-speech engines

Also Published As

Publication number Publication date
GB2478314B (en) 2012-09-12
GB201003496D0 (en) 2010-04-14
US20110218804A1 (en) 2011-09-08
US9043213B2 (en) 2015-05-26
JP2011180596A (ja) 2011-09-15
GB2478314A (en) 2011-09-07

Similar Documents

Publication Publication Date Title
JP5242724B2 (ja) 音声プロセッサ、音声処理方法および音声プロセッサの学習方法
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
Hain et al. New features in the CU-HTK system for transcription of conversational telephone speech
JP2871561B2 (ja) 不特定話者モデル生成装置及び音声認識装置
JP5398909B2 (ja) テキスト音声合成方法及びシステム
JP5418223B2 (ja) 音声分類装置、音声分類方法、および音声分類用プログラム
KR101153078B1 (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
KR100845428B1 (ko) 휴대용 단말기의 음성 인식 시스템
US8595006B2 (en) Speech recognition system and method using vector taylor series joint uncertainty decoding
Gutkin et al. TTS for low resource languages: A Bangla synthesizer
JP2010170075A (ja) 情報処理装置、プログラム、および音響モデルを生成する方法
Uebel et al. Improvements in linear transform based speaker adaptation
JP5007401B2 (ja) 発音評定装置、およびプログラム
JP6031316B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
JP2004226982A (ja) 隠れ軌跡隠れマルコフモデルを使用した音声認識の方法
US20110276332A1 (en) Speech processing method and apparatus
Hain et al. The cu-htk march 2000 hub5e transcription system
JP4836076B2 (ja) 音声認識システム及びコンピュータプログラム
JP5180800B2 (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
JP2018084604A (ja) クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成装置、クロスリンガル音声合成用モデル学習方法、プログラム
Gutkin et al. Building statistical parametric multi-speaker synthesis for bangladeshi bangla
Furui Generalization problem in ASR acoustic model training and adaptation
JP4729078B2 (ja) 音声認識装置とその方法と、プログラムとその記録媒体
JP2017151224A (ja) 基本周波数パターン予測装置、方法、及びプログラム
Shahnawazuddin et al. A fast adaptation approach for enhanced automatic recognition of children’s speech with mismatched acoustic models

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120409

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121120

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130312

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130403

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160412

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160412

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees