JP2002539483A

JP2002539483A - 音声信号の特徴記述子を求める方法

Info

Publication number: JP2002539483A
Application number: JP2000604404A
Authority: JP
Inventors: ホルツアプフェルマーティン
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 1999-03-08
Filing date: 2000-03-01
Publication date: 2002-11-19
Also published as: US20020035469A1; US6523005B2; EP1159734A1; EP1159734B1; DE50006493D1; WO2000054256A1

Abstract

(57)【要約】音声信号の特徴記述子を求める方法において、第１の時間パターンで第１の音声モデルをトレーニングし、第２の時間パターンで第２の時間モデルをトレーニングし、第２の音声モデルを第１の音声モデルによってイニシャライズする。

Description

【発明の詳細な説明】

【０００１】本発明は音声信号の特徴記述子を求める方法および装置に関する。

【０００２】この種の方法および装置は文献［１］から知られる。この文献では時間離散的
なシーケンスの特徴ベクトルが音声信号から抽出される。これはａ）音声のディジタル表現ｂ）データ量の低減ｃ）表明内容（発話された音声および言葉）を識別する助けとなる変動性の強調ｄ）話者、発話形式、環境影響、および音響的伝達特性ないし電気的伝達特性を
表す変動性の溶暗などを目的として行われる。

【０００３】一般に適用領域に関連するパターンクラスの特徴ベクトルが特徴空間の領域を
なるべくコンパクトに占有し、種々のパターンクラスの領域をできる限り相互に
シャープに分離可能でなければならない。特徴獲得のための公知の技術は、主と
してディジタル信号処理法（特に行列展開）と音声生成または音声受容に対する
関数モデルとの組み合わせに基づく。

【０００４】

【外１】

【０００５】音波は非定常的な信号であり、そのスペクトル特性は音声ごとに変化している
。音素内でさえアーティキュレーション法則のダイナミクスにより音声構造の連
続的な変化（２重母音）および急激な変化（破裂音および破擦音）が生じる。き
わめて短い時間区間、例えば５ｍｓ〜３０ｍｓの間だけしか音声信号をほぼ定常
的であると見なすことはできない。

【０００６】音声信号の短時間の特徴はサンプリング時点ｍごとに計算しなくてもよい。音
声信号の２５ｍｓのオーダのウィンドウ区間は１０ｍｓのステップ時間で音声信
号により運動される。１０ｍｓの時点ごとに特徴ベクトルが発生する。１０ｍｓ
の時点でデータウィンドウ（２５ｍｓ）の値のスペクトル特性および周期特性が
解析され、特徴ベクトルのかたちで記憶される。

【０００７】さらに音声のモデリングのための隠れマルコフモデルＨＭＭが文献［２］から
知られる。語を音声的に生成する際には可変の持続時間と種々のスペクトル組成
とを有する連続的な音声が実現される。発話テンポおよび発話リズムに依存して
、発音における個々の音素セグメントのうち予測不能な数の特徴ベクトルが欠落
してしまう。各ベクトルは音素内容のほかに、話者、環境、および不明瞭な発音
に起因する情報成分を有しており、これらは音声による識別を著しく困難にする
。

【０００８】この状態は簡単に２段階のプロセスによってモデリングされ、これについては
図１の語“ｈａｂｅｎ”についての実施例で示されている。この語の音素につい
てはモデル内に相応の数のステータス１０２〜１０６が保存され、これらのステ
ータスが音声生成のために矢印方向１０１に沿って経過する。それぞれのタイミ
ングクロックではその時点でのステータスにとどまるか、または次のステータス
へ移行することができる。システムは統計的に動作し、図示の移行の確率１０７
〜１１１によって定められる。例えば音素／ａ／に属するステータス１０３には
複数（平均で１０個以上）の連続する短時間解析インターバルを越える時間がか
かり、これに対して破裂音／ｂ／の実現は僅かな時間で応答される。

【０００９】前述のランダムプロセスの第１段階では種々の発音バリエーションの時間的な
歪みがモデリングされ、第２段階ではスペクトルバリエーションが検出される。
語のモデルの各ステータスには統計的な出力関数が結びついており、この出力関
数では音素の実現選択肢が重みづけされている。図１の実施例では音素／ａ／の
生成に対して本来該当する音声のクラス１１３のほかに、正の確率（ここでは０
．１）を有する音声のクラス１１４も許容される。同様に音素／ｎ／の生成につ
いては確率０．３の音声のクラス１１８も許容される。また前述の形式によれば
付加的な音声の消去の記述子も得られる。これはステータス１０５の“ブリッジ
”すなわちステータス１０４とステータス１０６との間の直接の移行により表さ
れている。このブリッジは例えば確率０．２で行われる。

【００１０】隠れマルコフモデルの移行確率はトレーニングデータに基づいて求められる。
完全にトレーニングされた隠れマルコフモデルＨＭＭは音声シーケンスの生成プ
ロトコルとなる（文献［２］127頁〜139頁を参照）。隠れマルコフモデルＨＭＭ
のトレーニング法としてBaum-Welchアルゴリズムを使用することが挙げられる。

【００１１】ここでトレーニングされた隠れマルコフモデルＨＭＭが音声認識すなわち自然
言語による表現とモデルとの比較にも、音声合成すなわちトレーニングデータに
基づく音声の生成にも使用可能であることを指摘しておく。

【００１２】冒頭で言及した１０ｍｓ区間は特に音声合成に対する特徴ベクトルには充分で
ない。ただしこれ以上微細な時間分割を行うと、周知の機構では隠れマルコフモ
デルＨＭＭのトレーニングの収束に欠陥が生じる。

【００１３】本発明の課題は、音声信号の特徴記述子を獲得して高いサンプリングレートで
記述力の高い特徴を得ることである。

【００１４】この課題は独立請求項に記載の特徴により解決される。本発明の他の実施形態
は従属請求項から得られる。

【００１５】この課題は音声信号の特徴記述子を求める方法において、第１の時間パターン
で第１の音声モデルをトレーニングし、第２の時間パターンで第２の音声モデル
をトレーニングし、第２の音声モデルを第１の音声モデルでイニシャライズする
ことにより解決される。

【００１６】別の実施形態では第２の時間パターンが第１の時間パターンよりも小さい。

【００１７】第１の音声モデルから得られた知識を用いたイニシャライズにより第２の音声
モデルはきわめて小さな第２の時間パターンに対しても収束し、これにより相応
の高分解能の音声信号の情報が供給される。音声合成ではまさにこの情報が必要
である。なぜなら合成すべき音の間の移行は高い時間分解能で精確にモデリング
することが困難だからである。

【００１８】一般に時間パターンはここでは音声信号のサンプリングが行われる反復レート
、または（冒頭で２５ｍｓ幅とした）時間ウィンドウがシフトされる反復レート
であると解されたい。

【００１９】別の実施形態では第２の音声モデルが第１の音声モデルのセグメント境界（Se
gmentgrenze）でイニシャライズされる。第１の音声モデル、有利には隠れマル
コフモデルＨＭＭのトレーニングに関して、例えば音声／ａ／で可能な複数の代
理候補（Repraesentant）が見出される。これらの代理候補は音声／ａ／に対し
て第１の粗いセグメンテーションを設定する。この音声は第２の音声モデルに対
して基礎として利用され、第２の時間パターンにより精確な時間分解能で第１の
音声モデルを用いて見出された音声／ａ／の代理候補の精確な判別が可能となる
。新たなトレーニングが収束し、さらに第１の音声モデルと比べて一段と改善さ
れた音声の判別性ないし記述性が保証される。

【００２０】別の実施形態では音声モデルは隠れマルコフモデルＨＭＭであり、特に第２の
音声モデルのイニシャライズのためのセグメント境界は隠れマルコフモデルＨＭ
Ｍのトレーニングの結果である。

【００２１】別の実施形態では特徴記述子は特徴ベクトルである。

【００２２】別の実施形態では第１の時間パターンは４ｍｓ〜１０ｍｓの範囲である。相応
に第２の時間パターンは０ｍｓ〜６ｍｓの範囲よりも大きい。

【００２３】更なる実施形態では、前述の方法を音声処理、特に音声合成に使用する。

【００２４】音声合成に関して、重要なタスクは適切な音声の境界を包括的なトレーニング
材料（発話されたテキスト）から求める（“切り出す”）ことである。その際に
種々の音声、すなわち音素、ダイフォン、トライフォン、ハーフシラブル、シラ
ブル、語、結合語などが考慮される。特に個々の音声はコンテクストに照らして
切り出さなければならない。その際に左方コンテクストと右方コンテクストとは
区別しやすく、それぞれそれ自体で音声に結合されているか、または種々の長さ
のコンビネーションで音声に結合されている。このことの例（語のコンテクスト
）には次のようなものがある。“Verfahren zur Ermittlung einer Merkmalbesc
hreibung eines Sprachsignals”のなかの語“Ermittlung”を観察してみよう。
長さ１の右方コンテクストは語“einer”を含んでおり、相応に長さ１の左方コ
ンテクストは語“zur”を含んでいる。相応に種々の長さの別のコンテクストを
考慮することができる。

【００２５】音声単位の長さと考慮すべきそれぞれのコンテクストとに相応して、セグメン
テーションの際には音声の間の境界を精確に検出することが重要となる。

【００２６】また前述の課題は本発明の音声信号の特徴記述子を求める装置により解決され
る。この装置にはプロセッサユニットが設けられており、このプロセッサユニッ
トは第１の時間パターンで第１の音声信号をトレーニング可能であり、第２の時
間パターンで第２の音声モデルをトレーニング可能であり、第２の音声モデルは
第１の音声モデルによってイニシャライズされるように構成されていることを特
徴とする。

【００２７】この装置は特に、本発明の方法または前述の実施形態を実施するのに適してい
る。

【００２８】本発明の実施例を以下に図に即して説明する。図１には隠れマルコフモデルＨ
ＭＭを用いた音声モデルの概略図が示されている。図２には音声信号の特徴記述
子を求める方法のブロック図が示されている。図３には所定の時間にわたる音声
信号の特徴抽出ないしセグメンテーションの様子が示されている。図４にはプロ
セッサユニットが示されている。

【００２９】図２には音声信号の特徴記述子を求める方法の動作の様子を表すブロック図が
示されている。ステップ２０１では第１の音声モデルが所定の第１の時間パター
ンｔ１にわたってトレーニングされる。この場合自然言語テキストのトレーニン
グ材料が隠れマルコフモデルのトレーニングに使用され、各サンプリング時点（
特にｔ１＝６ｍｓ）で特徴ベクトルが音声信号から求められ、隠れマルコフモデ
ルＨＭＭのトレーニングに使用される。隠れマルコフモデルＨＭＭのトレーニン
グが終了した後、第１の音声モデル２０２が発生する。この音声モデル２０２に
基づいて音声を識別可能であり、そのセグメント境界（すなわち第１の音声モデ
ル内で求められた音声信号区間）を第２の隠れマルコフモデルＨＭＭのトレーニ
ングに対するイニシャライゼーションとして利用できる。第２の音声モデルに基
づいて第２の時間パターンｔ２が生じ、ここでｔ２＜ｔ１（特にｔ２＝２ｍｓ）
が成り立つ。第１のトレーニングから識別された区間による第２の隠れマルコフ
モデルＨＭＭのトレーニングをイニシャライズすることにより第２の音声モデル
２０４も収束し、これにより音声モデル２０４は格段に高い時間分解能で形成さ
れる。したがって高い分解能を維持しつつ有意義なトレーニングが行われること
が保証される。

【００３０】図３には音声信号３０１が時間ｔに関して示されている。音声信号は"Heute i
st schoenes Fruehlingswetter"というセンテンスである。音声信号の経過に基
づいて発音境界のセグメンテーションがあまり細かくないことがわかる。短い区
間（音声の移行を表す区間）の記述情報を抽出することにより、特に自動的な抽
出が可能となる。図３にはさらに特徴ベクトル（図２を参照）内に収容されてい
る情報から取り出し可能なエネルギ特性３０２が示されている。

【００３１】図４にはプロセッサユニットＰＲＺＥが示されている。プロセッサユニットＰ
ＲＺＥはプロセッサＣＰＵ、メモリＳＰＥ、入出力インタフェースＩＯＳを有し
ており、このユニットはインタフェースＩＦＣを介して種々に利用される。グラ
フィックインタフェースを介して出力はモニタＭＯＮで可視に出力されるか、お
よび／またはプリンタＰＲＴへ出力される。入力はマウスＭＡＳまたはキーボー
ドＴＡＳＴを介して行われる。またプロセッサユニットＰＲＺＥにはデータバス
ＢＵＳが設けられており、このバスはメモリＭＥＭ、プロセッサＣＰＵおよび入
出力インタフェースＩＯＳの接続を保証している。さらにデータバスＢＵＳへは
付加的なコンポーネント、例えば付加的なメモリ、データメモリ（ハードディス
ク）またはスキャナを接続することができる。

【００３２】参照文献リスト［１］E.G.Schukat-Talamazzini, "Automatische Spracherkennung-Grundlagen,
statistische Modelle und effiziente Algorithmen", Vieweg&Sohn Verlagsge
sellschaft mbH, Braunschweig/Wiesbaden 1995 p.45-74 ［２］E.G.Schukat-Talamazzini, "Automatische Spracherkennung-Grundlagen,
statistische Modelle und effiziente Algorithmen", Vieweg&Sohn Verlagsge
sellschaft mbH, Braunschweig/Wiesbaden 1995 p.125-139

【図面の簡単な説明】

【図１】隠れマルコフモデルＨＭＭを用いた音声モデルの概略図である。

【図２】音声信号の特徴記述子を求める方法のブロック図である。

【図３】所定の時間にわたる音声信号の特徴抽出ないしセグメンテーションを示す図で
ある。

【図４】プロセッサユニットを示す図である。

Claims

【特許請求の範囲】

【請求項１】ａ）第１の時間パターンで第１の音声モデルをトレーニング
し、ｂ）第２の時間パターンで第２の音声モデルをトレーニングし、第２の音声モデ
ルを第１の音声モデルでイニシャライズする、ことを特徴とする音声信号の特徴記述子を求める方法。
【請求項２】第２の時間パターンは第１の時間パターンよりも小さい、請
求項１記載の方法。
【請求項３】第２の音声モデルを第１の音声モデルのセグメント境界でイ
ニシャライズする、請求項１または２記載の方法。
【請求項４】音声モデルは隠れマルコフモデルである、請求項１から３ま
でのいずれか１項記載の方法。
【請求項５】隠れマルコフモデルをトレーニングすることによりセグメン
ト境界を求める、請求項４記載の方法。
【請求項６】特徴記述子は特徴ベクトルである、請求項１から５までのい
ずれか１項記載の方法。
【請求項７】第１の時間パターンは４ｍｓ〜１０ｍｓの範囲である、請求
項１から６までのいずれか１項記載の方法。
【請求項８】第２の時間パターンは０ｍｓ〜６ｍｓの範囲よりも大きい、
請求項１から７までのいずれか１項記載の方法。
【請求項９】音声処理システムに使用することを特徴とする請求項１から
８までのいずれか１項記載の音声信号の特徴記述子を求める方法。
【請求項１０】音声合成システムに使用することを特徴とする請求項１か
ら８までのいずれか１項記載の音声信号の特徴記述子を求める方法。
【請求項１１】プロセッサユニットが設けられており、該プロセッサユニ
ットはａ）第１の時間パターンで第１の音声信号をトレーニング可能であり、ｂ）第２の時間パターンで第２の音声モデルをトレーニング可能であり、第２の
音声モデルは第１の音声モデルによってイニシャライズされるように構成されている、ことを特徴とする音声信号の特徴記述子を求める装置。