JP2002539482A

JP2002539482A - 見本音声を決定するための方法及び装置

Info

Publication number: JP2002539482A
Application number: JP2000604402A
Authority: JP
Inventors: ホルツアプフェルマーティン
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 1999-03-08
Filing date: 2000-03-01
Publication date: 2002-11-19
Also published as: WO2000054254A1; US20020002457A1; EP1159733A1; EP1159733B1; DE50003260D1; US6430532B2

Abstract

(57)【要約】本発明の課題の解決のためには、音声モデルの集合を含む構造に基づいて見本音声を決定するための方法が提案され、各音声モデルはモデリングされた音声に対する少なくとも１つの見本を有する。構造において第１の品質基準に関してマッチする第１の音声モデルを音声モデルの集合から決定する。構造の性質基準に依存して少なくとも１つの第２の音声モデルを音声モデルの集合からもとめる。第１の音声モデル及び少なくとも１つの第２の音声モデルの見本（の全て又は部分）が第１の品質基準に加えて第２の品質基準に関して判断される。第１の及び第２の品質基準に関して十分な全体品質基準を有する少なくとも１つの見本が見本音声として決定される。

Description

【発明の詳細な説明】

【０００１】本発明は音声を発生するための方法及び装置に関する。

【０００２】このような装置及びこのような方法は参考文献［１］から周知である。そこで
は判定ツリーが発生され、この判定ツリー自体はトライフォンのモデリングのた
めのクラスタ形成を可能にする。このために一連の質問が使用され、これらの一
連の質問は直接音声的なコンテクストに関連し、イエス又はノーによって答えら
れる。各々の答えによって後続の下位ツリーが設定される。従って、自然に発音
された音声のトレーニングデータは枝に投影され、最終的には判定ツリーの葉に
投影される。

【０００３】判定ツリーは、次いで、トレーニングデータによってはカバーされていない全
ての可能なトライフォンに対する隠れマルコフモデルを決定するために、使用す
べき葉の計算に使用される。

【０００４】音声のモデリングのための隠れマルコフモデル（ＨＭＭ）は参考文献［２］か
ら周知である。語の言語的な発生において、構成音声は可変的な持続時間によっ
て及び異なるスペクトル合成において実現される。会話のスピード及びリズムに
依存して、予測できない数の特徴ベクトルが、発語の各々個別の音声学的セグメ
ントに割り当てられる。各ベクトルは、その音声学的内容の他に、発話者及び周
囲環境及び不明瞭な発音に起因する情報成分を含み、これらの情報成分は音声に
関する識別を明らかに困難にする。

【０００５】この状況は簡略化すれば、図１に語「haben」の例で示されているように、二
段階のプロセスによってモデリングされる。この語の音素に対しては、このモデ
ルにおいて相応の個数の状態１０２〜１０６までがリザーブされ、これらの状態
を矢印方向１０１に沿って音声生成のために通過する。各タイムパルス毎に瞬時
の状態に留まり、後続の状態へ移行できる。このシステムは統計的に挙動し、こ
こに記入された移行確率１０７〜１１１によって決定される。よって、例えば、
音素/ａ/に所属する状態１０３は複数の（平均で１０より大きい）連続する短時
間解析インターバルを越えて使用され、これに対して破裂音/ｂ/の実現はより少
ない時間を要する。

【０００６】上記のランダムプロセスの第１段階が様々な発音ヴァリアントの時間的な歪み
をモデリングする間に、第２の段階はスペクトル変化の検出に使用される。語モ
デルの各状態には統計的な出力関数が結びつけられ、この統計的な出力関数は音
声的な実現選択肢（phonetic realization alternatives）を重み付けする。図
１の例では、音素/ａ/の発生のために、本来適合している素音クラス（phone cl
ass）１１３の他に、正の確率（ここでは０.１）を有する素音クラス１１４も許
容される。同様に、素音クラス１１８が音素/ｎ/の発生のために確率０.３によ
って許容される。また上記の形式論は、状態１０４と状態１０６との間のダイレ
クトな移行による状態１０５の「架橋（bridging）」１１９により表されている
オプショナルな音声除去の記述を可能にする。この架橋は例えば確率０.２を与
えられる。

【０００７】隠れマルコフモデルの移行確率はトレーニングデータに基づいてもとめられる
。完全にトレーニングされたＨＭＭは音声系列の発生のための青写真（ブループ
リント）を表す（参考文献［２］、第１２７頁〜１３９頁を参照）。ＨＭＭのト
レーニングのための方法はバウム・ウェルチ（Baum-Welch）アルゴリズムの使用
である。

【０００８】しかし、参考文献［１］に記載された方法では、不利なことに判定ツリーにお
いては個々に見出される枝だけが音声モデリングに使用される。

【０００９】本発明の課題は、（多数の音声から）見本音声（representative sound）を決
定する場合に、予め設定された基準に従って構成された構造だけではなく、この
構造の性質基準も考慮に入れることである。

【００１０】上記課題は、独立請求項の構成によって解決される。本発明の実施形態は従属
請求項から得られる。

【００１１】本発明の課題の解決のためには、音声モデルの集合を含む構造に基づいて見本
音声を決定するための方法が提示され、各音声モデルはモデリングされた音声に
対する少なくとも１つの見本（representative）を有する。構造において、第１
の品質基準に関してマッチする第１の音声モデルを音声モデルの集合から決定す
る。構造の性質基準に依存して少なくとも１つの第２の音声モデルを音声モデル
の集合からもとめる。第１の音声モデル及び少なくとも１つの第２の音声モデル
の見本（の全て又は部分）が第１の品質基準に加えて第２の品質基準に関して判
断される。第１の及び第２の品質基準に関して十分な全体品質基準を有する少な
くとも１つの見本が見本音声として決定される。

【００１２】この構造がどのように秩序付けられるかに従って、発生すべき音声に対してマ
ッチする音声モデルがこの構造内でサーチされる。この場合、「マッチング」は
、とりわけこの構造によって予め設定されている第１の品質基準に関して使用さ
れる。

【００１３】この構造はツリー構造として、有利には２分木として構成される。このような
ツリー構造は（音声モデルの具体化のための）ノード、（この構造を構成する、
基準に依存して音声モデルを階層的に分割するための）枝及び葉（もはや枝がそ
こから出てこないようなノード）を有する。

【００１４】構造（とりわけツリー構造）の性質に依存して少なくとも１つの第２の音声モ
デルを音声モデルの集合からもとめるために、予め設定された基準に基づいて構
成される構造が使用される。この場合、この構造における性質基準は第１の音声
モデルからの間隔尺度である。構造が２分木の場合には、第１の音声モデルに対
して所定の間隔内にある全ての音声モデルが第２の音声モデルと考えられる。こ
の場合、「間隔」という概念は必ずしも局所的に解釈されるべきではなく、むし
ろ上記の「間隔」は１つ又は複数の予め設定された基準に関する間隔尺度である
。

【００１５】第１の音声モデル及び性質基準を満たしかつこの第１の音声モデルに対して所
定の間隔を有する第２の音声モデルの集合によって、音声モデルの見本に対して
第２の品質基準がもとめられる。各見本に対する全体品質基準は、第１の品質基
準及び少なくとも１つの第２の品質基準から構成される。音声の発生に適する見
本の中の候補は、その「十分な」全体品質基準によって、すなわち所定の最小値
を有する全体品質基準によって決定される。

【００１６】この場合、実施形態では、全体品質基準は品質基準の算術的結合である。

【００１７】とりわけ、実施形態では、少なくとも１つの第２の音声モデルの見本は、性質
基準から喚起される、第１の音声モデルの見本に比べて低減された品質に付加的
に加えられる。この場合、有利には少なくとも１つの第２の音声モデルと第１の
音声モデルとの間の上記の間隔が使用される：大きな間隔は、この構造に従って
元々マッチすると見なされた第１の音声モデルからの大きな偏差を示す。このよ
うな大きな間隔に対しては、この少なくとも１つの第２の音声モデルの見本に対
してある種の「ペナルティ」が与えられる。このペナルティは全体品質基準に影
響を与える。

【００１８】実施形態では、全体品質基準に関して最良の見本が見本音声として決定される
。

【００１９】他の実施形態では、この構造は、次の基準のうちの少なくとも１つの基準によ
って構成される、すなわち、ａ）言語学的基準、例えば語の文法的特徴、ｂ）調音的基準、とりわけ調音の位置、ｃ）音声学的基準、例えば破裂音又は鼻音にって分類される音声学的基準のうちの少なくとも１つの基準によって構成される。

【００２０】他の実施形態では、音声は、次の可能性のうちの１つとして形成されうる、す
なわち、ｈ）音素、ｉ）ダイフォン（diphone）、ｊ）トライフォン（triphone）、ｋ）音節（syllable）、ｌ）音節結合（combination of syllables）、ｍ）語（word）、ｎ）語結合（combination of words）の可能性のうちの１つとして形成される。

【００２１】実施形態では、音声が音声結合を含む場合には、構造の構成はこの音声結合内
の音声のコンテクスト基準に従って行われる。これはとりわけ次のことを意味す
る。すなわち、音声結合の際に「瞬時の音声の左側の音声は母音か？」又は「瞬時の音声の左側の音声は破裂音か？」というタイプの質問が行われ、その都度イエス又はノーで答えられ、これによっ
てとりわけ２分木の構造の構成のために右側コンテクスト乃至は左側コンテクス
トが使用されることを意味する。

【００２２】他の実施形態の枠内では、音声モデルは隠れマルコフモデル（ＨＭＭ）の形式
で与えられる。

【００２３】他の実施形態では、それぞれ見本の全体品質基準に基づいて、見本音声を決定
するのに最も適しているｎ個の見本の選択が示される。この場合個数ｎは適用事
例に依存して予め設定可能であり、最良の見本は有利にはリストの形式で示され
る。

【００２４】さらに、実施形態では、構造、とりわけツリー構造における後続のサーチによ
って第１の品質基準の改善がもはや実現されない場合にはすぐに、見本音声の決
定のために第１の音声モデルが決定される。

【００２５】他の実施形態では、できるだけ良好な第１の品質基準を有する音声モデルの集
合の中の音声モデルに対して、見本音声の決定のために必要であるよりも少ない
見本が使用可能である場合にはすぐに第１の音声モデルが決定される。言い換え
れば、閾値によって予め設定されているよりも多くの見本を含むような音声モデ
ルだけが、十分に良好な第１の音声モデルのサーチにおいて考慮される。

【００２６】他の実施形態の枠内において、各々の第２の品質基準に対してファジーロジッ
ク評価が行われる。これによって、第２の品質基準毎に、適切な評価が行われる
。この適切な評価は他の評価との比較可能性に関してとりわけ正規化されて実施
される。このような正規化された評価に適した方法はファジーロジックが提供す
る。

【００２７】実施形態では、上記の方法は、音声処理、とりわけ音声合成に使用される。

【００２８】さらに、上記課題を解決するためには、音声モデルの集合を含む構造に基づい
て見本音声を決定するための装置において、各音声モデルはモデリングされた音
声に対する少なくとも１つの見本を有する装置が提供される。この装置はプロセ
ッサユニットを有し、このプロセッサユニットは次のように構成されている、す
なわち、ａ）構造において第１の品質基準に関してマッチする第１の音声モデルを音声
モデルの集合から決定し、ｂ）構造の性質基準に依存して少なくとも１つの第２の音声モデルを音声モデ
ルの集合から決定し、ｃ）第１の音声モデル及び少なくとも１つの第２の音声モデルの見本が第１の
品質基準に加えて第２の品質基準に関して判断され、ｄ）第１の及び第２の品質基準に関して十分な全体品質基準を有する少なくと
も１つの見本が見本音声として決定されるように構成されている。

【００２９】この装置はとりわけ本発明の方法又は上記の実施形態を実施するのに適してい
る。

【００３０】本発明の実施例を次に図面に基づいて説明する。

【００３１】図１はＨＭＭによる音声モデリングのための概略図を示し、図２は構造、とりわけ２分判定木の例を示し、図３は見本音声の発生乃至は決定のための方法のブロックダイアグラムを示し
、図４は見本の選択を有するテーブル表を示し、図５はプロセッサユニットを示す。

【００３２】図２には構造、とりわけ２分判定木の例が図示されている。この判定木はもっ
と大きなシステムのほんの小さな部分にすぎず、すでに説明した実施例及び以下
に説明する実施例の概略図に使用される。

【００３３】判定木はノード２０１〜２０５までを含み、これらのノード２０１〜２０５の
うちのノード２０１が根と呼ばれ、ノード２０３、２０４及び２０５が木の葉と
呼ばれる。さらに、この木は辺２０６〜２０９を有し、これらの辺２０６〜２０
９に沿って判定を追跡することができる。順に実施される多数の判定によって判
定木全体が構成される。

【００３４】図２の例では音声モデル/ａ/（ノード２０１参照）から出発し、この音声モデ
ル/ａ/に対して先行音声（predecessor）が破裂（音）であるか否かが検査され
る。この先行音声が破裂音である場合には、辺２０６に沿ってノード２０２に分
岐する。さもなければ、辺２０７に沿ってノード（葉）２０３に移行する。ノー
ド２０３は、７つの見本（実際の音声）２１０〜２１６が割り当てられている１
つの音声モデルを表す。ノード２０３のこの音声モデルはさらに洗練（refine）
される（図示せず）。ノード２０２から出発して、満たされた条件２０６に加え
て、この音声/ａ/の後続音声（successor）が母音であるか否かが検査される。
イエスの場合、辺２０８に沿ってノード２０４に移行し、さもなければ辺２０９
に沿ってノード２０５に分岐する。ノード２０４は見本２１７、２１８及び２１
９を含む１つの音声モデルを表し、ノード２０５は見本２２０及び２２１を含む
１つの音声モデルを表す。これらの見本の集合のサイズは図２では図示しやすい
ための仮のものである。実際の適用事例に依存して、例えば５つよりも少ない見
本を有する音声モデルでは使用しても意味がない。

【００３５】図３にはブロックダイアグラムに基づいて音声を発生するための方法が示され
ている。音声の発生は構造、とりわけ図２に示された２分判定木に基づいて行わ
れ、この構造は複数の音声モデルの集合を有し、これらの音声モデルの各々は、
モデリングされた音声に対する少なくとも１つの見本を有する。ステップ３０１
では第１の音声モデルがこの構造においてもとめられる。この第１の音声モデル
は発生すべき音声に関して十分な第１の品質基準を有する。この「十分な」とい
う言葉は、この文脈では、とりわけ所定の閾値との比較がポジティブであったこ
とを意味する。この構造の性質基準、とりわけこの構造内の間隔に依存して、少
なくとも１つの第２の音声モデルがもとめられる（ステップ３０２）。第１の音
声モデル及び少なくとも１つの第２の音声モデルの見本に対して、ステップ３０
３においてそれぞれ更に別の品質基準が決定され、この場合、この第２の品質基
準は複数の下位基準を含むことができる。ステップ３０４において、第２の品質
基準に対するペナルティを考慮に入れることによって、全体品質基準がもとめら
れる。性質基準によって選択される少なくとも１つの第２の音声モデルにはペナ
ルティが与えられる。なぜなら、元々はこの構造によればこのサーチは第１の音
声モデルで終了したからである。この第１の音声モデルからこの第２の音声モデ
ルへの偏差を正当化するために、この第１の音声モデルからの偏差は、第２の品
質基準に関して明瞭な改善をもたらさなくてはならない。この場合、これらの品
質基準に対する値は有利にはこれらの見本自体に基づいてもとめられる。この偏
差（間隔）に対する値は様々な評価に基づいて算出される。ステップ３０５にお
いてｎ個の最良の見本が示される。適用事例に応じて、マッチする１つの見本を
選び出すことが可能である。この場合、付加的にこれらの品質基準は個々に重み
付けされ、この結果、各適用事例がその目的に対して「最良な」見本を音声の発
生のために決定することができる。

【００３６】図４は、結果的に得られた見本１，２，．．．，ｎ（列４０１を参照）のリス
ト表示を示す。各見本４０１は、第１の品質基準（ＧＫ）４０２及び所属のペナ
ルティＳｔＭ１４０４を有する第１の第２の品質基準４０３及び所属のペナルテ
ィＳｔＭ２を有する第２の第２の品質基準４０７に基づき全体品質基準４０７に
関して評価される。この評価自体はファジーロジック４０８、４０９、４１０を
介して行われ、ファジーロジック４０８、４０９、４１０は列４０２〜４０６に
記入されたの比較可能性をもたらす。個々のファジー特性曲線４０８〜４１０に
よってこれらの品質基準の意図的な重み付けが行われる。代替的に、ペナルティ
４０４又は４０６を特性曲線４０９又は４１０に組み込むこともできる。

【００３７】図５にはプロセッサユニットＰＲＺＥが図示されている。プロセッサユニット
ＰＲＺＥはプロセッサＣＰＵ、メモリＳＰＥ及び入力/出力インターフェースＩ
ＯＳを有し、この入力/出力インターフェースＩＯＳはインターフェースＩＦＣ
を介して様々なやり方で利用される。グラフィックインターフェースを介して出
力がモニタＭＯＮで可視的に及び/又はプリンタＰＲＴに出力される。入力はマ
ウスＭＡＳ又はキーボードＴＡＳＴを介して行われる。またプロセッサユニット
ＰＲＺＥはデータバスＢＵＳを自由に使用でき、このデータバスＢＵＳはメモリ
ＳＰＥ、プロセッサＣＰＵ及び入力/出力インターフェースＩＯＳの接続を保証
する。さらに、データバスＢＵＳには付加的なコンポーネント、例えば付加的な
メモリ、データメモリ（ハードディスク）又はスキャナが接続可能である。

【００３８】参考文献

【００３９】

【外１】

【図面の簡単な説明】

【図１】ＨＭＭによる音声モデリングのための概略図を示す。

【図２】構造、とりわけ２分判定木の例を示す。

【図３】見本音声の発生乃至は決定のための方法のブロックダイアグラムを示す。

【図４】見本の選択を有するテーブル表を示す。

【図５】プロセッサユニットを示す。

【符号の説明】

１０２〜１０６状態１０７〜１１１移行確率１１２〜１１８素音クラス１１９架橋２０１〜２０５ノード２０６〜２０９辺２１０〜２２１見本３０１〜３０５方法ステップ４０１列（見本）４０２第１の品質基準４０３第１の第２の品質基準４０４ペナルティ４０５第２の第２の品質基準４０６ペナルティ４０７全体品質基準４０８〜４１０ファジーロジックＰＲＺＥプロセッサユニットＣＰＵプロセッサＳＰＥメモリＩＯＳ入力/出力側インターフェースＩＦＣインターフェースＭＯＮモニタＰＲＴプリンタＭＡＳマウスＴＡＳＴキーボードＢＵＳデータバス

Claims

【特許請求の範囲】

【請求項１】音声モデルの集合を含む構造に基づいて見本音声（represen
tative sound）を決定するための方法において、各音声モデルはモデリングされた音声に対する少なくとも１つの見本を有し、ａ）構造において第１の品質基準に関してマッチする第１の音声モデルを前記
音声モデルの集合から決定し、ｂ）前記構造の性質基準に依存して少なくとも１つの第２の音声モデルを前記
音声モデルの集合から決定し、ｃ）前記第１の音声モデル及び前記少なくとも１つの第２の音声モデルの見本
が前記第１の品質基準に加えて第２の品質基準に関して判断され、ｄ）前記第１の及び第２の品質基準に関して十分な全体品質基準を有する少な
くとも１つの見本が見本音声として決定される、音声モデルの集合を含む構造に
基づいて見本音声を決定するための方法。
【請求項２】少なくとも１つの第２の音声モデルの見本は、性質基準から
喚起される、第１の音声モデルの見本に比べて低減された品質に付加的に加えら
れる、請求項１記載の方法。
【請求項３】全体品質基準は品質基準の算術的結合である、請求項１又は
２記載の方法。
【請求項４】全体品質基準に関して最良の見本が見本音声として決定され
る、請求項１〜３のうちの１項記載の方法。
【請求項５】構造はツリー構造である、請求項１〜４のうちの１項記載の
方法。
【請求項６】構造は、次の基準のうちの少なくとも１つの基準によって構
成される、すなわち、ｄ）言語学的基準、ｅ）調音的基準、ｆ）音声学的基準のうちの少なくとも１つの基準によって構成される、請求項１〜５のうちの１項
記載の方法。
【請求項７】音声は、次の可能性のうちの１つとして形成されうる、すな
わち、ｈ）音素、ｉ）ダイフォン（diphone）、ｊ）トライフォン（triphone）、ｋ）音節（syllable）、ｌ）音節結合（combination of syllables）、ｍ）語（word）、ｎ）語結合（combination of words）の可能性のうちの１つとして形成される、請求項１〜６のうちの１項記載の方法
。
【請求項８】音声が音声結合を含む場合には、構造の構成は前記音声結合
内の音声のコンテクスト基準に従って行われる、請求項１〜７のうちの１項記載
の方法。
【請求項９】構造の性質基準は前記構造内の予め設定された間隔に基づい
て与えられる、請求項１〜８のうちの１項記載の方法。
【請求項１０】音声モデルは隠れマルコフモデルである、請求項１〜９の
うちの１項記載の方法。
【請求項１１】それぞれ見本の全体品質基準に基づいて、見本音声を決定
するのに最も適しているｎ個の見本の選択が示される、請求項１〜１０のうちの
１項記載の方法。
【請求項１２】構造における後続のサーチによって第１の品質基準の改善
がもはや実現されない場合にはすぐに、第１の音声モデルが決定される、請求項
１〜１１のうちの１項記載の方法。
【請求項１３】できるだけ良好な第１の品質基準を有する音声モデルに対
して、見本音声の決定のために必要であるよりも少ない見本が使用可能である場
合にはすぐに、第１の音声モデルが決定される、請求項１〜１２のうちの１項記
載の方法。
【請求項１４】各第２の品質基準に対してファジーロジック評価が行われ
る、請求項１〜１３のうちの１項記載の方法。
【請求項１５】全体品質基準に対する予め設定された閾値に達した場合に
は、全体品質基準は見本音声の決定に十分である、請求項１〜１４のうちの１項
記載の方法。
【請求項１６】音声処理に使用するための請求項１〜１５のうちの１項記
載の方法。
【請求項１７】音声合成に使用するための請求項１〜１６のうちの１項記
載の方法。
【請求項１８】音声モデルの集合を含む構造に基づいて見本音声を決定す
るための装置において、各音声モデルはモデリングされた音声に対する少なくとも１つの見本を有し、前記装置はプロセッサユニットを有し、該プロセッサユニットは次のように構
成されている、すなわち、ａ）構造において第１の品質基準に関してマッチする第１の音声モデルを前記
音声モデルの集合から決定し、ｂ）前記構造の性質基準に依存して少なくとも１つの第２の音声モデルを前記
音声モデルの集合から決定し、ｃ）前記第１の音声モデル及び前記少なくとも１つの第２の音声モデルの見本
が前記第１の品質基準に加えて第２の品質基準に関して判断され、ｄ）前記第１の及び第２の品質基準に関して十分な全体品質基準を有する少な
くとも１つの見本が見本音声として決定される、音声モデルの集合を含む構造に
基づいて見本音声を決定するための装置。