JP2002539482A - 見本音声を決定するための方法及び装置 - Google Patents

見本音声を決定するための方法及び装置

Info

Publication number
JP2002539482A
JP2002539482A JP2000604402A JP2000604402A JP2002539482A JP 2002539482 A JP2002539482 A JP 2002539482A JP 2000604402 A JP2000604402 A JP 2000604402A JP 2000604402 A JP2000604402 A JP 2000604402A JP 2002539482 A JP2002539482 A JP 2002539482A
Authority
JP
Japan
Prior art keywords
speech
sample
model
quality criterion
criterion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000604402A
Other languages
English (en)
Inventor
ホルツアプフェル マーティン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of JP2002539482A publication Critical patent/JP2002539482A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 本発明の課題の解決のためには、音声モデルの集合を含む構造に基づいて見本音声を決定するための方法が提案され、各音声モデルはモデリングされた音声に対する少なくとも1つの見本を有する。構造において第1の品質基準に関してマッチする第1の音声モデルを音声モデルの集合から決定する。構造の性質基準に依存して少なくとも1つの第2の音声モデルを音声モデルの集合からもとめる。第1の音声モデル及び少なくとも1つの第2の音声モデルの見本(の全て又は部分)が第1の品質基準に加えて第2の品質基準に関して判断される。第1の及び第2の品質基準に関して十分な全体品質基準を有する少なくとも1つの見本が見本音声として決定される。

Description

【発明の詳細な説明】
【0001】 本発明は音声を発生するための方法及び装置に関する。
【0002】 このような装置及びこのような方法は参考文献[1]から周知である。そこで
は判定ツリーが発生され、この判定ツリー自体はトライフォンのモデリングのた
めのクラスタ形成を可能にする。このために一連の質問が使用され、これらの一
連の質問は直接音声的なコンテクストに関連し、イエス又はノーによって答えら
れる。各々の答えによって後続の下位ツリーが設定される。従って、自然に発音
された音声のトレーニングデータは枝に投影され、最終的には判定ツリーの葉に
投影される。
【0003】 判定ツリーは、次いで、トレーニングデータによってはカバーされていない全
ての可能なトライフォンに対する隠れマルコフモデルを決定するために、使用す
べき葉の計算に使用される。
【0004】 音声のモデリングのための隠れマルコフモデル(HMM)は参考文献[2]か
ら周知である。語の言語的な発生において、構成音声は可変的な持続時間によっ
て及び異なるスペクトル合成において実現される。会話のスピード及びリズムに
依存して、予測できない数の特徴ベクトルが、発語の各々個別の音声学的セグメ
ントに割り当てられる。各ベクトルは、その音声学的内容の他に、発話者及び周
囲環境及び不明瞭な発音に起因する情報成分を含み、これらの情報成分は音声に
関する識別を明らかに困難にする。
【0005】 この状況は簡略化すれば、図1に語「haben」の例で示されているように、二
段階のプロセスによってモデリングされる。この語の音素に対しては、このモデ
ルにおいて相応の個数の状態102〜106までがリザーブされ、これらの状態
を矢印方向101に沿って音声生成のために通過する。各タイムパルス毎に瞬時
の状態に留まり、後続の状態へ移行できる。このシステムは統計的に挙動し、こ
こに記入された移行確率107〜111によって決定される。よって、例えば、
音素/a/に所属する状態103は複数の(平均で10より大きい)連続する短時
間解析インターバルを越えて使用され、これに対して破裂音/b/の実現はより少
ない時間を要する。
【0006】 上記のランダムプロセスの第1段階が様々な発音ヴァリアントの時間的な歪み
をモデリングする間に、第2の段階はスペクトル変化の検出に使用される。語モ
デルの各状態には統計的な出力関数が結びつけられ、この統計的な出力関数は音
声的な実現選択肢(phonetic realization alternatives)を重み付けする。図
1の例では、音素/a/の発生のために、本来適合している素音クラス(phone cl
ass)113の他に、正の確率(ここでは0.1)を有する素音クラス114も許
容される。同様に、素音クラス118が音素/n/の発生のために確率0.3によ
って許容される。また上記の形式論は、状態104と状態106との間のダイレ
クトな移行による状態105の「架橋(bridging)」119により表されている
オプショナルな音声除去の記述を可能にする。この架橋は例えば確率0.2を与
えられる。
【0007】 隠れマルコフモデルの移行確率はトレーニングデータに基づいてもとめられる
。完全にトレーニングされたHMMは音声系列の発生のための青写真(ブループ
リント)を表す(参考文献[2]、第127頁〜139頁を参照)。HMMのト
レーニングのための方法はバウム・ウェルチ(Baum-Welch)アルゴリズムの使用
である。
【0008】 しかし、参考文献[1]に記載された方法では、不利なことに判定ツリーにお
いては個々に見出される枝だけが音声モデリングに使用される。
【0009】 本発明の課題は、(多数の音声から)見本音声(representative sound)を決
定する場合に、予め設定された基準に従って構成された構造だけではなく、この
構造の性質基準も考慮に入れることである。
【0010】 上記課題は、独立請求項の構成によって解決される。本発明の実施形態は従属
請求項から得られる。
【0011】 本発明の課題の解決のためには、音声モデルの集合を含む構造に基づいて見本
音声を決定するための方法が提示され、各音声モデルはモデリングされた音声に
対する少なくとも1つの見本(representative)を有する。構造において、第1
の品質基準に関してマッチする第1の音声モデルを音声モデルの集合から決定す
る。構造の性質基準に依存して少なくとも1つの第2の音声モデルを音声モデル
の集合からもとめる。第1の音声モデル及び少なくとも1つの第2の音声モデル
の見本(の全て又は部分)が第1の品質基準に加えて第2の品質基準に関して判
断される。第1の及び第2の品質基準に関して十分な全体品質基準を有する少な
くとも1つの見本が見本音声として決定される。
【0012】 この構造がどのように秩序付けられるかに従って、発生すべき音声に対してマ
ッチする音声モデルがこの構造内でサーチされる。この場合、「マッチング」は
、とりわけこの構造によって予め設定されている第1の品質基準に関して使用さ
れる。
【0013】 この構造はツリー構造として、有利には2分木として構成される。このような
ツリー構造は(音声モデルの具体化のための)ノード、(この構造を構成する、
基準に依存して音声モデルを階層的に分割するための)枝及び葉(もはや枝がそ
こから出てこないようなノード)を有する。
【0014】 構造(とりわけツリー構造)の性質に依存して少なくとも1つの第2の音声モ
デルを音声モデルの集合からもとめるために、予め設定された基準に基づいて構
成される構造が使用される。この場合、この構造における性質基準は第1の音声
モデルからの間隔尺度である。構造が2分木の場合には、第1の音声モデルに対
して所定の間隔内にある全ての音声モデルが第2の音声モデルと考えられる。こ
の場合、「間隔」という概念は必ずしも局所的に解釈されるべきではなく、むし
ろ上記の「間隔」は1つ又は複数の予め設定された基準に関する間隔尺度である
【0015】 第1の音声モデル及び性質基準を満たしかつこの第1の音声モデルに対して所
定の間隔を有する第2の音声モデルの集合によって、音声モデルの見本に対して
第2の品質基準がもとめられる。各見本に対する全体品質基準は、第1の品質基
準及び少なくとも1つの第2の品質基準から構成される。音声の発生に適する見
本の中の候補は、その「十分な」全体品質基準によって、すなわち所定の最小値
を有する全体品質基準によって決定される。
【0016】 この場合、実施形態では、全体品質基準は品質基準の算術的結合である。
【0017】 とりわけ、実施形態では、少なくとも1つの第2の音声モデルの見本は、性質
基準から喚起される、第1の音声モデルの見本に比べて低減された品質に付加的
に加えられる。この場合、有利には少なくとも1つの第2の音声モデルと第1の
音声モデルとの間の上記の間隔が使用される:大きな間隔は、この構造に従って
元々マッチすると見なされた第1の音声モデルからの大きな偏差を示す。このよ
うな大きな間隔に対しては、この少なくとも1つの第2の音声モデルの見本に対
してある種の「ペナルティ」が与えられる。このペナルティは全体品質基準に影
響を与える。
【0018】 実施形態では、全体品質基準に関して最良の見本が見本音声として決定される
【0019】 他の実施形態では、この構造は、次の基準のうちの少なくとも1つの基準によ
って構成される、すなわち、 a)言語学的基準、例えば語の文法的特徴、 b)調音的基準、とりわけ調音の位置、 c)音声学的基準、例えば破裂音又は鼻音にって分類される音声学的基準 のうちの少なくとも1つの基準によって構成される。
【0020】 他の実施形態では、音声は、次の可能性のうちの1つとして形成されうる、す
なわち、 h)音素、 i)ダイフォン(diphone)、 j)トライフォン(triphone)、 k)音節(syllable)、 l)音節結合(combination of syllables)、 m)語(word)、 n)語結合(combination of words) の可能性のうちの1つとして形成される。
【0021】 実施形態では、音声が音声結合を含む場合には、構造の構成はこの音声結合内
の音声のコンテクスト基準に従って行われる。これはとりわけ次のことを意味す
る。すなわち、音声結合の際に 「瞬時の音声の左側の音声は母音か?」又は 「瞬時の音声の左側の音声は破裂音か?」 というタイプの質問が行われ、その都度イエス又はノーで答えられ、これによっ
てとりわけ2分木の構造の構成のために右側コンテクスト乃至は左側コンテクス
トが使用されることを意味する。
【0022】 他の実施形態の枠内では、音声モデルは隠れマルコフモデル(HMM)の形式
で与えられる。
【0023】 他の実施形態では、それぞれ見本の全体品質基準に基づいて、見本音声を決定
するのに最も適しているn個の見本の選択が示される。この場合個数nは適用事
例に依存して予め設定可能であり、最良の見本は有利にはリストの形式で示され
る。
【0024】 さらに、実施形態では、構造、とりわけツリー構造における後続のサーチによ
って第1の品質基準の改善がもはや実現されない場合にはすぐに、見本音声の決
定のために第1の音声モデルが決定される。
【0025】 他の実施形態では、できるだけ良好な第1の品質基準を有する音声モデルの集
合の中の音声モデルに対して、見本音声の決定のために必要であるよりも少ない
見本が使用可能である場合にはすぐに第1の音声モデルが決定される。言い換え
れば、閾値によって予め設定されているよりも多くの見本を含むような音声モデ
ルだけが、十分に良好な第1の音声モデルのサーチにおいて考慮される。
【0026】 他の実施形態の枠内において、各々の第2の品質基準に対してファジーロジッ
ク評価が行われる。これによって、第2の品質基準毎に、適切な評価が行われる
。この適切な評価は他の評価との比較可能性に関してとりわけ正規化されて実施
される。このような正規化された評価に適した方法はファジーロジックが提供す
る。
【0027】 実施形態では、上記の方法は、音声処理、とりわけ音声合成に使用される。
【0028】 さらに、上記課題を解決するためには、音声モデルの集合を含む構造に基づい
て見本音声を決定するための装置において、各音声モデルはモデリングされた音
声に対する少なくとも1つの見本を有する装置が提供される。この装置はプロセ
ッサユニットを有し、このプロセッサユニットは次のように構成されている、す
なわち、 a)構造において第1の品質基準に関してマッチする第1の音声モデルを音声
モデルの集合から決定し、 b)構造の性質基準に依存して少なくとも1つの第2の音声モデルを音声モデ
ルの集合から決定し、 c)第1の音声モデル及び少なくとも1つの第2の音声モデルの見本が第1の
品質基準に加えて第2の品質基準に関して判断され、 d)第1の及び第2の品質基準に関して十分な全体品質基準を有する少なくと
も1つの見本が見本音声として決定されるように構成されている。
【0029】 この装置はとりわけ本発明の方法又は上記の実施形態を実施するのに適してい
る。
【0030】 本発明の実施例を次に図面に基づいて説明する。
【0031】 図1はHMMによる音声モデリングのための概略図を示し、 図2は構造、とりわけ2分判定木の例を示し、 図3は見本音声の発生乃至は決定のための方法のブロックダイアグラムを示し
、 図4は見本の選択を有するテーブル表を示し、 図5はプロセッサユニットを示す。
【0032】 図2には構造、とりわけ2分判定木の例が図示されている。この判定木はもっ
と大きなシステムのほんの小さな部分にすぎず、すでに説明した実施例及び以下
に説明する実施例の概略図に使用される。
【0033】 判定木はノード201〜205までを含み、これらのノード201〜205の
うちのノード201が根と呼ばれ、ノード203、204及び205が木の葉と
呼ばれる。さらに、この木は辺206〜209を有し、これらの辺206〜20
9に沿って判定を追跡することができる。順に実施される多数の判定によって判
定木全体が構成される。
【0034】 図2の例では音声モデル/a/(ノード201参照)から出発し、この音声モデ
ル/a/に対して先行音声(predecessor)が破裂(音)であるか否かが検査され
る。この先行音声が破裂音である場合には、辺206に沿ってノード202に分
岐する。さもなければ、辺207に沿ってノード(葉)203に移行する。ノー
ド203は、7つの見本(実際の音声)210〜216が割り当てられている1
つの音声モデルを表す。ノード203のこの音声モデルはさらに洗練(refine)
される(図示せず)。ノード202から出発して、満たされた条件206に加え
て、この音声/a/の後続音声(successor)が母音であるか否かが検査される。
イエスの場合、辺208に沿ってノード204に移行し、さもなければ辺209
に沿ってノード205に分岐する。ノード204は見本217、218及び21
9を含む1つの音声モデルを表し、ノード205は見本220及び221を含む
1つの音声モデルを表す。これらの見本の集合のサイズは図2では図示しやすい
ための仮のものである。実際の適用事例に依存して、例えば5つよりも少ない見
本を有する音声モデルでは使用しても意味がない。
【0035】 図3にはブロックダイアグラムに基づいて音声を発生するための方法が示され
ている。音声の発生は構造、とりわけ図2に示された2分判定木に基づいて行わ
れ、この構造は複数の音声モデルの集合を有し、これらの音声モデルの各々は、
モデリングされた音声に対する少なくとも1つの見本を有する。ステップ301
では第1の音声モデルがこの構造においてもとめられる。この第1の音声モデル
は発生すべき音声に関して十分な第1の品質基準を有する。この「十分な」とい
う言葉は、この文脈では、とりわけ所定の閾値との比較がポジティブであったこ
とを意味する。この構造の性質基準、とりわけこの構造内の間隔に依存して、少
なくとも1つの第2の音声モデルがもとめられる(ステップ302)。第1の音
声モデル及び少なくとも1つの第2の音声モデルの見本に対して、ステップ30
3においてそれぞれ更に別の品質基準が決定され、この場合、この第2の品質基
準は複数の下位基準を含むことができる。ステップ304において、第2の品質
基準に対するペナルティを考慮に入れることによって、全体品質基準がもとめら
れる。性質基準によって選択される少なくとも1つの第2の音声モデルにはペナ
ルティが与えられる。なぜなら、元々はこの構造によればこのサーチは第1の音
声モデルで終了したからである。この第1の音声モデルからこの第2の音声モデ
ルへの偏差を正当化するために、この第1の音声モデルからの偏差は、第2の品
質基準に関して明瞭な改善をもたらさなくてはならない。この場合、これらの品
質基準に対する値は有利にはこれらの見本自体に基づいてもとめられる。この偏
差(間隔)に対する値は様々な評価に基づいて算出される。ステップ305にお
いてn個の最良の見本が示される。適用事例に応じて、マッチする1つの見本を
選び出すことが可能である。この場合、付加的にこれらの品質基準は個々に重み
付けされ、この結果、各適用事例がその目的に対して「最良な」見本を音声の発
生のために決定することができる。
【0036】 図4は、結果的に得られた見本1,2,...,n(列401を参照)のリス
ト表示を示す。各見本401は、第1の品質基準(GK)402及び所属のペナ
ルティStM1404を有する第1の第2の品質基準403及び所属のペナルテ
ィStM2を有する第2の第2の品質基準407に基づき全体品質基準407に
関して評価される。この評価自体はファジーロジック408、409、410を
介して行われ、ファジーロジック408、409、410は列402〜406に
記入されたの比較可能性をもたらす。個々のファジー特性曲線408〜410に
よってこれらの品質基準の意図的な重み付けが行われる。代替的に、ペナルティ
404又は406を特性曲線409又は410に組み込むこともできる。
【0037】 図5にはプロセッサユニットPRZEが図示されている。プロセッサユニット
PRZEはプロセッサCPU、メモリSPE及び入力/出力インターフェースI
OSを有し、この入力/出力インターフェースIOSはインターフェースIFC
を介して様々なやり方で利用される。グラフィックインターフェースを介して出
力がモニタMONで可視的に及び/又はプリンタPRTに出力される。入力はマ
ウスMAS又はキーボードTASTを介して行われる。またプロセッサユニット
PRZEはデータバスBUSを自由に使用でき、このデータバスBUSはメモリ
SPE、プロセッサCPU及び入力/出力インターフェースIOSの接続を保証
する。さらに、データバスBUSには付加的なコンポーネント、例えば付加的な
メモリ、データメモリ(ハードディスク)又はスキャナが接続可能である。
【0038】 参考文献
【0039】
【外1】
【図面の簡単な説明】
【図1】 HMMによる音声モデリングのための概略図を示す。
【図2】 構造、とりわけ2分判定木の例を示す。
【図3】 見本音声の発生乃至は決定のための方法のブロックダイアグラムを示す。
【図4】 見本の選択を有するテーブル表を示す。
【図5】 プロセッサユニットを示す。
【符号の説明】
102〜106 状態 107〜111 移行確率 112〜118 素音クラス 119 架橋 201〜205 ノード 206〜209 辺 210〜221 見本 301〜305 方法ステップ 401 列(見本) 402 第1の品質基準 403 第1の第2の品質基準 404 ペナルティ 405 第2の第2の品質基準 406 ペナルティ 407 全体品質基準 408〜410 ファジーロジック PRZE プロセッサユニット CPU プロセッサ SPE メモリ IOS 入力/出力側インターフェース IFC インターフェース MON モニタ PRT プリンタ MAS マウス TAST キーボード BUS データバス

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】 音声モデルの集合を含む構造に基づいて見本音声(represen
    tative sound)を決定するための方法において、 各音声モデルはモデリングされた音声に対する少なくとも1つの見本を有し、 a)構造において第1の品質基準に関してマッチする第1の音声モデルを前記
    音声モデルの集合から決定し、 b)前記構造の性質基準に依存して少なくとも1つの第2の音声モデルを前記
    音声モデルの集合から決定し、 c)前記第1の音声モデル及び前記少なくとも1つの第2の音声モデルの見本
    が前記第1の品質基準に加えて第2の品質基準に関して判断され、 d)前記第1の及び第2の品質基準に関して十分な全体品質基準を有する少な
    くとも1つの見本が見本音声として決定される、音声モデルの集合を含む構造に
    基づいて見本音声を決定するための方法。
  2. 【請求項2】 少なくとも1つの第2の音声モデルの見本は、性質基準から
    喚起される、第1の音声モデルの見本に比べて低減された品質に付加的に加えら
    れる、請求項1記載の方法。
  3. 【請求項3】 全体品質基準は品質基準の算術的結合である、請求項1又は
    2記載の方法。
  4. 【請求項4】 全体品質基準に関して最良の見本が見本音声として決定され
    る、請求項1〜3のうちの1項記載の方法。
  5. 【請求項5】 構造はツリー構造である、請求項1〜4のうちの1項記載の
    方法。
  6. 【請求項6】 構造は、次の基準のうちの少なくとも1つの基準によって構
    成される、すなわち、 d)言語学的基準、 e)調音的基準、 f)音声学的基準 のうちの少なくとも1つの基準によって構成される、請求項1〜5のうちの1項
    記載の方法。
  7. 【請求項7】 音声は、次の可能性のうちの1つとして形成されうる、すな
    わち、 h)音素、 i)ダイフォン(diphone)、 j)トライフォン(triphone)、 k)音節(syllable)、 l)音節結合(combination of syllables) 、 m)語(word)、 n)語結合(combination of words) の可能性のうちの1つとして形成される、請求項1〜6のうちの1項記載の方法
  8. 【請求項8】 音声が音声結合を含む場合には、構造の構成は前記音声結合
    内の音声のコンテクスト基準に従って行われる、請求項1〜7のうちの1項記載
    の方法。
  9. 【請求項9】 構造の性質基準は前記構造内の予め設定された間隔に基づい
    て与えられる、請求項1〜8のうちの1項記載の方法。
  10. 【請求項10】 音声モデルは隠れマルコフモデルである、請求項1〜9の
    うちの1項記載の方法。
  11. 【請求項11】 それぞれ見本の全体品質基準に基づいて、見本音声を決定
    するのに最も適しているn個の見本の選択が示される、請求項1〜10のうちの
    1項記載の方法。
  12. 【請求項12】 構造における後続のサーチによって第1の品質基準の改善
    がもはや実現されない場合にはすぐに、第1の音声モデルが決定される、請求項
    1〜11のうちの1項記載の方法。
  13. 【請求項13】 できるだけ良好な第1の品質基準を有する音声モデルに対
    して、見本音声の決定のために必要であるよりも少ない見本が使用可能である場
    合にはすぐに、第1の音声モデルが決定される、請求項1〜12のうちの1項記
    載の方法。
  14. 【請求項14】 各第2の品質基準に対してファジーロジック評価が行われ
    る、請求項1〜13のうちの1項記載の方法。
  15. 【請求項15】 全体品質基準に対する予め設定された閾値に達した場合に
    は、全体品質基準は見本音声の決定に十分である、請求項1〜14のうちの1項
    記載の方法。
  16. 【請求項16】 音声処理に使用するための請求項1〜15のうちの1項記
    載の方法。
  17. 【請求項17】 音声合成に使用するための請求項1〜16のうちの1項記
    載の方法。
  18. 【請求項18】 音声モデルの集合を含む構造に基づいて見本音声を決定す
    るための装置において、 各音声モデルはモデリングされた音声に対する少なくとも1つの見本を有し、 前記装置はプロセッサユニットを有し、該プロセッサユニットは次のように構
    成されている、すなわち、 a)構造において第1の品質基準に関してマッチする第1の音声モデルを前記
    音声モデルの集合から決定し、 b)前記構造の性質基準に依存して少なくとも1つの第2の音声モデルを前記
    音声モデルの集合から決定し、 c)前記第1の音声モデル及び前記少なくとも1つの第2の音声モデルの見本
    が前記第1の品質基準に加えて第2の品質基準に関して判断され、 d)前記第1の及び第2の品質基準に関して十分な全体品質基準を有する少な
    くとも1つの見本が見本音声として決定される、音声モデルの集合を含む構造に
    基づいて見本音声を決定するための装置。
JP2000604402A 1999-03-08 2000-03-01 見本音声を決定するための方法及び装置 Pending JP2002539482A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE19910043 1999-03-08
DE19910043.8 1999-03-08
PCT/DE2000/000601 WO2000054254A1 (de) 1999-03-08 2000-03-01 Verfahren und anordnung zur bestimmung eines repräsentativen lautes

Publications (1)

Publication Number Publication Date
JP2002539482A true JP2002539482A (ja) 2002-11-19

Family

ID=7900042

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000604402A Pending JP2002539482A (ja) 1999-03-08 2000-03-01 見本音声を決定するための方法及び装置

Country Status (5)

Country Link
US (1) US6430532B2 (ja)
EP (1) EP1159733B1 (ja)
JP (1) JP2002539482A (ja)
DE (1) DE50003260D1 (ja)
WO (1) WO2000054254A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008191368A (ja) * 2007-02-05 2008-08-21 Casio Comput Co Ltd 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム
JP2013057735A (ja) * 2011-09-07 2013-03-28 National Institute Of Information & Communication Technology 音声合成用の隠れマルコフモデル学習装置及び音声合成装置

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6505158B1 (en) * 2000-07-05 2003-01-07 At&T Corp. Synthesis-based pre-selection of suitable units for concatenative speech
US6704719B1 (en) * 2000-09-27 2004-03-09 Ncr Corporation Decision tree data structure for use in case-based reasoning
GB0113581D0 (en) 2001-06-04 2001-07-25 Hewlett Packard Co Speech synthesis apparatus
GB2376394B (en) * 2001-06-04 2005-10-26 Hewlett Packard Co Speech synthesis apparatus and selection method
GB0113587D0 (en) 2001-06-04 2001-07-25 Hewlett Packard Co Speech synthesis apparatus
US7483832B2 (en) * 2001-12-10 2009-01-27 At&T Intellectual Property I, L.P. Method and system for customizing voice translation of text to speech
US20060069567A1 (en) * 2001-12-10 2006-03-30 Tischer Steven N Methods, systems, and products for translating text to speech
US7266497B2 (en) * 2002-03-29 2007-09-04 At&T Corp. Automatic segmentation in speech synthesis
AU2002302651A1 (en) * 2002-05-06 2003-11-17 Prous Science S.A. Voice recognition method
JP4405542B2 (ja) * 2007-10-24 2010-01-27 株式会社東芝 音素モデルをクラスタリングする装置、方法およびプログラム
CN102651217A (zh) * 2011-02-25 2012-08-29 株式会社东芝 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法
US8738280B2 (en) * 2011-06-09 2014-05-27 Autotalks Ltd. Methods for activity reduction in pedestrian-to-vehicle communication networks

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5280562A (en) 1991-10-03 1994-01-18 International Business Machines Corporation Speech coding apparatus with single-dimension acoustic prototypes for a speech recognizer
DE19639844A1 (de) 1996-09-27 1998-04-02 Philips Patentverwaltung Verfahren zum Ableiten wenigstens einer Folge von Wörtern aus einem Sprachsignal
US6163769A (en) * 1997-10-02 2000-12-19 Microsoft Corporation Text-to-speech using clustered context-dependent phoneme-based units
KR100509797B1 (ko) * 1998-04-29 2005-08-23 마쯔시다덴기산교 가부시키가이샤 결정 트리에 의한 스펠형 문자의 복합 발음 발생과 스코어를위한 장치 및 방법
US6173263B1 (en) * 1998-08-31 2001-01-09 At&T Corp. Method and system for performing concatenative speech synthesis using half-phonemes

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008191368A (ja) * 2007-02-05 2008-08-21 Casio Comput Co Ltd 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム
JP2013057735A (ja) * 2011-09-07 2013-03-28 National Institute Of Information & Communication Technology 音声合成用の隠れマルコフモデル学習装置及び音声合成装置

Also Published As

Publication number Publication date
WO2000054254A1 (de) 2000-09-14
US20020002457A1 (en) 2002-01-03
EP1159733A1 (de) 2001-12-05
EP1159733B1 (de) 2003-08-13
DE50003260D1 (de) 2003-09-18
US6430532B2 (en) 2002-08-06

Similar Documents

Publication Publication Date Title
US6912499B1 (en) Method and apparatus for training a multilingual speech model set
Hon et al. Automatic generation of synthesis units for trainable text-to-speech systems
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
US7286989B1 (en) Speech-processing system and method
US20160379638A1 (en) Input speech quality matching
Livescu et al. Subword modeling for automatic speech recognition: Past, present, and emerging approaches
US20080312926A1 (en) Automatic Text-Independent, Language-Independent Speaker Voice-Print Creation and Speaker Recognition
JPH11272291A (ja) 音響判断ツリ―を用いたフォネティック・モデル化方法
JP2001503154A (ja) 音声認識システムにおける隠れマルコフ音声モデルの適合方法
JP2002304190A (ja) 発音変化形生成方法及び音声認識方法
KR20060050361A (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
JP2002539482A (ja) 見本音声を決定するための方法及び装置
US6546369B1 (en) Text-based speech synthesis method containing synthetic speech comparisons and updates
Boite et al. A new approach towards keyword spotting.
US20040006469A1 (en) Apparatus and method for updating lexicon
Manjunath et al. Automatic phonetic transcription for read, extempore and conversation speech for an Indian language: Bengali
JPH08123470A (ja) 音声認識装置
JPH09152884A (ja) 音声合成装置
JP3532248B2 (ja) 学習音声パタンモデル使用音声認識装置
JP2980382B2 (ja) 話者適応音声認識方法および装置
US7818172B2 (en) Voice recognition method and system based on the contexual modeling of voice units
JP3503862B2 (ja) 音声認識方法及び音声認識プログラムを格納した記録媒体
EP1589524A1 (en) Method and device for speech synthesis
Sugamura et al. Speech processing technologies and telecommunications applications at NTT
JP3575904B2 (ja) 連続音声認識方式及び標準パタン訓練方式

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040415

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040917