JP6449331B2 - パラメトリック音声合成システムに基づく声門パルスモデルの励起信号形成方法 - Google Patents

パラメトリック音声合成システムに基づく声門パルスモデルの励起信号形成方法 Download PDF

Info

Publication number
JP6449331B2
JP6449331B2 JP2016567717A JP2016567717A JP6449331B2 JP 6449331 B2 JP6449331 B2 JP 6449331B2 JP 2016567717 A JP2016567717 A JP 2016567717A JP 2016567717 A JP2016567717 A JP 2016567717A JP 6449331 B2 JP6449331 B2 JP 6449331B2
Authority
JP
Japan
Prior art keywords
glottal
glottal pulse
database
pulse
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016567717A
Other languages
English (en)
Other versions
JP2017520016A (ja
JP2017520016A5 (ja
Inventor
ダチラジュ,ラジェシュ
ガナパシラジュ,アルビンド
Original Assignee
インタラクティブ・インテリジェンス・インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by インタラクティブ・インテリジェンス・インコーポレイテッド filed Critical インタラクティブ・インテリジェンス・インコーポレイテッド
Publication of JP2017520016A publication Critical patent/JP2017520016A/ja
Publication of JP2017520016A5 publication Critical patent/JP2017520016A5/ja
Application granted granted Critical
Publication of JP6449331B2 publication Critical patent/JP6449331B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)

Description

本発明は、音声合成のみならず、概して電気通信システム及び方法に関する。より詳細には、本発明は、統計的パラメトリック音声合成システムに基づく隠れマルコフモデルにおける励信号の形成に関する。
パラメトリック音声合成システムに基づく声門パルスモデルの励信号を形成する方法が提供されている。一実施形態において、励信号を形成する為に基本周波数値が使用される。励は、所与の話者のデータベースから選択された音源パルスを使用してモデル化される。音源信号は、励信号の形成に使用する声門パルスを識別する為に、ベクトル表現において使用される声門セグメントにセグメント化される。新規の距離メトリックの使用及び話者の音声サンプルから抽出した原信号を保存することは、励信号の低周波数情報の取込みに役立つ。加えて、話者の音声品質を正確に表現形成すると同時に音声合成の品質を向上させる為に、独自のセグメント結合方法を適用することによりセグメント端のアーチファクトが除去される。
一実施形態において、プレフィルタリングされた信号を得る為に音声信号上にプレフィルタリングを実施するステップと、逆フィルタリングパラメータを得る為にプレフィルタリングされた信号を分析するステップと、逆フィルタリングパラメータを使用して音声信号の逆フィルタリングを実施するステップと、逆フィルタリングされた音声信号を使用して集積された線形予測残差信号を算出するステップと、音声信号において声門セグメントの境界を識別するステップと、音声信号から識別された声門セグメントの境界を使用して集積された線形予測残差信号を声門パルスにセグメント化するステップと、声門パルスの正規化を実施するステップと、音声信号に得られた全ての正規化された声門パルスを収集することにより、声門パルスデータベースを形成するステップとを含む、音声信号から声門パルスデータベースを作成する方法が示される。
別の実施形態において、多数の声門パルス間の声門パルス距離メトリックを算出するステップと、声門パルスの重心を決定する為に声門パルスデータベースを多数のクラスタにクラスタ化するステップと、関連付けを決定する為に声門パルスの重心及び距離メトリックが数学的に定義される声門パルスデータベースにおいて、ベクトルを各声門パルスと関連付けることにより対応するベクトルデータベースを形成するステップと、ベクトルデータベースの固有ベクトルを決定するステップと、声門パルスデータベースから声門パルスと決定された各固有ベクトルとを関連付けることによりパラメトリックモデルを形成するステップとを含む、パラメトリックモデルを形成する方法が示される。
更に別の実施形態において、a)入力テキストをコンテキスト依存音素ラベルに変換するステップと、b)基本周波数値、合成された音声持続時間及び音素ラベルのスペクトル特性を予測する為に学習したパラメトリックモデルを使用して、ステップ(a)で作成された音素ラベルを処理するステップと、c)固有声門パルス及び前記予測した基本周波数値、音素ラベルのスペクトル特性及び合成された音声持続時間のうちの1つ又は1つ以上を使用して、励信号を作成するステップと、d)合成音声の出力を作成する為にフィルタを使用して、励信号を音素ラベルのスペクトル特性と組合せるステップとを含む、入力テキストを使用して音声を合成する方法が示される。
図1は、音声システムに対するテキストに基づく隠れマルコフモデルのある実施形態を示す図である。 図2は、ある信号のある実施形態示す図である。 図3は、励信号作成のある実施形態示す図である。 図4は、励信号作成のある実施形態示す図である。 図5は、重畳境界のある実施形態示す図である。 図6は、励信号作成のある実施形態示す図である。 図7は、声門パルス識別のある実施形態示す図である。 図8は、声門パルスのデータベース作成のある実施形態示す図である。
本発明の原理を理解するのを促す目的で図面に示す実施形態を参照し、それを説明する為に具体的な用語を使用する。しかし、本発明の範囲はそれにより限定されるものではないことが理解されよう。本発明が関連する当業者なら通常思いつくように、記載された実施形態における変更及び更なる修正、並びに本明細書に記載された本発明の原理の更なる応用が考えられる。
は、一般に有声音領域のインパルスの準周期列であると推定されている。各列は、T=1/Fなど一定時間で前列から分離され、式中Tはピッチ周期を表し、Fは基本周波数を表す。無声音領域において、励は白色雑音としてモデル化される。有声音領域において、励は実際にはインパルス列ではない。励はむしろ、声の折り重なりによる振動により発生する音源パルスの列である。パルスの形状は、話者、話者の気分、言語的コンテキスト、感情などの各種要因により変動してもよい。
欧州特許EP2242045(2012年6月27日取得、発明者Thomas Drugmanら)に記載されているように、ソースパルスは、(サンプリングを通じて)長さの正規化及びインパルスの整合によりベクトルとして数学的に処理されている。正規化されたソースパルス信号の最終的な長さは、標的ピッチに適合するように再サンプル化される。ソースパルスは、データベースから選択されないが、周波数領域においてパルス特性を処理する一連の計算を通じて得られる。加えて、線形予測(LP)係数を決定する一方で終了したプレフィルタリングは存在しないとして、パルスデータベース作成に使用される近似励信号は低周波数源の内容を取込まず、線形予測係数は逆フィルタリングに使用される。
統計的パラメトリック音声合成において、音声単位信号は、音声を合成する為に使用可能なパラメータのセットにより表される。パラメータは、例えばHMMなどの統計的モデルにより学習されてもよい。ある実施形態において、ソース/励は、所与の音を生成する適切なフィルタを通過する際の信号であり、音声は、ソースフィルタモデルとして表されてもよい。図1は、音声(TTS)システムへのテキストに基づく隠れマルコフモデル(HMM)のある実施形態を示す図である。例示的システムのある実施形態は、例えば学習フェーズ及び合成フェーズの2つのフェーズを含んでいてもよい。
音声データベース105は、音声合成で使用する音声データ量を含むことができる。学習フェーズ中、音声信号106は、パラメータに変換される。パラメータは、励パラメータ及びスペクトルパラメータを含んでいてもよい。励パラメータ抽出110及びスペクトルパラメータ抽出115は、音声データベース105から伝えられる音声信号106から発生する。隠れマルコフモデル120は、これらの抽出されたパラメータ及び音声データベース105からラベル107を使用して学習されてもよい。任意のHMMモデル数は、学習から生じてもよく、これらのコンテキスト依存HMMは、データベース125内に保存される。
合成フェーズは、コンテキスト依存HMM125として始まり、パラメータ140を生成する為に使用される。パラメータ生成140は、音声が合成されるテキスト130のコーパスからの入力を利用してもよい。テキスト130は、分析135を経てもよく、抽出されたラベル136は、パラメータ140の生成において使用される。一実施形態において、励パラメータ及びスペクトルパラメータは、140において生成されてもよい。
パラメータは、励信号145を生成する為に使用されてもよく、励信号145は、スペクトルパラメータと共に合成フィルタ150に入力される。フィルタパラメータは、一般にメル周波数ケプストラム係数(MFCC)であり、HMMを使用して統計的時系列によりしばしばモデル化される。フィルタの予測値及び時系列値として基本周波数は、励信号を基本周波数値から作成することによりフィルタを合成する為に使用されてもよく、MFCC値は、フィルタを形成する為に使用される。
合成音声155は、励信号がフィルタを通過する際に生成される。励信号145の形成は、出力の品質又は合成音声155に不可欠である。励の低周波数情報は取込まれない。従って、励信号の低周波数源の内容を取込み、合成音声の品質を向上させる為の方法が必要であることが理解されよう。
図2は、音声セグメントの信号領域の一実施形態のグラフ図であり、全体として200で示される。信号は、有声音セグメント、無声音セグメント及び休止セグメントといった種類の基本周波数値に基づくセグメントに分類される。縦軸205は、ヘルツ(Hz)による基本周波数を示すのに対し、横軸210は、ミリ秒(ms)の経過を表す。時系列であるFの215は、基本周波数を表す。有声音領域である220は、一連のピークが見られ、非ゼロセグメントと見なすことができる。以下に更なる詳細が記載されているように、非ゼロセグメント220は、全音声の励信号を形成する為に連結されていてもよい。無声音領域225は、グラフ図200においてピークを有することが見られずゼロセグメントと見なすことができる。ゼロセグメントは、休止又は音素ラベルにより所与される無声音セグメントを表すことができる。
図3は、励信号作成のある実施形態を示す図であり、全体として300で示される。図3は、無声音セグメント及び休止セグメント双方の励信号作成を示す。Fとして表される基本周波数時系列値は、F値に基づき有声音セグメント、無声音セグメント及び休止セグメントに分類される信号領域305を表す。
信号320は、無声音セグメント及び休止セグメントの為に作成される。休止が発生した場合、励信号にゼロ(0)が配置される。無声音領域において、適切なエネルギーの白色雑音(一実施形態において、これは聞き取り試験により実験的に決定されることができる)は励信号として使用される。
信号領域305は、声門パルス310と共に励生成315に使用され、続いて励信号320の生成に使用される。声門パルス310は、声門パルスデータベースから識別された固有声門パルスを含み、以下の図8には、その作成の更なる詳細が記載されている。
図4は、有声音セグメントの励信号作成のある実施形態を示す図であり、全体として400で示される。固有声門パルスは、(以下の図7に更なる詳細が記載されている)声門パルスデータベースから識別されたと推定される。信号領域405は、有声音セグメントからモデルにより予測されることができるF値を含む。Nで表されてもよいFセグメントの長さは、数学的方程式を使用して励信号の長さを決定する為に使用される。
式中、fは信号のサンプリング周波数を表す。ある非限定的実施例において、5/1000の値は、決定されるF値の5msの継続時間の間隔を表す。単位時間の指定された継続時間の任意間隔が使用されていてもよい、という点に留意すべきである。F’(n)として指定された別の配列は、F配列を線形補間することにより得られる。
値から410の声門境界が作成され、410は信号領域405において有声音セグメントの励信号のピッチ境界を示す。ピッチ周期配列は、以下の数学的方程式を使用して算出されることができる。
次に、ピッチ境界は、以下のように決定されたピッチ周期配列を使用して算出されることができる。
式中、P(0)=1、i=1,2,3,・・・K、であり、式中P(k+1)は配列T(n)の長さを丁度超える。
声門パルス415は、各声門境界から始まる声門パルスの重畳加算420において識別された声門境界410と共に使用される。次に図5及び図6に更に記載されている境界効果を回避する為に、励信号425は「スティッチング」又はセグメント結合の処理を通じて作成される。
図5は、重畳境界のある実施形態を示す図であり、全体として500で示される。図500は、セグメントにおいて一連の声門パルス515及び重畳する声門パルス520を表す。縦軸505は、励の振幅を表す。横軸510は、フレーム番号を表してもよい。
図6は、有声音セグメントの励信号作成のある実施形態を示す図であり、全体として600で示される。「スティッチング」は、理想的に境界効果のない(図4から)有声音セグメントの最終励信号を形成する為に使用されてもよい。ある実施形態において、任意の異なる励信号数は、図4及び図500(図5)に示された重畳加算法を通じて形成されてもよい。異なる励信号は、声門境界605において一定に増加するシフト量及び声門パルス信号に対して同量の循環左シフト630を有していてもよい。一実施形態において、声門パルス信号615が対応するピッチ周期未満の長さである場合、循環左シフトする630が実施される以前のピッチ周期の長さまで声門パルスはゼロ伸張625でもよい。ピッチ境界の異なる配列(P(i)、m=1,2,・・・M−1として表される)は、Pと同じ長さのそれぞれからなる。配列は、以下の数学的方程式を使用して算出される。
式中、wは一般に1msec、又はサンプルでは、f/1000と考えられている。例えば、サンプリング周波数にはf=16,000、w=16。所与の音声セグメントに存在する最高ピッチ周期は、m*wとして表される。声門パルスが作成され、各ピッチ境界配列Pと関連付けられる。声門パルス620は、第1のゼロをピッチ周期まで伸張し、次にm*wサンプルにより循環左シフトすることにより一定の長さNの声門パルス信号から得られてもよい。
フレーム境界の各セットに対して、声門パルスをゼロ(0)に初期化することにより励 信号635が形成される。配列P(i)、i=1,2,・・・Kの各ピッチ境界値から始まり、重畳加算610は声門パルス620を励の第1のNサンプルに加算する為に使用される。形成された信号は、スティッチングされた単一励としてシフトmに対応している。
ある実施形態において、全てのスティッチングされた単一励信号の算術平均が算出され、算出された640は有声音セグメントの最終励信号645を表す。
図7は声門パルス識別のある実施形態を示す図であり、全体として700で示される。ある実施形態において、任意の2つの所与の声門パルスはそれら2つの間の距離メトリック/相違点を算出する為に使用されてもよい。これらは、処理800(以下の図8に更に記載されている)において作成された声門パルスデータベース840から取出される。算出は、2つの所与の声門パルスx,yをサブバンド成分x (1),x (2),x (3)及びy (1),y (2),y (3)に分解することにより実施されてもよい。所与の声門パルスは、例えば離散コサイン変換(DCT)などの方法を使用して周波数領域に変換されてもよい。周波数バンドは、復調され時間領域に変換される多数のバンドに分割されてもよい。本実施例では、例証目的の為に3つのバンドが使用される。
次に各声門パルスの対応するサブバンド成分間のサブバンド距離メトリックが算出され、d(x (1),y (1))として表される。サブバンドメトリックはd(f,g)として表されることができ、式中dは2つのサブバンド成分fおよびg間の距離を表し、以下のパラグラフに記載されるように算出されることができる。
fおよびg間の正規化された循環相互相関関数が算出された。一実施形態において、これはRf,g(n)=f★gとして表されてもよく、式中「★」は2つの信号間の正規化された循環相互相関演算を表す。循環相互相関時は、2つの信号fおよびgの長さが最長になるとされている。より短い信号はゼロ伸張される。正規化された循環相互相関の離散ヒルベルト変換が算出され、Rf,g (n)として表される。正規化された循環相互相関及び正規化された循環相互相関の離散ヒルベルト変換を使用することで信号は、
として決定されることができる。
2つの信号fおよびgとの間の角度のコサインは、数学的方程式を使用して決定されることができる。
全nにわたり、
2つのサブバンド成分fおよびgとの間のサブバンドメトリック、d(f,g)は、
として決定されることができる。
声門パルス間の距離メトリックは最終的に、
として数学的に決定される。
声門パルスデータベース840は、修正されたk平均アルゴリズム705を使用して、例えば256(又はM)など多数のクラスタにクラスタ化されてもよい。ユークリッド距離メトリックを使用する代わりに、上記で定義された距離メトリックが使用される。次に、クラスタの重心は、以下のようなクラスタの全ての他の要素から距離の二乗和が最小であるクラスタの要素で更新される。
クラスタの重心
は、m=cの場合最小である。
一実施形態において、任意のkクラスタの重心においてシフトしない場合クラスタ化の反復は終了される。
例えば256などN実数のセットであるベクトルは、対応するベクトルデータベース715を形成する為に声門パルスデータベース840において声門パルス710毎に関連付けられる。一実施形態において、関連付けは所与の声門パルスx、ベクトルV=[Ψ(x),Ψ(x),Ψ(x),・・・Ψ(x),・・・Ψ256(x)]、式中Ψ(x)=d(x,c)−d(x,x)−d(c,x)に対して実施され、xはデータベースから選別した所定の声門パルスであり、d(x,c)は上記で定義された2つの声門パルスxおよびcとの間の距離メトリックの二乗を表し、c,c,・・・c,・・c256、はクラスタ化により決定された声門パルスの重心と推定している。
従って、所与の声門パルスxと関連したベクトルは、数学的方程式で算出されることができる。
ステップ720において、ベクトルデータベース715の固有ベクトルを算出する為に主成分分析(PCA)が実施される。一実施形態において、725で任意の一固有ベクトルが選択されてもよい。ベクトルデータベース715から選択された固有ベクトルに最も適合するベクトル730は、次にユークリッド距離の認識において決定される。最も適合するベクトル730に対応するパルスデータベース840からの声門パルスは、結果として生じる固有ベクトルと関連した固有声門パルス735と考えられる。
図8は、声門パルスデータベース作成のある実施形態を示す図であり、全体として800で示される。音声信号805は、プレエンファシス810などプレフィルタリングを経る。線形予測(LP)分析815は、LP係数を得る為にプレフィルタリングされた信号を使用して実施される。従って、励の低周波情報は取込まれることができる。係数が決定されると、集積された線形予測残差(ILPR)信号825を算出する為にプレフィルタされていない原音声信号805のフィルタを820で反転させる為に係数が使用される。ILPR信号825は、励信号又は音源信号への近似として使用されることができる。ILPR信号825は、音声信号805から決定された声門セグメント/サイクル境界を使用して声門パルスにセグメント化835される。セグメント化835は、ゼロ周波数フィルタリング技術(ZFF)を使用して実施されてもよい。次に結果として生じる声門パルスはエネルギー正規化されることができる。全音声学習データの全ての音声パルスは、音声パルスデータベース840を形成する為に組合わされる
本発明は、図面及び前述の記述において詳しく図示され記述されているが、このような図示及び記述は例示的なものであり、その特性を限定するものと見なされるべきではなく、好ましい実施形態のみを示し記述しているが、本明細書及び以下の特許請求の範囲の少なくとも一方に記載されているように本発明の精神の範囲内の全等価物、変更及び修正も保護されるべきであると理解されよう。
従って、本発明の適切な範囲は、全てのこのような修正と同様に図面に示したもの及び本明細書に記載したものと等価の関係を包含するように、添付の請求の範囲の最も広い解釈によってのみ決定されるべきである。

Claims (28)

  1. パラメトリックモデルを形成する方法であって、
    a.多数の声門パルス間の声門パルス距離メトリックを算出するステップと、
    b.声門パルスの重心を決定する為に声門パルスデータベースに記憶された複数の声門 パルスを多数のクラスタにクラスタ化するステップと、
    c.関連付けを決定する為に前記声門パルスの重心及び前記距離メトリックが数学的に定義される前記声門パルスデータベースにおいて、ベクトルを各声門パルスと関連付けることにより対応するベクトルデータベースを形成するステップと、
    d.前記ベクトルデータベースの固有ベクトルを決定するステップと、
    e.前記声門パルスデータベースから声門パルスと各決定された固有ベクトルとを関連付けることによりパラメトリックモデルを形成するステップと
    を含む方法。
  2. 前記声門パルスの数が2である、請求項に記載の方法。
  3. 請求項1の前記ステップ(a)が、
    a.前記声門パルスの数を対応するサブバンド成分に分解するステップと、
    b.各声門パルスの前記対応するサブバンド成分間のサブバンド距離メトリックを算出するステップと、
    c.前記サブバンド距離メトリックを使用して前記声門パルス距離メトリックを数学的に算出するステップと
    を更に含む、請求項に記載の方法。
  4. 請求項3の前記ステップ(c)の算出は、数学的方程式
    を使用して実施され、式中d(x,y)は前記距離メトリックを表し、d (x (n),y (n))は前記サブバンド距離メトリックを表す、請求項に記載の方法。
  5. 前記クラスタの数が256である、請求項に記載の方法。
  6. 請求項1の前記ステップ(b)のクラスタ化は、前記声門パルス距離メトリックを利用する修正されたk平均計算を使用して実施される、請求項に記載の方法。
  7. 前記修正されたk平均計算は、クラスタの全ての他の要素から距離の二乗和が最小である前記クラスタの要素でクラスタの重心を更新することを更に含む、請求項に記載の方法。
  8. 前記クラスタからいずれの前記重心においてもシフトしない場合前記クラスタ化の反復を終了させることを更に含む、請求項に記載の方法。
  9. 請求項1の前記ステップ(d)の固有ベクトルの決定が主成分分析を使用して実施される、請求項に記載の方法。
  10. 請求項1の前記ステップ(e)は、
    a.前記固有ベクトルを決定するステップと、
    b.前記ベクトルデータベースから前記固有ベクトルに最も適合するベクトルを決定するステップと
    c.前記声門パルスデータベースから最も適合する声門パルスを決定するステップと、
    d.前記固有ベクトルと関連付けた固有声門パルスとして前記固有ベクトルに最も適合する前記声門パルスデータベースから前記声門パルスを指定するステップと
    を更に含む、請求項に記載の方法。
  11. 音声合成に使用する前記形成されたパラメトリックモデルを学習するステップを更に含む、請求項に記載の方法。
  12. 前記学習は、
    a.学習テキストコーパスを定義するステップと、
    b.音声タレントの話す前記学習テキストを録音することにより音声データを得るステップと、
    c.前記学習テキストをコンテキスト依存音素ラベルに変換するステップと、
    d.前記音素ラベルを使用して前記音声データの複数のスペクトル特性を決定するステップと、
    e.前記音声データの基本周波数を予測するステップと、
    f.前記スペクトル特性、前記基本周波数及びオーディオストリームの継続時間を使用して前記オーディオストリーム上でパラメータの予測を実施するステップと
    を更に含む、請求項11に記載の方法。
  13. 入力テキストを使用して音声を合成する方法であって、
    a.前記入力テキストをコンテキスト依存の音素ラベルに変換するステップと、
    b.基本周波数値、前記合成された音声持続時間及び前記音素ラベルのスペクトル特性を予測する為に学習したパラメトリックモデルを使用して、前記ステップ(a)で作成された前記音素ラベルを処理するステップと、
    c.固有声門パルス及び予測した基本周波数値、前記音素ラベルのスペクトル特性及び前記合成された音声持続時間のうちの1つ又は1つ以上を使用して励信号を作成するステップと、
    d.合成音声の出力を作成する為にフィルタを使用して、前記励信号と前記音素ラベルの前記スペクトル特性とを組合せるステップと
    を含み、
    前記信号を作成するステップは、
    .励の信号領域をセグメントの種類に分類するステップと、
    .各種類の前記信号を作成するステップと
    を更に含
    前記セグメントの種類が有声音、無声音及び休止のうちの1つ又は1つ以上を含
    .モデルから前記予測した基本周波数値を使用して、励起信号のピッチ境界を示す声門境界を作成するステップと、
    .重畳加算法を使用して各声門境界から始まる声門パルスを加算するステップと、
    .i.前記声門パルスが対応するピッチ周期未満の長さである場合、左シフトより前の前記ピッチ周期の長さまで前記声門パルスはゼロ伸張する、前記声門境界において一定に増加するシフト量及び前記声門パルスに対して同量の循環左シフトで前記重畳加算法を通じて形成された多数の異なる励を作成するステップと、
    ii.前記異なる励信号数の算術平均を決定するステップと、
    iii.前記有声音セグメントの最終励信号の前記算術平均を宣言するステップと
    を更に含む、前記励信号において境界効果を回避するステップと
    を含む有声音信号に前記励信号が作成される方法。
  14. 入力テキストを使用して音声を合成する方法であって、
    a.前記入力テキストをコンテキスト依存音素ラベルに変換するステップと、
    b.基本周波数値、前記合成された音声持続時間及び前記音素ラベルのスペクトル特性 を予測する為に学習したパラメトリックモデルを使用して、前記ステップ(a)で作成さ れた前記音素ラベルを処理するステップと、
    c.固有声門パルス及び前記予測した基本周波数値、前記音素ラベルのスペクトル特性 及び前記合成された音声持続時間のうちの1つ又は1つ以上を使用して励起信号を作成す るステップと、
    d.合成音声の出力を作成する為にフィルタを使用して、前記励起信号と前記音素ラベ ルの前記スペクトル特性とを組合せるステップと
    を含み、
    前記固有声門パルスは声門パルスデータベースから識別され、前記識別は
    .多数の声門パルス間の声門パルス距離メトリックを算出するステップと、
    .声門パルスの重心を決定する為に前記声門パルスデータベースを多数のクラスタにクラスタ化するステップと、
    .関連付けを決定する為に前記声門パルスの重心及び前記距離メトリックが数学的に定義される前記声門パルスデータベースにおいて、ベクトルを各声門パルスと関連付けることにより対応するベクトルデータベースを形成するステップと、
    .前記ベクトルデータベースの固有ベクトルを決定するステップと、
    .前記声門パルスデータベースから声門パルスと各決定された固有ベクトルとを関連付けることによりパラメトリックモデルを形成するステップと
    を含む方法。
  15. 前記声門パルスの数が2である、請求項14に記載の方法。
  16. 請求項14の前記ステップ()は、
    a.前記声門パルスの数を対応するサブバンド成分に分解するステップと、
    b.各声門パルスの前記対応するサブバンド成分間のサブバンド距離メトリックを算出するステップと、
    c.前記サブバンド距離メトリックを使用して前記距離メトリックを数学的に算出するステップと
    を更に含む、請求項14に記載の方法。
  17. 請求項16の前記ステップ(c)の算出は、数学的方程式
    を使用して実施され、式中d(x,y)は前記距離メトリックを表し、d (x (n),y (n))は前記サブバンド距離メトリックを表す、請求項16に記載の方法。
  18. 前記クラスタの数が256である、請求項14に記載の方法。
  19. 請求項14の前記ステップ()のクラスタ化は、前記声門パルス距離メトリックを利用する修正されたk平均計算を使用して実施される、請求項14に記載の方法。
  20. 前記修正されたk平均計算は、クラスタの全ての他の要素から距離の二乗和が最小である前記クラスタの要素でクラスタの重心を更新することを更に含む、請求項19に記載の方法。
  21. 前記クラスタからいずれの前記重心においてもシフトしない場合前記クラスタ化の反復を終了させることを更に含む、請求項20に記載の方法。
  22. 請求項14の前記ステップ()の固有ベクトルの前記決定が主成分分析を使用して実施される、請求項14に記載の方法。
  23. 請求項14の前記ステップ()は、
    a.前記固有ベクトルを決定するステップと、
    b.前記ベクトルデータベースから前記固有ベクトルに最も適合するベクトルを決定するステップと
    c.前記声門パルスデータベースから最も適合する声門パルスを決定するステップと、
    d.前記固有ベクトルと関連付けた固有声門パルスとして、前記固有ベクトルに最も適合する前記声門パルスデータベースから前記声門パルスを指定するステップと
    を更に含む、請求項14に記載の方法。
  24. 音声信号から前記声門パルスデータベースを構成することを更に含み、前記構成は
    a.プレフィルタリングされた信号を得る為に前記音声信号に対してプレフィルタリングを実施するステップと、
    b.逆フィルタリングパラメータを得る為に前記プレフィルタリングされた信号を分析するステップと、
    c.前記逆フィルタリングパラメータを使用して前記音声信号の逆フィルタリングを実施するステップと、
    d.前記逆フィルタリングされた音声信号を使用して集積された線形予測残差信号を算出するステップと、
    e.前記音声信号において声門セグメントの境界を識別するステップと、
    f.前記音声信号から前記識別された声門セグメントの境界を使用して前記集積された線形予測残差信号を声門パルスにセグメント化するステップと、
    g.前記声門パルスの正規化を実施するステップと、
    h.前記音声信号に得られた全ての正規化された声門パルスを収集することにより、前記声門パルスデータベースを形成するステップと
    を含む、請求項14に記載の方法。
  25. 請求項24の前記ステップ(b)の分析が線形予測を使用して実施される、請求項24に記載の方法。
  26. 請求項24の前記ステップ(b)における前記逆フィルタリングパラメータが線形予測係数を含む、請求項24に記載の方法。
  27. 請求項24の前記ステップ(e)の識別がゼロ周波数フィルタリング技術を使用して実施される、請求項24に記載の方法。
  28. 請求項24の前記ステップ(a)のプレフィルタリングがプレエンファシスを含む、請求項24に記載の方法。
JP2016567717A 2014-05-28 2014-05-28 パラメトリック音声合成システムに基づく声門パルスモデルの励起信号形成方法 Active JP6449331B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2014/039722 WO2015183254A1 (en) 2014-05-28 2014-05-28 Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system

Publications (3)

Publication Number Publication Date
JP2017520016A JP2017520016A (ja) 2017-07-20
JP2017520016A5 JP2017520016A5 (ja) 2018-08-16
JP6449331B2 true JP6449331B2 (ja) 2019-01-09

Family

ID=54699420

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016567717A Active JP6449331B2 (ja) 2014-05-28 2014-05-28 パラメトリック音声合成システムに基づく声門パルスモデルの励起信号形成方法

Country Status (8)

Country Link
EP (1) EP3149727B1 (ja)
JP (1) JP6449331B2 (ja)
AU (2) AU2014395554B2 (ja)
BR (1) BR112016027537B1 (ja)
CA (2) CA3178027A1 (ja)
NZ (1) NZ725925A (ja)
WO (1) WO2015183254A1 (ja)
ZA (1) ZA201607696B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10014007B2 (en) 2014-05-28 2018-07-03 Interactive Intelligence, Inc. Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
US10255903B2 (en) 2014-05-28 2019-04-09 Interactive Intelligence Group, Inc. Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
CA3030133C (en) 2016-06-02 2022-08-09 Genesys Telecommunications Laboratories, Inc. Technologies for authenticating a speaker using voice biometrics
JP2018040838A (ja) * 2016-09-05 2018-03-15 国立研究開発法人情報通信研究機構 音声のイントネーション構造を抽出する方法及びそのためのコンピュータプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5400434A (en) * 1990-09-04 1995-03-21 Matsushita Electric Industrial Co., Ltd. Voice source for synthetic speech system
US6795807B1 (en) * 1999-08-17 2004-09-21 David R. Baraff Method and means for creating prosody in speech regeneration for laryngectomees
JP2002244689A (ja) * 2001-02-22 2002-08-30 Rikogaku Shinkokai 平均声の合成方法及び平均声からの任意話者音声の合成方法
EP2279507A4 (en) * 2008-05-30 2013-01-23 Nokia Corp METHOD, DEVICE AND COMPUTER PROGRAM PRODUCT FOR IMPROVED LANGUAGE SYNTHESIS
JP5075865B2 (ja) * 2009-03-25 2012-11-21 株式会社東芝 音声処理装置、方法、及びプログラム
DK2242045T3 (da) * 2009-04-16 2012-09-24 Univ Mons Talesyntese og kodningsfremgangsmåder
JP5085700B2 (ja) * 2010-08-30 2012-11-28 株式会社東芝 音声合成装置、音声合成方法およびプログラム
US8744854B1 (en) * 2012-09-24 2014-06-03 Chengjun Julian Chen System and method for voice transformation

Also Published As

Publication number Publication date
AU2020227065A1 (en) 2020-09-24
AU2014395554B2 (en) 2020-09-24
CA3178027A1 (en) 2015-12-03
EP3149727A4 (en) 2018-01-24
EP3149727A1 (en) 2017-04-05
JP2017520016A (ja) 2017-07-20
NZ725925A (en) 2020-04-24
AU2014395554A1 (en) 2016-11-24
CA2947957A1 (en) 2015-12-03
BR112016027537A2 (ja) 2017-08-15
BR112016027537B1 (pt) 2022-05-10
WO2015183254A1 (en) 2015-12-03
EP3149727B1 (en) 2021-01-27
CA2947957C (en) 2023-01-03
ZA201607696B (en) 2019-03-27
AU2020227065B2 (en) 2021-11-18

Similar Documents

Publication Publication Date Title
US10621969B2 (en) Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
AU2020227065B2 (en) Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
Le Cornu et al. Generating intelligible audio speech from visual speech
US10014007B2 (en) Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
CN108369803B (zh) 用于形成基于声门脉冲模型的参数语音合成系统的激励信号的方法
CN109979428B (zh) 音频生成方法和装置、存储介质、电子设备
WO2019163848A1 (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
Khan et al. Quranic reciter recognition: a machine learning approach
Narendra et al. Robust voicing detection and F 0 estimation for HMM-based speech synthesis
JP2017520016A5 (ja) パラメトリック音声合成システムに基づく声門パルスモデルの励起信号形成方法
US10446133B2 (en) Multi-stream spectral representation for statistical parametric speech synthesis
JP5375612B2 (ja) 周波数軸伸縮係数推定装置とシステム方法並びにプログラム
Koniaris et al. Selecting static and dynamic features using an advanced auditory model for speech recognition
JP5660437B2 (ja) 無声フィルタ学習装置、音声合成装置、無声フィルタ学習方法、およびプログラム
Swathy et al. Review on feature extraction and classification techniques in speaker recognition
JP6142401B2 (ja) 音声合成モデル学習装置、方法、及びプログラム
Lugger et al. Extracting voice quality contours using discrete hidden Markov models
KR100488121B1 (ko) 화자간 변별력 향상을 위하여 개인별 켑스트럼 가중치를 적용한 화자 인증 장치 및 그 방법
Alam et al. Response of different window methods in speech recognition by using dynamic programming
Sulír et al. The influence of adaptation database size on the quality of HMM-based synthetic voice based on the large average voice model
KR101047668B1 (ko) 선율조절 방법 및 그 장치
Apte Innovative wavelet based speech model using optimal mother wavelet generated from pitch synchronous LPC trajectory
JPH03120434A (ja) 音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161226

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180201

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20180429

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20180627

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20180627

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181205

R150 Certificate of patent or registration of utility model

Ref document number: 6449331

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250