JP2001513225A - 伸長オーディオ信号からの周期性の除去 - Google Patents

伸長オーディオ信号からの周期性の除去

Info

Publication number
JP2001513225A
JP2001513225A JP53352499A JP53352499A JP2001513225A JP 2001513225 A JP2001513225 A JP 2001513225A JP 53352499 A JP53352499 A JP 53352499A JP 53352499 A JP53352499 A JP 53352499A JP 2001513225 A JP2001513225 A JP 2001513225A
Authority
JP
Japan
Prior art keywords
signal
segment
window
segments
duration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP53352499A
Other languages
English (en)
Inventor
エルカン エフ ギギ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Electronics NV filed Critical Philips Electronics NV
Publication of JP2001513225A publication Critical patent/JP2001513225A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Stereophonic System (AREA)

Abstract

(57)【要約】 オーディオ等価入力信号は、重複するあるいは隣接信号セグメントのシーケンスに分割される。伸長信号は、セグメントのシーケンスの各信号セグメントを系統的に維持し、あるいは繰り返すことにより合成される。音声信号の無声音部分あるいは音楽の雑音などの非周期セグメントの繰り返しは、可聴人工音となる。導入された周期性は、1つの非周期的なソース信号セグメントから発生する信号セクションを、ソース信号セグメントの持続時間と異なり、かつソース信号セグメントの期間の倍数とも異なる持続時間を有する信号セグメントの少なくとも1つを有する第二信号セグメントシーケンスに分割することにより、破壊される。第二シーケンスの信号セグメントは、シャッフルされる。

Description

【発明の詳細な説明】 伸長オーディオ信号からの周期性の除去 技術分野 本発明は、オーディオ等価入力信号の伸長方法であって、 前記信号に関して相互に重複するあるいは隣接する、各時間ウィンドウ関数と 関連する、時間ウィンドウの第一チェーンを位置決めし、 前記第一ウィンドウチェーンの各ウィンドウの前記関連するウィンドウ関数に 従って前記信号に重み付けすをることにより、信号セグメントの第一シーケンス を形成し、 セグメントの前記第一シーケンスの各信号セグメントを系統的に維持し、ある いは、繰り返すことにより伸長オーディオ信号を合成する、 方法に関する。 本発明は、更に、オーディオ等価入力信号の伸長装置であって、 前記信号に関して相互に重複するあるいは隣接する、各時間ウィンドウ関数と 関連する、時間ウィンドウの第一チェーンを位置決めする位置決め手段と、 前記第一ウィンドウチェーンの各ウィンドウの前記関連ウィンドウ関数に従っ て前記信号に重み付けをすることにより、信号セグメントの第一シーケンスを形 成するセグメント化手段と、 セグメントの前記第一シーケンスの各信号セグメントを系統的に維持し、ある いは、繰り返すことにより伸長オーディオ信号を合成する合成手段と、 を有する装置に関する。 背景技術 EP-A0527527、EP-A0527529及びEP-A0363233から、オーディオ等価信号を伸長 するための方法及び装置は既知である。この方法及び装置は、通常、音声合成に 使用される。音声合成に関しては、通常、格納されている音声フラッグメントの 1セットから標本化された音声を表示する音声フラグメントを選択し、基 本音声信号を形成するために選択されたそれらの音声フラッグメントを鎖状に連 ねることにより、テキストを音声に変換する。音声フラッグメントの一例には、 ディフォーンがある。音声フラッグメントは所定の持続期間及びピッチを有する ので、持続時間及び通常は得られた基本音声信号のピッチも、所定の韻律により 音声が自然に聞こえるように処理される。この処理は、基本音声信号をセグメン トに分割することにより実行される。このセグメントは、信号の長手方向にウィ ンドウのチェーンを位置決めすることにより形成される。連続するウィンドウは 、通常、局所ピッチ周期と同様な持続時間変位される。PIOLAシステムと称され るEP-A0527527とEP-A0527529のシステムの場合、局所ピッチ周期は自動的に検出 され、ウィンドウは、検出されたピッチ持続時間に従って変位される。EP-A0363 233のいわゆるPSOLAシステムの場合、ウィンドウは、手動で決定された位置(い わゆる音声マーク)を中心にして配置される。この音声マークは、声帯が最も強 く振動する周期的な瞬間に対応する。音声信号は、セグメントを得るために、各 ウィンドウのウィンドウ関数に従って重み付けされる。伸長信号は、セグメント を繰り返す(例えば、25%長い信号を得るために4つのセグメントのうち1つを 繰り返す)ことにより得られる。同様に、短縮信号は、セグメントを削除するこ とにより得られる。同様の技術は、音楽などのオーディオ等価信号の他の形態の 持続時間の処理にも使用することが出来る。音声信号に対してピッチあるいは音 声マークを使用するの同様に、音楽に関しては、ウィンドウの変位は、主な局所 周波数成分に基づくのがよい。音楽あるいは音楽/音声信号の持続期間は、(各 )サウンドトラックをビデオトラックに適合させるために、信号が所定枠内に適 合するように処理される。 オーディオ信号の長さの処理に関しては、ウィンドウ関数はブロック形式であ るのがよい。これにより、入力信号を非オーバーラップ隣接セグメントに効果的 に切り分けることができる。特に、音声信号の韻律の処理に関しては、ウィンド ウの変位量よりも広いウィンドウ(即ち、ウィンドウオーバーラップ)を使用す ることが好ましい。各ウィンドウは、隣のウィンドウの中心に至るまで延在させ るのが好ましい。これにより、音声信号の各時間ポイントは、2つのウィンドウ によりカバーされる。ウィンドウ関数は、ウィンドウの位置関数として変化し、 ウィンドウの縁部付近でゼロに近づく。ウィンドウ関数は、信号の同一時間ポイ ントをカバーする2つのウィンドウ関数の加算が、時間ポイントとは無関係であ るように、“自己相補”であるのが好ましい(このウィンドウ関数の一例として は、ウィンドウの始点でのマイナス90度からウィンドウの終点でのプラス90度に 至るまで、その引数が時間に比例して変化するcosinの二乗により形成されるベ ル形状の関数である)。変位よりも広いウィンドウを使用する結果、オーバーラ ッピングセグメントが得られる。ウィンドウ関数の自己相補特性により、それら が導出されたときと同一の時時間関係でセグメントを重畳することにより、元の 信号を確実に再現させることが出来る。(例えば、人間の声あるいは音楽のよう な)局所周期信号のピッチの変更は、セグメントを重畳する前に、セグメント信 号を異なる各時間ポイントに配置することにより得ることができる。例えば、増 大したピッチを有する出力信号を形成するために、セグメントは、元の信号から 導出されるセグメントの距離に匹敵する距離の中心に合わせるように、圧縮され た相互の中心で重畳される。セグメント長は同一に保持される。セグメントの時 間位置を変更することにより、局所周期は異なるが、そのスペクトル包絡線が略 同一に保たれる、入力信号と異なる出力信号が得られる。知覚実験によると、ピ ッチを1オクターブ以上変更しても、極めて優れた知覚音声特性が生成されるこ とが判った。 セグメント化技術は、また、周期成分を有しないオーディオ等価信号の一部の 持続時間を処理するためにも使用することが出来る。これに関する例は、音声信 号に対しては主として無声音部分、音楽に対しては主として雑音部分である。信 号のこのような部分に対し、例えば、識別可能な周期成分を有する最終セグメン トに使用される変位を使用することにより、あるいは、10m秒などの男性の声に 対する平均的な変位値を使用することにより、ウィンドウは変位される。原則と して、信号のスペクトルの内容をフラグメントを識別するために、スペクトルの 成分を著しく変更させないで、解析することも出来る。このとき、所定ファクタ a/b(例えば、信号はファクタ5/4伸長されるべきであるが)信号を伸長させたい 場合には、このフラグメントは、b個のセグメント(又はbの倍数)に分割され 、このセグメントを繰り返すことにより(例えば、4つのセグメントのうち1 つを繰り返すことにより)、このb個の入力セグメントはa個の出力セグメント を供給することができる。 実際には、信号の持続時間を、実質的に、例えば、2以上のファクタ増大させ る場合には、このように伸長された非周期部分は、可聴人工音を生成することが 判明している。セグメント自体は識別可能な周期成分を含まないが、セグメント の繰り返しにより周期性が導入されてしまう。これは、人間が、管に息を吹き込 むときの音と類似した音として認識される。この人工音を避けるために、通常、 入力信号の非周期的部分は伸長されない。特に、音声合成に対しては、音声信号 の長さを著しく増大できることが望まれている。自然に聞こえるオーディオ信号 に対しては、信号の無声音部分もまた伸長できることが望まれている。 発明の開示 本発明の目的は、非周期的部分を含む、オーディオ等価信号の全体を優れた品 質で伸長可能な各種記載の方法及び装置を提供することにある。 本発明の目的を達成するために、当該方法の特徴とする点は、ソース信号セグ メントを維持しあるいは少なくとも1回繰り返すことにより、実質的に周期成 分を有しない前記ソース信号セグメントと称される前記信号セグメントの1つ から合成される前記伸長オーディオ信号の信号セクションを識別し、 そして、 前記信号セクションに関して相互に重複するあるいは隣接する時 間ウィンドウの第二チェーンを位置決めし、第二チェーンの前記時間ウィンド ウの少なくともいくつかが、前記ソース信号セグメントの持続時間と異なり、 かつ前記ソース信号セグメントの持続時間の倍数とも異なる持続時間を有し、 前記第二ウィンドウチェーンの各ウィンドウの前記関連するウィ ンドウ関数によりぜ信号セクションに重み付けをすることにより、信号セグメ ントの第二シーケンスを形成し、 信号セグメントの前記第二シーケンスの信号セグメントをシャッ フルすることにより、前記伸長オーディオ信号からオーディオ出力信号を発生 させる、 ことにより前記ソース信号セグメントの繰り返しに起因する前記信号セクショ ンの周期性を破壊する、 点である。 ソースセグメントを2回以上繰り返すことにより伸長されたオーディオ信号の 信号セクションに導入された周期性は、信号セクションをセグメントに分割し、 セグメントをシャッフルすることにより破壊される。第二シーケンスの全てのセ グメントが元のソースセグメントと同一(あるいはその倍数)の長さを有しない ようにすることにより、シャッフリングが、正確に同一信号の内容を有するセグ メントを単純に最配列することを回避することが出来る。第二チェーンのウィン ドウは、非オーバーラッピングの隣接セグメントあるいはベル形状のウィンドウ などのオーバーラッピングウィンドウを形成するため、ブロック波などのように いかなる適切な形状(ウィンドウ関数)を有することが出来る。好ましくは、ウ ィンドウの第二チェーンは、利用される信号処理手段の再使用が可能な第一チェ ーンのウィンドウと同一形状に基づくのが良い。オーバーラッピングウィンドウ は、第一チェーンに使用され、オーディオ等価入力信号のピッチを変化させるた めにも本方法を使用することも可能であるので、本方法は有利である。 従属請求項2で定義される実施例が特徴とする点は、時間ウィンドウの第二チ ェーンの時間ウィンドウの選択が、少なくとも、前記ソース信号セグメントの前 記持続時間よりも実質的に短い持続時間を有する点である。伸長信号の可聴人工 音は、ソースセグメントから導出される各セグメントの正確に同一の時間ポジシ ョンで、ソースセグメントの特定スペクトル要素を繰り返すことにより発生する 。従って、全ての特定スペクトル要素は、(第一チェーンのウィンドウの変位か ら得られる)同一周波数で繰り返され、可聴人工音を発生させる。第二チェーン における短い時間ウィンドウを使用し、得られる短いセグメントをシャッフルす ることにより、ソースセグメントのスペクトル要素は、ある程度まで、孤立させ 、スミアさせ、更に繰り返しを中断させることが出来る。第二シーケンスのセグ メントは、セクション全体のいかなる位置(即ち、同一ソースセグメントから創 出する伸長信号部分内のいかなる位置)へもシャッフルされる。必要に応じ、シ ャッフリングを、伸長オーディオ信号の一つのセグメント内の位置に限定させて も良 い。 従属請求項3で定義される実施例が特徴とする点は、前記第二チェーンの前記 時間ウィンドウの前記選択の持続時間が、前記ソース信号セグメントの持続時間 よりも、少なくともファクタ4小さい点である。識別されたセクションの各セグ メントが、各々、少なくとも4個のより小さいセグメントに分割される(同時に 、シャッフルされる)場合には、人工音は著しく低減される。6個以上のより小 さいセグメントを使用することにより、人工音はほとんど聞こえなくなる。 従属請求項4で定義される実施例が特徴とする点は、時間ウィンドウの前記第 二チェーンの前記時間ウィンドウの前記持続時間が、予め設定された範囲から選 択され、前記選択された持続時間が前記範囲にわたり実質的に等しく分配されて いる点である。前記第二時間ウィンドウチェーンの前記時間ウィンドウの前記持 続時間は、予め設定された範囲から選択される。例えば、10m秒のソースセグメ ントが、10個の各1m秒のセグメントに分割される(同時にシャッフルされる) 場合には、固定長のより小さいセグメントの使用は、周期性を導入する。本例の 場合(たとえ、元の反復よりもかなり少ないものであっても)、1kHzの反復(及び 、その倍音)は可聴となる。第二チェーンに対して異なる長さのウィンドウを使 用することにより、この反復の導入が回避される。 従属請求項5で定義される実施例が特徴とする点は、前記範囲の上限界は、前 記範囲の下限界よりも少なくとも1.5倍高い点である。このように、セグメント 持続期間の反復を避けるために必要とされる変化が得られる。 従属請求項6で定義される実施例が特徴とする点は、前記上限界は、実質的に 前記下限界よりも2倍高い点である。実験によると、小さいセグメントの持続時 間を2倍に変えることより、反復を避けるという大変良い結果が得られた。 本発明の目的を達成するために、当該装置が特徴とする点は、前記ソースセグ メントを維持しあるいは少なくとも一回繰り返すことにより、実質的に周期成 分を有しないソース信号セグメントと称される前記信号セグメントの1つから 合成される伸長オーディオ信号の信号セクションを識別する識別手段と、 第二チェーンの前記時間ウィンドウの少なくともいくつかが、前記ソー ス信号セグメントの持続時間と異なり、かつ前記ソース信号セグメントの持続 時間の倍数とも異なる持続時間を有し、前記信号セクションに関して相互に重 複するあるいは隣接する時間ウィンドウの第二チェーンを、前記位置決め手段 に位置決めさせ、 前記セグメント化手段に、ウィンドウの前記第二チェーンの各ウィンド ウの前記関連するウィンドウ関数により前記信号セクションを重み付けするこ とにより、信号セグメントの第二シーケンスを形成させ、 前記第二信号セグメントシーケンスの信号セグメントをシャッフルする ことにより前記伸長オーディオ信号からオーディオ出力信号を発生させる、 ことにより 前記ソース信号セグメントの反復に起因する前記信号セクションの周期性を 、破壊する手段と、 を有する点である。これら及び他の発明の側面は、以下の図面の説明の実施例 を参照して更に説明され、明らかとなろう。 図面の簡単な説明 第1図は、オーディオ等価入力信号をセグメントに分割する既知の方法のステ ップの結果を線図的に示す。 第2図は、信号の周期的部分を伸長する先行技術の方法を示す。 第3図は、信号の非周期的部分の伸長を示す。 第4図は、非周期セグメントから合成される信号セクションの識別を示す。 第5図は、非周期信号セクションのセグメントのシャッフリングを示す。 第6図は、元の非周期信号を示す。 第7図は、4倍伸長された信号を示す。 第8図は、固定サイズのセグメントをシャッフルした後に伸長された信号を示 す。 第9図は、可変サイズのセグメントをシャッフルした後に伸長された信号を示 す。 第10図は、本発明の装置のブロック図を示す。 発明を実施するための最良の形態 第1図は、音声あるいは音楽信号などのオーディオ等価入力信号“X”10を伸 長する既知の方法のステップを示す。この方法と装置は、音声合成に非常に適し ている。音声合成に関しては、通常、抽出された音声を示す音声フラッグメント を、格納されている音声フラッグメントのセットから選択し、基本音声信号を形 成するために選択された音声フラッグメントを鎖状に連ねることにより、テキス トが音声に変換される。音声フラッグメントは、例えば、ディスフォーンを示す 。各連鎖音声フラッグメントは、再生されるべき文章に要求される持続時間やピ ッチに適合しない固有の特定持続時間及びピッチを有するので、連鎖信号は、通 常、自然な音を発生しない。この目的のために、得られる基本音声信号の持続時 間及び通常はピッチもまた、所定韻律で自然な音を発する音声を得るために、処 理される。この処理は、基本音声信号をセグメントに分割し、そのセグメントを 処理することによりおこなわれる。第1図には、オーディオ等価信号10の周期セ クションのための技術が示されている。このセクションの場合、持続時間Lの連 続した周期11a、11b、11cの後には、信号自体が繰り返される。音声信号に関し ては、この持続時間は、平均して、女性の声に対しては約5m秒であり、男性の 声に対しては約10m秒である。時間ウィンドウ12a、12b、12cのチェーンは、信 号10に関して位置決めされる。第1図において、時間ポイント“ti”(i=1、2、3 )にその中心を置くオーバーラッピング時間ウィンドウが使用される。図示され る各ウィンドウは、2以上の周期「L」に延在し、先行ウィンドウの中心から開 始し、次のウィンドウの中心で終了する。結果として、各時間ポイントは、2つ のウィンドウによりカバーされる。各時間ウィンドウ12a、12b、12cは、各ウィ ンドウ関数W(t)13a、13b、13cと関連する。信号のセグメント14a、14b、14cの第 一チェーンは、それぞれのウィンドウ12a、12b、12cのウィンドウ関数に従って 信号10を重み付けすることにより形成される。重み付けは、各ウィンドウ内のオ ーディオ等価信号10にウィンドウのウィンドウ関数を乗算することを意味する。 セグメント信号Si(t)は、 Si(t)=W(t)X(t-ti) として得られる。 第2図は、各信号セグメントを系統的に維持しあるいは繰り返すことにより、 伸長されたオーディオ信号を形成する方法を示す。第2A図には、信号セグメント 14aから14fの第一シーケンス14が示されている。第2B図は、持続時間が1.5倍長 い信号を示す。これは、第一シーケンス14の全てのセグメントを維持し、かつチ ェーンの1つ置きのセグメントを系統的に繰り返す(例えば、全ての「奇数」、あ るいは全ての「偶数」のセグメントを繰り返す)ことにより得られる。第2C図の 信号は、シーケンス14の各セグメントを3回繰り返すことにより、3倍に伸長さ れている。逆の技術を使用する(即ち、系統的にセグメントを削除/省略する) ことにより、信号が圧縮されることは明らかであろう。 信号を伸長するために、ウィンドウを、原則として、オーバーラッピングさせ ないで、単純に相互に隣接するように位置決めさせることが出来る。この場合、 ウィンドウ関数は単純なブロック波となる。 W(t)=1,(0≦t<L) W(t)=0,(他の場合) 同様の技術を、信号のピッチを変更するためにも使用する場合には、例えば第1 図に示されるように、オーバーラッピングウィンドウを使用することが好ましい 。ウィンドウ関数が、オーバーラッピングウィンドウの関数の和 W(t)+W(t-L)=constant,(0≦t<L) が、時間と無関係である点で、自己相補であることは有利である。 この条件は、例えば、 W(t)=1/2+A(t)cos[180t/L+ψ(t)] の時に満たされる。ここで、A(t)とψ(t)は、周期Lを有するtの周期関数であ る。通常のウィンドウ関数は、A(t)=1/2かつψ(t)=0の時に得られる。セグメン トSi(t)が、出力信号Y(t)を得るために重畳される。ピッチを変更するために、 セグメントは、元の位置ti(i=1,2,3....)とは異なる新しい位置Tiで重畳され る。ピッチ値を上げるためには、セグメント信号の中心は互いにより近くに位置 決めされる。ピッチ値を下げるために、セグメントは、さらに離れるように位置 決めされる。最後に、セグメント信号は、重畳出力信号Y Y(t)=ΣiSi(t-Ti) を得るために加算される。(ウィンドウが2つの周期幅に有る第1図の例の場合 、加算は、-L<t-Ti<Lの指数iに限定される)。この構成により、入力信号10が周 期的である場合には、この出力信号Y(t)は周期的となるが、この出力信号の周期 は、ファクタ (ti-ti-1)/(Ti-Ti-1) 即ち、重畳のために配置されるセグメント間距離の相互の圧縮/拡張分、入力周 期と異なる。セグメント距離が変更されない場合には、出力信号Y(t)は、入力オ ーディオ等価信号X(t)を正確に再現する。 ピッチを上げることの副効果は、信号がより短くなることであることは明らか であろう。これは、上述のように、信号を伸長することにより補償される。 既知の方法は、周期的な信号を、周期は異なるがほぼ同一のスペクトル包絡線 を有する新たな周期信号に変換する。この方法は、例えば、音声信号あるいは音 楽信号のように、局所的に決定されている周期を有する信号にも、同様に適用す ることができる。この信号に関しては、周期長Lは、時間に対し変化する(即ち 、i番目の周期は特定周期長Liを有する)。この場合、ウィンドウ長は、周期長 が変化するさい、時間に対し変化させなければならず、そしてウィンドウ関数W( t)は、このウィンドウ Si(t)=W(t/Li)X(t-ti) をカバーするために、局所的な周期に対応させて、ファクタLi分時間に対して伸 張されなければならない。 自己相補性、オーバーラッピングウィンドウに関しては、ウィンドウ関数の自 己相補性を保持することが望まれる。これは、各々が固有のファクタ(それぞれLi 及びLi+1)で伸張される、左側と右側に別々に伸張される各部分(各々、t<0及び t>0)を有するウィンドウ関数 Si(t)=W(t/Li)X(t+ti)(-Li<t<0) Si(t)=W(t/Li+1)X(t+ti)(0<t<Li+1) を使用することにより得ることが出来る。これらのファクタは、各左側及び右側 のオーバーラッピングウィンドウの対応するファクタに等しい。 上述した方法で処理される局所周期入力オーディオ等価信号により、人間の耳 には入力オーディオ等価信号と同様な音質を有するが、ピッチ及び/又は持続時 間が異なる出力信号が得られることが実験により示された。 第1図は、ボイスマーク(即ち、声帯が振動する時間のポイント)にその中心 を置くウィンドウ12を示す。これらのポイントの周囲、特に鋭く定義された終結 ポイントにおいて、(特により高い周波数で)、信号振幅が大となる傾向がある。 それらの強度が、周期の短い間隔に集中した信号に対しては、ウィンドウをその 間隔の周囲にセンタリングすることにより、最も忠実な信号再生が得られる。一 方、多くの場合、良好な品質で音声再生を行うためには、ウィンドウを、声帯の 振動の瞬間に対応するボイスマークの周囲にその中心を、あるいは音声信号のい かなる検出可能な事象にその中心を位置させる必要がないことは、EP-A0527527 及びEP-A0527529から既知である。むしろ、適切なウィンドウ長と規則的な間隔 を使用することにより、良い結果を得ることが出来る。例え、声帯振動の瞬間に 関してウィンドウを任意に位置決めし、そして連続するウィンドウの位置が徐々 に変化する場合であっても、良好な品質の可聴信号が得られる。この技術に対し ては、局所周期長だけ離間させた位置で、絶対的な位相基準を用いずに、ウィン ドウはインクリメント的に配置される。局所周期長、即ち、ピッチ値は、既知の いかなる適切な方法を使用することによっても自動的に決定することが出来る。 通常、ピッチ検出は、例えば、雑誌Journal of Acoustical Society of America の中のD.J.Hermesの「副調和の加算によるピッチの測定」Vol.83(1988),no.1,25 7-264ページなどに記載されている、信号のスペクトルの最高点の間の距離を決 定することに基づく。他の方法は、連続する周期間の信号の変化を最小限にする 周期を選択する。 上述した伸長技術は、また、識別可能な周期成分を有しないオーディオ等価入 力信号の部分を伸長することにも使用できる。音声信号に関して、この部分の例 は、無声音のストレッチ、即ち、声帯が振動しない“ssss”のような摩擦音を含 むストレッチである。音楽に関して、非周期的な部分の例は、“雑音”部分であ る。ウィンドウは、実質的に非周期的な部分の持続時間を伸長するために、周期 的な部分と同様な方法で、信号に関してインクリメント的に配置される。これら のウィンドウも、手動で決定された位置に配置される。これに代えて、連続する ウィ ンドウは、非周期的な部分を取り囲む周期的な部分のピッチ周期から得られる時 間距離変位される。例えば、変位には、最終の周期的セグメントに対して使用さ れるものと同じもの(即ち、変位は、最終セグメントの周期に対応する)を選択 しても良い。変位は、また、最終の直前の周期的セグメント及び最初の次の周期 的セグメントの変位を内挿することによっても決定することが出来る。音声に関 して、好ましくは、例えば、男性の声に対しては10m秒の変位、女性の声に対し ては5m秒の変位を使用して、性別に特定される固定変位を選択することも出来 る。 第3図は、オーディオ等価入力信号10の非周期セクション300を示す。信号セ クション300は3つのセグメント320、330、340に分割される。この場合、オーバ ーラッピングウィンドウ302、303、304が、セグメントを形成するために使用さ れた。一例として、伸長信号は、各セグメント320、330、340を3回繰り返すこ とにより生成される。伸長信号Y(t)350は、このように形成されたセグメント321 、322、323、331、332、333、341、342、343を加算することにより形成される。 本例の場合、セグメント321は、セグメント320と同じ位置に配置される。セグメ ント322は、321に対して、セグメント320を生成するために使用されるウィンド ウが、入力信号X内で先行するウィンドウ(図示せず)に対して変位された離間 距離と同様の時間距離d0変位されている。セグメント320、330、340を形成する ために非オーバーラッピングウィンドウを使用する場合には、この変位量はウィ ンドウの周期幅である。周期幅2Lのオーバーラッピングウィンドウを使用する場 合には、変位量は、前述したLとなる。セグメント323もまた、セグメント322に 対してd0変位される。図に示すように、同様な方法により、セグメント331、332 、333、341、342、343が変位される。通常、非周期セグメント320、330、340は 、ウィンドウ302、303、304を同一距離変位させることにより形成される。この 場合、図示された変位d0、d1、d2は、全て同一である。必要に応じ、例えば、最 終の直前の周期セグメント及び最初の次の周期セグメントの変位の位置特性の内 挿を使用する場合には、距離を異ならせても良い。 本発明の場合、1つのソース信号セグメントから合成される伸長オーディオの 信号Y(t)350の信号セクションが、識別される。第4A図は、(各々、a、bで示 される)各々がソースセグメントを4回繰り返すことにより形成される、そのよ うな2つの信号セクション410、420を示す。本例において、ソースセグメントは 非オーバーラッピングである。第4B図は、ソースセグメントがオーバーラッピン グである同様の状況を示す。この場合には、同一のソースセグメントに関連する 信号セクションY(t)は、様々な方法で定義することが出来る。限定的アプローチ の場合、信号セクションは、1つのソースセグメントのみから得られた信号を有 する信号Y(t)の部分として定義される。これは、第4B図において、セクション43 0、440として示される。このように、2以上のソースセグメントの信号から形成 される信号Yの部分は、除外される。第4B図の場合、セクション435がこのセク ションである。導入された周期性の除去のためには、非周期的ソース信号から形 成される信号Yの全ての部分を、考慮するのが好ましい。除外される部分がない ことを確実にするために、最初にソースセグメントが信号に寄与する時点で始ま り、かつ最初に他のソースセグメントが信号に寄与する時点で終了するセクショ ン450、460などが使用される。同様に、セクションを、セクション470、480の場 合のように、半セグメント後半の部分として定義する(即ち、セグメントの寄与 の終了が、決定ポイントである)ことも出来る。また、セクションを、1つのソ ースセグメントが主たる寄与を生成する拡張と定義しても良い。第1図及び第3 図に示すオーバーラッピングウィンドウの場合には、1つのセクションから他の セクションへの変更は、第4B図のセクション490、495により示されるように、異 なるソースセグメントから発生するセグメント間の中間で発生する。通常、数個 の連続するソースセグメントは非周期的となり、スペクトルの内容が徐々にしか 変化しないということは明らかであろう。このように、セクションの正確な整合 はそれ程要求されない。ここで注意しなければならないことは、周期及び非周期 セクションの間の境界において、周期信号が非周期部分にシャッフルされないよ うにすることである。したがって、この境界セクションを、例えば、周期信号か ら非周期信号に変更するためのセクション470に示されるような定義、及び非周 期信号から周期信号に変更するためのセクション460に示されるような定義など の制限的手法を使用することにより、定義するのが好ましい。 信号セクションの上記定義に拘わらず、周期的と非周期的ソースセグメントと を識別することは重要である。この識別は、通常、可視かつ可聴の表示における 信号を解析し、この識別情報をソース信号の解析された部分に関連させて格納す ることにより手動で行うことが出来る。信号は、局所ピッチ周期を決定するため に自動的に解析されるのが好ましい。原則として、いかなる適切な既知の解析方 法も使用できる。この方法は、信号部分に対して、ピッチが決定出来ない場合も 示す。このような場合には、識別された部分を、セグメントに分割し、各々を非 周期的とマークすることが出来る。 非周期的ソースセグメントを繰り返すことより生成される信号セクションがい ったん識別されると、次のステップで、繰り返しによりセクションに導入された 周期性は、破壊される。これは、信号セクションをセグメントに分割し、セグメ ントをシャッフルすることにより出力信号を形成することによって行われる。セ グメントは、ウィンドウを使用し、ウィンドウ関数に従って信号セクションの重 み付けをする、前述した態様により形成される。シャッフリング処理が行われる のみでピッチ調整はないため、オーバーラッピングセグメントの使用は不必要で ある。ソースセグメントを生成するさいに使用されたものと同一形状のウィンド ウを使用するのが有利である。周期的な信号セクションが影響されず、単に維持 される(必要に応じ、周期的なセクションはセグメントに分割され、元の信号セ クションを得るために同一位置で再結合される)ことは理解されるであろう。 第5図は、同一の非周期的ソースセグメントを6回繰り返すことにより形成さ れる信号セクション500を示す。このセクションは、セグメント511、512、513、 514、515、516のシーケンス500に分割される。本例の場合、シーケンス510もま た、6つのセグメントを有する。詳細は後述するが、シーケンス510に対しては セクション500に対するよりも多くのセグメントを使用するのが好ましい。シー ケンス510のセグメントが、伸長信号セクション500のセグメント501、502、503 、504、505、506と正確に対応している場合には、このようなセグメントのシャ ッフルにも拘わらず、導入された周期性が保持されることは明らかであろう。こ の状況は、シーケンス510の少なくとも1つのセグメントが、ソースセグメント の持続時間と異なり、かつセグメントの持続時間の倍数とも異なる持 続時間を有するようにすることにより回避される。本例の場合、セグメント516 は、ソースセグメントと同一の持続時間を有する。シーケンス510の他の全ての セグメントは、ソースセグメントの持続時間とは異なる持続時間を有する。原理 的には、シーケンス510のセグメントは、ソースセグメントより長くすることが 出来る。本例の場合、セグメント511、515は、より長い。この場合、しかしなが ら、このような相対的に長いセグメントは、シャッフリングにより除去し得ない 反復性要素を保持している。それにもかかわらず、この後、いくつかの反復性は 除去される。これを示すために、信号セクション500のセグメントには、“+”と “x”により2つのスペクトル要素が、示されている。スペクトル要素は、シー ケンス500の全てのセグメント内の同一位置に存在し、その結果、スペクトル要 素は両者とも反復性に寄与することになる。シャッフルされたセクション520の 場合、位置aのxは反復性があるが、6回ではなく3回しか発生しない。位置b のxもまた、aとは異なる位置で3回反復される。このため、ソースセグメント と同一の持続時間を有するセグメン516、及び1.5倍長いセグメント511、515、な どの適切でないセグメントの持続時間を使用した場合であっても、反復性は著し く低減される。 第5図の例の場合、以下のシャッフリングが行われる。セグメント511は3番 目の位置に;セグメント512は最初;セグメント513は4番目;セグメント514は 6番目;セグメント515は2番目、そしてセグメント516は5番目に置かれる。シ ャッフリングには、いかなる適切なアルゴリズムも使用することが出来る。例え ば、シーケンス510のセグメントには、シーケンスの新しい位置番号が割り当て られる。本例の場合、シーケンス510は6つのセグメントを有する。新しい位置 番号は、例えば1〜6の整数番号を発生する乱数発生器を使用して、セグメント51 1に割り当てられる。次いで、新しい位置番号がセグメント512に割り当てられる が、セグメント511に割り当てられた位置番号は使用されない。この処理は、シ ーケンス510の全てのセグメントに対して繰り返される。全ての位置番号が既知 となれば、セグメントは、位置番号及びセグメントの持続時間に基づいてインク リメント的に配置される。別のシャッフリング処理を、異なるソースセグメント から発生する各信号セクション500に対して実行するのが好ましい。上 述のものよりも複雑なシャッフリングアルゴリズムも、使用することが出来るこ とは明らかであろう。例えば、セクションでのスミアリングをさらに最適化する シャッフリングアルゴリズムを使用することが出来る。例として、シャッフリン グアルゴリズムは、シーケンス520の連続するセグメントのスペクトルの内容が 、元のシーケンスのスペクトルの内容と可能な限り異なるようにさせることが出 来る。セグメントの選択された分割に対し、スペクトルの反復性を最小にする最 適化処理もまた、使用することが出来る。 別の実施例の場合、セグメントの第二シーケンス510を形成するために使用さ れる、少なくともいくつかの時間ウィンドウは、ソース信号セグメントの持続時 間より実質的に短い持続時間を有する。好ましくは、第二シーケンス510の全て のセグメントが実質的に短いのが良い。このようにして、シーケンス510のセグ メント自体が反復性要素を保持することは、少なくとも回避される。さらに、セ グメント数が増加し、スペクトルの内容が、統計学的により良く分配される。 別の実施例の場合、短い時間ウィンドウの持続時間は、ソース信号セグメント の持続時間よりも少なくともファクタ4小さい。これは、セクション500のセグ メントのスペクトルの内容を充分な数の部分に分割し、内容を適切にスミアする ことを可能にする。非常に良い結果が、信号セクション500の個々のセグメント を、約10個の短いセグメントに分割することにより得られる。シャッフリングを 、セクション500の個々のセグメント内に制限することによって、セクション500 の全てのセグメントの全体のスミアリングは、人工音を著しく低減させる。統計 学的に見て、より良いスミアリングが、同一のソースセグメントから発生する伸 長信号全体でシャッフルすることにより得られる。 別の実施例の場合、第二時間ウィンドウチェーンの時間ウィンドウ持続時間が 、予め設定された範囲から選択される。選択された持続時間は、その範囲にわた り実質的に均等に分配される。ウィンドウが異なる持続時間を確実に有すること により、セグメントの境界で発生する潜在的な人工音が、反復性を持ち可聴音に なることは回避される。ウィンドウ持続時間を、範囲にわたって単純に直線的に 分配しても良い。例えば、この範囲が1m秒〜2m秒にある場合、1m秒、1.1 m秒、1.2m秒などの11の異なるウィンドウサイズが単純に選択される。 範囲の上限界は、範囲の下限界よりも少なくとも1.5倍高いのが好ましい。実 験によると、可聴人工音は著しく低減した。特に、上限界を下限界よりも実質的 に2倍高くすることが、良い結果を与える。 第6図、第7図、第8図、及び第9図は、本発明の方法及び装置を示す。全図 に関して、A図は、波形状を示す(水平軸は時間を示し、垂直軸は垂直信号の振 幅を示す)。B図は、同一信号のスペクトルの内容を示し、暗さの程度は垂直方 向に示される所定周波数のスペクトルの内容のレベルを示す。C図は、信号全体 にわたるスペクトルの内容の詳細な解析を示す。第6図は、男性の声に対する元 の無声音ストレッチ(英単語のitsにおける“s”)を示す。第7図は、先行技術 であるPIOLA技術を使用して、4倍伸長された同様のストレッチを示す。導入さ れた反復性は、明らかに識別される(即ち、0と0.05秒間の第7A図の一連のピー ク)。反復性は、約12m秒の信号を伸長するために使用されるウィンドウ変位に 対応する。第8図は、本発明のシャッフリング技術が使用されている同様のスト レッチを示す。伸長信号のセグメントは、シャッフリングに使用される10個のよ り短いセグメントに分割される。より短いセグメントは均等なサイズを有する( 一定の持続時間を有するウィンドウが使用された)。図示されるように、反復性 は、ほとんど完全に除去されている。第9図は、同様のストレッチを示し、ウィ ンドウサイズは1m秒から2m秒まで変化する。第8C図と第9C図を比較すること により、第8A図において、約1m秒の固定持続時間のシャッフリングセグメント を使用する境界人工音に起因する、約1000Hzの倍数で発生しているピークが、可 変サイズシャッフリングセグメントを使用することにより、消滅していることが 判る。 本発明の装置は、例えばDSPに基づくプログラム可能なオーディオ処理システ ムにより実施することが出来る。専用ハードウェアを使用することも出来る。装 置の一例が、第10図に示されている。通常、この装置は、周期性を除去する前に 、元の信号を伸長するためにも使用されるので、この機能も図に含まれている。 この装置は、オーディオ信号のピッチを変更するためにも使用することが出来る 。入力オーディオ等価信号は、入力部60に到達する。信号61は、伸長信号を表し 、周期性が除去された伸長信号は、出力部60で装置から出力される(あ るいは格納され/更に処理される)。入力信号は、乗算手段64で信号にウィンド ウ関数を乗算することによってセグメントに分割される。最高点で2つのウィン ドウが重複するオーバーラッピングウィンドウを使用する場合には、乗算手段64 は、それぞれが独立して入力信号を乗算する2つの乗算器を有していても良い。 乗算ファクタは、ウィンドウ関数値選択手段65により供給される。セグメントは 、各時間ポイント値に関連させてセグメントスロットの格納手段66に格納される 。この情報は、ウィンドウ位置選択手段67により供給される。ウィンドウ位置選 択手段67は、入力信号の一部が周期的である(その場合には、その部分のピッチ 値も周期的である)か否かを決定するピッチ測定器68を有する。周期的な部分に 関しては、ピッチ値は、ウィンドウ関数値選択手段65に供給されるウィンドウの 持続時間測定ファクタを決定する。ピッチ値は、また、セグメント持続時間及び 信号内の位置を決定する。この情報は、セグメントに関連する格納手段66に格納 される。周期が検出されない場合には、適切なウィンドウ持続時間を決定するた めに、デフォルトスケーリングファクタを使用するか、あるいは、上述したよう に、内挿を使用することが出来る。セグメントが周期的か否かの情報も、また、 セグメントに関連させて、格納手段66に格納される。ウィンドウ関数値選択手段 65は、入力信号の各部分に対し実際のウィンドウ値を決定するために、供給され た持続時間測定ファクタが予め設定されている、(テーブルに格納しても良い) ウィンドウ関数に結合させる。最高点で2つのウィンド値が重複しているオーバ ーラッピングウィンドウが使用される場合には、ウィンドウ関数値選択手段65は 、平行して2つのウィンドウ値を決定する。 伸長信号61を合成するために、各種セグメントからの音声サンプルが加算手段 69に加算される。セグメントの生成に、ピッチ処理が不必要で、かつ非オーバー ラッピングウィンドウが使用される場合には、加算手段は69は不要である。結合 手段70は、どのセグメントを格納手段から読み出して加算手段69に供給するかを 、制御する。伸長に関しては、装置に供給される伸長ファクタは、どの格納セグ メントが繰り返される必要があるか、セグメントが繰り返される必要回数を決定 し、連続するセグメントの元の相対時間差を保持する。装置に供給されるピッチ スケーリングファクタは、どのように相対時間差を変更しなければならな いかを決定する。 図において、シャッフリングは、別個の後処理プロセスとして示されている。 前述した例と同様に、非周期セグメントから発生する信号セクションは、乗算手 段74で信号にウィンドウ関数を乗算させることによって、更にセグメントに分割 される。ウィンドウ位置選択手段77は、1つの非周期セグメントから発生するセ クションを識別するために格納手段66に格納されている情報を使用する。周期セ クションは、そのまま格納手段76に格納され、適切な瞬間に取り出される。必要 に応じ、周期セクションも、セグメントに分割され、取り出し中にセグメントか ら正確に再現されるように格納手段に格納される。1つの非周期セグメントから 発生するセクションに関しては、ウィンドウ位置選択手段77は、セクションで形 成されるべきセグメントの数及び持続時間を決定し、対応するスケーリングファ クタをウィンドウ関数値選択手段75に供給する。ウィンドウ位置選択手段77は、 乗算手段74により生成されたセグメントと関連する格納手段76の信号に信号のセ グメントの持続時間及びそれらの位置を格納する。ウィンドウ関数値選択手段75 及び乗算手段64は、前述したウィンドウ関数値選択手段65及び乗算手段64と同様 に機能し、タイムシシェアリング方式で再使用される。セグメントは、各時間ポ イント値と関連させてセグメントスロットの格納手段76に格納される。 除去された周期性を有する伸長信号62を合成するために、様々なセグメントか らの音声サンプルが加算手段79により加算される。セグメントの生成に、ウィン ドウ関数値選択手段75が非オーバーラッピングウィンドウを使用する場合には、 加算手段は79は不要である。シャッフリング手段80は、どのセグメントが、加算 手段69に供給するために格納方法から読み出すかを制御する。シャッフリング手 段80は、シーケンスを信号61の周期セクション内に維持し、同一の非周期セグメ ントから発生するセグメントをシャッフルする。

Claims (1)

  1. 【特許請求の範囲】 1. オーディオ等価入力信号の伸長方法であって、 前記信号に関して相互に重複するあるいは隣接する、各時間ウィンドウ関数 と関連する、時間ウィンドウの第一チェーンを位置決めし、 前記第一ウィンドウチェーンの各ウィンドウの前記関連するウィンドウ関数 に従って前記信号に重み付けすをることにより、信号セグメントの第一シーケ ンスを形成し、 セグメントの前記第一シーケンスの各信号セグメントを系統的に維持し、あ るいは、繰り返すことにより伸長オーディオ信号を合成する、 オーディオ等価入力信号の伸長方法において、 ソース信号セグメントを維持しあるいは少なくとも1回繰り返すことに より、実質的に周期成分を有しない前記ソース信号セグメントと称される前記 信号セグメントの1つから合成される前記伸長オーディオ信号の信号セクショ ンを識別し、そして、 前記信号セクションに関して相互に重複するあるいは隣接する時 間ウィンドウの第二チェーンを位置決めし、第二チェーンの前記時間ウィンド ウの少なくともいくつかが、前記ソース信号セグメントの持続時間と異なり、 かつ前記ソース信号セグメントの持続時間の倍数とも異なる持続時間を有し、 前記第二ウィンドウチェーンの各ウィンドウの前記関連するウィ ンドウ関数によりぜ信号セクションに重み付けをすることにより、信号セグメ ントの第二シーケンスを形成し、 信号セグメントの前記第二シーケンスの信号セグメントをシャッ フルすることにより、前記伸長オーディオ信号からオーディオ出力信号を発生 させる、 ことにより前記ソース信号セグメントの繰り返しに起因する前記信号セクショ ンの周期性を破壊する、 ことを特徴とするオーディオ等価入力信号の伸長方法。 2. 時間ウィンドウの前記第二チェーンの前記時間ウィンドウの選択が、少な くとも、前記ソース信号セグメントの前記持続時間よりも実質的に短い持続時 間を有することを特徴とする請求項1に記載の方法。 3. 前記第二チェーンの前記時間ウィンドウの前記選択の前記持続時間が、前 記ソース信号セグメントの持続時間よりも、少なくともファクタ4小さいこと を特徴とする請求項2に記載の方法。 4. 時間ウィンドウの前記第二チェーンの前記時間ウィンドウの前記持続時間 が、予め設定された範囲から選択され、前記選択された持続時間が前記範囲に わたり実質的に等しく分配されていることを特徴とする請求項1に記載の方法 。 5. 前記範囲の上限界が、前記範囲の下限界よりも少なくとも1.5倍高いこと を 特徴とする請求項4に記載の方法。 6. 前記上限界は、実質的に前記下限界よりも2倍高いことを特徴とする請求 項4に記載の方法。 7. オーディオ等価入力信号の伸長装置であって、 前記信号に関して相互に重複するあるいは隣接する、各時間ウィンドウ関数と 関連する、時間ウィンドウの第一チェーンを位置決めする位置決め手段と、 前記第一ウィンドウチェーンの各ウィンドウの前記関連ウィンドウ関数に従っ て前記信号に重み付けをすることにより、信号セグメントの第一シーケンスを 形成するセグメント化手段と、 セグメントの前記第一シーケンスの各信号セグメントを系統的に維持し、ある いは、繰り返すことにより伸長オーディオ信号を合成する合成手段と、 を有する装置において、 前記ソースセグメントを維持しあるいは少なくとも一回繰り返すことにより 、実質的に周期成分を有しないソース信号セグメントと称される前記信号セグ メントの1つから合成される伸長オーディオ信号の信号セクションを識別する 識別手段と、 第二チェーンの前記時間ウィンドウの少なくともいくつかが、前記ソー ス信号セグメントの持続時間と異なり、かつ前記ソース信号セグメントの持続 時間の倍数とも異なる持続時間を有し、前記信号セクションに関して相互に重 複するあるいは隣接する時間ウィンドウの第二チェーンを、前記位置決め手段 に位置決めさせ、 前記セグメント化手段に、ウィンドウの前記第二チェーンの各ウィンド ウの前記関連するウィンドウ関数により前記信号セクションを重み付けするこ とにより、信号セグメントの第二シーケンスを形成させ、 前記第二信号セグメントシーケンスの信号セグメントをシャッフルする ことにより前記伸長オーディオ信号からオーディオ出力信号を発生させる、 ことにより 前記ソース信号セグメントの反復に起因する前記信号セクションの周期性を 、破壊する手段と、 を有することを特徴とする装置。 8. 時間ウィンドウの前記第二チェーンの前記時間ウィンドの選択が、少なく とも前記ソース信号セグメントの前記持続時間よりも実質的に短い持続時間を 有することを特徴とする請求項7に記載の装置。 9. 時間ウィンドウの前記第二チェーンの時間ウィンドウの前記持続時間が、 予め設定された範囲から選択され、前記選択された持続時間が前記範囲にわた り実質的に等しく分配されていることを特徴とする請求項7に記載の装置。
JP53352499A 1997-12-19 1998-12-14 伸長オーディオ信号からの周期性の除去 Pending JP2001513225A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP97204029 1997-12-19
EP97204029.9 1997-12-19
PCT/IB1998/002017 WO1999033050A2 (en) 1997-12-19 1998-12-14 Removing periodicity from a lengthened audio signal

Publications (1)

Publication Number Publication Date
JP2001513225A true JP2001513225A (ja) 2001-08-28

Family

ID=8229092

Family Applications (1)

Application Number Title Priority Date Filing Date
JP53352499A Pending JP2001513225A (ja) 1997-12-19 1998-12-14 伸長オーディオ信号からの周期性の除去

Country Status (5)

Country Link
US (1) US6208960B1 (ja)
EP (1) EP0976125B1 (ja)
JP (1) JP2001513225A (ja)
DE (1) DE69822618T2 (ja)
WO (1) WO1999033050A2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005539261A (ja) * 2002-09-17 2005-12-22 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声合成における時間幅を制御する方法
JP2005539264A (ja) * 2002-09-17 2005-12-22 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 無声音信号を合成する方法

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040054525A1 (en) * 2001-01-22 2004-03-18 Hiroshi Sekiguchi Encoding method and decoding method for digital voice data
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7461002B2 (en) 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US7711123B2 (en) 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7283954B2 (en) 2001-04-13 2007-10-16 Dolby Laboratories Licensing Corporation Comparing audio using characterizations based on auditory events
EP1386312B1 (en) 2001-05-10 2008-02-20 Dolby Laboratories Licensing Corporation Improving transient performance of low bit rate audio coding systems by reducing pre-noise
JP4490818B2 (ja) * 2002-09-17 2010-06-30 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 定常音響信号のための合成方法
JP3871657B2 (ja) * 2003-05-27 2007-01-24 株式会社東芝 話速変換装置、方法、及びそのプログラム
JP4516863B2 (ja) * 2005-03-11 2010-08-04 株式会社ケンウッド 音声合成装置、音声合成方法及びプログラム
US10726828B2 (en) 2017-05-31 2020-07-28 International Business Machines Corporation Generation of voice data as data augmentation for acoustic model training

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR363233A (fr) 1906-02-12 1906-07-24 Otto Scharenberg Moteur à gaz
US4597318A (en) * 1983-01-18 1986-07-01 Matsushita Electric Industrial Co., Ltd. Wave generating method and apparatus using same
IL84902A (en) * 1987-12-21 1991-12-15 D S P Group Israel Ltd Digital autocorrelation system for detecting speech in noisy audio signal
FR2636163B1 (fr) * 1988-09-02 1991-07-05 Hamon Christian Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde
DE69231266T2 (de) * 1991-08-09 2001-03-15 Koninkl Philips Electronics Nv Verfahren und Gerät zur Manipulation der Dauer eines physikalischen Audiosignals und eine Darstellung eines solchen physikalischen Audiosignals enthaltendes Speichermedium
EP0527527B1 (en) * 1991-08-09 1999-01-20 Koninklijke Philips Electronics N.V. Method and apparatus for manipulating pitch and duration of a physical audio signal
EP0527529B1 (en) * 1991-08-09 2000-07-19 Koninklijke Philips Electronics N.V. Method and apparatus for manipulating duration of a physical audio signal, and a storage medium containing a representation of such physical audio signal
BE1010336A3 (fr) * 1996-06-10 1998-06-02 Faculte Polytechnique De Mons Procede de synthese de son.

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005539261A (ja) * 2002-09-17 2005-12-22 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声合成における時間幅を制御する方法
JP2005539264A (ja) * 2002-09-17 2005-12-22 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 無声音信号を合成する方法
US7805295B2 (en) 2002-09-17 2010-09-28 Koninklijke Philips Electronics N.V. Method of synthesizing of an unvoiced speech signal
US7912708B2 (en) 2002-09-17 2011-03-22 Koninklijke Philips Electronics N.V. Method for controlling duration in speech synthesis
JP4813796B2 (ja) * 2002-09-17 2011-11-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 信号を合成するための方法、記憶媒体及びコンピュータシステム
US8326613B2 (en) 2002-09-17 2012-12-04 Koninklijke Philips Electronics N.V. Method of synthesizing of an unvoiced speech signal

Also Published As

Publication number Publication date
EP0976125A2 (en) 2000-02-02
DE69822618D1 (de) 2004-04-29
WO1999033050A2 (en) 1999-07-01
DE69822618T2 (de) 2005-02-10
US6208960B1 (en) 2001-03-27
EP0976125B1 (en) 2004-03-24
WO1999033050A3 (en) 1999-09-10

Similar Documents

Publication Publication Date Title
JP4641620B2 (ja) ピッチ検出の精密化
US5479564A (en) Method and apparatus for manipulating pitch and/or duration of a signal
EP2264696B1 (en) Voice converter with extraction and modification of attribute data
US11410637B2 (en) Voice synthesis method, voice synthesis device, and storage medium
EP0995190B1 (en) Audio coding based on determining a noise contribution from a phase change
JP5103974B2 (ja) マスキングサウンド生成装置、マスキングサウンド生成方法およびプログラム
JPH0833744B2 (ja) 音声合成装置
RU2296377C2 (ru) Способ анализа и синтеза речи
Quatieri et al. Phase coherence in speech reconstruction for enhancement and coding applications
JP2001513225A (ja) 伸長オーディオ信号からの周期性の除去
Sambur et al. On reducing the buzz in LPC synthesis
Välimäki et al. Creating endless sounds
CN105719640B (zh) 声音合成装置及声音合成方法
JPH04358200A (ja) 音声合成装置
JP3756864B2 (ja) 音声合成方法と装置及び音声合成プログラム
JPH09319391A (ja) 音声合成方法
JP3197975B2 (ja) ピッチ制御方法及び装置
JP6834370B2 (ja) 音声合成方法
JP6683103B2 (ja) 音声合成方法
WO2003090205A1 (en) Method for synthesizing speech
JPH07261798A (ja) 音声分析合成装置
JP3557124B2 (ja) 音声変形方法、その装置、及びプログラム記録媒体
Capizzi et al. Streams as Seams: Carving trajectories out of the time-frequency matrix
JP6822075B2 (ja) 音声合成方法
JPS5965895A (ja) 音声合成方法