JP2003501675A - 時間同期波形補間によるピッチプロトタイプ波形からの音声を合成するための音声合成方法および音声合成装置 - Google Patents

時間同期波形補間によるピッチプロトタイプ波形からの音声を合成するための音声合成方法および音声合成装置

Info

Publication number
JP2003501675A
JP2003501675A JP2000583002A JP2000583002A JP2003501675A JP 2003501675 A JP2003501675 A JP 2003501675A JP 2000583002 A JP2000583002 A JP 2000583002A JP 2000583002 A JP2000583002 A JP 2000583002A JP 2003501675 A JP2003501675 A JP 2003501675A
Authority
JP
Japan
Prior art keywords
pitch
prototype
speech
signal
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000583002A
Other languages
English (en)
Other versions
JP4489959B2 (ja
Inventor
ダス、アミタバ
チョイ、エディー・エル・ティー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2003501675A publication Critical patent/JP2003501675A/ja
Application granted granted Critical
Publication of JP4489959B2 publication Critical patent/JP4489959B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【課題】 時間同期波形補間によるピッチプロトタイプ波形からの音声合成。 【解決手段】 時間同期波形補間(TSWI)でピッチプロトタイプ波形から声の音声を合成する方法において、1つ以上のピッチプロトタイプが音声信号又は残余信号(300)から抽出され、抽出過程はプロトタイプが境界で最小エネルギーをもつように実行される。各プロトタイプは元の信号と時間同期するように円形にシフトされる。線形フェーズシフトは連続する抽出されたプロトタイプ(302)の間での相互補正を最大限にする為、過去に抽出されたプロトタイプを基に各抽出済みプロトタイプに適用される。二次元プロトタイプ進化面はプロトタイプを全サンプルポイント(303)にアップサンプリングする事で構築される。該二次元プロトタイプ進化面はピッチ遅延、及び抽出されたプロトタイプ(305)に追加される移相から計算され、区分的な連続キュービック位相輪郭関数により確定されるサンプルポイントのある一次元の合成信号フレームを生成する為サンプリングし直される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】
本発明は、概して音声処理の分野に関し、さらに特定すると、時間同期波形補
間(TSWI)によってピッチプロトタイプ波形からの音声の合成のための方法
および装置に関する。
【0002】
【従来の技術】
デジタル技法による音声の伝送は、特に長距離電話およびデジタル無線電話の
用途において普及してきた。その結果、これは、再構築される音声の知覚品質を
維持しつつ、チャネル上で送信できる情報の最低量を決定する際に大きな関心を
生じさせてきた。音声が単にサンプリングおよびデジタル化だけで送信される場
合、従来のアナログ電話の音声品質を達成するためには、約毎秒あたり64キロ
ビット(kbps)のデータ転送速度が必要とされる。しかしながら、適切なコ
ーディング、伝送、および受信機での再合成が後に続く音声分析の使用を通して
、データ転送速度のかなりの削減を達成することができる。
【0003】 人間の音声生成のモデルに関するパラメータを抽出することにより音声を圧縮
するための技術を利用する装置は、音声コーダと呼ばれる。音声コーダは、入信
音声信号を時間のブロックまたは分析フレームに分割する。音声コーダは、典型
的には、エンコーダとデコーダ、つまりコーデックを備える。符号器は、入信す
る音声フレームを分析し、一定の関連するパラメータを抽出してから、該パラメ
ータをバイナリ表記に、つまりビットのセットまたはバイナリデータパケットに
量子化する。データパケットは、受信機とデコーダまで通信路上で送信される。
デコーダは、データパケットを処理し、それらを非量子化してから、非量子化パ
ラメータを使用して音声フレームを再合成する。
【0004】 音声コーダの機能とは、音声に固有の自然の冗長性のすべてを除去することに
より、デジタル化された音声信号を低ビット伝送速度に圧縮することである。デ
ジタル圧縮は、パラメータのセットで入力音声フレームを表し、ビットのセット
でパラメータを表すために量子化を利用することにより達成される。 入力音声フレームが多くのビットNを有し、音声コーダにより作られるデー
タパケットが多くのビットNを有する場合、音声コーダにより達成される圧縮
係数は、Cr=N/Nである。課題は、ターゲット圧縮係数を達成しつつ、
復号された音声の高い音声品質を保持することである。音声コーダの性能は、(
1)音声モデル、つまり前述された分析と合成の組み合わせがどの程度うまく実
行するのか、および(2)フレームあたりNビットというターゲットビット伝
送速度でパラメータ量子化プロセスがどの程度うまく実行されるのかに依存する
。音声モデルの目標とは、このようにして音声信号、またはターゲット音声品質
の本質を各フレームのパラメータの小さなセットで捕捉することである。
【0005】 音声コーダは、そのモデルが時間ドメインモデルである場合に時間ドメインコ
ーダと呼ばれる。よく知られている例は、参照してここに完全に組み込まれてい
る、L.B.RabinerおよびW.R.Schaferの音声信号のデジタ
ル処理(Digital Processing of Speech Sig
nals)396−453(1978年)に説明されている符号励起線形予測(
CELP)コーダである。
【0006】 CELPコーダにおいては、音声信号における短期間の相関関係、つまり冗長
性は、短期間フォルマントフィルタの係数を発見する線形予測(LP)分析によ
り除去される。短期間予測フィルタを入信音声フレームに適用することにより、
長期予測フィルタパラメータおよびそれ以降の確立論的なコードブックでモデル
化、量子化されるLP残余信号が生成される。このようにして、CELPコーデ
ィングは、時間ドメイン音声波形の符号化というタスクを、LP短期フィルタ係
数の符号化およびLP残余の符号化という別個のタスクに分ける。
【0007】 目標は、入力音声波形に酷似する合成出力音声波形を作り出すことである。時
間ドメイン波形を正確に保存するためには、CELPコーダは、さらに、残余フ
レームをさらに小さなブロック、つまりサブフレームに分け、サブフレームの合
成による分析(analysis−by−synthesis)方法を続行する
。サブフレームごとに量子化するための多くのパラメータがあるため、これには
フレームごとに高い数のビットNが必要となる。CELPコーダは、典型的に
は、フレームごとにビットNの使用可能な数が、8kbps以上というコーデ
ィングビット伝送速度にとって十分大きいときに、優れた品質を送達する。
【0008】 波形補間(WI)は、音声のフレームごとにプロトタイプ波形の数Mが抽出さ
れ、使用可能なビットで符号化される出現する音声コーディング技法にある。出
力音声は、任意の従来の波形補間技法により、復号されたプロトタイプ波形から
合成される。多様なWI技法は、参照してここに完全に組み込まれるW.Bas
tiaan KleijnおよびJesper Haagenの音声コーディン
グおよび合成(Speech Coding and Synthesis)、
176−205(1995年)に説明されている。
【0009】 従来のWI技法は、ここに参照して完全に組み込まれている米国特許番号第5
,517,595号にも説明されている。しかしながら、このような従来のWI
技法においては、正確な結果を送達するために、フレームごとに複数のプロトタ
イプ波形を抽出することが必要である。さらに、再考し腐れた波形の時間共時性
を提供するためには機構は存在していない。この理由から、合成された出力WI
波形は、最初の入力波形と位置合わせされることが保証されていない。
【0010】 現在、中から低のビット伝送速度で(つまり2.4から4kbps以下の範囲
で)動作している高品質音声コーダを開発するという研究の関心および強い商業
的な必要性の高まりがある。応用分野は、無線電話、衛星通信、インターネット
電話、多様なマルチメディアと音声ストリーミング用途、音声メール、およびそ
の他の音声記憶システムを含む。駆動力は、高容量に対する必要性およびパケッ
トが失われた状況での堅牢な性能に対する要求である。多様な近年の音声コーデ
ィング標準化の作業は、低速度音声コーディングアルゴリズムの研究開発を推進
する別の直接的な駆動力である。低速度音声コーダは、許容アプリケーション帯
域幅ごとに複数のチャネル、つまりユーザを作り出し、適切なチャネルコーディ
ングの追加層と結合される低速度音声コーダはコーダ仕様の総合的なビット予算
に適合し、チャネルエラー状態においても堅牢な性能を提供することができる。
【0011】 しかしながら、低ビット伝送速度(4kbps以下)では、CELPコーダの
ような時間ドメインコーダは、使用可能なビットの数が限られているために、高
品質および堅牢な性能を保持することはできない。低ビット速度では、限られた
コードブック空間が、さらに高い速度の市販されているアプリケーションでこの
ように無事に配備されている、従来の時間ドメインコーダの波形整合機能を切り
取る。
【0012】 音声を低ビット速度で効率的に符号化するための1つの有効な技法は、マルチ
モードコーディングである。マルチモードコーダは、さまざまなモード、つまり
符号化−復号アルゴリズムを、異なる種類の入力音声フレームに適用する。それ
ぞれのモード、つまり符号化−復号プロセスは、最も効率的な方法で一定の種類
の音声セグメント(つまり、有声、無声、または背景雑音)を表すためにカスタ
マイズされる。外部モード決定機構は、入力音声フレームを調べ、フレームにど
のモードを適用するのかに関する決定を下す。典型的には、モードの決定は、入
力フレームの中からパラメータの数を抽出し、どのモードを適用するのかに関す
る決定を下すためにそれらを評価することにより、開放ループ様式で実行される
。このようにして、モードの決定は、事前に出力音声の正確な状態、つまり出力
信号が、音声品質または任意の他の性能基準という点で入力音声にどの程度類似
するだろうかを知らずに下される。音声コーダの例示的な開放ループモードは、
本発明の譲受人に譲渡され、ここに参照して完全に組み込まれている米国特許番
号第5,414,796号に説明されている。
【0013】 マルチモードコーディングは、フレームごとのビットNの同じ数を使用する
固定速度であるか、あるいは異なるビット伝送速度がさまざまなモードに使用さ
れる可変速度のどちらかである場合がある。可変速度コーディングの目標とは、
ターゲット品質を得るために十分なレベルまでコーデックパラメータを符号化す
るために必要とされるビット量だけを使用することである。その結果、固定速度
のターゲット音声品質と同じターゲット音声品質、つまりさらに高い速度のコー
ダは、可変ビット伝送速度(VBR)技法を使用してかなり低い平均速度で得る
ことができる。例示的な可変速度音声コーダは、本発明の譲受人によって譲渡さ
れ、参照してここに過去に完全に組み込まれる米国特許第5,414,796号
に説明される。
【0014】
【発明が解決しようとする課題】
音声化された音声セグメントは、このようなセグメントをピッチプロトタイプ
、つまりその長さL(n)が、ピッチつまり周期性の根本的な周波数がときとと
もに変化するにつれて、ときと共に変化する地裁セグメントに分割できるという
点で準周期的と呼ばれる。このようなセグメント、つまりピッチプロトタイプは
、強い相互作用の程度を有する。つまり、それらは互いにとってきわめて類似し
ている。これは、特に隣接するピッチプロトタイプに当てはまる。準周期的に声
に出された音声セグメントを低速度モードで表すために、低平均速度で高い音声
品質を送達する効率的なマルチモードVBRコーダを設計する際に有利である。
【0015】 音声モデル、つまり音声の準周期的に声に出されるセグメントを表す、分析−
合成方法を提供することが望ましいだろう。高品質合成を提供し、それによって
高品質で音声を作成するモデルを設計することはさらに有利だろう。モデルが、
ビットの小さなセットで符号化するために敏感に反応するようにパラメータの地
裁セットを有することもさらに望ましいだろう。このようにして、符号化のため
に最小量のビットを必要とし、高品質の音声合成を生じさせる声に出される音声
セグメントのための時間同期波形補間の方法に対する必要性がある。
【0016】 本発明は、例えばこの時間同期波形補間によって、ピッチプロトタイプ波形か
らの音声の合成を可能とする方法および装置を提供することを主な目的とするも
のである。
【0017】
【課題を解決するための手段】
(発明の概要) 本発明は、符号化に最小量のビットを必要とし、高品質音声合成を生じさせる
声に出される音声セグメントのための時間同期波形補間の方法に向けられる。し
たがって、本発明の1つの態様においては、時間同期波形補間によりピッチプロ
トタイプ波形から音声を同期する方法は、信号からフレームあたり少なくとも1
つのピッチプロトタイプを抽出する工程と、過去に抽出されたピッチプロトタイ
プを基準にして抽出されたピッチプロトタイプに移相(位相シフト)を適用する工
程と、フレーム内でのサンプルポイントごとにピッチプロトタイプをアップサン
プリングする工程と、二次元のプロトタイプ進化面を構築する工程と、1次元の
合成化された信号フレームを作成するために二次元面を再サンプリングする工程
とを含み、再サンプリングポイントは、ピッチ遅延および抽出されたピッチプロ
トタイプに追加される整合移相から計算されている区分的な連続キュービック位
相輪郭関数により画定されている。
【0018】 本発明の別の態様においては、時間同期波形補間によってピッチプロトタイプ
波形から音声を合成するための装置は、信号からフレームあたり少なくとも1つ
のピッチプロトタイプを抽出する手段と、過去に抽出されたピッチプロトタイプ
を基準にして、抽出されたピッチプロトタイプに移相(位相シフト)を適用する手
段と、フレーム内のサンプルポイントごとにピッチプロトタイプをアップサンプ
リングする手段と、二次元プロトタイプ進化面を構築する手段と、1次元の合成
された信号フレームを作成するために、2次元面を再サンプリングする手段とを
含み、再サンプリングポイントが区分的に連続するキュービック(立法)位相輪郭
関数により画定され、位相輪郭関数がピッチ遅延および抽出されたピッチプロト
タイプに追加される整合移相から計算される。
【0019】 本発明の別の態様においては、時間同期波形補間によってピッチプロトタイプ
波形から音声を合成するための装置は、信号からフレームあたり少なくとも1つ
のピッチプロトタイプを抽出するように構成されているモジュールと、過去に抽
出されたピッチプロトタイプを基準にして、抽出されたピッチプロトタイプに移
相を適用するように構成されているモジュールと、フレーム内のサンプルポイン
トごとにピッチプロトタイプをアップサンプリングするように構成されているモ
ジュールと、二次元プロトタイプ進化面を構築するように構成されているモジュ
ールと、1次元の合成された信号フレームを作成するために、2次元面を再サン
プリングするように構成されているモジュールとを含み、再サンプリングポイン
トが区分的に連続するキュービック(立法)位相輪郭関数により画定され、位相輪
郭関数がピッチ遅延および抽出されたピッチプロトタイプに追加される整合移相
(位相シフト)から計算される。
【0020】
【発明の実施の形態】
(好適実施形態の詳細な説明) 図1においては、第1エンコーダ10が、デジタル化された音声サンプルs(
n)を受け取り、第1でコーダ14へ、伝送媒体12または通信路12での伝送
のためにサンプルs(n)を符号化する。デコーダ14は、符号化された音声サ
ンプルを復号し、出力音声信号SSYNTH(n)を合成する。反対方向での伝
送の場合、第2エンコーダ16が、通信路18で送信されるデジタル化された音
声サンプルs(n)を符号化する。第2でコーダ20は、符号化された音声サン
プルを受信、復号し、合成された出力音声信号SSYNTH(n)を生成する。
【0021】 音声サンプルs(n)は、例えば、パルス符号変調(PCM)、圧伸付きμ法
則、またはA法則などを含む技術で既知である多様な方法のどれかに従ってデジ
タル化され、量子化された音声信号を表す。技術で既知であるように、音声サン
プルs(n)は、入力データのフレームに編成され、各フレームが所定数のデジ
タル化された音声サンプルs(n)を備える。例示的な実施形態においては、8
kHzというサンプリング速度が利用され、それぞれ20msのフレームが16
0個のサンプルを備える。後述される実施形態においては、データ伝送の速度は
、8kbps(フルレート)から4kbps(ハーフレート)へ、2kbps(
4分の1レート)へ、1kbps(8分の1レート)へフレーム対フレーム単位
で有利に変更されてよい。データ伝送速度を変化することは、低い方のビット伝
送速度が、相対的に少ない音声情報を含むフレームのために選択的に利用されて
よいため有利である。当業者により理解されるように、その他のサンプリング速
度、フレームサイズおよびデータ伝送速度が使用されてよい。
【0022】 第1エンコーダ10および第2デコーダ20は、ともに第1音声コーダ、つま
り音声コーデックを備える。同様に第2エンコーダ16および第1デコーダ14
は、ともに第2音声コーダを備える。音声コーダは、デジタル信号プロセッサ(
DSP)、特定用途向け集積回路(ASIC)、離散ゲート論理、ファームウェ
ア、あるいは従来のプログラム可能ソフトウェアモジュールおよびマイクロプロ
セッサで実現されてよい。ソフトウェアモジュールは、RAMメモリ、フラッシ
ュメモリ、レジスタ、または任意のそれ以外の形式の書き込み可能な記憶装置媒
体の中に常駐するだろう。代わりに、任意の従来のプロセッサ、制御装置、また
は状態機械がマイクロプロセッサに代わるだろう。特に音声コーディング用に設
計されている例示的なASICは、本発明の譲受人に譲渡され、ここに参照して
完全に組み込まれている米国特許番号第5,727,123号、および1994
年2月16日に出願された、「VOCODER ASIC」と題されている、本
発明の譲受人に譲渡され、ここに参照して完全に組み込まれている米国出願番号
第08/197,417号に説明されている。
【0023】 図2では、音声コーダで使用されてよいエンコーダ100は、モード決定モジ
ュール102、ピッチ概算モジュール104、LP分析モジュール106、LP
分析フィルタ108、LP量子化モジュール110、および残余量子化モジュー
ル112を含む。入力音声フレームs(n)は、モード決定モジュール102、
ピッチ概算モジュール104、LP分析モジュール106、およびLP分析フィ
ルタ108に提供される。モード決定モジュール102は、各入力音声フレーム
s(n)の周期性に基づき、モード指数IおよびモードMを作り出す。音声フ
レームを周期性に従って分類する多様な方法は、本発明の譲渡人に譲渡され、参
照してここに完全に組み込まれている、1997年3月11日に出願された「削
減速度可変速度ボコーディングのための方法および装置(METHOD AND
APPARATUS FOR PERFORMING REDUCED RA
TE VARIABLE RATE VOCODING)」と題された米国出願
番号第08/815,354号で説明される。このような方法は、米国電気通信
工業会中間規格TIA/EIA IS−127およびTIA/EIA IS−7
33にも組み込まれている。
【0024】 ピッチ概算モジュール104は、各入力音声フレームs(n)に基づき、ピッ
チ指数Iおよび遅延値Pを作り出す。LP分析モジュール106は、LPパ
ラメータaを生成するためにそれぞれの入力音声フレームs(n)の上で線形予
測分析を実行する。LPパラメータaは、LP量子化モジュール110に提供さ
れる。LP量子化モジュール110は、モードMも受け取る。LP量子化モジュ
ール110は、LP指数ILPおよび量子化されたLPパラメータu#を作成す
る。LP分析フィルT108は、入力された音声フレームs(n)に加えて、量
子化されたLPパラメータu#を受け取る。LP分析フィルタ108は、入力音
声フレームs(n)と量子化された線形予測パラメータu#の間のエラーを表す
、LP残余信号R[n]を生成する。LP残余R[n]、モードMおよび量子化
されたLPパラメータu#は、残余量子化モジュール112に提供される。これ
らの値に基づき、残余量子化モジュールは、残余指数Iおよび量子化残余信号
#[n]を作り出す。
【0025】
【数1】 図3では、音声コーダで使用されてよいデコーダ200は、LPパラメータ復
号モジュール202、残余復号化モジュール204、モード復号モジュール20
6、およびLP合成フィルタ208を含む。モード復号モジュール206は、モ
ードMをそこから生成するモード指数Iを受信し、復号する。LPパラメータ
復号モジュール202はモードMおよびLP指数ILPを受け取る。LPパラメ
ータ復号モジュール202は、量子化されたLPパラメータu#を作り出すため
に受信された値を復号する。残余復号モジュール204は、残余指数I、ピッ
チ指数I、およびモード指数Iを受け取る。残余復号モジュール204は、
量子化された残余信号R#[n]を生成するために受信された値を復号する。量
子化残余信号R#[n]および量子化LPパラメータuは、復号された出力音声
信号s#[n]をそこから合成するLP合成フィルタ208に提供される。
【0026】 図2のエンコーダ100、および図3のデコーダの多様なモジュールの動作お
よび実現は、技術で既知である。例示的なエンコーダおよび例示的なデコーダは
、前記に参照して完全にここに組み込まれている米国特許第5,414,796
号に説明されている。
【0027】 ある実施形態においては、音声の準周期的な、声に出されたセグメントは、現
在の音声フレームScurからピッチプロトタイプ波形を抽出し、現在の音声フ
レームを時間同期波形補間(TSWI)によりピッチプロトタイプ波形から合成
することによってモデル化される。m=1,2,...Mであり、各ピッチプロ
トタイプ波形Wが長さLcurを有し、その場合にLcurが現在の音声フレ
ームScurからの現在のピッチ期間である場合に、ピッチプロトタイプ波形W の数Mだけを抽出し、保持することにより、符号化されなければならない情報
の量は、N個のサンプルからM個とL個のサンプルの積に削減される。数Mが1
という値を指定されてよいか、あるいはピッチ遅延に基づいて任意の離散値を指
定されてよい。Mのさらに高い値は、多くの場合、再構築された声に出された信
号が過剰に周期的になることを防ぐためにLcurの小さい値に必要とされる。
例示的な実施形態では、ピッチ遅延が60を上回る場合、Mは1に等しく設定さ
れる。それ以外の場合、Mは2に等しく設定される。Mの現在のプロトタイプ、
および過去のフレームからの長さLを有する最終的なピッチプロトタイプW は、詳細に後述されるTSWI技法を利用することによって、現在の音声フレー
ムのモデル表記Scur_modelを再生成ために使用される。同じ長さL ur を有する現在のプロトタイプWを選ぶことの代替策として、現在のプロト
タイプWは、代わりに長さLを有してよく、そこではローカルピッチ期間L が、関連する離散時間ロケーションnで真のピッチ期間を概算することによ
って、あるいは現在のピッチ期間Lcurと最後のピッチ期間Lの間に任意の
従来の補間技法を適用することのどちらかによって、概算することができる。使
用される補間技法は、例えば、単純線形補間であってよい。 L = (1-n/N)*0 + (n/N)*cur ここでは、時間指数nは、m番目のセグメントの中間点であり、m=1,2,
...,Mである。
【0028】 前記関係性は、図4Aから図4Cのグラフに示されている。信号振幅対離散時
間指数(つまり、サンプル番号)を描く図4Aでは、フレーム長Nがフレームあ
たりのサンプル数を表す。図示されている実施形態においては、Nは160であ
る。値Lcur(フレーム内の現在のピッチ期間)およびL(先行するフレー
ム内での最終ピッチ期間)も示されている。その信号振幅が、所望されるように
、音声信号振幅であるか、あるいは残余信号振幅のどちらかであってよいことが
指定される必要である。M=1の場合のプロトタイプ振幅対離散時間指数を描く
図4Bでは、値Wcur(現在のプロトタイプ)およびW(過去のフレームの
最終プロトタイプ)が示されている。図4Cのグラフは、TSWI合成対離散時
間指数の後の再構築された信号Scur_modelの振幅を示す。
【0029】 前記補間等式中の中間点nは、隣接する中間点の間の距離がほぼ同じとなる
ように有利に選ばれる。例えば、M=3、N=160、L=40、およびL ur =42は、n=20およびn=139を、したがってn=33および
n2=86を生じさせるため、隣接するセグメントの間の距離は[139−(−
20)/3]つまり53である。
【0030】 現在のフレームWの最後のプロトタイプは、現在のフレームの最後のLcu サンプルを選ぶことによって抽出される。他の中間プロトタイプは中間点n のまわりの(L)/2サンプルを取り出すことによって、抽出される。
【0031】 プロトタイプ抽出は、さらに、範囲{n−0.5−D,n+0.
+D}の中からのあらゆるLサンプルをプロトタイプを構成するた
めに選ぶことができるように、プロトタイプWごとにDMの動的シフトを可能
にすることによりさらに精密にされてよい。プロトタイプ境界で高いエネルギー
セグメントを回避することが望ましい。値Dは、mで可変であるか、あるいは
プロトタイプごとに固定することができる。
【0032】 ゼロではない動的シフトDが、抽出されたプロトタイプWと元の信号の間
の時間共時性を必ずや破壊することが指摘されなければならない。この問題に対
する1つの単純な解決策とは、動的シフトが導入したオフセットを調整するため
に、プロトタイプWに円形シフトを適用することである。例えば、動的シフト
がゼロに設定されると、プロトタイプ抽出は時間指数n=100で開始する。他
方、Dが適用されると、プロトタイプ抽出はn=98で始まる。プロトタイプ
と元の信号の間の共時性を維持するためには、プロトタイプは、プロトタイプ抽
出後に2個のサンプル(つまり100−98サンプル)によって右側へ円形にシ
フトすることができる。
【0033】 フレーム境界での不整合を回避するには、合成された音声の時間共時性を維持
することが重要である。したがって、分析−合成プロセスで合成された音声は、
入力音声と十分に整合されなければならない。1つの実施形態においては、前記
目標は、後述されるように位相トラックの境界値を明示的に制御することによっ
て達成される。時間共時性は、線形予測に基づいたマルチモード音声コーダにと
っても重大であり、その中では1つのモードはCELPであり、別のモードはプ
ロトタイプに基づいた音声−合成である可能性がある。CELPでコーディング
されているフレームの場合、時間整合または時間共時性が不在の場合に、前のフ
レームがプロトタイプをベースにした方法でコーディングされると、CELPの
合成による分析の波形整合力を利用することはできない。過去の波形における時
間共時性の破壊により、CELPは、時間共時性の欠如のためにメモリが元の音
声と不整合になるために、予測のメモリに依存することはできないだろう。
【0034】 図5のブロック図は、ある実施形態に従ったTSWIとの音声合成用の装置を
示す。サイズN、Mのフレームで開始すると、長さL,L...Lのプロ
トタイプW,W...Wがブロック300で抽出される。抽出プロセスで
は、動的シフトが、プロトタイプ境界での高エネルギーを回避するために抽出の
たびに使用される。次に、適切な円形シフトが、抽出されたプロトタイプと対応
する元の信号の対応するセグメントの間の時間共時性を最大限にするために、そ
れぞれの抽出されたプロトタイプに適用される。m番目のプロトタイプWは、
kのサンプル番号、つまりk=1、2、…Lによって指標が付けられるL
サンプルを有する。この指標kは、正規化され、0から2の範囲である新規位相
指数__にマッピングし直すことができる。ブロック301では、ピッチ概算お
よび補間は、ピッチ遅延を生成するために利用される。
【0035】 プロトタイプの端点ロケーションは、n、n...nとしてラベルが付
けられ、その場合_n<n<n=Nである。プロトタイプは、ここでは、
以下のようにその端点ロケーションに従って表すことができる。 X(n,φ)=W X(n,φ)=W : X(n,φ)=W X(n,_)が、過去のフレームの中の最終的に抽出されたプロトタイプを表
し、X(n,_)がLとい長さを有することが注記される必要がある。また
、{n,n...n}が、現在のフレーム上で等しく間隔をあけて配置さ
れてよい、あるいはされなくてよいことも指摘される必要がある。
【0036】 ブロック302では、整合プロセスが実行される場合、移相_は、連続するプ
ロトタイプが最大限に整合されるように各プロトタイプXに適用される。特に、
【数2】 この場合、WはXの整合されたバージョンであり、整合シフト_は以下によって
計算できる。
【0037】
【数3】 Z[X,W]は、XとWの間の相互関連を表す。
【0038】 M個のプロトタイプは任意の従来の補間技法によってブロック303内のN個
のプロトタイプにアップサンプリングされる。使用されている補間技法は、例え
ば、単純線形補間であってよい。
【0039】
【数4】 i=1,2...NであるN個のプロトタイプ、W(n,_)のセットは、図
6Bの二次元(2−D)プロトタイプ−進化面を形成する。
【0040】 ブロック304は、移相トラックの計算を実行する。波形補間では、移相トラ
ック_[N]が、2−Dプロトタイプ進化面を1−D信号に変換して戻すために
使用される。従来では、このような位相輪郭が、以下に示すように補間された周
波数を使用してサンプル単位で計算される。
【0041】
【数5】 この場合、n=1,2...Nである。周波数輪郭F[n]は、補完されたピッ
チトラック、特にF[n]=1/L[n]=1/L[n]を使用して計算でき、
この場合L[n]は、[L,L...L]の補間されたバージョンを表す
。前記位相輪郭関数は、典型的には、最終値__[N]でではなく、初期位相値
__[0]でフレームごとに一度引き出される。さらに、位相輪郭関数は、整合
プロセスから生じる移相__を考慮に入れない。このため、再構築された波形は
、元の信号に対して時間同期しているとは保証されない。周波数輪郭が経時的に
線形に進化すると仮定される場合、結果として生じる位相トラック__[n]は
時間指数(n)の二次関数である。
【0042】 図5の実施形態においては、位相輪郭は、初期境界位相値および最終境界位相
値が整合シフト値と密に整合される区分的な様式で有利に構築される。時間共時
性は、現在のフレームn_、n_...、nでのp個の時間瞬間で保存される
ことが望まれ、この場合n_<n_<...,<n、およびα、ε{1,2
...,M}、i=1,2...pである。結果として生じる_[n]、n=1
,2...Nは、以下のように書くことができる、以下のように作成できるp個
の区分的連続位相関数から構成されている。
【0043】
【数6】 n_は、_[n]がフレーム全体に関して計算できる、つまりn=1,2.
..Nであるように、典型的にはnMに設定されることが指摘される必要がある
。それぞれの区分的な位相関数の係数{a,b,c,d}は、4つの境界条件に
よって計算できる。つまり、初期および最終のピッチ遅延Lα−1およびLα
れぞれ、および初期および最終整合シフトψα−1、およびψαである。特に、
係数は、以下によって解くことができる。
【0044】
【数7】 ここでは、i=1,2...pである。整合シフト__は、2を法として得るこ
とができるため、係数ξは、結果として生じる位相係数が最大限に円滑となるよ
うに移相をアンラップするために使用される。値ξは、以下のように計算するこ
とができる。
【0045】
【数8】 この場合、i=1,2...pであり、関数円[x]はxに最も近い整数を見つ
ける。例えば、円[1.4]は1である。
【0046】 励磁されたアンラップされた位相トラックは、M=p=1およびL=40、
=46というケースに関して図7に説明される。(破線で示されている従来
の二次位相輪郭に固執することとは対照的に)立法位相輪郭に従うと、フレーム
境界で音声Scurの元のフレームと合成されたScur_modelの時共時
性が保証される。
【0047】 ブロック305では、1次元(1−D)時間ドメイン波形が、2−D表面から
形成される。n=1,2...Nである場合に、合成された波形Scur_mo del [n]が、以下によって形成される。
【0048】
【数9】 図表を用いて、前記変換は、図6Bに示されているように、図6Aに描かれて
いるラップされた位相トラックを2D表面に重畳するのに同等である。(いそう
とラックが2−D面に会う)交差の位相軸に垂直な平面への投影は、Scur_ model [n]である。
【0049】 1つの実施形態においては、プロトタイプ抽出およびTSWIをベースにした
分析−合成のプロセスは、音声ドメインに適用される。別の実施形態では、プロ
トタイプ抽出およびTSWIをベースにした分析−合成のプロセスはここに述べ
た音声ドメイン並びにLP残余ドメインに適用される。
【0050】 1つの実施形態においては、ピッチプロトタイプをベースにした分析−合成モ
デルは、現在のフレームが「十分に周期的である」かどうかが決定される事前選
択プロセスの後に適用される。隣接する抽出されたプロトタイプ、WとW
1の間の周期性PFは、以下のように計算できる。
【0051】
【数10】 この場合、Lmaxは、「L,Lm+1」の最大、プロトタイプWとWm+ の長さの最大である。
【0052】 周期性PFのM個のセットは、現在のフレームのプロトタイプが極めて類似
しているかどうか、あるいは現在のフレームがきわめて周期性であるかどうかを
決定するために閾値のセットと比較できる。周期性PFのセットの平均値は、
前記結論に到達するために所定閾値と有利に比較されてよい。現在のフレームが
十分に周期的で歯に亜場合には、異なるさらに速い速度アルゴリズム(つまり、
ピッチプロトタイプベースではないもの)は、現在のフレームを符号化するため
に代わりに使用されてよい。
【0053】 1つの実施形態では、選択後フィルタが、性能を評価するために適用されてよ
い。このようにして、現在のフレームをピッチプロトタイプベースの分析−合成
モードで符号化した後、性能が十分に良好かどうかに関する決定が下される。決
定は、PSNRなどの品質基準を得ることによって下され、この場合PSNRは
以下のように定義される。
【0054】
【数11】 この場合、x[n]=h[n]R[n]、およびe(n)=h[n]qR[
n]であり、「*」は合成変換または濾波動作動作を示し、h(n)は、知覚的
に加重されたLPフィルタであり、R[n]が元の音声残余であり、qR[n]
はピッチプロトタイプベースの分析−合成モードで得られる残余である。PSN
Rの前記等式は、ピッチプロトタイプベースの分析−合成符号化がLP残余信号
に適用される場合、有効である。他方、ピッチプロトタイプベースの分析−合成
技法がLP残余の変わりに元の音声フレームに適用される場合、PSNRは以下
のとおりに定められてよい。
【0055】
【数12】 この場合、x[n]は、元の音声フレームであり、e[n]はピッチプロトタイ
プベースの分析−合成技法によってモデル化される音声信号であり、w[n]は
概念上の加重係数である。どちらかのケースでは、PSNRが所定閾値以下とな
る場合フレームは分析−合成技法に適さず、異なるおそらくさらに高いビット伝
送速度のアルゴリズムが、現在のフレームを捕捉するために、代わりに使用され
てよい。当業者は、前述された例示的なPSNR基準を含む任意の従来の性能基
準は、アルゴリズム性能に関して後処理決定のために使用されてよい。
【0056】 本発明の好適実施形態は、このようにして示され、説明された。しかしながら
、多数の変形実施が、本発明の要旨または範囲から逸脱することなくここに開示
される実施形態に対してなされ得ることは一般の当業者には明らかであるだろう
。したがって、本発明は各請求項以外に従って制限されるものではない。
【0057】
【発明の効果】
以上、本発明によれば、時間同期波形補間によって、ピッチプロトタイプ波形
からの音声の合成を可能とする音声合成方法および音声合成装置を提供できる。
【図面の簡単な説明】
【図1】 図1は、音声コーダによって各端部で終端される通信チャネルのブロック図で
ある。
【図2】 図2は、エンコーダのブロック図である。
【図3】 図3は、デコーダのブロック図である。
【図4】 図4A〜図4Cは、それぞれ、信号振幅対分離時間指数、抽出済みプロトタイ
プ振幅対分離時間指数、およびTSWI再構築信号振幅対分離時間指数のグラフ
である。
【図5】 図5は、時間同期波形補間(TSWI)によりピッチプロトタイプ波形から音
声を合成するための装置を示す機能ブロック図である。
【図6】 図6Aは、ラップ立法位相輪郭対分離した時間指数のグラフであり、 図6Bは、再構築された音声信号振幅対図6Aの重畳グラフの2次元表面グラ
フである。
【図7】 図7は、アンラップ2次位相輪郭およびキュービック位相輪郭対分離時間指数
のグラフである。
【符号の説明】
10,16…エンコーダ、 14,20…デコーダ、 102…モード決定、 104…ピッチ概算、 106…LP分析、 110…LP量子化、 108…LP分析フィルタ、 112…残余量子化、 202…LPパラメータ復号、 204…残余復号、 206…モード復号、 208…LP合成フィルタ、 301…ピッチ概算および補間、 300…抽出、 304…位相輪郭構築、 302…整合、 303…プロトタイプのアップサンプリング、 305…2Dから1Dの変換。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,SD,SL,SZ,TZ,UG,ZW ),EA(AM,AZ,BY,KG,KZ,MD,RU, TJ,TM),AE,AL,AM,AT,AU,AZ, BA,BB,BG,BR,BY,CA,CH,CN,C R,CU,CZ,DE,DK,DM,EE,ES,FI ,GB,GD,GE,GH,GM,HR,HU,ID, IL,IN,IS,JP,KE,KG,KP,KR,K Z,LC,LK,LR,LS,LT,LU,LV,MA ,MD,MG,MK,MN,MW,MX,NO,NZ, PL,PT,RO,RU,SD,SE,SG,SI,S K,SL,TJ,TM,TR,TT,TZ,UA,UG ,UZ,VN,YU,ZA,ZW (72)発明者 チョイ、エディー・エル・ティー アメリカ合衆国、カリフォルニア州 92126 サン・ディエゴ、リーガン・ロー ド・ナンバー 248、9930

Claims (24)

    【特許請求の範囲】
  1. 【請求項1】 信号からフレームあたり少なくとも1つのピッチプロトタイ
    プを抽出する工程と、 過去に抽出されたピッチプロトタイプを基準にして、抽出されたピッチプロト
    タイプに移相(位相シフト)を適用する工程と、 フレーム内の各サンプルポイントにピッチプロトタイプをアップサンプリング
    する工程と、 2次元プロトタイプ進化面を構築する工程と、 一次元合成信号フレームに二次元面を再サンプリングし、再サンプリングポイ
    ントが、区分的に連続するキュービック位相輪郭関数によって画定され、位相輪
    郭関数が、抽出されたピッチプロプロトタイプに追加されるピッチ遅延および整
    合移相(位相シフト)から計算される工程と、 を備える、時間共時性波形補間によるピッチプロトタイプ波形から音声を合成す
    るための音声合成方法。
  2. 【請求項2】 上記信号が音声信号を備える、請求項1に記載される方法。
  3. 【請求項3】 上記信号は残余信号を備える、請求項1に記載される方法。
  4. 【請求項4】 最終ピッチプロトタイプ波形が、以前のフレームの遅延サン
    プルを備える、請求項1に記載される方法。
  5. 【請求項5】 残りの工程を実行するかどうかを決定するために現在のフレ
    ームの周期性を計算する工程をさらに備える、請求項1に記載される方法。
  6. 【請求項6】 後処理性能基準を得る工程と、後処理性能基準を所定の閾値
    と比較する工程と、をさらに備える、請求項1に記載される方法。
  7. 【請求項7】 上記抽出する工程が、1つのピッチプロトタイプだけを抽出
    することを備える、請求項1に記載される方法。
  8. 【請求項8】 上記抽出する工程が、多数のピッチプロトタイプを抽出する
    ことを備え、数はピッチ遅延の関数である、請求項1に記載される方法。
  9. 【請求項9】 信号から、フレームあたり少なくとも1つのピッチプロトタ
    イプを抽出するための手段と、 過去に抽出されたピッチプロトタイプを基準にして、抽出されたピッチプロト
    タイプに移相(位相シフト)を適用するための手段と、 フレーム内のサンプルポイントごとにピッチプロトタイプをアップサンプリン
    グするための手段と、 二次元プロトタイプ進化面を構築するための手段と、 二次元面を再サンプリングし、一次元合成済み信号フレームを作成し、再サン
    プリングポイントが区分的に連続するキュービック位相輪郭関数により画定され
    、位相輪郭関数がピッチ遅延、および抽出されたピッチプロトタイプに追加され
    る整合移相(位相シフト)から計算される手段と、 を具備する、時間共時性波形補間によるピッチプロトタイプ波形から音声を合成
    するための音声合成装置。
  10. 【請求項10】 上記信号が音声信号を備える、請求項9に記載される装置
  11. 【請求項11】 上記信号は残余信号を備える、請求項9に記載される装置
  12. 【請求項12】 最終的なピッチプロトタイプ波形は、以前のフレームの遅
    延サンプルを備える、請求項9に記載される装置。
  13. 【請求項13】 現在のフレームの周期性を計算するための手段をさらに備
    える、請求項9に記載される装置。
  14. 【請求項14】 後処理性能基準を得るための手段と、後処理性能基準を所
    定の閾値に比較するための手段とをさらに備える、請求項9に記載される装置。
  15. 【請求項15】 上記抽出するための手段は、ピッチプロトタイプだけを抽
    出するための手段を備える、請求項9に記載される装置。
  16. 【請求項16】 上記抽出するための手段は、ピッチプロトタイプの数を抽
    出するための手段を備え、数がピッチ遅延の関数である、請求項9に記載される
    装置。
  17. 【請求項17】 信号からフレームあたり少なくとも1つのピッチプロトタ
    イプを抽出するように構成されるモジュールと、 過去に抽出されたピッチプロトタイプを基準にして抽出されたピッチプロトタ
    イプに移相(位相シフト)を適用するように構成されるモジュールと、 フレーム内のサンプルポイントごとにピッチプロトタイプをアップサンプリン
    グするように構成されるモジュールと、 2次元プロトタイプ進化面を構築するように構成されるモジュールと、 1次元合成信号フレームを作成するために2次元面を再サンプリングするよう
    に構成され、再サンプリングポイントが区分的に連続するキュービック位相輪郭
    関数により画定され、位相輪郭関数がピッチ遅延および抽出されたピッチプロト
    タイプに追加される整合移相(位相シフト)から計算されるモジュールと、 を具備する、時間同期波形補間によるピッチプロトタイプ波形から音声を合成す
    るための音声合成装置。
  18. 【請求項18】 上記信号が音声信号を備える、請求項17に記載される装
    置。
  19. 【請求項19】 上記信号は残余信号を備える、請求項17に記載される装
    置。
  20. 【請求項20】 最終ピッチプロトタイプ波形が過去のフレームの遅延サン
    プルを備える、請求項17に記載される装置。
  21. 【請求項21】 現在のフレームの周期性を計算するように構成されるモジ
    ュールを備える、請求項17に記載される装置。
  22. 【請求項22】 後処理性能基準を得て、後処理性能基準を所定の閾値と比
    較するように構成されるモジュールをさらに備える、請求項17に記載される装
    置。
  23. 【請求項23】 少なくとも1つのピッチプロトタイプを抽出するように構
    成されているモジュールが、1つのピッチプロトタイプだけを抽出するように構
    成されている、請求項17に記載される装置。
  24. 【請求項24】 少なくとも1つのプロトタイプを抽出するように構成され
    ているモジュールが、ピッチプロトタイプの数を抽出するように構成され、数が
    ピッチ遅延の関数である、請求項17に記載される装置。
JP2000583002A 1998-11-13 1999-11-12 時間同期波形補間によるピッチプロトタイプ波形からの音声を合成するための音声合成方法および音声合成装置 Expired - Fee Related JP4489959B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/191,631 US6754630B2 (en) 1998-11-13 1998-11-13 Synthesis of speech from pitch prototype waveforms by time-synchronous waveform interpolation
US09/191,631 1998-11-13
PCT/US1999/026849 WO2000030073A1 (en) 1998-11-13 1999-11-12 Synthesis of speech from pitch prototype waveforms by time-synchronous waveform interpolation

Publications (2)

Publication Number Publication Date
JP2003501675A true JP2003501675A (ja) 2003-01-14
JP4489959B2 JP4489959B2 (ja) 2010-06-23

Family

ID=22706259

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000583002A Expired - Fee Related JP4489959B2 (ja) 1998-11-13 1999-11-12 時間同期波形補間によるピッチプロトタイプ波形からの音声を合成するための音声合成方法および音声合成装置

Country Status (9)

Country Link
US (1) US6754630B2 (ja)
EP (1) EP1131816B1 (ja)
JP (1) JP4489959B2 (ja)
KR (1) KR100603167B1 (ja)
CN (1) CN100380443C (ja)
AU (1) AU1721100A (ja)
DE (1) DE69924280T2 (ja)
HK (1) HK1043856B (ja)
WO (1) WO2000030073A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009501909A (ja) * 2005-07-18 2009-01-22 トグノラ,ディエゴ,ジュセッペ 信号処理方法およびシステム

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6397175B1 (en) 1999-07-19 2002-05-28 Qualcomm Incorporated Method and apparatus for subsampling phase spectrum information
JP4747434B2 (ja) * 2001-04-18 2011-08-17 日本電気株式会社 音声合成方法、音声合成装置、半導体装置及び音声合成プログラム
US20040220801A1 (en) * 2001-08-31 2004-11-04 Yasushi Sato Pitch waveform signal generating apparatus, pitch waveform signal generation method and program
JP4407305B2 (ja) * 2003-02-17 2010-02-03 株式会社ケンウッド ピッチ波形信号分割装置、音声信号圧縮装置、音声合成装置、ピッチ波形信号分割方法、音声信号圧縮方法、音声合成方法、記録媒体及びプログラム
GB2398981B (en) * 2003-02-27 2005-09-14 Motorola Inc Speech communication unit and method for synthesising speech therein
DE602004007945T2 (de) * 2003-09-29 2008-05-15 Koninklijke Philips Electronics N.V. Codierung von audiosignalen
KR100735246B1 (ko) * 2005-09-12 2007-07-03 삼성전자주식회사 오디오 신호 전송 장치 및 방법
KR101019936B1 (ko) * 2005-12-02 2011-03-09 퀄컴 인코포레이티드 음성 파형의 정렬을 위한 시스템, 방법, 및 장치
US8346544B2 (en) * 2006-01-20 2013-01-01 Qualcomm Incorporated Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision
US8032369B2 (en) * 2006-01-20 2011-10-04 Qualcomm Incorporated Arbitrary average data rates for variable rate coders
US8090573B2 (en) * 2006-01-20 2012-01-03 Qualcomm Incorporated Selection of encoding modes and/or encoding rates for speech compression with open loop re-decision
US7899667B2 (en) * 2006-06-19 2011-03-01 Electronics And Telecommunications Research Institute Waveform interpolation speech coding apparatus and method for reducing complexity thereof
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
EP2211979A1 (en) * 2007-09-27 2010-08-04 Cardiac Pacemakers, Inc. Implantable lead with an electrostimulation capacitor
CN101556795B (zh) * 2008-04-09 2012-07-18 展讯通信(上海)有限公司 计算语音基音频率的方法及设备
US20090319263A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US20090319261A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US8768690B2 (en) 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
FR3001593A1 (fr) * 2013-01-31 2014-08-01 France Telecom Correction perfectionnee de perte de trame au decodage d'un signal.
CN112634934A (zh) * 2020-12-21 2021-04-09 北京声智科技有限公司 语音检测方法及装置
KR20230080557A (ko) 2021-11-30 2023-06-07 고남욱 보이스 교정 시스템

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4214125A (en) * 1977-01-21 1980-07-22 Forrest S. Mozer Method and apparatus for speech synthesizing
US4926488A (en) * 1987-07-09 1990-05-15 International Business Machines Corporation Normalization of speech by adaptive labelling
CA2568984C (en) 1991-06-11 2007-07-10 Qualcomm Incorporated Variable rate vocoder
US5884253A (en) * 1992-04-09 1999-03-16 Lucent Technologies, Inc. Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter
JP2903986B2 (ja) * 1993-12-22 1999-06-14 日本電気株式会社 波形合成方法及びその装置
US5517595A (en) 1994-02-08 1996-05-14 At&T Corp. Decomposition in noise and periodic signal waveforms in waveform interpolation
US5903866A (en) * 1997-03-10 1999-05-11 Lucent Technologies Inc. Waveform interpolation speech coding using splines
WO1999010719A1 (en) * 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
US6456964B2 (en) * 1998-12-21 2002-09-24 Qualcomm, Incorporated Encoding of periodic speech using prototype waveforms

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009501909A (ja) * 2005-07-18 2009-01-22 トグノラ,ディエゴ,ジュセッペ 信号処理方法およびシステム

Also Published As

Publication number Publication date
AU1721100A (en) 2000-06-05
HK1043856B (zh) 2008-12-24
CN100380443C (zh) 2008-04-09
CN1348582A (zh) 2002-05-08
EP1131816B1 (en) 2005-03-16
US20010051873A1 (en) 2001-12-13
JP4489959B2 (ja) 2010-06-23
KR100603167B1 (ko) 2006-07-24
DE69924280D1 (de) 2005-04-21
EP1131816A1 (en) 2001-09-12
US6754630B2 (en) 2004-06-22
KR20010087391A (ko) 2001-09-15
DE69924280T2 (de) 2006-03-30
WO2000030073A1 (en) 2000-05-25
HK1043856A1 (en) 2002-09-27

Similar Documents

Publication Publication Date Title
JP4927257B2 (ja) 可変レートスピーチ符号化
JP4824167B2 (ja) 周期的スピーチコーディング
JP4489959B2 (ja) 時間同期波形補間によるピッチプロトタイプ波形からの音声を合成するための音声合成方法および音声合成装置
KR100956623B1 (ko) 잔여분 변경에 의한 보코더 내부의 프레임들을 시간 와핑하는 시스템 및 방법
JP4270866B2 (ja) 非音声のスピーチの高性能の低ビット速度コード化方法および装置
US20010016817A1 (en) CELP-based to CELP-based vocoder packet translation
JP2011237809A (ja) フレームエラーに対する感度を低減する符号化体系パターンを使用する予測音声コーダ
WO1999046764A2 (en) Speech coding
JP2002530705A (ja) 音声の無声セグメントの低ビットレート符号化
EP2945158B1 (en) Method and arrangement for smoothing of stationary background noise
EP1181687B1 (en) Multipulse interpolative coding of transition speech frames
EP1204968B1 (en) Method and apparatus for subsampling phase spectrum information
JP2003524796A (ja) 音声コーダにおける線スペクトル情報量子化方法を交錯するための方法および装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090804

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20091104

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20091111

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100204

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100302

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100401

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130409

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140409

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees