JPH08328588A - ピッチラグを評価するためのシステム、音声符号化装置、ピッチラグを評価する方法、および音声符号化方法 - Google Patents

ピッチラグを評価するためのシステム、音声符号化装置、ピッチラグを評価する方法、および音声符号化方法

Info

Publication number
JPH08328588A
JPH08328588A JP8110964A JP11096496A JPH08328588A JP H08328588 A JPH08328588 A JP H08328588A JP 8110964 A JP8110964 A JP 8110964A JP 11096496 A JP11096496 A JP 11096496A JP H08328588 A JPH08328588 A JP H08328588A
Authority
JP
Japan
Prior art keywords
pitch
lag
pitch lag
samples
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8110964A
Other languages
English (en)
Inventor
Huan-Yu Su
フアン−ユー・スー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Boeing North American Inc
Original Assignee
Rockwell International Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rockwell International Corp filed Critical Rockwell International Corp
Publication of JPH08328588A publication Critical patent/JPH08328588A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0011Long term prediction filters, i.e. pitch estimation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【課題】 多分解能方式を用いて入力音声のピッチラグ
値を評価する装置および方法を提供する。 【解決手段】 このシステムは音声のLPC残留を決定
し、LPC残留をサンプリングするステップを含む。離
散フーリエ変換が適用され、結果が二乗される。DFT
が二乗された振幅に対して行なわれて、LPC残留サン
プルを別の域へ変換する。次に、初期のピッチラグが低
分解能で求められ得る。低分解能ピッチラグ評価を得た
後で、精密化アルゴリズムが適用されて高分解能ピッチ
ラグを得る。精密化アルゴリズムは時間域において予測
誤差を最小にすることに基づく。次に、精密化されたピ
ッチラグが音声符号化において直接用いられ得る。

Description

【発明の詳細な説明】
【0001】
【発明の背景】信号のモデル化およびパラメータ評価は
データ圧縮、復元、符号化において益々重要な役割を果
たす。基本的な和声音をモデル化するために、音声信号
は離散波形としてサンプリングされて、ディジタル的に
処理されなければならない。線形予測符号化(LPC)
と称されるあるタイプの信号符号化技術において、どの
特定の時間指標での信号値も前の値の線形関数としてモ
デル化される。したがって、後の信号はこれまでの値に
従って線形的に予測される。結果として、信号を表わす
ために、効率的な信号表現はある予測パラメータを評価
し、適用することによって決定できる。
【0002】ピッチ情報は符号化のための確かな音の指
標および表現であると認められている。ピッチは話者の
音声の基本的な特徴またはパラメータを記述する。人間
の音声は一般に容易には数学的に定量化できないので、
音声ピッチデータを効果的に評価できる音声評価モデル
が、より的確かつ正確に符号化され、かつ符合された音
声を提供する。しかしながら、あるCELP(たとえば
ベクトル和励起線形予測(VSELP)、マルチパル
ス、正規パルス、代数的CELPなど)およびMBEコ
ーダ/デコーダ(「コーデック」)のような現在の音声
の符号化モデルにおいて、ピッチ評価アルゴリズムの正
確さが高く、かつ複雑さが少ないことが必要となるため
に、ピッチ評価はしばしば困難である。
【0003】いくつかのピッチラグ評価機構が上述のコ
ーデック(時間域方式、周波数域方式、およびケプスト
ラム域方式)と関連して用いられる。ピッチラグと音声
再現との間に密接な関係があるために、ピッチラグ評価
の正確さが通話品質に直接的な影響を及ぼしている。C
ELPコーダでは、たとえば音声発生が予測(長期ピッ
チ予測および短期線形予測)に基づく。
【0004】図1は典型的なCELPコーダの音声再生
ブロック図を示す。LPC技術は、一般に少なくとも2
つの励起コードブック114を利用するCELP音声コ
ーダを含む音声符号化のために用いられ得る。コードブ
ック114の出力はLPC合成フィルタ11Oに入力を
与える。次に、LPC合成フィルタの出力は、複合され
た音声を生成するために付加的な後置フィルタによって
処理されるか、または後置フィルタを迂回して直接出力
され得る。
【0005】音声データを圧縮するためには、不可欠な
情報のみを抽出して冗長の伝送を回避することが望まし
い。音声は短いブロックに分類でき、ここで代表的なパ
ラメータがあらゆるブロックにおいて識別できる。図1
に示されるように、良質な音声を発生するために、CE
LP音声コーダは、LPCパラメータ110と、(ラグ
とそれに関連した係数とを含む)ピッチラグパラメータ
112と、利得パラメータ116を備える最適な新規コ
ードベクトル114とを符号化されるべき入力音声から
抽出しなければならない。コーダは適切な符号化機構を
実現することによってLPCパラメータを量子化する。
各パラメータの量子化の指標は、音声デコーダに記憶ま
たは伝送されるべき情報を含む。CELPコーデックで
は、ピッチ予測パラメータ(ピッチラグおよびピッチ係
数)の決定は時間域で行なわれるが、MBEコーデック
では、ピッチパラメータは周波数域で評価される。
【0006】LPC分析に続いて、CELPエンコーダ
は現在の音声の符号化フレーム(8kHzのサンプリン
グ周波数で通例約20−40msまたは160−320
サンプル)に適切なLPCフィルタ110を決定する。
LPCフィルタは次式によって表わされる。
【0007】
【数1】
【0008】ここで、npはLPC予測次数(通例約1
0)であり、y(n)はサンプリングされた音声データ
であり、nは時間指標を表わす。上のLPCの式は、過
去のサンプルの線形結合に従って現在のサンプルの評価
を記述する。それらの間の差分はLPC残留と称され
る。
【0009】
【数2】
【0010】CELP音声符号化モデルは、聴感補正さ
れた誤差信号のエネルギを元の信号と再合成信号との間
で最小にするパラメータの組を求めるステップを含む。
複雑さおよび遅延についての懸念に対処するために、各
音声符号化フレームは多数のサブフレームへ細分され
る。所望のピッチパラメータを抽出するために、次の重
み付き符号化誤差エネルギを最小にするピッチパラメー
タは各符号化サブフレームごとに計算されなければなら
ない。
【0011】
【数3】
【0012】ここで、Tは知覚的にフィルタ処理された
入力音声信号を表わす目標信号であり、HはフィルタW
(z)/A(z)のインパルス応答行列を表わす。P
Lag はピッチラグ「Lag」と所与のラグについて独自
に規定された予測係数βとを有するピッチ予測寄与であ
り、Ci はコードブックにおける指標iとその対応する
係数αとに関連したコードブック寄与である。さらに、
iは0とNc−1との間の値をとり、ここでNcは新規
コードブックのサイズである。
【0013】1タップピッチ予測子および1つの新規コ
ードブックを想定する。しかしながら、ピッチ予測子の
一般的な形は典型的に多タップ機構であり、新規コード
ブックの一般的な形は多レベルベクトル量子化であり、
これは多数の新規コードブックを利用する。特に、音声
の符号化において、1タップピッチ予測子は現在の音声
サンプルが1つの過去の音声サンプルによって予測でき
ることを示すが、多タップ予測子は現在の音声サンプル
が多数の過去の音声サンプルによって予測できることを
意味する。
【0014】複雑さについて懸念があるために、最適な
方式に準ずる方式が音声符号化機構において用いられて
きた。たとえば、2.5msから18.5msをカバー
するために、ピッチラグ評価は、L1 およびL2 サンプ
ルの間の起こり得るラグ値の範囲内だけのピッチ寄与を
まず評価する(コードブック寄与は無視する)ことによ
って行なわれ得る。したがって、評価されたピッチラグ
値は次式を最大にすることによって決定される。
【0015】
【数4】
【0016】この時間域方式は真のピッチラグを決定で
きるが、高いピッチ周波数を有する女性の音声には、式
(1)によって求められるピッチラグは真のラグではな
く、真のラグの倍数となり得る。この評価誤差を回避す
るために、不所望な複雑さと引き替えに評価誤差を訂正
(たとえば、ラグの平滑化)する付加的なプロセスが必
要である。
【0017】しかしながら、過度な複雑さは時間域方式
を用いる際の著しい欠点である。たとえば、整数のラグ
のみを用いてラグを決定するために、時間域方式は1秒
当り300万回の動作(3MOP)を少なくとも必要と
する。さらに、ピッチラグの平滑化と分数のピッチラグ
とが用いられるならば、複雑さは約4MOPであろう。
実際には、容認可能な正確さでフルレンジのピッチラグ
評価を実現するために、概算で1秒当り600万回のデ
ィジタル信号処理機械指令(6DSP MIP)が必要
とされる。したがって、ピッチ評価は4から6のDSP
MIPを必要とすると一般に認められている。ピッチ
評価の複雑さを減少できる方式は他にもあるが、そのよ
うな方式はしばしば品質を犠牲にする。
【0018】正弦コーダの類で重要な要素であるMBE
コーダでは、符号化パラメータは周波数域において抽出
され、量子化される。MBE音声モデルは図2から図4
に示される。図2および図3に記述されるMBE音声エ
ンコーダ/デコーダ(「ボコーダ」)では、基本周波数
(またはピッチラグ)210、有声/無声決定212、
およびスペクトルエンベローブ214は周波数域におい
て入力音声から抽出される。パラメータは次に、記憶ま
たは転送できるビットストリームへ量子化され、符号化
される。
【0019】MBEボコーダでは、良質な音声を達成す
るために、基本周波数が高い正確さで評価されなければ
ならない。基本周波数の評価は2段階で行なわれる。第
1に、初期のピッチラグが21サンプルから114サン
プルの範囲内で探索されて、周波数域において入力音声
216と合成された音声218との間で重み付き平均二
乗誤差式(図3)を最小にすることによって、8000
Hzのサンプリング速度で2.6msから14.25m
sをカバーする。元の音声と合成された音声との間の平
均二乗誤差は次式によって与えられる。
【0020】
【数5】
【0021】ここで、S(ω)は元の音声スペクトルで
あり、S^(ω)(^は大文字Sの上にあるとみなされ
る)は合成された音声スペクトルであり、G(ω)は周
波数依存重み付き関数である。図4に示されるように、
ピッチ追跡アルゴリズム410が、隣接するフレームの
ピッチ情報を用いることによって、初期のピッチラグ評
価412を更新するのに用いられる。
【0022】この方式を用いるのは、基本周波数が隣接
するフレームの間で不意には変化するはずはないという
仮定のためである。2つの過去の隣接するフレームと2
つの未来の隣接するフレームとのピッチ評価はピッチ追
跡のために用いられる。次に、(2つの過去のフレーム
および2つの未来のフレームを含む)平均二乗誤差が最
小にされて現在のフレームの新しいピッチラグ値を求め
る。初期のピッチラグを追跡した後で、ピッチラグ多重
検査機構414が多重ピッチラグを除去するために適用
されてピッチラグを平滑化する。
【0023】図4を参照すると、基本周波数評価の第2
段階で、ピッチラグ精密化416が用いられてピッチ評
価の正確さを高める。ピッチラグ候補値は初期のピッチ
ラグ評価に基づいて形成される(すなわち、新しいピッ
チラグ候補値は、初期のピッチラグ評価からある分数を
加算するか、または減算することによって形成され
る)。したがって、精密化されたピッチラグ評価418
は、平均二乗誤差関数を最小にすることによってピッチ
ラグ候補の中で決定できる。
【0024】しかしながら、周波数域ピッチ評価はある
欠点を有する。第1に、非常に複雑である。第2に、ピ
ッチラグは2.5msから14.25msしかカバーし
ない20サンプルから114サンプルの範囲内で探索さ
れて、256ポイントFFTに対処するように256サ
ンプルにウィンドウサイズを制限しなければならない。
しかしながら、非常に低いピッチ周波数の話者には、ま
たは14.25msを超えるピッチラグを有する音声に
は、256サンプルウィンドウ内で十分な数のサンプル
を集めるのが不可能である。さらに、音声フレームに対
して評価されるのは、平均されたピッチラグだけであ
る。
【0025】1967年にエイ.エム.ノル(A.M.
Noll)によって提案されたケプストラム域ピッチラ
グ評価(図5)を用いて、変形された方法が他に提案さ
れた。ケプストラム域ピッチラグ評価では、ほぼ37m
sの音声が510でサンプリングされるので、可能な最
大のピッチラグ(たとえば18.5ms)の少なくとも
2周期がカバーされる。次に、512ポイントFFTが
ウィンドウにより抜出された音声フレームに(ブロック
512で)適用されて周波数スペクトルを得る。周波数
スペクトルの振幅の対数514を取って、512ポイン
ト逆FFT516がケプストラムを得るために適用され
る。重み付き関数518はケプストラムに適用され、ケ
プストラムのピークはピッチラグを決定するために52
0で検出される。次に、追跡アルゴリズム522が実現
されていかなるピッチ倍数をも除去する。
【0026】しかしながら、ケプストラムピッチ検出方
法にはいくかの欠点が見受けられる。たとえば、計算上
の要求が高い。8kHzのサンプリング速度で20サン
プルから147サンプルの間のピッチ範囲をカバーする
ために、512ポイントFFTは二度行なわれなければ
ならない。ケプストラムピッチ評価が平均されたピッチ
ラグの評価のみを分析フレームに対して提供するので、
評価の正確さが不十分である。しかしながら、低ビット
転送速度音声符号化については、ピッチラグ値が短い期
間にわたって評価されることが重要である。結果とし
て、ケプストラムピッチ評価が質のよい低ビット転送速
度音声符号化について用いられるのは非常に稀である。
したがって、上述された方式の各々に制限があるため
に、効率的なピッチラグ評価のための手段には、質のよ
い低ビット転送速度音声符号化の必要を満たすことが所
望される。
【0027】
【発明の概要】したがって、この発明の目的は、複雑さ
が最小であって正確さが高いことを必要とする、音声符
号化のための多分解能分析を組入れた強固なピッチラグ
評価システムを提供することである。特定的な実施例で
は、この発明は、CELP技術ならびに他のさまざまな
音声符号化および認識システムを用いた音声符号化装置
および方法を対象とする。
【0028】これらの目的および他の目的は、この発明
の実施例に従って、真のピッチラグの正確な抽出を早く
かつ効率的に可能にするピッチラグ評価機構によって達
成され、したがって音声をうまく再現および再生する。
ピッチラグは所与の音声フレームについて抽出され、次
に各サブフレームごとに精密化される。N個のサンプル
の音声を有する各音声フレームごとに、LPC分析が行
なわれる。LPC残留信号が得られた後に、離散フーリ
エ変換(DFT)がLPC残留に適用され、結果として
生じる振幅が二乗される。第2のDFTが次に行なわれ
る。したがって、フレーム内の音声サンプルに対する正
確な初期のピッチラグは、ピッチ探索によって、8kH
zのサンプリング速度で20サンプルの可能な最小値と
147サンプルの最大ラグ値との間に決定できる。初期
のピッチラグ評価を得た後に、時間域精密化が各サブフ
レームごとに行なわれて、さらに評価の正確さを向上す
る。
【0029】
【好ましい実施例の詳細な説明】この発明の好ましい実
施例に従ったピッチラグ評価機構が、一般に図6、7、
8および9において示される。この発明の実施例に従う
と、ピッチラグ評価は元の音声自体ではなくLPC残留
で行なわれる。第1に、N個の音声サンプル{x
(n),n=0,…,N−1}が集められ(図6のステ
ップ602)、逆LPCフィルタ処理がLPC残留信号
を得るために行なわれる。Nの値は最大許容ピッチラグ
に従って決定され、ここで少なくとも2つの最大ピッチ
ラグがピッチ高調波を持つ音声スペクトルを発生するた
めに一般に必要とされる。たとえば、Nは150サンプ
ルの最大ピッチラグに対処するために320サンプルと
等しくてもよい。したがって、Nは可能な最大のピッチ
ラグの2倍よりも大きくなくてはならず、{r(n),
n=0,1,…,N−1}はLPC残留信号を表わす。
さらに、好ましい実施例では、N個のサンプルをカバー
するハミングウィンドウ604または他のウィンドウが
実現される。
【0030】
【数6】
【0031】この発明の実施例に従うと、関数G(f)
ではなくG(f)の対数が式(4)において用いられる
従来のケプストラム変換とC(n)とが異なると認識さ
れるであろう。別のDFTではなく逆DFTが次にG
(f)に適用される。この違いは一般に複雑さのためで
ある。除去されなければ実質的により多くの計算資源を
必要とする対数関数を除去することによって、複雑さを
減少することが望ましい。さらに、ケプストラムまたは
C(n)関数を用いたピッチラグ評価機構を比較する
と、音声の無声または遷移区間に対してのみ異なった結
果が得られている。たとえば、無声または遷移音声に対
して、ピッチの定義が不明確である。遷移音声にはピッ
チがないといわれてきたが、誤差を最小にするために何
らかの予測を常に示すことができるともいわれる。
【0032】したがって、一旦C(n)が決定されると
(ステップ610)、所与の音声フレームに対するピッ
チラグは次式を解くことによってステップ614で求め
られ得る。
【0033】
【数7】
【0034】ここで、arg[・]は内部最適化関数を
満たす変数nを決定し、L1 およびL 2 は可能な最小の
ピッチラグおよび可能な最大のピッチラグとしてそれぞ
れ規定される。音声符号化の便宜上、L2 とL1 との間
の差は2進数表現のために2の累乗であることが望まし
い。好ましい実施例では、L1 およびL2 は20および
147の値をそれぞれ取って典型的な人間の音声のピッ
チラグ範囲の2.5msから18.375msをカバー
し、ここでL1 とL2 との間の隔たりは2の累乗であ
る。W(i)は重み付き関数であり、2M+1はウィン
ドウサイズを表わす。好ましくは、{W(i)=1,i
=0,1,…,2M}であり、M=1である。
【0035】結果として生じるピッチラグは平均された
値であるが、これは信頼でき、かつ正確であるとわかっ
ている。平均化から生じる効果は相対的に大きい分析ウ
ィンドウサイズによるものであり、147サンプルの最
大許容ラグに対して、ウィンドウサイズはラグ値の少な
くとも2倍であるべきである。しかしながら、不所望な
ことに、典型的に小さいピッチラグを示す女性の話者の
ようなある音声からの信号は、このような大きいウィン
ドウでは4ピッチ周期から10ピッチ周期を含み得る。
ピッチラグに変化があれば、提案されたピッチラグ評価
は平均されたピチラグしか生成しない。結果として、こ
のような平均されたピッチラグを音声符号化において用
いることで、音声評価および再生に大きな劣化が生じ得
る。
【0036】ピッチ情報が音声において相対的に早く変
化するために、CELPモデルに基づいたほとんどの音
声符号化システムはサブフレームごとに一度ピッチラグ
を評価し、伝送する。こうして、典型的には2msから
10msの長さ(16から80サンプル)であるいくつ
かの音声サブフレームへ1つの音声フレームが分割され
るCELP型音声符号化において、ピッチラグ情報は各
サブフレームで更新される。したがって、正確なピッチ
ラグ値はサブフレームのためにのみ必要とされる。しか
しながら、上の機構に従って評価されたピッチラグは、
平均化から生じる影響のために、正確に音声を符号化す
るのに十分な正確さを有さない。各サブフレームごとに
ピッチラグを精密化する1つの方法は、評価されたラグ
を基準として用い、従来のCELP合成分析のような時
間域ラグ探索を行なうことである。評価されたラグ値を
中心とする、縮小した探索範囲(±5サンプルが十分だ
とわかっている)が実現できるであろう。この発明の特
定的な実施例では、評価の正確さを向上するために、初
期のピッチラグ評価に基づいた精密化された探索が時間
域において行なわれ得る(ステップ618)。簡単な自
己相関方法が、平均されたLag値の周囲で特定の符号
化周期またはサブフレームに対して行なわれる。
【0037】
【数8】
【0038】ここで、arg[・]は内部最適化関数を
満たす変数nを決定し、kはサブフレームの第1のサン
プルを示し、lは精密化ウィンドウサイズを表わし、m
は探索範囲である。正確なピッチラグ値を決定するため
に、精密化ウィンドウサイズは少なくとも1ピッチ周期
であるべきである。しかしながら、ウィンドウは平均化
の影響を避けるためにあまりに大きすぎてはならない。
たとえば、好ましくはl=Lag+10、およびm=5
である。こうして、式(6)の時間域精密化に従って、
より正確なピッチラグが評価でき、サブフレームの符号
化に適用できる。
【0039】動作において、高速フーリエ変換(FF
T)が一般的なDFTよりも計算上効率的である場合も
あるが、FFTを用いる際の欠点はウィンドウサイズが
2の累乗でなければならないことである。たとえば、1
47サンプルの最大のピッチラグは2の累乗ではないこ
とが示されている。最大のピッチラグを含むためには、
512サンプルのウィンドウサイズが必要である。しか
しながら、このために、上述の平均化から生じる影響の
ために女性の音声に対するピッチラグ評価の質が悪くな
り、多量の計算が必要となる。256サンプルのウィン
ドウサイズが用いられるならば、平均化から生じる影響
は減少し、複雑さは少なくなる。しかしながら、このよ
うなウィンドウを用いると、音声中の128サンプルよ
りも大きいピッチラグには対処できない。
【0040】これらの問題のいくつかを克服するため
に、この発明の代替的な好ましい実施例は256ポイン
トFFTを利用して複雑さを減少し、変更された信号を
用いてピッチラグを評価する。信号を変更するのはダウ
ンサンプリングプロセスである。図7および図8を参照
すると、N個のLPC残留サンプル{x(n),n=
0,1,…,N−1}が集められ(ステップ702)、
Nは最大のピッチラグの2倍よりも大きい。次に、N個
のサンプルが次式に従って、線形補間を用いて256個
の新しい分析サンプルへダウンサンプリングされる(ス
テップ704)。
【0041】
【数9】
【0042】ここで、λ=N/256であり、角括弧内
の値すなわち[i・λ]はi・λ以下の最大の整数値を
示す。次に、ハミングウィンドウまたは他のウィンドウ
が補間されたデータにステップ705で適用される。
【0043】ステップ706では、ピッチラグ評価は2
56ポイントFFTを用いてy(i)に対して行なわれ
て、振幅Y(f)を発生する。次に、ステップ708、
709、および710が図6に関して記述されたのと同
様に実行される。しかしながら、さらに、G(f)はフ
ィルタ処理されて(ステップ709)、ピッチ検出のた
めに有用ではない、G(f)の高周波成分を減少する。
一旦y(i)のラグすなわちLagy が式(5)に従っ
て求められれば(ステップ714)、これはステップ7
16で再補正されてピッチラグ評価を決定する。
【0044】
【数10】
【0045】要約すると、図9に示されるように、符号
化フレームに対する初期のピッチ評価を求める上の手順
は以下のとおりである。
【0046】(1) 標準40msの符号化フレームを
ピッチサブフレーム802および804へ細分する。各
ピッチサブフレームはほぼ20msの長さである。
【0047】(2) ピッチ分析ウィンドウ806が最
後のサブフレームの中心に位置決めされるようにN=3
20個のLPC残留サンプルを取り、そのサブフレーム
に対するラグを提案されたアルゴリズムを用いて求め
る。
【0048】(3) ピッチサブフレームに対する初期
のピッチラグ値を決定する。次に、時間域精密化が元の
音声サンプルに対してステップ718で行なわれる。上
述のように、合成分析方法を重み付き音声サンプルに用
いる精密化もまた用いられ得る。したがって、この発明
の実施例では、複雑さを減少しながらも高度な正確さを
維持してピッチラグ値が正確に評価できる。この発明の
FFT実施例を用いると、120よりも大きいピッチラ
グ値を扱うのは困難でない。第1に、図9に示されるよ
うに、たとえば40msの符号化フレーム810がサブ
フレーム808へ分割される。初期のピッチラグ評価l
ag1 およびlag2 は、現在の符号化フレームにおけ
る各ピッチサブフレーム802および804の最後の符
号化サブフレーム808に対するラグ評価である。la
0 は前の符号化フレームにおける第2のピッチサブフ
レームの精密化されたラグ評価である。lag1、la
2 、およびlag0 の間の関係は図9に示される。
【0049】符号化フレームのピッチラグはlag1
lag2 、およびlag0 を線形的に補間することによ
って評価される。符号化サブフレームのピッチラグ評価
の正確さは、各符号化サブフレームの補間されたピッチ
ラグを精密化することによって向上する。{lag
I (i),i=0,1,…,7}が精密化された初期の
ピッチ評価lag1 、lag2 、およびlag0 に基づ
いて符号化サブフレームの補間されたピッチラグを表わ
すならば、lagI (i)は次式によって決定される。
【0050】
【数11】
【0051】線形補間によって与えられるピッチラグ評
価の正確さが十分ではないので、さらなる改良が必要と
されるだろう。所与のピッチラグ評価{lag
I (i),i=0,1,…,7}に対して、各lagI
(i)は次式によってさらに精密化される(ステップ7
22)。
【0052】
【数12】
【0053】ここで、Ni はピッチラグ(i)に対する
符号化サブフレームにおける開始サンプルの指標であ
る。例では、Mは3と選択され、Lは40と等しい。
【0054】別の形の精密化では、合成分析方法が各サ
ブフレームに対する補間されたラグ値についての減少し
たラグ探索と組合される。音声符号化フレームが十分に
短ければ(たとえば20ms未満)、さらなる補間が不
必要となるように、ピッチ評価ウィンドウは符号化フレ
ームのほぼ中心に置かれ得る。
【0055】ピッチラグの線形補間は音声の無声区間に
おいて重要である。どの分析方法によって求められるピ
ッチラグも、無声音声に任意に配分される傾向を有す
る。しかしながら、相対的に大きいピッチサブフレーム
サイズのために、各サブフレームに対するラグが(上の
手順(2)で求められる)初期に決定されたサブフレー
ムラグにあまりにも近い場合、元々は音声にはなかった
不所望な人工の周期性が加わる。さらに、線形補間は質
の悪い無声音声に関連した問題を簡単に解決する。さら
に、サブフレームのラグは任意である傾向を有するの
で、各サブフレームに対するラグもまた一旦補間される
と非常に任意に配分され、このことが音声の品質を保証
する。
【0056】したがって、ピッチラグを評価するために
LPC残留を用いることが有利であろう。図10は複数
の音声サンプルの分布を表わす。音声信号の、結果とし
て生じるパワー・スペクトルは図11に示され、音声の
振幅の二乗は図12にグラフで表わされる。図に示され
るように、図11に示されるピッチ高調波は図12に反
映されない。LPC利得のために、不所望な5−20d
Bの差が音声信号のピッチの微細構造と各フォルマント
との間に存在し得る。したがって、図12のフォルマン
トはピッチ構造を正確には表さないが、なお一定の基本
周波数をピーク構造で示すようであり、誤差はピッチラ
グの評価において生じ得る。
【0057】音声信号スペクトルと比較して、元の音声
サンプルのLPC残留は振幅の二乗をより正確に表わす
(図15)。図13および図14に示されるように、L
PC残留とLPC残留サンプルの振幅の二乗の対数とは
ピークおよび周期において類似した特性をそれぞれ示
す。しかしながら、図15において、LPC残留サンプ
ルの振幅の二乗のグラフは元の音声信号よりも、優れた
解像度とよりよい周期性とを示すことがわかる。
【図面の簡単な説明】
【図1】CELP音声モデルのブロック図である。
【図2】MBE音声モデルのブロック図である。
【図3】MBEエンコーダのブロック図である。
【図4】MBEボコーダにおけるピッチラグ評価のブロ
ック図である。
【図5】ケプストラムに基づいたピッチラグ検出機構の
ブロック図である。
【図6】この発明の実施例に従ったピッチラグ評価の動
作上のフロー図である。
【図7】この発明の別の実施例に従ったピッチラグ評価
のフロー図である。
【図8】この発明の別の実施例に従ったピッチラグ評価
のフロー図である。
【図9】図6の実施例に従った音声符号化の図である。
【図10】音声信号をグラフによって表わした図であ
る。
【図11】音声信号をグラフによって表わした図であ
る。
【図12】音声信号をグラフによって表わした図であ
る。
【図13】この発明に実施例に従うLPC残留信号をグ
ラフによって表わした図である。
【図14】この発明に実施例に従うLPC残留信号をグ
ラフによって表わした図である。
【図15】この発明に実施例に従うLPC残留信号をグ
ラフによって表わした図である。
【符号の説明】
802 ピッチサブフレーム 804 ピッチサブフレーム 806 ピッチ分析ウィンドウ 808 サブフレーム

Claims (49)

    【特許請求の範囲】
  1. 【請求項1】 音声量子化および圧縮のためにピッチラ
    グを評価するためのシステムであって、前記音声は複数
    の線形予測符号化(LPC)残留サンプルによって規定
    されるLPC残留信号を有し、現在のLPC残留サンプ
    ルの評価は過去のサンプルの線形結合に従う時間域で決
    定され、前記システムは、 第1の離散フリーリエ変換(DFT)を複数のLPC残
    留サンプルに適用するための手段を含み、前記第1のD
    FTは関連した振幅を有し、さらに、 前記第1のDFTの振幅を二乗するための手段と、 第2のDFTを二乗された振幅に対して適用するための
    手段とを含み、前記第2のDFTは関連した時間域変換
    されたサンプルを有し、さらに、 前記時間域変換されたサンプルに従って初期のピッチラ
    グ値を決定するための手段を含む、システム。
  2. 【請求項2】 前記初期のピッチラグ値は関連した予測
    誤差を有し、前記システムは前記初期のピッチラグ値を
    精密化するための手段をさらに含み、前記関連した予測
    誤差は最小にされる、請求項1に記載のシステム。
  3. 【請求項3】 前記第1のDFTの振幅の高周波成分を
    フィルタ処理して取り除くための低域フィルタをさらに
    含む、請求項1に記載のシステム。
  4. 【請求項4】 前記複数のLPC残留サンプルを現在の
    符号化フレームへ分類するための手段と、 前記符号化フレームを多数のピッチサブフレームへ分割
    するための手段と、 前記ピッチサブフレームを多数の符号化サブフレームへ
    細分するための手段と、 前記現在の符号化フレームにおける各ピッチサブフレー
    ムの最後の符号化サブフレームに対するラグ評価をそれ
    ぞれ表わす初期のピッチラグ評価lag1 およびlag
    2 を評価するための手段と、 前の符号化フレームの最後の符号化サブフレームに対す
    る最後の評価を表わすピッチラグ評価lag0 を評価す
    るための手段と、 前記ピッチラグ評価lag0 を精密化するための手段
    と、 lag1 、lag2 、およびlag0 を線形的に補間し
    て、前記符号化サブフレームのピッチラグ値を評価する
    ための手段と、 各符号化サブフレームの線形補間されたピッチラグをさ
    らに精密化するための手段とをさらに含む、請求項1に
    記載のシステム。
  5. 【請求項5】 少数のサンプルで概略的に表わすため
    に、音声サンプルをダウンサンプリング値にダウンサン
    プリングするための手段をさらに含む、請求項1に記載
    のシステム。
  6. 【請求項6】 前記初期のピッチラグ値は式(Lag
    scaled=LPC残留サンプルの数/ダウンサンプリング
    値*評価されたピッチラグ)に従って補正される、請求
    項5に記載のシステム。
  7. 【請求項7】 前記初期のピッチラグ値を精密化するた
    めの手段は自己相関を含む、請求項1に記載のシステ
    ム。
  8. 【請求項8】 入力音声を受けるための音声入力手段
    と、 前記入力音声のLPC残留信号を決定するための手段
    と、 前記初期のピッチラグ値を処理して、前記LPC残留信
    号を符号化された音声として再現するためのコンピュー
    タと、 前記符号化された音声を出力するための音声出力手段と
    をさらに含む、請求項1に記載のシステム。
  9. 【請求項9】 コンピュータで動作可能な、入力音声量
    子化および圧縮のためにピッチラグを評価するためのシ
    ステムであって、音声は複数の線形予測符号化(LP
    C)残留サンプルによって規定されるLPC残留信号を
    有し、評価されたピッチラグは予め定められた最小およ
    び最大のピッチラグ値の範囲に入り、前記システムは、 前記LPC残留サンプルの中からピッチ分析ウィンドウ
    を選択するための手段を含み、前記ピッチ分析ウィンド
    ウは前記最大のピッチラグ値よりも少なくとも2倍大き
    く、さらに、 第1の離散フーリエ変換(DFT)をウィンドウで抜出
    された複数のLPC残留サンプルに適用するための手段
    を含み、前記第1のDFTは関連した振幅を有し、さら
    に、 第2のDFTを、関連した時間域変換されたサンプルを
    有する前記第2のDFTの振幅に対して適用するための
    手段と、 重み付き平均を前記時間域変換されたサンプルに適用す
    るための手段とを含み、少なくとも2つのサンプルが結
    合されて単一のサンプルを生成し、さらに、 前記時間域変換された音声サンプルを探索して、最大の
    ピーク値を有する少なくとも1つのサンプルを求めるた
    めの手段と、 前記最大のピーク値を有するサンプルに従って初期のピ
    ッチラグ値を評価するための手段とを含む、システム。
  10. 【請求項10】 同次変換を前記第1のDFTの振幅に
    適用するための手段をさらに含む、請求項9に記載のシ
    ステム。
  11. 【請求項11】 前記第1のDFTの振幅は二乗され
    る、請求項9に記載のシステム。
  12. 【請求項12】 前記第1のDFTの振幅の高周波成分
    をフィルタ処理するための低域フィルタをさらに含む、
    請求項9に記載のシステム。
  13. 【請求項13】 前記第1のDFTの振幅の対数が用い
    られる、請求項9に記載のシステム。
  14. 【請求項14】 前記第1のDFTを適用する前に、ハ
    ミングウィンドウを前記LPC残留サンプルに適用する
    ための手段をさらに含む、請求項9に記載のシステム。
  15. 【請求項15】 3つの時間域変換されたサンプルが結
    合される、請求項9に記載のシステム。
  16. 【請求項16】 奇数個の時間域変換されたサンプルが
    結合される、請求項9に記載のシステム。
  17. 【請求項17】 前記複数のLPC残留サンプルを現在
    の符号化フレームへ分類するための手段と、 初期のピッチラグ値を前記ピッチ分析ウィンドウに対し
    て評価するための手段とをさらに含み、前記評価された
    ピッチラグは前記現在の符号化フレームのピッチラグ値
    である、請求項9に記載のシステム。
  18. 【請求項18】 前記現在の符号化フレームのピッチラ
    グ評価を線形的に補間して、補間されたピッチラグ値を
    与えるための手段と、 各符号化フレームの前記補間されたピッチラグ値を精密
    化するための手段とをさらに含み、ピーク探索は初期に
    評価されたピッチラグ値の±5サンプルの探索範囲内で
    行なわれる、請求項9に記載のシステム。
  19. 【請求項19】 少数のサンプルで概略的に表わすため
    に音声サンプルをダウンサンプリング値にダウンサンプ
    リングするための手段をさらに含み、前記初期のピッチ
    ラグ値は式(Lagscaled=LPC残留サンプルの数/
    ダウンサンプリング値*評価された初期のピッチラグ)
    に従って補正される、請求項9に記載のシステム。
  20. 【請求項20】 前記入力音声を受けるための音声入力
    手段と、 前記入力音声の前記LPC残留信号を決定するための手
    段と、 前記初期のピッチラグ値を処理して、LPC励起信号を
    符号化された音声として表わすためのプロセッサと、 前記符号化された音声を出力するための音声出力手段と
    をさらに含む、請求項9に記載のシステム。
  21. 【請求項21】 入力音声を再現し、かつ符号化するた
    めの音声符号化装置であって、前記音声符号化装置は、
    前記入力音声の復号された線形予測符号化(LPC)残
    留を規定するLPC励起信号と、LPCパラメータと、
    音声再現を励起して音声を発生するのに参照される複数
    のベクトルを表わす新規コードブックとで動作可能であ
    り、前記音声符号化装置は、 前記LPC残留を処理するためのコンピュータを含み、
    前記コンピュータは、 前記LPC残留内で現在の符号化フレームを分離するた
    めの手段と、 前記符号化フレームを複数のピッチサブフレームへ分割
    するための手段と、 N個のLPC残留サンプルを有するピッチ分析ウィンド
    ウを規定するための手段とを含み、前記ピッチ分析ウィ
    ンドウは前記ピッチサブフレームに対して延び、さら
    に、 各ピッチサブフレームに対する初期のピッチラグ値を評
    価するための手段と、 各ピッチサブフレームを多数の符号化サブフレームへ分
    割するための手段とを含み、各ピッチサブフレームに対
    する初期のピッチラグ評価は、現在の符号化フレームに
    おける各ピッチサブフレームの最後の符号化サブフレー
    ムに対するラグ評価を表わし、さらに、 評価されたピッチラグ値を前記ピッチサブフレーム間で
    線形的に補間して、各符号化サブフレームに対するピッ
    チラグ評価を決定するための手段と、 各符号化サブフレームの線形的に補間されたラグ値を精
    密化するための手段とを含み、前記音声符号化装置はさ
    らに、 精密化されたピッチラグ値に従って再現される音声を出
    力するための音声出力手段を含む、音声符号化装置。
  22. 【請求項22】 前記DFTは関連した長さを有し、前
    記コンピュータは、 少数のサンプルで表わすためにN個のLPC残留サンプ
    ルをダウンサンプリングするための手段と、 補正されたラグ値がLagscaled=N/X*評価された
    ピッチラグ値であるように、前記ピッチラグ値を補正す
    るための手段とをさらに含み、 Xは前記DFTの前記長さに従って決定される、請求項
    21に記載の装置。
  23. 【請求項23】 各符号化フレームはほぼ40msの長
    さを有する、請求項21に記載の装置。
  24. 【請求項24】 前記第1のDFTの振幅の高周波成分
    をフィルタ処理するための低域フィルタをさらに含む、
    請求項21に記載の装置。
  25. 【請求項25】 入力音声を復元し、かつ符号化するた
    めの音声符号化装置であって、前記入力音声は逆線形予
    測符号化(LPC)フィルタによってフィルタ処理され
    て前記入力音声のLPC残留を得、前記音声符号化装置
    は、 前記LPC残留を処理し、前記LPC残留の初期のピッ
    チラグを評価するためのコンピュータを含み、かつ前記
    ピッチラグは最小のピッチラグ値と最大のピッチラグ値
    との間にあり、前記コンピュータは、 N個のLPC残留サンプルを有する現在のピッチ分析ウ
    ィンドウを決定するための手段を含み、Nは前記最大の
    ピッチラグ値の少なくとも2倍であり、さらに、 前記現在のピッチ分析ウィンドウにおいて第1の離散フ
    ーリエ変換(DFT)を前記LPC残留サンプルに適用
    するための手段を含み、前記第1のDFTは関連した振
    幅を有し、さらに、 第2のDFTを前記第1のDFTの振幅に対して適用し
    て、時間域変換されたサンプルを生成するための手段
    と、 重み付き平均を前記時間域変換されたサンプルに適用す
    るための手段とを含み、少なくとも2つのサンプルが結
    合されて単一のサンプルを生成し、さらに、 平均された、時間域変換されたサンプルを探索して少な
    くとも1つのピークを求めるための手段を含み、最高の
    ピークの位置は前記現在のピッチ分析ウィンドウにおい
    て評価されたピッチラグを表わし、前記音声符号化装置
    はさらに、 前記評価されたピッチラグの値に従って再現される音声
    を出力するための音声出力手段を含む、音声符号化装
    置。
  26. 【請求項26】 前記第1のDFTの振幅の高周波成分
    をフィルタ処理するための低域フィルタをさらに含む、
    請求項25に記載の装置。
  27. 【請求項27】 関連したピッチラグ値を有する前のピ
    ッチ分析ウィンドウを規定するための手段と、 前記現在のピッチ分析ウィンドウと前記前のピッチ分析
    ウィンドウとのラグ値を線形的に補間して、複数の補間
    されたピッチラグ値を生成するための手段と、 複数の補間されたラグ値を精密化するための手段とをさ
    らに含む、請求項25に記載の装置。
  28. 【請求項28】 前記複数の補間されたラグ値は合成分
    析に従って精密化され、縮小した探索は前記複数の補間
    されたピッチラグ値の各々の±5サンプル内で行なわれ
    る、請求項27に記載の装置。
  29. 【請求項29】 前記評価されたピッチラグ値を合成分
    析に従って精密化するための手段をさらに含み、縮小し
    た探索は前記評価されたピッチラグ値の±5サンプル内
    で行なわれる、請求項25に記載の装置。
  30. 【請求項30】 同次変換を前記第1のDFTの振幅に
    適用するための手段をさらに含む、請求項25に記載の
    装置。
  31. 【請求項31】 前記第1のDFTの振幅は二乗され
    る、請求項30に記載の装置。
  32. 【請求項32】 前記第1のDFTの振幅の対数が用い
    られる、請求項30に記載の装置。
  33. 【請求項33】 前記DFTは関連した長さを有する高
    速フーリエ変換(FFT)であり、前記コンピュータ
    は、 少数のサンプル(X)で表わすためにN個のLPC残留
    サンプルをダウンサンプリングするための手段と、 補正されたラグ値がLagscaled=N/X*評価された
    ピッチラグ値であるように、前記ピッチラグ値を補正す
    るための手段とをさらに含み、 Xは前記FFTの長さに従って決定される、請求項25
    に記載の装置。
  34. 【請求項34】 音声量子化および圧縮のためにピッチ
    ラグを評価する方法であって、前記音声は複数の線形予
    測符号化(LPC)残留サンプルによって規定されるL
    PC残留によって表わされ、現在のLPC残留サンプル
    の評価は過去のサンプルの線形結合に従う時間域で決定
    され、前記方法は、 第1の離散フーリエ変換(DFT)を前記LPC残留サ
    ンプルに適用するステップを含み、前記第1のDFTは
    関連した振幅を有し、さらに、 前記第1のDFTの振幅を二乗するステップと、 第2のDFTを前記第1のDFTの二乗された振幅に対
    して適用して、時間域変換されたLPC残留サンプルを
    生成するステップと、 前記時間域変換されたLPC残留サンプルに従って初期
    のピッチラグ値を決定するステップとを含み、前記初期
    のピッチラグ値は関連した予測誤差を有し、さらに、 前記初期のピッチラグ値を自己相関を用いて精密化する
    ステップを含み、前記関連した予測誤差は最小にされ、
    さらに、 精密化されたピッチラグ値に従って前記LPC残留サン
    プルを符号化するステップを含む、方法。
  35. 【請求項35】 前記第1のDFTの振幅の高周波成分
    をフィルタ処理するための低域フィルタをさらに含む、
    請求項34に記載の方法。
  36. 【請求項36】 複数のLPCサンプルを現在の符号化
    フレームへ分類するステップと、 前記符号化フレームを多数のピッチサブフレームへ分割
    するステップと、 前記ピッチサブフレームを多数の符号化サブフレームへ
    細分するステップと、 前記現在の符号化フレームにおける各ピッチサブフレー
    ムの最後の符号化サブフレームに対するラグ評価をそれ
    ぞれ表わす初期のピッチラグ評価lag1 およびlag
    2 を評価するステップと、 前の符号化フレームの最後の符号化サブフレームからピ
    ッチラグlag0 を評価するステップと、 ピッチラグ評価lag0 を精密化するステップと、 lag1 、lag2 、およびlag0 を線形的に補間し
    て、前記符号化サブフレームのピッチラグ値を評価する
    ステップと、 各符号化サブフレームの補間されたピッチラグをさらに
    精密化するステップとをさらに含む、請求項34に記載
    の方法。
  37. 【請求項37】 少数のサンプルで概略的に表わすため
    に、前記LPC残留サンプルをダウンサンプリング値に
    ダウンサンプリングするステップをさらに含む、請求項
    34に記載の方法。
  38. 【請求項38】 式(Lagscaled=LPC残留サンプ
    ルの数/ダウンサンプリング値*評価されたピッチラグ
    値)に従って前記初期のピッチラグ値を補正するステッ
    プをさらに含む、請求項34に記載の方法。
  39. 【請求項39】 前記LPC残留サンプルを受けるステ
    ップと、 前記精密化されたピッチラグ値を処理して、入力音声を
    符号化された音声として再現するステップと、 前記符号化された音声を出力するステップとをさらに含
    む、請求項34に記載の方法。
  40. 【請求項40】 入力音声を再現し、かつ符号化するた
    めの、コンピュータシステムで動作可能な音声符号化方
    法であって、音声は前記入力音声の復号された線形予測
    符号化(LPC)残留を規定するLPC励起信号によっ
    て表わされ、前記方法は、 前記音声を逆線形予測符号化(LPC)フィルタによっ
    てフィルタ処理して、前記入力音声の前記LPC残留を
    得るステップと、 前記LPC残留を処理し、かつ前記LPC残留の初期の
    ピッチラグを評価するステップとを含み、前記ピッチラ
    グは最小のピッチラグ値と最大のピッチラグ値との間に
    あり、さらに、 N個のLPC残留サンプルを有する現在のピッチ分析ウ
    ィンドウを規定するステップを含み、Nは前記最大のピ
    ッチラグ値の少なくとも2倍であり、さらに、 前記現在のピッチ分析ウィンドウにおいて第1の離散フ
    ーリエ変換(DFT)を前記LPC残留サンプルに適用
    するステップを含み、前記第1のDFTは関連した振幅
    を有し、さらに、 第2のDFTを前記第1のDFTの振幅に対して適用し
    て、時間域変換されたサンプルを生成するステップと、 重み付き平均を前記時間域変換されたサンプルに適用す
    るステップとを含み、少なくとも2つのサンプルが結合
    されて単一のサンプルを生成し、さらに、 平均された、時間域変換されたサンプルを探索して少な
    くとも1つのピークを求めるステップを含み、最高のピ
    ークの位置は前記現在のピッチ分析ウィンドウにおいて
    評価されたピッチラグを表わし、さらに、 前記評価されたピッチラグの値に従って再現される音声
    を出力するステップを含む、音声符号化方法。
  41. 【請求項41】 低域フィルタを用いて、前記第1のD
    FTの振幅の高周波成分をフィルタ処理するステップを
    さらに含む、請求項40に記載のシステム。
  42. 【請求項42】 関連したピッチラグ値を有する前のピ
    ッチ分析ウィンドウを規定するステップと、 前記現在のピッチ分析ウィンドウと前記前のピッチ分析
    ウィンドウとのラグ値を線形的に補間して、複数の補間
    されたピッチラグ値を生成するステップと、 複数の補間されたラグ値を精密化するステップとをさら
    に含む、請求項40に記載の方法。
  43. 【請求項43】 前記複数の補間されたラグ値は合成分
    析に従って精密化され、縮小した探索は前記複数の補間
    されたピッチラグ値の各々の±5サンプル内で行なわれ
    る、請求項42に記載の方法。
  44. 【請求項44】 前記評価されたピッチラグ値を合成分
    析に従って精密化するステップをさらに含み、縮小した
    探索は前記評価されたピッチラグ値の±5サンプル内で
    行なわれる、請求項40に記載の方法。
  45. 【請求項45】 同次変換を前記第1のDFTの振幅に
    適用するステップをさらに含む、請求項40に記載の方
    法。
  46. 【請求項46】 前記第1のDFTの振幅は二乗され
    る、請求項40に記載の方法。
  47. 【請求項47】 前記DFTは関連した長さを有する高
    速フーリエ変換(FFT)であり、 少数のサンプルXで表わすためにN個のLPC残留サン
    プルをダウンサンプリングするステップと、 補正されたラグ値がLagscaled=N/X*評価された
    ピッチラグ値であるように、前記ピッチラグ値を補正す
    るステップとをさらに含み、 Xは前記FFTの長さに従って決定される、請求項40
    に記載の方法。
  48. 【請求項48】 入力音声を再現し、かつ符号化するた
    めの音声符号化方法であって、音声符号化装置は、前記
    入力音声の復号された線形予測符号化(LPC)残留を
    規定するLPC励起信号と、LPCパラメータと、音声
    再現を励起して音声を発生するのに参照される複数のベ
    クトルを形成する擬似ランダム信号を表わす新規コード
    ブックとで動作可能であり、前記音声符号化方法は、 前記入力音声を受け、かつ処理するステップと、 前記入力音声を処理するステップとを含み、前記処理す
    るステップは、 前記入力音声の前記LPC残留を決定するステップと、 前記LPC残留内で符号化フレームを決定するステップ
    と、 前記符号化フレームを複数のピッチサブフレームへ細分
    するステップと、 N個のLPC残留サンプルを有するピッチ分析ウィンド
    ウを規定するステップとを含み、前記ピッチ分析ウィン
    ドウは前記ピッチサブフレームに対して延び、さらに、 各ピッチサブフレームに対する初期のピッチラグ値を大
    まかに評価するステップと、 各ピッチサブフレームに対する初期のピッチラグ評価が
    各ピッチサブフレームの最後の符号化サブフレームに対
    するラグ評価を表わすように、各ピッチサブフレームを
    多数の符号化サブフレームへ分割するステップと、 評価されたピッチラグ値を前記ピッチサブフレームの間
    で補間して、各符号化サブフレームに対するピッチラグ
    評価を決定するステップと、 線形的に補間されたラグ値を精密化するステップとを含
    み、前記音声符号化方法はさらに、 精密化されたピッチラグ値に従って再現される音声を出
    力するステップを含む、音声符号化方法。
  49. 【請求項49】 前記N個のLPC残留サンプルが式N
    =R* Xに従って決定されるように、前記LPC残留を
    サンプリング速度Rでサンプリングするステップをさら
    に含む、請求項48に記載の方法。
JP8110964A 1995-05-30 1996-05-01 ピッチラグを評価するためのシステム、音声符号化装置、ピッチラグを評価する方法、および音声符号化方法 Pending JPH08328588A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/454,477 US5781880A (en) 1994-11-21 1995-05-30 Pitch lag estimation using frequency-domain lowpass filtering of the linear predictive coding (LPC) residual
US08/454477 1995-05-30

Publications (1)

Publication Number Publication Date
JPH08328588A true JPH08328588A (ja) 1996-12-13

Family

ID=23804758

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8110964A Pending JPH08328588A (ja) 1995-05-30 1996-05-01 ピッチラグを評価するためのシステム、音声符号化装置、ピッチラグを評価する方法、および音声符号化方法

Country Status (3)

Country Link
US (1) US5781880A (ja)
EP (1) EP0745971A3 (ja)
JP (1) JPH08328588A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002525662A (ja) * 1998-09-11 2002-08-13 モトローラ・インコーポレイテッド 遅延輪郭調整を利用して情報信号を符号化する方法および装置
US6704702B2 (en) 1997-01-23 2004-03-09 Kabushiki Kaisha Toshiba Speech encoding method, apparatus and program
JP2005049859A (ja) * 2003-07-28 2005-02-24 Sony Corp オーディオデータを自動的に認識する方法及び装置
US7228272B2 (en) 2001-06-29 2007-06-05 Microsoft Corporation Continuous time warping for low bit-rate CELP coding

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10124092A (ja) * 1996-10-23 1998-05-15 Sony Corp 音声符号化方法及び装置、並びに可聴信号符号化方法及び装置
JPH10149199A (ja) * 1996-11-19 1998-06-02 Sony Corp 音声符号化方法、音声復号化方法、音声符号化装置、音声復号化装置、電話装置、ピッチ変換方法及び媒体
FI113903B (fi) * 1997-05-07 2004-06-30 Nokia Corp Puheen koodaus
US6456965B1 (en) * 1997-05-20 2002-09-24 Texas Instruments Incorporated Multi-stage pitch and mixed voicing estimation for harmonic speech coders
US5946650A (en) * 1997-06-19 1999-08-31 Tritech Microelectronics, Ltd. Efficient pitch estimation method
EP1002312B1 (en) * 1997-07-11 2006-10-04 Philips Electronics N.V. Transmitter with an improved harmonic speech encoder
US6549899B1 (en) * 1997-11-14 2003-04-15 Mitsubishi Electric Research Laboratories, Inc. System for analyzing and synthesis of multi-factor data
US6064955A (en) * 1998-04-13 2000-05-16 Motorola Low complexity MBE synthesizer for very low bit rate voice messaging
WO1999059138A2 (en) * 1998-05-11 1999-11-18 Koninklijke Philips Electronics N.V. Refinement of pitch detection
US6014618A (en) * 1998-08-06 2000-01-11 Dsp Software Engineering, Inc. LPAS speech coder using vector quantized, multi-codebook, multi-tap pitch predictor and optimized ternary source excitation codebook derivation
US6449590B1 (en) * 1998-08-24 2002-09-10 Conexant Systems, Inc. Speech encoder using warping in long term preprocessing
JP3594854B2 (ja) 1999-11-08 2004-12-02 三菱電機株式会社 音声符号化装置及び音声復号化装置
USRE43209E1 (en) 1999-11-08 2012-02-21 Mitsubishi Denki Kabushiki Kaisha Speech coding apparatus and speech decoding apparatus
US6587816B1 (en) 2000-07-14 2003-07-01 International Business Machines Corporation Fast frequency-domain pitch estimation
US6996523B1 (en) 2001-02-13 2006-02-07 Hughes Electronics Corporation Prototype waveform magnitude quantization for a frequency domain interpolative speech codec system
US6931373B1 (en) 2001-02-13 2005-08-16 Hughes Electronics Corporation Prototype waveform phase modeling for a frequency domain interpolative speech codec system
US7013269B1 (en) 2001-02-13 2006-03-14 Hughes Electronics Corporation Voicing measure for a speech CODEC system
JP3888097B2 (ja) 2001-08-02 2007-02-28 松下電器産業株式会社 ピッチ周期探索範囲設定装置、ピッチ周期探索装置、復号化適応音源ベクトル生成装置、音声符号化装置、音声復号化装置、音声信号送信装置、音声信号受信装置、移動局装置、及び基地局装置
KR100446739B1 (ko) * 2001-10-31 2004-09-01 엘지전자 주식회사 지연 피치 추출장치
US20040002856A1 (en) * 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
GB2400003B (en) * 2003-03-22 2005-03-09 Motorola Inc Pitch estimation within a speech signal
US6988064B2 (en) 2003-03-31 2006-01-17 Motorola, Inc. System and method for combined frequency-domain and time-domain pitch extraction for speech signals
EP1619664B1 (en) * 2003-04-30 2012-01-25 Panasonic Corporation Speech coding apparatus, speech decoding apparatus and methods thereof
TWI241557B (en) * 2003-07-21 2005-10-11 Ali Corp Method for estimating a pitch estimation of the speech signals
US7933767B2 (en) 2004-12-27 2011-04-26 Nokia Corporation Systems and methods for determining pitch lag for a current frame of information
JP2007114417A (ja) * 2005-10-19 2007-05-10 Fujitsu Ltd 音声データ処理方法及び装置
EP2538406B1 (en) * 2006-11-10 2015-03-11 Panasonic Intellectual Property Corporation of America Method and apparatus for decoding parameters of a CELP encoded speech signal
KR101462293B1 (ko) * 2007-03-05 2014-11-14 텔레폰악티에볼라겟엘엠에릭슨(펍) 고정된 배경 잡음의 평활화를 위한 방법 및 장치
KR101413968B1 (ko) * 2008-01-29 2014-07-01 삼성전자주식회사 오디오 신호의 부호화, 복호화 방법 및 장치
KR101589942B1 (ko) * 2009-01-16 2016-01-29 돌비 인터네셔널 에이비 외적 향상 고조파 전치
CN102016530B (zh) * 2009-02-13 2012-11-14 华为技术有限公司 一种基音周期检测方法和装置
US8990094B2 (en) * 2010-09-13 2015-03-24 Qualcomm Incorporated Coding and decoding a transient frame
US9082416B2 (en) 2010-09-16 2015-07-14 Qualcomm Incorporated Estimating a pitch lag
US8862465B2 (en) * 2010-09-17 2014-10-14 Qualcomm Incorporated Determining pitch cycle energy and scaling an excitation signal
EP2638541A1 (en) 2010-11-10 2013-09-18 Koninklijke Philips Electronics N.V. Method and device for estimating a pattern in a signal
US9015039B2 (en) * 2011-12-21 2015-04-21 Huawei Technologies Co., Ltd. Adaptive encoding pitch lag for voiced speech
SG11201510463WA (en) * 2013-06-21 2016-01-28 Fraunhofer Ges Forschung Apparatus and method for improved concealment of the adaptive codebook in acelp-like concealment employing improved pitch lag estimation
MX352092B (es) 2013-06-21 2017-11-08 Fraunhofer Ges Forschung Aparato y método para mejorar el ocultamiento del libro de códigos adaptativo en la ocultación similar a acelp empleando una resincronización de pulsos mejorada.
CN110415715B (zh) * 2014-01-24 2022-11-25 日本电信电话株式会社 线性预测分析装置、线性预测分析方法以及记录介质
ES2713027T3 (es) * 2014-01-24 2019-05-17 Nippon Telegraph & Telephone Aparato, método, programa y soporte de registro de análisis predictivo lineal
US9685170B2 (en) * 2015-10-21 2017-06-20 International Business Machines Corporation Pitch marking in speech processing
CN110058124B (zh) * 2019-04-25 2021-07-13 中国石油大学(华东) 线性离散时滞系统的间歇故障检测方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4989250A (en) * 1988-02-19 1991-01-29 Sanyo Electric Co., Ltd. Speech synthesizing apparatus and method
US5097508A (en) * 1989-08-31 1992-03-17 Codex Corporation Digital speech coder having improved long term lag parameter determination
US5091945A (en) * 1989-09-28 1992-02-25 At&T Bell Laboratories Source dependent channel coding with error protection
DK0588932T3 (da) * 1991-06-11 2002-03-11 Qualcomm Inc Vokoder med variabel hastighed
FI110220B (fi) * 1993-07-13 2002-12-13 Nokia Corp Puhesignaalin kompressio ja rekonstruktio

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6704702B2 (en) 1997-01-23 2004-03-09 Kabushiki Kaisha Toshiba Speech encoding method, apparatus and program
US7191120B2 (en) 1997-01-23 2007-03-13 Kabushiki Kaisha Toshiba Speech encoding method, apparatus and program
JP2002525662A (ja) * 1998-09-11 2002-08-13 モトローラ・インコーポレイテッド 遅延輪郭調整を利用して情報信号を符号化する方法および装置
US7228272B2 (en) 2001-06-29 2007-06-05 Microsoft Corporation Continuous time warping for low bit-rate CELP coding
JP2005049859A (ja) * 2003-07-28 2005-02-24 Sony Corp オーディオデータを自動的に認識する方法及び装置

Also Published As

Publication number Publication date
EP0745971A3 (en) 1998-02-25
US5781880A (en) 1998-07-14
EP0745971A2 (en) 1996-12-04

Similar Documents

Publication Publication Date Title
JPH08328588A (ja) ピッチラグを評価するためのシステム、音声符号化装置、ピッチラグを評価する方法、および音声符号化方法
Giacobello et al. Sparse linear prediction and its applications to speech processing
US6732070B1 (en) Wideband speech codec using a higher sampling rate in analysis and synthesis filtering than in excitation searching
JP5978218B2 (ja) 低ビットレート低遅延の一般オーディオ信号の符号化
JP3557662B2 (ja) 音声符号化方法及び音声復号化方法、並びに音声符号化装置及び音声復号化装置
US6871176B2 (en) Phase excited linear prediction encoder
WO1992016930A1 (en) Speech coder and method having spectral interpolation and fast codebook search
JPH08328591A (ja) 短期知覚重み付けフィルタを使用する合成分析音声コーダに雑音マスキングレベルを適応する方法
KR20020052191A (ko) 음성 분류를 이용한 음성의 가변 비트 속도 켈프 코딩 방법
US5884251A (en) Voice coding and decoding method and device therefor
JPH04270398A (ja) 音声符号化方式
KR100463417B1 (ko) 상관함수의 최대값과 그의 후보값의 비를 이용한 피치검출 방법 및 그 장치
JP2000163096A (ja) 音声符号化方法及び音声符号化装置
KR100499047B1 (ko) 서로 다른 대역폭을 갖는 켈프 방식 코덱들 간의 상호부호화 장치 및 그 방법
KR100550003B1 (ko) 상호부호화기에서 개회로 피치 추정 방법 및 그 장치
EP0713208B1 (en) Pitch lag estimation system
JPH09127987A (ja) 信号符号化方法及び装置
JP2000514207A (ja) 音声合成システム
KR0155798B1 (ko) 음성신호 부호화 및 복호화 방법
KR100554164B1 (ko) 서로 다른 celp 방식의 음성 코덱 간의 상호부호화장치 및 그 방법
JP2001142499A (ja) 音声符号化装置ならびに音声復号化装置
JP3192051B2 (ja) 音声符号化装置
Bhaskar et al. Low bit-rate voice compression based on frequency domain interpolative techniques
JP2000305597A (ja) 音声圧縮のコード化
Al-Naimi et al. Improved line spectral frequency estimation through anti-aliasing filtering

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060307

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060801