JP3325248B2 - 音声符号化パラメータの取得方法および装置 - Google Patents

音声符号化パラメータの取得方法および装置

Info

Publication number
JP3325248B2
JP3325248B2 JP35854499A JP35854499A JP3325248B2 JP 3325248 B2 JP3325248 B2 JP 3325248B2 JP 35854499 A JP35854499 A JP 35854499A JP 35854499 A JP35854499 A JP 35854499A JP 3325248 B2 JP3325248 B2 JP 3325248B2
Authority
JP
Japan
Prior art keywords
frequency
harmonics
band
frequency spectrum
amplitude
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP35854499A
Other languages
English (en)
Other versions
JP2001177416A (ja
Inventor
照夫 麓
Original Assignee
株式会社ワイ・アール・ピー高機能移動体通信研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ワイ・アール・ピー高機能移動体通信研究所 filed Critical 株式会社ワイ・アール・ピー高機能移動体通信研究所
Priority to JP35854499A priority Critical patent/JP3325248B2/ja
Publication of JP2001177416A publication Critical patent/JP2001177416A/ja
Application granted granted Critical
Publication of JP3325248B2 publication Critical patent/JP3325248B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声信号をデジタ
ル化して所定の時間間隔毎にその特徴を表す音声符号化
パラメータを取得する音声符号化パラメータ取得方法お
よび装置に関するものであり、その音声符号化パラメー
タを符号化して伝送または蓄積し、伝送先または蓄積先
から必要な時に音声符号化パラメータを復元し、復元し
た音声符号化パラメータから音声信号を合成して音声を
伝えるデジタル携帯電話やデジタル音声蓄積装置などに
使用して好適なものである。
【0002】
【従来の技術】デジタル化された音声信号は、データ圧
縮、誤り処理、多重化などさまざまなデジタル信号処理
が可能になるため、固定電話や移動電話に限らず音声を
利用するマルチメディアシステムなどに広く取り入れら
れている。アナログの音声信号をデジタル化するには、
一般に入力音声周波数帯域の2倍以上の標本化周波数で
標本化し、耳に識別できない程度の量子化ステップで量
子化が必要なため、アナログ信号と比較し広い伝送周波
数帯域幅を必要とする。そのため、一旦デジタル化され
た音声信号は、要求される音声品質に応じてさまざまな
符号化方式や変調方式によりデータの圧縮が行われてい
る。音声の持つ特徴を積極的に利用する事により、効率
的な圧縮を行う事が出来る。例えば、適応型差分パルス
符号変調(ADPCM)方式は音声波形の周期性や人間
の聴覚感度の対数特性を利用した波形符号化方式で、1
28kbpsのデジタル音声を32kbps程度に圧縮して圧縮
前と変わらない音声品質を得ており、電話の基幹伝送や
PHSシステムに利用されている。波形符号化方式は標
本化点を最低1ビットで表現するものであるため、標本
化周波数が8KHzの場合では原理的に8kbps以下に音声
符号化速度を下げる事は出来ない。
【0003】低い音声符号化速度を得るために、音声を
所定の時間間隔のセグメントに分割し、そのセグメント
毎に、音声合成パラメータと残差音源信号を伝送する符
号励振線形予測(CELP)を基本とする方式がある。
日本の携帯無線電話で用いられているVSELPやPS
I−CELP方式は、20msecや40msec間隔の音声信
号の線形予測分析により得られる人間の声道フィルタ特
性を近似する線形予測係数(LPC)と、聴感的に入力
音声に近い波形を合成する事が出来る残差音源信号を符
号化する事で低い音声符号化速度を実現している。また
残差音源信号を効率良く符号化するために、複数の残差
音源波形を持った符号帳を用意し、その符合帳のエント
リ番号と利得を伝送している。これらの詳細は電波産業
会の規格書RCR−STD27Fに詳しく記載されてい
る。このCELPを基本とする方式は、適切な大きさの
符合帳をうまく設計する事で音声符号化速度3〜4kbps
程度まで実現されている。
【0004】更に低い音声符号化速度を得るために、音
声合成パラメータのみを伝送して上記のCELP方式に
おける音源符合帳を用いない音声符号化を行う方式があ
る。米国国防省の標準音声符号化方式のFS−1015
はピッチ周波数、LPC係数、ルート二乗平均振幅、有
声/無声判定情報の音声合成パラメータにより音声符号
化・復号化を行うLPCボコーダ(Vocoder)方式の音
声符号化方式で、2.4kbpsの音声符号化速度を得てい
る。この方式は音声の特徴を積極的に利用しているた
め、合成音声的な音質になり、特に背景雑音下で復号音
声品質が著しく劣化する欠点を有していた。また、衛星
携帯電話に一部使用されているIMBE(Improved Mul
tiband Excitation)方式は、音声時間セグメントを周
波数領域に変換して音声ピッチ、音声ハーモニクス振
幅、周波数帯域を複数に分割した周波数バンドの有声/
非有声情報で音声符号化を行う方式で、各バンド毎に有
声音モデルと無声音モデルを選択して合成するために、
背景雑音下や混合音声の場合にも合成音声の劣化が少な
く、前記LPCボコーダに比べて優れていると報告され
ている。
【0005】図8は、一般的な音声符号化伝送装置の構
成を示した図である。音声符号化パラメータ抽出部10
2は音声入力端子101から入力された標本化・量子化
された音声デジタル信号を、所定の時間間隔のセグメン
トに分割し、そのセグメント毎に音声符号化パラメータ
を抽出する。抽出する音声符号化パラメータは音声符号
化方式により決定され、例えば前記のIMBE方式で
は、音声ピッチ、音声ハーモニクスの振幅、各周波数バ
ンドの有声/無声情報である。パラメータ符号化部10
3は、抽出した音声符号化パラメータを効果的に符号化
して符号量を低減せしめ、送信部104を介して伝送路
105に送り出す。パラメータ復号化部107は受信部
106で受け取った符号を復号し、音声符号化パラメー
タを復元し、音声合成部108は音声符号化パラメータ
抽出部の動作と逆の動作により合成音声を作成し音声出
力端子109から音声デジタル信号を出力する。
【0006】図9は前記IMBE方式の場合における前
記音声符号化パラメータ抽出部102の内部構成図であ
る。デジタル入力音声信号は基本周波数推定部202に
入力され、ここで音声の基本周波数が推定される。基本
周波数の推定には、自己相関関数や周波数スペクトルの
対数の逆フーリエ変換であるケプストラムのピークを検
出する方法など多くの方法があり、例えば、古井著「デ
ジタル音声処理」東海大学出版会、1985年9月25
日 等に記載されている。周波数スペクトル計算部20
3では、ハミング窓等の窓関数により切り出した有限長
の音声セグメントを周波数分析して音声周波数スペクト
ルを得る。基本周波数修正部204は、前記基本周波数
推定部202で推定された音声基本周波数の近傍の周波
数範囲でA−b−S(Analysis-by-Synthesis)手法に
より合成スペクトルと前記周波数スペクトル計算部20
3で算出した音声周波数スペクトルとの誤差最小条件に
より修正した基本周波数ωoを得る。有声強度計算部2
05は該修正された基本周波数ωoに基づいて、周波数
帯域を複数の周波数バンド(周波数区間)k(k=1,
2,...,K)に分割し、各周波数バンド毎に合成された合
成スペクトルと音声周波数スペクトルの誤差を計算し、
閾値判定により有声/無声情報V[k]を出力する。スペ
クトル包絡計算部206は有声/無声情報V[k]によ
り、有声バンドではA−b−S手法で求めた各ハーモニ
クスの振幅、無声バンドでは各ハーモニクスの持つ周波
数帯域での周波数スペクトルのルート二乗平均値をスペ
クトル包絡絶対値|A(ω)|として出力する。
【0007】図10は、前記IMBE方式の場合におけ
る前記音声合成部108の内部構成を示す図である。高
調波音源部401では、有声/無声情報V[k]と基本周
波数ωoにより有声と判定される周波数区間において、
基本周波数ωoとその高調波の音源をスペクトル包絡|A
(ω)|に対応する振幅で駆動して複数の音源信号を生成
する。高調波加算部402では高調波音源部401で発
生した複数の音源信号を加算合成し、有声バンドに対応
する音声信号を生成する。また、雑音音源部403は、
白色雑音を生成し、周波数変換部404で適当な窓関数
により処理した後、周波数変換する。周波数変換された
白色雑音は、雑音抽出部405でV[k]により無声と指
定された周波数バンドの白色雑音スペクトルを取りだ
し、スペクトル包絡|A(ω)|の値に各スペクトルの振幅
を合わせる。逆周波数変換部406では無声バンドに対
応する雑音区間の周波数スペクトルを音声波形に変換す
る。最後の加算部407では、高調波加算部402から
の有声音声波形と、雑音抽出部405の無声音声スペク
トルを逆周波数変換部406で時間軸波形信号に変換し
た無声音声波形とを加算して、最終的な有声音と無声音
を持った合成音声を得ている。このIMBE方式の詳細
は、”Multiband Excitation Vocoder”, IEEE Transac
tions onAcoustics,speech, and signal processing, v
ol.36,No.8,August 1988,pp1223-1235に詳しく記載され
ている。このように、音声をデジタル化して低ビットレ
ートの音声符号化を実現する方法として、音声合成モデ
ルに基づく音声符号化パラメータを抽出して符号化を行
うIMBE方式等の分析合成型の音声符号化方式が提案
されている。
【0008】
【発明が解決しようとする課題】以上述べた様に、低ビ
ットレート音声符号化のためには分析合成型の音声符号
化方式が有効であるが、残差音源信号を用いず音声合成
パラメータでのみ音声の合成を行うため、符号化方式に
よっては合成音的な音質になりやすい。また、音声セグ
メントを特徴づける音声合成パラメータの抽出誤差は音
声品質に与える影響が大きいという問題がある。ここ
で、分析合成型の音声符号化方式の動作とその具体的な
課題についてさらに説明する。米国DoD標準のFS−
1015ボコーダでは、入力音声をセグメントに分割し
て音声フレームを切り出して、そのフレーム単位で有声
音フレームか無声音フレームかを判定し、それぞれ対応
した処理を切り替えて行っていた。そのため、背景雑音
等が入った有声音や、有声と無声の混在したフレームで
は音声劣化が目立っていた。
【0009】それに対してIMBE方式では、有声と無
声をフレーム単位に決定するのではなく、フレームの周
波数帯域を複数の周波数バンドに分割してそのバンドに
含まれる周波数成分が有声か無声かを判定し、バンド毎
に音声合成モデルを有声音合成モデルと無声音合成モデ
ルを選択する事によって、合成音声品質を改善してい
る。ここで、第kバンドの周波数範囲ωkは、基本周波
数をωoとして各バンドにn本の高調波を含む様に設定
した場合は、
【数1】 で定義している。また、基本周波数ωoとその高調波で
合成した合成スペクトルSs(ω)と音声スペクトルSo
(ω)の正規化誤差Dkは、
【数2】 と定義している。この正規化誤差Dkが所定の閾値より
小さければ合成モデルとの差が少ない事からこの周波数
バンド区間を有声と判定しV[k]=1とする。逆にスペ
クトル誤差が大きければ、無声と判断しV[k]=0とし
ている。
【0010】ここで正規化誤差Dkと基本周波数ωoの関
係について考察する。上記式(1)に示す様に、周波数
バンドの周波数範囲は基本周波数ωoによりその幅が変
化し、バンド番号kによりその中心周波数がシフトす
る。図11の(A)は入力音声スペクトル振幅|A(ω)|
と第1周波数バンド内の合成スペクトル(太い実線で表
示)をn=3の場合について表したものである。周波数
範囲Δωは式(1)より3ωoとなる。一方、図11の
(B)は基本周波数が図11(A)に比べて2倍の2ω
oになった場合を示している。この場合には周波数範囲
Δωは式(1)より6ωoになるが、各ハーモニクスの
形状は太い実線で表したように図11(A)の形状と相
似の形状になる。この形状は周波数スペクトル計算部の
窓関数により決まるものであるので、基本周波数が変化
しても形状は変化しない。図11の(A)と(B)の場
合を比較すると、基本周波数が高い(B)の方はハーモ
ニクスの谷の部分の誤差により正規化誤差の評価値Dk
が(A)の場合に比べて大きくなる。逆に言えば、基本
周波数が低くなった場合には評価値Dkが小さくなり、
無声区間でも有声と判定される場合が多くなり、その結
果、男性の低い音声の場合にバズ音的な音質になるとい
う欠点がある。
【0011】次に、基本周波数の推定誤差Δωoと正規
化誤差Dkの関係について考察する。前記図11では基
本周波数ωoが入力音声の基本周波数を正しく抽出した
ものとして検討したが、基本周波数ωoの推定に誤差が
あった場合には、正規化誤差Dkも変化する。図12
は、8kHzで標本化した音声信号を、ハミング窓を介
し、256点のFFT(高速フーリエ変換)により周波
数スペクトル変換した場合の基本周波数(ピッチ周波
数)誤差に対する正規化スペクトル誤差Dkを計算した
結果を示す図である。(ここでは、基本周波数のずれに
対する評価値Dkへの影響を考察するためにSs(ω)とS
o(ω)は同じハミング窓のスペクトル形状を持ち周波数
が基本周波数誤差Δωo=2πΔfoだけシフトしている
ものとした。)ここで、標本化周波数をfs=8kHz、音
声基本周波数をωo=2πfo、基本周波数ピッチをPi
とすれば、これらの関係は、次の式(3)で表わされ
る。
【数3】 例えば、fo=275Hzの基本周波数を持つ標準的な女
性の場合、基本周波数ピッチはPi=29になる。基本
周波数の推定でPi=28と推定され、−1ピッチの誤
差があった場合、fo=8000/(29-1)=285.7(Hz)とな
り、基本周波数誤差Δfo=10.7Hzになり、図12より
正規化スペクトル誤差Dk=0.1になる。更に、Pi=2
7の場合では−2ピッチの推定誤差があり、基本周波数
誤差は21Hzになり、Dk=0.3になり、正規化スペクト
ル誤差による有声/無声判定へ与える影響が大きい。有
声/無声情報は音声セグメント全体を特徴づけるパラメ
ータでもあり、このような有声/無声判定の誤りは、既
に述べた様に符号化音声の品質に与える影響が大きい。
【0012】そこで本発明は、基本周波数の変化による
有声/無声判定への影響が少なく、基本周波数の推定誤
りにも影響されにくい有声/無声の判定を行うことがで
きる音声符号化パラメータの取得方法および装置を提供
することを目的としている。
【0013】
【課題を解決するための手段】上記目的を達成するため
に、本発明の音声符号化パラメータの取得方法は、デジ
タル化され所定時間長のセグメントに分割された音声信
号から音声符号化パラメータを取得する音声符号化パラ
メータの取得方法であって、前記セグメントの周波数ス
ペクトルを取得するステップ、前記セグメントの周波数
スペクトル帯域を複数の周波数バンドに分割するステッ
プ、および、前記セグメントの周波数スペクトルパワ
ー、前記各周波数バンドの周波数スペクトルパワー、前
記各周波数バンドに含まれるハーモニクス数およびハー
モニクス振幅に基づいて、前記各周波数バンド毎の有声
強度を決定するステップを含むものである。
【0014】また、前記ハーモニクス振幅は、前記周波
数スペクトルの対数変換値の極大値と、その両近傍の前
記周波数スペクトルの対数変換値の極小値との差に基づ
いて決定されるものである。さらに、前記ハーモニクス
数は、前記周波数スペクトルの対数変換値の極大値と、
その両近傍の前記周波数スペクトルの対数変換値の極小
値の差に基づいて決定されるハーモニクス振幅が所定の
閾値以上であるハーモニクスの数とされている。さらに
また、前記有声強度は、そのセグメントの周波数スペク
トルパワー、その周波数バンドの周波数スペクトルパワ
ー、その周波数バンドに含まれるハーモニクス数および
ハーモニク振幅のそれぞれに対して閾値判定することに
より得られる2値の情報とされている。さらにまた、前
記有声強度は、そのセグメントの周波数スペクトルパワ
ー、その周波数バンドの周波数スペクトルパワー、その
周波数バンドに含まれるハーモニクス数およびハーモニ
クス振幅のそれぞれに対して重み付け判定をした結果の
和に基づいて決定されるものである。
【0015】さらにまた、本発明の音声符号化パラメー
タの取得装置は、デジタル化された音声信号を所定時間
長のセグメントに分割する手段、前記セグメントの周波
数スペクトルを取得する手段、前記セグメントの周波数
スペクトル帯域を複数の周波数バンドに分割する手段、
および、前記セグメントの周波数スペクトルパワー、前
記各周波数バンドの周波数スペクトルパワー、前記各周
波数バンドに含まれるハーモニクス数およびハーモニク
ス振幅に基づいて、前記各周波数バンドの有声強度を決
定する手段を有するものである。
【0016】
【発明の実施の形態】本発明の音声符号化パラメータの
取得方法においては、従来のIMBE方式のように合成
音声と入力音声の周波数スペクトル誤差を評価値とする
ことはせず、入力音声の周波数スペクトルのある周波数
バンドに含まれる音声のハーモニクス振幅を入力音声ス
ペクトル振幅から計測して、そのハーモニクス振幅を有
声強度あるいは有声/無声の判定の評価値としている。
また、その周波数バンドに含まれるハーモニクスの数を
計測し、そのハーモニクス数をもう一つの評価値とし
て、期待されるハーモニクス数にどれだけ近いかを判定
することにより、判定の確実性を向上させている。さら
に、入力音声のパワー(エネルギー)が小さい場合は無
声であるとの知見から、入力音声の周波数スペクトルパ
ワーさらには各周波数バンドの音声周波数スペクトルパ
ワーも評価値に加えるようにしている。
【0017】このような手法を採用する理由について、
図2および図3を用いて説明する。図2はほとんど有声
音声で出来ている音声セグメントの周波数スペクトル振
幅値(対数値)の例である。横軸は256点の高速離散
フーリエ変換(FFT)した場合の離散周波数である。
この図に示すように、スペクトル振幅にはある一定の間
隔で明瞭な高調波スペクトルが観測されており、その対
数振幅も広範囲の周波数にわたり安定な振幅を持ってい
る。この事から、ある周波数バンド内のハーモニクス振
幅とその数は、基本周波数ωoの推定誤差の影響を受け
ずに計測できる事が予想できる。また、図3は無声音声
が多い音声セグメントの周波数スペクトル振幅値の例で
ある。この場合は定められた周波数バンド内でのハーモ
ニクス振幅は小さく、また一定レベル以上のハーモニク
スの数も少なくなっている事が読みとれ、その値はωo
の推定誤差Δωoの影響をあまり受けない事も読み取れ
る。以上の考察により、有声/無声の判定に、周波数ス
ペクトル対数値から計測したハーモニクス振幅、ある閾
値以上の振幅を持った有効なハーモニクス数、さらには
入力音声のパワー、周波数バンドの音声パワーを判定評
価に使用するようにしている。
【0018】本発明の音声符号化パラメータの取得方法
および装置は、例えば、音声符号化、特に低ビットレー
トの音声符号化での音声符号化パラメータを安定に推定
する方法及び装置に組み込み使用することができるが、
ここでは、前記図8に示した音声符号化伝送装置の音声
符号化パラメータ抽出部に本発明を適応した場合を例に
とって説明する。図1は本発明の音声符号化パラメータ
の取得方法が適用された音声符号化パラメータ抽出部の
ブロック構成図である。なお、本発明は、種々の音声符
号化方式に適用することが可能であるが、ここでは、I
MBE方式を用いるものとして説明する。
【0019】図1において、音声入力端子101から入
力された音声デジタル信号は、基本周波数推定部202
に入力され、ここで、例えば20msecの時間間隔毎に一
定長の音声セグメント(フレーム)を取り出し、そのセ
グメント内での音声基本周波数ωoを推定する。基本周
波数の推定方法には、自己相関を用いる方法や、ケプス
トラムを用いる方法がある事は前述の通りである。周波
数スペクトル計算部203では、該音声セグメントをハ
ミング窓等の窓関数で窓処理してから高速フーリエ変換
(FFT)により離散的な周波数スペクトル値A[m]を
計算する。デジタル音声入力信号のサンプル周波数をf
sとし、256点のFFTを行った場合、計算される周
波数スペクトルは次の式(4)で表される周波数間隔f
d毎に計算される。
【数4】
【0020】基本周波数修正部204ではスペクトル振
幅|A[m]|と音声基本周波数ωoを用いて、音声基本周波
数ωoの近傍で前記図11の(A)で示したように高調
波スペクトルの重み付け合成スペクトルが最もスペクト
ル振幅|A[m]|に近くなるような周波数を二乗誤差最小
法で探索して、修正された基本周波数ωoを出力する。
有声強度計算部205は、本発明の特徴である有声強度
の取得処理を実行する部分であり、フレームエネルギー
計算部301、バンドエネルギー計算部302、対数変
換部303、バンドハーモニクス振幅計算部304、バ
ンドハーモニクス数計算部305、有声強度判定部30
6により構成される。
【0021】フレームエネルギー計算部301は、周波
数スペクトルA[m]の二乗総和をとったフレームの平均
エネルギー(「フレームエネルギー」あるいは「フレー
ムパワー」と呼ぶ)Efを計算する。FFTサンプル数
が256点の場合、Efは、
【数5】 となる。バンドエネルギー計算部302は、各周波数バ
ンド毎の平均エネルギー(「バンドエネルギー」あるい
は「バンドパワー」と呼ぶ)Eb[k](k=1,...,K)を計
算するものであり、バンドエネルギーEb[k]は、第kバ
ンドのスペクトル区間を[ak,bk]とすると、次の式
(6)で表わされる。
【数6】 ここで、バンドの周波数範囲を基本周波数ωoの3倍に
設定する場合には、ak,bkは、
【数7】 になる。ただし、floor(x)はxを越えない最大の整数を
示す。対数変換部303は、前記周波数スペクトル計算
部203で計算された周波数スペクトル値|A[m]|の対
数値を計算して、前記図2、図3に示したような対数ス
ペクトル振幅列LA[m]を計算する。
【数8】
【0022】バンドハーモニクス振幅計算部304は、
各周波数バンド内のハーモニクス振幅AhまたはBhを計
算する。図4を用いて、ハーモニクス振幅の評価方法に
ついて説明する。ハーモニクス振幅はスペクトル振幅|
A[m]|のデータ列の極大値とその最近傍の極小値の差で
あるが、ハーモニクス振幅が線形で表されている場合に
はその振幅はスペクトル強度に比例して増減する。そこ
で、図4に示す様に、スペクトル振幅の極大値H0とそ
の前後の極小値H1、H2との差を極大値H0で正規化し
た値Ah1、Ah2をハーモニクス振幅の評価値とすれば、
スペクトル強度に関係しないハーモニクス強度が評価で
きる。ここで、Ah1とAh2の小さい方をハーモニクス振
幅評価値Ahとすると、
【数9】 となる。または、スペクトル極大値とスペクトル極小値
の比でハーモニクス強度を表したハーモニクス評価値B
hで評価しても良い。すなわち、
【数10】 このBh1やBh2はハーモニクスのピークからの減衰量を
デシベル単位で表したもので、前記図2に示した音声の
スペクトル振幅測定結果からも、スペクトル周波数やス
ペクトル振幅の影響が少ない妥当なハーモニクス強度の
評価単位である事がわかる。
【0023】バンドハーモニクス数計算部305は、前
記対数変換部303の出力を受けて、前記式(7)で示
した周波数バンドの周波数スペクトル範囲に含まれるハ
ーモニクスの数Hnを計算する。ハーモニクス数の計算
は、FFTで得られる離散的周波数akからbkまで周波
数スペクトル振幅20log10|A[m]|とその前後のスペクト
ル振幅20log10|A[m-1]|、20log10|A[m+1]|を比較し、
いずれの値よりも多きければm番目のスペクトルはスペ
クトルの極大点でハーモニクスの中心周波数に最も近い
スペクトルであると判断する。すなわち、
【数11】
【0024】ここで、計算されたスペクトル対数値をそ
のまま用いて上記方法により極大値の数を数えると、ス
ペクトル雑音の影響を受けて雑音によるスペクトル極大
値を数えてしまう弊害があるため、予めスペクトル雑音
除去を行い雑音による誤計数を防止するようにしてい
る。このスペクトル雑音除去の方法について図5を参照
して説明する。図5の(A)と(C)はスペクトル雑音
のある場合を示しており、m+1とm+2のスペクトル
振幅が逆転している。連続した4本のスペクトルの組に
対してスペクトル振幅の差分の符号が−+−または+−
+の場合には極大値があり、その極大値はそれぞれm+
2番目かm+1番目に現れて、その極大値の振幅はm+
1番目とm+2番目の振幅の差になることがわかる。そ
こで、m+1番目とm+2番目のスペクトルの差が雑音
レベルを考慮したある閾値より小さければ、m+1番目
とm+2番目のスペクトル振幅を両者の平均値に置きか
える事により、図5の(B)と(C)に示す様にスペク
トル雑音を除去する事が出来る。
【0025】有声強度判定部306は、前記フレームエ
ネルギー計算部301、バンドエネルギー計算部30
2、対数変換部303、バンドハーモニクス振幅計算部
304およびバンドハーモニクス数計算部305で算出
された、フレームエネルギーEf、バンドエネルギーEb
[k]、ハーモニクス振幅Hp[n]、ハーモニクス数Hnの
各パラメータを用いて、バンド毎の有声強度V[k]を計
算し出力する。ここで、Hp[n]はハーモニクスの振幅
(AhあるいはBh)の上位n個までの振幅を表してい
る。この有声強度V[k]は、入力パラメータを閾値判定
して得られる2値の有声/無声の判定結果でも良いし、
入力パラメータの判定値の重み付き加算による多値レベ
ルを持った判定結果でも良い。あるいは、入力パラメー
タの判定値の重み付き加算結果を閾値判定して得られる
2値の判定結果であっても良い。有声強度V[k]として
2値の判定結果を用いる場合は、各バンド毎に有声か無
声かを切り替えて音声合成を行うこととなる。多値の判
定結果(例えば、0.0〜1.0の範囲の値をとる)の場合に
は、個々のバンド毎に合成した有声と無声の合成音声を
重みつき加算合成して最終合成音声を生成すればよい。
【0026】図6、図7は、図1における前記有声強度
計算部205の処理内容を示す処理フロー図である。有
声強度計算が開始されると、ステップ1101で基本周
波数ωoと周波数スペクトル振幅|A[m]|を受け取り、1
102でそれらをデータ領域に設定する。ここで基本周
波数ωoを使用しているが、これはバンド数やバンドの
周波数範囲を決定するのに使用するものであり、有声強
度の判定に直接使用するものではない。ステップ110
3ではバンド数Kを決めるが、各バンドにn本のハーモ
ニクスを含む様に設計した場合には、バンド数Kは、
【数12】 で計算される。ここで、ceil(x)はx以上で最小の整数
を示す。例えば、n=3程度に設計してバンド数Kを計
算する。nとωoが決まれば、前記式(1)により各バ
ンド番号k=1,2,...,Kに対して各バンドの中に入るF
FTスペクトルの周波数領域ak,bkを計算する。
【0027】ステップ1104では、フレームパワーE
f、および、バンドパワーEb[k](k=1,2,...,K)を、前
記式(5)、式(6)より計算する。
【数13】
【数14】 次に、ステップ1105でスペクトル振幅|A[m]|の対
数を取りデシベルに変換した対数振幅LA[m]を計算す
る。
【数15】 次に、1106でスペクトル雑音除去を行う。このスペ
クトル雑音除去の処理フロー(ステップ1121〜11
28)については後述する。
【0028】次に、有声強度V[k]の判定を行う。ま
ず、ステップ1107でフレーム全体のパワー(フレー
ムパワー)Efが所定の閾値Th0より小さいフレームは音
声パワーが少なく雑音領域と考えられる場所であるの
で、ステップ1116ですべてのバンドを無声と設定し
てバンドループに入らずに終了する。一方、フレームパ
ワーEfが閾値Th0より大きいフレームに対しては、ステ
ップ1108〜1115のバンドループに入る。このバ
ンドループでは、まずステップ1109でその周波数バ
ンドのパワーEb[k]を評価し、所定の閾値Th1以下の場
合はそのバンドにはエネルギーが少ないと判断して、無
声V[k]=0と設定する(ステップ1114)。閾値Th1
より大きい場合は、ステップ1110でバンドのハーモ
ニクス振幅Hp[n]とハーモニクス数Hnを計算する。こ
のステップ1110のハーモニクス振幅とハーモニクス
数の計算の処理フロー(ステップ1130〜1149)
については、後述する。
【0029】次に、ステップ1111でハーモニクス数
Hnを評価し、設計したバンド内ハーモニクス数nとの
差がある範囲外(閾値Th20以下、閾値Th21以上)であれ
ば無声V[k]=0と判定する(ステップ1114)。例
えば、バンドあたりのハーモニクス数nを3本と設定し
た場合は2以下、4以上は無声音と判定する。次に、ス
テップ1112でハーモニクス振幅Hp[n]を評価し、
所定の閾値Th3より小さい場合はハーモニクス振幅があ
まりない無声音と判定する(ステップ1114)。以上
で無声音と判定されなかったバンドは、ステップ111
3で有声バンド(V[k]=1)と設定する。以上の動作
を各バンド毎に最大Kバンドまで計算し各有声強度V
[k]に設定し終えると、ステップ1117でこの有声強
度計算部205の処理を終える。
【0030】このようにして、フレームパワーEfにつ
いて閾値判定し(1107)、各バンドについて、その
バンドパワーEb[k]について閾値判定し(1114)、
ハーモニクス数Hnについて閾値判定し(1111)、
さらに、ハーモニクス振幅Hp[n]について閾値判定(1
112)して、これらの判定結果から2値(0あるいは
1)の有声強度V[k]を決定することができる。なお、
有声強度V[k]は、このような2値の情報に限られるこ
とはなく、前記各閾値判定の結果に対してそれぞれ所定
の重みを付け、これらを加算することにより、多値(例
えば、0.0〜1.0の範囲)の有声強度を算出するようにし
てもよい。あるいは、重み付け加算の結果を所定の閾値
を用いて判定し、2値の値とすることもできる。
【0031】次に、前記ステップ1106のスペクトル
雑音除去のサブルーチン1121〜1128の処理内容
について説明する。前記ステップ1121で受け取った
スペクトル振幅の対数値LA[*]に対して、ステップ1
122〜1127のノイズ除去ループに入る。このノイ
ズ除去ループでは、連続した4点の周波数スペクトル振
幅の中に小さな極大点があるかどうかをチェックしてい
る。もし小さな極大点があれば、その極大点に最も振幅
値が近いスペクトル振幅との平均を取り、両者のスペク
トル振幅をその平均値で置き換え、小さなスペクトル極
大点を無くす処理を行う。
【0032】まず、ステップ1123で、連続した4点
の差分d1、d2、d3を計算し、その符号s1、s
2、s3を計算する。次に、ステップ1124でs1と
s3が同じ符号でs2と異なるかを判定する。その結果
が真である場合は極大点が真中の2点のいずれかであ
る。前記図5に示した様に、極大点の振幅はs1とs2
が両方正、両方負の場合いずれでも同じd2の絶対値で
表され、ステップ1125により|d2|が所定の閾値Th
4より小さな場合には、ステップ1126でLA[m+1]と
LA[m+2]をそれらの平均値で置きかえる事で小さな極
大値の平滑除去を行う。以上の平滑化処理を最後の4点
のスペクトルが取れるまでバンド内で繰り返し、スペク
トル雑音による極大点の除去を行っている。なお、前記
図5から、極大点を除去すれば、その直前または直後の
極小点も同時に取れる事がわかる。
【0033】次に、前記ステップ1110のハーモニク
ス数Hnとハーモニクス振幅Hp[n]の計算サブルーチン
1130〜1149の処理内容を図7を用いて説明す
る。まず、ステップ1131で対数スペクトル振幅LA
[m]、基本周波数ωo、バンド番号k(k=1,2,...,K)、
バンドスペクトル範囲[ak,bk]を入力として処理を開
始する。ステップ1132で、極大値の数を計数する極
大値数カウンタNpk、極小値の数を計数する極小値数カ
ウンタNbtm、極大値の振幅を格納する極大値メモリAp
k[*]、極小値の振幅を格納する極小値メモリAbtm[*]、
ハーモニクスの振幅を格納するハーモニクス振幅メモリ
Hp[*]、ハーモニクスの数を計数するハーモニクス数カ
ウンタHnをそれぞれ0に初期化する。
【0034】次に、ステップ1133でピーク・ボトム
計算ループ(ステップ1133〜1148)に入り、ス
テップ1134で対数スペクトル振幅LA[m]がLA[m-
1]、LA[m+1]より大きい場合は、LA[m]が極大値と判
定しステップ1135へ移動する。ステップ1135
で、発見された極大値がバンド内で始めて発見された場
合であるかを検出し、始めて検出された場合には、ステ
ップ1136で極大値数カウンタNpk及び極小値数カウ
ンタNbtmに1を設定し、その極大値LA[m]を極大値メ
モリApk[1]に、初期値LA[ak]を極小値メモリAbtm
[1]に記録する。始めて検出されたものでないときは、
ステップ1137で極大値数カウンタNpkをインクリメ
ントし、極大値LA[m]を極大値メモリApk[Npk]に記録
する。
【0035】一方、前記ステップ1134のピーク検出
でピークでないと判定された場合には、引き続いてステ
ップ1138で極小値であるかの判定を行う。この判定
は、前記ステップ1134の極大値判定と同様な手法で
行い、この結果極小値と判定された場合には、ステップ
1139で極小値数カウンタNbtmをインクリメント
し、極小値LA[m]を極小値メモリAtbm[Nbtm]に記録す
る。極大値、極小値判定ともNoと判定された場合は、
ステップ1141でボトム/ピーク検出ループの最後で
あるかを判定し、最後のループの場合はステップ114
2に進み、極大値数カウンタ値Npkと極小値数カウンタ
値Nbtmが同じであるか否かを判定する。同じである場
合には、ステップ1140で極小値数カウンタNbtmを
インクリメントし、極小値メモリAbtm[Nbtm]にLA
[bk]を記録する。この手順ですべての極大値が検出さ
れ、その前後の極小値も記録される。
【0036】次に、ステップ1143で、極小値が検出
された時点でその前に極大値があるかを判定し、もしあ
れば、その極大値を新たなハーモニクスとしてステップ
1144でその振幅Haを計算する。ステップ1144
では、その極大値と前後の極小値との振幅差の平均値を
ハーモニクス振幅Haとしている。しかし、ハーモニク
ス振幅形状の対称性を重要と考えて判定する場合には、
前記式(10)で示した様に、最小値でHaを計算して
も良い。次に、ステップ1145で、Haを所定の閾値T
h5と比較し、閾値より大きい場合だけ、ハーモニクス数
Hnを更新し(ステップ1146)、上位n個のハーモ
ニクス振幅をHp[n]に記録する(ステップ114
7)。ステップ1147のmaxN(Hp[n],Ha)は、Ha
がHp[n]の配列要素の最小値より大きい場合にその配
列要素の最小値と置きかえる関数を示している。すべて
のピーク/ボトム計算ループを終えると、ステップ11
49で、バンド内でのハーモニクスの数Hnと上位n個
のハーモニクス振幅Hp[n]を戻している。以上、有声強
度計算部205の処理内容を詳細なフロー図で説明し
た。
【0037】なお、以上においては、音声符号化方式と
してIMBE方式を採用した音声符号化伝送装置の音声
符号化パラメータ抽出部に本発明の音声符号化パラメー
タの取得方法を適用した場合を例にとって説明したが、
本発明の音声符号化パラメータ抽出方法および装置は、
これに限られることはなく、MELP(Mixed Excitati
on Linear Prediction)方式など、1フレームの周波数
スペクトルを複数の周波数バンドに分割し、各周波数バ
ンド毎に有声/無声を判定する場合に全く同様に適用す
ることができる。
【0038】
【発明の効果】以上述べた様に、本発明の音声符号化パ
ラメータの取得方法および装置によれば、入力音声の周
波数スペクトルから求めたハーモニクス振幅とハーモニ
クス数、さらに、音声セグメントのパワー、音声セグメ
ントを複数の周波数バンドに分割した各周波数バンドの
パワーを用いて、有声強度あるいは有声/無声情報を取
得しているため、基本周波数の推定誤りの影響が少な
く、また、ハーモニクスの谷の部分の周波数スペクトル
雑音の影響が少ない有声強度判定を行うことが可能とな
る。したがって、スペクトル雑音に対し、誤り耐性の強
い音声符号化パラメータの取得方法を提供することがで
きる。
【図面の簡単な説明】
【図1】 本発明による音声符号化パラメータの取得方
法が適用された音声符号化パラメータ抽出部の機能ブロ
ック図である。
【図2】 有声音声セグメントの対数スペクトル振幅を
示す図である。
【図3】 無声音声セグメントの対数スペクトル振幅を
示す図である。
【図4】 ハーモニクス振幅を説明するための図であ
る。
【図5】 スペクトル雑音の除去方法を説明するための
図である。
【図6】 有声強度計算部の処理フローを示す図であ
る。
【図7】 有声強度計算部の処理フローを示す図であ
る。
【図8】 音声符号伝送装置の構成を示す図である。
【図9】 従来の音声符号化パラメータ抽出部の構成を
示すブロック図である。
【図10】 音声合成部の構成を示すブロック図であ
る。
【図11】 スペクトル誤差評価を説明するための図で
ある。
【図12】 スペクトル誤差とピッチ周波数誤差の関係
を説明するための図である。
【符号の説明】
205 有声強度計算部 301 フレームエネルギー計算部 302 バンドエネルギー計算部 303 対数変換部 304 バンドハーモニクス振幅計算部 305 バンドハーモニクス数計算部 306 有声強度判定部
フロントページの続き (56)参考文献 特開 平5−297895(JP,A) 特開 平10−214100(JP,A) 特開 平7−44194(JP,A) D.W.Griffin et.a l.,Multiband Excit ation Vocoder,IEEE TRANSACTION ON AC OUSTICS SPEECH AND SIGNAL PROCESSIN G,米国,1988年 8月,VOL.36, NO.6,pp1223−1235 (58)調査した分野(Int.Cl.7,DB名) H03M 7/30 G10L 11/00 G10L 19/02

Claims (6)

    (57)【特許請求の範囲】
  1. 【請求項1】 デジタル化され所定時間長のセグメント
    に分割された音声信号から音声符号化パラメータを取得
    する音声符号化パラメータの取得方法であって、 前記セグメントの周波数スペクトルを取得するステッ
    プ、 前記セグメントの周波数スペクトル帯域を複数の周波数
    バンドに分割するステップ、および、 前記セグメントの周波数スペクトルパワー、前記各周波
    数バンドの周波数スペクトルパワー、前記各周波数バン
    ドに含まれるハーモニクス数およびハーモニクス振幅に
    基づいて、前記各周波数バンド毎の有声強度を決定する
    ステップを含むことを特徴とする音声符号化パラメータ
    の取得方法。
  2. 【請求項2】 前記ハーモニクス振幅は、前記周波数ス
    ペクトルの対数変換値の極大値と、その両近傍の前記周
    波数スペクトルの対数変換値の極小値との差に基づいて
    決定されることを特徴とする前記請求項1記載の音声符
    号化パラメータの取得方法。
  3. 【請求項3】 前記ハーモニクス数は、前記周波数スペ
    クトルの対数変換値の極大値と、その両近傍の前記周波
    数スペクトルの対数変換値の極小値の差に基づいて決定
    されるハーモニクス振幅が所定の閾値以上であるハーモ
    ニクスの数であることを特徴とする前記請求項1記載の
    音声符号化パラメータの取得方法。
  4. 【請求項4】 前記有声強度は、そのセグメントの周波
    数スペクトルパワー、その周波数バンドの周波数スペク
    トルパワー、その周波数バンドに含まれるハーモニクス
    数およびハーモニク振幅のそれぞれに対して閾値判定す
    ることにより得られる2値の情報であることを特徴とす
    る前記請求項1記載の音声符号化パラメータの取得方
    法。
  5. 【請求項5】 前記有声強度は、そのセグメントの周波
    数スペクトルパワー、その周波数バンドの周波数スペク
    トルパワー、その周波数バンドに含まれるハーモニクス
    数およびハーモニクス振幅のそれぞれに対して重み付け
    判定をした結果の和に基づいて決定されることを特徴と
    する前記請求項1記載の音声符号化パラメータの取得方
    法。
  6. 【請求項6】 デジタル化された音声信号を所定時間長
    のセグメントに分割する手段、 前記セグメントの周波数スペクトルを取得する手段、 前記セグメントの周波数スペクトル帯域を複数の周波数
    バンドに分割する手段、および、 前記セグメントの周波数スペクトルパワー、前記各周波
    数バンドの周波数スペクトルパワー、前記各周波数バン
    ドに含まれるハーモニクス数およびハーモニクス振幅に
    基づいて、前記各周波数バンドの有声強度を決定する手
    段を有することを特徴とする音声符号化パラメータの取
    得装置。
JP35854499A 1999-12-17 1999-12-17 音声符号化パラメータの取得方法および装置 Expired - Fee Related JP3325248B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP35854499A JP3325248B2 (ja) 1999-12-17 1999-12-17 音声符号化パラメータの取得方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP35854499A JP3325248B2 (ja) 1999-12-17 1999-12-17 音声符号化パラメータの取得方法および装置

Publications (2)

Publication Number Publication Date
JP2001177416A JP2001177416A (ja) 2001-06-29
JP3325248B2 true JP3325248B2 (ja) 2002-09-17

Family

ID=18459873

Family Applications (1)

Application Number Title Priority Date Filing Date
JP35854499A Expired - Fee Related JP3325248B2 (ja) 1999-12-17 1999-12-17 音声符号化パラメータの取得方法および装置

Country Status (1)

Country Link
JP (1) JP3325248B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100446242B1 (ko) * 2002-04-30 2004-08-30 엘지전자 주식회사 음성 부호화기에서 하모닉 추정 방법 및 장치
GB2407952B (en) * 2003-11-07 2006-11-29 Psytechnics Ltd Quality assessment tool
EP1845520A4 (en) * 2005-02-02 2011-08-10 Fujitsu Ltd SIGNAL PROCESSING METHOD AND SIGNAL PROCESSING DEVICE
JP4534883B2 (ja) * 2005-07-11 2010-09-01 カシオ計算機株式会社 楽音制御装置および楽音制御処理のプログラム
KR100744352B1 (ko) 2005-08-01 2007-07-30 삼성전자주식회사 음성 신호의 하모닉 성분을 이용한 유/무성음 분리 정보를추출하는 방법 및 그 장치
JPWO2007088853A1 (ja) * 2006-01-31 2009-06-25 パナソニック株式会社 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法
KR100770839B1 (ko) * 2006-04-04 2007-10-26 삼성전자주식회사 음성 신호의 하모닉 정보 및 스펙트럼 포락선 정보,유성음화 비율 추정 방법 및 장치
KR100762596B1 (ko) 2006-04-05 2007-10-01 삼성전자주식회사 음성 신호 전처리 시스템 및 음성 신호 특징 정보 추출방법
KR100735343B1 (ko) 2006-04-11 2007-07-04 삼성전자주식회사 음성신호의 피치 정보 추출장치 및 방법
CN117116245B (zh) * 2023-10-18 2024-01-30 武汉海微科技有限公司 声音信号的谐波生成方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
D.W.Griffin et.al.,Multiband Excitation Vocoder,IEEE TRANSACTION ON ACOUSTICS SPEECH AND SIGNAL PROCESSING,米国,1988年 8月,VOL.36,NO.6,pp1223−1235

Also Published As

Publication number Publication date
JP2001177416A (ja) 2001-06-29

Similar Documents

Publication Publication Date Title
US6377916B1 (en) Multiband harmonic transform coder
CA2099655C (en) Speech encoding
JP3277398B2 (ja) 有声音判別方法
US9653088B2 (en) Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
US8244525B2 (en) Signal encoding a frame in a communication system
US7092881B1 (en) Parametric speech codec for representing synthetic speech in the presence of background noise
EP1141947B1 (en) Variable rate speech coding
US6078880A (en) Speech coding system and method including voicing cut off frequency analyzer
US7013269B1 (en) Voicing measure for a speech CODEC system
US6081776A (en) Speech coding system and method including adaptive finite impulse response filter
US6119082A (en) Speech coding system and method including harmonic generator having an adaptive phase off-setter
EP0718822A2 (en) A low rate multi-mode CELP CODEC that uses backward prediction
US6138092A (en) CELP speech synthesizer with epoch-adaptive harmonic generator for pitch harmonics below voicing cutoff frequency
US20040260542A1 (en) Method and apparatus for predictively quantizing voiced speech with substraction of weighted parameters of previous frames
US6094629A (en) Speech coding system and method including spectral quantizer
US6654718B1 (en) Speech encoding method and apparatus, input signal discriminating method, speech decoding method and apparatus and program furnishing medium
WO2001022403A1 (en) Lpc-harmonic vocoder with superframe structure
JPH08272398A (ja) 再生成位相情報を用いた音声合成
JP2003505724A (ja) 音声符号器用のスペクトル・マグニチュード量子化
JPH0744193A (ja) 高能率符号化方法
US20040148160A1 (en) Method and apparatus for noise suppression within a distributed speech recognition system
JP3325248B2 (ja) 音声符号化パラメータの取得方法および装置
Chamberlain A 600 bps MELP vocoder for use on HF channels
JP3404350B2 (ja) 音声符号化パラメータ取得方法、音声復号方法及び装置
CN104517614A (zh) 基于各子带特征参数值的清浊音判决装置及其判决方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20020618

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070705

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080705

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090705

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090705

Year of fee payment: 7

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090705

Year of fee payment: 7

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090705

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100705

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110705

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110705

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120705

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120705

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130705

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees