JPH0619499A

JPH0619499A - 有声／無声判定回路

Info

Publication number: JPH0619499A
Application number: JP19741692A
Authority: JP
Inventors: Seiji Sasaki; 誠司佐々木; Osamu Watanabe; 治渡辺; Hiroki Goto; 裕樹後藤; Masayasu Miyake; 正泰三宅
Original assignee: Kokusai Electric Corp
Current assignee: Kokusai Electric Corp
Priority date: 1992-07-02
Filing date: 1992-07-02
Publication date: 1994-01-28

Abstract

(57)【要約】【目的】分析合成系音声符号化方式の符号化装置におけ
る入力音声の有声／無声判定が背景雑音により誤判定と
なる判定誤り率を低減する。【構成】フレーム化器１によってフレーム化された信号
ｂを線形予測分析器２によって線形予測係数ｃを求め、
その線形予測係数ｃをＬＳＰ係数導出器６によってＬＳ
Ｐ（線スペクトル対）係数ｅに変換した後、その分散を
ＬＳＰ係数間距離分散計算器７で求め、所定のしきい値
ｇ₂を有声／無声判定器８に与えて背景雑音を確実に無
声と判定させるように構成した。【効果】受信復号装置における再生音声品質が向上す
る。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は分析合成系音声符号化方
式の符号化装置に用いられる有声／無声判定回路に関す
る。

【０００２】

【従来の技術】低ビットレート（２．４ｋｂｐｓ程度）
の音声符復号装置には分析合成符号化方式が適用される
のが一般的である。最も代表的な分析合成符号化方式と
してはＬＰＣボコーダと呼ばれる線形予測分析による音
声符号化方式がある。この方式では、予測残差信号をパ
ルス列あるいは雑音にモデル化して情報圧縮している。
入力音声が有声区間である場合はパルス列が用いられ、
入力音声が無声区間である場合は雑音が用いられる。こ
こで重要なのは、符号化しようとしている音声フレーム
が有声区間であるか無声区間であるかの正確な判定であ
る。この判定誤りが多発すると再生音声は聴感上で劣化
が生じるので、判定誤り率を２％以下に抑える必要があ
る。

【０００３】従来技術としてＬＰＣボコーダの有声／無
声判定法について説明する。ＬＰＣボコーダでは、有声
／無声の判定は音源（予測残差信号）の周期性の度合で
決まる。周期性の度合は、入力音声信号のピッチ周期τ
ｐに当たる時間遅れ（τ＝τｐ）での予測残差信号相関
Ｒτp を、時間遅れなし（τ＝０）での予測残差信号相
関Ｒ₀で正規化した値の大小で調べる。図４に時間遅れ
τとＲτ／Ｒ₀（Ｒ₀で正規化された時間遅れτでの予
測残差信号相関Ｒτ）の関係を示す。ここで、有声／無
声判定は次の条件式によって行われる。Ｒτp ／Ｒ₀≧０．２５ならば有声区間Ｒτp ／Ｒ₀＜０．２５ならば無声区間図３は従来の有声／無声判定器の構成例図である。例え
ば８ｋＨｚで標本化された入力音声ａはフレーム化器１
により１フレーム２０ｍｓｅｃに分割されｂとなりその
後はフレーム毎に処理される。ｂは線形予測分析器２に
より線形予測分析され、その結果として線形予測係数ｃ
が得られる。ｃは線形予測分析フィルタ３の係数として
用いられ、ｂは線形予測フィルタリングされ、予測残差
信号ｄが得られる。ｄは相関値計算器４に入力され、時
間遅れなし（τ＝０）での予測残差信号相関（Ｒ₀）お
よび入力音声信号のピッチ周期τｐに当たる時間遅れ
（τ＝τｐ）での予測残差信号相関（Ｒτp ）が計算さ
れて出力される。この２つの相関値Ｒ₀，Ｒτp は有声
／無声判定器１５に入力され上記の条件に基づき有声／
無声判定が実行される。ここで、経験から求められるし
きい値ｇ₁（例えば０．２５）が与えられている。判定
結果である有声／無声フラグｈ₁は、例えば有声ならば
０、無声ならば１と設定される。

【０００４】

【発明が解決しようとする課題】上記従来の回路構成に
おいて、送話者が周囲の背景雑音の少ない場所、例えば
静かな事務室などに居る場合は特に問題はないが、一般
的には背景雑音の存在を無視することはできない。従来
の方式で問題となるのは、有声／無声判定において音声
中の音源である予測残差信号の周期性を調べているのみ
であり、音声の音色を表す情報であるスペクトル包絡に
ついては考慮していないことである。つまり、音声は特
有のスペクトル包絡を有するため有声／無声判定にこれ
を用いれば有効であるにもかかわらず、使用していない
ことである。このため、周期性を有する背景雑音が入力
音声に混在している場合、背景雑音区間（音声とは異な
るスペクトル包絡を有する）が有声区間であると誤って
判定されてしまう。実例として、航空機内で録音した音
声（信号対雑音比１５ｄＢ）に対して従来の方式により
有声／無声判定した結果の有声／無声判定誤り率は２１
％と大きな値を示した。ここで、有声／無声判定誤り率
とは、有声／無声判定が誤ったフレーム数（入力音声の
サウンドスペクトログラムを目視することにより求め
る）を全入力音声フレーム数で除算したものである。こ
の結果、再生音声には“ビリビリ”という異音が目立つ
ようになる。この原因は、分析合成系のＬＰＣボコーダ
では人間の音声のピッチ周期範囲は２．５〜２０ｍｓ
（５０〜４００Ｈｇ）であるという事実に基づいてピッ
チ周期抽出を行っているので、たとえ背景雑音に周期性
があったとしてもピッチ周期がこの範囲を逸脱するため
分析合成が正常に行われないためである。この現象は、
背景雑音区間だけでなく、音声信号中の無声区間につい
ても同様に生じる。従って、より正確な有声／無声判定
方法が求められている。本発明の目的は、有声区間と無
声区間でそれぞれに適した音源を用いる分析合成系音声
符号化方式における再生音声品質を、送話側の背景雑音
が大きい場合でも向上させて、有声／無声判定誤り率を
２％程度に近づけるようにした有声／無声判定回路を提
供することにある。ここで、２％という値は、入力音声
に背景雑音が混入していない場合の有声／無声判定誤り
率についての一般的な目標値である。

【０００５】

【課題を解決するための手段】請求項１記載の本発明の
有声／無声判定回路は、フレーム化された音声信号を線
形予測分析して線形予測係数を求める線形予測分析器
と、該線形予測分析器からの線形予測係数を入力しスペ
クトル包絡の線スペクトル対係数を出力するＬＳＰ係数
導出器と、該ＬＳＰ係数導出器から得られる線スペクト
ル対係数間の距離分散を出力するＬＳＰ係数間距離分散
計算器と、該線スペクトル対係数間の距離分散を所定の
しきい値と比較し、該分散がしきい値より大きいとき有
声、小さいとき無声と判定してその結果を示す有声／無
声フラグを出力する有声／無声判定器とを備えたことを
特徴とするものである。以下この請求項１記載の本発明
の技術思想について説明する。本発明は、有声／無声判
定において音声中の音源の周期性を調べるのみではな
く、音声の音色を表す情報であるスペクトル包絡につい
て音声（有声区間および無声区間）と背景雑音の性質の
違いを識別することにより、有声／無声判定を行う際、
背景雑音区間を有声区間であると誤判定する判定誤りを
低減するものである。本発明は、スペクトル包絡情報と
してＬＳＰ（線スペクトル対）係数を考え、その係数間
の距離の分散により有声／無声判定を行うようにしたこ
とを要旨とする。ここで、ＬＳＰ係数とは、線系予測係
数から導出される係数で、線形予測係数と等価なスペク
トル包絡情報を表す。この係数の特徴としては、実際の
音声のスペクトル包絡と直接的な関係があることであ
る。

【０００６】図５（Ａ）に音声信号の有声区間でのスペ
クトル包絡とＬＳＰ係数の関係を示す。同図では、線ス
ペクトルが立っている周波数（ｆ₁〜ｆ₁₀）が示されて
いるが、これらｆ_iがＬＳＰ係数である。この図からわ
かるように、スペクトル包絡のピーク（ホルマントと呼
ぶ）の近傍でＬＳＰ係数間の距離ｄ_i（＝ｆ_i+1−
ｆ_i）が小さくなり、このピークが鋭くなるほどｄ_iは
小さくなる。これに対してスペクトル包絡の谷間の部分
では距離ｄ_iは大きく現れる。本発明では、このような
ＬＳＰ係数の性質を音声（有声区間および無声区間）と
背景雑音の識別に利用する。図５（Ａ）に示すように、
音声信号の有声区間でのＬＳＰ係数の典型的な出方とし
て３または４個のホルマントが生じ、音声の無声区間の
場合も数個のホルマントが生じるため、ＬＳＰ係数間距
離ｄ_iのばらつき（分散）は大きくなる。これに対し
て、背景雑音の典型的なＬＳＰ係数の出方は図５（Ｂ）
に示すようにスペクトル包絡が平坦（ホルマントが生じ
ない）なため、ＬＳＰ係数間距離ｄ_iのばらつき（分
散）が小さい。従って、ｄ_iの分散を計算し、その分散
の値をしきい値と比較して判別することにより、音声
（有声区間および無声区間）と背景雑音の識別ができ
る。しきい値は、予め音声および背景雑音でのＬＳＰ係
数間距離ｄ_iの分散を観測することにより求められる。
この詳細については第１の実施例で説明する。上述の手
段により、背景雑音区間を有声区間であると誤判定する
判定誤りを低減することができる。

【０００７】次に、請求項２記載の本発明の有声／無声
判定回路は、入力音声信号をフレーム化するフレーム化
器と、該フレーム化された音声信号を線形予測分析して
線形予測係数を出力する線形予測分析器と、該線形予測
係数をフィルタの係数として用い前記フレーム化された
音声信号から予測残差信号を求める線形予測フィルタ
と、該予測残差信号を入力して時間遅れなしのときの相
関値Ｒ₀と前記入力音声信号のピッチ周期τp に相当す
る時間遅れのときの相関値Ｒτp とを出力する相関値計
算器と、該２つの相関値の比Ｒτp ／Ｒ₀を所定のしき
い値と比較してその大小により有声／無声を判定して有
声／無声フラグを出力する第１の有声／無声判定器とを
備えた有声／無声判定回路において、前記線形予測分析
器から得られる前記線形予測係数を入力しスペクトル包
絡の線スペクトル対係数を出力するＬＳＰ係数導出器
と、該ＬＳＰ係数導出器から得られる線スペクトル対係
数間の距離分散を出力するＬＳＰ係数間距離分散計算器
と、該線スペクトル対係数間の距離分散を所定のしきい
値と比較し、該分散がしきい値より大きいとき有声、小
さいとき無声と判定してその結果を示す有声／無声フラ
グを出力する第２の有声／無声判定器と、前記第１の有
声／無声判定器と前記第２の有声／無声判定器とからそ
れぞれ出力される判定結果が、両方とも有声フラグのと
き有声フラグを出力し、両方またはいずれか一方が無声
フラグのとき無声フラグを出力する判定器とを備えたこ
とを特徴とするものである。この請求項２記載の発明
は、前記請求項１記載の発明に加えて、さらに、音声中
の無声区間を有声区間であると誤判定する判定誤りを低
減するものであり、前記本発明と予測残差信号相関を使
用した従来方式を併用したものである。この方式では、
無声区間の信号は、スペクトル包絡にホルマントが存在
するためｄ_iの分散が大きくなり有声区間と誤判定され
ても、無声区間における音源は周期性を有していないた
め最終的には無声区間であると正確に判定される。この
詳細については第２の実施例で説明する。

【０００８】

【実施例】図１は本発明の第１の実施例を示すブロック
図である。この実施例は、ＬＳＰ係数間距離の分散を用
いた有声／無声判定器の構成を示す。例えば、８ｋＨｚ
で標本化された入力音声ａはフレーム化器１により１フ
レーム２０ｍｓｅｃに分割されｂとなりその後はフレー
ム毎に処理される。ｂは線形予測分析器２により線形予
測分析され、その結果として線形予測係数ｃが得られ
る。線形予測係数ｃはＬＳＰ係数導出器６によりＬＳＰ
係数ｅに変換される。ＬＳＰ係数ｅはＬＳＰ係数間距離
の分散計算器７に入力され、分散ｆが得られる。有声／
無声判定器８では、分散ｆととしきい値ｇ₂（例えば１
３００Ｈｚ²）とを比較し、しきい値以上であれば有
声、しきい値より小さければ無声と判定する。判定結果
である有声／無声フラグｈ₂は、例えば有声ならば０、
無声ならば１と設定される。上記のＬＳＰ係数間距離の
分散計算器７内の処理は、例えば次のように行われる。
線形予測分析器２内での分析次数を１０次とすれば、Ｌ
ＳＰ係数導出器６で導出されるＬＳＰ係数は図５のよう
に１０次となる。ここで、ＬＳＰ係数間距離ｄ_i（＝ｆ
_i+1−ｆ_i）はｄ₁〜ｄ₉の９個が考えられる。ＬＳＰ
係数間距離の分散計算器７による分散の算出は次式で行
われる。

【０００９】

【数１】ただし、バーｄはｄ₁〜ｄ₉の平均値であり、分散次数
が１０次の場合はｎ＝９となる。また、ｄ_iの単位はＨ
ｚなので、分散の単位はＨｚ²となる。このようにして
算出された分散は、有声／無声判定器８でしきい値と比
較される。従来方式と同様の入力音声（信号対雑音比１
５ｄＢの航空機内で録音した音声）に対してこの方式に
より有声／無声判定した結果、有声／無声判定誤り率は
１０％となり従来方式に対し半減した。

【００１０】図２は本発明の第２の実施例を示すブロッ
ク図である。この実施例は、ＬＳＰ係数間距離の分散お
よび従来方式（予測残差信号相関）を併用した有声／無
声判定器の構成を示す。ここで、点線で囲まれたブロッ
ク１０は従来方式（図３）と全く同じ構成であり、ブロ
ック１１は第１の実施例（図１）と全く同じ構成であ
る。これらの有声／無声フラグをそれぞれｈ₁，ｈ₂と
すれば、判定器９の動作は次のようになる。（１）最終的な結果である有声／無声フラグｋを有声
と設定する。（２）もし、ｈ₁，ｈ₂のうちどちらか、または両方
が無声であればｈ₃を無声とする。そうでなければ、ｋ
は有声のままとする。（３）ｋは、例えば有声ならば０、無声ならば１と設
定される。従来方式と同様の入力音声（信号対雑音比１５ｄＢの航
空機内で録音した音声）に対してこの方式により有声／
無声判定した結果、有声／無声判定誤り率は２．５％と
いう値が得られ、従来方式に比べて大幅に低減された。

【００１１】

【発明の効果】本発明を実施することにより、背景雑音
の大きい場所から送話しても、有声／無声判定誤り率
を、入力音声に背景雑音が混入していない場合の有声／
無声判定誤り率についての一般的な目標値である２％程
度に近づけることができるため、受信復号側の再生音声
の品質向上に極めて大きい効果がある。

【図面の簡単な説明】

【図１】本発明の第１の実施例を示すブロック図であ
る。

【図２】本発明の第２の実施例を示すブロック図であ
る。

【図３】遅れ時間と予測残差信号の相関値の関係図であ
る。

【図４】従来方式の構成例図である。

【図５】スペクトル包絡とＬＳＰ係数の関係図である。

【符号の説明】

１フレーム化器２線形予測分析器３線形予測分析フィルタ４相関値計算器５有声／無声判定器６ＬＳＰ係数導出器７ＬＳＰ係数間距離分散計算器８有声／無声判定器９判定器

───────────────────────────────────────────────────── フロントページの続き (72)発明者三宅正泰東京都港区虎ノ門二丁目３番13号国際電気株式会社内

Claims

【特許請求の範囲】

【請求項１】フレーム化された音声信号を線形予測分
析して線形予測係数を求める線形予測分析器と、該線形予測分析器からの線形予測係数を入力しスペクト
ル包絡の線スペクトル対係数を出力するＬＳＰ係数導出
器と、該ＬＳＰ係数導出器から得られる線スペクトル対係数間
の距離分散を出力するＬＳＰ係数間距離分散計算器と、該線スペクトル対係数間の距離分散を所定のしきい値と
比較し、該分散がしきい値より大きいとき有声、小さい
とき無声と判定してその結果を示す有声／無声フラグを
出力する有声／無声判定器とを備えた有声／無声判定回
路。
【請求項２】入力音声信号をフレーム化するフレーム
化器と、該フレーム化された音声信号を線形予測分析し
て線形予測係数を出力する線形予測分析器と、該線形予
測係数をフィルタの係数として用い前記フレーム化され
た音声信号から予測残差信号を求める線形予測フィルタ
と、該予測残差信号を入力して時間遅れなしのときの相
関値Ｒ₀と前記入力音声信号のピッチ周期τp に相当す
る時間遅れのときの相関値Ｒτp とを出力する相関値計
算器と、該２つの相関値の比Ｒτp ／Ｒ₀を所定のしき
い値と比較してその大小により有声／無声を判定して有
声／無声フラグを出力する第１の有声／無声判定器とを
備えた有声／無声判定回路において、前記線形予測分析器から得られる前記線形予測係数を入
力しスペクトル包絡の線スペクトル対係数を出力するＬ
ＳＰ係数導出器と、該ＬＳＰ係数導出器から得られる線スペクトル対係数間
の距離分散を出力するＬＳＰ係数間距離分散計算器と、該線スペクトル対係数間の距離分散を所定のしきい値と
比較し、該分散がしきい値より大きいとき有声、小さい
とき無声と判定してその結果を示す有声／無声フラグを
出力する第２の有声／無声判定器と、前記第１の有声／無声判定器と前記第２の有声／無声判
定器とからそれぞれ出力される判定結果が、両方とも有
声フラグのとき有声フラグを出力し、両方またはいずれ
か一方が無声フラグのとき無声フラグを出力する判定器
とを備えたことを特徴とする有声／無声判定回路。