JPH0619499A - 有声/無声判定回路 - Google Patents

有声/無声判定回路

Info

Publication number
JPH0619499A
JPH0619499A JP19741692A JP19741692A JPH0619499A JP H0619499 A JPH0619499 A JP H0619499A JP 19741692 A JP19741692 A JP 19741692A JP 19741692 A JP19741692 A JP 19741692A JP H0619499 A JPH0619499 A JP H0619499A
Authority
JP
Japan
Prior art keywords
voiced
coefficient
unvoiced
linear prediction
lsp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP19741692A
Other languages
English (en)
Inventor
Seiji Sasaki
誠司 佐々木
Osamu Watanabe
治 渡辺
Hiroki Goto
裕樹 後藤
Masayasu Miyake
正泰 三宅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kokusai Electric Corp
Original Assignee
Kokusai Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kokusai Electric Corp filed Critical Kokusai Electric Corp
Priority to JP19741692A priority Critical patent/JPH0619499A/ja
Publication of JPH0619499A publication Critical patent/JPH0619499A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【目的】分析合成系音声符号化方式の符号化装置におけ
る入力音声の有声/無声判定が背景雑音により誤判定と
なる判定誤り率を低減する。 【構成】フレーム化器1によってフレーム化された信号
bを線形予測分析器2によって線形予測係数cを求め、
その線形予測係数cをLSP係数導出器6によってLS
P(線スペクトル対)係数eに変換した後、その分散を
LSP係数間距離分散計算器7で求め、所定のしきい値
2 を有声/無声判定器8に与えて背景雑音を確実に無
声と判定させるように構成した。 【効果】受信復号装置における再生音声品質が向上す
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は分析合成系音声符号化方
式の符号化装置に用いられる有声/無声判定回路に関す
る。
【0002】
【従来の技術】低ビットレート(2.4kbps程度)
の音声符復号装置には分析合成符号化方式が適用される
のが一般的である。最も代表的な分析合成符号化方式と
してはLPCボコーダと呼ばれる線形予測分析による音
声符号化方式がある。この方式では、予測残差信号をパ
ルス列あるいは雑音にモデル化して情報圧縮している。
入力音声が有声区間である場合はパルス列が用いられ、
入力音声が無声区間である場合は雑音が用いられる。こ
こで重要なのは、符号化しようとしている音声フレーム
が有声区間であるか無声区間であるかの正確な判定であ
る。この判定誤りが多発すると再生音声は聴感上で劣化
が生じるので、判定誤り率を2%以下に抑える必要があ
る。
【0003】従来技術としてLPCボコーダの有声/無
声判定法について説明する。LPCボコーダでは、有声
/無声の判定は音源(予測残差信号)の周期性の度合で
決まる。周期性の度合は、入力音声信号のピッチ周期τ
pに当たる時間遅れ(τ=τp)での予測残差信号相関
Rτp を、時間遅れなし(τ=0)での予測残差信号相
関R0 で正規化した値の大小で調べる。図4に時間遅れ
τとRτ/R0 (R0 で正規化された時間遅れτでの予
測残差信号相関Rτ)の関係を示す。ここで、有声/無
声判定は次の条件式によって行われる。 Rτp /R0 ≧0.25ならば 有声区間 Rτp /R0 <0.25ならば 無声区間 図3は従来の有声/無声判定器の構成例図である。例え
ば8kHzで標本化された入力音声aはフレーム化器1
により1フレーム20msecに分割されbとなりその
後はフレーム毎に処理される。bは線形予測分析器2に
より線形予測分析され、その結果として線形予測係数c
が得られる。cは線形予測分析フィルタ3の係数として
用いられ、bは線形予測フィルタリングされ、予測残差
信号dが得られる。dは相関値計算器4に入力され、時
間遅れなし(τ=0)での予測残差信号相関(R0 )お
よび入力音声信号のピッチ周期τpに当たる時間遅れ
(τ=τp)での予測残差信号相関(Rτp )が計算さ
れて出力される。この2つの相関値R0 ,Rτp は有声
/無声判定器15に入力され上記の条件に基づき有声/
無声判定が実行される。ここで、経験から求められるし
きい値g1 (例えば0.25)が与えられている。判定
結果である有声/無声フラグh1 は、例えば有声ならば
0、無声ならば1と設定される。
【0004】
【発明が解決しようとする課題】上記従来の回路構成に
おいて、送話者が周囲の背景雑音の少ない場所、例えば
静かな事務室などに居る場合は特に問題はないが、一般
的には背景雑音の存在を無視することはできない。従来
の方式で問題となるのは、有声/無声判定において音声
中の音源である予測残差信号の周期性を調べているのみ
であり、音声の音色を表す情報であるスペクトル包絡に
ついては考慮していないことである。つまり、音声は特
有のスペクトル包絡を有するため有声/無声判定にこれ
を用いれば有効であるにもかかわらず、使用していない
ことである。このため、周期性を有する背景雑音が入力
音声に混在している場合、背景雑音区間(音声とは異な
るスペクトル包絡を有する)が有声区間であると誤って
判定されてしまう。実例として、航空機内で録音した音
声(信号対雑音比15dB)に対して従来の方式により
有声/無声判定した結果の有声/無声判定誤り率は21
%と大きな値を示した。ここで、有声/無声判定誤り率
とは、有声/無声判定が誤ったフレーム数(入力音声の
サウンドスペクトログラムを目視することにより求め
る)を全入力音声フレーム数で除算したものである。こ
の結果、再生音声には“ビリビリ”という異音が目立つ
ようになる。この原因は、分析合成系のLPCボコーダ
では人間の音声のピッチ周期範囲は2.5〜20ms
(50〜400Hg)であるという事実に基づいてピッ
チ周期抽出を行っているので、たとえ背景雑音に周期性
があったとしてもピッチ周期がこの範囲を逸脱するため
分析合成が正常に行われないためである。この現象は、
背景雑音区間だけでなく、音声信号中の無声区間につい
ても同様に生じる。従って、より正確な有声/無声判定
方法が求められている。本発明の目的は、有声区間と無
声区間でそれぞれに適した音源を用いる分析合成系音声
符号化方式における再生音声品質を、送話側の背景雑音
が大きい場合でも向上させて、有声/無声判定誤り率を
2%程度に近づけるようにした有声/無声判定回路を提
供することにある。ここで、2%という値は、入力音声
に背景雑音が混入していない場合の有声/無声判定誤り
率についての一般的な目標値である。
【0005】
【課題を解決するための手段】請求項1記載の本発明の
有声/無声判定回路は、フレーム化された音声信号を線
形予測分析して線形予測係数を求める線形予測分析器
と、該線形予測分析器からの線形予測係数を入力しスペ
クトル包絡の線スペクトル対係数を出力するLSP係数
導出器と、該LSP係数導出器から得られる線スペクト
ル対係数間の距離分散を出力するLSP係数間距離分散
計算器と、該線スペクトル対係数間の距離分散を所定の
しきい値と比較し、該分散がしきい値より大きいとき有
声、小さいとき無声と判定してその結果を示す有声/無
声フラグを出力する有声/無声判定器とを備えたことを
特徴とするものである。以下この請求項1記載の本発明
の技術思想について説明する。本発明は、有声/無声判
定において音声中の音源の周期性を調べるのみではな
く、音声の音色を表す情報であるスペクトル包絡につい
て音声(有声区間および無声区間)と背景雑音の性質の
違いを識別することにより、有声/無声判定を行う際、
背景雑音区間を有声区間であると誤判定する判定誤りを
低減するものである。本発明は、スペクトル包絡情報と
してLSP(線スペクトル対)係数を考え、その係数間
の距離の分散により有声/無声判定を行うようにしたこ
とを要旨とする。ここで、LSP係数とは、線系予測係
数から導出される係数で、線形予測係数と等価なスペク
トル包絡情報を表す。この係数の特徴としては、実際の
音声のスペクトル包絡と直接的な関係があることであ
る。
【0006】図5(A)に音声信号の有声区間でのスペ
クトル包絡とLSP係数の関係を示す。同図では、線ス
ペクトルが立っている周波数(f1 〜f10)が示されて
いるが、これらfi がLSP係数である。この図からわ
かるように、スペクトル包絡のピーク(ホルマントと呼
ぶ)の近傍でLSP係数間の距離di (=fi+1
i )が小さくなり、このピークが鋭くなるほどdi
小さくなる。これに対してスペクトル包絡の谷間の部分
では距離di は大きく現れる。本発明では、このような
LSP係数の性質を音声(有声区間および無声区間)と
背景雑音の識別に利用する。図5(A)に示すように、
音声信号の有声区間でのLSP係数の典型的な出方とし
て3または4個のホルマントが生じ、音声の無声区間の
場合も数個のホルマントが生じるため、LSP係数間距
離di のばらつき(分散)は大きくなる。これに対し
て、背景雑音の典型的なLSP係数の出方は図5(B)
に示すようにスペクトル包絡が平坦(ホルマントが生じ
ない)なため、LSP係数間距離di のばらつき(分
散)が小さい。従って、di の分散を計算し、その分散
の値をしきい値と比較して判別することにより、音声
(有声区間および無声区間)と背景雑音の識別ができ
る。しきい値は、予め音声および背景雑音でのLSP係
数間距離di の分散を観測することにより求められる。
この詳細については第1の実施例で説明する。上述の手
段により、背景雑音区間を有声区間であると誤判定する
判定誤りを低減することができる。
【0007】次に、請求項2記載の本発明の有声/無声
判定回路は、入力音声信号をフレーム化するフレーム化
器と、該フレーム化された音声信号を線形予測分析して
線形予測係数を出力する線形予測分析器と、該線形予測
係数をフィルタの係数として用い前記フレーム化された
音声信号から予測残差信号を求める線形予測フィルタ
と、該予測残差信号を入力して時間遅れなしのときの相
関値R0 と前記入力音声信号のピッチ周期τp に相当す
る時間遅れのときの相関値Rτp とを出力する相関値計
算器と、該2つの相関値の比Rτp /R0 を所定のしき
い値と比較してその大小により有声/無声を判定して有
声/無声フラグを出力する第1の有声/無声判定器とを
備えた有声/無声判定回路において、前記線形予測分析
器から得られる前記線形予測係数を入力しスペクトル包
絡の線スペクトル対係数を出力するLSP係数導出器
と、該LSP係数導出器から得られる線スペクトル対係
数間の距離分散を出力するLSP係数間距離分散計算器
と、該線スペクトル対係数間の距離分散を所定のしきい
値と比較し、該分散がしきい値より大きいとき有声、小
さいとき無声と判定してその結果を示す有声/無声フラ
グを出力する第2の有声/無声判定器と、前記第1の有
声/無声判定器と前記第2の有声/無声判定器とからそ
れぞれ出力される判定結果が、両方とも有声フラグのと
き有声フラグを出力し、両方またはいずれか一方が無声
フラグのとき無声フラグを出力する判定器とを備えたこ
とを特徴とするものである。この請求項2記載の発明
は、前記請求項1記載の発明に加えて、さらに、音声中
の無声区間を有声区間であると誤判定する判定誤りを低
減するものであり、前記本発明と予測残差信号相関を使
用した従来方式を併用したものである。この方式では、
無声区間の信号は、スペクトル包絡にホルマントが存在
するためdi の分散が大きくなり有声区間と誤判定され
ても、無声区間における音源は周期性を有していないた
め最終的には無声区間であると正確に判定される。この
詳細については第2の実施例で説明する。
【0008】
【実施例】図1は本発明の第1の実施例を示すブロック
図である。この実施例は、LSP係数間距離の分散を用
いた有声/無声判定器の構成を示す。例えば、8kHz
で標本化された入力音声aはフレーム化器1により1フ
レーム20msecに分割されbとなりその後はフレー
ム毎に処理される。bは線形予測分析器2により線形予
測分析され、その結果として線形予測係数cが得られ
る。線形予測係数cはLSP係数導出器6によりLSP
係数eに変換される。LSP係数eはLSP係数間距離
の分散計算器7に入力され、分散fが得られる。有声/
無声判定器8では、分散fととしきい値g2 (例えば1
300Hz2 )とを比較し、しきい値以上であれば有
声、しきい値より小さければ無声と判定する。判定結果
である有声/無声フラグh2 は、例えば有声ならば0、
無声ならば1と設定される。上記のLSP係数間距離の
分散計算器7内の処理は、例えば次のように行われる。
線形予測分析器2内での分析次数を10次とすれば、L
SP係数導出器6で導出されるLSP係数は図5のよう
に10次となる。ここで、LSP係数間距離di (=f
i+1 −fi )はd1 〜d9 の9個が考えられる。LSP
係数間距離の分散計算器7による分散の算出は次式で行
われる。
【0009】
【数1】 ただし、バーdはd1 〜d9 の平均値であり、分散次数
が10次の場合はn=9となる。また、di の単位はH
zなので、分散の単位はHz2 となる。このようにして
算出された分散は、有声/無声判定器8でしきい値と比
較される。従来方式と同様の入力音声(信号対雑音比1
5dBの航空機内で録音した音声)に対してこの方式に
より有声/無声判定した結果、有声/無声判定誤り率は
10%となり従来方式に対し半減した。
【0010】図2は本発明の第2の実施例を示すブロッ
ク図である。この実施例は、LSP係数間距離の分散お
よび従来方式(予測残差信号相関)を併用した有声/無
声判定器の構成を示す。ここで、点線で囲まれたブロッ
ク10は従来方式(図3)と全く同じ構成であり、ブロ
ック11は第1の実施例(図1)と全く同じ構成であ
る。これらの有声/無声フラグをそれぞれh1 ,h2
すれば、判定器9の動作は次のようになる。 (1) 最終的な結果である有声/無声フラグkを有声
と設定する。 (2) もし、h1 ,h2 のうちどちらか、または両方
が無声であればh3 を無声とする。そうでなければ、k
は有声のままとする。 (3) kは、例えば有声ならば0、無声ならば1と設
定される。 従来方式と同様の入力音声(信号対雑音比15dBの航
空機内で録音した音声)に対してこの方式により有声/
無声判定した結果、有声/無声判定誤り率は2.5%と
いう値が得られ、従来方式に比べて大幅に低減された。
【0011】
【発明の効果】本発明を実施することにより、背景雑音
の大きい場所から送話しても、有声/無声判定誤り率
を、入力音声に背景雑音が混入していない場合の有声/
無声判定誤り率についての一般的な目標値である2%程
度に近づけることができるため、受信復号側の再生音声
の品質向上に極めて大きい効果がある。
【図面の簡単な説明】
【図1】本発明の第1の実施例を示すブロック図であ
る。
【図2】本発明の第2の実施例を示すブロック図であ
る。
【図3】遅れ時間と予測残差信号の相関値の関係図であ
る。
【図4】従来方式の構成例図である。
【図5】スペクトル包絡とLSP係数の関係図である。
【符号の説明】
1 フレーム化器 2 線形予測分析器 3 線形予測分析フィルタ 4 相関値計算器 5 有声/無声判定器 6 LSP係数導出器 7 LSP係数間距離分散計算器 8 有声/無声判定器 9 判定器
───────────────────────────────────────────────────── フロントページの続き (72)発明者 三宅 正泰 東京都港区虎ノ門二丁目3番13号 国際電 気株式会社内

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 フレーム化された音声信号を線形予測分
    析して線形予測係数を求める線形予測分析器と、 該線形予測分析器からの線形予測係数を入力しスペクト
    ル包絡の線スペクトル対係数を出力するLSP係数導出
    器と、 該LSP係数導出器から得られる線スペクトル対係数間
    の距離分散を出力するLSP係数間距離分散計算器と、 該線スペクトル対係数間の距離分散を所定のしきい値と
    比較し、該分散がしきい値より大きいとき有声、小さい
    とき無声と判定してその結果を示す有声/無声フラグを
    出力する有声/無声判定器とを備えた有声/無声判定回
    路。
  2. 【請求項2】 入力音声信号をフレーム化するフレーム
    化器と、該フレーム化された音声信号を線形予測分析し
    て線形予測係数を出力する線形予測分析器と、該線形予
    測係数をフィルタの係数として用い前記フレーム化され
    た音声信号から予測残差信号を求める線形予測フィルタ
    と、該予測残差信号を入力して時間遅れなしのときの相
    関値R0 と前記入力音声信号のピッチ周期τp に相当す
    る時間遅れのときの相関値Rτp とを出力する相関値計
    算器と、該2つの相関値の比Rτp /R0 を所定のしき
    い値と比較してその大小により有声/無声を判定して有
    声/無声フラグを出力する第1の有声/無声判定器とを
    備えた有声/無声判定回路において、 前記線形予測分析器から得られる前記線形予測係数を入
    力しスペクトル包絡の線スペクトル対係数を出力するL
    SP係数導出器と、 該LSP係数導出器から得られる線スペクトル対係数間
    の距離分散を出力するLSP係数間距離分散計算器と、 該線スペクトル対係数間の距離分散を所定のしきい値と
    比較し、該分散がしきい値より大きいとき有声、小さい
    とき無声と判定してその結果を示す有声/無声フラグを
    出力する第2の有声/無声判定器と、 前記第1の有声/無声判定器と前記第2の有声/無声判
    定器とからそれぞれ出力される判定結果が、両方とも有
    声フラグのとき有声フラグを出力し、両方またはいずれ
    か一方が無声フラグのとき無声フラグを出力する判定器
    とを備えたことを特徴とする有声/無声判定回路。
JP19741692A 1992-07-02 1992-07-02 有声/無声判定回路 Pending JPH0619499A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP19741692A JPH0619499A (ja) 1992-07-02 1992-07-02 有声/無声判定回路

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP19741692A JPH0619499A (ja) 1992-07-02 1992-07-02 有声/無声判定回路

Publications (1)

Publication Number Publication Date
JPH0619499A true JPH0619499A (ja) 1994-01-28

Family

ID=16374158

Family Applications (1)

Application Number Title Priority Date Filing Date
JP19741692A Pending JPH0619499A (ja) 1992-07-02 1992-07-02 有声/無声判定回路

Country Status (1)

Country Link
JP (1) JPH0619499A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001033548A1 (fr) * 1999-10-29 2001-05-10 Fujitsu Limited Dispositif et procede de reglage du debit dans un systeme de codage de la parole a debit variable

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59152497A (ja) * 1983-02-18 1984-08-31 富士通株式会社 音声分析合成システム
JPS63262693A (ja) * 1987-04-20 1988-10-28 日本電気株式会社 音声判定検出装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59152497A (ja) * 1983-02-18 1984-08-31 富士通株式会社 音声分析合成システム
JPS63262693A (ja) * 1987-04-20 1988-10-28 日本電気株式会社 音声判定検出装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001033548A1 (fr) * 1999-10-29 2001-05-10 Fujitsu Limited Dispositif et procede de reglage du debit dans un systeme de codage de la parole a debit variable

Similar Documents

Publication Publication Date Title
US7257535B2 (en) Parametric speech codec for representing synthetic speech in the presence of background noise
RU2507609C2 (ru) Способ и дискриминатор для классификации различных сегментов сигнала
EP2030199B1 (en) Linear predictive coding of an audio signal
US6687668B2 (en) Method for improvement of G.723.1 processing time and speech quality and for reduction of bit rate in CELP vocoder and CELP vococer using the same
US20040243402A1 (en) Speech bandwidth extension apparatus and speech bandwidth extension method
KR20010040669A (ko) 잡음 보상되는 음성 인식 시스템 및 방법
US4589131A (en) Voiced/unvoiced decision using sequential decisions
EP2187390B1 (en) Speech signal decoding
JPH1097296A (ja) 音声符号化方法および装置、音声復号化方法および装置
US5267317A (en) Method and apparatus for smoothing pitch-cycle waveforms
EP1533791A3 (en) Voice/unvoice determination and dialogue enhancement
SE470577B (sv) Förfarande och anordning för kodning och/eller avkodning av bakgrundsljud
JP2000163096A (ja) 音声符号化方法及び音声符号化装置
JPH08254994A (ja) 分類化及び輪郭の目録(インベントリー)による音声符号化パラメータの配列の再構成
JP2002140099A (ja) 音声復号化装置
KR0155315B1 (ko) Lsp를 이용한 celp보코더의 피치 검색방법
EP0421360B1 (en) Speech analysis-synthesis method and apparatus therefor
JPH0619499A (ja) 有声/無声判定回路
JP2000235400A (ja) 音響信号符号化装置、復号化装置、これらの方法、及びプログラム記録媒体
JPH06118993A (ja) 有声/無声判定回路
EP0537948B1 (en) Method and apparatus for smoothing pitch-cycle waveforms
Yu et al. Harmonic+ noise coding using improved V/UV mixing and efficient spectral quantization
JP3468862B2 (ja) 音声符号化装置
KR100399057B1 (ko) 이동통신 시스템의 음성 활성도 측정 장치 및 그 방법
Chong-White et al. An intelligibility enhancement for the mixed excitation linear prediction speech coder