JPH11119796A - 音声信号区間検出方法及び装置 - Google Patents

音声信号区間検出方法及び装置

Info

Publication number
JPH11119796A
JPH11119796A JP9285457A JP28545797A JPH11119796A JP H11119796 A JPH11119796 A JP H11119796A JP 9285457 A JP9285457 A JP 9285457A JP 28545797 A JP28545797 A JP 28545797A JP H11119796 A JPH11119796 A JP H11119796A
Authority
JP
Japan
Prior art keywords
level
section
minimum level
input signal
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9285457A
Other languages
English (en)
Other versions
JP3896654B2 (ja
Inventor
Kazuyuki Iijima
和幸 飯島
Masayuki Nishiguchi
正之 西口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP28545797A priority Critical patent/JP3896654B2/ja
Publication of JPH11119796A publication Critical patent/JPH11119796A/ja
Application granted granted Critical
Publication of JP3896654B2 publication Critical patent/JP3896654B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 従来の背景雑音区間検出方法では、設定され
たレベル以下の音声が入力されれば、それは背景雑音で
あると判断されてしまう。逆に背景雑音のレベルが、設
定されたレベルよりも高いときは、背景雑音と判断され
ることがない。 【解決手段】 最小レベル演算部3は、入力端子1から
実効(root mean square、r.m.s)値演算部2を介して
入力された入力信号(実効値)の最小レベルを所定時間
区間、例えば20msecで検出し、この最小レベルを保持
する。リファレンスレベル演算部5は、入力信号実効値
からリファレンスレベルを演算により求める。パラメー
タ生成部8は、最小レベル演算部4からの最小レベルと
リファレンスレベル演算部5からのリファレンスレベル
とを比較する比較部7からの比較結果と、V/UV判定
部3からのV/UV判定結果に基づいて上記idVUVパラ
メータを出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力信号が有声音
又は無声音からなる音声信号区間であるか或いは背景雑
音区間であるかを検出する音声信号区間検出方法及び装
置に関する。
【0002】
【従来の技術】近年、普及が著しい携帯用電話装置は、
室外で使用する事が多いので、周囲の背景雑音により、
しばしば通話が聞きずらくなることがある。これは、雑
音によるマスキング効果によって受話者の最少可聴値が
上昇してしまい、受話音声の明瞭度や了解度が劣化する
ためである。これに対して、送話側では雑音の抑圧又は
話者の声量のアップ、受話側では再生音量のアップ、又
全体として話者と電話器の密接な音響カップリング等が
必要になる。このため、携帯用電話装置には回りの環境
に応じて受話音量を手動で切り換えるスイッチがある。
【0003】ところで、上述したように携帯用電話装置
を使用する際、回りの環境に応じて受話音量を手動で切
り換えるのは面倒である。この受話音量の切り換えを自
動で行えるようになれば便利である。
【0004】この受話音量の切り換えを自動で行おうと
する場合、回りの雑音レベルを正確に検出できるか否か
が問題となってくる。通話中に入力音声用(送話用)の
マイクロフォンから混入する雑音には様々なものがある
がこれらの雑音(以下背景雑音という)と音声信号区間
を分離するには、ある適当なレベルを予め設定し、その
レベル以上であれば音声信号区間とし、それ以下であれ
ば背景雑音区間とするという方法があった。
【0005】
【発明が解決しようとする課題】ところで、上記背景雑
音区間検出方法では、設定されたレベル以下の音声が入
力されれば、それは背景雑音であると判断されてしま
う。逆に背景雑音のレベルが、設定されたレベルよりも
高いときは、背景雑音と判断されることがない。このよ
うに、背景雑音区間を音声信号区間と区別するのは、従
来から困難であった。
【0006】本発明は、上記実情に鑑みてなされたもの
であり、背景雑音のレベルによることなく、音声信号区
間と背景雑音区間との高精度な区別が可能な音声信号区
間検出方法及び装置の提供を目的とする。
【0007】
【課題を解決するための手段】本発明に係る音声信号区
間検出方法は、上記課題を解決するために、所定時間区
間で入力信号から最小レベルを検出し、この最小レベル
を保持する最小レベル演算工程と、上記入力信号からリ
ファレンスレベルを演算により求めるリファレンスレベ
ル演算工程とを備え、上記最小レベル演算工程からの最
小レベルと上記リファレンスレベル演算工程からのリフ
ァレンスレベルとに基づいて上記入力信号の音声信号区
間を検出する。
【0008】このため、最小レベルを更新しながら、そ
れを元に音声信号区間と背景雑音区間とのしきい値(ス
レショルド)を変化できるので、このスレショルドとリ
ファレンスレベルを比較することにより音声信号区間と
背景雑音区間との高精度な区別を可能とする。
【0009】また、上記入力信号が有声音であるか無声
音であるかを判定する有声音/無声音判定工程を備え、
上記最小レベル演算工程はこの有声音/無声音判定工程
からの判定結果に基づいて上記最小レベルを演算する。
【0010】また、上記有声音/無声音判定工程からの
判定結果に基づいて上記音声信号区間を検出する。具体
的には、上記最小レベル演算工程からの最小レベルと上
記リファレンスレベル演算工程からのリファレンスレベ
ルとを比較する比較工程を備え、この比較工程からの比
較結果と上記有声音/無声音判定工程からの判定結果に
基づいて、入力信号の音声信号区間を検出する。
【0011】また、本発明に係る音声信号区間検出装置
は、上記課題を解決するために、所定時間区間で入力信
号から最小レベルを検出し、この最小レベルを保持する
最小レベル演算手段と、上記入力信号からリファレンス
レベルを演算により求めるリファレンスレベル演算手段
とを備え、上記最小レベル演算手段からの最小レベルと
上記リファレンスレベル演算手段からのリファレンスレ
ベルとに基づいて上記入力信号の音声信号区間を検出す
る。
【0012】このため、最小レベルを更新しながら、そ
れを元に音声信号区間と背景雑音区間とのしきい値(ス
レショルド)を変化できるので、このスレショルドとリ
ファレンスレベルを比較することにより音声信号区間と
背景雑音区間との高精度な区別を可能とする。
【0013】
【発明の実施の形態】以下、本発明に係る音声信号区間
検出方法及び装置の実施の形態について図面を参照しな
がら説明する。
【0014】この実施の形態は、本発明に係る音声信号
区間検出方法の上記各工程を適用して実行する音声信号
区間検出装置の具体例となる図1に示す入力信号判定装
置21である。
【0015】図1において、この入力信号判定装置21
は、入力端子1から実効(root mean square、r.m.s)
値演算部2を介して入力された入力信号(実効値)の最
小レベルを所定時間区間、例えば20msecで検出し、こ
の最小レベルを保持する最小レベル演算部4と、上記実
効値演算部2からの入力信号実効値からリファレンスレ
ベルを演算により求めるリファレンスレベル演算部5と
を備え、最小レベル演算部4からの最小レベルとリファ
レンスレベル演算部5からのリファレンスレベルとに基
づいて上記入力信号が所定時間区間で有声音(Voic
e)、又は無声音(UnVoice)であるか、又は背景雑音で
あるかを判定する。そして、上記無声音であることを示
す“0”、上記背景雑音であることを示す“1”、第1
有声音であることを示す“2”、又は第2有声音である
ことを示す“3”というV/UV判定の結果を示すidVU
Vパラメータを出力する。
【0016】また、この入力信号判定装置21は、上記
実効値演算部2からの入力信号実効値の所定時間区間分
に対して仮に有声音(V)/無声音(UV)とを判定す
るV/UV判定部3を備え、最小レベル演算部4にV/
UV判定結果を供給する。最小レベル演算部4は、この
V/UV判定結果に基づいて上記最小レベルを演算す
る。
【0017】また、V/UV判定部3からのV/UV判
定結果はパラメータ生成部8にも供給される。このパラ
メータ生成部8は、出力端子105から上記idVUVパラ
メータを出力する。
【0018】このパラメータ生成部8は、最小レベル演
算部4からの最小レベルとリファレンスレベル演算部5
からのリファレンスレベルとを比較する比較部7からの
比較結果と、上記V/UV判定部3からのV/UV判定
結果に基づいて上記idVUVパラメータを出力する。
【0019】以下、この入力信号判定装置21の動作に
ついて説明する。例えば、走行している電車の中では、
背景雑音のレベルが高い。そこで、周りの雑音に合わせ
てしきい値(スレショルド)を決定することが望まし
い。
【0020】そこで、上記最小レベル演算部4では、適
当な所定時間区間で一番小さいレベルを最小レベルと
し、その最小レベルを上記所定時間毎に更新していく。
【0021】図2は、最小レベル演算部4のアルゴリズ
ムを示すフローチャートである。このフローチャートで
は、最小レベルの更新(トラッキング)を、最小レベル
候補値cdLevのセットとクリア、及び最小レベルgmlのセ
ットとクリアに大きく分けている。
【0022】先ず、ステップS1で、V/UV判定部3
からのV/UV判定結果に基づいて有声音フレームの連
続回数vContが4より多い整数となるかを判断する。す
なわち、有声音Vと判断されたフレームが4より大きな
整数回、つまり5フレーム連続したか否かを判断する。
ここで、有声音フレームが5フレーム以上連続している
場合は、音声区間に入っていると判断し、ステップS2
に進み、最小レベル候補値cdLevをクリアする。このス
テップS2では、候補値が設定され続けた回数gmlSetSt
ateは0である。一方、ステップS1で、有声音フレー
ムの連続回数vContが4以下であると判断すると、ステ
ップS3に進む。
【0023】ステップS3では、現在の入力信号の実効
値演算部2を介した入力レベルlevが最小レベルの最低
値MIN_GMLより小さいか否かを判断する。ここでいう、
最小レベルの最低値MIN_GMLは、最小レベルgmlが0とな
らないように決定されている。ここで、入力レベルlev
が最小レベルの最低値MIN_GMLより小さいと判断する
と、ステップS4で上記最小レベルの最低値MIN_GMLを
最小レベルgmlとして設定する。このステップS4で
は、候補値が設定され続けた回数gmlSetStateと、最小
レベルが設定された後、候補値が設定されていない回数
gmlResetStateとは0である。一方、ステップS3で現
在の入力レベルlevは最小レベルの最低値MIN_GML以上で
あると判断するとステップS5に進む。
【0024】ステップS5では、現在の入力レベルlev
が最小レベルgmlより小さいか否かを判断する。ここで
YESとなれば、ステップS6に進む。すなわち、この
ステップS6は、上記ステップS3の判断で現在の入力
レベルlevが最小レベルの最低値MIN_GML以上であり、さ
らに上記ステップS5で現在の入力レベルlevが最小レ
ベルgmlより小さいと判断されたときに、その入力レベ
ルlevを最小レベルgmlとして設定する。一方、このステ
ップS5で現在の入力レベルlevが最小レベルgml以上で
あると判断すると、ステップS7に進む。
【0025】ステップS7では、現在の入力レベルが充
分小さいか、候補値cdLevとの変動が小さいか否かを判
断する。このステップS7では、現在の入力レベルが充
分小さいか、候補値cdLevとの変動が小さいかという判
断を、status0であるか否かで判断している。status0
は、入力レベルlevが100.0以下というように充分小さい
か、又は、入力レベルが500.0以下で候補値cdLev*0.70
より大きく、かつ候補値cdLev*1.30より小さいという
ように候補値cdLevとの変動が小さいことを表す状態で
ある。ここで、YESを選択し、現在の入力レベルが充
分小さいか、又は候補値cdLevとの変動が小さいと判断
すると、候補値cdLevが更新される。一方、NOを選択
するとステップS11に進む。
【0026】ステップS8では、候補値cdLevが更新さ
れ続けた回数gmlSetStateが7回以上であるか否か、す
なわち候補値cdLevの更新が7フレーム連続するか否か
を判断する。ここで、候補値cdLevの更新が7フレーム
以上連続したと判断すれば、ステップS9に進み、その
ときの入力レベルlevを最小レベルgmlとする。候補値cd
Levの更新が6フレーム以内であれば、NOとなり、ス
テップS10で入力レベルlevを候補値cdLevとする。
【0027】一方、ステップS7での判断でNOとなっ
た後に進んだステップS11では、1フレーム過去の入
力レベルprevLevと現在の入力レベルlevの変動が小さい
か否かを判断する。この1フレーム過去の入力レベルpr
evLevと現在の入力レベルlevの変動が小さいか否かの判
断は、status1であるか否かの判断で行っている。stat
us1は、現在の入力レベルlevが100.0以下というように
充分小さいか、又は現在の入力レベルlevが500.0以下で
1フレーム過去の入力レベルprevLev*0.70より大き
く、かつ1フレーム過去の入力レベルprevLev*1.30よ
り小さいというように1フレーム過去の入力レベルprev
Levとの変動が小さいことを表す状態である。ここで、
YESを選択し、現在の入力レベルが充分小さいか、又
は1フレーム過去の入力レベルと現在の入力レベルの変
動が小さい場合には、ステップS12に進み、現在の入
力レベルlevを最小レベル候補値cdLevに設定する。一
方、ステップS11で現在の入力レベルが小さくない
か、又は1フレーム過去の入力レベルと現在の入力レベ
ルの変動が小さくないと判断すると、ステップS13に
進む。
【0028】ステップS13では、最小レベルが設定さ
れた後、候補値が設定されていない回数gmlResetState
が40より大きいか否かを判断する。ここで、NOとな
り候補値が設定されていない回数gmlResetStateが40
以下であるときには、ステップS14で最小レベル候補
値cdLevをクリアし、予め定めた最小値をセットする。
一方ここで、YESとなり、候補値が設定されていない
回数gmlResetStateが40回を越えていると判断する
と、ステップS15に進み、最小レベルgmlは最小レベ
ルの最低値MIN_GMLに設定される。
【0029】以上のように最小レベルはある時間保持さ
れ、順次更新される。
【0030】次に、リファレンスレベル演算部5の動作
について図3を用いて説明する。このリファレンスレベ
ル演算部5は、リファレンスレベルrefLevを次の(1)
式で算出する。
【0031】 refLev=A×max(lev,refLev)+(1.0−A)×min(lev,refLev) ・・・(1) この(1)式において、入力端子6から与えるA=0.
75としたときの入力レベルlevとリファレンスレベルr
efLevとの関係を図3に示す。リファレンスレベルrefLe
vは、立ち上がりは入力レベルlevと同様に立ち上がる
が、立ち下がりでは緩やかに減少していく。このため、
上記リファレンスレベルを用いることで、音声信号区間
において、瞬間的にたまたまレベルが下がった状態を背
景雑音区間として判定してしまうことを防いでいる。こ
のように、リファレンスレベル演算部5は、瞬間的なレ
ベル変動に対してもある程度余裕を持たせるような滑ら
かなレベルを演算する。
【0032】比較部7は、最小レベル演算部4からの最
小レベルに所定の定数Bを掛けたB×gmlと上記リファ
レンスレベル演算部5からのリファレンスレベルrefLev
とを比較する。そして、その比較結果は、パラメータ生
成部8に送られる。
【0033】パラメータ生成部8は、V/UV判定部3
での判定結果により、Vと判定されたフレームについて
は、上記(1)式に示したリファレンスレベルrefLevが
最小レベルgmlのB倍より小さいか否かを調べ、小さい
ときには背景雑音区間と判断する。ただし、過去のV/
UV判断を調べ、Vのフレームが2フレーム以上連続し
ている場合は音声区間が始まっているものとし、背景雑
音区間と判断することはない。すなわち、現在のフレー
ムがVと判断されたときは、過去Vフレームが連続して
いるかを調べ、連続している場合には背景雑音モードに
入らない。これは、Vフレームが連続しているときに背
景雑音モードに入ると不連続感が生じるためである。
【0034】また、パラメータ生成部8は、V/UV判
定部3からの判定結果がUVと判定されたフレームにつ
いては、Vの場合と同様に、リファレンスレベルrefLev
が最小レベルgmlのB倍より小さいかを調べ、この条件
を4回満たした場合、背景雑音区間と判断する。すなわ
ち、UVと判断された場合は、4フレーム連続で上記条
件を満たした後、背景雑音区間と判断する。
【0035】なお、上記Bは適当な定数であり、ここで
は2.0と定める。また、このような定数とせずに入力
レベルlevの分散に比例した量とすることも考えられ
る。
【0036】そして、パラメータ生成部8は、出力端子
105からidVUVパラメータを出力する。
【0037】このようにして、入力信号判定装置21
は、最小レベルgmlを更新しながら、それを元に音声信
号区間と背景雑音区間とのしきい値(スレショルド)gm
l×Bを変化できるので、このスレショルドgml×Bとリ
ファレンスレベルrefLevを比較することにより音声信号
区間と背景雑音区間との高精度な区別を可能とする。
【0038】なお、この入力信号判定装置21は、図4
に示すような、携帯電話装置の音声符号化装置20内に
組み込むことができる。この携帯電話装置は、上記入力
信号判定装置(図4では入力信号判定部とする)21に
よる入力信号の判定結果を基に、音声符号化装置20で
の符号化のレートを可変する。
【0039】この携帯電話装置は、送信時には、マイク
ロホン1から入力された音声信号を、A/D変換器10
によりディジタル信号に変換し、音声符号化装置20に
より上記idVUVパラメータに基づいた可変レートの符号
化を施し、伝送路符号化器22により伝送路の品質が音
声品質に影響を受けにくいように符号化した後、変調器
23で変調し、送信機24で出力ビットに送信処理を施
し、アンテナ共用器25を通して、アンテナ26から送
信する。
【0040】また、受信時には、アンテナ26で捉えた
電波を、アンテナ共用器25を通じて受信機27で受信
し、復調器29で復調し、伝送路復号化器30で伝送路
誤りを訂正し、音声復号化装置31で復号し、D/A変
換器32でアナログ音声信号に戻して、スピーカ33か
ら出力する。
【0041】また、制御部34は上記各部をコントロー
ルし、シンセサイザ28は送受信周波数を送信機24、
及び受信機27に与えている。また、キーパッド35及
びLCD表示器36はマンマシンインターフェースに利
用される。
【0042】次に、有声音又は無声音区間に分けられる
音声信号区間と、背景雑音区間からなる入力信号を、入
力信号判定部21の判定結果idVUVパラメータに基づい
て、可変レートで符号化する音声符号化装置20につい
て説明する。
【0043】先ず、可変レートエンコードを説明してお
く。符号化パラメータの一種であるLSP量子化インデ
クス、及び励起パラメータインデクスを、以下の表1に
示すように、idVUV判定パラメータが“1”の背景雑音
のときには、1フレーム20msec当たり0ビットにして
しまう。idVUV判定パラメータが“0”の無声音、
“2,3”の有声音のときには、そのまま20mseec当た
り18ビット、及び20ビットとする。これにより可変
レートエンコードが実現できる。
【0044】
【表1】
【0045】ここで、idVUV判定パラメータの内の、V
/UV判定出力となる2ビットは、常に符号化されてい
る。なお、無声音時の励起パラメータインデクスとして
は、後述する雑音符号帳のコードブックのシェイプイン
デクスと、ゲインインデクスが挙げられる。上記LSP
量子化インデクス、シェイプインデクス及びゲインイン
デクスについては後述する。
【0046】この音声符号化装置の構成を図5、図6に
示す。図5の音声符号化装置20の基本的な考え方は、
入力音声信号の短期予測残差例えばLPC(線形予測符
号化)残差を求めてサイン波分析(sinusoidal analysi
s )符号化、例えばハーモニックコーディング(harmon
ic coding )を行う第1の符号化部110と、入力音声
信号に対して位相伝送を行う波形符号化により符号化す
る第2の符号化部120とを有し、入力信号の有声音
(V:Voiced)の部分の符号化には第1の符号化部11
0を用い、入力信号の無声音(UV:Unvoiced)の部分
の符号化には第2の符号化部120を用いるようにする
ことである。
【0047】上記第1の符号化部110には、例えばL
PC残差をハーモニック符号化やマルチバンド励起(M
BE)符号化のようなサイン波分析符号化を行う構成が
用いられる。上記第2の符号化部120には、例えば合
成による分析法を用いて最適ベクトルのクローズトルー
プサーチによるベクトル量子化を用いた符号励起線形予
測(CELP)符号化の構成が用いられる。
【0048】図5の例では、入力端子101に供給され
た音声信号が、第1の符号化部110のLPC逆フィル
タ111及びLPC分析・量子化部113に送られてい
る。LPC分析・量子化部113で得られたLPC係数
あるいはいわゆるαパラメータは、LPC逆フィルタ1
11に送られて、このLPC逆フィルタ111により入
力音声信号の線形予測残差(LPC残差)が取り出され
る。また、LPC分析・量子化部113からは、後述す
るようにLSP(線スペクトル対)の量子化出力が取り
出され、これが出力端子102に送られる。LPC逆フ
ィルタ111からのLPC残差は、サイン波分析符号化
部114に送られる。サイン波分析符号化部114で
は、ピッチ検出やスペクトルエンベロープ振幅計算が行
われると共に、上記入力信号判定部21と同一構成の入
力信号判定部115により入力信号の上記idVUVパラメ
ータが求められる。サイン波分析符号化部114からの
スペクトルエンベロープ振幅データはベクトル量子化部
116に送られる。スペクトルエンベロープのベクトル
量子化出力としてのベクトル量子化部116からのコー
ドブックインデクスは、スイッチ117を介して出力端
子103に送られ、サイン波分析符号化部114からの
ピッチ出力は、スイッチ118を介して出力端子104
に送られる。また、入力信号判定部115からのidVUV
判定パラメータ出力は出力端子105に送られると共
に、スイッチ117、118及び図3に示すスイッチ1
19の制御信号に使われる。スイッチ117、118
は、上記制御信号により有声音(V)のとき上記インデ
クス及びピッチを選択して各出力端子103及び104
からそれぞれ出力する。
【0049】また、上記ベクトル量子化部116でのベ
クトル量子化の際には、例えば、周波数軸上の有効帯域
1ブロック分の振幅データに対して、ブロック内の最後
のデータからブロック内の最初のデータまでの値を補間
するようなダミーデータ,又は最後のデータ及び最初の
データを延長するようなダミーデータを最後と最初に適
当な数だけ付加してデータ個数をNF 個に拡大した後、
帯域制限型のOS 倍(例えば8倍)のオーバーサンプリ
ングを施すことによりOS 倍の個数の振幅データを求
め、このOS 倍の個数((mMX+1)×OS 個)の振幅
データを直線補間してさらに多くのNM 個(例えば20
48個)に拡張し、このNM 個のデータを間引いて上記
一定個数M(例えば44個)のデータに変換した後、ベ
クトル量子化している。
【0050】図5の第2の符号化部120は、この例で
はCELP(符号励起線形予測)符号化構成を有してお
り、雑音符号帳121からの出力を、重み付きの合成フ
ィルタ122により合成処理し、得られた重み付き音声
を減算器123に送り、入力端子101に供給された音
声信号を聴覚重み付けフィルタ125を介して得られた
音声との誤差を取り出し、この誤差を距離計算回路12
4に送って距離計算を行い、誤差が最小となるようなベ
クトルを雑音符号帳121でサーチするような、合成に
よる分析(Analysis by Synthesis )法を用いたクロー
ズドループサーチを用いた時間軸波形のベクトル量子化
を行っている。このCELP符号化は、上述したように
無声音部分の符号化に用いられており、雑音符号帳12
1からのUVデータとしてのコードブックインデクス
は、上記入力信号判定部115からのidVUV判定パラメ
ータが無声音(UV)のときオンとなるスイッチ127
を介して、出力端子107より取り出される。
【0051】また、スイッチ127の制御信号となるid
VUV判定パラメータが“1”となり入力信号が背景雑音
信号であると判定したときには、所定時間、例えば8フ
レーム分の時間をおいて無声音時の複数のパラメータ、
例えば雑音符号帳121からのUVデータとしてのシェ
イプインデクスやゲインインデクスを送る。
【0052】次に、上記図5に示した音声信号符号化装
置のより具体的な構成について、図3を参照しながら説
明する。なお、図6において、上記図5の各部と対応す
る部分には同じ指示符号を付している。
【0053】この図6に示された音声信号符号化装置に
おいて、入力端子101に供給された音声信号は、ハイ
パスフィルタ(HPF)109にて不要な帯域の信号を
除去するフィルタ処理が施された後、LPC(線形予測
符号化)分析・量子化部113のLPC分析回路132
と、LPC逆フィルタ回路111とに送られる。
【0054】LPC分析・量子化部113のLPC分析
回路132は、入力信号波形の256サンプル程度の長
さを1ブロックとしてハミング窓をかけて、自己相関法
により線形予測係数、いわゆるαパラメータを求める。
データ出力の単位となるフレーミングの間隔は、160
サンプル程度とする。サンプリング周波数fsが例えば
8kHzのとき、1フレーム間隔は160サンプルで20
msec となる。
【0055】LPC分析回路132からのαパラメータ
は、α→LSP変換回路133に送られて、線スペクト
ル対(LSP)パラメータに変換される。これは、直接
型のフィルタ係数として求まったαパラメータを、例え
ば10個、すなわち5対のLSPパラメータに変換す
る。変換は例えばニュートン−ラプソン法等を用いて行
う。このLSPパラメータに変換するのは、αパラメー
タよりも補間特性に優れているからである。
【0056】α→LSP変換回路133からのLSPパ
ラメータは、LSP量子化器134によりマトリクスあ
るいはベクトル量子化される。このとき、このLSP量
子化器134は、リーキングファクタを有する差分ベク
トル量子化(差分VQ)を行っても良い。差分VQの量
子化効率はマトリクス量子化(MQ)に比べると優れて
おり、また、MQのように量子化誤差が一方のフレーム
に偏ることがないため、滑らかで異音の少ない音声が得
られる。しかし、差分VQでは一度エラーが起こると、
その影響がしばらく続くので、差分のリーク量を大目に
とるようにしている。しかし、入力信号判定部115
で、背景雑音と判断されたときには、LSPは送らない
ので、LSP量子化器134では、差分量子化の一種で
ある上記差分VQを行わない。
【0057】このLSP量子化器134からの量子化出
力、すなわちLSP量子化のインデクスは、スイッチ1
19によって切り換えられてから、端子102を介して
取り出され、また量子化済みのLSPベクトルは、LS
P補間回路136に送られる。ここで、スイッチ119
は、上記入力信号判定部115からのidVUV判定フラグ
により切り換えが制御され、例えば有声音(V)のとき
にオンとなる。
【0058】また、LSP補間回路136は、20mse
c毎に量子化されたLSPのベクトルを補間し、8倍の
レートにする。すなわち、2.5msec 毎にLSPベク
トルが更新されるようにする。これは、残差波形をハー
モニック符号化復号化方法により分析合成すると、その
合成波形のエンベロープは非常になだらかでスムーズな
波形になるため、LPC係数が20msec 毎に急激に変
化すると異音を発生することがあるからである。すなわ
ち、2.5msec 毎にLPC係数が徐々に変化してゆく
ようにすれば、このような異音の発生を防ぐことができ
る。
【0059】このような補間が行われた2.5msec 毎
のLSPベクトルを用いて入力音声の逆フィルタリング
を実行するために、LSP→α変換回路137により、
LSPパラメータを例えば10次程度の直接型フィルタ
の係数であるαパラメータに変換する。このLSP→α
変換回路137からの出力は、上記LPC逆フィルタ回
路111に送られ、このLPC逆フィルタ111では、
2.5msec 毎に更新されるαパラメータにより逆フィ
ルタリング処理を行って、滑らかな出力を得るようにし
ている。このLPC逆フィルタ111からの出力は、サ
イン波分析符号化部114、具体的には例えばハーモニ
ック符号化回路、の直交変換回路145、例えばDFT
(離散フーリエ変換)回路に送られる。
【0060】LPC分析・量子化部113のLPC分析
回路132からのαパラメータは、聴覚重み付けフィル
タ算出回路139に送られて聴覚重み付けのためのデー
タが求められ、この重み付けデータが後述する聴覚重み
付きのベクトル量子化器116と、第2の符号化部12
0の聴覚重み付けフィルタ125及び聴覚重み付きの合
成フィルタ122とに送られる。
【0061】ハーモニック符号化回路等のサイン波分析
符号化部114では、LPC逆フィルタ111からの出
力を、ハーモニック符号化の方法で分析する。すなわ
ち、ピッチ検出、各ハーモニクスの振幅Amの算出、有
声音(V)/無声音(UV)の判別を行い、ピッチによ
って変化するハーモニクスのエンベロープあるいは振幅
Amの個数を次元変換して一定数にしている。
【0062】図6に示すサイン波分析符号化部114の
具体例においては、一般のハーモニック符号化を想定し
ているが、特に、MBE(Multiband Excitation: マル
チバンド励起)符号化の場合には、同時刻(同じブロッ
クあるいはフレーム内)の周波数軸領域いわゆるバンド
毎に有声音(Voiced)部分と無声音(Unvoiced)部分と
が存在するという仮定でモデル化することになる。それ
以外のハーモニック符号化では、1ブロックあるいはフ
レーム内の音声が有声音か無声音かの択一的な判定がな
されることになる。なお、以下の説明中のフレーム毎の
V/UVとは、MBE符号化に適用した場合には全バン
ドがUVのときを当該フレームのUVとしている。ここ
で上記MBEの分析合成手法については、本件出願人が
先に提案した特願平4−91422号明細書及び図面に
詳細な具体例を開示している。
【0063】図6のサイン波分析符号化部114のオー
プンループピッチサーチ部141には、上記入力端子1
01からの入力音声信号が、またゼロクロスカウンタ1
42には、上記HPF(ハイパスフィルタ)109から
の信号がそれぞれ供給されている。サイン波分析符号化
部114の直交変換回路145には、LPC逆フィルタ
111からのLPC残差あるいは線形予測残差が供給さ
れている。オープンループピッチサーチ部141では、
入力信号のLPC残差をとってオープンループによる比
較的ラフなピッチのサーチが行われ、抽出された粗ピッ
チデータは高精度ピッチサーチ146に送られて、後述
するようなクローズドループによる高精度のピッチサー
チ(ピッチのファインサーチ)が行われる。また、オー
プンループピッチサーチ部141からは、上記粗ピッチ
データと共にLPC残差の自己相関の最大値をパワーで
正規化した正規化自己相関最大値r(p) が取り出され、
入力信号判定部115に送られている。
【0064】直交変換回路145では例えばDFT(離
散フーリエ変換)等の直交変換処理が施されて、時間軸
上のLPC残差が周波数軸上のスペクトル振幅データに
変換される。この直交変換回路145からの出力は、高
精度ピッチサーチ部146及びスペクトル振幅あるいは
エンベロープを評価するためのスペクトル評価部148
に送られる。
【0065】高精度(ファイン)ピッチサーチ部146
には、オープンループピッチサーチ部141で抽出され
た比較的ラフな粗ピッチデータと、直交変換部145に
より例えばDFTされた周波数軸上のデータとが供給さ
れている。この高精度ピッチサーチ部146では、上記
粗ピッチデータ値を中心に、0.2〜0.5きざみで±数サ
ンプルずつ振って、最適な小数点付き(フローティン
グ)のファインピッチデータの値へ追い込む。このとき
のファインサーチの手法として、いわゆる合成による分
析 (Analysis by Synthesis)法を用い、合成されたパワ
ースペクトルが原音のパワースペクトルに最も近くなる
ようにピッチを選んでいる。このようなクローズドルー
プによる高精度のピッチサーチ部146からのピッチデ
ータについては、スイッチ118を介して出力端子10
4に送っている。
【0066】スペクトル評価部148では、LPC残差
の直交変換出力としてのスペクトル振幅及びピッチに基
づいて各ハーモニクスの大きさ及びその集合であるスペ
クトルエンベロープが評価され、高精度ピッチサーチ部
146及び聴覚重み付きのベクトル量子化器116に送
られる。
【0067】入力信号判定部115は、オープンループ
ピッチサーチ部141からの正規化自己相関最大値r
(p) と、ゼロクロスカウンタ142からのゼロクロスカ
ウント値とに基づいて、当該フレームが上記有声音であ
るか、無声音であるか、あるいは背景雑音であるかの判
定を行い、上記idVUV判定パラメータを出力する。この
入力信号判定部115からの上記idVUV判定パラメータ
は、出力端子105を介して取り出されると共に、上述
したように、スイッチ119及び、スイッチ117、1
18及び127の切り換え制御信号としても用いられ
る。
【0068】ところで、スペクトル評価部148の出力
部あるいはベクトル量子化器116の入力部には、デー
タ数変換(一種のサンプリングレート変換)部が設けら
れている。このデータ数変換部は、上記ピッチに応じて
周波数軸上での分割帯域数が異なり、データ数が異なる
ことを考慮して、エンベロープの振幅データ|Am|を
一定の個数にするためのものである。すなわち、例えば
有効帯域を3400kHzまでとすると、この有効帯域が
上記ピッチに応じて、8バンド〜63バンドに分割され
ることになり、これらの各バンド毎に得られる上記振幅
データ|Am|の個数mMX+1も8〜63と変化するこ
とになる。このためデータ数変換部では、この可変個数
MX+1の振幅データを一定個数M個、例えば44個、
のデータに変換している。
【0069】このスペクトル評価部148の出力部ある
いはベクトル量子化器116の入力部に設けられたデー
タ数変換部からの上記一定個数M個(例えば44個)の
振幅データあるいはエンベロープデータが、ベクトル量
子化器116により、所定個数、例えば44個のデータ
毎にまとめられてベクトルとされ、重み付きベクトル量
子化が施される。この重みは、聴覚重み付けフィルタ算
出回路139からの出力により与えられる。ベクトル量
子化器116からの上記エンベロープのインデクスは、
スイッチ117を介して出力端子103より取り出され
る。なお、上記重み付きベクトル量子化に先だって、所
定個数のデータから成るベクトルについて適当なリーク
係数を用いたフレーム間差分をとっておくようにしても
よい。
【0070】次に、第2の符号化部120について説明
する。第2の符号化部120は、いわゆるCELP(符
号励起線形予測)符号化構成を有しており、特に、入力
音声信号の無声音部分の符号化のために用いられてい
る。この無声音部分用のCELP符号化構成において、
雑音符号帳、いわゆるストキャスティック・コードブッ
ク(stochastic code book)121からの代表値出力で
ある無声音のLPC残差に相当するノイズ出力を、ゲイ
ン回路126を介して、聴覚重み付きの合成フィルタ1
22に送っている。重み付きの合成フィルタ122で
は、入力されたノイズをLPC合成処理し、得られた重
み付き無声音の信号を減算器123に送っている。減算
器123には、上記入力端子101からHPF(ハイパ
スフィルタ)109を介して供給された音声信号を聴覚
重み付けフィルタ125で聴覚重み付けした信号が入力
されており、合成フィルタ122からの信号との差分あ
るいは誤差を取り出している。なお、聴覚重み付けフィ
ルタ125の出力から聴覚重み付き合成フィルタの零入
力応答を事前に差し引いておくものとする。この誤差を
距離計算回路124に送って距離計算を行い、誤差が最
小となるような代表値ベクトルを雑音符号帳121でサ
ーチする。このような合成による分析(Analysis by Sy
nthesis )法を用いたクローズドループサーチを用いた
時間軸波形のベクトル量子化を行っている。
【0071】このCELP符号化構成を用いた第2の符
号化部120からのUV(無声音)部分用のデータとし
ては、雑音符号帳121からのコードブックのシェイプ
インデクスと、ゲイン回路126からのコードブックの
ゲインインデクスとが取り出される。雑音符号帳121
からのUVデータであるシェイプインデクスは、スイッ
チ127sを介して出力端子107sに送られ、ゲイン
回路126のUVデータであるゲインインデクスは、ス
イッチ127gを介して出力端子107gに送られてい
る。
【0072】ここで、これらのスイッチ127s、12
7g及び上記スイッチ117、118は、上記入力信号
判定部115からのidVUV判定パラメータによりオン/
オフ制御され、スイッチ117、118は、現在伝送し
ようとするフレームの音声信号のidVUV判定パラメータ
が有声音(V)のときオンとなり、スイッチ127s、
127gは、現在伝送しようとするフレームの音声信号
が無声音(UV)のときオンとなる。また、idVUV判定
パラメータが背景雑音を表すとき、上記スイッチ127
s、127gは、8フレーム時間毎にオンとされ、上記
シェイプインデクス、ゲインインデクスを出力する。ま
た、上記スイッチ119も8フレーム時間毎にオンとさ
れ、上記UV用のLSPインデクスを出力する。これら
が、上述したUV用の複数種類のパラメータである。
【0073】ここで、図4に戻る。音声復号化装置31
は、他の携帯電話装置の上記音声符号化装置20により
可変レート符号化された上記符号化データをアンテナ2
6、アンテナ共用器25、受信機27、復調器29及び
伝送路復号化器30を介して受け取り、復号化する。
【0074】この音声復号化装置31は、上述したよう
に、音声符号化装置20から上記所定時間中にも常に伝
送されてくるidVUV判定パラメータに基づいて、上記符
号化データを復号化する。特に、idVUV判定パラメータ
が背景雑音区間を示す“1”であれば、8フレーム分を
おいて伝送されてきた上記複数種類のパラメータ、例え
ば雑音符号帳のシェイプインデクスや、ゲインインデク
ス、又はLSPパラメータを用いて、背景雑音を生成す
ると共に、8フレーム中では過去に送られてきた線スペ
クトル対(LSP)パラメータを補間して上記背景雑音
を生成する。
【0075】実際に、音声復号化装置31では、常に、
前回送られたLSP(prevLsp1)と前々回送られたLS
P(prevLsp2)を、例えばRAM内に保持している。
【0076】そして、上記idVUV判定パラメータが背景
雑音モードに入ると、新たなLSPは送られてこないの
で、prevLsp1、prevLsp2の更新を行ず、この二つのLS
Pを線形補間することにより、現在のフレームのLSP
とし、背景雑音を形成する。
【0077】背景雑音モード中、8フレーム目に通常の
UVとして音声符号化装置側からUVの全パラメータが
送られてくるが、このときゲイン回路126からのゲイ
ンインデクスを調べ、インデックスが前回送られたイン
デックス+2より小さければ、そのフレームの合成に用
いるLSPを前回送られたパラメータに置き換える。こ
の動作については後述する。ただし、ゲインインデクス
は小さい順にソートされているものとする。
【0078】このような音声復号化装置31の構成を図
7及び図8に示す。図7は、音声復号化装置31の基本
構成を示すブロック図である。
【0079】この図7において、入力端子202には上
記図6の出力端子102からの上記LSP(線スペクト
ル対)の量子化出力としてのコードブックインデクスが
入力される。入力端子203、204、及び205に
は、上記図6の各出力端子103、104、及び105
からの各出力、すなわちエンベロープ量子化出力として
のインデクス、ピッチ、及びV/UV判定出力がそれぞ
れ入力される。また、入力端子207には、上記図6の
出力端子107からのUV(無声音)用のデータとして
のインデクスが入力される。
【0080】入力端子203からのエンベロープ量子化
出力としてのインデクスは、逆ベクトル量子化器212
に送られて逆ベクトル量子化され、LPC残差のスペク
トルエンベロープが求められて有声音合成部211に送
られる。有声音合成部211は、サイン波合成により有
声音部分のLPC(線形予測符号化)残差を合成するも
のであり、この有声音合成部211には入力端子204
及び205からのピッチ及びidVUV判定パラメータも供
給されている。有声音合成部211からの有声音のLP
C残差は、LPC合成フィルタ214に送られる。ま
た、入力端子207からのUVデータのインデクスは、
無声音合成部220に送られて、雑音符号帳を参照する
ことにより無声音部分のLPC残差が取り出される。こ
のLPC残差もLPC合成フィルタ214に送られる。
LPC合成フィルタ214では、上記有声音部分のLP
C残差と無声音部分のLPC残差とがそれぞれ独立に、
LPC合成処理が施される。あるいは、有声音部分のL
PC残差と無声音部分のLPC残差とが加算されたもの
に対してLPC合成処理を施すようにしてもよい。ここ
で入力端子202からのLSPのインデクスは、LPC
パラメータ再生部213に送られて、LPCのαパラメ
ータが取り出され、これがLPC合成フィルタ214に
送られる。LPC合成フィルタ214によりLPC合成
されて得られた音声信号は、出力端子201より取り出
される。
【0081】ここで、入力端子205に供給されたidVU
V判定パラメータと入力端子207に供給された上記U
Vデータとしての雑音符号帳のシェイプインデクス及び
ゲインインデクスは、上記LPCパラメータ生成部21
3でのLPCパラメータの再生を制御するLPCパラメ
ータ再生制御部240に送られる。
【0082】このLPC再生制御部240により制御さ
れ、LPCパラメータ再生部213は、背景雑音信号生
成用のLPCを生成し、LPC合成フィルタ214に送
る。
【0083】次に、図8は、上記図7に示した音声復号
化装置31のより具体的な構成を示している。この図8
において、上記図7の各部と対応する部分には、同じ指
示符号を付している。
【0084】この図8において、入力端子202には、
上記図6の出力端子102からの出力に相当するLSP
のベクトル量子化出力、いわゆるコードブックのインデ
クスが供給されている。
【0085】このLSPのインデクスは、LPCパラメ
ータ再生部213のLSPの逆ベクトル量子化器231
に送られてLSP(線スペクトル対)データに逆ベクト
ル量子化され、スイッチ243を介してLSP補間回路
232、233に送られてLSPの補間処理が施された
後、LSP→α変換回路234、235でLPC(線形
予測符号)のαパラメータに変換され、このαパラメー
タがLPC合成フィルタ214に送られる。ここで、L
SP補間回路232及びLSP→α変換回路234は有
声音(V)用であり、LSP補間回路233及びLSP
→α変換回路235は無声音(UV)用である。またL
PC合成フィルタ214は、有声音部分のLPC合成フ
ィルタ236と、無声音部分のLPC合成フィルタ23
7とを分離している。すなわち、有声音部分と無声音部
分とでLPCの係数補間を独立に行うようにして、有声
音から無声音への遷移部や、無声音から有声音への遷移
部で、全く性質の異なるLSP同士を補間することによ
る悪影響を防止している。
【0086】また、図8の入力端子203には、上記図
6のエンコーダ側の端子103からの出力に対応するス
ペクトルエンベロープ(Am)の重み付けベクトル量子
化されたコードインデクスデータが供給され、入力端子
204には、上記図6の端子104からのピッチのデー
タが供給され、入力端子205には、上記図6の端子1
05からのidVUV判定パラメータが供給されている。
【0087】入力端子203からのスペクトルエンベロ
ープAmのベクトル量子化されたインデクスデータは、
逆ベクトル量子化器212に送られて逆ベクトル量子化
が施され、上記データ数変換に対応する逆変換が施され
て、スペクトルエンベロープのデータとなって、有声音
合成部211のサイン波合成回路215に送られてい
る。
【0088】なお、エンコード時にスペクトルのベクト
ル量子化に先だってフレーム間差分をとっている場合に
は、ここでの逆ベクトル量子化後にフレーム間差分の復
号を行ってからデータ数変換を行い、スペクトルエンベ
ロープのデータを得る。
【0089】サイン波合成回路215には、入力端子2
04からのピッチ及び入力端子205からの上記idVUV
判定パラメータが供給されている。サイン波合成回路2
15からは、上述した図6のLPC逆フィルタ111か
らの出力に相当するLPC残差データが取り出され、こ
れが加算器218に送られている。このサイン波合成の
具体的な手法については、例えば本件出願人が先に提案
した、特願平4−91422号の明細書及び図面、ある
いは特願平6−198451号の明細書及び図面に開示
されている。
【0090】また、逆ベクトル量子化器212からのエ
ンベロープのデータと、入力端子204、205からの
ピッチ、idVUV判定パラメータとは、有声音(V)部分
のノイズ加算のためのノイズ合成回路216に送られて
いる。このノイズ合成回路216からの出力は、重み付
き重畳加算回路217を介して加算器218に送ってい
る。これは、サイン波合成によって有声音のLPC合成
フィルタへの入力となるエクサイテイション(Excitati
on:励起、励振)を作ると、男声等の低いピッチの音で
鼻づまり感がある点、及びV(有声音)とUV(無声
音)とで音質が急激に変化し不自然に感じる場合がある
点を考慮し、有声音部分のLPC合成フィルタ入力すな
わちエクサイテイションについて、音声符号化データに
基づくパラメータ、例えばピッチ、スペクトルエンベロ
ープ振幅、フレーム内の最大振幅、残差信号のレベル等
を考慮したノイズをLPC残差信号の有声音部分に加え
ているものである。
【0091】加算器218からの加算出力は、LPC合
成フィルタ214の有声音用の合成フィルタ236に送
られてLPCの合成処理が施されることにより時間波形
データとなり、さらに有声音用ポストフィルタ238v
でフィルタ処理された後、加算器239に送られる。
【0092】次に、図8の入力端子207s及び207
gには、上記図6の出力端子107s及び107gから
のUVデータとしてのシェイプインデクス及びゲインイ
ンデクスがそれぞれ供給され、無声音合成部220に送
られている。端子207sからのシェイプインデクス
は、無声音合成部220の雑音符号帳221に、端子2
07gからのゲインインデクスはゲイン回路222にそ
れぞれ送られている。雑音符号帳221から読み出され
た代表値出力は、無声音のLPC残差に相当するノイズ
信号成分であり、これがゲイン回路222で所定のゲイ
ンの振幅となり、窓かけ回路223に送られて、上記有
声音部分とのつなぎを円滑化するための窓かけ処理が施
される。
【0093】窓かけ回路223からの出力は、無声音合
成部220からの出力として、LPC合成フィルタ21
4のUV(無声音)用の合成フィルタ237に送られ
る。合成フィルタ237では、LPC合成処理が施され
ることにより無声音部分の時間波形データとなり、この
無声音部分の時間波形データは無声音用ポストフィルタ
238uでフィルタ処理された後、加算器239に送ら
れる。
【0094】加算器239では、有声音用ポストフィル
タ238vからの有声音部分の時間波形信号と、無声音
用ポストフィルタ238uからの無声音部分の時間波形
データとが加算され、出力端子201より取り出され
る。
【0095】また、LPCパラメータ再生部213内部
には、背景雑音信号生成用に用いられるLPCパラメー
タを再生するためのLSP補間回路245と、LSP→
α変換回路247も上記スイッチ243の後段に設けら
れている。さらに、上記LSPの逆量子化器231によ
り得られた上記prevLSP1とprevLSP2を保持しておくため
のRAM244と、8フレームの間隔があいている上記
prevLSP1とprevLSP2との補間をフレーム間隔に補正する
ためのフレーム補間部245も備えている。
【0096】LSP→α変換回路247からのBGN用の
αパラメータは、LPC合成フィルタ214の無声音部
分のLPC合成フィルタ237に送られる。
【0097】また、上記LPCパラメータ再生制御部2
40は、入力端子207gからの上記UVデータ用のゲ
インインデスクが、前回送られたインデックス+2より
小さいか否かを判定するインデックス判定部242と、
このインデクス判定部242からの判定結果と上記入力
端子205から供給されるidVUV判定パラメータとに基
づいて上記スイッチ243の切り換えを制御する切り換
え制御部241とを備えてなる。
【0098】上記idVUV判定パラメータが1であると
き、すなわち背景雑音区間であることを示す上記基本パ
ラメータとなるモードビットを受信したときのこの音声
復号化装置31の動作を、図9に示すフローチャートを
用いて説明する。
【0099】先ず、ステップS21でidVUV判定パラメ
ータが1であるとき、LPCパラメータ再生制御部24
0の切り換え制御部241は、切り換えスイッチ243
をオフにする。そして、ステップS22に進み、LSP
補間回路246で上記RAM244に保持されたPrevLS
P1とPrevLSP2をフレーム補間回路245を通して得た
フレーム毎の直線補間値を使ってBGN用のLSPを求め
る。そして、このBGN用のLSPは、UV用の合成フィル
タ237に供給され、背景雑音が合成される。
【0100】なお、音声符号化装置20からは、背景雑
音区間と判断されたフレームが連続8フレームとなる
と、次の9フレーム目は通常のUVデータ用のシェイプ
インデクス、ゲインインデクス及びLSPパラメータが
送られてくる。ここで、音声符号化装置20では、9フ
レーム目に本当にidVUV判定パラメータがUVになるこ
とがないとは限らない。そこで、音声復号化装置31側
では、本当のUV用データなのか、あるいは単に9フレ
ーム目に送られたUV用の全パラメータなのかを判断す
る必要がある。
【0101】そこで、LPCパラメータ再生制御部24
0では、ステップS23でidVUV=0であるとき、ス
テップS24に進み、インデクス判定部242により入
力端子207gを介して送られてきたUVデータ用のゲ
インインデクスを調べ、ステップS26のルーティンの
処理か、ステップS27の本来のUVの処理かを判断す
る。具体的には、上述したように、入力端子207gか
らの上記UVデータ用のゲインインデスクが、前回送ら
れたインデクス+2より小さいか否かを判定する。9フ
レーム目に送られてきたUVデータ用のインデクスが音
声としてのUV用インデクスであれば前回送られたゲイ
ンインデクスのパラメータよりも大きいはずである。
【0102】ステップS24で上記ゲインインデクスが
前回送られてきたインデクス+2より小さいとなれば、
これは9フレーム目に送られたUVデータ用の、すなわ
ちルーティン用のデータであると判断し、ステップS2
6に進み、切り換え制御部241により、スイッチ24
3をLSP補間回路246側に接続し、上記PrevLSP1
とPrevLSP2を用いた直線補間により求めた値に変えて、
UV用に送られたLSP逆量子化部231からのLSP
パラメータをLSP補間回路246に供給する。LSP
補間回路246では、このアップデートされたLSPパ
ラメータを、そのままLSP→α変換回路247に供給
する。そして、LSP→α変換回路247からのBGN用
のαパラメータは、LPC合成フィルタ214の無声音
部分のLPC合成フィルタ237に送られ、9フレーム
目には8フレーム間の背景雑音とは異なった背景雑音が
得られることになる。このため、背景雑音の不自然さを
緩和することができる。
【0103】また、ステップS24で上記ゲインインデ
クスが前回送られてきたインデクス+2以上より大きい
となれば、これは9フレーム目に送られてきたのは、本
当のUV用のパラメータであると判断し、ステップS2
7に進む。ステップS27では、切り換え制御部241
がスイッチ243をUV用のLSP補間回路233に切
り換えて、通常のUV用のLSP補間により得られたL
SPを使った無声音の合成が行われる。
【0104】一方、上記ステップS23でidVUV判定パ
ラメータが0でないと判断すると、ステップS25に進
み、UV用のLSPからαパラメータを変換し、合成フ
ィルタ236で有声音を合成する。
【0105】以上のように、音声復号化装置31では、
idVUV判定パラメータが1であるとき、すなわち他の携
帯電話装置の音声符号化装置が背景雑音区間を検出した
ときには、8フレームをおいて伝送されてきた複数種類
のパラメータを用いて上記背景雑音を生成すると共に、
上記8フレーム中には過去に送られたパラメータを用い
て上記背景雑音を生成する。このため、背景雑音の不自
然さを緩和することができる。また、9フレーム目に偶
然に、本当の無声音区間が検出されて伝送されてきて
も、正確に判断できるので、高品質な音声を復号でき
る。
【0106】LSPは8フレーム分のディレイが生じる
ことになるが、背景雑音モード中は完全に滑らかに繋が
ることになり、急激にLSPが変化して異音を発生する
ことがなくなる。また、音声の子音部は背景雑音より高
いレベルを有することが多いので、音声の子音部を誤っ
て背景雑音として処理してしまうことを防げる。
【0107】そして、再び背景雑音モードに入ったらpr
evLsp1、prevLsp2を線形補間することにより、現在のフ
レームのLSPとする。
【0108】ところで、モードビットが充分にあり、こ
れを一つのモードとして送ることができれば、このよう
な処理は必要ない。また、prevLsp1とprevLsp2の補間方
法は線形補間以外にも様々なものが考えられる。
【0109】なお、本発明に係る音声信号区間検出方法
及び装置は、可変レートエンコーディングを行う音声符
号化装置を備えた上記携帯電話装置にのみ適用されるも
のではなく、図10に示すような携帯電話装置に適用さ
れてもよい。
【0110】この図10に示す携帯電話装置は、送話用
マイクロホン41より入力された音声をRF信号に変換
し、このRF信号を基地局を介して相手側に送信すると
共に、相手側より基地局を介して送信されたRF信号を
受信して再生しスピーカ52を介して使用者に聞かせる
ことのできる携帯電話装置である。
【0111】この携帯電話装置は、特に、入力信号から
得られた背景雑音に応じて受話音量を制御するように、
背景雑音を検出する入力信号判定部43と、上記背景雑
音に応じて受話音量を制御する受話音量コントロール部
44とを備えて成る。
【0112】この携帯電話装置の送話用マイクロホン4
1で電気信号とされた入力信号は、アナログ/ディジタ
ル(A/D)変換器42によりディジタルデータとされ
て、音声符号化器45に供給される。
【0113】この音声符号化器45は、ディジタルデー
タを圧縮し、符号化する。
【0114】音声符号化器45で情報圧縮、符号化が施
されたデータは、ベースバンド信号処理回路46に供給
され、同期信号及び誤り訂正符号等が付加されたりフレ
ーミング処理が施される。ベースバンド信号処理回路4
6からの出力データは、RF送受信回路47に供給さ
れ、必要な周波数に変調されてアンテナ48から送信さ
れる。
【0115】A/D変換器42が出力するディジタルデ
ータは、入力信号判定部43にも供給される。入力信号
判定部43は、上記入力信号に含まれる背景雑音を検出
する。
【0116】この入力信号判定部43で検出された背景
雑音は、受話音量コントロール部44に供給される。受
話音量コントロール部44は、上記背景雑音区間を判定
した結果をもとに、ディジタル/アナログ(D/A)変
換器50によってアナログ信号とされた後述する受話音
声を増幅するアンプ51の利得を調整し、受話音量をコ
ントロールする。
【0117】ここで、受話音量とは、基地局を介して送
信されてきた通話相手からの信号を再生するときの音量
である。この通話相手からの信号は、アンテナ48によ
り受信され、RF送受信回路47に供給される。RF送
受信回路47によりベースバンドに復調された相手側か
らの入力信号は、ベースバンド信号処理回路46に供給
され、所定の信号処理が施される。このベースバンド信
号処理回路46からの信号は、音声復号化器49に供給
される。音声復号化器49でデコードされた音声信号
は、D/A変換器50でアナログ音声信号に変換され
る。
【0118】D/A変換器50からのアナログ音声信号
は、アンプ51に供給される。このアンプ51は、上述
したように受話音量コントロール部44により制御され
るので、スピーカ52から発せられる再生音量、すなわ
ち受話音量は背景雑音に応じてコントロールされる。
【0119】
【発明の効果】本発明に係る音声信号区間検出方法及び
装置は、背景雑音のレベルによることなく、音声信号区
間と背景雑音区間との高精度な区別を実現する。
【図面の簡単な説明】
【図1】本発明に係る音声信号区間検出方法及び装置の
実施の形態となる入力信号判定装置の構成を示すブロッ
ク図である。
【図2】上記図1に示した入力信号判定装置を構成する
最小レベル演算部のアルゴリズムを説明するためのフロ
ーチャートである。
【図3】上記図1に示した入力信号判定装置を構成する
リファレンスレベル演算部を説明するための特性図であ
る。
【図4】上記図1に示した入力信号判定装置を用いて可
変レートエンコードを行う携帯電話装置の構成を示すブ
ロック図である。
【図5】上記携帯電話装置を構成する音声符号化装置の
基本的な構成を示すブロック図である。
【図6】上記図5に示した音声符号化装置の詳細な構成
を示すブロック図である。
【図7】上記携帯電話装置を構成する音声復号化装置の
基本的な構成を示すブロック図である。
【図8】上記図7に示した音声復号化装置の詳細な構成
を示すブロック図である。
【図9】上記音声復号化装置の動作を説明するためのフ
ローチャートである。
【図10】上記実施の形態となる入力信号判定部を適用
した他の具体例となる携帯電話装置の構成を示すブロッ
ク図である。
【符号の説明】
3 V/UV判定部、4 最小レベル演算部、5 リフ
ァレンスレベル演算部、7 比較部、8 パラメータ生
成部

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 所定時間区間で入力信号から最小レベル
    を検出し、この最小レベルを保持する最小レベル演算工
    程と、 上記入力信号からリファレンスレベルを演算により求め
    るリファレンスレベル演算工程とを備え、 上記最小レベル演算工程からの最小レベルと上記リファ
    レンスレベル演算工程からのリファレンスレベルとに基
    づいて上記入力信号の音声信号区間を検出することを特
    徴とする音声信号区間検出方法。
  2. 【請求項2】 上記入力信号が有声音であるか無声音で
    あるかを判定する有声音/無声音判定工程を備え、上記
    最小レベル演算工程はこの有声音/無声音判定工程から
    の判定結果に基づいて上記最小レベルを演算することを
    特徴とする請求項1記載の音声信号区間検出方法。
  3. 【請求項3】 上記有声音/無声音判定工程からの判定
    結果に基づいて上記音声信号区間を検出することを特徴
    とする請求項1記載の音声信号区間検出方法。
  4. 【請求項4】 上記最小レベル演算工程からの最小レベ
    ルと上記リファレンスレベル演算工程からのリファレン
    スレベルとを比較する比較工程を備え、この比較工程か
    らの比較結果と上記有声音/無声音判定工程からの判定
    結果に基づいて、入力信号の音声信号区間を検出するこ
    とを特徴とする請求項3記載の音声信号区間検出方法。
  5. 【請求項5】 所定時間区間で入力信号から最小レベル
    を検出し、この最小レベルを保持する最小レベル演算手
    段と、 上記入力信号からリファレンスレベルを演算により求め
    るリファレンスレベル演算手段とを備え、 上記最小レベル演算手段からの最小レベルと上記リファ
    レンスレベル演算手段からのリファレンスレベルとに基
    づいて上記入力信号の音声信号区間を検出することを特
    徴とする音声信号区間検出装置。
JP28545797A 1997-10-17 1997-10-17 音声信号区間検出方法及び装置 Expired - Fee Related JP3896654B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP28545797A JP3896654B2 (ja) 1997-10-17 1997-10-17 音声信号区間検出方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP28545797A JP3896654B2 (ja) 1997-10-17 1997-10-17 音声信号区間検出方法及び装置

Publications (2)

Publication Number Publication Date
JPH11119796A true JPH11119796A (ja) 1999-04-30
JP3896654B2 JP3896654B2 (ja) 2007-03-22

Family

ID=17691778

Family Applications (1)

Application Number Title Priority Date Filing Date
JP28545797A Expired - Fee Related JP3896654B2 (ja) 1997-10-17 1997-10-17 音声信号区間検出方法及び装置

Country Status (1)

Country Link
JP (1) JP3896654B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100770895B1 (ko) 2006-03-18 2007-10-26 삼성전자주식회사 음성 신호 분리 시스템 및 그 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100770895B1 (ko) 2006-03-18 2007-10-26 삼성전자주식회사 음성 신호 분리 시스템 및 그 방법
US7809555B2 (en) 2006-03-18 2010-10-05 Samsung Electronics Co., Ltd Speech signal classification system and method

Also Published As

Publication number Publication date
JP3896654B2 (ja) 2007-03-22

Similar Documents

Publication Publication Date Title
JP3653826B2 (ja) 音声復号化方法及び装置
JP4218134B2 (ja) 復号装置及び方法、並びにプログラム提供媒体
RU2255380C2 (ru) Способ и устройство воспроизведения речевых сигналов и способ их передачи
EP0770987B1 (en) Method and apparatus for reproducing speech signals, method and apparatus for decoding the speech, method and apparatus for synthesizing the speech and portable radio terminal apparatus
EP0837453B1 (en) Speech analysis method and speech encoding method and apparatus
US6691085B1 (en) Method and system for estimating artificial high band signal in speech codec using voice activity information
JP4438127B2 (ja) 音声符号化装置及び方法、音声復号装置及び方法、並びに記録媒体
US6047253A (en) Method and apparatus for encoding/decoding voiced speech based on pitch intensity of input speech signal
JPH11122120A (ja) 符号化方法及び装置、並びに復号化方法及び装置
EP0843302A2 (en) Voice coder using sinusoidal analysis and pitch control
JPH10105194A (ja) ピッチ検出方法、音声信号符号化方法および装置
KR100216018B1 (ko) 배경음을 엔코딩 및 디코딩하는 방법 및 장치
US6012023A (en) Pitch detection method and apparatus uses voiced/unvoiced decision in a frame other than the current frame of a speech signal
JP3896654B2 (ja) 音声信号区間検出方法及び装置
JP4230550B2 (ja) 音声符号化方法及び装置、並びに音声復号化方法及び装置
JP4826580B2 (ja) 音声信号の再生方法及び装置
EP1164577A2 (en) Method and apparatus for reproducing speech signals

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040427

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060320

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061128

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061211

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100105

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110105

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120105

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130105

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees