JPH07261797A - 信号符号化装置及び信号復号化装置 - Google Patents

信号符号化装置及び信号復号化装置

Info

Publication number
JPH07261797A
JPH07261797A JP6049469A JP4946994A JPH07261797A JP H07261797 A JPH07261797 A JP H07261797A JP 6049469 A JP6049469 A JP 6049469A JP 4946994 A JP4946994 A JP 4946994A JP H07261797 A JPH07261797 A JP H07261797A
Authority
JP
Japan
Prior art keywords
parameter
spectrum
signal
frequency spectrum
auditory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6049469A
Other languages
English (en)
Inventor
Hirohisa Tazaki
裕久 田崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP6049469A priority Critical patent/JPH07261797A/ja
Priority to CA002144268A priority patent/CA2144268A1/en
Priority to EP95103480A priority patent/EP0673013B1/en
Priority to EP00105094A priority patent/EP1006510A3/en
Priority to DE69521164T priority patent/DE69521164T2/de
Publication of JPH07261797A publication Critical patent/JPH07261797A/ja
Priority to US08/947,765 priority patent/US5864794A/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02168Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Abstract

(57)【要約】 【目的】 比較的少ない演算量で、人間の聴覚特性に対
応の良い信号符号化及び信号復号化を実現することを目
的としている。また、音声信号を符号化する場合、少な
い演算量、メモリ量で音声信号以外の雑音の成分を抑圧
できる信号符号化を実現することを目的としている。 【構成】 信号符号化装置A1に、聴覚モデルに基づく
パラメータとしてのバークスペクトルを算出するバーク
スペクトル算出手段2とバークスペクトルを符号化する
バークスペクトル符号化手段3と音源算出手段4と音源
符号化手段5とを備える。バークスペクトル算出手段2
は、パワースペクトル算出手段6と臨界帯域積分手段7
と等ラウドネス補正手段8とラウドネス変換手段9の各
手段を有し、これらの各手段は聴覚モデルと同様の効果
を得るために工学的に生成されたものである。復号化に
際しては、逆方向に変換を行う。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声信号や音響信号な
どのディジタル信号を高能率に符号化する信号符号化装
置、及び復号化を行う信号復号化装置に関するものであ
る。
【0002】
【従来の技術】音声信号や音響信号を少ない情報量に圧
縮する信号符号化においては、予め設定した歪を最小に
するように符号の選択を行うことが一般的であり、その
歪尺度としては、人間の聴覚特性と対応の良いものが望
ましい。また、音声信号の符号化の場合には、音声信号
以外の雑音が重畳していれば、雑音の成分を抑圧できる
方式が望ましい。
【0003】人間の聴覚特性は、周波数軸が非線形であ
り、低域ほど分解能が高く、高域ほど分解能が低いこと
が知られている。その分解能は臨界帯域幅と呼ばれ、こ
の臨界帯域幅に基づく周波数軸はバークスケールと呼ば
れる。
【0004】また、人間の聴覚特性は、信号のパワーと
線形比例しない、音の大きさに関する感覚量、ラウドネ
スを持っており、等しいラウドネスを与える信号パワー
は周波数によって若干異なっていることが知られてい
る。信号パワーが大きい場合には、信号のパワーの指数
関数に周波数毎に若干異なる係数を乗じてラウドネスが
近似算出される。
【0005】さらに、人間の聴覚特性の一つとして、妨
害音がある場合、その他の信号を聞きとることのできる
最小可聴値が上昇してしまう、マスキング効果も良く知
られている。マスキング効果の大きさは、妨害音の周波
数に近い周波数ほど大きく、周波数差がバークスケール
でどれだけの幅であるかによって与えられる。
【0006】このような人間の聴覚特性や、そのモデル
化の詳細については、Eberhard Zwicker著、山田由紀子
訳「心理音響学」、161〜174頁、1992年、西
村書店、に記述されているので省略する。
【0007】聴覚特性と対応の良い歪尺度を用いた信号
符号化装置として考えられたものとしては、例えば特開
平4−55899号、特開平5−268098号、特開
平5−15849号がある。
【0008】特開平4−55899号は、音声信号のス
ペクトルパラメータの符号化に聴覚特性と対応の良い歪
尺度を導入したものである。まず、音声信号のスペクト
ル包絡を全極モデルで近似し、そのモデルのパラメータ
をスペクトルパラメータとして抽出する。そして、この
スペクトルパラメータに対しメル変換などの非線形変換
を行った後、2乗距離を歪尺度として符号化を行う。人
間の聴覚特性の周波数軸の非線形性を、メル変換によっ
て導入している。
【0009】特開平5−268098号は、短期予測と
長期予測によって音声信号のスペクトル形状をほとんど
取り去った残差信号の符号化に、バークスケールを導入
したものである。残差信号を周波数領域に変換し、得ら
れた全周波数成分を複数個ずつ結合して、バークスケー
ルで等間隔におかれた結合振幅のみで表し、この結合振
幅の符号化を行う。結合振幅を導入したことで周波数軸
がバークスケールに疑似的に変換され、符号化時の歪、
つまり結合振幅での歪が聴覚特性に対応が良くなる効果
がある。
【0010】特開平5−158495号は、特性の異な
る聴覚重み付けフィルタを持つ複数の音声符号化を行
い、雑音感を最も低くする聴覚重み付けフィルタを選択
するものである。雑音感の評価法の実施例として、入力
音声信号と合成音信号の誤差を算出し、この誤差の入力
音声信号に対するラウドネス、つまり雑音のラウドネス
を求めることが記載されている。このラウドネスの算出
には、臨界帯域幅、マスキング効果も導入されている。
【0011】さらに、聴覚特性と対応のよい歪尺度を開
示した従来法としては、S.Wang,A.Sekey,A.Gersho 著
“Auditory Distortion Measure for Speech Coding"(P
roc.ICASSP'91,pp.493-496,May 1991)がある。
【0012】S.Wangらの方法は、周波数スペクトル振幅
に対して臨界帯域積分、等ラウドネス補正のためのプリ
エンファシス、ラウドネスへ変換するソーン変換を行っ
て得られる、バークスペクトルと呼ばれるパラメータを
用いる。入力音声信号のバークスペクトルと、合成音信
号のバークスペクトルを算出し、この2つのバークスペ
クトルの単純な2乗誤差によって、入力音声信号と合成
音信号の間の歪を評価する方法である。なお、臨界帯域
積分が上述した聴覚特性の周波数軸の非線形性とマスキ
ング効果をモデル化するもので、プリエンファシスとソ
ーン変換が上述した聴覚特性のラウドネスに関する特性
をモデル化するものである。
【0013】また、音声信号に重畳している雑音を抑圧
する方式として考えられたものとしては、S.F.Boll著
“Suppression of Acoustic Noise in Speech Using Sp
ectralSubtration"(IEEE Trans.on Acoustics,Speech,a
nd Signal Processing,vol.ASSP-27,No.2,pp.113-120,A
pril 1979) がある。
【0014】S.F.Bollの方法は、無音区間から雑音のス
ペクトル形状を推定し、これを全区間のスペクトルから
減算することで、雑音成分の抑圧を行う方法であり、処
理の概略は以下の通りである。
【0015】まず、入力信号を一定時間毎にハニング窓
で切り出して、FFT(高速フーリェ変換)によって周
波数スペクトルに変換する。次に、周波数スペクトルの
各成分のパワーを計算してパワースペクトルを求める。
無音区間と判定した区間において求められたパワースペ
クトルの平均をとることで、平均的な雑音のパワースペ
クトルを推定する。そして、この雑音のパワースペクト
ルに一定のゲインを乗じた後、これを全ての区間のパワ
ースペクトルから減算する。この時、雑音の変動成分が
雑音減算によって顕在化して、かえって雑音感が増加し
てしまう場合が多いので、減算によって非常に小さい値
となった成分は、前後の切り出し区間の減算後の値との
平滑化を行う。入力信号の周波数スペクトルと同じ位相
スペクトルを持ち、前記平滑処理後のパワースペクトル
と同じパワースペクトルを持つ周波数スペクトルを求め
て、これを逆FFTして信号に戻す。最後に得られた信
号を一定時間毎に接続していくことで復号信号とする。
【0016】
【発明が解決しようとする課題】上記の従来法には、以
下に述べる課題がある。
【0017】すなわち、特開平4−55899号では、
音声信号のスペクトル包絡を全極モデルで近似するが、
この全極モデルは音声信号の生成機構モデルに基づくも
のである。全極モデルの最適パラメータ次数は、母音や
子音、発声者によって異なるため、必ずしも良好な近似
が行えるとは限らない。この点を改良する方法として、
最適パラメータ次数を推定して決定する方式の検討が行
われたが、分析処理、合成処理の複雑化のためほとんど
用いられていない。また、背景騒音等が重畳した音声信
号に対しては、全極モデルの近似が合わなくなる課題も
ある。この従来法では、全極モデルに基づくパラメータ
に対して非線形変換を行って、聴覚特性に対応が良いよ
うに周波数軸を変換しているだけであるので、全極モデ
ルの持つ上記課題は解消されない。また、ラウドネス
や、マスキング効果等の他の聴覚特性に関するものが含
まれていないので、聴覚特性との対応も十分ではない。
また全極モデルは、音声信号以外の一般の音響信号に対
しては適合しないので、この従来法を適用して、聴覚特
性に対応の良い音響信号の符号化を行うことはできな
い。
【0018】また、メル変換の代わりに、全極モデルに
基づくパラメータを一旦周波数スペクトル形状に変換
し、これをバークスペクトルに変換することはできるの
で、全極モデルに基づくパラメータの符号化の符号化時
の歪尺度にバークスペクトル歪を用いることが可能とな
るが、この変換が非常に多くの処理量を要するため、予
め全符号に対して変換処理を行っておけるベクトル量子
化を行う場合に限られる。また、前述した全極モデルに
関する様々な課題が残されたままであるため、大幅な改
善は期待できない。
【0019】また、特開平5−268098号では、残
差信号の符号化にバークスケールを導入しているが、こ
れも、聴覚特性の内、周波数軸の非線形性のみの導入で
あって、ラウドネスや、マスキング特性等の他の聴覚特
性に関するものが含まれていないので、聴覚特性との対
応は十分ではない。また、聴覚モデルは、耳に入力され
る信号そのものに適用して意味のあるものであり、この
従来法のように適用対象を残差信号とした場合には、周
波数軸の非線形変換以上の聴覚特性の導入は行えない。
【0020】また、特開平5−158495号では、聴
覚重み付けフィルタの選択を行うための歪尺度として、
雑音のラウドネスを用いているが、あくまでも聴覚重み
付けフィルタの選択に用いるだけで、音声信号の符号化
自体の歪尺度には用いていない。符号化の際の歪尺度
は、聴覚重み付けフィルタ後の信号歪を用いているが、
この聴覚重み付けフィルタは、全極モデルに基づいて、
符号化によって発生する歪が聴感的に聞えにくいように
周波数方向の歪重み付けを行うものであり、経験的に決
定され、バークスケール、ラウドネス、マスキングとい
った聴覚特性は全く導入されていないものである。ま
た、聴覚重み付けフィルタは、全極モデルのパラメータ
から導出されるので、音声信号以外の一般の音響信号に
対しては適合しない。
【0021】この従来法の改良として、符号化の歪尺度
に雑音のラウドネスを導入することが考えられるが、2
のB乗種類(Bは符号化ビット数)存在する全ての符号
に対して合成音信号を生成し、その全てに対して雑音の
ラウドネスを算出しなければならないため、処理量が膨
大で実現不可能である。
【0022】S.Wangらの方法では、聴覚モデルに基づく
パラメータとしてバークスペクトルの算出を行うが、複
数の合成音信号のバークスペクトル歪の評価を通じて、
各種符号化方式の評価を行うことが目的であり、符号化
の際の歪尺度としては用いることが検討されていない。
仮に2のB乗種類(Bは符号化ビット数)存在する全て
の符号に対して合成音信号を生成し、その全てに対して
バークスペクトルを算出すれば、最もバークスペクトル
歪が小さい符号を決定することができるが、処理量が膨
大で実現不可能である。
【0023】S.F.Bollの方法では、雑音抑圧のために入
力音声を一定時間毎にハニング窓で切り出して処理を行
っているが、このハニング窓長と時間間隔は、FFTと
のかねあいで2のべき乗の値となる。音声符号化装置で
も入力音声を一定時間毎に切り出して処理を行うが、こ
の時間間隔は必ずしも雑音処理の時間間隔と一致させら
れないため、雑音抑圧を完了した後に独立して音声符号
化を行うこととなり、処理量、メモリ量を多く必要と
し、信号のバックファイリングも複雑になる。時間間隔
が一致した場合でも、少なくともFFTのポイント数
(256、512、1024など)に比例した多くの演
算処理とメモリが必要である。
【0024】また、実際には雑音減算によって雑音成分
が低減されているにもかかわらず、変動分が顕在化して
かえって雑音感が増すという聴覚的な課題を、単純なス
ペクトルの平滑化処理により改善を行っているのみであ
り、雑音の様態によっては改善が不十分である。
【0025】この発明は、かかる課題を解決するために
なされたものであり、比較的少ない演算量で、人間の聴
覚特性に対応の良い信号符号化及び信号復号化を実現す
ることを目的としている。また、音声信号を符号化する
場合、音声信号以外の雑音が重畳していれば、少ない演
算量、メモリ量で雑音の成分を抑圧し、雑音の変動の影
響の少ない聴覚的に良好な雑音抑圧ができる信号符号化
を実現することを目的としている。
【0026】
【課題を解決するための手段】この発明の請求項1に係
わる信号符号化装置は、入力信号に対して、聴覚モデル
に基づくパラメータを算出し、聴覚モデルパラメータと
して出力する聴覚モデルパラメータ算出手段と、前記聴
覚モデルパラメータを符号化し、符号化聴覚モデルパラ
メータとして出力する聴覚モデルパラメータ符号化手段
とを備えたことを特徴とする。
【0027】また、請求項2に係る信号符号化装置は、
入力信号に対して、聴覚モデルに基づくパラメータを算
出し、聴覚モデルパラメータとして出力する聴覚モデル
パラメータ算出手段と、前記聴覚モデルパラメータを符
号化し、符号化聴覚モデルパラメータとして出力する聴
覚モデルパラメータ符号化手段と、符号化聴覚モデルパ
ラメータを復号して、得られた復号聴覚モデルパラメー
タを出力する聴覚パラメータ復号化手段と、前記復号聴
覚モデルパラメータを周波数スペクトル形状を表すパラ
メータに変換して、得られた周波数スペクトルパラメー
タを出力する変換手段と、複数の音源符号語を保持格納
する音源符号帳と、前記復号聴覚モデルパラメータを用
いて重み係数を算出し、前記音源符号帳内の各音源符号
語に前記周波数スペクトルパラメータを乗じたものと入
力音声の間の前記重み係数を用いた周波数領域での重み
付き距離を計算し、この重み付き距離を最小にする音源
符号語を選択して、その音源符号語を出力する音源符号
選択手段と、を備えたことを特徴とする。
【0028】また、請求項3に係る信号符号化装置は、
請求項1又は2の構成の信号符号化装置において、聴覚
モデルパラメータとしてバークスペクトルを用いたこと
を特徴とするものである。
【0029】また、請求項4に係る信号符号化装置は、
請求項1から3のいずれかの構成の信号符号化装置にお
いて、入力信号に対して、有音区間であるか無音区間で
あるかの判定を行う有音無音判定手段と、無音区間の複
数の前記聴覚モデルパラメータから、平均的な雑音の聴
覚モデルパラメータを算出して、推定雑音パラメータと
して出力する推定雑音パラメータ算出手段と、有音区間
の前記聴覚モデルパラメータから前記推定雑音パラメー
タに相当する成分を取り除く雑音除去手段と、を備えた
ことを特徴とするものである。
【0030】また、請求項5に係る信号符号化装置は、
請求項3の構成の信号符号化装置において、聴覚モデル
パラメータ算出手段が、入力信号のパワースペクトルを
算出するパワースペクトル算出手段と、パワースペクト
ル算出手段で算出されたパワースペクトルに臨界帯域フ
ィルタ関数を乗じて、励起パタンを算出する臨界帯域積
分手段と、臨界帯域積分手段で算出された励起パタン
に、周波数ごとの音の大きさと等感度との関係について
の補正係数を乗じて補正励起パタンを算出する等ラウド
ネス補正手段と、等ラウドネス補正手段で算出された補
正励起パタンをパワー尺度からソーン尺度へ変換してバ
ークスペクトルを算出するラウドネス変換手段と、を有
することを特徴とするものである。
【0031】また、請求項6に係る信号符号化装置は、
請求項1から3のいずれかの信号符号化装置のおいて、
信号符号化装置が、さらに、入力信号に対して有音区間
であるか無音区間であるかの判定を行う有音無音判定手
段と、無音区間の複数の前記聴覚モデルパラメータか
ら、平均的な雑音の聴覚モデルパラメータを算出して、
推定雑音パラメータとして出力する推定雑音パラメータ
算出手段と、を有し、聴覚モデルパラメータ算出手段
が、入力信号のパワースペクトルを算出するパワースペ
クトル算出手段と、パワースペクトル算出手段で算出さ
れたパワースペクトルに臨界帯域フィルタ関数を乗じ
て、励起パタンを算出する臨界帯域積分手段と、臨界帯
域積分手段で算出された励起パタンに、周波数ごとの音
の大きさと等感度との関係についての補正係数を乗じて
補正励起パタンを算出する等ラウドネス補正手段と、有
音区間の場合に、補正励起パタンから前記推定雑音パラ
メータに相当する成分を取り除いて、雑音を除去した補
正励起パタンを算出する雑音除去手段と、雑音を除去し
た補正励起パタンをパワー尺度からソーン尺度へ変換し
てバークスペクトルを算出するラウドネス変換手段と、
を有することを特徴とするものである。
【0032】また、請求項7の信号復号化装置は、聴覚
モデルに基づくパラメータを符号化した符号化聴覚モデ
ルパラメータを復号して、得られた聴覚モデルパラメー
タを出力する聴覚パラメータ復号化手段と、前記聴覚モ
デルパラメータを周波数スペクトル形状を表すパラメー
タに変換して、得られた周波数スペクトルパラメータを
出力する変換手段と、前記周波数スペクトルパラメータ
を用いて合成信号を生成する合成手段と、を備えたこと
を特徴とするものである。
【0033】また、請求項8の信号復号化装置は、請求
項7の信号復号化装置において、聴覚モデルパラメータ
としてバークスペクトルを用いたことを特徴とするもの
である。
【0034】また、請求項9の信号復号化装置は、請求
項7又は8に記載の信号復号化装置において、周波数ス
ペクトルパラメータとして周波数スペクトル振幅値を用
いたことを特徴とするものである。
【0035】また、請求項10の信号復号化装置は、請
求項8又は9に記載の信号復号化装置において、変換手
段が、バークスペクトルをソーン尺度からパワー尺度に
変換して補正励起パタンを算出するラウドネス逆変換手
段と、上記補正励起パタンに、周波数ごとの音の大きさ
と等感度との関係についての補正係数の逆数を乗じて励
起パタンを算出する等ラウドネス逆補正手段と、上記励
起パタンと臨界帯域フィルタ関数とから、パワースペク
トルを算出するパワースペクトル変換手段と、上記パワ
ースペクトルの各成分の平方根を算出して周波数スペク
トル振幅値を算出する平方根手段と、を有することを特
徴とするものである。
【0036】また、請求項11の信号符号化装置は、請
求項2に記載の信号符号化装置において、聴覚モデルパ
ラメータとしてバークスペクトル、周波数スペクトルパ
ラメータとして周波数スペクトル振幅値を用い、前記変
換手段では、周波数スペクトル振幅値を、バークスペク
トルと同じ次数の周波数スペクトル振幅代表値による近
似式で表現し、この近似式によりバークスペクトルと周
波数スペクトル振幅代表値の間に成立する連立方程式を
解くことで、バークスペクトルを周波数スペクトル振幅
代表値に変換し、この周波数スペクトル振幅代表値と前
記近似式を用いて周波数スペクトル振幅値を算出するよ
うにしたことを特徴とするものである。
【0037】また、請求項12の信号復号化装置は、請
求項7に記載の信号復号化装置において、聴覚モデルパ
ラメータとしてバークスペクトル、周波数スペクトルパ
ラメータとして周波数スペクトル振幅値を用い、前記変
換手段では、周波数スペクトル振幅値を、バークスペク
トルと同じ次数の周波数スペクトル振幅代表値による近
似式で表現し、この近似式によりバークスペクトルと周
波数スペクトル振幅代表値の間に成立する連立方程式を
解くことで、バークスペクトルを周波数スペクトル振幅
代表値に変換し、この周波数スペクトル振幅代表値と前
記近似式を用いて周波数スペクトル振幅値を算出するよ
うにしたことを特徴とするものである。
【0038】
【作用】本発明における請求項1の信号符号化装置にお
いては、聴覚モデルパラメータ算出手段が、バークスペ
クトル等の聴覚モデルに基づくパラメータを算出し、聴
覚モデルパラメータ符号化手段が、このパラメータを直
接符号化する。本発明に基づく信号符号化装置において
は、聴覚モデルに基づくパラメータを直接符号化するよ
うにしたので、聴覚特性との対応がよい信号符号化を行
うことができる。また、請求項2の信号符号化装置にお
いては、上記請求項1の場合と同様に、聴覚モデルパラ
メータ算出手段が聴覚モデルパラメータを出力し、聴覚
モデルパラメータ符号化手段が、上記聴覚モデルパラメ
ータを符号化して符号化聴覚モデルパラメータを出力す
る。さらに、聴覚パラメータ復号化手段が、上記符号化
聴覚モデルパラメータを復号して復号聴覚モデルパラメ
ータを出力し、変換手段が周波数スペクトルパラメータ
を出力する。音源符号選択手段は、上記復号モデルパラ
メータを用いて重み係数を算出し、上記音源符号帳内の
各音源符号語に上記周波数スペクトルパラメータを乗じ
たものと入力信号間の重み付け距離を計算し、この重み
付け距離を最小にする音源符号語を選択してその音源符
号語を出力する。
【0039】本発明によれば、復号化後のパラメータを
用いて算出した重み係数を用いて音源符号を探索するの
で、聴覚特性に対応のよい音源信号の符号化が可能とな
る。
【0040】また、請求項3の信号符号化装置において
は、聴覚モデルパラメータとしてバークスペクトルを使
用する。よって、パラメータ算出処理、符号化処理を少
ない演算量で実現することができる。
【0041】また、請求項4の信号符号化装置において
は、まず、有音無音判定手段が、入力信号に対して、有
音区間か無音区間かを判定する。そして、推定雑音パラ
メータ算出手段が、無音区間の場合に、複数の聴覚モデ
ルパラメータから平均的な雑音の聴覚モデルパラメータ
を算出して、推定雑音パラメータとして出力する。雑音
除去手段は、有音区間の聴覚パラメータから推定雑音パ
ラメータに相当する成分を取り除く。以上のようにし
て、雑音成分の抑圧を行って抑圧後の聴覚モデルパラメ
ータを符号化する。
【0042】したがって、信号符号化とは非独立して雑
音抑圧処理が実行できるようになり、また、雑音抑圧の
ための演算量とメモリ量を節約することができる。
【0043】また、請求項5の信号符号化装置において
は、聴覚モデルパラメータ算出手段が、パワースペクト
ル算出手段と、臨界帯域積分手段と、等ラウドネス補正
手段と、ラウドネス変換手段とを有し、まず、パワース
ペクトル算出手段が、入力信号のパワースペクトルを算
出する。臨界帯域積分手段は、上記パワースペクトルに
臨界帯域フィルタ関数を乗じて励起パタンを算出する。
等ラウドネス補正手段は、上記励起パタンに、周波数ご
との音の大きさと等感度との関係についての補正係数を
乗じて補正励起パタンを算出する。次に、ラウドネス変
換手段は、上記補正励起パタンをパワー尺度からソーン
尺度へ変換してバークスペクトルを算出する。
【0044】本発明における信号符号化装置において
は、臨界帯域積分手段によりマスキング効果が導入さ
れ、等ラウドネス補正手段により等ラウドネスの特性が
導入される。また、ラウドネス変換手段によりソーン尺
度の特性が導入されるので、聴覚特性との対応がよい信
号の符号化が可能となる。
【0045】また、請求項6の信号符号化装置において
は、雑音除去手段が、等ラウドネス補正手段とラウドネ
ス変換手段の間に設けられ、この雑音除去手段が、上記
補正励起パタンから推定雑音パラメータに相当する成分
を取り除く。したがって、ラウドネス変換手段において
はパワー尺度からソーン尺度へ変換する際に指数関数変
換を行うことになるので、等ラウドネス補正手段が出力
する励起パタンから雑音を除去するようにしたことによ
り、演算処理を容易にすることができる。
【0046】また、請求項7の信号復号化装置において
は、聴覚パラメータ復号化手段が、符号化聴覚モデルパ
ラメータを復号して、得られた聴覚モデルパラメータを
出力する。変換手段は周波数スペクトルパラメータを出
力し、合成手段は、上記周波数スペクトルパラメータを
用いて合成信号を生成する。本発明においては、符号化
聴覚モデルパラメータを復号して、得られた周波数スペ
クトルパラメータを用いて合成信号を生成するので、聴
覚特性との対応がよい信号復号化を行うことができる。
【0047】また、請求項8の信号復号化装置において
は、聴覚モデルパラメータとしてバークスペクトルを用
いたので、周波数スペクトルパラメータへの逆変換を少
ない処理量で行うことができる。
【0048】また、請求項9にの信号復号化装置におい
ては、周波数スペクトルパラメータとして周波数スペク
トル振幅値を用いるので、様々な合成方法に適用が容易
となる。
【0049】また、請求項10に記載の信号復号化装置
においては、変換手段が、ラウドネス逆変換手段と、等
ラウドネス逆変換手段と、パワースペクトル変換手段
と、平方根手段とを有し、まず、ラウドネス逆変換手段
が、バークスペクトルをソーン尺度からパワー尺度へ変
換して補正励起パタンを算出する。次に、等ラウドネス
逆補正手段が、上記補正励起パタンに補正係数の逆数を
乗じて励起パタンを算出する。次に、パワースペクトル
変換手段が、上記励起パタンと臨界帯域フィルタ関数と
からパワースペクトルを算出する。そして、平方根手段
が、上記パワースペクトルの各成分の平方根を算出して
周波数スペクトル振幅値を算出する。
【0050】本発明においては、ラウドネス逆変換手段
によりソーン尺度の特性が取り除かれ、等ラウドネス逆
補正手段により等ラウドネスの特性が取り除かれ、か
つ、パワースペクトル変換手段により、臨界帯域フィル
タ関数の特性が取り除かれるので、聴覚特性との対応が
よい信号の復号化が可能となる。
【0051】また、請求項11及び12に記載の信号符
号化装置並びに信号復号化装置においては、バークスペ
クトルと同じ次数の周波数スペクトル振幅代表値による
近似式で周波数スペクトル振幅値を表現することで、バ
ークスペクトルから周波数スペクトル振幅値への近似変
換を行うので、少ない処理量でバークスペクトルから周
波数スペクトル振幅値への変換が実行できる。
【0052】
【実施例】
実施例1.本発明の一実施例を図に基づいて説明する。
【0053】図1は本発明の一実施例である信号符号化
装置A1の構成図である。図において、1は入力信号、
2はバークスペクトル算出手段、3はバークスペクトル
符号化手段、4は音源算出手段、5は音源符号化手段、
6はパワースペクトル算出手段、7は臨界帯域積分手
段、8は等ラウドネス補正手段、9はラウドネス変換手
段、10はバークスペクトル、11は符号化バークスペ
クトル、12は符号化音源である。
【0054】ここで、バークスペクトル算出手段2は、
パワースペクトル算出手段6と、上記パワースペクトル
算出手段6に接続される臨界帯域積分手段7と、上記臨
界帯域積分手段7に接続される等ラウドネス補正手段8
と、上記等ラウドネス補正手段8に接続されるラウドネ
ス変換手段9とを有し、バークスペクトル符号化手段3
は上記ラウドネス変換手段9に接続されている。また、
音源符号化手段5は、音源算出手段4に接続されてい
る。
【0055】また、図2は本発明の一実施例である信号
復号化装置Bの構成図である。図2において、11は符
号化バークスペクトル、12は符号化音源、13はバー
クスペクトル復号化手段、14は変換手段、15は合成
手段、16は音源復号化手段、17はラウドネス逆変換
手段、18は等ラウドレス逆補正手段、19はパワース
ペクトル変換手段、20は平方根手段、21はバークス
ペクトル、22は周波数スペクトル振幅幅、23は合成
信号である。
【0056】ここで、変換手段14は、ラウドネス逆変
換手段17と、ラウドネス逆変換手段17に接続される
等ラウドネス逆補正手段18と、上記等ラウドネス逆補
正手段18に接続されるパワースペクトル変換手段19
と、上記パワースペクトル変換手段19に接続される平
方根手段20とを有し、上記バークスペクトル復号化手
段13は、上記ラウドネス逆変換手段17に接続されて
いる。
【0057】ここで、信号符号化装置におけるバークス
ペクトル算出手段2は、人間の聴覚機構、すなわち、外
耳、鼓膜、中耳、内耳、1次神経等の働きを工学的にモ
デル化したもので、聴覚モデルとも呼ばれる。聴覚モデ
ルとしては、更に詳細なものも報告されているが、算出
処理量が少ないことから、上記臨界帯域積分手段7と、
等ラウドネス補正手段8と、ラウドネス変換手段9によ
って構成したものを用いる。
【0058】以下、図1と図2に示した本発明の一実施
例の動作について説明する。
【0059】まず、例えば8KHzでサンプリングされ
たディジタル音声信号が、入力信号1としてバークスペ
クトル算出手段2内のパワースペクトル算出手段6に入
力される。パワースペクトル算出手段6は、入力信号1
に対してFFT(高速フーリェ変換)等のスペクトル変
換処理を行い、得られた周波数スペクトル振幅値を2乗
してパワースペクトルYi を算出する。臨界帯域積分手
段7は、式(1)に従って、パワースペクトルYi に所
定の臨界帯域フィルタ関数Ajiを乗じ、励起パターンD
j を算出する。
【0060】
【数1】 ここで、臨界帯域フィルタ関数Ajiは、周波数iの信号
がj番目の臨界帯域に与える刺激の強さを表す関数で、
数式的なモデルの一例とその関数値のグラフがS.Wangら
の文献に記載されている。マスキング効果は、この臨界
帯域フィルタ関数Ajiに含まれて導入される。
【0061】次に、等ラウドネス補正手段8は、人間の
聴覚が同じ音の強さと感じる振幅が周波数によって異な
る、という特性を補正すために、励起パタンDj に補正
係数Hj を乗じ、補正励起パタンPj を算出する。
【0062】次に、ラウドネス変換手段9は、補正励起
パターンPj を、人間の感覚量としての音の大きさの尺
度であるソーン尺度に変換を行い、得られたパラメータ
をバークスペクトル10として出力する。そして、バー
クスペクトル符号化手段3は、バークスペクトル10を
符号化して、得られた符号化バークスペクトル11を出
力する。
【0063】なお、バークスペクトル符号化手段3にお
ける符号化には、スカラ量子化、ベクトル量子化、ベク
トルスカラ量子化、多段ベクトル量子化、時間的に近接
する複数のバークスペクトルを一括したマトリクス量子
化などの方法を用いることが可能で、そこで用いる歪尺
度としては、2乗距離や重み付き2乗距離などが良い。
重み付き2乗距離における重み関数は、バークスペクト
ルの値の大きい次数に重みを強くする、時間的に前後と
の間のバークスペクトルの変化が大きい次数に重みを強
くするなどである。
【0064】なお、上記構成においては、入力信号から
バークスペクトルを算出するのに、パワースペクトル算
出手段6と、臨界帯域積分手段7と、等ラウドネス補正
手段8と、ラウドネス変換手段9とを使用しているが、
この構成には限られず、例えば、臨界帯域積分手段7に
おける臨界帯域積分関数に等ラウドネス補正手段8にお
ける補正係数を含めて構成することもでき、また、アナ
ログ回路で構成することも可能である。また、符号化に
際しては、ラウドネス変換手段9の出力を符号化しなく
ても、例えば、等ラウドネス補正手段8から出力される
補正励起パタンを符号化したり、臨界積分手段7から出
力される励起パタンを符号化してもよい。
【0065】一方、音源算出手段4は、まず、入力信号
1が有声音であるか無声音であるかを判定し、その結果
を有声音無声音判別結果とする。また、有声音と判定し
た場合には、ピッチ周波数を算出する。そして、この有
声音無声音判定結果とピッチ周波数をまとめて、音源情
報として出力する。音源符号化手段5は、この音源情報
を符号化して、符号化音源12として出力する。
【0066】次に、信号復号化装置Bにおけるバークス
ペクトル復号化手段13は、前記符号化バークスペクト
ル11を復号化して、得られたバークスペクトル21を
出力する。ここで、バークスペクトル復号化手段13に
おける復号化は、前記バークスペクトル符号化手段3に
おける符号化と対をなす方法で行う。つまり、バークス
ペクトル符号化手段3が所定の符号帳を用いたベクトル
量子化を行う場合には、バークスペクトル復号化手段1
3においても同じ符号帳を用いた逆ベクトル量子化を行
う、などとする。
【0067】変換手段14内のラウドネス逆変換手段1
7は、ラウドネス変換手段9の逆変換に相当し、ソーン
尺度からパワー尺度に戻し、補正励起パタンPj として
出力する。等ラウドネス逆補正手段18は、等ラウドネ
ス補正手段8の逆変換に相当し、補正励起パタンPj
補正係数Hj の逆数を乗じることにより励起パタンDj
を算出する。パワースペクトル変換手段19は、臨界帯
域積分手段7の逆変換に相当し、励起パタンDj と帯域
フィルタ関数Ajiから、後述する方法等によってパワー
スペクトルYi を算出する。平方根手段20は、パワー
スペクトルYiの各成分の平方根をとることで、周波数
スペクトル振幅値22を算出する。
【0068】音源復号化手段16は、符号化音源12を
復号化し、得られた音源情報を合成手段15に出力す
る。そして、合成手段15は、この音源情報と周波数ス
ペクトル振幅値22を用いて、合成信号23の合成を行
う。この合成の方法は、ハーモニックコーダの合成処理
と同じものを用いることができる。同業者間では、一般
的な方法であるので、ここでは詳細な説明は行わない。
【0069】なお、音源情報に有声音無声音判別結果と
ピッチ周波数を用いたが、この他に帯域別有声無声判別
結果を加えて、多帯域励振(MBE)方式を用いて合成
を行うなど、様々な変形が可能である。
【0070】音声信号や音響信号の場合、励起パタンD
j の次数は15〜24であり、パワースペクトルYi
次数の方が大きい。このため、パワースペクトル変換手
段19における変換処理は、一意に結果の得られるもの
ではない。変換処理として、最も単純な方法は、図3に
処理の流れを示すような、ニュートンラプソン法などの
逐次求解法を用いるものである。
【0071】以下、図3に示した逐次求解法について説
明する。
【0072】パワースペクトル変換手段14内には、臨
界帯域積分手段7と同じものを備えさせる。そして、予
め、臨界帯域フィルタ関数Ajiを用いて、パワースペク
トルYi の各成分に対する励起パタンDj の偏微分を算
出しておく(ステップS1)。励起パタンDj が入力さ
れたら(ステップS2)、まず仮のパワースペクトルY
i ´を適切な初期値に設定する(ステップS3)。そし
て、この仮のパワースペクトルYi ´から、臨界帯域積
分手段5と同じものを用いて仮の励起パタンDj ´を算
出し(ステップS4)、入力された励起パタンDj との
誤差を算出する(ステップS5)。この誤差の2乗総和
が所定の値eより小さい場合には、その時の仮のパワー
スペクトルYi ´をパワースペクトルYi として出力す
る(ステップS6)。誤差の2乗総和が所定の値e以上
の場合には、この誤差と、予め算出しておいた偏微分を
用いて、仮のパワースペクトルYi ´を更新する(ステ
ップS7)。そして、ステップS4に戻る。
【0073】このように構成することにより、周波数軸
の非線形性、感覚量であるラウドネス、マスキング効果
といった聴覚特性を取り込んだ聴覚モデルに基づくパラ
メータを直接符号化・復号化することが可能となり、従
来法に比べて、聴覚特性、つまり合成信号の主観品質と
の対応がよい信号符号化、信号復号化が実現される効果
がある。表現を変えれば、主観品質の劣化をできる限り
抑えつつ、符号化情報量の削減が可能となる効果があ
る。
【0074】特にバークスペクトルは、少ない演算量で
簡単に算出できること、その2乗距離や重み付き2乗距
離などの簡単に計算できる距離尺度が主観歪と対応がよ
いこと、周波数スペクトル形状への逆変換が比較的少な
い処理量で行えることから、このバークスペクトルを聴
覚モデルに基づくパラメータとして用いることにより、
パラメータ算出処理、符号化処理、変換処理が現実的な
演算量で実現できる効果がある。
【0075】また、従来法を応用して聴覚モデルに基づ
くパラメータ上の歪を最小にしようとした場合のよう
に、全ての符号に対する合成音の生成と聴覚モデルに基
づくパラメータの算出を行うことがないので、現実的な
演算量で信号符号化と信号復号化が実現できる効果があ
る。
【0076】さらに、従来法の課題であった、全極モデ
ルによる近似、を排除することができているので、全極
モデルのような最適次数の推定は不要であるし、背景雑
音に強くなる効果がある。
【0077】また、周波数スペクトルパラメータとし
て、周波数スペクトル振幅値を用いるようにしたので、
様々な合成処理が容易に適用できる効果がある。
【0078】実施例2.図4は本発明の他の一実施例で
ある信号符号化装置A2の構成図である。図において新
規な部分は、24のバークスペクトル復号化手段、25
の変換手段、26の音源符号探索手段、27の音源符号
帳がある。その他の部分は、図1と同等であり、説明を
省略する。
【0079】以下、図4に示した本発明の一実施例の動
作について説明する。
【0080】バークスペクトル復号化手段24は、図2
において説明したバークスペクトル復号化手段13と同
等のものであり、符号化バークスペクトル11を復号化
して、得られたバークスペクトルを変換手段25に出力
する。変換手段25は、図2において説明した変換手段
14と同等のものであり、バークスペクトル復号化手段
24が出力したバークスペクトルを周波数スペクトル振
幅値に変換する。
【0081】音源符号探索手段26は、まず、入力信号
1に対してFFT(高速フーリェ変換)等のスペクトル
変換処理を行い、入力信号1の周波数スペクトル振幅値
を得る。また、パワースペクトルYi の各成分を微小変
化させたときにバークスペクトルの2乗歪がどれだけ発
生するかを算出し、重み係数Gi とする。次に、音源符
号帳27内の全ての音源符号語を順番に読みだし、各々
の音源符号語に対して、変換手段25が出力した周波数
スペクトル振幅値を乗じ、これに適切なゲインを乗じた
ものと入力信号1の周波数スペクトル振幅値との間のG
i 重み付き2乗距離を算出していく。そして、最も距離
が小さかった音源符号語とゲインを選択し、その音源符
号語に対応した音源符号語とゲインを符号化音源12と
して出力する。
【0082】重み係数Gi の算出は、例えば以下のよう
にして簡単に行える。まず、パワースペクトルYi の各
成分に対する補正励起パタンPi の偏微分を算出する。
この偏微分は、臨界帯域フィルタ関数Ajiと等ラウドネ
ス変換の係数から算出でき、固定的なものであるので、
予め算出しておけば良い。次に、補正励起パタンDj
各成分に微小摂動を与えたときにバークスペクトルの変
化を算出し、その2乗総和を算出する。この値は、バー
クスペクトル復号化手段24が出力したバークスペクト
ルを変数とした簡単な式で計算できる。そして、算出さ
れたパワースペクトルYi の各成分に対する補正励起パ
タンPi の偏微分の行列と、補正励起パタンDi の各成
分に微小摂動を与えたときのバークスペクトルの変化の
2乗総和を乗ずることで、所望の重み係数Gi が算出さ
れる。
【0083】ここでは説明を簡単にするために、入力信
号1の周波数スペクトル振幅値を音源符号探索手段26
内で算出する構成としたが、実際にはバークスペクトル
算出手段2内のパワースペクトル算出手段6において既
に算出しているので、これを記憶しておいて流用するほ
うが処理量が少なくて良い。
【0084】なお、この実施例によって得られた符号化
結果は、図2の構成の信号復号化装置で復号化できる。
ただし、音源復号化手段16と合成手段15の処理内容
を変更する必要があるので、この部分のみ説明を行う。
【0085】音源復号化手段16は、符号化音源12を
復号化し、得られた音源符号語とゲインを合成手段15
に出力する。合成手段15は、音源符号語にゲインを乗
じ、これにさらに周波数スペクトル振幅値22を乗じ、
逆FFT等の逆フーリェ変換を行って、合成信号23を
得る。
【0086】このように構成することにより、実施例1
が持つ効果に加えて、聴覚特性に対応の良い音源信号の
符号化・復号化が可能となる効果がある。また、聴覚モ
デルに基づくパラメータとしてバークスペクトルを用い
た場合には、音源符号の探索に用いる重み係数が少ない
処理量で算出できる効果がある。
【0087】実施例3.図5は本発明の他の一実施例で
ある信号符号化装置A3の構成図である。図において新
規な部分は、有音無音判定手段30、推定雑音パラメー
タ算出手段31、雑音除去手段32がある。その他の部
分は、図1と同等であり、説明を省略する。
【0088】以下、図5に示した本発明の一実施例の動
作について説明する。
【0089】有音無音判定手段30は、入力信号1を分
析して、音声区間であるか否か、すなわち有音か無音か
を判定し、結果を有音無音判定結果として出力する。推
定雑音パラメータ算出手段31は、前記有音無音判定結
果が無音の場合、等ラウドネス補正手段8が出力した補
正励起パタンを用いて、内部に記憶してある推定雑音パ
タンを更新する。更新の方法としては、移動平均や、最
近の無音の時の複数の補正励起パタンを記憶しておい
て、その平均を算出しても良い。雑音除去手段32は、
前記有音無音判定結果が有音の場合に、等ラウドネス補
正手段8が出力した補正励起パタンから、前記推定雑音
パラメータ算出手段31に記憶してある推定雑音パタン
に所定のゲインを乗じたものを減算し、得られたものを
新たに補正励起パタンとしてラウドネス変換手段9に出
力する。
【0090】なお、上記雑音除去手段32では、有音の
場合のみ減算処理を行っているが、無音の場合にも同じ
減算処理を行うようにすることも可能であるし、無音の
場合には等ラウドネス補正手段8が出力した補正励起パ
タンに1.0より小さいゲインを乗じたものを新たに補
正励起パタンとしてラウドネス変換手段9に出力するこ
とも可能である。
【0091】このように構成することにより、実施例1
が持つ効果に加えて、信号符号化と非独立に雑音抑圧処
理が実行されるので、雑音抑圧のための演算量とメモリ
量が節約でき、信号の複雑なバッファリングが不要とな
る効果がある。また、15次程度のバークスペクトルの
次数に比例した少ない演算量と少ないメモリ量で、S.F.
Bollによる従来例と同等の雑音抑圧効果が得られる。
【0092】さらに、従来は各周波数成分毎の減算処理
であったので雑音の変動の影響が大きかったが、複数の
周波数成分の積分を行って得られるバークスペクトルで
は変動が平滑化されて小さくなっており、雑音の変動の
影響が低減される効果がある。また、この平滑化は聴覚
特性との対応が良く、従来の単純な平滑化処理に比べて
良好な復号音質が得られる効果がある。
【0093】なお、雑音除去手段32は上記において
は、等ラウドネス補正手段8とラウドネス変換手段9間
に設けられているが、ラウドネス変換手段9の出力側に
配置するようにしてもよい。
【0094】しかし、ラウドネス変換手段9において
は、パワー尺度からソーン尺度へ変換する際に指数関数
変換を行うことになるので、ラウドネス変換手段9の出
力側に配置すると、ラウドネス変換手段9における指数
関数変換を考慮しなければならず、推定雑音パラメータ
算出手段31で算出された雑音を単純に減算することが
できないという問題がある。よって、上記のように雑音
除去手段32を等ラウドネス補正手段8とラウドネス変
換手段9間に設けることにより、演算処理を簡単にする
ことができる。
【0095】実施例4.上記実施例3では、実施例1の
構成に有音無音判定手段30、推定雑音パラメータ算出
手段31、雑音除去手段32を追加した構成となってい
るが、実施例2の構成に対して全く同様に有音無音判定
手段30、推定雑音パラメータ算出手段31、雑音除去
手段32を追加した構成も可能である。
【0096】このように構成することにより、実施例3
が持つ効果に加えて、音源符号探索手段26で算出さ
れ、距離計算に用いられる重み係数が、雑音の比率の高
い周波数において自動的に低くなり、合成音信号の了解
性が改善される効果がある。
【0097】実施例5.上記実施例1乃至実施例4で
は、変換手段14及び変換手段25内のパワースペクト
ル変換手段19においてニュートンラプソン法などの逐
次求解法を用いて変換処理を行っていたが、これを以下
に説明するような近似求解法を用いて行うこともでき
る。
【0098】近似求解法においては、最終的に算出する
N次のパワースペクトルYi を、バークスペクトルと同
じM次の変数ベクトルZj と、予め固定的に与えた補間
を表すM×N行列Rによって、式(2)のように近似し
て、求解を行う。
【0099】
【数2】 Y=RZ (2) ただし、 Y=[Y1 ,Y2 ,…YN T Z=[Z1 ,Z2 ,…ZM T である。なお、Rとしては、RZ、つまりYが図6また
は図7に示すパタンとなるような行列を用いることがで
きる。ここで、変数ベクトルZj が周波数スペクトル振
幅代表値に当たる。
【0100】この時、励起パタンD1 は、音源のパワー
スペクトルを対角成分に持つN×N行列E、臨界帯域フ
ィルタ関数Ajiによって構成されるN×M行列Aを用い
た式(3)のように表される。
【0101】
【数3】 D=AEY=AERZ (3) ただし、 D=[D1 ,D2 ,…,DM T である。
【0102】ここで、AERがM×M正方行列であるの
で、逆行列が算出できる。式(2)と式(3)を変形し
て、下記の式(4)が導出される。
【0103】
【数4】 Y=R(AER)-1D (4) 従って、音源のパワースペクトルEが算出できれば、こ
の式(4)を用いて、励起パタンDからパワースペクト
ルYへの変換が実行できる。
【0104】変換手段14内のパワースペクトル変換手
段19に適用する場合には、音源復号化手段16が出力
した音源情報を用いて音源のパワースペクトルを算出す
れば良い。変換手段25内のパワースペクトル変換手段
19に適用する場合には、まず一回前の時の音源を仮の
音源として、そのパワースペクトルを算出してEとして
用い、音源符号化探索手段26での探索を一回行って、
その結果得られた音源のパワースペクトルを算出して再
度パワースペクトル変換手段19での変換を行い、再度
音源符号探索手段26での探索を行えば良い。仮の音源
には、全極モデルによる残差信号や、入力信号1をケプ
ストラム分析して、得られたケプストラムの20次程度
以下の低次項を除いた後に、パワースペクトルに逆変換
して用いても良い。
【0105】また、この近似求解法による変換を用いて
算出されたパワースペクトルを、図3で説明した逐次求
解法の初期値として、近似による誤差を低減することも
できる。 このように構成することにより、逐次求解法
に比べて、少ない処理量でバークスペクトルから周波数
スペクトル振幅値への変換が実行でき、信号符号化装置
及び信号復号化装置の処理量が少なくなる効果がある。
【0106】実施例6.上記実施例1乃至実施例5にお
いて、バークスペクトル算出手段2内のパワースペクト
ル算出手段6と臨界帯域積分手段7を、臨界帯域フィル
タの特性を模擬したバンドパスフィルタ群とパワーを積
分する手段で構成することもできる。つまり、パラメー
タを抽出して符号化を行う周期は20msec(この周
期をフレームと呼ぶ)であり、このフレーム内において
は入力信号のスペクトルは定常であると考え、フレーム
内のバンドパスフィルタの出力を積分していくのであ
る。また、パワーを積分する手段はローパスフィルタで
実現することもできる。また、等ラウドネス補正手段8
をも含めた特性を与えても良い。
【0107】このように構成することにより、フィルタ
の次数が少なく、バークスペクトルの算出周期が短い場
合には、処理量が削減される効果がある。
【0108】実施例7.上記実施例1乃至実施例6にお
いて、バークスペクトル符号化手段3が、時間的に近接
する複数のバークスペクトルを記憶しておき、セグメン
ト量子化を行う構成も可能である。セグメント量子化を
行う場合には、セグメント境界の決定がその符号化特性
に大きな影響を与えるが、パークスペクトルの時間的変
化速度が極大または極小の部分を境界としたり、これを
初期値としてバークスペクトルの符号化歪が最小になる
ように境界を決定したりすれば良い。
【0109】このように構成することにより、上記実施
例1乃至実施例6の効果に加えて、セグメント境界の決
定が聴覚的に歪が小さくなるように決定できる効果があ
る。実施例8.上記実施例1乃至請求項実施例7におい
て、臨界帯域積分手段7における臨界帯域フィルタ関
数、等ラウドネス補正手段8内の補正係数、ラウドネス
変換手段9におけるパワー尺度からソーン尺度への変換
特性を複数組用意しておき、どの組を用いるかを使用者
が選択できるように構成することもできる。複数組の一
例としては、1つは正常な聴覚特性を模擬する変換特
性、臨界帯域フィルタ関数、及び補正係数、もう一つは
若干劣化が起った老人の聴覚特性を模擬する変換特性、
臨界帯域フィルタ関数、及び補正係数とする。この他、
特定の難聴者に対して、その聴覚特性を測定して、その
聴覚特性を模擬する変換特性、臨界帯域フィルタ関数、
及び補正係数を含めて用いても良い。なお、どの組を用
いたかを変換手段14及び変換手段25内のラウドネス
逆変換手段17、等ラウドネス逆補正手段18、パワー
スペクトル変換手段19に伝達し、これらにおいて用い
る変換特性、臨界帯域フィルタ関数、及び補正係数も連
動させる。
【0110】このように構成することにより、老人等の
聴覚特性が異なる聴取者に対しても、実施例1乃至実施
例7と同様の効果が得られ、従来法に比べて、聴覚特
性、つまり合成信号の主観品質との対応がよい信号符号
化、信号復号化が実現される効果がある。
【0111】実施例9.上記実施例1乃至実施例8の変
換手段14において、ラウドネス逆変換手段17のソー
ン尺度からパワー尺度への変換特性、等ラウドネス逆補
正手段18の臨界帯域フィルタ関数、パワースペクトル
変換手段19の補正係数を複数組用意しておき、どの組
を用いるかを使用者が選択できる構成とすることもでき
る。複数組の一例としては、1つは正常な聴覚特性を模
擬する変換特性、臨界帯域フィルタ関数、及び補正係
数、もう一つは若干劣化が起こった老人の聴覚特性を補
償する変換特性、臨界帯域フィルタ関数、及び補正係数
とする。この他、特性の難聴者に対して、その聴覚特性
を測定して、その聴覚特性を補償する変換特性、臨界帯
域フィルタ関数、及び補正係数を含めて用いても良い。
【0112】このように構成することにより、老人等の
聴覚特性が異なる聴取者の聞き取り易い信号復号化が実
現される効果がある。
【0113】
【発明の効果】以上説明したように請求項1の発明は、
聴覚モデルに基づくパラメータを算出し、このパラメー
タを直接符号化するようにしたので、従来法に比べて、
聴覚特性との対応がよい信号符号化が実現される効果が
ある。表現を変えれば、主観品質の劣化をできる限り抑
えつつ、符号化情報量の削減が可能となる効果がある。
【0114】また、従来法を応用して聴覚モデルに基づ
くパラメータ上の歪を最小にしようとした場合のよう
に、全ての符号に対する合成音の生成と聴覚モデルに基
づくパラメータの算出を行うことがないので、現実的な
演算量で信号符号化が実現できる効果がある。
【0115】さらに、従来法の課題であった、全極モデ
ルによる近似、を排除することができているので、全極
モデルのような最適次数の推定は不要であるし、背景雑
音に強くなる効果がある。
【0116】請求項2の発明は、聴覚モデルに基づくパ
ラメータを算出し、このパラメータを直接符号化・復号
化するととともに、復号化後のパラメータを用いて算出
した重み係数を用いて音源符号の探索を行うようにした
ので、請求項1の発明が持つ効果に加えて、聴覚特性に
対応の良い音源信号の符号化が可能となる効果がある。
【0117】請求項3の発明は、請求項1乃至請求項2
の信号符号化装置における聴覚モデルに基づくパラメー
タとして、バークスペクトルを用いるようにしたので、
請求項1乃至請求項2の発明が持つ効果に加えて、パラ
メータ算出処理、符号化処理の少ない演算量で実現でき
る効果がある。
【0118】また、請求項2の信号符号化装置における
請求項3の発明は、距離計算に用いられる重み係数が少
ない処理量で算出できる効果もある。
【0119】請求項4の発明は、無音区間の聴覚モデル
パラメータから雑音の平均的な聴覚モデルパラメータを
推定し、これを有音区間の聴覚モデルパラメータから除
去することで、雑音成分の抑圧を行い、抑圧後の聴覚モ
デルパラメータを符号化するようにしたので、請求項1
乃至請求項3の発明が持つ効果に加えて、信号符号化と
非独立に雑音抑圧処理が実行されるようになり、雑音抑
圧のための演算量とメモリ量が節約でき、信号の複雑な
バッファリングが不要となる効果がある。また、聴覚モ
デルパラメータとしてバークスペクトルを用いた場合に
は、15次程度のバークスペクトルの次数に比例した少
ない演算量と少ないメモリ量で、従来例と同等の雑音抑
圧効果が得られる効果がある。
【0120】さらに、従来は各周波数成分毎の減算処理
であったので雑音の変動の影響が大きかったが、聴覚モ
デルパラメータでは変動が周波数方向に平滑化されて小
さくなっており、雑音の変動の影響が低減される効果が
ある。また、この平滑化は聴覚特性との対応が良く、従
来の単純な平滑化処理に比べて良好な復号音質が得られ
る効果がある。
【0121】また、請求項2の信号符号化装置における
請求項4の発明は、距離計算に用いられる重み係数が、
雑音の比率の高い周波数において自動的に低くなり、合
成音信号の了解性が改善される効果もある。
【0122】また、請求項5の発明においては、臨界帯
域積分手段によりマスキング効果が導入され、等ラウド
ネス補正手段により等ラウドネスの特性が導入され、ま
た、ラウドネス変換手段によりソーン尺度の特性が導入
されるので、聴覚特性との対応がよい信号の符号化が可
能となる。
【0123】請求項6に記載の発明においては、等ラウ
ドネス補正手段が出力する励起パタンから雑音を除去す
るようにしたことにより、演算処理を容易にすることが
できる。
【0124】請求項7の発明は、聴覚モデルパラメータ
を周波数スペクトルパラメータに変換し、得られた周波
数スペクトルパラメータを用いて合成音信号の生成を行
うようにしたので、聴覚特性との対応がよい信号復号化
が実現される効果がある。
【0125】請求項8の発明は、請求項7の信号復号化
装置における聴覚モデルパラメータとして、バークスペ
クトルを用いるようにしたので、請求項7の発明が持つ
効果に加えて、周波数スペクトルパラメータへの逆変換
が比較的少ない処理量で行え、変換処理が現実的な演算
量で実現できる効果がある。
【0126】請求項9の発明は、請求項7乃至請求項8
の信号復号化装置における周波数スペクトルパラメータ
として、周波数スペクトル振幅値を用いるようにしたの
で、請求項5乃至請求項6の発明が持つ効果に加えて、
様々な合成方式に適用が容易となる効果がある。
【0127】請求項10の発明においては、ラウドネス
逆変換手段によりソーン尺度の特性が取り除かれ、等ラ
ウドネス逆補正手段により等ラウドネスの特性が取り除
かれ、かつ、パワースペクトル変換手段により、臨界帯
域フィルタ関数の特性が取り除かれるので、聴覚特性と
の対応がよい信号の復号化が可能となる。
【0128】請求項11と12の発明は、バークスペク
トルと同じ次数の周波数スペクトル振幅代表値による近
似式で周波数スペクトル振幅値を表現することで、バー
クスペクトルから周波数スペクトル振幅値への近似変換
を行うようにしたので、少ない処理量でバークスペクト
ルから周波数スペクトル振幅値への変換が実行でき、信
号符号化装置及び信号復号化装置の処理量が少なくなる
効果がある。
【図面の簡単な説明】
【図1】この発明の実施例1の信号符号化装置を示す構
成図である。
【図2】この発明の実施例1の信号復号化装置を示す構
成図である。
【図3】この発明の実施例1のパワースペクトル変換手
段19における逐次求解法を説明するフローチャートで
ある。
【図4】この発明の実施例2の信号符号化装置を示す構
成図である。
【図5】この発明の実施例3の信号符号化装置を示す構
成図である。
【図6】この発明の実施例5における補間を表す行列の
一例を説明する概念図である。
【図7】この発明の実施例5における補間を表す行列の
一例を説明する概念図である。
【符号の説明】
1 入力信号 2 バークスペクトル算出手段 3 バークスペクトル符号化手段 4 音源算出手段 5 音源符号化手段 6 パワースペクトル算出手段 7 臨界帯域積分手段 8 等ラウドネス補正手段 9 ラウドネス変換手段 10、21 バークスペクトル 11 符号化バークスペクトル 12 符号化音源 13、24 バークスペクトル復号化手段 14、25 変換手段 15 合成手段 16 音源復号化手段 17 ラウドネス逆変換手段 18 等ラウドネス逆補正手段 19 パワースペクトル変換手段 20 平方根手段 22 周波数スペクトル振幅値 23 合成信号 26 音源符号探索手段 27 音源符号帳 30 有音無音判定手段 31 推定雑音パラメータ算出手段 32 雑音除去手段

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 入力信号に対して、聴覚モデルに基づく
    パラメータを算出し、聴覚モデルパラメータとして出力
    する聴覚モデルパラメータ算出手段と、 前記聴覚モデルパラメータを符号化し、符号化聴覚モデ
    ルパラメータとして出力する聴覚モデルパラメータ符号
    化手段と、 を備えたことを特徴とする信号符号化装置。
  2. 【請求項2】 入力信号に対して、聴覚モデルに基づく
    パラメータを算出し、聴覚モデルパラメータとして出力
    する聴覚モデルパラメータ算出手段と、 前記聴覚モデルパラメータを符号化し、符号化聴覚モデ
    ルパラメータとして出力する聴覚モデルパラメータ符号
    化手段と、 符号化聴覚モデルパラメータを復号して、得られた復号
    聴覚モデルパラメータを出力する聴覚パラメータ復号化
    手段と、 前記復号聴覚モデルパラメータを周波数スペクトル形状
    を表すパラメータに変換して、得られた周波数スペクト
    ルパラメータを出力する変換手段と、 複数の音源符号語を保持格納する音源符号帳と、 前記復号聴覚モデルパラメータを用いて重み係数を算出
    し、前記音源符号帳内の各音源符号語に前記周波数スペ
    クトルパラメータを乗じたものと入力音声の間の前記重
    み係数を用いた周波数領域での重み付き距離を計算し、
    この重み付き距離を最小にする音源符号語を選択して、
    その音源符号語を出力する音源符号選択手段と、 を備えたことを特徴とする信号符号化装置。
  3. 【請求項3】 聴覚モデルパラメータとしてバークスペ
    クトルを用いたことを特徴とする請求項1又は2に記載
    の信号符号化装置。
  4. 【請求項4】 入力信号に対して、有音区間であるか無
    音区間であるかの判定を行う有音無音判定手段と、 無音区間の複数の前記聴覚モデルパラメータから、平均
    的な雑音の聴覚モデルパラメータを算出して、推定雑音
    パラメータとして出力する推定雑音パラメータ算出手段
    と、 有音区間の前記聴覚モデルパラメータから前記推定雑音
    パラメータに相当する成分を取り除く雑音除去手段と、 を備えたことを特徴とする請求項1から3のいずれかに
    記載の信号符号化装置。
  5. 【請求項5】 聴覚モデルパラメータ算出手段が、 入力信号のパワースペクトルを算出するパワースペクト
    ル算出手段と、 パワースペクトル算出手段で算出されたパワースペクト
    ルに臨界帯域フィルタ関数を乗じて、励起パタンを算出
    する臨界帯域積分手段と、 臨界帯域積分手段で算出された励起パタンに、周波数ご
    との音の大きさと等感度との関係についての補正係数を
    乗じて補正励起パタンを算出する等ラウドネス補正手段
    と、 等ラウドネス補正手段で算出された補正励起パタンをパ
    ワー尺度からソーン尺度へ変換してバークスペクトルを
    算出するラウドネス変換手段と、 を有することを特徴とする請求項3に記載の信号符号化
    装置。
  6. 【請求項6】 信号符号化装置が、さらに、入力信号に
    対して有音区間であるか無音区間であるかの判定を行う
    有音無音判定手段と、 無音区間の複数の前記聴覚モデルパラメータから、平均
    的な雑音の聴覚モデルパラメータを算出して、推定雑音
    パラメータとして出力する推定雑音パラメータ算出手段
    と、を有し、 聴覚モデルパラメータ算出手段が、 入力信号のパワースペクトルを算出するパワースペクト
    ル算出手段と、 パワースペクトル算出手段で算出されたパワースペクト
    ルに臨界帯域フィルタ関数を乗じて、励起パタンを算出
    する臨界帯域積分手段と、 臨界帯域積分手段で算出された励起パタンに、周波数ご
    との音の大きさと等感度との関係についての補正係数を
    乗じて補正励起パタンを算出する等ラウドネス補正手段
    と、 有音区間の場合に、補正励起パタンから前記推定雑音パ
    ラメータに相当する成分を取り除いて、雑音を除去した
    補正励起パタンを算出する雑音除去手段と、 雑音を除去した補正励起パタンをパワー尺度からソーン
    尺度へ変換してバークスペクトルを算出するラウドネス
    変換手段と、 を有することを特徴とする請求項1から3のいずれかに
    記載の信号符号化装置。
  7. 【請求項7】 聴覚モデルに基づくパラメータを符号化
    した符号化聴覚モデルパラメータを復号して、得られた
    聴覚モデルパラメータを出力する聴覚パラメータ復号化
    手段と、 前記聴覚モデルパラメータを周波数スペクトル形状を表
    すパラメータに変換して、得られた周波数スペクトルパ
    ラメータを出力する変換手段と、 前記周波数スペクトルパラメータを用いて合成信号を生
    成する合成手段と、を備えたことを特徴とする信号復号
    化装置。
  8. 【請求項8】 聴覚モデルパラメータとしてバークスペ
    クトルを用いたことを特徴とする請求項7に記載の信号
    復号化装置。
  9. 【請求項9】 周波数スペクトルパラメータとして周波
    数スペクトル振幅値を用いたことを特徴とする請求項7
    又は8記載の信号復号化装置。
  10. 【請求項10】 変換手段が、バークスペクトルをソー
    ン尺度からパワー尺度に変換して補正励起パタンを算出
    するラウドネス逆変換手段と、 上記補正励起パタンに、周波数ごとの音の大きさと等感
    度との関係についての補正係数の逆数を乗じて励起パタ
    ンを算出する等ラウドネス逆補正手段と、 上記励起パタンと臨界帯域フィルタ関数とから、パワー
    スペクトルを算出するパワースペクトル変換手段と、 上記パワースペクトルの各成分の平方根を算出して周波
    数スペクトル振幅値を算出する平方根手段と、 を有することを特徴とする請求項8又は9に記載の信号
    復号化装置。
  11. 【請求項11】 聴覚モデルパラメータとしてバークス
    ペクトル、周波数スペクトルパラメータとして周波数ス
    ペクトル振幅値を用い、前記変換手段では、周波数スペ
    クトル振幅値を、バークスペクトルと同じ次数の周波数
    スペクトル振幅代表値による近似式で表現し、この近似
    式によりバークスペクトルと周波数スペクトル振幅代表
    値の間に成立する連立方程式を解くことで、バークスペ
    クトルを周波数スペクトル振幅代表値に変換し、この周
    波数スペクトル振幅代表値と前記近似式を用いて周波数
    スペクトル振幅値を算出するようにしたことを特徴とす
    る請求項2に記載の信号符号化装置。
  12. 【請求項12】 聴覚モデルパラメータとしてバークス
    ペクトル、周波数スペクトルパラメータとして周波数ス
    ペクトル振幅値を用い、前記変換手段では、周波数スペ
    クトル振幅値を、バークスペクトルと同じ次数の周波数
    スペクトル振幅代表値による近似式で表現し、この近似
    式によりバークスペクトルと周波数スペクトル振幅代表
    値の間に成立する連立方程式を解くことで、バークスペ
    クトルを周波数スペクトル振幅代表値に変換し、この周
    波数スペクトル振幅代表値と前記近似式を用いて周波数
    スペクトル振幅値を算出するようにしたことを特徴とす
    る請求項7に記載の信号復号化装置。
JP6049469A 1994-03-18 1994-03-18 信号符号化装置及び信号復号化装置 Pending JPH07261797A (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP6049469A JPH07261797A (ja) 1994-03-18 1994-03-18 信号符号化装置及び信号復号化装置
CA002144268A CA2144268A1 (en) 1994-03-18 1995-03-09 Signal encoding and decoding system
EP95103480A EP0673013B1 (en) 1994-03-18 1995-03-10 Signal encoding and decoding system
EP00105094A EP1006510A3 (en) 1994-03-18 1995-03-10 Signal encoding and decoding system
DE69521164T DE69521164T2 (de) 1994-03-18 1995-03-10 System zum Kodieren und Dekodieren von Signalen
US08/947,765 US5864794A (en) 1994-03-18 1997-10-09 Signal encoding and decoding system using auditory parameters and bark spectrum

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6049469A JPH07261797A (ja) 1994-03-18 1994-03-18 信号符号化装置及び信号復号化装置

Publications (1)

Publication Number Publication Date
JPH07261797A true JPH07261797A (ja) 1995-10-13

Family

ID=12832009

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6049469A Pending JPH07261797A (ja) 1994-03-18 1994-03-18 信号符号化装置及び信号復号化装置

Country Status (5)

Country Link
US (1) US5864794A (ja)
EP (2) EP0673013B1 (ja)
JP (1) JPH07261797A (ja)
CA (1) CA2144268A1 (ja)
DE (1) DE69521164T2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1083193A (ja) * 1996-09-09 1998-03-31 Matsushita Electric Ind Co Ltd 音声合成装置および音声素片作成方法
WO2000074036A1 (fr) * 1999-05-31 2000-12-07 Nec Corporation Dispositif de codage/decodage de la voix et codage des parties non vocales, procede de decodage, et support enregistre d'enregistrement de programme
JP4864201B2 (ja) * 1998-05-27 2012-02-01 マイクロソフト コーポレーション 音声信号の量子化ノイズをマスクするためのシステムと方法

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3264822B2 (ja) * 1995-04-05 2002-03-11 三菱電機株式会社 移動体通信機器
ATE205009T1 (de) * 1996-05-21 2001-09-15 Koninkl Kpn Nv Vorrichtung und verfahren zur bestimmung der qualität eines ausgangssignals, das von einem signalverarbeitungsschaltkreis erzeugt werden soll
US6904404B1 (en) * 1996-07-01 2005-06-07 Matsushita Electric Industrial Co., Ltd. Multistage inverse quantization having the plurality of frequency bands
DE19710953A1 (de) * 1997-03-17 1997-07-24 Frank Dr Rer Nat Kowalewski Verfahren und Vorrichtung zur Erkennung von Schallsignalen
DE69836785T2 (de) * 1997-10-03 2007-04-26 Matsushita Electric Industrial Co., Ltd., Kadoma Audiosignalkompression, Sprachsignalkompression und Spracherkennung
TW358925B (en) * 1997-12-31 1999-05-21 Ind Tech Res Inst Improvement of oscillation encoding of a low bit rate sine conversion language encoder
US6070137A (en) * 1998-01-07 2000-05-30 Ericsson Inc. Integrated frequency-domain voice coding using an adaptive spectral enhancement filter
IL125221A0 (en) 1998-07-06 1999-03-12 Toy Control Ltd Motion activation using passive sound source
IL127569A0 (en) 1998-09-16 1999-10-28 Comsense Technologies Ltd Interactive toys
WO2000021203A1 (en) * 1998-10-02 2000-04-13 Comsense Technologies, Ltd. A method to use acoustic signals for computer communications
US6607136B1 (en) * 1998-09-16 2003-08-19 Beepcard Inc. Physical presence digital authentication system
JP2002527012A (ja) 1998-10-02 2002-08-20 コムセンス・テクノロジーズ・リミテッド コンピュータとの相互作用のためのカード
US7260221B1 (en) 1998-11-16 2007-08-21 Beepcard Ltd. Personal communicator authentication
US6438373B1 (en) * 1999-02-22 2002-08-20 Agilent Technologies, Inc. Time synchronization of human speech samples in quality assessment system for communications system
US7280970B2 (en) * 1999-10-04 2007-10-09 Beepcard Ltd. Sonic/ultrasonic authentication device
US8019609B2 (en) 1999-10-04 2011-09-13 Dialware Inc. Sonic/ultrasonic authentication method
KR100347752B1 (ko) * 2000-01-25 2002-08-09 주식회사 하이닉스반도체 이동통신 시스템에서 객관적 음질 평가 장치 및 그 방법
JP4055336B2 (ja) * 2000-07-05 2008-03-05 日本電気株式会社 音声符号化装置及びそれに用いる音声符号化方法
HUP0003010A2 (en) * 2000-07-31 2002-08-28 Herterkom Gmbh Signal purification method for the discrimination of a signal from background noise
EP1199812A1 (en) * 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Perceptually improved encoding of acoustic signals
EP1239455A3 (de) * 2001-03-09 2004-01-21 Alcatel Verfahren und Anordnung zur Durchführung einer an die Übertragungsfunktion menschilcher Sinnesorgane angepassten Fourier Transformation sowie darauf basierende Vorrichtungen zur Geräuschreduktion und Spracherkennung
US9219708B2 (en) * 2001-03-22 2015-12-22 DialwareInc. Method and system for remotely authenticating identification devices
US7072477B1 (en) * 2002-07-09 2006-07-04 Apple Computer, Inc. Method and apparatus for automatically normalizing a perceived volume level in a digitally encoded file
US7492889B2 (en) 2004-04-23 2009-02-17 Acoustic Technologies, Inc. Noise suppression based on bark band wiener filtering and modified doblinger noise estimate
WO2006018748A1 (en) * 2004-08-17 2006-02-23 Koninklijke Philips Electronics N.V. Scalable audio coding
US7496145B2 (en) * 2005-07-28 2009-02-24 Motorola, Inc. Method and apparatus for reducing transmitter peak power requirements with orthogonal code noise shaping
CN102623014A (zh) * 2005-10-14 2012-08-01 松下电器产业株式会社 变换编码装置和变换编码方法
US20080147385A1 (en) * 2006-12-15 2008-06-19 Nokia Corporation Memory-efficient method for high-quality codebook based voice conversion
US20090210222A1 (en) * 2008-02-15 2009-08-20 Microsoft Corporation Multi-Channel Hole-Filling For Audio Compression
US20110257978A1 (en) * 2009-10-23 2011-10-20 Brainlike, Inc. Time Series Filtering, Data Reduction and Voice Recognition in Communication Device
CN107342074B (zh) * 2016-04-29 2024-03-15 王荣 语音和声音的识别方法
CN111508519B (zh) * 2020-04-03 2022-04-26 北京达佳互联信息技术有限公司 一种音频信号人声增强的方法及装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4592455A (en) * 1983-06-28 1986-06-03 Massey-Ferguson Inc. Clutch and transmission brake assembly
CA1232686A (en) * 1985-01-30 1988-02-09 Northern Telecom Limited Speech recognition
US5341457A (en) * 1988-12-30 1994-08-23 At&T Bell Laboratories Perceptual coding of audio signals
JP2940005B2 (ja) * 1989-07-20 1999-08-25 日本電気株式会社 音声符号化装置
US5185800A (en) * 1989-10-13 1993-02-09 Centre National D'etudes Des Telecommunications Bit allocation device for transformed digital audio broadcasting signals with adaptive quantization based on psychoauditive criterion
US5040217A (en) * 1989-10-18 1991-08-13 At&T Bell Laboratories Perceptual coding of audio signals
WO1991006945A1 (en) * 1989-11-06 1991-05-16 Summacom, Inc. Speech compression system
JPH0455899A (ja) * 1990-06-25 1992-02-24 Nec Corp 音声信号符号化方式
JPH0472909A (ja) * 1990-07-13 1992-03-06 Sony Corp オーディオ信号の量子化誤差低減装置
NL9002308A (nl) * 1990-10-23 1992-05-18 Nederland Ptt Werkwijze voor het coderen en decoderen van een bemonsterd analoog signaal met een herhalend karakter en een inrichting voor het volgens deze werkwijze coderen en decoderen.
KR100312664B1 (ko) * 1991-03-29 2002-12-26 소니 가부시끼 가이샤 디지탈신호부호화방법
JPH05158495A (ja) * 1991-05-07 1993-06-25 Fujitsu Ltd 音声符号化伝送装置
US5450522A (en) * 1991-08-19 1995-09-12 U S West Advanced Technologies, Inc. Auditory model for parametrization of speech
WO1994025959A1 (en) * 1993-04-29 1994-11-10 Unisearch Limited Use of an auditory model to improve quality or lower the bit rate of speech synthesis systems

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1083193A (ja) * 1996-09-09 1998-03-31 Matsushita Electric Ind Co Ltd 音声合成装置および音声素片作成方法
JP4864201B2 (ja) * 1998-05-27 2012-02-01 マイクロソフト コーポレーション 音声信号の量子化ノイズをマスクするためのシステムと方法
WO2000074036A1 (fr) * 1999-05-31 2000-12-07 Nec Corporation Dispositif de codage/decodage de la voix et codage des parties non vocales, procede de decodage, et support enregistre d'enregistrement de programme
US8195469B1 (en) 1999-05-31 2012-06-05 Nec Corporation Device, method, and program for encoding/decoding of speech with function of encoding silent period

Also Published As

Publication number Publication date
US5864794A (en) 1999-01-26
DE69521164D1 (de) 2001-07-12
DE69521164T2 (de) 2002-02-28
EP1006510A3 (en) 2000-06-28
EP1006510A2 (en) 2000-06-07
CA2144268A1 (en) 1995-09-19
EP0673013B1 (en) 2001-06-06
EP0673013A1 (en) 1995-09-20

Similar Documents

Publication Publication Date Title
JPH07261797A (ja) 信号符号化装置及び信号復号化装置
US5864798A (en) Method and apparatus for adjusting a spectrum shape of a speech signal
US6182030B1 (en) Enhanced coding to improve coded communication signals
JP3707116B2 (ja) 音声復号化方法及び装置
US5359696A (en) Digital speech coder having improved sub-sample resolution long-term predictor
EP3751566B1 (en) Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates
JPH1091194A (ja) 音声復号化方法及び装置
JPH08328591A (ja) 短期知覚重み付けフィルタを使用する合成分析音声コーダに雑音マスキングレベルを適応する方法
US6691085B1 (en) Method and system for estimating artificial high band signal in speech codec using voice activity information
JPH10307599A (ja) スプラインを使用する波形補間音声コーディング
JPH09127996A (ja) 音声復号化方法及び装置
JP3268360B2 (ja) 改良されたロングターム予測器を有するデジタル音声コーダ
US20040111257A1 (en) Transcoding apparatus and method between CELP-based codecs using bandwidth extension
JPH10319996A (ja) 雑音の効率的分解と波形補間における周期信号波形
JP2002132299A (ja) 音声符号化方法および装置
JP3426871B2 (ja) 音声信号のスペクトル形状調整方法および装置
EP1619666B1 (en) Speech decoder, speech decoding method, program, recording medium
JPH08305396A (ja) 音声帯域拡大装置および音声帯域拡大方法
JP3192999B2 (ja) 音声符号化方法および音声符号化方法
JP3163206B2 (ja) 音響信号符号化装置
JP3749838B2 (ja) 音響信号符号化方法、音響信号復号方法、これらの装置、これらのプログラム及びその記録媒体
JP3520955B2 (ja) 音響信号符号化法
JP3192051B2 (ja) 音声符号化装置
JP4007730B2 (ja) 音声符号化装置、音声符号化方法および音声符号化アルゴリズムを記録したコンピュータ読み取り可能な記録媒体
JP2808841B2 (ja) 音声符号化方式