JP3747492B2 - 音声信号の再生方法及び再生装置 - Google Patents

音声信号の再生方法及び再生装置 Download PDF

Info

Publication number
JP3747492B2
JP3747492B2 JP15372395A JP15372395A JP3747492B2 JP 3747492 B2 JP3747492 B2 JP 3747492B2 JP 15372395 A JP15372395 A JP 15372395A JP 15372395 A JP15372395 A JP 15372395A JP 3747492 B2 JP3747492 B2 JP 3747492B2
Authority
JP
Japan
Prior art keywords
encoding parameter
unit
audio signal
encoding
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP15372395A
Other languages
English (en)
Other versions
JPH096397A (ja
Inventor
正之 西口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP15372395A priority Critical patent/JP3747492B2/ja
Priority to CA002179228A priority patent/CA2179228C/en
Priority to US08/664,512 priority patent/US5926788A/en
Priority to MYPI96002452A priority patent/MY116532A/en
Priority to ES96304568T priority patent/ES2159688T3/es
Priority to DE69614782T priority patent/DE69614782T2/de
Priority to AU56054/96A priority patent/AU721596B2/en
Priority to RU96111955/09A priority patent/RU2255380C2/ru
Priority to MX9602391A priority patent/MX9602391A/es
Priority to EP96304568A priority patent/EP0751493B1/en
Priority to SG1996010099A priority patent/SG54343A1/en
Priority to AT96304568T priority patent/ATE205011T1/de
Priority to BRPI9602835-1A priority patent/BR9602835B1/pt
Priority to CNB961110422A priority patent/CN1154976C/zh
Priority to TR96/00519A priority patent/TR199600519A2/xx
Priority to KR1019960022517A priority patent/KR100472585B1/ko
Priority to TW085109383A priority patent/TW412719B/zh
Publication of JPH096397A publication Critical patent/JPH096397A/ja
Application granted granted Critical
Publication of JP3747492B2 publication Critical patent/JP3747492B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0012Smoothing of parameters of the decoder interpolation

Description

【0001】
【産業上の利用分野】
本発明は、入力音声信号をフレーム単位で区分し、符号化して求めた符号化パラメータに基づいて、少なくともサイン波を合成することにより音声信号を再生する音声信号の再生方法及び再生装置に関する。
【0002】
【従来の技術】
オーディオ信号(音声信号や音響信号を含む)の時間領域や周波数領域における統計的性質と人間の聴感上の特性を利用して信号圧縮を行うような符号化方法が種々知られている。この符号化方法としては、大別して時間領域での符号化、周波数領域での符号化、分析合成符号化等が挙げられる。
【0003】
【発明が解決しようとする課題】
ところで、符号励起線形予測(CELP:Code Excited Linear Prediction )符号化に代表されるような上記時間軸上の処理による音声高能率符号化方法では、時間軸のスピード変換(Modify)処理が困難であった。これは、デコーダ出力の後にかなりの演算を行う必要があったためである。
【0004】
また、デコードした線形領域でスピードコントロールを行うため、例えばビットレートの変換などには使えなかった。
【0005】
本発明は、上記実情に鑑みてなされたものであり、広いレンジにわたる任意のレートのスピードコントロールを簡単に、かつ音韻、ピッチを不変として高品質に行える音声信号の再生方法及び再生装置の提供を目的とする。
【0006】
【課題を解決するための手段】
本発明に係る音声信号の再生方法は、上記課題を解決するために、入力音声信号が時間軸上の所定フレーム単位で区分され、各フレーム単位で符号化されることにより求められた符号化パラメータに基づいて、少なくともサイン波を合成することにより音声信号を再生する音声信号の再生方法において、上記符号化パラメータを補間処理して所望の時刻に対応する変更符号化パラメータを求める工程と、この変更符号化パラメータに基づいて、少なくともサイン波を合成する工程とを有し、上記変更符号化パラメータを求める工程は、前後のフレームが共に有声音または前後のフレームが共に無声音である場合、符号化パラメータを、前後のフレームの符号化パラメータの値を補間することにより求め、前後のフレームの一方が有声音、他方が無声音である場合、符号化パラメータを、所望の時刻に近いフレームの符号化パラメータ値とする。
【0007】
本発明に係る音声信号の再生装置は、上記課題を解決するために、入力音声信号が時間軸上の所定フレーム単位で区分され、各フレーム単位で符号化されることにより求められた符号化パラメータに基づいて、少なくともサイン波を合成することにより音声信号を再生する音声信号の再生装置において、上記符号化パラメータを補間処理して所望の時刻に対応する変更符号化パラメータを求める手段と、この変更符号化パラメータに基づいて、少なくともサイン波を合成する手段とを有し、上記変更符号化パラメータを求める手段は、前後のフレームが共に有声音または前後のフレームが共に無声音である場合、符号化パラメータを、前後のフレームの符号化パラメータの値を補間することにより求め、前後のフレームの一方が有声音、他方が無声音である場合、符号化パラメータを、所望の時刻に近いフレームの符号化パラメータ値とする。
【0009】
【作用】
入力音声信号を時間軸上の所定フレーム単位で区分し、各フレーム単位で符号化して求めた符号化パラメータを補間処理して所望の時刻に対応する変更符号化パラメータを求め、この変更符号化パラメータに基づいて少なくともサイン波を合成して音声信号を再生するので、任意のレートのスピードコントロールを可能とする。
【0010】
【実施例】
以下、本発明に係る音声信号の再生方法、再生装置を適用できるいくつかの実施例について図面を参照しながら説明する。
【0011】
先ず、本発明に係る音声信号の再生方法、再生装置に関する実施例を第1実施例として図1に示す。この第1実施例は、入力音声信号を時間軸上の所定フレーム単位で区分し、各フレーム単位で符号化して求めた符号化パラメータに基づいて、サイン波及びノイズを合成することにより音声信号を再生する音声信号再生装置1である。
【0012】
特に、この音声信号再生装置1は、上記符号化パラメータを補間処理して所望の時刻に対応する変更符号化パラメータを求め、この変更符号化パラメータに基づいて、サイン波及びノイズを合成している。なお、ここでは、上記変更符号化パラメータに基づいてサイン波及びノイズを合成しているが、少なくともサイン波を合成するだけでもよい。
【0013】
この音声信号再生装置1は、入力端子10から入力された音声信号をフレーム単位で区分しこのフレーム単位で符号化して線スペクトル対(LSP)パラメータや、ピッチや、有声音(V)/無声音(UV)や、スペクトル振幅Amのような符号化パラメータを出力する符号化部2と、上記符号化パラメータを補間処理して所望の時刻に対応する変更符号化パラメータを求める変更符号化パラメータ算出部3と、上記変更符号化パラメータに基づいてサイン波及びノイズを合成し、出力端子37から合成音声信号を出力する復号化部6とを備えてなる。ここで、符号化部2と、変更符号化パラメータ算出部3と、復号化部6は、図示しない制御部により、制御される。
【0014】
特に、この音声信号再生装置1の変更符号化パラメータ算出部3は、図2に示すように、所定フレーム毎に得られる上記符号化パラメータの時間軸を圧縮伸張して上記パラメータの出力周期を変更する周期変更回路4と、この周期変更されたパラメータを補間処理して上記所定フレーム毎の時刻に対応する変更符号化パラメータとする補間処理回路5とからなる。なお、この変更符号化パラメータ算出部3については後述する。
【0015】
先ず、符号化部2について説明するが、この符号化部2と復号化部6では、短期予測残差、例えばLPC残差(線形予測残差)を、ハーモニクスコーディングとノイズで表現する、あるいはマルチバンド励起(MBE)符号化あるいはMBE分析する。
【0016】
従来の符号励起線形予測(CELP)符号化においては、LPC残差を直接時間波形としてベクトル量子化していたが、符号化部2では、残差をハーモニクスコーディングやMBE分析で符号化するため、少ないビット数でハーモニクスのスペクトルエンベロープの振幅をベクトル量子化しても比較的滑らかな合成波形が得られ、LPC合成波形フィルタ出力も非常に聴きやすい音質となる。なお、上記スペクトルエンベロープの振幅の量子化には、本件発明者等が先に提案した特開平6−51800号公報に記載の次元変換あるいはデータ数変換の技術を用い、一定の次元数にしてベクトル量子化を行っている。
【0017】
図3に示す符号化部において、入力端子10に供給された音声信号は、フィルタ11にて不要な帯域の信号を除去するフィルタ処理が施された後、LPC(線形予測符号化)分析回路12及び逆フィルタリング回路21に送られる。
【0018】
LPC分析回路12は、入力信号波形の256サンプル程度の長さを1ブロックとしてハミング窓をかけて、自己相関法により線形予測係数、いわゆるαパラメータを求める。データ出力の単位となるフレーミングの間隔は、160サンプル程度とする。サンプリング周波数fsが例えば8kHzのとき、1フレーム間隔は160サンプルで20msec となる。
【0019】
LPC分析回路12からのαパラメータは、α→LSP変換回路13に送られて、線スペクトル対(LSP)パラメータに変換される。これは、直接型のフィルタ係数として求まったαパラメータを、例えば10個、すなわち5対のLSPパラメータに変換する。変換は例えばニュートン−ラプソン法等を用いて行う。このLSPパラメータに変換するのは、αパラメータよりも補間特性に優れているからである。
【0020】
α→LSP変換回路13からのLSPパラメータは、LSPベクトル量子化器14によりベクトル量子化される。このとき、フレーム間差分をとってからベクトル量子化してもよい。あるいは、複数フレーム分をまとめてマトリクス量子化してもよい。ここでの量子化では、20msec を1フレームとし、20msec 毎に算出されるLSPパラメータをベクトル量子化している。
【0021】
このLSPベクトル量子化器14からの量子化出力、すなわちLSPベクトル量子化のインデクスは、端子15を介して取り出され、また量子化済みのLSPベクトルは、LSP補間回路16に送られる。
【0022】
LSP補間回路16は、上記20msec 毎にベクトル量子化されたLSPのベクトルを補間し、8倍のレートにする。すなわち、2.5msec 毎にLSPベクトルが更新されるようにする。これは、残差波形をMBE符号化復号化方法により分析合成すると、その合成波形のエンベロープは非常になだらかでスムーズな波形になるため、LPC係数が20msec 毎に急激に変化すると、異音を発生することがあるからである。すなわち、2.5msec 毎にLPC係数が徐々に変化してゆくようにすれば、このような異音の発生を防ぐことができる。
【0023】
このような補間が行われた2.5msec 毎のLSPベクトルを用いて入力音声の逆フィルタリングを実行するために、LSP→α変換回路17により、LSPパラメータを例えば10次程度の直接型フィルタの係数であるαパラメータに変換する。このLSP→α変換回路17からの出力は、上記逆フィルタリング回路21に送られ、この逆フィルタリング回路21では、2.5msec 毎に更新されるαパラメータにより逆フィルタリング処理を行って、滑らかな出力を得るようにしている。この逆フィルタリング回路21からの出力は、ハーモニクス/ノイズ符号化回路22、具体的には例えばマルチバンド励起(MBE)分析回路、に送られる。
【0024】
ハーモニクス/ノイズ符号化回路あるいはMBE分析回路22では、逆フィルタリング回路21からの出力を、例えばMBE分析と同様の方法で分析する。すなわち、ピッチ検出、各ハーモニクスの振幅Amの算出、有声音(V)/無声音(UV)の判別を行い、ピッチによって変化するハーモニクスの振幅Amの個数を次元変換して一定数にしている。なお、ピッチ検出には、後述するように、入力されるLPC残差の自己相関を用いている。
【0025】
この回路22として、マルチバンドエクサイテイション(MBE)符号化の分析回路の具体例について、図4を参照しながら説明する。
【0026】
この図4に示すMBE分析回路においては、同時刻(同じブロックあるいはフレーム内)の周波数軸領域に有声音(Voiced)部分と無声音(Unvoiced)部分とが存在するという仮定でモデル化している。
【0027】
図4の入力端子111には、上記逆フィルタリング回路21からのLPC残差あるいは線形予測残差が供給されており、このLPC残差の入力に対してMBE分析符号化処理を施すわけである。
【0028】
入力端子111から入力されたLPC残差は、ピッチ抽出部113、窓かけ処理部114、及び後述するサブブロックパワー計算部126にそれぞれ送られる。
【0029】
ピッチ抽出部113では、入力がすでにLPC残差となっているので、この残差の自己相関の最大値を検出することにより、ピッチ検出が行える。このピッチ抽出部113ではオープンループによる比較的ラフなピッチのサーチが行われ、抽出されたピッチデータは高精度(ファイン)ピッチサーチ部116に送られて、クローズドループによる高精度のピッチサーチ(ピッチのファインサーチ)が行われる。
【0030】
窓かけ処理部114では、1ブロックNサンプルに対して所定の窓関数、例えばハミング窓をかけ、この窓かけブロックを1フレームLサンプルの間隔で時間軸方向に順次移動させている。窓かけ処理部114からの時間軸データ列に対して、直交変換部115により例えばFFT(高速フーリエ変換)等の直交変換処理が施される。
【0031】
サブブロックパワー計算部126では、ブロック内の全バンドが無声音(UV)と判別されたときに、該ブロックの無声音信号の時間波形のエンベロープを示す特徴量を抽出する処理が行われる。
【0032】
高精度(ファイン)ピッチサーチ部116には、ピッチ抽出部113で抽出された整数(インテジャー)値の粗(ラフ)ピッチデータと、直交変換部115により例えばFFTされた周波数軸上のデータとが供給されている。この高精度ピッチサーチ部116では、上記粗ピッチデータ値を中心に、0.2〜0.5きざみで±数サンプルずつ振って、最適な小数点付き(フローティング)のファインピッチデータの値へ追い込む。このときのファインサーチの手法として、いわゆる合成による分析 (Analysis by Synthesis)法を用い、合成されたパワースペクトルが原音のパワースペクトルに最も近くなるようにピッチを選んでいる。
【0033】
すなわち、上記ピッチ抽出部113で求められたラフピッチを中心として、例えば0.25きざみで上下に数種類ずつ用意する。これらの複数種類の微小に異なるピッチの各ピッチに対してそれぞれエラー総和値Σεm を求める。この場合、ピッチが定まるとバンド幅が決まり、周波数軸上データのパワースペクトルと励起信号スペクトルとを用いて上記エラーεm を求め、その全バンドの総和値Σεm を求めることができる。このエラー総和値Σεm を各ピッチ毎に求め、最小となるエラー総和値に対応するピッチを最適のピッチとして決定するわけである。以上のようにして高精度ピッチサーチ部で最適のファイン(例えば 0.25 きざみ)ピッチが求められ、この最適ピッチに対応する振幅|Am |が決定される。このときの振幅値の計算は、有声音の振幅評価部118Vにおいて行われる。
【0034】
以上ピッチのファインサーチの説明においては、全バンドが有声音(Voiced)の場合を想定しているが、上述したようにMBE分析合成系においては、同時刻の周波数軸上に無声音(Unvoiced)領域が存在するというモデルを採用していることから、上記各バンド毎に有声音/無声音の判別を行うことが必要とされる。
【0035】
上記高精度ピッチサーチ部116からの最適ピッチ及び振幅評価部(有声音)118Vからの振幅|Am |のデータは、有声音/無声音判別部117に送られ、上記各バンド毎に有声音/無声音の判別が行われる。この判別のためにNSR(ノイズtoシグナル比)を利用する。
【0036】
ところで、上述したように基本ピッチ周波数で分割されたバンドの数(ハーモニックスの数)は、声の高低(ピッチの大小)によって約8〜63程度の範囲で変動するため、各バンド毎のV/UVフラグの個数も同様に変動してしまう。そこで、本実施例においては、固定的な周波数帯域で分割した一定個数のバンド毎にV/UV判別結果をまとめる(あるいは縮退させる)ようにしている。具体的には、音声帯域を含む所定帯域(例えば0〜4000Hz)をNB 個(例えば12個)のバンドに分割し、各バンド内の上記NSR値に従って、例えば重み付き平均値を所定の閾値Th2 で弁別して、当該バンドのV/UVを判断している。
【0037】
次に、無声音の振幅評価部118Uには、直交変換部115からの周波数軸上データ、ピッチサーチ部116からのファインピッチデータ、有声音振幅評価部118Vからの振幅|Am |のデータ、及び上記有声音/無声音判別部117からのV/UV(有声音/無声音)判別データが供給されている。この振幅評価部(無声音)118Uでは、有声音/無声音判別部117において無声音(UV)と判別されたバンドに関して、再度振幅を求めている。すなわち振幅再評価を行っている。なお、振幅評価部118Uでは、有声音(V)と判別されたバンドに関しては、有声音の振幅評価部118Vから入力された値をそのまま出力している。
【0038】
この振幅評価部(無声音)118Uからのデータは、データ数変換(一種のサンプリングレート変換)部119に送られる。このデータ数変換部119は、上記ピッチに応じて周波数軸上での分割帯域数が異なり、データ数(特に振幅データの数)が異なることを考慮して、一定の個数にするためのものである。すなわち、例えば有効帯域を3400kHzまでとすると、この有効帯域が上記ピッチに応じて、8バンド〜63バンドに分割されることになり、これらの各バンド毎に得られる上記振幅|Am |(UVバンドの振幅|Am UVも含む)データの個数mMX+1も8〜63と変化することになる。このためデータ数変換部119では、この可変個数mMX+1の振幅データを一定個数M(例えば44個)のデータに変換している。
【0039】
ここで、データ数変換部119においては、例えば、周波数軸上の有効帯域1ブロック分の振幅データに対して、ブロック内の最後のデータからブロック内の最初のデータまでの値を補間するようなダミーデータを付加してデータ個数をNF 個に拡大した後、帯域制限型のOS 倍(例えば8倍)のオーバーサンプリングを施すことによりOS 倍の個数の振幅データを求め、このOS 倍の個数((mMX+1)×OS 個)の振幅データを直線補間してさらに多くのNM 個(例えば2048個)に拡張し、このNM 個のデータを間引いて上記一定個数M(例えば44個)のデータに変換している。
【0040】
このデータ数変換部119からのデータ(上記一定個数M個の振幅データ)が上記ベクトル量子化器23に送られて、M個のデータから成るベクトルとされるか、あるいは所定個数のデータ毎にまとめられてベクトルとされ、ベクトル量子化が施される。
【0041】
高精度のピッチサーチ部116からのピッチデータについては、上記切換スイッチ27の被選択端子aを介して出力端子28に送っている。これは、ブロック内の全バンドがUV(無声音)となってピッチ情報が不要となる場合に、無声音信号の時間波形を示す特徴量の情報をピッチ情報と切り換えて送っているものであり、本件発明者等が特願平5−185325号の明細書及び図面において開示した技術である。
【0042】
なお、これらの各データは、上記Nサンプル(例えば256サンプル)のブロック内のデータに対して処理を施すことにより得られるものであるが、ブロックは時間軸上を上記Lサンプルのフレームを単位として前進することから、伝送するデータは上記フレーム単位で得られる。すなわち、上記フレーム周期でピッチデータ、V/UV判別データ、振幅データが更新されることになる。また、上記有声音/無声音判別部117からのV/UV判別データについては、上述したように、必要に応じて12バンド程度に低減(縮退)したデータを用いてもよく、全バンド中で1箇所以下の有声音(V)領域と無声音(UV)領域との区分位置を表すデータを用いるようにしてもよい。あるいは、全バンドをV又はUVのどちらかで表現してもよく、また、フレーム単位のV/UV判別としてもよい。
【0043】
ここで、ブロック全体がUV(無声音)と判別された場合には、ブロック内の時間波形を表す特徴量を抽出するために、1ブロック(例えば256サンプル)を、複数個(8個)の小ブロック(サブブロック、例えば32サンプル)に分割して、サブブロックパワー計算部126に送っている。
【0044】
サブブロックパワー計算部126においては、各サブブロック毎の1サンプル当りの平均パワー、あるいはいわゆる平均RMS(Root Mean Square)値についての、ブロック内全サンプル(例えば256サンプル)の平均パワーあるいは平均RMS値に対する割合(比率、レシオ)を算出している。
【0045】
すなわち、例えばk番目のサブブロックの平均パワーを求め、次に1ブロック全体の平均パワーを求めた後、この1ブロックの平均パワーと上記k番目のサブブロックの平均パワーp(k) との比の平方根を算出する。
【0046】
このようにして得られた平方根値を、所定次元のベクトルとみなし、次のベクトル量子化部127においてベクトル量子化を行う。
【0047】
このベクトル量子化部127では、例えば、8次元8ビット(コードブックサイズ=256)のストレートベクトル量子化を行う。このベクトル量子化の出力インデクス(代表ベクトルのコード)UV_Eを、切換スイッチ27の被選択端子bに送っている。この切換スイッチ27の被選択端子aには、上記高精度ピッチサーチ部116からのピッチデータが送られており、切換スイッチ27からの出力は、出力端子28に送られている。
【0048】
切換スイッチ27は、有声音/無声音判別部117からの判別出力信号により切換制御されるようになっており、通常の有声音伝送時、すなわち上記ブロック内の全バンドの内の1つでもV(有声音)と判別されたときには被選択端子aに、ブロック内の全バンドがUV(無声音)と判別されたときには被選択端子bに、それぞれ切換接続される。
【0049】
従って、上記サブブロック毎の正規化された平均RMS値のベクトル量子化出力は、本来はピッチ情報を伝送していたスロットに入れ込んで伝送されることになる。すなわち、ブロック内の全バンドがUV(無声音)と判別されたときにはピッチ情報は不要であり、上記有声音/無声音判別部117からのV/UV判別フラグを見て、全てUVのときに限って、ベクトル量子化出力インデクスUV_Eをピッチ情報の代わりに伝送するようにしている。
【0050】
次に、図3に戻って、ベクトル量子化器23におけるスペクトルエンベロープ(Am)の重み付けベクトル量子化について説明する。
【0051】
ベクトル量子化器23は、L次元、例えば44次元の2ステージ構成とする。
【0052】
すなわち、44次元でコードブックサイズが32のベクトル量子化コードブックからの出力ベクトルの和に、ゲインgi を乗じたものを、44次元のスペクトルエンベロープベクトルの量子化値として使用する。これは、図5に示すように、2つのシェイプコードブックをCB0、CB1とし、その出力ベクトルを 0i 1j、ただし0≦i,j≦31、とする。また、ゲインコードブックCBgの出力をgl 、ただし0≦l≦31、とする。gl はスカラ値である。この最終出力は、gi 0i 1j) となる。
【0053】
LPC残差について上記MBE分析によって得られたスペクトルエンベロープAmを一定次元に変換したものをとする。このとき、をいかに効率的に量子化するかが重要である。
【0054】
ここで、量子化誤差エネルギEを、
Figure 0003747492
と定義する。この(1)式において、HはLPCの合成フィルタの周波数軸上での特性であり、Wは聴覚重み付けの周波数軸上での特性を表す重み付けのための行列である。
【0055】
現フレームのLPC分析結果によるαパラメータを、αi (1≦i≦P)として、
【0056】
【数1】
Figure 0003747492
【0057】
の周波数特性からL次元、例えば44次元の各対応する点の値をサンプルしたものである。
【0058】
算出手順としては、一例として、1、α1、α2、・・・、αp に0詰めして、すなわち、1、α1、α2、・・・、αp 、0、0、・・・、0として、例えば256点のデータにする。その後、256点FFTを行い、(re 2+Im 21/2 を0〜πに対応する点に対して算出して、その逆数をとる。それをL点、すなわち例えば44点に間引いたものを対角要素とする行列を、
【0059】
【数2】
Figure 0003747492
【0060】
とする。
【0061】
聴覚重み付け行列Wは、
【0062】
【数3】
Figure 0003747492
【0063】
とする。この(3)式で、αi は入力のLPC分析結果である。また、λa、λbは定数であり、一例として、λa=0.4、λb=0.9が挙げられる。
【0064】
行列あるいはマトリクスWは、上記(3)式の周波数特性から算出できる。一例として、1、α1λb、α2λb2、・・・、αpλbp、0、0、・・・、0として256点のデータとしてFFTを行い、0以上π以下の区間に対して(re 2[i]+Im 2[i])1/2 、0≦i≦128、を求める。次に、1、α1λa、α2λa2 、・・・、αpλap 、0、0、・・・、0として分母の周波数特性を256点FFTで0〜πの区間を128点で算出する。これを(re'2[i]+Im'2[i])1/2 、0≦i≦128、とする。
【0065】
【数4】
Figure 0003747492
【0066】
として、上記(3)式の周波数特性が求められる。
【0067】
これをL次元、例えば44次元ベクトルの対応する点について、以下の方法で求める。より正確には、直線補間を用いるべきであるが、以下の例では最も近い点の値で代用している。
【0068】
すなわち、
ω[i]=ω0[nint(128i/L)] 1≦i≦L
ただし、nint(x)は、xに最も近い整数を返す関数
である。
【0069】
また、上記Hに関しても同様の方法で、h(1)、h(2)、・・・、h(L)を求めている。すなわち、
【0070】
【数5】
Figure 0003747492
【0071】
となる。
【0072】
ここで、他の例として、FFTの回数を減らすのに、H(z)W(z)を先に求めてから、周波数特性を求めてもよい。すなわち、
【0073】
【数6】
Figure 0003747492
【0074】
この(5)式の分母を展開した結果を、
【0075】
【数7】
Figure 0003747492
【0076】
とする。ここで、1、β1、β2、・・・、β2p、0、0、・・・、0として、例えば256点のデータにする。その後、256点FFTを行い、振幅の周波数特性を、
【0077】
【数8】
Figure 0003747492
【0078】
とする。これより、
【0079】
【数9】
Figure 0003747492
【0080】
これをL次元ベクトルの対応する点について求める。上記FFTのポイント数が少ない場合は、直線補間で求めるべきであるが、ここでは最寄りの値を使用している。すなわち、
【0081】
【数10】
Figure 0003747492
【0082】
である。これを対角要素とする行列をW’とすると、
【0083】
【数11】
Figure 0003747492
【0084】
となる。(6)式は上記(4)式と同一のマトリクスとなる。
【0085】
このマトリクス、すなわち重み付き合成フィルタの周波数特性を用いて、上記(1)を書き直すと、
【0086】
【数12】
Figure 0003747492
【0087】
となる。
【0088】
ここで、シェイプコードブックとゲインコードブックの学習法について説明する。
【0089】
先ず、CB0に関しコードベクトル 0cを選択する全てのフレームkに関して歪の期待値を最小化する。そのようなフレームがM個あるとして、
【0090】
【数13】
Figure 0003747492
【0091】
を最小化すればよい。この(8)式中で、W'kはk番目のフレームに対する重み、 k はk番目のフレームの入力、gk はk番目のフレームのゲイン、 1kはk番目のフレームについてのコードブックCB1からの出力、をそれぞれ示す。
【0092】
この(8)式を最小化するには、
【0093】
【数14】
Figure 0003747492
【0094】
【数15】
Figure 0003747492
【0095】
次に、ゲインに関しての最適化を考える。
【0096】
ゲインのコードワードgc を選択するk番目のフレームに関しての歪の期待値Jg は、
【0097】
【数16】
Figure 0003747492
【0098】
上記(11)式及び(12)式は、シェイプ 0i 1i及びゲインgi 、0≦i≦31の最適なセントロイドコンディション(Centroid Condition)、すなわち最適なデコーダ出力を与えるものである。なお、 1iに関しても 0iと同様に求めることができる。
【0099】
次に、最適エンコード条件(Nearest Neighbour Condition )を考える。
【0100】
歪尺度の上記(7)式、すなわち、E=‖W'(x−gl 0i 1j))‖2 を最小化する 0i 1jを、入力、重みマトリクスW' が与えられる毎に、すなわち毎フレームごとに決定する。
【0101】
本来は、総当り的に全てのgl (0≦l≦31)、 0i (0≦i≦31)、 1j (0≦j≦31)の組み合せの、32×32×32=32768通りについてEを求めて、最小のEを与えるgl 0i 1jの組を求めるべきであるが、膨大な演算量となるので、この符号化部2では、シェイプとゲインのシーケンシャルサーチを行っている。なお、 0i 1jとの組み合せについては、総当りサーチを行うものとする。これは、32×32=1024通りである。以下の説明では、簡単化のため、 0i 1j m と記す。
【0102】
上記(7)式は、E=‖W'(−glm)‖2 となる。さらに簡単のため、 w=W' w=W' m とすると、
【0103】
【数17】
Figure 0003747492
【0104】
となる。従って、gl の精度が充分にとれると仮定すると、
【0105】
【数18】
Figure 0003747492
【0106】
という2つのステップに分けてサーチすることができる。元の表記を用いて書き直すと、
【0107】
【数19】
Figure 0003747492
【0108】
となる。この(15)式が最適エンコード条件(Nearest Neighbour Condition) である。
【0109】
ここで上記(11)、(12)式の条件(Centroid Condition)と、(15)式の条件を用いて、一般化ロイドアルゴリズム(Generalized Lloyd Algorithm:GLA)によりコードブック(CB0、CB1、CBg)を同時にトレーニングできる。
【0110】
ところで、図3において、ベクトル量子化器23は、切換スイッチ24を介して、有声音用コードブック25Vと、無声音用コードブック25Uとに接続されており、回路22からのV/UV判別出力に応じて切換スイッチ24が切換制御されることにより、有声音時には有声音用コードブック25Vを用いたベクトル量子化が、無声音時には無声音用コードブック25Uを用いたベクトル量子化がそれぞれ施されるようになっている。
【0111】
このように有声音(V)/無声音(UV)の判断によってコードブックを切り換える意味は、上記(11)、(12)式の新たなセントロイドの算出において、W'kとgl とによる重み付き平均を行っているため、著しく異なるW'kとgl とを同時に平均化してしまうのは好ましくないからである。
【0112】
なお、この符号化部2では、W’として、入力のノルムで割り込んだW’を使用している。すなわち、上記(11)、(12)、(15)式において、事前にW’にW'/‖‖ を代入して使用している。
【0113】
V/UVでコードブックを切り換える場合は、同様の方法でトレーニングデータを振り分けて各々のトレーニングデータからV(有声音)用、UV(無声音)用のコードブックを作ればよい。
【0114】
また、この符号化部2では、V/UVのビット数を減らすため、単一バンド励起(SBE)とし、Vの含有率が5割を越える場合は有声音(V)フレーム、それ以外は無声音(UV)フレームとしている。
【0115】
なお、図6、図7に入力x及び重みW'/‖‖ の平均値を、V(有声音)のみ、UV(無声音)のみでまとめたものと、VとUVとを区別せずにひとまとめにしたものとを示す。
【0116】
図6より、自体のf軸上のエネルギ分布は、V、UVで大きく差はなく、ゲインの(‖‖)平均値が大きく異なるのみであるように見える。しかし、図7から明らかなように、VとUVでは重みの形が異なり、VではUVに比べより低域にビットアサインを増やすような重みとなっている。これが、VとUVとを分けてトレーニングすることでより高性能なコードブックが作成される根拠である。
【0117】
次に、図8は、V(有声音)のみ、UV(無声音)のみ、VとUVとをまとめたものの3つの例について、それぞれのトレーニングの様子を示している。すなわち、図8の曲線aがVのみの場合で終値が3.72であり、曲線bがUVのみで終値が7.011であり、曲線cがVとUVとをまとめたもので終値が6.25である。
【0118】
この図8から明らかなように、VとUVとの各コードブックのトレーニングを分離することで出力の歪の期待値が減少する。曲線bのUVのみの場合で若干悪化しているが、V/UVの頻度としては、Vの区間が長いので、トータルとしては改善される。ここで、VとUVの頻度の一例として、V及びUVのトレーニングデータ長を1としたとき、実測によるとVのみの割合が0.538、UVのみの割合が0.462であり、図8の各曲線a、bの終値より、
3.72×0.538+7.011×0.462=5.24
がトータルの歪の期待値となり、VとUVとをまとめてトレーニングする場合の歪の期待値の6.25に比べて、上記値5.24は、約0.76dBの改善がなされたことになる。
【0119】
トレーニングの様子から判断すると、前述のように0.76dB程度の改善であるが、実際にトレーニングセット外の音声(男女4人ずつ)を処理し、量子化を行わないときとのSNRあるいはSN比をとると、コードブックをV、UVに分割することで平均して1.3dB程度のセグメンタルSNRの向上が確認された。これは、Vの比率がUVに比べてかなり高いためと考えられる。
【0120】
ところで、ベクトル量子化器23でのベクトル量子化の際の聴覚重み付けに用いられる重みW’については、上記(6)式で定義されているが、過去のW’も加味して現在のW’を求めることにより、テンポラルマスキングも考慮したW’が求められる。
【0121】
上記(6)式中のwh(1),wh(2),・・・,wh(L)に関して、時刻n、すなわち第nフレームで算出されたものをそれぞれwhn(1),whn(2),・・・,whn(L) とする。
【0122】
時刻nで過去の値を考慮した重みをAn(i)、1≦i≦L と定義すると、
Figure 0003747492
とする。ここで、λは例えばλ=0.2とすればよい。このようにして求められたAn(i)、1≦i≦L について、これを対角要素とするマトリクスを上記重みとして用いればよい。
【0123】
次に、図1に戻り変更符号化パラメータ算出部3について説明する。音声信号再生装置1は、符号化部2が出力した上記符号化パラメータを変更符号化パラメータ算出部3によりスピード変換して変更符号化パラメータを算出し、復号化部6でデコードして、例えば固体録音した内容をリアルタイムの倍のスピードで再生する。このとき、再生スピードを高速にしてもピッチ、音韻が不変であるため、かなりの高速再生を行っても内容を聞きとることができる。
【0124】
変更符号化パラメータ算出部3は、上記符号化パラメータをスピード変換しているため、デコーダ出力後の処理が不要で、かつ同様のアルゴリズムで異なるレートでの固定レートに容易に対応することもできる。
【0125】
以下、図9及び図11のフローチャートを参照しながらこの音声信号再生装置1の変更符号化パラメータ算出部3の動作を説明する。変更符号化パラメータ算出部3は、図2を参照して上述したように、周期変更回路4と補間処理回路5からなる。
【0126】
先ず、図9のステップS1に示すように、周期変更回路4には、入力端子15,28,29,26を介してLSP,ピッチ,V/UV,Amのような符号化パラメータが供給される。ここで、ピッチをpch[n],V/UVをvuv[n],Amをam[n][l],LSPをlsp[n][i]とする。また、変更符号化パラメータ算出部3で最終的に算出される変更符号化パラメータをmod_pch[m],mod_vuv[m],mod_am[m][l],mod_lsp[m][i]とする。lはハーモニクス数、iはLSP次数である。n,mは、時間軸のインデクスに相当するフレームナンバーに対応する。nは時間軸変更前、mは時間軸変更後である。なお、0≦n<N1,0≦m<N2であり、n,mともに例えば20msecをフレームインターバルとするフレームのインデクスである。
【0127】
上述したようにlはハーモニクス数であるが、真のハーモニクスの数に対応するam[n][l]に戻してから実行しても、あるいはデータ数変換で一定の個数のam[n][l](l=0〜43)の状態で行っても良い。つまり、データ数変換をデコータで解く前でも後でもよい。
【0128】
次に、周期変更回路4は、ステップS2に示すように、オリジナルの時間長となるフレーム数をN1とし、変更後の時間長となるフレーム数をN2としてから、ステップS3に示すように、N1の音声をN2の音声に時間軸圧縮する。すなわち、周期変更回路4での時間軸圧縮の比をspdとすると、spdをN2/N1として求める。
【0129】
次に、補間処理回路5は、ステップS4に示すように、時間軸変更後の時間軸のインデクスに相当するフレームナンバーに対応するmを2とする。
【0130】
次に、補間処理回路5はステップS5に示すように、二つのフレームfr0,fr1と、該二つのフレームfr0,fr1とm/spdとの差left,rightとを求める。上記符号化パラメータのpch,vuv,am,lspを*とするときmod_*[m]は、
mod_*[m]=*[m/spd] (0≦m<N2
という一般式で表せる。しかし、m/spdは、整数にはならないので、
r0=L m/spd 」
r1=f0+1
の2フレームから補間して、m/spdにおける変更符号化パラメータを作る。ここで、フレームfr0とm/spdとフレームfr1との間には、図10に示すような関係、すなわち、
left=m/spd−fr0
right=fr1−m/spd
が成立する。
【0131】
この図10におけるm/spdのときの符号化パラメータ、すなわち変更符号化パラメータをステップS6に示すように、補間処理によって作ればよい。単純に直線補間により求めると、
mod_*[m]=*[fr0]×right+*[fr1]×left
となる。
【0132】
しかし、2つのフレームfr0,fr1間での補間では、それらのフレームが有声音(V)と,無声音(UV)というように異なる場合には、上記一般式を適用できない。このため、2つのフレームfr0,fr1間における有声音(V)と,無声音(UV)との関係によって、補間処理回路5は、図11のステップS11以降に示すように、上記符号化パラメータの求め方を変える。
【0133】
先ず、ステップS11に示すように2つのフレームfr0,fr1が有声音(V),有声音(V)であるか否かを判断する。ここで、2つのフレームfr0,fr1が共に、有声音(V)であると判断すると、ステップS12に進み、全てのパラメータを線形補間して以下のように表す。
【0134】
mod_pch[m]=pch[fr0]×right+pch[fr1]×left
mod_am[m][l]=am[fr0][l]×right+am[fr1][l]×left
ただし、0≦l<Lである。ここで、Lはハーモニクスとしてとりうる最大の数である。また、am[n][l]は、ハーモニクスの存在しない位置では0を入れておく。フレームfr0とフレームfr1とで、ハーモニクスの数が異なる時には、余った方のハーモニクスは、相方を0として補間する。または、デコーダ側でデータ数変換器を通す前であれば、0≦l<LのL=43といった固定の値でもよい。
【0135】
mod_lsp[m][i]=lsp[fr0][i]×right+lsp[fr1][i]×left
ただし、0≦i<Iである。ここで、IはLSPの次数であり、通常は10を使用する。
【0136】
mod_vuv[m]=1
VUVの判定で1は有声音(V)を、0は無声音(UV)を意味する。
【0137】
次に、ステップS11で2つのフレームfr0,fr1が共に有声音(V)でないと判断すると、ステップS13に示すような判断、すなわち、2つのフレームfr0,fr1が共に無声音(UV)であるか否かを判断する。ここで、YES(共に無声音である。)となると、補間処理回路5は、ステップS14に示すように、pchを固定値とし、またamとlspを線形補間により以下のように求める。
【0138】
mod_pch[m]=MaxPitch
このように無声音のときは、Pitchの値を例えばMaxPitch=148のように、最大値等の固定値にはりつける。
【0139】
mod_am[m][l]=am[fr0][l]×right+am[fr1][l]×left
ただし、0≦l<MaxPitch/2である。
【0140】
mod_lsp[m][i]=lsp[fr0][i]×right+lsp[fr1][i]×left
ただし、0≦i<Iである。
【0141】
mod_vuv[m]=0
次に、2つのフレームfr0,fr1が共に、無声音でない場合、ステップS15に進み、フレームfr0が有声音(V)で,fr1が無声音(UV)であるか否かを判断する。ここでYES(フレームfr0が有声音(V)で,fr1が無声音(UV)である。)となると、ステップS16に進み、NO(フレームfr0が無声音(UV)であり、fr1が有声音(V)である。)となると、ステップS17に進む。
【0142】
ステップS16以降の処理では、二つのフレームfr0,fr1が、例えば有声音(V),無声音(UV)のように、異なった場合について説明している。これは、例えば有声音(V),無声音(UV)のように、異なった2つのフレームfr0,fr1間でパラメータを補間すると意味のないものになってしまうためである。この場合、補間は行わずに、時刻m/spdに近い方のフレームのパラメータの値を用いる。
【0143】
フレームfr0が有声音(V),フレームfr1が無声音(UV)である場合、ステップ16に進む。このステップS16では、図10に示す上記left(=m/spd−fr0)と上記right(=fr1−m/spd)の大きさを比較している。これにより、m/spdに対してどちらのフレームfr0またはフレームfr1が近いのかを判断している。そして、上述したように近い方のパラメータの値を用いて変更符号化パラメータを算出する。
【0144】
すなわち、ステップS16でYESを判断すると、上記rightが大きいのであるから、フレームfr1の方が遠いので、ステップS18に示すように近い方のフレームfr0側のパラメータを用いて、
mod_pch[m]=pch[fr0]
mod_am[m][l]=am[fr0][l] ,(ただし、0≦l<Lである。)
mod_lsp[m][i]=lsp[fr0][i] ,(ただし、0≦i<Iである。)
mod_vuv[m]=1
とする。
【0145】
また、ステップS16でNOを判断すると、left≧rightとなり、フレームfr1の方が近いので、ステップS19に進み、ピッチを最大値にし、他のパラメータについてはfr1側のパラメータを用いて、
mod_pch[m]=MaxPitch
mod_am[m][l]=am[fr1][l] ,(ただし、0≦l<MaxPitch/2である。)
mod_lsp[m][i]=lsp[fr1][i],(ただし、0≦i<Iである。)
mod_vuv[m]=0
とする。
【0146】
次に、ステップS17では、ステップS15で2つのフレームfr0,fr1が無声音(UV),有声音(V)であるという判断を受けて、上記ステップS16と同様の判断を行う。すなわち、この場合も、補間は行わずに、時刻m/spdに近い方のフレームのパラメータの値を用いる。
【0147】
ステップS17でYESを判断すると、ステップS20に示すように、ピッチを最大値にし、他のパラメータについては近い方のフレームfr0側のパラメータを用いて、
mod_pch[m]=MaxPitch
mod_am[m][l]=am[fr0][l],(ただし、0≦l<MaxPitch/2である。)
mod_lsp[m][i]=lsp[fr0][i],(ただし、0≦i<Iである。)
mod_vuv[m]=0
とする。
【0148】
また、ステップS17でNOを判断すると、left≧rightとなり、フレームfr1の方が近いので、ステップS21に進み、fr1側のパラメータを用いて、
mod_pch[m]=pch[fr1]
mod_am[m][l]=am[fr1][l],(ただし、0≦l<Lである。)
mod_lsp[m][i]=lsp[fr1][i] ,(ただし、0≦i<Iである。)
mod_vuv[m]=1
とする。
【0149】
このように2つのフレームfr0,fr1間における有声音(V)と,無声音(UV)との関係によって、補間処理回路5は、図9に示すステップS6の補間処理を異ならせる。このステップS6の補間処理が終了すると、ステップS7に進み、mをインクリメントする。そして、このmがN2に等しくなるまで、ステップS5,ステップS6の処理を繰り返す。
【0150】
なお、本来は、これ以外にも、UV部分の短時間rmsのシーケンスを、ノイズのゲインコントロールに用いているが、ここではこのパラメータは1で固定する。
【0151】
以上に説明したような変更符号化パラメータ算出部3の動作をまとめると、図12に示すようになる。例えば20msecで符号化部2が抽出している符号化パラメータのモデルを図12の(A)に示す。変更符号化パラメータ算出部3の周期変更回路4は、図12の(B)に示すように、15msecとし、図12の(B)に示すように、時間圧縮する。そして、上述したように、二つのフレームfR0,fr1のV/UVの状態に応じた補間処理により、図12の(C)に示すような変更符号化パラメータを算出する。
【0152】
変更符号化パラメータ算出部3は、周期変更回路4と補間処理回路5を逆の順番として、図13の(A)に示す符号化パラメータを先ず図13の(B)に示すように補間してから、図13の(C)に示すように圧縮して変更符号化パラメータを算出してもよい。
【0153】
変更符号化パラメータ算出部3からの変更符号化パラメータは、図1に示す復号化部6に供給される。この復号化部6は、上記変更符号化パラメータに基づいてサイン波及びノイズを合成し、合成音を出力端子37から導出する。
【0154】
以下、復号化部6について図14及び図15を参照しながら説明する。先ず、復号化部6に供給されてくるパラメータが通常の符号化パラメータであるとして説明しておく。
【0155】
この図14において、端子31には、上記図3の端子15からの出力に相当するLSPのベクトル量子化出力、いわゆるインデクスが供給されている。
【0156】
この入力信号は、LSP逆ベクトル量子化器32に送られてLSP(線スペクトル対)データに逆ベクトル量子化され、LSP補間回路33に送られてLSPの補間処理が施された後、LSP→α変換回路34でLPC(線形予測符号)のαパラメータに変換され、このαパラメータが合成フィルタ35に送られる。
【0157】
また、図14の端子41には、上記図3のエンコーダ側の端子26からの出力に対応するスペクトルエンベロープ(Am)の重み付けベクトル量子化されたコードワードのインデックスデータが供給され、端子43には、上記図3の端子28からのピッチ情報やUV時のブロック内の時間波形の特徴量を表すデータが供給され、端子46には、上記図3の端子29からのV/UV判別データが供給されている。
【0158】
端子41からのAmのベクトル量子化されたデータは、逆ベクトル量子化器42に送られて逆ベクトル量子化が施され、スペクトルエンベロープのデータとなって、ハーモニクス/ノイズ合成回路、あるいはマルチバンド励起(MBE)合成回路45に送られている。この合成回路45には、端子43からのデータが上記V/UV判別データに応じて切換スイッチ44により上記ピッチデータとUV時の波形の特徴量データとに切り換えられて供給されており、また、端子46からのV/UV判別データも供給されている。
【0159】
この合成回路45の具体例としてのMBE合成回路の構成については、図15を参照しながら後述する。
【0160】
合成回路45からは、上述した図3の逆フィルタリング回路21からの出力に相当するLPC残差データが取り出され、これが合成フィルタ回路35に送られてLPCの合成処理が施されることにより時間波形データとなり、さらにポストフィルタ36でフィルタ処理された後、出力端子37より再生された時間軸波形信号が取り出される。
【0161】
次に、上記合成回路45の一例としてのMBE合成回路構成の具体例について、図15を参照しながら説明する。
【0162】
この図15において、入力端子131には、図14のスペクトルエンベロープの逆ベクトル量子化器42からのスペクトルエンベロープデータ、実際にはLPC残差のスペクトルエンベロープデータが供給されている。各端子43、46に供給されるデータは図14と同様である。なお端子43に送られたデータは、切換スイッチ44で切換選択され、ピッチデータが有声音合成部137へ、UV波形の特徴量データが逆ベクトル量子化器152へそれぞれ送られている。
【0163】
端子131からの上記LPC残差のスペクトル振幅データは、データ数逆変換部136に送られて逆変換される。このデータ数逆変換部136では、上述した図4のデータ数変換部119と対照的な逆変換が行われ、得られた振幅データが有声音合成部137及び無声音合成部138に送られる。端子43から切換スイッチ44の被選択端子aを介して得られた上記ピッチデータは、有声音合成部137及び無声音合成部138に送られる。また端子46からの上記V/UV判別データも、有声音合成部137及び無声音合成部138に送られる。
【0164】
有声音合成部137では例えば余弦(cosine)波合成あるいは正弦(sine)波合成により時間軸上の有声音波形を合成し、無声音合成部138では例えばホワイトノイズをバンドパスフィルタでフィルタリングして時間軸上の無声音波形を合成し、これらの各有声音合成波形と無声音合成波形とを加算部141で加算合成して、出力端子142より取り出すようにしている。
【0165】
また、V/UV判別データとして上記V/UVコードが伝送された場合には、このV/UVコードに応じて全バンドを1箇所の区分位置で有声音(V)領域と無声音(UV)領域とに区分することができ、この区分に応じて、各バンド毎のV/UV判別データを得ることができる。ここで、分析側(エンコーダ側)で一定数(例えば12程度)のバンドに低減(縮退)されている場合には、これを解いて(復元して)、元のピッチに応じた間隔で可変個数のバンドとすることは勿論である。
【0166】
以下、無声音合成部138における無声音合成処理を説明する。
【0167】
ホワイトノイズ発生部143からの時間軸上のホワイトノイズ信号波形を窓かけ処理部144に送って、所定の長さ(例えば256サンプル)で適当な窓関数(例えばハミング窓)により窓かけをし、STFT処理部145によりSTFT(ショートタームフーリエ変換)処理を施すことにより、ホワイトノイズの周波数軸上のパワースペクトルを得る。このSTFT処理部145からのパワースペクトルをバンド振幅処理部146に送り、上記UV(無声音)とされたバンドについて上記振幅|Am UVを乗算し、他のV(有声音)とされたバンドの振幅を0にする。このバンド振幅処理部146には上記振幅データ、ピッチデータ、V/UV判別データが供給されている。
【0168】
バンド振幅処理部146からの出力は、ISTFT処理部147に送られ、位相は元のホワイトノイズの位相を用いて逆STFT処理を施すことにより時間軸上の信号に変換する。ISTFT処理部147からの出力は、パワー分布整形部156を介し、後述する乗算部157を介して、オーバーラップ加算部148に送られ、時間軸上で適当な(元の連続的なノイズ波形を復元できるように)重み付けをしながらオーバーラップ及び加算を繰り返し、連続的な時間軸波形を合成する。このオーバーラップ加算部148からの出力信号が上記加算部141に送られる。
【0169】
ブロック内のバンドの少なくとも1つがV(有声音)の場合には、上述したような処理が各合成部137、138にて行われるわけであるが、ブロック内の全バンドがUV(無音声)と判別されたときには、切換スイッチ44が被選択端子b側に切換接続され、ピッチ情報の代わりに無声音信号の時間波形に関する情報が逆ベクトル量子化部152に送られる。
【0170】
すなわち、逆ベクトル量子化部152には、上記図4のベクトル量子化部127からのデータに相当するデータが供給される。これを逆ベクトル量子化することにより、上記無音声信号波形の特徴量抽出データが取り出される。
【0171】
ここで、ISTFT処理部147からの出力は、パワー分布整形部156により時間軸方向のエネルギ分布の整形処理を行った後、乗算部157に送られている。この乗算部157では、上記逆ベクトル量子化部152からスムージング部(スムージング処理部)153を介して得られた信号と乗算されている。なお、スムージング部153でスムージング処理を施すことで、耳障りな急激なゲイン変化を抑えることができる。
【0172】
以上のようにして合成された無声音信号が無声音合成部138から取り出され、上記加算部141に送られて、有声音合成部137からの信号と加算され、出力端子142よりMBE合成出力としてのLPC残差信号が取り出される。
【0173】
このLPC残差信号が、上記図14の合成フィルタ35に送られることにより、最終的な再生音声信号が得られるわけである。
【0174】
この音声信号再生装置1は、図示しない制御部の制御に応じて、上記変更符号化パラメータ算出部3に変更符号化パラメータを算出させ、この変更符号化パラメータを用いて元の音声信号の時間軸を圧縮伸長した音声を合成している。
この場合、変更符号化パラメータ算出部3からの上記mod_lsp[m][i]は、LSP逆ベクトル量子化回路32の出力の代わりに使用される。上記mod_lsp[m][i]を本来の逆ベクトル量子化値の代わりに使用する。上記mod_lsp[m][i]は、LSP補間回路33に送られてLSPの補間処理が施された後、LSP→α変換回路34でLPC(線形予測符号)のαパラメータに変換され、このαパラメータが合成フィルタ35に送られる。
【0175】
また、データ数変換回路136の出力又は入力の代わりに上記mod_am[m][l]が、端子43にはmod_pch[m]が、端子46には上記mod_vuv[m]が供給される。
【0176】
上記mod_am[m][l]は、スペクトルエンベロープのデータとして、ハーモニクス/ノイズ合成回路45に送られている。この合成回路45には、端子43からのmod_pch[m]が判別データに応じて切換スイッチ44により供給されており、また、端子46からの上記mod_vuv[m]も供給されている。
【0177】
合成回路45は、上述したような図15に示すような構成により、上記変更符号化パラメータを用いて、元の音声信号の時間軸を圧縮伸長した音声を合成し、端子37から導出している。
【0178】
このように、この音声信号再生装置1は、変更符号化パラメータmod_*[m]の配列(0≦m<N2)を本来の配列*[n](0≦n<N1)のかわりにデコードしている。デコード時のフレーム間隔は従来通り例えば20msecのように固定である。このため、N2<N1の時には、時間軸圧縮となり、スピードアップとなる。他方、N2>N1の時には、時間軸伸長となり、スピードダウンとなる。
【0179】
上記時間軸変更を行っても、瞬時スペクトル、ピッチが不変である為、0.5≦spd≦2程度以上の広い範囲の変更を行っても劣化が少ない。
【0180】
この方式では、最終的に得られたパラメータ列を本来のスペーシング(20msec)に並べてデコードするため、任意のスピードコントロール(上下)が簡単に実現できる。又、スピードアップとスピードダウンが区別なしに、同一の処理で可能である。
【0181】
このため、例えば固体録音した内容をリアルタイムの倍のスピードで再生できる。このとき、再生スピードを高速にしてもピッチ、音韻が不変であるため、かなりの高速再生を行っても内容を聞きとることができる。また、音声コーデックとして、上記符号励起線形予測(CELP)符号化を用いたときに必要とされたデコード出力後の演算処理のような付加的な処理を不要とする。
【0182】
なお、上記第1実施例では、変更符号化パラメータ算出部3を復号化部6と切り離した構成としたが、復号化部6内に設けてもよい。
【0183】
なお、上記第1実施例の音声信号再生装置1の変更符号化パラメータ算出部3が行うパラメータ算出において、amに関する補間処理は、ベクトル量子化の値、もしくはベクトル量子化された値を逆ベクトル量子化して得られた値に対して行われる。
【0184】
次に、本発明に係る音声信号の伝送方法に関する実施例を第2実施例として説明する。この第2実施例は、図16に示すように、入力音声信号を時間軸上の所定フレーム単位で区分し、各フレーム単位で符号化することにより符号化パラメータを求め、この符号化パラメータを補間処理して求めた変更符号化パラメータを伝送する送信側51と、上記変更符号化パラメータを受信して、サイン波及びノイズを合成する受信側56とからなる音声信号伝送装置50である。
【0185】
すなわち、この音声信号伝送装置50は、送信側51に、入力端子52から入力された入力音声信号を時間軸上の所定フレーム単位で区分し、各フレーム単位で符号化することにより符号化パラメータを抽出する符号化部53と、上記符号化パラメータを補間処理して変更符号化パラメータを求める補間部54と、上記変更符号化パラメータを送信する送信部55とを備え、また、受信側56に、受信部57と、上記変更符号化パラメータを補間する補間部58と、補間されたパラメータに基づいてサイン波及びノイズを合成することにより出力端子60から合成音声信号を出力する復号化部59とを備える。
【0186】
符号化部53と復号化部59の基本的な動作は、上記第1実施例の音声信号再生装置のそれと同様であるので、ここでは詳細な説明を省略する。
【0187】
送信側51の動作について図17のフローチャートを参照しながら説明する。なお、このフローチャートは、符号化部53の符号化処理と、補間部54の補間処理とをまとめて示している。
【0188】
符号化部53は、ステップS31及びステップS33に示すように、LSP、ピッチPch、V/UV、amからなる符号化パラメータを抽出している。特に、LSPについては、ステップS31に示すように補間部54で補間,リアレンジしてから、ステップS32に示すように量子化し、また、ピッチPch、V/UV、amについては、ステップS34で補間,リアレンジしてから、ステップS35に示すように量子化している。これらの量子化データは、送信部55を介して受信側56に伝送される。
【0189】
受信側56で受信部57を介して受け取った上記量子化データは、補間部58に供給され、ステップS36に示すようにパラメータの補間,リアレンジが行われた後、ステップS37に示すように復号化部59で合成される。
【0190】
このように、音声信号伝送装置50は、時間軸圧縮によるスピードアップについては、パラメータの補間を行い、伝送時におけるパラメータのフレームインターバルを変更している。なお、受信時に例えば20msecのような固定フレームインターバルにおけるパラメータを求めることによって再生処理を行っているため、スピードコントロールのためのアルゴリズムが即ビットレートの変更に使える。
【0191】
すなわち、スピードコントロールとして上記パラメータ補間を使う時は、パラメータ補間はデコード内で行われることを想定しているが、もしこの処理をエンコーダで行い時間軸圧縮した(間引いた)データをエンコードし、デコーダで時間軸伸長(補間)を行えば、spdの割合で伝送ビットレートを調節できる。
【0192】
例えば、1.975kbpsの伝送レートの場合、spd=0.5とセットして倍速にしてエンコードすると、本来10秒のスピードが5秒のものとして、エンコードされるので、伝送レートは1.975×0.5kbpsとなる。
【0193】
また、図18に示すように、符号化部53で得られた図18の(A)に示す符号化パラメータを、補間部54で図18の(B)に示すように、例えば30msecのように、任意の間隔となるように補間,リアレンジしなおしてから量子化し、受信側56の補間部58で図18の(C)に示すように20msecとなるようにパラメータの補間,リアレンジを行い、復号化部59で合成している。
【0194】
デコーダ内に同様のスキームを持っていれば、スピードを元に戻して(オリジナルのスピード)で再生することもできるし、高速(低速)のまま聞くことももちろんできる。すなわち、スピードコントロールを可変ビットレートコーデックとして使うこともできる。
【0195】
【発明の効果】
本発明に係る音声信号の再生方法は、広いレンジにわたる任意のレートのスピードコントロールを簡単に、かつ音韻、ピッチを不変として高品質に行える。
【0196】
また、本発明に係る音声信号の再生装置は、広いレンジにわたる任意のレートのスピードコントロールを簡単に、かつ音韻、ピッチを不変として高品質に行える。
【図面の簡単な説明】
【図1】本発明の第1実施例となる音声信号再生装置の概略構成を示すブロック図である。
【図2】上記音声信号再生装置の概略構成を示すブロック図である。
【図3】上記音声信号再生装置の符号化部を示すブロック図である。
【図4】上記符号化部のハーモニクス/ノイズ符号化回路の具体例としてのマルチバンドエクサイテイション(MBE)分析回路の構成を示すブロック図である。
【図5】ベクトル量子化器の構成を説明するための図である。
【図6】入力の平均を有声音、無声音、有声音と無声音をまとめたものについてそれぞれ示すグラフである。
【図7】重みW’/‖‖の平均を有声音、無声音、有声音と無声音をまとめたものについてそれぞれ示すグラフである。
【図8】ベクトル量子化に用いられるコードブックについて、有声音、無声音、有声音と無声音をまとめた場合のそれぞれのトレーニングの様子を示すグラフである。
【図9】上記音声信号再生装置に用いられる変更符号化パラメータ算出回路のおおまかな動作を示すフローチャートである。
【図10】変更符号化パラメータ算出回路で得られる変更符号化パラメータを時間軸上で表現するための模式図である。
【図11】上記音声信号再生装置に用いられる変更符号化パラメータ算出回路の詳細な動作を示すフローチャートである。
【図12】上記変更符号化パラメータ算出部の具体的動作を説明するための模式図である。
【図13】上記変更符号化パラメータ算出部の他の具体的動作を説明するための模式図である。
【図14】上記音声信号再生装置に用いる復号化部の概略構成を示すブロック図である。
【図15】上記復号化部に用いられるハーモニクス/ノイズ合成回路の具体例としてのマルチバンドエクサイテイション(MBE)合成回路の構成を示すブロック図である。
【図16】本発明の第2実施例となる音声信号伝送装置の概略構成を示すブロック図である。
【図17】上記音声信号伝送装置の送信側の動作を示すフローチャートである。
【図18】上記音声信号伝送装置の動作を説明するための模式図である。
【符号の説明】
1 音声信号再生装置
2 符号化部
3 変更符号化パラメータ算出部
4 周期変更回路
5 補間処理回路
6 復号化部

Claims (4)

  1. 入力音声信号が時間軸上の所定フレーム単位で区分され、各フレーム単位で符号化されることにより求められた符号化パラメータに基づいて、少なくともサイン波を合成することにより音声信号を再生する音声信号の再生方法において、
    上記符号化パラメータを補間処理して所望の時刻に対応する変更符号化パラメータを求める工程と、
    この変更符号化パラメータに基づいて、少なくともサイン波を合成する工程とを有し、
    上記変更符号化パラメータを求める工程は、前後のフレームが共に有声音または前後のフレームが共に無声音である場合、符号化パラメータを、前後のフレームの符号化パラメータの値を補間することにより求め、前後のフレームの一方が有声音、他方が無声音である場合、符号化パラメータを、所望の時刻に近いフレームの符号化パラメータ値とする
    ことを特徴とする音声信号の再生方法。
  2. 上記符号化パラメータとして、上記入力音声信号についての短期予測残差をサイン合成波とノイズとで表現し、これらのサイン合成波とノイズとのそれぞれの周波数スペクトル情報を符号化して得られたものを用いることを特徴とする請求項1記載の音声信号の再生方法。
  3. 入力音声信号が時間軸上の所定フレーム単位で区分され、各フレーム単位で符号化されることにより求められた符号化パラメータに基づいて、少なくともサイン波を合成することにより音声信号を再生する音声信号の再生装置において、
    上記符号化パラメータを補間処理して所望の時刻に対応する変更符号化パラメータを求める手段と、
    この変更符号化パラメータに基づいて、少なくともサイン波を合成する手段とを有し、
    上記変更符号化パラメータを求める手段は、前後のフレームが共に有声音または前後のフレームが共に無声音である場合、符号化パラメータを、前後のフレームの符号化パラメータの値を補間することにより求め、前後のフレームの一方が有声音、他方が無声音である場合、符号化パラメータを、所望の時刻に近いフレームの符号化パラメータ値とする
    ことを特徴とする音声信号の再生装置。
  4. 上記符号化パラメータとして、上記入力音声信号についての短期予測残差をサイン合成波とノイズとで表現し、これらのサイン合成波とノイズとのそれぞれの周波数スペクトル情報を符号化して得られたものを用いることを特徴とする請求項3記載の音声信号の再生装置。
JP15372395A 1995-06-20 1995-06-20 音声信号の再生方法及び再生装置 Expired - Lifetime JP3747492B2 (ja)

Priority Applications (17)

Application Number Priority Date Filing Date Title
JP15372395A JP3747492B2 (ja) 1995-06-20 1995-06-20 音声信号の再生方法及び再生装置
CA002179228A CA2179228C (en) 1995-06-20 1996-06-17 Method and apparatus for reproducing speech signals and method for transmitting same
US08/664,512 US5926788A (en) 1995-06-20 1996-06-17 Method and apparatus for reproducing speech signals and method for transmitting same
MYPI96002452A MY116532A (en) 1995-06-20 1996-06-18 Method and apparatus for reproducing speech signals and method for transmitting same
MX9602391A MX9602391A (es) 1995-06-20 1996-06-19 Metodo y aparato para reproducir señales de conversacion y metodo para transmitirlas.
DE69614782T DE69614782T2 (de) 1995-06-20 1996-06-19 Verfahren und Einrichtung zur Wiedergabe von Sprachsignalen und Verfahren zu seiner Übertragung
AU56054/96A AU721596B2 (en) 1995-06-20 1996-06-19 Method and apparatus for reproducing speech signals and method for transmitting the same
RU96111955/09A RU2255380C2 (ru) 1995-06-20 1996-06-19 Способ и устройство воспроизведения речевых сигналов и способ их передачи
ES96304568T ES2159688T3 (es) 1995-06-20 1996-06-19 Metodo y aparato para reproducir señales de voz y metodo para transmitirlas.
EP96304568A EP0751493B1 (en) 1995-06-20 1996-06-19 Method and apparatus for reproducing speech signals and method for transmitting same
SG1996010099A SG54343A1 (en) 1995-06-20 1996-06-19 Method and apparatus for reproducing speech signals and method for transmitting same
AT96304568T ATE205011T1 (de) 1995-06-20 1996-06-19 Verfahren und einrichtung zur wiedergabe von sprachsignalen und verfahren zu seiner übertragung
BRPI9602835-1A BR9602835B1 (pt) 1995-06-20 1996-06-19 processo e aparelho para reproduzir um sinal de voz, e, processo para transmitir o mesmo.
CNB961110422A CN1154976C (zh) 1995-06-20 1996-06-19 再现语音信号的方法和装置以及传输该信号的方法
KR1019960022517A KR100472585B1 (ko) 1995-06-20 1996-06-20 음성신호의재생방법및장치와그전송방법
TR96/00519A TR199600519A2 (tr) 1995-06-20 1996-06-20 Konusma sinyallerinin olusturulmasina mahsus yöntem ve cihaz ve sinyallerin iletilmesine mahsus yöntem.
TW085109383A TW412719B (en) 1995-06-20 1996-08-03 Method and apparatus for reproducing speech signals and method for transmitting same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP15372395A JP3747492B2 (ja) 1995-06-20 1995-06-20 音声信号の再生方法及び再生装置

Publications (2)

Publication Number Publication Date
JPH096397A JPH096397A (ja) 1997-01-10
JP3747492B2 true JP3747492B2 (ja) 2006-02-22

Family

ID=15568696

Family Applications (1)

Application Number Title Priority Date Filing Date
JP15372395A Expired - Lifetime JP3747492B2 (ja) 1995-06-20 1995-06-20 音声信号の再生方法及び再生装置

Country Status (17)

Country Link
US (1) US5926788A (ja)
EP (1) EP0751493B1 (ja)
JP (1) JP3747492B2 (ja)
KR (1) KR100472585B1 (ja)
CN (1) CN1154976C (ja)
AT (1) ATE205011T1 (ja)
AU (1) AU721596B2 (ja)
BR (1) BR9602835B1 (ja)
CA (1) CA2179228C (ja)
DE (1) DE69614782T2 (ja)
ES (1) ES2159688T3 (ja)
MX (1) MX9602391A (ja)
MY (1) MY116532A (ja)
RU (1) RU2255380C2 (ja)
SG (1) SG54343A1 (ja)
TR (1) TR199600519A2 (ja)
TW (1) TW412719B (ja)

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3707153B2 (ja) * 1996-09-24 2005-10-19 ソニー株式会社 ベクトル量子化方法、音声符号化方法及び装置
US6202046B1 (en) 1997-01-23 2001-03-13 Kabushiki Kaisha Toshiba Background noise/speech classification method
JP4308345B2 (ja) * 1998-08-21 2009-08-05 パナソニック株式会社 マルチモード音声符号化装置及び復号化装置
US6188980B1 (en) * 1998-08-24 2001-02-13 Conexant Systems, Inc. Synchronized encoder-decoder frame concealment using speech coding parameters including line spectral frequencies and filter coefficients
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US6353808B1 (en) * 1998-10-22 2002-03-05 Sony Corporation Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal
US6260009B1 (en) 1999-02-12 2001-07-10 Qualcomm Incorporated CELP-based to CELP-based vocoder packet translation
JP2000305599A (ja) 1999-04-22 2000-11-02 Sony Corp 音声合成装置及び方法、電話装置並びにプログラム提供媒体
US6260017B1 (en) * 1999-05-07 2001-07-10 Qualcomm Inc. Multipulse interpolative coding of transition speech frames
FR2796191B1 (fr) * 1999-07-05 2001-10-05 Matra Nortel Communications Procedes et dispositifs de codage et de decodage audio
US7092881B1 (en) * 1999-07-26 2006-08-15 Lucent Technologies Inc. Parametric speech codec for representing synthetic speech in the presence of background noise
US6535843B1 (en) * 1999-08-18 2003-03-18 At&T Corp. Automatic detection of non-stationarity in speech signals
US20040054525A1 (en) * 2001-01-22 2004-03-18 Hiroshi Sekiguchi Encoding method and decoding method for digital voice data
JP4680429B2 (ja) * 2001-06-26 2011-05-11 Okiセミコンダクタ株式会社 テキスト音声変換装置における高速読上げ制御方法
WO2003003345A1 (fr) * 2001-06-29 2003-01-09 Kabushiki Kaisha Kenwood Dispositif et procede d'interpolation des composantes de frequence d'un signal
US6907632B2 (en) * 2002-05-28 2005-06-21 Ferno-Washington, Inc. Tactical stretcher
US7523032B2 (en) * 2003-12-19 2009-04-21 Nokia Corporation Speech coding method, device, coding module, system and software program product for pre-processing the phase structure of a to be encoded speech signal to match the phase structure of the decoded signal
TWI497485B (zh) * 2004-08-25 2015-08-21 Dolby Lab Licensing Corp 用以重塑經合成輸出音訊信號之時域包絡以更接近輸入音訊信號之時域包絡的方法
ATE406652T1 (de) * 2004-09-06 2008-09-15 Matsushita Electric Ind Co Ltd Skalierbare codierungseinrichtung und skalierbares codierungsverfahren
EP1895511B1 (en) 2005-06-23 2011-09-07 Panasonic Corporation Audio encoding apparatus, audio decoding apparatus and audio encoding information transmitting apparatus
JP2007150737A (ja) 2005-11-28 2007-06-14 Sony Corp 音声信号ノイズ低減装置及び方法
US8756066B2 (en) 2007-02-14 2014-06-17 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
BRPI0808198A8 (pt) * 2007-03-02 2017-09-12 Panasonic Corp Dispositivo de codificação e método de codificação
CN101622666B (zh) * 2007-03-02 2012-08-15 艾利森电话股份有限公司 非因果后置滤波器
US8401865B2 (en) 2007-07-18 2013-03-19 Nokia Corporation Flexible parameter update in audio/speech coded signals
JP5449133B2 (ja) * 2008-03-14 2014-03-19 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
JP4999757B2 (ja) * 2008-03-31 2012-08-15 日本電信電話株式会社 音声分析合成装置、音声分析合成方法、コンピュータプログラム、および記録媒体
CN101582263B (zh) * 2008-05-12 2012-02-01 华为技术有限公司 语音解码中噪音增强后处理的方法和装置
US20100191534A1 (en) * 2009-01-23 2010-07-29 Qualcomm Incorporated Method and apparatus for compression or decompression of digital signals
WO2010111841A1 (zh) * 2009-04-03 2010-10-07 华为技术有限公司 频域脉冲解码的预测方法和预测装置及解码器
EP2242045B1 (en) * 2009-04-16 2012-06-27 Université de Mons Speech synthesis and coding methods
JP5316896B2 (ja) * 2010-03-17 2013-10-16 ソニー株式会社 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム
EP2830065A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency
AU2014336356B2 (en) 2013-10-18 2017-04-06 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information
KR20160070147A (ko) * 2013-10-18 2016-06-17 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 결정론적 및 잡음 유사 정보를 사용하는 오디오 신호의 인코딩 및 오디오 신호의 디코딩을 위한 개념
CN107369453B (zh) * 2014-03-21 2021-04-20 华为技术有限公司 语音频码流的解码方法及装置
CN106067996B (zh) * 2015-04-24 2019-09-17 松下知识产权经营株式会社 语音再现方法、语音对话装置
US10389994B2 (en) * 2016-11-28 2019-08-20 Sony Corporation Decoder-centric UV codec for free-viewpoint video streaming
JP6891662B2 (ja) * 2017-06-23 2021-06-18 富士通株式会社 音声評価プログラム、音声評価方法および音声評価装置
CN108899008B (zh) * 2018-06-13 2023-04-18 中国人民解放军91977部队 一种对空语音通信杂音模拟干扰方法和系统
KR101971478B1 (ko) 2018-09-27 2019-04-23 박기석 차량용 차광막 장치
KR102150192B1 (ko) 2019-04-04 2020-08-31 박기석 차량용 차광막 장치
KR20230114981A (ko) 2022-01-26 2023-08-02 주식회사 스마트름뱅이 차량용 태양광 차단 및 발전 수행 장치
CN114511474B (zh) * 2022-04-20 2022-07-05 天津恒宇医疗科技有限公司 血管内超声图像的降噪方法、系统、电子设备及存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL8400728A (nl) * 1984-03-07 1985-10-01 Philips Nv Digitale spraakcoder met basisband residucodering.
JPH07117562B2 (ja) * 1988-10-18 1995-12-18 株式会社ケンウッド スペクトラムアナライザ
JP2823023B2 (ja) * 1990-09-10 1998-11-11 富士通株式会社 リンク配線用マトリクスプリント板におけるコネクタ接続方法
US5226108A (en) * 1990-09-20 1993-07-06 Digital Voice Systems, Inc. Processing a speech signal with estimated pitch
US5371853A (en) * 1991-10-28 1994-12-06 University Of Maryland At College Park Method and system for CELP speech coding and codebook for use therewith
US5327520A (en) * 1992-06-04 1994-07-05 At&T Bell Laboratories Method of use of voice message coder/decoder
US5351338A (en) * 1992-07-06 1994-09-27 Telefonaktiebolaget L M Ericsson Time variable spectral analysis based on interpolation for speech coding
US5479559A (en) * 1993-05-28 1995-12-26 Motorola, Inc. Excitation synchronous time encoding vocoder and method
US5602961A (en) * 1994-05-31 1997-02-11 Alaris, Inc. Method and apparatus for speech compression using multi-mode code excited linear predictive coding
US5729694A (en) * 1996-02-06 1998-03-17 The Regents Of The University Of California Speech coding, reconstruction and recognition using acoustics and electromagnetic waves
FR2863874B1 (fr) * 2003-12-18 2006-03-17 Oreal Composition demaquillante

Also Published As

Publication number Publication date
JPH096397A (ja) 1997-01-10
BR9602835B1 (pt) 2009-05-05
ATE205011T1 (de) 2001-09-15
MX9602391A (es) 1997-02-28
US5926788A (en) 1999-07-20
DE69614782D1 (de) 2001-10-04
EP0751493A3 (en) 1998-03-04
KR970003109A (ko) 1997-01-28
RU2255380C2 (ru) 2005-06-27
CN1145512A (zh) 1997-03-19
TW412719B (en) 2000-11-21
TR199600519A2 (tr) 1997-01-21
AU5605496A (en) 1997-01-09
MY116532A (en) 2004-02-28
CA2179228C (en) 2004-10-12
KR100472585B1 (ko) 2005-06-21
BR9602835A (pt) 1998-04-22
SG54343A1 (en) 1998-11-16
ES2159688T3 (es) 2001-10-16
CA2179228A1 (en) 1996-12-21
EP0751493B1 (en) 2001-08-29
EP0751493A2 (en) 1997-01-02
CN1154976C (zh) 2004-06-23
DE69614782T2 (de) 2002-05-02
AU721596B2 (en) 2000-07-06

Similar Documents

Publication Publication Date Title
JP3747492B2 (ja) 音声信号の再生方法及び再生装置
JP3557662B2 (ja) 音声符号化方法及び音声復号化方法、並びに音声符号化装置及び音声復号化装置
JP3707116B2 (ja) 音声復号化方法及び装置
JP4132109B2 (ja) 音声信号の再生方法及び装置、並びに音声復号化方法及び装置、並びに音声合成方法及び装置
JP3680380B2 (ja) 音声符号化方法及び装置
JP4005154B2 (ja) 音声復号化方法及び装置
JP3707153B2 (ja) ベクトル量子化方法、音声符号化方法及び装置
KR100487136B1 (ko) 음성복호화방법및장치
JP3707154B2 (ja) 音声符号化方法及び装置
JP3653826B2 (ja) 音声復号化方法及び装置
JP4121578B2 (ja) 音声分析方法、音声符号化方法および装置
WO2004097796A1 (ja) 音声符号化装置、音声復号化装置及びこれらの方法
JPH10124092A (ja) 音声符号化方法及び装置、並びに可聴信号符号化方法及び装置
US5983173A (en) Envelope-invariant speech coding based on sinusoidal analysis of LPC residuals and with pitch conversion of voiced speech
US20040111257A1 (en) Transcoding apparatus and method between CELP-based codecs using bandwidth extension
JPH10214100A (ja) 音声合成方法
EP1597721B1 (en) 600 bps mixed excitation linear prediction transcoding
JP4281131B2 (ja) 信号符号化装置及び方法、並びに信号復号装置及び方法
JP4826580B2 (ja) 音声信号の再生方法及び装置
JP3063087B2 (ja) 音声符号化復号化装置及び音声符号化装置ならびに音声復号化装置
JP3006790B2 (ja) 音声符号化復号化方法及びその装置
JP3675054B2 (ja) ベクトル量子化方法、音声符号化方法及び装置、並びに音声復号化方法
Bae et al. On a new vocoder technique by the nonuniform sampling
JP3092654B2 (ja) 信号符号化装置
JPH09127997A (ja) 音声符号化方法及び装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20041201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050510

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050711

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050809

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051011

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20051108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20051121

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091209

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091209

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101209

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101209

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111209

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111209

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121209

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121209

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131209

Year of fee payment: 8

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term