JPH06266395A - 音声符号化装置および音声復号化装置 - Google Patents

音声符号化装置および音声復号化装置

Info

Publication number
JPH06266395A
JPH06266395A JP5049475A JP4947593A JPH06266395A JP H06266395 A JPH06266395 A JP H06266395A JP 5049475 A JP5049475 A JP 5049475A JP 4947593 A JP4947593 A JP 4947593A JP H06266395 A JPH06266395 A JP H06266395A
Authority
JP
Japan
Prior art keywords
sound source
excitation
representative
signal
amplitude
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5049475A
Other languages
English (en)
Inventor
Hirohisa Tazaki
裕久 田崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP5049475A priority Critical patent/JPH06266395A/ja
Publication of JPH06266395A publication Critical patent/JPH06266395A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【目的】 音声信号を音源信号とスペクトル形状情報に
分離して、音源信号から1ピッチ周期長の代表音源を抽
出して符号化と復号化を行う音声符号化装置において、
位相のズレを起こさない代表音源の切り出しを可能とす
る。 【構成】 音声符号化装置内に、前フレームの代表音源
との相関値と音源信号内のピーク値に基づいて切り出し
を行い、切り出した位置と相関最大の位置のシフト値を
も抽出する代表音源抽出手段11を備えた。第一の切り
出し手段25は、音源信号内のピーク値に基づいて音源
信号を切り出す。第二の切り出し手段は前フレームの代
表音源と現フレームの音源信号との相関値を計算し、相
関値が最大となる位置から音源信号を切り出す。選択手
段27は、いずれか一方の切り出し手段から得られた音
源信号を選択し、代表音源18として出力する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、音声信号をディジタ
ル伝送あるいは蓄積する場合に用いられる音声符号化装
置および音声復号化装置に関するものである。
【0002】
【従来の技術】音声信号を所定の長さのフレーム毎に分
析して、音源信号とスペクトル形状情報に分離して符号
化を行う音声符号化装置、およびその符号化されたデー
タを復号化して復号音声信号を生成する音声復号化装置
は例えば、特開平2−84699号公報に開示されてい
る。この従来例では、音声信号が有声音の場合にピッチ
周期で類似の波形が繰り返すという特徴を利用し、当該
フレームの音源信号をその中の1ピッチ周期長の信号の
みで代表させることで有声音の部分の符号化特性を改善
するものである。図18はこの従来の音声符号化装置の
構成を示す構成図である。図において、1は音声信号、
4は有声無声判定手段、5はピッチ周期抽出手段、8は
有声無声情報符号化手段、9はピッチ周期符号化手段、
12は代表音源符号化手段、16はピッチ周期、17は
有声無声情報、22はピッチ周期符号、23は有声無声
符号、201はスペクトル包絡分析手段、202は有声
音源符号化手段、203は代表音源切り出し手段、20
4はスペクトル包絡情報符号化手段、205はスペクト
ル包絡情報、206は音源信号、207は代表音源、2
08はスペクトル包絡符号、209は代表音源符号であ
る。
【0003】以下、従来の音声符号化装置の動作につい
て説明する。スペクトル包絡分析手段201は、入力さ
れた現在のフレームの音声信号1を分析して、スペクト
ル形状情報とパワー情報を合わせたスペクトル包絡情報
205を求め、このスペクトル包絡情報205と音声信
号1から音源信号206を算出する。スペクトル包絡情
報符号化手段204は、このスペクトル包絡情報205
を符号化して、得られたスペクトル包絡符号208を符
号化結果の1つとして出力する。有声無声判定手段4は
音声信号1を分析して、この音声信号1が有声音と無声
音のどちらであるかの判定を行い、結果を有声無声情報
17として出力する。有声無声情報符号化手段8は、こ
の有声無声情報17を符号化して、得られた有声無声符
号23を符号化結果の1つとして出力する。ピッチ周期
抽出手段5は、前記有声無声情報17が有声音である場
合に、音声信号1に対してピッチ周期分析を行い、得ら
れたピッチ周期16を出力する。ピッチ周期符号化手段
9は、このピッチ周期16を符号化して、得られたピッ
チ周期符号22を符号化結果の1つとして出力する。有
声音源符号化手段202内の代表音源切り出し手段20
3は、ピッチ周期16が入力された場合、すなわち有声
無声情報17が有声音であった場合に、音源信号206
の振幅最大の位置を基準にして音源信号206からピッ
チ周期16の長さの信号を切り出し、代表音源207と
して出力する。有声音源符号化手段202内の代表音源
符号化手段12は、前記代表音源207の符号化を行
い、得られた代表音源符号209を符号化結果の1つと
して出力する。
【0004】図19は特開平2−84699号公報に開
示されている音声復号化装置の構成を示す構成図であ
る。図において、22はピッチ周期符号、23は有声無
声符号、103は代表音源復号化手段、104はピッチ
周期復号化手段、105は有声無声情報復号化手段、1
12は無声音源生成手段、113は音源切り換え手段、
114は合成手段、119はピッチ周期、120は有声
無声情報、126は無声音復号音源信号、301はスペ
クトル包絡情報復号化手段、302はフレーム長音源生
成手段、303はスペクトル包絡情報、304は代表音
源、305は有声音復号音源信号、306は復号音源信
号、307は復号音声信号である。
【0005】以下、従来の音声復号化装置の動作につい
て説明する。スペクトル包絡情報復号化手段301は、
符号化されたデータの1つである入力されたスペクトル
包絡符号208を復号化して、得られたスペクトル包絡
情報303を出力する。有声無声情報復号化手段105
は、符号化されたデータの1つである入力された有声無
声符号23を復号化して、得られた有声無声情報120
を出力する。ピッチ周期復号化手段104は、前記有声
無声情報120が有声音である場合に、符号化されたデ
ータの1つである入力されたピッチ周期符号22を復号
化して、得られたピッチ周期119を出力する。代表音
源復号化手段103は、符号化されたデータの1つであ
る入力された代表音源符号209を復号化して、得られ
た代表音源304を出力する。フレーム長音源生成手段
302は、ピッチ周期119が入力された場合、すなわ
ち有声無声情報120が有声音であった場合に、前記ピ
ッチ周期119毎の間隔で前記代表音源304を並べ立
てて、有声音復号音源信号305として出力する。無声
音源生成手段112は、前記有声無声情報120が無声
音である場合に白色雑音を生成して、無声音復号音源信
号126として出力する。音源切り換え手段113は、
有声音復号音源信号305が入力された場合にはこれを
復号音源信号306として、無声音復号音源信号126
が入力された場合にはこれを復号音源信号306として
出力する。合成手段114は、前記復号音源信号306
とスペクトル包絡情報303を用いて復号音声信号30
7の合成を行う。
【0006】
【発明が解決しようとする課題】図18と図19に示し
たような従来の音声符号化装置および音声復号化装置に
おいては、代表音源切り出し手段203の切り出し結果
と、代表音源符号化手段12における符号化特性が最終
的な復号音声信号307の音質に大きな影響を与える。
代表音源切り出し手段203における切り出し方法とし
ては、音源信号206内の振幅最大の位置を探し、この
直前のゼロ交差点を開始点として1ピッチ周期長の信号
を切り出して代表音源207とする方法が特開平2−8
4699号公報に開示されているが、振幅最大位置とそ
の直前のゼロ交差点の間の間隔が一定でなく、このため
代表音源207内における振幅最大の位置がまちまちと
なり、代表音源符号化手段12の符号化特性を劣化さ
せ、復号音声信号307の品質劣化を引き起こすという
解決すべき課題がある。
【0007】ゼロ交差点を用いないようにして、代表音
源207内における振幅最大位置が所定の位置、例えば
中心に来るように切り出す場合でも、この様な音源信号
206の振幅値のみに基づいた切り出し方法では、音源
信号206の1ピッチ周期長内に大きな振幅ピークが複
数ある場合や、音源信号206が徐々に変化していく場
合などに切り出しが不安定になりやすい。
【0008】図20は、上記の従来の音声符号化装置に
おける代表音源207の切り出しの様子を説明する説明
図である。前フレームでは、振幅最大位置であるaの位
置を中心にして代表音源が切り出されている。代表音源
の前フレームと現フレームの連続性を高くするために
は、現フレームでは位置cを中心として切り出すことが
望ましいと判断される。しかしながら、音源信号206
内の振幅最大位置はbであり、これを中心として代表音
源207の切り出しが行われてしまう。この場合、前フ
レームと現フレームの代表音源の間に約4分の1周期の
位相ズレが発生し、これにともなって最終的な復号音声
信号307においてフレーム境界近傍の波形の乱れが生
じてしまう。
【0009】また、代表音源符号化手段12における符
号化ビット数が少ない場合など、代表音源符号化手段1
2により導入される符号化歪が大きいときに、特に符号
化歪の大きなフレームにおいては、音声復号化装置内の
代表音源304が隣接フレーム間で大きく異なるなどし
て復号音声信号307に異音を発生する場合がある。更
に、ピッチ周期が非常に大きい場合と小さい場合では、
音源信号206の様態がかなり異なっているが、このこ
とを全く考慮していないために復号音声信号307が劣
化している場合がある。従来の音声復号化装置では、フ
レーム長音源生成手段302において代表音源304を
単に並べ立てて復号音源信号306としているが、この
方法ではフレーム境界の音源の急変にともなって振幅が
乱れ、異音が発生する場合がある。
【0010】この発明は、かかる課題を解決するために
なされたものであり、位相のズレを起こさない代表音源
の切り出しを可能とし、符号化歪が大きい場合でも、ピ
ッチ周期が大きい場合も小さい場合にも復号音声信号の
劣化が少ない、良好な音声符号化装置および音声復号化
装置を実現することを目的としている。
【0011】
【課題を解決するための手段】請求項1記載の発明に係
わる音声符号化装置は、前記音源信号内のピーク値を探
索し、得られたピーク位置を基準として第一の切り出し
音源を抽出する第一の切り出し手段と、1フレーム前が
有声音であった場合に前フレームの代表音源との相関値
を最大にする現フレーム内の音源信号の位置、もしくは
前フレームの代表音源を切り出した位置の音声信号との
相関値を最大にする現フレーム内の音声信号の位置を算
出して、この位置を基準として第二の切り出し音源を抽
出するとともに、その相関値を出力する第二の切り出し
手段と、音源信号を分析して得られる所定の特徴パラメ
ータと前記相関値、もしくはその一方を用いて、第一の
切り出し音源と第二の切り出し音源の何れかを選択して
代表音源とする選択手段を備えた。
【0012】また請求項2記載の発明の音声符号化装置
は、請求項1記載の構成に加えて、前記選択手段が出力
した代表音源と、前記第二の切り出し手段が出力した第
二の切り出し音源の位置のズレを求め、これをそのま
ま、もしくはピッチ周期で割った余りを算出して音源シ
フト値として出力する音源シフト値算出手段と、これを
符号化する音源シフト値符号化手段を備えた。
【0013】また請求項3記載の発明の音声符号化装置
は、請求項2記載の構成に加えて、前記音源シフト値算
出手段が出力した音源シフト値のピッチ周期に対する比
率を算出して、この比率を所定の値と比較するシフト値
比較手段と、前記シフト値比較手段が前記比率が所定の
値以上と判定した場合に前記音源シフト値符号化手段を
動作させ、所定の値未満と判定した場合には前記音源シ
フト値符号化手段を動作させずに余剰ビットを代表音源
とスペクトル形状情報、もしくはその一方の符号化に用
いるようにモード制御を行うモード制御手段を備えた。
【0014】また請求項4記載の発明の音声符号化装置
は、請求項1ないし請求項3記載の構成に加えて、現フ
レームの音源信号内の正および負のピーク値を探索し
て、各ピーク値とそのピーク位置を出力する第一のピー
ク探索手段と、前フレームが有声音であった場合に、第
二の切り出し手段が出力した第二の切り出し音源の所定
区間内の正および負のピーク値を探索し、各ピーク値と
そのピーク位置を出力する第二のピーク探索手段と、前
フレームが有声音でなかった場合に、第一のピーク探索
手段が出力したピーク値の中で絶対値が最大のものを選
択して、そのピーク値とピーク位置を選択ピーク値およ
び選択ピーク位置として出力する第一のピーク選択手段
と、前フレームが有声音であった場合に、前フレームの
選択ピーク値が正であるか負であるかと、第一のピーク
探索手段と第二のピーク探索手段が出力した各ピーク値
に基づいて、この各ピーク値の中からピーク値を1つを
選択して、このピーク値とピーク位置を選択ピーク値お
よび選択ピーク位置として出力する第二のピーク選択手
段と、前記選択ピーク位置に基づいて第一の切り出し音
源を抽出するピーク位置基準切り出し手段を、前記第一
の切り出し手段内に備えた。
【0015】また請求項5記載の発明の音声符号化装置
は、代表音源を符号化して、得られた代表音源符号と符
号化時の歪を出力する代表音源符号化手段と、過去の代
表音源符号とその符号化時の歪を格納しておく音源記憶
手段と、前記代表音源符号化手段が出力した歪と前記音
源記憶手段に格納されている歪に基づいて、前記代表音
源符号化手段が出力した代表音源符号と前記音源記憶手
段内に格納されている過去の代表音源符号と所定の固定
音源符号のいずれかを選択して音源符号として出力する
音源符号選択手段と、この音源符号選択手段が前記代表
音源符号化手段が出力した代表音源符号を選択した場合
に、その代表音源符号と符号化時の歪を音源記憶手段に
格納する音源更新手段を備えた。
【0016】また請求項6記載の発明の音声符号化装置
は、現フレームの音源信号をいくつかのカテゴリに分類
する音源分類手段と、各カテゴリの音源信号毎に抽出し
た典型的な代表音源に対して、カテゴリ毎に設定した所
定の信号長を超える部分は削除し、また前記所定の信号
長に足りない部分は0を挿入して信号長を揃えて、得ら
れたものを音源符号語として持つカテゴリ毎の音源符号
帳と、前記音源分類手段が判定したカテゴリに対応した
前記音源符号帳を用いて符号化を行う代表音源符号化手
段を備えた。
【0017】また請求項7記載の発明の音声復号化装置
は、復号された現フレームの有声無声情報が有声である
場合に、復号された現フレームの各パラメータ、もしく
は前後のフレームの各パラメータを併せて用いて、現フ
レーム内のピッチ周期毎の位置での音源振幅を算出する
振幅算出手段と、この振幅算出手段が出力した音源振幅
を代表音源、もしくはこの代表音源と前後のフレームの
代表音源を現フレーム内のピッチ周期毎の位置で補間し
た補間音源に乗じてピッチ周期間隔に並べ立て、これを
復号音源信号として出力する音源連接手段と、前記復号
音源信号とスペクトル形状情報、もしくは前記スペクト
ル形状情報と前後のフレームのスペクトル形状情報を補
間した補間スペクトル形状情報を用いて復号音声信号を
生成する合成手段を備えた。
【0018】また請求項8記載の発明の音声復号化装置
は、復号された現フレームの有声無声情報が有声である
場合に、復号された各パラメータ、もしくは前フレーム
の各パラメータを併せて用いて、現フレームの始端の位
置での音源振幅を算出し、第一の音源振幅として出力す
る第一の振幅算出手段と、復号された現フレームの有声
無声情報が有声である場合に、復号された各パラメー
タ、もしくは次フレームの各パラメータを併せて用い
て、現フレームの終端の位置での音源振幅を算出し、第
二の音源振幅として出力する第二の振幅算出手段と、前
記第一の音源振幅と第二の音源振幅を現フレーム内のピ
ッチ周期毎の位置で補間して補間振幅として出力する振
幅補間手段と、代表音源、もしくは前記代表音源と前後
のフレームの代表音源を現フレーム内のピッチ周期毎の
位置で補間した補間音源に前記補間振幅を乗じてピッチ
周期間隔に並べ立て、これを復号音源信号として出力す
る音源連接手段と、前記復号音源信号とスペクトル形状
情報、もしくは前記スペクトル形状情報と前後のフレー
ムのスペクトル形状情報を補間した補間スペクトル形状
情報を用いて復号音声信号を生成する合成手段を備え
た。
【0019】また請求項9、10記載の発明の音声復号
化装置は、符号化された代表音源を復号化する代表音源
復号化手段と、符号化されたスペクトル形状情報を復号
化するスペクトル形状情報復号化手段と、符号化された
音源シフト値を復号化する音源シフト値復号化手段と、
その音源シフト値が0でない場合に前記代表音源復号化
手段が出力した代表音源をその音源シフト値に基づいて
シフトさせたシフト音源を生成するシフト音源生成手段
と、このシフト音源に対する音源振幅を算出するシフト
音源振幅算出手段と、前記代表音源復号化手段が出力し
た代表音源に対する音源振幅を算出する振幅算出手段
と、前記シフト音源に前記シフト音源振幅算出手段が出
力したシフト音源に対する音源振幅を乗じたものを始め
に並べ、続くピッチ周期毎の位置に前記代表音源復号化
手段が出力した代表音源に前記振幅算出手段が出力した
音源振幅を乗じたものを並べ立て、これを復号音源信号
として出力する音源連接手段と、前記復号音源信号と復
号されたスペクトル形状情報を用いて復号音声信号を生
成する合成手段を備えた。
【0020】
【作用】請求項1記載の発明における音声符号化装置
は、前フレームが無声音の場合には、音源信号内のピー
ク値、すなわち正および負の最大値を基準にして代表音
源の切り出しを行い、前フレームが有声音の場合には、
音源信号内のピーク値を基準にして切り出しを行うとと
もに、前フレームの代表音源との相関が最大になる音源
信号内の位置、もしくは前フレームの代表音源を切り出
した位置の音声信号との相関を最大にする音声信号内の
位置を基準にして切り出しを行い、相関値の大きさと音
源信号の様態によって、2つの切り出された信号の一方
を選択して代表音源とする。
【0021】請求項2記載の発明の音声符号化装置は、
前記相関が最大になる位置を基準にして切り出した信号
と、最終的に選択された代表音源との位置のズレを算出
して、この値、もしくはこの値をピッチ周期で割った余
りを音源シフト値として符号化する。
【0022】請求項3記載の発明の音声符号化装置は、
音源シフト値が小さい場合にこれを符号化せずに、本来
音源シフト値の符号化のために用いるビットを他のパラ
メータの符号化に用いる。
【0023】請求項4記載の発明の音声符号化装置は、
前記の音源信号内のピーク値を基準にした切り出しとし
て、前フレームが無声音の場合には、現フレームの音源
信号内の絶対値の最大値を与える位置に基づいて切り出
しを行い、前フレームが有声音の場合には、現フレーム
の音源信号内の正および負の最大値を与える位置と、相
関を最大にする位置によって決定される音源信号内のの
所定の範囲における正および負の最大値を与える位置を
探索して、これらの位置の中の1つに基づいて切り出し
を行う。
【0024】請求項5記載の発明の音声符号化装置は、
代表音源の符号化時の歪が大きい場合に、最近のフレー
ムで符号化時の歪が小さかったときの代表音源符号、ま
たは固定音源符号を出力する。
【0025】請求項6記載の発明の音声符号化装置は、
音源信号を複数のカテゴリに分類して、カテゴリ毎の長
さの音源符号語で構成されるカテゴリ毎の符号帳を用い
て符号化を行う。
【0026】請求項7記載の発明の音声復号化装置は、
復号化された代表音源、スペクトル形状情報、パワー情
報などの各パラメータを用いてピッチ周期毎の位置での
音源振幅を計算し、代表音源もしくはピッチ周期毎の位
置で補間された代表音源とこの音源振幅を順に乗じてい
くことで復号音源信号を生成する。
【0027】請求項8記載の発明の音声復号化装置は、
復号化された代表音源、スペクトル形状情報、パワー情
報などの各パラメータを用いてフレームの始端と終端で
の音源振幅を計算し、この2つの音源振幅をピッチ周期
毎の位置で補間して用いる。
【0028】請求項9、10記載の発明の音声復号化装
置は、音源シフト値を復号化して、代表音源をこの音源
シフト値を用いてシフトさせたシフト音源を生成し、こ
れに対して音源振幅を算出して乗じ、フレームの始めの
復号音源信号とする。
【0029】
【実施例】
実施例1.従来は、1ピッチ周期長代表残差信号の切り
出しを、現フレーム内の残差信号の振幅ピークのみに着
目して行っていたのに対して、この実施例は、現フレー
ムに於ける1ピッチ周期長代表残差信号の切り出しは、
前フレームとの位相連続性を考慮した区間で行われるべ
きであると考え、前フレームで抽出した1ピッチ周期長
代表残差信号の区間に対応する1ピッチ周期長の原音声
信号と、現フレームの原音声信号との相互相関を計算
し、相互相関値が最大となる区間を、現フレームの1ピ
ッチ周期長残差信号の切り出し区間とするものである。
【0030】本発明の実施例を図に基づいて説明する。
図1は本発明の実施例である音声符号化装置の全体構成
図である。図において新規な部分は、2のスペクトル分
析手段、3のパワー情報算出手段、6のスペクトル形状
情報符号化手段、7のパワー情報符号化手段、10の有
声音源符号化手段、11の代表音源抽出手段、13のス
ペクトル形状情報、14の音源信号、15のパワー情
報、18の代表音源、19のパワー情報符号、20のス
ペクトル形状符号、21の代表音源符号である。その他
の有声無声判定手段4、ピッチ周期抽出手段5、有声無
声情報符号化手段8、ピッチ周期符号化手段9、代表音
源符号化手段12は従来のものと同等であり、説明を省
略する。また、図2は本発明の実施例である音声符号化
装置における代表音源抽出手段11の詳細構成図であ
る。図において、24はピーク性検定手段、25は第一
の切り出し手段、26は第二の切り出し手段、27は選
択手段、28は第一の切り出し音源、29は第二の切り
出し音源、30はピーク位置、31はピーク性検定結果
である。
【0031】以下、図1と図2に示した本発明の一実施
例の動作について説明する。スペクトル分析手段2は、
入力された現在のフレームの音声信号1を分析して、ス
ペクトル形状情報13を求め、このスペクトル形状情報
13と音声信号1から音源信号14を算出する。音源信
号14の算出は、例えばスペクトル形状情報13の逆特
性を持つフィルタを構成して、音声信号1をこのフィル
タに通すことにより生成する。スペクトル形状情報符号
化手段6、このスペクトル形状情報13を符号化して、
得られたスペクトル形状符号20を符号化結果の1つと
して出力する。パワー情報算出手段3は、音声信号1を
分析して、パワー情報15を算出する。パワー情報符号
化手段7は、このパワー情報15を符号化して、得られ
たパワー情報符号19を符号化結果の一つとして出力す
る。なお従来例では、スペクトル形状情報13とパワー
情報15を合わせてスペクトル包絡情報205とし、こ
れを符号化していたが、この本発明の実施例では、後述
する音声復号化装置の一実施例がスペクトル形状符号2
0とパワー情報符号19と独立に用いる構成であるた
め、ここでも独立に処理する構成で説明する。
【0032】代表音源抽出手段11内の各手段は、ピッ
チ周期16が入力された場合、すなわち有声無声情報1
7が有声音であった場合に、以下の動作を行う。まず、
第一の切り出し手段25は、前記音源信号14内の振幅
の絶対値が最大となる位置を探索し、この位置をピーク
位置30として出力するとともに、ピーク位置30を中
心にしたピッチ周期16の長さの信号を音源信号14か
ら切り出し、第一の切り出し音源28として出力する。
第二の切り出し手段26は、前フレームの有声無声情報
17が有声音であった場合に、音源信号14内の各位置
を中心としたピッチ周期16の長さの信号と前フレーム
の代表音源18の相互相関値を順に計算し、最大の相関
値を与えた位置を探索して、その位置を中心としたピッ
チ周期16の長さの信号を第二の切り出し音源29とし
て切り出す。
【0033】ピーク性検定手段24は、前記ピーク位置
30における音源信号14の振幅の絶対値と、音源信号
14の振幅の絶対値の平均値を比較し、その比率が所定
の値以上の時には音源信号14のピーク性が高いと判定
し、所定の値未満の時にはピーク性が低いと判定する。
ピーク性とは、その1ピッチ周期長残差信号が、先鋭な
波高ピークを持つか動かを示す指標として、定義される
もので、1ピッチ周期長残差信号の振幅の絶対値の平均
をave ,その1ピッチ周期内の振幅最大値の絶対値をpe
akとするとき、係数λ(λ≧1)を用いて、 peak ≧ λ・ave を満たすようなpeakが存在するとき、“ピーク性が
高い”とみなす。そして、その判定結果をピーク性検定
結果31として出力する。選択手段27は、前フレーム
が有声音でなかった場合には、第一の切り出し音源28
をそのまま代表音源18として出力する。前フレームが
有声音であった場合には、まず第二の切り出し音源29
を切り出した際の相関値と所定の値を比較する。この相
関値が所定の値以上の時と、ピーク性検定結果31がピ
ーク性が低いとしている時には、第二の切り出し音源2
9を代表音源18として出力する。それ以外の時には、
第一の切り出し音源28をそのまま代表音源18として
出力する。上記のようにして代表音源抽出手段11から
出力された代表音源18を、代表音源符号化手段12が
符号化して、得られた代表音源符号21を符号化結果の
一つとして出力する。
【0034】実施例2.上記実施例1では、スペクトル
分析手段2において、スペクトル形状情報13と音声信
号1から音源信号14を算出しているが、図3に示すよ
うに、スペクトル形状符号20を復号化する手段を備え
て、復号化されたスペクトル形状情報と音声信号1から
音源信号14を算出する構成も可能である。
【0035】図3において、101はスペクトル形状情
報復号化手段であり、1aは音源信号生成手段である。
図1に示した音声符号化装置と図3に示した音声符号化
装置の異なる点は、図1の音声符号化装置が符号化前の
スペクトル形状情報13から音源信号を算出しているの
に対して、図3の音声符号化装置はスペクトル形状情報
13を一度符号化し、それを復号化したスペクトル形状
情報116から音源信号14を生成している点である。
このように、スペクトル形状情報13を一度符号化し、
さらに符号化したスペクトル形状情報116を用いるこ
とにより、音声復号化装置で用いられるスペクトル形状
情報116と同一のスペクトル形状情報を用いて、音声
音源信号を生成することになるため、符号化あるいは復
号化によって生じる符号化誤差を持たない信号によっ
て、音声符号化装置と音声復号化装置が動作することが
可能になる。
【0036】実施例3.上記実施例1では、第二の切り
出し手段26が、音源信号14内の各位置を中心とした
ピッチ周期16の長さの信号と前フレームの代表音源1
8の相互相関値を順に計算し、最大の相関値を与えた位
置を探索して、その位置を中心としたピッチ周期16の
長さの信号を第二の切り出し音源29として切り出して
いるが、音声信号1内の各位置を中心としたピッチ周期
16の長さの信号と前フレームの代表音源18を切り出
した位置に対応する音声信号1の相互相関値を順に計算
し、最大の相関値を与えた位置を探索して、その位置を
中心としたピッチ周期16の長さの音源信号を切り出す
構成も可能である。
【0037】図4は、この実施例の一例を示す図であ
る。第二の切り出し手段26は、音源信号14とピッチ
周期16以外に音声信号1を入力している。第二の切り
出し手段26は、音源信号14の相互相関値を計算する
のではなく、音声信号1を用いて相互相関値を計算し、
最大の相関値を与えた位置を中心としたピッチ周期16
の長さの音源信号14を、第二の切り出し音源29とし
て切り出す。
【0038】実施例4.上記実施例1では、ピーク性検
定手段24において、前記ピーク位置30における音源
信号14の振幅の絶対値と、音源信号14の振幅の絶対
値の平均値を比較しているが、ピーク位置30近傍、例
えばピーク位置30を含む前後数点の平均振幅を算出し
て、これと音源信号14の振幅の絶対値の平均値を比較
する構成も可能である。また、ピーク位置30の位置の
振幅の2乗、もしくはピーク位置30を含む前後数点の
平均パワーを算出して、これと音源信号14のパワーを
比較する構成も可能である。
【0039】実施例5.図5は請求項2の発明の一実施
例である音声符号化装置の有声音源符号化手段10の詳
細図である。図において新規な部分は、31の音源シフ
ト値算出手段、32の音源シフト値符号化手段、33の
音源シフト値、34の音源シフト値符号である。その他
の代表音源符号化手段12、ピーク性検定手段24、第
一の切り出し手段25、第二の切り出し手段26、選択
手段27は実施例1と同等であり、説明を省略する。全
体構成は、図1に音源シフト値符号化手段32が付加さ
れたものとなる。
【0040】以下、図5に示した本発明の一実施例の動
作について説明する。音源シフト値算出手段31は、第
二の切り出し手段26が出力した第二の切り出し音源2
9の音源信号14における位置と、選択手段27が出力
した代表音源18の音源信号14における位置の間のズ
レを算出し、これをピッチ周期16で割った余りを算出
し、音源シフト値33として出力する。音源シフト値符
号化手段32は、音源シフト値33を符号化して、得ら
れた音源シフト値符号34を符号化結果の1つとして出
力する。
【0041】図6は、図20の音源信号206と同じ信
号が音源信号14として入力されたときの、音源シフト
値算出手段31の動作を説明するものである。図6の左
側は、前フレームの代表音源として、位置aを中心とし
た1ピッチ周期長の音源信号が切り出されていることを
示している。現フレームにおいて振幅最大の位置は位置
bであり、第一の切り出し手段25はこの位置bを中心
とした1ピッチ周期長の信号を切り出す。また、前フレ
ームの代表音源に対して相関性が最も高いのは位置cを
中心とした1ピッチ周期長の信号であり、第二の切り出
し手段26は位置cを中心とした信号を切り出す。今、
選択手段27が、第一の切り出し手段25が切り出した
信号、すなわち位置bを中心とした信号を代表音源18
として選択した場合を考える。この時、音源シフト値3
3は、位置cと位置bの差をピッチ周期で割った余りと
して算出される。なお、図6では、位置cと位置bの差
がピッチ周期未満のため、そのままの値が音源シフト値
33となっている。選択手段27が、第二の切り出し手
段26が切り出した信号、すなわち位置cを中心とした
信号を代表音源18として選択した場合には、音源シフ
ト値33は0となる。
【0042】この音源シフト値33は、前述したように
音源シフト値符号化手段32により符号化され、音源シ
フト値符号34として音声復号化装置に出力される。こ
の音源シフト値符号34の利用の仕方については、後述
する音声復号化装置の実施例の中で詳細に説明するが、
復号側では最初の1ピッチ分についてシフト長分だけず
らして代表音源の並べ立てを行う。このように、この実
施例はピーク性が低い場合には、相関最大位置の1ピッ
チ周期長区間を代表音源として切り出す。ピーク性が高
い場合には、相関最大1ピッチ周期長区間内のピーク位
置を抽出し、その位置をセンタとする新たな1ピッチ周
期長区間を切り出し、ピーク位置の変位をシフト長とし
て同時に転送する。合成側では、最初の1ピッチ分につ
いて、シフト長分だけずらして音源の並べ立てを開始す
る。
【0043】また、上記実施例5では代表音源抽出手段
11は、第一の切り出し手段25と第二の切り出し手段
26の両方が存在する場合を説明したが、第一の切り出
し手段25が存在せず、第二の切り出し手段26が存在
している場合でも構わない。すなわち、代表音源抽出手
段11は、第二の切り出し手段26により、切り出され
た第二の切り出し音源と全フレームの代表音源18に基
づいて音源シフト値を算出する。
【0044】実施例6.図7は、請求項3の発明の一実
施例である音声符号化装置の有声音源符号化手段10の
詳細図である。図において新規な部分は、35のシフト
値比較手段、36のモード制御手段、37の比較結果、
38のモード信号である。代表音源符号化手段12、音
源シフト値符号化手段32は、実施例5と同等のものに
一部機能が追加したものである。代表音源抽出手段11
は実施例5と同等であり、説明を省略する。全体構成
は、図1の有声音源符号化手段10の部分が図7の構成
に置き換えられたものとなる。
【0045】以下、図7に示した本発明の一実施例の動
作について説明する。シフト値比較手段35は、音源シ
フト値33のピッチ周期16に対する比率を求め、この
比率が所定の値以上であるか、所定の値未満であるか比
較した結果を比較結果37として出力する。モード制御
手段36は、比較結果37において比率が所定の値以上
であった場合には、音源シフト値符号化手段32を動作
させる第一のモードを選択し、比較結果37において比
率が所定の値未満であった場合には、音源シフト値符号
化手段32を動作させない第二のモードを選択し、どち
らのモードを選択したかをモード信号38として符号化
結果の一つとして出力する。
【0046】音源シフト値符号化手段32は、前記モー
ド信号38がその動作を要求している場合に、音源シフ
ト値33を符号化して、得られた音源シフト値符号34
を出力する。代表音源符号化手段12は、前記モード信
号38が音源シフト値符号化手段32の動作を要求して
いる場合は、実施例1ないし実施例5と同等の処理を行
い、モード信号38が音源シフト値符号化手段32の動
作を要求していない場合には、音源シフト値符号34の
情報ビット数だけ多い情報ビット数を用いて代表音源1
8を符号化して、得られた代表音源符号21を符号化結
果の一つとして出力する。
【0047】例えば、図7に示した有声音源符号化手段
10の出力として、15ビットの情報量が与えられてい
る場合、モード信号38に1ビットを用い、音源信号シ
フト値符号34に4ビットを用いる場合について考えて
みる。もし、モード信号38が音源シフト値を符号化す
るモードを示している場合には、音源シフト値符号34
が4ビットの情報として出力される。従って、代表音源
符号21は、10ビットの情報量で符号化される。一
方、モード信号38が音源シフト値を符号化しないモー
ドを示している場合には、音源シフト値符号34は出力
されない。従って、代表音源符号21は14ビットの情
報量を用いて符号化される。実験では、シフトが生ずる
フレームは全体の1割以下であり、大半のシフトが生じ
ないフレームではシフト長を伝送せず、他のパラメータ
に余ビットを配分できることが分かっている。
【0048】実施例7.上記実施例6では、モード信号
38が音源シフト値符号化手段32の動作を要求しない
場合に、代表音源符号化手段12の情報ビット数を増や
しているが、スペクトル形状情報符号化手段6、パワー
情報符号化手段7、ピッチ周期符号化手段9における情
報ビット数を増やす構成も可能である。
【0049】また、前記実施例6においては、代表音源
抽出手段11は実施例5と同等である場合を説明した
が、前述したように代表音源抽出手段11には第一の切
り出し手段が存在せず、第二の切り出し手段26と音源
シフト値算出手段31が存在する場合であっても構わな
い。
【0050】実施例8.図8は請求項4の発明の一実施
例である音声符号化装置の第一の切り出し手段25の詳
細図である。図において新規な部分は、39の第一のピ
ーク探索手段、40の第二のピーク探索手段、41の第
一のピーク選択手段、42の第二のピーク選択手段、4
3のピーク位置基準切り出し手段、44のピーク値とピ
ーク位置、45のピーク値とピーク位置、46の選択ピ
ーク値と選択ピーク位置、47の選択ピーク値と選択ピ
ーク位置がある。なお、煩雑となることを避けるために
図示することを省略しているが、ピッチ周期16は第一
のピーク選択手段41、第二のピーク選択手段42、ピ
ーク位置基準切り出し手段43にも入力されている。全
体構成は、図1ないし図5、図7で記述された実施例1
ないし実施例7の何れかと同じ構成でよい。但し、第二
の切り出し音源29が第一の切り出し手段25に入力さ
れており、この第二の切り出し音源29は、第二のピー
ク探索手段40に入力されている。
【0051】以下、図8に示した本発明の一実施例の動
作について説明する。第一のピーク探索手段39は、ピ
ッチ周期16が入力された場合、すなわち現フレームの
有声無声情報17が有声であった場合に、音源信号14
内の正および負の最大値を探索して、その値と位置をピ
ーク値とピーク位置44として出力する。第二のピーク
探索手段40は、ピッチ周期16と第二の切り出し音源
29が入力された場合、すなわち前フレームと現フレー
ムが両方とも有声であった場合に、第二の切り出し音源
29内の所定の範囲内の正および負の最大値を探索し
て、その値と位置をピーク値とピーク位置45として出
力する。所定の範囲としては、例えば、図6に示した第
二の切り出し音源29の位置cを中心として、前後数サ
ンプルまたはピッチ周期16の数分の一の前後サンプル
の範囲とする。
【0052】第一のピーク選択手段41は、前フレーム
が無声音であった場合に、前記第一のピーク探索手段3
9が出力したピーク値とピーク位置44の中で絶対値が
最大のものを選択して、選択ピーク値と選択ピーク位置
46として出力する。第二のピーク選択手段42は、前
フレームが有声音であった場合に、前フレームにおいて
ピーク位置基準切り出し手段43が最終的に選択した選
択ピーク値の符号と、前記ピーク値とピーク位置44と
ピーク値とピーク位置45の各ピーク値を用いて、前フ
レームの選択ピーク値と同符号であるピークを選択し易
いようにして、また、44のピークより45のピークを
選択し易いようにして、また、絶対値の大きなピークを
選択し易いようにして、ピーク値とピーク位置44とピ
ーク値とピーク位置45の中から1つを選択して、選択
ピーク値と選択ピーク位置47として出力する。ピーク
位置基準切り出し手段43は、選択ピーク値と選択ピー
ク位置46もしくは選択ピーク値と選択ピーク位置47
の一方が入力されるので、その選択ピーク位置を中心に
してピッチ周期16の長さの信号を音源信号14から切
り出し、第一の切り出し音源28として出力する。
【0053】図9は、実施例8の第一の切り出し手段2
5の動作を説明するものである。まず、第一のピーク探
索手段39は、音源信号14内の正の最大値を与えるピ
ーク位置aとその値Raを出力する。また、音源信号1
4内の負の最大値を与えるピーク位置bとその値Rbを
出力する。次に、第二のピーク探索手段40は、第二の
切り出し音源29の中心位置の前後数サンプルを所定の
範囲Aとして、この範囲Aにおいて正の最大値を与える
ピーク位置cとその値Rcと負の最大値を与えるピーク
位置dとその値Rdを出力する。前フレームが無声であ
る場合には、第一のピーク選択手段41が、RaとRb
の絶対値の大きい方である位置aを選択して、ピーク位
置基準切り出し手段43が、この位置aを中心にした切
り出しを行う。前フレームが有声である場合には、第二
のピーク選択手段42が、Ra、Rb、Rc、Rdの絶
対値と、前フレームの選択ピークの符号を用いて、aな
いしdの位置の中から一つの位置を選択し、ピーク位置
基準切り出し手段43が、この位置を中心にした切り出
しを行う。
【0054】前述したように第二のピーク選択手段42
は、前フレームの選択ピーク値と動符号であるピークを
選択する。同様に、第一のピーク探索手段39からの出
力よりも第二のピーク探索手段40からの出力を選択す
る。更に、絶対値の大きなピークを選択する。従って、
aないしdの振幅の値RaないしRdに大きな差がな
く、且つ前フレームの選択ピークの符号が正であったと
すれば、この例においては4つの振幅の絶対値の差が少
ないことから、選択ピークの符号と同符号で、第二のピ
ーク探索手段40の出力である位置cが優先的に選択さ
れる。
【0055】前述した実施例1における代表音源抽出手
段11内の第一の切り出し手段25は、音源信号14内
の振幅の絶対値は最大となる位置を探索し、この位置を
ピーク位置30として出力するものであったが、この実
施例による第一の切り出し手段25によれば、第二のピ
ーク探索手段40が前フレームの選択ピーク値と同符号
であるピークを選択し易いようにしていることにより、
単にピーク値の絶対値の大きなものを選択する場合に比
べて、ピーク位置30が頻繁に変更されること防ぐこと
になる。また、同様に第二のピーク探索手段は、第一の
ピーク探索手段39により出力された現フレームの音源
信号14内の正および負の最大値から求められたピーク
値よりも、第二のピーク探索手段により探索された前フ
レームと最も関係の深い位置から切り出された第二の切
り出し音源内の所定の範囲内の正および負の最大値から
求められたピーク値を選択し易いようにしているため、
相関値を最大にする位置近傍のピークが選択される可能
性が高くなり、代表音源の位相の連続性が改善される。
【0056】実施例9.図10は請求項5の発明の一実
施例である音声符号化装置の代表音源の符号化部分の詳
細図である。全体構成は、図1の代表音源符号化手段1
2の部分を、この図10で置き換えた構成である。図に
おいて新規な部分は、48の音源符号選択手段、49の
音源更新手段、50の音源記憶手段、51、53、およ
び54の代表音源符号化結果、52は過去の代表音源符
号化結果である。また、代表音源符号化手段12は、実
施例1の相当部分に対して、出力情報の一部追加があ
る。
【0057】以下、図10に示した本発明の一実施例の
動作について説明する。代表音源符号化手段12は、代
表音源18を符号化して、得られた代表音源符号とその
符号化歪を代表音源符号化結果51として出力する。音
源記憶手段50には、過去の代表音源符号化結果52を
後述する方法で格納しておく。そして、図11に示すよ
うに、音源符号選択手段48は、前記代表音源符号化結
果51の符号化歪が第一の閾値以上である場合、過去の
代表音源符号化結果52内の代表音源符号を代表音源符
号21として出力する。また、前記代表音源符号化結果
51の符号化歪が第二の閾値(ただし、第一の閾値>第
二の閾値)以上および過去の代表音源符号化結果52内
の符号化歪以上である場合に、過去の代表音源符号化結
果52内の代表音源符号を音源符号55として出力す
る。上記以外の場合には、代表音源符号化結果51内の
代表音源符号を代表音源符号21として出力すると共
に、代表音源符号化結果51をそのまま代表音源符号化
結果53として出力する。なお、第二の閾値は第一の閾
値以下に設定する。音源更新手段49は、前記代表音源
符号化結果53が入力された場合に、これを代表音源符
号化結果54として音源記憶手段50に出力して、音源
記憶手段50内に格納してある過去の代表音源符号化結
果52を更新する。
【0058】このようにして音源記憶手段50には過去
の代表音源符号化結果52として、所定の歪以下である
ような代表音源符号化結果が格納されることになる。図
10に示した代表音源符号化手段12によれば、符号化
歪が大きい場合には、その歪が大きい代表音源符号化結
果を代表音源符号として出力することを禁止し、過去に
おいて出力した歪の少ない代表音源符号化結果を代表音
源符号として出力することになる。すなわち、音源記憶
手段50は過去において出力した歪の大きさが許容範囲
内である代表音源符号化結果の最新のものを記憶してお
き、新たに求められた代表音源符号化結果と記憶された
代表音源符号化結果を比較し、より歪の小さいものを代
表音源符号として出力することが可能になる。
【0059】実施例10.上記実施例9では、音源符号
選択手段48が、前記代表音源符号化結果51の符号化
歪が第一の閾値以上である場合と、前記代表音源符号化
結果51の符号化歪が第二の閾値および過去の代表音源
符号化結果52内の符号化歪以上である場合に、過去の
代表音源符号化結果52内の代表音源符号を代表音源符
号21として出力する構成となっているが、この条件
に、過去の代表音源符号化結果52の符号化前の代表音
源と代表音源18の相互相関値が高い場合に、過去の代
表音源符号化結果52内の代表音源符号を代表音源符号
21として出力するという項目を追加した構成も可能で
ある。
【0060】実施例11.上記実施例9では、音源符号
選択手段48が、代表音源符号化結果51内の代表音源
符号と過去の代表音源符号化結果52内の代表音源符号
の一方を選択する構成となっている。しかし、前記代表
音源符号化結果51の符号化歪が第一の閾値以上である
場合に、固定音源符号を代表音源符号21として出力
し、それ以外の場合には、代表音源符号化結果51内の
代表音源符号を代表音源符号21として出力する構成模
可能である。また、前記代表音源符号化結果51の符号
化歪と過去の代表音源符号化結果52内の符号化歪が第
一の閾値以上である場合に、固定音源符号を音源符号5
5として出力し、前記代表音源符号化結果51の符号化
歪が第二の閾値および過去の代表音源符号化結果52内
の符号化歪以上である場合に、過去の代表音源符号化結
果52内の代表音源符号を代表音源符号21として出力
し、その他の場合には、代表音源符号化結果51内の代
表音源符号を代表音源符号21として出力すると共に、
代表音源符号化結果51をそのまま代表音源符号化結果
53として出力するという構成も可能である。
【0061】実施例12.図11は請求項6の発明の一
実施例である音声符号化装置の有声音源符号化手段10
の詳細図である。図において新規な部分は、55の音源
分類手段、56のカテゴリ毎の音源符号帳、57のカテ
ゴリ番号、58の切り換えスイッチ、59の音源符号語
である。その他の代表音源抽出手段11と代表音源符号
化手段12は実施例1ないし実施例11と同等のもので
あり、説明を省略する。また、全体構成は、実施例1な
いし実施例11と同じである。
【0062】以下、図12に示した本発明の一実施例の
動作について説明する。図において特徴となる点は、音
源分類手段55が設けられている点である。音源分類手
段は音源信号14とピッチ周期符号22と音源シフト値
符号34を入力する。そして、音源分類手段55は、ピ
ッチ周期符号22と音源シフト値符号34、もしくはそ
の一方を用いて、音源信号14を複数のカテゴリに分類
し、そのカテゴリ番号57を出力する。ここでカテゴリ
の種類としては、例えば相関値が低い、高いあるいは、
ピーク値の振幅の絶対値が大きい、小さいあるいは、音
源の切り出しがシフトした、シフトしないというような
カテゴリの種類が挙げられる。あるいは、パワー情報や
スペクトル形状情報の特徴により音源をカテゴリに分類
する場合でも構わない。カテゴリ毎の音源符号帳56に
は、予め、各カテゴリに分類される典型的な代表音源
を、カテゴリ毎に設定した長さに揃えて、音源符号語と
して格納しておく。所定の長さに揃える方法としては、
代表音源が長い場合にはその両端を切り捨て、代表音源
が短い場合にはその両端に0信号を付加すれば良い。切
り換えスイッチ58は、音源分類手段55の出力したカ
テゴリ番号57に対して、対応するカテゴリ毎の音源符
号帳56中の1つの音源符号帳に接続する。代表音源符
号化手段12は、切り換えスイッチ58を介して入力さ
れる音源符号語59を用いて符号化を行う。
【0063】実施例13.上記実施例12では、音源分
類手段55が、ピッチ周期符号22と音源シフト値符号
34、もしくはその一方を用いて、複数のカテゴリに分
類しているが、スペクトル形状符号20、パワー情報符
号19等の他の符号化結果を併せて用いる構成も可能で
ある。
【0064】実施例14.上記実施例12および実施例
13では、音源分類手段55が、代表音源符号21以外
の符号化結果を用いて、音源信号を複数のカテゴリに分
類しているが、実施例5のピーク性検定手段24と同様
のピーク値と平均振幅の比率などの音源信号14を分析
して得られるパラメータを用いて分類を行い、カテゴリ
番号を符号化結果の一つとする構成も可能である。
【0065】この実施例14による場合には、カテゴリ
番号を符号化結果の1つとするため、伝送する情報量に
限りがある場合には、このカテゴリ番号のためにその情
報の一部を割かねばならない。しかし、前述した実施例
12および実施例13の場合には、ピッチ周期符号22
および音源シフト値符号34およびスペクトル形状符号
20およびパワー情報符号19等は既に音声符号化装置
から符号化結果の一部として出力されているものである
ため、実施例14のようにカテゴリ番号を特に符号化し
て出力する必要はなく、既に符号化された情報を用いて
カテゴリを判別することが可能になるという利点があ
る。
【0066】音声復号化装置おいては、音声符号化装置
で用いられたカテゴリ毎の音源符号帳56と同様の音源
符号帳を設け、音声符号化装置が用いたカテゴリと同様
のカテゴリの音源符号帳を用いて音声を復号化する。従
って、符号化の過程において、どのカテゴリの音源符号
帳を用いたかを復号化装置に伝送する必要が生ずる。実
施例12、13によれば、この符号化装置が用いたカテ
ゴリを特にカテゴリ番号等の特別な符号化結果を用いる
ことなく、復号化装置に伝えることが可能である。
【0067】実施例15.上記実施例1ないし実施例1
4では、代表音源抽出手段11がピッチ周期16の長さ
の代表音源18を切り出す構成となっているが、代表音
源18として所定の長さに揃えた信号を切り出す構成、
もしくはカテゴリ毎の所定の長さに揃えた信号を切り出
す構成も可能である。所定の長さに揃える方法として
は、実施例13のカテゴリ毎の音源符号帳56内の音源
符号語に関する方法を用いることができる。すなわち、
代表音源が長い場合にはその両端を切り捨て、代表音源
が短い場合にはその両端に0信号を付加すれば良い。
【0068】実施例16.図13は請求項7の発明の一
実施例である音声復号化装置の全体構成図である。図に
おいて新規な部分は、101のスペクトル形状情報復号
化手段、102のパワー情報復号化手段、106のスペ
クトル形状情報補間手段、107の有声音源生成手段、
108のパワー情報補間手段、109の代表音源補間手
段、110の振幅算出手段、111の音源連接手段、1
15の復号音声信号、116のスペクトル形状情報、1
17のパワー情報、118の代表音源、121の補間ス
ペクトル形状情報、122の補間パワー情報、123の
補間音源、124のピッチ周期毎の振幅情報、125の
有声音復号音源信号、127の復号音源信号である。な
お、煩雑となることを避けるために図示することを省略
しているが、ピッチ周期119は有声音源生成手段10
7内の全ての手段に入力されている。その他の代表音源
復号化手段103、ピッチ周期復号化手段104、有声
無声情報復号化手段105、無声音源生成手段112、
音源切り換え手段113、合成手段114は従来のもの
と同等であり、説明を省略する。
【0069】以下、図13に示した本発明の一実施例の
動作について説明する。スペクトル形状情報復号化手段
101は、入力されたスペクトル形状符号20を復号化
して、得られたスペクトル形状情報116を出力する。
スペクトル形状情報補間手段106は、現フレームのス
ペクトル形状情報116と前フレームもしくは前後のフ
レームのスペクトル形状情報116とを各サンプル位置
で補間し、補間スペクトル形状情報121として出力す
る。パワー情報復号化手段102は、入力されたパワー
情報符号19を復号化して、得られたパワー情報117
を出力する。有声音源生成手段107内のパワー情報補
間手段108は、現フレームのパワー情報117と前フ
レームもしくは前後のフレームのパワー情報117とを
ピッチ周期119毎の位置で補間し、補間パワー情報1
22として出力する。
【0070】有声音源生成手段107内の代表音源補間
手段109は、現フレームの代表音源118と前フレー
ムもしくは前後のフレームの代表音源118とをピッチ
周期119毎の位置で補間し、補間音源123として出
力する。有声音源生成手段107内の振幅算出手段11
0は、前記補間スペクトル形状情報121、補間パワー
情報122、補間音源123を用いて、ピッチ周期毎の
位置での音源に対する振幅を算出し、ピッチ周期毎の振
幅情報124として出力する。音源連接手段111は、
ピッチ周期毎の位置で補間パワー情報122にピッチ周
期毎の振幅情報124を乗じて、乗じた結果を順に並べ
立てて、有声音復号音源信号125として出力する。
【0071】図14は、有声音源生成手段107の動作
の説明図である。図中、破線で示されている波形は、前
フレームの音源連接手段111における最後の1ピッチ
周期長の補間音源に振幅を乗じたものである。音源連接
手段111ではピッチ周期毎に並べ立てを行っていくの
で、この最後の1ピッチ周期長の終端と、図の最上部に
記した現フレームの始端とが通常一致しない。そこで、
音源連接手段111内では、最後のピッチ周期長の終端
まで信号の生成を行って、そのフレームの終端位置まで
の信号を有声音復号音源信号125として出力するとと
もに、次フレームの始めに残りの部分を出力するように
している。まず、現フレームの1番目のピッチ周期の位
置P1において、各パラメータの補間を行って、補間ス
ペクトル形状情報121、補間パワー情報122、補間
音源123を算出する。振幅算出手段110内では、こ
の補間スペクトル形状情報121と補間音源123を用
いて、図のように1ピッチ周期長の仮の合成音声を生成
し、合成音声のサンプル当たりの平均パワーと、補間パ
ワー情報122が一致するように振幅gを決定する。こ
の処理を、後続するピッチ周期毎の位置P2、P3にお
いて行って、得られた振幅gの系列をピッチ周期毎の振
幅情報124とする。音源連接手段111では、補間音
源123とピッチ周期毎の振幅情報124を乗じて、図
中の実線の音源波形のように順に並べ立てていく。
【0072】この実施例で特徴となる点は、現フレーム
内のピッチ周期毎の位置で音源振幅を算出している点で
ある。この実施例によれば、ピッチ周期毎に振幅情報を
最適に変化させることができるため、入力音声に対して
より忠実な音声の再現が可能になる。また、この1ピッ
チ周期毎の振幅の算出を代表音源を補間した補間音源に
適用することにより、フレーム間の代表音源の間に比較
的大きな差異がある場合でも振幅の不連続の少ない復号
音声信号か生成できる。
【0073】実施例17.上記実施例16では、スペク
トル形状情報116、パワー情報117、代表音源11
8を補間する構成となっているが、ピッチ周期119を
も補間する構成や、4つのパラメータの内実施例16以
外の組み合わせの複数のパラメータのみ補間する構成も
可能である。
【0074】実施例18.図15は請求項8の発明の一
実施例である音声復号化装置の有声音源生成手段107
の詳細図である。図において新規な部分は、128の第
一の振幅算出手段、129の第二の振幅算出手段、13
0の振幅補間手段、131の第一の補間パワー情報、1
32の第二の補間パワー情報、133の第一の補間音
源、134の第二の補間音源、135の第一の補間スペ
クトル情報、136の第二の補間スペクトル情報、13
7の第一の音源振幅、138の第二の音源振幅である。
パワー情報補間手段108、代表音源補間手段109は
実施例16と補間を行う位置が異なる。なお、煩雑とな
ることを避けるために図示することを省略しているが、
ピッチ周期119は、第一の振幅算出手段128、第二
の振幅算出手段129、振幅補間手段130にも入力さ
れている。全体構成は、図14において、スペクトル形
状情報補間手段106から有声音源生成手段107への
出力を、第一の補間スペクトル情報135と第二の補間
スペクトル情報136に変更したものである。
【0075】以下、図15に示した本発明の一実施例の
動作について説明する。前述した実施例16および実施
例17においては、有声音源生成手段107がピッチ周
期119毎に振幅を算出する場合について説明したが、
ピッチ周期119毎に振幅を算出する場合は、その算出
量が多くなるため、この実施例においては、ピッチ周期
全体ではなくピッチ周期の始めと終りについてのみ振幅
を算出し、その算出量を減少させる場合について説明す
る。
【0076】パワー情報補間手段108は、現フレーム
のパワー情報117と前フレームもしくは前後のフレー
ムのパワー情報117とを現フレームの始端と終端の位
置で補間し、始端の位置で得られたものを第一の補間パ
ワー情報131、終端の位置で得られたものを第二の補
間パワー情報132として出力する。
【0077】代表音源補間手段109は、現フレームの
代表音源118と前フレームもしくは前後のフレームの
代表音源118とをピッチ周期119毎の位置で補間
し、補間音源123として出力する。また、代表音源補
間手段109は、現フレームの代表音源118と前フレ
ームもしくは前後のフレームの代表音源118とを現フ
レームの始端と終端の位置で補間し、始端の位置で得ら
れたものを第一の補間音源133、終端の位置で得られ
たものを第二の補間音源134として出力する。
【0078】スペクトル形状情報補間手段106は、現
フレームのと前フレームもしくは前後のフレームの代表
音源118とを現フレームの始端と終端の位置で補間
し、始端の位置で得られたものを第一の補間音源13
3、終端の位置で得られたものを第二の補間音源134
として出力する。
【0079】第一の振幅算出手段128は、前記第一の
補間スペクトル情報135、第一の補間パワー情報13
1、第一の補間音源133を用いて、現フレームの始端
の位置での音源に対する振幅を算出し、第一の音源振幅
137として出力する。第二の振幅算出手段129は、
前記第二の補間スペクトル情報136、第二の補間パワ
ー情報132、第二の補間音源134を用いて、現フレ
ームの終端の位置での音源に対する振幅を算出し、第二
の音源振幅138として出力する。振幅の算出は、図1
1において説明したように、始端と終端における仮の合
成音を作成して求める。振幅補間手段130は、第一の
音源振幅137と第二の音源振幅138をピッチ周期毎
の位置で補間して、得られたピッチ周期毎の振幅情報1
24を出力する。
【0080】このようにこの実施例では、ピッチ周期の
前後においてのみ振幅を算出し、その間の振幅は補間に
より求めているため、前述した実施例16あるいは実施
例17に比べて振幅の算出量が減るという利点がある。
【0081】実施例19.前述した音声符号化装置の一
実施例として、音源シフト値符号34を出力する場合を
説明したが、この実施例では音源シフト値符号34を入
力して音声の復号を行う場合について説明する。
【0082】図16は請求項9の発明の一実施例である
音声復号化装置の有声音源生成手段107の詳細図であ
る。図において新規な部分は、139の音源シフト値復
号化手段、140のシフト音源生成手段、141のシフ
ト音源振幅算出手段、142の音源シフト値、143の
シフト音源、144のシフト音源振幅である。その他の
パワー情報補間手段108、振幅算出手段110、音源
連接手段111は、実施例16と同等である。なお、煩
雑となることを避けるために図示することを省略してい
るが、ピッチ周期119は、パワー情報補間手段10
8、振幅算出手段110にも入力されている。全体構成
は、図10に、音源シフト値復号化手段139を追加し
た構成である。
【0083】以下、図16に示した本発明の一実施例の
動作について説明する。音源シフト値復号化手段139
は、音源シフト値符号34を復号化して、得られた音源
シフト値142を出力する。有声音源生成手段107内
のシフト音源生成手段140は、代表音源118に対し
て、その先頭から前記音源シフト値142の長さだけ削
除した短い信号を作成して、これをシフト音源143と
して出力する。パワー情報補間手段108は、現フレー
ムのパワー情報117と前フレームもしくは前後のフレ
ームのパワー情報117とを、最終的に音源連接手段1
11においてシフト音源143を並べ立てる位置と後続
の代表音源118を並べ立てるピッチ周期毎の位置にお
いて補間し、得られた補間パワー情報122を出力す
る。
【0084】シフト音源振幅算出手段141は、スペク
トル形状情報116、シフト音源143、シフト音源1
43の位置における補間パワー情報122を用いて、シ
フト音源振幅144に対する振幅を算出し、シフト音源
振幅144として出力する。算出の方法は、図11を用
いて説明した振幅算出手段110と同様にすれば良い。
振幅算出手段110は、スペクトル形状情報116、代
表音源118、補間パワー情報122を用いて、シフト
音源143に後続するピッチ周期毎の位置における音源
振幅を算出して、ピッチ周期毎の振幅情報124として
出力する。音源連接手段111は、始めにシフト音源1
43にシフト音源振幅144を乗じたものを並べ、続い
て代表音源118にピッチ周期毎の振幅情報124を乗
じたものを順に並べ立て、有声音復号音源信号125と
して出力する。
【0085】図17は、実施例19の有声音源生成手段
107の動作を説明するものである。図において、上段
の波形が、前フレームに音源連接手段111内において
生成された最後の代表音源にその音源振幅を乗じたもの
であり、下段の波形が現フレームで音源連接手段111
内において最終的に生成された信号である。まず、代表
音源118の先頭から音源シフト値142の長さの部
分、図中では破線の部分が、削除され、これがシフト音
源143となる。この破線の部分は図6に示した音源シ
フト値33(c−b)を示している。図6に示したよう
に、音源の位置cから音源の位置bにシフトされて代表
音源が符号化されて出力されてきているため、音声を復
号化する場合には、音源の位置cから音源の位置bにシ
フトした部分だけ音源をシフトさせて復号化する必要が
生じる。そしてこのシフトした部分は前フレームの最後
の代表音源と重なるため、図18に示したように破線の
部分が削除されることになる。このようにして、音源を
シフトして符号化した場合でも破線の部分を削除するこ
とにより、前フレームの代表音源と現フレーム代表音源
と位相は入力音声と同様なものが復号化される。次に、
位置P1において補間された各パラメータを用いてシフ
ト音源振幅144が算出され、これをシフト音源143
に乗じたものを、上段の波形に続けて並べ立てる。次
に、位置P2と位置P3において補間された各パラメー
タを用いて、各位置に並べる代表音源118に対する音
源振幅を算出し、ピッチ周期毎の振幅情報124シフト
音源振幅144とする。これを代表音源118に乗じた
ものを、続けて並べ立てる。
【0086】実施例20.上記実施例19では、常に音
源シフト値復号化手段139が入力される音源シフト値
符号34を復号化する構成となっているが、モード信号
38を入力して、このモード信号38によって、音源シ
フト値復号化手段139を動作させるモードと、この音
源シフト値復号化手段139を動作させずに音源シフト
値142を0とし、スペクトル形状情報復号化手段10
1、パワー情報復号化手段102、代表音源復号化手段
103の何れかを通常音源シフト値の符号化に用いるビ
ット数分だけ多いビット数で復号化するモードを切り換
える構成も可能である。
【0087】実施例21.上記実施例16ないし実施例
20の音声復号化装置内に、音源分類手段55と同じ音
源分類手段と、カテゴリ毎の音源符号帳56と同じ音源
符号帳を備えて、前記音源分類手段によって得られたカ
テゴリ番号に対応した音源符号帳を用いて、代表音源1
18が復号化を行う構成も可能である。
【0088】実施例22.上記実施例16ないし実施例
20の音声復号化装置内に、カテゴリ毎の音源符号帳5
6と同じ音源符号帳を備えて、カテゴリ番号を入力し
て、このカテゴリ番号に対応した音源符号帳を用いて、
代表音源118が復号化を行う構成も可能である。
【0089】
【発明の効果】以上説明したように請求項1記載の発明
は、音源信号内のピーク位置を基準とした切り出しと、
前フレームの切り出し位置の音源信号または音声信号と
の相関値を最大にする音源信号または音声信号の位置を
基準とした切り出しを行って、相関値の大きさなどによ
って一方を選択するようにしたので、音源信号の1ピッ
チ周期長内に大きな振幅ピークが複数ある場合や、音源
信号が徐々に変化していく場合でも、隣接フレーム間の
位相の連続性が高い安定した代表音源の切り出しができ
る効果がある。この音声符号化装置の符号化結果を用い
て復号音声信号を作成した場合、その音質が改善される
効果がある。
【0090】請求項2記載の発明は、代表音源の位置と
相関値を最大にする位置のズレを求め、これをそのま
ま、もしくはこれをピッチ周期で割った余りを音源シフ
ト値として算出して、これを符号化するようにしたの
で、隣接フレーム間の位相がほぼ完全に連続した良好な
代表音源の切り出しができる効果がある。この音声符号
化装置の符号化結果を用いて復号音声信号を作成した場
合、その音質が改善される効果がある。
【0091】請求項3記載の発明は、音源シフト値のピ
ッチ周期に対する比率が大きい場合には音源シフト値の
符号化を行い、小さい場合には音源シフト値を符号化せ
ずに、余剰ビットを他のパラメータの符号化に利用する
ようにしたので、大半のフレームを占める音源シフト値
の符号化が不要な場合の他のパラメータの符号化特性が
改善される効果がある。
【0092】請求項4記載の発明は、請求項1ないし請
求項3の第一の切り出し手段が、音源信号内の正および
負のピーク値と、相関値を最大にする位置近傍の正およ
び負のピーク値を探索して、各ピーク値と前フレームの
選択ピーク値の符号に基づいて、各ピーク値の中の1つ
を選択して、このピーク位置に基づいて切り出しを行う
ようにしたので、相関値を最大にする位置近傍のピー
ク、前フレームと同符号のピークを選択し易く調節する
ことができ、最終的に切り出される代表音源の位相の連
続性が更に改善される効果がある。
【0093】請求項5記載の発明は、過去の代表音源符
号と符号化歪を格納しておいて、この過去の符号化歪と
代表音源を符号化したときの符号化歪に基づいて、代表
音源符号と過去の代表音源符号と所定の固定音源符号の
いずれかを選択するようにしたので、代表音源の符号化
ビット数が少なく符号化歪が特に大きいフレームにおい
て、過去の代表音源符号や固定音源符号に置き換えるこ
とが可能となり、この音声符号化装置の符号化結果を用
いて復号音声信号を作成した場合、連続性の悪い音源信
号による異音の発生が少ない復号音声が得られる効果が
ある。
【0094】請求項6記載の発明は、現フレームの音源
信号をいくつかのカテゴリに分類し、カテゴリ毎に用意
した音源符号帳を用いて符号化を行うようにしたので、
代表音源の符号化特性が改善し、この音声符号化装置の
符号化結果を用いて復号音声信号を作成した場合、復号
音声品質が向上する効果がある。
【0095】請求項7記載の発明は、代表音源、スペク
トル形状情報、パワー情報などの各パラメータ、もしく
は各パラメータを前後のフレームの値と補間したものを
用いて、現フレーム内のピッチ周期毎の位置での音源振
幅を算出して、これを代表音源、もしくはこれを補間し
た補間音源に乗じてピッチ周期間隔に並べ立てて有声音
復号音源信号を生成するようにしたので、フレーム間の
代表音源の間に比較的大きな差異がある場合でも、フレ
ーム境界近傍に振幅の不連続の少ない復号音声信号が生
成できる効果がある。
【0096】請求項8記載の発明は、代表音源、スペク
トル形状情報、パワー情報などの各パラメータ、もしく
は各パラメータを前後のフレームの値と補間したものを
用いて、現フレームの始端と終端の位置での音源振幅を
求め、これをピッチ周期毎の位置で補間したものを代表
音源、もしくはこれを補間した補間音源に乗じて順に並
べ立てて有声音復号音源信号を生成するようにしたの
で、請求項7の発明のものに比べて少ない処理量で、同
様にフレーム境界近傍に振幅の不連続の少ない復号音声
信号が生成できる効果がある。
【0097】請求項9、10記載の発明は、音源シフト
値が0でない場合に、代表音源を音源シフト値に基づい
てシフトさせたシフト音源を生成し、これと後続の代表
音源に対する各音源振幅を算出して、シフト音源にその
音源振幅を乗じたものと、後続の各代表音源にその音源
振幅を乗じたものを順に並べ立てて有声音復号音源信号
を生成するようにしたので、請求項2の音声符号化装置
が出力した符号化結果をこの発明の音声復号化装置で復
号化する事により、音源の位相の連続性が改善され、良
好な復号音声信号が得られる効果がある。
【図面の簡単な説明】
【図1】この発明の実施例1の全体構成を示す構成図で
ある。
【図2】この発明の実施例1における代表音源抽出手段
11の詳細構成を示す構成図である。
【図3】この発明の実施例2の全体構成を示す構成図で
ある。
【図4】この発明の実施例3における代表音源抽出手段
11の詳細構成を示す構成図である。
【図5】この発明の実施例5における有声音源符号化手
段10の詳細構成を示す構成図である。
【図6】この発明の実施例5における音源シフト値算出
手段31の動作を説明する説明図である。
【図7】この発明の実施例6における有声音源符号化手
段11の詳細構成を示す構成図である。
【図8】この発明の実施例8における第一の切り出し手
段25の詳細構成を示す構成図である。
【図9】この発明の実施例8における第一の切り出し手
段25の動作を説明する説明図である。
【図10】この発明の実施例9における代表音源の符号
化部分の詳細構成を示す構成図である。
【図11】この発明の実施例9における代表音源の符号
化動作を示す図である。
【図12】この発明の実施例12における有声音源符号
化手段10の詳細構成を示す構成図である。
【図13】この発明の実施例16の全体構成を示す構成
図である。
【図14】この発明の実施例16における有声音源生成
手段107の動作を説明する説明図である。
【図15】この発明の実施例18における有声音源生成
手段107の詳細構成を示す構成図である。
【図16】この発明の実施例19における有声音源生成
手段107の詳細構成を示す構成図である。
【図17】この発明の実施例19における有声音源生成
手段107の動作を説明する説明図である。
【図18】従来の音声符号化装置の構成を示す構成図で
ある。
【図19】従来の音声復号化装置の構成を示す構成図で
ある。
【図20】従来の音声符号化装置における代表音源切り
出し手段203動作を説明する説明図である。
【符号の説明】
1 音声信号 2 スペクトル分析手段 3 パワー情報算出手段 4 有声無声判定手段 5 ピッチ周期抽出手段 6 スペクトル形状情報符号化手段 7 パワー情報符号化手段 8 有声無声情報符号化手段 9 ピッチ周期符号化手段 10 有声音源符号化手段 11 代表音源抽出手段 12 代表音源符号化手段 13 スペクトル形状情報 14 音源信号 15 パワー情報 16 ピッチ周期 17 有声無声情報 18 代表音源 19 パワー情報符号 20 スペクトル形状符号 21 代表音源符号 22 ピッチ周期符号 23 有声無声符号 24 ピーク性検定手段 25 第一の切り出し手段 26 第二の切り出し手段 27 選択手段 28 第一の切り出し音源 29 第二の切り出し音源 30 ピーク位置 31 音源シフト値算出手段 32 音源シフト値符号化手段 33 音源シフト値 34 音源シフト値符号 35 シフト値比較手段 36 モード制御手段 37 比較結果 38 モード信号 39 第一のピーク探索手段 40 第二のピーク探索手段 41 第一のピーク選択手段 42 第二のピーク選択手段 43 ピーク位置基準切り出し手段 44 ピーク値とピーク位置 45 ピーク値とピーク位置 46 選択ピーク値と選択ピーク位置 47 選択ピーク値と選択ピーク位置 48 音源符号選択手段 49 音源更新手段 50 音源記憶手段 51 代表音源符号化結果 52 過去の代表音源符号化結果 53 代表音源符号化結果 54 代表音源符号化結果 55 音源分類手段 56 カテゴリ毎の音源符号帳 57 カテゴリ番号 58 切り換えスイッチ 59 音源符号語 101 スペクトル形状情報復号化手段 102 パワー情報復号化手段 103 代表音源復号化手段 104 ピッチ周期復号化手段 105 有声無声情報復号化手段 106 スペクトル形状情報補間手段 107 有声音源生成手段 108 パワー情報補間手段 109 代表音源補間手段 110 振幅算出手段 111 音源連接手段 112 無声音源生成手段 113 音源切り換え手段 114 合成手段 115 復号音声信号 116 スペクトル形状情報 117 パワー情報 118 代表音源 119 ピッチ周期 120 有声無声情報 121 補間スペクトル形状情報 122 補間パワー情報 123 補間音源 124 ピッチ周期毎の振幅情報 125 有声音復号音源信号 126 無声音復号音源信号 127 復号音源信号 128 第一の振幅算出手段 129 第二の振幅算出手段 130 振幅補間手段 131 第一の補間パワー情報 132 第二の補間パワー情報 133 第一の補間音源 134 第二の補間音源 135 第一の補間スペクトル情報 136 第二の補間スペクトル情報 137 第一の音源振幅 138 第二の音源振幅 139 音源シフト値復号化手段 140 シフト音源生成手段 141 シフト音源振幅算出手段 142 音源シフト値 143 シフト音源 144 シフト音源振幅 201 スペクトル包絡分析手段 202 有声音源符号化手段 203 代表音源切り出し手段 204 スペクトル包絡情報符号化手段 205 スペクトル包絡情報 206 音源信号 207 代表音源 208 スペクトル包絡符号 209 代表音源符号 301 スペクトル包絡情報復号化手段 302 フレーム長音源生成手段 303 スペクトル包絡情報 304 代表音源 305 有声音復号音源信号 306 復号音源信号 307 復号音声信号

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 音声信号を所定の長さのフレーム毎に分
    析して、スペクトル形状情報と音源信号に分離し、音声
    信号が有声音である場合に、ピッチ周期を求め、フレー
    ム内の音源信号から1ピッチ周期長の代表音源を抽出し
    て、この代表音源と、ピッチ周期、スペクトル形状情報
    を含む複数のパラメータを符号化する音声符号化装置に
    おいて、 前記音源信号内のピーク値を探索し、得られたピーク位
    置を基準として第一の切り出し音源を抽出する第一の切
    り出し手段と、 1フレーム前が有声音であった場合に、少なくとも、前
    フレームの代表音源との相関値を最大にする現フレーム
    内の音源信号の位置、および、前フレームの代表音源を
    切り出した位置の音声信号との相関値を最大にする現フ
    レーム内の音声信号の位置のいずれかを算出して、この
    位置を基準として第二の切り出し音源を抽出するととも
    に、その相関値を出力する第二の切り出し手段と、 少なくとも、音源信号を分析して得られる所定の特徴パ
    ラメータと前記相関値との一方を用いて、第一の切り出
    し音源と第二の切り出し音源の何れかを選択して代表音
    源とする選択手段を備えたことを特徴とする音声符号化
    装置。
  2. 【請求項2】 音声信号を所定の長さのフレーム毎に分
    析して、スペクトル形状情報と音源信号に分離し、音声
    信号が有声音である場合に、ピッチ周期を求め、フレー
    ム内の音源信号から1ピッチ周期長の代表音源を抽出し
    て、この代表音源と、ピッチ周期、スペクトル形状情報
    を含む複数のパラメータを符号化する音声符号化装置に
    おいて、 1フレーム前が有声音であった場合に、少なくとも、前
    フレームの代表音源との相関値を最大にする現フレーム
    内の音源信号の位置、および、前フレームの代表音源を
    切り出した位置の音声信号との相関値を最大にする現フ
    レーム内の音声信号の位置のいずれかを算出して、この
    位置を基準として切り出し音源を抽出するとともに、そ
    の相関値を出力する切り出し手段と、 前フレーム代表音源と、前記切り出し手段が出力した切
    り出し音源の位置のズレを求め、これをそのまま、もし
    くはピッチ周期で割った余りを算出して音源シフト値と
    して出力する音源シフト値算出手段と、 これを符号化する音源シフト値符号化手段を備えること
    を特徴とする音声符号化装置。
  3. 【請求項3】 前記音源シフト値算出手段が出力した音
    源シフト値のピッチ周期に対する比率を算出して、この
    比率を所定の値と比較するシフト値比較手段と、 前記シフト値比較手段が前記比率が所定の値以上と判定
    した場合に前記音源シフト値符号化手段を動作させ、所
    定の値未満と判定した場合には前記音源シフト値符号化
    手段を動作させないというモード制御を行うモード制御
    手段を備えるようにした請求項2記載の音声符号化装
    置。
  4. 【請求項4】 前記第一の切り出し手段は、 現フレームの音源信号内の正および負のピーク値を探索
    して、各ピーク値とそのピーク位置を出力する第一のピ
    ーク探索手段と、 前フレームが有声音であった場合に、第二の切り出し手
    段が出力した第二の切り出し音源の所定区間内の正およ
    び負のピーク値を探索し、各ピーク値とそのピーク位置
    を出力する第二のピーク探索手段と、 前フレームが有声音でなかった場合に、第一のピーク探
    索手段が出力したピーク値の中で絶対値が最大のものを
    選択して、そのピーク値とピーク位置を選択ピーク値お
    よび選択ピーク位置として出力する第一のピーク選択手
    段と、 前フレームが有声音であった場合に、前フレームの選択
    ピーク値が正であるか負であるかと、第一のピーク探索
    手段と第二のピーク探索手段が出力した各ピーク値に基
    づいて、この各ピーク値の中からピーク値を1つを選択
    して、このピーク値とピーク位置を選択ピーク値および
    選択ピーク位置として出力する第二のピーク選択手段
    と、 前記選択ピーク位置に基づいて第一の切り出し音源を抽
    出するピーク位置基準切り出し手段を含む請求項1記載
    の音声符号化装置。
  5. 【請求項5】 音声信号を所定の長さのフレーム毎に分
    析して、スペクトル形状情報と音源信号に分離し、音声
    信号が有声音である場合に、ピッチ周期を求め、フレー
    ム内の音源信号から1ピッチ周期長の代表音源を抽出し
    て、この代表音源と、ピッチ周期、スペクトル形状情報
    を含む複数のパラメータを符号化する音声符号化装置に
    おいて、 代表音源を符号化して、得られた代表音源符号と符号化
    時の歪を出力する代表音源符号化手段と、 過去の代表音源符号とその符号化時の歪を格納しておく
    音源記憶手段と、 前記代表音源符号化手段が出力した歪と前記音源記憶手
    段に格納されている歪に基づいて、前記代表音源符号化
    手段が出力した代表音源符号と前記音源記憶手段内に格
    納されている過去の代表音源符号と所定の固定音源符号
    のいずれかを選択して音源符号として出力する音源符号
    選択手段と、 この音源符号選択手段が前記代表音源符号化手段が出力
    した代表音源符号を選択した場合に、その代表音源符号
    と符号化時の歪を音源記憶手段に格納する音源更新手段
    を備えることを特徴とする音声符号化装置。
  6. 【請求項6】 音声信号を所定の長さのフレーム毎に分
    析して、スペクトル形状情報と音源信号に分離し、音声
    信号が有声音である場合に、ピッチ周期を求め、フレー
    ム内の音源信号から1ピッチ周期長の代表音源を抽出し
    て、この代表音源と、ピッチ周期、スペクトル形状情報
    を含む複数のパラメータを符号化する音声符号化装置に
    おいて、 現フレームの音源信号をいくつかのカテゴリに分類する
    音源分類手段と、 各カテゴリの音源信号毎に抽出した典型的な代表音源に
    対して、カテゴリ毎に設定した音源符号語を持つカテゴ
    リ毎の音源符号帳と、 前記音源分類手段が判定したカテゴリに対応した前記音
    源符号帳を用いて符号化を行う代表音源符号化手段を備
    えることを特徴とする音声符号化装置。
  7. 【請求項7】 フレーム毎に符号化された代表音源、ス
    ペクトル形状情報、ピッチ周期、有声無声情報、パワー
    情報を各々復号化し、復号された各パラメータを用いて
    復号音声を生成する音声復号化装置において、 復号された現フレームの有声無声情報が有声である場合
    に、復号された現フレームの各パラメータ、もしくは前
    後のフレームの各パラメータを併せて用いて、現フレー
    ム内のピッチ周期毎の位置での音源振幅を算出する振幅
    算出手段と、 この振幅算出手段が出力した音源振幅を代表音源に、も
    しくはこの代表音源と前後のフレームの代表音源を現フ
    レーム内のピッチ周期毎の位置で補間した補間音源に乗
    じてピッチ周期間隔に並べ立て、これを復号音源信号と
    して出力する音源連接手段と、 前記復号音源信号とスペクトル形状情報、もしくは前記
    スペクトル形状情報と前後のフレームのスペクトル形状
    情報を補間した補間スペクトル形状情報を用いて復号音
    声信号を生成する合成手段を備えることを特徴とする音
    声復号化装置。
  8. 【請求項8】 フレーム毎に符号化された代表音源、ス
    ペクトル形状情報、ピッチ周期、有声無声情報、パワー
    情報を各々復号化し、復号された各パラメータを用いて
    復号音声を生成する音声復号化装置において、 復号された現フレームの有声無声情報が有声である場合
    に、復号された各パラメータ、もしくは前フレームの各
    パラメータを併せて用いて、現フレームの始端の位置で
    の音源振幅を算出し、第一の音源振幅として出力する第
    一の振幅算出手段と、 復号された現フレームの有声無声情報が有声である場合
    に、復号された各パラメータ、もしくは次フレームの各
    パラメータを併せて用いて、現フレームの終端の位置で
    の音源振幅を算出し、第二の音源振幅として出力する第
    二の振幅算出手段と、 前記第一の音源振幅と第二の音源振幅を現フレーム内の
    ピッチ周期毎の位置で補間して補間振幅として出力する
    振幅補間手段と、 代表音源、もしくは前記代表音源と前後のフレームの代
    表音源を現フレーム内のピッチ周期毎の位置で補間した
    補間音源に前記補間振幅を乗じてピッチ周期間隔に並べ
    立て、これを復号音源信号として出力する音源連接手段
    と、 前記復号音源信号とスペクトル形状情報、もしくは前記
    スペクトル形状情報と前後のフレームのスペクトル形状
    情報を補間した補間スペクトル形状情報を用いて復号音
    声信号を生成する合成手段を備えることを特徴とする音
    声復号化装置。
  9. 【請求項9】 符号化された代表音源を復号化する代表
    音源復号化手段と、 符号化されたスペクトル形状情報を復号化するスペクト
    ル形状情報復号化手段と、 符号化された音源シフト値を復号化する音源シフト値復
    号化手段と、 その音源シフト値が0でない場合に前記代表音源復号化
    手段が出力した代表音源をその音源シフト値に基づいて
    シフトさせたシフト音源を生成するシフト音源生成手段
    と、 シフト音源生成手段が出した前記シフト音源と前記代表
    音源復号化手段が出力した代表音源を並べ立て、これを
    復号音源信号として出力する音源連接手段と、 前記復号音源信号と復号されたスペクトル形状情報を用
    いて復号音声信号を生成する合成手段を備えることを特
    徴とする音声復号化装置。
  10. 【請求項10】 前記音声復号化装置は、前記シフト音
    源に対する音源振幅を算出するシフト音源振幅算出手段
    と、 前記代表音源復号化手段が出力した代表音源に対する音
    源振幅を算出する振幅算出手段とを有し、 音源連接手段は、前記シフト音源に前記シフト音源振幅
    算出手段が出力したシフト音源に対する音源振幅を乗じ
    たものを始めに並べ、続くピッチ周期毎の一に前記代表
    音源復号化手段が出力した代表音源に前記振幅算出手段
    が出力した音源振幅を乗じたものを並べ立て、これを復
    号音源信号として出力することを特徴とする請求項9記
    載の音声復号化装置。
JP5049475A 1993-03-10 1993-03-10 音声符号化装置および音声復号化装置 Pending JPH06266395A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5049475A JPH06266395A (ja) 1993-03-10 1993-03-10 音声符号化装置および音声復号化装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5049475A JPH06266395A (ja) 1993-03-10 1993-03-10 音声符号化装置および音声復号化装置

Publications (1)

Publication Number Publication Date
JPH06266395A true JPH06266395A (ja) 1994-09-22

Family

ID=12832186

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5049475A Pending JPH06266395A (ja) 1993-03-10 1993-03-10 音声符号化装置および音声復号化装置

Country Status (1)

Country Link
JP (1) JPH06266395A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003522965A (ja) * 1998-12-21 2003-07-29 クゥアルコム・インコーポレイテッド 周期的スピーチコーディング

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003522965A (ja) * 1998-12-21 2003-07-29 クゥアルコム・インコーポレイテッド 周期的スピーチコーディング
JP4824167B2 (ja) * 1998-12-21 2011-11-30 クゥアルコム・インコーポレイテッド 周期的スピーチコーディング

Similar Documents

Publication Publication Date Title
JP3747492B2 (ja) 音声信号の再生方法及び再生装置
KR100427753B1 (ko) 음성신호재생방법및장치,음성복호화방법및장치,음성합성방법및장치와휴대용무선단말장치
KR100385603B1 (ko) 음성세그먼트작성방법,음성합성방법및그장치
EP0995190B1 (en) Audio coding based on determining a noise contribution from a phase change
US6885986B1 (en) Refinement of pitch detection
JP2005533272A (ja) オーディオコーディング
WO2003010752A1 (en) Speech bandwidth extension apparatus and speech bandwidth extension method
US20040111257A1 (en) Transcoding apparatus and method between CELP-based codecs using bandwidth extension
US6768978B2 (en) Speech coding/decoding method and apparatus
JP3891309B2 (ja) 音声再生速度変換装置
EP0351848B1 (en) Voice synthesizing device
JPH07160298A (ja) マルチパルス符号化方法とその装置並びに分析器及び合成器
US7542905B2 (en) Method for synthesizing a voice waveform which includes compressing voice-element data in a fixed length scheme and expanding compressed voice-element data of voice data sections
JPH06266395A (ja) 音声符号化装置および音声復号化装置
JP3268750B2 (ja) 音声合成方法及びシステム
JP3731575B2 (ja) 符号化装置及び復号装置
JP3410931B2 (ja) 音声符号化方法及び装置
JP3254696B2 (ja) 音声符号化装置、音声復号化装置および音源生成方法
JPWO2003042648A1 (ja) 音声符号化装置、音声復号化装置、音声符号化方法および音声復号化方法
JP2000200097A (ja) 音声符号化装置、音声復号化装置及び音声符号化復号化装置
JPH05265486A (ja) 音声分析合成方法
JPS63127299A (ja) 音声信号符号化・復号化方式およびその装置
JP2000099094A (ja) 時系列信号処理装置
JPH09258796A (ja) 音声合成方法
JP3114799B2 (ja) コード駆動線形予測音声符号化/復号化方式