JPH0573098A - 音声処理装置 - Google Patents

音声処理装置

Info

Publication number
JPH0573098A
JPH0573098A JP3234387A JP23438791A JPH0573098A JP H0573098 A JPH0573098 A JP H0573098A JP 3234387 A JP3234387 A JP 3234387A JP 23438791 A JP23438791 A JP 23438791A JP H0573098 A JPH0573098 A JP H0573098A
Authority
JP
Japan
Prior art keywords
waveform
synthesized
section
voice
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3234387A
Other languages
English (en)
Other versions
JP2712925B2 (ja
Inventor
Toshiyuki Morii
利幸 森井
Kasumi Hori
香澄 堀
Taisuke Watanabe
泰助 渡辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP3234387A priority Critical patent/JP2712925B2/ja
Publication of JPH0573098A publication Critical patent/JPH0573098A/ja
Application granted granted Critical
Publication of JP2712925B2 publication Critical patent/JP2712925B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 ディジタル移動通信の音声コーデックや、各
機器の音声出力のための音声合成器等において、低計算
量・小メモリ容量で良好な音質の合成音を得る。 【構成】 マイクから入力した音声1をA/D変換部2
でディジタル信号に変換し、次にパラメータ抽出部4に
おいて、音声波形と合成波形格納部3に格納されている
これまで合成した合成波形との相関を分析し、相関のあ
る部分波形の位置とそのアンプリチュードのペアを複数
抽出し、合成部5および8においては、上記パラメータ
を用いて、合成波形の部分波形を加算して合成する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、ディジタル移動通信の
音声コーデックや、各機器の音声出力のための音声合成
器に使用される音声符号化及び/又は音声復号化を行な
う音成処理装置に関するものである。
【0002】
【従来の技術】近年、音声符号化技術の技術進歩はめざ
ましく、しかもより高度な技術が要求されるようになっ
て来ている。例えば、ディジタル移動通信の分野におい
ては、自動車電話や携帯電話等の加入者の増加に対応す
るために、より低ビットレートの音声符号化技術が求め
られている。また、様々な機器の音声出力のための音声
符号化においては、より高音質の音声符号化技術が求め
られている。
【0003】この音声符号化法には、波形そのものを符
号化するもの、波形を周波数領域に展開して適応的に符
号化するものや、線形予測分析を行ないLPC系パラメ
ータと駆動音源を低ビットレートで符号化したものまで
様々な形態がある。以下に、いくつか例を挙げて簡単に
説明する。
【0004】合成において最も広く用いられている高音
質音声波形符号化法としては、ADPCMが挙げられ
る。この方法は、1サンプル前の信号値との差分値を信
号値に基づき適応的に圧縮するものである。この方法は
符号化・復号化の計算量が少ないことや、編集が容易で
あることから、ビットレートが24kbps以上の符号
化において広く用いられてきた。しかし、この方式は前
の1サンプルから次を予測するという形態であるために
圧縮の効率が悪く、24kbps程度の時の音質はあま
り良くないという欠点があった。
【0005】また、8kbps〜24kbpsの高能率
音声符号化方式の代表的なものとしては、APCーAB
が挙げられる。これは、音声信号を帯域フィルターに通
して帯域分割し、線形予測分析(短期予測)とピッチに
よる長期予測とを用いて、それぞれの帯域の信号を適応
的に符号化するものである。周波数的情報を符号とする
ので圧縮効率は良く、音質も良好である。しかし、この
方式ではアルゴリズムが複雑で計算量・メモリ容量が大
きいという欠点があった。
【0006】また、5kbps〜16kbpsの中・低
ビットレート音声符号化方式として最近注目されている
のが、CELP(Code Exite Linear Prediction)であ
る。この方法の形態は、駆動音源として適当なモデル波
形が格納されたコードブックを予め用意し、短期予測用
の線形予測係数(LSPやPARCOR等)と長期予測
用の基本周期とを求めた後、コードブック内の音源モデ
ルで駆動し、最も原音声に近い音源モデルのコードを伝
送するというものであり、低ビットレートで良好な音質
の合成音が得られる。しかし、一方で、コードブックを
格納するためにメモリ容量が大きくなり、アルゴリズム
も複雑であるという欠点があった。
【0007】
【発明が解決しようとする課題】上記のように、従来の
方式にはそれぞれ長所および短所がある。ここで、様々
な機器から音声を出力するための音声合成器に使用する
という用途から、従来の符号化法を評価すると、ADP
CMでは音質が悪く、また、APCーABやCELPで
はアルゴリズムが複雑であるし、多くのメモリ容量が必
要でハード規模が大きくなり、高価になってしまう。
【0008】そこで、ADPCMより低ビットレート
で、音質が良く、しかも合成アルゴリズムの簡単な方式
が望まれる。本発明の第1、2、3、7、8および9の
発明は、そのような性能を実現することを目的とする。
【0009】また、そのような性能を実現する音声符号
化法の符号化効率を向上させるためには、合成音の音質
をあまり劣化させずに符号のビット数を節約する工夫が
必要である。本発明の第4、5および6の発明は、その
ようなビット節約を実現することを目的とする。
【0010】また、本発明の第1、2、3、7、8およ
び9の発明や、CELP等のような長期予測を取入れた
音声符号化法の合成音の音質を向上させるためには、音
声の立上がりの音質を向上させる必要があり、本発明の
第10の発明はそのような音質向上を実現するものであ
る。
【0011】
【課題を解決するための手段】上記の課題を解決するた
めに、本発明の第1の発明は、ディジタル音声信号を得
るためのA/D変換器と、以前の符号を復号化して得ら
れる合成波形が格納されている合成波形格納部と、ある
区間のディジタル音声信号に対して、その区間が上記合
成波形格納部に格納されている合成波形のどの部分区間
と相関があるかを分析し、その結果に基づき、その区間
の音声信号から上記合成波形の部分区間の位置Pjとア
ンプリチュードαjとの複数のペアを得るパラメータ抽
出手段と、上記パラメータ抽出手段により得られる位置
jとアンプリチュードαjとを格納するパラメータ格納
部と、上記パラメータ抽出手段により得られた位置Pj
とアンプリチュードαjとを用いて、(数3)に基づ
き、
【0012】
【数3】
【0013】ある区間の合成音yiを上記合成波形格納
部に格納されている合成波形の部分区間
【0014】
【外7】
【0015】を重ねることによって合成し、その合成音
を合成波形格納部に格納する音声合成手段とを少なくと
も有する符号器によって構成される音声処理装置にあ
る。
【0016】また、本発明の第2の発明は、以前の符号
を復号化して得られる合成波形が格納されている合成波
形格納部と、上記合成波形の部分区間の位置Pjとアン
プリチュードαjとが格納されているパラメータ格納部
と、上記パラメータ格納部に格納されている位置Pj
アンプリチュードαjとを用いて、前記(数3)の式に
基づき、ある区間の合成音yiを上記合成波形格納部に
格納されている合成波形の部分区間
【0017】
【外8】
【0018】を重ねることによって合成し、その合成音
を合成波形格納部に格納する音声合成手段と、上記音声
合成手段により得られる合成音を出力するためのD/A
変換部とを少なくとも有する復号器によって構成される
音声処理装置にある。
【0019】また、本発明の第3の発明は、前記構成の
符号器と復号器とを併せ有する音声処理装置にある。
【0020】
【作用】本発明は、上記構成によって、合成器のアルゴ
リズムが、メモリから位置とアンプリチュードのペアを
読み出し、過去の合成音を参照して、その位置の部分合
成音にアンプリチュードを掛けて足し合わせるだけとい
う、極めて単純なものになる。
【0021】しかも、1つ1つのペアはAPCーABや
CELPにおける長期予測に相当し、その予測能力は高
く、良好な音質の合成音が得られる。また、RAMとし
て必要なメモリ領域は過去の合成音が短時間格納されて
いればよいだけなので、極めて少ない。
【0022】
【実施例】
(実施例1)以下、本発明の第1の実施例について、図
面を参照しながら説明する。
【0023】図1において、1は入力音声、2はA/D
変換部、3は合成波形格納部、4はパラメータ抽出部、
5は合成部、6はパラメータ格納部、7は合成波形格納
部、8は合成部、9はパラメータ格納部、10はD/A
変換部、11は出力音声である。
【0024】以下に、本発明の第1の実施例による音声
処理装置の動作を説明する。まず、符号器の機能につい
て図1(a)を用いて説明する。まず、マイクから入力
した入力音声1をA/D変換部2でディジタル信号に変
換する。次にパラメータ抽出部4において、一定時間の
音声信号をRAMに取込み、この音声波形と合成波形格
納部3に格納されている合成波形との相関を分析し、相
関のある合成波形の部分区間の位置とそのアンプリチュ
ードのペアを複数抽出し、これをその分析区間のパラメ
ータとする。そして、アンプリチュードを対数圧縮して
から、これらのパラメータをパラメータ格納部6に格納
する。このパラメータの抽出方法については後で詳細に
説明する。
【0025】さらに、合成部5においては、パラメータ
抽出部4において抽出したパラメータを使ってその区間
の音声信号を合成する。ここで、合成部の計算は(数
3)で行なわれる。
【0026】ここでのαjはアンプリチュード、Pjは過
去の合成波形の部分区間の始端までのポイント数、Jは
予測次数、yiは合成音、
【0027】
【外9】
【0028】は合成波形である。次数3の場合の合成の
イメージを図2に示す。図2(a)は過去の合成音、図
2(b)は上記合成音が部分区間に切り出された状態、
図2(c)は各部分区間におけるアンプリチュード、図
2(d)は加算され合成される過程を示す。
【0029】そして、図1の合成波形格納部3内の合成
波形(図3(a))を過去にシフト(図3(b))し
て、開きエリアに合成した波形を挿入(図3(c))す
る。図3はメモリ内のデータの動きを示す。以上のアル
ゴリズムを繰返して符号化を進めていく。
【0030】次に復号器について説明する。まず、図1
(b)の合成部8において、パラメータ格納部9に格納
された位置とアンプリチュードのパラメータを使って、
その区間の音声信号を合成波形格納部7に格納された合
成音の部分波形を加算することにより合成する。この計
算は、上述した符号器の合成部5と同様に数式3で行な
われる。そして、符号器の合成部5と同様に、合成音を
合成波形格納部7に格納して次の合成に備える。合成部
8で得られた合成音声をD/A変換部10に送り、アナ
ログ音声信号11として出力する。
【0031】ここで、図1の符号器のパラメータ抽出部
4における位置とアンプリチュードのペアの抽出方法に
ついて詳細に説明する。
【0032】抽出は、これまでの合成音の相関のある位
置Pjを探索することにより行なわれる。ここで、いく
つかの位置Pjが決定されれば、その時の最適なアンプ
リチュードの値の組αjは計算により一意に決定するこ
とができるので、これからの説明は、そのアンプリチュ
ードの計算法と、位置の探索法の2つにわけて詳細に説
明する。
【0033】まず、アンプリチュードの計算法について
説明する。次数がJの時、位置Pjが与えられたとする
と、アンプリチュードαjを用いた時の合成信号と原波
形との歪を誤差波形のパワー(2乗和)で表すと(数
4)のようになる。
【0034】
【数4】
【0035】この式で、Eは誤差パワー、xiは原波
形、
【0036】
【外10】
【0037】は過去の合成波形である。そこで、αj
最適値はこの誤差Eを最小にするものと定義する。この
Eをαjが変数の多価関数とすると、この関数は最小値
でそれぞれの変数について極値をとる。そこで、Eをあ
るアンプリチュードαkで微分して−2で割ると(数
5)のようになる。
【0038】
【数5】
【0039】この式の値が全てのαkについて0である
から、この連立方程式を解くことにより、αjを求める
事ができる。解き方の例としては、(数5)の前半の分
散のベクトルと、後半の共分散の行列を求めて、共分散
行列の逆行列をとり、分散ベクトルに乗ずるという手順
が挙げられる。
【0040】次に、位置Pjの探索方法について説明す
る。最適なPjの組を求めるには、全ての位置Pjの組合
せについて上記算出アルゴリズムによるαjの算出を行
ない、(数4)を用いて誤差を評価して最も誤差が小さ
い場合を探すという探索アルゴリズム(全探索)が最善
である。しかし、次数が増えてくるとその計算量は指数
的に増大してしまう。
【0041】例えば、予測次数が3次で探索対象位置が
128通りの場合でも、1分析区間あたり200万回逆
行列を解かなくてはならない。これでは、次数を増やし
た場合には、分析に天文学的時間がかかってしまう。そ
こで、本実施例では、次数を徐々に増やしながら準最適
なPjの組を求めるアルゴリズムを使用する。そのアル
ゴリズムフローを以下に説明する。
【0042】(1)まず、次数1の時の係数を求める。
位置の探索対象区間に対して下記の相関値(数6)の値
を調べ、最も大きい時の位置をP1とする。
【0043】
【数6】
【0044】(2)K=1、Jを予測次数とする。 (3)K=K+1 (4)KがJより大きければ終了。
【0045】(5)M=0(Mは候補位置を格納する仮
のバッファである。) (6)Kー1番目までの位置を固定して、探索対象区間
内の値それぞれがK番目の位置であるときのアンプリチ
ュードの組を求め、その時の誤差を(数4)を用いて計
算する。誤差が最も小さい時の位置をPKとする。算出
は上記アンプリチュードの計算法により行なう。
【0046】(7)位置Pjをそれとペアのアンプリチ
ュードの絶対値が大きい順に並べかえる。位置PKが最
も相関の薄い位置になることに注意されたい。
【0047】(8)PKがMと同じ場合は(3)へ、違
う場合はMにPKを代入して(6)へ戻る。
【0048】上記アルゴリズムは次数Jが増えるに従
い、比例的に増加するが指数的に増加する全探索に比べ
て計算量は少ない。このアルゴリズムのままのシミュレ
ーションでは、ミニスーパーコンピュータクラスのコン
ピュータで、リアルタイムの20倍程度の計算時間が必
要になるが、並列コンピュータ等を利用した高速処理に
よりリアルタイム処理も可能になる。また、位置の探索
範囲を予測により狭める等の探索アルゴリズムの工夫に
よる計算量削減も可能である。
【0049】(実施例2)次に、本発明による音声処理
装置の第2の実施例について説明する。
【0050】本発明の第2の目的は、上述した第1の実
施例の図1(a)のパラメータ抽出部4におけるアンプ
リチュード情報の圧縮である。
【0051】(数3)は通常の線形予測の式と同様であ
るが、通常の線形予測係数は誤差に敏感であり、対数圧
縮等の符号化に適する値ではない。そこで、探索対象始
端位置を1フレーム(1分析区間)前までとすれば、言
換えると、位置情報Pjの値をフレーム長以上に設定す
れば、完全に過去の合成音を加算する合成形態になり、
アンプリチュードは敏感ではなくなり、情報圧縮でき
る。
【0052】例を挙げると、分析区間の長さが40で、
探索対象区間の長さが128の場合には、位置情報Pj
としてとり得る値の範囲を41〜168に設定すれば、
アンプリチュードは対数圧縮(μーlogPCM等のス
カラ情報の圧縮を対数圧縮と呼ぶ)等の手段で圧縮でき
る。
【0053】また、アンプリチュードαjは絶対値の大
きい順にソートしてあるので、一番大きいものは対数圧
縮し、2次以下は前の次数のアンプリチュードとの比を
とれば、更にビット数は節約できる。8kHzサンプリ
ングの音声データを用いた符号化実験により、1次のア
ンプリチュードは8bit対数圧縮で、2次以降は6b
it対数圧縮で十分であることを確認している。なお、
本実施例における対数圧縮は、値の絶対値を求めた後、
下記の(数7)で変換することにより行なう。ここで、
式中のnは出力の符号、xは入力のアンプリチュードの
絶対値、dはxの上限値、a1,a2は対数圧縮の密度を
調節する固定係数、bはnの上限値である。
【0054】
【数7】
【0055】また、アンプリチュードを圧縮すると多少
の歪が生ずる。そこで、低次から順番に圧縮する際、1
つ圧縮するごとにその次数以降のアンプリチュードを求
め直すことによって、情報圧縮に伴う誤差を小さくする
ことができる。この求め直しは、(数3)に基づいて圧
縮後のアンプリチュードを用いて合成音を求めた後、原
音と合成音の誤差を再評価し、上記アンプリチュードの
算出法によってアンプリチュードを求め直すという手順
で行なう。16kbpsの符号化・復号化のシミュレー
ション実験の結果、この求め直しにより、合成音の音質
をセグメンタルS/N比で1dB程度向上させることが
できるという結果を得た。
【0056】(実施例3)次に、本発明による音声処理
装置の第3の実施例について説明する。
【0057】本発明の第3の目的は、上述した第1の実
施例の図1(a)のパラメータ抽出部4における位置情
報の圧縮である。位置情報Pjはすでに整数であり、ス
カラ量としての情報圧縮はできない。しかし、分析フレ
ーム毎に相関がそれほど変らないと仮定すると、低次の
jを固定して探索を行ない、アンプリチュードのソー
ティングの後、何次になったかで符号化することができ
る。従って、ビットレートの節約を行なうことができ
る。
【0058】例を挙げると、予測次数が4次で1つの位
置に7ビットの整数とすると計28ビット(7+7+7
+7)の情報になるが、位置を2つ固定すると、この2
つの位置は2ビット(1〜4次)で符号化でき、計18
ビット(2+2+7+7)になる。これも、8kHzサ
ンプリングの音声データを用いた符号化実験において、
予測次数4、5次の時は1、2個固定して、少なくなっ
たビット数の分だけ分析区間長を短くした方が良い音質
が得られることを確認している。
【0059】(実施例4)次に、本発明による音声処理
装置の第4の実施例について説明する。
【0060】本発明の第1の実施例における符号化法で
は、過去の合成音のパワーが小さく、符号化する原波形
のパワーが大きい場合、アンプリチュードαjの絶対値
が非常に大きくなることがある。一方、アンプリチュー
ドを対数圧縮するためには絶対値の上限を定める必要が
あるが、この上限は小さいほど符号化歪は小さくなる。
すなわち、アンプリチュードの値の幅は小さいほど歪を
小さくできるのである。そこで、本発明の第4の実施例
は、メモリに格納されている過去の合成波形のパワーが
予め設定したパワーを下回る時は、求めたアンプリチュ
ードの値をそのパワー値に応じて小さく設定する事によ
り、アンプリチュードの値の幅を狭め、アンプリチュー
ドを対数圧縮することによる符号化歪を小さくするとい
うものである。
【0061】本発明の第4の実施例の構成は、本発明の
第1の実施例の図1の構成と同じであるが、パラメータ
抽出部4のアルゴリズムのアンプリチュードαjを求め
てから対数圧縮する前に、アンプリチュードの調整処理
が追加される。また、合成部5および8のアルゴリズム
のアンプリチュードの対数復号の後に、アンプリチュー
ドの調整処理が追加される。このアンプリチュードの調
整処理のアルゴリズムを以下に述べる。
【0062】パラメータ抽出部における調整 (1)アンプリチュードαjと位置Pjを求める。
【0063】(2)過去の合成波形のパワー又は平均振
幅を求める。 (3)パワー又は平均振幅が予め設定した値を下回る
時、求めたアンプリチュードの値の絶対値をその値に応
じて小さく設定する。具体的例としては、平均振幅が
1.0を下回る時は、アンプリチュードαjにその平均
振幅を乗ずる等のアルゴリズムが挙げられる。
【0064】(4)対数圧縮を行なう。 合成部における調整 (1)対数復号を行なう。
【0065】(2)過去の合成波形のパワー又は平均振
幅を求める。 (3)パワー又は平均振幅が予め設定した値を下回る
時、求めたアンプリチュードの値の絶対値をその値に応
じて大きく設定する。具体的例としては、平均振幅が
1.0を下回る時は、アンプリチュードαjをその平均
振幅の逆数を乗ずる等のアルゴリズムが挙げられる。
【0066】(4)アンプリチュードαjと位置Pjを用
いて合成を行なう。 このアルゴリズムにより、過去の合成波形のパワーが小
さいことが原因でアンプリチュードが大きくなることが
防止される。従って、アンプリチュードの幅を狭く設定
することができ、対数圧縮による符号化歪を少なくする
ことができる。
【0067】本発明の第1の効果を検証するために、本
発明の第1、第2、第3、および第4の実施例の構成を
用いて、符号化及び復号化のシミュレーション実験を行
なった。以下にその実験条件と結果を示す。
【0068】使用音声は男声1名が発声した「爆音が銀
世界の高原に広がる」である。サンプリング周波数は8
kHzで、12ビットPCMで符号化したものである。
ビットレートを揃えるために、予測次数と位置を固定す
る数を変化させ、ビットレートは分析区間の長さで調節
した。アンプリチュードαjの圧縮は、1次を8ビット
対数圧縮し、2次以降は前次の値の絶対値との比を符号
化するという形態で、すべて6ビットに圧縮した。ま
た、位置Pjは全て7ビット整数(1〜128)であ
り、位置を固定すると次数に応じて2ビット(4次ま
で)、または3ビット(5次〜8次)となる。
【0069】本発明の構成による音声符号化、復号化に
よる16kbpsの合成音の音質をセグメンタルS/N
比として示したものが(表1)である。さまざまな予測
次数、位置固定数、分析区間長の場合を示す。
【0070】
【表1】
【0071】これを見るとわかるように、各次元におい
て、20dB前後の音質が得られている。他の方式と比
較するために、様々な機器の合成音出力のために用いら
れる高ビットレートの音声符号化方式として一般に用い
られているADPCMと比べると、3ビットADPCM
(24kbps)のセグメンタルS/N比が18.3d
Bであり、表1の値より1.7dB程低い。従って、ビ
ットレートが2/3でも1.7dBも良いセグメンタル
S/N比が得られることになる。試聴実験においても、
良好な音質が得られるとの評価を得た。また、本方式に
よる10kbps符号化の結果を(表2)に示す。中ビ
ットレートでも良好な音質が得られることがわかる。
【0072】
【表2】
【0073】また、位置情報Pjとアンプリチュードαj
の値がどのようなものであるかを示すために、次数4、
固定次数2、分析区間長22の場合のPjから分析区間
長22を引いた値とαjの値を(表3)に示す。分析区
間のパワーと比べてみると、音声の立上がりの際に絶対
値の大きなアンプリチュードをとることがわかる。
【0074】
【表3】
【0075】(実施例5)次に本発明による音声処理装
置の第5の実施例について説明する。
【0076】本発明の第1の実施例における符号化法で
は、原音声に無音が続いた場合は過去の合成音が無くな
ってしまうので、予測ができなくなる。そこで本発明の
第5の実施例は、合成波形格納部に、合成音とは別の固
定波形を常備し、αjとPjのペアを求める際には合成波
形と固定波形の両方との相関を分析し、合成波形と固定
波形の双方からパラメータを抽出して符号とすることに
よってノイズ性の音声や、音声の立上がりの音質を向上
させようというものである。
【0077】本発明の第5の実施例の構成は、第1の実
施例の構成(図1)と同じであるが、合成波形格納部3
および7に固定波形が常備されている点と、パラメータ
抽出部4における位置とアンプリチュードを求めるため
の分析法と、合成部5および8における合成法に違いが
ある。
【0078】まず、本実施例の合成法の方から説明す
る。合成波形格納部3および7に常備されている固定波
形をYiとすると、本発明の第1の実施例では(数3)
で合成するが、第5の実施例では下記の(数8)で合成
する。
【0079】
【数8】
【0080】この式のβkは固定波形のアンプリチュー
ドで、
【0081】
【外11】
【0082】は固定波形の部分区間である。従って合成
は、本発明の第1の実施例と同様に過去の合成波形の部
分波形をアンプリチュードαjを掛けて加算した後、固
定波形の部分波形をアンプリチュードβkを掛けてさら
に加算することによって行なう。 次に符号化法につい
て説明する。以下、符号化方法の説明は、固定波形の予
測次数を1次とした場合の下記の(数9)を用いて行な
う。
【0083】
【数9】
【0084】では、本発明の第1の実施例と同様に、ア
ンプリチュードの算出法と位置の探索法に分けて説明す
る。まず、アンプリチュードの算出法について説明す
る。(数9)で合成する場合は、予測誤差パワーは下記
の(数10)のようになる。
【0085】
【数10】
【0086】ここでの
【0087】
【外12】
【0088】は固定波形である。位置qとPjが固定の
時、αjとβの最適値はこの誤差Eを最小にするものと
定義する。この(数10)をαjとβが変数の多価関数
とすると、最小値ではそれぞれの変数について極値にな
っている。そこで、(数10)をアンプリチュードβと
αkで微分して−2で割ると(数11)および(数1
2)のようになる。
【0089】
【数11】
【0090】
【数12】
【0091】これがβと全てのαkについて0であるか
ら、この連立方程式を解くことにより、αjとβを求め
る事ができる。具体的には、(数11)が0からβをα
jの式で表し、これを(数12)を0とする式に代入し
て得られた下記の(数13)に対して、(数13)の右
の部分の分散のベクトルと、左の部分の共分散の行列を
求めて、共分散行列の逆行列をとって、分散ベクトルに
乗じてαjを求め、この値を(数11)に代入してβを
求めるという手順で計算を行なう。
【0092】
【数13】
【0093】次に位置Pjとqの探索法について説明す
る。これは、qの探索範囲の全てに対して、本発明の第
1のPjの探索法と全く同じ探索手順でPjの探索を行な
い、最適なPjを求めた後、(数10)により誤差を評
価し、誤差の最も少ないqを求めるという手順で行な
う。この中で、Pjの算出を、上記本発明の第5の実施
例のアンプリチュードの算出法で行なう。
【0094】この、本発明の第5の実施例の符号化手順
は第1の実施例に比べると複雑になっており、符号化に
必要な時間もかなり多くなる。ただし、多くの計算量が
必要になるのは固定波形と過去の合成波形との相関を計
算するためであり、固定波形をインパルスや三角波に限
定すれば計算量はそれほど大きくならない。
【0095】本発明の第5の実施例の効果を検証するた
めに、本発明の第5の実施例による符号化、復号化のシ
ミュレーション実験を行なった。実験条件は、本発明の
第1の実施例の評価実験と同様に、使用音声は男声1名
が発声した「爆音が銀世界の高原に広がる」である。サ
ンプリング周波数は8kHzで、12ビットPCMで符
号化したものである。符号化の際のビット割当ては本発
明の第1の実施例の評価実験と同じで、新しく増えた変
数位置qは7ビット整数で表し、アンプリチュードβは
8ビットで対数圧縮した。固定波形は様々なものが考え
られるが、本実験ではインパルス1つのみとした。これ
は、(数9)の
【0096】
【外13】
【0097】がクロネッカのデルタ(数14)の場合に
相当する。
【0098】
【数14】
【0099】本発明の第5の実施例の構成による音声符
号化、復号化による16kbpsの合成音の音質をセグ
メンタルS/N比として示したものが下記の(表4)で
ある。(表1)と比べて分析区間長が長くなっている
が、これはqとβの情報でビット数が増えているためで
あることに注意されたい。
【0100】
【表4】
【0101】この結果をみると、セグメンタルS/N比
で(表1)の値を越える音質が得られていることがわか
る、局所的には音声の急な立上がりの部分に音質向上が
認められ、固定波形による予測が効果的であることが検
証できた。また、固定波形はインパルスの他、三角波も
効果があることを実験により確認している。
【0102】(実施例6)次に、本発明による音声処理
装置の第6の実施例について説明する。
【0103】本発明の第1の実施例における符号化法で
は、原音声の無音が続いた場合、過去の合成音が無くな
ってしまうので予測ができない。また、過去の合成波形
が存在したとしても、立上がりの部分と過去の合成波形
には相関が殆ど無いので、符号化歪は大きくなる。ま
た、CELPのような長期予測を用いる符号化において
も、立上がりの部分はコードブックで駆動するだけにな
るので、音質が劣化するという問題点があった。そこで
本発明の第6の実施例では、これから符号化する原音声
に未来の原音声をゲインを下げて足し込むことにより、
音の聞えない領域で相関のある波形を予め合成してお
き、立上がりの音質向上を実現するものである。
【0104】本発明の第6の実施例については、本発明
の第1の実施例に応用した場合を例として説明する。従
って、符号器、復号器の構成は、図1の本発明の第1の
実施例と同じであるが、パラメータ抽出部4における位
置とアンプリチュードを求めるための分析の前に、符号
化する原波形に対して以下の処理が行なわれる。合成音
と原波形の信号値のデータ形式は、いずれも浮動小数点
であることに注意されたい。
【0105】(1)あらかじめ、符号化する原波形の部
分区間よりも何フレームか未来の原波形を読みこんでお
く。ここでは、部分区間の長さを1フレームと呼ぶ。
【0106】(2)符号化する原波形の区間からMフレ
ーム後の部分区間の波形の最大振幅を求め、最大振幅が
1.0未満になるように振幅を縮める。
【0107】(3)(2)で求めた未来の波形を符号化
する原波形の部分区間に加算する。 (4)加算後の分析区間における、信号値0のポイント
数を数え、一定値以上の時は、乱数から作成したノイズ
を加算する。この時の振幅も1.0未満になるようにゲ
インを調節する。
【0108】(5)加算した波形に対し、符号化を行な
う。 このアルゴリズムにより、合成音の整数部分にはでるこ
となく、あらかじめ相関のある波形を合成しておくこと
ができるので、音声の立上がりの音質向上に大きな効果
がある。
【0109】本発明の第1および2の実施例と同様の条
件での音声符号化、復号化シミュレーション実験の結
果、Mの値は2〜4で効果が得られた。また、ノイズは
乱数でもよいが、乱数に低域強調のフィルタ、例えば
(数15)を掛けたものの方が、良好な音質が得られる
ことを確認している。
【0110】
【数15】
【0111】以上で説明したように、本発明の第1の実
施例によれば、合成器のアルゴリズムは、メモリから位
置とアンプリチュードのペアを読み出し、過去の合成音
を参照して、その位置の部分合成音にアンプリチュード
を掛けて足し合わせるだけという、極めて単純なものに
なる。しかも、1つ1つのペアはAPCーABやCEL
Pにおける長期予測に相当し、その予測能力は高く、良
好な音質の合成音が得られる。また、RAMとして必要
なメモリ領域は過去の合成音が短時間格納されていれば
よいだけなので、極めて少ない。従って、本発明の第1
の実施例の構成により、少計算量・小メモリ容量で良好
な音質の合成音が得られる。
【0112】本発明の第2の実施例によれば、パラメー
タを絶対値の大きい順にソーティングするので、2次以
降のパラメータの値の範囲は限られる。よって、音質を
あまり劣化させることなく、低ビットに圧縮することが
できる。また、圧縮による音声の歪を再評価することに
よって、より符号化歪の少ないパラメータを抽出するこ
とができる。
【0113】本発明の第3の実施例によれば、相関の強
い位置の情報を次の分析区間における次数で符号化する
のでビット数を減らすことができる。また、相関の強い
位置は次の分析区間でも相関があるので、このビット節
約にともなう合成音の音質劣化は少ない。
【0114】本発明の第4の実施例によれば、音声のパ
ワーは局所的には大きく変らないので、アンプリチュー
ド情報は過去の合成音からある程度推測できる。従っ
て、求めたアンプリチュード情報の絶対値をそのパワー
値に応じて小さく調整する事により、アンプリチュード
の値の範囲を小さくすることができ、従って、ビット圧
縮にともなう歪を小さくすることができる。
【0115】本発明の第5の実施例によれば、合成器の
アルゴリズムは、メモリから位置とアンプリチュードの
ペアを読み出し、過去の合成波形と固定波形を参照し
て、その位置の部分合成音にアンプリチュードを掛けて
足し合わせるだけという、極めて単純なものになる。し
かも、1つ1つのペアはAPCーABやCELPにおけ
る長期予測に相当し、その予測能力は高く、良好な音質
の合成音が得られる。また、RAMとして必要なメモリ
領域は過去の合成音が短時間格納されていればよいだけ
なので、極めて少ない。
【0116】本発明の第6の実施例によれば、音声のパ
ワーが小さくなった場合は、その区間の原波形は未来の
波形に近くなる。従って、耳には聞えないゲインの低い
領域で未来の波形を予め合成しておくことができる。よ
って、この仕組により、音声の立上がりの部分では、す
でに相関の強い波形が合成波形に存在していることにな
り、予測誤差は小さくなる。
【0117】
【発明の効果】以上のように、本発明による音声処理装
置の請求項1乃至請求項3の発明は、その構成により、
少計算量・小メモリ容量で良好な音質の合成音が得られ
る。
【0118】本発明の請求項4の発明は、パラメータ抽
出手段において、位置Pjの値の範囲は1分析区間より
大きくなるように限定し、求めたアンプリチュードαj
は絶対値の大きい順にソーティングした後、1次の値に
対しては非線形関数を用いて情報圧縮を行ない、2次以
上の値に対しては前の次数の値との比を求めてから非線
形関数を用いて情報圧縮を行ない、また、その情報圧縮
の際には、1つを圧縮する毎に、符号化による誤差を再
評価することによるアンプリチュードの再抽出を行なう
ことで、アンプリチュードの情報を効率良く符号化でき
る。
【0119】本発明の請求項5の発明は、パラメータ抽
出手段において、位置Pjとアンプリチュードαjを求め
る際に、前分析区間において既に求めた位置のうち低次
の幾つかを固定して残りの次数の位置を探索し、固定し
た位置に対してはそれが何次になったかで符号化するこ
と位置の情報を効率良く符号化できる。
【0120】本発明の請求項6の発明は、合成波形格納
部に格納されている以前の合成波形のパワーが予め設定
したパワーを下回る時は、求めたアンプリチュードの値
の絶対値をそのパワー値に応じて小さく調整する事によ
り、アンプリチュードの値の幅を広げないようにでき
る。
【0121】本発明の請求項7乃至請求項9の発明は、
その構成により、立上がりの部分の音質が良い合成音を
得ることができる。
【0122】本発明の請求項10の発明は、符号化を行
なう区間のディジタル音声信号に対して、その区間より
未来の区間の音声波形を振幅を調整して加算し、その和
の波形を符号化することにより、音声の立上がりの部分
の音質向上を実現できる。
【図面の簡単な説明】
【図1】本発明の第1の実施例における音声処理装置の
機能ブロック図
【図2】第1の実施例にけるる音声処理装置の合成部の
動作を説明する波形図
【図3】第1の実施例における音声処理装置の合成波形
格納部に格納されている合成波形の更新方法を説明する
概念図
【符号の説明】
1 入力音声 2 A/D変換部 3 合成波形格納部 4 パラメータ抽出部 5 合成部 6 パラメータ格納部 7 合成波形格納部 8 合成部 9 パラメータ格納部 10 D/A変換部 11 出力音声

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】ディジタル音声信号を得るためのA/D変
    換器と、以前の符号を復号化して得られる合成波形が格
    納されている合成波形格納部と、ある区間のディジタル
    音声信号に対して、その区間が上記合成波形格納部に格
    納されている合成波形のどの部分区間と相関があるかを
    分析し、その結果に基づき、その区間の音声信号から上
    記合成波形の部分区間の位置Pjとアンプリチュードαj
    との複数のペアを得るパラメータ抽出手段と、上記パラ
    メータ抽出手段により得られる位置Pjとアンプリチュ
    ードαjとを格納するパラメータ格納部と、上記パラメ
    ータ抽出手段により得られた位置Pjとアンプリチュー
    ドαjとを用いて、(数1)に基づき、 【数1】 ある区間の合成音yiを上記合成波形格納部に格納され
    ている合成波形の部分区間 【外1】 を重ねることによって合成し、その合成音を合成波形格
    納部に格納する音声合成手段とを少なくとも有する符号
    器を備えたことを特徴とする音声処理装置。
  2. 【請求項2】以前の符号を復号化して得られる合成波形
    が格納されている合成波形格納部と、 上記合成波形の部分区間の位置Pjとアンプリチュード
    αjとが格納されているパラメータ格納部と、上記パラ
    メータ格納部に格納されている位置Pjとアンプリチュ
    ードαjとを用いて、(数1)に基づき、ある区間の合
    成音yiを上記合成波形格納部に格納されている合成波
    形の部分区間 【外2】 を重ねることによって合成し、その合成音を合成波形格
    納部に格納する音声合成手段と、上記音声合成手段によ
    り得られる合成音を出力するためのD/A変換部とを少
    なくとも有する復号器を備えたことを特徴とする音声処
    理装置。
  3. 【請求項3】請求項1記載の符号器と請求項2記載の複
    合器を備えた音声処理装置。
  4. 【請求項4】ある時間長のディジタル音声信号を分析し
    て、幾つかのパラメータを抽出するパラメータ抽出手段
    と、上記パラメータ抽出手段で求めたパラメータを絶対
    値の大きい順にソーティングし、1番目の値に対しては
    非線形関数を用いて情報圧縮を行ない、2番目以降の値
    に対しては前の値との比を非線形関数を用いて情報圧縮
    し、また、その情報圧縮の際には、1つの値を圧縮する
    毎に、その歪んだパラメータを復号化に用いた場合の誤
    差を再評価することによるパラメータの再抽出を行なう
    ことを特徴とする請求項1乃至3のいずれかに記載の音
    声処理装置。
  5. 【請求項5】ある時間長のディジタル音声信号と過去の
    音声波形又は合成波形との相関を分析して、相関のある
    過去の波形の位置情報を複数個求めるパラメータ抽出手
    段と、上記パラメータ抽出手段における位置情報抽出の
    際に、前分析区間において既に求めた位置情報のうちの
    幾つかをそのまま採用し、残りの個数の位置情報を求
    め、求めた位置情報はそのままを符号とし、前分析区間
    から採用した位置情報はそれが何番目になったかを符号
    とすることを特徴とする請求項1乃至3のいずれかに記
    載の音声処理装置。
  6. 【請求項6】ある時間長のディジタル音声信号を分析し
    て、パワー情報をパラメータとして抽出するパラメータ
    抽出手段と、パラメータ抽出手段におけるパワー情報抽
    出の際に、以前の合成波形のパワーが予め設定したパワ
    ーを下回る時は、求めたアンプリチュードの値の絶対値
    をそのパワー値に応じて小さく調整する事により、パワ
    ー情報の値の幅を広げないことを特徴とする請求項1乃
    至3のいずれかに記載の音声処理装置。
  7. 【請求項7】ディジタル音声信号を得るためのA/D変
    換器と、以前の符号を復号化して得られる合成波形と固
    定波形が格納されている合成波形格納部と、ある区間の
    ディジタル音声信号に対して、その区間が上記合成波形
    格納部に格納されている合成波形と固定波形のどの部分
    区間と相関があるかを分析し、その結果に基づき、その
    区間の音声信号から上記合成波形の部分区間の位置Pj
    とアンプリチュードαjとの複数のペアと、上記固定波
    形の部分区間の位置Pkとアンプリチュードβkとの複数
    のペアとを得るパラメータ抽出手段と、パラメータ抽出
    手段により得られる位置PjおよびPkとアンプリチュー
    ドαjおよびβkとを格納するパラメータ格納部と、パラ
    メータ抽出手段により得られる位置PjおよびPkとアン
    プリチュードαjおよびβkとを用いて、(数2)に基づ
    き、 【数2】 ある区間の合成音yiを上記合成波形格納部に格納され
    た合成波形の部分区間 【外3】 と固定波形の部分区間 【外4】 とを重ねることによって合成し、その合成音を合成波形
    格納部に格納する音声合成手段とを少なくとも有する符
    号器を備えたことを特徴とする音声処理装置。
  8. 【請求項8】以前の符号を復号化して得られる合成波形
    と固定波形が格納されている合成波形格納部と、位置P
    jおよびPkと、アンプリチュードαjおよびβkとが格納
    されているパラメータ格納部と、上記パラメータ格納部
    に格納されている位置PjおよびPkとアンプリチュード
    αjおよびβkとを用いて、(数2)に基づき、ある区間
    の合成音yiを上記合成波形格納部に格納された合成波
    形の部分区間 【外5】 と固定波形の部分区間 【外6】 を重ねることによって合成し、その合成音を合成波形格
    納部に格納する音声合成手段と、音声合成手段により得
    られる合成音を出力するためのD/A変換部とを少なく
    とも有する復号器を備えたことを特徴とする音声処理装
    置。
  9. 【請求項9】請求項7記載の符号器と請求項8記載の複
    合器を備えた音声処理装置。
  10. 【請求項10】ディジタル音声信号を得るためのA/D
    変換器と、以前の符号を復号化して得られる合成波形が
    格納されている合成波形格納部と、ある区間のディジタ
    ル音声信号に対して、その区間が上記合成波形格納部に
    格納されている合成波形のどの部分区間と相関があるか
    の分析を行ない、その結果に基づき音声の符号化を行な
    う符号化手段と、符号化を行なう区間のディジタル音声
    信号に対して、その区間より未来の区間の音声波形をレ
    ベルを調整して加算し、その和の波形に対して符号化を
    行なうことを特徴とする請求項1、2、3、7、8、9
    のいずれかに記載の音声処理装置。
JP3234387A 1991-09-13 1991-09-13 音声処理装置 Expired - Lifetime JP2712925B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3234387A JP2712925B2 (ja) 1991-09-13 1991-09-13 音声処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3234387A JP2712925B2 (ja) 1991-09-13 1991-09-13 音声処理装置

Publications (2)

Publication Number Publication Date
JPH0573098A true JPH0573098A (ja) 1993-03-26
JP2712925B2 JP2712925B2 (ja) 1998-02-16

Family

ID=16970205

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3234387A Expired - Lifetime JP2712925B2 (ja) 1991-09-13 1991-09-13 音声処理装置

Country Status (1)

Country Link
JP (1) JP2712925B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002049001A1 (fr) * 2000-12-14 2002-06-20 Sony Corporation Dispositif d'extraction d'informations
JP2007279385A (ja) * 2006-04-06 2007-10-25 Nippon Telegr & Teleph Corp <Ntt> マルチチャネル符号化方法、その装置、そのプログラム及び記録媒体
JP2011128310A (ja) * 2009-12-16 2011-06-30 Casio Computer Co Ltd 音声符号化装置、音声符号化方法及び音声符号化プログラム、並びに音声復号装置、音声復号方法及び音声復号プログラム
JP2011128309A (ja) * 2009-12-16 2011-06-30 Casio Computer Co Ltd 音声符号化装置、音声符号化方法及び音声符号化プログラム、並びに音声復号装置、音声復号方法及び音声復号プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002049001A1 (fr) * 2000-12-14 2002-06-20 Sony Corporation Dispositif d'extraction d'informations
US7366661B2 (en) 2000-12-14 2008-04-29 Sony Corporation Information extracting device
JP2007279385A (ja) * 2006-04-06 2007-10-25 Nippon Telegr & Teleph Corp <Ntt> マルチチャネル符号化方法、その装置、そのプログラム及び記録媒体
JP2011128310A (ja) * 2009-12-16 2011-06-30 Casio Computer Co Ltd 音声符号化装置、音声符号化方法及び音声符号化プログラム、並びに音声復号装置、音声復号方法及び音声復号プログラム
JP2011128309A (ja) * 2009-12-16 2011-06-30 Casio Computer Co Ltd 音声符号化装置、音声符号化方法及び音声符号化プログラム、並びに音声復号装置、音声復号方法及び音声復号プログラム

Also Published As

Publication number Publication date
JP2712925B2 (ja) 1998-02-16

Similar Documents

Publication Publication Date Title
JP3881943B2 (ja) 音響符号化装置及び音響符号化方法
EP1619664B1 (en) Speech coding apparatus, speech decoding apparatus and methods thereof
KR100566713B1 (ko) 음향 파라미터 부호화, 복호화 방법, 장치 및 프로그램, 음성 부호화, 복호화 방법, 장치 및 프로그램
US7599833B2 (en) Apparatus and method for coding residual signals of audio signals into a frequency domain and apparatus and method for decoding the same
JPH09127991A (ja) 音声符号化方法及び装置、音声復号化方法及び装置
JPH09127990A (ja) 音声符号化方法及び装置
JPH08263099A (ja) 符号化装置
JPH09190196A (ja) 音声信号の再生方法及び装置、並びに音声復号化方法及び装置、並びに音声合成方法及び装置、並びに携帯無線端末装置
JPH11249699A (ja) 音声パラメータの合同量子化
KR20070085532A (ko) 스테레오 부호화 장치, 스테레오 복호 장치 및 그 방법
US20050187762A1 (en) Speech decoder, speech decoding method, program and storage media
JP2006171751A (ja) 音声符号化装置及び方法
JPH1130998A (ja) オーディオ信号符号化装置,及び復号化装置、オーディオ信号符号化・復号化方法
JP3472279B2 (ja) 音声符号化パラメータ符号化方法及び装置
JP3237178B2 (ja) 符号化方法及び復号化方法
JPH0573098A (ja) 音声処理装置
US5799271A (en) Method for reducing pitch search time for vocoder
JP4578145B2 (ja) 音声符号化装置、音声復号化装置及びこれらの方法
JPH07225599A (ja) 音声の符号化方法
JP2796408B2 (ja) 音声情報圧縮装置
JP4373693B2 (ja) 音響信号の階層符号化方法および階層復号化方法
JP3916934B2 (ja) 音響パラメータ符号化、復号化方法、装置及びプログラム、音響信号符号化、復号化方法、装置及びプログラム、音響信号送信装置、音響信号受信装置
JP3731575B2 (ja) 符号化装置及び復号装置
JP4287840B2 (ja) 符号化装置
JP2002149198A (ja) 音声符号化装置及び音声復号化装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081031

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091031

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091031

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101031

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111031

Year of fee payment: 14

EXPY Cancellation because of completion of term