JPH09127992A - 発声音データの復号化装置 - Google Patents

発声音データの復号化装置

Info

Publication number
JPH09127992A
JPH09127992A JP7301908A JP30190895A JPH09127992A JP H09127992 A JPH09127992 A JP H09127992A JP 7301908 A JP7301908 A JP 7301908A JP 30190895 A JP30190895 A JP 30190895A JP H09127992 A JPH09127992 A JP H09127992A
Authority
JP
Japan
Prior art keywords
data
sound
coefficient
filter
vocal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7301908A
Other languages
English (en)
Inventor
Masahiro Kawachi
正洋 河内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Victor Company of Japan Ltd
Original Assignee
Victor Company of Japan Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Victor Company of Japan Ltd filed Critical Victor Company of Japan Ltd
Priority to JP7301908A priority Critical patent/JPH09127992A/ja
Publication of JPH09127992A publication Critical patent/JPH09127992A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【課題】 発声音を音要素に分解して圧縮した符号化デ
ータを復号・再生する復号化装置において、単一発声音
であるにも関わらず複数話者の発声音のように音声再生
される不具合を解消する。 【解決手段】 メモリ4の変換用係数テーブルに各音要
素毎の信号特徴データを与える第1係数データ群と声道
伝達特性を係数化した第2係数データ群(PARCOR
係数等)を構成しておき、変換データ作成器5が音要素量
データと前記第1係数データ群から合成音データを作成
し、また音要素量データと前記第2係数データ群からフ
ィルタ係数データを作成する。駆動音源部6はピッチデ
ータと合成音データから駆動音信号を生成させてフィル
タ部7へ出力するが、フィルタ部7には前記フィルタ係数
データがセットされており、音要素間の過渡的な状態を
滑らかに変化する発声音信号に調整して出力させる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は発声音データの復号
化装置に係り、TV会議やAV(Audio-Visual)データ通
信等の分野に適用され、人間の発声音を音要素に分析し
て高能率なデータ圧縮を行う符号化装置に対応して、そ
の符号化データを自然な発声音として復号・再生するた
めの復号化装置に関する。
【0002】
【従来の技術】最近、オーディオ機器においては音声デ
ータをディジタル化して処理する技術の開発が目覚まし
く、特にマルチメディア機器には映像データと音声デー
タのディジタル処理とそのデータ伝送技術が不可欠な要
素になっている。従来から、音声データの伝送に関して
はディジタル通信回線を用いた電話通信があるが、通常
の通話ではその情報伝送に必要とされるデータ量が少な
いために現状のディジタル通信回線で十分であっても、
ボーカルを含む音楽や映画の音声のように高い音質を要
求される音声データを伝送しなければならないような場
合には回線の容量が足りず、蓄積交換方式等のようにリ
アルタイム性を犠牲にした伝送方式を採用せざるを得な
い。
【0003】そして、従来の音声データの高能率符号化
技術としては、主に次のような方式が採用されている
が、何れも高音質を保持しながら高い圧縮率を得るとい
う条件を満たすには十分な符号化方法とはいえないのが
現状である。 直交変換を行った結果を符号化する方法;時系列的
音声信号に対してFFT(高速フーリエ変換)やDCT
(離散コサイン変換)のような直交変換を施した場合にそ
の逆変換によって元の信号を復元できることを利用し、
音声信号を周波数成分に変換した上で符号を割り当てて
符号化する方法であるが、そのままでは情報量を減少さ
せることができない。そこで、実際の音声信号において
は高域成分が低域成分と比較して少ないことや、人間の
聴覚特性等を考慮した符号量の割当てを行うことによっ
て、聴覚的な音質を保持しながら符号化データ量の減少
を実現している。 音声の分析結果を符号化する方法;過去のいくつか
のサンプリング値から現在のサンプリング値を予測推定
し、真の値と予測値との差(予測誤差)を符号化する予測
符号化方法や、人間の発声メカニズムに着目し、モデル
化した声帯、咽喉、鼻腔の形状等を発声音の分析ファク
ターとして符号化する方法があり、音声情報の高能率な
圧縮を可能にする。しかし、それらの方法は、復号化し
て再生した場合の音質の劣化が大きく、主に音質が重要
視されない分野、即ち、簡易な音声メッセージ伝送や電
話の留守番録音等にしか適用できない。
【0004】一般に、高い再生音質を確保するには、C
D(Compact Disc)やDAT(DigitalAudio Tape)に見ら
れるように、約1.4Mbpsの情報伝送速度が必要とされ
ている。前記の各方法は、何れも基本的には信号の波形
形状やパワースペクトルを再現可能なように信号のもつ
性質を利用して符号化を行うことを基本としており、人
間の聴覚特性に基づいて周波数成分毎に符号量の割当て
を変化させたり、聴覚のマスキング効果を利用して情報
量を減らすことで高能率な符号化を実現させているが、
高々数K〜数十Kbps程度の低伝送レートしか有してい
ない電話回線で音声情報を高い音質を保持しながらリア
ルタイムに伝送するには未だ大きな隔たりがある。
【0005】そこで、本願の発明者は、人間の発声音を
音要素レベルで分析し、その分析結果を符号化する符号
化装置とそれに対応した復号化装置の提案を行った(平
成7年9月26日提出の特許願;「発声音データの符号化装置
及び復号化装置」)。その提案では、次のような基本的な
考え方に基づいて符号化装置と復号化装置を構成させて
いる。先ず、人間の聴覚は各周波数成分毎に音を認識し
ているわけではなく、何らかの規則性をもって集合して
いる周波数成分のまとまり具合を「音」として聴取してい
る。即ち、「人間の発声音」や「楽器の音」や「鳥の鳴き声」
や「水の音」等を分析してゆくと、それ以上分解すれば一
つの「音」として認識できなくなるような単位(以下、「音
要素」という)まで分解できるが、「人の話声」についてみ
れば/a/や/i/等の母音又は/k/や/t/等の子音がそれに相
当し、人間の聴覚はその音要素単位で「音」を聞き分けて
いる。更に具体的には、各音要素は前記の「周波数成分
のまとまり具合」である「パワースペクトルの分布と時間
軸上での変化の具合」にそれぞれ固有のパターンを生じ
させ、人間の聴覚がその固有パターンの変化情報に基づ
いて「音」を認識している。
【0006】その場合、例えば、人間が発話した音声の
/a/であっても発声者が異なるとパワースペクトルの分
布と時間軸上での変化は異なるが、少なくとも、聴く者
においては、音質の相違はともかく、/a/のカテゴリー
に属する音として聞き分けることができる。尚、音要素
は一般に母音と子音に大別され、学説によって相違はあ
るが、日本語におけるその数は母音で5個、子音で20
個乃至40個程度とされている。
【0007】このように、音要素に着目した考察からみ
ると、従来のように周波数毎に符号量の割当てを行った
り聴覚のマスキング効果を利用して符号化を行うより
も、音要素に着目した符号化方式を組み込んで人間が音
声を聴取する際に必要な情報のみを抽出すれば、更に高
能率な符号化を実現できる余地がある。特に、人間の発
声音については、既に音声学や音声認識の分野等におい
て音要素を基準にした情報解析の研究が行われており、
それらの研究成果を有効に利用することができる。
【0008】前記提案に係る符号化装置と復号化装置は
図7及び図8に示すような機能ブロックの構成とされて
いる。先ず、図7の符号化装置51では、発声音信号をサ
ンプリング器52で標本化し、例えば図11に示すような
ディジタル化された時系列発声音データを得ると共に、
そのデータを一定個数毎に区切ってFFT(高速フーリ
エ変換)器53へ入力する。FFT器53では、入力データ
に対して逐次直交変換を施し、その変換処理によってパ
ワースペクトルデータをサブバンド化器54ヘ出力する。
サブバンド化器54では、人間の聴覚の周波数特性に適合
するようにパワースペクトルデータをサブバンド分割
し、そのサブバンド化されたデータを音要素抽出ニュー
ラルネットワーク(以下、「音要素抽出NN」という)55へ
転送する。
【0009】ここに、サブバンド化器54では、人間の聴
覚における周波数の解像度が高帯域で小さくなることに
基づいて周波数が高くなるにつれて広い帯域になる対数
比の帯域区分でパワースペクトルデータをブロック化
し、各ブロック毎にパワーの平均値を求めて対数化する
という処理を行う。尚、FFT処理の結果は各周波数に
相当する成分が複素数で与えられるため、絶対値につい
ての平均値を求めて対数化することになる。例えば、あ
る発声音についてサブバンド化したパワースペクトルデ
ータをみるとは図12のようになる。但し、同図におい
ては、横軸方向に時間軸が、奥行き方向に関して奥の方
から手前に向けて周波数軸が、縦軸方向に対数化したパ
ワー値がとられており、パワーに関しては20dBに相当
するレベルを閾値としてカットオフされている。また、
パワー値は、パワースペクトルを上記のブロック化方式
で周波数方向に17分割し、その各サブバンド毎に求め
られた平均値を対数化した値として求められている。
【0010】次に、音要素抽出NN55には、前記のサブ
バンド化器54でのサブバンド化方式に対応した各音要素
毎の特徴に係る基準データパターンが予め学習せしめら
れており、サブバンド化器54から転送されるサブバンド
化されたパワースペクトルデータをその基準データパタ
ーンと比較して相関データを出力させる。その動作状態
は図9及び図10に示され、入力層にブロックデータが
入力されるとそのデータの音要素毎の特徴に基づいて出
力層のニューロンが反応するようになっており、入力さ
れた一定量のパワースペクトルデータに対応した出力ニ
ューロンの変化によって音要素成分が如何なる態様で含
まれているかを抽出する。即ち、単一の音要素に係るパ
ワースペクトルデータである場合には、出力層のその音
要素のパターンに対応した出力ニューロンのみが「1」と
なり、他の出力ニューロンは「0」になるが、パワースペ
クトルデータが学習データと近似したパターンである場
合には、相当するカテゴリを示す出力ニューロンの活性
値が「1」に近い値をとり、それ以外の出力ニューロンは
「0」に近い値を示す。また、複数の発声音が合成された
パワースペクトルデータである場合には、各発声音の音
要素成分の強弱に基づいて対応する各出力ニューロンが
0と1の間の活性値をとり、出力層の各出力ニューロン
の活性状態から如何なる音要素成分がどのような割合で
含まれているかを学習データとの相関情報として出力さ
せる。尚、音声認識の分野で用いられているパターンマ
ッチングでは、入力されたデータが各音要素の基準デー
タに対してどの程度の差があるかを判定して最も差が小
さいものを選択する方式を採用するが、この音要素抽出
N・N55では確定的な認識までは行わずに、基準データ
との類似度情報を各出力ニューロンの活性状態で与える
ようにしている。
【0011】ところで、実際の発声音を再生する場合に
は前記の情報だけでは足りず、パワースペクトルに係る
周波数方向のピッチデータとパワーデータが必要であ
る。ピッチデータはFFT処理した後のパワースペクト
ルデータの分布状態(又はそのサブバンド化後のデータ)
から求めることができるが、最も簡単な抽出法はFFT
処理結果における最大の絶対値を持つ要素を検出する方
法である。また、パワーデータはサンプリング器52のサ
ンプリングデータ又はFFT処理結果から各成分の絶対
値の2乗和として求めることができる。そこで、この符
号化装置51では、絶対値演算回路や積分器や加算器や比
較器で構成したピッチ・パワー抽出器56を設け、FFT
器53の処理結果を用いてピッチデータとパワーデータを
抽出するようになっている。
【0012】以上の結果、音要素抽出N・N55から発声
音データの音要素成分に係る情報が各出力ニューロンの
活性状態(g1,g2,・・・,gN)として求まり、ピッチ・パワ
ー抽出器56からピッチデータ(pi)とパワーデータ(po)
が求まるが、それらのデータは符号作成器57へ入力され
る。そして、符号作成器57では、音要素抽出N・N55の
各出力ニューロンの活性状態から得られる所定ビット数
のデータとピッチ・パワー抽出器56の出力を読み込み、
それらのデータを所定の順番に並べたデータストリーム
[g1,g2,・・・,gN,pi,po]を構成して伝送路側へ出力
させる。従って、その単位ストリームのデータはFFT
器53が1回当たりに処理したデータに対応した時間帯に
おける発声音の状態を示すことになる。そして、データ
の圧縮率を見積もると、音要素抽出N・N5に入力するデ
ータの時間方向のシフト量によって異なるが約1/19
〜1/150程度の圧縮が可能になり、また音要素抽出
N・N55の出力層の各ニューロンから得られる出力デー
タが時系列的に相関性の強いものであることを利用し
て、差分データを用いたり、ハフマン符号化等の高能率
符号化方法を適用すればその圧縮率を更に向上させるこ
とができる。
【0013】一方、復号化装置61では、伝送路を介して
前記の符号化装置51から得られた符号化発声音データを
符号解読器62で解読すると共に、予め与えられている関
数(q1,q2,・・・,qN)=Df(g1,g2,・・・,gN,po)によ
って各データストリームが与える一定時間内の音要素成
分量(q1,q2,・・・,qN)を演算する。そして、各音要素
成分量データ(q1,q2,・・・,qN)とピッチデータpiを各
音要素毎に設けられた音要素信号生成器63-1〜Nへ個別
に転送し、各音要素信号生成器63-1〜Nがその転送デー
タに基づいてそれぞれ音要素信号qs1,qs2,・・・,qsNを
発声させる。ここに、各音要素信号生成器63-jは、音要
素の成分量qjとピッチデータpiを与えるとj番に設定
されている音要素に相当する音要素信号qsjを生成させ
る回路で構成されている。次に、この復号化装置61では
各音要素信号生成器63-1〜Nの出力を混合器64で混合し
て出力させる。即ち、各音要素信号qs1,qs2,・・・・,qs
Nが混合器64で合成されることにより元の発声音信号が
再生され、増幅器65で増幅されてスピーカ(図示せず)で
音声再生される。
【0014】以上の復号・再生処理を更に具体的にみる
と、先ず、ある一定時間の各音要素成分量データ(q1,
q2,・・・,qN)は例えば図13で示すような音要素毎のデ
ータになる。但し、この例は一定時間内の発声音が音要
素/e/に僅かな音要素/o/が混在しているような状態で
あった場合に相当する。また、そのようなデータを音要
素毎に時系列的に配列した結果として図14に示すよう
なデータが得られる。そして、各音要素番号に対応した
音要素信号生成器63-1〜Nがピッチデータpiを用いなが
ら図14で示される音要素量の時間軸方向の変化に伴っ
てそれぞれ音要素信号を再生出力し、その各信号が混合
器64で合成されて元の発声音に係る再生信号が得られる
ことになる。
【0015】
【発明が解決しようとする課題】ところで、前記の符号
化・復号化処理によると、元の発声音の発話者が一人で
あるにも関わらず、その発声音の音要素が変化する過程
における再生音が恰も複数の発話者が話しているように
聞こえるという傾向が生じる。具体的には、例えば、
「アイ」と発声した場合に、/a/から/i/へ変化する過程
で、/a/のようでもあり/i/のようでもある過渡的な変
化音ではなく、/a/と/i/の両音が同時に聞こえ、複数
の発話者がハモリながら話しているような状態になる。
【0016】その現象(以下、「ハモリ現象」という)は、
前記の符号化・復号化処理が、音要素単位で発声音の特
徴を抽出した後に各音要素データを分離して扱い、最終
的に音要素毎の発声音信号を合成する方式を採用してい
るからであり、図14に基づけば、音要素番号方向に音
要素量が重複して表れている時間帯でハモリ現象を生じ
ることになる。
【0017】そして、そのようなハモリ現象の発生状態
は当然に元の発声音の忠実な再生とはいえず、その音質
の劣化によって非常に聴き難いものとなる。そこで、本
発明は、上記のような音要素成分を抽出する符号化方式
を採用した場合において、ハモリ現象を生じない音声再
生が可能な発声音の復号化装置を提供することを目的と
して創作された。
【0018】
【課題を解決するための手段】本発明は、ディジタル化
された時系列発声音データを各音要素データとピッチデ
ータに分解して符号化されたデータを入力データとし、
その入力データを復号して発声音信号を再生する発声音
データの復号化装置において、発声音に係る各音要素毎
の信号特徴データを与える第1係数データ群と各音要素
毎の声道伝達特性を係数化した第2係数データ群を記憶
した記憶手段と、前記入力データに含まれる各音要素の
成分量データに前記記憶手段の第1係数データ群の各係
数データを対応する音要素毎に乗算してその演算結果を
合成した合成音データを作成し、また前記の各音要素の
成分量データに前記記憶手段の第2係数データ群を乗算
して音要素毎のフィルタ係数データを作成する変換デー
タ作成手段と、前記変換データ作成手段が作成した合成
音データとそのデータに対応したピッチデータを用いて
駆動音信号を生成させる駆動音源部と、前記変換データ
作成手段が作成した各フィルタ係数データを設定して前
記駆動音源部が生成した駆動音信号の通過帯域を調整す
るフィルタ部を具備したことを特徴とする発声音データ
の復号化装置に係る。
【0019】入力データは時系列発声音データを各音要
素データとピッチデータに分解して符号化したものであ
り、その符号化が可逆符号化方式であれば前記の各デー
タはそのまま時系列的に再現できる。変換データ作成手
段は、入力データに含まれている各音要素の成分量デー
タに対して予め記憶手段に記憶せしめた第1係数データ
群と第2係数データ群を適用して合成音データとフィル
タ係数データを作成する。
【0020】その場合、第1係数データ群は発声音に係
る各音要素毎の信号特徴データであり、変換データ作成
手段がそれらの信号特徴データに各音要素の成分量デー
タを対応乗算して合成するため、合成音データは入力デ
ータの処理単位に対応した一定時間帯の発声音に係るも
のとなる。そして、駆動音源部ではその合成音データと
それに対応したピッチデータを用いて駆動音信号を生成
させる。
【0021】ところで、前記の合成音データは分解され
ていた各音要素成分を単純に合成したものであり、基本
的には図8の復号化装置による処理と同様である。従っ
て、その合成音データで駆動音源部を動作させて、その
駆動音信号をそのまま再生した場合にはやはりハモリ現
象が発生する。
【0022】その問題に対して、本発明では、変換デー
タ作成手段が各音要素の成分量データに各音要素毎の声
道伝達特性を係数化したものである第2係数データを乗
算して音要素毎のフィルタ係数データを求め、それをフ
ィルタ部に設定するようにしている。前記の駆動音信号
はフィルタ部を通過して出力されるが、フィルタ係数デ
ータが設定されたフィルタ部は各音要素の成分量に対応
した声道伝達特性による濾波機能を発揮する。即ち、駆
動音信号がフィルタ部を通過すると、フィルタ係数デー
タで与えられる音要素毎の声道伝達特性によって滑らか
に補間され、各音要素間の過渡的な変化音を自然な信号
変化状態で表現してハモリ現象の発生を防止することが
できる。
【0023】
【発明の実施の形態】以下、本発明の「発声音データの
復号化装置」の実施形態を図1から図6を用いて詳細に
説明する。先ず、図1は復号化装置の機能ブロック回路
図を示す。同図において、1は復号化装置であり、2は伝
送路を介して入力される可逆符号化方式の圧縮データの
ビットストリームを伸長する可逆符号伸長器、3は伸長
されたデータを解読して音要素量データとピッチデータ
に分離したビット列に展開するビット復号化器、4は変
換用係数テーブルを格納したメモリ、5はメモリ4の変換
用係数テーブルを用いてビット復号化器3から入力され
る音要素量データから合成音データと各音要素毎のフィ
ルタ係数データを求めると共にピッチデータをスループ
ットさせる変換データ作成器、6は変換データ作成器5か
ら入力されるピッチデータと合成音データを用いて駆動
音信号を生成させる駆動音源部、7は変換データ作成器5
から入力されるフィルタ係数データを設定して駆動音源
部6から入力される駆動音信号を濾波するフィルタ部、8
はフィルタ部7から出力される発声音信号を増幅する増
幅器、9は発声音信号を再生するスピーカを示す。
【0024】図7及び図8に示した符号化・復号化方式
では、符号化装置51側が音要素成分データ(g1,g2,・・
・,gN)とピッチデータpiとパワーデータpoを符号化し
て伝送路へ出力し、復号化装置61側の符号化解読器62で
音要素成分データ(g1,g2,・・・,gN)とパワーデータpo
から音要素量データ(q1,q2,・・・,qN)を作成するよう
にしているが、本実施形態の復号化装置1では音要素量
データ(q1,q2,・・・,qN)とピッチデータpiが可逆符号
化方式で圧縮されたビットストリームを直接受信するよ
うになっている。これは、音要素成分データとパワーデ
ータに分解したものを伝送するか、両データから音要素
量データを作成して伝送するかの相違だけであり、もし
本実施形態の復号化装置1へ音要素成分データとパワー
データに分解したものが伝送されるのであれば、ビット
復号化器3に関数;(q1,q2,・・・,qN)=Df(g1,g2,・・
・,gN,po)を設けて音要素量データ(q1,q2,・・・,qN)
を求めるようにすれば足りる。また、「伝送路」は、通信
回線に限定されず、ハードディスク等のストレージメデ
ィアを介して復号化装置1側へ入力される場合も含む。
【0025】次に、本実施形態の復号化装置1による復
号・再生動作を順次説明する。先ず、圧縮データは可逆
符号伸長器2で伸長される。即ち、伝送効率やストレー
ジメディアの容量節減のために、符号化装置側では音要
素量データ(q1,q2,・・・,qN)とピッチデータpiを可逆
符号化方式であるハフマン符号化方式等で圧縮して伝送
するが、可逆符号伸長器2によってそれを伸長する。ま
た、伸長されたデータはビット復号化器3で解読され、
ピッチデータpiと音要素量データ(q1,q2,・・・,qN)の
ビットストリームに分離して組立てられ、それらのデー
タが変換データ作成器5へ入力される。
【0026】変換データ作成器5は、図2に示すよう
に、入力側ラッチ群11と演算部12と出力側ラッチ群13か
らなる機能ブロック構成を有している。ここに、入力側
ラッチ群11は(n+1)個のラッチ回路で、演算部12は2
つの内積演算器12a,12bと1つの行列積演算器12cで、出
力側ラッチ群13は(n+3)個のラッチ回路で構成されて
いる。そして、変換データ作成器5へ1ブロックのピッ
チデータpiと音要素量データ[q1,q2,・・・,qN]が入
力される度に、その各データがそれぞれ入力側ラッチ群
11の各ラッチ回路で個別に保持される。
【0027】次に、その保持状態で演算部12がメモリ4
の変換用係数テーブルから必要な係数データを読出し、
内積演算器12aがインパルス成分データIを、内積演算
器12bが白色ノイズ成分データWを、行列積演算器12cが
各音要素毎のフィルタ係数b1〜bnを求める。この各演
算器12a,12b,12cによる演算は次のような手順で実行さ
れる。先ず、メモリ4の変換用係数テーブルは図3に示
すような構成になっており、同図の[r1,r2,・・・,rn]
は各音要素(添字は図14で示すような音要素番号)に対
応したIW(インパルス/白色ノイズ)比の列であり、
[a(i,j)](i=1〜k,j=1〜n)は各音要素毎の声道伝達係数
に係る行列である。尚、本実施形態の復号化器1ではフ
ィルタ係数b1〜bnをPARCOR(Partial Correlatt
ion)係数を用いて演算することとした。PARCOR係
数は音声信号を統計的に処理するLPC(Linear Predic
tive Coding)技術で広く適用されているものであり、図
4に示すようなPARCOR分析回路の相関器の出力か
ら発声音における音要素毎のPARCOR係数(a1,a
2,・・・,ak)を求めることができ、その結果を行列[a(i,
j)]としてメモリ4の変換用係数テーブルに格納してお
く。
【0028】そして、内積演算器12aは、列[r1,r2,・・
・,rn]と音要素量データ[q1,q2,・・・,qN]の内積を求
めてその結果をインパルス成分データIとし、内積演算
器12bは先に[1−r1,1−r2,・・・,1−rn]を求め、そ
の結果と音要素量データ[q1,q2,・・・,qN]の内積を求
めてその演算結果を白色ノイズ成分データWとする。ま
た、行列積演算器12cは、PARCOR係数の行列[a
(i,j)]と音要素量データ[q1,q2,・・・,qN]の転置行列
との行列積を求め、その結果を各音要素毎のフィルタ係
数b1〜bnとする。
【0029】このようにして求められたインパルス成分
データIと白色ノイズ成分データWと各フィルタ係数b
1〜bnは出力側ラッチ群13の各ラッチ回路で保持され、
またピッチデータpiもそれに同期して入力側から出力
側ラッチ群13へ移され、ピッチデータpiと合成音デー
タ(インパルス成分データIと白色ノイズ成分データW)
は駆動音源部6へ、フィルタ係数b1〜bnはフィルタ部7
へ出力される。
【0030】次に、駆動音源部6はピッチデータpiと合
成音データI,Wを受けて駆動音信号を出力させ、フィ
ルタ部7はフィルタ係数b1〜bnを用いて駆動音信号の
通過帯域を制御するが、本実施形態の駆動音源部6とフ
ィルタ部7は図5に示すような回路構成を有している。
【0031】先ず、駆動音源部6は、3個のラッチ回路
で構成された入力ラッチ群21と、インパルスジェネレー
タ22と、白色ノイズジェネレータ23と、入力ラッチ群21
で保持された合成音データのインパルス成分データIと
白色ノイズ成分データWによって各利得が制御される増
幅器24,25と、各増幅器24,25の出力信号を合成する信号
合成器26とからなる。そして、入力ラッチ群21にピッチ
データpiと合成音データI,Wが保持されると、インパ
ルス成分データIと白色ノイズ成分データWによって各
増幅器24,25の利得を設定し、インパルスジェネレータ2
2がピッチデータpiの与える周期でインパルス信号を発
生させる。従って、インパルス信号はインパルス成分デ
ータIに基づいて利得が設定された増幅器24で増幅さ
れ、また白色ノイズ信号は白色ノイズ成分データWに基
づいて利得が設定された増幅器25で増幅されるが、それ
らの増幅信号が信号合成器26で合成されて駆動音信号と
して出力される。即ち、音要素量データ[q1,q2,・・・,
qN]に基づいて作成された合成音データI,WでIW比
を制御した駆動音信号が得られることになる。
【0032】一方、フィルタ部7は、メモリ4の変換用係
数テーブルにPARCOR係数の行列[a(i,j)]を用い
ているため、PARCOR格子型フィルタを採用してい
る。具体的には、前記の変換データ作成器5から転送さ
れるフィルタ係数b1〜bnを格納するシフトレジスタ27
を具備すると共に、出力系を加算器28の直列回路で、帰
還系を1クロック遅延素子29と減算器30の直列回路で構
成し、加算器28の出力に係数を乗算して各減算器30へ出
力する乗算器31と、1クロック遅延素子29の出力に係数
を乗算して各加算器28へ出力する乗算器32を設け、各乗
算器31,32の乗算係数をシフトレジスタ27の対応したフ
ィルタ係数biに基づいて設定する格子型回路で構成さ
れている。
【0033】そして、前記の駆動音信号がこのフィルタ
部7の出力系に入力されると、各フィルタ係数b1〜bn
に基づいてPARCOR係数の相関が各加算器28毎に付
与され、声道伝達特性に対応して通過帯域が調整された
発声音信号が再現される。ここに、駆動音信号はインパ
ルス信号と白色ノイズ信号を発声音に含まれている各音
要素量に対応したIW比で合成して発声音を表現してい
るが、基本的には音要素成分を合成したものであり、音
要素が変化する場合の過渡的な音を滑らかな合成音とし
て表現できていない。即ち、復号化装置1へ入力される
各データセット(音要素量データとピッチデータ)を順次
処理し、駆動音源部6から得られる駆動音信号を数msec
から数十msecの周期で直接再生しても、従来技術で説明
したハモリ現象を発生させてしまう。しかし、前記のよ
うにフィルタ部7でPARCOR係数に基づいた声道伝
達特性の相関を付与して駆動音信号の周波数成分を調整
したことにより、発声音における連続した音要素間の過
渡的な状態を滑らかに変化する合成信号として表現で
き、聴覚上のハモリ現象をなくした高品質な発声音を再
生させることができる。
【0034】以上のように、本実施形態の復号化装置で
は、メモリ4の変換用係数テーブルに構成したPARC
OR係数の行列[a(i,j)]で発声音に含まれている音要
素成分に対応したフィルタ係数b1〜bnを設定し、PA
RCOR格子型のフィルタ部7でハモリ現象対策を施し
ている。しかし、ハモリ現象の防止効果を得る上では、
必ずしもPARCOR合成方式を採用する必要はなく、
フィルタ部7に線形予測フィルタを用いたり、一般的な
FIR(Finite Impulse Response)フィルタやIIR(In
finite Impulse Response)フィルタを適用し、メモリ4
に対してそれに対応する係数のテーブルを構成しておい
てもよい。
【0035】例えば、線形予測フィルタを適用する場合
のフィルタ部7の回路構成は図6のようになり、駆動音
信号をn個の1クロック遅延素子41でそれぞれ遅延さ
せ、各1クロック遅延素子41の出力に対して各乗算器42
に設定した係数を乗算して減算器43へ帰還することで所
謂たたみ込みを行うが、各乗算器42に設定する乗算係数
をシフトレジスタ44に転送されたフィルタ係数b'1〜
b'nとして設定する。ここに、フィルタ係数b'1〜b'n
は、変換用係数テーブルの線形予測係数の行列[a'(i,
j)]と音要素量データ[q1,q2,・・・,qN]の転置行列との
行列積で求められることは前記の実施形態の場合と同様
である
【0036】
【発明の効果】本発明の「発声音データの復号化装置」
は、以上の構成を有していることにより、次のような効
果を奏する。請求項1の発明は、ディジタル化された時
系列発声音データを各音要素データとピッチデータに分
解して符号化されたデータを入力データとして、そのデ
ータを復号して発声音信号を再生する発声音データの復
号化装置において、その特殊な高能率符号化方式により
復号・再生した発声音にハモリ現象が発生してしまうと
いう問題を駆動音源部とフィルタ部に人間の発声構造を
モデル化した構成を適用することにより解消し、発声音
データの高い伝送効率やストレージメディアの容量節減
を図りながら発声音の高品質な再生を可能にする。請求
項2の発明は、駆動音源部として音要素成分に対応して
インパルスパワーと白色ノイズパワーの成分比を適応的
に変化させる方式を採用し、簡単な構成で駆動音信号を
生成させることを可能にする。請求項3の発明は、フィ
ルタ部に対するフィルタ係数の設定を声道伝達特性を具
体化するPARCOR係数を用いて行うことにより、ハ
モリ現象のない高音質の発声音の再生を実現する。請求
項4の発明は、フィルタ部に対するフィルタ係数の設定
を線形予測係数を用いて行うことにより、フィルタ部に
一般的なFIRフィルタやIIRフィルタを適用するこ
とを可能にし、装置の製造コストの低減化を実現する。
【図面の簡単な説明】
【図1】本発明の「発声音データの復号化装置」の実施形
態に係る機能ブロック回路図である。
【図2】変換データ作成器の詳細な機能ブロック回路図
である。
【図3】変換用係数テーブルの構成図である。
【図4】発声音における音要素毎のPARCOR係数を
求めるために用いるPARCOR分析回路の電気回路図
である。
【図5】駆動音源部の機能ブロック回路図及びフィルタ
部の電気回路図である。
【図6】FIRフィルタを適用する場合におけるフィル
タ部の電気回路図である。
【図7】発声音データの符号化装置の機能ブロック回路
図である。
【図8】従来の発声音データの復号化装置の機能ブロッ
ク回路図である。
【図9】音要素抽出N・Nの概略構成図である。
【図10】音要素抽出N・Nの出力層の各ニューロンの
反応出力状態を示すグラフである。
【図11】発声音の信号をサンプリングした波形例であ
る。
【図12】発声音をサブバンド化・FFT処理して得ら
れたパワースペクトル分布の実例を示すパワースペクト
ル図である。
【図13】発声音の一定時間におけるピッチデータと各
音要素成分量データの実例を示す表である。
【図14】発声音をサブバンド化・FFT処理・音要素抽
出して得られる音要素量の実例を音要素番号軸と時間軸
のなす平面上に3次元的に表現した図である。
【符号の説明】
1,61…復号化装置、2…可逆符号伸長器、3…ビット復号
器、4…変換用係数テーブルを格納したメモリ(記憶手
段)、5…変換データ作成器(変換データ作成手段)、6…
駆動音源部、7…フィルタ部、8,24,25,65…増幅器、9…
スピーカ、11…入力側ラッチ群、12…演算部、12a,12b
…内積演算器、12c…行列積演算器、13…出力側ラッチ
群、21…入力ラッチ群、22…インパルスジェネレータ、
23…白色ノイズジェネレータ、26…信号合成器、27,44
…シフトレジスタ、28…加算器、29,41…1クロック遅
延素子、30,43…減算器、31,32,42…乗算器、52…サン
プリング器、53…FFT器、54…サブバンド化器、55…
音要素抽出N・N、56…ピッチ・パワー抽出器、57…符号
作成器、62…符号解読器、63-1〜N…音要素信号生成
器、64…混合器。

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 ディジタル化された時系列発声音データ
    を各音要素データとピッチデータに分解して符号化され
    たデータを入力データとし、その入力データを復号して
    発声音信号を再生する発声音データの復号化装置におい
    て、発声音に係る各音要素毎の信号特徴データを与える
    第1係数データ群と各音要素毎の声道伝達特性を係数化
    した第2係数データ群を記憶した記憶手段と、前記入力
    データに含まれる各音要素の成分量データに前記記憶手
    段の第1係数データ群の各係数データを対応する音要素
    毎に乗算してその演算結果を合成した合成音データを作
    成し、また前記の各音要素の成分量データに前記記憶手
    段の第2係数データ群を乗算して音要素毎のフィルタ係
    数データを作成する変換データ作成手段と、前記変換デ
    ータ作成手段が作成した合成音データとそのデータに対
    応したピッチデータを用いて駆動音信号を生成させる駆
    動音源部と、前記変換データ作成手段が作成した各フィ
    ルタ係数データを設定して前記駆動音源部が生成した駆
    動音信号の通過帯域を調整するフィルタ部を具備したこ
    とを特徴とする発声音データの復号化装置。
  2. 【請求項2】 記憶手段における第1係数データ群の各
    係数データを各音要素毎の信号要素の特徴データをイン
    パルスの白色ノイズに対する比として与え、変換データ
    作成手段が各音要素に係るインパルスレベルの合成デー
    タと白色ノイズレベルの合成データとして合成音データ
    を作成し、駆動音源部がピッチデータが示す周期毎に前
    記合成音データに基づいてインパルスと白色ノイズを混
    合することにより駆動音信号を生成させることとした請
    求項1の発声音データの復号化装置。
  3. 【請求項3】 記憶手段における第2係数データ群の各
    係数データが、発声音における各音要素毎のPARCO
    R(Partial Correlattion)係数であり、フィルタ部が前
    記PARCOR係数に基づいたフィルタ係数データが設
    定されて動作するPARCOR格子型フィルタである請
    求項1又は請求項2の発声音データの復号化装置。
  4. 【請求項4】 記憶手段における第2係数データ群の各
    係数データが、各音要素毎の発声音データの線形予測係
    数であり、フィルタ部が前記線形予測係数に基づいたフ
    ィルタ係数データが設定されて動作する線形型フィルタ
    であるである請求項1又は請求項2の発声音データの復
    号化装置。
JP7301908A 1995-10-26 1995-10-26 発声音データの復号化装置 Pending JPH09127992A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7301908A JPH09127992A (ja) 1995-10-26 1995-10-26 発声音データの復号化装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7301908A JPH09127992A (ja) 1995-10-26 1995-10-26 発声音データの復号化装置

Publications (1)

Publication Number Publication Date
JPH09127992A true JPH09127992A (ja) 1997-05-16

Family

ID=17902566

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7301908A Pending JPH09127992A (ja) 1995-10-26 1995-10-26 発声音データの復号化装置

Country Status (1)

Country Link
JP (1) JPH09127992A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002153434A (ja) * 2000-11-17 2002-05-28 Dainippon Printing Co Ltd 時系列信号解析装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002153434A (ja) * 2000-11-17 2002-05-28 Dainippon Printing Co Ltd 時系列信号解析装置
JP4647770B2 (ja) * 2000-11-17 2011-03-09 大日本印刷株式会社 時系列信号解析装置

Similar Documents

Publication Publication Date Title
JP5302980B2 (ja) 複数の入力データストリームのミキシングのための装置
KR100331166B1 (ko) 오디오신호를 코딩하기 위한 방법 및 장치와 비트스트림을디코딩하기 위한 방법 및 장치
CN101385075B (zh) 用于编码/解码信号的装置和方法
CN104681030A (zh) 用于编码/解码信号的装置和方法
JP2007017908A (ja) 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
JP2003122400A (ja) 低ビットレートcelp符号化のための連続タイムワーピングに基づく信号の修正
JPH1084284A (ja) 信号再生方法および装置
JP2011059714A (ja) 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
US5828993A (en) Apparatus and method of coding and decoding vocal sound data based on phoneme
JP2002372996A (ja) 音響信号符号化方法及び装置、音響信号復号化方法及び装置、並びに記録媒体
WO1995021490A1 (fr) Procede et dispositif de codage de l'information et procede et dispositif de decodage de l'information
KR100750115B1 (ko) 오디오 신호 부호화 및 복호화 방법 및 그 장치
CN113314132B (zh) 交互式音频系统中的音频对象编码方法、解码方法及装置
US6647063B1 (en) Information encoding method and apparatus, information decoding method and apparatus and recording medium
JPH09127995A (ja) 信号復号化方法及び信号復号化装置
JPH10240299A (ja) 音声符号化及び復号装置
KR20040044389A (ko) 부호화 방법 및 장치, 및 복호 방법 및 장치
US6463405B1 (en) Audiophile encoding of digital audio data using 2-bit polarity/magnitude indicator and 8-bit scale factor for each subband
Yao et al. Variational speech waveform compression to catalyze semantic communications
JPH09127992A (ja) 発声音データの復号化装置
JP2796408B2 (ja) 音声情報圧縮装置
JP3010655B2 (ja) 圧縮符号化装置及び方法、並びに復号装置及び方法
JP2002149198A (ja) 音声符号化装置及び音声復号化装置
US20060069565A1 (en) Compressed data processing apparatus and method and compressed data processing program
JPH0573098A (ja) 音声処理装置