JP2003177799A

JP2003177799A - 音声信号圧縮装置、音声信号伸長装置、音声信号圧縮方法、音声信号伸長方法及びプログラム

Info

Publication number: JP2003177799A
Application number: JP2002277749A
Authority: JP
Inventors: Yasushi Sato; 寧佐藤
Original assignee: Kenwood KK
Current assignee: Kenwood KK
Priority date: 2001-09-27
Filing date: 2002-09-24
Publication date: 2003-06-27
Anticipated expiration: 2022-09-24
Also published as: JP3994332B2

Abstract

(57)【要約】【課題】音声を表すデータを効率的に圧縮し、あるい
は、ゆらぎを含む音声を表すデータを高音質で圧縮する
音声信号圧縮装置等を提供することである。【解決手段】コンピュータＣ１は、圧縮する音声デー
タの単位ピッチ分にあたる区間の時間長を同一に揃える
ことによりピッチ波形信号を生成し、このピッチ波形信
号より音声の各周波数成分を抽出する。抽出された各周
波数成分は、コンピュータＣ１により振幅の調整や非線
形量子化を施され、非線形量子化後のサブバンドデータ
となる。また、コンピュータＣ１は、差分生成用の音声
の各周波数成分を記憶していて、差分生成用の音声のう
ち、各周波数成分の相関がピッチ波形信号との間でもっ
とも高いものを特定し、特定された差分生成用の音声と
圧縮する音声の波形との差分を表す差分データを生成す
る。サブバンドデータと差分データが、圧縮音声データ
を構成するデータとなる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、音声信号圧縮装
置、音声信号伸長装置、音声信号圧縮方法、音声信号伸
長方法及びプログラムに関する。

【０００２】

【従来の技術】声の信号をパラメータ化して扱う場合に
は、声の信号を、波形情報よりも周波数情報として扱う
場合が多くある。例えば音声合成では、一般に、声のピ
ッチやフォルマントを利用した手法が多く採用されてい
る。また、近年、携帯電話等、デジタル音声通話を行う
端末が通信する音声信号を圧縮するために一般的に利用
されている手法であるＬＰＣ（Linear Prediction Codi
ng：線形予測符号化）も、声の信号を周波数情報として
扱う手法のひとつである（例えば、特許文献１参照）。

【０００３】

【特許文献１】特開平０５−０４８４６２号公報

【０００４】ピッチやフォルマントを、人間の声の発生
過程に即して説明すると、人間の声の発生過程はまず、
声帯部を振動させて、パルスの列からなるような音を発
生させることから始まる。このパルスは、言葉の音素毎
に特有なある一定の周期で発生し、この周期が「ピッ
チ」と呼ばれている。このパルスのスペクトルは、ピッ
チの整数倍の間隔で並ぶ比較的強いスペクトル成分を含
みつつ、幅広い周波数帯に分布する。

【０００５】次に、このパルスが声道を通過すると、こ
のパルスは、声道や舌の形状によって作られる空間でフ
ィルタリングされる。このフィルタリングの結果、この
パルスのうちある周波数成分のみが強調されるような音
ができる。（すなわち、フォルマントが生成される。）
以上が、声の発生過程である。

【０００６】声道や舌を動かすと、声帯が発生したパル
スのうち強調される周波数成分は変化する。このため、
この変化と言葉とを対応付ければ、音声による会話が成
立する。ＬＰＣの手法はこの点を利用した手法であり、
声道のフィルタ特性をコード化することにより音声の圧
縮を実現するものである。音声を再生するには、声道の
フィルタ特性を表すパラメータからなる要素をテーブル
に登録し、コードをキーとしてテーブルの検索を行う。

【０００７】

【発明が解決しようとする課題】しかし、ここでまず問
題になるのが、実際の人間の声道の変化の複雑さであ
る。ＬＰＣの手法で圧縮される音声の音質は、テーブル
に登録される要素の数が大きいほど向上する。しかし、
実際の人間の声道の変化は非常に複雑なため、話者の特
定や会話の内容の認識が十分にできるような音質を保ち
ながら圧縮するためには、声道のフィルタ特性の要素が
非常に多く必要である。また、そのような音質を保って
圧縮された音声信号をもちいてデジタル音声通話を行う
場合、従来は、伝送すべきデータの量も膨大であった。

【０００８】このため、従来は、小型の記憶装置しか搭
載できないデジタル音声通話用の端末に声道のフィルタ
特性のテーブルを記憶させるためには、例えば、声道を
ある程度単純化したモデルを想定して声道のフィルタ特
性をシミュレートした結果に基づいてテーブルを作成す
ることで満足せざるを得なかった。従って、このような
端末を用いた場合、従来は、話者の特定や会話の内容の
認識が十分にできるような音質でのデジタル音声通話が
困難であった。

【０００９】また、ピッチのゆらぎも問題になってい
た。ピッチは、人間の感情や意識に影響されやすく、あ
る程度は一定とみなせる周期であるものの、現実には微
妙にゆらぎを生じる。従って、同一話者が同じ言葉（音
素）を複数ピッチ分発声した場合、ピッチの間隔は通
常、一定しない。このため、人間の声を単純にフーリエ
変換しても、声道のフィルタ特性を正確に求めることが
できない。

【００１０】従って、人間の声を単純にフーリエ変換し
た結果に基づいて求めた声道のフィルタ特性を用いてＬ
ＰＣの手法による音声の圧縮を行った場合、従来は、テ
ーブルに登録される要素の数を増やしても、圧縮された
音声の音質が十分に改善されなかった。

【００１１】この発明は、上記実状に鑑みてなされたも
のであり、音声を表すデータを効率的に圧縮し、あるい
は、ゆらぎを含む音声を表すデータを高音質で圧縮する
音声信号圧縮装置、音声信号伸長装置、音声信号圧縮方
法及び音声信号伸長方法を提供することを目的とする。

【００１２】

【課題を解決するための手段】上記目的を達成すべく、
この発明の第１の観点にかかる音声信号圧縮装置は、圧
縮する対象である第１の音声の波形を表す音声信号を取
得し、当該音声信号をフィルタリングしてピッチ信号を
抽出するフィルタと、前記フィルタにより抽出されたピ
ッチ信号に基づいて前記音声信号を区間に区切り、各該
区間について、当該ピッチ信号との相関関係に基づいて
位相を調整する位相調整手段と、前記位相調整手段によ
り位相を調整された各区間について、該位相に基づいて
サンプリング長を定め、当該サンプリング長に従ってサ
ンプリングを行うことによりサンプリング信号を生成す
るサンプリング手段と、前記位相調整手段による前記調
整の結果と前記サンプリング長の値とに基づいて、前記
サンプリング信号をピッチ波形信号へと加工する音声信
号加工手段と、ピッチ波形信号より前記第１の音声の基
本周波数に基づいた成分を抽出するサブバンド抽出手段
と、差分生成用の第２の音声の基本周波数に基づいた成
分の時間変化を表すサブバンド情報を検索して、前記サ
ブバンド抽出手段が抽出した基本周波数に基づいた成分
の時間変化との相関が高いサブバンド情報を特定する検
索手段と、前記音声信号、及び、前記検索手段が特定し
たサブバンド情報に基づき、前記第１の音声の波形と当
該サブバンド情報が表す前記第２の音声の波形との差分
を表す差分信号を生成する差分手段と、前記検索手段が
特定したサブバンド情報を識別する識別コード及び前記
差分信号を出力する出力手段と、を備える、ことを特徴
とする。

【００１３】また、この発明の第２の観点にかかる音声
信号圧縮装置は、圧縮する対象である第１の音声の波形
を表す音声信号を取得し、当該音声信号をフィルタリン
グしてピッチ信号を抽出するフィルタと、前記フィルタ
により抽出されたピッチ信号に基づいて前記音声信号を
区間に区切り、各該区間について、当該ピッチ信号との
相関関係に基づいて位相を調整する位相調整手段と、前
記位相調整手段により位相を調整された各区間につい
て、該位相に基づいてサンプリング長を定め、当該サン
プリング長に従ってサンプリングを行うことによりサン
プリング信号を生成するサンプリング手段と、前記位相
調整手段による前記調整の結果と前記サンプリング長の
値とに基づいて、前記サンプリング信号をピッチ波形信
号へと加工する音声信号加工手段と、ピッチ波形信号よ
り前記第１の音声の基本周波数に基づいた成分を抽出す
るサブバンド抽出手段と、差分生成用の第２の音声の基
本周波数に基づいた成分の時間変化を表すサブバンド情
報を検索して、前記サブバンド抽出手段が抽出した基本
周波数に基づいた成分の時間変化との相関が高いサブバ
ンド情報を特定する検索手段と、前記サブバンド抽出手
段が抽出した前記第１の音声の基本周波数に基づいた成
分と前記検索手段が特定したサブバンド情報とに基づ
き、前記第１の音声と前記第２の音声との間での基本周
波数に基づいた成分の差分を表す差分信号を生成する差
分手段と、前記検索手段が特定したサブバンド情報を識
別する識別コード及び前記差分信号を出力する出力手段
と、を備える、ことを特徴とする。

【００１４】前記音声信号圧縮装置は、前記音声信号の
基本周波数と前記ピッチ信号とに基づいて前記フィルタ
のフィルタ係数を決定するフィルタ係数決定手段を更に
備えてもよく、前記フィルタは、前記フィルタ係数決定
手段による決定に従って自己のフィルタ係数を変更する
ものであってもよい。

【００１５】前記位相調整手段は、前記ピッチ信号の単
位周期毎に音声信号を区切ることにより各前記区間を決
定し、各該区間について、位相を種々変化させたものと
前記ピッチ信号との相関に基づいて求めた位相へと移相
するものであるものであってもよい。

【００１６】前記位相調整手段は、前記フィルタにより
抽出されたピッチ信号が実質的に０となるタイミングが
来る時点が前記区間の始点となるように、前記音声信号
を前記区間に区切るものであってもよい。

【００１７】また、この発明の第３の観点にかかる音声
信号圧縮装置は、圧縮する対象である第１の音声の波形
を表す音声信号を取得し、当該音声信号の単位ピッチ分
にあたる区間の時間長を調整することにより、当該音声
信号をピッチ波形信号へと加工する音声信号加工手段
と、ピッチ波形信号より前記第１の音声の基本周波数に
基づいた成分を抽出するサブバンド抽出手段と、差分生
成用の第２の音声の基本周波数に基づいた成分の時間変
化を表すサブバンド情報を検索して、前記サブバンド抽
出手段が抽出した基本周波数に基づいた成分の時間変化
との相関が高いサブバンド情報を特定する検索手段と、
前記音声信号、及び、前記検索手段が特定したサブバン
ド情報に基づき、前記第１の音声の波形と当該サブバン
ド情報が表す前記第２の音声の波形との差分を表す差分
信号を生成する差分手段と、前記検索手段が特定したサ
ブバンド情報を識別する識別コード及び前記差分信号を
出力する出力手段と、を備える、ことを特徴とする。

【００１８】また、この発明の第４の観点にかかる音声
信号圧縮装置は、圧縮する対象である第１の音声の波形
を表す音声信号を取得し、当該音声信号の単位ピッチ分
にあたる区間の時間長を調整することにより、当該音声
信号をピッチ波形信号へと加工する音声信号加工手段
と、ピッチ波形信号より前記第１の音声の基本周波数に
基づいた成分を抽出するサブバンド抽出手段と、差分生
成用の第２の音声の基本周波数に基づいた成分の時間変
化を表すサブバンド情報を検索して、前記サブバンド抽
出手段が抽出した基本周波数に基づいた成分の時間変化
との相関が高いサブバンド情報を特定する検索手段と、
前記サブバンド抽出手段が抽出した前記第１の音声の基
本周波数に基づいた成分と前記検索手段が特定したサブ
バンド情報とに基づき、前記第１の音声と前記第２の音
声との間での基本周波数に基づいた成分の差分を表す差
分信号を生成する差分手段と、前記検索手段が特定した
サブバンド情報を識別する識別コード及び前記差分信号
を出力する出力手段と、を備える、ことを特徴とする。

【００１９】また、この発明の第５の観点にかかる音声
信号伸長装置は、第１の音声の波形を表す音声信号の単
位ピッチ分にあたる区間の時間長を調整することにより
生成される第１のピッチ波形信号の基本周波数に基づい
た成分の時間変化を表すサブバンド情報を指定する識別
コード、復元する対象である第２の音声の波形と前記第
１の音声の波形との差分を表す差分信号、及び、前記第
２の音声の単位ピッチ分にあたる区間の時間長を示すピ
ッチデータを取得する入力手段と、前記サブバンド情報
のうち、前記入力手段が取得した識別コードにより識別
されるものを取得し、取得したサブバンド情報に基づい
て前記第１のピッチ波形信号を復元するピッチ波形信号
復元手段と、前記ピッチ波形信号復元手段が復元した第
１のピッチ波形信号の波形と前記差分信号が表す波形と
の和を表す第２のピッチ波形信号を生成する加算手段
と、前記ピッチデータ、及び、前記第２のピッチ波形信
号に基づき、前記第２の音声を表す音声信号を生成する
音声信号復元手段と、を備える、ことを特徴とする。

【００２０】また、この発明の第６の観点にかかる音声
信号伸長装置は、第１の音声の波形を表す音声信号の単
位ピッチ分にあたる区間の時間長を調整することにより
生成される第１のピッチ波形信号の基本周波数に基づい
た成分の時間変化を表すサブバンド情報を指定する識別
コード、復元する対象である第２の音声の波形と前記第
１の音声との間での基本周波数に基づいた成分の差分を
表す差分信号、及び、前記第２の音声の単位ピッチ分に
あたる区間の時間長を示すピッチデータを取得する入力
手段と、前記サブバンド情報のうち、前記入力手段が取
得した識別コードにより識別されるものを取得し、取得
したサブバンド情報と、前記差分信号とに基づいて、前
記第２の音声の基本周波数に基づいた成分を特定するサ
ブバンド情報復元手段と、前記ピッチデータ、及び、前
記サブバンド情報復元手段が特定した前記第２の音声の
基本周波数に基づいた成分に基づき、前記第２の音声を
表す音声信号を生成する音声信号復元手段と、を備え
る、ことを特徴とする。

【００２１】また、この発明の第７の観点にかかる音声
信号圧縮方法は、圧縮する対象である第１の音声の波形
を表す音声信号を取得し、当該音声信号をフィルタリン
グしてピッチ信号を抽出し、抽出されたピッチ信号に基
づいて前記音声信号を区間に区切り、各該区間につい
て、当該ピッチ信号との相関関係に基づいて位相を調整
し、前記位相調整手段により位相を調整された各区間に
ついて、該位相に基づいてサンプリング長を定め、当該
サンプリング長に従ってサンプリングを行うことにより
サンプリング信号を生成し、前記位相の調整の結果と前
記サンプリング長の値とに基づいて、前記サンプリング
信号をピッチ波形信号へと加工し、ピッチ波形信号より
前記第１の音声の基本周波数に基づいた成分を抽出し、
差分生成用の第２の音声の基本周波数に基づいた成分の
時間変化を表すサブバンド情報のうち、前記サブバンド
抽出手段が抽出した基本周波数に基づいた成分の時間変
化との相関が高いものを特定し、前記音声信号、及び、
特定したサブバンド情報に基づき、前記第１の音声の波
形と当該サブバンド情報が表す前記第２の音声の波形と
の差分を表す差分信号を生成し、特定したサブバンド情
報を識別する識別コード及び前記差分信号を出力する、
ことを特徴とする。

【００２２】また、この発明の第８の観点にかかる音声
信号圧縮方法は、圧縮する対象である第１の音声の波形
を表す音声信号を取得し、当該音声信号をフィルタリン
グしてピッチ信号を抽出し、抽出されたピッチ信号に基
づいて前記音声信号を区間に区切り、各該区間につい
て、当該ピッチ信号との相関関係に基づいて位相を調整
し、前記位相調整手段により位相を調整された各区間に
ついて、該位相に基づいてサンプリング長を定め、当該
サンプリング長に従ってサンプリングを行うことにより
サンプリング信号を生成し、前記位相の調整の結果と前
記サンプリング長の値とに基づいて、前記サンプリング
信号をピッチ波形信号へと加工し、ピッチ波形信号より
前記第１の音声の基本周波数に基づいた成分を抽出し、
差分生成用の第２の音声の基本周波数に基づいた成分の
時間変化を表すサブバンド情報のうち、前記サブバンド
抽出手段が抽出した基本周波数に基づいた成分の時間変
化との相関が高いものを特定する検索手段と、前記第１
の音声の基本周波数に基づいた成分、及び、特定された
サブバンド情報に基づき、前記第１の音声と前記第２の
音声との間での基本周波数に基づいた成分の差分を表す
差分信号を生成し、特定されたサブバンド情報を識別す
る識別コード及び前記差分信号を出力する、ことを特徴
とする。

【００２３】また、この発明の第９の観点にかかる音声
信号伸長方法は、第１の音声の波形を表す音声信号の単
位ピッチ分にあたる区間の時間長を調整することにより
生成される第１のピッチ波形信号の基本周波数に基づい
た成分の時間変化を表すサブバンド情報を指定する識別
コード、復元する対象である第２の音声の波形と前記第
１の音声の波形との差分を表す差分信号、及び、前記第
２の音声の単位ピッチ分にあたる区間の時間長を示すピ
ッチデータを取得し、前記サブバンド情報のうち、前記
入力手段が取得した識別コードにより識別されるものを
取得し、取得したサブバンド情報に基づいて前記第１の
ピッチ波形信号を復元し、復元した第１のピッチ波形信
号の波形と前記差分信号が表す波形との和を表す第２の
ピッチ波形信号を生成し、前記ピッチデータ、及び、前
記第２のピッチ波形信号に基づき、前記第２の音声を表
す音声信号を生成する、ことを特徴とする。

【００２４】また、この発明の第１０の観点にかかる音
声信号伸長方法は、第１の音声の波形を表す音声信号の
単位ピッチ分にあたる区間の時間長を調整することによ
り生成される第１のピッチ波形信号の基本周波数に基づ
いた成分の時間変化を表すサブバンド情報を指定する識
別コード、復元する対象である第２の音声の波形と前記
第１の音声との間での基本周波数に基づいた成分の差分
を表す差分信号、及び、前記第２の音声の単位ピッチ分
にあたる区間の時間長を示すピッチデータを取得し、前
記サブバンド情報のうち、前記入力手段が取得した識別
コードにより識別されるものを取得し、取得したサブバ
ンド情報と、前記差分信号とに基づいて、前記第２の音
声の基本周波数に基づいた成分を特定し、前記ピッチデ
ータ、及び、特定された前記第２の音声の基本周波数に
基づいた成分に基づき、前記第２の音声を表す音声信号
を生成する、ことを特徴とする。

【００２５】また、この発明の第１１の観点にかかるプ
ログラムは、コンピュータを、圧縮する対象である第１
の音声の波形を表す音声信号を取得し、当該音声信号を
フィルタリングしてピッチ信号を抽出するフィルタと、
前記フィルタにより抽出されたピッチ信号に基づいて前
記音声信号を区間に区切り、各該区間について、当該ピ
ッチ信号との相関関係に基づいて位相を調整する位相調
整手段と、前記位相調整手段により位相を調整された各
区間について、該位相に基づいてサンプリング長を定
め、当該サンプリング長に従ってサンプリングを行うこ
とによりサンプリング信号を生成するサンプリング手段
と、前記位相調整手段による前記調整の結果と前記サン
プリング長の値とに基づいて、前記サンプリング信号を
ピッチ波形信号へと加工する音声信号加工手段と、ピッ
チ波形信号より前記第１の音声の基本周波数に基づいた
成分を抽出するサブバンド抽出手段と、差分生成用の第
２の音声の基本周波数に基づいた成分の時間変化を表す
サブバンド情報を検索して、前記サブバンド抽出手段が
抽出した基本周波数に基づいた成分の時間変化との相関
が高いサブバンド情報を特定する検索手段と、前記音声
信号、及び、前記検索手段が特定したサブバンド情報に
基づき、前記第１の音声の波形と当該サブバンド情報が
表す前記第２の音声の波形との差分を表す差分信号を生
成する差分手段と、前記検索手段が特定したサブバンド
情報を識別する識別コード及び前記差分信号を出力する
出力手段と、して機能させるためのものであることを特
徴とする。

【００２６】また、この発明の第１２の観点にかかるプ
ログラムは、コンピュータを、圧縮する対象である第１
の音声の波形を表す音声信号を取得し、当該音声信号を
フィルタリングしてピッチ信号を抽出するフィルタと、
前記フィルタにより抽出されたピッチ信号に基づいて前
記音声信号を区間に区切り、各該区間について、当該ピ
ッチ信号との相関関係に基づいて位相を調整する位相調
整手段と、前記位相調整手段により位相を調整された各
区間について、該位相に基づいてサンプリング長を定
め、当該サンプリング長に従ってサンプリングを行うこ
とによりサンプリング信号を生成するサンプリング手段
と、前記位相調整手段による前記調整の結果と前記サン
プリング長の値とに基づいて、前記サンプリング信号を
ピッチ波形信号へと加工する音声信号加工手段と、ピッ
チ波形信号より前記第１の音声の基本周波数に基づいた
成分を抽出するサブバンド抽出手段と、差分生成用の第
２の音声の基本周波数に基づいた成分の時間変化を表す
サブバンド情報を検索して、前記サブバンド抽出手段が
抽出した基本周波数に基づいた成分の時間変化との相関
が高いサブバンド情報を特定する検索手段と、前記サブ
バンド抽出手段が抽出した前記第１の音声の基本周波数
に基づいた成分と前記検索手段が特定したサブバンド情
報とに基づき、前記第１の音声と前記第２の音声との間
での基本周波数に基づいた成分の差分を表す差分信号を
生成する差分手段と、前記検索手段が特定したサブバン
ド情報を識別する識別コード及び前記差分信号を出力す
る出力手段と、して機能させるためのものであることを
特徴とする。

【００２７】また、この発明の第１３の観点にかかるプ
ログラムは、コンピュータを、第１の音声の波形を表す
音声信号の単位ピッチ分にあたる区間の時間長を調整す
ることにより生成される第１のピッチ波形信号の基本周
波数に基づいた成分の時間変化を表すサブバンド情報を
指定する識別コード、復元する対象である第２の音声の
波形と前記第１の音声の波形との差分を表す差分信号、
及び、前記第２の音声の単位ピッチ分にあたる区間の時
間長を示すピッチデータを取得する入力手段と、前記サ
ブバンド情報のうち、前記入力手段が取得した識別コー
ドにより識別されるものを取得し、取得したサブバンド
情報に基づいて前記第１のピッチ波形信号を復元するピ
ッチ波形信号復元手段と、前記ピッチ波形信号復元手段
が復元した第１のピッチ波形信号の波形と前記差分信号
が表す波形との和を表す第２のピッチ波形信号を生成す
る加算手段と、前記ピッチデータ、及び、前記第２のピ
ッチ波形信号に基づき、前記第２の音声を表す音声信号
を生成する音声信号復元手段と、して機能させるための
ものであることを特徴とする。

【００２８】また、この発明の第１４の観点にかかるプ
ログラムは、コンピュータを、第１の音声の波形を表す
音声信号の単位ピッチ分にあたる区間の時間長を調整す
ることにより生成される第１のピッチ波形信号の基本周
波数に基づいた成分の時間変化を表すサブバンド情報を
指定する識別コード、復元する対象である第２の音声の
波形と前記第１の音声との間での基本周波数に基づいた
成分の差分を表す差分信号、及び、前記第２の音声の単
位ピッチ分にあたる区間の時間長を示すピッチデータを
取得する入力手段と、前記サブバンド情報のうち、前記
入力手段が取得した識別コードにより識別されるものを
取得し、取得したサブバンド情報と、前記差分信号とに
基づいて、前記第２の音声の基本周波数に基づいた成分
を特定するサブバンド情報復元手段と、前記ピッチデー
タ、及び、前記サブバンド情報復元手段が特定した前記
第２の音声の基本周波数に基づいた成分に基づき、前記
第２の音声を表す音声信号を生成する音声信号復元手段
と、して機能させるためのものであることを特徴とす
る。

【００２９】

【発明の実施の形態】以下に、図面を参照して、この発
明の実施の形態を説明する。（第１の実施の形態：音声信号圧縮器）図１は、この発
明の第１の実施の形態に係る音声信号圧縮器の構成を示
す図である。図示するように、この音声信号圧縮器は、
記録媒体（例えば、フレキシブルディスクやＭＯ（Magn
eto Optical disk）など）に記録されたデータを読み取
る記録媒体ドライバ（フレキシブルディスクドライブ
や、ＭＯドライブなど）ＳＭＤと、記録媒体ドライバＳ
ＭＤに接続されたコンピュータＣ１とより構成されてい
る。

【００３０】図示するように、コンピュータＣ１は、Ｃ
ＰＵ（Central Processing Unit）やＤＳＰ（Digital S
ignal Processor）等からなるプロセッサや、ＲＡＭ（R
andom Access Memory）等からなる揮発性メモリや、ハ
ードディスク装置等からなる不揮発性メモリや、キーボ
ード等からなる入力部や、ＣＲＴ（陰極線管）等からな
る表示部や、ＲＳ２３２Ｃインターフェース回路等から
なっていて外部とのシリアル通信を制御するシリアル通
信制御部などからなっている。

【００３１】コンピュータＣ１は音声信号圧縮プログラ
ムを予め記憶しており、この音声信号圧縮プログラムを
実行することにより後述する処理を行う。

【００３２】また、コンピュータＣ１は、音声信号圧縮
プログラムの処理に従ってコンピュータＣ１が抽出する
後述の識別用パラメータと同種の、話者に固有の比較用
パラメータを、話者毎に予め記憶する。比較用パラメー
タは、たとえば識別用パラメータが包絡線データであれ
ば、包絡線データからなっていればよい。

【００３３】また、コンピュータＣ１は、各々の話者の
比較用パラメータに対応付けた形で、この話者の音声を
構成する音素を表す音素辞書を記憶する。音素辞書は、
具体的には、音素の基本周波数成分及び高調波成分の強
度の時間変化を表すサブバンドデータを、音素別に格納
している。そして、各々のサブバンドデータには、この
サブバンドデータに固有の識別コードが割り当てられて
いる。

【００３４】また、コンピュータＣ１は、音声信号圧縮
プログラムの処理に従ってコンピュータＣ１が生成する
後述の差分データを量子化する精度（あるいは、量子化
前の差分データのデータ量に対する量子化後の差分デー
タのデータ量の比を表す圧縮率）を指定するパラメータ
を予め記憶する。

【００３５】なお、比較用パラメータや、音素辞書や、
差分データを量子化する精度（あるいは圧縮率）を指定
するパラメータは、ユーザ等がコンピュータＣ１の入力
部を操作して入力し、コンピュータＣ１に記憶させるよ
うにしてもよい。

【００３６】（第１の実施の形態：音声信号圧縮器の動
作）次に、この音声信号圧縮器の動作を、図２及び図３
を参照して説明する。図２及び図３は、図１の音声信号
圧縮器の動作の流れを示す図である。

【００３７】ユーザが、音声の波形を表す音声データを
記録した記録媒体を記録媒体ドライバＳＭＤにセットし
て、コンピュータＣ１に、音声信号圧縮プログラムの起
動を指示すると、コンピュータＣ１は、音声信号圧縮プ
ログラムの処理を開始する。

【００３８】すると、まず、コンピュータＣ１は、記録
媒体ドライバＳＭＤを介し、記録媒体より音声データを
読み出す（図２、ステップＳＡ１）。なお、音声データ
は、ＰＣＭ（Pulse Code Modulation）変調されたディ
ジタル信号の形式を有しており、音声のピッチより十分
短い一定の周期でサンプリングされた音声を表している
ものとする。

【００３９】次に、コンピュータＣ１は、記録媒体より
読み出された音声データをフィルタリングすることによ
り、フィルタリングされた音声データ（ピッチ信号）を
生成する（ステップＳＡ２）。ピッチ信号は、音声デー
タのサンプルリング間隔と実質的に同一のサンプリング
間隔を有するディジタル形式のデータからなるものとす
る。

【００４０】なお、コンピュータＣ１は、ピッチ信号を
生成するために行うフィルタリングの特性を、後述する
ピッチ長と、ピッチ信号の瞬時値が０となる時刻（ゼロ
クロスする時刻）とに基づくフィードバック処理を行う
ことにより決定する。

【００４１】すなわち、コンピュータＣ１は、読み出し
た音声データに、例えば、ケプストラム解析や、自己相
関関数に基づく解析を施すことにより、この音声データ
が表す音声の基本周波数を特定し、この基本周波数の逆
数の絶対値（すなわち、ピッチ長）を求める（ステップ
ＳＡ３）。（あるいは、コンピュータＣ１は、ケプスト
ラム解析及び自己相関関数に基づく解析の両方を行うこ
とにより基本周波数を２個特定し、これら２個の基本周
波数の逆数の絶対値の平均をピッチ長として求めるよう
にしてもよい。）

【００４２】なお、ケプストラム解析としては、具体的
には、まず、読み出した音声データの強度を、元の値の
対数（対数の底は任意）に実質的に等しい値へと変換
し、値が変換された音声データのスペクトル（すなわ
ち、ケプストラム）を、高速フーリエ変換の手法（ある
いは、離散的変数をフーリエ変換した結果を表すデータ
を生成する他の任意の手法）により求める。そして、こ
のケプストラムの極大値を与える周波数のうちの最小値
を基本周波数として特定する。

【００４３】一方、自己相関関数に基づく解析として
は、具体的には、読み出した音声データを用いてまず、
数式１の右辺により表される自己相関関数ｒ（ｌ）を特
定する。そして、自己相関関数ｒ（ｌ）をフーリエ変換
した結果得られる関数（ピリオドグラム）の極大値を与
える周波数のうち、所定の下限値を超える最小の値を基
本周波数として特定する。

【００４４】

【数１】

【００４５】一方、コンピュータＣ１は、ピッチ信号が
ゼロクロスする時刻が来るタイミングを特定する（ステ
ップＳＡ４）。そして、コンピュータＣ１は、ピッチ長
とピッチ信号のゼロクロスの周期とが互いに所定量以上
異なっているか否かを判別し（ステップＳＡ５）、異な
っていないと判別した場合は、ゼロクロスの周期の逆数
を中心周波数とするようなバンドパスフィルタの特性で
上述のフィルタリングを行うこととする（ステップＳＡ
６）。一方、所定量以上異なっていると判別した場合
は、ピッチ長の逆数を中心周波数とするようなバンドパ
スフィルタの特性で上述のフィルタリングを行うことと
する（ステップＳＡ７）。なお、いずれの場合も、フィ
ルタリングの通過帯域幅は、通過帯域の上限が音声デー
タの表す音声の基本周波数の２倍以内に常に収まるよう
な通過帯域幅であることが望ましい。

【００４６】次に、コンピュータＣ１は、生成したピッ
チ信号の単位周期（例えば１周期）の境界が来るタイミ
ング（具体的には、ピッチ信号がゼロクロスするタイミ
ング）で、記録媒体から読み出した音声データを区切る
（ステップＳＡ８）。そして、区切られてできる区間の
それぞれについて、この区間内の音声データの位相を種
々変化させたものとこの区間内のピッチ信号との相関を
求め、最も相関が高くなるときの音声データの位相を、
この区間内の音声データの位相として特定する（ステッ
プＳＡ９）。そして、音声データのそれぞれの区間を、
互いが実質的に同じ位相になるように移相する（ステッ
プＳＡ１０）。

【００４７】具体的には、コンピュータＣ１は、それぞ
れの区間毎に、例えば、数式２の右辺により表される値
ｃｏｒを、位相を表すφ（ただし、φは０以上の整数）
の値を種々変化させた場合それぞれについて求める。そ
して、値ｃｏｒが最大になるようなφの値Ψを、この区
間内の音声データの位相を表す値として特定する。この
結果、この区間につき、ピッチ信号との相関が最も高く
なる位相の値が定まる。そして、コンピュータＣ１は、
この区間内の音声データを、（−Ψ）だけ移相する。

【００４８】

【数２】

【００４９】音声データを上述の通り移相することによ
り得られるデータ（ピッチ波形データ）が表す波形の一
例を図４（ｃ）に示す。図４（ａ）に示す位相前の音声
データの波形のうち、「＃１」及び「＃２」として示す
２個の区間は、図４（ｂ）に示すように、ピッチのゆら
ぎの影響により互いに異なる位相を有している。これに
対し、ピッチ波形データが表す波形の区間＃１及び＃２
は、図４（ｃ）に示すように、ピッチのゆらぎの影響が
除去されて位相が揃っている。また、図４（ａ）に示す
ように、各区間の始点の値は０に近い値となっている。

【００５０】なお、区間の時間的な長さは、１ピッチ分
程度であることが望ましい。区間が長いほど、区間内の
サンプル数が増えて、ピッチ波形データのデータ量が増
大し、あるいは、サンプリング間隔が増大してピッチ波
形データが表す音声が不正確になる、という問題が生じ
る。

【００５１】次に、コンピュータＣ１は、ピッチ波形デ
ータの各区間をサンプリングし直す（リサンプリングす
る）。また、各区間の元のサンプル数を示すデータであ
るピッチ情報も生成する（ステップＳＡ１１）。なお、
コンピュータＣ１は、ピッチ波形データの各区間のサン
プル数が互いにほぼ等しくなるようにして、同一区間内
では等間隔になるようリサンプリングするものとする。
記録媒体より読み出した音声データのサンプリング間隔
が既知であるものとすれば、ピッチ情報は、この音声デ
ータの単位ピッチ分の区間の元の時間長を表す情報とし
て機能する。

【００５２】次に、コンピュータＣ１は、ステップＳＡ
１１でリサンプリングされたピッチ波形データにＤＣＴ
（Discrete Cosine Transform）等の直交変換を施すこ
とにより、サブバンドデータを生成する（図３、ステッ
プＳＡ１２）。

【００５３】サブバンドデータは、ピッチ波形信号が表
す音声の基本周波数成分の強度の時間変化を表すデータ
と、この音声のｙ個（ｙは自然数）の基本周波数成分の
強度の時間変化を表すｙ個のデータとを含むデータであ
る。従って、サブバンドデータは、音声の基本周波数成
分（又は高調波成分）の強度の時間変化がないとき、こ
の基本周波数成分（又は高調波成分）の強度を、直流信
号の形で表す。

【００５４】次に、コンピュータＣ１は、生成したサブ
バンドデータが表す基本周波数成分や高調波成分の瞬時
値に比例定数を乗じることにより、このサブバンドデー
タが表す基本周波数成分や高調波成分の振幅を変更する
（ステップＳＡ１３）。また、ステップＳＡ１３でコン
ピュータＣ１は、どのサブバンドデータのどの周波数成
分（基本周波数成分又は高調波成分）にどのような値の
比例定数を乗じたかを示すデータである比例定数データ
も生成する。

【００５５】比例定数は、たとえば、同一のサブバンド
データが表す各周波数成分の強度の最大値が、互いに共
通した一定値になるように決定する。すなわち、例えば
この一定値をＪとした場合、コンピュータＣ１は、一定
値Ｊを特定の周波数成分の強度の最大値Ｋで除した値
（Ｊ／Ｋ）を求める。この値（Ｊ／Ｋ）が、この周波数
成分の瞬時値に乗じる比例定数である。

【００５６】サブバンドデータの振幅を変更すると、コ
ンピュータＣ１は、このサブバンドデータが表す各周波
数成分の瞬時値に非線形圧縮を施して得られる値（具体
的には、たとえば、瞬時値を上に凸な関数に代入して得
られる値）を量子化したものに相当するサブバンドデー
タ（非線形量子化後のサブバンドデータ）を生成する
（ステップＳＡ１４）。

【００５７】なお、非線形圧縮の手法は、具体的には、
例えば、量子化後の各周波数成分の瞬時値が、元の瞬時
値の対数を量子化した値に実質的に等しくなるようなも
のであればよい。（ただし、対数の底はすべての周波数
成分について共通であるものとする。例えば常用対数な
ど。）

【００５８】また、コンピュータＣ１は、記録媒体より
読み出した音声データに線形予測解析を施すことによ
り、この音声データが表す音声の話者に固有の識別用パ
ラメータを抽出する（ステップＳＡ１５）。識別用パラ
メータは、たとえば、この音声のスペクトルの包絡線を
表す包絡線データや、あるいはこの音声のフォルマント
を表すデータなどであればよい。ただし、識別用パラメ
ータは、上述した比較用パラメータと同種のパラメータ
であるものとする。

【００５９】そして、コンピュータＣ１は、非線形量子
化後のサブバンドデータの生成と識別用パラメータの抽
出を行うと、自己の不揮発性メモリに記憶されている比
較用パラメータのうちから、抽出した識別用パラメータ
にもっともよく近似できる比較用パラメータを特定し
て、この比較用パラメータに対応付けられた音素辞書を
選択する（ステップＳＡ１６）。

【００６０】識別用パラメータ及び比較用パラメータが
いずれも包絡線データからなる場合、コンピュータＣ１
は、たとえば、識別用パラメータが表す包絡線との間の
相関係数が最も大きい包絡線を表す比較用パラメータ
を、識別用パラメータに最もよく近似できる比較用パラ
メータとして特定すればよい。

【００６１】次に、コンピュータＣ１は、選択した音素
辞書に含まれるサブバンドデータのうち、非線形量子化
後のサブバンドデータにもっとも近い波形を表している
ものを特定する（ステップＳＡ１７）。具体的には、コ
ンピュータＣ１は、たとえば、以下（１）及び（２）と
して記す処理を行う。すなわち、（１）まず、非線形量子化後のサブバンドデータと、
選択した音素辞書に含まれる１個の音素のサブバンドデ
ータとの間で、同一周波数成分間の相関係数を各々求
め、求めた相関係数の平均値を求める。（２）（１）の処理を、選択した音素辞書に含まれる
すべての音素のサブバンドデータについて行い、相関係
数の平均値が最も高かったサブバンドデータを、非線形
量子化後のサブバンドデータにもっとも近い波形を表し
ているものとして特定する。

【００６２】次に、コンピュータＣ１は、ステップＳＡ
１７で特定したサブバンドデータに変換を施すことによ
り、このサブバンドデータにより各周波数成分の強度が
表されるピッチ波形データを復元する（ステップＳＡ１
８）。ステップＳＡ１８でサブバンドデータに施す変換
は、このサブバンドデータを生成するために音素の波形
に施した変換に対して実質的に逆変換の関係にあるよう
な変換である。具体的には、たとえばこのサブバンドデ
ータが音素にＤＣＴを施して生成されたものである場合
は、このサブバンドデータにＩＤＣＴ（Inverse DCT）
を施すようにすればよい。

【００６３】次に、コンピュータＣ１は、ステップＳＡ
１１でリサンプリングされたピッチ波形データの瞬時値
と、ステップＳＡ１８で復元されたピッチ波形データの
瞬時値との差を表す差分データを生成する（ステップＳ
Ａ１９）。そして、ステップＳＡ１９で生成した差分デ
ータの瞬時値を、自己の不揮発性メモリが記憶するパラ
メータにより指定される精度で（あるいは、このパラメ
ータにより指定される圧縮率となるように）量子化する
（ステップＳＡ２０）。

【００６４】次に、コンピュータＣ１は、ステップＳＡ
１７で特定したサブバンドデータに割り当てられている
識別コードを自己の不揮発性メモリから読み出し、読み
出した識別コードと、ステップＳＡ２０で量子化した差
分データと、ステップＳＡ１１で生成したピッチ情報
と、ステップＳＡ１３で生成した比例定数データとを、
算術符号（arithmetic code）へと変換する（ステップ
ＳＡ２１）。

【００６５】そして、コンピュータＣ１は、ステップＳ
Ａ２１で得られた算術符号を表すビットストリームを生
成し、自己のシリアル通信制御部より、圧縮音声データ
として出力する（ステップＳＡ２２）。

【００６６】圧縮音声データは、単位ピッチ分の区間の
時間長が規格化され、ピッチのゆらぎの影響が除去され
た音声データであるピッチ波形データに基づいて生成さ
れている。このため、圧縮音声データは、音声の各周波
数成分（基本周波数成分及び高調波成分）の強度の時間
変化を正確に表すものとなる。

【００６７】また、圧縮音声データは、予め各周波数成
分の強度の時間変化のサンプルをデータが用意されてい
る音声を識別する識別コードと、この音声との差分を表
す差分データとから構成されている。一方、たとえば図
５に示すように、人間が実際に発する有声音の各周波数
成分の強度の時間変化は通常極めて小さく、また、同一
話者の音声間での差異も小さい。従って、圧縮する対象
の音声の話者と同一の話者の音声を表すサブバンドデー
タを音素辞書に予め格納しておき、この話者に固有の識
別用パラメータを対応付けておくことにより、差分デー
タのデータ量は極めて小さくなる。従って、圧縮音声デ
ータのデータ量も極めて小さくなる。

【００６８】なお、図５において、「ＢＮＤ０」として
示すグラフは音声の基本周波数成分の強度を示し、「Ｂ
ＮＤｋ」（ただし、ｋは１から７までの整数）として示
すグラフは、この音声の（ｋ＋１）次高調波成分の強度
を示している。そして、「ｄ１」として示す区間は、母
音「ア」を表す区間であり、「ｄ２」として示す区間
は、母音「イ」を表す区間であり、「ｄ３」として示す
区間は、母音「ウ」を表す区間であり、「ｄ４」として
示す区間は、母音「エ」を表す区間である。

【００６９】また、ピッチ情報を用いてピッチ波形信号
の各区間の元の時間長を特定することができ、比例定数
データを用いて各周波数成分の元の振幅を特定すること
ができる。このため、ピッチ波形信号の各区間の時間長
や各周波数成分の振幅を、元の音声データにおける時間
長や振幅へと復元することにより、元の音声データを容
易に復元できる。

【００７０】なお、この音声信号圧縮器の構成は上述の
ものに限られない。たとえば、コンピュータＣ１は、電
話回線、専用回線、衛星回線等の通信回線を介して外部
より音声データを取得するようにしてもよい。この場
合、コンピュータＣ１は、例えばモデムやＤＳＵ（Data
Service Unit）等からなる通信制御部を備えていれば
よい。またこの場合、記録媒体ドライバＳＭＤは不要で
ある。また、コンピュータＣ１は、比較用パラメータ
や、音素辞書や、差分データを量子化する精度（あるい
は圧縮率）を指定するパラメータも、通信回線を介して
外部より取得して記憶するようにしてよい。

【００７１】また、コンピュータＣ１は、マイクロフォ
ン、ＡＦ増幅器、サンプラー、Ａ／Ｄ（Analog-to-Digi
tal）コンバータ及びＰＣＭエンコーダなどからなる集
音装置を備えていてもよい。集音装置は、自己のマイク
ロフォンが集音した音声を表す音声信号を増幅し、サン
プリングしてＡ／Ｄ変換した後、サンプリングされた音
声信号にＰＣＭ変調を施すことにより、音声データを取
得すればよい。なお、コンピュータＣ１が取得する音声
データは、必ずしもＰＣＭ信号である必要はない。

【００７２】また、コンピュータＣ１は、音声辞書に格
納すべきデータを、記録媒体ドライバＳＭＤにセットさ
れた記録媒体に、記録媒体ドライバＳＭＤを介して書き
込むようにしてもよい。あるいは、ハードディスク装置
等からなる外部の記憶装置に書き込むようにしてもよ
い。これらの場合、コンピュータＣ１は、記録媒体ドラ
イバや、ハードディスクコントローラ等の制御回路を備
えていればよい。

【００７３】また、コンピュータＣ１は、比較用パラメ
ータや、音素辞書や、差分データを量子化する精度（あ
るいは圧縮率）を指定するパラメータなどを記録した記
録媒体を記録媒体ドライバＳＭＤにセットし、コンピュ
ータＣ１の入力部を操作して、この記録媒体に記録され
たデータを、記録媒体ドライバＳＭＤを介してコンピュ
ータＣ１に読み取らせ、記憶させるようにしてよい。

【００７４】また、差分データは、非線形量子化後のサ
ブバンドデータが表す各周波数成分の強度の瞬時値と、
ステップＳＡ１７で特定されたサブバンドデータが表す
各周波数成分の瞬時値との差分を、周波数が同一である
成分同士でそれぞれ求めた結果を表すデータであっても
よい。この場合、コンピュータＣ１は、ステップＳＡ１
８の処理を省略し、ステップＳＡ１９において、非線形
量子化後のサブバンドデータが表す各周波数成分の強度
の瞬時値と、ステップＳＡ１７で特定したサブバンドデ
ータが表す各周波数成分の瞬時値との差分を、周波数が
同一である成分同士でそれぞれ求め、求めた各差分を表
す差分データを生成して、ステップＳＡ２０に処理を進
めるようにすればよい。

【００７５】また、コンピュータＣ１は、過去に生成し
た非線形量子化後のサブバンドデータのうちもっとも新
しいものを記憶するようにしてもよい。この場合、コン
ピュータＣ１は、新たに非線形量子化後のサブバンドデ
ータを生成するたびに、このサブバンドデータが、自ら
記憶している非線形量子化後のサブバンドデータとの間
で一定程度以上高い相関を示しているか否かを判別し、
示していると判別したとき、識別コード及び差分データ
に代えて、直前の波形と同一の波形が連続していること
を示す所定のデータを生成するようにしてもよい。こう
することにより、圧縮音声データのデータ量は更に小さ
くなる。なお、新たに供給されたサブバンドデータと自
ら記憶しているサブバンドデータとの間の相関の程度
は、たとえば、これら両サブバンドデータ間で、同一周
波数成分間の相関係数を各々求め、求めた相関係数の平
均値の大きさに基づいて判別するようにすればよい。

【００７６】また、コンピュータＣ１は、必ずしも音声
データの振幅の実効値を揃える必要はない。また、コン
ピュータＣ１は、ケプストラム解析又は自己相関係数に
基づく解析のいずれかを行わなくてもよく、この場合
は、ケプストラム解析又は自己相関係数に基づく解析の
うち一方の手法で求めた基本周波数の逆数をそのままピ
ッチ長として扱うようにすればよい。

【００７７】また、コンピュータＣ１が音声データの各
区間内の音声データを移相する量は（−Ψ）である必要
はなく、例えば、コンピュータＣ１は、初期位相を表す
各区間に共通な実数をδとして、それぞれの区間につ
き、（−Ψ＋δ）だけ、音声データを移相するようにし
てもよい。また、コンピュータＣ１が音声データの音声
データを区切る位置は、必ずしもピッチ信号がゼロクロ
スするタイミングである必要はなく、例えば、ピッチ信
号が０でない所定の値となるタイミングであってもよ
い。しかし、初期位相αを０とし、且つ、ピッチ信号が
ゼロクロスするタイミングで音声データを区切るように
すれば、各区間の始点の値は０に近い値になるので、音
声データを各区間へと区切ることに各区間が含むように
なるノイズの量が少なくなる。

【００７８】なお、コンピュータＣ１は専用のシステム
である必要はなく、パーソナルコンピュータ等であって
よい。また、音声信号圧縮プログラムは、音声信号圧縮
プログラムを格納した媒体（ＣＤ−ＲＯＭ、ＭＯ、フレ
キシブルディスク等）からコンピュータＣ１へとインス
トールするようにしてもよいし、通信回線の掲示板（Ｂ
ＢＳ）にピッチ波形抽出プログラムをアップロードし、
これを通信回線を介して配信してもよい。また、音声信
号圧縮プログラムを表す信号により搬送波を変調し、得
られた変調波を伝送し、この変調波を受信した装置が変
調波を復調して音声信号圧縮プログラムを復元するよう
にしてもよい。

【００７９】また、音声信号圧縮プログラムは、ＯＳの
制御下に、他のアプリケーションプログラムと同様に起
動してコンピュータＣ１に実行させることにより、上述
の処理を実行することができる。なお、ＯＳが上述の処
理の一部を分担する場合、記録媒体に格納される音声信
号圧縮プログラムは、当該処理を制御する部分を除いた
ものであってもよい。

【００８０】（第１の実施の形態：音声信号伸長器）次
に、この発明の第１の実施の形態に係る音声信号伸長器
を説明する。この音声信号伸長器は、例えば、図６に示
す構成を有している。図示するように、この音声信号伸
長器は、図１の音声信号圧縮器におけるコンピュータＣ
１と実質的に同一の物理的構成を有するコンピュータＣ
２からなっている。そして、コンピュータＣ２は更に、
音声出力部を備えている。音声出力部は、たとえば、Ｐ
ＣＭデコーダの機能を行う制御回路と、Ｄ／Ａ（Digita
l-to-Analog）コンバータと、ＡＦ（Audio Frequency）
増幅器と、スピーカ等とを備えている。

【００８１】コンピュータＣ２は音声信号伸長プログラ
ムを予め記憶しており、この音声信号伸長プログラムを
実行することにより後述する処理を行う。また、この音
声信号伸長器のコンピュータＣ２は、上述の音声信号圧
縮器のコンピュータＣ１が記憶しているものと実質的に
同一の音素辞書を記憶している。この音素辞書は、ユー
ザ等がコンピュータＣ２の入力部を操作して入力し、コ
ンピュータＣ２に記憶させるようにしてもよい。なお、
同一のコンピュータが、コンピュータＣ１及びコンピュ
ータＣ２の機能を行ってもよい。

【００８２】（第１の実施の形態：音声信号伸長器の動
作）次に、図１の音声信号伸長器の動作を、図７を参照
して説明する。図７は、この音声信号伸長器の動作の流
れを示す図である。

【００８３】ユーザが、コンピュータＣ２に、音声信号
伸長プログラムの起動を指示すると、コンピュータＣ２
は、音声信号伸長プログラムの処理を開始する。

【００８４】すると、まず、コンピュータＣ２は、上述
した音声信号圧縮器が生成したビットストリーム（又は
当該ビットストリームと実質的に同一のデータ構造を有
するビットストリーム）を、例えば自己のシリアル通信
制御部を介して外部から取得する（図７、ステップＳＢ
１）。そして、取得したビットストリームを、識別コー
ドを表す算術符号、差分データを表す算術符号、比例定
数データを表す算術符号、及びピッチ情報を表す算術符
号へと分解する（ステップＳＢ２）。

【００８５】次に、コンピュータＣ２は、ビットストリ
ームを分解して得られた各算術符号を復号化することに
より識別コード、差分データ、比例定数データ及びピッ
チ情報を復元する（ステップＳＢ３）。そして、復元さ
れた識別コードを割り当てられているサブバンドデータ
を自己が記憶している音素辞書より索出する（ステップ
ＳＢ４）。

【００８６】一方、コンピュータＣ２は、ステップＳＢ
３で復元した差分データに、上述の音声信号圧縮器がス
テップＳＡ１２で行うものと実質的に同一の変換を施す
ことにより、この差分データの各周波数成分の強度を表
すデータを生成する（ステップＳＢ５）。

【００８７】次に、コンピュータＣ２は、ステップＳＢ
４で索出されたサブバンドデータが表す各々の周波数成
分について、当該周波数成分の瞬時値と、ステップＳＢ
５で生成したデータが表す同一周波数成分の瞬時値との
和を求め、得られたこれらの和を表すデータを生成する
（ステップＳＢ６）。ステップＳＢ６で生成されるこの
データは、伸長する対象である音声データに基づいて生
成されたサブバンドデータに、上述の音声信号圧縮器が
ステップＳＡ１３及びＳＡ１４で行う処理と実質的に同
一の処理を施して得られる非線形圧縮後のサブバンドデ
ータに相当する。

【００８８】次に、コンピュータＣ２は、ステップＳＢ
６で生成したデータが表す各周波数成分の瞬時値を変更
することにより、伸長する対象である音声データを表
す、非線形量子化される前のサブバンドデータに相当す
るデータを生成する（ステップＳＢ７）。

【００８９】次に、コンピュータＣ２は、ステップＳＢ
７で得られたデータ（非線形量子化される前のサブバン
ドデータ）が表す各周波数成分の瞬時値に、ステップＳ
Ｂ３で復元された比例定数データが表す比例定数の逆数
を乗じることにより振幅を変更する（ステップＳＢ
８）。

【００９０】次に、コンピュータＣ２は、ステップＳＢ
８で振幅を変更されたサブバンドデータに、上述の音声
信号圧縮器がステップＳＡ１８で行う変換と実質的に同
一の変換を施すことにより、このサブバンドデータによ
り各周波数成分の強度が表されるピッチ波形データを復
元する（ステップＳＢ９）。

【００９１】次に、コンピュータＣ２は、ステップＳＢ
９で復元されたピッチ波形データの各区間の時間長を、
ステップＳＢ３で復元されたピッチ情報が示す時間長に
なるよう変更する（ステップＳＢ１０）。区間の時間長
の変更は、たとえば区間内にあるサンプルの間隔を変更
することにより行えばよい。そして、コンピュータＣ２
は、各区間の時間長を変更されたピッチ波形データ（す
なわち、復元された音声を表す音声データ）を復調し、
Ｄ／Ａ変換及び増幅を行い、得られたアナログ信号を用
いてスピーカを駆動することにより、音声を再生する
（ステップＳＢ１１）。

【００９２】なお、この音声信号伸長器の構成も、上述
のものに限られない。たとえば、コンピュータＣ２は、
例えばモデムやＤＳＵ等からなる通信制御装置を備えて
いてもよい。この場合、コンピュータＣ２は、外部の通
信回線及び自己の通信制御装置を介して外部より音声デ
ータを取得してもよいし、圧縮音声データを、通信回線
を介して外部に出力するようにしてもよい。

【００９３】また、コンピュータＣ２は、例えば、上述
の記録媒体ドライバＳＭＤと同様の記録媒体ドライバを
備えていてもよい。この場合、コンピュータＣ２は、圧
縮音声データを、この圧縮音声データが記録された記録
媒体から読み取る等して取得してもよいし、音声辞書に
格納すべきデータを、この記録媒体ドライバにセットさ
れた記録媒体の記憶領域に書き込むようにしてもよい。

【００９４】また、差分データは、圧縮の対象である音
声の各周波数成分の強度と基準となる他の音声の各周波
数成分の強度との差分を周波数が同一である成分同士で
求めた結果をあらわすものであってもよい。（たとえ
ば、上述の音声信号圧縮器が、非線形量子化後のサブバ
ンドデータが表す各周波数成分の強度の瞬時値と、ステ
ップＳＡ１７で特定されたサブバンドデータが表す各周
波数成分の瞬時値との差分を、周波数が同一である成分
同士でそれぞれ求め、求めた各差分を表すものとして生
成した差分データ。）この場合、コンピュータＣ２は、
例えば、ステップＳＢ５の処理を省略し、ステップＳＢ
６においては、ステップＳＢ４で索出されたサブバンド
データが表す各々の周波数成分につき、当該周波数成分
の瞬時値と、ステップＳＢ３で復元された差分データが
表す同一周波数成分の瞬時値との和を求め、すべての周
波数成分について求めた和を表すデータを生成するよう
にすればよい。

【００９５】また、圧縮音声データには、識別コードに
代えて、直前の波形と同一の波形が連続していることを
示す所定のデータが含まれる場合があってもよい。この
ようなデータが圧縮音声データに含まれることがあり得
る場合、コンピュータＣ２は、例えばステップＳＢ３
で、この所定のデータが含まれているか否かの判別も行
うものとし、一方、例えばステップＳＢ１０では、区間
の時間長を変更したピッチ波形データのうちもっとも新
しいものを記憶するものとすればよい。そして、このデ
ータが含まれているとステップＳＢ３で判別した場合、
当該判別をして以降最初に行うステップＳＢ１１の処理
では、ステップＳＢ１０で自らが記憶した最新のピッチ
波形データが表す音声を再生するようにすればよい。

【００９６】なお、コンピュータＣ２も専用のシステム
である必要はなく、パーソナルコンピュータ等であって
よい。また、音声信号伸長プログラムは、音声信号伸長
プログラムを格納した媒体からコンピュータＣ２へとイ
ンストールするようにしてもよいし、通信回線の掲示板
に音声信号伸長プログラムをアップロードし、これを通
信回線を介して配信してもよい。また、音声信号伸長プ
ログラムを表す信号により搬送波を変調し、得られた変
調波を伝送し、この変調波を受信した装置が変調波を復
調して音声信号伸長プログラムを復元するようにしても
よい。

【００９７】また、音声信号伸長プログラムは、ＯＳの
制御下に、他のアプリケーションプログラムと同様に起
動してコンピュータＣ２に実行させることにより、上述
の処理を実行することができる。なお、ＯＳが上述の処
理の一部を分担する場合、記録媒体に格納される音声信
号伸長プログラムは、当該処理を制御する部分を除いた
ものであってもよい。

【００９８】（第２の実施の形態：音声信号圧縮器）次
に、この発明の第２の実施の形態を説明する。図８は、
この発明の第２の実施の形態に係る音声信号圧縮器の構
成を示す図である。図示するように、この音声信号圧縮
器は、音声入力部Ａ１と、ピッチ波形抽出部Ａ２と、サ
ブバンド分割部Ａ３と、振幅調整部Ａ４と、非線形量子
化部Ａ５と、線形予測解析部Ａ６と、符号化部Ａ７と、
復号化部Ａ８と、差分計算部Ａ９と、量子化部Ａ１０
と、算術符号化部Ａ１１と、ビットストリーム形成部Ａ
１２とより構成されている。

【００９９】音声入力部Ａ１は、例えば、第１の実施の
形態における記録媒体ドライバＳＭＤと同様の記録媒体
ドライバ等より構成されている。音声入力部Ａ１は、音
声の波形を表す音声データを、この音声データが記録さ
れた記録媒体から読み取る等して取得し、ピッチ波形抽
出部Ａ２及び線形予測解析部Ａ６に供給する。なお、音
声データは、ＰＣＭ変調されたディジタル信号の形式を
有しており、音声のピッチより十分短い一定の周期でサ
ンプリングされた音声を表しているものとする。

【０１００】ピッチ波形抽出部Ａ２、サブバンド分割部
Ａ３、振幅調整部Ａ４、非線形量子化部Ａ５、線形予測
解析部Ａ６、符号化部Ａ７、復号化部Ａ８、差分計算部
Ａ９、量子化部Ａ１０及び算術符号化部Ａ１１は、いず
れも、ＤＳＰやＣＰＵ等のプロセッサより構成されてい
る。なお、ピッチ波形抽出部Ａ２、サブバンド分割部Ａ
３、振幅調整部Ａ４、非線形量子化部Ａ５、線形予測解
析部Ａ６、符号化部Ａ７、復号化部Ａ８、差分計算部Ａ
９、量子化部Ａ１０及び算術符号化部Ａ１１の一部又は
全部の機能を単一のプロセッサが行うようにしてもよ
い。

【０１０１】ピッチ波形抽出部Ａ２は、音声入力部Ａ１
より供給された音声データを、この音声データが表す音
声の単位ピッチ分（たとえば、１ピッチ分）にあたる区
間へと分割する。そして、分割されてできた各区間を移
相及びリサンプリングすることにより、各区間の時間長
及び位相を互いに実質的に同一になるように揃える。そ
して、各区間の時間長及び位相を揃えられた音声データ
（ピッチ波形データ）を、サブバンド分割部Ａ３及び差
分計算部Ａ９に供給する。また、ピッチ波形抽出部Ａ２
は、この音声データの各区間の元のサンプル数を示すピ
ッチ情報を生成し、算術符号化部Ａ１１へと供給する。

【０１０２】ピッチ波形抽出部Ａ２は、機能的には、た
とえば図９に示すように、ケプストラム解析部Ａ２１
と、自己相関解析部Ａ２２と、重み計算部Ａ２３と、Ｂ
ＰＦ（バンドパスフィルタ）係数計算部Ａ２４と、バン
ドパスフィルタＡ２５と、ゼロクロス解析部Ａ２６と、
波形相関解析部Ａ２７と、位相調整部Ａ２８と、ピッチ
長固定部Ａ２９とより構成されている。

【０１０３】なお、ケプストラム解析部Ａ２１、自己相
関解析部Ａ２２、重み計算部Ａ２３、ＢＰＦ係数計算部
Ａ２４、バンドパスフィルタＡ２５、ゼロクロス解析部
Ａ２６、波形相関解析部Ａ２７、位相調整部Ａ２８及び
ピッチ長固定部Ａ２９の一部又は全部の機能を単一のプ
ロセッサが行うようにしてもよい。

【０１０４】なお、ケプストラム解析部Ａ２１、自己相
関解析部Ａ２２、重み計算部Ａ２３、ＢＰＦ係数計算部
Ａ２４、バンドパスフィルタＡ２５、ゼロクロス解析部
Ａ２６、波形相関解析部Ａ２７、位相調整部Ａ２８及び
ピッチ長固定部Ａ２９の一部又は全部の機能を同一のＤ
ＳＰやＣＰＵが行ってもよい。

【０１０５】ピッチ波形抽出部Ａ２は、ケプストラム解
析と、自己相関関数に基づく解析とを併用して、ピッチ
の長さを特定する。すなわち、まず、ケプストラム解析
部Ａ２１は、音声入力部Ａ１より供給される音声データ
にケプストラム解析を施すことにより、この音声データ
が表す音声の基本周波数を特定し、特定した基本周波数
を示すデータを生成して重み計算部Ａ２３へと供給す
る。

【０１０６】具体的には、ケプストラム解析部Ａ２１
は、音声入力部Ａ１より音声データを供給されると、ま
ず、この音声データの強度を、元の値の対数に実質的に
等しい値へと変換する。（対数の底は任意である。）次に、ケプストラム解析部Ａ２１は、値が変換された音
声データのスペクトル（すなわち、ケプストラム）を、
高速フーリエ変換の手法（あるいは、離散的変数をフー
リエ変換した結果を表すデータを生成する他の任意の手
法）により求める。そして、このケプストラムの極大値
を与える周波数のうちの最小値を基本周波数として特定
し、特定した基本周波数を示すデータを生成して重み計
算部Ａ２３へと供給する。

【０１０７】一方、自己相関解析部Ａ２２は、音声入力
部Ａ１より音声データを供給されると、音声データの波
形の自己相関関数に基づいて、この音声データが表す音
声の基本周波数を特定し、特定した基本周波数を示すデ
ータを生成して重み計算部Ａ２３へと供給する。

【０１０８】具体的には、自己相関解析部Ａ２２は、音
声入力部Ａ１より音声データを供給されるとまず、上述
した自己相関関数ｒ（ｌ）を特定する。そして、特定し
た自己相関関数ｒ（ｌ）をフーリエ変換した結果得られ
るピリオドグラムの極大値を与える周波数のうち、所定
の下限値を超える最小の値を基本周波数として特定し、
特定した基本周波数を示すデータを生成して重み計算部
Ａ２３へと供給する。

【０１０９】重み計算部Ａ２３は、ケプストラム解析部
Ａ２１及び自己相関解析部Ａ２２より基本周波数を示す
データを１個ずつ合計２個供給されると、これら２個の
データが示す基本周波数の逆数の絶対値の平均を求め
る。そして、求めた値（すなわち、平均ピッチ長）を示
すデータを生成し、ＢＰＦ係数計算部Ａ２４へと供給す
る。

【０１１０】ＢＰＦ係数計算部Ａ２４は、平均ピッチ長
を示すデータを重み計算部Ａ２３より供給され、ゼロク
ロス解析部Ａ２６より後述のゼロクロス信号を供給され
ると、供給されたデータやゼロクロス信号に基づき、平
均ピッチ長とピッチ信号とゼロクロスの周期とが互いに
所定量以上異なっているか否かを判別する。そして、異
なっていないと判別したときは、ゼロクロスの周期の逆
数を中心周波数（バンドパスフィルタＡ２５の通過帯域
の中央の周波数）とするように、バンドパスフィルタＡ
２５の周波数特性を制御する。一方、所定量以上異なっ
ていると判別したときは、平均ピッチ長の逆数を中心周
波数とするように、バンドパスフィルタＡ２５の周波数
特性を制御する。

【０１１１】バンドパスフィルタＡ２５は、中心周波数
が可変なＦＩＲ（Finite Impulse Response）型のフィ
ルタの機能を行う。具体的には、バンドパスフィルタＡ
２５は、自己の中心周波数を、ＢＰＦ係数計算部Ａ２４
の制御に従った値に設定する。そして、音声入力部Ａ１
より供給される音声データをフィルタリングして、フィ
ルタリングされた音声データ（ピッチ信号）を、ゼロク
ロス解析部Ａ２６及び波形相関解析部Ａ２７へと供給す
る。ピッチ信号は、音声データのサンプルリング間隔と
実質的に同一のサンプリング間隔を有するディジタル形
式のデータからなるものとする。なお、バンドパスフィ
ルタＡ２５の帯域幅は、バンドパスフィルタＡ２５の通
過帯域の上限が音声データの表す音声の基本周波数の２
倍以内に常に収まるような帯域幅であることが望まし
い。

【０１１２】ゼロクロス解析部Ａ２６は、バンドパスフ
ィルタＡ２５から供給されたピッチ信号の瞬時値が０と
なる時刻（ゼロクロスする時刻）が来るタイミングを特
定し、特定したタイミングを表す信号（ゼロクロス信
号）を、ＢＰＦ係数計算部Ａ２４へと供給する。このよ
うにして、音声データのピッチの長さが特定される。た
だし、ゼロクロス解析部Ａ２６は、ピッチ信号の瞬時値
が０でない所定の値となる時刻が来るタイミングを特定
し、特定したタイミングを表す信号を、ゼロクロス信号
に代えてＢＰＦ係数計算部Ａ２４へと供給するようにし
てもよい。

【０１１３】波形相関解析部Ａ２７は、音声入力部Ａ１
より音声データを供給され、バンドパスフィルタＡ２５
よりピッチ信号を供給されると、ピッチ信号の単位周期
（例えば１周期）の境界が来るタイミングで音声データ
を区切る。そして、区切られてできる区間のそれぞれに
ついて、この区間内の音声データの位相を種々変化させ
たものとこの区間内のピッチ信号との相関を求め、最も
相関が高くなるときの音声データの位相を、この区間内
の音声データの位相として特定する。このようにして、
各区間につき音声データの位相が特定される。

【０１１４】具体的には、波形相関解析部Ａ２７は、例
えば、それぞれの区間毎に、上述した値Ψを特定し、値
Ψを示すデータを生成して、この区間内の音声データの
位相を表す位相データとして位相調整部Ａ２８に供給す
る。なお、区間の時間的な長さは、１ピッチ分程度であ
ることが望ましい。

【０１１５】位相調整部Ａ２８は、音声入力部Ａ１より
音声データを供給され、波形相関解析部Ａ２７より音声
データの各区間の位相Ψを示すデータを供給されると、
それぞれの区間の音声データの位相を（−Ψ）だけ移相
することにより、各区間の位相を揃える。そして、移相
された音声データをピッチ長固定部Ａ２９に供給する。

【０１１６】ピッチ長固定部Ａ２９は、移相された音声
データを位相調整部Ａ２８より供給されると、供給され
た音声データの各区間をリサンプリングすることによ
り、各区間の時間長を互いに実質的に同一になるように
揃える。そして、各区間の時間長を揃えられた音声デー
タ（すなわち、ピッチ波形データ）をサブバンド分割部
Ａ３及び差分計算部Ａ９へと供給する。

【０１１７】また、ピッチ長固定部Ａ２９は、この音声
データの各区間の元のサンプル数（音声入力部Ａ１より
ピッチ長固定部Ａ２９へと供給された時点におけるこの
音声データの各区間のサンプル数）を示すピッチ情報を
生成し、算術符号化部Ａ１１へと供給する。

【０１１８】サブバンド分割部Ａ３は、ピッチ波形抽出
部Ａ２より供給されたピッチ波形データにＤＣＴ等の直
交変換を施すことにより、上述したサブバンドデータを
生成する。そして、生成したサブバンドデータを振幅調
整部Ａ４へと供給する。

【０１１９】振幅調整部Ａ４は、サブバンド分割部Ａ３
よりサブバンドデータを供給されると、このサブバンド
データが表す基本周波数成分や高調波成分の瞬時値に比
例定数を乗じることにより振幅を変更し、振幅が変更さ
れたサブバンドデータを非線形量子化部Ａ５に供給す
る。このようにして、サブバンドデータの各周波数成分
に乗じる比例定数が特定される。

【０１２０】また、振幅調整部Ａ４は、どのサブバンド
データのどの周波数成分（基本周波数成分又は高調波成
分）にどのような値の比例定数を乗じたかを示す比例定
数データを生成し、この比例定数データを算術符号化部
Ａ１１に供給する。なお、比例定数は、たとえば、同一
のサブバンドデータが表す各周波数成分の強度の最大値
が、互いに共通した一定値になるように決定するものと
する。

【０１２１】非線形量子化部Ａ５は、振幅調整部Ａ４よ
り、振幅を変更されたサブバンドデータを供給される
と、このサブバンドデータが表す各周波数成分の瞬時値
に非線形圧縮を施して得られる値を量子化したものに相
当するサブバンドデータを生成し、生成したサブバンド
データ（すなわち、非線形量子化後のサブバンドデー
タ）を符号化部Ａ７へと供給する。なお、非線形圧縮の
手法は、具体的には、例えば、非線形量子化後のサブバ
ンドデータの各周波数成分の瞬時値が、元の瞬時値の対
数を量子化した値に実質的に等しくなるようなものであ
ればよい。（ただし、対数の底はすべての周波数成分に
ついて共通であるものとする。）

【０１２２】線形予測解析部Ａ６は、音声入力部Ａ１よ
り供給された音声データに線形予測解析を施すことによ
り、この音声データが表す音声の話者に固有の識別用パ
ラメータ（たとえば、この音声のスペクトルの包絡線を
表す包絡線データや、あるいはこの音声のフォルマント
を表すデータなど）を抽出する。そして、抽出したパラ
メータを符号化部Ａ７に供給する。

【０１２３】符号化部Ａ７は、プロセッサに加え、ハー
ドディスク装置等からなる記憶装置を備えている。符号
化部Ａ７は、話者に固有のパラメータであって線形予測
解析部Ａ６が抽出する識別用パラメータと同種のパラメ
ータ（たとえば、識別用パラメータが包絡線データであ
れば、包絡線データ）を、話者毎に記憶する。また、各
々の話者のパラメータに対応付けた形で、この話者の音
声を構成する音素を表す音素辞書を記憶する。音素辞書
は、具体的には、第１の実施の形態における音素序書と
同様、音素の基本周波数成分及び高調波成分の強度の時
間変化を表すサブバンドデータを、音素別に格納してい
るデータベースからなっていればよく、各々のサブバン
ドデータには、このサブバンドデータに固有の識別コー
ドが割り当てられていればよい。

【０１２４】符号化部Ａ７は、非線形量子化部Ａ５より
非線形量子化後のサブバンドデータを供給され、線形予
測解析部Ａ６より識別用パラメータを供給されると、符
号化部Ａ７自身が記憶しているパラメータのうち、線形
予測解析部Ａ６より供給された識別用パラメータにもっ
ともよく近似できるパラメータを特定することにより、
このパラメータに対応付けられた音素辞書を選択する。

【０１２５】識別用パラメータ及び符号化部Ａ７が記憶
するパラメータがいずれも包絡線データからなる場合、
符号化部Ａ７は、たとえば、識別用パラメータが表す包
絡線との間の相関係数が最も大きい包絡線を表すパラメ
ータを、識別用パラメータに最もよく近似できるパラメ
ータとして特定すればよい。

【０１２６】次に、符号化部Ａ７は、選択した音素辞書
に含まれるサブバンドデータのうち、非線形量子化部Ａ
５より供給されたサブバンドデータにもっとも近い波形
を表しているものを特定する。具体的には、たとえば、
符号化部Ａ７は、以下（１）及び（２）として記す処理
を行う。すなわち、（１）まず、非線形量子化部Ａ５より供給されたサブ
バンドデータと、選択した音素辞書に含まれる１個の音
素のサブバンドデータとの間で、同一周波数成分間の相
関係数を各々求め、求めた相関係数の平均値を求める。（２）（１）の処理を、選択した音素辞書に含まれる
すべての音素のサブバンドデータについて行い、相関係
数の平均値が最も高かったサブバンドデータを、非線形
量子化部Ａ５より供給されたサブバンドデータにもっと
も近い波形を表しているものとして特定する。

【０１２７】そして、符号化部Ａ７は、特定したサブバ
ンドデータに割り当てられている識別コードを、算術符
号化部Ａ１１へと供給する。また、特定したサブバンド
データを、復号化部Ａ８へと供給する。

【０１２８】復号化部Ａ８は、符号化部Ａ７より供給さ
れたサブバンドデータに変換を施すことにより、このサ
ブバンドデータにより各周波数成分の強度が表されるピ
ッチ波形データを復元する。そして、復元されたピッチ
波形データを差分計算部Ａ９へと供給する。なお、復号
化部Ａ８がサブバンドデータに施す変換は、このサブバ
ンドデータを生成するために音素の波形に施した変換に
対して実質的に逆変換の関係にあるような変換であるも
のとする。

【０１２９】差分計算部Ａ９は、ピッチ波形抽出部Ａ２
から供給されたピッチ波形データの瞬時値と、復号化部
Ａ８から供給されたピッチ波形データの瞬時値との差を
表す差分データを生成し、量子化部Ａ１０に供給する。

【０１３０】量子化部Ａ１０は、プロセッサに加え、Ｒ
ＯＭ（Read Only Memory）等の記憶装置を備えている。
量子化部Ａ１０は、差分データを量子化する精度（ある
いは、量子化前の差分データのデータ量に対する量子化
後の差分データのデータ量の比を表す圧縮率）を指定す
るパラメータを、ユーザ等の操作に従って記憶する。そ
して、差分計算部Ａ９より差分データを供給されると、
この差分データの瞬時値を、自己が記憶するパラメータ
により指定される精度で量子化し（あるいは、このパラ
メータにより指定される圧縮率となるよう量子化し）、
量子化された差分データを算術符号化部Ａ１１へと供給
する。

【０１３１】算術符号化部Ａ１１は、符号化部Ａ７より
供給された識別コードと、量子化部Ａ１０より供給され
た差分データと、ピッチ波形抽出部Ａ２より供給された
ピッチ情報と、振幅調整部Ａ４より供給された比例定数
データとを算術符号へと変換し、互いに対応付けてビッ
トストリーム形成部Ａ１２へと供給する。

【０１３２】ビットストリーム形成部Ａ１２は、たとえ
ば、ＲＳ２３２Ｃ等の規格に準拠して外部とのシリアル
通信を制御する制御回路と、ＣＰＵ等のプロセッサとよ
り構成されている。ビットストリーム形成部Ａ１２は、
互いに対応付けられて算術符号化部Ａ１１より供給され
た算術符号を表すビットストリームを生成し、圧縮音声
データとして出力する。

【０１３３】ビットストリーム形成部Ａ１２が出力する
圧縮音声データも、単位ピッチ分の区間の時間長が規格
化され、ピッチのゆらぎの影響が除去された音声データ
であるピッチ波形データに基づいて生成されている。こ
のため、圧縮音声データは、音声の各周波数成分（基本
周波数成分及び高調波成分）の強度の時間変化を正確に
表すものとなる。また、圧縮音声データは、予め各周波
数成分の強度の時間変化のサンプルをデータが用意され
ている音声を識別する識別コードと、この音声との差分
を表す差分データとから構成されているので、圧縮音声
データのデータ量は極めて小さくなる。また、ピッチ情
報を用いてピッチ波形信号の各区間の元の時間長を特定
することができ、比例定数データを用いて各周波数成分
の元の振幅を特定することができる。このため、ピッチ
波形信号の各区間の時間長や各周波数成分の振幅を、元
の音声データにおける時間長や振幅へと復元することに
より、元の音声データを容易に復元できる。

【０１３４】なお、この音声信号圧縮器の構成は上述の
ものに限られない。たとえば、音声入力部Ａ１は、電話
回線、専用回線、衛星回線等の通信回線を介して外部よ
り音声データを取得するようにしてもよい。この場合、
音声入力部Ａ１は、例えばモデムやＤＳＵ等からなる通
信制御部を備えていればよい。

【０１３５】また、音声入力部Ａ１は、マイクロフォ
ン、ＡＦ増幅器、サンプラー、Ａ／Ｄコンバータ及びＰ
ＣＭエンコーダなどからなる集音装置を備えていてもよ
い。集音装置は、自己のマイクロフォンが集音した音声
を表す音声信号を増幅し、サンプリングしてＡ／Ｄ変換
した後、サンプリングされた音声信号にＰＣＭ変調を施
すことにより、音声データを取得すればよい。なお、音
声入力部Ａ１が取得する音声データは、必ずしもＰＣＭ
信号である必要はない。

【０１３６】また、このピッチ波形抽出部Ａ２は、ケプ
ストラム解析部Ａ２１（又は自己相関解析部Ａ２２）を
備えていなくてもよく、この場合、重み計算部Ａ２３
は、ケプストラム解析部Ａ２１（又は自己相関解析部Ａ
２２）が求めた基本周波数の逆数をそのまま平均ピッチ
長として扱うようにすればよい。

【０１３７】また、ゼロクロス解析部Ａ２６は、バンド
パスフィルタＡ２５から供給されたピッチ信号を、その
ままゼロクロス信号としてＢＰＦ係数計算部Ａ２４へと
供給するようにしてもよい。

【０１３８】また、ビットストリーム形成部Ａ１２は、
圧縮音声データを、通信回線等を介して外部に出力する
ようにしてもよい。通信回線を介してデータを出力する
場合、ビットストリーム形成部Ａ１２は、例えばモデム
やＤＳＵ等からなる通信制御部を備えていればよい。ま
た、ビットストリーム形成部Ａ１２は、記録媒体ドライ
バを備えていてもよく、この場合、ビットストリーム形
成部Ａ１２は、音声辞書に格納すべきデータを、この記
録媒体ドライバにセットされた記録媒体の記憶領域に書
き込むようにしてもよい。なお、単一のモデムやＤＳＵ
や記録媒体ドライバが音声入力部Ａ１及びビットストリ
ーム形成部Ａ１２を構成していてもよい。

【０１３９】また、差分計算部Ａ９は、非線形量子化部
Ａ５が生成した非線形量子化後のサブバンドデータを取
得し、符号化部Ａ７が特定したサブバンドデータを取得
するようにしてもよい。この場合、差分計算部Ａ９は、
非線形量子化部Ａ５が生成した非線形量子化後のサブバ
ンドデータが表す各周波数成分の強度の瞬時値と、符号
化部Ａ７が特定したサブバンドデータが表す各周波数成
分の瞬時値との差分を、周波数が同一である成分同士で
それぞれ求め、求めた各差分を表す差分データを生成し
て量子化部Ａ１０に供給するようにしてもよい。

【０１４０】また、符号化部Ａ７は、過去に非線形量子
化部Ａ５より供給された非線形量子化後のサブバンドデ
ータのうちもっとも新しいものを記憶する記憶部を備え
ていてもよい。この場合、符号化部Ａ７は、新たに非線
形量子化後のサブバンドデータを供給されるたびに、こ
のサブバンドデータが、自ら記憶している非線形量子化
後のサブバンドデータとの間で一定程度以上高い相関を
示しているか否かを判別し、示していると判別したと
き、算術符号化部Ａ１１に、識別コード及び差分データ
に代えて、直前の波形と同一の波形が連続していること
を示す所定のデータを供給するようにしてもよい。こう
することにより、圧縮音声データのデータ量は更に小さ
くなる。なお、新たに供給されたサブバンドデータと自
ら記憶しているサブバンドデータとの間の相関の程度
は、たとえば、これら両サブバンドデータ間で、同一周
波数成分間の相関係数を各々求め、求めた相関係数の平
均値の大きさに基づいて判別するようにすればよい。

【０１４１】（第２の実施の形態：音声信号伸長器）次
に、この発明の第２の実施の形態に係る音声信号伸長器
を説明する。図１０は、この音声信号伸長器の構成を示
す図である。図示するように、この音声信号伸長器は、
ビットストリーム分解部Ｂ１と、算術符号復号化部Ｂ２
と、復号化部Ｂ３と、差分復元部Ｂ４と、加算部Ｂ５
と、非線形逆量子化部Ｂ６と、振幅復元部Ｂ７と、サブ
バンド合成部Ｂ８と、音声波形復元部Ｂ９と、音声出力
部Ｂ１０とより構成されている。

【０１４２】ビットストリーム分解部Ｂ１は、たとえ
ば、ＲＳ２３２Ｃ等の規格に準拠して外部とのシリアル
通信を制御する制御回路と、ＣＰＵ等のプロセッサとよ
り構成されている。ビットストリーム分解部Ｂ１は、上
述した音声信号圧縮器のビットストリーム形成部Ａ１２
が生成したビットストリーム（又はビットストリーム形
成部Ａ１２が生成するビットストリームと実質的に同一
のデータ構造を有するビットストリーム）を外部から取
得する。そして、取得したビットストリームを、識別コ
ードを表す算術符号、差分データを表す算術符号、及び
ピッチ情報を表す算術符号へと分解し、得られた算術符
号を算術符号復号化部Ｂ２へと供給する。

【０１４３】算術符号復号化部Ｂ２、復号化部Ｂ３、差
分復元部Ｂ４、加算部Ｂ５、非線形逆量子化部Ｂ６、振
幅復元部Ｂ７、サブバンド合成部Ｂ８及び音声波形復元
部Ｂ９は、いずれも、ＤＳＰやＣＰＵ等のプロセッサよ
り構成されている。なお、算術符号復号化部Ｂ２、復号
化部Ｂ３、差分復元部Ｂ４、加算部Ｂ５、非線形逆量子
化部Ｂ６、振幅復元部Ｂ７、サブバンド合成部Ｂ８及び
音声波形復元部Ｂ９の一部又は全部の機能を単一のプロ
セッサが行うようにしてもよい。

【０１４４】算術符号復号化部Ｂ２は、ビットストリー
ム分解部Ｂ１より供給された算術符号を復号化すること
により識別コード、差分データ、比例定数データ及びピ
ッチ情報を復元する。そして、復元された識別コードを
復号化部Ｂ３へと供給し、復元された差分データを差分
復元部Ｂ４へと供給し、復元された比例定数データを振
幅復元部Ｂ７へと供給し、復元されたピッチ情報を音声
波形復元部Ｂ９へと供給する。

【０１４５】復号化部Ｂ３は、プロセッサに加え、更
に、ハードディスク装置等からなる記憶装置を備えてい
る。復号化部Ｂ３は、上述の音声信号圧縮器の符号化部
Ａ７が記憶しているものと実質的に同一の音素辞書を記
憶している。

【０１４６】復号化部Ｂ３は、算術符号復号化部Ｂ２よ
り識別コードを供給されると、この識別コードを割り当
てられているサブバンドデータを音素辞書より索出し、
索出されたサブバンドデータを加算部Ｂ５へと供給す
る。

【０１４７】差分復元部Ｂ４は、差分データを算術符号
復号化Ｂ３より供給されると、この差分データに、上述
の音声信号圧縮器のサブバンド分割部Ａ３が行うものと
実質的に同一の変換を施すことにより、この差分データ
の各周波数成分の強度を表すデータを生成する。そし
て、生成したデータを、加算部Ｂ５へと供給する。

【０１４８】加算部Ｂ５は、復号化部Ｂ３から供給され
たサブバンドデータが表す各々の周波数成分について、
当該周波数成分の瞬時値と、差分復元部Ｂ４から供給さ
れたデータが表す同一周波数成分の瞬時値との和を求め
る。そして、すべての周波数成分について求めた和を表
すデータを生成し、非線形逆量子化部Ｂ６に供給する。
非線形逆量子化部Ｂ６に供給するこのデータは、伸長す
る対象である音声データに基づいて生成されたサブバン
ドデータに、上述の音声信号圧縮器の振幅調整部Ａ４及
び非線形量子化部Ａ５が行うものと実質的に同一の処理
を施して得られる非線形圧縮後のサブバンドデータに相
当する。

【０１４９】非線形逆量子化部Ｂ６は、加算部Ｂ５より
データを供給されると、このデータが表す各周波数成分
の瞬時値を変更することにより、伸長する対象である音
声データを表す、非線形量子化される前のサブバンドデ
ータに相当するデータを生成し、振幅復元部Ｂ７へと供
給する。

【０１５０】振幅復元部Ｂ７は、非線形量子化される前
のサブバンドデータを非線形逆量子化部Ｂ６より供給さ
れ、算術符号復号化部Ｂ２より比例定数データを供給さ
れると、このサブバンドデータが表す各周波数成分の瞬
時値に、この比例定数データが表す比例定数の逆数を乗
じることにより振幅を変更し、振幅を変更されたサブバ
ンドデータをサブバンド合成部Ｂ８に供給する。

【０１５１】サブバンド合成部Ｂ８は、振幅を変更され
たサブバンドデータを振幅復元部Ｂ７より供給される
と、このサブバンドデータに、上述の音声信号圧縮器の
復号化部Ａ８が行うものと実質的に同一の変換を施すこ
とにより、このサブバンドデータにより各周波数成分の
強度が表されるピッチ波形データを復元する。そして、
復元されたピッチ波形データを、音声波形復元部Ｂ９へ
と供給する。

【０１５２】音声波形復元部Ｂ９は、サブバンド合成部
Ｂ８より供給されたピッチ波形データの各区間の時間長
を、算術符号復号化部Ｂ２より供給されるピッチ情報が
示す時間長になるよう変更する。区間の時間長の変更
は、たとえば区間内にあるサンプルの間隔を変更するこ
とにより行えばよい。そして、音声波形復元部Ｂ９は、
各区間の時間長を変更されたピッチ波形データ（すなわ
ち、復元された音声を表す音声データ）を音声出力部Ｂ
１０へと供給する。

【０１５３】音声出力部Ｂ１０は、たとえば、ＰＣＭデ
コーダの機能を行う制御回路と、Ｄ／Ａ（Digital-to-A
nalog）コンバータと、ＡＦ（Audio Frequency）増幅器
と、スピーカ等とを備えている。音声出力部Ｂ１０は、
音声波形復元部Ｂ９より、復元された音声を表す音声デ
ータを供給されると、この音声データを復調し、Ｄ／Ａ
変換及び増幅を行い、得られたアナログ信号を用いてス
ピーカを駆動することにより、音声を再生する。

【０１５４】なお、この音声信号伸長器の構成も、上述
のものに限られない。たとえば、ビットストリーム分解
部Ｂ１は、通信回線を介して外部より音声データを取得
するようにしてもよい。この場合、ビットストリーム分
解部Ｂ１は、例えばモデムやＤＳＵ等からなる通信制御
部を備えていればよい。また、ビットストリーム分解部
Ｂ１は、例えば、記録媒体ドライバを備えていてもよ
く、この場合、ビットストリーム分解部Ｂ１は、圧縮音
声データを、この圧縮音声データが記録された記録媒体
から読み取る等して取得してもよい。

【０１５５】また、音声出力部Ｂ１０は、圧縮音声デー
タを、通信回線等を介して外部に出力するようにしても
よい。通信回線を介してデータを出力する場合、音声出
力部Ｂ１０は、例えばモデムやＤＳＵ等からなる通信制
御部を備えていればよい。また、音声出力部Ｂ１０は、
記録媒体ドライバを備えていてもよく、この場合、音声
出力部Ｂ１０は、音声辞書に格納すべきデータを、この
記録媒体ドライバにセットされた記録媒体の記憶領域に
書き込むようにしてもよい。なお、単一のモデムやＤＳ
Ｕや記録媒体ドライバがビットストリーム分解部Ｂ１及
び音声出力部Ｂ１０を構成していてもよい。

【０１５６】また、差分データは、圧縮の対象である音
声の各周波数成分の強度と基準となる他の音声の各周波
数成分の強度との差分を周波数が同一である成分同士で
求めた結果をあらわすものであってもよい。（たとえ
ば、上述の音声信号圧縮器の差分計算部Ａ９が、非線形
量子化部Ａ５が生成した非線形量子化後のサブバンドデ
ータが表す各周波数成分の強度の瞬時値と、符号化部Ａ
７が特定したサブバンドデータが表す各周波数成分の瞬
時値との差分を、周波数が同一である成分同士でそれぞ
れ求め、求めた各差分を表すものとして生成した差分デ
ータ。）この場合、加算部Ｂ５は、差分データを算術符
号復号化部Ｂ２から取得し、復号化部Ｂ３から供給され
たサブバンドデータが表す各々の周波数成分について、
当該周波数成分の瞬時値と、算術符号復号化部Ｂ２から
取得した差分データが表す同一周波数成分の瞬時値との
和を求め、すべての周波数成分について求めた和を表す
データを生成して、非線形逆量子化部Ｂ６に供給するよ
うにすればよい。

【０１５７】また、圧縮音声データには、識別コードに
代えて、直前の波形と同一の波形が連続していることを
示す所定のデータが含まれる場合があってもよい。この
場合、算術符号復号化部２は、この所定のデータが含ま
れているか否かを判別し、含まれていると判別したと
き、直前の波形と同一の波形が連続していることを、た
とえば音声出力部Ｂ１０に通知するようにしてもよい。
一方、たとえば、音声出力部Ｂ１０は、過去に音声波形
復元部Ｂ９より供給された音声データのうちもっとも新
しいものを記憶する記憶部を備えていてもよい。そし
て、音声出力部Ｂ１０は、この場合、算術符号復号化部
２より、直前の波形と同一の波形が連続していることを
通知されたとき、自らが記憶する音声データが表す音声
を再生するようにすればよい。

【０１５８】

【発明の効果】以上説明したように、この発明によれ
ば、音声を表すデータを効率的に圧縮し、あるいは、ゆ
らぎを含む音声を表すデータを高音質で圧縮する音声信
号圧縮装置、音声信号伸長装置、音声信号圧縮方法及び
音声信号伸長方法が実現される。

【図面の簡単な説明】

【図１】この発明の第１の実施の形態に係る音声信号圧
縮器の構成を示すブロック図である。

【図２】図１の音声信号圧縮器の動作の流れの前半を示
す図である。

【図３】図１の音声信号圧縮器の動作の流れの後半を示
す図である。

【図４】（ａ）及び（ｂ）は、移相される前の音声デー
タの波形を示すグラフであり、（ｃ）は、ピッチ波形デ
ータの波形を表すグラフである。

【図５】音声の各周波数成分の強度の時間変化の例を示
すグラフである。

【図６】この発明の第１の実施の形態に係る音声信号伸
長器の構成を示すブロック図である。

【図７】図６の音声信号伸長器の動作の流れを示す図で
ある。

【図８】この発明の第２の実施の形態に係る音声信号圧
縮器の構成を示すブロック図である。

【図９】図８のピッチ波形抽出部の構成を示すブロック
図である。

【図１０】この発明の第２の実施の形態に係る音声信号
伸長器の構成を示すブロック図である。

【符号の説明】

Ｃ１、Ｃ２コンピュータＳＭＤ記録媒体ドライバＡ１音声入力部Ａ２ピッチ波形抽出部Ａ２１ケプストラム解析部Ａ２２自己相関解析部Ａ２３重み計算部Ａ２４ＢＰＦ係数計算部Ａ２５バンドパスフィルタＡ２６ゼロクロス解析部Ａ２７波形相関解析部Ａ２８位相調整部Ａ２９ピッチ長固定部Ａ３サブバンド分割部Ａ４振幅調整部Ａ５非線形量子化部Ａ６線形予測解析部Ａ７符号化部Ａ８復号化部Ａ９差分計算部Ａ１０量子化部Ａ１１算術符号化部Ａ１２ビットストリーム形成部Ｂ１ビットストリーム分解部Ｂ２算術符号復号化部Ｂ４差分復元部Ｂ３復号化部Ｂ５加算部Ｂ６非線形逆量子化部Ｂ７振幅復元部Ｂ８サブバンド合成部Ｂ９音声波形復元部Ｂ１０音声出力部

Claims

【特許請求の範囲】

【請求項１】圧縮する対象である第１の音声の波形を表
す音声信号を取得し、当該音声信号をフィルタリングし
てピッチ信号を抽出するフィルタと、前記フィルタにより抽出されたピッチ信号に基づいて前
記音声信号を区間に区切り、各該区間について、当該ピ
ッチ信号との相関関係に基づいて位相を調整する位相調
整手段と、前記位相調整手段により位相を調整された各区間につい
て、該位相に基づいてサンプリング長を定め、当該サン
プリング長に従ってサンプリングを行うことによりサン
プリング信号を生成するサンプリング手段と、前記位相調整手段による前記調整の結果と前記サンプリ
ング長の値とに基づいて、前記サンプリング信号をピッ
チ波形信号へと加工する音声信号加工手段と、ピッチ波形信号より前記第１の音声の基本周波数に基づ
いた成分を抽出するサブバンド抽出手段と、差分生成用の第２の音声の基本周波数に基づいた成分の
時間変化を表すサブバンド情報を検索して、前記サブバ
ンド抽出手段が抽出した基本周波数に基づいた成分の時
間変化との相関が高いサブバンド情報を特定する検索手
段と、前記音声信号、及び、前記検索手段が特定したサブバン
ド情報に基づき、前記第１の音声の波形と当該サブバン
ド情報が表す前記第２の音声の波形との差分を表す差分
信号を生成する差分手段と、前記検索手段が特定したサブバンド情報を識別する識別
コード及び前記差分信号を出力する出力手段と、を備え
る、ことを特徴とする音声信号圧縮装置。
【請求項２】圧縮する対象である第１の音声の波形を表
す音声信号を取得し、当該音声信号をフィルタリングし
てピッチ信号を抽出するフィルタと、前記フィルタにより抽出されたピッチ信号に基づいて前
記音声信号を区間に区切り、各該区間について、当該ピ
ッチ信号との相関関係に基づいて位相を調整する位相調
整手段と、前記位相調整手段により位相を調整された各区間につい
て、該位相に基づいてサンプリング長を定め、当該サン
プリング長に従ってサンプリングを行うことによりサン
プリング信号を生成するサンプリング手段と、前記位相調整手段による前記調整の結果と前記サンプリ
ング長の値とに基づいて、前記サンプリング信号をピッ
チ波形信号へと加工する音声信号加工手段と、ピッチ波形信号より前記第１の音声の基本周波数に基づ
いた成分を抽出するサブバンド抽出手段と、差分生成用の第２の音声の基本周波数に基づいた成分の
時間変化を表すサブバンド情報を検索して、前記サブバ
ンド抽出手段が抽出した基本周波数に基づいた成分の時
間変化との相関が高いサブバンド情報を特定する検索手
段と、前記サブバンド抽出手段が抽出した前記第１の音声の基
本周波数に基づいた成分と前記検索手段が特定したサブ
バンド情報とに基づき、前記第１の音声と前記第２の音
声との間での基本周波数に基づいた成分の差分を表す差
分信号を生成する差分手段と、前記検索手段が特定したサブバンド情報を識別する識別
コード及び前記差分信号を出力する出力手段と、を備え
る、ことを特徴とする音声信号圧縮装置。
【請求項３】前記音声信号の基本周波数と前記ピッチ信
号とに基づいて前記フィルタのフィルタ係数を決定する
フィルタ係数決定手段を更に備え、前記フィルタは、前記フィルタ係数決定手段による決定
に従って自己のフィルタ係数を変更する、ことを特徴とする請求項１又は２に記載の音声信号圧縮
装置。
【請求項４】前記位相調整手段は、前記ピッチ信号の単
位周期毎に音声信号を区切ることにより各前記区間を決
定し、各該区間について、位相を種々変化させたものと
前記ピッチ信号との相関に基づいて求めた位相へと移相
するものである、ことを特徴とする請求項１、２又は３に記載のピッチ波
形信号生成装置。
【請求項５】前記位相調整手段は、前記フィルタにより
抽出されたピッチ信号が実質的に０となるタイミングが
来る時点が前記区間の始点となるように、前記音声信号
を前記区間に区切る、ことを特徴とする請求項１乃至４の何れか１項に記載の
音声信号圧縮装置。
【請求項６】圧縮する対象である第１の音声の波形を表
す音声信号を取得し、当該音声信号の単位ピッチ分にあ
たる区間の時間長を調整することにより、当該音声信号
をピッチ波形信号へと加工する音声信号加工手段と、ピッチ波形信号より前記第１の音声の基本周波数に基づ
いた成分を抽出するサブバンド抽出手段と、差分生成用の第２の音声の基本周波数に基づいた成分の
時間変化を表すサブバンド情報を検索して、前記サブバ
ンド抽出手段が抽出した基本周波数に基づいた成分の時
間変化との相関が高いサブバンド情報を特定する検索手
段と、前記音声信号、及び、前記検索手段が特定したサブバン
ド情報に基づき、前記第１の音声の波形と当該サブバン
ド情報が表す前記第２の音声の波形との差分を表す差分
信号を生成する差分手段と、前記検索手段が特定したサブバンド情報を識別する識別
コード及び前記差分信号を出力する出力手段と、を備え
る、ことを特徴とする音声信号圧縮装置。
【請求項７】圧縮する対象である第１の音声の波形を表
す音声信号を取得し、当該音声信号の単位ピッチ分にあ
たる区間の時間長を調整することにより、当該音声信号
をピッチ波形信号へと加工する音声信号加工手段と、ピッチ波形信号より前記第１の音声の基本周波数に基づ
いた成分を抽出するサブバンド抽出手段と、差分生成用の第２の音声の基本周波数に基づいた成分の
時間変化を表すサブバンド情報を検索して、前記サブバ
ンド抽出手段が抽出した基本周波数に基づいた成分の時
間変化との相関が高いサブバンド情報を特定する検索手
段と、前記サブバンド抽出手段が抽出した前記第１の音声の基
本周波数に基づいた成分と前記検索手段が特定したサブ
バンド情報とに基づき、前記第１の音声と前記第２の音
声との間での基本周波数に基づいた成分の差分を表す差
分信号を生成する差分手段と、前記検索手段が特定したサブバンド情報を識別する識別
コード及び前記差分信号を出力する出力手段と、を備え
る、ことを特徴とする音声信号圧縮装置。
【請求項８】第１の音声の波形を表す音声信号の単位ピ
ッチ分にあたる区間の時間長を調整することにより生成
される第１のピッチ波形信号の基本周波数に基づいた成
分の時間変化を表すサブバンド情報を指定する識別コー
ド、復元する対象である第２の音声の波形と前記第１の
音声の波形との差分を表す差分信号、及び、前記第２の
音声の単位ピッチ分にあたる区間の時間長を示すピッチ
データを取得する入力手段と、前記サブバンド情報のうち、前記入力手段が取得した識
別コードにより識別されるものを取得し、取得したサブ
バンド情報に基づいて前記第１のピッチ波形信号を復元
するピッチ波形信号復元手段と、前記ピッチ波形信号復元手段が復元した第１のピッチ波
形信号の波形と前記差分信号が表す波形との和を表す第
２のピッチ波形信号を生成する加算手段と、前記ピッチデータ、及び、前記第２のピッチ波形信号に
基づき、前記第２の音声を表す音声信号を生成する音声
信号復元手段と、を備える、ことを特徴とする音声信号伸長装置。
【請求項９】第１の音声の波形を表す音声信号の単位ピ
ッチ分にあたる区間の時間長を調整することにより生成
される第１のピッチ波形信号の基本周波数に基づいた成
分の時間変化を表すサブバンド情報を指定する識別コー
ド、復元する対象である第２の音声の波形と前記第１の
音声との間での基本周波数に基づいた成分の差分を表す
差分信号、及び、前記第２の音声の単位ピッチ分にあた
る区間の時間長を示すピッチデータを取得する入力手段
と、前記サブバンド情報のうち、前記入力手段が取得した識
別コードにより識別されるものを取得し、取得したサブ
バンド情報と、前記差分信号とに基づいて、前記第２の
音声の基本周波数に基づいた成分を特定するサブバンド
情報復元手段と、前記ピッチデータ、及び、前記サブバンド情報復元手段
が特定した前記第２の音声の基本周波数に基づいた成分
に基づき、前記第２の音声を表す音声信号を生成する音
声信号復元手段と、を備える、ことを特徴とする音声信号伸長装置。
【請求項１０】圧縮する対象である第１の音声の波形を
表す音声信号を取得し、当該音声信号をフィルタリング
してピッチ信号を抽出し、抽出されたピッチ信号に基づいて前記音声信号を区間に
区切り、各該区間について、当該ピッチ信号との相関関
係に基づいて位相を調整し、前記位相調整手段により位相を調整された各区間につい
て、該位相に基づいてサンプリング長を定め、当該サン
プリング長に従ってサンプリングを行うことによりサン
プリング信号を生成し、前記位相の調整の結果と前記サンプリング長の値とに基
づいて、前記サンプリング信号をピッチ波形信号へと加
工し、ピッチ波形信号より前記第１の音声の基本周波数に基づ
いた成分を抽出し、差分生成用の第２の音声の基本周波数に基づいた成分の
時間変化を表すサブバンド情報のうち、前記サブバンド
抽出手段が抽出した基本周波数に基づいた成分の時間変
化との相関が高いものを特定し、前記音声信号、及び、特定したサブバンド情報に基づ
き、前記第１の音声の波形と当該サブバンド情報が表す
前記第２の音声の波形との差分を表す差分信号を生成
し、特定したサブバンド情報を識別する識別コード及び前記
差分信号を出力する、ことを特徴とする音声信号圧縮方法。
【請求項１１】圧縮する対象である第１の音声の波形を
表す音声信号を取得し、当該音声信号をフィルタリング
してピッチ信号を抽出し、抽出されたピッチ信号に基づいて前記音声信号を区間に
区切り、各該区間について、当該ピッチ信号との相関関
係に基づいて位相を調整し、前記位相調整手段により位相を調整された各区間につい
て、該位相に基づいてサンプリング長を定め、当該サン
プリング長に従ってサンプリングを行うことによりサン
プリング信号を生成し、前記位相の調整の結果と前記サンプリング長の値とに基
づいて、前記サンプリング信号をピッチ波形信号へと加
工し、ピッチ波形信号より前記第１の音声の基本周波数に基づ
いた成分を抽出し、差分生成用の第２の音声の基本周波数に基づいた成分の
時間変化を表すサブバンド情報のうち、前記サブバンド
抽出手段が抽出した基本周波数に基づいた成分の時間変
化との相関が高いものを特定する検索手段と、前記第１の音声の基本周波数に基づいた成分、及び、特
定されたサブバンド情報に基づき、前記第１の音声と前
記第２の音声との間での基本周波数に基づいた成分の差
分を表す差分信号を生成し、特定されたサブバンド情報を識別する識別コード及び前
記差分信号を出力する、ことを特徴とする音声信号圧縮方法。
【請求項１２】第１の音声の波形を表す音声信号の単位
ピッチ分にあたる区間の時間長を調整することにより生
成される第１のピッチ波形信号の基本周波数に基づいた
成分の時間変化を表すサブバンド情報を指定する識別コ
ード、復元する対象である第２の音声の波形と前記第１
の音声の波形との差分を表す差分信号、及び、前記第２
の音声の単位ピッチ分にあたる区間の時間長を示すピッ
チデータを取得し、前記サブバンド情報のうち、前記入力手段が取得した識
別コードにより識別されるものを取得し、取得したサブ
バンド情報に基づいて前記第１のピッチ波形信号を復元
し、復元した第１のピッチ波形信号の波形と前記差分信号が
表す波形との和を表す第２のピッチ波形信号を生成し、前記ピッチデータ、及び、前記第２のピッチ波形信号に
基づき、前記第２の音声を表す音声信号を生成する、ことを特徴とする音声信号伸長方法。
【請求項１３】第１の音声の波形を表す音声信号の単位
ピッチ分にあたる区間の時間長を調整することにより生
成される第１のピッチ波形信号の基本周波数に基づいた
成分の時間変化を表すサブバンド情報を指定する識別コ
ード、復元する対象である第２の音声の波形と前記第１
の音声との間での基本周波数に基づいた成分の差分を表
す差分信号、及び、前記第２の音声の単位ピッチ分にあ
たる区間の時間長を示すピッチデータを取得し、前記サブバンド情報のうち、前記入力手段が取得した識
別コードにより識別されるものを取得し、取得したサブ
バンド情報と、前記差分信号とに基づいて、前記第２の
音声の基本周波数に基づいた成分を特定し、前記ピッチデータ、及び、特定された前記第２の音声の
基本周波数に基づいた成分に基づき、前記第２の音声を
表す音声信号を生成する、ことを特徴とする音声信号伸長方法。
【請求項１４】コンピュータを、圧縮する対象である第１の音声の波形を表す音声信号を
取得し、当該音声信号をフィルタリングしてピッチ信号
を抽出するフィルタと、前記フィルタにより抽出されたピッチ信号に基づいて前
記音声信号を区間に区切り、各該区間について、当該ピ
ッチ信号との相関関係に基づいて位相を調整する位相調
整手段と、前記位相調整手段により位相を調整された各区間につい
て、該位相に基づいてサンプリング長を定め、当該サン
プリング長に従ってサンプリングを行うことによりサン
プリング信号を生成するサンプリング手段と、前記位相調整手段による前記調整の結果と前記サンプリ
ング長の値とに基づいて、前記サンプリング信号をピッ
チ波形信号へと加工する音声信号加工手段と、ピッチ波形信号より前記第１の音声の基本周波数に基づ
いた成分を抽出するサブバンド抽出手段と、差分生成用の第２の音声の基本周波数に基づいた成分の
時間変化を表すサブバンド情報を検索して、前記サブバ
ンド抽出手段が抽出した基本周波数に基づいた成分の時
間変化との相関が高いサブバンド情報を特定する検索手
段と、前記音声信号、及び、前記検索手段が特定したサブバン
ド情報に基づき、前記第１の音声の波形と当該サブバン
ド情報が表す前記第２の音声の波形との差分を表す差分
信号を生成する差分手段と、前記検索手段が特定したサブバンド情報を識別する識別
コード及び前記差分信号を出力する出力手段と、して機能させるためのプログラム。
【請求項１５】コンピュータを、圧縮する対象である第１の音声の波形を表す音声信号を
取得し、当該音声信号をフィルタリングしてピッチ信号
を抽出するフィルタと、前記フィルタにより抽出されたピッチ信号に基づいて前
記音声信号を区間に区切り、各該区間について、当該ピ
ッチ信号との相関関係に基づいて位相を調整する位相調
整手段と、前記位相調整手段により位相を調整された各区間につい
て、該位相に基づいてサンプリング長を定め、当該サン
プリング長に従ってサンプリングを行うことによりサン
プリング信号を生成するサンプリング手段と、前記位相調整手段による前記調整の結果と前記サンプリ
ング長の値とに基づいて、前記サンプリング信号をピッ
チ波形信号へと加工する音声信号加工手段と、ピッチ波形信号より前記第１の音声の基本周波数に基づ
いた成分を抽出するサブバンド抽出手段と、差分生成用の第２の音声の基本周波数に基づいた成分の
時間変化を表すサブバンド情報を検索して、前記サブバ
ンド抽出手段が抽出した基本周波数に基づいた成分の時
間変化との相関が高いサブバンド情報を特定する検索手
段と、前記サブバンド抽出手段が抽出した前記第１の音声の基
本周波数に基づいた成分と前記検索手段が特定したサブ
バンド情報とに基づき、前記第１の音声と前記第２の音
声との間での基本周波数に基づいた成分の差分を表す差
分信号を生成する差分手段と、前記検索手段が特定したサブバンド情報を識別する識別
コード及び前記差分信号を出力する出力手段と、して機能させるためのプログラム。
【請求項１６】コンピュータを、第１の音声の波形を表す音声信号の単位ピッチ分にあた
る区間の時間長を調整することにより生成される第１の
ピッチ波形信号の基本周波数に基づいた成分の時間変化
を表すサブバンド情報を指定する識別コード、復元する
対象である第２の音声の波形と前記第１の音声の波形と
の差分を表す差分信号、及び、前記第２の音声の単位ピ
ッチ分にあたる区間の時間長を示すピッチデータを取得
する入力手段と、前記サブバンド情報のうち、前記入力手段が取得した識
別コードにより識別されるものを取得し、取得したサブ
バンド情報に基づいて前記第１のピッチ波形信号を復元
するピッチ波形信号復元手段と、前記ピッチ波形信号復元手段が復元した第１のピッチ波
形信号の波形と前記差分信号が表す波形との和を表す第
２のピッチ波形信号を生成する加算手段と、前記ピッチデータ、及び、前記第２のピッチ波形信号に
基づき、前記第２の音声を表す音声信号を生成する音声
信号復元手段と、して機能させるためのプログラム。
【請求項１７】コンピュータを、第１の音声の波形を表す音声信号の単位ピッチ分にあた
る区間の時間長を調整することにより生成される第１の
ピッチ波形信号の基本周波数に基づいた成分の時間変化
を表すサブバンド情報を指定する識別コード、復元する
対象である第２の音声の波形と前記第１の音声との間で
の基本周波数に基づいた成分の差分を表す差分信号、及
び、前記第２の音声の単位ピッチ分にあたる区間の時間
長を示すピッチデータを取得する入力手段と、前記サブバンド情報のうち、前記入力手段が取得した識
別コードにより識別されるものを取得し、取得したサブ
バンド情報と、前記差分信号とに基づいて、前記第２の
音声の基本周波数に基づいた成分を特定するサブバンド
情報復元手段と、前記ピッチデータ、及び、前記サブバンド情報復元手段
が特定した前記第２の音声の基本周波数に基づいた成分
に基づき、前記第２の音声を表す音声信号を生成する音
声信号復元手段と、して機能させるためのプログラム。