JP2003177799A - 音声信号圧縮装置、音声信号伸長装置、音声信号圧縮方法、音声信号伸長方法及びプログラム - Google Patents

音声信号圧縮装置、音声信号伸長装置、音声信号圧縮方法、音声信号伸長方法及びプログラム

Info

Publication number
JP2003177799A
JP2003177799A JP2002277749A JP2002277749A JP2003177799A JP 2003177799 A JP2003177799 A JP 2003177799A JP 2002277749 A JP2002277749 A JP 2002277749A JP 2002277749 A JP2002277749 A JP 2002277749A JP 2003177799 A JP2003177799 A JP 2003177799A
Authority
JP
Japan
Prior art keywords
signal
voice
pitch
waveform
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002277749A
Other languages
English (en)
Other versions
JP3994332B2 (ja
Inventor
Yasushi Sato
寧 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kenwood KK
Original Assignee
Kenwood KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kenwood KK filed Critical Kenwood KK
Priority to JP2002277749A priority Critical patent/JP3994332B2/ja
Publication of JP2003177799A publication Critical patent/JP2003177799A/ja
Application granted granted Critical
Publication of JP3994332B2 publication Critical patent/JP3994332B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

(57)【要約】 【課題】 音声を表すデータを効率的に圧縮し、あるい
は、ゆらぎを含む音声を表すデータを高音質で圧縮する
音声信号圧縮装置等を提供することである。 【解決手段】 コンピュータC1は、圧縮する音声デー
タの単位ピッチ分にあたる区間の時間長を同一に揃える
ことによりピッチ波形信号を生成し、このピッチ波形信
号より音声の各周波数成分を抽出する。抽出された各周
波数成分は、コンピュータC1により振幅の調整や非線
形量子化を施され、非線形量子化後のサブバンドデータ
となる。また、コンピュータC1は、差分生成用の音声
の各周波数成分を記憶していて、差分生成用の音声のう
ち、各周波数成分の相関がピッチ波形信号との間でもっ
とも高いものを特定し、特定された差分生成用の音声と
圧縮する音声の波形との差分を表す差分データを生成す
る。サブバンドデータと差分データが、圧縮音声データ
を構成するデータとなる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、音声信号圧縮装
置、音声信号伸長装置、音声信号圧縮方法、音声信号伸
長方法及びプログラムに関する。
【0002】
【従来の技術】声の信号をパラメータ化して扱う場合に
は、声の信号を、波形情報よりも周波数情報として扱う
場合が多くある。例えば音声合成では、一般に、声のピ
ッチやフォルマントを利用した手法が多く採用されてい
る。また、近年、携帯電話等、デジタル音声通話を行う
端末が通信する音声信号を圧縮するために一般的に利用
されている手法であるLPC(Linear Prediction Codi
ng:線形予測符号化)も、声の信号を周波数情報として
扱う手法のひとつである(例えば、特許文献1参照)。
【0003】
【特許文献1】特開平05−048462号公報
【0004】ピッチやフォルマントを、人間の声の発生
過程に即して説明すると、人間の声の発生過程はまず、
声帯部を振動させて、パルスの列からなるような音を発
生させることから始まる。このパルスは、言葉の音素毎
に特有なある一定の周期で発生し、この周期が「ピッ
チ」と呼ばれている。このパルスのスペクトルは、ピッ
チの整数倍の間隔で並ぶ比較的強いスペクトル成分を含
みつつ、幅広い周波数帯に分布する。
【0005】次に、このパルスが声道を通過すると、こ
のパルスは、声道や舌の形状によって作られる空間でフ
ィルタリングされる。このフィルタリングの結果、この
パルスのうちある周波数成分のみが強調されるような音
ができる。(すなわち、フォルマントが生成される。)
以上が、声の発生過程である。
【0006】声道や舌を動かすと、声帯が発生したパル
スのうち強調される周波数成分は変化する。このため、
この変化と言葉とを対応付ければ、音声による会話が成
立する。LPCの手法はこの点を利用した手法であり、
声道のフィルタ特性をコード化することにより音声の圧
縮を実現するものである。音声を再生するには、声道の
フィルタ特性を表すパラメータからなる要素をテーブル
に登録し、コードをキーとしてテーブルの検索を行う。
【0007】
【発明が解決しようとする課題】しかし、ここでまず問
題になるのが、実際の人間の声道の変化の複雑さであ
る。LPCの手法で圧縮される音声の音質は、テーブル
に登録される要素の数が大きいほど向上する。しかし、
実際の人間の声道の変化は非常に複雑なため、話者の特
定や会話の内容の認識が十分にできるような音質を保ち
ながら圧縮するためには、声道のフィルタ特性の要素が
非常に多く必要である。また、そのような音質を保って
圧縮された音声信号をもちいてデジタル音声通話を行う
場合、従来は、伝送すべきデータの量も膨大であった。
【0008】このため、従来は、小型の記憶装置しか搭
載できないデジタル音声通話用の端末に声道のフィルタ
特性のテーブルを記憶させるためには、例えば、声道を
ある程度単純化したモデルを想定して声道のフィルタ特
性をシミュレートした結果に基づいてテーブルを作成す
ることで満足せざるを得なかった。従って、このような
端末を用いた場合、従来は、話者の特定や会話の内容の
認識が十分にできるような音質でのデジタル音声通話が
困難であった。
【0009】また、ピッチのゆらぎも問題になってい
た。ピッチは、人間の感情や意識に影響されやすく、あ
る程度は一定とみなせる周期であるものの、現実には微
妙にゆらぎを生じる。従って、同一話者が同じ言葉(音
素)を複数ピッチ分発声した場合、ピッチの間隔は通
常、一定しない。このため、人間の声を単純にフーリエ
変換しても、声道のフィルタ特性を正確に求めることが
できない。
【0010】従って、人間の声を単純にフーリエ変換し
た結果に基づいて求めた声道のフィルタ特性を用いてL
PCの手法による音声の圧縮を行った場合、従来は、テ
ーブルに登録される要素の数を増やしても、圧縮された
音声の音質が十分に改善されなかった。
【0011】この発明は、上記実状に鑑みてなされたも
のであり、音声を表すデータを効率的に圧縮し、あるい
は、ゆらぎを含む音声を表すデータを高音質で圧縮する
音声信号圧縮装置、音声信号伸長装置、音声信号圧縮方
法及び音声信号伸長方法を提供することを目的とする。
【0012】
【課題を解決するための手段】上記目的を達成すべく、
この発明の第1の観点にかかる音声信号圧縮装置は、圧
縮する対象である第1の音声の波形を表す音声信号を取
得し、当該音声信号をフィルタリングしてピッチ信号を
抽出するフィルタと、前記フィルタにより抽出されたピ
ッチ信号に基づいて前記音声信号を区間に区切り、各該
区間について、当該ピッチ信号との相関関係に基づいて
位相を調整する位相調整手段と、前記位相調整手段によ
り位相を調整された各区間について、該位相に基づいて
サンプリング長を定め、当該サンプリング長に従ってサ
ンプリングを行うことによりサンプリング信号を生成す
るサンプリング手段と、前記位相調整手段による前記調
整の結果と前記サンプリング長の値とに基づいて、前記
サンプリング信号をピッチ波形信号へと加工する音声信
号加工手段と、ピッチ波形信号より前記第1の音声の基
本周波数に基づいた成分を抽出するサブバンド抽出手段
と、差分生成用の第2の音声の基本周波数に基づいた成
分の時間変化を表すサブバンド情報を検索して、前記サ
ブバンド抽出手段が抽出した基本周波数に基づいた成分
の時間変化との相関が高いサブバンド情報を特定する検
索手段と、前記音声信号、及び、前記検索手段が特定し
たサブバンド情報に基づき、前記第1の音声の波形と当
該サブバンド情報が表す前記第2の音声の波形との差分
を表す差分信号を生成する差分手段と、前記検索手段が
特定したサブバンド情報を識別する識別コード及び前記
差分信号を出力する出力手段と、を備える、ことを特徴
とする。
【0013】また、この発明の第2の観点にかかる音声
信号圧縮装置は、圧縮する対象である第1の音声の波形
を表す音声信号を取得し、当該音声信号をフィルタリン
グしてピッチ信号を抽出するフィルタと、前記フィルタ
により抽出されたピッチ信号に基づいて前記音声信号を
区間に区切り、各該区間について、当該ピッチ信号との
相関関係に基づいて位相を調整する位相調整手段と、前
記位相調整手段により位相を調整された各区間につい
て、該位相に基づいてサンプリング長を定め、当該サン
プリング長に従ってサンプリングを行うことによりサン
プリング信号を生成するサンプリング手段と、前記位相
調整手段による前記調整の結果と前記サンプリング長の
値とに基づいて、前記サンプリング信号をピッチ波形信
号へと加工する音声信号加工手段と、ピッチ波形信号よ
り前記第1の音声の基本周波数に基づいた成分を抽出す
るサブバンド抽出手段と、差分生成用の第2の音声の基
本周波数に基づいた成分の時間変化を表すサブバンド情
報を検索して、前記サブバンド抽出手段が抽出した基本
周波数に基づいた成分の時間変化との相関が高いサブバ
ンド情報を特定する検索手段と、前記サブバンド抽出手
段が抽出した前記第1の音声の基本周波数に基づいた成
分と前記検索手段が特定したサブバンド情報とに基づ
き、前記第1の音声と前記第2の音声との間での基本周
波数に基づいた成分の差分を表す差分信号を生成する差
分手段と、前記検索手段が特定したサブバンド情報を識
別する識別コード及び前記差分信号を出力する出力手段
と、を備える、ことを特徴とする。
【0014】前記音声信号圧縮装置は、前記音声信号の
基本周波数と前記ピッチ信号とに基づいて前記フィルタ
のフィルタ係数を決定するフィルタ係数決定手段を更に
備えてもよく、前記フィルタは、前記フィルタ係数決定
手段による決定に従って自己のフィルタ係数を変更する
ものであってもよい。
【0015】前記位相調整手段は、前記ピッチ信号の単
位周期毎に音声信号を区切ることにより各前記区間を決
定し、各該区間について、位相を種々変化させたものと
前記ピッチ信号との相関に基づいて求めた位相へと移相
するものであるものであってもよい。
【0016】前記位相調整手段は、前記フィルタにより
抽出されたピッチ信号が実質的に0となるタイミングが
来る時点が前記区間の始点となるように、前記音声信号
を前記区間に区切るものであってもよい。
【0017】また、この発明の第3の観点にかかる音声
信号圧縮装置は、圧縮する対象である第1の音声の波形
を表す音声信号を取得し、当該音声信号の単位ピッチ分
にあたる区間の時間長を調整することにより、当該音声
信号をピッチ波形信号へと加工する音声信号加工手段
と、ピッチ波形信号より前記第1の音声の基本周波数に
基づいた成分を抽出するサブバンド抽出手段と、差分生
成用の第2の音声の基本周波数に基づいた成分の時間変
化を表すサブバンド情報を検索して、前記サブバンド抽
出手段が抽出した基本周波数に基づいた成分の時間変化
との相関が高いサブバンド情報を特定する検索手段と、
前記音声信号、及び、前記検索手段が特定したサブバン
ド情報に基づき、前記第1の音声の波形と当該サブバン
ド情報が表す前記第2の音声の波形との差分を表す差分
信号を生成する差分手段と、前記検索手段が特定したサ
ブバンド情報を識別する識別コード及び前記差分信号を
出力する出力手段と、を備える、ことを特徴とする。
【0018】また、この発明の第4の観点にかかる音声
信号圧縮装置は、圧縮する対象である第1の音声の波形
を表す音声信号を取得し、当該音声信号の単位ピッチ分
にあたる区間の時間長を調整することにより、当該音声
信号をピッチ波形信号へと加工する音声信号加工手段
と、ピッチ波形信号より前記第1の音声の基本周波数に
基づいた成分を抽出するサブバンド抽出手段と、差分生
成用の第2の音声の基本周波数に基づいた成分の時間変
化を表すサブバンド情報を検索して、前記サブバンド抽
出手段が抽出した基本周波数に基づいた成分の時間変化
との相関が高いサブバンド情報を特定する検索手段と、
前記サブバンド抽出手段が抽出した前記第1の音声の基
本周波数に基づいた成分と前記検索手段が特定したサブ
バンド情報とに基づき、前記第1の音声と前記第2の音
声との間での基本周波数に基づいた成分の差分を表す差
分信号を生成する差分手段と、前記検索手段が特定した
サブバンド情報を識別する識別コード及び前記差分信号
を出力する出力手段と、を備える、ことを特徴とする。
【0019】また、この発明の第5の観点にかかる音声
信号伸長装置は、第1の音声の波形を表す音声信号の単
位ピッチ分にあたる区間の時間長を調整することにより
生成される第1のピッチ波形信号の基本周波数に基づい
た成分の時間変化を表すサブバンド情報を指定する識別
コード、復元する対象である第2の音声の波形と前記第
1の音声の波形との差分を表す差分信号、及び、前記第
2の音声の単位ピッチ分にあたる区間の時間長を示すピ
ッチデータを取得する入力手段と、前記サブバンド情報
のうち、前記入力手段が取得した識別コードにより識別
されるものを取得し、取得したサブバンド情報に基づい
て前記第1のピッチ波形信号を復元するピッチ波形信号
復元手段と、前記ピッチ波形信号復元手段が復元した第
1のピッチ波形信号の波形と前記差分信号が表す波形と
の和を表す第2のピッチ波形信号を生成する加算手段
と、前記ピッチデータ、及び、前記第2のピッチ波形信
号に基づき、前記第2の音声を表す音声信号を生成する
音声信号復元手段と、を備える、ことを特徴とする。
【0020】また、この発明の第6の観点にかかる音声
信号伸長装置は、第1の音声の波形を表す音声信号の単
位ピッチ分にあたる区間の時間長を調整することにより
生成される第1のピッチ波形信号の基本周波数に基づい
た成分の時間変化を表すサブバンド情報を指定する識別
コード、復元する対象である第2の音声の波形と前記第
1の音声との間での基本周波数に基づいた成分の差分を
表す差分信号、及び、前記第2の音声の単位ピッチ分に
あたる区間の時間長を示すピッチデータを取得する入力
手段と、前記サブバンド情報のうち、前記入力手段が取
得した識別コードにより識別されるものを取得し、取得
したサブバンド情報と、前記差分信号とに基づいて、前
記第2の音声の基本周波数に基づいた成分を特定するサ
ブバンド情報復元手段と、前記ピッチデータ、及び、前
記サブバンド情報復元手段が特定した前記第2の音声の
基本周波数に基づいた成分に基づき、前記第2の音声を
表す音声信号を生成する音声信号復元手段と、を備え
る、ことを特徴とする。
【0021】また、この発明の第7の観点にかかる音声
信号圧縮方法は、圧縮する対象である第1の音声の波形
を表す音声信号を取得し、当該音声信号をフィルタリン
グしてピッチ信号を抽出し、抽出されたピッチ信号に基
づいて前記音声信号を区間に区切り、各該区間につい
て、当該ピッチ信号との相関関係に基づいて位相を調整
し、前記位相調整手段により位相を調整された各区間に
ついて、該位相に基づいてサンプリング長を定め、当該
サンプリング長に従ってサンプリングを行うことにより
サンプリング信号を生成し、前記位相の調整の結果と前
記サンプリング長の値とに基づいて、前記サンプリング
信号をピッチ波形信号へと加工し、ピッチ波形信号より
前記第1の音声の基本周波数に基づいた成分を抽出し、
差分生成用の第2の音声の基本周波数に基づいた成分の
時間変化を表すサブバンド情報のうち、前記サブバンド
抽出手段が抽出した基本周波数に基づいた成分の時間変
化との相関が高いものを特定し、前記音声信号、及び、
特定したサブバンド情報に基づき、前記第1の音声の波
形と当該サブバンド情報が表す前記第2の音声の波形と
の差分を表す差分信号を生成し、特定したサブバンド情
報を識別する識別コード及び前記差分信号を出力する、
ことを特徴とする。
【0022】また、この発明の第8の観点にかかる音声
信号圧縮方法は、圧縮する対象である第1の音声の波形
を表す音声信号を取得し、当該音声信号をフィルタリン
グしてピッチ信号を抽出し、抽出されたピッチ信号に基
づいて前記音声信号を区間に区切り、各該区間につい
て、当該ピッチ信号との相関関係に基づいて位相を調整
し、前記位相調整手段により位相を調整された各区間に
ついて、該位相に基づいてサンプリング長を定め、当該
サンプリング長に従ってサンプリングを行うことにより
サンプリング信号を生成し、前記位相の調整の結果と前
記サンプリング長の値とに基づいて、前記サンプリング
信号をピッチ波形信号へと加工し、ピッチ波形信号より
前記第1の音声の基本周波数に基づいた成分を抽出し、
差分生成用の第2の音声の基本周波数に基づいた成分の
時間変化を表すサブバンド情報のうち、前記サブバンド
抽出手段が抽出した基本周波数に基づいた成分の時間変
化との相関が高いものを特定する検索手段と、前記第1
の音声の基本周波数に基づいた成分、及び、特定された
サブバンド情報に基づき、前記第1の音声と前記第2の
音声との間での基本周波数に基づいた成分の差分を表す
差分信号を生成し、特定されたサブバンド情報を識別す
る識別コード及び前記差分信号を出力する、ことを特徴
とする。
【0023】また、この発明の第9の観点にかかる音声
信号伸長方法は、第1の音声の波形を表す音声信号の単
位ピッチ分にあたる区間の時間長を調整することにより
生成される第1のピッチ波形信号の基本周波数に基づい
た成分の時間変化を表すサブバンド情報を指定する識別
コード、復元する対象である第2の音声の波形と前記第
1の音声の波形との差分を表す差分信号、及び、前記第
2の音声の単位ピッチ分にあたる区間の時間長を示すピ
ッチデータを取得し、前記サブバンド情報のうち、前記
入力手段が取得した識別コードにより識別されるものを
取得し、取得したサブバンド情報に基づいて前記第1の
ピッチ波形信号を復元し、復元した第1のピッチ波形信
号の波形と前記差分信号が表す波形との和を表す第2の
ピッチ波形信号を生成し、前記ピッチデータ、及び、前
記第2のピッチ波形信号に基づき、前記第2の音声を表
す音声信号を生成する、ことを特徴とする。
【0024】また、この発明の第10の観点にかかる音
声信号伸長方法は、第1の音声の波形を表す音声信号の
単位ピッチ分にあたる区間の時間長を調整することによ
り生成される第1のピッチ波形信号の基本周波数に基づ
いた成分の時間変化を表すサブバンド情報を指定する識
別コード、復元する対象である第2の音声の波形と前記
第1の音声との間での基本周波数に基づいた成分の差分
を表す差分信号、及び、前記第2の音声の単位ピッチ分
にあたる区間の時間長を示すピッチデータを取得し、前
記サブバンド情報のうち、前記入力手段が取得した識別
コードにより識別されるものを取得し、取得したサブバ
ンド情報と、前記差分信号とに基づいて、前記第2の音
声の基本周波数に基づいた成分を特定し、前記ピッチデ
ータ、及び、特定された前記第2の音声の基本周波数に
基づいた成分に基づき、前記第2の音声を表す音声信号
を生成する、ことを特徴とする。
【0025】また、この発明の第11の観点にかかるプ
ログラムは、コンピュータを、圧縮する対象である第1
の音声の波形を表す音声信号を取得し、当該音声信号を
フィルタリングしてピッチ信号を抽出するフィルタと、
前記フィルタにより抽出されたピッチ信号に基づいて前
記音声信号を区間に区切り、各該区間について、当該ピ
ッチ信号との相関関係に基づいて位相を調整する位相調
整手段と、前記位相調整手段により位相を調整された各
区間について、該位相に基づいてサンプリング長を定
め、当該サンプリング長に従ってサンプリングを行うこ
とによりサンプリング信号を生成するサンプリング手段
と、前記位相調整手段による前記調整の結果と前記サン
プリング長の値とに基づいて、前記サンプリング信号を
ピッチ波形信号へと加工する音声信号加工手段と、ピッ
チ波形信号より前記第1の音声の基本周波数に基づいた
成分を抽出するサブバンド抽出手段と、差分生成用の第
2の音声の基本周波数に基づいた成分の時間変化を表す
サブバンド情報を検索して、前記サブバンド抽出手段が
抽出した基本周波数に基づいた成分の時間変化との相関
が高いサブバンド情報を特定する検索手段と、前記音声
信号、及び、前記検索手段が特定したサブバンド情報に
基づき、前記第1の音声の波形と当該サブバンド情報が
表す前記第2の音声の波形との差分を表す差分信号を生
成する差分手段と、前記検索手段が特定したサブバンド
情報を識別する識別コード及び前記差分信号を出力する
出力手段と、して機能させるためのものであることを特
徴とする。
【0026】また、この発明の第12の観点にかかるプ
ログラムは、コンピュータを、圧縮する対象である第1
の音声の波形を表す音声信号を取得し、当該音声信号を
フィルタリングしてピッチ信号を抽出するフィルタと、
前記フィルタにより抽出されたピッチ信号に基づいて前
記音声信号を区間に区切り、各該区間について、当該ピ
ッチ信号との相関関係に基づいて位相を調整する位相調
整手段と、前記位相調整手段により位相を調整された各
区間について、該位相に基づいてサンプリング長を定
め、当該サンプリング長に従ってサンプリングを行うこ
とによりサンプリング信号を生成するサンプリング手段
と、前記位相調整手段による前記調整の結果と前記サン
プリング長の値とに基づいて、前記サンプリング信号を
ピッチ波形信号へと加工する音声信号加工手段と、ピッ
チ波形信号より前記第1の音声の基本周波数に基づいた
成分を抽出するサブバンド抽出手段と、差分生成用の第
2の音声の基本周波数に基づいた成分の時間変化を表す
サブバンド情報を検索して、前記サブバンド抽出手段が
抽出した基本周波数に基づいた成分の時間変化との相関
が高いサブバンド情報を特定する検索手段と、前記サブ
バンド抽出手段が抽出した前記第1の音声の基本周波数
に基づいた成分と前記検索手段が特定したサブバンド情
報とに基づき、前記第1の音声と前記第2の音声との間
での基本周波数に基づいた成分の差分を表す差分信号を
生成する差分手段と、前記検索手段が特定したサブバン
ド情報を識別する識別コード及び前記差分信号を出力す
る出力手段と、して機能させるためのものであることを
特徴とする。
【0027】また、この発明の第13の観点にかかるプ
ログラムは、コンピュータを、第1の音声の波形を表す
音声信号の単位ピッチ分にあたる区間の時間長を調整す
ることにより生成される第1のピッチ波形信号の基本周
波数に基づいた成分の時間変化を表すサブバンド情報を
指定する識別コード、復元する対象である第2の音声の
波形と前記第1の音声の波形との差分を表す差分信号、
及び、前記第2の音声の単位ピッチ分にあたる区間の時
間長を示すピッチデータを取得する入力手段と、前記サ
ブバンド情報のうち、前記入力手段が取得した識別コー
ドにより識別されるものを取得し、取得したサブバンド
情報に基づいて前記第1のピッチ波形信号を復元するピ
ッチ波形信号復元手段と、前記ピッチ波形信号復元手段
が復元した第1のピッチ波形信号の波形と前記差分信号
が表す波形との和を表す第2のピッチ波形信号を生成す
る加算手段と、前記ピッチデータ、及び、前記第2のピ
ッチ波形信号に基づき、前記第2の音声を表す音声信号
を生成する音声信号復元手段と、して機能させるための
ものであることを特徴とする。
【0028】また、この発明の第14の観点にかかるプ
ログラムは、コンピュータを、第1の音声の波形を表す
音声信号の単位ピッチ分にあたる区間の時間長を調整す
ることにより生成される第1のピッチ波形信号の基本周
波数に基づいた成分の時間変化を表すサブバンド情報を
指定する識別コード、復元する対象である第2の音声の
波形と前記第1の音声との間での基本周波数に基づいた
成分の差分を表す差分信号、及び、前記第2の音声の単
位ピッチ分にあたる区間の時間長を示すピッチデータを
取得する入力手段と、前記サブバンド情報のうち、前記
入力手段が取得した識別コードにより識別されるものを
取得し、取得したサブバンド情報と、前記差分信号とに
基づいて、前記第2の音声の基本周波数に基づいた成分
を特定するサブバンド情報復元手段と、前記ピッチデー
タ、及び、前記サブバンド情報復元手段が特定した前記
第2の音声の基本周波数に基づいた成分に基づき、前記
第2の音声を表す音声信号を生成する音声信号復元手段
と、して機能させるためのものであることを特徴とす
る。
【0029】
【発明の実施の形態】以下に、図面を参照して、この発
明の実施の形態を説明する。 (第1の実施の形態:音声信号圧縮器)図1は、この発
明の第1の実施の形態に係る音声信号圧縮器の構成を示
す図である。図示するように、この音声信号圧縮器は、
記録媒体(例えば、フレキシブルディスクやMO(Magn
eto Optical disk)など)に記録されたデータを読み取
る記録媒体ドライバ(フレキシブルディスクドライブ
や、MOドライブなど)SMDと、記録媒体ドライバS
MDに接続されたコンピュータC1とより構成されてい
る。
【0030】図示するように、コンピュータC1は、C
PU(Central Processing Unit)やDSP(Digital S
ignal Processor)等からなるプロセッサや、RAM(R
andom Access Memory)等からなる揮発性メモリや、ハ
ードディスク装置等からなる不揮発性メモリや、キーボ
ード等からなる入力部や、CRT(陰極線管)等からな
る表示部や、RS232Cインターフェース回路等から
なっていて外部とのシリアル通信を制御するシリアル通
信制御部などからなっている。
【0031】コンピュータC1は音声信号圧縮プログラ
ムを予め記憶しており、この音声信号圧縮プログラムを
実行することにより後述する処理を行う。
【0032】また、コンピュータC1は、音声信号圧縮
プログラムの処理に従ってコンピュータC1が抽出する
後述の識別用パラメータと同種の、話者に固有の比較用
パラメータを、話者毎に予め記憶する。比較用パラメー
タは、たとえば識別用パラメータが包絡線データであれ
ば、包絡線データからなっていればよい。
【0033】また、コンピュータC1は、各々の話者の
比較用パラメータに対応付けた形で、この話者の音声を
構成する音素を表す音素辞書を記憶する。音素辞書は、
具体的には、音素の基本周波数成分及び高調波成分の強
度の時間変化を表すサブバンドデータを、音素別に格納
している。そして、各々のサブバンドデータには、この
サブバンドデータに固有の識別コードが割り当てられて
いる。
【0034】また、コンピュータC1は、音声信号圧縮
プログラムの処理に従ってコンピュータC1が生成する
後述の差分データを量子化する精度(あるいは、量子化
前の差分データのデータ量に対する量子化後の差分デー
タのデータ量の比を表す圧縮率)を指定するパラメータ
を予め記憶する。
【0035】なお、比較用パラメータや、音素辞書や、
差分データを量子化する精度(あるいは圧縮率)を指定
するパラメータは、ユーザ等がコンピュータC1の入力
部を操作して入力し、コンピュータC1に記憶させるよ
うにしてもよい。
【0036】(第1の実施の形態:音声信号圧縮器の動
作)次に、この音声信号圧縮器の動作を、図2及び図3
を参照して説明する。図2及び図3は、図1の音声信号
圧縮器の動作の流れを示す図である。
【0037】ユーザが、音声の波形を表す音声データを
記録した記録媒体を記録媒体ドライバSMDにセットし
て、コンピュータC1に、音声信号圧縮プログラムの起
動を指示すると、コンピュータC1は、音声信号圧縮プ
ログラムの処理を開始する。
【0038】すると、まず、コンピュータC1は、記録
媒体ドライバSMDを介し、記録媒体より音声データを
読み出す(図2、ステップSA1)。なお、音声データ
は、PCM(Pulse Code Modulation)変調されたディ
ジタル信号の形式を有しており、音声のピッチより十分
短い一定の周期でサンプリングされた音声を表している
ものとする。
【0039】次に、コンピュータC1は、記録媒体より
読み出された音声データをフィルタリングすることによ
り、フィルタリングされた音声データ(ピッチ信号)を
生成する(ステップSA2)。ピッチ信号は、音声デー
タのサンプルリング間隔と実質的に同一のサンプリング
間隔を有するディジタル形式のデータからなるものとす
る。
【0040】なお、コンピュータC1は、ピッチ信号を
生成するために行うフィルタリングの特性を、後述する
ピッチ長と、ピッチ信号の瞬時値が0となる時刻(ゼロ
クロスする時刻)とに基づくフィードバック処理を行う
ことにより決定する。
【0041】すなわち、コンピュータC1は、読み出し
た音声データに、例えば、ケプストラム解析や、自己相
関関数に基づく解析を施すことにより、この音声データ
が表す音声の基本周波数を特定し、この基本周波数の逆
数の絶対値(すなわち、ピッチ長)を求める(ステップ
SA3)。(あるいは、コンピュータC1は、ケプスト
ラム解析及び自己相関関数に基づく解析の両方を行うこ
とにより基本周波数を2個特定し、これら2個の基本周
波数の逆数の絶対値の平均をピッチ長として求めるよう
にしてもよい。)
【0042】なお、ケプストラム解析としては、具体的
には、まず、読み出した音声データの強度を、元の値の
対数(対数の底は任意)に実質的に等しい値へと変換
し、値が変換された音声データのスペクトル(すなわ
ち、ケプストラム)を、高速フーリエ変換の手法(ある
いは、離散的変数をフーリエ変換した結果を表すデータ
を生成する他の任意の手法)により求める。そして、こ
のケプストラムの極大値を与える周波数のうちの最小値
を基本周波数として特定する。
【0043】一方、自己相関関数に基づく解析として
は、具体的には、読み出した音声データを用いてまず、
数式1の右辺により表される自己相関関数r(l)を特
定する。そして、自己相関関数r(l)をフーリエ変換
した結果得られる関数(ピリオドグラム)の極大値を与
える周波数のうち、所定の下限値を超える最小の値を基
本周波数として特定する。
【0044】
【数1】
【0045】一方、コンピュータC1は、ピッチ信号が
ゼロクロスする時刻が来るタイミングを特定する(ステ
ップSA4)。そして、コンピュータC1は、ピッチ長
とピッチ信号のゼロクロスの周期とが互いに所定量以上
異なっているか否かを判別し(ステップSA5)、異な
っていないと判別した場合は、ゼロクロスの周期の逆数
を中心周波数とするようなバンドパスフィルタの特性で
上述のフィルタリングを行うこととする(ステップSA
6)。一方、所定量以上異なっていると判別した場合
は、ピッチ長の逆数を中心周波数とするようなバンドパ
スフィルタの特性で上述のフィルタリングを行うことと
する(ステップSA7)。なお、いずれの場合も、フィ
ルタリングの通過帯域幅は、通過帯域の上限が音声デー
タの表す音声の基本周波数の2倍以内に常に収まるよう
な通過帯域幅であることが望ましい。
【0046】次に、コンピュータC1は、生成したピッ
チ信号の単位周期(例えば1周期)の境界が来るタイミ
ング(具体的には、ピッチ信号がゼロクロスするタイミ
ング)で、記録媒体から読み出した音声データを区切る
(ステップSA8)。そして、区切られてできる区間の
それぞれについて、この区間内の音声データの位相を種
々変化させたものとこの区間内のピッチ信号との相関を
求め、最も相関が高くなるときの音声データの位相を、
この区間内の音声データの位相として特定する(ステッ
プSA9)。そして、音声データのそれぞれの区間を、
互いが実質的に同じ位相になるように移相する(ステッ
プSA10)。
【0047】具体的には、コンピュータC1は、それぞ
れの区間毎に、例えば、数式2の右辺により表される値
corを、位相を表すφ(ただし、φは0以上の整数)
の値を種々変化させた場合それぞれについて求める。そ
して、値corが最大になるようなφの値Ψを、この区
間内の音声データの位相を表す値として特定する。この
結果、この区間につき、ピッチ信号との相関が最も高く
なる位相の値が定まる。そして、コンピュータC1は、
この区間内の音声データを、(−Ψ)だけ移相する。
【0048】
【数2】
【0049】音声データを上述の通り移相することによ
り得られるデータ(ピッチ波形データ)が表す波形の一
例を図4(c)に示す。図4(a)に示す位相前の音声
データの波形のうち、「#1」及び「#2」として示す
2個の区間は、図4(b)に示すように、ピッチのゆら
ぎの影響により互いに異なる位相を有している。これに
対し、ピッチ波形データが表す波形の区間#1及び#2
は、図4(c)に示すように、ピッチのゆらぎの影響が
除去されて位相が揃っている。また、図4(a)に示す
ように、各区間の始点の値は0に近い値となっている。
【0050】なお、区間の時間的な長さは、1ピッチ分
程度であることが望ましい。区間が長いほど、区間内の
サンプル数が増えて、ピッチ波形データのデータ量が増
大し、あるいは、サンプリング間隔が増大してピッチ波
形データが表す音声が不正確になる、という問題が生じ
る。
【0051】次に、コンピュータC1は、ピッチ波形デ
ータの各区間をサンプリングし直す(リサンプリングす
る)。また、各区間の元のサンプル数を示すデータであ
るピッチ情報も生成する(ステップSA11)。なお、
コンピュータC1は、ピッチ波形データの各区間のサン
プル数が互いにほぼ等しくなるようにして、同一区間内
では等間隔になるようリサンプリングするものとする。
記録媒体より読み出した音声データのサンプリング間隔
が既知であるものとすれば、ピッチ情報は、この音声デ
ータの単位ピッチ分の区間の元の時間長を表す情報とし
て機能する。
【0052】次に、コンピュータC1は、ステップSA
11でリサンプリングされたピッチ波形データにDCT
(Discrete Cosine Transform)等の直交変換を施すこ
とにより、サブバンドデータを生成する(図3、ステッ
プSA12)。
【0053】サブバンドデータは、ピッチ波形信号が表
す音声の基本周波数成分の強度の時間変化を表すデータ
と、この音声のy個(yは自然数)の基本周波数成分の
強度の時間変化を表すy個のデータとを含むデータであ
る。従って、サブバンドデータは、音声の基本周波数成
分(又は高調波成分)の強度の時間変化がないとき、こ
の基本周波数成分(又は高調波成分)の強度を、直流信
号の形で表す。
【0054】次に、コンピュータC1は、生成したサブ
バンドデータが表す基本周波数成分や高調波成分の瞬時
値に比例定数を乗じることにより、このサブバンドデー
タが表す基本周波数成分や高調波成分の振幅を変更する
(ステップSA13)。また、ステップSA13でコン
ピュータC1は、どのサブバンドデータのどの周波数成
分(基本周波数成分又は高調波成分)にどのような値の
比例定数を乗じたかを示すデータである比例定数データ
も生成する。
【0055】比例定数は、たとえば、同一のサブバンド
データが表す各周波数成分の強度の最大値が、互いに共
通した一定値になるように決定する。すなわち、例えば
この一定値をJとした場合、コンピュータC1は、一定
値Jを特定の周波数成分の強度の最大値Kで除した値
(J/K)を求める。この値(J/K)が、この周波数
成分の瞬時値に乗じる比例定数である。
【0056】サブバンドデータの振幅を変更すると、コ
ンピュータC1は、このサブバンドデータが表す各周波
数成分の瞬時値に非線形圧縮を施して得られる値(具体
的には、たとえば、瞬時値を上に凸な関数に代入して得
られる値)を量子化したものに相当するサブバンドデー
タ(非線形量子化後のサブバンドデータ)を生成する
(ステップSA14)。
【0057】なお、非線形圧縮の手法は、具体的には、
例えば、量子化後の各周波数成分の瞬時値が、元の瞬時
値の対数を量子化した値に実質的に等しくなるようなも
のであればよい。(ただし、対数の底はすべての周波数
成分について共通であるものとする。例えば常用対数な
ど。)
【0058】また、コンピュータC1は、記録媒体より
読み出した音声データに線形予測解析を施すことによ
り、この音声データが表す音声の話者に固有の識別用パ
ラメータを抽出する(ステップSA15)。識別用パラ
メータは、たとえば、この音声のスペクトルの包絡線を
表す包絡線データや、あるいはこの音声のフォルマント
を表すデータなどであればよい。ただし、識別用パラメ
ータは、上述した比較用パラメータと同種のパラメータ
であるものとする。
【0059】そして、コンピュータC1は、非線形量子
化後のサブバンドデータの生成と識別用パラメータの抽
出を行うと、自己の不揮発性メモリに記憶されている比
較用パラメータのうちから、抽出した識別用パラメータ
にもっともよく近似できる比較用パラメータを特定し
て、この比較用パラメータに対応付けられた音素辞書を
選択する(ステップSA16)。
【0060】識別用パラメータ及び比較用パラメータが
いずれも包絡線データからなる場合、コンピュータC1
は、たとえば、識別用パラメータが表す包絡線との間の
相関係数が最も大きい包絡線を表す比較用パラメータ
を、識別用パラメータに最もよく近似できる比較用パラ
メータとして特定すればよい。
【0061】次に、コンピュータC1は、選択した音素
辞書に含まれるサブバンドデータのうち、非線形量子化
後のサブバンドデータにもっとも近い波形を表している
ものを特定する(ステップSA17)。具体的には、コ
ンピュータC1は、たとえば、以下(1)及び(2)と
して記す処理を行う。すなわち、 (1) まず、非線形量子化後のサブバンドデータと、
選択した音素辞書に含まれる1個の音素のサブバンドデ
ータとの間で、同一周波数成分間の相関係数を各々求
め、求めた相関係数の平均値を求める。 (2) (1)の処理を、選択した音素辞書に含まれる
すべての音素のサブバンドデータについて行い、相関係
数の平均値が最も高かったサブバンドデータを、非線形
量子化後のサブバンドデータにもっとも近い波形を表し
ているものとして特定する。
【0062】次に、コンピュータC1は、ステップSA
17で特定したサブバンドデータに変換を施すことによ
り、このサブバンドデータにより各周波数成分の強度が
表されるピッチ波形データを復元する(ステップSA1
8)。ステップSA18でサブバンドデータに施す変換
は、このサブバンドデータを生成するために音素の波形
に施した変換に対して実質的に逆変換の関係にあるよう
な変換である。具体的には、たとえばこのサブバンドデ
ータが音素にDCTを施して生成されたものである場合
は、このサブバンドデータにIDCT(Inverse DCT)
を施すようにすればよい。
【0063】次に、コンピュータC1は、ステップSA
11でリサンプリングされたピッチ波形データの瞬時値
と、ステップSA18で復元されたピッチ波形データの
瞬時値との差を表す差分データを生成する(ステップS
A19)。そして、ステップSA19で生成した差分デ
ータの瞬時値を、自己の不揮発性メモリが記憶するパラ
メータにより指定される精度で(あるいは、このパラメ
ータにより指定される圧縮率となるように)量子化する
(ステップSA20)。
【0064】次に、コンピュータC1は、ステップSA
17で特定したサブバンドデータに割り当てられている
識別コードを自己の不揮発性メモリから読み出し、読み
出した識別コードと、ステップSA20で量子化した差
分データと、ステップSA11で生成したピッチ情報
と、ステップSA13で生成した比例定数データとを、
算術符号(arithmetic code)へと変換する(ステップ
SA21)。
【0065】そして、コンピュータC1は、ステップS
A21で得られた算術符号を表すビットストリームを生
成し、自己のシリアル通信制御部より、圧縮音声データ
として出力する(ステップSA22)。
【0066】圧縮音声データは、単位ピッチ分の区間の
時間長が規格化され、ピッチのゆらぎの影響が除去され
た音声データであるピッチ波形データに基づいて生成さ
れている。このため、圧縮音声データは、音声の各周波
数成分(基本周波数成分及び高調波成分)の強度の時間
変化を正確に表すものとなる。
【0067】また、圧縮音声データは、予め各周波数成
分の強度の時間変化のサンプルをデータが用意されてい
る音声を識別する識別コードと、この音声との差分を表
す差分データとから構成されている。一方、たとえば図
5に示すように、人間が実際に発する有声音の各周波数
成分の強度の時間変化は通常極めて小さく、また、同一
話者の音声間での差異も小さい。従って、圧縮する対象
の音声の話者と同一の話者の音声を表すサブバンドデー
タを音素辞書に予め格納しておき、この話者に固有の識
別用パラメータを対応付けておくことにより、差分デー
タのデータ量は極めて小さくなる。従って、圧縮音声デ
ータのデータ量も極めて小さくなる。
【0068】なお、図5において、「BND0」として
示すグラフは音声の基本周波数成分の強度を示し、「B
NDk」(ただし、kは1から7までの整数)として示
すグラフは、この音声の(k+1)次高調波成分の強度
を示している。そして、「d1」として示す区間は、母
音「ア」を表す区間であり、「d2」として示す区間
は、母音「イ」を表す区間であり、「d3」として示す
区間は、母音「ウ」を表す区間であり、「d4」として
示す区間は、母音「エ」を表す区間である。
【0069】また、ピッチ情報を用いてピッチ波形信号
の各区間の元の時間長を特定することができ、比例定数
データを用いて各周波数成分の元の振幅を特定すること
ができる。このため、ピッチ波形信号の各区間の時間長
や各周波数成分の振幅を、元の音声データにおける時間
長や振幅へと復元することにより、元の音声データを容
易に復元できる。
【0070】なお、この音声信号圧縮器の構成は上述の
ものに限られない。たとえば、コンピュータC1は、電
話回線、専用回線、衛星回線等の通信回線を介して外部
より音声データを取得するようにしてもよい。この場
合、コンピュータC1は、例えばモデムやDSU(Data
Service Unit)等からなる通信制御部を備えていれば
よい。またこの場合、記録媒体ドライバSMDは不要で
ある。また、コンピュータC1は、比較用パラメータ
や、音素辞書や、差分データを量子化する精度(あるい
は圧縮率)を指定するパラメータも、通信回線を介して
外部より取得して記憶するようにしてよい。
【0071】また、コンピュータC1は、マイクロフォ
ン、AF増幅器、サンプラー、A/D(Analog-to-Digi
tal)コンバータ及びPCMエンコーダなどからなる集
音装置を備えていてもよい。集音装置は、自己のマイク
ロフォンが集音した音声を表す音声信号を増幅し、サン
プリングしてA/D変換した後、サンプリングされた音
声信号にPCM変調を施すことにより、音声データを取
得すればよい。なお、コンピュータC1が取得する音声
データは、必ずしもPCM信号である必要はない。
【0072】また、コンピュータC1は、音声辞書に格
納すべきデータを、記録媒体ドライバSMDにセットさ
れた記録媒体に、記録媒体ドライバSMDを介して書き
込むようにしてもよい。あるいは、ハードディスク装置
等からなる外部の記憶装置に書き込むようにしてもよ
い。これらの場合、コンピュータC1は、記録媒体ドラ
イバや、ハードディスクコントローラ等の制御回路を備
えていればよい。
【0073】また、コンピュータC1は、比較用パラメ
ータや、音素辞書や、差分データを量子化する精度(あ
るいは圧縮率)を指定するパラメータなどを記録した記
録媒体を記録媒体ドライバSMDにセットし、コンピュ
ータC1の入力部を操作して、この記録媒体に記録され
たデータを、記録媒体ドライバSMDを介してコンピュ
ータC1に読み取らせ、記憶させるようにしてよい。
【0074】また、差分データは、非線形量子化後のサ
ブバンドデータが表す各周波数成分の強度の瞬時値と、
ステップSA17で特定されたサブバンドデータが表す
各周波数成分の瞬時値との差分を、周波数が同一である
成分同士でそれぞれ求めた結果を表すデータであっても
よい。この場合、コンピュータC1は、ステップSA1
8の処理を省略し、ステップSA19において、非線形
量子化後のサブバンドデータが表す各周波数成分の強度
の瞬時値と、ステップSA17で特定したサブバンドデ
ータが表す各周波数成分の瞬時値との差分を、周波数が
同一である成分同士でそれぞれ求め、求めた各差分を表
す差分データを生成して、ステップSA20に処理を進
めるようにすればよい。
【0075】また、コンピュータC1は、過去に生成し
た非線形量子化後のサブバンドデータのうちもっとも新
しいものを記憶するようにしてもよい。この場合、コン
ピュータC1は、新たに非線形量子化後のサブバンドデ
ータを生成するたびに、このサブバンドデータが、自ら
記憶している非線形量子化後のサブバンドデータとの間
で一定程度以上高い相関を示しているか否かを判別し、
示していると判別したとき、識別コード及び差分データ
に代えて、直前の波形と同一の波形が連続していること
を示す所定のデータを生成するようにしてもよい。こう
することにより、圧縮音声データのデータ量は更に小さ
くなる。なお、新たに供給されたサブバンドデータと自
ら記憶しているサブバンドデータとの間の相関の程度
は、たとえば、これら両サブバンドデータ間で、同一周
波数成分間の相関係数を各々求め、求めた相関係数の平
均値の大きさに基づいて判別するようにすればよい。
【0076】また、コンピュータC1は、必ずしも音声
データの振幅の実効値を揃える必要はない。また、コン
ピュータC1は、ケプストラム解析又は自己相関係数に
基づく解析のいずれかを行わなくてもよく、この場合
は、ケプストラム解析又は自己相関係数に基づく解析の
うち一方の手法で求めた基本周波数の逆数をそのままピ
ッチ長として扱うようにすればよい。
【0077】また、コンピュータC1が音声データの各
区間内の音声データを移相する量は(−Ψ)である必要
はなく、例えば、コンピュータC1は、初期位相を表す
各区間に共通な実数をδとして、それぞれの区間につ
き、(−Ψ+δ)だけ、音声データを移相するようにし
てもよい。また、コンピュータC1が音声データの音声
データを区切る位置は、必ずしもピッチ信号がゼロクロ
スするタイミングである必要はなく、例えば、ピッチ信
号が0でない所定の値となるタイミングであってもよ
い。しかし、初期位相αを0とし、且つ、ピッチ信号が
ゼロクロスするタイミングで音声データを区切るように
すれば、各区間の始点の値は0に近い値になるので、音
声データを各区間へと区切ることに各区間が含むように
なるノイズの量が少なくなる。
【0078】なお、コンピュータC1は専用のシステム
である必要はなく、パーソナルコンピュータ等であって
よい。また、音声信号圧縮プログラムは、音声信号圧縮
プログラムを格納した媒体(CD−ROM、MO、フレ
キシブルディスク等)からコンピュータC1へとインス
トールするようにしてもよいし、通信回線の掲示板(B
BS)にピッチ波形抽出プログラムをアップロードし、
これを通信回線を介して配信してもよい。また、音声信
号圧縮プログラムを表す信号により搬送波を変調し、得
られた変調波を伝送し、この変調波を受信した装置が変
調波を復調して音声信号圧縮プログラムを復元するよう
にしてもよい。
【0079】また、音声信号圧縮プログラムは、OSの
制御下に、他のアプリケーションプログラムと同様に起
動してコンピュータC1に実行させることにより、上述
の処理を実行することができる。なお、OSが上述の処
理の一部を分担する場合、記録媒体に格納される音声信
号圧縮プログラムは、当該処理を制御する部分を除いた
ものであってもよい。
【0080】(第1の実施の形態:音声信号伸長器)次
に、この発明の第1の実施の形態に係る音声信号伸長器
を説明する。この音声信号伸長器は、例えば、図6に示
す構成を有している。図示するように、この音声信号伸
長器は、図1の音声信号圧縮器におけるコンピュータC
1と実質的に同一の物理的構成を有するコンピュータC
2からなっている。そして、コンピュータC2は更に、
音声出力部を備えている。音声出力部は、たとえば、P
CMデコーダの機能を行う制御回路と、D/A(Digita
l-to-Analog)コンバータと、AF(Audio Frequency)
増幅器と、スピーカ等とを備えている。
【0081】コンピュータC2は音声信号伸長プログラ
ムを予め記憶しており、この音声信号伸長プログラムを
実行することにより後述する処理を行う。また、この音
声信号伸長器のコンピュータC2は、上述の音声信号圧
縮器のコンピュータC1が記憶しているものと実質的に
同一の音素辞書を記憶している。この音素辞書は、ユー
ザ等がコンピュータC2の入力部を操作して入力し、コ
ンピュータC2に記憶させるようにしてもよい。なお、
同一のコンピュータが、コンピュータC1及びコンピュ
ータC2の機能を行ってもよい。
【0082】(第1の実施の形態:音声信号伸長器の動
作)次に、図1の音声信号伸長器の動作を、図7を参照
して説明する。図7は、この音声信号伸長器の動作の流
れを示す図である。
【0083】ユーザが、コンピュータC2に、音声信号
伸長プログラムの起動を指示すると、コンピュータC2
は、音声信号伸長プログラムの処理を開始する。
【0084】すると、まず、コンピュータC2は、上述
した音声信号圧縮器が生成したビットストリーム(又は
当該ビットストリームと実質的に同一のデータ構造を有
するビットストリーム)を、例えば自己のシリアル通信
制御部を介して外部から取得する(図7、ステップSB
1)。そして、取得したビットストリームを、識別コー
ドを表す算術符号、差分データを表す算術符号、比例定
数データを表す算術符号、及びピッチ情報を表す算術符
号へと分解する(ステップSB2)。
【0085】次に、コンピュータC2は、ビットストリ
ームを分解して得られた各算術符号を復号化することに
より識別コード、差分データ、比例定数データ及びピッ
チ情報を復元する(ステップSB3)。そして、復元さ
れた識別コードを割り当てられているサブバンドデータ
を自己が記憶している音素辞書より索出する(ステップ
SB4)。
【0086】一方、コンピュータC2は、ステップSB
3で復元した差分データに、上述の音声信号圧縮器がス
テップSA12で行うものと実質的に同一の変換を施す
ことにより、この差分データの各周波数成分の強度を表
すデータを生成する(ステップSB5)。
【0087】次に、コンピュータC2は、ステップSB
4で索出されたサブバンドデータが表す各々の周波数成
分について、当該周波数成分の瞬時値と、ステップSB
5で生成したデータが表す同一周波数成分の瞬時値との
和を求め、得られたこれらの和を表すデータを生成する
(ステップSB6)。ステップSB6で生成されるこの
データは、伸長する対象である音声データに基づいて生
成されたサブバンドデータに、上述の音声信号圧縮器が
ステップSA13及びSA14で行う処理と実質的に同
一の処理を施して得られる非線形圧縮後のサブバンドデ
ータに相当する。
【0088】次に、コンピュータC2は、ステップSB
6で生成したデータが表す各周波数成分の瞬時値を変更
することにより、伸長する対象である音声データを表
す、非線形量子化される前のサブバンドデータに相当す
るデータを生成する(ステップSB7)。
【0089】次に、コンピュータC2は、ステップSB
7で得られたデータ(非線形量子化される前のサブバン
ドデータ)が表す各周波数成分の瞬時値に、ステップS
B3で復元された比例定数データが表す比例定数の逆数
を乗じることにより振幅を変更する(ステップSB
8)。
【0090】次に、コンピュータC2は、ステップSB
8で振幅を変更されたサブバンドデータに、上述の音声
信号圧縮器がステップSA18で行う変換と実質的に同
一の変換を施すことにより、このサブバンドデータによ
り各周波数成分の強度が表されるピッチ波形データを復
元する(ステップSB9)。
【0091】次に、コンピュータC2は、ステップSB
9で復元されたピッチ波形データの各区間の時間長を、
ステップSB3で復元されたピッチ情報が示す時間長に
なるよう変更する(ステップSB10)。区間の時間長
の変更は、たとえば区間内にあるサンプルの間隔を変更
することにより行えばよい。そして、コンピュータC2
は、各区間の時間長を変更されたピッチ波形データ(す
なわち、復元された音声を表す音声データ)を復調し、
D/A変換及び増幅を行い、得られたアナログ信号を用
いてスピーカを駆動することにより、音声を再生する
(ステップSB11)。
【0092】なお、この音声信号伸長器の構成も、上述
のものに限られない。たとえば、コンピュータC2は、
例えばモデムやDSU等からなる通信制御装置を備えて
いてもよい。この場合、コンピュータC2は、外部の通
信回線及び自己の通信制御装置を介して外部より音声デ
ータを取得してもよいし、圧縮音声データを、通信回線
を介して外部に出力するようにしてもよい。
【0093】また、コンピュータC2は、例えば、上述
の記録媒体ドライバSMDと同様の記録媒体ドライバを
備えていてもよい。この場合、コンピュータC2は、圧
縮音声データを、この圧縮音声データが記録された記録
媒体から読み取る等して取得してもよいし、音声辞書に
格納すべきデータを、この記録媒体ドライバにセットさ
れた記録媒体の記憶領域に書き込むようにしてもよい。
【0094】また、差分データは、圧縮の対象である音
声の各周波数成分の強度と基準となる他の音声の各周波
数成分の強度との差分を周波数が同一である成分同士で
求めた結果をあらわすものであってもよい。(たとえ
ば、上述の音声信号圧縮器が、非線形量子化後のサブバ
ンドデータが表す各周波数成分の強度の瞬時値と、ステ
ップSA17で特定されたサブバンドデータが表す各周
波数成分の瞬時値との差分を、周波数が同一である成分
同士でそれぞれ求め、求めた各差分を表すものとして生
成した差分データ。)この場合、コンピュータC2は、
例えば、ステップSB5の処理を省略し、ステップSB
6においては、ステップSB4で索出されたサブバンド
データが表す各々の周波数成分につき、当該周波数成分
の瞬時値と、ステップSB3で復元された差分データが
表す同一周波数成分の瞬時値との和を求め、すべての周
波数成分について求めた和を表すデータを生成するよう
にすればよい。
【0095】また、圧縮音声データには、識別コードに
代えて、直前の波形と同一の波形が連続していることを
示す所定のデータが含まれる場合があってもよい。この
ようなデータが圧縮音声データに含まれることがあり得
る場合、コンピュータC2は、例えばステップSB3
で、この所定のデータが含まれているか否かの判別も行
うものとし、一方、例えばステップSB10では、区間
の時間長を変更したピッチ波形データのうちもっとも新
しいものを記憶するものとすればよい。そして、このデ
ータが含まれているとステップSB3で判別した場合、
当該判別をして以降最初に行うステップSB11の処理
では、ステップSB10で自らが記憶した最新のピッチ
波形データが表す音声を再生するようにすればよい。
【0096】なお、コンピュータC2も専用のシステム
である必要はなく、パーソナルコンピュータ等であって
よい。また、音声信号伸長プログラムは、音声信号伸長
プログラムを格納した媒体からコンピュータC2へとイ
ンストールするようにしてもよいし、通信回線の掲示板
に音声信号伸長プログラムをアップロードし、これを通
信回線を介して配信してもよい。また、音声信号伸長プ
ログラムを表す信号により搬送波を変調し、得られた変
調波を伝送し、この変調波を受信した装置が変調波を復
調して音声信号伸長プログラムを復元するようにしても
よい。
【0097】また、音声信号伸長プログラムは、OSの
制御下に、他のアプリケーションプログラムと同様に起
動してコンピュータC2に実行させることにより、上述
の処理を実行することができる。なお、OSが上述の処
理の一部を分担する場合、記録媒体に格納される音声信
号伸長プログラムは、当該処理を制御する部分を除いた
ものであってもよい。
【0098】(第2の実施の形態:音声信号圧縮器)次
に、この発明の第2の実施の形態を説明する。図8は、
この発明の第2の実施の形態に係る音声信号圧縮器の構
成を示す図である。図示するように、この音声信号圧縮
器は、音声入力部A1と、ピッチ波形抽出部A2と、サ
ブバンド分割部A3と、振幅調整部A4と、非線形量子
化部A5と、線形予測解析部A6と、符号化部A7と、
復号化部A8と、差分計算部A9と、量子化部A10
と、算術符号化部A11と、ビットストリーム形成部A
12とより構成されている。
【0099】音声入力部A1は、例えば、第1の実施の
形態における記録媒体ドライバSMDと同様の記録媒体
ドライバ等より構成されている。音声入力部A1は、音
声の波形を表す音声データを、この音声データが記録さ
れた記録媒体から読み取る等して取得し、ピッチ波形抽
出部A2及び線形予測解析部A6に供給する。なお、音
声データは、PCM変調されたディジタル信号の形式を
有しており、音声のピッチより十分短い一定の周期でサ
ンプリングされた音声を表しているものとする。
【0100】ピッチ波形抽出部A2、サブバンド分割部
A3、振幅調整部A4、非線形量子化部A5、線形予測
解析部A6、符号化部A7、復号化部A8、差分計算部
A9、量子化部A10及び算術符号化部A11は、いず
れも、DSPやCPU等のプロセッサより構成されてい
る。なお、ピッチ波形抽出部A2、サブバンド分割部A
3、振幅調整部A4、非線形量子化部A5、線形予測解
析部A6、符号化部A7、復号化部A8、差分計算部A
9、量子化部A10及び算術符号化部A11の一部又は
全部の機能を単一のプロセッサが行うようにしてもよ
い。
【0101】ピッチ波形抽出部A2は、音声入力部A1
より供給された音声データを、この音声データが表す音
声の単位ピッチ分(たとえば、1ピッチ分)にあたる区
間へと分割する。そして、分割されてできた各区間を移
相及びリサンプリングすることにより、各区間の時間長
及び位相を互いに実質的に同一になるように揃える。そ
して、各区間の時間長及び位相を揃えられた音声データ
(ピッチ波形データ)を、サブバンド分割部A3及び差
分計算部A9に供給する。また、ピッチ波形抽出部A2
は、この音声データの各区間の元のサンプル数を示すピ
ッチ情報を生成し、算術符号化部A11へと供給する。
【0102】ピッチ波形抽出部A2は、機能的には、た
とえば図9に示すように、ケプストラム解析部A21
と、自己相関解析部A22と、重み計算部A23と、B
PF(バンドパスフィルタ)係数計算部A24と、バン
ドパスフィルタA25と、ゼロクロス解析部A26と、
波形相関解析部A27と、位相調整部A28と、ピッチ
長固定部A29とより構成されている。
【0103】なお、ケプストラム解析部A21、自己相
関解析部A22、重み計算部A23、BPF係数計算部
A24、バンドパスフィルタA25、ゼロクロス解析部
A26、波形相関解析部A27、位相調整部A28及び
ピッチ長固定部A29の一部又は全部の機能を単一のプ
ロセッサが行うようにしてもよい。
【0104】なお、ケプストラム解析部A21、自己相
関解析部A22、重み計算部A23、BPF係数計算部
A24、バンドパスフィルタA25、ゼロクロス解析部
A26、波形相関解析部A27、位相調整部A28及び
ピッチ長固定部A29の一部又は全部の機能を同一のD
SPやCPUが行ってもよい。
【0105】ピッチ波形抽出部A2は、ケプストラム解
析と、自己相関関数に基づく解析とを併用して、ピッチ
の長さを特定する。すなわち、まず、ケプストラム解析
部A21は、音声入力部A1より供給される音声データ
にケプストラム解析を施すことにより、この音声データ
が表す音声の基本周波数を特定し、特定した基本周波数
を示すデータを生成して重み計算部A23へと供給す
る。
【0106】具体的には、ケプストラム解析部A21
は、音声入力部A1より音声データを供給されると、ま
ず、この音声データの強度を、元の値の対数に実質的に
等しい値へと変換する。(対数の底は任意である。) 次に、ケプストラム解析部A21は、値が変換された音
声データのスペクトル(すなわち、ケプストラム)を、
高速フーリエ変換の手法(あるいは、離散的変数をフー
リエ変換した結果を表すデータを生成する他の任意の手
法)により求める。そして、このケプストラムの極大値
を与える周波数のうちの最小値を基本周波数として特定
し、特定した基本周波数を示すデータを生成して重み計
算部A23へと供給する。
【0107】一方、自己相関解析部A22は、音声入力
部A1より音声データを供給されると、音声データの波
形の自己相関関数に基づいて、この音声データが表す音
声の基本周波数を特定し、特定した基本周波数を示すデ
ータを生成して重み計算部A23へと供給する。
【0108】具体的には、自己相関解析部A22は、音
声入力部A1より音声データを供給されるとまず、上述
した自己相関関数r(l)を特定する。そして、特定し
た自己相関関数r(l)をフーリエ変換した結果得られ
るピリオドグラムの極大値を与える周波数のうち、所定
の下限値を超える最小の値を基本周波数として特定し、
特定した基本周波数を示すデータを生成して重み計算部
A23へと供給する。
【0109】重み計算部A23は、ケプストラム解析部
A21及び自己相関解析部A22より基本周波数を示す
データを1個ずつ合計2個供給されると、これら2個の
データが示す基本周波数の逆数の絶対値の平均を求め
る。そして、求めた値(すなわち、平均ピッチ長)を示
すデータを生成し、BPF係数計算部A24へと供給す
る。
【0110】BPF係数計算部A24は、平均ピッチ長
を示すデータを重み計算部A23より供給され、ゼロク
ロス解析部A26より後述のゼロクロス信号を供給され
ると、供給されたデータやゼロクロス信号に基づき、平
均ピッチ長とピッチ信号とゼロクロスの周期とが互いに
所定量以上異なっているか否かを判別する。そして、異
なっていないと判別したときは、ゼロクロスの周期の逆
数を中心周波数(バンドパスフィルタA25の通過帯域
の中央の周波数)とするように、バンドパスフィルタA
25の周波数特性を制御する。一方、所定量以上異なっ
ていると判別したときは、平均ピッチ長の逆数を中心周
波数とするように、バンドパスフィルタA25の周波数
特性を制御する。
【0111】バンドパスフィルタA25は、中心周波数
が可変なFIR(Finite Impulse Response)型のフィ
ルタの機能を行う。具体的には、バンドパスフィルタA
25は、自己の中心周波数を、BPF係数計算部A24
の制御に従った値に設定する。そして、音声入力部A1
より供給される音声データをフィルタリングして、フィ
ルタリングされた音声データ(ピッチ信号)を、ゼロク
ロス解析部A26及び波形相関解析部A27へと供給す
る。ピッチ信号は、音声データのサンプルリング間隔と
実質的に同一のサンプリング間隔を有するディジタル形
式のデータからなるものとする。なお、バンドパスフィ
ルタA25の帯域幅は、バンドパスフィルタA25の通
過帯域の上限が音声データの表す音声の基本周波数の2
倍以内に常に収まるような帯域幅であることが望まし
い。
【0112】ゼロクロス解析部A26は、バンドパスフ
ィルタA25から供給されたピッチ信号の瞬時値が0と
なる時刻(ゼロクロスする時刻)が来るタイミングを特
定し、特定したタイミングを表す信号(ゼロクロス信
号)を、BPF係数計算部A24へと供給する。このよ
うにして、音声データのピッチの長さが特定される。た
だし、ゼロクロス解析部A26は、ピッチ信号の瞬時値
が0でない所定の値となる時刻が来るタイミングを特定
し、特定したタイミングを表す信号を、ゼロクロス信号
に代えてBPF係数計算部A24へと供給するようにし
てもよい。
【0113】波形相関解析部A27は、音声入力部A1
より音声データを供給され、バンドパスフィルタA25
よりピッチ信号を供給されると、ピッチ信号の単位周期
(例えば1周期)の境界が来るタイミングで音声データ
を区切る。そして、区切られてできる区間のそれぞれに
ついて、この区間内の音声データの位相を種々変化させ
たものとこの区間内のピッチ信号との相関を求め、最も
相関が高くなるときの音声データの位相を、この区間内
の音声データの位相として特定する。このようにして、
各区間につき音声データの位相が特定される。
【0114】具体的には、波形相関解析部A27は、例
えば、それぞれの区間毎に、上述した値Ψを特定し、値
Ψを示すデータを生成して、この区間内の音声データの
位相を表す位相データとして位相調整部A28に供給す
る。なお、区間の時間的な長さは、1ピッチ分程度であ
ることが望ましい。
【0115】位相調整部A28は、音声入力部A1より
音声データを供給され、波形相関解析部A27より音声
データの各区間の位相Ψを示すデータを供給されると、
それぞれの区間の音声データの位相を(−Ψ)だけ移相
することにより、各区間の位相を揃える。そして、移相
された音声データをピッチ長固定部A29に供給する。
【0116】ピッチ長固定部A29は、移相された音声
データを位相調整部A28より供給されると、供給され
た音声データの各区間をリサンプリングすることによ
り、各区間の時間長を互いに実質的に同一になるように
揃える。そして、各区間の時間長を揃えられた音声デー
タ(すなわち、ピッチ波形データ)をサブバンド分割部
A3及び差分計算部A9へと供給する。
【0117】また、ピッチ長固定部A29は、この音声
データの各区間の元のサンプル数(音声入力部A1より
ピッチ長固定部A29へと供給された時点におけるこの
音声データの各区間のサンプル数)を示すピッチ情報を
生成し、算術符号化部A11へと供給する。
【0118】サブバンド分割部A3は、ピッチ波形抽出
部A2より供給されたピッチ波形データにDCT等の直
交変換を施すことにより、上述したサブバンドデータを
生成する。そして、生成したサブバンドデータを振幅調
整部A4へと供給する。
【0119】振幅調整部A4は、サブバンド分割部A3
よりサブバンドデータを供給されると、このサブバンド
データが表す基本周波数成分や高調波成分の瞬時値に比
例定数を乗じることにより振幅を変更し、振幅が変更さ
れたサブバンドデータを非線形量子化部A5に供給す
る。このようにして、サブバンドデータの各周波数成分
に乗じる比例定数が特定される。
【0120】また、振幅調整部A4は、どのサブバンド
データのどの周波数成分(基本周波数成分又は高調波成
分)にどのような値の比例定数を乗じたかを示す比例定
数データを生成し、この比例定数データを算術符号化部
A11に供給する。なお、比例定数は、たとえば、同一
のサブバンドデータが表す各周波数成分の強度の最大値
が、互いに共通した一定値になるように決定するものと
する。
【0121】非線形量子化部A5は、振幅調整部A4よ
り、振幅を変更されたサブバンドデータを供給される
と、このサブバンドデータが表す各周波数成分の瞬時値
に非線形圧縮を施して得られる値を量子化したものに相
当するサブバンドデータを生成し、生成したサブバンド
データ(すなわち、非線形量子化後のサブバンドデー
タ)を符号化部A7へと供給する。なお、非線形圧縮の
手法は、具体的には、例えば、非線形量子化後のサブバ
ンドデータの各周波数成分の瞬時値が、元の瞬時値の対
数を量子化した値に実質的に等しくなるようなものであ
ればよい。(ただし、対数の底はすべての周波数成分に
ついて共通であるものとする。)
【0122】線形予測解析部A6は、音声入力部A1よ
り供給された音声データに線形予測解析を施すことによ
り、この音声データが表す音声の話者に固有の識別用パ
ラメータ(たとえば、この音声のスペクトルの包絡線を
表す包絡線データや、あるいはこの音声のフォルマント
を表すデータなど)を抽出する。そして、抽出したパラ
メータを符号化部A7に供給する。
【0123】符号化部A7は、プロセッサに加え、ハー
ドディスク装置等からなる記憶装置を備えている。符号
化部A7は、話者に固有のパラメータであって線形予測
解析部A6が抽出する識別用パラメータと同種のパラメ
ータ(たとえば、識別用パラメータが包絡線データであ
れば、包絡線データ)を、話者毎に記憶する。また、各
々の話者のパラメータに対応付けた形で、この話者の音
声を構成する音素を表す音素辞書を記憶する。音素辞書
は、具体的には、第1の実施の形態における音素序書と
同様、音素の基本周波数成分及び高調波成分の強度の時
間変化を表すサブバンドデータを、音素別に格納してい
るデータベースからなっていればよく、各々のサブバン
ドデータには、このサブバンドデータに固有の識別コー
ドが割り当てられていればよい。
【0124】符号化部A7は、非線形量子化部A5より
非線形量子化後のサブバンドデータを供給され、線形予
測解析部A6より識別用パラメータを供給されると、符
号化部A7自身が記憶しているパラメータのうち、線形
予測解析部A6より供給された識別用パラメータにもっ
ともよく近似できるパラメータを特定することにより、
このパラメータに対応付けられた音素辞書を選択する。
【0125】識別用パラメータ及び符号化部A7が記憶
するパラメータがいずれも包絡線データからなる場合、
符号化部A7は、たとえば、識別用パラメータが表す包
絡線との間の相関係数が最も大きい包絡線を表すパラメ
ータを、識別用パラメータに最もよく近似できるパラメ
ータとして特定すればよい。
【0126】次に、符号化部A7は、選択した音素辞書
に含まれるサブバンドデータのうち、非線形量子化部A
5より供給されたサブバンドデータにもっとも近い波形
を表しているものを特定する。具体的には、たとえば、
符号化部A7は、以下(1)及び(2)として記す処理
を行う。すなわち、 (1) まず、非線形量子化部A5より供給されたサブ
バンドデータと、選択した音素辞書に含まれる1個の音
素のサブバンドデータとの間で、同一周波数成分間の相
関係数を各々求め、求めた相関係数の平均値を求める。 (2) (1)の処理を、選択した音素辞書に含まれる
すべての音素のサブバンドデータについて行い、相関係
数の平均値が最も高かったサブバンドデータを、非線形
量子化部A5より供給されたサブバンドデータにもっと
も近い波形を表しているものとして特定する。
【0127】そして、符号化部A7は、特定したサブバ
ンドデータに割り当てられている識別コードを、算術符
号化部A11へと供給する。また、特定したサブバンド
データを、復号化部A8へと供給する。
【0128】復号化部A8は、符号化部A7より供給さ
れたサブバンドデータに変換を施すことにより、このサ
ブバンドデータにより各周波数成分の強度が表されるピ
ッチ波形データを復元する。そして、復元されたピッチ
波形データを差分計算部A9へと供給する。なお、復号
化部A8がサブバンドデータに施す変換は、このサブバ
ンドデータを生成するために音素の波形に施した変換に
対して実質的に逆変換の関係にあるような変換であるも
のとする。
【0129】差分計算部A9は、ピッチ波形抽出部A2
から供給されたピッチ波形データの瞬時値と、復号化部
A8から供給されたピッチ波形データの瞬時値との差を
表す差分データを生成し、量子化部A10に供給する。
【0130】量子化部A10は、プロセッサに加え、R
OM(Read Only Memory)等の記憶装置を備えている。
量子化部A10は、差分データを量子化する精度(ある
いは、量子化前の差分データのデータ量に対する量子化
後の差分データのデータ量の比を表す圧縮率)を指定す
るパラメータを、ユーザ等の操作に従って記憶する。そ
して、差分計算部A9より差分データを供給されると、
この差分データの瞬時値を、自己が記憶するパラメータ
により指定される精度で量子化し(あるいは、このパラ
メータにより指定される圧縮率となるよう量子化し)、
量子化された差分データを算術符号化部A11へと供給
する。
【0131】算術符号化部A11は、符号化部A7より
供給された識別コードと、量子化部A10より供給され
た差分データと、ピッチ波形抽出部A2より供給された
ピッチ情報と、振幅調整部A4より供給された比例定数
データとを算術符号へと変換し、互いに対応付けてビッ
トストリーム形成部A12へと供給する。
【0132】ビットストリーム形成部A12は、たとえ
ば、RS232C等の規格に準拠して外部とのシリアル
通信を制御する制御回路と、CPU等のプロセッサとよ
り構成されている。ビットストリーム形成部A12は、
互いに対応付けられて算術符号化部A11より供給され
た算術符号を表すビットストリームを生成し、圧縮音声
データとして出力する。
【0133】ビットストリーム形成部A12が出力する
圧縮音声データも、単位ピッチ分の区間の時間長が規格
化され、ピッチのゆらぎの影響が除去された音声データ
であるピッチ波形データに基づいて生成されている。こ
のため、圧縮音声データは、音声の各周波数成分(基本
周波数成分及び高調波成分)の強度の時間変化を正確に
表すものとなる。また、圧縮音声データは、予め各周波
数成分の強度の時間変化のサンプルをデータが用意され
ている音声を識別する識別コードと、この音声との差分
を表す差分データとから構成されているので、圧縮音声
データのデータ量は極めて小さくなる。また、ピッチ情
報を用いてピッチ波形信号の各区間の元の時間長を特定
することができ、比例定数データを用いて各周波数成分
の元の振幅を特定することができる。このため、ピッチ
波形信号の各区間の時間長や各周波数成分の振幅を、元
の音声データにおける時間長や振幅へと復元することに
より、元の音声データを容易に復元できる。
【0134】なお、この音声信号圧縮器の構成は上述の
ものに限られない。たとえば、音声入力部A1は、電話
回線、専用回線、衛星回線等の通信回線を介して外部よ
り音声データを取得するようにしてもよい。この場合、
音声入力部A1は、例えばモデムやDSU等からなる通
信制御部を備えていればよい。
【0135】また、音声入力部A1は、マイクロフォ
ン、AF増幅器、サンプラー、A/Dコンバータ及びP
CMエンコーダなどからなる集音装置を備えていてもよ
い。集音装置は、自己のマイクロフォンが集音した音声
を表す音声信号を増幅し、サンプリングしてA/D変換
した後、サンプリングされた音声信号にPCM変調を施
すことにより、音声データを取得すればよい。なお、音
声入力部A1が取得する音声データは、必ずしもPCM
信号である必要はない。
【0136】また、このピッチ波形抽出部A2は、ケプ
ストラム解析部A21(又は自己相関解析部A22)を
備えていなくてもよく、この場合、重み計算部A23
は、ケプストラム解析部A21(又は自己相関解析部A
22)が求めた基本周波数の逆数をそのまま平均ピッチ
長として扱うようにすればよい。
【0137】また、ゼロクロス解析部A26は、バンド
パスフィルタA25から供給されたピッチ信号を、その
ままゼロクロス信号としてBPF係数計算部A24へと
供給するようにしてもよい。
【0138】また、ビットストリーム形成部A12は、
圧縮音声データを、通信回線等を介して外部に出力する
ようにしてもよい。通信回線を介してデータを出力する
場合、ビットストリーム形成部A12は、例えばモデム
やDSU等からなる通信制御部を備えていればよい。ま
た、ビットストリーム形成部A12は、記録媒体ドライ
バを備えていてもよく、この場合、ビットストリーム形
成部A12は、音声辞書に格納すべきデータを、この記
録媒体ドライバにセットされた記録媒体の記憶領域に書
き込むようにしてもよい。なお、単一のモデムやDSU
や記録媒体ドライバが音声入力部A1及びビットストリ
ーム形成部A12を構成していてもよい。
【0139】また、差分計算部A9は、非線形量子化部
A5が生成した非線形量子化後のサブバンドデータを取
得し、符号化部A7が特定したサブバンドデータを取得
するようにしてもよい。この場合、差分計算部A9は、
非線形量子化部A5が生成した非線形量子化後のサブバ
ンドデータが表す各周波数成分の強度の瞬時値と、符号
化部A7が特定したサブバンドデータが表す各周波数成
分の瞬時値との差分を、周波数が同一である成分同士で
それぞれ求め、求めた各差分を表す差分データを生成し
て量子化部A10に供給するようにしてもよい。
【0140】また、符号化部A7は、過去に非線形量子
化部A5より供給された非線形量子化後のサブバンドデ
ータのうちもっとも新しいものを記憶する記憶部を備え
ていてもよい。この場合、符号化部A7は、新たに非線
形量子化後のサブバンドデータを供給されるたびに、こ
のサブバンドデータが、自ら記憶している非線形量子化
後のサブバンドデータとの間で一定程度以上高い相関を
示しているか否かを判別し、示していると判別したと
き、算術符号化部A11に、識別コード及び差分データ
に代えて、直前の波形と同一の波形が連続していること
を示す所定のデータを供給するようにしてもよい。こう
することにより、圧縮音声データのデータ量は更に小さ
くなる。なお、新たに供給されたサブバンドデータと自
ら記憶しているサブバンドデータとの間の相関の程度
は、たとえば、これら両サブバンドデータ間で、同一周
波数成分間の相関係数を各々求め、求めた相関係数の平
均値の大きさに基づいて判別するようにすればよい。
【0141】(第2の実施の形態:音声信号伸長器)次
に、この発明の第2の実施の形態に係る音声信号伸長器
を説明する。図10は、この音声信号伸長器の構成を示
す図である。図示するように、この音声信号伸長器は、
ビットストリーム分解部B1と、算術符号復号化部B2
と、復号化部B3と、差分復元部B4と、加算部B5
と、非線形逆量子化部B6と、振幅復元部B7と、サブ
バンド合成部B8と、音声波形復元部B9と、音声出力
部B10とより構成されている。
【0142】ビットストリーム分解部B1は、たとえ
ば、RS232C等の規格に準拠して外部とのシリアル
通信を制御する制御回路と、CPU等のプロセッサとよ
り構成されている。ビットストリーム分解部B1は、上
述した音声信号圧縮器のビットストリーム形成部A12
が生成したビットストリーム(又はビットストリーム形
成部A12が生成するビットストリームと実質的に同一
のデータ構造を有するビットストリーム)を外部から取
得する。そして、取得したビットストリームを、識別コ
ードを表す算術符号、差分データを表す算術符号、及び
ピッチ情報を表す算術符号へと分解し、得られた算術符
号を算術符号復号化部B2へと供給する。
【0143】算術符号復号化部B2、復号化部B3、差
分復元部B4、加算部B5、非線形逆量子化部B6、振
幅復元部B7、サブバンド合成部B8及び音声波形復元
部B9は、いずれも、DSPやCPU等のプロセッサよ
り構成されている。なお、算術符号復号化部B2、復号
化部B3、差分復元部B4、加算部B5、非線形逆量子
化部B6、振幅復元部B7、サブバンド合成部B8及び
音声波形復元部B9の一部又は全部の機能を単一のプロ
セッサが行うようにしてもよい。
【0144】算術符号復号化部B2は、ビットストリー
ム分解部B1より供給された算術符号を復号化すること
により識別コード、差分データ、比例定数データ及びピ
ッチ情報を復元する。そして、復元された識別コードを
復号化部B3へと供給し、復元された差分データを差分
復元部B4へと供給し、復元された比例定数データを振
幅復元部B7へと供給し、復元されたピッチ情報を音声
波形復元部B9へと供給する。
【0145】復号化部B3は、プロセッサに加え、更
に、ハードディスク装置等からなる記憶装置を備えてい
る。復号化部B3は、上述の音声信号圧縮器の符号化部
A7が記憶しているものと実質的に同一の音素辞書を記
憶している。
【0146】復号化部B3は、算術符号復号化部B2よ
り識別コードを供給されると、この識別コードを割り当
てられているサブバンドデータを音素辞書より索出し、
索出されたサブバンドデータを加算部B5へと供給す
る。
【0147】差分復元部B4は、差分データを算術符号
復号化B3より供給されると、この差分データに、上述
の音声信号圧縮器のサブバンド分割部A3が行うものと
実質的に同一の変換を施すことにより、この差分データ
の各周波数成分の強度を表すデータを生成する。そし
て、生成したデータを、加算部B5へと供給する。
【0148】加算部B5は、復号化部B3から供給され
たサブバンドデータが表す各々の周波数成分について、
当該周波数成分の瞬時値と、差分復元部B4から供給さ
れたデータが表す同一周波数成分の瞬時値との和を求め
る。そして、すべての周波数成分について求めた和を表
すデータを生成し、非線形逆量子化部B6に供給する。
非線形逆量子化部B6に供給するこのデータは、伸長す
る対象である音声データに基づいて生成されたサブバン
ドデータに、上述の音声信号圧縮器の振幅調整部A4及
び非線形量子化部A5が行うものと実質的に同一の処理
を施して得られる非線形圧縮後のサブバンドデータに相
当する。
【0149】非線形逆量子化部B6は、加算部B5より
データを供給されると、このデータが表す各周波数成分
の瞬時値を変更することにより、伸長する対象である音
声データを表す、非線形量子化される前のサブバンドデ
ータに相当するデータを生成し、振幅復元部B7へと供
給する。
【0150】振幅復元部B7は、非線形量子化される前
のサブバンドデータを非線形逆量子化部B6より供給さ
れ、算術符号復号化部B2より比例定数データを供給さ
れると、このサブバンドデータが表す各周波数成分の瞬
時値に、この比例定数データが表す比例定数の逆数を乗
じることにより振幅を変更し、振幅を変更されたサブバ
ンドデータをサブバンド合成部B8に供給する。
【0151】サブバンド合成部B8は、振幅を変更され
たサブバンドデータを振幅復元部B7より供給される
と、このサブバンドデータに、上述の音声信号圧縮器の
復号化部A8が行うものと実質的に同一の変換を施すこ
とにより、このサブバンドデータにより各周波数成分の
強度が表されるピッチ波形データを復元する。そして、
復元されたピッチ波形データを、音声波形復元部B9へ
と供給する。
【0152】音声波形復元部B9は、サブバンド合成部
B8より供給されたピッチ波形データの各区間の時間長
を、算術符号復号化部B2より供給されるピッチ情報が
示す時間長になるよう変更する。区間の時間長の変更
は、たとえば区間内にあるサンプルの間隔を変更するこ
とにより行えばよい。そして、音声波形復元部B9は、
各区間の時間長を変更されたピッチ波形データ(すなわ
ち、復元された音声を表す音声データ)を音声出力部B
10へと供給する。
【0153】音声出力部B10は、たとえば、PCMデ
コーダの機能を行う制御回路と、D/A(Digital-to-A
nalog)コンバータと、AF(Audio Frequency)増幅器
と、スピーカ等とを備えている。音声出力部B10は、
音声波形復元部B9より、復元された音声を表す音声デ
ータを供給されると、この音声データを復調し、D/A
変換及び増幅を行い、得られたアナログ信号を用いてス
ピーカを駆動することにより、音声を再生する。
【0154】なお、この音声信号伸長器の構成も、上述
のものに限られない。たとえば、ビットストリーム分解
部B1は、通信回線を介して外部より音声データを取得
するようにしてもよい。この場合、ビットストリーム分
解部B1は、例えばモデムやDSU等からなる通信制御
部を備えていればよい。また、ビットストリーム分解部
B1は、例えば、記録媒体ドライバを備えていてもよ
く、この場合、ビットストリーム分解部B1は、圧縮音
声データを、この圧縮音声データが記録された記録媒体
から読み取る等して取得してもよい。
【0155】また、音声出力部B10は、圧縮音声デー
タを、通信回線等を介して外部に出力するようにしても
よい。通信回線を介してデータを出力する場合、音声出
力部B10は、例えばモデムやDSU等からなる通信制
御部を備えていればよい。また、音声出力部B10は、
記録媒体ドライバを備えていてもよく、この場合、音声
出力部B10は、音声辞書に格納すべきデータを、この
記録媒体ドライバにセットされた記録媒体の記憶領域に
書き込むようにしてもよい。なお、単一のモデムやDS
Uや記録媒体ドライバがビットストリーム分解部B1及
び音声出力部B10を構成していてもよい。
【0156】また、差分データは、圧縮の対象である音
声の各周波数成分の強度と基準となる他の音声の各周波
数成分の強度との差分を周波数が同一である成分同士で
求めた結果をあらわすものであってもよい。(たとえ
ば、上述の音声信号圧縮器の差分計算部A9が、非線形
量子化部A5が生成した非線形量子化後のサブバンドデ
ータが表す各周波数成分の強度の瞬時値と、符号化部A
7が特定したサブバンドデータが表す各周波数成分の瞬
時値との差分を、周波数が同一である成分同士でそれぞ
れ求め、求めた各差分を表すものとして生成した差分デ
ータ。)この場合、加算部B5は、差分データを算術符
号復号化部B2から取得し、復号化部B3から供給され
たサブバンドデータが表す各々の周波数成分について、
当該周波数成分の瞬時値と、算術符号復号化部B2から
取得した差分データが表す同一周波数成分の瞬時値との
和を求め、すべての周波数成分について求めた和を表す
データを生成して、非線形逆量子化部B6に供給するよ
うにすればよい。
【0157】また、圧縮音声データには、識別コードに
代えて、直前の波形と同一の波形が連続していることを
示す所定のデータが含まれる場合があってもよい。この
場合、算術符号復号化部2は、この所定のデータが含ま
れているか否かを判別し、含まれていると判別したと
き、直前の波形と同一の波形が連続していることを、た
とえば音声出力部B10に通知するようにしてもよい。
一方、たとえば、音声出力部B10は、過去に音声波形
復元部B9より供給された音声データのうちもっとも新
しいものを記憶する記憶部を備えていてもよい。そし
て、音声出力部B10は、この場合、算術符号復号化部
2より、直前の波形と同一の波形が連続していることを
通知されたとき、自らが記憶する音声データが表す音声
を再生するようにすればよい。
【0158】
【発明の効果】以上説明したように、この発明によれ
ば、音声を表すデータを効率的に圧縮し、あるいは、ゆ
らぎを含む音声を表すデータを高音質で圧縮する音声信
号圧縮装置、音声信号伸長装置、音声信号圧縮方法及び
音声信号伸長方法が実現される。
【図面の簡単な説明】
【図1】この発明の第1の実施の形態に係る音声信号圧
縮器の構成を示すブロック図である。
【図2】図1の音声信号圧縮器の動作の流れの前半を示
す図である。
【図3】図1の音声信号圧縮器の動作の流れの後半を示
す図である。
【図4】(a)及び(b)は、移相される前の音声デー
タの波形を示すグラフであり、(c)は、ピッチ波形デ
ータの波形を表すグラフである。
【図5】音声の各周波数成分の強度の時間変化の例を示
すグラフである。
【図6】この発明の第1の実施の形態に係る音声信号伸
長器の構成を示すブロック図である。
【図7】図6の音声信号伸長器の動作の流れを示す図で
ある。
【図8】この発明の第2の実施の形態に係る音声信号圧
縮器の構成を示すブロック図である。
【図9】図8のピッチ波形抽出部の構成を示すブロック
図である。
【図10】この発明の第2の実施の形態に係る音声信号
伸長器の構成を示すブロック図である。
【符号の説明】
C1、C2 コンピュータ SMD 記録媒体ドライバ A1 音声入力部 A2 ピッチ波形抽出部 A21 ケプストラム解析部 A22 自己相関解析部 A23 重み計算部 A24 BPF係数計算部 A25 バンドパスフィルタ A26 ゼロクロス解析部 A27 波形相関解析部 A28 位相調整部 A29 ピッチ長固定部 A3 サブバンド分割部 A4 振幅調整部 A5 非線形量子化部 A6 線形予測解析部 A7 符号化部 A8 復号化部 A9 差分計算部 A10 量子化部 A11 算術符号化部 A12 ビットストリーム形成部 B1 ビットストリーム分解部 B2 算術符号復号化部 B4 差分復元部 B3 復号化部 B5 加算部 B6 非線形逆量子化部 B7 振幅復元部 B8 サブバンド合成部 B9 音声波形復元部 B10 音声出力部

Claims (17)

    【特許請求の範囲】
  1. 【請求項1】圧縮する対象である第1の音声の波形を表
    す音声信号を取得し、当該音声信号をフィルタリングし
    てピッチ信号を抽出するフィルタと、 前記フィルタにより抽出されたピッチ信号に基づいて前
    記音声信号を区間に区切り、各該区間について、当該ピ
    ッチ信号との相関関係に基づいて位相を調整する位相調
    整手段と、 前記位相調整手段により位相を調整された各区間につい
    て、該位相に基づいてサンプリング長を定め、当該サン
    プリング長に従ってサンプリングを行うことによりサン
    プリング信号を生成するサンプリング手段と、 前記位相調整手段による前記調整の結果と前記サンプリ
    ング長の値とに基づいて、前記サンプリング信号をピッ
    チ波形信号へと加工する音声信号加工手段と、 ピッチ波形信号より前記第1の音声の基本周波数に基づ
    いた成分を抽出するサブバンド抽出手段と、 差分生成用の第2の音声の基本周波数に基づいた成分の
    時間変化を表すサブバンド情報を検索して、前記サブバ
    ンド抽出手段が抽出した基本周波数に基づいた成分の時
    間変化との相関が高いサブバンド情報を特定する検索手
    段と、 前記音声信号、及び、前記検索手段が特定したサブバン
    ド情報に基づき、前記第1の音声の波形と当該サブバン
    ド情報が表す前記第2の音声の波形との差分を表す差分
    信号を生成する差分手段と、 前記検索手段が特定したサブバンド情報を識別する識別
    コード及び前記差分信号を出力する出力手段と、を備え
    る、 ことを特徴とする音声信号圧縮装置。
  2. 【請求項2】圧縮する対象である第1の音声の波形を表
    す音声信号を取得し、当該音声信号をフィルタリングし
    てピッチ信号を抽出するフィルタと、 前記フィルタにより抽出されたピッチ信号に基づいて前
    記音声信号を区間に区切り、各該区間について、当該ピ
    ッチ信号との相関関係に基づいて位相を調整する位相調
    整手段と、 前記位相調整手段により位相を調整された各区間につい
    て、該位相に基づいてサンプリング長を定め、当該サン
    プリング長に従ってサンプリングを行うことによりサン
    プリング信号を生成するサンプリング手段と、 前記位相調整手段による前記調整の結果と前記サンプリ
    ング長の値とに基づいて、前記サンプリング信号をピッ
    チ波形信号へと加工する音声信号加工手段と、 ピッチ波形信号より前記第1の音声の基本周波数に基づ
    いた成分を抽出するサブバンド抽出手段と、 差分生成用の第2の音声の基本周波数に基づいた成分の
    時間変化を表すサブバンド情報を検索して、前記サブバ
    ンド抽出手段が抽出した基本周波数に基づいた成分の時
    間変化との相関が高いサブバンド情報を特定する検索手
    段と、 前記サブバンド抽出手段が抽出した前記第1の音声の基
    本周波数に基づいた成分と前記検索手段が特定したサブ
    バンド情報とに基づき、前記第1の音声と前記第2の音
    声との間での基本周波数に基づいた成分の差分を表す差
    分信号を生成する差分手段と、 前記検索手段が特定したサブバンド情報を識別する識別
    コード及び前記差分信号を出力する出力手段と、を備え
    る、 ことを特徴とする音声信号圧縮装置。
  3. 【請求項3】前記音声信号の基本周波数と前記ピッチ信
    号とに基づいて前記フィルタのフィルタ係数を決定する
    フィルタ係数決定手段を更に備え、 前記フィルタは、前記フィルタ係数決定手段による決定
    に従って自己のフィルタ係数を変更する、 ことを特徴とする請求項1又は2に記載の音声信号圧縮
    装置。
  4. 【請求項4】前記位相調整手段は、前記ピッチ信号の単
    位周期毎に音声信号を区切ることにより各前記区間を決
    定し、各該区間について、位相を種々変化させたものと
    前記ピッチ信号との相関に基づいて求めた位相へと移相
    するものである、 ことを特徴とする請求項1、2又は3に記載のピッチ波
    形信号生成装置。
  5. 【請求項5】前記位相調整手段は、前記フィルタにより
    抽出されたピッチ信号が実質的に0となるタイミングが
    来る時点が前記区間の始点となるように、前記音声信号
    を前記区間に区切る、 ことを特徴とする請求項1乃至4の何れか1項に記載の
    音声信号圧縮装置。
  6. 【請求項6】圧縮する対象である第1の音声の波形を表
    す音声信号を取得し、当該音声信号の単位ピッチ分にあ
    たる区間の時間長を調整することにより、当該音声信号
    をピッチ波形信号へと加工する音声信号加工手段と、 ピッチ波形信号より前記第1の音声の基本周波数に基づ
    いた成分を抽出するサブバンド抽出手段と、 差分生成用の第2の音声の基本周波数に基づいた成分の
    時間変化を表すサブバンド情報を検索して、前記サブバ
    ンド抽出手段が抽出した基本周波数に基づいた成分の時
    間変化との相関が高いサブバンド情報を特定する検索手
    段と、 前記音声信号、及び、前記検索手段が特定したサブバン
    ド情報に基づき、前記第1の音声の波形と当該サブバン
    ド情報が表す前記第2の音声の波形との差分を表す差分
    信号を生成する差分手段と、 前記検索手段が特定したサブバンド情報を識別する識別
    コード及び前記差分信号を出力する出力手段と、を備え
    る、 ことを特徴とする音声信号圧縮装置。
  7. 【請求項7】圧縮する対象である第1の音声の波形を表
    す音声信号を取得し、当該音声信号の単位ピッチ分にあ
    たる区間の時間長を調整することにより、当該音声信号
    をピッチ波形信号へと加工する音声信号加工手段と、 ピッチ波形信号より前記第1の音声の基本周波数に基づ
    いた成分を抽出するサブバンド抽出手段と、 差分生成用の第2の音声の基本周波数に基づいた成分の
    時間変化を表すサブバンド情報を検索して、前記サブバ
    ンド抽出手段が抽出した基本周波数に基づいた成分の時
    間変化との相関が高いサブバンド情報を特定する検索手
    段と、 前記サブバンド抽出手段が抽出した前記第1の音声の基
    本周波数に基づいた成分と前記検索手段が特定したサブ
    バンド情報とに基づき、前記第1の音声と前記第2の音
    声との間での基本周波数に基づいた成分の差分を表す差
    分信号を生成する差分手段と、 前記検索手段が特定したサブバンド情報を識別する識別
    コード及び前記差分信号を出力する出力手段と、を備え
    る、 ことを特徴とする音声信号圧縮装置。
  8. 【請求項8】第1の音声の波形を表す音声信号の単位ピ
    ッチ分にあたる区間の時間長を調整することにより生成
    される第1のピッチ波形信号の基本周波数に基づいた成
    分の時間変化を表すサブバンド情報を指定する識別コー
    ド、復元する対象である第2の音声の波形と前記第1の
    音声の波形との差分を表す差分信号、及び、前記第2の
    音声の単位ピッチ分にあたる区間の時間長を示すピッチ
    データを取得する入力手段と、 前記サブバンド情報のうち、前記入力手段が取得した識
    別コードにより識別されるものを取得し、取得したサブ
    バンド情報に基づいて前記第1のピッチ波形信号を復元
    するピッチ波形信号復元手段と、 前記ピッチ波形信号復元手段が復元した第1のピッチ波
    形信号の波形と前記差分信号が表す波形との和を表す第
    2のピッチ波形信号を生成する加算手段と、 前記ピッチデータ、及び、前記第2のピッチ波形信号に
    基づき、前記第2の音声を表す音声信号を生成する音声
    信号復元手段と、を備える、 ことを特徴とする音声信号伸長装置。
  9. 【請求項9】第1の音声の波形を表す音声信号の単位ピ
    ッチ分にあたる区間の時間長を調整することにより生成
    される第1のピッチ波形信号の基本周波数に基づいた成
    分の時間変化を表すサブバンド情報を指定する識別コー
    ド、復元する対象である第2の音声の波形と前記第1の
    音声との間での基本周波数に基づいた成分の差分を表す
    差分信号、及び、前記第2の音声の単位ピッチ分にあた
    る区間の時間長を示すピッチデータを取得する入力手段
    と、 前記サブバンド情報のうち、前記入力手段が取得した識
    別コードにより識別されるものを取得し、取得したサブ
    バンド情報と、前記差分信号とに基づいて、前記第2の
    音声の基本周波数に基づいた成分を特定するサブバンド
    情報復元手段と、 前記ピッチデータ、及び、前記サブバンド情報復元手段
    が特定した前記第2の音声の基本周波数に基づいた成分
    に基づき、前記第2の音声を表す音声信号を生成する音
    声信号復元手段と、を備える、 ことを特徴とする音声信号伸長装置。
  10. 【請求項10】圧縮する対象である第1の音声の波形を
    表す音声信号を取得し、当該音声信号をフィルタリング
    してピッチ信号を抽出し、 抽出されたピッチ信号に基づいて前記音声信号を区間に
    区切り、各該区間について、当該ピッチ信号との相関関
    係に基づいて位相を調整し、 前記位相調整手段により位相を調整された各区間につい
    て、該位相に基づいてサンプリング長を定め、当該サン
    プリング長に従ってサンプリングを行うことによりサン
    プリング信号を生成し、 前記位相の調整の結果と前記サンプリング長の値とに基
    づいて、前記サンプリング信号をピッチ波形信号へと加
    工し、 ピッチ波形信号より前記第1の音声の基本周波数に基づ
    いた成分を抽出し、 差分生成用の第2の音声の基本周波数に基づいた成分の
    時間変化を表すサブバンド情報のうち、前記サブバンド
    抽出手段が抽出した基本周波数に基づいた成分の時間変
    化との相関が高いものを特定し、 前記音声信号、及び、特定したサブバンド情報に基づ
    き、前記第1の音声の波形と当該サブバンド情報が表す
    前記第2の音声の波形との差分を表す差分信号を生成
    し、 特定したサブバンド情報を識別する識別コード及び前記
    差分信号を出力する、 ことを特徴とする音声信号圧縮方法。
  11. 【請求項11】圧縮する対象である第1の音声の波形を
    表す音声信号を取得し、当該音声信号をフィルタリング
    してピッチ信号を抽出し、 抽出されたピッチ信号に基づいて前記音声信号を区間に
    区切り、各該区間について、当該ピッチ信号との相関関
    係に基づいて位相を調整し、 前記位相調整手段により位相を調整された各区間につい
    て、該位相に基づいてサンプリング長を定め、当該サン
    プリング長に従ってサンプリングを行うことによりサン
    プリング信号を生成し、 前記位相の調整の結果と前記サンプリング長の値とに基
    づいて、前記サンプリング信号をピッチ波形信号へと加
    工し、 ピッチ波形信号より前記第1の音声の基本周波数に基づ
    いた成分を抽出し、 差分生成用の第2の音声の基本周波数に基づいた成分の
    時間変化を表すサブバンド情報のうち、前記サブバンド
    抽出手段が抽出した基本周波数に基づいた成分の時間変
    化との相関が高いものを特定する検索手段と、 前記第1の音声の基本周波数に基づいた成分、及び、特
    定されたサブバンド情報に基づき、前記第1の音声と前
    記第2の音声との間での基本周波数に基づいた成分の差
    分を表す差分信号を生成し、 特定されたサブバンド情報を識別する識別コード及び前
    記差分信号を出力する、 ことを特徴とする音声信号圧縮方法。
  12. 【請求項12】第1の音声の波形を表す音声信号の単位
    ピッチ分にあたる区間の時間長を調整することにより生
    成される第1のピッチ波形信号の基本周波数に基づいた
    成分の時間変化を表すサブバンド情報を指定する識別コ
    ード、復元する対象である第2の音声の波形と前記第1
    の音声の波形との差分を表す差分信号、及び、前記第2
    の音声の単位ピッチ分にあたる区間の時間長を示すピッ
    チデータを取得し、 前記サブバンド情報のうち、前記入力手段が取得した識
    別コードにより識別されるものを取得し、取得したサブ
    バンド情報に基づいて前記第1のピッチ波形信号を復元
    し、 復元した第1のピッチ波形信号の波形と前記差分信号が
    表す波形との和を表す第2のピッチ波形信号を生成し、 前記ピッチデータ、及び、前記第2のピッチ波形信号に
    基づき、前記第2の音声を表す音声信号を生成する、 ことを特徴とする音声信号伸長方法。
  13. 【請求項13】第1の音声の波形を表す音声信号の単位
    ピッチ分にあたる区間の時間長を調整することにより生
    成される第1のピッチ波形信号の基本周波数に基づいた
    成分の時間変化を表すサブバンド情報を指定する識別コ
    ード、復元する対象である第2の音声の波形と前記第1
    の音声との間での基本周波数に基づいた成分の差分を表
    す差分信号、及び、前記第2の音声の単位ピッチ分にあ
    たる区間の時間長を示すピッチデータを取得し、 前記サブバンド情報のうち、前記入力手段が取得した識
    別コードにより識別されるものを取得し、取得したサブ
    バンド情報と、前記差分信号とに基づいて、前記第2の
    音声の基本周波数に基づいた成分を特定し、 前記ピッチデータ、及び、特定された前記第2の音声の
    基本周波数に基づいた成分に基づき、前記第2の音声を
    表す音声信号を生成する、 ことを特徴とする音声信号伸長方法。
  14. 【請求項14】コンピュータを、 圧縮する対象である第1の音声の波形を表す音声信号を
    取得し、当該音声信号をフィルタリングしてピッチ信号
    を抽出するフィルタと、 前記フィルタにより抽出されたピッチ信号に基づいて前
    記音声信号を区間に区切り、各該区間について、当該ピ
    ッチ信号との相関関係に基づいて位相を調整する位相調
    整手段と、 前記位相調整手段により位相を調整された各区間につい
    て、該位相に基づいてサンプリング長を定め、当該サン
    プリング長に従ってサンプリングを行うことによりサン
    プリング信号を生成するサンプリング手段と、 前記位相調整手段による前記調整の結果と前記サンプリ
    ング長の値とに基づいて、前記サンプリング信号をピッ
    チ波形信号へと加工する音声信号加工手段と、 ピッチ波形信号より前記第1の音声の基本周波数に基づ
    いた成分を抽出するサブバンド抽出手段と、 差分生成用の第2の音声の基本周波数に基づいた成分の
    時間変化を表すサブバンド情報を検索して、前記サブバ
    ンド抽出手段が抽出した基本周波数に基づいた成分の時
    間変化との相関が高いサブバンド情報を特定する検索手
    段と、 前記音声信号、及び、前記検索手段が特定したサブバン
    ド情報に基づき、前記第1の音声の波形と当該サブバン
    ド情報が表す前記第2の音声の波形との差分を表す差分
    信号を生成する差分手段と、 前記検索手段が特定したサブバンド情報を識別する識別
    コード及び前記差分信号を出力する出力手段と、 して機能させるためのプログラム。
  15. 【請求項15】コンピュータを、 圧縮する対象である第1の音声の波形を表す音声信号を
    取得し、当該音声信号をフィルタリングしてピッチ信号
    を抽出するフィルタと、 前記フィルタにより抽出されたピッチ信号に基づいて前
    記音声信号を区間に区切り、各該区間について、当該ピ
    ッチ信号との相関関係に基づいて位相を調整する位相調
    整手段と、 前記位相調整手段により位相を調整された各区間につい
    て、該位相に基づいてサンプリング長を定め、当該サン
    プリング長に従ってサンプリングを行うことによりサン
    プリング信号を生成するサンプリング手段と、 前記位相調整手段による前記調整の結果と前記サンプリ
    ング長の値とに基づいて、前記サンプリング信号をピッ
    チ波形信号へと加工する音声信号加工手段と、 ピッチ波形信号より前記第1の音声の基本周波数に基づ
    いた成分を抽出するサブバンド抽出手段と、 差分生成用の第2の音声の基本周波数に基づいた成分の
    時間変化を表すサブバンド情報を検索して、前記サブバ
    ンド抽出手段が抽出した基本周波数に基づいた成分の時
    間変化との相関が高いサブバンド情報を特定する検索手
    段と、 前記サブバンド抽出手段が抽出した前記第1の音声の基
    本周波数に基づいた成分と前記検索手段が特定したサブ
    バンド情報とに基づき、前記第1の音声と前記第2の音
    声との間での基本周波数に基づいた成分の差分を表す差
    分信号を生成する差分手段と、 前記検索手段が特定したサブバンド情報を識別する識別
    コード及び前記差分信号を出力する出力手段と、 して機能させるためのプログラム。
  16. 【請求項16】コンピュータを、 第1の音声の波形を表す音声信号の単位ピッチ分にあた
    る区間の時間長を調整することにより生成される第1の
    ピッチ波形信号の基本周波数に基づいた成分の時間変化
    を表すサブバンド情報を指定する識別コード、復元する
    対象である第2の音声の波形と前記第1の音声の波形と
    の差分を表す差分信号、及び、前記第2の音声の単位ピ
    ッチ分にあたる区間の時間長を示すピッチデータを取得
    する入力手段と、 前記サブバンド情報のうち、前記入力手段が取得した識
    別コードにより識別されるものを取得し、取得したサブ
    バンド情報に基づいて前記第1のピッチ波形信号を復元
    するピッチ波形信号復元手段と、 前記ピッチ波形信号復元手段が復元した第1のピッチ波
    形信号の波形と前記差分信号が表す波形との和を表す第
    2のピッチ波形信号を生成する加算手段と、 前記ピッチデータ、及び、前記第2のピッチ波形信号に
    基づき、前記第2の音声を表す音声信号を生成する音声
    信号復元手段と、 して機能させるためのプログラム。
  17. 【請求項17】コンピュータを、 第1の音声の波形を表す音声信号の単位ピッチ分にあた
    る区間の時間長を調整することにより生成される第1の
    ピッチ波形信号の基本周波数に基づいた成分の時間変化
    を表すサブバンド情報を指定する識別コード、復元する
    対象である第2の音声の波形と前記第1の音声との間で
    の基本周波数に基づいた成分の差分を表す差分信号、及
    び、前記第2の音声の単位ピッチ分にあたる区間の時間
    長を示すピッチデータを取得する入力手段と、 前記サブバンド情報のうち、前記入力手段が取得した識
    別コードにより識別されるものを取得し、取得したサブ
    バンド情報と、前記差分信号とに基づいて、前記第2の
    音声の基本周波数に基づいた成分を特定するサブバンド
    情報復元手段と、 前記ピッチデータ、及び、前記サブバンド情報復元手段
    が特定した前記第2の音声の基本周波数に基づいた成分
    に基づき、前記第2の音声を表す音声信号を生成する音
    声信号復元手段と、 して機能させるためのプログラム。
JP2002277749A 2001-09-27 2002-09-24 音声信号圧縮装置、音声信号圧縮方法、及び、プログラム Expired - Fee Related JP3994332B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002277749A JP3994332B2 (ja) 2001-09-27 2002-09-24 音声信号圧縮装置、音声信号圧縮方法、及び、プログラム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2001298609 2001-09-27
JP2001-298609 2001-09-27
JP2002277749A JP3994332B2 (ja) 2001-09-27 2002-09-24 音声信号圧縮装置、音声信号圧縮方法、及び、プログラム

Publications (2)

Publication Number Publication Date
JP2003177799A true JP2003177799A (ja) 2003-06-27
JP3994332B2 JP3994332B2 (ja) 2007-10-17

Family

ID=26623176

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002277749A Expired - Fee Related JP3994332B2 (ja) 2001-09-27 2002-09-24 音声信号圧縮装置、音声信号圧縮方法、及び、プログラム

Country Status (1)

Country Link
JP (1) JP3994332B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006030609A (ja) * 2004-07-16 2006-02-02 Yamaha Corp 音声合成データ生成装置、音声合成装置、音声合成データ生成プログラム及び音声合成プログラム
JP2007511966A (ja) * 2003-11-21 2007-05-10 オクタシク インコーポレイティッド 通信システムにおけるエコーを低減するための方法および装置
JP2009501909A (ja) * 2005-07-18 2009-01-22 トグノラ,ディエゴ,ジュセッペ 信号処理方法およびシステム
JP2009515207A (ja) * 2005-11-03 2009-04-09 ドルビー スウェーデン アクチボラゲット 音声信号のタイムワープ処理改良変換符号化

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007511966A (ja) * 2003-11-21 2007-05-10 オクタシク インコーポレイティッド 通信システムにおけるエコーを低減するための方法および装置
JP2006030609A (ja) * 2004-07-16 2006-02-02 Yamaha Corp 音声合成データ生成装置、音声合成装置、音声合成データ生成プログラム及び音声合成プログラム
JP2009501909A (ja) * 2005-07-18 2009-01-22 トグノラ,ディエゴ,ジュセッペ 信号処理方法およびシステム
JP2009515207A (ja) * 2005-11-03 2009-04-09 ドルビー スウェーデン アクチボラゲット 音声信号のタイムワープ処理改良変換符号化
JP2012068660A (ja) * 2005-11-03 2012-04-05 Dolby International Ab 音声信号のタイムワープ処理改良変換符号化
US8412518B2 (en) 2005-11-03 2013-04-02 Dolby International Ab Time warped modified transform coding of audio signals
US8838441B2 (en) 2005-11-03 2014-09-16 Dolby International Ab Time warped modified transform coding of audio signals

Also Published As

Publication number Publication date
JP3994332B2 (ja) 2007-10-17

Similar Documents

Publication Publication Date Title
EP1422690B1 (en) Apparatus and method for generating pitch waveform signal and apparatus and method for compressing/decompressing and synthesizing speech signal using the same
EP1422693B1 (en) Pitch waveform signal generation apparatus; pitch waveform signal generation method; and program
JP4978539B2 (ja) 符号化装置、符号化方法及びプログラム。
JP2003108197A (ja) オーディオ信号復号化装置およびオーディオ信号符号化装置
JP3994332B2 (ja) 音声信号圧縮装置、音声信号圧縮方法、及び、プログラム
JP4736699B2 (ja) 音声信号圧縮装置、音声信号復元装置、音声信号圧縮方法、音声信号復元方法及びプログラム
JP3297751B2 (ja) データ数変換方法、符号化装置及び復号化装置
JP4256189B2 (ja) 音声信号圧縮装置、音声信号圧縮方法及びプログラム
JP2000132193A (ja) 信号符号化装置及び方法、並びに信号復号装置及び方法
JP4407305B2 (ja) ピッチ波形信号分割装置、音声信号圧縮装置、音声合成装置、ピッチ波形信号分割方法、音声信号圧縮方法、音声合成方法、記録媒体及びプログラム
JP2796408B2 (ja) 音声情報圧縮装置
JP2003216172A (ja) 音声信号加工装置、音声信号加工方法及びプログラム
JP3994333B2 (ja) 音声辞書作成装置、音声辞書作成方法、及び、プログラム
JP2003216199A (ja) 復号装置、復号方法及びプログラム供給媒体
JP2003216189A (ja) 符号化装置及び復号装置
JP3302075B2 (ja) 合成パラメータ変換方法および装置
JP2880508B2 (ja) 音声の規則合成装置
JP2003108172A (ja) 音声信号加工装置、音声信号加工方法及びプログラム
JP2973966B2 (ja) 音声通信装置
JP2000132195A (ja) 信号符号化装置及び方法
JPH06202695A (ja) 音声信号処理装置
JP2003216171A (ja) 音声信号加工装置、信号復元装置、音声信号加工方法、信号復元方法及びプログラム
JPH053600B2 (ja)
JPH07244499A (ja) 音声符号化装置
KR19980035867A (ko) 음성 데이터 부호화/복호화장치 및 그 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041129

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20061107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070410

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070608

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070703

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070718

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100810

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 3994332

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100810

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110810

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110810

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120810

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120810

Year of fee payment: 5

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120810

Year of fee payment: 5

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120810

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130810

Year of fee payment: 6

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees