JP2000305600A

JP2000305600A - 音声信号処理装置及び方法、情報媒体

Info

Publication number: JP2000305600A
Application number: JP11113861A
Authority: JP
Inventors: Mitsuo Matsumoto; 光雄松本; Toshiko Murata; 寿子村田
Original assignee: Victor Company of Japan Ltd
Current assignee: Victor Company of Japan Ltd
Priority date: 1999-04-21
Filing date: 1999-04-21
Publication date: 2000-11-02

Abstract

(57)【要約】【課題】従来に比べて簡単な回路構成で処理時間も比
較的短く、しかも音質の劣化がなくて個人の声の特徴を
維持したままの自然な音声音程変換を可能とする。【解決手段】処理単位分割部２３はデジタル音声信号
をフレーム毎に切り出す。基本周期抽出部３１はフレー
ムの音声信号の基本（ピッチ）周波数を抽出する。変換
部２４はフレームの音声信号を周波数領域の信号へ変換
する。音程変換部２５は全周波数帯域を高域側または低
域側にシフトする。倍音構造操作部２６はピッチ周波数
に基づいて音声信号の倍音構造を操作する。逆変換部２
７は倍音構造が操作された信号を時間領域の信号に逆変
換する。処理単位間接続部２８はフレームの初期位相と
ピッチ周期に基づいて逆変後のフレーム位間を接続す
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、いわゆるカラオケ
装置や音響映像編集装置等に使用され、音声の音の高さ
（音程、すなわちピッチ周波数、基本周波数）を変換す
る音声信号処理装置及び方法、並びに情報媒体に係り、
特に、音質の劣化が無く、かつ個人の声の特徴を残した
ままで音声の音程を容易に変換することのできる音声信
号処理装置及び方法、並びに、その音程変換を実現する
ためのプログラムデータを記録若しくは伝送する情報媒
体に関する。

【０００２】

【従来の技術】従来より、いわゆるカラオケ装置等で
は、歌う人の音域に合わせるために、演奏される伴奏の
音程を自由に変化させて設定することができるキーコン
トロールと呼ばれる機能が付いている。これは、伴奏と
して再生されるアナログ音声信号の再生速度を変化させ
ることにより、音程を変化させている。

【０００３】また、近年では、センタに曲のデータを蓄
積しておき、このセンタに複数接続されている遠隔地の
端末装置に必要に応じて曲のデータを送信して、端末装
置で曲を再生する通信カラオケが開発されている。

【０００４】この通信カラオケのセンタから端末装置に
送信される曲のデータは、曲に合わせて歌詞を表示する
と共に、その表示色を変更するための文字データと、曲
の伴奏を再生するために端末装置のシンセサイザを動作
させるＭＩＤＩ信号と、男性又は女性の声による肉声バ
ックコーラスを端末装置で再生するための圧縮された音
声信号とで構成されている。そして、この通信カラオケ
の端末装置において、演奏される伴奏の音程を変える場
合、ＭＩＤＩ信号で再生されるシンセサイザの音程を、
全体的に上げる（又は下げる）ように設定することによ
り、再生速度を変えることなく音程を自由に変えて再生
することができる。

【０００５】ところが、肉声のバックコーラスは、ＭＩ
ＤＩ信号でないため、音程に関連するデータを備えてお
らず、再生速度を変えない状態で、音質の劣化がなく、
しかも個人の声の特徴を残したままで、音声の音程を変
換することは困難であった。

【０００６】また、近年の音響映像編集装置は、デジタ
ル信号の状態で編集作業を行うものも開発されてきてい
るが、高品質を維持したままで音声の音程を変化させる
のは困難であった。

【０００７】これまでの音声の再生速度を一定に保った
ままで音声の音程を変換する方法としては、主として二
通りの方法が考えられている。

【０００８】一つは、音声波形を時間領域で操作する方
法であり、例えばピッチ周波数を２倍に上げる場合、音
声信号を所定時間毎に切り出して、この切り出し区間毎
に２倍の速度でデータを読み出すようにしている。そし
て、この場合、切り出した区間のデータからピッチ周波
数（ピーク周波数のうち最も低い周波数）を求め、２倍
のピッチ周波数である波形を付け加えることで、時間を
変えずにピッチ周波数のみ２倍に上げることができる。
さらに、このような処理をした切り出し区間をスムーズ
につなげることによって、音程変換を実現することがで
きるが、現実には、つなげ方によって音質を損ねたり、
個人の声の特徴が維持されず不自然な音声となってしま
うので、現在も各種改善方法が提案されている状態であ
る。

【０００９】もう一つは、フーリエ変換を用いて周波数
領域で操作する方法である。音声信号を所定時間毎に切
り出し、フーリエ変換によって周波数の振幅成分と周波
数の位相成分とを抽出する。次に、全周波数帯域を所望
のシフト量分だけ周波数シフト及び位相シフトし、逆フ
ーリエ変換した後、切り出し区間をつなげていく方法で
ある。しかし、この方法によっても不自然な音声となっ
てしまい、うまく音程変換ができない。

【００１０】なお、フーリエ変換後、ピークスペクトル
（ピッチ周波数）を検出し、このピークスペクトル付近
の周波数信号のみをシフトする方法が本出願人により既
に提案され、特開昭５９−２０４０９６号公報に開示さ
れている。また、それに加えて、本出願人は特開平９−
１８５３９２号公報において、処理単位（フレームと表
現している）間で波形を滑らかに繋げるために、窓関数
を用いて接続を行う方法を開示している。

【００１１】

【発明が解決しようとする課題】ところで、ピークスペ
クトル付近の周波数信号のみをシフトする方法は、ピー
クスペクトルの倍音成分がそのまま残っているため、聴
覚において元の音程が容易に想像されてしまい、倍音成
分による元の音程とシフトした後の音程との２重の音程
が聞こえてしまうという問題がある。

【００１２】また、処理単位間で波形を滑らかに繋げる
ために、窓関数を用いて接続を行う方法では、音程変換
された後の信号の周期によっては出力の振幅が極めて小
さくなることが起こり得る。このため、再生される音
は、音質の点で問題が多い。

【００１３】さらに、例えばＶＴＲやテープレコーダ等
において、解説やナレーション等の音声を高速再生する
際に、高くなってしまうピッチ周波数を元に戻して、聞
き取りやすくするなど、カラオケのキーコントロール以
外でも、音声のピッチ周波数を自由に変換したいという
要求もある。

【００１４】そこで、本発明は、上述の課題に鑑みてな
されたものであり、従来に比べて簡単な回路構成で処理
時間も比較的短く、しかも音質の劣化がなくて個人の声
の特徴を維持したままの自然な音声音程変換を可能とす
る、高品質な音声信号処理方法及び装置、並びにその音
程変換を実現するプログラムデータを記録若しくは伝送
する情報媒体を提供することを目的とする。

【００１５】

【課題を解決するための手段】請求項１に記載の本発明
に係る音声信号処理方法は、上述の課題を解決するため
に、デジタル入力された音声信号を所定の処理単位毎に
切り出す分割手段と、前記分割手段から出力された音声
信号の基本周波数を抽出する基本周波数抽出手段と、前
記分割手段から出力された音声信号を時間領域の信号か
ら周波数領域の信号へ変換する変換手段と、前記変換手
段により出力された音声信号の全周波数帯域を高域側ま
たは低域側にシフトする周波数シフト手段と、前記基本
周波数抽出手段により抽出された基本周波数に基づい
て、前記周波数シフト手段により全周波数帯域をシフト
された音声信号の倍音の構造を操作する倍音構造操作手
段と、前記倍音構造操作手段より出力された音声信号を
時間領域の信号に逆変換する逆変換手段と、各処理単位
の初期位相と基本周波数に基づいて、前記逆変換後の前
記所定の処理単位間を接続する処理単位間接続手段とを
有する。

【００１６】請求項２に記載の本発明に係る音声信号処
理装置は、上述の課題を解決するために、デジタル入力
された音声信号を所定の処理単位毎に切り出し、前記処
理単位毎に分割された音声信号の基本周波数を抽出し、
前記処理単位毎に分割された音声信号を時間領域の信号
から周波数領域の信号へ変換し、前記時間領域の信号か
ら周波数領域の信号へ変換された音声信号の全周波数帯
域を高域側または低域側にシフトし、前記抽出された基
本周波数に基づいて、前記全周波数帯域を高域側または
低域側にシフトされた音声信号の倍音の構造を操作し、
前記倍音の構造が操作された音声信号を時間領域の信号
に逆変換し、各処理単位の初期位相と基本周波数に基づ
いて、前記逆変換後の前記所定の処理単位間を接続す
る。

【００１７】請求項３に記載の本発明に係る情報媒体
は、上述の課題を解決するために、デジタル入力された
音声信号を所定の処理単位毎に切り出す分割工程と、前
記分割工程により得られる音声信号の基本周波数を抽出
する基本周波数抽出工程と、前記分割工程により得られ
る音声信号を時間領域の信号から周波数領域の信号へ変
換する変換工程と、前記変換工程により得られる音声信
号の全周波数帯域を高域側または低域側にシフトする周
波数シフト工程と、前記基本周波数抽出工程により抽出
される基本周波数に基づいて、前記周波数シフト工程に
より全周波数帯域をシフトされた音声信号の倍音の構造
を操作する倍音構造操作工程と、前記倍音構造操作工程
により得られる音声信号を時間領域の信号に逆変換する
逆変換工程と、各処理単位の初期位相と基本周波数に基
づいて、前記逆変換後の前記所定の処理単位間を接続す
る処理単位間接続工程とを、演算装置に対して実行させ
るプログラムデータを記録、若しくは伝送する。

【００１８】

【発明の実施の形態】以下、本発明に係る音程変換装置
の好ましい実施の形態について、図面を参照しながら詳
細に説明する。

【００１９】本発明の音声信号処理装置及び方法が適用
される一実施の形態としての音程変換装置の概略構成を
図１に示す。

【００２０】この図１において、入力端子２１には、４
４．１ＫＨｚのサンプリング周波数でサンプリング処理
されたデジタル音声信号が供給される。このデジタル音
声信号は、処理単位分割部２３及び基本周期抽出部３１
に送られる。

【００２１】基本周波数抽出部３１は、詳細については
後述するが、供給されたデジタル音声信号の低域成分の
みを取り出した後、所定の処理単位毎に切り出し、その
処理単位毎のデジタル音声信号の基本周波数（ピッチ周
波数、ピッチ周期）を抽出する。なお、当該基本周波数
抽出部での所定の処理単位を、以下、抽出フレームと呼
ぶことにする。

【００２２】処理単位分割部２３は、入力されたデジタ
ル音声信号を所定の処理単位毎に分割し、この処理単位
毎のデジタル音声信号を変換部２４に送出する。なお、
当該処理単位分割部２３での所定の処理単位を、以下、
変換フレームと呼ぶことにする。この変換フレームは、
処理単位分割部２３の後段における変換部２４及び更に
その後段の逆変換部２７にて行われる変換及び逆変換処
理の単位である。変換フレームと抽出フレームは必ずし
も同じである必要はないが、本実施の形態では変換フレ
ームと抽出フレームを同じとしている。

【００２３】変換部２４は、時間領域のデジタル音声信
号を周波数領域の信号に変換する。具体的には、処理単
位分割部２３からの変換フレーム毎の時間領域のデジタ
ル音声信号を、いわゆる高速フーリエ変換（ＦＦＴ）処
理によって、変換フレーム毎の周波数領域の信号に変換
する。この変換部２４によるＦＦＴ処理にて得られた周
波数領域の信号は、音程変換部２５に送られる。

【００２４】なおこのとき、時間領域に対応していた各
サンプルは、各周波数に対応し、サンプル番号と周波数
とが対応することになる。すなわち、サンプリング周波
数ｆｓの音声信号データをＮ個のサンプル毎に切り出し
て処理する場合、変換部２４から出力される信号の周波
数ｐＨｚを示すサンプル番号は、第（ｐ×Ｎ／ｆｓ）番
目となる。より具体的な例として、サンプリング周波数
４４．１ＫＨｚのデジタル音声信号を例えば４０９６サ
ンプル毎に変換フレーム化して切り出すようにしたとす
ると、周波数ｐＨｚを示すサンプル番号は第（ｐ×４０
９６／４４１００）番目となる（小数点以下は四捨五
入）。

【００２５】音程変換部２５は、変換部２４でのＦＦＴ
処理により得られた周波数領域の信号の実部と虚部とを
所望のピッチシフト量だけ移動させるような周波数シフ
ト処理を行う。当該音程変換部２５にて周波数シフト処
理された信号は、倍音構造操作部２６に送られる。

【００２６】ここで、この周波数シフト処理において、
例えば１オクターブ（１２半音）高い方へ移動させると
いうことは、周波数を２倍にすることと同意であるの
で、ｈ半音上げるには全体の周波数を２^h/12倍に上げれ
ば良いことになる。より具体的な例として、例えば３半
音高い方へ音程を上げるような場合は、全体の周波数を
２^3/12倍（約１．１９倍）にすれば良い。その結果、第
ｎ番目のサンプルの値は第（１．１９×ｎ）番目のサン
プルに移動されることになる。このとき、ピッチ周波数
をｐ₁Ｈｚとすると、ｈ半音シフトした後のピッチ周波
数を示すサンプル番号は、第（ｐ₁×２^h/12×Ｎ／ｆ
ｓ）番目となる。

【００２７】ところで、本実施の形態において、同じ人
物が音程を変えて発音した声を分析したところ、音程が
高くなるにつれてピッチ周波数の倍音成分のレベルが比
較的小さく、逆に音程が低くなると倍音成分のレベルが
大きくなり、豊富に出現することを発見した。そして、
このピッチ周波数の倍音成分のレベルが再生される音声
品質に影響を与えることが判ったので、周波数全体の移
動後にこの倍音成分のレベルを操作すれば、高品質の音
声を得ることができる。

【００２８】したがって、倍音構造操作部２６では、基
本周期抽出部３１にて抽出されたピッチ周波数が０であ
る（ピッチ周波数が抽出されない）場合、音程変換部２
５から供給された信号に対して何も操作せずに、そのま
ま後段の逆変換部２７に送出する。

【００２９】一方、基本周期抽出部３１にて抽出された
ピッチ周波数が０でない（ピッチ周波数が存在する）場
合、倍音構造操作部２６では、ピッチ周波数の倍音成分
（ピッチ周波数の整数倍の周波数を示すサンプル）のレ
ベルを操作する。すなわち、基本周期抽出部３１にて抽
出されたピッチ周波数が０でない場合の倍音構造操作部
２６は、音程変換部２５にて周波数全体を例えば高い方
へシフト（シフト量≧１）したならば、当該ピッチシフ
トした後の信号の倍音成分のレベルを減少させるように
し、一方、音程変換部２５にて周波数全体を例えば低い
方へシフト（シフト量＜１）したならば、当該ピッチシ
フトした後の信号の倍音成分のレベルを増加させるよう
な倍音構造の操作処理を行う。

【００３０】より具体的な例として、基本周波数抽出部
３１にて抽出されたピッチ周波数が例えば２００Ｈｚで
あるとし、また、音程変換部２５にて周波数全体を例え
ば高い方へ３半音シフトした（ピッチシフト量が１倍以
上）とし、さらに、倍音構造操作部２６における倍音成
分のレベル変化量として例えば＋１０ｄＢ又は−１０ｄ
Ｂを例に挙げる。この場合、音程変換部２５にてシフト
した後のピッチ周波数は２００×１．１９Ｈｚとなるの
で、このシフトした後の音声信号の倍音成分は、２００
×１．１９×ｍ（ｍは２以上の整数）Ｈｚとなる。した
がって、倍音構造操作部２６では、この周波数を示すサ
ンプル番号の実部及び虚部を各々１０^0. ⁵又は１０^-0.5
乗算することにより、約±１０ｄＢのレベル操作を行う
ことになる。これを一般化すると、ピッチ周波数ｐ₁Ｈ
ｚのときのｈ半音シフトした後のｍ倍音成分を示すサン
プル番号は、第（ｍ×ｐ₁×２^h/12×Ｎ／ｆｓ）番目と
なるので、このサンプル番号のデータの実部及び虚部を
各々１０^0.5又は１０^-0.5を乗算することにより、±１
０ｄＢのレベル操作が可能となる。

【００３１】この倍音構造操作部２６による処理後の信
号が供給される逆変換部２７では、先の変換部２４での
変換処理に対応する逆変換処理、すなわち、周波数領域
の信号を時間領域のデジタル音声信号に変換する処理を
行う。より具体的には、周波数領域の信号を、逆高速フ
ーリエ変換（ＩＦＦＴ）処理によって、時間領域のデジ
タル音声信号に変換する。当該逆変換部２７でのＩＦＦ
Ｔ処理により得られた変換フレーム毎のデジタル音声信
号は、処理単位間接続部２８に送られる。

【００３２】処理単位間接続部２８は、基本周期抽出部
３１にて抽出されたピッチ周波数に基づいて、逆変換部
２７でのＩＦＦＴ処理により得られた変換フレーム毎の
デジタル音声信号を接続する。当該処理単位間接続部２
８によって変換フレームが接続されたデジタル音声信号
は、出力端子３０から音程変換後のデジタル音声信号と
して出力され、図示しないＤ／Ａ（デジタル／アナロ
グ）変換器等に送出されることになる。

【００３３】以下に、処理単位間接続部２８における処
理単位（変換フレーム）の接続方法を、図２を参照しな
がら説明する。

【００３４】図２の（ａ）は、図１の変換部２４にてＦ
ＦＴ処理された後で且つ音程変換部２５で音程変換処理
（周波数シフト処理）される前の信号の処理単位（変換
フレーム）を表しており、図２の（ｂ）は、図１の音程
変換部２５による音程変換（周波数シフト処理）後の信
号の処理単位（変換フレーム）を表し、図２の（ｃ）
は、図１の基本周期抽出部３１にて抽出された基本周期
（ピッチ）Ｒを表している。

【００３５】この図２の例において、ある処理単位（変
換フレーム）の初期位相をθとし、その次の処理単位
（変換フレーム）の初期位相をφとすると、処理単位間
接続部２８では、基本周期抽出部３１にて抽出された基
本周波数（基本周期）Ｒに基づいて、下記式にて位相φ
となる点（時刻）Ｐを求める。なお、θ，φ共に絶対時
刻に対応する位相回転角が加味されているとする。

【００３６】φ＝θ＋（基本周期Ｒの整数倍）＋Δφ処
理単位間接続部２８では、当該式から求めた位相φとな
る点Ｐで、２つの処理単位を繋ぐ（連結する）ようにす
る。これにより、処理単位（変換フレーム）間で波形が
滑らかに繋がり、良好な音質を得ることが可能となる。
つまり、前フレームの終わりの位相と現フレームの始ま
りの位相とを合わせることで、フレーム間での信号の不
連続性を避けることができる。

【００３７】なお、上述した実施の形態では、処理単位
の一例として４０９６サンプルを例に挙げているが、こ
れ以外のサンプル数でも良いのはもちろんである。しか
しながら、種々の実験を行った結果、１サンプル当たり
１０Ｈｚ〜２５Ｈｚ程度となるように処理区間を設定す
るのが音質上最も良いことが判った。そして、フーリエ
変換等のデジタル処理を行うことを考慮すると、処理区
間は２のｎ乗サンプルにするのが良い。

【００３８】したがって、本実施の形態のようにサンプ
リング周波数４４．１ＫＨｚのデジタル音声信号の場
合、２０４８サンプリング（２１．５Ｈｚ／１サンプ
ル）または４０９６サンプル（１０．８Ｈｚ／１サンプ
ル）とするのが良く、例えばＭＰＥＧ２オーディオ等で
使用されるサンプリング周波数２２．０５ＫＨｚのデジ
タル音声信号の場合は、１０２４サンプリング（２１．
５Ｈｚ／１サンプル）または２０４８サンプル（１０．
８Ｈｚ／１サンプル）とするのが良い。

【００３９】実際に、サンプリング周波数４４．１ＫＨ
ｚのデジタル音声信号について、処理単位を５１２，１
０２，２０４８，４０９６，８１９２の各サンプルで実
験したところ、５１２サンプルでは音程が一つに定まら
ず、１０２４サンプルでは音質が非常に悪かった。そし
て、８１９２サンプルでは所望の音程にはなったもの
の、ディレイがかかったような２重の音声となってしま
い、処理区間は２０４８又は４０９６サンプルのときが
最も高音質の結果を得ることが出来る。

【００４０】次に、図１の基本周期抽出部３１につい
て、以下の図３〜図６を用いて説明する。

【００４１】図３には、基本周期抽出部３１の構成例を
示す。

【００４２】この図３において、入力端子１には、図１
の入力端子２１を介した４４．１ｋＨｚのサンプリング
周波数でサンプリング処理されたデジタル音声信号が供
給される。このデジタル音声信号は、フィルタ回路３に
送られる。

【００４３】当該フィルタ回路３は、ＩＩＲ（巡回型）
若しくはＦＩＲ（非巡回型）のデジタルフィルタであ
り、例えばカットオフ周波数が３００Ｈｚの周波数特性
を有する低域濾波器（ローパスフィルタ）である。この
フィルタ回路３からの出力データは、バッファメモリ４
に送られる。

【００４４】このバッファメモリ４は、フィルタ回路３
からのデータを蓄積し、後段のピークサーチ回路５にお
ける処理単位時間（抽出フレーム）分毎に出力、すなわ
ち抽出フレーム分に対応するサンプル数毎のデータを出
力する。バッファメモリ４から出力された抽出フレーム
毎のデータは、ピークサーチ回路５に送られる。

【００４５】このピークサーチ回路５では、供給された
各サンプルデータを１サンプル毎に比較し、その比較出
力に基づいて、デジタル音声信号のピークを抽出する。

【００４６】具体的に言うと、該ピークサーチ回路５で
は、デジタル音声信号の各サンプル毎に、現在のデジタ
ル音声信号とその１サンプル前のデジタル音声信号とを
比較し、現在のサンプル値がその１サンプル前のサンプ
ル値よりも大きいことを示す比較結果が続いた後、現在
のサンプル値がその１サンプル前のサンプル値よりも小
さくなったことを示す比較結果が得られたとき、或い
は、現在のサンプル値がその１サンプル前のサンプル値
よりも小さいことを示す比較結果が続いた後、現在のサ
ンプル値がその１サンプル前のサンプル値よりも大きく
なったことを示す比較結果が得られたときに、それら比
較結果の変化時点をデジタル音声信号のピークとして検
出する。

【００４７】すなわち、現在のサンプル値がその１サン
プル前のサンプル値よりも大きいことを示す比較結果が
続いた後、現在のサンプル値がその１サンプル前のサン
プル値よりも小さくなった時点の当該現在のサンプル値
の１つ前のサンプル値がローカルマキシマム（極大値）
を示し、一方で、現在のサンプル値がその１サンプル前
のサンプル値よりも小さいことを示す比較結果が続いた
後、現在のサンプル値がその１サンプル前のサンプル値
よりも大きくなった時点の当該現在のサンプル値の１つ
前のサンプル値がローカルミニマム（極小値）を示す。
したがって、当該ピークサーチ回路５では、このように
サンプル比較結果の変化に基づいて、デジタル音声信号
のローカルマキシマムのサンプルデータ、及びローカル
ミニマムのサンプルデータを検出する。このピークサー
チ回路５により検出されたローカルマキシマム及びロー
カルミニマムのサンプルデータは符号データ化回路６に
送られる。

【００４８】符号データ化回路６は、ピークサーチ回路
５より供給された各ローカルマキシマムのサンプルデー
タに対してはそれぞれ正（＋）の符号を付加し、各ロー
カルミニマムのサンプルデータに対してはそれぞれ負
（−）の符号を付加する。この符号データ化回路６にて
符号データ化されたローカルマキシＭＡ及びローカルミ
ニマムの各サンプルデータは、データ分析回路７に送ら
れる。

【００４９】このデータ分析回路７では、符号データ化
回路６にて正（＋）の符号が付加された各ローカルマキ
シマム間の時間間隔（サンプル数）、及び、符号データ
化回路６にて負（−）の符号が付加された各ローカルミ
ニマム（極小値）間の時間間隔（サンプル数）を求め、
次いで、それら求めた各ローカルマキシマム間の時間間
隔（サンプル数）と各ローカルミニマム間の時間間隔
（サンプル数）を統計的に分析する。

【００５０】すなわち、データ分析回路７では、正
（＋）の符号が付加された各ローカルマキシマムについ
て、あるローカルマキシマムからそれ以降の各ローカル
マキシマムまでの時間間隔（サンプル数）を求めること
を、それぞれのローカルマキシマムについて行う。同様
に、データ分析回路７では、負（−）の符号が付加され
た各ローカルミニマムについて、あるローカルミニマム
からそれ以降の各ローカルミニマムまでの時間間隔（サ
ンプル数）を求めることを、それぞれのローカルミニマ
ムについて行う。

【００５１】次いで、データ分析回路７では、正（＋）
の符号が付加された各ローカルマキシマムについてそれ
ぞれ求めた時間間隔（サンプル数）と、負（−）の符号
が付加された各ローカルミニマムについてそれぞれ求め
た時間間隔（サンプル数）の両方を用いて、統計的な分
析を行う。

【００５２】具体的に言うと、該データ分析回路７で
は、正（＋）の符号が付加された各ローカルマキシマム
間の各時間間隔に対応するサンプル数と、負（−）の符
号が付加された各ローカルミニマム間の各時間間隔に対
応するサンプル数の両方を用いて、ヒストグラムを作成
し、該ヒストグラムの最瀕値を求め、この最瀕値に対応
するサンプル数の時間間隔を統計分析結果として出力す
る。

【００５３】データ分析回路７での統計分析により求め
られた時間間隔出力は、ピッチ決定回路８に送られる。
該ピッチ決定回路８では、データ分析回路７から供給さ
れた時間間隔出力に基づいて、入力デジタル音声信号の
ピッチ周波数（ピッチ周期）を決定する。当該決定され
たピッチ周波数（ピッチ周期）が端子９から図１の倍音
構造操作部２６や処理単位間接続部２８に送られる。

【００５４】この図３に示した基本周期抽出部３１にお
けるピッチ周波数（ピッチ周期）検出動作の流れの一例
をフローチャートにて表すと、図４に示すようになる。

【００５５】この図４において、先ず、ステップＳ１の
処理として、フィルタ回路３では、入力端子１に供給さ
れたデジタル音声信号から所望の周波数帯域のみを取り
出す低域濾波処理を行い、バッファメモリ４では、その
低域濾波後のデジタル音声信号を単位時間（抽出フレー
ム）毎に切り出す。

【００５６】次に、ステップＳ２の処理として、ピーク
サーチ回路５ではローカルマキシマム（極大点）とロー
カルミニマム（極小点）を抽出し、さらに符号データ化
回路６ではローカルマキシマムに正（＋）の符号を付加
し、ローカルミニマムに負（−）の符号を付加する符号
データ化を行う。

【００５７】ステップＳ３の処理として、データ分析回
路７では、正（＋）の符号が付加されたローカルマキシ
マムと負（−）の符号が付加されたローカルミニマムの
二者を用いて、それぞれ時間間隔（サンプル数）を求
め、得られた時間間隔からヒストグラムを作成する。

【００５８】その後、ステップＳ４の処理として、デー
タ分析回路７では、ヒストグラムの最瀕値を求め、ピッ
チ決定回路８では、当該ヒストグラムの最瀕値からピッ
チ周期を決定する。

【００５９】この図４のフローチャートの処理例によれ
ば、デジタル音声信号の相関を求めることなく、その波
形の特徴から少ない演算量で、且つローカルマキシマ
ム、ローカルミニマムのサンプル点の振幅に左右されず
に、精度の高いピッチ周波数検出が可能である。

【００６０】また、図３に示した基本周期抽出部３１で
は、図５に示すような流れでピッチ周波数検出を行うこ
ともできる。なお、この図５のステップＳ１及びステッ
プＳ２の処理は、図４のフローチャートのステップＳ１
及びステップＳ２の処理と同じであり、その説明は省略
する。

【００６１】この図５において、データ分析回路７で
は、ステップＳ１３の処理として、符号データ化回路６
にて正（＋）の符号が付加された各ローカルマキシマム
（極大値）の振幅の絶対値と、負（−）の符号が付加さ
れた各ローカルミニマム（極小値）の振幅の絶対値と
を、それぞれ求め、抽出フレーム内においてそれら振幅
の絶対値が最も大きい第１ローカルマキシマムと第１ロ
ーカルミニマムを求める。

【００６２】次に、データ分析回路７では、ステップＳ
１４の処理として、振幅の絶対値が最大の第１ローカル
マキシマムに対応した所定範囲内に、その振幅値が入っ
ている全ての第２ローカルマキシマムを求め、それらの
第１ローカルマキシマム及び第２ローカルマキシマムを
用いて各時間間隔（サンプル数）を測定し、その時間間
隔からヒストグラムを作成する。

【００６３】次に、データ分析回路７では、ステップＳ
１５の処理として、振幅の絶対値が最大の第１ローカル
ミニマムに対応した所定範囲内に、その振幅値が入って
いる全ての第２ローカルミニマムを求め、それらの第１
ローカルミニマム及び第２ローカルミニマムを用いて各
時間間隔（サンプル数）を測定し、その時間間隔を、ス
テップＳ１４のヒストグラムに加える。

【００６４】その後、ステップＳ１６の処理として、デ
ータ分析回路７では、ヒストグラムの最瀕値を求め、ピ
ッチ決定回路８では、当該ヒストグラムの最瀕値からピ
ッチ周期を決定する。

【００６５】この図５のフローチャートの処理例によれ
ば、デジタル音声信号の相関を求めることなく、その波
形の特徴から少ない演算量で精度の高いピッチ周波数
（ピッチ周期）検出が可能である。また、この処理例に
よれば、全てのローカルマキシマム及びローカルミニマ
ムを用いて時間間隔を測定する場合よりも、少ない演算
量でピッチ検出が可能となっている。

【００６６】さらに、図３に示した基本周期抽出部３１
では、図６に示すような流れでピッチ周波数検出を行う
こともできる。なお、この図６のステップＳ１乃至ステ
ップＳ１３の処理は、図５のフローチャートのステップ
Ｓ１乃至ステップＳ１３の処理と同じであり、その説明
は省略する。

【００６７】この図６において、データ分析回路７で
は、ステップＳ２４の処理として、振幅の絶対値が最大
の第１ローカルマキシマムに対応した所定範囲よりも、
その振幅値が大きい全ての第３ローカルマキシマムを求
め、それら第１ローカルマキシマム及び第３ローカルマ
キシマムを用いて各時間間隔を測定し、その時間間隔か
らヒストグラムを作成する。

【００６８】次に、データ分析回路７では、ステップＳ
２５の処理として、振幅の絶対値が最大の第１ローカル
マキシマムに対応した所定範囲よりも、その振幅値が小
さい全ての第４ローカルマキシマムを求め、それら第１
ローカルマキシマム及び第４ローカルマキシマムを用い
て各時間間隔を測定し、その時間間隔をステップＳ２４
のヒストグラムに追加する。

【００６９】次に、データ分析回路７では、ステップＳ
２６の処理として、振幅の絶対値が最大の第１ローカル
ミニマムに対応した所定範囲よりも、その振幅値が大き
い全ての第３ローカルミニマムを求め、それら第１ロー
カルミニマム及び第３ローカルミニマムを用いて各時間
間隔を測定し、その時間間隔からヒストグラムを作成す
る。

【００７０】次に、データ分析回路７では、ステップＳ
２７の処理として、振幅の絶対値が最大の第１ローカル
ミニマムに対応した所定範囲よりも、その振幅値が小さ
い全ての第４ローカルミニマムを求め、それら第１ロー
カルミニマム及び第４ローカルミニマムを用いて各時間
間隔を測定し、その時間間隔をステップＳ２６のヒスト
グラムに追加する。

【００７１】その後、ステップＳ２８の処理として、デ
ータ分析回路７では、ヒストグラムの最瀕値を求め、ピ
ッチ決定回路８では、当該ヒストグラムの最瀕値からピ
ッチ周期を決定する。

【００７２】この図６のフローチャートの処理例によれ
ば、デジタル音声信号の相関を求めることなく、その波
形の特徴から少ない演算量で精度の高いピッチ検出が可
能である。また、この処理例によれば、全てのローカル
マキシマム及びローカルミニマムを用いて時間間隔を測
定する場合よりも、少ない演算量でピッチ検出が可能と
なっている。

【００７３】ところで、本発明の音声信号処理方法及び
装置は、例えばいわゆるカラオケ装置において、歌唱者
の声やコーラスの声のピッチを検出し、その声のピッチ
をシフトする（声の高さを高くしたり低くしたりする）
際に適用可能である。すなわち、カラオケ装置において
は、歌唱者による歌の調及び各音の高さを前述したよう
にピッチを検出することによって求め、本来の楽曲の調
及び音の高さに合うようにシフトさせてから変換フレー
ム間を滑らかに繋ぎ、その後、スピーカから出力するよ
うなことが可能である。

【００７４】図７には、このカラオケ装置の機能を、い
わゆるパーソナルコンピュータにて実現する場合の概略
構成例を示す。なお、この図７に示すパーソナルコンピ
ュータは、前述したＦＦＴ，ＩＦＦＴ処理、周波数シフ
ト処理、基本周期抽出処理、倍音構造操作処理、フレー
ムの接続処理等の各種動作を実現するためのアプリケー
ションデータをインストール或いはダウンロードするこ
とで、それら何れの動作をも実現可能である。

【００７５】この図７において、Ｉ／Ｏポート５９は、
例えば外部通信回線と接続される外部端子であり、この
Ｉ／Ｏポート５９及び通信回線を介して、後述する外部
のサーバやいわゆる通信カラオケ用放送センタ等に接続
可能となっている。Ｉ／Ｏポート５９はＩ／Ｆ回路６０
と接続されている。なお、通信カラオケとは、通信カラ
オケ用放送センタに複数の楽曲のデータを蓄積してお
き、この放送センタに複数接続されている遠隔地の端末
装置に必要に応じて楽曲のデータを送信して、端末装置
で楽曲の演奏（再生）を可能とするシステムのことであ
る。したがって、この図７の例ではパーソナルコンピュ
ータを例に挙げたが、該通信カラオケにおける端末装置
であってもよい。

【００７６】このＩ／Ｆ回路６０は、Ｉ／Ｏポート５９
を介した外部通信回線と、内部ＣＰＵ（中央処理ユニッ
ト）５４との間のインターフェイスである。

【００７７】当該Ｉ／Ｏポート５９には、該パーソナル
コンピュータからのデータ要求に応じて、カラオケ用Ｍ
ＩＤＩデータや前述した周波数シフト処理や基本周期抽
出処理、倍音構造操作処理等の各種の動作を実現するた
めのアプリケーションデータ（以下、カラオケ用アプリ
ケーションデータと呼ぶ）が通信回線を介して供給され
る。

【００７８】これらカラオケ用ＭＩＤＩデータやカラオ
ケ用アプリケーションデータは、Ｉ／Ｆ回路６０を介し
てＣＰＵ５４に送られ、一旦、ハードディスクドライブ
（ＨＤＤ）５６内のハードディスクに記録される。

【００７９】なお、カラオケ用ＭＩＤＩデータやカラオ
ケ用アプリケーションデータは、通信回線ではなく、例
えばいわゆるＣＤ−ＲＯＭ等の光ディスクやフロッピィ
ディスクに記録された状態で図７のパーソナルコンピュ
ータに供給される場合もある。この場合は、該光ディス
クやフロッピィディスクがディスクドライブ６１に装填
され、このディスクドライブ６１にて読み出されてＣＰ
Ｕ５４に送られる。もちろん、光ディスクやフロッピィ
ディスクから読み出されたカラオケ用ＭＩＤＩデータや
カラオケ用アプリケーションデータをハードディスクド
ライブ５６に送って記録させることも可能である。図７
の例では、データ転送速度を考慮して、カラオケ用ＭＩ
ＤＩデータやカラオケ用アプリケーションデータをハー
ドディスクドライブ５６に記録することとする。

【００８０】ＣＰＵ５４は、例えばマウスやキーボード
からなる操作部５５からの操作に応じて、パーソナルコ
ンピュータの全体の動作を制御するものであり、図７の
例のようにパーソナルコンピュータをカラオケ装置とし
て動作させる場合には、先ず、ハードディスクドライブ
５６に記録（インストール或いはダウンロード）された
カラオケ用アプリケーションデータを読み出し、信号処
理回路５３に送る。

【００８１】一方、端子５０はアナログ音声信号の外部
入力端子であり、この端子５０を介して、歌唱者の声を
マイクロホンにて音響／電気変換したアナログ音声信号
が供給される。このアナログ音声信号は、アナログ／デ
ジタル変換器５１にてデジタル信号に変換され、信号処
理回路５３に送られる。

【００８２】信号処理回路５３は、前述した周波数シフ
ト処理や基本周期抽出処理、倍音構造操作処理等を、カ
ラオケ用アプリケーションデータに基づいてソフトウェ
ア上で実現可能な高速演算処理回路である。もちろん、
信号処理回路５３では、カラオケ装置として通常備えて
いる歌詞やイメージ映像を表示する為の画像データを生
成することも可能である。

【００８３】メモリ５２は、信号処理回路５３での信号
処理に必要なデータや演算途中のデータ、生成した画像
データ等を一時的に蓄えるためのメモリであり、図４の
バッファメモリ３としての機能をも備える。

【００８４】また、信号処理回路５３にて生成された各
種画像データは端子６２からモニタに送られ、また、端
子５０を介して入力され、アナログ／デジタル変換器５
１にてデジタル信号に変換された歌唱者の声の音声信号
は、デジタル／アナログ（Ｄ／Ａ）変換器５７にてアナ
ログ音声信号に戻され、音声出力端子５８から出力さ
れ、スピーカ等に送られる。

【００８５】次に、図８には、外部からの要求に応じて
カラオケ用ＭＩＤＩデータやカラオケ用アプリケーショ
ンデータを伝送するデータ伝送装置の構成例を示してい
る。すなわち、この伝送装置は、例えば図７のパーソナ
ルコンピュータや通信カラオケ用端末装置に対して、カ
ラオケ用ＭＩＤＩデータやカラオケ用アプリケーション
データを伝送する、サーバ或いは通信カラオケ用放送セ
ンタに適用可能である。

【００８６】この図８において、ＭＩＤＩ格納部７０に
はカラオケ用の複数の楽曲のＭＩＤＩデータが格納さ
れ、送信プログラム格納部７１には予め作成されたカラ
オケ用アプリケーションデータが格納されており、それ
ぞれバスに接続されている。なお、ここではＭＩＤＩデ
ータ及びカラオケ用アプリケーションデータがＭＩＤＩ
格納部７０及び送信プログラム格納部７１に格納された
例を挙げているが、これらＭＩＤＩデータ及びカラオケ
用アプリケーションデータはＣＤ−ＲＯＭ等の光ディス
クやフロッピィディスクに記録されていてもよく、この
場合の光ディスクやフロッピィディスクは、バスに接続
されたディスクドライブ７４に装填される。

【００８７】ＲＯＭ７２及びＲＡＭ７３、並びにハード
ディスクドライブ８０は、バスを介してＣＰＵ７９と接
続され、これらＲＯＭ７２、ＲＡＭ７３、ハードディス
クドライブ８０は、ＣＰＵ７９が図８の例の伝送装置を
制御する際の各種データを格納或いは記憶するためのも
のである。

【００８８】Ｉ／Ｏポート７８は、外部通信回線と接続
される外部端子であり、このＩ／Ｏポート７８及び通信
回線を介して、例えば図７のパーソナルコンピュータや
通信カラオケ端末装置に接続可能となっている。Ｉ／Ｏ
ポート７８はＩ／Ｆ回路７７と接続されている。

【００８９】このＩ／Ｆ回路７７は、Ｉ／Ｏポート７８
を介した外部通信回線と、内部送受信データ処理回路７
６との間のインターフェイスである。

【００９０】以下、図９のフローチャートを参照しなが
ら、図８の伝送装置がＭＩＤＩデータやカラオケ用アプ
リケーションデータを通信回線に送信する流れを説明す
る。なお、この図９のフローチャートでは、通常のデー
タ通信にて行われる、接続管理やトラフィック管理、さ
らに情報収集や料金徴収等については省略している。

【００９１】この図９のフローチャート及び図８の伝送
装置においては、先ず、ステップＳ５１の処理として、
外部通信回線を介して、ＭＩＤＩデータやカラオケ用ア
プリケーションデータの送信要求を受信すると、その送
信要求は、送受信データ処理回路７６を介してＣＰＵ７
９に送られる。

【００９２】ＣＰＵ７９は、送信要求を受け取ると、ス
テップＳ５２の処理として、カラオケ用アプリケーショ
ンデータを送信プログラム格納部７１から読み出し、次
いでステップＳ５３にて該送信要求にて要求されている
楽曲のＭＩＤＩデータをＭＩＤＩ格納部７０から読み出
す。

【００９３】これら読み出されたＭＩＤＩデータ及びカ
ラオケ用アプリケーションデータは、送受信データ処理
回路７６に転送される。この送受信データ処理回路７６
では、ステップＳ５４の処理として、それらＭＩＤＩデ
ータ及びカラオケ用アプリケーションデータを例えばパ
ケット化し、さらにクロック発振器７５からの搬送波を
変調して、Ｉ／Ｆ回路７７に送る。

【００９４】これにより、Ｉ／Ｆ回路７７からは、ステ
ップＳ５５の処理として、パケット化されたＭＩＤＩデ
ータ及びカラオケ用アプリケーションデータが送信され
る。

【００９５】その後は、ステップＳ５６の処理として、
送信完了の確認が行われる。

【００９６】なお、この図８及び図９にて説明したデー
タ伝送装置では、ＭＩＤＩ格納部７０から読み出したＭ
ＩＤＩデータと送信プログラム格納部７１から読み出し
たカラオケ用アプリケーションデータをパケット化して
通信回線から送信したが、これらＭＩＤＩデータとカラ
オケ用アプリケーションデータを、記録可能な光ディス
クやフロッピィディスクに記録し、それら記録可能な光
デジタルやフロッピィディスクを利用者に提供すること
も可能である。この場合は、ＭＩＤＩ格納部７０から読
み出したＭＩＤＩデータと送信プログラム格納部７１か
ら読み出したカラオケ用アプリケーションデータを、例
えばディスクドライブ７４に送り、このディスクドライ
ブ７４にて記録可能な光ディスクやフロッピィディスク
に記録する。

【００９７】ここまでの説明では、本発明を例えばカラ
オケ装置等に適用する例を説明したが、その他、レコー
ディングスタジオにおける編集装置当にも本発明を適用
することが可能である。

【００９８】最後に本発明は一例として説明した上述の
実施の形態に限定されることはなく、本発明に係る技術
的思想を逸脱しない範囲であれば、設計等に応じて種々
の変更が可能であることは勿論である。

【００９９】

【発明の効果】請求項１に記載の本発明に係る音声信号
処理装置は、分割手段にてデジタル音声信号を所定の処
理単位毎に切り出し、基本周波数抽出手段にてその処理
単位の音声信号の基本周波数を抽出し、変換手段にて処
理単位の音声信号を時間領域の信号から周波数領域の信
号へ変換し、周波数シフト手段にて全周波数帯域を高域
側または低域側にシフトし、倍音構造操作手段におい
て、抽出された基本周波数に基づいて全周波数帯域をシ
フトされた音声信号の倍音の構造を操作し、逆変換手段
にて倍音構造が操作された音声信号を時間領域の信号に
逆変換し、処理単位間接続手段にて、各処理単位の初期
位相と基本周期に基づいて逆変後の所定の処理単位間を
接続することにより、従来に比べて簡単な回路構成で処
理時間も比較的短く、しかも音質の劣化がなくて個人の
声の特徴を維持したままの自然な音声音程変換が可能で
ある。

【０１００】請求項２に記載の本発明に係る音声信号処
理装置は、デジタル入力された音声信号を所定の処理単
位毎に切り出し、その切り出した音声信号の基本周波数
を抽出し、また、切り出した音声信号を時間領域の信号
から周波数領域の信号へ変換し、得られた周波数領域の
信号の全周波数帯域を高域側または低域側にシフトし、
抽出された基本周波数に基づいて、全周波数帯域をシフ
トされた音声信号の倍音の構造を操作した後に時間領域
の信号に逆変換し、各処理単位の初期位相と基本周期に
基づいて、その逆変換後の前記所定の処理単位間を接続
することにより、従来に比べて簡単な回路構成で処理時
間も比較的短く、しかも音質の劣化がなくて個人の声の
特徴を維持したままの自然な音声音程変換が可能であ
る。

【０１０１】請求項３に記載の本発明に係る情報媒体
は、デジタル入力された音声信号を所定の処理単位毎に
切り出す分割工程と、処理単位毎の音声信号の基本周波
数を抽出する基本周波数抽出工程と、処理単位毎の音声
信号を時間領域の信号から周波数領域の信号へ変換する
変換工程と、音声信号の全周波数帯域を高域側または低
域側にシフトする周波数シフト工程と、基本周波数に基
づいて全周波数帯域をシフトされた音声信号の倍音の構
造を操作する倍音構造操作工程と、倍音構造が操作され
た音声信号を時間領域の信号に逆変換する逆変換工程
と、各処理単位の初期位相と基本周期に基づいて、逆変
換後の処理単位間を接続する処理単位間接続工程とを、
演算装置に対して実行させるプログラムデータを記録、
若しくは伝送することにより、演算装置において、従来
に比べて簡単な回路構成で処理時間も比較的短く、しか
も音質の劣化がなくて個人の声の特徴を維持したままの
自然な音声音程変換が可能となる。

【図面の簡単な説明】

【図１】本発明に係る音声信号処理装置及び方法が適用
される一実施の形態の音程変換装置の概略構成を示すブ
ロック図である。

【図２】図１の音程変換装置の処理単位間接続部におけ
る処理単位（変換フレーム）の接続方法の説明に用いる
図である。

【図３】本実施の形態の音程変換装置の基本周期抽出部
の具体的構成例を示すブロック図である。

【図４】基本周期抽出部の一動作例の流れを示すフロー
チャートである。

【図５】基本周期抽出部の他の動作例の流れを示すフロ
ーチャートである。

【図６】基本周期抽出部のさらに他の動作例の流れを示
すフローチャートである。

【図７】本発明に係る音声信号処理装置が適用されるパ
ーソナルコンピュータの概略構成を示すブロック図であ
る。

【図８】本発明に係るプログラムデータ等を伝送する伝
送装置の概略構成を示すブロック図である。

【図９】図８の伝送装置の動作の流れを示すフローチャ
ートである。

【符号の説明】

３…フィルタ回路、４…バッファメモリ、５…ピークサ
ーチ回路、６…符号データ化回路、７…データ分析回
路、８…ピッチ検出回路、２３…処理単位分割部、２４
…変換部、２５…音程変換部、２６…倍音構造操作部、
２７…逆変換部、２８…処理単位間接続部、３１…基本
周期抽出部、５１…アナログ／デジタル変換器、５２…
メモリ、５３…信号処置回路、５４…ＣＰＵ、５５…操
作部、５６…ハードディスクドライブ、５７…デジタル
／アナログ変換器、６０…Ｉ／Ｆ回路、７２…ＲＯＭ、
６１…ディスクドライブ、７０…ＭＩＤＩ格納部、７３
…ＲＡＭ、７１…送信プログラム格納部、７４…ディス
クドライブ、７７…Ｉ／Ｆ回路、７５…クロック発振
器、７６…送受信データ処理回路、８０…ハードディス
クドライブ

───────────────────────────────────────────────────── フロントページの続きＦターム(参考） 5D045 BA01 5D108 BE03 BF06 5D378 AD63 KK02 QQ01 9A001 BB01 BB03 BB04 EE05 GG05 HH15 HH16 HH18 JJ27 KK37 KK43 KK45 LL02

Claims

【特許請求の範囲】

【請求項１】デジタル入力された音声信号を所定の処
理単位毎に切り出す分割手段と、前記分割手段から出力された音声信号の基本周波数を抽
出する基本周波数抽出手段と、前記分割手段から出力された音声信号を時間領域の信号
から周波数領域の信号へ変換する変換手段と、前記変換手段により出力された音声信号の全周波数帯域
を高域側または低域側にシフトする周波数シフト手段
と、前記ピッチ周波数抽出手段により抽出された基本周波数
に基づいて、前記周波数シフト手段により全周波数帯域
をシフトされた音声信号の倍音の構造を操作する倍音構
造操作手段と、前記倍音構造操作手段より出力された音声信号を時間領
域の信号に逆変換する逆変換手段と、各処理単位の初期位相と前記基本周波数に基づいて、前
記逆変換後の前記所定の処理単位間を接続する処理単位
間接続手段とを有することを特徴とする音声信号処理装
置。
【請求項２】デジタル入力された音声信号を所定の処
理単位毎に切り出し、前記処理単位毎に分割された音声信号の基本周波数を抽
出し、前記処理単位毎に分割された音声信号を時間領域の信号
から周波数領域の信号へ変換し、前記時間領域の信号から周波数領域の信号へ変換された
音声信号の全周波数帯域を高域側または低域側にシフト
し、前記抽出された基本周波数に基づいて、前記全周波数帯
域を高域側または低域側にシフトされた音声信号の倍音
の構造を操作し、前記倍音の構造が操作された音声信号を時間領域の信号
に逆変換し、各処理単位の初期位相と前記基本周波数に基づいて、前
記逆変換後の前記所定の処理単位間を接続することを特
徴とする音声信号処理方法。
【請求項３】デジタル入力された音声信号を所定の処
理単位毎に切り出す分割工程と、前記分割工程により得られる音声信号の基本周波数を抽
出する基本周波数抽出工程と、前記分割工程により得られる音声信号を時間領域の信号
から周波数領域の信号へ変換する変換工程と、前記変換工程により得られる音声信号の全周波数帯域を
高域側または低域側にシフトする周波数シフト工程と、前記基本周波数抽出工程により抽出される基本周波数に
基づいて、前記周波数シフト工程により全周波数帯域を
シフトされた音声信号の倍音の構造を操作する倍音構造
操作工程と、前記倍音構造操作工程により得られる音声信号を時間領
域の信号に逆変換する逆変換工程と、各処理単位の初期位相と前記基本周波数に基づいて、前
記逆変換後の前記所定の処理単位間を接続する処理単位
間接続工程とを、演算装置に対して実行させるプログラムデータを記録、
若しくは伝送することを特徴とする情報媒体。