JPH11305795A - 音声信号処理装置及び情報媒体 - Google Patents

音声信号処理装置及び情報媒体

Info

Publication number
JPH11305795A
JPH11305795A JP10115811A JP11581198A JPH11305795A JP H11305795 A JPH11305795 A JP H11305795A JP 10115811 A JP10115811 A JP 10115811A JP 11581198 A JP11581198 A JP 11581198A JP H11305795 A JPH11305795 A JP H11305795A
Authority
JP
Japan
Prior art keywords
pitch
audio signal
time
circuit
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10115811A
Other languages
English (en)
Inventor
Mitsuo Matsumoto
光雄 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Victor Company of Japan Ltd
Original Assignee
Victor Company of Japan Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Victor Company of Japan Ltd filed Critical Victor Company of Japan Ltd
Priority to JP10115811A priority Critical patent/JPH11305795A/ja
Publication of JPH11305795A publication Critical patent/JPH11305795A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 ノイズやリップルの少ないピッチシフト処理
を実現可能にする。 【解決手段】 デジタル入力された音声データを少なく
ともフレーム及びピッチシフト量に相当する長さ分だけ
記憶するバッファメモリ3と、バッファメモリ3からの
音声データから音声のピッチを検出するピッチ検出回路
10と、フレーム長及びピッチシフト量に相当する長さ
の音声データを基にしてピッチシフト処理を行うと共
に、そのシフト後の前フレームとシフト変換後の次フレ
ームとを繋ぎ、シフト後の連続音声データを作成するピ
ッチシフト・フレーム結合回路4とを有し、バッファメ
モリ3から次フレームのデータを読み出す際には、ピッ
チシフト量に相当する長さに、前フレームの本来の時間
とピッチ検出及びピッチシフト処理に要した時間との差
を加えた時点から、先に検出したピッチの整数倍の長さ
だけ時間的に戻った時刻より読み出しを行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、例えば歌唱者の声
やコーラスの声の基本周期(ピッチ)、音声の性質変換
の際に好適なものであり、詳しくは、歌唱者の声やコー
ラスの声の音声信号から声の高さに対応するピッチ周波
数、或いはその逆数であるピッチ周期を検出し、そのピ
ッチに基づいて音声信号の音の高さを変えること、すな
わち音声信号のピッチをシフトする音声信号処理装置、
及びそのピッチシフトを実現するためのプログラムデー
タを記録若しくは伝送する情報媒体に関する。
【0002】
【従来の技術】近年はいわゆるカラオケが盛んであり、
そのカラオケに使用されるいわゆるカラオケ装置などに
おいては、歌唱者の声の高さに合わせるように、楽曲の
調及び音の高さを変えることが可能になっている。
【0003】一方、レコーディングスタジオなどでは、
トータルの編集時間を変更せずに音程を変えるような編
集作業が必要となる場合が多く、このような場合には、
予め決められた編集時間内にその編集時間よりも僅かに
長い音楽や音声を入れ込む編集作業を行う。具体的に
は、この場合、その音楽や音声を例えばある一定時間毎
に区切り、その一定時間内の音声等のピッチを変換(ピ
ッチをシフト)した後に繋ぐような音声信号処理が行わ
れる。
【0004】
【発明が解決しようとする課題】しかし、例えば歌唱者
等の声の音声信号のピッチを変える従来の音声信号処理
装置においては、一定単位の音声信号のピッチを単純に
伸縮させてそのまま繋げるようにしているため、そのピ
ッチ変換(ピッチシフト)処理後の音声にノイズ若しく
はリップルが多く発生し、大変聞き難い音声となってい
る。
【0005】また、カラオケ装置においても、本来の楽
曲の調及び音の高さは変えずに、歌唱者の声の音声信号
のピッチを変えることで、歌唱者の声の高さを本来の楽
曲の調及び音の高さに合わせるようなことが望まれてい
る。或いは、伴奏を歌唱者のキーの高さに合わせる際
に、伴奏の中に含まれるコーラスの音程を歌唱者のキー
の高さに合わせることが望まれる。
【0006】本発明は、上述の課題に鑑みてなされたも
のであり、ノイズやリップルの少ない滑らかなピッチシ
フト処理後の音声信号を得ることが可能な音声信号処理
装置及びそのピッチシフト処理を実現するためのプログ
ラムデータを記録もしくは伝送する情報媒体の提供を目
的とする。
【0007】
【課題を解決するための手段】本発明に係る音声信号処
理装置は、上述の課題を解決するために、デジタル入力
された音声信号を所定の長さの単位時間毎に切り出すと
共に、前記単位時間の音声信号及びピッチ変換に相当す
る時間的長さの音声信号を取り出し手段と、前記取り出
した音声信号のピッチを検出するピッチ検出手段と、前
記取り出した単位時間の音声信号及びピッチ変換に相当
する時間的長さの音声信号を基にしてピッチ変換を行う
ピッチ変換手段と、ピッチ変換後の前単位時間の音声信
号とピッチ変換後の次単位時間の音声信号とを繋ぎ、ピ
ッチ変換後の連続音声信号を作成する連続音声信号生成
手段とを有し、前記次単位時間の音声信号を取り出す際
には、前記ピッチ変換に相当する時間的長さに、前単位
時間の音声信号の本来の時間と前記ピッチ検出及びピッ
チ変換の処理に要した時間との差を加えた時点から、先
に検出したピッチの整数倍の長さだけ時間的に戻った時
刻より取り出しを行う。
【0008】ここで、前記音声信号のピッチを検出する
ピッチ検出手段は、前記音声信号から所望の周波数帯域
のみを通過させる帯域通過手段と、前記所望の周波数帯
域の音声信号波形から複数の極大点と極小点及び/又は
零交差を検出する検出手段と、前記検出した各極大点の
間と各極小点の間及び/又は零交差の間でそれぞれ時間
間隔を求める時間間隔測定手段と、前記時間間隔に基づ
いてヒストグラムを作成するヒストグラム作成手段と、
前記ヒストグラムの最瀕値を前記音声信号のピッチとし
て取り出すピッチ決定手段とを有する。
【0009】さらに、本発明に係る情報媒体は、上述の
課題を解決するために、デジタル入力された音声信号を
所定の長さの単位時間毎に切り出すと共に、前記単位時
間の音声信号及びピッチ変換に相当する時間的長さの音
声信号を取り出すステップと、前記取り出した音声信号
のピッチを検出するステップと、前記取り出した単位時
間の音声信号及びピッチ変換に相当する時間的長さの音
声信号を基にしてピッチ変換を行うステップと、ピッチ
変換後の前単位時間の音声信号とピッチ変換後の次単位
時間の音声信号とを繋ぎ、ピッチ変換後の連続音声信号
を作成するステップとを有し、前記次単位時間の音声信
号を取り出す際には、前記ピッチ変換に相当する時間的
長さに、前単位時間の音声信号の本来の時間と前記ピッ
チ検出及びピッチ変換の処理に要した時間との差を加え
た時点から、先に検出したピッチの整数倍の長さだけ時
間的に戻った時刻より取り出しを行うようにした演算処
理を、演算装置に対して実行させるプログラムデータを
記録、若しくは伝送する。
【0010】ここで、前記音声信号のピッチを検出する
ステップは、前記音声信号から所望の周波数帯域のみを
通過させるステップと、前記所望の周波数帯域の音声信
号波形から複数の極大点と極小点及び/又は零交差を検
出するステップと、前記検出した各極大点の間と各極小
点の間及び/又は零交差の間でそれぞれ時間間隔を求め
るステップと、前記時間間隔に基づいてヒストグラムを
作成するステップと、前記ヒストグラムの最瀕値を前記
音声信号のピッチとして取り出すステップとからなる。
【0011】
【発明の実施の形態】以下、本発明に係る音声信号処理
装置及び情報媒体の好ましい実施の形態について、図面
を参照しながら詳細に説明する。
【0012】本発明の音声信号処理装置が適用される一
実施の形態としてのピッチ変換装置の概略構成を図1に
示す。
【0013】この図1において、入力端子1には、アナ
ログ音声信号として例えば図2に示すような波形信号が
供給され、アナログ/デジタル(A/D)変換器2に供
給される。このアナログ/デジタル変換器2は、図2の
アナログ音声信号波形を、44.1kHzのサンプリン
グ周波数でサンプリング処理してデジタル信号に変換す
る。アナログ/デジタル変換器2にてデジタル化された
音声データは、バッファメモリ3に送られる。
【0014】該バッファメモリ3は、ピッチシフトコン
トロール回路8からの制御に基づいて、アナログ/デジ
タル変換器2からのデータを取り込んで出力する。この
とき、該バッファメモリ3は、少なくとも、後述するピ
ッチシフト・フレーム結合回路4及びピッチ検出回路1
0における一定の処理単位時間分(以下、処理単位時間
をフレームと呼び、このフレームの長さをフレーム長と
呼ぶ)及び、そのフレームのピッチシフト量(ピッチ変
換量)に相当する時間的長さ分だけのデータを取り込
み、該フレーム長及びピッチシフト量に相当する時間的
長さ分のデータを出力する。このバッファメモリ3から
出力されたフレーム長及びピッチシフト量に相当する時
間的長さ分のデータは、ピッチシフト・フレーム結合回
路4及びピッチ検出回路10に送られる。なお、該フレ
ーム長としては、例えば約30m秒を例を挙げることが
できる。
【0015】ピッチ検出回路10では、ピッチシフトコ
ントロール回路8からの制御に基づいて、バッファメモ
リ3からのフレーム長及びピッチシフト量に相当する時
間的長さ分のサンプルデータを取り込み、このフレーム
長及びピッチシフト量に相当する時間的長さ分毎のサン
プルデータから、該フレーム長及びピッチシフト量に相
当する時間的長さ分のデータのピッチ周期(入力端子1
に供給されたアナログ音声信号のピッチ周期に対応す
る)を検出し、この検出したピッチ周期をピッチ情報と
してピッチシフト・フレーム結合回路4に送る。なお、
このピッチ検出回路10におけるピッチ検出処理、及び
ヒストグラム処理回路11についての詳細は後述する。
【0016】ピッチシフト・フレーム結合回路4では、
ピッチシフトコントロール回路8からの制御に基づい
て、バッファメモリ3からのフレーム長及びそのピッチ
シフト量に相当する時間的長さ分のデータを取り込み、
このフレーム長及びそのピッチシフト量に相当する時間
的長さ分のデータにピッチシフト処理を施すと共に、こ
のピッチシフト処理が施された後の各フレームを結合す
るフレーム結合処理を行う。
【0017】以下に、バッファメモリ3からのデータ読
み出し動作とピッチシフト・フレーム結合回路4におけ
るピッチシフト及びフレーム結合処理の具体的な処理動
作について、図3及び図4を用いて説明する。
【0018】ここで、ピッチシフト処理とは、元の音の
高さを高くする方向にシフトさせる処理と、元の音の高
さを低くする方向にシフトさせる処理とがあり、図3に
は元の音の高さを高くする方向のシフトを行った場合の
例を、図4には元の音の高さを低くする方向のシフトを
行った場合の例を示す。なお、ピッチシフトの方向と量
は、例えば使用者がピッチシフトコントロール回路8に
設定し、このピッチシフトコントロール回路8は該設定
されたピッチシフトの方向及び量に基づいて各部を制御
する。
【0019】元の音の高さを高くする方向にピッチシフ
トを行う図3の例から説明する。
【0020】先ず、元の音の高さを高くする方向にシフ
トする場合、バッファメモリ3からは、図3(a)に示
すように、あるフレーム(図3中では前フレームFFと
して示す)のデータと、該前フレームFFのピッチシフ
ト量に相当する時間的長さL1分のデータが読み出され
る。
【0021】ピッチシフト・フレーム結合回路4は、図
3(a)に示した前フレームFF及びそのピッチシフト
量に相当する時間的長さL1のデータに対して、例えば
直線補間,平均値補間、n次補間等の各種補間等の処理
によってピッチシフトを施し、図3(c)に示すよう
に、そのピッチシフト後のフレームデータ(図3中では
シフト後の前フレームSFFとして示す)を作成する。
【0022】次に、この前フレームFFに対するピッチ
シフト処理後、ピッチシフト・フレーム結合回路4は、
図3(b)に示す次フレームAFに対して同様のピッチ
シフト処理を行い、図3(c)に示すようにシフト後の
前フレームSFFとシフト後の次フレームSAFとを結
合するフレーム結合処理を行う。
【0023】但し、このフレーム結合処理の際、シフト
後の前フレームSFFの最後の点P1の位相と、シフト
後の次フレームSAFの先頭の点Q1Aの位相とを合わ
せておかないと、その点P1及びQ1Aの結合点でノイ
ズやリップルが発生することになる。
【0024】そこで、次フレームAFのデータをバッフ
ァメモリ3から読み出す際に、ピッチシフトコントロー
ル回路8は、ピッチシフト量に相当する時間的長さL1
に、前フレームFFの本来の時間とこれまでの処理によ
り蓄積された時間(サンプル数に相当する)との差D1
の時間(サンプル数に相当する)を加えた時点から、先
にピッチ検出回路10にて求めたピッチ周期の整数倍の
長さ分i1だけ時間的に戻った時刻(図中の点Q1F)
より、次フレームAFのデータを読み出すようにする。
【0025】すなわち、このようにして読み出した次フ
レームAFに対してピッチシフト処理を施した後の次フ
レームSAFの先頭の点Q1Aと、シフト後の前フレー
ムSFFの最後の点P1とは位相が合っていることにな
り、したがって、ピッチシフト・フレーム結合回路4に
て、このシフト後の前フレームSFFの最後の点P1と
シフト後の次フレームSAFの先頭の点Q1Aとを結合
すれば、結果としてシフト後のフレーム間が滑らかに繋
がり、ノイズやリップルの無い音声が最終的に得られる
ようになる。
【0026】次に、元の音の高さを低くする方向にピッ
チシフトを行う図4の例について説明する。
【0027】この図4の例の場合も、先ず、バッファメ
モリ3からは、図4(a)に示すように、前フレームF
Fのデータと、該前フレームFFのピッチシフト量に相
当する時間的長さL2分のデータが読み出される。但
し、この図4の例のように元の音の高さを低くする方向
にシフトする場合、ピッチシフト量に相当する時間的長
さL2は、前フレームFFの最後の点よりも時間的に前
とり、このときバッファメモリ3から読み出されるデー
タは前フレームFFのデータのみとなる。
【0028】ピッチシフト・フレーム結合回路4は、図
4(a)に示した前フレームFF(ピッチシフト量に相
当する時間的長さL2を含む)のデータに対して、前述
同様に各種補間等の処理によってピッチシフトを施し、
図4(c)に示すように、そのピッチシフト後のフレー
ムデータ(シフト後の前フレームSFF)を作成する。
【0029】次いで、この前フレームFFに対するピッ
チシフト処理後、ピッチシフト・フレーム結合回路4
は、図4(b)に示す次フレームAFに対して同様のピ
ッチシフト処理を行い、図4(c)に示すようにシフト
後の前フレームSFFとシフト後の次フレームSAFと
を結合するフレーム結合処理を行う。
【0030】この図4の例でも、該フレーム結合処理の
際において、シフト後の前フレームSFFの最後の点P
2の位相と、シフト後の次フレームSAFの先頭の点Q
2Aの位相とを合わせておかないと、その点P2及びQ
2Aの結合点でノイズやリップルが発生することにな
る。
【0031】そこで、次フレームAFのデータをバッフ
ァメモリ3から読み出す際に、ピッチシフトコントロー
ル回路8は、ピッチシフト量に相当する時間的長さL2
に、前フレームFFの本来の時間とこれまでの処理によ
り蓄積された時間との差D2の時間を加えた時点から、
先にピッチ検出回路10にて求めたピッチ周期の整数倍
の長さ分i2だけ時間的に進んだ時刻(図中の点Q2
F)より、次フレームAFのデータを読み出すようにす
る。
【0032】すなわち、このようにして読み出した次フ
レームAFに対してピッチシフト処理を施した後の次フ
レームSAFの先頭の点Q2Aと、シフト後の前フレー
ムSFFの最後の点P2との位相が合っていることにな
り、したがって、ピッチシフト・フレーム結合回路4に
てこのシフト後の前フレームSFFの最後の点P2とシ
フト後の次フレームSAFの先頭の点Q2Aとを結合す
れば、結果としてシフト後のフレーム間が滑らかに繋が
り、ノイズやリップルの無い音声が最終的に得られるよ
うになる。
【0033】図1に戻って、上述のようにしてピッチシ
フト処理及びフレーム結合処理がなされた後のデータ
は、バッファメモリ5に所定量ずつ蓄積された後に読み
出され、デジタル/アナログ(D/A)変換器6にてア
ナログ音声信号に戻される。このアナログ音声信号は、
ピッチシフト処理後の音声信号として出力されることに
なる。
【0034】上述したような図1のピッチ変換装置にお
ける動作をフローチャートとして表すと、図5に示すよ
うになる。
【0035】この図5において、ステップS1では、ア
ナログ/デジタル変換器2にてデジタル変換されたデー
タがバッファメモリ3でフレーム毎に纏められ、次のス
テップS2では、このバッファメモリ3から、フレーム
長及びそのピッチシフト量に相当する時間的長さのデー
タが読み出される。
【0036】ステップS3では、ピッチ検出回路10が
ピッチ周期を検出し、ステップS4では、そのピッチ情
報に基づいてピッチシフト・フレーム結合回路4がピッ
チシフト処理を行う。
【0037】次のステップS5では、ピッチシフト・フ
レーム結合回路4において、ピッチシフト量に相当する
時間的長さに、前フレームFFの本来の時間とこれまで
の処理により蓄積された時間との差の時間を加えた時点
から、ステップS4で求めたピッチ周期(ピッチ情報)
の整数倍の長さ分だけ時間的に戻った時刻を、次のフレ
ームの開始点として決定して読み出すようにする。
【0038】次のステップS6では、ピッチシフト処理
後の前フレームの最後の点と、同じくピッチシフト処理
後の次フレームの最初の点(開始点)とを連結する。
【0039】その後、ステップS7では、上述のように
して連結した各フレームのデータをバッファメモリ5に
一時的に蓄積した後に読み出し、デジタル/アナログ変
換器5でアナログ信号に変換し、ピッチシフト後の音声
出力として出力する。
【0040】次に、図1のピッチ変換装置のピッチ検出
回路10におけるピッチ検出処理、及びヒストグラム処
理回路11について説明する。
【0041】ピッチ検出回路10におけるピッチ検出処
理としては、一般的ないわゆる自己相関法や変形相関法
などを使用できるが、これらの手法は音声信号の相関を
求める必要があり、演算量が膨大となり、また、リアル
タイムにピッチ周波数やピッチ周期を検出するために
は、高速な演算処理を実行できる高価な演算処理装置が
必要となる。
【0042】そこで、本実施の形態のピッチ変換装置に
使用するピッチ検出回路10では、以下の手法によりピ
ッチ検出を行うようにしている。
【0043】ピッチ検出回路10の第1の具体的構成例
を図6に示す。
【0044】この図6において、端子12には、図1の
バッファメモリ3から読み出された音声データが供給さ
れる。この端子12に供給された音声データは、フィル
タ回路22に送られる。
【0045】当該フィルタ回路22は、IIR(巡回
型)若しくはFIR(非巡回型)のデジタルフィルタで
あり、例えば図7に示すようなカットオフ周波数が30
0Hzの周波数特性を有する低域濾波器(ローパスフィ
ルタ)である。このフィルタ回路22にて低域濾波を行
うことで、図2に示したような波形信号は例えば図8
(a)に示したような高域成分が除去された波形信号と
なる。なお、フィルタ回路22の出力は、実際にはデジ
タルデータであるが、該フィルタ処理の結果をわかりや
すくするために、図8(a)の例ではアナログ波形信号
のように表している。このフィルタ回路22からの出力
データは、ピークサーチ回路23に送られる。
【0046】このピークサーチ回路23では、供給され
た各サンプルデータを1サンプル毎に比較し、その比較
出力に基づいて、音声データのピークを抽出する。
【0047】具体的に言うと、該ピークサーチ回路23
では、音声データの各サンプル毎に、現在の音声データ
とその1サンプル前の音声データとを比較し、現在のサ
ンプル値がその1サンプル前のサンプル値よりも大きい
ことを示す比較結果が続いた後、現在のサンプル値がそ
の1サンプル前のサンプル値よりも小さくなったことを
示す比較結果が得られたとき、或いは、現在のサンプル
値がその1サンプル前のサンプル値よりも小さいことを
示す比較結果が続いた後、現在のサンプル値がその1サ
ンプル前のサンプル値よりも大きくなったことを示す比
較結果が得られたときに、それら比較結果の変化時点を
音声データのピークとして検出する。
【0048】すなわち、現在のサンプル値がその1サン
プル前のサンプル値よりも大きいことを示す比較結果が
続いた後、現在のサンプル値がその1サンプル前のサン
プル値よりも小さくなった時点の当該現在のサンプル値
の1つ前のサンプル値がローカルマキシマム(極大値)
を示し、一方で、現在のサンプル値がその1サンプル前
のサンプル値よりも小さいことを示す比較結果が続いた
後、現在のサンプル値がその1サンプル前のサンプル値
よりも大きくなった時点の当該現在のサンプル値の1つ
前のサンプル値がローカルミニマム(極小値)を示す。
したがって、当該ピークサーチ回路23では、このよう
にサンプル比較結果の変化に基づいて、音声データのロ
ーカルマキシマムのサンプルデータ、及びローカルミニ
マムのサンプルデータを検出する。このピークサーチ回
路23により検出されたローカルマキシマム及びローカ
ルミニマムのサンプルデータは波形特徴抽出回路24に
送られる。
【0049】波形特徴抽出回路24は、図8(b)及び
図9(a)に示すように、ピークサーチ回路23より供
給された各ローカルマキシマムMAのサンプルデータに
対しては正(+)の符号を付加し、各ローカルミニマム
MIのサンプルデータに対しては負(−)の符号を付加
する。なお、図9には、図8の一部を抜き出し、拡大し
て示している。この波形特徴抽出回路24にて符号デー
タ化されたローカルマキシマムMA及びローカルミニマ
ムMIの各サンプルデータは、測定回路25に送られ
る。
【0050】この測定回路25では、波形特徴抽出回路
24にて正(+)の符号が付加された各ローカルマキシ
マム間の時間間隔(サンプル数)、及び、波形特徴抽出
回路24にて負(−)の符号が付加された各ローカルミ
ニマム(極小値)間の時間間隔(サンプル数)を求め、
これら測定した時間間隔を端子14を介してヒストグラ
ム処理回路11に送る。
【0051】すなわち、測定回路25では、正(+)の
符号が付加された各ローカルマキシマム間の時間間隔と
して、図9(b)に示すように、あるローカルマキシマ
ムMA1から次のローカルマキシマムMA2までの時間
間隔(サンプル数)TD1、ローカルマキシマムMA1
からローカルマキシマムMA3までの時間間隔(サンプ
ル数)TD2、ローカルマキシマムMA1からローカル
マキシマムMA4までの時間間隔(サンプル数)TD
3、・・・のように、ローカルマキシマムMA1から他
の各ローカルマキシマムについてそれぞれの時間間隔を
求めると共に、同様にして、ローカルマキシマムMA2
から次のローカルマキシマムMA3までの時間間隔、ロ
ーカルマキシマムMA2からローカルマキシマムMA4
までの時間間隔、ローカルマキシマムMA2からローカ
ルマキシマムMA5(図示は省略)までの時間間隔、・
・・のように、ローカルマキシマムMA2から他の各ロ
ーカルマキシマムについてそれぞれの時間間隔を求め、
これら時間間隔をヒストグラム処理回路11に送る。ま
た、ローカルマキシマムMA3やローカルマキシマムM
A4、それ以降の各ローカルマキシマムについても同様
に、あるローカルマキシマムから他の各ローカルマキシ
マムについてそれぞれの時間間隔を求め、これら時間間
隔をヒストグラム処理回路11に送る。
【0052】また、該測定回路25は、負(−)の符号
が付加された各ローカルミニマム間の時間間隔について
も同様に、図9(b)に示すように、あるローカルミニ
マムMI1から次のローカルミニマムMI2までの時間
間隔(サンプル数)AD1、ローカルミニマムMI1か
らローカルミニマムMI3までの時間間隔(サンプル
数)AD2、ローカルミニマムMI1からローカルミニ
マムMI4までの時間間隔(サンプル数)AD3、・・
・のように、ローカルミニマムMI1から他の各ローカ
ルミニマムについてそれぞれの時間間隔を求めると共
に、同様にして、ローカルミニマムMI2から次のロー
カルミニマムMI3までの時間間隔、ローカルミニマム
MI2からローカルミニマムMI4までの時間間隔、ロ
ーカルミニマムMI2からローカルミニマムMI5(図
示は省略)までの時間間隔、・・・のように、ローカル
ミニマムMI2から他の各ローカルマキシマムについて
それぞれの時間間隔を求め、それら時間間隔をヒストグ
ラム処理回路11に送る。また、ローカルミニマムMI
3やローカルミニマムMI4、それ以降の各ローカルマ
キシマムについても同様に、あるローカルミニマムから
他の各ローカルミニマムについてそれぞれの時間間隔を
求め、それら時間間隔をヒストグラム処理回路11に送
る。
【0053】ヒストグラム処理回路11では、測定回路
25から供給された、正(+)の符号が付加された各ロ
ーカルマキシマムについてそれぞれ求めた時間間隔(サ
ンプル数)と、負(−)の符号が付加された各ローカル
ミニマムについてそれぞれ求めた時間間隔(サンプル
数)の両方を用いて、統計的な分析を行う。
【0054】具体的に言うと、該ヒストグラム処理回路
11では、正(+)の符号が付加された各ローカルマキ
シマム間の各時間間隔に対応するサンプル数と、負
(−)の符号が付加された各ローカルミニマム間の各時
間間隔に対応するサンプル数の両方を用いて、ヒストグ
ラムを作成し、このヒストグラムの最瀕値を求める。す
なわち、例えば図10に示すように、正(+)の符号が
付加された各ローカルマキシマム間の時間間隔(サンプ
ル数)及び負(−)の符号が付加された各ローカルミニ
マム間の時間間隔(サンプル数)のうち、最も発生頻度
が高い時間間隔(サンプル数)を求める。図10の例で
は、それら両者の時間間隔として、81サンプル分の時
間間隔を有するものが2回、82サンプル分の時間間隔
を有するものが2回、83サンプル分の時間間隔を有す
るものが3回、・・・となり、ヒストグラムの最瀕値と
しては、193サンプル分の時間間隔を有するものが9
回であり、したがって、ヒストグラム処理回路11は、
当該193サンプル分の時間間隔を統計分析結果として
出力する。
【0055】該ヒストグラム処理回路11での統計分析
により求められた時間間隔出力は、端子15及び測定回
路25を介して、ピッチ決定回路26に送られる。該ピ
ッチ決定回路26では、ヒストグラム処理回路11から
供給された時間間隔出力に基づいて、入力音声信号のピ
ッチを決定する。すなわち、図10に示した統計分析結
果を例に挙げて説明すると、ピッチ決定回路26では、
193サンプル分の時間間隔を、図1の入力端子1に供
給された入力音声信号のピッチ周期として決定する。
【0056】該ピッチ決定回路26にて決定されたピッ
チ周期は、端子13からピッチ情報として図1のピッチ
シフト・フレーム結合回路4に供給されることになる。
【0057】この図6に示した第1の具体的構成例のピ
ッチ検出回路10におけるピッチ検出動作の流れをフロ
ーチャートにて表すと、図11に示すようになる。
【0058】この図11において、ステップS11で
は、ピークサーチ回路23において、フィルタ回路22
にて所望の周波数帯域のみを取り出す低域濾波を行った
後の音声データから、ローカルマキシマム(極大点)と
ローカルミニマム(極小点)を抽出し、さらに波形特徴
抽出回路24にてローカルマキシマムに正(+)の符号
を付加し、ローカルミニマムに負(−)の符号を付加す
る符号データ化を行う。
【0059】ステップS12では、測定回路25におい
て、正(+)の符号が付加されたローカルマキシマムと
負(−)の符号が付加されたローカルミニマムの二者を
用いて、それぞれ時間間隔(サンプル数)を求め、さら
にヒストグラム処理回路11においてそれら時間間隔か
らヒストグラムを作成する。
【0060】ステップS13では、ヒストグラム処理回
路11にてヒストグラムの最瀕値を求め、その後、ピッ
チ決定回路26において当該ヒストグラムの最瀕値から
ピッチ周期を決定する。
【0061】この第1の具体的構成例によれば、音声信
号の相関を求めることなく、その波形の特徴から少ない
演算量で、且つローカルマキシマム、ローカルミニマム
のサンプル点の振幅に左右されずに、精度の高いピッチ
検出が可能である。
【0062】また、本実施の形態のピッチ変換装置に使
用するピッチ検出回路10では、以下の手法によりピッ
チ検出を行うことも可能である。図12には、ピッチ検
出手法を用いた第2の具体的構成例を示す。なお、この
図12中の各構成要素のうち、図6に示した構成と同一
の構成要素には同じ指示符号を付して、それらの詳細な
説明については省略する。
【0063】この図8に示す第2の具体的構成例のピッ
チ検出回路10において、図6の構成と同様のフィルタ
回路22を介したデータは、ゼロクロス検出回路33に
送られる。
【0064】このゼロクロス検出回路33では、供給さ
れた各音声データのゼロクロス点を検出する。具体的に
言うと、該ゼロクロス検出回路33では、音声データの
符号が正(+)から負(−)に変化する時点における最
も近いサンプル点、及び、音声データの符号が負(−)
から正(+)に変化する時点における最も近いサンプル
点を、それぞれ略ゼロクロスとして抽出する。このゼロ
クロス検出回路33により検出されたゼロクロスのデー
タは、波形特徴抽出回路34に送られる。
【0065】波形特徴抽出回路34は、図13(b)及
び図14(a)に示すように、ゼロクロス検出回路33
より供給されたゼロクロスZXのうち、音声データの符
号が負(−)から正(+)に変化する時点に対応するゼ
ロクロスのデータに対しては「1」の値を設定し、音声
データの符号が正(+)から負(−)に変化する時点に
対応するゼロクロスのデータに対しては「−1」の値を
設定する。なお、図13(a)には図8(a)と同じ波
形を示し、図14(a)には、図13の一部を抜き出
し、拡大して示している。この波形特徴抽出回路34に
て符号データ化されたゼロクロスZXの各データは、測
定回路35に送られる。
【0066】この測定回路35では、波形特徴抽出回路
34にて「1」の値に設定された各ゼロクロス間の時間
間隔(サンプル数)、及び、波形特徴抽出回路34にて
「−1」の値に設定された各ゼロクロス間の時間間隔
(サンプル数)を求め、次いで、それら「1」の値に設
定された各ゼロクロス間の時間間隔(サンプル数)と
「−1」の値に設定された各ゼロクロス間の時間間隔
(サンプル数)を求めて、それら時間間隔をヒストグラ
ム処理回路11に送る。
【0067】すなわち、測定回路35では、「1」の値
に設定された各ゼロクロス間の時間間隔として、図14
(b)に示すように、あるゼロクロスZX1から次のゼ
ロクロスZX2までの時間間隔(サンプル数)XD1、
ゼロクロスZX1からゼロクロスZX3までの時間間隔
(サンプル数)XD2、ゼロクロスZX1からゼロクロ
スZX4(図示は省略)までの時間間隔(サンプル数)
・・・のように、ゼロクロスZX1から他の各ゼロクロ
スについてそれぞれの時間間隔を求めると共に、同様に
して、ゼロクロスZX2から次のゼロクロスZX3まで
の時間間隔、ゼロクロスZX2からゼロクロスZX4
(図示は省略)までの時間間隔、ゼロクロスZX2から
ゼロクロスZX5(図示は省略)までの時間間隔、・・
・のように、ゼロクロスZX2から他の各ゼロクロスに
ついてそれぞれの時間間隔を求める。ゼロクロスZX3
やそれ以降の各ゼロクロスについても同様に、「1」の
値に設定された、あるゼロクロスから他の各ゼロクロス
についてそれぞれの時間間隔を求める。
【0068】また、該測定回路35は、「−1」の値に
設定された各ゼロクロス間の時間間隔についても同様
に、図14(b)に示すように、あるゼロクロスZX1
1から次のゼロクロスZX12までの時間間隔(サンプ
ル数)XD11、ゼロクロスZX11からゼロクロスZ
X13(図示は省略)までの時間間隔(サンプル数)X
D12(図示は省略)、・・・のように、ゼロクロスZ
X11から他の各ゼロクロスについてそれぞれの時間間
隔を求めると共に、同様にして、ゼロクロスZX12か
ら次のゼロクロスZX13(図示は省略)までの時間間
隔、ゼロクロスZX12からゼロクロスZX14(図示
は省略)までの時間間隔、・・・のように、ゼロクロス
ZX12から他の各ゼロクロスについてそれぞれの時間
間隔を求める。ゼロクロスZX13(図示は省略)やそ
れ以降の各ゼロクロスについても同様に、「−1」の値
に設定された、あるゼロクロスから他の各ゼロクロスに
ついてそれぞれの時間間隔を求める。
【0069】測定回路35にて測定された時間間隔のデ
ータが供給されたヒストグラム処理回路11では、
「1」の値に設定された各ゼロクロスについてそれぞれ
求めた時間間隔(サンプル数)と、「−1」の値に設定
された各ゼロクロスについてそれぞれ求めた時間間隔
(サンプル数)の両方を用いて、統計的な分析を行う。
【0070】具体的に言うと、該ヒストグラム処理回路
11では、「1」の値に設定された各ゼロクロス間の各
時間間隔に対応するサンプル数と、「−1」の値に設定
された各ゼロクロス間の各時間間隔に対応するサンプル
数の両方を用いて、ヒストグラムを作成し、該ヒストグ
ラムの最瀕値を求める。すなわち、図15に示すよう
に、「1」の値に設定された各ゼロクロス間の時間間隔
(サンプル数)及び「−1」の値に設定された各ゼロク
ロス間の時間間隔(サンプル数)のうち、最も発生頻度
が高い時間間隔(サンプル数)を求める。図15の例で
は、それら両者の時間間隔として、130サンプル分の
時間間隔を有するものが2回、192サンプル分の時間
間隔を有するものが2回、193サンプル分の時間間隔
を有するものが7回、・・・となり、ヒストグラムの最
瀕値としては、193サンプル分の時間間隔を有するも
のが7回であり、したがって、ヒストグラム処理回路1
1は、当該193サンプル分の時間間隔を統計分析結果
として出力する。
【0071】ヒストグラム処理回路11での統計分析に
より求められた時間間隔出力は、測定回路35を介して
ピッチ決定回路36に送られる。該ピッチ決定回路36
では、ヒストグラム処理回路11から供給された時間間
隔出力に基づいて、入力音声信号のピッチを決定する。
すなわち、図15に示した統計分析結果を例に挙げて説
明すると、ピッチ決定回路36では、193サンプル分
の時間間隔を、入力端子1に供給された入力音声信号の
ピッチ周期として決定する。
【0072】前記図12に示した第2の具体的構成例の
ピッチ検出回路10におけるピッチ検出動作の流れをフ
ローチャートにて表すと、図16に示すようになる。
【0073】この図16において、ステップS21で
は、ゼロクロス検出回路33にて、ゼロクロス(零交
差)を抽出し、さらに波形特徴抽出回路34にてゼロク
ロスに「1」又は「−1」の値を設定する符号データ化
を行う。
【0074】ステップS22では、測定回路35におい
て、「1」の値に設定されたゼロクロスと「−1」の値
に設定されたゼロクロスの二者を用いて、それぞれ時間
間隔(サンプル数)を求め、さらにヒストグラム処理回
路11において、それら時間間隔からヒストグラムを作
成する。
【0075】ステップS23では、ヒストグラム処理回
路11にてヒストグラムの最瀕値を求め、その後、ピッ
チ決定回路36において当該ヒストグラムの最瀕値から
ピッチ周期を決定する。
【0076】この第2の具体的構成例によれば、音声信
号の相関を求めることなく、その波形の特徴から少ない
演算量で、精度の高いピッチ検出が可能である。
【0077】次に、本実施の形態のピッチ変換装置に使
用するピッチ検出回路10では、さらに以下の手法によ
りピッチ検出を行うことも可能である。図17には、そ
のピッチ検出手法を用いた第3の具体的構成例を示す。
なお、この図17中の各構成要素のうち、図6及び図1
2に示した構成と同一の構成要素には同じ指示符号を付
して、それらの詳細な説明については省略する。すなわ
ち、この図17に示す第3の具体的構成例のピッチ検出
回路10は、第1の具体的構成例と第2の具体的構成例
の両者の動作を行うものである。
【0078】この図17に示すピッチ検出回路10にお
いて、フィルタ回路22を介したデータは、図6同様の
ピークサーチ回路23と図12同様のゼロクロス検出回
路33に送られる。
【0079】ピークサーチ回路23にて第1の具体的構
成例と同様にして求められたローカルマキシマム及びロ
ーカルミニマムのサンプルデータと、ゼロクロス検出回
路33にて第2の具体的構成例と同様にして求められた
ゼロクロスのデータは、それぞれ波形特徴抽出回路44
に送られる。
【0080】この波形特徴抽出回路44は、図6の波形
特徴抽出回路24と図12の波形特徴抽出回路34の両
方の機能を有するものであり、図8(b)及び図9
(a)に示すように、ピークサーチ回路23より供給さ
れた各ローカルマキシマムMAのサンプルデータに対し
ては正(+)の符号を付加し、各ローカルミニマムMI
のサンプルデータに対しては負(−)の符号を付加す
る。また、波形特徴抽出回路44は、ゼロクロス検出回
路33からのゼロクロスのうち、図14(a)に示すよ
うに、音声データの符号が負(−)から正(+)に変化
する時点に対応するゼロクロスZXに対しては「1」の
値に設定し、音声データの符号が正(+)から負(−)
に変化する時点に対応するゼロクロスZXに対しては
「−1」の値に設定する。なお、図18(a)には図8
(a)と同じ波形を示している。この波形特徴抽出回路
44にてそれぞれ符号データ化されたローカルマキシマ
ム及びローカルミニマム、並びにゼロクロスの各データ
は、測定回路45に送られる。
【0081】この測定回路45は、図6の測定回路25
と図12の測定回路35の両方の機能を有するものであ
り、前記図9(b)と同様にして、波形特徴抽出回路4
4にて正(+)の符号が付加された各ローカルマキシマ
ム間の時間間隔、及び、負(−)の符号が付加された各
ローカルミニマム間の時間間隔を求めると共に、図14
(b)と同様にして、波形特徴抽出回路44にて「1」
の値に設定された各ゼロクロス間の時間間隔、及び、波
形特徴抽出回路44にて「−1」の値に設定された各ゼ
ロクロス間の時間間隔を求める。
【0082】次いで、ヒストグラム処理回路11では、
それら求めた各時間間隔について、それぞれ図10と図
15同様にして統計的な分析を行う。
【0083】すなわち、ヒストグラム処理回路11で
は、ローカルマキシマム間及びローカルミニマム間につ
いてそれぞれ求めた各時間間隔から図10同様にして得
たヒストグラムの最瀕値と、ゼロクロス間でそれぞれ求
めた各時間間隔から図15同様にして得たヒストグラム
の最瀕値との、2つの最瀕値を求め、さらにこれら2つ
の最瀕値を比較し、より頻度の高い(数値の大きい)値
を統計分析結果として出力する。
【0084】ヒストグラム処理回路11での統計分析に
より求められた時間間隔出力は、測定回路45を介して
ピッチ決定回路46に送られる。該ピッチ決定回路46
では、ヒストグラム処理回路11から供給された時間間
隔出力に基づいて、入力音声信号のピッチを決定する。
すなわち、図10及び図15に示した統計分析結果を例
に挙げて説明すると、ピッチ決定回路46では、193
サンプル分の時間間隔を、入力端子1に供給された入力
音声信号のピッチ周期として決定する。
【0085】この図17に示した第3の具体的構成例の
ピッチ検出回路10におけるピッチ検出動作の流れをフ
ローチャートにて表すと、図19に示すようになる。
【0086】この図19において、ステップS31で
は、ピークサーチ回路23にて、ローカルマキシマム及
びローカルミニマムを抽出し、さらに波形特徴抽出回路
44にてローカルマキシマムには正(+)の符号を付加
し、ローカルミニマムには負(−)の符号を付加する符
号データ化を行う。同時に、ステップS32では、ゼロ
クロス検出回路33にて、ゼロクロス(零交差)を抽出
し、さらに波形特徴抽出回路44にてそれらゼロクロス
に「1」又は「−1」の値を設定する符号データ化を行
う。
【0087】ステップS33では、測定回路35におい
て、正(+)の符号が付加されたローカルマキシマムと
負(−)の符号が付加されたローカルミニマムの二者を
用いて、それぞれ時間間隔(サンプル数)を求め、さら
にヒストグラム処理回路11で、それら時間間隔からヒ
ストグラムを作成する。また、ステップS34では、
「1」の値に設定されたゼロクロスと「−1」の値に設
定されたゼロクロスの二者を用いて、それぞれ時間間隔
(サンプル数)を求め、得られた時間間隔からヒストグ
ラムを作成する。
【0088】ステップS35では、ヒストグラム処理回
路11にて、ローカルマキシマム及びローカルミニマム
のヒストグラムの最瀕値を求めると共に、ゼロクロスの
ヒストグラムの最瀕値を求め、その後、ピッチ決定回路
46においてそれら2つの最瀕値を比較して、より頻度
の高い方をピッチ周期として決定する。
【0089】この第3の具体的構成例によれば、音声信
号の相関を求めることなく、その波形の特徴から少ない
演算量で、精度の高いピッチ検出が可能である。
【0090】次に、本実施の形態のピッチ変換装置に使
用するピッチ検出回路10では、さらに以下の手法に述
べるピッチ検出を行うことも可能である。この第4の具
体的構成例のピッチ検出回路10の構成は、図17と略
々同じであるが、該第4の具体的構成例のピッチ検出回
路10では、図20(a)及び図20(b)に示すよう
に、正(+)の符号が付加された各ローカルマキシマ
ム、及び、負(−)の符号が付加された各ローカルミニ
マムと、「1」の値に設定された各ゼロクロス、及び、
「−1」の値に設定された各ゼロクロスとを混在させ、
これら混在させて求めた時間間隔について、統計的な分
析を行うようにしている。
【0091】すなわち、この第4の具体的構成例の場合
の図17の波形特徴抽出回路44からは、図20(a)
に示すように、正(+)の符号を付加した各ローカルマ
キシマムMAのサンプルデータと、負(−)の符号を付
加した各ローカルミニマムMIのサンプルデータと、
「1」の値に設定されたゼロクロスZXと、「−1」の
値に設定されたゼロクロスZXとが、混在されて測定回
路45に送られる。
【0092】この第4の具体的構成例の場合の図17の
測定回路45では、これら混在されたローカルマキシマ
ム、ローカルミニマム、ゼロクロスの各データのうち、
図20(b)に示すように、正(+)及び「1」側の各
ローカルマキシマム及びゼロクロスを混在させてそれぞ
れ時間間隔を求めると共に、負(−)及び「−1」側の
各ローカルミニマム及びゼロクロスを混在させてそれぞ
れ時間間隔を求め、またヒストグラム処理回路11で
は、それら求めた時間間隔について、図21に示すよう
な統計的な分析を行うようにしている。
【0093】すなわちこの第4の具体的構成例における
測定回路45では、図20(b)に示すように、例え
ば、「1」の値に設定されたゼロクロスZX21から隣
の正(+)の符号が付加されたローカルマキシマムMA
11までの時間間隔D1、ゼロクロスZX21からロー
カルマキシマムMA12までの時間間隔D2、ゼロクロ
スZX21からゼロクロスZX22までの時間間隔D
3、ゼロクロスZX21からローカルマキシマムMA1
3までの時間間隔D4、ゼロクロスZX21からローカ
ルマキシマムMA14までの時間間隔D5、・・・のよ
うに、また同様に、ローカルマキシマムMA11から隣
のローカルマキシマムMA12までの時間間隔D21、
ローカルマキシマムMA11からゼロクロスZX22ま
での時間間隔D22、ローカルマキシマムMA11から
ローカルマキシマムMA13までの時間間隔D23、ロ
ーカルマキシマムMA11からローカルマキシマムMA
14までの時間間隔D24、ローカルマキシマムMA1
1からゼロクロスZX23までの時間間隔D25、・・
・のように、ローカルマキシマム又はゼロクロスから他
のローカルマキシマム又はゼロクロスについてそれぞれ
の時間間隔を求める。ローカルマキシマムMA12やゼ
ロクロスZX22、それ以降の各ローカルマキシマムや
ゼロクロスについても同様に、あるローカルマキシマム
又はゼロクロスから他の各ローカルマキシマム又はゼロ
クロスについてそれぞれの時間間隔を求める。
【0094】同様に、この第4の具体的構成例における
測定回路45では、図20(b)に示すように、例え
ば、負(−)の符号が付加されたローカルミニマムMI
11から隣の「−1」の値に設定されたゼロクロスZX
31までの時間間隔d1、ローカルミニマムMI11か
らローカルミニマムMI12までの時間間隔d2、ロー
カルミニマムMI11からローカルミニマムMI13ま
での時間間隔d3、ローカルミニマムMI11からゼロ
クロスZX32までの時間間隔d4、ローカルミニマム
MI11からローカルミニマムMI14までの時間間隔
d5、・・・のように、ローカルミニマム又はゼロクロ
スから他のローカルミニマム又はゼロクロスについてそ
れぞれの時間間隔を求める。ゼロクロスZX31やロー
カルミニマム12、それ以降の各ローカルミニマムやゼ
ロクロスについても同様に、あるローカルミニマム又は
ゼロクロスから他の各ローカルミニマム又はゼロクロス
についてそれぞれの時間間隔を求める。
【0095】次いで、この第4の具体的構成例における
ヒストグラム処理回路11では、図21に示すように、
正(+)の符号が付加された各ローカルマキシマム及び
「1」の値に設定された各ゼロクロスを混在させてそれ
ぞれ求めた時間間隔と、負(−)の符号が付加された各
ローカルミニマム及び「−1」の値に設定された各ゼロ
クロスを混在させてそれぞれ求めた時間間隔の両方を用
いて、ヒストグラムの最瀕値を求める。
【0096】具体的に言うと、図21の例では、それら
の時間間隔として、80サンプル分の時間間隔を有する
ものが2回、82サンプル分の時間間隔を有するものが
2回、83サンプル分の時間間隔を有するものが3回、
・・・となり、ヒストグラムの最瀕値としては、193
サンプル分の時間間隔を有するものが14回であり、し
たがって、ヒストグラム処理回路11は、当該193サ
ンプル分の時間間隔を統計分析結果として出力する。
【0097】この第4の具体的構成例のピッチ検出回路
10におけるピッチ検出動作の流れをフローチャートに
て表すと、図22に示すようになる。
【0098】この図22において、ステップS41で
は、図19のステップS31と同様に、ピークサーチ回
路23にてローカルマキシマム及びローカルミニマムを
抽出し、さらに波形特徴抽出回路44にてローカルマキ
シマムには正(+)の符号を付加し、ローカルミニマム
には負(−)の符号を付加する符号データ化を行う。同
時に、ステップS42では、図19のステップS32と
同様に、ゼロクロス検出回路33にてゼロクロス(零交
差)を抽出し、さらに波形特徴抽出回路44にてそれら
ゼロクロスに「1」又は「−1」の値を設定する符号デ
ータ化を行う。
【0099】ステップS43では、測定回路45におい
て、ローカルマキシマムとローカルミニマムとゼロクロ
スの三者を用いて、それぞれ時間間隔を求め、さらにヒ
ストグラム処理回路11では、それら時間間隔からヒス
トグラムを作成する。
【0100】ステップS44では、ヒストグラム処理回
路11にて、ローカルマキシマム及びローカルミニマム
とゼロクロスの三者から作成したヒストグラムの最瀕値
を求め、その後、ピッチ決定回路46において該最瀕値
からピッチ周期を決定する。
【0101】この第4の具体的構成例によれば、音声信
号の相関を求めることなく、その波形の特徴から少ない
演算量で、且つ、ローカルマキシマム、ローカルミニマ
ム、ゼロクロスの各点を区別することなく、精度の高い
ピッチ検出が可能である。
【0102】なお、上述したピッチ検出の具体的構成例
では、全てのローカルマキシマムとローカルミニマム間
の時間間隔を測定し、それら時間間隔のヒストグラムを
求める例を挙げたが、例えば、フレーム内のローカルマ
キシマムのうちで振幅の絶対値が最大のローカルマキシ
マムと、同じくフレーム内のローカルミニマムのうちで
振幅の絶対値が最大のローカルミニマムを求め、これら
振幅の絶対値が最大のローカルマキシマムとローカルミ
ニマムからそれぞれ所定の範囲内或いは範囲外のローカ
ルマキシマム、ローカルミニマム間の時間間隔からヒス
トグラムを求め、そのヒストグラムの最瀕値からピッチ
を決定するようなことも可能である。このようにすれ
ば、演算量を削減することができる。
【0103】ところで、本発明の音声信号処理装置は、
例えばいわゆるカラオケ装置において、歌唱者の声やコ
ーラスの声のピッチを検出し、その声のピッチをシフト
する(声の高さを高くしたり低くしたりする)際に適用
可能である。すなわち、カラオケ装置においては、歌唱
者による歌の調及び各音の高さを前述したようにピッチ
を検出することによって求め、本来の楽曲の調及び音の
高さに合うようにシフトさせてスピーカから出力するよ
うなことが可能である。
【0104】図23には、このカラオケ装置の機能を、
いわゆるパーソナルコンピュータにて実現する場合の概
略構成例を示す。なお、この図23に示すパーソナルコ
ンピュータは、前述したピッチシフト処理やピッチ検出
処理等の各種動作を実現するためのアプリケーションデ
ータをインストール或いはダウンロードすることで、そ
れら何れの動作をも実現可能である。
【0105】この図23において、I/Oポート59
は、例えば外部通信回線と接続される外部端子であり、
このI/Oポート59及び通信回線を介して、後述する
外部のサーバやいわゆる通信カラオケ用放送センタ等に
接続可能となっている。I/Oポート59はI/F回路
60と接続されている。なお、通信カラオケとは、通信
カラオケ用放送センタに複数の楽曲のデータを蓄積して
おき、この放送センタに複数接続されている遠隔地の端
末装置に必要に応じて楽曲のデータを送信して、端末装
置で楽曲の演奏(再生)を可能とするシステムのことで
ある。したがって、この図23の例ではパーソナルコン
ピュータを例に挙げたが、該通信カラオケにおける端末
装置であってもよい。
【0106】このI/F回路60は、I/Oポート59
を介した外部通信回線と、内部CPU(中央処理ユニッ
ト)54との間のインターフェイスである。
【0107】当該I/Oポート59には、該パーソナル
コンピュータからのデータ要求に応じて、カラオケ用M
IDIデータや前述したピッチシフト処理やピッチ検出
処理等の各種の動作を実現するためのアプリケーション
データ(以下、カラオケ用アプリケーションデータと呼
ぶ)が通信回線を介して供給される。なお、カラオケ用
アプリケーションデータは、前述したピッチシフトコン
トロール回路8におけるコントロール信号や、ピッチシ
フト・フレーム結合回路4におけるピッチシフト処理及
びフレーム結合処理制御用プログラムデータや、ピッチ
検出回路10及びヒストグラム処理回路11におけるピ
ッチ検出動作制御用プログラムデータ等を、少なくとも
有するものである。
【0108】これらカラオケ用MIDIデータやカラオ
ケ用アプリケーションデータは、I/F回路60を介し
てCPU54に送られ、一旦、ハードディスクドライブ
(HDD)56内のハードディスクに記録される。
【0109】なお、カラオケ用MIDIデータやカラオ
ケ用アプリケーションデータは、通信回線ではなく、例
えばいわゆるCD−ROM等の光ディスクやフロッピィ
ディスクに記録された状態で図23のパーソナルコンピ
ュータに供給される場合もある。この場合は、該光ディ
スクやフロッピィディスクがディスクドライブ61に装
填され、このディスクドライブ61にて読み出されてC
PU54に送られる。もちろん、光ディスクやフロッピ
ィディスクから読み出されたカラオケ用MIDIデータ
やカラオケ用アプリケーションデータをハードディスク
ドライブ56に送って記録させることも可能である。図
23の例では、データ転送速度を考慮して、カラオケ用
MIDIデータやカラオケ用アプリケーションデータを
ハードディスクドライブ56に記録することとする。
【0110】CPU54は、例えばマウスやキーボード
からなる操作部55からの操作に応じて、パーソナルコ
ンピュータの全体の動作を制御するものであり、図23
の例のようにパーソナルコンピュータをカラオケ装置と
して動作させる場合には、先ず、ハードディスクドライ
ブ56に記録(インストール或いはダウンロード)され
たカラオケ用アプリケーションデータを読み出し、信号
処理回路53に送る。
【0111】一方、端子50はアナログ音声信号の外部
入力端子であり、この端子50を介して、歌唱者の声を
マイクロホンにて音響/電気変換したアナログ音声信号
が供給される。このアナログ音声信号は、アナログ/デ
ジタル変換器51にてデジタル信号に変換され、信号処
理回路53に送られる。
【0112】信号処理回路53は、前述したピッチシフ
ト処理やピッチ検出処理を、カラオケ用アプリケーショ
ンデータに基づいてソフトウェア上で実現可能な高速演
算処理回路であり、したがって、この図23の例のよう
にパーソナルコンピュータを使用した場合、当該信号処
理回路53は、ピッチシフトコントロール回路8や、ピ
ッチシフト・フレーム結合回路4、ピッチ検出回路1
0、ヒストグラム処理回路11の各構成要素として動作
する。もちろん、信号処理回路53では、カラオケ装置
として通常備えている歌詞やイメージ映像を表示する為
の画像データを生成することも可能である。
【0113】メモリ52は、信号処理回路53での信号
処理に必要なデータや演算途中のデータ、生成した画像
データ等を一時的に蓄えるためのメモリであり、図1の
バッファメモリ3,5としての機能をも備える。
【0114】また、信号処理回路53にて生成された各
種画像データは端子62からモニタに送られ、また、端
子50を介して入力され、アナログ/デジタル変換器5
1にてデジタル信号に変換された歌唱者の声の音声信号
は、デジタル/アナログ(D/A)変換器57にてアナ
ログ音声信号に戻され、音声出力端子58から出力さ
れ、スピーカ等に送られる。
【0115】次に、図24には、外部からの要求に応じ
てカラオケ用MIDIデータやカラオケ用アプリケーシ
ョンデータを伝送するデータ伝送装置の構成例を示して
いる。すなわち、この伝送装置は、例えば図23のパー
ソナルコンピュータや通信カラオケ用端末装置に対し
て、カラオケ用MIDIデータやカラオケ用アプリケー
ションデータを伝送する、サーバ或いは通信カラオケ用
放送センタに適用可能である。
【0116】この図24において、MIDI格納部70
にはカラオケ用の複数の楽曲のMIDIデータが格納さ
れ、送信プログラム格納部71には予め作成されたカラ
オケ用アプリケーションデータが格納されており、それ
ぞれバスに接続されている。なお、ここではMIDIデ
ータ及びカラオケ用アプリケーションデータがMIDI
格納部70及び送信プログラム格納部71に格納された
例を挙げているが、これらMIDIデータ及びカラオケ
用アプリケーションデータはCD−ROM等の光ディス
クやフロッピィディスクに記録されていてもよく、この
場合の光ディスクやフロッピィディスクは、バスに接続
されたディスクドライブ74に装填される。
【0117】ROM72及びRAM73、並びにハード
ディスクドライブ80は、バスを介してCPU79と接
続され、これらROM72、RAM73、ハードディス
クドライブ80は、CPU79が図24の例の伝送装置
を制御する際の各種データを格納或いは記憶するための
ものである。
【0118】I/Oポート78は、外部通信回線と接続
される外部端子であり、このI/Oポート78及び通信
回線を介して、例えば図23のパーソナルコンピュータ
や通信カラオケ端末装置に接続可能となっている。I/
Oポート78はI/F回路77と接続されている。
【0119】このI/F回路77は、I/Oポート78
を介した外部通信回線と、内部送受信データ処理回路7
6との間のインターフェイスである。
【0120】以下、図25のフローチャートを参照しな
がら、図24の伝送装置がMIDIデータやカラオケ用
アプリケーションデータを通信回線に送信する流れを説
明する。なお、この図25のフローチャートでは、通常
のデータ通信にて行われる、接続管理やトラフィック管
理、さらに情報収集や料金徴収等については省略してい
る。
【0121】この図25のフローチャート及び図24の
伝送装置において、先ず、ステップS51では、外部通
信回線を介して、MIDIデータやカラオケ用アプリケ
ーションデータの送信要求を受信すると、その送信要求
は、送受信データ処理回路76を介してCPU79に送
られる。
【0122】CPU79は、送信要求を受け取ると、ス
テップS52にてカラオケ用アプリケーションデータを
送信プログラム格納部71から読み出し、次いでステッ
プS53にて該送信要求にて要求されている楽曲のMI
DIデータをMIDI格納部70から読み出す。
【0123】これら読み出されたMIDIデータ及びカ
ラオケ用アプリケーションデータは、送受信データ処理
回路76に転送される。この送受信データ処理回路76
では、それらMIDIデータ及びカラオケ用アプリケー
ションデータを例えばパケット化し、さらにクロック発
振器75からの搬送波を変調して、I/F回路77に送
る。
【0124】これにより、I/F回路77からは、ステ
ップS55にてパケット化されたMIDIデータ及びカ
ラオケ用アプリケーションデータが送信される。
【0125】その後は、ステップS56にて送信完了の
確認を行う。
【0126】なお、この図24及び図25にて説明した
データ伝送装置では、MIDI格納部70から読み出し
たMIDIデータと送信プログラム格納部71から読み
出したカラオケ用アプリケーションデータをパケット化
して通信回線から送信したが、これらMIDIデータと
カラオケ用アプリケーションデータを、記録可能な光デ
ィスクやフロッピィディスクに記録し、それら記録可能
な光デジタルやフロッピィディスクを利用者に提供する
ことも可能である。この場合は、MIDI格納部70か
ら読み出したMIDIデータと送信プログラム格納部7
1から読み出したカラオケ用アプリケーションデータ
を、例えばディスクドライブ74に送り、このディスク
ドライブ74にて記録可能な光ディスクやフロッピィデ
ィスクに記録する。
【0127】ここまでの説明では、本発明を例えばカラ
オケ装置等に適用する例を説明したが、その他、レコー
ディングスタジオにおいて、決められた編集時間内にそ
の編集時間よりも僅かに長い音楽や音声を入れ込む際に
も本発明を適用することが可能である。すなわち、該編
集作業時には、音声信号のピッチ周波数を変換する処理
を行うことになり、このピッチ周波数の変更処理に本発
明を適用でき、また、このピッチ周波数の変換に先だっ
て音声信号のピッチ(ピッチ周波数)を検出することが
必要であるので、当該ピッチ周波数検出にも適用可能で
ある。
【0128】最後に本発明は一例として説明した上述の
実施の形態に限定されることはなく、本発明に係る技術
的思想を逸脱しない範囲であれば、設計等に応じて種々
の変更が可能であることは勿論である。
【0129】
【発明の効果】請求項1に記載の本発明に係る音声信号
処理装置は、デジタル入力された音声信号を所定の長さ
の単位時間毎に切り出すと共に、その単位時間の音声信
号及びピッチ変換に相当する時間的長さの音声信号を取
り出し、この取り出した音声信号のピッチを検出し、さ
らにこの取り出した単位時間の音声信号及びピッチ変換
に相当する時間的長さの音声信号を基にしてピッチ変換
を行い、ピッチ変換後の前単位時間の音声信号とピッチ
変換後の次単位時間の音声信号とを繋ぎ、ピッチ変換後
の連続音声信号を作成するようにしており、次単位時間
の音声信号を取り出す際には、ピッチ変換に相当する時
間的長さに、前単位時間の音声信号の本来の時間とピッ
チ検出及びピッチ変換の処理に要した時間との差を加え
た時点から、先に検出したピッチの整数倍の長さだけ時
間的に戻った時刻より取り出しを行うようにすることに
よって、ノイズやリップルの少ない滑らかなピッチシフ
ト処理後の音声信号を得ることが可能となっている。
【0130】また、請求項2に記載の本発明に係る音声
信号処理装置は、音声信号のピッチを検出する際に、音
声信号から所望の周波数帯域のみを通過させ、その所望
の周波数帯域の音声信号波形から複数の極大点と極小点
及び/又は零交差を検出し、該検出した各極大点の間と
各極小点の間及び/又は零交差の間でそれぞれ時間間隔
を求め、それら時間間隔に基づいてヒストグラムを作成
し、このヒストグラムの最瀕値を音声信号のピッチとし
て取り出すようにしているので、簡単な演算処理及び簡
単な演算装置によって正確なピッチが検出可能となって
いる。
【0131】また、請求項3に記載の本発明に係る情報
媒体は、デジタル入力された音声信号を所定の長さの単
位時間毎に切り出すと共に、その単位時間の音声信号及
びピッチ変換に相当する時間的長さの音声信号を取り出
し、この取り出した音声信号のピッチを検出し、さらに
この取り出した単位時間の音声信号及びピッチ変換に相
当する時間的長さの音声信号を基にしてピッチ変換を行
い、ピッチ変換後の前単位時間の音声信号とピッチ変換
後の次単位時間の音声信号とを繋ぎ、ピッチ変換後の連
続音声信号を作成するようにしており、次単位時間の音
声信号を取り出す際には、ピッチ変換に相当する時間的
長さに、前単位時間の音声信号の本来の時間とピッチ検
出及びピッチ変換の処理に要した時間との差を加えた時
点から、先に検出したピッチの整数倍の長さだけ時間的
に戻った時刻より取り出しを行うようにした演算処理
を、演算装置に対して実行させるプログラムデータを記
録、若しくは伝送可能にすることにより、演算装置にお
いて、ノイズやリップルの少ない滑らかなピッチシフト
処理後の音声信号を得ることが可能となる。
【0132】さらに、請求項4に記載の本発明に係る情
報媒体は、音声信号のピッチを検出する際に、音声信号
から所望の周波数帯域のみを通過させ、その所望の周波
数帯域の音声信号波形から複数の極大点と極小点及び/
又は零交差を検出し、該検出した各極大点の間と各極小
点の間及び/又は零交差の間でそれぞれ時間間隔を求
め、それら時間間隔に基づいてヒストグラムを作成し、
このヒストグラムの最瀕値を音声信号のピッチとして取
り出すようにした演算処理を、演算装置に対して実行さ
せるプログラムデータを記録、若しくは伝送可能にする
ことにより、演算装置において、簡単な演算処理によっ
て正確なピッチが検出可能となる。
【図面の簡単な説明】
【図1】本発明に係る音声信号処理装置が適用される一
実施の形態のピッチ変換装置の概略構成を示すブロック
図である。
【図2】マイクロホンから入力される原音声信号の波形
を示す波形図である。
【図3】ピッチシフト処理として、元の音の高さを高く
する方向のピッチシフトを行った場合の例を説明するた
めの図である。
【図4】ピッチシフト処理として、元の音の高さを低く
する方向のピッチシフトを行った場合の例を説明するた
めの図である。
【図5】本実施の形態のピッチ変換装置の動作の流れを
示すフローチャートである。
【図6】第1の具体的構成例のピッチ検出回路の概略構
成を示すブロック図である。
【図7】フィルタ回路の周波数特性を示す特性図であ
る。
【図8】フィルタ回路にて低域濾波された後の音声信号
波形と、第1の具体的構成例にて音声信号から検出され
たローカルマキシマム及びローカルミニマムを示す波形
図である。
【図9】図8の波形図の一部を拡大して示す波形図であ
る。
【図10】第1の具体的構成例のピッチ検出回路にて求
めたヒストグラムの説明に用いる図である。
【図11】第1の具体的構成例のピッチ検出回路の動作
の流れを示すフローチャートである。
【図12】第2の具体的構成例のピッチ検出回路の概略
構成を示すブロック図である。
【図13】フィルタ回路にて低域濾波された後の音声信
号波形と、第2の具体的構成例のピッチ検出回路にて音
声信号から検出されたゼロクロス点を示す波形図であ
る。
【図14】図13の波形図の一部を拡大して示す波形図
である。
【図15】第2の具体的構成例のピッチ検出回路にて求
めたヒストグラムの説明に用いる図である。
【図16】第2の具体的構成例のピッチ検出回路の動作
の流れを示すフローチャートである。
【図17】第3の具体的構成例のピッチ検出回路の概略
構成を示すブロック図である。
【図18】フィルタ回路にて低域濾波された後の音声信
号波形と、第3の具体的構成例にて音声信号から検出さ
れたローカルマキシマム及びローカルミニマムとゼロク
ロス点を示す波形図である。
【図19】第3の具体的構成例のピッチ検出回路の動作
の流れを示すフローチャートである。
【図20】第4の具体的構成例のピッチ検出回路にて低
域濾波された後の音声信号波形の一部を拡大した波形
と、音声信号から検出されたローカルマキシマム及びロ
ーカルミニマムとゼロクロス点の一部を拡大した波形を
示す波形図である。
【図21】第4の具体的構成例のピッチ検出回路にて求
めたヒストグラムの説明に用いる図である。
【図22】第4の具体的構成例のピッチ検出回路の動作
の流れを示すフローチャートである。
【図23】本発明に係る音声信号処理装置が適用される
パーソナルコンピュータの概略構成を示すブロック図で
ある。
【図24】本発明に係るプログラムデータ等を伝送する
伝送装置の概略構成を示すブロック図である。
【図25】図24の伝送装置の動作の流れを示すフロー
チャートである。
【符号の説明】
2…アナログ/デジタル変換器、3…バッファメモリ、
4…ピッチシフト・フレーム結合回路、5…バッファメ
モリ、6…デジタル/アナログ変換器、8…ピッチシフ
トコントロール回路、10…ピッチ検出回路、11…ヒ
ストグラム処理回路

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 デジタル入力された音声信号を所定の長
    さの単位時間毎に切り出すと共に、前記単位時間の音声
    信号及びピッチ変換に相当する時間的長さの音声信号を
    取り出し手段と、 前記取り出した音声信号のピッチを検出するピッチ検出
    手段と、 前記取り出した単位時間の音声信号及びピッチ変換に相
    当する時間的長さの音声信号を基にしてピッチ変換を行
    うピッチ変換手段と、 ピッチ変換後の前単位時間の音声信号とピッチ変換後の
    次単位時間の音声信号とを繋ぎ、ピッチ変換後の連続音
    声信号を作成する連続音声信号生成手段とを有し、 前記次単位時間の音声信号を取り出す際には、前記ピッ
    チ変換に相当する時間的長さに、前単位時間の音声信号
    の本来の時間と前記ピッチ検出及びピッチ変換の処理に
    要した時間との差を加えた時点から、先に検出したピッ
    チの整数倍の長さだけ時間的に戻った時刻より取り出し
    を行うことを特徴とする音声信号処理装置。
  2. 【請求項2】 前記音声信号のピッチを検出するピッチ
    検出手段は、前記音声信号から所望の周波数帯域のみを
    通過させる帯域通過手段と、前記所望の周波数帯域の音
    声信号波形から複数の極大点と極小点及び/又は零交差
    を検出する検出手段と、前記検出した各極大点の間と各
    極小点の間及び/又は零交差の間でそれぞれ時間間隔を
    求める時間間隔測定手段と、前記時間間隔に基づいてヒ
    ストグラムを作成するヒストグラム作成手段と、前記ヒ
    ストグラムの最瀕値を前記音声信号のピッチとして取り
    出すピッチ決定手段とを有することを特徴とする請求項
    1記載の音声信号処理装置。
  3. 【請求項3】 デジタル入力された音声信号を所定の長
    さの単位時間毎に切り出すと共に、前記単位時間の音声
    信号及びピッチ変換に相当する時間的長さの音声信号を
    取り出すステップと、 前記取り出した音声信号のピッチを検出するステップ
    と、 前記取り出した単位時間の音声信号及びピッチ変換に相
    当する時間的長さの音声信号を基にしてピッチ変換を行
    うステップと、 ピッチ変換後の前単位時間の音声信号とピッチ変換後の
    次単位時間の音声信号とを繋ぎ、ピッチ変換後の連続音
    声信号を作成するステップとを有し、 前記次単位時間の音声信号を取り出す際には、前記ピッ
    チ変換に相当する時間的長さに、前単位時間の音声信号
    の本来の時間と前記ピッチ検出及びピッチ変換の処理に
    要した時間との差を加えた時点から、先に検出したピッ
    チの整数倍の長さだけ時間的に戻った時刻より取り出し
    を行うようにした演算処理を、演算装置に対して実行さ
    せるプログラムデータを記録、若しくは伝送することを
    特徴とする情報媒体。
  4. 【請求項4】 前記音声信号のピッチを検出するステッ
    プは、前記音声信号から所望の周波数帯域のみを通過さ
    せるステップと、前記所望の周波数帯域の音声信号波形
    から複数の極大点と極小点及び/又は零交差を検出する
    ステップと、前記検出した各極大点の間と各極小点の間
    及び/又は零交差の間でそれぞれ時間間隔を求めるステ
    ップと、前記時間間隔に基づいてヒストグラムを作成す
    るステップと、前記ヒストグラムの最瀕値を前記音声信
    号のピッチとして取り出すステップとからなることを特
    徴とする請求項3記載の情報媒体。
JP10115811A 1998-04-24 1998-04-24 音声信号処理装置及び情報媒体 Pending JPH11305795A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10115811A JPH11305795A (ja) 1998-04-24 1998-04-24 音声信号処理装置及び情報媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10115811A JPH11305795A (ja) 1998-04-24 1998-04-24 音声信号処理装置及び情報媒体

Publications (1)

Publication Number Publication Date
JPH11305795A true JPH11305795A (ja) 1999-11-05

Family

ID=14671691

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10115811A Pending JPH11305795A (ja) 1998-04-24 1998-04-24 音声信号処理装置及び情報媒体

Country Status (1)

Country Link
JP (1) JPH11305795A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002006899A (ja) * 2000-06-19 2002-01-11 Yamaha Corp 音楽信号の時間軸圧伸方法及び装置
JP2004534274A (ja) * 2001-03-23 2004-11-11 インスティチュート・フォー・インフォコム・リサーチ 内容ベースのマルチメディア情報検索で使用するためデジタル表示で音楽情報を表示する方法およびシステム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002006899A (ja) * 2000-06-19 2002-01-11 Yamaha Corp 音楽信号の時間軸圧伸方法及び装置
JP2004534274A (ja) * 2001-03-23 2004-11-11 インスティチュート・フォー・インフォコム・リサーチ 内容ベースのマルチメディア情報検索で使用するためデジタル表示で音楽情報を表示する方法およびシステム

Similar Documents

Publication Publication Date Title
JP4940588B2 (ja) ビート抽出装置および方法、音楽同期画像表示装置および方法、テンポ値検出装置および方法、リズムトラッキング装置および方法、音楽同期表示装置および方法
US20160005387A1 (en) Audio signal analysis
JP4313563B2 (ja) 楽曲検索装置及び方法
GB2518663A (en) Audio analysis apparatus
KR20080066007A (ko) 재생용 오디오 프로세싱 방법 및 장치
WO2007010637A1 (ja) テンポ検出装置、コード名検出装置及びプログラム
US8193436B2 (en) Segmenting a humming signal into musical notes
WO2013164661A1 (en) Evaluation of beats, chords and downbeats from a musical audio signal
US5966687A (en) Vocal pitch corrector
WO2007086417A1 (ja) ビート抽出装置及びビート抽出方法
Zhou et al. Music onset detection based on resonator time frequency image
JP2008275975A (ja) リズム検出装置及びリズム検出用コンピュータ・プログラム
JP3033061B2 (ja) 音声雑音分離装置
JP3402748B2 (ja) 音声信号のピッチ周期抽出装置
JP3008922B2 (ja) 楽音発生装置および楽音発生方法
EP1288912A1 (en) Speech recognition method and device, speech synthesis method and device, recording medium
JPH11305795A (ja) 音声信号処理装置及び情報媒体
JP3534012B2 (ja) 波形分析方法
JP4581699B2 (ja) 音程認識装置およびこれを利用した音声変換装置
JPH11305794A (ja) ピッチ検出装置及び情報媒体
JPH11175097A (ja) ピッチ検出方法及び装置、判定方法及び装置、データ伝送方法、並びに記録媒体
JP3733964B2 (ja) 分析結果を用いた音源波形合成装置
JP2000305600A (ja) 音声信号処理装置及び方法、情報媒体
JP3095018B2 (ja) 楽音発生装置
JP2010032809A (ja) 自動演奏装置及び自動演奏用コンピュータ・プログラム