JP3500690B2 - オーディオピッチ抽出装置及びオーディオ処理装置 - Google Patents
オーディオピッチ抽出装置及びオーディオ処理装置Info
- Publication number
- JP3500690B2 JP3500690B2 JP05649694A JP5649694A JP3500690B2 JP 3500690 B2 JP3500690 B2 JP 3500690B2 JP 05649694 A JP05649694 A JP 05649694A JP 5649694 A JP5649694 A JP 5649694A JP 3500690 B2 JP3500690 B2 JP 3500690B2
- Authority
- JP
- Japan
- Prior art keywords
- pitch
- audio
- audio data
- analysis section
- correlation lag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Signal Processing For Digital Recording And Reproducing (AREA)
Description
【0001】
【産業上の利用分野】本発明は、オーディオピッチ抽出
装置及びオーディオ処理装置に関するものであり、例え
ば、デジタルビデオテープレコーダーやデジタルオーデ
ィオプレーヤ等におけるオーディオ継続時間長制御装置
やオーディオピッチ変換装置等に適用されるオーディオ
ピッチ抽出装置及びオーディオ処理装置に関するもので
ある。
装置及びオーディオ処理装置に関するものであり、例え
ば、デジタルビデオテープレコーダーやデジタルオーデ
ィオプレーヤ等におけるオーディオ継続時間長制御装置
やオーディオピッチ変換装置等に適用されるオーディオ
ピッチ抽出装置及びオーディオ処理装置に関するもので
ある。
【0002】
【従来の技術】例えば、ビデオテープレコーダー(以
下、VTRと言う。)やオーディオプレーヤ、或は、カ
ラオケ装置等には、ビデオテープに記録されたデータの
時間の長さに較べて、再生の時間の長さを変化させて再
生するプログラムプレイ機能を備えているものがある。
このプログラムプレイ機能によって、再生速度を速くし
たり、或は、遅くしたりする(以下、プログラムプレイ
と言う。)ことができる。このプログラムプレイを行っ
た際、この時のオーディオの基本周波数、所謂ピッチを
抽出するオーディオピッチ抽出装置、及び、抽出された
ピッチに基いてオーディオデータのつなぎ処理やピッチ
変換処理等を施すオーディオピッチ変換装置が必要とな
る。
下、VTRと言う。)やオーディオプレーヤ、或は、カ
ラオケ装置等には、ビデオテープに記録されたデータの
時間の長さに較べて、再生の時間の長さを変化させて再
生するプログラムプレイ機能を備えているものがある。
このプログラムプレイ機能によって、再生速度を速くし
たり、或は、遅くしたりする(以下、プログラムプレイ
と言う。)ことができる。このプログラムプレイを行っ
た際、この時のオーディオの基本周波数、所謂ピッチを
抽出するオーディオピッチ抽出装置、及び、抽出された
ピッチに基いてオーディオデータのつなぎ処理やピッチ
変換処理等を施すオーディオピッチ変換装置が必要とな
る。
【0003】上記オーディオピッチ変換装置は、再生速
度を速くした場合は、あるデジタルオーディオ区間(以
下、オーディオ区間と言う。)に記録されているデジタ
ルオーディオデータ(以下、オーディオデータと言
う。)を抜き取り、また、再生速度を遅くした場合は、
あるオーディオ区間に記録されているオーディオデータ
を繰り返すことによりオーディオの継続時間長の制御を
行う。これにより、再生音の音の高さが変化することな
く、再生速度に応じてオーディオデータが再生される。
度を速くした場合は、あるデジタルオーディオ区間(以
下、オーディオ区間と言う。)に記録されているデジタ
ルオーディオデータ(以下、オーディオデータと言
う。)を抜き取り、また、再生速度を遅くした場合は、
あるオーディオ区間に記録されているオーディオデータ
を繰り返すことによりオーディオの継続時間長の制御を
行う。これにより、再生音の音の高さが変化することな
く、再生速度に応じてオーディオデータが再生される。
【0004】上述のように、オーディオデータを抜き取
る、或は、繰り返すオーディオ区間の長さの決定方法は
幾つか存在するが、安価なカラオケ装置等におけるオー
ディオの継続時間長の制御においては、固定の区間長を
用いている。また、高品質な音声が必要とされるデジタ
ルビデオテープレコーダーやデジタルオーディオプレー
ヤ等におけるオーディオの継続時間長の制御において
は、オーディオデータの分析区間毎の音の高さ、即ち、
オーディオのピッチにより決定される区間長を用いてい
る。
る、或は、繰り返すオーディオ区間の長さの決定方法は
幾つか存在するが、安価なカラオケ装置等におけるオー
ディオの継続時間長の制御においては、固定の区間長を
用いている。また、高品質な音声が必要とされるデジタ
ルビデオテープレコーダーやデジタルオーディオプレー
ヤ等におけるオーディオの継続時間長の制御において
は、オーディオデータの分析区間毎の音の高さ、即ち、
オーディオのピッチにより決定される区間長を用いてい
る。
【0005】
【発明が解決しようとする課題】ここで、上記オーディ
オのピッチを抽出する装置であるオーディオピッチ抽出
装置では、一般に、オーディオデータの自己相関関数を
算出し、そのピークを検出しその時の相関ラグをピッチ
とする自己相関法を用いる。この場合、自己相関関数の
計算に積和演算が必要であり、その演算量は膨大なもの
であった。
オのピッチを抽出する装置であるオーディオピッチ抽出
装置では、一般に、オーディオデータの自己相関関数を
算出し、そのピークを検出しその時の相関ラグをピッチ
とする自己相関法を用いる。この場合、自己相関関数の
計算に積和演算が必要であり、その演算量は膨大なもの
であった。
【0006】具体的に説明すると、標本化された時系列
をx(n)(n:整数)で表すと、その自己相関関数φ
(l)は、第1式に表す積和演算で定義される。
をx(n)(n:整数)で表すと、その自己相関関数φ
(l)は、第1式に表す積和演算で定義される。
【0007】
【数3】
【0008】ここで、Nはピッチの分析区間の標本数で
あり、lは相関ラグである。上記相関ラグlの値を変化
させて次の相関ラグlに対する自己相関値φ(l)を求
める。上記相関ラグlの値の範囲は、l=0,1,2,
・・・,N−1である。即ち、相関ラグlの変化幅を1
とし、また、その変化値の範囲を0〜N−1とする。従
って、積和の演算回数は、N2回となる。
あり、lは相関ラグである。上記相関ラグlの値を変化
させて次の相関ラグlに対する自己相関値φ(l)を求
める。上記相関ラグlの値の範囲は、l=0,1,2,
・・・,N−1である。即ち、相関ラグlの変化幅を1
とし、また、その変化値の範囲を0〜N−1とする。従
って、積和の演算回数は、N2回となる。
【0009】例えば、ピッチの分析区間の標本数Nを5
12とすると、自己相関値φ(l)を算出するためには
約26万回の積和演算が必要である。この演算量は、オ
ーディオデータのサンプリング周波数fsとすると、2
56×fsのシステムクロック(約12MHz)で演算
できたとしても、1024サンプル分の演算時間が必要
となる。また、上述のようにして標本数Nの512のデ
ータをリアルタイムで演算するためには、2個の積和回
路が必要となり、回路規模を小さくすることができなか
った。
12とすると、自己相関値φ(l)を算出するためには
約26万回の積和演算が必要である。この演算量は、オ
ーディオデータのサンプリング周波数fsとすると、2
56×fsのシステムクロック(約12MHz)で演算
できたとしても、1024サンプル分の演算時間が必要
となる。また、上述のようにして標本数Nの512のデ
ータをリアルタイムで演算するためには、2個の積和回
路が必要となり、回路規模を小さくすることができなか
った。
【0010】また、オーディオピッチ変換装置にて、上
述のようにしてオーディオ抽出装置で求められたピッチ
により決定されたオーディオ区間のオーディオデータを
抜き取る、或は、繰り返す際に、データをつなぐ位置の
信号エネルギーの絶対値が大きい位置でつなぎ処理が行
われることがあった。即ち、データのつなぎ処理と、そ
のデータをつなぐ位置の信号エネルギーの値の関係が明
白でないため、データをつなぐ位置の信号エネルギーの
絶対値が大きい位置でつなぎ処理が行われた場合、つな
がれる信号エネルギーの値が大きくなり、この部分でノ
イズが発生し音の品質を低下させる原因となっていた。
述のようにしてオーディオ抽出装置で求められたピッチ
により決定されたオーディオ区間のオーディオデータを
抜き取る、或は、繰り返す際に、データをつなぐ位置の
信号エネルギーの絶対値が大きい位置でつなぎ処理が行
われることがあった。即ち、データのつなぎ処理と、そ
のデータをつなぐ位置の信号エネルギーの値の関係が明
白でないため、データをつなぐ位置の信号エネルギーの
絶対値が大きい位置でつなぎ処理が行われた場合、つな
がれる信号エネルギーの値が大きくなり、この部分でノ
イズが発生し音の品質を低下させる原因となっていた。
【0011】そこで、本発明は、上述の如き従来の実情
に鑑みてなされたものであり、次のような目的を有する
ものである。
に鑑みてなされたものであり、次のような目的を有する
ものである。
【0012】即ち、本発明の目的は、相関ラグを荒くし
て自己相関を計算することにより、自己相関の積和演算
量を低減でき、従来以下の回路規模で構成することがで
きるオーディオピッチ抽出装置及びオーディオ処理装置
を提供することにある。
て自己相関を計算することにより、自己相関の積和演算
量を低減でき、従来以下の回路規模で構成することがで
きるオーディオピッチ抽出装置及びオーディオ処理装置
を提供することにある。
【0013】また、本発明の目的は、ピッチの存在しや
すい範囲にピッチ探索範囲を限定することにより、自己
相関を計算する際の演算量をさらに低減できるオーディ
オピッチ抽出装置及びオーディオ処理装置を提供するこ
とにある。
すい範囲にピッチ探索範囲を限定することにより、自己
相関を計算する際の演算量をさらに低減できるオーディ
オピッチ抽出装置及びオーディオ処理装置を提供するこ
とにある。
【0014】また、本発明の目的は、ピッチ開始点とピ
ッチ終了点の位置情報に基いてオーディオデータのつな
ぎ処理を行うことにより、高品質な音を提供することが
できるオーディオピッチ抽出装置及びオーディオ処理装
置を提供することにある。
ッチ終了点の位置情報に基いてオーディオデータのつな
ぎ処理を行うことにより、高品質な音を提供することが
できるオーディオピッチ抽出装置及びオーディオ処理装
置を提供することにある。
【0015】
【課題を解決するための手段】上述の課題を解決するた
めに、本発明に係るオーディオピッチ抽出装置は、標本
化された時系列をx(n)(nは整数)とした分析区間
の標本数Nのオーディオデータについて、変化幅を2以
上の整数Lとした相関ラグl=mL(mは整数)を持っ
て、
めに、本発明に係るオーディオピッチ抽出装置は、標本
化された時系列をx(n)(nは整数)とした分析区間
の標本数Nのオーディオデータについて、変化幅を2以
上の整数Lとした相関ラグl=mL(mは整数)を持っ
て、
【0016】
【数4】
【0017】なる第2式の積和演算をM=N/L回繰り
返し、上記相関ラグlに対する自己相関値φ(l)を算
出する自己相関値算出手段と、上記自己相関値算出手段
により算出された自己相関値φ(l)と相関ラグlか
ら、最大ピーク検出により上記分析区間のオーディオデ
ータの仮ピッチ周期を検出する仮ピッチ検出手段と、上
記仮ピッチ検出手段により検出された仮ピッチ周期に基
いて、上記分析区間のオーディオデータのゼロクロスサ
ーチによりピッチ開始点及びピッチ終了点を検出するピ
ッチ検出手段とを有することを特徴とする。
返し、上記相関ラグlに対する自己相関値φ(l)を算
出する自己相関値算出手段と、上記自己相関値算出手段
により算出された自己相関値φ(l)と相関ラグlか
ら、最大ピーク検出により上記分析区間のオーディオデ
ータの仮ピッチ周期を検出する仮ピッチ検出手段と、上
記仮ピッチ検出手段により検出された仮ピッチ周期に基
いて、上記分析区間のオーディオデータのゼロクロスサ
ーチによりピッチ開始点及びピッチ終了点を検出するピ
ッチ検出手段とを有することを特徴とする。
【0018】また、本発明に係るオーディオピッチ抽出
装置は、上記自己相関値算出手段は、分析区間の標本数
Nのオーディオデータについて、相関ラグlの変化範囲
を限定し、統計的にピッチが存在する確率の高い範囲を
探索範囲とした自己相関値φ(l)を算出することを特
徴とする。
装置は、上記自己相関値算出手段は、分析区間の標本数
Nのオーディオデータについて、相関ラグlの変化範囲
を限定し、統計的にピッチが存在する確率の高い範囲を
探索範囲とした自己相関値φ(l)を算出することを特
徴とする。
【0019】本発明に係るオーディオ処理装置は、標本
化された時系列をx(n)(nは整数)としたオーディ
オデータを記憶している記憶手段と、上記記憶手段に記
憶された分析区間の標本数Nのオーディオデータについ
て、変化幅を2以上の整数Lとした相関ラグl=mL
(mは整数)を持って、上記第2式の積和演算をM=N
/L回繰り返すことにより算出される上記相関ラグlか
ら、最大ピーク検出により検出される上記分析区間のオ
ーディオデータの仮ピッチ周期に基いて、上記分析区間
のオーディオデータのゼロクロスサーチによりピッチ開
始点及びピッチ終了点を検出するオーディオピッチ抽出
手段と、上記オーディオピッチ抽出手段により抽出され
たピッチ情報に基いて、上記記憶手段から読み出される
分析区間の標本数Nのオーディオデータにつなぎ処理を
施すつなぎ換手段とを有することを特徴とする。
化された時系列をx(n)(nは整数)としたオーディ
オデータを記憶している記憶手段と、上記記憶手段に記
憶された分析区間の標本数Nのオーディオデータについ
て、変化幅を2以上の整数Lとした相関ラグl=mL
(mは整数)を持って、上記第2式の積和演算をM=N
/L回繰り返すことにより算出される上記相関ラグlか
ら、最大ピーク検出により検出される上記分析区間のオ
ーディオデータの仮ピッチ周期に基いて、上記分析区間
のオーディオデータのゼロクロスサーチによりピッチ開
始点及びピッチ終了点を検出するオーディオピッチ抽出
手段と、上記オーディオピッチ抽出手段により抽出され
たピッチ情報に基いて、上記記憶手段から読み出される
分析区間の標本数Nのオーディオデータにつなぎ処理を
施すつなぎ換手段とを有することを特徴とする。
【0020】また、本発明に係るオーディオ処理装置
は、上記オーディオピッチ抽出手段は、分析区間の標本
数Nのオーディオデータについて、相関ラグlの変化範
囲を限定し、統計的にピッチが存在する確率の高い範囲
を探索範囲とした自己相関値φ(l)を算出することを
特徴とする。
は、上記オーディオピッチ抽出手段は、分析区間の標本
数Nのオーディオデータについて、相関ラグlの変化範
囲を限定し、統計的にピッチが存在する確率の高い範囲
を探索範囲とした自己相関値φ(l)を算出することを
特徴とする。
【0021】
【作用】本発明に係るオーディオピッチ抽出装置では、
自己相関値算出手段は、標本化された時系列をx(n)
(nは整数)とした分析区間の標本数Nのオーディオデ
ータについて、変化幅を2以上の整数Lとした層間ラグ
l=mL(mは整数)を持って、上記第2式の積和演算
をM=N/L回繰り返し、上記相関ラグlに対する自己
相関値φ(l)を算出する。仮ピッチ検出手段は、上記
自己相関値算出手段により算出された自己相関値φ
(l)と相関ラグlから、最大ピーク検出により上記分
析区間のオーディオデータの仮ピッチ周期を検出する。
ピッチ検出手段は、上記仮ピッチ検出手段により検出さ
れた仮ピッチ周期に基いて、上記分析区間のオーディオ
データのゼロクロスサーチによりピッチ開始点及びピッ
チ終了点を検出する。
自己相関値算出手段は、標本化された時系列をx(n)
(nは整数)とした分析区間の標本数Nのオーディオデ
ータについて、変化幅を2以上の整数Lとした層間ラグ
l=mL(mは整数)を持って、上記第2式の積和演算
をM=N/L回繰り返し、上記相関ラグlに対する自己
相関値φ(l)を算出する。仮ピッチ検出手段は、上記
自己相関値算出手段により算出された自己相関値φ
(l)と相関ラグlから、最大ピーク検出により上記分
析区間のオーディオデータの仮ピッチ周期を検出する。
ピッチ検出手段は、上記仮ピッチ検出手段により検出さ
れた仮ピッチ周期に基いて、上記分析区間のオーディオ
データのゼロクロスサーチによりピッチ開始点及びピッ
チ終了点を検出する。
【0022】また、本発明に係るオーディオピッチ抽出
装置では、上記自己相関値算出手段は、分析区間の標本
数Nのオーディオデータについて、相関ラグlの変化範
囲を限定し、統計的にピッチが存在する確率の高い範囲
を探索範囲とした自己相関値φ(l)を算出する。
装置では、上記自己相関値算出手段は、分析区間の標本
数Nのオーディオデータについて、相関ラグlの変化範
囲を限定し、統計的にピッチが存在する確率の高い範囲
を探索範囲とした自己相関値φ(l)を算出する。
【0023】本発明に係るオーディオ処理装置では、記
憶手段は、標本化された時系列をx(n)(nは整数)
としたオーディオデータを記憶する。オーディオピッチ
抽出手段は、上記記憶手段に記憶された分析区間の標本
数Nのオーディオデータについて、変化幅を2以上の整
数Lとした相関ラグl=mL(mは整数)を持って、上
記第2式の積和演算をM=N/L回繰り返すことにより
算出される上記相関ラグlから、最大ピーク検出により
検出される上記分析区間のオーディオデータの仮ピッチ
周期に基いて、上記分析区間のオーディオデータのゼロ
クロスサーチによりピッチ開始点及びピッチ終了点を検
出する。つなぎ処理手段は、上記オーディオピッチ抽出
手段により抽出されたピッチ情報に基いて、上記記憶手
段から読み出される分析区間の標本数Nのオーディオデ
ータにつなぎ処理を施す。
憶手段は、標本化された時系列をx(n)(nは整数)
としたオーディオデータを記憶する。オーディオピッチ
抽出手段は、上記記憶手段に記憶された分析区間の標本
数Nのオーディオデータについて、変化幅を2以上の整
数Lとした相関ラグl=mL(mは整数)を持って、上
記第2式の積和演算をM=N/L回繰り返すことにより
算出される上記相関ラグlから、最大ピーク検出により
検出される上記分析区間のオーディオデータの仮ピッチ
周期に基いて、上記分析区間のオーディオデータのゼロ
クロスサーチによりピッチ開始点及びピッチ終了点を検
出する。つなぎ処理手段は、上記オーディオピッチ抽出
手段により抽出されたピッチ情報に基いて、上記記憶手
段から読み出される分析区間の標本数Nのオーディオデ
ータにつなぎ処理を施す。
【0024】また、本発明に係るオーディオ処理装置で
は、上記オーディオピッチ抽出手段は、分析区間の標本
数Nのオーディオデータについて、相関ラグlの変化範
囲を限定し、統計的にピッチが存在する確率の高い範囲
を探索範囲とした自己相関値φ(l)を算出する。
は、上記オーディオピッチ抽出手段は、分析区間の標本
数Nのオーディオデータについて、相関ラグlの変化範
囲を限定し、統計的にピッチが存在する確率の高い範囲
を探索範囲とした自己相関値φ(l)を算出する。
【0025】
【実施例】以下、本発明の一実施例について図面を参照
しながら説明する。
しながら説明する。
【0026】図1に示す本発明の実施例に係るオーディ
オピッチ抽出装置1は、相関ラグlに対する自己相関値
φ(l)を算出する自己相関値算出手段である積和回路
11と、上記積和回路1からの自己相関値φ(l)と相
関ラグlから最大ピーク検出により仮ピッチ周期を検出
する仮ピッチ検出手段である最大ピーク検出回路12
と、上記最大ピーク検出回路2からの仮ピッチ周期に基
いてピッチ開始点及びピッチ終了点を検出するピッチ検
出手段であるゼロクロスサーチ部13とで構成されてい
る。
オピッチ抽出装置1は、相関ラグlに対する自己相関値
φ(l)を算出する自己相関値算出手段である積和回路
11と、上記積和回路1からの自己相関値φ(l)と相
関ラグlから最大ピーク検出により仮ピッチ周期を検出
する仮ピッチ検出手段である最大ピーク検出回路12
と、上記最大ピーク検出回路2からの仮ピッチ周期に基
いてピッチ開始点及びピッチ終了点を検出するピッチ検
出手段であるゼロクロスサーチ部13とで構成されてい
る。
【0027】また、上記オーディオピッチ抽出装置1に
は、例えば、標本化された時系列をx(n)(n:整
数)としたオーディオデータが格納されているメモリ2
と、上記メモリ2をアクセスする際のメモリアドレスを
算出するアドレスカウンタ3とが備えられている。この
アドレスカウンタ3には、ピッチ分析のタイミングパル
スが供給されており、そのパルスに基いて上記メモリ2
をアクセスする際のメモリアドレスを算出するものであ
る。
は、例えば、標本化された時系列をx(n)(n:整
数)としたオーディオデータが格納されているメモリ2
と、上記メモリ2をアクセスする際のメモリアドレスを
算出するアドレスカウンタ3とが備えられている。この
アドレスカウンタ3には、ピッチ分析のタイミングパル
スが供給されており、そのパルスに基いて上記メモリ2
をアクセスする際のメモリアドレスを算出するものであ
る。
【0028】上記積和回路11は、標本化された時系列
をx(n)(n:整数)としたピッチ分析区間の標本数
Nのオーディオデータについて、上記第2式に示す積和
演算を繰り返し相関ラグlに対する自己相関値φ(l)
を算出する回路である。
をx(n)(n:整数)としたピッチ分析区間の標本数
Nのオーディオデータについて、上記第2式に示す積和
演算を繰り返し相関ラグlに対する自己相関値φ(l)
を算出する回路である。
【0029】ここで、上記第2式に示す積和演算の際の
変化幅Lは2以上の整数であり、上記相関ラグlは、l
=mL(m:整数)で表される。そして、上記積和回路
11は、上記相関ラグlを持って、上記第2式に示す積
和演算をM=N/L回繰り返し、上記相関ラグlに対す
る自己相関値φ(l)を算出する。
変化幅Lは2以上の整数であり、上記相関ラグlは、l
=mL(m:整数)で表される。そして、上記積和回路
11は、上記相関ラグlを持って、上記第2式に示す積
和演算をM=N/L回繰り返し、上記相関ラグlに対す
る自己相関値φ(l)を算出する。
【0030】また、上記積和回路11は、上記相関ラグ
lの変化範囲を限定し、統計的にピッチが存在する確率
の高い範囲を探索範囲として自己相関値φ(l)を算出
する回路である。
lの変化範囲を限定し、統計的にピッチが存在する確率
の高い範囲を探索範囲として自己相関値φ(l)を算出
する回路である。
【0031】上記探索範囲は、音声・音響信号の統計的
性質に基いてピッチが存在する確率の高い範囲とした。
この音声・音響信号の統計的性質を具体的に説明する
と、図2に示すように、0〜9kHzを12帯域に分け
た帯域フィルタを用いて、音声の周波数スペクトルの長
時間平均を求めた結果によると、ピッチが関連する低い
周波数域を除いて、男女の差や国語による差はほとんど
ない。また、音声スペクトルの平均的な形を表現する場
合、この結果により、0〜800Hzまではほぼ平坦
で、800Hz以上では−10dB/octの傾斜性特
性で近似することができる。この特性は、低い周波数域
を除けばほとんど個人差はないが、さらに細かい周波数
分析手法で求めると個人差があることが確認されてい
る。
性質に基いてピッチが存在する確率の高い範囲とした。
この音声・音響信号の統計的性質を具体的に説明する
と、図2に示すように、0〜9kHzを12帯域に分け
た帯域フィルタを用いて、音声の周波数スペクトルの長
時間平均を求めた結果によると、ピッチが関連する低い
周波数域を除いて、男女の差や国語による差はほとんど
ない。また、音声スペクトルの平均的な形を表現する場
合、この結果により、0〜800Hzまではほぼ平坦
で、800Hz以上では−10dB/octの傾斜性特
性で近似することができる。この特性は、低い周波数域
を除けばほとんど個人差はないが、さらに細かい周波数
分析手法で求めると個人差があることが確認されてい
る。
【0032】また、会話音声中のピッチの時間的変化に
ついては、図3に示すように、発声者ごとの統計的性質
の結果によると、女音は男音に比べて、ピッチの平均
値、標準偏差ともに2倍程度である。さらに、発声者に
よるピッチの分布は、図4に示すように、男音のピッチ
の平均値は125Hzで、標準偏差は20.5Hzであ
り、女音は各々男音の約2倍である。また、ピッチの時
間的推移分布は、上昇が約18%、下降が約50%であ
り、文章を発声した時のピッチの時間変化特性は、ほぼ
「へ」の字で近似することができる。ピッチの時間的変
動速度は比較的ゆっくりしており、無音区間などもなめ
らかに結んだ変動パターンについての周波数分析の結
果、変動周波数は10Hz以下となる。
ついては、図3に示すように、発声者ごとの統計的性質
の結果によると、女音は男音に比べて、ピッチの平均
値、標準偏差ともに2倍程度である。さらに、発声者に
よるピッチの分布は、図4に示すように、男音のピッチ
の平均値は125Hzで、標準偏差は20.5Hzであ
り、女音は各々男音の約2倍である。また、ピッチの時
間的推移分布は、上昇が約18%、下降が約50%であ
り、文章を発声した時のピッチの時間変化特性は、ほぼ
「へ」の字で近似することができる。ピッチの時間的変
動速度は比較的ゆっくりしており、無音区間などもなめ
らかに結んだ変動パターンについての周波数分析の結
果、変動周波数は10Hz以下となる。
【0033】さらに、情報の伝達のために発生された音
声信号は、その調音様式や調音点などに対応する音響音
声学的な物理的特徴を有する。その音声の音響的特性を
決める物理的要因は、音源の特性、音道の共鳴特性及び
口唇ないし鼻孔からの音波の放射特性である。出力音声
のスペクトルには、声道の共鳴に対応したいくつかの山
があり(以下、ホルマントと言う。)、例えば、図5に
示すように、母音のホルマントや、子音のホルマント等
の大よその領域がわかる。また、声道内における音波の
伝搬は、最大声道断面積が10cm2程度であるため、
等価半径は1.8cm以下、λ/4≧1.8cmとなる
音波の周波数fはf=c/λ(c:音速)であるので、
これより、f≦4.8kHzである。従って、4kHz
以下の周波数においては、声道内音波は平面波と見なし
てよい。
声信号は、その調音様式や調音点などに対応する音響音
声学的な物理的特徴を有する。その音声の音響的特性を
決める物理的要因は、音源の特性、音道の共鳴特性及び
口唇ないし鼻孔からの音波の放射特性である。出力音声
のスペクトルには、声道の共鳴に対応したいくつかの山
があり(以下、ホルマントと言う。)、例えば、図5に
示すように、母音のホルマントや、子音のホルマント等
の大よその領域がわかる。また、声道内における音波の
伝搬は、最大声道断面積が10cm2程度であるため、
等価半径は1.8cm以下、λ/4≧1.8cmとなる
音波の周波数fはf=c/λ(c:音速)であるので、
これより、f≦4.8kHzである。従って、4kHz
以下の周波数においては、声道内音波は平面波と見なし
てよい。
【0034】上述のような、音声・音響信号の統計的性
質により、上記積和回路11は、あまりに高い、或は、
あまりに低いピッチを示す相関ラグlの値の範囲は探索
範囲から除外し、有効なピッチの存在する範囲に限定し
た。即ち、本実施例においては、例えば、相関ラグlの
値の変化の範囲を56〜752とし、変化幅を4とし
た。これは、ピッチが存在する確率の高い範囲が63.
8Hz〜857Hz、変化幅が12kHzに相当するも
のである。
質により、上記積和回路11は、あまりに高い、或は、
あまりに低いピッチを示す相関ラグlの値の範囲は探索
範囲から除外し、有効なピッチの存在する範囲に限定し
た。即ち、本実施例においては、例えば、相関ラグlの
値の変化の範囲を56〜752とし、変化幅を4とし
た。これは、ピッチが存在する確率の高い範囲が63.
8Hz〜857Hz、変化幅が12kHzに相当するも
のである。
【0035】上記最大ピーク検出回路12は、上記積和
回路11により算出された自己相関値φ(l)と相関ラ
グlから、最大ピークを検出し、ピッチ分析区間のオー
ディオデータの仮ピッチ周期を検出するものである。
回路11により算出された自己相関値φ(l)と相関ラ
グlから、最大ピークを検出し、ピッチ分析区間のオー
ディオデータの仮ピッチ周期を検出するものである。
【0036】上記ゼロクロスサーチ部13は、上記最大
ピーク検出回路12からの仮ピッチ周期を用いて、より
精密なピッチを求め、同時にピッチ区間の開始点、及
び、終了点を求める処理を行う。
ピーク検出回路12からの仮ピッチ周期を用いて、より
精密なピッチを求め、同時にピッチ区間の開始点、及
び、終了点を求める処理を行う。
【0037】このゼロクロスサーチ部13のゼロクロス
サーチの様子を具体的に説明すると、例えば、図6に示
すように、ピッチ分析のタイミングパルスWPをトリガ
としてピッチの探索を始める。まず、ピッチ分析区間t
1のオーディオデータを順に探索し、オーディオデータ
の値が負から正に変わる点の負側の位置、所謂ゼロクロ
ス点Zo1をピッチ開始点Po1として出力する。そし
て、上記ピッチ開始点Po1から上記最大ピーク検出回
路12により求められた仮ピッチ幅X1だけデータを進
めた点Px1を基準にして、その位置Px1前後数サン
プル、例えば、前後7サンプルの範囲(以下、ピッチ終
了点探索範囲と言う。)Y1で再びゼロクロス点Ze1
を探索する。このゼロクロス点Ze1を検出することが
できれば、このゼロクロス点Ze1をピッチ終了点Pe
1として出力する。さらに、上記ピッチ終了点Pe1の
出力と同時に、ピッチ開始点Po1からピッチ終了点P
e1までの長さを、精密化されたピッチP1として出力
する。
サーチの様子を具体的に説明すると、例えば、図6に示
すように、ピッチ分析のタイミングパルスWPをトリガ
としてピッチの探索を始める。まず、ピッチ分析区間t
1のオーディオデータを順に探索し、オーディオデータ
の値が負から正に変わる点の負側の位置、所謂ゼロクロ
ス点Zo1をピッチ開始点Po1として出力する。そし
て、上記ピッチ開始点Po1から上記最大ピーク検出回
路12により求められた仮ピッチ幅X1だけデータを進
めた点Px1を基準にして、その位置Px1前後数サン
プル、例えば、前後7サンプルの範囲(以下、ピッチ終
了点探索範囲と言う。)Y1で再びゼロクロス点Ze1
を探索する。このゼロクロス点Ze1を検出することが
できれば、このゼロクロス点Ze1をピッチ終了点Pe
1として出力する。さらに、上記ピッチ終了点Pe1の
出力と同時に、ピッチ開始点Po1からピッチ終了点P
e1までの長さを、精密化されたピッチP1として出力
する。
【0038】この時、ピッチ分析区間t2のように、ピ
ッチ終了点探索範囲Y2でゼロクロス点Ze2を検出す
ることができなかった場合、ピッチ開始点Po2から仮
ピッチ幅X2だけデータを進めた点Px2をピッチ終了
点Pe2とし、仮ピッチをそのままピッチP2として出
力する。
ッチ終了点探索範囲Y2でゼロクロス点Ze2を検出す
ることができなかった場合、ピッチ開始点Po2から仮
ピッチ幅X2だけデータを進めた点Px2をピッチ終了
点Pe2とし、仮ピッチをそのままピッチP2として出
力する。
【0039】ここで、上述の図2を用いての説明では、
ピッチ終了点探索範囲を7サンプルとしたが、本実施例
においては20サンプルとした。
ピッチ終了点探索範囲を7サンプルとしたが、本実施例
においては20サンプルとした。
【0040】次に、上述のような構成をした上記オーデ
ィオピッチ抽出装置1の動作を説明する。
ィオピッチ抽出装置1の動作を説明する。
【0041】積和回路11は、アドレスカウンタ3から
のアドレス情報に従ってメモリ2からピッチ分析区間の
標本数Nのオーディオデータを読み出すと共に、相関ラ
グlだけずれた位相を持つピッチ分析区間の標本数Nの
オーディオデータも同時に上記メモリ2から読み出す。
のアドレス情報に従ってメモリ2からピッチ分析区間の
標本数Nのオーディオデータを読み出すと共に、相関ラ
グlだけずれた位相を持つピッチ分析区間の標本数Nの
オーディオデータも同時に上記メモリ2から読み出す。
【0042】このようにして読み出した上記オーディオ
データを、ピッチ分析区間の標本数Nだけ上記第2式に
表した式に従った積和演算を繰り返し、相関ラグ1に対
する自己関数値φ(l)を求め、これを最大ピーク検出
回路12に供給する。この時、上述のように、上記積和
演算の際の相関ラグlの値の変化幅は、2以上とし、ま
た、その値の変化の範囲は、有効なピッチの存在する範
囲に限定して自己関数値φ(l)を求める。
データを、ピッチ分析区間の標本数Nだけ上記第2式に
表した式に従った積和演算を繰り返し、相関ラグ1に対
する自己関数値φ(l)を求め、これを最大ピーク検出
回路12に供給する。この時、上述のように、上記積和
演算の際の相関ラグlの値の変化幅は、2以上とし、ま
た、その値の変化の範囲は、有効なピッチの存在する範
囲に限定して自己関数値φ(l)を求める。
【0043】上記最大ピーク検出回路12は、上記積和
回路11からの自己関数値φ(l)を基に仮ピッチ周期
を検出し、この仮ピッチ周期をゼロクロスサーチ部13
に供給する。
回路11からの自己関数値φ(l)を基に仮ピッチ周期
を検出し、この仮ピッチ周期をゼロクロスサーチ部13
に供給する。
【0044】上記ゼロクロスサーチ部13は、上記最大
ピーク検出回路12からの仮ピッチ周期を用いて、ピッ
チを求め、同時に上記ピッチ区間の開始点、及び、終了
点を求め、各々出力する。
ピーク検出回路12からの仮ピッチ周期を用いて、ピッ
チを求め、同時に上記ピッチ区間の開始点、及び、終了
点を求め、各々出力する。
【0045】従って、上記オーディオピッチ抽出装置で
は、ゼロクロスサーチによりピッチの開始点、及び、ピ
ッチの終了点も検出するため、後述するオーディオピッ
チ変換装置全体として考えた場合、上記ピッチオーディ
オ抽出装置からのピッチの位置情報を基に、ピッチ抽出
処理の後段部にあたるオーディオデータのつなぎ処理部
において出力オーディオ信号の高品質化を図ることがで
きる。即ち、ゼロレベルの信号エネルギーの小さい位置
でオーディオデータのつなぎ処理ができるようになり、
特に大きなノイズを発生することなくオーディオのつな
ぎ処理ができる。
は、ゼロクロスサーチによりピッチの開始点、及び、ピ
ッチの終了点も検出するため、後述するオーディオピッ
チ変換装置全体として考えた場合、上記ピッチオーディ
オ抽出装置からのピッチの位置情報を基に、ピッチ抽出
処理の後段部にあたるオーディオデータのつなぎ処理部
において出力オーディオ信号の高品質化を図ることがで
きる。即ち、ゼロレベルの信号エネルギーの小さい位置
でオーディオデータのつなぎ処理ができるようになり、
特に大きなノイズを発生することなくオーディオのつな
ぎ処理ができる。
【0046】また、上記オーディオピッチ抽出装置で
は、自己相関値φ(l)を求める際の積和演算処理にお
いて、上述のように相関ラグlの値の変化幅を荒くした
ことにより、自己相関の積和演算量を低減でき、従来以
下の回路規模でオーディオピッチ抽出装置を構成するこ
とができる。
は、自己相関値φ(l)を求める際の積和演算処理にお
いて、上述のように相関ラグlの値の変化幅を荒くした
ことにより、自己相関の積和演算量を低減でき、従来以
下の回路規模でオーディオピッチ抽出装置を構成するこ
とができる。
【0047】また、上記オーディオピッチ抽出装置で
は、自己相関値φ(l)を求める際の積和演算処理にお
いて、相関ラグlの値の変化範囲を有効なピッチが存在
する範囲に限定したため、積和演算量をさらに低減する
ことができる。
は、自己相関値φ(l)を求める際の積和演算処理にお
いて、相関ラグlの値の変化範囲を有効なピッチが存在
する範囲に限定したため、積和演算量をさらに低減する
ことができる。
【0048】上記積和演算量について、具体的に説明す
ると、例えば、ピッチ分析区間が1024であった場
合、従来の自己相関関数の算出法であれば、相関ラグl
の範囲は、l=0,1,2,・・・,1022,102
3であり、それに応じた積和演算回数は、104857
6回であった。これに対して、相関ラグlの値の変化幅
L=4とし、相関ラグlの範囲を100〜500とした
場合、即ち、l=100,104,108,・・・,4
92,496,500であり、それに応じた積和演算回
数は、103424回となり従来の積和演算回数と比べ
て約10分の1に積和演算量を低減することができる。
ると、例えば、ピッチ分析区間が1024であった場
合、従来の自己相関関数の算出法であれば、相関ラグl
の範囲は、l=0,1,2,・・・,1022,102
3であり、それに応じた積和演算回数は、104857
6回であった。これに対して、相関ラグlの値の変化幅
L=4とし、相関ラグlの範囲を100〜500とした
場合、即ち、l=100,104,108,・・・,4
92,496,500であり、それに応じた積和演算回
数は、103424回となり従来の積和演算回数と比べ
て約10分の1に積和演算量を低減することができる。
【0049】次に、本発明の実施例に係るオーディオ処
理装置の説明をする。
理装置の説明をする。
【0050】図7に示す実施例は、オーディオピッチ変
換装置の本発明を適用したものであり、標本化された時
系列をx(n)(n:整数)としたオーディオデータを
記憶している記憶手段10と、上記記憶手段10に記憶
されたオーディオデータの分析区間のピッチ情報を抽出
するピッチ抽出手段であるオーディオピッチ抽出装置2
0と、上記オーディオピッチ抽出装置20により抽出さ
れたピッチ情報に基いて上記記憶手段10から読み出さ
れる分析区間の標本数Nのオーディオデータにつなぎ処
理を施すオーディオつなぎ処理部30とで構成されてい
る。
換装置の本発明を適用したものであり、標本化された時
系列をx(n)(n:整数)としたオーディオデータを
記憶している記憶手段10と、上記記憶手段10に記憶
されたオーディオデータの分析区間のピッチ情報を抽出
するピッチ抽出手段であるオーディオピッチ抽出装置2
0と、上記オーディオピッチ抽出装置20により抽出さ
れたピッチ情報に基いて上記記憶手段10から読み出さ
れる分析区間の標本数Nのオーディオデータにつなぎ処
理を施すオーディオつなぎ処理部30とで構成されてい
る。
【0051】また、上記記憶手段10は、例えば、標本
化された時系列をx(n)(n:整数)としたオーディ
オデータを記憶しているメモリ101と、上記メモリ1
01のアドレスをコントロールするための位相管理部1
02とで構成されている。
化された時系列をx(n)(n:整数)としたオーディ
オデータを記憶しているメモリ101と、上記メモリ1
01のアドレスをコントロールするための位相管理部1
02とで構成されている。
【0052】上記オーディオピッチ抽出装置20は、例
えば、上述したオーディオピッチ抽出装置1を用いてお
り、上記メモリ10に記憶された分析区間の標本数Nの
オーディオデータについて、上記第2式に示す積和演算
を繰り返すことにより相関ラグlから、最大ピーク検出
により検出される上記分析区間のオーディオデータの仮
ピッチ周期に基いて、上記分析区間のオーディオデータ
のゼロクロスサーチによりピッチ及びピッチ開始点及び
ピッチ終了点を検出するものである。
えば、上述したオーディオピッチ抽出装置1を用いてお
り、上記メモリ10に記憶された分析区間の標本数Nの
オーディオデータについて、上記第2式に示す積和演算
を繰り返すことにより相関ラグlから、最大ピーク検出
により検出される上記分析区間のオーディオデータの仮
ピッチ周期に基いて、上記分析区間のオーディオデータ
のゼロクロスサーチによりピッチ及びピッチ開始点及び
ピッチ終了点を検出するものである。
【0053】ここで、上記オーディオピッチ抽出装置2
0における上記積和演算は、変化幅を2以上の整数Lと
した相関ラグl=mL(mは整数)を持って、上記第2
式に示す積和演算をM=N/L回繰り返す。
0における上記積和演算は、変化幅を2以上の整数Lと
した相関ラグl=mL(mは整数)を持って、上記第2
式に示す積和演算をM=N/L回繰り返す。
【0054】また、上記オーディオピッチ抽出装置20
は分析区間の標本数Nのオーディオデータについて、相
関ラグlの変化範囲を限定し、統計的にピッチが存在す
る確率の高い範囲を探索範囲とした自己相関値φ(l)
を算出するものである。
は分析区間の標本数Nのオーディオデータについて、相
関ラグlの変化範囲を限定し、統計的にピッチが存在す
る確率の高い範囲を探索範囲とした自己相関値φ(l)
を算出するものである。
【0055】上述のような構成をしたオーディオピッチ
変換装置の動作を説明する。
変換装置の動作を説明する。
【0056】まず、上記オーディオピッチ変換装置に入
力されたオーディオデータは、一旦記憶手段10のメモ
リ101に格納される。
力されたオーディオデータは、一旦記憶手段10のメモ
リ101に格納される。
【0057】オーディオピッチ抽出装置20は、上記メ
モリ101に格納されているオーディオデータを遂次読
出しながらピッチを算出し、そのピッチ情報、即ち、ピ
ッチ及びピッチ開始点及びピッチ終了点を位相管理部1
02に供給する。また、上記オーディオピッチ抽出装置
20は、上記ピッチ情報をオーディオつなぎ処理部30
にも供給する。
モリ101に格納されているオーディオデータを遂次読
出しながらピッチを算出し、そのピッチ情報、即ち、ピ
ッチ及びピッチ開始点及びピッチ終了点を位相管理部1
02に供給する。また、上記オーディオピッチ抽出装置
20は、上記ピッチ情報をオーディオつなぎ処理部30
にも供給する。
【0058】位相管理部102は、上記オーディオピッ
チ抽出装置20からのオーディオピッチと上記メモリ1
01のデータの読み込み及び書き込み領域の余裕、及
び、再生の速度から判断を行い、オーディオデータのつ
なぎ処理を行う際のメモリアドレスを算出する。そし
て、そのアドレス情報をオーディオつなぎ処理部30に
供給する。
チ抽出装置20からのオーディオピッチと上記メモリ1
01のデータの読み込み及び書き込み領域の余裕、及
び、再生の速度から判断を行い、オーディオデータのつ
なぎ処理を行う際のメモリアドレスを算出する。そし
て、そのアドレス情報をオーディオつなぎ処理部30に
供給する。
【0059】上記オーディオつなぎ処理部30は、上記
位相管理部102からのアドレス情報に従って、メモリ
101をアクセスし、また、上記オーディオピッチ抽出
装置20からのピッチ情報に基いて、オーディオデータ
が不連続とならないようにオーディオデータのつなぎ処
理を行い出力オーディオ信号を出力する。ここで、上記
オーディオつなぎ処理部30には、例えば、クロスフォ
ードが用いられる。
位相管理部102からのアドレス情報に従って、メモリ
101をアクセスし、また、上記オーディオピッチ抽出
装置20からのピッチ情報に基いて、オーディオデータ
が不連続とならないようにオーディオデータのつなぎ処
理を行い出力オーディオ信号を出力する。ここで、上記
オーディオつなぎ処理部30には、例えば、クロスフォ
ードが用いられる。
【0060】従って、本発明を適用した上記オーディオ
ピッチ変換装置では、上記オーディオピッチ抽出装置2
0において、ゼロクロスサーチによりピッチの開始点、
及び、ピッチの終了点も検出し、このピッチの位置情報
を基に、上記オーディオつなぎ処理部30において、オ
ーディオデータのつなぎ処理を行うため、出力オーディ
オ信号の高品質化を図ることができる。即ち、上記オー
ディオつなぎ処理部30は、ゼロレベルの信号エネルギ
ーの小さい位置でオーディオデータのつなぎ処理ができ
るようになり、従って、特に大きなノイズを発生するこ
となくオーディオのつなぎ処理ができる。
ピッチ変換装置では、上記オーディオピッチ抽出装置2
0において、ゼロクロスサーチによりピッチの開始点、
及び、ピッチの終了点も検出し、このピッチの位置情報
を基に、上記オーディオつなぎ処理部30において、オ
ーディオデータのつなぎ処理を行うため、出力オーディ
オ信号の高品質化を図ることができる。即ち、上記オー
ディオつなぎ処理部30は、ゼロレベルの信号エネルギ
ーの小さい位置でオーディオデータのつなぎ処理ができ
るようになり、従って、特に大きなノイズを発生するこ
となくオーディオのつなぎ処理ができる。
【0061】また、本発明を適用した上記オーディオピ
ッチ変換装置では、上記オーディオピッチ抽出装置20
における自己相関値φ(l)を求める際の積和演算処理
において、上述のように相関ラグlの値の変化幅を荒く
したことにより、自己相関の積和演算量を低減でき、従
来以下の回路規模でオーディオピッチ変換装置を構成す
ることができる。
ッチ変換装置では、上記オーディオピッチ抽出装置20
における自己相関値φ(l)を求める際の積和演算処理
において、上述のように相関ラグlの値の変化幅を荒く
したことにより、自己相関の積和演算量を低減でき、従
来以下の回路規模でオーディオピッチ変換装置を構成す
ることができる。
【0062】また、本発明を適用した上記オーディオピ
ッチ変換装置では、上記オーディオピッチ抽出装置20
における自己相関値φ(l)を求める際の積和演算処理
において、相関ラグlの値の変化範囲を有効なピッチが
存在する範囲に限定したため、積和演算量をさらに低減
することができる。
ッチ変換装置では、上記オーディオピッチ抽出装置20
における自己相関値φ(l)を求める際の積和演算処理
において、相関ラグlの値の変化範囲を有効なピッチが
存在する範囲に限定したため、積和演算量をさらに低減
することができる。
【0063】
【発明の効果】本発明に係るオーディオピッチ抽出装置
では、自己相関値算出手段は、標本化された時系列をx
(n)(nは整数)とした分析区間の標本数Nのオーデ
ィオデータについて、変化幅を2以上の整数Lとした相
関ラグl=mL(mは整数)を持って、上記第2式の積
和演算をM=N/L回繰り返し、上記相関ラグlに対す
る自己相関値φ(l)を算出する。仮ピッチ検出手段
は、上記自己相関値算出手段により算出された自己相関
値φ(l)と相関ラグlから、最大ピーク検出により上
記分析区間のオーディオデータの仮ピッチ周期を検出す
る。ピッチ検出手段は、上記仮ピッチ検出手段により検
出された仮ピッチ周期に基いて、上記分析区間のオーデ
ィオデータのゼロクロスサーチによりピッチ開始点及び
ピッチ終了点を検出する。従って、相関ラグを荒くして
自己相関を計算することにより、自己相関を計算する際
の演算量を低減でき、従来以下の回路規模で構成するこ
とができる。また、ピッチ開始点とピッチ終了点の位置
情報に基いてオーディオデータのつなぎ処理を行うこと
により、高品質な音を提供することができる。
では、自己相関値算出手段は、標本化された時系列をx
(n)(nは整数)とした分析区間の標本数Nのオーデ
ィオデータについて、変化幅を2以上の整数Lとした相
関ラグl=mL(mは整数)を持って、上記第2式の積
和演算をM=N/L回繰り返し、上記相関ラグlに対す
る自己相関値φ(l)を算出する。仮ピッチ検出手段
は、上記自己相関値算出手段により算出された自己相関
値φ(l)と相関ラグlから、最大ピーク検出により上
記分析区間のオーディオデータの仮ピッチ周期を検出す
る。ピッチ検出手段は、上記仮ピッチ検出手段により検
出された仮ピッチ周期に基いて、上記分析区間のオーデ
ィオデータのゼロクロスサーチによりピッチ開始点及び
ピッチ終了点を検出する。従って、相関ラグを荒くして
自己相関を計算することにより、自己相関を計算する際
の演算量を低減でき、従来以下の回路規模で構成するこ
とができる。また、ピッチ開始点とピッチ終了点の位置
情報に基いてオーディオデータのつなぎ処理を行うこと
により、高品質な音を提供することができる。
【0064】また、本発明に係るオーディオピッチ抽出
装置では、上記自己相関値算出手段は、分析区間の標本
数Nのオーディオデータについて、相関ラグlの変化範
囲を限定し、統計的にピッチが存在する確率の高い範囲
を探索範囲とした自己相関値φ(l)を算出する。従っ
て、ピッチの存在しやすい範囲にピッチ探索範囲を限定
することにより、自己相関を計算する際の演算量をさら
に低減できる。
装置では、上記自己相関値算出手段は、分析区間の標本
数Nのオーディオデータについて、相関ラグlの変化範
囲を限定し、統計的にピッチが存在する確率の高い範囲
を探索範囲とした自己相関値φ(l)を算出する。従っ
て、ピッチの存在しやすい範囲にピッチ探索範囲を限定
することにより、自己相関を計算する際の演算量をさら
に低減できる。
【0065】本発明に係るオーディオ処理装置では、記
憶手段は、標本化された時系列をx(n)(nは整数)
としたオーディオデータを記憶する。オーディオピッチ
抽出手段は、上記記憶手段に記憶された分析区間の標本
数Nのオーディオデータについて、変化幅を2以上の整
数Lとした相関ラグl=mL(mは整数)を持って、上
記第2式の積和演算をM=N/L回繰り返すことにより
算出される上記相関ラグlから、最大ピーク検出により
検出される上記分析区間のオーディオデータの仮ピッチ
周期に基いて、上記分析区間のオーディオデータのゼロ
クロスサーチによりピッチ開始点及びピッチ終了点を検
出する。つなぎ処理手段は、上記オーディオピッチ抽出
手段により抽出されたピッチ情報に基いて、上記記憶手
段から読み出される分析区間の標本数Nのオーディオデ
ータにつなぎ処理を施す。従って、相関ラグを荒くして
自己相関を計算することにより、自己相関を計算する際
の演算量を低減でき、従来以下の回路規模で構成するこ
とができる。また、ピッチ開始点とピッチ終了点の位置
情報に基いてオーディオデータのつなぎ処理を行うこと
により、高品質な音を提供することができる。
憶手段は、標本化された時系列をx(n)(nは整数)
としたオーディオデータを記憶する。オーディオピッチ
抽出手段は、上記記憶手段に記憶された分析区間の標本
数Nのオーディオデータについて、変化幅を2以上の整
数Lとした相関ラグl=mL(mは整数)を持って、上
記第2式の積和演算をM=N/L回繰り返すことにより
算出される上記相関ラグlから、最大ピーク検出により
検出される上記分析区間のオーディオデータの仮ピッチ
周期に基いて、上記分析区間のオーディオデータのゼロ
クロスサーチによりピッチ開始点及びピッチ終了点を検
出する。つなぎ処理手段は、上記オーディオピッチ抽出
手段により抽出されたピッチ情報に基いて、上記記憶手
段から読み出される分析区間の標本数Nのオーディオデ
ータにつなぎ処理を施す。従って、相関ラグを荒くして
自己相関を計算することにより、自己相関を計算する際
の演算量を低減でき、従来以下の回路規模で構成するこ
とができる。また、ピッチ開始点とピッチ終了点の位置
情報に基いてオーディオデータのつなぎ処理を行うこと
により、高品質な音を提供することができる。
【0066】また、本発明に係るオーディオ処理装置で
は、上記オーディオピッチ抽出手段は、分析区間の標本
数Nのオーディオデータについて、相関ラグlの変化範
囲を限定し、統計的にピッチが存在する確率の高い範囲
を探索範囲とした自己相関値φ(l)を算出する。従っ
て、ピッチの存在しやすい範囲にピッチ探索範囲を限定
することにより、自己相関を計算する際の演算量をさら
に低減できる。
は、上記オーディオピッチ抽出手段は、分析区間の標本
数Nのオーディオデータについて、相関ラグlの変化範
囲を限定し、統計的にピッチが存在する確率の高い範囲
を探索範囲とした自己相関値φ(l)を算出する。従っ
て、ピッチの存在しやすい範囲にピッチ探索範囲を限定
することにより、自己相関を計算する際の演算量をさら
に低減できる。
【図1】本発明に係るオーディオピッチ抽出装置の実施
例の構成を示す図である。
例の構成を示す図である。
【図2】有効なピッチが存在する範囲を説明するための
音声の長時間スペクトルを表した図である。
音声の長時間スペクトルを表した図である。
【図3】有効なピッチが存在する範囲を説明するための
基本周波数の平均値と標準偏差を表した図である。
基本周波数の平均値と標準偏差を表した図である。
【図4】有効なピッチが存在する範囲を説明するための
発生音による基本周波数の分布を表した図である。
発生音による基本周波数の分布を表した図である。
【図5】有効なピッチが存在する範囲を説明するための
おもなホルマントの領域を表した図である。
おもなホルマントの領域を表した図である。
【図6】本発明に係るオーディオピッチ抽出装置のゼロ
クロスサーチ部におけるピッチ探索波形の例を示す図で
ある。
クロスサーチ部におけるピッチ探索波形の例を示す図で
ある。
【図7】本発明に係るオーディオ処理装置を適用したオ
ーディオピッチ変換装置の実施例の構成を示す図であ
る。
ーディオピッチ変換装置の実施例の構成を示す図であ
る。
1 オーディオピッチ抽出装置
2 メモリ
3 アドレスカウンタ
10 記憶手段
11 積和回路
12 最大ピーク検出回路
13 ゼロクロスサーチ部
20 オーディオピッチ抽出装置
30 オーディオつなぎ処理部
101 メモリ
102 位相管理部
フロントページの続き
(56)参考文献 特開 平5−241598(JP,A)
特開 昭56−42296(JP,A)
特開 昭62−203199(JP,A)
特開 昭59−143199(JP,A)
特開 昭57−82897(JP,A)
特開 昭54−154912(JP,A)
特開 平5−80796(JP,A)
特公 昭62−38718(JP,B2)
特許3219868(JP,B2)
特許2505015(JP,B2)
特許3122540(JP,B2)
中村, 清山, 池沢, 都木, 宮
坂,高品質リアルタイム話速変換システ
ム,電子情報通信学会技術研究報告[音
声],日本,1992年 9月10日,Vo
l.92, No.207, SP92−55,
HC92−32,Pages 41−48
(58)調査した分野(Int.Cl.7,DB名)
G10L 11/04
G10L 21/04
G11B 20/14
Claims (4)
- 【請求項1】 標本化された時系列をx(n)(nは整
数)とした分析区間の標本数Nのオーディオデータにつ
いて、変化幅を2以上の整数Lとした相関ラグl=mL
(mは整数)を持って、 【数1】 なる積和演算をM=N/L回繰り返し、上記相関ラグl
に対する自己相関値φ(l)を算出する自己相関値算出
手段と、上記自己相関値算出手段により算出された自己
相関値φ(l)と相関ラグlから、最大ピーク検出によ
り上記分析区間のオーディオデータの仮ピッチ周期を検
出する仮ピッチ検出手段と、上記仮ピッチ検出手段によ
り検出された仮ピッチ周期に基いて、上記分析区間のオ
ーディオデータのゼロクロスサーチによりピッチ開始点
及びピッチ終了点を検出するピッチ検出手段とを有する
ことを特徴とするオーディオピッチ抽出装置。 - 【請求項2】 上記自己相関値算出手段は、分析区間の
標本数Nのオーディオデータについて、相関ラグlの変
化範囲を限定し、統計的にピッチが存在する確率の高い
範囲を探索範囲とした自己相関値φ(l)を算出するこ
とを特徴とする請求項1記載のオーディオピッチ抽出装
置。 - 【請求項3】 標本化された時系列をx(n)(nは整
数)としたオーディオデータを記憶している記憶手段
と、上記記憶手段に記憶された分析区間の標本数Nのオ
ーディオデータについて、変化幅を2以上の整数Lとし
た相関ラグl=mL(mは整数)を持って、 【数2】 なる積和演算をM=N/L回繰り返すことにより算出さ
れる上記相関ラグlから、最大ピーク検出により検出さ
れる上記分析区間のオーディオデータの仮ピッチ周期に
基いて、上記分析区間のオーディオデータのゼロクロス
サーチによりピッチ開始点及びピッチ終了点を検出する
オーディオピッチ抽出手段と、上記オーディオピッチ抽
出手段により抽出されたピッチ情報に基いて、上記記憶
手段から読み出される分析区間の標本数Nのオーディオ
データにつなぎ処理を施すつなぎ処理手段とを有するこ
とを特徴とするオーディオ処理装置。 - 【請求項4】 上記オーディオピッチ抽出手段は、分析
区間の標本数Nのオーディオデータについて、相関ラグ
lの変化範囲を限定し、統計的にピッチが存在する確率
の高い範囲を探索範囲とした自己相関値φ(l)を算出
することを特徴とする請求項3記載のオーディオ処理装
置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP05649694A JP3500690B2 (ja) | 1994-03-28 | 1994-03-28 | オーディオピッチ抽出装置及びオーディオ処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP05649694A JP3500690B2 (ja) | 1994-03-28 | 1994-03-28 | オーディオピッチ抽出装置及びオーディオ処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH07271393A JPH07271393A (ja) | 1995-10-20 |
JP3500690B2 true JP3500690B2 (ja) | 2004-02-23 |
Family
ID=13028717
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP05649694A Expired - Fee Related JP3500690B2 (ja) | 1994-03-28 | 1994-03-28 | オーディオピッチ抽出装置及びオーディオ処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3500690B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4734286B2 (ja) * | 1999-08-23 | 2011-07-27 | パナソニック株式会社 | 音声符号化装置 |
KR100590561B1 (ko) * | 2004-10-12 | 2006-06-19 | 삼성전자주식회사 | 신호의 피치를 평가하는 방법 및 장치 |
JP2006220806A (ja) * | 2005-02-09 | 2006-08-24 | Kobe Steel Ltd | 音声信号処理装置,音声信号処理プログラム,音声信号処理方法 |
CN101599272B (zh) * | 2008-12-30 | 2011-06-08 | 华为技术有限公司 | 基音搜索方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2505015B2 (ja) | 1987-03-05 | 1996-06-05 | インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン | ピツチ検出方法 |
JP3122540B2 (ja) | 1992-08-25 | 2001-01-09 | シャープ株式会社 | ピッチ検出装置 |
JP3219868B2 (ja) | 1992-11-18 | 2001-10-15 | 日本放送協会 | 音声のピッチ周期抽出装置およびピッチ区間自動抽出装置 |
-
1994
- 1994-03-28 JP JP05649694A patent/JP3500690B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2505015B2 (ja) | 1987-03-05 | 1996-06-05 | インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン | ピツチ検出方法 |
JP3122540B2 (ja) | 1992-08-25 | 2001-01-09 | シャープ株式会社 | ピッチ検出装置 |
JP3219868B2 (ja) | 1992-11-18 | 2001-10-15 | 日本放送協会 | 音声のピッチ周期抽出装置およびピッチ区間自動抽出装置 |
Non-Patent Citations (1)
Title |
---|
中村, 清山, 池沢, 都木, 宮坂,高品質リアルタイム話速変換システム,電子情報通信学会技術研究報告[音声],日本,1992年 9月10日,Vol.92, No.207, SP92−55, HC92−32,Pages 41−48 |
Also Published As
Publication number | Publication date |
---|---|
JPH07271393A (ja) | 1995-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6232540B1 (en) | Time-scale modification method and apparatus for rhythm source signals | |
US7035742B2 (en) | Apparatus and method for characterizing an information signal | |
Sharma et al. | Automatic lyrics-to-audio alignment on polyphonic music using singing-adapted acoustic models | |
JP2002014691A (ja) | ソース音声信号内の新規点の識別方法 | |
US20060235680A1 (en) | Apparatus, method and computer program product for processing acoustical-signal | |
US6835885B1 (en) | Time-axis compression/expansion method and apparatus for multitrack signals | |
JP3500690B2 (ja) | オーディオピッチ抽出装置及びオーディオ処理装置 | |
Dzhambazov et al. | On the use of note onsets for improved lyrics-to-audio alignment in turkish makam music | |
JPH11259066A (ja) | 音楽音響信号分離方法、その装置およびそのプログラム記録媒体 | |
JP3266124B2 (ja) | アナログ信号中の類似波形検出装置及び同信号の時間軸伸長圧縮装置 | |
Wong et al. | Fast SOLA-based time scale modification using modified envelope matching | |
CN115394317A (zh) | 一种音频评测方法和装置 | |
CN109697985B (zh) | 语音信号处理方法、装置及终端 | |
US10891966B2 (en) | Audio processing method and audio processing device for expanding or compressing audio signals | |
JP3081469B2 (ja) | 話速変換装置 | |
JPH1078791A (ja) | ピッチ変換器 | |
Siki et al. | Time-frequency analysis on gong timor music using short-time fourier transform and continuous wavelet transform | |
JP2002287744A (ja) | 波形データ分析方法、波形データ分析装置およびプログラム | |
TWI259994B (en) | Adaptive multiple levels step-sized method for time scaling | |
KR100359988B1 (ko) | 실시간 화속 변환 장치 | |
JP2001154684A (ja) | 話速変換装置 | |
JPH10133678A (ja) | 音声再生装置 | |
Kumar et al. | Sung note segmentation for a query-by-humming system | |
WO2014115696A1 (ja) | 音声データ再生速度変換方法および音声データ再生速度変換装置 | |
JPS61190400A (ja) | 発声速度推定装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20031111 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071212 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081212 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091212 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |