JP4957496B2 - ピッチ変換装置およびプログラム - Google Patents

ピッチ変換装置およびプログラム Download PDF

Info

Publication number
JP4957496B2
JP4957496B2 JP2007260678A JP2007260678A JP4957496B2 JP 4957496 B2 JP4957496 B2 JP 4957496B2 JP 2007260678 A JP2007260678 A JP 2007260678A JP 2007260678 A JP2007260678 A JP 2007260678A JP 4957496 B2 JP4957496 B2 JP 4957496B2
Authority
JP
Japan
Prior art keywords
waveform
pitch
period
input speech
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007260678A
Other languages
English (en)
Other versions
JP2009092736A (ja
Inventor
高康 近藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2007260678A priority Critical patent/JP4957496B2/ja
Publication of JP2009092736A publication Critical patent/JP2009092736A/ja
Application granted granted Critical
Publication of JP4957496B2 publication Critical patent/JP4957496B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrophonic Musical Instruments (AREA)

Description

本発明は、音声のピッチ(音高)を変換する技術に関する。
入力音声波形のピッチを変更する技術が従来から提案されている。例えば、窓関数の乗算によって入力音声波形を区分した各波形(以下「単位波形」という)を所望のピッチに応じた間隔で配列することで当該ピッチの出力音声波形を生成する技術がある。特許文献1には、窓関数の関数値が最大となる位置と単位波形のうち振幅(強度)が最大となる位置(以下「最大振幅位置」という)とが合致するように入力音声波形を複数の単位波形に区分する技術が開示されている。
特許第3124349号公報
しかし、特許文献1の技術においては、高周波成分に起因して入力音声波形の振幅が突発的に増大した位置を最大振幅位置として誤検出する可能性がある。そして、以上のように誤検出された最大振幅位置にて関数値が最大となるように設定された窓関数を入力音声波形に乗算すると、単位波形は、入力音声波形の特徴的な部分を抑圧した波形となる。したがって、入力音声波形の本来的な特徴から乖離した低音質の出力音声波形が生成される可能性がある。以上の事情に鑑みて、本発明は、入力音声波形の特徴を充分に維持しながら入力音声波形のピッチを変更することを目的としている。
以上の課題を解決するために、本発明に係るピッチ変換装置は、入力音声波形を記憶する記憶手段(例えば図1の記憶部14)と、入力音声波形に対するローパスフィルタ処理で処理用波形を生成するフィルタ処理手段と、入力音声波形のピッチ周期を特定する第1周期特定手段(例えば図1の周期特定部12)と、処理用波形におけるピッチ周期毎の最大振幅位置を順次に検出する位置検出手段と、ローパスフィルタ処理による位相の変動が補償されるように各最大振幅位置を補正して基準位置を決定する位置補正手段と、基準位置にて関数値が最大となる窓関数に基づいて入力音声波形から単位波形を順次に抽出する波形抽出手段と、出力ピッチに応じた間隔で各単位波形を配列して出力音声波形を生成する波形合成手段とを具備する。なお、第1周期特定手段は、入力音声波形からピッチ周期を特定する手段、および処理用波形からピッチ周期を特定する手段の何れであってもよい。また、入力音声波形は、人間の肉声や楽器の演奏音など各種の音響の時間軸上の波形である。
以上の構成においては、入力音声波形の高周波成分を減衰させた処理用波形から基準位置が特定されるから、高周波成分に起因して偶発的に入力音声波形の振幅が増大した位置を基準位置として誤検出する可能性が低減される。そして、基準位置にて関数値が最大となるように窓関数が設定されるから、入力音声波形の特徴を充分に反映した単位波形が抽出される。したがって、入力音声波形の特徴を充分に維持した出力音声波形を生成することが可能である。
本発明の好適な態様において、位置検出手段は、直前に検出した最大振幅位置にピッチ周期を加算した時点を含む検出範囲内から最大振幅位置を検出する。以上の態様によれば、ピッチ周期から大幅に外れた位置が基準位置として誤検出される可能性が低減される。さらに好適な態様において、位置検出手段は、ピッチ周期が長いほど検出範囲を広く設定する。ピッチ周期が長い(入力音声信号のピッチが低い)ほど、入力音声信号の振幅が最大となる位置は前後に移動し易い。検出範囲がピッチ周期に応じて設定される以上の態様によれば、入力音声信号のピッチの高低に拘わらず、基準位置の検出の漏れが有効に防止される範囲内で最大振幅位置の検出の処理量(最大振幅位置の検出の候補となるサンプルの総数)を抑制することが可能である。
本発明の好適な態様において、位置補正手段は、ピッチ周期に応じて補正値を決定する補正値決定手段と、補正値に基づいて各最大振幅位置を補正する補正演算手段とを具備する。以上の態様においては、最大振幅位置の補正に使用される補正値がピッチ周期に応じて決定されるから、ピッチ周期に応じた入力音声波形と処理用波形との位相差を高精度に補償することが可能である。
別の態様に係るピッチ変換装置は、相前後する最大振幅位置の間隔からピッチ周期を特定する第2周期特定手段(例えば図5の周期特定部36)を具備し、位置補正手段は、第2周期特定手段が特定したピッチ周期に応じて補正値を決定する補正値決定手段と、補正値に基づいて各最大振幅位置を補正する補正演算手段とを含む。以上の態様によれば、相前後する最大振幅位置の間隔が、補正値を決定するためのピッチ周期として特定されるから、入力音声波形から特定されたピッチ周期に基づいて補正値を決定する構成と比較して、入力音声波形と処理用波形との位相差が高精度に補償されるように補正値を決定することが可能である。
さらに他の態様に係るピッチ変換装置は、相前後する最大振幅位置の間隔または相前後する基準位置の間隔からピッチ周期を特定する第2周期特定手段を具備し、波形抽出手段は、第2周期特定手段が特定したピッチ周期に応じて窓関数の窓幅を設定する。以上の態様においては、相前後する最大振幅位置の間隔または相前後する基準位置の間隔が、窓関数の窓幅を設定するためのピッチ周期として特定されるから、入力音声波形から特定されたピッチ周期に基づいて窓幅を設定する構成と比較して、入力音声波形の特性にとって適切な窓幅を高精度に設定できるという利点がある。
本発明に係るピッチ変換装置は、音声波形の処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、 入力音声波形の高周波成分を抑制した処理用波形を生成するローパスフィルタ処理と、入力音声波形のピッチ周期を特定する第1周期特定処理と、処理用波形におけるピッチ周期毎の最大振幅位置を順次に検出する位置検出処理と、ローパスフィルタ処理による位相の変動が補償されるように各最大振幅位置を補正して基準位置を決定する位置補正処理と、基準位置にて関数値が最大となる窓関数に基づいて入力音声波形から単位波形を順次に抽出する波形抽出処理と、出力ピッチに応じた間隔で各単位波形を配列して出力音声波形を生成する波形合成処理とをコンピュータに実行させる。以上のプログラムによっても、本発明に係るピッチ変換装置と同様の作用および効果が奏される。なお、本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態で提供されてコンピュータにインストールされる。
<A:第1実施形態>
図1は、本発明の第1実施形態に係るピッチ変換装置の構成を示すブロック図である。ピッチ変換装置100は、入力音声波形WINのピッチを変換して出力音声波形WOUTを生成する装置である。ピッチ変換装置100は、例えば演算処理装置(CPU)によるプログラムの実行によって実現される。
ピッチ変換装置100には、入力音声波形WINを表すデータ列(サンプルの時系列)を入力する音声入力部52と、出力音声波形WOUTを表すデータ列が出力される音声出力部54とが接続される。音声入力部52は、例えば、周囲の音声を収音して音声信号を生成する収音機器と、音声信号を順次にサンプリングして入力音声波形WINのデータ列を生成するA/D変換器とで構成される。音声出力部54は、例えば、出力音声波形WOUTのデータ列から音声信号を生成するD/A変換器と、音声信号を増幅する増幅器と、増幅後の音声信号に基づいて音波を放射する放音機器(例えばヘッドホンやスピーカ)とで構成される。
音声入力部52から入力された入力音声波形WINのデータ列は、周期特定部12と記憶部14とフィルタ処理部16とに供給される。周期特定部12は、入力音声波形WINのピッチ周期Taを順次に特定する。ピッチ周期Taは、入力音声波形WINの基本周波数(ピッチ)に対応した基本周期である。ピッチ周期Taの特定には公知の技術が任意に採用される。例えば、入力音声波形WINのパワースペクトルの最低次のピークに相当する基本周波数からピッチ周期Taを算定する方法や、入力音声波形WINの自己相関関数の関数値が極大となる区間をピッチ周期Taとする方法が好適である。
記憶部14は、入力音声波形WINのデータ列を順次に記憶する。記憶部14は、リングバッファとして使用され、入力音声波形WINについて予想されるピッチ周期Taの最大値の2倍に相当する時間分のデータ列を格納できる。
変換処理部20は、記憶部14に格納された入力音声波形WINから出力音声波形WOUTを生成する。変換処理部20は、波形抽出部22と波形合成部24とで構成される。波形抽出部22は、記憶部14に格納された入力音声波形WINから単位波形U(U[1],U[2],……)を順次に抽出する。
波形合成部24には出力ピッチPOUTが指示される。出力ピッチPOUTは、例えば利用者による入力装置(図示略)の操作に応じて可変に設定される。波形合成部24は、出力ピッチPOUTに応じた間隔(以下「出力ピッチ周期Tc」という)で各単位波形U(U[1],U[2],……)を配列および加算することで出力音声波形WOUTを生成する。
図2は、変換処理部20の動作を説明するための概念図である。図2の部分(A)には入力音声波形WINが例示されている。図2の部分(A)に示す基準位置Q(Q[1],Q[2],……)は、図1の基準位置設定部30が入力音声波形WINのピッチ周期Ta毎に決定する時点である。基準位置設定部30が基準位置Qを決定する具体的な方法は後述するが、基準位置Qは、入力音声波形WINの振幅(強度)がピッチ周期Ta毎に最大となる時点に略一致することになる。基準位置Q[i]から次の基準位置Q[i+1]までの時間長がピッチ周期Ta[i]である(i=1,2,3,……)。
図2の部分(B)には、波形抽出部22の抽出した単位波形U(U[1],U[2],……)が模式的に図示されている。波形抽出部22は、窓関数F(F[1],F[2],……)に基づいて入力音声波形WINから単位波形U(U[1],U[2],……)を順次に抽出する。図2の部分(A)には、各窓関数Fの形状(関数値)が入力音声波形WINとともに図示されている。波形抽出部22は、入力音声波形WINに窓関数F[i]を乗算することで入力音声波形WINから単位波形U[i]を切出す。波形抽出部22による単位波形U[i]の抽出は、記憶部14に対する入力音声波形WINのデータ列の供給に並行して実時間的に実行される。
窓関数F[i]の窓幅w[i](すなわち窓関数F[i]の関数値がゼロを上回る区間)はピッチ周期Ta[i]に応じて設定される。本形態の窓幅w[i]は、ピッチ周期Ta[i]の1.5倍に相当する時間長である。窓関数F[i]の関数値は、窓幅w[i]の中央にて最大値となり、窓幅w[i]の各端部に向けて直線的に減少するとともに各端部にてゼロとなる。
図2の部分(A)に示すように、波形抽出部22は、基準位置Q[i]が窓関数F[i]の窓幅w[i]の中央寄りとなる(すなわち、基準位置Q[i]が窓幅w[i]の各端部に合致しない)ように窓関数F[i]を設定して入力音声波形WINに乗算することで単位波形U[i]を抽出する。さらに詳述すると、窓関数F[i]は、入力音声波形WINの基準位置Q[i]にて関数値が最大となる(すなわち、窓幅w[i]の中点が基準位置Q[i]に合致する)ように設定される。
波形合成部24は、波形抽出部22が抽出した各単位波形U(U[1],U[2],……)を出力ピッチ周期Tb(Tb[1],Tb[2],……)毎に時間軸上に配列して相互に加算することで出力音声波形WOUTを生成する。図2の部分(C)には、単位波形Uの配列の様子が図示されている。波形抽出部22による単位波形Uの抽出と波形合成部24による出力音声波形WOUTの生成とは実時間上で並行して順次に実行される。図2の部分(C)に示すように、波形合成部24は、各出力ピッチ周期Tb[j](j=1,2,3,……)の始点と、当該始点の時点で波形抽出部22が既に抽出している最新の単位波形U[i]の先頭とが合致するように各単位波形U(U[1],U[2],……)を配置する。なお、各単位波形Uを単純に出力ピッチTb毎に配列した場合には、入力音声波形WINと出力音声波形WOUTとの時間軸上のズレが経時的に拡大する。入力音声波形WINと出力音声波形WOUTとのズレを防止するために、入力音声波形WINのピッチ周期Taと出力ピッチ周期Tbとの相違に応じてひとつの単位波形Uを複数回にわたって重複して配置する構成が好適に採用される。図2の部分(C)には、共通の単位波形U[1]をピッチ周期Tb[1]およびピッチ周期Tb[2]に重複して配置した場合が例示されている。
以上が変換処理部20の具体的な動作である。なお、図2の部分(C)においては、入力音声波形WINのピッチよりも高い出力ピッチPOUTを指定した場合が例示されているが、入力音声波形WINのピッチよりも低い出力ピッチPOUTが指定された場合は、出力ピッチ周期Tbがピッチ周期Taよりも長い期間に設定されたうえで同様の処理が実行される。また、以上においては入力音声波形WINの供給に対して実時間的に出力音声波形WOUTを生成したが、入力音声波形WINの全区間について単位波形Uを抽出してから、各単位波形Uを配列することで出力音声波形WOUTを生成する構成も好適に採用される。
図1のフィルタ処理部16は、所定の遮断周波数を上回る高周波成分を抑制(除去)するローパスフィルタ処理を入力音声波形WINに対して実施することで処理用波形WLを生成する。例えばIIR(Infinite Impulse Response)フィルタがフィルタ処理部16として好適に採用される。遮断周波数は、入力音声波形WINについて想定される基本周波数の最小値を上回る周波数に設定される。
図3は、入力音声波形WINと処理用波形WLとの関係を示す模式図である。同図に示すように、処理用波形WLには、ローパスフィルタ処理に起因して、入力音声波形WINに対する位相の変動(典型的には遅延)が発生する。入力音声波形WINに対する処理用波形WLの位相の変動量は、入力音声波形WIN(または処理用波形WL)のピッチ周期Ta(Ta[1],Ta[2],……)に応じて変化する。
図1に示すように、処理用波形WLを表すデータ列は順次に記憶部18に格納される。記憶部18は、リングバッファとして使用され、記憶部14と同様に、処理用波形WL(入力音声波形WIN)について予想されるピッチ周期(Ta)の最大値の2倍に相当する時間分のデータ列を格納できる。なお、記憶部14と記憶部18とは、別個の記憶装置に画定された記憶領域であってもよいし、単一の記憶装置に画定された別個の記憶領域であってもよい。
図1の基準位置設定部30は、図2の部分(A)に図示した基準位置Q(Q[1],Q[2],・・・)を処理用波形WLに基づいて決定する。基準位置設定部30は、位置検出部32と位置補正部34とで構成される。位置検出部32は、処理用波形WLにおけるピッチ周期Ta毎の最大振幅位置R(R[1],R[2],……)を順次に検出する。最大振幅位置Rは、図3に示すように、ピッチ周期Ta内で処理用波形WLの振幅(強度)が最大となる時間軸上の位置(時点)である。
さらに詳述すると、位置検出部32は、ピッチ周期Ta[1]内で処理用波形WLの振幅が最大となる位置を最大振幅位置R[1]として検出する。そして、位置検出部32は、図3に示すように、第2番目以降の最大振幅位置R[i]として、直前に検出した最大振幅位置R[i-1]にピッチ周期Ta[i-1]を加算した時点tを含む検出範囲S内で処理用波形WLの振幅が最大となる位置を検出する。
検出範囲Sは、時点tを中心とする幅2sの区間(すなわち、始点(t-s)から終点(t+s)までの区間)である。変数sは、係数aとピッチ周期Ta[i-1]との乗算値に設定される。位置検出部32は、ピッチ周期Ta[i-1]が増加するほど係数aが増加するように係数aを可変に制御する。したがって、ピッチ周期Ta[i-1]が増加する(入力音声波形WINのピッチが低い)ほど検出範囲Sは拡大する。
入力音声波形WINのピッチが低いほど最大振幅位置Rは時間軸上で前後に変動し易いという傾向がある。本形態においては、入力音声波形WINのピッチが低いほど検出範囲Sが拡大するから、検出範囲Sが固定された構成と比較すると、入力音声波形WINのピッチが低い場合であっても最大振幅位置Rの検出の漏れが防止される。一方、入力音声波形WINのピッチが高い場合には検出範囲Sが縮小されるから、処理用波形WLのうち最大振幅位置Rの候補となるサンプルの個数が削減される。すなわち、入力音声波形WINのピッチに拘わらず、最大振幅位置Rの検出のための処理量を抑制しながら最大振幅位置Rの検出の漏れを防止することが可能である。
図3を参照して前述したように、処理用波形WLには、フィルタ処理部16によるローパスフィルタ処理に起因して、入力音声波形WINとの位相のズレが生じている。したがって、処理用波形WLから検出された最大振幅位置R[i]は、処理用波形WLと入力音声波形WINとの位相差分だけ基準位置Q[i]から変動した位置となる。そこで、図1の位置補正部34は、フィルタ処理部16によるローパスフィルタ処理に起因した位相の変動が補償されるように各最大振幅位置R[i]を補正することで基準位置Q[i]を決定する
図4は、位置補正部34の具体的な構成を示すブロック図である。図4に示すように、位置補正部34は、補正値決定部342と補正演算部344とで構成される。補正値決定部342は補正値A(A[1],A[2],……)を決定する。補正演算部344は、補正値A[i]に基づいて最大振幅位置R[i]を補正することで基準位置Q[i]を決定する。例えば、最大振幅位置R[i]と補正値A[i]との差分値や加算値を基準位置Q[i]として算定する減算器や加算器が補正演算部344として好適に採用される。
入力音声波形WINと処理用波形WLとの位相差は入力音声波形WIN(または処理用波形WL)のピッチ周期Taに応じて変化する。そこで、補正値決定部342は、周期特定部12が特定したピッチ周期Ta[i]に応じて補正値A[i]を可変に設定する。例えば、入力音声波形WINのピッチ周期Taが小さい(入力音声波形WINのピッチが高い)ほど入力音声波形WINと処理用波形WLとの位相差が増加するようにフィルタ処理部16によるローパスフィルタ処理が実行される場合、補正値決定部342は、ピッチ周期Ta[i]が小さいほど補正値A[i]の絶対値が増加するように補正値A[i]を設定する。例えば、補正値決定部342は、ピッチ周期Taの各数値と補正値Aの各数値とを対応させるテーブルを保持し、ピッチ周期Ta[i]に対応する補正値A[i]をテーブルから検索して補正演算部344に出力する。したがって、補正演算部344が決定する基準位置Qは、入力音声波形WINにおいてピッチ周期Ta毎に振幅が最大となる位置に合致する。
以上に説明したように、本形態においては、入力音声波形WINの高周波成分を減衰させた処理用波形WLから基準位置Qが特定されるから、入力音声波形WINにおいて高周波成分に起因して偶発的に振幅が増大した位置を基準位置Qとして誤検出する可能性は低減される。例えば、図3の部分Hのように入力音声波形WINにて突発的に振幅が増大した場合であっても、処理用波形WLでは部分Hの振幅が抑制される。したがって、入力音声波形WINの部分Hが基準位置Qとして誤検出されることはなく、入力音声波形WINの本来的な特徴が現れる位置を基準位置Qとして検出することが可能である。そして、窓関数F[i]は基準位置Q[i]にて関数値が最大となるように設定されるから、単位波形U[i]には入力音声波形WINの特徴が充分に反映される。したがって、入力音声波形WINの特徴を充分に維持した出力音声波形WOUTを生成することが可能である。
また、処理用波形WLから検出された最大振幅位置Rを補正することで基準位置Qが決定されるから、フィルタ処理部16のローパスフィルタ処理に起因した入力音声波形WINと処理用波形WLとの位相差が補償される。したがって、入力音声波形WINにおいてピッチ周期Ta毎に振幅が最大となる位置を高精度に基準位置Qとして特定することが可能である。しかも、最大振幅位置Rの補正に使用される補正値Aはピッチ周期Taに応じて設定されるから、補正値Aが固定値である構成と比較して高い精度で基準位置Qを決定することができる。
<B:第2実施形態>
次に、本発明の第2実施形態を説明する。なお、本形態において作用や機能が第1実施形態と同等である要素については、以上と同じ符号を付して各々の詳細な説明を適宜に省略する。
図5は、ピッチ変換装置100の機能的な構成を示すブロック図である。同図に示すように、本形態のピッチ変換装置100は、図1の基準位置設定部30に周期特定部36を追加した構成である。周期特定部36は、位置検出部32が順次に検出する最大振幅位置Rに基づいてピッチ周期Tc(Tc[1],Tc[2],……)を特定する。さらに詳述すると、周期特定部36は、位置検出部32が検出した最大振幅位置R[i]と次の最大振幅位置R[i+1]との間隔(すなわち相前後する最大振幅位置Rの間隔)をピッチ周期Tc[i]として特定する。
位置補正部34の補正値決定部342は、周期特定部36が特定したピッチ周期Tc[i]に応じて補正値A[i]を可変に設定する。例えば、ピッチ周期Tc[i]が小さいほど補正値A[i]の絶対値が増加するように補正値A[i]を決定する。補正値A[i]の設定には、第1実施形態と同様に、ピッチ周期Tcの各数値と補正値Aの各数値とを対応づけるテーブルが好適に使用される。
波形抽出部22は、周期特定部36が特定したピッチ周期Tc[i]に応じて窓関数F[i]の窓幅w[i]を可変に設定する。例えば、波形抽出部22は、窓関数F[i]の窓幅w[i]をピッチ周期Tc[i]の1.5倍に設定する。
入力音声波形WINから特定されるピッチ周期Taには、入力音声波形WINの高周波成分に起因して誤差が発生する場合がある。一方、本形態におけるピッチ周期Tcは、処理用波形WLの最大振幅位置Rに基づいて特定されるから、ピッチ周期Taと比較して誤差が少ない。したがって、本形態によれば、補正値決定部342による補正値Aの決定や波形抽出部22による窓幅wの設定の誤差を低減することが可能である。
<C:変形例>
以上の各形態には以下に例示するような様々な変形を加えることができる。なお、以下の例示から2以上の態様を任意に選択して組合わせてもよい。
(1)変形例1
以上の各形態においては、周期特定部12が入力音声波形WINからピッチ周期Taを特定したが、周期特定部12が処理用波形WLからピッチ周期Taを特定する構成も好適である。処理用波形WLからピッチ周期Taを特定する方法には公知の各種の技術が任意に採用される。
また、第2実施形態においては、位置検出部32が検出した各最大振幅位置Rの間隔をピッチ周期Tcとして特定したが、位置補正部34による補正後の各基準位置Qの間隔を周期特定部36がピッチ周期Tcとして特定する構成も好適である。以上の構成によれば、ローパスフィルタ処理に起因した処理用波形WLの位相のズレを補償したピッチ周期Tcが特定されるから、第2実施形態と比較して、窓関数Fの窓幅wを高精度に設定することが可能である。
(2)変形例2
入力音声波形WINのピッチを基準として出力ピッチPOUTが指定される構成も好適に採用される。例えば、出力ピッチPOUTは、例えば「入力音声波形WINの〜セント上」や「入力音声波形WINの〜セント下」といった具合に、出力音声波形WOUTと入力音声波形WINとのピッチの差分を指定する情報であってもよい。
(3)変形例3
窓関数F[i]の内容は適宜に変更される。例えば、窓幅w[i]の中央から各端部に向けて曲線的に関数値が減少する窓関数F[i]を使用してもよい。また、窓関数F[i]の関数値が最大となる位置が窓幅w[i]の中央である必要は必ずしもない。例えば、窓幅w[i]の中央からみて一方の端部寄りの位置で関数値が最大となる窓関数Fも採用される。
(4)変形例4
以上の各形態においては周期特定部12とフィルタ処理部16とを別個の要素として例示したが、入力音声波形WINの高周波成分を減衰させるローパスフィルタをピッチ周期Taの特定のために周期特定部12が含む構成においては、記憶部18に格納される処理用波形WLを生成するフィルタ処理部16として周期特定部12のローパスフィルタが兼用される構成も好適である。すなわち、フィルタ処理部16が周期特定部12から独立した要素である必要は必ずしもない。
本発明の第1実施形態に係るピッチ変換装置の構成を示すブロック図である。 変換処理部の動作を説明するための概念図である。 入力音声波形と処理用波形との関係を示す概念図である。 位置補正部の具体的な構成を示すブロック図である。 本発明の第2実施形態に係るピッチ変換装置の構成を示すブロック図である。
符号の説明
100……ピッチ変換装置、12……周期特定部、14……記憶部、16……フィルタ処理部、18……記憶部、20……変換処理部、22……波形抽出部、24……波形合成部、30……基準位置設定部、32……位置検出部、34……位置補正部、36……周期特定部、52……音声入力部、54……音声出力部、WIN……入力音声波形、WOUT……出力音声波形、WL……処理用波形、U(U[1],U[2],……)……単位波形、Ta(Ta[1],Ta[2],……),POUT……出力ピッチ、Tc……ピッチ周期、Tb(Tb[1],Tb[2],……)……出力ピッチ周期、R(R[1],R[2],……)……最大振幅位置、Q(Q[1],Q[2],……)……基準位置、F(F[1],F[2],……)……窓関数。

Claims (7)

  1. 入力音声波形を記憶する記憶手段と、
    前記入力音声波形に対するローパスフィルタ処理で処理用波形を生成するフィルタ処理手段と、
    前記入力音声波形のピッチ周期を特定する第1周期特定手段と、
    前記処理用波形における前記ピッチ周期毎の最大振幅位置を順次に検出する位置検出手段と、
    前記ローパスフィルタ処理による位相の変動が補償されるように前記各最大振幅位置を補正して基準位置を決定する位置補正手段と、
    前記基準位置にて関数値が最大となる窓関数に基づいて前記入力音声波形から単位波形を順次に抽出する波形抽出手段と、
    出力ピッチに応じた間隔で前記各単位波形を配列して出力音声波形を生成する波形合成手段と
    を具備するピッチ変換装置。
  2. 前記位置検出手段は、直前に検出した最大振幅位置に前記ピッチ周期を加算した時点を含む検出範囲内から最大振幅位置を検出する
    請求項1のピッチ変換装置。
  3. 前記位置検出手段は、前記ピッチ周期が長いほど前記検出範囲を広く設定する
    請求項2のピッチ変換装置。
  4. 前記位置補正手段は、
    前記ピッチ周期に応じて補正値を決定する補正値決定手段と、
    前記補正値に基づいて前記各最大振幅位置を補正する補正演算手段と
    を含む請求項1から請求項3の何れかのピッチ変換装置。
  5. 相前後する前記最大振幅位置の間隔からピッチ周期を特定する第2周期特定手段を具備し、
    前記位置補正手段は、
    前記第2周期特定手段が特定したピッチ周期に応じて補正値を決定する補正値決定手段と、
    前記補正値に基づいて前記各最大振幅位置を補正する補正演算手段と
    を含む請求項1から請求項3の何れかのピッチ変換装置。
  6. 相前後する前記最大振幅位置の間隔または相前後する前記基準位置の間隔からピッチ周期を特定する第2周期特定手段を具備し、
    前記波形抽出手段は、前記第2周期特定手段が特定したピッチ周期に応じて前記窓関数の窓幅を設定する
    請求項1から請求項4の何れかのピッチ変換装置。
  7. 入力音声波形の高周波成分を抑制した処理用波形を生成するローパスフィルタ処理と、
    前記入力音声波形のピッチ周期を特定する第1周期特定処理と、
    前記処理用波形における前記ピッチ周期毎の最大振幅位置を順次に検出する位置検出処理と、
    前記ローパスフィルタ処理による位相の変動が補償されるように前記各最大振幅位置を補正して基準位置を決定する位置補正処理と、
    前記基準位置にて関数値が最大となる窓関数に基づいて前記入力音声波形から単位波形を順次に抽出する波形抽出処理と、
    出力ピッチに応じた間隔で前記各単位波形を配列して出力音声波形を生成する波形合成処理と
    をコンピュータに実行させるプログラム。
JP2007260678A 2007-10-04 2007-10-04 ピッチ変換装置およびプログラム Expired - Fee Related JP4957496B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007260678A JP4957496B2 (ja) 2007-10-04 2007-10-04 ピッチ変換装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007260678A JP4957496B2 (ja) 2007-10-04 2007-10-04 ピッチ変換装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2009092736A JP2009092736A (ja) 2009-04-30
JP4957496B2 true JP4957496B2 (ja) 2012-06-20

Family

ID=40664827

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007260678A Expired - Fee Related JP4957496B2 (ja) 2007-10-04 2007-10-04 ピッチ変換装置およびプログラム

Country Status (1)

Country Link
JP (1) JP4957496B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6371530B2 (ja) * 2014-01-23 2018-08-08 日本放送協会 音声信号処理装置及び音声ピッチ変換プログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02114300A (ja) * 1988-10-25 1990-04-26 Matsushita Electric Ind Co Ltd ピッチ抽出用フィルタおよびピッチ抽出装置
JP3124349B2 (ja) * 1991-12-18 2001-01-15 ローランド株式会社 音源装置
JP3576800B2 (ja) * 1997-04-09 2004-10-13 松下電器産業株式会社 音声分析方法、及びプログラム記録媒体
JP3532064B2 (ja) * 1997-04-15 2004-05-31 沖電気工業株式会社 音声合成方法及び音声合成装置
JPH11305794A (ja) * 1998-04-24 1999-11-05 Victor Co Of Japan Ltd ピッチ検出装置及び情報媒体

Also Published As

Publication number Publication date
JP2009092736A (ja) 2009-04-30

Similar Documents

Publication Publication Date Title
US8320583B2 (en) Noise reducing device and noise determining method
JP4734961B2 (ja) 音響効果付与装置、及びプログラム
JP5389530B2 (ja) 対象波低減装置
JP2010249940A (ja) ノイズ低減装置、ノイズ低減方法
CN101714379B (zh) 一种音频重采样方法
JP2014178394A (ja) 音響信号分析装置及び音響信号分析プログラム
EP1895507A1 (en) Pitch estimation, apparatus, pitch estimation method, and program
JPWO2009125489A1 (ja) テンポ検出装置及びテンポ検出プログラム
JP5395399B2 (ja) 携帯端末、拍位置推定方法および拍位置推定プログラム
JP5157837B2 (ja) ピッチ検出装置およびプログラム
JP4957496B2 (ja) ピッチ変換装置およびプログラム
JP4735398B2 (ja) 音響信号分析装置、音響信号分析方法、及び音響信号分析用プログラム
JP2011118220A (ja) 音響処理装置
JP2991037B2 (ja) 楽音合成装置及び楽音合成装置の音高調整装置
JP4827595B2 (ja) インパルス応答検出装置及びインパルス応答検出プログラム
JP2008112056A (ja) 音声信号処理装置
JP5513074B2 (ja) グリッド検出装置及びプログラム
JP5163606B2 (ja) 音声分析合成装置、及びプログラム
JP2007166315A (ja) 信号処理装置及び信号処理方法
JP2006304244A (ja) 特定音声信号の検出法及びスピーカ距離測定法
JP6094117B2 (ja) 音波形信号生成装置およびプログラム
JP4892383B2 (ja) 音楽再生装置、音楽再生方法、及び、プログラムを格納した記録媒体
JP5246208B2 (ja) 基音抽出装置、及びプログラム
JP2734526B2 (ja) ピッチ抽出装置
JP5495858B2 (ja) 音楽音響信号のピッチ推定装置及び方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100820

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120221

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120305

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150330

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees