JP2008203322A - 時間軸圧伸装置、時間軸圧伸方法およびプログラム - Google Patents

時間軸圧伸装置、時間軸圧伸方法およびプログラム Download PDF

Info

Publication number
JP2008203322A
JP2008203322A JP2007036244A JP2007036244A JP2008203322A JP 2008203322 A JP2008203322 A JP 2008203322A JP 2007036244 A JP2007036244 A JP 2007036244A JP 2007036244 A JP2007036244 A JP 2007036244A JP 2008203322 A JP2008203322 A JP 2008203322A
Authority
JP
Japan
Prior art keywords
section
output
index value
speed
section length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007036244A
Other languages
English (en)
Other versions
JP5141033B2 (ja
Inventor
Norihiro Hayashida
教裕 林田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2007036244A priority Critical patent/JP5141033B2/ja
Publication of JP2008203322A publication Critical patent/JP2008203322A/ja
Application granted granted Critical
Publication of JP5141033B2 publication Critical patent/JP5141033B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

【課題】出力音声の再生速度を迅速に変更する。
【解決手段】記憶回路10は、入力音声の波形を示すサンプル列PINを記憶する。設定部50は、出力音声の再生速度sを設定する。区間長決定部34は、入力音声の基本周期LWと設定部50が設定した再生速度sとに基づいて圧伸後の出力区間SOUTの区間長L(例えばL=LW/(1−s))を決定する。出力部36は、出力区間SOUT内の各サンプルを順次に出力回路40に出力する。区間長更新部38は、出力区間SOUT内の各サンプルの出力中に設定部50が再生速度sを変更すると、出力区間SOUTのうち再生速度sの変更後の残余区間SRの区間長r1を、変更前の再生速度s1と変更後の再生速度s2とに応じた区間長r2に更新する。
【選択図】図1

Description

本発明は、音声が再生される速度を変化させる技術に関する。
入力音声のピッチやホルマントを維持しながら再生速度を変更する時間軸圧伸の技術が従来から提案されている(例えば非特許文献1)。図7は、出力音声の再生速度を入力音声のs倍に変更する手順を説明するための概念図である。第1に、図7の部分(a)に示すように、基本周期LWを区間長とする区間A(A1,A2,……)および区間B(B1,B2,……)が入力音声のサンプル列PINから検出される。基本周期LWは、区間Aと区間Bとで波形の類似性が最大となる区間長(サンプル数)である。第2に、圧伸区間SAと複製区間SBとから構成される出力区間SOUT内の各サンプルが出力音声のサンプル列POUTとして順次に出力される。
再生速度sが「1」を下回る場合(すなわち出力音声を入力音声よりも低速で再生する場合)、図7の部分(b)に示すように、区間Aの波形と区間Bの波形とを合成した区間長LWの波形を区間Aと区間Bとの間隙に挿入することで圧伸区間SAが生成される。一方、再生速度sが「1」を上回る場合(すなわち出力音声を入力音声よりも高速で再生する場合)、図7の部分(c)に示すように、区間Aおよび区間Bを、区間Aの波形と区間Bの波形とを合成した区間Xの波形に置換することで圧伸区間SAが生成される。複製区間SBは、入力音声の各サンプルが複製される区間である。出力区間SOUTの区間長Lは、基本周期LWと再生速度sとに応じて設定される。以上の手順で出力区間SOUTを生成する処理を入力音声の区間SINごとに反復することで入力音声のs倍の再生速度の出力音声が生成される。
森田直孝・板倉文忠、「ポインター移動量制御による重複加算法(PICOLA)を用いた音声の時間軸での伸長圧縮とその評価」、日本音響学会講演論文集、昭和61年10月、1-4-14(p.149−p.150)
以上の技術においては、図7に示すように、出力区間SOUT内のサンプルを出力している途中の時点Tで再生速度sが変更されても、出力区間SOUTの終了まではサンプルの出力が継続される。すなわち、再生速度sの変更が出力音声に反映されるのは、再生速度sの変更前に設定された出力区間SOUTについてサンプルの出力が完了した後である。したがって、出力音声の再生速度の変更が出力区間SOUTの区間長Lに応じて遅延するという問題がある。再生速度sが「1」に近いほど出力区間SOUTの区間長Lは長くなるから、再生速度の変更が遅延するという問題は特に顕著となる。以上の事情を背景として、本発明は、音声の再生速度を迅速に変更するという課題の解決をひとつの目的としている。
以上の課題を解決するために、本発明に係る時間軸圧伸装置は、音声の波形を示すサンプル列を記憶する記憶手段と、音声の再生速度を定める速度指標値(再生速度sや圧伸率a)を設定する設定手段と、音声の基本周期と設定手段が設定した速度指標値とに基づいて圧伸後の出力区間の区間長(例えば図3や図4の区間長L)を決定する区間長決定手段と、出力区間内の各サンプルを順次に出力する出力手段と、出力区間内の各サンプルを出力手段が出力する期間内に設定手段が速度指標値を変更すると、出力区間のうち速度指標値の変更後の残余区間の区間長(例えば図3や図4の区間長r1)を、変更前の速度指標値と変更後の速度指標値とに応じた区間長(例えば図3や図4の区間長r2)に更新する区間長更新手段とを具備する。
以上の構成によれば、出力区間内のサンプルの出力中に速度指標値が変更されると、出力区間のうち速度指標値の変更後の残余区間の区間長が、変更前の速度指標値と変更後の速度指標値とに応じた区間長に更新される。したがって、速度指標値の変更前に設定された出力区間についてサンプルの出力が完了してから速度指標値の変更が反映される構成と比較して、速度指標値の変更を出力音声に対して迅速に反映させることが可能である。
本発明の好適な態様において、区間長決定手段は、音声の基本周期を単位として当該音声のサンプル列を圧伸した圧伸区間とサンプル列の各サンプルを配列した複製区間とで構成される出力区間の区間長を、音声の基本周期と設定手段が設定した速度指標値とに基づいて決定し、区間長更新手段は、複製区間内の各サンプルを出力手段が出力する期間内に設定手段が速度指標値を変更すると、複製区間のうち速度指標値の変更後の残余区間の区間長を、変更前の速度指標値と変更後の速度指標値とに応じた区間長に更新する。以上の態様によれば、複製区間内の各サンプルの出力中に速度指標値が変更されると、複製区間のうち速度指標値の変更後の残余区間の区間長が、変更前の速度指標値と変更後の速度指標値とに応じた区間長に更新される。したがって、複製区間が速度指標値に応じて長期間にわたる場合であっても、複製区間内における速度指標値の変更を出力音声に対して迅速に反映させることができる。
本発明の好適な態様において、区間長更新手段は、変更後の速度指標値に対応した再生速度(例えば再生速度s2)に対する変更前の速度指標値に対応した再生速度(例えば再生速度s1)が低いほど残余区間の区間長が短くなるように区間長を更新する。さらに具体的な態様において、区間長更新手段は、残余区間を、変更後の速度指標値に対応した再生速度に対する変更前の速度指標値に対応した再生速度の比と、当該更新前の残余区間の区間長との乗算値に応じた区間長に更新する。以上の態様によれば、再生速度の変更の方向に拘わらず共通の方法で更新後の区間長を特定することが可能である。
本発明に係る時間軸圧伸装置は、特定の信号処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、音声の再生速度を定める速度指標値を設定する設定処理と、音声の基本周期と設定処理で設定した速度指標値とに基づいて圧伸後の出力区間の区間長を決定する区間長決定処理と、出力区間内の各サンプルを記憶手段から取得して順次に出力する出力処理と、出力区間内の各サンプルを出力処理にて出力する期間内に速度指標値が変更されると、当該出力区間のうち速度指標値の変更後の残余区間の区間長を、変更前の速度指標値と変更後の速度指標値とに応じた区間長に更新する区間長更新処理とをコンピュータに実行させる内容である。以上のプログラムによっても本発明の時間軸圧伸装置と同様の作用および効果が奏される。なお、本発明のプログラムは、CD−ROMなど可搬型の記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、ネットワークを介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
また、本発明は、音声の時間軸の方向に圧伸する方法としても特定される。本発明に係る時間軸圧伸方法は、音声の再生速度を定める速度指標値を設定し、音声の基本周期と設定した速度指標値とに基づいて圧伸後の出力区間の区間長を決定し、出力区間内の各サンプルを記憶手段から取得して順次に出力する一方、出力区間内の各サンプルを出力する期間内に速度指標値が変更されると、出力区間のうち速度指標値の変更後の残余区間の区間長を、変更前の速度指標値と変更後の速度指標値とに応じた区間長に更新する。以上の時間軸圧伸方法によっても本発明の時間軸圧伸装置と同様の作用および効果が奏される。
<A:時間軸圧伸装置>
図1は、本発明のひとつの形態に係る時間軸圧伸装置の構成を示すブロック図である。時間軸圧伸装置100は、入力音声(音声信号)の波形を時間軸の方向に伸長または圧縮することで出力音声を生成する装置である。図1に示すように、時間軸圧伸装置100は、記憶回路10と制御回路20と出力回路40と設定部50とを具備する。
記憶回路10にはサンプル列PINが外部から順次に供給される。サンプル列PINは、入力音声から抽出された多数のサンプルを時系列に配列したデータ列である。記憶回路10は、各サンプルを順次に記憶する入力バッファ回路として機能する。
制御回路20は、プログラムを実行することで入力音声のサンプル列PINから出力音声のサンプル列POUTを生成する演算処理装置(CPU)である。さらに詳述すると、制御回路20は、図2に示すように、入力音声のサンプル列PINを区分した各区間(以下「入力区間」という)SINのサンプルに基づいて、出力音声のサンプル列POUTの特定の区間(以下「出力区間」という)SOUTのサンプルを生成する。
出力回路40は、制御回路20が生成したサンプル列POUTの各サンプルを蓄積するとともに各サンプルを所定の周期で順次に出力する出力バッファ回路である。出力回路40から出力されたサンプル列POUTがアナログ信号に変換されたうえでスピーカやヘッドホンなどの出力機器に供給されることで出力音声が再生される。
設定部50は、出力音声の再生速度sを設定する手段である。本形態の設定部50は、上位装置から付与される指令に基づいて再生速度sを制御する。再生速度sは、出力音声の出力区間SOUT内のサンプル数s_outに対する入力音声の入力区間SIN内のサンプル数s_inの比(s=s_in/s_out)を定める数値として定義される(0.5≦s≦2,s≠1)。すなわち、入力区間SIN内のサンプル数s_inに対する出力区間SOUT内のサンプル数s_outは、再生速度sが増加するほど減少する。したがって、再生速度sが「1」を上回る場合には出力音声が入力音声と比較して高速に再生(以下「高速変換」という)され、再生速度sが「1」を下回る場合には出力音声が入力音声と比較して低速に再生(以下「低速変換」という)される。なお、入力装置(図示略)に対する利用者からの操作に応じて設定部50が再生速度sを設定する構成も採用される。
図1に示すように、制御回路20は、プログラムを実行することで複数の機能体(基本周期特定部32,区間長決定部34,出力部36,区間長更新部38)として動作する。なお、制御回路20の各部の機能はDSPなどのハードウェア回路によって実現されてもよい。
図3および図4は、制御回路20の各部の動作を説明するための概念図である。図3は低速変換時(s<1)の動作を示し、図4は高速変換時(s>1)の動作を示す。図3の部分(a)や図4の部分(a)に示すように、基本周期特定部32は、入力音声のうち相類似する波形が反復する区間の時間長である基本周期LWを特定する。例えば、基本周期特定部32は、入力音声のうち同じ区間長で相隣接する区間Aと区間Bとについて波形の類似度を算定する処理を、区間Aおよび区間Bの区間長を変化させながら複数回にわたって反復し、類似度が最大となる区間長を基本周期LWとして特定する。
区間長決定部34は、基本周期特定部32が特定した基本周期LWと設定部50が設定した再生速度sとに基づいて出力区間SOUTの区間長L(出力区間SOUTに属するサンプルの総数)を算定する手段である。再生速度sが「1」を下回る低速変換の場合(0.5≦s<1)、区間長決定部34は以下の式(1)に基づいて区間長Lを決定する。
L=LW/(1−s) ……(1)
また、再生速度sが「1」を上回る高速変換の場合(1<s≦2)、区間長決定部34は以下の式(2)に基づいて区間長Lを決定する。
L=LW/(s−1) ……(2)
すなわち、再生速度sが「1」に近いほど出力区間SOUTの区間長Lは長くなる。
出力部36は、記憶回路10に格納されたサンプル列PINの各サンプルからサンプル列POUTの出力区間SOUTを生成して各サンプルを順次に出力する。図3の部分(b)および図4の部分(b)に示すように、各出力区間SOUTは、圧伸区間SAと複製区間SBとで構成される。
圧伸区間SAは、入力音声の基本周期LWを単位としてサンプル列PINを圧伸した区間である。図1に示すように、出力部36は、圧伸区間SAを生成するための圧伸処理部361を含む。再生速度sが「1」を下回る数値に維持される場合、圧伸処理部361は、図3の部分(b)に示すように、区間A(A1,A2,……)の波形と区間B(B1,B2,……)の波形とを合成した区間長LWの区間X(X1,X2,……)を区間Aと区間Bとの間隙に介挿することで圧伸区間SAを生成する。したがって、低速変換時の圧伸区間SAの区間長は「3×Lw」である。一方、再生速度sが「1」を上回る数値に維持される場合、圧伸処理部361は、図4の部分(b)に示すように、区間A(A1,A2,……)および区間B(B1,B2,……)を、区間Aの波形と区間Bの波形とを合成した区間X(X1,X2,……)に置換することで圧伸区間SAを生成する。したがって、高速変換時の圧伸区間SAの区間長は「Lw」である。区間Xの波形は、例えば、区間Aの波形と区間Bの波形とをクロスフェードすることで生成される。
出力部36は、記憶回路10から取得した区間Aや区間Bの各サンプルや両区間のサンプルから合成した区間Xのサンプルとを圧伸区間SA内の各サンプルとして出力回路40に順次に出力する。さらに、出力部36は、サンプル列PINのうち区間Bに後続する各サンプルを複製区間SB内の各サンプルとして記憶回路10から取得して出力回路40に順次に出力する。複製区間SB内の各サンプルとして記憶回路10から取得されるサンプルの個数は、出力区間SOUTが区間長Lとなるように調整される。例えば、低速変換時における圧伸区間SAの区間長は「3×LW」であるから、出力部36は、図3の部分(b)に示すように、サンプル列PINのうち区間Bの直後から区間長「L−3×LW」にわたるサンプルを複製区間SBとして順次に出力する。また、高速変換時における圧伸区間SAの区間長は「LW」であるから、出力部36は、図4の部分(b)に示すように、サンプル列PINのうち区間Bの直後から区間長「L−LW」にわたるサンプルを複製区間SBとして順次に出力する。
以上においては再生速度sが変更されない場合を想定したが、出力区間SOUT内の各サンプルを出力部36が出力している期間内に、設定部50の設定する再生速度sが変更される場合がある。図1の区間長更新部38は、設定部50が再生速度sを変更した場合に、出力区間SOUTの区間長Lを変更後の再生速度sに基づいて新たな区間長Laに更新する手段である。図3の部分(c)および図4の部分(c)は、複製区間SB内の各サンプルを出力部36が出力している途中の時点Tにて再生速度s1が再生速度s2に変更された場合が例示されている。
図3の部分(c)および図4の部分(c)に示すように、区間長更新部38は、複製区間SBのうち再生速度sの変更が指示された時点Tにてサンプルの出力が完了していない区間(すなわち再生速度sが変更された時点Tから出力区間SOUTの終点までの区間である。以下「残余区間」という)SRの区間長r1を、変更前の再生速度s1と変更後の再生速度s2とに応じた区間長r2に更新する。さらに詳述すると、第1に、変更後の再生速度s2に対する変更前の再生速度s1が低いほど更新後の残余区間SRの区間長r2が短くなるように、区間長更新部38は区間長r2を算定する。第2に、再生速度sの変更前における残余区間SRの区間長r1が長いほど区間長r2が長くなるように、区間長更新部38は区間長r2を算定する。例えば、以下の式(3)に示すように、変更後の再生速度s2に対する変更前の再生速度s1の比(s1/s2)と再生速度sの変更前の残余区間SRの区間長r1との乗算値が区間長r2として算定される。
r2=r1×(s1/s2) ……(3)
出力部36は、サンプル列PINのうち再生速度sが変更された時点Tにて未出力であった先頭のサンプルから区間長r2にわたる各サンプルを残余区間SRとして記憶回路10から順次に取得して出力回路40に出力する。
次に、図5を参照して制御回路20の各部による処理の流れを説明する。まず、基本周期特定部32は、入力音声の基本周期LWを特定する(ステップS1)。次いで、区間長決定部34は、ステップS1で特定された基本周期LWと設定部50が設定した再生速度sとから式(1)または式(2)に基づいて出力区間SOUTの区間長Lを決定する(ステップS2)。そして、出力部36は、圧伸処理部361が特定した圧伸区間SA内の各サンプルを順次に出力回路40に出力する(ステップS3)。
圧伸区間SA内の全部のサンプルの出力が完了すると、出力部36は、複製区間SB内のひとつのサンプルを出力回路40に出力し(ステップS4)、出力区間SOUT内(複製区間SB内)の全部のサンプルの出力が完了したか否かを判定する(ステップS5)。ステップS5の結果が肯定である場合、基本周期特定部32は、サンプル列PINのうち直前のステップS4にて出力したサンプルの直後のサンプルを入力区間SINの始点として新たな基本周期LWを特定する(ステップS1)。以上のようにステップS1からステップS4の処理が複数回にわたって反復されることで、入力音声のs倍の再生速度で再生される出力音声のサンプル列POUTが順次に出力回路40に蓄積される。
一方、ステップS5の結果が否定である場合、区間長更新部38は、設定部50が再生速度sを変更したか否かを判定する(ステップS6)。ステップS6の結果が否定である場合、ステップS4に処理が移行して複製区間SB内のサンプルの出力が継続される。これに対してステップS6の結果が肯定である場合(すなわち再生速度sが変更された場合)、区間長更新部38は、現段階における残余区間SRの区間長r1を、変更前の再生速度s1と変更後の再生速度s2との相対比に応じた区間長r2に更新したうえで(ステップS7)、更新後の残余区間SRに属する各サンプルの出力をステップS4にて実行する。ステップS7の処理後には、区間長r2内の全部のサンプルの出力が完了した段階でステップS5の結果が肯定される。すなわち、更新後の残余区間SR(区間長r2)の直後のサンプルを入力区間SINの始点として新たな基本周期LWの特定(ステップS1)と出力区間SOUT内の各サンプルの出力(ステップS2からステップS4)とが実行される。
次に、更新後の残余区間SRの区間長r2と変更の前後の再生速度sとの関係の具体例を列挙する。まず、残余区間SRの区間長r1が「90」の時点で再生速度sを「0.8(s1)」から「0.9(s2)」に変更した場合(すなわち低速変換の範囲内で再生速度sを上昇させる場合)、更新後の残余区間SRの区間長r2は「80」となる。また、区間長r1が「400」の時点で再生速度sを「0.9(s1)」から「0.8(s2)」に変更した場合(低速変換の範囲内で再生速度sを低下させる場合)、区間長r2は「450」となる。
区間長r1が「80」の時点で再生速度sを「1.2(s1)」から「1.6(s2)」に変更した場合(すなわち高速変換の範囲内で再生速度sを上昇させる場合)、区間長r2は「60」となる。また、区間長r1が「100」の時点で再生速度sを「1.5(s1)」から「1.2(s2)」に変更した場合(すなわち高速変換の範囲内で再生速度sを低下させる場合)、区間長r2は「125」となる。
さらに、区間長r1が「240」の時点で再生速度sを「0.8(s1)」から「1.2(s2)」に変更した場合(すなわち低速変換から高速変換に変更した場合)、区間長r2は「160」となる。また、区間長r1が「200」の時点で再生速度sを「1.2(s1)」から「0.8(s2)」に変更した場合(すなわち高速変換から低速変換に変更した場合)、区間長r2は「300」となる。
以上に例示したように、再生速度sの変更の方向や「1」を跨ぐ変更の有無に拘わらず、式(3)を共通に利用することで、再生速度s2に対する再生速度s1が低いほど短くなるように、さらには区間長r1が長いほど長くなるように、区間長r2が算定される。
以上に説明したように、再生速度sが増加すると複製区間SB(出力区間SOUT)は短縮される。すなわち、更新前の出力区間SOUTに属する全部のサンプルの出力を待たずに、変更後の再生速度sに応じたサンプルの出力(基本周期LWおよび区間長Lの算定)が開始される。したがって、当初の出力区間SOUTの完了後に再生速度sの変更が反映される従来の構成(以下「対比例1」という)と比較して、再生速度sの変更を出力音声に対して迅速に反映させることが可能となる。式(1)や式(2)から理解されるように、変更前の再生速度sが「1」に近い場合には複製区間SBの時間長が長くなるから、対比例1においては再生速度sの変更の遅延が顕著となる。以上の事情に照らすと、残余区間SRの更新によって再生速度sの変更が迅速に反映される本形態は、再生速度sを「1」に近い数値から増加させる場合に特に有効である。
また、再生速度sが増加すると残余区間SRが短縮され(r2<r1)、再生速度sが減少すると残余区間SRが延長される(r2>r1)。すなわち、残余区間SRの長短と再生速度sの変更の方向との関係は、再生速度sが高いほど出力区間SOUTの区間長Lが短くなるという関係に合致する。したがって、別の観点からすれば、残余区間SRが区間長r2に更新された時点で、出力音声には再生速度sの変更が反映されていると捉えることができる。以上の観点からしても、再生速度sの変更を迅速に反映するという本形態の所期の効果は確かに奏される。
なお、従来の技術のもとで再生速度sの変更が遅延するという問題は、再生速度sが「1」付近に設定されることで出力区間SOUTの区間長Lが長期間に設定された場合に特に深刻となる。換言すると、再生速度sが「1」付近に設定されない構成(例えば再生速度sの変更幅を増加させた構成である。以下「対比例2」という)を採用すれば、再生速度sの変更の遅延を形式的には抑制することが可能である。しかし、対比例2においては、再生速度sの分解能が著しく低下することで利便性が損なわれるという問題がある。これに対して本形態においては、再生速度sが「1」付近に設定される場合(すなわち再生速度sの変化幅を充分に縮小した場合)であっても再生速度sの変更が迅速に反映されるという利点がある。
ところで、再生速度sの変更を迅速に反映するという観点のみからすれば、再生速度sの変更が指示された直後から、変更後の再生速度sに応じた出力区間SOUTを新たに開始するという構成(以下「対比例3」という)も採用され得る。すなわち、対比例3においては、図6に示すように、複製区間SBの途中の時点Tにて再生速度sの変更が指示されると、サンプル列PINのうち時点Tの直後のサンプルを入力区間SINの先頭として新たな出力区間SOUTが設定される(すなわち基本周期LWおよび区間長Lの特定や各サンプルの出力が開始される)。
しかし、対比例3においては、再生速度sの変更のたびに出力区間SOUTが短縮されるから、例えば短時間に再生速度sが頻繁に変更された場合に、出力音声の実質的な再生速度が実際の再生速度sから乖離する可能性がある。すなわち、出力区間SOUTが短縮されることで入力区間SINのサンプル数に対する出力区間SOUTのサンプル数(すなわち再生速度s)が減少するから、出力音声は、設定部50の設定した再生速度sと比較して実質的に低い再生速度となる。再生速度sが「1」付近である場合には、式(1)や式(2)から理解されるように出力区間SOUTの区間長Lが長いから、出力区間SOUTのうち再生速度sの変更に伴なって短縮される区間長(時点T以後の区間)も必然的に長くなる。したがって、出力音声の実質的な再生速度と設定部50が設定する再生速度sとの乖離は特に顕著となる。
これに対して本形態においては、再生速度sの変更後に区間長r2にわたるサンプルの出力が完了してから次の出力区間SOUTが開始される。しかも、区間長r2は変更の前後の再生速度に応じて増減する。したがって、短時間に再生速度sが頻繁に変更された場合であっても、出力区間SOUTが新規に開始される頻度は対比例3よりも減少する。すなわち、本形態によれば、出力音声の実質的な再生速度と設定部50が設定する再生速度sとの乖離(誤差)を対比例3と比較して抑制する(出力音声の再生速度を高い精度で制御する)ことが可能である。
<B:変形例>
以上の各形態には様々な変形を加えることができる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の各態様を適宜に組み合わせてもよい。
(1)変形例1
以上の形態においては、出力音声の再生速度sを設定部50が設定する形態を例示したが、設定部50による設定の対象は再生速度sに限定されない。例えば、入力区間SIN内のサンプル数s_inに対する出力区間SOUT内のサンプル数s_outの比である圧伸率a(a=s_out/s_in)が設定部50によって設定される構成も採用される。圧伸率aが設定される構成においては、以上の各形態における再生速度sを圧伸率aの逆数に置換すればよい。以上のように、設定部50が設定する数値は、音声の再生速度を定める指標値(速度指標値)であれば足り、再生速度sや圧伸率aは速度指標値の例示に過ぎない。
(2)変形例2
出力区間SOUTの区間長Lや残余区間SRの区間長r2を算定する方法(式(1)から式(3))は適宜に変更される。また、以上の形態においては式(1)から式(3)の数式に基づく演算で区間長Lや区間長r2が算定される構成を例示したが、予め作成されたテーブルに基づいて区間長Lや区間長r2が特定される構成も採用される。例えば、再生速度sと基本周期LWとの各組合せに対して区間長Lが対応づけられたテーブルを作成しておき、設定部50が設定した再生速度sと基本周期特定部32が特定した基本周期LWとに対応する区間長Lを区間長決定部34が検索する構成も採用される。同様に、変更前の再生速度s1と変更後の再生速度s2と残余区間SRの区間長r1との各組合せに対して区間長r2が対応付けられたテーブルを作成しておき、設定部50による変更前の再生速度s1と変更後の再生速度s2と区間長r1とに対応する区間長r2を区間長更新部38が検索する構成も採用される。
(3)変形例3
以上の形態においては、複製区間SB内のサンプルの出力中に再生速度sが変更された場合に当該複製区間SBの残余区間SRの区間長r1を更新する構成を例示したが、圧伸区間SA内のサンプルの出力中に再生速度sが変更された場合に残余区間SRの区間長r1を更新する構成も採用される。例えば、図3の部分(b)に示す区間B1内(圧伸区間SA内)のサンプルを出力部36が出力している期間内に再生速度sが変更されると、区間長更新部38は、区間B1のうち再生速度sの変更後の区間と直後の複製区間SBとを加算した残余区間SRの区間長r1を、変更の前後の再生速度sに基づいて区間長r2に更新する。以上のように、本発明のひとつの形態においては、出力区間SOUTのうち再生速度sの変更後の残余区間SRの区間長r1が変更の前後の再生速度sに応じて更新される構成であれば足り、圧伸区間SAと複製区間SBとを残余区間SRの更新に関して区別する必要は必ずしもない。
(4)変形例4
以上の形態においては、区間Aの波形と区間Bの波形とを合成した波形(区間X)を区間Aと区間Bとの間隙に挿入することで低速変換を実現したが、低速変換の具体的な方法は適宜に変更される。例えば、区間Aと区間Bとの間隙に区間Aの波形が重複的に挿入される構成も採用される。また、以上の形態においては、区間Aの波形と区間Bの波形とを合成した波形(区間X)を区間Aおよび区間Bに置換することで高速変換を実現したが、高速変換の具体的な方法も任意である。例えば、区間Aまたは区間Bの波形を削除する構成も採用される。以上のように、本発明が適用される範囲は、非特許文献1のPICOLA(Pointer Interval Controlled OverLap and Add)を採用した時間軸圧伸装置に限定されない。
本発明の実施形態に係る時間軸圧伸装置の構成を示すブロック図である。 入力区間と出力区間との関係を示す概念図である。 低速変換時の制御回路の動作を説明するための概念図である。 高速変換時の制御回路の動作を説明するための概念図である。 制御回路の動作を示すフローチャートである。 対比例の動作を説明するための概念図である。 時間軸圧伸の手順を説明する概念図である。
符号の説明
100……時間軸圧伸装置、10……記憶回路、20……制御回路、32……基本周期特定部、34……区間長決定部、36……出力部、38……区間長更新部、40……出力回路、50……設定部、PIN……入力音声のサンプル列、POUT……出力音声のサンプル列、SIN……入力区間、SOUT……出力区間、SR……残余区間、r1……更新前の残余区間の区間長、r2……更新後の残余区間の区間長。

Claims (6)

  1. 音声の波形を示すサンプル列を記憶する記憶手段と、
    前記音声の再生速度を定める速度指標値を設定する設定手段と、
    前記音声の基本周期と前記設定手段が設定した速度指標値とに基づいて圧伸後の出力区間の区間長を決定する区間長決定手段と、
    前記出力区間内の各サンプルを順次に出力する出力手段と、
    前記出力区間内の各サンプルを前記出力手段が出力する期間内に前記設定手段が速度指標値を変更すると、前記出力区間のうち速度指標値の変更後の残余区間の区間長を、変更前の速度指標値と変更後の速度指標値とに応じた区間長に更新する区間長更新手段と
    を具備する時間軸圧伸装置。
  2. 前記区間長決定手段は、前記音声の基本周期を単位として当該音声のサンプル列を圧伸した圧伸区間と前記サンプル列の各サンプルを配列した複製区間とで構成される前記出力区間の区間長を、前記音声の基本周期と前記設定手段が設定した速度指標値とに基づいて決定し、
    前記区間長更新手段は、前記複製区間内の各サンプルを前記出力手段が出力する期間内に前記設定手段が速度指標値を変更すると、前記複製区間のうち速度指標値の変更後の残余区間の区間長を、変更前の速度指標値と変更後の速度指標値とに応じた区間長に更新する
    請求項1に記載の時間軸圧伸装置。
  3. 前記区間長更新手段は、前記変更後の速度指標値に対応した再生速度に対する前記変更前の速度指標値に対応した再生速度が低いほど前記残余区間の区間長が短くなるように区間長を更新する
    請求項1または請求項2に記載の時間軸圧伸装置。
  4. 前記区間長更新手段は、前記残余区間を、変更後の速度指標値に対応した再生速度に対する変更前の速度指標値に対応した再生速度の比と、当該更新前の残余区間の区間長との乗算値に応じた区間長に更新する
    請求項3に記載の時間軸圧伸装置。
  5. コンピュータに、
    前記音声の再生速度を定める速度指標値を設定する設定処理と、
    前記音声の基本周期と前記設定処理で設定した速度指標値とに基づいて圧伸後の出力区間の区間長を決定する区間長決定処理と、
    前記出力区間内の各サンプルを記憶手段から取得して順次に出力する出力処理と、
    前記出力区間内の各サンプルを前記出力処理にて出力する期間内に前記速度指標値が変更されると、当該出力区間のうち速度指標値の変更後の残余区間の区間長を、変更前の速度指標値と変更後の速度指標値とに応じた区間長に更新する区間長更新処理と
    を実行させるプログラム。
  6. 前記音声の再生速度を定める速度指標値を設定し、
    前記音声の基本周期と前記設定した速度指標値とに基づいて圧伸後の出力区間の区間長を決定し、
    前記出力区間内の各サンプルを記憶手段から取得して順次に出力する一方、
    前記出力区間内の各サンプルを出力する期間内に前記速度指標値が変更されると、前記出力区間のうち速度指標値の変更後の残余区間の区間長を、変更前の速度指標値と変更後の速度指標値とに応じた区間長に更新する
    時間軸圧伸方法。
JP2007036244A 2007-02-16 2007-02-16 時間軸圧伸装置、時間軸圧伸方法およびプログラム Expired - Fee Related JP5141033B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007036244A JP5141033B2 (ja) 2007-02-16 2007-02-16 時間軸圧伸装置、時間軸圧伸方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007036244A JP5141033B2 (ja) 2007-02-16 2007-02-16 時間軸圧伸装置、時間軸圧伸方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2008203322A true JP2008203322A (ja) 2008-09-04
JP5141033B2 JP5141033B2 (ja) 2013-02-13

Family

ID=39780942

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007036244A Expired - Fee Related JP5141033B2 (ja) 2007-02-16 2007-02-16 時間軸圧伸装置、時間軸圧伸方法およびプログラム

Country Status (1)

Country Link
JP (1) JP5141033B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0411300A (ja) * 1990-04-28 1992-01-16 Sanyo Electric Co Ltd 音声信号の時間圧縮伸長方法
JPH07302097A (ja) * 1994-05-10 1995-11-14 Sanyo Electric Co Ltd 音声の時間軸圧縮方法、及び伸長方法、並びに音声の時間軸圧縮伸長方法
JPH1195794A (ja) * 1997-09-22 1999-04-09 Yamaha Corp ピッチ/テンポ変換方法及び装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0411300A (ja) * 1990-04-28 1992-01-16 Sanyo Electric Co Ltd 音声信号の時間圧縮伸長方法
JPH07302097A (ja) * 1994-05-10 1995-11-14 Sanyo Electric Co Ltd 音声の時間軸圧縮方法、及び伸長方法、並びに音声の時間軸圧縮伸長方法
JPH1195794A (ja) * 1997-09-22 1999-04-09 Yamaha Corp ピッチ/テンポ変換方法及び装置

Also Published As

Publication number Publication date
JP5141033B2 (ja) 2013-02-13

Similar Documents

Publication Publication Date Title
JP6141358B2 (ja) 同期オーディオ再生の方法、装置、およびシステム
JP3744216B2 (ja) 波形形成装置及び方法
JP6090204B2 (ja) 音響信号発生装置
WO2014003072A1 (ja) オーディオ波形データを使用する自動演奏技術
JPH0736455A (ja) 音楽イベントインデックス作成装置
JP2010113278A (ja) 楽曲処理装置およびプログラム
JP5141033B2 (ja) 時間軸圧伸装置、時間軸圧伸方法およびプログラム
JP6171393B2 (ja) 音響合成装置および音響合成方法
JP4968109B2 (ja) オーディオデータ変換再生システム、オーディオデータ変換装置、オーディオデータ再生装置
JP2006153908A (ja) 音声データエンコード装置および音声データデコード装置
JP6680029B2 (ja) 音響処理方法および音響処理装置
JP6350692B2 (ja) 音響信号発生装置
JP3904012B2 (ja) 波形生成装置及び方法
US11348596B2 (en) Voice processing method for processing voice signal representing voice, voice processing device for processing voice signal representing voice, and recording medium storing program for processing voice signal representing voice
JP5359203B2 (ja) 楽曲処理装置およびプログラム
JP5807419B2 (ja) 信号処理装置
JP7343320B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP2008209447A (ja) 時間軸圧伸方法、時間軸圧伸装置、プログラムおよび基本周期特定方法
JP6350693B2 (ja) 音響信号発生装置
JP6364885B2 (ja) 楽曲処理装置および楽曲処理方法
JP2017111274A (ja) データ処理装置
JP4595852B2 (ja) 演奏データ処理装置及びプログラム
JP2018072698A (ja) 信号処理方法、および信号処理装置
JP6424462B2 (ja) オーディオ信号の時間軸圧縮伸張方法および装置並びにプログラム
JP4120979B2 (ja) 波形再生装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091215

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110812

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111227

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120223

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120904

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121003

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121023

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121105

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151130

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5141033

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees