JP2016004234A - 音声再生装置および音声再生方法 - Google Patents

音声再生装置および音声再生方法 Download PDF

Info

Publication number
JP2016004234A
JP2016004234A JP2014126321A JP2014126321A JP2016004234A JP 2016004234 A JP2016004234 A JP 2016004234A JP 2014126321 A JP2014126321 A JP 2014126321A JP 2014126321 A JP2014126321 A JP 2014126321A JP 2016004234 A JP2016004234 A JP 2016004234A
Authority
JP
Japan
Prior art keywords
speech
signal
decoding
speed conversion
speech speed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014126321A
Other languages
English (en)
Other versions
JP6385153B2 (ja
Inventor
茂明 鈴木
Shigeaki Suzuki
茂明 鈴木
渉 伏見
Wataru Fushimi
渉 伏見
山浦 正
Tadashi Yamaura
正 山浦
渡邊 明彦
Akihiko Watanabe
明彦 渡邊
雅文 江藤
Masafumi Eto
雅文 江藤
豊 松枝
Yutaka Matsueda
豊 松枝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Mitsubishi Electric Building Solutions Corp
Original Assignee
Mitsubishi Electric Corp
Mitsubishi Electric Building Techno Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp, Mitsubishi Electric Building Techno Service Co Ltd filed Critical Mitsubishi Electric Corp
Priority to JP2014126321A priority Critical patent/JP6385153B2/ja
Publication of JP2016004234A publication Critical patent/JP2016004234A/ja
Application granted granted Critical
Publication of JP6385153B2 publication Critical patent/JP6385153B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】符号化された音声を復号し、さらに話速変換を行う音声再生装置において、音声復号処理の一時的な演算量の増大を抑制する。
【解決手段】符号化音声信号をあらかじめ設定された復号条件に基づいて復号する音声復号部1と、復号した音声信号を蓄積する蓄積部2と、蓄積された音声信号の音声信号波形の基本周期を算出し、算出した基本周期およびあらかじめ設定された話速に基づき音声信号波形の伸長または圧縮を行い、音声信号の再生速度を変換して出力音声信号を生成する話速変換部3と、話速変換部3が算出した音声信号波形の基本周期、およびあらかじめ設定された話速に基づき音声復号部1の復号条件を決定する復号動作制御部4とを備える。
【選択図】図1

Description

この発明は、高能率符号化された音声の再生速度を変換する話速変換を行うと共に、当該話速変換を行った音声を再生する技術に関するものである。
近年、CELP(Code Excited Linear Prediction)方式やMPEGオーディオ方式など、高能率な音声・音響符号化方式が、通信、放送分野や録音再生システムなどに広く適用されている。また、これらの音声・音響符号化方式に加えて、再生音声を短時間で聞く、あるいは再生音声を聞き取り易い音声に変換するため、音声の高さや声質を変化させることなく音声信号の再生速度を変換させる話速変換技術が併用される場合がある。
話速変換処理について図7および図8を参照しながら説明する。まず、図7は音声信号の再生速度を上げる場合の話速変換処理の原理を示す説明図である。
話速変換前信号に対して、まず位置(X1)からの信号の基本周期Tp1を算出する。次に、位置(X1)から基本周期Tp1後(位置(X2))までの信号をフェードアウトさせた信号と、位置(X1)の基本周期Tp1後(位置(X2))から2×Tp1後(位置(X3))までの信号をフェードインさせた信号とを生成する。さらに生成したフェードアウトさせた信号とフェードインさせた信号を合算した長さTp1の信号を生成し、話速変換後信号として出力する。
フェードインとフェードアウトを三角窓で実現する場合、話速変換前信号をx(t)(t:時間)、位置(X1)の時間をt1とすると、フェードイン信号と、フェードアウト信号との合成により生成した話速変換後信号y(t)(t1≦t≦t1+Tp1)は以下の式(1)で表わされる。
y(t)={(t1+Tp1−t)/Tp1}x(t)
+{(t−t1)/Tp1}x(t+Tp1)・・・(1)
図7で示した話速変換後信号において、上述した話速変換後の部分の出力信号を太線 で表している。
その後、位置(X3)から位置(X4)までの信号を話速変換することなく出力する。これにより、長さTp1+T1の話速変換前信号が、長さT1に短縮されて話速変換後信号となり、当該話速変換後信号の話速は(Tp1+T1)/T1倍となる。ここでT1は話速調整用時間であり、話速をs倍とするには、T1=Tp1/(s−1)とする。以降、位置(X1)から位置(X4)までの処理と同様の処理を繰り返す。図7の例では、位置(X4)からの信号の基本周期Tp2を算出し、位置(X4)以降の信号をフェードアウト、フェードインして加算した信号を生成するまでを示している。
次に、音声信号の再生速度を下げる場合について説明する。図8は音声信号の再生速度を下げる場合の話速変換処理の原理を示す説明図である。
まず、位置(Y1)の前後の信号の基本周期Tp1を算出する。次に、位置(Y1)の基本周期Tp1前から位置(Y1)までの信号をフェードインさせた信号と、位置(Y1)から位置(Y1)の基本周期Tp1後までの信号をフェードアウトさせた信号を生成する。さらに生成したフェードインさせた信号とフェードアウトさせた信号を合算した長さTp1の信号を生成し、話速変換後信号として出力する。図8で示した話速変換後信号において、上述した話速変換後の部分の出力信号を太線で表している。
その後、位置(Y1)から位置(Y2)までの信号を話速変換することなく出力する。これにより、長さT1の話速変換前信号が、長さTp1+T1に伸長されて話速変換後信号となり、話速変換後信号の話速はT1/(Tp1+T1)倍となる。つまり、話速をs倍とするには、T1=Tp1×s/(1−s)となるようにT1を決定する。以降、位置(Y1)から位置(Y2)までの処理と同様の処理を繰り返す。図8の例では、位置(Y2)の前後の信号の基本周期Tp2を算出し、位置(Y2)の前後の信号をフェードイン、フェードアウトして加算した信号を生成し、さらに位置(Y2)からの信号を出力するまでを示している。
上述した話速変換処理においては、音声の基本周期を算出する処理の演算量が大きい。このため、高能率符号化された音声信号を復号しながら話速変換処理を行う場合に演算量を低減する技術が開示されている。例えば、特許文献1の音声再生装置では、高能率符号化された音声符号の中から基本周期の情報と有声か無声かを示すモード情報とを取り出し、取り出した情報を話速変換処理で利用することにより演算量を低減している。
特開平9−330097号公報
しかしながら、上述した特許文献1に開示された技術では、CELP方式のように高能率符号化された音声符号に基本周期の情報が含まれる場合は演算量を低減することができるが、MPEGオーディオ方式のように音声符号に基本周期の情報が含まれない場合、演算量を低減することが困難であるという課題があった。さらに、基本周期の算出、およびフェードアウト信号、フェードイン信号の生成と加算を行う場合に、高能率符号化された音声符号を復号する音声復号処理の演算量が一時的に増大するという課題があった。
ここで、図9および図10を参照しながら、音声復号処理の演算量の変化について説明を行う。まず、図9は音声信号の再生速度を上げる場合の音声復号処理の演算量の変化を示す説明図である。図9における話速変換前後の音声信号波形は上述した図7と同様であり、話速変換前信号の基本周期Tp1,Tp2、および話速調整用時間T1も図7と同様である。一方、最大基本周期Tmaxは、信号の基本周期として想定される最大値である。基本周期の算出処理は、音声信号波形の類似性が最も高い時間間隔を探す処理であり、一般に最大基本周期Tmaxの2倍の長さの信号が必要となる。図9では、基本周期Tp1および基本周期Tp2を算出する際に必要となる信号に相当する部分に「2×Tmax」と示している。
また、話速変換前の入力信号は高能率符号化された音声符号が復号された信号である。高能率音声・音響符号化は、通常、特定の時間長単位で入力信号を符号化・復号するもので、この時間長は符号化フレームと呼ばれる。図9では、話速変換前の信号の下方に符号化フレーム境界を示し、各符号化フレームには後述する説明で使用するため便宜上番号を付している。また、話速変換後信号の下方には、話速変換処理のタイミングを示している。話速変換処理は当該話速変換処理のタイミング毎に行われ、次の話速変換処理のタイミングまでの時間に相当する信号を出力するものとする。なお、後述する説明で使用するため話速変換処理タイミングの一部に(a)〜(e)なる記号を付している。
話速変換処理のタイミングの下方には、各タイミングにおいて必要となる話速変換前の信号の符号化フレーム番号を示している。以下、符号化フレーム番号について順に説明する。まず、話速変換処理タイミング(a)において、符号化フレーム「4」までの音声復号手段の出力信号が必要となる。これは、当該タイミングで信号の基本周期を算出するためである。図9において、基本周期の算出には、符号化フレーム「1」の先頭を算出起点として、その算出起点から2×Tmaxの信号を必要とする。そして、話速変換処理タイミング(b)までは、符号化フレーム「4」までの音声復号手段の出力信号により、話速変換後信号を生成することができる。その後、話速変換処理タイミング(c)の時点から話速変換処理タイミング(d)までは、話速変換処理のタイミング毎に1ずつ大きい符号化フレームの信号が必要となる。そして、話速変換処理タイミング(e)においては信号の基本周期を算出するため、符号化フレーム「12」までの音声復号手段の出力信号が必要となる。つまり話速変換処理タイミング(d)と比較すると、話速変換処理タイミング(e)で新たに5フレーム分の音声復号手段の出力信号が必要となる。このため、音声復号処理の演算量が一時的に増大する。
次に、音声信号の再生速度を下げる場合について説明する。図10は音声信号の再生速度を下げる場合の音声復号処理の演算量の変化を示す説明図である。
図10における話速変換前後の音声信号波形は上述した図8と同様であり、話速変換前の信号の基本周期Tp1,Tp2、および話速調整用時間T1も図8と同様である。また、符号化フレーム境界、話速変換処理のタイミング、当該タイミングにおいて必要となる話速変換前の信号に対応する符号化フレーム番号を図9と同様に示している。
まず、話速変換処理タイミング(a)において、符号化フレーム「3」までの音声復号手段の出力信号が必要となる。これは、信号の基本周期を算出する際、その基本周期算出起点(位置(Z1))の前後の最大基本周期Tmaxの信号を必要とするためである。なお、基本周期の算出起点に対してその前後の信号を用いて基本周期を探索する点は、話速を上げる場合に基本周期の算出起点から未来方向に2×Tmaxの長さの信号を必要とした図9の場合と異なる。
次に、話速変換処理タイミング(b)までは、符号化フレーム「3」の音声復号手段の出力信号により、話速変換後信号を生成することができる。話速変換処理タイミング(c)から話速変換処理タイミング(d)までは、出力タイミング毎に1ずつ大きい符号化フレームの信号が必要となる。話速変換処理タイミング(e)においては再び信号の基本周期を算出するために、符号化フレーム「10」までの信号が必要となる。つまり、話速変換処理タイミング(d)と比較すると、話速変換処理タイミング(e)で新たに2符号化フレーム分の信号が必要となり、これにより音声復号処理の演算量が一時的に増大する。
以上のように、音声復号処理および話速変換処理とを備えた音声再生装置では、音声符号に基本周期の情報が含まれない場合、話速変換処理の基本周期算出において一時的に音声復号処理の演算量が増大するという課題があった。
この発明は、上記のような課題を解決するためになされたもので、符号化された音声を復号し、さらに話速変換を行う音声再生装置において、音声復号処理の一時的な演算量の増大を抑制することを目的とする。
この発明に係る音声再生装置は、符号化音声信号をあらかじめ設定された復号条件に基づいて復号する音声復号部と、音声復号部が復号した音声信号を蓄積する蓄積部と、蓄積部に蓄積された音声信号の音声信号波形の基本周期を算出し、算出した基本周期およびあらかじめ設定された話速に基づき音声信号波形の伸長または圧縮を行い、音声信号の再生速度を変換して出力音声信号を生成する話速変換部と、話速変換部が算出した音声信号波形の基本周期、およびあらかじめ設定された話速に基づき音声復号部の復号条件を決定する復号動作制御部とを備えるものである。
この発明によれば、音声復号処理の一時的な演算量の増大を抑制することができる。
実施の形態1による音声再生装置の構成を示すブロック図である。 実施の形態1による音声再生装置の動作を示すフローチャートである。 実施の形態1による音声再生装置の話速を上げる場合の話速変換処理を示す説明図である。 実施の形態1による音声再生装置の話速を下げる場合の話速変換処理を示す説明図である。 実施の形態3による音声再生装置の構成を示すブロック図である。 実施の形態3による音声再生装置の動作を示すフローチャートである。 音声信号の再生速度を上げる場合の話速変換処理の原理を示す説明図である。 音声信号の再生速度を下げる場合の話速変換処理の原理を示す説明図である。 音声信号の再生速度を上げる場合の音声復号処理の演算量の変化を示す説明図である。 音声信号の再生速度を下げる場合の音声復号処理の演算量の変化を示す説明図である。
実施の形態1.
図1は、実施の形態1による音声再生装置の構成を示すブロック図である。
音声再生装置10は、音声復号部1、蓄積部2、話速変換部3および復号動作制御部4で構成されている。
音声復号部1は、高能率符号化された符号化音声の復号処理を行う。より詳細には、後述する話速変換処理に先立ち、話速変換処理タイミング毎に、後述する復号動作制御部4から指定される復号すべきフレーム数に基づいて復号処理を行う。蓄積部2は、例えばFIFO(First In Fast Out)バッファなどで構成され、音声復号部1が復号した音声信号を一時蓄積する。話速変換部3は、蓄積部2に蓄積された音声信号の再生速度を変換することにより話速変換を行って出力音声信号を生成し、出力する。復号動作制御部4は、音声復号部1の復号動作を制御する制御情報として、音声復号部1が復号すべきフレーム数(以下、動作フレーム数と称する)を算出する。
次に、実施の形態1の音声再生装置10の動作について説明する。
図2は、この発明の実施の形態1による音声再生装置の動作を示すフローチャートである。
高能率符号化された符号化音声が入力されると(ステップST1)、音声復号部1は当該高能率符号化された符号化音声に対して、あらかじめ復号動作制御部4から指定された動作フレーム数の復号処理を話速変換処理タイミング毎に行う(ステップST2)。ステップST2で復号された音声信号は蓄積部2に出力され、蓄積部2は入力された音声信号を一時蓄積する(ステップST3)。
話速変換部3は、ステップST3で蓄積された音声信号の再生速度を、話速変換処理タイミング毎に設定された話速に変換する(ステップST4)。話速変換部3は、ステップST4で再生速度を変換した出力音声信号を外部に出力する(ステップST5)と共に、ステップST4の話速変換処理において算出された音声の基本周期を復号動作制御部4に出力する(ステップST6)。復号動作制御部4は、ステップST6で入力された音声の基本周期に基づいて音声復号部1の動作フレーム数を算出し、音声復号部1に出力する(ステップST7)。音声復号部1は、設定されている動作フレーム数をステップST7で入力された動作フレーム数に更新する(ステップST8)。その後、フローチャートはステップST1の処理に戻り、上述した処理を繰り返す。
次に、図3を参照しながら復号動作制御部4の動作をより詳細に説明する。
図3は、実施の形態1による音声再生装置において音声信号の再生速度を上げる場合の話速変換処理を示す説明図である。
図3では、音声復号部1の出力である話速変換前の信号(以下、話速変換前信号と称する)、話速変換前信号の符号化フレーム境界、話速変換部3の出力である話速変換後の信号(以下、話速変換後信号と称する)および話速変換処理タイミングを示している。また、話速変換前信号の上部には基本周期Tp1、基本周期Tp2、基本周期Tp1算出後の話速調整用時間T1、想定される基本周期の最大値である最大基本周期Tmaxを示している。また、符号化フレーム境界は、音声符号の符号化フレーム長Tcを用いて示している。
さらに、話速変換処理タイミングは、音声復号部1、話速変換部3および復号動作制御部4の動作周期Toを用いて示している。復号動作制御部4は話速変換処理タイミング毎、即ち動作周期To毎に音声復号部1の動作フレーム数を算出し、音声復号部1は算出された動作フレーム数に基づいて符号化音声の復号処理を行い、話速変換部3は復号された音声信号の話速変換処理を行い、動作周期Toの長さの話速変換後信号を出力音声信号として出力する。また、話速変換後信号において、話速変換後に対応する部分の出力音声信号を太線で表わしている。
なお、図3においても上述した図9と同様に、話速変換処理タイミングの一部に(a)〜(g)の記号を付している。図3で示した信号長Taは、話速変換処理タイミング(a)で出力する話速変換後信号の先頭から基本周期Tp1を算出する場合の基本周期算出基点までの信号長を示している。信号長Taの値は、基本周期Tp1の前の基本周期を算出した時点での基本周期算出起点から話速調整用時間経過後の時点であるため、話速変換処理タイミング(a)においては既知の値である。
また、信号長Tbは話速変換処理タイミング(a)において音声復号部1が復号処理を行った時点、即ち話速変換部3が話速変換処理を行う前の時点において復号済み且つ未出力の信号長を示している。当該話速変換処理タイミング(a)において話速変換部3が出力する信号には、先頭から信号長Ta後に次の基本周期算出起点がある。従って、話速変換処理タイミング(a)では、話速変換前信号として話速変換部3が基本周期を算出するために必要な長さの信号、すなわち符号化フレーム境界の位置(A2)までの信号が復号されていなければならない。つまり、信号長Tbは、話速変換出力前の信号の先頭位置(A1)から符号化フレーム境界の位置(A2)までの長さ以上の信号長である必要がある。
以下、上述した条件、即ち話速変換処理タイミング(a)において音声復号部1の動作が完了した時点で、信号長Tbは話速変換出力前の信号の先頭位置(A1)から符号化フレーム境界の位置(A2)までの長さ以上であるという条件を満たしているものとして説明を行う。言い換えると、上述した条件は復号動作制御部4が以下に示す動作を行うことにより満たされる。
次に、話速変換処理タイミング(b)〜(g)における復号動作制御部4の動作について説明する。
まず、復号動作制御部4は話速変換処理タイミング(b)において、次に基本周期を算出する話速変換処理タイミング(g)までの話速変換処理タイミング回数noを以下の式(2)に基づいて算出する。
no=floor{(Ta+T1)/To}・・・(2)
式(2)において、floor{x}はx以下の最大の整数である。また、T1は話速変換処理タイミング(a)において話速変換部3が算出した基本周期Tp1および話速設定sから、T1=Tp1/(s−1)により求められる。図3の例では、式(2)により求めた話速変換処理タイミング回数no=6となる。
次に、復号動作制御部4は話速変換処理タイミング(g)までに復号されるべき符号化フレーム数nfを求める。符号化フレーム数nfは、話速変換処理タイミング(g)において、次の基本周期を算出するために符号化フレーム境界(A3)までの信号が復号済みとなるように決定する。具体的には、以下の式(3)に基づいて算出する。
nf=ceil{(Ta+Tp1+T1+2・Tmax−Tb)/Tc}・・・(3)
式(3)において、ceil{x}はx以上の最小の整数を表す。図3の例では、式(3)により求めた符号化フレーム数nf=8となる。
上述した話速変換処理タイミング回数noおよび符号化フレーム数nfを用いて、以降話速変換処理タイミング(b)から(g)までの話速変換処理タイミング回数noの間に符号化フレーム数nfの符号化フレームの音声が復号されるように設定する。具体的には、話速変換処理タイミング(b)から(g)までの間、話速変換処理タイミング毎に、以下の式(4)に基づいて音声復号部1の動作フレーム数npを算出すると共に、式(5)に基づいて音声復号部1の符号化フレーム数nfおよび話速変換処理タイミング回数noの更新を行う。
np=ceil(nf/no)・・・(4)

nf=nf−np
no=no−1 ・・・(5)
図3の例では、話速変換処理タイミング(b)において動作フレーム数np=2、話速変換処理タイミング(c)において動作フレーム数np=2、話速変換処理タイミング(d)において動作フレーム数np=1、話速変換処理タイミング(e)においてで動作フレーム数np=1、話速変換処理タイミング(f)において動作フレーム数np=1、話速変換処理タイミング(g)において動作フレーム数np=1となる。
上述した手順により決定した動作フレーム数npに従って音声復号部1が復号動作を行うと、話速変換処理タイミング(g)において、次の基本周期Tp2を算出するために必要となる信号が復号済みとなる。従って、話速変換処理タイミング(a)に至るまでの処理も上述した手順に従ったとすると、話速変換処理タイミング(a)において基本周期Tp1を算出するために必要な信号が復号済みであること、つまり信号長Tbは話速変換出力前の信号の先頭位置(A1)から符号化フレーム境界位置(A2)までの長さとなっていることは自明である。
音声再生装置10が起動後に初めて話速変換を開始する場合や、話速が1倍速の状態から再生速度を上げる場合、最初の話速変換処理タイミングにおいて信号の基本周期を算出する場合、信号長Tbが0または非常に小さい値であるため、最初の話速変換処理タイミングのみ音声復号部1の演算量が増大する。そこで、話速調整用時間T1の初期値T1_iniをあらかじめ設定しておき、最初の話速変換処理タイミングのみ上述した話速変換処理タイミング回数no、符号化フレーム数nf、信号長Taを以下の式(6)に基づいて算出する。
no=ceil{(T1_ini)/To}
nf=ceil{(T1_ini+2・Tmax−Tb)/Tc}・・・(6)
Ta=0
初期値T1_iniを十分大きい値に設定することにより、話速変換が実質的に開始されるまでに時間を要するが、音声復号部1の演算量増大を防止することができる。
次に、図4を参照しながら音声信号の再生速度を下げる場合の復号動作制御部4の動作を説明する。図4は、実施の形態1による音声再生装置において音声信号の再生速度を下げる場合の話速変換処理を示す説明図である。
図4では、図3と同様に話速変換前信号、符号化フレーム境界、話速変換後信号および話速変換処理タイミングを示している。話速変換前信号の上部には基本周期Tp1、基本周期Tp2、基本周期Tp1算出後の話速調整用時間T1、想定される基本周期の最大値である最大基本周期Tmaxを示している。また、符号化フレーム境界は、音声符号の符号化フレーム長Tcを用いて示している。
動作周期Toは音声復号部1および話速変換部3の動作周期を示している。復号動作制御部4は、話速変換処理タイミング毎、即ち動作周期To毎に音声復号部1の符号化フレーム数を算出し、音声復号部1は算出された符号化フレーム数に基づいて復号処理を行い、話速変換部3は復号された音声信号の話速変換処理を行い、動作周期Toの長さの話速変換後信号を出力音声信号として出力する。また、話速変換後信号において、話速変換後に対応する部分の出力音声信号を太線で表わしている。
なお、図4においても上述した図9と同様に、話速変換処理タイミングの一部に(a)〜(i)の記号を付している。図4で示した信号長Taは、話速変換処理タイミング(a)で出力する話速変換後信号の先頭から基本周期Tp1を算出する場合の基本周期算出基点までの信号長を示している。信号長Taの値は、基本周期Tp1の前の基本周期を算出した時点での基本周期算出起点から話速調整用時間経過後の時点であるため、話速変換処理タイミング(a)においては既知の値である。
また、信号長Tbは話速変換処理タイミング(a)において音声復号部1が復号処理を行った時点、即ち話速変換部3が話速変換処理を行う前の時点において復号済み且つ未出力の信号長を示している。当該話速変換処理タイミング(a)において話速変換部3が出力する信号には、先頭から信号長Ta後に次の基本周期算出タイミング(b)がある。従って、話速変換処理タイミング(a)では、話速変換前信号として話速変換部3が基本周期を算出するために必要な長さの信号、すなわち符号化フレーム境界の位置(B2)までの信号が復号されていなければならない。つまり、信号長Tbは、話速変換出力前の信号の先頭位置(B1)から符号化フレーム境界の位置(B2)までの長さ以上の信号長である必要がある。
以下、上述した条件、即ち話速変換処理タイミング(a)において音声復号部1の動作が完了した時点で、信号長Tbは話速変換出力前の信号の先頭位置(B1)から符号化フレーム境界の位置(B2)までの長さ以上であるという条件を満たしているものとして説明を行う。言い換えると、上述した条件は復号動作制御部4が以下に示す動作を行うことにより満たされる。
次に、話速変換処理タイミング(b)〜(i)における復号動作制御部4の動作について説明する。
まず、復号動作制御部4は話速変換処理タイミング(b)において、次に基本周期を算出する話速変換処理タイミング(i)までの話速変換処理タイミング回数noを以下の式(7)に基づいて算出する。
no=floor{(Ta+Tp1+T1)/To}・・・(7)
式(7)において、T1は話速変換処理タイミング(a)において話速変換部3が算出した基本周期Tp1および話速設定sから、T1=Tp1×s/(1−s)により求められる。図4の例では、式(7)により求めた話速変換処理タイミング回数no=8となる。
次に、復号動作制御部4は話速変換処理タイミング(i)までに復号されるべき符号化フレーム数nfを求める。符号化フレーム数nfは、話速変換処理タイミング(i)において、次の基本周期を算出するために符号化フレーム境界(B3)までの信号が復号済みとなるように決定する。具体的には、以下の式(8)に基づいて算出する。
nf=ceil{(Ta+T1+Tmax−Tb)/Tc}・・・(8)
式(8)において、ceil{x}はx以上の最小の整数を表す。図4の例では、式(8)により求めた符号化フレーム数nf=7となる。
以降、上述した音声信号の再生速度を上げる場合と同様、話速変換処理タイミング回数noおよび符号化フレーム数nfを用いて、話速変換処理タイミング(b)から(i)までの話速変換処理タイミング回数noの間に符号化フレーム数nfの符号化フレームの音声が復号されるように設定する。具体的には、話速変換処理タイミング(b)から(i)までの間、話速変換処理タイミング毎に、以下の式(9)に基づいて音声復号部1が動作フレーム数npを算出すると共に、式(9)に基づいて音声復号部1の符号化フレーム数nfおよび話速変換処理タイミング回数noの更新を行う。
np=ceil(nf/no

nf=nf−np・・・(9)
no=no−1
図4の例では、話速変換処理タイミング(b)において動作フレーム数np=1、話速変換処理タイミング(c)において動作フレーム数np=1、話速変換処理タイミング(d)において動作フレーム数np=1、話速変換処理タイミング(e)において動作フレーム数np=1、話速変換処理タイミング(f)において動作フレーム数np=1、話速変換処理タイミング(g)において動作フレーム数np=1、話速変換処理タイミング(h)において動作フレーム数np=1、話速変換処理タイミング(i)において動作フレーム数np=0となる。
上述した手順により決定した動作フレーム数npに従って音声復号部1が復号動作を行うと、話速変換処理タイミング(i)の時点において、次の基本周期Tp2を算出するために必要となる信号が復号済みとなる。従って、話速変換処理タイミング(a)に至るまでの処理も上述した手順に従ったとすると、話速変換処理タイミング(a)の時点で基本周期Tp1を算出するために必要な信号が復号済みであること、つまり信号長Tbは話速変換出力前の信号の先頭位置(B1)から符号化フレーム境界位置(B2)までの長さとなっていることは自明である。
音声再生装置10が起動後に初めて話速変換を開始する場合や、話速が1倍速の状態から再生速度を下げる場合、最初の話速変換処理タイミングにおいて信号の基本周期を算出する場合、信号長Tbが0または非常に小さい値であるため、最初の話速変換処理タイミングのみ音声復号部1の演算量が増大する。そこで、話速調整用時間T1の初期値T1_ini2をあらかじめ設定しておき、最初の話速変換処理タイミングのみ上述した話速変換処理タイミング回数no、符号化フレーム数nf、信号長Taを以下の式(10)に基づいて算出する。
no=ceil{(T1_ini2)/To}
nf=ceil{(T1_ini2+Tmax−Tb)/Tc}・・・(10)
Ta=0
初期値T1_ini2を十分大きい値に設定することにより、話速変換が実質的に開始されるまでに時間を要するが、音声復号部1の演算量増大を防止することができる。
以上のようにこの実施の形態1によれば、復号された音声信号を一時蓄積する蓄積部2と、蓄積部2に蓄積された音声信号の再生速度を設定された話速に変換して出力音声信号を生成する話速変換部3と、信号の基本周期と設定された話速に基づいて次の基本周期算出を行う話速変換処理タイミングまでの話速変換処理タイミング回数no,noおよび話速変換処理タイミングまでに復号されるべき符号化フレーム数nf,nfを求め、音声復号部1の動作フレーム数を決定する復号動作制御部4と、復号動作制御部4が決定した動作フレーム数に基づいて音声信号の復号を行う音声復号部1とを備えるように構成したので、符号化された音声を復号すると共に話速変換を行う音声再生装置において、音声復号処理における一時的な演算量の増大を抑制することができる。
実施の形態2.
上述した実施の形態1とは異なる方法を適用して音声復号部1の動作フレーム数np,npを算出しても良い。具体的には、音声復号部1の動作フレーム数np,npは、次の基本周期算出を行う話速変換処理タイミングまでの話速変換処理タイミング回数no,no、および話速変換処理タイミングまでに復号されるべき符号化フレーム数nf,nfを算出した後、話速変換処理タイミング回数no,noの処理により符号化フレーム数nf,nfのフレームの符号が行われるように決定すればよい。
例えば、実施の形態1の図2で示した話速を上げる場合の話速変換処理において、話速変換処理タイミング回数no=6、符号化フレーム数nf=8の場合、実施の形態1に示した方法では、話速変換処理タイミング(b)において動作フレーム数np=2、話速変換処理タイミング(c)において動作フレーム数np=2、話速変換処理タイミング(d)において動作フレーム数np=1、話速変換処理タイミング(e)において動作フレーム数np=1、話速変換処理タイミング(f)において動作フレーム数np=1、話速変換処理タイミング(g)において動作フレーム数np=1となる。
一方、上述のように話速変換処理タイミング回数noおよび符号化フレーム数nfを求めた後、動作フレーム数npを決定する話速変換処理では、話速変換処理タイミング(b)において動作フレーム数np=2、話速変換処理タイミング(c)において動作フレーム数np=2、話速変換処理タイミング(d)において動作フレーム数np=2、話速変換処理タイミング(e)において動作フレーム数np=2、話速変換処理タイミング(f)において動作フレーム数np=0、話速変換処理タイミング(g)において動作フレーム数np=0となる。
このように、実施の形態2による話速変換処理による音声復号部1の最大の処理フレーム数は「2」であり、演算量のピーク値は実施の形態1で示した話速変換処理と変わらない。
以上のように、この実施の形態2によれば、音声復号部1が動作フレーム数np,npは、次の基本周期算出を行う話速変換処理タイミングまでの話速変換処理タイミング回数no,no、および話速変換処理タイミングまでに復号されるべき符号化フレーム数nf,nfを算出した後、話速変換処理タイミング回数no,noの処理により符号化フレーム数nf,nfのフレームの符号が行われるように決定すればよく、上述した実施の形態1と同様に符号化された音声を復号すると共に話速変換を行う音声再生装置において、音声復号処理における一時的な演算量の増大を抑制することができる。
実施の形態3.
上述した実施の形態1および実施の形態2では復号動作制御部4が制御情報として音声復号部1の動作フレーム数を決定する構成を示したが、この実施の形態3では復号動作制御部4aが制御情報として音声復号部1aの復号処理時間を決定する構成を示す。
図5は、実施の形態3の音声再生装置の構成を示すブロック図である。
実施の形態3の音声再生装置10aは、図1で示した音声再生装置10の音声復号部1および復号動作制御部4に替えて、音声復号部1aおよび復号動作制御部4aを設けている。以下では、実施の形態1による音声再生装置10の構成要素と同一または相当する部分には、図1で使用した符号と同一の符号を付して説明を省略または簡略化する。
音声復号部1aは、高能率符号化された符号化音声の復号処理を行うが、より詳細には話速変換処理に先立ち、話速変換処理タイミング毎に、後述する復号動作制御部4aから指定された処理時間の復号処理を行う。復号動作制御部4aは、音声復号部1aの復号動作を制御する制御情報として、復号すべき処理時間(以下、復号処理時間と称する)を算出する。算出した復号処理時間は、音声復号部1aに出力される。
次に、実施の形態3の音声再生装置10aの動作について説明する。
図6は、この発明の実施の形態2による音声再生装置の動作を示すフローチャートである。なお以下では、実施の形態1による音声再生装置10と同一のステップには図2で使用した符号と同一の符号を付し、説明を省略または簡略化する。
高能率符号化された符号化音声が入力されると(ステップST1)、音声復号部1aは当該高能率符号化された符号化音声に対して、あらかじめ復号動作制御部4aから指定された復号処理時間の復号処理を話速変換処理タイミング毎に行う(ステップST11)。ステップST11で復号された音声信号は蓄積部2に出力され、蓄積部2は入力された音声信号を一時蓄積する(ステップST3)。
その後、ステップST4からステップST6と同様の処理を行う。次に、復号動作制御部4aは、ステップST6で入力された音声の基本周期に基づいて音声復号部1aの復号処理時間を算出し、音声復号部1aに出力する(ステップST12)。音声復号部1aは、復号処理時間をステップST12で入力された処理時間に更新する(ステップST13)。その後、フローチャートはステップST1の処理に戻り、上述した処理を繰り返す。
次に、音声信号の再生速度を上げる場合の復号動作制御部4aの動作を説明する。なお、動作の説明は実施の形態1で示した図3を参照しながら説明を行う。
まず、復号動作制御部4aは、実施の形態1で示した復号動作制御部4と同様に話速変換処理タイミング(b)において、次に基本周期を算出する話速変換処理タイミング(g)までの話速変換処理タイミング回数no、および話速変換処理タイミング(g)までに復号されるべき符号化フレーム数nfを求める。
以降、話速変換処理タイミング(b)から(g)までの話速変換処理タイミング回数noの間に符号化フレーム数nfの符号化フレームの音声が復号される必要がある。そこで、話速変換処理タイミング回数noおよび符号化フレーム数nfを用いて、話速変換処理タイミング(b)から(g)までの間、話速変換処理タイミング毎に、音声復号部1aの復号処理時間Tdecを以下の式(11)に基づいて算出する。
Tdec=Tdmax×nf/no・・・(11)
式(10)において、Tdmaxは音声復号部1aが1符号化フレーム分の処理を行う際の処理時間の最大値であり、あらかじめ求めておくものとする。
音声復号部1aの復号処理時間Tdecを上述した式(11)に基づいて決定すると、音声復号部1aは話速変換処理タイミング(b)から話速変換処理タイミング回数no回の間(図3の話速変換処理タイミング(g)までの間)に、Tdec×no=Tdmax×nfだけ復号処理が行われ、Tdmaxは1符号化フレーム分の処理時間の最大値であるから符号化フレーム数nfフレーム以上の復号処理が行われる。
次に、音声信号の再生速度を下げる場合の復号動作制御部4aの動作を説明する。なお、動作の説明は実施の形態1で示した図4を参照しながら説明を行う。
まず、復号動作制御部4aは、実施の形態1で示した復号動作制御部4と同様に話速変換処理タイミング(b)において、次に基本周期を算出する話速変換処理タイミング(i)までの話速変換処理タイミング回数no、および話速変換処理タイミング(i)までに復号されるべき符号化フレーム数nfを求める。
以降、上述した音声信号の再生速度を上げる場合と同様、話速変換処理タイミング回数noおよび符号化フレーム数nfを用いて、話速変換処理タイミング(b)から(i)まで間、話速変換処理タイミング毎に、音声復号部1aの復号処理時間Tdecを以下の式(12)に基づいて算出する。
Tdec=Tdmax×nf/no・・・(12)
音声復号部1aの復号処理時間Tdecを上述した式(12)に基づいて決定すると、音声復号部1aは話速変換処理タイミング(b)から話速変換処理タイミング回数no回の間(図4の話速変換処理タイミング(i)までの間)に、Tdec×no=Tdmax×nfだけ復号処理が行われ、Tdmaxは1符号化フレーム分の処理時間の最大値であるから符号化フレーム数nfフレーム以上の復号処理が行われる。
以上のように、この実施の形態3によれば、復号された音声信号を一時蓄積する蓄積部2と、蓄積部2に蓄積された音声信号の再生速度を設定された話速に変換して出力音声信号を生成する話速変換部3と、信号の基本周期と設定された話速に基づいて次の基本周期算出を行う話速変換処理タイミングまでの話速変換処理タイミング回数no,noおよび話速変換処理タイミングまでに復号されるべき符号化フレーム数nf,nfを求め、音声復号部1が動作すべき処理時間を決定する復号動作制御部4aと、復号動作制御部4aが決定した処理時間に基づいて音声信号の復号を行う音声復号部1aとを備えるように構成したので、符号化された音声を復号すると共に話速変換を行う音声再生装置において、音声復号処理における一時的な演算量の増大を抑制することができる。
なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
1,1a 音声復号部、2 蓄積部、3 話速変換部、4,4a 復号動作制御部、10,10a 音声再生装置。

Claims (6)

  1. 入力された符号化音声信号を復号し、復号した音声信号の再生速度を変換して出力音声信号を生成する音声再生装置において、
    前記符号化音声信号をあらかじめ設定された復号条件に基づいて復号する音声復号部と、
    前記音声復号部が復号した音声信号を蓄積する蓄積部と、
    前記蓄積部に蓄積された音声信号の音声信号波形の基本周期を算出し、算出した基本周期およびあらかじめ設定された話速に基づき前記音声信号波形の伸長または圧縮を行い、前記音声信号の再生速度を変換して前記出力音声信号を生成する話速変換部と、
    前記話速変換部が算出した前記音声信号波形の基本周期、および前記あらかじめ設定された話速に基づき前記音声復号部の復号条件を決定する復号動作制御部とを備えたことを特徴とする音声再生装置。
  2. 前記復号動作制御部は、前記復号条件として、前記話速変換部が算出した前記音声信号波形の基本周期、および前記あらかじめ設定された話速に基づき、前記話速変換部が次に前記音声信号波形の基本周期を算出する位置に到達するまでの前記話速変換部の動作回数および復号すべき符号化フレーム数を算出し、算出した前記話速変換部の動作回数および前記復号すべき符号化フレーム数に基づき前記音声復号部の動作フレーム数を決定することを特徴とする請求項1記載の音声再生装置。
  3. 前記復号動作制御部は、前記復号条件として、前記話速変換部が算出した前記音声信号波形の基本周期、および前記あらかじめ設定された話速に基づき、前記話速変換部が次に前記音声信号波形の基本周期を算出する位置に到達するまでの前記話速変換部の動作回数および復号すべき符号化フレーム数を算出し、算出した前記話速変換部の動作回数および前記復号すべき符号化フレーム数に基づき前記音声復号部の動作時間を決定することを特徴とする請求項1記載の音声再生装置。
  4. 入力された符号化音声信号を復号し、復号した音声信号の再生速度を変換して出力音声信号を生成する音声再生方法において、
    音声復号部が、前記符号化音声信号をあらかじめ設定された復号条件に基づいて復号する復号ステップと、
    蓄積部が、前記復号された音声信号を蓄積する蓄積ステップと、
    話速変換部が、前記蓄積された音声信号の音声信号波形の基本周期を算出し、算出した基本周期およびあらかじめ設定された話速に基づき前記音声信号波形の伸長または圧縮を行い、前記音声信号の再生速度を変換して前記出力音声信号を生成する出力音声信号生成ステップと、
    復号動作制御部が、前記音声信号波形の基本周期、および前記あらかじめ設定された話速に基づき前記復号条件を決定する復号条件決定ステップとを備えたことを特徴とする音声再生方法。
  5. 前記復号条件決定ステップは、前記復号条件として、前記話速変換部が算出した前記音声信号波形の基本周期、および前記あらかじめ設定された話速に基づき、前記話速変換部が次に前記音声信号波形の基本周期を算出する位置に到達するまでの前記話速変換部の動作回数および復号すべき符号化フレーム数を算出し、前記算出した前記話速変換部の動作回数および前記復号すべき符号化フレーム数に基づき前記音声復号部の動作フレーム数を決定することを特徴とする請求項4記載の音声再生方法。
  6. 前記復号条件決定ステップは、前記復号条件として、前記話速変換部が算出した前記音声信号波形の基本周期、および前記あらかじめ設定された話速に基づき、前記話速変換部が次に前記音声信号波形の基本周期を算出する位置に到達するまでの前記話速変換部の動作回数および復号すべき符号化フレーム数を算出し、前記算出した前記話速変換部の動作回数および前記復号すべき符号化フレーム数に基づき前記音声復号部の動作時間を決定することを特徴とする請求項4記載の音声再生方法。
JP2014126321A 2014-06-19 2014-06-19 音声再生装置および音声再生方法 Active JP6385153B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014126321A JP6385153B2 (ja) 2014-06-19 2014-06-19 音声再生装置および音声再生方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014126321A JP6385153B2 (ja) 2014-06-19 2014-06-19 音声再生装置および音声再生方法

Publications (2)

Publication Number Publication Date
JP2016004234A true JP2016004234A (ja) 2016-01-12
JP6385153B2 JP6385153B2 (ja) 2018-09-05

Family

ID=55223523

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014126321A Active JP6385153B2 (ja) 2014-06-19 2014-06-19 音声再生装置および音声再生方法

Country Status (1)

Country Link
JP (1) JP6385153B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0219899A (ja) * 1988-07-08 1990-01-23 Hitachi Ltd 音声蓄積再生装置
JPH11194796A (ja) * 1997-10-31 1999-07-21 Matsushita Electric Ind Co Ltd 音声再生装置
JP2013005423A (ja) * 2011-06-22 2013-01-07 Nec Casio Mobile Communications Ltd 映像再生装置、映像再生方法およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0219899A (ja) * 1988-07-08 1990-01-23 Hitachi Ltd 音声蓄積再生装置
JPH11194796A (ja) * 1997-10-31 1999-07-21 Matsushita Electric Ind Co Ltd 音声再生装置
JP2013005423A (ja) * 2011-06-22 2013-01-07 Nec Casio Mobile Communications Ltd 映像再生装置、映像再生方法およびプログラム

Also Published As

Publication number Publication date
JP6385153B2 (ja) 2018-09-05

Similar Documents

Publication Publication Date Title
KR101596183B1 (ko) 오디오 디코더, 오디오 인코더, 오디오 신호를 디코딩하는 방법, 오디오 신호를 인코딩하는 방법, 컴퓨터 프로그램 및 오디오 신호
JP5743137B2 (ja) 信号処理装置および方法、並びにプログラム
EP3175567B1 (en) System and method of redundancy based packet transmission error recovery
US8670990B2 (en) Dynamic time scale modification for reduced bit rate audio coding
KR101953613B1 (ko) 지터 버퍼 제어부, 오디오 디코더, 방법 및 컴퓨터 프로그램
JP6849619B2 (ja) 低ビットレートで背景ノイズをモデル化するためのコンフォートノイズ付加
JP2009524846A (ja) 適応的時間/周波数ベース符号化モード決定装置およびこのための符号化モード決定方法
JP2008529074A (ja) 通信システムにおけるフレームの連結方法
KR101952192B1 (ko) 품질 제어를 이용하는 오디오 디코더, 방법 및 컴퓨터 프로그램
JPWO2015041070A1 (ja) 符号化装置および方法、復号化装置および方法、並びにプログラム
KR20140005277A (ko) 저-지연 통합 스피치 및 오디오 코딩에서 에러 은닉을 위한 장치 및 방법
WO2005117366A1 (ja) 音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体
JPWO2013061584A1 (ja) 音信号ハイブリッドデコーダ、音信号ハイブリッドエンコーダ、音信号復号方法、及び音信号符号化方法
JP2019164367A (ja) 低複雑度の調性適応音声信号量子化
US20080086654A1 (en) Device and method for supplying master clock to stream processing apparatus for processing stream data frame by frame in synchronization with master clock
JP6385153B2 (ja) 音声再生装置および音声再生方法
JP6149775B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2020520478A (ja) ステレオ信号処理方法及び装置
JP5320508B2 (ja) 符号化装置、復号装置、これらの方法、プログラム及び記録媒体
JP5874341B2 (ja) 音声信号処理装置及びプログラム
JP2008185615A (ja) 可変長フレームの符号化方法、可変長フレームの復号化方法、及びコンピュータプログラム
CA2955757C (en) Apparatus and method for comfort noise generation mode selection
JP4511860B2 (ja) Adtsフレーム音声fs回路、aac再エンコーダ回路及び音声fs回路
JP2006262292A (ja) 符号化装置、復号装置、符号化方法及び復号方法
JP2009260638A (ja) 符号化装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180710

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180807

R150 Certificate of patent or registration of utility model

Ref document number: 6385153

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250