JP2010191415A - 音声再生方法および音声再生装置 - Google Patents
音声再生方法および音声再生装置 Download PDFInfo
- Publication number
- JP2010191415A JP2010191415A JP2010010489A JP2010010489A JP2010191415A JP 2010191415 A JP2010191415 A JP 2010191415A JP 2010010489 A JP2010010489 A JP 2010010489A JP 2010010489 A JP2010010489 A JP 2010010489A JP 2010191415 A JP2010191415 A JP 2010191415A
- Authority
- JP
- Japan
- Prior art keywords
- processing unit
- data
- audio
- audio signal
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Landscapes
- Signal Processing For Digital Recording And Reproducing (AREA)
Abstract
【課題】記録媒体から音声信号を速い速度で再生し、通常の音程で出力する方法で、音声が途切れることが少なくする。
【解決手段】2倍速再生によって得られた入力データSiを60m秒相当の処理単位期間T1,T2…ごとに区切る。期間T1では、有音部分と無音部分が30m秒分ずつ存在し、無音部分を全て削除し、前後の有音部分を接合して、有音部分のデータのみを全て出力バッファに書き込む。期間T2では、60m秒分のデータが全て有音部分であり、有音部分のデータをそのまま出力バッファに書き込む。期間T2で有音部分が30m秒分未満しか存在しないときには、有音部分の全てに無音部分の一部を付加して、30m秒分のデータを出力バッファに書き込む。期間T5では、60m秒分のデータが全て有音部分であり、出力バッファに60m秒分のデータを全て蓄えるだけの空きがないので、データを30m秒分に圧縮して出力バッファに書き込む。
【選択図】図13
【解決手段】2倍速再生によって得られた入力データSiを60m秒相当の処理単位期間T1,T2…ごとに区切る。期間T1では、有音部分と無音部分が30m秒分ずつ存在し、無音部分を全て削除し、前後の有音部分を接合して、有音部分のデータのみを全て出力バッファに書き込む。期間T2では、60m秒分のデータが全て有音部分であり、有音部分のデータをそのまま出力バッファに書き込む。期間T2で有音部分が30m秒分未満しか存在しないときには、有音部分の全てに無音部分の一部を付加して、30m秒分のデータを出力バッファに書き込む。期間T5では、60m秒分のデータが全て有音部分であり、出力バッファに60m秒分のデータを全て蓄えるだけの空きがないので、データを30m秒分に圧縮して出力バッファに書き込む。
【選択図】図13
Description
この発明は、ビデオテープレコーダなどのように映像信号および音声信号を記録再生する機器や、ミニディスクプレーヤなどのように音声信号を記録再生する機器などにおいて、記録媒体から、これに記録された音声信号を定常速度より速い速度で再生する方法および装置に関する。
家庭用ビデオテープレコーダで、再生時間を短縮するために、テープに記録された映像信号および音声信号を、定常速度より速い2倍速などの速度で再生する場合でも、音声信号については、無音部分を優先的に削除するように元の再生音声信号を周期的に切り貼りすることによって、音声を定常速度で聞き取ることができるようにしたものが考えられている。
しかしながら、上述した従来の音声再生方法では、元の再生音声信号を周期的に削除するため、元の再生音声信号中に無音部分が一定の割合で含まれていない場合には、有音部分が削除されて、切り貼り後の再生音声信号は音声が途切れ途切れになり、内容を理解できなくなってしまう。
また、元の再生音声信号中に無音部分がある程度含まれていて、有音部分を削除しなくても再生音声信号の切り貼りができる場合でも、無音期間が短くなり、有音部分が密着することによって、異なる音に聞こえてしまうことがある。例えば「k」のような閉鎖子音の前の無音期間が短くなると、「a−ka」が「a−ga」のように聞こえてしまう。
そこで、この発明は、第1に、再生時間を短縮するために定常速度より速い速度で再生された音声信号を通常の音程で出力する場合に、有音部分の削除によって音声が途切れてしまうことが少なくなり、内容が理解しやすくなるようにしたものである。
この発明は、第2に、上記の第1に加えて、連続音声部分の密着によって異なる音に聞こえてしまうことが少なくなるようにしたものである。
本発明の音声再生方法では、
記録媒体から、これに記録された音声信号を定常速度より速い速度で再生することによって得られた再生入力音声信号につき、連続音声部分の終端部の振幅を抑圧し、
その振幅抑圧処理後の再生入力音声信号を、処理単位期間ごとに区切り、
出力バッファから定常速度相当量の再生出力音声信号が得られる範囲内で無音部分を削除し、その前後の有音部分を接合して、それぞれの処理単位期間の再生入力音声信号を、前記出力バッファに書き込むとともに、
処理単位期間の再生入力音声信号中に前記出力バッファに蓄えられない量の有音部分が存在する場合には、一部の有音部分を削除し、その前後の有音部分を接合して、その処理単位期間の再生入力音声信号を圧縮して、前記出力バッファに書き込む。
記録媒体から、これに記録された音声信号を定常速度より速い速度で再生することによって得られた再生入力音声信号につき、連続音声部分の終端部の振幅を抑圧し、
その振幅抑圧処理後の再生入力音声信号を、処理単位期間ごとに区切り、
出力バッファから定常速度相当量の再生出力音声信号が得られる範囲内で無音部分を削除し、その前後の有音部分を接合して、それぞれの処理単位期間の再生入力音声信号を、前記出力バッファに書き込むとともに、
処理単位期間の再生入力音声信号中に前記出力バッファに蓄えられない量の有音部分が存在する場合には、一部の有音部分を削除し、その前後の有音部分を接合して、その処理単位期間の再生入力音声信号を圧縮して、前記出力バッファに書き込む。
本発明の音声再生方法によれば、出力バッファを効果的に用いることによって、必要最小限のメモリを用いるだけで、有音部分の削除によって音声が途切れてしまうことが少なくなり、内容が理解しやすくなる。
本発明の音声再生方法によれば、さらに、連続音声部分の密着によって異なる音に聞こえてしまうことが少なくなる。
本発明によれば、再生時間を短縮するために定常速度より速い速度で再生された音声信号を通常の音程で出力する場合に、出力バッファを効果的に用いることによって、必要最小限のメモリを用いるだけで、有音部分の削除によって音声が途切れてしまうことが少なくなり、内容が理解しやすくなる。本発明によれば、さらに、連続音声部分の密着によって異なる音に聞こえてしまうことが少なくなる。
〔システム全体の一実施形態…図1および図2〕
図1は、この発明の再生装置の一実施形態を示し、ハードディスク、光磁気ディスク、光ディスクなど、ディスク状の記録媒体から、これに記録された映像信号および音声信号を、定常速度より速い速度で再生することができる場合である。
図1は、この発明の再生装置の一実施形態を示し、ハードディスク、光磁気ディスク、光ディスクなど、ディスク状の記録媒体から、これに記録された映像信号および音声信号を、定常速度より速い速度で再生することができる場合である。
再生装置は、記録装置を兼ねてもよく、実際上も記録装置を兼ねることが望ましいが、記録方法および記録装置は、公知のものと特に変わらないので省略し、記録媒体1には、所定のプロトコルおよびフォーマットによるデジタル化された映像信号および音声信号が記録されているものとする。
以下の例では、MPEG(Moving Picture Experts Group)−2Systemsの圧縮符号化方式および多重化方式によって、圧縮された映像データおよび音声データがTS(Transport Stream)として多重化されて記録されているものとし、音声信号のサンプリング周波数は48kHz(60m秒で2880サンプル)とする。
記録媒体1は、駆動モータ3によって回転駆動される。再生ヘッド2は、記録媒体1から、これに記録されている映像信号および音声信号を読み取るもので、磁気ヘッドや光学ピックアップなどであり、駆動モータ4を含む移動機構によって記録媒体1の径方向に移動させられる。駆動モータ3および4は、サーボ回路5によって駆動制御され、サーボ回路5は、装置全体を制御するシステムコントローラ6によって制御される。
再生ヘッド2の出力として得られる、記録媒体1から読み取られた映像信号および音声信号、この例ではTSとして多重化された映像データおよび音声データは、デマルチプレクサ7に供給され、デマルチプレクサ7から、映像データおよび音声データが、それぞれ映像PES(Packetized Elementary Stream)および音声PESとして分離されて得られる。
デマルチプレクサ7からの映像データは、MPEG映像デコーダ11で、伸長復号化されるとともに、再生倍率に応じてフレーム単位またはフィールド単位で間引かれる。
すなわち、2倍速再生の場合には、記録媒体1からは映像データが定常速度の2倍の速度で読み取られるが、MPEG映像デコーダ11で、連続する2フレームにつき1フレーム、または連続する2フィールドにつき1フィールド、映像データが間引かれる。3倍速再生の場合には、記録媒体1からは映像データが定常速度の3倍の速度で読み取られるが、MPEG映像デコーダ11で、連続する3フレームにつき2フレーム、または連続する3フィールドにつき2フィールド、映像データが間引かれる。
MPEG映像デコーダ11の出力の映像データは、NTSC(National Television System Committee)エンコーダ12で、NTSC映像信号にエンコードされ、アナログ信号に変換されて、CRTディスプレイや液晶ディスプレイなどの表示装置13に供給される。
デマルチプレクサ7からの音声データは、MPEG音声デコーダ14で、伸長復号化されて、音声処理部15に供給され、音声処理部15で、後述のように速度変換されて、再生倍率にかかわらずサンプリング周波数が上記の48kHzとされ、アナログ信号に変換されて、スピーカなどの音声出力装置16に供給される。
すなわち、2倍速再生の場合には、記録媒体1から音声データが定常速度の2倍の速度で読み取られることによって、MPEG音声デコーダ14の出力の音声データは、60m秒で2×2880サンプルとなるが、音声処理部15での速度変換によって、音声処理部15の出力の音声データとしては、60m秒で2880サンプルとされる。3倍速再生の場合には、記録媒体1から音声データが定常速度の3倍の速度で読み取られることによって、MPEG音声デコーダ14の出力の音声データは、60m秒で3×2880サンプルとなるが、音声処理部15での速度変換によって、音声処理部15の出力の音声データとしては、60m秒で2880サンプルとされる。
システムコントローラ6には、操作部9が接続される。操作部9は、装置の利用者が再生倍率を指示するなどの各種操作を行うもので、これには、装置の動作状態や操作状況を表示する液晶表示部などの表示部が設けられる。
図2は、音声処理部15の一例を示す。この例は、MPEG音声デコーダ14の出力の音声データにつき、速度変換の前処理として、連続音声部分(音声のひとまとまり、ひとまとまりの音声部分)の終端部の振幅を抑圧するとともに、速度変換処理の処理単位時間を一定にする場合で、音声処理部15は、振幅抑圧処理部70、処理単位期間設定部21、有音無音判定部22、速度変換処理部23、出力バッファ24、D/Aコンバータ25および音声増幅器26によって構成される。
〔振幅抑圧処理…図3〜図12〕
図2の例の音声処理部15の振幅抑圧処理部70では、MPEG音声デコーダ14の出力の音声データにつき、連続音声部分の終端部の振幅が抑圧される。
図2の例の音声処理部15の振幅抑圧処理部70では、MPEG音声デコーダ14の出力の音声データにつき、連続音声部分の終端部の振幅が抑圧される。
(振幅抑圧処理の第1の例…図3〜図6)
振幅抑圧処理部70での振幅抑圧処理の一つの方法として、特開平8−179792号に示された方法を用いることができる。図3〜図6に、この特開平8−179792号に示された方法による振幅抑圧処理を示す。
振幅抑圧処理部70での振幅抑圧処理の一つの方法として、特開平8−179792号に示された方法を用いることができる。図3〜図6に、この特開平8−179792号に示された方法による振幅抑圧処理を示す。
図3は、振幅抑圧処理部70の構成を示し、入力端子71には、入力音声信号として上述したMPEG音声デコーダ14の出力の音声データが供給される。この入力音声信号は、子音成分分離フィルタ72およびフォルマント成分分離フィルタ73に供給され、子音成分分離フィルタ72からは、入力音声信号中の子音成分が抽出される。また、フォルマント成分分離フィルタ73の通過帯域が、例えば150〜1000Hzに設定されることによって、フォルマント成分分離フィルタ73からは、入力音声信号中のピッチ成分およびフォルマント成分が抽出される。
フォルマント成分分離フィルタ73の出力は、レベル検出部74に供給され、レベル検出部74において、例えば、フォルマント成分分離フィルタ73の出力が全波整流され、その整流出力が60Hz以下を通過帯域とするローパスフィルタに供給され、ローパスフィルタの出力のレベルが検出されることによって、入力音声信号の音声レベルが検出され、レベル検出値Eが得られる。このようにピッチ成分およびフォルマント成分のみから音声レベルが検出されることによって、レベル検出値Eとしてノイズの影響が少ないものが得られる。
このレベル検出部74からのレベル検出値Eは、制御部75で後述のように処理され、制御部75から振幅抑圧の制御信号としての制御係数Wが得られる。
そして、フォルマント成分分離フィルタ73の出力、および制御部75からの制御係数Wが、振幅抑圧部76に供給され、振幅抑圧部76において、後述のように制御係数Wによってフォルマント成分分離フィルタ73の出力が減衰される。
さらに、周波数特性補正フィルタ77で、子音成分分離フィルタ72の出力と振幅抑圧部76の出力が混合されるとともに、混合後の信号に対してイコライジング処理などの所要の周波数特性補正処理が施され、処理後の出力音声信号が出力端子79に得られる。周波数特性補正フィルタ77は、倍速再生の再生倍率に応じてフィルタ係数や処理帯域が設定される。ただし、周波数特性補正フィルタ77によって周波数特性を補正しないで、子音成分分離フィルタ72の出力と振幅抑圧部76の出力を混合するだけでもよい。
制御部75は、レベル検出部74からのレベル検出値Eから、連続音声部分の終端が近づいていることを予測するとともに、次の連続音声部分の始端を検出する。そして、その予測および検出に基づいて、振幅抑圧部76に対する制御係数Wを設定して、連続音声部分の終端が近づいたら、フォルマント成分分離フィルタ73の出力を減衰させ、次の連続音声部分の始端が到来したら、その減衰を解除することによって、隣接する連続音声部分の間に振幅の小さい期間または無音期間を形成し、または隣接する連続音声部分の間の無音期間を広げる。
この処理を、図4を用いて示す。同図(A)は、入力端子71に得られる入力音声信号であり、アナログ波形で示す。同図(B)は、この場合にレベル検出部74から得られるレベル検出値Eであり、アナログ波形で示す。
制御部75は、まず、レベル検出値Eのピーク値PKを検出して閾値THを設定する。例えば、ピーク値PKに係数を乗じて、ピーク値PKの一定割合の値を閾値THとして設定する。次に、そのときのサンプルタイミングでのレベル検出値E(i)を直前のサンプルタイミングでのレベル検出値E(i−1)と比較して、音声レベルが増加傾向にあるか減少傾向にあるかを判断するとともに、そのときのサンプルタイミングでのレベル検出値E(i)を上記の閾値THと比較する。
そして、図4の時点t0で示すように、音声レベルが減少傾向にあり、かつ、そのときのレベル検出値E(i)が閾値THより小さくなったときには、連続音声部分の終端が近づいていると判断して、同図(C)に示すように、振幅抑圧部76に対する制御係数W(振幅抑圧部76の利得レベル)を最大値1から最小値0に向けて徐々に低下させ、フォルマント成分分離フィルタ73の出力の減衰量を徐々に増加させる。
また、振幅抑圧後、図4の時点t1で示すように、音声レベルが増加傾向に転じたときには、次の連続音声部分の始端と判断して、同図(C)に示すように、振幅抑圧部76に対する制御係数W(振幅抑圧部76の利得レベル)を最小値0から最大値1に向けて徐々に増加させ、フォルマント成分分離フィルタ73の出力の減衰量を徐々に低下させる。
このような振幅抑圧処理によって、出力端子79に得られる出力音声信号は、図4(D)にアナログ波形で示すように、隣接する連続音声部分の間に振幅の小さい期間または無音期間が形成され、または隣接する連続音声部分の間の無音期間が広げられたものとなる。
制御部75は、より具体的には、図5に示すような処理ルーチンによって、振幅抑圧部76に対する制御係数Wを設定する。
図5の処理ルーチンは、レベル検出部74から制御部75にレベル検出値E(i)が取り込まれるごとに処理を開始するもので、まずステップF101で、レベル検出値E(i)を閾値THと比較する。閾値THは、それ以前においてステップF110またはF117で後述のように設定した値である。
そして、E(i)≧THであれば、ステップF101からステップF111に進んで、ダウンフラグDWを1にセットする。ダウンフラグDWは、それ以前は音声レベルが減少傾向にあった場合、または減少傾向にあったと見なす場合に、1とするフラグである。
次に、ステップF112で、フラグBYを確認する。フラグBYは、直前のレベル検出値E(i−1)が閾値THより小さかった場合に、ステップF102で0とされるフラグである。したがって、レベル検出値E(i)として閾値TH以上の値が最初に入力されたときには、フラグBYは0であって、ステップF112からステップF118に進む。
ステップF118では、レベル検出値E(i)をピーク値PKの下限値LimLと比較する。ピーク値PKについては、あらかじめ上限値LimHおよび下限値LimLが設定され、制御部75は、後述のように、ピーク値PKが上限値LimHより大きいときには、上限値LimHをピーク値PKとして設定し、ピーク値PKが下限値LimLより小さいときには、下限値LimLをピーク値PKとして設定して、ピーク値PKを上限値LimHと下限値LimLとの間に設定するものである。
そして、E(i)<LimLであれば、ステップF118からステップF119に進んで、下限値LimLをピーク値PKとして設定した上で、ステップF121に進み、E(i)≧LimLであれば、ステップF118からステップF120に進んで、閾値THをピーク値PKとして設定した上で、ステップF121に進む。
ステップF121では、上記のフラグBYを1にセットし、次にレベル検出値E(i)が入力されたときに備えて、音声レベルが閾値TH以上になったことを示しておく。
次に、ステップF122で、そのときのレベル検出値E(i)を直前のレベル検出値E(i−1)と比較し、E(i)>E(i−1)であれば、音声レベルが増加傾向にあると判断して、ステップF122からステップF123に進んで、制御係数WをW+d2の値に更新した上で、次回の処理に移行し、E(i)≦E(i−1)であれば、音声レベルが増加傾向にないと判断して、ステップF122から直接、次回の処理に移行する。
ステップF121からステップF122に進んだ場合は、レベル検出値E(i)として閾値TH以上の値が最初に入力されたときで、音声レベルが増加傾向にあるので、ステップF123で制御係数Wが更新されることになる。
d2は、制御係数Wを増加させ、減衰量を低下させる場合のステップ幅である。ただし、図4(C)に示したように、制御係数Wは0≦W≦1とされる。したがって、W=1であったときには、ステップF123では制御係数Wを更新しない。
次回の処理においても、E(i)≧THであれば、ステップF101からステップF111およびF112に進むが、このときは、レベル検出値E(i)として閾値TH以上の値が最初に入力されたときではなく、フラグBYが1にセットされているので、ステップF112からステップF113に進む。
ステップF113では、レベル検出値E(i)をピーク値PKと比較し、PK≧E(i)であれば、そのままステップF122に進むが、PK<E(i)であれば、ステップF114以下に進んで、ピーク値PKを更新した上で、閾値THを更新する。
すなわち、まずステップF114で、レベル検出値E(i)をピーク値PKの上限値LimHと比較し、E(i)>LimHであれば、ステップF114からステップF115に進んで、上限値LimHをピーク値PKとして設定した上で、ステップF117に進み、E(i)≦LimHであれば、ピーク値PKより大きいレベル検出値E(i)が新たなピーク値PKとして検出されたことになるので、ステップF114からステップF116に進んで、レベル検出値E(i)をピーク値PKとして設定した上で、ステップF117に進む。
ステップF117では、閾値THを、上記のように更新したピーク値PKの一定割合の値PK×RTに更新する。係数RTで表される割合は、数%〜数10%に選定される。ステップF117で閾値THを更新したら、ステップF122に進む。
以上は、レベル検出値E(i)が閾値TH以上の値である場合である。逆に、レベル検出値E(i)が閾値THより小さい場合には、ステップF101からステップF102に進んで、上記のフラグBYを0にする。
次に、ステップF103で、そのときのレベル検出値E(i)を直前のレベル検出値E(i−1)と比較し、E(i)<E(i−1)であれば、音声レベルが減少傾向にあると判断して、ステップF103からステップF105に進んで、ダウンフラグDWを確認する。
そして、ダウンフラグDWが1であれば、それ以前は音声レベルが減少傾向にあった場合、または減少傾向にあったと見なす場合であるので、このとき、レベル検出値E(i)が閾値THより小さく、かつ直前のレベル検出値E(i−1)より小さいことから、連続音声部分の終端が近づいていると判断して、ステップF105からステップF106に進んで、制御係数WをW−d1の値に更新した上で、次回の処理に移行する。
d1は、制御係数Wを減少させ、減衰量を増加させる場合のステップ幅である。ただし、図4(C)に示したように、制御係数Wは0≦W≦1とされる。したがって、W=0であったときには、ステップF106では制御係数Wを更新しない。
以後、レベル検出値E(i)が連続音声部分の終端に向けて低下し続けている間は、ステップF106で制御係数Wの更新が繰り返されて、図4の時点t0以降に示したように、振幅抑圧部76の利得レベルが徐々に低下する。そして、制御係数W(利得レベル)が0に達すると、次に時点t1で示したように音声レベルが増加傾向に転じるまでは、制御係数W(利得レベル)が0の状態が維持される。
一方、ステップF105でダウンフラグDWが0であると判断した場合は、それ以前は音声レベルが減少傾向になく、レベル検出値E(i)として閾値THより小さい値が最初に入力されたときである。このとき、音声レベルが減少傾向にあっても、連続音声部分の終端が近づいていない場合も存在すると考えられる。そこで、ステップF105でダウンフラグDWが0であると判断したときには、ステップF107以下に進んで、ピーク値PKを更新した上で、閾値THを更新する。
すなわち、まずステップF107で、レベル検出値E(i)をピーク値PKの下限値LimLと比較し、E(i)≧LimLであれば、ステップF107からステップF108に進んで、レベル検出値E(i)をピーク値PKとして設定した上で、ステップF110に進み、E(i)<LimLであれば、ステップF107からステップF109に進んで、下限値LimLをピーク値PKとして設定した上で、ステップF110に進む。
ステップF110では、閾値THを、上記のように更新したピーク値PKの一定割合の値PK×RTに更新する。また、このとき、連続音声部分の終端が近づいている場合も存在するので、ステップF106と同様に、制御係数WをW−d1の値に更新する。さらに、ステップF110では、ダウンフラグDWを1にセットし、音声レベルが減少傾向になったことを示しておく。
このようにレベル検出値E(i)として閾値THより小さい値が最初に入力されたときには、ステップF110で閾値THが更新されることによって、連続音声部分の終端が近づいているか否かが、より正確に判定される。すなわち、実際には連続音声部分の終端が近づいていないときには、次に入力されるレベル検出値E(i)は更新された閾値TH以上になる確率が高く、次回の処理ではステップF111以降の処理が実行される可能性が高いので、連続音声部分の終端が近づいていると誤判定される確率は低い。
逆に、実際に連続音声部分の終端が近づいているときには、次に入力されるレベル検出値E(i)が更新された閾値THより小さくなり、かつ直前のレベル検出値E(i−1)より小さくなるので、次回の処理ではステップF105からステップF106に進んで、連続音声部分の終端部の振幅を抑圧する処理が実行される。
振幅抑圧後、図4の時点t1で示したように次の連続音声部分の始端が到来すると、制御部75は、ステップF103で、そのときのレベル検出値E(i)が直前のレベル検出値E(i−1)以上であると判断することによって、ステップF103からステップF104に進んで、制御係数WをW+d2の値に更新するとともに、ダウンフラグDWを0にする。
以後、レベル検出値E(i)が増加する間は、レベル検出値E(i)が閾値THより小さいときにはステップF104で、レベル検出値E(i)が閾値TH以上の値のときにはステップF123で、制御係数Wの更新が繰り返されて、図4の時点t1以降に示したように、振幅抑圧部76の利得レベルが徐々に増加する。
以上のように、図5の処理ルーチンによって、振幅抑圧処理部70の出力音声信号は、隣接する連続音声部分の間に振幅の小さい期間または無音期間が形成され、または隣接する連続音声部分の間の無音期間が広げられたものとなる。
図6は、話者が日本語の「親譲りの無鉄砲で子供のときから損ばかりしている」という発音をしたときの音声信号波形を示し、同図(A)が、振幅抑圧処理を行う前の波形であり、同図(B)が、上述した振幅抑圧処理を行った後の波形である。同図(B)の矢印で示すように、上述した振幅抑圧処理を行った場合には、それぞれの話音(連続音声部分)の間が振幅の小さい期間または無音期間によって明確に区切られ、それぞれの話音を明瞭に認識することができるようになる。
(振幅抑圧処理の第2の例…図7〜図12)
図2の例の音声処理部15の振幅抑圧処理部70での振幅抑圧処理の他の一つの方法として、特開平7−36487号に示された方法を用いることができる。図7〜図12に、この特開平7−36487号に示された方法による振幅抑圧処理を示す。
図2の例の音声処理部15の振幅抑圧処理部70での振幅抑圧処理の他の一つの方法として、特開平7−36487号に示された方法を用いることができる。図7〜図12に、この特開平7−36487号に示された方法による振幅抑圧処理を示す。
図7は、振幅抑圧処理部70の構成を示し、入力端子71には、入力音声信号として上述したMPEG音声デコーダ14の出力の音声データが供給される。この入力音声信号は、遅延回路81で例えば30m秒遅延されて、振幅抑圧部82に供給される。また、入力音声信号が、バンドパスフィルタ83に供給されて、バンドパスフィルタ83から、入力音声信号中のピッチ成分および第1フォルマント成分のみが抽出される。
人の会話の音声は、母音の場合、主としてピッチ成分と第1フォルマント成分、第2フォルマント成分などのフォルマント成分とに解析することができる。すなわち、例えば「あ」と発音したときの音声パワースペクトルは、図9に示すように、周波数が低い方から順に、ピッチ成分P、第1フォルマント成分F1、第2フォルマント成分F2、第3フォルマント成分F3…と、エネルギーが集中する箇所が存在する。
したがって、バンドパスフィルタ83の上側のカットオフ周波数を第1フォルマント成分F1と第2フォルマント成分F2との間の周波数に選定することによって、ピッチ成分および第1フォルマント成分のみを抽出することができる。ただし、発音する音や発音する者の違いによって各成分の周波数が変化するので、システムが扱う音声信号によってバンドパスフィルタ83の通過帯域を若干変える必要がある。
このバンドパスフィルタ83からのピッチ成分および第1フォルマント成分は、レベル検出部84に供給され、レベル検出部84において、例えば、バンドパスフィルタ83の出力が全波整流され、その整流出力が60Hz以下を通過帯域とするローパスフィルタに供給され、ローパスフィルタの出力のレベルが検出されることによって、入力音声信号の音声レベルが検出され、レベル検出値Eが得られる。このようにピッチ成分およびフォルマント成分のみから音声レベルが検出されることによって、レベル検出値Eとしてノイズの影響が少ないものが得られる。
このレベル検出部84からのレベル検出値Eは、制御部85で後述のように処理され、振幅抑圧部82において、後述のように制御部85の制御によって遅延回路81の出力の音声信号が減衰され、出力端子79に振幅抑圧処理後の出力音声信号が得られる。
図10は、この例の制御部85が実行する処理ルーチンの一例を示す。この処理ルーチンは、レベル検出部84から制御部85にレベル検出値E(i)が取り込まれるごとに処理を開始するもので、まずステップS101で、レベル検出値E(i)を音声の途切れを判断するための閾値Ath1と比較する。閾値Ath1は、それ以前においてステップS107で後述のように設定した値である。
そして、E(i)≧Ath1であれば、ステップS101からステップS102に進んで、イネーブル値が0であるか否かを判断する。このイネーブル値は、以前の音声レベルの状態を示す値で、以前に音声レベルが増加している場合には1とされるものである。
そのため、音声レベルが立ち上がり始めたときには、ステップS102ではイネーブル値が0であると判断して、ステップS102からステップS103に進んで、レベル検出値E(i)を音声の存在を判断するための閾値Ath2と比較する。閾値Ath2は、あらかじめ設定される。
そして、E(i)≦Ath2であれば、そのまま次回の処理に移行するが、E(i)>Ath2であれば、音声が存在すると判断して、ステップS104に進んで、上記のイネーブル値を1に設定するとともに、振幅抑圧終了時からのサンプル数を示す変数Soを0に設定した上で、ステップS105に進む。
ステップS105では、レベル検出値E(i)をピーク値PKの上限値LimHと比較し、E(i)>LimHであれば、ステップS105からステップS106に進んで、上限値LimHをピーク値PKとして設定した上で、ステップS107に進み、E(i)≦LimHであれば、ステップS105からステップS108に進んで、レベル検出値E(i)をピーク値PKとして設定した上で、ステップS107に進む。
ステップS107では、音声の途切れを判断するための閾値Ath1を、上記のように設定したピーク値PKの一定割合の値PK×Rtに更新する。ステップS107で閾値Ath1を更新したら、次回の処理に移行する。
一方、ステップS102でイネーブル値が1であると判断したときには、ステップS109に進んで、レベル検出値E(i)をピーク値PKと比較し、E(i)≦PKであれば、そのまま次回の処理に移行するが、E(i)>PKであれば、ステップS105以下に進んで、上記のようにピーク値PKおよび閾値Ath1を更新した上で、次回の処理に移行する。
以上の処理を繰り返している間にレベル検出値E(i)が低下して、ステップS101でレベル検出値E(i)が閾値Ath1より小さいと判断したときには、ステップS101からステップS110に進んで、上記のイネーブル値が1であるか否かを判断する。
そして、イネーブル値が1であれば、連続音声部分の終端であると判断して、ステップS110からステップS111に進んで、イネーブル値を0に変更し、振幅抑圧終了時からのサンプル数を示す変数Soを0に設定するとともに、利得漸減期間(減衰量漸増期間)および無音期間を形成するように振幅抑圧部82の利得レベルを制御する。
すなわち、図11に示すようなサンプル数Saの期間Taでは、遅延回路81の出力の音声信号に対する重み係数(振幅抑圧部82の利得レベル)を、最大値1から最小値0に向けて、係数Waで示すように音声信号の1サンプルごとに徐々に低下させ、その直後の、図11に示すようなサンプル数Mの期間Tmでは、遅延回路81の出力の音声信号に対する重み係数(振幅抑圧部82の利得レベル)を最小値0にする。利得漸減期間Taは、例えば10m秒とし、無音期間Tmは、例えば20m秒とする。
このようにステップS111で振幅抑圧部82の利得レベルを制御したら、次回の処理に移行する。次回の処理でも、ステップS101でレベル検出値E(i)が閾値Ath1より小さいと判断するので、ステップS101からステップS110に進んで、イネーブル値が1であるか否かを判断するが、次回の処理では、イネーブル値が0にされているので、ステップS110からステップS112に進む。
そして、ステップS112では、振幅抑圧終了時からのサンプル数を示す変数Soが、利得漸増期間(減衰量漸減期間)として定められる期間のサンプル数Sbより小さいか否かを判断し、So<Sbであれば、次の連続音声部分の始端であると判断して、ステップS112からステップS113に進んで、利得漸増期間を形成するように振幅抑圧部82の利得レベルを制御する。
すなわち、図11に示すような、無音期間Tmの直後のサンプル数Sbの期間Tbでは、遅延回路81の出力の音声信号に対する重み係数(振幅抑圧部82の利得レベル)を、最小値0から最大値1に向けて、係数Wbで示すように音声信号の1サンプルごとに徐々に増加させる。利得漸増期間Tbは、例えば5m秒とする。
このようにステップS113で振幅抑圧部82の利得レベルを制御したら、次回の処理に移行する。ステップS112で変数Soがサンプル数Sb以上であると判断したときには、そのまま次回の処理に移行する。
以上のように、この例の振幅抑圧処理では、制御部85の制御によって振幅抑圧部82で音声信号の振幅が抑圧されるが、振幅抑圧部82に供給される音声信号は、入力端子71に得られる音声信号に対して30m秒遅れるので、制御部85で連続音声部分の終端が検出されたとき、30m秒前に溯って連続音声部分の終端の30m秒前の信号位置から、利得漸減期間Taおよび無音期間Tmで示したように音声信号の振幅を抑圧することができる。
図12は、話者が日本語の「書いて下さい」という発音をしたときの音声信号波形を示し、同図(A)が、振幅抑圧処理を行う前の波形であり、同図(B)が、上述した振幅抑圧処理を行った後の波形である。同図(B)に示すように、上述した振幅抑圧処理を行った場合には、それぞれ「かい」「て」「く」「だ」「さい」という話音(連続音声部分)の終端の直前に無音期間M1,M2,M3,M4,M5が形成され、それぞれの話音を明瞭に認識することができるようになる。
無音期間Tmは、20m秒に限らず、数m秒〜数10m秒の範囲で適切に設定すればよい。また、完全な無音状態にしないで、例えば振幅を数10%抑圧してもよい。
図8に示すように、図7の遅延回路81および振幅抑圧部82の代わりに、FIFO(first−in first−out)メモリ86を用いてもよい。この場合には、FIFOメモリ86に書き込んだ音声データを一定時間遅れてFIFOメモリ86から読み出す際、制御部85によってデータ値を補正することによって、出力端子79に振幅抑圧処理後の出力音声信号を得る。
〔速度変換処理…図13〜図17〕
図2の例の音声処理部15では、MPEG音声デコーダ14の出力の音声データにつき、上述したように振幅抑圧処理部70で連続音声部分の終端部の振幅を抑圧した後、速度変換(人の会話の場合には話速変換)を実行する。
図2の例の音声処理部15では、MPEG音声デコーダ14の出力の音声データにつき、上述したように振幅抑圧処理部70で連続音声部分の終端部の振幅を抑圧した後、速度変換(人の会話の場合には話速変換)を実行する。
MPEG音声デコーダ14の出力の音声データ、したがって振幅抑圧処理部70の出力の音声データは、上述したように、2倍速再生の場合には60m秒で2×2880サンプルとなり、3倍速再生の場合には60m秒で3×2880サンプルとなる。以下では、2倍速再生の場合を例として速度変換処理を示すが、3倍速再生などの場合でも同様である。
図2の例の音声処理部15の処理単位期間設定部21は、システムコントローラ6からのタイミング信号およびクロックによって、図13に処理単位期間T1〜T6として示すように、一音素の時間より短い60m秒相当(2880サンプル分で、2倍速再生の場合には絶対時間としては30m秒)の時間間隔で、速度変換処理のそれぞれの処理単位期間の先頭ないし末尾のタイミングを決定する。ただし、処理単位期間設定部21は、システムコントローラ6の一部、または速度変換処理部23の一部として、構成することもできる。
有音無音判定部22は、入力データSi、すなわち振幅抑圧処理部70の出力の音声データの、有音部分と無音部分を識別判定するもので、この例では、図14に示すように、入力データSiの、それぞれ60m秒相当(2880サンプル)の処理単位期間を、3m秒相当(144サンプル分で、2倍速再生の場合には絶対時間としては1.5m秒)ずつの20個の判定単位期間に分割し、それぞれの判定単位期間につき、144サンプルのデータの絶対値の平均値を算出して、その平均値が閾値を超えるか否かを判断し、平均値が閾値を超えるときには、その判定単位期間を有音部分と判定し、平均値が閾値以下であるときには、その判定単位期間を無音部分と判定する。
出力バッファ24は、FIFO構造のリングバッファとして機能するものとする。図15に、出力バッファ24へのデータ書き込み、出力バッファ24からのデータ読み出し、および出力バッファ24の入出力ポインタの動きを示す。
出力バッファ24にデータが全く書き込まれていないときには、図15(A)に示すように、出力バッファ24には先頭アドレスから順にデータが書き込まれ、それに応じて入力ポインタも後方に移動する。このとき、出力ポインタは先頭アドレスを指示する。
図15(B)は、この状態から、さらにデータが書き込まれるとともに、先頭アドレスから順にデータが読み出された状態を示し、出力ポインタも後方に移動する。
さらにデータが書き込まれて、入力ポインタが末尾アドレスに達すると、図15(C)に示すように、入力ポインタは先頭アドレスに戻る。このとき、新たなデータが出力済みデータに対してのみ上書きされるように、入力ポインタの指示位置が制御される。出力ポインタも、末尾アドレスに達したときには、先頭アドレスに戻る。
D/Aコンバータ25は、出力バッファ24から出力された音声データをアナログ音声信号に変換するものであり、音声増幅器26は、そのアナログ音声信号を増幅するものである。音声増幅器26からのアナログ音声信号は、図1の音声出力装置16に供給される。
速度変換処理部23は、図16に示す速度変換処理ルーチンによって、振幅抑圧処理部70の出力の音声データ、すなわち入力データSiを速度変換するものである。
すなわち、この速度変換処理ルーチン30では、まずステップ31において、有音無音判定部22の判定結果から、入力データSiのそれぞれの処理単位期間内に無音部分が倍率相当分以上存在するか否かを判断する。倍率相当分とは、処理単位時間から、処理単位時間に再生倍率の逆数を乗じた時間を引いた時間で、上記のように処理単位時間が60m秒相当(2880サンプル)で、かつ2倍速再生の場合には、30m秒分(1440サンプル)である。すなわち、ステップ31では、それぞれの処理単位期間内に無音部分が30m秒分(1440サンプル)以上存在するか否かを判断する。
そして、処理単位期間内に無音部分が30m秒分(1440サンプル)以上存在するときには、ステップ31からステップ32に進んで、出力バッファ24に30m秒分(1440サンプル)以上のデータが蓄積されているか否かを判断し、出力バッファ24に30m秒分(1440サンプル)以上のデータが蓄積されているときには、ステップ32からステップ33に進んで、その処理単位期間内の無音部分を全て削除し、無音部分の前後の有音部分を接合して、その処理単位期間内の有音部分のデータのみを全て、出力バッファ24に書き込む。
また、出力バッファ24に30m秒分(1440サンプル)以上のデータが蓄積されていないときには、ステップ32からステップ34に進んで、その処理単位期間内の30m秒分(1440サンプル)以下の有音部分の全てに、その処理単位期間の先頭に近い部分から、その処理単位期間内の無音部分を一部付加して、その処理単位期間内の30m秒分(1440サンプル)のデータを、出力バッファ24に書き込む。
ただし、処理単位期間内に有音部分と無音部分が、ちょうど30m秒分(1440サンプル)ずつ存在するときには、ステップ33と同様に、その処理単位期間内の無音部分を全て削除し、無音部分の前後の有音部分を接合して、その処理単位期間内の有音部分のデータのみを全て、出力バッファ24に書き込む。
一方、処理単位期間内に無音部分が30m秒分(1440サンプル)未満しか存在しないときには、すなわち有音部分が30m秒分(1440サンプル)を超えて存在するときには、ステップ31からステップ35に進んで、出力バッファ24に、その処理単位期間内の30m秒分(1440サンプル)を超える有音部分のデータを全て蓄えるだけの空きがあるか否かを判断する。
そして、出力バッファ24に、その処理単位期間内の30m秒分(1440サンプル)を超える有音部分のデータを全て蓄えるだけの空きがあるときには、ステップ35からステップ33に進んで、その処理単位期間内の無音部分を全て削除し、無音部分の前後の有音部分を接合して、その処理単位期間内の有音部分のデータのみを全て、出力バッファ24に書き込む。
ただし、その処理単位期間内の60m秒分(2880サンプル)のデータが全て有音部分であるときには、その60m秒分(2880サンプル)の有音部分のデータをそのまま、出力バッファ24に書き込む。
また、出力バッファ24に、その処理単位期間内の30m秒分(1440サンプル)を超える有音部分のデータを全て蓄えるだけの空きがないときには、ステップ35からステップ36に進んで、有音部分が30m秒分(1440サンプル)となるようにデータを圧縮し、その圧縮後のデータを、出力バッファ24に書き込む。後述のように、この場合は速聴きとなる。
この圧縮処理について示すと、例えば、図17の上段に示すように、その処理単位期間内の60m秒分(2880サンプル)のデータが全て有音部分であるときには、同図の下段に示すように、中間部分の1040サンプルのデータを削除し、期間の先頭から920サンプルの前方部データSf中の後寄りの400サンプルのデータと、期間の末尾から920サンプルの後方部データSb中の前寄りの400サンプルのデータとを、フェード期間として、前方部データSfと後方部データSbをクロスフェードによって接合する。このようにクロスフェードによって接合するのは、接合された部分で圧縮後のデータにノイズが発生するのを防止するためである。
処理単位期間内に無音部分が存在するときには、その無音部分を含めた1040サンプルのデータを削除して、それぞれ920サンプルの有音部分を同様のクロスフェードによって接合する。無音部分が1440サンプル未満ではあるが、1040サンプルを超えるときには、400サンプルのフェード期間が得られ、接合後のデータとして1440サンプルのデータが得られるように、有音部分の一部として無音部分の一部を含ませる。
図13の処理単位期間T1は、入力データSi中に破線で囲んだ有音部分と破線で囲まない無音部分が、ちょうど30m秒分(1440サンプル)ずつ存在するとともに、再生開始直後であるため、出力バッファ24にはデータが全く蓄積されていない場合である。
したがって、処理単位期間T1については、ステップ31,32および34によって、図13の出力データSo中の部分E1に示すように、ちょうど30m秒分(1440サンプル)の無音部分が全て削除され、無音部分の前後の有音部分が接合されて、ちょうど30m秒分(1440サンプル)の有音部分のデータのみが全て、出力バッファ24に書き込まれる。
ただし、図13は入力データSiと出力データSoのタイミング関係を示すものではなく、タイミング的には出力データSoは入力データSiに対して同図の位置より遅れる。
出力バッファ24に書き込まれた処理単位期間T1内の30m秒分(1440サンプル)の有音部分のデータは、30m秒の時間に渡って、出力バッファ24から読み出され、D/Aコンバータ25によってアナログ音声信号に変換される。
図13の処理単位期間T2は、60m秒分(2880サンプル)のデータが全て有音部分であるとともに、出力バッファ24に、この60m秒分(2880サンプル)の有音部分のデータを全て蓄えるだけの空きがある場合である。
したがって、処理単位期間T2については、ステップ31,35および33によって、図13の出力データSo中の部分E2に示すように、その60m秒分(2880サンプル)の有音部分のデータがそのまま、出力バッファ24に書き込まれる。
この出力バッファ24に書き込まれた処理単位期間T2の60m秒分(2880サンプル)の有音部分のデータ中の、前半の30m秒分(1440サンプル)のデータが、期間T1内の有音部分のデータが読み出される30m秒の時間に続く30m秒の時間に渡って、出力バッファ24から読み出され、D/Aコンバータ25によってアナログ音声信号に変換される。
図13の処理単位期間T3は、入力データSi中に破線で囲んだ有音部分が30m秒分(1440サンプル)未満しか存在せず、破線で囲まない無音部分が30m秒分(1440サンプル)を超えて存在するとともに、出力バッファ24に30m秒分(1440サンプル)以上のデータが蓄積されている場合である。
したがって、処理単位期間T3については、ステップ31,32および33によって、図13の出力データSo中の部分E3に示すように、その30m秒分(1440サンプル)を超える無音部分が全て削除され、無音部分の前後の有音部分が接合されて、30m秒分(1440サンプル)未満の有音部分のデータのみが全て、出力バッファ24に書き込まれる。
そして、処理単位期間T2の60m秒分(2880サンプル)の有音部分のデータ中の、出力バッファ24に蓄積されていた後半の30m秒分(1440サンプル)のデータが、前半のデータが読み出される30m秒の時間に続く30m秒の時間に渡って、出力バッファ24から読み出され、D/Aコンバータ25によってアナログ音声信号に変換される。
図13の処理単位期間T4は、60m秒分(2880サンプル)のデータが全て有音部分であるとともに、出力バッファ24に、この60m秒分(2880サンプル)の有音部分のデータを全て蓄えるだけの空きがある場合である。
したがって、処理単位期間T4については、ステップ31,35および33によって、図13の出力データSo中の部分E4に示すように、その60m秒分(2880サンプル)の有音部分のデータがそのまま、出力バッファ24に書き込まれる。
そして、出力バッファ24に蓄積されていた処理単位期間T3の30m秒分(1440サンプル)未満の有音部分のデータと、出力バッファ24に書き込まれた処理単位期間T4の60m秒分(2880サンプル)の有音部分のデータ中の前半の一部のデータとを合わせた、30m秒分(1440サンプル)のデータが、30m秒の時間に渡って、出力バッファ24から読み出され、D/Aコンバータ25によってアナログ音声信号に変換される。
図13の処理単位期間T5は、60m秒分(2880サンプル)のデータが全て有音部分であるとともに、出力バッファ24に、この60m秒分(2880サンプル)の有音部分のデータを全て蓄えるだけの空きがない場合である。
したがって、処理単位期間T5については、ステップ31,35および36によって、図13の出力データSo中の部分E5に示し、かつ図17に示したように、60m秒分(2880サンプル)の有音部分のデータが、30m秒分(1440サンプル)に圧縮されて、出力バッファ24に書き込まれる。
そして、処理単位期間T4の60m秒分(2880サンプル)の有音部分のデータ中の前半の残りの部分のデータと、後半の一部のデータとを合わせた、30m秒分(1440サンプル)のデータが、30m秒の時間に渡って、出力バッファ24から読み出され、D/Aコンバータ25によってアナログ音声信号に変換される。
さらに、処理単位期間T4の60m秒分(2880サンプル)の有音部分のデータ中の後半の残りの部分のデータと、処理単位期間T5の30m秒分(1440サンプル)に圧縮された有音部分のデータ中の一部のデータとを合わせた、30m秒分(1440サンプル)のデータが、30m秒の時間に渡って、出力バッファ24から読み出され、D/Aコンバータ25によってアナログ音声信号に変換される。
以上のように、図13の例では、処理単位期間T1〜T4については、入力データSi中の無音部分のみが全て削除され、有音部分のデータのみが全て出力バッファ24に書き込まれるとともに、出力バッファ24からは有音部分のデータのみが全て、60m秒で2880サンプルの速度で読み出されるので、出力倍率は1倍となり、有音部分のみが全て定常速度で出力される。
処理単位期間T5については、60m秒分(2880サンプル)の有音部分のデータが、30m秒分(1440サンプル)に圧縮されて、出力バッファ24に書き込まれ、30m秒の時間で出力バッファ24から読み出されるので、例外的に有音部分が削減されて、速聴きとなる。
なお、図16のステップ34で、有音部分の全てに無音部分を一部付加して、30m秒分(1440サンプル)のデータを出力バッファ24に書き込む場合については、図13には示してしないが、例えば、処理単位期間T2が図13とは異なり、有音部分が30m秒分(1440サンプル)未満しか存在せず、無音部分が30m秒分(1440サンプル)を超えて存在する場合には、図13の処理単位期間T2では、出力バッファ24に30m秒分(1440サンプル)以上のデータが蓄積されていないので、その30m秒分(1440サンプル)未満の有音部分の全てに、期間T2の先頭に近い部分から、30m秒分(1440サンプル)を超える無音部分の一部が付加されて、期間T2内の30m秒分(1440サンプル)のデータが、出力バッファ24に書き込まれる。
以上のように、上述した例によれば、出力バッファ24を効果的に用いることによって、必要最小限のメモリを用いるだけで、有音部分の削除によって音声が途切れてしまうことが少なくなり、内容が理解しやすくなる。
〔速度変換処理の際の音質向上…図18〜図21〕
(データ圧縮の際の位置調整…図18、図19)
図16のステップ36で、図13の部分E5および図17の下段に示したようにクロスフェードによって前方部データSfと後方部データSbを接合する場合、図18(A)に示すように、フェード期間において前方部データSfと後方部データSbの位相が一致しているときには、接合後のデータは接合部分でうなりを生じない。
(データ圧縮の際の位置調整…図18、図19)
図16のステップ36で、図13の部分E5および図17の下段に示したようにクロスフェードによって前方部データSfと後方部データSbを接合する場合、図18(A)に示すように、フェード期間において前方部データSfと後方部データSbの位相が一致しているときには、接合後のデータは接合部分でうなりを生じない。
しかし、図18(B)に示すように、フェード期間において前方部データSfと後方部データSbの位相が大きくずれているときには、接合後のデータは接合部分でうなりを生じ、音質が劣化する。
そこで、クロスフェードによって前方部データSfと後方部データSbを接合するに当たっては、以下のように前方部データSfと後方部データSbの位置関係を調整する。
すなわち、図19に示すように、後方部データSbを、前方部データSfに対して、所定サンプル数の時間内で、1サンプルまたは数サンプルの時間ずつ、タイミング的に移動させて、それぞれの移動位置において、上述した400サンプル分のフェード期間内の前方部データSfのデータ値と後方部データSbのデータ値との差分の絶対値の、接合後のデータとして示す波形の塗り潰した部分の面積で表されるフェード期間全体に渡る積分値(和)を算出する。
そして、この積分値が最小となる移動位置を、前方部データSfと後方部データSbが最適な位相関係になる位置として検出し、その移動位置において、上述したようにクロスフェードによって前方部データSfと後方部データSbを接合する。
前方部データSfおよび後方部データSbのフェード期間におけるデータを、それぞれF[n]およびB[n]とし、フェード期間のサンプル数をjとすると、接合後のデータの接合部分(フェード期間)におけるデータX[n]は、 X[n]=((j−n)*F[n]+n*B[n])/j…(1)で表される。ただし、n=0,1,2…(j−1)である。
この例によれば、接合後のデータは接合部分でうなりや違和感の少ないものとなる。
(無音部分削除の際のノイズ発生防止…図20、図21)
図16のステップ34で、図13の部分E1に示したように、または図16のステップ33で、図13の部分E3に示したように、入力データSi中の無音部分を削除して、前後の有音部分を接合する場合、無音部分として図20の上段に示すデータ部分Spを削除したときには、部分Spは無音部分でレベルが低いものの、図20の下段左側に示すように、接合後の出力データSoは接合点の前後で位相が大きく変化するため、接合点でボツ音と呼ばれるノイズが発生する。また、無音部分として図20の上段に示すデータ部分Sqを削除したときには、図20の下段右側に示すように、同様に接合後の出力データSoには接合点でボツ音と呼ばれるノイズが発生する。
図16のステップ34で、図13の部分E1に示したように、または図16のステップ33で、図13の部分E3に示したように、入力データSi中の無音部分を削除して、前後の有音部分を接合する場合、無音部分として図20の上段に示すデータ部分Spを削除したときには、部分Spは無音部分でレベルが低いものの、図20の下段左側に示すように、接合後の出力データSoは接合点の前後で位相が大きく変化するため、接合点でボツ音と呼ばれるノイズが発生する。また、無音部分として図20の上段に示すデータ部分Sqを削除したときには、図20の下段右側に示すように、同様に接合後の出力データSoには接合点でボツ音と呼ばれるノイズが発生する。
そこで、削除した無音部分の前後の有音部分を接合するに当たっては、接合点の前後のそれぞれ所定サンプル数kの有音部分につき、フェードアウト処理およびフェードイン処理を行う。
具体的に、図20下段の左側および右側に示すように、フェードアウト処理前の接合部前半のデータをC1[i]、フェードイン処理前の接合部後半のデータをD1[i]とし、図21の左側および右側に示すように、フェードアウト処理後の接合部前半のデータをC2[i]、フェードイン処理後の接合部後半のデータをD2[i]とすると、 C2[i]=(k−i)*C1[i]/k …(2) D2[i]=i*D1[i]/k …(3)とする。ただし、i=0,1,2…(k−1)である。
このようにフェードアウト処理およびフェードイン処理をして、前後の有音部分を接合することによって、図21に示すように、接合後の出力データSoは接合点でボツ音と呼ばれるノイズが発生しなくなる。
〔速度変換処理の処理単位時間を変化させる場合…図22〜図26〕
(音程に応じて処理単位時間を変化させる場合…図22、図23)
図22は、図1の音声処理部15の他の例を示し、音声信号の主成分の音程に応じて速度変換処理の処理単位時間を変化させる場合である。音程に対して処理単位時間を直線的に変化させることも可能であるが、以下の例は、音程を3段階に分けて処理単位時間を3段階に変化させる場合である。
(音程に応じて処理単位時間を変化させる場合…図22、図23)
図22は、図1の音声処理部15の他の例を示し、音声信号の主成分の音程に応じて速度変換処理の処理単位時間を変化させる場合である。音程に対して処理単位時間を直線的に変化させることも可能であるが、以下の例は、音程を3段階に分けて処理単位時間を3段階に変化させる場合である。
この例では、音程検出部27において、振幅抑圧処理部70の出力の音声信号の主成分(レベルが最大の周波数成分)の音程が検出される。音程検出部27での音程検出方法には、FFT(高速フーリエ変換)などの公知の方法を用いることができる。
そして、この例では、処理単位期間設定部21は、音程検出部27の検出結果に基づいて、図23に示す音程対応処理単位期間設定処理ルーチンによって、処理単位時間を決定し、処理単位期間の先頭ないし末尾のタイミングを決定する。
すなわち、この音程対応処理単位期間設定処理ルーチン40では、まずステップ41において、音程検出部27の検出結果の音程が300Hz以上であるか否かを判断し、300Hz以上であるときには、ステップ41からステップ42に進んで、処理単位時間を最短の40m秒相当(1920サンプル分で、2倍速再生の場合には絶対時間としては20m秒)として、当該の処理単位期間の先頭(直前の処理単位期間の末尾)から40m秒相当後を当該の処理単位期間の末尾(直後の処理単位期間の先頭)とする。
検出結果の音程が300Hz未満であるときには、ステップ41からステップ43に進んで、検出結果の音程が100Hz以下であるか否かを判断し、100Hz以下であるときには、ステップ43からステップ44に進んで、処理単位時間を最長の60m秒相当(2880サンプル分で、2倍速再生の場合には絶対時間としては30m秒)として、当該の処理単位期間の先頭から60m秒相当後を当該の処理単位期間の末尾とする。
検出結果の音程が100Hz以下でもないときには、すなわち100Hzを超え、かつ300Hz未満であるときには、ステップ43からステップ45に進んで、処理単位時間を中間の50m秒相当(2400サンプル分で、2倍速再生の場合には絶対時間としては25m秒)として、当該の処理単位期間の先頭から50m秒相当後を当該の処理単位期間の末尾とする。
図22の速度変換処理部23が行う速度変換処理は、図13の処理単位期間T1,T2,T3…が、60m秒相当という固定の時間ではなく、40m秒相当、50m秒相当または60m秒相当というように変化し、図16の速度変換処理ルーチン30における倍率相当分が、処理単位時間の変化に応じて、2倍速再生の場合には20m秒分(960サンプル)、25m秒分(1200サンプル)または30m秒分(1440サンプル)というように変化する点を除いて、上述した例と同じである。
この例によれば、音声信号の主成分の音程が高いときには速度変換処理の処理単位時間が短くなり、主成分の音程が低いときには速度変換処理の処理単位時間が長くなるので、音声信号の周波数による歪みや揺れの少ない出力音声信号を得ることができる。
(低レベルの点を処理単位期間の区切れ目とする場合…図24〜図26)
図24は、図1の音声処理部15のさらに他の例を示し、無音部分と有音部分の境目、または有音部分中の相対的にレベルが低い部分を、速度変換処理の処理単位期間の区切れ目とする場合である。
図24は、図1の音声処理部15のさらに他の例を示し、無音部分と有音部分の境目、または有音部分中の相対的にレベルが低い部分を、速度変換処理の処理単位期間の区切れ目とする場合である。
この例では、処理単位期間設定部21は、振幅抑圧処理部70の出力の音声信号、および有音無音判定部22の判定結果を取り込んで、図25に示す音声レベル対応処理単位期間設定処理ルーチンによって、処理単位期間の先頭ないし末尾のタイミングを決定する。
すなわち、この音声レベル対応処理単位期間設定処理ルーチン50では、まずステップ51において、有音無音判定部22の判定結果から、当該の処理単位期間の先頭から30m秒相当以上、100m秒相当以下の時間範囲内に、無音部分と有音部分の切り替わり時点(無音部分から有音部分に切り替わる時点、または有音部分から無音部分に切り替わる時点)が存在するか否かを判断する。
そして、その時間範囲内に無音部分と有音部分の切り替わり時点が存在するときには、ステップ51からステップ52に進んで、その無音部分と有音部分の切り替わり時点を当該の処理単位期間の末尾とする。その時間範囲内に無音部分と有音部分の切り替わり時点が2点以上存在するときには、最初の時点を当該の処理単位期間の末尾とする。
一方、その時間範囲内に無音部分と有音部分の切り替わり時点が存在しないときには、ステップ51からステップ53に進んで、その時間範囲内で音声平均レベルが最小となる時点を当該の処理単位期間の末尾とする。音声平均レベルは、図14に示したような判定単位期間内の各サンプルのデータ値の絶対値の平均値であり、その平均値が最小となる判定単位期間の先頭または末尾を当該の処理単位期間の末尾とする。
したがって、この例では、処理単位時間は、最短で30m秒相当、最長で100m秒相当である。
図26に「固定長の場合」として示すケースは、図2の例のような構成で、処理単位期間T1,T2,T3…が60m秒相当という固定の時間にされる場合であり、図26に「可変長の場合」として示すケースは、この図24の例のような構成で、処理単位期間T11,T12,T13…の先頭ないし末尾のタイミングが決定され、時間が変えられる場合である。ただし、図26に示す時間は、絶対時間ではなく、上述したように2880サンプル分を60m秒相当としたときの時間である。
すなわち、この例では、時間軸上で0m秒として示す最初の処理単位期間T11の先頭の時点から30m秒相当以上、100m秒相当以下の時間範囲内に、入力データSiが有音部分から無音部分に切り替わる時点taが存在するので、その時点taが、処理単位期間T11の末尾、すなわち次の処理単位期間T12の先頭となる。
さらに、処理単位期間T12の先頭の時点taから30m秒相当以上、100m秒相当以下の時間範囲内に、入力データSiが無音部分から有音部分に切り替わる時点tbが存在するので、その時点tbが、処理単位期間T12の末尾、すなわち次の処理単位期間T13の先頭となる。
さらに、処理単位期間T13の先頭の時点tbから30m秒相当以上、100m秒相当以下の時間範囲内には、無音部分と有音部分の切り替わり時点が存在しないので、その時間範囲内で入力データSiの音声平均レベルが最小となる時点tcが、処理単位期間T13の末尾、すなわち次の処理単位期間T14の先頭となる。
この例によれば、無音部分と有音部分の境目、または有音部分中の相対的にレベルが低い部分が、速度変換処理の処理単位期間の区切れ目となるので、音声信号の切り貼りによる音質の劣化を大幅に低減することができる。
〔多チャンネル再生の場合…図27、図28〕
上述した例は、図1の記録媒体1から1チャンネルの音声信号を再生する場合として示した。しかし、記録媒体1には多チャンネルの音声信号を記録することができ、その多チャンネルの音声信号からユーザの希望するチャンネルの音声信号を選択して、または多チャンネルの音声信号を同時に、再生することが可能である。以下に、その場合の例を示す。
上述した例は、図1の記録媒体1から1チャンネルの音声信号を再生する場合として示した。しかし、記録媒体1には多チャンネルの音声信号を記録することができ、その多チャンネルの音声信号からユーザの希望するチャンネルの音声信号を選択して、または多チャンネルの音声信号を同時に、再生することが可能である。以下に、その場合の例を示す。
(第1の例…図27)
図27に、ステレオ音声信号、またはバイリンガルなどの2元音声(主音声および副音声)中の一方または両方の音声信号を、選択的に再生する場合の例を示す。
図27に、ステレオ音声信号、またはバイリンガルなどの2元音声(主音声および副音声)中の一方または両方の音声信号を、選択的に再生する場合の例を示す。
この例では、システムコントローラ6からユーザによって選択された音声モードを示す音声モード識別信号が得られて、有音無音判定部22および速度変換処理部23に供給され、ユーザによって選択された音声モードに応じて、有音無音判定部22での有音無音判定および速度変換処理部23での速度変換処理が、以下のように切り換え制御される。
すなわち、ステレオ音声信号を再生する場合には、MPEG音声デコーダ14からは左右のチャンネルの音声データが交互に得られ、有音無音判定部22は、図14に示したような判定単位期間のそれぞれにつき、左チャンネルのデータと右チャンネルのデータの平均値を算出して、その平均値が閾値を超えるか否かを判断し、平均値が閾値を超えるときには、その判定単位期間を有音部分と判定し、平均値が閾値以下であるときには、その判定単位期間を無音部分と判定する。
速度変換処理部23は、MPEG音声デコーダ14からの左右のチャンネルの音声データを、処理単位期間設定部21によって設定された処理単位期間ごとに、一旦、左チャンネルのデータと右チャンネルのデータに分離して、内部バッファ29の左チャンネル用および右チャンネル用として設定した別個のエリアに書き込む。
さらに、速度変換処理部23は、その別個のエリアに書き込んだ左右のチャンネルの音声データを、上記の有音無音判定部22の判定結果に基づいて、それぞれ図16に示した速度変換処理ルーチン30によって独立に速度変換処理し、処理後の左右のチャンネルの音声データを、左チャンネルのデータと右チャンネルのデータが交互に配列されるように出力バッファ24に書き込む。
出力バッファ24からは、速度変換処理後の左右のチャンネルの音声データを、交互に読み出して、D/Aコンバータ25によってアナログ音声信号に変換し、D/Aコンバータ25からの左右のチャンネルのアナログ音声信号を、音声増幅器26aおよび26bに振り分けて出力する。
一方、主音声と副音声のいずれか一方の音声信号を再生する場合には、有音無音判定部22は、図14に示したような判定単位期間のそれぞれにつき、選択された方の音声の、すなわち主音声が選択されたときには主音声の、副音声が選択されたときには副音声の、音声データの絶対値の平均値を算出して、その平均値が閾値を超えるか否かによって、有音部分と無音部分を識別判定する。
速度変換処理部23は、選択された方の音声についてのみ、すなわち主音声が選択されたときには主音声についてのみ、副音声が選択されたときには副音声についてのみ、MPEG音声デコーダ14の出力の音声データを、上記の有音無音判定部22の判定結果に基づいて、図16に示した速度変換処理ルーチン30によって速度変換処理し、処理後の音声データを出力バッファ24に書き込む。
そして、出力バッファ24から速度変換処理後の音声データを読み出し、D/Aコンバータ25によってアナログ音声信号に変換して、音声増幅器26aおよび26bに同時に出力する。
主音声と副音声の音声信号を同時に再生する場合には、ステレオ音声信号を再生する場合と同様に、有音無音判定部22は、主音声と副音声の音声データの平均値を算出して、その平均値が閾値を超えるか否かによって、有音部分と無音部分を識別判定し、速度変換処理部23は、主音声と副音声の音声データを独立に速度変換処理することによって、音声増幅器26aおよび26bから、それぞれ主音声および副音声のアナログ音声信号を出力する。
ただし、主音声と副音声の音声信号を同時に再生する場合、有音無音判定部22で、主音声と副音声の音声データにつき独立に、有音部分と無音部分の識別判定を行ってもよい。
図27の例では、振幅抑圧処理部を省略したが、この例でも、振幅抑圧処理部を設けて、MPEG音声デコーダ14の出力の音声データにつき、連続音声部分の終端部の振幅を抑圧することができる。この場合、ステレオ音声信号を再生する場合、または主音声と副音声の音声信号を同時に再生する場合には、速度変換処理と同様に、左右のチャンネルの音声データ、または主音声と副音声の音声データにつき、独立に振幅抑圧処理する。
以上は、2チャンネルの場合であるが、3チャンネル以上の場合も、同様である。
(第2の例…図28)
さらに、一般に2チャンネル以上の多チャンネルの場合、図28の例のように構成することもできる。同図の例は、図1の再生装置において、デマルチプレクサ7から多チャンネルの音声データを分離し、それぞれMPEG音声デコーダ14a,14b,14c…で伸長復号化して、音声処理部15a,15b,15c…に供給するもので、音声処理部15a,15b,15c…は、それぞれ図2、図22または図24の例の音声処理部15と同様に構成する。
さらに、一般に2チャンネル以上の多チャンネルの場合、図28の例のように構成することもできる。同図の例は、図1の再生装置において、デマルチプレクサ7から多チャンネルの音声データを分離し、それぞれMPEG音声デコーダ14a,14b,14c…で伸長復号化して、音声処理部15a,15b,15c…に供給するもので、音声処理部15a,15b,15c…は、それぞれ図2、図22または図24の例の音声処理部15と同様に構成する。
この例では、例えば、チャンネル1については、その音声信号を再生するとともに、音声処理部15aの速度変換処理部23aで速度変換処理し、チャンネル2については、その音声信号を再生するものの、音声処理部15bの速度変換処理部23bで速度変換処理しない、というように、チャンネル1,2,3…の各チャンネルの音声信号を、選択的または同時に再生し、選択的または同時に速度変換処理することができる。
〔映像信号および音声信号を定常速度で再生する場合…図29〕
図1の再生装置で、記録媒体1から映像信号および音声信号を定常速度で再生する場合、MPEG音声デコーダ14からは音声データが1倍速で出力され、音声処理部15の図2または図27などに示した処理単位期間設定部21、有音無音判定部22および速度変換処理部23は、それぞれの機能を停止して、音声処理部15が振幅抑圧処理部70を備える場合には、振幅抑圧処理部70の出力の音声データがそのまま、音声処理部15が振幅抑圧処理部70を備えない場合には、MPEG音声デコーダ14の出力の音声データがそのまま、出力バッファ24に書き込まれ、出力バッファ24から読み出される。
図1の再生装置で、記録媒体1から映像信号および音声信号を定常速度で再生する場合、MPEG音声デコーダ14からは音声データが1倍速で出力され、音声処理部15の図2または図27などに示した処理単位期間設定部21、有音無音判定部22および速度変換処理部23は、それぞれの機能を停止して、音声処理部15が振幅抑圧処理部70を備える場合には、振幅抑圧処理部70の出力の音声データがそのまま、音声処理部15が振幅抑圧処理部70を備えない場合には、MPEG音声デコーダ14の出力の音声データがそのまま、出力バッファ24に書き込まれ、出力バッファ24から読み出される。
しかし、MPEG映像デコーダ11では、映像データの伸長復号化に少なくとも数フレームの時間を要するので、NTSCエンコーダ12からの映像出力は、音声処理部15からの音声出力に対して時間遅れを生じ、映像出力と音声出力の同期が得られなくなる。
そこで、以下の例では、定常再生時には、出力バッファ24を利用して、この映像出力の音声出力に対する遅れを吸収し、映像出力と音声出力を同期させる。
図29は、その例を示し、速度変換処理部23は、システムコントローラ6によって指示された再生モードに応じて、出力バッファ24に制御信号を送出して、出力バッファ24からデータを読み出すタイミングを制御する。
具体的には、図15に示したようにFIFO構造のリングバッファとして機能する出力バッファ24の出力ポインタを制御する。すなわち、出力バッファ24の出力ポインタと入力ポインタの間に蓄積されるデータ量が、映像出力の音声出力に対する遅れ時間に相当するように、出力ポインタを制御する。
例えば、この例によらないときの映像出力の音声出力に対する遅れ時間をDv(m秒)、音声信号のサンプリング周波数をFs(kHz)、音声データをデータ幅がBh(ビット)のステレオ(2チャンネル)音声信号とすると、出力ポインタと入力ポインタの間のデータ蓄積量Ad(バイト)を、 Ad=(Dv×Fs×Bh×2)/8 …(4)とする。
以上のように、この例によれば、映像信号と音声信号を定常速度で再生する場合に、出力バッファ24を利用して映像出力と音声出力を同期させることができる。
〔他の実施形態〕
図1の実施形態は、記録媒体1がディスク状の記録媒体である場合であるが、この発明は、記録媒体(記憶媒体)が磁気テープや半導体メモリなどである場合にも、同様に適用することができる。半導体メモリの場合には、再生ヘッドではなく読み出し回路によってメモリから、これに書き込まれた音声信号を読み出すことは言うまでもない。この場合には、「記録」とは書き込みであり、「再生」とは読み出しである。
図1の実施形態は、記録媒体1がディスク状の記録媒体である場合であるが、この発明は、記録媒体(記憶媒体)が磁気テープや半導体メモリなどである場合にも、同様に適用することができる。半導体メモリの場合には、再生ヘッドではなく読み出し回路によってメモリから、これに書き込まれた音声信号を読み出すことは言うまでもない。この場合には、「記録」とは書き込みであり、「再生」とは読み出しである。
また、この発明は、映像信号および音声信号を定常速度で再生する場合についての図29のような例を除いて、記録媒体から音声信号のみを再生する場合または装置にも、同様に適用することができる。
主要部については図中に全て記述したので、ここでは省略する。
Claims (6)
- 記録媒体から、これに記録された音声信号を定常速度より速い速度で再生することによって得られた再生入力音声信号につき、連続音声部分の終端部の振幅を抑圧し、
その振幅抑圧処理後の再生入力音声信号を、処理単位期間ごとに区切り、
出力バッファから定常速度相当量の再生出力音声信号が得られる範囲内で無音部分を削除し、その前後の有音部分を接合して、それぞれの処理単位期間の再生入力音声信号を、前記出力バッファに書き込むとともに、
処理単位期間の再生入力音声信号中に前記出力バッファに蓄えられない量の有音部分が存在する場合には、一部の有音部分を削除し、その前後の有音部分を接合して、その処理単位期間の再生入力音声信号を圧縮して、前記出力バッファに書き込む
音声再生方法。 - 請求項1の音声再生方法において、
連続音声部分の終端部の振幅を抑圧する処理は、連続音声部分の終端を予測し、その予測した点から振幅の抑圧を開始するとともに、次の連続音声部分の始端が検出されたら、振幅の抑圧を解除する
ことを特徴とする音声再生方法。 - 請求項2の音声再生方法において、
再生入力音声信号の信号レベルが減少傾向にあり、かつ再生入力音声信号の信号レベルが閾値より小さくなったとき、連続音声部分が終端に至る過程に入ったとして、連続音声部分の終端を予測する
ことを特徴とする音声再生方法。 - 請求項3の音声再生方法において、
再生入力音声信号の信号レベルのピーク値を検出し、その検出されたピーク値に応じて前記閾値を設定する
ことを特徴とする音声再生方法。 - 請求項1の音声再生方法において、
連続音声部分の終端部の振幅を抑圧する処理は、再生入力音声信号を遅延させるとともに、遅延前の再生入力音声信号から連続音声部分の終端を検出し、その検出結果に基づいて遅延後の再生入力音声信号の振幅を抑圧する
ことを特徴とする音声再生方法。 - 記録媒体から、これに記録された音声信号を定常速度より速い速度で再生することによって得られた再生入力音声信号につき、連続音声部分の終端部の振幅を抑圧する振幅抑圧処理部と、
その振幅抑圧処理後の再生入力音声信号に対する速度変換処理の処理単位期間を設定する処理単位期間設定部と、
再生出力音声信号を得るための出力バッファと、
この出力バッファから定常速度相当量の再生出力音声信号が得られる範囲内で無音部分を削除し、その前後の有音部分を接合して、それぞれの処理単位期間の再生入力音声信号を、前記出力バッファに書き込むとともに、処理単位期間の再生入力音声信号中に前記出力バッファに蓄えられない量の有音部分が存在する場合には、一部の有音部分を削除し、その前後の有音部分を接合して、その処理単位期間の再生入力音声信号を圧縮して、前記出力バッファに書き込む速度変換処理部と
を備える音声再生装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010010489A JP2010191415A (ja) | 1999-08-24 | 2010-01-20 | 音声再生方法および音声再生装置 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP23641299 | 1999-08-24 | ||
JP2010010489A JP2010191415A (ja) | 1999-08-24 | 2010-01-20 | 音声再生方法および音声再生装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000171556A Division JP4895418B2 (ja) | 1999-08-24 | 2000-06-08 | 音声再生方法および音声再生装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010191415A true JP2010191415A (ja) | 2010-09-02 |
Family
ID=42817473
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010010489A Ceased JP2010191415A (ja) | 1999-08-24 | 2010-01-20 | 音声再生方法および音声再生装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010191415A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013148654A (ja) * | 2012-01-18 | 2013-08-01 | Nippon Hoso Kyokai <Nhk> | 話速変換装置、そのプログラムおよびプログラムを記録した記録媒体 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02259699A (ja) * | 1989-03-30 | 1990-10-22 | Sharp Corp | 録音再生装置 |
JPH03205656A (ja) * | 1990-01-04 | 1991-09-09 | Sharp Corp | 早聞き装置 |
JPH0555853A (ja) * | 1991-08-27 | 1993-03-05 | Nec Corp | 音程制御方式とその装置 |
JPH05297891A (ja) * | 1992-04-20 | 1993-11-12 | Mitsubishi Electric Corp | ディジタルオーディオ信号のピッチ変換器 |
JPH0713596A (ja) * | 1993-06-21 | 1995-01-17 | Matsushita Electric Ind Co Ltd | 音声速度変換方法 |
JPH0736487A (ja) * | 1993-07-21 | 1995-02-07 | Sony Corp | 音声信号処理装置 |
JPH0883096A (ja) * | 1994-09-14 | 1996-03-26 | Matsushita Electric Ind Co Ltd | 音声時間軸変換装置 |
JPH08179792A (ja) * | 1994-12-22 | 1996-07-12 | Sony Corp | 音声処理装置 |
JPH08241099A (ja) * | 1995-03-02 | 1996-09-17 | Mitsubishi Electric Corp | ディジタルオーディオ信号の音程変換器 |
JPH08255000A (ja) * | 1995-03-17 | 1996-10-01 | Sanyo Electric Co Ltd | 音声信号再生装置 |
JPH0983673A (ja) * | 1995-09-19 | 1997-03-28 | Hitachi Ltd | 音声通信システム、音声通信方法および送受信装置 |
JPH10143193A (ja) * | 1996-11-08 | 1998-05-29 | Matsushita Electric Ind Co Ltd | 音声信号処理装置 |
JPH11225309A (ja) * | 1998-02-04 | 1999-08-17 | Matsushita Electric Ind Co Ltd | 音響信号処理装置及びオーディオ高速再生方法 |
-
2010
- 2010-01-20 JP JP2010010489A patent/JP2010191415A/ja not_active Ceased
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02259699A (ja) * | 1989-03-30 | 1990-10-22 | Sharp Corp | 録音再生装置 |
JPH03205656A (ja) * | 1990-01-04 | 1991-09-09 | Sharp Corp | 早聞き装置 |
JPH0555853A (ja) * | 1991-08-27 | 1993-03-05 | Nec Corp | 音程制御方式とその装置 |
JPH05297891A (ja) * | 1992-04-20 | 1993-11-12 | Mitsubishi Electric Corp | ディジタルオーディオ信号のピッチ変換器 |
JPH0713596A (ja) * | 1993-06-21 | 1995-01-17 | Matsushita Electric Ind Co Ltd | 音声速度変換方法 |
JPH0736487A (ja) * | 1993-07-21 | 1995-02-07 | Sony Corp | 音声信号処理装置 |
JPH0883096A (ja) * | 1994-09-14 | 1996-03-26 | Matsushita Electric Ind Co Ltd | 音声時間軸変換装置 |
JPH08179792A (ja) * | 1994-12-22 | 1996-07-12 | Sony Corp | 音声処理装置 |
JPH08241099A (ja) * | 1995-03-02 | 1996-09-17 | Mitsubishi Electric Corp | ディジタルオーディオ信号の音程変換器 |
JPH08255000A (ja) * | 1995-03-17 | 1996-10-01 | Sanyo Electric Co Ltd | 音声信号再生装置 |
JPH0983673A (ja) * | 1995-09-19 | 1997-03-28 | Hitachi Ltd | 音声通信システム、音声通信方法および送受信装置 |
JPH10143193A (ja) * | 1996-11-08 | 1998-05-29 | Matsushita Electric Ind Co Ltd | 音声信号処理装置 |
JPH11225309A (ja) * | 1998-02-04 | 1999-08-17 | Matsushita Electric Ind Co Ltd | 音響信号処理装置及びオーディオ高速再生方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013148654A (ja) * | 2012-01-18 | 2013-08-01 | Nippon Hoso Kyokai <Nhk> | 話速変換装置、そのプログラムおよびプログラムを記録した記録媒体 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4895418B2 (ja) | 音声再生方法および音声再生装置 | |
JP2955247B2 (ja) | 話速変換方法およびその装置 | |
JP4319548B2 (ja) | ビデオ・トリック・モード再生中における音声番組の再生方法および装置 | |
JPH09135500A (ja) | ディスク駆動システムのオーディオ信号デコーディング装置及び方法 | |
US20180167649A1 (en) | Audio recording device, audio recording system, and audio recording method | |
EP1481544B1 (en) | Gated silence removal during video trick modes | |
JP2010191415A (ja) | 音声再生方法および音声再生装置 | |
JP2007158873A (ja) | 音声補正装置 | |
US20070192089A1 (en) | Apparatus and method for reproducing audio data | |
JP3378672B2 (ja) | 話速変換装置 | |
JP4542805B2 (ja) | 変速再生方法及び装置、並びにプログラム | |
JP3162945B2 (ja) | ビデオテープレコーダ | |
JP4580297B2 (ja) | 音声再生装置、音声録音再生装置、およびそれらの方法、記録媒体、集積回路 | |
JP4212253B2 (ja) | 話速変換装置 | |
JP3081469B2 (ja) | 話速変換装置 | |
JP5325059B2 (ja) | 映像音声同期再生装置、映像音声同期処理装置、映像音声同期再生プログラム | |
JPH11167396A (ja) | 音声記録再生装置 | |
JP4529859B2 (ja) | 音声再生装置 | |
JPH0883096A (ja) | 音声時間軸変換装置 | |
JP4229041B2 (ja) | 信号再生装置及び方法 | |
JP2000243065A (ja) | オーディオデータ処理装置 | |
WO2010100895A1 (ja) | 音声再生装置及び映像音声再生装置 | |
JPH05303400A (ja) | 音声再生装置と音声再生方法 | |
JP4164613B2 (ja) | 信号再生方法および信号再生装置 | |
JPH0944199A (ja) | 音声信号再生装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120816 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121002 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130425 |
|
A045 | Written measure of dismissal of application [lapsed due to lack of payment] |
Free format text: JAPANESE INTERMEDIATE CODE: A045 Effective date: 20130827 |