JP3017715B2 - 音声再生装置 - Google Patents

音声再生装置

Info

Publication number
JP3017715B2
JP3017715B2 JP10218925A JP21892598A JP3017715B2 JP 3017715 B2 JP3017715 B2 JP 3017715B2 JP 10218925 A JP10218925 A JP 10218925A JP 21892598 A JP21892598 A JP 21892598A JP 3017715 B2 JP3017715 B2 JP 3017715B2
Authority
JP
Japan
Prior art keywords
frame
audio
expansion
time axis
data expansion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP10218925A
Other languages
English (en)
Other versions
JPH11194796A (ja
Inventor
正之 三▲さき▼
宏嗣 谷口
潤一 田川
美治男 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP10218925A priority Critical patent/JP3017715B2/ja
Priority to US09/181,992 priority patent/US6484137B1/en
Publication of JPH11194796A publication Critical patent/JPH11194796A/ja
Application granted granted Critical
Publication of JP3017715B2 publication Critical patent/JP3017715B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声速度を所望の
値に変換して聴取する事が可能な音声再生装置に関す
る。
【0002】
【従来の技術】音声を高能率に符号化して、記憶媒体へ
蓄積、あるいは通信網を利用して伝送する技術が近年実
用化され広く利用されている。
【0003】このような技術に関し、国際標準規格のMP
EG方式を用いて、音声(オーディオ)を再生する装置と
して、例えば特開平9−73299号公報に開示されて
いるものがある。このMPEGオーディオ再生装置のブロッ
ク図を図19に示す。以下、図19を参照しながら、従
来の音声再生装置について説明する。
【0004】図19に示すように、MPEGオーディオ再生
装置1は、再生速度検出回路2、MPEGオーディオデコー
ダ3、話速変換処理回路4、D/Aコンバータ5、オー
ディオアンプ6から構成されている。さらに話速変換処
理回路4は、フレームメモリ34、話速変換部35、リ
ングメモリ32、アップダウンカウンタ33、読み出し
クロック生成回路36で構成されている。
【0005】MPEGオーディオ再生装置1には、MPEGオー
ディオ方式にて符号化されたMPEGオーディオストリーム
が入力される。MPEGオーディオデコーダ3では、上記MP
EGオーディオストリームがディジタル信号のオーディオ
出力に復号される。MPEGオーディオの方式およびフォー
マットの内容に関しては、現在では種々の文献等に記述
されており、例えば「ISO/IEC IS 11172 Part3 : Audi
o」に記載されている。
【0006】一方、例えば2倍速、0.5倍速などの速
度情報が再生速度検出回路2に入力され、この再生速度
検出回路にて速度情報(再生速度)を検出してデコード
クロックを生成する。このデコードクロックは話速変換
処理回路4およびMPEGオーディオデコーダ3へ供給され
る。当該MPEGオーディオデコーダ3にてデコードされた
オーディオ信号は、話速変換処理回路4に入力され、与
えられた上記速度情報に基づき、さらに時間軸圧縮/伸
長あるいは無音削除/挿入を施されて、所定の話速変換
が行われ、この話速変換された出力がスピーカ23から
再生されることとなる。
【0007】
【発明が解決しようとする課題】しかしながら、上記の
ような、所定時間長のフレーム単位でのデコードを行う
MPEGオーディオのような符号化方式において、複数フレ
ーム間にまたがるデータ処理を実施する際には、多数の
バッファメモリなどが必要かつ処理が複雑となり、ハー
ドウェア構成が大規模となる問題を生じることになる。
【0008】さらに、同様に、国際標準規格のMPEG方式
を用いて、音声(オーディオ)を再生する装置として、
特開平9−81189号公報に開示されているものがあ
る。このMPEGオーディオ再生装置のブロック図を、図2
0に示す。以下、図20を参照しながら、従来の音声再
生装置について説明する。
【0009】図20に示すように、1701は、入力さ
れる帯域信号1をTfサンプル長の1フレーム分、分割
し保持する第1のフレーム分割装置、1702は、入力
される帯域信号2をTfサンプル長の1フレーム分、分
割し保持する第2のフレーム分割装置、1703は、入
力される帯域信号3をTfサンプル長の1フレーム分、
分割し保持する第3のフレーム分割装置、1704は、
入力される帯域信号4をTfサンプル長の1フレーム
分、分割し保持する第4のフレーム分割装置である。
【0010】上記において、入力される帯域信号1〜4
は、通常の時間軸信号を4帯域に帯域分割するとともに
4分の1にダウンサンプリングするようなフィルタバン
クによって帯域分割された、それぞれの帯域信号であ
り、帯域信号1は、最も低域の帯域信号、帯域信号4、
は最も高域の帯域信号であるとする。
【0011】1710は、音声のピッチ成分が含まれる
帯域の帯域信号の前半の信号と、後半の信号とを、nサ
ンプルだけオーバーラップさせた時の該オーバーラップ
範囲における両信号間の相関値S(n)を求め、該相関値S
(n)が最大値となるn をTcとして検出する相関関数算出
装置、1711は、聴取者からの再生速度F の指定を検
出する再生速度検出装置、1712は、相関関数検出範
囲に制限を設けるための相関関数検出範囲制御装置、1
705は、第1のフレーム分割装置1701によって分
割され保持された帯域信号の前半の信号と、後半の信号
とを、Tcサンプル分オーバーラップさせてクロスフェ
ード処理する第1のクロスフェード処理装置、1706
は、第2のフレーム分割装置1702によって分割され
保持された帯域信号の前半の信号と、後半の信号とを、
Tcサンプル分オーバーラップさせてクロスフェード処理
する第2のクロスフェード処理装置、1707は、第3
のフレーム分割装置1703によって分割され保持され
た帯域信号の前半の信号と、後半の信号とを、Tcサンプ
ル分オーバーラップさせてクロスフェード処理する第3
のクロスフェード処理装置、1708は、第4のフレー
ム分割装置1708によって分割され保持された帯域信
号の前半の信号と、後半の信号とを、Tcサンプル分オー
バーラップさせてクロスフェード処理する第4のクロス
フェード処理装置、1709は、上記クロスフェード処
理された4帯域の帯域信号を帯域合成する帯域合成フィ
ルタである。
【0012】図21は、音声信号の主要ピッチ成分が含
まれる周波数帯域について、その1フレーム分の時間軸
波形を表した図である。図22は、図21に示した1フ
レームの信号を、その前半の信号部分と、後半の信号部
分との2セグメントに分割して上下に並べた図である。
図23は、図22における2セグメント間の相関関数を
求めた値を示したグラフである。図24は、相関関数が
最大となる時刻に後半の信号成分であるセグメントをず
らせた様子を定性的に示した図である。図25は、2セ
グメント間をTc時間オーバーラップさせてクロスフェー
ド処理する様子を示した図である。
【0013】以上のように構成された再生装置につい
て、以下その動作について、図21から図25を用いて
説明する。まず入力される帯域信号1の1フレーム分
(Tfサンプル長)のデータは、図21に示すように、
音声信号の主要ピッチ成分を含んでいるものとする。そ
して、この1フレーム分のデータは、第1のフレーム分
割装置1701によって、図22に示すような同じデー
タ数の2セグメントに分割して保持され、第2のフレー
ム分割装置1702、第3のフレーム分割装置170
3、第4のフレーム分割装置1704も同様に各々の帯
域信号2,3,4を2セグメントに分割して保持する。
【0014】そして、再生速度検出装置で得られる目標
速度比F から、2セグメントをオーバラップするデータ
長である目標オーバラップ値Tbを、次式のように求め
る。
【0015】Tb = Tf ・(1 - 1/F) ここで、後述する位相調整を行う影響による目標速度比
F からのずれを補正するための補正パラメータB (初期
値は0 )を考慮して、相関関数算出装置1710で、上
記第1のフレーム分割装置1701の2セグメント間の
オーバラップ区間データ長が(Tb + B)の前後mサンプ
ルの範囲で相関関数を演算し、該相関関数が最大となる
場合のオーバラップ区間長Tcを求める。その結果、Tcが
Tbからずれることによる目標速度比からの誤差の補正を
行うため、先に述べた補正パラメータB の値を以下のよ
うに更新する。
【0016】B ← B + Tb - Tc 図22は、目標速度比F が2.0 の場合の, 目標オーバラ
ップ値Tb ( = Tf/2)の位置関係で、2セグメントを上下
に配置した図であり、この場合に2 セグメント間の相関
関数を求めた結果が、図23のようになる。この例では
相関が最大値となるような時刻は、4であることがわか
る。図24は、この相関関数の結果をもとに、2セグメ
ント間のオーバラップ長をTcとして表した説明図であ
る。つまり、相関関数によって、前半のセグメントに後
半のセグメントの類似度合を求め、その結果、相関の高
い位置までずらせると、双方のセグメントの位相が一致
することになる。そのときの2セグメント間のオーバー
ラップ区間長が、Tcということになる。
【0017】次に、第1のクロスフェード処理装置17
05で、第1のフレーム分割装置1701によって分割
され保持された2セグメントの帯域信号を、 Tc 分オー
バーラップさせてクロスフェード処理を行なう。同様
に、第2のクロスフェード処理装置1706、第3のク
ロスフェード処理装置1707、第4のクロスフェード
処理装置1708でも、それぞれ、第2のフレーム分割
装置1702、第3のフレーム分割装置1703、第4
のフレーム分割装置1704によって分割され保持され
た2セグメントの帯域信号を、Tc分オーバーラップさせ
てクロスフェード処理を行なう。図25は、このような
クロスフェード処理の一例を示したものである。2セグ
メントのオーバラップ部分に対して、互いに相補的な重
みを付けた加算を行う。(a)は、前半のセグメントに
フェードアウト処理した信号、(b)は、後半のセグメ
ントにフェードイン処理した信号である。このフェード
アウト処理した信号(a)と、フェードイン処理した信
号(b)とを加算することにより、同図(c)のような
波形となる。その後に、帯域合成フィルタ1009によ
って、上記のようにしてクロスフェード処理された各帯
域信号が帯域合成され、通常の時間軸信号が生成され
る。
【0018】以上の処理を、逐次、Tfサンプルずつの
全てのフレームに関して、各帯域の信号に行うことによ
って、1 フレーム内のデータだけで完結する高速再生が
行えることとなる。
【0019】しかしながら、上記のような構成による再
生装置では、次のような課題が存在する。ここでは、標
準的なMPEG1 オーディオの符号化方式を例に取り、分割
帯域数を32、各帯域1フレームのデータ数を36、補正パ
ラメータ値Bの初期値を0、基準とする相関探索幅mを
4として、実際に取り得るオーバラップ値と、相関探索
する点数などを、以上に述べた従来例の方法で求め、そ
の結果を以下の表1に示す。ここで、計算式の小数点は
切り捨てて表示している。
【0020】
【表1】
【0021】まず、速度比が1.0 に近い側に関して検討
する。目標オーバラップ値が小さいこともあり、オーバ
ラップ値の取り得る値は、かなり小さい値の範囲に留ま
っている。この場合の問題点として考えられるのは、ク
ロスフェード長が短すぎることである。相関の高い位置
を求めてクロスフェード処理を実施するが、クロスフェ
ード区間を挟んだ2セグメント間の遷移期間の長さが短
すぎると、セグメント中に含まれる低周波数信号は、ク
ロスフェードによる振幅の連続性改善の効果も少なく、
波形の急激な変化をもたらしてしまい、結果として不連
続感の強い再生音として聴取される。このクロスフェー
ド区間長および相関探索幅と、音質に関する評価実験
は、例えば、「鈴木、三崎:電子情報通信学会音声研究
会 SP90-34,1990.8」などにPCM 音声に対する最適な値
を求めている。
【0022】一方、速度比が2.0 に近い側に関して検討
すると、目標オーバラップ値が上限値である18に近い値
であり、オーバラップ値の上限が1セグメント長を超え
ることができず、相関探索点数は十分な数になっている
ことがわかる。また、速度比2.0 の場合、オーバラップ
値を目標値である18より小さい値にとると、次回以降に
これを修正する可能性は全く無いため、目標速度を達成
するには、相関による探索は行わずに固定のオーバラッ
プ値を取らざるを得ない。また、相関探索する点数を増
加させるために、探索幅mを大きな値にすると、目標オ
ーバラップ値から小さい側にずれた場合の補正パラメー
タ値B は正の値であり、次回の相関探索の中心とするオ
ーバラップ値(Tb + B)の値が1セグメント長を超える
( (Tb +B) > Tf/2),という不合理が生じ、速度比を修
正することが困難な状況となる。そのため、探索幅mを
小さな値で使用せざるを得なく、相関探索する点数が少
ないため、位相の整合性が十分に改善し得ない位置での
クロスフェードを行うことになり、結果として、位相の
不整合によりしわがれた声として聴取される。
【0023】このように、このアルゴリズムでは、相関
関数を用いた位相の調整を行うには、不十分な状況で動
作させざるを得ないため、十分な性能を出し得ていな
い。さらに、以上の中間である速度比1.5 近傍の比較的
良好と思われる速度の範囲においても、与えられたすべ
てのフレームに対してクロスフェード処理を実施するこ
とになるため、処理による信号劣化が全フレームすべて
に生じ、その結果、劣化の度合が大きく感じられること
になる。このように、相関関数による位相の整合性を改
善する手法は、この例では十分に機能せず、かえって、
目標の速度比に収束し難い,という方式上の欠点を有し
ている。また、この例では、高速再生に対する処理を実
施するのみで、低速再生に関する機能を何ら提供し得な
いものである。
【0024】本発明は、上記課題に鑑み、フレーム内デ
ータで完結する,一定速度比の時間軸圧縮処理または時
間軸伸長処理を基本とした簡素な構成によって速度変換
処理を行うことができ、高品質な高速または低速の速度
変換音声を実現することのできる,音声再生装置を提供
することを目的とするものである。
【0025】
【課題を解決するための手段】この目的を達成するため
に、請求項1にかかる音声再生装置は、音声復号化手
段、選択手段、フレームシーケンステーブル、フレーム
カウント手段、データ伸縮制御手段、データ伸縮手段を
備える音声再生装置であって、音声復号化手段は、入力
される音声信号をフレーム単位で復号し、選択手段は、
与えられる速度比に対応したフレームシーケンスをフレ
ームシーケンステーブルへ出力すると共に、該フレーム
シーケンスのフレームサイクルをフレームカウント手
段へ出力し、 フレームシーケンステーブルは、選択
段からのフレームシーケンスを記憶し、 フレームカウ
ント手段は、フレームサイクル数に基づいて音声復号化
手段で処理する符号化音声信号のフレーム数をカウント
し、データ伸縮制御手段は、フレームカウント手段のカ
ウント値に対応したフレームシーケンステーブルのフレ
ームシーケンスを参照して、音声復号化手段から出力さ
れるフレームを時間軸圧縮もしくは時間軸伸長、または
時間軸変換なしのどちらで処理するかをデータ伸縮手段
し、データ伸縮手段は、データ伸縮制御手段の
に基づいて音声復号化手段から出力されるフレームに
対して時間軸変換処理を行うことを特徴とする音声再生
装置としたものである。
【0026】また、請求項2にかかる音声再生装置は、
請求項1記載の音声再生装置において、音声復号化手
段は、MPEG1オーディオレイヤ2符号化方式にて符
号化された音声信号を復号することを特徴とする音声再
生装置としたものである。
【0027】また、請求項3にかかる音声再生装置は、
請求項1記載の音声再生装置において、フレームシー
ケンスは、連続する時間軸圧縮フレームのフレーム数
と、連続する時間軸処理無しフレームのフレーム数
ずれも最小となるよう配置されたことを特徴とする音声
再生装置としたものである。
【0028】また、請求項4にかかる音声再生装置は、
請求項1記載の音声再生装置において、フレームシー
ケンスは、連続する時間軸伸長フレームのフレーム数
と、連続する時間軸処理無しフレームのフレーム数
ずれも最小となるよう配置されたことを特徴とする音声
再生装置としたものである。
【0029】また、請求項5にかかる音声再生装置は、
音声復号化手段、伸縮頻度制御手段、フレームカウント
手段、エネルギー演算手段、フレーム選択手段、データ
伸縮制御手段、データ伸縮手段を備える音声再生装置で
あって、音声復号化手段は、MPEG1オーディオレイ
ヤ2符号化方式にて符号化された符号化音声信号を復号
し、伸縮頻度制御手段は、与えられる速度比に応じた、
レームサイクルf、時間軸圧縮または時間軸伸長
するフレーム数Nsを設定し、フレームカウント手段
は、フレームサイクル数Nfに基づいて音声復号化手段
で処理する符号化音声信号のフレーム数をカウントし、
エネルギー演算手段は、符号化音声信号のスケールファ
クタインデックスをもとにフレームサイクル数f分
符号化音声信号のエネルギーを推定し、フレーム選択手
段は、フレームサイクル数Nfのフレーム内でエネルギ
ーの小さいフレームからNs個のフレームを時間軸圧縮
または時間軸伸長するフレームとして決定し、データ伸
縮制御手段は、フレームカウント手段のカウント値と
レーム選択手段の決定に基づき音声復号化手段から出
力されるフレームを時間軸圧縮もしくは時間軸伸長、ま
たは時間軸変換なしのどちらで処理するかをデータ伸縮
手段にし、データ伸縮手段は、データ伸縮制御手
に基づいて音声復号化手段から出力されるフレー
ムに対して時間軸変換処理を行うことを特徴とする音声
再生装置としたものである。
【0030】また、請求項6にかかる音声再生装置は、
音声復号化手段、伸縮頻度制御手段、フレームカウント
手段、定常性演算手段、フレーム選択手段、データ伸縮
制御手段、データ伸縮手段をえる音声再生装置であっ
て、音声復号化手段は、MPEG1オーディオレイヤ2
符号化方式にて符号化された音声信号を復号し、伸縮頻
度制御手段は、与えられる速度比に応じた、フレームサ
イクルf、時間軸圧縮または時間軸伸長するフレー
ム数Nsを設定し、フレームカウント手段は、フレーム
サイクル数Nfに基づいて音声復号化手段で処理する符
号化音声信号のフレーム数をカウントし、定常性演算手
段は、符号化音声信号のスケールファクタ選択情報をも
とにフレームサイクル数f分の符号化音声信号の定常
性を推定し、 フレーム選択手段は、フレームサイクル
数Nfのフレーム内での定常性の高いフレームからNs
個のフレームを時間軸圧縮または時間軸伸長するフレー
として決定し、データ伸縮制御手段は、フレームカウ
ント手段のカウント値とフレーム選択手段の決定に基づ
、音声復号化手段から出力されるフレームを時間軸圧
もしくは時間軸伸長、または時間軸変換なしのどちら
で処理するかをデータ伸縮手段にし、データ伸縮手
段は、データ伸縮制御手段のに基づいて音声復号化
手段から出力されるフレームに対して時間軸変換処理を
うことを特徴とする音声再生装置としたものである。
【0031】また、請求項7にかかる音声再生装置は、
音声復号化手段、伸縮頻度制御手段、フレームカウント
手段、エネルギー変化度合演算手段、フレーム選択手
段、データ伸縮制御手段、データ伸縮手段をえる音声
再生装置であって、音声復号化手段は、MPEG1オー
ディオレイヤ2符号化方式にて符号化された音声信号
号し、伸縮頻度制御手段は、与えられる速度比に応じ
た、フレームサイクル数Nf、時間軸圧縮または時間軸
伸長するフレーム数Nsを設定し、フレームカウント手
段は、フレームサイクル数Nfに基づいて音声復号化手
段で処理する符号化音声信号のフレーム数をカウント
し、エネルギー変化度合演算手段は、符号化音声信号の
スケールファクタインデックスをもとにフレームサイク
ル数f分符号化音声信号のエネルギー変化度合を推
し、フレーム選択手段は、フレームサイクル数Nf
レーム内でエネルギー変化度合に基づき継時マスキン
グ効果による処理劣化が少ないフレームからNs個の
レームを時間軸圧縮または時間軸伸長するフレームとし
決定し、データ伸縮制御手段は、フレームカウント手
段のカウント値とフレーム選択手段の決定に基づき、音
声復号化手段から出力されるフレームを時間軸圧縮もし
くは時間軸伸長、または時間軸変換なしのどちらで処理
するかをデータ伸縮手段に指定し、データ伸縮手段は、
データ伸縮制御手段のに基づいて音声復号化手段か
ら出力されるフレームに対して時間軸変換処理を行うこ
とを特徴とする音声再生装置としたものである。
【0032】また、請求項8にかかる音声再生装置は、
音声復号化手段、伸縮頻度制御手段、フレームカウント
手段、演算手段、フレーム選択手段、データ伸縮制御手
段、データ伸縮手段をえる音声再生装置であって、音
声復号化手段は、MPEG1オーディオレイヤ2符号化
方式にて符号化された符号化音声信号を復号し、伸縮頻
度制御手段は、与えられる速度比に応じ、フレームサ
イクルf、時間軸圧縮または時間軸伸長するフレー
ム数Nsを設定し、フレームカウント手段は、フレーム
サイクル数Nfに基づいて音声復号化手段で処理する符
号化音声信号のフレーム数をカウントし、演算手段は、
エネルギー演算手段、定常性演算手段、エネルギー変化
度合演算手段のいずれか2つ以上を備え、エネルギー演
算手段は、符号化音声信号のスケールファクタインデッ
クスをもとにフレームサイクル数Nf分の符号化音声信
号のエネルギーを推定し、定常性演算手段は、符号化音
声信号のスケールファクタ選択情報をもとにフレームサ
イクル数Nf分の符号化音声信号の定常性を推定し、
ネルギー変化度合演算手段は、符号化音声信号のスケー
ルファクタインデックスをもとにフレームサイクル数
f分符号化音声信号のエネルギー変化度合を推定し、
フレーム選択手段は、演算手段の出力をもとにN個の
フレームを時間軸圧縮または時間軸伸長するフレーム
して決定し、データ伸縮制御手段は、フレームカウント
手段のカウント値とフレーム選択手段の決定に基づき
声復号化手段から出力されるフレームを時間軸圧縮
しくは時間軸伸長、または時間軸変換なしのどちらで処
理するかをデータ伸縮手段にし、データ伸縮手段
は、データ伸縮制御手段のに基づいて音声復号化手
段から出力されるフレームに対して時間軸変換処理を行
うことを特徴とする音声再生装置としたものである。
【0033】また、請求項9にかかる音声再生装置は、
請求項1〜8のいずれかに記載の音声再生装置におい
て、データ伸縮手段は、クロスフェード手段を備え、ク
ロスフェード手段は、時間軸圧縮または時間軸伸長の
際、音声復号化手段から出力されるフレームを構成する
セグメントを重み付け加算することを特徴とする音声再
生装置としたものである。
【0034】また、請求項10にかかる音声再生装置
は、請求項1〜8のいずれかに記載の音声再生装置にお
いて、データ伸縮手段は、相関演算手段、クロスフェー
ド手段を備え、相関演算手段は、音声復号化手段から出
力されるフレームを構成するセグメントの先頭位置を前
回決定したシフト量に基づき補正し、セグメント間の相
関値を演算し、相関値が高くなる位置で重み付け加算す
るためのシフト量を決定し、クロスフェード手段は、時
間軸圧縮または時間軸伸長の際、音声復号化手段から出
力されるフレームを構成するセグメントを、相関演算手
段で決定した位置で重み付け加算することを特徴とする
音声再生装置としたものである。
【0035】また、請求項11にかかる音声再生装置
は、請求項1〜8のいずれかに記載の音声再生装置にお
いて、音声復号化手段は、符化音声信号を帯域毎に
号し、データ伸縮手段は、相関演算手段、帯域毎のクロ
スフェード手段を備え、相関演算手段は、音声復号化手
段から出力されるフレームを構成するセグメントの先頭
位置を前回決定したシフト量に基づき補正し、ピッチ周
波数を包含する帯域においてセグメント間の相関値を演
算し、相関値が高くなる位置で重み付け加算するための
シフト量を決定し、各クロスフェード手段は、時間軸
縮または時間軸伸長の際、音声復号化手段から出力され
るフレームを構成するセグメントを、相関演算手段で決
定した位置で重み付け加算することを特徴とする音声再
生装置としたものである。
【0036】また、請求項12にかかる音声再生装置
は、請求項1〜8のいずれかに記載の音声再生装置にお
いて、音声復号化手段は、符化音声信号を帯域毎に
号し、データ伸縮手段は、相関演算手段、帯域毎のクロ
スフェード手段を備え、相関演算手段は、音声復号化手
段から出力されるフレームを構成するセグメントの先頭
位置を前回決定したシフト量に基づき補正し、平均エネ
ルギーが最大となる帯域においてセグメント間の相関値
を演算し、相関値が高くなる位置で重み付け加算するた
めのシフト量を決定し、各クロスフェード手段は、時間
軸圧縮または時間軸伸長の際、音声復号化手段から出力
されるフレームを構成するセグメントを、相関演算手段
で決定した位置で重み付け加算することを特徴とする音
声再生装置としたものである。
【0037】また、請求項13にかかる音声再生装置
は、請求項1〜8のいずれかに記載の音声再生装置にお
いて、音声復号化手段は、符化音声信号を帯域毎に
し、データ伸縮手段は、相関演算手段、帯域毎のクロ
スフェード手段を備え、相関演算手段は、音声復号化手
段から出力されるフレームを構成するセグメントの先頭
位置を前回決定したシフト量に基づき補正し、各帯域に
おいてセグメント間の相関値を演算し、相関値が最大の
帯域において相関値が高くなる位置で重み付け加算する
ためのシフト量を決定し、各クロスフェード手段は、時
間軸圧縮または時間軸伸長の際、音声復号化手段から出
力されるフレームを構成するセグメントを、相関演算手
段で決定した位置で重み付け加算することを特徴とする
音声再生装置としたものである。
【0038】
【0039】
【0040】
【0041】
【0042】
【0043】
【0044】
【0045】
【発明の実施の形態】(実施の形態1)以下、本発明の
第1の実施の形態について、図面を参照しながら説明す
る。図1は本発明の第1の実施の形態における音声再生
装置のブロック図を示すものである。図1において、1
01はフレーム逆パッキング手段、102は逆量子化手
段、103はデータ伸縮手段、104はサブバンド合成
フィルタ手段、105は選択手段、106はフレームカ
ウント手段、107はデータ伸縮制御手段、108はフ
レームシーケンステーブルである。以下に、その動作に
ついて説明する。
【0046】本実施の形態は、MPEG1オーディオのビッ
トストリームをデコードする際の中間データに対して速
度変換処理を施す音声再生装置の例を示すものである。
MPEG1オーディオのビットストリームは、ヘッダ,ビッ
ト割当て情報,スケールファクタに関する情報,サンプ
ルデータ情報などから成り立っている。
【0047】図1において、入力されたMPEG1オーディ
オのビットストリームは、フレーム逆パッキング手段1
01によって、当該ビットストリームからヘッダ,ビッ
ト割当て情報,スケールファクタに関する情報,サンプ
ルデータ情報などの個々の情報に分離される。逆量子化
手段102では、当該逆パッキングにて得られた、各帯
域(MPEG1オーディオでは32のサブバンド(帯域))
毎のビット割当て情報や、スケールファクタに関連する
情報をもとにして、各帯域毎に逆量子化したデータを得
る。
【0048】データ伸縮手段103は、後述するデータ
伸縮制御手段107からの制御によって、時間軸圧縮/
伸長を施すフレームに該当する時は、逆量子化手段10
2の出力を一定比率で時間軸圧縮/伸長し、圧縮/伸長
することなくスルーで出力するフレームに該当する場合
には、逆量子化手段102の出力をそのままサブバンド
合成フィルタ出力手段104へ出力する。サブバンド合
成フィルタ手段104では、入力された各サブバンド
(MPEG1オーディオでは32帯域)のデータが帯域合成
され、当該合成により得られたオーディオ信号を出力す
る。
【0049】図2に、データ伸縮手段103の内部構成
図を示す。同図において、2001は最も低いサブバン
ドに対応する逆量子化手段102の出力Q0に対して処理
を施すデータ伸縮ユニット0であり、以降、2002,
・・・,2032の各々は、各サブバンドの低い帯域側
からの逆量子化手段102の出力Q1, ・・・,Q31に対し
て処理を施す、データ伸縮ユニット1、・・・、データ
伸縮ユニット31である。データ伸縮ユニットの内部の
構成は、図2に示すように、バッファメモリ201,ク
ロスフェード手段202,データ選択手段203で構成
される。図では、データ伸縮ユニット1〜データ伸縮ユ
ニット31については内部構成が記載されていないが、
データ伸縮ユニット0と同一であるので、図では省略し
て記載している。
【0050】以下では、最も低い周波数帯域に相当する
逆量子化手段102の出力データQ0に対して処理を施す
データ伸縮ユニット0の動作を示す。逆量子化手段10
2の出力Q0は、一旦バッファメモリ201に1フレーム
分(所定時間長分)のデータだけ蓄積される。ここで、
各サブバンドにおける1フレームのデータ数を、Nsとす
る。データ伸縮制御手段107からの制御信号により、
スルーで出力するフレームに該当する場合には、データ
選択手段203は、バッファメモリ201へ書き込まれ
ているNs個のデータを、そのままサブバンド合成フィル
タ手段104へ出力する。一方、データ伸縮制御手段1
07からの制御信号により、時間軸圧縮/伸長を施すフ
レームに該当する時は、クロスフェード手段202に
て、バッファメモリ201内のNs個のデータを用いて、
所定の圧伸比Srで時間軸圧縮/伸長を行なう。
【0051】クロスフェード手段によるクロスフェード
処理、すなわち時間軸圧縮/伸長の方法を、図3を用い
て説明する。図3は、時間軸圧縮/伸長を実施すること
で、フレームのデータ長が変化する様子を示した模式図
の一例である。図3(a)は通常のフレームを示すもの
であり、ここでは、1フレームのデータ数Nsを、同数の
データ数(同一時間長)のセグメントであるSEG1,
SEG2の2つに分割した例である。これらのセグメン
トを基にして、図3に示すような重み付け加算、すなわ
ち、クロスフェード処理を行うことによって、前後の不
連続無く、データ数を減少/増加させることができる。
例えば、圧縮する場合は図3(b)のように行い、伸長
する場合は同図(c)のようにクロスフェード処理を行
う。また、クロスフェード処理を施すことなくデータ伸
縮手段103にてスルーで出力するフレームである場合
には、図3(a)に示すフレーム信号がそのままの状態
でサブバンド合成フィルタ手段104へ出力される。な
お同図において、(b)は圧伸比(=1/速度比)1/
2で時間軸圧縮されたフレームの例、(c)は圧伸比3
/2で時間軸伸長されたフレームの例である。なお、圧
伸比は、圧伸比=1/速度比=クロスフェード手段から
の出力データ数/クロスフェード手段への入力データ数
で定義するものとする。
【0052】図3(b)のような圧縮処理を全フレーム
に対して行うことにより、一定の速度比2.0の再生音
を得ることができる。また、同図(c)のような伸長処
理を全フレームに対して行うことにより、一定の速度比
2/3の再生音を得ることができる。このような速度変
換処理を行う場合には、データ伸縮制御手段107から
データ伸縮手段103へ、圧縮/伸長/スルーを示す制
御信号を送り、この制御信号を基に、各データ伸縮ユニ
ットを制御することにより、該速度変換処理を実現でき
る。例えば、上述したような速度比2.0を実現するに
は、入力された速度比情報(=2.0)を基に、「速度
比=2.0の圧縮」を示す制御信号をデータ伸縮手段1
03へ出力する。クロスフェード手段202は、当該制
御信号を受けとって、全フレームに対して図3(b)に
示すクロスフェード処理を行い、データ選択手段203
は、クロスフェード手段202の出力を選択して、サブ
バンド合成フィルタ手段104へ出力する。また、速度
比2/3(=0.66)を実現するには、入力される速
度比情報(=2/3)を基に、「速度比=2/3の伸
長」を示す制御信号を、データ伸縮手段103へ出力す
る。クロスフェード手段202は、当該制御信号を受け
とって、全フレームに対して図3(c)に示すクロスフ
ェード処理を行い、データ選択手段203は、クロスフ
ェード手段202の出力を選択して、サブバンド合成フ
ィルタ手段104へ出力する。
【0053】上述した以外の速度比の音声を実現するた
めには、全フレームではなく特定のフレームに対しての
み、図3(b)(c)のような時間軸圧縮/伸長を行う
シーケンスで処理を繰り返せば、最終的には個々のフレ
ームの速度比とは異なった,所望の再生速度を得ること
が可能となる。図4を用いてこの例を説明する。
【0054】図4は、その一例として、速度比が1.5 ,
1.2 , 1.1 , 0.9 , 0.8 , 0.7 の場合の時間軸圧縮/伸
長処理を説明するための処理シーケンス図である。同図
において、(a)はスルー(時間軸圧縮/伸長処理な
し)で出力するフレーム、(b)は時間軸圧縮処理を施
すフレーム、(c)は時間軸伸長処理を施すフレームを
示している。また(表2)に、図4の処理速度例におけ
る、入力セグメント数,出力セグメント数,圧縮/伸長
するセグメント数,繰り返しを行うフレームサイクルを
示す。図4における各フレームは、図3(a)にて説明
したように、同一データ数(同一時間長)の2つのセグ
メントから構成されており、よって、各速度比における
入力・出力セグメント数,圧縮/伸長セグメント数は、
(表2)の通りとなる。例えば、速度比1.5 の場合を例
にとると、入力セグメント数は、図4(イ)の通り第1
フレーム〜第3フレームが入力されるので、3フレーム
×2セグメント=6セグメントである。このとき、第2
フレーム、第3フレームについては、時間軸圧縮処理が
施されて各フレームのセグメント数が2→1になるの
で、圧縮セグメント数は2となり、この結果、出力セグ
メント数は、6セグメント−2セグメント=4セグメン
トとなる。速度比は(入力セグメント数/出力セグメン
ト数)で与えられる。また(表3)に、図4に対応す
る、フレームシーケンステーブル108に与えるべきデ
ータ例を示す。この例においては、テーブルには、速度
比と、フレームカウント手段106でカウントするフレ
ームサイクルと、フレームに対する圧縮/伸長/スルー
の処理状態のシーケンス(フレームシーケンス)とが、
記録されている。
【0055】なお、(表3)において、「a」はスル
ー、「b」は圧縮、「c」は伸長、を施すシーケンスを
意味している。
【0056】
【表2】
【0057】
【表3】
【0058】まず、所望の速度比情報が選択手段105
へ入力される。本例の場合においては、速度比=1.1 ,
速度比=0.7 などの情報である。この速度比情報が入力
されると、選択手段105は、フレームカウント手段1
06へフレームサイクルを、フレームシーケンステーブ
ル108へはフレームシーケンスを送出する。この際に
送出されるフレームサイクル,フレームシーケンスは、
(表3)に示されるような値である。
【0059】以下、再生時間を短くする(速度比>1.0
;時間軸圧縮処理)例を、速度比1.1 の場合を例にと
って説明する。
【0060】速度比情報1.1 が選択手段105へ入力さ
れると、選択手段105はフレームカウント手段106
へフレームサイクル「11」を、またフレームシーケン
ステーブル108へフレームシーケンス「a,a,b,
a,a,a,a,a,b,a,a」を送出する。このフ
レームシーケンスは、フレームシーケンステーブル10
8に書き込まれる。フレームカウント手段106は、選
択手段105からフレームサイクル「11」を受け取っ
たタイミング以降に、フレーム逆パッキング手段101
から出力されフレームカウント手段106へ入力された
フレームをカウントし、フレームカウント値を出力す
る。この際、フレームカウント手段106のカウント値
は、1→2→・・・→10→11→1→・・・と、11
サイクルでカウントされるものとする。
【0061】データ伸縮制御手段107は、当該カウン
ト値をもとに、まず、カウント値「1」が入力されたと
きはフレームシーケンステーブル108からフレームシ
ーケンス1番目のシーケンス「a」を読み込み、データ
伸縮手段103へ「スルー」を指示する制御信号を出力
する。データ伸縮手段103において、当該手段内部の
各データ選択手段は、この「スルー」を意味する制御信
号を基に、逆量子化手段102から出力されたQ0, Q1,
・・・, Q31 なるデータを、スルー(クロスフェード処
理なし)で出力する(C0, C1, ・・・, C31 )。サブバ
ンド合成フィルタ手段104では、当該32帯域のC0,
C1, ・・・, C31 を基にして帯域合成し、当該フレーム
のオーディオ出力として出力される。
【0062】次に、フレームカウント手段106からカ
ウント値「2」が出力されると、データ伸縮制御手段1
07は、フレームシーケンステーブル108からフレー
ムシーケンス2番目のシーケンス「a」を読み込み、デ
ータ伸縮手段103へ「スルー」を指示する制御信号を
出力する。これ以降の処理は、上述したカウント値
「1」の場合と同じである。なお、図4、(表2)から
も明らかなように、カウント値「4」「5」「6」
「7」「8」「10」「11」の場合にフレームシーケ
ンステーブル108から読み込まれるシーケンスは
「a」であり、この際の処理は上述したカウント値
「1」の場合と同一なので、説明を省略する。
【0063】図4および(表3)より、フレームカウン
ト値が「3」,「9」の場合には、フレームシーケンス
テーブル108からは、フレームシーケンスとして
「b」が読み込まれ、時間軸圧縮処理が施される。これ
について、以下に説明する。
【0064】フレームカウント手段106からカウント
値「3」,「9」が出力された場合には、データ伸縮制
御手段107は、フレームシーケンステーブル108か
らフレームシーケンス「b」を読み込み、これによりデ
ータ伸縮手段103へ「圧縮」を指示する制御信号を出
力する。データ伸縮手段103において、当該手段内部
の各データ選択手段は、この「圧縮」を意味する制御信
号を基に、データ伸縮ユニット0〜データ伸縮ユニット
31内の各クロスフェード手段にて、図3(b)を用い
て上記説明した時間軸圧縮処理を行い、この圧縮処理が
施された信号がデータ選択手段203にて選択されて、
出力される(C0, C1, ・・・, C31 )。サブバンド合成
フィルタ手段104では、当該32帯域のC0, C1, ・・
・, C31を基にして帯域合成し、当該フレームのオーデ
ィオ出力として出力される。
【0065】上述のような処理にて各フレームに対し
て、スルー、時間軸伸長の処理が成され、フレームシー
ケンス「11」で1サイクルの処理が行われる。この1
サイクル処理が終わると、その後入力されてくる各フレ
ームに対して、上述したシーケンスと同一のシーケンス
で処理が継続される。
【0066】次に、再生速度を遅くする(速度比<1.0;
時間軸伸長処理)例を、速度比0.7の場合を例にとって
説明する。速度比情報0.7 が選択手段105へ入力され
ると、選択手段105はフレームカウント手段106へ
フレームサイクル「7」を、またフレームシーケンステ
ーブル108へフレームシーケンス「a,c,c,c,
c,c,c」を送出する。このフレームシーケンスは、
フレームシーケンステーブル108に書き込まれる。フ
レームカウント手段106は、選択手段106からフレ
ームサイクル「7」を受け取ったタイミング以降に、フ
レーム逆パッキング手段101から出力されフレームカ
ウント手段106へ入力されたフレームをカウントし、
フレームカウント値を出力する。この際、フレームカウ
ント手段106のカウント値は、1→2→・・・→6→
7→1→・・・と、7サイクルでカウントされるものと
する。
【0067】データ伸縮制御手段107は、当該カウン
ト値をもとに、まず、カウント値「1」が入力されたと
きは、フレームシーケンステーブル108からフレーム
シーケンス1番目のシーケンス「a」を読み込み、デー
タ伸縮手段103へ「スルー」を指示する制御信号を出
力する。データ伸縮手段103において、当該手段内部
の各データ選択手段は、この「スルー」を意味する制御
信号を基に、逆量子化手段102から出力されたQ0, Q
1, ・・・, Q31 なるデータを、スルー(クロスフェー
ド処理なし)で出力する(C0, C1, ・・・, C31 )。サ
ブバンド合成フィルタ手段104では、当該32帯域の
C0, C1, ・・・, C31 を基にして帯域合成し、当該フレ
ームのオーディオ出力として出力される。
【0068】次に、フレームカウント手段106からカ
ウント値「2」が出力されると、データ伸縮制御手段1
07は、フレームシーケンステーブル108からフレー
ムシーケンスとして「c」が読み込まれ、時間軸伸長処
理が施される。これについて、以下に説明する。
【0069】フレームカウント手段106からカウント
値「2」が出力された場合には、データ伸縮制御手段1
07は、フレームシーケンステーブル108からフレー
ムシーケンス「c」を読み込み、これによりデータ伸縮
手段103へ「伸長」を指示する制御信号を出力する。
データ伸縮手段103において、当該手段内部の各デー
タ選択手段は、この「伸長」を意味する制御信号を基
に、データ伸縮ユニット0〜データ伸縮ユニット31内
の各クロスフェード手段にて、図3(c)を用いて上記
説明した時間軸伸長処理を行い、この伸長処理が施され
た信号がデータ選択手段203にて選択されて、出力さ
れる(C0, C1, ・・・, C31 )。サブバンド合成フィル
タ手段104では、当該32帯域のC0, C1, ・・・, C3
1 を基にして帯域合成し、当該フレームのオーディオ出
力として出力される。
【0070】次に、フレームカウント手段106からカ
ウント値「3」が出力されるが、図4および(表3)か
らも明らかなように、カウント値「3」「4」「5」
「6」「7」の場合にフレームシーケンステーブル10
8から読み込まれるシーケンスは、第2フレームと同様
に「c」であり、この際の処理は上述したカウント値
「2」の場合と同一なので、説明を省略する。
【0071】上述のような処理にて、各フレームに対し
て、スルー、時間軸伸長の処理が成され、フレームシー
ケンス「7」で1サイクルの処理が行われる。この1サ
イクル処理が終わると、その後入力されてくる各フレー
ムに対して、上述したシーケンスと同一のシーケンスで
処理が継続される。
【0072】以上の説明より明らかなように、フレーム
サイクルで所望の速度比のデータ数(セグメント数)に
なるように、時間軸圧縮/伸長するフレームを偏りがあ
まりないように挿入することにより、特定のフレームサ
イクル内で所望の速度比を得ることが可能となる。また
図4,(表2)(表3)の例とは異なる速度比の場合で
も、速度比に合うように、時間軸圧縮/伸長するフレー
ムを偏りがあまりないように挿入するシーケンステーブ
ルを用いてフレームサイクルを繰り返すことにより、所
望の速度比の音声を得ることが可能である。また、図
4,(表2)(表3)の例とは異なる順番であるシーケ
ンスパターンの場合でも、(表2)に示すような圧縮/
伸長セグメント数が守られておれば、所望の速度比が得
られる。
【0073】このように、一定値(本実施形態では図3
のように圧縮比は1/2、伸長比は3/2)の時間軸圧
縮/伸長を行うフレームを所定の順番で実施するように
制御すれば、所望の速度比の音声を得ることが可能とな
る。
【0074】なお、以上の説明においては、図3に示し
たように、基準とする時間軸圧縮比の値を1/2,時間
軸伸長比の値を3/2で実現した例で説明したが、その
他の時間軸圧縮比/伸長比をもとにシーケンステーブル
を構成することも、同様に実施可能である。
【0075】(実施の形態2)以下、本発明の第2の実
施の形態について、図面を参照しながら説明する。第2
の実施の形態における音声再生装置の構成図は、上述し
た第1の実施の形態の構成図(図1)と基本的に同様の
構成であり、MPEG1オーディオストリームを入力する例
である。フレーム逆パッキング手段101、逆量子化手
段102、サブバンド合成フィルタ手段104、選択手
段105、フレームカウント手段106、フレームシー
ケンステーブル108、データ伸縮制御手段107、は
第1の実施の形態と同様の動作をするものである。本第
2の実施の形態が第1の実施の形態と異なっている点
は、データ伸縮手段103の内部の構成および動作にあ
る。
【0076】本第2の実施の形態におけるデータ伸縮手
段の構成図を、図5に示す。
【0077】同図において、2001は最も低いサブバ
ンドに対応する逆量子化手段102の出力Q0に対して処
理を施すデータ伸縮ユニット0であり、以降、200
2,・・・,2032の各々は、各サブバンドの低い帯
域側からの逆量子化手段102の出力Q1, ・・・,Q31に
対して処理を施す、データ伸縮ユニット1、・・・、デ
ータ伸縮ユニット31である。各データ伸縮ユニットの
内部の構成は、図5に示すように、バッファメモリ20
1,クロスフェード手段202,データ選択手段203
で構成される。図ではデータ伸縮ユニット1〜データ伸
縮ユニット31については内部構成が記載されていない
が、データ伸縮ユニット0と同一であるので、図では省
略している。本実施形態の構成は、さらに、図5に示す
ように、相関演算手段301、位相制御記憶手段302
を付加した構成となっている。
【0078】以下に、相関演算手段301と、位相制御
記憶手段302の動作を中心に説明を行う。第1の実施
形態においては、時間軸波形のクロスフェードは一意に
定位置で重み付け加算されている。この場合、波形の振
幅に関しては不連続無く接続されるが、位相に関しては
考慮されていない。そこで、本実施形態においては、位
相の整合性が高い位置を相関関数を用いて求め、その位
置にシフトしてから重み付け加算を行うようなクロスフ
ェード処理を行うようにする。図6に、このような重み
付け加算を行ったクロスフェード処理(圧縮)の例を示
す。図6(a)は、図3(a)に相当する、クロスフェ
ード処理を施す前の元のフレームを示しており、同一デ
ータ数のセグメント1と、セグメント2とから成ってい
る。図6(b)は、セグメント1と、セグメント2が、
相関を考慮したシフトが成されることなく重み付け加算
されており、これを図3(b)の圧縮フレームと同一の
基準形と考える。図6(c)は、相関の高い位置が基本
形の場合に比べて右に存在した場合のクロスフェード処
理後のフレームであり、クロスフェード区間は、同図
(b)の基準形に比べて短くなるとともに、データ量
は、同図(b)に比べて増加する。逆に図6(d)は、
相関の高い位置が左に存在した場合のクロスフェード処
理後のフレームであり、クロスフェード区間は、同図
(b)の基準形に比べて短くなるとともに、データ量は
同図(b)に比べて減少する。
【0079】上述の如き、位相の整合性を改善する目的
のために、相関関数を用いたクロスフェード処理を行う
速度変換装置については、本願出願人により種々の提案
が成されており、例えば、本願出願人の先願たる特開平
4−104200号公報(特許登録2532731号)
などに示される通りである。本実施形態では、このよう
な相関関数を用いたクロスフェード手法を用いるが、こ
の際図5において、最も低域のデータであるQ0には、音
声のピッチ周波数が存在する範囲が含まれると考えられ
るので、このピッチ周波数に相当する成分に関して位相
の整合性を改善するために、Q0に相当する帯域データの
みを用いて、相関演算手段301、位相制御記憶手段3
02により相関演算を行う。相関演算を行うデータは、
バッファメモリ201に存在しているが、相関演算の範
囲は、上記した特開平4−104200号公報などに示
されるように、与えられたフレームシーケンスの値が、
圧縮フレームか伸長フレームのいずれであるかと、前回
求めた相関シフト量とによって決定される。
【0080】図6(c)(d)からもわかるように、相
関の高い位置にシフトした場合には、本来目標としてい
るデータ数(図6(b))に比較して過不足を生じるこ
とになる。その過不足の値は、相関の高い位置にシフト
(相関シフト量をrkとする)したデータ量から求めるこ
とができ、これを次回生じる時間軸圧縮/伸長処理の際
に補うことにする。そのためには、データの過不足に相
当する相関シフト量rkを、一旦、位相制御記憶手段30
2に記憶する必要がある。このシフト量rkは、次回のク
ロスフェード処理を行う際の、加算する先頭データの位
置(ポインタ)を調整することにより、補正できること
になる。
【0081】このようなシフト量rkの補正を行う様子
を、図7に模式的に示す。以前の圧縮フレームにおい
て、基準形(図7(a))のようにシフトが生じなかっ
た場合、ポインタP2の位置のシフトは無く、図のような
位置関係で相関の高い位置を探索するので、今回の基準
形でも、セグメント1と、セグメント2は、シフト無く
クロスフェード処理される。以前の圧縮フレームにおい
て、正方向にシフト(rk>0 )した位置で重み付け加算
が行われた場合(図7(b))、以前に余分にデータを
出力しているので、今回のポインタ位置はP2が正方向に
シフトした位置となり、今回の基準形では、セグメント
1内の後ろ部分と、セグメント2内の前部分とが使用さ
れないことになり、よってこの際の基準形は、図7
(b)の如くになる。また、以前の圧縮フレームにおい
て、負方向にシフト(rk<0 )した位置で重み付け加算
が行われた場合(図7(c))、以前にデータを不足さ
せているので、今回のポインタ位置は、P2が負方向にシ
フトした位置となり、今回の基準形では、セグメント1
内の後ろ部分は複数回(この場合2回)使用されること
になり、よってこの際の基準形は、図7(c)の如くに
なる。いずれの場合でも、図7に示すような処理を施す
ことによって、今回の伸縮フレームにおける基準形の圧
縮が行われる時には、以前のフレームのデータ量の、目
標とするデータ量に対する誤差は吸収されていることに
なり、よって誤差の累積は無いことになる。上述の例で
は、圧縮フレームに関して説明を行ったが、伸長フレー
ムに関しても同様の考え方で実現できることは言うまで
もない。このように、以前の圧縮/伸長フレームのシフ
ト量を考慮して、ポインタ位置をシフトした位置を基準
として、相関関数で相関の高い位置を求めることにな
る。
【0082】以上のように求められた相関シフト量rk
は、他のサブバンドにおいても同様に適用してクロスフ
ェード処理が行われ、Q0に対するクロスフェード処理と
同様の処理がQ1〜Q31 に対しても行われる。これによ
り、各サブバンドにて、同一のシフト量rkにてクロスフ
ェード処理が施されたのち、C0〜C31 の出力信号が合成
されることになる。
【0083】以上のように、本実施の形態2の構成によ
れば、相関演算手段301によって位相の整合性の高い
位置で重み付け加算を行うクロスフェード処理を行うこ
とで、データ伸縮手段103の出力信号の振幅・位相の
両方が、前後のフレームに対して不連続無く接続される
ため、音質の向上を達成することができる。
【0084】なお、上記実施の形態2では、最低域のサ
ブバンドの逆量子化出力データQ0に対して相関関数を求
めており、音声に対する基本周波数を元に、位相の整合
性を改善することに主眼をおいているが、MPEG符号化な
どの音声(スピーチ)信号以外の音源の場合には、必ず
しも、最低域のサブバンドについて相関関数を求めるこ
とが良い結果をもたらすとは限らない。そのため、各サ
ブバンドの逆量子化手段の出力データのすべて(第1、
第2の実施形態の例でいうなら、Q0〜Q31 )に対して相
関の高い位置を求め、その各サブバンドの最大相関値の
中で最も大きいサブバンドの相関値を元に、重み付け加
算するシフト量を決定することにより、周期性の高い帯
域を中心とした位相の整合性を改善させることが可能と
なる。また、各サブバンドの平均エネルギーを求め、そ
の最も平均エネルギーの大きいサブバンドに対して相関
の高い位置を求めることによっても、同様の改善を達成
することができる。
【0085】さらに、本実施の形態2の説明で述べたよ
うな1つの速度比に対して1つのフレームシーケンスを
用いる1対1対応でなく、例えば図8に示すように、1
つの速度比に対して伸縮フレームの発生位置が異なる複
数のフレームシーケンステーブルを用意しておき(図8
の例は速度比が1.1 の場合)、伸縮フレームにおける相
関値の平均を、各フレームシーケンステーブル毎に予め
求めて、最も相関値の平均が高いシーケンステーブルを
参照して伸縮処理を実施するようにして、伸縮フレーム
を発生させる位置を、より最適な位置のもので行うこと
により、位相の整合性の改善度を高めることが可能とな
る。さらに、先に述べた各帯域における相関値の中で最
大相関値を採用する方法と組み合わせれば、一層よい改
善を発揮することができる。
【0086】(実施の形態3)以下、本発明の第3の実
施の形態について、図面を参照しながら説明する。図9
は本発明の第3の実施の形態による音声再生装置のブロ
ック図を示すものである。図9において、3001はフ
レーム復号化手段、3002はデータ伸縮手段、300
3は伸縮頻度制御手段、3004はエネルギー演算手
段、3005はフレーム選択手段、3006はデータ伸
縮制御手段である。以下に、その動作について説明す
る。
【0087】本実施の形態3は、フレーム単位で復号化
処理を行う音声に対して速度変換処理を施す音声再生装
置の一例を示すものである。
【0088】図9において、最初に、伸縮頻度制御手段
3003は、与えられた速度比の情報をもとに、速度変
換処理の一連の処理の1周期に相当するフレームサイク
ル数Nfと、そのフレームサイクル数内で伸縮処理を行う
フレーム数Nsとを出力する。そして、エネルギー演算手
段3004では、伸縮頻度制御手段で決定されたフレー
ムサイクル数分の音声のエネルギーを求める。次に、フ
レーム選択手段3005は、先に求められたNf個のエネ
ルギーの値を参考に、音声が存在しない無音状態のフレ
ームはエネルギーが小さく、そのフレームを伸縮処理し
ても劣化は検知され難いと仮定し、速度変換処理のため
に伸縮すべきフレームとして、エネルギーの小さいフレ
ームから優先的に所定数Ns個の選択を行う。そして、デ
ータ伸縮制御手段3006は、当該フレームが伸縮すべ
きフレームとして選択されたフレームかどうかを判断
し、データ伸縮手段3002が、伸縮処理をすべきかど
うかを制御する。その結果、入力された符号化データ
は、フレーム復号化手段3001で1フレーム単位で復
号化され、データ伸縮制御手段によって伸縮すべきと判
断されたフレームについて、波形の伸縮を行い、それ以
外のフレームについては、そのまま出力を行う。このよ
うに、あらかじめエネルギー演算手段で求めた音声のエ
ネルギーを用いて、フレーム選択手段で、フレームサイ
クル内で伸縮すべき最適なフレームを求めておくことに
より、速度変換処理音声として、波形の伸縮による処理
劣化が検知され難くするようにする,ことが可能とな
る。
【0089】なお、本実施の形態3では、各エネルギー
の値を参考に、音声が存在しない無音状態のフレームは
エネルギーが小さいと仮定し、伸縮すべきフレームとし
て、エネルギーの小さいフレームから優先的に所定数の
フレームを選択するようにしているが、各フレームにお
ける平均振幅の値を用いる場合にも、有効であると考え
られる。
【0090】(実施の形態4)以下、本発明の第4の実
施の形態について、図面を参照しながら説明する。図1
0は本発明の第4の実施の形態による音声再生装置のブ
ロック図を示すものである。図10において、3001
はフレーム復号化手段、3002はデータ伸縮手段、3
003は伸縮頻度制御手段、4004は音声らしさ演算
手段、4005はフレーム選択手段、3006はデータ
伸縮制御手段である。以下に、その動作について説明す
る。
【0091】本実施の形態4は、フレーム単位で復号化
処理を行う音声に対して速度変換処理を施す音声再生装
置の一例を示すものである。図10において、フレーム
復号化手段3001、データ伸縮手段3002、伸縮頻
度制御手段3003、データ伸縮制御手段3006は、
実施の形態3と同様の動作を行うものである。本実施の
形態4 では、伸縮処理を行うべきフレームの選択を行う
フレーム選択手段の働きを、中心に説明を行う。
【0092】ここでは音声らしさという尺度をもとに、
選択すべきフレームの判定を行う。ここで、音声らしさ
に関して説明を行う。実環境などにおける,通信や放送
などでの音声信号においては、全くの無音状態あるいは
それに近い状態という状況は、ほとんどありえない。必
ず背景騒音や目的としない音が混入し、目的とする音声
信号に重畳する形で含まれている。つまり、より厳密に
人間の音声を含むフレームを選択するには、エネルギー
の大小だけではなく、含まれるフレームの性質を別の観
点で分析する必要がある。そこで、該当するフレームに
どのくらいの確からしさで音声信号が含まれているかを
推定する尺度として、「音声らしさ」の定義を示す。中
藤らによる,「ファジー推論による音声/雑音判別手法
の検討」(1993年電子情報通信学会春季大会,A-223 )
による手法で、母音・無声摩擦音の発生頻度をファジー
推論することにより、会話の音声らしさを求めて、これ
と予め求めてある閾値との比較によって、入力信号が、
音声/雑音のいずれであるかの2 者択一の判定を行って
いる。この音声らしさは、特定の時間内に音声が含まれ
る可能性を示す尺度として用いれば、雑音と音声の混入
している音声でも、最も音声が含まれないと予想される
フレームを推定することができる。また、音声らしさの
度合を数値化していることにより、複数フレームの音声
らしさの大小に基づく相対比較判定に利用することがで
きる。
【0093】人間が自然に発声する音声を速度別に分析
すると、該人間が自然に発生する音声は、言語情報を担
う音声区間以外の発声器官が休止しているポーズ区間長
を伸縮させている度合が大きいことが判っている(参考
文献2 )参照)。従って、自然な音声速度変換処理を実
施するためには、ポーズ区間であるところの非音声区間
を伸縮する方が好ましい。
【0094】音声らしさ演算手段4004では、伸縮頻
度制御手段で決定されたフレームサイクル数分の音声ら
しさを求める。次に、フレーム選択手段4005は、先
に求められたNf個の音声らしさの値を参考に、音声らし
さが小さいフレームは音声情報が少なく、そのフレーム
を伸縮処理しても劣化は検知され難いと仮定し、速度変
換処理のために伸縮すべきフレームとして、音声らしさ
の小さいフレームから優先的に所定数Ns個の選択を行
う。そして、データ伸縮制御手段3006は、伸縮すべ
きフレームとして選択されたフレームかどうかを判断
し、データ伸縮手段3002が伸縮処理をすべきかどう
かを制御する。その結果、入力された符号化データはフ
レーム復号化手段3001で1フレーム単位で復号化さ
れ、データ伸縮制御手段によって伸縮すべきと判断され
たフレームについて波形の伸縮を行い、それ以外のフレ
ームについては、そのまま出力を行う。このように、あ
らかじめ、音声らしさ演算手段で求めた音声のエネルギ
ーを用いて、フレーム選択手段でフレームサイクル内で
伸縮すべき最適なフレームを求めておくことにより、速
度変換処理音声として、波形の伸縮による処理劣化が検
知され難いものとすることが可能となる。
【0095】(実施の形態5)以下、本発明の第5の実
施の形態について、図面を参照しながら説明する。図1
1は本発明の第5の実施の形態による音声再生装置のブ
ロック図を示すものである。図11において、3001
はフレーム復号化手段、3002はデータ伸縮手段、3
003は伸縮頻度制御手段、5004は定常性演算手
段、5005はフレーム選択手段、3006はデータ伸
縮制御手段である。以下に、その動作について説明す
る。
【0096】本実施の形態5は、フレーム単位で復号化
処理を行う音声に対して速度変換処理を施す音声再生装
置の一例を示すものである。図11において、フレーム
復号化手段3001、データ伸縮手段3002、伸縮頻
度制御手段3003、データ伸縮制御手段3006は、
実施の形態3と同様の動作を行うものである。本実施の
形態5では、伸縮処理を行うべきフレームの選択を行う
フレーム選択手段の働きを中心に説明を行う。
【0097】本実施の形態5では、音声波形の定常性に
着目する。ここでは、フレーム内における正規化自己相
関関数を求め、その値の大きいものほど定常性が高いと
考える。これは、時間伸縮処理は時間軸波形の類似区間
をもとに波形の挿入・間引き操作を行う場合、相関の高
いフレームでは波形の重み付け加算による伸縮処理を行
うため、処理劣化が検知され難い定常性の高いフレーム
を選択して、伸縮処理を行うことにする。逆に、音声の
子音の始端部分などの非定常な過渡的な部分では、重み
付け加算による劣化が顕著となる。
【0098】定常性演算手段5004では、伸縮頻度制
御手段3003で決定されたフレームサイクル数分の定
常性を、予め求める。次に、フレーム選択手段5005
は、先に求められたNf個の定常性の値を参考に、定常性
が大きいフレームは波形の周期性が高く波形の類似性が
高いため、そのフレームを伸縮処理しても劣化は検知さ
れ難いと仮定し、速度変換処理のために伸縮すべきフレ
ームとして、定常性の大きいフレームから優先的に所定
数Ns個の選択を行う。そして、データ伸縮制御手段30
06は、伸縮すべきフレームとして選択されたフレーム
かどうかを判断し、データ伸縮手段3002が伸縮すべ
きかどうかを制御する。その結果、入力された符号化デ
ータは、フレーム復号化手段3001で1フレーム単位
で復号化され、データ伸縮制御手段によって伸縮すべき
と判断されたフレームについて、波形の伸縮を行い、そ
れ以外のフレームについては、そのまま出力を行う。こ
のように、あらかじめ定常性演算手段で求めた音声の定
常性を用いて、フレーム選択手段でフレームサイクル内
で伸縮すべき最適なフレームを求めておくことにより、
速度変換処理音声として、波形の伸縮による処理劣化が
検知され難くいものとすることが可能となる。
【0099】なお、本実施の形態5では、各フレームに
おける定常性を示す値として、正規化自己相関関数を利
用しているが、例えば、周波数スペクトルの変化度合な
どを用いることも有効であると考えられる。
【0100】(実施の形態6)以下、本発明の第6の実
施の形態について、図面を参照しながら説明する。図1
2は本発明の第6の実施の形態における音声再生装置の
ブロック図を示すものである。図12において、300
1はフレーム復号化手段、3002はデータ伸縮手段、
3003は伸縮頻度制御手段、6004はエネルギー変
化度合演算手段、6005はフレーム選択手段、300
6はデータ伸縮制御手段である。以下に、その動作につ
いて説明する。
【0101】本実施の形態6は、フレーム単位で復号化
処理を行う音声に対して速度変換処理を施す音声再生装
置の一例を示すものである。図12において、フレーム
復号化手段3001、データ伸縮手段3002、伸縮頻
度制御手段3003、データ伸縮制御手段3006は、
実施の形態3と同様の動作を行うものである。本実施の
形態3では、伸縮処理を行うべきフレームの選択を行う
フレーム選択手段の働きを中心に説明を行う。
【0102】本実施の形態6では、音声波形のエネルギ
ー変化度合に着目する。ここでは、1フレーム内をさら
に複数の小区間に分割した各小区間でのエネルギー値を
求め、各小区間の前値との差分値を求めることにより、
エネルギーの変化度合を求める。そして、このエネルギ
ーの時間的な変化度合を継続的に監視することによっ
て、時間的に継続する区間に対するマスキング効果であ
る,継時マスキング(temporal masking)の影響を考慮
した処理フレームの選択を行う。このマスキングに関し
ては、参考文献1:Moore の本、に詳しく記述されてい
るが、マスカーの前後の双方の区間に対してマスキング
効果を生じ、この性質を利用すれば、時間伸縮処理によ
る劣化を検知され難くできる。すなわち、大きなエネル
ギーのフレームの直後の小さなエネルギーのフレーム
は、マスク(backward masking)され、時間軸伸縮の劣化
が検知され難い。あるいは、小さなエネルギーのフレー
ムに継続して直後に大きなエネルギーのフレームが到来
する場合、前の小さいエネルギーのフレームは、マスク
(forward masking) され、時間伸縮処理の劣化は、検知
されにくい。また、これらのマスキング量は、マスカー
とのレベル差、および時間差によって値が異なってい
る。ただし、高速再生時における時間軸圧縮処理により
新たに発生する継時マスキング効果によって、新たにエ
ネルギーの小さい部分の聴き取りが困難になる,という
ことがないように注意する必要がある。
【0103】エネルギー変化度合演算手段6004で
は、伸縮頻度制御手段で決定されたフレームサイクル数
分のエネルギー変化度合を予め求める。次に、フレーム
選択手段6005は、先に求められたNf個のエネルギー
変化度合の値を参考に、継時マスキング効果による処理
劣化が検知されにくいフレームから優先的に所定数Ns個
の選択を行う。その際、時間軸圧縮を行うことにより、
エネルギーの小さい区間の聴き取りが困難になる,とい
うことがないように注意しなければならない。すなわ
ち、エネルギーの大きいフレームに挟まれたエネルギー
の小さいフレームは、時間長が短くなることによる、前
方・後方マスキング効果の増大が予想されるため、ほか
のフレームを選択するようにする。そして、データ伸縮
制御手段3006は、当該フレームが伸縮すべきフレー
ムとして選択されたフレームかどうかを判断し、データ
伸縮手段3002が伸縮すべきかどうかを制御する。そ
の結果、入力された符号化データは、フレーム復号化手
段3001で1フレーム単位で復号化され、データ伸縮
制御手段によって伸縮すべきと判断されたフレームにつ
いて、波形の伸縮を行い、それ以外のフレームについて
は、そのまま出力を行う。このように、あらかじめエネ
ルギー変化度合演算手段で求めたエネルギーの変化度合
を用いて、フレーム選択手段でフレームサイクル内で伸
縮すべき最適なフレームを求めておくことにより、速度
変換処理音声として、波形の伸縮による処理劣化が検知
され難くいものとすることが可能となる。
【0104】なお、本実施の形態6では、各フレームに
おけるエネルギー変化度合を示す値を指標として継時マ
スキング効果を利用しているが、例えば1フレーム内を
さらに複数の小区間に分割した各小区間ごとの平均振幅
値を求め、各小区間の前値との差分値を求めることによ
り、平均振幅の変化度合を代用して用いることも有効で
あると考えられる。
【0105】(実施の形態7)以下、本発明の第7の実
施の形態について、図面を参照しながら説明する。図1
3は本発明の第7の実施の形態による音声再生装置のブ
ロック図を示すものである。図13において、3001
はフレーム復号化手段、3002はデータ伸縮手段、3
003は伸縮頻度制御手段、4004は音声らしさ演算
手段、5004は定常性演算手段、6004はエネルギ
ー変化度合演算手段、7005はフレーム選択手段、3
006はデータ伸縮制御手段である。以下に、その動作
について説明する。
【0106】本実施の形態7は、フレーム単位で復号化
処理を行う音声に対して速度変換処理を施す音声再生装
置の一例を示すものである。図13において、フレーム
復号化手段3001、データ伸縮手段3002、伸縮頻
度制御手段3003、データ伸縮制御手段3006は、
実施の形態3と同様の動作を行うものである。また、音
声らしさ演算手段4004は、実施の形態4と、定常性
演算手段5004は、実施の形態5 と、エネルギー変化
度合演算手段6004は、実施の形態6 と同様の動作を
行う。本実施の形態7では、伸縮処理を行うべきフレー
ムの選択を行うフレーム選択手段7005の働きを中心
に説明を行う。
【0107】速度変換処理によって処理された音声から
得るべき情報は、音声言語情報であると仮定すると、対
象とする音声が処理により加工されたことによって、聴
取者の了解性が低下することは望ましくない。あるい
は、速度変換処理を適用することによって了解性を高め
ることができる可能性があることは、学会発表等より明
らかにされつつある(参考文献3 ),4) )。例えば、音
声聴取の際の時間処理能力が低下している高齢者におい
ては、速度を低下させることによって、了解性が高めら
れることが確認されている。本実施の形態7では、速度
変換処理によって了解性を向上させ、処理による劣化を
最小限に抑える、あるいは、速度変換処理によって自然
性が劣化せず効率的に音声情報を聴取しやすくする、の
2つの処理形態を提供するものである。フレーム選択手
段7005は、音声らしさ演算手段の出力結果と、定常
性演算手段の出力結果と、エネルギー変換度合演算手段
によって得られるマスキング条件とをもとに、各フレー
ムに対する分析結果を数値化し、これをもとに、自然性
を重視した場合、了解性を重視した場合、の双方に関し
て、選択すべきフレームを決定するものである。
【0108】まず、自然性の劣化を少なく、効率的に聴
取する場合の処理を説明する。この場合は、音声らしさ
演算手段によって得られた非音声区間のフレームに対す
る優先度を大きくする。そして、残りの2つの分析結果
を考慮して、最終的なフレーム選択を決定する。
【0109】次に、了解性を高め、聴き取りやすい音声
を得る場合の処理を説明する。この場合は、エネルギー
の小さい子音語頭部が継時マスキングされないようにエ
ネルギー変化度合のパラメータの優先度を高くする。そ
して、残りの2つの分析結果を考慮して、最終的なフレ
ーム選択を決定する。
【0110】このように、あらかじめエネルギー変化度
合演算手段で求めたエネルギーの変化度合を用いて、(
あるいは、音声らしさ演算手段によって得られた非音声
区間のフレームに対する優先度を大きくして、) フレー
ム選択手段でフレームサイクル内で伸縮すべき最適なフ
レームを求めておくことにより、速度変換処理音声とし
て、自然性・了解性の優先度合いを考慮した波形の伸縮
を行うことができるものである。
【0111】なお、本実施の形態7では、請求項9 に対
応するうちの一例として、エネルギー演算手段、音声ら
しさ演算手段、定常性演算手段、エネルギー変化度合演
算手段の4 つの手段のうち、後者の3つを備えたものを
説明したが、エネルギー演算手段を判定条件に加えてど
のフレームに対して時間軸伸縮を加えるべきかを、より
厳密に推定することも可能である。本発明では、これは
4 つの演算手段のうち2つ以上を備えて総合的な推定を
行うことで、再生音の聴取条件などに関して複数の選択
肢を与えるものである。
【0112】(実施の形態8)以下、本発明の実施の形
態8について、図面を参照しながら説明する。まず、以
下の実施の形態8〜11の説明に先立ち、MPEG1 オーデ
ィオレイヤ1/ 2符号化方式について説明する。MPEG1
オーディオレイヤ1/ 2符号化方式は、図26に示すブ
ロック図で表される。16ビット直線量子化された入力
信号は、サブバンド分析フィルタで32帯域のサブバン
ド信号に分割される。フィルタは、512タップPFB
(Polyphase Filter Bank )で実現される。各サブバン
ド信号に対してスケールファクタを計算し、ダイナミッ
クレンジを揃える。スケールファクタの計算は、レイヤ
1では各帯域12サンプルごと、すなわち全体で384
サンプルごとに、レイヤ2ではその3倍の1152サン
プルを1ブロックとして384サンプルごとに行われ
る。このため、レイヤ2では解像度が増し、符号化品質
が向上する。しかし、このままではレイヤ2のスケール
ファクタの数はレイヤ1の3倍になり、圧縮率の低下を
招く。そこで、レイヤ2では3つのスケールファクタの
組み合わせに応じて1つの新たな値(スケールファクタ
選択情報)を割り当てて表現し、圧縮率低下を防ぐ。
【0113】図14は本発明の実施の形態8における音
声再生装置のブロック図を示すものである。図14にお
いて、101はフレーム逆パッキング手段、102は逆
量子化手段、103はデータ伸縮手段、104はサブバ
ンド合成フィルタ手段、106はフレームカウント手
段、12-1-1はエネルギー演算手段、12-1-2は伸縮頻度制
御手段、12-1-3はフレーム選択手段、107はデータ伸
縮制御手段である。
【0114】図15は、本発明の実施の形態8におけ
る、エネルギー演算手段12-1-1がフレームのエネルギー
を推定する過程を示すフローチャートである。以下に、
その動作について説明する。
【0115】本実施の形態8は、MPEG1オーディオ
レイヤ2のビットストリームをデコードする際の中間デ
ータに対して速度変換処理を施す音声再生装置の例を示
すものである。MPEG1オーディオレイヤ2のビット
ストリームは、ヘッダ、ビット割当情報、スケールファ
クタインデックス、スケールファクタ選択情報、サンプ
ルデータ情報などから成り立っている。
【0116】図14において、入力されたMPEG1オ
ーディオレイヤ2のビットストリームは、フレーム逆パ
ッキング手段101によって、当該ビットストリームか
らヘッダ、ビット割当情報、スケールファクタインデッ
クス、スケールファクタ選択情報、サンプルデータ情報
などの個々の情報に分離される。
【0117】ここで、スケールファクタインデックス
は、再生時の波形倍率を示し、各チャンネル、各有効サ
ブバンド、各ブロックごとに存在する。スケールファク
タインデックスは0から62までの値を取り、0が最も
エネルギーが大きく、62が最もエネルギーが小さい。
ただしビット割当情報が0の場合はスケールファクタイ
ンデックスは存在しない。また、ビット割当情報は、エ
ンコード時に割当てるべきビット数に関連した値で、各
チャンネル、各有効サブバンドごとに存在する。
【0118】既に、述べたことでもあるが、MPEG1
オーディオレイヤ2におけるチャンネルは、右チャンネ
ルと左チャンネルの2チャンネル存在しうる。また、M
PEG1オーディオレイヤ2におけるサブバンドは、全
帯域を32等分割したものであり、周波数の低い順に、
第0サブバンド、第1サブバンド、第2サブバンドから
第31サブバンドまで存在する。
【0119】ここで、サブバンドについては、サンプリ
ング周波数が32kHzの場合、0〜16000Hzの
帯域を32等分割するため、一つのサブバンドは500
Hzの幅を持つ。ただし、32個のサブバンドのうち有
効なサブバンド数が制限される。例えば192kbps
ステレオの場合、0〜31の32個のサブバンドのう
ち、0〜29までの30個のサブバンドを有効サブバン
ドとするため、第30、第31サブバンドのビット割当
情報や、スケールファクタインデックスは存在しない。
この時、周波数帯域は0〜15000Hzとなる(16
000÷32×30=15000より)。
【0120】また、MPEG1オーディオレイヤ2にお
けるブロックとは、フレームを時間領域で3等分割した
領域であり、時間順に第0ブロック、第1ブロック、第
2ブロックまで存在する。サンプリング周波数が32k
Hzの場合、1ブロック長=12msである。1フレー
ム長は、サンプリング周波数が32kHzの場合36m
sである。
【0121】エネルギー演算手段12-1-1は、第0ブロッ
クの第0サブバンドの左チャンネルのスケールファクタ
インデックスscf_L0と、第0ブロックの第0サブ
バンドの右チャンネルのスケールファクタインデックス
scf_R0とを用いて、フレームサイクル内の各フレ
ームナンバfrmに対するエネルギー推定値e[fr
m]を求める。より詳しくは、スケールファクタインデ
ックスの小さいフレームほどエネルギーは大きいもの
で、上記scf_L0とscf_R0のうちどちらか小
さい方の値を用いて、上記エネルギー推定値e[fr
m]を求める。
【0122】scf_L0とscf_R0の一方が存在
しない時は、エネルギー演算手段12-1-1は、存在するも
う一方の値を用いて、エネルギー推定値e[frm]を
求める。scf_L0とscf_R0の両方が存在しな
い時は、エネルギー演算手段12-1-1は、速度変換フレー
ム選択候補の優先順位を最低にすることを意味する所定
値を、エネルギー推定値e[frm]に代入する。
【0123】伸縮頻度制御手段12-1-2は、与えられた速
度比に応じて、フレームサイクル数と、そのフレームサ
イクル数内で伸縮処理を行うフレーム数とを設定する。
例えば0.9倍速の時、9フレームのうち2フレームを
速度変換を施すフレームとして選択する。つまりフレー
ムサイクル数は9であり、フレームナンバfrmは0か
ら8を変動する。フレーム選択手段12-1-3は、エネルギ
ー演算手段12-1-1が出力するフレームサイクル中の全フ
レームに対するエネルギー推定値e[frm]の小さい
フレームから順に、伸縮処理を行うフレームを選択す
る。e[frm]の小さいフレームを優先的に選択すれ
ば、エネルギーの小さい音の部分が速度変換処理される
ことになる。
【0124】なお、第0ブロックの第0サブバンドの左
チャンネルのスケールファクタインデックスscf_L
0と、第1ブロックの第0サブバンドの左チャンネルの
スケールファクタインデックスscf_L1と、第2ブ
ロックの第0サブバンドの左チャンネルのスケールファ
クタインデックスscf_L2と、第0ブロックの第0
サブバンドの右チャンネルのスケールファクタインデッ
クスscf_R0と、第1ブロックの第0サブバンドの
右チャンネルのスケールファクタインデックスscf_
R1と、第2ブロックの第0サブバンドの右チャンネル
のスケールファクタインデックスscf_R2とのうち
の最小値を用いて、エネルギー推定値e[frm]を求
めるようにしてもよい。
【0125】以上のように、本実施の形態8によれば、
エネルギー演算手段12-1-1は、再生時の波形倍率を示す
スケールファクタインデックスの値をもとに、音声信号
のエネルギーを推定するようにし、その結果に応じて速
度変換を施すフレームを選択するようにしたので、MP
EGデコード後のPCMデータのエネルギー演算が不要
となり、MPEG1オーディオレイヤ2のビットストリ
ームをデコードする際の中間データに対して、速度変換
フレーム選択、及び速度変換処理を施すことが可能とな
るため、少ない演算量で速度変換処理を実現することが
できるものである。
【0126】(実施の形態9)以下、本発明の実施の形
態9について、図面を参照しながら説明する。図16
は、本発明の実施の形態9における音声再生装置のブロ
ック図を示すものである。図16において、101はフ
レーム逆パッキング手段、102は逆量子化手段、10
3はデータ伸縮手段、104はサブバンド合成フィルタ
手段、106はフレームカウント手段、13-1-1は定常性
演算手段、12-1-2は伸縮頻度制御手段、13-1-3はフレー
ム選択手段、107はデータ伸縮制御手段である。表4
は、本発明の実施の形態9において定常性演算手段13-1
-1が出力する、定常性検出による速度変換フレーム選択
優先順位である。以下に、その動作について説明する。
【0127】
【表4】
【0128】本実施の形態9は、MPEG1オーディオ
レイヤ2のビットストリームをデコードする際の中間デ
ータに対して速度変換処理を施す音声再生装置の例を示
すものである。MPEG1オーディオレイヤ2のビット
ストリームは、ヘッダ、ビット割当情報、スケールファ
クタインデックス、スケールファクタ選択情報、サンプ
ルデータ情報などから成り立っている。
【0129】図16において、入力されたMPEG1オ
ーディオレイヤ2のビットストリームは、フレーム逆パ
ッキング手段101によって、当該ビットストリームか
らヘッダ、ビット割当情報、スケールファクタインデッ
クス、スケールファクタ選択情報、サンプルデータ情報
などの個々の情報に分離される。スケールファクタ選択
情報は、波形定常性を示すものであり、各チャンネル、
各有効サブバンドごとに存在している。スケールファク
タ選択情報は、0、1、2、3の値を取りうる。スケー
ルファクタ選択情報が0のとき最も定常性が低く、2の
とき最も定常性が高いものと見なす。スケールファクタ
選択情報が1および3のとき定常性は同等であると見な
す。
【0130】定常性演算手段13-1-1は、第0サブバンド
の左チャンネルのスケールファクタ選択情報scfsi
_L0と、第0サブバンドの右チャンネルのスケールフ
ァクタ選択情報scfsi_R0とを用いて、フレーム
サイクル内の各フレームナンバfrmに対する速度変換
フレーム選択優先順位ord[frm]を求める。定常
性演算手段13-1-1は、フレームサイクル内の全フレーム
のord[frm]を、表4に示す規則に従って求め
る。scfsi_L0とscfsi_R0のどちらか一
つまたは両方が存在しないときは、定常性演算手段13-1
-1は、速度変換フレーム選択候補の優先順位を最低にす
ることを意味する所定値を、速度変換フレーム選択優先
順位ord[frm]に代入する。
【0131】伸縮頻度制御手段12-1-2は、与えられた速
度比に応じて、フレームサイクル数とそのフレームサイ
クル数内で伸縮処理を行うフレーム数とを設定する。フ
レーム選択手段13-1-3は、定常性演算手段13-1-1が出力
するフレームサイクル中の全フレームに対する速度変換
フレーム選択優先順位ord[frm]の高いフレーム
から順に、伸縮処理を行うフレームを選択する。
【0132】以上のように、本実施の形態9によれば、
定常性演算手段13-1-1は、波形定常性を示すスケールフ
ァクタ選択情報の値をもとに、音声信号の定常性を推定
することにより、MPEGデコード後のPCMデータの
定常性演算が不要となり、MPEG1オーディオレイヤ
2のビットストリームをデコードする際の中間データに
対して速度変換フレーム選択、及び速度変換処理を施す
ことが可能となるため、少ない演算量で速度変換処理実
現することができるものである。
【0133】このような、本実施の形態9では、速度変
換による音質劣化の少ない定常性の高いフレームを選択
して速度変換するというところに特徴があり、このよう
に、話速変換ができるので、語学学習に適しているもの
であり、また、定常性演算処理が不要となるため、演算
量を削減できる、という特徴をも有するものである。
【0134】(実施の形態10)以下、本発明の実施の
形態10について、図面を参照しながら説明する。図1
7は、本発明の実施の形態10における音声再生装置の
ブロック図を示すものである。図17において、101
はフレーム逆パッキング手段、102は逆量子化手段、
103はデータ伸縮手段、104はサブバンド合成フィ
ルタ手段、106はフレームカウント手段、14-1-1はエ
ネルギー変化度合演算手段、12-1-2は伸縮頻度制御手
段、14-1-3はフレーム選択手段、107はデータ伸縮制
御手段である。以下に、その動作について説明する。
【0135】本実施の形態10は、MPEG1オーディ
オレイヤ2のビットストリームをデコードする際の中間
データに対して速度変換処理を施す音声再生装置の例を
示すものである。MPEG1オーディオレイヤ2のビッ
トストリームは、ヘッダ、ビット割当情報、スケールフ
ァクタインデックス、スケールファクタ選択情報、サン
プルデータ情報などから成り立っている。
【0136】図17において、入力されたMPEG1オ
ーディオレイヤ2のビットストリームは、フレーム逆パ
ッキング手段101によって、当該ビットストリームか
らヘッダ、ビット割当情報、スケールファクタインデッ
クス、スケールファクタ選択情報、サンプルデータ情報
などの個々の情報に分離される。
【0137】エネルギー変化度合演算手段14-1-1は、第
0ブロックの第0サブバンドの左チャンネルのスケール
ファクタインデックスscf_L0と、第1ブロックの
第0サブバンドの左チャンネルのスケールファクタイン
デックスscf_L1と、第2ブロックの第0サブバン
ドの左チャンネルのスケールファクタインデックスsc
f_L2と、第0ブロックの第0サブバンドの右チャン
ネルのスケールファクタインデックスscf_R0と、
第1ブロックの第0サブバンドの右チャンネルのスケー
ルファクタインデックスscf_R1と、第2ブロック
の第0サブバンドの右チャンネルのスケールファクタイ
ンデックスscf_R2とを用いて、フレームサイクル
内と、フレームサイクルの前後1フレーム、の各フレー
ムナンバfrmに対する各チャンネルの各ブロックのエ
ネルギー推定値e[ch][blk][frm]を求め
る。フレームサイクル内とフレームサイクルの前後1フ
レームとは、例えばフレームサイクル数が9の場合、9
フレームの前後1フレームということで、11フレーム
となる。
【0138】即ち、各ブロックの第0サブバンドの各チ
ャンネルのスケールファクタインデックスに対応する、
各フレームナンバの各チャンネルの各ブロックのエネル
ギー推定値e[ch][blk][frm]を、フレー
ムサイクル内とフレームサイクルの前後1フレームにつ
いて求める。スケールファクタインデックスの小さいブ
ロックほどエネルギーは大きい。
【0139】また、スケールファクタインデックスが存
在しないとき、エネルギーは0である。即ち、scf_
L0が存在しないフレームの場合、e[0][0][f
rm]=0とする。scf_L1が存在しないフレーム
の場合、e[0][1][frm]=0とする。scf
_L2が存在しないフレームの場合、e[0][2]
[frm]=0とする。scf_R0が存在しないフレ
ームの場合、e[1][0][frm]=0とする。s
cf_R1が存在しないフレームの場合、e[1]
[1][frm]=0とする。scf_R2が存在しな
いフレームの場合、e[1][2][frm]=0とす
る。
【0140】次に、フレームサイクル内の各フレームナ
ンバfrmに対するエネルギー推定値e[ch][bl
k][frm]のブロック内の最大値emax[ch]
[frm]を、全フレームサイクルについて求める。フ
レームサイクルの前後1フレームのemax[ch]
[frm]は、求めなくてよい。
【0141】次に、フレームサイクル内の各フレームナ
ンバfrmに対して、エネルギー推定値e[0][2]
[frm−1]ーemax[0][frm]と、エネル
ギー推定値e[1][2][frm−1]ーemax
[1][frm]と、エネルギー推定値e[0][0]
[frm+1]ーemax[0][frm]と、エネル
ギー推定値e[1][0][frm+1]ーemax
[1][frm]の4個の値を求め、4個の値のうちの
最大値を、速度変換フレーム選択優先度p[frm]に
代入する。
【0142】伸縮頻度制御手段12-1-2は、与えられた速
度比に応じて、フレームサイクル数と、そのフレームサ
イクル数内で伸縮処理を行うフレーム数とを設定する。
フレーム選択手段14-1-3は、エネルギー変化度合演算手
段14-1-1が出力するフレームサイクル中の全フレームに
対する速度変換フレーム選択優先度p[frm]の大き
いフレームから順に、伸縮処理を行うフレームを選択す
る。速度変換フレーム選択優先度p[frm]の大きい
フレームほど、非同時マスキングでマスキングされやす
いので、速度変換による音質劣化が知覚されにくいこと
が特徴となる。非同時マスキングについては、B.C.
J.ムーア著、誠信書房発行、聴覚心理学概論に詳しく
記述されている。
【0143】以上のように、本実施の形態10によれ
ば、エネルギー変化度合演算手段14-1-1は、再生時の波
形倍率を示すスケールファクタインデックスの値をもと
に、音声信号のエネルギー変化度合を推定し、速度変換
フレーム選択優先度p[frm]の大きいフレームを優
先的に速度変換するようにしたので、MPEGデコード
後のPCMデータのエネルギー変化度合演算が不要とな
り、MPEG1オーディオレイヤ2のビットストリーム
をデコードする際の中間データに対して速度変換フレー
ム選択、及び速度変換処理を施すことが可能となるた
め、少ない演算量で実現できることが特徴である。ま
た、この方法は、話速変換ができるので、語学学習に適
した音声処理を行うことができる。
【0144】(実施の形態11)以下、本発明の実施の
形態11について、図面を参照しながら説明する。図1
8は、本発明の実施の形態11における音声再生装置の
ブロック図を示すものである。図18において、101
はフレーム逆パッキング手段、102は逆量子化手段、
103はデータ伸縮手段、104はサブバンド合成フィ
ルタ手段、106はフレームカウント手段、12-1-1はエ
ネルギー演算手段、13-1-1は定常性演算手段、14-1-1は
エネルギー変化度合演算手段、12-1-2は伸縮頻度制御手
段、15-1-3はフレーム選択手段、107はデータ伸縮制
御手段である。以下に、その動作について説明する。
【0145】本実施の形態11は、MPEG1オーディ
オレイヤ2のビットストリームをデコードする際の中間
データに対して速度変換処理を施す音声再生装置の例を
示すものである。MPEG1オーディオレイヤ2のビッ
トストリームは、ヘッダ、ビット割当情報、スケールフ
ァクタインデックス、スケールファクタ選択情報、サン
プルデータ情報などから成り立っている。
【0146】図18において、入力されたMPEG1オ
ーディオレイヤ2のビットストリームは、フレーム逆パ
ッキング手段101によって、当該ビットストリームか
らヘッダ、ビット割当情報、スケールファクタインデッ
クス、スケールファクタ選択情報、サンプルデータ情報
などの個々の情報に分離される。
【0147】エネルギー演算手段12-1-1は、本発明の実
施の形態8に記述した方法で、フレームサイクル内の各
フレームナンバfrmに対するエネルギー推定値e[f
rm]を求める。
【0148】定常性演算手段13-1-1は、本発明の実施の
形態9に記述した方法で、フレームサイクル内の各フレ
ームナンバfrmに対する速度変換フレーム選択優先順
位ord[frm]を求める。
【0149】エネルギー変化度合演算手段14-1-1は、本
発明の実施の形態10に記述した方法で、フレームサイ
クル内の各フレームナンバfrmに対する速度変換フレ
ーム選択優先度p[frm]を求める。
【0150】伸縮頻度制御手段12-1-2は、与えられた速
度比に応じて、フレームサイクル数と、そのフレームサ
イクル数内で伸縮処理を行うフレーム数とを設定する。
自然性の劣化を少なく、効率的に聴取したい場合、フレ
ーム選択手段15-1-3は、エネルギー演算手段12-1-1が出
力するフレームサイクル中の全フレームに対するエネル
ギー推定値e[frm]の小さいフレームから順に、伸
縮処理を行うフレームを選択する。了解性を高め、聴き
取りやすい音声を得たい場合、フレーム選択手段15-1-3
は、定常性演算手段13-1-1が出力するフレームサイクル
中の全フレームに対する速度変換フレーム選択優先順位
ord[frm]の高いフレームから順に、伸縮処理を
行うフレームを選択する。このときフレームサイクル内
の速度変換フレーム選択優先順位ord[frm]の値
が同一で優先順位がつけられない場合は、エネルギー変
化度合演算手段14-1-1が出力する速度変換フレーム選択
優先度p[frm]を用いて、そのp[frm]の大き
いフレームを優先的に選択するようにして速度変換フレ
ーム選択優先順位ord[frm]の値が同一なフレー
ムに対して細分化した優先順位をつける。
【0151】以上のように、本実施の形態11によれ
ば、エネルギー演算手段12-1-1と、定常性演算手段13-1
-1と、エネルギー変化度合演算手段14-1-1は、再生時の
波形倍率を示すスケールファクタインデックスと、スケ
ールファクタ選択情報の値をもとに、音声信号のエネル
ギーと、定常性と、エネルギー変化度合を推定し、自然
性重視の場合、e[frm]の小さいフレームを選択
し、了解性重視の場合、ord[frm]の小さいフレ
ームを選択し、ord[frm]が同一の値の場合、p
[frm]の大きいフレームを優先的に選択するように
したので、MPEGデコード後のPCMデータのエネル
ギーと、定常性と、エネルギー変化度合の演算が不要と
なり、MPEG1オーディオレイヤ2のビットストリー
ムをデコードする際の中間データに対して速度変換フレ
ーム選択、及び速度変換処理を施すことが可能となるた
め、少ない演算量で所望の話速変換処理を行うことがで
きる効果が得られる。
【0152】なお、本発明の実施の形態4に記載されて
いる音声らしさ演算手段4004が本実施の形態11に
記載されていないのは、MPEG1オーディオレイヤ2
のビットストリームに音声らしさを示す情報が含まれて
いないためである。
【0153】[参考文献] 1) 鈴木,三崎,“高品質速度変換方式のDSP による実
現" ,信学技報,SP90-34(1990) 2) 比企他,“連続音声中の音韻区分の持続時間の性
質" ,信学誌,第50巻5号,pp.849-856(1967) 3) 中山,三 ,“日本人学習者に対する英語の語頭強
調処理による受聴明瞭度の改善" ,音講論集,1-8-21
(1998.3) 4) 細井,目方他,“補聴効果評価のための67-S早口語
音聴力検査" ,Audiology Japan,vol.36.No.5, pp.299
-300(1993) 5) B.C.J.Moore 著(大串健吾監訳),“聴覚心理学概
論" 誠信書房 (非同期マスキングに関しても参照)
【0154】
【発明の効果】請求項1にかかる音声再生装置によれ
ば、音声復号化手段、選択手段、フレームシーケンステ
ーブル、フレームカウント手段、データ伸縮制御手段、
データ伸縮手段を備える音声再生装置であって、音声復
号化手段は、入力される音声信号をフレーム単位で復号
し、選択手段は、与えられる速度比に対応したフレーム
シーケンスをフレームシーケンステーブルへ出力すると
共に、該フレームシーケンスのフレームサイクルをフ
レームカウント手段出力し、フレームシーケンステー
ブルは、選択手段からフレームシーケンスを記憶し、
フレームカウント手段は、フレームサイクル数に基づい
音声復号化手段で処理する符号化音声信号のフレーム
数をカウントし、データ伸縮制御手段は、フレームカウ
ント手段のカウント値に対応したフレームシーケンステ
ーブルのフレームシーケンスを参照して、音声復号化手
段から出力されるフレームを時間軸圧縮もしくは時間軸
伸長、または時間軸変換なしのどちらで処理するかをデ
ータ伸縮手段にし、データ伸縮手段は、データ伸縮
制御手段のに基づいて音声復号化手段から出力され
るフレームに対して時間軸変換処理を行うことを特徴と
するものとしたので、フレーム内データで完結する一定
速度比の時間軸圧縮処理または時間軸伸長処理を基本と
した簡素な構成によって、所望の速度比(再生速度)に
て高品質な速度変換処理を実現する音声再生装置を提供
することができる効果がある。
【0155】また、請求項2にかかる音声再生装置によ
れば、請求項1に記載の音声再生装置において、音声復
号化手段は、MPEG1オーディオレイヤ2符号化方式
にて符号化された音声信号を復号することを特徴とする
ものとしたので、MPEG1オーディオレイヤ2符号化
方式にて符号化されたデータに対して、処理劣化の少な
い速度変換処理を行うことができる音声再生装置を提供
できる効果がある。
【0156】また、請求項3にかかる音声再生装置によ
れば、請求項1記載の音声再生装置において、フレー
ムシーケンスは、連続する時間軸圧縮フレームのフレー
ム数と、連続する時間軸処理無しフレームのフレーム数
いずれも最小となるよう配置されたことを特徴とする
ものとしたので、フレーム内データで完結する一定速度
比の時間軸圧縮または時間軸伸長処理を基本とした簡素
な構成によって、所望の速度比(再生速度)にて高品質
な速度変換処理を実現する音声再生装置を提供すること
ができる効果がある。
【0157】また、請求項4にかかる音声再生装置によ
れば、請求項1記載の音声再生装置において、フレー
ムシーケンスは、連続する時間軸伸長フレームのフレー
ム数と、連続する時間軸処理無しフレームのフレーム数
いずれも最小となるよう配置されたことを特徴とする
ものとしたので、フレーム内データで完結する一定速度
比の時間軸圧縮または時間軸伸長処理を基本とした簡素
な構成によって、所望の速度比(再生速度)にて高品質
な速度変換処理を実現する音声再生装置を提供すること
ができる効果がある。
【0158】また、請求項5にかかる音声再生装置によ
れば、音声復号化手段、伸縮頻度制御手段、フレームカ
ウント手段、エネルギー演算手段、フレーム選択手段、
データ伸縮制御手段、データ伸縮手段を備える音声再生
装置であって、音声復号化手段は、MPEG1オーディ
オレイヤ2符号化方式にて符号化された符号化音声信号
を復号し、伸縮頻度制御手段は、与えられる速度比に応
た、フレームサイクルf、時間軸圧縮または時間
伸長するフレーム数Nsを設定し、フレームカウント
手段は、フレームサイクル数Nfに基づいて音声復号化
手段で処理する符号化音声信号のフレーム数をカウント
し、エネルギー演算手段は、符号化音声信号のスケール
ファクタインデックスをもとにフレームサイクル数
分の符号化音声信号のエネルギーを推定し、フレーム選
択手段は、フレームサイクル数fのフレーム内でエネ
ルギーの小さいフレームからNs個のフレームを時間軸
圧縮または時間軸伸長するフレームとして決定し、デー
タ伸縮制御手段は、フレームカウント手段のカウント値
フレーム選択手段の決定に基づき、音声復号化手段か
ら出力されるフレームを時間軸圧縮もしくは時間軸伸
、または時間軸変換なしのどちらで処理するかをデー
タ伸縮手段にし、データ伸縮手段は、データ伸縮制
御手段の定に基づいて音声復号化手段から出力される
フレームに対して時間軸変換処理を行うことを特徴とす
るものとしたので、エネルギーの小さいフレームでの時
間軸伸縮は処理劣化が検知され難いことを利用しMP
EG1オーディオレイヤ2符号化方式にて符号化された
データに対し、エネルギーの小さいフレームを優先的に
選択することができ、高品質な速度変換処理音声を得る
ことができる音声再生装置を提供することができる効果
がある
【0159】また、請求項6にかかる音声再生装置によ
れば、音声復号化手段、伸縮頻度制御手段、フレームカ
ウント手段、定常性演算手段、フレーム選択手段、デー
タ伸縮制御手段、データ伸縮手段を備える音声再生装置
であって、音声復号化手段は、MPEG1オーディオレ
イヤ2符号化方式にて符号化された音声信号を復号し、
伸縮頻度制御手段は、与えられる速度比に応じた、フ
ームサイクルf、時間軸圧縮または時間軸伸長する
フレーム数Nsを設定し、フレームカウント手段は、フ
レームサイクル数Nfに基づいて音声復号化手段で処理
する符号化音声信号のフレーム数をカウントし、定常性
演算手段は、符号化音声信号のスケールファクタ選択情
報をもとにフレームサイクル数f分の符号化音声信号
の定常性を推定し、フレーム選択手段は、フレームサイ
クル数Nfのフレーム内での定常性の高いフレームから
Ns個のフレームを時間軸圧縮または時間軸伸長するフ
レームとして決定し、データ伸縮制御手段は、フレーム
カウント手段のカウント値とフレーム選択手段の決定
基づき、音声復号化手段から出力されるフレームを時
軸圧縮もしくは時間軸伸長、または時間軸変換なしのど
ちらで処理するかをデータ伸縮手段にし、データ伸
縮手段は、データ伸縮制御手段の定に基づいて音声復
号化手段から出力されるフレームに対して時間軸変換処
理を行うことを特徴とする音声再生装置としたので、
常性の高いフレームでは重み付け加算法による劣化が検
知され難いことを利用し、MPEG1オーディオレイヤ
2符号化方式にて符号化されたデータに対し、定常性の
高いフレームを優先的に選択することができ、高品質な
速度変換処理音声を得ることができる音声再生装置を提
供することができる効果がある
【0160】また、請求項7にかかる音声再生装置によ
れば、音声復号化手段、伸縮頻度制御手段、フレームカ
ウント手段、エネルギー変化度合演算手段、フレーム選
択手段、データ伸縮制御手段、データ伸縮手段をえる
音声再生装置であって、音声復号化手段は、MPEG1
オーディオレイヤ2符号化方式にて符号化された音声信
を復号し、伸縮頻度制御手段は、与えられる速度比に
応じた、フレームサイクルf、時間軸圧縮または時
間軸伸長するフレーム数Nsを設定し、フレームカウン
ト手段は、フレームサイクル数Nfに基づいて音声復号
化手段で処理する符号化音声信号のフレーム数をカウン
トし、エネルギー変化度合演算手段は、符号化音声信号
のスケールファクタインデックスをもとにフレームサイ
クル数f分符号化音声信号のエネルギー変化度合を
推定し、フレーム選択手段は、フレームサイクル数
フレーム内でエネルギー変化度合に基づき継時マスキ
ング効果による処理劣化が少ないフレームからNs個の
フレームを時間軸圧縮または時間軸伸長するフレーム
して決定し、データ伸縮制御手段は、フレームカウント
手段のカウント値とフレーム選択手段の決定に基づき
声復号化手段から出力されるフレームを時間軸圧縮
しくは時間軸伸長、または時間軸変換なしのどちらで
理するかをデータ伸縮手段にし、データ伸縮手段
は、データ伸縮制御手段のに基づいて音声復号化手
段から出力されるフレームに対して時間軸変換処理を行
うことを特徴とするものとしたので、MPEG1オーデ
ィオレイヤ2符号化方式にて符号化されたデータに対
し、エネルギー変化度合に基づき処理劣化が継時マスキ
ング効果によって検知しにくいフレームを選択すること
となり、定常性の高いフレームを優先的に選択すること
ができ、高品質な速度変換処理音声を得ることができる
音声再生装置を提供することができる効果がある
【0161】また、請求項8にかかる音声再生装置によ
れば、音声復号化手段、伸縮頻度制御手段、フレームカ
ウント手段、演算手段、フレーム選択手段、データ伸縮
制御手段、データ伸縮手段をえる音声再生装置であっ
て、音声復号化手段は、MPEG1オーディオレイヤ2
符号化方式にて符号化された符号化音声信号を復号し、
伸縮頻度制御手段は、与えられる速度比に応じた、フ
ームサイクルf、時間軸圧縮または時間軸伸長する
フレーム数Nsを設定し、フレームカウント手段は、フ
レームサイクル数Nfに基づいて音声復号化手段で処理
する符号化音声信号のフレーム数をカウントし、演算手
段は、エネルギー演算手段、定常性演算手段、エネルギ
ー変化度合演算手段のいずれか2つ以上を備え、エネル
ギー演算手段は、符号化音声信号のスケールファクタイ
ンデックスをもとにフレームサイクル数Nf分の符号化
音声信号のエネルギーを推定し、定常性演算手段は、符
号化音声信号のスケールファクタ選択情報をもとにフレ
ームサイクル数Nf分の符号化音声信号の定常性を推定
し、エネルギー変化度合演算手段は、符号化音声信号の
スケールファクタインデックスをもとにフレームサイク
ル数f分符号化音声信号のエネルギー変化度合を
し、フレーム選択手段は、演算手段の出力をもとにN
個のフレームを時間軸圧縮または時間軸伸長するフレ
ームとして決定し、データ伸縮制御手段は、フレームカ
ウント手段のカウント値とフレーム選択手段の決定に基
づき、音声復号化手段から出力されるフレームを時間軸
圧縮もしくは時間軸伸長、または時間軸変換なしのどち
で処理するかをデータ伸縮手段にし、データ伸縮
手段は、データ伸縮制御手段のに基づいて音声復号
化手段から出力されるフレームに対して時間軸変換処理
を行うことを特徴とするものとしたので、MPEG1オ
ーディオレイヤ2符号化方式にて符号化された符号化音
声信号に対し、上記複数の演算手段の出力を総合的に判
断して選択すべきフレームを決定でき、目的に応じてそ
れぞれ高品質な速度変換処理音声を得ることができる
声再生装置を提供することができる効果がある
【0162】また、請求項9にかかる音声再生装置によ
れば、請求項1〜8のいずれかに記載の音声再生装置
おいて、データ伸縮手段は、クロスフェード手段を備
え、クロスフェード手段は、時間軸圧縮または時間軸伸
長の際、音声復号化手段から出力されるフレームを構成
するセグメントを重み付け加算することを特徴とするも
のとしたので、フレーム内データで完結する一定速度比
の時間軸圧縮または時間軸伸長処理を基本とした簡素な
構成によって、所望の速度比(再生速度)にて高品質な
速度変換処理を行なうことができる音声再生装置を提供
することができる効果がある
【0163】また、請求項10にかかる音声再生装置に
よれば、請求項1〜8のいずれかに記載の音声再生装置
において、データ伸縮手段は、相関演算手段、クロスフ
ェード手段を備え、相関演算手段は、音声復号化手段か
ら出力されるフレームを構成するセグメントの先頭位置
を前回決定したシフト量に基づき補正し、セグメント間
の相関値を演算し、相関値が高くなる位置で重み付け加
算するためのシフト量を決定し、クロスフェード手段
は、時間軸圧縮または時間軸伸長の際、音声復号化手段
から出力されるフレームを構成するセグメントを、相関
演算手段で決定した位置で重み付け加算することを特徴
とするものとしたので、フレームを構成するセグメント
間の相関が高くなる位置に波形データをシフトさせて相
関演算を行い、かつ各時間軸圧縮または時間軸伸長の処
理において上記シフト量を考慮した処理を行うことによ
って、重み付け加算するフレームの位相の整合性を高め
られるため、音声信号の処理劣化の少ない速度変換処理
を行うことができる音声再生装置を提供することができ
る効果がある
【0164】また、請求項11にかかる音声再生装置に
よれば、請求項1〜8のいずれかに記載の音声再生装置
において、音声復号化手段は、符化音声信号を帯域毎
復号し、データ伸縮手段は、相関演算手段、帯域毎の
クロスフェード手段を備え、相関演算手段は、音声復号
化手段から出力されるフレームを構成するセグメントの
先頭位置を前回決定したシフト量に基づき補正し、ピッ
チ周波数を包含する帯域においてセグメント間の相関値
を演算し、相関値が高くなる位置で重み付け加算するた
めのシフト量を決定し、各クロスフェード手段は、時間
圧縮または時間軸伸長の際、音声復号化手段から出力
されるフレームを構成するセグメントを、相関演算手段
で決定した位置で重み付け加算することを特徴とするも
のとしたので、フレームを構成するセグメント間の相関
が高くなる位置に波形データをシフトさせて相関演算を
行い、かつ各時間軸圧縮または時間軸伸長の処理におい
て上記シフト量を考慮した処理を行うことによって、音
声の基本周波数の周期性を保存するように、重み付け加
算するフレームの位相の整合性を高められるため、音声
信号の処理劣化の少ない速度変換処理を行うことができ
音声再生装置を提供することができる効果がある
【0165】また、請求項12にかかる音声再生装置に
よれば、請求項1〜8のいずれかに記載の音声再生装置
において、音声復号化手段は、符化音声信号を帯域毎
復号し、データ伸縮手段は、相関演算手段、帯域毎の
クロスフェード手段を備え、相関演算手段は、音声復号
化手段から出力されるフレームを構成するセグメントの
先頭位置を前回決定したシフト量に基づき補正し、平均
エネルギーが最大となる帯域においてセグメント間の相
関値を演算し、相関値が高くなる位置で重み付け加算す
るためのシフト量を決定し、各クロスフェード手段は、
時間軸圧縮または時間軸伸長の際、音声復号化手段から
出力されるフレームを構成するセグメントを、相関演算
手段で決定した位置で重み付け加算することを特徴とす
るものとしたので、フレームを構成するセグメント間の
相関が高くなる位置に波形データをシフトさせて相関演
算を行い、かつ各時間軸圧縮または時間軸伸長の処理に
おいて上記シフト量を考慮した処理を行うことによっ
て、エネルギーが大きい主要な帯域での重み付け加算さ
れるフレームの位相の整合性を高められるため、音声信
号の処理劣化の少ない速度変換処理を行うことができる
音声再生装置を提供することができる効果がある
【0166】また、請求項13にかかる音声再生装置に
よれば、請求項1〜8のいずれかに記載の音声再生装置
において、音声復号化手段は、符化音声信号を帯域毎
復号し、データ伸縮手段は、相関演算手段、帯域毎の
クロスフェード手段を備え、相関演算手段は、音声復号
化手段から出力されるフレームを構成するセグメントの
先頭位置を前回決定したシフト量に基づき補正し、各帯
域においてセグメント間の相関値を演算し、相関値が最
大の帯域において相関値が高くなる位置で重み付け加算
するためのシフト量を決定し、各クロスフェード手段
は、時間軸圧縮または時間軸伸長の際、音声復号化手段
から出力されるフレームを構成するセグメントを、相関
演算手段で決定した位置で重み付け加算することを特徴
とするものとしたので、フレームを構成するセグメント
間の相関が高くなる位置に波形データをシフトさせて相
関演算を行い、かつ各時間軸圧縮または時間軸伸長の処
理において上記シフト量を考慮した処理を行うことによ
って、最も周期性が存在し易いと予想される帯域での重
み付け加算されるフレームの位相の整合性を高められる
ため、音声信号の処理劣化の少ない速度変換処理を行う
ことができる音声再生装置を提供することができる効果
がある
【0167】
【0168】
【0169】
【0170】
【0171】
【0172】
【0173】
【図面の簡単な説明】
【図1】本発明の実施の形態1による音声再生装置の全
体ブロック図。
【図2】本発明の実施の形態1におけるデータ伸縮手段
の構成図。
【図3】本発明の実施の形態1におけるデータ伸縮手段
における一定値の時間軸圧縮/伸長の様子を示す 模式
図。
【図4】本発明の実施の形態1における伸縮シーケンス
の模式図。
【図5】本発明の実施の形態2におけるデータ伸縮手段
の構成図。
【図6】本発明の実施の形態2におけるデータ圧縮の模
式図。
【図7】本発明の実施の形態2におけるデータ圧縮の補
正を行う場合のの模式図。
【図8】本発明の実施の形態2における他の例の伸縮シ
ーケンスの模式図。
【図9】本発明の実施の形態3による音声再生装置の全
体ブロック図。
【図10】本発明の実施の形態4による音声再生装置の
ブロック図。
【図11】本発明の実施の形態5による音声再生装置の
ブロック図。
【図12】本発明の実施の形態6による音声再生装置の
ブロック図。
【図13】本発明の実施の形態7による音声再生装置の
ブロック図。
【図14】本発明の実施の形態8による音声再生装置の
ブロック図。
【図15】本発明の実施の形態8における,エネルギー
演算手段12-1-1がフレームのエネルギーを推定する過程
を示すフローチャートである。
【図16】本発明の実施の形態9による音声再生装置の
ブロック図。
【図17】本発明の実施の形態10による音声再生装置
のブロック図。
【図18】本発明の実施の形態11による音声再生装置
のブロック図。
【図19】従来の音声再生装置のブロック図。
【図20】従来の他の例の音声装置のブロック図。
【図21】音声信号の主要ピッチ成分が含まれる周波数
帯域について、その1フレーム分の時間軸波形を表した
図。
【図22】図21に示した1フレームの信号を、その前
半の信号部分と、後半の信号部分との2セグメントに分
割して上下に並べた図。
【図23】図22における2セグメント間の相関関数を
求めた値を示したグラフ。
【図24】相関関数が最大となる時刻に後半の信号成分
であるセグメントをずらせた様子を定性的に示した図。
【図25】2セグメント間をTc時間オーバーラップさせ
てクロスフェード処理する様子を示した図。
【図26】MPEG1オーディオレイヤ2の構成を示すブロ
ック図。
【符号の説明】
101 フレーム逆パッキング手段 102 逆量子化手段 103 データ伸縮手段 104 サブバンド合成フィルタ手段 105 選択手段 106 フレームカウント手段 107 データ伸縮制御手段 108 フレームシーケンステーブル 201 バッファメモリ 202 クロスフェード手段 203 データ選択手段 301 相関演算手段 302 位相制御記憶手段 3001 フレーム複号化手段 3002 データ伸縮手段 3003 伸縮頻度制御手段 3004 エネルギー演算手段 3005 フレーム選択手段 3006 データ伸縮制御手段 4004 音声らしさ演算手段 4005 フレーム選択手段 5004 定常性演算手段 5005 フレーム選択手段 6004 エネルギー変化度合演算手段 6005 フレーム選択手段 7005 フレーム選択手段
───────────────────────────────────────────────────── フロントページの続き (72)発明者 松本 美治男 大阪府門真市大字門真1006番地 松下電 器産業株式会社内 (56)参考文献 特開 平6−86164(JP,A) 特開 平9−198088(JP,A) 特開 平8−54895(JP,A) 特開 平6−202692(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 21/04 G10L 19/02 G11B 20/02

Claims (13)

    (57)【特許請求の範囲】
  1. 【請求項1】 音声復号化手段、選択手段、フレームシ
    ーケンステーブル、フレームカウント手段、データ伸縮
    制御手段、データ伸縮手段を備音声再生装置であっ
    て、 音声復号化手段は、入力される音声信号をフレーム単位
    で復号し、 選択手段は、与えられる速度比に対応したフレームシー
    ケンスをフレームシーケンステーブルへ出力すると共
    に、該フレームシーケンスのフレームサイクルをフ
    ームカウント手段出力し、 フレームシーケンステーブルは、選択手段からフレー
    ムシーケンスを記憶し、 フレームカウント手段は、フレームサイクル数に基づい
    音声復号化手段で処理する符号化音声信号のフレーム
    数をカウントし、 データ伸縮制御手段は、フレームカウント手段のカウン
    ト値に対応したフレームシーケンステーブルのフレーム
    シーケンスを参照して、音声復号化手段から出力される
    フレームを時間軸圧縮もしくは時間軸伸長、または時間
    軸変換なしのどちらで処理するかをデータ伸縮手段に
    し、 データ伸縮手段は、データ伸縮制御手段の定に基づい
    て音声復号化手段から出力されるフレームに対して時間
    軸変換処理を行音声再生装置。
  2. 【請求項2】 音声復号化手段は、MPEG1オーディ
    オレイヤ2符号化方式にて符号化された音声信号を復号
    する請求項1記載の音声再生装置。
  3. 【請求項3】 フレームシーケンスは、連続する時間軸
    圧縮フレームのフレーム数と、連続する時間軸処理無し
    フレームのフレーム数いずれも最小となるよう配置
    れた請求項1記載の音声再生装置。
  4. 【請求項4】 フレームシーケンスは、連続する時間軸
    伸長フレームのフレーム数と、連続する時間軸処理無し
    フレームのフレーム数いずれも最小となるよう配置
    れた請求項1記載の音声再生装置。
  5. 【請求項5】 音声復号化手段、伸縮頻度制御手段、フ
    レームカウント手段、エネルギー演算手段、フレーム選
    択手段、データ伸縮制御手段、データ伸縮手段を備え
    声再生装置であって、 音声復号化手段は、MPEG1オーディオレイヤ2符号
    化方式にて符号化された符号化音声信号を復号し、 伸縮頻度制御手段は、与えられる速度比に応じた、フ
    ームサイクルNf、時間軸圧縮または時間軸伸長する
    フレーム数Nsを設定し、フレームカウント手段は、フレームサイクル数Nfに基
    づいて音声復号化手段で処理する符号化音声信号のフレ
    ーム数をカウントし、 エネルギー演算手段は、符号化音声信号のスケールファ
    クタインデックスをもとにフレームサイクル数f分の
    符号化音声信号のエネルギーを推定し、 フレーム選択手段は、フレームサイクル数Nfのフレー
    ム内でエネルギーの小さいフレームからNs個のフレー
    ムを時間軸圧縮または時間軸伸長するフレームとして
    定し、 データ伸縮制御手段は、フレームカウント手段のカウン
    ト値とフレーム選択手段の決定に基づき、音声復号化手
    段から出力されるフレームを時間軸圧縮もしくは時間軸
    伸長、または時間軸変換なしのどちらで処理するかをデ
    ータ伸縮手段にし、 データ伸縮手段は、データ伸縮制御手段のに基づい
    て音声復号化手段から出力されるフレームに対して時間
    軸変換処理を行音声再生装置。
  6. 【請求項6】 音声復号化手段伸縮頻度制御手段、フ
    レームカウント手段、定常性演算手段、フレーム選択手
    段、データ伸縮制御手段、データ伸縮手段をえる音声
    再生装置であって、 音声復号化手段は、MPEG1オーディオレイヤ2符号
    化方式にて符号化された音声信号を復号し、 伸縮頻度制御手段は、与えられる速度比に応じた、フレ
    ームサイクルf、時間軸圧縮または時間軸伸長する
    フレーム数Nsを設定し、フレームカウント手段は、フレームサイクル数Nfに基
    づいて音声復号化手段で処理する符号化音声信号のフレ
    ーム数をカウントし、 定常性 演算手段は、符号化音声信号のスケールファクタ
    選択情報をもとにフレームサイクル数f分符号化
    声信号の定常性を推定し、 フレーム選択手段は、フレームサイクル数fのフレー
    内での定常性の高いフレームからNs個のフレームを
    時間軸圧縮または時間軸伸長するフレームとして決定
    し、 データ伸縮制御手段は、フレームカウント手段のカウン
    ト値とフレーム選択手段の決定に基づき、音声復号化手
    段から出力されるフレームを時間軸圧縮もしくは時間軸
    長、または時間軸変換なしのどちらで処理するかをデ
    ータ伸縮手段にし、 データ伸縮手段は、データ伸縮制御手段のに基づい
    て音声復号化手段から出力されるフレームに対して時間
    軸変換処理を行音声再生装置。
  7. 【請求項7】 音声復号化手段、伸縮頻度制御手段、フ
    レームカウント手段、エネルギー変化度合演算手段、
    レーム選択手段、データ伸縮制御手段、データ伸縮手段
    を備える音声再生装置であって、 音声復号化手段は、MPEG1オーディオレイヤ2符号
    化方式にて符号化された音声信号を復号し、 伸縮頻度制御手段は、与えられる速度比に応じた、フレ
    ームサイクルf、時間軸圧縮または時間軸伸長する
    フレーム数Nsを設定し、フレームカウント手段は、フレームサイクル数Nfに基
    づいて音声復号化手段で処理する符号化音声信号のフレ
    ーム数をカウントし、 エネルギー変化度合 演算手段は、符号化音声信号のスケ
    ールファクタインデックスをもとにフレームサイクル数
    f分符号化音声信号のエネルギー変化度合を推定
    し、 フレーム選択手段は、フレームサイクル数Nfのフレー
    ム内でエネルギー変化度合に基づき継時マスキング効果
    による処理劣化が少ないフレームからNs個のフレーム
    を時間軸圧縮または時間軸伸長するフレームとして決定
    し、 データ伸縮制御手段は、フレームカウント手段のカウン
    ト値とフレーム選択手段の決定に基づき、音声復号化手
    段から出力されるフレームを時間軸圧縮もしくは時間軸
    伸長、または時間軸変換なしのどちらで処理するかをデ
    ータ伸縮手段にし、 データ伸縮手段は、データ伸縮制御手段の定に基づい
    て音声復号化手段から出力されるフレームに対して時間
    軸変換処理を行音声再生装置。
  8. 【請求項8】 音声復号化手段、伸縮頻度制御手段、フ
    レームカウント手段、演算手段、フレーム選択手段、
    ータ伸縮制御手段、データ伸縮手段をえる音声再生装
    置であって、 音声復号化手段は、MPEG1オーディオレイヤ2符号
    化方式にて符号化された音声信号を復号し、 伸縮頻度制御手段は、与えられる速度比に応じた、フ
    ームサイクルf、時間軸圧縮または時間軸伸長する
    フレーム数Nsを設定し、フレームカウント手段は、フレームサイクル数Nfに基
    づいて音声復号化手段で処理する符号化音声信号のフレ
    ーム数をカウントし、 演算手段は、エネルギー演算手段、定常性演算手段、エ
    ネルギー変化度合演算手段のいずれか2つ以上を備え、 エネルギー演算手段は、符号化音声信号のスケールファ
    クタインデックスをもとにフレームサイクル数Nf分の
    符号化音声信号のエネルギーを推定し、 定常性演算手段は、符号化音声信号のスケールファクタ
    選択情報をもとにフレームサイクル数Nf分の符号化音
    声信号の定常性を推定し、 エネルギー変化度合演算手段は、符号化音声信号のスケ
    ールファクタインデックスをもとにフレームサイクル数
    Nf分の符号化音声信号のエネルギー変化度合を推定
    し、 フレーム選択手段は、演算手段の出力をもとにN個の
    フレームを時間軸圧縮または時間軸伸長するフレーム
    して決定し、 データ伸縮制御手段は、フレームカウント手段のカウン
    ト値とフレーム選択手段の決定に基づき、音声復号化手
    段から出力されるフレームを時間軸圧縮もしく 時間軸
    伸長、または時間軸変換なしのどちらで処理するかをデ
    ータ伸縮手段にし、 データ伸縮手段は、データ伸縮制御手段のに基づい
    て音声復号化手段から出力されるフレームに対して時間
    軸変換処理を行音声再生装置。
  9. 【請求項9】 ータ伸縮手段は、クロスフェード手段
    を備え、 クロスフェード手段は、時間軸圧縮または時間軸伸長の
    際、 音声復号化手段から出力されるフレームを構成する
    セグメントを重み付け加算する請求項1〜8のいずれか
    に記載の音声再生装置。
  10. 【請求項10】 ータ伸縮手段は、相関演算手段、ク
    ロスフェード手段を備え、 相関演算手段は、音声復号化手段から出力されるフレー
    ムを構成するセグメントの先頭位置を前回決定したシフ
    ト量に基づき補正し、セグメント間の相関値を演算し、
    相関値が高くなる位置で重み付け加算するためのシフト
    量を決定し、クロスフェード手段は、時間軸圧縮または
    時間軸伸長の際、 音声復号化手段から出力されるフレー
    を構成するセグメントを、相関演算手段で決定した位
    置で重み付け加算する 請求項1〜8のいずれかに記載の
    音声再生装置。
  11. 【請求項11】 声復号化手段は、符号化音声信号を
    帯域毎に復号し、 ータ伸縮手段は、相関演算手段、帯域毎のクロスフェ
    ード手段を備え、 相関演算手段は、音声復号化手段から出力されるフレー
    ムを構成するセグメントの先頭位置を前回決定したシフ
    ト量に基づき補正し、ピッチ周波数を包含する帯域にお
    いてセグメント間の相関値を演算し、相関値が高くなる
    位置で重み付け加算するためのシフト量を決定し、 各クロスフェード手段は、時間軸圧縮または時間軸伸長
    の際、音声復号化手段から出力されるフレームを構成す
    るセグメントを、相関演算手段で決定した位置で重み付
    け加算する請求項1〜8のいずれかに記載の 音声再生装
    置。
  12. 【請求項12】 声復号化手段は、符化音声信号を
    帯域毎に復号し、 ータ伸縮手段は、相関演算手段、帯域毎のクロスフェ
    ード手段を備え、 相関演算手段は、 音声復号化手段から出力されるフレー
    を構成するセグメントの先頭位置を前回決定したシフ
    ト量に基づき補正し、平均エネルギーが最大となる帯域
    においてセグメント間の相関値を演算し、相関値が高く
    なる位置で重み付け加算するためのシフト量を決定し、 各クロスフェード手段は、時間軸圧縮または時間軸伸長
    の際、音声復号化手段から出力されるフレームを構成す
    るセグメントを、相関演算手段で決定した位置で重み付
    け加算する請求項1〜8のいずれかに記載の 音声再生装
    置。
  13. 【請求項13】 声復号化手段は、符化音声信号
    帯域毎に復号し、 ータ伸縮手段は、相関演算手段、帯域毎のクロスフェ
    ード手段を備え、 相関演算手段は、音声復号化手段から出力されるフレー
    ムを構成するセグメントの先頭位置を前回決定したシフ
    ト量に基づき補正し、各帯域においてセグメント間の相
    関値を演算し、相関値が最大の帯域において相関値が高
    くなる位置で重み付け加算するためのシフト量を決定
    し、 各クロスフェード手段は、時間軸圧縮または時間軸伸長
    の際、 音声復号化手段から出力されるフレームを構成す
    るセグメントを、相関演算手段で決定した位置で重み付
    け加算する請求項1〜8のいずれかに記載の音声再生装
    置。
JP10218925A 1997-10-31 1998-08-03 音声再生装置 Expired - Fee Related JP3017715B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP10218925A JP3017715B2 (ja) 1997-10-31 1998-08-03 音声再生装置
US09/181,992 US6484137B1 (en) 1997-10-31 1998-10-29 Audio reproducing apparatus

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP9-300121 1997-10-31
JP30012197 1997-10-31
JP10218925A JP3017715B2 (ja) 1997-10-31 1998-08-03 音声再生装置

Publications (2)

Publication Number Publication Date
JPH11194796A JPH11194796A (ja) 1999-07-21
JP3017715B2 true JP3017715B2 (ja) 2000-03-13

Family

ID=26522830

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10218925A Expired - Fee Related JP3017715B2 (ja) 1997-10-31 1998-08-03 音声再生装置

Country Status (2)

Country Link
US (1) US6484137B1 (ja)
JP (1) JP3017715B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7418393B2 (en) 2000-05-26 2008-08-26 Fujitsu Limited Data reproduction device, method thereof and storage medium

Families Citing this family (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
JP3430968B2 (ja) * 1999-05-06 2003-07-28 ヤマハ株式会社 ディジタル信号の時間軸圧伸方法及び装置
JP4300641B2 (ja) 1999-08-10 2009-07-22 ヤマハ株式会社 マルチトラック音源信号の時間軸圧伸方法及び装置
US7792681B2 (en) * 1999-12-17 2010-09-07 Interval Licensing Llc Time-scale modification of data-compressed audio information
US6842735B1 (en) * 1999-12-17 2005-01-11 Interval Research Corporation Time-scale modification of data-compressed audio information
US7016850B1 (en) * 2000-01-26 2006-03-21 At&T Corp. Method and apparatus for reducing access delay in discontinuous transmission packet telephony systems
JP2001222300A (ja) * 2000-02-08 2001-08-17 Nippon Hoso Kyokai <Nhk> 音声再生装置および記録媒体
JP2001282298A (ja) * 2000-04-03 2001-10-12 Global Success Kk 音声データ生成方法、音声データ再生方法、記録媒体
DE10026904A1 (de) * 2000-04-28 2002-01-03 Deutsche Telekom Ag Verfahren zur Berechnung des die Lautstärke mitbestimmenden Verstärkungsfaktors für ein codiert übertragenes Sprachsignal
JP2002108397A (ja) * 2000-09-29 2002-04-10 Matsushita Electric Ind Co Ltd オーディオ圧縮データ再生方法
ATE330309T1 (de) * 2001-01-16 2006-07-15 Koninkl Philips Electronics Nv Verknüpfen von signalkomponenten bei der parametrischen codierung
US20040204935A1 (en) * 2001-02-21 2004-10-14 Krishnasamy Anandakumar Adaptive voice playout in VOP
KR20030009515A (ko) * 2001-04-05 2003-01-29 코닌클리케 필립스 일렉트로닉스 엔.브이. 결정된 신호 타입들로 한정된 기술들을 사용하는 신호들의시간 스케일 변경
AU2002248431B2 (en) * 2001-04-13 2008-11-13 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
JP4152192B2 (ja) * 2001-04-13 2008-09-17 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション オーディオ信号の高品質タイムスケーリング及びピッチスケーリング
US7047201B2 (en) * 2001-05-04 2006-05-16 Ssi Corporation Real-time control of playback rates in presentations
US8438004B2 (en) * 2001-10-03 2013-05-07 Hewlett-Packard Development Company L.P. System and methods for language translation printing
JP3939136B2 (ja) * 2001-11-28 2007-07-04 富士通株式会社 音声再生回路、デコード回路、音声再生装置及び音声再生方法
US7171367B2 (en) * 2001-12-05 2007-01-30 Ssi Corporation Digital audio with parameters for real-time time scaling
JP3886372B2 (ja) * 2001-12-13 2007-02-28 松下電器産業株式会社 音響変節点抽出装置及びその方法、音響再生装置及びその方法、音響信号編集装置、音響変節点抽出方法プログラム記録媒体、音響再生方法プログラム記録媒体、音響信号編集方法プログラム記録媒体、音響変節点抽出方法プログラム、音響再生方法プログラム、音響信号編集方法プログラム
US7809241B2 (en) * 2002-03-01 2010-10-05 Thomson Licensing Audio frequency scaling during video trick modes utilizing digital signal processing
US7149412B2 (en) * 2002-03-01 2006-12-12 Thomson Licensing Trick mode audio playback
JP3963141B2 (ja) * 2002-03-22 2007-08-22 ヤマハ株式会社 歌唱合成装置、歌唱合成用プログラム及び歌唱合成用プログラムを記録したコンピュータで読み取り可能な記録媒体
US7426470B2 (en) * 2002-10-03 2008-09-16 Ntt Docomo, Inc. Energy-based nonuniform time-scale modification of audio signals
TWI259994B (en) * 2003-07-21 2006-08-11 Ali Corp Adaptive multiple levels step-sized method for time scaling
TWI221561B (en) * 2003-07-23 2004-10-01 Ali Corp Nonlinear overlap method for time scaling
KR100547445B1 (ko) * 2003-11-11 2006-01-31 주식회사 코스모탄 디지털 오디오신호 및 오디오/비디오신호의 변속처리방법및 이를 이용한 디지털 방송신호의 변속재생방법
US20050137730A1 (en) * 2003-12-18 2005-06-23 Steven Trautmann Time-scale modification of audio using separated frequency bands
US20050209847A1 (en) * 2004-03-18 2005-09-22 Singhal Manoj K System and method for time domain audio speed up, while maintaining pitch
JP4313724B2 (ja) * 2004-05-18 2009-08-12 日本電信電話株式会社 音声再生速度調節方法、音声再生速度調節プログラム、およびこれを格納した記録媒体
JP4963345B2 (ja) * 2004-09-16 2012-06-27 株式会社国際電気通信基礎技術研究所 音声合成方法及び音声合成プログラム
JP4229041B2 (ja) * 2004-10-08 2009-02-25 ソニー株式会社 信号再生装置及び方法
KR100750115B1 (ko) * 2004-10-26 2007-08-21 삼성전자주식회사 오디오 신호 부호화 및 복호화 방법 및 그 장치
JP4031813B2 (ja) * 2004-12-27 2008-01-09 株式会社ピー・ソフトハウス オーディオ信号処理装置、オーディオ信号処理方法およびその方法をコンピュータに実行させるプログラム
US7664558B2 (en) * 2005-04-01 2010-02-16 Apple Inc. Efficient techniques for modifying audio playback rates
JP2007094004A (ja) * 2005-09-29 2007-04-12 Kowa Co 音声信号の時間軸圧伸方法および音声信号の時間軸圧伸装置
US8155972B2 (en) * 2005-10-05 2012-04-10 Texas Instruments Incorporated Seamless audio speed change based on time scale modification
JP2007183410A (ja) * 2006-01-06 2007-07-19 Nec Electronics Corp 情報再生装置および方法
US20070186146A1 (en) * 2006-02-07 2007-08-09 Nokia Corporation Time-scaling an audio signal
FI20065474L (fi) * 2006-07-04 2008-01-05 Head Inhimillinen Tekijae Oy Menetelmä ääni-informaation käsittelemiseksi
KR20120008088A (ko) * 2006-12-27 2012-01-25 인텔 코오퍼레이션 음성 세그먼트화를 위한 방법 및 장치
KR101334366B1 (ko) * 2006-12-28 2013-11-29 삼성전자주식회사 오디오 배속 재생 방법 및 장치
JP5618826B2 (ja) * 2007-06-14 2014-11-05 ヴォイスエイジ・コーポレーション Itu.t勧告g.711と相互運用可能なpcmコーデックにおいてフレーム消失を補償する装置および方法
KR101418354B1 (ko) * 2007-10-23 2014-07-10 삼성전자주식회사 음성 통신 시스템에서 플레이아웃 스케줄링 방법 및 장치
EP2296145B1 (en) 2008-03-10 2019-05-22 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Device and method for manipulating an audio signal having a transient event
KR101381513B1 (ko) * 2008-07-14 2014-04-07 광운대학교 산학협력단 음성/음악 통합 신호의 부호화/복호화 장치
US8548816B1 (en) * 2008-12-01 2013-10-01 Marvell International Ltd. Efficient scalefactor estimation in advanced audio coding and MP3 encoder
US8670990B2 (en) * 2009-08-03 2014-03-11 Broadcom Corporation Dynamic time scale modification for reduced bit rate audio coding
US8484018B2 (en) * 2009-08-21 2013-07-09 Casio Computer Co., Ltd Data converting apparatus and method that divides input data into plural frames and partially overlaps the divided frames to produce output data
DE102010001147B4 (de) 2010-01-22 2016-11-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Mehrfrequenzbandempfänger auf Basis von Pfadüberlagerung mit Regelungsmöglichkeiten
US9177570B2 (en) * 2011-04-15 2015-11-03 St-Ericsson Sa Time scaling of audio frames to adapt audio processing to communications network timing
JP6385153B2 (ja) * 2014-06-19 2018-09-05 三菱電機株式会社 音声再生装置および音声再生方法
US9990917B2 (en) * 2015-04-13 2018-06-05 Intel Corporation Method and system of random access compression of transducer data for automatic speech recognition decoding
KR102422794B1 (ko) * 2015-09-04 2022-07-20 삼성전자주식회사 재생지연 조절 방법 및 장치와 시간축 변형방법 및 장치
CN106970771B (zh) * 2016-01-14 2020-01-14 腾讯科技(深圳)有限公司 音频数据处理方法和装置
EP3327723A1 (en) 2016-11-24 2018-05-30 Listen Up Technologies Ltd Method for slowing down a speech in an input media content
US10708633B1 (en) 2019-03-19 2020-07-07 Rovi Guides, Inc. Systems and methods for selective audio segment compression for accelerated playback of media assets
US11039177B2 (en) * 2019-03-19 2021-06-15 Rovi Guides, Inc. Systems and methods for varied audio segment compression for accelerated playback of media assets
US11102523B2 (en) 2019-03-19 2021-08-24 Rovi Guides, Inc. Systems and methods for selective audio segment compression for accelerated playback of media assets by service providers

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2532731B2 (ja) 1990-08-23 1996-09-11 松下電器産業株式会社 音声速度変換装置と音声速度変換方法
DE69231266T2 (de) * 1991-08-09 2001-03-15 Koninkl Philips Electronics Nv Verfahren und Gerät zur Manipulation der Dauer eines physikalischen Audiosignals und eine Darstellung eines solchen physikalischen Audiosignals enthaltendes Speichermedium
EP0527527B1 (en) * 1991-08-09 1999-01-20 Koninklijke Philips Electronics N.V. Method and apparatus for manipulating pitch and duration of a physical audio signal
EP0608833B1 (en) * 1993-01-25 2001-10-17 Matsushita Electric Industrial Co., Ltd. Method of and apparatus for performing time-scale modification of speech signals
US5583652A (en) * 1994-04-28 1996-12-10 International Business Machines Corporation Synchronized, variable-speed playback of digitally recorded audio and video
JP3594409B2 (ja) 1995-06-30 2004-12-02 三洋電機株式会社 Mpegオーディオ再生装置およびmpeg再生装置
US5809454A (en) * 1995-06-30 1998-09-15 Sanyo Electric Co., Ltd. Audio reproducing apparatus having voice speed converting function
JP2976860B2 (ja) 1995-09-13 1999-11-10 松下電器産業株式会社 再生装置
US5828994A (en) * 1996-06-05 1998-10-27 Interval Research Corporation Non-uniform time scale modification of recorded audio
US6009386A (en) * 1997-11-28 1999-12-28 Nortel Networks Corporation Speech playback speed change using wavelet coding, preferably sub-band coding
US6370315B1 (en) * 1998-04-30 2002-04-09 Matsushita Electric Industrial Co., Ltd. Playback time compression and expansion method and apparatus

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7418393B2 (en) 2000-05-26 2008-08-26 Fujitsu Limited Data reproduction device, method thereof and storage medium

Also Published As

Publication number Publication date
JPH11194796A (ja) 1999-07-21
US6484137B1 (en) 2002-11-19

Similar Documents

Publication Publication Date Title
JP3017715B2 (ja) 音声再生装置
JP5289320B2 (ja) ピッチ周期訂正を用いたデジタルオーディオ信号の損失ブロックの合成
JP4132109B2 (ja) 音声信号の再生方法及び装置、並びに音声復号化方法及び装置、並びに音声合成方法及び装置
JP6259024B2 (ja) フレームエラー隠匿方法及びその装置、並びにオーディオ復号化方法及びその装置
TWI389099B (zh) 用於在語音合成儀中藉由修改剩餘量之時間規整訊框之方法及處理器可讀媒體
US5953696A (en) Detecting transients to emphasize formant peaks
JP2955247B2 (ja) 話速変換方法およびその装置
JP4675692B2 (ja) 話速変換装置
CA2335006C (en) Method and apparatus for performing packet loss or frame erasure concealment
JP3653826B2 (ja) 音声復号化方法及び装置
US20060167693A1 (en) Method and apparatus for performing packet loss or frame erasure concealment
US20050055204A1 (en) System and method for providing high-quality stretching and compression of a digital audio signal
JP4390208B2 (ja) 音声を可変レートで符号化および復号する方法
JP2011507050A (ja) オーディオ信号処理方法及び装置
EP1380029A1 (en) Time-scale modification of signals applying techniques specific to determined signal types
JP2012514224A (ja) ピーク検出に基づく選択的スケーリングマスク計算
JP2006126826A (ja) オーディオ信号符号化/復号化方法及びその装置
JPS63142399A (ja) 音声分析合成方法及び装置
JP3344944B2 (ja) オーディオ信号符号化装置,オーディオ信号復号化装置,オーディオ信号符号化方法,及びオーディオ信号復号化方法
JP3092652B2 (ja) 音声再生装置
KR100792209B1 (ko) 디지털 오디오 패킷 손실을 복구하기 위한 방법 및 장치
JPH0193795A (ja) 音声の発声速度変換方法
JP4281131B2 (ja) 信号符号化装置及び方法、並びに信号復号装置及び方法
JP2005114813A (ja) オーディオ信号再生装置及び再生方法
JP2003259311A (ja) 映像再生方法、映像再生装置、映像再生プログラム

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees