JP4523257B2 - 音声データ処理方法、プログラム及び音声信号処理システム - Google Patents

音声データ処理方法、プログラム及び音声信号処理システム Download PDF

Info

Publication number
JP4523257B2
JP4523257B2 JP2003345865A JP2003345865A JP4523257B2 JP 4523257 B2 JP4523257 B2 JP 4523257B2 JP 2003345865 A JP2003345865 A JP 2003345865A JP 2003345865 A JP2003345865 A JP 2003345865A JP 4523257 B2 JP4523257 B2 JP 4523257B2
Authority
JP
Japan
Prior art keywords
segment length
energy
input segment
data
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003345865A
Other languages
English (en)
Other versions
JP2004126595A5 (ja
JP2004126595A (ja
Inventor
ワイ・シー・チュー
ラシュカリ コスロウ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Publication of JP2004126595A publication Critical patent/JP2004126595A/ja
Publication of JP2004126595A5 publication Critical patent/JP2004126595A5/ja
Application granted granted Critical
Publication of JP4523257B2 publication Critical patent/JP4523257B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は音声信号の加工方法に関するものであって、特に、信号エネルギーに基づいた、音声信号の非一様時間領域での圧縮処理に関する。
元の音声特性を保ちつつ音声信号の再生速度を変化させるように、音声信号を加工する技術がある。具体的には、時間領域での圧縮(以下、単に「時間圧縮」という場合がある)を行った場合、圧縮処理後の音声信号が再生されると、聴覚者にとっては元の速度よりも音声の再生速度が速く知覚される。反対に、時間領域での伸張を行った場合は、元の速度よりも遅く知覚されることになる。
この時間領域信号処理の応用例としては、ユーザの好みに応じてメッセージの再生速度を上げる(または下げる)ことのできる電話ボイスメールシステムや留守番電話装置等がある。最近では、ローカルリソースあるいはインターネット等のネットワーク上のリソース内でのマルチメディアデータの検索において、このような音声信号や映像信号の時間領域での信号処理技術が用いられている。この技術は、また、マルチメディア素材のストリーミング配信においても有用である。時間領域での信号処理に基づいたシステムおよび方法を用いることにより、大規模データベースから音声素材を非常に効率的に抽出することが可能となる。
このような時間領域での信号処理を行うための技術には、様々なものが存在する。一般に、時間領域信号処理は、線形(リニア)アルゴリズムを用いたものと非線形(ノンリニア)アルゴリズムを用いたものとに大別される。リニアアルゴルリズムにおいては、所定の再生速度倍率の下、全ての音声信号列に対し一様に時間圧縮・時間伸張処理が施される。
最も基本的な圧縮方法としては、音声サンプルを例えば一つおきに削除することにより、録音された際のサンプリングレートよりも低いサンプリングレートで音声を再生する場合がある。しかしながら、この場合は、再生される音声はその音高が上昇するため、不明瞭となり娯楽性に欠けるものとなってしまう。
その他の圧縮方法としては、短い固定長の音声信号セグメントの一部を廃棄し、残ったセグメントを接合する信号処理技術がある。しかしながら、このようなセグメントの廃棄および接合を行うと、接合箇所において音声信号が不連続となり、聴感できるクリック音等のノイズが発生してしまう。そこで、信号処理後の音声信号の質を改善するため、窓関数や平滑化フィルタを接合箇所に適用する技術がある。その中でも、OLA (overlap and add)、SOLA(synchronized overlap and add)、WSOLA(waveform-similarity overlap and add)と呼ばれる信号処理技術がある(例えば非特許文献1参照)。これらのOLA型のアルゴリズムは、シンプルでかつ高効率という特徴がある。このようなアルゴリズムの設計および実装にあたっては、音声信号の信号処理に必要なプロセッサのリソースおよびデータを記憶するための記憶装置の容量が、重要な要素として考慮される。
W. Verhelst, M Roelands著, 「An Overlap-Add Technique Based on Waveform Similarity (WSOLA) for high Time-Scale Modification of Speech」, IEEE Proceedings of ICASSP-93, vol. II, pp. 554-557, 1993
一方、ノンリニア時間領域圧縮においては、音声信号列の解析が行われるため、ある時点の圧縮率と他の時点の圧縮率とは一般に異なる。例えば、音声の空白部分や長母音等の冗長部分は相対的に圧縮率が高くなる。
典型的なWSOLAアルゴリズムにおいては、入力信号のうち、n =0, Tx, 2Tx, …,(Tx>0)のぞれぞれの近傍の信号から固定長セグメントを抽出する。ここで、Txはこのアルゴリズムで用いられるパラメータである。上記各時点の最も近傍におけるセグメント同士を一部重ね合わせることによって出力信号が形成される。この処理を図2に示す。同図に示すように、一様に分割されたセグメントの各々において、入力信号に対し信号処理を施すのである。この信号処理に係る時間スケール比ρは以下の式で定義される。
ここで、ρは時間圧縮では1以下であり、時間伸張では1以上となる。
従来の時間領域信号処理に用いられるアルゴリズムでは、低いビットレート(すなわち高い圧縮率、例えばρ<0.5)を設定した場合、出力音声の品質を維持することは困難である。出力される音声は、商業的利用に耐えられないほど不明瞭なものとなってしまうのである。従って、従来の、音声信号を時間圧縮する方法および装置を改良することが求められている。
本発明は上述した現状に鑑み、圧縮率が高い場合であっても、良好な再生音声品質が得られるように音声信号を処理する方法および装置を提供することを目的とする。
発明に係る音声データ処理方法は、入力音声信号に対応するデータを受信するステップと、該データを複数のセグメントに分割するステップと、前記セグメントのエネルギーが閾値よりも大きい場合には、予め与えられた時間スケール比と出力セグメント長から計算される参照入力セグメント長よりも小さい入力セグメント長を設定し、当該エネルギーが当該閾値よりも小さい場合には、当該参照入力セグメント長よりも大きい入力セグメント長を設定するステップと、前記設定された入力セグメント長を用いて前記データを圧縮し、圧縮済みのデータを生成するステップとを有する。
発明に係る音声データ処理方法は、入力音声信号に対応する音声データのフレームを受信するステップと、前記音声データを複数のセグメントに分割するステップと、前記フレームのエネルギーに関連する値であるエネルギー関連値を算出するステップと、前記フレームの予測ピークエネルギーを決定するステップと、該予測ピークエネルギーに基づいて、前記フレームのエネルギー閾値を決定するステップと、該エネルギー関連値該エネルギー閾値よりも大きい場合には、予め与えられた時間スケール比と出力セグメント長から計算される参照入力セグメント長よりも小さい入力セグメント長を設定し、該エネルギー関連値が該エネルギー閾値よりも小さい場合には、当該参照入力セグメント長よりも大きい入力セグメント長を設定する設定ステップと、前記設定された入力セグメント長を用いて前記音声データを圧縮し、圧縮済みの音声データを生成するステップとを有する。
本発明に係る音声データ処理方法において、前記設定ステップでは、前記フレームのエネルギー関連値が前記エネルギー閾値よりも大きい場合であって、1つ前までのフレームにおける前記参照入力セグメント長に対する前記入力セグメント長の剰余分又は不足分の累積値を含む変数が上限値よりも小さい場合には、前記参照入力セグメント長よりも小さい入力セグメント長を設定し、当該エネルギー関連値が当該エネルギー閾値よりも小さい場合であって、当該変数が下限値よりも大きい場合には、当該参照入力セグメント長よりも大きい入力セグメント長を設定してもよい。
本発明は、また、コンピュータ装置を、入力音声信号に対応するデータを受信する手段と、該データを複数のセグメントに分割する手段と、前記セグメントのエネルギーが閾値よりも大きい場合には、予め与えられた時間スケール比と出力セグメント長から計算される参照入力セグメント長よりも小さい入力セグメント長を設定し、当該エネルギーが当該閾値よりも小さい場合には、当該参照入力セグメント長よりも大きい入力セグメント長を設定する手段と、前記設定された入力セグメント長を用いて前記データを圧縮し、圧縮済みのデータを生成する手段として機能させるためのプログラムおよび当該プログラムをコンピュータ読み取可能に格納した記憶媒体を提供する。
本発明は、また、受信した入力音声信号に対応するデータを複数のセグメントに分割し、前記セグメントのエネルギーが閾値よりも大きい場合には、予め与えられた時間スケール比と出力セグメント長から計算される参照入力セグメント長よりも小さい入力セグメント長を設定し、当該エネルギーが当該閾値よりも小さい場合には、当該参照入力セグメント長よりも大きい入力セグメント長を設定し、前記設定された入力セグメント長を用いて前記データを圧縮し、圧縮済みのデータを生成するようにプログラムされたプロセッサと、プログラムおよびデータのいずれか一が記憶された、前記プロセッサがアクセス可能な記憶部とを有する音声信号処理システムを提供する。
本発明によれば、圧縮率を高く設定した場合であっても、良好な音質の再生音声を得ることができる。
以下、図面を参照しつつ本発明の実施形態について説明する。図1は、音声信号処理システム100のブロック図である。音声信号処理システム100は、プロセッサ102、メモリ104、および記憶装置106から構成される。音声信号処理システム100は、以下に述べる時間加工方法および装置を用いたシステムの一例にすぎず、他の装置に接続されて、高機能な複合システムを形成する構成であってもよい。例えば、音声信号処理システム100は、ネットワークを介したデータ通信を行う装置、マイクロフォンおよびスピーカ等の再生機器を含む録音装置、およびユーザインタフェースを有するデジタルボイスメールシステムに組み込まれていてもよい。
プロセッサ102は、音声データ処理を行うプロセッサであって、種々の好適なものを用いることができる。本実施形態においては、プロセッサ102はデジタル信号処理を行う。プロセッサ102は、格納されたデータと、入力部108から受信した、音声データに対し音声処理を行う旨の指示とに応じて動作する。メモリ104は、データおよびプロセッサを制御するための指示を格納する。プロセッサ102は、メモリ104に格納されている指示の下、受信したデータに対して後述する音声圧縮アルゴリズム等の演算アルゴリズムを実行し、加工処理を行った圧縮済み音声データを記憶装置106に格納する。この後、プロセッサ102は、加工処理を行った音声データを記憶装置106から抽出し、再生用音声データを出力部110へ供給する。例えば、プロセッサ102は、この音声データに対し復元処理または伸張処理を行い、可聴信号に対応するデータを生成する。
ある態様においては、プロセッサ102はデジタル信号処理を行う集積回路であり、メモリ104および記憶装置106は半導体メモリから構成される。他の態様においては、プロセッサ102は好適にプログラムされた汎用プロセッサにより構成される。あるいは、プロセッサ102は、モノリシック集積回路上に形成された他の回路と組み合わされ、種々の追加機能を有していてもよい。メモリ104および記憶装置106は、プロセッサ102に組み込まれ、一つの装置を構成していてもよい。また、メモリ104および記憶装置106は、好適なリード・ライト装置から構成される。また、圧縮された音声データを記憶装置106へ格納するのではなく、他の演算処理ユニットや圧縮音声信号への変換等を行う装置等へ引き渡す構成であってもよい。
図2は、WSOLA(waveform-similarity overlap-and-add)アルゴリズムを用いた時間領域圧縮処理を示す。図2の上段の図は、圧縮されていない音声を含む入力信号x(n)を表す。この未圧縮音声は、いくつかの一様な時間セグメントTxに跨っている。図2の下段図に示すように、WSOLAアルゴリズムを用いて圧縮処理を行って得られた出力信号y(n)は、時間軸上で圧縮された元のセグメントを含んでいる。
上述したように、各時刻Tx付近に存在する「最良セグメント」を重ね合わせることにより、出力信号y(n)が形成される。この最良セグメントとは、波形が最も類似する箇所に対応するセグメントのことを指す。オーバーラップ長Mは、隣り合うセグメントと重なっている部分の時間の長さ、または重なっている間の信号サンプル数、と定義される。出力信号y(n)は、複数のセグメントTyに分割される。時間スケール比ρは、ρ=Ty/Txと定義される。セグメントの重なり部分の処理は、単純な足し算であってもよいし、あるいは隣接セグメント間に対し各種スケーリング処理を適用してもよい。図2に示すアルゴリズムは、一様な時間セグメント長を用いて、図1に示す音声信号処理システム100によって実行されてもよい。
ρが1に近い場合は、図2に示す一様な時間セグメント長を用いて得られる再生音声の品質は良好である。ところが、ρが0.5程度よりも小さくなると、有音間の信号がかなり省かれていく。すなわち、廃棄される信号サンプルの数が増加する。結果として、再生音声の明瞭さは急激に失われる。さらに、信号中の歪み(アーティファクト)として知られている、ギクシャク感が再生音声に表れる。
そこで、セグメント長音声信号の特性を利用して、非一様補正方法を導入することにより、従来の一様補正方法を改善することが行われている。具体的には、聴覚上あまり重要でないセグメントにおいては圧縮率を上げ、聴覚上重要なセグメントに対しては圧縮率を下げる。このような考えを利用した技術に、過渡検出や音素認識がある。このようなアプローチにおいては、ある時刻における信号の特性に基づいて時間スケール比が補正される。
しかしながら、従来の非一様時間圧縮アルゴリズムにおいては、低いビットレートでの聴覚上の音声品質が向上するという利点があるものの、多くの演算量を必要とするという欠点があった。この欠点を克服するため、本発明のアルゴリズムにおいては、スケール比を補正するにあたり、短期間の入力音声信号のエネルギーを用いる。一般的に音声信号は高エネルギーセグメントと低エネルギーセグメントとを含んでいるが、高エネルギーセグメントの方が聴覚上重要な役割を担っているので、セグメントのエネルギーに基づいて時間スケール比の補正処理を行うことにより、聴覚上の音質を改善することができる。具体的には、高エネルギーセグメントにおいては、低エネルギーセグメントまたは無音セグメントに比べて圧縮率を下げる処理を行う。これにより、再生音声の明瞭度が向上する。
この処理の具体例を図3に示す。同図には、WSOLAに基づいた時間領域圧縮アルゴリズムが示されている。同図において、上段の図は入力信号x[n]を示したものである。中段の図は、入力信号x[n]に係る複数のセグメントを示したものである。同中段図に示されるように、この入力信号は非一様時間セグメントT’[n]に分割される。図3の下段図に示すように、入力信号x[n]はoverlap-and-addの手法を用いて圧縮され、圧縮処理された出力信号y[n]を生成する。ここで、与えられたρに対して適切なセグメント列Tx’[m](m=1,2,3,...)をどのように決定するかが問題となる。
以下では、所望の時間スケール比ρ、出力セグメント長Ty、およびオーバーラップ長Mは既知であるとする。なお、TyおよびMの選び方は予め与えられていてもよいし、他の手法を用いて算出してもよい。ここでは、狭帯域(8kHz)の音声信号を扱う場合を考え、一例としてTy=M=150を用いることとする。すると、参照入力セグメント長Txは以下の式から計算される。
信号エネルギーは、m番目の出力セグメントにおける直前のM個のサンプル、すなわち(m+1)番目のセグメントと重ね合わされるサンプルから計算され、以下の式で与えられる。
すなわち、エネルギーE[m]は、区間{m×Ty、 m×Ty+m−1}における信号y[n]のエネルギーである。
上式から分かるように、エネルギーは、入力信号サンプル数の2乗の合計値として算出される。本実施形態では、すべてのセグメントがゼロの場合に生じる数値計算上の問題を回避するため、微小な正の数として0.01を2乗の合計値に加えることとしている。ここで、数値計算上の他の便宜や使用できる記憶装置の容量等を考慮して、上記数式を変形して用いることも可能である。例えば、信号のエネルギーに関連する数値(以下、エネルギー関連値という)を算出してもよい。このような変形は、コンピュータにかかる演算負荷や使用できる記憶領域の制限に応じて、あるいは入力信号の種類やデータ形式に応じて適宜行うことが可能である。
さらに、予測ピークエネルギーEp[m]を以下の式で定義する。
ここで、αpはピークエネルギー減少係数を、Ep,min は最少ピークエネルギーをそれぞれ表す。この式から分かるように、現在のフレームの予測ピークエネルギーは、(1)直前の予測ピークエネルギーにαpを乗じたもの、(2)現在のフレームのエネルギー、および(3)最少ピークエネルギー、のいずれかから選択される。係数αpは適応速度を決定するものであって、αp<1である。Ep,minは、取り得る最も低いエネルギー予測値であって、初期条件EP[0] = 0を満たす。
次に、予測最低エネルギーを次式により定義する。
ここで、αbは最低エネルギー増加係数であって、αb>1である。上式から分かるように、現在の予測最低エネルギー値は、直前の予測最低エネルギー値に係数を乗じた値、または現在のエネルギー値のいずれかに等しい。また、Eb[m]は境界条件Eb[0] = ∞を満たす。
次に、エネルギー閾値Ethを次式で定義する。
ここで、αthはエネルギー閾値係数であって、αth>1を満たす。フレームのエネルギーをこの閾値と比較することにより、現フレームに係る時間スケール比または入力セグメント長が決定される。
上述したように、入力セグメント長T’[m]はエネルギーに応じて変化する。これはすなわち時間スケール比が一定ではないことを意味する。しかしながら、アルゴリズム上の要請から、全ての時間スケール比の平均は、元の時間スケール比ρに等しくなければならない。そこで、このように時間変化する入力セグメント長を取り扱うため、「リザーバ」と呼ばれる変数列R[m]を導入する。この変数列R[m]は初期条件R[0]=0を満たす。第m番目のフレームにおけるR[m]は次式で表される。
上式から分かるように、リザーバ列には参照入力セグメント長Txに対する剰余分または不足分の累積値が含まれる。現在のフレームの入力セグメント長は、以下の規則に従ってリザーバの値およびエネルギーの値から決定される。
ここでθ(R)は、リザーバの値に依存するスケール係数であって、以下の式で与えられる。
現在のエネルギーがエネルギー閾値以上である場合(E[m]>Eth[m])であって、且つ、リザーバの値がリザーバの取り得る最大値よりも小さい場合(R[m−1]<Rmax;Rmaxは正の定数)、時間スケール比が大きくなるように、Tx’の値はα1xに等しくなるように設定される。ここでα1<1である。
一方、現在のエネルギーが閾値以下であって(E[m]<Eth[m])、且つリザーバの値がリザーバの取り得る最小値よりも大きい場合(R[m−1]>Rmin;Rminは負の定数)、時間スケール比を小さくするように、Tx’はα2xに等しい値に設定される。なお、α2>1である。その他の場合は、リザーバの値が最大値の半分よりも大きくなるまで(R>Rmax/2)、Tx’=Txとする。この場合、次に入力される高エネルギーフレームに対応するため、リザーバの値は急速に減少する。このような制御メカニズムを採用することにより、エネルギーの異なるセグメントに対応した信号処理を行うことが可能となるのである。
上述した手法を用いることにより、信号処理に起因する累積的効果を監視し、この累積的効果に対して適切に対応することが可能となる。これにより、時間スケール比の平均を圧縮前の値に近い値になるように保ちつつ、最高の再生音声信号の品質を得ることができる。とはいうものの、本発明のアルゴリズムの有する効果を最大限発揮させるためには、選択する制御パラメータが重要となる。そこで、設定パラメータを選択する際の基準の一例を以下に示す。
・ピークエネルギーピーク減少係数(αp):予測エネルギーピーク値の適応速度を決定する。0.9〜0.999が標準的。
・最低エネルギー増加係数(αb):最低エネルギー値の適応速度を決定する。1.001〜1.1が標準的。
・最少ピークエネルギー値(Ep,min):エネルギーピーク値が取り得る最も低い値を表し、低エネルギーセグメントに係る信号処理に対して影響を与える。
・エネルギー閾値算出係数αth:エネルギーの範囲{Eb、Ep}においてエネルギー閾値の相対的な大きさを制御する。ここで、αth=1のときEth=Epであり、αth→∞のときEth→Ebとなる。1.3〜2.0が標準的。
・入力セグメント長補正係数(α1およびα2):セグメント長を調節するパラメータであって、α1は高エネルギーセグメントに対応し、α2は低エネルギーセグメントに対応する。α1は0.2〜0.8が標準的、α2は1.5〜2.0が標準的。
・リザーバの最大値および最小値(Rmin、Rmax):リザーバの取り得る値の上限値および下限値を表す。リザーバの値がこれらの値を超えると、元の圧縮率(伸張率)で信号処理がなされる。これ以外の場合は、現在のエネルギーに応じた圧縮率(伸張率)で信号処理がなされる。Rminは「−2000」〜「−500」、Rmaxは「200」〜「1000」が標準的。
上述のパラメータ値は例示であって、これに限られるものではない。最適な効果を得るためには、時間スケール比に応じて最適なパラメータ値を選ぶ必要がある。また、種々の入力条件や出力条件に応じて、異なるパラメータ値を選択するようにしてもよい。上述したパラメータ値の例示を特定の用途へ応用することは、当業者にとって容易である。
上述した音声信号処理システムおよび音声処理方法に係る一つのモデルを以下に示す。アルゴリズムの性格を説明するために、このモデルにおいては、一般的な音声信号を用いることとする。図4は、ρ=3のときのエネルギー、予測ピークエネルギー、予測最低エネルギー、およびエネルギー閾値を示したものである。予測ピークエネルギー値、予測最低エネルギー、およびこれら2つの予測値から算出されたエネルギー閾値によって、信号のエネルギーが監視される。ここでは、パラメータ値の一例として、αp=0.98、αb=1.03、Epmin=13、αth=14、α1=0.43、α2=1.57、Rmin=−800、Rmax=1000を選択した。
図5は、入力セグメント長の時間変化を表す。同図から明らかのように、入力セグメント長は、各時点でのエネルギー(局所エネルギー)に応じて、4つの値のいずれかをとる。換言すれば、入力セグメント長は4つの値の間で振動する。この例では、4つの値とは、215、500、750、および785である。図6はリザーバの値を示す図である。リザーバの値は、初期の低エネルギー領域に対応して負の値から始まり、高エネルギーセグメントが出現すると増加してゆく。リザーバの値は上限値であるRmaxを越えると、それ以上増加することができない。この場合、低エネルギーセグメントの出現を待ち、このセグメントにおいて圧縮率を高く設定することによってリザーバの値を下げる。信号処理の終了時点でリザーバの値はほぼ0となっており、これは時間スケール比ρの平均が所望の値(0.3)に近いことを意味している。
図7は、ρの値ごとに、一様時間圧縮方法および非一様時間圧縮方法を用いて圧縮した音声のどちらが高品質であるかを被験者に選択させる実験を行った結果を示したものである。音声として、4つのセンテンスを用いた。また、音声の主に関して、男性と女性は半々である。同図に示すように、時間スケール比ρの値が小さくなるにしたがって、非一様圧縮時間方法を用いたアルゴリズムの方が音声品質を選択した被験者の数は増加する。ρ=0.4および0.5においては、多少の相違はあるものの、非一様時間圧縮方法を用いてた方が途切れがなく滑らかな音声を得ることができる。しかしながら、通常の発声速度において生じる突発的な歪みのために、被験者の感じる音声品質は低下する。よって、一様時間圧縮方法および非一様時間圧縮方法により得られる音声品質が近いため、そのどちらも選ばない被験者が多くなっている。
ρ=0.3および0.2の場合、一様時間圧縮においては、明瞭度が低下し、概して音量は小さくなり、不自然さを感じさせる多数の人工的な音が出現し、これにより音声の話者を区別することもできなくなる。これに対し非一様時間圧縮においては、ほぼ同じ音量を保ちつつ、滑らかな音声を得ることができる。加えて、元の高エネルギーセグメントに係る信号がほとんどそのまま保たれているので、話者をはっきりと区別することができる。これらのρの値において、一様時間圧縮および非一様時間圧縮のいずれも選択しなかった被験者の数が劇的に減少しているのは、両者の方法の間に非常に明確な差異があるためである。
ρ=0.1においては、元の音声の内容を理解することは実際上無理である。にもかかわらず、非一様時間圧縮においては、その再生音声が人間のものであるということを認識することができ、また、ほとんどの場合、話者を識別することが可能であるということもあり、多くの被験者は非一様時間圧縮の方を選択している。一方、一様時間圧縮においては、音声は不快感を感じるほど不自然なものとなり、話者の声の特徴も著しく失われる。
以上、新規な時間領域圧縮アルゴリズムが開示された。このアルゴリズムにおいては、低い時間スケール比(高い圧縮率)においても聴覚上の品質の向上が達成される。このアルゴリズムにおいては、信号のエネルギーを算出し、算出したエネルギーを用いて、各時点における時間スケール比(局所スケール比)を決定する。また、所望の時間スケール比を達成するために、リザーバという変数を導入して局所信号処理における累積効果を監視する。そして、このリザーバの値を考慮に入れて局所スケール比を決定する。上述した実施例はWSOLAに基づいたものであったが、本発明の原理を他の種類のアルゴリズムに拡張して適用することも可能である。
時間圧縮は、音声素材および映像素材の高速再生において鍵となる技術である。本発明のシステムおよび方法は、コンピュータにかかる負荷が少ないため、既存の多くのシステムに適用することができる。例えば、デジタルの留守番電話機装置やボイスメールシステムに適用し、本願において開示された実施形態や種々の変形を用いて、録音された音声の再生速度を制御することが考えられる。
本発明に係るシステムおよび方法は、上述した演算処理等を実行するようにプログラムされた、プロセッサやロジックデバイスとして実現されてもよい。あるいは、ソフトウェアプログラムコードおよび演算処理を実行するように構成されたデータとして、あるいは、このようなプログラムコードやデータを記憶したフロッピー(登録商標)ディスクや光学ディスク等のコンピュータ読み取り可能な記憶媒体として実現されてもよい。あるいは、本発明にかかるシステムおよび方法は、上記ソフトトウェアプログラムコードおよびデータをエンコードした電気信号として実現され、この電気信号はローカルエリアネットワーク(LAN)やインターネット等の有線通信網または無線通信網を介して送受信されてもよい。
以上、本発明の実施形態を説明したが、本発明の技術的範囲はこれに拘泥されず、上記実施例に対して種々の変形を行うことが可能であることは言うまでもない。
音声信号処理システムのブロック図である。 一様時間領域圧縮処理を説明するための図である。 非一様時間領域圧縮処理を説明するための図である。 時間領域圧縮システムにおいて用いられる制御パラメータを説明するための図である。 時間領域圧縮システムにおける入力セグメント長の値の変移を示す図である。 時間領域圧縮システムにおけるリザーバの値の変移を示す図である。 聞き取り実験の結果を示す図である。
符号の説明
100・・・・・・音声信号処理システム、102・・・・・・プロセッサ、104・・・・・・メモリ、106・・・・・・記憶装置、108・・・・・・入力部、110・・・・・・出力部。

Claims (5)

  1. 入力音声信号に対応するデータを受信するステップと、
    該データを複数のセグメントに分割するステップと、
    前記セグメントのエネルギーが閾値よりも大きい場合には、予め与えられた時間スケール比と出力セグメント長から計算される参照入力セグメント長よりも小さい入力セグメント長を設定し、当該エネルギーが当該閾値よりも小さい場合には、当該参照入力セグメント長よりも大きい入力セグメント長を設定するステップと、
    前記設定された入力セグメント長を用いて前記データを圧縮し、圧縮済みのデータを生成するステップと
    を有する音声データ処理方法。
  2. 入力音声信号に対応する音声データのフレームを受信するステップと、
    前記音声データを複数のセグメントに分割するステップと、
    前記フレームのエネルギーに関連する値であるエネルギー関連値を算出するステップと、
    前記フレームの予測ピークエネルギーを決定するステップと、
    該予測ピークエネルギーに基づいて、前記フレームのエネルギー閾値を決定するステップと、
    該エネルギー関連値該エネルギー閾値よりも大きい場合には、予め与えられた時間スケール比と出力セグメント長から計算される参照入力セグメント長よりも小さい入力セグメント長を設定し、該エネルギー関連値が該エネルギー閾値よりも小さい場合には、当該参照入力セグメント長よりも大きい入力セグメント長を設定する設定ステップと、
    前記設定された入力セグメント長を用いて前記音声データを圧縮し、圧縮済みの音声データを生成するステップと
    を有する音声データ処理方法。
  3. 前記設定ステップでは、前記フレームのエネルギー関連値が前記エネルギー閾値よりも大きい場合であって、1つ前までのフレームにおける前記参照入力セグメント長に対する前記入力セグメント長の剰余分又は不足分の累積値を含む変数が上限値よりも小さい場合には、前記参照入力セグメント長よりも小さい入力セグメント長を設定し、当該エネルギー関連値が当該エネルギー閾値よりも小さい場合であって、当該変数が下限値よりも大きい場合には、当該参照入力セグメント長よりも大きい入力セグメント長を設定する
    ことを特徴とする請求項2に記載の音声データ処理方法。
  4. コンピュータ装置を、
    入力音声信号に対応するデータを受信する手段と、
    該データを複数のセグメントに分割する手段と、
    前記セグメントのエネルギーが閾値よりも大きい場合には、予め与えられた時間スケール比と出力セグメント長から計算される参照入力セグメント長よりも小さい入力セグメント長を設定し、当該エネルギーが当該閾値よりも小さい場合には、当該参照入力セグメント長よりも大きい入力セグメント長を設定する手段と、
    前記設定された入力セグメント長を用いて前記データを圧縮し、圧縮済みのデータを生成する手段と
    して機能させるためのプログラム。
  5. 受信した入力音声信号に対応するデータを複数のセグメントに分割し、前記セグメントのエネルギーが閾値よりも大きい場合には、予め与えられた時間スケール比と出力セグメント長から計算される参照入力セグメント長よりも小さい入力セグメント長を設定し、当該エネルギーが当該閾値よりも小さい場合には、当該参照入力セグメント長よりも大きい入力セグメント長を設定し、前記設定された入力セグメント長を用いて前記データを圧縮し、圧縮済みのデータを生成するようにプログラムされたプロセッサと、
    プログラムおよびデータのいずれか一が記憶された、前記プロセッサがアクセス可能な記憶部と
    を有する音声信号処理システム。
JP2003345865A 2002-10-03 2003-10-03 音声データ処理方法、プログラム及び音声信号処理システム Expired - Fee Related JP4523257B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/264,042 US7426470B2 (en) 2002-10-03 2002-10-03 Energy-based nonuniform time-scale modification of audio signals

Publications (3)

Publication Number Publication Date
JP2004126595A JP2004126595A (ja) 2004-04-22
JP2004126595A5 JP2004126595A5 (ja) 2006-11-16
JP4523257B2 true JP4523257B2 (ja) 2010-08-11

Family

ID=32042136

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003345865A Expired - Fee Related JP4523257B2 (ja) 2002-10-03 2003-10-03 音声データ処理方法、プログラム及び音声信号処理システム

Country Status (2)

Country Link
US (3) US7426470B2 (ja)
JP (1) JP4523257B2 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7975021B2 (en) 2000-10-23 2011-07-05 Clearplay, Inc. Method and user interface for downloading audio and video content filters to a media player
US6889383B1 (en) 2000-10-23 2005-05-03 Clearplay, Inc. Delivery of navigation data for playback of audio and video content
US7426470B2 (en) * 2002-10-03 2008-09-16 Ntt Docomo, Inc. Energy-based nonuniform time-scale modification of audio signals
US8086448B1 (en) * 2003-06-24 2011-12-27 Creative Technology Ltd Dynamic modification of a high-order perceptual attribute of an audio signal
MXPA06002241A (es) * 2003-08-26 2006-08-31 Clearplay Inc Metodo y aparato para controlar el funcionamiento de una senal de audio.
US7596488B2 (en) * 2003-09-15 2009-09-29 Microsoft Corporation System and method for real-time jitter control and packet-loss concealment in an audio signal
US8117282B2 (en) 2004-10-20 2012-02-14 Clearplay, Inc. Media player configured to receive playback filters from alternative storage mediums
US20060109983A1 (en) * 2004-11-19 2006-05-25 Young Randall K Signal masking and method thereof
EP1904933A4 (en) 2005-04-18 2009-12-09 Clearplay Inc DEVICE, SYSTEM AND METHOD FOR ASSOCIATING ONE OR MORE FILTER FILES WITH A PARTICULAR MULTIMEDIA PRESENTATION
EP2013871A4 (en) * 2006-04-27 2011-08-24 Technologies Humanware Inc METHOD FOR TEMPORALLY NORMALIZING AN AUDIO SIGNAL
US7961851B2 (en) * 2006-07-26 2011-06-14 Cisco Technology, Inc. Method and system to select messages using voice commands and a telephone user interface
US20080221876A1 (en) * 2007-03-08 2008-09-11 Universitat Fur Musik Und Darstellende Kunst Method for processing audio data into a condensed version
US8285241B2 (en) * 2009-07-30 2012-10-09 Broadcom Corporation Receiver apparatus having filters implemented using frequency translation techniques
US8670990B2 (en) * 2009-08-03 2014-03-11 Broadcom Corporation Dynamic time scale modification for reduced bit rate audio coding
SG11201510459YA (en) 2013-06-21 2016-01-28 Fraunhofer Ges Forschung Jitter buffer control, audio decoder, method and computer program
EP3321935B1 (en) 2013-06-21 2019-05-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Time scaler, audio decoder, method and a computer program using a quality control
US10629223B2 (en) * 2017-05-31 2020-04-21 International Business Machines Corporation Fast playback in media files with reduced impact to speech quality
US10878835B1 (en) * 2018-11-16 2020-12-29 Amazon Technologies, Inc System for shortening audio playback times
US11039177B2 (en) * 2019-03-19 2021-06-15 Rovi Guides, Inc. Systems and methods for varied audio segment compression for accelerated playback of media assets
US10708633B1 (en) 2019-03-19 2020-07-07 Rovi Guides, Inc. Systems and methods for selective audio segment compression for accelerated playback of media assets
US11102523B2 (en) 2019-03-19 2021-08-24 Rovi Guides, Inc. Systems and methods for selective audio segment compression for accelerated playback of media assets by service providers
CN110311424B (zh) * 2019-05-21 2023-01-20 沈阳工业大学 一种基于双时间尺度净负荷预测的储能调峰控制方法
US11227579B2 (en) * 2019-08-08 2022-01-18 International Business Machines Corporation Data augmentation by frame insertion for speech data
US20240013792A1 (en) * 2022-07-08 2024-01-11 Mstream Technologies., Inc. Audio compression method for improving compression ratio

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06202692A (ja) * 1993-01-06 1994-07-22 Nippon Telegr & Teleph Corp <Ntt> 音声再生速度制御システム
JPH10260694A (ja) * 1997-03-19 1998-09-29 Fujitsu Ltd 話速変換装置、話速変換方法及び記録媒体
JPH11501405A (ja) * 1995-02-28 1999-02-02 モトローラ・インコーポレーテッド 話者依存時間スケーリング技術を使用した通信システムおよび方法
JP2000511651A (ja) * 1996-06-05 2000-09-05 インターバル リサーチ コーポレイション 記録されたオーディオ信号の非均一的時間スケール変更
JP2002258900A (ja) * 2001-02-28 2002-09-11 Toshiba Corp 音声再生装置及び音声再生方法

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US671309A (en) * 1900-07-26 1901-04-02 William J Cunningham Bottle-stopper.
US4052568A (en) * 1976-04-23 1977-10-04 Communications Satellite Corporation Digital voice switch
US4665548A (en) * 1983-10-07 1987-05-12 American Telephone And Telegraph Company At&T Bell Laboratories Speech analysis syllabic segmenter
US4998280A (en) * 1986-12-12 1991-03-05 Hitachi, Ltd. Speech recognition apparatus capable of discriminating between similar acoustic features of speech
EP0427953B1 (en) * 1989-10-06 1996-01-17 Matsushita Electric Industrial Co., Ltd. Apparatus and method for speech rate modification
US5195138A (en) * 1990-01-18 1993-03-16 Matsushita Electric Industrial Co., Ltd. Voice signal processing device
US5349645A (en) * 1991-12-31 1994-09-20 Matsushita Electric Industrial Co., Ltd. Word hypothesizer for continuous speech decoding using stressed-vowel centered bidirectional tree searches
US5630013A (en) * 1993-01-25 1997-05-13 Matsushita Electric Industrial Co., Ltd. Method of and apparatus for performing time-scale modification of speech signals
US5675705A (en) * 1993-09-27 1997-10-07 Singhal; Tara Chand Spectrogram-feature-based speech syllable and word recognition using syllabic language dictionary
US5717823A (en) * 1994-04-14 1998-02-10 Lucent Technologies Inc. Speech-rate modification for linear-prediction based analysis-by-synthesis speech coders
US5694521A (en) * 1995-01-11 1997-12-02 Rockwell International Corporation Variable speed playback system
US5828955A (en) * 1995-08-30 1998-10-27 Rockwell Semiconductor Systems, Inc. Near direct conversion receiver and method for equalizing amplitude and phase therein
AU7723696A (en) * 1995-11-07 1997-05-29 Euphonics, Incorporated Parametric signal modeling musical synthesizer
US5893062A (en) * 1996-12-05 1999-04-06 Interval Research Corporation Variable rate video playback with synchronized audio
JP3017715B2 (ja) * 1997-10-31 2000-03-13 松下電器産業株式会社 音声再生装置
US6226608B1 (en) * 1999-01-28 2001-05-01 Dolby Laboratories Licensing Corporation Data framing for adaptive-block-length coding system
US6625655B2 (en) * 1999-05-04 2003-09-23 Enounce, Incorporated Method and apparatus for providing continuous playback or distribution of audio and audio-visual streamed multimedia reveived over networks having non-deterministic delays
JP3430968B2 (ja) * 1999-05-06 2003-07-28 ヤマハ株式会社 ディジタル信号の時間軸圧伸方法及び装置
GB9911737D0 (en) * 1999-05-21 1999-07-21 Philips Electronics Nv Audio signal time scale modification
US6377931B1 (en) * 1999-09-28 2002-04-23 Mindspeed Technologies Speech manipulation for continuous speech playback over a packet network
CN1432177A (zh) * 2000-04-06 2003-07-23 艾利森电话股份有限公司 语音速率转换
US6505153B1 (en) * 2000-05-22 2003-01-07 Compaq Information Technologies Group, L.P. Efficient method for producing off-line closed captions
US6718309B1 (en) * 2000-07-26 2004-04-06 Ssi Corporation Continuously variable time scale modification of digital audio signals
EP1309965B1 (en) * 2000-08-09 2010-12-15 Thomson Licensing Method and system for enabling audio speed conversion
US7171367B2 (en) * 2001-12-05 2007-01-30 Ssi Corporation Digital audio with parameters for real-time time scaling
US7065485B1 (en) * 2002-01-09 2006-06-20 At&T Corp Enhancing speech intelligibility using variable-rate time-scale modification
US6844510B2 (en) * 2002-08-09 2005-01-18 Stonebridge Control Devices, Inc. Stalk switch
US7426470B2 (en) * 2002-10-03 2008-09-16 Ntt Docomo, Inc. Energy-based nonuniform time-scale modification of audio signals

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06202692A (ja) * 1993-01-06 1994-07-22 Nippon Telegr & Teleph Corp <Ntt> 音声再生速度制御システム
JPH11501405A (ja) * 1995-02-28 1999-02-02 モトローラ・インコーポレーテッド 話者依存時間スケーリング技術を使用した通信システムおよび方法
JP2000511651A (ja) * 1996-06-05 2000-09-05 インターバル リサーチ コーポレイション 記録されたオーディオ信号の非均一的時間スケール変更
JPH10260694A (ja) * 1997-03-19 1998-09-29 Fujitsu Ltd 話速変換装置、話速変換方法及び記録媒体
JP2002258900A (ja) * 2001-02-28 2002-09-11 Toshiba Corp 音声再生装置及び音声再生方法

Also Published As

Publication number Publication date
US20080133251A1 (en) 2008-06-05
US20080133252A1 (en) 2008-06-05
JP2004126595A (ja) 2004-04-22
US7426470B2 (en) 2008-09-16
US20040068412A1 (en) 2004-04-08

Similar Documents

Publication Publication Date Title
JP4523257B2 (ja) 音声データ処理方法、プログラム及び音声信号処理システム
CA2253749C (en) Method and device for instantly changing the speed of speech
JP3017715B2 (ja) 音声再生装置
JP2001344905A (ja) データ再生装置、その方法及び記録媒体
US7143029B2 (en) Apparatus and method for changing the playback rate of recorded speech
WO2006106466A1 (en) Method and signal processor for modification of audio signals
JP4965371B2 (ja) 音声再生装置
JP3249567B2 (ja) 話速変換方法および装置
JP3553828B2 (ja) 音声蓄積再生方法および音声蓄積再生装置
US6678650B2 (en) Apparatus and method for converting reproducing speed
JP2009075280A (ja) コンテンツ再生装置
JP3803302B2 (ja) 映像要約装置
JP3373933B2 (ja) 話速変換装置
JP3187242B2 (ja) 話速変換装置
JP2965788B2 (ja) 音声用利得制御装置および音声記録再生装置
JPH06289895A (ja) リアルタイム話速変換方法
JP2867744B2 (ja) 音声再生装置
JP3081469B2 (ja) 話速変換装置
JPH0573089A (ja) 音声再生方法
JPH07210192A (ja) 出力データ制御方法及び装置
JP4648183B2 (ja) 連続メディアデータ短縮再生方法、複合メディアデータ短縮再生方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP3187241B2 (ja) 話速変換装置
JP2007256815A (ja) 音声再生装置、音声再生方法、音声再生プログラム
JP2003271198A (ja) 圧縮データ処理装置、方法および圧縮データ処理プログラム
JPH10224898A (ja) 補聴器

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20051130

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061003

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061003

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090813

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090825

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091023

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100525

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100527

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130604

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees