JP2005084692A - デジタルオーディオ信号の高品質の伸張および圧縮を提供するシステムおよび方法 - Google Patents

デジタルオーディオ信号の高品質の伸張および圧縮を提供するシステムおよび方法 Download PDF

Info

Publication number
JP2005084692A
JP2005084692A JP2004260263A JP2004260263A JP2005084692A JP 2005084692 A JP2005084692 A JP 2005084692A JP 2004260263 A JP2004260263 A JP 2004260263A JP 2004260263 A JP2004260263 A JP 2004260263A JP 2005084692 A JP2005084692 A JP 2005084692A
Authority
JP
Japan
Prior art keywords
segment
frame
segments
voiced
unvoiced
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004260263A
Other languages
English (en)
Other versions
JP5096660B2 (ja
Inventor
Dinei A Florencio
エー.フロレンシオ ダニー
Philip A Chou
エー.チョウ フィリップ
Li-Wei He
ヘ リ−ウェイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2005084692A publication Critical patent/JP2005084692A/ja
Application granted granted Critical
Publication of JP5096660B2 publication Critical patent/JP5096660B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01LMEASURING FORCE, STRESS, TORQUE, WORK, MECHANICAL POWER, MECHANICAL EFFICIENCY, OR FLUID PRESSURE
    • G01L19/00Details of, or accessories for, apparatus for measuring steady or quasi-steady pressure of a fluent medium insofar as such details or accessories are not special to particular types of pressure gauges
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/935Mixed voiced class; Transitions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Abstract

【課題】 パケットベースのネットワークを介して受信されたオーディオ信号のフレームを自動的に伸張、圧縮する順応性のある時間音声スケーラを提供すること。
【解決手段】 現在のフレームのセグメントを伸張または圧縮する前に、時間音声スケーラは、セグメントの伸張または圧縮の際に一致操作に使用する信号テンプレートをサイズ設定するために、フレームごとにピッチ周期を計算し、各フレームを含むセグメントのタイプも決定する。セグメントタイプは、有声セグメント、無声セグメント、有声部分および無声部分を含む混合セグメントを含む。各フレームのセグメントに適用された伸張・圧縮方法は、各フレームを含むセグメントのタイプに依存する。特定のセグメントに適用された伸張または圧縮の量は自動的に変化して、対象の総伸張率または総圧縮率が依然として確実にフレームごとに維持されるようにしながら、信号の歪みを最低限に抑える。
【選択図】 図2

Description

本発明は、オーディオ信号の自動時間スケール変更に関し、より詳細には、発話音声または他のオーディオを含むオーディオ信号のセグメントの高品質の自動伸張および圧縮を提供するシステムおよび方法に関する。
発話音声ベースのオーディオ信号内のフレームなど、音声セグメントの延長および短縮は一般に、それぞれ発話音声(speech)の伸張および発話音声の圧縮と呼ばれる。多くの応用分野では、信号内の発話音声の知覚品質を向上させるために、または遅延を低減するために、信号内の発話音声または沈黙の特定のセグメントを伸張または圧縮することが必要である。例えば伸張は、発話音声の了解度(intelligibility)を向上させるため、発話音声信号内の損失フレームまたは雑音のあるフレームを交換するため、または順応性のあるいくつかのジッタ解除アルゴリズム(de−jittering algorithm)で使用し得るように、遅延した発話音声データを待つときに追加の時間を提供するために使用されることが多い。同様に、発話音声の短縮または圧縮は、記録された信号を高速化して聞き取り時間を短縮すること、信号のビット伝送速度を短縮すること、信号のセグメントを高速化して全体的な伝送時間を短縮すること、および信号フレームの何らかのタイプの処理に続いて信号をほぼリアルタイムで送信することができるように伝送遅延を短縮することを含めて、いくつかの目的のために使用されている。
例えば、インターネットや他のブロードキャストネットワークなどの従来のパケット通信システムは、一般に損失が多い。言い換えれば、送信されたパケットのすべてがエラー無しで、時間通りに、さらには適切な順序で送達されることを保証できるとは限らない。パケットが再送される、正しく配列される、または何らかのタイプのエラー修正方式を使用して修正されるのを受信側が待つことができる場合、こうしたネットワークは元来損失が多いという事実は問題ではない。しかし、例えばこうしたパケットベースのネットワークを介した音声ベースの通信システムなどほぼリアルタイムの応用分野では、受信側は、通信において過度かつ顕著な遅れまたは遅延をもたらすことなくパケットが再送される、正しく配列される、または修正されるのを待つことはできない。
従来の方式の中には、単に受信側に紛失したまたは破損したパケットの代わりに沈黙を使用させることによってパケットベースのネットワークを介した音声通信の問題に対処しているものがある。関連の方式は単に、パケット受信時間の間の頻繁に変わり得る遅延に関係なく受信したフレームを受信した通りに再生するだけである。残念ながら、こうした方法は、実施するには非常に簡単ではあるが、その結果、一般に信号の質の知覚的な低下をまねく容易に知覚される歪み(artifact)を有する信号がもたらされる。
より手の込んだ方式では、最大許容紛失パケットレートを向上させるために、紛失した発話音声パケットの代わりに前に正常に受信されたパケットからの波形セグメントを使用することによってより良い知覚的な信号の品質を提供しようと試みる。この方式は、パケット期間およびパケットロス率に応じて波形置換の失敗の確率予測に基づいて、紛失したパケットを置き換えるための代用の波形を選択する。さらにこの方式は、代用の波形を選択するために、信号パターンの一致または有声性またはピッチの明確な推定値も使用する。さらに、波形置換に続いて、代用の波形が損失したまたは破損したパケットの置き換えに使用されたパケットの境界での不連続間の境界を平滑化することによって知覚された歪みのそれ以上の低減が達成される。残念ながら、この方式は、単に紛失したフレームの代わりに沈黙を使用することに比べてかなりの改善を示すが、復元された信号内に依然として容易に知覚される音声歪みがある。
別の従来の方式は、損失または破損したフレームを、パケットの受信遅延または損失に応答して(伸張または圧縮による)個々の音声パケットの可変時間スケーリング(variable temporal scaling)とパケットベースの置き換えを行うことによって知覚された音声歪みの問題、したがって知覚された信号品質の問題に取り組もうと試みている。特にこの方式は、「波形相似性重複加算法(waveform similarity overlap−add)」(WSOLA)と呼ばれる従来の方法のあるバージョンを使用して、スケール変更されたパケット内の知覚歪みを最低限に抑えながら、1つまたは複数のパケットの時間スケーリングを達成する。
WSOLAおよび関連の方法の基本概念は、入力パケットを等しい長さの重複するセグメントに分解することを伴う。これらの重複するセグメントは、次いで従来の修正プロセス、および重複領域の平滑化を介して再整列され、重ね合わされて、所望の出力長をもたらす重複の度合いを有する出力セグメントが形成される。その結果、知覚されたパケット遅延または損失を伏せる、または隠すには合成セグメントが有用となる。残念ながら、この方式は前の発話音声の伸張方法および圧縮方式の大幅な改善を提供するが、伸張された、また圧縮されたオーディオ信号の知覚品質には依然としてかなりの改善の余地がある。
したがって、発話音声および他の音声を含むオーディオ信号の高品質の時間スケール変更を提供するシステムおよび方法が必要である。特に、こうしたシステムおよび方法は、復元された信号内の知覚し得る歪みを最低限に抑えながら発話音声の伸張および圧縮を提供すべきである。さらに、こうしたシステムおよび方法は、可変のネットワークパケット遅延および損失を考慮に入れるために可変の圧縮および伸張も提供すべきである。
了解度を向上させ、聞き取り時間を短縮させ、またはインターネットなど損失の多い遅れがちなパケットベースのネットワークを介して送信され、次いでクライアントコンピュータまたは受信機で復元される信号の品質を向上させるために、何年かの間、発話音声を含むオーディオ信号の時間スケール変更が使用されてきた。例えば、多くの応用分野では、発話音声を含むオーディオ信号の1つまたは複数のフレームを伸縮または圧縮することが望ましい。一般に伸張は、損失した、過度に遅れた、または雑音の多いフレームを置き換える、またはジッタ解除アルゴリズムで遅延した発話音声パケットを待つときに追加時間を提供するために、信号内の発話音声のセグメントの期間を拡張することによって、早口の人の了解度を向上させるために使用される。同様に、オーディオ信号の短縮または圧縮は、一般に聞き取り時間を短縮し、信号のビット伝送速度を短縮し、信号のフレームを高速化して伝送時間全体を短縮し、信号フレームの何らかのタイプの処理に続いて信号をほぼリアルタイムで送信できるように伝送遅延を短縮するために使用される。これらの使用を考慮すると、復元された信号内の知覚し得る任意の歪みを最低限に抑えながら高品質出力を提供する発話音声の伸張および圧縮のためのシステムおよび方法が明らかに必要である。
高品質の音声の伸張および圧縮のこの必要性に取り組むために、オーディオ信号のフレーム(またはセグメント)を自動的に伸張し圧縮する、順応性のある「時間音声スケーラ(temporal audio scaler)」が提供される。本明細書に記載した時間音声スケーラは、オーディオ信号の伸張および圧縮を含む時間スケーリングのためのシステムおよび方法を提供する。以下の段落では、この時間音声スケーラについて説明する。
一般に、時間音声スケーラは、信号のフレームまたはセグメントの伸張および圧縮を提供する。さらに、時間音声スケーラは、隣接するフレームを参照する必要なく、特定のフレームまたはセグメントの可変の伸張および圧縮を提供することができる。さらに、時間音声スケーラによって提供された伸張および圧縮の可変性は、「繰越し」(carry over)技術を使用することによって所望の総平均圧縮(または伸張)率を維持しながら次のフレームで補償される所望の比率との圧縮率のわずかな差を許容する。
例えば、特定の信号について対象の圧縮率が2:1であり、各入力発話音声フレームが300個のサンプルを有している場合、対象の各出力フレームは、名目上150個のサンプルを有している。しかし、特定のフレームが150個のサンプルではなく、例えば180個のサンプルに圧縮された場合、30個の余分のサンプルは、その対象の圧縮を120個のサンプルに設定することによって次のフレームで補償される。したがって、180および120のブロックサイズでは、平均ブロックサイズは依然として150であり、平均圧縮率は2:1である。その次のフレームの内容に応じて、120個のサンプルに圧縮することは、最適な結果を提供しない場合があることに留意されたい。したがって、120個のサンプルの例は対象にすぎず、実際の圧縮または伸張を使用してその後のフレームの対象の圧縮または伸張を設定して所望の平均を確保する。
したがって、その後の複数のフレームを伸張または圧縮して所望の平均を維持することができる。例えば、上記の例を使用して、180個のサンプルに圧縮されたフレームの次のフレームが130個のサンプルに圧縮された場合、次のフレームの対象の圧縮は、3フレームにわたって150個のサンプルの平均を提供するために140個のサンプルの対象圧縮を有する。この繰越し技術の使用によって、特定の任意の出力フレームの長さに対する緩やかな要件のみが維持されるとともに、任意の所望の圧縮(または伸張)率が維持される。
この繰越し技術の結果、復元された信号内の知覚し得る歪みを最低限に抑えるために、必要に応じて各個々のフレームが最適に伸張または拡張されるため、伸張または圧縮によって損失または遅延したパケットの補償が極めてフレキシブルとなる。時間音声スケーラのこの機能は、一般に歪みを最低限に抑えるために短縮された遅延を必要とするジッタ解除などいくつかの応用分野を補完する。
上記の段落を考慮すると、時間音声スケーラは、まず信号からフレームを受信し、そのフレームのセグメントを伸張または圧縮することによってフレームの時間特性を変更し、現在のフレームの伸張または圧縮が対象の伸張率または圧縮率に等しいかどうかを決定し、次いで実際の伸張率または圧縮率と対象の伸張率または圧縮率との間に差がある場合はそれを次のフレームに適用される伸張または圧縮に追加することによって、特定のフレームの伸張および圧縮を提供することは明らかである。
さらに、現在のフレームのセグメントを伸張または圧縮する前に、時間音声スケーラは、まずセグメントのタイプを決定する。例えば、発話音声を含むオーディオ信号において、フレームの各セグメントは、発話または他の何らかの有声の発語を含む「有声」セグメント、発話や他の発語を含まない「無声」セグメント、または有声部分および無声部分の両方を含む「混合」セグメントのいずれかである。最適な結果を達成するために、時間音声スケーラは、特に伸張または圧縮される特定のセグメントタイプを対象とした可変の伸張および圧縮を提供する。したがって、個別の伸張方法および圧縮方法は、セグメントの各タイプ、すなわち有声、無声、または混合に適用される。まだ未知のその後の発話音声フレームへのより良い遷移を確実にするために、セグメントタイプごとに個別の各方法を使用すると、フレームの境界付近の音声サンプルは、できるだけ変更されない、または全然変更されないことに留意されたい。
セグメントタイプの決定を行う際に、人間の発話の自然な周期は、有用な案内となる。一般に、セグメントタイプに関する決定は、信号の潜在的に周期的な部分がどれぐらい緊密に一致しているかに応じて行われる。例えば、まだ再生されていないオーディオ信号の特定のサンプルまたはフレームを伸張または圧縮する際に、最初のステップは、伸張または圧縮されるフレームからより小さいセグメントまたはサブフレームを選択することである。次のステップは、信号内の類似する、または一致する近くのセグメントを見つけることであるため、このサブフレームは「テンプレート」と呼ばれる。一致するセグメントは、伸張または圧縮されるフレーム内にある、または利用可能な場合、直前に再生されたフレーム内にあり得ることに留意されたい。したがって、一実施形態では、最も最近再生されたフレームのうちの1つまたは複数は、一致するセグメントを探す目的で、一時バッファで維持される。テンプレートに一致するセグメントの検索は、例えば正規化相互相関法(normalized cross correlation measure)または類似の技術など、従来の信号一致技術を使用して行われる。さらに、一実施形態では、検索範囲は、信号の「ピッチ」に互換性のある範囲に限定される。
当分野の技術者にはよく知られているように、発話音声などの有声の音声は、声道内の共鳴を刺激する準周期的なパルスに気流を変調する声帯の振動によって生成される。これらのパルスの割合は一般に、基本周波数または「ピッチ」と呼ばれる。一般に、有声の音声信号の周期または「ピッチ周期」は、有声の音声信号の時間領域表現における最も大きい振幅の正または負のピークの間の時間を表す。発話音声信号は、実際には完全には周期的ではないが、推定されるピッチ周波数およびその逆数、ピッチ周期は、発話音声信号のモデリングに依然として非常に有用である。考察の注意として、ピッチおよびピッチ周期の両方を参照することに留意されたい。ピッチを決定するためのかなり入念な方法はあるが、これらの概念は、当分野の技術者にはよく知られているので、本明細書に記載されているピッチおよびピッチ周期の決定は、単に相互相関のピークを見つけることに基づく基本的なものである。しかし、本明細書に提供した考察を考慮すると、ピッチおよびピッチ周期を決定するための従来の任意の方法を時間音声スケーラに使用できることを理解されたい。
例えば、信号の有声部分は、人間の発話または発語のピッチまたは周期の結果、必然的により高い周期性を有する。したがって正規化相互相関のピークの強度は、フレームの特定のセグメントが有声であるか、無声であるか、または混合であるかの洞察を提供する。例えば、セグメントが含む発話音声がより多くなるにつれて、正規化相互相関ピークが大きくなり、セグメントが含む発話音声がより少なくなるにつれて、一般に信号内での周期性がより少なくなり、その結果、正規化相互相関ピークが小さくなる。正規化相互相関のピーク値は、次いで事前に定義された閾値と比較されて、特定のセグメントが有声セグメントであるか、無声セグメントであるか、または有声成分と無声成分との混合物、すなわち混合セグメントであるかが決定される。検査済みの実施形態では、約0.4と約0.95の間のピーク値は、混合セグメントを識別するために使用され、約0.95を上回るピーク値は、有声セグメントを識別するために使用され、約0.4を下回るピーク値は、無声セグメントを識別するために使用された。
セグメントの特定のタイプが識別されると、セグメントタイプ固有の伸張または圧縮プロセスがそのセグメントに適用されて、必要に応じて現在のフレームが伸張または圧縮される。例えば、有声フレームを伸張するとき、窓掛け重複加算(windowed overlap−add:SOLA)手法は、フレームの一致するセグメントを配列し、マージするために使用される。しかし、有声セグメントを伸張する従来のシステムとは異なり、時間音声スケーラは、テンプレートが必ずしもセグメントの終端から取得されるわけではないように、参照またはテンプレートとして使用されるセグメントの位置を入れ替えることによって、復元された信号内の知覚し得る周期的な歪みをさらに低減する。特に、テンプレートはフレームの終端、フレームの先端、またはフレーム内から取得することができる。
さらに、一実施形態では、時間音声スケーラは、可変窓サイズも使用する。可変窓サイズは、復元された信号内の知覚し得る歪みをさらに低減するために正規化相互相関を実施する際に、現在のフレームについて計算された平均ピッチサイズとほぼ同じである。最後に、遷移窓(transition window)の中間点が波形の低エネルギーポイントに配置されるようにテンプレートが配置される。テンプレートのこの配置は、復元された信号内の知覚し得る歪みをさらに低減するよう働く。この伸張プロセスは、現在のフレームの所望のレベルの伸張を達成するのに必要な回数だけ繰り返される。
無声フレーム、すなわち沈黙、非周期的な雑音などの伸張は、かなり異なるやり方で扱われる。特に、フレームを延長するために、テンプレートに一致する1つまたは複数のセグメントの反復が使用される、有声フレームを伸張するプロセスとは異なり、周期の導入を避けることが重要である。その理由は、人間の聞き手は、こうしたフレーム内にある可聴周期を容易に識別することができるからである。したがって、こうした周期は、復元された信号内の信号の歪みとして現れる。したがって、テンプレートに一致するセグメントを追加する代わりに、現在のフレームは、自動的に所望の長さの異なる信号を生成し、現在のフレームと似たパワースペクトルを有することによって変更される。次いでこの生成された信号は、元のフレームと生成されたセグメントとの間の遷移点を平滑化する窓関数を使用して、現在のフレームの中央に挿入される。さらに、関連の実施形態では、生成されたセグメントのエネルギーは、復元された信号内の任意の可聴歪みをさらに低減させる目的で、約30%程度の事前に定義されたパーセントだけさらに低減される。
上述したように、混合セグメントは、有声成分および無声成分の組合せを表す。したがって、音声セグメントまたは無声セグメントを伸張する方法はいずれも、混合セグメントの伸張にはそれぞれ適していない。例えば、有声セグメントを処理する方法の使用は、顕著な歪みを無声のフレーム部分に導入し、一方無声セグメントを処理する方法の使用は、フレーム内の既存の任意の周期を破壊する。したがって、一実施形態では、両方の方法が使用される。具体的には、信号は、有声方法および無声方法を使用して現在の混合セグメントから生成される。次いでこれらの信号は結合されて、有声方法および無声方法を使用して作成された両方の信号を含む所望の長さの合成信号セグメントが生成される。
さらに、関連の実施形態では、上述したように生成された有声および無声の信号は、正規化相互相関ピークの値に応じて重み付けされる。例えば、上述したように、正規化相互相関ピークの値は、セグメントがより周期的になるにつれて、すなわちセグメント中により多くの発話音声が存在すると大きくなる。逆に、正規化相互相関ピークの値がより高い場合に有声信号により重みをかけることは、何らかの周期性、およびしたがって伸張されたセグメントの無声部分内の潜在的に知覚し得る一部の歪みを犠牲にして、伸張されたセグメント内の発話音声の知覚品質を向上させる。したがって、正規化相互相関ピーク値が低下するにつれて、セグメント内の周期性が少なくなる。したがって、無声信号により重みがかけられ、それによって周期性および潜在的にフレームの任意の有声部分の了解度を低減させる犠牲を払って、無声部分の知覚品質が向上する。
検査済みの実施形態では、0.45から0.95の正規化相互相関ピークにそれぞれ対応する0から1への線形の重み付け(linear weighting)は、上記の有声セグメント方法を使用して所望の長さの信号を生成することによって合成信号の有声成分を作成するために使用された。同様に、0.45から0.95の正規化相互相関ピークにそれぞれ対応する1から0への線形の重み付けは、上記の無声セグメント方法を使用して同じ所望の長さの信号を生成することによって合成信号の無声成分を作成するために使用された。これら2つの重み付けされた信号成分は、次いで単に追加されて合成信号が生成される。
上述した様々なフレームタイプおよび伸張方法が与えられた場合、現在のフレーム内のどの点がそのフレームを伸張するのに最も良い点であるかという問題が依然として存在する。例えば、信号の20ms部分などの相対的に短いフレーム内でさえ、1つまたは複数の遷移点、または2、3秒の沈黙すら存在することが多い。こうした場合、フレームが伸張されるべき特定の点を選択することが有利である。したがって一実施形態では、フレーム内のセグメントのエネルギー(エネルギーが低いほど良い)と、その一致によりそのセグメントについて見つけられた正規化相関係数(高いほど良い)との組合せに基づいてフレーム内の伸張すべき場所の決定が行われる伸張「品質」手法が使用される。
例えば、一般的な場合、20msフレームは、それぞれ5msの4つのサブフレームまたはセグメントに分割する、あるいは、ほぼ推定されたピッチ周期を有する潜在的に重複するサブフレームまたはセグメントに分割することができる。特定のセグメントの計算されたエネルギーが十分低い場合、遷移は、そのセグメント内に存在すると考えられる。次いで最も低いエネルギーセグメントが伸張に選択される。しかし、エネルギーが十分には低くない場合、遷移がフレーム内に存在する見込みはなく、各セグメントの一致の正規化自己相関を使用して伸張すべき最適な一致が選択される。
一般に、フレームの圧縮は、フレームの伸張に関して上述したものと同じようなやり方で扱われる。例えば、フレームを圧縮するとき、上述したように、テンプレートはフレーム内から選択され、一致の検索が行われる。一致が識別されると、セグメントが窓掛けされ、重複され、加算される。しかし、正規化相互相関が小さすぎる場合、上述したように、セグメントが無声セグメントである可能性がある。この場合、無作為の、または事前に定義されたシフトが定数平方和窓(constant square−sum window)などの窓関数とともに使用されてフレームが所望の量に圧縮される。
さらに、圧縮すべき各フレーム内の特定のセグメントの選択は、重要な問題である。例えば、フレームのすべてのセグメントを均等に圧縮する代わりに、まず、上述したようにセグメントのタイプを決定し、次いでフレームの特定のセグメントを選択的に圧縮することによって一般により良い結果が達成される。例えば、無声セグメントまたは遷移の圧縮を回避しながら、発話音声、沈黙、または単なる雑音を表すセグメントを圧縮することは、知覚し得る歪みがより少ない復元信号を生成する。発話音声、沈黙、または単なる雑音を表すセグメントを圧縮することによって十分な圧縮が達成できない場合、非遷移無声セグメントが上記と同じように圧縮される。最後に、有声セグメントまたは非遷移無声セグメントの圧縮によって十分な圧縮を達成できない場合、遷移を含むセグメントが圧縮される。圧縮のこの階層型の手法は、復元された信号内の知覚し得る歪みを限定するよう働く。さらに、上述したように、その内容のタイプのために現在のフレームが対象の圧縮率に圧縮されない場合、「繰越し」プロセスを使用して、より多い量だけその後のフレームを圧縮する。
上記の概要を考慮すると、時間音声スケーラは、その信号の復元内の知覚し得る歪みを最低限に抑えながら、受信されたオーディオ信号のフレームを伸張し、圧縮するための一意のシステムおよび方法を提供することがわかる。今上述した利点に加えて、オーディオ信号セグメントを伸張し、圧縮するシステムおよび方法の他の利点は、以下の詳細な説明と添付の図面と併せ読むことによって明らかになる。
本発明の特定の特徴、態様、および利点は、次の説明、添付の特許請求の範囲、および添付の図面を参照するとより良く理解される。
本発明の好ましい実施形態の次の説明では、本明細書の一部を構成し、本発明を実施できる特定の実施形態の例によって示される添付の図面への参照が行われる。本発明の範囲から逸脱することなく、他の実施形態を使用し、構造上の変更を行うことができることを理解されたい。
(1.0 動作環境の例)
図1は、本発明を実施するのに適したコンピューティングシステム環境100の例を示している。コンピューティングシステム環境100は、適したコンピューティング環境の一例にすぎず、本発明の使用または機能の範囲に関する限定を示唆するものではない。また、コンピューティング環境100を、動作環境100の例に示した構成要素のいずれか1つ、またはその組合せに関連する任意の依存性または必要条件を有しているものと解釈すべきではない。
本発明は、他の多くの汎用または専用コンピューティングシステム環境または構成で動作可能である。本発明との使用に適したよく知られているコンピューティングシステム、環境、および/または構成の例には、それだけには限定されないが、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルド、ラップトップまたはモバイルコンピュータまたはセル式電話やPDAなどの通信装置、デジタル電話、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能家庭用電化製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、上記の任意のシステムまたは装置を含む分散コンピューティング環境などがある。
本発明は、コンピュータによって実行されるプログラムモジュールなどのコンピュータ実行可能命令の一般的な文脈で説明することができる。一般にプログラムモジュールは、特定のタスクを実行する、または特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、構成要素、データ構造などを含む。また、本発明は、タスクが通信ネットワークによってリンクされているリモート処理装置によって実行される分散コンピューティング環境でも実施することができる。分散コンピューティング環境では、プログラムモジュールを、メモリ記憶装置を含むローカルおよびリモートのコンピュータ記憶媒体に置くことができる。図1を参照すると、本発明を実施するシステムの例は、汎用コンピューティング装置をコンピュータ110の形で含んでいる。
コンピュータ110の構成要素は、それだけには限定されないが、処理ユニット120、システムメモリ130、およびシステムメモリを含む様々なシステム構成要素を処理ユニット120に結合するシステムバス121を含む。システムバス121は、様々なバスアーキテクチャのうちの任意のものを使用するメモリバスまたはメモリコントローラ、周辺バス、およびローカルバスを含むいくつかのタイプのバス構造のうちどんなものでもよい。こうしたアーキテクチャには、それだけには限定されないが一例として、業界標準アーキテクチャ(ISA)バス、マイクロチャネルアーキテクチャ(MCA)バス、拡張ISA(EISA)バス、ビデオ電子装置規格化協会(VESA)ローカルバス、およびメザニンバスとしても知られている周辺部品相互接続(PCI)バスなどがある。
コンピュータ110は、一般に様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ110からアクセスできる使用可能な任意の媒体とすることができ、揮発性および不揮発性媒体、リムーバブルおよび非リムーバブル媒体を含む。コンピュータ可読媒体は、それだけには限定されないが一例として、コンピュータ記憶媒体および通信媒体を含み得る。コンピュータ記憶媒体には、コンピュータ可読命令、データ構造、プログラムモジュール、他のデータなど、情報を記憶するための任意の方法または技術で実施される揮発性および不揮発性のリムーバブルおよび非リムーバブル媒体がある。
コンピュータ記憶媒体には、それだけには限定されないが、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術、CD−ROM、デジタル多用途ディスク(DVD)または他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置または他の磁気記憶装置、または所望の情報の格納に使用でき、コンピュータ110からアクセスできる他の任意の媒体などがある。通信媒体は一般に、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータを搬送波または他の移送機構などの変調されたデータ信号に組み込む。これには任意の情報配送媒体がある。「変調されたデータ信号」という用語は、信号に情報を符号化するように1つまたは複数のその特性が設定または変更された信号を意味する。通信媒体には、それだけには限定されないが一例として、有線ネットワーク、直接配線された接続などの有線媒体、および音響、RF、赤外線、その他の無線媒体などの無線媒体がある。また、上記のどんな組合せでもコンピュータ可読媒体の範囲内に含まれるものとする。
システムメモリ130は、読取り専用メモリ(ROM)131やランダムアクセスメモリ(RAM)132など、揮発性および/または不揮発性メモリの形のコンピュータ記憶媒体を含む。基本入出力システム133(BIOS)は、例えば起動中など、コンピュータ110内の要素間での情報の転送を助ける基本ルーチンを含み、一般にROM131に格納されている。RAM132は一般に、処理ユニット120から直接アクセス可能な、かつ/または処理ユニット120が現在処理しているデータおよび/またはプログラムモジュールを含む。図1は、それだけには限定されないが一例として、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136、およびプログラムデータ137を示している。
コンピュータ110は、他のリムーバブル/非リムーバブル、揮発性/不揮発性コンピュータ記憶媒体を含むこともできる。一例にすぎないが、図1は、非リムーバブル不揮発性磁気媒体から読み取り、あるいはそこに書き込むハードディスクドライブ141、リムーバブル不揮発性磁気ディスク152から読み取り、あるいはそこに書き込む磁気ディスクドライブ151、およびCD−ROMや他の光媒体など、リムーバブル不揮発性光ディスク156から読み取り、あるいはそこに書き込む光ディスクドライブ155を示している。動作環境の例で使用できる他のリムーバブル/非リムーバブル、揮発性/不揮発性コンピュータ記憶媒体には、それだけには限定されないが、磁気テープカセット、フラッシュメモリカード、デジタル多用途ディスク、デジタルビデオテープ、半導体RAM、半導体ROMなどがある。ハードディスクドライブ141は一般に、インターフェイス140などの非リムーバブルメモリインターフェイスを介してシステムバス121に接続され、磁気ディスクドライブ151および光ディスクドライブ155は一般に、インターフェイス150などのリムーバブルメモリインターフェイスによってシステムバス121に接続される。
上述し、図1に示したドライブおよびその関連のコンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、およびコンピュータ110の他のデータの記憶を提供する。図1では例えば、ハードディスクドライブ141は、オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147を記憶するものとして示されている。これらの構成要素は、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136、およびプログラムデータ137と同じであっても、異なっていてもよいことに留意されたい。オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147は少なくとも異なるコピーであることを示すために、ここではそれらに異なる番号を付している。ユーザは、キーボード162、および一般にマウス、トラックボール、またはタッチパッドと呼ばれるポインティング装置161などの入力装置を介してコマンドおよび情報をコンピュータ110に入力することができる。
さらに、コンピュータ110は、マイクロフォン198やマイクロフォンアレイなどの発話音声入力装置、および音声インターフェイス199を介して接続される拡声器197または他の音声出力装置を含むこともできる。他の入力装置(図示せず)には、ジョイスティック、ゲームパッド、衛星パラボラアンテナ、スキャナ、無線受信機、テレビまたはブロードキャストビデオ受信機などがある。これらおよび他の入力装置は、しばしばシステムバス121に結合されているユーザ入力インターフェイス160を介して処理ユニット120に接続されるが、例えばパラレルポート、ゲームポート、ユニバーサルシリアルバス(USB)など他のインターフェイスおよびバス構造で接続してもよい。モニタ191または他のタイプの表示装置もまた、ビデオインターフェイス190などのインターフェイスを介してシステムバス121に接続される。モニタに加えて、コンピュータは、出力周辺インターフェイス195などを介して接続できるプリンタ196などの他の周辺出力装置を含むこともできる。
コンピュータ110は、リモートコンピュータ180など1つまたは複数のリモートコンピュータへの論理接続を使用してネットワーク式環境で動作することができる。リモートコンピュータ180は、パーソナルコンピュータ、サーバ、ルータ、ネットワークPC、ピア装置、または他の一般のネットワークノードでよく、一般にコンピュータ110に関連して上述した多くまたはすべての要素を含むが、図1にはメモリ記憶装置181のみを示している。図1に示した論理接続は、ローカルエリアネットワーク(LAN)171および広域ネットワーク(WAN)173を含むが、他のネットワークを含んでいてもよい。こうしたネットワーキング環境は、オフィス、全社規模のコンピュータネットワーク、イントラネット、およびインターネットではごく一般的である。
LANネットワーキング環境で使用する場合、コンピュータ110は、ネットワークインターフェイスまたはアダプタ170を介してLAN171に接続される。WANネットワーキング環境で使用する場合、コンピュータ110は一般に、モデム172、またはインターネットなどWAN173を介して通信を確立する他の手段を含む。モデム172は、内蔵のものでも外付けのものでもよく、ユーザ入力インターフェイス160または他の適切な機構を介してシステムバス121に接続することができる。ネットワーク式環境では、コンピュータ110に関連して示したプログラムモジュール、またはその一部をリモートメモリ記憶装置に格納することができる。図1は、それだけには限定されないが一例として、リモートアプリケーションプログラム185をメモリ装置181上に存在するものとして示している。図示したネットワーク接続は例であり、コンピュータ間の通信リンクを確立する他の手段を使用してもよいことは理解されよう。
動作環境の例について説明してきたが、この説明の残りの部分は、デジタルオーディオ信号内の信号フレームを自動的に伸張し、圧縮する「時間音声スケーラ」を具現化するプログラムモジュールおよびプロセスの説明に当てる。
(2.0 はじめに)
オーディオ信号の時間スケール変更のより古典的な用途では、信号の時間スケール全体を数倍減速または高速化させ、聞き取り時間を短縮し、または了解度を向上させている。その用途に加えて、この2、3年で、インターネットなど損失の多い遅延しがちなパケットベースのネットワークを介して送信され、次いでクライアントコンピュータまたは受信機で復元される信号の品質を向上させるために、発話音声を含むオーディオ信号の時間スケール変更も使用されている。例えば、多くの応用分野では、発話音声を含むオーディオ信号の1つまたは複数のフレームを伸張または圧縮することが望ましい。
一般に伸張は、信号内の発話音声の了解度を向上させるため、損失した、過度に遅れた、または雑音の多いフレームを置き換えるため、またはジッタ解除アルゴリズムで遅延した発話音声データを待つときに追加の時間を提供するために使用される。同様に、オーディオ信号の短縮または圧縮は、一般に聞き取り時間を短縮し、信号のビット伝送速度を短縮し、信号のフレームを高速化して伝送時間全体を短縮し、信号フレームの何らかのタイプの処理に続いて信号をほぼリアルタイムで送信できるように伝送遅延を短縮するために使用されている。これらの使用を考慮すると、復元された信号内の知覚し得る歪みを最低限に抑えながら高品質出力を提供する発話音声の伸張および圧縮のためのシステムおよび方法が明らかに必要である。
高品質の音声の伸張および圧縮のこの必要性に取り組むために、パケットベースのネットワークを介して受信されたオーディオ信号のフレームを自動的に伸張し圧縮する、順応性のある「時間音声スケーラ」が提供される。本明細書に記載した時間音声スケーラは、オーディオ信号の伸張および圧縮を含む時間的スケーリングのためのシステムおよび方法を提供する。以下の段落では、この時間音声スケーラについて説明する。
一般に、時間音声スケーラは、オーディオ信号内の発話音声の部分など、音声フレームの局部的な時間スケール変更を提供する。本明細書に記載した手法は、信号のフレームの伸張および圧縮に適用される。さらに、時間音声スケーラは、隣接するフレームを参照する必要なく、特定のフレームの可変の伸張および圧縮を提供することができる。このことは、隣接するセグメントが利用できない(または損失した)応用分野では重要となり得る。さらに、時間音声スケーラによって提供された伸張および圧縮の可変性は、セクション3.1に示すように、1つまたは複数のその後のフレームを可変的に伸張または圧縮して、現在のフレームの平均から抜け出た任意の伸張または圧縮を補償する「繰越し」技術を使用することによって所望の総平均圧縮率(または総平均伸張率)を維持しながら次のフレームで補償される所望の比率との圧縮率のわずかな差を許容する。
(2.1 システムの概要)
上述したように、時間音声スケーラは、まず、オーディオ信号からフレームを受信または抽出し、そのフレームを伸張または圧縮することによってフレームの時間特性を変更し、現在のフレームの伸張または圧縮が対象の伸張率または圧縮率と等しいかどうかを決定し、次いで実際の伸張率または圧縮率と対象の伸張率または圧縮率との間に差がある場合はそれを次のフレームに適用される伸張または圧縮に追加することによって、特定のフレーム(またはセグメント)の伸張および圧縮を提供する。
さらに、各フレームを伸張または圧縮する前に、時間音声スケーラは、まず現在のセグメントのタイプを決定し、次いで識別されたセグメントタイプに固有の伸張または圧縮プロセスを適用する。例えば、発話音声を含むオーディオ信号内の任意の特定のフレームの各セグメントは、発話または他の何らかの有声の発語を含む「有声」(voiced)セグメント、任意の発話または他の発語を含まない「無声」(unvoiced)セグメント、または有声成分および無声成分を含む「混合」(mixed)セグメントのいずれかである。
最適な結果を達成するために、時間音声スケーラは、特に伸張または圧縮される特定のセグメントタイプを対象とした可変の伸張および圧縮を提供する。したがって、セグメントの特定のタイプ、すなわち有声、無声、混合が識別されると、特定のセグメントタイプに固有の伸張または圧縮プロセスがセグメントフレームに適用されて、必要に応じて現在のフレームが伸張または圧縮される。まだ未知の発話音声セグメントへのより良い遷移を確実にするために、フレームタイプごとに個別の各方法を使用すると、各フレームの終端は、できるだけ変更されない、または全然変更されないことに留意されたい。
さらに、上述した様々なセグメントタイプおよび伸張方法が与えられた場合、現在のフレーム内のどの点がそのフレームを伸張するのに最適な点であるかという問題が依然として存在する。例えば、信号の20ms部分などの比較的短いフレーム内でさえ、1つまたは複数の遷移点、または2、3ミリ秒の沈黙さえ存在することが多い。こうした場合、フレームを伸張すべき特定の点を選択することが有利である。したがって一実施形態では、各セグメントの(低いほど良い)エネルギーと、その一致を含むそのセグメントについて見つけられた(高いほど良い)正規化相関係数との組合せに基づいて伸張すべき場所の決定が行われる伸張「品質」手法が使用される。
例えば、一般的な場合、20msフレームは、それぞれ5msの4つのサブフレームまたはセグメントに分割される、あるいは、ほぼ推定されたピッチ周期を有する潜在的に重複するサブフレームに分割される。特定のサブフレームの計算されたエネルギーが十分低い場合、遷移は、そのフレーム内に存在すると考えられる。次いでエネルギーの最も低いサブフレームが伸張に選択される。しかし、エネルギーが十分には低くない場合、遷移がフレーム内に存在する見込みはなく、各サブフレームの一致の正規化自己相関を使用して伸張すべき最適な一致が選択される。
一般に、フレーム内のセグメントの圧縮は、セグメントの伸張に関して上述したものと同じようなやり方で扱われる。例えば、セグメントを圧縮するとき、セグメント内からテンプレートが選択され、一致の検索が行われる。一致が識別されると、セグメントが窓掛けされ、重複され、加算される。しかし、正規化相互相関が小さすぎる場合、上述したように、セグメントが無声セグメントである可能性がある。この場合、無作為のまたは所定のシフトが定数平方和窓などの窓関数とともに使用されてセグメントが所望の量に圧縮される。
さらに、圧縮すべき特定のセグメントの選択も重要な問題である。例えば、フレーム内のすべてのセグメントを均等に圧縮する代わりに、まず、上述したようにセグメントのタイプを決定し、次いでそのタイプに基づいて特定のセグメントを選択的に圧縮することによってより良い結果が達成される。例えば、無声セグメントまたは過渡事象の圧縮を回避しながら、発話音声、沈黙、または単なる雑音を表すセグメントを圧縮することは、知覚し得る歪みがより少ない復元信号を生成する。次に、発話音声、沈黙、または単なる雑音を表すセグメントを圧縮することによって十分な圧縮が達成できない場合、非遷移無声セグメントが上記と同じように圧縮される。最後に、有声セグメントまたは非遷移無声セグメントの圧縮によって十分な圧縮を達成できない場合、遷移を含むセグメントが圧縮される。当然、各タイプ内の圧縮の機会を前もって計算することができない場合、圧縮すべき最適なセグメントは、各ステップで計算することができる。圧縮のこの階層型手法は、復元された信号内の知覚し得る歪みを限定するよう働く。
(2.2 システムアーキテクチャ)
上記で概要を述べたプロセスは、図2の全体的なシステム図によって示されている。特に、図2のシステム図は、オーディオ信号のフレームを伸張、圧縮するために時間音声スケーラを実施するプログラムモジュール間の相互相関を示している。ボックスおよび図2の波線によって表されるボックス間の相互関係は、本明細書に記載した時間音声スケーラの代替実施形態を表し、下記で説明するように、これらの代替実施形態のいずれか、またはすべては、この文書全体にわたって記載する他の代替実施形態と一緒に使用することができることに留意されたい。
図2で示すように、オーディオ信号のフレームをリアルタイムで伸張、圧縮するためのシステムおよび方法は、信号入力モジュール200を介して入力信号を受信することによって開始する。この信号入力モジュール200は、今生成された、コンピュータに格納されている、または例えばインターネットなどパケットベースのネットワーク、または従来の音声ベースの通信ネットワークを含む他のパケットベースのネットワークを介して送信されるパケット化されたオーディオ信号から復号化されたオーディオ信号を受信する。信号入力モジュール200がパケットを受信し、または復号化すると、パケットは、フレーム抽出モジュール205に提供される。次いでフレーム抽出モジュール205は、入力信号から現在のフレームを抽出する。
一実施形態では、フレーム抽出モジュール205は、次いで現在のフレームを、フレーム全体、またはそのフレーム内のセグメントのいずれかまたは両方のピッチ周期を推定するピッチ推定モジュール210に提供する。この実施形態では、セグメントは、ほぼフレームの平均ピッチ周期の長さに選択される。しかし、実際のセグメント長は、計算の効率のために選択することができ、例えばより小さいセグメントを使用すると、FFT計算がより簡単になる。さらに、セクション3.2にさらに詳しく説明するように、これらのピッチ周期ベースのセグメントは、重複していてもよい。現在のフレームを含むセグメントは、次いでセグメントタイプ検出モジュール215に提供される。
あるいは、フレーム抽出モジュール205は、フレームを単に等しい長さのいくつかのセグメントに分割するセグメントタイプ検出モジュール215に現在のフレームを直接提供する。
いずれの場合でも、セグメントタイプ検出モジュール215は、次いで現在のフレーム内のセグメントのタイプの決定を行い、現在のフレームをそれぞれ適切な伸張または圧縮モジュール220、225、230、または240に提供する。特に、セグメントタイプ検出モジュール215は、まず、現在のフレームが有声セグメントを含んでいるか、無声セグメントを含んでいるか、または混合セグメントを含んでいるかを決定する。フレームが伸張される場合、セグメントタイプ検出モジュールは、次いで現在のフレームを有声セグメント伸張モジュール220、無声セグメント伸張モジュール225、または混合セグメント伸張モジュール230に提供する。現在のフレームが圧縮される場合、セグメントタイプ検出モジュールは、次いで現在のフレームをセグメント圧縮モジュール240に提供する。
有声セグメント伸張モジュール220は、セクション3.2.1で詳しく説明するように、テンプレートとフレームとが一致する信号の部分を配列し、マージする窓掛け同期重複加算(SOLA)手法を使用することによって動作する。しかし、有声セグメントを伸張する従来のシステムとは異なり、時間音声スケーラの有声セグメント伸張モジュール220は、参照またはテンプレートとして使用されるセグメントの位置を入れ替え、したがって従来の発話音声伸張アルゴリズムと同様に、テンプレートが常にセグメントの終端から取得されるとは限らないようにすることによって、復元された信号内の知覚し得る周期的な歪みをさらに低減する。特に、テンプレートは、フレームの終端、フレームの先端、またはフレーム内の様々な位置から取得することができる。
これに対して、無声セグメント伸張モジュール225は、セクション3.2.2で詳しく説明するように、1つまたは複数の合成信号セグメントを生成し、次いでそれらが現在のセグメントまたはフレームに挿入されることによって現在のセグメントまたはフレームを伸張するように動作する。一般に、合成セグメントは、非周期的な信号を現在のフレームと似たスペクトルと合成することによって任意の所望の長さで作成される。さらに、合成された信号は、合成された信号への周期の導入を回避するために、元のフレームとの相関がないことが望ましい。
例えば、一実施形態では、これは、単一のセグメントが挿入されるか複数のセグメントが挿入されるかに応じて、現在のフレームのすべてまたは一部のフーリエ変換を計算し、その位相のランダムな回転をFFT係数に導入し、次いで単にセグメントごとに逆FFTを計算することによって達成される。これは、同様のスペクトルを含む信号セグメントは生成するが、元のセグメントとの相関はない。さらに、FFTを計算する前に信号をゼロ詰めすることにより、より長い信号を取得することができる。これらの合成信号は、次いで窓関数を使用して元のセグメントと生成されたセグメントとの間の遷移点を平滑化することによって現在のセグメントまたはフレームの中央に挿入される。
混合セグメント伸張モジュール230は、セクション3.3で詳しく説明するように、上述した有声方法および無声方法の両方の組合せを使用することによって動作する。具体的には、信号は、有声方法および無声方法の両方を使用して現在の混合セグメントから生成される。次いでこれらの信号は結合されて、有声信号および無声信号を含む合成信号が生成される。一実施形態では、合成信号を形成する成分は、上記の正規化相互相関ピークを介して決定されたように、有声または無声のデータの比例する内容に比例して、重み付けモジュール235を介して重み付けされる。
セグメント圧縮モジュール240は、セクション3.4で説明するように動作する。一般に、セグメントの圧縮は、セグメントの伸張に関して上述したものと同じようなやり方で扱われる。特に、セグメントの圧縮は、上述したフレームまたはセグメントの伸張と同じようにフレームまたはセグメントタイプベースで扱われる。図2において理解しやすくするために、セグメントの圧縮は、様々なセグメントタイプの圧縮を表すために3つのプログラムモジュールを使用する代わりに、「セグメント圧縮モジュール240」という名前の単一のプログラムモジュールとして示されている。しかし、基本のセグメントタイプ、すなわち有声セグメント、無声セグメント、および混合セグメントの伸張と同じように、これらの同じセグメントタイプの圧縮もやはり、各セグメントタイプに固有の異なる方法を使用して扱われることを理解されたい。
特に、有声セグメントを圧縮するとき、セグメント内からテンプレートが選択され、一致の検索が行われる。一致が識別されると、セグメントが窓掛けされ、重複され、加算され、テンプレートと一致との間の信号が切り取られる。その結果、セグメントは短縮または圧縮される。これに対して、無声セグメントを圧縮するとき、無作為のまたは所定のシフトが定数平方和窓などの窓関数とともに使用されてセグメントが所望の量に圧縮される。最後に、混合セグメントは、有声方法および無声方法の重み付けされた組合せを使用して圧縮される。しかし、セクション3.4でさらに詳しく説明するように、様々なセグメントタイプを圧縮して1つまたは複数のフレームにわたって所望のまたは対象の圧縮率を達成するために(有声セグメントが最初、次に無声セグメント、その後混合セグメントという)明確な優先順位がある。セグメントの終点の変更を回避し、したがってフレームの伸張と同じように、過渡事象または可聴歪みがフレームまたはセグメントの間に導入されないように、セグメントの圧縮中に注意が払われる。
有声、無声、または混合の各場合で、それぞれ対応する伸張または圧縮モジュール220、235、230、または240は、次いで伸張または圧縮されたフレームを伸張または圧縮されたフレーム245のバッファに提供する。一実施形態で、現在のテンプレートに一致するセグメントについての信号内における過去の最近の検索を可能にするために一時フレームバッファ250が使用される。伸張または圧縮されたセグメントが伸張され、圧縮されたフレーム245のバッファに提供されると、255で所望のまたは対象の伸張または圧縮が達成されたかどうかに関する決定が行われる。達成されていない場合、260で単に実際の値と対象の値との間の差を次のフレームに加えることによって、対象の伸張または圧縮の間の差が次のフレームの対象の圧縮に加味される。いずれの場合も、この時点では、次のフレームは、205で入力信号から抽出され、入力信号の終端に到達するまで、またはプロセスが終了するまで上記のプロセスが繰り返される。一部の応用分野では、入力時に信号が容易に入手できない場合、フレームを、バッファ250に依然として存在している信号から選択することができる。
伸張、圧縮されたフレーム245のバッファは、必要に応じて再生またはそれ以上の処理に使用可能であることに留意されたい。したがって、一実施形態では、信号出力モジュール270は、伸張されたフレームおよび圧縮されたフレームを出力するためのアプリケーションとのインターフェイスをとるために提供される。例えば、こうしたフレームは、有声ベースの通信システムの一部として聞き手に対して再生することができる。
(3.0 動作の概要)
上記のプログラムモジュールは、音声ファイルのセグメントの自動時間スケーリングを提供するために、時間音声スケーラにおいて使用される。一般に、上記で概要を述べたように、この時間スケーリングは、単一の信号フレームと同じぐらい小さいセグメント上で行うことができる可変の伸張および圧縮を提供する。時間音声スケーラによって提供された伸張および圧縮の可変性は、「繰越し」技術を使用することによって所望の総平均圧縮率(または総平均伸張率)を維持しながら、所望の率との圧縮率のわずかな差を次のフレームで補償できるようにする。以下のセクションでは、セクション2に記載したプログラムモジュールを実施するための方法例の運用について詳しく説明する。
(3.1 対象の圧縮率/伸張率の維持のための繰越し)
上述したように、時間音声スケーラは、全体として信号の所望の圧縮率/伸張率を維持しながら、フレームの可変の圧縮または伸張に「繰越し」プロセスを使用する。例えば、対象の圧縮率は特定の信号について2:1であり、各入力フレームは300個のサンプルを有している場合、対象の各出力フレームは、名目上150個のサンプルを有している。しかし、特定のフレームが例えば150個のサンプルでなく、180個のサンプルに圧縮された場合、30個の余分のサンプルは、その対象の圧縮を120個のサンプルに設定することによって次のフレームで補償される。したがって、180および120のブロックサイズでは、平均ブロックサイズは依然として150であり、平均圧縮率は2:1である。その次のフレームの内容(、すなわちセグメントタイプ)に応じて、120個のサンプルに圧縮することは、最適な結果を提供しない場合があることに留意されたい。したがって、120個のサンプルの例は対象にすぎず、実際の圧縮または伸張は、所望の平均を確保するようにその後のフレームの対象の圧縮または伸張を設定するために使用される。
したがって、その後の複数のフレームを伸張または圧縮して所望の平均を維持することができる。例えば、上記の例を使用して、180個のサンプルに圧縮されたフレームの次のフレームが130個のサンプルに圧縮される場合、次のフレームの対象の圧縮は、3つのフレームにわたって150個のサンプルの平均を提供するために140個のサンプルの対象圧縮となる。この繰越し技術の使用によって、任意の特定の出力フレームの長さに対する緩やかな要件のみが維持されるとともに、任意の所望の圧縮率(または伸張率)が維持される。
この繰越し技術の結果、復元された信号内の知覚し得る任意の歪みを最低限に抑えるために、必要に応じて各個々のフレームが最適に伸張または圧縮されるため、伸張または圧縮による損失または遅延したパケットの補償が極めてフレキシブルとなる。時間音声スケーラのこの機能は、例えばリアルタイム通信システムにおけるジッタ解除およびパケット損失の隠蔽などのいくつかの応用分野を補完する。
(3.2 セグメントの内容ベースの伸張)
上述したように、各フレームの伸張または圧縮前に、時間音声スケーラは、まず現在のフレームのタイプを決定し、次いでフレームタイプ固有の伸張または圧縮プロセスを現在のフレームに適用する。例えば、発話音声を含むオーディオ信号内の各フレームは、発話または他の何らかの有声の発語を含む「有声」フレーム、発話や他の発語を含まない「無声」フレーム、または有声成分および無声成分の両方を含む「混合」フレームのいずれかである。最適な結果を達成するために、時間音声スケーラは、特に伸張または圧縮される特定のフレームタイプを対象とした可変の伸張および圧縮を提供する。したがって、個別の一意の伸張方法および圧縮方法がフレームの各タイプ、すなわち有声、無声、または混合に適用される。
したがって、そのフレームが有声であるか、無声であるか、または混合であるかに関する決定は、現在のフレームを伸張または圧縮する前に行われる。この決定を行う際に、人間の発話の自然な周期性は有用な案内となる。一般に、セグメントタイプに関する決定は、信号の潜在的に周期的な部分がどれぐらい緊密に一致しているかに応じて行われる。例えば、まだ再生されていないオーディオ信号の特定のサンプルを伸張または圧縮する際に、最初のステップは、伸張または圧縮されるサンプルからより小さいセグメントまたはサブサンプルを選択することである。次のステップは、信号内の類似する、または一致する近くのセグメントを見つけることであるため、このサブサンプルは、「テンプレート」と呼ばれる。一致するセグメントは、圧縮されるサンプル内にある、または前に再生されたセグメント内にあり得ることに留意されたい。したがって、利用可能な場合、最も最近再生されたセグメントは、一致するセグメントを探す目的で、一時バッファに維持される。テンプレートに一致するセグメントの検索は、例えば正規化相互相関法または類似の技術など、従来の信号一致技術を使用して行われる。さらに、検索範囲は、信号の「ピッチ」に互換性のある範囲に限定されることが好ましい。
当分野の技術者にはよく知られているように、発話音声などの有声の音声は、声道内の共鳴を刺激する準周期的なパルスに気流を変調する声帯の振動によって生成される。これらのパルスの割合は一般に、基本周波数または「ピッチ」と呼ばれる。一般に、有声の音声セグメントの周期または「ピッチ周期」は、有声音声信号の時間領域表現における最も大きい振幅の正または負のピークの間の時間を表す。発話音声信号は、実際には完全には周期的ではないが、推定されるピッチ周波数およびその逆数、ピッチ周期は、発話音声信号のモデリングに依然として非常に有用である。以下の説明では、ピッチおよびピッチ周期の両方に言及することに留意されたい。ピッチを決定するためのかなり入念な方法はある。しかしこれらの概念は、当分野の技術者にはよく知られているように、本明細書に記載されているピッチおよびピッチ周期の決定は、単に相互相関のピークを見つけることに基づく基本的なものである。
したがって、有声セグメントを有する信号の部分は、人間の発話または発語のピッチまたは周期の結果、必然的により高い周期性を有する。したがって正規化相互相関のピークの強度は、特定のセグメントが有声であるか、無声であるか、または混合であるかの洞察を提供し、ピークの位置は、ピッチ周期の実際値の推定を提供する。例えば、セグメントが含む発話音声がより多くなるにつれて、正規化相互相関ピークが大きくなり、セグメントが含む発話音声がより少なくなるにつれて、一般に信号内での周期がより少なくなり、その結果より正規化相互相関ピークが小さくなる。
正規化相互相関のピーク値を所定の閾値と比較して、特定のセグメントが有声セグメントであるか、無声セグメントであるか、または有声セグメントと無声セグメントとの混合物、すなわち混合セグメントであるかが決定される。検査済みの実施形態では、約0.4と約0.95の間のピーク値は、混合セグメントを識別するために使用され、約0.95を上回るピーク値は、有声セグメントを識別するために使用され、約0.4を下回るピーク値は、無声セグメントを識別するために使用された。特定のタイプのセグメントが識別されると、セグメントタイプ固有の伸張または圧縮プロセスが現在のフレームに適用されて、必要に応じて現在のフレームが伸張または圧縮される。別の検査済みの実施形態では、混合として分類されたフレームがなく、有声フレームと無声フレームとの間の閾値が0.65に設定された。
(3.2.1 有声セグメントの伸張)
フレーム内の有声セグメントを伸張するとき、窓掛け重複加算(SOLA)手法は、セグメントの一致する部分を配列し、マージするために使用される。一般に窓は、上昇部分(raising part)wa[n]および減衰部分(decaying part)wb[n]に分けられる。次いで重複する信号にこれらの窓を掛けて遷移を平滑化する。より具体的には、過去まで延びる信号には減衰窓を掛け、将来まで延びる信号は上昇窓を掛ける。さらに、配列された信号は相関関係があるため、本明細書では、ゼロに収束し、加算されると合計が1になる、すなわちwa[n]+wb[n]=1となるハニング窓など従来の窓を使用して、フレームの伸張された部分の境界での歪みを無くす、または低減する。こうした窓は、当分野の技術者にはよく知られている。
しかし、有声セグメントを伸張する従来のシステムとは異なり、時間音声スケーラは、参照またはテンプレートとして使用されるセグメントの位置を入れ替え、したがって従来の発話音声伸張アルゴリズムと同様に、テンプレートが常にセグメントの終端から取得されるとは限らないようにすることによって、復元された信号内の知覚し得る周期的な歪みをさらに低減する。特に、テンプレートは、フレームの終端、フレームの先端、またはフレーム内の様々な位置から取得することができる。例えば、一実施形態では、遷移窓の中間点が波形のエネルギーの低い点に配置されるようにテンプレートが配置される。テンプレートのこの配置は、復元された信号内の知覚し得る歪みをさらに低減するよう働く。この伸張プロセスは、現在のフレームの伸張の所望のレベルを達成するのに必要な回数だけ繰り返されることに留意されたい。
検査済みの実施形態では、図3に示したように、ピッチの初期推定値を使用して、所望の長さを達成するためにセグメントを何回伸張(または圧縮)する必要があるかを推定する。特に、各反復は信号を約1ピッチ周期だけ圧縮または伸張するため、適切な推定値は反復の回数Kであり、式1によって次のように提供される。
Figure 2005084692
式中、pは、現在のセグメントの初期ピッチ推定値である。次いでテンプレートは、伸張されるセグメント上に均等に配分される。さらに、信号の過去の履歴を利用可能な場合、テンプレートの前のその領域内で一致が検索される。あるいは、過去の履歴を利用できない場合、どこでより多くのデータを利用可能であるかに応じて現在のセグメントの前または後で一致の検索が行われる。
具体的には、図3に示したように、プロセスは、300で入力オーディオ信号から次の現在のフレームx[n]を取得することによって開始する。次いで310で、使用している従来の方法のために、初期ピッチ推定値pが計算される。一実施形態では、現在のフレームのこの初期ピッチ推定値は、単に受信されたフレームの平均ピッチである。
次に320で、初期ピッチ推定値p、現在のセグメントサイズ、および所望のフレームサイズに応じて、信号を伸張するのに必要な反復回数が推定される。例えば、各反復は信号を約1ピッチ周期だけ伸張または圧縮するため、反復回数は、例えば式1によって提供されたものなど、ある方法を使用して容易に推定することができる。明らかに、現在のセグメントサイズと所望のサイズとの間の差を割り、さらに推定されたピッチサイズで割ることによって、結果的にセグメントを所望のサイズに伸張または圧縮するのに必要な反復回数の適切な推定値となる。
320で反復回数が推定されると、330で反復カウンタiがゼロに初期設定される。次いで340で、再度従来の技術を使用して、現在のセグメントのより小さい部分、すなわちサブセグメントまたはサブフレームについて、現在のセグメント内の現在のサンプル位置s[i]でピッチpが推定される。次いで350で、従来の窓掛け重複加算(SOLA)手法が使用されてテンプレートをピッチ周期だけスライドし、テンプレートをセグメントに重ね、加算して位置s[i]でのセグメントのピッチ周期の長さだけセグメントが伸張される。
次いで360で、所望のセグメントサイズが達成されるかどうかに関する決定が行われる。360で所望のサイズに到達しなかった場合、現在のサンプル位置の場所s[i]が、反復回数Kに応じて調整され、340でピッチpを推定し、350で窓掛けしてセグメントを伸張するための上記のステップが、360で所望のセグメントサイズに到達するまで繰り返される。最後に、360で所望のサイズに到達すると、伸張されたフレームは、必要に応じて再生または使用することができるように、380で、伸張されたフレーム390のバッファに出力される。さらに、395で、処理すべきフレームがさらにあるかどうかに関する決定もこの時点で行われる。395で、処理すべきフレームがそれ以上ない場合、プロセスは終了する。しかし、395で、処理すべきフレームがさらにある場合、300で次の現在のフレームが取り出され、上記のステップ310から395までのステップを繰り返す。
フレームの終端からテンプレートを選択するとき、ほとんどの従来の発話音声伸張システムと同じように、一致するセグメントについて過去において検索することによって、すなわちそれまでの信号内を検索することによって、テンプレートの一致が達成される。したがってこの場合、フレームおよびテンプレートの長さに応じて、1つまたは複数のすでに再生されたフレームのバッファを維持することが必要となり得る。次いで一致するセグメントは、ステップ350を参照して説明したように、従来の技術を使用して配列され、マージされ、それによって現在のフレームの長さが伸張される。
あるいは、従来の発話音声伸張システムとは異なり、時間音声スケーラは、フレームの先端からテンプレートを引き出すこともできる。この場合、特に過去のフレームを利用できない場合は、一致するセグメントについて将来において、すなわちその後の信号内を検索する必要がある場合がある。したがってこうした場合、現在のテンプレートに一致するセグメントについて局所の将来の信号を検索することによって、そのフレームを再生する前に現在のフレームの伸張を可能にするために、遅延を伴うバッファに入れられたフレームを有している必要がある。これは、いくつかのピッチ周期を含むほど十分長いフレームサイズを要求することによって達成することができる。
さらに、この場合もまた従来の発話音声伸張システムとは異なり、フレームの先端または端部からテンプレートを選択することに加えて、テンプレートは、フレーム内の、現在のフレームの先端と終端との間のどこかの場所から選択することもできる。この場合、テンプレートへの一致は、上述したように、現在のフレーム内の選択されたテンプレートの場所に応じて、過去または将来を検索することによって識別される。
一実施形態では、テンプレートの場所の選択が入れ替えられて、現在のフレーム内の任意の点で周期があまりに均等すぎることから生じる知覚し得る歪みの導入が最低限に抑えられる。この機能は、所与の任意のフレームに適用される伸張の量が2、3のピッチ周期を超えて増加するときに、特に重要となる。実際に、所与の任意のフレームの場合に所望のフレーム長を達成するのに複数の伸張操作が必要となり得るため、上述したやり方で、繰り返される伸張操作について現在のフレーム内の操作ごとに異なるテンプレートが選択される可能性があり、そのため所与の任意の点での周期は、知覚し得る歪みをもたらさない。
さらに、一実施形態では、時間音声スケーラは、現在のフレームのために計算された平均ピッチ周期と同じサイズの可変セグメントサイズも使用する。さらに、関連の実施形態では、次いで現在のフレームの伸張の所望のまたは対象の長さを現在のフレームの推定された平均ピッチ周期で割り、次いで次の整数に切り上げることによって、伸張の反復回数が推定される。この実施形態では、次いで現在のフレームは、伸張の推定された反復回数と等しいいくつかのテンプレートに分割され、各テンプレートは、推定された平均ピッチ周期に等しいサイズを有する。これらのテンプレートは、次いで現在のフレームを通じて等間隔で配置される。その結果テンプレートは、テンプレート長、テンプレート数、およびフレーム長に応じて重なっていてもよい。
関連の実施形態では、伸張操作において歪みを確実に最低限に抑えるために、各テンプレート内のエネルギーは、各テンプレートが局所の信号ピークを1つだけ含むように、テンプレートが確実にフレーム内に配置されるようにすることによって、最低限に抑えられる。特に、任意の特定のテンプレート内の任意の局所の信号ピークがテンプレートのいずれかの縁からテンプレートの長さの約1/3または1/2程度となるように、テンプレートは、フレーム内にほぼ均一に配置される。フレーム内でのテンプレートのこうした配置は、各テンプレートが確実に局所の信号ピークを1つだけ含むようにする。その結果、各テンプレートによって含まれる信号のエネルギーは最低限に抑えられ、それによって伸張された信号内の歪みが低減された伸張が可能となる。
(3.2.2 無声セグメントの伸張)
無声セグメント、すなわち沈黙、雑音、他の非周期的音声などの伸張は、かなり異なるやり方で扱われる。特に、セグメントを延長するためにテンプレートに一致する1つまたは複数のセグメントの反復が使用される有声セグメントの伸張のプロセスとは異なり、本明細書では、周期の導入を回避することが重要である。その理由は、人間の聞き手は、こうしたセグメント内に人工的に導入された周期を容易に識別することができるからであり、こうした周期は、復元された伸張済みの信号内に信号の歪みとして現れる。したがって、テンプレートに一致するセグメントを追加するより、現在のセグメントは、所望の長さの異なる信号セグメントを生成し、現在のセグメントと似たパワースペクトルを有することによって変更される。次いでこの生成された信号は、元のセグメントと生成されたセグメントとの間の遷移点を平滑化する窓関数を使用して、現在のフレームの中央に挿入される。さらに、関連の実施形態では、生成されたセグメントのエネルギーは、復元された信号内の任意の顕著な歪みをさらに低減させる目的で、約30%程度の所定のパーセントだけさらに低減される。
さらに別の関連の実施形態では、単一の合成セグメントを使用して無声フレームを伸張する代わりに、複数の合成セグメントが生成され、元の無声フレーム内の様々な点に挿入されて所望のフレーム全長が達成される。この実施形態は、より小さいFFTを使用してより小さいセグメントを計算することができ、したがって必要な計算のオーバーヘッドを低減することができるという利点も提供する。この実施形態は、単一のより長い合成信号セグメントを使用することと比較して、知覚的に優れた伸張されたフレームを生成することがわかることに留意されたい。この実施形態では、フレームの様々なセグメントが等しく伸張または圧縮される。例えば、検査済みの実施形態では、FFTのサイズは、例えば128個のサンプルなど、事前に定義された長さに設定される。
次いで所望の最終サイズを取得するのに必要な重複するセグメントの数が計算される。この計算はフレームの先端または終端を変更することは望ましくないという事実を考慮に入れるべきであることに留意されたい。これは、最初および最後のセグメントを変更せず、次いで隣接する(、場合により合成された)セグメントを混入出し(、つまり重複/加算)することによって達成することができる。したがって、フレームの最初および最後の半分のセグメントは、計算すべき合成セグメントの数を計算する際にフレーム長から差し引かれる。したがって、等しいサイズの合成セグメントの数n(、およびしたがって現在のフレーム内の元のセグメントの数)は、次のように式2で容易に計算される。
Figure 2005084692
次いでn個の計算された合成セグメントは、フレームのn個の各セグメントの中心にセグメントを挿入することによってフレームにわたって均等に配分される。
いずれの場合も、合成信号セグメントは、現在のフレームと似たパワースペクトルを有するように作成される。これは、単一のセグメントが挿入されるか複数のセグメントが挿入されるかに応じて、現在のフレームのすべてまたは一部のフーリエ変換を計算し、その位相のランダムな回転をFFT係数に導入し、次いで単にセグメントごとに逆FFTを計算することによって達成することができる。これは、同様のスペクトルを含む単一のセグメントは生成するが、元のセグメントとの相関はない。さらに、FFTを計算する前に信号をゼロ詰めすることにより、より長い信号を取得することができる。
上記で提供した例は、時間音声スケールの範囲を合成セグメントの作成を参照して説明した特定の実施形態に限定するものではないことに留意されたい。実際に、元の信号に似た、相関のないスペクトルを有する信号を生成する従来の技術が多く存在することを、当分野の技術者であれば理解されたい。例えばランダムな信号のLPCフィルタリング、および他の従来の技術を含むこうした任意の技術も、こうした合成信号セグメントの作成に使用することができる。
上述したように、現在のフレームは、次いで2つまたは複数のセクションに分割され、次いで合成セグメントが窓掛けおよび重複によりフレームの分割された部分に挿入されて、合成セグメントと元のフレームとの間の遷移が平滑化される。上記の実施形態のいずれでも、セグメントまたはフレームの先端または終端は、まったく変更されないままであることに留意されたい。その結果、このプロセスは、そうでなければ一致しないフレームまたはセグメントの境界から生じ得る歪みの生成を回避する。
さらに、有声セグメントに使用される窓掛けとは異なり、使用される好ましい重複平滑化窓(overlapping smoothing window)は、ここでは異なる。例えば、有声セグメントの伸張に使用する信号の重複部分は相関があるが、無声の場合の信号の重複部分は、理論上相関はない。したがってより良い結果、すなわち歪みの低減は、エネルギーを一定に保ち、2乗され、加算されると合計で1になる、すなわち(wa[n])+(wb[n])=1となる従来のサイン窓などを使用することによって、境界点で達成される。こうした窓は、当分野の技術者にはよく知られている。このプロセスは一般に、図4のステップ400から480で表される。
特に、図4に示すように、現在の信号フレームから合成信号セグメントを作成する一実施形態は、400で、入力オーディオ信号から次の現在のフレームx[n]を取得することによって開始する。次に、一実施形態では、結果として得られた合成セグメントが所望のフレーム長を達成するのに十分な長さのものとなるように、410で現在のフレームまたはセグメントx[n]がゼロ詰めされる。特に、この実施形態での410のゼロ詰めの量は、単にx[n]を、現在のフレームまたはセグメント長と、所望のフレームまたはセグメント長との間のサンプル内の差に等しいいくつかのゼロで埋めることによって決定される。
次に、x[n]が与えられた場合、410でゼロ詰めしているかいないかにかかわらず、420でFFTが計算される。このFFTの位相は、次いで430で無作為化される。次に440で、無作為化された位相を有するこのFFTから逆FFT y[n]が計算される。ステップ420から440のこのプロセスの結果、類似のスペクトルを有し、しかし元のセグメントx[n]との相関はない合成フレームまたはセグメントy[n]となる。次いで(ゼロ詰めされていない)元のフレームまたはセグメントx[n]は2つの部分に分けられ、y[n]は、例えば従来のサイン窓など、上記の従来の重複/加算プロセス450を使用してこれら2つの部分の間に挿入され、シームレスに追加されて伸張されたフレームが作成される。
次いで伸張されたフレームは、必要に応じて再生または使用することができるように、460で、伸張されたフレーム470のバッファに出力される。さらに、480で、処理すべきフレームがさらにあるかどうかに関する決定もこの時点で行われる。480で、処理すべきフレームがそれ以上ない場合、プロセスは終了する。しかし、480で、処理すべきフレームがさらにある場合、400で次の現在のフレームが取り出され、上記のステップ410から480までを繰り返す。
複数の合成セグメントを使用してフレームを伸張する上述した実施形態では、合成セグメントは、すべて等しい長さで、均等に配分されていた。しかし、関連の実施形態では、単に均等な配分を使用する代わりに、より低いエネルギーを呈するフレームの部分が、より高いエネルギーを有するフレームの部分より多く伸張される。この実施形態は、歪みをさらに低減するよう働く。しかし、この実施形態でさえ、前の実施形態より優れているが、望まれている以上の信号を変更し、したがって聞き手によって知覚し得る可聴の差がもたらされる可能性がある。
したがって、さらに別の関連の実施形態では、元の内容から変更されたデータ量が低減される。その結果、生成された部分的に合成の信号フレームまたはセグメントは、人間の聞き手にとっては元の信号に知覚的により似ている。特に、この実施形態では、単にいくつかの合成セグメントを作成する代わりに、伸張されたセグメントまたはフレーム内の知覚し得る歪みを最低限に抑えながら、できるだけ多くの元の信号を保持する方法で合成セグメントおよびコピーされた元のセグメントの混合が使用される。
例えば、別の実施形態では、図5に示すように、現在のフレームx[n]を直接扱う代わりに、図4を参照して説明したプロセスが変更されて、顕著な歪みをもたらし得る過渡事象の潜在的な伸張を回避するために、より小さいFFTを、より局所化されたスペクトル情報とともに生成する。特に、この実施形態では、現在の信号フレームから合成信号セグメントを作成することは、この場合もまた、500で、入力オーディオ信号から次の現在のフレームx[n]を取得することによって開始する。しかし、単一の合成セグメントを作成する代わりに、いくつかのより小さい合成セグメントが作成され、上記の重複/加算プロセスを介して挿入される。具体的には、直前のフレームと、生成される部分的に合成されたフレームとの間のより円滑な遷移を確実にするために、このプロセスは、まず現在のフレームx[n]を窓掛けして、505で元のデータを部分的に合成されたフレームy[n]になるものの先頭に混合することによって開始する。この窓掛けおよび混合を達成するための1つの方法を式3で示している。
Figure 2005084692
式中、Mは所望のセグメントサイズ、Nは現在のセグメントサイズ、FFTサイズは2K、およびw[n]は使用された混合窓(blending window)である。また、式3の最初の部分は単に、(例えば式7などで)将来使用するためにy[n]を初期設定していることに留意されたい。
次に510で、各長さが2Kサンプルの重複するセグメントの総数Tが計算される。この長さは、最初と最後のセグメントの半分を数えない、所望の最終のセグメントサイズを取得するために必要である。一般に、この計算510は、式4で示すように達成される。
Figure 2005084692
次に515で、重複するセグメントカウンタiがゼロに初期設定される。次いで元のデータ、すなわちx[n]内の開始点s、および点sで開始するx[n]の対応するサブセグメントz[n]が式5Aおよび5Bで示すように計算される。
Figure 2005084692
次に525で、z[n]に平滑化窓v[n]を掛け、平滑化されたサブセグメントのFFTが式6で示すように計算される。
Figure 2005084692
この時点で、結果として得られたFFT Z[w]の位相が次いで530で無作為化され、(例えばサイン窓の場合2となる)平滑化窓ゲインを補償するためにスケール変更され、535でZ[w]から逆FFT、u[n]が計算されて、同様のスペクトルを有し、しかし元のセグメントz[n]との相関はない合成サブセグメントが作成される。新しく合成された信号のサブセグメントu[n]は、次いで元の信号の位置sに挿入され、540で、例えば従来のサインウィンドウなど上記の従来の重複/加算プロセスを使用してシームレスに追加されて部分的に伸張されたフレームが作成される。これを式7で示す。
Figure 2005084692
この時点で、545で重複セグメントカウンタiが増分され、所望の最終のセグメントサイズを取得するために重複セグメントの総数Tが挿入されたかどうかに関する決定が550で行われる。550でさらに重複セグメントを計算する必要がある場合、すべての重複セグメントが計算され、x[n]に挿入されて部分的に合成された伸張セグメントy[n]が作成されるまで、上記のステップ520から550までが繰り返される。最後に、すべての重複セグメントが計算され、挿入されてy[n]が作成されると、y[n]と次のフレームとの間のより円滑な遷移を確実にするために、555でフレームy[n]の終端にx[n]からの元のデータとともに部分的に合成されたフレームy[n]を窓掛けすることによってプロセスが終了する。この窓掛けおよび混合を達成する1つの方法を式8で示している。
Figure 2005084692
上記の実施形態は、元の信号フレームまたはセグメントに挿入し、窓掛けするためにサブセグメントを計算する。しかし、計算されたサブセグメントは、元の信号フレーム内の内容または特定のサンプルに関する問題なく元の信号フレームにわたって均等に配分される。したがって、関連の実施形態では、図6に示すように、図5を参照して上述したプロセスは、まず、単に元のセグメント全体にわたって均等に伸張する代わりに、伸張すべきフレームまたはセグメント内の特定の点を選択することによってさらに向上される。さらに、この実施形態は、計算されたFFTの位相の無作為化がサブセグメントごとに適切かどうか、または各サブセグメントは、元の信号セグメントまたはフレームを伸張するために、重複/加算操作で未変更で使用できるかどうかに関する決定も行う。
したがって、図6に示した実施形態では、プロセスは、この場合も、600で入力オーディオ信号から次の現在のフレームx[n]を取得することによって開始する。しかし、上記の実施形態とは異なり、その現在のフレームは、次いで605で、現在のフレームを伸張するための最適なT開始点s[1:T]を選択するために分析される。最適なT開始点の選択は、図7を参照してセクション3.2.3で詳しく説明することに留意されたい。フレームを伸張すべきこうした点が与えられると、図6のプロセスは、図5を参照して上述したプロセスと同じように進むが、さらにいくつかの違いがあり、それについて以下で強調して説明する。
特に、605での開始点s[1:T]の選択後、直前のフレームと作成される部分的に合成されたフレームとの間のより円滑な遷移を確実にするために、このプロセスもまた、まず現在のフレームx[n]を窓掛けし混合して、610で元のデータを部分的に合成されたフレームy[n]になるものの先頭に混合することによって開始する。この窓掛けおよび混合を達成するための1つの方法を、上記の式3で示している。次に615で、各長さが2Kサンプルの重複するセグメントの総数Tが計算される。この長さは、最初と最後のセグメントの半分を数えない、所望の最終のセグメントサイズを取得するために必要である。一般に、この計算615は、上記の式4で示すように達成される。
次に620で、重複セグメントカウンタiがゼロに初期設定される。次いで、事前に選択された開始点s[i]が与えられると、式9で示すように、現在の開始点に対応するサブセグメントz[n]が現在の信号フレームx[n]から取り出される。
Figure 2005084692
次いで630で、現在のサブセグメントが合成されるかどうかに関する決定が行われる。言い換えれば、630で、現在のサブセグメントのFFTは上記のようにその位相を無作為化すべきかどうかに関する決定が行われる。この決定630は、図7を参照してセクション3.2.3でさらに詳しく説明するように、現在のおよび隣接するセグメントの開始点に応じて行われる。より正確には、現在のフレームs[i]の開始点と直前のフレームs[i−1]の開始点との間の距離がKである場合、s[i+1]を無作為化することは不要である。というのは、新しいフレームおよび古いフレームが、元のフレームおよび伸張されたフレーム内に同じ間隔を有しているからであり、したがってこの信号は保存することができる。さらに、最後の未変更のフレームがjであり、s[i]−s[j]>2Kの場合は、信号の反復がないため、s[i]で開始するフレームを無作為化する必要はない。(例えばKは一実施形態で使用したが、)2Kより小さい閾値を使用することもできる。630で、位相を無作為化することが決定された場合、635で、現在のサブセグメントz[n]に平滑化窓v[n]を掛け、平滑化されたサブセグメントのFFTが上記の式6で示すように計算される。
この時点で、上記と同様に、結果として得られるFFT Z[w]の位相が次いで640で無作為化され、645でZ[w]から逆FFT u[n]が計算されて、同様のスペクトルを有し、しかし元のセグメントz[n]との相関はない合成サブセグメントが作成される。新しく合成された信号サブセグメントu[n]は、次いで元の信号の位置sに挿入され、650で、例えば、従来のサイン窓など上記の従来の重複/加算プロセスを使用してシームレスに追加されて部分的に伸張されたフレームが作成される。これを上記の式7で示している。
あるいは、630で、上述したように、現在のサブセグメントのFFTがその位相を無作為化しないことが決定されると、上述したように、650で上記の従来の重複/加算プロセスを使用して、元の信号の位置sに挿入するための変更無しに、z[n]は単にz[n]として渡される。さらに、特定のセグメントが変更されていない場合、ステップ650で異なる混合窓が適している場合があることに留意されたい。特に、現在のサブセグメントも直前のサブセグメントも変更されていない場合、(例えばサイン窓の代わりにハミング窓などの)異なる混合窓が使用される。この場合、実際に信号の未変更のサブセグメントが相関関係にあるからである。したがって使用する窓は、上述した(wa[n])+(wb[n])=1の代わりにwa[n]+wb[n]=1となるようなものにするべきである。窓のこの選択は、信号のエネルギーを保持するものである。
さらに、未変更のサブセグメントの元の信号との混合は、信号をそれ自体と混合するのと同じであることに留意されたい。したがって、結果として得られるサブセグメントは、元のセグメントの対応する部分と同一である。したがって一実施形態では、未変更のセグメントの場合、混合操作を実行するのではなく、単に対応するセグメントが元の信号からコピーされる。
この時点で、図5を参照して説明した例と同様に、660で重複セグメントカウンタiが増分され、所望の最終のセグメントサイズを取得するために重複セグメントの総数Tが挿入されたかどうかに関する決定が665で行われる。665でさらに重複セグメントを計算する必要がある場合、すべての重複セグメントが計算され、x[n]に挿入されて部分的に合成された伸張されたセグメントy[n]が作成されるまで、上記のステップ625から650までが繰り返される。最後に、すべての重複セグメントが計算され、挿入されてy[n]が作成されると、y[n]と次のフレームとの間のより円滑な遷移を確実にするために、670でフレームy[n]の終端にx[n]からの元のデータとともに部分的に合成されたフレームy[n]を窓掛けすることによってプロセスが終了する。この窓掛けおよび混合を達成する1つの方法を、上記の式8で示している。
(3.2.3 伸張するセグメントの選択)
上述した様々なセグメントタイプおよび伸張方法が与えられた場合、現在のフレーム内のどの点がそのフレームを伸張するための最適な点であるかという問題が依然として存在する。例えば、信号の20msセグメントなど比較的短いフレーム内でさえ、1つまたは複数の遷移点、または2、3ミリ秒の沈黙すら存在することが多い。こうした場合、フレームを伸張すべき特定の点を選択することが有利である。したがって一実施形態では、セグメントの(低いほど良い)エネルギーと、その一致を含むセグメントについて見つけられた(高いほど良い)正規化相関関数との組合せに基づいて伸張すべき場所の決定が行われる伸張「品質」手法が使用される。
例えば、一般的な場合、20msフレームは、それぞれ5msの4つのサブフレームまたはセグメントに分割される、あるいは、ほぼ推定されたピッチ周期を有する潜在的に重複するセグメントに分割される。特定のサブフレームの計算されたエネルギーが十分低い場合、遷移は、そのセグメント内に存在すると考えられる。次いでエネルギーの最も低いサブフレームが伸張に選択される。しかし、エネルギーが十分には低くない場合、遷移がフレーム内に存在する見込みはなく、各サブフレームの一致の正規化自己相関を使用して伸張すべき最適な一致が選択される。
例えば、伸張するセグメントを選択するための一実施形態を図7に示している。一般に、元の信号のより多くを保持するために、(FFT/2である)Kサンプル離れたできるだけ多くの開始点を有することが最適である。この所見が与えられた場合、図7は、開始点を決定する手順の好ましい一例を示している。第1のステップは、FFT/2サンプル離れた点で初期開始点を選択することである。次いで新しい点が必要なだけ既存の点の間に1つずつ挿入される。新しい点は、エネルギーが最も低いセグメントに挿入される。さらに、一実施形態では、異なる長さのセグメントを考慮するために、各セグメントの平均エネルギーが重み付けされてより長いセグメントの分割を支持する。一実施形態では、セグメントは、セグメントサイズの平方根で重み付けされる。しかし、従来の任意の重み付けを使用することができる。最後の配分で、多くの点が依然としてFFT/2離れる。これらのセグメントは、(エネルギーの高いセグメントの可能性が高く、)変更する必要はない。
特に、図7に示すように、現在の信号フレームを伸張するのに最適な点を選択する際に、プロセスは、(T=(M/K)−1で)所望のフレームサイズMの内部セグメントの総数Tを決定し、(P=(M/K)−1で)元のフレームサイズNの内部セグメントの総数Pを決定することによって開始する。このとき、点カウンタPtは、720でP+1に設定される。次に、式10で示すように、730で各サブセグメントの平均エネルギーE(i)が計算される。
Figure 2005084692
次に、一実施形態では、次いで740で、各サブセグメント長に比例して各サブセグメントの平均エネルギーE(i)が重み付けされる。上述したように、検査済み実施形態では、セグメントは、式11で示すように、740で、セグメントサイズの平方根で重み付けされている。
Figure 2005084692
しかし、上述したように、任意の従来の重み付け方法を使用してエネルギー値に重み付けすることができる。
740で重み付けすると、平均エネルギー値E(i)が検査されて、750で最も低いエネルギー値を有するセグメントs[j]が選択される。上述したように、エネルギーが最も低いこれらのセグメントは、次いで2つに分割され、現在のフレームを伸張するための新しい開始点s[Pt]が式12で示すように分割点に配置される。
Figure 2005084692
一実施形態では、s[i]は、次いで770で、表記を簡単にするために、エネルギー値でソートされる。例えば、s[1:4]={64,128,192,256)の4つの現在点があり、新しい点がs[3]とs[4]との間の224に導入されると仮定すると、新しい点はs[5]となることになる。したがって、この場合の順序は、s[1:5]={64,128,192,256,224}となる。ソートs[:]は、s[1:5]={64,128,192,224,256)となるように、点の正しい順序を復元する。
最後に、780で、伸張に最適なT個の最適点が選択されているかどうかに関する決定が行われる。選択されていない場合、伸張に最適なT個の最適点が選択されるまで上記のステップ720から780までが繰り返される。
3.3 混合セグメントの伸張
上述したように、混合セグメントは、周期的成分および非周期的成分の組合せを表す。したがって、有声セグメントまたは無声セグメントを伸張する方法はいずれも、個別には混合セグメントを伸張するのに適していない。例えば、有声セグメントを処理する方法の使用は、顕著な歪みを無声のスペクトルの部分に導入する。同様に、無声セグメントを処理する方法の使用は、セグメントの任意の有声部分の周期を破壊する。したがって、一実施形態では、両方の方法が使用される。具体的に、信号は、有声方法および無声方法を使用して現在の混合セグメントから生成される。次いでこれらの信号は結合されて、有声信号および無声信号を含む合成信号が生成される。
さらに、関連の実施形態では、ここで生成された有声信号および無声信号は、正規化相互相関ピークの値に応じて重み付けされる。例えば、上述したように、正規相互相関ピークの値は、セグメントがより周期的になるにつれて、すなわちセグメント内により多くの発話音声が存在すると大きくなる。したがって、正規化相互相関ピークの値がより高い場合に有声信号により重みをかけることは、若干の周期性、およびしたがって伸張されたセグメントの無声部分内の潜在的に知覚し得る一部の歪みを犠牲にして、伸張されたセグメント内の発話音声の知覚品質を向上させる。逆に、正規化相互相関ピーク値が低下するにつれて、セグメント内の周期性が少なくなる。したがって、無声信号により重みがかけられ、それによってセグメントの任意の有声部分の周期性の低減、および潜在的に了解度を低減させる犠牲を払って、セグメントの無声部分の知覚品質が向上する。
例えば、検査済みの実施形態では、0.45から0.95の正規化相互相関ピークにそれぞれ対応する0から1への線形の重み付けは、上記の有声セグメント方法を使用して所望の長さの信号を生成することによって合成信号の有声成分を作成するために使用された。同様に、0.45から0.95の正規化相互相関ピークにそれぞれ対応する1から0への線形の重み付けは、上記の無声セグメント方法を使用して同じ所望の長さの信号を生成することによって合成信号の無声成分を作成するために使用された。これら2つの重み付けされた信号成分は、次いで単に追加されて合成信号が生成される。しかし、上記の線形の重み付けを使用する必要はなく、重み付けは、所望の線形または非線形の重み付けでよいことを当分野の技術者は理解されたい。さらに、上記で識別された有声セグメントおよび無声セグメントの閾値は、検査済みの実施形態で使用されたものであり、説明の目的で提供されているにすぎない。本明細書に記載された方法に従って、有声、無声、および混合セグメントを識別するために他の閾値を使用することができることは明らかである。
(3.4 セグメントを圧縮するための階層的手法)
十分に選択の自由がある応用分野では、任意の所与のフレーム内で実際に圧縮するセグメントを選択することも重要な決定である。というのは、このことは一般に、人間の聞き手の復元された信号の知覚品質に影響を与えるからである。例えば、所与の信号のすべてのセグメントを均等に圧縮する代わりに、階層型または層状の手法を使用して圧縮することによって、一般により良い結果が達成される。特に、上述したように、各セグメントのタイプは、圧縮がフレームに適用されるときまでにすでにわかっている。この情報が与えられると、まず、特定のセグメントタイプを優先的な階層的順序で圧縮することによって任意の所与のフレーム内において所望の圧縮が達成される。
特に、有声セグメントまたは沈黙セグメント(、すなわちエネルギーが比較的低い非周期的信号を含むセグメント)を表すフレームまたはセグメントが最初に圧縮される。次に、無声セグメントが圧縮される。最後に、混合セグメント、または過渡事象を含むセグメントが圧縮される。この優先順序の理由は、有声または沈黙セグメントの圧縮は、顕著な歪みの生成無しに達成するのが様々なセグメントタイプのうち最も簡単だからである。無声セグメントの圧縮は、顕著な歪み無しに圧縮するのが次に簡単なタイプである。最後に、混合セグメントおよび過渡事象を含むセグメントが最後に圧縮されるが、こうしたセグメントは、顕著な歪み無しに圧縮するのが最も難しいからである。
したがって、信号のすべてのセグメントを均等に圧縮する代わりに、特定のフレームを選択的に圧縮することによって、一般により良い結果が達成される。例えば、無声セグメントまたは過渡事象の圧縮を回避しながら、発話音声、沈黙、または単純な雑音を表すフレームを圧縮することは、知覚し得る歪みが低減された復元信号を生成する。有声セグメントまたは沈黙セグメントを圧縮することによって十分な圧縮が達成できない場合、非遷移無声セグメントが上記のように圧縮される。最後に、有声セグメントまたは非遷移無声セグメントの圧縮によって十分な圧縮を達成できない場合、遷移を含むセグメント、すなわち混合セグメントが圧縮される。圧縮のためのこの階層型の手法は、復元された信号内の知覚し得る歪みを限定するよう働く。
さらに、オフラインの応用分野、または十分な非再生フレームが使用可能な場合、必要に応じて、もたらされる信号のゆがみ(distortion)または歪みが最も少ないセグメントのみを圧縮することによって、所望の圧縮を、完全に使用可能な信号の1つまたは複数のフレームにわたって配分することができる。例えば、こうした圧縮を達成する1つの特定の方法は、異なるフレームタイプのそれぞれに任意の所望の圧縮率を前もって割り当てておくことによるものである。例えば、圧縮率5Xを沈黙フレームに割り当て、2Xを有声フレームに、1.5Xを無声フレームに、(非圧縮である)1Xを混合または遷移セグメントに割り当てることができる。明らかに、この例の圧縮率は、説明のためのものにすぎず、所望の任意の圧縮率を様々なフレームタイプに割り当てることができる。
一般に、圧縮する特定のセグメントが選択または識別されると、セグメントの圧縮は、セグメントの伸張に関して上述したものと同じようなやり方で扱われる。例えば、有声セグメントを圧縮するとき、セグメント内からテンプレートが選択され、一致の検索が行われる。一致が識別されると、セグメントが窓掛けされ、重複され、追加され、したがって、テンプレートと一致の間の信号が切り取られる。その結果、セグメントは短縮または圧縮される。一方、無声セグメントを圧縮するとき、セグメントまたはフレームの一部を削除するために、無作為のまたは所定のシフトが定数平方和窓などの窓関数とともに使用されてセグメントが所望の量に圧縮される。最後に、混合セグメントは、伸張または混合セグメントを参照して上述したのと同じような有声方法および無声方法の重み付けされた組合せを使用して圧縮される。
自動可変伸張および圧縮オーディオ信号フレームを提供する時間音声スケーラの上記の説明を、例示および説明の目的で提示してきた。これは網羅的なもの、または開示した正確な形式に本発明を限定するものではない。上記の教示に照らして、多くの変更および変形が考えられる。さらに、上記の代替実施形態のいずれかまたはすべては、所望の任意の組合せで使用して、本明細書に記載した時間音声スケーラの複合の実施形態をさらに形成することができる。本発明の範囲は、この詳細な説明ではなく、本明細書に添付した特許請求の範囲によって限定されるものとする。
オーディオ信号のセグメントを伸張、圧縮するシステムの例を構成する汎用コンピューティング装置を示すシステム図である。 オーディオ信号のセグメントを伸張、圧縮する模範的なプログラムモジュールを示す模範的なアーキテクチャ図である。 オーディオ信号の有声セグメントを伸張する模範的なシステムフロー図である。 オーディオ信号の無声セグメントを伸張する模範的なシステムフロー図である。 オーディオ信号の無声セグメントを伸張する代替実施形態の模範的なシステムフロー図である。 オーディオ信号の無声セグメントを伸張する代替実施形態の模範的なシステムフロー図である。 オーディオ信号の伸張から生じる可聴変更を最低限に抑えるためにセグメントの原点を選択するための模範的なシステムフロー図である。
符号の説明
200 信号入力モジュール
205 フレーム抽出モジュール
210 ピッチ推定モジュール
215 セグメントタイプ検出モジュール
220 有声セグメント伸張モジュール225 無声セグメント伸張モジュール
230 混合セグメント伸張モジュール
235 重み付けモジュール
240 セグメント圧縮モジュール
245 伸張された/圧縮されたフレーム
250 フレームバッファ
260 差を次のフレームに追加する
270 信号出力モジュール



Claims (36)

  1. オーディオ信号からデータフレームを抽出するステップと、
    事前に確立された基準に従って、各データフレームの内容を検査し、各データフレームのタイプを分類するステップと、
    各データフレームの分類タイプに固有の時間的変更プロセスを使用してデータフレームのうちの少なくとも1つの少なくとも一部を時間的に変更するステップと
    を含むことを特徴とするオーディオ信号のセグメントの時間的変更のためのシステム。
  2. フレームタイプの前記分類は、分類される前記フレームだけに基づくことを特徴とする請求項1に記載のシステム。
  3. フレームタイプの前記分類は、少なくとも一部、1つまたは複数の隣接するフレームから導出された情報に基づくことを特徴とする請求項1に記載のシステム。
  4. 前記フレームは順次処理されることを特徴とする請求項1に記載のシステム。
  5. 前記分類は、少なくとも一部各データフレームの周期に基づくことを特徴とする請求項1に記載のシステム。
  6. 前記フレームタイプは、有声フレームおよび無声フレームを含むことを特徴とする請求項1に記載のシステム。
  7. 前記フレームタイプは混合フレームをさらに含み、前記混合フレームは有声セグメントおよび無声セグメントを含むことを特徴とする請求項6に記載のシステム。
  8. 受信されたオーディオ信号からデータフレームを順次抽出するステップと、
    順次抽出されたデータフレームの現在のフレームの各セグメントの内容タイプを決定するステップであって、前記内容タイプは有声セグメント、無声セグメント、および混合セグメントを含むステップと、
    有声セグメント時間的変更プロセス、無声セグメント時間的変更プロセス、および混合セグメント時間的変更プロセスから、前記現在のフレームの少なくとも1つのセグメントのために、対応する時間的変更プロセスを自動的に選択し、適用することによって前記現在のフレームの前記少なくとも1つのセグメントを時間的に変更するステップと
    を含むことを特徴とする発話音声を含むオーディオ信号のセグメントの時間的変更のための方法。
  9. ほぼ1ピッチ周期の長さの少なくとも1つのセグメントをそれぞれ含むフレームごとに平均ピッチ周期を推定するステップをさらに含むことを特徴とする請求項8に記載の方法。
  10. 前記現在のフレームの各セグメントの内容タイプを決定するステップは、フレームごとに正規化相互相関を計算するステップと、各正規化相互関係の最大ピークを所定の閾値と比較して各セグメントの内容タイプを決定するステップとを含むことを特徴とする請求項8に記載の方法。
  11. 少なくとも1つのセグメントの内容タイプは有声セグメントであり、前記少なくとも1つのセグメントを時間的に変更するステップは、前記有声セグメントを伸張して前記現在のフレーム長を延長するステップを含むことを特徴とする請求項8に記載の方法。
  12. 前記有声セグメントを伸張するステップは、
    前記セグメントのうちの少なくとも1つをテンプレートとして識別するステップと、
    その相互相関ピークが所定の閾値を超える一致セグメントを検索するステップと、
    前記フレームの前記一致セグメントを配列し、マージするステップと
    を含むことを特徴とする請求項11に記載の方法。
  13. 前記セグメントのうちの少なくとも1つをテンプレートとして識別するステップは、前記フレームの終端からテンプレートを選択するステップを含み、前記一致セグメントを検索するステップは、過去の最近の前記オーディオ信号を検査して一致を識別するステップを含むことを特徴とする請求項12に記載の方法。
  14. 前記セグメントのうちの少なくとも1つをテンプレートとして識別するステップは、前記フレームの先頭からテンプレートを選択するステップを含み、前記一致セグメントを検索するステップは、近い将来の前記オーディオ信号を検査して一致を識別するステップを含むことを特徴とする請求項12に記載の方法。
  15. 前記セグメントのうちの少なくとも1つをテンプレートとして識別するステップは、前記フレームの先頭と終端との間からテンプレートを選択するステップを含み、前記一致セグメントを検索するステップは、近い将来および近い過去の前記オーディオ信号を検査して一致を識別するステップを含むことを特徴とする請求項12に記載の方法。
  16. 連続したテンプレートが前記現在のフレーム内の異なる位置で識別されるように前記テンプレートの選択点を入れ替えるステップをさらに含むことを特徴とする請求項12に記載の方法。
  17. 時間的に変更されたセグメントの平均圧縮率が総対象圧縮率に対応しているかどうかを決定するステップをさらに含み、少なくとも1つの次の現在のフレームの次の対象圧縮率は、前記総対象圧縮率がほぼ維持されることを確実にするために必要に応じて自動的に調整されることを特徴とする請求項8に記載の方法。
  18. 少なくとも1つのセグメントの内容タイプは無声セグメントであり、前記少なくとも1つのセグメントを時間的に変更するステップは、少なくとも1つの合成セグメントを自動的に生成し、前記現在のフレームに挿入して前記現在のフレーム長を延長するステップを含むことを特徴とする請求項8に記載の方法。
  19. 前記少なくとも1つの合成セグメントを自動的に生成するステップは、前記現在のフレームのフーリエ変換を自動的に計算し、前記位相のランダムな回転を前記FFT係数に導入し、次いでセグメントごとに前記逆FFTを計算し、それによって前記少なくとも1つの合成セグメントを作成するステップを含むことを特徴とする請求項18に記載の方法。
  20. 少なくとも1つのセグメントの前記内容タイプは混合セグメントであり、前記混合セグメントは有声成分および無声成分を含むことを特徴とする請求項8に記載の方法。
  21. 前記混合セグメントを時間的に変更するステップは、
    前記セグメントのうちの少なくとも1つをテンプレートとして識別するステップと、
    その相互相関ピークが所定の閾値を超える一致セグメントを検索するステップと、
    前記フレームの前記一致セグメントを配列し、マージして一時的な有声セグメントを作成するステップと、
    少なくとも1つの合成セグメントを自動的に生成し、前記現在のフレームに挿入して一時的な無声セグメントを作成するステップと、
    前記現在のセグメントについて計算された正規化相互相関ピークに比例して前記一時的な有声セグメントおよび前記一時的な無声セグメントのそれぞれに重み付けをするステップと、
    前記一時的な有声セグメントおよび前記一時的な無声セグメントを追加し、窓掛けして部分的に合成の伸張セグメントを作成するステップと
    を含むことを特徴とする請求項20に記載の方法。
  22. 少なくとも1つのセグメントの内容タイプは有声セグメントであり、前記少なくとも1つのセグメントを時間的に変更するステップは、前記有声セグメントを圧縮して前記現在のフレーム長を短縮するステップを含むことを特徴とする請求項8に記載の方法。
  23. 前記有声セグメントを圧縮するステップは、
    前記セグメントのうちの少なくとも1つをテンプレートとして識別するステップと、
    その相互相関ピークが所定の閾値を超える一致セグメントを検索するステップと、
    前記テンプレートと前記一致との間の前記信号を切り取るステップと、
    前記フレームの前記一致セグメントを配列し、マージするステップと
    を含むことを特徴とする請求項22に記載の方法。
  24. 少なくとも1つのセグメントの内容タイプは無声セグメントであり、前記少なくとも1つのセグメントを時間的に変更するステップは、前記無声セグメントを圧縮して前記現在のフレーム長を短縮するステップを含むことを特徴とする請求項8に記載の方法。
  25. 前記有声セグメントを圧縮するステップは、
    前記フレームのセグメントを前記フレーム内の第1の位置から前記フレーム内の第2の位置にシフトするステップと、
    前記第1の位置と前記第2の位置との間の前記フレームの前記位置を削除するステップと、
    サイン窓関数を使用して前記セグメントの縁を前記フレームの残りを表す前記信号と混合することによって前記フレームの前記シフトされたセグメントを、前記フレームの残りを表す前記信号に追加するステップと
    を含むことを特徴とする請求項24に記載の方法。
  26. コンピューティング装置を使用して、
    デジタルオーディオ信号の1つまたは複数の連続するフレームを受信し、
    それが受信されると、前記デジタルオーディオ信号の各フレームを復号化し、
    前記復号化されたオーディオ信号のセグメントの内容タイプを、関連のタイプ固有の時間的変更プロセスをそれぞれ有する事前に定義されたセグメントの内容タイプのグループから決定し、
    各セグメント内容タイプに固有の前記関連のタイプ固有の時間的変更プロセスを使用して前記復号化されたオーディオ信号のうちの1つまたは複数のセグメントの時間的スケールを変更する
    ことを含むことを特徴とするデジタルオーディオ信号セグメントの動的な時間的変更を提供するコンピュータ実施プロセス。
  27. 事前に定義されたセグメント内容タイプの前記グループは、有声タイプセグメントおよび無声タイプセグメントを含むことを特徴とする請求項26に記載のコンピュータ実施プロセス。
  28. 事前に定義されたセグメントの内容タイプの前記グループは、有声内容および無声内容の混合を表す混合タイプセグメントをさらに含むことを特徴とする請求項27に記載のコンピュータ実施プロセス。
  29. 1つまたは複数のセグメントの前記時間スケールを変更するステップは、対象時間変更率をほぼ達成するために、前記1つまたは複数のセグメントを時間的に伸張するステップ、および時間的に圧縮するステップのいずれかを含むことを特徴とする請求項27に記載のコンピュータ実施プロセス。
  30. その後のセグメントの前記対象時間変更率は、少なくとも1つの前のセグメントの実際の時間スケール変更に比例して平均対象時間変更率を達成するように自動的に調整されることを特徴とする請求項29に記載のコンピュータ実施プロセス。
  31. セグメントの内容タイプを決定するステップは、各セグメントのサブセグメントの正規化相互相関を計算するステップと、各正規化相互関係の最大ピークを所定の閾値と比較して各セグメントの内容タイプを決定するステップとを含むことを特徴とする請求項27に記載のコンピュータ実施プロセス。
  32. 少なくとも1つのセグメントは有声タイプセグメントであり、有声タイプセグメントの前記時間スケールを変更するステップは、少なくとも1つの有声タイプセグメントをほぼ1つまたは複数のピッチ周期だけ伸張して、前記少なくとも1つの有声タイプセグメント長を延長するステップを含むことを特徴とする請求項27に記載のコンピュータ実施プロセス。
  33. 前記少なくとも1つの有声タイプセグメントは、
    ほぼ1ピッチ周期の長さの少なくとも1つのサブセグメントをテンプレートとして識別するステップと、
    その相互相関ピークが所定の閾値を超える一致サブセグメントを検索するステップと、
    前記フレームの前記一致セグメントを配列し、マージするステップと
    を含むことを特徴とする請求項27に記載のコンピュータ実施プロセス。
  34. 少なくとも1つのセグメントは無声タイプセグメントであり、無声タイプセグメントの前記時間スケールを変更するステップは、
    前記少なくとも1つの無声タイプセグメントのうちの1つまたは複数のサブセグメントから少なくとも1つの合成セグメントを自動的に生成するステップと、
    前記少なくとも1つの合成セグメントを前記少なくとも1つの無声タイプセグメントに挿入して前記少なくとも1つの無声タイプセグメント長を延長するステップと
    を含むことを特徴とする請求項27に記載のコンピュータ実施プロセス。
  35. 前記少なくとも1つの合成セグメントを自動的に生成するステップは、
    前記少なくとも1つの無声タイプセグメントの前記少なくとも1つのサブセグメントのフーリエ変換を自動的に計算するステップと、
    少なくとも一部の前記計算されたFFT係数の位相を無作為化するステップと、
    前記計算されたFFT係数の逆FFTを計算して前記少なくとも1つの合成セグメントを生成するステップと
    を含むことを特徴とする請求項34に記載のコンピュータ実施プロセス。
  36. 前記少なくとも1つの合成セグメントを前記少なくとも1つの無声タイプセグメントに挿入するための1つまたは複数の挿入点を自動的に決定するステップをさらに含むことを特徴とする請求項34に記載のコンピュータ実施プロセス。
JP2004260263A 2003-09-10 2004-09-07 デジタルオーディオ信号の高品質の伸張および圧縮を提供するシステムおよび方法 Expired - Fee Related JP5096660B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/660,325 2003-09-10
US10/660,325 US7337108B2 (en) 2003-09-10 2003-09-10 System and method for providing high-quality stretching and compression of a digital audio signal

Publications (2)

Publication Number Publication Date
JP2005084692A true JP2005084692A (ja) 2005-03-31
JP5096660B2 JP5096660B2 (ja) 2012-12-12

Family

ID=34136772

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004260263A Expired - Fee Related JP5096660B2 (ja) 2003-09-10 2004-09-07 デジタルオーディオ信号の高品質の伸張および圧縮を提供するシステムおよび方法

Country Status (7)

Country Link
US (1) US7337108B2 (ja)
EP (1) EP1515310B1 (ja)
JP (1) JP5096660B2 (ja)
KR (1) KR101046147B1 (ja)
CN (1) CN100533989C (ja)
AT (1) ATE361525T1 (ja)
DE (1) DE602004006206T2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009538460A (ja) * 2007-09-15 2009-11-05 ▲ホア▼▲ウェイ▼技術有限公司 高帯域信号にフレーム消失の隠蔽を行う方法および装置
JP2010515114A (ja) * 2006-12-01 2010-05-06 エヌイーシー ラボラトリーズ アメリカ インク 迅速かつ効率的なデータ管理及び/またはデータ処理のための方法及びシステム
JP2010224053A (ja) * 2009-03-19 2010-10-07 Nec Corp 音声合成装置、音声合成方法、プログラム及び記録媒体
JP2012186850A (ja) * 2012-06-04 2012-09-27 Ntt Docomo Inc 音声パケット通信方法および音声パケット通信装置

Families Citing this family (119)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7412376B2 (en) * 2003-09-10 2008-08-12 Microsoft Corporation System and method for real-time detection and preservation of speech onset in a signal
US7596488B2 (en) * 2003-09-15 2009-09-29 Microsoft Corporation System and method for real-time jitter control and packet-loss concealment in an audio signal
KR100547445B1 (ko) * 2003-11-11 2006-01-31 주식회사 코스모탄 디지털 오디오신호 및 오디오/비디오신호의 변속처리방법및 이를 이용한 디지털 방송신호의 변속재생방법
JP3924583B2 (ja) * 2004-02-03 2007-06-06 松下電器産業株式会社 ユーザ適応型装置およびその制御方法
US20050227657A1 (en) * 2004-04-07 2005-10-13 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for increasing perceived interactivity in communications systems
US20050283795A1 (en) * 2004-05-14 2005-12-22 Ryan Steelberg Broadcast monitoring system and method
JP4146489B2 (ja) 2004-05-26 2008-09-10 日本電信電話株式会社 音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体
JP4096915B2 (ja) * 2004-06-01 2008-06-04 株式会社日立製作所 デジタル情報再生装置及び方法
US7783482B2 (en) * 2004-09-24 2010-08-24 Alcatel-Lucent Usa Inc. Method and apparatus for enhancing voice intelligibility in voice-over-IP network applications with late arriving packets
DE102004047069A1 (de) * 2004-09-28 2006-04-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ändern einer Segmentierung eines Audiostücks
DE102004047032A1 (de) * 2004-09-28 2006-04-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Bezeichnen von verschiedenen Segmentklassen
WO2006106466A1 (en) * 2005-04-07 2006-10-12 Koninklijke Philips Electronics N.V. Method and signal processor for modification of audio signals
JP4675692B2 (ja) * 2005-06-22 2011-04-27 富士通株式会社 話速変換装置
JP4736632B2 (ja) * 2005-08-31 2011-07-27 株式会社国際電気通信基礎技術研究所 ボーカル・フライ検出装置及びコンピュータプログラム
US8155972B2 (en) * 2005-10-05 2012-04-10 Texas Instruments Incorporated Seamless audio speed change based on time scale modification
AU2006329833A1 (en) * 2005-12-15 2007-07-05 Google, Inc. Content depot
US20070186146A1 (en) * 2006-02-07 2007-08-09 Nokia Corporation Time-scaling an audio signal
US20070276657A1 (en) * 2006-04-27 2007-11-29 Technologies Humanware Canada, Inc. Method for the time scaling of an audio signal
WO2008007616A1 (fr) * 2006-07-13 2008-01-17 Nec Corporation Dispositif, procédé et programme d'alarme relatif à une entrée de murmure non audible
KR100883652B1 (ko) * 2006-08-03 2009-02-18 삼성전자주식회사 음성 구간 검출 방법 및 장치, 및 이를 이용한 음성 인식시스템
US8731913B2 (en) * 2006-08-03 2014-05-20 Broadcom Corporation Scaled window overlap add for mixed signals
US7647229B2 (en) * 2006-10-18 2010-01-12 Nokia Corporation Time scaling of multi-channel audio signals
JP4940888B2 (ja) * 2006-10-23 2012-05-30 ソニー株式会社 オーディオ信号伸張圧縮装置及び方法
US8005671B2 (en) 2006-12-04 2011-08-23 Qualcomm Incorporated Systems and methods for dynamic normalization to reduce loss in precision for low-level signals
US7873064B1 (en) 2007-02-12 2011-01-18 Marvell International Ltd. Adaptive jitter buffer-packet loss concealment
CN101325631B (zh) * 2007-06-14 2010-10-20 华为技术有限公司 一种估计基音周期的方法和装置
US8401865B2 (en) * 2007-07-18 2013-03-19 Nokia Corporation Flexible parameter update in audio/speech coded signals
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
JP2010009206A (ja) * 2008-06-25 2010-01-14 Nikon Corp 記録制御装置
KR101381513B1 (ko) * 2008-07-14 2014-04-07 광운대학교 산학협력단 음성/음악 통합 신호의 부호화/복호화 장치
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US8670990B2 (en) * 2009-08-03 2014-03-11 Broadcom Corporation Dynamic time scale modification for reduced bit rate audio coding
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
PL3570278T3 (pl) 2010-03-09 2023-03-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Rekonstrukcja wysokiej częstotliwości wejściowego sygnału audio przy użyciu kaskadowych banków filtrów
RU2596033C2 (ru) 2010-03-09 2016-08-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство и способ получения улучшенной частотной характеристики и временного фазирования способом расширения полосы аудио сигналов в фазовом вокодере
CN102934164B (zh) * 2010-03-09 2015-12-09 弗兰霍菲尔运输应用研究公司 改变回放速度或音调时处理音频信号中瞬态声音事件的设备和方法
US8620660B2 (en) * 2010-10-29 2013-12-31 The United States Of America, As Represented By The Secretary Of The Navy Very low bit rate signal coder and decoder
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
WO2013149188A1 (en) * 2012-03-29 2013-10-03 Smule, Inc. Automatic conversion of speech into song, rap or other audible expression having target meter or rhythm
CN103871414B (zh) * 2012-12-11 2016-06-29 华为技术有限公司 一种多声道语音信号的时标调制方法和装置
JP6098149B2 (ja) * 2012-12-12 2017-03-22 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
EP3576087B1 (en) * 2013-02-05 2021-04-07 Telefonaktiebolaget LM Ericsson (publ) Audio frame loss concealment
KR101467684B1 (ko) * 2013-05-20 2014-12-01 김정훈 이진데이터 압축 및 압축해제 장치와 방법
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
DE112014002747T5 (de) 2013-06-09 2016-03-03 Apple Inc. Vorrichtung, Verfahren und grafische Benutzerschnittstelle zum Ermöglichen einer Konversationspersistenz über zwei oder mehr Instanzen eines digitalen Assistenten
ES2667823T3 (es) * 2013-06-21 2018-05-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Escalador de tiempo, decodificador de audio, procedimiento y programa informático mediante el uso de un control de calidad
PL3011692T3 (pl) 2013-06-21 2017-11-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Sterowanie buforem rozsynchronizowania, dekoder sygnału audio, sposób i program komputerowy
EP2881944B1 (en) * 2013-12-05 2016-04-13 Nxp B.V. Audio signal processing apparatus
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US10014007B2 (en) * 2014-05-28 2018-07-03 Interactive Intelligence, Inc. Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
US10255903B2 (en) * 2014-05-28 2019-04-09 Interactive Intelligence Group, Inc. Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
KR101904423B1 (ko) * 2014-09-03 2018-11-28 삼성전자주식회사 오디오 신호를 학습하고 인식하는 방법 및 장치
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
GB2537924B (en) * 2015-04-30 2018-12-05 Toshiba Res Europe Limited A Speech Processing System and Method
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
KR102422794B1 (ko) * 2015-09-04 2022-07-20 삼성전자주식회사 재생지연 조절 방법 및 장치와 시간축 변형방법 및 장치
EP3309785A1 (en) 2015-11-19 2018-04-18 Telefonaktiebolaget LM Ericsson (publ) Method and apparatus for voiced speech detection
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
CN105741857B (zh) * 2016-04-14 2019-06-14 北京工业大学 一种音调序列的鲁棒阶跃规整方法
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
EP3327723A1 (en) * 2016-11-24 2018-05-30 Listen Up Technologies Ltd Method for slowing down a speech in an input media content
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
US10791404B1 (en) * 2018-08-13 2020-09-29 Michael B. Lasky Assisted hearing aid with synthetic substitution
CN112567721B (zh) * 2018-10-03 2024-04-05 视频本地化公司 一种分段式混合视频和音频同步的方法和装置
US10878835B1 (en) * 2018-11-16 2020-12-29 Amazon Technologies, Inc System for shortening audio playback times
CN109920406B (zh) * 2019-03-28 2021-12-03 国家计算机网络与信息安全管理中心 一种基于可变起始位置的动态语音识别方法及系统
US11227579B2 (en) * 2019-08-08 2022-01-18 International Business Machines Corporation Data augmentation by frame insertion for speech data
CN110690902B (zh) * 2019-09-25 2022-05-17 电子科技大学 一种基于随机截断的时间交织adc失配优化方法
US11997339B2 (en) 2020-01-15 2024-05-28 Dolby International Ab Adaptive streaming of media content with bitrate switching

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04367898A (ja) * 1991-06-17 1992-12-21 Matsushita Electric Ind Co Ltd 音声再生装置
JPH10214098A (ja) * 1997-01-31 1998-08-11 Sanyo Electric Co Ltd 音声変換玩具
JP2000242300A (ja) * 1999-02-22 2000-09-08 Nippon Telegr & Teleph Corp <Ntt> 音声速度変換装置、音声速度変換方法および音声速度変換方法を実行するプログラムを記録した記録媒体
JP2001154684A (ja) * 1999-11-24 2001-06-08 Anritsu Corp 話速変換装置
WO2002082428A1 (en) * 2001-04-05 2002-10-17 Koninklijke Philips Electronics N.V. Time-scale modification of signals applying techniques specific to determined signal types
JP2003216200A (ja) * 2002-01-28 2003-07-30 Telecommunication Advancement Organization Of Japan 字幕用書き起こしテキストの作成支援システム及び半自動型字幕番組制作システム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4435831A (en) * 1981-12-28 1984-03-06 Mozer Forrest Shrago Method and apparatus for time domain compression and synthesis of unvoiced audible signals
US5765127A (en) * 1992-03-18 1998-06-09 Sony Corp High efficiency encoding method
US5717823A (en) * 1994-04-14 1998-02-10 Lucent Technologies Inc. Speech-rate modification for linear-prediction based analysis-by-synthesis speech coders
MX9706532A (es) * 1995-02-28 1997-11-29 Motorola Inc Metodo y aparato para la compresion de la voz en un sistema de comunicacion.
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US5893062A (en) * 1996-12-05 1999-04-06 Interval Research Corporation Variable rate video playback with synchronized audio
US6754265B1 (en) * 1999-02-05 2004-06-22 Honeywell International Inc. VOCODER capable modulator/demodulator
US6138089A (en) * 1999-03-10 2000-10-24 Infolio, Inc. Apparatus system and method for speech compression and decompression
US6718309B1 (en) * 2000-07-26 2004-04-06 Ssi Corporation Continuously variable time scale modification of digital audio signals
US6477502B1 (en) * 2000-08-22 2002-11-05 Qualcomm Incorporated Method and apparatus for using non-symmetric speech coders to produce non-symmetric links in a wireless communication system
US6985857B2 (en) * 2001-09-27 2006-01-10 Motorola, Inc. Method and apparatus for speech coding using training and quantizing
US7412376B2 (en) * 2003-09-10 2008-08-12 Microsoft Corporation System and method for real-time detection and preservation of speech onset in a signal
US7596488B2 (en) * 2003-09-15 2009-09-29 Microsoft Corporation System and method for real-time jitter control and packet-loss concealment in an audio signal
US7627467B2 (en) * 2005-03-01 2009-12-01 Microsoft Corporation Packet loss concealment for overlapped transform codecs
US7526351B2 (en) * 2005-06-01 2009-04-28 Microsoft Corporation Variable speed playback of digital audio

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04367898A (ja) * 1991-06-17 1992-12-21 Matsushita Electric Ind Co Ltd 音声再生装置
JPH10214098A (ja) * 1997-01-31 1998-08-11 Sanyo Electric Co Ltd 音声変換玩具
JP2000242300A (ja) * 1999-02-22 2000-09-08 Nippon Telegr & Teleph Corp <Ntt> 音声速度変換装置、音声速度変換方法および音声速度変換方法を実行するプログラムを記録した記録媒体
JP2001154684A (ja) * 1999-11-24 2001-06-08 Anritsu Corp 話速変換装置
WO2002082428A1 (en) * 2001-04-05 2002-10-17 Koninklijke Philips Electronics N.V. Time-scale modification of signals applying techniques specific to determined signal types
JP2004519738A (ja) * 2001-04-05 2004-07-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 決定された信号型式に固有な技術を適用する信号の時間目盛修正
JP2003216200A (ja) * 2002-01-28 2003-07-30 Telecommunication Advancement Organization Of Japan 字幕用書き起こしテキストの作成支援システム及び半自動型字幕番組制作システム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010515114A (ja) * 2006-12-01 2010-05-06 エヌイーシー ラボラトリーズ アメリカ インク 迅速かつ効率的なデータ管理及び/またはデータ処理のための方法及びシステム
JP2009538460A (ja) * 2007-09-15 2009-11-05 ▲ホア▼▲ウェイ▼技術有限公司 高帯域信号にフレーム消失の隠蔽を行う方法および装置
KR100998430B1 (ko) * 2007-09-15 2010-12-03 후아웨이 테크놀러지 컴퍼니 리미티드 상위대역 시그널에 대한 프레임 손실 은닉을 수행하는 방법및 장치
US8200481B2 (en) 2007-09-15 2012-06-12 Huawei Technologies Co., Ltd. Method and device for performing frame erasure concealment to higher-band signal
JP2010224053A (ja) * 2009-03-19 2010-10-07 Nec Corp 音声合成装置、音声合成方法、プログラム及び記録媒体
JP2012186850A (ja) * 2012-06-04 2012-09-27 Ntt Docomo Inc 音声パケット通信方法および音声パケット通信装置

Also Published As

Publication number Publication date
DE602004006206T2 (de) 2007-08-30
KR101046147B1 (ko) 2011-07-01
DE602004006206D1 (de) 2007-06-14
CN1601912A (zh) 2005-03-30
KR20050026884A (ko) 2005-03-16
ATE361525T1 (de) 2007-05-15
EP1515310A1 (en) 2005-03-16
US7337108B2 (en) 2008-02-26
EP1515310B1 (en) 2007-05-02
CN100533989C (zh) 2009-08-26
US20050055204A1 (en) 2005-03-10
JP5096660B2 (ja) 2012-12-12

Similar Documents

Publication Publication Date Title
JP5096660B2 (ja) デジタルオーディオ信号の高品質の伸張および圧縮を提供するシステムおよび方法
EP1380029B1 (en) Time-scale modification of signals applying techniques specific to determined signal types
JP6194336B2 (ja) 受信器において実行される方法、受信器、およびフレーム消去隠蔽を実行するための装置
US8321216B2 (en) Time-warping of audio signals for packet loss concealment avoiding audible artifacts
US7117156B1 (en) Method and apparatus for performing packet loss or frame erasure concealment
US7805297B2 (en) Classification-based frame loss concealment for audio signals
US20050273321A1 (en) Audio signal time-scale modification method using variable length synthesis and reduced cross-correlation computations
US20040083110A1 (en) Packet loss recovery based on music signal classification and mixing
US20070055498A1 (en) Method and apparatus for performing packet loss or frame erasure concealment
KR20010102017A (ko) 음성 활동에 기초한 이득 제한을 이용하는 음성 개선 방법
JP6301368B2 (ja) 増強信号の整形を用いて周波数増強信号を生成する装置および方法
WO2016021412A1 (ja) 符号化装置および方法、復号装置および方法、並びにプログラム
CN112786064A (zh) 一种端到端的骨气导语音联合增强方法
US20230178084A1 (en) Method, apparatus and system for enhancing multi-channel audio in a dynamic range reduced domain
KR20220045260A (ko) 음성 정보를 갖는 개선된 프레임 손실 보정
US20220277754A1 (en) Multi-lag format for audio coding
Szwoch et al. Transient detection for speech coding applications
Linenberg et al. Two-Sided Model Based Packet Loss Concealments

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070906

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101001

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110104

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110916

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111216

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120914

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120921

R150 Certificate of patent or registration of utility model

Ref document number: 5096660

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150928

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees