JP2005084692A - デジタルオーディオ信号の高品質の伸張および圧縮を提供するシステムおよび方法 - Google Patents
デジタルオーディオ信号の高品質の伸張および圧縮を提供するシステムおよび方法 Download PDFInfo
- Publication number
- JP2005084692A JP2005084692A JP2004260263A JP2004260263A JP2005084692A JP 2005084692 A JP2005084692 A JP 2005084692A JP 2004260263 A JP2004260263 A JP 2004260263A JP 2004260263 A JP2004260263 A JP 2004260263A JP 2005084692 A JP2005084692 A JP 2005084692A
- Authority
- JP
- Japan
- Prior art keywords
- segment
- frame
- segments
- voiced
- unvoiced
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 142
- 238000007906 compression Methods 0.000 title claims abstract description 120
- 230000006835 compression Effects 0.000 title claims abstract description 115
- 230000005236 sound signal Effects 0.000 title claims abstract description 55
- 230000008569 process Effects 0.000 claims description 55
- 230000002123 temporal effect Effects 0.000 claims description 51
- 239000002131 composite material Substances 0.000 claims description 42
- 230000008859 change Effects 0.000 claims description 14
- 238000002156 mixing Methods 0.000 claims description 13
- 239000000203 mixture Substances 0.000 claims description 7
- 230000004048 modification Effects 0.000 claims description 4
- 238000012986 modification Methods 0.000 claims description 4
- 238000003780 insertion Methods 0.000 claims description 2
- 230000037431 insertion Effects 0.000 claims description 2
- 230000003044 adaptive effect Effects 0.000 abstract description 4
- 230000006837 decompression Effects 0.000 description 86
- 230000007704 transition Effects 0.000 description 32
- 238000004891 communication Methods 0.000 description 13
- 230000000737 periodic effect Effects 0.000 description 13
- 238000012545 processing Methods 0.000 description 13
- 238000001228 spectrum Methods 0.000 description 11
- 238000013459 approach Methods 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 9
- 230000000875 corresponding effect Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 239000000523 sample Substances 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000001514 detection method Methods 0.000 description 7
- 238000009499 grossing Methods 0.000 description 7
- 238000007796 conventional method Methods 0.000 description 6
- 230000002596 correlated effect Effects 0.000 description 6
- 230000007423 decrease Effects 0.000 description 6
- 230000003111 delayed effect Effects 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 4
- 238000004904 shortening Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 230000005055 memory storage Effects 0.000 description 3
- 230000006855 networking Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- CDFKCKUONRRKJD-UHFFFAOYSA-N 1-(3-chlorophenoxy)-3-[2-[[3-(3-chlorophenoxy)-2-hydroxypropyl]amino]ethylamino]propan-2-ol;methanesulfonic acid Chemical compound CS(O)(=O)=O.CS(O)(=O)=O.C=1C=CC(Cl)=CC=1OCC(O)CNCCNCC(O)COC1=CC=CC(Cl)=C1 CDFKCKUONRRKJD-UHFFFAOYSA-N 0.000 description 1
- 206010021403 Illusion Diseases 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011049 filling Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01L—MEASURING FORCE, STRESS, TORQUE, WORK, MECHANICAL POWER, MECHANICAL EFFICIENCY, OR FLUID PRESSURE
- G01L19/00—Details of, or accessories for, apparatus for measuring steady or quasi-steady pressure of a fluent medium insofar as such details or accessories are not special to particular types of pressure gauges
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
- G10L2025/935—Mixed voiced class; Transitions
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
Abstract
【解決手段】 現在のフレームのセグメントを伸張または圧縮する前に、時間音声スケーラは、セグメントの伸張または圧縮の際に一致操作に使用する信号テンプレートをサイズ設定するために、フレームごとにピッチ周期を計算し、各フレームを含むセグメントのタイプも決定する。セグメントタイプは、有声セグメント、無声セグメント、有声部分および無声部分を含む混合セグメントを含む。各フレームのセグメントに適用された伸張・圧縮方法は、各フレームを含むセグメントのタイプに依存する。特定のセグメントに適用された伸張または圧縮の量は自動的に変化して、対象の総伸張率または総圧縮率が依然として確実にフレームごとに維持されるようにしながら、信号の歪みを最低限に抑える。
【選択図】 図2
Description
図1は、本発明を実施するのに適したコンピューティングシステム環境100の例を示している。コンピューティングシステム環境100は、適したコンピューティング環境の一例にすぎず、本発明の使用または機能の範囲に関する限定を示唆するものではない。また、コンピューティング環境100を、動作環境100の例に示した構成要素のいずれか1つ、またはその組合せに関連する任意の依存性または必要条件を有しているものと解釈すべきではない。
オーディオ信号の時間スケール変更のより古典的な用途では、信号の時間スケール全体を数倍減速または高速化させ、聞き取り時間を短縮し、または了解度を向上させている。その用途に加えて、この2、3年で、インターネットなど損失の多い遅延しがちなパケットベースのネットワークを介して送信され、次いでクライアントコンピュータまたは受信機で復元される信号の品質を向上させるために、発話音声を含むオーディオ信号の時間スケール変更も使用されている。例えば、多くの応用分野では、発話音声を含むオーディオ信号の1つまたは複数のフレームを伸張または圧縮することが望ましい。
上述したように、時間音声スケーラは、まず、オーディオ信号からフレームを受信または抽出し、そのフレームを伸張または圧縮することによってフレームの時間特性を変更し、現在のフレームの伸張または圧縮が対象の伸張率または圧縮率と等しいかどうかを決定し、次いで実際の伸張率または圧縮率と対象の伸張率または圧縮率との間に差がある場合はそれを次のフレームに適用される伸張または圧縮に追加することによって、特定のフレーム(またはセグメント)の伸張および圧縮を提供する。
上記で概要を述べたプロセスは、図2の全体的なシステム図によって示されている。特に、図2のシステム図は、オーディオ信号のフレームを伸張、圧縮するために時間音声スケーラを実施するプログラムモジュール間の相互相関を示している。ボックスおよび図2の波線によって表されるボックス間の相互関係は、本明細書に記載した時間音声スケーラの代替実施形態を表し、下記で説明するように、これらの代替実施形態のいずれか、またはすべては、この文書全体にわたって記載する他の代替実施形態と一緒に使用することができることに留意されたい。
上記のプログラムモジュールは、音声ファイルのセグメントの自動時間スケーリングを提供するために、時間音声スケーラにおいて使用される。一般に、上記で概要を述べたように、この時間スケーリングは、単一の信号フレームと同じぐらい小さいセグメント上で行うことができる可変の伸張および圧縮を提供する。時間音声スケーラによって提供された伸張および圧縮の可変性は、「繰越し」技術を使用することによって所望の総平均圧縮率(または総平均伸張率)を維持しながら、所望の率との圧縮率のわずかな差を次のフレームで補償できるようにする。以下のセクションでは、セクション2に記載したプログラムモジュールを実施するための方法例の運用について詳しく説明する。
上述したように、時間音声スケーラは、全体として信号の所望の圧縮率/伸張率を維持しながら、フレームの可変の圧縮または伸張に「繰越し」プロセスを使用する。例えば、対象の圧縮率は特定の信号について2:1であり、各入力フレームは300個のサンプルを有している場合、対象の各出力フレームは、名目上150個のサンプルを有している。しかし、特定のフレームが例えば150個のサンプルでなく、180個のサンプルに圧縮された場合、30個の余分のサンプルは、その対象の圧縮を120個のサンプルに設定することによって次のフレームで補償される。したがって、180および120のブロックサイズでは、平均ブロックサイズは依然として150であり、平均圧縮率は2:1である。その次のフレームの内容(、すなわちセグメントタイプ)に応じて、120個のサンプルに圧縮することは、最適な結果を提供しない場合があることに留意されたい。したがって、120個のサンプルの例は対象にすぎず、実際の圧縮または伸張は、所望の平均を確保するようにその後のフレームの対象の圧縮または伸張を設定するために使用される。
上述したように、各フレームの伸張または圧縮前に、時間音声スケーラは、まず現在のフレームのタイプを決定し、次いでフレームタイプ固有の伸張または圧縮プロセスを現在のフレームに適用する。例えば、発話音声を含むオーディオ信号内の各フレームは、発話または他の何らかの有声の発語を含む「有声」フレーム、発話や他の発語を含まない「無声」フレーム、または有声成分および無声成分の両方を含む「混合」フレームのいずれかである。最適な結果を達成するために、時間音声スケーラは、特に伸張または圧縮される特定のフレームタイプを対象とした可変の伸張および圧縮を提供する。したがって、個別の一意の伸張方法および圧縮方法がフレームの各タイプ、すなわち有声、無声、または混合に適用される。
フレーム内の有声セグメントを伸張するとき、窓掛け重複加算(SOLA)手法は、セグメントの一致する部分を配列し、マージするために使用される。一般に窓は、上昇部分(raising part)wa[n]および減衰部分(decaying part)wb[n]に分けられる。次いで重複する信号にこれらの窓を掛けて遷移を平滑化する。より具体的には、過去まで延びる信号には減衰窓を掛け、将来まで延びる信号は上昇窓を掛ける。さらに、配列された信号は相関関係があるため、本明細書では、ゼロに収束し、加算されると合計が1になる、すなわちwa[n]+wb[n]=1となるハニング窓など従来の窓を使用して、フレームの伸張された部分の境界での歪みを無くす、または低減する。こうした窓は、当分野の技術者にはよく知られている。
無声セグメント、すなわち沈黙、雑音、他の非周期的音声などの伸張は、かなり異なるやり方で扱われる。特に、セグメントを延長するためにテンプレートに一致する1つまたは複数のセグメントの反復が使用される有声セグメントの伸張のプロセスとは異なり、本明細書では、周期の導入を回避することが重要である。その理由は、人間の聞き手は、こうしたセグメント内に人工的に導入された周期を容易に識別することができるからであり、こうした周期は、復元された伸張済みの信号内に信号の歪みとして現れる。したがって、テンプレートに一致するセグメントを追加するより、現在のセグメントは、所望の長さの異なる信号セグメントを生成し、現在のセグメントと似たパワースペクトルを有することによって変更される。次いでこの生成された信号は、元のセグメントと生成されたセグメントとの間の遷移点を平滑化する窓関数を使用して、現在のフレームの中央に挿入される。さらに、関連の実施形態では、生成されたセグメントのエネルギーは、復元された信号内の任意の顕著な歪みをさらに低減させる目的で、約30%程度の所定のパーセントだけさらに低減される。
上述した様々なセグメントタイプおよび伸張方法が与えられた場合、現在のフレーム内のどの点がそのフレームを伸張するための最適な点であるかという問題が依然として存在する。例えば、信号の20msセグメントなど比較的短いフレーム内でさえ、1つまたは複数の遷移点、または2、3ミリ秒の沈黙すら存在することが多い。こうした場合、フレームを伸張すべき特定の点を選択することが有利である。したがって一実施形態では、セグメントの(低いほど良い)エネルギーと、その一致を含むセグメントについて見つけられた(高いほど良い)正規化相関関数との組合せに基づいて伸張すべき場所の決定が行われる伸張「品質」手法が使用される。
上述したように、混合セグメントは、周期的成分および非周期的成分の組合せを表す。したがって、有声セグメントまたは無声セグメントを伸張する方法はいずれも、個別には混合セグメントを伸張するのに適していない。例えば、有声セグメントを処理する方法の使用は、顕著な歪みを無声のスペクトルの部分に導入する。同様に、無声セグメントを処理する方法の使用は、セグメントの任意の有声部分の周期を破壊する。したがって、一実施形態では、両方の方法が使用される。具体的に、信号は、有声方法および無声方法を使用して現在の混合セグメントから生成される。次いでこれらの信号は結合されて、有声信号および無声信号を含む合成信号が生成される。
十分に選択の自由がある応用分野では、任意の所与のフレーム内で実際に圧縮するセグメントを選択することも重要な決定である。というのは、このことは一般に、人間の聞き手の復元された信号の知覚品質に影響を与えるからである。例えば、所与の信号のすべてのセグメントを均等に圧縮する代わりに、階層型または層状の手法を使用して圧縮することによって、一般により良い結果が達成される。特に、上述したように、各セグメントのタイプは、圧縮がフレームに適用されるときまでにすでにわかっている。この情報が与えられると、まず、特定のセグメントタイプを優先的な階層的順序で圧縮することによって任意の所与のフレーム内において所望の圧縮が達成される。
205 フレーム抽出モジュール
210 ピッチ推定モジュール
215 セグメントタイプ検出モジュール
220 有声セグメント伸張モジュール225 無声セグメント伸張モジュール
230 混合セグメント伸張モジュール
235 重み付けモジュール
240 セグメント圧縮モジュール
245 伸張された/圧縮されたフレーム
250 フレームバッファ
260 差を次のフレームに追加する
270 信号出力モジュール
Claims (36)
- オーディオ信号からデータフレームを抽出するステップと、
事前に確立された基準に従って、各データフレームの内容を検査し、各データフレームのタイプを分類するステップと、
各データフレームの分類タイプに固有の時間的変更プロセスを使用してデータフレームのうちの少なくとも1つの少なくとも一部を時間的に変更するステップと
を含むことを特徴とするオーディオ信号のセグメントの時間的変更のためのシステム。 - フレームタイプの前記分類は、分類される前記フレームだけに基づくことを特徴とする請求項1に記載のシステム。
- フレームタイプの前記分類は、少なくとも一部、1つまたは複数の隣接するフレームから導出された情報に基づくことを特徴とする請求項1に記載のシステム。
- 前記フレームは順次処理されることを特徴とする請求項1に記載のシステム。
- 前記分類は、少なくとも一部各データフレームの周期に基づくことを特徴とする請求項1に記載のシステム。
- 前記フレームタイプは、有声フレームおよび無声フレームを含むことを特徴とする請求項1に記載のシステム。
- 前記フレームタイプは混合フレームをさらに含み、前記混合フレームは有声セグメントおよび無声セグメントを含むことを特徴とする請求項6に記載のシステム。
- 受信されたオーディオ信号からデータフレームを順次抽出するステップと、
順次抽出されたデータフレームの現在のフレームの各セグメントの内容タイプを決定するステップであって、前記内容タイプは有声セグメント、無声セグメント、および混合セグメントを含むステップと、
有声セグメント時間的変更プロセス、無声セグメント時間的変更プロセス、および混合セグメント時間的変更プロセスから、前記現在のフレームの少なくとも1つのセグメントのために、対応する時間的変更プロセスを自動的に選択し、適用することによって前記現在のフレームの前記少なくとも1つのセグメントを時間的に変更するステップと
を含むことを特徴とする発話音声を含むオーディオ信号のセグメントの時間的変更のための方法。 - ほぼ1ピッチ周期の長さの少なくとも1つのセグメントをそれぞれ含むフレームごとに平均ピッチ周期を推定するステップをさらに含むことを特徴とする請求項8に記載の方法。
- 前記現在のフレームの各セグメントの内容タイプを決定するステップは、フレームごとに正規化相互相関を計算するステップと、各正規化相互関係の最大ピークを所定の閾値と比較して各セグメントの内容タイプを決定するステップとを含むことを特徴とする請求項8に記載の方法。
- 少なくとも1つのセグメントの内容タイプは有声セグメントであり、前記少なくとも1つのセグメントを時間的に変更するステップは、前記有声セグメントを伸張して前記現在のフレーム長を延長するステップを含むことを特徴とする請求項8に記載の方法。
- 前記有声セグメントを伸張するステップは、
前記セグメントのうちの少なくとも1つをテンプレートとして識別するステップと、
その相互相関ピークが所定の閾値を超える一致セグメントを検索するステップと、
前記フレームの前記一致セグメントを配列し、マージするステップと
を含むことを特徴とする請求項11に記載の方法。 - 前記セグメントのうちの少なくとも1つをテンプレートとして識別するステップは、前記フレームの終端からテンプレートを選択するステップを含み、前記一致セグメントを検索するステップは、過去の最近の前記オーディオ信号を検査して一致を識別するステップを含むことを特徴とする請求項12に記載の方法。
- 前記セグメントのうちの少なくとも1つをテンプレートとして識別するステップは、前記フレームの先頭からテンプレートを選択するステップを含み、前記一致セグメントを検索するステップは、近い将来の前記オーディオ信号を検査して一致を識別するステップを含むことを特徴とする請求項12に記載の方法。
- 前記セグメントのうちの少なくとも1つをテンプレートとして識別するステップは、前記フレームの先頭と終端との間からテンプレートを選択するステップを含み、前記一致セグメントを検索するステップは、近い将来および近い過去の前記オーディオ信号を検査して一致を識別するステップを含むことを特徴とする請求項12に記載の方法。
- 連続したテンプレートが前記現在のフレーム内の異なる位置で識別されるように前記テンプレートの選択点を入れ替えるステップをさらに含むことを特徴とする請求項12に記載の方法。
- 時間的に変更されたセグメントの平均圧縮率が総対象圧縮率に対応しているかどうかを決定するステップをさらに含み、少なくとも1つの次の現在のフレームの次の対象圧縮率は、前記総対象圧縮率がほぼ維持されることを確実にするために必要に応じて自動的に調整されることを特徴とする請求項8に記載の方法。
- 少なくとも1つのセグメントの内容タイプは無声セグメントであり、前記少なくとも1つのセグメントを時間的に変更するステップは、少なくとも1つの合成セグメントを自動的に生成し、前記現在のフレームに挿入して前記現在のフレーム長を延長するステップを含むことを特徴とする請求項8に記載の方法。
- 前記少なくとも1つの合成セグメントを自動的に生成するステップは、前記現在のフレームのフーリエ変換を自動的に計算し、前記位相のランダムな回転を前記FFT係数に導入し、次いでセグメントごとに前記逆FFTを計算し、それによって前記少なくとも1つの合成セグメントを作成するステップを含むことを特徴とする請求項18に記載の方法。
- 少なくとも1つのセグメントの前記内容タイプは混合セグメントであり、前記混合セグメントは有声成分および無声成分を含むことを特徴とする請求項8に記載の方法。
- 前記混合セグメントを時間的に変更するステップは、
前記セグメントのうちの少なくとも1つをテンプレートとして識別するステップと、
その相互相関ピークが所定の閾値を超える一致セグメントを検索するステップと、
前記フレームの前記一致セグメントを配列し、マージして一時的な有声セグメントを作成するステップと、
少なくとも1つの合成セグメントを自動的に生成し、前記現在のフレームに挿入して一時的な無声セグメントを作成するステップと、
前記現在のセグメントについて計算された正規化相互相関ピークに比例して前記一時的な有声セグメントおよび前記一時的な無声セグメントのそれぞれに重み付けをするステップと、
前記一時的な有声セグメントおよび前記一時的な無声セグメントを追加し、窓掛けして部分的に合成の伸張セグメントを作成するステップと
を含むことを特徴とする請求項20に記載の方法。 - 少なくとも1つのセグメントの内容タイプは有声セグメントであり、前記少なくとも1つのセグメントを時間的に変更するステップは、前記有声セグメントを圧縮して前記現在のフレーム長を短縮するステップを含むことを特徴とする請求項8に記載の方法。
- 前記有声セグメントを圧縮するステップは、
前記セグメントのうちの少なくとも1つをテンプレートとして識別するステップと、
その相互相関ピークが所定の閾値を超える一致セグメントを検索するステップと、
前記テンプレートと前記一致との間の前記信号を切り取るステップと、
前記フレームの前記一致セグメントを配列し、マージするステップと
を含むことを特徴とする請求項22に記載の方法。 - 少なくとも1つのセグメントの内容タイプは無声セグメントであり、前記少なくとも1つのセグメントを時間的に変更するステップは、前記無声セグメントを圧縮して前記現在のフレーム長を短縮するステップを含むことを特徴とする請求項8に記載の方法。
- 前記有声セグメントを圧縮するステップは、
前記フレームのセグメントを前記フレーム内の第1の位置から前記フレーム内の第2の位置にシフトするステップと、
前記第1の位置と前記第2の位置との間の前記フレームの前記位置を削除するステップと、
サイン窓関数を使用して前記セグメントの縁を前記フレームの残りを表す前記信号と混合することによって前記フレームの前記シフトされたセグメントを、前記フレームの残りを表す前記信号に追加するステップと
を含むことを特徴とする請求項24に記載の方法。 - コンピューティング装置を使用して、
デジタルオーディオ信号の1つまたは複数の連続するフレームを受信し、
それが受信されると、前記デジタルオーディオ信号の各フレームを復号化し、
前記復号化されたオーディオ信号のセグメントの内容タイプを、関連のタイプ固有の時間的変更プロセスをそれぞれ有する事前に定義されたセグメントの内容タイプのグループから決定し、
各セグメント内容タイプに固有の前記関連のタイプ固有の時間的変更プロセスを使用して前記復号化されたオーディオ信号のうちの1つまたは複数のセグメントの時間的スケールを変更する
ことを含むことを特徴とするデジタルオーディオ信号セグメントの動的な時間的変更を提供するコンピュータ実施プロセス。 - 事前に定義されたセグメント内容タイプの前記グループは、有声タイプセグメントおよび無声タイプセグメントを含むことを特徴とする請求項26に記載のコンピュータ実施プロセス。
- 事前に定義されたセグメントの内容タイプの前記グループは、有声内容および無声内容の混合を表す混合タイプセグメントをさらに含むことを特徴とする請求項27に記載のコンピュータ実施プロセス。
- 1つまたは複数のセグメントの前記時間スケールを変更するステップは、対象時間変更率をほぼ達成するために、前記1つまたは複数のセグメントを時間的に伸張するステップ、および時間的に圧縮するステップのいずれかを含むことを特徴とする請求項27に記載のコンピュータ実施プロセス。
- その後のセグメントの前記対象時間変更率は、少なくとも1つの前のセグメントの実際の時間スケール変更に比例して平均対象時間変更率を達成するように自動的に調整されることを特徴とする請求項29に記載のコンピュータ実施プロセス。
- セグメントの内容タイプを決定するステップは、各セグメントのサブセグメントの正規化相互相関を計算するステップと、各正規化相互関係の最大ピークを所定の閾値と比較して各セグメントの内容タイプを決定するステップとを含むことを特徴とする請求項27に記載のコンピュータ実施プロセス。
- 少なくとも1つのセグメントは有声タイプセグメントであり、有声タイプセグメントの前記時間スケールを変更するステップは、少なくとも1つの有声タイプセグメントをほぼ1つまたは複数のピッチ周期だけ伸張して、前記少なくとも1つの有声タイプセグメント長を延長するステップを含むことを特徴とする請求項27に記載のコンピュータ実施プロセス。
- 前記少なくとも1つの有声タイプセグメントは、
ほぼ1ピッチ周期の長さの少なくとも1つのサブセグメントをテンプレートとして識別するステップと、
その相互相関ピークが所定の閾値を超える一致サブセグメントを検索するステップと、
前記フレームの前記一致セグメントを配列し、マージするステップと
を含むことを特徴とする請求項27に記載のコンピュータ実施プロセス。 - 少なくとも1つのセグメントは無声タイプセグメントであり、無声タイプセグメントの前記時間スケールを変更するステップは、
前記少なくとも1つの無声タイプセグメントのうちの1つまたは複数のサブセグメントから少なくとも1つの合成セグメントを自動的に生成するステップと、
前記少なくとも1つの合成セグメントを前記少なくとも1つの無声タイプセグメントに挿入して前記少なくとも1つの無声タイプセグメント長を延長するステップと
を含むことを特徴とする請求項27に記載のコンピュータ実施プロセス。 - 前記少なくとも1つの合成セグメントを自動的に生成するステップは、
前記少なくとも1つの無声タイプセグメントの前記少なくとも1つのサブセグメントのフーリエ変換を自動的に計算するステップと、
少なくとも一部の前記計算されたFFT係数の位相を無作為化するステップと、
前記計算されたFFT係数の逆FFTを計算して前記少なくとも1つの合成セグメントを生成するステップと
を含むことを特徴とする請求項34に記載のコンピュータ実施プロセス。 - 前記少なくとも1つの合成セグメントを前記少なくとも1つの無声タイプセグメントに挿入するための1つまたは複数の挿入点を自動的に決定するステップをさらに含むことを特徴とする請求項34に記載のコンピュータ実施プロセス。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/660,325 | 2003-09-10 | ||
US10/660,325 US7337108B2 (en) | 2003-09-10 | 2003-09-10 | System and method for providing high-quality stretching and compression of a digital audio signal |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005084692A true JP2005084692A (ja) | 2005-03-31 |
JP5096660B2 JP5096660B2 (ja) | 2012-12-12 |
Family
ID=34136772
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004260263A Expired - Fee Related JP5096660B2 (ja) | 2003-09-10 | 2004-09-07 | デジタルオーディオ信号の高品質の伸張および圧縮を提供するシステムおよび方法 |
Country Status (7)
Country | Link |
---|---|
US (1) | US7337108B2 (ja) |
EP (1) | EP1515310B1 (ja) |
JP (1) | JP5096660B2 (ja) |
KR (1) | KR101046147B1 (ja) |
CN (1) | CN100533989C (ja) |
AT (1) | ATE361525T1 (ja) |
DE (1) | DE602004006206T2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009538460A (ja) * | 2007-09-15 | 2009-11-05 | ▲ホア▼▲ウェイ▼技術有限公司 | 高帯域信号にフレーム消失の隠蔽を行う方法および装置 |
JP2010515114A (ja) * | 2006-12-01 | 2010-05-06 | エヌイーシー ラボラトリーズ アメリカ インク | 迅速かつ効率的なデータ管理及び/またはデータ処理のための方法及びシステム |
JP2010224053A (ja) * | 2009-03-19 | 2010-10-07 | Nec Corp | 音声合成装置、音声合成方法、プログラム及び記録媒体 |
JP2012186850A (ja) * | 2012-06-04 | 2012-09-27 | Ntt Docomo Inc | 音声パケット通信方法および音声パケット通信装置 |
Families Citing this family (119)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7412376B2 (en) * | 2003-09-10 | 2008-08-12 | Microsoft Corporation | System and method for real-time detection and preservation of speech onset in a signal |
US7596488B2 (en) * | 2003-09-15 | 2009-09-29 | Microsoft Corporation | System and method for real-time jitter control and packet-loss concealment in an audio signal |
KR100547445B1 (ko) * | 2003-11-11 | 2006-01-31 | 주식회사 코스모탄 | 디지털 오디오신호 및 오디오/비디오신호의 변속처리방법및 이를 이용한 디지털 방송신호의 변속재생방법 |
JP3924583B2 (ja) * | 2004-02-03 | 2007-06-06 | 松下電器産業株式会社 | ユーザ適応型装置およびその制御方法 |
US20050227657A1 (en) * | 2004-04-07 | 2005-10-13 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and apparatus for increasing perceived interactivity in communications systems |
US20050283795A1 (en) * | 2004-05-14 | 2005-12-22 | Ryan Steelberg | Broadcast monitoring system and method |
JP4146489B2 (ja) | 2004-05-26 | 2008-09-10 | 日本電信電話株式会社 | 音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体 |
JP4096915B2 (ja) * | 2004-06-01 | 2008-06-04 | 株式会社日立製作所 | デジタル情報再生装置及び方法 |
US7783482B2 (en) * | 2004-09-24 | 2010-08-24 | Alcatel-Lucent Usa Inc. | Method and apparatus for enhancing voice intelligibility in voice-over-IP network applications with late arriving packets |
DE102004047069A1 (de) * | 2004-09-28 | 2006-04-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Ändern einer Segmentierung eines Audiostücks |
DE102004047032A1 (de) * | 2004-09-28 | 2006-04-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Bezeichnen von verschiedenen Segmentklassen |
WO2006106466A1 (en) * | 2005-04-07 | 2006-10-12 | Koninklijke Philips Electronics N.V. | Method and signal processor for modification of audio signals |
JP4675692B2 (ja) * | 2005-06-22 | 2011-04-27 | 富士通株式会社 | 話速変換装置 |
JP4736632B2 (ja) * | 2005-08-31 | 2011-07-27 | 株式会社国際電気通信基礎技術研究所 | ボーカル・フライ検出装置及びコンピュータプログラム |
US8155972B2 (en) * | 2005-10-05 | 2012-04-10 | Texas Instruments Incorporated | Seamless audio speed change based on time scale modification |
AU2006329833A1 (en) * | 2005-12-15 | 2007-07-05 | Google, Inc. | Content depot |
US20070186146A1 (en) * | 2006-02-07 | 2007-08-09 | Nokia Corporation | Time-scaling an audio signal |
US20070276657A1 (en) * | 2006-04-27 | 2007-11-29 | Technologies Humanware Canada, Inc. | Method for the time scaling of an audio signal |
WO2008007616A1 (fr) * | 2006-07-13 | 2008-01-17 | Nec Corporation | Dispositif, procédé et programme d'alarme relatif à une entrée de murmure non audible |
KR100883652B1 (ko) * | 2006-08-03 | 2009-02-18 | 삼성전자주식회사 | 음성 구간 검출 방법 및 장치, 및 이를 이용한 음성 인식시스템 |
US8731913B2 (en) * | 2006-08-03 | 2014-05-20 | Broadcom Corporation | Scaled window overlap add for mixed signals |
US7647229B2 (en) * | 2006-10-18 | 2010-01-12 | Nokia Corporation | Time scaling of multi-channel audio signals |
JP4940888B2 (ja) * | 2006-10-23 | 2012-05-30 | ソニー株式会社 | オーディオ信号伸張圧縮装置及び方法 |
US8005671B2 (en) | 2006-12-04 | 2011-08-23 | Qualcomm Incorporated | Systems and methods for dynamic normalization to reduce loss in precision for low-level signals |
US7873064B1 (en) | 2007-02-12 | 2011-01-18 | Marvell International Ltd. | Adaptive jitter buffer-packet loss concealment |
CN101325631B (zh) * | 2007-06-14 | 2010-10-20 | 华为技术有限公司 | 一种估计基音周期的方法和装置 |
US8401865B2 (en) * | 2007-07-18 | 2013-03-19 | Nokia Corporation | Flexible parameter update in audio/speech coded signals |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
JP2010009206A (ja) * | 2008-06-25 | 2010-01-14 | Nikon Corp | 記録制御装置 |
KR101381513B1 (ko) * | 2008-07-14 | 2014-04-07 | 광운대학교 산학협력단 | 음성/음악 통합 신호의 부호화/복호화 장치 |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US8670990B2 (en) * | 2009-08-03 | 2014-03-11 | Broadcom Corporation | Dynamic time scale modification for reduced bit rate audio coding |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
PL3570278T3 (pl) | 2010-03-09 | 2023-03-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Rekonstrukcja wysokiej częstotliwości wejściowego sygnału audio przy użyciu kaskadowych banków filtrów |
RU2596033C2 (ru) | 2010-03-09 | 2016-08-27 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. | Устройство и способ получения улучшенной частотной характеристики и временного фазирования способом расширения полосы аудио сигналов в фазовом вокодере |
CN102934164B (zh) * | 2010-03-09 | 2015-12-09 | 弗兰霍菲尔运输应用研究公司 | 改变回放速度或音调时处理音频信号中瞬态声音事件的设备和方法 |
US8620660B2 (en) * | 2010-10-29 | 2013-12-31 | The United States Of America, As Represented By The Secretary Of The Navy | Very low bit rate signal coder and decoder |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
WO2013149188A1 (en) * | 2012-03-29 | 2013-10-03 | Smule, Inc. | Automatic conversion of speech into song, rap or other audible expression having target meter or rhythm |
CN103871414B (zh) * | 2012-12-11 | 2016-06-29 | 华为技术有限公司 | 一种多声道语音信号的时标调制方法和装置 |
JP6098149B2 (ja) * | 2012-12-12 | 2017-03-22 | 富士通株式会社 | 音声処理装置、音声処理方法および音声処理プログラム |
EP3576087B1 (en) * | 2013-02-05 | 2021-04-07 | Telefonaktiebolaget LM Ericsson (publ) | Audio frame loss concealment |
KR101467684B1 (ko) * | 2013-05-20 | 2014-12-01 | 김정훈 | 이진데이터 압축 및 압축해제 장치와 방법 |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
DE112014002747T5 (de) | 2013-06-09 | 2016-03-03 | Apple Inc. | Vorrichtung, Verfahren und grafische Benutzerschnittstelle zum Ermöglichen einer Konversationspersistenz über zwei oder mehr Instanzen eines digitalen Assistenten |
ES2667823T3 (es) * | 2013-06-21 | 2018-05-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Escalador de tiempo, decodificador de audio, procedimiento y programa informático mediante el uso de un control de calidad |
PL3011692T3 (pl) | 2013-06-21 | 2017-11-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Sterowanie buforem rozsynchronizowania, dekoder sygnału audio, sposób i program komputerowy |
EP2881944B1 (en) * | 2013-12-05 | 2016-04-13 | Nxp B.V. | Audio signal processing apparatus |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US10014007B2 (en) * | 2014-05-28 | 2018-07-03 | Interactive Intelligence, Inc. | Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system |
US10255903B2 (en) * | 2014-05-28 | 2019-04-09 | Interactive Intelligence Group, Inc. | Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
EP3149728B1 (en) | 2014-05-30 | 2019-01-16 | Apple Inc. | Multi-command single utterance input method |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
KR101904423B1 (ko) * | 2014-09-03 | 2018-11-28 | 삼성전자주식회사 | 오디오 신호를 학습하고 인식하는 방법 및 장치 |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
GB2537924B (en) * | 2015-04-30 | 2018-12-05 | Toshiba Res Europe Limited | A Speech Processing System and Method |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
KR102422794B1 (ko) * | 2015-09-04 | 2022-07-20 | 삼성전자주식회사 | 재생지연 조절 방법 및 장치와 시간축 변형방법 및 장치 |
EP3309785A1 (en) | 2015-11-19 | 2018-04-18 | Telefonaktiebolaget LM Ericsson (publ) | Method and apparatus for voiced speech detection |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
CN105741857B (zh) * | 2016-04-14 | 2019-06-14 | 北京工业大学 | 一种音调序列的鲁棒阶跃规整方法 |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
EP3327723A1 (en) * | 2016-11-24 | 2018-05-30 | Listen Up Technologies Ltd | Method for slowing down a speech in an input media content |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK201770427A1 (en) | 2017-05-12 | 2018-12-20 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US11076039B2 (en) | 2018-06-03 | 2021-07-27 | Apple Inc. | Accelerated task performance |
US10791404B1 (en) * | 2018-08-13 | 2020-09-29 | Michael B. Lasky | Assisted hearing aid with synthetic substitution |
CN112567721B (zh) * | 2018-10-03 | 2024-04-05 | 视频本地化公司 | 一种分段式混合视频和音频同步的方法和装置 |
US10878835B1 (en) * | 2018-11-16 | 2020-12-29 | Amazon Technologies, Inc | System for shortening audio playback times |
CN109920406B (zh) * | 2019-03-28 | 2021-12-03 | 国家计算机网络与信息安全管理中心 | 一种基于可变起始位置的动态语音识别方法及系统 |
US11227579B2 (en) * | 2019-08-08 | 2022-01-18 | International Business Machines Corporation | Data augmentation by frame insertion for speech data |
CN110690902B (zh) * | 2019-09-25 | 2022-05-17 | 电子科技大学 | 一种基于随机截断的时间交织adc失配优化方法 |
US11997339B2 (en) | 2020-01-15 | 2024-05-28 | Dolby International Ab | Adaptive streaming of media content with bitrate switching |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04367898A (ja) * | 1991-06-17 | 1992-12-21 | Matsushita Electric Ind Co Ltd | 音声再生装置 |
JPH10214098A (ja) * | 1997-01-31 | 1998-08-11 | Sanyo Electric Co Ltd | 音声変換玩具 |
JP2000242300A (ja) * | 1999-02-22 | 2000-09-08 | Nippon Telegr & Teleph Corp <Ntt> | 音声速度変換装置、音声速度変換方法および音声速度変換方法を実行するプログラムを記録した記録媒体 |
JP2001154684A (ja) * | 1999-11-24 | 2001-06-08 | Anritsu Corp | 話速変換装置 |
WO2002082428A1 (en) * | 2001-04-05 | 2002-10-17 | Koninklijke Philips Electronics N.V. | Time-scale modification of signals applying techniques specific to determined signal types |
JP2003216200A (ja) * | 2002-01-28 | 2003-07-30 | Telecommunication Advancement Organization Of Japan | 字幕用書き起こしテキストの作成支援システム及び半自動型字幕番組制作システム |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4435831A (en) * | 1981-12-28 | 1984-03-06 | Mozer Forrest Shrago | Method and apparatus for time domain compression and synthesis of unvoiced audible signals |
US5765127A (en) * | 1992-03-18 | 1998-06-09 | Sony Corp | High efficiency encoding method |
US5717823A (en) * | 1994-04-14 | 1998-02-10 | Lucent Technologies Inc. | Speech-rate modification for linear-prediction based analysis-by-synthesis speech coders |
MX9706532A (es) * | 1995-02-28 | 1997-11-29 | Motorola Inc | Metodo y aparato para la compresion de la voz en un sistema de comunicacion. |
US5774837A (en) * | 1995-09-13 | 1998-06-30 | Voxware, Inc. | Speech coding system and method using voicing probability determination |
US5893062A (en) * | 1996-12-05 | 1999-04-06 | Interval Research Corporation | Variable rate video playback with synchronized audio |
US6754265B1 (en) * | 1999-02-05 | 2004-06-22 | Honeywell International Inc. | VOCODER capable modulator/demodulator |
US6138089A (en) * | 1999-03-10 | 2000-10-24 | Infolio, Inc. | Apparatus system and method for speech compression and decompression |
US6718309B1 (en) * | 2000-07-26 | 2004-04-06 | Ssi Corporation | Continuously variable time scale modification of digital audio signals |
US6477502B1 (en) * | 2000-08-22 | 2002-11-05 | Qualcomm Incorporated | Method and apparatus for using non-symmetric speech coders to produce non-symmetric links in a wireless communication system |
US6985857B2 (en) * | 2001-09-27 | 2006-01-10 | Motorola, Inc. | Method and apparatus for speech coding using training and quantizing |
US7412376B2 (en) * | 2003-09-10 | 2008-08-12 | Microsoft Corporation | System and method for real-time detection and preservation of speech onset in a signal |
US7596488B2 (en) * | 2003-09-15 | 2009-09-29 | Microsoft Corporation | System and method for real-time jitter control and packet-loss concealment in an audio signal |
US7627467B2 (en) * | 2005-03-01 | 2009-12-01 | Microsoft Corporation | Packet loss concealment for overlapped transform codecs |
US7526351B2 (en) * | 2005-06-01 | 2009-04-28 | Microsoft Corporation | Variable speed playback of digital audio |
-
2003
- 2003-09-10 US US10/660,325 patent/US7337108B2/en not_active Expired - Fee Related
-
2004
- 2004-07-22 DE DE602004006206T patent/DE602004006206T2/de active Active
- 2004-07-22 EP EP04103503A patent/EP1515310B1/en not_active Not-in-force
- 2004-07-22 AT AT04103503T patent/ATE361525T1/de not_active IP Right Cessation
- 2004-09-07 JP JP2004260263A patent/JP5096660B2/ja not_active Expired - Fee Related
- 2004-09-09 KR KR1020040072045A patent/KR101046147B1/ko active IP Right Grant
- 2004-09-10 CN CNB2004100901930A patent/CN100533989C/zh not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04367898A (ja) * | 1991-06-17 | 1992-12-21 | Matsushita Electric Ind Co Ltd | 音声再生装置 |
JPH10214098A (ja) * | 1997-01-31 | 1998-08-11 | Sanyo Electric Co Ltd | 音声変換玩具 |
JP2000242300A (ja) * | 1999-02-22 | 2000-09-08 | Nippon Telegr & Teleph Corp <Ntt> | 音声速度変換装置、音声速度変換方法および音声速度変換方法を実行するプログラムを記録した記録媒体 |
JP2001154684A (ja) * | 1999-11-24 | 2001-06-08 | Anritsu Corp | 話速変換装置 |
WO2002082428A1 (en) * | 2001-04-05 | 2002-10-17 | Koninklijke Philips Electronics N.V. | Time-scale modification of signals applying techniques specific to determined signal types |
JP2004519738A (ja) * | 2001-04-05 | 2004-07-02 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 決定された信号型式に固有な技術を適用する信号の時間目盛修正 |
JP2003216200A (ja) * | 2002-01-28 | 2003-07-30 | Telecommunication Advancement Organization Of Japan | 字幕用書き起こしテキストの作成支援システム及び半自動型字幕番組制作システム |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010515114A (ja) * | 2006-12-01 | 2010-05-06 | エヌイーシー ラボラトリーズ アメリカ インク | 迅速かつ効率的なデータ管理及び/またはデータ処理のための方法及びシステム |
JP2009538460A (ja) * | 2007-09-15 | 2009-11-05 | ▲ホア▼▲ウェイ▼技術有限公司 | 高帯域信号にフレーム消失の隠蔽を行う方法および装置 |
KR100998430B1 (ko) * | 2007-09-15 | 2010-12-03 | 후아웨이 테크놀러지 컴퍼니 리미티드 | 상위대역 시그널에 대한 프레임 손실 은닉을 수행하는 방법및 장치 |
US8200481B2 (en) | 2007-09-15 | 2012-06-12 | Huawei Technologies Co., Ltd. | Method and device for performing frame erasure concealment to higher-band signal |
JP2010224053A (ja) * | 2009-03-19 | 2010-10-07 | Nec Corp | 音声合成装置、音声合成方法、プログラム及び記録媒体 |
JP2012186850A (ja) * | 2012-06-04 | 2012-09-27 | Ntt Docomo Inc | 音声パケット通信方法および音声パケット通信装置 |
Also Published As
Publication number | Publication date |
---|---|
DE602004006206T2 (de) | 2007-08-30 |
KR101046147B1 (ko) | 2011-07-01 |
DE602004006206D1 (de) | 2007-06-14 |
CN1601912A (zh) | 2005-03-30 |
KR20050026884A (ko) | 2005-03-16 |
ATE361525T1 (de) | 2007-05-15 |
EP1515310A1 (en) | 2005-03-16 |
US7337108B2 (en) | 2008-02-26 |
EP1515310B1 (en) | 2007-05-02 |
CN100533989C (zh) | 2009-08-26 |
US20050055204A1 (en) | 2005-03-10 |
JP5096660B2 (ja) | 2012-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5096660B2 (ja) | デジタルオーディオ信号の高品質の伸張および圧縮を提供するシステムおよび方法 | |
EP1380029B1 (en) | Time-scale modification of signals applying techniques specific to determined signal types | |
JP6194336B2 (ja) | 受信器において実行される方法、受信器、およびフレーム消去隠蔽を実行するための装置 | |
US8321216B2 (en) | Time-warping of audio signals for packet loss concealment avoiding audible artifacts | |
US7117156B1 (en) | Method and apparatus for performing packet loss or frame erasure concealment | |
US7805297B2 (en) | Classification-based frame loss concealment for audio signals | |
US20050273321A1 (en) | Audio signal time-scale modification method using variable length synthesis and reduced cross-correlation computations | |
US20040083110A1 (en) | Packet loss recovery based on music signal classification and mixing | |
US20070055498A1 (en) | Method and apparatus for performing packet loss or frame erasure concealment | |
KR20010102017A (ko) | 음성 활동에 기초한 이득 제한을 이용하는 음성 개선 방법 | |
JP6301368B2 (ja) | 増強信号の整形を用いて周波数増強信号を生成する装置および方法 | |
WO2016021412A1 (ja) | 符号化装置および方法、復号装置および方法、並びにプログラム | |
CN112786064A (zh) | 一种端到端的骨气导语音联合增强方法 | |
US20230178084A1 (en) | Method, apparatus and system for enhancing multi-channel audio in a dynamic range reduced domain | |
KR20220045260A (ko) | 음성 정보를 갖는 개선된 프레임 손실 보정 | |
US20220277754A1 (en) | Multi-lag format for audio coding | |
Szwoch et al. | Transient detection for speech coding applications | |
Linenberg et al. | Two-Sided Model Based Packet Loss Concealments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070906 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101001 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110104 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110916 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111216 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120914 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120921 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5096660 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150928 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |