JP4146489B2 - 音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体 - Google Patents
音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体 Download PDFInfo
- Publication number
- JP4146489B2 JP4146489B2 JP2006513918A JP2006513918A JP4146489B2 JP 4146489 B2 JP4146489 B2 JP 4146489B2 JP 2006513918 A JP2006513918 A JP 2006513918A JP 2006513918 A JP2006513918 A JP 2006513918A JP 4146489 B2 JP4146489 B2 JP 4146489B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- packets
- waveform
- decoded
- buffer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 67
- 239000000872 buffer Substances 0.000 claims description 169
- 238000012545 processing Methods 0.000 claims description 37
- 238000004904 shortening Methods 0.000 claims description 36
- 238000004458 analytical method Methods 0.000 claims description 30
- 230000008569 process Effects 0.000 claims description 25
- 238000004891 communication Methods 0.000 claims description 20
- 230000003247 decreasing effect Effects 0.000 claims description 17
- 238000001514 detection method Methods 0.000 claims description 15
- 230000006837 decompression Effects 0.000 claims description 10
- 238000009825 accumulation Methods 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 8
- 230000008602 contraction Effects 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 238000013459 approach Methods 0.000 claims description 2
- 230000005236 sound signal Effects 0.000 description 21
- 238000004364 calculation method Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 11
- 230000005540 biological transmission Effects 0.000 description 9
- 230000007423 decrease Effects 0.000 description 8
- 238000000605 extraction Methods 0.000 description 5
- 238000003780 insertion Methods 0.000 description 5
- 230000037431 insertion Effects 0.000 description 5
- 230000007774 longterm Effects 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008054 signal transmission Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 206010002953 Aphonia Diseases 0.000 description 1
- 241000956207 Picola Species 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04J—MULTIPLEX COMMUNICATION
- H04J3/00—Time-division multiplex systems
- H04J3/02—Details
- H04J3/06—Synchronising arrangements
- H04J3/062—Synchronisation of signals having the same nominal but fluctuating bit rates, e.g. using buffers
- H04J3/0632—Synchronisation of packets and cells, e.g. transmission of voice via a packet network, circuit emulation service [CES]
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Description
図2に送信すべき音声データ列と音声パケットの関係を示す。図2Aは送信すべき音声データ列を示す。送信すべき音声データ列は一般にPCMデジタルサンプル列で構成される。このディジタル音声データ列をフレームと呼ばれる一定の時間単位(一般的には10ミリ秒〜20ミリ秒程度)に区切って音声符号化し、音声符号に送信時刻を表わすタイムスタンプ等を付加して音声パケットとして送信される。音声パケットは図2Bに示すように時間軸方向に圧縮された間欠信号とされ、間欠信号の空き時間は他のパケット通信に利用される。音声信号送信装置5から送り出される音声パケットの送り出しの時間の間隔は音声データ列のフレーム長に該当し、フレーム長に相当する時間間隔でパケット通信網6に送り出される。
ところで、通信網の状態によってはパケットの到来時間に大きなゆらぎが生じ、その結果、制限時間内(フレーム長に相当する時間内)にパケットが届かない現象が発生し、再生する音声が途切れるという問題がある。この問題に対して、ゆらぎ吸収バッファとも呼ばれる受信バッファを設けて、常に一定量のパケットを受信バッファに溜めておく方法が知られている。このとき、受信バッファに溜めておくパケットの量を多くすると、パケットの到着遅延の大きなゆらぎには強いが、パケットを受信してから音声が再生されるまでの遅延、即ち通話の遅延も大きくなり、双方向で話しづらいという問題がある。逆に、受信バッファに溜めておくパケットの量を少なくすると、通話の遅延は少ないが、パケットの到着遅延のゆらぎが発生したときに、音声が途切れやすいという問題がある。つまり、通話の遅延と音声の途切れやすさはトレードオフの関係にある。
人間が発声する音声を10ミリ秒〜20ミリ秒の時間単位に区切って見ると、通常の発声では発声時間の数十パーセント程度は非音声区間(背景雑音区間及び無音区間)であると言われている。そこで、受信バッファ中の受信パケット数が第1の閾値を超えた場合、復号音声中の非音声区間を削除することによりフレーム長を短縮して受信バッファ中の音声再生のための次のパケットへのアクセス時点を早め、受信バッファ中の受信パケット数が第1の閾値より小さい第2の閾値より小さくなった場合は、復号音声信号中の非音声区間を伸張し、それによって受信バッファ中の音声再生のための次のパケットへのアクセス時点を遅延させることにより遅延ゆらぎに対処することができる。この方法は、非音声区間の発生頻度が著しく小さくなったり、長時間にわたって非音声区間が無かったりすると、受信バッファによる調整ができなくなってしまう。
(a) 受信パケットを受信バッファに蓄積し、
(b) 上記受信パケットの到着時間のゆらぎを一定期間又は一定受信パケット数観測して得られるゆらぎの最大値、以下最大遅延ゆらぎと呼ぶ、と上記受信バッファに蓄積されているパケット数であるバッファ蓄積パケット数とを検出し、
(c) 上記最大遅延ゆらぎから、最大遅延ゆらぎが大きいほど上記受信バッファに蓄積すべき最適なパケット数、以下最適蓄積パケット数と呼ぶ、が多くなるように予め決めた関係を用いて最適蓄積パケット数を求め、
(d) 上記検出したバッファ蓄積パケット数と上記最適蓄積パケット数との相違の程度を複数の段階で判定し、
(e) 上記受信バッファから現フレームに対応するパケットを取り出し、そのパケット中の音声符号を復号して現フレームの復号音声データ列を得て、
(f)上記相違の程度が大きいほど処理の頻度が高くなるように予め定めた規則に基づいて、上記バッファ蓄積パケット数を上記最適蓄積パケット数に近づけるように、上記復号音声データ列に対しその波形の伸張、短縮又は現状維持のいずれかの処理を行い、現フレームの再生音声データとして出力する。
音声パケットをパケット通信網から受信するパケット受信部と、
受信したパケットを一時的に蓄積し、要求に応じてパケットを読み出す受信バッファと、
上記受信パケットの到着時間のゆらぎを一定期間又は一定受信パケット数観測して得られるゆらぎの最大値、以下最大遅延ゆらぎと呼ぶ、と上記受信バッファに蓄積されているパケット数であるバッファ蓄積パケット数を検出する状態検出部と、
上記最大遅延ゆらぎから、最大遅延ゆらぎが大きいほど上記受信バッファに蓄積すべき最適なパケット数、以下最適蓄積パケット数と呼ぶ、が多くなるように予め決めた関係を用いて最適蓄積パケット数を求め、上記検出したバッファ蓄積パケット数と上記最適パケット数との相違の程度を複数の段階で判定し、上記相違の程度が大きいほど処理の頻度が高くなるように予め定めた規則に基づいて、上記バッファ蓄積パケット数を上記最適蓄積パケット数に近づけるように波形の伸張、短縮、又は現状維持を指示する制御信号を生成する制御部と、
上記受信バッファから取り出された現フレームに対応するパケット中の音声符号を復号して現フレームの復号音声データ列を得る音声パケット復号部と、
上記制御信号に従って、上記現フレームの復号音声データ列に対し、その波形の伸張、短縮又は現状維持のいずれかの処理を行い、現フレームの再生音声データとして出力する消費量調整部、
とを含むように構成される。
第1実施例
図3は、本発明における音声信号受信部の構成例であり、パケット受信部11と、受信バッファ12と、音声パケット復号部13と、状態検出部14と、音声分析部15と、制御部16と、消費量調整部20と、サウンドデバイス18とから構成されている。パケット受信部11は、通信網から音声パケットを受信し、その受信バッファ12に蓄積すると共に、そのパケットの到着時刻とそのパケットのタイムスタンプを状態検出部14に与える。音声パケットには、フレームと呼ばれる一定の時間単位(一般的には10ミリ秒〜20ミリ秒程度)に区切った音声信号を音声符号化の手法によって変換した音声符号と、送信側におけるパケット作成の時間順序を示すタイムスタンプ(フレーム番号に対応)が含まれている。代表的な音声符号化手段としては、ITU-T(国際電気通信連合)の標準であるG.711方式があるが、その他任意の方式でもよい。
音声パケット復号部13は、音声パケットに含まれる音声符号を復号して、音声データ列を出力し、消費量調整部20と音声分析部15に与える。ここでいう音声データ列とはデジタル音声サンプル列であり、一般的にはPCMフォーマットで扱われることが多い。以下、特に音声信号がアナログかデジタルかの表記はしないが、最終的に人間の耳で聞く音がアナログ信号である以外の処理途中の信号はデジタル信号である。
スタンプをFn-mとし、その到着時刻をTn-mとする。信号伝送路の遅延量の変動が小さければ通常はm=1であるが、遅延量が大きく変動すると到着パケットの順番の逆転が生じる可能性があるので一般にはm=1とは限らない。フレーム長をLfとし、遅延ゆらぎjnを例えばjn=(Tn-Tn-m)-m×Lf又はその絶対値で表すことにする。遅延ゆらぎjnの定義はゆらぎの程度を数値で表すことができれば他の定義式を用いてもよい。
背景雑音がある場合の背景雑音区間(音声区間以外)では、音声区間と同様にピッチ分析の手法を用いてピッチ長を算出する。このとき得られるピッチ長は、音声の物理的特徴量としてのピッチとは異なるが、信号に含まれる主要な基本周波数に対応する周期として利用する。なお、音声の符号化方法によっては音声符号中にピッチに関する情報が含まれている場合があり、その場合には音声符号中のピッチ情報を用いてピッチ長を求めればよい。
S−Bに基づいて、受信バッファ12に必要とされるバッファ量の調整の緊急度を判定する。なお、表16Tを用いる代わりに、例えば最大遅延ゆらぎJと最適蓄積パケット数Bの関係を近似的に表す式を予め決め、それを使用してもよい。即ち、最大遅延ゆらぎJと最適蓄積パケット数Bの予め決めた関係を使用するのであればどのような方法でもよい。
消費量調整部20は制御部16の制御に従って、音声パケット復号部13からの復号音声波形データをそのまま出力するか、伸張して出力するか、短縮して出力する。復号音声波形を伸張すれば音声パケット復号部13の受信バッファ12に対する次のパケットの転送要求が遅れることになり、単位時間当たりのパケット消費量が少なくなる。逆に、復号音声波形を短縮すれば、単位時間当たりのパケット消費量が多くなる。即ち音声信号として出力するための単位時間当たりの処理フレーム数を制御することにより受信バッファ12からのパケットの読み出し量を制御する。
図5Aの処理では、ステップS1Aでパケット受信部11により音声パケットが受信されると、ステップS2Aで受信パケットのタイムスタンプと到着時刻とを状態検出部14に保存する。
ステップS3Aで、状態検出部14により受信パケットの到着時刻とタイムスタンプから直前の受信パケットに対する遅延ゆらぎを求め、到着時刻、タイムスタンプと共に保存し、過去一定時間内の最大遅延ゆらぎJを求め、受信バッファ12の現時点の蓄積パケット数(バッファ量)Sを検出し、制御部16に最大遅延ゆらぎJとバッファ量Sを与える。
図5Bの処理では、ステップS1Bで音声パケット復号部13からの要求により受信バッファ12から再生処理における現フレームに対応するパケットを読み出し、ステップS2Bで音声パケット復号部13によりパケット中の音声符号を復号化して音声データ列を得る。
ステップS3Bで、音声分析部15により復号音声データ列が音声区間であるか非音声声区間であるか判別し、ステップS4Bで制御部16により最大遅延ゆらぎJに対する最適バッファ量Bを図4の表から決定する。
ステップS6Bで、判定された緊急度に応じて消費量調整部20により現フレームの復号音声データ列に対し波形伸張/短縮処理を行う。
ステップS7Bで、波形伸張/短縮処理された音声データ列を出力し、ステップS1Bに戻って次のパケットの再生処理に移る。
以下、図3に示したこの発明による音声パケット再生装置の要部を詳細に説明する。
図3に戻って、消費量調整部20は、フレーム波形伸張部21と、フレーム波形短縮部22と、波形伸張用バッファ23と、スルーパス24と、スイッチSW1、SW2とによって構成される。スイッチSW1は3つの切替端子A1、B1、C1を持ち、スイッチSW2は3つの切替端子A2,B2,C2を持ち、これら切替端子の組A1,A2;B1,B2;C1,C2間にそれぞれフレーム波形伸張部21、スルーパス24、フレーム波形短縮部22が接続されており、制御部16の制御に従ってこれらのいずれかを選択するように連動して切り替えられる。スイッチSW2により選択された音声波形データ列はサウンドデバイス18に与えられると共に、波形伸張用バッファ23に書き込まれる。波形伸張用バッファ23から読み出された音声信号はフレーム波形伸張部21に与えられる。
フレーム波形伸張部21は、波形処理用バッファ21-0と、波形挿入処理部21-1と、第1波形切出し部21-2と、ピッチ波形生成部21-3と、第2波形切出し部21-4とから構成されて
いる。第2波形切出し部21-4は音声分析部15からのピッチ長Lpを使って、波形伸張用バッファ23に蓄積されている1フレーム過去の出力音声信号波形WF1から、図8,行Aに示すピッチ長Lpの区間の波形Xを切り出す。即ち、バッファ23内の最後のサンプル点から、過去の時間方向に向かって1ピッチ長Lpの波形Xを切り出す。
ピッチ波形生成部21-3は、前記切り出した波形Xと波形Yにそれぞれ三角窓の重み付けを行なった後、互いに加算して、図8の行Bに示す波形Zを作成する。ここで利用する重み付け三角窓は、非特許文献1に記載されている三角窓と同様のものを利用することができる。即ち、波形区間の始点から終点に向かって、重みが波形Xでは0から1に、波形Yでは1から0に直線的に変化する形状を利用できる。
図8、行Aでは、波形Xは波形伸張用バッファ23内の1フレーム前の信号から切り出し、波形Yは波形処理用バッファ21-0内の現フレームの信号から切り出しているが、ピッチ長Lpがフレーム長Lfの1/2以下の場合には、現フレームの音声波形のみを使って挿入波形を作成してもよい。例えば、図9、行A中に示すように、図8、行Aの波形X、波形Yに対応する波形X’、Y’を現フレームの先頭から連続して2ピッチ長の区間から切り出し、切り出した波形X′、Y′に三角窓をかけて互いに加算して波形Z′(図9、行B)を作成し、現フレームの波形X′とY′の間(図9、行C)に波形Z′を挿入して長さLf+Lpの波形とすれば(図9、行D)、図8の手法と同様の効果が得られる。
フレーム波形伸張部21の処理によって、長さLfの現フレームの音声信号波形は、図8、行D及び図9、行Dに示すように長さがLf+Lpに伸張された信号波形となって出力される。
第3波形切出し部22-2は、図12の行Aに示すように、波形処理用バッファ22-0に保持されている現フレームの音声信号波形の先頭サンプルから1ピッチ長Lpの区間の波形Dを切り出す。第4波形切出し部22-4は現フレームの音声信号波形の波形Dに続く1ピッチ長Lpの区間の波形Eを切出す。
波形置換処理部22-1は、行Aに示す現フレームの連続する計2ピッチ長の波形D、Eの
区間を行Cに示すように1ピッチ長の区間に短縮して、1ピッチ長の前記波形Fで置換する(行D)。
フレーム波形短縮部22において、ピッチ長Lpがフレーム長Lfの1/2を超えることがある場合は、前記短縮処理を行なうことができない。つまり波形Eがフレーム内から切り出せないためである。例えば、フレーム長Lfを20ミリ秒とすると、ピッチ長Lpは10ミリ秒以下でなくてはならず、これはピッチ周波数が100Hz以上でなくてはならないことを意味する。男性音声では、ピッチ周波数が100Hz未満である場合もある。このようにピッチ長Lpがフレーム長Lfの1/2を超える場合は、フレーム波形短縮部22の波形処理用バッファ22-0のサイズを2フレーム分とし、現フレームとその直前のフレームの連続する2フレーム長の音声信号に対し、上述の短縮処理を行えばよい。
再び図3に戻って、制御部16は状態検出部14からの最大遅延ゆらぎJと受信バッファ12の蓄積パケット数(バッファ量)Sとに基づいて、受信バッファ12に蓄積するパケットの量を増やすべきか、減らすべきか、そのまま維持するのかの判断を行う。
(a) 受信バッファに蓄積されている音声パケットの量が減少傾向にある場合。
(b) 受信バッファに蓄積されている音声パケットの数が所定値より少なくなった場合。
(c) 受信パケットの到着時間の間隔が増加傾向にある場合。
蓄積するパケットの量を減少すべきと判断する状況の例としては次の場合が考えられる。
(b) 受信バッファに蓄積されている音声パケットの数が所定値以上に達した場合。
(c) 受信パケットの到着時間の間隔が短縮傾向にある場合。
それ以外で、パケット到着時点の最大遅延ゆらぎに対して、その時点で蓄積しているパケット量が適切であると判断されるときは、そのまま維持という判断をする。尚、実際の遅延ゆらぎが何ミリ秒の時にパケット蓄積量はいくらが最適であるかについては図4に例を示したが、一定期間(例えば2秒間)内のパケット受信部11へのパケット到着間隔の最大値よりも、蓄積されたパケットの数Sで算出されるフレームの長さの合計時間S×Lfが少し長い程度がよいと考えられる。
波形伸張用バッファ23は、スイッチSW2の出力側の音声データ列を蓄積し、蓄積された音声データ列は、前述のように、フレーム波形伸張部21で利用される。
前述のように、サウンドデバイス18の中にもサウンドデバイス用のバッファを持つのが一般的で、ダブルバッファと呼ばれる方法がよく用いられる。ダブルバッファの両方のバッファが満杯のときは、一方のバッファの再生が終了し、そのバッファが空になるまでは次の音声データ列は受け取らない。
スイッチSW1、SW2を端子A1、A2側に切り替えると、音声パケット復号部13から出力された復号音声データ列は、フレーム波形伸張部21を通ってサウンドデバイス18に送られる。長さLfの復号音声データ列がフレーム波形伸張部21を通ることによって、長さLf+Lpのデータ列に伸張されるので、サウンドデバイス18での再生時間もLf+Lpになる。即ち、通常、サウンドデバイス18が音声データ列を受け取る時間間隔がLfであったのが、Lf+Lpの信号の再生時には音声データ列を受け取る時間間隔はLf+Lpになる。
る。図13、行Bに示した定常消費状態の例では時間TM内に6個のパケットを消費したが、図13、行Cに示す受信バッファ12からパケットを取り出す周期がLf+Lpの消費状態例ではパケットを4個消費することになる。これによりパケットの消費量を定常の消費状態より少なくすることができる。
制御部16により、より高度なバッファ量制御が可能である。例えば、状態検出部14からのバッファ量Sと最大遅延ゆらぎJに基づいて、受信バッファに蓄積するパケットの量を増やすべき、減らすべきと判断する際に、緊急に増やすべき/ゆるやかに増やすべき、緊急に減らすべき/ゆるやかに減らすべき、という増減速度を判断に加えることができる。具体的には、通信網の状態が突然悪化したときに、受信バッファに蓄積するパケットの量をゆるやかに増やしていたのでは、音声の途切れが発生してしまうかもしれない。通信網の状態変化が急激であれば、バッファに蓄積するパケット量の制御も緊急に行うべきである。逆に、一般にドリフトと言われる、送信側と受信側のクロックずれやタイミングのわずかなずれの蓄積により、バッファに蓄積するパケット量が徐々に所望の量より増えてきてしまった、あるいは減ってきてしまったという場合には、ゆるやかに増減すればよい。
ファ量の調整が緊急を要するかその緊急度を判定する手順の例を示す。
ステップS1:状態検出部14における最大遅延ゆらぎJを受信バッファ12内の各パケットの受信時刻から求める。
ステップS2:制御部16により最大遅延ゆらぎJに対応する最適バッファ量Bを図4の表16Tを参照して決める。
ステップS3:状態検出部14により現時点における受信バッファ12のバッファ量(蓄積されているパケット数)Bを求める。
ステップS4:制御部16により決定した最適バッファ量Bと状態検出部14により検出した実際のバッファ量Sとの差の絶対値|S−B|が予め決めた正の値Eより小であるか判定し、小であればバッファ量の調整は必要ないものと判断し、現状を維持する(これを緊急度0と定義する)。
ステップS5:差の絶対値|S−B|がEより小でない場合は、バッファ量の調整が必要であることを意味し、差S−Bが−E以下であるが判定する。−E以下であることはバッファ量を増大する必要があることを意味し、以下のステップS6,S7を実行してバッファ量を増大する緊急度を判定する。S−Bが−E以下でない場合はS−BがE以上であり、バッファ量を減少する必要があることを意味し、以下のステップS8,S9を実行してバッファ量を減少する緊急度を判定する。
ステップS6:現時点のバッファ量Sが0以上でかつ最適バッファ量Bの20%以下であるか判定し、もしそうであればバッファ量の調整(ここでは増大)の緊急度が大であると判定する。なお、Bが1以上でSが0のとき、即ちバッファが枯渇して音切れの危険がある状態もこのステップで緊急度が大であると判定される。
ステップS7:現時点のバッファ量Sが最適バッファ量Bの20%より大で、かつ50%以下であるか判定する。そうであればバッファ量調整の緊急度は中と判定し、そうでなければ緊急度は小と判定する。
ステップS8:S−B<−Eの場合はバッファ量を増加する必要があり、現時点のバッファ量Sが最適バッファ量Bの200%以上であるか判定する。もしそうであれば、緊急度大と判定する。
ステップS9:SがBの200%以上でない場合は、SがBの200%より小で、かつ150%以上であるか判定し、もしそうであれば、緊急度は中であると判定し、そうでなければ緊急度は小であると判定する。
制御例1
図15に示す表1は、図14の手順により判定した緊急度(大、中、小、0)と、音声/非音声判定結果に基づいて制御部16が実行する消費量調整部20の第1の制御例を示す。
判定結果が緊急度小の場合は、現フレームの復号音声データ列が音声区間であればスイッチSW1,SW2を端子B1,B2に固定して伸張/短縮を行わず、非音声区間であれば、スイッチSW1,SW2を、バッファ量を増すべきときは端子A1,A2側に、バッファ量を減らすべきときはC1,C2側にセットする。
制御例2
図16に示す表2は、図14の手順により判定した緊急度(大、中、小、0)と、音声/非音声判定結果に基づいて制御部16が実行する消費量調整部20の第2の制御例を示す。この制御例は第1の制御例に比べて、緊急度が小のときの音声区間でN1フレームに1回の割合でA1,A2側又はC1,C2側にスイッチSW1,SW2をセットし、それ以外のフレームではB1,B2側にセットしている。これは音声の状態(通話環境)によっては、非音声区間がまったく検出されない場合が想定されるため、非音声区間が検出され
ない場合でも、バッファ量を変更できるようにしたものである。N1の値は1以上の整数であるが、例えばN1=5とする。その他は第1の制御例と同様である。
制御例3
図17に示す表3は、制御部16が実行する消費量調整部20の第3の制御例を示す。この例は、図16に示した第2の制御例における緊急度が中の制御を緊急度が大の制御と異ならしており、音声区間ではN2フレームに1回の割合でA1,A2側又はC1,C2側にスイッチSW1,SW2をセットし、それ以外のフレームではB1,B2側にセットする。N2の値は1以上の整数であるが、N1より小さい(即ちA1,A2側又はC1,C2側にセットする頻度が制御例2の対応する制御より小さい)例えばN2=2とするのが好ましい。その他は第2の制御例と同様である。
制御例4
図18に示す表4は、制御部16が実行する消費量調整部20の第4の制御例を示す。この制御例では、緊急度と音声/非音声区のすべての組に対応してそれぞれ予め決めたフレーム数ごとに1回の割合でスイッチSW1,SW2をA1,A2側又はC1,C2側にセットし、それ以外ではB1,B2側にセットする汎用的な手法を定義している。即ち、緊急度が小と大の場合の音声区間での制御は図17の第3制御例と同様であるが、さらに緊急度が大の場合には音声区間/非音声区間にかかわらずN3フレームごとに1回の割合でスイッチSW1,SW2をA1,A2側又はC1,C2側にセットする。また、緊急度が中の場合は、非音声区間においてN4フレームごとに1回の割合でスイッチSW1,SW2をA1,A2側又はC1,C2側にセットし、それ以外のフレームではB1,B2側にセットし、緊急度が小の場合は、非音声区間においてN5フレームごとに1回の割合でスイッチSW1,SW2をA1,A2側又はC1,C2側にセットし、それ以外のフレームではB1,B2側にセットする。
第2実施例
図6に示した音声分析部15では、固定の閾値PthとフレームパワーPfを比較することにより現フレームの復号音声信号が音声区間であるか非音声区間であるかの判定を行っている。この構成は簡便でよいが、復号音声信号にレベルの高い背景雑音(空調騒音やオフィスのざわつき、街頭騒音など)が含まれている場合に、音声区間/非音声区間を正確に判定できない場合がある。音声/非音声判定に背景雑音を考慮することによりこの点を改善した構成を図19に示す。
背景雑音のフレームのみでパワーの長時間平均を計算できるほうが好ましいので、ピッチ相関値rが低いフレームでも、フレームパワーの時系列の定常性を観測して、定常性の低い区間は無声音区間とみなし、上記パワーの長時間平均の計算から除外してもよい。
上述の第2実施例による判定結果は、前述の図15〜18に示した第1乃至第4制御例のいずれに適用してもよい。
第3実施例
前述の第1及び第2実施例では各フレームが音声区間か非音声区間かの2通りに判定していたが、この実施例では音声区間が有声音区間であるか無声音区間であるか区別し、非音声区間が背景雑音区間であるか無音区間であるか区別する。従って、各フレームを、有声音、無声音、背景雑音、無音の4通りに判定し、その判定に基づいて消費量調整部20を制御する。そのための音声分析部15の構成を図20に示す。
図21は区間判定の処理手順を示す。
ステップS1:フレームのパワーPfが固定閾値Pth以下か判定し、そうであれば無音区間と判定する。
ステップS2:PfがPth以下でない場合は、フレームパワーPfが動的パワー閾値Pd以下か判定し、そうであれば背景雑音区間と判定する。
ステップS3:PfがPd以下でない場合は、ピッチ相関値rが予め決めた正の値Rc以下か判定し、そうであれば音声区間の無声音区間と判定し、そうでなければ音声区間の有声音区間と判定する。
緊急度が中と判定された場合は、判定結果が有声音、無声音、背景雑音、無音、に対しそれぞれ予め決めた整数値N6, N7, N8, N9のフレーム数ごとに1フレームの割合でスイッチSW1,SW2を端子A1,A2側又はC1,C2側にセットする。予め決めた整数値としては例えばN6=2, N7=2, N8=1, N9=1を使用することができるが、これらに限定されるものでない。
整数値N6〜N13を適切に選択することにより、音質の低下(違和感の増加)とバッファ量の変化速度のバランスを調整することができる。
以上説明した本発明の音声パケット再生方法はコンピュータに本発明による音声パケット再生プログラムを実行させることにより実現することができ、またコンピュータに本発明による音声パケット再生プログラムをインストールし、CPUに解読させて実行させることにより、コンピュータによって本発明の音声パケット再生装置を構築することができる。本発明による音声パケット再生プログラムはコンピュータが解読可能なプログラム言語によって記述され、コンピュータが読み取り可能な例えば磁気ディスク或はCD−ROMのような記録媒体に記録され、これらの記録媒体からコンピュータにインストールするか、或は通信回線を通じてコンピュータにインストールされ、コンピュータに備えられたCPUに解読されて音声パケット再生動作を実行する。
Claims (14)
- 入力音声データ列のフレーム毎の符号化により生成された音声符号を収容して送信された一連の音声パケットを受信して再生する音声パケットの再生方法であり、以下のステップを含む:
(a) 受信パケットを受信バッファに蓄積し、
(b) 上記受信パケットの到着時間のゆらぎを一定期間又は一定受信パケット数観測して得られるゆらぎの最大値、以下最大遅延ゆらぎと呼ぶ、と上記受信バッファに蓄積されているパケット数であるバッファ蓄積パケット数とを検出し、
(c) 上記最大遅延ゆらぎから、最大遅延ゆらぎが大きいほど上記受信バッファに蓄積すべき最適なパケット数、以下最適蓄積パケット数と呼ぶ、が多くなるように予め決めた関係を用いて最適蓄積パケット数を求め、
(d) 上記検出したバッファ蓄積パケット数と上記最適蓄積パケット数との相違の程度を複数の段階で判定し、
(e) 上記受信バッファから現フレームに対応するパケットを取り出し、そのパケット中の音声符号を復号して現フレームの復号音声データ列を得て、
(f)上記相違の程度が大きいほど処理の頻度が高くなるように予め定めた規則に基づいて、上記バッファ蓄積パケット数を上記最適蓄積パケット数に近づけるように、上記復号音声データ列に対しその波形の伸張、短縮又は現状維持のいずれかの処理を行い、現フレームの再生音声データとして出力する。 - 請求項1記載の音声パケット再生方法において、上記ステップ(f) は、
(f-1) 上記復号音声データ列についてのピッチ長を求めるステップと、
(f-2) 上記音声データ列を分析して音声区間であるか非音声区間であるかを判定する音声非音声判定ステップと、
(f-3) 上記音声非音声判定結果と、上記相違の程度の段階の判定結果とに基づいて、上記復号音声データ列に対し上記ピッチ長に対応する波形を挿入又は削除するか又は上記復号音声データ列を変更しないことにより伸張、短縮又は現状維持の処理を行うステップ、とを含む。 - 請求項2記載の音声パケット再生方法において、
上記ステップ(d) は、上記相違の程度の段階が、上記バッファ蓄積パケット数を緊急に増加又は減少させるべき状況である緊急度大であるか、上記バッファ蓄積パケット数を緩やかに増加又は減少させるべき状況である緊急度小であるかを判定し、
上記ステップ(f-3) は、上記段階が緊急度大の場合は、上記音声区間又は非音声区間にかかわらず上記復号音声データ列の波形の伸張又は短縮を実行し、上記段階が緊急度小の場合は、上記復号音声データ列が非音声区間の場合にのみ上記復号音声データ列の波形の伸張又は短縮を実行するステップを含む。 - 請求項2記載の音声パケット再生方法において、
上記ステップ(d) は、上記相違の程度の段階が、上記バッファ蓄積パケット数を緊急に増加又は減少させるべき状況である緊急度大であるか、上記バッファ蓄積パケット数を緩やかに増加又は減少させるべき状況である緊急度小であるかを判定し、
上記ステップ(f-3) は、上記段階が緊急度大の場合は、上記音声区間又は非音声区間にかかわらず上記復号音声データ列の波形の伸張又は短縮を実行し、上記段階が緊急度小の場合は、上記復号音声データ列が音声区間の場合には予め決めたフレーム数N1毎に1回の割合で上記復号音声データ列の波形の伸張又は短縮を実行し、上記復号音声データ列が非音声区間の場合には予め決めたフレーム数N2ごとに1回の割合で上記音声復号データ列の波形の伸張又は短縮を実行するステップを含み、上記N1及びN2は1以上の整数であり、かつN2はN1より小である。 - 請求項1記載の音声パケット再生方法において、上記ステップ(f) は、
(f-1) 上記復号音声データ列についてのピッチ長を求めるステップと、
(f-2) 上記復号音声データ列を分析して有声音区間、無声音区間、背景雑音区間、無音区間のいずれであるか区間判定するステップと、
(f-3) 上記区間判定結果と、上記相違の程度の段階の判定結果とに基づいて、上記復号音声データ列に対し上記ピッチ長に対応する波形を挿入又は削除するか又は上記復号音声データ列を変更しないことにより伸張、短縮又は現状維持の処理を行うステップ、
とを含む。 - 請求項5記載の音声パケット再生方法において、
上記ステップ(d) は、上記相違の程度の段階が、上記バッファ蓄積パケット数を緊急に増加又は減少させるべき状況である緊急度大であるか、上記バッファ蓄積パケット数を緩やかに増加又は減少させるべき状況である緊急度小であるかを判定し、
上記ステップ(f-3) は、上記段階が緊急度大の場合は、上記区間判定結果にかかわらず上記復号音声データ列の波形の伸張又は短縮を実行し、上記段階が緊急度小の場合は、上記有声音区間、上記無声音区間、上記背景雑音区間、上記無音区間に対しそれぞれ予め決めたフレーム数N1, N2, N3, N4毎に1回の割合で上記復号音声データ列の波形の伸張又は短縮を実行するステップを含み、上記N1, N2, N3, N4は正の整数であり、それらのうち少なくとも1つは2以上でかつ他の3つとは異なる値である。 - 入力音声データ列のフレーム毎の符号化により生成された音声符号を収容して送信された一連の音声パケットを受信して再生する音声パケットの再生装置であり、
音声パケットをパケット通信網から受信するパケット受信部と、
受信したパケットを一時的に蓄積し、要求に応じてパケットを読み出す受信バッファと、
上記受信パケットの到着時間のゆらぎを一定期間又は一定受信パケット数観測して得られるゆらぎの最大値、以下最大遅延ゆらぎと呼ぶ、と上記受信バッファに蓄積されているパケット数であるバッファ蓄積パケット数を検出する状態検出部と、
上記最大遅延ゆらぎから、最大遅延ゆらぎが大きいほど上記受信バッファに蓄積すべき最適なパケット数、以下最適蓄積パケット数と呼ぶ、が多くなるように予め決めた関係を用いて最適蓄積パケット数を求め、上記検出したバッファ蓄積パケット数と上記最適パケット数との相違の程度を複数の段階で判定し、上記相違の程度が大きいほど処理の頻度が高くなるように予め定めた規則に基づいて、上記バッファ蓄積パケット数を上記最適蓄積パケット数に近づけるように波形の伸張、短縮、又は現状維持を指示する制御信号を生成する制御部と、
上記受信バッファから取り出された現フレームに対応するパケット中の音声符号を復号して現フレームの復号音声データ列を得る音声パケット復号部と、
上記制御信号に従って、上記現フレームの復号音声データ列に対し、その波形の伸張、短縮又は現状維持のいずれかの処理を行い、現フレームの再生音声データとして出力する消費量調整部、
とを含む。 - 請求項7記載の音声パケット再生装置において、
上記復号音声データ列を分析して音声区間であるか非音声区間であるか判定してその判定結果を上記制御部に与えると共に、上記復号音声データ列についてのピッチ長を求めて上記消費量調整部に与える音声分析部が更に設けられており、
上記制御部は上記判定結果と、上記相違の程度の段階の判定結果とに基づいて上記消費量調整部に対し、現フレームの上記復号音声データ列の伸張、短縮又は現状維持の制御を与えるようにされており、
上記消費量調整部は上記制御に従って上記ピッチ長に対応する波形を上記復号音声データ列に対し挿入又は削除するか又は上記復号音声データ列を変更しないようにされている。 - 請求項8記載の音声パケット再生装置において、
上記制御部は、上記相違の程度の段階が、上記バッファ蓄積パケット数を緊急に増加又は減少させるべき状況である緊急度大であるか、上記バッファ蓄積パケット数を緩やかに増加又は減少させるべき状況である緊急度小であるかを判定し、上記消費量調整部に対し、上記段階が緊急度大の場合は、上記音声区間又は非音声区間にかかわらず上記復号音声データ列の波形の伸張又は短縮を実行させる制御を与え、上記段階が緊急度小の場合は、上記復号音声データ列が非音声区間の場合にのみ上記復号音声データ列の波形の伸張又は短縮を実行させる制御を与えるようにされている。 - 請求項8記載の音声パケット再生装置において、
上記制御部は上記相違の程度の段階が、上記バッファ蓄積パケット数を緊急に増加又は減少させるべき状況である緊急度大であるか、上記バッファ蓄積パケット数を緩やかに増加又は減少させるべき状況である緊急度小であるかを判定し、上記段階が緊急度大の場合は、上記音声区間又は非音声区間にかかわらず上記消費量調整部に対し上記復号音声データ列の波形の伸張又は短縮を実行させる制御を与え、上記段階が緊急度小の場合は、上記消費量調整部に対し、上記復号音声データ列が音声区間の場合には予め決めたフレーム数N1毎に1回の割合で上記復号音声データ列の波形の伸張又は短縮を実行させ、上記復号音声データ列が非音声区間の場合には予め決めたフレーム数N2ごとに1回の割合で上記音声復号データ列の波形の伸張又は短縮を実行させる制御を与えるようにされており、上記N1及びN2は1以上の整数であり、かつN2はN1より小である。 - 請求項7記載の音声パケット再生装置において、上記音声分析部は上記復号音声データ列を分析して有声音区間、無声音区間、背景雑音区間、無音区間のいずれであるか区間判定してその判定結果を制御部に与えると共に、上記復号音声データ列についてのピッチ長を求めて上記消費量調整部に与えるようにされており、
上記制御部は、上記区間判定結果と、上記相違の程度の段階の判定結果とに基づいて、上記消費量調整部に対し、現フレームの上記復号音声データ列の伸張、短縮又は現状維持の処理を実行させる制御を与えるようにされており、
上記消費量調整部は、上記制御に従って上記ピッチ長に対応する波形を上記復号音声データ列に対し挿入又は削除するか又は上記復号音声データ列を変更しないようにされている。 - 請求項11記載の音声パケット再生装置において、上記制御部は上記相違の程度の段階が、上記バッファ蓄積パケット数を緊急に増加又は減少させるべき状況である緊急度大であるか、上記バッファ蓄積パケット数を緩やかに増加又は減少させるべき状況である緊急度小であるかを判定し、上記消費量調整部に対し、上記段階が緊急度大の場合は上記区間判定結果にかかわらず上記復号音声データ列の波形の伸張又は短縮を実行させる制御を与え、上記段階が緊急度小の場合は、上記有声音区間、上記無声音区間、上記背景雑音区間
、上記無音区間に対しそれぞれ予め決めたフレーム数N1, N2, N3, N4毎に1回の割合で上記復号音声データ列の波形の伸張又は短縮を実行させる制御を与えるようにされており、上記N1, N2, N3, N4のうち、少なくとも1つは2以上の整数であり、かつ他の3つとは異なる値である。 - コンピュータが解読可能なプログラム言語によって記述され、コンピュータに請求項1記載の音声パケット再生方法を実施させる音声パケット再生プログラム。
- コンピュータが読取り可能な記録媒体によって構成され、この記録媒体に請求項13記載の音声パケット再生プログラムを記録した記録媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004156069 | 2004-05-26 | ||
JP2004156069 | 2004-05-26 | ||
PCT/JP2005/009569 WO2005117366A1 (ja) | 2004-05-26 | 2005-05-25 | 音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2005117366A1 JPWO2005117366A1 (ja) | 2008-04-03 |
JP4146489B2 true JP4146489B2 (ja) | 2008-09-10 |
Family
ID=35451246
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006513918A Active JP4146489B2 (ja) | 2004-05-26 | 2005-05-25 | 音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体 |
Country Status (5)
Country | Link |
---|---|
US (1) | US7710982B2 (ja) |
EP (1) | EP1750397A4 (ja) |
JP (1) | JP4146489B2 (ja) |
CN (1) | CN1926824B (ja) |
WO (1) | WO2005117366A1 (ja) |
Families Citing this family (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7672742B2 (en) * | 2005-02-16 | 2010-03-02 | Adaptec, Inc. | Method and system for reducing audio latency |
US8411662B1 (en) | 2005-10-04 | 2013-04-02 | Pico Mobile Networks, Inc. | Beacon based proximity services |
US20070115916A1 (en) * | 2005-11-07 | 2007-05-24 | Samsung Electronics Co., Ltd. | Method and system for optimizing a network based on a performance knowledge base |
US8832540B2 (en) * | 2006-02-07 | 2014-09-09 | Nokia Corporation | Controlling a time-scaling of an audio signal |
JP2007235221A (ja) * | 2006-02-27 | 2007-09-13 | Fujitsu Ltd | 揺らぎ吸収バッファ装置 |
US7830794B2 (en) * | 2006-03-29 | 2010-11-09 | Intel Corporation | Method and apparatus for improved isochronous data delivery over non-isochronous communication fabric |
US20070294087A1 (en) * | 2006-05-05 | 2007-12-20 | Nokia Corporation | Synthesizing comfort noise |
US8239190B2 (en) * | 2006-08-22 | 2012-08-07 | Qualcomm Incorporated | Time-warping frames of wideband vocoder |
US8483243B2 (en) * | 2006-09-15 | 2013-07-09 | Microsoft Corporation | Network jitter smoothing with reduced delay |
US8311814B2 (en) * | 2006-09-19 | 2012-11-13 | Avaya Inc. | Efficient voice activity detector to detect fixed power signals |
US7877253B2 (en) * | 2006-10-06 | 2011-01-25 | Qualcomm Incorporated | Systems, methods, and apparatus for frame erasure recovery |
US7647229B2 (en) | 2006-10-18 | 2010-01-12 | Nokia Corporation | Time scaling of multi-channel audio signals |
JP4894476B2 (ja) * | 2006-11-21 | 2012-03-14 | 富士通東芝モバイルコミュニケーションズ株式会社 | 音声送信装置および移動通信端末 |
US8279884B1 (en) * | 2006-11-21 | 2012-10-02 | Pico Mobile Networks, Inc. | Integrated adaptive jitter buffer |
JP5046661B2 (ja) * | 2007-01-23 | 2012-10-10 | アルパイン株式会社 | オーディオ装置 |
US20080222636A1 (en) * | 2007-03-05 | 2008-09-11 | David Tzat Kin Wang | System and method of real-time multiple-user manipulation of multimedia threads |
JP2009047914A (ja) * | 2007-08-20 | 2009-03-05 | Nec Corp | 音声復号化装置、音声復号化方法、音声復号化プログラムおよびプログラム記録媒体 |
CN100524462C (zh) * | 2007-09-15 | 2009-08-05 | 华为技术有限公司 | 对高带信号进行帧错误隐藏的方法及装置 |
US20100290454A1 (en) * | 2007-11-30 | 2010-11-18 | Telefonaktiebolaget Lm Ericsson (Publ) | Play-Out Delay Estimation |
US8589720B2 (en) * | 2008-04-15 | 2013-11-19 | Qualcomm Incorporated | Synchronizing timing mismatch by data insertion |
WO2009150894A1 (ja) * | 2008-06-10 | 2009-12-17 | 日本電気株式会社 | 音声認識システム、音声認識方法および音声認識用プログラムが格納された記憶媒体 |
US9380401B1 (en) | 2010-02-03 | 2016-06-28 | Marvell International Ltd. | Signaling schemes allowing discovery of network devices capable of operating in multiple network modes |
JP5440272B2 (ja) * | 2010-03-08 | 2014-03-12 | 富士通株式会社 | プッシュ信号の伝送状況判定方法、プログラム及び装置 |
US8532804B2 (en) * | 2010-06-18 | 2013-09-10 | Microsoft Corporation | Predictive resampler scheduler algorithm |
WO2012167479A1 (en) * | 2011-07-15 | 2012-12-13 | Huawei Technologies Co., Ltd. | Method and apparatus for processing a multi-channel audio signal |
WO2013058626A2 (ko) * | 2011-10-20 | 2013-04-25 | 엘지전자 주식회사 | 지터 버퍼 관리 방법 및 이를 이용하는 지터 버퍼 |
US9286907B2 (en) * | 2011-11-23 | 2016-03-15 | Creative Technology Ltd | Smart rejecter for keyboard click noise |
US9094254B2 (en) | 2012-11-15 | 2015-07-28 | Telefonaktiebolaget L M Ericsson (Publ) | Method and apparatus for antenna array calibration using traffic signals |
US9025575B2 (en) | 2012-11-15 | 2015-05-05 | Telefonaktiebolaget Lm Ericsson (Publ) | Antenna array calibration using traffic signals |
JP6123315B2 (ja) * | 2013-02-01 | 2017-05-10 | 沖電気工業株式会社 | 音声受信再生装置 |
JP2014167525A (ja) * | 2013-02-28 | 2014-09-11 | Mitsubishi Electric Corp | 音声復号装置 |
JP5806719B2 (ja) * | 2013-10-09 | 2015-11-10 | 日本電信電話株式会社 | 音声パケット再生装置とその方法とプログラム |
EP2980795A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor |
KR20170059757A (ko) * | 2015-11-23 | 2017-05-31 | 삼성전자주식회사 | 영상 신호 송신 장치, 그의 영상 신호 송신 방법, 영상 신호 수신 장치 및 그의 영상 신호 수신 방법 |
EP3465952B1 (en) | 2016-05-24 | 2020-09-09 | Telefonaktiebolaget LM Ericsson (publ) | Method and apparatus for antenna array calibration using on-board receiver |
US10686897B2 (en) * | 2016-06-27 | 2020-06-16 | Sennheiser Electronic Gmbh & Co. Kg | Method and system for transmission and low-latency real-time output and/or processing of an audio data stream |
US10290303B2 (en) * | 2016-08-25 | 2019-05-14 | Google Llc | Audio compensation techniques for network outages |
US9779755B1 (en) | 2016-08-25 | 2017-10-03 | Google Inc. | Techniques for decreasing echo and transmission periods for audio communication sessions |
CN106534980B (zh) * | 2016-11-15 | 2019-12-06 | 广州华多网络科技有限公司 | 音频处理系统的异常检测方法、日志记录方法及装置 |
EP3324406A1 (en) | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a variable threshold |
EP3324407A1 (en) | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic |
JP6388048B1 (ja) * | 2017-03-23 | 2018-09-12 | カシオ計算機株式会社 | 楽音生成装置、楽音生成方法、楽音生成プログラム及び電子楽器 |
US10972193B2 (en) | 2017-09-06 | 2021-04-06 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and apparatus for antenna array calibration with interference reduction |
CN109561347B (zh) * | 2017-09-27 | 2022-01-25 | 中国移动通信集团山东有限公司 | 一种互联网视频播放质量判定方法及系统 |
US11184065B2 (en) | 2017-10-31 | 2021-11-23 | Telefonaktiebolaget Lm Ericsson (Publ) | Orthogonal training signals for transmission in an antenna array |
US10728180B2 (en) * | 2018-08-21 | 2020-07-28 | At&T Intellectual Property I, L.P. | Apparatus, storage medium and method for adaptive bitrate streaming adaptation of variable bitrate encodings |
TWI721522B (zh) | 2019-08-12 | 2021-03-11 | 驊訊電子企業股份有限公司 | 音訊處理系統及方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2612868B2 (ja) * | 1987-10-06 | 1997-05-21 | 日本放送協会 | 音声の発声速度変換方法 |
US5694521A (en) * | 1995-01-11 | 1997-12-02 | Rockwell International Corporation | Variable speed playback system |
US5623483A (en) * | 1995-05-11 | 1997-04-22 | Lucent Technologies Inc. | Synchronization system for networked multimedia streams |
US5809454A (en) * | 1995-06-30 | 1998-09-15 | Sanyo Electric Co., Ltd. | Audio reproducing apparatus having voice speed converting function |
US6072809A (en) * | 1997-08-14 | 2000-06-06 | Lucent Technologies, Inc. | Statistical method for dynamically controlling the playback delay of network multimedia streams |
WO2000041400A2 (en) * | 1999-01-06 | 2000-07-13 | Koninklijke Philips Electronics N.V. | System for the presentation of delayed multimedia signals packets |
US6377931B1 (en) * | 1999-09-28 | 2002-04-23 | Mindspeed Technologies | Speech manipulation for continuous speech playback over a packet network |
JP4110734B2 (ja) * | 2000-11-27 | 2008-07-02 | 沖電気工業株式会社 | 音声パケット通信の品質制御装置 |
JP2003050598A (ja) | 2001-08-06 | 2003-02-21 | Mitsubishi Electric Corp | 音声復号装置 |
US7596488B2 (en) * | 2003-09-15 | 2009-09-29 | Microsoft Corporation | System and method for real-time jitter control and packet-loss concealment in an audio signal |
US7337108B2 (en) * | 2003-09-10 | 2008-02-26 | Microsoft Corporation | System and method for providing high-quality stretching and compression of a digital audio signal |
-
2005
- 2005-05-25 CN CN2005800063936A patent/CN1926824B/zh not_active Expired - Fee Related
- 2005-05-25 US US10/591,183 patent/US7710982B2/en not_active Expired - Fee Related
- 2005-05-25 JP JP2006513918A patent/JP4146489B2/ja active Active
- 2005-05-25 EP EP05743805A patent/EP1750397A4/en not_active Ceased
- 2005-05-25 WO PCT/JP2005/009569 patent/WO2005117366A1/ja not_active Application Discontinuation
Also Published As
Publication number | Publication date |
---|---|
JPWO2005117366A1 (ja) | 2008-04-03 |
EP1750397A4 (en) | 2007-10-31 |
US20070177620A1 (en) | 2007-08-02 |
CN1926824A (zh) | 2007-03-07 |
WO2005117366A1 (ja) | 2005-12-08 |
US7710982B2 (en) | 2010-05-04 |
EP1750397A1 (en) | 2007-02-07 |
CN1926824B (zh) | 2011-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4146489B2 (ja) | 音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体 | |
EP1243090B1 (en) | Method and arrangement in a communication system | |
JP4630876B2 (ja) | 話速変換方法及び話速変換装置 | |
US8340973B2 (en) | Data embedding device and data extraction device | |
EP1746580B1 (en) | Acoustic signal packet communication method, transmission method, reception method, and device and program thereof | |
KR20070065876A (ko) | 인터넷 프로토콜을 통한 음성통화용 적응성 디-지터 버퍼 | |
JP3891755B2 (ja) | パケット受信装置 | |
JPH07319496A (ja) | 入力音声信号の速度を変更する方法 | |
JP2004361731A (ja) | オーディオ復号装置及びオーディオ復号方法 | |
JP2002237785A (ja) | 人間の聴覚補償によりsidフレームを検出する方法 | |
KR20160023830A (ko) | 품질 제어를 이용하는 오디오 디코더, 방법 및 컴퓨터 프로그램 | |
JP4558734B2 (ja) | 信号復号化装置 | |
KR101516113B1 (ko) | 음성 복호 장치 | |
JP4022111B2 (ja) | 信号符号化装置及び信号符号化方法 | |
JP2001053869A (ja) | 音声蓄積装置及び音声符号化装置 | |
JP5074749B2 (ja) | 音声信号受信装置、それに使用される音声パケット消失補償方法、その方法を実施するプログラム、及びそのプログラムを記録した記録媒体 | |
JP2003050598A (ja) | 音声復号装置 | |
JP4212253B2 (ja) | 話速変換装置 | |
JP2006135657A (ja) | データ受信装置及びデータ受信方法 | |
JP4597360B2 (ja) | 音声復号装置及び音声復号方法 | |
JPH08147874A (ja) | 話速変換装置 | |
JP4539180B2 (ja) | 音響復号装置及び音響復号方法 | |
KR100547898B1 (ko) | 오디오 정보 제공 시스템 및 그 방법 | |
JP3249012B2 (ja) | 音声符号化装置 | |
JP2003295900A (ja) | 音声処理方法、音声処理装置、音声処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080304 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080425 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080610 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080619 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4146489 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110627 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120627 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130627 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140627 Year of fee payment: 6 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |