JP4534582B2 - 音声ストリーム再生装置及び音声ストリーム再生方法 - Google Patents

音声ストリーム再生装置及び音声ストリーム再生方法 Download PDF

Info

Publication number
JP4534582B2
JP4534582B2 JP2004138911A JP2004138911A JP4534582B2 JP 4534582 B2 JP4534582 B2 JP 4534582B2 JP 2004138911 A JP2004138911 A JP 2004138911A JP 2004138911 A JP2004138911 A JP 2004138911A JP 4534582 B2 JP4534582 B2 JP 4534582B2
Authority
JP
Japan
Prior art keywords
expansion
time axis
decoding
audio
received packet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004138911A
Other languages
English (en)
Other versions
JP2005321548A (ja
Inventor
純一 暦本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2004138911A priority Critical patent/JP4534582B2/ja
Publication of JP2005321548A publication Critical patent/JP2005321548A/ja
Application granted granted Critical
Publication of JP4534582B2 publication Critical patent/JP4534582B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、インターネット電話などの音声ストリーム再生装置及び音声ストリーム再生方法に関する。
インターネットなどのネットワークを介して、音声や映像などの時間軸上に連続したメディアを配信する技術は一般に「ストリーミング」と呼ばれ、インターネットラジオや、インターネット電話などの基礎を成す。インターネットはパケット交換型配信なので、データの到達時間は保障されず、ネットワークの混雑状態によって遅延が生じる場合がある。これにより、ストリーム送信を受信する側で、音声の途切れのような現象が発生する。
遅延に対処する最も一般的な方法では、図5に示すように、受信側にバッファメモリ110を用意し、受信したパケットを一時的にバッファメモリ110の末尾に追加することにより蓄積しながら、上記バッファメモリ110の先頭から定期的にパケットを取り出してデコーダ120で復号し、再生装置130により再生するようにしている。これによりネットワークの遅延はバッファメモリ110内のデータの量により吸収することができる。
この場合、バッファメモリ110の長さすなわちバッファメモリ110内に滞留しているパケットの量が伝送遅延として利用者に知覚される。バッファメモリ110を短くすると遅延は少なくなるが、パケット受信に遅延が生じた場合、バッファメモリ110が空になるので、音声が途切れるなど、再生の障害になる。
バッファサイズと遅延に対する耐性はトレードオフの関係にあり、データを多くバッファリングすれば、再生が開始するまでの時間がより多くかかるが、ネットワーク伝送遅延に対する耐性はより改善される。
バッファリングはインターネットラジオのような放送型のストリーミングで広く利用されている。
ところで、インターネット電話のように、双方向のストリーミングでは、バッファリングによる遅延そのものが問題となる。お互いの会話の間に遅延が生じると、国際電話で会話しているように、会話のタイミングがずれてしまう。したがってバッファサイズをあまり大きくとることは、インターネット電話では不向きである。一方、バッファサイズを小さくすると、ネットワーク遅延に対する余裕がなくなり、音の不自然な途切れを生じてしまう。
そこで、本発明の目的は、上述の如き従来の問題点に鑑み、インターネット電話等の実時間性が要求される音声ストリーム通信において、音声の欠落やパケットの廃棄をすることなく音声再生を可能にする。
本発明の更に他の目的、本発明によって得られる具体的な利点は、以下に説明される実施の形態の説明から一層明らかにされる。
本発明では、インターネット電話では通信内容が音声会話であることに着目し、音声のピッチを変えずに時間方向に伸縮させることでネットワーク遅延を吸収する。
本発明に係る音声ストリーム再生装置は、受信パケットを一時蓄積する記憶手段と、上記記憶手段から受信パケットを取り出して復号する復号手段と、上記復号手段により受信パケットを復号して得られる音声データに対して音声のピッチを保存したまま時間軸を伸縮させる処理を行う時間軸圧縮伸張処理手段と、上記記憶手段に一時蓄積されている受信パケット量を基準量に保ちつつ、上記記憶手段に一時蓄積されている受信パケット数をNとし、規定のバッファ遅延に相当するパケット数をMとしたとき、W=M/Nによって規定される上記時間軸圧縮伸張処理手段によって実行される処理における時間軸の伸縮率Wを、音声のピッチを保存したまま時間軸を伸縮させることが可能な所定の範囲の値とする制御手段とを備えることを特徴とする。
本発明に係る音声ストリーム再生方法は、受信パケットを一時蓄積する記憶手段から受信パケットを取り出して復号する復号ステップと、上記記憶手段に一時蓄積されている受信パケット量を基準量に保ちつつ、上記記憶手段に一時蓄積されている受信パケット数をNとし、規定のバッファ遅延に相当するパケット数をMとしたとき、W=M/Nによって規定される伸縮率Wを、音声のピッチを保存したまま時間軸を伸縮させることが可能な所定の範囲の値として、上記復号ステップで受信パケットを復号して得られる音声データに対して時間軸を伸縮させる処理を行う時間軸圧縮伸張処理ステップとを含むことを特徴とする。
本発明では、インターネット電話等の、実時間性が要求される音声ストリーム通信において、音高を維持したまま再生時間を伸縮する信号処理を適用することで、パケット到来が遅延する場合にバッファ内の音声再生時間を伸張させ、逆にバッファ量が多い時に再生時間を縮小させることで、音声の欠落やパケットの廃棄をすることなく音声を再生することができる。
以下、本発明の実施の形態について、図面を参照して詳細に説明する。なお、本発明は以下の例に限定されるものではなく、本発明の要旨を逸脱しない範囲で、任意に変更可能であることは言うまでもない。
本発明は、例えば図1に示すような構成の音声ストリーム再生装置10に適用される。
この音声ストリーム再生装置10は、インターネットなどのネットワークを介して送られてくる音声パケットを受信して再生するもので、受信した音声パケットを一時的に記憶するバッファメモリ1、このバッファメモリ1から音声パケットを取り出して復号するデコーダ2、このデコーダ2により音声パケットを復号することによって得られた音声データに対して、時間軸を伸縮させる処理を施す時間軸圧縮伸張処理部3、上記バッファメモリ1に一時蓄積されている受信パケット量が基準量になるように、上記時間軸圧縮伸張処理部3による時間軸の伸縮量を制御する制御部4、上記時間軸圧縮伸張処理部3により時間軸を伸縮させる処理が施された音声データを音声に変換して出力するスピーカなどを備える再生装置5からなる。
このような構成の音声ストリーム再生装置10では、受信した音声パケットをバッファメモリ1の末尾に追加することにより蓄積しながら、上記バッファメモリ1の先頭から定期的に音声パケットを取り出してデコーダ2で復号し、このデコーダ2で音声パケットを復号することにより得られる音声データに対して、時間軸圧縮伸張処理部3により音声のピッチを保存したまま時間軸を伸縮させる処理を施す。
ここで、時間軸圧縮伸張処理部3による音声のピッチを保存したまま時間軸を伸縮させる処理は、所謂カラオケ演奏装置等において伴奏のテンポを変化させたり、音声の早聞きなどに利用されているものであって、上記時間軸圧縮伸張処理部3は、例えば図2に示すように、音声信号波形をフーリエ変換するフーリエ変換部31、このフーリエ変換部31によるフーリエ変換出力に対して時間軸の伸縮処理を施す伸縮処理部32、この伸縮処理部32の出力を逆フーリエ変換する逆フーリエ変換部33により構成される。
制御部4は、バッファメモリ1に一時蓄積されている受信パケット量が基準量になるように時間軸圧縮伸張処理部3による時間軸の伸縮量を制御する。すなわち、制御部4は、バッファメモリ1内のパケットの量が少なくなると、再生音声を伸張させて再生時間を延ばし、逆に、バッファメモリ1内のパケットの量が多い場合は再生音声を圧縮して再生時間を少なくするように、上記時間軸圧縮伸張処理部3による時間軸の伸縮量を制御する。
このように時間軸圧縮伸張処理部3による時間軸の伸縮量を制御することによって、バッファメモリ1の長さを短くして遅延時間を短くしても、音声の欠落やパケットの廃棄をすることなく音声を連続的に再生することができる。
すなわち、図3の(A)に示す送信元の音声に対し、従来方式では(B)に示すようにパケット遅延によって音声が途切れたり、パケット遅着によってパケットが欠落することがあったが、本発明によれば(C)に示すように、時間軸圧縮伸張処理部3による時間軸の伸縮量を制御することによって、音声の欠落やパケットの廃棄をすることなく音声を連続的に再生することができる。
また、従来方式ではすべてのパケットを再生すると、遅延の分だけ全体の再生時刻が遅れていくか、パケットを廃棄して時刻遅れを回復しなければならないが、本発明ではその遅れも発生しない。
この音声ストリーム再生装置10では、バッファメモリ1中のパケットの量に応じて、再生音声を伸縮させる。例えば、伸張して再生した場合は、再生時間が標準より長くかかるので、必然的にパケットを取り出す頻度が減る。逆に、縮小して再生した場合はパケットを取り出す頻度が増す。このようにして、ネットワーク上の伝送遅延のばらつきがあった場合でも、バッファメモリ1中のパケットがなるべく基準量付近であるように維持することができる。
ここで、伸縮する度合い、すなわち、標準の長さからどれくらい変化させるかは、様々な方針で決定することができる。たとえば、バッファメモリ1中のパケットと、基準量の差によって伸縮の度合いを変化させることができる。また、聞こえてくる音声が不自然にならないように、伸縮の度合いに上限・下限を設定することも可能である。
上記制御部4は、例えば図4のフローチャートに示す手順に従って、上記時間軸圧縮伸張処理部3による時間軸の伸縮量を制御する。
すなわち、上記制御部4は、バッファメモリ1から音声パケットを取り出す毎に(ステップS1)、上記バッファメモリ1に一時蓄積されている受信パケット数をNとし、規定のバッファ遅延に相当するパケット数をMとして、W=M/Nなる伸縮率Wを求める(ステップS2)。
次に、上記伸縮率Wが規定の上下限値を越えてしまうか否かを判定し(ステップS3)、上記伸縮率Wが規定の上下限値を越えてしまう場合に、上記伸縮率Wを0.8≦W≦1.2に制限する(ステップS4)。
そして、このようにして決定した伸縮率Wで音声データに対して音声のピッチを保存したまま時間軸を伸縮させる処理を時間軸圧縮伸張処理部3により行う(ステップS5)。
具体的には、例えば10msごとに音声を符号化し、パケットとして送信するものとした場合、受け側のバッファメモリ1遅延をパケットM個分、すなわちM=10ならバッファメモリ1による遅延が100msとする。この際、上記ステップS2では、バッファメモリ1内のパケット数Nに応じて、次に再生すべきパケットの伸縮率Wを以下のように計算する。
W=M/N
例えば、バッファメモリ1に15個パケットが蓄積している場合、再生時の伸縮率Wは0.6となる。また、バッファメモリ1に5個パケットがある場合は、再生時の伸縮率Wは2となる。これにより、バッファモリ1中に蓄積されたパケットの再生に要する時間はほぼ一定になる。
ただし、再生音声の自然さを保障するために、上記ステップS3,S4において、伸縮率Wに上限・下限(例えば0.8≦W≦1.2など)を設定することができる。
ここで、上記ステップS3,S4では、上記伸縮率Wが規定の上下限値を越えてしまう場合に、上記伸縮率Wを0.8≦W≦1.2に制限するようにしたが、音声ストリームの内容により、伸縮の方針を以下のように変更することも可能である。
すなわち、例えばパケット音声の内容を(a)無音、(b) 持続音(「えー」など)、(c )音楽、(d) それ以外(会話)の四種類に分類し、伸縮率Wを、それぞれの場合に応じた伸縮率の上限WMAX,下限WMINによって、例えば、次の表1に示すように制限する。
WMINa≦W≦WMAXa
WMINb≦W≦WMAXb
WMINc≦W≦WMAXc
WMINd≦W≦WMAXd
Figure 0004534582
本発明を適用した音声ストリーム再生装置の構成を示すブロック図である。 上記音声ストリーム再生装置における時間軸圧縮伸張処理部の構成例を示すブロック図である。 上記音声ストリーム再生装置による再生出力を従来方式と比較して模式的に示す図である。 上記音声ストリーム再生装置における時間軸の伸縮量を制御する制御部の動作を示すフローチャートである。 従来の音声ストリーム再生装置の構成例を示すブロック図である。
符号の説明
1 バッファメモリ、2 デコーダ、3 時間軸圧縮伸張処理部、4 制御部、5 再生装置、10 音声ストリーム再生装置

Claims (4)

  1. 受信パケットを一時蓄積する記憶手段と、
    上記記憶手段から受信パケットを取り出して復号する復号手段と、
    上記復号手段により受信パケットを復号して得られる音声データに対して音声のピッチを保存したまま時間軸を伸縮させる処理を行う時間軸圧縮伸張処理手段と、
    上記記憶手段に一時蓄積されている受信パケット量を基準量に保ちつつ、上記記憶手段に一時蓄積されている受信パケット数をNとし、規定のバッファ遅延に相当するパケット数をMとしたとき、W=M/Nによって規定される上記時間軸圧縮伸張処理手段によって実行される処理における時間軸の伸縮率Wを、音声のピッチを保存したまま時間軸を伸縮させることが可能な所定の範囲の値とする制御手段と
    を備える音声ストリーム再生装置。
  2. 上記制御手段は、上記伸縮率Wが規定の上下限値を越えてしまう場合に、上記伸縮率Wを0.8≦W≦1.2の範囲内の値に制限する請求項1記載の音声ストリーム再生装置。
  3. 上記制御手段は、上記復号手段により受信パケットをデコードして得られる音声データが無音である場合には、0.5≦W≦2.0の範囲内の値に、上記音声データが持続音である場合には、0.66≦W≦1.5の範囲内の値に、上記音声データが音楽である場合には、1.0≦W≦1.0の範囲内の値に、上記音声データが会話である場合には、0.8≦W≦1.2の範囲内の値に、それぞれ音声データに応じて閾値を切り替えて、上記伸縮率Wを制限する請求項1に記載の音声ストリーム再生装置。
  4. 受信パケットを一時蓄積する記憶手段から受信パケットを取り出して復号する復号ステップと、
    上記記憶手段に一時蓄積されている受信パケット量を基準量に保ちつつ、上記記憶手段に一時蓄積されている受信パケット数をNとし、規定のバッファ遅延に相当するパケット数をMとしたとき、W=M/Nによって規定される伸縮率Wを、音声のピッチを保存したまま時間軸を伸縮させることが可能な所定の範囲の値として、上記復号ステップで受信パケットを復号して得られる音声データに対して時間軸を伸縮させる処理を行う時間軸圧縮伸張処理ステップと
    を含む音声ストリーム再生方法。
JP2004138911A 2004-05-07 2004-05-07 音声ストリーム再生装置及び音声ストリーム再生方法 Expired - Fee Related JP4534582B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004138911A JP4534582B2 (ja) 2004-05-07 2004-05-07 音声ストリーム再生装置及び音声ストリーム再生方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004138911A JP4534582B2 (ja) 2004-05-07 2004-05-07 音声ストリーム再生装置及び音声ストリーム再生方法

Publications (2)

Publication Number Publication Date
JP2005321548A JP2005321548A (ja) 2005-11-17
JP4534582B2 true JP4534582B2 (ja) 2010-09-01

Family

ID=35468900

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004138911A Expired - Fee Related JP4534582B2 (ja) 2004-05-07 2004-05-07 音声ストリーム再生装置及び音声ストリーム再生方法

Country Status (1)

Country Link
JP (1) JP4534582B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8483243B2 (en) 2006-09-15 2013-07-09 Microsoft Corporation Network jitter smoothing with reduced delay

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07170503A (ja) * 1993-12-15 1995-07-04 Sony Corp 受信装置
JPH09261613A (ja) * 1996-03-26 1997-10-03 Mitsubishi Electric Corp データ受信再生装置
JP2001045067A (ja) * 1999-05-25 2001-02-16 Matsushita Electric Ind Co Ltd 音声伝送装置
JP2002330180A (ja) * 2001-04-27 2002-11-15 Toa Corp 受信装置及び受信再生方法
JP2004354677A (ja) * 2003-05-29 2004-12-16 Pioneer Electronic Corp 情報処理装置、その方法、そのプログラム、そのプログラムを記録した記録媒体、および、再生装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07170503A (ja) * 1993-12-15 1995-07-04 Sony Corp 受信装置
JPH09261613A (ja) * 1996-03-26 1997-10-03 Mitsubishi Electric Corp データ受信再生装置
JP2001045067A (ja) * 1999-05-25 2001-02-16 Matsushita Electric Ind Co Ltd 音声伝送装置
JP2002330180A (ja) * 2001-04-27 2002-11-15 Toa Corp 受信装置及び受信再生方法
JP2004354677A (ja) * 2003-05-29 2004-12-16 Pioneer Electronic Corp 情報処理装置、その方法、そのプログラム、そのプログラムを記録した記録媒体、および、再生装置

Also Published As

Publication number Publication date
JP2005321548A (ja) 2005-11-17

Similar Documents

Publication Publication Date Title
KR100938032B1 (ko) V o I P 용 적응성 디-지터 버퍼
US7830862B2 (en) System and method for modifying speech playout to compensate for transmission delay jitter in a voice over internet protocol (VoIP) network
US8937963B1 (en) Integrated adaptive jitter buffer
JP4367657B2 (ja) 音声通信方法及び装置
JP4146489B2 (ja) 音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体
JP4744332B2 (ja) ゆらぎ吸収バッファ制御装置
CN105142002B (zh) 音/视频直播方法、装置及控制方法、装置
JP2010512104A (ja) ジッタバッファ制御
CN101500117A (zh) 一种视音频数据播放的控制方法及装置
TW200807395A (en) Controlling a time-scaling of an audio signal
TWI287378B (en) System and method for performing signal synchronization of data streams
CN113162812A (zh) 语音处理方法、直播的语音播放方法、装置、设备及系统
JP4510251B2 (ja) パケットゆらぎ吸収方法及びその装置
JP3796240B2 (ja) ネットワーク電話機および音声復号化装置
JP4534582B2 (ja) 音声ストリーム再生装置及び音声ストリーム再生方法
JP2007235221A (ja) 揺らぎ吸収バッファ装置
JP2006113375A (ja) 音声の再生及び停止を制御する音声再生装置及びプログラム
JP4050961B2 (ja) パケット型音声通信端末
JP4454255B2 (ja) 音声/fax通信システム、音声/fax受信装置および揺らぎ吸収バッファ量制御方法
JP3604817B2 (ja) 音声伝送システム及び受信端末
JP5691721B2 (ja) 音声データ処理装置
JP4338083B2 (ja) ディジタル音声再生装置
JP2708453B2 (ja) 音声信号処理装置
JP4229041B2 (ja) 信号再生装置及び方法
KR102422794B1 (ko) 재생지연 조절 방법 및 장치와 시간축 변형방법 및 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070507

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100301

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100309

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100423

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100525

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100607

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130625

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees