JP5169059B2 - 音声通信装置 - Google Patents

音声通信装置 Download PDF

Info

Publication number
JP5169059B2
JP5169059B2 JP2007203910A JP2007203910A JP5169059B2 JP 5169059 B2 JP5169059 B2 JP 5169059B2 JP 2007203910 A JP2007203910 A JP 2007203910A JP 2007203910 A JP2007203910 A JP 2007203910A JP 5169059 B2 JP5169059 B2 JP 5169059B2
Authority
JP
Japan
Prior art keywords
frame
audio data
unit
subframe
missing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007203910A
Other languages
English (en)
Other versions
JP2009042266A (ja
JP2009042266A5 (ja
Inventor
慎治 池上
淳一 前原
憲昭 福岡
敏弘 塚本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2007203910A priority Critical patent/JP5169059B2/ja
Priority to US12/186,033 priority patent/US8175867B2/en
Publication of JP2009042266A publication Critical patent/JP2009042266A/ja
Publication of JP2009042266A5 publication Critical patent/JP2009042266A5/ja
Application granted granted Critical
Publication of JP5169059B2 publication Critical patent/JP5169059B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/253Telephone sets using digital voice transmission
    • H04M1/2535Telephone sets using digital voice transmission adapted for voice communication over an Internet Protocol [IP] network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Telephone Function (AREA)

Description

本発明は、音声データをフレーム単位で受信する音声通信装置に関する。
音声を所定の符号化方式で符号化した音声データをフレーム単位で受信する音声通信措置の一例としてIP電話機が知られている。IP電話機は、インターネットなどのネットワークを介して1以上のフレームを内包したパケットで、送信側と受信側とが会話する。
ネットワーク環境においては、パケットの損失により音声データを格納したフレームの欠損が発生する。このフレームの欠損は、音声の品質低下の要因となるので、一般的なパケット損失補償(PLC)では、正常に受信した前フレームの音声データに基づいて欠損したフレームを補間する。
G.711のAppendix Iのような前データの影響を受けないコーデックであれば、このコーデックの損失補償を使用することで原音に近いデータを再現することができる。
しかし、G.726では、前データの影響を受けるため補間された欠損フレームは、その後、正常に受信されたフレームの音声データと不連続になる。そのため、音声データによっては正常に受信されたフレームを復号化したときに音声が異常なインパルス的な音となって受信者に対して耳障りな音となる。
このような耳障りな音の要因となるフレーム欠損後の聴覚的な品質劣化について、抑制を行う方法が、デジタルコードレス電話機のような移動無線ではあるが特許文献1に記載されている、
特許文献1には、欠損フレームの次のフレームの符号系列の一部を、予測の差分値を小とするような制御と符号化音声とを用いる補正を行い、この補正符号系列をADPCM(Adaptive Differential Pulse Code Modulation)復号化するADPCM符号化音声復号化方法が記載されている。
特開平8−292799号公報
しかし、欠損したフレームによっては、欠損フレームの次の正常なフレームを復号化したときに異常なインパルス的な音を含まず、通常の音質で聴けるような再現性のよい場合があるので、特許文献1のADPCM符号化音声復号化方法のように、欠損フレーム後の正常フレームに対して異常なインパルス的な音の有無にかかわらず、全ての場合に音声データの補正を行うと、この補正が逆に聴覚的な品質劣化を招く結果となるおそれがある。
そこで本発明は、欠損フレーム後の正常に受信できたフレームの音声データの再現性に応じて補正を行うことで、聴覚的な品質の向上を更に図ることができる音声通信装置を提供することを目的とする。
本発明の音声通信装置は、所定の符号化方式で符号化された音声データをフレーム単位で受信する通信部と、前記音声データを復号化する復号化部と、前記復号化された音声データを保持するバッファと、前記フレームの欠損を検出する検出部と、復号化された音声データの波形の振幅エンベロープを算出する算出部と、フレームの欠損が生じた場合、欠損フレームに続く正常フレームに含まれる音声データが前記算出した振幅エンベロープを超えたか否かを判断し、前記振幅エンベロープを超えた部分が前記振幅エンベロープの範囲内に収まるように音声データを補正する制御部と、を具備したことを特徴とする。
本発明の音声通信装置は、音声データが本来もつ振幅エンベロープを用いて、これを超える部分を異常と判断して補正するので、受話者が不快に感じるのを防止できる。また、正常フレームに含まれる音声データが振幅エンベロープを超えた範囲であれば、正常フレームは補正されずにそのまま出力されるので、違和感のない音声を得ることができる。よって、本発明の音声通信装置は、欠損フレーム後の音声データの再現性に応じて補正を行うことで、聴覚的な品質の向上を更に図ることができる。
本願の第1の発明は、所定の符号化方式で符号化された音声データをフレーム単位で受信する通信部と、音声データを復号化する復号化部と、前記復号化部で復号化され、一つのフレームより小さいサブフレームの単位で分割されたサブフレームデータを格納するサブフレームバッファと、復号化されて出力される音声データを格納するエンベロープ検出用ヒストリバッファと、フレームの欠損を検出する検出部と、サブフレームの単位で前記エンベロープ検出用ヒストリバッファから取り出した最初の音声データから順に当該サブフレームに含まれる最大値と比較することによりエンベロープ演算を行い、1サブフレーム分の振幅エンベロープを算出することによって音声レベルを予測した予測閾値を算出する算出部と、前記検出部によりフレームの欠損が検出された場合、欠損したフレームに続く欠損しないフレームに含まれる音声データについて前記サブフレームの単位でピーク値が前記算出部によって算出された予測閾値を超えたか否かを判断し、前記予測閾値を超えた場合に音声データのレベル調整を行う制御部と、を具備したことを特徴とするものである。
本発明によると、欠損フレームに続く正常フレームに含まれる音声データについて、1フレームより小さいサブフレーム単位で前記音声データから算出した予測閾値を超えたか否かを判断し、予測閾値を超えた場合に音声データのレベル調整を行うことにより、音声データが本来もつ振幅エンベロープを用いて、これを超える部分を異常と判断して補正するので、復号化された音声データが異常な振幅を示す場合にそのまま出力されるのを防止し、その結果、受話者が異常なインパルス的な音を不快に感じるのを防止できる。また、正常フレームに含まれる音声データが振幅エンベロープを超えない範囲であれば、正常フレームは補正されずにそのまま出力されるので、違和感のない音声を得ることができる。
本願の第2の発明は、第1の発明において、欠損フレームを補間する補間処理部を設けたことを特徴としたものである。
フレームの欠損が生じた場合に、前記欠損フレームを補間すると、補間処理部により実際の音声データと異なる音声データが生成される。この際、符号化方式として前のフレームを参照データとして次のフレームを符号化する方式を採用すると、符号化した音声データと異なる音声データが次のフレームで復号化されるため、欠損フレーム後の正常フレームを復号化した音声データは異常な振幅を示す場合がある。
第2の発明によると、前記欠損フレームを補間する補間処理部を設けた場合でも、復号化された音声データが予測閾値を超えた場合に音声データのレベル調整を行うことにより、音声データが本来もつ振幅エンベロープを用いて、これを超える部分を異常と判断して補正するので、復号化された音声データが異常な振幅を示す場合にそのまま出力されるのを防止し、その結果、受話者が異常なインパルス的な音を不快に感じるのを防止できる。
本願の第3の発明は、第1の発明において、制御部は、欠損フレームに続く所定数の正常フレームについて、正常フレームに含まれる音声データが算出した振幅エンベロープを超えたか否かを判断することを特徴としたものである。
第3の発明によると、補正する音声データを欠損フレームに続く所定数の正常フレームとすることにより、欠損フレームの補間に起因して音声データが異常な振幅を示す現象を解消するので、復号化の際に前のフレームの影響がなくなっても本来の音声データの振幅が急激に高くなる音声の変化がある場合に、これを補正して本来の音声データと異なる音声データを生成することを回避できる。
本願の第4の発明は、制御部は、フレームの欠損が生じた場合であって欠損したフレームに続く欠損しないフレームが所定数に達した場合は前記音声データの補正は行わず、前記サブフレームバッファに保持された音声データを出力することを特徴としたものである。
第4の発明によると、欠損フレームに続く正常フレームが所定数に達した場合は音声データの補正を行わないことにより、前記音声データが前記算出した振幅エンベロープを超えない場合は本来の音声データを出力するので、音声データを補正する場合を最小限に押さえ、音声データの再現性を高めることができる。
本願の第5の発明は、第1の発明において、制御部は、音声データが算出した振幅エンベロープを超えたか否かを判断する場合、フレームより小さい単位で判断することを特徴としたものである。
第5の発明によると、前記音声データが前記算出した振幅エンベロープを超えたか否かを判断する場合、前記フレームより小さい単位で判断し、欠損フレームの補間に起因して音声データのピークが急激に変化した場合に、その変化した短い部分を選択して補正できるので、音声データを補正する区間を短く、一方、音声データを補正しない区間を長くして、補正による影響を最小限に抑え、音声データの再現性を高めることができる。
本願の第6の発明は、第1の発明において、所定の符号化方式はADPCM方式であることを特徴としたものである。
フレームの欠損が生じた場合、前記欠損フレームを補間すると、補間処理部により実際の音声データと異なる音声データが生成される。この際、符号化方式としてADPCM方式を採用すると、ADPCM方式は前のフレームを参照データとして次のフレームを符号化するため、符号化した音声データと異なる音声データで次のフレームを復号化することになって、復号化された音声データは異常な振幅を示す場合がある。
第6の発明によると、符号化方式としてADPCM方式を採用した場合でも、復号化された音声データが、前記音声データから算出した振幅エンベロープを超えた場合に、前記振幅エンベロープを超えた部分が前記振幅エンベロープの範囲内に収まるように音声データを補正することにより、音声データが本来もつ振幅エンベロープを用いて、これを超える部分を異常と判断して補正するので、復号化された音声データが異常な振幅を示す場合にそのまま出力されるのを防止し、その結果、受話者が異常なインパルス的な音を不快に感じるのを防止できる。
(実施の形態)
本発明の実施の形態に係る音声通信装置としてIP電話機を例に、図面に基づいて説明する。図1は、本発明の実施の形態に係るIP電話機全体の構成を説明するための図である。図2は、図1に示すIP電話機の復号部の構成を説明するための図である。図3は、図1に示すIP電話機のレベル変換テーブルを説明するための図である。なお、図1においては、送信側のIP電話機は送信部のみを、受信側のIP電話機は受信部のみを図示している。
図1に示すように、本実施の形態に係る受信側のIP電話機10は、インターネットやイントラネットなどのネットワークに接続され、送信側のIP電話機1からの符号化された音声データを、フレーム単位で受信して復号化するものである。
送信側のIP電話機1は、音声を入力してアナログ信号に変換するマイク2と、変換されたアナログ信号をデジタル信号に変換するA/D変換部3と、デジタル信号を所定の符号化方式で符号化して圧縮するコーデック部4と、符号化された音声データをフレーム単位に分割するパッキング処理部5と、フレームとした音声データにヘッダ(コーデックタイプおよび通し番号(シーケンス番号)を含む)を付加してパケットとするパケット構成部6と、パケットを伝送路であるネットワークへ送信するパケット送信部7とを備えている。
コーデック部4は、入力されたデジタル音声信号に対して符号化(G.711、G.726、G.729など)し、その符号をまとめてペイロードと呼ばれる単位にする。このペイロードのサイズは特に規定はしていないが、具体的な例として、8kHzのサンプリング周波数を使用して、ADPCM符号化で1サンプル4ビット時、80サンプル〜160サンプルのまとまりでペイロードとすると、その時間は、10ms〜20ms、データ長は40バイトから80バイトとなる。次に、パケットサイズを規定する。まずパケット自体のオーバーヘッドを減らすために、ペイロードを幾つかまとめてパケットとなるサイズを決める。例えばパケット中のデータを160バイトとすると、ペイロード長40バイトの時には4個分をまとめることができる。
パケット構成部6は、生成された音声データから、音声データに通し番号(シーケンス番号)、タイムスタンプ、符号化形式(ペイロードタイプ)を含むRTP(Real−time Transport Protocol)ヘッダを付け、RTPパケットを生成する。
受信側のIP電話機10は、ネットワークからのパケットを受信するパケット受信部11と、コーデックタイプから符号化方式を検出するコーデックタイプ検出部12と、パケットのシーケンス番号からパケット順序を整列させる並び替え復元部13と、復元されたパケットに内包されたフレームの音声データを復号化する復号部14と、復号化された音声データをアナログ信号の音声信号に変換するD/A変換部15と、音声信号から音声を出力するスピーカ16とを備えている。
次に、受信側のIP電話機10における復号部14の構成について、図2に基づいて詳細に説明する。
図2に示すように、復号部14は、音声データを復号化し、欠損フレームが発生した場合に、補間処理を行うと共に、欠損フレーム後の後フレームに対してレベル調整を行うことで聴覚的品質の向上を図るものである。
復号部14は、欠損フレームが発生していなければそのままのフレームを出力し、欠損フレームが発生していれば欠損フレームを補間するフレームを生成するために、フレーム欠損検出部1401と、ADPCM復号部1402と、スイッチ部1403と、サブフレームバッファ1404と、レベル調整部1405と、切替制御部1406と、音声補間用ヒストリバッファ1407と、欠損フレーム補間処理部1408とを備えている。
また、復号部14は、欠損フレーム後の正常フレームにおいて発生のおそれのある異常なインパルス的な音を抑止するために、エンベロープ検出用ヒストリバッファ1409と、エンベロープ算出部1410と、ピーク検出部1411と、比較部1412と、欠損後の正常フレームカウンタ部1413と、レベル調整制御部1414と、レベル変換テーブル部1415とを備えている。
フレーム欠損検出部1401は、並び替え復元部13によりパケット順序が整列されたパケット列からシーケンス番号の欠落を検出することで、欠損フレームの発生の有無を検出する検出部である。なお、フレーム欠損検出部1401は、並び替え復元部13によるパケット順序の整列が所定時間内に間に合わない場合においてもフレームの損失として判定する。
ADPCM復号部1402は、符号化された音声データを復号する機能を備えている。ADPCM復号部1402は、スイッチ部1403を介在してサブフレームバッファ1404に接続されている。
サブフレームバッファ1404は、ADPCM復号部1402により復号化されたフレームデータを等分割したサブフレームデータ(音声データ)を格納するバッファメモリである。サブフレームバッファ1404からの出力信号は、レベル調整部1405を介して復号部14の出力信号として出力される。
レベル調整部1405は、レベル調整制御部1414からの制御に基づいて出力する音声レベルを調整する。
エンベロープ検出用ヒストリバッファ1409は、レベル調整部1405の出力信号を順次格納するバッファメモリである。
エンベロープ算出部1410は、エンベロープ検出用ヒストリバッファ1409に格納された音声データから振幅エンベロープ(包絡線)を算出することで、欠損フレーム後の各フレームでの音声レベルを予測した予測閾値として出力する。
ピーク検出部1411は、サブフレームバッファ1404からの音声データのピーク値を検出する。比較部1412は、エンベロープ算出部1410からの予測閾値と、ピーク検出部1411からのピーク値とを比較して結果をレベル調整制御部1414へ出力する。
レベル調整制御部1414は、レベル調整部1405から出力される音声データの音声レベルを調整する機能を備えている。この音声レベルの調整は、詳細には後述するが、音声レベル減衰させる割合を算出するための第1係数と第2係数とに基づいて行われる。
欠損後の正常フレームカウンタ部1413は、欠損フレーム後のフレーム数をカウントしてレベル調整制御部1414へ出力する。
レベル変換テーブル部1415は、欠損後の正常フレームカウンタ部1413のカウント値に対応させて、減衰の度合いを示す係数(以下、第1係数と称す。)をテーブルとしたものである。第1係数は、「1」が調整なし(減衰無し)を意味し、第1係数が小さいほど減衰度を強くする。例えば、図3に示すように、正常に戻った最初のフレーム(欠損後の正常フレームカウンタ部1413のカウント値「1」)では、減衰の度合いが最大になる。正常に戻った後2番目、3番目になるに従って減衰の度合いを徐々に落とし、欠損後の正常フレームカウンタ部1413のカウント値が「10」で調整なしを意味する「1」へ近づくように設定される。
以上のように構成された本発明の実施の形態に係るIP電話機の動作について、更に図4から図8に基づいて説明する。図4および図5は、図1に示す受信側のIP電話機10の動作を説明するためのフローチャートである。図6は、図1に示す受信側のIP電話機10のエンベロープ算出部の動作を説明するためのフローチャートである。図7は、振幅エンベロープを説明するための波形図である。図8は、欠損フレーム発生時における異常なインパルス的な音を説明するための図であり、(A)は正常時の波形図、(B)は欠損フレーム後の正常フレームが正常に再生できた場合の波形図、(C)は欠損フレーム後の正常フレームに異常なインパルス的な音が含まれた場合の波形図である。
まず、送信側のIP電話機1からのパケットが、ネットワークにおいて損失せずに受信側のIP電話機10に到達した場合を説明する。
図1に示すように、送信側のIP電話機1から符号化された音声データがパケット単位でネットワークを介して受信側のIP電話機10へ送信される。
受信側のIP電話機10では、パケット受信部11により受信され、並び替え復元部13により到達順のパケットのシーケンス番号の抜け等を検出して、シーケンス番号の前後の入れ替わりを検出すると、シーケンス番号が昇順となるように並び替えを行う。並び替え復元部13では、パケットの並び替えを行うと共に、パケットに内包される1以上のフレームを取り出して、復号部14へ出力する。
図4に示すように、復号部14では、並び替え復元部13から音声データであるフレームデータを入力する(S10)。フレーム欠損検出部1401は、欠損フレームの有無を判定する(S20)。パケットが損失していない状態においては、欠損フレームの発生が検出されないので、フレーム欠損検出部1401は切替制御部1406に対してサブフレームバッファ1404とADPCM復号部1402とを接続するようにスイッチ部1403の制御を指示する。また、フレーム欠損検出部1401は、欠損フレームが検出されたか否かを示す欠損フレームフラグがオンであるか否かを判定する(S30)。この判定においては、欠損フレームフラグがオフであるため、何もせずにS40へ移行する。
フレーム欠損検出部1401からのフレームデータは、ADPCM復号部1402へ出力され、ADPCM復号部1402で復号される(S40)。また、ADPCM復号部1402は、復号化されたフレームデータをサブフレームごとに等分割してサブフレームデータを生成する(S50)。
図5に示すように、分割されたサブフレームデータは、サブフレームバッファ1404に格納されると共に、欠損フレームが発生したときのために音声補間用ヒストリバッファ1407に格納される(S60)。ここで、フレーム欠損検出部1401は、欠損後のフレームフラグがオンかオフかを判定する(S70)。パケットが損失していない状態においては、欠損後のフレームフラグがオフであるため、詳細には後述する異常なインパルス的な音の抑制処理を行わない。従って、レベル調整制御部1414での音声データの減衰度を算出する調整レベルの演算の結果として、調整なしを意味する「1」が設定される(S80)。サブフレームバッファ1404から出力された音声データを、レベル調整部1405へ出力する(S90)。
サブフレームバッファ1404から出力された音声データは、レベル調整制御部1414による調整レベルの演算結果に基づいて減衰される。しかし、調整レベルの演算結果は、調整なしを意味する「1」であっため、異常なインパルス的な音の抑制処理を行わずに、補正なしの状態の音声データが、レベル調整部1405を介して、図1に示すD/A変換部15へ出力される(S100)。
また、並行してレベル調整部1405から出力された音声データは、エンベロープ検出用ヒストリバッファ1409に格納される(S110)。エンベロープ検出用ヒストリバッファ1409への音声データの格納は、異常なインパルス的な音の発生の有無を、正常に受信できた欠損フレーム発生前の音声データから判断するためである。次に、エンベロープ算出部1410が、エンベロープ検出用ヒストリバッファ1409からの音声データに基づいてエンベロープ演算を行う(S120)。
ここで、エンベロープ算出部1410がS120にて行うエンベロープ演算について、図6および図7に基づいて説明する。
図6に示すように、まず、エンベロープ算出部1410は、サブフレームの各データをエンベロープ検出用ヒストリバッファ1409から音声データを取り出す(S300)。そして、取り出した最初の音声データから順に、このサブフレームに含まれる最大値と比較する(S310)。最大値の初期値は「0」であるため、最初の音声データは最大値よりも大である。従って、最初の音声データを最大値とする(S320)。そして音声データをエンベロープデータとしてエンベロープ算出部1410内に格納する(S330)。
また、2番目に取り出した音声データ以降は、最大値が設定されているため、設定された最大値と取り出した音声データとを比較して、例えば、音声データが最大値よりも大である場合には、同様にS320を実行すると共に、S330を実行して音声データをエンベロープデータとする。
更に、取り出した音声データが最大値以下である場合には、最大値から定数(ここでは任意の値とする)の差を算出して、これをエンベロープデータとしてエンベロープ算出部1410内に格納する(S340)。そして、算出したエンベロープデータを最大値とする(S350)。
このS300からS350までの間の処理を、正側と負側ともに1サブフレーム分ほど演算を繰り返すことで、それぞれのエンベロープデータが図7に示す振幅エンベロープの信号レベル正側と信号レベル負側となる(S360)。
そして、振幅エンベロープの信号レベル正側と信号レベル負側を算出すると、演算した1サブフレーム分のエンベロープデータからそれぞれの平均値を算出する(S370)。そうすることで、図7に示す振幅エンベロープの正側、負側の平均値が算出でき、エンベロープ算出部1410はこの平均値に基づいて予測閾値(正側及び負側)を算出する。
図5に示すように、ADPCM復号部1402は、全部のサブフレームデータをサブフレームバッファ1404に出力したか否かを判定し、その結果、残りのサブフレームデータがある場合にはS60へ移行する(S130)。このようにしてS60からS130までを繰り返す。全部のサブフレームデータについて音声データを出力した場合には1フレーム分の処理を終了する。
次に、ネットワークにおいて、送信側のIP電話機1からのパケットが損失して欠損フレームが発生した場合を説明する。なお、送信側のIP電話機1から受信側のIP電話機10の並び替え復元部13までの処理は、パケットの損失がない場合と同じなので説明は省略する。
送信側のIP電話機1から送信された音声データが、例えば、図8(A)に示すような波形であった場合に、ネットワークによる欠損フレームが発生すると、その後、正常に受信されたフレームと不連続になる。音声データによっては、図8(B)に示すように正常に波形が再生される場合もあるが、欠損フレーム後の正常フレームを復号化したときに、正常フレームに図8(C)に示すような異常なインパルス的な音が含まれ、受信者に対して耳障りな音となる場合がある。この場合には、受信側のIP電話機10において異常なインパルス的な音の抑制処理が行われる。
図4に示すように、送信側のIP電話機1からのパケットが損失して欠損フレームが発生すると、並び替え復元部13からフレームデータを入力するフレーム欠損検出部1401にて、欠損フレームが検出される(S10,S20)。欠損フレームが検出されると、フレーム欠損検出部1401は、スイッチ部1403の接続を、ADPCM復号部1402側から欠損フレーム補間処理部1408側へ切り替えるように切替制御部1406に指示する。また、フレーム欠損検出部1401は、欠損フレームフラグをオンとする(S140)。
スイッチ部1403の接続が、欠損フレーム補間処理部1408側へ切り替わることで、音声補間用ヒストリバッファ1407に格納された欠損フレームの発生前の正常に受信できたフレームに基づいて欠損フレームを補間する補間処理が、欠損フレーム補間処理部1408により行われる(S150)。そして、補間されたフレームデータは、スイッチ部1403を介してサブフレームバッファ1404へ出力される。欠損フレーム補間処理部1408による補間処理は、例えば、G.711 Appendix Iの規定に基づいて行うことができる。
補間されたフレームデータは、ADPCM復号部1402により復号化される(S40)。そして、復号化されたフレームデータは、サブフレームに分割される(S50)。以降は、欠損フレームは補間されることで、正常なフレームデータと同等になるので、図5に示すS60とS130との間を、サブフレームごとに繰り返してD/A変換部15へ出力される。
次に、欠損フレーム後の最初のフレームが正常フレームである場合を説明する。
フレームデータが入力されると(S10)、フレーム欠損検出部1401は、欠損フレームの有無を判定する(S20)。欠損フレーム後の最初のフレームが正常フレームであれば、フレーム欠損検出部1401は、切替制御部1406に対してサブフレームバッファ1404とADPCM復号部1402とを接続するようにスイッチ部1403の制御を指示して、S30へ移行する。
S30では、フレーム欠損検出部1401が、欠損フレームフラグがオンであるか否かを判定する。この場合、欠損フレームを補間した処理の際に、S140にて欠損フレームフラグをオンにしているため、フレーム欠損検出部1401は、まず、欠損後の正常フレームカウンタ部1413をリセットする(S160)。次に、欠損フレームフラグをオフとする(S170)。そして、欠損フレーム後の正常フレームフラグをオンとする(S180)。
フレーム欠損検出部1401からの欠損フレーム後のフレームデータは、ADPCM復号部1402へ出力され、ADPCM復号部1402で復号化される(S40)。また、ADPCM復号部1402は、復号化されたフレームデータをサブフレームごとに等分割してサブフレームデータを生成する(S50)。
図5に示すように、サブフレームデータは、サブフレームバッファ1404に格納されると共に、音声補間用ヒストリバッファ1407に格納される(S60)。次に、フレーム欠損検出部1401は、欠損後のフレームフラグがオンかオフかを判定する(S70)。
ここで、フレーム欠損検出部1401は、S180にて、欠損フレーム後の正常フレームフラグをオンとしているので、S190へ移行する。S190では、フレーム欠損検出部1401が欠損後の正常フレームカウンタ部1413にカウンタアップを指示することで、「0」から「1」となる。
欠損後の正常フレームカウンタ部1413の出力はレベル調整制御部1414へ出力されるが、レベル調整制御部1414では、このカウント値が欠損後の最大フレームを超えているか否かが判定される(S200)。例えば、図3に示すレベル変換テーブル部1415では、第1係数をカウント値が「10」で調整なしの状態に戻るような係数としているので、最大フレームは「9」である。従って、S200では、カウント値が欠損後の最大フレームを超えていないと判定される。
カウント値が欠損後の最大フレームを超えていないと判定されると、次のS210では、前記のS60にて格納され音声データを、ピーク検出部1411はサブフレームバッファから読み出し、ピーク値を検出して比較部1412へ出力する。
比較部1412では、ピーク検出部1411からのピーク値(サブフレームの最大値)と、エンベロープ算出部1410からの予測閾値(エンベロープ)とを比較する(S210)。
S210にて、ピーク値が予測閾値よりも大である場合に、レベル調整制御部1414は、音声レベルを減衰させるために、調整レベルの演算を行う(S220)。この調整レベルの演算は、第1係数と第2係数とを乗じることで算出される。
第1係数は、欠損後の正常フレームカウンタ部1413からのカウンタ値と、レベル変換テーブル部1415とを参照することで決定される。つまり、図3に示すように、第1係数は、欠損フレーム後の正常フレームでは、欠損後の正常フレームカウンタ部1413のカウンタ値が「1」であるため、フレームに対する減衰の度合いが最大となる。
第2係数は、ピーク検出部1411により検出されたピーク値からエンベロープ算出部1410からの予測閾値の差を、正側または負側の最大値で割った値である。この正側または負側の最大値とは、例えば、16ビットで量子化されたデータであれば32768となる。つまり、正常フレームに含まれる音声データが振幅エンベロープの正側または負側の平均値より超えていれば、その超えた分の割合を算出した値が第2係数となる。
サブフレームバッファ1404から出力された音声データは、レベル調整部1405へ出力される(S90)。そして、サブフレームバッファ1404から出力された音声データは、レベル調整制御部1414による調整レベルの演算結果に基づいて減衰される。この場合、S220での調整レベルの演算によって得られた減衰度は、第1係数と第2係数とを乗じた割合となるので、異常なインパルス的な音を含む音声データは、振幅エンベロープの範囲内に収まるようにレベル調整部1405で補正され、図1に示すD/A変換部15へ出力される(S100)。また、補正された音声データは、エンベロープ検出用ヒストリバッファ1409に格納される(S110)。
S210にて、ピーク値が予測閾値以下であると判定された場合には、レベル調整制御部1414による異常なインパルス的な音の抑制処理が必要ないので、S80へ移行して、補正なしの状態の音声データを出力する。
そして、S130にて、全部のサブフレームデータをサブフレームバッファ1404に出力したか否かを判定し、その結果、残りのサブフレームデータがある場合には、再度、S60へ移行する。残りのサブフレームデータがない場合には、この処理を終了する。
このようにして、欠損フレーム後の正常フレームでは、1フレームを複数に分けたサブフレームごとにピーク値の判定が行われるので、異常なインパルス的な音が含まれているか否かが精度良く判別することができ、異常なインパルス音を含む音声データであると判定された時のみ補正を行うので、音声データの再現性が高い。
その後、欠損フレームが発生してから2フレーム以降の正常フレームにおいても、S20にて欠損フレームは無しと判定され、S30にて欠損フレームフラグがオフと判定され、S70にて欠損フレーム後の正常フレームフラグがオンと判定され、そしてS210にてピーク値が予測閾値よりも大であると判定されることで、同様に異常なインパルス的な音を含む音声データであると判定されると、S220にて異常なインパルス的な音の抑制処理が行われる。しかし、欠損フレーム発生直後の正常フレームと異なる点は、異常なインパルス的な音を含むフレームが欠損フレームから何フレーム後かにより、減衰の度合いが違うということである。それは、欠損フレーム後の正常フレームをカウントする欠損後の正常フレームカウンタ部1413のカウンタ値に応じて、図3に示すように、第1係数の値が異なるからである。
従って、S220での音声レベルの補正の度合いを算出する調整レベルの演算においては、フレームごとに徐々に減衰の度合いが緩和される第1係数と、ピーク値に応じた第2係数とを音声レベルに乗じたレベルとしている。
そして、第1係数は、本実施の形態では、図3に示すように、欠損後の正常フレームカウンタ部1413のカウント値が「10」で調整なしの状態に戻るような係数なので最大フレームは「9」である。従って、欠損フレームが発生して10フレーム目では、S200にて、カウント値が欠損後の最大フレームを超えていると判定される。つまり、最大フレームを超えていれば、異常なインパルス的な音も通常の音声データとみなされるので、欠損フレーム後の正常フレームフラグをオフとした後(S230)、S80へ移行することで補正なしの音声データが出力される。また、S230にて欠損フレーム後の正常フレームフラグがオフとなることで、11フレーム目からは、S70での判定で、異常なインパルス的な音の抑制処理を行わずにS80へ移行することになる。
このように、受信側のIP電話機10では、欠損フレーム後の正常フレームにおけるサブフレームのピーク値が予測閾値よりも大であるような再現性が悪い場合には、最大フレームの範囲内であれば異常なインパルス的な音の抑制処理を行った補正の音声データとし、ピーク値が予測閾値以下であるような再現性がよい場合には、最大フレームの範囲内であっても補正をしない状態の音声データとすることで、違和感のない音声を得ることができるので、聴覚的な品質の向上を更に図ることができる。
以上、本発明の実施の形態について説明してきたが、本発明は前記実施の形態に限定されるものではない。例えば、本実施の形態では、レベル変換テーブル部1415を、欠損後の正常フレームカウンタ部1413のカウント値が「10」となることで、調整なしを意味する「1」としているが、他のカウント値、例えば「3」としてもよい。このカウント値は、符号化方式などに応じて変わるため、状況に応じて適宜決定するのが望ましい。
また、音声通信装置としてIP電話機を例に説明したが、無線通信するコードレス電話機や、携帯電話機でも、同様の伝送手順であれば、本発明を適用することが可能である。
本発明は、欠損フレーム後の正常に受信できたフレームの音声データの再現性に応じて補正を行うことで、聴覚的な品質の向上を更に図ることができるので。音声データをフレーム単位で受信する音声通信装置に好適である。
本発明の実施の形態に係るIP電話機全体の構成を説明するための図 図1に示すIP電話機の復号部の構成を説明するための図 図1に示すIP電話機のレベル変換テーブルを説明するための図 図1に示す受信側のIP電話機の動作を説明するためのフローチャート 図1に示す受信側のIP電話機の動作を説明するためのフローチャート 図1に示す受信側のIP電話機のエンベロープ算出部の動作を説明するためのフローチャート 振幅エンベロープを説明するための波形図 欠損フレーム発生時における異常なインパルス的な音を説明するための図
符号の説明
1 送信側のIP電話機
2 マイク
3 A/D変換部
4 コーデック部
5 パッキング処理部
6 パケット構成部
7 パケット送信部
10 受信側のIP電話機
11 パケット受信部
12 コーデックタイプ検出部
13 並び替え復元部
14 復号部
1401 フレーム欠損検出部
1402 ADPCM復号部
1403 スイッチ部
1404 サブフレームバッファ
1405 レベル調整部
1406 切替制御部
1407 音声補間用ヒストリバッファ
1408 欠損フレーム補間処理部
1409 エンベロープ検出用ヒストリバッファ
1410 エンベロープ算出部
1411 ピーク検出部
1412 比較部
1413 欠損後の正常フレームカウンタ部
1414 レベル調整制御部
1415 レベル変換テーブル部
15 D/A変換部
16 スピーカ

Claims (6)

  1. 所定の符号化方式で符号化された音声データをフレーム単位で受信する通信部と、
    前記音声データを復号化する復号化部と、
    前記復号化部で復号化され、一つのフレームより小さいサブフレームの単位で分割されたサブフレームデータを格納するサブフレームバッファと、
    復号化されて出力される音声データを格納するエンベロープ検出用ヒストリバッファと、前記フレームの欠損を検出する検出部と、
    前記サブフレームの単位で前記エンベロープ検出用ヒストリバッファから取り出した最初の音声データから順に当該サブフレームに含まれる最大値と比較することによりエンベロープ演算を行い、1サブフレーム分の振幅エンベロープを算出することによって音声レベルを予測した予測閾値を算出する算出部と、
    前記検出部によりフレームの欠損が検出された場合、欠損したフレームに続く欠損しないフレームに含まれる音声データについて前記サブフレームの単位でピーク値が前記算出部によって算出された予測閾値を超えたか否かを判断し、前記予測閾値を超えた場合に音声データのレベル調整を行う制御部と、
    を具備したことを特徴とする音声通信装置。
  2. 前記欠損フレームを補間する補間処理部を設けたことを特徴とする請求項1記載の音声通信装置。
  3. 前記制御部は、欠損したフレームに続く欠損しないフレームが所定数に達しない場合に、前記復号化部によって復号化された音声データについて前記サブフレームの単位でピーク値が前記算出部によって算出された予測閾値を超えたか否かを判断することを特徴とする請求項1記載の音声通信装置。
  4. 前記制御部は、フレームの欠損が生じた場合であって欠損したフレームに続く欠損しないフレームが所定数に達した場合は前記音声データの補正は行わず、前記サブフレームバッファに保持された音声データを出力することを特徴とする請求項1記載の音声通信装置。
  5. 所定の符号化方式はADPCM方式であることを特徴とする請求項1記載の音声通信装置
  6. 前記制御部は、フレームごとに徐々に減衰の度合いを緩和するための第1係数と、前記振幅エンベロープを超えたピーク値に応じた第2係数とを乗じた減衰度で音声データを補正する請求項1記載の音声通信装置。
JP2007203910A 2007-08-06 2007-08-06 音声通信装置 Active JP5169059B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007203910A JP5169059B2 (ja) 2007-08-06 2007-08-06 音声通信装置
US12/186,033 US8175867B2 (en) 2007-08-06 2008-08-05 Voice communication apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007203910A JP5169059B2 (ja) 2007-08-06 2007-08-06 音声通信装置

Publications (3)

Publication Number Publication Date
JP2009042266A JP2009042266A (ja) 2009-02-26
JP2009042266A5 JP2009042266A5 (ja) 2010-09-16
JP5169059B2 true JP5169059B2 (ja) 2013-03-27

Family

ID=40432827

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007203910A Active JP5169059B2 (ja) 2007-08-06 2007-08-06 音声通信装置

Country Status (2)

Country Link
US (1) US8175867B2 (ja)
JP (1) JP5169059B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7412004B2 (en) * 2001-06-29 2008-08-12 Agere Systems Inc. Method and apparatus for controlling buffer overflow in a communication system
US10056077B2 (en) 2007-03-07 2018-08-21 Nuance Communications, Inc. Using speech recognition results based on an unstructured language model with a music system
PL3518234T3 (pl) 2010-11-22 2024-04-08 Ntt Docomo, Inc. Urządzenie i sposób kodowania audio
US10157620B2 (en) 2014-03-04 2018-12-18 Interactive Intelligence Group, Inc. System and method to correct for packet loss in automatic speech recognition systems utilizing linear interpolation

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH021661A (ja) 1988-06-10 1990-01-05 Oki Electric Ind Co Ltd パケット補間方式
JP3183490B2 (ja) * 1994-07-21 2001-07-09 日本電信電話株式会社 予測符号化音声信号受信機
JP3254460B2 (ja) * 1995-04-24 2002-02-04 日本電信電話株式会社 Adpcm符号化音声復号化方法
JP3281789B2 (ja) 1996-01-26 2002-05-13 三洋電機株式会社 音声データ補間回路
JP3603470B2 (ja) * 1996-05-09 2004-12-22 松下電工株式会社 音声品質改善装置
JP4022427B2 (ja) 2002-04-19 2007-12-19 独立行政法人科学技術振興機構 エラー隠蔽方法、エラー隠蔽プログラム、送信装置、受信装置及びエラー隠蔽装置
JP2005077889A (ja) 2003-09-02 2005-03-24 Kazuhiro Kondo 音声パケット欠落補間方式
JP4135621B2 (ja) * 2003-11-05 2008-08-20 沖電気工業株式会社 受信装置および方法

Also Published As

Publication number Publication date
US8175867B2 (en) 2012-05-08
US20090070105A1 (en) 2009-03-12
JP2009042266A (ja) 2009-02-26

Similar Documents

Publication Publication Date Title
AU2007349607C1 (en) Method of transmitting data in a communication system
EP2140637B1 (en) Method of transmitting data in a communication system
US8787490B2 (en) Transmitting data in a communication system
JP5169059B2 (ja) 音声通信装置
JP5195402B2 (ja) 無線通信装置及び無線通信システム
WO2021047763A1 (en) Transmission of a representation of a speech signal
JP5447628B1 (ja) 無線通信装置及び通信端末
JP4572755B2 (ja) 復号化装置,復号化方法及びデジタル音声通信システム
JP2003510643A (ja) オーディオ信号を補正する処理回路、受信機、通信システム、携帯装置、及びその方法
US7962334B2 (en) Receiving device and method
JP2002006890A (ja) 音声信号品質改善装置
JP4915575B2 (ja) 音声伝送システム
JP2013118578A (ja) 音声通信装置及びプログラム
JP6074661B2 (ja) 無線通信装置及び通信端末
JP4713371B2 (ja) 移動体通信システム
JP5816799B2 (ja) 送信側無線通信装置及び受信側無線通信装置
JP4915577B2 (ja) 音声伝送システム
JPH11243376A (ja) 音声復号装置
AU2012200349A1 (en) Method of transmitting data in a communication system
JPH08137497A (ja) 伝送符号誤り補償装置
JP2005184231A (ja) 音声通信端末

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100803

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100803

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20100914

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120313

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120510

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121217

R151 Written notification of patent or utility model registration

Ref document number: 5169059

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160111

Year of fee payment: 3