JP5169059B2

JP5169059B2 - 音声通信装置

Info

Publication number: JP5169059B2
Application number: JP2007203910A
Authority: JP
Inventors: 慎治池上; 淳一前原; 憲昭福岡; 敏弘塚本
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2007-08-06
Filing date: 2007-08-06
Publication date: 2013-03-27
Anticipated expiration: 2027-08-06
Also published as: US8175867B2; US20090070105A1; JP2009042266A

Description

本発明は、音声データをフレーム単位で受信する音声通信装置に関する。

音声を所定の符号化方式で符号化した音声データをフレーム単位で受信する音声通信措置の一例としてＩＰ電話機が知られている。ＩＰ電話機は、インターネットなどのネットワークを介して１以上のフレームを内包したパケットで、送信側と受信側とが会話する。

ネットワーク環境においては、パケットの損失により音声データを格納したフレームの欠損が発生する。このフレームの欠損は、音声の品質低下の要因となるので、一般的なパケット損失補償（ＰＬＣ）では、正常に受信した前フレームの音声データに基づいて欠損したフレームを補間する。

Ｇ．７１１のＡｐｐｅｎｄｉｘＩのような前データの影響を受けないコーデックであれば、このコーデックの損失補償を使用することで原音に近いデータを再現することができる。

しかし、Ｇ．７２６では、前データの影響を受けるため補間された欠損フレームは、その後、正常に受信されたフレームの音声データと不連続になる。そのため、音声データによっては正常に受信されたフレームを復号化したときに音声が異常なインパルス的な音となって受信者に対して耳障りな音となる。

このような耳障りな音の要因となるフレーム欠損後の聴覚的な品質劣化について、抑制を行う方法が、デジタルコードレス電話機のような移動無線ではあるが特許文献１に記載されている、
特許文献１には、欠損フレームの次のフレームの符号系列の一部を、予測の差分値を小とするような制御と符号化音声とを用いる補正を行い、この補正符号系列をＡＤＰＣＭ（ＡｄａｐｔｉｖｅＤｉｆｆｅｒｅｎｔｉａｌＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ）復号化するＡＤＰＣＭ符号化音声復号化方法が記載されている。
特開平８−２９２７９９号公報

しかし、欠損したフレームによっては、欠損フレームの次の正常なフレームを復号化したときに異常なインパルス的な音を含まず、通常の音質で聴けるような再現性のよい場合があるので、特許文献１のＡＤＰＣＭ符号化音声復号化方法のように、欠損フレーム後の正常フレームに対して異常なインパルス的な音の有無にかかわらず、全ての場合に音声データの補正を行うと、この補正が逆に聴覚的な品質劣化を招く結果となるおそれがある。

そこで本発明は、欠損フレーム後の正常に受信できたフレームの音声データの再現性に応じて補正を行うことで、聴覚的な品質の向上を更に図ることができる音声通信装置を提供することを目的とする。

本発明の音声通信装置は、所定の符号化方式で符号化された音声データをフレーム単位で受信する通信部と、前記音声データを復号化する復号化部と、前記復号化された音声データを保持するバッファと、前記フレームの欠損を検出する検出部と、復号化された音声データの波形の振幅エンベロープを算出する算出部と、フレームの欠損が生じた場合、欠損フレームに続く正常フレームに含まれる音声データが前記算出した振幅エンベロープを超えたか否かを判断し、前記振幅エンベロープを超えた部分が前記振幅エンベロープの範囲内に収まるように音声データを補正する制御部と、を具備したことを特徴とする。

本発明の音声通信装置は、音声データが本来もつ振幅エンベロープを用いて、これを超える部分を異常と判断して補正するので、受話者が不快に感じるのを防止できる。また、正常フレームに含まれる音声データが振幅エンベロープを超えた範囲であれば、正常フレームは補正されずにそのまま出力されるので、違和感のない音声を得ることができる。よって、本発明の音声通信装置は、欠損フレーム後の音声データの再現性に応じて補正を行うことで、聴覚的な品質の向上を更に図ることができる。

本願の第１の発明は、所定の符号化方式で符号化された音声データをフレーム単位で受信する通信部と、音声データを復号化する復号化部と、前記復号化部で復号化され、一つのフレームより小さいサブフレームの単位で分割されたサブフレームデータを格納するサブフレームバッファと、復号化されて出力される音声データを格納するエンベロープ検出用ヒストリバッファと、フレームの欠損を検出する検出部と、サブフレームの単位で前記エンベロープ検出用ヒストリバッファから取り出した最初の音声データから順に当該サブフレームに含まれる最大値と比較することによりエンベロープ演算を行い、１サブフレーム分の振幅エンベロープを算出することによって音声レベルを予測した予測閾値を算出する算出部と、前記検出部によりフレームの欠損が検出された場合、欠損したフレームに続く欠損しないフレームに含まれる音声データについて前記サブフレームの単位でピーク値が前記算出部によって算出された予測閾値を超えたか否かを判断し、前記予測閾値を超えた場合に音声データのレベル調整を行う制御部と、を具備したことを特徴とするものである。

本発明によると、欠損フレームに続く正常フレームに含まれる音声データについて、１フレームより小さいサブフレーム単位で前記音声データから算出した予測閾値を超えたか否かを判断し、予測閾値を超えた場合に音声データのレベル調整を行うことにより、音声データが本来もつ振幅エンベロープを用いて、これを超える部分を異常と判断して補正するので、復号化された音声データが異常な振幅を示す場合にそのまま出力されるのを防止し、その結果、受話者が異常なインパルス的な音を不快に感じるのを防止できる。また、正常フレームに含まれる音声データが振幅エンベロープを超えない範囲であれば、正常フレームは補正されずにそのまま出力されるので、違和感のない音声を得ることができる。

本願の第２の発明は、第１の発明において、欠損フレームを補間する補間処理部を設けたことを特徴としたものである。

フレームの欠損が生じた場合に、前記欠損フレームを補間すると、補間処理部により実際の音声データと異なる音声データが生成される。この際、符号化方式として前のフレームを参照データとして次のフレームを符号化する方式を採用すると、符号化した音声データと異なる音声データが次のフレームで復号化されるため、欠損フレーム後の正常フレームを復号化した音声データは異常な振幅を示す場合がある。

第２の発明によると、前記欠損フレームを補間する補間処理部を設けた場合でも、復号化された音声データが予測閾値を超えた場合に音声データのレベル調整を行うことにより、音声データが本来もつ振幅エンベロープを用いて、これを超える部分を異常と判断して補正するので、復号化された音声データが異常な振幅を示す場合にそのまま出力されるのを防止し、その結果、受話者が異常なインパルス的な音を不快に感じるのを防止できる。

本願の第３の発明は、第１の発明において、制御部は、欠損フレームに続く所定数の正常フレームについて、正常フレームに含まれる音声データが算出した振幅エンベロープを超えたか否かを判断することを特徴としたものである。

第３の発明によると、補正する音声データを欠損フレームに続く所定数の正常フレームとすることにより、欠損フレームの補間に起因して音声データが異常な振幅を示す現象を解消するので、復号化の際に前のフレームの影響がなくなっても本来の音声データの振幅が急激に高くなる音声の変化がある場合に、これを補正して本来の音声データと異なる音声データを生成することを回避できる。

本願の第４の発明は、制御部は、フレームの欠損が生じた場合であって欠損したフレームに続く欠損しないフレームが所定数に達した場合は前記音声データの補正は行わず、前記サブフレームバッファに保持された音声データを出力することを特徴としたものである。

第４の発明によると、欠損フレームに続く正常フレームが所定数に達した場合は音声データの補正を行わないことにより、前記音声データが前記算出した振幅エンベロープを超えない場合は本来の音声データを出力するので、音声データを補正する場合を最小限に押さえ、音声データの再現性を高めることができる。

本願の第５の発明は、第１の発明において、制御部は、音声データが算出した振幅エンベロープを超えたか否かを判断する場合、フレームより小さい単位で判断することを特徴としたものである。

第５の発明によると、前記音声データが前記算出した振幅エンベロープを超えたか否かを判断する場合、前記フレームより小さい単位で判断し、欠損フレームの補間に起因して音声データのピークが急激に変化した場合に、その変化した短い部分を選択して補正できるので、音声データを補正する区間を短く、一方、音声データを補正しない区間を長くして、補正による影響を最小限に抑え、音声データの再現性を高めることができる。

本願の第６の発明は、第１の発明において、所定の符号化方式はＡＤＰＣＭ方式であることを特徴としたものである。

フレームの欠損が生じた場合、前記欠損フレームを補間すると、補間処理部により実際の音声データと異なる音声データが生成される。この際、符号化方式としてＡＤＰＣＭ方式を採用すると、ＡＤＰＣＭ方式は前のフレームを参照データとして次のフレームを符号化するため、符号化した音声データと異なる音声データで次のフレームを復号化することになって、復号化された音声データは異常な振幅を示す場合がある。

第６の発明によると、符号化方式としてＡＤＰＣＭ方式を採用した場合でも、復号化された音声データが、前記音声データから算出した振幅エンベロープを超えた場合に、前記振幅エンベロープを超えた部分が前記振幅エンベロープの範囲内に収まるように音声データを補正することにより、音声データが本来もつ振幅エンベロープを用いて、これを超える部分を異常と判断して補正するので、復号化された音声データが異常な振幅を示す場合にそのまま出力されるのを防止し、その結果、受話者が異常なインパルス的な音を不快に感じるのを防止できる。

（実施の形態）
本発明の実施の形態に係る音声通信装置としてＩＰ電話機を例に、図面に基づいて説明する。図１は、本発明の実施の形態に係るＩＰ電話機全体の構成を説明するための図である。図２は、図１に示すＩＰ電話機の復号部の構成を説明するための図である。図３は、図１に示すＩＰ電話機のレベル変換テーブルを説明するための図である。なお、図１においては、送信側のＩＰ電話機は送信部のみを、受信側のＩＰ電話機は受信部のみを図示している。

図１に示すように、本実施の形態に係る受信側のＩＰ電話機１０は、インターネットやイントラネットなどのネットワークに接続され、送信側のＩＰ電話機１からの符号化された音声データを、フレーム単位で受信して復号化するものである。

送信側のＩＰ電話機１は、音声を入力してアナログ信号に変換するマイク２と、変換されたアナログ信号をデジタル信号に変換するＡ／Ｄ変換部３と、デジタル信号を所定の符号化方式で符号化して圧縮するコーデック部４と、符号化された音声データをフレーム単位に分割するパッキング処理部５と、フレームとした音声データにヘッダ（コーデックタイプおよび通し番号（シーケンス番号）を含む）を付加してパケットとするパケット構成部６と、パケットを伝送路であるネットワークへ送信するパケット送信部７とを備えている。

コーデック部４は、入力されたデジタル音声信号に対して符号化（Ｇ．７１１、Ｇ．７２６、Ｇ．７２９など）し、その符号をまとめてペイロードと呼ばれる単位にする。このペイロードのサイズは特に規定はしていないが、具体的な例として、８ｋＨｚのサンプリング周波数を使用して、ＡＤＰＣＭ符号化で１サンプル４ビット時、８０サンプル〜１６０サンプルのまとまりでペイロードとすると、その時間は、１０ｍｓ〜２０ｍｓ、データ長は４０バイトから８０バイトとなる。次に、パケットサイズを規定する。まずパケット自体のオーバーヘッドを減らすために、ペイロードを幾つかまとめてパケットとなるサイズを決める。例えばパケット中のデータを１６０バイトとすると、ペイロード長４０バイトの時には４個分をまとめることができる。

パケット構成部６は、生成された音声データから、音声データに通し番号（シーケンス番号）、タイムスタンプ、符号化形式（ペイロードタイプ）を含むＲＴＰ（Ｒｅａｌ−ｔｉｍｅＴｒａｎｓｐｏｒｔＰｒｏｔｏｃｏｌ）ヘッダを付け、ＲＴＰパケットを生成する。

受信側のＩＰ電話機１０は、ネットワークからのパケットを受信するパケット受信部１１と、コーデックタイプから符号化方式を検出するコーデックタイプ検出部１２と、パケットのシーケンス番号からパケット順序を整列させる並び替え復元部１３と、復元されたパケットに内包されたフレームの音声データを復号化する復号部１４と、復号化された音声データをアナログ信号の音声信号に変換するＤ／Ａ変換部１５と、音声信号から音声を出力するスピーカ１６とを備えている。

次に、受信側のＩＰ電話機１０における復号部１４の構成について、図２に基づいて詳細に説明する。

図２に示すように、復号部１４は、音声データを復号化し、欠損フレームが発生した場合に、補間処理を行うと共に、欠損フレーム後の後フレームに対してレベル調整を行うことで聴覚的品質の向上を図るものである。

復号部１４は、欠損フレームが発生していなければそのままのフレームを出力し、欠損フレームが発生していれば欠損フレームを補間するフレームを生成するために、フレーム欠損検出部１４０１と、ＡＤＰＣＭ復号部１４０２と、スイッチ部１４０３と、サブフレームバッファ１４０４と、レベル調整部１４０５と、切替制御部１４０６と、音声補間用ヒストリバッファ１４０７と、欠損フレーム補間処理部１４０８とを備えている。

また、復号部１４は、欠損フレーム後の正常フレームにおいて発生のおそれのある異常なインパルス的な音を抑止するために、エンベロープ検出用ヒストリバッファ１４０９と、エンベロープ算出部１４１０と、ピーク検出部１４１１と、比較部１４１２と、欠損後の正常フレームカウンタ部１４１３と、レベル調整制御部１４１４と、レベル変換テーブル部１４１５とを備えている。

フレーム欠損検出部１４０１は、並び替え復元部１３によりパケット順序が整列されたパケット列からシーケンス番号の欠落を検出することで、欠損フレームの発生の有無を検出する検出部である。なお、フレーム欠損検出部１４０１は、並び替え復元部１３によるパケット順序の整列が所定時間内に間に合わない場合においてもフレームの損失として判定する。

ＡＤＰＣＭ復号部１４０２は、符号化された音声データを復号する機能を備えている。ＡＤＰＣＭ復号部１４０２は、スイッチ部１４０３を介在してサブフレームバッファ１４０４に接続されている。

サブフレームバッファ１４０４は、ＡＤＰＣＭ復号部１４０２により復号化されたフレームデータを等分割したサブフレームデータ（音声データ）を格納するバッファメモリである。サブフレームバッファ１４０４からの出力信号は、レベル調整部１４０５を介して復号部１４の出力信号として出力される。

レベル調整部１４０５は、レベル調整制御部１４１４からの制御に基づいて出力する音声レベルを調整する。

エンベロープ検出用ヒストリバッファ１４０９は、レベル調整部１４０５の出力信号を順次格納するバッファメモリである。

エンベロープ算出部１４１０は、エンベロープ検出用ヒストリバッファ１４０９に格納された音声データから振幅エンベロープ（包絡線）を算出することで、欠損フレーム後の各フレームでの音声レベルを予測した予測閾値として出力する。

ピーク検出部１４１１は、サブフレームバッファ１４０４からの音声データのピーク値を検出する。比較部１４１２は、エンベロープ算出部１４１０からの予測閾値と、ピーク検出部１４１１からのピーク値とを比較して結果をレベル調整制御部１４１４へ出力する。

レベル調整制御部１４１４は、レベル調整部１４０５から出力される音声データの音声レベルを調整する機能を備えている。この音声レベルの調整は、詳細には後述するが、音声レベル減衰させる割合を算出するための第１係数と第２係数とに基づいて行われる。

欠損後の正常フレームカウンタ部１４１３は、欠損フレーム後のフレーム数をカウントしてレベル調整制御部１４１４へ出力する。

レベル変換テーブル部１４１５は、欠損後の正常フレームカウンタ部１４１３のカウント値に対応させて、減衰の度合いを示す係数（以下、第１係数と称す。）をテーブルとしたものである。第１係数は、「１」が調整なし（減衰無し）を意味し、第１係数が小さいほど減衰度を強くする。例えば、図３に示すように、正常に戻った最初のフレーム（欠損後の正常フレームカウンタ部１４１３のカウント値「１」）では、減衰の度合いが最大になる。正常に戻った後２番目、３番目になるに従って減衰の度合いを徐々に落とし、欠損後の正常フレームカウンタ部１４１３のカウント値が「１０」で調整なしを意味する「１」へ近づくように設定される。

以上のように構成された本発明の実施の形態に係るＩＰ電話機の動作について、更に図４から図８に基づいて説明する。図４および図５は、図１に示す受信側のＩＰ電話機１０の動作を説明するためのフローチャートである。図６は、図１に示す受信側のＩＰ電話機１０のエンベロープ算出部の動作を説明するためのフローチャートである。図７は、振幅エンベロープを説明するための波形図である。図８は、欠損フレーム発生時における異常なインパルス的な音を説明するための図であり、（Ａ）は正常時の波形図、（Ｂ）は欠損フレーム後の正常フレームが正常に再生できた場合の波形図、（Ｃ）は欠損フレーム後の正常フレームに異常なインパルス的な音が含まれた場合の波形図である。

まず、送信側のＩＰ電話機１からのパケットが、ネットワークにおいて損失せずに受信側のＩＰ電話機１０に到達した場合を説明する。

図１に示すように、送信側のＩＰ電話機１から符号化された音声データがパケット単位でネットワークを介して受信側のＩＰ電話機１０へ送信される。

受信側のＩＰ電話機１０では、パケット受信部１１により受信され、並び替え復元部１３により到達順のパケットのシーケンス番号の抜け等を検出して、シーケンス番号の前後の入れ替わりを検出すると、シーケンス番号が昇順となるように並び替えを行う。並び替え復元部１３では、パケットの並び替えを行うと共に、パケットに内包される１以上のフレームを取り出して、復号部１４へ出力する。

図４に示すように、復号部１４では、並び替え復元部１３から音声データであるフレームデータを入力する（Ｓ１０）。フレーム欠損検出部１４０１は、欠損フレームの有無を判定する（Ｓ２０）。パケットが損失していない状態においては、欠損フレームの発生が検出されないので、フレーム欠損検出部１４０１は切替制御部１４０６に対してサブフレームバッファ１４０４とＡＤＰＣＭ復号部１４０２とを接続するようにスイッチ部１４０３の制御を指示する。また、フレーム欠損検出部１４０１は、欠損フレームが検出されたか否かを示す欠損フレームフラグがオンであるか否かを判定する（Ｓ３０）。この判定においては、欠損フレームフラグがオフであるため、何もせずにＳ４０へ移行する。

フレーム欠損検出部１４０１からのフレームデータは、ＡＤＰＣＭ復号部１４０２へ出力され、ＡＤＰＣＭ復号部１４０２で復号される（Ｓ４０）。また、ＡＤＰＣＭ復号部１４０２は、復号化されたフレームデータをサブフレームごとに等分割してサブフレームデータを生成する（Ｓ５０）。

図５に示すように、分割されたサブフレームデータは、サブフレームバッファ１４０４に格納されると共に、欠損フレームが発生したときのために音声補間用ヒストリバッファ１４０７に格納される（Ｓ６０）。ここで、フレーム欠損検出部１４０１は、欠損後のフレームフラグがオンかオフかを判定する（Ｓ７０）。パケットが損失していない状態においては、欠損後のフレームフラグがオフであるため、詳細には後述する異常なインパルス的な音の抑制処理を行わない。従って、レベル調整制御部１４１４での音声データの減衰度を算出する調整レベルの演算の結果として、調整なしを意味する「１」が設定される（Ｓ８０）。サブフレームバッファ１４０４から出力された音声データを、レベル調整部１４０５へ出力する（Ｓ９０）。

サブフレームバッファ１４０４から出力された音声データは、レベル調整制御部１４１４による調整レベルの演算結果に基づいて減衰される。しかし、調整レベルの演算結果は、調整なしを意味する「１」であっため、異常なインパルス的な音の抑制処理を行わずに、補正なしの状態の音声データが、レベル調整部１４０５を介して、図１に示すＤ／Ａ変換部１５へ出力される（Ｓ１００）。

また、並行してレベル調整部１４０５から出力された音声データは、エンベロープ検出用ヒストリバッファ１４０９に格納される（Ｓ１１０）。エンベロープ検出用ヒストリバッファ１４０９への音声データの格納は、異常なインパルス的な音の発生の有無を、正常に受信できた欠損フレーム発生前の音声データから判断するためである。次に、エンベロープ算出部１４１０が、エンベロープ検出用ヒストリバッファ１４０９からの音声データに基づいてエンベロープ演算を行う（Ｓ１２０）。

ここで、エンベロープ算出部１４１０がＳ１２０にて行うエンベロープ演算について、図６および図７に基づいて説明する。

図６に示すように、まず、エンベロープ算出部１４１０は、サブフレームの各データをエンベロープ検出用ヒストリバッファ１４０９から音声データを取り出す（Ｓ３００）。そして、取り出した最初の音声データから順に、このサブフレームに含まれる最大値と比較する（Ｓ３１０）。最大値の初期値は「０」であるため、最初の音声データは最大値よりも大である。従って、最初の音声データを最大値とする（Ｓ３２０）。そして音声データをエンベロープデータとしてエンベロープ算出部１４１０内に格納する（Ｓ３３０）。

また、２番目に取り出した音声データ以降は、最大値が設定されているため、設定された最大値と取り出した音声データとを比較して、例えば、音声データが最大値よりも大である場合には、同様にＳ３２０を実行すると共に、Ｓ３３０を実行して音声データをエンベロープデータとする。

更に、取り出した音声データが最大値以下である場合には、最大値から定数（ここでは任意の値とする）の差を算出して、これをエンベロープデータとしてエンベロープ算出部１４１０内に格納する（Ｓ３４０）。そして、算出したエンベロープデータを最大値とする（Ｓ３５０）。

このＳ３００からＳ３５０までの間の処理を、正側と負側ともに１サブフレーム分ほど演算を繰り返すことで、それぞれのエンベロープデータが図７に示す振幅エンベロープの信号レベル正側と信号レベル負側となる（Ｓ３６０）。

そして、振幅エンベロープの信号レベル正側と信号レベル負側を算出すると、演算した１サブフレーム分のエンベロープデータからそれぞれの平均値を算出する（Ｓ３７０）。そうすることで、図７に示す振幅エンベロープの正側、負側の平均値が算出でき、エンベロープ算出部１４１０はこの平均値に基づいて予測閾値（正側及び負側）を算出する。

図５に示すように、ＡＤＰＣＭ復号部１４０２は、全部のサブフレームデータをサブフレームバッファ１４０４に出力したか否かを判定し、その結果、残りのサブフレームデータがある場合にはＳ６０へ移行する（Ｓ１３０）。このようにしてＳ６０からＳ１３０までを繰り返す。全部のサブフレームデータについて音声データを出力した場合には１フレーム分の処理を終了する。

次に、ネットワークにおいて、送信側のＩＰ電話機１からのパケットが損失して欠損フレームが発生した場合を説明する。なお、送信側のＩＰ電話機１から受信側のＩＰ電話機１０の並び替え復元部１３までの処理は、パケットの損失がない場合と同じなので説明は省略する。

送信側のＩＰ電話機１から送信された音声データが、例えば、図８（Ａ）に示すような波形であった場合に、ネットワークによる欠損フレームが発生すると、その後、正常に受信されたフレームと不連続になる。音声データによっては、図８（Ｂ）に示すように正常に波形が再生される場合もあるが、欠損フレーム後の正常フレームを復号化したときに、正常フレームに図８（Ｃ）に示すような異常なインパルス的な音が含まれ、受信者に対して耳障りな音となる場合がある。この場合には、受信側のＩＰ電話機１０において異常なインパルス的な音の抑制処理が行われる。

図４に示すように、送信側のＩＰ電話機１からのパケットが損失して欠損フレームが発生すると、並び替え復元部１３からフレームデータを入力するフレーム欠損検出部１４０１にて、欠損フレームが検出される（Ｓ１０，Ｓ２０）。欠損フレームが検出されると、フレーム欠損検出部１４０１は、スイッチ部１４０３の接続を、ＡＤＰＣＭ復号部１４０２側から欠損フレーム補間処理部１４０８側へ切り替えるように切替制御部１４０６に指示する。また、フレーム欠損検出部１４０１は、欠損フレームフラグをオンとする（Ｓ１４０）。

スイッチ部１４０３の接続が、欠損フレーム補間処理部１４０８側へ切り替わることで、音声補間用ヒストリバッファ１４０７に格納された欠損フレームの発生前の正常に受信できたフレームに基づいて欠損フレームを補間する補間処理が、欠損フレーム補間処理部１４０８により行われる（Ｓ１５０）。そして、補間されたフレームデータは、スイッチ部１４０３を介してサブフレームバッファ１４０４へ出力される。欠損フレーム補間処理部１４０８による補間処理は、例えば、Ｇ．７１１ＡｐｐｅｎｄｉｘＩの規定に基づいて行うことができる。

補間されたフレームデータは、ＡＤＰＣＭ復号部１４０２により復号化される（Ｓ４０）。そして、復号化されたフレームデータは、サブフレームに分割される（Ｓ５０）。以降は、欠損フレームは補間されることで、正常なフレームデータと同等になるので、図５に示すＳ６０とＳ１３０との間を、サブフレームごとに繰り返してＤ／Ａ変換部１５へ出力される。

次に、欠損フレーム後の最初のフレームが正常フレームである場合を説明する。

フレームデータが入力されると（Ｓ１０）、フレーム欠損検出部１４０１は、欠損フレームの有無を判定する（Ｓ２０）。欠損フレーム後の最初のフレームが正常フレームであれば、フレーム欠損検出部１４０１は、切替制御部１４０６に対してサブフレームバッファ１４０４とＡＤＰＣＭ復号部１４０２とを接続するようにスイッチ部１４０３の制御を指示して、Ｓ３０へ移行する。

Ｓ３０では、フレーム欠損検出部１４０１が、欠損フレームフラグがオンであるか否かを判定する。この場合、欠損フレームを補間した処理の際に、Ｓ１４０にて欠損フレームフラグをオンにしているため、フレーム欠損検出部１４０１は、まず、欠損後の正常フレームカウンタ部１４１３をリセットする（Ｓ１６０）。次に、欠損フレームフラグをオフとする（Ｓ１７０）。そして、欠損フレーム後の正常フレームフラグをオンとする（Ｓ１８０）。

フレーム欠損検出部１４０１からの欠損フレーム後のフレームデータは、ＡＤＰＣＭ復号部１４０２へ出力され、ＡＤＰＣＭ復号部１４０２で復号化される（Ｓ４０）。また、ＡＤＰＣＭ復号部１４０２は、復号化されたフレームデータをサブフレームごとに等分割してサブフレームデータを生成する（Ｓ５０）。

図５に示すように、サブフレームデータは、サブフレームバッファ１４０４に格納されると共に、音声補間用ヒストリバッファ１４０７に格納される（Ｓ６０）。次に、フレーム欠損検出部１４０１は、欠損後のフレームフラグがオンかオフかを判定する（Ｓ７０）。

ここで、フレーム欠損検出部１４０１は、Ｓ１８０にて、欠損フレーム後の正常フレームフラグをオンとしているので、Ｓ１９０へ移行する。Ｓ１９０では、フレーム欠損検出部１４０１が欠損後の正常フレームカウンタ部１４１３にカウンタアップを指示することで、「０」から「１」となる。

欠損後の正常フレームカウンタ部１４１３の出力はレベル調整制御部１４１４へ出力されるが、レベル調整制御部１４１４では、このカウント値が欠損後の最大フレームを超えているか否かが判定される（Ｓ２００）。例えば、図３に示すレベル変換テーブル部１４１５では、第１係数をカウント値が「１０」で調整なしの状態に戻るような係数としているので、最大フレームは「９」である。従って、Ｓ２００では、カウント値が欠損後の最大フレームを超えていないと判定される。

カウント値が欠損後の最大フレームを超えていないと判定されると、次のＳ２１０では、前記のＳ６０にて格納され音声データを、ピーク検出部１４１１はサブフレームバッファから読み出し、ピーク値を検出して比較部１４１２へ出力する。

比較部１４１２では、ピーク検出部１４１１からのピーク値（サブフレームの最大値）と、エンベロープ算出部１４１０からの予測閾値（エンベロープ）とを比較する（Ｓ２１０）。

Ｓ２１０にて、ピーク値が予測閾値よりも大である場合に、レベル調整制御部１４１４は、音声レベルを減衰させるために、調整レベルの演算を行う（Ｓ２２０）。この調整レベルの演算は、第１係数と第２係数とを乗じることで算出される。

第１係数は、欠損後の正常フレームカウンタ部１４１３からのカウンタ値と、レベル変換テーブル部１４１５とを参照することで決定される。つまり、図３に示すように、第１係数は、欠損フレーム後の正常フレームでは、欠損後の正常フレームカウンタ部１４１３のカウンタ値が「１」であるため、フレームに対する減衰の度合いが最大となる。

第２係数は、ピーク検出部１４１１により検出されたピーク値からエンベロープ算出部１４１０からの予測閾値の差を、正側または負側の最大値で割った値である。この正側または負側の最大値とは、例えば、１６ビットで量子化されたデータであれば３２７６８となる。つまり、正常フレームに含まれる音声データが振幅エンベロープの正側または負側の平均値より超えていれば、その超えた分の割合を算出した値が第２係数となる。

サブフレームバッファ１４０４から出力された音声データは、レベル調整部１４０５へ出力される（Ｓ９０）。そして、サブフレームバッファ１４０４から出力された音声データは、レベル調整制御部１４１４による調整レベルの演算結果に基づいて減衰される。この場合、Ｓ２２０での調整レベルの演算によって得られた減衰度は、第１係数と第２係数とを乗じた割合となるので、異常なインパルス的な音を含む音声データは、振幅エンベロープの範囲内に収まるようにレベル調整部１４０５で補正され、図１に示すＤ／Ａ変換部１５へ出力される（Ｓ１００）。また、補正された音声データは、エンベロープ検出用ヒストリバッファ１４０９に格納される（Ｓ１１０）。

Ｓ２１０にて、ピーク値が予測閾値以下であると判定された場合には、レベル調整制御部１４１４による異常なインパルス的な音の抑制処理が必要ないので、Ｓ８０へ移行して、補正なしの状態の音声データを出力する。

そして、Ｓ１３０にて、全部のサブフレームデータをサブフレームバッファ１４０４に出力したか否かを判定し、その結果、残りのサブフレームデータがある場合には、再度、Ｓ６０へ移行する。残りのサブフレームデータがない場合には、この処理を終了する。

このようにして、欠損フレーム後の正常フレームでは、１フレームを複数に分けたサブフレームごとにピーク値の判定が行われるので、異常なインパルス的な音が含まれているか否かが精度良く判別することができ、異常なインパルス音を含む音声データであると判定された時のみ補正を行うので、音声データの再現性が高い。

その後、欠損フレームが発生してから２フレーム以降の正常フレームにおいても、Ｓ２０にて欠損フレームは無しと判定され、Ｓ３０にて欠損フレームフラグがオフと判定され、Ｓ７０にて欠損フレーム後の正常フレームフラグがオンと判定され、そしてＳ２１０にてピーク値が予測閾値よりも大であると判定されることで、同様に異常なインパルス的な音を含む音声データであると判定されると、Ｓ２２０にて異常なインパルス的な音の抑制処理が行われる。しかし、欠損フレーム発生直後の正常フレームと異なる点は、異常なインパルス的な音を含むフレームが欠損フレームから何フレーム後かにより、減衰の度合いが違うということである。それは、欠損フレーム後の正常フレームをカウントする欠損後の正常フレームカウンタ部１４１３のカウンタ値に応じて、図３に示すように、第１係数の値が異なるからである。

従って、Ｓ２２０での音声レベルの補正の度合いを算出する調整レベルの演算においては、フレームごとに徐々に減衰の度合いが緩和される第１係数と、ピーク値に応じた第２係数とを音声レベルに乗じたレベルとしている。

そして、第１係数は、本実施の形態では、図３に示すように、欠損後の正常フレームカウンタ部１４１３のカウント値が「１０」で調整なしの状態に戻るような係数なので最大フレームは「９」である。従って、欠損フレームが発生して１０フレーム目では、Ｓ２００にて、カウント値が欠損後の最大フレームを超えていると判定される。つまり、最大フレームを超えていれば、異常なインパルス的な音も通常の音声データとみなされるので、欠損フレーム後の正常フレームフラグをオフとした後（Ｓ２３０）、Ｓ８０へ移行することで補正なしの音声データが出力される。また、Ｓ２３０にて欠損フレーム後の正常フレームフラグがオフとなることで、１１フレーム目からは、Ｓ７０での判定で、異常なインパルス的な音の抑制処理を行わずにＳ８０へ移行することになる。

このように、受信側のＩＰ電話機１０では、欠損フレーム後の正常フレームにおけるサブフレームのピーク値が予測閾値よりも大であるような再現性が悪い場合には、最大フレームの範囲内であれば異常なインパルス的な音の抑制処理を行った補正の音声データとし、ピーク値が予測閾値以下であるような再現性がよい場合には、最大フレームの範囲内であっても補正をしない状態の音声データとすることで、違和感のない音声を得ることができるので、聴覚的な品質の向上を更に図ることができる。

以上、本発明の実施の形態について説明してきたが、本発明は前記実施の形態に限定されるものではない。例えば、本実施の形態では、レベル変換テーブル部１４１５を、欠損後の正常フレームカウンタ部１４１３のカウント値が「１０」となることで、調整なしを意味する「１」としているが、他のカウント値、例えば「３」としてもよい。このカウント値は、符号化方式などに応じて変わるため、状況に応じて適宜決定するのが望ましい。

また、音声通信装置としてＩＰ電話機を例に説明したが、無線通信するコードレス電話機や、携帯電話機でも、同様の伝送手順であれば、本発明を適用することが可能である。

本発明は、欠損フレーム後の正常に受信できたフレームの音声データの再現性に応じて補正を行うことで、聴覚的な品質の向上を更に図ることができるので。音声データをフレーム単位で受信する音声通信装置に好適である。

本発明の実施の形態に係るＩＰ電話機全体の構成を説明するための図図１に示すＩＰ電話機の復号部の構成を説明するための図図１に示すＩＰ電話機のレベル変換テーブルを説明するための図図１に示す受信側のＩＰ電話機の動作を説明するためのフローチャート図１に示す受信側のＩＰ電話機の動作を説明するためのフローチャート図１に示す受信側のＩＰ電話機のエンベロープ算出部の動作を説明するためのフローチャート振幅エンベロープを説明するための波形図欠損フレーム発生時における異常なインパルス的な音を説明するための図

符号の説明

１送信側のＩＰ電話機
２マイク
３Ａ／Ｄ変換部
４コーデック部
５パッキング処理部
６パケット構成部
７パケット送信部
１０受信側のＩＰ電話機
１１パケット受信部
１２コーデックタイプ検出部
１３並び替え復元部
１４復号部
１４０１フレーム欠損検出部
１４０２ＡＤＰＣＭ復号部
１４０３スイッチ部
１４０４サブフレームバッファ
１４０５レベル調整部
１４０６切替制御部
１４０７音声補間用ヒストリバッファ
１４０８欠損フレーム補間処理部
１４０９エンベロープ検出用ヒストリバッファ
１４１０エンベロープ算出部
１４１１ピーク検出部
１４１２比較部
１４１３欠損後の正常フレームカウンタ部
１４１４レベル調整制御部
１４１５レベル変換テーブル部
１５Ｄ／Ａ変換部
１６スピーカ

Claims

所定の符号化方式で符号化された音声データをフレーム単位で受信する通信部と、
前記音声データを復号化する復号化部と、
前記復号化部で復号化され、一つのフレームより小さいサブフレームの単位で分割されたサブフレームデータを格納するサブフレームバッファと、
復号化されて出力される音声データを格納するエンベロープ検出用ヒストリバッファと、前記フレームの欠損を検出する検出部と、
前記サブフレームの単位で前記エンベロープ検出用ヒストリバッファから取り出した最初の音声データから順に当該サブフレームに含まれる最大値と比較することによりエンベロープ演算を行い、１サブフレーム分の振幅エンベロープを算出することによって音声レベルを予測した予測閾値を算出する算出部と、
前記検出部によりフレームの欠損が検出された場合、欠損したフレームに続く欠損しないフレームに含まれる音声データについて前記サブフレームの単位でピーク値が前記算出部によって算出された予測閾値を超えたか否かを判断し、前記予測閾値を超えた場合に音声データのレベル調整を行う制御部と、
を具備したことを特徴とする音声通信装置。
前記欠損フレームを補間する補間処理部を設けたことを特徴とする請求項１記載の音声通信装置。
前記制御部は、欠損したフレームに続く欠損しないフレームが所定数に達しない場合に、前記復号化部によって復号化された音声データについて前記サブフレームの単位でピーク値が前記算出部によって算出された予測閾値を超えたか否かを判断することを特徴とする請求項１記載の音声通信装置。
前記制御部は、フレームの欠損が生じた場合であって欠損したフレームに続く欠損しないフレームが所定数に達した場合は前記音声データの補正は行わず、前記サブフレームバッファに保持された音声データを出力することを特徴とする請求項１記載の音声通信装置。
所定の符号化方式はＡＤＰＣＭ方式であることを特徴とする請求項１記載の音声通信装置
。
前記制御部は、フレームごとに徐々に減衰の度合いを緩和するための第１係数と、前記振幅エンベロープを超えたピーク値に応じた第２係数とを乗じた減衰度で音声データを補正する請求項１記載の音声通信装置。