JP4437011B2 - 音声符号化装置 - Google Patents

音声符号化装置 Download PDF

Info

Publication number
JP4437011B2
JP4437011B2 JP2003091747A JP2003091747A JP4437011B2 JP 4437011 B2 JP4437011 B2 JP 4437011B2 JP 2003091747 A JP2003091747 A JP 2003091747A JP 2003091747 A JP2003091747 A JP 2003091747A JP 4437011 B2 JP4437011 B2 JP 4437011B2
Authority
JP
Japan
Prior art keywords
encoding
speech
voice
degree
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2003091747A
Other languages
English (en)
Other versions
JP2004301907A (ja
Inventor
幸司 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2003091747A priority Critical patent/JP4437011B2/ja
Publication of JP2004301907A publication Critical patent/JP2004301907A/ja
Application granted granted Critical
Publication of JP4437011B2 publication Critical patent/JP4437011B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、デジタル音声通信に必要な音声符号化装置に関する。
【0002】
【従来の技術】
デジタル方式の移動通信網や固定通信網、インターネットなどによる音声通信においては、伝送効率の向上を図るため、音声信号を高効率で符号化する音声符号化装置が用いられる。なお、本明細書中、「音声符号化装置」という用語は、符号化機能のみならず復号化機能をも有する広い意味で使用する。
【0003】
近年、各種通信網の伝送速度の向上やマルチメディア通信の発展により、音声通信のサービス形態として、単なる電話としての機能のみならず、テレビ電話としての利用や、テレビ会議などの、より臨場感が要求される音声通信を行うこと、各種情報を音声で案内する際に背景にBGMがあるような音声信号をより高品質に伝送することなど、様々な形態があり、音声信号の符号化に対して、高い効率を維持しつつより高い品質で音声信号を符号化できる装置が求められている。
【0004】
図3は、従来の音声符号化装置の一般的な構成を示す図である(たとえば、非特許文献1参照)。
【0005】
図3の装置において、送信する音声信号は符号化部1に入力され、ここで符号化処理が行われた後、音声符号化データとして出力される。音声符号化データは通信相手に送信される。一方、通信相手から受信した音声符号化データは復号化部3に入力され、ここで復号化処理が行われた後、復号音声信号として出力される。なお、音声信号の符号化は、一般に、入力音声信号に対して一定の区間(以下「音声フレーム」という)毎に区切られ、この音声フレーム単位で符号化処理と復号化処理が行われる。
【0006】
このような音声符号化装置を用いて音声通信を実現するためには、音声通信による通話の双方向性を考慮して、符号化によって生じる遅延(以下「符号化遅延」という)がある程度小さいこと、たとえば、符号化部単体の遅延量で50ms程度まで、また、処理遅延や伝送路遅延を含めた片側(送信側または受信側)の合計遅延量で150ms程度までであることが望まれる。
【0007】
このような音声通信に適した高効率の符号化方式としては、ITU−T(International Telecommunication Union Telecommunication standardization sector:国際電気通信連合電気通信標準化部門)や3GPP(3rd Generation Partnership Project)などの標準化機関で規格化されている様々な方式があり、代表的な例として、ITU−T標準G.729(CS−ACELP符号化)や3GPP標準のAMR符号化などが挙げられる。
【0008】
【非特許文献1】
3GPP 標準規格 TS26.071:AMR speech CODEC; General description
【0009】
【発明が解決しようとする課題】
しかしながら、上記に示した従来の高効率な音声符号化装置においては、音声の帯域が3.4kHzまでの音声信号を対象とした符号化方式であるため、より高い音声品質を実現するためには必ずしも十分ではなく、より音声帯域の広い高品質な符号化が望まれる。
【0010】
この点、音声帯域の広い非常に高品質な符号化を実現できる符号化方式として、音楽信号の符号化を対象とした、MP3やAACと呼ばれる符号化方式がある。しかし、これらは、双方向通信用の符号化方式ではないため、符号化遅延が大きく(たとえば、符号化部単体の遅延量で100msのオーダ)、音声通信用の符号化方式として使用する場合には、符号化遅延により音声通信に支障が生じるという問題がある。
【0011】
また、一般に、音声品質を高く維持したまま低い遅延で符号化を実現する場合には、伝送に要する符号化ビットレートが高くなり、伝送効率が低下するという問題がある。
【0012】
本発明は、かかる点に鑑みてなされたものであり、伝送効率と双方向通信における低遅延性とを両立させることができる音声符号化装置を提供することを目的とする。
【0013】
【課題を解決するための手段】
本発明の第1の態様に係る音声符号化装置は、第1の音声符号化方式を用いて、送信する音声信号を符号化する第1符号化手段と、前記第1の音声符号化方式に比べて、符号化遅延が大きく、かつ、符号化ビットレートが低いまたは符号化音声品質が高い第2の符号化方式を用いて、送信する音声信号を符号化する第2符号化手段と、受信された音声符号化データを復号化する復号化手段と、送信する音声信号および復号化後の音声信号を用いて、音声通信の双方向性度合を検出する検出手段と、検出された音声通信双方向性度合に基づいて、前記第1符号化手段および前記第2符号化手段のいずれか一方を選択する選択手段と、選択された符号化手段の処理結果を出力する出力手段と、を有する構成を採る。このとき、たとえば、前記選択手段は、音声通信の双方向性度合が高い場合は、第1符号化手段を選択し、音声通信の双方向性度合が低い場合は、第2符号化手段を選択する、構成を採る。また、たとえば、前記復号化手段は、前記第1の音声符号化方式および前記第2の音声符号化方式のうち、選択された一の音声符号化方式を用いて、受信された音声符号化データを復号化する、構成を採る。
【0014】
この構成によれば、送信する音声信号を符号化する符号化手段として、第1の音声符号化方式を用いる第1符号化手段と、第1の音声符号化方式に比べて、符号化遅延が大きく、かつ、符号化ビットレートが低いまたは符号化音声品質が高い第2の符号化方式を用いる第2符号化手段とを設け、送信する音声信号および復号化後の音声信号を用いて音声通信の双方向性度合を検出し、検出した音声通信双方向性度合に基づいて、符号化遅延が比較的小さい第1符号化手段と、符号化遅延は比較的大きいが符号化ビットレートは比較的低いまたは符号化音声品質は比較的高い第2符号化手段のいずれか一方を適切に選択するため、符号化の遅延が適切に制御され、伝送効率と双方向通信における低遅延性とを両立させることができる。
【0015】
本発明の第2の態様に係る音声符号化装置は、上記の構成において、前記検出手段は、送信する音声信号に対して判定された有音区間に関する送信側の情報および復号化後の音声信号に対して判定された有音区間に関する受信側の情報を用いて、音声通信の双方向性度合を検出する、構成を採る。
【0016】
この構成によれば、音声通信の双方向性度合を検出する際に、送信する音声信号に対して判定された有音区間に関する送信側の情報および復号化後の音声信号に対して判定された有音区間に関する受信側の情報を用いるため、音声通信の双方向性度合をより適切に検出することができる。
【0017】
本発明の第3の態様に係る音声符号化装置は、上記の構成において、前記検出手段は、送信する音声信号に対して判定された有音区間に関する送信側の情報および復号化後の音声信号に対して判定された有音区間に関する受信側の情報として、送信側の有音率と受信側の有音率との組み合わせ情報、送信側の有音区間と受信側の有音区間との相補性度情報、および送信側の有音区間と受信側の有音区間との交互発生度情報のうち、少なくとも一以上の情報を用いて、音声通信の双方向性度合を検出する、構成を採る。
【0018】
この構成によれば、送信する音声信号に対して判定された有音区間に関する送信側の情報および復号化後の音声信号に対して判定された有音区間に関する受信側の情報として、具体的に、上記の各種情報を用いるため、音声通信の双方向性度合をより一層高い精度で検出することができる。
【0019】
本発明の第4の態様に係る携帯端末装置は、上記構成の音声符号化装置を有する構成を採る。
【0020】
この構成によれば、上記と同様の作用効果を有する携帯端末装置を実現することができる。
【0021】
本発明の第5の態様に係る基地局装置は、上記構成の音声符号化装置を有する構成を採る。
【0022】
この構成によれば、上記と同様の作用効果を有する基地局装置を実現することができる。
【0023】
本発明の第6の態様に係る音声符号化方法は、第1の音声符号化方式を用いて、送信する音声信号を符号化する第1符号化ステップと、前記第1の音声符号化方式に比べて、符号化遅延が大きく、かつ、符号化ビットレートが低いまたは符号化音声品質が高い第2の符号化方式を用いて、送信する音声信号を符号化する第2符号化ステップと、受信された音声符号化データを復号化する復号化ステップと、送信する音声信号および復号化後の音声信号を用いて、音声通信の双方向性度合を検出する検出ステップと、前記検出ステップで検出した音声通信双方向性度合に基づいて、前記第1符号化方式および前記第2符号化方式のいずれか一方を選択する選択ステップと、前記第1符号化ステップおよび前記第2符号化ステップの各処理結果のうち、前記選択ステップで選択した符号化方式に基づく処理結果を出力する出力ステップと、を有するようにした。
【0024】
この方法によれば、送信する音声信号を符号化する符号化ステップとして、第1の音声符号化方式を用いる第1符号化ステップと、第1の音声符号化方式に比べて、符号化遅延が大きく、かつ、符号化ビットレートが低いまたは符号化音声品質が高い第2の符号化方式を用いる第2符号化ステップとを設け、送信する音声信号および復号化後の音声信号を用いて音声通信の双方向性度合を検出し、検出した音声通信双方向性度合に基づいて、符号化遅延が比較的小さい第1符号化手段と、符号化遅延は比較的大きいが符号化ビットレートは比較的低いまたは符号化音声品質は比較的高い第2符号化手段のいずれか一方を適切に選択するため、符号化の遅延が適切に制御され、伝送効率と双方向通信における低遅延性とを両立させることができる。
【0025】
本発明の第7の態様に係る音声符号化プログラムは、コンピュータに、第1の音声符号化方式を用いて、送信する音声信号を符号化する第1符号化ステップと、前記第1の音声符号化方式に比べて、符号化遅延が大きく、かつ、符号化ビットレートが低いまたは符号化音声品質が高い第2の符号化方式を用いて、送信する音声信号を符号化する第2符号化ステップと、受信された音声符号化データを復号化する復号化ステップと、送信する音声信号および復号化後の音声信号を用いて、音声通信の双方向性度合を検出する検出ステップと、前記検出ステップで検出した音声通信双方向性度合に基づいて、前記第1符号化方式および前記第2符号化方式のいずれか一方を選択する選択ステップと、前記第1符号化ステップおよび前記第2符号化ステップの各処理結果のうち、前記選択ステップで選択した符号化方式に基づく処理結果を出力する出力ステップと、を実行させるようにした。
【0026】
このプログラムによれば、送信する音声信号を符号化する符号化ステップとして、第1の音声符号化方式を用いる第1符号化ステップと、第1の音声符号化方式に比べて、符号化遅延が大きく、かつ、符号化ビットレートが低いまたは符号化音声品質が高い第2の符号化方式を用いる第2符号化ステップとを設け、送信する音声信号および復号化後の音声信号を用いて音声通信の双方向性度合を検出し、検出した音声通信双方向性度合に基づいて、符号化遅延が比較的小さい第1符号化手段と、符号化遅延は比較的大きいが符号化ビットレートは比較的低いまたは符号化音声品質は比較的高い第2符号化手段のいずれか一方を適切に選択するため、符号化の遅延が適切に制御され、伝送効率と双方向通信における低遅延性とを両立させることができる。
【0027】
【発明の実施の形態】
本発明の骨子は、音声通信の双方向性度合から符号化遅延を制御することで、伝送効率と双方向通信における低遅延性とを両立させることである。
【0028】
以下、本発明の実施の形態について、図面を参照して詳細に説明する。
【0029】
図1は、本発明の一実施の形態に係る音声符号化装置の構成を示すブロック図である。
【0030】
この音声符号化装置は、送信側に、第1符号化部101、第2符号化部103、符号化選択部105、および切り替え器107を有し、受信側に、第1復号化部109、第2復号化部111、切り替え器113、および切り替え器115を有する。
【0031】
まず、送信側の構成要素について説明する。
【0032】
第1符号化部101および第2符号化部103は、それぞれ、送信する音声信号(入力音声信号)に対して音声符号化を行い、音声符号化データを切り替え器107に出力する。ここで、第1符号化部101は、符号化遅延が小さい第1の符号化方式を使用し、第2符号化部103は、第1の符号化方式に比べて、符号化遅延が大きく、かつ、符号化ビットレートが低いまたは符号化音声品質が高い第2の符号化方式を使用する。たとえば、第2の符号化方式は、第1の符号化方式に比べて、▲1▼符号化遅延が大きくかつ符号化ビットレートが低い場合(符号化音声品質は同等)と、▲2▼符号化遅延が大きくかつ音声品質が高い場合(符号化ビットレートは同等)とを有する。具体的な符号化方式は、上記条件を満たすものであれば任意のものでよい。具体例は、たとえば、次の表1に示すとおりである。
【0033】
【表1】
Figure 0004437011
【0034】
ここで、上記の表1において、例1および例2は、第1符号化部101に対して、第2符号化部103が、符号化遅延が大きく、かつ、符号化音声品質がほぼ同等(または同等に近い)で符号化ビットレートが低い場合であり、例3は、第1符号化部101に対して、第2符号化部103が、符号化遅延が大きく、かつ、符号化ビットレートが同等で符号化音声品質が高い場合である。
【0035】
なお、第1符号化部101および第2符号化部103に適用する符号化方式は、上記の例に限定されるわけではなく、前述のように、上記条件を満たすものであれば任意のものでよい。たとえば、第2符号化部103に適用する符号化方式は、第1符号化部101に適用する符号化方式に対して、フレーム長の増加や入力音声信号先読み遅延の増加などによる変更を加えたものでもよい。また、第1符号化部101にCELP系の符号化方式を、第2符号化部103に周波数変換符号化の方式をそれぞれ適用したものでもよい。また、スケーラブル構成の符号化において、ベースレイヤを低遅延の符号化とし、エンハンスレイヤを低遅延の符号化と、遅延の大きい符号化を切りかえる構成として、第1符号化部101および第2符号化部103を構成するようにしてもよい。
【0036】
符号化選択部105は、送信側の入力音声信号および後述する動作により得られる受信側の復号音声信号を用いて、音声通信の双方向性度合を検出し、検出した音声通信双方向性度合に応じて、送信側の入力音声信号を符号化するために第1符号化部101と第2符号化部103のいずれを選択すべきかを示す情報(以下「符号化選択情報」という)を出力する。具体的には、たとえば、音声通信の双方向性度合が高い場合は、符号化遅延が小さい第1符号化部101を選択し、音声通信の双方向性度合が低い場合は、符号化遅延が大きくかつ符号化ビットレートが低い(または符号化音声品質が高い)第2符号化部103を選択し、この情報を符号化選択情報として出力する。符号化選択情報は、切り替え器107に出力されるとともに、通信相手に送信される。なお、符号化選択部105の内部構成は、後で詳細に説明する。
【0037】
切り替え器107は、符号化選択部105から出力された符号化選択情報に基づいて、内部スイッチを切り替え、第1符号化部101から出力された音声符号化データと第2符号化部103から出力された音声符号化データのうち、選択された方の音声符号化データを、送信すべき音声符号化データとして出力する。なお、切り替え器107から出力された音声符号化データは、符号化選択部105から出力された符号化選択情報と共に、通信相手に送信される。
【0038】
次に、受信側の構成要素について説明する。
【0039】
第1復号化部109および第2復号化部111は、選択的に、それぞれ、切り替え器113の出力(音声符号化データ)に対して音声復号化を行い、復号音声信号を切り替え器115に出力する。ここで、第1復号化部109は送信側の第1符号化部101に対応し、第2復号化部111は送信側の第2符号化部103に対応している。第1復号化部109または第2復号化部111から出力された復号音声信号は、切り替え器115を介して図示しない所定の処理部および送信側の符号化選択部105に供給される。
【0040】
切り替え器113および切り替え器115は、それぞれ、互いに同期して動作し、通信相手から受信された符号化選択情報に基づいて、内部スイッチを切り替える。すなわち、切り替え器113は、通信相手から受信された音声符号化データを、第1復号化部109および第2復号化部111のうち、選択された方の符号化方式を備えた復号化部に供給し、切り替え器115は、その復号化部から出力された復号音声信号を上記所定の処理部および符号化選択部105に供給する。
【0041】
図2は、図1の符号化選択部105の構成の一例を示すブロック図である。
【0042】
この符号化選択部105は、送信音声有音判定部121、受信音声有音判定部123、送信音声有音率算出部125、受信音声有音率算出部127、有音区間相補性度算出部129、有音区間交互発生度算出部131、音声通信双方向性度合検出部133、および符号化選択判定部135を有する。
【0043】
送信音声有音判定部121は、送信する音声信号(入力音声信号)が、ある一定区間毎に有音か無音かの判定を行い、この判定結果を送信音声有音率算出部125、有音区間相補性度算出部129、および有音区間交互発生度算出部131に出力する。
【0044】
受信音声有音判定部123は、受信した音声信号(復号音声信号)が、ある一定区間毎に有音か無音かの判定を行い、この判定結果を受信音声有音率算出部127、有音区間相補性度算出部129、および有音区間交互発生度算出部131に出力する。
【0045】
なお、本実施の形態では、このように送信音声有音判定部121および受信音声有音判定部123を設けて、有音・無音の判定を行うようにしているが、これに限定されない。たとえば、第1符号化部101および第2符号化部103に適用される音声符号化方式自体にあらかじめ有音・無音の判定処理が組み込まれている場合には、その情報をそのまま利用するようにしてもよい。
【0046】
送信音声有音率算出部125は、送信音声有音判定部121から出力された判定結果(送信音声の有音判定情報)を用いて、送信音声の有音率VAFs(0≦VAFs≦1)を算出する。ここで、送信音声の有音率VAFsとは、送信音声における有音の割合のことである。算出された有音率VAFsは、音声通信双方向性度合検出部133に出力される。
【0047】
受信音声有音率算出部127は、受信音声有音判定部123から出力された判定結果(受信音声の有音判定情報)を用いて、受信音声の有音率VAFr(0≦VAFr≦1)を算出する。ここで、受信音声の有音率VAFrとは、受信音声における有音の割合のことである。算出された有音率VAFrは、音声通信双方向性度合検出部133に出力される。
【0048】
有音区間相補性度算出部129は、送信音声有音判定部121から出力された判定結果(送信音声の有音判定情報)および受信音声有音判定部123から出力された判定結果(受信音声の有音判定情報)を用いて、送信音声と受信音声の有音区間相補性度を算出する。ここで、有音区間相補性度とは、送信音声の有音区間と受信音声の有音区間が時間的に重なったり(送信受信共に有音)また空きになったり(送信受信共に有音でない)する場合がどの程度ないかを示す度合である。本実施の形態では、この有音区間相補性度を、音声通信の双方向性度合を示す1つの指標とする。具体的には、たとえば、一例として、次の(式1)に示す値COMPを、この有音区間相補性度を示す1つの指標とする。算出された有音区間相補性度は、音声通信双方向性度合検出部133に出力される。
【0049】
COMP=1/L*SUM(VAD_flg_s(n) exor VAD_flg_r(n))
for n=0,‥,L−1 ‥(式1)
ここで、
VAD_flg_s(n):第nフレームの送信側有音無音フラグ
(=1:有音、0:無音)
VAD_flg_r(n):第nフレームの受信側有音無音フラグ
(=1:有音、0:無音)
L:本指標を算出する時間範囲
exor:排他的論理和
【0050】
有音区間交互発生度算出部131は、送信音声有音判定部121から出力された判定結果(送信音声の有音判定情報)および受信音声有音判定部123から出力された判定結果(受信音声の有音判定情報)を用いて、送信音声と受信音声の有音区間交互発生度を算出する。ここで、有音区間交互発生度とは、ある単位時間に、送信音声と受信音声がどの程度の頻度で交互に有音区間となっているかを示すパラメータである。本実施の形態では、この有音区間交互発生度を、音声通信の双方向性度合を示す別の指標とする。具体的には、たとえば、有音区間交互発生度NINTRを、単位時間(1sec)当たりの送話側から受話側(または受話側から送話側)への有音区間の変化の回数と定義する。算出された有音区間交互発生度は、音声通信双方向性度合検出部133に出力される。
【0051】
音声通信双方向性度合検出部133は、送信音声有音率算出部125、受信音声有音率算出部127、有音区間相補性度算出部129、および有音区間交互発生度算出部131でそれぞれ得られた、送信音声の有音率VAFs、受信音声の有音率VAFr、有音区間相補性度COMP、および有音区間交互発生度NINTRを用いて、音声通信双方向性度合を判定(検出)する。この判定(検出)結果は、符号化選択判定部135に出力される。
【0052】
具体的には、たとえば、下記の(式2)、(式3)、(式4)、(式5)を用いて、音声通信双方向性度合を示すフラグFLAGを求める。
【0053】
Figure 0004437011
ここで、
VAFs:送信側有音率
VAFr:受信側有音率
TH1L:下限側しきい値
TH1H:上限側しきい値
(たとえば、TH1L=0.3、TH1H=0.7)
【0054】
Figure 0004437011
ここで、
COMP:有音区間相補性度
TH2:しきい値
(たとえば、TH2=0.7)
【0055】
Figure 0004437011
ここで、
NINTR:有音区間交互発生度
TH3:しきい値
(たとえば、TH3=0.1)
【0056】
FLAG=FLAG1*FLAG2*FLAG3 ‥(式5)
【0057】
符号化選択判定部135は、音声通信双方向性度合検出部133で得られた判定(検出)結果FLAGに基づいて、入力音声信号を符号化するために第1符号化部101と第2符号化部103のいずれを選択すべきかを示す情報(符号化選択情報)を決定し、出力する。具体的には、たとえば、FLAG=1の場合は、音声通信の双方向性度合が高いものと判断して、第1符号化部101を選択し、FLAG=0の場合は、音声通信の双方向性度合が低いものと判断して、第2符号化部103を選択する。
【0058】
なお、本実施の形態では、3種類の判定情報FLAG1、FLAG2、FLAG3から判定を行っているが、これに限定されるわけではなく、これら3種類の中のいずれか1つまたは任意の組み合わせで判定を行うようにしてもよい。
【0059】
次いで、上記構成を有する音声符号化装置の動作について説明する。
【0060】
まず、第1符号化部101および第2符号化部103で、それぞれ、入力音声信号に対して音声符号化を行い、音声符号化データを切り替え器105に出力する。上記のように、第1符号化部101には、符号化遅延が小さい符号化方式が適用され、第2符号化部103には、第1符号化部101に比べて符号化遅延が大きくかつ符号化ビットレートが低い(または符号化音声品質が高い)符号化方式が適用されている。
【0061】
そして、符号化選択部105で、送信側の入力音声信号および受信側の復号音声信号を用いて、音声通信の双方向性度合を検出し、検出した音声通信双方向性度合に応じて、第1符号化部101と第2符号化部103のいずれを選択すべきかを示す情報(符号化選択情報)を出力する。具体的には、たとえば、上記のように、音声通信の双方向性度合が高い場合は、符号化遅延が小さい第1符号化部101を選択し、音声通信の双方向性度合が低い場合は、符号化遅延が大きくかつ符号化ビットレートが低い(または符号化音声品質が高い)第2符号化部103を選択し、この情報を符号化選択情報として出力する。符号化選択情報は、切り替え器107に出力されるとともに、通信相手に送信される。
【0062】
また、このとき、音声通信の双方向性度合の検出に当たっては、たとえば、上記のように、送信側の入力音声信号および受信側の復号音声信号を用いて、送信音声と受信音声の有音判定を行い、この判定結果を用いて、送信音声有音率、受信音声有音率、有音区間相補性度、有音区間交互発生度をそれぞれ算出した後、これらの算出結果を用いて、上記(式2)〜(式5)により、音声通信の双方向性度合を判定(検出)する。
【0063】
そして、切り替え器107で、符号化選択部105から出力された符号化選択情報に基づいて、内部スイッチを切り替え、第1符号化部101から出力された音声符号化データと第2符号化部103から出力された音声符号化データのうち、選択された方の音声符号化データを、送信すべき音声符号化データとして出力する。なお、切り替え器107から出力された音声符号化データは、符号化選択部105から出力された符号化選択情報と共に、通信相手に送信される。
【0064】
一方、通信相手から音声符号化データおよび符号化選択情報を受信すると、受信した符号化選択情報に基づいて、切り替え器113、115の内部スイッチを切り替え、第1復号化部109または第2復号化部111で、切り替え器113の出力(音声符号化データ)に対して音声復号化を行い、得られた復号音声信号を、切り替え器115を介して図示しない所定の処理部および送信側の符号化選択部105に出力する。
【0065】
このように、本実施の形態によれば、送信する音声信号を符号化する符号化手段として、符号化遅延が小さい第1の音声符号化方式を用いる第1符号化部101と、第1の音声符号化方式に比べて符号化遅延が大きくかつ符号化ビットレートが低い(または符号化音声品質が高い)第2の符号化方式を用いる第2符号化部103とを設け、送信側の入力音声信号および受信側の復号音声信号を用いて音声通信の双方向性度合を検出し、検出した音声通信双方向性度合に基づいて、符号化遅延が小さい第1符号化手段と、符号化遅延は大きいが符号化ビットレートは低い(または符号化音声品質は高い)第2符号化手段のいずれか一方を適切に選択するため、符号化の遅延が適切に制御され、伝送効率と双方向通信における低遅延性とを両立させることができる。
【0066】
なお、本実施の形態では、符号化の遅延量が異なる2つの符号化部101、103を切り替えるようにしているが、切り替える符号化部の数はこれに限定されるわけではなく、3つ以上の符号化部を設け、これら3つ以上の符号化部を音声通信双方向性度合によって適切に切り替える構成としてもよい。
【0067】
また、本実施の形態は、上記の機能を実現させる制御プログラムをコンピュータに実行させる構成としてもよい。
【0068】
【発明の効果】
以上説明したように、本発明によれば、伝送効率と双方向通信における低遅延性とを両立させることができる。
【図面の簡単な説明】
【図1】本発明の一実施の形態に係る音声符号化装置の構成を示すブロック図
【図2】図1の符号化選択部の構成を示すブロック図
【図3】従来の音声符号化装置の構成の一例を示すブロック図
【符号の説明】
101 第1符号化部
103 第2符号化部
105 符号化選択部
107、113、115 切り替え器
109 第1復号化部
111 第2復号化部
121 送信音声有音判定部
123 受信音声有音判定部
125 送信音声有音率算出部
127 受信音声有音率算出部
129 有音区間相補性度算出部
131 有音区間交互発生度算出部
133 音声通信双方向性度合検出部
135 符号化選択判定部

Claims (7)

  1. 第1の音声符号化方式を用いて、送信する音声信号を符号化する第1符号化手段と、
    前記第1の音声符号化方式に比べて、符号化遅延が大きく、かつ、符号化ビットレートが低いまたは符号化音声品質が高い第2の符号化方式を用いて、送信する音声信号を符号化する第2符号化手段と、
    受信された音声符号化データを復号化する復号化手段と、
    送信する音声信号に対して判定された有音区間に関する送信側の情報および復号化後の音声信号に対して判定された有音区間に関する受信側の情報の2つの情報を、予め設定された条件に適用することにより、音声が双方向に通信されている程度を示す指標を求め、前記指標を音声通信の双方向性度合として検出する検出手段と、
    検出された音声通信双方向性度合に基づいて、前記第1符号化手段および前記第2符号化手段のいずれか一方を選択する選択手段と、
    選択された符号化手段の処理結果を出力する出力手段と、を有し、
    前記検出手段は、送信側の有音率と受信側の有音率との組み合わせ情報、送信側の有音区間と受信側の有音区間との相補性度情報、および送信側の有音区間と受信側の有音区間との交互発生度情報のうち、少なくとも一以上の情報を前記指標として用いて、音声通信の双方向性度合を検出する、
    ことを特徴とする音声符号化装置。
  2. 前記選択手段は、音声通信の双方向性度合が高い場合は、第1符号化手段を選択し、音声通信の双方向性度合が低い場合は、第2符号化手段を選択する、
    ことを特徴とする請求項1記載の音声符号化装置。
  3. 前記復号化手段は、前記第1の音声符号化方式および前記第2の音声符号化方式のうち、選択された一の音声符号化方式を用いて、受信された音声符号化データを復号化する、
    ことを特徴とする請求項1記載の音声符号化装置。
  4. 請求項1記載の音声符号化装置を有することを特徴とする携帯端末装置。
  5. 請求項1記載の音声符号化装置を有することを特徴とする基地局装置。
  6. 第1の音声符号化方式を用いて、送信する音声信号を符号化する第1符号化ステップと、
    前記第1の音声符号化方式に比べて、符号化遅延が大きく、かつ、符号化ビットレートが低いまたは符号化音声品質が高い第2の符号化方式を用いて、送信する音声信号を符号化する第2符号化ステップと、
    受信された音声符号化データを復号化する復号化ステップと、
    送信する音声信号に対して判定された有音区間に関する送信側の情報および復号化後の音声信号に対して判定された有音区間に関する受信側の情報の2つの情報を、予め設定された条件に適用することにより、音声が双方向に通信されている程度を示す指標を求め、前記指標を音声通信の双方向性度合として検出する検出ステップと、
    前記検出ステップで検出した音声通信双方向性度合に基づいて、前記第1符号化方式および前記第2符号化方式のいずれか一方を選択する選択ステップと、
    前記第1符号化ステップおよび前記第2符号化ステップの各処理結果のうち、前記選択ステップで選択した符号化方式に基づく処理結果を出力する出力ステップと、を有し、
    前記検出ステップは、送信側の有音率と受信側の有音率との組み合わせ情報、送信側の有音区間と受信側の有音区間との相補性度情報、および送信側の有音区間と受信側の有音区間との交互発生度情報のうち、少なくとも一以上の情報を前記指標として用いて、音声通信の双方向性度合を検出する、
    ことを特徴とする音声符号化方法。
  7. コンピュータに、
    第1の音声符号化方式を用いて、送信する音声信号を符号化する第1符号化ステップと、
    前記第1の音声符号化方式に比べて、符号化遅延が大きく、かつ、符号化ビットレートが低いまたは符号化音声品質が高い第2の符号化方式を用いて、送信する音声信号を符号化する第2符号化ステップと、
    受信された音声符号化データを復号化する復号化ステップと、
    送信する音声信号に対して判定された有音区間に関する送信側の情報および復号化後の音声信号に対して判定された有音区間に関する受信側の情報の2つの情報を、予め設定された条件に適用することにより、音声が双方向に通信されている程度を示す指標を求め、前記指標を音声通信の双方向性度合として検出する検出ステップと、
    前記検出ステップで検出した音声通信双方向性度合に基づいて、前記第1符号化方式および前記第2符号化方式のいずれか一方を選択する選択ステップと、
    前記第1符号化ステップおよび前記第2符号化ステップの各処理結果のうち、前記選択ステップで選択した符号化方式に基づく処理結果を出力する出力ステップと、を実行させ、
    前記検出ステップは、送信側の有音率と受信側の有音率との組み合わせ情報、送信側の有音区間と受信側の有音区間との相補性度情報、および送信側の有音区間と受信側の有音区間との交互発生度情報のうち、少なくとも一以上の情報を前記指標として用いて、音声通信の双方向性度合を検出する、
    ことを特徴とする音声符号化プログラム。
JP2003091747A 2003-03-28 2003-03-28 音声符号化装置 Expired - Lifetime JP4437011B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003091747A JP4437011B2 (ja) 2003-03-28 2003-03-28 音声符号化装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003091747A JP4437011B2 (ja) 2003-03-28 2003-03-28 音声符号化装置

Publications (2)

Publication Number Publication Date
JP2004301907A JP2004301907A (ja) 2004-10-28
JP4437011B2 true JP4437011B2 (ja) 2010-03-24

Family

ID=33405047

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003091747A Expired - Lifetime JP4437011B2 (ja) 2003-03-28 2003-03-28 音声符号化装置

Country Status (1)

Country Link
JP (1) JP4437011B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4628798B2 (ja) * 2005-01-13 2011-02-09 Kddi株式会社 通信端末装置
JP2009089156A (ja) * 2007-10-01 2009-04-23 Yamaha Corp 配信システムおよび配信方法
JP5369418B2 (ja) * 2007-10-01 2013-12-18 ヤマハ株式会社 配信システム、配信方法及び通信端末
JP5255654B2 (ja) * 2008-01-10 2013-08-07 ヒューレット−パッカード デベロップメント カンパニー エル.ピー. 多方向ピアツーピアメディアストリーミング
WO2014010175A1 (ja) * 2012-07-09 2014-01-16 パナソニック株式会社 符号化装置及び符号化方法
JP2012253823A (ja) * 2012-09-24 2012-12-20 Yamaha Corp 配信システム、配信方法、配信サーバ及び通信端末

Also Published As

Publication number Publication date
JP2004301907A (ja) 2004-10-28

Similar Documents

Publication Publication Date Title
JP4922455B2 (ja) パケット・ネットワークでエコーを検出し、抑制する方法および装置
JP6546897B2 (ja) マルチレート・スピーチ/オーディオ・コーデックのためのフレーム損失隠匿について符号化を実行する方法
JP6151405B2 (ja) クリティカリティ閾値制御のためのシステム、方法、装置、およびコンピュータ可読媒体
AU2005246538B2 (en) Supporting a switch between audio coder modes
CN101681627B (zh) 使用音调规则化及非音调规则化译码的信号编码方法及设备
TW580691B (en) Method and apparatus for interoperability between voice transmission systems during speech inactivity
JP6077011B2 (ja) 冗長フレーム符号化および復号のためのデバイス
JP4842472B2 (ja) フレーム抹消条件下で予測音声コーダの性能を改良するためにデコーダからエンコーダにフィードバックを供給するための方法および装置
KR101668401B1 (ko) 오디오 신호를 인코딩하기 위한 방법 및 장치
KR20060131851A (ko) 통신 장치 및 신호 부호화/복호화 방법
JPH10187197A (ja) 音声符号化方法及び該方法を実施する装置
JP5713296B2 (ja) 信号ソースに関連付けられた少なくとも1つのパラメータを符号化するための装置および方法
CN112334980A (zh) 自适应舒适噪声参数确定
US8144862B2 (en) Method and apparatus for the detection and suppression of echo in packet based communication networks using frame energy estimation
JP4437011B2 (ja) 音声符号化装置
EP2127088A1 (en) Audio quantization
KR20200051609A (ko) 시간 오프셋 추정
US20060106603A1 (en) Method and apparatus to improve speaker intelligibility in competitive talking conditions
EP4396814A1 (en) Silence descriptor using spatial parameters
CN101211561A (zh) 音乐信号质量增强方法和装置
JP2013054282A (ja) 通信装置及び通信方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090217

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090420

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090804

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091029

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20091111

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091208

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100104

R150 Certificate of patent or registration of utility model

Ref document number: 4437011

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130108

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130108

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term