JP2014167525A - 音声復号装置 - Google Patents
音声復号装置 Download PDFInfo
- Publication number
- JP2014167525A JP2014167525A JP2013038937A JP2013038937A JP2014167525A JP 2014167525 A JP2014167525 A JP 2014167525A JP 2013038937 A JP2013038937 A JP 2013038937A JP 2013038937 A JP2013038937 A JP 2013038937A JP 2014167525 A JP2014167525 A JP 2014167525A
- Authority
- JP
- Japan
- Prior art keywords
- background noise
- packet
- unit
- buffer
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010521 absorption reaction Methods 0.000 claims abstract description 113
- 238000006243 chemical reaction Methods 0.000 claims abstract description 39
- 238000009825 accumulation Methods 0.000 claims abstract description 27
- 230000006835 compression Effects 0.000 claims abstract description 26
- 238000007906 compression Methods 0.000 claims abstract description 26
- 238000012544 monitoring process Methods 0.000 claims description 71
- 238000001514 detection method Methods 0.000 claims description 15
- 238000002789 length control Methods 0.000 claims description 12
- 238000003780 insertion Methods 0.000 claims description 7
- 230000037431 insertion Effects 0.000 claims description 7
- 230000006866 deterioration Effects 0.000 abstract description 7
- 235000014121 butter Nutrition 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 230000015556 catabolic process Effects 0.000 description 5
- 238000006731 degradation reaction Methods 0.000 description 5
- 238000004904 shortening Methods 0.000 description 4
- 230000003247 decreasing effect Effects 0.000 description 3
- 238000000034 method Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/043—Time compression or expansion by changing speed
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
【課題】 無音圧縮適用時でも通話品質劣化を低減できる音声復号装置を得ることを目的とする。
【解決手段】 受信されたパケットを一時蓄積し、所定の出力タイミングで出力するジッタ吸収バッファと、上記ジッタ吸収バッファから出力されたパケットに含まれる背景雑音データに基づいて背景雑音の音声データを生成する背景雑音生成部と、上記ジッタ吸収バッファから出力されたパケットに含まれる音声符号化データを復号して音声の音声データを生成する音声復号部と、上記音声復号部で復号された上記音声データの再生速度を変換する話速変換を行う話速変換部と、上記ジッタ吸収バッファにおけるパケットの蓄積状況に基づいて、上記背景雑音生成部で生成される上記背景雑音の時間長を制御するとともに、上記話速変換部で変換される上記再生速度を制御する制御部とを備えた。
【選択図】 図1
【解決手段】 受信されたパケットを一時蓄積し、所定の出力タイミングで出力するジッタ吸収バッファと、上記ジッタ吸収バッファから出力されたパケットに含まれる背景雑音データに基づいて背景雑音の音声データを生成する背景雑音生成部と、上記ジッタ吸収バッファから出力されたパケットに含まれる音声符号化データを復号して音声の音声データを生成する音声復号部と、上記音声復号部で復号された上記音声データの再生速度を変換する話速変換を行う話速変換部と、上記ジッタ吸収バッファにおけるパケットの蓄積状況に基づいて、上記背景雑音生成部で生成される上記背景雑音の時間長を制御するとともに、上記話速変換部で変換される上記再生速度を制御する制御部とを備えた。
【選択図】 図1
Description
本発明は、インターネット電話等で用いられる符号化された音声を復号する音声復号装置に関するものである。
インターネット電話等の音声通話は、音声を符号化した後にパケット化し、ネットワークを通してパケットを送受信することによって通話する。パケットの通信において、パケットが受信される時間間隔は一定ではないことが多く、パケットの受信時間間隔にばらつき(ジッタ)が生じる場合が多い。このようなジッタを吸収して、受信したパケットに含まれる音声の符号を復号した復号音声を連続的に出力する技術として、例えば、特許文献1に記載された技術がある。
特許文献1に記載された技術では、受信パケットが一時的に格納されるジッタ吸収バッファにおける受信パケットの蓄積量に応じて、再生速度を速くしたり、遅くしたりする制御を行うことにより、ジッタ吸収バッファにおける受信パケットの蓄積量を適切な量に保ち、復号音声を連続的に出力する。これにより、ジッタ吸収バッファにおける受信パケットの廃棄、複製によって受信パケットの蓄積量を適切な量に保つ場合と比較して音声品質劣化は軽減される。
しかしながら、従来の音声復号装置では、一定の時間間隔で音声が符号化され、パケット化されて送信されたパケットが、ジッタ吸収バッファにおける当該パケットのパケット番号に対応した位置に格納されることを前提とした制御である。よって、例えば、無音区間ではパケットの送出間隔が長くなるなど、必ずしも一定の時間間隔でパケットが送出されない無音圧縮を適用したシステムでは、適切な処理ができずに、通話品質劣化を招くという問題点があった。
この発明は上記のような問題点を解決するためになされたもので、無音圧縮適用時でも通話品質劣化を低減できる音声復号装置を得ることを目的とする。
この発明は上記のような問題点を解決するためになされたもので、無音圧縮適用時でも通話品質劣化を低減できる音声復号装置を得ることを目的とする。
この発明にかかる音声復号装置は、受信されたパケットを一時蓄積し、所定の出力タイミングで出力するジッタ吸収バッファと、上記ジッタ吸収バッファから出力されたパケットに含まれる背景雑音データに基づいて背景雑音の音声データを生成する背景雑音生成部と、上記ジッタ吸収バッファから出力されたパケットに含まれる音声符号化データを復号して音声の音声データを生成する音声復号部と、上記音声復号部で復号された上記音声データの再生速度を変換する話速変換を行う話速変換部と、上記ジッタ吸収バッファにおけるパケットの蓄積状況に基づいて、上記背景雑音生成部で生成される上記背景雑音の時間長を制御するとともに、上記話速変換部で変換される上記再生速度を制御する制御部とを備えたものである。
この発明によれば、受信されたパケットを一時蓄積し、所定の出力タイミングで出力するジッタ吸収バッファと、上記ジッタ吸収バッファから出力されたパケットに含まれる背景雑音データに基づいて背景雑音の音声データを生成する背景雑音生成部と、上記ジッタ吸収バッファから出力されたパケットに含まれる音声符号化データを復号して音声の音声データを生成する音声復号部と、上記音声復号部で復号された上記音声データの再生速度を変換する話速変換を行う話速変換部と、上記ジッタ吸収バッファにおけるパケットの蓄積状況に基づいて、上記背景雑音生成部で生成される上記背景雑音の時間長を制御するとともに、上記話速変換部で変換される上記再生速度を制御する制御部とを備えたことにより、無音圧縮適用時でも通話品質劣化を防止することができる。
以下、本発明の実施の形態を説明する。なお、以下の実施の形態は、本発明の一例であり、本発明は以下の実施の形態に限定されるものではない。
実施の形態1.
図1はこの発明の一実施例を示す音声復号装置の機能ブロック構成図である。
図1において、ジッタ吸収バッファ1は、受信されたパケットを一時蓄積し、所定の出力タイミングで出力する。背景雑音生成部2は、ジッタ吸収バッファ1から出力されたパケットに含まれる背景雑音データに基づいて背景雑音の音声データを生成する。音声復号部3は、ジッタ吸収バッファ1から出力されたパケットに含まれる音声符号化データを復号して音声の音声データを生成する。話速変換部4は、音声復号部3で復号された音声データの再生速度を変換する話速変換を行う。出力バッファ5は、上記背景雑音生成部2で生成された背景雑音の音声データと上記音声復号部3で生成された音声の音声データとを一時蓄積する。出力バッファ監視部6は、出力バッファ5に蓄積された音声デーの蓄積量を監視し、当該蓄積量に応じてジッタ吸収バッファ1に対して一時蓄積されたパケットの出力タイミングを指示する。制御部7は、ジッタ吸収バッファ1におけるパケットの蓄積状況に基づいて、背景雑音生成部2で生成される背景雑音の時間長を制御するとともに、話速変換部4で変換される再生速度を制御する。
図1はこの発明の一実施例を示す音声復号装置の機能ブロック構成図である。
図1において、ジッタ吸収バッファ1は、受信されたパケットを一時蓄積し、所定の出力タイミングで出力する。背景雑音生成部2は、ジッタ吸収バッファ1から出力されたパケットに含まれる背景雑音データに基づいて背景雑音の音声データを生成する。音声復号部3は、ジッタ吸収バッファ1から出力されたパケットに含まれる音声符号化データを復号して音声の音声データを生成する。話速変換部4は、音声復号部3で復号された音声データの再生速度を変換する話速変換を行う。出力バッファ5は、上記背景雑音生成部2で生成された背景雑音の音声データと上記音声復号部3で生成された音声の音声データとを一時蓄積する。出力バッファ監視部6は、出力バッファ5に蓄積された音声デーの蓄積量を監視し、当該蓄積量に応じてジッタ吸収バッファ1に対して一時蓄積されたパケットの出力タイミングを指示する。制御部7は、ジッタ吸収バッファ1におけるパケットの蓄積状況に基づいて、背景雑音生成部2で生成される背景雑音の時間長を制御するとともに、話速変換部4で変換される再生速度を制御する。
本実施の形態では、制御部7は、バッファ残量監視部71と制御信号出力部72を備えている。バッファ残量監視部71は、ジッタ吸収バッファ1におけるパケットの蓄積状況として、ジッタ吸収バッファ1の残量を監視する。制御信号出力部72は、バッファ残量監視部71で監視されたジッタ吸収バッファ残量に基づいて、背景雑音生成部2で生成される背景雑音の時間長を制御する時間長制御信号と、話速変換部4で変換される再生速度を制御する再生速度制御信号とを出力する。
次に動作について説明する。
なお、本実施の形態では、ユーザとユーザの通話相手との二者間で音声通話をしている場合の動作について説明するが、本発明はこれに限定されるものではない。
なお、本実施の形態では、ユーザとユーザの通話相手との二者間で音声通話をしている場合の動作について説明するが、本発明はこれに限定されるものではない。
まず、ユーザの通話相手が発話すると、その音声が通話相手側で符号化、パケット化され、ネットワークを通してユーザ側で受信される。このように通話相手側から送信されたパケットがユーザ側で受信されると、ジッタ吸収バッファ1は、その受信されたパケットを一時蓄積する。ジッタ吸収バッファ1は、パケット到着遅延の揺らぎであるジッタを吸収し、平滑化したタイミングにて出力できるよう、あらかじめ定められた初期遅延量のパケットを蓄積後、一時蓄積したパケットを順次出力する。但し、ジッタ吸収バッファ1からの出力タイミングは、出力バッファ監視部6からの指示に従う。
ジッタ吸収バッファ1から出力されたパケットは、背景雑音データを含む背景雑音パケットと、音声符号化データを含む音声パケットとに分けて処理される。音声パケットの場合は、当該パケットは音声復号部3に入力され、背景雑音パケットの場合は、当該パケットは背景雑音生成部2に入力される。背景雑音生成部2には、背景雑音パケットと共に、次パケットとの時間差、例えば、背景雑音パケットと次パケットに付与されている各々の送信時間を示すタイムスタンプ値の差を背景雑音生成時間長として、ジッタ吸収バッファ1から伝えられる。
詳細な動作を図を用いて説明する。図2は、パケットのタイムスタンプとジッタ吸収バッファの蓄積との関係を示す説明図である。
図2では、各々t時間分の音声符号化データを含む音声パケット#1、#2、#4、及び、背景雑音データを含む背景雑音パケット#3が、#1、#2、#3、#4の順で到着し、ジッタ吸収バッファ1に一時蓄積される。
図2では、各々t時間分の音声符号化データを含む音声パケット#1、#2、#4、及び、背景雑音データを含む背景雑音パケット#3が、#1、#2、#3、#4の順で到着し、ジッタ吸収バッファ1に一時蓄積される。
背景雑音パケットである#3のパケットにシーケンス番号N、タイムスタンプ値Mが付与されているとすると、#1パケットのシーケンス番号はN−2、#2パケットのシーケンス番号はN−1、#4パケットのシーケンス番号はN+1となり、#1パケットのタイムスタンプ値はM−2t、#2パケットのタイムスタンプ値はM−tとなる。#4パケットのタイムスタンプ値は雑音区間長であるT時間分だけ経った時間、つまりM+Tとなる。背景雑音生成時間長は、背景雑音パケットである#3パケットと次パケットである#4パケットのタイムスタンプ値の差、(M+T)−M=T となる。
背景雑音パケットと背景雑音生成時間長が入力された背景雑音生成部2は、背景雑音パケットに格納されている背景雑音データを基に背景雑音を生成し、背景雑音生成時間長分だけ背景雑音生成を継続させて、背景雑音の音声データとして出力バッファ5に出力する。
音声パケットが入力された音声復号部3は、音声パケットに格納されている音声符号化データを復号する事で音声の音声データを生成し、話速変換部4に出力する。話速変換部4にて処理された音声の音声データは出力バッファ5に入力される。
出力バッファ監視部6は、出力バッファ5に蓄積される音声データの有無(蓄積された音声データの蓄積量)を監視し、背景雑音生成部2及び話速変換部4からの入力が無い(所定量より少ない)と判断した場合に、ジッタ吸収バッファ1に蓄積している1パケットを出力するようにジッタ吸収バッファ1に対してパケットの出力タイミングを指示する。
バッファ残量監視部71は、ジッタ吸収バッファ1に一時蓄積されているパケットの量を監視し、バッファ残量としてある閾値Aよりも少ない場合には「小」、ある閾値Bよりも多い場合には「大」、ある閾値Aよりも多くある閾値Bよりも少ない場合には「中」として、制御信号出力部72に通知する。
バッファ残量監視部71からの通知を受けた制御信号出力部72は、ジッタ吸収バッファ1のバッファ残量が大きいほど背景雑音生成時間長を短縮するように制御(指示)する時間長制御信号を出力するとともに、ジッタ吸収バッファ1のバッファ残量が大きいほど話速の再生を速くするように制御(指示)する再生速度制御信号を出力する。
例えば、表1記載の制御内容に基づき、「小」と通知されたならば背景雑音生成部2には背景雑音生成時間長を延長させる指示、例えば1.1倍との指示を出し、話速変換部4には再生をゆっくり行う指示、例えば、0.8倍との指示を出す。「大」と通知されたならば、背景雑音生成部2には背景雑音生成時間長を短縮させる指示、例えば0.9倍との指示を出し、話速変換部4には再生を早める指示、例えば、1.2倍との指示を出す。「中」と通知されたならば背景雑音生成部2には背景雑音生成時間長を通常の長さとする指示、例えば1.0倍との指示を出し、話速変換部4には再生を通常の速さとする指示、例えば、1.0倍との指示を出す。
以上のように、本実施の形態によれば、制御部7から背景雑音生成部2及び話速変換部4に連携した指示を出す。すなわち、ジッタ吸収バッファ1におけるパケットの蓄積状況に基づいて、背景雑音生成部2で生成される背景雑音の時間長を制御するとともに、話速変換部4で変換される再生速度を制御する。このようにすることにより、送信間隔が異なる背景雑音(無音区間)と音声(有音区間)とを別々に制御するので、必ずしも一定間隔でパケットが送出されない無音圧縮適用時でも通話品質劣化を防止することができる。
ジッタ吸収バッファ1におけるパケットの蓄積状況として、ジッタ吸収バッファ1の残量に基づいて、背景雑音生成部2で生成される背景雑音の時間長を制御する時間長制御信号と、話速変換部4で変換される再生速度を制御する再生速度制御信号とを出力することにより、ジッタ吸収バッファ1の残量に応じて適切なジッタバッファ制御ができ、無音圧縮適用時でも通話品質劣化を防止することができる。
ジッタ吸収バッファ残量を閾値A、閾値Bに基づいて「小」「中」「大」の3つに分けて説明したが、それ以上に分けて制御することで、更に細かな制御が可能となる。
また、残量が変化することに伴って制御も変化するが、残量の変化方向によって「小」「中」「大」を区別する閾値に異なる閾値を設定ことで、閾値近辺での残量の増減で制御が頻繁に変化することを回避でき、より良い通話品質を提供できる。例えば、ジッタ吸収バッファ残量が増える方向に変化する変化方向にある場合の閾値C、閾値Dと、減る方向に変化する変化方向にある場合の閾値E、閾値Fを設定することで、より良い通話品質を提供できる。
また、残量が変化することに伴って制御も変化するが、残量の変化方向によって「小」「中」「大」を区別する閾値に異なる閾値を設定ことで、閾値近辺での残量の増減で制御が頻繁に変化することを回避でき、より良い通話品質を提供できる。例えば、ジッタ吸収バッファ残量が増える方向に変化する変化方向にある場合の閾値C、閾値Dと、減る方向に変化する変化方向にある場合の閾値E、閾値Fを設定することで、より良い通話品質を提供できる。
また、背景雑音生成部2において、背景雑音生成時間長を短縮する場合、ある一定の時間長よりも短くならないようにすることで、より良い通話品質を提供できる。
なお、背景雑音生成部2に対する制御部7からの指示を、上記説明では1.1倍や0.9倍と記しが、増減させる時間量、例えば、100ms延長や200ms短縮などの指示でもよい。
なお、背景雑音生成部2に対する制御部7からの指示を、上記説明では1.1倍や0.9倍と記しが、増減させる時間量、例えば、100ms延長や200ms短縮などの指示でもよい。
また、出力バッファ5、出力バッファ監視部6を備えた場合について説明したが、出力バッファ5及び出力バッファ監視部6を削除してもよい。例えば、ジッタ吸収バッファ1は、所定の時間間隔の出力タイミングでパケットを出力するように構成してもよい。また例えば、ジッタ吸収バッファにおけるパケットの蓄積状況に基づいて、制御部7の制御に応じた出力タイミングでパケットを出力するように構成してもよい。
実施の形態2.
図3はこの発明の一実施例を示す音声復号装置の機能ブロック構成図である。
図3において、上記実施の形態と同一もしくは相当部分は同一符号で示し、説明を省略する。
図3はこの発明の一実施例を示す音声復号装置の機能ブロック構成図である。
図3において、上記実施の形態と同一もしくは相当部分は同一符号で示し、説明を省略する。
図3において、制御部7は、バッファ残量監視部71、制御信号出力部72及び到着速度監視部73を備えている。到着速度監視部73は、ジッタ吸収バッファ1に蓄積されるパケットの到着速度を監視する。本実施の形態において、制御信号出力部72は、ジッタ吸収バッファにおけるパケットの蓄積状況として、バッファ残量監視部71で監視された残量及び到着速度監視部73で監視された到着速度に基づいて、背景雑音生成部2で生成される背景雑音の時間長を制御する時間長制御信号と、話速変換部4で変換される再生速度を制御する再生速度制御信号とを出力する。
次に動作について説明する。
なお、本実施の形態では、ユーザとユーザの通話相手との二者間で音声通話をしている場合の動作について説明するが、本発明はこれに限定されるものではない。
なお、本実施の形態では、ユーザとユーザの通話相手との二者間で音声通話をしている場合の動作について説明するが、本発明はこれに限定されるものではない。
まず、ユーザの通話相手が発話すると、その音声が通話相手側で符号化、パケット化され、ネットワークを通してユーザ側で受信される。このように通話相手側から送信されたパケットがユーザ側で受信されると、ジッタ吸収バッファ1は、その受信されたパケットを一時蓄積する。ジッタ吸収バッファ1は、パケット到着遅延の揺らぎであるジッタを吸収し、平滑化したタイミングにて出力できるよう、あらかじめ定められた初期遅延量のパケットを蓄積後、一時蓄積したパケットを順次出力する。但し、ジッタ吸収バッファ1からの出力タイミングは、出力バッファ監視部6からの指示に従う。
ジッタ吸収バッファ1から出力されたパケットは、背景雑音データを含む背景雑音パケットと、音声符号化データを含む音声パケットとに分けて処理される。音声パケットの場合は、当該パケットは音声復号部3に入力され、背景雑音パケットの場合は、当該パケットは背景雑音生成部2に入力される。背景雑音生成部2には、背景雑音パケットと共に、次パケットとの時間差、例えば、背景雑音パケットと次パケットに付与されている各々の送信時間を示すタイムスタンプ値の差を背景雑音生成時間長として、ジッタ吸収バッファ1から伝えられる。
背景雑音パケットと背景雑音生成時間長が入力された背景雑音生成部2は、背景雑音パケットに格納されている背景雑音データを基に背景雑音を生成し、背景雑音生成時間長分だけ背景雑音生成を継続させて、背景雑音の音声データとして出力バッファ5に出力する。
音声パケットが入力された音声復号部3は、音声パケットに格納されている音声符号化データを復号する事で音声の音声データを生成し、話速変換部4に出力する。話速変換部4にて処理された音声の音声データは出力バッファ5に入力される。
出力バッファ監視部6は、出力バッファ5に蓄積される音声データの有無(蓄積された音声データの蓄積量)を監視し、背景雑音生成部2及び話速変換部4からの入力が無い(所定量より少ない)と判断した場合に、ジッタ吸収バッファ1に蓄積している1パケットを出力するようにジッタ吸収バッファ1に対してパケットの出力タイミングを指示する。
バッファ残量監視部71は、ジッタ吸収バッファ1に一時蓄積されているパケットの量を監視し、バッファ残量としてある閾値Aよりも少ない場合には「小」、ある閾値Bよりも多い場合には「大」、ある閾値Aよりも多くある閾値Bよりも少ない場合には「中」として、制御信号出力部72に通知する。
到着速度監視部73は、ジッタ吸収バッファ1に入力される(到着する)パケットの到着速度を監視し、ある閾値αよりも遅い速度で入力されている場合には「低速」、ある閾値βよりも速い速度で入力されている場合には「高速」、ある閾値αよりも速くある閾値βよりも遅い場合には「中速」として、制御部信号出力部72に通知する。
バッファ残量監視部71及び、到着速度監視部73からの通知を受けた制御信号出力部72は、ジッタ吸収バッファ1のバッファ残量が大きいほど背景雑音生成時間長を短縮、ジッタ吸収バッファ1に入力される(到着する)パケットの到着速度が高速なほど背景雑音生成時間長を短縮するように制御(指示)する時間長制御信号を出力するとともに、ジッタ吸収バッファ1のバッファ残量が大きいほど話速の再生を速く、ジッタ吸収バッファ1に入力される(到着する)パケットの到着速度が高速なほど話速の再生を速くするように制御(指示)する再生速度制御信号を出力する。
例えば、表2記載の制御内容に基づき、背景雑音生成部2及び話速変換部4に指示を出す。背景雑音生成部2に対しては、「延長」とする場合には例えば1.1倍との指示を出し、「更に延長」とする場合には例えば1.3倍との指示を出し、「短縮」とする場合には例えば0.9倍との指示を出し、「更に短縮」の場合には例えば0.5倍との指示を出し、「普通」とする場合には例えば1.0倍との指示を出す。話速変換部4に対しては、「ゆっくり」とする場合には例えば0.8倍との指示を出し、「更にゆっくり」とする場合には例えば0.6倍との指示を出し、「速く」とする場合には例えば1.2倍との指示を出し、「更に速く」の場合には例えば1.4倍との指示を出し、「普通」とする場合には例えば1.0倍との指示を出す。
以上のように、本実施の形態によれば、制御部7から背景雑音生成部2及び話速変換部4に連携した指示を出す。すなわち、ジッタ吸収バッファ1におけるパケットの蓄積状況に基づいて、背景雑音生成部2で生成される背景雑音の時間長を制御するとともに、話速変換部4で変換される再生速度を制御することにより、送信間隔が異なる背景雑音(無音区間)と音声(有音区間)とを別々に制御するので、必ずしも一定間隔でパケットが送出されない無音圧縮適用時でも通話品質劣化を防止することができる。
ジッタ吸収バッファ1におけるパケットの蓄積状況として、ジッタ吸収バッファ1の残量及びジッタ吸収バッファ1に到着する到着速度に基づいて、背景雑音生成部2で生成される背景雑音の時間長を制御する時間長制御信号と、話速変換部4で変換される再生速度を制御する再生速度制御信号とを出力することにより、ジッタ吸収バッファ1の残量に応じて適切なジッタバッファ制御ができるとともに、パケットの受信が一時的に滞り、その後、滞りが解消されて一気に多量のパケット到着するような場合でも、到着速度も監視することでバッファオーバーフローを未然に防ぐことができる適切なジッタバッファ制御が実現でき、無音圧縮適用時でも通話品質劣化を防止することができる。
ジッタ吸収バッファ残量を閾値A、閾値Bに基づいて「小」「中」「大」、到着速度を閾値α、閾値βに基づいて「低速」「中速」「高速」の3つに分けて説明したが、それ以上に分けて制御することで、更に細かな制御が可能となる。
また、ジッタ吸収バッファ残量及び到着速度が変化することに伴って制御も変化するが、残量及び速度の変化方向によって「小」「中」「大」、「低速」「中速」「高速」を区別する閾値に異なる閾値を設定ことで、閾値近辺での残量の増減で制御が頻繁に変化することを回避でき、より良い通話品質を提供できる。例えば、ジッタ吸収バッファ残量が増える方向に変化する変化方向にある場合の閾値C、閾値Dと、減る方向に変化する変化方向にある場合の閾値E、閾値Fを設定する。また、到着速度が速くなる方向に変化する変化方向にある場合の閾値γ、閾値δと、遅くなる方向に変化する変化方向にある場合の閾値ε、閾値ζを設定する。このようにすることで、より良い通話品質を提供できる。
また、背景雑音生成部2において、背景雑音生成時間長を短縮する場合、ある一定の時間長よりも短くならないようにすることで、より良い通話品質を提供できる。
なお、背景雑音生成部2に対する制御部7からの指示を、上記説明では1.1倍や0.9倍と記しが、増減させる時間量、例えば、100ms延長や200ms短縮などの指示でもよい。
なお、背景雑音生成部2に対する制御部7からの指示を、上記説明では1.1倍や0.9倍と記しが、増減させる時間量、例えば、100ms延長や200ms短縮などの指示でもよい。
また、バッファ残量監視部71及び到着速度監視部73を備えた制御部7について説明したが、バッファ残量監視部71を削除し、制御信号出力部72は、到着速度監視部73で監視されるジッタ吸収バッファに到着する到着速度に基づいて、時間長制御信号と再生速度制御信号とを出力するように構成してもよい。
また、出力バッファ5、出力バッファ監視部6を備えた場合について説明したが、出力バッファ5及び出力バッファ監視部6を削除してもよい。例えば、ジッタ吸収バッファ1は、所定の時間間隔の出力タイミングでパケットを出力するように構成してもよい。また例えば、ジッタ吸収バッファにおけるパケットの蓄積状況に基づいて、制御部7の制御に応じた出力タイミングでパケットを出力するように構成してもよい。
実施の形態3.
図4はこの発明の一実施例を示す音声復号装置の機能ブロック構成図である。
図4において、上記実施の形態と同一もしくは相当部分は同一符号で示し、説明を省略する。
図4はこの発明の一実施例を示す音声復号装置の機能ブロック構成図である。
図4において、上記実施の形態と同一もしくは相当部分は同一符号で示し、説明を省略する。
図4において、高精度無音圧縮部8は、受信されたパケットを分析し、当該パケットにに含まれる音声符号化データから無音・雑音区間が検出された場合にはそのパケットを背景雑音データを含む背景雑音パケットに置き換え、無音・雑音区間が検出されなかった場合にはパケットの置き換えをせずに出力する。
次に動作について説明する。
なお、本実施の形態では、ユーザとユーザの通話相手との二者間で音声通話をしている場合の動作について説明するが、本発明はこれに限定されるものではない。
なお、本実施の形態では、ユーザとユーザの通話相手との二者間で音声通話をしている場合の動作について説明するが、本発明はこれに限定されるものではない。
まず、ユーザの通話相手が発話すると、その音声が通話相手側で符号化、パケット化され、ネットワークを通してユーザ側で受信される。通話相手側の符号化において無音圧縮が行われ、背景雑音区間では背景雑音パケットが、音声区間では音声パケットが出力されて、ユーザ側の音声復号装置に届く。通話相手側の音声符号化装置での無音圧縮機能の精度は悪い場合には、実際は背景雑音区間であるにも関わらず、音声パケットとしてパケットが出力される。あるいは、通話相手側の音声符号化装置では無音圧縮機能を実施せずに、すべてのパケットが音声パケットとして出力される。何れの場合にでも、ユーザ側の音声復号装置にて適切なジッタ吸収バッファ制御が実現できるように、高精度無音圧縮部8が設けられている。
通話相手側から送信されたパケットがユーザ側で受信されると、高精度無音圧縮部8は、受信されたパケットを分析し、受信した音声パケットに格納されている符号化データからより高精度に雑音区間を見つけ出す。当該パケットにに含まれる音声符号化データから無音・雑音区間が検出された場合にはそのパケットを背景雑音データを含む背景雑音パケットに置き換えて、ジッタ吸収バッファ1に出力する。無音・雑音区間が検出されなかった場合にはパケットの置き換えをせずにジッタ吸収バッファ1に出力する。以降の動作は上述の実施の形態と同様である。
以上のように、本実施の形態によれば、受信されたパケットを分析し、当該パケットにに含まれる音声符号化データから無音・雑音区間が検出された場合にはそのパケットを背景雑音データを含む背景雑音パケットに置き換え、無音・雑音区間が検出されなかった場合にはパケットの置き換えをせずに出力することにより、対向する音声符号化装置の無音圧縮機能の良し悪しや有無に関わらず、背景雑音(無音区間)と音声(有音区間)とを別々に制御するので、適切なジッタ吸収バッファ制御が実現でき、通話品質劣化を更に防止することができる。
なお、本実施の形態では、到着速度監視部73は、高精度無音圧縮部8に入力されるパケットの到着速度を監視する場合について説明したが、高精度無音圧縮部8とジッタ吸収バッファ1との間でパケットの到着速度を監視するように構成してもよい。
また、バッファ残量監視部71及び到着速度監視部73を備えた制御部7について説明したが、バッファ残量監視部71及び到着速度監視部73は、いずれか一方を備え、時間長制御信号と再生速度制御信号とを出力するように構成してもよい。
また、出力バッファ5、出力バッファ監視部6を備えた場合について説明したが、出力バッファ5及び出力バッファ監視部6を削除してもよい。例えば、ジッタ吸収バッファ1は、所定の時間間隔の出力タイミングでパケットを出力するように構成してもよい。また例えば、ジッタ吸収バッファにおけるパケットの蓄積状況に基づいて、制御部7の制御に応じた出力タイミングでパケットを出力するように構成してもよい。
実施の形態4.
図5はこの発明の一実施例を示す音声復号装置の機能ブロック構成図である。
図5において、上記実施の形態と同一もしくは相当部分は同一符号で示し、説明を省略する。
図5はこの発明の一実施例を示す音声復号装置の機能ブロック構成図である。
図5において、上記実施の形態と同一もしくは相当部分は同一符号で示し、説明を省略する。
図5において、音声復号装置20は、ユーザ側で受信された音声符号化データを復号する。音声符号化装置21は、ユーザ側から送信される音声を符号化する。音声検出部9は、ユーザの発話の有無を検出する。本実施の形態では、入力された音声データが「音声」なのか音声ではない「雑音」なのかを一定区間ごとに判定する。音声データが「音声」の場合はユーザの発話があると判定され、音声データが「雑音」の場合はユーザの発話がないと判定される。
音声符号化部10は、音声データを符号化し、音声符号化データを出力する。無音圧縮制御部11は、音声検出部9で「音声」と判定された場合には音声符号部10からの音声符号化データを出力し、「雑音」と判定された場合には音声符号化部10から背景雑音データを間欠的に出力する。
また、本実施の形態において、ジッタ吸収バッファ1は、音声検出部9でユーザの発話が有ることが検出された場合に、バッファ内が初期状態に戻るように構成されている。
次に動作について説明する。
なお、本実施の形態では、ユーザとユーザの通話相手との二者間で音声通話をしている場合の動作について説明するが、本発明はこれに限定されるものではない。
なお、本実施の形態では、ユーザとユーザの通話相手との二者間で音声通話をしている場合の動作について説明するが、本発明はこれに限定されるものではない。
音声符号化装置21では、音声データが音声検出部9及び音声符号化部10に入力される。音声検出部9は、入力された音声データが「音声」なのか音声ではない「雑音」なのかを一定区間ごとに判定し、その結果を音声符号化部10、無音圧縮制御部11、及び、音声復号装置20にあるジッタ吸収バッファ1に出力する。音声符号化部10は、「音声」と通知された場合には入力された音声データの符号化データを出力し、「雑音」と通知された場合には背景雑音データを出力する。無音圧縮制御部11は、「音声」と通知された場合には音声符号部10からの音声符号化データを出力し、「雑音」と通知された場合には音声符号化部10から背景雑音データを間欠的に出力する。ジッタ吸収バッファ1にも音声検出部12の判定結果は通知される。ジッタ吸収バッファ1は、「雑音」と通知された場合には通常の処理を継続するが、「音声」と通知された場合にはジッタ吸収バッファ1に蓄積されている音声パケットを破棄し、初期状態から処理を再開させる。
音声符号化装置21に「音声」の音声データが入力された場合は、ユーザが発話している状態であり、通常、この時ユーザの通話相手は発話していない。したがって、この場合、ユーザ側で復号処理を行う必要が無い可能性が高いので、ジッタ吸収バッファ1に蓄積されている音声パケットを破棄し、初期状態に戻しておくことにより、ユーザの通話相手が発話を開始し、ユーザ側で復号処理が開始される際に、バッファ枯渇や溢れに近い状態ではない初期状態からジッタ吸収バッファ制御が行える。
以上のように、本実施の形態によれば、音声符号化装置21に「音声」の音声データが入力された場合に、ジッタ吸収バッファ1に蓄積されている音声パケットを破棄し、初期状態に戻ることにより、ユーザの通話相手が発話を開始し、ユーザ側で復号処理が開始される際に、バッファ枯渇や溢れに近い状態ではない初期状態からジッタ吸収バッファ制御が行えるため、より適切な制御が実現でき、通話品質劣化を更に防止することができる。
また、音声符号化装置21では必ずしも無音圧縮を適用する必要は無く、音声検出部9を備え、その判定結果をジッタ吸収バッファ1で取得することでもよい。
また、バッファ残量監視部71及び到着速度監視部73を備えた制御部7について説明したが、バッファ残量監視部71及び到着速度監視部73は、いずれか一方を備え、時間長制御信号と再生速度制御信号とを出力するように構成してもよい。
また、出力バッファ5、出力バッファ監視部6を備えた場合について説明したが、出力バッファ5及び出力バッファ監視部6を削除してもよい。例えば、ジッタ吸収バッファ1は、所定の時間間隔の出力タイミングでパケットを出力するように構成してもよい。また例えば、ジッタ吸収バッファにおけるパケットの蓄積状況に基づいて、制御部7の制御に応じた出力タイミングでパケットを出力するように構成してもよい。
実施の形態5.
図6はこの発明の一実施例を示す音声復号装置の機能ブロック構成図である。
図6において、上記実施の形態と同一もしくは相当部分は同一符号で示し、説明を省略する。
図6はこの発明の一実施例を示す音声復号装置の機能ブロック構成図である。
図6において、上記実施の形態と同一もしくは相当部分は同一符号で示し、説明を省略する。
図6において、背景雑音データ検出・挿入部12は、受信されたパケットが背景雑音データを含むか否かを検出し、背景雑音データを含むことを検出した場合に、1パケット当たりの時間長が音声符号化データを含むパケットの1パケット当たりの時間長と等しいパケットを背景雑音データの無音・雑音区間の時間長に相当する個数分、ジッタ吸収バッファ1に挿入する。
次に動作について説明する。
なお、本実施の形態では、ユーザとユーザの通話相手との二者間で音声通話をしている場合の動作について説明するが、本発明はこれに限定されるものではない。
なお、本実施の形態では、ユーザとユーザの通話相手との二者間で音声通話をしている場合の動作について説明するが、本発明はこれに限定されるものではない。
まず、ユーザの通話相手が発話すると、その音声が通話相手側で符号化、パケット化され、ネットワークを通してユーザ側で受信される。
背景雑音データ検出・挿入部12では、受信したパケットが背景雑音データを含む背景雑音パケットであるか否かを検出し、背景雑音パケットを検出した場合には、1パケット当たりの時間長が音声符号化データを含むパケットの1パケット当たりの時間長と等しいパケットを背景雑音データの無音・雑音区間の時間長に相当する個数分、ジッタ吸収バッファ1に挿入する。
詳細な動作を図を用いて説明する。図7は、パケットのタイムスタンプとジッタ吸収バッファの蓄積との関係を示す説明図である。
図7では、t時間分の音声符号化データを含む音声パケット#1、#2、#4、及び、背景雑音データを含む背景雑音パケット#3が、#1、#2、#3、#4の順で到着し、ジッタ吸収バッファ1に一時蓄積される。背景雑音パケットである#3のパケットにシーケンス番号N、タイムスタンプ値Mが付与されているとすると、#1パケットのシーケンス番号はN−2、#2パケットのシーケンス番号はN−1、#4パケットのシーケンス番号はN+1となり、#1パケットのタイムスタンプ値はM−2t、#2パケットのタイムスタンプ値はM−tとなる。#4パケットのタイムスタンプ値は雑音区間長であるT時間分だけ経った時間、つまりM+Tとなる。
図7では、t時間分の音声符号化データを含む音声パケット#1、#2、#4、及び、背景雑音データを含む背景雑音パケット#3が、#1、#2、#3、#4の順で到着し、ジッタ吸収バッファ1に一時蓄積される。背景雑音パケットである#3のパケットにシーケンス番号N、タイムスタンプ値Mが付与されているとすると、#1パケットのシーケンス番号はN−2、#2パケットのシーケンス番号はN−1、#4パケットのシーケンス番号はN+1となり、#1パケットのタイムスタンプ値はM−2t、#2パケットのタイムスタンプ値はM−tとなる。#4パケットのタイムスタンプ値は雑音区間長であるT時間分だけ経った時間、つまりM+Tとなる。
背景雑音データ検出・挿入部12は、背景雑音パケットである#3パケットを検出するとそのシーケンス番号Nとタイムスタンプ値Mを記憶しておき、#3パケットをジッタ吸収バッファ1に出力すると共に、次パケットとなるシーケンス番号がN+1となるパケットの到着を待つ。背景雑音データ検出・挿入部12は、シーケンス番号N+1のパケット、つまり、#4パケットが到着すると、そのタイムスタンプ値M+Tを見い出し、#2パケットと#4パケットの間に存在する雑音区間の時間長Tを算出する。t時間間隔で存在する音声パケットと同様に背景雑音パケットもt時間間隔で存在するように、T時間分の雑音区間に相当するX個のt時間分の背景雑音パケットをジッタ吸収バッファ1内の#2パケットに続けて挿入し、そのあとに#4パケットをジッタ吸収バッファ1に出力する。こうする事により、ジッタ吸収バッファ1内には、t時間ごとに音声パケットまたは背景雑音パケットが存在するようになる。
バッファ残量監視部71は、ジッタ吸収バッファ1に一時蓄積されているパケットの量を監視し、バッファ残量としてある閾値Aよりも少ない場合には「小」、ある閾値Bよりも多い場合には「大」、ある閾値Aよりも多くある閾値Bよりも少ない場合には「中」として、制御部信号出力部72に通知する。
到着速度監視部73は、ジッタ吸収バッファ1に入力される(到着する)パケットの到着速度を監視し、ある閾値αよりも遅い速度で入力されている場合には「低速」、ある閾値βよりも速い速度で入力されている場合には「高速」、ある閾値αよりも速くある閾値βよりも遅い場合には「中速」として、制御部信号出力部72に通知する。
バッファ残量監視部71及び、到着速度監視部73からの通知を受けた制御信号出力部72は、ジッタ吸収バッファ1のバッファ残量が大きいほど背景雑音生成時間長を短縮、ジッタ吸収バッファ1に入力される(到着する)パケットの到着速度が高速なほど背景雑音生成時間長を短縮するように制御(指示)する時間長制御信号を出力するとともに、ジッタ吸収バッファ1のバッファ残量が大きいほど話速の再生を速く、ジッタ吸収バッファ1に入力される(到着する)パケットの到着速度が高速なほど話速の再生を速くするように制御(指示)する再生速度制御信号を出力する。
バッファ残量監視部71、及び、到着速度監視部73からの通知を受けた制御信号出力部72では、例えば、表2記載の制御内容に基づき、ジッタ吸収バッファ1及び話速変換部4に指示を出す。ジッタ吸収バッファ1に対しては、「延長」とする場合には例えば背景雑音パケットを1つ挿入との指示を出し、「更に延長」とする場合には例えば背景雑音パケットを3つ挿入との指示を出し、「短縮」とする場合には例えば背景雑音パケットを1つ削除との指示を出し、「更に短縮」の場合には例えば背景雑音パケットを3つ削除との指示を出し、「普通」とする場合には例えば挿入・削除無しとの指示を出す。話速変換部4に対しては、「ゆっくり」とする場合には例えば0.8倍との指示を出し、「更にゆっくり」とする場合には例えば0.6倍との指示を出し、「速く」とする場合には例えば1.2倍との指示を出し、「更に速く」の場合には例えば1.4倍との指示を出し、「普通」とする場合には例えば1.0倍との指示を出す。
以上のように、本実施の形態によれば、ジッタ吸収バッファ残量及び到着速度に基づいて、制御部7からジッタ吸収バッファ1及び話速変換部4に連携した指示を出す。すなわち、ジッタ吸収バッファ1におけるパケットの蓄積状況に基づいて、背景雑音生成部2で生成される背景雑音の時間長を制御するとともに、話速変換部4で変換される再生速度を制御することにより、送信間隔が異なる背景雑音(無音区間)と音声(有音区間)とを別々に制御するので、必ずしも一定間隔でパケットが送出されない無音圧縮適用時でも通話品質劣化を防止することができる。
背景雑音データを含むことを検出した場合に、1パケット当たりの時間長が音声符号化データを含むパケットの1パケット当たりの時間長と等しいパケットを背景雑音データの無音・雑音区間の時間長に相当する個数分、ジッタ吸収バッファ1に挿入することにより、背景雑音生成部2で生成される背景雑音の時間長を制御することで、ジッタ吸収バッファ1に蓄積されたパケットの個数で制御できるので背景雑音生成部3の処理が簡易化できる。
また、パケットの受信が一時的に滞り、その後、滞りが解消されて一気に多量のパケット到着するような場合でも、到着速度も監視することでバッファオーバーフローを未然に防ぐことができる適切なジッタバッファ制御が実現できる。
ジッタ吸収バッファ残量を閾値A、閾値Bに基づいて「小」「中」「大」、到着速度を閾値α、閾値βに基づいて「低速」「中速」「高速」の3つに分けて説明したが、それ以上に分けて制御することで、更に細かな制御が可能となる。
また、ジッタ吸収バッファ残量及び到着速度が変化することに伴って制御も変化するが、残量及び速度の変化方向によって「小」「中」「大」、「低速」「中速」「高速」を区別する閾値に異なる閾値を設定ことで、閾値近辺での残量の増減で制御が頻繁に変化することを回避でき、より良い通話品質を提供できる。例えば、ジッタ吸収バッファ残量が増える方向に変化する変化方向にある場合の閾値C、閾値Dと、減る方向に変化する変化方向にある場合の閾値E、閾値Fを設定する。また、到着速度が速くなる方向に変化する変化方向にある場合の閾値γ、閾値δと、遅くなる方向に変化する変化方向にある場合の閾値ε、閾値ζを設定する。このようにすることで、より良い通話品質を提供できる。
また、本実施の形態では、パケット化周期を基に説明したが、1つのパケットに音声符号化フレームが複数含まれる場合には、その音声符号化フレームの時間長を基に制御を行うことでも良い。
また、背景雑音データ検出・挿入部12の動作として、背景雑音パケットである#3パケットが到着後、音声パケットである#4パケットが到着するまでの間、t時間経過ごとに背景雑音パケットをジッタ吸収バッファ1内に順に挿入することでも良い。
また、背景雑音生成部2において、背景雑音生成時間長を短縮する場合、ある一定の時間長よりも短くならないようにすることで、より良い通話品質を提供できる。
また、バッファ残量監視部71及び到着速度監視部73を備えた制御部7について説明したが、到着速度監視部73を削除し、バッファ残量監視部71の監視結果で時間長制御信号と再生速度制御信号とを出力するように構成してもよい。
また、出力バッファ5、出力バッファ監視部6を備えた場合について説明したが、出力バッファ5及び出力バッファ監視部6を削除してもよい。例えば、ジッタ吸収バッファ1は、所定の時間間隔の出力タイミングでパケットを出力するように構成してもよい。また例えば、ジッタ吸収バッファにおけるパケットの蓄積状況に基づいて、制御部7の制御に応じた出力タイミングでパケットを出力するように構成してもよい。
1 ジッタ吸収バッファ、2 背景雑音生成部、3 音声復号部、4 話速変換部、5 出力バッファ、6 出力バッファ監視部、7 制御部、71 バッファ残量監視部、72 制御信号出力部、73 到着速度監視部、8 高精度無音圧縮部、9 音声検出部、10 音声符号化部、11 無音圧縮制御部、12 背景雑音データ検出・挿入部、20 音声復号装置、21 音声符号化装置。
Claims (7)
- 受信されたパケットを一時蓄積し、所定の出力タイミングで出力するジッタ吸収バッファと、
上記ジッタ吸収バッファから出力されたパケットに含まれる背景雑音データに基づいて背景雑音の音声データを生成する背景雑音生成部と、
上記ジッタ吸収バッファから出力されたパケットに含まれる音声符号化データを復号して音声の音声データを生成する音声復号部と、
上記音声復号部で復号された上記音声データの再生速度を変換する話速変換を行う話速変換部と、
上記ジッタ吸収バッファにおけるパケットの蓄積状況に基づいて、上記背景雑音生成部で生成される上記背景雑音の時間長を制御するとともに、上記話速変換部で変換される上記再生速度を制御する制御部と
を備えたことを特徴とする音声復号装置。 - 上記制御部は、
上記蓄積状況として、上記ジッタ吸収バッファの残量を監視するバッファ残量監視部と、
上記バッファ残量監視部で監視された上記残量に基づいて、上記背景雑音生成部で生成される上記背景雑音の時間長を制御する時間長制御信号と、上記話速変換部で変換される上記再生速度を制御する再生速度制御信号とを出力する制御信号出力部と
を備えたことを特徴とする請求項1に記載の音声復号装置。 - 上記制御部は、
上記蓄積状況として、上記受信されたパケットが上記ジッタ吸収バッファに到着する到着速度を監視する到着速度監視部と、
上記到着速度監視部で監視された上記到着速度に基づいて、上記背景雑音生成部で生成される上記背景雑音の時間長を制御する時間長制御信号と、上記話速変換部で変換される上記再生速度を制御する再生速度制御信号とを出力する制御信号出力部と
を備えたことを特徴とする請求項1に記載の音声復号装置。 - 上記受信されたパケットを分析し、当該パケットにに含まれる音声符号化データから無音・雑音区間が検出された場合には上記パケットを背景雑音データを含む背景雑音パケットに置き換え、上記無音・雑音区間が検出されなかった場合には上記パケットの置き換えをせずに出力する高精度無音圧縮部を備え、
上記ジッタ吸収バッファは、上記高精度無音圧縮部から出力されたパケットを一時蓄積することを特徴とする請求項1に記載の音声復号装置。 - ユーザの発話の有無を検出する音声検出部を備え、
上記ジッタ吸収バッファは、上記音声検出部でユーザの発話が有ることが検出された場合に、初期状態に戻ることを特徴とする請求項1に記載の音声復号装置。 - 上記受信されたパケットが背景雑音データを含むか否かを検出し、背景雑音データを含むことを検出した場合に、1パケット当たりの時間長が音声符号化データを含むパケットの1パケット当たりの時間長と等しいパケットを上記背景雑音データの無音・雑音区間の時間長に相当する個数分、上記ジッタ吸収バッファに挿入する背景雑音データ検出・挿入部を備えたことを特徴とする音声復号装置。
- 上記背景雑音の音声データと上記音声の音声データとを一時蓄積する出力バッファと、
上記出力バッファに蓄積された上記音声デーの蓄積量を監視し、当該蓄積量に応じて上記ジッタ吸収バッファに対して上記一時蓄積されたパケットの出力タイミングを指示する出力バッファ監視部とを備え、
上記ジッタ吸収バッファは、上記出力バッファ監視部からの指示に基づいて上記一時蓄積されたパケットを出力することを特徴とする請求項1に記載の音声復号装置。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013038937A JP2014167525A (ja) | 2013-02-28 | 2013-02-28 | 音声復号装置 |
TW102139020A TW201434039A (zh) | 2013-02-28 | 2013-10-29 | 聲音解碼裝置 |
KR1020140015345A KR101516113B1 (ko) | 2013-02-28 | 2014-02-11 | 음성 복호 장치 |
CN201410058259.1A CN104022967A (zh) | 2013-02-28 | 2014-02-20 | 音频解码装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013038937A JP2014167525A (ja) | 2013-02-28 | 2013-02-28 | 音声復号装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2014167525A true JP2014167525A (ja) | 2014-09-11 |
Family
ID=51439541
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013038937A Pending JP2014167525A (ja) | 2013-02-28 | 2013-02-28 | 音声復号装置 |
Country Status (4)
Country | Link |
---|---|
JP (1) | JP2014167525A (ja) |
KR (1) | KR101516113B1 (ja) |
CN (1) | CN104022967A (ja) |
TW (1) | TW201434039A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017123583A (ja) * | 2016-01-07 | 2017-07-13 | ブラザー工業株式会社 | 遠隔会議方法及びプログラム |
CN110832558A (zh) * | 2017-08-02 | 2020-02-21 | 欧姆龙株式会社 | 传感器管理单元、感测数据流通系统、感测数据评价方法和感测数据评价程序 |
WO2021166158A1 (ja) * | 2020-02-20 | 2021-08-26 | 三菱電機株式会社 | 話速変換装置、話速変換方法、プログラム及び記録媒体 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108924665B (zh) * | 2018-05-30 | 2020-11-20 | 深圳市捷视飞通科技股份有限公司 | 降低视频播放延时的方法、装置、计算机设备和存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7505912B2 (en) * | 2002-09-30 | 2009-03-17 | Sanyo Electric Co., Ltd. | Network telephone set and audio decoding device |
CN1926824B (zh) * | 2004-05-26 | 2011-07-13 | 日本电信电话株式会社 | 声音分组再现方法、声音分组再现装置 |
US8102872B2 (en) * | 2005-02-01 | 2012-01-24 | Qualcomm Incorporated | Method for discontinuous transmission and accurate reproduction of background noise information |
KR102058714B1 (ko) | 2011-10-20 | 2019-12-23 | 엘지전자 주식회사 | 지터 버퍼 관리 방법 및 이를 이용하는 지터 버퍼 |
-
2013
- 2013-02-28 JP JP2013038937A patent/JP2014167525A/ja active Pending
- 2013-10-29 TW TW102139020A patent/TW201434039A/zh unknown
-
2014
- 2014-02-11 KR KR1020140015345A patent/KR101516113B1/ko not_active IP Right Cessation
- 2014-02-20 CN CN201410058259.1A patent/CN104022967A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017123583A (ja) * | 2016-01-07 | 2017-07-13 | ブラザー工業株式会社 | 遠隔会議方法及びプログラム |
CN110832558A (zh) * | 2017-08-02 | 2020-02-21 | 欧姆龙株式会社 | 传感器管理单元、感测数据流通系统、感测数据评价方法和感测数据评价程序 |
CN110832558B (zh) * | 2017-08-02 | 2022-04-26 | 欧姆龙株式会社 | 传感器管理单元、感测数据流通系统、感测数据评价方法和存储介质 |
WO2021166158A1 (ja) * | 2020-02-20 | 2021-08-26 | 三菱電機株式会社 | 話速変換装置、話速変換方法、プログラム及び記録媒体 |
JPWO2021166158A1 (ja) * | 2020-02-20 | 2021-08-26 | ||
JP7019117B2 (ja) | 2020-02-20 | 2022-02-14 | 三菱電機株式会社 | 話速変換装置、話速変換方法、プログラム及び記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
CN104022967A (zh) | 2014-09-03 |
TW201434039A (zh) | 2014-09-01 |
KR101516113B1 (ko) | 2015-05-04 |
KR20140108119A (ko) | 2014-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4146489B2 (ja) | 音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体 | |
EP2055055B1 (en) | Adjustment of a jitter memory | |
US7630409B2 (en) | Method and apparatus for improved play-out packet control algorithm | |
US20070206645A1 (en) | Method of dynamically adapting the size of a jitter buffer | |
US20070263672A1 (en) | Adaptive jitter management control in decoder | |
US11869516B2 (en) | Voice processing method and apparatus, computer- readable storage medium, and computer device | |
US20140172420A1 (en) | Audio or voice signal processor | |
KR20100003729A (ko) | 통신 시스템에서 데이터 전송 방법 | |
KR101516113B1 (ko) | 음성 복호 장치 | |
KR101002405B1 (ko) | 오디오 신호의 타임-스케일링 제어 | |
US8369310B2 (en) | Method for reliable detection of the status of an RTP packet stream | |
EP1584042A2 (en) | Resynchronizing drifted data streams with a minimum of noticeable artifacts | |
WO2007109960A1 (fr) | Procédé, système et détecteur de signal de données permettant de réaliser un service de données | |
JP6031752B2 (ja) | 音声通信装置及びプログラム | |
JP4135621B2 (ja) | 受信装置および方法 | |
US20070186146A1 (en) | Time-scaling an audio signal | |
JP5664291B2 (ja) | 音声品質観測装置、方法及びプログラム | |
JP4869882B2 (ja) | 音声復号装置 | |
JP2008022432A (ja) | 信号送受信装置および通信同期制御方法 | |
KR101963852B1 (ko) | 지터 버퍼 관리 장치 및 방법 | |
CN116095395A (zh) | 一种调整缓冲区长度的方法、装置、电子设备和存储介质 | |
JP6154592B2 (ja) | 圧縮装置、伸張装置、圧縮伸張装置、圧縮方法、圧縮制御プログラム、および音声データ構造 | |
JP2005348347A (ja) | 映像音声復号方法、映像音声復号装置、映像音声復号プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2005303531A (ja) | 音声データ受信装置および音声データ送信装置 | |
JP2009111838A (ja) | 音声データ伝送装置 |