JP2000307654A - Voice packet transmitting system - Google Patents

Voice packet transmitting system

Info

Publication number
JP2000307654A
JP2000307654A JP11595799A JP11595799A JP2000307654A JP 2000307654 A JP2000307654 A JP 2000307654A JP 11595799 A JP11595799 A JP 11595799A JP 11595799 A JP11595799 A JP 11595799A JP 2000307654 A JP2000307654 A JP 2000307654A
Authority
JP
Japan
Prior art keywords
frame
voice
audio
silence
packet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11595799A
Other languages
Japanese (ja)
Inventor
Toru Kikuchi
徹 菊地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP11595799A priority Critical patent/JP2000307654A/en
Publication of JP2000307654A publication Critical patent/JP2000307654A/en
Pending legal-status Critical Current

Links

Landscapes

  • Telephonic Communication Services (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

PROBLEM TO BE SOLVED: To correct the discontinuity of the levels of a silence interval and a sound interval without damaging the effective use of a transmission line in silence control by inserting an interpolating frame generated by an interpolating frame generating means at the boundary between the sound interval and the silence interval of a voice frame. SOLUTION: An interpolating frame generated by an interpolating frame generating means is inserted to the boundary between the sound interval and the silence interval of a voice frame based on the judging result of a silence boundary judging means for judging the boundary between the sound interval and the silence interval of a received voice frame. In this system, a voice frame string stored in a voice frame buffer 303 is subjected to silence control detection by a silence control frame detecting part 304, and a background noise frame generated by a background noise frame generating part 111 and the interpolating frame interpolated by a voice frame interpolating part 305 are inserted and the resultant string is converted to the voice frame string. Subsequently, the string is sent to a voice extending part 108 to restore a voice signal.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、パケット網を介し
て、音声信号を伝送する音声パケット伝送システムに係
り、特に、無音状態ではパケットの伝送を行なわない無
音制御を行なう音声パケット伝送システムに関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice packet transmission system for transmitting a voice signal via a packet network, and more particularly to a voice packet transmission system for performing a silent control that does not transmit a packet in a silent state.

【0002】[0002]

【従来の技術】従来、パケット網を介して音声信号を伝
送し、無音状態ではパケットの伝送を行なわない無音制
御を行なう音声パケット伝送システムは、送信側で有音
区間/無音区間の検出を行い、無音区間ではパケットの
送出は行なわず、受信側では背景雑音を再生する等し、
伝送路の有効利用を図っている。
2. Description of the Related Art Conventionally, a voice packet transmission system for transmitting a voice signal via a packet network and performing no-speech control without transmitting a packet in a no-sound state, detects a voiced section / silent section on the transmitting side. , The packet is not transmitted in the silent section, the background noise is reproduced on the receiving side, and so on.
The transmission line is effectively used.

【0003】しかし、無音区間と有音区間との境界にお
ける音圧レベルが、入力側では連続的に変化するところ
が、出力側では、不連続に変化するので、会話の始まり
や終わりで途切れのような違和感を感じるという問題が
ある。
However, the sound pressure level at the boundary between a silent section and a sound section changes continuously on the input side, but changes discontinuously on the output side. There is a problem of feeling uncomfortable.

【0004】無音区間と有音区間との境界の途切れや雑
音に対して、特開平5−292121号公報に開示され
ているように、差分符号化を初期化する方法、特開平9
−116571号公報に開示されるように、有音区間の
先頭パケットとして予測係数を出力し、符号化器の状態
を一致させる方法、音声を遅延させる有音区間の前方の
無音区間を有音区間として音声フレーム化し、伝送する
方法が提案されている。
[0004] As disclosed in Japanese Patent Application Laid-Open No. 5-292121, a method for initializing differential encoding for a break or noise at a boundary between a silent section and a voiced section is disclosed.
As disclosed in JP-A-116571, a method of outputting a prediction coefficient as the first packet of a voiced section and matching the states of the encoders, a silent section in front of a voiced section for delaying voice is described as a voiced section. A method of transmitting a voice frame and transmitting the voice frame has been proposed.

【0005】[0005]

【発明が解決しようとする課題】しかし、特開平5−2
92121号公報、特開平9−116571号公報に記
載されている手法は、無音パケット廃棄による復号化器
の誤差を補正する手段であり、上記従来例では、無音制
御による音圧レベルの不連続性を補正することはできな
いという問題がある。
However, Japanese Patent Laid-Open Publication No.
The techniques described in JP-A-92121 and JP-A-9-116571 are means for correcting an error of a decoder due to silent packet discarding. Cannot be corrected.

【0006】また、有音区間の前方の無音区間から有音
として取り扱う手法は、無音圧縮による伝送路の有効利
用上マイナスとなる。さらに、擬似的に作り出された背
景雑音と、実際に伝送された無音区間の音声フレームと
の不連続性によって、無音制御の違和感が残るという問
題がある。
[0006] The method of treating as silence from a silence section ahead of a speech section is negative in terms of effective use of a transmission path by silence compression. Further, there is a problem that a sense of incongruity in silence control remains due to the discontinuity between the pseudo background noise and the speech frame of the silence section actually transmitted.

【0007】本発明は、無音制御において、伝送路の有
効利用を損なうことなく、無音区間と有音区間とのレベ
ルの不連続性を補正し、会話の始まりや終わりに違和感
を感じない音声パケット伝送システムを提供することを
目的とするものである。
According to the present invention, in a silent control, a voice packet which does not cause a sense of incongruity at the beginning or end of a conversation by correcting the level discontinuity between a silent section and a sound section without impairing the effective use of a transmission path. It is intended to provide a transmission system.

【0008】[0008]

【課題を解決するための手段】本発明は、音声信号をデ
ジタル化された音声フレームヘ変換する音声符号化手段
と、上記音声フレームを音声信号へ変換する音声復号化
手段と、音声フレームをパケット化して送受信するパケ
ット送受信手段と、音声信号に基づき音声の有無を検出
する無音検出手段と、上記無音検出手段の検出結果に基
づいて上記パケット送受信手段による音声フレームの送
受信を制御する無音制御手段と、受信音声フレームの有
音区間と無音区間との境界を判定する無音境界判定手段
と、音声フレーム列の間を補う少なくとも1つの補間フ
レームを生成する補間フレーム生成手段とによって構成
され、上記無音境界判定手段の判定結果に基づき、音声
フレームの有音区間と無音区間との境界に、上記補間フ
レーム生成手段によって生成された少なくとも1つの補
間フレームを挿入するよう動作するものである。
SUMMARY OF THE INVENTION The present invention provides a voice encoding means for converting a voice signal into a digitized voice frame, a voice decoding means for converting the voice frame into a voice signal, and packetizing the voice frame. Packet transmitting and receiving means for transmitting and receiving, silence detecting means for detecting the presence or absence of voice based on the audio signal, silence control means for controlling the transmission and reception of voice frames by the packet transmitting and receiving means based on the detection result of the silence detecting means, A silent boundary determining means for determining a boundary between a voiced section and a silent section of the received voice frame; and an interpolation frame generating means for generating at least one interpolation frame for compensating for a gap between voice frames. Based on the determination result of the means, the interpolation frame generating means is provided at the boundary between the sound section and the silent section of the voice frame. It is intended to operate to insert the at least one interpolated frame generated me.

【0009】[0009]

【発明の実施の形態および実施例】[第1の実施例]図
1は、本発明の一実施例であるパケット伝送システムの
概略を示すブロック図である。
DESCRIPTION OF THE PREFERRED EMBODIMENTS [First Embodiment] FIG. 1 is a block diagram schematically showing a packet transmission system according to one embodiment of the present invention.

【0010】上記実施例は、アナログ音声信号をマイ
ク、電話回線等から入力する音声入力部101と、アナ
ログ音声信号をPCMデジタルの音声信号へ変換するA
/D変換部102と、PCMデジタル音声信号を圧縮符
号化した音声フレームヘ変換する音声圧縮部103と、
音声フレームをパケット網で転送可能なパケットに組み
立て等を行なうパケット送信部104と、音声信号の無
音区間を検出する無音検出部105と、パケット網12
0に対してパケットの送受信を行なうパケット送受信イ
ンタフェース106と、受信パケットから音声フレーム
の分解等を行なうパケット受信部107と、背景雑音フ
レームの生成を行なう背景雑音フレーム生成部111
と、圧縮されている音声フレームを伸張し、PCMデジ
タルの音声信号へ変換する音声伸張部108と、PCM
デジタル音声信号をアナログ音声信号へ変換するD/A
変換部109と、アナログ音声信号をスピーカ、電話回
線等へ出力する音声出力部110とを有する。
In the above embodiment, an audio input unit 101 for inputting an analog audio signal from a microphone, a telephone line or the like, and an A for converting an analog audio signal into a PCM digital audio signal.
A / D converter 102, an audio compressor 103 for converting a PCM digital audio signal into an audio frame obtained by compression encoding,
A packet transmission unit 104 for assembling voice frames into packets that can be transferred on a packet network; a silence detection unit 105 for detecting a silent section of a voice signal;
0, a packet transmitting / receiving interface 106 for transmitting / receiving packets, a packet receiving unit 107 for decomposing a voice frame from a received packet, and a background noise frame generating unit 111 for generating a background noise frame.
A voice decompression unit 108 for decompressing a compressed voice frame and converting it into a PCM digital voice signal;
D / A for converting digital audio signals to analog audio signals
It has a conversion unit 109 and an audio output unit 110 that outputs an analog audio signal to a speaker, a telephone line, or the like.

【0011】図2は、パケット送信部104の構成を示
すブロック図である。
FIG. 2 is a block diagram showing the configuration of the packet transmission unit 104.

【0012】パケット送信部104は、音声圧縮部によ
って変換された音声フレームを一時貯える音声フレーム
バッファ201と、無音検出部105からの検出結果に
基づき、無音制御を行なうフレームを生成する無音制御
フレーム生成部204と、音声フレームバッファからパ
ケット化に必要な音声フレームを取得し、タイムスタン
プ、シケーンス番号、宛先アドレス等のヘッダ情報等を
付加しパケットを組み立てるパケット組立部202と、
組み立てたパケットをパケットインタフェース(I/
F)106へ引き渡すパケット送信バッファ203とを
有する。
[0012] The packet transmission unit 104 includes an audio frame buffer 201 for temporarily storing the audio frame converted by the audio compression unit, and a silence control frame generation unit for generating a frame for performing silence control based on the detection result from the silence detection unit 105. A packet assembler 202 that acquires a voice frame necessary for packetization from a voice frame buffer, adds header information such as a time stamp, a sequence number, and a destination address to assemble the packet;
The assembled packet is sent to the packet interface (I /
And F) a packet transmission buffer 203 to be transferred to 106.

【0013】図3は、パケット受信部107の構成を示
すブロック図である。
FIG. 3 is a block diagram showing the configuration of the packet receiving unit 107.

【0014】パケット受信部107は、パケットインタ
フェース106からの受信パケットを格納し、ヘッダ情
報に基づき、パケットの並べ替えや処理タイミングを制
御するパケット受信バッファ301と、パケットのヘッ
ダ情報を取り除き音声フレームを切り出すパケット分解
部302と、音声フレームを格納する音声フレームバッ
ファ303は、無音制御フレームを検出し、背景雑音フ
レーム生成部111から背景雑音フレームを取得し、音
声フレームバッファ303へ格納する無音制御フレーム
検出部304と、音声フレームバッファに格納された音
声フレームの並びから、任意に位置する音声フレームを
予測算出する音声フレーム補間部305とを有する。
A packet receiving unit 107 stores a packet received from the packet interface 106, and based on the header information, a packet receiving buffer 301 for controlling packet rearrangement and processing timing, and removes the header information of the packet to remove the audio frame. The packet decomposing unit 302 that cuts out the audio frame and the audio frame buffer 303 that stores the audio frame detect a silence control frame, acquire the background noise frame from the background noise frame generation unit 111, and store the silence control frame in the audio frame buffer 303. And an audio frame interpolation unit 305 for predicting and calculating an arbitrarily located audio frame from the arrangement of audio frames stored in the audio frame buffer.

【0015】次に、上記実施例の動作について説明す
る。
Next, the operation of the above embodiment will be described.

【0016】図4は、音声信号401を示す図である。FIG. 4 is a diagram showing the audio signal 401.

【0017】音声信号401は、図4に示すように、音
声圧縮部103によって音声フレーム列402へ変換さ
れる。音声の圧縮方式としては、ITU−T勧告G.7
28、G.729、G.723.1等で規定されるハイ
ブリッド方式等が考えられる。
The audio signal 401 is converted into an audio frame sequence 402 by the audio compression section 103 as shown in FIG. As an audio compression method, ITU-T Recommendation G. 7
28, G. 729, G.C. For example, a hybrid system specified in 723.1 and the like can be considered.

【0018】図6は、上記実施例において、有音区間に
おける符号化処理周期を示すフローチャートである。
FIG. 6 is a flowchart showing an encoding processing cycle in a sound section in the above embodiment.

【0019】図6のフローチャートにおいて、音声圧縮
部103によって音声圧縮処理(S601)された音声
フレーム、たとえば音声フレーム列402の音声フレー
ムF3は、無音検出部105による無音検出がされない
ので(S602、No)、音声フレームF3は、音声フ
レームバッファ201へ格納される(S603)。
In the flow chart of FIG. 6, since the audio frame subjected to the audio compression processing (S601) by the audio compression unit 103, for example, the audio frame F3 of the audio frame sequence 402, is not detected by the audio absence detection unit 105, no audio is detected (S602, No). ), The audio frame F3 is stored in the audio frame buffer 201 (S603).

【0020】ここで、たとえば、音声フレーム列402
における音声フレームF8のタイミングのように、入力
音声信号401が、基準値L1を下回り、無音へ変化し
たと検出された場合(S602、Yes)、音声フレー
ムF8は廃棄され(S611)、無音制御フレーム生成
部204によって、有音区間から無音区間への変化を示
す無音制御オンフレームFonが、音声フレームバッフ
ァ201へ格納され(S612)、無音区間へ遷移する
(S613)。
Here, for example, an audio frame sequence 402
When the input audio signal 401 is detected to be lower than the reference value L1 and changed to silence as in the timing of the audio frame F8 (S602, Yes), the audio frame F8 is discarded (S611). The generation unit 204 stores a silent control on-frame Fon indicating a change from a sound section to a silent section in the audio frame buffer 201 (S612), and transits to a silent section (S613).

【0021】図7は、上記実施例において、無音区間に
おける符号化周期処理を示すフローチャートである。
FIG. 7 is a flowchart showing a coding cycle process in a silent section in the above embodiment.

【0022】まず、音声圧縮部103によって音声圧縮
処理された(S701)音声フレーム、たとえば音声フ
レーム列402の音声フレームF12は、無音検出部1
05による有音検出がされないので(S702、N
o)、音声フレームバッファ201へは格納されず、廃
棄される(S703)。
First, an audio frame subjected to audio compression processing by the audio compression unit 103 (S701), for example, an audio frame F12 of the audio frame sequence 402,
Since no sound is detected by the method No. 05 (S702, N
o), it is not stored in the audio frame buffer 201 and is discarded (S703).

【0023】ここで、たとえば、音声フレーム列402
における音声フレームF18のタイミングのように、入
力音声信号401が基準値L1を越え、有音区間へ変化
したと検出された場合(S702、Yes)、無音制御
フレーム生成部204によって、無音区間から有音区間
への変化を示す無音制御オフフレームFoffが、音声
フレームバッファ201へ格納され(S711)、引き
続き音声フレームF18が、音声フレームバッファ20
1へ格納され(S712)、有音区間へ遷移する(S7
13)。
Here, for example, the voice frame sequence 402
When it is detected that the input audio signal 401 has exceeded the reference value L1 and has changed to a voiced section (S702, Yes), as in the timing of the voice frame F18 in (S702, Yes), the voiceless The silence control off-frame Foff indicating the change to the sound section is stored in the audio frame buffer 201 (S711), and the audio frame F18 is continuously stored in the audio frame buffer 20.
1 (S712), and transits to a sound section (S7).
13).

【0024】図4に示され、音声フレームバッファ20
1へ格納された音声フレームと無音制御フレームとの列
403は、パケット組立部202によって、パケット列
404へ組み立てられ、パケット送信バッファ203へ
転送される。
The audio frame buffer 20 shown in FIG.
The sequence 403 of voice frames and silence control frames stored in No. 1 is assembled into a packet sequence 404 by the packet assembling unit 202 and transferred to the packet transmission buffer 203.

【0025】図8は、上記実施例におけるパケット組立
周期処理を示すフローチャートである。
FIG. 8 is a flowchart showing the packet assembling cycle processing in the above embodiment.

【0026】まず、音声フレームバッファ201に音声
フレームが存在する場合(S801、Yes)、パケッ
ト組立に必要な音声フレームを、音声フレームバッファ
201から取得し(S802)、この取得された音声フ
レームを合成し(S803)、ヘッダ情報を付加し(S
804)、パケット送信バッファ203へ格納する(S
805)。音声フレームバッファ201に音声フレーム
が存在しない場合(S801、No)、処理を終了す
る。
First, when an audio frame exists in the audio frame buffer 201 (S801, Yes), an audio frame necessary for packet assembly is obtained from the audio frame buffer 201 (S802), and the obtained audio frame is synthesized. (S803), and adds header information (S803).
804) and store it in the packet transmission buffer 203 (S
805). If no audio frame exists in the audio frame buffer 201 (S801, No), the process ends.

【0027】ここで、図4には、合成するフレーム数が
1、すなわち音声フレームと音声パケットが1対1であ
る場合を示してある。
FIG. 4 shows a case where the number of frames to be synthesized is 1, that is, the audio frame and the audio packet are in a one-to-one correspondence.

【0028】図9は、上記実施例において、パケット転
送周期処理を示すフローチャートである。
FIG. 9 is a flowchart showing the packet transfer cycle processing in the above embodiment.

【0029】図10は、上記実施例における受信処理を
示すフローチャートである。
FIG. 10 is a flowchart showing the receiving process in the above embodiment.

【0030】まず、パケット送信バッファ203に格納
されたパケットは、パケット送信バッファから取り出さ
れ(S901)、パケットが存在する場合(S902、
Yes)、パケットインタフェース(I/F)106を
介して、パケット網120へ送信される(S903)。
パケットが存在しない場合(S902、No)、処理を
終了する。パケット網120へ送出されたパケットは、
ヘッダ情報を基に転送され、パケットI/F106を介
して受信されると、図10に示す受信処理において、パ
ケット受信バッファ301へ格納される(S100
1)。
First, the packet stored in the packet transmission buffer 203 is taken out of the packet transmission buffer (S901), and if a packet exists (S902,
Yes), the packet is transmitted to the packet network 120 via the packet interface (I / F) 106 (S903).
If there is no packet (S902, No), the process ends. The packet transmitted to the packet network 120 is
When the data is transferred based on the header information and received via the packet I / F 106, it is stored in the packet reception buffer 301 in the reception processing shown in FIG. 10 (S100).
1).

【0031】図5に示すように、パケット受信バッファ
301に格納された受信パケット列501は、パケット
分解部302によって、受信フレーム列502へ分解さ
れ、音声フレームバッファ303へ格納される。
As shown in FIG. 5, the received packet sequence 501 stored in the packet receiving buffer 301 is decomposed into a received frame sequence 502 by the packet decomposing unit 302 and stored in the voice frame buffer 303.

【0032】図11は、上記実施例において、パケット
分解周期を示すフローチャートである。
FIG. 11 is a flowchart showing a packet disassembly cycle in the above embodiment.

【0033】まず、パケットヘッダのシーケンス番号情
報を基にして、パケット受信バッファ301内の受信パ
ケット列501の到着順序の逆転等が補正される(S1
101)。次に、パケットヘッダのタイムスタンプ情報
を基にして、パケット受信バッファ301に分解処理を
行なうべきパケットが存在するか否かを判断し(S11
02)、処理タイミングのパケットが存在する場合(S
1102、Yes)、受信パケットバッファ301から
上記パケットを取り出し(S1103)、ヘッダが除去
され(S1104)、フレームが分解され(S110
5)、音声フレームバッファ303へ、音声フレームが
格納される(S1106)。分解処理タイミングのパケ
ットが存在しない場合(S1102、No)、そのまま
処理を終了する。
First, based on the sequence number information of the packet header, the inversion of the order of arrival of the received packet sequence 501 in the packet receiving buffer 301 is corrected (S1).
101). Next, based on the time stamp information of the packet header, it is determined whether or not there is a packet to be decomposed in the packet reception buffer 301 (S11).
02), when there is a packet at the processing timing (S
1102, Yes), the packet is extracted from the reception packet buffer 301 (S1103), the header is removed (S1104), and the frame is decomposed (S110).
5) The audio frame is stored in the audio frame buffer 303 (S1106). If there is no packet at the disassembly processing timing (S1102, No), the processing ends as it is.

【0034】図5に示すように、音声フレームバッファ
303へ格納された音声フレーム列502は、無音制御
フレーム検出部304によって、無音制御検出が行わ
れ、背景雑音フレーム生成部111によって生成された
背景雑音フレームFs、音声フレーム補間部305によ
って補間された補間フレームFiが挿入され、音声フレ
ーム列503へ変換され、その後、音声伸張部108へ
送られ、音声信号504が復元される。
As shown in FIG. 5, the speech frame sequence 502 stored in the speech frame buffer 303 is subjected to silence control detection by the silence control frame detection unit 304, and the background generated by the background noise frame generation unit 111. The noise frame Fs and the interpolated frame Fi interpolated by the audio frame interpolation unit 305 are inserted, converted into an audio frame sequence 503, and then sent to the audio expansion unit 108 to restore the audio signal 504.

【0035】図12は、上記実施例において、有音区
間、たとえば音声フレーム列502の音声フレームF6
のタイミングの復号化周期処理を示すフローチャートで
ある。
FIG. 12 shows a speech section, for example, the speech frame F6 of the speech frame sequence 502 in the above embodiment.
9 is a flowchart showing a decoding cycle process at the timing of FIG.

【0036】まず、音声フレームと背景雑音フレームと
の変化によって、無音区間と有音区間との境界であるか
否かが判断される(S1201)。本実施例では、後述
する補間フレームによる置き換え処理を1フレームに関
して行なうとすると、境界は有音フレームと2つの背景
雑音フレームとの連続する3フレームで判断されるの
で、音声フレームF6のタイミングにおいて、フレーム
F4〜F6は、全て有音フレームであり、境界ではない
と判断される(S1201、No)。
First, it is determined whether or not a boundary between a silent section and a sound section is present based on a change between a speech frame and a background noise frame (S1201). In the present embodiment, if replacement processing by an interpolation frame described later is performed for one frame, the boundary is determined by three consecutive frames of a voiced frame and two background noise frames. The frames F4 to F6 are all sound frames, and are determined not to be boundaries (S1201, No).

【0037】次に、無音制御御フレームFonであるか
否かが判断され(S1202)、Fonではないので
(S1202、No)、音声フレームバッファ303の
最も先頭の音声フレームが取り出され(S1203)、
音声伸張部108へ転送される(S1204)。
Next, it is determined whether or not the frame is the silent control control frame Fon (S1202). Since the frame is not Fon (S1202, No), the first audio frame in the audio frame buffer 303 is extracted (S1203).
The data is transferred to the audio decompression unit 108 (S1204).

【0038】ここで、音声フレームバッファ303に
は、無音境界検出に必要な音声フレームが最低限格納さ
れているので、音声伸張部108へ転送される音声フレ
ームは、フレームF4以前のものとなる。音声フレーム
列502における有音区間F7に引き続く無音制御オン
フレームFonのタイミングにおける復号化周期処理に
おいては、無音制御オンフレームが認識され(S120
2、Yes)、無音区間へ状態が遷移される(S121
1)。
Here, since the audio frame buffer 303 stores at least the audio frames necessary for the silent boundary detection, the audio frames transferred to the audio decompression unit 108 are those before the frame F4. In the decoding cycle processing at the timing of the silent control on-frame Fon subsequent to the sound interval F7 in the voice frame sequence 502, the silent control on-frame is recognized (S120).
2, Yes), the state transits to the silent section (S121).
1).

【0039】また、有音区間F2、F18のタイミング
における復号化周期処理では、無音区間と有音区間との
境界であると判断され(S1201、Yes)、有音区
間と無音区間とに位置する背景雑音フレームが、それぞ
れ、補間フレームFi0、Fi2へ置換される(S12
11)。補間フレームの生成は、たとえば、ハイブリッ
ド符号化方式の場合、フィルタ係数、雑音符号帳インデ
ックスは、有音区間のものを用い、ゲイン係数は、背景
雑音ゲインとの中間値を取る手法等が考えられる。
In the decoding cycle processing at the timings of the sound sections F2 and F18, it is determined that the boundary is between the sound section and the sound section (S1201, Yes), and the sound is located in the sound section and the sound section. The background noise frames are replaced with interpolation frames Fi0 and Fi2, respectively (S12).
11). For example, in the case of the hybrid coding method, a method of generating an interpolation frame using a filter coefficient and a noise codebook index in a sound section is used, and a gain coefficient is set to an intermediate value with a background noise gain. .

【0040】図13は、上記実施例において、無音区間
における復号化周期処理を示すフローチャートである。
FIG. 13 is a flowchart showing a decoding cycle process in a silent section in the above embodiment.

【0041】まず、有音区間と無音区間との境界と判断
されず(S1301、No)、無音制御オフフレームF
offでないと判断された場合(S1302、No)、
背景雑音フレームFsが音声フレームバッファ303へ
格納され(S1303)、先頭の音声フレームが取り出
され(S1304)、音声伸張部108へ転送される
(S1305)。有音区間と無音区間との境界であると
判断されると(S1301、Yes)、補間フレームF
i1、Fi3が生成置換され(S1311)、無音制御
オフフレームFoffが検出されると(S1302、Y
es)、有音区間に状態を遷移させる(S1321)。
First, it is not determined that the boundary between the sound section and the silent section (S1301, No), and the silent control off frame F
If it is determined that it is not off (S1302, No),
The background noise frame Fs is stored in the audio frame buffer 303 (S1303), the first audio frame is extracted (S1304), and transferred to the audio expansion unit 108 (S1305). If it is determined that the boundary is a boundary between a sound section and a silent section (S1301, Yes), the interpolation frame F
i1 and Fi3 are generated and replaced (S1311), and when the silence control off-frame Foff is detected (S1302, Y
es), the state is transited to the sound section (S1321).

【0042】[第2の実施例]上記第1の実施例におい
て、音声圧縮方式によって定まる1音声フレームの時間
的長さによって、補間フレームのサイズを変化させ、こ
れによって、無音区間と有音区間との境界の時間的変化
を、同一レベルに保つことが可能となり、音声圧縮方式
に関わらず安定した滑らかさを実現することが可能とな
る。
[Second Embodiment] In the first embodiment, the size of the interpolation frame is changed according to the temporal length of one audio frame determined by the audio compression method. , It is possible to keep the temporal change of the boundary with the same level, and to realize stable smoothness regardless of the audio compression method.

【0043】[0043]

【発明の効果】本発明によれば、無音制御において、伝
送路の有効利用を損なうことなく、無音区間と有音区間
とのレベルの不連続性を補正し、会話の始まりや終わり
に違和感を感じない音声パケット伝送システムを構築す
ることが可能となり、さらに、音声圧縮方式によらず、
安定した滑らかさを実現することも可能になるという効
果を奏する。
According to the present invention, in the silence control, the level discontinuity between the silence section and the speech section is corrected without impairing the effective use of the transmission path, and a sense of discomfort is obtained at the beginning or end of a conversation. It is possible to build a voice packet transmission system that you can not feel, and furthermore, regardless of the voice compression method,
There is an effect that stable smoothness can be realized.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の一実施例であるパケット伝送システム
の概略を示すブロック図である。
FIG. 1 is a block diagram schematically showing a packet transmission system according to one embodiment of the present invention.

【図2】パケット送信部104の構成を示すブロック図
である。
FIG. 2 is a block diagram illustrating a configuration of a packet transmission unit 104.

【図3】パケット受信部107の構成を示すブロック図
である。
FIG. 3 is a block diagram illustrating a configuration of a packet receiving unit 107.

【図4】音声信号401を示す図である。FIG. 4 is a diagram showing an audio signal 401.

【図5】音声信号501を示す図である。FIG. 5 is a diagram showing an audio signal 501.

【図6】上記実施例において、有音区間における符号化
処理周期を示すフローチャートである。
FIG. 6 is a flowchart showing an encoding processing cycle in a sound section in the embodiment.

【図7】上記実施例において、無音区間における符号化
周期処理を示すフローチャートである。
FIG. 7 is a flowchart showing an encoding cycle process in a silent section in the embodiment.

【図8】上記実施例におけるパケット組立周期処理を示
すフローチャートである。
FIG. 8 is a flowchart showing a packet assembly cycle process in the embodiment.

【図9】上記実施例において、パケット転送周期処理を
示すフローチャートである。
FIG. 9 is a flowchart showing a packet transfer cycle process in the embodiment.

【図10】上記実施例において、パケット転送周期処理
を示すフローチャートである。
FIG. 10 is a flowchart showing a packet transfer cycle process in the embodiment.

【図11】上記実施例において、パケット分解周期を示
すフローチャートである。
FIG. 11 is a flowchart showing a packet disassembly cycle in the embodiment.

【図12】上記実施例において、有音区間、たとえば音
声フレーム列502の音声フレームF6のタイミングの
復号化周期処理を示すフローチャートである。
FIG. 12 is a flowchart showing a decoding cycle process of the timing of a sound section, for example, the audio frame F6 of the audio frame sequence 502 in the embodiment.

【図13】上記実施例において、無音区間における復号
化周期処理を示すフローチャートである。
FIG. 13 is a flowchart showing a decoding cycle process in a silent section in the embodiment.

【符号の説明】[Explanation of symbols]

100…パケット伝送システム、 104…パケット送信部、 105…無音検出部、 107…パケット受信部、 111…背景雑音フレーム生成部、 120…パケット網、 401…音声信号。 100: Packet transmission system, 104: Packet transmission unit, 105: Silence detection unit, 107: Packet reception unit, 111: Background noise frame generation unit, 120: Packet network, 401: Voice signal.

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】 パケット網を介して、音声信号を伝送す
る音声パケット伝送システムにおいて、 上記音声信号を、デジタル化された音声フレームヘ変換
する音声符号化手段と;上記音声フレームを、音声信号
へ変換する音声復号化手段と;上記音声フレームをパケ
ット化して送受信するパケット送受信手段と;上記音声
信号に基づき、音声の有無を検出する無音検出手段と;
上記無音検出手段の検出結果に基づいて、上記パケット
送受信手段による音声フレームの送受信を制御する無音
制御手段と;受信音声フレームにおける有音区間と無音
区間との境界を判定する無音境界判定手段と;音声フレ
ーム列の間を補う少なくとも1つのフレームを生成する
補間フレーム生成手段と;を有し、上記無音境界判定手
段の判定結果に基づき、上記音声フレームにおける有音
区間と無音区間との境界に、上記補間フレーム生成手段
によって生成された少なくとも1つの補間フレームを挿
入することを特徴とする音声パケット伝送システム。
1. An audio packet transmission system for transmitting an audio signal via a packet network, comprising: audio encoding means for converting the audio signal into a digitized audio frame; and converting the audio frame into an audio signal. Voice decoding means for packetizing the voice frame and transmitting and receiving the voice frame; and silence detecting means for detecting the presence or absence of voice based on the voice signal;
Silence control means for controlling transmission and reception of a voice frame by the packet transmission / reception means based on the detection result of the silence detection means; silence boundary determination means for determining a boundary between a sound section and a silence section in a received voice frame; Interpolated frame generation means for generating at least one frame that supplements between the audio frame sequences; and based on the determination result of the silent boundary determination means, at the boundary between the sound interval and the silent interval in the audio frame, A voice packet transmission system, wherein at least one interpolation frame generated by the interpolation frame generation means is inserted.
【請求項2】 請求項1において、 背景雑音フレームを生成する背景雑音フレーム生成手段
を設け、 上記無音制御手段は、受信音声フレームが無音状態であ
る場合、上記背景雑音フレーム生成手段によって生成さ
れた背景雑音フレームを取得する手段であり、 上記音声復号化手段は、上記背景雑音フレームを音声信
号へ変換するとともに、背景雑音フレームと音声フレー
ムとの境界に存在する上記背景雑音フレームを、上記補
間フレーム生成手段によって生成された上記補間フレー
ムと置き換える手段であることを特徴とする音声パケッ
ト伝送システム。
2. The apparatus according to claim 1, further comprising background noise frame generation means for generating a background noise frame, wherein the silence control means is generated by the background noise frame generation means when a received voice frame is in a silent state. Means for acquiring a background noise frame, wherein the audio decoding means converts the background noise frame into an audio signal, and converts the background noise frame existing at the boundary between the background noise frame and the audio frame into the interpolation frame. A voice packet transmission system, which is means for replacing the interpolation frame generated by the generation means.
【請求項3】 請求項1または2において、 1音声フレームの時間的長さを認識する音声フレーム時
間認識手段を設け、 上記補間フレーム生成手段は、上記音声フレーム時間認
識手段から得られる音声フレーム時間に基づき、補間フ
レーム数を決定する手段であることを特徴とする音声パ
ケット伝送システム。
3. The voice frame time recognition means according to claim 1, further comprising: a voice frame time recognition means for recognizing a time length of one voice frame; A voice packet transmission system, characterized in that it is means for determining the number of interpolated frames on the basis of the above.
JP11595799A 1999-04-23 1999-04-23 Voice packet transmitting system Pending JP2000307654A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11595799A JP2000307654A (en) 1999-04-23 1999-04-23 Voice packet transmitting system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11595799A JP2000307654A (en) 1999-04-23 1999-04-23 Voice packet transmitting system

Publications (1)

Publication Number Publication Date
JP2000307654A true JP2000307654A (en) 2000-11-02

Family

ID=14675335

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11595799A Pending JP2000307654A (en) 1999-04-23 1999-04-23 Voice packet transmitting system

Country Status (1)

Country Link
JP (1) JP2000307654A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006078792A (en) * 2004-09-09 2006-03-23 Sony Corp Speech reproducing device, speech recording device, and speech recording and reproducing system
US7145484B2 (en) 2002-11-21 2006-12-05 Nippon Telegraph And Telephone Corporation Digital signal processing method, processor thereof, program thereof, and recording medium containing the program
JP2007288342A (en) * 2006-04-13 2007-11-01 Nec Corp Media stream relay device and method
JP2010226744A (en) * 2004-08-30 2010-10-07 Qualcomm Inc Methods and apparatus for adaptive de-jitter buffer
JP2011019253A (en) * 2003-07-23 2011-01-27 Qualcomm Inc Method and device for suppressing silence in media communication

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7145484B2 (en) 2002-11-21 2006-12-05 Nippon Telegraph And Telephone Corporation Digital signal processing method, processor thereof, program thereof, and recording medium containing the program
JP2011019253A (en) * 2003-07-23 2011-01-27 Qualcomm Inc Method and device for suppressing silence in media communication
KR101148649B1 (en) 2003-07-23 2012-05-22 콸콤 인코포레이티드 Method and apparatus for suppressing silence in media communications
US9015338B2 (en) 2003-07-23 2015-04-21 Qualcomm Incorporated Method and apparatus for suppressing silence in media communications
JP2010226744A (en) * 2004-08-30 2010-10-07 Qualcomm Inc Methods and apparatus for adaptive de-jitter buffer
US8331385B2 (en) 2004-08-30 2012-12-11 Qualcomm Incorporated Method and apparatus for flexible packet selection in a wireless communication system
JP2006078792A (en) * 2004-09-09 2006-03-23 Sony Corp Speech reproducing device, speech recording device, and speech recording and reproducing system
JP2007288342A (en) * 2006-04-13 2007-11-01 Nec Corp Media stream relay device and method

Similar Documents

Publication Publication Date Title
US7502733B2 (en) Method and arrangement in a communication system
JP4146489B2 (en) Audio packet reproduction method, audio packet reproduction apparatus, audio packet reproduction program, and recording medium
WO2005109401A1 (en) Acoustic signal packet communication method, transmission method, reception method, and device and program thereof
EP0820052B1 (en) Voice-coding-and-transmission system
CN101147190B (en) Frame erasure concealment in voice communications
JPH0962299A (en) Code exciting linear predictive coding device
JP4945638B2 (en) Smoothing network jitter with reduced delay
JP2000307654A (en) Voice packet transmitting system
WO2000034944A1 (en) Sound decoding device and sound decoding method
JPH07334191A (en) Method of decoding packet sound
KR100594599B1 (en) Apparatus and method for restoring packet loss based on receiving part
KR100542435B1 (en) Method and apparatus for frame loss concealment for packet network
KR101032805B1 (en) Audio data decoding device
JP3487158B2 (en) Audio coding transmission system
JP3649854B2 (en) Speech encoding device
JP2006279809A (en) Apparatus and method for voice reproducing
JP4597360B2 (en) Speech decoding apparatus and speech decoding method
JPH0588697A (en) Absent speech interpolation system
KR20050066477A (en) Method and apparatus for frame loss concealment for voip systems
JP2002252644A (en) Apparatus and method for communicating voice packet
JP2000183751A (en) Variable rate coding and decoding device
JPH0263333A (en) Voice coding/decoding device
JP3910480B2 (en) Voice packet communication device
JPH10333698A (en) Vice encoding method, voice decoding method, voice encoder, and recording medium
JPH04362830A (en) Voice packet communication system