JPH11355450A - Voice detecting device and speech communication device - Google Patents

Voice detecting device and speech communication device

Info

Publication number
JPH11355450A
JPH11355450A JP10162704A JP16270498A JPH11355450A JP H11355450 A JPH11355450 A JP H11355450A JP 10162704 A JP10162704 A JP 10162704A JP 16270498 A JP16270498 A JP 16270498A JP H11355450 A JPH11355450 A JP H11355450A
Authority
JP
Japan
Prior art keywords
level
voice
signal
background noise
power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10162704A
Other languages
Japanese (ja)
Inventor
Masanori Imada
匡則 今田
Jo Matsui
丈 松井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP10162704A priority Critical patent/JPH11355450A/en
Publication of JPH11355450A publication Critical patent/JPH11355450A/en
Pending legal-status Critical Current

Links

Landscapes

  • Telephonic Communication Services (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

PROBLEM TO BE SOLVED: To surely detect the generation of voice by a speaker without time delay to a voice signal by delaying the voice signal only for time that corresponds to processing of a level detecting means which detects a mean level of the voice signal and outputting it. SOLUTION: A background noise detection circuit 35 detects and outputs a background noise level included in voice data DA by detecting bottom value from power of the data DA. A comparator circuit 49 compares the background noise level detected by the circuit 35 with means power of the data DA detected by a transmitting level detection circuit 36 and outputs an on-off control signal of a switch circuit 28 according to the comparison result. And, a delay circuit 37 delays the data DA for time that is needed to make power means value in the circuit 36 and outputs it. Thus, a voice signal is delayed only for time that corresponds to processing in the circuit 36 and is outputted.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、音声検出装置及び
通話装置に関し、例えば多地点の端末と接続可能なテレ
ビ会議装置に適用することができる。本発明は、音声信
号より検出される暗騒音レベルを基準にして音声信号の
平均レベルを判定し、また音声信号を遅延することによ
り、話者による音声の発生を確実に、かつ音声信号に対
する時間遅れなく検出することができる音声検出装置
と、この音声検出装置を使用したテレビ会議装置等の通
話装置を提案する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice detection device and a communication device, and can be applied to, for example, a video conference device that can be connected to a multipoint terminal. The present invention determines the average level of an audio signal based on the background noise level detected from the audio signal, and delays the audio signal to ensure the generation of a voice by a speaker and time for the audio signal. A voice detection device capable of detecting without delay and a communication device such as a video conference device using the voice detection device are proposed.

【0002】[0002]

【従来の技術】従来、テレビ会議装置においては、音声
スイッチを用いて、話者が音声を発生していないときに
はマイクより入力される音声信号を抑圧して通話相手に
送出し、これにより通話の品質を確保するようになされ
ている。
2. Description of the Related Art Conventionally, in a video conference apparatus, a voice switch is used to suppress a voice signal input from a microphone when the speaker is not generating voice and transmit the voice signal to a communication partner, thereby making a voice call possible. It is made to ensure quality.

【0003】図5は、テレビ会議装置における音声スイ
ッチの構成をその周辺回路と共に示すブロック図であ
る。このテレビ会議装置1においては、マイクより得ら
れる音声信号SAが所定の増幅回路により増幅されて音
声スイッチ2に入力される。この音声スイッチ2におい
て、乗算器3は、音声信号SAを2乗することにより音
声信号SAの電力を計算して出力する。
FIG. 5 is a block diagram showing a configuration of a voice switch in a video conference apparatus together with its peripheral circuits. In the video conference apparatus 1, the audio signal SA obtained from the microphone is amplified by a predetermined amplifier circuit and input to the audio switch 2. In the audio switch 2, the multiplier 3 calculates and outputs the power of the audio signal SA by squaring the audio signal SA.

【0004】ピーク検出回路4は、ダイオード5、コン
デンサ6及び抵抗7による抱絡線検波回路により構成さ
れ、乗算器3の出力信号より音声信号SAの電力値のピ
ーク値を検出して出力する。
[0004] The peak detection circuit 4 is composed of an envelope detection circuit comprising a diode 5, a capacitor 6 and a resistor 7, and detects and outputs the peak value of the power value of the audio signal SA from the output signal of the multiplier 3.

【0005】比較器8は、基準電圧発生回路9により設
定されるしきい値と、ピーク検出回路4の出力電圧とを
比較し、これにより音声信号SAにおける電力のピーク
値を基準にして、マイクに向かって話者が音声を発生し
たか否か判定する。
[0005] The comparator 8 compares the threshold value set by the reference voltage generation circuit 9 with the output voltage of the peak detection circuit 4, and based on the peak value of the power in the audio signal SA as a reference, It is determined whether or not the speaker has generated a voice toward.

【0006】テレビ会議装置1は、このようにして検出
される音声スイッチ2の判定結果により、選択回路11
の接点を切り換え制御する。ここで選択回路11は、1
の選択入力端に音声信号SAを直接入力し、他の選択入
力端に減衰器10により信号レベルが抑圧された音声信
号SAを入力する。
[0006] The video conferencing apparatus 1 selects a selection circuit 11 based on the determination result of the audio switch 2 detected in this manner.
The switching of the contacts is controlled. Here, the selection circuit 11
The audio signal SA is directly input to the selected input terminal, and the audio signal SA whose signal level is suppressed by the attenuator 10 is input to the other selected input terminals.

【0007】これらによりテレビ会議装置1は、音声信
号SAにおける電力値のピーク値がしきい値より立ち下
がると、話者が音声の発生を停止したと判断して選択回
路11の接点を切り換え、マイクより入力される音声信
号SAを抑圧して送出するようになされている。
When the peak value of the power value in the audio signal SA falls below the threshold value, the video conference apparatus 1 determines that the speaker has stopped generating voice and switches the contact of the selection circuit 11. The audio signal SA input from the microphone is suppressed and transmitted.

【0008】なお従来の音声スイッチにおいては、電力
のピーク値に代えて、電力の平均値を基準にして話者の
発生を検出するようになされたものもある。
In some conventional voice switches, the occurrence of a speaker is detected based on the average value of the power instead of the peak value of the power.

【0009】[0009]

【発明が解決しようとする課題】ところで図5に示す構
成の音声スイッチ2においては、音声信号における電力
のピーク値を基準にして話者における音声の発生を検出
していることにより、インパルスノイズに対しても敏感
に反応することになる。これによりこの音声スイッチに
おいては、ノイズにより誤動作する問題があった。
By the way, in the voice switch 2 having the configuration shown in FIG. 5, since the generation of the voice in the speaker is detected based on the peak value of the power in the voice signal, the voice switch 2 generates the impulse noise. They will also react sensitively. As a result, this voice switch has a problem of malfunction due to noise.

【0010】また使用環境によって暗騒音のレベルが種
々に変化すると、同様に誤動作する問題がある。すなわ
ちマイクより相当大きな暗騒音がピックアップされる場
合、図5に示す構成の音声スイッチ2においては、話者
が音声を発生していないにも係わらず、音声を発生して
いるかのように誤検出することになる。因みに、この場
合、比較器8におけるしきい値を調整することにより、
ある程度誤検出を低減できるものの、しきい値の調整が
煩雑な欠点があり、また調整によっても必ずしも誤検出
を防止できない場合もある。
When the background noise level changes variously depending on the use environment, there is also a problem of malfunction. In other words, when background noise considerably larger than the microphone is picked up, the voice switch 2 having the configuration shown in FIG. Will do. Incidentally, in this case, by adjusting the threshold value in the comparator 8,
Although erroneous detection can be reduced to some extent, there is a disadvantage that adjustment of the threshold value is complicated, and erroneous detection cannot always be prevented by the adjustment.

【0011】これに対して電力のピーク値に代えて、電
力の平均値を基準にして話者の発生を検出する方式の場
合、インパルスノイズによる誤動作は回避することがで
きる。しかしながら平均値検出に要する音声信号に対す
る時間遅れにより、例えばテレビ会議装置に適用した場
合、音声の冒頭等が欠落して伝送される場合がある。ま
た使用環境により変化する暗騒音に対しては、図5の音
声スイッチと同様に誤動作する問題がある。
On the other hand, in the case of a system in which the occurrence of a speaker is detected based on the average value of power instead of the peak value of power, malfunction due to impulse noise can be avoided. However, due to a time delay with respect to an audio signal required for detecting an average value, for example, when the present invention is applied to a video conference apparatus, the beginning of the audio may be lost and transmitted. In addition, there is a problem that a malfunction may occur with respect to the background noise that changes depending on the use environment, similarly to the voice switch of FIG.

【0012】本発明は以上の点を考慮してなされたもの
で、話者による音声の発生を確実に、かつ音声信号に対
する時間遅れなく検出することができる音声検出装置
と、この音声検出装置を使用したテレビ会議装置等の通
話装置を提案しようとするものである。
SUMMARY OF THE INVENTION The present invention has been made in view of the above points, and a voice detection device capable of reliably detecting the generation of a voice by a speaker without a time delay with respect to a voice signal. It is intended to propose a communication device such as a used video conference device.

【0013】[0013]

【課題を解決するための手段】かかる課題を解決するた
め本発明においては、音声検出装置において、暗騒音レ
ベルと平均レベルとを比較して音声検出結果を出力する
比較手段と、送話レベル検出手段における処理に対応す
る時間だけ、音声信号を遅延して出力する遅延手段とを
備えるようにする。
According to the present invention, there is provided a voice detecting apparatus for comparing a background noise level with an average level to output a voice detection result, and a transmission level detecting apparatus. Delay means for delaying and outputting the audio signal for a time corresponding to the processing in the means.

【0014】またマイクより入力した話者の音声信号を
通話対象に送出する通話装置において、音声検出手段に
よる音声検出結果に基づいて、音声検出手段より出力さ
れる音声信号のレベルを切り換えて送出する切り換え手
段を有するようにし、この音声検出手段が、暗騒音レベ
ルと平均レベルとを比較して音声検出結果を出力する比
較手段と、送話レベル検出手段における処理に対応する
時間だけ、音声信号を遅延して出力する遅延手段とを備
えるようにする。
In a communication device for transmitting a speaker's voice signal input from a microphone to a call target, the level of the voice signal output from the voice detection means is switched and transmitted based on the voice detection result by the voice detection means. Switching means, wherein the sound detection means compares the background noise level with the average level to output a sound detection result, and outputs the sound signal only for a time corresponding to the processing in the transmission level detection means. And delay means for outputting with a delay.

【0015】またマイクより入力した話者の音声信号
を、撮像手段により取得した話者の映像信号と共に通話
対象に送出する通話装置において、音声検出手段による
音声検出結果に基づいて、音声検出手段より出力される
音声信号の信号レベルを切り換える切り換え手段を備え
るようにし、この音声検出手段が、暗騒音レベルと平均
レベルとを比較して音声検出結果を出力する比較手段
と、送話レベル検出手段における処理に対応する時間だ
け、音声信号を遅延して出力する遅延手段とを備えるよ
うにし、音声による符号化データを直接に又は間接的に
遅延させる第1の遅延手段における遅延時間と、音声検
出手段の遅延手段における遅延時間とにより、映像によ
る符号化データに対して音声による符号化データのタイ
ミングを一致させる。
Further, in a communication device for transmitting a voice signal of a speaker input from a microphone to a communication target together with a video signal of the speaker obtained by the imaging means, the voice detection means outputs the voice signal based on the voice detection result by the voice detection means. Switching means for switching the signal level of the output audio signal, wherein the audio detection means compares the background noise level with the average level and outputs an audio detection result; Delay means for delaying and outputting an audio signal for a time corresponding to the processing, and a delay time in the first delay means for directly or indirectly delaying encoded data by audio; The timing of the coded data by audio is made coincident with the coded data by video according to the delay time of the delay means.

【0016】音声検出装置において、暗騒音レベルと平
均レベルとを比較して音声検出結果を出力する比較手段
によれば、環境によって暗騒音レベルが変化した場合で
も、この変化に対応して音声検出結果を得ることがで
き、その分誤り検出が低減される。またインパルスノイ
ズによる誤検出も低減される。このとき送話レベル検出
手段における処理に対応する時間だけ、音声信号を遅延
して出力すれば、この平均レベルの検出に要する時間遅
れに対応するように音声信号を遅延でき、音声信号に対
する時間遅れも防止することができる。
According to the comparing means for comparing the background noise level with the average level and outputting the voice detection result in the voice detection device, even if the background noise level changes due to the environment, the voice detection is performed in accordance with the change. The result can be obtained, and error detection is reduced accordingly. In addition, erroneous detection due to impulse noise is reduced. At this time, if the audio signal is delayed and output by the time corresponding to the processing in the transmission level detection means, the audio signal can be delayed so as to correspond to the time delay required for detecting the average level, and the time delay with respect to the audio signal can be reduced. Can also be prevented.

【0017】またマイクより入力した話者の音声信号を
通話対象に送出する通話装置において、音声検出手段を
同様に構成すれば、話者による音声の発生を確実に、か
つ音声信号に対する時間遅れなく検出することができ
る。これにより音声検出手段による音声検出結果に基づ
いて、音声検出手段より出力される音声信号を切り換え
て送出すれば、音切れを防止して高い明瞭度により話者
の音声を送出することができる。
In a communication apparatus for transmitting a voice signal of a speaker input from a microphone to a communication target, if the voice detection means is similarly configured, generation of voice by the speaker is ensured, and there is no time delay with respect to the voice signal. Can be detected. In this way, if the sound signal output from the sound detecting means is switched and transmitted based on the sound detection result by the sound detecting means, the sound of the speaker can be transmitted with high clarity by preventing sound interruption.

【0018】またマイクより入力した話者の音声信号
を、撮像手段により取得した話者の映像信号と共に通話
対象に送出する通話装置において、音声検出手段を同様
に構成すれば、話者による音声の発生を確実に、かつ音
声信号に対する時間遅れなく検出することができる。こ
れにより音声検出手段による音声検出結果に基づいて、
音声検出手段より出力される音声信号を切り換えて送出
すれば、音切れを防止して高い明瞭度により話者の音声
を送出することができる。さらにこのとき音声による符
号化データを直接に又は間接的に遅延させる第1の遅延
手段における遅延時間と、音声検出手段の遅延手段にお
ける遅延時間とにより、映像による符号化データに対し
て音声による符号化データのタイミングを補正すれば、
音声検出手段における遅延手段を有効に利用してリップ
シンクの機能を得ることができる。
Further, in a communication device for transmitting a speaker's voice signal input from a microphone to a communication target together with the speaker's video signal acquired by the imaging means, if the voice detection means is similarly configured, the voice of the speaker can be detected. The occurrence can be detected reliably and without a time delay with respect to the audio signal. Thereby, based on the voice detection result by the voice detection means,
If the sound signal output from the sound detecting means is switched and sent, the sound of the speaker can be sent with high intelligibility by preventing sound interruption. Further, at this time, the audio encoded data is encoded by the delay time of the first delay means for directly or indirectly delaying the encoded data of the audio and the delay time of the delay means of the audio detection means. By correcting the timing of the digitized data,
The function of the lip sync can be obtained by effectively utilizing the delay means in the voice detection means.

【0019】[0019]

【発明の実施の形態】以下、適宜図面を参照しながら本
発明の実施の形態を詳述する。
Embodiments of the present invention will be described below in detail with reference to the drawings.

【0020】(1)第1の実施の形態 図2は、本発明の第1の実施の形態に係るテレビ会議装
置の音声系を示すブロック図である。このテレビ会議装
置21において、多重化分離器(DMX)は、例えばI
SDN( Integrated Services Digital Network)回線
等を介して通話対象より伝送される入力データD1より
音声データを分離して出力し、続く復号器23は、多重
化分離器22より出力される音声データを復号した後、
データ伸長して出力する。
(1) First Embodiment FIG. 2 is a block diagram showing an audio system of a video conference apparatus according to a first embodiment of the present invention. In this video conference device 21, the demultiplexer (DMX)
The audio data is separated and output from the input data D1 transmitted from the communication target via an SDN (Integrated Services Digital Network) line or the like, and the decoder 23 decodes the audio data output from the demultiplexer 22. After doing
Data is decompressed and output.

【0021】テレビ会議装置21は、この復号器23よ
り出力される音声データをエコーキャンセラ(EC)2
4を介して図示しないディジタルアナログ変換回路に入
力し、ここでアナログ信号による音声信号に変換し、ス
ピーカー25より出力する。これによりテレビ会議装置
21は、通話対象の話者の音声を視聴できるようになさ
れている。
The video conference device 21 converts the audio data output from the decoder 23 into an echo canceller (EC) 2.
The signal is input to a digital-to-analog conversion circuit (not shown) via an analog-to-digital converter 4, where it is converted to an analog audio signal and output from a speaker 25. Thus, the video conference device 21 can listen to the voice of the speaker to be called.

【0022】これに対してテレビ会議装置21は、マイ
ク26により話者の音声を取得し、アナログディジタル
変換処理により音声データMAを生成する。エコーキャ
ンセラ24は、スピーカー25より出力される通話対象
の音声D1をフィルタ処理することにより得られるスピ
ーカー25からマイク26に回り混んでなる通話対象の
音声信号成分をこの音声データMAより除去して出力す
る。
On the other hand, the video conference device 21 obtains the voice of the speaker using the microphone 26 and generates voice data MA by analog-to-digital conversion processing. The echo canceller 24 removes, from the audio data MA, an audio signal component of the communication target, which is obtained by filtering the voice D1 of the communication target output from the speaker 25 and is crowded from the speaker 25 to the microphone 26, and outputs the signal. I do.

【0023】音声検出回路27は、このエコーキャンセ
ラ24より出力される音声データDAより話者における
音声を検出し、オンオフ制御信号SCを出力する。スイ
ッチ回路28は、音声検出回路27を介して音声データ
DA1を受け、オンオフ制御信号SCの制御によりこの
音声データDA1を出力する。テレビ会議装置21は、
これにより話者が発声したときだけ、音声データDA1
を通話対象に送出する。
The voice detection circuit 27 detects the voice of the speaker from the voice data DA output from the echo canceller 24 and outputs an on / off control signal SC. The switch circuit 28 receives the audio data DA1 via the audio detection circuit 27, and outputs the audio data DA1 under the control of the on / off control signal SC. The video conference device 21
Thus, only when the speaker utters, the audio data DA1
To the call target.

【0024】遅延回路29は、スイッチ回路28より出
力される音声データDA1を所定時間遅延させることに
より、通話対象に送出する話者の映像の変化に対して、
音声データDA1による音声が対応するように、音声デ
ータDA1のタイミングを補正して出力する。遅延回路
29は、これによりいわゆるリップシンクの処理を実行
する。
The delay circuit 29 delays the audio data DA1 output from the switch circuit 28 for a predetermined time, so that a change in the video of the
The timing of the audio data DA1 is corrected and output so that the audio by the audio data DA1 corresponds. The delay circuit 29 executes a so-called lip sync process.

【0025】符号化器(ENC)30は、遅延回路29
より出力される音声データDA1をデータ圧縮した後、
符号化処理して出力する。多重化器(MUX)31は、
符号化器30より出力される音声データDA1を、同様
に符号化処理してなる話者の画像データと多重化して伝
送対象に送出する。これらによりテレビ会議装置21
は、通話対象との間で、テレビ会議できるようになされ
ている。
The encoder (ENC) 30 includes a delay circuit 29
After compressing the audio data DA1 output from the
Encode and output. The multiplexer (MUX) 31
The audio data DA1 output from the encoder 30 is multiplexed with image data of a speaker that has been similarly encoded and transmitted to the transmission target. The video conference device 21
Has been set up so that a video conference can be performed with a communication target.

【0026】図1は、この音声検出回路27を周辺構成
と共に示すブロック図である。この音声検出回路27
は、エコーキャンセラ24より出力される音声データD
Aを暗騒音検出回路35、送話レベル検出回路36、遅
延回路37に入力する。
FIG. 1 is a block diagram showing the voice detection circuit 27 together with peripheral components. This voice detection circuit 27
Is the audio data D output from the echo canceller 24
A is input to the background noise detection circuit 35, the transmission level detection circuit 36, and the delay circuit 37.

【0027】ここで暗騒音検出回路35は、音声データ
DAの電力からボトム値を検出することにより、音声デ
ータDAに含まれる暗騒音レベルを検出して出力する。
すなわち暗騒音検出回路35において、乗算器41は、
音声データDAを2乗することにより音声データDAの
電力を計算して出力する。ダイオード42は、抵抗43
と並列に接続され、アノード側を乗算器41の出力端
に、カソード側をコンデンサ44により接地する。これ
によりダイオード42、抵抗43、コンデンサ44は、
ボトムホールド回路を構成し、音声データDAの電力か
らボトム値でなる暗騒音レベルを検出して出力する。
Here, the background noise detection circuit 35 detects and outputs the background noise level included in the audio data DA by detecting the bottom value from the power of the audio data DA.
That is, in the background noise detection circuit 35, the multiplier 41
The power of the audio data DA is calculated and output by squaring the audio data DA. The diode 42 includes a resistor 43
The anode is connected to the output terminal of the multiplier 41 and the cathode is grounded by a capacitor 44. As a result, the diode 42, the resistor 43, and the capacitor 44
A bottom hold circuit is configured to detect and output a background noise level having a bottom value from the power of the audio data DA.

【0028】送話レベル検出回路36は、音声データD
Aの平均電力を検出して出力する。すなわち送話レベル
検出回路36において、乗算器46は、音声データDA
を2乗することにより音声データDAの電力を計算して
出力する。抵抗47は、コンデンサ48と共にローパス
フィルタを構成し、乗算器46で検出される音声データ
DAの電力を平均値化して出力する。
The transmission level detection circuit 36 outputs the voice data D
The average power of A is detected and output. That is, in the transmission level detection circuit 36, the multiplier 46 outputs the audio data DA
Is squared to calculate and output the power of the audio data DA. The resistor 47 constitutes a low-pass filter together with the capacitor 48, and averages and outputs the power of the audio data DA detected by the multiplier 46.

【0029】比較回路49は、これら暗騒音検出回路3
5で検出される暗騒音レベルと、送話レベル検出回路3
6で検出される音声データDAの平均電力とを比較し、
この比較結果によりスイッチ回路28のオンオフ制御信
号を出力する。すなわち比較回路49は、暗騒音レベル
に第1の基準レベルを加算した第1の加算信号レベル以
上音声データDAの平均電力が立ち上がると、スイッチ
回路28をオン状態に切り換える。これにより比較回路
49は、暗騒音レベルを基準にして音声データDAの平
均電力を判定して音声データDA1の出力を開始する。
The comparison circuit 49 is provided for the background noise detection circuit 3
5 and the transmission level detection circuit 3
6. Compare with the average power of the audio data DA detected in 6,
Based on the result of this comparison, an on / off control signal for the switch circuit 28 is output. That is, the comparison circuit 49 switches the switch circuit 28 to the ON state when the average power of the audio data DA rises above a first addition signal level obtained by adding the first reference level to the background noise level. Accordingly, the comparison circuit 49 determines the average power of the audio data DA based on the background noise level, and starts outputting the audio data DA1.

【0030】これに対して比較回路49は、第1の基準
レベルより値の小さな第2の基準レベルを暗騒音レベル
に加算した第2の加算信号レベル以下に音声データDA
の平均電力が立ち下がると、スイッチ回路28をオフ状
態に切り換える。これにより比較回路49は、暗騒音レ
ベルを基準にして音声データDAの平均電力を判定して
音声データDA1の出力を停止する。また比較回路49
は、ヒステリシス特性によりオンオフ制御信号SCを出
力してスイッチ回路28の動作を切り換え、これにより
スイッチ回路28の頻繁な切り換わりを防止する。
On the other hand, the comparison circuit 49 sets the audio data DA equal to or lower than a second addition signal level obtained by adding a second reference level smaller than the first reference level to the background noise level.
When the average power falls, the switch circuit 28 is turned off. Thus, the comparison circuit 49 determines the average power of the audio data DA based on the background noise level, and stops outputting the audio data DA1. The comparison circuit 49
Outputs an on / off control signal SC based on the hysteresis characteristic to switch the operation of the switch circuit 28, thereby preventing frequent switching of the switch circuit 28.

【0031】遅延回路37は、送話レベル検出回路36
において電力の平均値化に要する時間分、音声データD
Aを遅延させて出力する。
The delay circuit 37 includes a transmission level detection circuit 36
The audio data D for the time required for averaging the power in
A is delayed and output.

【0032】以上の構成において、通話対象から送出さ
れた音声データD1は(図2)、多重化分離器22によ
り他のデータと分離された後、復号器23により復号さ
れた後、アナログ信号に変換されてスピーカー25より
出力され、これによりこのテレビ会議装置21を操作す
る話者において、通話対象の音声を視聴することが可能
となる。
In the above configuration, the audio data D1 transmitted from the communication target (FIG. 2) is separated from other data by the demultiplexer 22, decoded by the decoder 23, and converted into an analog signal. The video signal is converted and output from the speaker 25, so that the speaker operating the video conference device 21 can view the voice of the call target.

【0033】これに対してこの話者の音声は、マイク2
6で取得された後、音声検出回路27、スイッチ回路2
8、遅延回路29を介して符号化器30に入力され、こ
こで符号化処理された後、続く多重化器31により他の
データと多重化されて通話対象に送出される。これによ
り通話対象においても、このテレビ会議装置21を使用
する話者の音声を視聴することができる。
On the other hand, the voice of this speaker is
6, the voice detection circuit 27 and the switch circuit 2
8. The signal is input to the encoder 30 via the delay circuit 29, where the data is encoded, multiplexed with other data by the subsequent multiplexer 31, and transmitted to the communication target. As a result, the voice of the speaker using the video conference device 21 can be viewed even in the call target.

【0034】このようにして音声を送受する際に、スピ
ーカー25より出力される通話対象の音声が一部マイク
26で取得される。このようにしてマイク26で取得さ
れた通話対象の音声は、続くエコーキャンセラ24おい
て、元の音声データD1がフィルタ処理により音声デー
タMAから減算されることにより、音声データMAより
除去され、これによりこのように一旦スピーカー25よ
り出力された通話対象の音声が、マイク26を介して通
話対象に伝送されて発生するエコーが防止される。
When transmitting and receiving voices in this way, the voice of the call target output from the speaker 25 is partially acquired by the microphone 26. In this manner, the voice of the call target acquired by the microphone 26 is removed from the voice data MA by subtracting the original voice data D1 from the voice data MA by the filtering process in the subsequent echo canceller 24. Thus, the echo of the speech of the call target once output from the speaker 25 is transmitted to the call target via the microphone 26, thereby preventing the echo.

【0035】またテレビ会議装置21においては、この
ようにスピーカー25より出力される通話対象の音声に
加えて、背景の騒音である暗騒音がマイク26により取
得される。この暗騒音は、一般に話者の背景で絶え間な
く一定の強度で継続し、また環境によって種々に強度が
変化するのに対し、話者の音声は、話者の発声に応じて
急激に変化する特徴がある。
In the video conference apparatus 21, the microphone 26 acquires background noise, which is background noise, in addition to the voice of the call target output from the speaker 25 as described above. This background noise generally continues at a constant intensity in the background of the speaker, and varies in intensity depending on the environment, whereas the voice of the speaker rapidly changes according to the utterance of the speaker. There are features.

【0036】このような特徴を有する暗騒音と共に取得
される話者の音声は(図1)、音声検出回路27の暗騒
音検出回路35において、音声データDAの電力が検出
された後、この電力のボトム値が検出されることによ
り、このボトム値により暗騒音のレベルが検出される。
また送話レベル検出回路36において、音声データDA
の電力の平均値が検出されることにより、暗騒音と話者
の音声とによる総合的な音声レベルが検出される。
The voice of the speaker acquired together with the background noise having such a characteristic (FIG. 1) is detected by the background noise detection circuit 35 of the voice detection circuit 27 after the power of the voice data DA is detected. Is detected, the level of the background noise is detected based on the bottom value.
In the transmission level detection circuit 36, the audio data DA
By detecting the average value of the power of the speaker, a total voice level of the background noise and the voice of the speaker is detected.

【0037】これにより比較回路49において、この騒
音レベルを基準にした総合的な音声レベルの判定によ
り、暗騒音のレベルが種々に異なる場合であっても、話
者の発声を確実に検出することが可能となる。また電力
のボトム値の検出により暗騒音を検出し、また電力の平
均値により総合的な音声レベルが検出されることによ
り、インパルスノイズによる誤検出も有効に回避され
る。
Thus, the comparison circuit 49 can reliably detect the utterance of the speaker by judging the total sound level based on the noise level, even if the background noise level is variously different. Becomes possible. In addition, the background noise is detected by detecting the bottom value of the power, and the total voice level is detected by the average value of the power, so that erroneous detection due to impulse noise can be effectively avoided.

【0038】音声データDAは、このようにして話者の
発声が検出されると、スイッチ回路28を介して符号化
器30に出力され、話者の発声が停止すると、符号化器
30への出力が停止される。これによりテレビ会議装置
21では、話者が何ら音声を発していない場合、音声デ
ータDAの送出が中止され、通信相手において多地点の
端末からの音声を合成して視聴する場合でも、暗騒音の
増大による明瞭度の低下が防止される。
The voice data DA is output to the encoder 30 via the switch circuit 28 when the speaker's utterance is detected in this way. When the speaker's utterance stops, the voice data DA is output to the encoder 30. Output is stopped. As a result, in the video conference apparatus 21, when the speaker does not emit any sound, the transmission of the audio data DA is stopped, and even when the communication partner views and synthesizes the audio from the multi-point terminal, the background noise is reduced. A decrease in clarity due to the increase is prevented.

【0039】またこのようにして送出される音声データ
DAは、電力の平均値検出に要する時間分、遅延回路3
7により遅延されることにより、比較回路49によるス
イッチ回路28のオンオフ制御に対応するタイミングに
よりスイッチ回路28に入力され、これにより発声の冒
頭における音切れが防止される。また比較回路49にお
いて、ヒステリシス特性によりスイッチ回路28をオン
オフ制御することにより、一旦音声データDAの送出を
開始した後におけるスイッチ回路28のオフ制御を緩や
かな基準により実行でき、これにより発音中における音
切れ、語尾における音切れが防止される。
The audio data DA transmitted in this manner is equal to the time required for detecting the average value of the electric power,
7, the signal is input to the switch circuit 28 at a timing corresponding to the on / off control of the switch circuit 28 by the comparison circuit 49, thereby preventing the sound interruption at the beginning of the utterance. Further, in the comparison circuit 49, the on / off control of the switch circuit 28 based on the hysteresis characteristic allows the off control of the switch circuit 28 to be performed once the transmission of the audio data DA is started, based on a gradual basis. Cuts and cuts at the end of the sound are prevented.

【0040】また音声データDAは、この遅延回路37
により遅延された後、スイッチ回路28に続く遅延回路
29によりリップシンクのための遅延を受けることによ
り、遅延回路37を設けた分、遅延回路29に必要な遅
延時間を短くすることが可能となる。
The audio data DA is supplied to the delay circuit 37.
After being delayed by the delay circuit 29, the delay circuit 29 following the switch circuit 28 receives a delay for lip-sync, so that the delay time required for the delay circuit 29 can be shortened by the provision of the delay circuit 37. .

【0041】以上の構成によれば、音声信号の電力のボ
トム値により検出される暗騒音レベルを基準にして音声
信号の電力による平均値を判定することにより、インパ
ルスノイズが混入した場合でも、また環境によって暗騒
音レベルが変化した場合でも、これらに対応して話者に
よる音声の発生を確実に検出することができる。また遅
延回路により音声信号を遅延させたことにより、平均値
の検出に要する時間遅れに対応することができ、これに
より音声信号に対して時間遅れなく話者による音声の発
生を検出することができる。
According to the above arrangement, the average value of the power of the audio signal is determined on the basis of the background noise level detected from the bottom value of the power of the audio signal. Even if the background noise level changes depending on the environment, it is possible to reliably detect the generation of the voice by the speaker in response to the change. In addition, by delaying the audio signal by the delay circuit, it is possible to cope with a time delay required for detecting the average value, and thereby it is possible to detect the generation of the voice by the speaker without a time delay with respect to the audio signal. .

【0042】さらに遅延回路37により音声信号を遅延
した分、遅延回路29における遅延時間を短縮してリッ
プシングの処理を実行することができる。
Further, the delay time in the delay circuit 29 can be shortened by the delay of the audio signal by the delay circuit 37, and the ripsing process can be executed.

【0043】さらにこのとき話者の発声を検出できない
場合に、音声データDAの送出を中止することにより、
通信相手において多地点の端末からの音声を合成して視
聴する場合でも、暗騒音の増大による明瞭度の低下が防
止される。
Further, at this time, when the utterance of the speaker cannot be detected, the transmission of the voice data DA is stopped,
Even when a communication partner views and synthesizes voices from terminals at multiple points, a decrease in intelligibility due to an increase in background noise is prevented.

【0044】(2)第2の実施の形態 図3は、本発明の第2の実施の形態に係るテレビ会議シ
ステムを示すブロック図である。このテレビ会議システ
ム50においては、第1の実施の形態について上述した
テレビ会議装置21と同一構成のテレビ会議装置21A
〜21Nを多地点接続装置51に接続して構成される。
(2) Second Embodiment FIG. 3 is a block diagram showing a video conference system according to a second embodiment of the present invention. In the video conference system 50, a video conference device 21A having the same configuration as the video conference device 21 described in the first embodiment is used.
To 21N connected to the multipoint connection device 51.

【0045】ここで多地点接続装置51は、それぞれ公
衆回線等を介して各テレビ会議装置21A〜21Nと接
続され、多重化分離器52A〜52Nにより各テレビ会
議装置21A〜21Nより送出された音声データを分離
した後、続く復号器53A〜53Nにより復号する。多
地点接続装置51は、これら各テレビ会議装置21A〜
21Nに対応する加算器54A〜54Nにおいて、対応
するテレビ会議装置21A〜21N以外のテレビ会議装
置(21B〜21N)、(21A、21C〜21N)、
……(21A〜21M)より復号された音声データをそ
れぞれ加算する。これにより多地点接続装置51は、各
テレビ会議装置21A〜21Nに対して、それぞれ他の
テレビ会議装置21A〜21Nより送出された複数の音
声を合成する。
Here, the multipoint connection device 51 is connected to each of the video conference devices 21A to 21N via a public line or the like, and the audio transmitted from each of the video conference devices 21A to 21N by the demultiplexers 52A to 52N. After separating the data, the data is decoded by the following decoders 53A to 53N. The multipoint connection device 51 is connected to each of these video conference devices 21A to 21A.
In the adders 54A to 54N corresponding to 21N, video conference devices (21B to 21N) other than the corresponding video conference devices 21A to 21N, (21A, 21C to 21N),
... (21A to 21M) are added together. Thereby, the multipoint connection device 51 synthesizes a plurality of voices transmitted from the other video conference devices 21A to 21N with respect to each of the video conference devices 21A to 21N.

【0046】多地点接続装置51は、このようにして各
テレビ会議装置21A〜21Nに対して合成された音声
データをそれぞれ対応する符号化器55A〜55Nで符
号化した後、多重化器56A〜56Nにより他のデータ
と多重化して各テレビ会議装置21A〜21Nに送出す
る。
The multipoint connection device 51 encodes the audio data thus synthesized for each of the video conference devices 21A to 21N by the corresponding encoders 55A to 55N, and then encodes the data by the multiplexers 56A to 56N. The data is multiplexed with other data by 56N and transmitted to each of the video conference devices 21A to 21N.

【0047】図3に示す構成によれば、多地点接続装置
にテレビ会議装置を接続して、1のテレビ会議装置に対
して他のテレビ会議装置より送出された音声信号を合成
して送出する場合に、第1の実施の形態に係るテレビ会
議装置により各テレビ会議装置を構成して話者が発声し
ていない時に音声データの送出を中止することにより、
このように他のテレビ会議装置による音声を合成しても
暗騒音の増大を防止することができ、これにより明瞭度
の低下を防止することができる。
According to the configuration shown in FIG. 3, a video conference device is connected to a multipoint connection device, and an audio signal transmitted from another video conference device is synthesized and transmitted to one video conference device. In such a case, the transmission of the audio data is stopped when each of the video conference devices is configured by the video conference device according to the first embodiment and the speaker is not speaking.
As described above, even when voices from other video conference devices are synthesized, an increase in background noise can be prevented, and thereby a decrease in intelligibility can be prevented.

【0048】(3)第3の実施の形態 図4は、本発明の第3の実施の形態に係るテレビ会議シ
ステムを示すブロック図である。このテレビ会議システ
ム60においては、同一構成のテレビ会議装置……、6
1N−1 、61N、61N+1、……を縦続接続して構
成される。なおこの図4に示す構成において、図2につ
いて上述した構成と同一の構成は、対応する符号を付し
て示し、重複した説明は省略する。
(3) Third Embodiment FIG. 4 is a block diagram showing a video conference system according to a third embodiment of the present invention. In this video conference system 60, video conference devices having the same configuration..., 6
1N-1, 61N, 61N + 1,... Are connected in cascade. In the configuration shown in FIG. 4, the same components as those described above with reference to FIG. 2 are denoted by the corresponding reference numerals, and redundant description will be omitted.

【0049】ここでこれらテレビ会議装置……、61N
−1 、61N、61N+1、……は、それぞれ上り用の
入力ポート及び出力ポート、下り用の入力ポート及び出
力ポートを有し、これらの上り用及び下り用の入出力ポ
ートを順次接続して縦続接続される。なおテレビ会議装
置……、61N−1 、61N、61N+1、……におい
ては、同一の構成でなることにより、以下においてはテ
レビ会議装置Nについてのみ説明し、重複した説明は省
略する。
Here, these teleconference devices..., 61N
.., 61N, 61N + 1,... Each have an input port and an output port for uplink, an input port and an output port for downlink, and these input and output ports for uplink and downlink are sequentially connected and cascaded. Connected. .., 61N−1, 61N, 61N + 1,... Have the same configuration, so only the video conference device N will be described below, and redundant description will be omitted.

【0050】このテレビ会議装置Nは、上り用及び下り
用の各入力ポートより入力されるデータ列をそれぞれ多
重化分離器62A及び62Bにより処理して音声データ
を分離した後、続く復号器63A及び63Bにより復号
する。さらにテレビ会議装置Nは、加算器64A及び6
4Bにおいて、各復号器63A及び63Bより出力され
る音声データに遅延回路29より出力される音声データ
を加算した後、それぞれ符号化器65A及び65Bで符
号化する。さらにテレビ会議装置Nは、多重化器66A
及び66Bにより符号化器65A及び65Bの出力デー
タを他のデータと多重化し、上り用の出力ポート及び下
り用の出力ポートより出力する。
The video conference apparatus N separates audio data by processing the data streams input from the upstream and downstream input ports by the demultiplexers 62A and 62B, respectively. Decode by 63B. Further, the video conference device N includes adders 64A and 6
In 4B, the audio data output from the delay circuit 29 is added to the audio data output from each of the decoders 63A and 63B, and then encoded by the encoders 65A and 65B, respectively. Further, the video conference device N includes a multiplexer 66A.
And 66B multiplex the output data of the encoders 65A and 65B with other data, and output the multiplexed data from the output port for uplink and the output port for downlink.

【0051】これによりテレビ会議装置……、61N−
1 、61N、61N+1、……は、それぞれ上り用及び
下り用の入力ポートを介して、他のテレビ会議装置より
送出された音声データを取得できるようになされてい
る。なお縦続接続の末端のテレビ会議装置においては、
上り用又は下り用の入力ポートだけで他のテレビ会議装
置より送出された音声データを取得できることになる。
Thus, the video conference device..., 61N-
1, 61N, 61N + 1,... Can acquire audio data transmitted from another video conference device via input ports for uplink and downlink. In the video conference device at the end of the cascade connection,
The audio data transmitted from another video conference device can be obtained only with the input port for the up or the down.

【0052】またテレビ会議装置Nは、復号器63A及
び63Bより出力される音声データを加算器67で加算
し、エコーキャンセラ24に出力する。これらによりこ
れらテレビ会議装置……、61N−1 、61N、61N
+1、……は、上り用及び下り用の入力ポートを介して
入力される他のテレビ会議装置より送出された音声デー
タをスピーカー25を介して視聴できるようになされて
いる。
In the video conference apparatus N, the audio data output from the decoders 63A and 63B are added by the adder 67 and output to the echo canceller 24. By these means, these video conference devices..., 61N-1, 61N, 61N
+1... Can be viewed via the speaker 25 through audio data transmitted from another video conference apparatus which is input through the input ports for up and down.

【0053】図4に示す構成によれば、縦続接続により
複数のテレビ会議装置を接続して、1のテレビ会議装置
に対して他のテレビ会議装置より送出された音声信号を
合成して視聴する場合でも、第1の実施の形態と同様の
効果を得ることができる。
According to the configuration shown in FIG. 4, a plurality of video conference devices are connected by cascade connection, and an audio signal transmitted from another video conference device to one video conference device is synthesized and viewed. In this case, the same effect as in the first embodiment can be obtained.

【0054】(4)他の実施の形態 なお上述の実施の形態においては、電力のボトム値及び
平均値により暗騒音レベル及び音声信号の平均レベルを
検出する場合について述べたが、本発明はこれに限ら
ず、例えばエンベロープのボトム値、平均値により暗騒
音レベル及び音声信号の平均レベルを検出する場合等、
種々の検出方法を広く適用することができる。
(4) Other Embodiments In the above embodiment, the case where the background noise level and the average level of the audio signal are detected based on the bottom value and the average value of the power has been described. For example, when detecting the background noise level and the average level of the audio signal based on the bottom value and the average value of the envelope,
Various detection methods can be widely applied.

【0055】また上述の実施の形態においては、話者が
音声を発声していない場合には、音声データの出力を中
止する場合について述べたが、本発明はこれに限らず、
実用上十分な場合には、音声データを減衰させて出力す
るようにしてもよい。なおこの場合、第2及び第3の実
施の形態においては、接続するテレビ会議装置の台数に
応じて減衰率を可変して、暗騒音の増大を防止すること
ができる。
Further, in the above-described embodiment, the case where the output of the voice data is stopped when the speaker does not utter the voice has been described. However, the present invention is not limited to this.
If practically sufficient, the audio data may be attenuated and output. In this case, in the second and third embodiments, an increase in the background noise can be prevented by varying the attenuation rate according to the number of video conference devices to be connected.

【0056】また上述の実施の形態においては、スイッ
チ回路より出力される音声データを遅延回路により遅延
してリップシンクする場合について述べたが、本発明は
これに限らず、音声検出回路の前段、符号化器の後段
等、種々の箇所に遅延回路を介挿する場合に広く適用す
ることができる。
In the above embodiment, the case where the audio data output from the switch circuit is lip-synced after being delayed by the delay circuit has been described. However, the present invention is not limited to this. The present invention can be widely applied to a case where delay circuits are inserted at various places such as a stage after an encoder.

【0057】また上述の実施の形態においては、本発明
をテレビ会議装置に適用する場合について述べたが、本
発明はこれに限らず、単に音声だけを送受する通話装
置、さらには話者の発声を検出して動作する種々の機器
に広く適用することができる。
Further, in the above-described embodiment, the case where the present invention is applied to the video conference apparatus has been described. However, the present invention is not limited to this, and the present invention is not limited to this. Can be widely applied to various devices that operate by detecting the

【0058】[0058]

【発明の効果】上述のように本発明によれば、音声信号
より検出される暗騒音レベルを基準にして音声信号の平
均レベルを判定し、また音声信号を遅延することによ
り、話者による音声の発生を確実に、かつ音声信号に対
する時間遅れなく検出することができる。
As described above, according to the present invention, the average level of a voice signal is determined based on the background noise level detected from the voice signal, and the voice signal is delayed by delaying the voice signal. Can be detected reliably and without a time delay with respect to the audio signal.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の第1の実施の形態に係る音声検出回路
を示すブロック図である。
FIG. 1 is a block diagram showing a voice detection circuit according to a first embodiment of the present invention.

【図2】図1の音声検出回路を使用したテレビ会議装置
を示すブロック図である。
FIG. 2 is a block diagram showing a video conference device using the audio detection circuit of FIG.

【図3】本発明の第2の実施の形態に係るテレビ会議シ
ステムを示すブロック図である。
FIG. 3 is a block diagram showing a video conference system according to a second embodiment of the present invention.

【図4】本発明の第3の実施の形態に係るテレビ会議シ
ステムを示すブロック図である。
FIG. 4 is a block diagram showing a video conference system according to a third embodiment of the present invention.

【図5】従来のテレビ会議装置を示すブロック図であ
る。
FIG. 5 is a block diagram showing a conventional video conference device.

【符号の説明】[Explanation of symbols]

1、21、21A〜21N、61N−1〜61N+1…
…テレビ会議装置、2……音声スイッチ、27……音声
検出回路、28……スイッチ回路、29、37……遅延
回路、35……暗騒音検出回路、36……送話レベル検
出回路、50、60……テレビ会議システム、51……
多地点接続装置
1, 21, 21A to 21N, 61N-1 to 61N + 1 ...
... Teleconference device, 2... Voice switch, 27... Voice detection circuit, 28... Switch circuit, 29, 37... Delay circuit, 35. , 60 ... Videoconferencing system, 51 ...
Multipoint connection device

Claims (14)

【特許請求の範囲】[Claims] 【請求項1】 音声信号の暗騒音レベルを検出する暗騒
音検出手段と、 前記音声信号の平均レベルを検出する送話レベル検出手
段と、 前記暗騒音レベルと前記平均レベルとを比較して音声検
出結果を出力する比較手段と、 前記送話レベル検出手段における処理に対応する時間だ
け、前記音声信号を遅延して出力する遅延手段とを備え
ることを特徴とする音声検出装置。
1. A background noise detection means for detecting a background noise level of an audio signal, a transmission level detection means for detecting an average level of the audio signal, and a sound by comparing the background noise level with the average level. A voice detection device comprising: a comparison unit that outputs a detection result; and a delay unit that delays and outputs the voice signal by a time corresponding to a process performed by the transmission level detection unit.
【請求項2】 前記暗騒音検出手段は、 前記音声信号の電力を検出する電力検出手段と、 前記電力のボトム値を検出して前記暗騒音レベルを出力
するボトム値検出手段とを有することを特徴とする請求
項1に記載の音声検出装置。
2. The apparatus according to claim 1, wherein the background noise detection unit includes: a power detection unit that detects power of the audio signal; and a bottom value detection unit that detects a bottom value of the power and outputs the background noise level. The voice detection device according to claim 1, wherein
【請求項3】 前記送話レベル検出手段は、 前記音声信号の電力を検出する電力検出手段と、 前記電力の平均値を検出して前記平均レベルを出力する
平均値検出手段とを有することを特徴とする請求項1に
記載の音声検出装置。
3. The transmission level detection means includes: power detection means for detecting power of the audio signal; and average value detection means for detecting an average value of the power and outputting the average level. The voice detection device according to claim 1, wherein
【請求項4】 前記比較手段は、 前記暗騒音レベルに第1のしきい値レベルを加算した第
1の加算信号レベルより前記平均レベルが立ち上がると
前記音声検出結果を立ち上げ又は立ち下げ、 前記暗騒音レベルに第1のしきい値レベルより小さな第
2の信号レベルを加算した第2の加算信号レベルより前
記平均レベルが立ち下がると前記音声検出結果を立ち下
げ又は立ち上げることを特徴とする請求項1に記載の音
声検出装置。
4. The sound detection result rises or falls when the average level rises from a first addition signal level obtained by adding a first threshold level to the background noise level. When the average level falls below a second addition signal level obtained by adding a second signal level smaller than the first threshold level to the background noise level, the voice detection result falls or rises. The voice detection device according to claim 1.
【請求項5】 マイクより入力した話者の音声信号を通
話対象に送出する通話装置において、 音声検出手段による音声検出結果に基づいて、前記音声
検出手段より出力される前記音声信号を切り換えて送出
する切り換え手段を有し、 前記音声検出手段は、 前記音声信号の暗騒音レベルを検出する暗騒音検出手段
と、 前記音声信号の平均レベルを検出する送話レベル検出手
段と、 前記暗騒音レベルと前記平均レベルとを比較して音声検
出結果を出力する比較手段と、 前記送話レベル検出手段における処理に対応する時間だ
け、前記音声信号を遅延して出力する遅延手段とを備え
ることを特徴とする通話装置。
5. A communication device for transmitting a voice signal of a speaker input from a microphone to a communication target, wherein the voice signal output from the voice detection means is switched and transmitted based on a voice detection result by voice detection means. The voice detection means includes: a background noise detection means for detecting a background noise level of the voice signal; a transmission level detection means for detecting an average level of the voice signal; and the background noise level. Comparing means for comparing the average level and outputting a voice detection result; and delaying means for delaying and outputting the voice signal for a time corresponding to processing in the transmission level detecting means. Intercom equipment.
【請求項6】 前記切り換え手段は、 前記音声検出結果により前記話者が音声を発声していな
い場合、前記音声信号の出力を中止することを特徴とす
る請求項5に記載の通話装置。
6. The communication apparatus according to claim 5, wherein the switching unit stops outputting the voice signal when the speaker does not utter a voice according to the voice detection result.
【請求項7】 前記暗騒音検出手段は、 前記音声信号の電力を検出する電力検出手段と、 前記電力のボトム値を検出して前記暗騒音レベルを出力
するボトム値検出手段とを有することを特徴とする請求
項5に記載の通話装置。
7. The background noise detection unit includes: a power detection unit that detects power of the audio signal; and a bottom value detection unit that detects a bottom value of the power and outputs the background noise level. The communication device according to claim 5, characterized in that:
【請求項8】 前記送話レベル検出手段は、 前記音声信号の電力を検出する電力検出手段と、 前記電力の平均値を検出して前記平均レベルを出力する
平均値検出手段とを有することを特徴とする請求項5に
記載の通話装置。
8. The transmission level detection means includes: power detection means for detecting power of the audio signal; and average value detection means for detecting an average value of the power and outputting the average level. The communication device according to claim 5, characterized in that:
【請求項9】 前記比較手段は、 前記暗騒音レベルに第1のしきい値レベルを加算した第
1の加算信号レベルより前記平均レベルが立ち上がると
前記音声検出結果を立ち上げ又は立ち下げ、 前記暗騒音レベルに第1のしきい値レベルより小さな第
2の信号レベルを加算した第2の加算信号レベルより前
記平均レベルが立ち下がると前記音声検出結果を立ち下
げ又は立ち上げることを特徴とする請求項5に記載の通
話装置。
9. The sound detection result rises or falls when the average level rises from a first addition signal level obtained by adding a first threshold level to the background noise level, When the average level falls below a second addition signal level obtained by adding a second signal level smaller than the first threshold level to the background noise level, the voice detection result falls or rises. The communication device according to claim 5.
【請求項10】 マイクより入力した話者の音声信号
を、撮像手段により取得した前記話者の映像信号と共に
通話対象に送出する通話装置において、 音声検出手段による音声検出結果に基づいて、前記音声
検出手段より出力される前記音声信号を切り換える切り
換え手段と、 前記切り換え手段より入力される音声信号を符号化して
音声による符号化データを出力する音声の符号化手段
と、 前記映像信号を符号化して映像の符号化データを出力す
る映像の符号化手段と、 前記音声の符号化手段より出力される音声による符号化
データを直接に又は間接的に遅延させる第1の遅延手段
とを有し、 前記音声検出手段は、 前記マイクより入力される音声信号の暗騒音レベルを検
出する暗騒音検出手段と、 前記音声信号の平均レベルを検出する送話レベル検出手
段と、 前記暗騒音レベルと前記平均レベルとを比較して音声検
出結果を出力する比較手段と、 前記送話レベル検出手段における処理に対応する時間だ
け、前記音声信号を遅延して出力する遅延手段とを備
え、 前記第1の遅延手段における遅延時間と、前記音声検出
手段の前記遅延手段における遅延時間とにより、前記映
像による符号化データに対して前記音声による符号化デ
ータのタイミングを補正することを特徴とする通話装
置。
10. A communication device for transmitting a voice signal of a speaker input from a microphone to a communication target together with a video signal of the speaker obtained by an imaging means, wherein the voice is detected based on a voice detection result by a voice detection means. A switching unit for switching the audio signal output from the detection unit; an audio encoding unit for encoding the audio signal input from the switching unit and outputting encoded data by audio; and encoding the video signal. A video encoding unit that outputs encoded video data, and a first delay unit that directly or indirectly delays encoded data by audio output from the audio encoding unit, Voice detection means for detecting a background noise level of a voice signal input from the microphone, and transmission for detecting an average level of the voice signal; Bell detecting means, comparing means for comparing the background noise level with the average level and outputting a sound detection result, and outputting the sound signal delayed by a time corresponding to processing in the transmission level detecting means. And a delay time in the first delay means, and a delay time in the delay means of the audio detection means, the timing of the encoded data by the audio with respect to the encoded data by the video. A communication device characterized by correcting.
【請求項11】 前記切り換え手段は、 前記音声検出結果により前記話者が音声を発声していな
い場合、前記音声信号の送出を中止することを特徴とす
る請求項10に記載の通話装置。
11. The communication device according to claim 10, wherein the switching unit stops transmitting the voice signal when the speaker does not utter a voice according to the voice detection result.
【請求項12】 前記暗騒音検出手段は、 前記音声信号の電力を検出する電力検出手段と、 前記電力のボトム値を検出して前記暗騒音レベルを出力
するボトム値検出手段とを有することを特徴とする請求
項10に記載の通話装置。
12. The apparatus according to claim 12, wherein the background noise detection means includes: power detection means for detecting power of the audio signal; and bottom value detection means for detecting a bottom value of the power and outputting the background noise level. The communication device according to claim 10, wherein:
【請求項13】 前記送話レベル検出手段は、 前記音声信号の電力を検出する電力検出手段と、 前記電力の平均値を検出して前記平均レベルを出力する
平均値検出手段とを有することを特徴とする請求項10
に記載の通話装置。
13. The transmission level detection means includes: power detection means for detecting power of the audio signal; and average value detection means for detecting an average value of the power and outputting the average level. Claim 10
A telephone device according to claim 1.
【請求項14】 前記比較手段は、 前記暗騒音レベルに第1のしきい値レベルを加算した第
1の加算信号レベルより前記平均レベルが立ち上がると
前記音声検出結果を立ち上げ又は立ち下げ、 前記暗騒音レベルに第1のしきい値レベルより小さな第
2の信号レベルを加算した第2の加算信号レベルより前
記平均レベルが立ち下がると前記音声検出結果を立ち下
げ又は立ち上げることを特徴とする請求項10に記載の
通話装置。
14. The sound detection result rises or falls when the average level rises from a first addition signal level obtained by adding a first threshold level to the background noise level, When the average level falls below a second addition signal level obtained by adding a second signal level smaller than the first threshold level to the background noise level, the voice detection result falls or rises. The communication device according to claim 10.
JP10162704A 1998-06-11 1998-06-11 Voice detecting device and speech communication device Pending JPH11355450A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10162704A JPH11355450A (en) 1998-06-11 1998-06-11 Voice detecting device and speech communication device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10162704A JPH11355450A (en) 1998-06-11 1998-06-11 Voice detecting device and speech communication device

Publications (1)

Publication Number Publication Date
JPH11355450A true JPH11355450A (en) 1999-12-24

Family

ID=15759720

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10162704A Pending JPH11355450A (en) 1998-06-11 1998-06-11 Voice detecting device and speech communication device

Country Status (1)

Country Link
JP (1) JPH11355450A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008015481A (en) * 2006-06-08 2008-01-24 Audio Technica Corp Voice conference apparatus
JP2008236585A (en) * 2007-03-23 2008-10-02 Yamaha Corp Dynamics control apparatus
US7707250B2 (en) 2006-05-02 2010-04-27 Callpod, Inc. Wireless communications connection device
US7742758B2 (en) 2005-08-19 2010-06-22 Callpod, Inc. Mobile conferencing and audio sharing technology

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7742758B2 (en) 2005-08-19 2010-06-22 Callpod, Inc. Mobile conferencing and audio sharing technology
US7899445B2 (en) 2005-08-19 2011-03-01 Callpod, Inc. Mobile conferencing and audio sharing technology
US7707250B2 (en) 2006-05-02 2010-04-27 Callpod, Inc. Wireless communications connection device
US7945624B2 (en) 2006-05-02 2011-05-17 Callpod, Inc. Wireless communications connection device
JP2008015481A (en) * 2006-06-08 2008-01-24 Audio Technica Corp Voice conference apparatus
JP2008236585A (en) * 2007-03-23 2008-10-02 Yamaha Corp Dynamics control apparatus

Similar Documents

Publication Publication Date Title
US5570372A (en) Multimedia communications with system-dependent adaptive delays
US5818514A (en) Video conferencing system and method for providing enhanced interactive communication
US8379779B2 (en) Echo cancellation for a packet voice system
US6008838A (en) Multi-point video conference system
US7853007B2 (en) Conference terminal with echo reduction for a voice conference system
KR101121212B1 (en) Method of transmitting data in a communication system
US20100183163A1 (en) Sound signal processor and delay time setting method
JPH0795300A (en) Apparatus and method for communication of conference
US7409056B2 (en) Switchboard for dual-rate single-band communication system
US8515039B2 (en) Method for carrying out a voice conference and voice conference system
US6522633B1 (en) Conferencing arrangement for use with wireless terminals
JPH11355450A (en) Voice detecting device and speech communication device
US7606330B2 (en) Dual-rate single band communication system
JP3069547B2 (en) Speech rate hands-free unit and speech system
US11842750B2 (en) Communication transmission device and voice quality determination method for communication transmission device
US6683944B2 (en) Voice transmitter
JP3139437B2 (en) Audio signal detection processor
JP2661567B2 (en) Multipoint video conference system
JP3441112B2 (en) Multipoint communication controller
RU2341907C1 (en) METHOD OF MIXING SUBSCRIBER VOICE SIGNALS DURING VoIP-CONFERENCING
JPH09162785A (en) Voice communication terminal equipment and voice communication method
JPS61227458A (en) Conference telephone set
JPH03226145A (en) Voice packet communication system
JPH09163333A (en) Voice delay controller
JPH08317362A (en) Terminal equipment for video conference system