JPH10145764A - 話者検出方法および多地点テレビ会議装置 - Google Patents

話者検出方法および多地点テレビ会議装置

Info

Publication number
JPH10145764A
JPH10145764A JP8292367A JP29236796A JPH10145764A JP H10145764 A JPH10145764 A JP H10145764A JP 8292367 A JP8292367 A JP 8292367A JP 29236796 A JP29236796 A JP 29236796A JP H10145764 A JPH10145764 A JP H10145764A
Authority
JP
Japan
Prior art keywords
speaker
video conference
difference signal
voice
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP8292367A
Other languages
English (en)
Inventor
Noriyuki Ihara
範幸 井原
Takafumi Enami
隆文 枝並
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP8292367A priority Critical patent/JPH10145764A/ja
Publication of JPH10145764A publication Critical patent/JPH10145764A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)

Abstract

(57)【要約】 【課題】 PCMまで復号しなくても話者を識別でき、
しかも、ノイズに強く、話者識別を安定に行えるように
する。 【解決手段】 複数の話者検出対象者(会議参加者)の
音声をそれぞれ符号化した音声圧縮符号を受信し、該音
声圧縮符号に基づいて発言している話者を検出する場合
において、予測差分信号復号部10a〜10cはそれぞ
れの音声圧縮符号より予測差分信号PDSを復号し、話
者検出部20は得られた各予測差分信号に含まれる基本
ピッチ成分の周期性とエネルギーを求め、基本ピッチ成
分に周期性があり、かつ、基本ピッチ成分のエネルギー
が最も大きな予測差分信号に応じた会議参加者を発言者
と認識する.

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は話者検出方法および
多地点テレビ会議装置に係わり、特に、多地点テレビ会
議装置において発言している会議参加者(話者)を検出
する話者検出方法および該話者検出機能を備えた多地点
テレビ会議装置に関する。
【0002】
【従来の技術】異なる地点の多人数で伝送路を用いたテ
レビ会議を行う場合、それぞれの地点に設けられたテレ
ビ会議端末は多地点テレビ会議装置を経由して相互に接
続される。図10はかかる多地点テレビ会議システムの
構成図であり、1a〜1cは各地点(A地点、B地点、
C地点)に設けられたテレビ会議端末、2は多地点テレ
ビ会議装置(MCU)である。多地点テレビ会議装置2
は各テレビ会議端末1a〜1cより伝送路3a〜3cを
介して会議参加者の音声信号および画像信号を受信し、
所定の音声信号および映像信号を選択して各テレビ会議
端末に分配する。すなわち、多地点テレビ会議装置2は
音声について、テレビ会議端末1aにテレビ会議端末1
b,1cからの音声をミキシングして送信し、テレビ会
議端末1bにテレビ会議端末1a,1cからの音声をミ
キシングして送信し、テレビ会議端末1cにテレビ会議
端末1a,1bからの音声をミキシングして送信する。
また、映像信号については、音声により発言中の会議参
加者(話者)を検出し、話者のテレビ会議端末から送ら
れてくる映像信号を他のテレビ会議端末に送信する。
【0003】図11は多地点テレビ会議装置2による上
記音声/映像信号の分配機能を説明する概念図であり、
2aは音声混合器、2bは話者検出部、2cは映像切り
替え器である。音声/映像は圧縮符号化した符号化音声
/符号化映像データの形式で送受される。多地点テレビ
会議装置2の話者検出部2bは話者の検出を以下のよう
に行う。すなわち、各地点のテレビ会議端末からそれ
ぞれ送られてくる音声圧縮符号(G.728,G.722,G711)をリ
ニアPCMに復号し、ついで、所定のリニアPCMに
ついて、所定時間幅毎の最大音声PCMサンプリング値
を検出し、最新のm個の前記最大音声の加算を行い、
各リニアPCMについての処理を行い、各加算値が
一定時間以上継続して設定値以上になったか調べ、一
定時間以上継続して設定値以上の加算値のうち最大の加
算値に応じた音声圧縮符号を送出するテレビ会議端末の
会議参加者を発言者として検出する。
【0004】図12はPCM波形復号化部の構成図であ
り、図12(a)はG.728(LD-DELP:コード励起線形予
測符号化)による圧縮音声符号を復元するブロック図、
図12(b)はG.722(SB-ADPCM:サブバンド適応予測符
号化)による圧縮音声符号を復元するブロック図、図1
2(c)はG.711(非線形PCMによる符号化)による圧
縮音声符号を復元するブロック図である。図12(a)
において、5aは復号化すべきG.728音声圧縮符号、5
bは励起QVコードブック、5cは利得調整部、5dは利
得適応器、5eは合成フィルタ、5fは合成フィルタ適
応器、5gは復号されたPCM信号である。図12
(b)において、6aは復号化すべきG.722音声圧縮符
号、6bは適応量子化器、6cは量子化器適応部、6d
は予測器、6eは予測器適応部、6fは復号されたPC
M信号である。図12(c)において、7aは復号化す
べきG.711音声圧縮符号、7bは符号化表引き部、7c
は復号されたPCM信号である。尚、これらG.728、 G.
722、 G.711による符号化、復号化処理は周知であるた
め詳細な説明は省略する。
【0005】図13は話者検出手順説明図であり、8
a,8b,8cはA地点、B地点、C地点のテレビ会議
端末から受信した音声圧縮符号をPCM信号に復号化す
る復号化部、8dは各地点の所定時間幅毎の最大音声
PCMサンプリング値を検出し、地点毎に最新のm個
の前記最大音声の加算を行い、各加算値(パワー)が
一定時間以上継続して設定値以上になったか調べるパワ
ーレベル持続監視部、8eは一定時間以上継続して設定
値以上の加算値のうち最大の加算値(パワー)を求める
パワー比較部、8fは最大の加算値(パワー)に応じた
音声圧縮符号を送出するテレビ会議端末の使用者(会議
参加者)を話者として検出する話者選択部である。
【0006】
【発明が解決しようとする課題】ところで、数年前まで
のテレビ会議端末は、多くが高価で大型であった。しか
し、現在ではハードウェアの低価格化及び高性能化が進
み、パソコン上でのテレビ会議端末が製品化されたた
め、広範囲で普及されつつある。このため、多地点テレ
ビ会議装置ついても低価格化、高性能化のニーズが高ま
っている。しかし、従来の話者検出方法においては、各
地点分の音声圧縮符号をリニヤPCMにまで復号する音
声復号器が必要となるため、ハードウェア量が多くなり
多地点テレビ会議装置の低価格化のネックになってい
る。
【0007】また、従来の話者検出方法では、PCMを
用いた最大音声の検出を行うため、音声以外のノイズが
持続するような場合には音声とノイズの区別がつきにく
く、外部ノイズが多い地点においてノイズを会議参加者
の音声と誤検出する場合が頻発する。このため、発言者
を誤検出して、正常な映像切り替えを行うことができな
くなるという問題があった。図14はかかる状況の説明
図であり、A地点の会議参加者が発言しているにもかか
わらず、B地点における外部ノイズによりB地点の会議
参加者を発言者(話者)と誤認識し、C地点のテレビ会
議端末1cにB地点からの映像信号を送出してしまう。
【0008】以上から、本発明の目的は、圧縮音声符号
をPCMまで復号しなくても話者を識別でき、しかも、
多地点テレビ会議装置のハードウェア量を削減できるよ
うにすることである。本発明の別の目的は、音声による
話者の検出を高速に、ノイズに強く、しかも安定に行え
るようにすることである。
【0009】
【課題を解決するための手段】上記課題は本発明によれ
ば、複数の話者検出対象者の音声をそれぞれ符号化した
音声圧縮符号より予測差分信号を復号する予測差分信号
復号部、得られた予測差分信号に含まれる基本ピッチ成
分の周期性を算出する手段、周期性の有無により話者の
音声とノイズを区別する手段により達成される。また、
上記課題は、本発明によれば、複数の話者検出対象者の
音声をそれぞれ符号化した音声圧縮符号より予測差分信
号を復号する予測差分信号復号部、得られた各予測差分
信号に含まれる基本ピッチ成分の周期性とエネルギーを
算出する手段、基本ピッチ成分に周期性があり、かつ、
基本ピッチ成分のエネルギーが最も大きな予測差分信号
に応じた話者を発言者と認識する話者識別部により達成
される。
【0010】上記課題は、異なる地点に設けられたテレ
ビ会議端末に接続され、各テレビ会議端末より伝送路を
介して送られてくる音声信号および画像信号を受信し、
音声信号を混合して各テレビ会議端末に送信すると共
に、発言者のテレビ会議端末から送られてくる映像信号
を他のテレビ会議端末に送信する多地点テレビ会議装置
において、各テレビ会議端末より送られてくる音声圧縮
符号より予測差分信号を復号する予測差分信号復号部
と、得られた各予測差分信号に含まれる基本ピッチ成分
の周期性とエネルギーを算出する手段と、基本ピッチ成
分に周期性があり、かつ、基本ピッチ成分のエネルギー
が最も大きな予測差分信号に応じたテレビ会議端末を使
用する会議参加者を話者と認識する手段と、話者のテレ
ビ会議端末から送られてくる映像信号を選択して他のテ
レビ会議端末に送信する送信手段を備えた多地点テレビ
会議装置により達成される。。
【0011】
【発明の実施の形態】
(a)本発明の原理 本発明は音声特に母音の生成モデルがパルス音源+AR
モデル(声道モデル)で表現できることを基本としてい
る。音声波形は、声帯に対応する音源信号S(z)と声
道を表現するARフィルタ(伝達関数H(z)=1/G
(z))とにより表現する事ができる。すなわち、実際
の音声波形V(z)は、 V(z)=S(z)・H(z) となる。線形予測方式による音声符号化では予測器によ
り得られる予測係数は方式による差異はあるにしろ音声
を表現する伝達関数の分母式G(z)の近似式G′
(z)の係数と考えることができる。従って予測誤差信
号S′(z)は S′(z)=V(z)・G′(z) となり、音源波形S(z)を近似したものとなる。予測
誤差信号S′(z)は音源S(z)に対して予測誤差を
含んでいるが、予測誤差分については白色雑音で近似す
ることができ、音源S(z)のもつ等間隔のパルス列と
うい性質を持っている。
【0012】線形予測方式により音声圧縮されて送られ
てきた音声圧縮符号を復号する過程(予測器入力)にお
いて予測誤差信号S′(z)が得られる。音源が非音声
(ノイズ)である場合には予測誤差信号S′(z)の等
間隔パルス性は失われる。従って、PCMまで復号化し
なくても、予測誤差信号S′(z)が得られれば、該予
測誤差信号S′(z)における等間隔のパルス性の検出
を行うことにより音声(母音)と非音声(ノイズ)との
識別を行うことができる。また、予測誤差信号S′
(z)のエネルギー大小により音声の大小を判断でき
る。
【0013】以上より、テレビ会議で用いられる音声圧
縮方式(G.728, G.722, G.711)の線形予測符号化の特性
を利用することで音声圧縮符号から予測差分信号を求
め、該予測差分信号に含まれる基本ピッチの周期性およ
びエネルギーに基づいて音声とノイズの識別、発言して
いる話者の識別を行うことができ、ハードウエア量の削
減および、計算処理の軽減を図ることができる。すなわ
ち、ノイズ等でなく人の音声の特徴を捕まえることによ
り、背景ノイズによる誤動作がない話者検出を実現する
と同時に、話者検出のための計算量の削減をも実現する
ことができ、ハードウエア量の削減および、高速処理を
実現できる。
【0014】(b)本発明の概略 (1) 音の発声源が人である事を利用し、特に音声波形に
含まれる基本ピッチ成分波形を予測差分信号より抽出
し、その波形の周期性に関するパラメータおよびエネル
ギー持続度を表すパラメータを算出することにより、話
者音声と予測差分信号に基本ピッチを含まない外部ノイ
ズ音(機械音、くしゃみ、など)との識別を行い、ノイ
ズに影響されずに話者を検出する。 (2) 線形予測方式により符号化した音声圧縮符号をテレ
ビ会議端末より受信する多地点テレビ会議装置におい
て、上記(1) の考えを基本として、予測量子化器の出力
である予測誤差信号に含まれる基本ピッチ成分が人と判
定できるピッチ周期以内でありかつそのエネルギー持続
を確認した後、音声の検出行う。これにより、外部雑音
に影響されにくい音声識別機能と音声検出に要する計算
量の削減を同時に実現する。
【0015】(3) 複数の話者が同時に発言する場合に、
上記(2) により検出される人物の中から線形予測誤差波
形のエネルギー(平均2乗和または絶対値ピーク)を評
価値として複数話者中から単一話者を正しく選択する。 (4) 多地点テレビ会議装置は、テレビ会議音声符号化方
式であるG.728(LD-CELP:コード励起線型予測符号化)に
より符号化した音声圧縮符号をテレビ会議端末より受信
し、量子化適応および逆量子化処理により得られる予測
差分信号に対して上記(1) の方法を作用することで、各
地点における会議参加者の音声有無の安定な検出を可能
にし、かつ必要な計算量を少なくし、ハードウェア量の
削減を実現する。すなわち、多地点テレビ会議装置は、
該音声圧縮符号化データを完全に復号化してリニアPC
Mデータに再生することなく、予測差分信号を用いて各
地点における会議参加者の音声有無を検出する。
【0016】(5) 多地点テレビ会議装置は、G.728によ
り符号化した音声圧縮符号をテレビ会議端末より受信
し、量子化適応および逆量子化処理により得られる予測
差分信号に含まれる基本ピッチ成分のパラメータ(周
期、エネルギー)を抽出、比較する事で複数人が同時に
発声している場合の話者の選択を安定して実現する。 (6) 多地点テレビ会議装置は、テレビ会議音声符号化方
式であるG.722(SB-ADPCM:サブバンド適応予測符号化)
により符号化した音声圧縮符号をテレビ会議端末より受
信し、量子化適応および逆量子化処理により得られる予
測差分信号に対して上記(1) の方法を作用することで、
各地点における会議参加者の音声有無の安定な検出を可
能にし、かつ必要な計算量を少なくし、ハードウェア量
の削減を実現する。すなわち、多地点テレビ会議装置
は、該音声圧縮符号化データを完全に復号化してリニア
PCMデータに再生することなく、予測差分信号を用い
て各地点における会議参加者の音声有無を検出する。
【0017】(7) 多地点テレビ会議装置は、G.722によ
り符号化した音声圧縮符号をテレビ会議端末より受信
し、量子化適応および逆量子化処理により得られる予測
差分信号に含まれる基本ピッチ成分のパラメータ(周
期、エネルギー)を抽出、比較する事で複数人が同時に
発声している場合の話者の選択を安定して実現する。 (8) 多地点テレビ会議装置は、テレビ会議音声符号化方
式であるG.711(非線形PCMによる音声符号化)により
符号化した音声圧縮符号をテレビ会議端末より受信し、
該音声圧縮符号データにG.722またはG.728の適応予測部
の処理を作用させることにより各地点における会議参加
者の音声有無検出を可能にし、必要な計算量を少なく
し、ハードウェア量の削減と共に高速処理する。
【0018】(c)多地点テレビ会議装置 図1は本発明の多地点テレビ会議装置の話者検出装置の
構成図である。10a〜10cはそれぞれ地点A〜地点
Cのテレビ会議端末から送信されてくる音声圧縮符号デ
ータより予測差分信号PDSを復号する予測差分信号復
号部であり、予測差分信号PDSは入力音声に対して図
2に示す波形を有している。20は発言している話者を
検出する話者検出部であり、母音評価値算出部21a〜
21cと話者決定部31を有している。母音評価値算出
部21a〜21cは各予測差分信号PDSを用いて母音
の基本ピッチ成分の周期性とエネルギーを算出し、話者
決定部31は基本ピッチ成分に周期性があり、かつ、基
本ピッチ成分のエネルギーが最も大きな予測差分信号に
応じたテレビ会議端末(会議参加者)を話者と認識す
る。
【0019】図3は多地点テレビ会議装置の全体の構成
図であり、図1と同一部分には同一符号を付している。
図中、11a〜11c,11a′〜11c′はネットワ
ーク(ISDN網、専用線網等)に接続された回線イン
タフェース部であり、ネットワークを介して各テレビ会
議端末より音声/映像信号を受信すると共に、各テレビ
会議端末に所定の音声/映像信号を送出する。12a〜
12cは各テレビ会議端末より多重されて送られてくる
音声/映像を分離する音声/映像分離部、13は発言し
ている話者(テレビ会議端末)より送出されてきた映像
データを選択して出力する映像切り替え回路、14は音
声をミキシングして出力する音声ミキシング回路、15
は音声と映像を多重して出力する音声/映像多重部、1
0a〜10cは図1に示した予測差分信号復号部、20
は話者検出部である。
【0020】図4は予測差分信号復号部の構成図であ
り、図4(a)はG.728予測差分信号復号部のブロック
図、図4(b)はG.722予測差分信号復号部のブロック
図、図4(c)はG.711予測差分信号復号部のブロック
図である。図4(a)において、51aはG.728音声圧
縮符号、51bは励起QVコードブック、51cは利得調
整部、51dは利得適応器、51eはG.728予測差分信
号である。図4(b)において、52aはG.722音声圧
縮符号、52bは適応量子化器、52cは量子化器適応
部、52dはG.722予測差分信号である。図4(c)に
おいて、53aはG.711音声圧縮符号、53bは符号化
表引き部、53cは符号化表引き部より出力されるPC
M信号にG7.22符号化処理を施してその過程で発生する
G.722予測差分信号を出力するG.722予測符号化部であ
り、53c-1は適応量子化器、53c-2は量子化器適応部、53
c-3は逆量子化器、53c-4は予測器、53c-5は予測器適応
部である。
【0021】G.728、 G.722、 G.711による符号化、復
号化処理は周知であるため詳細な説明は省略するが、G.
728音声圧縮符号および G.722音声圧縮符号については
PCM信号への復号の過程で予測差分信号51e,52
dが得られる。G.711音声圧縮符号の場合にはPCM信
号への復号に際して予測差分信号を得ることができない
ため、復号により得られたPCM信号をG.722あるいは
G.728により符号化し、符号化の過程で発生する予測差
分信号を出力する。
【0022】(d)話者検出制御 母音評価値算出部21a〜21cは各予測差分信号PD
Sを用いて母音の基本ピッチ成分の周期性とエネルギー
を算出し、話者決定部31は基本ピッチ成分に周期性が
あり、かつ、基本ピッチ成分のエネルギーが最も大きな
予測差分信号に応じたテレビ会議端末(会議参加者)を
話者と認識する。具体的な基本ピッチ成分の周期性、エ
ネルギーの算出は以下のように行う。
【0023】図5は基本ピッチ成分の周期性算出の説明
図であり、x(t)は予測差分信号である。母音の場
合、予測差分信号x(t)に出現する最大ピークパルス
(基本ピッチ成分)Pは周期性を有しており、そのパル
ス周波数は50Hz〜400Hz であり、周期換算すると20ms〜
2.5ms である。入力音声の周期は未知であるため、種々
の周期で予測差分信号をサンプリング、それぞれの周期
毎にサンプリング値を累計し、各周期での累計値の最大
値を母音評価値とする。そして、(1) この母音評価値が
設定値以上の場合には周期性を有するものと判定し、す
なわち、入力音声は人の音声であると判定し、(2) 母音
評価値が設定値以下の場合には周期性を有せず、外部ノ
イズであると判定する。例えば、入力音声の基本ピッチ
成分の周期が10msであれば、周期10msで累計し
た累計値が最大になり、該累計値は設定値以上になる。
しかし、外部ノイズの場合には周期性がないため、最大
累計値は設定値以下となる。
【0024】サンプリングパスSPの周波数fsとし、
また、周期性を判断する周期範囲をcL, cHとする(cL<
cH)。ここでcLは母音の基本ピッチ成分の最小周期、cH
は最大周期であり、それぞれ2.5ms, 20msである。最小
周期cH の半分程度のパルス幅(T)毎に予測誤差波形
を絶対値累積して得られる信号w(n) とすると、 w(n)=Σx(nT+j) 但し、j=1,2,・・・,T-1 (1) となる。すなわち、信号w(n) は周期T内のサンプリン
グパルス数分、予測差分信号x(t) をサンプリングした
サンプリング値の合計である。
【0025】ついで、周期T、2T、3T・・・毎の信
号w(n) の累積値Y1(n),Y2(n),Y3(n)、・・・を演算
する。ただし、 NH=cH/T, NL=cL/T とすれば、信号w
(n) をそれぞれ NL,NL+1,・・・NH 毎に次式 Yi(n)=w(n)+αYi(n-i) (i=NL,NL+1,・・・NH) (2) により累計して、累計値(原始評価値)Yi(n)を演算す
る。(2)式において、αは忘却係数で、0<α<1であ
る。また、Yi(n-i)はi・T前の原始評価値である。以
上により、i=NLとすれば、NL・T毎の原始評価値YNL(n)
を演算でき、i=(NL+1)とすれば、(NL+1)・T毎の原始評価
値Y(NL+1)(n)を演算でき、・・・、i=NHとすれば、NH・
T毎の原始評価値YNH(n)を演算できる。
【0026】各周期の原始評価値が求まれば、Yi(n)の
最大値を求め、その時のiを基本ピッチiopt とし、ま
た、最大の原始評価値を母音評価値yopt とする。な
お、異なるiで同一の評価値を示す場合にはiの小さい
方を基本ピッチとする。ついで、母音評価値yopt と設
定レベルTHyを比較し、 yopt>THy の場合には参加者の音声(母音)であると判定し、 yopt<THy の場合にはノイズであると判定する。実際の基本ピッチ
周期Tpは Tp=iopt×T×Ts(Tsはサンプリング周期) (3) となる。
【0027】また、多地点テレビ会議装置において、複
数の音声入力が検出された場合にはそれらのうちから最
も確度の高い音声入力を選択して発言者(話者)として
特定する必要がある。かかる場合には上記母音評価値同
士の比較を行い、母音評価値(エネルギー)の最も大き
な音声入力者を話者と判定する。図2に音声のリニアP
CM、予測誤差波形、母音評価値の例を示す。
【0028】図6は母音評価値算出および話者決定処理
フローである。予測差分信号復号部10a〜10cは対
応するテレビ会議端末より送られてくる音声圧縮符号デ
ータより予測差分信号を復号する(ステップ101)。
ついで、母音評価値算出部21a〜21cは周期T毎に
(1)式より信号w(n)を演算し(ステップ102)、(2)式
に基づいて種々の周期での母音原始評価値を演算し(ス
テップ103)、最大の原始評価値を母音評価値yopt
として求める(ステップ104)。各テレビ会議端末か
らの音声圧縮符号の母音評価値yopt が求まれば、話者
決定部31は、それぞれの母音評価値yopt と閾値THy
を比較し(ステップ105)、yopt<THy の場合にはノ
イズであると判断する。すなわち、yopt<THy の場合
には母音評価値 yoptに応じたテレビ会議端末(会議参
加者)は発言無しと判定する(ステップ106)。
【0029】一方、yopt>THy の場合には他の母音評
価値と大小比較し(ステップ107)、最大の母音評価
値以外の母音評価値に応じたテレビ会議端末(会議参加
者)は発言無しと判定する(ステップ106)。また、最
大の母音評価値に応じたテレビ会議端末(会議参加者)は
発言中であり話者と判定する(ステップ108)。以上
より、音声波形の中から取り出した基本ピッチ成分から
周期を抽出することにより、音源が音声の場合、ピッチ
成分がかなり正確なパルス列となるため、ピッチ周期を
検出する事により、人の音声かノイズかの判断が可能と
なる。また、人の音声と判断できるピッチ周期が一定時
間持続する事を確認する事により、短音の発声か、連続
発声かの判断が可能となり、連続発声に対する安定した
話者検出が可能となる。
【0030】(e)変形例 以上では、それぞれの音声圧縮符号より予測差分信号を
復号し、得られた各予測差分信号に含まれる基本ピッチ
成分の周期性とエネルギーを求め、基本ピッチ成分に周
期性があり、かつ、基本ピッチ成分のエネルギーが最も
大きな予測差分信号に応じた話者を発言者と認識した
が、以下のようにして話者を検出することもできる。各
周期の母音原始評価値のうち、ある一定の閾値を越えた
もののうち、最大のものを母音評価値yoptとし、他の
端末の母音評価値と比較し、母音評価値が最大のものを
最大音声の端末として決定する。ついで、決定された端
末の音声パルスの周期を(3)式により求め、次の音声パ
ルスを予測し、予測範囲に音声パルスが発生した場合、
音源が音声であると認識し、話者とみなす。一方、予測
範囲に音声パルスが発生しない場合、音源が音声でない
と判断し、再度、最大音声端末の決定から繰り返す。
【0031】(f)各種音声符号則の話者検出構成 図7は音声符号則がG.728の場合における話者検出構
成、図8は音声符号則がG.722の場合における話者検出
構成、図9は音声符号則がG.711の場合における話者検
出構成である。図7において10a〜10cはG.728の
予測差分信号復号部であり、図4(a)に示す構成を有
するもの、21a〜21c母音評価値算出部、31は話
者決定部である。図8において、10a〜10cはG.72
2の予測差分信号復号部であり、図4(b)に示す構成
を有するもの、21a〜21cは母音評価値算出部、3
1は話者決定部である。図9において、10aはG.711
の予測差分信号復号部であり、図4(c)に示す構成を
有するもの、21aは母音評価値算出部、31は話者決
定部、41は各地点のテレビ会議端末からのG.711音声
圧縮符号を混合する混合部である。
【0032】音声符号則がG.728, G.722 の場合、予測
差分信号復号部10a〜10cにおいて音声符号を予測
差分信号まで復号化し、予測差分信号に基づいて最大音
声を検出する。これにより、予測差分信号からリニアP
CMまで復号化する機構が不必要となる。また、G728,
G722 の音声符号を予測差分信号に復号化し、音源が音
声の場合、予測誤差信号の基本ピッチ成分がかなり正確
な幅を持ったパルス列となるため、パルスの周期を監視
することにより、ノイズと音声の識別が可能となる。さ
らに、人の音声と判断できるピッチ周期が一定時間持続
する事を確認する事により、短音の発声か、連続発声か
の判断が可能となり、連続発声に対する安定した話者検
出が可能となる。
【0033】音声符号則がG.711 の場合、復号化表を用
いて得られた音声データ(PCMデータ)をG.722また
はG.728の適応予測部を作用させ、予測差分信号まで符
号化し、得られた予測差分信号により最大音声を検出す
る。音源が音声の場合、予測差分信号の基本ピッチ成分
がかなり正確な幅を持ったパルス列となるため、パルス
の周期を監視することにより、ノイズと音声の識別が可
能となる。人の音声と判断できるピッチ周期が一定時間
持続する事を確認する事により、短音の発声か、連続発
声かの判断が可能となり、連続発声に対する安定した話
者検出が可能となる。また、G.711の音声符号を、G.722
予測差分信号を用いて扱うことにより、多地点テレビ会
議装置に接続された端末の音声符号則がG.711, G.72
2混在の場合にも、G.722 単一の場合と同じ処理により
話者検出が可能となる。以上、本発明を実施例により説
明したが、本発明は請求の範囲に記載した本発明の主旨
に従い種々の変形が可能であり、本発明はこれらを排除
するものではない。
【0034】
【発明の効果】以上本発明によれば、それぞれの音声圧
縮符号より予測差分信号を復号し、得られた各予測差分
信号に含まれる基本ピッチ成分の周期性とエネルギーを
求め、基本ピッチ成分に周期性があり、かつ、基本ピッ
チ成分のエネルギーが最も大きな予測差分信号に応じた
者を発言者と認識するようにしたから、通常の多地点テ
レビ会議装置における発言者検出の大半をしめる予測信
号の計算および予測器の適応処理を省略でき、この結
果、ハードウェアの削減、発言者の高速検出が可能にな
った。また、本発明によれば、音声パルスの周期性に基
づいて話者の検出を行うため、ノイズによる影響を受け
ることがなく、安定した話者検出が可能となる。本発明
によれば、それぞれの音声圧縮符号より予測差分信号を
復号し、得られた予測差分信号に含まれる基本ピッチ成
分の周期性を求め、該周期性の有無により話者の音声と
ノイズを区別することができる。
【図面の簡単な説明】
【図1】多地点テレビ会議装置における話者検出装置の
構成図である。
【図2】音声のリニヤPCM、予測誤差波形、母音評価
値の波形説明図である。
【図3】多地点テレビ会議装置の構成図である。
【図4】予測差分信号復号部の構成図である。
【図5】基本ピッチ成分の周期性算出説明図である。
【図6】母音評価値算出および話者決定処理フローであ
る。
【図7】G.728話者検出方式のブロック図である。
【図8】G.722話者検出方式のブロック図である。
【図9】G.711話者検出方式のブロック図である。
【図10】多地点テレビ会議システムの構成図である。
【図11】音声/映像分配機能の説明図である。
【図12】PCM波形復号化ブロック構成図である。
【図13】PCM波形からの話者検出手順説明図であ
る。
【図14】従来技術による音声識別の問題点の説明図で
ある。
【符号の説明】
10a〜10c・・予測差分信号復号部 20・・話者検出部 21a〜21c・・母音評価値算出部 31・・話者決定部

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 複数の話者検出対象者の音声をそれぞれ
    圧縮符号化した音声圧縮符号を受信し、該音声圧縮符号
    に基づいて発言している話者を検出する話者検出方法に
    おいて、 それぞれの音声圧縮符号より予測差分信号を復号し、 得られた予測差分信号に含まれる基本ピッチ成分の周期
    性を求め、 周期性の有無により話者の音声とノイズを区別すること
    を特徴とする話者検出方法。
  2. 【請求項2】 複数の話者検出対象者の音声をそれぞれ
    圧縮符号化した音声圧縮符号を受信し、該音声圧縮符号
    に基づいて発言している話者を検出する話者検出方法に
    おいて、 それぞれの音声圧縮符号より予測差分信号を復号し、 得られた各予測差分信号に含まれる基本ピッチ成分の周
    期性とエネルギーを求め、 基本ピッチ成分に周期性があり、かつ、基本ピッチ成分
    のエネルギーが最も大きな予測差分信号に応じた話者を
    発言者と認識することを特徴とする話者検出方法。
  3. 【請求項3】 異なる地点に設けられたテレビ会議端末
    に接続され、各テレビ会議端末より伝送路を介して送ら
    れてくる音声信号および画像信号を受信し、音声信号を
    混合して各テレビ会議端末に送信すると共に、発言者の
    テレビ会議端末から送られてくる映像信号を他のテレビ
    会議端末に送信する多地点テレビ会議装置において、 各テレビ会議端末より送られてくる音声圧縮符号より予
    測差分信号を復号する予測差分信号復号部と、 得られた各予測差分信号に含まれる基本ピッチ成分の周
    期性とエネルギーを算出する手段と、 基本ピッチ成分に周期性があり、かつ、基本ピッチ成分
    のエネルギーが最も大きな予測差分信号に応じたテレビ
    会議端末を話者のテレビ会議端末と認識する手段と、 話者のテレビ会議端末から送られてくる映像信号を選択
    して他のテレビ会議端末に送信する送信手段を備えたこ
    とを特徴とする多地点テレビ会議装置。
JP8292367A 1996-11-05 1996-11-05 話者検出方法および多地点テレビ会議装置 Withdrawn JPH10145764A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8292367A JPH10145764A (ja) 1996-11-05 1996-11-05 話者検出方法および多地点テレビ会議装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8292367A JPH10145764A (ja) 1996-11-05 1996-11-05 話者検出方法および多地点テレビ会議装置

Publications (1)

Publication Number Publication Date
JPH10145764A true JPH10145764A (ja) 1998-05-29

Family

ID=17780891

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8292367A Withdrawn JPH10145764A (ja) 1996-11-05 1996-11-05 話者検出方法および多地点テレビ会議装置

Country Status (1)

Country Link
JP (1) JPH10145764A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6369846B1 (en) 1998-12-04 2002-04-09 Nec Corporation Multipoint television conference system
JP2003525552A (ja) * 2000-03-01 2003-08-26 モトローラ・インコーポレイテッド ワイヤレス通信システム内の送信
JP2013509841A (ja) * 2009-11-06 2013-03-14 フリースケール セミコンダクター インコーポレイテッド 電話会議システム、方法、およびコンピュータ・プログラム製品

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6369846B1 (en) 1998-12-04 2002-04-09 Nec Corporation Multipoint television conference system
JP2003525552A (ja) * 2000-03-01 2003-08-26 モトローラ・インコーポレイテッド ワイヤレス通信システム内の送信
JP2013509841A (ja) * 2009-11-06 2013-03-14 フリースケール セミコンダクター インコーポレイテッド 電話会議システム、方法、およびコンピュータ・プログラム製品

Similar Documents

Publication Publication Date Title
US5978756A (en) Encoding audio signals using precomputed silence
KR20060131851A (ko) 통신 장치 및 신호 부호화/복호화 방법
KR100798668B1 (ko) 무성 음성의 코딩 방법 및 장치
WO2002065457A2 (en) Speech coding system with a music classifier
KR100351484B1 (ko) 음성 부호화 장치, 음성 복호화 장치, 음성 부호화 방법 및 기록 매체
Gibson Multimedia communications: directions and innovations
US6195636B1 (en) Speech recognition over packet networks
JP2002530705A (ja) 音声の無声セグメントの低ビットレート符号化
US5890109A (en) Re-initializing adaptive parameters for encoding audio signals
WO2007140724A1 (fr) procédé et appareil pour transmettre et recevoir un bruit de fond et système de compression de silence
JP2000175170A (ja) 多地点テレビ会議システム及びその通信方法
CN111245734B (zh) 音频数据传输方法、装置、处理设备及存储介质
EP0779732A2 (en) Multi-point voice conferencing system over a wide area network
JP2002509294A (ja) 暗騒音条件下における音声符号化の方法
CN112767955B (zh) 音频编码方法及装置、存储介质、电子设备
JP3444131B2 (ja) 音声符号化及び復号装置
JPH10145764A (ja) 話者検出方法および多地点テレビ会議装置
JP2861889B2 (ja) 音声パケット伝送システム
JPH0236628A (ja) 音声信号の送信方式及び送受信方式
JP3999204B2 (ja) ディジタル回線伝送装置
JP4108396B2 (ja) 多地点制御装置の音声符号化伝送システム
JP3487158B2 (ja) 音声符号化伝送システム
US20030065512A1 (en) Communication device and a method for transmitting and receiving of natural speech
JP3496618B2 (ja) 複数レートで動作する無音声符号化を含む音声符号化・復号装置及び方法
Gibson et al. New rate distortion bounds for speech coding based on composite source models

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20040106