JPH10145764A

JPH10145764A - 話者検出方法および多地点テレビ会議装置

Info

Publication number: JPH10145764A
Application number: JP8292367A
Authority: JP
Inventors: Noriyuki Ihara; 範幸井原; Takafumi Enami; 隆文枝並
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1996-11-05
Filing date: 1996-11-05
Publication date: 1998-05-29

Abstract

(57)【要約】【課題】ＰＣＭまで復号しなくても話者を識別でき、
しかも、ノイズに強く、話者識別を安定に行えるように
する。【解決手段】複数の話者検出対象者（会議参加者）の
音声をそれぞれ符号化した音声圧縮符号を受信し、該音
声圧縮符号に基づいて発言している話者を検出する場合
において、予測差分信号復号部１０ａ〜１０ｃはそれぞ
れの音声圧縮符号より予測差分信号ＰＤＳを復号し、話
者検出部２０は得られた各予測差分信号に含まれる基本
ピッチ成分の周期性とエネルギーを求め、基本ピッチ成
分に周期性があり、かつ、基本ピッチ成分のエネルギー
が最も大きな予測差分信号に応じた会議参加者を発言者
と認識する．

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は話者検出方法および
多地点テレビ会議装置に係わり、特に、多地点テレビ会
議装置において発言している会議参加者（話者）を検出
する話者検出方法および該話者検出機能を備えた多地点
テレビ会議装置に関する。

【０００２】

【従来の技術】異なる地点の多人数で伝送路を用いたテ
レビ会議を行う場合、それぞれの地点に設けられたテレ
ビ会議端末は多地点テレビ会議装置を経由して相互に接
続される。図１０はかかる多地点テレビ会議システムの
構成図であり、１ａ〜１ｃは各地点（Ａ地点、Ｂ地点、
Ｃ地点）に設けられたテレビ会議端末、２は多地点テレ
ビ会議装置（ＭＣＵ）である。多地点テレビ会議装置２
は各テレビ会議端末１ａ〜１ｃより伝送路３ａ〜３ｃを
介して会議参加者の音声信号および画像信号を受信し、
所定の音声信号および映像信号を選択して各テレビ会議
端末に分配する。すなわち、多地点テレビ会議装置２は
音声について、テレビ会議端末１ａにテレビ会議端末１
ｂ，１ｃからの音声をミキシングして送信し、テレビ会
議端末１ｂにテレビ会議端末１ａ，１ｃからの音声をミ
キシングして送信し、テレビ会議端末１ｃにテレビ会議
端末１ａ，１ｂからの音声をミキシングして送信する。
また、映像信号については、音声により発言中の会議参
加者（話者）を検出し、話者のテレビ会議端末から送ら
れてくる映像信号を他のテレビ会議端末に送信する。

【０００３】図１１は多地点テレビ会議装置２による上
記音声／映像信号の分配機能を説明する概念図であり、
２ａは音声混合器、２ｂは話者検出部、２ｃは映像切り
替え器である。音声／映像は圧縮符号化した符号化音声
／符号化映像データの形式で送受される。多地点テレビ
会議装置２の話者検出部２ｂは話者の検出を以下のよう
に行う。すなわち、各地点のテレビ会議端末からそれ
ぞれ送られてくる音声圧縮符号(G.728,G.722,G711)をリ
ニアＰＣＭに復号し、ついで、所定のリニアＰＣＭに
ついて、所定時間幅毎の最大音声ＰＣＭサンプリング値
を検出し、最新のｍ個の前記最大音声の加算を行い、
各リニアＰＣＭについての処理を行い、各加算値が
一定時間以上継続して設定値以上になったか調べ、一
定時間以上継続して設定値以上の加算値のうち最大の加
算値に応じた音声圧縮符号を送出するテレビ会議端末の
会議参加者を発言者として検出する。

【０００４】図１２はＰＣＭ波形復号化部の構成図であ
り、図１２（ａ）はG.728(LD-DELP：コード励起線形予
測符号化)による圧縮音声符号を復元するブロック図、
図１２（ｂ）はG.722(SB-ADPCM：サブバンド適応予測符
号化)による圧縮音声符号を復元するブロック図、図１
２（ｃ）はG.711(非線形ＰＣＭによる符号化)による圧
縮音声符号を復元するブロック図である。図１２（ａ）
において、５ａは復号化すべきG.728音声圧縮符号、５
ｂは励起QVコードブック、５ｃは利得調整部、５ｄは利
得適応器、５ｅは合成フィルタ、５ｆは合成フィルタ適
応器、５ｇは復号されたＰＣＭ信号である。図１２
（ｂ）において、６ａは復号化すべきG.722音声圧縮符
号、６ｂは適応量子化器、６ｃは量子化器適応部、６ｄ
は予測器、６ｅは予測器適応部、６ｆは復号されたＰＣ
Ｍ信号である。図１２（ｃ）において、７ａは復号化す
べきG.711音声圧縮符号、７ｂは符号化表引き部、７ｃ
は復号されたＰＣＭ信号である。尚、これらG.728、 G.
722、 G.711による符号化、復号化処理は周知であるた
め詳細な説明は省略する。

【０００５】図１３は話者検出手順説明図であり、８
ａ，８ｂ，８ｃはＡ地点、Ｂ地点、Ｃ地点のテレビ会議
端末から受信した音声圧縮符号をＰＣＭ信号に復号化す
る復号化部、８ｄは各地点の所定時間幅毎の最大音声
ＰＣＭサンプリング値を検出し、地点毎に最新のｍ個
の前記最大音声の加算を行い、各加算値（パワー）が
一定時間以上継続して設定値以上になったか調べるパワ
ーレベル持続監視部、８ｅは一定時間以上継続して設定
値以上の加算値のうち最大の加算値（パワー）を求める
パワー比較部、８ｆは最大の加算値（パワー）に応じた
音声圧縮符号を送出するテレビ会議端末の使用者（会議
参加者）を話者として検出する話者選択部である。

【０００６】

【発明が解決しようとする課題】ところで、数年前まで
のテレビ会議端末は、多くが高価で大型であった。しか
し、現在ではハードウェアの低価格化及び高性能化が進
み、パソコン上でのテレビ会議端末が製品化されたた
め、広範囲で普及されつつある。このため、多地点テレ
ビ会議装置ついても低価格化、高性能化のニーズが高ま
っている。しかし、従来の話者検出方法においては、各
地点分の音声圧縮符号をリニヤＰＣＭにまで復号する音
声復号器が必要となるため、ハードウェア量が多くなり
多地点テレビ会議装置の低価格化のネックになってい
る。

【０００７】また、従来の話者検出方法では、ＰＣＭを
用いた最大音声の検出を行うため、音声以外のノイズが
持続するような場合には音声とノイズの区別がつきにく
く、外部ノイズが多い地点においてノイズを会議参加者
の音声と誤検出する場合が頻発する。このため、発言者
を誤検出して、正常な映像切り替えを行うことができな
くなるという問題があった。図１４はかかる状況の説明
図であり、Ａ地点の会議参加者が発言しているにもかか
わらず、Ｂ地点における外部ノイズによりＢ地点の会議
参加者を発言者（話者）と誤認識し、Ｃ地点のテレビ会
議端末１ｃにＢ地点からの映像信号を送出してしまう。

【０００８】以上から、本発明の目的は、圧縮音声符号
をＰＣＭまで復号しなくても話者を識別でき、しかも、
多地点テレビ会議装置のハードウェア量を削減できるよ
うにすることである。本発明の別の目的は、音声による
話者の検出を高速に、ノイズに強く、しかも安定に行え
るようにすることである。

【０００９】

【課題を解決するための手段】上記課題は本発明によれ
ば、複数の話者検出対象者の音声をそれぞれ符号化した
音声圧縮符号より予測差分信号を復号する予測差分信号
復号部、得られた予測差分信号に含まれる基本ピッチ成
分の周期性を算出する手段、周期性の有無により話者の
音声とノイズを区別する手段により達成される。また、
上記課題は、本発明によれば、複数の話者検出対象者の
音声をそれぞれ符号化した音声圧縮符号より予測差分信
号を復号する予測差分信号復号部、得られた各予測差分
信号に含まれる基本ピッチ成分の周期性とエネルギーを
算出する手段、基本ピッチ成分に周期性があり、かつ、
基本ピッチ成分のエネルギーが最も大きな予測差分信号
に応じた話者を発言者と認識する話者識別部により達成
される。

【００１０】上記課題は、異なる地点に設けられたテレ
ビ会議端末に接続され、各テレビ会議端末より伝送路を
介して送られてくる音声信号および画像信号を受信し、
音声信号を混合して各テレビ会議端末に送信すると共
に、発言者のテレビ会議端末から送られてくる映像信号
を他のテレビ会議端末に送信する多地点テレビ会議装置
において、各テレビ会議端末より送られてくる音声圧縮
符号より予測差分信号を復号する予測差分信号復号部
と、得られた各予測差分信号に含まれる基本ピッチ成分
の周期性とエネルギーを算出する手段と、基本ピッチ成
分に周期性があり、かつ、基本ピッチ成分のエネルギー
が最も大きな予測差分信号に応じたテレビ会議端末を使
用する会議参加者を話者と認識する手段と、話者のテレ
ビ会議端末から送られてくる映像信号を選択して他のテ
レビ会議端末に送信する送信手段を備えた多地点テレビ
会議装置により達成される。。

【００１１】

【発明の実施の形態】

（ａ）本発明の原理本発明は音声特に母音の生成モデルがパルス音源＋ＡＲ
モデル（声道モデル）で表現できることを基本としてい
る。音声波形は、声帯に対応する音源信号Ｓ（ｚ）と声
道を表現するＡＲフィルタ（伝達関数Ｈ（ｚ）＝１／Ｇ
（ｚ））とにより表現する事ができる。すなわち、実際
の音声波形Ｖ（ｚ）は、Ｖ（ｚ）＝Ｓ（ｚ）・Ｈ（ｚ）となる。線形予測方式による音声符号化では予測器によ
り得られる予測係数は方式による差異はあるにしろ音声
を表現する伝達関数の分母式Ｇ（ｚ）の近似式Ｇ′
（ｚ）の係数と考えることができる。従って予測誤差信
号Ｓ′（ｚ）はＳ′（ｚ）＝Ｖ（ｚ）・Ｇ′（ｚ）となり、音源波形Ｓ（ｚ）を近似したものとなる。予測
誤差信号Ｓ′（ｚ）は音源Ｓ（ｚ）に対して予測誤差を
含んでいるが、予測誤差分については白色雑音で近似す
ることができ、音源Ｓ（ｚ）のもつ等間隔のパルス列と
うい性質を持っている。

【００１２】線形予測方式により音声圧縮されて送られ
てきた音声圧縮符号を復号する過程（予測器入力）にお
いて予測誤差信号Ｓ′（ｚ）が得られる。音源が非音声
（ノイズ）である場合には予測誤差信号Ｓ′（ｚ）の等
間隔パルス性は失われる。従って、ＰＣＭまで復号化し
なくても、予測誤差信号Ｓ′（ｚ）が得られれば、該予
測誤差信号Ｓ′（ｚ）における等間隔のパルス性の検出
を行うことにより音声（母音）と非音声（ノイズ）との
識別を行うことができる。また、予測誤差信号Ｓ′
（ｚ）のエネルギー大小により音声の大小を判断でき
る。

【００１３】以上より、テレビ会議で用いられる音声圧
縮方式(G.728, G.722, G.711)の線形予測符号化の特性
を利用することで音声圧縮符号から予測差分信号を求
め、該予測差分信号に含まれる基本ピッチの周期性およ
びエネルギーに基づいて音声とノイズの識別、発言して
いる話者の識別を行うことができ、ハードウエア量の削
減および、計算処理の軽減を図ることができる。すなわ
ち、ノイズ等でなく人の音声の特徴を捕まえることによ
り、背景ノイズによる誤動作がない話者検出を実現する
と同時に、話者検出のための計算量の削減をも実現する
ことができ、ハードウエア量の削減および、高速処理を
実現できる。

【００１４】（ｂ）本発明の概略 (1) 音の発声源が人である事を利用し、特に音声波形に
含まれる基本ピッチ成分波形を予測差分信号より抽出
し、その波形の周期性に関するパラメータおよびエネル
ギー持続度を表すパラメータを算出することにより、話
者音声と予測差分信号に基本ピッチを含まない外部ノイ
ズ音（機械音、くしゃみ、など）との識別を行い、ノイ
ズに影響されずに話者を検出する。 (2) 線形予測方式により符号化した音声圧縮符号をテレ
ビ会議端末より受信する多地点テレビ会議装置におい
て、上記(1) の考えを基本として、予測量子化器の出力
である予測誤差信号に含まれる基本ピッチ成分が人と判
定できるピッチ周期以内でありかつそのエネルギー持続
を確認した後、音声の検出行う。これにより、外部雑音
に影響されにくい音声識別機能と音声検出に要する計算
量の削減を同時に実現する。

【００１５】(3) 複数の話者が同時に発言する場合に、
上記(2) により検出される人物の中から線形予測誤差波
形のエネルギー（平均２乗和または絶対値ピーク）を評
価値として複数話者中から単一話者を正しく選択する。 (4) 多地点テレビ会議装置は、テレビ会議音声符号化方
式であるG.728(LD-CELP:コード励起線型予測符号化）に
より符号化した音声圧縮符号をテレビ会議端末より受信
し、量子化適応および逆量子化処理により得られる予測
差分信号に対して上記(1) の方法を作用することで、各
地点における会議参加者の音声有無の安定な検出を可能
にし、かつ必要な計算量を少なくし、ハードウェア量の
削減を実現する。すなわち、多地点テレビ会議装置は、
該音声圧縮符号化データを完全に復号化してリニアＰＣ
Ｍデータに再生することなく、予測差分信号を用いて各
地点における会議参加者の音声有無を検出する。

【００１６】(5) 多地点テレビ会議装置は、G.728によ
り符号化した音声圧縮符号をテレビ会議端末より受信
し、量子化適応および逆量子化処理により得られる予測
差分信号に含まれる基本ピッチ成分のパラメータ（周
期、エネルギー）を抽出、比較する事で複数人が同時に
発声している場合の話者の選択を安定して実現する。 (6) 多地点テレビ会議装置は、テレビ会議音声符号化方
式であるG.722(SB-ADPCM:サブバンド適応予測符号化）
により符号化した音声圧縮符号をテレビ会議端末より受
信し、量子化適応および逆量子化処理により得られる予
測差分信号に対して上記(1) の方法を作用することで、
各地点における会議参加者の音声有無の安定な検出を可
能にし、かつ必要な計算量を少なくし、ハードウェア量
の削減を実現する。すなわち、多地点テレビ会議装置
は、該音声圧縮符号化データを完全に復号化してリニア
ＰＣＭデータに再生することなく、予測差分信号を用い
て各地点における会議参加者の音声有無を検出する。

【００１７】(7) 多地点テレビ会議装置は、G.722によ
り符号化した音声圧縮符号をテレビ会議端末より受信
し、量子化適応および逆量子化処理により得られる予測
差分信号に含まれる基本ピッチ成分のパラメータ（周
期、エネルギー）を抽出、比較する事で複数人が同時に
発声している場合の話者の選択を安定して実現する。 (8) 多地点テレビ会議装置は、テレビ会議音声符号化方
式であるG.711(非線形ＰＣＭによる音声符号化)により
符号化した音声圧縮符号をテレビ会議端末より受信し、
該音声圧縮符号データにG.722またはG.728の適応予測部
の処理を作用させることにより各地点における会議参加
者の音声有無検出を可能にし、必要な計算量を少なく
し、ハードウェア量の削減と共に高速処理する。

【００１８】（ｃ）多地点テレビ会議装置図１は本発明の多地点テレビ会議装置の話者検出装置の
構成図である。１０ａ〜１０ｃはそれぞれ地点Ａ〜地点
Ｃのテレビ会議端末から送信されてくる音声圧縮符号デ
ータより予測差分信号ＰＤＳを復号する予測差分信号復
号部であり、予測差分信号ＰＤＳは入力音声に対して図
２に示す波形を有している。２０は発言している話者を
検出する話者検出部であり、母音評価値算出部２１ａ〜
２１ｃと話者決定部３１を有している。母音評価値算出
部２１ａ〜２１ｃは各予測差分信号ＰＤＳを用いて母音
の基本ピッチ成分の周期性とエネルギーを算出し、話者
決定部３１は基本ピッチ成分に周期性があり、かつ、基
本ピッチ成分のエネルギーが最も大きな予測差分信号に
応じたテレビ会議端末（会議参加者）を話者と認識す
る。

【００１９】図３は多地点テレビ会議装置の全体の構成
図であり、図１と同一部分には同一符号を付している。
図中、１１ａ〜１１ｃ，１１ａ′〜１１ｃ′はネットワ
ーク（ＩＳＤＮ網、専用線網等）に接続された回線イン
タフェース部であり、ネットワークを介して各テレビ会
議端末より音声／映像信号を受信すると共に、各テレビ
会議端末に所定の音声／映像信号を送出する。１２ａ〜
１２ｃは各テレビ会議端末より多重されて送られてくる
音声／映像を分離する音声／映像分離部、１３は発言し
ている話者（テレビ会議端末）より送出されてきた映像
データを選択して出力する映像切り替え回路、１４は音
声をミキシングして出力する音声ミキシング回路、１５
は音声と映像を多重して出力する音声／映像多重部、１
０ａ〜１０ｃは図１に示した予測差分信号復号部、２０
は話者検出部である。

【００２０】図４は予測差分信号復号部の構成図であ
り、図４（ａ）はG.728予測差分信号復号部のブロック
図、図４（ｂ）はG.722予測差分信号復号部のブロック
図、図４（ｃ）はG.711予測差分信号復号部のブロック
図である。図４（ａ）において、５１ａはG.728音声圧
縮符号、５１ｂは励起QVコードブック、５１ｃは利得調
整部、５１ｄは利得適応器、５１ｅはG.728予測差分信
号である。図４（ｂ）において、５２ａはG.722音声圧
縮符号、５２ｂは適応量子化器、５２ｃは量子化器適応
部、５２ｄはG.722予測差分信号である。図４（ｃ）に
おいて、５３ａはG.711音声圧縮符号、５３ｂは符号化
表引き部、５３ｃは符号化表引き部より出力されるＰＣ
Ｍ信号にG7.22符号化処理を施してその過程で発生する
G.722予測差分信号を出力するG.722予測符号化部であ
り、53c-1は適応量子化器、53c-2は量子化器適応部、53
c-3は逆量子化器、53c-4は予測器、53c-5は予測器適応
部である。

【００２１】G.728、 G.722、 G.711による符号化、復
号化処理は周知であるため詳細な説明は省略するが、G.
728音声圧縮符号および G.722音声圧縮符号については
ＰＣＭ信号への復号の過程で予測差分信号５１ｅ，５２
ｄが得られる。G.711音声圧縮符号の場合にはＰＣＭ信
号への復号に際して予測差分信号を得ることができない
ため、復号により得られたＰＣＭ信号をG.722あるいは
G.728により符号化し、符号化の過程で発生する予測差
分信号を出力する。

【００２２】（ｄ）話者検出制御母音評価値算出部２１ａ〜２１ｃは各予測差分信号ＰＤ
Ｓを用いて母音の基本ピッチ成分の周期性とエネルギー
を算出し、話者決定部３１は基本ピッチ成分に周期性が
あり、かつ、基本ピッチ成分のエネルギーが最も大きな
予測差分信号に応じたテレビ会議端末（会議参加者）を
話者と認識する。具体的な基本ピッチ成分の周期性、エ
ネルギーの算出は以下のように行う。

【００２３】図５は基本ピッチ成分の周期性算出の説明
図であり、ｘ（ｔ）は予測差分信号である。母音の場
合、予測差分信号ｘ（ｔ）に出現する最大ピークパルス
（基本ピッチ成分）Ｐは周期性を有しており、そのパル
ス周波数は50Hz〜400Hz であり、周期換算すると20ms〜
2.5ms である。入力音声の周期は未知であるため、種々
の周期で予測差分信号をサンプリング、それぞれの周期
毎にサンプリング値を累計し、各周期での累計値の最大
値を母音評価値とする。そして、(1) この母音評価値が
設定値以上の場合には周期性を有するものと判定し、す
なわち、入力音声は人の音声であると判定し、(2) 母音
評価値が設定値以下の場合には周期性を有せず、外部ノ
イズであると判定する。例えば、入力音声の基本ピッチ
成分の周期が１０ｍｓであれば、周期１０ｍｓで累計し
た累計値が最大になり、該累計値は設定値以上になる。
しかし、外部ノイズの場合には周期性がないため、最大
累計値は設定値以下となる。

【００２４】サンプリングパスＳＰの周波数ｆｓとし、
また、周期性を判断する周期範囲をcL, cHとする（cL＜
cH）。ここでcLは母音の基本ピッチ成分の最小周期、cH
は最大周期であり、それぞれ2.5ms, 20msである。最小
周期cH の半分程度のパルス幅（Ｔ）毎に予測誤差波形
を絶対値累積して得られる信号w(n) とすると、 w(n)＝Σx(nT+j) 但し、j=1,2,・・・,T-1 (1) となる。すなわち、信号w(n) は周期Ｔ内のサンプリン
グパルス数分、予測差分信号x(t) をサンプリングした
サンプリング値の合計である。

【００２５】ついで、周期Ｔ、２Ｔ、３Ｔ・・・毎の信
号w(n) の累積値Ｙ₁(n),Ｙ₂(n),Ｙ₃(n)、・・・を演算
する。ただし、 NH＝cH/T, NL＝cL/T とすれば、信号w
(n) をそれぞれ NL,NL+1,・・・NH 毎に次式 Yi(n)=w(n)＋αYi(n-i) （i=NL,NL+1,・・・NH） (2) により累計して、累計値（原始評価値）Yi(n)を演算す
る。(2)式において、αは忘却係数で、０＜α＜１であ
る。また、Yi(n-i)はｉ・Ｔ前の原始評価値である。以
上により、i=NLとすれば、NL・Ｔ毎の原始評価値Y_NL(n)
を演算でき、i=(NL+1)とすれば、(NL+1)・T毎の原始評価
値Y_(NL+1)(n)を演算でき、・・・、i=NHとすれば、NH・
Ｔ毎の原始評価値Y_NH(n)を演算できる。

【００２６】各周期の原始評価値が求まれば、Ｙi(n)の
最大値を求め、その時のｉを基本ピッチｉopt とし、ま
た、最大の原始評価値を母音評価値ｙopt とする。な
お、異なるｉで同一の評価値を示す場合にはｉの小さい
方を基本ピッチとする。ついで、母音評価値ｙopt と設
定レベルTHyを比較し、ｙopt＞THy の場合には参加者の音声(母音)であると判定し、ｙopt＜THy の場合にはノイズであると判定する。実際の基本ピッチ
周期ＴｐはＴｐ＝ｉopt×Ｔ×Ｔｓ（Ｔｓはサンプリング周期） (3) となる。

【００２７】また、多地点テレビ会議装置において、複
数の音声入力が検出された場合にはそれらのうちから最
も確度の高い音声入力を選択して発言者（話者）として
特定する必要がある。かかる場合には上記母音評価値同
士の比較を行い、母音評価値（エネルギー）の最も大き
な音声入力者を話者と判定する。図２に音声のリニアＰ
ＣＭ、予測誤差波形、母音評価値の例を示す。

【００２８】図６は母音評価値算出および話者決定処理
フローである。予測差分信号復号部１０ａ〜１０ｃは対
応するテレビ会議端末より送られてくる音声圧縮符号デ
ータより予測差分信号を復号する（ステップ１０１）。
ついで、母音評価値算出部２１ａ〜２１ｃは周期Ｔ毎に
(1)式より信号w(n)を演算し(ステップ１０２）、(2)式
に基づいて種々の周期での母音原始評価値を演算し(ス
テップ１０３）、最大の原始評価値を母音評価値ｙopt
として求める（ステップ１０４）。各テレビ会議端末か
らの音声圧縮符号の母音評価値ｙopt が求まれば、話者
決定部３１は、それぞれの母音評価値ｙopt と閾値THy
を比較し(ステップ１０５）、ｙopt＜THy の場合にはノ
イズであると判断する。すなわち、ｙopt＜THy の場合
には母音評価値ｙoptに応じたテレビ会議端末(会議参
加者)は発言無しと判定する(ステップ１０６）。

【００２９】一方、ｙopt＞THy の場合には他の母音評
価値と大小比較し(ステップ１０７）、最大の母音評価
値以外の母音評価値に応じたテレビ会議端末(会議参加
者)は発言無しと判定する(ステップ１０６）。また、最
大の母音評価値に応じたテレビ会議端末(会議参加者)は
発言中であり話者と判定する（ステップ１０８）。以上
より、音声波形の中から取り出した基本ピッチ成分から
周期を抽出することにより、音源が音声の場合、ピッチ
成分がかなり正確なパルス列となるため、ピッチ周期を
検出する事により、人の音声かノイズかの判断が可能と
なる。また、人の音声と判断できるピッチ周期が一定時
間持続する事を確認する事により、短音の発声か、連続
発声かの判断が可能となり、連続発声に対する安定した
話者検出が可能となる。

【００３０】（ｅ）変形例以上では、それぞれの音声圧縮符号より予測差分信号を
復号し、得られた各予測差分信号に含まれる基本ピッチ
成分の周期性とエネルギーを求め、基本ピッチ成分に周
期性があり、かつ、基本ピッチ成分のエネルギーが最も
大きな予測差分信号に応じた話者を発言者と認識した
が、以下のようにして話者を検出することもできる。各
周期の母音原始評価値のうち、ある一定の閾値を越えた
もののうち、最大のものを母音評価値ｙoptとし、他の
端末の母音評価値と比較し、母音評価値が最大のものを
最大音声の端末として決定する。ついで、決定された端
末の音声パルスの周期を(3)式により求め、次の音声パ
ルスを予測し、予測範囲に音声パルスが発生した場合、
音源が音声であると認識し、話者とみなす。一方、予測
範囲に音声パルスが発生しない場合、音源が音声でない
と判断し、再度、最大音声端末の決定から繰り返す。

【００３１】（ｆ）各種音声符号則の話者検出構成図７は音声符号則がG.728の場合における話者検出構
成、図８は音声符号則がG.722の場合における話者検出
構成、図９は音声符号則がG.711の場合における話者検
出構成である。図７において１０ａ〜１０ｃはG.728の
予測差分信号復号部であり、図４（ａ）に示す構成を有
するもの、２１ａ〜２１ｃ母音評価値算出部、３１は話
者決定部である。図８において、１０ａ〜１０ｃはG.72
2の予測差分信号復号部であり、図４（ｂ）に示す構成
を有するもの、２１ａ〜２１ｃは母音評価値算出部、３
１は話者決定部である。図９において、１０ａはG.711
の予測差分信号復号部であり、図４（ｃ）に示す構成を
有するもの、２１ａは母音評価値算出部、３１は話者決
定部、４１は各地点のテレビ会議端末からのG.711音声
圧縮符号を混合する混合部である。

【００３２】音声符号則がG.728, G.722 の場合、予測
差分信号復号部１０ａ〜１０ｃにおいて音声符号を予測
差分信号まで復号化し、予測差分信号に基づいて最大音
声を検出する。これにより、予測差分信号からリニアＰ
ＣＭまで復号化する機構が不必要となる。また、G728,
G722 の音声符号を予測差分信号に復号化し、音源が音
声の場合、予測誤差信号の基本ピッチ成分がかなり正確
な幅を持ったパルス列となるため、パルスの周期を監視
することにより、ノイズと音声の識別が可能となる。さ
らに、人の音声と判断できるピッチ周期が一定時間持続
する事を確認する事により、短音の発声か、連続発声か
の判断が可能となり、連続発声に対する安定した話者検
出が可能となる。

【００３３】音声符号則がG.711 の場合、復号化表を用
いて得られた音声データ（ＰＣＭデータ）をG.722また
はG.728の適応予測部を作用させ、予測差分信号まで符
号化し、得られた予測差分信号により最大音声を検出す
る。音源が音声の場合、予測差分信号の基本ピッチ成分
がかなり正確な幅を持ったパルス列となるため、パルス
の周期を監視することにより、ノイズと音声の識別が可
能となる。人の音声と判断できるピッチ周期が一定時間
持続する事を確認する事により、短音の発声か、連続発
声かの判断が可能となり、連続発声に対する安定した話
者検出が可能となる。また、G.711の音声符号を、G.722
予測差分信号を用いて扱うことにより、多地点テレビ会
議装置に接続された端末の音声符号則がＧ．711， G.72
2混在の場合にも、G.722 単一の場合と同じ処理により
話者検出が可能となる。以上、本発明を実施例により説
明したが、本発明は請求の範囲に記載した本発明の主旨
に従い種々の変形が可能であり、本発明はこれらを排除
するものではない。

【００３４】

【発明の効果】以上本発明によれば、それぞれの音声圧
縮符号より予測差分信号を復号し、得られた各予測差分
信号に含まれる基本ピッチ成分の周期性とエネルギーを
求め、基本ピッチ成分に周期性があり、かつ、基本ピッ
チ成分のエネルギーが最も大きな予測差分信号に応じた
者を発言者と認識するようにしたから、通常の多地点テ
レビ会議装置における発言者検出の大半をしめる予測信
号の計算および予測器の適応処理を省略でき、この結
果、ハードウェアの削減、発言者の高速検出が可能にな
った。また、本発明によれば、音声パルスの周期性に基
づいて話者の検出を行うため、ノイズによる影響を受け
ることがなく、安定した話者検出が可能となる。本発明
によれば、それぞれの音声圧縮符号より予測差分信号を
復号し、得られた予測差分信号に含まれる基本ピッチ成
分の周期性を求め、該周期性の有無により話者の音声と
ノイズを区別することができる。

【図面の簡単な説明】

【図１】多地点テレビ会議装置における話者検出装置の
構成図である。

【図２】音声のリニヤＰＣＭ、予測誤差波形、母音評価
値の波形説明図である。

【図３】多地点テレビ会議装置の構成図である。

【図４】予測差分信号復号部の構成図である。

【図５】基本ピッチ成分の周期性算出説明図である。

【図６】母音評価値算出および話者決定処理フローであ
る。

【図７】G.728話者検出方式のブロック図である。

【図８】G.722話者検出方式のブロック図である。

【図９】G.711話者検出方式のブロック図である。

【図１０】多地点テレビ会議システムの構成図である。

【図１１】音声/映像分配機能の説明図である。

【図１２】ＰＣＭ波形復号化ブロック構成図である。

【図１３】ＰＣＭ波形からの話者検出手順説明図であ
る。

【図１４】従来技術による音声識別の問題点の説明図で
ある。

【符号の説明】

１０ａ〜１０ｃ・・予測差分信号復号部２０・・話者検出部２１ａ〜２１ｃ・・母音評価値算出部３１・・話者決定部

Claims

【特許請求の範囲】

【請求項１】複数の話者検出対象者の音声をそれぞれ
圧縮符号化した音声圧縮符号を受信し、該音声圧縮符号
に基づいて発言している話者を検出する話者検出方法に
おいて、それぞれの音声圧縮符号より予測差分信号を復号し、得られた予測差分信号に含まれる基本ピッチ成分の周期
性を求め、周期性の有無により話者の音声とノイズを区別すること
を特徴とする話者検出方法。
【請求項２】複数の話者検出対象者の音声をそれぞれ
圧縮符号化した音声圧縮符号を受信し、該音声圧縮符号
に基づいて発言している話者を検出する話者検出方法に
おいて、それぞれの音声圧縮符号より予測差分信号を復号し、得られた各予測差分信号に含まれる基本ピッチ成分の周
期性とエネルギーを求め、基本ピッチ成分に周期性があり、かつ、基本ピッチ成分
のエネルギーが最も大きな予測差分信号に応じた話者を
発言者と認識することを特徴とする話者検出方法。
【請求項３】異なる地点に設けられたテレビ会議端末
に接続され、各テレビ会議端末より伝送路を介して送ら
れてくる音声信号および画像信号を受信し、音声信号を
混合して各テレビ会議端末に送信すると共に、発言者の
テレビ会議端末から送られてくる映像信号を他のテレビ
会議端末に送信する多地点テレビ会議装置において、各テレビ会議端末より送られてくる音声圧縮符号より予
測差分信号を復号する予測差分信号復号部と、得られた各予測差分信号に含まれる基本ピッチ成分の周
期性とエネルギーを算出する手段と、基本ピッチ成分に周期性があり、かつ、基本ピッチ成分
のエネルギーが最も大きな予測差分信号に応じたテレビ
会議端末を話者のテレビ会議端末と認識する手段と、話者のテレビ会議端末から送られてくる映像信号を選択
して他のテレビ会議端末に送信する送信手段を備えたこ
とを特徴とする多地点テレビ会議装置。