JP3211398B2 - テレビ会議用発言音声検出装置 - Google Patents

テレビ会議用発言音声検出装置

Info

Publication number
JP3211398B2
JP3211398B2 JP23678292A JP23678292A JP3211398B2 JP 3211398 B2 JP3211398 B2 JP 3211398B2 JP 23678292 A JP23678292 A JP 23678292A JP 23678292 A JP23678292 A JP 23678292A JP 3211398 B2 JP3211398 B2 JP 3211398B2
Authority
JP
Japan
Prior art keywords
voice
speech
section
detection
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP23678292A
Other languages
English (en)
Other versions
JPH0683391A (ja
Inventor
克美 北島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP23678292A priority Critical patent/JP3211398B2/ja
Publication of JPH0683391A publication Critical patent/JPH0683391A/ja
Application granted granted Critical
Publication of JP3211398B2 publication Critical patent/JP3211398B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】 本発明は多地点参加によるテレ
ビ会議を行う際の発言者を自動的にクローズアップして
撮影し、かつ、発言地点を切り替えて画面表示するテレ
ビ会議用発言音声検出装置に関する。
【0002】
【従来の技術】従来、テレビ会議システムでは、発言者
の画面への切り替えを自動的に行っている。この切り替
えは、各会議用マイクロホンの出力信号や会議参加地点
からの受信音声信号から音声検出器で発言中の会議参加
者又は会議参加地点を判定し、その発言者をクローズア
ップして撮影するためにテレビカメラの電動旋回制御を
行う。さらに、切り替え器によって発言地点映像を切り
替えている。
【0003】図11は、このような映像自動切り替え装
置の構成を示している。図12は、多地点テレビ会議シ
ステムの全体構成を示すブロック図である。
【0004】図11において、この例は、会議参加者
A、B、Cに対して配置されるマイクロホン1a、1
b、1cと、このマイクロホン1a、1b、1cと接続
される音声検出器2a、2b、2cと、発言者判定回路
3と、旋回台制御器4と、電動旋回式テレビカメラ5と
からなる。
【0005】図12において、この多地点テレビ会議シ
ステムは会議参加地点となる会議室D、E、Fに配置さ
れるマイクロホン6a、6b、6cと、スピーカー7
a、7b、7cと、テレビカメラ8a、8b、8cとを
有している。
【0006】さらに、モニタ9a、9b、9cと、音声
コーディック(CODEC)回路10a、10b、10
cと、画像コーディック回路11a、11b、11cと
を備えている。
【0007】多地点会議制御装置18は、音声コーディ
ック回路12a、12b、12cと、画像コーディック
回路13a、13b、13cと、音声検出部14a、1
4b、14cと、音声合成部15と、発言地点判定部1
6と、画像切り替え制御部17とからなる。
【0008】次に、この構成の動作について説明する。
図11において、会議参加者Aから発言があると、音声
検出器2aが音声を検出して、検出信号を発言者判定回
路3へ出力する。発言者判定回路3は、会議参加者B、
Cからの音声検出信号がなければ会議参加者Aを発言者
と特定する。そして旋回台制御器4へ会議参加者Aの発
言者位置情報を出力する。
【0009】旋回台制御器4は、その位置情報に基づい
て電動旋回式テレビカメラ5を旋回させ、会議発言者A
をクローズアップして撮影する。
【0010】図12において、会議室Dでの発言がある
と音声検出器14aが音声を検出して、検出信号を発言
地点判定部16へ出力する。発言地点判定部16は以前
の対話情報に基づいて画像切り替え制御部17へ制御信
号を出力し、会議室Dの映像を会議室E又は会議室Fへ
送信する。また、会議室Dへは会議室E又は会議室Fの
映像を送信する。
【0011】図11中の音声検出器2a、2b、2cや
図12中の音声検出部14a、14b、14cでは、会
議中の様々な音源からの入力信号から音声区間を検出し
て、所定の一定時間が音声であると検出された場合に、
対応する会議参加者や会議室を発言中と判定する。この
場合、音声の検出には各マイクロホン又は各地点からの
入力音声から、その信号レベルや短時間エネルギーなど
を求め、所定のしきい値との比較を行い、しきい値以上
の区間を音声区間とし、その継続時間を累積して所定の
しきい値と比較する。ここでしきい値以上の場合に発言
であると判定している。
【0012】次に、この音声検出動作を詳細に説明す
る。図13は、従来の音声レベル検出を行うための検出
器の構成を示すブロック図である。図14は、従来の継
続時間による判定動作を説明するための図である。
【0013】図13(a)において、この例は、ヒステ
リシス付き整流器を用いた検出器19と、比較器22と
からなり、検出器19は入力信号の電圧ピークレベル
を、所定の時定数だけ保持して出力する。比較器22で
は検出器19の出力信号、判定しきい値を越える場合、
音声検出信号をオン(ON)として出力する。
【0014】なお、検出器19に代えて、図13(b)
に示す積分器21、又は図13(c)に示す乗算器20
a、加算器20b、遅延回路20cの構成に置き換えて
音声の短時間パワーを出力するようにした検出器を用い
る場合もある。
【0015】図14において、図14(a)は入力音声
信号波形であり、図14(b)は図14(a)の信号を
レベル検出又はパワー検出した結果であり、図14
(c)は図14(b)のオン(ON)信号を時間的に累
積したものである。図14(d)は図14(c)の累積
時間をしきい値と比較し、その判定した結果である。
【0016】図14(a)においてNa−Nb区間は雑
音又は短い音声であり、Va−Vb区間は発言音声であ
る場合、図14(d)のように、Na−Nb区間は音声
としては検出されず、Va−Vb区間は音声として検出
される。
【0017】
【発明が解決しようとする課題】記のような従来の音
声レベル又はパワーのみによる音声検出では、継続時間
の短い雑音は無視できる。しかしながら継続時間の長い
雑音、例えば、会議資料の書類をめくる音や、机をコツ
コツと叩く音、息吹き音等で誤って検出されることがあ
る。その場合、発言していない会議参加者の映像に切り
替わったり、発言の最中にもかかわらず不要な雑音のた
めに他の会議参加者の映像に切り替わってしまう。この
ような状況は会議の進行妨害と受け取られている。
【0018】本発明は、このような従来の課題を解決す
るものであり、発言音声以外の雑音に反応することなく
会議参加者の発言にのみ反応して発言者を確実に特定で
き、さらに不意の発言により画面が頻繁に切り替わるこ
となく、多地点テレビ会議の円滑な運営が可能になる優
れたテレビ会議用発言音声検出装置の提供を目的とす
る。
【0019】
【課題を解決するための手段】上記目的を達成するため
に、本発明のテレビ会議用発言音声検出装置は、画像を
表示する映像表示手段と、マイクロホンで集音された音
声信号をサンプリング入力する音声入力手段と、音声入
力手段により入力されたサンプリングデータを予め記憶
するデータ記憶部と、データ記憶部に予め記憶されたサ
ンプリングデータから音声信号が音声及び無音又は雑音
のいずれかを示す有声音判定パラメータを所定の区間毎
に算出する算出手段と、有声音判定パラメータに基づい
て発言音声を検出し検出信号を出力する検出手段と、検
出手段による検出結果とともに有声音判定パラメータを
出力するデータ出力部とデータ出力部の出力により発言
地点を判定する発言地点判定手段とを備え、発言地点判
定手段は、唯一の発言音声の開始が検出された場合に、
検出信号に基づいて発言者を判定し、複数の発言音声の
開始が同時に検出された場合に、有声音判定パラメータ
を比較し、この比較の結果に基づいて発言者を特定し、
映像入出力手段に発言者の画面を表示するように切り替
え制御させる構成である。
【0020】また、好ましくは、検出手段は、有声音判
定パラメータを所定の検出区間にわたって蓄積する蓄積
手段と、蓄積手段の蓄積結果の中から音声と判定された
有声音パラメータ数をカウントする第1のカウント手段
と、蓄積手段の蓄積結果から非音声と判定された有声音
パラメータ数をカウントする第2のカウント手段とを有
し、第1のカウント手段のカウント数が第1のしきい値
をこえた場合に発言音声の開始を検出し、第2のカウン
ト手段のカウント数が第2のしきい値をこえた場合に発
言音声の終了を検出し、第1のしきい値と第2のしきい
値をそれぞれ異 なる値として、発言音声の検出結果を示
す検出信号にヒステリシス特性を持たせたことを特徴と
する構成としている。
【0021】さらに、好ましくは、有声音判定パラメー
タは、自己相関係数、線形予測係数またはLPCケプス
トラム係数のうち少なくとも一つから算出される構成と
している。
【0022】
【作用】このような構成によって、本発明のテレビ会議
用発言音声検出装置は、演算部での有声音判定パラメー
タによる総合判定によって、発言音声以外の雑音に反応
することなく会議参加者の発言にのみ反応して発言者を
確実に特定する。
【0023】以下に、演算部において算出するそれぞれ
の有声音判定パラメータの、音声検出について説明す
る。
【0024】先ず、自己相関係数について説明する。サ
ンプリングした音声データを、(S1、S2、…、S
n)とすると、m次の自己相関係数は、数式(1)のよ
うに表される。
【0025】
【数1】
【0026】ここで、m={0、1、2、…、10}、
nは100〜200程度とする。0次の自己相関係数
は、算出区間における音声の短時間パワーである。1か
ら3次の低次自己相関係数は、算出区間における音声の
高周波数帯域成分を除去したものとなり、6次から8次
の高次自己相関係数は、算出区間における音声の低周波
数帯域成分を除去したものとする。
【0027】0次の自己相関係数を所定の適切なしきい
値と比較することによって、会議中の無音又は暗騒音状
態にある区間と、雑音又は音声が入力された区間を分類
することができる。
【0028】次に、1から3次の低次自己相関係数があ
る適切なしきい値と比較することによって、その区間が
高周波数帯域成分を多く含む雑音区間であり音声区間で
はないと判断できる。また、6から8次の高次自己相関
係数をある適切なしきい値と比較することによって、そ
の区間が低周波数帯域成分を多く含む雑音区間であり音
声区間ではないと判断できる。
【0029】このような0次や低次及び高次の自己相関
係数のしきい値判定結果がいずれも音声区間であると判
定された場合に限り、算出区間が音声区間であると決定
することによって、雑音を音声であると誤検出してしま
うのを防止することができる。次に、線形予測係数につ
いて説明する。
【0030】線形予備係数を算出する方式は各種の方式
が知られているが、特にPARCOR方式がその演算高
速性から優れている。これは、先に説明した自己相関係
数をもとに算出される。この方式で求められるPARC
OR係数は、発声する際の声道の特徴をよく表現してお
り、有声、無声の分類・判定に適している。ここで求め
られる低次の線形予測係数は、音声をスペクトル分析し
たときの大まかな変化成分を示しており、演算量の多い
FFTなどの周波数分析を行わなくても、スペクトルの
形を知ることができ、有声音に対しては自己相関係数に
よる判定よりも優れた判別ができる。
【0031】すなわち、低次の線形予測係数をある適切
なしきい値と比較することによって、発言音声中の有声
音と無声音とを分類することができ、日本語のような音
韻では母音と子音とを判別することができる。日本語の
場合、音声単語中の大部分は母音が占めているので、母
音を多く含む音声区間の検出によって、発言音声である
かどうかの判定が可能である。
【0032】次に、LPCケプストラム係数について説
明する。このパラメータの算出方式およびその詳細な説
明は他の文献に譲り省略することにするが、上記自己相
関係数や線形予測係数による音声係数において判別が困
難な音韻を補助的に検出するのに本パラメータが効果が
あることから、自己相関係数や線形予測係数などの有声
音判定パラメータと併せて用いることによって、音声検
出に有効な判定パラメータの一要素となる。
【0033】
【実施例】以下、本発明のテレビ会議用発言音声検出装
置の実施例を図面を参照して詳細に説明する。
【0034】図1は本発明のテレビ会議用発言音声検出
装置の構成を示している。なお、本テレビ会議用発言音
声検出装置が適用される多地点テレビ会議システムの全
体構成は従前の図12に示す構成と同様である。
【0035】図1において、このテレビ会議用発言音声
検出装置は、音声入力部22と、データ記憶部23と、
演算部24と、データ記憶部25と、データ出力部26
とからなる。
【0036】次に、この構成における動作について説明
する。音声入力部22ではマイクロホンからの入力音声
信号を帯域制限し、サンプリングする。このサンプリン
グデータはデータ記憶部23で格納される。データ記憶
部25では、演算部で算出されたデータ又はしきい値、
係数などのデータを格納する。さらに、演算部24でサ
ンプリング音声データから自己相関係数や線形予測係数
などの有声音判定パラメータを算出し、その有声音判定
パラメータとデータ記憶部25に格納されたしきい値と
の比較を行う。
【0037】データ出力部26では、判定結果を画面切
り替え制御するための検出信号として出力するとも
に、有声音判定パラメータを出力する。
【0038】なお、マイクロホンからの音声入力ではな
く、従前の図12に示した多地点会議システムにおける
音声コーディック回路からの音声信号出力を用いる場合
は、音声入力部22は省略できる。
【0039】次に、音声入力部22、演算部24、デー
タ出力部26を詳細に説明する。図2は音声入力部22
の詳細な構成を示すブロック図である。図2において、
この音声入力部22は、マイクロホン27と、増幅器2
8と、低域通過フィルタ(LPF)29と、A/Dコン
バータ30とを有している。
【0040】次に、この構成の動作について説明する。
音声入力部22では、マイクロホン27からの入力音声
を増幅器28に入力して増幅する。この増幅した音声信
号が低域通過フィルタ29へ入力される。この低域通過
フィルタ29は、サンプリングによるエイリアシングを
防止するためのものである。低域通過フィルタ29の出
力信号は、A/Dコンバータ30によってサンプリング
され、次段のデータ記憶部23(図3)へ供給される。
【0041】ここではサンプリング周波数を10KHz
とし、パラメータ算出の一区間を20msecとする。
すなわち、サンプリングデータが200ポイント格納さ
れるごとに自己相関係数などの有声音判定パラメータを
算出する。
【0042】なお、従前の図12に示した多地点会議シ
ステムにおける音声コーディック回路からの音声信号入
力の場合、サンプリング周波数が8KHzとなる。この
場合もパラメータ算出の一区間は20msec程度で良
い。パラメータ算出区間については、有声音のピッチ周
期の存在範囲やパラメータ算出にかかる演算回数から考
慮して、10〜30msecが適切である。
【0043】サンプリングされた音声信号データ列は、
データ記憶部23に格納される。データ記憶部23で
は、自己相関係数算出時の乗算器への入力とするため、
サンプリングデータ列Xと、Xを複写したデータ列Yも
格納している。
【0044】次に、図3は図1中の演算部24の構成を
示すブロック図である。図3において、演算部24は、
乗算器33と、シフタ34と、ALU35と、演算命令
部36とから構成されている。
【0045】ここでは、演算命令部36より与えられる
積和演算や、比較、論理演算、データ転送などが行える
ようになっている。
【0046】この演算部24で算出されたパラメータ
は、データ記憶部25に格納される。このデータ記憶部
25には、有声音判定パラメータの算出に必要な係数デ
ータや、比較判定のためのしきい値データも格納されて
いる。
【0047】図4、図5、図6に、演算部24における
有声音判定パラメータの算出と判定処理を説明するため
の動作フローチャートを示し、図7は図4〜図6に示す
処理信号と、そのタイミングを示すタイミングチャート
である。
【0048】図4は、請求項1に対応する音声判定処理
を示しており、自己相関の0次と1次及び7次の係数に
よるしきい値判定を行っている。また、図5では、請求
項2に対応する音声判定処理を示しており、自己相関の
0次と1次及び7次の係数と1次の線形予測係数による
しきい値判定を行っている。さらに、図6は請求項3に
対応する有声音判定処理を示しており、自己相関の0次
と1次及び7次の係数と1次の線形予測係数と3次のL
PCケプストラム係数によるしきい値判定を行ってい
る。
【0049】すなわち、0次の自己相関係数R0は、短
時間パワーEnであり、暗騒音レベルより少し高いレベ
ルに相当するしきい値Th0と比較される。R0がしき
い値以上の区間は音声と判定される候補区間となり、以
降の判定処理に進む。R0がしきい値以下なら、その区
間は無音と判定される。
【0050】1次と7次の自己相関係数R1、R7は、
それぞれ0次の自己相関係数により正規化し(R0=
1.0とする)、しきい値判定に用いる。R7/R0が
しきい値Th7(=0.5〜0.7)以下である区間は
音声と判定される候補区間となる。また、R1/R0が
しきい値Th1(=0.6〜0.8)以上である区間は
音声と判定される候補区間となる。それ以外は、雑音区
間であり音声区間ではないと判定される。
【0051】1次の線形予測係数は、しきい値Thα
(=−1.0〜−0.6)と比較され、しきい値以下の
区間は有声音と判定される候補区間となる。3次のケプ
ストラム係数は、しきい値Thc(=約0.5)と比較
され、しきい値以上の区間は、有声音と判定される候補
区間となる。
【0052】図4、図5に示す音声判定処理では、各パ
ラメータの判定条件において、すべて満たされなければ
有声音と判定されないが、図6に示す音声判定処理で
は、有声音がより判定通過され易いように改善された判
定条件の組み合わせになっており、1次自己相関係数と
1次線形予測係数の各しきい値比較で検出されなかった
区間を、3次のLPCケプストラム係数のしきい値比較
によって有声音と判定されるようにしている。
【0053】図7において、図4〜図6での処理信号
と、そのタイミングでは、それぞれのパラメータの判定
結果によって、有声音又は雑音が音声としては検出され
ない様子と、音声に対する判定結果の違いを表わしてい
る。
【0054】このように判定された結果は、図1に示
ータ記憶部25格納された後に、データ出力部26
から読み出される。
【0055】図8は図1中のデータ出力部26の構成を
示すブロック図であり、このデータ出力部26、ヒステ
リシス回路39と、ラッチ回路40とからなる。
【0056】図9は図1中のデータ出力部26のヒステ
リシス回路39の動作を示すフローチャートであり、図
10は、このデータ出力部26での処理手順を示すタイ
ミングチャートである。
【0057】図8、図9、図10において、ヒステリシ
ス回路39では、データ記憶部25から20msecご
とに読み出される有声音判定データを、過去200ms
ecを10フレームとする検出区間で通算し、有声音と
判定されたフレーム数Countを得る。
【0058】ここで、今回の検出区間において、音声区
間から非音声区間への検出を行うか否かと、非音声区間
から音声区間への検出を行うか否かを、前回の判定結果
により決定する。前回音声と判定されなかった場合は、
Count1と音声区間の開始点を検出するためのしき
い値ThON(図10中、ThON=5)を比較し、し
きい値ThON以上なら音声区間の開始であり、音声区
間検出信号をオン(ON)とする。しきい値以下なら、
非音声区間の継続とする。また、前回音声と判定された
場合は、Count1と音声区間の終了点を検出するた
めのしきい値ThOFF(図10中、ThOFF=2)
を比較し、しきい値ThOFF以上なら、音声区間の継
続とする。しきい値ThOFF以下なら、しきい値Th
OFFを下回った回数Count2(hist)に1を
加算し、そのCount2(hist)が所定のしきい
値ThHOLDになるまでは音声区間を延長する。Co
unt2(hist)がThHOLD(図10中、Th
HOLD=10)に一致したら、音声区間の終了とし、
音声区間検出信号をオフ(OFF)とする。
【0059】このように、発言音声区間の開始と終了に
対して、それぞれ異なるしきい値との比較動作を行うこ
とによって、音声区間検出信号にヒステリシス特性を持
たせ、画面切り替え制御のための検出信号として出力し
ている。これにより、一旦発言を始めた発言者は、速く
発言者として認識され、速やかに画像がその発言者に向
けて切り替えることができる。さらに、発言途中で短時
間の間無言であっても、上記のヒステリシス特性により
しばらくの間は、非音声と判定されないので発 言を一旦
開始した人は発言者として認識されつづける。したがっ
て、別のマイクに不意に入力される発声により画面が切
り替わることがないので、カメラの旋回が不意に発言す
る別人物に向けて行われることもなく、発言者の顔が画
面に表示されつづけて、画面をみている人は発言者の発
言に集中できる。
【0060】図8に示すラッチ回路40は、各検出区間
において算出された有声音判定パラメータを一時的に保
持しており、外部からそのデータを読み出すことができ
る。
【0061】このデータは、従前に示した図11中の発
言者判定器3や、同様に従前に示した図12中の発言地
点判定部16で読み出され、複数の発言者あるいは発言
地点が検出された場合に、その各々のデータを参照し、
比較することによって、競合した状態から唯一の発言者
又は発言地点を決定するために利用することができる。
例えば、隣接した2〜3本のマイクロホンに、同じ音声
が飛び込んで入力され、同時に音声検出されたときに
は、有声音判定パラメータ中の1つであったR0の0次
の自己相関係数、すなわち、短時間パワーをそれぞれ比
較すれば、その値が続けて最も大きいものを真の発言者
と判定することができる。
【0062】また、その値の大小関係が切り替わるとき
は、別々の発言が行われていると判断し、その他の条件
で発言者を決定するような処理をとることが出来る。又
は別のパラメータを出力し、同一発言による競合か、別
々の発言による競合かを判定させることもできる。
【0063】
【発明の効果】以上の説明から明らかなように、本発明
のテレビ会議用発言音声検出装置は、サンプリングした
音声データを、一定区間毎に蓄積格納し、自己相関係数
や線形予測係数などを算出し、それぞれしきい値判定し
て有声音か無音又は無声音かを検出して正しく発言者の
特定が行われ、さらにヒステリシス特性を持つ音声検出
区間信号を出力しているため、発言音声以外の雑音に反
応することなく会議参加者の発言にのみ反応しつづけ
発言者を確実に特定でき、多地点テレビ会議の円滑な運
営が可能になるという効果を有する。
【図面の簡単な説明】
【図1】本発明のテレビ会議用発言音声検出装置の実施
例における構成を示すブロック図
【図2】実施例の説明に供され、図1中の音声入力部の
詳細な構成を示すブロック図
【図3】実施例の説明に供され、図1中の演算部の構成
を示すブロック図
【図4】実施例の動作説明に供され、図1中の演算部に
おける有声音判定パラメータの算出と判定処理を示すフ
ローチャート
【図5】実施例の動作説明に供され、図1中の演算部に
おける他の有声音判定パラメータの算出と判定処理を示
すフローチャート
【図6】実施例の動作説明に供され、図1中の演算部に
おける、さらに他の有声音判定パラメータの算出と判定
処理を示すフローチャート
【図7】実施例の動作説明に供され、演算部における処
理信号と、そのタイミングを示すタイミングチャート
【図8】実施例の説明に供され、データ出力部の構成を
示すブロック図
【図9】実施例の動作説明に供され、データ出力部にお
けるヒステリシス回路の動作を示すフローチャート
【図10】実施例の動作説明に供され、データ出力部で
の処理手順を示すタイミングチャート
【図11】従来例における映像自動切り替え装置の構成
を示すブロック図
【図12】従来例の多地点テレビ会議システムの全体構
成を示すブロック図
【図13】従来例の説明に供され、音声レベル検出を行
うための検出器の構成を示すブロック図
【図14】従来例の動作説明に供され、継続時間による
判定動作を説明するための説明図
【符号の説明】
22 音声入力部 23 データ記憶部 24 演算部 25 データ記憶部 26 データ出力部 27 マイクロホン 28 増幅器 29 低域通過フィルタ(LPF) 30 A/Dコンバータ 33 乗算器 34 シフタ 35 ALU 36 演算命令部 39 ヒステリシス回路 40 ラッチ回路
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI G10L 9/14 D (56)参考文献 特開 平4−137987(JP,A) 特開 昭62−108692(JP,A) 特開 平2−194787(JP,A) 特開 平4−100099(JP,A) 特開 昭63−237100(JP,A) 特開 昭63−95500(JP,A) 特開 昭60−230200(JP,A) 特開 昭60−87399(JP,A) 特開 昭60−39700(JP,A) 特開 昭56−104399(JP,A) 特開 昭56−78900(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 11/02 G10L 13/00

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】 画像を表示する映像表示手段と、マイク
    ロホンで集音された音声信号をサンプリング入力する音
    声入力手段と、前記音声入力手段により入力されたサン
    プリングデータを予め記憶するデータ記憶部と、前記デ
    ータ記憶部に予め記憶された前記サンプリングデータか
    ら前記音声信号が音声及び無音又は雑音のいずれかを示
    す有声音判定パラメータを所定の区間毎に算出する算出
    手段と、前記有声音判定パラメータに基づいて発言音声
    を検出し検出信号を出力する検出手段と、前記検出手段
    による検出結果とともに前記有声音判定パラメータを出
    力するデータ出力部と前記データ出力部の出力により発
    言地点を判定する発言地点判定手段とを備え、前記発言
    地点判定手段は、唯一の発言音声の開始が検出された場
    合に、前記検出信号に基づいて発言者を判定し、複数の
    発言音声の開始が同時に検出された場合に、前記有声音
    判定パラメータを比較し、この比較の結果に基づいて発
    言者を特定し、前記映像入出力手段に前記発言者の画面
    を表示するように切り替え制御させることを特徴とする
    テレビ会議用発言音声検出装置。
  2. 【請求項2】 前記検出手段は、前記有声音判定パラメ
    ータを所定の検出区間にわたって蓄積する蓄積手段と、
    前記蓄積手段の蓄積結果の中から音声と判定された前記
    有声音パラメータ数をカウントする第1のカウント手段
    と、前記蓄積手段の蓄積結果から非音声と判定された前
    記有声音パラメータ数をカウントする第2のカウント手
    段とを有し、前記第1のカウント手段のカウント数が第
    1のしきい値をこえた場合に発言音声の開始を検出し、
    前記第2のカウント手段のカウント数が第2のしきい値
    をこえた場合に発言音声の終了を検出し、前記第1のし
    きい値と前記第2のしきい値をそれぞれ異なる値とし
    て、前記発言音声の検出結果を示す検出信号にヒステリ
    シス特性を持たせたことを特徴とする請求項1に記載の
    テレビ会議用発言音声検出装置。
  3. 【請求項3】 前記有声音判定パラメータは、自己相関
    係数、線形予測係数またはLPCケプストラム係数のう
    ち少なくとも一つから算出されることを特徴とする請求
    項1又は2のいずれかに記載のテレビ会議用発言音声検
    出装置。
JP23678292A 1992-09-04 1992-09-04 テレビ会議用発言音声検出装置 Expired - Fee Related JP3211398B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP23678292A JP3211398B2 (ja) 1992-09-04 1992-09-04 テレビ会議用発言音声検出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP23678292A JP3211398B2 (ja) 1992-09-04 1992-09-04 テレビ会議用発言音声検出装置

Publications (2)

Publication Number Publication Date
JPH0683391A JPH0683391A (ja) 1994-03-25
JP3211398B2 true JP3211398B2 (ja) 2001-09-25

Family

ID=17005716

Family Applications (1)

Application Number Title Priority Date Filing Date
JP23678292A Expired - Fee Related JP3211398B2 (ja) 1992-09-04 1992-09-04 テレビ会議用発言音声検出装置

Country Status (1)

Country Link
JP (1) JP3211398B2 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000175170A (ja) * 1998-12-04 2000-06-23 Nec Corp 多地点テレビ会議システム及びその通信方法
JP2001274923A (ja) 2000-03-28 2001-10-05 Nec Eng Ltd 携帯電話伝送システム
JP2007013302A (ja) * 2005-06-28 2007-01-18 Konica Minolta Holdings Inc 双方向通信システム
JP4595124B2 (ja) * 2006-03-03 2010-12-08 独立行政法人産業技術総合研究所 音声信号と非音声信号の判別装置及び方法
FR2916866A1 (fr) * 2007-05-29 2008-12-05 Thomson Licensing Sas Procede de creation et reproduction d'une image panoramique sonore, et appareil de reproduction d'une telle image
WO2009078093A1 (ja) * 2007-12-18 2009-06-25 Fujitsu Limited 非音声区間検出方法及び非音声区間検出装置
JP5251473B2 (ja) * 2008-12-09 2013-07-31 ソニー株式会社 音声処理装置、及び、音声処理方法
JP5840077B2 (ja) * 2012-06-15 2016-01-06 日本電信電話株式会社 発生音感知装置、方法、プログラム
CN108370469B (zh) * 2016-03-17 2020-10-30 铁三角有限公司 噪声检测装置和语音信号输出装置
JP6759898B2 (ja) 2016-09-08 2020-09-23 富士通株式会社 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム
WO2018211806A1 (ja) 2017-05-19 2018-11-22 株式会社オーディオテクニカ 音声信号処理装置
CN112351237A (zh) * 2020-11-05 2021-02-09 安徽马钢和菱实业有限公司 一种视频会议主视频自动切换决策算法

Also Published As

Publication number Publication date
JPH0683391A (ja) 1994-03-25

Similar Documents

Publication Publication Date Title
US7415416B2 (en) Voice activated device
JP4729927B2 (ja) 音声検出装置、自動撮像装置、および音声検出方法
JP4713111B2 (ja) 発話区間検出装置、音声認識処理装置、送信システム、信号レベル制御装置、発話区間検出方法
JPH06332492A (ja) 音声検出方法および検出装置
JP3211398B2 (ja) テレビ会議用発言音声検出装置
US7672844B2 (en) Voice processing apparatus
CN110867197A (zh) 语音交互过程中实时打断语音机器人的方法及设备
JPH0792988A (ja) 音声検出装置と映像切り替え装置
JP4607908B2 (ja) 音声区間検出装置および音声区間検出方法
KR20120130371A (ko) Gmm을 이용한 응급 단어 인식 방법
JPH05111020A (ja) テレビ会議用画面切替制御装置
JP3838159B2 (ja) 音声認識対話装置およびプログラム
JPS60200300A (ja) 音声の始端・終端検出装置
JPH0797279B2 (ja) 音声認識装置
JP2797861B2 (ja) 音声検出方法および音声検出装置
JPS60181798A (ja) 音声認識装置
JPH0950288A (ja) 音声認識装置及び音声認識方法
JPS6367197B2 (ja)
US6633847B1 (en) Voice activated circuit and radio using same
JPH05173592A (ja) 音声/非音声判別方法および判別装置
JPH03114100A (ja) 音声区間検出装置
JP2002182691A (ja) 音を出力する機器を制御する制御装置
Vijayendra et al. Word boundary detection for Gujarati speech recognition using in-ear microphone
JP6790851B2 (ja) 音声処理プログラム、音声処理方法、及び音声処理装置
Ishi et al. Real-time audio-visual voice activity detection for speech recognition in noisy environments

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees