JPH09172496A - 話者判定方法及び話者判定装置 - Google Patents

話者判定方法及び話者判定装置

Info

Publication number
JPH09172496A
JPH09172496A JP33147495A JP33147495A JPH09172496A JP H09172496 A JPH09172496 A JP H09172496A JP 33147495 A JP33147495 A JP 33147495A JP 33147495 A JP33147495 A JP 33147495A JP H09172496 A JPH09172496 A JP H09172496A
Authority
JP
Japan
Prior art keywords
speaker
stored
predetermined
processing unit
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP33147495A
Other languages
English (en)
Inventor
Toshiaki Suzuki
敏明 鈴木
Itaru Mimura
到 三村
Shigeo Sumino
重雄 炭野
Tatsuya Kameyama
達也 亀山
Satoru Date
哲 伊達
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP33147495A priority Critical patent/JPH09172496A/ja
Publication of JPH09172496A publication Critical patent/JPH09172496A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)

Abstract

(57)【要約】 【課題】テレビ会議システムにおいて、複数入力された
音声信号より話者を自動的に判定する。 【解決手段】音声信号蓄積処理部61は、所定間隔毎に
入力された複数音声信号11をリング型のメモリに蓄積
する。話者判定処理部62は、前記音声信号蓄積処理部
61が蓄積した音声信号を参照し話者を判定する。また
判定した話者の音声チャンネルを指示する制御信号をカ
メラ制御処理部63へ入力する。カメラ制御処理部63
は入力された制御信号に基づきカメラの撮影条件を決定
し、その条件を指示する制御信号14を撮影用のカメラ
2に入力する。カメラ2は、入力された制御信号14に
従い話者の撮影を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、話者判定方法およ
び話者判定装置に関する。
【0002】
【従来の技術】従来の技術として、特開平6−292198 号
公報に開示の話者判定方式が知られている。この話者判
定方式はテレビ会議システム等において、複数端末から
の音声信号を入力し、所定長の音声検出期間毎に音声の
有無を検出するとともに、この音声検出期間を複数個ま
とめた話者判定期間毎に話者を判定し、音声検出量の大
きい上位2つのテレビ会議端末の一方が前回話者である
とき、前回話者を優先する方式である。また話者判定後
は、話者判定に用いた音声データをクリアし次の話者判
定を行う方式である。
【0003】
【発明が解決しようとする課題】上記従来の話者判定方
式には、次の問題点がある。
【0004】(1)所定長の音声検出期間毎に音声の有
無を検出し、さらに音声検出期間を複数まとめた話者判
定期間毎に話者を判定する場合、この話者判定期間の間
は話者が判定されない。つまり次の話者判定期間後まで
話者を判定できず、話者が交代した場合に即座に次の話
者を判定できない。
【0005】(2)話者判定後、話者判定に用いたメモ
リ及びカウンタのデータをクリアするため、話者判定期
間以前の話者の状態を考慮せず話者を判定することにな
り、話者判定において誤判定を導く恐れがある。例えば
前回話者判定期間の後半から話し始め、今回話者判定期
間の前半で話し終えた話者がいる場合、前回話者判定で
は話者と判定されない場合でも、今回話者判定では話者
と判定される可能性が高い。ところが前回話者判定期間
のデータが失われると、話者としてのデータが減少す
る。その結果、話者として判定される確率が減少するこ
とになり、話者判定において誤判定を導く恐れがある。
【0006】(3)音声検出量の大きい上位2つのテレ
ビ会議端末の一方が前回話者であるとき、前回話者を優
先する方式では、会話において常に同一の人物を撮影し
続ける場合がある。
【0007】本発明の第1の目的は、話者判定後、話者
判定に用いたメモリ及びカウンタの内容をクリアせず、
話者判定の誤判定率を減少させるためできるだけ長時間
に渡る話者判定用のデータを蓄積し、且つ話者が交代し
た場合に、次の話者を即座に判定可能とするような、話
者判定頻度を可能なだけ高めた話者判定方法、及びその
ための話者判定装置を提供することにある。
【0008】また本発明の第2の目的は、話者が複数の
場合、常に同一の人物を撮影し続けることなく、話者の
人数や位置関係に応じた撮影が可能な話者判定方法、及
びそのための話者判定装置を提供することにある。
【0009】
【課題を解決するための手段】この発明は、話者判定の
誤判定率を減少させるためできるだけ長時間に渡る話者
判定用のデータを蓄積し、且つ話者が交代した場合に、
次の話者を即座に判定可能とするような話者判定頻度を
可能なだけ高めるため、入力された複数音声信号を所定
の期間毎に所定数の蓄積領域を持つリングメモリに蓄積
し、前記所定の期間毎にその蓄積した音声信号を絶対値
加算し、その加算した値が最大値となる者を話者と判定
する話者判定方法を提供する。
【0010】この発明は、複数の音声信号を入力する手
段と、入力された複数音声信号を所定の期間毎に所定数
の蓄積領域を持つリングメモリに蓄積する手段と、前記
所定の期間毎にその蓄積した音声信号を絶対値加算する
手段と、その加算した値が最大となる者を話者と判定す
る手段とを備えたことを特徴とする話者判定装置を提供
する。
【0011】この発明は、複数音声信号を入力し、所定
の期間毎に複数音声信号の絶対値の最大値を検出し、所
定数の蓄積領域を持つリングメモリに検出した最大値を
蓄積し、前記所定の期間毎にその蓄積した最大値を各々
の話者に対して加算し、さらに加算した値が最大となる
者を話者と判定する話者判定方法を提供する。
【0012】この発明は、複数音声信号を入力し、各々
の音声信号に対して所定の期間毎に絶対値が所定値以上
の音声を検出し、所定数の蓄積領域を持つリングメモリ
に音声を蓄積し、その蓄積した音声信号を前記所定の期
間毎に絶対値加算し、その加算した値が最大となる者を
話者と判定する話者判定方法を提供する。
【0013】この発明は、複数音声信号を入力し、各々
の音声信号に対して所定の期間毎に絶対値が所定値以上
の音声を検出し、所定数の蓄積領域を持つリングメモリ
に音声を蓄積し、前記所定の期間毎にその蓄積した音声
信号が所定回数以上の場合、話者と判定する話者判定方
法を提供する。
【0014】この発明は、複数音声信号を入力し、各々
の音声信号に対して所定の期間毎に所定数の蓄積領域を
持つリングメモリに音声を蓄積し、前記所定の期間毎に
その蓄積した音声信号を絶対値加算し、その加算した値
が所定値以上の者を話者と判定する話者判定方法を提供
する。
【0015】この発明は、複数音声信号を入力し、各々
の音声信号に対して所定の期間毎に所定数の蓄積領域を
持つリングメモリに音声を蓄積し、前記所定の期間毎に
その蓄積した音声信号を絶対値加算し、所定人数の上位
者を話者と判定する話者判定方法を提供する。
【0016】
【発明の実施の形態】以下、本発明の実施例を図面を用
いて説明する。尚、これにより本発明が限定されるもの
ではない。
【0017】(第1実施例)第1実施例は、所定の期間
毎にリングメモリに音声を蓄積し、その蓄積した音声信
号を各々の話者に対して絶対値加算し、その加算した値
が最大となる者を話者と判定する実施例である。
【0018】図12は、本発明の一実施例のテレビ会議
システムのブロック図である。このテレビ会議システム
100において、1はマイクを表し、2はカメラを表
す。3はスピーカを表し、4は映像信号の表示装置を表
す。5は、映像信号及び音声信号の送受信装置を表す。
6は、本発明の話者判定カメラ制御装置を表す。13及
び13′は音声信号を表し、12及び12′は映像信号
を表す。また14はカメラ制御用の制御信号を表す。人
物(乙1〜乙n)は会議参加者である。
【0019】次に各部の動作を通信回線によって接続さ
れた遠隔の図示せぬテレビ会議システムとのテレビ会議
を想定して説明する。尚、図示せぬテレビ会議システム
は、テレビ会議システム100と同じ構成であり、その
会議参加者は人物(甲1〜甲n)である。
【0020】前記カメラ2は会議参加者である人物(乙
1〜乙n)を撮影し、その映像信号12′を送受信装置5
に入力する。前記マイク1は人物(乙1〜乙n)の音声を
収音し、音声信号11を前記話者判定カメラ制御装置6
に入力する。前記話者判定カメラ制御装置6は入力され
た音声信号11より、乙1から乙nまでのどの人が話者で
あるかを判定し、前記撮影用のカメラ2を制御するため
の制御信号14を前記カメラ2に入力する。また話者判
定カメラ制御装置6は、通信相手側で音声再生を行った
場合、表示画面内に音像が定位するよう音像定位処理を
行い、音像定位処理した音声信号13′を前記送受信装
置5に入力する。
【0021】前記送受信装置5は、前記カメラ2から入
力された映像信号12′及び前記話者判定カメラ制御装
置6から入力された音声信号13′を通信回線を介し
て、図示せぬテレビ会議システムへ送信する。また、前
記送受信装置5は、図示せぬテレビ会議システムから通
信回線を介して送信されてきた映像信号及び音声信号を
受信し、映像信号12を表示装置4に入力し、音声信号
13をスピーカ3に入力する。前記表示装置4は、入力
された映像信号12により画面に会議参加者映像を実時
間で表示する。前記スピーカ3は、入力された音声信号
13により音声を実時間で再生する。なお本説明では、
話者判定カメラ制御装置6を自サイトに設置した場合に
ついて行ったが、通信相手側に設置することも可能であ
る。
【0022】図1は、前記話者判定カメラ制御装置6の
構成を示す装置のブロック図である。この話者判定カメ
ラ制御装置6は、音声信号蓄積処理部61と、話者判定
処理部62と、カメラ制御処理部63とから構成され
る。
【0023】前記音声信号蓄積処理部61は、音声信号
11をメモリに蓄積する。また音声信号11に対して、
通信相手側で音声を再生した場合、表示画面内に音像が
定位するよう音像定位処理を行い、定位処理後の音声信
号13を送受信装置5に入力する。
【0024】前記話者判定処理部62は、前記音声信号
蓄積処理部61が蓄積した音声信号を参照し、話者を判
定する。またその判定結果を前記カメラ制御処理部63
へ入力する。
【0025】前記カメラ制御処理部63は、話者の判定
結果に基づきカメラの撮影条件を決定し、その撮影条件
を指示する制御信号14を撮影用のカメラ2へ入力す
る。前記制御信号14は、例えば撮影方向や撮影画角を
含んでいる。
【0026】図2は、第1実施例の前記音声信号蓄積処
理部61を示すブロック図である。図2において、11a1
〜11anは前記マイク1より入力された複数の音声信号を
表す。初めに音声信号蓄積処理部61では、サンプリン
グ毎に前記入力された複数の音声信号(11a1〜11an)を
分配して音像定位処理部610及びアイドリング処理部
611へと入力する。前記音像定位処理部610では、
入力された音声(11a1〜11an)を通信相手側において再
生した場合、通信相手側の表示装置4の画面内に音像が
定位するよう実時間で音像定位処理を行う。前記アイド
リング処理部611では、所定の期間毎に入力された複
数音声信号(11a1〜11an)を、加算処理部615からの
制御信号616に従い規格化係数乗算処理部612へ入
力する。
【0027】規格化係数乗算処理部612では、入力さ
れた複数音声信号(11b1〜11bn)に所定の規格化係数を
掛け絶対値処理部613に入力する。絶対値処理部61
3では、入力された複数音声信号(11c1〜11cn)の絶対
値をとり、所定数mの蓄積領域を持つリングメモリ(61
4a〜614n)に、前回蓄積した次の番地に蓄積を行う。
尚、m個の音声信号を蓄積した場合は、自動的に最初の
番地に戻って蓄積を実行する。
【0028】次に加算処理部615では、所定の期間毎
にリングメモリ(614a〜614n)に蓄積されているデータ
(11d1(1)〜11d1(m),11d2(1)〜11d2(m),11dn(1)〜11dn
(m))の加算を各々の話者について行う。また、その加
算した複数データ(11f1〜11fn)の蓄積を行う。さらに加
算処理部615では、前記所定の期間毎のタイミングを
知らせる制御信号616を前記アイドリング処理部61
1へ送る。
【0029】図3は、第1実施例の話者判定処理部62
を示すブロック図である。最大値検出処理部620は、
前記加算処理部615が蓄積した各々の話者に対する加
算データ(11f1〜11fn)を参照し、その中での最大値を
検出する。また、最大である話者の音声チャンネル番号
を示す制御信号621をカメラ制御部へ送る。
【0030】図4は、第1実施例のカメラ制御処理部6
3を示すブロック図である。図4における631は、予
め蓄積されている最大チャンネル数とカメラの撮影条件
を示したデータベースである。カメラ制御部630は、
前記最大値検出処理部620より送られた制御信号62
1を基に、データベース631を参照し、カメラの撮影
条件を決定する。例えば、複数話者のうち2チャンネル
目の人のデータが最大の場合、カメラの撮影条件は撮影
2となる。またカメラ制御部630は、カメラの撮影条
件を指定する制御信号14を前記カメラ2へ入力する。
前記制御信号14は、例えば撮影方向や撮影画角を含ん
でいる。
【0031】以上の第1実施例によれば、所定の期間毎
に入力された音声信号をリングメモリに蓄積し話者を判
定するため、話者が交代した場合、次の話者を即時に判
定可能である。また話者判定後、話者判定に用いたデー
タであるリングメモリの内容をクリアしないため、話者
判定期間における音声データを消失しない。
【0032】(第2実施例)第2実施例は、複数音声信
号を入力し所定の期間毎に複数音声信号の絶対値の最大
値を検出し、所定数の蓄積領域を持つリングメモリに検
出した最大値を蓄積し、前記所定の期間毎にその蓄積し
た最大値を各々の話者に対して加算し、さらに加算した
値が最大となる者を話者と判定する実施例である。第1
実施例と異なる点は入力された複数音声信号をリングメ
モリに蓄積するまでであり、その後の処理は第1実施例
と同じである。以下、第1実施例と異なる点について説
明をする。
【0033】図5は、第2実施例の音声信号蓄積処理部
61Aを示すブロック図である。図5において、11a1〜
11anは前記送受信部5より入力された複数の音声信号を
表す。初めに音声信号蓄積処理部61Aでは、サンプリ
ング毎に前記マイク1より入力された複数の音声信号
(11a1〜11an)を分配して音像定位処理部610及びア
イドリング処理部611へと入力する。前記音像定位処
理部610では、入力された音声(11a1〜11an)を通信
相手側において再生した場合、通信相手側の表示装置4
の画面内に音像が定位するよう実時間で音像定位処理を
行う。前記アイドリング処理部611では、前記所定の
期間毎に入力された複数音声信号(11a1〜11an)を、加
算処理部615からの制御信号616に従い絶対値処理
部613へ入力する。絶対値処理部613では、入力さ
れた複数音声信号(11b1〜11bn)の絶対値を計算し最大
値処理部616に入力する。最大値処理部616では、
入力された複数音声信号(11d1〜11dn)の最大値のみ所
定数mの蓄積領域を持つリングメモリ(614a〜614n)
に、前回蓄積した次の番地に蓄積を行い、その他の値は
0値の蓄積を行う。尚、m個の音声信号を蓄積した場合
は、自動的に最初の番地に戻って蓄積を実行する。
【0034】次に加算処理部615では、前記所定の期
間毎にリングメモリ(614a〜614n)に蓄積されているデ
ータ(11g1(1)〜11g1(m),11g2(1)〜11g2(m),…11gn
(1)〜11gn(m))の加算を各々の話者について行う。ま
た、その加算した複数データ (11h1〜11hn)の蓄積を
行う。さらに加算処理部615では、前記所定の期間毎
のタイミングを知らせる制御信号616を前記アイドリ
ング処理部611へ送る。前記話者判定処理部62で
は、前記蓄積された複数データ(11h1〜11hn)を参照
し、その最大値より話者を判定する。
【0035】以上の第2実施例によれば、所定の期間毎
に入力された複数音声信号の絶対値の最大値のみを検出
してリングメモリに蓄積し、さらに各々の話者に対して
加算した値の最大値を話者と判定するため、話者が交代
した場合、次の話者を即時に判定可能である。また話者
判定後、リングメモリの内容をクリアしないため、話者
判定期間における音声データを消失しない。
【0036】(第3実施例)第3実施例は、複数音声信
号を入力し、各々の音声信号に対して所定の期間毎に絶
対値が所定の値以上の音声を検出し、所定数の蓄積領域
を持つリングメモリに音声を蓄積し、その蓄積した音声
信号を前記所定の期間毎に絶対値加算し、その加算した
値が最大値となる者を話者と判定する実施例である。第
2実施例と異なる点は入力された複数音声信号をリング
メモリに蓄積するまでであり、その後の処理は第2実施
例と同じである。以下、第2実施例と異なる点について
説明をする。
【0037】図6は、第3実施例の音声信号蓄積処理部
61Bを示すブロック図である。図6において、11a1〜
11anは前記マイク1より入力された複数の音声信号を表
す。初めに音声信号蓄積処理部61Bでは、サンプリン
グ毎に前記入力された複数の音声信号(11a1〜11an)を
分配して音像定位処理部610及びアイドリング処理部
611へと入力する。前記音像定位処理部610では、
入力された音声(11a1〜11an)を通信相手側において再
生した場合、通信相手側の表示装置4の画面内に音像が
定位するよう実時間で音像定位処理を行う。前記アイド
リング処理部611では、所定の期間毎に入力された複
数音声信号(11a1〜11an)を、加算処理部615からの
制御信号616に従い選択的に絶対値処理部613へ入
力する。
【0038】絶対値処理部613では、入力された複数
音声信号(11b1〜11bn)の絶対値を計算し、しきい値処
理部617に入力する。しきい値処理部617では、入
力された複数音声信号(11d1〜11dn)に対して、ある値
(しきい値)以上の信号を検出し、所定数mの蓄積領域
を持つリングメモリ(614a〜614n)に、前回蓄積した次
の番地に蓄積を行う。また、しきい値以下の場合は0値
の蓄積を行う。尚、m個の音声信号を蓄積した場合は、
自動的に最初の番地に戻って蓄積を実行する。
【0039】次に加算処理部615では、前記所定の期
間毎にリングメモリ(614a〜614n)に蓄積されているデ
ータ(11i1(1)〜11i1(m),11i2(1)〜11i2(m),…11in
(1)〜11in(m))の加算を各々の話者について行う。ま
た、その加算した複数データ (11j1〜11jn)の蓄積を
行う。さらに加算処理部615では、前記所定の期間毎
のタイミングを知らせる制御信号616を前記アイドリ
ング処理部611へ送る。前記話者判定処理部62で
は、前記蓄積された複数データ(11j1〜11jn)を参照
し、その最大値より話者を判定する。
【0040】以上の第3実施例によれば、所定の期間毎
に入力された複数音声信号の絶対値がある値以上の信号
を検出してリングメモリに蓄積し、さらに各々の話者に
対して加算した値の最大値を話者と判定するため、話者
が交代した場合、次の話者を即時に判定可能である。ま
た話者判定後、リングメモリの内容をクリアしないた
め、話者判定期間における音声データを消失しない。
【0041】(第4実施例)第4実施例は、複数音声信
号を入力し、各々の音声信号に対して所定の期間毎に絶
対値が所定の値以上の音声を検出し、所定数の蓄積領域
を持つリングメモリに音声を蓄積し、前記所定の期間毎
にその蓄積した音声信号が所定回数以上の場合、話者と
判定する実施例である。
【0042】図7は、第4実施例の音声信号蓄積処理部
61Cを示すブロック図である。図7において、11a1〜
11anは前記マイク1より入力された複数の音声信号を表
す。初めに音声信号蓄積処理部61Cでは、サンプリン
グ毎に前記入力された複数の音声信号(11a1〜11an)を
分配して音像定位処理部610及びアイドリング処理部
611へと入力する。前記音像定位処理部610では、
入力された音声(11a1〜11an)を通信相手側において再
生した場合、通信相手側の表示装置4の画面内に音像が
定位するよう実時間で音像定位処理を行う。前記アイド
リング処理部611では、所定の期間毎に入力された複
数音声信号(11a1〜11an)を、カウンタ処理部618か
らの制御信号616に従い絶対値処理部613へ入力す
る。絶対値処理部613では、入力された複数音声信号
(11b1〜11bn)の絶対値を計算し、しきい値処理部61
7に入力する。
【0043】しきい値処理部617では、入力された複
数音声信号(11d1〜11dn)に対して、ある値(しきい
値)以上の信号を検出し、所定数mの蓄積領域を持つリ
ングメモリ(614a〜614n)に、前回蓄積した次の番地に
蓄積を行う。また、しきい値以下の場合は0値の蓄積を
行う。尚、m個の音声信号を蓄積した場合は、自動的に
最初の番地に戻って蓄積を実行する。
【0044】次に前記カウンタ処理部618では、前記
所定の期間毎にリングメモリ(614a〜614n)に蓄積され
ているデータ(11i1(1)〜11i1(m),11i2(1)〜11i2(m),
…11in(1)〜11in(m))の数を各々の話者についてカウン
トする。また、そのカウント数のデータ(11k1〜11kn)
の蓄積を行う。さらにカウンタ処理部618では、前記
所定の期間毎のタイミングを知らせる制御信号616を
前記アイドリング処理部611へ送る。
【0045】図8は、第4実施例の話者判定処理部62
Aを示すブロック図である。しきい値処理部622は、
前記カウンタ処理部618が蓄積した各々の話者に対す
るカウントデータ(11k1〜11kn)を参照し、所定回数以
上の者を検出する。また検出した話者の音声チャンネル
番号を示す制御信号623をカメラ制御部へ送る。
【0046】図9は、第4実施例のカメラ制御処理部6
3Aを示すブロック図である。図9における632は、
予め蓄積されている話者のチャンネル数とカメラの撮影
条件を示したデータベースである。カメラ制御部630
は、前記しきい値処理部622より送られた制御信号62
3を基に、データベース632を参照し、通信相手側で
のカメラの撮影条件を決定する。例えば複数話者のう
ち、1チャンネル及び2チャンネル目の人のデータが前
記しきい値処理部622により検出された場合、カメラ
の撮影条件は撮影2−2となる。またカメラ制御部63
0は、カメラの撮影条件を指定する制御信号14を前記
カメラ2へ入力する。前記制御信号14は、例えば撮影
方向や撮影画角を含んでいる。
【0047】以上の第4実施例によれば、所定の期間毎
に入力された複数音声信号の絶対値がある値以上の信号
を検出してリングメモリに蓄積し、所定の回数以上の蓄
積のある者を話者と判定するため、話者が交代した場
合、次の話者を即時に判定可能である。また話者判定
後、リングメモリの内容をクリアしないため、話者判定
期間における音声データを消失しない。さらに話者とし
ての認定を複数許可するため、常に同一の人物を撮影し
続けることなく話者の人数や位置に応じたカメラの撮影
が可能となる。
【0048】(第5実施例)第5実施例は、複数音声信
号を入力し、各々の音声信号に対して所定の期間毎に所
定数の蓄積領域を持つリングメモリに音声を蓄積し、前
記所定の期間毎にその蓄積した音声信号を絶対値加算
し、その加算した値が所定値以上の者を話者と判定する
実施例である。本実施例は第1実施例の変形であり、前
記所定の期間毎に所定数の蓄積領域を持つリングメモリ
に音声を蓄積する所までは第1実施例と同じである。こ
こでは、検出音声の蓄積以後について説明を行う。
【0049】図10は、第5実施例の話者判定処理部6
2Bを示すブロック図である。しきい値処理部624
は、前記加算処理部615が蓄積した各々の話者に対す
る加算データ(11f1〜11fn)を参照し、前記所定値以上
の者を検出する。また検出した話者の音声チャンネル番
号を示す制御信号623をカメラ制御部630へ送る。
カメラ制御部630は、前記しきい値処理部624より
送られた制御信号625を基に、データベース632を
参照し、カメラの撮影条件を決定する。例えば複数話者
のうち、1チャンネル及び2チャンネル目の人のデータ
が前記しきい値処理部624により検出された場合、カ
メラの撮影条件は撮影2−2となる。またカメラ制御部
630は、カメラの撮影条件を指定する制御信号14を
前記カメラ2へ入力する。前記制御信号14は、例えば
撮影方向や撮影画角を含んでいる。
【0050】以上の第5実施例によれば、所定の期間毎
に入力された音声信号の絶対値をリングメモリに蓄積
し、所定値以上の者を話者と判定するため、話者が交代
した場合、次の話者を即時に判定可能である。また話者
判定後、リングメモリの内容をクリアしないため、話者
判定期間における音声データを消失しない。さらに話者
としての認定を複数許可するため、常に同一の人物を撮
影し続けることなく話者の人数に応じたカメラの撮影が
可能である。
【0051】(第6実施例)第6実施例は、複数音声信
号を入力し、各々の音声信号に対して所定の期間毎に所
定数の蓄積領域を持つリングメモリに音声を蓄積し、前
記所定の期間毎にその蓄積した音声信号を絶対値加算
し、所定人数の上位者を話者と判定する実施例である。
本実施例は第1実施例の変形であり、前記所定の期間毎
に前記所定数の蓄積領域を持つリングメモリに音声を蓄
積する所までは第1実施例と同じである。ここでは、検
出音声の蓄積以後について説明を行う。
【0052】図11は、第6実施例の話者判定処理部6
2Cを示すブロック図である。上位者検出処理部626
は、前記加算処理部615が蓄積した各々の話者に対す
る加算データ(11f1〜11fn)を参照し、前記所定人数の
者を検出する。また検出した話者の音声チャンネル番号
を示す制御信号627をカメラ制御部630へ送る。カ
メラ制御部630は、前記上位者検出処理部626より
送られた制御信号627を基に、データベース632を参
照し、カメラの撮影条件を決定する。例えば上位者2名
を話者と判定する場合で、複数話者のうち1チャンネル
及び2チャンネル目の人のデータが前記上位者検出処理
部626により検出された場合、カメラの撮影条件は撮
影2−2となる。またカメラ制御部630は、カメラの
撮影条件を指定する制御信号14を前記カメラ2へ入力
する。前記制御信号14は、例えば撮影方向や撮影画角
を含んでいる。
【0053】以上の第6実施例によれば、前記所定の期
間毎に入力された音声信号の絶対値をリングメモリに蓄
積し、所定人数の上位者を話者と判定するため、話者が
交代した場合、次の話者を即時に判定可能である。また
話者判定後、リングメモリの内容をクリアしないため、
話者判定期間における音声データを消失しない。さらに
話者としての認定を複数許可するため、常に同一の人物
を撮影し続けることなく話者の人数や位置に応じたカメ
ラの撮影が可能である。
【0054】
【発明の効果】本発明の話者判定方法及び話者判定装置
によれば、次の効果が得られる。
【0055】(1)所定の期間(例えば0.1秒間隔)毎
に話者判定を行うため、話者が交代した場合に即座に次
の話者を判定可能となる。
【0056】(2)話者判定用のデータをリングメモリ
に蓄積することにより、話者判定の誤判定率を減少させ
るために必要な長時間に渡る話者判定用のデータ蓄積が
可能となる。
【0057】(3)話者が複数の場合、話者としての認
定を複数許可するため、常に同一の人物を撮影し続ける
ことなく話者の人数や位置に応じたカメラの撮影が可能
となる。
【図面の簡単な説明】
【図1】本発明の第1実施例の話者判定カメラ制御装置
を示すブロック図。
【図2】本発明の第1実施例の音声信号蓄積処理部を示
すブロック図。
【図3】本発明の第1実施例の話者判定処理部を示すブ
ロック図。
【図4】本発明の第1実施例のカメラ制御処理部を示す
ブロック図。
【図5】本発明の第2実施例の音声信号蓄積処理部を示
すブロック図。
【図6】本発明の第3実施例の音声信号蓄積処理部を示
すブロック図。
【図7】本発明の第4実施例の音声信号蓄積処理部を示
すブロック図。
【図8】本発明の第4実施例の話者判定処理部を示すブ
ロック図。
【図9】本発明の第4実施例のカメラ制御処理部を示す
ブロック図。
【図10】本発明の第5実施例の話者判定処理部を示す
ブロック図。
【図11】本発明の第6実施例の話者判定処理部を示す
ブロック図。
【図12】本発明の一実施例のテレビ会議システムを示
すブロック図。
【符号の説明】
1…マイク、2…カメラ、3…スピーカ、4…表示装
置、5…送受信装置、6…話者判定カメラ制御装置、1
1,13…音声信号、12,12′…映像信号、14…
制御信号、61…音声信号蓄積処理部、62…話者判定
処理部、63…カメラ制御処理部、614a〜614n
…リングメモリ、100…テレビ会議システム。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 亀山 達也 東京都国分寺市東恋ケ窪1丁目280番地 株式会社日立製作所中央研究所内 (72)発明者 伊達 哲 東京都国分寺市東恋ケ窪1丁目280番地 株式会社日立製作所中央研究所内

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】複数音声信号を入力し、各々の音声信号に
    対して所定の期間毎に所定数の蓄積領域を持つリングメ
    モリに音声信号を蓄積し、その蓄積した音声信号を前記
    所定の期間毎に絶対値加算し、その加算した値が最大と
    なる者を話者と判定することを特徴とする話者判定方
    法。
  2. 【請求項2】複数音声信号を入力する手段と、各々の音
    声信号に対して所定の期間毎に所定数の蓄積領域を持つ
    リングメモリに音声信号を蓄積する手段と、その検出し
    た音声信号を前記所定の期間毎に絶対値加算する手段
    と、その加算した値が最大となる者を話者と判定する手
    段とを具備したことを特徴とする話者判定装置。
  3. 【請求項3】複数音声信号を入力し、所定の期間毎に複
    数音声信号の絶対値の最大値を検出し、所定数の蓄積領
    域を持つリングメモリに検出した最大値を蓄積し、前記
    所定の期間毎にその蓄積した最大値を各々の話者に対し
    て加算し、さらに加算した値が最大となる者を話者と判
    定することを特徴とする話者判定方法。
  4. 【請求項4】複数音声信号を入力し、各々の音声信号に
    対して所定の期間毎に絶対値が所定値以上の音声信号を
    検出し、所定数の蓄積領域を持つリングメモリに音声信
    号を蓄積し、その蓄積した音声信号を前記所定の期間毎
    に絶対値加算し、その加算した値が最大となる者を話者
    と判定することを特徴とする話者判定方法。
  5. 【請求項5】複数音声信号を入力し、各々の音声信号に
    対して所定の期間毎に絶対値が所定の値以上の音声信号
    を検出し、所定数の蓄積領域を持つリングメモリに音声
    信号を蓄積し、所定の期間毎にその蓄積した音声信号が
    所定回数以上の場合、話者と判定することを特徴とする
    話者判定方法。
  6. 【請求項6】複数音声信号を入力し、各々の音声信号に
    対して所定の期間毎に所定数の蓄積領域を持つリングメ
    モリに音声信号を蓄積し、前記所定の期間毎にその蓄積
    した音声信号を絶対値加算し、その加算した値が所定値
    以上の者を話者と判定することを特徴とする話者判定方
    法。
  7. 【請求項7】複数音声信号を入力し、各々の音声信号に
    対して所定の期間毎に所定数の蓄積領域を持つリングメ
    モリに音声信号を蓄積し、前記所定の期間毎にその蓄積
    した音声信号を絶対値加算し、所定人数の上位者を話者
    と判定することを特徴とする話者判定方法。
JP33147495A 1995-12-20 1995-12-20 話者判定方法及び話者判定装置 Pending JPH09172496A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP33147495A JPH09172496A (ja) 1995-12-20 1995-12-20 話者判定方法及び話者判定装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP33147495A JPH09172496A (ja) 1995-12-20 1995-12-20 話者判定方法及び話者判定装置

Publications (1)

Publication Number Publication Date
JPH09172496A true JPH09172496A (ja) 1997-06-30

Family

ID=18244056

Family Applications (1)

Application Number Title Priority Date Filing Date
JP33147495A Pending JPH09172496A (ja) 1995-12-20 1995-12-20 話者判定方法及び話者判定装置

Country Status (1)

Country Link
JP (1) JPH09172496A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012503401A (ja) * 2008-09-18 2012-02-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ システム制御方法及び信号処理システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012503401A (ja) * 2008-09-18 2012-02-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ システム制御方法及び信号処理システム

Similar Documents

Publication Publication Date Title
US10264210B2 (en) Video processing apparatus, method, and system
US6332153B1 (en) Apparatus and method for multi-station conferencing
JP2751923B1 (ja) 多地点テレビ会議システムおよび多地点テレビ会議装置
US5940118A (en) System and method for steering directional microphones
EP1616433B1 (en) Automatic speak-up indication for conference call attendees
EP2381738A1 (en) Adaptive volume adjustment method, device and communication terminal
JP2007290691A (ja) 車両通信システム
JP2004516723A (ja) 自動マルチカメラ映像合成
US7177413B2 (en) Head position based telephone conference system and associated method
EP4064692A1 (en) Smart audio muting in a videoconferencing system
JP3888667B2 (ja) 多者間通信装置
US20030198328A1 (en) Voice activity identification for speaker tracking in a packed based conferencing system with distributed processing
US6219086B1 (en) Terminal apparatus
JPH05122689A (ja) テレビ会議システム
JPH09224228A (ja) 画像通信装置
JPH09172496A (ja) 話者判定方法及び話者判定装置
JP4244416B2 (ja) 情報処理装置および方法、並びに記録媒体
JP4562649B2 (ja) 映像音声会議システム
CN114401350A (zh) 一种音频处理方法及会议系统
CN113923395A (zh) 一种提升会议质量的方法、设备和存储介质
JP3829485B2 (ja) 音声通話装置、音声通話システム、および音声通話方法
KR100195724B1 (ko) 화상회의 시스템에서의 영상카메라 조정방법 및 그 장치
JPS62209985A (ja) テレビ会議装置
JPWO2005050308A1 (ja) カメラ付き携帯電話機
JPH04249991A (ja) テレビ会議装置