JP2022062874A

JP2022062874A - 話者予測方法、話者予測装置、およびコミュニケーションシステム

Info

Publication number: JP2022062874A
Application number: JP2020171050A
Authority: JP
Inventors: 訓史鵜飼; Norifumi Ukai; 良田中; Makoto Tanaka
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2020-10-09
Filing date: 2020-10-09
Publication date: 2022-04-21
Also published as: US20220115021A1; US11875800B2; EP3982361A1; CN114400013A

Abstract

【課題】現在の話者が話している間に、次に話す話者を高い精度で予測することができる話者予測方法、話者予測装置、およびコミュニケーションシステムを提供する。
【解決手段】音声処理装置は、遠端側音信号を受信する音声取得部１００と、遠端側話者画像を受信する画像取得部１０１と、遠端側音信号および遠端側話者画像に基づいて遠端側の話者を特定する遠端話者特定部１０４と、特定した話者を指す識別子とその順番を会話履歴として記録する会話履歴記録部１０３と、特定した話者と会話履歴に基づいて次に発話する話者を予測する予測部５１と、を備える。
【選択図】図４

Description

本発明の一実施形態は、話者を予測する話者予測方法、話者予測装置、およびコミュニケーションシステムに関する。

特許文献１には、複数の人物の中から次に話す話者を予測する発話者予測装置が開示されている。

特開２０１２－２９２０９号公報

現在の話者が話している間に、次に話す話者をより高い精度で予測することが望まれている。

そこで、本発明の一実施形態の目的は、現在の話者が話している間に、次に話す話者を高い精度で予測することができる話者予測方法、話者予測装置、およびコミュニケーションシステムを提供することにある。

話者予測方法は、複数の話者の音声を取得し、前記複数の話者の会話履歴を記録する、話者予測方法であって、音声を取得し、取得した前記音声の話者を特定し、前記特定した話者と前記会話履歴に基づいて、前記複数の話者の中から、次に発話する話者を予測する。

本発明の一実施形態によれば、現在の話者が話している間に、次に話す話者を高い精度で予測することができる。

音信号処理装置１の構成を示すブロック図である。音信号処理装置１の機能的ブロック図である。音信号処理装置１の機能的ブロック図である。音信号処理装置１の機能的ブロック図である。音信号処理方法の動作を示すフローチャートである。音信号処理方法の動作を示すフローチャートである。音信号処理方法の動作を示すフローチャートである。カメラ１１が撮影した画像の一例を示す図である。会話履歴の一例を示す図である。音信号処理を行なう場合の音信号処理装置１の機能的構成を示すブロック図である。

図１は、音信号処理装置１の構成を示すブロック図である。音信号処理装置１は、カメラ１１、ＣＰＵ１２、ＤＳＰ１３、フラッシュメモリ１４、ＲＡＭ１５、ユーザインタフェース（Ｉ／Ｆ）１６、スピーカ１７、６個のマイク１８Ａ～１８Ｆ、および通信部１９を備えている。なお、本実施形態において、信号とはデジタル信号を意味する。

カメラ１１、スピーカ１７、およびマイク１８Ａ～１８Ｆは、例えば表示器（不図示）の上または下に配置される。カメラ１１は、表示器（不図示）の前に居る利用者の画像を取得する。マイク１８Ａ～１８Ｆは、表示器（不図示）の前に居る利用者の音声を取得する。スピーカ１７は、表示器（不図示）の前に居る利用者に対して、音声を出力する。なお、マイクの数は６個に限らない。マイクは、１つのマイクであってもよい。本実施形態のマイクの数は６個であり、アレイマイクを構成する。ＤＳＰ１３は、マイク１８Ａ～１８Ｆで取得した音信号にビームフォーミング処理を施す。

ＣＰＵ１２は、フラッシュメモリ１４から動作用のプログラムをＲＡＭ１５に読み出すことにより、音信号処理装置１の動作を統括的に制御する制御部として機能する。なお、プログラムは自装置のフラッシュメモリ１４に記憶しておく必要はない。ＣＰＵ１２は、例えばサーバ等から都度ダウンロードしてＲＡＭ１５に読み出してもよい。

ＤＳＰ１３は、ＣＰＵ１２の制御に従って、映像信号および音信号をそれぞれ処理する信号処理部である。ＤＳＰ１３は、例えば映像信号から話者の画像を切り出すフレーミング処理を行なう画像処理部として機能する。また、ＤＳＰ１３は、例えばビームフォーミングを行う音信号処理部としても機能する。

通信部１９は、ＤＳＰ１３により処理された後の近端側の映像信号および音信号を、他の装置に送信する。他の装置とは、インターネット等を介して接続される遠端側の音信号処理装置である。また、通信部１９は、他の装置から映像信号および音信号を受信する。通信部１９は、受信した映像信号を表示器（不図示）に出力する。通信部１９は、受信した音信号をスピーカ１７に出力する。表示器は、他の装置のカメラで取得した映像を表示する。スピーカ１７は、他の装置のマイクで取得した話者の音声を出力する。これにより、音信号処理装置１は、遠隔地との音声会話を行うためのコミュニケーションシステムとして機能する。

図２、図３、および図４は、音信号処理装置１の機能的ブロック図である。図５、図６、および図７は、音信号処理方法の動作を示すフローチャートである。図２、図３、および図４に示す機能的構成は、ＣＰＵ１２およびＤＳＰ１３により実現される。

音信号処理装置１は、機能的に、音声取得部１００、画像取得部１０１、近端話者特定部１０２、会話履歴記録部１０３、遠端話者特定部１０４、カメラ画像制御部１０５、および予測部５１を備えている。

近端話者特定部１０２および遠端話者特定部１０４は、本発明の話者特定部に対応する。図２は、近端側の映像信号および音信号に基づいて話者特定を行ない、会話履歴として記録する場合の構成を示し、図５はその場合の動作を示す。

音声取得部１００は、マイク１８Ａ～１８Ｆから音信号を近端側音信号として入力する（Ｓ１１）。また、画像取得部１０１は、カメラ１１から映像信号を近端側話者画像として取得する（Ｓ１２）。近端話者特定部１０２は、近端側音信号および近端側話者画像に基づいて、近端側の話者を特定する（Ｓ１３）。会話履歴記録部１０３は、近端話者特定部１０２の特定した話者を指す識別子とその発話順番を会話履歴として記録する（Ｓ１４）。

近端話者特定部１０２は、例えば音声特徴量に基づいて、話者を特定する。音声特徴量は、話者毎に異なる固有の情報である。音声特徴量は、例えば平均音量（パワー）、最高ピッチ周波数、最低ピッチ周波数、あるいは話速等を含む。近端話者特定部１０２は、例えばニューラルネットワーク等を用いた所定のアルゴリズムにより、音信号から音声特徴量を抽出して話者を特定する。また、近端話者特定部１０２は、音声の到来方向に基づいて話者を特定してもよい。例えば、近端話者特定部１０２は、複数のマイクで取得した音信号の相互相関を求めることにより、話者の音声がマイクに到達したタイミングを求めることができる。近端話者特定部１０２は、各マイクの位置関係および音声の到達タイミングに基づいて、話者の音声の到来方向を求めることができる。

また、近端話者特定部１０２は、話者の顔認識処理を行なうことにより、話者を特定してもよい。話者の顔認識処理は、例えばニューラルネットワーク等を用いた所定のアルゴリズムを用いることにより、近端側話者画像から話者の顔の位置を認識する処理である。

図８は、カメラ１１が撮影した画像の一例を示す図である。図８の例では、カメラ１１は、机Ｔの長手方向（奥行き方向）に沿って居る複数の利用者の顔画像を撮影している。

机Ｔは、平面視して長方形状である。カメラ１１は、机Ｔを短手方向に挟んで左側および右側に居る４人の利用者、および机Ｔよりも遠い位置に居る利用者を撮影している。

近端話者特定部１０２は、この様なカメラ１１の撮影した画像から話者の顔を認識する。図８の例では、画像の左下に居る利用者Ａ１が発話している。近端話者特定部１０２は、複数フレームの画像に基づいて、例えば口の画像に変化がある顔画像を、話者の顔として認識する。なお、図８の例では、他の利用者Ａ２～Ａ５は、顔認識されているが、話者ではない。したがって、近端話者特定部１０２は、利用者Ａ１の顔を、話者の顔として認識する。

また、近端話者特定部１０２は、認識した話者の顔の位置に図中の四角で示す様な境界ボックス（ＢｏｕｎｄｉｎｇＢｏｘ）を設定してもよい。近端話者特定部１０２は、境界ボックスの大きさに基づいて話者との距離を求めることもできる。フラッシュメモリ１４には、予め境界ボックスの大きさと距離との関係を示したテーブルまたは関数等が記憶されている。近端話者特定部１０２は、設定した境界ボックスの大きさと、フラッシュメモリ１４に記憶されているテーブルを比較し、話者との距離を求めることもできる。

近端話者特定部１０２は、設定した境界ボックスの２次元座標（Ｘ，Ｙ座標）および話者との距離を、話者の位置情報として求める。会話履歴記録部１０３は、話者の位置情報も記録する。

図３は、遠端側の映像信号および音信号に基づいて話者特定を行ない、会話履歴として記録する場合の構成を示し、図６はその場合の動作を示す。音声取得部１００は、通信部１９を介して遠端側音信号を受信する（Ｓ２１）。また、画像取得部１０１は、通信部１９を介して遠端側話者画像を受信する（Ｓ２２）。遠端話者特定部１０４は、遠端側音信号および遠端側話者画像に基づいて、遠端側の話者を特定する（Ｓ２３）。会話履歴記録部１０３は、遠端話者特定部１０４の特定した話者を指す識別子とその順番を会話履歴として記録する（Ｓ２４）。

遠端話者特定部１０４の話者特定の手法は、近端話者特定部１０２の話者特定の手法と同様である。遠端話者特定部１０４は、例えば音声特徴量に基づいて、話者を特定する。あるいは、遠端話者特定部１０４は、受信した遠端側話者画像から話者の顔認識処理を行なうことにより、話者を特定してもよい。

なお、遠端側の装置が、自装置と同じ様に話者を特定することができる装置である場合、遠端話者特定部１０４は、遠端側の装置から話者を特定する情報を受信してもよい。この場合、遠端話者特定部１０４は、受信した情報に基づいて遠端側の話者を特定することができる。

また、近端話者特定部１０２および遠端話者特定部１０４は、ある一人の話者による複数の発話に対して、必ずしも単一の話者（同じ話者の発話）であると特定する必要はない。例えば、近端話者特定部１０２および遠端話者特定部１０４は、音声特徴量の似た発話であっても異なる話者として特定してもよい。近端話者特定部１０２および遠端話者特定部１０４は、少しでも音声特徴量等が異なる場合に、異なる話者として特定してもよい。仮に近端話者特定部１０２および遠端話者特定部１０４が同じ話者を異なる話者として特定して会話履歴を記録しても、予測部５１が次の話者を予測することは可能である。つまり、近端話者特定部１０２および遠端話者特定部１０４は、次の話者を予測できる程度に、あるいは、一人の話者が異なる話者と特定される程度に、過剰に細分化した要素に基づいて話者を特定してもよい。また、近端話者特定部１０２および遠端話者特定部１０４は、話者の音声特徴量そのもの、話者の音声の到来方位そのもの、話者の顔画像そのもの、または話者の位置情報そのものを、話者特定の結果として、会話履歴に記録してもよい。

なお、本実施形態では、遠端側の装置が１つであり、１対１の通信を行なう例を示しているが、音信号処理装置１は、多地点の遠端側の装置と通信を行ない、多地点のコミュニケーションシステムとしても機能する。多地点の遠端側の装置と通信を行なう場合、遠端話者特定部１０４は、遠端側の装置毎に話者を特定する処理を行ない、全ての遠端側話者を特定する。

図９は、会話履歴の一例を示す図である。会話履歴記録部１０３は、時系列に会話履歴を記録する。例えば、図９の例では、時刻ｔ１から時刻ｔ２まで近端側の話者Ａ１が発話し、時刻ｔ２から時刻ｔ３まで遠端側の話者Ｂ１が発話している。時刻ｔ３から時刻ｔ４まで近端側の話者Ａ２が発話し、時刻ｔ４から時刻ｔ５まで遠端側の話者Ｂ２が発話している。時刻ｔ５から時刻ｔ６まで近端側の話者Ａ１が発話し、時刻ｔ６から時刻ｔ７まで遠端側の話者Ｂ１が発話している。時刻ｔ７から時刻ｔ８まで近端側の話者Ａ２が発話し、時刻ｔ８から時刻ｔ９まで遠端側の話者Ｂ１が発話している。その後、時刻ｔ９から近端側の話者Ａ４が発話している。なお、時刻情報を記録することは必須ではない。会話履歴記録部１０３は、話者が誰であったかを表す識別子とその話者の順番（番号）を記録するだけでもよい。

音信号処理装置１は、会話履歴に基づいて次に発話する話者を予測する。音信号処理装置１は、話者予測装置として機能する。図４は、予測を行なう場合の音信号処理装置１の機能的構成を示し、図７はその場合の動作を示す。図７の例は、現在、遠端側の話者が発話している場合の予測の動作（話者予測方法の動作）を示す。

音声取得部１００は、通信部１９を介して遠端側音信号を受信する（Ｓ３１）。また、画像取得部１０１は、通信部１９を介して遠端側話者画像を受信する（Ｓ３２）。遠端話者特定部１０４は、遠端側音信号および遠端側話者画像に基づいて、遠端側の話者を特定する（Ｓ３３）。なお、遠端側の装置が、自装置と同じ様に話者を特定することができる装置である場合、遠端話者特定部１０４は、遠端側の装置から話者を特定する情報を受信してもよい。この場合、遠端話者特定部１０４は、受信した情報に基づいて遠端側の話者を特定することができる。

その後、予測部５１は、会話履歴記録部１０３の記録した会話履歴を参照して（Ｓ３４）、次に発話する話者を予測する（Ｓ３５）。具体的には、予測部５１は、会話履歴から、遠端話者特定部１０４で特定した遠端側話者が発話した箇所を検出し、検出した箇所の次に発話している話者の発話確率に応じて次に発話する話者を予測する。例えば、遠端話者特定部１０４が遠端側の話者Ｂ１を特定した場合、予測部５１は、図９に示す会話履歴では、時刻ｔ２～ｔ３、ｔ６～ｔ７、およびｔ８～ｔ９を検出する。そして、予測部５１は、これらの時刻の次に発話する話者の履歴に基づいて、各話者の発話確率を求める。図９の例では、話者Ｂ１の発話後に話者Ａ２が２回発話し、話者Ａ４が１回発話している。したがって、話者Ａ２の発話確率が６６．７％、話者Ａ４の発話確率が３３．３％となる。予測部５１は、発話確率に応じて、次に発話する話者がＡ２であると予測する。

また、予測部５１は、近端話者特定部１０２あるいは遠端話者特定部１０４が、話者の音声特徴量そのもの、話者の音声特徴量そのもの、話者の音声の到来方位そのもの、話者の顔画像そのもの、または話者の位置情報そのものなどを話者特定結果として会話履歴に記録していた場合は、現在の話者特定結果に近い話者特定結果を会話履歴記録部１０３から検索する。そして、予測部５１は、これらの検索された現在の話者特定結果の記録された時刻の次に記録されている複数の話者特定結果に基づいて、次に発話する話者を会話履歴記録部１０３の記録している話者特定結果から予測してもよい。この場合、予測部５１は、例えば、検索された現在の話者特定結果の記録された時刻の次に記録されている複数の話者特定結果の平均を話者予測の結果としてもよい。あるいは、予測部５１は、他の話者予測結果との差分量の総和が最も小さくなるような話者特定結果を代表値として話者予測の結果としてもよい。

なお、予測部５１は、さらに、通信部１９で受信した画像またはカメラ１１の撮影した画像に基づいて、次に発話する話者を予測してもよい。例えば、手を挙げている人は次に発話する話者であると予測する。あるいは、目を見開いている人は次に発話する話者であると予測する。また、予測部５１は、通信部１９で受信した音信号またはマイク１８Ａ～１８Ｆで取得した音信号に基づいて次に発話する話者を予測してもよい。例えば、予測部５１は、「あー」、「えー」等の特定の発言を認識した場合に、対応する話者が次に発話すると予測する。ただし、予測部５１は、会話履歴に基づく予測を優先する。予測部５１は、発話確率が同じか、近い（例えば１０％以内）である話者が複数存在した場合に、さらに受信した画像に基づいて次に発話する話者を予測することが好ましい。

その後、カメラ画像制御部１０５は、予測部５１の予測結果に応じてカメラ１１の撮影した画像の制御を行なう（Ｓ３６）。画像の制御は、例えばフレーミング処理である。カメラ画像制御部１０５は、画像取得部１０１で取得したカメラ１１の画像から話者Ａ４の顔画像を切り出すフレーミング処理を行なう。各話者の位置は、会話履歴記録部１０３に記録されている。カメラ画像制御部１０５は、予測された話者に対応する位置の画像を切り出す。カメラ画像制御部１０５は、フレーミング処理後の画像を通信部１９に出力する。通信部１９は、フレーミング処理後の画像を遠端側に送信する。

これにより、遠端側の表示器（不図示）には、話者Ａ２の顔画像が表示される。したがって、遠端側の話者Ｂ１は、次に発話する可能性の高い話者を見ながら発言することができる。

なお、上記では、カメラ画像制御部１０５の行なうカメラ１１の撮影した画像から、予測した話者の画像を切り出すフレーミング処理を示したが、カメラ画像制御部１０５は、例えば予測した話者以外の位置をぼかす処理を行なってもよい。また、カメラ画像制御部１０５は、カメラ１１の撮影方向およびズームを制御することで、予測した話者の顔を拡大して撮影する様に制御してもよい。

なお、近端話者特定部１０２が近端側の話者を特定した場合、カメラ画像制御部１０５は、特定した近端側の話者を切り出すフレーミング処理を行なう。したがって、遠端側の装置には、現在発話中の話者の画像が送信される。

ただし、予測部５１は、近端話者特定部１０２が近端側の話者を特定した場合でも、次に発話する話者を予測してもよい。カメラ画像制御部１０５は、次に発話すると予測した話者の画像を切り出し、通信部１９を介して遠端側の装置に送信してもよい。予測部５１が次に発話すると予測した話者が近端側の話者である場合、カメラ画像制御部１０５は、カメラ１１の画像から近端側の話者の顔画像を切り出すフレーミング処理を行なう。カメラ画像制御部１０５は、切り出した近端側の話者の画像を遠端側の装置に送信する。

予測部５１が次に発話すると予測した話者が遠端側の話者である場合、カメラ画像制御部１０５は、通信部１９を介して受信した画像から遠端側の話者の顔画像を切り出すフレーミング処理を行なう。カメラ画像制御部１０５は、切り出した遠端側の話者の画像を表示器（不図示）に表示する。

ただし、カメラ画像制御部１０５は、切り出した近端側の話者の画像を遠端側の装置に送信する場合、現在発話している近端側の話者の画像と、次に発話すると予想した近端側の話者の画像と、を定期的に切り替えて、遠端側の装置に送信することが好ましい。例えば、カメラ画像制御部１０５は、１０秒に１回程度、次に発話すると予想した近端側の話者の画像を送信する。あるいは、カメラ画像制御部１０５は、現在発話している話者の画像の中に小さく、次に発話すると予想した話者の画像を合成して、遠端側の装置に送信してもよい。

なお、音信号処理装置１は、予測部５１の予測結果に基づいてマイクで取得した音信号の音信号処理を行なってもよい。図１０は、予測結果に基づいて音信号処理を行なう場合の音信号処理装置１の機能的構成を示すブロック図である。音信号処理装置１は、機能的に、フィルタ生成部５２および音信号処理部５３を備えている。また、音信号処理部５３は、機能的に、ビームフォーミング処理部５０１、ゲイン補正部５０２、およびイコライザ５０３を備えている。これらの機能的構成は、ＣＰＵ１２およびＤＳＰ１３により実現される。

フィルタ生成部５２は、予測部５１の予測結果に基づいて、補正フィルタを生成する。補正フィルタは、少なくともビームフォーミング処理部５０１におけるフィルタ処理を含む。

ビームフォーミング処理部５０１は、マイク１８Ａ～１８Ｆで取得した音信号に、それぞれフィルタ処理を施して合成することによりビームフォーミングを行う。ビームフォーミングに係る信号処理は、遅延和（Delay Sum）方式、Griffiths Jim型、Sidelobe Canceller型、あるいはFrost型Adaptive Beamformer等、どの様な手法であってもよい。

フィルタ生成部５２は、次に発話すると予測した話者の位置に向けて指向性を形成する様なフィルタ係数を生成し、ビームフォーミング処理部５０１に設定する。これにより、音信号処理装置１は、次に発話すると予測した話者の音声を発話の冒頭から高いＳＮ比で取得することができる。

また、フィルタ生成部５２は、予測部５１の予測結果に基づいて、ゲイン補正部５０２のゲインを設定する。話者の音声は、マイクとの距離が遠いほど減衰する。したがって、フィルタ生成部５２は、次に発話すると予測した話者との距離が大きいほど音信号のレベルを高くする様なゲイン補正フィルタを生成し、ゲイン補正部５０２に設定する。これにより、音信号処理装置１は、話者との距離に関わらず、安定したレベルで次に発話すると予測した話者の音声を取得することができる。

また、フィルタ生成部５２は、次に発話すると予測した話者との距離が大きいほど高域のレベルを高くする様なイコライザ５０３の周波数特性を設定してもよい。話者の音声は、マイクとの距離が遠いほど、高域が低域よりも大きく減衰する傾向がある。したがって、音信号処理装置１は、話者との距離に関わらず、安定した音質で次に発話すると予測した話者の音声を取得することができる。

本実施形態の説明は、すべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲は、特許請求の範囲と均等の範囲を含む。

１…音信号処理装置
１１…カメラ
１２…ＣＰＵ
１３…ＤＳＰ
１４…フラッシュメモリ
１５…ＲＡＭ
１６…ユーザＩ／Ｆ
１７…スピーカ
１８Ａ～１８Ｆ…マイク
１９…通信部
５１…予測部
５２…フィルタ生成部
５３…音信号処理部
１００…音声取得部
１０１…画像取得部
１０２…近端話者特定部
１０３…会話履歴記録部
１０４…遠端話者特定部
１０５…カメラ画像制御部
５０１…ビームフォーミング処理部
５０２…ゲイン補正部
５０３…イコライザ

Claims

複数の話者の音声を取得し、
前記複数の話者の会話履歴を記録する、
話者予測方法であって、
音声を取得し、
取得した前記音声の話者を特定し、
前記特定した話者と前記会話履歴に基づいて、前記複数の話者の中から、次に発話する話者を予測する、
話者予測方法。
前記予測の結果に基づいて、カメラの撮影する画像の制御を行なう、
請求項１に記載の話者予測方法。
前記予測の結果に基づいて、マイクで取得した音信号の音信号処理を行なう、
請求項１または請求項２に記載の話者予測方法。
前記画像の制御は、フレーミング処理を含む、
請求項２に記載の話者予測方法。
前記音信号処理は、ビームフォーミング処理を含む、
請求項３に記載の話者予測方法。
前記取得した前記音声の音声特徴量に基づいて、取得した前記音声の話者を特定する、
請求項１乃至請求項５のいずれか１項に記載の話者予測方法。
音声の到来方向を推定し、
前記音声の到来方向に基づいて、取得した前記音声の話者を特定する、
請求項１乃至請求項６のいずれか１項に記載の話者予測方法。
カメラの画像を取得し、
前記カメラの画像に基づいて、取得した前記音声の話者を特定する、
請求項１乃至請求項７のいずれか１項に記載の話者予測方法。
前記会話履歴から前記特定した話者が発話した箇所を検出し、
前記検出した箇所の次に発話している話者の発話確率に応じて前記次に発話する話者を予測する、
請求項１乃至請求項８のいずれか１項に記載の話者予測方法。
前記会話履歴は、遠端側および近端側の話者の会話履歴を含み、
少なくとも遠端側の話者の音声を特定して、次に発話する近端側の話者を予測する、
請求項１乃至請求項９のいずれか１項に記載の話者予測方法。
複数の話者の音声を取得する音声取得部と、
前記複数の話者の会話履歴を記録する会話履歴記録部と、
を備えた話者予測装置であって、
前記音声取得部は、音声を取得し、
取得した前記音声の話者を特定する話者特定部と、
前記特定した話者と前記会話履歴に基づいて、前記複数の話者の中から、次に発話する話者を予測する予測部と、
を備えた話者予測装置。
前記予測の結果に基づいて、カメラの撮影する画像の制御を行なうカメラ画像制御部を備えた、
請求項１１に記載の話者予測装置。
前記予測の結果に基づいて、マイクで取得した音信号の音信号処理を行なう音信号処理部を備えた、
請求項１１または請求項１２に記載の話者予測装置。
前記画像の制御は、フレーミング処理を含む、
請求項１２に記載の話者予測装置。
前記音信号処理は、ビームフォーミング処理を含む、
請求項１３に記載の話者予測装置。
前記話者特定部は、前記取得した前記音声の音声特徴量に基づいて、取得した前記音声の話者を特定する、
請求項１１乃至請求項１５のいずれか１項に記載の話者予測装置。
前記話者特定部は、音声の到来方向を推定し、前記音声の到来方向に基づいて、取得した前記音声の話者を特定する、
請求項１１乃至請求項１６のいずれか１項に記載の話者予測装置。
カメラの画像を取得する画像取得部を備え、
前記話者特定部は、前記カメラの画像に基づいて、取得した前記音声の話者を特定する、
請求項１１乃至請求項１７のいずれか１項に記載の話者予測装置。
前記予測部は、前記会話履歴から前記特定した話者が発話した箇所を検出し、前記検出した箇所の次に発話している話者の発話確率に応じて前記次に発話する話者を予測する、
請求項１１乃至請求項１８のいずれか１項に記載の話者予測装置。
前記会話履歴は、遠端側および近端側の話者の会話履歴を含み、
前記予測部は、少なくとも遠端側の話者の音声を特定して、次に発話する近端側の話者を予測する、
請求項１１乃至請求項１９のいずれか１項に記載の話者予測装置。
遠端側から話者の音声を受信する通信部と、
近端側の話者の音声を取得するマイクと、
前記通信部で受信した音声および前記マイクで取得した音声を含む複数の話者の会話履歴を記録する会話履歴記録部と、
を備えたコミュニケーションシステムであって、
前記通信部で受信した前記遠端側の前記音声、または前記マイクで取得した前記近端側の前記音声の話者を特定する話者特定部と、
前記特定した話者と前記会話履歴に基づいて、前記複数の話者の中から、次に発話する話者を予測する予測部と、
を備えたコミュニケーションシステム。