JP6363987B2

JP6363987B2 - 音声処理システム、音声処理装置および音声処理プログラム

Info

Publication number: JP6363987B2
Application number: JP2015252448A
Authority: JP
Inventors: 石井　亮; 亮石井; 大塚　和弘; 和弘大塚; 史朗熊野
Original assignee: Nippon Telegraph and Telephone Corp; NTT Inc USA
Current assignee: NTT Inc; NTT Inc USA
Priority date: 2015-12-24
Filing date: 2015-12-24
Publication date: 2018-07-25
Anticipated expiration: 2035-12-24
Also published as: JP2017116747A

Description

本発明は、音声処理システム、音声処理装置および音声処理プログラムに関する。

マイクから取得される音信号において、音声の存在する区間（発話区間）と音声の存在しない区間（非発話区間）を自動的に検出するＶＡＤ（Voice Activity Detection）技術がある。従来のＶＡＤ技術としては、音信号に対して、任意の窓幅を設けてその区間内のパワー、ゼロ交差数、周波数などの音声の特徴を示す値（以下、音声特徴量という。）を算出し、算出した音声特徴量のいずれかが任意の閾値を超えた際に、発話区間として検出する手法がある。このような検出手法は、有声音が存在すれば音信号のパワーが増大するという性質や、無声子音が存在すれば音信号のゼロ交差点数が多くなるという性質を利用している。これらの手法をより改良し、音信号の周波数スペクトルの概形等の様々な音声特徴量を用いて精度よく発話区間を検出するＶＡＤ技術が開発されている。

発話区間を検出する従来技術の具体例として、単一のマイクロホンからの観測信号に任意の窓幅の短時間フーリエ変換を施し、時間周波数表現ｘ（ｆ，ｔ）を得る技術がある（例えば、非特許文献１を参照。）。また、周波数ｆ毎にノイズパワーの推定値λ（ｆ）を、例えば最初の何秒間は発話がないと仮定して得る。そして、時間周波数毎に事後Ｓ／Ｎ比であるγ（ｆ，ｔ）を下記の（式１）を用いて求める。

次に、求めたγ（ｆ，ｔ）を用いて、以下の（式２）に従って、非線形変換を施した後に周波数で平均化した音声特徴量Ｇ（ｔ）を求める。

（式２）において、Ｆは考慮する周波数の集合であり、｜Ｆ｜は集合Ｆの要素の数である。このように計算した音声特徴量Ｇ（ｔ）が閾値ηより大きければ、時間ｔのフレームは発話区間であると判定され、小さければ非発話区間であると判定される。

また、参加者毎に装着したピンマイクから同様に音声特徴量Ｇ（ｔ）を算出して、発話区間を検出する技術もある（例えば、非特許文献２を参照。）。

J. Sohn et al. "A Statistical Model-Based Voice Activity Detection," Signal Processing Letters, IEEE (Volume:6, Issue:1), pp.1-3, Jan.1999 澤田宏、外４名、"多人数多マイクでの発話区間検出〜ピンマイクでの事例〜"、日本音響学会春季研究発表会、ｐｐ．６７９−６８０、２００７年３月

しかしながら、上述したように、音信号に対して窓幅を設定して音声特徴量を算出する方法では、発話が開始されてから、窓幅に相当する時間が経過するまで音声特徴量を算出することができない。このため、発話区間における正確な発話開始を検出することは難しく、発話開始の検出精度が良くないという問題があった。また、発話の始めは、フィラーであったり、声が小さかったりする傾向がある。そのような傾向の影響により、さらに、発話開始の検出精度が低下するという問題があった。ここで、フィラーとは、言い淀み時などに出現する場つなぎのための発声であり、例えば、「あのー」、「そのー」、「えっと」、等の音声である。

上記事情に鑑み、本発明は、音声信号に基づいて、より精度良く発話開始を検出することができる音声処理システム、音声処理装置および音声処理プログラムを提供することを目的としている。

本発明の一態様は、会話に参加する複数の参加者の音声を含む音を集音して第１の音信号を出力する集音部と、前記集音部が出力する前記第１の音信号に基づいて、前記参加者毎に前記参加者が発話していることを特定するための特徴量を生成する特徴量生成部と、前記参加者の呼吸に関する情報である呼吸情報、前記参加者の頭部の動きに関する情報である頭部情報および前記参加者が注視している対象に関する情報である注視対象情報の少なくとも一つに基づいて、前記参加者の中で次の話者となる参加者である次話者を推定した次話者情報を出力する次話者推定部と、前記特徴量生成部が生成した前記特徴量と、前記次話者推定部が出力した前記次話者情報とに基づいて、前記参加者が発話している時間帯を示す第１の発話区間を検出する発話区間検出部と、を備える音声処理システムである。

本発明の一態様は、前記の音声処理システムであって、前記次話者情報とは、前記参加者のいずれか一人の発話が終了した後において前記参加者が前記次話者となる確率を示す情報である。

本発明の一態様は、前記の音声処理システムであって、前記発話区間検出部は、閾値に基づいて前記参加者の前記特徴量を判断して前記第１の発話区間を検出し、前記次話者情報に含まれる前記次話者となる確率が高いほど前記第１の発話区間が検出されやすくなるよう前記閾値又は前記特徴量を変更する。

本発明の一態様は、前記の音声処理システムであって、前記参加者の内の少なくとも１人は遠隔地にいる場合に、遠隔地にいる前記参加者の音声を含む第２の音信号および前記第２の音信号の第２の発話区間に関する情報である発話区間情報を受信する受信部と、前記集音部が集音した前記第１の音信号および前記受信部が受信した前記第２の音信号に応じて発音する発音部と、前記発話区間検出部が検出した前記第１の発話区間または前記発話区間情報で特定される前記第２の発話区間に基づいて、前記第１の音信号および前記第２の音信号に応じた前記発音部での発音を制御する制御部と、をさらに備える。

本発明の一態様は、前記の音声処理システムであって、前記参加者の内の少なくとも１人は遠隔地にいる場合に、遠隔地にいる前記参加者の音声を含む第２の音信号および前記第２の音信号の第２の発話区間に関する情報である発話区間情報を受信する受信部と、前記集音部が集音した前記第１の音信号または前記受信部が受信した前記第２の音信号に応じて発音する発音部と、前記発話区間検出部が検出した前記第１の発話区間及び前記発話区間情報で特定される前記第２の発話区間と前記次話者情報とに基づいて、前記第１の音信号または前記第２の音信号のいずれかに応じて発音を行うよう前記発音部を制御する制御部と、をさらに備える。

本発明の一態様は、会話に参加する複数の参加者の音声を含む音を集音して第１の音信号を出力する集音部からの前記第１の音信号が入力される入力部と、前記入力部に入力された前記第１の音信号に基づいて、前記参加者毎に前記参加者が発話していることを特定するための特徴量を生成する特徴量生成部と、前記参加者の呼吸に関する情報である呼吸情報、前記参加者の頭部の動きに関する情報である頭部情報および前記参加者が注視している対象に関する情報である注視対象情報の少なくとも一つに基づいて、前記参加者の中で次の話者となる参加者である次話者を推定した次話者情報を出力する次話者推定部と、前記特徴量生成部が生成した前記特徴量と、前記次話者推定部が出力した前記次話者情報とに基づいて、前記参加者が発話している時間帯を示す第１の発話区間を検出する発話区間検出部と、を備える音声処理装置である。

本発明の一態様は、会話に参加する複数の参加者の音声を含む音を集音して第１の音信号を出力する集音部に接続された音声処理装置で実行される音声処理プログラムであって、前記集音部からの前記第１の音信号を入力する入力ステップと、前記入力ステップにおいて入力された前記第１の音信号に基づいて、前記参加者毎に前記参加者が発話していることを特定するための特徴量を生成する特徴量生成ステップと、前記参加者の呼吸に関する情報である呼吸情報、前記参加者の頭部の動きに関する情報である頭部情報および前記参加者が注視している対象に関する情報である注視対象情報の少なくとも一つに基づいて、前記参加者の中で次の話者となる参加者である次話者を推定した次話者情報を出力する次話者推定ステップと、前記特徴量生成ステップにおいて生成した前記特徴量と、前記次話者推定ステップにおいて出力した前記次話者情報とに基づいて、前記参加者が発話している時間帯を示す第１の発話区間を検出する発話区間検出ステップと、をコンピュータに実行させるための音声処理プログラムである。

本発明により、音声信号に基づいて、より精度良く発話開始を検出することができる。

第１の実施形態における複数のテレビ会議システムを含む通信システムの全体構成の概略を示す図である。第１の実施形態におけるテレビ会議システム１の詳細な構成例を示す図である。第１の実施形態における次話者確率Ｐ^ｎｓ _ｉ（ｔ）の算出例を示す図である。第１の実施形態におけるテレビ会議システム１の動作を示すフロー図である。第２の実施形態におけるテレビ会議システム１ａの構成例を示す図である。第２の実施形態におけるテレビ会議システム１ａの動作を示すフロー図である。息の吸い込み区間の例を示す図である。注視対象ラベルの具体例を示す図である。話者である参加者Ｐ１（Ｒ＝Ｓ）の注視対象ラベルＬ１についての時間構造情報を示す図である。

以下、図面を参照して、本発明の実施形態について説明する。
（第１の実施形態）
図１は、第１の実施形態における複数のテレビ会議システム（音声処理システム）を含む通信システムの全体構成の概略を示す図である。

図１に示すように、テレビ会議システム１−１、１−２、１−３、…は、専用通信網またはインターネット等であるネットワーク１３を介して接続されている。各テレビ会議システム１−１、１−２、１−３、…は、それぞれテレビ会議端末（音声処理装置）１０−１、１０−２、１０−３、…と、各テレビ会議端末１０−１、１０−２、１０−３、…に接続されている参加者の声を集音するためのマイク（集音部）１１−１、１１−２、１１−３、…と、各テレビ会議端末１０−１、１０−２、１０−３、…に接続されている参加者を撮影するためのカメラ１２−１、１２−２、１２−３、…とを備える。

以下の説明において、テレビ会議システム１−１、１−２、１−３、…内のいずれかのテレビ会議システム、テレビ会議端末１０−１、１０−２、１０−３、…内のいずれかのテレビ会議端末、マイク１１−１、１１−２、１１−３、…内のいずれかのマイク、カメラ１２−１、１２−２、１２−３、…内のいずれかのカメラを特に区別する必要がない場合は、単に、テレビ会議システム１、テレビ会議端末１０、マイク１１、カメラ１２と称する。

テレビ会議システム１は、各テレビ会議端末１０の前に座っているテレビ会議の参加者の映像および音声を他のテレビ会議端末１０と送受信して、複数の参加者がテレビ会議を行うことができる環境を提供するシステムである。テレビ会議端末１０は、カメラ１２で撮影した参加者の映像信号と、マイク１１で集音した参加者の音声信号とを、ネットワーク１３を介して、他のテレビ会議端末１０へ送信する機能を有する。テレビ会議端末１０は、他のテレビ会議端末１０から他のテレビ会議端末１０の前に座っている参加者の映像信号および音声信号を受信する機能を有する。１台のテレビ会議端末１０の前には、１人または複数人の参加者が座っている。複数人の参加者がいる場合は、その人数分のマイク１１が設置されており、各参加者の音声が各マイク１１に入力される。

テレビ会議端末１０は、マイク１１からの音声信号を含む音信号（以下の説明では単に音声信号という）が入力される音声入力部１０１と、カメラ１２からの映像信号が入力される映像入力部１０２と、映像入力部１０２に入力された映像信号および他のテレビ会議端末１０から受信した映像信号を合成して表示する液晶ディスプレイ等の表示部１０３と、他のテレビ会議端末１０から受信した音声信号に基づいた音声を出力するスピーカ（発音部）１０４とを備える。

以上の構成により、テレビ会議システム１は、複数の参加者がお互いに発話する映像および音声を確認することができるテレビ会議可能な環境を提供する。また、本実施形態のテレビ会議システム１は、テレビ会議に参加している参加者の中から次に話を行う次話者を推定する機能と、音声信号から発話区間を自動で検出するＶＡＤ（Voice Activity Detection）機能とを有し、推定した次話者の情報に基づいて精度良く発話区間を検出することを特徴としている。以下、テレビ会議システム１の特徴となる構成例の詳細について説明する。

図２は、第１の実施形態におけるテレビ会議システム１の詳細な構成例を示す図である。図２に示すように、テレビ会議システム１は、テレビ会議端末１０と、マイク１１と、カメラ１２と、呼吸動作計測装置１４と、注視対象検出装置１５と、頭部動作計測装置１６とを備える。テレビ会議端末１０は、テレビ会議の各参加者に装着された呼吸動作計測装置１４および注視対象検出装置１５から、それぞれ呼吸情報および注視対象情報を受信する機能を有する。呼吸動作計測装置１４は、参加者の呼吸動作を計測し、各離散時刻ｔでの計測結果を表す呼吸情報を出力する装置であり、その詳細については後述する。注視対象検出装置１５は、参加者の視線を検出し、各離散時刻ｔでの参加者が注視している対象に関する情報である注視対象情報を出力する装置であり、その詳細については後述する。頭部動作計測装置１６は、参加者の頭部の動きを計測し、各離散時刻ｔでの計測結果を表す頭部動作情報を出力する装置であり、その詳細については後述する。

テレビ会議端末１０は、音声入力部１０１と、映像入力部１０２と、特徴量生成部１０５と、次話者推定部１０６と、発話区間検出部１０７と、通信部１０８と、出力処理部１０９と、記録部１１０とを備える。なお、図２においては、図１に示した表示部１０３およびスピーカ１０４を示していないが、図２のテレビ会議端末１０においても、表示部１０３およびスピーカ１０４を備えている。

音声入力部１０１は、マイク１１からの音声信号を入力とし、特徴量生成部１０５、次話者推定部１０６および出力処理部１０９へ音声信号を出力する。音声入力部１０１は、マイク１１からの音声信号を、テレビ会議端末１０内で処理可能な信号形式の音声信号に変換する等の処理を行う。映像入力部１０２は、カメラ１２からの映像信号を入力とし、次話者推定部１０６および出力処理部１０９へ映像信号を出力する。映像入力部１０２は、カメラ１２からの映像信号を、テレビ会議端末１０内で処理可能な信号形式の映像信号に変換する等の処理を行う。

特徴量生成部１０５は、音声入力部１０１からの音声信号を入力とし、その音声信号に基づいて発話区間を検出するための音声特徴量を生成し、出力する。特徴量生成部１０５は、例えば、音声入力部１０１からの音声信号に基づいて、従来技術として記載したように（式１）および（式２）を利用して参加者ｉ毎の音声特徴量Ｇ_ｉ（ｔ）を生成し、発話区間検出部１０７へ出力する。

次話者推定部１０６は、音声入力部１０１からの音声信号と、映像入力部１０２からの映像信号と、呼吸動作計測装置１４からの呼吸情報と、注視対象検出装置１５からの注視対象情報と、頭部動作計測装置１６からの頭部動作情報とを入力とし、各参加者が時刻ｔに次話者となる確率である次話者確率を出力する。次話者推定部１０６は、音声入力部１０１からの音声信号、映像入力部１０２からの映像信号、呼吸動作計測装置１４からの呼吸情報、注視対象検出装置１５からの注視対象情報および頭部動作計測装置１６からの頭部動作情報に基づいて、各参加者ｉが時刻ｔに次話者となる確率である次話者確率Ｐ^ｎｓ _ｉ（ｔ）を算出して、発話区間検出部１０７へ出力する。

図３は、第１の実施形態における次話者確率Ｐ^ｎｓ _ｉ（ｔ）の算出例を示す図である。図３においては、４名の参加者Ａ〜Ｄについて参加者Ａの発話の切れ目となる時刻ｔ_ｂｕｅ以降における次話者確率Ｐ^ｎｓ _ｉ（ｔ）の変化例を示している。符号３１を付与した矩形は、参加者Ａの発話区間を示している。発話区間３１は、発話終了時刻ｔ_ｂｕｅで終了している。次話者確率Ｐ^ｎｓ _Ａ（ｔ）３２で示す点線は、参加者Ａにおける発話終了時刻ｔ_ｂｕｅ以降の時刻ｔにおける次話者確率の変化を示している。次話者確率Ｐ^ｎｓ _Ｂ（ｔ）３３で示す点線は、参加者Ｂにおける発話終了時刻ｔ_ｂｕｅ以降の時刻ｔにおける次話者確率の変化を示している。次話者確率Ｐ^ｎｓ _Ｃ（ｔ）３４で示す点線は、参加者Ｃにおける発話終了時刻ｔ_ｂｕｅ以降の時刻ｔにおける次話者確率の変化を示している。次話者確率Ｐ^ｎｓ _Ｄ（ｔ）３５で示す点線は、参加者Ｄにおける発話終了時刻ｔ_ｂｕｅ以降の時刻ｔにおける次話者確率の変化を示している。このように、次話者推定部１０６は、参加者ｉの発話終了時刻ｔ_ｂｕｅ以降の時刻ｔにおける次話者確率Ｐ^ｎｓ _ｉ（ｔ）の変化を算出する。なお、次話者推定部１０６における次話者の推定処理の詳細については後述する。

発話区間検出部１０７は、特徴量生成部１０５からの音声特徴量Ｇ_ｉ（ｔ）と、次話者推定部１０６からの次話者確率Ｐ^ｎｓ _ｉ（ｔ）とを入力とし、発話区間および非発話区間に関する情報を出力する。発話区間検出部１０７は、特徴量生成部１０５からの音声特徴量Ｇ_ｉ（ｔ）と、次話者推定部１０６からの次話者確率Ｐ^ｎｓ _ｉ（ｔ）とに基づいて、次話者と推定される確率の高い参加者の音声特徴量に対してより感度良く発話区間を検出し、発話区間に関する情報（発話区間情報）を出力処理部１０９へ出力する。次話者と推定される確率の高い参加者の音声特徴量に対してより感度良く発話区間を検出する構成とは、その参加者ｉが次話者と推定される確率が高い程、同じ音声特徴量であっても発話区間として検出されやすくなる構成である。

発話区間検出部１０７は、例えば、音声特徴量Ｇ_ｉ（ｔ）と次話者確率Ｐ^ｎｓ _ｉ（ｔ）とに基づいて以下の（式３）によって発話期待値Ｐ^ｎｓ’ _ｉ（ｔ）を求める。

発話区間検出部１０７は、（式３）により求めた発話期待値Ｐ^ｎｓ’ _ｉ（ｔ）が、予め設定した閾値ηを超えた場合に時刻ｔを参加者ｉの発話区間として検出する。このように、発話区間検出部１０７は、音声特徴量Ｇ_ｉ（ｔ）と、次話者確率Ｐ^ｎｓ _ｉ（ｔ）とに基づいて、次話者と推定される確率の高い参加者の音声特徴量に対して、より感度良く発話区間を検出する。

なお、上述した（式３）の右辺において、発話期待値Ｐ^ｎｓ’ _ｉ（ｔ）の大きさを閾値ηとの比較に適した大きさとするための係数を加減算したり乗除算したりするようにしてもよい。また、発話区間検出部１０７は、発話期待値Ｐ^ｎｓ’ _ｉ（ｔ）を求めて閾値ηと比較する構成としたが、この構成に限るものではなく、音声特徴量Ｇ_ｉ（ｔ）と、次話者確率Ｐ^ｎｓ _ｉ（ｔ）に応じて変化させた閾値ηとを比較する構成としてもよい。この構成では、発話区間検出部１０７は、次話者確率Ｐ^ｎｓ _ｉ（ｔ）の値が大きいほど、閾値ηの値を小さくする。このように、発話区間検出部１０７は、閾値ηに基づいて音声特徴量を判断することで発話区間を検出する。発話区間検出部１０７は、次話者確率が高いほど発話区間が検出されやすくなるよう閾値η又は音声特徴量を変更する。これにより、次話者と推定される確率の高い参加者の音声特徴量に対してより感度良く発話区間を検出することができる。なお、閾値ηに基づいて音声特徴量を判断するとは、上述したように閾値η固定で、次話者確率に応じて音声特徴量を変化させた発話期待値と閾値ηとを比較して判断する処理及び閾値ηを次話者確率に応じて変化させて、音声特徴量と閾値ηとを比較して判断する処理を含む。

通信部１０８は、他のテレビ会議端末１０とネットワーク１３を介して通信を行う。通信部１０８は、他のテレビ会議端末１０から他のテレビ会議端末１０に接続されたマイク１１で集音された音声信号および他のテレビ会議端末１０に接続されたカメラ１２で撮影された映像信号を受信する。通信部１０８は、マイク１１で集音された音声信号が音声入力部１０１および出力処理部１０９を介して入力され、カメラ１２で撮影された映像信号が映像入力部１０２および出力処理部１０９を介して入力され、入力された音声信号および映像信号を所定の信号形式でネットワーク１３へ出力する。また、通信部１０８は、音声信号に関連付けて発話区間に関する情報を、他のテレビ会議端末１０と送受信するようにしてもよい。

出力処理部１０９は、音声入力部１０１からの音声信号と、映像入力部１０２からの映像信号と、発話区間検出部１０７からの発話区間情報と、通信部１０８からの他のテレビ会議端末１０から受信した音声信号および発話区間情報とを入力とし、発話区間情報を関連付けた各参加者の音声信号を所定のデータ形式で記録部１１０に音声議事録データとして記録するよう処理する。この際に、出力処理部１０９は、発話区間のみの音声信号を音声議事録データとして記録部１１０に記録することで、記録容量を節約してもよい。なお、出力処理部１０９は、必要とあれば映像入力部１０２からの映像信号および通信部１０８からの他のテレビ会議端末１０から受信した映像信号を記録部１１０に記録させてもよい。

記録部１１０は、録音日時に関連付けて、音声信号および発話区間情報を音声議事録データとして記録するデータベースである。以上の構成により、第１の実施形態におけるテレビ会議端末１０は、次話者と推定される確率の高い参加者の音声特徴量に対してより感度良く発話区間を検出することで、より精度良く発話開始を検出することができる。これにより、参加者の話始めが、フィラーであったり、声が小さかったりしても、精度よく発話開始を検出することができる。

なお、テレビ会議システムにおいて一般的な技術であり、かつ、図が複雑になるのを防ぐため図２には示していないが、テレビ会議端末１０は、映像入力部１０２からの映像信号および通信部１０８が他のテレビ会議端末１０から受信した映像信号を合成または切替えて表示部１０３に表示する機能を有する。さらに、テレビ会議端末１０は、音声入力部１０１からの音声信号および通信部１０８が他のテレビ会議端末１０から受信した音声信号を合成または切替えてスピーカ１０４へ出力する機能を有する。

第１の実施形態におけるテレビ会議システム１は、テレビ会議端末１０が表示部１０３およびスピーカ１０４を備える構成としたが、これに限定されるものではない。テレビ会議端末１０は、表示部１０３およびスピーカ１０４を備えず、表示部とスピーカを有する表示装置と接続する構成であってもよい。また、テレビ会議端末１０は、マイク１１およびカメラ１２を備える構成であってもよい。第１の実施形態におけるテレビ会議システム１は、一般的なテレビ会議システムが具備している機能（スピーカの音量の調整機能や、画面の切り替え機能等）を備えていてもよい。

次に、第１の実施形態におけるテレビ会議システム１の動作について説明する。
図４は、第１の実施形態におけるテレビ会議システム１の動作を示すフロー図である。図４において、参加者が各テレビ会議システム１の各装置（テレビ会議端末１０等）の電源を入れる等を行うことにより、各テレビ会議システム１の各装置が起動する（ステップＳ１０１）。

テレビ会議システム１のテレビ会議端末１０は、音声入力部１０１における音声信号の入力および映像入力部１０２における映像信号の入力と、通信部１０８における他のテレビ会議端末１０からの音声信号および映像信号の受信とを行う（ステップＳ１０２）。特徴量生成部１０５は、音声入力部１０１からの音声信号に基づいて、発話区間を検出するための参加者ｉ毎の音声特徴量Ｇ_ｉ（ｔ）を生成する（ステップＳ１０３）。

次話者推定部１０６は、音声入力部１０１からの音声信号、映像入力部１０２からの映像信号、呼吸動作計測装置１４からの呼吸情報、注視対象検出装置１５からの注視対象情報および頭部動作計測装置１６からの頭部動作情報に基づいて、各参加者ｉが時刻ｔに次話者となる確率である次話者確率Ｐ^ｎｓ _ｉ（ｔ）を算出する（ステップＳ１０４）。発話区間検出部１０７は、特徴量生成部１０５からの音声特徴量Ｇ_ｉ（ｔ）と、次話者推定部１０６からの次話者確率Ｐ^ｎｓ _ｉ（ｔ）とに基づいて、次話者と推定される確率の高い参加者の発話区間を検出する（ステップＳ１０５）。

出力処理部１０９は、音声入力部１０１からの音声信号と、発話区間検出部１０７からの発話区間情報と、通信部１０８からの他のテレビ会議端末１０から受信した音声信号および発話区間情報とに基づいて、発話区間情報を関連付けた各参加者の音声信号を所定のデータ形式で記録部１１０に音声議事録データとして記録するよう処理する（ステップＳ１０６）。

次に、参加者が各テレビ会議システム１の各装置（テレビ会議端末１０等）の電源を切る等を行うことにより、各テレビ会議システム１の各装置は、動作を終了するか否かを判断する（ステップＳ１０７）。ここで動作を終了すると判断した場合には（ステップＳ１０７のＹＥＳ）、各テレビ会議システム１の各装置が電源オフしてテレビ会議システム１の動作が終了する。ここで動作を終了しないと判断した場合には（ステップＳ１０７のＮＯ）、各テレビ会議システム１は、ステップＳ１０２の処理に移行する。

以上に説明した動作により、テレビ会議システム１は、次話者と推定される確率の高い参加者の発話区間を感度良く検出することができ、発話開始の検出精度をより良いものとすることができる。また、テレビ会議システム１は、次話者と推定される確率の低い参加者の発話を発話区間として検出する感度を低くすることができるので、参加者の会議に関係のない独り言等の発言を発話区間として検出することを防ぐことができる。また、次話者推定部１０６は、参加者の呼吸、視線及び頭部動作等の非言語行動に基づいて次話者確率Ｐ^ｎｓ _ｉ（ｔ）を算出している。すなわち、次話者推定部１０６は、次話者確率Ｐ^ｎｓ _ｉ（ｔ）を算出する際に、参加者の発話内容を解析等して参加者の言語行動に関する情報を取得する必要はない。

なお、テレビ会議端末１０の前に複数の参加者がいて、発話区間が検出された参加者をズームアップした画像を出力するようカメラ１２または出力処理部１０９を制御する場合には、発話区間を検出する際に、誰が発話を行ったのかを特定する話者特定を行う必要がある。従来のように発話区間を検出した際の発話開始の検出精度が良くないと、話者が発話を開始したタイミングで、話者を特定することは困難であった。しかし、第１の実施形態におけるテレビ会議システム１では、次話者が発話を開始する前に次話者を推定することができるので、次話者として発話を開始した参加者のズームアップした画像を、発話開始のタイミングで出力するようカメラ１２または出力処理部１０９を制御することができる。なお、図４において、ステップＳ１０３の処理とステップＳ１０４の処理とは、その処理順序を逆としてもよいし、同じタイミングの処理としてもよい。

（第２の実施形態）
第２の実施形態におけるテレビ会議システム（音声処理システム）１ａの構成例について説明する。第２の実施形態におけるテレビ会議システム１ａは、発話区間が検出された参加者のマイク１１からの音声信号のみをスピーカ１０４から出力することができる。

図５は、第２の実施形態におけるテレビ会議システム１ａの構成例を示す図である。図５に示すとおり、第２の実施形態におけるテレビ会議システム１ａは、図２に示した第１の実施形態におけるテレビ会議システム１とほぼ同じ構成であり、図２と同じ構成については同じ符号を付与しており、その説明を省略する。なお、複数のテレビ会議システム１ａを含む通信システムの全体構成は、図１と同様の構成である。

テレビ会議システム１ａは、テレビ会議端末１０ａと、マイク１１と、カメラ１２と、呼吸動作計測装置１４と、注視対象検出装置１５と、頭部動作計測装置１６とを備える。テレビ会議端末１０ａは、音声入力部１０１と、映像入力部１０２と、表示部１０３と、スピーカ１０４と、特徴量生成部１０５と、次話者推定部１０６と、発話区間検出部１０７と、通信部１０８と、出力処理部（制御部）１０９ａとを備える。

出力処理部１０９ａは、音声入力部１０１からの音声信号と、映像入力部１０２からの映像信号と、発話区間検出部１０７からの発話区間情報と、通信部１０８からの他のテレビ会議端末１０から受信した音声信号および発話区間情報とを入力とし、発話区間が検出された各参加者の音声信号をスピーカ１０４へ出力する。出力処理部１０９ａは、音声入力部１０１からの音声信号と、発話区間検出部１０７からの発話区間情報および通信部１０８が受信した発話区間情報とに基づいて、発話区間が検出された各参加者の音声信号をスピーカ１０４へ出力する。また、出力処理部１０９ａは、発話区間が検出された各参加者の映像信号を合成して、表示部１０３へ出力するようにしてもよい。

次に、第２の実施形態におけるテレビ会議システム１ａの動作について説明する。
図６は、第２の実施形態におけるテレビ会議システム１ａの動作を示すフロー図である。図６に示すとおりステップＳ１０１〜Ｓ１０５、Ｓ１０７は、図４に示した第１の実施形態におけるテレビ会議システム１の動作と同じ処理であり、その説明を省略する。

ステップＳ１０５の次に、出力処理部１０９ａは、発話区間検出部１０７において発話区間が検出された各参加者の音声信号をスピーカ１０４へ出力する（ステップＳ１０８）。また、出力処理部１０９ａは、発話区間検出部１０７において発話区間が検出されていない各参加者の音声信号をスピーカ１０４へ出力しない。ステップＳ１０８の次は、ステップＳ１０７へ進む。

以上に説明したように、第２の実施形態におけるテレビ会議システム１ａは、マイク１１からの音声信号をスピーカ１０４から出力するか否かを発話区間の検出に応じて自動で制御することができる。これにより、従来はテレビ会議の参加者は自分の発話に応じて手動でマイクのオン／オフを行っていたが、第２の実施形態におけるテレビ会議システム１ａは、これと同等の機能を自動で実現することができる。なお、第２の実施形態におけるテレビ会議システム１ａは、検出された発話区間に応じてスピーカ１０４へ出力する音声信号を制御したが、検出された発話区間に応じてマイク１１自体のオン／オフを制御する構成としてもよい。

（第２の実施形態の変形例１）
第２の実施形態におけるテレビ会議システム１ａは、発話区間検出部１０７において発話区間が検出された各参加者の音声信号をスピーカ１０４へ出力する構成としたが、これに限られるものではない。テレビ会議システム１ａは、発話区間検出部１０７において発話区間が検出された各参加者のうち、発話期待値Ｐ^ｎｓ’ _ｉ（ｔ）が最大の参加者の音声信号のみをスピーカ１０４へ出力する構成としてもよい。これにより、テレビ会議システム１ａは、発話区間検出部１０７において発話区間が検出された各参加者のうち発話を行うのが最もふさわしい参加者の音声信号をスピーカ１０４から出力することができる。特定の参加者のみ発話がスピーカ１０４から出力されるよう制御することで、複数人が同時に発話してしまう発話衝突を回避し、テレビ会議における参加者の会話の流れを良くすることができる。

なお、発話を行うのが最もふさわしい参加者を特定する方法は、発話期待値Ｐ^ｎｓ’ _ｉ（ｔ）が最大の参加者を選択する方法の他に、次話者確率Ｐ^ｎｓ _ｉ（ｔ）が最大の参加者を選択する等、次話者確率Ｐ^ｎｓ _ｉ（ｔ）を用いた方法であってもよい。また、テレビ会議システム１ａの参加者が、発話衝突を回避するよりも、所定数までの参加者の発話を同時にスピーカ１０４から発音させたいと考える場合がある。この場合には、テレビ会議システム１ａは、例えば、発話期待値Ｐ^ｎｓ’ _ｉ（ｔ）が最大の参加者の音声信号と、最大の発話期待値Ｐ^ｎｓ’ _ｉ（ｔ）と同等の大きさの発話期待値Ｐ^ｎｓ’ _ｉ（ｔ）を有する他の参加者の音声信号とをスピーカ１０４から出力する構成であってもよい。

（第２の実施形態の変形例２）
上述した第２の実施形態におけるテレビ会議システム１ａは、検出した発話区間に応じてスピーカ１０４に入力する音声信号を制御したが、検出した発話区間に応じて音声信号の伝送処理を制御してもよい。例えば、音声信号の伝送処理の制御を行う技術として参考文献１に記載の技術がある。
参考文献１：特開２００５−２２９２５９号公報
この参考文献１には、音声区間を判別して音声区間を含む音声信号を優先的に伝送する技術が開示されている。この参考文献１における音声区間の判別に、第２の実施形態における発話区間検出部１０７による発話区間の検出を利用することで、より精度の高い発話区間の検出に基づいて音声区間（発話区間）を含む音声信号を優先的に伝送することができる。

（第１、第２の実施形態に共通の次話者を推定する処理の具体例）
次に、上述した第１の実施形態におけるテレビ会議システム１および第２の実施形態におけるテレビ会議システム１ａに共通である次話者を推定する処理の具体例について説明する。テレビ会議システム１およびテレビ会議システム１ａにおける次話者推定には、例えば、以下の参考文献２、３の技術などを適用することができるが、任意の既存の技術を利用してもよい。参考文献２、３記載の技術を利用した場合は、注視対象検出装置１５が出力する注視対象情報に基づく発話者と非発話者の注視行動の遷移パターンを用いて、次話者推定部１０６は、次発話者および発話のタイミングを予測する。

参考文献２：特開２０１４−２３８５２５号公報
参考文献３：石井亮、外４名、“複数人対話における注視遷移パターンに基づく次話者と発話タイミングの予測”、人工知能学会研究会資料、SIG-SLUD-B301-06、pp.27-34、2013年

以下に、本実施形態に適用可能な参考文献２、３以外の次話者推定技術の例を示す。
会話の参加者の呼吸動作は次発話者と発話のタイミングに深い関連性がある。このことを利用して、会話の参加者の呼吸動作をリアルタイムに計測し、計測された呼吸動作から発話の開始直前に行われる特徴的な呼吸動作を検出し、この呼吸動作を基に次発話者とその発話タイミングを高精度に算出する。具体的には、発話開始直前におこなわれる呼吸動作の特徴として、発話を行っている発話者は、継続して発話する際（発話者継続時）には、発話終了直後にすぐに急激に息を吸い込む。逆に発話者が次に発話を行わない際（発話者交替時）には、発話者継続時に比べて、発話終了時から間を空けて、ゆっくりと息を吸い込む。また、発話者交替時に、次に発話をおこなう次発話者は、発話を行わない非発話者に比べて大きく息を吸い込む。このような発話の前におこなわれる呼吸は、発話開始に対しておおよそ決められたタイミングで行われる。このように、発話の直前に次発話者は特徴的な息の吸い込みを行うため、このような息の吸い込みの情報は、次発話者とその発話タイミングを予測するのに有用である。本次話者推定技術では、人物の息の吸い込みに着目し、息の吸い込み量や吸い込み区間の長さ、タイミングなどの情報を用いて、次発話者と発話タイミングを予測する。

以下では、Ａ人の参加者Ｐ_１，…，Ｐ_Ａが対面コミュニケーションを行う状況を想定する。参加者Ｐ_ａ（ただし、ａ＝１，…，Ａ、Ａ≧２）には呼吸動作計測装置１４およびマイク１１が装着される。呼吸動作計測装置１４は、参加者Ｐ_ａの呼吸動作を計測し、各離散時刻ｔでの計測結果を表す呼吸情報Ｂ_ａ，ｔを得て、次話者推定部１０６に出力する。呼吸動作計測装置１４が、バンド式の呼吸装置を備える構成について説明する。バンド式の呼吸装置は、バンドの伸縮の強さによって呼吸の深さの度合いを示す値を出力する。息の吸い込みが大きいほどバンドの伸びが大きくなり、逆に息の吐き出しが大きいほどバンドの縮みが大きくなる（バンドの伸びが小さくなる）。以降、この値をＲＳＰ値と呼ぶ。なお、ＲＳＰ値は、バンドの伸縮の強さに応じて参加者Ｐ_ａごとに異なる大きさを取る。そこで、これに起因するＰ_ａごとのＲＳＰ値の相違を排除するために、各参加者Ｐ_ａのＲＳＰ値の平均値μ_ａと標準偏差値δ_ａを用いて、μ_ａ+δ_ａが１、μ_ａ−δ_ａが−１になるように参加者Ｐ_ａごとにＲＳＰ値を正規化する。これによって、すべての参加者Ｐ_ａの呼吸動作データを同一に分析することが可能となる。各呼吸動作計測装置１４は、正規化されたＲＳＰ値を呼吸情報Ｂ_ａ，ｔとして次話者推定部１０６に送る。

さらに、マイク１１は、参加者Ｐ_ａの音声を取得し、各離散時刻ｔでの参加者Ｐ_ａの音声を表す音声信号Ｖ_ａ，ｔを得て、次話者推定部１０６に出力する。次話者推定部１０６は、入力された音声信号Ｖ_ａ，ｔ（ただし、ａ＝１，…，Ａ）から雑音を除去し、さらに発話区間Ｕ_ｋ（ただし、ｋは発話区間Ｕ_ｋの識別子）とその発話者Ｐ_ｕｋとを抽出する。ただし、「Ｐ_ｕｋ」の下付き添え字はｕ_ｋ＝１，…，Ａを表す。１つの発話区間Ｕ_ｋをＴｄ［ｍｓ］連続した無音区間で囲まれた区間と定義し、この発話区間Ｕ_ｋを発話の一つの単位と規定する。これにより、次話者推定部１０６は、各発話区間Ｕ_ｋを表す発話区間情報、およびその発話者Ｐ_ｕｋを表す発話者情報（参加者Ｐ_１，…，Ｐ_Ａのうち何れが発話区間Ｕ_ｋでの発話者Ｐ_ｕｋであるかを表す発話者情報）を得る。

次話者推定部１０６は、各参加者Ｐ_ａの呼吸情報Ｂ_ａ，ｔを用いて、各参加者Ｐ_ａの息の吸い込み区間Ｉ_ａ，ｋを抽出し、さらに息の吸い込みに関するパラメータλ_ａ，ｋを取得する。息の吸い込み区間とは、息を吐いている状態から、息を吸い込みだす開始位置と、息を吸い込み終わる終了位置との間の区間を示す。

図７は、息の吸い込み区間の例を示す図である。図７を用いて、息の吸い込み区間Ｉ_ａ，ｋの算出方法を例示する。ここで参加者Ｐ_ａの離散時刻ｔでのＲＳＰ値をＲ_ａ，ｔと表記する。ＲＳＰ値Ｒ_ａ，ｔは呼吸情報Ｂ_ａ，ｔに相当する。図７に例示するように、例えば、以下の（式４）が成り立つとき、

離散時刻ｔ＝ｔ_ｓ（ｋ）の前２フレームでＲＳＰ値Ｒ_ａ，ｔが連続して減少し、その後２フレームでＲＳＰ値Ｒ_ａ，ｔが連続して上昇しているから、離散時刻ｔ_ｓ（ｋ）を息の吸い込みの開始位置とする。さらに、以下の（式５）が成り立つとき、

離散時刻ｔ＝ｔ_ｅ（ｋ）の前２フレームのＲＳＰ値Ｒ_ａ，ｔが連続して上昇し、その後２フレームのＲＳＰ値Ｒ_ａ，ｔが連続して減少しているから、離散時刻ｔ_ｅ（ｋ）を息の吸い込みの終了位置とする。このとき、参加者Ｐ_ａの息の吸い込み区間Ｉ_ａ，ｋはｔ_ｓ（ｋ）からｔ_ｅ（ｋ）までの区間となり、息の吸い込み区間の長さはｔ_ｅ（ｋ）−ｔ_ｓ（ｋ）となる。

次話者推定部１０６は、息の吸い込み区間Ｉ_ａ，ｋが抽出されると、息の吸い込み区間Ｉ_ａ，ｋ、呼吸情報Ｂ_ａ，ｔ、および発話区間Ｕ_ｋの少なくとも一部を用い、息の吸い込みに関するパラメータλ’_ａ，ｋを抽出する。パラメータλ’_ａ，ｋは、参加者Ｐ_ａの吸い込み区間Ｉ_ａ，ｋでの息の吸い込みの量、吸い込み区間Ｉ_ａ，ｋの長さ、吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化、および発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋとの時間関係の少なくとも一部を表す。パラメータλ’_ａ，ｋは、これらの一つのみを表してもよいし、これらのうち複数を表してもよいし、これらすべてを表してもよい。パラメータλ’_ａ，ｋは、例えば以下のパラメータＭＩＮ_ａ，ｋ，ＭＡＸ_ａ，ｋ，ＡＭＰ_ａ，ｋ，ＤＵＲ_ａ，ｋ，ＳＬＯ_ａ，ｋ，ＩＮＴ１_ａ，ｋの少なくとも一部を含む。パラメータλ’_ａ，ｋは、これらの１つのみを含んでいてもよいし、これらのうち複数を含んでいてもよいし、これらのすべてを含んでいてもよい。
・ＭＩＮ_ａ，ｋ：参加者Ｐ_ａの息の吸い込み開始時のＲＳＰ値Ｒ_ａ，ｔ、すなわち、息の吸い込み区間Ｉ_ａ，ｋのＲＳＰ値Ｒ_ａ，ｔの最小値。
・ＭＡＸ_ａ，ｋ：参加者Ｐ_ａの息の吸い込み終了時のＲＳＰ値Ｒ_ａ，ｔ、すなわち、息の吸い込み区間Ｉ_ａ，ｋのＲＳＰ値Ｒ_ａ，ｔの最大値。
・ＡＭＰ_ａ，ｋ：参加者Ｐ_ａの息の吸い込み区間Ｉ_ａ，ｋのＲＳＰ値Ｒ_ａ，ｔの振幅、すなわち、ＭＡＸ_ａ，ｋ−ＭＩＮ_ａ，ｋで算出される値。吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量を表す。
・ＤＵＲ_ａ，ｋ：参加者Ｐ_ａの息の吸い込み区間Ｉ_ａ，ｋの長さ、すなわち、息の吸い込み区間Ｉ_ａ，ｋの終了位置の離散時刻ｔ_ｅ（ｋ）から開始位置の離散時刻ｔ_ｓ（ｋ）を減じて得られる値ｔ_ｅ（ｋ）−ｔ_ｓ（ｋ）。
・ＳＬＯ_ａ，ｋ：参加者Ｐ_ａの息の吸い込み区間Ｉ_ａ，ｋにおけるＲＳＰ値Ｒ_ａ，ｔの単位時間当たりの傾きの平均値、すなわち、ＡＭＰ_ａ，ｋ／ＤＵＲ_ａ，ｋで算出される値。吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化を表す。
・ＩＮＴ１_ａ，ｋ：手前の発話区間Ｕ_ｋの終了時刻ｔ_{ｕｅ（ｋ）}（発話区間末）から参加者Ｐ_ａの息の吸い込みが開始されるまでの間隔、すなわち、息の吸い込み区間Ｉ_ａ，ｋの開始位置の離散時刻ｔ_ｓ（ｋ）から発話区間Ｕ_ｋの終了時刻ｔ_{ｕｅ（ｋ）}を減じて得られる値ｔ_ｓ（ｋ）−ｔ_{ｕｅ（ｋ）}。発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋとの時間関係を表す。

次話者推定部１０６は、さらに以下のパラメータＩＮＴ２_ａ，ｋを生成してもよい。
・ＩＮＴ２_ａ，ｋ：参加者Ｐ_ａの息の吸い込み終了時から次発話者の発話区間Ｕ_ｋ＋１が開始されるまでの間隔、すなわち、次発話者の発話区間Ｕ_ｋ＋１の開始時刻ｔ_{ｕｓ（ｋ＋１）}から息の吸い込み区間Ｉ_ａ，ｋの終了位置の離散時刻ｔ_ｅ（ｋ）を減じて得られる値ｔ_{ｕｓ（ｋ＋１）}−ｔ_ｅ（ｋ）。発話区間Ｕ_ｋ＋１と吸い込み区間Ｉ_ａ，ｋとの時間関係を表す。パラメータλ’_ａ，ｋにＩＮＴ２_ａ，ｋを加えたものをパラメータλ_ａ，ｋと表記する。

次話者推定部１０６は、例えば発話区間Ｕ_ｋ＋１を表す情報が得られ、さらに、パラメータλ_ａ，ｋが得られた以降（発話区間Ｕ_ｋ＋１が開始された後）に、発話区間Ｕ_ｋおよびその発話者Ｐ_ｕｋ、発話区間Ｕ_ｋ＋１およびその発話者Ｐ_ｕｋ＋１とその発話開始タイミングＴ_ｕｋ＋１を表す情報とともにデータベースに記録する。次発話者Ｐ_ｕｋ＋１の発話タイミングとは、発話区間Ｕ_ｋ＋１の何れかの時点またはそれに対応する時点であればよい。発話タイミングＴ_ｕｋ＋１は、発話区間Ｕ_ｋ＋１の開始時刻ｔ_{ｕｓ（ｋ＋１）}であってもよいし、時刻ｔ_{ｕｓ（ｋ＋１）}＋γ（ただし、γは正または負の定数）であってもよいし、発話区間Ｕ_ｋ＋１の終了時刻ｔ_{ｕｅ（ｋ＋１）}であってもよいし、時刻ｔ_{ｕｅ（ｋ＋１）}＋γであってもよいし、発話区間Ｕ_ｋ＋１の中心時刻ｔ_{ｕｓ（ｋ＋１）}＋（ｔ_{ｕｅ（ｋ＋１）}−ｔ_{ｕｓ（ｋ＋１）}）／２であってもよい。λ_ａ，ｋ，Ｕ_ｋ，Ｐ_ｕｋ，Ｐ_ｕｋ＋１，Ｔ_ｕｋ＋１を表す情報の一部またはすべてがデータベースに保持され、次話者推定部１０６が発話区間Ｕ_ｋ＋１よりも後の次発話者とその発話タイミングを予測するために使用される。

次話者推定部１０６は、発話者情報Ｐ_ｕｋ、発話区間Ｕ_ｋ、参加者Ｐ_ａの吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量、吸い込み区間Ｉ_ａ，ｋの長さ、吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化、および発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋとの時間関係の少なくとも一部に基づき、参加者Ｐ_１，…，Ｐ_Ａのうち何れが次発話者Ｐ_ｕｋ＋１であるか、および次発話者Ｐ_ｕｋ＋１の発話タイミングの少なくとも一方を表す推定情報を得る。ただし、「Ｐ_ｕｋ＋１」の下付き添え字「ｕｋ＋１」はｕ_ｋ＋１を表す。発話区間Ｕ_ｋの発話者Ｐ_ｕｋが発話区間Ｕ_ｋ＋１でも発話を行う場合（発話継続する場合）、次発話者は発話区間Ｕ_ｋの発話者Ｐ_ｕｋと同一である。一方、発話区間Ｕ_ｋの発話者Ｐ_ｕｋ以外の参加者が発話区間Ｕ_ｋ＋１でも発話を行う場合（すなわち発話交替する場合）、次発話者は発話区間Ｕ_ｋの発話者Ｐ_ｕｋ以外の参加者である。

次話者推定部１０６は、発話者情報Ｐ_ｕｋ、発話区間Ｕ_ｋ、参加者Ｐ_ａの吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量、吸い込み区間Ｉ_ａ，ｋの長さ、吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化、および発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋとの時間関係の少なくとも一部に対応する特徴量ｆ_ａ，ｋに対する推定情報を得るためのモデルを機械学習し、このモデルを用いて特徴量に対する推定情報を得る。特徴量ｆ_ａ，ｋは、発話者情報Ｐ_ｕｋ、発話区間Ｕ_ｋ、参加者Ｐ_ａの吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量、吸い込み区間Ｉ_ａ，ｋの長さ、吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化、および発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋとの時間関係の１つのみに対応してもよいし、これらのうち複数に対応してもよいし、すべてに対応してもよい。モデルの機械学習には、例えば、過去の吸い込み区間Ｉ_ａ，ｉ（ただし、ｉ＜ｋ）での息の吸い込み量、吸い込み区間Ｉ_ａ，ｉの長さ、吸い込み区間Ｉ_ａ，ｉでの息の吸い込み量の時間変化、および発話区間Ｕ_ｉと吸い込み区間Ｉ_ａ，ｉとの時間関係の少なくとも一部に対応する特徴量ｆ_ａ，ｋ、ならびに発話区間Ｕ_ｉ，Ｕ_ｉ＋１およびそれらの発話者Ｐ_ｕｋ，Ｐ_ｕｋ＋１の情報が学習データとして用いられる。

次話者推定部１０６による次発話者／発話タイミング推定処理を例示する。この例では、次発話者Ｐ_ｕｋ＋１を推定するモデルである次発話者推定モデルと、次発話者Ｐ_ｕｋ＋１の発話タイミングを推定するモデルである発話タイミング推定モデルとが生成され、それぞれのモデルを用いて次発話者Ｐ_ｕｋ＋１とその発話タイミングが推定される。

次発話者推定モデルを学習する場合、次話者推定部１０６は、学習データとして、データベースから過去のパラメータλ_ａ，ｉ（ただし、ａ＝１，…，Ａであり、ｉ＜ｋである）の少なくとも一部、および発話区間Ｕ_ｉ，Ｕ_ｉ＋１およびそれらの発話者Ｐ_ｕｉ，Ｐ_ｕｉ＋１を表す情報を読み出す。次話者推定部１０６は、パラメータλ_ａ，ｉの少なくとも一部に対応する特徴量Ｆ１_ａ，ｉおよびＵ_ｉ，Ｕ_ｉ＋１，Ｐ_ｕｉ，Ｐ_ｕｉ＋１を学習データとして、次発話者推定モデルを機械学習する。次発話者推定モデルには、例えば、ＳＶＭ（Support Vector Machine）、ＧＭＭ（Gaussian Mixture Model）、ＨＭＭ（Hidden Markov Model）等を用いることができる。

次話者推定部１０６は、パラメータλ’_ａ，ｋの少なくとも一部に対応する特徴量Ｆ１_ａ，ｋを次発話者推定モデルに適用し、それによって推定された次発話Ｐ_ｕｋ＋１を表す情報を「推定情報」の一部とする。なお、次発話Ｐ_ｕｋ＋１を表す情報は、何れかの参加者Ｐ_ａを確定的に表すものであってもよいし、確率的に表すものであってもよい。参加者Ｐ_ａが次話者になる確率を、Ｐ１_ａとする。

発話タイミング推定モデルを学習する場合、次話者推定部１０６は、学習データとして、データベースから過去のパラメータλ_ａ，ｉ（ただし、ａ＝１，…，Ａであり、ｉ＜ｋである）の少なくとも一部、発話区間Ｕ_ｉ，Ｕ_ｉ＋１およびそれらの発話者Ｐ_ｕｉ，Ｐ_ｕｉ＋１、および発話区間Ｕ_ｉ＋１の発話開始タイミングＴ_ｕｉ＋１を表す情報を読み出す。次話者推定部１０６は、パラメータλ_ａ，ｉの少なくとも一部に対応する特徴量Ｆ２_ａ，ｉおよびＵ_ｉ，Ｕ_ｉ＋１，Ｐ_ｕｉ，Ｐ_ｕｉ＋１，Ｔ_ｕｉ＋１を学習データとして、発話タイミング推定モデルを機械学習する。次発話者推定モデルには、例えば、ＳＶＭ、ＧＭＭ、ＨＭＭ等を用いることができる。

次話者推定部１０６は、発話者Ｐ_ｕｋ、パラメータλ’_ａ，ｋの少なくとも一部、および次発話者推定モデルにより推定された次発話者Ｐ_ｕｋ＋１が得られると、パラメータλ’_ａ，ｋの少なくとも一部に対応する特徴量Ｆ２_ａ，ｋを発話タイミング推定モデルに適用する。次話者推定部１０６は、特徴量Ｆ２_ａ，ｋを発話タイミング推定モデルに適用して推定された次の発話区間Ｕ_ｋ＋１の発話タイミングＴ_ｕｋ＋１（例えば、発話区間Ｕ_ｋ＋１の開始時刻）を表す情報を「推定情報」の一部として出力する。なお、発話タイミングを表す情報は、何れかの発話タイミングを確定的に表すものであってもよいし、確率的に表すものであってもよい。参加者Ｐ_ａが時刻ｔに発話を開始する確率（時刻ｔが参加者Ｐ_ａの発話タイミングである確率）を、Ｐ２_ａ（ｔ）とする。
上述した実施形態の次話者推定部１０６が推定する参加者ｉの時刻ｔにおける次話者確率Ｐ^ｎｓ _ｉ（ｔ）は、参加者ｉが本次話者推定技術における参加者Ｐ_ａである場合、確率Ｐ１_ａ×確率Ｐ２_ａ（ｔ）により算出される。

上述の次話者推定部１０６は、呼吸動作の観測値に基づいて次に発話を開始する参加者およびタイミングを推定しているが、さらに、視線の観測値を用いてもよい。
視線行動をさらに利用する場合、各参加者Ｐ_ａ（ただし、ａ＝１，…，Ａ）には注視対象検出装置１５がさらに装着される。注視対象検出装置１５は、参加者Ｐ_ａが誰を注視しているか（注視対象）を検出し、参加者Ｐ_ａおよび各離散時刻ｔでの注視対象Ｇ_ａ，ｔを表す情報を次話者推定部１０６に送る。次話者推定部１０６は、注視対象情報Ｇ_１，ｔ，…，Ｇ_Ａ，ｔ、発話区間Ｕ_ｋ、および話者情報Ｐ_ｕｋを入力とし、発話区間終了前後における注視対象ラベル情報θ_ｖ，ｋ（ただし、ｖ＝１，…，Ｖ、Ｖは注視対象ラベルの総数）を生成する。注視対象ラベル情報は、発話区間Ｕ_ｋの終了時点Ｔ_ｓｅに対応する時間区間における参加者の注視対象を表す情報である。ここでは、終了時点Ｔ_ｓｅを含む有限の時間区間における参加者Ｐ_ａの注視対象をラベル付けした注視対象ラベル情報θ_ｖ，ｋを例示する。この場合、例えば、発話区間Ｕ_ｋの終了時点Ｔ_ｓｅよりも前の時点Ｔ_ｓｅ−Ｔ_ｂから終了時点Ｔ_ｓｅよりも後の時点Ｔ_ｓｅ＋Ｔ_ａまでの区間に出現した注視行動を扱う。Ｔ_ｂ，Ｔ_ａは０以上の任意の値でよいが、目安として、Ｔ_ｂは０秒〜２．０秒、Ｔ_ａは０秒〜３．０秒程度にするのが適当である。

次話者推定部１０６は、注視対象の参加者を以下のような種別に分類し、注視対象のラベリングを行う。なお、ラベルの記号に意味はなく、判別できればどのような表記でも構わない。
・ラベルＳ：話者（すなわち、話者である参加者Ｐ_ｕｋを表す）
・ラベルＬ_ξ：非話者（ただし、ξは互いに異なる非話者である参加者を識別し、ξ＝１，…，Ａ−１である。例えば、ある参加者が、非話者Ｐ_２、非話者Ｐ_３、の順に注視をしていたとき、非話者Ｐ_２にＬ_１というラベル、非話者Ｐ_３にＬ_２というラベルが割り当てられる。）
・ラベルＸ：誰も見ていない

ラベルがＳまたはＬ_ξのときには、相互注視（視線交差）が起きたか否かという情報を付与する。本形態では、相互注視が起きた際には、Ｓ_Ｍ，Ｌ_ξＭ（下付き添え字の「_ξＭ」はξ_Ｍを表す）のように、ラベルＳ，Ｌ_ξの末尾にＭラベルを付与する。

図８は、注視対象ラベルの具体例を示す図である。図８はＡ＝４の例であり、発話区間Ｕ_ｋ，Ｕ_ｋ＋１と各参加者の注視対象が時系列に示されている。図８の例では、参加者Ｐ_１が発話した後、発話交替が起き、新たに参加者Ｐ_２が発話をした際の様子を示している。ここでは、話者である参加者Ｐ_１が参加者Ｐ_４を注視した後、参加者Ｐ_２を注視している。Ｔ_ｓｅ−Ｔ_ｂの時点からＴ_ｓｅ＋Ｔ_ａの時点までの区間では、参加者Ｐ_１が参加者Ｐ_２を見ていたとき、参加者Ｐ_２は参加者Ｐ_１を見ている。これは、参加者Ｐ_１と参加者Ｐ_２とで相互注視が起きていることを表す。この場合、参加者Ｐ_１の注視対象情報Ｇ_１，ｔから生成される注視対象ラベルはＬ_１とＬ_２Ｍの２つとなる。上述の区間では、参加者Ｐ_２は参加者Ｐ_４を注視した後、話者である参加者Ｐ_１を注視している。この場合、参加者Ｐ_２の注視対象ラベルはＬ_１とＳ_Ｍの２つとなる。また、上述の区間では、参加者Ｐ_３は話者である参加者Ｐ_１を注視している。この場合、参加者Ｐ_３の注視対象ラベルはＳとなる。また、上述の区間では、参加者Ｐ_４は誰も見ていない。この場合、参加者Ｐ_４の注視対象ラベルはＸとなる。したがって、図８の例では、Ｖ＝６である。

次話者推定部１０６は、注視対象ラベルごとの開始時刻、終了時刻も取得する。ここで、誰（Ｒ∈｛Ｓ，Ｌ｝）のどの注視対象ラベル（ＧＬ∈｛Ｓ，Ｓ_Ｍ，Ｌ_１，Ｌ_１Ｍ，Ｌ_２，Ｌ_２Ｍ，…｝）であるかを示す記号としてＲ_ＧＬ、その開始時刻をＳＴ＿Ｒ_ＧＬ、終了時刻をＥＴ＿Ｒ_ＧＬと定義する。ただし、Ｒは参加者の発話状態（話者か非話者か）を表し、Ｓは話者、Ｌは非話者である。例えば、図８の例において、参加者Ｐ_１の最初の注視対象ラベルはＳ_Ｌ１であり、その開始時刻はＳＴ＿Ｓ_Ｌ１、終了時刻はＥＴ＿Ｓ_Ｌ１である。注視対象ラベル情報θ_ｖ，ｋは注視対象ラベルＲ_ＧＬ、開始時刻ＳＴ＿Ｒ_ＧＬ、および終了時刻ＥＴ＿Ｒ_ＧＬを含む情報である。

次話者推定部１０６は、注視対象ラベル情報θ_ｖ，ｋを用いて、各参加者Ｐ_ａの注視対象遷移パターンＥ_ａ，ｋを生成する。注視対象遷移パターンの生成は、注視対象ラベルＲ_ＧＬを構成要素として、時間的な順序を考慮した遷移ｎ−ｇｒａｍを生成して行う。ここで、ｎは正の整数である。例えば、図８の例を考えると、参加者Ｐ１の注視対象ラベルから生成される注視対象遷移パターンＥ_１，ｋはＬ_１−Ｌ_２Ｍである。同様にして、参加者Ｐ_２の注視対象遷移パターンＥ_２，ｋはＬ_１−Ｓ_Ｍ、参加者Ｐ_３の注視対象遷移パターンＥ_３，ｋはＳ、参加者Ｐ_４の注視対象遷移パターンＥ_４，ｋはＸとなる。

注視対象遷移パターンＥ_ａ，ｋは、例えば発話区間Ｕ_ｋ＋１が開始された後に、発話区間Ｕ_ｋおよびその発話者Ｐ_ｕｋ、発話区間Ｕ_ｋ＋１に該当する発話を行う次発話者Ｐ_ｕｋ＋１および次発話開始タイミングＴ_ｕｋ＋１を表す情報とともにデータベースに送られる。データベースでは、注視対象遷移パターンＥ_ａ，ｋが、パラメータλａ，ｋと併合され、Ｅ_ａ，ｋ，λ_ａ，ｋ，Ｕ_ｋ，Ｐ_ｕｋ，Ｐ_ｕｋ＋１，Ｔ_ｕｋ＋１を表す情報の一部またはすべてがデータベースに保持される。

次話者推定部１０６は、注視対象ラベル情報θ_ｖ，ｋを入力とし、注視対象ラベルごとの時間構造情報Θ_ｖ，ｋを生成する。時間構造情報は参加者の視線行動の時間的な関係を表す情報であり、（１）注視対象ラベルの時間長、（２）注視対象ラベルと発話区間の開始時刻または終了時刻との間隔、（３）注視対象ラベルの開始時刻または終了時刻と他の注視対象ラベルの開始時刻または終了時刻との間隔、をパラメータとして持つ。

具体的な時間構造情報のパラメータを以下に示す。以下では、発話区間の開始時刻をＳＴ＿Ｕ、発話区間の終了時刻をＥＴ＿Ｕと定義する。
・ＩＮＴ１（＝ＥＴ＿Ｒ_ＧＬ−ＳＴ＿Ｒ_ＧＬ）：注視対象ラベルＲ_ＧＬの開始時刻ＳＴ＿Ｒ_ＧＬと終了時刻ＥＴ＿Ｒ_ＧＬの間隔
・ＩＮＴ２（＝ＳＴ＿Ｕ−ＳＴ＿Ｒ_ＧＬ）：注視対象ラベルＲ_ＧＬの開始時刻ＳＴ＿Ｒ_ＧＬが発話区間の開始時刻ＳＴ＿Ｕよりもどれくらい前であったか
・ＩＮＴ３（＝ＥＴ＿Ｕ−ＳＴ＿Ｒ_ＧＬ）：注視対象ラベルＲ_ＧＬの開始時刻ＳＴ＿Ｒ_ＧＬが発話区間の終了時刻ＥＴ＿Ｕよりもどれくらい前であったか
・ＩＮＴ４（＝ＥＴ＿Ｒ_ＧＬ−ＳＴ＿Ｕ）：注視対象ラベルＲ_ＧＬの終了時刻ＥＴ＿Ｒ_ＧＬが発話区間の開始時刻ＳＴ＿Ｕよりもどれくらい後であったか
・ＩＮＴ５（＝ＥＴ＿Ｕ−ＥＴ＿Ｒ_ＧＬ）：注視対象ラベルＲ_ＧＬの終了時刻ＥＴ＿Ｒ_ＧＬが発話区間の終了時刻ＥＴ＿Ｕよりもどれくらい前であったか
・ＩＮＴ６（＝ＳＴ＿Ｒ_ＧＬ−ＳＴ＿Ｒ_ＧＬ’）：注視対象ラベルＲ_ＧＬの開始時刻ＳＴ＿Ｒ_ＧＬが他の注視対象ラベルＲ_ＧＬ’の開始時刻ＳＴ＿Ｒ_ＧＬ’よりもどれくらい後であったか
・ＩＮＴ７（＝ＥＴ＿Ｒ_ＧＬ’−ＳＴ＿Ｒ_ＧＬ）：注視対象ラベルＲ_ＧＬの開始時刻ＳＴ＿Ｒ_ＧＬが他の注視対象ラベルＲ_ＧＬ’の終了時刻ＥＴ＿Ｒ_ＧＬ’よりもどれくらい前であったか
・ＩＮＴ８（＝ＥＴ＿Ｒ_ＧＬ−ＳＴ＿Ｒ_ＧＬ’）：注視対象ラベルＲ_ＧＬの終了時刻ＥＴ＿Ｒ_ＧＬが注視対象ラベルＲ_ＧＬ’の開始時刻ＳＴ＿Ｒ_ＧＬ’よりもどれくらい後であったか
・ＩＮＴ９（＝ＥＴ＿Ｒ_ＧＬ−ＥＴ＿Ｒ_ＧＬ’）：注視対象ラベルＲ_ＧＬの終了時刻ＥＴ＿Ｒ_ＧＬが注視対象ラベルＲ_ＧＬ’の終了時刻ＥＴ＿Ｒ_ＧＬ’よりもどれくらい後であったか

なお、ＩＮＴ６〜ＩＮＴ９については、すべての参加者の注視対象ラベルとの組み合わせに対して取得する。図８の例では、注視対象ラベル情報は全部で６つ（Ｌ_１，Ｌ_２Ｍ，Ｌ_１，Ｓ_Ｍ，Ｓ，Ｘ）あるため、ＩＮＴ６〜ＩＮＴ９は、それぞれ６×５＝３０個のデータが生成される。

時間構造情報Θ_ｖ，ｋは注視対象ラベル情報θ_ｖ，ｋについてのパラメータＩＮＴ１〜ＩＮＴ９からなる情報である。時間構造情報Θ_ｖ，ｋを構成する上記の各パラメータについて、図９を用いて具体的に示す。図９は、話者である参加者Ｐ１（Ｒ＝Ｓ）の注視対象ラベルＬ１についての時間構造情報を示す図である。すなわち、Ｒ_ＧＬ＝Ｓ_Ｌ１における時間構造情報である。なお、ＩＮＴ６〜ＩＮＴ９については、図示を簡略化するために、参加者Ｐ２の注視対象ラベルＬ１、すなわちＲ_ＧＬ＝Ｌ_Ｌ１との関係のみを示す。図９の例では、ＩＮＴ１〜ＩＮＴ９は以下のように求められることがわかる。
・ＩＮＴ１＝ＥＴ＿Ｓ_Ｌ１−ＳＴ＿Ｓ_Ｌ１
・ＩＮＴ２＝ＳＴ＿Ｕ−ＳＴ＿Ｓ_Ｌ１
・ＩＮＴ３＝ＥＴ＿Ｕ−ＳＴ＿Ｓ_Ｌ１
・ＩＮＴ４＝ＥＴ＿Ｓ_Ｌ１−ＳＴ＿Ｕ
・ＩＮＴ５＝ＥＴ＿Ｕ−ＥＴ＿Ｓ_Ｌ１
・ＩＮＴ６＝ＳＴ＿Ｓ_Ｌ１−ＳＴ＿Ｌ_Ｌ１
・ＩＮＴ７＝ＥＴ＿Ｌ_Ｌ１−ＳＴ＿Ｓ_Ｌ１
・ＩＮＴ８＝ＥＴ＿Ｓ_Ｌ１−ＳＴ＿Ｌ_Ｌ１
・ＩＮＴ９＝ＥＴ＿Ｓ_Ｌ１−ＥＴ＿Ｌ_Ｌ１

時間構造情報Θ_ｖ，ｋは、例えば発話区間Ｕ_ｋ＋１が開始された後に、発話区間Ｕ_ｋおよびその発話者Ｐ_ｕｋ、発話区間Ｕ_ｋ＋１に該当する発話を行う次発話者Ｐ_ｕｋ＋１および次発話開始タイミングＴ_ｕｋ＋１を表す情報とともにデータベースに送られる。データベースでは、時間構造情報Θ_ｖ，ｋが、パラメータλ_ａ，ｋと併合され、Θ_ｖ，ｋ，λ_ａ，ｋ，Ｕ_ｋ，Ｐ_ｕｋ，Ｕ_ｋ＋１，Ｐ_ｕｋ＋１，Ｔ_ｕｋ＋１を表す情報の一部またはすべてがデータベースに保持される。

次話者推定部１０６は、注視対象遷移パターンＥ_ａ，ｋ、時間構造情報Θ_ｖ，ｋ、発話者情報Ｐ_ｕｋ、発話区間Ｕ_ｋ、参加者Ｐ_ａの吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量、吸い込み区間Ｉ_ａ，ｋの長さ、吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化、および発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋとの時間関係の少なくとも一部に対応する特徴量ｆ_ａ，ｋに対する推定情報を得るためのモデルを機械学習し、モデルを用いて特徴量に対する推定情報である次話者確率Ｐ^ｎｓ _ｉ（ｔ）を得て出力する。

上述の次話者推定部１０６は、呼吸動作の観測値および視線の観測値に基づいて次に発話を開始する参加者およびタイミングを推定しているが、さらに、頭部動作計測装置１６からの参加者の頭部の動きに関する情報である頭部動作情報を用いてもよい。頭部動作計測装置１６は、各参加者の頭部に装着され、頭部の位置の座標値及び回転角度を含む頭部動作情報を所定周期（例えば３０Ｈｚ）で出力する。これは、人は発話の直前に大きく頷く傾向があることを利用するものである。次話者推定部１０６は、頭部動作情報に基づいて参加者ｉが時刻ｔの数秒前に頷いたと判定した場合には、参加者ｉの時刻ｔにおける次話者確率Ｐ^ｎｓ _ｉ（ｔ）に所定値を加算する処理等を行う。また、次話者推定部１０６は、呼吸動作の観測値、視線の観測値および、参加者の頭部の動きに関する情報の少なくとも一つに基づいて次話者確率Ｐ^ｎｓ _ｉ（ｔ）を算出してもよい。

上述したように参加者の頭部の動きに関する情報を用いて次話者を推定する技術として、以下の参考文献４に記載の技術がある。
参考文献４：石井亮、外３名、“複数人対話での話者交替に関する頭部動作の分析〜次話者と発話開始タイミングの予測モデルの構築に向けて〜”，ＨＣＧシンポジウム、２０１４年
次話者推定部１０６は、参考文献４に記載の技術を用いて頭部動作情報に基づく次話者の推定を行う構成であってもよい。また、次話者推定部１０６は、頭部動作計測装置１６からの頭部動作情報に基づいて参加者の頭の動きを判断したが、映像入力部１０２からの各参加者の画像データを解析して、参加者の頭部の動きを特定してもよい。

上述した第１の実施形態におけるテレビ会議端末１０または第２の実施形態におけるテレビ会議端末１０ａの備える各機能部は、例えば、コンピュータで実現することができる。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、ＦＰＧＡ（Field Programmable Gate Array）等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

遠隔地に居る複数の参加者による会議や討論会を行う場合に適用可能である。

１、１ａ、１−１、１−２、１−３…テレビ会議システム，１０、１０ａ、１０−１、１０−２、１０−３…テレビ会議端末，１１、１１−１、１１−２、１１−３…マイク，１２、１２−１、１２−２、１２−３…カメラ，１３…ネットワーク，１０１…音声入力部，１０２…映像入力部，１０３…表示部，１０４…スピーカ，１０５…特徴量生成部，１０６…次話者推定部，１０７…発話区間検出部，１０８…通信部，１０９、１０９ａ…出力処理部，１１０…記録部

Claims

会話に参加する複数の参加者の音声を含む音を集音して第１の音信号を出力する集音部と、
前記集音部が出力する前記第１の音信号に基づいて、前記参加者毎に前記参加者が発話していることを特定するための特徴量を生成する特徴量生成部と、
前記参加者の呼吸に関する情報である呼吸情報、前記参加者の頭部の動きに関する情報である頭部情報および前記参加者が注視している対象に関する情報である注視対象情報の少なくとも一つに基づいて、前記参加者の中で次の話者となる参加者である次話者を推定した次話者情報を出力する次話者推定部と、
前記特徴量生成部が生成した前記特徴量と、前記次話者推定部が出力した前記次話者情報とに基づいて、前記参加者が発話している時間帯を示す第１の発話区間を検出する発話区間検出部と、
を備える音声処理システム。
前記次話者情報とは、前記参加者のいずれか一人の発話が終了した後において前記参加者が前記次話者となる確率を示す情報である請求項１に記載の音声処理システム。
前記発話区間検出部は、閾値に基づいて前記参加者の前記特徴量を判断して前記第１の発話区間を検出し、
前記次話者情報に含まれる前記次話者となる確率が高いほど前記第１の発話区間が検出されやすくなるよう前記閾値又は前記特徴量を変更する請求項２に記載の音声処理システム。
前記参加者の内の少なくとも１人は遠隔地にいる場合に、遠隔地にいる前記参加者の音声を含む第２の音信号および前記第２の音信号の第２の発話区間に関する情報である発話区間情報を受信する受信部と、
前記集音部が集音した前記第１の音信号および前記受信部が受信した前記第２の音信号に応じて発音する発音部と、
前記発話区間検出部が検出した前記第１の発話区間および前記発話区間情報で特定される前記第２の発話区間の少なくとも一つに基づいて、前記第１の音信号および前記第２の音信号に応じた前記発音部での発音を制御する制御部と、
をさらに備える請求項１から請求項３のいずれか一項に記載の音声処理システム。
前記参加者の内の少なくとも１人は遠隔地にいる場合に、遠隔地にいる前記参加者の音声を含む第２の音信号および前記第２の音信号の第２の発話区間に関する情報である発話区間情報を受信する受信部と、
前記集音部が集音した前記第１の音信号および前記受信部が受信した前記第２の音信号の少なくとも一つに応じて発音する発音部と、
前記発話区間検出部が検出した前記第１の発話区間及び前記発話区間情報で特定される前記第２の発話区間と前記次話者情報とに基づいて、前記第１の音信号および前記第２の音信号の少なくとも一つに応じて発音を行うよう前記発音部を制御する制御部と、
をさらに備える請求項１から請求項３のいずれか一項に記載の音声処理システム。
会話に参加する複数の参加者の音声を含む音を集音して第１の音信号を出力する集音部からの前記第１の音信号が入力される入力部と、
前記入力部に入力された前記第１の音信号に基づいて、前記参加者毎に前記参加者が発話していることを特定するための特徴量を生成する特徴量生成部と、
前記参加者の呼吸に関する情報である呼吸情報、前記参加者の頭部の動きに関する情報である頭部情報および前記参加者が注視している対象に関する情報である注視対象情報の少なくとも一つに基づいて、前記参加者の中で次の話者となる参加者である次話者を推定した次話者情報を出力する次話者推定部と、
前記特徴量生成部が生成した前記特徴量と、前記次話者推定部が出力した前記次話者情報とに基づいて、前記参加者が発話している時間帯を示す第１の発話区間を検出する発話区間検出部と、
を備える音声処理装置。
会話に参加する複数の参加者の音声を含む音を集音して第１の音信号を出力する集音部に接続された音声処理装置で実行される音声処理プログラムであって、
前記集音部からの前記第１の音信号を入力する入力ステップと、
前記入力ステップにおいて入力された前記第１の音信号に基づいて、前記参加者毎に前記参加者が発話していることを特定するための特徴量を生成する特徴量生成ステップと、
前記参加者の呼吸に関する情報である呼吸情報、前記参加者の頭部の動きに関する情報である頭部情報および前記参加者が注視している対象に関する情報である注視対象情報の少なくとも一つに基づいて、前記参加者の中で次の話者となる参加者である次話者を推定した次話者情報を出力する次話者推定ステップと、
前記特徴量生成ステップにおいて生成した前記特徴量と、前記次話者推定ステップにおいて出力した前記次話者情報とに基づいて、前記参加者が発話している時間帯を示す第１の発話区間を検出する発話区間検出ステップと、
をコンピュータに実行させるための音声処理プログラム。