JP6363987B2 - 音声処理システム、音声処理装置および音声処理プログラム - Google Patents

音声処理システム、音声処理装置および音声処理プログラム Download PDF

Info

Publication number
JP6363987B2
JP6363987B2 JP2015252448A JP2015252448A JP6363987B2 JP 6363987 B2 JP6363987 B2 JP 6363987B2 JP 2015252448 A JP2015252448 A JP 2015252448A JP 2015252448 A JP2015252448 A JP 2015252448A JP 6363987 B2 JP6363987 B2 JP 6363987B2
Authority
JP
Japan
Prior art keywords
participant
information
unit
utterance
next speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015252448A
Other languages
English (en)
Other versions
JP2017116747A (ja
Inventor
石井 亮
亮 石井
大塚 和弘
和弘 大塚
史朗 熊野
史朗 熊野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
NTT Inc USA
Original Assignee
Nippon Telegraph and Telephone Corp
NTT Inc USA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, NTT Inc USA filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015252448A priority Critical patent/JP6363987B2/ja
Publication of JP2017116747A publication Critical patent/JP2017116747A/ja
Application granted granted Critical
Publication of JP6363987B2 publication Critical patent/JP6363987B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、音声処理システム、音声処理装置および音声処理プログラムに関する。
マイクから取得される音信号において、音声の存在する区間(発話区間)と音声の存在しない区間(非発話区間)を自動的に検出するVAD(Voice Activity Detection)技術がある。従来のVAD技術としては、音信号に対して、任意の窓幅を設けてその区間内のパワー、ゼロ交差数、周波数などの音声の特徴を示す値(以下、音声特徴量という。)を算出し、算出した音声特徴量のいずれかが任意の閾値を超えた際に、発話区間として検出する手法がある。このような検出手法は、有声音が存在すれば音信号のパワーが増大するという性質や、無声子音が存在すれば音信号のゼロ交差点数が多くなるという性質を利用している。これらの手法をより改良し、音信号の周波数スペクトルの概形等の様々な音声特徴量を用いて精度よく発話区間を検出するVAD技術が開発されている。
発話区間を検出する従来技術の具体例として、単一のマイクロホンからの観測信号に任意の窓幅の短時間フーリエ変換を施し、時間周波数表現x(f,t)を得る技術がある(例えば、非特許文献1を参照。)。また、周波数f毎にノイズパワーの推定値λ(f)を、例えば最初の何秒間は発話がないと仮定して得る。そして、時間周波数毎に事後S/N比であるγ(f,t)を下記の(式1)を用いて求める。
Figure 0006363987
次に、求めたγ(f,t)を用いて、以下の(式2)に従って、非線形変換を施した後に周波数で平均化した音声特徴量G(t)を求める。
Figure 0006363987
(式2)において、Fは考慮する周波数の集合であり、|F|は集合Fの要素の数である。このように計算した音声特徴量G(t)が閾値ηより大きければ、時間tのフレームは発話区間であると判定され、小さければ非発話区間であると判定される。
また、参加者毎に装着したピンマイクから同様に音声特徴量G(t)を算出して、発話区間を検出する技術もある(例えば、非特許文献2を参照。)。
J. Sohn et al. "A Statistical Model-Based Voice Activity Detection," Signal Processing Letters, IEEE (Volume:6, Issue:1), pp.1-3, Jan.1999 澤田 宏、外4名、"多人数多マイクでの発話区間検出〜ピンマイクでの事例〜"、日本音響学会 春季研究発表会、pp.679−680、2007年3月
しかしながら、上述したように、音信号に対して窓幅を設定して音声特徴量を算出する方法では、発話が開始されてから、窓幅に相当する時間が経過するまで音声特徴量を算出することができない。このため、発話区間における正確な発話開始を検出することは難しく、発話開始の検出精度が良くないという問題があった。また、発話の始めは、フィラーであったり、声が小さかったりする傾向がある。そのような傾向の影響により、さらに、発話開始の検出精度が低下するという問題があった。ここで、フィラーとは、言い淀み時などに出現する場つなぎのための発声であり、例えば、「あのー」、「そのー」、「えっと」、等の音声である。
上記事情に鑑み、本発明は、音声信号に基づいて、より精度良く発話開始を検出することができる音声処理システム、音声処理装置および音声処理プログラムを提供することを目的としている。
本発明の一態様は、会話に参加する複数の参加者の音声を含む音を集音して第1の音信号を出力する集音部と、前記集音部が出力する前記第1の音信号に基づいて、前記参加者毎に前記参加者が発話していることを特定するための特徴量を生成する特徴量生成部と、前記参加者の呼吸に関する情報である呼吸情報、前記参加者の頭部の動きに関する情報である頭部情報および前記参加者が注視している対象に関する情報である注視対象情報の少なくとも一つに基づいて、前記参加者の中で次の話者となる参加者である次話者を推定した次話者情報を出力する次話者推定部と、前記特徴量生成部が生成した前記特徴量と、前記次話者推定部が出力した前記次話者情報とに基づいて、前記参加者が発話している時間帯を示す第1の発話区間を検出する発話区間検出部と、を備える音声処理システムである。
本発明の一態様は、前記の音声処理システムであって、前記次話者情報とは、前記参加者のいずれか一人の発話が終了した後において前記参加者が前記次話者となる確率を示す情報である。
本発明の一態様は、前記の音声処理システムであって、前記発話区間検出部は、閾値に基づいて前記参加者の前記特徴量を判断して前記第1の発話区間を検出し、前記次話者情報に含まれる前記次話者となる確率が高いほど前記第1の発話区間が検出されやすくなるよう前記閾値又は前記特徴量を変更する。
本発明の一態様は、前記の音声処理システムであって、前記参加者の内の少なくとも1人は遠隔地にいる場合に、遠隔地にいる前記参加者の音声を含む第2の音信号および前記第2の音信号の第2の発話区間に関する情報である発話区間情報を受信する受信部と、前記集音部が集音した前記第1の音信号および前記受信部が受信した前記第2の音信号に応じて発音する発音部と、前記発話区間検出部が検出した前記第1の発話区間または前記発話区間情報で特定される前記第2の発話区間に基づいて、前記第1の音信号および前記第2の音信号に応じた前記発音部での発音を制御する制御部と、をさらに備える。
本発明の一態様は、前記の音声処理システムであって、前記参加者の内の少なくとも1人は遠隔地にいる場合に、遠隔地にいる前記参加者の音声を含む第2の音信号および前記第2の音信号の第2の発話区間に関する情報である発話区間情報を受信する受信部と、前記集音部が集音した前記第1の音信号または前記受信部が受信した前記第2の音信号に応じて発音する発音部と、前記発話区間検出部が検出した前記第1の発話区間及び前記発話区間情報で特定される前記第2の発話区間と前記次話者情報とに基づいて、前記第1の音信号または前記第2の音信号のいずれかに応じて発音を行うよう前記発音部を制御する制御部と、をさらに備える。
本発明の一態様は、会話に参加する複数の参加者の音声を含む音を集音して第1の音信号を出力する集音部からの前記第1の音信号が入力される入力部と、前記入力部に入力された前記第1の音信号に基づいて、前記参加者毎に前記参加者が発話していることを特定するための特徴量を生成する特徴量生成部と、前記参加者の呼吸に関する情報である呼吸情報、前記参加者の頭部の動きに関する情報である頭部情報および前記参加者が注視している対象に関する情報である注視対象情報の少なくとも一つに基づいて、前記参加者の中で次の話者となる参加者である次話者を推定した次話者情報を出力する次話者推定部と、前記特徴量生成部が生成した前記特徴量と、前記次話者推定部が出力した前記次話者情報とに基づいて、前記参加者が発話している時間帯を示す第1の発話区間を検出する発話区間検出部と、を備える音声処理装置である。
本発明の一態様は、会話に参加する複数の参加者の音声を含む音を集音して第1の音信号を出力する集音部に接続された音声処理装置で実行される音声処理プログラムであって、前記集音部からの前記第1の音信号を入力する入力ステップと、前記入力ステップにおいて入力された前記第1の音信号に基づいて、前記参加者毎に前記参加者が発話していることを特定するための特徴量を生成する特徴量生成ステップと、前記参加者の呼吸に関する情報である呼吸情報、前記参加者の頭部の動きに関する情報である頭部情報および前記参加者が注視している対象に関する情報である注視対象情報の少なくとも一つに基づいて、前記参加者の中で次の話者となる参加者である次話者を推定した次話者情報を出力する次話者推定ステップと、前記特徴量生成ステップにおいて生成した前記特徴量と、前記次話者推定ステップにおいて出力した前記次話者情報とに基づいて、前記参加者が発話している時間帯を示す第1の発話区間を検出する発話区間検出ステップと、をコンピュータに実行させるための音声処理プログラムである。
本発明により、音声信号に基づいて、より精度良く発話開始を検出することができる。
第1の実施形態における複数のテレビ会議システムを含む通信システムの全体構成の概略を示す図である。 第1の実施形態におけるテレビ会議システム1の詳細な構成例を示す図である。 第1の実施形態における次話者確率Pns (t)の算出例を示す図である。 第1の実施形態におけるテレビ会議システム1の動作を示すフロー図である。 第2の実施形態におけるテレビ会議システム1aの構成例を示す図である。 第2の実施形態におけるテレビ会議システム1aの動作を示すフロー図である。 息の吸い込み区間の例を示す図である。 注視対象ラベルの具体例を示す図である。 話者である参加者P1(R=S)の注視対象ラベルL1についての時間構造情報を示す図である。
以下、図面を参照して、本発明の実施形態について説明する。
(第1の実施形態)
図1は、第1の実施形態における複数のテレビ会議システム(音声処理システム)を含む通信システムの全体構成の概略を示す図である。
図1に示すように、テレビ会議システム1−1、1−2、1−3、…は、専用通信網またはインターネット等であるネットワーク13を介して接続されている。各テレビ会議システム1−1、1−2、1−3、…は、それぞれテレビ会議端末(音声処理装置)10−1、10−2、10−3、…と、各テレビ会議端末10−1、10−2、10−3、…に接続されている参加者の声を集音するためのマイク(集音部)11−1、11−2、11−3、…と、各テレビ会議端末10−1、10−2、10−3、…に接続されている参加者を撮影するためのカメラ12−1、12−2、12−3、…とを備える。
以下の説明において、テレビ会議システム1−1、1−2、1−3、…内のいずれかのテレビ会議システム、テレビ会議端末10−1、10−2、10−3、…内のいずれかのテレビ会議端末、マイク11−1、11−2、11−3、…内のいずれかのマイク、カメラ12−1、12−2、12−3、…内のいずれかのカメラを特に区別する必要がない場合は、単に、テレビ会議システム1、テレビ会議端末10、マイク11、カメラ12と称する。
テレビ会議システム1は、各テレビ会議端末10の前に座っているテレビ会議の参加者の映像および音声を他のテレビ会議端末10と送受信して、複数の参加者がテレビ会議を行うことができる環境を提供するシステムである。テレビ会議端末10は、カメラ12で撮影した参加者の映像信号と、マイク11で集音した参加者の音声信号とを、ネットワーク13を介して、他のテレビ会議端末10へ送信する機能を有する。テレビ会議端末10は、他のテレビ会議端末10から他のテレビ会議端末10の前に座っている参加者の映像信号および音声信号を受信する機能を有する。1台のテレビ会議端末10の前には、1人または複数人の参加者が座っている。複数人の参加者がいる場合は、その人数分のマイク11が設置されており、各参加者の音声が各マイク11に入力される。
テレビ会議端末10は、マイク11からの音声信号を含む音信号(以下の説明では単に音声信号という)が入力される音声入力部101と、カメラ12からの映像信号が入力される映像入力部102と、映像入力部102に入力された映像信号および他のテレビ会議端末10から受信した映像信号を合成して表示する液晶ディスプレイ等の表示部103と、他のテレビ会議端末10から受信した音声信号に基づいた音声を出力するスピーカ(発音部)104とを備える。
以上の構成により、テレビ会議システム1は、複数の参加者がお互いに発話する映像および音声を確認することができるテレビ会議可能な環境を提供する。また、本実施形態のテレビ会議システム1は、テレビ会議に参加している参加者の中から次に話を行う次話者を推定する機能と、音声信号から発話区間を自動で検出するVAD(Voice Activity Detection)機能とを有し、推定した次話者の情報に基づいて精度良く発話区間を検出することを特徴としている。以下、テレビ会議システム1の特徴となる構成例の詳細について説明する。
図2は、第1の実施形態におけるテレビ会議システム1の詳細な構成例を示す図である。図2に示すように、テレビ会議システム1は、テレビ会議端末10と、マイク11と、カメラ12と、呼吸動作計測装置14と、注視対象検出装置15と、頭部動作計測装置16とを備える。テレビ会議端末10は、テレビ会議の各参加者に装着された呼吸動作計測装置14および注視対象検出装置15から、それぞれ呼吸情報および注視対象情報を受信する機能を有する。呼吸動作計測装置14は、参加者の呼吸動作を計測し、各離散時刻tでの計測結果を表す呼吸情報を出力する装置であり、その詳細については後述する。注視対象検出装置15は、参加者の視線を検出し、各離散時刻tでの参加者が注視している対象に関する情報である注視対象情報を出力する装置であり、その詳細については後述する。頭部動作計測装置16は、参加者の頭部の動きを計測し、各離散時刻tでの計測結果を表す頭部動作情報を出力する装置であり、その詳細については後述する。
テレビ会議端末10は、音声入力部101と、映像入力部102と、特徴量生成部105と、次話者推定部106と、発話区間検出部107と、通信部108と、出力処理部109と、記録部110とを備える。なお、図2においては、図1に示した表示部103およびスピーカ104を示していないが、図2のテレビ会議端末10においても、表示部103およびスピーカ104を備えている。
音声入力部101は、マイク11からの音声信号を入力とし、特徴量生成部105、次話者推定部106および出力処理部109へ音声信号を出力する。音声入力部101は、マイク11からの音声信号を、テレビ会議端末10内で処理可能な信号形式の音声信号に変換する等の処理を行う。映像入力部102は、カメラ12からの映像信号を入力とし、次話者推定部106および出力処理部109へ映像信号を出力する。映像入力部102は、カメラ12からの映像信号を、テレビ会議端末10内で処理可能な信号形式の映像信号に変換する等の処理を行う。
特徴量生成部105は、音声入力部101からの音声信号を入力とし、その音声信号に基づいて発話区間を検出するための音声特徴量を生成し、出力する。特徴量生成部105は、例えば、音声入力部101からの音声信号に基づいて、従来技術として記載したように(式1)および(式2)を利用して参加者i毎の音声特徴量G(t)を生成し、発話区間検出部107へ出力する。
次話者推定部106は、音声入力部101からの音声信号と、映像入力部102からの映像信号と、呼吸動作計測装置14からの呼吸情報と、注視対象検出装置15からの注視対象情報と、頭部動作計測装置16からの頭部動作情報とを入力とし、各参加者が時刻tに次話者となる確率である次話者確率を出力する。次話者推定部106は、音声入力部101からの音声信号、映像入力部102からの映像信号、呼吸動作計測装置14からの呼吸情報、注視対象検出装置15からの注視対象情報および頭部動作計測装置16からの頭部動作情報に基づいて、各参加者iが時刻tに次話者となる確率である次話者確率Pns (t)を算出して、発話区間検出部107へ出力する。
図3は、第1の実施形態における次話者確率Pns (t)の算出例を示す図である。図3においては、4名の参加者A〜Dについて参加者Aの発話の切れ目となる時刻tbue以降における次話者確率Pns (t)の変化例を示している。符号31を付与した矩形は、参加者Aの発話区間を示している。発話区間31は、発話終了時刻tbueで終了している。次話者確率Pns (t)32で示す点線は、参加者Aにおける発話終了時刻tbue以降の時刻tにおける次話者確率の変化を示している。次話者確率Pns (t)33で示す点線は、参加者Bにおける発話終了時刻tbue以降の時刻tにおける次話者確率の変化を示している。次話者確率Pns (t)34で示す点線は、参加者Cにおける発話終了時刻tbue以降の時刻tにおける次話者確率の変化を示している。次話者確率Pns (t)35で示す点線は、参加者Dにおける発話終了時刻tbue以降の時刻tにおける次話者確率の変化を示している。このように、次話者推定部106は、参加者iの発話終了時刻tbue以降の時刻tにおける次話者確率Pns (t)の変化を算出する。なお、次話者推定部106における次話者の推定処理の詳細については後述する。
発話区間検出部107は、特徴量生成部105からの音声特徴量G(t)と、次話者推定部106からの次話者確率Pns (t)とを入力とし、発話区間および非発話区間に関する情報を出力する。発話区間検出部107は、特徴量生成部105からの音声特徴量G(t)と、次話者推定部106からの次話者確率Pns (t)とに基づいて、次話者と推定される確率の高い参加者の音声特徴量に対してより感度良く発話区間を検出し、発話区間に関する情報(発話区間情報)を出力処理部109へ出力する。次話者と推定される確率の高い参加者の音声特徴量に対してより感度良く発話区間を検出する構成とは、その参加者iが次話者と推定される確率が高い程、同じ音声特徴量であっても発話区間として検出されやすくなる構成である。
発話区間検出部107は、例えば、音声特徴量G(t)と次話者確率Pns (t)とに基づいて以下の(式3)によって発話期待値Pns’ (t)を求める。
Figure 0006363987
発話区間検出部107は、(式3)により求めた発話期待値Pns’ (t)が、予め設定した閾値ηを超えた場合に時刻tを参加者iの発話区間として検出する。このように、発話区間検出部107は、音声特徴量G(t)と、次話者確率Pns (t)とに基づいて、次話者と推定される確率の高い参加者の音声特徴量に対して、より感度良く発話区間を検出する。
なお、上述した(式3)の右辺において、発話期待値Pns’ (t)の大きさを閾値ηとの比較に適した大きさとするための係数を加減算したり乗除算したりするようにしてもよい。また、発話区間検出部107は、発話期待値Pns’ (t)を求めて閾値ηと比較する構成としたが、この構成に限るものではなく、音声特徴量G(t)と、次話者確率Pns (t)に応じて変化させた閾値ηとを比較する構成としてもよい。この構成では、発話区間検出部107は、次話者確率Pns (t)の値が大きいほど、閾値ηの値を小さくする。このように、発話区間検出部107は、閾値ηに基づいて音声特徴量を判断することで発話区間を検出する。発話区間検出部107は、次話者確率が高いほど発話区間が検出されやすくなるよう閾値η又は音声特徴量を変更する。これにより、次話者と推定される確率の高い参加者の音声特徴量に対してより感度良く発話区間を検出することができる。なお、閾値ηに基づいて音声特徴量を判断するとは、上述したように閾値η固定で、次話者確率に応じて音声特徴量を変化させた発話期待値と閾値ηとを比較して判断する処理及び閾値ηを次話者確率に応じて変化させて、音声特徴量と閾値ηとを比較して判断する処理を含む。
通信部108は、他のテレビ会議端末10とネットワーク13を介して通信を行う。通信部108は、他のテレビ会議端末10から他のテレビ会議端末10に接続されたマイク11で集音された音声信号および他のテレビ会議端末10に接続されたカメラ12で撮影された映像信号を受信する。通信部108は、マイク11で集音された音声信号が音声入力部101および出力処理部109を介して入力され、カメラ12で撮影された映像信号が映像入力部102および出力処理部109を介して入力され、入力された音声信号および映像信号を所定の信号形式でネットワーク13へ出力する。また、通信部108は、音声信号に関連付けて発話区間に関する情報を、他のテレビ会議端末10と送受信するようにしてもよい。
出力処理部109は、音声入力部101からの音声信号と、映像入力部102からの映像信号と、発話区間検出部107からの発話区間情報と、通信部108からの他のテレビ会議端末10から受信した音声信号および発話区間情報とを入力とし、発話区間情報を関連付けた各参加者の音声信号を所定のデータ形式で記録部110に音声議事録データとして記録するよう処理する。この際に、出力処理部109は、発話区間のみの音声信号を音声議事録データとして記録部110に記録することで、記録容量を節約してもよい。なお、出力処理部109は、必要とあれば映像入力部102からの映像信号および通信部108からの他のテレビ会議端末10から受信した映像信号を記録部110に記録させてもよい。
記録部110は、録音日時に関連付けて、音声信号および発話区間情報を音声議事録データとして記録するデータベースである。以上の構成により、第1の実施形態におけるテレビ会議端末10は、次話者と推定される確率の高い参加者の音声特徴量に対してより感度良く発話区間を検出することで、より精度良く発話開始を検出することができる。これにより、参加者の話始めが、フィラーであったり、声が小さかったりしても、精度よく発話開始を検出することができる。
なお、テレビ会議システムにおいて一般的な技術であり、かつ、図が複雑になるのを防ぐため図2には示していないが、テレビ会議端末10は、映像入力部102からの映像信号および通信部108が他のテレビ会議端末10から受信した映像信号を合成または切替えて表示部103に表示する機能を有する。さらに、テレビ会議端末10は、音声入力部101からの音声信号および通信部108が他のテレビ会議端末10から受信した音声信号を合成または切替えてスピーカ104へ出力する機能を有する。
第1の実施形態におけるテレビ会議システム1は、テレビ会議端末10が表示部103およびスピーカ104を備える構成としたが、これに限定されるものではない。テレビ会議端末10は、表示部103およびスピーカ104を備えず、表示部とスピーカを有する表示装置と接続する構成であってもよい。また、テレビ会議端末10は、マイク11およびカメラ12を備える構成であってもよい。第1の実施形態におけるテレビ会議システム1は、一般的なテレビ会議システムが具備している機能(スピーカの音量の調整機能や、画面の切り替え機能等)を備えていてもよい。
次に、第1の実施形態におけるテレビ会議システム1の動作について説明する。
図4は、第1の実施形態におけるテレビ会議システム1の動作を示すフロー図である。図4において、参加者が各テレビ会議システム1の各装置(テレビ会議端末10等)の電源を入れる等を行うことにより、各テレビ会議システム1の各装置が起動する(ステップS101)。
テレビ会議システム1のテレビ会議端末10は、音声入力部101における音声信号の入力および映像入力部102における映像信号の入力と、通信部108における他のテレビ会議端末10からの音声信号および映像信号の受信とを行う(ステップS102)。特徴量生成部105は、音声入力部101からの音声信号に基づいて、発話区間を検出するための参加者i毎の音声特徴量G(t)を生成する(ステップS103)。
次話者推定部106は、音声入力部101からの音声信号、映像入力部102からの映像信号、呼吸動作計測装置14からの呼吸情報、注視対象検出装置15からの注視対象情報および頭部動作計測装置16からの頭部動作情報に基づいて、各参加者iが時刻tに次話者となる確率である次話者確率Pns (t)を算出する(ステップS104)。発話区間検出部107は、特徴量生成部105からの音声特徴量G(t)と、次話者推定部106からの次話者確率Pns (t)とに基づいて、次話者と推定される確率の高い参加者の発話区間を検出する(ステップS105)。
出力処理部109は、音声入力部101からの音声信号と、発話区間検出部107からの発話区間情報と、通信部108からの他のテレビ会議端末10から受信した音声信号および発話区間情報とに基づいて、発話区間情報を関連付けた各参加者の音声信号を所定のデータ形式で記録部110に音声議事録データとして記録するよう処理する(ステップS106)。
次に、参加者が各テレビ会議システム1の各装置(テレビ会議端末10等)の電源を切る等を行うことにより、各テレビ会議システム1の各装置は、動作を終了するか否かを判断する(ステップS107)。ここで動作を終了すると判断した場合には(ステップS107のYES)、各テレビ会議システム1の各装置が電源オフしてテレビ会議システム1の動作が終了する。ここで動作を終了しないと判断した場合には(ステップS107のNO)、各テレビ会議システム1は、ステップS102の処理に移行する。
以上に説明した動作により、テレビ会議システム1は、次話者と推定される確率の高い参加者の発話区間を感度良く検出することができ、発話開始の検出精度をより良いものとすることができる。また、テレビ会議システム1は、次話者と推定される確率の低い参加者の発話を発話区間として検出する感度を低くすることができるので、参加者の会議に関係のない独り言等の発言を発話区間として検出することを防ぐことができる。また、次話者推定部106は、参加者の呼吸、視線及び頭部動作等の非言語行動に基づいて次話者確率Pns (t)を算出している。すなわち、次話者推定部106は、次話者確率Pns (t)を算出する際に、参加者の発話内容を解析等して参加者の言語行動に関する情報を取得する必要はない。
なお、テレビ会議端末10の前に複数の参加者がいて、発話区間が検出された参加者をズームアップした画像を出力するようカメラ12または出力処理部109を制御する場合には、発話区間を検出する際に、誰が発話を行ったのかを特定する話者特定を行う必要がある。従来のように発話区間を検出した際の発話開始の検出精度が良くないと、話者が発話を開始したタイミングで、話者を特定することは困難であった。しかし、第1の実施形態におけるテレビ会議システム1では、次話者が発話を開始する前に次話者を推定することができるので、次話者として発話を開始した参加者のズームアップした画像を、発話開始のタイミングで出力するようカメラ12または出力処理部109を制御することができる。なお、図4において、ステップS103の処理とステップS104の処理とは、その処理順序を逆としてもよいし、同じタイミングの処理としてもよい。
(第2の実施形態)
第2の実施形態におけるテレビ会議システム(音声処理システム)1aの構成例について説明する。第2の実施形態におけるテレビ会議システム1aは、発話区間が検出された参加者のマイク11からの音声信号のみをスピーカ104から出力することができる。
図5は、第2の実施形態におけるテレビ会議システム1aの構成例を示す図である。図5に示すとおり、第2の実施形態におけるテレビ会議システム1aは、図2に示した第1の実施形態におけるテレビ会議システム1とほぼ同じ構成であり、図2と同じ構成については同じ符号を付与しており、その説明を省略する。なお、複数のテレビ会議システム1aを含む通信システムの全体構成は、図1と同様の構成である。
テレビ会議システム1aは、テレビ会議端末10aと、マイク11と、カメラ12と、呼吸動作計測装置14と、注視対象検出装置15と、頭部動作計測装置16とを備える。テレビ会議端末10aは、音声入力部101と、映像入力部102と、表示部103と、スピーカ104と、特徴量生成部105と、次話者推定部106と、発話区間検出部107と、通信部108と、出力処理部(制御部)109aとを備える。
出力処理部109aは、音声入力部101からの音声信号と、映像入力部102からの映像信号と、発話区間検出部107からの発話区間情報と、通信部108からの他のテレビ会議端末10から受信した音声信号および発話区間情報とを入力とし、発話区間が検出された各参加者の音声信号をスピーカ104へ出力する。出力処理部109aは、音声入力部101からの音声信号と、発話区間検出部107からの発話区間情報および通信部108が受信した発話区間情報とに基づいて、発話区間が検出された各参加者の音声信号をスピーカ104へ出力する。また、出力処理部109aは、発話区間が検出された各参加者の映像信号を合成して、表示部103へ出力するようにしてもよい。
次に、第2の実施形態におけるテレビ会議システム1aの動作について説明する。
図6は、第2の実施形態におけるテレビ会議システム1aの動作を示すフロー図である。図6に示すとおりステップS101〜S105、S107は、図4に示した第1の実施形態におけるテレビ会議システム1の動作と同じ処理であり、その説明を省略する。
ステップS105の次に、出力処理部109aは、発話区間検出部107において発話区間が検出された各参加者の音声信号をスピーカ104へ出力する(ステップS108)。また、出力処理部109aは、発話区間検出部107において発話区間が検出されていない各参加者の音声信号をスピーカ104へ出力しない。ステップS108の次は、ステップS107へ進む。
以上に説明したように、第2の実施形態におけるテレビ会議システム1aは、マイク11からの音声信号をスピーカ104から出力するか否かを発話区間の検出に応じて自動で制御することができる。これにより、従来はテレビ会議の参加者は自分の発話に応じて手動でマイクのオン/オフを行っていたが、第2の実施形態におけるテレビ会議システム1aは、これと同等の機能を自動で実現することができる。なお、第2の実施形態におけるテレビ会議システム1aは、検出された発話区間に応じてスピーカ104へ出力する音声信号を制御したが、検出された発話区間に応じてマイク11自体のオン/オフを制御する構成としてもよい。
(第2の実施形態の変形例1)
第2の実施形態におけるテレビ会議システム1aは、発話区間検出部107において発話区間が検出された各参加者の音声信号をスピーカ104へ出力する構成としたが、これに限られるものではない。テレビ会議システム1aは、発話区間検出部107において発話区間が検出された各参加者のうち、発話期待値Pns’ (t)が最大の参加者の音声信号のみをスピーカ104へ出力する構成としてもよい。これにより、テレビ会議システム1aは、発話区間検出部107において発話区間が検出された各参加者のうち発話を行うのが最もふさわしい参加者の音声信号をスピーカ104から出力することができる。特定の参加者のみ発話がスピーカ104から出力されるよう制御することで、複数人が同時に発話してしまう発話衝突を回避し、テレビ会議における参加者の会話の流れを良くすることができる。
なお、発話を行うのが最もふさわしい参加者を特定する方法は、発話期待値Pns’ (t)が最大の参加者を選択する方法の他に、次話者確率Pns (t)が最大の参加者を選択する等、次話者確率Pns (t)を用いた方法であってもよい。また、テレビ会議システム1aの参加者が、発話衝突を回避するよりも、所定数までの参加者の発話を同時にスピーカ104から発音させたいと考える場合がある。この場合には、テレビ会議システム1aは、例えば、発話期待値Pns’ (t)が最大の参加者の音声信号と、最大の発話期待値Pns’ (t)と同等の大きさの発話期待値Pns’ (t)を有する他の参加者の音声信号とをスピーカ104から出力する構成であってもよい。
(第2の実施形態の変形例2)
上述した第2の実施形態におけるテレビ会議システム1aは、検出した発話区間に応じてスピーカ104に入力する音声信号を制御したが、検出した発話区間に応じて音声信号の伝送処理を制御してもよい。例えば、音声信号の伝送処理の制御を行う技術として参考文献1に記載の技術がある。
参考文献1:特開2005−229259号公報
この参考文献1には、音声区間を判別して音声区間を含む音声信号を優先的に伝送する技術が開示されている。この参考文献1における音声区間の判別に、第2の実施形態における発話区間検出部107による発話区間の検出を利用することで、より精度の高い発話区間の検出に基づいて音声区間(発話区間)を含む音声信号を優先的に伝送することができる。
(第1、第2の実施形態に共通の次話者を推定する処理の具体例)
次に、上述した第1の実施形態におけるテレビ会議システム1および第2の実施形態におけるテレビ会議システム1aに共通である次話者を推定する処理の具体例について説明する。テレビ会議システム1およびテレビ会議システム1aにおける次話者推定には、例えば、以下の参考文献2、3の技術などを適用することができるが、任意の既存の技術を利用してもよい。参考文献2、3記載の技術を利用した場合は、注視対象検出装置15が出力する注視対象情報に基づく発話者と非発話者の注視行動の遷移パターンを用いて、次話者推定部106は、次発話者および発話のタイミングを予測する。
参考文献2:特開2014−238525号公報
参考文献3:石井亮、外4名、“複数人対話における注視遷移パターンに基づく次話者と発話タイミングの予測”、人工知能学会研究会資料、SIG-SLUD-B301-06、pp.27-34、2013年
以下に、本実施形態に適用可能な参考文献2、3以外の次話者推定技術の例を示す。
会話の参加者の呼吸動作は次発話者と発話のタイミングに深い関連性がある。このことを利用して、会話の参加者の呼吸動作をリアルタイムに計測し、計測された呼吸動作から発話の開始直前に行われる特徴的な呼吸動作を検出し、この呼吸動作を基に次発話者とその発話タイミングを高精度に算出する。具体的には、発話開始直前におこなわれる呼吸動作の特徴として、発話を行っている発話者は、継続して発話する際(発話者継続時)には、発話終了直後にすぐに急激に息を吸い込む。逆に発話者が次に発話を行わない際(発話者交替時)には、発話者継続時に比べて、発話終了時から間を空けて、ゆっくりと息を吸い込む。また、発話者交替時に、次に発話をおこなう次発話者は、発話を行わない非発話者に比べて大きく息を吸い込む。このような発話の前におこなわれる呼吸は、発話開始に対しておおよそ決められたタイミングで行われる。このように、発話の直前に次発話者は特徴的な息の吸い込みを行うため、このような息の吸い込みの情報は、次発話者とその発話タイミングを予測するのに有用である。本次話者推定技術では、人物の息の吸い込みに着目し、息の吸い込み量や吸い込み区間の長さ、タイミングなどの情報を用いて、次発話者と発話タイミングを予測する。
以下では、A人の参加者P,…,Pが対面コミュニケーションを行う状況を想定する。参加者P(ただし、a=1,…,A、A≧2)には呼吸動作計測装置14およびマイク11が装着される。呼吸動作計測装置14は、参加者Pの呼吸動作を計測し、各離散時刻tでの計測結果を表す呼吸情報Ba,tを得て、次話者推定部106に出力する。呼吸動作計測装置14が、バンド式の呼吸装置を備える構成について説明する。バンド式の呼吸装置は、バンドの伸縮の強さによって呼吸の深さの度合いを示す値を出力する。息の吸い込みが大きいほどバンドの伸びが大きくなり、逆に息の吐き出しが大きいほどバンドの縮みが大きくなる(バンドの伸びが小さくなる)。以降、この値をRSP値と呼ぶ。なお、RSP値は、バンドの伸縮の強さに応じて参加者Pごとに異なる大きさを取る。そこで、これに起因するPごとのRSP値の相違を排除するために、各参加者PのRSP値の平均値μと標準偏差値δを用いて、μが1、μ−δが−1になるように参加者PごとにRSP値を正規化する。これによって、すべての参加者Pの呼吸動作データを同一に分析することが可能となる。各呼吸動作計測装置14は、正規化されたRSP値を呼吸情報Ba,tとして次話者推定部106に送る。
さらに、マイク11は、参加者Pの音声を取得し、各離散時刻tでの参加者Pの音声を表す音声信号Va,tを得て、次話者推定部106に出力する。次話者推定部106は、入力された音声信号Va,t(ただし、a=1,…,A)から雑音を除去し、さらに発話区間U(ただし、kは発話区間Uの識別子)とその発話者Pukとを抽出する。ただし、「Puk」の下付き添え字はu=1,…,Aを表す。1つの発話区間UをTd[ms]連続した無音区間で囲まれた区間と定義し、この発話区間Uを発話の一つの単位と規定する。これにより、次話者推定部106は、各発話区間Uを表す発話区間情報、およびその発話者Pukを表す発話者情報(参加者P,…,Pのうち何れが発話区間Uでの発話者Pukであるかを表す発話者情報)を得る。
次話者推定部106は、各参加者Pの呼吸情報Ba,tを用いて、各参加者Pの息の吸い込み区間Ia,kを抽出し、さらに息の吸い込みに関するパラメータλa,kを取得する。息の吸い込み区間とは、息を吐いている状態から、息を吸い込みだす開始位置と、息を吸い込み終わる終了位置との間の区間を示す。
図7は、息の吸い込み区間の例を示す図である。図7を用いて、息の吸い込み区間Ia,kの算出方法を例示する。ここで参加者Pの離散時刻tでのRSP値をRa,tと表記する。RSP値Ra,tは呼吸情報Ba,tに相当する。図7に例示するように、例えば、以下の(式4)が成り立つとき、
Figure 0006363987
離散時刻t=ts(k)の前2フレームでRSP値Ra,tが連続して減少し、その後2フレームでRSP値Ra,tが連続して上昇しているから、離散時刻ts(k)を息の吸い込みの開始位置とする。さらに、以下の(式5)が成り立つとき、
Figure 0006363987
離散時刻t=te(k)の前2フレームのRSP値Ra,tが連続して上昇し、その後2フレームのRSP値Ra,tが連続して減少しているから、離散時刻te(k)を息の吸い込みの終了位置とする。このとき、参加者Pの息の吸い込み区間Ia,kはts(k)からte(k)までの区間となり、息の吸い込み区間の長さはte(k)−ts(k)となる。
次話者推定部106は、息の吸い込み区間Ia,kが抽出されると、息の吸い込み区間Ia,k、呼吸情報Ba,t、および発話区間Uの少なくとも一部を用い、息の吸い込みに関するパラメータλ’a,kを抽出する。パラメータλ’a,kは、参加者Pの吸い込み区間Ia,kでの息の吸い込みの量、吸い込み区間Ia,kの長さ、吸い込み区間Ia,kでの息の吸い込み量の時間変化、および発話区間Uと吸い込み区間Ia,kとの時間関係の少なくとも一部を表す。パラメータλ’a,kは、これらの一つのみを表してもよいし、これらのうち複数を表してもよいし、これらすべてを表してもよい。パラメータλ’a,kは、例えば以下のパラメータMINa,k,MAXa,k,AMPa,k,DURa,k,SLOa,k,INT1a,kの少なくとも一部を含む。パラメータλ’a,kは、これらの1つのみを含んでいてもよいし、これらのうち複数を含んでいてもよいし、これらのすべてを含んでいてもよい。
・MINa,k:参加者Pの息の吸い込み開始時のRSP値Ra,t、すなわち、息の吸い込み区間Ia,kのRSP値Ra,tの最小値。
・MAXa,k:参加者Pの息の吸い込み終了時のRSP値Ra,t、すなわち、息の吸い込み区間Ia,kのRSP値Ra,tの最大値。
・AMPa,k:参加者Pの息の吸い込み区間Ia,kのRSP値Ra,tの振幅、すなわち、MAXa,k−MINa,kで算出される値。吸い込み区間Ia,kでの息の吸い込み量を表す。
・DURa,k:参加者Pの息の吸い込み区間Ia,kの長さ、すなわち、息の吸い込み区間Ia,kの終了位置の離散時刻te(k)から開始位置の離散時刻ts(k)を減じて得られる値te(k)−ts(k)
・SLOa,k:参加者Pの息の吸い込み区間Ia,kにおけるRSP値Ra,tの単位時間当たりの傾きの平均値、すなわち、AMPa,k/DURa,kで算出される値。吸い込み区間Ia,kでの息の吸い込み量の時間変化を表す。
・INT1a,k:手前の発話区間Uの終了時刻tue(k)(発話区間末)から参加者Pの息の吸い込みが開始されるまでの間隔、すなわち、息の吸い込み区間Ia,kの開始位置の離散時刻ts(k)から発話区間Uの終了時刻tue(k)を減じて得られる値ts(k)−tue(k)。発話区間Uと吸い込み区間Ia,kとの時間関係を表す。
次話者推定部106は、さらに以下のパラメータINT2a,kを生成してもよい。
・INT2a,k:参加者Pの息の吸い込み終了時から次発話者の発話区間Uk+1が開始されるまでの間隔、すなわち、次発話者の発話区間Uk+1の開始時刻tus(k+1)から息の吸い込み区間Ia,kの終了位置の離散時刻te(k)を減じて得られる値tus(k+1)−te(k)。発話区間Uk+1と吸い込み区間Ia,kとの時間関係を表す。パラメータλ’a,kにINT2a,kを加えたものをパラメータλa,kと表記する。
次話者推定部106は、例えば発話区間Uk+1を表す情報が得られ、さらに、パラメータλa,kが得られた以降(発話区間Uk+1が開始された後)に、発話区間Uおよびその発話者Puk、発話区間Uk+1およびその発話者Puk+1とその発話開始タイミングTuk+1を表す情報とともにデータベースに記録する。次発話者Puk+1の発話タイミングとは、発話区間Uk+1の何れかの時点またはそれに対応する時点であればよい。発話タイミングTuk+1は、発話区間Uk+1の開始時刻tus(k+1)であってもよいし、時刻tus(k+1)+γ(ただし、γは正または負の定数)であってもよいし、発話区間Uk+1の終了時刻tue(k+1)であってもよいし、時刻tue(k+1)+γであってもよいし、発話区間Uk+1の中心時刻tus(k+1)+(tue(k+1)−tus(k+1))/2であってもよい。λa,k,U,Puk,Puk+1,Tuk+1を表す情報の一部またはすべてがデータベースに保持され、次話者推定部106が発話区間Uk+1よりも後の次発話者とその発話タイミングを予測するために使用される。
次話者推定部106は、発話者情報Puk、発話区間U、参加者Pの吸い込み区間Ia,kでの息の吸い込み量、吸い込み区間Ia,kの長さ、吸い込み区間Ia,kでの息の吸い込み量の時間変化、および発話区間Uと吸い込み区間Ia,kとの時間関係の少なくとも一部に基づき、参加者P,…,Pのうち何れが次発話者Puk+1であるか、および次発話者Puk+1の発話タイミングの少なくとも一方を表す推定情報を得る。ただし、「Puk+1」の下付き添え字「uk+1」はuk+1を表す。発話区間Uの発話者Pukが発話区間Uk+1でも発話を行う場合(発話継続する場合)、次発話者は発話区間Uの発話者Pukと同一である。一方、発話区間Uの発話者Puk以外の参加者が発話区間Uk+1でも発話を行う場合(すなわち発話交替する場合)、次発話者は発話区間Uの発話者Puk以外の参加者である。
次話者推定部106は、発話者情報Puk、発話区間U、参加者Pの吸い込み区間Ia,kでの息の吸い込み量、吸い込み区間Ia,kの長さ、吸い込み区間Ia,kでの息の吸い込み量の時間変化、および発話区間Uと吸い込み区間Ia,kとの時間関係の少なくとも一部に対応する特徴量fa,kに対する推定情報を得るためのモデルを機械学習し、このモデルを用いて特徴量に対する推定情報を得る。特徴量fa,kは、発話者情報Puk、発話区間U、参加者Pの吸い込み区間Ia,kでの息の吸い込み量、吸い込み区間Ia,kの長さ、吸い込み区間Ia,kでの息の吸い込み量の時間変化、および発話区間Uと吸い込み区間Ia,kとの時間関係の1つのみに対応してもよいし、これらのうち複数に対応してもよいし、すべてに対応してもよい。モデルの機械学習には、例えば、過去の吸い込み区間Ia,i(ただし、i<k)での息の吸い込み量、吸い込み区間Ia,iの長さ、吸い込み区間Ia,iでの息の吸い込み量の時間変化、および発話区間Uと吸い込み区間Ia,iとの時間関係の少なくとも一部に対応する特徴量fa,k、ならびに発話区間U,Ui+1およびそれらの発話者Puk,Puk+1の情報が学習データとして用いられる。
次話者推定部106による次発話者/発話タイミング推定処理を例示する。この例では、次発話者Puk+1を推定するモデルである次発話者推定モデルと、次発話者Puk+1の発話タイミングを推定するモデルである発話タイミング推定モデルとが生成され、それぞれのモデルを用いて次発話者Puk+1とその発話タイミングが推定される。
次発話者推定モデルを学習する場合、次話者推定部106は、学習データとして、データベースから過去のパラメータλa,i(ただし、a=1,…,Aであり、i<kである)の少なくとも一部、および発話区間U,Ui+1およびそれらの発話者Pui,Pui+1を表す情報を読み出す。次話者推定部106は、パラメータλa,iの少なくとも一部に対応する特徴量F1a,iおよびU,Ui+1,Pui,Pui+1を学習データとして、次発話者推定モデルを機械学習する。次発話者推定モデルには、例えば、SVM(Support Vector Machine)、GMM(Gaussian Mixture Model)、HMM(Hidden Markov Model)等を用いることができる。
次話者推定部106は、パラメータλ’a,kの少なくとも一部に対応する特徴量F1a,kを次発話者推定モデルに適用し、それによって推定された次発話Puk+1を表す情報を「推定情報」の一部とする。なお、次発話Puk+1を表す情報は、何れかの参加者Pを確定的に表すものであってもよいし、確率的に表すものであってもよい。参加者Pが次話者になる確率を、P1とする。
発話タイミング推定モデルを学習する場合、次話者推定部106は、学習データとして、データベースから過去のパラメータλa,i(ただし、a=1,…,Aであり、i<kである)の少なくとも一部、発話区間U,Ui+1およびそれらの発話者Pui,Pui+1、および発話区間Ui+1の発話開始タイミングTui+1を表す情報を読み出す。次話者推定部106は、パラメータλa,iの少なくとも一部に対応する特徴量F2a,iおよびU,Ui+1,Pui,Pui+1,Tui+1を学習データとして、発話タイミング推定モデルを機械学習する。次発話者推定モデルには、例えば、SVM、GMM、HMM等を用いることができる。
次話者推定部106は、発話者Puk、パラメータλ’a,kの少なくとも一部、および次発話者推定モデルにより推定された次発話者Puk+1が得られると、パラメータλ’a,kの少なくとも一部に対応する特徴量F2a,kを発話タイミング推定モデルに適用する。次話者推定部106は、特徴量F2a,kを発話タイミング推定モデルに適用して推定された次の発話区間Uk+1の発話タイミングTuk+1(例えば、発話区間Uk+1の開始時刻)を表す情報を「推定情報」の一部として出力する。なお、発話タイミングを表す情報は、何れかの発話タイミングを確定的に表すものであってもよいし、確率的に表すものであってもよい。参加者Pが時刻tに発話を開始する確率(時刻tが参加者Pの発話タイミングである確率)を、P2(t)とする。
上述した実施形態の次話者推定部106が推定する参加者iの時刻tにおける次話者確率Pns (t)は、参加者iが本次話者推定技術における参加者Pである場合、確率P1×確率P2(t)により算出される。
上述の次話者推定部106は、呼吸動作の観測値に基づいて次に発話を開始する参加者およびタイミングを推定しているが、さらに、視線の観測値を用いてもよい。
視線行動をさらに利用する場合、各参加者P(ただし、a=1,…,A)には注視対象検出装置15がさらに装着される。注視対象検出装置15は、参加者Pが誰を注視しているか(注視対象)を検出し、参加者Pおよび各離散時刻tでの注視対象Ga,tを表す情報を次話者推定部106に送る。次話者推定部106は、注視対象情報G1,t,…,GA,t、発話区間U、および話者情報Pukを入力とし、発話区間終了前後における注視対象ラベル情報θv,k(ただし、v=1,…,V、Vは注視対象ラベルの総数)を生成する。注視対象ラベル情報は、発話区間Uの終了時点Tseに対応する時間区間における参加者の注視対象を表す情報である。ここでは、終了時点Tseを含む有限の時間区間における参加者Pの注視対象をラベル付けした注視対象ラベル情報θv,kを例示する。この場合、例えば、発話区間Uの終了時点Tseよりも前の時点Tse−Tから終了時点Tseよりも後の時点Tse+Tまでの区間に出現した注視行動を扱う。T,Tは0以上の任意の値でよいが、目安として、Tは0秒〜2.0秒、Tは0秒〜3.0秒程度にするのが適当である。
次話者推定部106は、注視対象の参加者を以下のような種別に分類し、注視対象のラベリングを行う。なお、ラベルの記号に意味はなく、判別できればどのような表記でも構わない。
・ラベルS:話者(すなわち、話者である参加者Pukを表す)
・ラベルLξ:非話者(ただし、ξは互いに異なる非話者である参加者を識別し、ξ=1,…,A−1である。例えば、ある参加者が、非話者P、非話者P、の順に注視をしていたとき、非話者PにLというラベル、非話者PにLというラベルが割り当てられる。)
・ラベルX:誰も見ていない
ラベルがSまたはLξのときには、相互注視(視線交差)が起きたか否かという情報を付与する。本形態では、相互注視が起きた際には、S,LξM(下付き添え字の「ξM」はξを表す)のように、ラベルS,Lξの末尾にMラベルを付与する。
図8は、注視対象ラベルの具体例を示す図である。図8はA=4の例であり、発話区間U,Uk+1と各参加者の注視対象が時系列に示されている。図8の例では、参加者Pが発話した後、発話交替が起き、新たに参加者Pが発話をした際の様子を示している。ここでは、話者である参加者Pが参加者Pを注視した後、参加者Pを注視している。Tse−Tの時点からTse+Tの時点までの区間では、参加者Pが参加者Pを見ていたとき、参加者Pは参加者Pを見ている。これは、参加者Pと参加者Pとで相互注視が起きていることを表す。この場合、参加者Pの注視対象情報G1,tから生成される注視対象ラベルはLとL2Mの2つとなる。上述の区間では、参加者Pは参加者Pを注視した後、話者である参加者Pを注視している。この場合、参加者Pの注視対象ラベルはLとSの2つとなる。また、上述の区間では、参加者Pは話者である参加者Pを注視している。この場合、参加者Pの注視対象ラベルはSとなる。また、上述の区間では、参加者Pは誰も見ていない。この場合、参加者Pの注視対象ラベルはXとなる。したがって、図8の例では、V=6である。
次話者推定部106は、注視対象ラベルごとの開始時刻、終了時刻も取得する。ここで、誰(R∈{S,L})のどの注視対象ラベル(GL∈{S,S,L,L1M,L,L2M,…})であるかを示す記号としてRGL、その開始時刻をST_RGL、終了時刻をET_RGLと定義する。ただし、Rは参加者の発話状態(話者か非話者か)を表し、Sは話者、Lは非話者である。例えば、図8の例において、参加者Pの最初の注視対象ラベルはSL1であり、その開始時刻はST_SL1、終了時刻はET_SL1である。注視対象ラベル情報θv,kは注視対象ラベルRGL、開始時刻ST_RGL、および終了時刻ET_RGLを含む情報である。
次話者推定部106は、注視対象ラベル情報θv,kを用いて、各参加者Pの注視対象遷移パターンEa,kを生成する。注視対象遷移パターンの生成は、注視対象ラベルRGLを構成要素として、時間的な順序を考慮した遷移n−gramを生成して行う。ここで、nは正の整数である。例えば、図8の例を考えると、参加者P1の注視対象ラベルから生成される注視対象遷移パターンE1,kはL−L2Mである。同様にして、参加者Pの注視対象遷移パターンE2,kはL−S、参加者Pの注視対象遷移パターンE3,kはS、参加者Pの注視対象遷移パターンE4,kはXとなる。
注視対象遷移パターンEa,kは、例えば発話区間Uk+1が開始された後に、発話区間Uおよびその発話者Puk、発話区間Uk+1に該当する発話を行う次発話者Puk+1および次発話開始タイミングTuk+1を表す情報とともにデータベースに送られる。データベースでは、注視対象遷移パターンEa,kが、パラメータλa,kと併合され、Ea,k,λa,k,U,Puk,Puk+1,Tuk+1を表す情報の一部またはすべてがデータベースに保持される。
次話者推定部106は、注視対象ラベル情報θv,kを入力とし、注視対象ラベルごとの時間構造情報Θv,kを生成する。時間構造情報は参加者の視線行動の時間的な関係を表す情報であり、(1)注視対象ラベルの時間長、(2)注視対象ラベルと発話区間の開始時刻または終了時刻との間隔、(3)注視対象ラベルの開始時刻または終了時刻と他の注視対象ラベルの開始時刻または終了時刻との間隔、をパラメータとして持つ。
具体的な時間構造情報のパラメータを以下に示す。以下では、発話区間の開始時刻をST_U、発話区間の終了時刻をET_Uと定義する。
・INT1(=ET_RGL−ST_RGL):注視対象ラベルRGLの開始時刻ST_RGLと終了時刻ET_RGLの間隔
・INT2(=ST_U−ST_RGL):注視対象ラベルRGLの開始時刻ST_RGLが発話区間の開始時刻ST_Uよりもどれくらい前であったか
・INT3(=ET_U−ST_RGL):注視対象ラベルRGLの開始時刻ST_RGLが発話区間の終了時刻ET_Uよりもどれくらい前であったか
・INT4(=ET_RGL−ST_U):注視対象ラベルRGLの終了時刻ET_RGLが発話区間の開始時刻ST_Uよりもどれくらい後であったか
・INT5(=ET_U−ET_RGL):注視対象ラベルRGLの終了時刻ET_RGLが発話区間の終了時刻ET_Uよりもどれくらい前であったか
・INT6(=ST_RGL−ST_RGL’):注視対象ラベルRGLの開始時刻ST_RGLが他の注視対象ラベルRGL’の開始時刻ST_RGL’よりもどれくらい後であったか
・INT7(=ET_RGL’−ST_RGL):注視対象ラベルRGLの開始時刻ST_RGLが他の注視対象ラベルRGL’の終了時刻ET_RGL’よりもどれくらい前であったか
・INT8(=ET_RGL−ST_RGL’):注視対象ラベルRGLの終了時刻ET_RGLが注視対象ラベルRGL’の開始時刻ST_RGL’よりもどれくらい後であったか
・INT9(=ET_RGL−ET_RGL’):注視対象ラベルRGLの終了時刻ET_RGLが注視対象ラベルRGL’の終了時刻ET_RGL’よりもどれくらい後であったか
なお、INT6〜INT9については、すべての参加者の注視対象ラベルとの組み合わせに対して取得する。図8の例では、注視対象ラベル情報は全部で6つ(L,L2M,L,S,S,X)あるため、INT6〜INT9は、それぞれ6×5=30個のデータが生成される。
時間構造情報Θv,kは注視対象ラベル情報θv,kについてのパラメータINT1〜INT9からなる情報である。時間構造情報Θv,kを構成する上記の各パラメータについて、図9を用いて具体的に示す。図9は、話者である参加者P1(R=S)の注視対象ラベルL1についての時間構造情報を示す図である。すなわち、RGL=SL1における時間構造情報である。なお、INT6〜INT9については、図示を簡略化するために、参加者P2の注視対象ラベルL1、すなわちRGL=LL1との関係のみを示す。図9の例では、INT1〜INT9は以下のように求められることがわかる。
・INT1=ET_SL1−ST_SL1
・INT2=ST_U−ST_SL1
・INT3=ET_U−ST_SL1
・INT4=ET_SL1−ST_U
・INT5=ET_U−ET_SL1
・INT6=ST_SL1−ST_LL1
・INT7=ET_LL1−ST_SL1
・INT8=ET_SL1−ST_LL1
・INT9=ET_SL1−ET_LL1
時間構造情報Θv,kは、例えば発話区間Uk+1が開始された後に、発話区間Uおよびその発話者Puk、発話区間Uk+1に該当する発話を行う次発話者Puk+1および次発話開始タイミングTuk+1を表す情報とともにデータベースに送られる。データベースでは、時間構造情報Θv,kが、パラメータλa,kと併合され、Θv,k,λa,k,U,Puk,Uk+1,Puk+1,Tuk+1を表す情報の一部またはすべてがデータベースに保持される。
次話者推定部106は、注視対象遷移パターンEa,k、時間構造情報Θv,k、発話者情報Puk、発話区間U、参加者Pの吸い込み区間Ia,kでの息の吸い込み量、吸い込み区間Ia,kの長さ、吸い込み区間Ia,kでの息の吸い込み量の時間変化、および発話区間Uと吸い込み区間Ia,kとの時間関係の少なくとも一部に対応する特徴量fa,kに対する推定情報を得るためのモデルを機械学習し、モデルを用いて特徴量に対する推定情報である次話者確率Pns (t)を得て出力する。
上述の次話者推定部106は、呼吸動作の観測値および視線の観測値に基づいて次に発話を開始する参加者およびタイミングを推定しているが、さらに、頭部動作計測装置16からの参加者の頭部の動きに関する情報である頭部動作情報を用いてもよい。頭部動作計測装置16は、各参加者の頭部に装着され、頭部の位置の座標値及び回転角度を含む頭部動作情報を所定周期(例えば30Hz)で出力する。これは、人は発話の直前に大きく頷く傾向があることを利用するものである。次話者推定部106は、頭部動作情報に基づいて参加者iが時刻tの数秒前に頷いたと判定した場合には、参加者iの時刻tにおける次話者確率Pns (t)に所定値を加算する処理等を行う。また、次話者推定部106は、呼吸動作の観測値、視線の観測値および、参加者の頭部の動きに関する情報の少なくとも一つに基づいて次話者確率Pns (t)を算出してもよい。
上述したように参加者の頭部の動きに関する情報を用いて次話者を推定する技術として、以下の参考文献4に記載の技術がある。
参考文献4:石井 亮、外3名、“複数人対話での話者交替に関する頭部動作の分析 〜次話者と発話開始タイミングの予測モデルの構築に向けて〜”,HCGシンポジウム、2014年
次話者推定部106は、参考文献4に記載の技術を用いて頭部動作情報に基づく次話者の推定を行う構成であってもよい。また、次話者推定部106は、頭部動作計測装置16からの頭部動作情報に基づいて参加者の頭の動きを判断したが、映像入力部102からの各参加者の画像データを解析して、参加者の頭部の動きを特定してもよい。
上述した第1の実施形態におけるテレビ会議端末10または第2の実施形態におけるテレビ会議端末10aの備える各機能部は、例えば、コンピュータで実現することができる。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
遠隔地に居る複数の参加者による会議や討論会を行う場合に適用可能である。
1、1a、1−1、1−2、1−3…テレビ会議システム, 10、10a、10−1、10−2、10−3…テレビ会議端末, 11、11−1、11−2、11−3…マイク,12、12−1、12−2、12−3…カメラ, 13…ネットワーク, 101…音声入力部, 102…映像入力部, 103…表示部, 104…スピーカ, 105…特徴量生成部, 106…次話者推定部, 107…発話区間検出部, 108…通信部, 109、109a…出力処理部, 110…記録部

Claims (7)

  1. 会話に参加する複数の参加者の音声を含む音を集音して第1の音信号を出力する集音部と、
    前記集音部が出力する前記第1の音信号に基づいて、前記参加者毎に前記参加者が発話していることを特定するための特徴量を生成する特徴量生成部と、
    前記参加者の呼吸に関する情報である呼吸情報、前記参加者の頭部の動きに関する情報である頭部情報および前記参加者が注視している対象に関する情報である注視対象情報の少なくとも一つに基づいて、前記参加者の中で次の話者となる参加者である次話者を推定した次話者情報を出力する次話者推定部と、
    前記特徴量生成部が生成した前記特徴量と、前記次話者推定部が出力した前記次話者情報とに基づいて、前記参加者が発話している時間帯を示す第1の発話区間を検出する発話区間検出部と、
    を備える音声処理システム。
  2. 前記次話者情報とは、前記参加者のいずれか一人の発話が終了した後において前記参加者が前記次話者となる確率を示す情報である請求項1に記載の音声処理システム。
  3. 前記発話区間検出部は、閾値に基づいて前記参加者の前記特徴量を判断して前記第1の発話区間を検出し、
    前記次話者情報に含まれる前記次話者となる確率が高いほど前記第1の発話区間が検出されやすくなるよう前記閾値又は前記特徴量を変更する請求項2に記載の音声処理システム。
  4. 前記参加者の内の少なくとも1人は遠隔地にいる場合に、遠隔地にいる前記参加者の音声を含む第2の音信号および前記第2の音信号の第2の発話区間に関する情報である発話区間情報を受信する受信部と、
    前記集音部が集音した前記第1の音信号および前記受信部が受信した前記第2の音信号に応じて発音する発音部と、
    前記発話区間検出部が検出した前記第1の発話区間および前記発話区間情報で特定される前記第2の発話区間の少なくとも一つに基づいて、前記第1の音信号および前記第2の音信号に応じた前記発音部での発音を制御する制御部と、
    をさらに備える請求項1から請求項3のいずれか一項に記載の音声処理システム。
  5. 前記参加者の内の少なくとも1人は遠隔地にいる場合に、遠隔地にいる前記参加者の音声を含む第2の音信号および前記第2の音信号の第2の発話区間に関する情報である発話区間情報を受信する受信部と、
    前記集音部が集音した前記第1の音信号および前記受信部が受信した前記第2の音信号の少なくとも一つに応じて発音する発音部と、
    前記発話区間検出部が検出した前記第1の発話区間及び前記発話区間情報で特定される前記第2の発話区間と前記次話者情報とに基づいて、前記第1の音信号および前記第2の音信号の少なくとも一つに応じて発音を行うよう前記発音部を制御する制御部と、
    をさらに備える請求項1から請求項3のいずれか一項に記載の音声処理システム。
  6. 会話に参加する複数の参加者の音声を含む音を集音して第1の音信号を出力する集音部からの前記第1の音信号が入力される入力部と、
    前記入力部に入力された前記第1の音信号に基づいて、前記参加者毎に前記参加者が発話していることを特定するための特徴量を生成する特徴量生成部と、
    前記参加者の呼吸に関する情報である呼吸情報、前記参加者の頭部の動きに関する情報である頭部情報および前記参加者が注視している対象に関する情報である注視対象情報の少なくとも一つに基づいて、前記参加者の中で次の話者となる参加者である次話者を推定した次話者情報を出力する次話者推定部と、
    前記特徴量生成部が生成した前記特徴量と、前記次話者推定部が出力した前記次話者情報とに基づいて、前記参加者が発話している時間帯を示す第1の発話区間を検出する発話区間検出部と、
    を備える音声処理装置。
  7. 会話に参加する複数の参加者の音声を含む音を集音して第1の音信号を出力する集音部に接続された音声処理装置で実行される音声処理プログラムであって、
    前記集音部からの前記第1の音信号を入力する入力ステップと、
    前記入力ステップにおいて入力された前記第1の音信号に基づいて、前記参加者毎に前記参加者が発話していることを特定するための特徴量を生成する特徴量生成ステップと、
    前記参加者の呼吸に関する情報である呼吸情報、前記参加者の頭部の動きに関する情報である頭部情報および前記参加者が注視している対象に関する情報である注視対象情報の少なくとも一つに基づいて、前記参加者の中で次の話者となる参加者である次話者を推定した次話者情報を出力する次話者推定ステップと、
    前記特徴量生成ステップにおいて生成した前記特徴量と、前記次話者推定ステップにおいて出力した前記次話者情報とに基づいて、前記参加者が発話している時間帯を示す第1の発話区間を検出する発話区間検出ステップと、
    をコンピュータに実行させるための音声処理プログラム。
JP2015252448A 2015-12-24 2015-12-24 音声処理システム、音声処理装置および音声処理プログラム Active JP6363987B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015252448A JP6363987B2 (ja) 2015-12-24 2015-12-24 音声処理システム、音声処理装置および音声処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015252448A JP6363987B2 (ja) 2015-12-24 2015-12-24 音声処理システム、音声処理装置および音声処理プログラム

Publications (2)

Publication Number Publication Date
JP2017116747A JP2017116747A (ja) 2017-06-29
JP6363987B2 true JP6363987B2 (ja) 2018-07-25

Family

ID=59234045

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015252448A Active JP6363987B2 (ja) 2015-12-24 2015-12-24 音声処理システム、音声処理装置および音声処理プログラム

Country Status (1)

Country Link
JP (1) JP6363987B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108269566B (zh) * 2018-01-17 2020-08-25 南京理工大学 一种基于多尺度子带能量集特征的膛口波识别方法
WO2019150708A1 (ja) * 2018-02-01 2019-08-08 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP6916130B2 (ja) * 2018-03-02 2021-08-11 株式会社日立製作所 話者推定方法および話者推定装置
JP7732227B2 (ja) * 2021-05-24 2025-09-02 コニカミノルタ株式会社 会議システム、サーバー、情報処理装置及びプログラム
US12424240B2 (en) 2022-03-24 2025-09-23 Samsung Electronics Co., Ltd. Systems and methods for dynamically adjusting a listening time of a voice assistant device

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4736404B2 (ja) * 2004-11-11 2011-07-27 日産自動車株式会社 音声認識装置
JP2007147762A (ja) * 2005-11-24 2007-06-14 Fuji Xerox Co Ltd 発話者予測装置および発話者予測方法
JP5989603B2 (ja) * 2013-06-10 2016-09-07 日本電信電話株式会社 推定装置、推定方法、およびプログラム

Also Published As

Publication number Publication date
JP2017116747A (ja) 2017-06-29

Similar Documents

Publication Publication Date Title
US11610600B2 (en) Estimating lung volume by speech analysis
JP6363987B2 (ja) 音声処理システム、音声処理装置および音声処理プログラム
JP2017118364A (ja) コミュニケーションシステム、コミュニケーション装置およびコミュニケーションプログラム
JP6106373B2 (ja) 話者識別検証のための方法およびシステム
Maruri et al. V-speech: Noise-robust speech capturing glasses using vibration sensors
US8655656B2 (en) Method and system for assessing intelligibility of speech represented by a speech signal
Salamin et al. Automatic detection of laughter and fillers in spontaneous mobile phone conversations
JP7511374B2 (ja) 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム
CN112786052A (zh) 语音识别方法、电子设备和存储装置
JP2016012216A (ja) 会議分析装置、方法及びプログラム
JP6445473B2 (ja) 会話支援システム、会話支援装置及び会話支援プログラム
JP7515121B2 (ja) 発話区間検出装置、発話区間検出方法、および発話区間検出プログラム
JP6383349B2 (ja) コミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラム
JP6480351B2 (ja) 発話制御システム、発話制御装置及び発話制御プログラム
Tajiri et al. Non-audible murmur enhancement based on statistical conversion using air-and body-conductive microphones in noisy environments.
Mannem et al. Acoustic and Articulatory Feature Based Speech Rate Estimation Using a Convolutional Dense Neural Network.
JP6363986B2 (ja) コミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラム
JP2016042345A (ja) 推定装置、その方法およびプログラム
JP6335157B2 (ja) 会話支援システム、会話支援装置及び会話支援プログラム
JP4381404B2 (ja) 音声合成システム、音声合成方法、音声合成プログラム
Groll et al. Empirical evaluation of the role of vocal fold collision on relative fundamental frequency in voicing offset
CN116705070A (zh) 一种唇腭裂术后说话发音及鼻音矫正方法及系统
CN120511065B (zh) 用于马氏分级的识别方法、系统和存储介质
Vacher et al. Recognition of distress calls in distant speech setting: a preliminary experiment in a smart home
JP2021072497A (ja) 分析装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170828

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180607

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180626

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180629

R150 Certificate of patent or registration of utility model

Ref document number: 6363987

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350