JP6363987B2 - 音声処理システム、音声処理装置および音声処理プログラム - Google Patents
音声処理システム、音声処理装置および音声処理プログラム Download PDFInfo
- Publication number
- JP6363987B2 JP6363987B2 JP2015252448A JP2015252448A JP6363987B2 JP 6363987 B2 JP6363987 B2 JP 6363987B2 JP 2015252448 A JP2015252448 A JP 2015252448A JP 2015252448 A JP2015252448 A JP 2015252448A JP 6363987 B2 JP6363987 B2 JP 6363987B2
- Authority
- JP
- Japan
- Prior art keywords
- participant
- information
- unit
- utterance
- next speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Telephonic Communication Services (AREA)
Description
(第1の実施形態)
図1は、第1の実施形態における複数のテレビ会議システム(音声処理システム)を含む通信システムの全体構成の概略を示す図である。
図4は、第1の実施形態におけるテレビ会議システム1の動作を示すフロー図である。図4において、参加者が各テレビ会議システム1の各装置(テレビ会議端末10等)の電源を入れる等を行うことにより、各テレビ会議システム1の各装置が起動する(ステップS101)。
第2の実施形態におけるテレビ会議システム(音声処理システム)1aの構成例について説明する。第2の実施形態におけるテレビ会議システム1aは、発話区間が検出された参加者のマイク11からの音声信号のみをスピーカ104から出力することができる。
図6は、第2の実施形態におけるテレビ会議システム1aの動作を示すフロー図である。図6に示すとおりステップS101〜S105、S107は、図4に示した第1の実施形態におけるテレビ会議システム1の動作と同じ処理であり、その説明を省略する。
第2の実施形態におけるテレビ会議システム1aは、発話区間検出部107において発話区間が検出された各参加者の音声信号をスピーカ104へ出力する構成としたが、これに限られるものではない。テレビ会議システム1aは、発話区間検出部107において発話区間が検出された各参加者のうち、発話期待値Pns’ i(t)が最大の参加者の音声信号のみをスピーカ104へ出力する構成としてもよい。これにより、テレビ会議システム1aは、発話区間検出部107において発話区間が検出された各参加者のうち発話を行うのが最もふさわしい参加者の音声信号をスピーカ104から出力することができる。特定の参加者のみ発話がスピーカ104から出力されるよう制御することで、複数人が同時に発話してしまう発話衝突を回避し、テレビ会議における参加者の会話の流れを良くすることができる。
上述した第2の実施形態におけるテレビ会議システム1aは、検出した発話区間に応じてスピーカ104に入力する音声信号を制御したが、検出した発話区間に応じて音声信号の伝送処理を制御してもよい。例えば、音声信号の伝送処理の制御を行う技術として参考文献1に記載の技術がある。
参考文献1:特開2005−229259号公報
この参考文献1には、音声区間を判別して音声区間を含む音声信号を優先的に伝送する技術が開示されている。この参考文献1における音声区間の判別に、第2の実施形態における発話区間検出部107による発話区間の検出を利用することで、より精度の高い発話区間の検出に基づいて音声区間(発話区間)を含む音声信号を優先的に伝送することができる。
次に、上述した第1の実施形態におけるテレビ会議システム1および第2の実施形態におけるテレビ会議システム1aに共通である次話者を推定する処理の具体例について説明する。テレビ会議システム1およびテレビ会議システム1aにおける次話者推定には、例えば、以下の参考文献2、3の技術などを適用することができるが、任意の既存の技術を利用してもよい。参考文献2、3記載の技術を利用した場合は、注視対象検出装置15が出力する注視対象情報に基づく発話者と非発話者の注視行動の遷移パターンを用いて、次話者推定部106は、次発話者および発話のタイミングを予測する。
参考文献3:石井亮、外4名、“複数人対話における注視遷移パターンに基づく次話者と発話タイミングの予測”、人工知能学会研究会資料、SIG-SLUD-B301-06、pp.27-34、2013年
会話の参加者の呼吸動作は次発話者と発話のタイミングに深い関連性がある。このことを利用して、会話の参加者の呼吸動作をリアルタイムに計測し、計測された呼吸動作から発話の開始直前に行われる特徴的な呼吸動作を検出し、この呼吸動作を基に次発話者とその発話タイミングを高精度に算出する。具体的には、発話開始直前におこなわれる呼吸動作の特徴として、発話を行っている発話者は、継続して発話する際(発話者継続時)には、発話終了直後にすぐに急激に息を吸い込む。逆に発話者が次に発話を行わない際(発話者交替時)には、発話者継続時に比べて、発話終了時から間を空けて、ゆっくりと息を吸い込む。また、発話者交替時に、次に発話をおこなう次発話者は、発話を行わない非発話者に比べて大きく息を吸い込む。このような発話の前におこなわれる呼吸は、発話開始に対しておおよそ決められたタイミングで行われる。このように、発話の直前に次発話者は特徴的な息の吸い込みを行うため、このような息の吸い込みの情報は、次発話者とその発話タイミングを予測するのに有用である。本次話者推定技術では、人物の息の吸い込みに着目し、息の吸い込み量や吸い込み区間の長さ、タイミングなどの情報を用いて、次発話者と発話タイミングを予測する。
・MINa,k:参加者Paの息の吸い込み開始時のRSP値Ra,t、すなわち、息の吸い込み区間Ia,kのRSP値Ra,tの最小値。
・MAXa,k:参加者Paの息の吸い込み終了時のRSP値Ra,t、すなわち、息の吸い込み区間Ia,kのRSP値Ra,tの最大値。
・AMPa,k:参加者Paの息の吸い込み区間Ia,kのRSP値Ra,tの振幅、すなわち、MAXa,k−MINa,kで算出される値。吸い込み区間Ia,kでの息の吸い込み量を表す。
・DURa,k:参加者Paの息の吸い込み区間Ia,kの長さ、すなわち、息の吸い込み区間Ia,kの終了位置の離散時刻te(k)から開始位置の離散時刻ts(k)を減じて得られる値te(k)−ts(k)。
・SLOa,k:参加者Paの息の吸い込み区間Ia,kにおけるRSP値Ra,tの単位時間当たりの傾きの平均値、すなわち、AMPa,k/DURa,kで算出される値。吸い込み区間Ia,kでの息の吸い込み量の時間変化を表す。
・INT1a,k:手前の発話区間Ukの終了時刻tue(k)(発話区間末)から参加者Paの息の吸い込みが開始されるまでの間隔、すなわち、息の吸い込み区間Ia,kの開始位置の離散時刻ts(k)から発話区間Ukの終了時刻tue(k)を減じて得られる値ts(k)−tue(k)。発話区間Ukと吸い込み区間Ia,kとの時間関係を表す。
・INT2a,k:参加者Paの息の吸い込み終了時から次発話者の発話区間Uk+1が開始されるまでの間隔、すなわち、次発話者の発話区間Uk+1の開始時刻tus(k+1)から息の吸い込み区間Ia,kの終了位置の離散時刻te(k)を減じて得られる値tus(k+1)−te(k)。発話区間Uk+1と吸い込み区間Ia,kとの時間関係を表す。パラメータλ’a,kにINT2a,kを加えたものをパラメータλa,kと表記する。
上述した実施形態の次話者推定部106が推定する参加者iの時刻tにおける次話者確率Pns i(t)は、参加者iが本次話者推定技術における参加者Paである場合、確率P1a×確率P2a(t)により算出される。
視線行動をさらに利用する場合、各参加者Pa(ただし、a=1,…,A)には注視対象検出装置15がさらに装着される。注視対象検出装置15は、参加者Paが誰を注視しているか(注視対象)を検出し、参加者Paおよび各離散時刻tでの注視対象Ga,tを表す情報を次話者推定部106に送る。次話者推定部106は、注視対象情報G1,t,…,GA,t、発話区間Uk、および話者情報Pukを入力とし、発話区間終了前後における注視対象ラベル情報θv,k(ただし、v=1,…,V、Vは注視対象ラベルの総数)を生成する。注視対象ラベル情報は、発話区間Ukの終了時点Tseに対応する時間区間における参加者の注視対象を表す情報である。ここでは、終了時点Tseを含む有限の時間区間における参加者Paの注視対象をラベル付けした注視対象ラベル情報θv,kを例示する。この場合、例えば、発話区間Ukの終了時点Tseよりも前の時点Tse−Tbから終了時点Tseよりも後の時点Tse+Taまでの区間に出現した注視行動を扱う。Tb,Taは0以上の任意の値でよいが、目安として、Tbは0秒〜2.0秒、Taは0秒〜3.0秒程度にするのが適当である。
・ラベルS:話者(すなわち、話者である参加者Pukを表す)
・ラベルLξ:非話者(ただし、ξは互いに異なる非話者である参加者を識別し、ξ=1,…,A−1である。例えば、ある参加者が、非話者P2、非話者P3、の順に注視をしていたとき、非話者P2にL1というラベル、非話者P3にL2というラベルが割り当てられる。)
・ラベルX:誰も見ていない
・INT1(=ET_RGL−ST_RGL):注視対象ラベルRGLの開始時刻ST_RGLと終了時刻ET_RGLの間隔
・INT2(=ST_U−ST_RGL):注視対象ラベルRGLの開始時刻ST_RGLが発話区間の開始時刻ST_Uよりもどれくらい前であったか
・INT3(=ET_U−ST_RGL):注視対象ラベルRGLの開始時刻ST_RGLが発話区間の終了時刻ET_Uよりもどれくらい前であったか
・INT4(=ET_RGL−ST_U):注視対象ラベルRGLの終了時刻ET_RGLが発話区間の開始時刻ST_Uよりもどれくらい後であったか
・INT5(=ET_U−ET_RGL):注視対象ラベルRGLの終了時刻ET_RGLが発話区間の終了時刻ET_Uよりもどれくらい前であったか
・INT6(=ST_RGL−ST_RGL’):注視対象ラベルRGLの開始時刻ST_RGLが他の注視対象ラベルRGL’の開始時刻ST_RGL’よりもどれくらい後であったか
・INT7(=ET_RGL’−ST_RGL):注視対象ラベルRGLの開始時刻ST_RGLが他の注視対象ラベルRGL’の終了時刻ET_RGL’よりもどれくらい前であったか
・INT8(=ET_RGL−ST_RGL’):注視対象ラベルRGLの終了時刻ET_RGLが注視対象ラベルRGL’の開始時刻ST_RGL’よりもどれくらい後であったか
・INT9(=ET_RGL−ET_RGL’):注視対象ラベルRGLの終了時刻ET_RGLが注視対象ラベルRGL’の終了時刻ET_RGL’よりもどれくらい後であったか
・INT1=ET_SL1−ST_SL1
・INT2=ST_U−ST_SL1
・INT3=ET_U−ST_SL1
・INT4=ET_SL1−ST_U
・INT5=ET_U−ET_SL1
・INT6=ST_SL1−ST_LL1
・INT7=ET_LL1−ST_SL1
・INT8=ET_SL1−ST_LL1
・INT9=ET_SL1−ET_LL1
参考文献4:石井 亮、外3名、“複数人対話での話者交替に関する頭部動作の分析 〜次話者と発話開始タイミングの予測モデルの構築に向けて〜”,HCGシンポジウム、2014年
次話者推定部106は、参考文献4に記載の技術を用いて頭部動作情報に基づく次話者の推定を行う構成であってもよい。また、次話者推定部106は、頭部動作計測装置16からの頭部動作情報に基づいて参加者の頭の動きを判断したが、映像入力部102からの各参加者の画像データを解析して、参加者の頭部の動きを特定してもよい。
Claims (7)
- 会話に参加する複数の参加者の音声を含む音を集音して第1の音信号を出力する集音部と、
前記集音部が出力する前記第1の音信号に基づいて、前記参加者毎に前記参加者が発話していることを特定するための特徴量を生成する特徴量生成部と、
前記参加者の呼吸に関する情報である呼吸情報、前記参加者の頭部の動きに関する情報である頭部情報および前記参加者が注視している対象に関する情報である注視対象情報の少なくとも一つに基づいて、前記参加者の中で次の話者となる参加者である次話者を推定した次話者情報を出力する次話者推定部と、
前記特徴量生成部が生成した前記特徴量と、前記次話者推定部が出力した前記次話者情報とに基づいて、前記参加者が発話している時間帯を示す第1の発話区間を検出する発話区間検出部と、
を備える音声処理システム。 - 前記次話者情報とは、前記参加者のいずれか一人の発話が終了した後において前記参加者が前記次話者となる確率を示す情報である請求項1に記載の音声処理システム。
- 前記発話区間検出部は、閾値に基づいて前記参加者の前記特徴量を判断して前記第1の発話区間を検出し、
前記次話者情報に含まれる前記次話者となる確率が高いほど前記第1の発話区間が検出されやすくなるよう前記閾値又は前記特徴量を変更する請求項2に記載の音声処理システム。 - 前記参加者の内の少なくとも1人は遠隔地にいる場合に、遠隔地にいる前記参加者の音声を含む第2の音信号および前記第2の音信号の第2の発話区間に関する情報である発話区間情報を受信する受信部と、
前記集音部が集音した前記第1の音信号および前記受信部が受信した前記第2の音信号に応じて発音する発音部と、
前記発話区間検出部が検出した前記第1の発話区間および前記発話区間情報で特定される前記第2の発話区間の少なくとも一つに基づいて、前記第1の音信号および前記第2の音信号に応じた前記発音部での発音を制御する制御部と、
をさらに備える請求項1から請求項3のいずれか一項に記載の音声処理システム。 - 前記参加者の内の少なくとも1人は遠隔地にいる場合に、遠隔地にいる前記参加者の音声を含む第2の音信号および前記第2の音信号の第2の発話区間に関する情報である発話区間情報を受信する受信部と、
前記集音部が集音した前記第1の音信号および前記受信部が受信した前記第2の音信号の少なくとも一つに応じて発音する発音部と、
前記発話区間検出部が検出した前記第1の発話区間及び前記発話区間情報で特定される前記第2の発話区間と前記次話者情報とに基づいて、前記第1の音信号および前記第2の音信号の少なくとも一つに応じて発音を行うよう前記発音部を制御する制御部と、
をさらに備える請求項1から請求項3のいずれか一項に記載の音声処理システム。 - 会話に参加する複数の参加者の音声を含む音を集音して第1の音信号を出力する集音部からの前記第1の音信号が入力される入力部と、
前記入力部に入力された前記第1の音信号に基づいて、前記参加者毎に前記参加者が発話していることを特定するための特徴量を生成する特徴量生成部と、
前記参加者の呼吸に関する情報である呼吸情報、前記参加者の頭部の動きに関する情報である頭部情報および前記参加者が注視している対象に関する情報である注視対象情報の少なくとも一つに基づいて、前記参加者の中で次の話者となる参加者である次話者を推定した次話者情報を出力する次話者推定部と、
前記特徴量生成部が生成した前記特徴量と、前記次話者推定部が出力した前記次話者情報とに基づいて、前記参加者が発話している時間帯を示す第1の発話区間を検出する発話区間検出部と、
を備える音声処理装置。 - 会話に参加する複数の参加者の音声を含む音を集音して第1の音信号を出力する集音部に接続された音声処理装置で実行される音声処理プログラムであって、
前記集音部からの前記第1の音信号を入力する入力ステップと、
前記入力ステップにおいて入力された前記第1の音信号に基づいて、前記参加者毎に前記参加者が発話していることを特定するための特徴量を生成する特徴量生成ステップと、
前記参加者の呼吸に関する情報である呼吸情報、前記参加者の頭部の動きに関する情報である頭部情報および前記参加者が注視している対象に関する情報である注視対象情報の少なくとも一つに基づいて、前記参加者の中で次の話者となる参加者である次話者を推定した次話者情報を出力する次話者推定ステップと、
前記特徴量生成ステップにおいて生成した前記特徴量と、前記次話者推定ステップにおいて出力した前記次話者情報とに基づいて、前記参加者が発話している時間帯を示す第1の発話区間を検出する発話区間検出ステップと、
をコンピュータに実行させるための音声処理プログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2015252448A JP6363987B2 (ja) | 2015-12-24 | 2015-12-24 | 音声処理システム、音声処理装置および音声処理プログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2015252448A JP6363987B2 (ja) | 2015-12-24 | 2015-12-24 | 音声処理システム、音声処理装置および音声処理プログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2017116747A JP2017116747A (ja) | 2017-06-29 |
| JP6363987B2 true JP6363987B2 (ja) | 2018-07-25 |
Family
ID=59234045
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2015252448A Active JP6363987B2 (ja) | 2015-12-24 | 2015-12-24 | 音声処理システム、音声処理装置および音声処理プログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6363987B2 (ja) |
Families Citing this family (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN108269566B (zh) * | 2018-01-17 | 2020-08-25 | 南京理工大学 | 一种基于多尺度子带能量集特征的膛口波识别方法 |
| WO2019150708A1 (ja) * | 2018-02-01 | 2019-08-08 | ソニー株式会社 | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム |
| JP6916130B2 (ja) * | 2018-03-02 | 2021-08-11 | 株式会社日立製作所 | 話者推定方法および話者推定装置 |
| JP7732227B2 (ja) * | 2021-05-24 | 2025-09-02 | コニカミノルタ株式会社 | 会議システム、サーバー、情報処理装置及びプログラム |
| US12424240B2 (en) | 2022-03-24 | 2025-09-23 | Samsung Electronics Co., Ltd. | Systems and methods for dynamically adjusting a listening time of a voice assistant device |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4736404B2 (ja) * | 2004-11-11 | 2011-07-27 | 日産自動車株式会社 | 音声認識装置 |
| JP2007147762A (ja) * | 2005-11-24 | 2007-06-14 | Fuji Xerox Co Ltd | 発話者予測装置および発話者予測方法 |
| JP5989603B2 (ja) * | 2013-06-10 | 2016-09-07 | 日本電信電話株式会社 | 推定装置、推定方法、およびプログラム |
-
2015
- 2015-12-24 JP JP2015252448A patent/JP6363987B2/ja active Active
Also Published As
| Publication number | Publication date |
|---|---|
| JP2017116747A (ja) | 2017-06-29 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11610600B2 (en) | Estimating lung volume by speech analysis | |
| JP6363987B2 (ja) | 音声処理システム、音声処理装置および音声処理プログラム | |
| JP2017118364A (ja) | コミュニケーションシステム、コミュニケーション装置およびコミュニケーションプログラム | |
| JP6106373B2 (ja) | 話者識別検証のための方法およびシステム | |
| Maruri et al. | V-speech: Noise-robust speech capturing glasses using vibration sensors | |
| US8655656B2 (en) | Method and system for assessing intelligibility of speech represented by a speech signal | |
| Salamin et al. | Automatic detection of laughter and fillers in spontaneous mobile phone conversations | |
| JP7511374B2 (ja) | 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム | |
| CN112786052A (zh) | 语音识别方法、电子设备和存储装置 | |
| JP2016012216A (ja) | 会議分析装置、方法及びプログラム | |
| JP6445473B2 (ja) | 会話支援システム、会話支援装置及び会話支援プログラム | |
| JP7515121B2 (ja) | 発話区間検出装置、発話区間検出方法、および発話区間検出プログラム | |
| JP6383349B2 (ja) | コミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラム | |
| JP6480351B2 (ja) | 発話制御システム、発話制御装置及び発話制御プログラム | |
| Tajiri et al. | Non-audible murmur enhancement based on statistical conversion using air-and body-conductive microphones in noisy environments. | |
| Mannem et al. | Acoustic and Articulatory Feature Based Speech Rate Estimation Using a Convolutional Dense Neural Network. | |
| JP6363986B2 (ja) | コミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラム | |
| JP2016042345A (ja) | 推定装置、その方法およびプログラム | |
| JP6335157B2 (ja) | 会話支援システム、会話支援装置及び会話支援プログラム | |
| JP4381404B2 (ja) | 音声合成システム、音声合成方法、音声合成プログラム | |
| Groll et al. | Empirical evaluation of the role of vocal fold collision on relative fundamental frequency in voicing offset | |
| CN116705070A (zh) | 一种唇腭裂术后说话发音及鼻音矫正方法及系统 | |
| CN120511065B (zh) | 用于马氏分级的识别方法、系统和存储介质 | |
| Vacher et al. | Recognition of distress calls in distant speech setting: a preliminary experiment in a smart home | |
| JP2021072497A (ja) | 分析装置及びプログラム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170828 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180607 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180626 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180629 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6363987 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
