JP2010054733A - 複数信号区間推定装置、複数信号区間推定方法、そのプログラムおよび記録媒体 - Google Patents
複数信号区間推定装置、複数信号区間推定方法、そのプログラムおよび記録媒体 Download PDFInfo
- Publication number
- JP2010054733A JP2010054733A JP2008218677A JP2008218677A JP2010054733A JP 2010054733 A JP2010054733 A JP 2010054733A JP 2008218677 A JP2008218677 A JP 2008218677A JP 2008218677 A JP2008218677 A JP 2008218677A JP 2010054733 A JP2010054733 A JP 2010054733A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- frame
- signal
- model
- frequency domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】周波数領域変換部110が観測信号を所定長のフレームに順次切り出して当該フレームごとに周波数領域に変換し、音声区間推定部120が周波数領域の観測信号に基づき、各フレームが音声区間に該当するか否かを推定し、到来方向推定部130が周波数領域の観測信号に基づき、当該周波数領域の観測信号の到来方向を各フレームごとに推定し、到来方向分類部140が音声区間に該当すると推定された各フレームを、到来方向の類似性に基づき話者ごとのクラスタに分類する。そして、話者同定部250が所定の時刻までに同一クラスタに分類された各フレームの周波数領域の観測信号に基づき、当該クラスタに係る話者のモデルをクラスタごとに作成し、当該所定の時刻以降の観測信号の話者を各話者のモデルに基づき推定する。
【選択図】図1
Description
vq(τ)=c・VD+・vq´(τ) (4)
ここで、+はMoore-Penroseの疑似逆行列を表し、vdjがマイクjの座標を[x,y,z]と並べたベクトルであるとき、VD=[vd1−vdj,・・・,vdM−vdj]Tである。このように求めた音声到来方向ベクトルvq(τ)は、到来方向の水平角がθ、仰角がφとすると、次式のように表すことができる。
vq(τ)=[cosθ・cosφ,sinθ・cosφ,sinφ]T (5)
本発明の目的は、音声の収録中に話者位置の移動が生じても、移動前と移動後において、同一話者には同一インデックスを付与することのできる、複数信号区間推定装置、複数信号区間推定方法、そのプログラムおよび記録媒体を提供することにある。
音声区間推定部は、周波数領域に変換された観測信号に基づき、各フレームが音声区間に該当するか否かを推定する。
到来方向推定部は、周波数領域に変換された観測信号に基づき、当該観測信号の到来方向を各フレームごとに推定する。
そして話者同定部は、所定の時刻までに同一クラスタに分類された各フレームの周波数領域に変換された観測信号に基づき、当該クラスタに係る話者のモデルをクラスタごとに作成し、当該所定の時刻以降の観測信号の話者を、各話者のモデルに基づき推定する。
図1(実線部分)に本発明の複数信号区間推定装置200の機能構成例を、図2(実線部分)にその処理フロー例を示す。複数信号区間推定装置200は、背景技術にて説明した周波数領域変換部110、音声区間推定部120、到来方向推定部130、及び到来方向分類部140と、話者同定部250とから構成される。また、話者同定部250の処理は図11に示したフローのS4に続いて行われる。従って、ここでは背景技術として説明した内容の説明は必要最小限とし、話者同定部250での処理に重点を置いて説明する。
図3(実線部分)に話者同定部250の機能構成例を示す。話者同定部250は、特徴抽出手段251とモデル学習手段252と尤度計算手段253とから構成される。
第1実施形態においては、特徴抽出手段251における処理に際し、周波数領域変換部110から出力された周波数領域の観測信号x(f,τ)をそのまま使用していた。しかし、実際の会議の場では複数の発話者がしばしば同時に発話するが、各フレームではいずれかの1名の話者の発話として識別する必要があり、その他の話者の発話は雑音成分となるため、同時発話されたフレームτにおける観測信号x(f,τ)をそのまま使用すると、SN比の小ささにより特徴抽出を適切に行えずに話者モデルの推定精度が劣化する場合がある。そこで第2実施形態では、このSN比を向上させるための機能構成・処理方法を示す。
〔参考文献1〕S. Araki, H. Sawada and S. Makino, "Blind Speech Separation in a MeetingSituation with Maximum SNR beamformers," proc. of ICASSP2007, 2007, vol.I, p.41-45
上記の実施形態では、モデルパラメータφkを時刻ttrainまでの観測信号により求めて、それを時刻ttrain以降の話者同定処理に固定的に適用する。しかし、会話が収録される音響環境は通常、経時的に変化するものであり、求めたモデルパラメータφkが経時的にその環境に相応しくなくなる場合がある。
上記の各実施形態では、尤度計算手段253における話者の同定を、各話者のモデルMkに同定対象セグメントに含まれる全てのフレームτの音声特徴量ベクトルvf(τ)を代入して対数尤度を計算し、対数尤度が最大となるモデルのインデックスkを当該セグメントの話者インデックスとするというルールの下で行う。しかし、このようなルールの下では、新たに参加した話者による発話があった場合においても、当初から参加している話者のモデルのいずれかが最大対数尤度をとることになるため、そのモデルの話者であると同定されてしまう。
上記の各実施形態は、モデルパラメータを時刻ttrainまでの観測信号により求めて、それを用いて時刻ttrain以降の話者同定処理を行う構成である。しかし、発話が想定される複数の話者音声を予め入手できる場合には、それに基づき事前に各話者のモデルを準備しておき、この事前に準備したモデルを用いて話者同定処理を行うことが可能である。
第5実施形態はそのような場合の構成であり、話者同定部250を例えば図7のように構成することにより実現できる。上記の各実施形態との機能構成上の相違は、図3におけるモデル学習手段252が、予め準備した話者のモデルパラメータが記憶された話者モデルDB264に置き換わる点にある。
上記の各実施形態の複数信号区間推定装置の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
また、上述の各種処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
発明の効果を確認するため、図8で示すような3本のマイクを用いた測定環境において、4名参加による5分間の会議データについての話者区間推定実験を行った。会議においては、まず男女各2名の話者がそれぞれ男1、女1、男2、女2の位置に着席して始めに自己紹介をし、その後、各話者が順番に位置PPに移動して発言を行った。自己紹介は収録開始から120秒までの間に行われたものとし、ttrainを120秒として収録開始から120秒までの観測信号を話者同定モデルの作成に用い、120秒以降について話者同定を行った。なお、短時間フーリエ変換のフレーム長は64ms、フレームシフト長は32msとした。
Claims (12)
- 複数のマイクによりそれぞれ収録された、複数の話者による発話音声が含まれる観測信号から、それぞれの話者の発話区間を推定する複数信号区間推定装置であって、
上記観測信号を所定長のフレームに順次切り出し、当該フレームごとに周波数領域に変換する周波数領域変換部と、
周波数領域に変換された上記観測信号(以下、「周波数領域観測信号」という)に基づき、各フレームが音声区間に該当するか否かを推定する音声区間推定部と、
上記周波数領域観測信号に基づき、当該周波数領域観測信号の到来方向を各フレームごとに推定する到来方向推定部と、
上記音声区間に該当すると推定された各フレームを、上記到来方向の類似性に基づき上記話者ごとのクラスタに分類する到来方向分類部と、
所定の時刻までに同一クラスタに分類された各フレームの上記周波数領域観測信号に基づき、当該クラスタに係る上記話者のモデルをクラスタごとに作成し、当該所定の時刻以降の上記観測信号の話者を、各話者のモデルに基づき推定する話者同定部と、
を備えることを特徴とする複数信号区間推定装置。 - 請求項1に記載の複数信号区間推定装置において、
上記話者同定部は、
上記周波数領域観測信号の各フレームの音声特徴量を計算する特徴抽出手段と、
上記所定の時刻までに同一クラスタに分類された各フレームの音声特徴量を用いて、当該クラスタに係る上記話者のモデルを各クラスタごとに作成して出力するとともに、上記所定の時刻までの各フレームのインデックスと当該各フレームが属するクラスタに係る話者のインデックスとの組を出力するモデル学習手段と、
上記所定の時刻以降に同一クラスタに分類された互いに接続された フレーム(以下、「セグメント」という)の音声特徴量について、上記話者のモデルに対する尤度を各モデルごとに計算し、最大尤度をとるモデルに係る話者のインデックスを当該セグメントに付与して、当該セグメントに含まれる各フレームのインデックスとともに出力する尤度計算手段と、
を備えることを特徴とする複数信号区間推定装置。 - 複数のマイクによりそれぞれ収録された、複数の話者による発話音声が含まれる観測信号から、それぞれの話者の発話区間を推定する複数信号区間推定装置であって、
上記観測信号を所定長のフレームに順次切り出し、当該フレームごとに周波数領域に変換する周波数領域変換部と、
周波数領域に変換された上記観測信号(以下、「周波数領域観測信号」という)に基づき、各フレームが音声区間に該当するか否かを推定する音声区間推定部と、
上記周波数領域観測信号に基づき、当該周波数領域観測信号の到来方向を各フレームごとに推定する到来方向推定部と、
上記音声区間に該当すると推定された各フレームを、上記到来方向の類似性に基づき上記話者ごとのクラスタに分類する到来方向分類部と、
上記周波数領域観測信号に基づき、上記クラスタに係る上記話者ごとに強調した信号(以下、「強調信号」という)を生成する音声強調部と、
所定の時刻までの上記強調信号に基づき、上記話者のモデルを話者ごとに作成し、当該所定の時刻以降の上記観測信号の話者を、各話者のモデルに基づき推定する話者同定部と、
を備えることを特徴とする複数信号区間推定装置。 - 請求項3に記載の複数信号区間推定装置において、
上記話者同定部は、
上記強調信号の各フレームの音声特徴量を計算する特徴抽出手段と、
上記所定の時刻までの上記強調信号の各フレームの音声特徴量を用いて、上記話者のモデルを各話者ごとに作成して出力するとともに、上記所定の時刻までの各フレームのインデックスと当該各フレームが属するクラスタに係る話者のインデックスとの組を出力するモデル学習手段と、
上記所定の時刻以降に同一クラスタに分類された互いに接続されたフレーム(以下、「セグメント」という)の音声特徴量について、上記話者のモデルに対する尤度を各モデルごとに計算し、最大尤度をとるモデルに係る話者のインデックスを当該セグメントに付与して、当該セグメントに含まれる各フレームのインデックスとともに出力する尤度計算手段と、
を備えることを特徴とする複数信号区間推定装置。 - 複数のマイクによりそれぞれ収録された、複数の話者による発話音声が含まれる観測信号から、それぞれの話者の発話区間を推定する複数信号区間推定方法であって、
上記観測信号を所定長のフレームに順次切り出し、当該フレームごとに周波数領域に変換する周波数領域変換ステップと、
周波数領域に変換された上記観測信号(以下、「周波数領域観測信号」という)に基づき、各フレームが音声区間に該当するか否かを推定する音声区間推定ステップと、
上記周波数領域観測信号に基づき、当該周波数領域観測信号の到来方向を各フレームごとに推定する到来方向推定ステップと、
上記音声区間に該当すると推定された各フレームを、上記到来方向の類似性に基づき上記話者ごとのクラスタに分類する到来方向分類ステップと、
所定の時刻までに同一クラスタに分類された各フレームの上記周波数領域観測信号に基づき、当該クラスタに係る上記話者のモデルをクラスタごとに作成し、当該所定の時刻以降の上記観測信号の話者を、各話者のモデルに基づき推定する話者同定ステップと、
を実行することを特徴とする複数信号区間推定方法。 - 請求項5に記載の複数信号区間推定装置において、
上記話者同定ステップは、
上記周波数領域観測信号の各フレームの音声特徴量を計算する特徴抽出サブステップと、
上記所定の時刻までに同一クラスタに分類された各フレームの音声特徴量を用いて、当該クラスタに係る上記話者のモデルを各クラスタごとに作成して出力するとともに、上記所定の時刻までの各フレームのインデックスと当該各フレームが属するクラスタに係る話者のインデックスとの組を出力するモデル学習サブステップと、
上記所定の時刻以降に同一クラスタに分類された互いに接続されたフレーム(以下、「セグメント」という)の音声特徴量について、上記話者のモデルに対する尤度を各モデルごとに計算し、最大尤度をとるモデルに係る話者のインデックスを当該セグメントに付与して、当該セグメントに含まれる各フレームのインデックスとともに出力する尤度計算サブステップと、
を実行することを特徴とする複数信号区間推定方法。 - 複数のマイクによりそれぞれ収録された、複数の話者による発話音声が含まれる観測信号から、それぞれの話者の発話区間を推定する複数信号区間推定方法であって、
上記観測信号を所定長のフレームに順次切り出し、当該フレームごとに周波数領域に変換する周波数領域変換ステップと、
周波数領域に変換された上記観測信号(以下、「周波数領域観測信号」という)に基づき、各フレームが音声区間に該当するか否かを推定する音声区間推定ステップと、
上記周波数領域観測信号に基づき、当該周波数領域観測信号の到来方向を各フレームごとに推定する到来方向推定ステップと、
上記音声区間に該当すると推定された各フレームを、上記到来方向の類似性に基づき上記話者ごとのクラスタに分類する到来方向分類ステップと、
上記周波数領域観測信号に基づき、上記話者ごとに強調した信号(以下、「強調信号」という)を生成する音声強調ステップと、
所定の時刻までの上記強調信号に基づき、上記話者のモデルを話者ごとに作成し、当該所定の時刻以降の上記観測信号の話者を、各話者のモデルに基づき推定する話者同定ステップと、
を実行することを特徴とする複数信号区間推定方法。 - 請求項7に記載の複数信号区間推定方法において、
上記話者同定ステップは、
上記強調信号の各フレームの音声特徴量を計算する特徴抽出サブステップと、
上記所定の時刻までの上記強調信号の各フレームの音声特徴量を用いて、上記話者のモデルを話者ごとに作成して出力するとともに、上記所定の時刻までの各フレームのインデックスと当該各フレームが属するクラスタに係る話者のインデックスとの組を出力するモデル学習サブステップと、
上記所定の時刻以降に同一クラスタに分類された互いに接続されたフレーム(以下、「セグメント」という)の音声特徴量について、上記話者のモデルに対する尤度を各モデルごとに計算し、最大尤度をとるモデルに係る話者のインデックスを当該セグメントに付与して、当該セグメントに含まれる各フレームのインデックスとともに出力する尤度計算サブステップと、
を実行することを特徴とする複数信号区間推定方法。 - 請求項6又は8のいずれかに記載の複数信号区間推定方法において、
更に、上記尤度計算サブステップにて上記セグメントに話者のインデックスを付与した後、そのセグメントに属する各フレームの音声特徴量に基づき改めて当該話者のモデルを作成して、当該話者のモデルを更新するモデル更新ステップ
を実行することを特徴とする複数信号区間推定方法。 - 請求項6、8又は9のいずれかに記載の複数信号区間推定方法において、
更に、計算した上記最大尤度が所定の閾値より小さい場合に、新たな話者が参加したと判断し、当該新たな話者のインデックスを上記セグメントに付与するとともに、そのセグメントに属する各フレームの音声特徴量に基づき当該新たな話者のモデルを作成するモデル追加ステップ
を実行することを特徴とする複数信号区間推定方法。 - 請求項1〜4のいずれかに記載した装置としてコンピュータを機能させるためのプログラム。
- 請求項11に記載したプログラムを記録したコンピュータが読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008218677A JP4964204B2 (ja) | 2008-08-27 | 2008-08-27 | 複数信号区間推定装置、複数信号区間推定方法、そのプログラムおよび記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008218677A JP4964204B2 (ja) | 2008-08-27 | 2008-08-27 | 複数信号区間推定装置、複数信号区間推定方法、そのプログラムおよび記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010054733A true JP2010054733A (ja) | 2010-03-11 |
JP4964204B2 JP4964204B2 (ja) | 2012-06-27 |
Family
ID=42070738
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008218677A Active JP4964204B2 (ja) | 2008-08-27 | 2008-08-27 | 複数信号区間推定装置、複数信号区間推定方法、そのプログラムおよび記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4964204B2 (ja) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015060006A (ja) * | 2013-09-17 | 2015-03-30 | 株式会社東芝 | 音声処理装置、方法、及びプログラム |
JP2015516091A (ja) * | 2012-07-09 | 2015-06-04 | ▲華▼▲為▼終端有限公司Huawei Device Co., Ltd. | 声紋特徴モデルを更新するための方法及び端末 |
KR101780932B1 (ko) * | 2016-02-25 | 2017-09-27 | 주식회사 셀바스에이아이 | 음성 인식 성능을 향상시키기 위한 컴퓨터 프로그램 및 장치 |
JP2018189985A (ja) * | 2018-08-02 | 2018-11-29 | 株式会社東芝 | 電子機器および電子機器の制御方法 |
CN111429935A (zh) * | 2020-02-28 | 2020-07-17 | 北京捷通华声科技股份有限公司 | 一种语音话者分离方法和装置 |
US10832685B2 (en) | 2015-09-15 | 2020-11-10 | Kabushiki Kaisha Toshiba | Speech processing device, speech processing method, and computer program product |
WO2021220789A1 (ja) * | 2020-04-30 | 2021-11-04 | 株式会社日立製作所 | 話者ダイアライゼーション装置、及び話者ダイアライゼーション方法 |
WO2021246304A1 (ja) * | 2020-06-01 | 2021-12-09 | ソニーグループ株式会社 | 信号処理装置、信号処理方法およびプログラム |
JP2022086961A (ja) * | 2020-11-30 | 2022-06-09 | ネイバー コーポレーション | 話者埋め込みに基づく音声活動検出を利用した話者ダイアライゼーション方法、システム、およびコンピュータプログラム |
JP2022530903A (ja) * | 2019-04-29 | 2022-07-04 | 北京声智科技有限公司 | 自動利得制御方法及びその装置、読取可能な記録媒体 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230290355A1 (en) * | 2020-07-10 | 2023-09-14 | Amosense Co., Ltd. | Device for processing voice and operation method thereof |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004318026A (ja) * | 2003-04-14 | 2004-11-11 | Tomohito Nakagawa | セキュリティペットロボット及びその装置に関する信号処理方法 |
JP2005202014A (ja) * | 2004-01-14 | 2005-07-28 | Sony Corp | 音声信号処理装置、音声信号処理方法および音声信号処理プログラム |
JP2007318438A (ja) * | 2006-05-25 | 2007-12-06 | Yamaha Corp | 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム |
JP2007322523A (ja) * | 2006-05-30 | 2007-12-13 | Toshiba Corp | 音声翻訳装置及びその方法 |
-
2008
- 2008-08-27 JP JP2008218677A patent/JP4964204B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004318026A (ja) * | 2003-04-14 | 2004-11-11 | Tomohito Nakagawa | セキュリティペットロボット及びその装置に関する信号処理方法 |
JP2005202014A (ja) * | 2004-01-14 | 2005-07-28 | Sony Corp | 音声信号処理装置、音声信号処理方法および音声信号処理プログラム |
JP2007318438A (ja) * | 2006-05-25 | 2007-12-06 | Yamaha Corp | 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム |
JP2007322523A (ja) * | 2006-05-30 | 2007-12-13 | Toshiba Corp | 音声翻訳装置及びその方法 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015516091A (ja) * | 2012-07-09 | 2015-06-04 | ▲華▼▲為▼終端有限公司Huawei Device Co., Ltd. | 声紋特徴モデルを更新するための方法及び端末 |
US9685161B2 (en) | 2012-07-09 | 2017-06-20 | Huawei Device Co., Ltd. | Method for updating voiceprint feature model and terminal |
US9460714B2 (en) | 2013-09-17 | 2016-10-04 | Kabushiki Kaisha Toshiba | Speech processing apparatus and method |
JP2015060006A (ja) * | 2013-09-17 | 2015-03-30 | 株式会社東芝 | 音声処理装置、方法、及びプログラム |
US10832685B2 (en) | 2015-09-15 | 2020-11-10 | Kabushiki Kaisha Toshiba | Speech processing device, speech processing method, and computer program product |
KR101780932B1 (ko) * | 2016-02-25 | 2017-09-27 | 주식회사 셀바스에이아이 | 음성 인식 성능을 향상시키기 위한 컴퓨터 프로그램 및 장치 |
JP2018189985A (ja) * | 2018-08-02 | 2018-11-29 | 株式会社東芝 | 電子機器および電子機器の制御方法 |
JP2022530903A (ja) * | 2019-04-29 | 2022-07-04 | 北京声智科技有限公司 | 自動利得制御方法及びその装置、読取可能な記録媒体 |
JP7333972B2 (ja) | 2019-04-29 | 2023-08-28 | 北京声智科技有限公司 | 自動利得制御方法及びその装置、読取可能な記録媒体 |
CN111429935A (zh) * | 2020-02-28 | 2020-07-17 | 北京捷通华声科技股份有限公司 | 一种语音话者分离方法和装置 |
CN111429935B (zh) * | 2020-02-28 | 2023-08-29 | 北京捷通华声科技股份有限公司 | 一种语音话者分离方法和装置 |
WO2021220789A1 (ja) * | 2020-04-30 | 2021-11-04 | 株式会社日立製作所 | 話者ダイアライゼーション装置、及び話者ダイアライゼーション方法 |
JP7471139B2 (ja) | 2020-04-30 | 2024-04-19 | 株式会社日立製作所 | 話者ダイアライゼーション装置、及び話者ダイアライゼーション方法 |
WO2021246304A1 (ja) * | 2020-06-01 | 2021-12-09 | ソニーグループ株式会社 | 信号処理装置、信号処理方法およびプログラム |
JP2022086961A (ja) * | 2020-11-30 | 2022-06-09 | ネイバー コーポレーション | 話者埋め込みに基づく音声活動検出を利用した話者ダイアライゼーション方法、システム、およびコンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4964204B2 (ja) | 2012-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4964204B2 (ja) | 複数信号区間推定装置、複数信号区間推定方法、そのプログラムおよび記録媒体 | |
EP3707716B1 (en) | Multi-channel speech separation | |
Barker et al. | The third ‘CHiME’speech separation and recognition challenge: Analysis and outcomes | |
US11138977B1 (en) | Determining device groups | |
JP4875656B2 (ja) | 信号区間推定装置とその方法と、プログラムとその記録媒体 | |
JP6703460B2 (ja) | 音声処理装置、音声処理方法及び音声処理プログラム | |
JP4746533B2 (ja) | 多音源有音区間判定装置、方法、プログラム及びその記録媒体 | |
JP5328744B2 (ja) | 音声認識装置及び音声認識方法 | |
JP6464005B2 (ja) | 雑音抑圧音声認識装置およびそのプログラム | |
JP2012211768A (ja) | 音源定位装置 | |
Tao et al. | Bimodal Recurrent Neural Network for Audiovisual Voice Activity Detection. | |
CN109473102A (zh) | 一种机器人秘书智能会议记录方法及系统 | |
Grondin et al. | WISS, a speaker identification system for mobile robots | |
KR100969138B1 (ko) | 은닉 마코프 모델을 이용한 잡음 마스크 추정 방법 및 이를수행하는 장치 | |
Nakadai et al. | A robot referee for rock-paper-scissors sound games | |
Jeon et al. | Acoustic surveillance of hazardous situations using nonnegative matrix factorization and hidden Markov model | |
Espi et al. | Acoustic event detection in speech overlapping scenarios based on high-resolution spectral input and deep learning | |
Giannoulis et al. | The Athena-RC system for speech activity detection and speaker localization in the DIRHA smart home | |
Tachioka et al. | Ensemble integration of calibrated speaker localization and statistical speech detection in domestic environments | |
JP5672175B2 (ja) | 話者判別装置、話者判別プログラム及び話者判別方法 | |
JP2021162685A (ja) | 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム | |
JP5044581B2 (ja) | 複数信号強調装置とその方法と、プログラム | |
Tachioka et al. | Dereverberation method with reverberation time estimation using floored ratio of spectral subtraction | |
JP6059112B2 (ja) | 音源分離装置とその方法とプログラム | |
JP5672155B2 (ja) | 話者判別装置、話者判別プログラム及び話者判別方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100726 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110810 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111215 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111227 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120221 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120321 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120327 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4964204 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150406 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |