JP2019095699A - 話者方向推定装置、話者方向推定方法、およびプログラム - Google Patents
話者方向推定装置、話者方向推定方法、およびプログラム Download PDFInfo
- Publication number
- JP2019095699A JP2019095699A JP2017226965A JP2017226965A JP2019095699A JP 2019095699 A JP2019095699 A JP 2019095699A JP 2017226965 A JP2017226965 A JP 2017226965A JP 2017226965 A JP2017226965 A JP 2017226965A JP 2019095699 A JP2019095699 A JP 2019095699A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- acoustic
- feature quantity
- direction estimation
- acoustic feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
第一実施形態の話者方向推定装置は、ある目的音の方向を推定して指向性集音を実施する際に、雑音源等で方向推定を誤動作させないために、空間音響情報に言語に由来する情報や画像に由来する情報を追加し、目的音方向を確率統計的な手法により推定する装置である。
〔参考文献1〕特開2017−107141号公報
〔参考文献2〕特開2017−97188号公報
〔参考文献3〕特開2009−44588号公報
第一実施形態の話者方向推定装置は、方向毎のパワーといった空間的な音響特徴量に加えて、特定音検出結果や話者識別結果といった言語に由来する特徴量を用いて話者方向の推定を行った。第二実施形態の話者方向推定装置は、第一実施形態の構成に加えて、カメラで撮像した画像信号を用いて顔認識や顔検出といった画像に由来する特徴量を用いて話者方向の推定を行う。第二実施形態の話者方向推定装置は、例えば、マイクロホンとカメラを搭載したロボットとして構成することを想定すると、話者がそのロボットに向かって話しかけているか否かを推定することを可能とする。
〔参考文献4〕新井啓之、伊藤直己、片岡香織、谷口行信、“画像処理による広告効果測定技術−人数計測技術・顔画像技術の応用”、NTT技術ジャーナル 2013.1、vol. 25、pp. 61-64、2013年
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
2 指向性集音部
10 音響特徴量抽出部
101 方向選択前処理部
102 方向別パワー算出部
103 方向別特定音検出部
104 方向別話者認識部
11 画像特徴量抽出部
111 画像認識前処理部
112 顔向き検出部
113 画面占有率算出部
20 方向推定部
91 方向別パワー算出部
92 方向選択部
Claims (8)
- カメラにより撮影された所望の話者を含む画像と、少なくとも前記所望の話者から発せられた音を収音するように設置されたマイクロホンにより収音された音響信号とから前記所望の話者の方向を推定する話者方向推定装置であって、
前記収音された音響信号から得られる少なくとも1つの指標値に対応する音響特徴量を抽出する音響特徴量抽出部と、
前記所望の話者を含む画像から前記所望の話者が話しかけている方向を推定するための画像特徴量を抽出する画像特徴量抽出部と、
前記音響特徴量と前記画像特徴量から前記所望の話者の方向を推定する方向推定部と、
を含み、
前記音響特徴量抽出部は、前記音響信号が予め定められた特定音を含む場合、少なくとも前記特定音に対応する前記音響信号から抽出した前記特定音が含まれるか否かを示す指標値を含む前記音響特徴量を抽出するものである、
話者方向推定装置。 - 請求項1に記載の話者方向推定装置であって、
前記方向推定部は、確率統計的な手法を用いて前記音響特徴量と前記画像特徴量から前記所望の話者の方向を推定するものである、
話者方向推定装置。 - 請求項1または2に記載の話者方向推定装置であって、
前記音響特徴量抽出部は、前記音響信号のパワーを示す指標値と、前記音響信号のパワーの時間変化の分散を示す指標値と、前記所望の話者に対する話者識別結果を示す指標値と、前記音響信号に前記特定音が含まれるか否かを示す指標値のいずれかを含む前記音響特徴量を抽出するものである、
話者方向推定装置。 - 請求項1から3のいずれかに記載の話者方向推定装置であって、
前記画像特徴量抽出部は、前記所望の話者の顔の向きを示す指標値と、前記所望の話者の顔が画面を占める占有率を示す指標値とを含む前記画像特徴量を抽出するものである、
話者方向推定装置。 - 少なくとも所望の話者から発せられた音を収音するように設置されたマイクロホンにより収音された音響信号から前記所望の話者の方向を推定する話者方向推定装置であって、
前記収音された音響信号から得られる少なくとも1つの指標値に対応する音響特徴量を抽出する音響特徴量抽出部と、
前記音響特徴量から前記所望の話者の方向を推定する方向推定部と、
を含み、
前記音響特徴量抽出部は、前記音響信号が予め定められた特定音を含む場合、少なくとも前記特定音に対応する前記音響信号から抽出した前記特定音が含まれるか否かを示す指標値を含む前記音響特徴量を抽出するものである、
話者方向推定装置。 - カメラにより撮影された所望の話者を含む画像と、少なくとも前記所望の話者から発せられた音を収音するように設置されたマイクロホンにより収音された音響信号とから前記所望の話者の方向を推定する話者方向推定装置が実行する話者方向推定方法であって、
音響特徴量抽出部が、前記収音された音響信号から得られる少なくとも1つの指標値に対応する音響特徴量を抽出し、
前記音響特徴量抽出部は、前記音響信号が予め定められた特定音を含む場合、少なくとも前記特定音に対応する前記音響信号から抽出した前記特定音が含まれるか否かを示す指標値を含む前記音響特徴量を抽出するものであり、
画像特徴量抽出部が、前記所望の話者を含む画像から所望の話者が話しかけているか方向を推定するための画像特徴量を抽出し、
方向推定部が、前記音響特徴量と前記画像特徴量から前記所望の話者の方向を推定する、
話者方向推定方法。 - 少なくとも所望の話者から発せられた音を収音するように設置されたマイクロホンにより収音された音響信号から前記所望の話者の方向を推定する話者方向推定装置が実行する話者方向推定方法であって、
音響特徴量抽出部が、前記収音された音響信号から得られる少なくとも1つの指標値に対応する音響特徴量を抽出し、
前記音響特徴量抽出部は、前記音響信号が予め定められた特定音を含む場合、少なくとも前記特定音に対応する前記音響信号から抽出した前記特定音が含まれるか否かを示す指標値を含む前記音響特徴量を抽出するものであり、
方向推定部が、前記音響特徴量から前記所望の話者の方向を推定する、
話者方向推定方法。 - 請求項1から5のいずれかに記載の話者方向推定装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017226965A JP6853163B2 (ja) | 2017-11-27 | 2017-11-27 | 話者方向推定装置、話者方向推定方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017226965A JP6853163B2 (ja) | 2017-11-27 | 2017-11-27 | 話者方向推定装置、話者方向推定方法、およびプログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021023231A Division JP7111206B2 (ja) | 2021-02-17 | 2021-02-17 | 話者方向強調装置、話者方向強調方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019095699A true JP2019095699A (ja) | 2019-06-20 |
JP6853163B2 JP6853163B2 (ja) | 2021-03-31 |
Family
ID=66971536
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017226965A Active JP6853163B2 (ja) | 2017-11-27 | 2017-11-27 | 話者方向推定装置、話者方向推定方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6853163B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019103011A (ja) * | 2017-12-05 | 2019-06-24 | 日本電信電話株式会社 | 変換装置、変換方法、およびプログラム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004109361A (ja) * | 2002-09-17 | 2004-04-08 | Toshiba Corp | 指向性設定装置、指向性設定方法及び指向性設定プログラム |
JP2006504130A (ja) * | 2002-10-23 | 2006-02-02 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声に基づく装置制御 |
JP2010130411A (ja) * | 2008-11-28 | 2010-06-10 | Nippon Telegr & Teleph Corp <Ntt> | 複数信号区間推定装置とその方法とプログラム |
JP2013104938A (ja) * | 2011-11-11 | 2013-05-30 | Sony Corp | 情報処理装置、および情報処理方法、並びにプログラム |
JP2016051081A (ja) * | 2014-08-29 | 2016-04-11 | 本田技研工業株式会社 | 音源分離装置、及び音源分離方法 |
-
2017
- 2017-11-27 JP JP2017226965A patent/JP6853163B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004109361A (ja) * | 2002-09-17 | 2004-04-08 | Toshiba Corp | 指向性設定装置、指向性設定方法及び指向性設定プログラム |
JP2006504130A (ja) * | 2002-10-23 | 2006-02-02 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声に基づく装置制御 |
JP2010130411A (ja) * | 2008-11-28 | 2010-06-10 | Nippon Telegr & Teleph Corp <Ntt> | 複数信号区間推定装置とその方法とプログラム |
JP2013104938A (ja) * | 2011-11-11 | 2013-05-30 | Sony Corp | 情報処理装置、および情報処理方法、並びにプログラム |
JP2016051081A (ja) * | 2014-08-29 | 2016-04-11 | 本田技研工業株式会社 | 音源分離装置、及び音源分離方法 |
Non-Patent Citations (1)
Title |
---|
中島 栄俊 他4名: "頭部回転型音源分離システムを用いた特定単語認識と頭部回転制御", 日本音響学会 2006年 春季研究発表会, JPN6020039885, 16 March 2006 (2006-03-16), pages 643 - 644, ISSN: 0004369720 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019103011A (ja) * | 2017-12-05 | 2019-06-24 | 日本電信電話株式会社 | 変換装置、変換方法、およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6853163B2 (ja) | 2021-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9286889B2 (en) | Improving voice communication over a network | |
JP4462339B2 (ja) | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム | |
US20110224978A1 (en) | Information processing device, information processing method and program | |
KR20210008520A (ko) | 화자 임베딩(들)과 트레이닝된 생성 모델을 이용한 화자 분리 | |
JP5644772B2 (ja) | 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム | |
CN107077847A (zh) | 关键短语用户识别的增强 | |
JP2009031951A (ja) | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム | |
US20200152191A1 (en) | Information processor and information procesing method | |
WO2019163736A1 (ja) | マスク推定装置、モデル学習装置、音源分離装置、マスク推定方法、モデル学習方法、音源分離方法及びプログラム | |
JP4490076B2 (ja) | 物体追跡方法、物体追跡装置、プログラム、および、記録媒体 | |
JP6853163B2 (ja) | 話者方向推定装置、話者方向推定方法、およびプログラム | |
JP7111206B2 (ja) | 話者方向強調装置、話者方向強調方法、およびプログラム | |
CN112420043A (zh) | 基于语音的智能唤醒方法、装置、电子设备及存储介质 | |
JP6881267B2 (ja) | 制御装置、変換装置、制御方法、変換方法、およびプログラム | |
US11107476B2 (en) | Speaker estimation method and speaker estimation device | |
Jeon et al. | Acoustic surveillance of hazardous situations using nonnegative matrix factorization and hidden Markov model | |
JP2018092117A (ja) | 音響信号処理のパラメータ予測装置及びパラメータ予測方法 | |
CN113077803A (zh) | 一种语音处理方法、装置、可读存储介质及电子设备 | |
CN112307260A (zh) | 视频鉴别方法、装置、电子设备及计算机可读存储介质 | |
CN115910047B (zh) | 数据处理方法、模型训练方法、关键词检测方法及设备 | |
CN113409802B (zh) | 语音信号的增强处理方法、装置、设备及存储介质 | |
JP2020024310A (ja) | 音声処理システム及び音声処理方法 | |
US20240078699A1 (en) | Image processing apparatus, image processing method, and non-transitory storage medium | |
JP6059112B2 (ja) | 音源分離装置とその方法とプログラム | |
US11451694B1 (en) | Mitigation of obstacles while capturing media content |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191219 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200929 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201027 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20201217 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210217 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210309 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210311 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6853163 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |