JP6853163B2 - 話者方向推定装置、話者方向推定方法、およびプログラム - Google Patents
話者方向推定装置、話者方向推定方法、およびプログラム Download PDFInfo
- Publication number
- JP6853163B2 JP6853163B2 JP2017226965A JP2017226965A JP6853163B2 JP 6853163 B2 JP6853163 B2 JP 6853163B2 JP 2017226965 A JP2017226965 A JP 2017226965A JP 2017226965 A JP2017226965 A JP 2017226965A JP 6853163 B2 JP6853163 B2 JP 6853163B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- feature amount
- acoustic
- image
- direction estimation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Description
第一実施形態の話者方向推定装置は、ある目的音の方向を推定して指向性集音を実施する際に、雑音源等で方向推定を誤動作させないために、空間音響情報に言語に由来する情報や画像に由来する情報を追加し、目的音方向を確率統計的な手法により推定する装置である。
〔参考文献1〕特開2017−107141号公報
〔参考文献2〕特開2017−97188号公報
〔参考文献3〕特開2009−44588号公報
第一実施形態の話者方向推定装置は、方向毎のパワーといった空間的な音響特徴量に加えて、特定音検出結果や話者識別結果といった言語に由来する特徴量を用いて話者方向の推定を行った。第二実施形態の話者方向推定装置は、第一実施形態の構成に加えて、カメラで撮像した画像信号を用いて顔認識や顔検出といった画像に由来する特徴量を用いて話者方向の推定を行う。第二実施形態の話者方向推定装置は、例えば、マイクロホンとカメラを搭載したロボットとして構成することを想定すると、話者がそのロボットに向かって話しかけているか否かを推定することを可能とする。
〔参考文献4〕新井啓之、伊藤直己、片岡香織、谷口行信、“画像処理による広告効果測定技術−人数計測技術・顔画像技術の応用”、NTT技術ジャーナル 2013.1、vol. 25、pp. 61-64、2013年
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
2 指向性集音部
10 音響特徴量抽出部
101 方向選択前処理部
102 方向別パワー算出部
103 方向別特定音検出部
104 方向別話者認識部
11 画像特徴量抽出部
111 画像認識前処理部
112 顔向き検出部
113 画面占有率算出部
20 方向推定部
91 方向別パワー算出部
92 方向選択部
Claims (6)
- カメラにより撮影された所望の話者を含む画像と、少なくとも前記所望の話者から発せられた音を収音するように設置されたマイクロホンにより収音された音響信号とから前記所望の話者の方向を推定する話者方向推定装置であって、
前記収音された音響信号から得られる少なくとも1つの指標値に対応する音響特徴量を抽出する音響特徴量抽出部と、
前記所望の話者を含む画像から前記所望の話者が話しかけている方向を推定するための画像特徴量を抽出する画像特徴量抽出部と、
前記音響特徴量と前記画像特徴量から前記所望の話者の方向を推定する方向推定部と、
を含み、
前記音響特徴量抽出部は、少なくとも前記音響信号から抽出した予め定められた特定音が含まれるか否かを示す指標値を含む前記音響特徴量を抽出するものである、
話者方向推定装置。 - 請求項1に記載の話者方向推定装置であって、
前記方向推定部は、確率統計的な手法を用いて前記音響特徴量と前記画像特徴量から前記所望の話者の方向を推定するものである、
話者方向推定装置。 - 請求項1または2に記載の話者方向推定装置であって、
前記音響特徴量抽出部は、前記音響信号のパワーを示す指標値と、前記音響信号のパワーの時間変化の分散を示す指標値と、前記所望の話者に対する話者識別結果を示す指標値と、前記音響信号に前記特定音が含まれるか否かを示す指標値のいずれかを含む前記音響特徴量を抽出するものである、
話者方向推定装置。 - 請求項1から3のいずれかに記載の話者方向推定装置であって、
前記画像特徴量抽出部は、前記所望の話者の顔の向きを示す指標値と、前記所望の話者の顔が画面を占める占有率を示す指標値とを含む前記画像特徴量を抽出するものである、
話者方向推定装置。 - カメラにより撮影された所望の話者を含む画像と、少なくとも前記所望の話者から発せられた音を収音するように設置されたマイクロホンにより収音された音響信号とから前記所望の話者の方向を推定する話者方向推定装置が実行する話者方向推定方法であって、
音響特徴量抽出部が、前記収音された音響信号から得られる少なくとも1つの指標値に対応する音響特徴量を抽出し、
前記音響特徴量抽出部は、少なくとも前記音響信号から抽出した予め定められた特定音が含まれるか否かを示す指標値を含む前記音響特徴量を抽出するものであり、
画像特徴量抽出部が、前記所望の話者を含む画像から所望の話者が話しかけているか方向を推定するための画像特徴量を抽出し、
方向推定部が、前記音響特徴量と前記画像特徴量から前記所望の話者の方向を推定する、
話者方向推定方法。 - 請求項1から4のいずれかに記載の話者方向推定装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017226965A JP6853163B2 (ja) | 2017-11-27 | 2017-11-27 | 話者方向推定装置、話者方向推定方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017226965A JP6853163B2 (ja) | 2017-11-27 | 2017-11-27 | 話者方向推定装置、話者方向推定方法、およびプログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021023231A Division JP7111206B2 (ja) | 2021-02-17 | 2021-02-17 | 話者方向強調装置、話者方向強調方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019095699A JP2019095699A (ja) | 2019-06-20 |
JP6853163B2 true JP6853163B2 (ja) | 2021-03-31 |
Family
ID=66971536
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017226965A Active JP6853163B2 (ja) | 2017-11-27 | 2017-11-27 | 話者方向推定装置、話者方向推定方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6853163B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6881267B2 (ja) * | 2017-12-05 | 2021-06-02 | 日本電信電話株式会社 | 制御装置、変換装置、制御方法、変換方法、およびプログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3910898B2 (ja) * | 2002-09-17 | 2007-04-25 | 株式会社東芝 | 指向性設定装置、指向性設定方法及び指向性設定プログラム |
US7885818B2 (en) * | 2002-10-23 | 2011-02-08 | Koninklijke Philips Electronics N.V. | Controlling an apparatus based on speech |
JP5215826B2 (ja) * | 2008-11-28 | 2013-06-19 | 日本電信電話株式会社 | 複数信号区間推定装置とその方法とプログラム |
JP2013104938A (ja) * | 2011-11-11 | 2013-05-30 | Sony Corp | 情報処理装置、および情報処理方法、並びにプログラム |
JP6464449B2 (ja) * | 2014-08-29 | 2019-02-06 | 本田技研工業株式会社 | 音源分離装置、及び音源分離方法 |
-
2017
- 2017-11-27 JP JP2017226965A patent/JP6853163B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2019095699A (ja) | 2019-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4462339B2 (ja) | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム | |
US11699442B2 (en) | Methods and systems for speech detection | |
US20110224978A1 (en) | Information processing device, information processing method and program | |
JP2009031951A (ja) | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム | |
US11094337B2 (en) | Cough detection device, cough detection method, and recording medium | |
JP2015057630A (ja) | 音響イベント識別モデル学習装置、音響イベント検出装置、音響イベント識別モデル学習方法、音響イベント検出方法及びプログラム | |
US11430437B2 (en) | Information processor and information processing method | |
US20240029736A1 (en) | Voice wakeup method and apparatus, storage medium, and system | |
WO2019163736A1 (ja) | マスク推定装置、モデル学習装置、音源分離装置、マスク推定方法、モデル学習方法、音源分離方法及びプログラム | |
JP6368798B2 (ja) | 監視装置、監視システムおよび監視方法 | |
CN113628612A (zh) | 语音识别方法、装置、电子设备及计算机可读存储介质 | |
JP2021516393A (ja) | 群集推定手法の性能モデリング方法、システム、及びプログラム | |
CN114821066A (zh) | 模型训练方法、装置、电子设备及计算机可读存储介质 | |
JP6853163B2 (ja) | 話者方向推定装置、話者方向推定方法、およびプログラム | |
JP7247133B2 (ja) | 検出装置、検出方法およびプログラム | |
JP7111206B2 (ja) | 話者方向強調装置、話者方向強調方法、およびプログラム | |
US11107476B2 (en) | Speaker estimation method and speaker estimation device | |
JP6881267B2 (ja) | 制御装置、変換装置、制御方法、変換方法、およびプログラム | |
CN113077803A (zh) | 一种语音处理方法、装置、可读存储介质及电子设备 | |
US11451694B1 (en) | Mitigation of obstacles while capturing media content | |
CN115910047B (zh) | 数据处理方法、模型训练方法、关键词检测方法及设备 | |
WO2022181253A1 (ja) | 関節点検出装置、学習モデル生成装置、関節点検出方法、学習モデル生成方法、及びコンピュータ読み取り可能な記録媒体 | |
KR20220090940A (ko) | 스토리 기반 영상매체의 등장인물 시선 추적을 통한 화자-청자 인식 및 시선 상호작용 분석 시스템 및 방법 | |
US20240078699A1 (en) | Image processing apparatus, image processing method, and non-transitory storage medium | |
CN116386620A (zh) | 用于设备语音控制的方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191219 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200929 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201027 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20201217 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210217 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210309 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210311 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6853163 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |