JP7111206B2 - 話者方向強調装置、話者方向強調方法、およびプログラム - Google Patents
話者方向強調装置、話者方向強調方法、およびプログラム Download PDFInfo
- Publication number
- JP7111206B2 JP7111206B2 JP2021023231A JP2021023231A JP7111206B2 JP 7111206 B2 JP7111206 B2 JP 7111206B2 JP 2021023231 A JP2021023231 A JP 2021023231A JP 2021023231 A JP2021023231 A JP 2021023231A JP 7111206 B2 JP7111206 B2 JP 7111206B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- unit
- acoustic
- sound
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
第一実施形態の話者方向推定装置は、ある目的音の方向を推定して指向性集音を実施する際に、雑音源等で方向推定を誤動作させないために、空間音響情報に言語に由来する情報や画像に由来する情報を追加し、目的音方向を確率統計的な手法により推定する装置である。
〔参考文献1〕特開2017-107141号公報
〔参考文献2〕特開2017-97188号公報
〔参考文献3〕特開2009-44588号公報
第一実施形態の話者方向推定装置は、方向毎のパワーといった空間的な音響特徴量に加えて、特定音検出結果や話者識別結果といった言語に由来する特徴量を用いて話者方向の推定を行った。第二実施形態の話者方向推定装置は、第一実施形態の構成に加えて、カメラで撮像した画像信号を用いて顔認識や顔検出といった画像に由来する特徴量を用いて話者方向の推定を行う。第二実施形態の話者方向推定装置は、例えば、マイクロホンとカメラを搭載したロボットとして構成することを想定すると、話者がそのロボットに向かって話しかけているか否かを推定することを可能とする。
〔参考文献4〕新井啓之、伊藤直己、片岡香織、谷口行信、“画像処理による広告効果測定技術-人数計測技術・顔画像技術の応用”、NTT技術ジャーナル 2013.1、vol. 25、pp. 61-64、2013年
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
2 指向性集音部
10 音響特徴量抽出部
101 方向選択前処理部
102 方向別パワー算出部
103 方向別特定音検出部
104 方向別話者認識部
11 画像特徴量抽出部
111 画像認識前処理部
112 顔向き検出部
113 画面占有率算出部
20 方向推定部
91 方向別パワー算出部
92 方向選択部
Claims (4)
- 少なくとも所望の話者から発せられた音を収音するように設置されたマイクロホンにより収音された音響信号から推定した前記所望の話者の方向を強調する話者方向強調装置であって、
前記音響信号のパワーやパワーの時間平均の分散の値、前記音響信号において予め定められた特定音が含まれるか否か、前記音響信号から識別された話者が登録話者であるか否か、を示すもののうち少なくとも1つの指標値を含む組み合わせの特徴量を抽出する音響特徴量抽出部と、
前記音響特徴量抽出部により抽出された特徴量から前記所望の話者の方向を推定する方向推定部と、
前記方向推定部により推定された方向を強調して集音する指向性集音部と、
を含み、
前記方向推定部による推定は、ある方向dにおいて抽出されたK個の特徴量を持つ特徴ベクトルx d を次式で定義した場合、
前記特徴ベクトルx d の各要素に前記音響特徴量抽出部により抽出された特徴量を設定し、前記ある方向dが話者であるか否かを表すクラスをC d =[0, 1]とした場合に、次式で定義されるように、前記クラスC d が話者(=1)となる確率p(C d =1|x d )が最大となる方向^dを求めることにより前記所望の話者の方向を推定する、話者方向強調装置。
- 請求項1に記載の話者方向強調装置であって、
前記音響特徴量抽出部は、前記指標値に代えて、または前記指標値と共に、話者の属性、話者の行動のいずれかを抽出する、
話者方向強調装置。 - 少なくとも所望の話者から発せられた音を収音するように設置されたマイクロホンにより収音された音響信号から推定した前記所望の話者の方向を強調する話者方向強調装置が実行する話者方向強調方法であって、
音響特徴量抽出部が、前記音響信号のパワーやパワーの時間平均の分散の値、前記音響信号において予め定められた特定音が含まれるか否か、前記音響信号から識別された話者が登録話者であるか否か、を示すもののうち少なくとも1つの指標値を含む組み合わせの特徴量を抽出し、
方向推定部が、前記音響特徴量抽出部により抽出された特徴量から前記所望の話者の方向を推定し、
指向性集音部が、前記方向推定部により推定された方向を強調して集音するものであり、
前記方向推定部による推定は、ある方向dにおいて抽出されたK個の特徴量を持つ特徴ベクトルx d を次式で定義した場合、
前記特徴ベクトルx d の各要素に前記音響特徴量抽出部により抽出された特徴量を設定し、前記ある方向dが話者であるか否かを表すクラスをC d =[0, 1]とした場合に、次式で定義されるように、前記クラスC d が話者(=1)となる確率p(C d =1|x d )が最大となる方向^dを求めることにより前記所望の話者の方向を推定する、
話者方向強調方法。
- 請求項1または2に記載の話者方向強調装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021023231A JP7111206B2 (ja) | 2021-02-17 | 2021-02-17 | 話者方向強調装置、話者方向強調方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021023231A JP7111206B2 (ja) | 2021-02-17 | 2021-02-17 | 話者方向強調装置、話者方向強調方法、およびプログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017226965A Division JP6853163B2 (ja) | 2017-11-27 | 2017-11-27 | 話者方向推定装置、話者方向推定方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021076874A JP2021076874A (ja) | 2021-05-20 |
JP7111206B2 true JP7111206B2 (ja) | 2022-08-02 |
Family
ID=75900043
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021023231A Active JP7111206B2 (ja) | 2021-02-17 | 2021-02-17 | 話者方向強調装置、話者方向強調方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7111206B2 (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001296891A (ja) | 2000-04-14 | 2001-10-26 | Mitsubishi Electric Corp | 音声認識方法および装置 |
JP2004109361A (ja) | 2002-09-17 | 2004-04-08 | Toshiba Corp | 指向性設定装置、指向性設定方法及び指向性設定プログラム |
JP2005274707A (ja) | 2004-03-23 | 2005-10-06 | Sony Corp | 情報処理装置および方法、プログラム、並びに記録媒体 |
WO2011055410A1 (ja) | 2009-11-06 | 2011-05-12 | 株式会社 東芝 | 音声認識装置 |
JP2013104938A (ja) | 2011-11-11 | 2013-05-30 | Sony Corp | 情報処理装置、および情報処理方法、並びにプログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6450139B2 (ja) * | 2014-10-10 | 2019-01-09 | 株式会社Nttドコモ | 音声認識装置、音声認識方法、及び音声認識プログラム |
-
2021
- 2021-02-17 JP JP2021023231A patent/JP7111206B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001296891A (ja) | 2000-04-14 | 2001-10-26 | Mitsubishi Electric Corp | 音声認識方法および装置 |
JP2004109361A (ja) | 2002-09-17 | 2004-04-08 | Toshiba Corp | 指向性設定装置、指向性設定方法及び指向性設定プログラム |
JP2005274707A (ja) | 2004-03-23 | 2005-10-06 | Sony Corp | 情報処理装置および方法、プログラム、並びに記録媒体 |
WO2011055410A1 (ja) | 2009-11-06 | 2011-05-12 | 株式会社 東芝 | 音声認識装置 |
JP2013104938A (ja) | 2011-11-11 | 2013-05-30 | Sony Corp | 情報処理装置、および情報処理方法、並びにプログラム |
Non-Patent Citations (1)
Title |
---|
中島栄俊他4名,頭部回転型音源分離システムを用いた特定単語認識と頭部回転制御,日本音響学会2006年春季研究発表会[CD-ROM],2006年03月,pp.643-644 |
Also Published As
Publication number | Publication date |
---|---|
JP2021076874A (ja) | 2021-05-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107799126B (zh) | 基于有监督机器学习的语音端点检测方法及装置 | |
KR102492783B1 (ko) | 화자 임베딩(들)과 트레이닝된 생성 모델을 이용한 화자 분리 | |
JP4462339B2 (ja) | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム | |
JP5644772B2 (ja) | 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム | |
US20110224978A1 (en) | Information processing device, information processing method and program | |
JP2015057630A (ja) | 音響イベント識別モデル学習装置、音響イベント検出装置、音響イベント識別モデル学習方法、音響イベント検出方法及びプログラム | |
JP2009031951A (ja) | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム | |
JP6958723B2 (ja) | 信号処理システム、信号処理装置、信号処理方法、およびプログラム | |
CN112949708B (zh) | 情绪识别方法、装置、计算机设备和存储介质 | |
US11430437B2 (en) | Information processor and information processing method | |
Lin et al. | Activity recognition using a combination of category components and local models for video surveillance | |
CN113628612A (zh) | 语音识别方法、装置、电子设备及计算机可读存储介质 | |
WO2019163736A1 (ja) | マスク推定装置、モデル学習装置、音源分離装置、マスク推定方法、モデル学習方法、音源分離方法及びプログラム | |
JP7111206B2 (ja) | 話者方向強調装置、話者方向強調方法、およびプログラム | |
JP6853163B2 (ja) | 話者方向推定装置、話者方向推定方法、およびプログラム | |
JP2013257418A (ja) | 情報処理装置、および情報処理方法、並びにプログラム | |
JP6881267B2 (ja) | 制御装置、変換装置、制御方法、変換方法、およびプログラム | |
CN113077803B (zh) | 一种语音处理方法、装置、可读存储介质及电子设备 | |
CN113191364A (zh) | 车辆外观部件识别方法、装置、电子设备和介质 | |
Besson et al. | Hypothesis testing for evaluating a multimodal pattern recognition framework applied to speaker detection | |
CN111951791A (zh) | 声纹识别模型训练方法、识别方法、电子设备及存储介质 | |
CN112185367A (zh) | 关键词检测方法和装置、计算机可读存储介质、电子设备 | |
CN115910047B (zh) | 数据处理方法、模型训练方法、关键词检测方法及设备 | |
CN113409802B (zh) | 语音信号的增强处理方法、装置、设备及存储介质 | |
US20220208184A1 (en) | Anomaly detection apparatus, anomaly detection method, and anomaly detection system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210217 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211118 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211214 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220128 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220621 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220704 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7111206 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |