JP2021015084A - 音源定位装置及び音源定位方法 - Google Patents
音源定位装置及び音源定位方法 Download PDFInfo
- Publication number
- JP2021015084A JP2021015084A JP2019131048A JP2019131048A JP2021015084A JP 2021015084 A JP2021015084 A JP 2021015084A JP 2019131048 A JP2019131048 A JP 2019131048A JP 2019131048 A JP2019131048 A JP 2019131048A JP 2021015084 A JP2021015084 A JP 2021015084A
- Authority
- JP
- Japan
- Prior art keywords
- stage
- outputs
- layer
- post
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
Description
前記前段処理層は、再帰層、全結合層、プーリング層、畳み込み層及び入力層のうちのいずれかの層であってもよい。
前記複数の処理層のそれぞれに対して、前記後段抽出ステップ及び前記前段抽出ステップを実行してもよい。
図1は、音源定位システムSの概要を説明するための図である。音源定位システムSは、音源定位、すなわち、3次元空間における音源の位置を推定するシステムである。音源定位システムSは、複数の受音装置1と、音源定位装置2とを有する。
以下、音源定位装置2の詳細について説明する。
図3は、音源定位装置2の構成を示す図である。音源定位装置2は、操作部21、記憶部22、及び制御部23を有する。
続いて、抽出部233が行う抽出処理について説明する。上述のとおり、抽出部233は、後段抽出部234及び前段抽出部235を有する。後段抽出部234は、第1音声が複数の処理層の一部である前段処理層及び後段処理層の順に伝搬したことにより後段処理層から出力された複数の後段第1出力、及び第2音声が前段処理層及び後段処理層の順に伝搬したことにより後段処理層から出力された複数の後段第2出力から、共通に活性化している一以上の後段第1出力及び一以上の後段第2出力を抽出する。具体的には、後段抽出部234は、第1音声に含まれる第1フレームに基づいて後段処理層から出力された複数の後段第1出力、及び第2音声において第1フレームと対応関係にある第2フレームに基づいて後段処理層から出力された複数の後段第2出力から、共通に活性化している一以上の後段第1出力及び一以上の後段第2出力を抽出する。
続いて、音源定位装置2が行う処理の流れを説明する。図8は、音源定位装置2が行う処理の流れを示すフローチャートである。本フローチャートは、例えば、記憶部22に記憶されている第1音声と第2音声とを取得したことを契機として開始する(S1)。取得部231は、取得した第1音声と第2音声とを、伝搬制御部232に入力する。
以上説明したとおり、音源定位システムSは、取得した第1音声及び第2音声のそれぞれに、機械学習モデルMに含まれる複数の処理層を伝搬させる。音源定位システムSは、伝搬させた順とは逆の順序で後段処理層及び前段処理層の両方の処理層において共通に活性化している一以上の第1出力及び一以上の第2出力を、処理層ごとに抽出し、対応関係にある一以上の第1音響特徴量及び一以上の第2音響特徴量をそれぞれ検出する。そして、音源定位システムSは、検出した一以上の第1音響特徴量及び一以上の第2音響特徴量に基づいて、第1音声及び第2音声それぞれに含まれる音の発生源である音源の位置を推定し、推定した音源の位置を示す情報を出力する。
2 音源定位装置
21 操作部
22 記憶部
23 制御部
231 取得部
232 伝搬制御部
233 抽出部
234 後段抽出部
235 前段抽出部
236 指示受付部
237 特徴量検出部
238 選択部
239 音源定位部
240 出力部
Claims (14)
- 第1受音装置が受音した第1音声と、前記第1受音装置とは異なる位置に設置された第2受音装置が受音した第2音声とを取得する取得部と、
前記第1音声及び前記第2音声のそれぞれに、入力された音声の内容を示すテキスト情報を出力可能な機械学習モデルに含まれる複数の処理層を伝搬させる伝搬制御部と、
前記複数の処理層から選択した後段処理層、及び前記後段処理層の直前の処理層である前段処理層の両方の処理層において共通に活性化しているユニットを含む、前記第1音声に基づいて前記後段処理層及び前記前段処理層から出力された一以上の第1出力と前記第2音声に基づいて前記後段処理層及び前記前段処理層から出力された一以上の第2出力とを抽出する抽出部と、
前記一以上の第1出力に基づいて一以上の第1音響特徴量を検出し、かつ前記一以上の第2出力に基づいて一以上の第2音響特徴量を検出する特徴量検出部と、
前記一以上の第1音響特徴量と前記一以上の第2音響特徴量とに基づいて、前記第1音声及び前記第2音声それぞれに含まれる音の発生源である音源の位置を推定する音源定位部と、
前記音源定位部が推定した前記音源の位置を示す情報を出力する出力部と、
を有する音源定位装置。 - 前記音源定位部は、前記第1受音装置が前記第1音響特徴量に対応する音声を受音した時刻と、前記第2受音装置が前記第2音響特徴量に対応する音声を受音した時刻との関係、並びに前記第1受音装置の位置と、前記第2受音装置の位置との関係に基づいて、前記音源の位置を推定する、
請求項1に記載の音源定位装置。 - 前記抽出部は、
前記第1音声が前記複数の処理層の一部である前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段第1出力、及び前記第2音声が前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段第2出力から、共通に活性化している一以上の後段第1出力及び一以上の後段第2出力を抽出する後段抽出部と、
前記一以上の後段第1出力及び前記一以上の後段第2出力を活性化させる要因となった前記前段処理層から出力された複数の前段第1出力、及び前記前段処理層から出力された複数の前段第2出力のうち、共通に活性化している一以上の前段第1出力及び一以上の前段第2出力を抽出する前段抽出部と、
を有する、
請求項1又は2に記載の音源定位装置。 - 前記前段抽出部は、前記複数の前段第1出力及び前記複数の前段第2出力のうち、活性化している大きさに基づいて、前記一以上の前段第1出力及び前記一以上の前段第2出力を抽出する、
請求項3に記載の音源定位装置。 - 前記機械学習モデルは、再帰型ニューラルネットワークを含み、
前記後段処理層は、出力層、再帰層、全結合層、プーリング層及び畳み込み層のうちのいずれかの層である、
請求項3又は4に記載の音源定位装置。 - 前記前段処理層は、再帰層、全結合層、プーリング層、畳み込み層及び入力層のうちのいずれかの層である、
請求項3から5のいずれか一項に記載の音源定位装置。 - 前記抽出部は、前記複数の処理層のうち、最後尾の処理層である最後尾層を後段処理層として選択した場合において、前記最後尾層において共通に活性化している前記一以上の第1出力及び前記一以上の第2出力がない場合、前記最後尾層より前の処理層において共通に活性化している前記一以上の第1出力及び前記一以上の第2出力を抽出する、
請求項1から6のいずれか一項に記載の音源定位装置。 - 前記特徴量検出部が特定した前記一以上の第1音響特徴量及び前記一以上の第2音響特徴量から、相互の対応関係に基づいて一部の第1音響特徴量及び一部の第2音響特徴量を選択する選択部をさらに有し、
前記音源定位部は、前記一部の第1音響特徴量と前記一部の第2音響特徴量とに基づいて、前記音源の位置を推定する、
請求項1から7のいずれか一項に記載の音源定位装置。 - 前記複数の処理層のうち、前記後段処理層として用いる処理層を選択する指示を受け付ける指示受付部をさらに有し、
前記抽出部は、前記指示受付部が受け付けた前記指示が示す前記処理層を、前記後段処理層として使用する、
請求項1から8のいずれか一項に記載の音源定位装置。 - 前記抽出部は、前記複数の処理層のうち一つの層を前記後段処理層として選択して前記一以上の第1出力及び前記一以上の第2出力を抽出した後に、前記前段処理層として選択した処理層を前記後段処理層として選択して、別の前記一以上の第1出力及び前記一以上の第2出力を抽出する、
請求項1から9のいずれか一項に記載の音源定位装置。 - 第1受音装置が受音した第1音声を取得するステップと、
前記第1受音装置とは異なる位置に設置された第2受音装置が受音した第2音声を取得するステップと、
前記第1音声及び前記第2音声のそれぞれに、入力された音声の内容を示すテキスト情報を出力可能な機械学習モデルに含まれる複数の処理層を伝搬させるステップと、
前記複数の処理層から選択した後段処理層、及び前記後段処理層の直前の処理層である前段処理層の両方の処理層において共通に活性化しているユニットを含む、前記第1音声に基づいて前記後段処理層及び前記前段処理層から出力された一以上の第1出力と前記第2音声に基づいて前記後段処理層及び前記前段処理層から出力された一以上の第2出力とを抽出するステップと、
前記一以上の第1出力に基づいて一以上の第1音響特徴量を検出し、かつ前記一以上の第2出力に基づいて一以上の第2音響特徴量を検出するステップと、
前記一以上の第1音響特徴量と前記一以上の第2音響特徴量とに基づいて、前記第1音声及び前記第2音声それぞれに含まれる音の発生源である音源の位置を推定するステップと、
推定した前記音源の位置を示す情報を出力するステップと、
を有する音源定位方法。 - 前記抽出するステップは、
前記第1音声が前記複数の処理層の一部である前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段第1出力、及び前記第2音声が前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段第2出力から、共通に活性化している一以上の後段第1出力及び一以上の後段第2出力を抽出する後段抽出ステップと、
前記一以上の後段第1出力及び前記一以上の後段第2出力を活性化させる要因となった前記前段処理層から出力された複数の前段第1出力、及び前記前段処理層から出力された複数の前段第2出力のうち、共通に活性化している一以上の前段第1出力及び一以上の前段第2出力を抽出する前段抽出ステップと、
を有する、請求項11に記載の音源定位方法。 - 前記前段抽出ステップを実行した後に、前記一以上の前段第1出力及び前記一以上の前段第2出力を、前記複数の後段第1出力及び前記複数の後段第2出力として、前記後段抽出ステップを実行する、
請求項12に記載の音源定位方法。 - 前記複数の処理層のそれぞれに対して、前記後段抽出ステップ及び前記前段抽出ステップを実行する、
請求項12又は13に記載の音源定位方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019131048A JP7010900B2 (ja) | 2019-07-16 | 2019-07-16 | 音源定位装置及び音源定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019131048A JP7010900B2 (ja) | 2019-07-16 | 2019-07-16 | 音源定位装置及び音源定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021015084A true JP2021015084A (ja) | 2021-02-12 |
JP7010900B2 JP7010900B2 (ja) | 2022-01-26 |
Family
ID=74530684
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019131048A Active JP7010900B2 (ja) | 2019-07-16 | 2019-07-16 | 音源定位装置及び音源定位方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7010900B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022201876A1 (ja) * | 2021-03-26 | 2022-09-29 | ヤマハ株式会社 | 制御方法、制御装置、及びプログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04318900A (ja) * | 1991-04-18 | 1992-11-10 | Oki Electric Ind Co Ltd | 多方向同時収音式音声認識方法 |
JP2007047088A (ja) * | 2005-08-11 | 2007-02-22 | Fujitsu Ltd | 音源方向検出装置 |
JP2011227199A (ja) * | 2010-04-16 | 2011-11-10 | Nec Casio Mobile Communications Ltd | 雑音抑圧装置、雑音抑圧方法及びプログラム |
JP2016080750A (ja) * | 2014-10-10 | 2016-05-16 | 株式会社Nttドコモ | 音声認識装置、音声認識方法、及び音声認識プログラム |
-
2019
- 2019-07-16 JP JP2019131048A patent/JP7010900B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04318900A (ja) * | 1991-04-18 | 1992-11-10 | Oki Electric Ind Co Ltd | 多方向同時収音式音声認識方法 |
JP2007047088A (ja) * | 2005-08-11 | 2007-02-22 | Fujitsu Ltd | 音源方向検出装置 |
JP2011227199A (ja) * | 2010-04-16 | 2011-11-10 | Nec Casio Mobile Communications Ltd | 雑音抑圧装置、雑音抑圧方法及びプログラム |
JP2016080750A (ja) * | 2014-10-10 | 2016-05-16 | 株式会社Nttドコモ | 音声認識装置、音声認識方法、及び音声認識プログラム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022201876A1 (ja) * | 2021-03-26 | 2022-09-29 | ヤマハ株式会社 | 制御方法、制御装置、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP7010900B2 (ja) | 2022-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107680582B (zh) | 声学模型训练方法、语音识别方法、装置、设备及介质 | |
CN108922541B (zh) | 基于dtw和gmm模型的多维特征参数声纹识别方法 | |
US8249870B2 (en) | Semi-automatic speech transcription | |
CN110136749A (zh) | 说话人相关的端到端语音端点检测方法和装置 | |
CN110299142B (zh) | 一种基于网络融合的声纹识别方法及装置 | |
CN108364662B (zh) | 基于成对鉴别任务的语音情感识别方法与系统 | |
US9595261B2 (en) | Pattern recognition device, pattern recognition method, and computer program product | |
WO2010100853A1 (ja) | 言語モデル適応装置、音声認識装置、言語モデル適応方法、及びコンピュータ読み取り可能な記録媒体 | |
CN113053410B (zh) | 声音识别方法、装置、计算机设备和存储介质 | |
CN111128178A (zh) | 一种基于面部表情分析的语音识别方法 | |
Basak et al. | Challenges and Limitations in Speech Recognition Technology: A Critical Review of Speech Signal Processing Algorithms, Tools and Systems. | |
JP7010900B2 (ja) | 音源定位装置及び音源定位方法 | |
Prachi et al. | Deep learning based speaker recognition system with CNN and LSTM techniques | |
Susan et al. | A fuzzy nearest neighbor classifier for speaker identification | |
Grewal et al. | Isolated word recognition system for English language | |
GB2576960A (en) | Speaker recognition | |
CN116580706B (zh) | 一种基于人工智能的语音识别方法 | |
Raghib et al. | Emotion analysis and speech signal processing | |
CN111785302A (zh) | 说话人分离方法、装置及电子设备 | |
Imoto et al. | Acoustic scene analysis from acoustic event sequence with intermittent missing event | |
Ali et al. | Fake audio detection using hierarchical representations learning and spectrogram features | |
JPH06266386A (ja) | ワードスポッティング方法 | |
Zeng et al. | Adaptive context recognition based on audio signal | |
CN114945980A (zh) | 小尺寸多通道关键字定位 | |
Semary et al. | Using Voice Technologies to Support Disabled People |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210303 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211215 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220104 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220113 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7010900 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |