JP2021015084A

JP2021015084A - 音源定位装置及び音源定位方法

Info

Publication number: JP2021015084A
Application number: JP2019131048A
Authority: JP
Inventors: 彰夫石川; Akio Ishikawa; 服部　元; Hajime Hattori; 元服部
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2019-07-16
Filing date: 2019-07-16
Publication date: 2021-02-12
Anticipated expiration: 2039-07-16
Also published as: JP7010900B2

Abstract

【課題】音声認識用の機械学習モデルを用いて音源の位置を推定する。【解決手段】音源定位装置２は、第１音声及び第２音声のそれぞれに機械学習モデルＭに含まれる複数の処理層を伝搬させる伝搬制御部２３２と、複数の処理層から選択した後段処理層及び前段処理層の両方の処理層において共通に活性化しているユニットを含む、一以上の第１出力と一以上の第２出力とを抽出する抽出部２３３と、一以上の第１出力に基づいて一以上の第１音響特徴量を検出し、かつ一以上の第２出力に基づいて一以上の第２音響特徴量を検出する特徴量検出部２３７と、一以上の第１音響特徴量と一以上の第２音響特徴量とに基づいて、第１音声及び第２音声それぞれに含まれる音の発生源である音源の位置を推定する音源定位部２３９と、音源定位部２３９が推定した音源の位置を示す情報を出力する出力部２４０と、を有する。【選択図】図３

Description

本発明は、音源の位置を推定する音源定位装置及び音源定位方法に関する。

従来、複数の受音装置が受音した音声に基づいて、３次元空間における音源の位置を推定する装置が知られている。非特許文献には、音声特徴量を入力することに離散的な音源の位置を出力するように学習された深層ニューラルネットワーク（以下、「ＤＮＮ」という。）を含む機械学習モデルを用いて、音源の位置を推定する技術が開示されている。

ＲｙｕＴａｋｅｄａ，ａｎｄＫａｚｕｎｏｒｉＫｏｍａｔａｎｉ， "ＤｉｓｃｒｉｍｉｎａｔｉｖｅＭｕｌｔｉｐｌｅＳｏｕｎｄＳｏｕｒｃｅＬｏｃａｌｉｚａｔｉｏｎｂａｓｅｄｏｎＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋｓｕｓｉｎｇＩｎｄｅｐｅｎｄｅｎｔＬｏｃａｔｉｏｎＭｏｄｅｌ"，ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥＷｏｒｋｓｈｏｐｏｎＳｐｏｋｅｎＬａｎｇｕａｇｅＴｅｃｈｎｏｌｏｇｙ（ＳＬＴ），ｐｐ.６０３−６０９，Ｄｅｃ．１６，２０１６．

上記技術においては、音源の位置が既知である学習データを用いて機械学習モデルに学習させる必要があった。そのため、例えば、機械学習モデルが学習していない位置に音源が存在する場合に、音源定位の精度が低下する可能性があった。また、一般的に、音源定位の処理においては、複数の音声の波形を比較するため、音声に雑音が含まれると、波形に重畳された雑音の影響により音源定位の精度が低下する可能性があった。

そこで、本発明はこれらの点に鑑みてなされたものであり、音源定位の精度を向上させることができる音源定位装置及び音源定位方法を提供することを目的とする。

本発明の第１の態様に係る音源定位装置は、第１受音装置が受音した第１音声と、前記第１受音装置とは異なる位置に設置された第２受音装置が受音した第２音声とを取得する取得部と、前記第１音声及び前記第２音声のそれぞれに、入力された音声の内容を示すテキスト情報を出力可能な機械学習モデルに含まれる複数の処理層を伝搬させる伝搬制御部と、前記複数の処理層から選択した後段処理層、及び前記後段処理層の直前の処理層である前段処理層の両方の処理層において共通に活性化しているユニットを含む、前記第１音声に基づいて前記後段処理層及び前記前段処理層から出力された一以上の第１出力と前記第２音声に基づいて前記後段処理層及び前記前段処理層から出力された一以上の第２出力とを抽出する抽出部と、前記一以上の第１出力に基づいて一以上の第１音響特徴量を検出し、かつ前記一以上の第２出力に基づいて一以上の第２音響特徴量を検出する特徴量検出部と、前記一以上の第１音響特徴量と前記一以上の第２音響特徴量とに基づいて、前記第１音声及び前記第２音声それぞれに含まれる音の発生源である音源の位置を推定する音源定位部と、前記音源定位部が推定した前記音源の位置を示す情報を出力する出力部と、を有する。

前記音源定位部は、前記第１受音装置が前記第１音響特徴量に対応する音声を受音した時刻と、前記第２受音装置が前記第２音響特徴量に対応する音声を受音した時刻との関係、並びに前記第１受音装置の位置と、前記第２受音装置の位置との関係に基づいて、前記音源の位置を推定してもよい。

前記抽出部は、前記第１音声が前記複数の処理層の一部である前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段第１出力、及び前記第２音声が前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段第２出力から、共通に活性化している一以上の後段第１出力及び一以上の後段第２出力を抽出する後段抽出部と、前記一以上の後段第１出力及び前記一以上の後段第２出力を活性化させる要因となった前記前段処理層から出力された複数の前段第１出力、及び前記前段処理層から出力された複数の前段第２出力のうち、共通に活性化している一以上の前段第１出力及び一以上の前段第２出力を抽出する前段抽出部と、を有してもよい。

前記前段抽出部は、前記複数の前段第１出力及び前記複数の前段第２出力のうち、活性化している大きさに基づいて、前記一以上の前段第１出力及び前記一以上の前段第２出力を抽出してもよい。

前記機械学習モデルは、再帰型ニューラルネットワークを含んでもよいし、前記後段処理層は、出力層、再帰層、全結合層、プーリング層及び畳み込み層のうちのいずれかの層であってもよい。
前記前段処理層は、再帰層、全結合層、プーリング層、畳み込み層及び入力層のうちのいずれかの層であってもよい。

前記抽出部は、前記複数の処理層のうち、最後尾の処理層である最後尾層を後段処理層として選択した場合において、前記最後尾層において共通に活性化している前記一以上の第１出力及び前記一以上の第２出力がない場合、前記最後尾層より前の処理層において共通に活性化している前記一以上の第１出力及び前記一以上の第２出力を抽出してもよい。

前記音源定位装置は、前記特徴量検出部が特定した前記一以上の第１音響特徴量及び前記一以上の第２音響特徴量から、相互の対応関係に基づいて一部の第１音響特徴量及び一部の第２音響特徴量を選択する選択部をさらに有してもよいし、前記音源定位部は、前記一部の第１音響特徴量と前記一部の第２音響特徴量とに基づいて、前記音源の位置を推定してもよい。

前記音源定位装置は、前記複数の処理層のうち、前記後段処理層として用いる処理層を選択する指示を受け付ける指示受付部をさらに有してもよいし、前記抽出部は、前記指示受付部が受け付けた前記指示が示す前記処理層を、前記後段処理層として使用してもよい。

前記抽出部は、前記複数の処理層のうち一つの層を前記後段処理層として選択して前記一以上の第１出力及び前記一以上の第２出力を抽出した後に、前記前段処理層として選択した処理層を前記後段処理層として選択して、別の前記一以上の第１出力及び前記一以上の第２出力を抽出してもよい。

本発明の第２の態様に係る音源定位方法は、第１受音装置が受音した第１音声を取得するステップと、前記第１受音装置とは異なる位置に設置された第２受音装置が受音した第２音声を取得するステップと、前記第１音声及び前記第２音声のそれぞれに、入力された音声の内容を示すテキスト情報を出力可能な機械学習モデルに含まれる複数の処理層を伝搬させるステップと、前記複数の処理層から選択した後段処理層、及び前記後段処理層の直前の処理層である前段処理層の両方の処理層において共通に活性化しているユニットを含む、前記第１音声に基づいて前記後段処理層及び前記前段処理層から出力された一以上の第１出力と前記第２音声に基づいて前記後段処理層及び前記前段処理層から出力された一以上の第２出力とを抽出するステップと、前記一以上の第１出力に基づいて一以上の第１音響特徴量を検出し、かつ前記一以上の第２出力に基づいて一以上の第２音響特徴量を検出するステップと、前記一以上の第１音響特徴量と前記一以上の第２音響特徴量とに基づいて、前記第１音声及び前記第２音声それぞれに含まれる音の発生源である音源の位置を推定するステップと、推定した前記音源の位置を示す情報を出力するステップと、を有する。

前記抽出するステップは、前記第１音声が前記複数の処理層の一部である前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段第１出力、及び前記第２音声が前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段第２出力から、共通に活性化している一以上の後段第１出力及び一以上の後段第２出力を抽出する後段抽出ステップと、前記一以上の後段第１出力及び前記一以上の後段第２出力を活性化させる要因となった前記前段処理層から出力された複数の前段第１出力、及び前記前段処理層から出力された複数の前段第２出力のうち、共通に活性化している一以上の前段第１出力及び一以上の前段第２出力を抽出する前段抽出ステップと、を有してもよい。

前記前段抽出ステップを実行した後に、前記一以上の前段第１出力及び前記一以上の前段第２出力を、前記複数の後段第１出力及び前記複数の後段第２出力として、前記後段抽出ステップを実行してもよい。
前記複数の処理層のそれぞれに対して、前記後段抽出ステップ及び前記前段抽出ステップを実行してもよい。

本発明によれば、音源定位の精度を向上させることができるという効果を奏する。

音源定位システムの概要を説明するための図である。機械学習モデルの構成の一例を示す図である。音源定位装置の構成を示す図である。抽出部が行う抽出処理について説明するための図である。抽出部が行う抽出処理について説明するための図である。抽出部が行う抽出処理について説明するための図である。抽出部が行う抽出処理について説明するための図である。音源定位装置が行う処理の流れを示すフローチャートである。抽出部が行う処理の流れを示すフローチャートである。

［音源定位システムＳの概要］
図１は、音源定位システムＳの概要を説明するための図である。音源定位システムＳは、音源定位、すなわち、３次元空間における音源の位置を推定するシステムである。音源定位システムＳは、複数の受音装置１と、音源定位装置２とを有する。

受音装置１は、例えばマイクロホンである。受音装置１は、受音した音を電気信号に変換する装置である。図１に示す例において、音源定位システムＳは、複数の受音装置１として、第１受音装置１ａと、第１受音装置１ａとは異なる位置に設置された第２受音装置１ｂとを有する。

音源定位装置２は、例えばＰＣ（Personal Computer）である。音源定位装置２は、それぞれ異なる位置に設置された複数の受音装置１それぞれが受音した複数の音声に基づいて、複数の音声の発生源である音源の位置を推定することにより、音源定位処理を実行する装置である。音源定位装置２は、予め記憶された複数の受音装置１それぞれが受音した複数の音声に基づいて音源定位処理を実行してもよいし、電気的に接続された複数の受音装置１それぞれがリアルタイムで受音した複数の音声に基づいて音源定位処理を実行してもよい。音源定位装置２には、複数の受音装置１に関する情報（例えば位置及び向き等）が予め設定されている。

ところで、近年、スマートフォン、スマートスピーカ及び生活家電等の様々な機器にＡＩ（Artificial Intelligence）が搭載され、各ＡＩにおいて人が発話した内容を認識する様々な音声認識用の機械学習モデルが用いられている。ＡＩを搭載した機器が普及しつつあり、これに伴い音声認識を含むＡＩ技術の精度が向上し、音声認識において雑音に対する耐性が高まっている。そこで、本願の発明者は、音声認識用の機械学習モデルを音源定位の技術に転用することを見出した。

具体的には、音源定位装置２は、音声認識用の機械学習モデルＭを用いて、音源定位処理を実行する。機械学習モデルＭは、入力された音声の内容を示すテキスト情報を出力するように学習されたモデルである。テキスト情報が示す音声の内容は、例えば、人が発話した内容である。

図２は、機械学習モデルＭの構成の一例を示す図である。機械学習モデルＭは、再帰型ニューラルネットワーク（以下、「ＲＮＮ（Recurrent Neural Network）」という。）を含む。機械学習モデルＭに含まれるＲＮＮは、長期短期記憶（以下、「ＬＳＴＭ（Long Short Term Memory）」という。）又はゲート付き再帰型ユニット（以下、「ＧＲＵ（Gated Recurrent Unit）」という。）のブロックを含んでもよい。機械学習モデルＭは、畳み込みニューラルネットワーク（以下、「ＣＮＮ（Convolutional Neural Network）」という。）をさらに含んでもよい。また、機械学習モデルＭは、隠れマルコフモデル（以下、「ＨＭＭ（Hidden Markov Model）」という。）及び混合ガウスモデル（以下、「ＧＭＭ（Gaussian Mixture Model）」という。）をさらに含んでもよい。

図２に示す例として、機械学習モデルＭは、第１畳み込み層（以下、「入力層Ｍ１」という。）、第１プーリング層Ｍ２、第２畳み込み層Ｍ３、第２プーリング層Ｍ４、第３畳み込み層Ｍ５、第４畳み込み層Ｍ６、第１全結合層Ｍ７、第２全結合層Ｍ８、第１再帰層Ｍ９、第２再帰層Ｍ１０及びＣＴＣ（Connectionist Temporal Classification）損失（コネクショニスト時系列分類法の損失。以下、「出力層Ｍ１１」という。）を有する。

機械学習モデルＭは、情報を削除したり追加したりする機能を有するゲート層をさらに有してもよい。機械学習モデルＭは、例えば、ＲＮＮにおいてＬＳＴＭのブロックを含む場合、忘却ゲート層、入力ゲート層及び出力ゲート層を有してもよい。また、機械学習モデルＭは、例えば、ＲＮＮにおいてＧＲＵのブロックを含む場合、更新ゲート層及び再設定ゲート層を有してもよい。本明細書においては、隣接する２つの処理層のうち、入力された音声が伝搬する際の上流側の処理層を前段処理層と称し、下流側の処理層を後段処理層と称する。

後段処理層となり得る処理層は、出力層Ｍ１１、再帰層（第２再帰層Ｍ１０、第１再帰層Ｍ９）、結合層（第２全結合層Ｍ８、第１全結合層Ｍ７）、畳み込み層（第４畳み込み層Ｍ６、第３畳み込み層Ｍ５、第２畳み込み層Ｍ３）及びプーリング層（第２プーリング層Ｍ４、第１プーリング層Ｍ２）のうちのいずれかの層である。また、前段処理層となり得る処理層は、再帰層（第２再帰層Ｍ１０、第１再帰層Ｍ９）、結合層（第２全結合層Ｍ８、第１全結合層Ｍ７）、畳み込み層（第４畳み込み層Ｍ６、第３畳み込み層Ｍ５、第２畳み込み層Ｍ３）、プーリング層（第２プーリング層Ｍ４、第１プーリング層Ｍ２）及び入力層Ｍ１のうちのいずれかの層である。なお、機械学習モデルＭがゲート層を有する場合、前段処理層となり得る処理層は、ゲート層であってもよい。音源定位装置２は、取得した第１音声及び第２音声それぞれを機械学習モデルＭに入力し、入力層から出力層までの各処理層を順伝搬させる、すなわち、推論させることにより、第１音声に対応するテキスト情報と第２音声に対するテキスト情報とを出力させる。

図１に示す例において、まず、音源定位装置２は、第１受音装置１ａが受音した第１音声と、第２受音装置１ｂが受音した第２音声とを取得する（図１の（１））。第１音声及び第２音声には、音源定位の対象となる音源から発せらせた対象音（例えば人の声）と、対象の音源以外の音源から発せられた雑音とが含まれている。音源定位装置２は、取得した第１音声及び第２音声それぞれを機械学習モデルＭに入力し、当該機械学習モデルＭに含まれる複数の処理層を伝搬させる（図１の（２））。

音源定位装置２は、機械学習モデルＭが出力したテキスト情報によって示される音声の内容を認識するに至った各処理層における計算結果、すなわち、深層学習による抽象度の高い特徴量を用いて、第１音声及び第２音声に共通する音響特徴量を検出する（図１の（３））。ここで、音源定位装置２は、共通する音響特徴量の検出を、伝搬させた順序とは逆の順序で行う。このようにすることで、音源定位装置２は、抽象度が高い特徴量に基づく音響特徴量を検出することができる。

音源定位装置２は、例えば、共通する音響特徴量を検出することにより、第１音声に含まれている対象音に由来する音響特徴量と、第２音声に含まれている対象音に由来する音響特徴量とにそれぞれ対応関係があることを検出する。対応関係は、第１音声の音響特徴量が示す第１音声に含まれる対象音と、第２音声の音響特徴量が示す第２音声に含まれる対象音とが一致又は近似した関係である。

音源定位装置２は、検出した第１音声に対応する音響特徴量と、検出した第２音声に対応する音響特徴量とに基づいて、第１音声及び第２音声それぞれに含まれる音（対象音）の発生源である音源の位置を推定する（図１の（４））。そして、音源定位装置２は、推定した音源の位置を示す情報を出力する（図１の（５））。

このようにすることで、音源定位システムＳは、第１音声及び第２音声それぞれに含まれている対象音に由来する音響特徴量を用いることにより、第１音声及び第２音声に含まれる雑音に影響されずに対象音の発生源である音源の位置を推定することができる。その結果、音源定位システムＳは、音源定位の精度を向上させることができる。

なお、上記において、第１音声及び第２音声それぞれに含まれる対象音が人の声であるとして説明したが、これに限らず、機械学習モデルＭがテキスト情報に出力する内容に対応する音であればよい。例えば、機械学習モデルＭが出力する内容が五線譜の音符である場合、対象音は、楽器の音であってもよい。
以下、音源定位装置２の詳細について説明する。

［音源定位装置２の構成］
図３は、音源定位装置２の構成を示す図である。音源定位装置２は、操作部２１、記憶部２２、及び制御部２３を有する。

操作部２１は、ユーザの操作を受け付ける入力デバイスである。記憶部２２は、例えば、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）及びハードディスク等の記憶媒体である。記憶部２２は、制御部２３が実行する各種のプログラムを記憶する。

制御部２３は、例えばＣＰＵ（Central Processing Unit）である。制御部２３は、記憶部２２に記憶されているプログラムを実行することにより、音源定位装置２に係る機能を制御する。制御部２３は、プログラムを実行することにより、取得部２３１、伝搬制御部２３２、抽出部２３３、指示受付部２３６、特徴量検出部２３７、選択部２３８、音源定位部２３９及び出力部２４０として機能する。

取得部２３１は、第１受音装置１ａが受音した第１音声と、第２受音装置１ｂが受音した第２音声とを取得する。例えば、記憶部２２には、第１音声と第２音声とが記憶されており、音源定位装置２においてユーザが第１音声及び第２音声に対する音源定位処理を実行する操作をしたことを契機として、取得部２３１は、記憶部２２に記憶されている第１音声と第２音声とを取得する。取得部２３１は、取得した第１音声及び第２音声を伝搬制御部２３２に入力する。

取得部２３１は、機械学習モデルＭに入力可能な形式に変換した第１音声及び第２音声を伝搬制御部２３２に入力してもよい。この場合、取得部２３１は、音声を所定の形式に変換する変換部として機能してもよい。例えば、機械学習モデルＭに入力可能な形式が画像形式である場合、取得部２３１は、第１音声を画像に変換した第１画像と、第２音声を画像に変換した第２画像とを、第１音声及び第２音声として伝搬制御部２３２に入力してもよい。取得部２３１は、例えば、取得した音声を、音声のスペクトルをフーリエ変換した結果であるケプストラムを表示した画像に変換してもよい。

伝搬制御部２３２は、第１音声及び第２音声のそれぞれに、入力された音声の内容を示すテキスト情報を出力可能な機械学習モデルＭに含まれる複数の処理層を伝搬させることにより、伝搬処理を実行する。図２に示す例において、伝搬制御部２３２は、第１音声及び第２音声のそれぞれに、機械学習モデルＭに含まれる入力層Ｍ１から出力層Ｍ１１までの各処理層を、順に伝搬させる。

抽出部２３３は、複数の処理層から選択した後段処理層、及び後段処理層の直前の処理層である前段処理層の両方の処理層において共通に活性化しているユニットを含む、第１音声に基づいて後段処理層及び前段処理層から出力された一以上の第１出力と第２音声に基づいて後段処理層及び前段処理層から出力された一以上の第２出力とを抽出することにより、抽出処理を実行する。具体的には、抽出部２３３は、第１音声に含まれる第１フレームに基づいて後段処理層及び前段処理層から出力された一以上の第１出力と第２音声に含まれる第２フレームであって、第１フレームと対応関係にある第２フレームに基づいて後段処理層及び前段処理層から出力された一以上の第２出力とを抽出する。

対応関係にある第１フレーム及び第２フレームは、機械学習モデルＭに第１音声を入力することによって機械学習モデルＭが出力した第１テキスト情報と、機械学習モデルＭに第２音声を入力することによって機械学習モデルＭが出力した第２テキスト情報とにおいて共通する箇所（例えば文字）を機械学習モデルＭが認識するに至ったフレームである。例えば、音声の内容として「おはよう」が第１テキスト情報及び第２テキスト情報に含まれている場合、対応関係にある第１フレーム及び第２フレームは、各文字（例えば１文字目の「お」）を機械学習モデルＭが認識するに至った第１音声及び第２音声それぞれに含まれるフレームである。

抽出部２３３が行う抽出処理の詳細については後述するが、抽出部２３３は、後段処理層で共通に活性化している第１出力の一部である後段第１出力及び第２出力の一部である後段第２出力を抽出する後段抽出部２３４と、前段処理層で共通に活性化している第１出力の一部である前段第１出力及び第２出力の一部である前段第２出力を抽出する前段抽出部２３５とを有する。

抽出部２３３が抽出する第１出力及び第２出力は、処理層に含まれる複数のユニットのうち、活性化しているユニットを示す情報である。「活性化」の定義は、例えば、ユニットの出力値又はユニットの出力値と当該ユニットの結合の重みとの積が、所定の閾値を超えた場合でもよいし、出力の大きい順に所定の個数又は所定の割合に含まれた場合であってもよい。また、全結合層以外の処理層（例えば畳み込み層）においては、例えば、チャンネルごとに出力の大きい順に所定の個数又は所定の割合に含まれた場合であってもよい。チャンネルは、フィルタ毎に畳み込み演算した出力である。「共通に活性化」の定義は、第１出力及び第２出力の両方において活性化している場合であってもよいし、第１出力と第２出力との積が、所定の閾値を超えた場合でもよいし、大きい順に所定の個数又は所定の割合に含まれた場合であってもよい。

抽出部２３３は、複数の処理層のうち、最後尾の処理層である最後尾層を後段処理層として選択することが好ましい。しかし、最後尾層において共通に活性化している第１出力及び第２出力がない場合がある。そこで、抽出部２３３は、複数の処理層のうち、最後尾層を後段処理層として選択した場合において、最後尾層において共通に活性化している一以上の第１出力及び一以上の第２出力がない場合、最後尾層より前の処理層において共通に活性化している一以上の第１出力及び一以上の第２出力を抽出してもよい。

例えば、抽出部２３３が、最後尾層である出力層Ｍ１１を後段処理層として選択した場合において、出力層Ｍ１１において共通に活性化している一以上の第１出力及び一以上の第２出力がないとする。この場合において、抽出部２３３は、出力層Ｍ１１より前の各処理層に対して、共通に活性化している一以上の第１出力及び一以上の第２出力を繰り返し探索する。抽出部２３３は、例えば、出力層Ｍ１１の直前の処理層である第２再帰層Ｍ１０において共通に活性化している一以上の第１出力及び一以上の第２出力があった場合、第２再帰層Ｍ１０を後段処理層として選択する。そして、抽出部２３３は、後段処理層として選択した第２再帰層Ｍ１０において共通に活性化している一以上の第１出力及び一以上の第２出力を抽出する。

また、抽出部２３３は、例えば、機械学習モデルＭがＤＮＮ−ＨＭＭハイブリッドシステム又はＤＮＮ−ＧＭＭ−ＨＭＭタンデムシステム等である場合、出力層のユニットはＨＭＭの状態に対応しているため、第１音声を入力したことにより最尤推定された複数の状態と、第２音声を入力したことにより最尤推定された複数の状態とにおいて共通する状態を第１出力及び第２出力として抽出してもよい。このようにＤＮＮの部分にのみ処理を適用することで、抽出部２３３は、機械学習モデルＭがＤＮＮ−ＨＭＭハイブリッドシステム又はＤＮＮ−ＧＭＭ−ＨＭＭタンデムシステム等の場合であっても、それぞれに音響特徴量を対応付けることができる。

抽出部２３３は、ユーザによって指定された処理層を後段処理層として選択してもよい。具体的には、まず、指示受付部２３６は、操作部２１を介して、複数の処理層のうち、後段処理層として用いる処理層を選択する指示を受け付ける。そして、抽出部２３３は、指示受付部２３６が受け付けた指示が示す処理層を、後段処理層として使用する。抽出部２３３は、図２に示す例において、ユーザが第２再帰層Ｍ１０を選択した場合に、指示受付部２３６が受け付けた指示が示す第２再帰層Ｍ１０を、後段処理層として使用する。抽出部２３３は、抽出した第１出力と第２出力とを特徴量検出部２３７に入力する。

特徴量検出部２３７は、一以上の第１出力に基づいて一以上の第１音響特徴量を検出し、かつ一以上の第２出力に基づいて一以上の第２音響特徴量を検出する。具体的には、特徴量検出部２３７は、まず、一以上の第１出力及び一以上の第２出力に基づいて、対応関係にある音響特徴量を探索する。そして、特徴量検出部２３７は、探索した結果に基づいて、対応関係にある一以上の第１出力に基づく一以上の第１音響特徴量と、一以上の第２出力に基づく一以上の第２音響特徴量とを検出する。

特徴量検出部２３７は、例えば、一以上の第１出力及び一以上の第２出力のうち、第１音声に含まれる対象音に由来する一以上の第１出力に基づく一以上の第１音響特徴量と、第２音声に含まれる対象音に由来する一以上の第２出力に基づく第２音響特徴量であって、一以上の第１音響特徴量それぞれと対応関係にある一以上の第２音響特徴量とを検出する。このように、特徴量検出部２３７は、対応関係にある一以上の第１音響特徴量と一以上の第２音響特徴量を検出することにより、第１受音装置が第１音響特徴量に対応する音声を受音した時刻と、第２受音装置が第２音響特徴量に対応する音声を受音した時刻とを特定することができる。また、特徴量検出部２３７は、対象音に由来する音響特徴量を検出することにより、第１音声及び第２音声に含まれている雑音によって音源定位の精度が低下することを抑止することができる。特徴量検出部２３７は、検出した第１音響特徴量及び第２音響特徴量を選択部２３８に入力する。

選択部２３８は、特徴量検出部２３７が検出した一以上の第１音響特徴量及び一以上の第２音響特徴量から、相互の対応関係に基づいて一部の第１音響特徴量及び一部の第２音響特徴量を選択する。具体的には、選択部２３８は、誤検出した対応関係を除去し、除去した後の対応関係に基づく一以上の第１音響特徴量及び一以上の第２音響特徴量を選択する。対応関係の誤検出は、例えば、第１音響特徴量及び第２音響特徴量の対応関係に矛盾が生じている状態である。対応関係の誤検出は、例えば、音源の位置を推定するために算出される音源との距離、すなわち、音源の奥行きを示す値が負数になって正常な範囲に入らない場合、又は３つ以上の音声に基づいて音源位置を推定する場合において、音声の組み合わせによって同じ音源の奥行きを示す値が著しく異なる場合等である。

また、対応関係の誤検出は、音響特徴量の時系列に矛盾が生じている状態であってもよい。例えば、一以上の第１音響特徴量のうちの１つである第１音響特徴量Ａ１が、一以上の第２音響特徴量のうちの１つである第２音響特徴量Ｂ１と対応し、一以上の第１音響特徴量のうちの１つの第１音響特徴量であって、時系列的に第１音響特徴量Ａ１より後である第１音響特徴量Ａ２が、一以上の第１音響特徴量のうちの１つである第２音響特徴量Ｂ２と対応しているとする。この場合において、対応関係の誤検出は、第２音響特徴量Ｂ１が第２音響特徴量Ｂ２よりも時系列的に前である場合、又は第２音響特徴量Ｂ１が第２音響特徴量Ｂ２よりも時系列的に後であっても第２音響特徴量Ｂ１、Ｂ２間における時間の間隔が第１音響特徴量Ａ１、Ａ２間における時間の間隔と著しく異なる場合等である。選択部２３８は、例えば、ＲＡＮＳＡＣ（Random Sampling Consensus）法又は最小２乗メディアン（ＬＭｅｄＳ：Least Median of Square）法に基づいて絞り込みを行うことにより、誤検出した対応関係を除去する。

音源定位部２３９は、一以上の第１音響特徴量と一以上の第２音響特徴量とに基づいて、第１音声及び第２音声それぞれに含まれる音の発生源である音源の位置を推定する。第１音声及び第２音声それぞれに含まれる音は、機械学習モデルＭがテキスト情報に出力した音声の内容に対応する音であり、第１音声及び第２音声の両方に含まれる音である。

具体的には、まず、音源定位部２３９は、一以上の第１音響特徴量と一以上の第２音響特徴量とに基づいて、第１音声及び第２音声の発生源である音源の奥行きを推定する。そして、音源定位部２３９は、推定した音源の奥行きに基づいて、３次元空間における音源の位置を推定する。

音源定位部２３９は、第１受音装置が第１音響特徴量に対応する音声を受音した時刻と、第２受音装置が第２音響特徴量に対応する音声を受音した時刻との関係、並びに第１受音装置の位置と、第２受音装置の位置との関係に基づいて、第１音声及び第２音声それぞれに含まれる音の発生源である音源の位置を推定してもよい。音源定位部２３９は、例えば、第１受音装置が第１音響特徴量に対応する音声を受音した時刻と、第２受音装置が第２音響特徴量に対応する音声を受音した時刻との差と、第１受音装置及び第２受音装置の相対位置とに基づいて算出される双曲面に基づいて、音源の位置を推定してもよい。

また、音源定位部２３９は、複数の受音装置として、３つの受音装置が存在する場合、３つの受音装置それぞれが音響特徴量に対応する音声を受音した時刻の差と、３つの受音装置の相対位置とに基づいて算出される２つの双曲面の交線（双曲線）に基づいて、音源の位置を推定してもよい。また、音源定位部２３９は、複数の受音装置として、４つの受音装置が存在する場合、４つの受音装置それぞれが音響特徴量に対応する音声を受音した時刻の差と、４つの受音装置の相対位置とに基づいて算出される３つの双曲面の交点に基づいて、音源の位置を推定してもよい。

音源定位部２３９は、選択部２３８が誤検出を除去した後の対応関係に基づく一部の第１音響特徴量と一部の第２音響特徴量とに基づいて、音源の位置を推定してもよい。なお、音源定位部２３９は、公知の技術を用いて、音源の位置を推定してもよい。

出力部２４０は、音源定位部２３９が推定した音源の位置を示す情報を出力する。

［抽出処理］
続いて、抽出部２３３が行う抽出処理について説明する。上述のとおり、抽出部２３３は、後段抽出部２３４及び前段抽出部２３５を有する。後段抽出部２３４は、第１音声が複数の処理層の一部である前段処理層及び後段処理層の順に伝搬したことにより後段処理層から出力された複数の後段第１出力、及び第２音声が前段処理層及び後段処理層の順に伝搬したことにより後段処理層から出力された複数の後段第２出力から、共通に活性化している一以上の後段第１出力及び一以上の後段第２出力を抽出する。具体的には、後段抽出部２３４は、第１音声に含まれる第１フレームに基づいて後段処理層から出力された複数の後段第１出力、及び第２音声において第１フレームと対応関係にある第２フレームに基づいて後段処理層から出力された複数の後段第２出力から、共通に活性化している一以上の後段第１出力及び一以上の後段第２出力を抽出する。

前段抽出部２３５は、一以上の後段第１出力及び一以上の後段第２出力を活性化させる要因となった前段処理層から出力された複数の前段第１出力、及び前段処理層から出力された複数の前段第２出力のうち、共通に活性化している一以上の前段第１出力及び一以上の前段第２出力を抽出する。

図４から図７は、抽出部２３３が行う抽出処理について説明するための図である。図４から図６は、前段処理層から後段処理層に伝搬させた状態を示している。図４から図７において、実線で示すユニットを結合する結合線は、結合するユニットが活性化していたことを示し、破線で示す結合線は、結合するユニットが活性化していなかったことを示す。また、結合線を示す線の太さは、結合するユニットの活性化の大きさを示す。

図４に示す例において、処理層Ｍ２０は後段処理層であり、処理層Ｍ１９は前段処理層である。図４（ａ）は抽出前の状態であり、図４（ｂ）は抽出後の状態である。第１音声において、処理層Ｍ２０は、ユニットＵ１、Ｕ２が活性化しており、処理層Ｍ１９は、ユニットＵ１、Ｕ２が活性化している。第２音声において、処理層Ｍ２０は、ユニットＵ２が活性化しており、処理層Ｍ１９は、ユニットＵ２が活性化している。

この場合において、後段抽出部２３４は、第１音声に含まれる第１フレームに基づいて後段処理層である処理層Ｍ２０から出力された後段第１出力であるユニットＵ１、Ｕ２、及び第２音声において第１フレームと対応関係にある第２フレームに基づいて処理層Ｍ２０から出力された後段第２出力であるユニットＵ２を比較する。そして、後段抽出部２３４は、共通に活性化している後段第１出力のユニットＵ２及び後段第２出力のユニットＵ２を抽出する。

続いて、前段抽出部２３５は、後段第１出力のユニットＵ２を活性化させる要因となった前段処理層である処理層Ｍ１９から出力された前段第１出力であるユニットＵ１、Ｕ２、及び後段第２出力のユニットＵ２を活性化させる要因となった処理層Ｍ１９から出力された前段第２出力であるユニットＵ２を比較する。そして、前段抽出部２３５は、共通に活性化している前段第１出力のユニットＵ２、及び前段第２出力のユニットＵ２を抽出する。

前段抽出部２３５は、複数の前段第１出力及び複数の前段第２出力のうち、活性化している大きさに基づいて、一以上の前段第１出力及び一以上の前段第２出力を抽出してもよい。前段抽出部２３５は、例えば、複数の前段第１出力及び複数の前段第２出力のうち、最も大きく活性化している一以上の前段第１出力及び一以上の前段第２出力を抽出してもよい。

抽出部２３３は、処理層Ｍ２０から処理層Ｍ１９までの出力を抽出すると、次の処理層に対する出力を抽出する。具体的には、抽出部２３３は、処理層ごとに、共通に活性化している第１出力及び第２出力を抽出する処理を、伝搬制御部２３２が伝搬させた順序とは逆の順序で繰り返し行う。より具体的には、抽出部２３３は、複数の処理層のうち一つの層を後段処理層として選択して一以上の第１出力及び一以上の第２出力を抽出した後に、前段処理層として選択した処理層を後段処理層として選択して、別の一以上の第１出力及び一以上の第２出力を抽出する。このようにすることで、抽出部２３３は、第１音声及び第２音声に対する比較の精度を高めることができる。

抽出部２３３は、第１音声に含まれる複数の第１フレームそれぞれに基づいて後段処理層及び前段処理層から出力された一以上の第１出力と、第２音声に含まれる第２フレームにおいて第１フレームと対応関係にある第２フレームに基づいて後段処理層及び前段処理層から出力された一以上の第２出力とを抽出してもよい。

図５は、第１音声における第１フレームｎ及び第１フレームｎ−１が、前段処理層から後段処理層に伝搬した状態を示している。図６は、第２音声における第２フレームｍ及び第２フレームｍ−１が、前段処理層から後段処理層に伝搬した状態を示している。第１フレームｎ及び第２フレームｍは、対応関係にある第１フレーム及び第２フレームであり、第１フレームｎ−１及び第２フレームｍ−１は、対応関係にある第１フレーム及び第２フレームそれぞれの１つ前のフレームである。図５及び図６の場合において、第１フレームｎ及び第２フレームｍの処理層Ｍ１８は後段処理層であり、第１フレームｎ−１及び第２フレームｍ−１の処理層Ｍ１８と第１フレームｎ及び第２フレームｍの処理層Ｍ１７とは前段処理層である。図５（ａ）及び図６（ａ）は抽出前の状態であり、図５（ｂ）及び図６（ｂ）は抽出後の状態である。

図５に示す例において、第１音声における第１フレームｎの処理層Ｍ１８は、ユニットＵ１１、Ｕ１２が活性化している。図６に示す例において、第２音声における第２フレームｍの処理層Ｍ１８は、ユニットＵ１２が活性化している。

この場合において、後段抽出部２３４は、第１音声の第１フレームｎにおける後段処理層である処理層Ｍ１８から出力された後段第１出力であるユニットＵ１１、Ｕ１２、及び第２音声において第１フレームｎと対応関係にある第２フレームｍにおける処理層Ｍ１８から出力された後段第２出力であるユニットＵ１２を比較する。そして、後段抽出部２３４は、共通に活性化している後段第１出力のユニットＵ１２及び後段第２出力のユニットＵ１２を抽出する。

続いて、前段抽出部２３５は、第１フレームｎにおける後段第１出力のユニットＵ１２を活性化させる要因となった前段処理層である第１フレームｎ−１の処理層Ｍ１８から出力された前段第１出力であるユニットＵ１１、Ｕ１２、及び第２フレームｍにおける後段第２出力のユニットＵ１２を活性化させる要因となった前段処理層である第２フレームｍ−１の処理層Ｍ１８から出力された前段第２出力であるユニットＵ１２を比較する。そして、後段抽出部２３４は、共通に活性化している前段第１出力のユニットＵ１２及び前段第２出力のユニットＵ１２を抽出する。

また、前段抽出部２３５は、第１フレームｎにおける後段第１出力のユニットＵ１２を活性化させる要因となった前段処理層である第１フレームｎの処理層Ｍ１７から出力された前段第１出力であるユニットＵ１１、Ｕ１２、及び第２フレームｍにおける後段第２出力のユニットＵ１２を活性化させる要因となった前段処理層である第２フレームｍの処理層Ｍ１７から出力された前段第２出力であるユニットＵ１２を比較する。そして、前段抽出部２３５は、共通に活性化している前段第１出力のユニットＵ１２、及び前段第２出力のユニットＵ１２を抽出する。

前段抽出部２３５は、後段抽出部２３４が一以上の後段第１出力及び一以上の後段第２出力を抽出した後段処理層にゲート層が含まれている場合、当該ゲート層において共通に活性化している前段第１出力及び前段第２出力を抽出してもよい。

図７に示す例において、ユニットＵ２２は、後段抽出部２３４が抽出した第１出力及び第２出力であり、ゲートＧ２は、出力ゲート層であり、セルＣ２は、メモリセルである。図７（ａ）は抽出前の状態であり、図７（ｂ）は抽出後の状態である。第１音声においては、ゲートＧ２及びセルＣ２が活性化している。第２音声においては、セルＣ２が活性化している。

この場合において、前段抽出部２３５は、後段第１出力のユニットＵ２２を活性化させる要因となったゲートＧ２、セルＣ２、及び後段第２出力のユニットＵ２２を活性化させる要因となったセルＣ２を比較する。そして、前段抽出部２３５は、共通に活性化している前段第１出力のセルＣ２、及び前段第２出力のセルＣ２を抽出する。

抽出部２３３は、上述の抽出処理を入力層まで繰り返し行うことが好ましい。しかし、抽出部２３３は、抽出処理を最初の処理層まで行わずに、途中の処理層（例えば、プーリング層又は畳み込み層等）で終了してもよい。このように、抽出部２３３は、伝搬制御部２３２が伝搬させた順序とは逆の順序で抽出処理を行うことにより、抽象度が高い特徴量を抽出することができる。

［音源定位装置２の処理］
続いて、音源定位装置２が行う処理の流れを説明する。図８は、音源定位装置２が行う処理の流れを示すフローチャートである。本フローチャートは、例えば、記憶部２２に記憶されている第１音声と第２音声とを取得したことを契機として開始する（Ｓ１）。取得部２３１は、取得した第１音声と第２音声とを、伝搬制御部２３２に入力する。

伝搬制御部２３２は、取得部２３１から入力された第１音声及び第２音声のそれぞれに、機械学習モデルＭに含まれる入力層Ｍ１から出力層Ｍ１１までの複数の処理層を、入力層Ｍ１から順に伝搬させる（Ｓ２）。抽出部２３３は、後段処理層及び前段処理層の両方の処理層において共通に活性化している一以上の第１出力及び一以上の第２出力を抽出する処理を行う（Ｓ３）。

図９は、抽出部２３３が行う処理の流れを示すフローチャートである。抽出部２３３は、指示受付部２３６が、操作部２１を介して、複数の処理層のうち、後段処理層として用いる処理層を選択する指示を受け付けたか否かを判定する（Ｓ３１）。

抽出部２３３は、指示受付部２３６が指示を受け付けたと判定した場合（Ｓ３１においてＹＥＳの場合）、指示受付部２３６が受け付けた指示が示す処理層を、後段処理層として使用する（Ｓ３２）。抽出部２３３は、例えば、指示受付部２３６が第２再帰層Ｍ１０を示す指示を受け付けたと判定した場合、指示受付部２３６が受け付けた指示が示す第２再帰層Ｍ１０を、後段処理層として選択する。一方、抽出部２３３は、指示受付部２３６が指示を受け付けていないと判定した場合（Ｓ３１においてＮＯの場合）、最後尾層（例えば、出力層Ｍ１１）で共通に活性化している一以上の第１出力及び一以上の第２出力があるか否かを判定する（Ｓ３３）。

抽出部２３３は、第２再帰層Ｍ１０で共通に活性化している一以上の第１出力及び一以上の第２出力があると判定した場合（Ｓ３３においてＹＥＳの場合）、最後尾層である出力層Ｍ１１を、後段処理層として使用する（Ｓ３４）。一方、抽出部２３３は、第２再帰層Ｍ１０で共通に活性化している一以上の第１出力及び一以上の第２出力がないと判定した場合（Ｓ３３においてＮＯの場合）、第２再帰層Ｍ１０より前の各処理層に対して、共通に活性化している一以上の第１出力及び一以上の第２出力を繰り返し探索する。そして、抽出部２３３は、共通に活性化している一以上の第１出力及び一以上の第２出力がある処理層（例えば、第１再帰層Ｍ９）を、後段処理層として使用する（Ｓ３５）。抽出部２３３は、選択した後段処理層、及び前段処理層の両方の処理層において共通に活性化している、第１音声に基づいて後段処理層及び前段処理層から出力された一以上の第１出力と第２音声に基づいて後段処理層及び前段処理層から出力された一以上の第２出力とを抽出する。

具体的には、まず、後段抽出部２３４は、選択した後段処理層から出力された複数の後段第１出力、及び選択した後段処理層から出力された複数の後段第２出力から、共通に活性化している一以上の後段第１出力及び一以上の後段第２出力を抽出する（Ｓ３６）。そして、前段抽出部２３５は、後段抽出部２３４が抽出した一以上の後段第１出力及び一以上の後段第２出力を活性化させる要因となった前段処理層から出力された複数の前段第１出力、及び前段処理層から出力された複数の前段第２出力のうち、共通に活性化している一以上の前段第１出力及び一以上の前段第２出力を抽出する（Ｓ３７）。

続いて、抽出部２３３は、前段処理層より前に別の処理層があるか否かを判定する（Ｓ３８）。抽出部２３３は、前段処理層（例えば、第１再帰層Ｍ９）より前に別の処理層（例えば、第２全結合層Ｍ８）があると判定した場合（Ｓ３８においてＹＥＳの場合）、第１再帰層Ｍ９を後段処理層として使用し（Ｓ３９）、処理をＳ４６に戻す。一方、抽出部２３３は、前段処理層（例えば、入力層Ｍ１）より前に別の処理層がないと判定した場合（Ｓ３８においてＮＯの場合）、抽出した一以上の第１出力及び一以上の第２出力を特徴量検出部２３７に入力し、抽出処理を終了する。

図８に戻り、特徴量検出部２３７は、一以上の第１出力及び一以上の第２出力に基づいて、対応関係にある音響特徴量を探索し、探索した結果に基づいて、対応関係にある一以上の第１出力に基づく一以上の第１音響特徴量と、一以上の第２出力に基づく一以上の第２音響特徴量とを検出する（Ｓ４）。続いて、選択部２３８は、特徴量検出部２３７が検出した第１音響特徴量及び第２音響特徴量に誤検出した対応関係があるか否かを判定する（Ｓ５）。選択部２３８は、例えば、ＲＡＮＳＡＣ法に基づいて絞り込みを行う。

選択部２３８は、第１音響特徴量及び第２音響特徴量に誤検出した対応関係があると判定した場合（Ｓ５においてＹＥＳの場合）、誤検出した対応関係にある第１音響特徴量及び第２音響特徴量を除去し（Ｓ６）、除去した後の対応関係に基づく一部の第１音響特徴量及び一部の第２音響特徴量を選択する。

音源定位部２３９は、選択部２３８が、第１音響特徴量及び第２音響特徴量に誤検出した対応関係がないと判定した場合（Ｓ５においてＮＯの場合）、又は誤検出した対応関係にある第１音響特徴量及び第２音響特徴量を除去した後に、一以上の第１音響特徴量と一以上の第２音響特徴量とに基づいて、第１音声及び第２音声それぞれに含まれる音の発生源である音源の位置を推定する（Ｓ７）。そして、出力部２４０は、音源定位部２３９が推定した音源の位置を示す情報を出力する（Ｓ８）。

［本実施の形態における効果］
以上説明したとおり、音源定位システムＳは、取得した第１音声及び第２音声のそれぞれに、機械学習モデルＭに含まれる複数の処理層を伝搬させる。音源定位システムＳは、伝搬させた順とは逆の順序で後段処理層及び前段処理層の両方の処理層において共通に活性化している一以上の第１出力及び一以上の第２出力を、処理層ごとに抽出し、対応関係にある一以上の第１音響特徴量及び一以上の第２音響特徴量をそれぞれ検出する。そして、音源定位システムＳは、検出した一以上の第１音響特徴量及び一以上の第２音響特徴量に基づいて、第１音声及び第２音声それぞれに含まれる音の発生源である音源の位置を推定し、推定した音源の位置を示す情報を出力する。

音源定位システムＳは、例えば、複数の受音装置１で受音した多聴点音声を用いて、特定の音源の方向を示す情報を取得することにより、当該特定の音源から発せられた音声と他の音声とを聞き分けることができる。また、音源定位装置２は、例えば、聞き取りたい音源とは異なる方向の音声を抑圧することにより、雑音を除去することができる。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を併せ持つ。

１受音装置
２音源定位装置
２１操作部
２２記憶部
２３制御部
２３１取得部
２３２伝搬制御部
２３３抽出部
２３４後段抽出部
２３５前段抽出部
２３６指示受付部
２３７特徴量検出部
２３８選択部
２３９音源定位部
２４０出力部

Claims

第１受音装置が受音した第１音声と、前記第１受音装置とは異なる位置に設置された第２受音装置が受音した第２音声とを取得する取得部と、
前記第１音声及び前記第２音声のそれぞれに、入力された音声の内容を示すテキスト情報を出力可能な機械学習モデルに含まれる複数の処理層を伝搬させる伝搬制御部と、
前記複数の処理層から選択した後段処理層、及び前記後段処理層の直前の処理層である前段処理層の両方の処理層において共通に活性化しているユニットを含む、前記第１音声に基づいて前記後段処理層及び前記前段処理層から出力された一以上の第１出力と前記第２音声に基づいて前記後段処理層及び前記前段処理層から出力された一以上の第２出力とを抽出する抽出部と、
前記一以上の第１出力に基づいて一以上の第１音響特徴量を検出し、かつ前記一以上の第２出力に基づいて一以上の第２音響特徴量を検出する特徴量検出部と、
前記一以上の第１音響特徴量と前記一以上の第２音響特徴量とに基づいて、前記第１音声及び前記第２音声それぞれに含まれる音の発生源である音源の位置を推定する音源定位部と、
前記音源定位部が推定した前記音源の位置を示す情報を出力する出力部と、
を有する音源定位装置。
前記音源定位部は、前記第１受音装置が前記第１音響特徴量に対応する音声を受音した時刻と、前記第２受音装置が前記第２音響特徴量に対応する音声を受音した時刻との関係、並びに前記第１受音装置の位置と、前記第２受音装置の位置との関係に基づいて、前記音源の位置を推定する、
請求項１に記載の音源定位装置。
前記抽出部は、
前記第１音声が前記複数の処理層の一部である前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段第１出力、及び前記第２音声が前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段第２出力から、共通に活性化している一以上の後段第１出力及び一以上の後段第２出力を抽出する後段抽出部と、
前記一以上の後段第１出力及び前記一以上の後段第２出力を活性化させる要因となった前記前段処理層から出力された複数の前段第１出力、及び前記前段処理層から出力された複数の前段第２出力のうち、共通に活性化している一以上の前段第１出力及び一以上の前段第２出力を抽出する前段抽出部と、
を有する、
請求項１又は２に記載の音源定位装置。
前記前段抽出部は、前記複数の前段第１出力及び前記複数の前段第２出力のうち、活性化している大きさに基づいて、前記一以上の前段第１出力及び前記一以上の前段第２出力を抽出する、
請求項３に記載の音源定位装置。
前記機械学習モデルは、再帰型ニューラルネットワークを含み、
前記後段処理層は、出力層、再帰層、全結合層、プーリング層及び畳み込み層のうちのいずれかの層である、
請求項３又は４に記載の音源定位装置。
前記前段処理層は、再帰層、全結合層、プーリング層、畳み込み層及び入力層のうちのいずれかの層である、
請求項３から５のいずれか一項に記載の音源定位装置。
前記抽出部は、前記複数の処理層のうち、最後尾の処理層である最後尾層を後段処理層として選択した場合において、前記最後尾層において共通に活性化している前記一以上の第１出力及び前記一以上の第２出力がない場合、前記最後尾層より前の処理層において共通に活性化している前記一以上の第１出力及び前記一以上の第２出力を抽出する、
請求項１から６のいずれか一項に記載の音源定位装置。
前記特徴量検出部が特定した前記一以上の第１音響特徴量及び前記一以上の第２音響特徴量から、相互の対応関係に基づいて一部の第１音響特徴量及び一部の第２音響特徴量を選択する選択部をさらに有し、
前記音源定位部は、前記一部の第１音響特徴量と前記一部の第２音響特徴量とに基づいて、前記音源の位置を推定する、
請求項１から７のいずれか一項に記載の音源定位装置。
前記複数の処理層のうち、前記後段処理層として用いる処理層を選択する指示を受け付ける指示受付部をさらに有し、
前記抽出部は、前記指示受付部が受け付けた前記指示が示す前記処理層を、前記後段処理層として使用する、
請求項１から８のいずれか一項に記載の音源定位装置。
前記抽出部は、前記複数の処理層のうち一つの層を前記後段処理層として選択して前記一以上の第１出力及び前記一以上の第２出力を抽出した後に、前記前段処理層として選択した処理層を前記後段処理層として選択して、別の前記一以上の第１出力及び前記一以上の第２出力を抽出する、
請求項１から９のいずれか一項に記載の音源定位装置。
第１受音装置が受音した第１音声を取得するステップと、
前記第１受音装置とは異なる位置に設置された第２受音装置が受音した第２音声を取得するステップと、
前記第１音声及び前記第２音声のそれぞれに、入力された音声の内容を示すテキスト情報を出力可能な機械学習モデルに含まれる複数の処理層を伝搬させるステップと、
前記複数の処理層から選択した後段処理層、及び前記後段処理層の直前の処理層である前段処理層の両方の処理層において共通に活性化しているユニットを含む、前記第１音声に基づいて前記後段処理層及び前記前段処理層から出力された一以上の第１出力と前記第２音声に基づいて前記後段処理層及び前記前段処理層から出力された一以上の第２出力とを抽出するステップと、
前記一以上の第１出力に基づいて一以上の第１音響特徴量を検出し、かつ前記一以上の第２出力に基づいて一以上の第２音響特徴量を検出するステップと、
前記一以上の第１音響特徴量と前記一以上の第２音響特徴量とに基づいて、前記第１音声及び前記第２音声それぞれに含まれる音の発生源である音源の位置を推定するステップと、
推定した前記音源の位置を示す情報を出力するステップと、
を有する音源定位方法。
前記抽出するステップは、
前記第１音声が前記複数の処理層の一部である前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段第１出力、及び前記第２音声が前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段第２出力から、共通に活性化している一以上の後段第１出力及び一以上の後段第２出力を抽出する後段抽出ステップと、
前記一以上の後段第１出力及び前記一以上の後段第２出力を活性化させる要因となった前記前段処理層から出力された複数の前段第１出力、及び前記前段処理層から出力された複数の前段第２出力のうち、共通に活性化している一以上の前段第１出力及び一以上の前段第２出力を抽出する前段抽出ステップと、
を有する、請求項１１に記載の音源定位方法。
前記前段抽出ステップを実行した後に、前記一以上の前段第１出力及び前記一以上の前段第２出力を、前記複数の後段第１出力及び前記複数の後段第２出力として、前記後段抽出ステップを実行する、
請求項１２に記載の音源定位方法。
前記複数の処理層のそれぞれに対して、前記後段抽出ステップ及び前記前段抽出ステップを実行する、
請求項１２又は１３に記載の音源定位方法。