JP2017067948A - 音声処理装置および音声処理方法 - Google Patents
音声処理装置および音声処理方法 Download PDFInfo
- Publication number
- JP2017067948A JP2017067948A JP2015191879A JP2015191879A JP2017067948A JP 2017067948 A JP2017067948 A JP 2017067948A JP 2015191879 A JP2015191879 A JP 2015191879A JP 2015191879 A JP2015191879 A JP 2015191879A JP 2017067948 A JP2017067948 A JP 2017067948A
- Authority
- JP
- Japan
- Prior art keywords
- transfer function
- unit
- utterance
- feature amount
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/02—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using radio waves
- G01S3/74—Multi-channel systems specially adapted for direction-finding, i.e. having a single antenna system capable of giving simultaneous indications of the directions of different signals
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Abstract
Description
統合されたクラスタの数が収束する前記クラスタ間の距離に基づいて、前記クラスタの数を決定するようにしてもよい。
上述した(4)または(5)の構成によれば、代表チャネルの音響信号を用いることで、発話区間毎の特徴量を算出することができ、この算出された特徴量を用いて音源に対する伝達関数を推定することができる。また、(5)の構成によれば、マイクロホン間の位相差を用いることによって事前に伝達関数を完全に求めていない状態でも、伝達関数を推定することができる。
上述した(7)の構成によれば、空間クラスタリングをすることによって、想定される話者の位置において幅を持たせた伝達関数を推定することができる。
まず、本発明の概要を説明する。
図1は、本発明の概要を示す図である。図1に示すように、本発明では、少なくとも2つ以上のマイクロホン201によって構成されるマイクロホンアレイ2を用いて、Mチェネル(Mは2以上の整数、マイクロホン201の数と一致)の音響信号録音部3が、音響信号を録音する。録音時、マイクロホン201の位置関係は未知であり、話者SPの位置も未知であり、話者の人数も未知であり、各マイクロホン201と話者SPとの位置関係も未知である。このような条件で録音されたMチャネルの音響信号を、音声処理装置1が取得する。音声処理装置1は、取得したMチャネルの音響信号から、発話区間を検出する。そして、音声処理装置1は、発話区間に含まれる音響信号の特徴量に基づいて、同じ方向から来ていると推定される音響信号に分類する。音声処理装置1は、分類した方向の音響信号毎に伝達関数を推定し、推定した伝達関数を用いて、音源分離処理、音源定位処理を行う。音声処理装置1は、定位された音源の信号を用いて、伝達関数の推定を、伝達関数が収束するまで繰り返す。この処理によって、本発明によれば、音源の位置、音源の数、マイクロホン201の位置、各マイクロホン201と音源(話者SP)との位置関係が未知である音響信号から、方向毎の音声信号を抽出することができる。また、マイクロホンアレイ2の位置とマイクロホン201の位置は、例えば会議における1セッションの間、固定されているものとする。なお、1セッションとは、例えば1つの会議全体に含まれる会話である。また、本発明において、複数のチャネルの音響信号が得られればよいので、マイクロホンアレイ2におけるマイクロホン201の数は2つ以上であればよい。
まず、音声処理装置1の構成について説明する。
図2は、本実施形態に係る音声処理装置1の概略構成を示すブロック図である。図2に示すように、音声処理装置1は、音響信号取得部11、発話推定部12、変換部13、伝達関数推定部14、特徴量算出部15、クラスタリング部16、代表伝達関数推定部17、伝達関数DB18、音源定位部19、発話認識部20、および出力部21を備えている。
発話推定部12は、音響信号取得部11が出力したMチャネルの音響信号の中から、例えば1セッションの音響信号を抽出する。発話区間推定部121は、抽出された1セッションの音響信号から発話区間を検出し、検出した発話区間毎の音声信号を変換部13に出力する。なお、1セッションは、例えば1つの会議等で交わされた会話である。発話区間推定部121は、Mチャネルの音響信号の中から、例えば所定の閾値以上の信号が含まれているN個(Nは0以上の整数)の区間を発話区間として検出する。または、発話区間推定部121は、ゼロクロス法、GMM法等を用いて発話区間を検出してもよい。ゼロクロス法とは、一定のレベルを越える振幅について零交差数が一定数を越えたとき時刻を音声始端とし、値が一定以下になったときに音声の終端としてそこで入力を区切って1発話分であると検出する手法である。また、GMM(ガウス混合分布モデル;Gaussian mixture model)法とは、音声と非音声のGMMを定義し、入力短時間フレームごとに特徴量を算出し、算出した特徴量から各GMMの尤度計算を行い、音声GMMと非音声GMMの尤度比から、音声区間の開始・終了を判別する手法である。
伝達関数DB18には、方向毎に推定された伝達関数が格納されている。
出力部21は、発話認識部20が出力した認識結果を、外部装置(不図示)に出力する。なお、出力部21は、例えば画像表示部、スピーカ等であってもよい。
次に、取得される音響信号と発話区間について説明する。
図3は、本実施形態に係る取得された音響信号の例を示す図である。図4は、本実施形態に係る発話区間の例を示す図である。図3および図4において、横軸は時刻、縦軸はマイクロホン数である。
図3に示す例では、音響信号取得部11が、M個のマイクロホン201を用いて収音したMチャネルの音響信号を示している。
図4に示す例では、発話推定部12が、Mチャネルの音響信号から、N個(1、・・・、n、・・・N、Nは1以上の整数、nは1〜Nの間の整数)の発話区間を検出し、検出した順に発話ID(識別子)を付与した例である。
次に、変換部13によって行われる時間領域から周波数領域への変換について説明する。
図5は、本実施形態に係る時間領域から周波数領域への変換について説明する図である。
図5に示すように、変換部13は、発話区間毎に、短時間フーリエ変換を行うことで、時間領域から周波数領域へ変換を行う。例えば、n番目の発話かつm(mは、1〜Mの間の整数)チャネル目の短時間フーリエ変換後の信号X[n]m(ω,f)とすると、n番目の1〜Mチャネルの短時間フーリエ変換後の信号X[n](ω,f)は、次式(1)のように表される。なお、ωは周波数であり、fはフレーム(インデックス)である。
次に、代表伝達関数推定部17が行う伝達関数の推定方法について説明する。
ここで、m番目のマイクロホン201の周波数領域の信号をXm(ω,f)とし、周波数領域における音響信号(Sound source signal)をS(ω,f)とし、方向ψの伝達関数をAm(ω,ψ)とすると、次式(2)の関係が成り立つ。
このため、本実施形態では、代表伝達関数推定部17は、N個の発話区間の中から1つの発話区間を逐次選択し、選択した発話区間においてMチャネルの周波数領域の信号Xm(ω,f)のうち1つを代表チャネルとして選択する。以下、1チャネル目を代表チャネルとして選択する例を説明するが、選択するチャネルは、2〜Mのうちのいずれか1つのチャネルであればよい。
これにより、伝達関数Am(ω,ψ)は、次式(4)のように表される。
このX〜 1(ω,f)とXm(ω,f)、Fフレームを使用して、その回帰モデルは、次式(5)であると定義する。
式(5)より、AT(ω,ψ)は、次式(6)のように表される。
なお、この手法において、十分なフレーム数を確保することで、よりロバストなものとなる。
発話区間がN個である場合、発話区間毎に伝達関数が推定される。発話区間nにおける伝達関数A[n](ω)は、次式(7)のように表される。
次に、特徴量算出部15が行う音響特徴量の算出方法について説明する。
特徴量算出部15は、代表伝達関数推定部17と同じ1つのチャネルを選択する。本実施形態では、1チャネル目を選択するとして以下の説明を行う。
特徴量算出部15は、変換部13が出力した周波数領域の信号に対して、発話区間毎に選択された1チャネルと他のチャネルとのサンプル差τを算出する。ここで、n番目の発話区間におけるサンプル差τ[n]は、次式(8)のようにM−1次元のベクトルで表される。
次に、クラスタリング部16が行う空間クラスタリング方法について説明する。
図6は、本実施形態に係る空間特徴量の例と、空間クラスタリングの例を示す図である。また、空間特徴量のM−1次元空間であり、図6に示した例では、Mが4の例である。また、図6に示す例は、発話区間がN=16、すなわち空間特徴量が16個(τ[1]〜τ[16])である場合に、16個の空間特徴量に対して周知の手法を用いてクラスタリング処理を行った結果である。なお、クラスタリング部16は、例えば凝縮型クラスタリングの手法を用いて、クラスタに分類する。なお、話者数が既知の場合、クラスタリング部16は、例えばk−means法等を用いてクラスタリング処理を行うようにしてもよい。
図6に示す例では、空間特徴量τ[1]、τ[3]、τ[6]、τ[8]、τ[12]、τ[15]が第1のクラスタC1に分類され、空間特徴量τ[2]、τ[7]、τ[9]、τ[11]、τ[13]が第2のクラスタC2に分類され、空間特徴量τ[4]、τ[5]、τ[10]、τ[14]、τ[16]が第1のクラスタC3に分類される。クラスタリング部16によって分類されているのは、位置を表す情報である空間特徴量(サンプル差)であるので、これらを分類した結果は、サンプル差に応じた音源の位置に対応する。
ここで、クラスタ間の距離を、クラスタ中心間の距離であると定義する。クラスタiとクラスタj(i,jは互いに異なる1以上の整数)との距離は、次式(10)のように表される。
図7に示す例では、クラスタ間の距離Δijが0のときクラスタ数も0である。クラスタ間の距離Δijが0の場合、図6に示した例では空間特徴量が16個、それぞれの空間特徴量の距離が無いので、統合されたクラスタ数が0となる。その後、クラスタ間の距離Δijの増加に伴ってクラスタ数が増加し、その後、クラスタ間の距離Δijの増加に伴ってクラスタ数がピークになる。その後、クラスタ間の距離Δijの増加に伴ってピーク後に統合されたクラスタ数が減少していく。統合されたクラスタ数は0に収束していくが、Δijにおいて0から離れた位置に統合されたクラスタ数のピークがあることが分かっている。この理由は、同じ話者の信号は、同じようなサンプル差であるため、凝縮型クラスタリングを行うと、統合されやすい。図7におけるピークは、話者の空間特徴量が凝縮された距離を示している。一方、異なる話者の発話は、空間的に離れているため、距離が増加していき、第1の話者と他の話者のクラスタと結合される距離Δcにおいてピークp1が発生する。さらに距離が増加すると、例えば話者が3人の場合、全ての空間特徴量が1つのクラスタに結合してピークp2が発生する。
本実施形態では、クラスタリング部16が、第1の話者と他の話者のクラスタと結合する前、すなわち距離Δcにおいてピークp1がある前の領域z1におけるクラスタ数Cを話者数Cとして決定する。図6に示した例は、C=3の例である。
次に、代表伝達関数推定部17が行う代表伝達関数の算出方法について説明する。
図8は、図6の第2のクラスタC2におけるクラスタの中心(以下、クラスタ中心ともいう)τcと各空間特徴量との距離dの例を示す図である。
伝達関数推定部14によって推定された伝達関数のうち、クラスタに含まれる伝達関数は、そのクラスタとみなせる方向から来た音源に対する伝達関数である。代表伝達関数推定部17は、これらの伝達関数を用いて、クラスタに対する伝達関数を代表伝達関数として決定する。
図8に示す例では、空間特徴量τ[2]とクラスタ中心τcとの距離がd[2]であり、空間特徴量τ[7]とクラスタ中心τcとの距離がd[7]であり、空間特徴量τ[9]とクラスタ中心τcとの距離がd[9]であり、空間特徴量τ[11]とクラスタ中心τcとの距離がd[11]であり、空間特徴量τ[13]とクラスタ中心τcとの距離がd[13]である。クラスタ中心τcに近い空間特徴量τほど、信頼できるサンプルであると言える。このため、本実施形態では、クラスタ中心の伝達関数を求めて、音源に対する伝達関数であるとする。
本実施形態では、重み付け値を次式(14)のように定義する。
なお、本実施形態では、求めたクラスタ毎の中心を音源の位置であるとし、クラスタ中心の方向における伝達関数を、音源方向の伝達関数としている。
次に、代表伝達関数推定部17が行う代表伝達関数の推定について説明する。
図9は、本実施形態に係る伝達関数DB18に格納される情報の例を示す図である。図9に示した例では、第1の方向a1[deg]に第1の方向から来る音の伝達特性が伝達関数として格納され、第2の方向a2[deg]に第2の方向から来る音の伝達特性が伝達関数として格納され、第3の方向a3[deg]に第3の方向から来る音の伝達特性が伝達関数として格納されている。
しかしながら、前述したように、マイクロホン201の位置、マイクロホン201の配置、マイクロホン201と音源との位置関係が未知であるため、この方向は、音声処理装置1における座標系での方向である。このため、各クラスタと伝達関数との関連付けはできる。しかしながら、各クラスタが物理的に、どの方向から来た音を表しているのかを推定する必要がある。
次に、音源定位部19が行う処理について説明する。
音源定位部19は、変換部13が出力した音声信号に対して、伝達関数DB18に格納されている伝達関数を用いて、代表伝達関数推定部17が出力した方向毎にMUSIC(MUtiple SIgnal Classification)スペクトルを計算する。
次に、音源定位部19は、代表伝達関数推定部17が出力した方向毎に、スケールが0から1の間の値になるようにMUSICスペクトルに対して正規化を行う。
次に、音源定位部19は、発話推定部12での発話区間の検出と合うように音が存在するか否かを判別する閾値を決定する。この閾値を用いて、音源定位部19は、ラフな音源定位を行う。
次に、音源定位部19は、定位した結果から、単独音源について音声が存在している存在区間を切り出す。
なお、音声処理装置1は、伝達関数が収束するまでの処理をオフラインで行い、伝達関数が就職した後は、オンライン処理するようにしてもよい。また、作成された伝達関数を、音源分離装置(不図示)等に出力するようにしてもよく、音声処理装置1を音源分離装置が備えていてもよい。
次に、音声処理装置1の処理手順について説明する。図10は、本実施形態に係る音声処理装置1の処理のフローチャートである。なお、音声処理装置1は、以下の処理をオフラインで行う。
(ステップS2)音声処理装置1は、ステップS3〜ステップS15の処理を、伝達関数が収束するまで繰り返して行う。
(ステップS4)伝達関数推定部14は、ステップS3で選択した発話区間において、1つのチャネル(例えば1チャネル)の信号を基準として、伝達関数を推定する。
(ステップS6)伝達関数推定部14および特徴量算出部15は、全ての発話区間に対してステップS3〜ステップS5の処理が終了した後、ステップS7の処理に進める。
(ステップS8)代表伝達関数推定部17は、ステップS7によって推定されたクラスタの中から1つのクラスタを選択し、クラスタ毎にステップS9の処理を行う。
(ステップS10)代表伝達関数推定部17は、全てのクラスタに対してステップS9の処理が終了した後、ステップS11の処理に進める。
(ステップS14)音源定位部19は、発話推定部12での発話区間の検出と合うように音が存在するか否かを判別する閾値を決定する。
以後、発話推定部12は、音源定位部19によって音源定位され、閾値によって音が存在する区間が切り出された単独音源の音声信号を発話区間の信号として用いて、ステップS2〜ステップS15の処理を、伝達関数が収束するまで繰り返す。
(ステップS16)音声処理装置1は、伝達関数が収束した場合、処理を終了する。
また、本実施形態の音声処理装置1は、複数のチャネルを有する音響信号から複数の発話区間を検出する発話区間検出部(発話推定部12、発話区間推定部121)と、発話区間検出部によって検出された発話区間の発話信号を用いて伝達関数を推定する伝達関数推定部14と、発話信号を用いて特徴量τを算出する特徴量算出部15と、特徴量算出部によって算出された特徴量をクラスタに分類することで音源数を推定するクラスタリング部16と、を更に備え、代表伝達関数推定部17は、伝達関数推定部によって推定された伝達関数と、クラスタリング部によって推定された音源数に基づいて、クラスタそれぞれまでの伝達関数それぞれを音源に対する伝達関数(代表伝達関数)それぞれとして推定する。
Claims (8)
- 配置が未知であるマイクロホンアレイを用いて収音された複数のチャネルを有する音源数が未知である音響信号を用いて、音源に対する伝達関数を推定する代表伝達関数推定部、
を備える音声処理装置。 - 前記複数のチャネルを有する前記音響信号から複数の発話区間を検出する発話区間検出部と、
前記発話区間検出部によって検出された発話区間の発話信号を用いて伝達関数を推定する伝達関数推定部と、
前記発話信号を用いて特徴量を算出する特徴量算出部と、
前記特徴量算出部によって算出された前記特徴量をクラスタに分類することで音源数を推定するクラスタリング部と、
を更に備え、
前記代表伝達関数推定部は、
前記伝達関数推定部によって推定された前記伝達関数と、前記クラスタリング部によって推定された音源数に基づいて、前記クラスタそれぞれまでの伝達関数それぞれを音源に対する伝達関数それぞれとして推定する、請求項1に記載の音声処理装置。 - 前記伝達関数推定部は、
前記発話信号に含まれる複数のチャネルのうちの1つを代表チャネルとして選択し、選択した前記代表チャネルの前記発話信号と残りのチャネルの前記発話信号を用いて、前記伝達関数を推定する、請求項2に記載の音声処理装置。 - 前記特徴量算出部は、
前記発話信号に含まれる複数のチャネルのうちの1つを代表チャネルとして選択し、選択した前記代表チャネルの前記発話信号と残りのチャネルの前記発話信号を用いて、前記特徴量を算出する、請求項2または請求項3のいずれか1項に記載の音声処理装置。 - 前記特徴量は、
前記代表チャネルの前記発話信号と、前記残りのチャネルの前記発話信号との位相差に基づく値である、請求項4に記載の音声処理装置。 - 前記クラスタリング部は、
統合されたクラスタの数が収束する前記クラスタ間の距離に基づいて、前記クラスタの数を決定する、請求項2から請求項5のいずれか1項に記載の音声処理装置。 - 前記代表伝達関数推定部は、
前記クラスタリング部によって求められた前記クラスタそれぞれの中心を算出し、
各クラスタに含まれる前記特徴量について、算出した前記クラスタそれぞれの中心と前記特徴量との距離を算出し、算出した距離の総和と算出した距離それぞれを用いて重み付け値を算出し、前記クラスタに含まれる前記特徴量に対応する伝達関数と、算出した重み付け値を用いて、前記クラスタの中心における伝達関数を音源までの伝達関数として推定する、請求項2から請求項6のいずれか1項に記載の音声処理装置。 - 音響信号取得部に、配置が未知であるマイクロホンアレイを用いて収音された複数のチャネルを有する音源数が未知である音響信号を取得させる音響信号取得手順と、
発話区間検出部に、前記複数のチャネルを有する前記音響信号から複数の発話区間を検出させる発話区間検出手順と、
伝達関数推定部に、前記発話区間検出手順によって検出された発話区間の発話信号を用いて伝達関数を推定させる伝達関数推定手順と、
特徴量算出部に、前記発話信号を用いて特徴量を算出させる特徴量算出手順と、
クラスタリング部に、前記特徴量算出手順によって算出された前記特徴量をクラスタに分類することで音源数を推定させるクラスタリング手順と、
代表伝達関数推定部に、前記伝達関数推定手順によって推定された前記伝達関数と、前記クラスタリング手順によって推定された音源数に基づいて、前記クラスタそれぞれまでの伝達関数それぞれを音源に対する伝達関数それぞれとして推定させるクラスタリング手順と、
を含む音声処理方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015191879A JP6606784B2 (ja) | 2015-09-29 | 2015-09-29 | 音声処理装置および音声処理方法 |
US15/247,467 US10063966B2 (en) | 2015-09-29 | 2016-08-25 | Speech-processing apparatus and speech-processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015191879A JP6606784B2 (ja) | 2015-09-29 | 2015-09-29 | 音声処理装置および音声処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017067948A true JP2017067948A (ja) | 2017-04-06 |
JP6606784B2 JP6606784B2 (ja) | 2019-11-20 |
Family
ID=58406579
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015191879A Active JP6606784B2 (ja) | 2015-09-29 | 2015-09-29 | 音声処理装置および音声処理方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10063966B2 (ja) |
JP (1) | JP6606784B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019049414A (ja) * | 2017-09-07 | 2019-03-28 | 本田技研工業株式会社 | 音響処理装置、音響処理方法及びプログラム |
JP2021103324A (ja) * | 2020-05-21 | 2021-07-15 | 北京百度網訊科技有限公司 | モデル評価方法、モデル評価装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム製品 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108510987B (zh) * | 2018-03-26 | 2020-10-23 | 北京小米移动软件有限公司 | 语音处理方法及装置 |
US10743107B1 (en) * | 2019-04-30 | 2020-08-11 | Microsoft Technology Licensing, Llc | Synchronization of audio signals from distributed devices |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006148453A (ja) * | 2004-11-18 | 2006-06-08 | Nippon Telegr & Teleph Corp <Ntt> | 信号推定方法、信号推定装置、信号推定プログラム及びその記録媒体 |
JP2010212818A (ja) * | 2009-03-08 | 2010-09-24 | Univ Of Tokyo | 複数のマイクロフォンにより受信された多チャンネル信号の処理方法 |
JP2011164467A (ja) * | 2010-02-12 | 2011-08-25 | Nippon Telegr & Teleph Corp <Ntt> | モデル推定装置、音源分離装置、それらの方法及びプログラム |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5338040B2 (ja) * | 2007-06-04 | 2013-11-13 | ヤマハ株式会社 | 音声会議装置 |
KR101434200B1 (ko) * | 2007-10-01 | 2014-08-26 | 삼성전자주식회사 | 혼합 사운드로부터의 음원 판별 방법 및 장치 |
JP2009116025A (ja) * | 2007-11-06 | 2009-05-28 | Fujitsu Ten Ltd | 適応フィルタ算出方法および音場生成装置 |
KR101415026B1 (ko) * | 2007-11-19 | 2014-07-04 | 삼성전자주식회사 | 마이크로폰 어레이를 이용한 다채널 사운드 획득 방법 및장치 |
EP2063419B1 (en) * | 2007-11-21 | 2012-04-18 | Nuance Communications, Inc. | Speaker localization |
JP2010181448A (ja) | 2009-02-03 | 2010-08-19 | Fujitsu Ten Ltd | 音響調整装置及び音響調整方法 |
JP5604275B2 (ja) * | 2010-12-02 | 2014-10-08 | 富士通テン株式会社 | 相関低減方法、音声信号変換装置および音響再生装置 |
EP2592846A1 (en) * | 2011-11-11 | 2013-05-15 | Thomson Licensing | Method and apparatus for processing signals of a spherical microphone array on a rigid sphere used for generating an Ambisonics representation of the sound field |
JP6078461B2 (ja) * | 2013-12-18 | 2017-02-08 | 本田技研工業株式会社 | 音響処理装置、音響処理方法、及び音響処理プログラム |
KR101673579B1 (ko) * | 2014-04-30 | 2016-11-07 | 광주과학기술원 | 이동체의 위치감지장치, 이동체의 위치감지방법, 조명장치, 공조장치, 보안장치, 및 주차장관리장치 |
US10063965B2 (en) * | 2016-06-01 | 2018-08-28 | Google Llc | Sound source estimation using neural networks |
US9992570B2 (en) * | 2016-06-01 | 2018-06-05 | Google Llc | Auralization for multi-microphone devices |
-
2015
- 2015-09-29 JP JP2015191879A patent/JP6606784B2/ja active Active
-
2016
- 2016-08-25 US US15/247,467 patent/US10063966B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006148453A (ja) * | 2004-11-18 | 2006-06-08 | Nippon Telegr & Teleph Corp <Ntt> | 信号推定方法、信号推定装置、信号推定プログラム及びその記録媒体 |
JP2010212818A (ja) * | 2009-03-08 | 2010-09-24 | Univ Of Tokyo | 複数のマイクロフォンにより受信された多チャンネル信号の処理方法 |
JP2011164467A (ja) * | 2010-02-12 | 2011-08-25 | Nippon Telegr & Teleph Corp <Ntt> | モデル推定装置、音源分離装置、それらの方法及びプログラム |
Non-Patent Citations (3)
Title |
---|
小林和則 他, 日本音響学会2005年秋季研究発表会 講演論文集, JPN6018043785, 20 September 2005 (2005-09-20), pages 615 - 616, ISSN: 0003914490 * |
石橋孝昭 他: ""ブラインド信号分離における原信号数の推定"", 第52回システム制御情報学会 研究発表講演会 講演論文集, JPN6018043781, 16 May 2008 (2008-05-16), pages 347 - 348, ISSN: 0003914488 * |
石橋孝昭 他: ""ブラインド信号分離における非定常高騒音環境下でのリアルタイム発話区間検出"", 第50回システム制御情報学会 研究発表講演会 講演論文集, JPN6018043784, 10 May 2006 (2006-05-10), ISSN: 0003914489 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019049414A (ja) * | 2017-09-07 | 2019-03-28 | 本田技研工業株式会社 | 音響処理装置、音響処理方法及びプログラム |
JP2021103324A (ja) * | 2020-05-21 | 2021-07-15 | 北京百度網訊科技有限公司 | モデル評価方法、モデル評価装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム製品 |
JP7152550B2 (ja) | 2020-05-21 | 2022-10-12 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | モデル評価方法、モデル評価装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム製品 |
Also Published As
Publication number | Publication date |
---|---|
US20170092287A1 (en) | 2017-03-30 |
US10063966B2 (en) | 2018-08-28 |
JP6606784B2 (ja) | 2019-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10901063B2 (en) | Localization algorithm for sound sources with known statistics | |
US10127922B2 (en) | Sound source identification apparatus and sound source identification method | |
EP2530484B1 (en) | Sound source localization apparatus and method | |
JP5724125B2 (ja) | 音源定位装置 | |
US20170140771A1 (en) | Information processing apparatus, information processing method, and computer program product | |
US20160180852A1 (en) | Speaker identification using spatial information | |
JP6606784B2 (ja) | 音声処理装置および音声処理方法 | |
US11869481B2 (en) | Speech signal recognition method and device | |
JP6591477B2 (ja) | 信号処理システム、信号処理方法及び信号処理プログラム | |
JP4816711B2 (ja) | 通話音声処理装置および通話音声処理方法 | |
JP2018169473A (ja) | 音声処理装置、音声処理方法及びプログラム | |
JP2018040848A (ja) | 音響処理装置および音響処理方法 | |
JP6487650B2 (ja) | 音声認識装置及びプログラム | |
JP2010145836A (ja) | 方向情報分布推定装置、音源数推定装置、音源方向測定装置、音源分離装置、それらの方法、それらのプログラム | |
Pasha et al. | Blind speaker counting in highly reverberant environments by clustering coherence features | |
JP5705190B2 (ja) | 音響信号強調装置、音響信号強調方法、およびプログラム | |
JP6285855B2 (ja) | フィルタ係数算出装置、音声再生装置、フィルタ係数算出方法及びプログラム | |
WO2020195924A1 (ja) | 信号処理装置および方法、並びにプログラム | |
JP6961545B2 (ja) | 音信号処理装置、音信号処理方法、およびプログラム | |
JP5147012B2 (ja) | 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体 | |
He et al. | Mask-based blind source separation and MVDR beamforming in ASR | |
JP2020043456A (ja) | 音響処理装置、音響処理方法およびプログラム | |
JP6059112B2 (ja) | 音源分離装置とその方法とプログラム | |
JP5134477B2 (ja) | 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体 | |
Van Den Broeck et al. | Noise robust footstep location estimation using a wireless acoustic sensor network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171129 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20181005 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181106 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181225 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190521 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190705 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190924 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191002 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6606784 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |