JP2024008102A - 信号処理装置、信号処理プログラム及び信号処理方法 - Google Patents
信号処理装置、信号処理プログラム及び信号処理方法 Download PDFInfo
- Publication number
- JP2024008102A JP2024008102A JP2022109670A JP2022109670A JP2024008102A JP 2024008102 A JP2024008102 A JP 2024008102A JP 2022109670 A JP2022109670 A JP 2022109670A JP 2022109670 A JP2022109670 A JP 2022109670A JP 2024008102 A JP2024008102 A JP 2024008102A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- amplitude spectrum
- signal processing
- spectrum ratio
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 13
- 238000001228 spectrum Methods 0.000 claims abstract description 71
- 238000003491 array Methods 0.000 claims abstract description 35
- 238000000034 method Methods 0.000 claims description 32
- 230000008569 process Effects 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 10
- 230000000717 retained effect Effects 0.000 claims 5
- 230000015572 biosynthetic process Effects 0.000 abstract 1
- 238000000605 extraction Methods 0.000 description 55
- 238000010586 diagram Methods 0.000 description 16
- 238000004458 analytical method Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 230000015654 memory Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 230000002457 bidirectional effect Effects 0.000 description 5
- 238000004088 simulation Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 238000000610 breath-figure templating Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000009434 installation Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 206010019133 Hangover Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000009408 flooring Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Images
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
【課題】 複数の話者が目的エリア内に存在する場合でも、発話内容を話者ごとに区別する。【解決手段】 本発明は、信号処理装置、信号処理プログラム及び信号処理方法に関する。そして、本発明の信号処理装置は、複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を得る指向性形成手段と、それぞれのビームフォーミング出力の振幅スペクトル比率を取得する振幅スペクトル比率取得手段と、振幅スペクトル比率取得手段が取得した振幅スペクトル比率を時系列ごとに所定期間分保持し、保持した振幅スペクトル比率に基づいて、目的音の音源位置の特徴を示す音源位置特徴量を取得する音源位置特徴量取得手段とを有することを特徴とする。【選択図】 図1
Description
この発明は信号処理装置、信号処理プログラム及び信号処理方法に関し、例えば、特定のエリアを音源とする音を強調し、それ以外のエリアを音源とする音を抑制する処理を行うシステムに適用し得る。
雑音環境下で音声認識システムを利用する場合、必要な目的音と同時に混入する周囲の雑音は、収録された音声の音声認識率の低下をもたらす厄介な存在である。
従来、このような複数の音源が存在する環境下において、特定の方向の音のみ分離・収音することで、不要音の混入を避け必要な目的音を得る技術として、マイクアレイを用いたビームフォーミング(Beam Forming;以下、「BF」とも呼ぶ)がある。BFとは、各マイクロホンに到達する信号の時間差を利用して指向性を形成する技術である(非特許文献1参照)。BFは、遅延和BFと減算型BFの大きく2つの種類に分けられる。特に減算型BFは、遅延和BFに比べ、少ないマイクロホン数で指向性を形成できるという利点がある。
図6は、マイクロホン数が2個(M1、M2)の場合の減算型BF400に係る構成を示すブロック図である。
ここでは、マイクロホン数が2個(M1、M2)のマイクアレイにおいて、マイクロホンM1、M2の時間領域の入力信号をそれぞれx1、x2と表し、マイクロホンM1、M2の周波数領域の入力信号をそれぞれX1、X2と表すものとする。
減算型BF400は、遅延器410と減算器420を有している。減算型BF400は、目的方向に存在する目的音が各マイクロホンに到来する信号の時間差を算出し、遅延器410により遅延を加えることにより目的音の位相を合わせる。このときの時間差は下記(1)式により算出される。ここで、dはマイクロホン間の距離であり、cは音速であり、τLは遅延量であり、θLは各マイクロホンを結んだ直線に対する垂直方向から目的方向への角度である。
また、ここで、遅延器410は、死角がマイクロホンM1とマイクロホンM2の中間点(マイクロホンM1、M2の位置を結んだ線の中間点)に対し、マイクロホンM1の方向に存在する場合、マイクロホンM1の入力信号x1(t)に対し遅延処理を行う。その後、減算器420が、(2)式に従った減算処理を行う。減算器420では、周波数領域でも同様に減算処理を行うことができ、その場合(2)式は以下の(3)式のように変更される。
図7は、減算型BF400により形成される指向性フィルタの例について示した図である。図7では、マイクロホンM1、M2の位置を結んだ線の中間点を原点とした指向性について点線で図示している。
(3)式において、θL=±π/2の場合、形成される指向性は図7(a)に示すようなカージオイド型の単一指向性となり、θL=0,πの場合は、図7(b)に示すような8の字型の双指向性となる。ここでは、入力信号から単一指向性を形成するフィルタを単一指向性フィルタ、双指向性を形成するフィルタを双指向性フィルタと呼称する。
また、スペクトル減算法を用いることで、双指向性の視覚に強い指向性を形成することもできる。スペクトル減算による指向性は、(4)式に従い、全周波数、もしくは指定した周波数帯域で形成される。なお、(4)式において、|V|は変数vの絶対値を得る演算子である。(4)式では、マイクロホン1の入力信号X1(ω)を用いているが、マイクロホン2の入力信号X2(ω)でも同様の効果を得ることができる。ここで、βはスペクトル減算の強度を調節するための係数である。減算時に値がマイナスになった場合は、0または元の値を小さくした値に置き換えるフロアリング処理を行う。この方式は、双指向性フィルタにより目的方向以外に存在する音(非目的音とも呼ぶ)を抽出し、抽出した非目的音の振幅スペクトルを入力信号の振幅スペクトルから減算することで、目的音方向を強調することができる。
|Y(ω)|=|X1(ω)|-β|M(ω)| …(4)
また、特定のエリア(目的エリアとも呼ぶ)だけを収音したい場合、減算型BFを用いるだけでは、そのエリアの周囲に存在する音源も収音してしまう可能性がある。そこで、特許文献1~3の記載技術では、複数のマイクアレイを用い、それぞれ別の方向から目的エリアへ指向性を向け、指向性を目的エリアで交差させることで目的音を収音する「エリア収音処理」を提案している。
また、特定のエリア(目的エリアとも呼ぶ)だけを収音したい場合、減算型BFを用いるだけでは、そのエリアの周囲に存在する音源も収音してしまう可能性がある。そこで、特許文献1~3の記載技術では、複数のマイクアレイを用い、それぞれ別の方向から目的エリアへ指向性を向け、指向性を目的エリアで交差させることで目的音を収音する「エリア収音処理」を提案している。
次に、特許文献3に記載の技術について説明する。
図8は、2つのマイクアレイMA1、MA2を用いて、目的エリアの音源からの目的音を収音する処理について示した説明図である。図8(a)は、各マイクアレイの構成例について示した説明図である。図8(b)、図8(c)は、それぞれ図8(a)に示すマイクアレイMA1、MA2のBF出力について周波数領域で示したグラフ(イメージ図)である。従来のエリア収音処理では、図8(a)に示すように、マイクアレイMA1、MA2の指向性を別々の方向から目的エリアで交差させて収音する。図8(a)の状態では、各マイクアレイMA1、MA2の指向性に目的音だけでなく非目的音も含まれている。しかし、図8(b)、図8(c)に示すように、マイクアレイMA1、MA2のBF出力に、共通に含まれる成分以外を抑圧することで目的音のみ抽出することができる。
従来のエリア収音では、まず各マイクアレイのBF出力に含まれる目的音(目的エリアを音源とする目的エリア音)の振幅スペクトルの比率を推定し、それを補正係数とする。例として、2つのマイクアレイを使用する場合、目的音振幅スペクトルの補正係数(以下、「振幅スペクトル補正係数」又は単に「補正係数」と呼ぶ)αは、例えば(5)式により算出される。(5)式において、Y1(ω)、Y2(ω)はそれぞれマイクアレイMA1、MA2のBF出力の振幅スペクトルである。また、modeω(f(ω))は周波数ωに関して関数f(ω)の最頻値を得る演算子であり、例えば最頻値はヒストグラムを作成して得る。また、例えば、最頻値に替えて、最頻値の近似値である中央値を用いても良い。
次に、(6)式に示すように、BF間振幅比αによりBF出力を補正してスペクトル減算することで、BF出力に含まれる非目的音Nを抽出する。さらに、(7)式に示すように、抽出した非目的音をBF出力からスペクトル減算することで、目的音Z(目的エリアを音源とする音の成分を抽出(強調)した信号;以下、「目的エリア音強調音」とも呼ぶ)を抽出することができる。ここで、γはスペクトル減算の強度を調節するための係数である。
|N(ω)|=|Y1(ω)|-α|Y2(ω)| …(6)
|Z(ω)|=|Y1(ω)|-γ|N(ω)| …(7)
|N(ω)|=|Y1(ω)|-α|Y2(ω)| …(6)
|Z(ω)|=|Y1(ω)|-γ|N(ω)| …(7)
背景雑音が強い場合、目的音Zには消しきれなかった雑音が残り、ミュージカルノイズなど耳障りな異音が発生することがある。そこで、マイクアレイの入力信号と抽出した目的音とを比較して、目的音の有無を判定して、目的音が存在しない場合には無音もしくは小さな音を出力するようにする。具体的には、(8)式によって入出力間振幅比Uを計算する。そして、入出力間振幅比Uが所定の閾値以上であれば目的音が存在すると判定し、入出力間振幅比Uが該閾値未満であれば目的音は存在しないと判定する。なお、目的音の有無の判定は、入出力間振幅比Uが閾値よりも一定以上大きい場合、その後の数秒間は、入出力間振幅比Uの値に関わらず目的音が存在すると判定する処理(ハングオーバー機能に対応する処理)を追加するようにしてもよい。
以上の通り、特許文献3の手法を用いれば、複数のマイクアレイの指向性を異なる方向から目的エリアに向けて交差させ、各マイクアレイのBF出力から共通に含まれる成分を抽出することにより、周囲に種々の不要音源が存在する環境であっても、特定のエリアの音を強調・収音することができる。
また、特許文献4に記載の技術は、対面の相談窓口のような対話録音システムにおいて、応対者席とカウンターを挟んで対面する相談者席の2つのエリアを個別に強調・収録する効果的なマイク配置を提案している。特許文献4のマイク配置を用いれば、2つのエリアに分かれて発話している複数の話者の音声を個別に強調・収音することができる。
浅野太著,"音響テクノロジーシリーズ16 音のアレイ信号処理-音源の定位・追跡と分離-",日本音響学会編,コロナ社,2011年2月25日発行
しかしながら、特許文献1~4に記載の技術は、目的エリア内に存在する複数の音源を1つの目的音として抽出してしまうという問題がある。また、特許文献4に記載の技術は、2つのエリアに分かれて発話している複数の話者の音声を個別に強調・収音することはできるが、1つのエリアに集合して発話している複数の話者の音声に対しては、特許文献1~3に記載の技術と同様に1つの目的音として抽出してしまう。
従って、特許文献1~4の記載技術では、複数の話者が目的エリア内で順次または同時に発話していた場合、発話内容を話者ごとに区別することはできない問題があった。
以上のような問題に鑑みて、複数の話者が目的エリア内に存在する場合でも、発話内容を話者ごとに区別することができる信号処理装置、信号処理プログラム及び信号処理方法が望まれている。
第1の本発明の信号処理装置は、(1)複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を得る指向性形成手段と、(2)それぞれの前記ビームフォーミング出力の振幅スペクトル比率を取得する振幅スペクトル比率取得手段と、(3)前記振幅スペクトル比率取得手段が取得した前記振幅スペクトル比率を時系列ごとに所定期間分保持し、保持した前記振幅スペクトル比率に基づいて、目的音の音源位置の特徴を示す音源位置特徴量を取得する音源位置特徴量取得手段とを有することを特徴とする。
第2の本発明の信号処理プログラムは、コンピュータを、(1)複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を得る指向性形成手段と、(2)それぞれの前記ビームフォーミング出力の振幅スペクトル比率を取得する振幅スペクトル比率取得手段と、(3)前記振幅スペクトル比率取得手段が取得した前記振幅スペクトル比率を時系列ごとに所定期間分保持し、保持した前記振幅スペクトル比率に基づいて、目的音の音源位置の特徴を示す音源位置特徴量を取得する音源位置特徴量取得手段として機能させることを特徴とする。
第3の本発明は、信号処理装置が行う信号処理方法において、(1)前記信号処理装置は、指向性形成手段、振幅スペクトル比率取得手段、及び音源位置特徴量取得手段を備え、(2)前記指向性形成手段は、複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を得、(3)前記振幅スペクトル比率取得手段は、それぞれの前記ビームフォーミング出力の振幅スペクトル比率を取得し、(4)前記音源位置特徴量取得手段は、前記振幅スペクトル比率取得手段が取得した前記振幅スペクトル比率を時系列ごとに所定期間分保持し、保持した前記振幅スペクトル比率に基づいて、目的音の音源位置の特徴を示す音源位置特徴量を取得することを特徴とする。
本発明によれば、複数の話者が目的エリア内に存在する場合でも、発話内容を話者ごとに区別することができる信号処理装置、信号処理プログラム及び信号処理方法を提供することができる。
(A)第1の実施形態
以下、本発明による信号処理装置、信号処理プログラム及び信号処理方法の第1の実施形態を、図面を参照しながら詳述する。
以下、本発明による信号処理装置、信号処理プログラム及び信号処理方法の第1の実施形態を、図面を参照しながら詳述する。
(A-1)第1の実施形態の構成
図1は、この実施形態の信号処理装置100の機能的構成について示したブロック図である。
図1は、この実施形態の信号処理装置100の機能的構成について示したブロック図である。
信号処理装置100は、2つのマイクアレイMA(MA1、MA2)が捕捉した音響信号に基づいて、目的エリア内で発話している話者の位置に関する発話位置特徴量Pを算出する処理等を行う。
ここで、マイクロホンアレイMA1、MA2は、目的エリアが存在する空間の任意の場所に配置される。目的エリアに対するマイクロホンアレイMA1、MA2の位置は、指向性が目的エリアでのみ重なればどこでも良く、例えば目的エリアを挟んで対向に配置しても良い。各マイクロホンアレイMAは、それぞれN個(Nは2以上の整数)のマイクロホンM(M1~MN)で構成することができ、各マイクロホンMにより音響信号を収音する。なお、この実施形態では、好適な例として、各マイクロホンアレイMAに、音響信号を収音する2つのマイクロホンM(M1、M2;つまりN=2)が配置され構成について説明する。
次に、信号処理装置100の内部構成について説明する。
信号処理装置100は、周波数解析手段103、第1の指向性形成手段104、第2の指向性形成手段105、振幅比算出手段106及び特徴抽出手段107を有している。信号処理装置100による処理の詳細については後述する。
なお、この実施形態では、各マイクアレイMAに、信号変換機能(AC/DC変換機能)が備えられているものとして説明するが、信号変換機能(AC/DC変換機能)については、信号処理装置100側で備える構成としてもよい。つまり、信号処理装置100は、各マイクアレイMAからアナログ信号の供給を受けて、図示しない信号変換手段によりデジタル信号に変換するようにしてもよい。
次に、信号処理装置100のハードウェア構成の例について説明する。
信号処理装置100は、全てハードウェア(例えば、専用チップ等)により構成するようにしてもよいし一部又は全部についてソフトウェア(プログラム)として構成するようにしてもよい。信号処理装置100は、例えば、プロセッサ及びメモリを有するコンピュータにプログラム(実施形態の信号処理プログラムを含む)をインストールすることにより構成するようにしてもよい。
図2は、信号処理装置100のハードウェア構成の例について示したブロック図である。
図2では、信号処理装置100を、ソフトウェア(コンピュータ)を用いて構成する際のハードウェア構成の例について示している。
図2に示す信号処理装置100は、ハードウェア的な構成要素として、プログラム(実施形態の信号処理プログラムを含む)がインストールされたコンピュータ400を有している。また、コンピュータ400は、信号処理プログラム専用のコンピュータとしてもよいし、他の機能のプログラムと共用される構成としてもよい。
図2に示すコンピュータ400は、プロセッサ401、一次記憶部402、及び二次記憶部403を有している。一次記憶部402は、プロセッサ401の作業用メモリ(ワークメモリ)として機能する記憶手段であり、例えば、DRAM(Dynamic Random Access Memory)等の高速動作するメモリを適用することができる。二次記憶部403は、OS(Operating System)やプログラムデータ(実施形態に係る信号処理プログラムのデータを含む)等の種々のデータを記録する記憶手段であり、例えば、FLASH(登録商標)メモリやHDDやSSD等の不揮発性メモリを適用することができる。この実施形態のコンピュータ400では、プロセッサ401が起動する際、二次記憶部403に記録されたOSやプログラム(実施形態に係る信号処理プログラムを含む)を読み込み、一次記憶部402上に展開して実行する。
なお、コンピュータ400の具体的な構成は図2の構成に限定されないものであり、種々の構成を適用することができる。例えば、一次記憶部402が不揮発メモリ(例えば、FLASHメモリ等)であれば、二次記憶部403については除外した構成としてもよい。
(A-2)第1の実施形態の動作
次に、以上のような構成を有する第1の実施形態の信号処理装置100の動作(実施形態に係る信号処理方法)を説明する。
次に、以上のような構成を有する第1の実施形態の信号処理装置100の動作(実施形態に係る信号処理方法)を説明する。
第1のマイクアレイMA1と第2のマイクアレイMA2は、捕捉した音響信号を、アナログ信号からデジタル信号へと変換して、得られたデジタル信号(以下、このデジタル信号を「入力信号」と呼ぶ)を周波数解析手段103に供給する。
周波数解析手段103は、入力信号に対して任意の周波数解析を行った結果得られたスペクトル(以下、「入力スペクトル」と呼ぶ)を、第1の指向性形成手段104と第2の指向性形成手段105に供給する。周波数解析手段103は、第1のマイクアレイMA1からの入力信号に基づく入力スペクトルを第1の指向性形成手段104に供給し、第2のマイクアレイMA2からの入力信号に基づく入力スペクトルを第2の指向性形成手段105に供給する。なお、ここでは、各マイクアレイにおいて、マイクロホンM1、M2の入力スペクトル(周波数領域の入力信号)を、それぞれX1、X2とする。
周波数解析手段103において、適用される周波数解析方法は限定されないものであり、種々の方式を適用することができる。周波数解析手段103における周波数解析方法は、高速フーリエ変換が好適であるが、離散ガボール変換やウェーブレット変換、フィルタバンク等を用いても良い。
第1の指向性形成手段104および第2の指向性形成手段105は、それぞれ供給された複数の入力スペクトルに基づいて任意のBF方法を用いて正面方向に指向性を形成し、得られたBF出力の振幅スペクトル(以下、「BFスペクトル」とも呼ぶ)を振幅比算出手段106に供給する。
第1の指向性形成手段104および第2の指向性形成手段105において、BF方法には、任意の方法を用いることができるが、マイクアレイを構成するマイクロホンの数を2個とする場合、(3)式および(4)式によるBF方法を用いるのが好適である。例えば、第1の指向性形成手段104および第2の指向性形成手段105は、(3)式によって2つの入力スペクトルX1(ω)、X2(ω)から非目的音のスペクトルM(ω)を抽出し、(4)式によって入力信号の振幅スペクトル|X1(ω)|から抽出した非目的音の振幅スペクトル|M(ω)|をスペクトル減算することで、目的音方向(目的エリア方向)を強調する。
振幅比算出手段106は、供給された2つのBFスペクトルに基づいて、目的音(目的エリアを音源とする音)が2つのマイクアレイに収音される比率を算出し、得られたBF間振幅比を特徴抽出手段107に供給する。
振幅比算出手段106は、(6)式に従って、補正係数αを算出する。この補正係数αは、目的音が2つのマイクアレイに収音される比率そのものを表す性質を備えるため、以下ではαを「BF間振幅比」とも呼ぶものとする。
図3は、マイクアレイMA1、MA2及び目的エリアが存在する領域における位置毎のBF間振幅比(補正係数)αの分布(シミュレーション結果)について示したグラフである。
図3では、マイクロホンアレイMA1、MA2の位置、及びマイクロホンアレイMA1、MA2によるBFの指向性の交点の位置P1に星形のマーク(図形)を付している。そして、図3では、位置P1の周囲における補正係数の値を示している。図3では、上述の補正係数の大小を当該領域の色の濃淡(点描の粗密)で示しており、濃度が濃い(点描の密度が高い)ほど、補正係数の小さい領域であることを示している。言い換えると、図3では、濃度が薄い(点描の密度が低い)ほど、補正係数の大きい領域であることを示している。図3では、マイクロホンアレイMA1、MA2の間の中間点で、マイクロホンアレイMA1、MA2を結んだ線に直交する中心線L1(マイクロホンアレイMA1、MA2間の線分の垂直二等分線)を図示している。位置P1は中心線L1上に存在するものとする。また、図3では、補正係数が同じ値となる線状の部分に白色の等高線を付している。さらに、図3では、グラフの右側に、グラフ内の補正係数に対応するカラーチャート(パターンチャート)を付記している。
図3のシミュレーションでは、マイクアレイMA1、MA2の設置角度(2つのマイクアレイMA1、MA2の間を結んだ直線とマイクロホンM1、M2の間を結んだ直線とが成す角度)をいずれも45度とし、マイクアレイMA1、MA2の間の距離を60cmとしている。そして、図3のシミュレーションでは、上記のような条件で、BF間振幅比(補正係数)αを、目的音の位置を変えて算出し、αの値の大きさの平均値をデシベル値(20*log10(α))に変換してマッピングしている。なお、マイクアレイMA1、MA2の設置角度や設置間隔については上記の例に限定されないものである。
ここで、例として、目的エリア内(位置P1の周辺)に2人の話者(目的音の音源)が存在する場合を想定する。このとき、図3において、第1の話者が(x,y)=(-20,+20)、第2の話者が(x,y)=(+20,+20)の位置にいて、別々に、もしくは2人で会話をしている場合、第1の話者のBF間振幅比αは大きく(正のデシベル値)、第2の話者の補正係数αは小さく(負のデシベル値)となる。また、例えば、同じく2人の話者がいて、図3において、第1の話者が(x,y)=(-10,+20)、第2の話者が(x,y)=(-10,+50)の位置にいて、別々に、もしくは2人で会話をしている場合、第1の話者のαは大きい値(正のデシベル値)となり、第2の話者のαは小さい値(負のデシベル値)となる。
以上のように、図3のシミュレーション結果等から、BF間振幅比(補正係数)αは、発話位置(目的音源位置)に応じて大きくなったり小さくなったりすることから、発話位置(目的音源位置)に関する特徴量となっていることがわかる。ただし、BF間振幅比αの算出には除算を含むことから、目的音のパワーが小さい場合(例えば、話者が無声子音を発声している場合など)には不安定となり、真の値からかけ離れて大きくなったり小さくなったりすることがある。そのため、信号処理装置100では、特徴抽出手段107を設けて、上記のような外れ値を除去する処理等を行っている。
特徴抽出手段107は、BF間振幅比(補正係数)αを、所定の区間(所定期間)分保持し、保持したBF間振幅比αに基づいて、目的音の音源の位置(目的音が発話音声の場合は話者の位置)を示す特徴量(以下、「目的音源位置特徴量」と呼ぶ)を取得する。この実施形態では、目的音は話者の発話音声であるため、特徴抽出手段107が取得する目的音源位置特徴量は、話者の位置を示す特徴量(以下、「発話位置特徴量」と呼ぶ)であるともいえる。この実施形態の例では、特徴抽出手段107は、保持した所定の区間のBF間振幅比αの代表値を算出し、当該代表値を発話位置特徴量Pとして取得し、出力するものとする。
特徴抽出手段107による代表値の算出方法には、任意の方法を用いることができる。例えば、特徴抽出手段107は、直近の所定期間に算出された所定数のBF間振幅比α(直近のαの時系列データ)から、平均値、最頻値又は中央値等の代表値(計算的な代表値)を取得し、当該代表値を発話位置特徴量Pとして取得するようにしてもよい。
外れ値を含む可能性のある数列における中央値は、最頻値の近似値であることに加え、時系列データの中央値を出力するフィルタは特別にメディアンフィルタと呼ばれ、外れ値を効率良く除去する平滑化フィルタとしてよく用いられる。そのため、特徴抽出手段107による代表値の算出には、直近におけるBF間振幅比αの時系列データから、中央値を取得する方式が好適となる。そのため、この実施形態の例において、特徴抽出手段107は、直近におけるBF間振幅比αの時系列データから、中央値を取得するものとする。
次に、特徴抽出手段107による具体的な処理の例について説明する。
ここでは、特徴抽出手段107は、BF間振幅比αを所定の区間分保持(αの時系列データを保持)するための手段(バッファ手段)としてバッファ1071を備えているものとする。ここでは、バッファ1071は、M個(Mは2以上の整数)のBF間振幅比αを保持可能なバッファであるものとする。バッファ1071は、最も古いデータを捨て、振幅比算出手段106から供給されたαを新たに格納することで更新されるバッファ(いわゆるFIFO(First In First Out)バッファ)であるものとする。そして、特徴抽出手段107は、バッファ1071に格納されているM個のBF間振幅比αの中央値(代表値)を算出し、発話位置特徴量Pとして得るものとする。
特徴抽出手段107が代表値を算出するための所定の区間(バッファ1071のバッファ長)は限定されないものであるが、発話位置特徴量Pの用途に応じて好適な値を適用することが望ましい。この実施形態の特徴抽出手段107において、代表値を算出するための所定の区間(バッファ1071のバッファ長)は、短すぎると外れ値を除去しきれず、長すぎると話者の切り替わりへの追従が遅れることになる。これらを考慮すると、バッファ1071のバッファ長は、1秒間程度(1秒間程度のサンプル数分のBF間振幅比αを保持可能な長さ)とするのが好適である。
この実施形態の例において、特徴抽出手段107が発話位置特徴量Pを算出するタイミングや形式についても限定されないものである。また、特徴抽出手段107は、例えば、発話位置特徴量Pを外部装置に出力(供給)するようにしてもよいし、信号処理装置100内(例えば、同じコンピュータ内)の他の処理手段(例えば、他のプログラム)に発話位置特徴量Pを出力(供給)するようにしてもよい。なお、以下では、特徴抽出手段107が発話位置特徴量Pを出力する先の外部装置やプログラム(同一コンピュータ内の他のプログラム)を総称して、単に「出力先」若しくは「供給先」と呼ぶものとする。つまり、特徴抽出手段107は、例えば、音響信号からの音声認識処理を含む処理を行う出力先(装置又はプログラム)に発話位置特徴量Pを含むデータを出力(供給)する。
特徴抽出手段107は、任意のタイミング(定期又は不定期のタイミング)で発話位置特徴量Pを算出するようにしてもよい。例えば、特徴抽出手段107は、バッファ1071のバッファ長に相当する期間ごと(上記の例だと1秒ごと)に発話位置特徴量Pを算出して出力先に出力するようにしてもよい。特徴抽出手段107は、発話位置特徴量Pを算出する都度リアルタイムに出力(逐次出力;オンライン出力)するようにしてもよいし、複数の発話位置特徴量Pを時系列データとしてまとめて出力(オフライン出力;バッチ出力)するようにしてもよい。また、特徴抽出手段107が発話位置特徴量Pを出力する際の出力データの形式についても限定されないものである。特徴抽出手段107は、例えば、発話位置特徴量Pをそのまま出力してもよいし、入力信号の時系列を示すインデックス(例えば、入力信号の時系列に対応するタイムスタンプやインデックス番号)等を付加して出力するようにしてもよい。
以上のように、信号処理装置100(特徴抽出手段107)は、時系列ごとに発話位置特徴量Pを取得して出力する。また、上記のように、信号処理装置100(特徴抽出手段107)が発話位置特徴量Pを出力する形式(データ形式)やタイミングは任意(出力先に合わせた形式やタイミング)とすることができる。
ここで、信号処理装置100(特徴抽出手段107)が時系列ごとに取得する発話位置特徴量Pに対応する区間の音響信号(例えば、発話位置特徴量Pの算出の元となった入力信号と同じ区間の音響信号)を「対応音響信号」と呼ぶものとする。なお、以下では、「対応音響信号」と呼ぶ場合、マイクアレイMA1、MA2のいずれかのマイクロホンが収音(捕捉)した音響信号そのものだけでなく、マイクアレイMA1、MA2からの音響信号(入力信号)について任意の信号処理を行った結果得られた音響信号も含む概念であるものとする。対応音響信号としては、例えば、第1の指向性形成手段104又は第2の指向性形成手段105から出力される音響信号(いずれかのマイクアレイのBF出力)や、マイクアレイMA1、MA2からの音響信号(入力信号)について種々のエリア収音処理(例えば、特許文献1~3のいずれかの処理)を行った結果得られた音響信号(目的エリア音を抽出した音響信号)が該当する。なお、信号処理装置100(特徴抽出手段107)は、時系列ごとに発話位置特徴量Pに任意の形式の対応音響信号を付加して出力するようにしてもよい。
次に、出力先(供給先)において、発話位置特徴量Pに基づいて話者ごとの発話音声を区別する具体的な例について説明する。
ここでは、図3のようにマイクアレイMA1、MA2が配置されており、2人の話者が存在する場合を想定する。また、ここでは、発話位置特徴量Pの出力先(供給先)において、時系列ごとに、発話位置特徴量Pと共にエリア収音結果(マイクアレイMA1、MA2からの入力信号に基づくエリア収音結果)が保持されているものとする。さらに、ここでは、第1の話者が(x,y)=(-20,+20)、第2の話者が(x,y)=(+20,+20)の位置にいて、2人が交互に発話している場合を想定する。この場合、出力先(供給先)では、第1のマイクアレイMA1または第2のマイクアレイMA2を構成するいずれかのマイクロホンMにより収音された音響信号を、発話位置特徴量Pの値(デシベル値)が正か負かによって2つに分けることで、音響信号(ここではエリア収音結果)を第1の話者の音響信号と第2の話者の音響信号とに分離することができる。出力先(供給先)では、このように分離した音響信号を、任意の音声処理(例えば、任意の音声認識処理)に供給することで、第1の話者と第2の話者のそれぞれの発話内容を分離して取得することができる。
(A-3)第1の実施形態の効果
第1の実施形態によれば、以下のような効果を奏することができる。
第1の実施形態によれば、以下のような効果を奏することができる。
第1の実施形態の信号処理装置100では、目的音の位置によって値が変化する発話位置特徴量Pが得られる。そのため、第1の実施形態では、発話位置特徴量Pの出力先(供給先)において、抽出された目的音が、同一話者(同じ位置で発話した音声)か、異なる話者(異なる位置で発話した音声)かを発話位置特徴量によって区別すること等が可能となる。
(B)第2の実施形態
以下、本発明による信号処理装置、信号処理プログラム及び信号処理方法の第2の実施形態を、図面を参照しながら詳述する。
以下、本発明による信号処理装置、信号処理プログラム及び信号処理方法の第2の実施形態を、図面を参照しながら詳述する。
(B-1)第2の実施形態の構成
図4は、この実施形態の信号処理装置100Aの機能的構成について示したブロック図であり、上述の図1と同一部分又は対応部分に、同一符号又は対応符号を付している。
図4は、この実施形態の信号処理装置100Aの機能的構成について示したブロック図であり、上述の図1と同一部分又は対応部分に、同一符号又は対応符号を付している。
図4に示すように、第2の実施形態の信号処理装置100Aでは、特徴抽出手段107が特徴抽出手段107Aに置き換わり、さらにエリア音強調手段108及びエリア音判定手段109が追加されている点で第1の実施形態と異なる。
第1の実施形態では、特徴抽出手段107において、発話位置特徴量Pを、BF間振幅比(補正係数)αの所定の区間の代表値としていた。しかしながら、実際には、目的エリア内にいることができる数名の話者が途切れなく発話し続けることはあり得ないため、入力信号において、目的音(目的エリア内を音源とする音)が存在しない区間が必ず存在する。入力信号において目的音が存在しない区間(目的音の成分が含まれない区間)では、BF間振幅比(補正係数)αは意味のない値(発話位置を示さない値)であり、最悪の場合はランダムな値(不安定な値)となる。従って、例えば、所定の区間(バッファ1071のバッファ長)を1秒とした場合、第1の実施形態の特徴抽出手段107では、発話開始から最初の1秒間は、意味のない値(またはランダムな値)を含むバッファ1071から代表値を算出することとなるため、得られる発話位置特徴量Pは信頼できないことになる。
そこで、第2の実施形態の信号処理装置100Aでは、入力信号における目的音の成分の有無を判定する処理(以下、「目的音判定処理」と呼ぶ)を行い、入力信号に目的音の成分が含まれる場合にのみバッファ1071にBF間振幅比(補正係数)αを格納(追加)することで、発話位置特徴量Pをより正しく算出するものとする。
(B-2)第2の実施形態の動作
次に、以上のような構成を有する第2の実施形態の信号処理装置100Aの動作(実施形態に係る信号処理方法)を説明する。
次に、以上のような構成を有する第2の実施形態の信号処理装置100Aの動作(実施形態に係る信号処理方法)を説明する。
以下では、第2の実施形態の信号処理装置100Aの動作のうち、第1の実施形態との差異を中心に説明する。信号処理装置100Aにおいて、第1の実施形態と同じ符号の構成要素の動作は、第1の実施形態と同様のため、説明を省略する。
エリア音強調手段108は、入力信号についエリア収音処理を行って目的エリアを音源とする音の成分を強調した信号(以下、「目的エリア音強調信号」と呼ぶ)を取得してエリア音判定手段109に供給する。エリア音強調手段108が目的エリア音強調信号を取得する処理について限定されないものであり、種々のエリア収音処理を適用することができる。この実施形態では、エリア音強調手段108は、第1の指向性形成手段104から供給される第1のBFスペクトル|Y1(ω)|と、第2の指向性形成手段105から供給される第2のBFスペクトル|Y2(ω)|と、振幅比算出手段106から供給されるBF間振幅比(補正係数)αとに基づいて、(6)式と(7)式によってエリア収音処理を行い、|Z(ω)|を「目的エリア音強調信号」として取得する。
エリア音判定手段109は、目的エリア音強調信号(入力信号に基づく信号)に対する目的音判定処理を行い、その判定結果(以下、「エリア音判定結果D」と呼ぶ)を特徴抽出手段107Aに供給する。エリア音判定結果Dは、目的エリア音強調信号(入力信号に基づく信号)に目的音の成分が含まれていたことを示す「目的音有り」、又は目的エリア音強調信号(入力信号に基づく信号)に目的音の成分が含まれていなかったことを示す「目的音無し」のいずれかの値(例えば、「0」又は「1」の2値のいずれかのフラグ値)で示されるものとして説明する。
エリア音判定手段109が目的音判定処理を行う具体的な方式は限定されないものであり種々の方式を適用することができる。この実施形態の例では、エリア音判定手段109は、特許文献3に記載の方式により目的音判定処理を行う者として説明する。具体的には、エリア音判定手段109は、エリア音強調手段108から供給された目的エリア音強調信号|Z(ω)|と、周波数解析手段103から供給される入力スペクトルX1(ω)とに基づいて、(8)式によって入力信号と目的音の比である入出力間振幅比Uを算出し、入出力間振幅比Uに基づいて目的音判定処理を行うものとする。ここでは、エリア音判定手段109は、入出力間振幅比Uが所定の閾値以上なら「目的音有り」と判定し、入出力間振幅比Uが所定の閾値未満なら「目的音無し」と判定するものとする。
特徴抽出手段107Aは、エリア音判定結果Dに基づいて、バッファ1071からBF間振幅比αの代表値を算出し、発話位置特徴量Pとして取得する。特徴抽出手段107Aにおける代表値の算出方法には、第1の実施形態の特徴抽出手段107と同様に任意の方法を用いることができるので詳しい説明を省略する。
次に、特徴抽出手段107Aがバッファ1071を用いて発話位置特徴量Pを取得する処理の例について説明する。
この実施形態の例において、特徴抽出手段107Aは、エリア音判定結果Dが「目的音有り」である場合に限り、バッファ1071に新たなBF間振幅比αを追加する更新処理を行うものとする。具体的には、特徴抽出手段107Aは、エリア音判定結果Dが「目的音有り」である場合に限り、バッファ1071から最も古いデータを捨て、振幅比算出手段106から供給されたBF間振幅比αを新たに格納する。そして、特徴抽出手段107Aは、エリア音判定結果Dが「目的音有り」である場合、バッファ1071の更新処理後に、バッファ1071に格納されているBF間振幅比αの中央値を算出し、発話位置特徴量Pとして得る。
なお、特徴抽出手段107Aは、エリア音判定結果Dが「目的音無し」の場合は、バッファ1071を更新せず、前回算出した発話位置特徴量Pの値を保持して発話位置特徴量Pとする。
第2の実施形態において、特徴抽出手段107Aが代表値を算出するための所定のサンプル数(バッファ1071のバッファ長)は、短すぎると外れ値を除去しきれず、長すぎると話者の切り替わりへの追従が遅れるが、目的音のない区間を無視する分、第1の実施形態より短く(追従を早く)設定することができる。例えば、第2の実施形態において、バッファ1071のバッファ長は、0.5秒間程度(0.5秒間程度のサンプル数分の補正係数αを保持可能な長さ)とするのが好適である。
(B-3)第2の実施形態の効果
第2の実施形態によれば、第1の実施形態の効果に加えて以下のような効果を奏することができる。
第2の実施形態によれば、第1の実施形態の効果に加えて以下のような効果を奏することができる。
第2の実施形態の信号処理装置100Aでは、有音区間となっている区間の情報(入力信号)のみを利用して発話位置特徴量Pを算出するため、より正確で遅延の少ない発話位置特徴量Pを得ることができる。
(C)第3の実施形態
以下、本発明による信号処理装置、信号処理プログラム及び信号処理方法の第3の実施形態を、図面を参照しながら詳述する。
以下、本発明による信号処理装置、信号処理プログラム及び信号処理方法の第3の実施形態を、図面を参照しながら詳述する。
(C-1)第3の実施形態の構成
図5は、この実施形態の信号処理装置100Bの機能的構成について示したブロック図であり、上述の図4と同一部分又は対応部分に、同一符号又は対応符号を付している。
図5は、この実施形態の信号処理装置100Bの機能的構成について示したブロック図であり、上述の図4と同一部分又は対応部分に、同一符号又は対応符号を付している。
図5に示すように、第3の実施形態の信号処理装置100Bでは、特徴抽出手段107Aが特徴抽出手段107Bに置き換わっている点で第2の実施形態と異なっている。
第1及び第2の実施形態の特徴抽出手段107、107Aでは、発話位置特徴量Pを、BF間振幅比(補正係数)αの所定のサンプル数の代表値としていた。例えば、目的エリア内に複数の話者が存在する場合、第1の話者の発話が終わった後、間をおいて別の位置にいる第2の話者が発話を開始した場合、特徴抽出手段107Aでは、第2の話者が話し始めた最初の所定のサンプル数の間は、第1の話者が話していた間のサンプル(入力信号)の影響を受けるため、得られる発話位置特徴量Pが遅延する(正確に第2の話者の発話位置を取得できるようになるまでに時間がかかる)。
そこで、第3の実施形態の特徴抽出手段107Bは、エリア音判定結果Dが所定以上連続して「目的音有り」となる区間(以下、「連続有音区間」と呼ぶ)のBF間振幅比αから代表値を算出することで、発話位置特徴量Pをより正しく算出する。例えば、特徴抽出手段107Bは、エリア音判定結果DがK回以上(Kは2以上の任意の整数)連続して「目的音有り」となる区間を連続有音区間と認識するようにしてもよい。
言い換えると、特徴抽出手段107Bは、連続有音区間ごとに発話位置特徴量Pを算出する。例えば、第1のタイミングでエリア音判定結果Dが「目的音無し」から「目的音有り」に遷移した後、エリア音判定結果Dが所定以上連続して「目的音有り」となり、その後第2のタイミングでエリア音判定結果Dが「目的音有り」から「目的音無し」に遷移した場合、第1のタイミングと第2のタイミングの間の区間が連続有音区間となる。なお、第3の実施形態の特徴抽出手段107Bは、上記の通り連続有音区間ごとに発話位置特徴量Pを算出するため、リアルタイムに出力する処理には対応できない。特徴抽出手段107Bは、連続有音区間を検知したタイミングで発話位置特徴量Pを算出すると、当該発話位置特徴量Pを当該連続有音区間の最初のタイミングに遡って適用(当該連続有音区間全体に適用)する。
(C-2)第3の実施形態の動作
次に、以上のような構成を有する第3の実施形態の信号処理装置100Bの動作を説明する。
次に、以上のような構成を有する第3の実施形態の信号処理装置100Bの動作を説明する。
以下では、第3の実施形態の信号処理装置100Bの動作のうち、第2の実施形態との差異を中心に説明する。信号処理装置100Bにおいて、第3実施形態と同じ符号の構成要素の動作は、第2の実施形態と同様のため、説明を省略する。第3の実施形態において、第2の実施形態と異なるのは特徴抽出手段107Bのみである。
特徴抽出手段107Bは、エリア音判定結果Dが所定以上連続して「目的音有り」となる区間のBF間振幅比αの代表値を算出し、得られた発話位置特徴量Pを出力する。特徴抽出手段107Bにおいて、代表値の算出方法には、第1の実施形態の特徴抽出手段107および第2の実施形態の特徴抽出手段107Aと同様に任意の方法を用いることができるので詳しい説明は省略する。
次に、特徴抽出手段107Bがバッファ1071を用いて発話位置特徴量Pを取得する処理の例について説明する。
ここでは、バッファ1071について、BF間振幅比αを保持するための十分な長さ(例えば5秒)の容量(バッファ長)が確保されているものとする。また、特徴抽出手段107Bは、エリア音判定結果Dが「目的音有り」である場合には、振幅比算出手段106から供給されたBF間振幅比αをバッファ1071に追加する更新処理を行う。さらに、特徴抽出手段107Bは、エリア音判定結果Dが「目的音有り」から「目的音無し」に切り替わったタイミングで、バッファ1071に格納されているBF間振幅比αの代表値(中央値)を算出して発話位置特徴量Pとし、バッファ1071のすべてのデータを破棄する(削除する)ものとする。この場合、削除前にバッファ1071に格納されていた補正係数αに対応する区間が、連続有音区間に該当する。そして、特徴抽出手段107Bは、当該連続有音区間の各区間の発話位置特徴量Pとして、新たに算出した発話位置特徴量Pを取得する。言い換えると、特徴抽出手段107Bは、取得した発話位置特徴量Pを当該連続有音区間の全ての区間に対して割り当てる処理を行う。
また、特徴抽出手段107Bは、エリア音判定結果Dが連続して「目的音無し」となっている区間(連続有音区間でない区間)に対しては、前回(直近)に算出した発話位置特徴量Pを適用するようにしてもよいし、意味のない値(例えば、Not-a-NumberやNULL等)を適用するようにしてもよい。
(C-3)第3の実施形態の効果
第3の実施形態によれば、第2の実施形態の効果に加えて以下のような効果を奏することができる。
第3の実施形態によれば、第2の実施形態の効果に加えて以下のような効果を奏することができる。
第3の実施形態の信号処理装置100Bでは、連続有音区間を検出し、当該区間の情報(入力信号)のみを利用して発話位置特徴量Pを算出し、得られた発話位置特徴量Pを遡って当該連続有音区間全体に適用する。これにより、第3の実施形態の信号処理装置100Bでは、より正確(高い精度)で入力信号に対して遅延のない発話位置特徴量Pを得ることができる。
(D)他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
(D-1)第2及び第3の実施形態において、信号処理装置100A、100Bは、発話位置特徴量Pに加えて、エリア音強調手段108から供給される目的エリア音強調信号|Z(ω)|(目的音の振幅スペクトル;対応音響信号)を付加して出力先(供給先)に出力(供給)するようにしても良い。
また、信号処理装置100A、100Bは、発話位置特徴量Pに加えて、周波数領域の目的エリア音強調信号|Z(ω)|(目的音の振幅スペクトル)を時間領域の信号z(t)に変換して出力を付加して出力先(供給先)に出力(供給)するようにしても良い。例えば、信号処理装置100A、100Bは、目的エリア音強調信号|Z(ω)|に入力信号X1(ω)の位相スペクトル(若しくは信号X2(ω)の位相スペクトル)を乗じて複素スペクトルとし、周波数解析手段103に対応する波形復元方法を適用してz(t)(時間領域における目的音の波形)を算出するようにしても良い。
第2及び第3の実施形態において、信号処理装置100A、100B(特徴抽出手段107A、107B)は、エリア音判定手段109のエリア音判定結果Dが「目的音無し」の区間については、目的エリア音強調信号(|Z(ω)|若しくはz(t))として、無音の信号(ダミー信号)を出力するか、入力信号を小さくした信号(入力信号のゲイン(レベル)を所定値下げた信号)を出力するようにしても良い。
第3の実施形態において、信号処理装置100B(特徴抽出手段107B)は、目的エリア音強調信号(|Z(ω)|またはz(t))を出力する際に、発話位置特徴量Pと目的エリア音強調信号をリアルタイムで出力し続けるのではなく、連続有音区間についてのみ、発話位置特徴量Pと目的エリア音強調信号を1つのデータセットとして出力するようにしてもよい。例えば、信号処理装置100B(特徴抽出手段107B)は、エリア音判定結果Dが「目的音有り」から「目的音無し」に切り替わって連続有音区間を検知したタイミングで、当該連続有音区間に対応する発話位置特徴量Pと当該連続有音区間の目的エリア音強調信号を1つのデータセットとして出力するようにしても良い。
(D-2)第2及び第3の実施形態において、信号処理装置100A、100B(特徴抽出手段107A、107B)は、目的エリア音強調信号(|Z(ω)|またはz(t))を図示しない音声認識システムに入力して発話音声をテキスト化したデータ(以下、「発話テキストデータ」と呼ぶ)を得て、当該発話テキストデータと発話位置特徴量Pとを対応付けて1つのデータセットとして出力するようにしても良い。
100、100A、100B…信号処理装置、103…周波数解析手段、104…第1の指向性形成手段、105…第2の指向性形成手段、106…振幅比算出手段、107、107A、107B…特徴抽出手段、108…エリア音強調手段、109…エリア音判定手段、1071…バッファ、M、M1~MN…マイクロホン、MA、MA1、MA2…マイクアレイ。
Claims (5)
- 複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を得る指向性形成手段と、
それぞれの前記ビームフォーミング出力の振幅スペクトル比率を取得する振幅スペクトル比率取得手段と、
前記振幅スペクトル比率取得手段が取得した前記振幅スペクトル比率を時系列ごとに所定期間分保持し、保持した前記振幅スペクトル比率に基づいて、目的音の音源位置の特徴を示す音源位置特徴量を取得する音源位置特徴量取得手段と
を有することを特徴とする信号処理装置。 - それぞれの前記ビームフォーミング出力に基づいて、目的エリアを音源とする音を強調した目的エリア音強調信号を取得するエリア音強調手段と、
前記入力信号と前記目的エリア音強調信号とに基づいて前記入力信号における目的音の成分の有無を判定するエリア音判定処理を行うエリア音判定手段とをさらに備え、
前記音源位置特徴量取得手段は、前記エリア音判定処理の判定結果が、前記入力信号に目的音が有るという結果だった有音区間の前記振幅スペクトル比率のみを保持し、保持した前記振幅スペクトル比率に基づいて前記音源位置特徴量を取得する
ことを特徴とする請求項1に記載の信号処理装置。 - 前記音源位置特徴量取得手段は、前記エリア音判定処理の判定結果が、所定以上連続して前記入力信号の前記目的音が有るという結果だった区間の前記振幅スペクトル比率のみを保持し、保持した前記振幅スペクトル比率に基づいて前記音源位置特徴量を取得することを特徴とする請求項2に記載の信号処理装置。
- コンピュータを、
複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を得る指向性形成手段と、
それぞれの前記ビームフォーミング出力の振幅スペクトル比率を取得する振幅スペクトル比率取得手段と、
前記振幅スペクトル比率取得手段が取得した前記振幅スペクトル比率を時系列ごとに所定期間分保持し、保持した前記振幅スペクトル比率に基づいて、目的音の音源位置の特徴を示す音源位置特徴量を取得する音源位置特徴量取得手段と
して機能させることを特徴とする信号処理プログラム。 - 信号処理装置が行う信号処理方法において、
前記信号処理装置は、指向性形成手段、振幅スペクトル比率取得手段、及び音源位置特徴量取得手段を備え、
前記指向性形成手段は、複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を得、
前記振幅スペクトル比率取得手段は、それぞれの前記ビームフォーミング出力の振幅スペクトル比率を取得し、
前記音源位置特徴量取得手段は、前記振幅スペクトル比率取得手段が取得した前記振幅スペクトル比率を時系列ごとに所定期間分保持し、保持した前記振幅スペクトル比率に基づいて、目的音の音源位置の特徴を示す音源位置特徴量を取得する
ことを特徴とする信号処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022109670A JP2024008102A (ja) | 2022-07-07 | 2022-07-07 | 信号処理装置、信号処理プログラム及び信号処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022109670A JP2024008102A (ja) | 2022-07-07 | 2022-07-07 | 信号処理装置、信号処理プログラム及び信号処理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024008102A true JP2024008102A (ja) | 2024-01-19 |
Family
ID=89544352
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022109670A Pending JP2024008102A (ja) | 2022-07-07 | 2022-07-07 | 信号処理装置、信号処理プログラム及び信号処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2024008102A (ja) |
-
2022
- 2022-07-07 JP JP2022109670A patent/JP2024008102A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110858476B (zh) | 一种基于麦克风阵列的声音采集方法及装置 | |
US20020150263A1 (en) | Signal processing system | |
US10176824B2 (en) | Method and system for consonant-vowel ratio modification for improving speech perception | |
WO2016135741A1 (en) | A method and system for suppressing noise in speech signals in hearing aids and speech communication devices | |
EP3939035A1 (en) | Speech enhancement using clustering of cues | |
Garg et al. | A comparative study of noise reduction techniques for automatic speech recognition systems | |
Labied et al. | An overview of automatic speech recognition preprocessing techniques | |
JP2016143042A (ja) | 雑音除去装置及び雑音除去プログラム | |
JP2006234888A (ja) | 残響除去装置、残響除去方法、残響除去プログラムおよび記録媒体 | |
CN109272996B (zh) | 一种降噪方法及系统 | |
JP2024008102A (ja) | 信号処理装置、信号処理プログラム及び信号処理方法 | |
JP6863004B2 (ja) | 収音装置、プログラム及び方法 | |
JP2004325127A (ja) | 音源検出方法、音源分離方法、およびこれらを実施する装置 | |
JP3916834B2 (ja) | 雑音が付加された周期波形の基本周期あるいは基本周波数の抽出方法 | |
CN112530452B (zh) | 一种后置滤波补偿方法、装置和系统 | |
Tiwari et al. | Speech enhancement using noise estimation with dynamic quantile tracking | |
JPS63502304A (ja) | 高雑音環境における言語認識のためのフレ−ム比較法 | |
Pandey et al. | Attentive Training: A New Training Framework for Talker-independent Speaker Extraction. | |
KR101184394B1 (ko) | 윈도우 분리 직교 모델을 이용한 잡음신호 분리방법 | |
Bharathi et al. | Speaker verification in a noisy environment by enhancing the speech signal using various approaches of spectral subtraction | |
JP7380783B1 (ja) | 収音装置、収音プログラム、収音方法、判定装置、判定プログラム及び判定方法 | |
JP2024027617A (ja) | 音声認識装置、音声認識プログラム、音声認識方法、収音装置、収音プログラム及び収音方法 | |
Alvarez et al. | System architecture for pattern recognition in eco systems | |
TN et al. | An Improved Method for Speech Enhancement Using Convolutional Neural Network Approach | |
Sato | Extracting Specific Voice from Mixed Audio Source |