JP6213324B2 - 音声信号処理装置及びプログラム - Google Patents

音声信号処理装置及びプログラム Download PDF

Info

Publication number
JP6213324B2
JP6213324B2 JP2014056715A JP2014056715A JP6213324B2 JP 6213324 B2 JP6213324 B2 JP 6213324B2 JP 2014056715 A JP2014056715 A JP 2014056715A JP 2014056715 A JP2014056715 A JP 2014056715A JP 6213324 B2 JP6213324 B2 JP 6213324B2
Authority
JP
Japan
Prior art keywords
coherence
audio signal
signal processing
modgi
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014056715A
Other languages
English (en)
Other versions
JP2015179981A (ja
Inventor
克之 高橋
克之 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2014056715A priority Critical patent/JP6213324B2/ja
Publication of JP2015179981A publication Critical patent/JP2015179981A/ja
Application granted granted Critical
Publication of JP6213324B2 publication Critical patent/JP6213324B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)

Description

本発明は音声信号処理装置及びプログラムに関し、例えば、電話機やテレビ会議装置などの音声信号(この明細書では、音声信号や音響信号等の音信号を「音声信号」と呼んでいる)を扱う通信機や通信ソフトウェアに適用し得るものである。
マイクロホン正面にいる話者の声(目的音声)と周囲にいる人の話し声(妨害音声)とが混ざり合った音声信号から目的音声を抽出する方法(目的音声抽出方法、雑音抑圧方法)として、例えば、ボイススイッチと呼ばれる技術がある(例えば、特許文献1参照)。ボイススイッチでは、入力音声から、目的音声区間と妨害音声区間とを区別することを要する。そのため、目的音声だけを抽出するためには妨害音声の到来方位(妨害音声の音源方位)の正確な推定が重要である。妨害音声等の音源方位を推定する方法として、コヒーレンスを利用する方法が種々提案されている(特許文献2参照)。
特開2006−333215号公報 特開2009−042552号公報
ところで、コヒーレンスは、(a)音源方位が正面に近付くほど値が大きくなり、横に逸れるほど値が小さくなる、(b)母音などの大振幅部では値が大きく子音などの小振幅部では値が小さい、という挙動をとる。そのため、目的音声の方位が正面に近くても子音部ではコヒーレンス値が小さく、横から到来する妨害音声の母音部ではコヒーレンス値が大きくなり、場合によっては、目的音声区間と妨害音声区間とでコヒーレンスの値が逆転し、妨害音声若しくは目的音声の到来方位の誤判定が生じる恐れがある。
そのため、所望する音源方位をより正確に推定することができる音声信号処理装置及びプログラムが望まれている。
第1の本発明は、入力音声信号から、入力音声信号に含まれている成分の音源方位を推定する音声信号処理装置において、(1)入力音声信号に遅延減算処理を施すことで、所定方位に死角を有する指向性特性を付与した複数の指向性信号であって、死角を有する所定方位が異なる複数の指向性信号を形成する指向性形成手段と、(2)形成された複数の指向性信号を用いてコヒーレンスを得るコヒーレンス計算手段と、(3)得られたコヒーレンスを時間変化信号と捉え、その信号波形の傾き方向が変化する回数とその大きさを表すコヒーレンス特徴量を得るコヒーレンス特徴量算出手段と、(4)得られたコヒーレンス特徴量の大小に応じて、上記音源方位を推定する方位推定手段とを有することを特徴とする。
第2の本発明は、入力音声信号から、入力音声信号に含まれている成分の音源方位を推定する音声信号処理プログラムであって、コンピュータを、(1)入力音声信号に遅延減算処理を施すことで、所定方位に死角を有する指向性特性を付与した複数の指向性信号であって、死角を有する所定方位が異なる複数の指向性信号を形成する指向性形成手段と、(2)形成された複数の指向性信号を用いてコヒーレンスを得るコヒーレンス計算手段と、(3)得られたコヒーレンスを時間変化信号と捉え、その信号波形の傾き方向が変化する回数とその大きさを表すコヒーレンス特徴量を得るコヒーレンス特徴量算出手段と、(4)得られたコヒーレンス特徴量の大小に応じて、上記音源方位を推定する方位推定手段として機能させることを特徴とする。
本発明によれば、音源方位をより正確に推定できる音声信号処理装置及びプログラムを実現できる。
第1の実施形態に係る音声信号処理装置の全体構成を示すブロック図である。 第1の実施形態のる音声信号処理装置における到来方位判定部の内部構成を示すブロック図である。 図2の到来方位判定部における記憶部の記憶情報の構成例を示す説明図である。 第1の実施形態のる音声信号処理装置におけるmodGI計算部が計算した到来方位ごとのmodGIの時間変化を示す特性図である。 第2の実施形態に係る音声信号処理装置の全体構成を示すブロック図である。
(A)修正されたグラディエント・インデックス(modGI)について
まず、各実施形態の音声信号処理装置を説明する前に、これら実施形態で信号の特徴を表す指標として適用されている修正グラディエント・インデックス(modified Gradient Index:以下、modGIと呼ぶ)について説明する。
以下では、基本的なグラディエント・インデックス(Gradient Index:以下、GIと呼ぶ)を説明した後に、modGIについて説明する。
なお、GIについては、参照文献「Naofumi Aoki,”A Band Extension Technique for Narrow−Band Telephony Speech Based on Full Wave Rectification”, IEICE Trans. Commun.,Vol.E93−B(3),pp.729−731,2010」に記載されている。また、modGIは、本願の特許出願人が、特許出願人である特願2012−258651号で提案された特徴量である。
GIは、信号波形の傾き方向が変化する回数とその大きさを測る指標である。時間の要素番号をn、GIの算出に供する特徴量算出対象の信号をs(n)とすると、GIは、(4)式によって算出される。(1)式〜(3)式は、(4)式における変数ΔΨ(n)を規定している式である。GIは、例えば、特徴量算出対象の信号s(n)の所定数(N個)のサンプルが利用されてサンプル毎に算出される。(1)式〜(4)式においては、利用するN個のサンプル(N個のサンプルをフレームと呼ぶこともある)の要素番号nを0〜(N−1)で表している。
Figure 0006213324
(1)式及び(2)式は、特徴量算出対象信号の相前後するサンプルの差分が正(0を含む)(増加する傾き方向)のときに1に、負(減少する傾き方向)のときに−1に符号化することを表している。(3)式は、同じ傾き方向が続いたときに0をとり、傾き方向が変化したときに1をとる変数ΔΨ(n)を定義している。GIは、傾き方向が変化したときの、相前後するサンプルの差分絶対値の総和を、そのフレームのパワーの平方根で除算したものとして求められる。従って、GIは、1フレーム内の傾きの変化回数が多いほど大きくなり易く、また、傾きが変化したときの変化量が大きいほど大きくなり易いものである。
しかしながら、(3)式及び(4)式から明らかなように、GIは、変数ΔΨ(n)という0又は2の2値しかとらない、時系列的に値の大きな飛び跳ねが多発するパラメータを算出要素としているため、値が不規則に大きくなったり小さくなったりするという特徴がある。このような特徴を、この明細書では「値が暴れる」と表現する。GIの値が暴れると、GIを利用する値も暴れる(大きく変動する)。
GIは、その値が暴れる(値の大きな飛び跳ねを有する)という性質を有することに鑑み、GIに代えて、GIと高い相関を持ちながら、値の大きな飛び跳ねを抑制した変化が安定した新しい特徴量であるmodGIが提案された。
modGIは、特徴量算出対象の任意の信号(本願では後述するコヒーレンス)に関し、その「算出対象信号のパワー」で正規化された、その「算出対象信号の2階差分のパワー」(これに定数倍したものも含まれる)として定義される。
「算出対象信号の2階差分のパワー」としては、算出対象信号の2階差分の2乗和、算出対象信号の2階差分の2乗和の平方根、算出対象信号の2階差分の絶対値の和、これら3つの値のそれぞれに関し、和を行ったサンプル数で割った値など、算出対象信号の2階差分のパワーが反映された値(上述した6種類以外の値であっても良い)であれば、いずれの値を適用することができる。
「算出対象信号のパワー」としては、算出対象信号の2乗和、算出対象信号の2乗和の平方根、算出対象信号の絶対値の和、これら3つの値のそれぞれに関し、和を行ったサンプル数で割った値など、算出対象信号のパワーが反映された値(上述した6種類以外の値であっても良い)であれば、いずれの値を適用することができる。
modGIの具体的な算出式の種類は、「算出対象信号の2階差分のパワー」の算出式として複数種類があり、「算出対象信号のパワー」の算出式として複数種類があるので、「算出対象信号の2階差分のパワー」の算出式の種類と、「算出対象信号のパワー」の算出式の種類の組み合わせ数だけ存在する。
次に、modGIが、GIと強い相関を有しつつ、値の大きな飛び跳ねが抑制された(値が暴れ難い)特徴量となっていることを説明する。
modGI(数式中ではMGIと記す)を、(5)式で定義する。なお、(5)式では、GIとの比較の便宜を考えて、「算出対象信号の2階差分のパワー」として入力信号の2階差分の絶対値の和を適用し、「算出対象信号のパワー」として入力信号の2乗和に平方根を適用した場合を示しているが、上述した通り、modGIの算出式は(5)式に限定されるものではない。
一方、GIに関する変数ΔΨ(n)は、(2)式を(3)式に代入することにより(6)式で算出される。(5)式の分子の積分(総和処理)の要素(積分要素)は、(6)式と似ていることが分かる。
Figure 0006213324
より詳細に比較するために、GIとmodGIの分子における積分要素をそれぞれ、(8)式、(9)式に示すように、GInum、MGInumとして定義する。なお、比例定数を重要ではないので除外した。また、(7)式は、1階差分d(n)の計算式である。
Figure 0006213324
まず、s(n−2)<s(n−1)<s(n)又はs(n−2)>s(n−1)>s(n)、すなわち、相前後するサンプルから捉えた傾き方向が2サンプル期間で変化しない場合を考える。この場合、GInum(n)の2つのsign関数は同じ値となるので、GInum(n)=0となる。一方、d(n)とd(n−1)は同符号となるので、その差の絶対値は比較的小さくなるから、MGInum(n)も小さな値をとる。
次に、s(n−2)<s(n−1)>s(n)又はs(n−2)>s(n−1)<s(n)、すなわち、相前後するサンプルから捉えた傾き方向が2サンプル期間で変化する場合を考える。この場合、GInum(n)の2つのsign関数は異なる値となるので、GInum(n)=2|d(n)|となる。一方、d(n)とd(n−1)は異符号となるので、MGInum(n)=|d(n)|+|d(n−1)|となり、比較的大きな値をとる。
以上より、GInum(n)とMGInum(n)は、両者とも、2サンプル期間で傾き方向が変化しない場合には小さな値を取り、傾き方向が変化する場合には大きな値をとるから、高い相関を持つことがわかる。一方で、GInum(n)が0又は非0の不連続な系列となるのに対して、MGInum(n)は2階差分の絶対値ゆえに非0が連続する系列(なお、0をとることがあるが、0にする操作は実行されていない)となるので、積分要素の総和処理(積分)を行った後の比較でも、modGIの方が値の飛び跳ねが平均的に小さくなる(値が暴れ難い)ことが分かる。
(10)式〜(12)式はそれぞれ、(5)式以外のmodGIの算出式の例を示しており、(10)式〜(12)式のいずれかを適用してmodGIを算出しても良いことは勿論である。(10)式は、「算出対象信号の2階差分のパワー」として算出対象信号の2階差分の2乗和の平方根を適用し、「算出対象信号のパワー」として算出対象信号の2乗和の平方根を適用した算出式である。(11)式は、「算出対象信号の2階差分のパワー」として算出対象信号の2階差分の絶対値の和を適用し、「算出対象信号のパワー」として算出対象信号の絶対値の和適用した算出式である。(12)式は、「算出対象信号の2階差分のパワー」として算出対象信号の2階差分の2乗和を適用し、「算出対象信号のパワー」として算出対象信号の2乗和を適用した算出式である。
Figure 0006213324
(5)式、(10)式〜(12)式はそれぞれ、modGIの算出式の導入概念が見えるように記述しているが、これらの式を変形した式に従うようにしても良いことは勿論である。(13)式は、(5)式を変形したmodGIの算出式を示しており、(13)式を適用してmodGIを算出しても良いことは勿論である。
Figure 0006213324
また、(5)式、(10)式〜(12)式に関し、同じ技術思想下で、その一部を変更したmodGIの算出式を適用するようにしても良い。例えば、(5)式、(10)式〜(12)式共に、分子の総和では、nが2から(N−1)の(N−2)個の総和を求めているが、分子の総和を、nが2から(N+1)のN個の総和を求めるようにしても良い。
(B)第1の実施形態
次に、本発明による音声信号処理装置及びプログラムの第1の実施形態を、図面を参照しながら詳述する。第1の実施形態の音声信号処理装置及びプログラムは、ある音源方位(例えば、妨害音声の到来方位)を推定しようとしたものである。
(B−1)第1の実施形態の構成
図1は、第1の実施形態に係る音声信号処理装置の構成を示すブロック図である。ここで、一対のマイクロホンm1及びm2を除いた部分は、ハードウェアで構成することも可能であり、また、CPUが実行するソフトウェア(音声信号処理プログラム)とCPUとで実現することも可能であるが、いずれの実現方法を採用した場合であっても、機能的には図1で表すことができる。
図1において、第1の実施形態に係る音声信号処理装置10は、一対のマイクロホンm1、m2、FFT(高速フーリエ変換)部11、第1の指向性形成部12、第2の指向性形成部13、コヒーレンス計算部14、modGI計算部15及び到来方位判定部16を有する。
一対のマイクロホンm1、m2は、所定距離(若しくは任意の距離)だけ離れて配置され、それぞれ、周囲の音声を捕捉するものである。各マイクロホンm1、m2は、無指向のもの(若しくは、正面方向にごくごく緩やかな指向性を有するもの)である。各マイクロホンm1、m2で捕捉された音声信号(入力信号)は、図示しない対応するA/D変換器を介してデジタル信号s1(n)、s2(n)に変換されてFFT部11に与えられる。なお、nはサンプルの入力順を表すインデックスであり、正の整数で表現される。本文中では、nが小さいほど古い入力サンプルであり、大きいほど新しい入力サンプルであるとする。
FFT部11は、マイクロホンm1及びm2から入力信号系列s1(n)及びs2(n)を受け取り、その入力信号s1及びs2に高速フーリエ変換(あるいは離散フーリエ変換)を行うものである。これにより、入力信号s1及びs2を周波数領域で表現することができる。なお、高速フーリエ変換を実施するにあたり、入力信号s1(n)及びs2(n)から、所定のN個のサンプルからなる分析フレームFRAME1(K)及びFRAME2(K)を構成して適用する。入力信号s1(n)から分析フレームFRAME1(K)を構成する例を以下の(14)式に示すが、分析フレームFRAME2(K)も同様である。
Figure 0006213324
なお、Kはフレームの順番を表すインデックスであり、正の整数で表現される。本文中では、Kが小さいほど古い分析フレームであり、大きいほど新しい分析フレームであるとする。また、以降の説明において、特に但し書きがない限りは、分析対象となる最新の分析フレームを表すインデックスはKであるとする。
FFT部11は、分析フレームごとに高速フーリエ変換処理を施すことで、周波数領域信号X1(f,K)、X2(f,K)に変換し、得られた周波数領域信号X1(f,K)及びX2(f,K)をそれぞれ、対応する第1の指向性形成部12、第2の指向性形成部13に与える。なお、fは周波数を表すインデックスである。また、X1(f,K)は単一の値ではなく、(15)式に示すように、複致の周波数f1〜fmのスペクトル成分から構成されるものである。X2(f,K)や後述するB1(f,K)及びB2(f,K)も同様である。
X1(f,K)
={(f1,K),(f2,K),…,(fm,K)} …(15)
第1の指向性形成部11は、周波数領域信号X1(f,K)及びX2(f,K)から特定方向に指向性が強い信号B1(f,K)を形成し、第2の指向性形成部12は、周波数領域信号X1(f,K)及びX2(f,K)から特定方向(上述の特定方向とは異なる)に指向性が強い信号B2(f,K)を形成するものである。特定方向に指向性が強い信号B1(f,K)、B2(f,K)の形成方法としては既存の方法を適用でき、例えば、(16)式を適用して右方向に指向性が強いB1(f,K)や(17)式を適用して左方向に指向性が強いB2(f,K)が形成できる。(16)式及び(17)式では、フレームインデックスKは演算に関与しないので省略している。
Figure 0006213324
コヒーレンス計算部14は、上述した2つの指向性信号B1(f)、B2(f)に基づいて、(18)式、(19)式のような演算を施すことでコヒーレンスCOHを得るものである。なお、(18)式におけるB2(f)はB2(f)の共役複素数である。
Figure 0006213324
コヒーレンスの概念は、右から到来する信号と左から到来する信号の相関と言い換えられる(上述した(18)式はある周波数成分についての相関を算出する式であり、(19)式は全ての周波数成分の相関値の平均を計算している)。従って、コヒーレンスCOHが小さい場合とは、2つの指向性信号B1及びB2の相関が小さい場合であり、反対にコヒーレンスCOHが大きい場合とは相関が大きい場合と言い換えることができる。そして、相関が小さい場合の入力信号は、入力音声の到来方向が右又は左のどちらかに大きく偏った場合か、偏りがなくても雑音のような相関が現れ難い明確な規則性の少ない信号の場合である。そのため、コヒーレンスCOHが小さい区間は妨害音声区間(背景雑音区間を含む)であるといえる。一方、コヒーレンスCOHの値が大きい場合は、到来方向の偏りがないため、入力信号が正面から到来する場合であるといえる。この第1の実施形態では、目的音声は正面から到来すると仮定している。この仮定下では、コヒーレンスCOHが大きい場合は目的音声区間といえる。このようなコヒーレンスの性質に基づいて、音源方位(例えば、妨害音声の到来方位)の推定にコヒーレンスを利用することとしている。
modGI計算部15は、コヒーレンスCOH(K)についてのmodGIを計算し、得られたmodGIを到来方位判定部16に与えるものである。modGIの計算式として、上述した(5)式、(10)式〜(13)式のいずれを適用しても良く、算出式の算出対象信号s(n)にコヒーレンスCOH(K)を代入してmodGIを算出する。なお、後述する図4は、modGIの計算式として(13)式を適用した場合の値を示している。
到来方位判定部16は、算出されたmodGIの値が属する範囲に応じて、妨害音声の到来方位を決定(推定)するものである。なお、決定された妨害音声の到来方位をどのように利用するかは問われないものである。例えば、上述したボイススイッチに適用できる。
コヒーレンスCOHに代えて、そのmodGIの値に基づいて、妨害音声の到来方位を決定するようにしたのは、以下の考え方による。
コヒーレンスを適用した場合には、「課題」の項で説明した課題を有する。コヒーレンスCOHについてのmodGIを適用した場合には、そのような課題が生じない。modGIは、算出対象信号における波形の傾きの正負が変動する頻度を表している。また、modGIは、波形に含まれる高周波数成分の量と直結している。コヒーレンスCOHは、妨害音声の到来方位が正面に近付くほど傾きの正負の変動が小さくなるので、そのmodGIが小さくなる。これに対し、コヒーレンスCOHは、到来方位が横に逸れると傾きの正負の変動が大きくなるので、そのmodGIは大きくなる。そのため、コヒーレンスCOHについてmodGIも到来方位ごとに異なるレンジとなり、しかも、方位ごとの差はコヒーレンス値を用いた場合よりも大きくなるため、課題の項で言及した値の逆転現象は生じない(後述する図4参照)。
図2は、到来方位判定部16の内部構成を示すブロック図である。図2において、到来方位判定部16は、modGI受信部21、問合せ部22、記憶部23及び到来方位送信部24を有する。
modGI受信部21は、算出されたmodGIを取り込むものである。記憶部23は、図3に示すようなmodGIの値の範囲と到来方位とを対応付けた情報を記憶しているものである。問合せ部22は、記憶部23に取り込んだmodGIを与えてそれに対応する到来方位Angleを問い合わせ、到来方位Angleを取得するものである。到来方位送信部24は、取得した到来方位Angleを到来方位判定部16の外部へ出力するものである。
図3は、記憶部23の記憶情報の構成例を示す説明図である。図3に示す例では、記憶部23は、問い合わせのmodGIの値がA以上B(但し、A<B)未満ならば到来方位Angleとして30°を返信し、問い合わせのmodGIの値がB以上C(但し、B<C)未満ならば到来方位Angleとして60°を返信し、問い合わせのmodGIの値がC以上D(但し、C<D)未満ならば到来方位Angleとして90°を返信する構成となっている。
ここで、範囲の境界値A、B、C、Dは、到来方位が正面に近付くほどmodGIが小さくなるという上述した挙動に基づいて設定されている。例えば、シミュレーションの結果に応じて、範囲の境界値A、B、C、Dが定められている。
(B−2)第1の実施形態の動作
次に、第1の実施形態の音声信号処理装置10の動作を、図面を参照しながら、全体動作、到来方位判定部16における動作の順に説明する。
一対のマイクロホンm1及びm2から入力された信号s1(n)、s2(n)はそれぞれ、FFT部11によって時間領域から周波数領域の信号X1(f,K)、X2(f,K)に変換された後、第1及び第2の指向性形成部12及び13のそれぞれによって、所定の方位に死角を有する指向性信号B1(f,K)、B2(f,K)が生成される。そして、コヒーレンス計算部14において、指向性信号B1(f,K)及びB2(f,K)を適用して、(18)式及び(19)式の演算が実行され、コヒーレンスCOH(K)が算出され、modGI計算部15に与えられる。
modGI計算部15においては、コヒーレンスCOH(K)についてのmodGIの値が例えば(13)式に従って算出され、到来方位判定部16において、算出されたmodGIの値が属する範囲に応じて、妨害音声の到来方位が決定(推定)される。
次に、到来方位判定部16における詳細動作を説明する。
modGI受信部21にmodGI計算部15が計算したコヒーレンスについてのmodGIの値が与えられると、問合せ部22によって、記憶部23から、与えられたmodGIの値に対応する到来方位Angleが取り出されて到来方位送信部24から出力される。
図4は、一対のマイクロホンm1及びm2に対する正面(m1及びm2を結ぶ線分に直角な方位)から、30°、60°、90°だけずれた方位から妨害音声が到来した場合におけるmodGIの時間変化を示している。ここでのmodGIは、上述した(13)式に従って算出されている。
この図4から明らかなように、到来方位30°、60°、90°ごとのmodGIの値は、時間経過と共に変化しても交差することはなく、modGIの値によって、到来方位30°、60°、90°を切り分けられることが分かる。上述したmodGIの値の範囲の境界値A、B、C、Dを、図4に示すようなシミュレーション結果や実測値に応じて設定することにより、到来方位30°、60°、90°を精度良く推定することができる。
因みに、到来方位30°、60°、90°ごとのコヒーレンスの値の時間変化曲線は、図4とは異なり、交差することもあるため、到来方位を誤って推定することもあり得る。
(B−3)第1の実施形態の効果
以上のように、第1の実施形態の音声信号処理装置及びプログラムによれば、コヒーレンスについてのmodGIの値に基づいて、所望の音源方位(例えば、妨害音声の到来方位)を推定するようにしたので、単に、コヒーレンスを音源方位の推定に用いる場合に比較し、より正確に音源方位を推定することができる。
音源方位をより正確に推定できるので、第1の実施形態の音声信号処理装置やプログラムを適用した装置の特質等を向上させることに寄与できる。例えば、第1の実施形態の音声信号処理装置の後段に、音源分離処理部を接続し、到来方位に応じた抑圧係数のフロアリング処理や閾値を制御する場合であれば、第1の実施形態の音声信号処理装置は、音質や抑圧性能の改善に貢献することができる。
以上の効果により、第1の実施形態の音声信号処理装置若しくはプログラムを適用した、テレビ会議装置や携帯電話機やスマートフォンなどの通信装置における通話音質の向上が期待できる。
(C)第2の実施形態
次に、本発明による音声信号処理装置及びプログラムの第2の実施形態を、第1の実施形態との相違点を中心に説明する。
図5は、第2の実施形態に係る音声信号処理装置の構成を示すブロック図であり、上述した第1の実施形態に係る図1との同一、対応部分には同一符号を付して示している。
第2の実施形態の音声信号処理装置10Aは、図5及び図1の比較から明らかなように、第1の実施形態の構成に平滑化部17を追加したものである。
modGI計算部15及び到来方位判定部16間に介挿された平滑化部17は、modGI計算部15から出力されたmodGIを平滑化し、平滑化modGIを到来方位判定部16に与えるものである。平滑化部17による平滑化方法は、既存のいかなる方法を適用しても良い。
第2の実施形態の場合、到来方位判定部16は平滑化modGIに応じた妨害音声の到来方位を推定するものである。modGIではなく平滑化modGIに基づく点は、第1の実施形態と異なっているが、推定方法自体は、第1の実施形態の推定方法と同様である(上述した図2、図3参照)。
コヒーレンスCOHほどではないが、図4における到来方位90°の時間変化のようにmodGIも瞬時変動が多少大きいこともあり得る。第2の実施形態は、このような瞬時変動を平滑化によって丸め、到来方位判定部16による推定精度を一段と高めようとしたものである。
第2の実施形態によっても、単に、コヒーレンスを音源方位(例えば、妨害音声の到来方位)の推定に用いる場合に比較して、より正確に音源方位を推定することができるという効果を奏する。
(D)他の実施形態
上記各実施形態においては、妨害音声の到来方位の推定にコヒーレンスについてのmodGIを利用するものを示したが、modGIに代え、上述した(4)式に従って算出できるコヒーレンスについてのGIを、妨害音声の到来方位の推定に利用するようにしても良い。
上記第2の実施形態においては、平滑化部17を、modGI計算部15及び到来方位判定部16間に介挿したものを示したが、平滑化部17を、コヒーレンス計算部14及びmodGI計算部15間に介挿するようにしても良く、このようにしても、第2の実施形態と同様な効果を奏することができる。
上記各実施形態で説明した到来方位の推定方法は、その用途は、ボイススイッチに従った雑音抑圧(目的音強調)に限定されるものではなく、妨害音の到来方位の情報を必要とする種々の信号処理に適用することができる。例えば、ボイススイッチ以外の雑音抑圧処理、音源分離処理、音声符号化処理などに、上記各実施形態で説明した到来方位の推定方法を適用することができる。
上記各実施形態で説明した到来方位の推定方法では、正面とのずれ角度(の絶対値)として到来方位が推定されるものを示したが、右側からの到来か左側からの到来かの情報を必要とする場合には、(20)式の計算を行い、得られた値が正であれば右側からの到来、得られた値が負であれば左側からの到来と定めるようにしても良い。
Figure 0006213324
上記各実施形態において、周波数領域の信号で処理していた処理を、可能ならば時間領域の信号で処理するようにしても良く、逆に、時間領域の信号で処理していた処理を、可能ならば周波数領域の信号で処理するようにしても良い。
上記各実施形態では、到来方位判定部が変換テーブルを利用するものを示したが、modGI若しくはGIから到来方位を得ることができるのであれば、他の方法(例えば関数)を適用するようにしても良い。
本発明は、コヒーレンスを得た後の構成に特徴を有し、それ以前の構成は、上記各実施形態のものに必ずしも限定されるものではない。例えば、マイクロホンとして3つ以上を有するマイクロホンアレイの信号を処理してコヒーレンスを得、その後、modGIやGIを算出して妨害音声の到来方位を推定するようにしても良い。
上記各実施形態では、一対のマイクロホンが捕捉した信号を直ちに処理する音声信号処理装置やプログラムを示したが、本発明の処理対象の音声信号はこれに限定されるものではない。例えば、記録媒体から読み出した一対の音声信号を処理する場合にも、本発明を適用することができ、また、対向装置から送信されてきた一対の音声信号を処理する場合にも、本発明を適用することができる。
10、10A…音声信号処理装置、m1、m2…マイクロホン、11…FFT(高速フーリエ変換)部、12、13…指向性形成部、14…コヒーレンス計算部、15…modGI計算部、16…到来方位判定部、17…平滑化部。

Claims (5)

  1. 入力音声信号から、入力音声信号に含まれている成分の音源方位を推定する音声信号処理装置において、
    入力音声信号に遅延減算処理を施すことで、所定方位に死角を有する指向性特性を付与した複数の指向性信号であって、死角を有する所定方位が異なる複数の指向性信号を形成する指向性形成手段と、
    形成された複数の指向性信号を用いてコヒーレンスを得るコヒーレンス計算手段と、
    得られたコヒーレンスを時間変化信号と捉え、その信号波形の傾き方向が変化する回数とその大きさを表すコヒーレンス特徴量を得るコヒーレンス特徴量算出手段と、
    得られたコヒーレンス特徴量の大小に応じて、上記音源方位を推定する方位推定手段と
    を有することを特徴とする音声信号処理装置。
  2. 上記コヒーレンス特徴量算出手段は、上記コヒーレンスの2階差分のパワーを、上記コヒーレンスのパワーで正規化した値をコヒーレンス特徴量として算出することを特徴とする請求項1に記載の音声信号処理装置。
  3. 上記方位推定手段は
    コヒーレンス特徴量と音源方位との対応情報を記憶している記憶部と、
    コヒーレンス特徴量に基づいて、上記記憶部から、対応する音源方位を取り出す問合せ部と
    を有することを特徴とする請求項1又は2に記載の音声信号処理装置。
  4. 上記コヒーレンス計算手段及び上記コヒーレンス特徴量算出手段の間、若しくは、上記コヒーレンス特徴量算出手段及び方位推定手段の間に、自己への入力を平滑化して出力する平滑化手段を介挿したことを特徴とする請求項1〜3のいずれかに記載の音声信号処理装置。
  5. 入力音声信号から、入力音声信号に含まれている成分の音源方位を推定する音声信号処理プログラムであって、
    コンピュータを、
    入力音声信号に遅延減算処理を施すことで、所定方位に死角を有する指向性特性を付与した複数の指向性信号であって、死角を有する所定方位が異なる複数の指向性信号を形成する指向性形成手段と、
    形成された複数の指向性信号を用いてコヒーレンスを得るコヒーレンス計算手段と、
    得られたコヒーレンスを時間変化信号と捉え、その信号波形の傾き方向が変化する回数とその大きさを表すコヒーレンス特徴量を得るコヒーレンス特徴量算出手段と、
    得られたコヒーレンス特徴量の大小に応じて、上記音源方位を推定する方位推定手段と
    して機能させることを特徴とする音声信号処理プログラム。
JP2014056715A 2014-03-19 2014-03-19 音声信号処理装置及びプログラム Active JP6213324B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014056715A JP6213324B2 (ja) 2014-03-19 2014-03-19 音声信号処理装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014056715A JP6213324B2 (ja) 2014-03-19 2014-03-19 音声信号処理装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2015179981A JP2015179981A (ja) 2015-10-08
JP6213324B2 true JP6213324B2 (ja) 2017-10-18

Family

ID=54263744

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014056715A Active JP6213324B2 (ja) 2014-03-19 2014-03-19 音声信号処理装置及びプログラム

Country Status (1)

Country Link
JP (1) JP6213324B2 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5197458B2 (ja) * 2009-03-25 2013-05-15 株式会社東芝 受音信号処理装置、方法およびプログラム
US8897455B2 (en) * 2010-02-18 2014-11-25 Qualcomm Incorporated Microphone array subset selection for robust noise reduction
JP5927887B2 (ja) * 2011-12-13 2016-06-01 沖電気工業株式会社 非目的音抑制装置、非目的音抑制方法及び非目的音抑制プログラム
JP5838861B2 (ja) * 2012-02-29 2016-01-06 沖電気工業株式会社 音声信号処理装置、方法及びプログラム
JP6152639B2 (ja) * 2012-11-27 2017-06-28 沖電気工業株式会社 音声帯域拡張装置及びプログラム、並びに、音声特徴量算出装置及びプログラム

Also Published As

Publication number Publication date
JP2015179981A (ja) 2015-10-08

Similar Documents

Publication Publication Date Title
JP6289936B2 (ja) 音源方向推定装置、音源方向推定方法およびプログラム
JP5817366B2 (ja) 音声信号処理装置、方法及びプログラム
JP5672770B2 (ja) マイクロホンアレイ装置及び前記マイクロホンアレイ装置が実行するプログラム
WO2014054314A1 (ja) 音声信号処理装置、方法及びプログラム
JP5838861B2 (ja) 音声信号処理装置、方法及びプログラム
RU2552129C2 (ru) Устройство и способ для разрешения неоднозначности из оценки направления прихода
JP2017531971A (ja) ビームフォーミングフィルタのためのfirフィルタ係数の算出
JP2016042613A (ja) 目的音声区間検出装置、目的音声区間検出方法、目的音声区間検出プログラム、音声信号処理装置及びサーバ
JP2010175431A (ja) 音源方向推定装置とその方法と、プログラム
JP6221257B2 (ja) 信号処理装置、方法及びプログラム
JP6314475B2 (ja) 音声信号処理装置及びプログラム
JP6213324B2 (ja) 音声信号処理装置及びプログラム
JP3862685B2 (ja) 音源方向推定装置、信号の時間遅延推定装置及びコンピュータプログラム
JP2013170936A (ja) 音源位置判定装置、音源位置判定方法、プログラム
JP6221258B2 (ja) 信号処理装置、方法及びプログラム
JP6252274B2 (ja) 背景雑音区間推定装置及びプログラム
JP5970985B2 (ja) 音声信号処理装置、方法及びプログラム
JP6631127B2 (ja) 音声判定装置、方法及びプログラム、並びに、音声処理装置
JP6295650B2 (ja) 音声信号処理装置及びプログラム
CN112530450A (zh) 频域中的样本精度延迟识别
JP6221463B2 (ja) 音声信号処理装置及びプログラム
JP6102144B2 (ja) 音響信号処理装置、方法及びプログラム
JP2016121957A (ja) 目的音区間判定装置、目的音区間判定方法及び目的音区間判定プログラム
JP2015025913A (ja) 音声信号処理装置及びプログラム
JP2018142819A (ja) 非目的音判定装置、プログラム及び方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170814

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170822

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170904

R150 Certificate of patent or registration of utility model

Ref document number: 6213324

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150