JP2005227511A - 対象音検出方法、音信号処理装置、音声認識装置及びプログラム - Google Patents

対象音検出方法、音信号処理装置、音声認識装置及びプログラム Download PDF

Info

Publication number
JP2005227511A
JP2005227511A JP2004035618A JP2004035618A JP2005227511A JP 2005227511 A JP2005227511 A JP 2005227511A JP 2004035618 A JP2004035618 A JP 2004035618A JP 2004035618 A JP2004035618 A JP 2004035618A JP 2005227511 A JP2005227511 A JP 2005227511A
Authority
JP
Japan
Prior art keywords
sound
microphone
sound signal
power spectrum
signal input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004035618A
Other languages
English (en)
Inventor
Nobuyasu Arimune
伸泰 有宗
Takashi Akasaka
貴志 赤坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Motor Co Ltd
Original Assignee
Yamaha Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Motor Co Ltd filed Critical Yamaha Motor Co Ltd
Priority to JP2004035618A priority Critical patent/JP2005227511A/ja
Publication of JP2005227511A publication Critical patent/JP2005227511A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】マイクの取り付け位置の変化等による環境の変化、話者の移動や姿勢の変化等による音源の移動に対してロバストな受音系の構築を可能にする。
【解決手段】音声信号処理装置は、発話音又は雑音のいずれか一方を受音するように配置されている単一指向性マイク1と、発話音及び雑音を受音するように配置されている無指向性マイク2と、単一指向性マイク1に入力された音声信号x(t)と無指向性マイク2に入力された音声信号y(t)との相互相関関数Rxy(τ)を算出するためのフレーム化部11,12及び相互相関関数計算部13と、相互相関関数計算部13が算出した相互相関関数Rxy(τ)に基づいて、発話音の発話区間を検出する音声/非音声判定部14とを備える。
【選択図】図3

Description

本発明は、入力音中から検出対象音を検出する対象音検出方法及びこれを実現するプログラム、入力された音信号を処理する音信号処理装置、並びに入力された発話音について音声認識処理を行う音声認識装置に関する。
音声は、人間の用いる種々の通信の形態の中でも最も根源的なものであると同時に、他のどの情報送出方法よりも高速度に情報を送り出すことのできる優れた通信手段である。このようなことから、音声は、古くから現在に至るまで人間の通信手段の根幹を担っている。
音声認識技術は、そのような音声を認識するための技術である。音声認識とは、その音声に含まれる情報の中で、最も基本的な意味内容に関する情報、つまり音韻情報をコンピュータなどにより抽出し、その抽出内容を判定することである。近年では、計算機プロセッサ技術の飛躍的な発達と、インターネットに代表される高度な情報ネットワークの構築により、様々な分野においてマン・マシンインタフェースとしての音声認識技術の適用が試みられている。
現在の音声認識システムの認識性能は、確率・統計的手法により格段に向上しており、理想的な環境下での音声や接話マイクロホンで収録された近距離音声などでは、非常に高い認識率が得られるようになっている。
実環境下の音声認識は、学習データと観測データとの間の環境や発話内容のミスマッチ等により、その認識率が劣化する。また、受音系となる接話マイクヘッドセットの装着によりユーザが受ける負担や不快感は大きく、音声認識システム実用化の大きな障害のひとつになっている。
また、S/N比の低下や背景雑音、室内残響の影響などにより認識が困難な遠隔音声に関し、複数の遠隔マイクロホンを用いた音声認識手法の研究が多くなされている。その代表的なものとして、マイクロホンアレーを用いる手法が挙げられる。この手法では、音源位置検出処理、目的音強調処理、雑音抑制処理、の3つの空間的な信号処理を行なうことができる。このような手法により遠隔音声の音声認識が盛んに研究されている。
しかし、この手法は、正確な話者方向同定処理のために複数のマイクロホンを一定間隔にて固定配置する必要があり、小型化、携帯化が困難であるため、様々な環境・状況下での音声入力への応用が難しく、用途が限定されるという問題がある。
本発明は、前述の問題に鑑みてなされたものであり、マイクロホンの取り付け位置の変化等による環境の変化、話者の移動や姿勢の変化等による音源の移動に対してロバストな受音系の構築を可能にする対象音検出方法、音信号処理装置、音声認識装置及びプログラムの提供を目的とする。
請求項1記載の対象音検出方法は、無指向性マイクで検出対象音及び雑音を受音し、単一指向性マイクで前記検出対象音又は前記雑音のいずれか一方を受音し、前記無指向性マイクに入力された声信号と単一指向性マイクに入力された音信号とを比較し、その比較結果に基づいて、前記検出対象音を検出することを特徴とする。
また、請求項2記載の対象音検出方法は、請求項1記載の対象音検出方法において、前記無指向性マイクに入力された音信号と単一指向性マイクに入力された音信号との比較により相関度を得て、その相関度に基づいて、前記検出対象音を検出することを特徴とする。
また、請求項3記載の対象音検出方法は、請求項1又は2記載の対象音検出方法において、前記無指向性マイクに入力された音信号のパワースペクトルと、単一指向性マイクに入力された音信号のパワースペクトルとを比較して、その比較結果に基づいて、前記検出対象音を検出することを特徴とする。
また、請求項4記載の対象音検出方法は、請求項1乃至3のいずれか1に記載の対象音検出方法において、前記無指向性マイクに入力された音信号と単一指向性マイクに入力された音信号との比較により得た相関度、及び前記無指向性マイクに入力された音信号のパワースペクトルと単一指向性マイクに入力された音信号のパワースペクトルとの比較結果に基づいて、前記検出対象音を検出することを特徴とする。
また、請求項5記載の音信号処理装置は、検出対象音及び雑音を受音するように配置されている無指向性マイクと、前記検出対象音又は前記雑音のいずれか一方を受音するように配置されている単一指向性マイクと、前記無指向性マイクに入力された音信号と、単一指向性マイクに入力された音信号とを比較する比較手段と、前記比較手段の比較結果に基づいて、前記検出対象音を検出する対象音検出手段と、を備えることを特徴とする。
また、請求項6記載の音信号処理装置は、請求項5記載の音信号処理装置において、前記比較手段が、前記無指向性マイクに入力された音信号と前記単一指向性マイクに入力された音信号との相関度を算出し、前記対象音検出手段が、前記比較手段が算出した相関度と所定の第1しきい値とを比較して、前記検出対象音を検出することを特徴とする。
また、請求項7記載の音信号処理装置は、請求項5又は6記載の音信号処理装置において、前記比較手段が、前記無指向性マイク及び単一指向性マイクに入力された各音信号のパワースペクトルをそれぞれ算出するパワースペクトル算出手段と、前記パワースペクトル算出手段が算出した2つのパワースペクトルの比を算出するパワースペクトル比算出手段とを備えており、前記対象音検出手段が、前記パワースペクトル比算出手段が算出した前記パワースペクトルの比と所定の第2しきい値とを比較して、前記検出対象音を検出することを特徴とする。
また、請求項8記載の音信号処理装置は、請求項5乃至7のいずれか1に記載の音信号処理装置において、前記比較手段が、前記無指向性マイク及び単一指向性マイクに入力された各音信号のパワースペクトルをそれぞれ算出するパワースペクトル算出手段と、前記パワースペクトル算出手段が算出した2つのパワースペクトルの比を算出するパワースペクトル比算出手段とを備えており、前記比較手段が、前記無指向性マイクに入力された音信号と前記単一指向性マイクに入力された音信号との相関度を算出し、前記対象音検出手段は、前記比較手段が算出した相関度と所定の第1しきい値との比較結果と、前記比較手段のパワースペクトル比算出手段が算出した前記パワースペクトルの比と所定の第2しきい値との比較結果とに基づいて、前記検出対象音を検出することを特徴とする。
また、請求項9記載の音信号処理装置は、請求項5乃至8のいずれか1に記載の音信号処理装置において、前記無指向性マイクに入力された音信号及び単一指向性マイクに入力された音信号を時分割してフレーム化するフレーム化手段を備えており、前記比較手段が、前記フレーム化手段から出力されるフレーム単位で、前記無指向性マイクに入力された音信号と、単一指向性マイクに入力された音信号とを比較し、前記対象音検出手段は、前記比較手段の比較結果に基づいて、前記フレーム化手段から出力されるフレーム単位で前記検出対象音を検出することを特徴とする。
また、請求項10記載の音声認識装置は、発話音及び雑音を受音するように配置されている無指向性マイクと、前記発話音又は前記雑音のいずれか一方を受音するように配置されている単一指向性マイクと、前記無指向性マイクに入力された音信号と、単一指向性マイクに入力された音信号とを比較する比較手段と、前記比較手段の比較結果に基づいて、前記発話音の発話区間を検出する発話区間検出手段と、前記発話区間検出手段が検出した前記発話音の発話区間について、音声認識処理を行う音声認識処理手段と、を備えることを特徴とする。
また、請求項11記載の音声認識装置は、請求項10記載の音声認識装置において、前記比較手段が、前記無指向性マイクに入力された音信号と前記単一指向性マイクに入力された音信号との相関度を算出し、前記発話区間検出手段が、前記比較手段が算出した相関度と所定の第1しきい値とを比較して、前記発話音の発話区間を検出することを特徴とする。
また、請求項12記載の音声認識装置は、請求項10又は11記載の音声認識装置において、前記比較手段が、前記無指向性マイク及び単一指向性マイクに入力された各音信号のパワースペクトルをそれぞれ算出するパワースペクトル算出手段と、前記パワースペクトル算出手段が算出した2つのパワースペクトルの比を算出するパワースペクトル比算出手段とを備えており、前記発話区間検出手段が、前記パワースペクトル比算出手段が算出した前記パワースペクトルの比と所定の第2しきい値とを比較して、前記発話音の発話区間を検出することを特徴とする。
また、請求項13記載の音声認識装置は、請求項10乃至12のいずれか1に記載の音声認識装置において、前記比較手段が、前記無指向性マイク及び単一指向性マイクに入力された各音信号のパワースペクトルをそれぞれ算出するパワースペクトル算出手段と、前記パワースペクトル算出手段が算出した2つのパワースペクトルの比を算出するパワースペクトル比算出手段とを備えており、前記比較手段が、前記無指向性マイクに入力された音信号と前記単一指向性マイクに入力された音信号との相関度を算出し、前記発話区間検出手段は、前記比較手段が算出した相関度と所定の第1しきい値との比較結果と、前記比較手段のパワースペクトル比算出手段が算出した前記パワースペクトルの比と所定の第2しきい値との比較結果とに基づいて、前記発話音の発話区間を検出することを特徴とする。
また、請求項14記載の音声認識装置は、請求項10乃至13のいずれか1に記載の音声認識装置において、前記無指向性マイクに入力された音信号及び単一指向性マイクに入力された音信号を時分割してフレーム化するフレーム化手段を備えており、前記比較手段が、前記フレーム化手段から出力されるフレーム単位で、前記無指向性マイクに入力された音信号と、単一指向性マイクに入力された音信号とを比較し、前記発話区間検出手段が、前記比較手段の比較結果に基づいて、前記フレーム化手段から出力されるフレーム単位で前記発話音の発話区間を検出し、前記音声認識処理手段は、前記発話区間検出手段が検出したフレーム単位の前記発話音の発話区間について、音声認識処理を行うことを特徴とする。
また、請求項15記載のプログラムは、無指向性マイクで受音した検出対象音及び雑音の音信号と単一指向性マイクで受音した前記検出対象音又は前記雑音のいずれか一方の音信号とを比較し、その比較結果に基づいて、前記検出対象音を検出する処理をコンピュータに実行させることを特徴とする。
無指向性マイクで検出対象音及び雑音を受音し、単一指向性マイクで検出対象音又は雑音のいずれか一方を受音するようにした場合において、無指向性マイク及び単一指向性マイクが配置されている環境で雑音だけを発したときと検出対象音及び雑音を発したときとで、無指向性マイク及び単一指向性マイクに入力された音信号が異なってくる。なお、検出対象音には、人間が発する発話音の他、物体が発する音も含まれる。
そこで、請求項1、5、15記載の発明では、無指向性マイクに入力された音信号と単一指向性マイクに入力された音信号とを比較することで、検出対象音又は発話音を検出している。また、請求項10記載の発明では、検出対象音が人間が発する発話音であり、検出対象音の検出として、発話音の音声区間の検出を行っている。
また、請求項2、6、11記載の発明では、無指向性マイクに入力された音信号と単一指向性マイクに入力された音信号との相関度により、検出対象音の検出又は発話音の発話区間の検出を行っている。
また、請求項3、7、12記載の発明では、無指向性マイクに入力された音信号のパワースペクトルと単一指向性マイクに入力された音信号のパワースペクトルとを比較することで、検出対象音の検出又は発話音の発話区間の検出を行っている。
また、請求項4、8、13記載の発明では、無指向性マイクに入力された音信号と単一指向性マイクに入力された音信号との相関度と、無指向性マイクに入力された音信号のパワースペクトルと単一指向性マイクに入力された音信号のパワースペクトルとの比較結果とに基づいて、検出対象音の検出又は発話音の発話区間の検出を行っている。
また、請求項9、14記載の発明では、前記無指向性マイクに入力された音信号及び単一指向性マイクに入力された音信号を時分割してフレーム化し、フレーム単位でその後の処理を行う。
本発明によれば、無指向性マイクで検出対象音(又は発話音)及び雑音を受音し、単一指向性マイクで前記検出対象音(又は発話音)又は前記雑音のいずれか一方を受音するように、無指向性マイク及び単一指向性マイクを配置する限り、検出対象音(又は発話音の音声区間)を検出することができる。これにより、マイクロホンの取り付け位置の変化等による環境の変化、話者の移動や姿勢の変化等による音源の移動に対してロバストな受音系の構築が可能になる。
本発明を実施するための最良の形態(以下、実施形態という。)を図面を参照しながら詳細に説明する。
第1の実施形態は、図1に示すように、第1及び第2マイク1,2に入力された音声信号を処理する音声信号処理装置10である。
第1マイク1は単一指向性マイクであり、第2マイク2は無指向性マイクであり、第1及び第2マイク1,2は例えば装着型マイクである。第1及び第2マイク1,2は、図2に示すように、第1及び第2マイク1,2をできるだけ近づけて配置するとともに、単一指向性マイクである第1マイク1をその指向方向が音源(ユーザ)の位置に対して反対側となるように配置している。また、第1マイク1の指向方向に、雑音源が存在している。なお、図2に示す点線は、雑音源を基準にした第1マイク1の指向特性を示し、図2に示す一点鎖線は、第2マイク2の指向特性を示す。
このように第1及び第2マイク1,2を配置すると、雑音源からの音は、第1及び第2マイク1,2で受音でき、音源(ユーザ)からの音は第2マイク2だけが受音できるようになる。
図3は、第1の実施形態の音声信号処理装置10の構成を示す。
図3に示すように、音声信号処理装置10は、第1及び第2フレーム化部11,12、相互相関関数計算部13、音声/非音声判定部14並びに音入力オン/オフ制御部15を備えている。
第1及び第2マイク1,2から入力された2chの音声信号はそれぞれ、第1及び第2フレーム化部11,12に入力される。また、第2マイク2から入力された音声信号は、音入力オン/オフ制御部15に入力される。ここで、第1マイク1に入力された音声信号をx(t)とし、第2マイク2に入力された音声信号をy(t)とする。
第1フレーム化部11では、第1マイク1から入力された音声信号x(t)を時分割でフレーム化(或いはフレーム分割)して、複数フレームにした音声信号x(t)を相互相関関数計算部13に出力する。また、第2フレームか部12では、第2マイク2から入力される音声信号y(t)を時分割でフレーム化(或いはフレーム分割)して、複数フレームにした音声信号y(t)を相互相関関数計算部13に出力する。ここで、第1及び第2フレーム化部11,12は、入力されてくる音声信号x(t),y(t)を所定時間間隔でサンプリングしていき、所定のサンプル数を1フレームとして次々にフレーム化していく。
相互相関関数計算部13は、第1フレーム化部11から出力されるフレームと、第2フレーム化部12から出力されるフレームとを比較する。すなわち、第1マイク1に入力された音声信号x(t)と、第2マイク2に入力された音声信号y(t)とをフレーム単位で比較する。その比較結果として、相互相関関数計算部13は、下記(1)式により、相互相関関数Rxy(τ)を算出する。
Figure 2005227511
ここで、τは第1マイク1と第2マイク2との間の距離によって決まる遅延時間である。また、Tはフレーム長である。
前述したように第1及び第2マイク1,2をできるだけ近づけて配置している場合には、遅延時間τを近似的に0とおくことができる。しかし、後述するような本発明の効果を満たす限り、第1マイク1と第2マイク2とを離して配置することは可能であり、この場合、遅延時間τを適切に与える必要がある。すなわち例えば、第1マイク1と第2マイク2との間の距離を10cmにしている場合には、その10cm相当分の遅延時間τを与えて、相互相関関数Rxy(τ)を算出する。このようにすれば、第1マイク1と第2マイク2との間の距離を考慮して、相互相関関数Rxy(τ)を得ることができ、精度よく相互相関関数Rxy(τ)を得ることができる。
このように算出された相互相関関数Rxy(τ)はフレーム単位で各音声信号x(t),y(t)の波形形状の類似度を示す値となる。具体的には、相関関係を求める2つの音声信号x(t),y(t)が似ているほど、相互相関関数Rxy(τ)は大きい値となり、相関関係を求める2つの音声信号x(t),y(t)が異なっているほど、相互相関関数Rxy(τ)は0に近くなる。相互相関関数計算部13は、このような相互相関関数Rxy(τ)を音声/非音声判定部14に出力する。
音声/非音声判定部14は、相互相関関数Rxy(τ)に基づいて音声区間(発話区間)と非音声区間(非発話区間)とを判定する。具体的には、次のように音声区間と非音声区間とを判定する。
前述したように、音源(ユーザ)と雑音源に対して図2のように第1及び第2マイク1,2を配置することで、雑音源からの音を第1及び第2マイク1,2で受音し、音源(ユーザ)からの音を第2マイク2だけで受音している。
一方、相互相関関数Rxy(τ)は、前述したように、相関関係を求める2つの音声信号x(t),y(t)が似ているほど大きい値となり、相関関係を求める2つの音声信号x(t),y(t)が異なっているほど0に近くなる。
このようなことから、雑音源からの音だけを第1及び第2マイク1,2で受音している場合には、同じ音声信号が第1及び第2マイク1,2に入力されているので、すなわち、第1及び第2マイク1,2の入力音声信号のS/N比が同程度になるので、相互相関関数Rxy(τ)は大きい値になる。一方、音源(ユーザ)から発話があった場合には、その発話を第2マイク2だけが受音するので、第1及び第2マイク1,2それぞれに異なる音声信号が入力されるようになり、すなわち第2マイク2の入力音声信号のS/N比の方が大きくなるので、相互相関関数Rxy(τ)は0に向かって減少する。
このように、音源(ユーザ)から発話があった場合には相互相関関数Rxy(τ)は0に向かって減少することから、音声/非音声判定部14は、相互相関関数Rxy(τ)と判定用しきい値(類似度を示すしきい値)δr1とを比較して、音声区間を判定する。すなわち、音声/非音声判定部14は、相互相関関数Rxy(τ)が判定用しきい値δr1未満の場合(Rxy(τ)<δr1)、音声区間と判定し、それ以外の場合(Rxy(τ)≧δr1)、非音声区間と判定する。ここで、判定用しきい値δr1は例えば実験により得る。そして、音声/非音声判定部14は、このような判定をフレーム単位で行う。音声/非音声判定部14は、その判定結果をフレーム単位で音入力オン/オフ制御部15に出力する。
音入力オン/オフ制御部15には、第2マイク2からの音声信号y(t)が入力されており、音入力オン/オフ制御部15は、音声/非音声判定部14の判定結果に基づいて、第2マイク2からの音声信号y(t)の後段への出力のオンとオフとを切り換える。具体的には、音声/非音声判定部14が音声区間と判定した場合、音入力オン/オフ制御部15は、オン制御として当該音声区間に対応する音声信号y(t)の区間を後段に出力して、音声/非音声判定部14が非音声区間と判定した場合、音入力オン/オフ制御部15は、オフ制御として当該非音声区間に対応する音声信号y(t)の区間を後段に出力しないようにする。
以上のように音声信号処理装置10が構成されている。この音声信号処理装置10における一連の動作は次のようになる。
先ず、第1及び第2フレーム化部11,12が、第1及び第2マイク1,2から入力された2chの音声信号x(t),y(t)をそれぞれフレーム化し、フレーム単位で音声信号x(t),y(t)を相互相関関数計算部13に出力する。
相互相関関数計算部13では、第1及び第2フレーム化部11,12それぞれから出力されるフレーム単位の音声信号x(t),y(t)について相互相関関数Rxy(τ)を算出して、算出した相互相関関数Rxy(τ)を音声/非音声判定部14に出力する。
音声/非音声判定部14では、相互相関関数Rxy(τ)と判定用しきい値δr1とを比較し、相互相関関数Rxy(τ)に対応するフレームが音声区間のものか、非音声区間のものかを判定する。そして、音声/非音声判定部14は、その判定結果を音入力オン/オフ制御部15に出力する。
音入力オン/オフ制御部15は、音声/非音声判定部14が音声区間と判定した場合、オン制御として第2マイク2からの音声信号y(t)を後段に出力して、音声/非音声判定部14が非音声区間と判定した場合、オフ制御として第2マイク2からの音声信号y(t)を後段に出力しないようにする。このとき、音入力オン/オフ制御部15から出力される音声信号y(t)は、音源(ユーザ)からの音と雑音源からの音とからなる音声信号となる。
このように、音声信号処理装置10は、第2マイク2への入力音中の発話区間(音声区間)を検出することができる。
例えば、第1マイク1,2と音声アプリケーションとの間にこのような音声信号処理装置10を備えることで、音声アプリケーションは、確実に発話区間についての処理を行うことができる。ここで、音声アプリケーションとしては、音声認識システム、放送システム、携帯電話及びトランシーバが挙げられる。例えば、音声アプリケーションが音声認識システムであるとすれば、音声認識システムは、音声信号処理装置10が出力する発話区間の音声信号に基づいて音声認識できるようになる。
次に第1の実施形態における効果を説明する。
前述したように、無指向性マイクである第2のマイク2で発話音及び雑音を受音し、単一指向性マイクである第1マイク1で雑音を受音し、第1マイク1で受音した雑音の音声信号と第2マイク2で受音した発話音及び雑音からなる音声信号との比較により相関度を得て、その相関度に基づいて、発話音の発話区間を特定している。
これにより、第2のマイク2で発話音及び雑音を受音し、かつ第1マイク1で雑音を受音するように第1及び第2のマイク1,2を配置する限り、マイクの取り付け位置の変化等による環境の変化、話者の移動や姿勢の変化等による音源の移動に対してロバストな受音系を構築することができる。
また、精度よく発話区間を検出することができる。そして、このように音声信号処理装置10が検出した発話区間の音声信号を利用することにより、音声認識システムでは、高認識率、低誤認識率の音声認識が可能になり、また、携帯電話やトランシーバでは、信頼性の高いハンズフリー半二重通信が可能になり、放送システムでは、通信システムの送信電力低減が可能になる。
次に第2の実施形態を説明する。
この第2の実施形態も前述の第1の実施形態と同様、前記図1に示したように2つのマイク1,2に入力された音声信号を処理する音声信号処理装置10である。そして、音声信号処理装置10の構成は、前述の第1の実施形態と同様、図3に示したような構成になる。しかし、第2の実施形態では、第1及び第2マイク1,2の配置を前述の第1の実施形態における配置と異ならせている。
前述の第1の実施形態では、第1マイク1に単一指向性マイクを用い、第2マイク2に無指向性マイクを用い、前記図2に示したように、雑音源からの音を第1及び第2マイク1,2で受音し、音源(ユーザ)からの音を第1マイク1だけで受音するように、第1及び第2マイク1,2を配置している。
一方、この第2の実施形態では、音源(ユーザ)からの音を第1及び第2マイク1,2で受音し、雑音源からの音を第1マイク1だけで受音するようにしている。具体的には、第1マイク1に無指向性マイクを用い、第2マイク2に単一指向性マイクを用いる。そして、図4に示すように、第1及び第2マイク1,2をできるだけ近づけて配置するとともに、単一指向性マイクである第2マイク2を、その指向方向が音源(ユーザ)に向かい、かつその指向方向外に雑音源が位置されるように、配置する。なお、図4に示す点線は、第1マイク1の指向特定を示し、図4に示す一点鎖線は、音源(ユーザ)を基準にした第2マイク2の指向特性を示す。
このように第1及び第2マイク1,2を配置した場合、前述の第1の実施形態と比較し、特に相互相関関数計算部13で算出される相互相関関数Rxy(τ)が異なる傾向を示すようになる。
すなわち、音源(ユーザ)からの音を第1及び第2マイク1,2で受音し、雑音源からの音を第2マイク2だけが受音しているので、雑音源からの音だけを第1マイク1で受音している場合には、第1及び第2マイク1,2それぞれに異なる音声信号が入力されるようになり、このとき相互相関関数Rxy(τ)は0に近い値になる。一方、音源(ユーザ)から発話があった場合には、その発話を第1及び第2マイク1,2で受音するので、ほぼ同じ音声信号が第1及び第2マイク1,2に入力されるようになり、これにより、相互相関関数Rxy(τ)は大きい値になる。このとき、第2マイク2の入力音声信号のS/N比は高くなり、第1マイク1の入力音声信号のS/N比は、第2マイク2ほどではないが、高くなる。
このように、音源(ユーザ)から発話があった場合には、相互相関関数Rxy(τ)が大きくなり、第2の実施形態で得る相互相関関数Rxy(τ)は、前述の第1の実施形態とは反対の傾向を示すようになる。
このようなことから、第2の実施形態では、音声/非音声判定部14は、相互相関関数Rxy(τ)と判定用しきい値(類似度を示すしきい値)δr2とを比較して、相互相関関数Rxy(τ)が判定用しきい値δr2より大きい場合(Rxy(τ)>δr2)、音声区間と判定し、それ以外の場合(Rxy(τ)≦δr2)、非音声区間と判定する。ここで、判定用しきい値δr2は例えば実験により得る。
そして、前述の第1の実施形態と同様に、音声/非音声判定部14が音声区間と判定した場合、音入力オン/オフ制御部15は、オン制御として第2マイク2からの音声信号y(t)を後段に出力して、音声/非音声判定部34が非音声区間と判定した場合、音入力オン/オフ制御部15は、オフ制御として第2マイク2からの音声信号y(t)を後段に出力しないようにする。このとき、音入力オン/オフ制御部15から出力される音声信号y(t)は、音源(ユーザ)からの音のみからなる音声信号となる。
このように、第2の実施形態の音声信号処理装置10は、第2マイク2への入力音中の発話区間(音声区間)を検出することができる。
次に第2の実施形態における効果を説明する。
前述したように、無指向性マイクである第1のマイク1で発話音及び雑音を受音し、単一指向性マイクである第2マイク2で発話音を受音し、第1マイク1で受音した発話音及び雑音からなる音声信号と第2マイク2で受音した発話音の音声信号との比較により相関度を得て、その相関度に基づいて、発話音の発話区間を特定している。
これにより、第1のマイク1で発話音及び雑音を受音し、かつ第2マイク2で発話音を受音するように第1及び第2のマイク1,2を配置する限り、マイクの取り付け位置の変化等による環境の変化、話者の移動や姿勢の変化等による音源の移動に対してロバストな受音系を構築することができる。
また、精度よく発話区間を検出することができる。そして、このように音声信号処理装置10が検出した発話区間の音声信号を利用することにより、音声認識システムでは、高認識率、低誤認識率の音声認識が可能になり、また、携帯電話やトランシーバでは、信頼性の高いハンズフリー半二重通信が可能になり、放送システムでは、通信システムの送信電力低減が可能になる。
次に第3の実施形態を説明する。
この第3の実施形態も前述の第1の実施形態と同様、前記図1に示したように2つのマイク1,2に入力された音声信号を処理する音声信号処理装置10である。
前述の第1及び第2の実施形態では、相互相関関数計算部13により音声信号x(t),y(t)の相互相関関数Rxy(τ)を算出し、この相互相関関数Rxy(τ)に基づいて音声区間と非音声区間とを判定している。
これに対して、第3の実施形態の音声信号処理装置10は、音声信号x(t),y(t)それぞれのパワースペクトルを算出し、このパワースペクトルに基づいて音声区間と非音声区間とを判定するように構成されている。図5は、その第3の実施形態の音声信号処理装置10の構成を示す。
図5に示すように、音声信号処理装置10は、第1及び第2フレーム化部11,12、第1及び第2パワースペクトラム計算部21,22、パワー比計算部23、音声/非音声判定部24並びに音入力オン/オフ制御部15を備えている。各部の処理内容は次のようになる。
なお、第1及び第2フレーム化部11,12及び音入力オン/オフ制御部15については、前述の第1の実施形態のものと同様な処理を行うので、その説明を省略する。また、前述の第1の実施形態と同様に、第1マイク1は単一指向性マイクであり、第2マイク2は無指向性マイクである。さらに、第1及び第2マイク1,2の配置についても、前記図2に示したような配置にしている。これにより、雑音源からの音を第1及び第2マイク1,2で受音し、音源(ユーザ)からの音を第2マイク2だけで受音している。
第1及び第2フレーム化部11,12それぞれで複数フレームにされた音声信号x(t),y(t)は第1及び第2パワースペクトラム計算部21,22に入力される。
第1パワースペクトラム計算部21は、フレーム単位で音声信号x(t)の第1パワースペクトル値Px(ω)を算出し、その算出した第1パワースペクトル値Px(ω)をパワー比計算部23に出力する。また、第2パワースペクトラム計算部22は、フレーム単位で音声信号y(t)の第2パワースペクトル値Py(ω)を算出し、その算出した第2パワースペクトル値Py(ω)をパワー比計算部23に出力する。
パワー比計算部23は、下記(2)式により、第1パワースペクトラム計算部21からの第1パワースペクトル値Px(ω)と、第2パワースペクトラム計算部22からの第2パワースペクトル値Py(ω)との比(以下、パワー比という。)Pxy(ω)を算出する。
Figure 2005227511
ここで、Gxyは、第1及び第2マイク1,2の感度によって決まる補正係数である。このように算出されたパワー比Pxy(ω)はフレーム単位で各音声信号x(t),y(t)の波形形状の類似度を示す値となる。パワー比計算部23は、このようなパワー比Pxy(ω)を音声/非音声判定部24に出力する。
音声/非音声判定部24は、パワー比Pxy(ω)に基づいて音声区間と非音声区間とを判定する。具体的には、次のように音声区間と非音声区間とを判定する。
前述したように、音源(ユーザ)と雑音源に対して前記図2のように第1及び第2マイク1,2を配置することで、雑音源からの音を第1及び第2マイク1,2で受音し、音源(ユーザ)からの音を第2マイク2だけで受音している。
これにより、雑音源からの音だけを第1及び第2マイク1,2で受音している場合には、同じ音声信号が第1及び第2マイク1,2に入力されているので、すなわち第1及び第2マイク1,2の受音感度が同程度であるので、このときに第1及び2パワースペクトラム計算部21,22で算出される第1及び第2パワースペクトル値Px(ω),Py(ω)は同程度になる。一方、音源(ユーザ)から発話があった場合には、その発話を第2マイク2だけが受音するので、すなわち第2マイク2の受音感度の方が大きくなるので、このときに第1パワースペクトル値Px(ω)よりも第2パワースペクトル値Py(ω)の方が大きくなる。このとき、パワー比計算部23が算出するパワー比Pxy(ω)は小さくなる。
なお、このとき、雑音源や音源(ユーザ)の特性に応じて、所定の周波数域のパワースペクトル値Px(ω),Py(ω)が特に変化する。
このように、音源(ユーザ)から発話があった場合にはパワー比Pxy(ω)は小さくなることから、音声/非音声判定部24は、パワー比Pxy(ω)と判定用しきい値(類似度を示すしきい値)δp1とを比較して、音声区間を判定する。
ここで、第1及び第2パワースペクトラム計算部21,22では、パワースペクトル値Px(ω),Py(ω)を所定の周波数域を対象として得ている。よって、パワー比Pxy(ω)は、各周波数帯について得ることができる。
このようなことから、パワースペクトル値Px(ω),Py(ω)について各周波数で得ているパワー比Pxy(ω)の総和平均値を算出し、判定では、その総和平均値と判定用しきい値δp1とを比較する。ここで、判定用しきい値δp1は例えば実験により得る。
なお、判定対象としてパワースペクトル値Px(ω),Py(ω)の全周波数域の総和平均値を用いることに限定されるものではない。例えば、音源(ユーザ)の特性を示す特定の周波数帯のパワー比Pxy(ω)の総和平均値と判定用しきい値δp1とを比較したり、雑音源の特性を示す特定の周波数帯のパワー比Pxy(ω)の平均値と判定用しきい値δp1とを比較したり、又は音源(ユーザ)の特性を示す特定の周波数帯のパワー比Pxy(ω)と雑音源の特性を示す特定の周波数帯のパワー比Pxy(ω)との平均値と判定用しきい値δp1とを比較したりしてもよい。この場合、それに応じて、判定用しきい値δp1を設定する。
そして、音声/非音声判定部24は、パワー比Pxy(ω)が判定用しきい値δp1未満の場合(Pxy(ω)<δp1)、音声区間と判定し、それ以外の場合(Pxy(ω)≧δp1)、非音声区間と判定する。ここで、音声/非音声判定部24は、このような判定をフレーム単位で行う。そして、音声/非音声判定部24は、その判定結果を音入力オン/オフ制御部15に出力する。
以上のように第3の実施形態の音声信号処理装置10が構成されている。この音声信号処理装置10における一連の動作は次のようになる。
先ず、第1及び第2フレーム化部11,12が、第1及び第2マイク1,2から入力された2chの音声信号x(t),y(t)をそれぞれフレーム化し、フレーム単位で音声信号x(t),y(t)を第1及び第2パワースペクトラム計算部21,22に出力する。
パワースペクトラム計算部21,22ではそれぞれ、第1及び第2フレーム化部11,12それぞれから出力されるフレーム単位の音声信号x(t),y(t)について第1及び第2パワースペクトル値Px(ω),Py(ω)を算出して、算出した第1及び第2パワースペクトル値Px(ω),Py(ω)をパワー比計算部23に出力する。
パワー比計算部23では、パワースペクトラム計算部21,22それぞれから出力される第1及び第2パワースペクトル値Px(ω),Py(ω)について、フレーム単位でパワー比Pxy(ω)を算出して、算出したパワー比Pxy(ω)を音声/非音声判定部24に出力する。
音声/非音声判定部24では、パワー比Pxy(ω)と判定用しきい値δp1とを比較し、パワー比Pxy(ω)に対応するフレームが音声区間のものか、非音声区間のものかを判定する。そして、音声/非音声判定部24は、その判定結果を音入力オン/オフ制御部15に出力する。
音入力オン/オフ制御部15では、第2マイク2からの音声信号y(t)の後段への出力のオンとオフとを切り換える。具体的には、音声/非音声判定部24が音声区間と判定した場合、音入力オン/オフ制御部15は、オン制御として第2マイク2からの音声信号y(t)を後段に出力して、音声/非音声判定部24が非音声区間と判定した場合、音入力オン/オフ制御部15は、オフ制御として第2マイク2からの音声信号y(t)を後段に出力しないようにする。このとき、音入力オン/オフ制御部15から出力される音声信号y(t)は、音源(ユーザ)からの音と雑音源からの音とからなる音声信号となる。
このように、第3の実施形態の音声信号処理装置10は、第2マイク2への入力音中の発話区間(音声区間)を検出することができる。
次に第3の実施形態における効果を説明する。
前述したように、無指向性マイクである第2のマイク2で発話音及び雑音を受音し、単一指向性マイクである第1マイク1で雑音を受音し、第2マイク2で受音した発話音及び雑音からなる音声信号のパワースペクトルと、第1マイク1で受音した雑音の音声信号のパワースペクトルとを比較して、その比較結果に基づいて、前記発話音の発話区間を特定している。
これにより、第2のマイク2で発話音及び雑音を受音し、かつ第1マイク1で雑音を受音するように第1及び第2のマイク1,2を配置する限り、マイクの取り付け位置の変化等による環境の変化、話者の移動や姿勢の変化等による音源の移動に対してロバストな受音系を構築することができる。
また、精度よく発話区間を検出することができる。そして、このように音声信号処理装置10が検出した発話区間の音声信号を利用することにより、音声認識システムでは、高認識率、低誤認識率の音声認識が可能になり、また、携帯電話やトランシーバでは、信頼性の高いハンズフリー半二重通信が可能になり、放送システムでは、通信システムの送信電力低減が可能になる。
次に第4の実施形態を説明する。
この第4の実施形態も前述の第3の実施形態と同様、音声信号x(t),y(t)それぞれのパワースペクトルを算出し、このパワースペクトルに基づいて音声区間と非音声区間とを判定する音声信号処理装置10である。音声信号処理装置10の構成は、前述の第3の実施形態と同様、前記図5に示したような構成になる。そして、第4の実施形態では、第1及び第2マイク1,2の配置を前述の第3の実施形態における配置と異ならせている。
前述の第3の実施形態では、前述の第1の実施形態と同様、第1マイク1に単一指向性マイクを用い、第2マイク2に無指向性マイクを用い、前記図2に示したように、雑音源からの音を第1及び第2マイク1,2で受音し、音源(ユーザ)からの音を第2マイク2だけで受音するように、第1及び第2マイク1,2を配置している。
一方、この第4の実施形態では、前述の第2の実施形態と同様、音源(ユーザ)からの音を第1及び第2マイク1,2で受音し、雑音源からの音を第1マイク1だけで受音している。具体的には、第1マイク1に無指向性マイクを用い、第2マイク2に単一指向性マイクを用いる。そして、前記図4に示したように、第1及び第2マイク1,2をできるだけ近づけて配置するとともに、単一指向性マイクである第2マイク2を、その指向方向が音源(ユーザ)に向かい、かつその指向方向外に雑音源が位置されるように、配置する。
このように第1及び第2マイク1,2を配置した場合、パワー比計算部23で算出されるパワー比Pxy(ω)は次のような傾向を示す。
音源(ユーザ)からの音を第1及び第2マイク1,2で受音し、雑音源からの音を第1マイク1だけで受音するようにしているので、雑音源からの音だけを第1マイク1で受音している場合には、第1マイク1の受音感度の方が大きくなるので、第1パワースペクトル値Px(ω)が大きくなり、これにより、パワー比Pxy(ω)が大きくなる。一方、音源(ユーザ)から発話があった場合には、その発話を第1及び第2マイク1,2で受音するので、これにより、第2パワースペクトル値Py(ω)も大きくなり、パワー比Pxy(ω)が小さくなる。
このように、音源(ユーザ)から発話があった場合には、パワー比Pxy(ω)が小さくなる傾向を示すようになる。
このようなことから、第4の実施形態では、音声/非音声判定部24は、パワー比Pxy(ω)と判定用しきい値(類似度を示すしきい値)δp2とを比較して、パワー比Pxy(ω)が判定用しきい値δp2未満の場合(Pxy(ω)<δp2)、音声区間と判定し、それ以外の場合(Pxy(ω)≧δp2)、非音声区間と判定する。ここで、判定用しきい値δp2は例えば実験により得る。
そして、前述の第3の実施形態と同様に、音入力オン/オフ制御部15は、音声/非音声判定部24が音声区間と判定した場合、オン制御として第2マイク2からの音声信号y(t)を後段に出力して、音声/非音声判定部24が非音声区間と判定した場合、オフ制御として第2マイク2からの音声信号y(t)を後段に出力しないようにする。このとき、音入力オン/オフ制御部15から出力される音声信号y(t)は、音源(ユーザ)からの音のみからなる音声信号となる。
このように、第4の実施形態の音声信号処理装置10は、第2マイク2への入力音中の発話区間(音声区間)を検出することができる。
次に第4の実施形態における効果を説明する。
前述したように、無指向性マイクである第1のマイク1で発話音及び雑音を受音し、単一指向性マイクである第2マイク2で発話音を受音し、第1マイク1で受音した発話音及び雑音からなる音声信号のパワースペクトルと、第2マイク2で受音した発話音の音声信号のパワースペクトルとを比較して、その比較結果に基づいて、前記発話音の発話区間を特定している。
これにより、第1のマイク1で発話音及び雑音を受音し、かつ第2マイク2で発話音を受音するように第1及び第2のマイク1,2を配置する限り、マイクの取り付け位置の変化等による環境の変化、話者の移動や姿勢の変化等による音源の移動に対してロバストな受音系を構築することができる。
また、精度よく発話区間を検出することができる。そして、このように音声信号処理装置10が検出した発話区間の音声信号を利用することにより、音声認識システムでは、高認識率、低誤認識率の音声認識が可能になり、また、携帯電話やトランシーバでは、信頼性の高いハンズフリー半二重通信が可能になり、放送システムでは、通信システムの送信電力低減が可能になる。
次に第5の実施形態を説明する。
前述の第1及び第2の実施形態では、相互相関関数計算部13により音声信号x(t),y(t)の相互相関関数Rxy(τ)を算出し、この相互相関関数Rxy(τ)に基づいて音声区間と非音声区間とを判定し、また、前述の第3及び第4の実施形態では、音声信号x(t),y(t)それぞれのパワースペクトルPx(ω),Py(ω)を算出し、このパワースペクトルPx(ω),Py(ω)(具体的にはパワー比Pxy(ω))に基づいて音声区間と非音声区間とを判定している。第5の実施形態では、第1の実施形態(第2の実施形態)の処理と、第3の実施形態(第4の実施形態)の処理とを組み合わせた処理により、音声区間と非音声区間とを判定している。すなわち、第5の実施形態では、音声信号x(t),y(t)の相互相関関数Rxy(τ)を算出するとともに、音声信号x(t),y(t)それぞれのパワースペクトルPx(ω),Py(ω)を算出し、相互相関関数Rxy(τ)とパワースペクトルPx(ω),Py(ω)(具体的にはパワー比Pxy(ω))との両面から音声区間と非音声区間とを判定している。図6は、それを実現する音声信号処理装置10の構成を示す。
図6に示すように、音声信号処理装置10は、第1及び第2フレーム化部11,12、相互相関関数計算部13、音声/非音声判定部14、音入力オン/オフ制御部15、第1及び第2パワースペクトラム計算部21,22、パワー比計算部23、並びに音声/非音声判定部31を備えている。
このような構成において、第1及び第2フレーム化部11,12、相互相関関数計算部13、音声/非音声判定部14、音入力オン/オフ制御部15、第1及び第2パワースペクトラム計算部21,22、並びにパワー比計算部23は、前述の第1及び第2の実施形態と同様な処理を行う。
すなわち、第1及び第2フレーム化部11,12は、第1及び第2マイク1,2から入力された2chの音声信号x(t),y(t)をそれぞれフレーム化し、フレーム単位で音声信号x(t),y(t)を相互相関関数計算部13に出力する。また、第1及び第2フレーム化部11,12はそれぞれ、フレーム単位で各音声信号x(t),y(t)を第1及び第2パワースペクトラム計算部21,22それぞれに出力する。
相互相関関数計算部13は、第1及び第2フレーム化部11,12それぞれから出力されるフレーム単位の音声信号x(t),y(t)について相互相関関数Rxy(τ)を算出して、算出した相互相関関数Rxy(τ)を音声/非音声判定部31に出力する。
また、第1及び第2パワースペクトラム計算部21,22は、第1及び第2フレーム化部11,12それぞれから出力されるフレーム単位の音声信号x(t),y(t)について第1及び第2パワースペクトル値Px(ω),Py(ω)を算出して、算出した第1及び第2パワースペクトル値Px(ω),Py(ω)をパワー比計算部23に出力する。パワー比計算部23は、パワースペクトラム計算部21,22それぞれから出力される第1及び第2パワースペクトル値Px(ω),Py(ω)について、フレーム単位でパワー比Pxy(ω)を算出して、算出したパワー比Pxy(ω)を音声/非音声判定部31に出力する。
音声/非音声判定部31では、次のような判定処理を行う。この音声/非音声判定部31で行う処理が第5の実施形態において特有の処理になる。ここで、前記図2に示したように、雑音源からの音を第1及び第2マイク1,2で受音し、音源(ユーザ)からの音を第2マイク2だけで受音するように、第1及び第2マイク1,2を配置した場合(第1又は第3の実施形態の場合)と、前記図4に示したように、雑音源からの音を第1マイク1だけで受音し、音源(ユーザ)からの音を第1及び第2マイク2で受音するように、第1及び第2マイク1,2を配置した場合(第2又は第4の実施形態の場合)とを分けして説明する。
先ず、前記図2に示したように、雑音源からの音を第1及び第2マイク1,2で受音し、音源(ユーザ)からの音を第2マイク2だけで受音するように、第1及び第2マイク1,2を配置した場合について説明する。
この場合、音声/非音声判定部31は、音源(ユーザ)から発話があった場合に相互相関関数Rxy(τ)が0に向かって減少することから、相互相関関数Rxy(τ)が判定用しきい値δr1未満の場合(Rxy(τ)<δr1)、音声区間とし、それ以外の場合(Rxy(τ)≧δr1)、非音声区間とする第1判定結果を得る。また、音声/非音声判定部31は、音源(ユーザ)から発話があった場合にはパワー比Pxy(ω)が小さくなることから、パワー比Pxy(ω)が判定用しきい値δp1未満の場合(Pxy(ω)<δp1)、音声区間とし、それ以外の場合(Pxy(ω)≧δp1)、非音声区間とする第2判定結果を得る。
そして、音声/非音声判定部31は、前記第1及び第2判定結果に基づいて、音声区間の最終的な判定結果を得る。例えば、音声/非音声判定部31は、第1及び第2判定結果が共に音声区間である判定結果となった場合、最終的な判定結果を音声区間とする。または、音声/非音声判定部31は、第1判定結果又は第2判定結果の少なくとも一方が音声区間である判定結果となった場合、最終的な判定結果を音声区間とする。そして、音声/非音声判定部31は、それ以外の場合、最終的な判定結果を非音声区間とする。
一方、前記図4に示したように、雑音源からの音を第1マイク1だけで受音し、音源(ユーザ)からの音を第1及び第2マイク2で受音するように、第1及び第2マイク1,2を配置した場合には、次のような判定を行う。
音声/非音声判定部31は、音源(ユーザ)から発話があった場合に相互相関関数Rxy(τ)が大きくなることから、相互相関関数Rxy(τ)が判定用しきい値δr2より大きい場合(Rxy(τ)≧δr2)、音声区間とし、それ以外の場合(Rxy(τ)<δr2)、非音声区間とする第1判定結果を得る。また、音声/非音声判定部31は、音源(ユーザ)からの音の出力(発話)があった場合にはパワー比Pxy(ω)が小さくなることから、パワー比Pxy(ω)が判定用しきい値δp2未満の場合(Pxy(ω)<δp2)、音声区間とし、それ以外の場合(Pxy(ω)≧δp2)、非音声区間とする第2判定結果を得る。
そして、音声/非音声判定部31は、前記第1及び第2判定結果に基づいて、音声区間の最終的な判定結果を得る。例えば、音声/非音声判定部31は、第1及び第2判定結果が共に音声区間である判定結果となった場合、最終的な判定結果を音声区間とする。または、音声/非音声判定部31は、第1判定結果又は第2判定結果の少なくとも一方が音声区間である判定結果となった場合、最終的な判定結果を音声区間とする。そして、音声/非音声判定部31は、それ以外の場合、最終的な判定結果を非音声区間とする。
以上のようにして音声/非音声判定部31は、音声区間又は非音声区間を判定している。そして、音声/非音声判定部31は、その判定結果を音入力オン/オフ制御部15に出力する。
音入力オン/オフ制御部15は、音声/非音声判定部31が音声区間と判定した場合、オン制御として第2マイク2からの音声信号y(t)を後段に出力して、音声/非音声判定部31が非音声区間と判定した場合、オフ制御として第2マイク2からの音声信号y(t)を後段に出力しないようにする。このとき、第1及び第2のマイク1,2の配置が前記図2に示した配置であれば、音入力オン/オフ制御部15から出力される音声信号y(t)は、音源(ユーザ)からの音と雑音源からの音とからなる音声信号となる。また、第1及び第2のマイク1,2の配置が前記図4に示した配置であれば、音入力オン/オフ制御部15から出力される音声信号y(t)は、音源(ユーザ)からの音のみからなる音声信号となる。
次に第5の実施形態における効果を説明する。
前述したように、無指向性マイクで発話音及び雑音を受音し、単一指向性マイクで発話音又は雑音のいずれか一方を受音し、無指向性マイクで受音した発話音及び雑音からなる音声信号と単一指向性マイクで受音した発話音又は雑音のいずれか一方の音声信号の比較により相関度を得ている。その一方で、無指向性マイクで受音した発話音及び雑音からなる音声信号のパワースペクトルと、単一指向性マイクで受音した発話音又は雑音のいずれか一方の音声信号のパワースペクトルとを比較して、その比較結果としてパワー比を得ている。そして、前記相関度とパワー比との両方に基づいて、最終的に前記発話音の発話区間を特定している。
このように、相関度とパワー比との両方に基づいて最終的に前記発話音の発話区間を特定することで、その特定を精度よく行うことができる。そして、このように音声信号処理装置10が検出した発話区間の音声信号を利用することにより、音声認識システムでは、高認識率、低誤認識率の音声認識が可能になり、また、携帯電話やトランシーバでは、信頼性の高いハンズフリー半二重通信が可能になり、放送システムでは、通信システムの送信電力低減が可能になる。
また、前述の第1乃至第4の実施形態と同様に、無指向性マイクで発話音及び雑音を受音し、かつ単一指向性マイクで発話音又は雑音のいずれか一方を受音するように第1及び第2のマイク1,2を配置する限り、マイクの取り付け位置の変化等による環境の変化、話者の移動や姿勢の変化等による音源の移動に対してロバストな受音系を構築することができる。
なお、前述の実施形態では、第1及び第2マイク1,2から入力された音声信号x1(t),x2(t)を、直接第1及び第2フレーム化部11,12にそれぞれ入力しているが、具体的には、第1及び第2マイク1,2から入力された音声信号x1(t),x2(t)を、AD(アナログ/デジタル)変換した後、第1及び第2フレーム化部11,12に入力するようにする。また、前述の実施形態では、第2マイク2に入力された音声信号x1(t)を、音入力オン/オフ制御部15に入力しているが、第2マイク2に入力され、フレーム化した音声信号x1(t)を音入力オン/オフ制御部15に入力する。これらの仕様を、例えば前述の第1の実施形態の音声信号処理装置10の構成に適用すると、図7に示すような構成になる。
この図7に示すように、第1及び第2マイク1,2から入力された音声信号x1(t),x2(t)をそれぞれ、第1及び第2AD変換部41,42でAD変換した後、第1及び第2フレーム化部11,12に入力する。また、第2AD変換部32でAD変換された信号は、第2フレーム化部12でフレーム化されてから音入力オン/オフ制御部15に入力される。ここで、第1及び第2AD変換部41,42でAD変換されたデータ形式は、例えば11025Hz、16bit、リニアPCMである。また、第1及び第2フレーム化部11,12でフレーム化された信号のフレーム長は、例えば512サンプルフレーム長である。
例えば、音声信号x2(t)を第2フレーム化部12でフレーム化してから音入力オン/オフ制御部15に出力することで、結果的に、音声信号処理装置10から出力される音声信号x2(t)もフレーム化されているものとなり、これにより、音声信号処理装置10から出力される音声信号x2(t)を利用する音声アプリケーションでは、解りやすいフレーム化された音声信号x2(t)で処理をすることができるようになる。
また、前述の実施形態では、検出対象音が人間が発する発話音である場合を説明したが、検出対象音は、人間以外の物体が発する音でもよい。
また、前述の実施形態の説明において、相互相関関数計算部13又はパワースペクトラム計算部21,22及びパワー比計算部23は、無指向性マイクに入力された音信号と、単一指向性マイクに入力された音信号とを比較する比較手段を実現しており、音声/非音声判定部14,24,31は、比較手段の比較結果に基づいて、検出対象音を検出する検出対象音検出手段又は発話音の発話区間を検出する発話区間検出手段を実現している。
また、前述の実施形態の音声信号処理装置10を音声認識装置に適用することができる。この場合、音声認識装置は、前述したような音声信号処理装置10の構成に加えて、音声信号処理装置10が検出した発話区間の音声信号について音声認識処理をする音声認識処理手段を備える。
ここで、音声認識技術としては、例えば、旭化成株式会社が提供する音声認識技術「VORERO」(商標)(http://www.asahi-kasei.co.jp/vorero/jp/vorero/feature.html参照)等があり、このような音声認識技術の用いた音声認識装置に適用することもできる。
また、前述の実施形態の音声信号処理装置10をコンピュータで実現することができる。そして、前述したような音声信号処理装置10の処理内容をコンピュータが所定のプログラムにより実現する。この場合、プログラムは、無指向性マイクで受音した発話音及び雑音の音声信号と単一指向性マイクで受音した前記発話音又は前記雑音のいずれか一方の音声信号とを比較し、その比較結果に基づいて、前記発話音の発話区間を検出する処理をコンピュータに実行させるプログラムになる。
本発明の実施形態の音声信号処理装置を含むシステム全体の構成を示すブロック図である。 本発明の第1の実施形態におけるマイクの配置を示す図である。 本発明の第1の実施形態の音声信号処理装置の構成を示すブロック図である。 本発明の第2の実施形態におけるマイクの配置を示す図である。 本発明の第3の実施形態の音声信号処理装置の構成を示すブロック図である。 本発明の第5の実施形態の音声信号処理装置の構成を示すブロック図である。 前記第1の実施形態の他の構成例を示すブロック図である。
符号の説明
1,2 マイク
10 音声信号処理装置
11,12 フレーム化部
13 相互相関関数計算部
14,24,31 音声/非音声判定部
15 音入力オン/オフ制御部
21,22 パワースペクトラム計算部
23 パワー比計算部

Claims (15)

  1. 無指向性マイクで検出対象音及び雑音を受音し、単一指向性マイクで前記検出対象音又は前記雑音のいずれか一方を受音し、前記無指向性マイクに入力された声信号と単一指向性マイクに入力された音信号とを比較し、その比較結果に基づいて、前記検出対象音を検出することを特徴とする対象音検出方法。
  2. 前記無指向性マイクに入力された音信号と単一指向性マイクに入力された音信号との比較により相関度を得て、その相関度に基づいて、前記検出対象音を検出することを特徴とする請求項1記載の対象音検出方法。
  3. 前記無指向性マイクに入力された音信号のパワースペクトルと、単一指向性マイクに入力された音信号のパワースペクトルとを比較して、その比較結果に基づいて、前記検出対象音を検出することを特徴とする請求項1又は2記載の対象音検出方法。
  4. 前記無指向性マイクに入力された音信号と単一指向性マイクに入力された音信号との比較により得た相関度、及び前記無指向性マイクに入力された音信号のパワースペクトルと、単一指向性マイクに入力された音信号のパワースペクトルとの比較結果に基づいて、前記検出対象音を検出することを特徴とする請求項1乃至3のいずれか1に記載の対象音検出方法。
  5. 検出対象音及び雑音を受音するように配置されている無指向性マイクと、
    前記検出対象音又は前記雑音のいずれか一方を受音するように配置されている単一指向性マイクと、
    前記無指向性マイクに入力された音信号と、単一指向性マイクに入力された音信号とを比較する比較手段と、
    前記比較手段の比較結果に基づいて、前記検出対象音を検出する対象音検出手段と、
    を備えることを特徴とする音信号処理装置。
  6. 前記比較手段は、前記無指向性マイクに入力された音信号と前記単一指向性マイクに入力された音信号との相関度を算出し、前記対象音検出手段は、前記比較手段が算出した相関度と所定の第1しきい値とを比較して、前記検出対象音を検出することを特徴とする請求項5記載の音信号処理装置。
  7. 前記比較手段は、前記無指向性マイク及び単一指向性マイクに入力された各音信号のパワースペクトルをそれぞれ算出するパワースペクトル算出手段と、前記パワースペクトル算出手段が算出した2つのパワースペクトルの比を算出するパワースペクトル比算出手段とを備えており、
    前記対象音検出手段は、前記パワースペクトル比算出手段が算出した前記パワースペクトルの比と所定の第2しきい値とを比較して、前記検出対象音を検出することを特徴とする請求項5又は6記載の音信号処理装置。
  8. 前記比較手段は、前記無指向性マイク及び単一指向性マイクに入力された各音信号のパワースペクトルをそれぞれ算出するパワースペクトル算出手段と、前記パワースペクトル算出手段が算出した2つのパワースペクトルの比を算出するパワースペクトル比算出手段とを備えており、
    前記比較手段は、前記無指向性マイクに入力された音信号と前記単一指向性マイクに入力された音信号との相関度を算出し、前記対象音検出手段は、前記比較手段が算出した相関度と所定の第1しきい値との比較結果と、前記比較手段のパワースペクトル比算出手段が算出した前記パワースペクトルの比と所定の第2しきい値との比較結果とに基づいて、前記検出対象音を検出することを特徴とする請求項5乃至7のいずれか1に記載の音信号処理装置。
  9. 前記無指向性マイクに入力された音信号及び単一指向性マイクに入力された音信号を時分割してフレーム化するフレーム化手段を備えており、
    前記比較手段は、前記フレーム化手段から出力されるフレーム単位で、前記無指向性マイクに入力された音信号と、単一指向性マイクに入力された音信号とを比較し、前記対象音検出手段は、前記比較手段の比較結果に基づいて、前記フレーム化手段から出力されるフレーム単位で前記検出対象音を検出することを特徴とする請求項5乃至8のいずれか1に記載の音信号処理装置。
  10. 発話音及び雑音を受音するように配置されている無指向性マイクと、
    前記発話音又は前記雑音のいずれか一方を受音するように配置されている単一指向性マイクと、
    前記無指向性マイクに入力された音信号と、単一指向性マイクに入力された音信号とを比較する比較手段と、
    前記比較手段の比較結果に基づいて、前記発話音の発話区間を検出する発話区間検出手段と、
    前記発話区間検出手段が検出した前記発話音の発話区間について、音声認識処理を行う音声認識処理手段と、
    を備えることを特徴とする音声認識装置。
  11. 前記比較手段は、前記無指向性マイクに入力された音信号と前記単一指向性マイクに入力された音信号との相関度を算出し、前記発話区間検出手段は、前記比較手段が算出した相関度と所定の第1しきい値とを比較して、前記発話音の発話区間を検出することを特徴とする請求項10記載の音声認識装置。
  12. 前記比較手段は、前記無指向性マイク及び単一指向性マイクに入力された各音信号のパワースペクトルをそれぞれ算出するパワースペクトル算出手段と、前記パワースペクトル算出手段が算出した2つのパワースペクトルの比を算出するパワースペクトル比算出手段とを備えており、
    前記発話区間検出手段は、前記パワースペクトル比算出手段が算出した前記パワースペクトルの比と所定の第2しきい値とを比較して、前記発話音の発話区間を検出することを特徴とする請求項10又は11記載の音声認識装置。
  13. 前記比較手段は、前記無指向性マイク及び単一指向性マイクに入力された各音信号のパワースペクトルをそれぞれ算出するパワースペクトル算出手段と、前記パワースペクトル算出手段が算出した2つのパワースペクトルの比を算出するパワースペクトル比算出手段とを備えており、
    前記比較手段は、前記無指向性マイクに入力された音信号と前記単一指向性マイクに入力された音信号との相関度を算出し、前記発話区間検出手段は、前記比較手段が算出した相関度と所定の第1しきい値との比較結果と、前記比較手段のパワースペクトル比算出手段が算出した前記パワースペクトルの比と所定の第2しきい値との比較結果とに基づいて、前記発話音の発話区間を検出することを特徴とする請求項10乃至12のいずれか1に記載の音声認識装置。
  14. 前記無指向性マイクに入力された音信号及び単一指向性マイクに入力された音信号を時分割してフレーム化するフレーム化手段を備えており、
    前記比較手段は、前記フレーム化手段から出力されるフレーム単位で、前記無指向性マイクに入力された音信号と、単一指向性マイクに入力された音信号とを比較し、前記発話区間検出手段は、前記比較手段の比較結果に基づいて、前記フレーム化手段から出力されるフレーム単位で前記発話音の発話区間を検出し、前記音声認識処理手段は、前記発話区間検出手段が検出したフレーム単位の前記発話音の発話区間について、音声認識処理を行うことを特徴とする請求項10乃至13のいずれか1に記載の音声認識装置。
  15. 無指向性マイクで受音した検出対象音及び雑音の音信号と単一指向性マイクで受音した前記検出対象音又は前記雑音のいずれか一方の音信号とを比較し、その比較結果に基づいて、前記検出対象音を検出する処理をコンピュータに実行させることを特徴とするプログラム。
JP2004035618A 2004-02-12 2004-02-12 対象音検出方法、音信号処理装置、音声認識装置及びプログラム Pending JP2005227511A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004035618A JP2005227511A (ja) 2004-02-12 2004-02-12 対象音検出方法、音信号処理装置、音声認識装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004035618A JP2005227511A (ja) 2004-02-12 2004-02-12 対象音検出方法、音信号処理装置、音声認識装置及びプログラム

Publications (1)

Publication Number Publication Date
JP2005227511A true JP2005227511A (ja) 2005-08-25

Family

ID=35002270

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004035618A Pending JP2005227511A (ja) 2004-02-12 2004-02-12 対象音検出方法、音信号処理装置、音声認識装置及びプログラム

Country Status (1)

Country Link
JP (1) JP2005227511A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010541010A (ja) * 2007-09-28 2010-12-24 クゥアルコム・インコーポレイテッド 複数マイクロホン音声アクティビティ検出器
JP2011170266A (ja) * 2010-02-22 2011-09-01 Secom Co Ltd 識別装置及び発声検出装置
JP2015517116A (ja) * 2012-08-07 2015-06-18 ゴーアテック インコーポレイテッドGoertek Inc 携帯電話に適用する音声強調方法及び装置
CN107316651A (zh) * 2017-07-04 2017-11-03 北京中瑞智科技有限公司 基于麦克风的音频处理方法和装置
CN110366066A (zh) * 2018-03-26 2019-10-22 索尼公司 用于声学噪声消除的设备和方法
CN112075088A (zh) * 2018-05-18 2020-12-11 索尼公司 信号处理装置、信号处理方法、程序

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57148413A (en) * 1981-03-10 1982-09-13 Matsushita Electric Ind Co Ltd Sound absorbing device
JPS632500A (ja) * 1986-06-20 1988-01-07 Matsushita Electric Ind Co Ltd 収音装置
JPH06269085A (ja) * 1993-03-16 1994-09-22 Sony Corp マイクロホン装置
JP2000029486A (ja) * 1998-07-09 2000-01-28 Hitachi Ltd 音声認識システムおよび方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57148413A (en) * 1981-03-10 1982-09-13 Matsushita Electric Ind Co Ltd Sound absorbing device
JPS632500A (ja) * 1986-06-20 1988-01-07 Matsushita Electric Ind Co Ltd 収音装置
JPH06269085A (ja) * 1993-03-16 1994-09-22 Sony Corp マイクロホン装置
JP2000029486A (ja) * 1998-07-09 2000-01-28 Hitachi Ltd 音声認識システムおよび方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010541010A (ja) * 2007-09-28 2010-12-24 クゥアルコム・インコーポレイテッド 複数マイクロホン音声アクティビティ検出器
US8954324B2 (en) 2007-09-28 2015-02-10 Qualcomm Incorporated Multiple microphone voice activity detector
JP2011170266A (ja) * 2010-02-22 2011-09-01 Secom Co Ltd 識別装置及び発声検出装置
JP2015517116A (ja) * 2012-08-07 2015-06-18 ゴーアテック インコーポレイテッドGoertek Inc 携帯電話に適用する音声強調方法及び装置
CN107316651A (zh) * 2017-07-04 2017-11-03 北京中瑞智科技有限公司 基于麦克风的音频处理方法和装置
CN107316651B (zh) * 2017-07-04 2020-03-31 北京中瑞智科技有限公司 基于麦克风的音频处理方法和装置
CN110366066A (zh) * 2018-03-26 2019-10-22 索尼公司 用于声学噪声消除的设备和方法
CN112075088A (zh) * 2018-05-18 2020-12-11 索尼公司 信号处理装置、信号处理方法、程序
CN112075088B (zh) * 2018-05-18 2022-06-28 索尼公司 信号处理装置、信号处理方法和计算机可读介质
US11386904B2 (en) 2018-05-18 2022-07-12 Sony Corporation Signal processing device, signal processing method, and program

Similar Documents

Publication Publication Date Title
JP5819324B2 (ja) 複数の音声区間検出器に基づく音声区間検出
US8391507B2 (en) Systems, methods, and apparatus for detection of uncorrelated component
US11694710B2 (en) Multi-stream target-speech detection and channel fusion
US9837099B1 (en) Method and system for beam selection in microphone array beamformers
US7383178B2 (en) System and method for speech processing using independent component analysis under stability constraints
EP1349419B1 (en) Orthogonal circular microphone array system and method for detecting three-dimensional direction of sound source using the same
JP2013535915A (ja) 多重マイク位置選択性処理用のシステム、方法、装置、およびコンピュータ可読媒体
JP2014085673A (ja) 電子装置の音量をインテリジェントに制御する方法及び実装機器
JP2002062348A (ja) 信号処理装置及び信号処理方法
CN103392349A (zh) 用于空间选择性音频增强的系统、方法、设备和计算机可读媒体
CN103426440A (zh) 利用能量谱熵空间信息的语音端点检测装置及其检测方法
US11264017B2 (en) Robust speaker localization in presence of strong noise interference systems and methods
US20230335101A1 (en) Active noise cancellation method, device, and system
WO2022253003A1 (zh) 语音增强方法及相关设备
CN115482830A (zh) 语音增强方法及相关设备
WO2004084187A1 (ja) 対象音検出方法、信号入力遅延時間検出方法及び音信号処理装置
JP2005227511A (ja) 対象音検出方法、音信号処理装置、音声認識装置及びプログラム
Zhao et al. A robust real-time sound source localization system for olivia robot
JP2005303574A (ja) 音声認識ヘッドセット
Lim et al. Speaker localization in noisy environments using steered response voice power
CN114127846A (zh) 语音跟踪收听设备
Cornelis et al. Binaural voice activity detection for MWF-based noise reduction in binaural hearing aids
Lee et al. Space-time voice activity detection
US11778374B2 (en) Conference device with voice direction estimation
Ganguly Noise-robust speech source localization and tracking using microphone arrays for smartphone-assisted hearing aid devices

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061113

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091201

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100511