JP2007171637A - 音声処理装置 - Google Patents

音声処理装置 Download PDF

Info

Publication number
JP2007171637A
JP2007171637A JP2005370140A JP2005370140A JP2007171637A JP 2007171637 A JP2007171637 A JP 2007171637A JP 2005370140 A JP2005370140 A JP 2005370140A JP 2005370140 A JP2005370140 A JP 2005370140A JP 2007171637 A JP2007171637 A JP 2007171637A
Authority
JP
Japan
Prior art keywords
voice
audio
detection unit
component
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2005370140A
Other languages
English (en)
Inventor
Tomonori Ikumi
智則 伊久美
Tomonari Kakino
友成 柿野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba TEC Corp
Original Assignee
Toshiba TEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba TEC Corp filed Critical Toshiba TEC Corp
Priority to JP2005370140A priority Critical patent/JP2007171637A/ja
Publication of JP2007171637A publication Critical patent/JP2007171637A/ja
Abandoned legal-status Critical Current

Links

Images

Abstract

【課題】ユーザにとって便利な音声処理装置を提供する。
【解決手段】音声処理装置100は、ユーザが発する音声を検出し電気信号に変換する音声成分検出部12と、音声が発せられる際に同時に人の口から出る吐息成分を検出する吐息成分検出部13と吐息成分が検出された場合にのみ電気信号に変換された音声を有効な音声であると判定する有効音声判定部14とを具備する。
【選択図】図1

Description

本発明は、音声処理装置に関する。
人(ユーザ)が発する音声(コマンド音声)を認識して装置の操作を行う等に用いられる音声認識装置や、声(例えばパスワード音声)を分析して発話者が誰であるかを識別する話者認識装置に使われる音声処理装置において、コマンド音声やパスワード音声をメカニカルなスイッチを押し(トリガー入力)、トリガー入力があった場合だけ音声を受け付けるようにし、周囲の雑音とコマンド音声/パスワード音声と間違えることを抑制する方式(Push To Talk方式)が用いられている。しかし、Push To Talk方式はメカニカルスイッチを操作する際に、ユーザが視線をスイッチに移す必要があるため、例えば音声処理装置がカーオーディオやカーナビゲーションシステムなどの車載機器に用いられる場合、ドライバーが視線をそらすことなる。このことは事故の危険を増大させる要因となっていた。
このような問題に鑑み、次のような提案がなされている。トリガー入力手段としてメカニカルスイッチの代わりに、特定の言葉のみを認識することができる音声操作開始判定手段を設け、コマンド音声を発話する前に指定された特定の言葉を発生することで、音声処理装置を機能状態にするというものである(例えば、特許文献1参照)。これによりユーザは視線を移動させることなく、周囲の雑音の影響を受けにくい音声処理装置を使えるようになった。
特開2000−322078号公報
しかしながら、特許文献1に記載されたものでは、視線を移動させる必要があるという問題を回避し、手が使えない状態でもトリガー入力が可能になるという利点を有するものの、コマンド音声(パスワード音声)を発話する前に、特定の言葉を発する必要があり、ユーザにとって便利なものとは言い難いものであった。
本発明は上記事情に鑑みてなされたものであって、その目的は、特定の言葉を発する必要がない、ユーザにとって便利な音声処理装置を提供することにある。
本発明は、人が発する音声を検出し電気信号に変換する音声成分検出部と、音声が発せられる際に同時に人の口から出る吐息成分を検出する吐息成分検出部と、この吐息成分検出部によって吐息成分が検出された場合にのみ前記音声成分検出部で変換された音声を、有効な音声であると判定する有効音声判定部とを具備する音声処理装置である。
本発明によると、ユーザが特定の言葉を発する必要がない、ユーザにとって便利な音声処理装置を提供できる。
以下、本発明の各実施の形態について図面を参照して説明する。尚、本発明の音声処理装置は人が発する声を確実に検出する為のものであり、例えば話者認識装置にも有効であるが、以下の各実施の形態においては人が発するコマンド音声を認識してカーオーディオを操作するための音声認識装置に適用する音声処理装置の場合として説明する。
(第1の実施の形態)
先ず第1の実施の形態について説明する。図1は本発明の音声処理装置100の構成を示すブロック図である。図1に示すように、音声処理装置100は、マイクロフォン11、音声成分検出部12、吐息成分検出部13、有効音声判定部14、音声認識部15から構成され、音声認識部15で認識された音声コマンドがカーオーディオ200に入力されるようになっている。
マイクロフォン11はユーザが発したコマンド音声を電気信号に変換する。そして、コマンド音声が変換された電気信号は、音声成分検出部12と吐息成分検出部13とに分岐されて入力される。このコマンド音声が変換された電気信号には音声成分と吐息成分の両方が含まれている。音声成分は可聴域(数十Hzから数十KHz)の空気の振動であり、吐息成分は可聴域以下の周波数成分の振動である。従って、数十Hzをカットオフ周波数として音声成分検出部12はハイパスフィルタで構成され、吐息成分検出部(圧力変動検出部)13はローパスフィルタで構成される。
音声成分検出部12で検出された電気信号及び吐息成分検出部13で検出された電気信号は共に有効音声判定部14に入力される。有効音声判定部14は、吐息成分と同時に入力された音声成分のみを有効音声と判定するとともに有効音声と判定された場合のみその音声信号を音声認識部15に入力させる。
上記音声成分検出部12、吐息成分検出部13、有効音声判定部14はハードウェアによってもソフトウェアによっても実現可能である。
音声成分検出部12、吐息成分検出部13、有効音声判定部14をハードウェアによって実現する場合にはマイクロフォン11から出力される電気信号を分岐して音声成分検出部12(ハイパスフィルタ)と、吐息成分検出部13(ローパスフィルタ)にそれぞれ入力させ、有効音声判定部14でローパスフィルタを通過する信号が一定レベル以上の振幅を有する場合にのみハイパスフィルタを通過した信号をA/D変換器(図示しない。)によってデジタル信号に変換させた後、その変換されたデジタル信号を音声認識部15に入力させる。
音声認識部15は、ソフトウェアモジュールによって実現することができる。音声認識部15では、有効音声判定部14からA/D変換器(図示しない。)を介して出力されたデジタル信号に基づいて、音声がカーオーディオ200の操作のために予め登録されているコマンド音声であるか否を判断し、コマンド音声である場合には、カーオーディオ200の電源操作ためのコマンド信号をカーオーディオ200に出力する。これにより、カーオーディオ200の操作が実施できるようになる。
一方、音声成分検出部12、吐息成分検出部13、有効音声判定部14をソフトウェアで構成する場合はマイクロフォン11からの出力信号をA/D変換器(図示しない。)によってA/D変換を行った後、デジタル演算部(例えば、PC)に入力して、ソフトウェア的にハイパスフィルタ処理、ローパスフィルタ処理、有効音声判定処理を行うように構成する。
続いて、ソフトウェアで音声成分検出部12、吐息成分検出部13、有効音声判定部14を構成する場合の処理を、図2を参照して説明する。
待機状態は常にマイクロフォン11から音声の入力を受け付ける状態である。即ち、ユーザが発するコマンド音声や周囲の雑音等全ての音声はマイクロフォン11に入力される。マイクロフォン11から出力されるアナログ電気信号はPCに接続されたA/D変換器(図示しない。)によってデジタル音声信号に変換され、PCに入力される(ST11)。
続いて、PCにより、入力されたデジタル音声信号から例えば所定の閾値を越える振幅を含む信号区間を音声区間とみなす等の方法で音声区間の抽出が行われる(ST12)。その後、抽出された音声区間に対し、フィルタ処理、具体的にはローパスフィルタ処理、ハイパスフィルタ処理が行われる(ST13)。ローパスフィルタ処理はFFT(Fast Fourier Transformation)で周波数成分分解した後、閾値以下の成分のみを取り出す等の公知の方法で実現できる。尚、このローパスフィルタ処理の閾値は音声成分に影響を与えず、吐息成分を確実に検出できる10Hz程度が適当である。また、抽出された音声区間に対してハイパスフィルタ処理も行われる。吐息成分は音声認識を行う際にノイズとして悪影響を与えるものであるから、後述する音声認識処理を行う際には吐息成分(即ち閾値以下の低周波成分)が含まれていないほうが望ましい。そのためステップST12で抽出された音声区間に対して低周波成分を取り除くハイパスフィルタ処理が行われる。なお、ハイパスフィルタ処理で用いる閾値は、例えば10Hz程度を用いる。
続いて、ローパスフィルタ処理されたデジタル音声信号に対し、低周波成分が所定の大きさ以上であるかどうかで、抽出した音声区間の音声信号に吐息成分が含まれるか否かが判定される(ST14)。吐息成分が含まれていないと判断された場合は(ST14でNO)、周辺の機械ノイズかユーザ以外の人の声と判断できるので処理はステップST11へ戻り、音声認識処理が行われない。一方、吐息成分が含まれていると判定された場合は(ST14でYES)、マイクロフォン11の近傍でユーザから発話された音声とみなすことができる。したがって、吐息成分が含まれていると判定された場合のみ音声認識処理(ソフトウェアモジュール)で、ステップST13でハイパスフィルタ処理されたデジタル音声信号に対して音声認識処理が行われる(ST15)。このようにハイパスフィルタ処理を行った音声成分に対して音声認識処理を行うことにより、音声認識処理でのコマンド音声の認識性能を向上させることができる。
そして、音声認識処理によって認識された音声がカーオーディオ200の操作のために予め登録されているコマンド音声であるか否かが判断される(ST16)。コマンド音声でないと判断されると(ST16でNO)、処理はステップST11へ戻り、再びコマンド音声の入力待ちの待機状態となる。一方、コマンド音声であると判断されると(ST16でYES)、カーオーディオ200の電源操作ためのコマンド信号が出力される(ST17)。これにより、カーオーディオ200の操作が実施できるようになる。
この第1の実施の形態の音声処理装置100は、吐息成分が検出された場合にのみ、所定の閾値でハイパスフィルタ処理された音声信号に対して音声認識を行うようにしている。マイクロフォン11にはコマンド音声以外にも様々な雑音が入力されるが、このうち定常的な雑音は例えばスペクトルサブトラクション法など公知の手法でその影響を少なくすることが可能である。しかし、非定常的な雑音、特にユーザの後方で発せられるコマンド音声以外の人の声は信号処理的方法では分離が難しい。一方、マイクロフォン11の遠方からの発声は吐息成分を含んでいないとみなすことができ、また、カーオーディオ200を操作するユーザはマイクロフォン11近傍にいると仮定できるため(あるいは音声コマンドによる操作を行う場合はマイクロフォン11近傍で発話するように仕様として定めることで)、コマンド音声には吐息成分が含まれているとみなすことが可能となる。したがって、図1で示す構成のように、吐息成分が検出された場合にのみ音声認識処理を行うことによりマイクロフォン11に入力された音声がコマンド音声であるか、雑音音声であるかを確実に分離することができる。
すなわち、音声処理装置100は、マイクロフォン11近傍にて発声されたユーザのコマンド音声(カーオーディオ200を操作するために発話された言葉)と他人の声を含む周辺のノイズを確実に分離できるようになり、音声認識部15による音声認識処理の精度を向上させることができ、カーオーディオ200の操作を確実に行えるようになる。
(第2の実施の形態)
次に、第2の実施の形態について述べる。尚、前述した第1の実施の形態と同一の部分には同一の符号を付し詳細な説明は省略する。この第2の実施の形態の音声処理装置101は、マイクロフォン11、音声成分検出部12、吐息成分検出部13に代えて音声入力を行うための通常のマイクロフォン16、吐息成分を検出するための低周波マイクロフォン17を設けたものである。図3は、第2の実施の形態における音声処理装置101の構成を示す図である。
図3に示すように、音声処理装置101は、音声入力を行うための通常のマイクロフォン16、吐息成分を検出するための低周波マイクロフォン(圧力変動検出部)17、有効音声判定部14、音声認識部15から構成される。なお、通常のマイクロフォン16と低周波マイクロフォン17は設置の利便性等を考慮すると同一の筐体内に収容することが望ましい。
ユーザが発するコマンド音声は通常のマイクロフォン16と10Hz以下の低周波域にも高い感度を持つ低周波マイクロフォン(例えばプリモ社のEM156T)17の両方に入力される。低周波マイクロフォン17は可聴域にも感度を有しているのでローパスフィルタ処理により可聴域以下の成分(吐息成分)を抽出する。このように抽出された吐息成分は低周波に高感度を持つマイクロフォンを使用しているため、第1の実施の形態の場合よりも大きな振幅の吐息成分の信号が得られ、吐息成分をより正確に捉えることが可能となる。したがって、ユーザが低周波マイクロフォン17から若干離れていても吐息成分を検出することが可能となる。このように低周波マイクロフォン17で抽出された吐息成分の有無を利用して有効音声判定部14は第1の実施の形態と同様に有効音声判定を行う。
このように吐息成分を低周波マイクロフォン17により抽出するように構成すると、第1の実施の形態と同様な効果を奏することができるとともに、第1の実施の形態と比較して吐息成分をより正確にさらに遠方から捉えることができる。
(第3の実施の形態)
次に、第3の実施の形態について述べる。尚、前述した第1の実施の形態と同一の部分には同一の符号を付し詳細な説明は省略する。この第3の実施の形態の音声処理装置102は、マイクロフォン11、音声成分検出部12、吐息成分検出部13に代えて音声入力を行うための通常のマイクロフォン16、吐息成分を検出するための温度センサ18を設けたものである。図4は、第3の実施の形態における音声処理装置102の構成を示す図である。
図4に示すように、音声処理装置102は、音声入力を行うための通常のマイクロフォン16、例えばサーミスタで構成される温度センサ18、有効音声判定部14、音声認識部15から構成される。
吐息成分の検出は上述した所定の閾値を設けた吐息成分検出部13のローパスフィルタ処理や低周波マイクロフォン17による低周波の圧力変動を捉える方法以外に、温度変化を捉える方法でも可能である。すなわち、温度センサ18は、温度センサ18近傍でユーザが発話した場合に生じる空気中の温度変化を検出する。
有効音声判定部14は、温度センサ18からの出力が予め設定したある閾値以上に上がった場合にのみ通常のマイクロフォン16から入力された音声信号を有効であると判定する。これにより、温度センサ18の近傍にいるユーザが発話した音声であることを判定することができる。このように温度センサ18の近傍にいるユーザが発声した吐息を検出することで、音声処理装置102の近傍にいるユーザが発話したコマンド音声か、その他の雑音音声かの判別が可能となる。
このように吐息成分を温度センサ18により検出するように構成しても、第1の実施の形態と同様な効果を奏することができる。
以上の構成及び作用を有する各実施の形態の音声処理装置100,101,102により、吐息成分を、可聴域以下の低周波の圧力変動を吐息成分検出部13,低周波マイクロフォン17により検出すること又は温度変化を温度センサ18により検出することで、ユーザの発話した音声コマンドを遠方から発話された雑音音声と区別することが可能になる。したがって、ユーザは、「メカニカルスイッチを押す」、「事前に特定の発話を行う」等をすることなく確実に音声コマンド等を音声処理装置100,101,102に認識させることが可能となる。
また、第1の実施の形態において音声処理装置100はマイクロフォン11、音声成分検出部12、吐息成分検出部13、有効音声判定部14及び音声認識部15、第2の実施の形態において音声処理装置101は通常のマイクロフォン16、低周波マイクロフォン17、有効音声判定部14及び音声認識部15、第3の実施の形態において音声処理装置102は通常のマイクロフォン16、温度センサ18、有効音声判定部14及び音声認識部15から構成される場合で説明しているが、各実施の形態において音声処理装置100,101,102の構成から音声認識部15を除外し、検出した音声に吐息成分が含まれている場合にのみ有効音声判定部14から音声信号を出力する音声処理装置としても本発明を実現することができる。
図5に示す音声処理装置103のように音声認識部15を構成から外すとともに吐息成分検出部13や有効音声判定部14を一体にすることで、既存の音声認識装置に接続でき、有効な音声(即ち雑音ではないコマンド音声)のみを出力できるマイクロフォン(音声処理装置)として利用することが可能となる。
また、音声認識部15に換えて話者認識部を組み込んでも良い。
尚、本発明は、上述した実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できるものである。
また、本発明を利用した音声処理装置からコマンドを受取る装置はカーオーディオに限らず、オーディオをはじめ各種装置であってもよい。
本発明の第1の実施の形態における音声処理装置の構成を概略的に示す図。 同実施の形態における音声処理の要部を示すフローチャート。 本発明の第2の実施の形態における音声処理装置の構成を概略的に示す図。 本発明の第3の実施の形態における音声処理装置の構成を概略的に示す図。 各実施の形態における音声処理装置の他の構成例を説明するための図。
符号の説明
11…マイクロフォン,12…音声成分検出部,13…吐息成分検出部,14…有効音声判定部,15…音声認識部,16…通常のマイクロフォン,17…低周波マイクロフォン,18…温度センサ,100,101,102,103…音声処理装置,200…カーオーディオ

Claims (4)

  1. 人が発する音声を検出し電気信号に変換する音声成分検出部と、
    音声が発せられる際に同時に人の口から出る吐息成分を検出する吐息成分検出部と、
    この吐息成分検出部によって吐息成分が検出された場合にのみ前記音声成分検出部で変換された音声を有効な音声であると判定する有効音声判定部と
    を具備することを特徴とする音声処理装置。
  2. 前記吐息成分検出部は音声信号可聴域以下の圧力変動を検出する圧力変動検出部であることを特徴とする請求項1記載の音声処理装置。
  3. 前記吐息成分検出部は温度センサであることを特徴とする請求項1記載の音声処理装置。
  4. 前記有効音声判定部で有効な音声と判定された場合にのみ、前記音声成分検出部で検出し変換された電気信号を出力することを特徴とする請求項1記載の音声処理装置。
JP2005370140A 2005-12-22 2005-12-22 音声処理装置 Abandoned JP2007171637A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005370140A JP2007171637A (ja) 2005-12-22 2005-12-22 音声処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005370140A JP2007171637A (ja) 2005-12-22 2005-12-22 音声処理装置

Publications (1)

Publication Number Publication Date
JP2007171637A true JP2007171637A (ja) 2007-07-05

Family

ID=38298272

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005370140A Abandoned JP2007171637A (ja) 2005-12-22 2005-12-22 音声処理装置

Country Status (1)

Country Link
JP (1) JP2007171637A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016042162A (ja) * 2014-08-19 2016-03-31 大学共同利用機関法人情報・システム研究機構 生体検知装置、生体検知方法及びプログラム
CN105632522A (zh) * 2015-12-26 2016-06-01 北海鸿旺电子科技有限公司 自动切换音乐的方法及电子设备
JP2017173606A (ja) * 2016-03-24 2017-09-28 カシオ計算機株式会社 電子楽器、楽音発生装置、楽音発生方法及びプログラム

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60238899A (ja) * 1984-05-11 1985-11-27 松下電器産業株式会社 呼気流検出装置
JPS63163494A (ja) * 1986-12-26 1988-07-06 松下電器産業株式会社 インテンシテイ検出装置
JPH04181297A (ja) * 1990-11-16 1992-06-29 Seiko Epson Corp 音声認識装置
JPH04186400A (ja) * 1990-11-21 1992-07-03 Seiko Epson Corp 音声認識装置
JP2000276190A (ja) * 1999-03-26 2000-10-06 Yasuto Takeuchi 発声を必要としない音声通話装置
JP2005049876A (ja) * 2003-07-29 2005-02-24 Microsoft Corp ヘッドマウント型多感覚応用音声入力システム(headmountedmulti−sensoryaudioinputsystem)
JP2005520211A (ja) * 2002-03-05 2005-07-07 アリフコム ノイズ抑制システムと共に用いるための発声活動検出(vad)デバイスおよび方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60238899A (ja) * 1984-05-11 1985-11-27 松下電器産業株式会社 呼気流検出装置
JPS63163494A (ja) * 1986-12-26 1988-07-06 松下電器産業株式会社 インテンシテイ検出装置
JPH04181297A (ja) * 1990-11-16 1992-06-29 Seiko Epson Corp 音声認識装置
JPH04186400A (ja) * 1990-11-21 1992-07-03 Seiko Epson Corp 音声認識装置
JP2000276190A (ja) * 1999-03-26 2000-10-06 Yasuto Takeuchi 発声を必要としない音声通話装置
JP2005520211A (ja) * 2002-03-05 2005-07-07 アリフコム ノイズ抑制システムと共に用いるための発声活動検出(vad)デバイスおよび方法
JP2005049876A (ja) * 2003-07-29 2005-02-24 Microsoft Corp ヘッドマウント型多感覚応用音声入力システム(headmountedmulti−sensoryaudioinputsystem)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016042162A (ja) * 2014-08-19 2016-03-31 大学共同利用機関法人情報・システム研究機構 生体検知装置、生体検知方法及びプログラム
CN105632522A (zh) * 2015-12-26 2016-06-01 北海鸿旺电子科技有限公司 自动切换音乐的方法及电子设备
JP2017173606A (ja) * 2016-03-24 2017-09-28 カシオ計算機株式会社 電子楽器、楽音発生装置、楽音発生方法及びプログラム

Similar Documents

Publication Publication Date Title
US9230538B2 (en) Voice recognition device and navigation device
JP2008299221A (ja) 発話検知装置
KR20080026456A (ko) 음신호 처리 방법, 음신호 처리 장치 및 기록 매체
JP5077107B2 (ja) 車両用飲酒検知装置及び車両用飲酒検知方法
JP2006227499A (ja) 音声認識装置
JP6459330B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP2007288242A (ja) オペレータ評価方法、装置、オペレータ評価プログラム、記録媒体
WO2008007616A1 (fr) Dispositif, procédé et programme d'alarme relatif à une entrée de murmure non audible
WO2018216180A1 (ja) 音声認識装置および音声認識方法
JP2007171637A (ja) 音声処理装置
JP4752028B2 (ja) 音声中の非発話音声の判別処理方法
JP2005338454A (ja) 音声対話装置
JP6539940B2 (ja) 音声認識装置及び音声認識プログラム
JP2007267331A (ja) 発話音声収集用コンビネーション・マイクロフォンシステム
JPH02232697A (ja) 音声認識装置
JP2012155301A (ja) 状況認知型音声認識方法
JPS58181099A (ja) 音声識別装置
JP2010164992A (ja) 音声対話装置
Mishra et al. Automatic speech recognition using template model for man-machine interface
JP3588929B2 (ja) 音声認識装置
JP4635683B2 (ja) 音声認識装置および方法
KR20080061901A (ko) 로봇의 입출력 장치에 의한 효율적인 음성인식 방법 및시스템
JP2000039900A (ja) 自己診断機能付き音声対話装置
JP2008286921A (ja) キーワード抽出装置、キーワード抽出方法及びそのプログラム、記録媒体
JP2004233510A (ja) 音声処理方法および装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080922

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101026

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20101224