JP4713111B2

JP4713111B2 - 発話区間検出装置、音声認識処理装置、送信システム、信号レベル制御装置、発話区間検出方法

Info

Publication number: JP4713111B2
Application number: JP2004250792A
Authority: JP
Inventors: 宏幸真鍋; 明平岩; 宏樹林; 利明杉村; 俊雄三木
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2003-09-19
Filing date: 2004-08-30
Publication date: 2011-06-29
Anticipated expiration: 2024-08-30
Also published as: EP1517298B1; EP1517298A1; DE602004003443T2; JP2005115345A; CN1601604A; US7627470B2; US20050102134A1; DE602004003443D1; CN100361197C

Description

本発明は、騒音環境下や多数の人間が同時に話し合う場面などで生ずる際の音声認識処理における発話区間の検出に関する。

通常の音声検出装置では、発話における音声を音響信号として取り扱い、その音響信号を周波数分析することによって、音声情報を認識し処理する音声認識技術が採用されてきた。この音声認識技術を用いて、良好な音声検出結果をもたらすためには、検出した音声信号から如何に正確に発話内容を認識するかということと共に、対象とする発話者が発話しているのか否かを正確に検出すること（発話区間の検出）が重要となる。特に雑音環境下や多数の人間が同時に話し合う場面などにおいて音声認識を行う場合には、発話区間の検出が重要な課題となる。

なぜならば、ほとんど騒音のない環境においては、検出した音声信号のパワーを観察することにより、発話区間を簡単に検出することができるのに対して、雑音環境下では検出した音声信号に雑音が加わっているため、単純にパワーでは発話区間を検出することができないからである。発話区間が検出できなければ、その後に雑音に対して頑強ないかなる認識装置を用意していたとしても、音声を認識することはできない。

この発話区間の検出に対して、従来いくつかの研究が行われてきている。例えば、非特許文献１や、非特許文献２などがある。
これらの文献記載されている技術や、その他の従来技術においては、大きく分けて２つのアプローチがある。１つは音声信号のみから発話区間を検出しようとするものである。もう１つは音声信号だけでなく、非音声信号から発話区間を検出しようとするものである。
"マイクロフォンアレイとカルマンフィルタによる実環境下でのハンズフリー音声認識−対話型テレビのフロントエンドシステムの構築−"藤本雅清、有木廉雄、第４回ＤＳＰＳ教育者会議、ｐｐ.５５−５８、２００２−０８. "口周囲画像による頑強な発話検出"村井和昌、野間啓介、熊谷建一、松井知子、中村哲、情報処理学会研究報告「音声言語情報処理」Ｎｏ.０３４−０１３、２０００

上記２つのアプローチに関して、それぞれ課題がある。音声信号のみから試みた場合、検出精度は周囲の雑音の大きさや種類に大きく依存してしまうことが欠点となる。頑強でありかつ周囲の雑音の影響を全く受けない発話区間検出を実現するためには、後者の非音声信号から検出することが重要である。
しかし、非音声信号を用いた場合には、音声認識を行うためにマイクロフォン以外の他のセンサを設置しなければならないことが問題として挙げられる。例えば非音声信号として画像を用いた場合には、口唇部が常に視界に入るようにカメラを設置しなければならず、さらにカメラの視野の中で口唇部が常に一定の位置にあることが必要となる。しかしそのようにカメラを設置することは実用上非常に困難である。またそれだけでなく、口唇部の画像から発話区間を検出するためには、画像認識技術が必要となる。

一般に画像認識技術には莫大な演算量が必要である。雑音環境下で音声認識を行う場合には、例えば携帯電話のような携帯型端末を利用しながら行うことが一般的であると考えられる。しかしそのような携帯型端末では計算能力が画像処理を行うのに十分であるとは言えず、上記の課題と同様に実用上非常に困難である。
そこで本発明は、非音声信号である筋電信号から発話区間を検出することで、非音声信号を検出するためのセンサ設置の課題、演算量の課題を解決できる発話区間検出装置、発話区間検出方法の提供を目的としている。また、本発明は、上記発話区間検出装置を利用した音声認識処理装置、送信システム、信号レベル制御装置の提供をも目的としている。

本発明の請求項１による発話区間検出装置は、発話者の発話中における筋電信号を検出する筋電信号検出手段と、前記筋電信号検出手段によって検出された筋電信号に基づいて発話区間を検出する発話区間検出手段と、前記筋電信号の振幅値と所定閾値との比較結果をカウントするカウンタとを含み、前記発話区間検出手段は、前記カウンタのカウント値が前記所定閾値を超えた場合に限り、発話区間であると判定することを特徴とする。この構成によれば、筋電信号に基づいて発話区間を検出することが可能となる。また、この構成によれば、なんらかの原因によって筋電信号に瞬間的な大きな振幅が含まれてしまった場合でも、発話区間を正しく判定できる。従って、周囲の雑音状況によらず、発話区間を検出できるようになり、雑音環境下における音声認識が可能となる。

本発明の請求項２による発話区間検出装置は、請求項１において、前記筋電信号検出手段は、前記発話者が発話中に使用する端末の筐体において、前記発話者の発話中に該発話者の皮膚と接触する部分に設けられている電極から、前記筋電信号を検出することを特徴とする。この構成によれば、発話者が使用する端末を利用し、発話者の皮膚表面に電極を接触させるだけで筋電信号を検出できる。

本発明の請求項３による発話区間検出装置は、請求項１又は２において、前記発話区間検出手段は、前記筋電信号の振幅値と所定閾値とを比較することで前記発話区間の発話開始タイミング及び発話終了タイミングを検出することを特徴とする。この構成によれば、発話者の発話時の筋肉活動に伴い筋電信号には大きな振幅が現れるので、これを捉えることで発話区間すなわち発話開始タイミング及び発話終了タイミングを検出できる。

本発明の請求項４による発話区間検出装置は、請求項１から請求項３までのいずれか１項において、前記発話者の発話音声信号を保存するための記憶手段を更に含み、前記発話開始タイミングで前記発話音声信号の保存を開始し、前記発話終了タイミングで前記発話音声信号の保存を終了するようにしたことを特徴とする。この構成によれば、本装置と音声認識装置との独立性を高めることができ、一般的な音声認識装置を特に改変することなく、本装置と組み合わせて利用することができる。

本発明の請求項５による音声認識処理装置は、発話音声信号について音声認識処理を行う音声認識処理装置であって、請求項１から請求項３までのいずれか１項に記載の発話区間検出装置によって検出された発話区間に対応する発話音声信号について音声認識処理を行う音声認識処理手段を含むことを特徴とする。この構成によれば、雑音の影響を受けずに発話区間を検出し、音声認識精度の向上が図れる。

本発明の請求項６による音声認識処理装置は、発話音声信号について音声認識処理を行う音声認識処理装置であって、請求項４に記載の発話区間検出装置によって前記記憶手段に記憶された発話音声信号について音声認識処理を行う音声認識処理手段を含むことを特徴とする。この構成によれば、雑音の影響を受けずに発話区間を検出し、音声認識精度の向上が図れる。

本発明の請求項７による送信システムは、発話区間に対応する発話音声信号について符号化処理を行い、符号化された音声信号を送信する送信システムであって、請求項１から請求項４までのいずれか１項記載の発話区間検出装置によって検出される発話区間に基づいて、前記符号化処理のタイミングを決定する符号化処理タイミング決定手段を含むことを特徴とする。この構成によれば、発話区間を検出することによって、不必要な通信を行わずに済み、消費電力を低減できる。

本発明の請求項８による信号レベル制御装置は、マイクロフォンによって導出される出力信号のレベルを制御する信号レベル制御装置であって、請求項１から請求項４までのいずれか１項記載の発話区間検出装置によって検出される発話区間に基づいて、前記出力信号のレベルを制御する制御手段を含み、非発話区間に対応する音声を出力しないように制御することを特徴とする。この構成によれば、検出した発話区間に応じて、マイクロフォンによって導出される出力信号のレベルを制御することで、発話区間に対応する音声のみを出力することができる。例えば、マイクロフォンの電源スイッチをオンオフする、マイクロフォンのゲインを変化させる、スピーカからの出力を変化させるなど、非発話区間に対応する音声を出力しないように制御する。

本発明の請求項９による発話区間検出方法は、発話者の発話中における筋電信号を検出する筋電信号検出ステップ（図４中のステップＳ４１に対応）と、前記筋電信号検出ステップにおいて検出された筋電信号に基づいて発話区間を検出する発話区間検出ステップ（図４中のステップＳ４２〜Ｓ４４に対応）と、前記筋電信号の振幅値と所定閾値との比較結果をカウントするカウントステップとを含み、前記発話区間検出ステップにおいては、前記カウントステップのカウント値が前記所定閾値を超えた場合に限り、発話区間であると判定するようにしたことを特徴とする。この構成によれば、筋電信号に基づいて発話区間を検出することが可能となる。また、この構成によれば、なんらかの原因によって筋電信号に瞬間的な大きな振幅が含まれてしまった場合でも、発話区間を正しく判定できる。従って、周囲の雑音状況によらず、発話区間を検出できるようになり、雑音環境下における音声認識が可能となる。

本発明によれば、携帯型端末などに設けられている電極を皮膚に押し当てるという非常に簡易な方法によって、周囲の雑音の影響を受けることなく、発話区間を検出することができる。これにより、雑音環境下における音声認識の認識精度の向上が期待できる。また、発話区間を検出することによって、不必要な通信を行わずに済み、消費電力を低減できる。さらに、検出した発話区間に応じて、マイクロフォンによって導出される信号レベルを制御することで、発話区間に対応する音声のみを出力することができる。

以下、本発明の実施の形態を、図面を参照して説明する。なお、以下の説明において参照する各図においては、他の図と同等部分に同一符号が付されている。

（全体の構成）
図１は本発明による発話区間検出装置の主要部分の構成を示すブロック図である。本発明による発話区間検出装置１は、筋電信号検出部１１と、筋電信号処理部１２と、発話区間検出部１３と、発話区間通知部１４とを含んで構成されている。

同図において、筋電信号検出部１１は、発話者の発話時の筋電信号を検出する。この筋電信号検出部１１は、後述する皮膚表面電極を含んで構成されている。すなわち、発話時に活動する筋肉の直上の皮膚表面に接触している皮膚表面電極を介して筋電信号を検出する。より具体的な電極の配置などについては後述する。
筋電信号処理部１２では、筋電信号検出部１１で検出された筋電信号を増幅する。また、筋電信号処理部１２は、ノイズ除去や所望の信号を効率よく導き出すことを目的として、ローパスフィルタやハイパスフィルタなどで筋電信号を処理する。さらに発話区間検出部１３で必要とされるパラメータを算出する。

発話区間検出部１３では、筋電信号処理部１２で算出されたパラメータを基に、発話区間の開始点及び終了点を検出する。
発話区間通知部１４では、発話区間検出部１３で検出された発話区間の開始点及び終了点を、後に続く音声認識アルゴリズムに対して通知し、音声認識を行うように通知する。なお、発話区間通知部１４によって通知される、発話区間の開始点及び終了点を用いて音声認識処理する音声認識アルゴリズムは、特に限定されるものではなく、どのようなアルゴリズムであってもよい。

以上の構成によれば、筋電信号に基づいて発話区間を検出することが可能となる。従って、周囲の雑音状況によらず、発話区間を検出できるようになり、雑音環境下における音声認識が可能となる。

（基本原理）
図２には、本発明の基本原理である、筋電信号と音声信号との関係が示されている。同図において、横軸は時間（秒）、縦軸は振幅である。

同図には、日本語の母音である「あいうえお」を繰り返し発声した際に、発話者の頬部から測定した皮膚表面筋電信号と、同時に測定した音声信号とが示されている。同図の上部には筋電信号Ｋが、下部には音声信号Ｓが、それぞれ示されている。
ここで注日すべきことは、音声信号Ｓと筋電信号Ｋとが同期しているということである。より具体的に述べれば、約１.５秒〜３.２秒までの間、発話者は「あいうえお」と発声しており、それに相当する大きな振幅の音声信号が観測されている。それに対して、筋電信号でも同様にその区間に大きな振幅が観測されている。

これは、約４.７〜６.３秒の間に発声された「あいうえお」についても同様であり、さらに約８〜９.５秒の間に発声された「あいうえお」についても同様である。それ以外の区間は、話者は声を発しておらず、周囲の雑音が混入している状態である。
本発明は、図２に示されているように、音声信号と筋電信号とが同期しているのを、発明者が見出したことからなされたものである。また、発声した内容が「あいうえお」だけでなく、他の内容であっても図２に示されているように、音声信号と筋電信号とは同期していることがわかった。要するに、発話者の発話時の筋肉活動に伴い、筋電信号には大きな振幅が観測されるので、これを観測することで、発話区間を検出することができる。

また、図２に示されている音声信号及び筋電信号は、周囲の雑音がそれほど大きくない状況下（通常のオフィス内）で測定したものである。周囲の雑音レベルが大きな状況で同様な実験を行えば、音声信号には周囲の騒音が重畳する。これに対し、筋電信号には全く影響がないというメリットがある。

（発話区間の検出処理）
以下では、具体的に発話区間を検出する処理について説明する。
図３には、筋電信号について発話区間を検出するための処理の一例が示されている。図３は、図２に示されている筋電信号から二乗平均平方（ＲｏｏｔＭｅａｎＳｑｕａｒｅ；以下、ＲＭＳと略称する）を算出し、それを時系列に表示したものである。同図において、横軸は時間（秒）、縦軸はＲＭＳ値（ＲＭＳｖａｌｕｅ）である。ＲＭＳ値の算出は、フレーム周期２０ｍｓ、フレーム長５０ｍｓとして行った。

この図３を参照すればわかるように、発声時には非発声時に比べて明らかに大きな値となっている。同図においては、非発声時における筋電信号のＲＭＳ値が０.０１程度である。このことから、例えば「０.０２」なり、「０.０３」なりといった閾値を設定し、ＲＭＳ値と比較することにより、発話区間を検出することが可能となる。すなわち、設定した閾値を超えていれば発話区間として検出でき、その閾値を下回れば非発話区間として検出できる。

（発話区間の判定処理）
図４は、筋電信号についての発話区間の判定処理を示すフローチャートである。

同図において、まず、上記閾値を事前に設定しておく（ステップＳ４０）。そして、筋電信号の測定を開始する（ステップＳ４１）。次に、測定した筋電信号から順次ＲＭＳ値を算出する（ステップＳ４２）。その際のフレーム周期、フレーム長は、それぞれ２０ｍｓ、６０ｍｓとすることも可能である。また、それ以外の値を用いてもよい。
そして事前に設定された閾値を元に、その閾値を超えているか、超えていないかを判定する（ステップＳ４３）。もし閾値を超えていれば、その区間を発話区間として判定する（ステップＳ４４）。一方、閾値を超えていなければ、その区間を非発話区間として判定する（ステップＳ４５）。以上の処理は繰返し行われる。

なお、同図は、筋電信号からＲＭＳ値を算出した場合についての処理を示すフローチャートであるが、本発明は必ずしもＲＭＳを用いる必要はない。すなわち、測定された筋電信号から抽出される各種の特徴量を利用すれば良い。例えば、平均相対変動値（ＡＲＶ）や、測定された筋電信号の絶対値を時間積分した積分値筋電信号（ＩｎｔｅｇｒａｔｅｄＥｌｅｃｔｒｏＭｕｓｃｌｅＧｒａｐｈｙ；ｉＥＭＧ）、筋電信号の周波数スペクトルなどを用いてもよい。

さらにはある閾値との交差数を図４のＲＭＳの代わりに用いることも可能である。すなわち、測定された筋電信号に対して、予め設定された閾値（例えば，１０[ｍＶ]）を超えている箇所をカウントし、このカウント値を用いても良い。例えば、測定された筋電信号のサンプリング値が１，５，１２，８，−２[ｍＶ]である場合、閾値が１０[ｍＶ]であれば交差数のカウント値は「１」になる。閾値が６[ｍＶ]であれば交差数のカウント値は「２」になる。このように予め設定された閾値をとの交差数をＲＭＳの代わりに用いても上記と同様に処理することができる。

なお、筋電信号についてのサンプリング周波数は、例えば２０００Ｈｚとする。
以上のように、筋電信号の振幅値と所定閾値とを比較することで、発話区間の発話開始タイミング及び発話終了タイミングを検出できる。要するに、発話者の発話時の筋肉活動に伴い筋電信号には大きな振幅が現れるので、これを捉えることで発話区間すなわち発話開始タイミング及び発話終了タイミングを検出できるのである。

（判定処理の変形例）
また、図４に示されているフローチャートに、図５に示されているフローチャートを加えることも可能である。図４に示されているフローチャートでは、なんらかの原因によって筋電信号に瞬間的な大きな振幅が含まれてしまった場合に、その区間だけはたとえ非発話区間であったとしても、それを発話区間として判定してしまうという問題がある。そのような短時間での変動による影響を低減するために、図４のフローチャート中のステップＳ４３〜Ｓ４５の代わりに、図５に示されているフローチャートを加えることが可能である。

図５では、「状態」とは発話区間と非発話区間との２種類を意味している。つまり、例えば非発話区間（もしくは発話区間）として判定されるためには、直前に非発話区間（もしくは発話区間）が複数回判定されている必要があるようにしたものである。そのためには、図６に示されているように、図１の構成にカウンタ１５を追加し、非発話区間（もしくは発話区間）の持続回数をカウントする。そして、そのカウンタの値を予め設定された閾値と比較し、閾値を超えたときに初めてそれを非発話区間（もしくは発話区間）として確定する。なお、複数回判定のための周期は、例えば２０Ｈｚとすれば良い。

図４のステップＳ４２において筋電信号のＲＭＳ値を算出した後、図５に移行し、最初にカウンタのカウント値をリセットする（ステップＳ５１）。そして、上述した状態が変わっていなければ、カウンタのカウント値をインクリメントする（ステップＳ５２→Ｓ５３）。インクリメントした結果、カウンタのカウント値が予め設定された閾値を超えていなければ、引き続きカウント値をインクリメントする（ステップＳ５４→Ｓ５２）。

一方、インクリメントした結果、カウンタのカウント値が予め設定された閾値を超えた場合、その状態を確定し、発話区間もしくは非発話区間と判定する（ステップＳ５４→Ｓ５５）。
なお、ステップＳ５２において、状態が変わった場合には、カウンタのカウント値をリセットし（ステップＳ５２→Ｓ５１）、引き続き処理が継続される。

ところで、以上説明した図５に示されているフローチャートを追加した場合、実際の発話開始点(もしくは発話終了点)に対して、判定した発話開始点（もしくは発話終了点）の方が時間的に遅くなってしまうという問題点がある。しかし、図４及び図５を用いて発話区間を確定した後に、上記のカウンタのカウント値と比較する閾値に相当する時間で補正することにより、実際の発話開始点と発話終了点とを検出することができる。

例えば、時刻「０」の時にカウント値がインクリメント開始された場合（それ以前は非発話区間）、その時点では発話区間とは判定しない。そして、時刻「１」、「２」、「３」、…とインクリメントされ、カウント値が閾値である「ｎ」に達した場合に初めて発話区間であると判定されることになる。このため、発話区間であると判定されるのは、カウント値「ｎ」に対応する時刻であるが、実際に発話が開始されたのは時刻「０」である。このため、カウント値「０」から「ｎ」までに相当する時間で補正すれば、正しい発話開始点と発話終了点とを検出することができる。

さらに図５に示されているフローチャートを採用すれば、図２に示されているように、一連の発話区間においても筋電信号が非常に小さなレベルになってしまう問題に対応できるというメリットがある。
つまり、図２において約２秒、約２.５秒付近に筋電信分の振幅が小さく落ち込んでいる現象が確認できる。図４のフローを用いた場合には、その部分は非発話区間として扱われることになる。しかし、図５のフローチャートを付加することによって、この部分を非発話区間として判定するのではなく、発話区間として扱うことができるようになる。

（発話区間検出方法）
以上説明した発話区間検出装置においては、以下のような発話区間検出方法が採用されている。すなわち、発話者の発話中における筋電信号を検出する筋電信号検出ステップ（図４中のステップＳ４１に対応）と、前記筋電信号検出ステップにおいて検出された筋電信号に基づいて発話区間を検出する発話区間検出ステップ（図４中のステップＳ４２〜Ｓ４４に対応）とを含み、前記発話区間検出ステップにおいて検出された発話区間に関する情報を通知するようにした発話区間検出方法が採用されている。この構成によれば、筋電信号に基づいて発話区間を検出することが可能となる。従って、周囲の雑音状況によらず、発話区間を検出できるようになり、雑音環境下における音声認識が可能となる。

以下、本発明による発話区間検出装置を携帯型端末に適用した例について説明する。
（使用例）
図７には本発明による発話区間検出装置を採用した携帯型端末の使用例が示されている。同図では、携帯電話機のような携帯型端末を利用してコミュニケーションを行っている場面を想定している。

同図中の破線で示されているように、携帯型端末１ａには、筋電信号検出用皮膚表面電極１０ａ及び１０ｂと、マイクロフォン２０とが設けられている。筋電信号検出用皮膚表面電極１０ａ及び１０ｂは、発話者であるユーザ１００の顔の皮膚と接触する側に設けられている。このため、携帯型端末１ａの使用中は、一対の筋電信号検出用皮膚表面電極１０ａ及び１０ｂがそれぞれ接触している皮膚から筋電信号を検出できることになる。

なお、同図に示されている携帯型端末１ａは、ヒンジ２１が設けられた、いわゆる折りたたみ型の端末である。ヒンジ２１が設けられていない端末であっても本発明が適用できることはもちろんである。
ところで、携帯電話などの携帯型端末を利用してコミュニケーションを行う場合、その端末のマイクロフォンは口周辺に位置し、スピーカは耳周辺に位置することは今後も変わることがない事実であると考えられる。

その点において、現状の携帯電話端末は今後、小型化することはあったとしても、その形状が大きく変わることはないと考えられる。そこで重要なことは、携帯型端末、特に携帯電話端末のように会話することを目的とする端末は、その端末を皮膚に接触させながら利用するということである。このことはつまり、皮膚表面電極を違和感無く皮膚と接触することが可能であることを示している。

従来技術のようにカメラを用いて発話区間を検出する場合には、その目的のためだけに、所望の位置にカメラやセンサを設置しなければならない。これに対して、筋電信号を用いる場合には通常利用している形態、つまり携帯型端末を皮膚に接触させて利用する形態、を損なうことなく、さらにそれ以上の操作、それ以上にセンサを設置することなく、発話区間を検出することができるのである。
要するに、携帯型端末などは、皮膚に押し当てて利用されることが普通に行われるので、この利用形態と本発明とは親和性が非常に高い。

（電極の配置）
図８には電極の配置例が示されている。同図には携帯型端末に筋電信号検出用皮膚表面電極を設けた場合の例が示されている。同図（Ａ）に示されている例では、大きめの皮膚表面電極１０ｃ及び１０ｄが携帯型端末１ａに設けられている。これら皮膚表面電極１０ｃ及び１０ｄは、それぞれ例えば２ｃｍ×３ｃｍほどの大きさの平板電極である。皮膚表面電極１０ｃは例えばユーザの頬部分に、皮膚表面電極１０ｄは例えばユーザの口元部分に、それぞれ接触することになるので、これら一対の電極により、筋電信号を検出することができる。

また、同図（Ｂ）に示されている例では、針状の皮膚表面電極１０ｅ及び１０ｆが携帯型端末１ａに設けられている。これら皮膚表面電極１０ｅ及び１０ｆは、それぞれ例えば直径１ｍｍほどの針状電極である。これら皮膚表面電極１０ｅ及び１０ｆは、例えばユーザの頬部分に接触することになるので、これら一対の電極により、筋電信号を検出することができる。

以上説明した皮膚表面電極は例示にすぎず、筋電信号を検出するための一対の電極を携帯型端末１ａの筐体に設ければ良く、その形状は問わない。ただし、携帯型端末１ａの筐体のうち、発話者の発話中にその発話者の皮膚と接触する部分に設けられている必要がある。なお、上記皮膚表面電極を介して得られる筋電信号を測定する回路の構成は周知であるので、その説明は省略する。

（動作例）
図９は本発明による発話区間検出装置を採用した携帯型端末の動作の一例を示すフローチャートである。

同図において、まずユーザは携帯型端末を皮膚に接触させる。この接触の後に、皮膚と接触した筋電信号検出用皮膚表面電極を介して筋電信号を検出する（ステップＳ８１）。
ユーザが発話を開始すると、口周辺の筋肉が活動するため検出した筋電信号には非発話時（発話を行っていない状態、通常の音声認識における無声区間）に比べて大きな振幅が観察される。この大きな振幅を検出することにより、発話開始点を検出する（ステップＳ８２）。

また、発話が終了すると、検出された筋電信号の振幅が小さくなる。この振幅が小さくなる点を検出することにより、発話終了点を検出する（ステップＳ８３）。
次に、検出した発話開始点及び発話終了点を、外部に通知する（ステップＳ８４）。これにより、後に続く音声認識アルゴリズムなり、音声認識装置へと通知し、音声認識の開始を促す。

以上の動作が繰返し行われる（ステップＳ８５）。
また、図１０は本発明による発話区間検出装置を採用した携帯型端末の動作の他の例を示すフローチャートである。図１０の動作が図９の動作と異なる点は、発話開始点を検出した際に、すぐさまその旨を認識アルゴリズムなり、音声認識装置なりに通知する点である。

同図において、まずユーザは携帯型端末を皮膚に接触させる。この接触させた後に、皮膚と接触した筋電信号検出用皮膚表面電極を介して筋電信号を検出する（ステップＳ９１）。
ユーザが発話を開始すると、口周辺の筋肉が活動するため検出した筋電信号には非発話時に比べて大きな振幅が観察される。この大きな振幅を検出することにより、発話開始点を検出する（ステップＳ９２）。この発話開始点の検出に応答して、その検出した旨を外部に通知する（ステップＳ９３）。

また、発話が終了すると、検出された筋電信号の振幅が小さくなる。この振幅が小さくなる点を検出することにより、発話終了点を検出する（ステップＳ９４）。この発話終了点の検出に応答して、その検出した旨を外部に通知する（ステップＳ９５）。以上の動作が繰返し行われる（ステップＳ９６）。
以上のように、検出した発話開始点及び発話終了点を、外部に通知することにより、後に続く音声認識アルゴリズムなり、音声認識装置へと通知し、音声認識の開始を促す。

この図１０に示されているフローチャートによる動作では、音声認識アルゴリズムや音声認識装置による音声認識処理と、発話区間の検出処理とを独立に動作させることができる。別な言い方をすれば、図９に示されているフローチャートの場合には、音声認識アルゴリズムや音声認識装置と発話区間の検出処理とが密接に関わりあう必要があるのに対し、図１０に示されているフローチャートの場合にはそれらを独立に動作させることができる。

さらに、図１１は本発明による発話区間検出装置を採用した携帯型端末の動作のさらに他の例を示すフローチャートである。図１１に示されているフローチャートでは、図９、図１０に示されているフローチャートよりも、音声認識アルゴリズムや音声認識装置からの独立性がより高まっている。
すなわち、まずユーザは携帯型端末を皮膚に接触させる。この接触させた後に、皮膚と接触した筋電信号検出用皮膚表面電極を介して筋電信号を検出する（ステップＳ１０１）。

ユーザが発話を開始すると、口周辺の筋肉が活動するため、検出された筋電信号には非発話時に比べて大きな振幅が観察される。この大きな振幅を検出することにより、発話開始点を検出する（ステップＳ１０２）。この発話開始点の検出に応答して、音声信号の音声信号データベースＤＢへの保存が開始される（ステップＳ１０３）。
また、ユーザの発話が終了すると、検出された筋電信号の振幅が小さくなる。この振幅が小さくなる点を検出することにより、発話終了点を検出する（ステップＳ１０４）。この発話終了点の検出に応答して、音声信号データベースＤＢへの保存が終了となる（ステップＳ１０５）。この終了後、音声信号データベースＤＢに保存されている音声信号データが音声認識アルゴリズムなど、外部に通知される（ステップＳ１０６）。

以上のように、図１１に示されているフローチャートにおいては、筋電信号を用いて発話開始点及び発話終了点を検出し、それに応じた発話区間の音声信号データが音声信号データベースＤＢに保存される。そして保存された音声信号データを認識アルゴリズムや音声認識装置へと伝達する。
このように動作することにより、一般的な音声認識アルゴリズムや音声認識装置を特に改変することなく、本発明の発話区間検出装置を採用した携帯型端末とそれらとを組み合わせて利用することができるようになる。音声認識装置との組合せについては、後述する。

（発話区間検出装置のまとめ）
本発明による発話区間検出装置を携帯電話端末に適用した場合、図１２に示されているような構成となる。すなわち、発話区間検出装置１と、通信制御部２とを含んで携帯型端末１ａが構成される。そして、発話区間検出装置１から通知される発話区間に関するデータに基づいて、通信制御部２が音声認識処理を行う。通信制御部２は第２世代携帯電話通信、第３世代携帯電話通信あるいはそれ以上の世代の携帯電話通信を実現するものでも良く、その構成は問わない。

なお、通信制御部２には、マイクロフォン２０、スピーカＳＰ、表示部Ｄ、アンテナＡＮＴが接続されている。
発話区間検出装置１と、通信制御部２との独立性を高めた上記図１１の構成を採用した場合は、図１３に示されているように、発話区間検出装置１と、通信制御部２との間に、上述した音声信号データベースＤＢが設けられることになる。そして、この音声信号データベースＤＢに音声信号データを保存することで、発話区間検出装置１から通信制御部２に音声信号データが受け渡されることになる。

（送信システムへの応用）
上述した発話区間検出装置は、発話区間に対応する発話音声信号について符号化処理を行い、符号化された音声信号を送信する送信システムに適用することができる。以下、このことについて、説明する。

携帯電話機などの携帯型通信端末には、大容量のバッテリを搭載することができない。したがって、携帯型通信端末で連続使用時間を長くするためには、バッテリ寿命の向上を図る必要がある。そのため携帯電話機では、有音／無音をＶＡＤ（ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｏｒ）を用いて判定している。そして、音声がない区間では、極端に少ない情報量を送信するか、もしくは送信を停止する間欠送信が行われている。間欠送信は、携帯電話機のバッテリ寿命の向上や干渉の低減などに有効である。この点については、仲、大矢、三枝、濱による文献“モバイルマルチメディア信号処理技術特集音声符号化技術”、ＮＴＴドコモテクニカルジャーナル、Ｖｏｌ．８、Ｎｏ４、ｐｐ２５−３３、２００１に記載されている。

ＶＡＤによる効果は、それだけでなく、現在商用化されている第３世代携帯電話サービスなどに用いられている方式であるＣＤＭＡ（ｃｏｄｅｄｉｖｉｓｉｏｎｍｕｌｔｉｐｌｅａｃｃｅｓｓ）等においては、通信チャンネルを有効活用する効果もある。すなわち、無音区間に送信する情報を削減することで、通信チャネルを他のユーザに割り振ることができるようになり、通信チャネルを有効活用できる。

ＶＡＤは検出した音声信号のパワーやピッチ、トーンなどを抽出し、発話区間を検出する方法である。携帯電話機に適用されるＶＡＤは、具体的には３ＧＰＰＴＳ２６．０９４で規定されている。また、音声信号は、２０ｍｓや４０ｍｓなどのフレーム毎に符号化され、送信されている。
しかし、ＶＡＤでは音声信号を用いて発話区間を検出しているため、実際の発話が行われた後に発話が開始されたと判定することになる。すなわち、原理上、ＶＡＤによって発話開始が判定される時刻は、実際の発話開始時刻よりも遅くなってしまう。ＶＡＤが行われるフレームは、符号化のフレームと同一なものが用いられている。そして、ＶＡＤによる判定はそのフレーム長に対応する時間が経過し、さらにその判定のための処理を行った後に行われる。そのため、符号化を行う時刻は、ＶＡＤによる判定の後となってしまい、遅延が生じるという課題があった。

例えば、発話の開始時刻が、あるフレームの先頭と一致した場合、発話開始時刻と判定する時刻までには最低でも２０ｍｓ（用いるフレーム長に対応する時間と一致）が必要である。さらに、それに加えてＶＡＤの判定処理時間分の遅延が発生する。携帯電話機を用いた音声通話のようにリアルタイムのコミュニケーションにおいては、遅延は小さいほど良いため、ＶＡＤによる遅延は小さい方が望ましい。

さらに発話開始時刻が、あるフレームの中盤や後半に入ってしまうと、その真の発話開始時刻を含むフレームでは無音区間と有音区間とが混在することになる。例えば、図１４には、音声信号Ｓと、ＶＡＤが行われるフレーム列Ｂと、符号化フレーム列Ｃとが示されている。ＶＡＤが行われるフレーム列Ｂについては、斜線が付されているフレームは無音区間と判定され、斜線が付されていないフレームは有音区間と判定される。符号化フレーム列Ｃについては、網かけされているフレームは低ビットレートで符号化され、網かけされていないフレームは高ビットレートで符号化される。高ビットレートで符号化されたフレームについては高い品質で送受信されるが、低ビットレートで符号化されたフレームについては低い品質で送受信されることになる。

同図に示されているように、真の発話区間の発話開始時刻が、ＶＡＤが行われるフレーム列Ｂのうち、フレームＦの中盤に位置している。このため、そのフレームＦは、同図に示されているように、無音区間と判定される可能性がある。したがって、この場合、判定される発話開始点は、実際の発話開始点よりも遅くなってしまう。この結果、実際の発話先頭のデータが欠落するという問題がある。

また、図１４に示されているように、音声信号Ｓは通常、発話開始から突然大きな振幅が観測されるわけではなく、徐々に振幅が大きくなるという特徴を持つ。そのため、発話先頭を正しく検出することは難しい。音声信号として検出するための閾値を下げれば、それを検出しやすくなるが、周囲の雑音による誤検出の可能性が高まってしまう。このため、ある程度閾値を高く設定する必要がある。そのようにすると、振幅の小さな発話先頭を正しく捉えることは困難である。特に、雑音環境下においては、正確に発話先頭を検出することが困難である。発話音量が小さい時には、音声信号が雑音に埋もれてしまい、ＶＡＤを用いて発話を検出することが困難になるためである。以上の理由のことにより、実際の発話先頭に対応するフレームが、無音区間と判定されてしまい、発話先頭の欠落や、通話品質の劣化などの問題が生じてしまっていた。

さらに、雑音環境下においては、ユーザは発声していないのにもかかわらず（すなわち本来は無音区間と判定すべき区間）、周囲の雑音の影響を受けて有音区間と判定してしまうという課題があった。このため、不必要に情報を送信しなければならず、携帯電話機のバッテリ寿命を短くし、かつ、不必要に通信チャネルを使ってしまうという問題があった。

ところで、遅延が許容されるのであれば、音声信号のみで発話区間を検出する方法でも問題はない。後から波形を見直して、発話開始点を特定すれば良いからである。しかし携帯電話機を用いた音声通話では、リアルタイムなコミュニケーションが重要であり、遅延は極力小さくする必要がある。遅延を小さくするために例えば、ＶＡＤを用いず、無音・有音区間にかかわらずに、音声信号を常に高いビットレートで送信すれば、遅延を小さくすることは可能である。しかし、携帯電話機の電池の寿命を向上させ、通信チャネルの有効活用を行う必要があるため、ＶＡＤを用いない方式は現実的な解決策にはなり得ない。そのため、発話先頭の欠落、通話品質の劣化を防ぐためには、発話区間の判定を、実際の発話開始時刻よりも前に行う必要がある。また、不必要な通信を行わないために、雑音環境下においても正しく発話区間を検出する必要があり、周囲の雑音の影響を受けない方法を用いて発話区間を検出することが望ましい。

ここで、筋電信号は、音声信号に先行して観測されることが一般に指摘されている。筋電信号を実際に観測した例が図１５に示されている。同図は、「ｎａｎａ」と発生した場合の音声信号Ｓ及び筋電信号Ｄを示す波形図である。同図を参照すると、音声信号Ｓに時間ｔだけ先行して、筋電信号Ｄが観測されていることが分かる。
図１６は、筋電信号と音声信号との発生タイミングのフローを示す図である。同図に示されているように、発話運動の命令が脳から筋肉に伝達されると（ステップＳ２０１）、先に筋電信号が発生し（ステップＳ２０２）、筋肉の収縮が開始する（ステップＳ２０３）。そして、音の生成が開始される（ステップＳ２０４）。これにより、発話が開始されることになる。

筋電信号に対する発話区間の検出タイミングと、携帯電話機側の処理タイミングとが図１７に示されている。同図を参照すると、発話する人間側のメカニズムのうち、筋電信号の発生（ステップＳ２０２）を経て音の生成開始（ステップＳ２０４）までは無音区間、音の生成開始（ステップＳ２０４）以降は有音区間、である。
発話区間検出装置側では、無音区間において、筋電信号の測定及び発話開始検出のルーチン処理を行い（ステップＳ２０５）、筋電信号の発生を検出することにより、発話開始を検出し、発話開始を携帯電話機側に通知する（ステップＳ２０６）。その後、発話区間検出装置は発話終了を検出するためのルーチン処理に移行する。発話終了についても、筋電信号によって検出することができる。

携帯電話機側では、無音区間においては間欠送信が行われる（ステップＳ２０８）。その後、発話区間検出装置から発話開始が通知されると、携帯電話機側では符号化パラメータが変更され（ステップＳ２０９）、その後の有音区間においては連続送信が行われる（ステップＳ２１０）。
なお、筋電信号は、周囲の雑音の影響を受けずに測定することが可能である。このことから、筋電信号を用いて発話区間を検出すれば、周囲の雑音の影響を受けずに、発話区間の判定を実際の発話開始時刻よりも前に行うことが可能となる。

図１８（Ａ）にはＶＡＤのみを用いて発話区間を検出する場合の構成、同図（Ｂ）にはＶＡＤと筋電信号とを用いて発話区間を検出する場合の構成が示されている。同図（Ａ）は従来手法に相当し、音声信号を入力とし、ビットストリームを出力する符号化器２１０の符号化のタイミングを、ＶＡＤ部２２０による発話区間の検出結果によって決定している。一方、同図（Ｂ）は本発明による手法であり、符号化器２１０の符号化のタイミングを、ＶＡＤ部２２０による発話区間の検出結果のみならず、筋電信号を用いた発話区間検出装置２３０による発話区間の検出結果によって決定している。このように発話区間を検出することによって、不必要な通信を行わずに済み、消費電力を低減できる。

ところで、筋電信号に基づいた発話区間検出と音声信号に基づいた発話区間検出とを組み合わせることにより、より頑強に発話区間を検出することも可能である。例えば、発話はしていないが、あくびをする、咳をする、口を動かすなどの動作を行った場合、筋電信号のみを用いた方法では、それを発話区間として検出してしまう可能性がある。そこで、周囲の雑音の影響を受けない筋電信号と、発話にはつながらない動作の影響を受けない音声信号とを組み合わせることにより、より頑強に発話区間を検出することが可能である。すなわち、図１９に示されているように、筋電信号に基づく発話区間検出処理（ステップＳ２１１）と、音声信号に基づく発話区間検出処理（ステップＳ２１２）とを、統合処理する（ステップＳ２１３）ことによって、最終的な発話区間検出結果出力を得る（ステップＳ２１４）。

統合処理する場合、音声信号に基づく発話区間検出は、３ＧＰＰＴＳ２６．０９４で規定されているＶＡＤを用いることが可能である。また、筋電信号に基づく発話区間検出と音声信号に基づく発話区間検出とを統合する際には、２つの方法がある。
第１の方法は、それぞれが検出した有音／無音の検出結果を元に最終的な検出結果を得る方法である。この場合は、例えば両者の結果が有音の場合のみを最終的に有音と判定することや、少なくとも一方が有音と判定した場合を最終的に有音と判定するなどの方法がある。

第２の方法は、それぞれが検出した信号を処理する段階で得られるパラメータを元に最終的な検出結果を得る方法とがある。このパラメータは、判定対象の区間が有音である確率や尤度などに相当するパラメータであり、このパラメータに対して閾値処理を行って発話区間を検出する。例えば筋電信号の場合、ＲＭＳなどがこのパラメータである。
また、この第２の方法の場合、両者のパラメータに重みをかけて足し算し、その結果得られたパラメータに対して閾値処理を行う方法や、両者のパラメータをかけ算し、その結果得られるパラメータに対して閾値処理を行う方法などがある。重みをかけることにより、どちらのパラメータに重きを置くのかを設定することができる。例えば、雑音環境下では筋電信号の方により大きな重みをかけ、ほとんど雑音がない環境では音声信号の方により大きな重みをかけるなどすることにより、最終的な検出結果をより精度良くすることが可能である。

また筋電信号測定手段を携帯電話に組み込むことは容易である。すなわち、携帯電話機は、通常、顔に接触させて使用されることから、例えば上述した図７のように構成して筋電信号を測定すれば良い。このように構成すれば、特に使い勝手を悪化させることはない。
以上のように、筋電信号を用いることによって、発話区間の判定を、実際の発話開始時刻よりも前に行うことができる。これを携帯電話のＶＡＤに適用することにより、発話先頭の欠落、通話品質の劣化を防ぐことができる。さらに筋電信号を用いて発話区間を判定することにより、周囲の雑音の影響を受けずに発話区間を判定することができる。そして、これを携帯電話機のＶＡＤに適用することで、不必要な通信は行わず、必要な通信のみを行うことができるようになる。この結果、バッテリ寿命を向上させ、通信チャネルを有効に活用することができるようになる。
（音声認識装置）
音声認識では、マイクロフォン等から入力された音声信号に対して信号処理を行って、発話内容を認識している。現状の音声認識では、雑音環境下において音声認識の精度が低下することが問題となる。雑音環境下で認識精度が低下する要因として、目的の音声信号以外に雑音が混入していることや、発話区間を正しく判定することができないことが挙げられる。前者の問題に対しては雑音が混入した音声信号をモデル化する方法などが提案されている。

さらに音声認識の精度を向上するために、測定信号から雑音成分を引き算するＳｐｅｃｔｒａｌＳｕｂｔｒａｃｔｉｏｎ法（以下、ＳＳ法と呼ぶ）が提案されている。このＳＳ法は、Ｓ．Ｆ．Ｂｏｌｌによる文献“Suppression of acoustic noise in speech using spectral subtraction,”IEEE trans. Acoustics, Speech, and Signal Processing, Vol.27, No.2, pp.113-120, 1979に記載されている。

また音声信号から発話区間を検出する方法としては、信号のパワーやピッチを計算することで検出する方法がある。この方法は、３ＧＰＰＴＳ２６．０９４に規定されている。
音声信号を用いて発話区間を検出する場合、雑音環境下では発話区間を検出することが困難である。発話区間を検出することができなければ、当然音声認識もできない。例えば、無音区間を誤って発話区間と判定した場合、挿入誤り（しゃべっていない単語や文章が、認識結果に挿入されてしまう誤り）が発生し、発話区間を無音区間と誤って判定した場合には、欠落（しゃべった単語や文章が認識されない誤り）が生じてしまう。またＳＳ法は、音声信号と雑音信号とが混在した観測信号から、雑音信号成分を引き算することで、音声信号のみを抽出する手法である。この手法は、雑音が混入した音声信号を認識する場合に有効な手法であるが、発話区間を検出できなければ当然、それを適用することもできない。

周囲の雑音の影響を受けないで発話区間を検出することができれば、音声認識の誤りを低減することが可能となる。また発話区間を正しく検出することができれば、より効果的にＳＳ法を適用することができるようになり、認識精度の向上を図ることができる。そのために、上述した筋電信号を用いる。
音声認識と組み合わせる場合には、図１１に示されているように、検出した発話区間内の音声信号データを音声信号データベースに一時的に保存しておき、発話が終了してから音声認識システムへと送信する方法と、検出した発話区間のみを音声認識システムへと伝達する方法とがある。

前者の方法の場合、１つの音声信号を複数の音声認識システムで処理を行うことが可能であることや、筋電信号を用いて判定した発話区間に誤判定があった場合には、後からそれを修正し、正しい発話区間に対応する音声信号を伝達することが可能であるなどの特徴がある。
また後者の方法を実現する場合、図２０に示されているように、筋電信号の測定（ステップＳ３１１）、発話開始点の検出（ステップＳ３１２）、及び、発話終了点の検出（ステップＳ３１３）からなる発話区間検出部３０１と、音声信号の測定（ステップＳ３２１）、音声認識開始（ステップＳ３２２）、及び、音声認識終了（ステップＳ３２３）からなる音声認識部３００とから構成すれば良い。そして、筋電信号測定（ステップＳ３１１）、音声信号測定（ステップＳ３２１）、が開始されると、発話開始点が検出された場合（ステップＳ３１２）に音声認識が開始される（ステップＳ３２２）。一方、発話終了点が検出された場合（ステップＳ３１３）に音声認識が終了となる（ステップＳ３２３）。このように処理を行えば、検出した発話区間のみを音声認識対象とするので、少ないメモリで実現でき、処理も前者に比べて軽く、既存の音声認識システムと容易に統合できるという特徴がある。

ここで、筋電信号を用いて判定した発話区間に誤判定があった場合には、保存しておいたデータについて後からそれを修正し、正しい発話区間を検出する方法について、図２１を参照して説明する。同図には発話を行っていない時の筋電信号Ｄと、それに対する発話区間の判定結果が示されている。
発話を行ってはいないが、例えばあくびをする、咳をする、口を動かすなどの動作を行った場合には、筋電信号Ｄにその動作に対応する信号が混入する。実際に、同図では３７００ｍｓ付近から４５００ｍｓ付近までそのような信号の混入が認められる。このような時に、筋電信号Ｄのみを用いて発話区間を判定した場合には、その区間を発話区間と判定する可能性がある。

同図では、初期の判定結果によると、同図中に網かけされている２つのフレームに対して発話区間と検出している。ところが、同図において、６０００ｍｓまで経過した後から振り返ると、発話区間として判定した２つのフレームは、発話を伴ったものではないと考えることができるようになる。なぜなら、発話区間と判定されたフレームに対応する音声信号のパワーが小さいことや、発話区間として検出された区間が短いことなどからである。このように後から得られる他の情報を用いることや、後から振り返って見たりすることで、誤判定を修正することができるようになる。

なお、この誤判定の基準は対象とするタスク・発話種類（例えば、連続数字のみ、自然な会話、地名などの特定の単語のみ、など）や、自分自身や周囲の環境（例えば、咳やあくびをしやすい、周囲の雑音レベルなど）などによって決定されるべきものである。同図では結果的に当初発話区間と判定した区間を後から振り返ることで最終の判定結果では非発話区間と修正した。これにより、より正しい発話区間の検出が行える。

また、（送信システム）の項で説明したように、筋電信号だけを用いるのではなく、音声信号と組み合わせて発話区間を検出することもできる。
本発明を携帯電話機に適用した場合には、図８、図９のような端末として利用することが可能である。また、ヘッドセットに適用した場合には、図２２のように構成することが可能である。すなわち、同図（Ａ）に示されているように、マイクロフォン２０と、耳掛け式イヤホンスピーカ３０とを一体化したヘッドセット４０に、筋電信号測定部５０を設ける。また、同図（Ｂ）に示されているように、マイクロフォン２０と、ヘッドフォン式スピーカ３１とを一体化したヘッドセット４０に、筋電信号測定部５０を設ける。なお、いずれの筋電信号測定部５０にも、筋電信号を測定するための電極が設けられ、その電極はユーザ１００の顔の皮膚と接触する側に設けられている。

同図（Ａ）、（Ｂ）に示されているような構成のヘッドセットを採用することにより、図７、図８の場合と同様に、筋電信号を検出し、それに基づいて発話区間を検出し、音声認識処理を行うことができる。
以上のように、雑音の影響を受けずに発話区間を検出することが可能となることで、ノイズが混入した音声信号を認識する場合に、効果的にＳＳ法を適用することができるようになり音声認識精度の向上、また挿入や欠落誤りの少ない音声認識が実現できる。
（信号レベル制御装置）
電話を介して、他人（特に客）と会話する必要のある職業、例えばテレフォンアポインタでは、通信相手に不愉快な思いをさせない、また不必要に機密情報を漏洩させないことが重要である。また、複数人がそれぞれにマイクロフォンを持っていて発話する場面、例えば会議、討論会、テレビ局のスタジオなど、においては、観衆に伝達される音声信号は雑音が混入していない高品質な音声信号である必要がある。

これら２つの場面に共通することとして、マイクロフォンを持っている人間、もしくはそれを身につけている人間が発話していない時には、マイクロフォンが拾う雑音を通信相手や観衆に伝達すべきでないということである。例えば、テレフォンアポインタの場合を考えると、アポインタが発話していない時の周囲の雑音を伝達すべきでないし、また周囲で個人情報などの機密情報が話されている場合には、その内容を伝達すべきではない。これは会議や討論会、テレビ局のスタジオなどでも同様である。

これを解決するために、例えば電話機には保留機能が付いており、会議や討論会では発話者がマイクロフォンの電源スイッチが付いており、それらをオン／オフ操作することで非発話時には不必要に雑音を伝達することを防ぐことができる。また、テレビ局のスタジオでは、別な人間がマイクロフォンの入力を受け入れるかどうかを判定し、受け入れるのであればオン、受け入れないのであればオフにスイッチを切り替えることで、不必要な雑音が混入することを防いでいる。

以上のように、手動でマイクロフォンの入力を受け入れるか否かを設定する場合、その作業は煩わしいという問題がある。これを自動的に行う方法として、上述したＶＡＤを用い、発話区間を検出している間のみマイクロフォンの入力を受け入れるという方法が考えられる。しかしながら、音声信号を基に発話区間を検出するＶＡＤでは、実際の発話開始時刻に対して、ＶＡＤが発話開始と判定する時刻は遅くなってしまい、遅延が生じ、また発話先頭の欠落や、品質劣化を引き起こすという問題がある。またＶＡＤを用いた場合には、周囲の雑音の影響を受けやすく、正確に発話区間を検出することが困難であるという問題もある。

そこで、上述した筋電信号を用いて発話区間を検出することで、実際の発話開始時刻よりも前に発話開始を判定し、かつ、周囲の雑音の影響を受けずに発話区間を判定することができる。発話区間の検出方法については、すでに説明したためその説明を省略する。
図２３は、マイクロフォンの電源スイッチをオンオフ制御するための構成を示す図である。同図において、マイクロフォン２０には、電源スイッチＳＷを介してバッテリＢＴから電力が供給されている。マイクロフォン２０は入力される音声を電気信号である音声信号に変換する。マイクロフォン２０から出力される音声信号は増幅器２２などに伝達される。ここで、発話区間検出結果に応じて電源スイッチＳＷがオンオフ制御される。すなわち、発話開始点の検出に応答して電源スイッチＳＷがオン状態に制御される。その後、発話終了点の検出に応答して電源スイッチＳＷがオフ状態に制御される。

以上の動作フローが図２４に示されている。同図に示されているように、上記の動作は、筋電信号の測定（ステップＳ３１１）、発話開始点の検出（ステップＳ３１２）、及び、発話終了点の検出（ステップＳ３１３）からなる発話区間検出部３０１と、マイクロフォンのスイッチのオン（ステップＳ３３１）、音声信号伝達開始（ステップＳ３３２）、マイクロフォンのスイッチのオフ（ステップＳ３３３）、及び、音声信号伝達終了（ステップＳ３３４）からなる集音・音声伝達部３０２とから構成される。そして、筋電信号の測定が開始され（ステップＳ３１１）、発話開始点が検出された時（ステップＳ３１２）、マイクロフォンの電源スイッチをオンにする（ステップＳ３３１）。マイクロフォンの電源スイッチがオンにされたことにより、音声信号の伝達が開始される（ステップＳ３３２）。一方、発話終了点が検出された時（ステップＳ３１３）、マイクロフォンの電源スイッチをオフにする（ステップＳ３３３）。マイクロフォンの電源スイッチがオフにされたことにより、音声信号の伝達が終了となる（ステップＳ３３４）。

なお、必ずしもマイクロフォンの電源スイッチをオンオフする必要はなく、発話区間に基づいて、マイクロフォンによって導出される出力信号のレベルを結果的に制御すれば良い。マイクロフォンの電源スイッチをオンオフ操作する代わりに、マイクロフォンの出力信号を増幅する増幅器のゲインを変化させたり、スピーカへの出力を変化させたりしても良い。例えば、図２５に示されているように、マイクロフォン２０から出力される音声信号を増幅する増幅器２２のゲインを、変化制御する場合、発話開始点の検出に応答して増幅器２２のゲインを上げ、発話終了点の検出に応答して増幅器２２のゲインを下げれば良い。また、図２６に示されているように、スピーカＳＰへの出力を変化させる場合、発話開始点の検出に応答して音量制御回路２３の設定音量を上げ、発話終了点の検出に応答して音量制御回路２３の設定音量を下げれば良い。

以上の構成の他、非発話区間に対応する音声を通信相手や聴衆に伝達しないようにすることができれば、どのような構成を採用しても構わない。要するに、マイクロフォンによって導出される出力信号のレベルを制御し、非発話区間に対応する音声を出力しないように制御すれば良い。
また、図２３の構成を携帯電話機に適用した場合には、図８や図９に示されているような端末として利用することができる。図２３の構成をヘッドセットを適用した場合には、図２２のように利用することができる。

以上のように、筋電信号を用いて発話区間を検出することで、実際の発話開始時刻よりも前に発話開始を判定でき、かつ、周囲の雑音の影響を受けずに発話区間を判定できる。よって、雑音が混入していない高品質な音声信号を得ることができる。
請求項の記載に関し、本発明は更に以下の態様をとりうる。
（１）前記筋電信号検出手段は、前記発話者の皮膚表面に接触している電極から前記筋電信号を検出することを特徴とする請求項１記載の発話区間検出装置。こうすれば、発話者の皮膚表面に電極を接触させるだけで筋電信号を検出できる。
（２）前記電極は、前記発話者が発話中に使用する端末に設けられていることを特徴とする（１）記載の発話区間検出装置。こうすれば、発話者が使用する端末を利用して筋電信号を検出できる。

一般に、音声認識処理では、発話区間の検出が重要になる。発話区間の検出は、音声信号のみを用いる手法や、発話者の口の動きの画像を用いる手法が提案されている。しかしながら、前者は周囲の雑音レベルが高い場合や、複数人が同時に発話している場合には発話区間を正確に検出できない。また、後者は発話区間検出のためのカメラなどのセンサを特別な位置に設ける必要があるので、実用上不便である。

本発明では、発話者の発話時の筋電信号を用いて発話区間を検出する。発話時の筋肉活動に伴い筋電信号には大きな振幅が現れるので、これを捉えることで発話区間を検出できる。
携帯型端末などに電極を設けておけば、発話時の筋電信号を発話者の皮膚から測定できる。このため、携帯型端末の利用形態、すなわち端末を皮膚に押し当てて利用するという形態と親和性が非常に高い。周囲の雑音レベルが高い場合でも問題なく発話区間を検出でき、かつ、特別な位置にセンサを設ける必要はない。

そして、検出した発話区間に基づいて音声認識処理を行えば、認識精度を向上させることができる。また、検出した発話区間に基づいて符号化処理を行えば、消費電力を削減でき、携帯電話機をはじめとする携帯通信端末のバッテリの寿命を向上させることができる。さらに、検出した発話区間に基づいてマイクロフォンによって導出される出力信号のレベルを制御し、非発話区間に対応する音声を出力しないように制御することで、雑音が混入していない高品質な音声信号を得ることができる。

本発明による発話区間検出装置の構成を示す図である。筋電信号と音声信号との関係を示す図である。筋電信号のＲＭＳ時系列表示を示す図である。筋電信号についての発話区間の判定処理例を示すフローチャートである。筋電信号についての発話区間の判定処理の変形例を示すフローチャートである。図１の構成にカウンタを追加した構成例を示すブロック図である。本発明による発話区間検出装置を採用した携帯型端末の使用例を示す概略図である。筋電信号検出用皮膚表面電極の配置例を示す概略図である。本発明による発話区間検出装置を採用した携帯型端末の動作の一例を示すフローチャートである。本発明による発話区間検出装置を採用した携帯型端末の動作の他の例を示すフローチャートである。本発明による発話区間検出装置を採用した携帯型端末の動作のさらに他の例を示すフローチャートである。本発明による発話区間検出装置を携帯電話端末に適用した場合の一構成例を示すブロック図である。本発明による発話区間検出装置を携帯電話端末に適用した場合の他の構成例を示すブロック図である。音声信号と、ＶＡＤが行われるフレーム列と、符号化フレーム列との関係を示す図である。音声信号と筋電信号との関係を示す図である。筋電信号と音声信号との発生タイミングのフローを示す図である。筋電信号に対する発話区間の検出タイミングと、携帯電話機側の処理タイミングとを示す図である。（Ａ）はＶＡＤのみを用いて発話区間を検出する場合の構成を示す図、（Ｂ）は同図（Ｂ）にはＶＡＤと筋電信号とを用いて発話区間を検出する場合の構成を示す図である。筋電信号に基づく発話区間検出処理と、音声信号に基づく発話区間検出処理とを、統合処理する点を示す図である。検出した発話区間を伝達して音声認識処理を行う場合の構成を示す図である。筋電信号を用いて判定した発話区間に誤判定があった場合には、保存しておいたデータについて後からそれを修正し、正しい発話区間を検出する方法を示す図である。（Ａ）は耳掛け式イヤホンスピーカを含むヘッドセットの例を示す図、同図（Ｂ）はヘッドフォン式スピーカを含むヘッドセットの例を示す図である。マイクロフォンの電源スイッチをオンオフ制御するための構成を示す図である。マイクロフォンの電源スイッチをオンオフ制御する場合の動作フローを示す図である。マイクロフォンから出力される音声信号を増幅する増幅器のゲインを変化制御するための構成を示す図である。スピーカＳＰへの出力を変化させるための構成を示す図である。

符号の説明

１発話区間検出装置
１ａ携帯型端末
２通信制御部
１０ａ〜１０ｆ皮膚表面電極
１１筋電信号検出部
１２筋電信号処理部
１３発話区間検出部
１４発話区間通知部
１５カウンタ
２０マイクロフォン
２１ヒンジ
２２増幅器
２３音量制御回路
３０耳掛け式イヤホンスピーカ
３１ヘッドフォン式スピーカ
４０ヘッドセット
５０筋電信号測定部
１００ユーザ
３００音声認識部
３０１発話区間検出部
３０２集音・音声伝達部
ＤＢ音声信号データベース
Ｋ筋電信号
Ｓ音声信号

Claims

発話者の発話中における筋電信号を検出する筋電信号検出手段と、前記筋電信号検出手段によって検出された筋電信号に基づいて発話区間を検出する発話区間検出手段と、前記筋電信号の振幅値と所定閾値との比較結果をカウントするカウンタとを含み、前記発話区間検出手段は、前記カウンタのカウント値が前記所定閾値を超えた場合に限り、発話区間であると判定することを特徴とする発話区間検出装置。
前記筋電信号検出手段は、前記発話者が発話中に使用する端末の筐体において、前記発話者の発話中に該発話者の皮膚と接触する部分に設けられている電極から、前記筋電信号を検出することを特徴とする請求項１記載の発話区間検出装置。
前記発話区間検出手段は、前記筋電信号の振幅値と所定閾値とを比較することで前記発話区間の発話開始タイミング及び発話終了タイミングを検出することを特徴とする請求項１又は２記載の発話区間検出装置。
前記発話者の発話音声信号を保存するための記憶手段を更に含み、前記発話開始タイミングで前記発話音声信号の保存を開始し、前記発話終了タイミングで前記発話音声信号の保存を終了するようにしたことを特徴とする請求項１から請求項３までのいずれか１項に記載の発話区間検出装置。
発話音声信号について音声認識処理を行う音声認識処理装置であって、請求項１から請求項３までのいずれか１項に記載の発話区間検出装置によって検出された発話区間に対応する発話音声信号について音声認識処理を行う音声認識処理手段を含むことを特徴とする音声認識処理装置。
発話音声信号について音声認識処理を行う音声認識処理装置であって、請求項４に記載の発話区間検出装置によって前記記憶手段に記憶された発話音声信号について音声認識処理を行う音声認識処理手段を含むことを特徴とする音声認識処理装置。
発話区間に対応する発話音声信号について符号化処理を行い、符号化された音声信号を送信する送信システムであって、請求項１から請求項４までのいずれか１項記載の発話区間検出装置によって検出される発話区間に基づいて、前記符号化処理のタイミングを決定する符号化処理タイミング決定手段を含むことを特徴とする送信システム。
マイクロフォンによって導出される出力信号のレベルを制御する信号レベル制御装置であって、請求項１から請求項４までのいずれか１項記載の発話区間検出装置によって検出される発話区間に基づいて、前記出力信号のレベルを制御する制御手段を含み、非発話区間に対応する音声を出力しないように制御することを特徴とする信号レベル制御装置。
発話者の発話中における筋電信号を検出する筋電信号検出ステップと、前記筋電信号検出ステップにおいて検出された筋電信号に基づいて発話区間を検出する発話区間検出ステップと、前記筋電信号の振幅値と所定閾値との比較結果をカウントするカウントステップとを含み、前記発話区間検出ステップにおいては、前記カウントステップのカウント値が前記所定閾値を超えた場合に限り、発話区間であると判定するようにしたことを特徴とする発話区間検出方法。