JP4713111B2 - 発話区間検出装置、音声認識処理装置、送信システム、信号レベル制御装置、発話区間検出方法 - Google Patents

発話区間検出装置、音声認識処理装置、送信システム、信号レベル制御装置、発話区間検出方法 Download PDF

Info

Publication number
JP4713111B2
JP4713111B2 JP2004250792A JP2004250792A JP4713111B2 JP 4713111 B2 JP4713111 B2 JP 4713111B2 JP 2004250792 A JP2004250792 A JP 2004250792A JP 2004250792 A JP2004250792 A JP 2004250792A JP 4713111 B2 JP4713111 B2 JP 4713111B2
Authority
JP
Japan
Prior art keywords
utterance
speech
signal
section
detecting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2004250792A
Other languages
English (en)
Other versions
JP2005115345A (ja
Inventor
宏幸 真鍋
明 平岩
宏樹 林
利明 杉村
俊雄 三木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2004250792A priority Critical patent/JP4713111B2/ja
Priority to EP04021768A priority patent/EP1517298B1/en
Priority to US10/939,566 priority patent/US7627470B2/en
Priority to DE602004003443T priority patent/DE602004003443T2/de
Priority to CNB2004100787901A priority patent/CN100361197C/zh
Publication of JP2005115345A publication Critical patent/JP2005115345A/ja
Application granted granted Critical
Publication of JP4713111B2 publication Critical patent/JP4713111B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/015Input arrangements based on nervous system activity detection, e.g. brain waves [EEG] detection, electromyograms [EMG] detection, electrodermal response detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Description

本発明は、騒音環境下や多数の人間が同時に話し合う場面などで生ずる際の音声認識処理における発話区間の検出に関する。
通常の音声検出装置では、発話における音声を音響信号として取り扱い、その音響信号を周波数分析することによって、音声情報を認識し処理する音声認識技術が採用されてきた。この音声認識技術を用いて、良好な音声検出結果をもたらすためには、検出した音声信号から如何に正確に発話内容を認識するかということと共に、対象とする発話者が発話しているのか否かを正確に検出すること(発話区間の検出)が重要となる。特に雑音環境下や多数の人間が同時に話し合う場面などにおいて音声認識を行う場合には、発話区間の検出が重要な課題となる。
なぜならば、ほとんど騒音のない環境においては、検出した音声信号のパワーを観察することにより、発話区間を簡単に検出することができるのに対して、雑音環境下では検出した音声信号に雑音が加わっているため、単純にパワーでは発話区間を検出することができないからである。発話区間が検出できなければ、その後に雑音に対して頑強ないかなる認識装置を用意していたとしても、音声を認識することはできない。
この発話区間の検出に対して、従来いくつかの研究が行われてきている。例えば、非特許文献1や、非特許文献2などがある。
これらの文献記載されている技術や、その他の従来技術においては、大きく分けて2つのアプローチがある。1つは音声信号のみから発話区間を検出しようとするものである。もう1つは音声信号だけでなく、非音声信号から発話区間を検出しようとするものである。
"マイクロフォンアレイとカルマンフィルタによる実環境下でのハンズフリー音声認識−対話型テレビのフロントエンドシステムの構築−"藤本雅清、有木廉雄、第4回DSPS教育者会議、pp.55−58、2002−08. "口周囲画像による頑強な発話検出"村井和昌、野間啓介、熊谷建一、松井知子、中村哲、情報処理学会研究報告「音声言語情報処理」No.034−013、2000
上記2つのアプローチに関して、それぞれ課題がある。音声信号のみから試みた場合、検出精度は周囲の雑音の大きさや種類に大きく依存してしまうことが欠点となる。頑強でありかつ周囲の雑音の影響を全く受けない発話区間検出を実現するためには、後者の非音声信号から検出することが重要である。
しかし、非音声信号を用いた場合には、音声認識を行うためにマイクロフォン以外の他のセンサを設置しなければならないことが問題として挙げられる。例えば非音声信号として画像を用いた場合には、口唇部が常に視界に入るようにカメラを設置しなければならず、さらにカメラの視野の中で口唇部が常に一定の位置にあることが必要となる。しかしそのようにカメラを設置することは実用上非常に困難である。またそれだけでなく、口唇部の画像から発話区間を検出するためには、画像認識技術が必要となる。
一般に画像認識技術には莫大な演算量が必要である。雑音環境下で音声認識を行う場合には、例えば携帯電話のような携帯型端末を利用しながら行うことが一般的であると考えられる。しかしそのような携帯型端末では計算能力が画像処理を行うのに十分であるとは言えず、上記の課題と同様に実用上非常に困難である。
そこで本発明は、非音声信号である筋電信号から発話区間を検出することで、非音声信号を検出するためのセンサ設置の課題、演算量の課題を解決できる発話区間検出装置、発話区間検出方法の提供を目的としている。また、本発明は、上記発話区間検出装置を利用した音声認識処理装置、送信システム、信号レベル制御装置の提供をも目的としている。
本発明の請求項1による発話区間検出装置は、発話者の発話中における筋電信号を検出する筋電信号検出手段と、前記筋電信号検出手段によって検出された筋電信号に基づいて発話区間を検出する発話区間検出手段と、前記筋電信号の振幅値と所定閾値との比較結果をカウントするカウンタとを含み、前記発話区間検出手段は、前記カウンタのカウント値が前記所定閾値を超えた場合に限り、発話区間であると判定することを特徴とする。 この構成によれば、筋電信号に基づいて発話区間を検出することが可能となる。また、この構成によれば、なんらかの原因によって筋電信号に瞬間的な大きな振幅が含まれてしまった場合でも、発話区間を正しく判定できる。従って、周囲の雑音状況によらず、発話区間を検出できるようになり、雑音環境下における音声認識が可能となる。
本発明の請求項2による発話区間検出装置は、請求項1において、前記筋電信号検出手段は、前記発話者が発話中に使用する端末の筐体において、前記発話者の発話中に該発話者の皮膚と接触する部分に設けられている電極から、前記筋電信号を検出することを特徴とする。この構成によれば、発話者が使用する端末を利用し、発話者の皮膚表面に電極を接触させるだけで筋電信号を検出できる。
本発明の請求項3による発話区間検出装置は、請求項1又は2において、前記発話区間検出手段は、前記筋電信号の振幅値と所定閾値とを比較することで前記発話区間の発話開始タイミング及び発話終了タイミングを検出することを特徴とする。この構成によれば、発話者の発話時の筋肉活動に伴い筋電信号には大きな振幅が現れるので、これを捉えることで発話区間すなわち発話開始タイミング及び発話終了タイミングを検出できる。
本発明の請求項4による発話区間検出装置は、請求項1から請求項3までのいずれか1項において、前記発話者の発話音声信号を保存するための記憶手段を更に含み、前記発話開始タイミングで前記発話音声信号の保存を開始し、前記発話終了タイミングで前記発話音声信号の保存を終了するようにしたことを特徴とする。この構成によれば、本装置と音声認識装置との独立性を高めることができ、一般的な音声認識装置を特に改変することなく、本装置と組み合わせて利用することができる。
本発明の請求項5による音声認識処理装置は、発話音声信号について音声認識処理を行う音声認識処理装置であって、請求項1から請求項3までのいずれか1項に記載の発話区間検出装置によって検出された発話区間に対応する発話音声信号について音声認識処理を行う音声認識処理手段を含むことを特徴とする。この構成によれば、雑音の影響を受けずに発話区間を検出し、音声認識精度の向上が図れる。
本発明の請求項6による音声認識処理装置は、発話音声信号について音声認識処理を行う音声認識処理装置であって、請求項4に記載の発話区間検出装置によって前記記憶手段に記憶された発話音声信号について音声認識処理を行う音声認識処理手段を含むことを特徴とする。この構成によれば、雑音の影響を受けずに発話区間を検出し、音声認識精度の向上が図れる。
本発明の請求項7による送信システムは、発話区間に対応する発話音声信号について符号化処理を行い、符号化された音声信号を送信する送信システムであって、請求項1から請求項4までのいずれか1項記載の発話区間検出装置によって検出される発話区間に基づいて、前記符号化処理のタイミングを決定する符号化処理タイミング決定手段を含むことを特徴とする。この構成によれば、発話区間を検出することによって、不必要な通信を行わずに済み、消費電力を低減できる。
本発明の請求項8による信号レベル制御装置は、マイクロフォンによって導出される出力信号のレベルを制御する信号レベル制御装置であって、請求項1から請求項4までのいずれか1項記載の発話区間検出装置によって検出される発話区間に基づいて、前記出力信号のレベルを制御する制御手段を含み、非発話区間に対応する音声を出力しないように制御することを特徴とする。この構成によれば、検出した発話区間に応じて、マイクロフォンによって導出される出力信号のレベルを制御することで、発話区間に対応する音声のみを出力することができる。例えば、マイクロフォンの電源スイッチをオンオフする、マイクロフォンのゲインを変化させる、スピーカからの出力を変化させるなど、非発話区間に対応する音声を出力しないように制御する。
本発明の請求項9による発話区間検出方法は、発話者の発話中における筋電信号を検出する筋電信号検出ステップ(図4中のステップS41に対応)と、前記筋電信号検出ステップにおいて検出された筋電信号に基づいて発話区間を検出する発話区間検出ステップ(図4中のステップS42〜S44に対応)と、前記筋電信号の振幅値と所定閾値との比較結果をカウントするカウントステップとを含み、前記発話区間検出ステップにおいては、前記カウントステップのカウント値が前記所定閾値を超えた場合に限り、発話区間であると判定するようにしたことを特徴とする。この構成によれば、筋電信号に基づいて発話区間を検出することが可能となる。また、この構成によれば、なんらかの原因によって筋電信号に瞬間的な大きな振幅が含まれてしまった場合でも、発話区間を正しく判定できる。従って、周囲の雑音状況によらず、発話区間を検出できるようになり、雑音環境下における音声認識が可能となる。
本発明によれば、携帯型端末などに設けられている電極を皮膚に押し当てるという非常に簡易な方法によって、周囲の雑音の影響を受けることなく、発話区間を検出することができる。これにより、雑音環境下における音声認識の認識精度の向上が期待できる。また、発話区間を検出することによって、不必要な通信を行わずに済み、消費電力を低減できる。さらに、検出した発話区間に応じて、マイクロフォンによって導出される信号レベルを制御することで、発話区間に対応する音声のみを出力することができる。
以下、本発明の実施の形態を、図面を参照して説明する。なお、以下の説明において参照する各図においては、他の図と同等部分に同一符号が付されている。
(全体の構成)
図1は本発明による発話区間検出装置の主要部分の構成を示すブロック図である。本発明による発話区間検出装置1は、筋電信号検出部11と、筋電信号処理部12と、発話区間検出部13と、発話区間通知部14とを含んで構成されている。
同図において、筋電信号検出部11は、発話者の発話時の筋電信号を検出する。この筋電信号検出部11は、後述する皮膚表面電極を含んで構成されている。すなわち、発話時に活動する筋肉の直上の皮膚表面に接触している皮膚表面電極を介して筋電信号を検出する。より具体的な電極の配置などについては後述する。
筋電信号処理部12では、筋電信号検出部11で検出された筋電信号を増幅する。また、筋電信号処理部12は、ノイズ除去や所望の信号を効率よく導き出すことを目的として、ローパスフィルタやハイパスフィルタなどで筋電信号を処理する。さらに発話区間検出部13で必要とされるパラメータを算出する。
発話区間検出部13では、筋電信号処理部12で算出されたパラメータを基に、発話区間の開始点及び終了点を検出する。
発話区間通知部14では、発話区間検出部13で検出された発話区間の開始点及び終了点を、後に続く音声認識アルゴリズムに対して通知し、音声認識を行うように通知する。なお、発話区間通知部14によって通知される、発話区間の開始点及び終了点を用いて音声認識処理する音声認識アルゴリズムは、特に限定されるものではなく、どのようなアルゴリズムであってもよい。
以上の構成によれば、筋電信号に基づいて発話区間を検出することが可能となる。従って、周囲の雑音状況によらず、発話区間を検出できるようになり、雑音環境下における音声認識が可能となる。
(基本原理)
図2には、本発明の基本原理である、筋電信号と音声信号との関係が示されている。同図において、横軸は時間(秒)、縦軸は振幅である。
同図には、日本語の母音である「あいうえお」を繰り返し発声した際に、発話者の頬部から測定した皮膚表面筋電信号と、同時に測定した音声信号とが示されている。同図の上部には筋電信号Kが、下部には音声信号Sが、それぞれ示されている。
ここで注日すべきことは、音声信号Sと筋電信号Kとが同期しているということである。より具体的に述べれば、約1.5秒〜3.2秒までの間、発話者は「あいうえお」と発声しており、それに相当する大きな振幅の音声信号が観測されている。それに対して、筋電信号でも同様にその区間に大きな振幅が観測されている。
これは、約4.7〜6.3秒の間に発声された「あいうえお」についても同様であり、さらに約8〜9.5秒の間に発声された「あいうえお」についても同様である。それ以外の区間は、話者は声を発しておらず、周囲の雑音が混入している状態である。
本発明は、図2に示されているように、音声信号と筋電信号とが同期しているのを、発明者が見出したことからなされたものである。また、発声した内容が「あいうえお」だけでなく、他の内容であっても図2に示されているように、音声信号と筋電信号とは同期していることがわかった。要するに、発話者の発話時の筋肉活動に伴い、筋電信号には大きな振幅が観測されるので、これを観測することで、発話区間を検出することができる。
また、図2に示されている音声信号及び筋電信号は、周囲の雑音がそれほど大きくない状況下(通常のオフィス内)で測定したものである。周囲の雑音レベルが大きな状況で同様な実験を行えば、音声信号には周囲の騒音が重畳する。これに対し、筋電信号には全く影響がないというメリットがある。
(発話区間の検出処理)
以下では、具体的に発話区間を検出する処理について説明する。
図3には、筋電信号について発話区間を検出するための処理の一例が示されている。図3は、図2に示されている筋電信号から二乗平均平方(Root Mean Square;以下、RMSと略称する)を算出し、それを時系列に表示したものである。同図において、横軸は時間(秒)、縦軸はRMS値(RMS value)である。RMS値の算出は、フレーム周期20ms、フレーム長50msとして行った。
この図3を参照すればわかるように、発声時には非発声時に比べて明らかに大きな値となっている。同図においては、非発声時における筋電信号のRMS値が0.01程度である。このことから、例えば「0.02」なり、「0.03」なりといった閾値を設定し、RMS値と比較することにより、発話区間を検出することが可能となる。すなわち、設定した閾値を超えていれば発話区間として検出でき、その閾値を下回れば非発話区間として検出できる。
(発話区間の判定処理)
図4は、筋電信号についての発話区間の判定処理を示すフローチャートである。
同図において、まず、上記閾値を事前に設定しておく(ステップS40)。そして、筋電信号の測定を開始する(ステップS41)。 次に、測定した筋電信号から順次RMS値を算出する(ステップS42)。その際のフレーム周期、フレーム長は、それぞれ20ms、60msとすることも可能である。また、それ以外の値を用いてもよい。
そして事前に設定された閾値を元に、その閾値を超えているか、超えていないかを判定する(ステップS43)。もし閾値を超えていれば、その区間を発話区間として判定する(ステップS44)。一方、閾値を超えていなければ、その区間を非発話区間として判定する(ステップS45)。以上の処理は繰返し行われる。
なお、同図は、筋電信号からRMS値を算出した場合についての処理を示すフローチャートであるが、本発明は必ずしもRMSを用いる必要はない。すなわち、測定された筋電信号から抽出される各種の特徴量を利用すれば良い。例えば、平均相対変動値(ARV)や、測定された筋電信号の絶対値を時間積分した積分値筋電信号(Integrated Electro Muscle Graphy;iEMG)、筋電信号の周波数スペクトルなどを用いてもよい。
さらにはある閾値との交差数を図4のRMSの代わりに用いることも可能である。すなわち、測定された筋電信号に対して、予め設定された閾値(例えば,10[mV])を超えている箇所をカウントし、このカウント値を用いても良い。例えば、測定された筋電信号のサンプリング値が1,5,12,8,−2[mV]である場合、閾値が10[mV]であれば交差数のカウント値は「1」になる。閾値が6[mV]であれば交差数のカウント値は「2」になる。このように予め設定された閾値をとの交差数をRMSの代わりに用いても上記と同様に処理することができる。
なお、筋電信号についてのサンプリング周波数は、例えば2000Hzとする。
以上のように、筋電信号の振幅値と所定閾値とを比較することで、発話区間の発話開始タイミング及び発話終了タイミングを検出できる。要するに、発話者の発話時の筋肉活動に伴い筋電信号には大きな振幅が現れるので、これを捉えることで発話区間すなわち発話開始タイミング及び発話終了タイミングを検出できるのである。
(判定処理の変形例)
また、図4に示されているフローチャートに、図5に示されているフローチャートを加えることも可能である。図4に示されているフローチャートでは、なんらかの原因によって筋電信号に瞬間的な大きな振幅が含まれてしまった場合に、その区間だけはたとえ非発話区間であったとしても、それを発話区間として判定してしまうという問題がある。そのような短時間での変動による影響を低減するために、図4のフローチャート中のステップS43〜S45の代わりに、図5に示されているフローチャートを加えることが可能である。
図5では、「状態」とは発話区間と非発話区間との2種類を意味している。つまり、例えば非発話区間(もしくは発話区間)として判定されるためには、直前に非発話区間(もしくは発話区間)が複数回判定されている必要があるようにしたものである。そのためには、図6に示されているように、図1の構成にカウンタ15を追加し、非発話区間(もしくは発話区間)の持続回数をカウントする。そして、そのカウンタの値を予め設定された閾値と比較し、閾値を超えたときに初めてそれを非発話区間(もしくは発話区間)として確定する。なお、複数回判定のための周期は、例えば20Hzとすれば良い。
図4のステップS42において筋電信号のRMS値を算出した後、図5に移行し、最初にカウンタのカウント値をリセットする(ステップS51)。そして、上述した状態が変わっていなければ、カウンタのカウント値をインクリメントする(ステップS52→S53)。インクリメントした結果、カウンタのカウント値が予め設定された閾値を超えていなければ、引き続きカウント値をインクリメントする(ステップS54→S52)。
一方、インクリメントした結果、カウンタのカウント値が予め設定された閾値を超えた場合、その状態を確定し、発話区間もしくは非発話区間と判定する(ステップS54→S55)。
なお、ステップS52において、状態が変わった場合には、カウンタのカウント値をリセットし(ステップS52→S51)、引き続き処理が継続される。
ところで、以上説明した図5に示されているフローチャートを追加した場合、実際の発話開始点(もしくは発話終了点)に対して、判定した発話開始点(もしくは発話終了点)の方が時間的に遅くなってしまうという問題点がある。しかし、図4及び図5を用いて発話区間を確定した後に、上記のカウンタのカウント値と比較する閾値に相当する時間で補正することにより、実際の発話開始点と発話終了点とを検出することができる。
例えば、時刻「0」の時にカウント値がインクリメント開始された場合(それ以前は非発話区間)、その時点では発話区間とは判定しない。そして、時刻「1」、「2」、「3」、…とインクリメントされ、カウント値が閾値である「n」に達した場合に初めて発話区間であると判定されることになる。このため、発話区間であると判定されるのは、カウント値「n」に対応する時刻であるが、実際に発話が開始されたのは時刻「0」である。このため、カウント値「0」から「n」までに相当する時間で補正すれば、正しい発話開始点と発話終了点とを検出することができる。
さらに図5に示されているフローチャートを採用すれば、図2に示されているように、一連の発話区間においても筋電信号が非常に小さなレベルになってしまう問題に対応できるというメリットがある。
つまり、図2において約2秒、約2.5秒付近に筋電信分の振幅が小さく落ち込んでいる現象が確認できる。図4のフローを用いた場合には、その部分は非発話区間として扱われることになる。しかし、図5のフローチャートを付加することによって、この部分を非発話区間として判定するのではなく、発話区間として扱うことができるようになる。
(発話区間検出方法)
以上説明した発話区間検出装置においては、以下のような発話区間検出方法が採用されている。すなわち、発話者の発話中における筋電信号を検出する筋電信号検出ステップ(図4中のステップS41に対応)と、前記筋電信号検出ステップにおいて検出された筋電信号に基づいて発話区間を検出する発話区間検出ステップ(図4中のステップS42〜S44に対応)とを含み、前記発話区間検出ステップにおいて検出された発話区間に関する情報を通知するようにした発話区間検出方法が採用されている。この構成によれば、筋電信号に基づいて発話区間を検出することが可能となる。従って、周囲の雑音状況によらず、発話区間を検出できるようになり、雑音環境下における音声認識が可能となる。
以下、本発明による発話区間検出装置を携帯型端末に適用した例について説明する。
(使用例)
図7には本発明による発話区間検出装置を採用した携帯型端末の使用例が示されている。同図では、携帯電話機のような携帯型端末を利用してコミュニケーションを行っている場面を想定している。
同図中の破線で示されているように、携帯型端末1aには、筋電信号検出用皮膚表面電極10a及び10bと、マイクロフォン20とが設けられている。筋電信号検出用皮膚表面電極10a及び10bは、発話者であるユーザ100の顔の皮膚と接触する側に設けられている。このため、携帯型端末1aの使用中は、一対の筋電信号検出用皮膚表面電極10a及び10bがそれぞれ接触している皮膚から筋電信号を検出できることになる。
なお、同図に示されている携帯型端末1aは、ヒンジ21が設けられた、いわゆる折りたたみ型の端末である。ヒンジ21が設けられていない端末であっても本発明が適用できることはもちろんである。
ところで、携帯電話などの携帯型端末を利用してコミュニケーションを行う場合、その端末のマイクロフォンは口周辺に位置し、スピーカは耳周辺に位置することは今後も変わることがない事実であると考えられる。
その点において、現状の携帯電話端末は今後、小型化することはあったとしても、その形状が大きく変わることはないと考えられる。そこで重要なことは、携帯型端末、特に携帯電話端末のように会話することを目的とする端末は、その端末を皮膚に接触させながら利用するということである。このことはつまり、皮膚表面電極を違和感無く皮膚と接触することが可能であることを示している。
従来技術のようにカメラを用いて発話区間を検出する場合には、その目的のためだけに、所望の位置にカメラやセンサを設置しなければならない。これに対して、筋電信号を用いる場合には通常利用している形態、つまり携帯型端末を皮膚に接触させて利用する形態、を損なうことなく、さらにそれ以上の操作、それ以上にセンサを設置することなく、発話区間を検出することができるのである。
要するに、携帯型端末などは、皮膚に押し当てて利用されることが普通に行われるので、この利用形態と本発明とは親和性が非常に高い。
(電極の配置)
図8には電極の配置例が示されている。同図には携帯型端末に筋電信号検出用皮膚表面電極を設けた場合の例が示されている。同図(A)に示されている例では、大きめの皮膚表面電極10c及び10dが携帯型端末1aに設けられている。これら皮膚表面電極10c及び10dは、それぞれ例えば2cm×3cmほどの大きさの平板電極である。皮膚表面電極10cは例えばユーザの頬部分に、皮膚表面電極10dは例えばユーザの口元部分に、それぞれ接触することになるので、これら一対の電極により、筋電信号を検出することができる。
また、同図(B)に示されている例では、針状の皮膚表面電極10e及び10fが携帯型端末1aに設けられている。これら皮膚表面電極10e及び10fは、それぞれ例えば直径1mmほどの針状電極である。これら皮膚表面電極10e及び10fは、例えばユーザの頬部分に接触することになるので、これら一対の電極により、筋電信号を検出することができる。
以上説明した皮膚表面電極は例示にすぎず、筋電信号を検出するための一対の電極を携帯型端末1aの筐体に設ければ良く、その形状は問わない。ただし、携帯型端末1aの筐体のうち、発話者の発話中にその発話者の皮膚と接触する部分に設けられている必要がある。なお、上記皮膚表面電極を介して得られる筋電信号を測定する回路の構成は周知であるので、その説明は省略する。
(動作例)
図9は本発明による発話区間検出装置を採用した携帯型端末の動作の一例を示すフローチャートである。
同図において、まずユーザは携帯型端末を皮膚に接触させる。この接触の後に、皮膚と接触した筋電信号検出用皮膚表面電極を介して筋電信号を検出する(ステップS81)。
ユーザが発話を開始すると、口周辺の筋肉が活動するため検出した筋電信号には非発話時(発話を行っていない状態、通常の音声認識における無声区間)に比べて大きな振幅が観察される。この大きな振幅を検出することにより、発話開始点を検出する(ステップS82)。
また、発話が終了すると、検出された筋電信号の振幅が小さくなる。この振幅が小さくなる点を検出することにより、発話終了点を検出する(ステップS83)。
次に、検出した発話開始点及び発話終了点を、外部に通知する(ステップS84)。これにより、後に続く音声認識アルゴリズムなり、音声認識装置へと通知し、音声認識の開始を促す。
以上の動作が繰返し行われる(ステップS85)。
また、図10は本発明による発話区間検出装置を採用した携帯型端末の動作の他の例を示すフローチャートである。図10の動作が図9の動作と異なる点は、発話開始点を検出した際に、すぐさまその旨を認識アルゴリズムなり、音声認識装置なりに通知する点である。
同図において、まずユーザは携帯型端末を皮膚に接触させる。この接触させた後に、皮膚と接触した筋電信号検出用皮膚表面電極を介して筋電信号を検出する(ステップS91)。
ユーザが発話を開始すると、口周辺の筋肉が活動するため検出した筋電信号には非発話時に比べて大きな振幅が観察される。この大きな振幅を検出することにより、発話開始点を検出する(ステップS92)。 この発話開始点の検出に応答して、その検出した旨を外部に通知する(ステップS93)。
また、発話が終了すると、検出された筋電信号の振幅が小さくなる。この振幅が小さくなる点を検出することにより、発話終了点を検出する(ステップS94)。この 発話終了点の検出に応答して、その検出した旨を外部に通知する(ステップS95)。以上の動作が繰返し行われる(ステップS96)。
以上のように、検出した発話開始点及び発話終了点を、外部に通知することにより、後に続く音声認識アルゴリズムなり、音声認識装置へと通知し、音声認識の開始を促す。
この図10に示されているフローチャートによる動作では、音声認識アルゴリズムや音声認識装置による音声認識処理と、発話区間の検出処理とを独立に動作させることができる。別な言い方をすれば、図9に示されているフローチャートの場合には、音声認識アルゴリズムや音声認識装置と発話区間の検出処理とが密接に関わりあう必要があるのに対し、図10に示されているフローチャートの場合にはそれらを独立に動作させることができる。
さらに、図11は本発明による発話区間検出装置を採用した携帯型端末の動作のさらに他の例を示すフローチャートである。図11に示されているフローチャートでは、図9、図10に示されているフローチャートよりも、音声認識アルゴリズムや音声認識装置からの独立性がより高まっている。
すなわち、まずユーザは携帯型端末を皮膚に接触させる。この接触させた後に、皮膚と接触した筋電信号検出用皮膚表面電極を介して筋電信号を検出する(ステップS101)。
ユーザが発話を開始すると、口周辺の筋肉が活動するため、検出された筋電信号には非発話時に比べて大きな振幅が観察される。この大きな振幅を検出することにより、発話開始点を検出する(ステップS102)。この発話開始点の検出に応答して、音声信号の音声信号データベースDBへの保存が開始される(ステップS103)。
また、ユーザの発話が終了すると、検出された筋電信号の振幅が小さくなる。この振幅が小さくなる点を検出することにより、発話終了点を検出する(ステップS104)。この発話終了点の検出に応答して、音声信号データベースDBへの保存が終了となる(ステップS105)。この終了後、音声信号データベースDBに保存されている音声信号データが音声認識アルゴリズムなど、外部に通知される(ステップS106)。
以上のように、図11に示されているフローチャートにおいては、筋電信号を用いて発話開始点及び発話終了点を検出し、それに応じた発話区間の音声信号データが音声信号データベースDBに保存される。そして保存された音声信号データを認識アルゴリズムや音声認識装置へと伝達する。
このように動作することにより、一般的な音声認識アルゴリズムや音声認識装置を特に改変することなく、本発明の発話区間検出装置を採用した携帯型端末とそれらとを組み合わせて利用することができるようになる。音声認識装置との組合せについては、後述する。
(発話区間検出装置のまとめ)
本発明による発話区間検出装置を携帯電話端末に適用した場合、図12に示されているような構成となる。すなわち、発話区間検出装置1と、通信制御部2とを含んで携帯型端末1aが構成される。そして、発話区間検出装置1から通知される発話区間に関するデータに基づいて、通信制御部2が音声認識処理を行う。通信制御部2は第2世代携帯電話通信、第3世代携帯電話通信あるいはそれ以上の世代の携帯電話通信を実現するものでも良く、その構成は問わない。
なお、通信制御部2には、マイクロフォン20、スピーカSP、表示部D、アンテナANTが接続されている。
発話区間検出装置1と、通信制御部2との独立性を高めた上記図11の構成を採用した場合は、図13に示されているように、発話区間検出装置1と、通信制御部2との間に、上述した音声信号データベースDBが設けられることになる。そして、この音声信号データベースDBに音声信号データを保存することで、発話区間検出装置1から通信制御部2に音声信号データが受け渡されることになる。
(送信システムへの応用)
上述した発話区間検出装置は、発話区間に対応する発話音声信号について符号化処理を行い、符号化された音声信号を送信する送信システムに適用することができる。以下、このことについて、説明する。
携帯電話機などの携帯型通信端末には、大容量のバッテリを搭載することができない。したがって、携帯型通信端末で連続使用時間を長くするためには、バッテリ寿命の向上を図る必要がある。そのため携帯電話機では、有音/無音をVAD(Voice Activity Detector)を用いて判定している。そして、音声がない区間では、極端に少ない情報量を送信するか、もしくは送信を停止する間欠送信が行われている。間欠送信は、携帯電話機のバッテリ寿命の向上や干渉の低減などに有効である。この点については、仲、大矢、三枝、濱による文献“モバイルマルチメディア信号処理技術特集 音声符号化技術”、NTTドコモテクニカルジャーナル、Vol.8、No4、pp25−33、2001に記載されている。
VADによる効果は、それだけでなく、現在商用化されている 第3世代携帯電話サービスなどに用いられている方式であるCDMA(code division multiple access)等においては、通信チャンネルを有効活用する効果もある。すなわち、無音区間に送信する情報を削減することで、通信チャネルを他のユーザに割り振ることができるようになり、通信チャネルを有効活用できる。
VADは検出した音声信号のパワーやピッチ、トーンなどを抽出し、発話区間を検出する方法である。携帯電話機に適用されるVADは、具体的には3GPP TS26.094で規定されている。また、音声信号は、20msや40msなどのフレーム毎に符号化され、送信されている。
しかし、VADでは音声信号を用いて発話区間を検出しているため、実際の発話が行われた後に発話が開始されたと判定することになる。すなわち、原理上、VADによって発話開始が判定される時刻は、実際の発話開始時刻よりも遅くなってしまう。VADが行われるフレームは、符号化のフレームと同一なものが用いられている。そして、VADによる判定はそのフレーム長に対応する時間が経過し、さらにその判定のための処理を行った後に行われる。そのため、符号化を行う時刻は、VADによる判定の後となってしまい、遅延が生じるという課題があった。
例えば、発話の開始時刻が、あるフレームの先頭と一致した場合、発話開始時刻と判定する時刻までには最低でも20ms(用いるフレーム長に対応する時間と一致)が必要である。さらに、それに加えてVADの判定処理時間分の遅延が発生する。携帯電話機を用いた音声通話のようにリアルタイムのコミュニケーションにおいては、遅延は小さいほど良いため、VADによる遅延は小さい方が望ましい。
さらに発話開始時刻が、あるフレームの中盤や後半に入ってしまうと、その真の発話開始時刻を含むフレームでは無音区間と有音区間とが混在することになる。例えば、図14には、音声信号Sと、VADが行われるフレーム列Bと、符号化フレーム列Cとが示されている。VADが行われるフレーム列Bについては、斜線が付されているフレームは無音区間と判定され、斜線が付されていないフレームは有音区間と判定される。符号化フレーム列Cについては、網かけされているフレームは低ビットレートで符号化され、網かけされていないフレームは高ビットレートで符号化される。高ビットレートで符号化されたフレームについては高い品質で送受信されるが、低ビットレートで符号化されたフレームについては低い品質で送受信されることになる。
同図に示されているように、真の発話区間の発話開始時刻が、VADが行われるフレーム列Bのうち、フレームFの中盤に位置している。このため、そのフレームFは、同図に示されているように、無音区間と判定される可能性がある。したがって、この場合、判定される発話開始点は、実際の発話開始点よりも遅くなってしまう。この結果、実際の発話先頭のデータが欠落するという問題がある。
また、図14に示されているように、音声信号Sは通常、発話開始から突然大きな振幅が観測されるわけではなく、徐々に振幅が大きくなるという特徴を持つ。そのため、発話先頭を正しく検出することは難しい。音声信号として検出するための閾値を下げれば、それを検出しやすくなるが、周囲の雑音による誤検出の可能性が高まってしまう。このため、ある程度閾値を高く設定する必要がある。そのようにすると、振幅の小さな発話先頭を正しく捉えることは困難である。特に、雑音環境下においては、正確に発話先頭を検出することが困難である。発話音量が小さい時には、音声信号が雑音に埋もれてしまい、VADを用いて発話を検出することが困難になるためである。以上の理由のことにより、実際の発話先頭に対応するフレームが、無音区間と判定されてしまい、発話先頭の欠落や、通話品質の劣化などの問題が生じてしまっていた。
さらに、雑音環境下においては、ユーザは発声していないのにもかかわらず(すなわち本来は無音区間と判定すべき区間)、周囲の雑音の影響を受けて有音区間と判定してしまうという課題があった。このため、不必要に情報を送信しなければならず、携帯電話機のバッテリ寿命を短くし、かつ、不必要に通信チャネルを使ってしまうという問題があった。
ところで、遅延が許容されるのであれば、音声信号のみで発話区間を検出する方法でも問題はない。後から波形を見直して、発話開始点を特定すれば良いからである。しかし携帯電話機を用いた音声通話では、リアルタイムなコミュニケーションが重要であり、遅延は極力小さくする必要がある。遅延を小さくするために例えば、VADを用いず、無音・有音区間にかかわらずに、音声信号を常に高いビットレートで送信すれば、遅延を小さくすることは可能である。しかし、携帯電話機の電池の寿命を向上させ、通信チャネルの有効活用を行う必要があるため、VADを用いない方式は現実的な解決策にはなり得ない。そのため、発話先頭の欠落、通話品質の劣化を防ぐためには、発話区間の判定を、実際の発話開始時刻よりも前に行う必要がある。また、不必要な通信を行わないために、雑音環境下においても正しく発話区間を検出する必要があり、周囲の雑音の影響を受けない方法を用いて発話区間を検出することが望ましい。
ここで、筋電信号は、音声信号に先行して観測されることが一般に指摘されている。筋電信号を実際に観測した例が図15に示されている。同図は、「nana」と発生した場合の音声信号S及び筋電信号Dを示す波形図である。同図を参照すると、音声信号Sに時間tだけ先行して、筋電信号Dが観測されていることが分かる。
図16は、筋電信号と音声信号との発生タイミングのフローを示す図である。同図に示されているように、発話運動の命令が脳から筋肉に伝達されると(ステップS201)、先に筋電信号が発生し(ステップS202)、筋肉の収縮が開始する(ステップS203)。そして、音の生成が開始される(ステップS204)。これにより、発話が開始されることになる。
筋電信号に対する発話区間の検出タイミングと、携帯電話機側の処理タイミングとが図17に示されている。同図を参照すると、発話する人間側のメカニズムのうち、筋電信号の発生(ステップS202)を経て音の生成開始(ステップS204)までは無音区間、音の生成開始(ステップS204)以降は有音区間、である。
発話区間検出装置側では、無音区間において、筋電信号の測定及び発話開始検出のルーチン処理を行い(ステップS205)、筋電信号の発生を検出することにより、発話開始を検出し、発話開始を携帯電話機側に通知する(ステップS206)。その後、発話区間検出装置は発話終了を検出するためのルーチン処理に移行する。発話終了についても、筋電信号によって検出することができる。
携帯電話機側では、無音区間においては間欠送信が行われる(ステップS208)。その後、発話区間検出装置から発話開始が通知されると、携帯電話機側では符号化パラメータが変更され(ステップS209)、その後の有音区間においては連続送信が行われる(ステップS210)。
なお、筋電信号は、周囲の雑音の影響を受けずに測定することが可能である。このことから、筋電信号を用いて発話区間を検出すれば、周囲の雑音の影響を受けずに、発話区間の判定を実際の発話開始時刻よりも前に行うことが可能となる。
図18(A)にはVADのみを用いて発話区間を検出する場合の構成、同図(B)にはVADと筋電信号とを用いて発話区間を検出する場合の構成が示されている。同図(A)は従来手法に相当し、音声信号を入力とし、ビットストリームを出力する符号化器210の符号化のタイミングを、VAD部220による発話区間の検出結果によって決定している。一方、同図(B)は本発明による手法であり、符号化器210の符号化のタイミングを、VAD部220による発話区間の検出結果のみならず、筋電信号を用いた発話区間検出装置230による発話区間の検出結果によって決定している。このように発話区間を検出することによって、不必要な通信を行わずに済み、消費電力を低減できる。
ところで、筋電信号に基づいた発話区間検出と音声信号に基づいた発話区間検出とを組み合わせることにより、より頑強に発話区間を検出することも可能である。例えば、発話はしていないが、あくびをする、咳をする、口を動かすなどの動作を行った場合、筋電信号のみを用いた方法では、それを発話区間として検出してしまう可能性がある。そこで、周囲の雑音の影響を受けない筋電信号と、発話にはつながらない動作の影響を受けない音声信号とを組み合わせることにより、より頑強に発話区間を検出することが可能である。すなわち、図19に示されているように、筋電信号に基づく発話区間検出処理(ステップS211)と、音声信号に基づく発話区間検出処理(ステップS212)とを、統合処理する(ステップS213)ことによって、最終的な発話区間検出結果出力を得る(ステップS214)。
統合処理する場合、音声信号に基づく発話区間検出は、3GPP TS26.094で規定されているVADを用いることが可能である。また、筋電信号に基づく発話区間検出と音声信号に基づく発話区間検出とを統合する際には、2つの方法がある。
第1の方法は、それぞれが検出した有音/無音の検出結果を元に最終的な検出結果を得る方法である。この場合は、例えば両者の結果が有音の場合のみを最終的に有音と判定することや、少なくとも一方が有音と判定した場合を最終的に有音と判定するなどの方法がある。
第2の方法は、それぞれが検出した信号を処理する段階で得られるパラメータを元に最終的な検出結果を得る方法とがある。このパラメータは、判定対象の区間が有音である確率や尤度などに相当するパラメータであり、このパラメータに対して閾値処理を行って発話区間を検出する。例えば筋電信号の場合、RMSなどがこのパラメータである。
また、この第2の方法の場合、両者のパラメータに重みをかけて足し算し、その結果得られたパラメータに対して閾値処理を行う方法や、両者のパラメータをかけ算し、その結果得られるパラメータに対して閾値処理を行う方法などがある。重みをかけることにより、どちらのパラメータに重きを置くのかを設定することができる。例えば、雑音環境下では筋電信号の方により大きな重みをかけ、ほとんど雑音がない環境では音声信号の方により大きな重みをかけるなどすることにより、最終的な検出結果をより精度良くすることが可能である。
また筋電信号測定手段を携帯電話に組み込むことは容易である。すなわち、携帯電話機は、通常、顔に接触させて使用されることから、例えば上述した図7のように構成して筋電信号を測定すれば良い。このように構成すれば、特に使い勝手を悪化させることはない。
以上のように、筋電信号を用いることによって、発話区間の判定を、実際の発話開始時刻よりも前に行うことができる。これを携帯電話のVADに適用することにより、発話先頭の欠落、通話品質の劣化を防ぐことができる。さらに筋電信号を用いて発話区間を判定することにより、周囲の雑音の影響を受けずに発話区間を判定することができる。そして、これを携帯電話機のVADに適用することで、不必要な通信は行わず、必要な通信のみを行うことができるようになる。この結果、バッテリ寿命を向上させ、通信チャネルを有効に活用することができるようになる。
(音声認識装置)
音声認識では、マイクロフォン等から入力された音声信号に対して信号処理を行って、発話内容を認識している。現状の音声認識では、雑音環境下において音声認識の精度が低下することが問題となる。雑音環境下で認識精度が低下する要因として、目的の音声信号以外に雑音が混入していることや、発話区間を正しく判定することができないことが挙げられる。前者の問題に対しては雑音が混入した音声信号をモデル化する方法などが提案されている。
さらに音声認識の精度を向上するために、測定信号から雑音成分を引き算するSpectral Subtraction法(以下、SS法と呼ぶ)が提案されている。このSS法は、S.F.Bollによる文献“Suppression of acoustic noise in speech using spectral subtraction,”IEEE trans. Acoustics, Speech, and Signal Processing, Vol.27, No.2, pp.113-120, 1979に記載されている。
また音声信号から発話区間を検出する方法としては、信号のパワーやピッチを計算することで検出する方法がある。この方法は、3GPP TS26.094に規定されている。
音声信号を用いて発話区間を検出する場合、雑音環境下では発話区間を検出することが困難である。発話区間を検出することができなければ、当然音声認識もできない。例えば、無音区間を誤って発話区間と判定した場合、挿入誤り(しゃべっていない単語や文章が、認識結果に挿入されてしまう誤り)が発生し、発話区間を無音区間と誤って判定した場合には、欠落(しゃべった単語や文章が認識されない誤り)が生じてしまう。またSS法は、音声信号と雑音信号とが混在した観測信号から、雑音信号成分を引き算することで、音声信号のみを抽出する手法である。この手法は、雑音が混入した音声信号を認識する場合に有効な手法であるが、発話区間を検出できなければ当然、それを適用することもできない。
周囲の雑音の影響を受けないで発話区間を検出することができれば、音声認識の誤りを低減すること可能となる。また発話区間を正しく検出することができれば、より効果的にSS法を適用することができるようになり、認識精度の向上を図ることができる。そのために、上述した筋電信号を用いる。
音声認識と組み合わせる場合には、図11に示されているように、検出した発話区間内の音声信号データを音声信号データベースに一時的に保存しておき、発話が終了してから音声認識システムへと送信する方法と、検出した発話区間のみを音声認識システムへと伝達する方法とがある。
前者の方法の場合、1つの音声信号を複数の音声認識システムで処理を行うことが可能であることや、筋電信号を用いて判定した発話区間に誤判定があった場合には、後からそれを修正し、正しい発話区間に対応する音声信号を伝達することが可能であるなどの特徴がある。
また後者の方法を実現する場合、図20に示されているように、筋電信号の測定(ステップS311)、発話開始点の検出(ステップS312)、及び、発話終了点の検出(ステップS313)からなる発話区間検出部301と、音声信号の測定(ステップS321)、音声認識開始(ステップS322)、及び、音声認識終了(ステップS323)からなる音声認識部300とから構成すれば良い。そして、筋電信号測定(ステップS311)、音声信号測定(ステップS321)、が開始されると、発話開始点が検出された場合(ステップS312)に音声認識が開始される(ステップS322)。一方、発話終了点が検出された場合(ステップS313)に音声認識が終了となる(ステップS323)。このように処理を行えば、検出した発話区間のみを音声認識対象とするので、少ないメモリで実現でき、処理も前者に比べて軽く、既存の音声認識システムと容易に統合できるという特徴がある。
ここで、筋電信号を用いて判定した発話区間に誤判定があった場合には、保存しておいたデータについて後からそれを修正し、正しい発話区間を検出する方法について、図21を参照して説明する。同図には発話を行っていない時の筋電信号Dと、それに対する発話区間の判定結果が示されている。
発話を行ってはいないが、例えばあくびをする、咳をする、口を動かすなどの動作を行った場合には、筋電信号Dにその動作に対応する信号が混入する。実際に、同図では3700ms付近から 4500ms付近までそのような信号の混入が認められる。このような時に、筋電信号Dのみを用いて発話区間を判定した場合には、その区間を発話区間と判定する可能性がある。
同図では、初期の判定結果によると、同図中に網かけされている2つのフレームに対して発話区間と検出している。ところが、同図において、6000msまで経過した後から振り返ると、発話区間として判定した2つのフレームは、発話を伴ったものではないと考えることができるようになる。なぜなら、発話区間と判定されたフレームに対応する音声信号のパワーが小さいことや、発話区間として検出された区間が短いことなどからである。このように後から得られる他の情報を用いることや、後から振り返って見たりすることで、誤判定を修正することができるようになる。
なお、この誤判定の基準は対象とするタスク・発話種類(例えば、連続数字のみ、自然な会話、地名などの特定の単語のみ、など)や、自分自身や周囲の環境(例えば、咳やあくびをしやすい、周囲の雑音レベルなど)などによって決定されるべきものである。同図では結果的に当初発話区間と判定した区間を後から振り返ることで最終の判定結果では非発話区間と修正した。これにより、より正しい発話区間の検出が行える。
また、(送信システム)の項で説明したように、筋電信号だけを用いるのではなく、音声信号と組み合わせて発話区間を検出することもできる。
本発明を携帯電話機に適用した場合には、図8、図9のような端末として利用することが可能である。また、ヘッドセットに適用した場合には、図22のように構成することが可能である。すなわち、同図(A)に示されているように、マイクロフォン20と、耳掛け式イヤホンスピーカ30とを一体化したヘッドセット40に、筋電信号測定部50を設ける。また、同図(B)に示されているように、マイクロフォン20と、ヘッドフォン式スピーカ31とを一体化したヘッドセット40に、筋電信号測定部50を設ける。なお、いずれの筋電信号測定部50にも、筋電信号を測定するための電極が設けられ、その電極はユーザ100の顔の皮膚と接触する側に設けられている。
同図(A)、(B)に示されているような構成のヘッドセットを採用することにより、図7、図8の場合と同様に、筋電信号を検出し、それに基づいて発話区間を検出し、音声認識処理を行うことができる。
以上のように、雑音の影響を受けずに発話区間を検出することが可能となることで、ノイズが混入した音声信号を認識する場合に、効果的にSS法を適用することができるようになり音声認識精度の向上、また挿入や欠落誤りの少ない音声認識が実現できる。
(信号レベル制御装置)
電話を介して、他人(特に客)と会話する必要のある職業、例えばテレフォンアポインタでは、通信相手に不愉快な思いをさせない、また不必要に機密情報を漏洩させないことが重要である。また、複数人がそれぞれにマイクロフォンを持っていて発話する場面、例えば会議、討論会、テレビ局のスタジオなど、においては、観衆に伝達される音声信号は雑音が混入していない高品質な音声信号である必要がある。
これら2つの場面に共通することとして、マイクロフォンを持っている人間、もしくはそれを身につけている人間が発話していない時には、マイクロフォンが拾う雑音を通信相手や観衆に伝達すべきでないということである。例えば、テレフォンアポインタの場合を考えると、アポインタが発話していない時の周囲の雑音を伝達すべきでないし、また周囲で個人情報などの機密情報が話されている場合には、その内容を伝達すべきではない。これは会議や討論会、テレビ局のスタジオなどでも同様である。
これを解決するために、例えば電話機には保留機能が付いており、会議や討論会では発話者がマイクロフォンの電源スイッチが付いており、それらをオン/オフ操作することで非発話時には不必要に雑音を伝達することを防ぐことができる。また、テレビ局のスタジオでは、別な人間がマイクロフォンの入力を受け入れるかどうかを判定し、受け入れるのであればオン、受け入れないのであればオフにスイッチを切り替えることで、不必要な雑音が混入することを防いでいる。
以上のように、手動でマイクロフォンの入力を受け入れるか否かを設定する場合、その作業は煩わしいという問題がある。これを自動的に行う方法として、上述したVADを用い、発話区間を検出している間のみマイクロフォンの入力を受け入れるという方法が考えられる。しかしながら、音声信号を基に発話区間を検出するVADでは、実際の発話開始時刻に対して、VADが発話開始と判定する時刻は遅くなってしまい、遅延が生じ、また発話先頭の欠落や、品質劣化を引き起こすという問題がある。またVADを用いた場合には、周囲の雑音の影響を受けやすく、正確に発話区間を検出することが困難であるという問題もある。
そこで、上述した筋電信号を用いて発話区間を検出することで、実際の発話開始時刻よりも前に発話開始を判定し、かつ、周囲の雑音の影響を受けずに発話区間を判定することができる。発話区間の検出方法については、すでに説明したためその説明を省略する。
図23は、マイクロフォンの電源スイッチをオンオフ制御するための構成を示す図である。同図において、マイクロフォン20には、電源スイッチSWを介してバッテリBTから電力が供給されている。マイクロフォン20は入力される音声を電気信号である音声信号に変換する。マイクロフォン20から出力される音声信号は増幅器22などに伝達される。ここで、発話区間検出結果に応じて電源スイッチSWがオンオフ制御される。すなわち、発話開始点の検出に応答して電源スイッチSWがオン状態に制御される。その後、発話終了点の検出に応答して電源スイッチSWがオフ状態に制御される。
以上の動作フローが図24に示されている。同図に示されているように、上記の動作は、筋電信号の測定(ステップS311)、発話開始点の検出(ステップS312)、及び、発話終了点の検出(ステップS313)からなる発話区間検出部301と、マイクロフォンのスイッチのオン(ステップS331)、音声信号伝達開始(ステップS332)、マイクロフォンのスイッチのオフ(ステップS333)、及び、音声信号伝達終了(ステップS334)からなる集音・音声伝達部302とから構成される。そして、筋電信号の測定が開始され(ステップS311)、発話開始点が検出された時(ステップS312)、マイクロフォンの電源スイッチをオンにする(ステップS331)。マイクロフォンの電源スイッチがオンにされたことにより、音声信号の伝達が開始される(ステップS332)。一方、発話終了点が検出された時(ステップS313)、マイクロフォンの電源スイッチをオフにする(ステップS333)。マイクロフォンの電源スイッチがオフにされたことにより、音声信号の伝達が終了となる(ステップS334)。
なお、必ずしもマイクロフォンの電源スイッチをオンオフする必要はなく、発話区間に基づいて、マイクロフォンによって導出される出力信号のレベルを結果的に制御すれば良い。マイクロフォンの電源スイッチをオンオフ操作する代わりに、マイクロフォンの出力信号を増幅する増幅器のゲインを変化させたり、スピーカへの出力を変化させたりしても良い。例えば、図25に示されているように、マイクロフォン20から出力される音声信号を増幅する増幅器22のゲインを、変化制御する場合、発話開始点の検出に応答して増幅器22のゲインを上げ、発話終了点の検出に応答して増幅器22のゲインを下げれば良い。また、図26に示されているように、スピーカSPへの出力を変化させる場合、発話開始点の検出に応答して音量制御回路23の設定音量を上げ、発話終了点の検出に応答して音量制御回路23の設定音量を下げれば良い。
以上の構成の他、非発話区間に対応する音声を通信相手や聴衆に伝達しないようにすることができれば、どのような構成を採用しても構わない。要するに、マイクロフォンによって導出される出力信号のレベルを制御し、非発話区間に対応する音声を出力しないように制御すれば良い。
また、図23の構成を携帯電話機に適用した場合には、図8や図9に示されているような端末として利用することができる。図23の構成をヘッドセットを適用した場合には、図22のように利用することができる。
以上のように、筋電信号を用いて発話区間を検出することで、実際の発話開始時刻よりも前に発話開始を判定でき、かつ、周囲の雑音の影響を受けずに発話区間を判定できる。よって、雑音が混入していない高品質な音声信号を得ることができる。
請求項の記載に関し、本発明は更に以下の態様をとりうる。
(1)前記筋電信号検出手段は、前記発話者の皮膚表面に接触している電極から前記筋電信号を検出することを特徴とする請求項1記載の発話区間検出装置。こうすれば、発話者の皮膚表面に電極を接触させるだけで筋電信号を検出できる。
(2)前記電極は、前記発話者が発話中に使用する端末に設けられていることを特徴とする(1)記載の発話区間検出装置。こうすれば、発話者が使用する端末を利用して筋電信号を検出できる。
一般に、音声認識処理では、発話区間の検出が重要になる。発話区間の検出は、音声信号のみを用いる手法や、発話者の口の動きの画像を用いる手法が提案されている。しかしながら、前者は周囲の雑音レベルが高い場合や、複数人が同時に発話している場合には発話区間を正確に検出できない。また、後者は発話区間検出のためのカメラなどのセンサを特別な位置に設ける必要があるので、実用上不便である。
本発明では、発話者の発話時の筋電信号を用いて発話区間を検出する。発話時の筋肉活動に伴い筋電信号には大きな振幅が現れるので、これを捉えることで発話区間を検出できる。
携帯型端末などに電極を設けておけば、発話時の筋電信号を発話者の皮膚から測定できる。このため、携帯型端末の利用形態、すなわち端末を皮膚に押し当てて利用するという形態と親和性が非常に高い。周囲の雑音レベルが高い場合でも問題なく発話区間を検出でき、かつ、特別な位置にセンサを設ける必要はない。
そして、検出した発話区間に基づいて音声認識処理を行えば、認識精度を向上させることができる。また、検出した発話区間に基づいて符号化処理を行えば、消費電力を削減でき、携帯電話機をはじめとする携帯通信端末のバッテリの寿命を向上させることができる。さらに、検出した発話区間に基づいてマイクロフォンによって導出される出力信号のレベルを制御し、非発話区間に対応する音声を出力しないように制御することで、雑音が混入していない高品質な音声信号を得ることができる。
本発明による発話区間検出装置の構成を示す図である。 筋電信号と音声信号との関係を示す図である。 筋電信号のRMS時系列表示を示す図である。 筋電信号についての発話区間の判定処理例を示すフローチャートである。 筋電信号についての発話区間の判定処理の変形例を示すフローチャートである。 図1の構成にカウンタを追加した構成例を示すブロック図である。 本発明による発話区間検出装置を採用した携帯型端末の使用例を示す概略図である。 筋電信号検出用皮膚表面電極の配置例を示す概略図である。 本発明による発話区間検出装置を採用した携帯型端末の動作の一例を示すフローチャートである。 本発明による発話区間検出装置を採用した携帯型端末の動作の他の例を示すフローチャートである。 本発明による発話区間検出装置を採用した携帯型端末の動作のさらに他の例を示すフローチャートである。 本発明による発話区間検出装置を携帯電話端末に適用した場合の一構成例を示すブロック図である。 本発明による発話区間検出装置を携帯電話端末に適用した場合の他の構成例を示すブロック図である。 音声信号と、VADが行われるフレーム列と、符号化フレーム列との関係を示す図である。 音声信号と筋電信号との関係を示す図である。 筋電信号と音声信号との発生タイミングのフローを示す図である。 筋電信号に対する発話区間の検出タイミングと、携帯電話機側の処理タイミングとを示す図である。 (A)はVADのみを用いて発話区間を検出する場合の構成を示す図、(B)は同図(B)にはVADと筋電信号とを用いて発話区間を検出する場合の構成を示す図である。 筋電信号に基づく発話区間検出処理と、音声信号に基づく発話区間検出処理とを、統合処理する点を示す図である。 検出した発話区間を伝達して音声認識処理を行う場合の構成を示す図である。 筋電信号を用いて判定した発話区間に誤判定があった場合には、保存しておいたデータについて後からそれを修正し、正しい発話区間を検出する方法を示す図である。 (A)は耳掛け式イヤホンスピーカを含むヘッドセットの例を示す図、同図(B)はヘッドフォン式スピーカを含むヘッドセットの例を示す図である。 マイクロフォンの電源スイッチをオンオフ制御するための構成を示す図である。 マイクロフォンの電源スイッチをオンオフ制御する場合の動作フローを示す図である。 マイクロフォンから出力される音声信号を増幅する増幅器のゲインを変化制御するための構成を示す図である。 スピーカSPへの出力を変化させるための構成を示す図である。
符号の説明
1 発話区間検出装置
1a 携帯型端末
2 通信制御部
10a〜10f 皮膚表面電極
11 筋電信号検出部
12 筋電信号処理部
13 発話区間検出部
14 発話区間通知部
15 カウンタ
20 マイクロフォン
21 ヒンジ
22 増幅器
23 音量制御回路
30 耳掛け式イヤホンスピーカ
31 ヘッドフォン式スピーカ
40 ヘッドセット
50 筋電信号測定部
100 ユーザ
300 音声認識部
301 発話区間検出部
302 集音・音声伝達部
DB 音声信号データベース
K 筋電信号
S 音声信号

Claims (9)

  1. 発話者の発話中における筋電信号を検出する筋電信号検出手段と、前記筋電信号検出手段によって検出された筋電信号に基づいて発話区間を検出する発話区間検出手段と、前記筋電信号の振幅値と所定閾値との比較結果をカウントするカウンタとを含み、前記発話区間検出手段は、前記カウンタのカウント値が前記所定閾値を超えた場合に限り、発話区間であると判定することを特徴とする発話区間検出装置。
  2. 前記筋電信号検出手段は、前記発話者が発話中に使用する端末の筐体において、前記発話者の発話中に該発話者の皮膚と接触する部分に設けられている電極から、前記筋電信号を検出することを特徴とする請求項1記載の発話区間検出装置。
  3. 前記発話区間検出手段は、前記筋電信号の振幅値と所定閾値とを比較することで前記発話区間の発話開始タイミング及び発話終了タイミングを検出することを特徴とする請求項1又は2記載の発話区間検出装置。
  4. 前記発話者の発話音声信号を保存するための記憶手段を更に含み、前記発話開始タイミングで前記発話音声信号の保存を開始し、前記発話終了タイミングで前記発話音声信号の保存を終了するようにしたことを特徴とする請求項1から請求項3までのいずれか1項に記載の発話区間検出装置。
  5. 発話音声信号について音声認識処理を行う音声認識処理装置であって、請求項1から請求項3までのいずれか1項に記載の発話区間検出装置によって検出された発話区間に対応する発話音声信号について音声認識処理を行う音声認識処理手段を含むことを特徴とする音声認識処理装置。
  6. 発話音声信号について音声認識処理を行う音声認識処理装置であって、請求項4に記載の発話区間検出装置によって前記記憶手段に記憶された発話音声信号について音声認識処理を行う音声認識処理手段を含むことを特徴とする音声認識処理装置。
  7. 発話区間に対応する発話音声信号について符号化処理を行い、符号化された音声信号を送信する送信システムであって、請求項1から請求項4までのいずれか1項記載の発話区間検出装置によって検出される発話区間に基づいて、前記符号化処理のタイミングを決定する符号化処理タイミング決定手段を含むことを特徴とする送信システム。
  8. マイクロフォンによって導出される出力信号のレベルを制御する信号レベル制御装置であって、請求項1から請求項4までのいずれか1項記載の発話区間検出装置によって検出される発話区間に基づいて、前記出力信号のレベルを制御する制御手段を含み、非発話区間に対応する音声を出力しないように制御することを特徴とする信号レベル制御装置。
  9. 発話者の発話中における筋電信号を検出する筋電信号検出ステップと、前記筋電信号検出ステップにおいて検出された筋電信号に基づいて発話区間を検出する発話区間検出ステップと、前記筋電信号の振幅値と所定閾値との比較結果をカウントするカウントステップとを含み、前記発話区間検出ステップにおいては、前記カウントステップのカウント値が前記所定閾値を超えた場合に限り、発話区間であると判定するようにしたことを特徴とする発話区間検出方法。
JP2004250792A 2003-09-19 2004-08-30 発話区間検出装置、音声認識処理装置、送信システム、信号レベル制御装置、発話区間検出方法 Active JP4713111B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2004250792A JP4713111B2 (ja) 2003-09-19 2004-08-30 発話区間検出装置、音声認識処理装置、送信システム、信号レベル制御装置、発話区間検出方法
EP04021768A EP1517298B1 (en) 2003-09-19 2004-09-14 Speaking period detection based on electromyography
US10/939,566 US7627470B2 (en) 2003-09-19 2004-09-14 Speaking period detection device, voice recognition processing device, transmission system, signal level control device and speaking period detection method
DE602004003443T DE602004003443T2 (de) 2003-09-19 2004-09-14 Sprachperiodenerkennung basierend auf Elektromyographie
CNB2004100787901A CN100361197C (zh) 2003-09-19 2004-09-17 说话时段检测设备及方法、语音识别处理设备

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2003327843 2003-09-19
JP2003327843 2003-09-19
JP2004250792A JP4713111B2 (ja) 2003-09-19 2004-08-30 発話区間検出装置、音声認識処理装置、送信システム、信号レベル制御装置、発話区間検出方法

Publications (2)

Publication Number Publication Date
JP2005115345A JP2005115345A (ja) 2005-04-28
JP4713111B2 true JP4713111B2 (ja) 2011-06-29

Family

ID=34197218

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004250792A Active JP4713111B2 (ja) 2003-09-19 2004-08-30 発話区間検出装置、音声認識処理装置、送信システム、信号レベル制御装置、発話区間検出方法

Country Status (5)

Country Link
US (1) US7627470B2 (ja)
EP (1) EP1517298B1 (ja)
JP (1) JP4713111B2 (ja)
CN (1) CN100361197C (ja)
DE (1) DE602004003443T2 (ja)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007114417A (ja) * 2005-10-19 2007-05-10 Fujitsu Ltd 音声データ処理方法及び装置
JP2008216618A (ja) * 2007-03-05 2008-09-18 Fujitsu Ten Ltd 音声判別装置
JP5030150B2 (ja) * 2007-03-20 2012-09-19 独立行政法人産業技術総合研究所 筋電位信号による音声認識装置
US8348839B2 (en) * 2007-04-10 2013-01-08 General Electric Company Systems and methods for active listening/observing and event detection
KR100869242B1 (ko) * 2007-12-13 2008-11-18 한국전자통신연구원 이동 통신 단말기를 이용한 건강 관리 시스템 및 방법
EP2286348A2 (en) 2008-05-28 2011-02-23 Koninklijke Philips Electronics N.V. Method and system for determining a threshold for spike detection of electrophysiological signals
RU2011129606A (ru) * 2008-12-16 2013-01-27 Конинклейке Филипс Электроникс Н.В. Обработка речевого сигнала
US8626498B2 (en) * 2010-02-24 2014-01-07 Qualcomm Incorporated Voice activity detection based on plural voice activity detectors
US10226209B2 (en) 2010-10-15 2019-03-12 Brain Sentinel, Inc. Method and apparatus for classification of seizure type and severity using electromyography
MX370873B (es) * 2010-10-15 2020-01-08 Brain Sentinel Inc Metodo y aparato para detectar convulsiones.
CN102781075B (zh) * 2011-05-12 2016-08-24 中兴通讯股份有限公司 一种降低移动终端通话功耗的方法及移动终端
JP5797009B2 (ja) * 2011-05-19 2015-10-21 三菱重工業株式会社 音声認識装置、ロボット、及び音声認識方法
RU2492839C1 (ru) * 2012-04-20 2013-09-20 Константин Викторович Константинов Способ активации речевых функций головного мозга
US9263044B1 (en) * 2012-06-27 2016-02-16 Amazon Technologies, Inc. Noise reduction based on mouth area movement recognition
CN104575500B (zh) * 2013-10-24 2018-09-11 中国科学院苏州纳米技术与纳米仿生研究所 电子皮肤在语音识别上的应用、语音识别系统和方法
US9202463B2 (en) * 2013-04-01 2015-12-01 Zanavox Voice-activated precision timing
US9607630B2 (en) * 2013-04-16 2017-03-28 International Business Machines Corporation Prevention of unintended distribution of audio information
GB2519117A (en) * 2013-10-10 2015-04-15 Nokia Corp Speech processing
US9564128B2 (en) * 2013-12-09 2017-02-07 Qualcomm Incorporated Controlling a speech recognition process of a computing device
US8719032B1 (en) * 2013-12-11 2014-05-06 Jefferson Audio Video Systems, Inc. Methods for presenting speech blocks from a plurality of audio input data streams to a user in an interface
KR20150104345A (ko) * 2014-03-05 2015-09-15 삼성전자주식회사 음성 합성 장치 및 음성 합성 방법
KR102245098B1 (ko) 2014-05-23 2021-04-28 삼성전자주식회사 휴대 단말 및 그 제어 방법
US20160253996A1 (en) * 2015-02-27 2016-09-01 Lenovo (Singapore) Pte. Ltd. Activating voice processing for associated speaker
US20160284363A1 (en) * 2015-03-24 2016-09-29 Intel Corporation Voice activity detection technologies, systems and methods employing the same
CA2982988A1 (en) 2015-04-17 2016-10-20 Brain Sentinel, Inc. Method of monitoring a patient for seizure activity
JP6500625B2 (ja) * 2015-06-16 2019-04-17 カシオ計算機株式会社 検知装置、検知システム、検知方法及びプログラム
KR20180055661A (ko) 2016-11-16 2018-05-25 삼성전자주식회사 전자 장치 및 그 제어 방법
KR102410998B1 (ko) * 2016-11-16 2022-06-21 삼성전자주식회사 전자 장치 및 그 제어 방법
WO2018093183A1 (ko) * 2016-11-16 2018-05-24 삼성전자 주식회사 전자 장치 및 그 제어 방법
CN106792048B (zh) * 2016-12-20 2020-08-14 Tcl科技集团股份有限公司 一种识别智能电视用户语音命令的方法和装置
US10924869B2 (en) 2018-02-09 2021-02-16 Starkey Laboratories, Inc. Use of periauricular muscle signals to estimate a direction of a user's auditory attention locus
US10997979B2 (en) * 2018-06-21 2021-05-04 Casio Computer Co., Ltd. Voice recognition device and voice recognition method
CN111583916B (zh) * 2020-05-19 2023-07-25 科大讯飞股份有限公司 一种语音识别方法、装置、设备及存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
DE4212907A1 (de) * 1992-04-05 1993-10-07 Drescher Ruediger Spracherkennungsverfahren für Datenverarbeitungssysteme u.s.w.
JPH0612483A (ja) * 1992-06-26 1994-01-21 Canon Inc 音声入力方法及び装置
US5794203A (en) * 1994-03-22 1998-08-11 Kehoe; Thomas David Biofeedback system for speech disorders
US6231500B1 (en) * 1994-03-22 2001-05-15 Thomas David Kehoe Electronic anti-stuttering device providing auditory feedback and disfluency-detecting biofeedback
SE513456C2 (sv) * 1994-05-10 2000-09-18 Telia Ab Metod och anordning vid tal- till textomvandling
US6055501A (en) * 1997-07-03 2000-04-25 Maccaughelty; Robert J. Counter homeostasis oscillation perturbation signals (CHOPS) detection
JP2002135320A (ja) 2000-10-27 2002-05-10 Sony Corp 送信装置、通信システムおよび送信方法
US6741966B2 (en) * 2001-01-22 2004-05-25 Telefonaktiebolaget L.M. Ericsson Methods, devices and computer program products for compressing an audio signal
JP2002358089A (ja) * 2001-06-01 2002-12-13 Denso Corp 音声処理装置及び音声処理方法
JP3908965B2 (ja) * 2002-02-28 2007-04-25 株式会社エヌ・ティ・ティ・ドコモ 音声認識装置及び音声認識方法
JP2003255993A (ja) * 2002-03-04 2003-09-10 Ntt Docomo Inc 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム
JP2004348382A (ja) * 2003-05-21 2004-12-09 Ntt Docomo Inc 携帯型電子装置およびその制御方法

Also Published As

Publication number Publication date
EP1517298B1 (en) 2006-11-29
EP1517298A1 (en) 2005-03-23
DE602004003443T2 (de) 2007-10-04
JP2005115345A (ja) 2005-04-28
CN1601604A (zh) 2005-03-30
US7627470B2 (en) 2009-12-01
US20050102134A1 (en) 2005-05-12
DE602004003443D1 (de) 2007-01-11
CN100361197C (zh) 2008-01-09

Similar Documents

Publication Publication Date Title
JP4713111B2 (ja) 発話区間検出装置、音声認識処理装置、送信システム、信号レベル制御装置、発話区間検出方法
US10475467B2 (en) Systems, methods and devices for intelligent speech recognition and processing
EP1443498B1 (en) Noise reduction and audio-visual speech activity detection
US10540979B2 (en) User interface for secure access to a device using speaker verification
US9497317B2 (en) Bluetooth headset with an audio table
JP4796309B2 (ja) モバイル・デバイス上のマルチセンサによるスピーチ改良のための方法および装置
JP5607627B2 (ja) 信号処理装置及び信号処理方法
KR102158739B1 (ko) 자동통역 시스템, 디바이스 및 방법
CN110097875B (zh) 基于麦克风信号的语音交互唤醒电子设备、方法和介质
US9208798B2 (en) Dynamic control of voice codec data rate
JP5051882B2 (ja) 音声対話装置、音声対話方法及びロボット装置
WO2017085992A1 (ja) 情報処理装置
JP2009178783A (ja) コミュニケーションロボット及びその制御方法
CN114328851A (zh) 用于私密对话的耳语转换
CN105997084B (zh) 一种人体口气的检测方法及装置
CN109672787A (zh) 一种设备智能提醒方法
JP4632831B2 (ja) 音声認識方法および音声認識装置
JP2004004182A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP2010118955A (ja) 携帯電話端末、音声処理方法及びヘッドセット
GB2580655A (en) Reducing a noise level of an audio signal of a hearing system
KR20000058299A (ko) 거짓말 탐지 기능을 가지는 휴대용 단말기 및 이를 이용한거짓말 탐지방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070404

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100427

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100624

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110322

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110324

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250