JP4713111B2 - 発話区間検出装置、音声認識処理装置、送信システム、信号レベル制御装置、発話区間検出方法 - Google Patents
発話区間検出装置、音声認識処理装置、送信システム、信号レベル制御装置、発話区間検出方法 Download PDFInfo
- Publication number
- JP4713111B2 JP4713111B2 JP2004250792A JP2004250792A JP4713111B2 JP 4713111 B2 JP4713111 B2 JP 4713111B2 JP 2004250792 A JP2004250792 A JP 2004250792A JP 2004250792 A JP2004250792 A JP 2004250792A JP 4713111 B2 JP4713111 B2 JP 4713111B2
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- speech
- signal
- section
- detecting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/015—Input arrangements based on nervous system activity detection, e.g. brain waves [EEG] detection, electromyograms [EMG] detection, electrodermal response detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Description
これらの文献記載されている技術や、その他の従来技術においては、大きく分けて2つのアプローチがある。1つは音声信号のみから発話区間を検出しようとするものである。もう1つは音声信号だけでなく、非音声信号から発話区間を検出しようとするものである。
"マイクロフォンアレイとカルマンフィルタによる実環境下でのハンズフリー音声認識−対話型テレビのフロントエンドシステムの構築−"藤本雅清、有木廉雄、第4回DSPS教育者会議、pp.55−58、2002−08. "口周囲画像による頑強な発話検出"村井和昌、野間啓介、熊谷建一、松井知子、中村哲、情報処理学会研究報告「音声言語情報処理」No.034−013、2000
しかし、非音声信号を用いた場合には、音声認識を行うためにマイクロフォン以外の他のセンサを設置しなければならないことが問題として挙げられる。例えば非音声信号として画像を用いた場合には、口唇部が常に視界に入るようにカメラを設置しなければならず、さらにカメラの視野の中で口唇部が常に一定の位置にあることが必要となる。しかしそのようにカメラを設置することは実用上非常に困難である。またそれだけでなく、口唇部の画像から発話区間を検出するためには、画像認識技術が必要となる。
そこで本発明は、非音声信号である筋電信号から発話区間を検出することで、非音声信号を検出するためのセンサ設置の課題、演算量の課題を解決できる発話区間検出装置、発話区間検出方法の提供を目的としている。また、本発明は、上記発話区間検出装置を利用した音声認識処理装置、送信システム、信号レベル制御装置の提供をも目的としている。
図1は本発明による発話区間検出装置の主要部分の構成を示すブロック図である。本発明による発話区間検出装置1は、筋電信号検出部11と、筋電信号処理部12と、発話区間検出部13と、発話区間通知部14とを含んで構成されている。
筋電信号処理部12では、筋電信号検出部11で検出された筋電信号を増幅する。また、筋電信号処理部12は、ノイズ除去や所望の信号を効率よく導き出すことを目的として、ローパスフィルタやハイパスフィルタなどで筋電信号を処理する。さらに発話区間検出部13で必要とされるパラメータを算出する。
発話区間通知部14では、発話区間検出部13で検出された発話区間の開始点及び終了点を、後に続く音声認識アルゴリズムに対して通知し、音声認識を行うように通知する。なお、発話区間通知部14によって通知される、発話区間の開始点及び終了点を用いて音声認識処理する音声認識アルゴリズムは、特に限定されるものではなく、どのようなアルゴリズムであってもよい。
図2には、本発明の基本原理である、筋電信号と音声信号との関係が示されている。同図において、横軸は時間(秒)、縦軸は振幅である。
ここで注日すべきことは、音声信号Sと筋電信号Kとが同期しているということである。より具体的に述べれば、約1.5秒〜3.2秒までの間、発話者は「あいうえお」と発声しており、それに相当する大きな振幅の音声信号が観測されている。それに対して、筋電信号でも同様にその区間に大きな振幅が観測されている。
本発明は、図2に示されているように、音声信号と筋電信号とが同期しているのを、発明者が見出したことからなされたものである。また、発声した内容が「あいうえお」だけでなく、他の内容であっても図2に示されているように、音声信号と筋電信号とは同期していることがわかった。要するに、発話者の発話時の筋肉活動に伴い、筋電信号には大きな振幅が観測されるので、これを観測することで、発話区間を検出することができる。
以下では、具体的に発話区間を検出する処理について説明する。
図3には、筋電信号について発話区間を検出するための処理の一例が示されている。図3は、図2に示されている筋電信号から二乗平均平方(Root Mean Square;以下、RMSと略称する)を算出し、それを時系列に表示したものである。同図において、横軸は時間(秒)、縦軸はRMS値(RMS value)である。RMS値の算出は、フレーム周期20ms、フレーム長50msとして行った。
図4は、筋電信号についての発話区間の判定処理を示すフローチャートである。
そして事前に設定された閾値を元に、その閾値を超えているか、超えていないかを判定する(ステップS43)。もし閾値を超えていれば、その区間を発話区間として判定する(ステップS44)。一方、閾値を超えていなければ、その区間を非発話区間として判定する(ステップS45)。以上の処理は繰返し行われる。
以上のように、筋電信号の振幅値と所定閾値とを比較することで、発話区間の発話開始タイミング及び発話終了タイミングを検出できる。要するに、発話者の発話時の筋肉活動に伴い筋電信号には大きな振幅が現れるので、これを捉えることで発話区間すなわち発話開始タイミング及び発話終了タイミングを検出できるのである。
また、図4に示されているフローチャートに、図5に示されているフローチャートを加えることも可能である。図4に示されているフローチャートでは、なんらかの原因によって筋電信号に瞬間的な大きな振幅が含まれてしまった場合に、その区間だけはたとえ非発話区間であったとしても、それを発話区間として判定してしまうという問題がある。そのような短時間での変動による影響を低減するために、図4のフローチャート中のステップS43〜S45の代わりに、図5に示されているフローチャートを加えることが可能である。
なお、ステップS52において、状態が変わった場合には、カウンタのカウント値をリセットし(ステップS52→S51)、引き続き処理が継続される。
つまり、図2において約2秒、約2.5秒付近に筋電信分の振幅が小さく落ち込んでいる現象が確認できる。図4のフローを用いた場合には、その部分は非発話区間として扱われることになる。しかし、図5のフローチャートを付加することによって、この部分を非発話区間として判定するのではなく、発話区間として扱うことができるようになる。
以上説明した発話区間検出装置においては、以下のような発話区間検出方法が採用されている。すなわち、発話者の発話中における筋電信号を検出する筋電信号検出ステップ(図4中のステップS41に対応)と、前記筋電信号検出ステップにおいて検出された筋電信号に基づいて発話区間を検出する発話区間検出ステップ(図4中のステップS42〜S44に対応)とを含み、前記発話区間検出ステップにおいて検出された発話区間に関する情報を通知するようにした発話区間検出方法が採用されている。この構成によれば、筋電信号に基づいて発話区間を検出することが可能となる。従って、周囲の雑音状況によらず、発話区間を検出できるようになり、雑音環境下における音声認識が可能となる。
(使用例)
図7には本発明による発話区間検出装置を採用した携帯型端末の使用例が示されている。同図では、携帯電話機のような携帯型端末を利用してコミュニケーションを行っている場面を想定している。
ところで、携帯電話などの携帯型端末を利用してコミュニケーションを行う場合、その端末のマイクロフォンは口周辺に位置し、スピーカは耳周辺に位置することは今後も変わることがない事実であると考えられる。
要するに、携帯型端末などは、皮膚に押し当てて利用されることが普通に行われるので、この利用形態と本発明とは親和性が非常に高い。
図8には電極の配置例が示されている。同図には携帯型端末に筋電信号検出用皮膚表面電極を設けた場合の例が示されている。同図(A)に示されている例では、大きめの皮膚表面電極10c及び10dが携帯型端末1aに設けられている。これら皮膚表面電極10c及び10dは、それぞれ例えば2cm×3cmほどの大きさの平板電極である。皮膚表面電極10cは例えばユーザの頬部分に、皮膚表面電極10dは例えばユーザの口元部分に、それぞれ接触することになるので、これら一対の電極により、筋電信号を検出することができる。
図9は本発明による発話区間検出装置を採用した携帯型端末の動作の一例を示すフローチャートである。
ユーザが発話を開始すると、口周辺の筋肉が活動するため検出した筋電信号には非発話時(発話を行っていない状態、通常の音声認識における無声区間)に比べて大きな振幅が観察される。この大きな振幅を検出することにより、発話開始点を検出する(ステップS82)。
次に、検出した発話開始点及び発話終了点を、外部に通知する(ステップS84)。これにより、後に続く音声認識アルゴリズムなり、音声認識装置へと通知し、音声認識の開始を促す。
また、図10は本発明による発話区間検出装置を採用した携帯型端末の動作の他の例を示すフローチャートである。図10の動作が図9の動作と異なる点は、発話開始点を検出した際に、すぐさまその旨を認識アルゴリズムなり、音声認識装置なりに通知する点である。
ユーザが発話を開始すると、口周辺の筋肉が活動するため検出した筋電信号には非発話時に比べて大きな振幅が観察される。この大きな振幅を検出することにより、発話開始点を検出する(ステップS92)。 この発話開始点の検出に応答して、その検出した旨を外部に通知する(ステップS93)。
以上のように、検出した発話開始点及び発話終了点を、外部に通知することにより、後に続く音声認識アルゴリズムなり、音声認識装置へと通知し、音声認識の開始を促す。
すなわち、まずユーザは携帯型端末を皮膚に接触させる。この接触させた後に、皮膚と接触した筋電信号検出用皮膚表面電極を介して筋電信号を検出する(ステップS101)。
また、ユーザの発話が終了すると、検出された筋電信号の振幅が小さくなる。この振幅が小さくなる点を検出することにより、発話終了点を検出する(ステップS104)。この発話終了点の検出に応答して、音声信号データベースDBへの保存が終了となる(ステップS105)。この終了後、音声信号データベースDBに保存されている音声信号データが音声認識アルゴリズムなど、外部に通知される(ステップS106)。
このように動作することにより、一般的な音声認識アルゴリズムや音声認識装置を特に改変することなく、本発明の発話区間検出装置を採用した携帯型端末とそれらとを組み合わせて利用することができるようになる。音声認識装置との組合せについては、後述する。
本発明による発話区間検出装置を携帯電話端末に適用した場合、図12に示されているような構成となる。すなわち、発話区間検出装置1と、通信制御部2とを含んで携帯型端末1aが構成される。そして、発話区間検出装置1から通知される発話区間に関するデータに基づいて、通信制御部2が音声認識処理を行う。通信制御部2は第2世代携帯電話通信、第3世代携帯電話通信あるいはそれ以上の世代の携帯電話通信を実現するものでも良く、その構成は問わない。
発話区間検出装置1と、通信制御部2との独立性を高めた上記図11の構成を採用した場合は、図13に示されているように、発話区間検出装置1と、通信制御部2との間に、上述した音声信号データベースDBが設けられることになる。そして、この音声信号データベースDBに音声信号データを保存することで、発話区間検出装置1から通信制御部2に音声信号データが受け渡されることになる。
上述した発話区間検出装置は、発話区間に対応する発話音声信号について符号化処理を行い、符号化された音声信号を送信する送信システムに適用することができる。以下、このことについて、説明する。
しかし、VADでは音声信号を用いて発話区間を検出しているため、実際の発話が行われた後に発話が開始されたと判定することになる。すなわち、原理上、VADによって発話開始が判定される時刻は、実際の発話開始時刻よりも遅くなってしまう。VADが行われるフレームは、符号化のフレームと同一なものが用いられている。そして、VADによる判定はそのフレーム長に対応する時間が経過し、さらにその判定のための処理を行った後に行われる。そのため、符号化を行う時刻は、VADによる判定の後となってしまい、遅延が生じるという課題があった。
図16は、筋電信号と音声信号との発生タイミングのフローを示す図である。同図に示されているように、発話運動の命令が脳から筋肉に伝達されると(ステップS201)、先に筋電信号が発生し(ステップS202)、筋肉の収縮が開始する(ステップS203)。そして、音の生成が開始される(ステップS204)。これにより、発話が開始されることになる。
発話区間検出装置側では、無音区間において、筋電信号の測定及び発話開始検出のルーチン処理を行い(ステップS205)、筋電信号の発生を検出することにより、発話開始を検出し、発話開始を携帯電話機側に通知する(ステップS206)。その後、発話区間検出装置は発話終了を検出するためのルーチン処理に移行する。発話終了についても、筋電信号によって検出することができる。
なお、筋電信号は、周囲の雑音の影響を受けずに測定することが可能である。このことから、筋電信号を用いて発話区間を検出すれば、周囲の雑音の影響を受けずに、発話区間の判定を実際の発話開始時刻よりも前に行うことが可能となる。
第1の方法は、それぞれが検出した有音/無音の検出結果を元に最終的な検出結果を得る方法である。この場合は、例えば両者の結果が有音の場合のみを最終的に有音と判定することや、少なくとも一方が有音と判定した場合を最終的に有音と判定するなどの方法がある。
また、この第2の方法の場合、両者のパラメータに重みをかけて足し算し、その結果得られたパラメータに対して閾値処理を行う方法や、両者のパラメータをかけ算し、その結果得られるパラメータに対して閾値処理を行う方法などがある。重みをかけることにより、どちらのパラメータに重きを置くのかを設定することができる。例えば、雑音環境下では筋電信号の方により大きな重みをかけ、ほとんど雑音がない環境では音声信号の方により大きな重みをかけるなどすることにより、最終的な検出結果をより精度良くすることが可能である。
以上のように、筋電信号を用いることによって、発話区間の判定を、実際の発話開始時刻よりも前に行うことができる。これを携帯電話のVADに適用することにより、発話先頭の欠落、通話品質の劣化を防ぐことができる。さらに筋電信号を用いて発話区間を判定することにより、周囲の雑音の影響を受けずに発話区間を判定することができる。そして、これを携帯電話機のVADに適用することで、不必要な通信は行わず、必要な通信のみを行うことができるようになる。この結果、バッテリ寿命を向上させ、通信チャネルを有効に活用することができるようになる。
(音声認識装置)
音声認識では、マイクロフォン等から入力された音声信号に対して信号処理を行って、発話内容を認識している。現状の音声認識では、雑音環境下において音声認識の精度が低下することが問題となる。雑音環境下で認識精度が低下する要因として、目的の音声信号以外に雑音が混入していることや、発話区間を正しく判定することができないことが挙げられる。前者の問題に対しては雑音が混入した音声信号をモデル化する方法などが提案されている。
音声信号を用いて発話区間を検出する場合、雑音環境下では発話区間を検出することが困難である。発話区間を検出することができなければ、当然音声認識もできない。例えば、無音区間を誤って発話区間と判定した場合、挿入誤り(しゃべっていない単語や文章が、認識結果に挿入されてしまう誤り)が発生し、発話区間を無音区間と誤って判定した場合には、欠落(しゃべった単語や文章が認識されない誤り)が生じてしまう。またSS法は、音声信号と雑音信号とが混在した観測信号から、雑音信号成分を引き算することで、音声信号のみを抽出する手法である。この手法は、雑音が混入した音声信号を認識する場合に有効な手法であるが、発話区間を検出できなければ当然、それを適用することもできない。
音声認識と組み合わせる場合には、図11に示されているように、検出した発話区間内の音声信号データを音声信号データベースに一時的に保存しておき、発話が終了してから音声認識システムへと送信する方法と、検出した発話区間のみを音声認識システムへと伝達する方法とがある。
また後者の方法を実現する場合、図20に示されているように、筋電信号の測定(ステップS311)、発話開始点の検出(ステップS312)、及び、発話終了点の検出(ステップS313)からなる発話区間検出部301と、音声信号の測定(ステップS321)、音声認識開始(ステップS322)、及び、音声認識終了(ステップS323)からなる音声認識部300とから構成すれば良い。そして、筋電信号測定(ステップS311)、音声信号測定(ステップS321)、が開始されると、発話開始点が検出された場合(ステップS312)に音声認識が開始される(ステップS322)。一方、発話終了点が検出された場合(ステップS313)に音声認識が終了となる(ステップS323)。このように処理を行えば、検出した発話区間のみを音声認識対象とするので、少ないメモリで実現でき、処理も前者に比べて軽く、既存の音声認識システムと容易に統合できるという特徴がある。
発話を行ってはいないが、例えばあくびをする、咳をする、口を動かすなどの動作を行った場合には、筋電信号Dにその動作に対応する信号が混入する。実際に、同図では3700ms付近から 4500ms付近までそのような信号の混入が認められる。このような時に、筋電信号Dのみを用いて発話区間を判定した場合には、その区間を発話区間と判定する可能性がある。
本発明を携帯電話機に適用した場合には、図8、図9のような端末として利用することが可能である。また、ヘッドセットに適用した場合には、図22のように構成することが可能である。すなわち、同図(A)に示されているように、マイクロフォン20と、耳掛け式イヤホンスピーカ30とを一体化したヘッドセット40に、筋電信号測定部50を設ける。また、同図(B)に示されているように、マイクロフォン20と、ヘッドフォン式スピーカ31とを一体化したヘッドセット40に、筋電信号測定部50を設ける。なお、いずれの筋電信号測定部50にも、筋電信号を測定するための電極が設けられ、その電極はユーザ100の顔の皮膚と接触する側に設けられている。
以上のように、雑音の影響を受けずに発話区間を検出することが可能となることで、ノイズが混入した音声信号を認識する場合に、効果的にSS法を適用することができるようになり音声認識精度の向上、また挿入や欠落誤りの少ない音声認識が実現できる。
(信号レベル制御装置)
電話を介して、他人(特に客)と会話する必要のある職業、例えばテレフォンアポインタでは、通信相手に不愉快な思いをさせない、また不必要に機密情報を漏洩させないことが重要である。また、複数人がそれぞれにマイクロフォンを持っていて発話する場面、例えば会議、討論会、テレビ局のスタジオなど、においては、観衆に伝達される音声信号は雑音が混入していない高品質な音声信号である必要がある。
図23は、マイクロフォンの電源スイッチをオンオフ制御するための構成を示す図である。同図において、マイクロフォン20には、電源スイッチSWを介してバッテリBTから電力が供給されている。マイクロフォン20は入力される音声を電気信号である音声信号に変換する。マイクロフォン20から出力される音声信号は増幅器22などに伝達される。ここで、発話区間検出結果に応じて電源スイッチSWがオンオフ制御される。すなわち、発話開始点の検出に応答して電源スイッチSWがオン状態に制御される。その後、発話終了点の検出に応答して電源スイッチSWがオフ状態に制御される。
また、図23の構成を携帯電話機に適用した場合には、図8や図9に示されているような端末として利用することができる。図23の構成をヘッドセットを適用した場合には、図22のように利用することができる。
請求項の記載に関し、本発明は更に以下の態様をとりうる。
(1)前記筋電信号検出手段は、前記発話者の皮膚表面に接触している電極から前記筋電信号を検出することを特徴とする請求項1記載の発話区間検出装置。こうすれば、発話者の皮膚表面に電極を接触させるだけで筋電信号を検出できる。
(2)前記電極は、前記発話者が発話中に使用する端末に設けられていることを特徴とする(1)記載の発話区間検出装置。こうすれば、発話者が使用する端末を利用して筋電信号を検出できる。
携帯型端末などに電極を設けておけば、発話時の筋電信号を発話者の皮膚から測定できる。このため、携帯型端末の利用形態、すなわち端末を皮膚に押し当てて利用するという形態と親和性が非常に高い。周囲の雑音レベルが高い場合でも問題なく発話区間を検出でき、かつ、特別な位置にセンサを設ける必要はない。
1a 携帯型端末
2 通信制御部
10a〜10f 皮膚表面電極
11 筋電信号検出部
12 筋電信号処理部
13 発話区間検出部
14 発話区間通知部
15 カウンタ
20 マイクロフォン
21 ヒンジ
22 増幅器
23 音量制御回路
30 耳掛け式イヤホンスピーカ
31 ヘッドフォン式スピーカ
40 ヘッドセット
50 筋電信号測定部
100 ユーザ
300 音声認識部
301 発話区間検出部
302 集音・音声伝達部
DB 音声信号データベース
K 筋電信号
S 音声信号
Claims (9)
- 発話者の発話中における筋電信号を検出する筋電信号検出手段と、前記筋電信号検出手段によって検出された筋電信号に基づいて発話区間を検出する発話区間検出手段と、前記筋電信号の振幅値と所定閾値との比較結果をカウントするカウンタとを含み、前記発話区間検出手段は、前記カウンタのカウント値が前記所定閾値を超えた場合に限り、発話区間であると判定することを特徴とする発話区間検出装置。
- 前記筋電信号検出手段は、前記発話者が発話中に使用する端末の筐体において、前記発話者の発話中に該発話者の皮膚と接触する部分に設けられている電極から、前記筋電信号を検出することを特徴とする請求項1記載の発話区間検出装置。
- 前記発話区間検出手段は、前記筋電信号の振幅値と所定閾値とを比較することで前記発話区間の発話開始タイミング及び発話終了タイミングを検出することを特徴とする請求項1又は2記載の発話区間検出装置。
- 前記発話者の発話音声信号を保存するための記憶手段を更に含み、前記発話開始タイミングで前記発話音声信号の保存を開始し、前記発話終了タイミングで前記発話音声信号の保存を終了するようにしたことを特徴とする請求項1から請求項3までのいずれか1項に記載の発話区間検出装置。
- 発話音声信号について音声認識処理を行う音声認識処理装置であって、請求項1から請求項3までのいずれか1項に記載の発話区間検出装置によって検出された発話区間に対応する発話音声信号について音声認識処理を行う音声認識処理手段を含むことを特徴とする音声認識処理装置。
- 発話音声信号について音声認識処理を行う音声認識処理装置であって、請求項4に記載の発話区間検出装置によって前記記憶手段に記憶された発話音声信号について音声認識処理を行う音声認識処理手段を含むことを特徴とする音声認識処理装置。
- 発話区間に対応する発話音声信号について符号化処理を行い、符号化された音声信号を送信する送信システムであって、請求項1から請求項4までのいずれか1項記載の発話区間検出装置によって検出される発話区間に基づいて、前記符号化処理のタイミングを決定する符号化処理タイミング決定手段を含むことを特徴とする送信システム。
- マイクロフォンによって導出される出力信号のレベルを制御する信号レベル制御装置であって、請求項1から請求項4までのいずれか1項記載の発話区間検出装置によって検出される発話区間に基づいて、前記出力信号のレベルを制御する制御手段を含み、非発話区間に対応する音声を出力しないように制御することを特徴とする信号レベル制御装置。
- 発話者の発話中における筋電信号を検出する筋電信号検出ステップと、前記筋電信号検出ステップにおいて検出された筋電信号に基づいて発話区間を検出する発話区間検出ステップと、前記筋電信号の振幅値と所定閾値との比較結果をカウントするカウントステップとを含み、前記発話区間検出ステップにおいては、前記カウントステップのカウント値が前記所定閾値を超えた場合に限り、発話区間であると判定するようにしたことを特徴とする発話区間検出方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004250792A JP4713111B2 (ja) | 2003-09-19 | 2004-08-30 | 発話区間検出装置、音声認識処理装置、送信システム、信号レベル制御装置、発話区間検出方法 |
EP04021768A EP1517298B1 (en) | 2003-09-19 | 2004-09-14 | Speaking period detection based on electromyography |
US10/939,566 US7627470B2 (en) | 2003-09-19 | 2004-09-14 | Speaking period detection device, voice recognition processing device, transmission system, signal level control device and speaking period detection method |
DE602004003443T DE602004003443T2 (de) | 2003-09-19 | 2004-09-14 | Sprachperiodenerkennung basierend auf Elektromyographie |
CNB2004100787901A CN100361197C (zh) | 2003-09-19 | 2004-09-17 | 说话时段检测设备及方法、语音识别处理设备 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003327843 | 2003-09-19 | ||
JP2003327843 | 2003-09-19 | ||
JP2004250792A JP4713111B2 (ja) | 2003-09-19 | 2004-08-30 | 発話区間検出装置、音声認識処理装置、送信システム、信号レベル制御装置、発話区間検出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005115345A JP2005115345A (ja) | 2005-04-28 |
JP4713111B2 true JP4713111B2 (ja) | 2011-06-29 |
Family
ID=34197218
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004250792A Active JP4713111B2 (ja) | 2003-09-19 | 2004-08-30 | 発話区間検出装置、音声認識処理装置、送信システム、信号レベル制御装置、発話区間検出方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US7627470B2 (ja) |
EP (1) | EP1517298B1 (ja) |
JP (1) | JP4713111B2 (ja) |
CN (1) | CN100361197C (ja) |
DE (1) | DE602004003443T2 (ja) |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007114417A (ja) * | 2005-10-19 | 2007-05-10 | Fujitsu Ltd | 音声データ処理方法及び装置 |
JP2008216618A (ja) * | 2007-03-05 | 2008-09-18 | Fujitsu Ten Ltd | 音声判別装置 |
JP5030150B2 (ja) * | 2007-03-20 | 2012-09-19 | 独立行政法人産業技術総合研究所 | 筋電位信号による音声認識装置 |
US8348839B2 (en) * | 2007-04-10 | 2013-01-08 | General Electric Company | Systems and methods for active listening/observing and event detection |
KR100869242B1 (ko) * | 2007-12-13 | 2008-11-18 | 한국전자통신연구원 | 이동 통신 단말기를 이용한 건강 관리 시스템 및 방법 |
EP2286348A2 (en) | 2008-05-28 | 2011-02-23 | Koninklijke Philips Electronics N.V. | Method and system for determining a threshold for spike detection of electrophysiological signals |
RU2011129606A (ru) * | 2008-12-16 | 2013-01-27 | Конинклейке Филипс Электроникс Н.В. | Обработка речевого сигнала |
US8626498B2 (en) * | 2010-02-24 | 2014-01-07 | Qualcomm Incorporated | Voice activity detection based on plural voice activity detectors |
US10226209B2 (en) | 2010-10-15 | 2019-03-12 | Brain Sentinel, Inc. | Method and apparatus for classification of seizure type and severity using electromyography |
MX370873B (es) * | 2010-10-15 | 2020-01-08 | Brain Sentinel Inc | Metodo y aparato para detectar convulsiones. |
CN102781075B (zh) * | 2011-05-12 | 2016-08-24 | 中兴通讯股份有限公司 | 一种降低移动终端通话功耗的方法及移动终端 |
JP5797009B2 (ja) * | 2011-05-19 | 2015-10-21 | 三菱重工業株式会社 | 音声認識装置、ロボット、及び音声認識方法 |
RU2492839C1 (ru) * | 2012-04-20 | 2013-09-20 | Константин Викторович Константинов | Способ активации речевых функций головного мозга |
US9263044B1 (en) * | 2012-06-27 | 2016-02-16 | Amazon Technologies, Inc. | Noise reduction based on mouth area movement recognition |
CN104575500B (zh) * | 2013-10-24 | 2018-09-11 | 中国科学院苏州纳米技术与纳米仿生研究所 | 电子皮肤在语音识别上的应用、语音识别系统和方法 |
US9202463B2 (en) * | 2013-04-01 | 2015-12-01 | Zanavox | Voice-activated precision timing |
US9607630B2 (en) * | 2013-04-16 | 2017-03-28 | International Business Machines Corporation | Prevention of unintended distribution of audio information |
GB2519117A (en) * | 2013-10-10 | 2015-04-15 | Nokia Corp | Speech processing |
US9564128B2 (en) * | 2013-12-09 | 2017-02-07 | Qualcomm Incorporated | Controlling a speech recognition process of a computing device |
US8719032B1 (en) * | 2013-12-11 | 2014-05-06 | Jefferson Audio Video Systems, Inc. | Methods for presenting speech blocks from a plurality of audio input data streams to a user in an interface |
KR20150104345A (ko) * | 2014-03-05 | 2015-09-15 | 삼성전자주식회사 | 음성 합성 장치 및 음성 합성 방법 |
KR102245098B1 (ko) | 2014-05-23 | 2021-04-28 | 삼성전자주식회사 | 휴대 단말 및 그 제어 방법 |
US20160253996A1 (en) * | 2015-02-27 | 2016-09-01 | Lenovo (Singapore) Pte. Ltd. | Activating voice processing for associated speaker |
US20160284363A1 (en) * | 2015-03-24 | 2016-09-29 | Intel Corporation | Voice activity detection technologies, systems and methods employing the same |
CA2982988A1 (en) | 2015-04-17 | 2016-10-20 | Brain Sentinel, Inc. | Method of monitoring a patient for seizure activity |
JP6500625B2 (ja) * | 2015-06-16 | 2019-04-17 | カシオ計算機株式会社 | 検知装置、検知システム、検知方法及びプログラム |
KR20180055661A (ko) | 2016-11-16 | 2018-05-25 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
KR102410998B1 (ko) * | 2016-11-16 | 2022-06-21 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
WO2018093183A1 (ko) * | 2016-11-16 | 2018-05-24 | 삼성전자 주식회사 | 전자 장치 및 그 제어 방법 |
CN106792048B (zh) * | 2016-12-20 | 2020-08-14 | Tcl科技集团股份有限公司 | 一种识别智能电视用户语音命令的方法和装置 |
US10924869B2 (en) | 2018-02-09 | 2021-02-16 | Starkey Laboratories, Inc. | Use of periauricular muscle signals to estimate a direction of a user's auditory attention locus |
US10997979B2 (en) * | 2018-06-21 | 2021-05-04 | Casio Computer Co., Ltd. | Voice recognition device and voice recognition method |
CN111583916B (zh) * | 2020-05-19 | 2023-07-25 | 科大讯飞股份有限公司 | 一种语音识别方法、装置、设备及存储介质 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5027406A (en) * | 1988-12-06 | 1991-06-25 | Dragon Systems, Inc. | Method for interactive speech recognition and training |
DE4212907A1 (de) * | 1992-04-05 | 1993-10-07 | Drescher Ruediger | Spracherkennungsverfahren für Datenverarbeitungssysteme u.s.w. |
JPH0612483A (ja) * | 1992-06-26 | 1994-01-21 | Canon Inc | 音声入力方法及び装置 |
US5794203A (en) * | 1994-03-22 | 1998-08-11 | Kehoe; Thomas David | Biofeedback system for speech disorders |
US6231500B1 (en) * | 1994-03-22 | 2001-05-15 | Thomas David Kehoe | Electronic anti-stuttering device providing auditory feedback and disfluency-detecting biofeedback |
SE513456C2 (sv) * | 1994-05-10 | 2000-09-18 | Telia Ab | Metod och anordning vid tal- till textomvandling |
US6055501A (en) * | 1997-07-03 | 2000-04-25 | Maccaughelty; Robert J. | Counter homeostasis oscillation perturbation signals (CHOPS) detection |
JP2002135320A (ja) | 2000-10-27 | 2002-05-10 | Sony Corp | 送信装置、通信システムおよび送信方法 |
US6741966B2 (en) * | 2001-01-22 | 2004-05-25 | Telefonaktiebolaget L.M. Ericsson | Methods, devices and computer program products for compressing an audio signal |
JP2002358089A (ja) * | 2001-06-01 | 2002-12-13 | Denso Corp | 音声処理装置及び音声処理方法 |
JP3908965B2 (ja) * | 2002-02-28 | 2007-04-25 | 株式会社エヌ・ティ・ティ・ドコモ | 音声認識装置及び音声認識方法 |
JP2003255993A (ja) * | 2002-03-04 | 2003-09-10 | Ntt Docomo Inc | 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム |
JP2004348382A (ja) * | 2003-05-21 | 2004-12-09 | Ntt Docomo Inc | 携帯型電子装置およびその制御方法 |
-
2004
- 2004-08-30 JP JP2004250792A patent/JP4713111B2/ja active Active
- 2004-09-14 EP EP04021768A patent/EP1517298B1/en not_active Expired - Fee Related
- 2004-09-14 DE DE602004003443T patent/DE602004003443T2/de active Active
- 2004-09-14 US US10/939,566 patent/US7627470B2/en not_active Expired - Fee Related
- 2004-09-17 CN CNB2004100787901A patent/CN100361197C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
EP1517298B1 (en) | 2006-11-29 |
EP1517298A1 (en) | 2005-03-23 |
DE602004003443T2 (de) | 2007-10-04 |
JP2005115345A (ja) | 2005-04-28 |
CN1601604A (zh) | 2005-03-30 |
US7627470B2 (en) | 2009-12-01 |
US20050102134A1 (en) | 2005-05-12 |
DE602004003443D1 (de) | 2007-01-11 |
CN100361197C (zh) | 2008-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4713111B2 (ja) | 発話区間検出装置、音声認識処理装置、送信システム、信号レベル制御装置、発話区間検出方法 | |
US10475467B2 (en) | Systems, methods and devices for intelligent speech recognition and processing | |
EP1443498B1 (en) | Noise reduction and audio-visual speech activity detection | |
US10540979B2 (en) | User interface for secure access to a device using speaker verification | |
US9497317B2 (en) | Bluetooth headset with an audio table | |
JP4796309B2 (ja) | モバイル・デバイス上のマルチセンサによるスピーチ改良のための方法および装置 | |
JP5607627B2 (ja) | 信号処理装置及び信号処理方法 | |
KR102158739B1 (ko) | 자동통역 시스템, 디바이스 및 방법 | |
CN110097875B (zh) | 基于麦克风信号的语音交互唤醒电子设备、方法和介质 | |
US9208798B2 (en) | Dynamic control of voice codec data rate | |
JP5051882B2 (ja) | 音声対話装置、音声対話方法及びロボット装置 | |
WO2017085992A1 (ja) | 情報処理装置 | |
JP2009178783A (ja) | コミュニケーションロボット及びその制御方法 | |
CN114328851A (zh) | 用于私密对话的耳语转换 | |
CN105997084B (zh) | 一种人体口气的检测方法及装置 | |
CN109672787A (zh) | 一种设备智能提醒方法 | |
JP4632831B2 (ja) | 音声認識方法および音声認識装置 | |
JP2004004182A (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
JP2010118955A (ja) | 携帯電話端末、音声処理方法及びヘッドセット | |
GB2580655A (en) | Reducing a noise level of an audio signal of a hearing system | |
KR20000058299A (ko) | 거짓말 탐지 기능을 가지는 휴대용 단말기 및 이를 이용한거짓말 탐지방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070404 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100427 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100624 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110322 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110324 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |