JP2003255994A

JP2003255994A - 音声認識装置及び音声認識方法

Info

Publication number: JP2003255994A
Application number: JP2002054235A
Authority: JP
Inventors: Hiroyuki Manabe; 宏幸真鍋; Akira Hiraiwa; 明平岩; Toshiaki Sugimura; 利明杉村
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2002-02-28
Filing date: 2002-02-28
Publication date: 2003-09-10
Anticipated expiration: 2022-02-28
Also published as: JP3908965B2; EP1341159B1; DE60302478T2; CN1235167C; CN1442802A; US20030163306A1; US7480616B2; DE60302478D1; EP1341159A1

Abstract

(57)【要約】【課題】認識率が高い音声認識装置及び音声認識方法
を提供する。【解決手段】活動量情報抽出手段１２によって筋電信
号から筋肉の活動量に関する情報を抽出し、活動量情報
認識手段１６によって話者の筋肉の活動量に関する情報
に基づいて音声認識を行なう。話者の筋肉の活動量と話
者が発話する音素との間には所定の対応関係があるの
で、筋肉の活動量に関する情報に基づいて音声認識する
ことにより高い認識率で発話の内容の認識が可能とされ
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、話者が発話する際
の話者の筋肉の筋電信号に基づいて発話の内容を認識す
る音声認識装置に関する。

【０００２】

【従来の技術】従来より、音響によらず、発話動作を行
う者の口周辺の筋肉の運動等により生じる筋電信号に基
づいて発話の内容を認識をする音声認識装置が知られて
いる。これによれば、発話者が音響を発することなく口
や舌等の動きから音声認識が可能であり、騒音環境下や
静けさが要求される場所等での実用性が高い。

【０００３】このような音声認識装置における、筋電信
号からの音声認識方法としては、例えば、ＩＥＥＥ生体
医用工学会誌（Noboru Sugie et al., A speech employ
inga speech synthesizer vowel discrimination from
perioral muscles activities and vowel production,
IEEE transactions on Biomedical Engineering, Vol.
32, No. 7, 1985, pp485-490）に開示されているよう
に、筋電信号をバンドパスフィルタを通過させ閾値の交
差回数をカウントして５母音（a, i, u, e, o）の弁別
を行って音声認識をする方法や、特開平７−１８１８８
８号公報に開示されているように、口の周囲の筋肉の筋
電信号をＦＦＴ処理してパワースペクトルを得た上でニ
ューラルネットワークによって処理し発話者の母音だけ
でなく子音も含めて検出する方法や、特開平６−１２４
８３号公報に開示されているように、筋電信号の振幅を
閾値によって２値化したのちニューラルネットワークに
よって処理する方法等がある。

【０００４】

【発明が解決しようとする課題】しかし、上述のような
音声認識方法では、発話の内容の認識率をあまり向上さ
せることができないという問題があった。

【０００５】本発明は、上記課題に鑑みてなされたもの
であり、認識率が高い音声認識装置及び音声認識方法を
提供することを目的とする。

【０００６】

【課題を解決するための手段】本発明に係る音声認識装
置は、話者が発話する際の上記話者の筋肉の筋電信号に
基づいて上記発話の内容を認識する音声認識装置におい
て、上記筋電信号を取得する筋電信号取得手段と、上記
筋電信号から上記筋肉の活動量に関する情報を抽出する
活動量情報抽出手段と、上記筋肉の活動量に関する情報
に基づいて上記発話の内容を認識する音声認識手段と、
を備えることを特徴とする。

【０００７】本発明に係る音声認識方法は、話者が発話
する際の上記話者の筋肉の筋電信号に基づいて上記発話
の内容を認識する音声認識方法において、上記筋電信号
を取得する筋電信号取得工程と、上記筋電信号から上記
筋肉の活動量に関する情報を抽出する活動量情報抽出工
程と、上記筋肉の活動量に関する情報に基づいて上記発
話の内容を認識する音声認識工程と、を含むことを特徴
とする。

【０００８】本発明の音声認識装置、音声認識方法によ
れば、筋電信号から筋肉の活動量に関する情報が抽出さ
れ、話者の筋肉の活動量に関する情報に基づいて音声認
識が行なわれる。ここで、話者の筋肉の活動量と話者が
発話する音素との間には所定の対応関係があるので、筋
肉の活動量に関する情報に基づいて音声認識することに
より高い認識率で発話の内容の認識が可能とされる。

【０００９】ここで、上記音声認識装置において、上記
活動量情報抽出手段は、上記筋肉の活動量に関する情報
として、上記筋電信号の二乗平均平方及び整流化平均及
び積分平均の少なくとも一つを取得することが好まし
い。

【００１０】また、上記音声認識方法において、上記活
動量情報抽出工程は、上記筋肉の活動量に関する情報と
して、上記筋電信号の二乗平均平方及び整流化平均及び
積分平均の少なくとも一つを取得することが好ましい。

【００１１】筋電信号の二乗平均平方、整流化平均、積
分平均は、筋肉の活動量と高い相関関係を有するので、
これら二乗平均平方、整流化平均、積分平均を筋肉の活
動量に関する情報として取得することにより発話の内容
の認識が好適に行われる。また、筋電信号からこれらの
平均を取得するための計算負荷は、従来のような筋電信
号をＦＦＴ処理することに比べてかなり低くされる。

【００１２】また、上記音声認識装置において、上記音
声認識手段は、上記筋肉の活動量に関する情報を入力と
するニューラルネットワークによって上記発話の内容を
認識することが好ましい。

【００１３】また、上記音声認識方法において、上記音
声認識工程は、上記筋肉の活動量に関する情報を入力と
するニューラルネットワークによって上記発話の内容を
認識することが好ましい。

【００１４】このように、筋肉の活動量に関する情報を
入力とするニューラルネットワークによって音声認識を
することにより、発話の内容が好適に認識される。

【００１５】また、上記音声認識装置において、音素
と、当該音素が発話される際の話者の筋肉の活動量に関
する情報と、が関係づけられたデータベースを備え、上
記音声認識手段は、上記活動量情報抽出手段によって抽
出された筋肉の活動量に関する情報に基づいて、上記デ
ータベースを参照して上記話者が発話した音素を取得し
てもよい。

【００１６】また、上記音声認識方法において、上記音
声認識工程は、上記活動量情報抽出工程によって抽出さ
れた筋肉の活動量に関する情報に基づいて、音素と当該
音素が発話される際の話者の筋肉の活動量に関する情報
とが関係づけられたデータベースを参照し、上記話者が
発話した音素を取得してもよい。

【００１７】このように、筋肉の活動量に関する情報に
基づいて、音素とその音素が発話される際の筋肉の活動
量に関する情報とが関係づけられたデータベースを参照
することにより、話者の発話した音素が容易に取得さ
れ、発話の内容が好適に認識される。

【００１８】また、上記音声認識装置において、上記発
話の際に発生する音響に関する情報を取得する音響情報
取得手段と、上記音響に関する情報に基づいて上記発話
の内容を認識する音響情報認識手段と、上記活動量情報
抽出手段によって抽出された筋肉の活動量に関する情報
と上記音響情報認識手段により認識された教師データと
しての発話の内容とに基づいて、上記音声認識手段にお
ける音声認識に係る学習を行う学習手段と、を備え、上
記音声認識手段は、上記活動量情報抽出手段によって抽
出された筋肉の活動量に関する情報に基づいて、上記学
習結果を参照して上記発話の内容を認識することが好ま
しい。

【００１９】また、上記音声認識方法において、上記発
話の際に発生する音響に関する情報を取得する音響情報
取得工程と、上記音響に関する情報に基づいて上記発話
の内容を認識する音響情報認識工程と、上記活動量情報
抽出工程によって抽出された筋肉の活動量に関する情報
と上記音響情報認識工程により認識された教師データと
しての発話の内容とに基づいて、上記音声認識工程にお
ける音声認識に係る学習を行う学習工程と、を含み、上
記音声認識工程は、上記活動量情報抽出工程によって抽
出された筋肉の活動量に関する情報に基づいて、上記学
習結果を参照して上記発話の内容を認識することが好ま
しい。

【００２０】このような学習により、話者に適合した音
声認識が可能とされ、認識率がさらに高くされる。ま
た、発話の際の音響に基づく音声認識により教師データ
を生成するので、話者が意識することなく自由な発話に
基づいて学習が行われ、学習における話者の負担が少な
くされる。

【００２１】

【発明の実施の形態】以下、添付図面を参照しながら、
本発明に係る音声認識装置の好適な実施形態について詳
細に説明する。

【００２２】図１は、第一実施形態に係る音声認識装置
のブロック図である。本実施形態の音声認識装置１００
は、無声、すなわち、声を出さずに発話動作をする話者
の発話内容を認識する音声認識装置であって、話者の筋
電信号を取得する筋電信号取得手段１１、筋電信号から
筋肉の活動量に関する情報を抽出する活動量情報抽出手
段１２、筋肉の活動量に関する情報に基づいて話者の発
話内容を音声認識する活動量情報認識手段（音声認識手
段）１６、音声認識した結果を提示する認識結果提示手
段１７、及び、活動量情報認識手段１６における音声認
識に関しての学習を行う学習部３３を備えて構成され
る。

【００２３】筋電信号取得手段１１は、話者が発話動作
する際の口周りの筋肉（調音器官）の活動による筋電信
号の変動等を取得すると共に、取得された筋電信号を増
幅する。なお、高精度で音声認識をすべく、口周りの複
数の筋肉の筋電信号を取得することが好ましい。このよ
うにして取得された筋電信号の一例を図２に示す。ここ
で、横軸は時間であり、縦軸は筋電信号の電位である。

【００２４】図１に戻って、活動量情報抽出手段１２
は、筋電信号取得手段１１で増幅された筋電信号を所定
の時間窓で切り出すと共に、当該時間窓毎に筋電信号か
ら筋肉の活動量に関する情報を抽出する。

【００２５】具体的には、まず、図２に示すように、筋
電信号取得手段１１によって取得された筋電信号５０
を、所定の長さの主時間窓４０，４１，４２等によって
順に切り出す。ここで、これらの主時間窓４０，４１，
４２の時間長さは同じとされ、また、これらの主時間窓
４０，４１，４２の開始時間は、順に所定時間づつ、例
えば、主時間窓の時間長さの半分ずつ遅れるようにされ
ている。また、必要に応じて、各々の主時間窓４１等
を、さらに任意の数の副時間窓４３，４４，４５に分割
できる。なお、主として、主時間窓４０，４１，４２等
によって母音の認識が可能とされ、副時間窓４３，４
４，４５等によって子音の認識が可能となる。

【００２６】次に、図３に示すように、各々の主時間
窓、副時間窓に対して、筋肉の活動量に関する情報とし
て、筋電信号の二乗平均平方（ＲＭＳ）を計算する。こ
こで、二乗平均平方は、次式のように定義される。ここ
で、e(t)は筋電信号の電位（ＥＭＧ）である。

【００２７】

【数１】

【００２８】なお、筋肉の活動量と相関がある量として
は、他に、（２）式に示す筋電信号の整流化平均値（Ａ
ＲＶ）や、（３）式に示す筋電信号の積分平均値（ＩＥ
ＭＧ）等、を用いることができ、また、これらを組み合
わせることもできる。

【００２９】

【数２】

【００３０】

【数３】

【００３１】ここで、筋電信号からこのような筋肉の活
動量に関する情報を抽出する理由について説明する。

【００３２】話者が、母音や子音等の音素を発話する場
合、各音素毎に話者の口周辺の各々の筋肉の活動量は異
なる。ここで、話者に“ａ”，“ｉ”，“ｕ”，
“ｅ”，“ｏ”を各々発話させた場合及び無発話でリラ
ックスさせた場合について、当該話者の口周辺の代表的
な３つの筋肉の筋電信号を取得し、３つの筋肉の活動量
として各々の筋電信号の二乗平均平方をとって各々Ｘ
軸、Ｙ軸、Ｚ軸にプロットしたのが図４である。

【００３３】図より明らかなように、無発話の場合、
“ａ”，“ｉ”，“ｕ”，“ｅ”，“ｏ”を発話した場
合で、各々の筋肉の活動量の大きさは互いに異なり、各
々の筋肉の活動量と各音素との間に所定の対応関係があ
ることがわかる。このため、筋電信号から筋肉の活動量
に関する情報を抽出し、この筋肉の活動量に関する情報
に対応する音素を取得することによって、高い認識率で
の音声認識が容易に行える。

【００３４】次に、図１に戻って、活動量情報認識手段
１６は、このようにして取得された筋肉の活動量に関す
る情報に基づいて話者が発話した音素を取得し、話者の
発話の内容を認識する。

【００３５】具体的には、図５に示すように、３層構造
のニューラルネットワーク７０によって音声認識を行
う。すなわち、入力層７１には、活動量情報抽出手段１
２で取得された各々の筋肉の活動量に関する情報、例え
ば、二乗平均平方が入力される。一方、出力層７２は、
音素、例えば、“ａ”，“ｉ”，“ｕ”，…，“ｎ”等
の母音及び子音に対応するユニットとされている。そし
て、このニューラルネットワーク７０は、入力層７１に
入力された筋肉の活動量に関する情報から、所定の認識
パラメータに基づいて当該発話における音素を判断して
出力層７２に出力し、これによって発話の内容が認識さ
れる。

【００３６】なお、このニューラルネットワーク７０に
おける認識パラメータは、あらかじめ用意された万人向
けの認識パラメータや、後述する学習部３３で生成され
る話者に適合された認識パラメータ等が用いられる。

【００３７】図１に戻って、認識結果提示手段１７は、
活動量情報認識手段１６で認識された認識結果をディス
プレイやスピーカ等によって話者に提示したり、あるい
は、ワープロ等のアプリケーションに伝達したり、通信
手段等によって他人等に送信する。

【００３８】学習部３３は、音響情報取得手段１４、音
響情報認識手段１５及び学習手段１３を備えている。音
響情報取得手段１４は、話者が声を出す、すなわち、有
声による発話動作をする際に発生する音響信号を取得す
ると共に、取得された音響信号のスペクトル分析やケプ
ストラム分析等を行って音響情報を取得する。

【００３９】音響情報認識手段１５は、音響情報取得手
段１４が取得した音響情報に基づいて音声認識を行って
話者の発話の内容を取得し、話者の発話の内容に対応す
る教師データとする。ここで、音響情報認識手段１５に
おける、音声認識方法は特に限定されず、例えば、スペ
クトル包絡等に基づく隠れマルコフモデルや、ＤＰマッ
チング法等が利用できる。

【００４０】学習手段１３は、活動量情報抽出手段１２
で抽出された筋肉の活動量に関する情報を取得すると共
に、教師データとして、音響情報認識手段１５で取得さ
れた発話の内容を取得し、活動量情報認識手段１６にお
いて行われる音声認識に関する学習を行い、この音声認
識のための認識パラメータを生成する。

【００４１】具体的には、例えば、本実施形態のように
活動量情報認識手段１６でニューラルネットワーク７０
を用いる場合には（図５参照）、そのニューラルネット
ワーク７０に対してバックプロパゲーション法を適用
し、入力層７１には筋肉の活動量に関する情報としての
筋電信号の二乗平均平方等を与える一方、出力層７２の
各音素“ａ”，“ｉ”，“ｕ”，…，“ｎ”には音響情
報認識手段１５において認識された発話の内容を各々与
えればよく、これによって、各話者に適合した認識パラ
メータが生成される。

【００４２】次に、このような音声認識装置１００の動
作について説明すると共に、併せて、本実施形態に係る
音声認識方法について説明する。

【００４３】はじめに、図６を参照して、音声認識に関
する学習を行う手順について説明する。

【００４４】まず、音声認識装置１００は、話者が有声
で自由な発話を行う際の話者の筋肉の筋電信号を取得す
ると共に、発話に伴い発生する音に基づく音響情報を取
得する（ステップ１０１）。

【００４５】次に、筋電信号を所定の時間窓で切り出
し、時間窓毎に筋肉の活動量に関する情報を抽出する一
方、音響情報に基づいて音声認識を行って発話の内容を
取得する（ステップ１０２）。

【００４６】次に、筋肉の活動量に関する情報と、教師
データとしての発話の内容と、に基づいて活動量情報認
識手段１６における音声認識に関する学習を行い、音声
認識のための認識パラメータを生成する（ステップ１０
３）。

【００４７】そして、活動量情報認識手段１６が、認識
パラメータを取得する（ステップ１０４）。

【００４８】続いて、図７を参照して、話者の無声によ
る発話に基づいて音声認識をする手順について説明す
る。

【００４９】まず、音声認識装置１００は、話者が無声
で発話を行う際の、話者の筋電信号を取得する（ステッ
プ２０１）。

【００５０】次に、筋電信号を所定の時間窓で切り出す
と共に、時間窓毎に筋肉の活動量に関する情報を抽出す
る（ステップ２０２）。

【００５１】次に、筋肉の活動量に関する情報に基づい
て、上述の学習によって取得した認識パラメータ等を用
いたニューラルネットワーク７０によって音声認識を行
って発話の内容を認識する（ステップ２０３）。

【００５２】そして、認識結果を画面や音声に出力した
り、ワープロ等のアプリケーションに送信する（ステッ
プ２０４）。

【００５３】このような、本実施形態の音声認識装置及
び音声認識方法によれば、筋電信号から筋肉の活動量に
関する情報が抽出され、話者の筋肉の活動量に関する情
報に基づいて音声認識が行なわれる。ここで、話者の筋
肉の活動量と話者が発話する音素との間には所定の対応
関係があるので、筋肉の活動量に関する情報に基づいて
音声認識することにより高い認識率で発話の内容の認識
が可能とされている。

【００５４】また、筋電信号の二乗平均平方、整流化平
均、積分平均は、筋肉の活動量と高い相関関係を有する
ので、これら二乗平均平方、整流化平均、積分平均を筋
肉の活動量に関する情報として取得することにより発話
の内容の認識が好適に行われる。また、筋電信号からこ
れらの平均を取得するための計算負荷は、従来のような
筋電信号をＦＦＴ処理することに比べてかなり低くされ
る。

【００５５】また、筋肉の活動量に関する情報を入力と
するニューラルネットワークによって音声認識をするこ
とにより、発話の内容が好適に認識されている。

【００５６】また、学習によって話者に適合した音声認
識が可能とされ、認識率がさらに高くされる。また、こ
の学習において、発話の際の音響に基づく音声認識によ
り教師データを生成するので、話者が意識することなく
自由な発話に基づいて学習が行われ、学習における話者
の負担が少なくされる。

【００５７】なお、あらかじめ、活動量情報認識手段１
６に対して万人向けの認識パラメータを設定しておくこ
とにより、上述のような学習をしなくても、同様な音声
認識ができる。また、音声認識を高認識率で行うべく、
筋肉の活動量に関する情報を多くの筋肉について得るこ
とが好ましい。

【００５８】続いて、図８を参照して、第二実施形態に
係る音声認識装置２００について説明する。本実施形態
の音声認識装置２００が第一実施形態の音声認識装置１
００と違う点は、音素と当該音素が発話される際の筋肉
の活動量に関する情報とが関連づけて格納された音素活
動量情報データベース（データベース）３０を備えてい
る点である。そして、活動量情報認識手段１６は、活動
量情報抽出手段１２によって抽出された筋肉の活動量に
関する情報に基づいて、ニューラルネットワーク７０に
よるのではなく、音素活動量情報データベース３０を参
照して発話の内容を認識する。

【００５９】この音素活動量情報データベース３０に
は、音素と当該音素が発話される際の筋肉の活動量に関
する情報とが関連づけられたデータとして、万人向けの
一般的なデータがあらかじめ格納されているが、必要に
応じて、学習手段１３における学習結果に基づいてデー
タを話者に適合させることができる。

【００６０】このような、音素活動量情報データベース
３０の一つの例として、例えば、図４等に基づいて、各
音素毎に、各音素が発話される際の各筋肉の活動量に関
する情報の大きさの確率分布を求め、当該筋肉の活動量
に関する情報の大きさの確率分布を各音素に対応づけて
格納したデータベースがある。このようなデータベース
を用いる場合、活動量情報認識手段１６は、活動量情報
抽出手段１２によって抽出された各筋肉の活動量の大き
さの分布に基づいてデータベースを参照し、当該分布に
最も近い確率分布を有する音素を取得することにより発
話の内容を認識できる。

【００６１】また、音素活動量情報データベース３０の
他の例として、例えば、図９に示すような、各音素と、
各音素が発話される際の各筋肉の活動量の大きさとを対
応づけたテーブルが考えられる。このテーブルは、平均
的な日本人が各音素を発話した際に、口周辺の各筋肉が
どの程度活動するかを五段階評価したものである。この
ようなデータベースを用いる場合も、活動量情報認識手
段１６は、活動量情報抽出手段１２によって抽出された
各筋肉の活動量の大きさに基づいてテーブルを参照し、
最も筋肉の活動量のパターンが近い音素を取得すること
により発話の内容を認識できる。

【００６２】このように、本実施形態においては、取得
された筋肉の活動量に関する情報に基づいて、音素とそ
の音素が発話される際の筋肉の活動量に関する情報とが
関係づけられたデータベースを参照することにより、話
者の発話した音素が容易に取得され、発話の内容が好適
に認識される。

【００６３】なお、この音素活動量情報データベース３
０を予め構築しておくと、必ずしも話者毎に音声認識に
関する学習を行わなくてもある程度の認識率で音声認識
が可能である。また、第一実施形態のような学習を行っ
て、この音素活動量情報データベース３０を話者毎にさ
らに適合させることにより、より高い認識率での音声認
識が可能となる。なお、音声認識を高認識率で行うべ
く、筋肉の活動量に関する情報を多くの筋肉について得
ることが好ましい。

【００６４】なお、本発明に係る音声認識装置は、上記
実施形態に限定されるものではなく、種々の変形態様を
とることが可能である。

【００６５】例えば、上記実施形態において、学習部３
３は、話者の音響情報に基づいて教師データとしての発
話内容を取得しているがこれに限られず、例えば、キー
ボード等の入力手段を備え、話者が発話の内容を直接入
力してもよい。

【００６６】なお、上記実施形態の音声認識装置１０
０，２００は、無声による発話の音声認識に適している
が、有声による発話の音声認識ができることはいうまで
もない。

【００６７】

【発明の効果】上述のように、本発明の音声認識装置、
音声認識方法によれば、筋電信号から筋肉の活動量に関
する情報を抽出し、話者の筋肉の活動量に関する情報に
基づいて音声認識を行う。ここで、話者の筋肉の活動量
と話者が発話する音素との間には所定の対応関係がある
ので、筋肉の活動量に関する情報に基づいて音声認識す
ることにより高い認識率で発話の内容の認識が可能とさ
れる。

【図面の簡単な説明】

【図１】第一実施形態に係る音声認識装置を示すブロッ
ク図である。

【図２】図１中の活動量情報抽出手段において、筋電信
号を時間窓で切り出す方法を説明する図である。

【図３】図１中の活動量情報抽出手段において、切り出
された筋電信号から筋肉の活動量に関する情報を取得す
る方法を説明する図である。

【図４】無発話、及び、“ａ”，“ｉ”，“ｕ”，
“ｅ”，“ｏ”が発話された際の、口周辺の３つの筋肉
の活動量に関する情報を示す図である。

【図５】図１中の活動量情報認識手段におけるニューラ
ルネットワークを示す図である。

【図６】第一実施形態において、音声認識に関する学習
を行う手順を示すフロー図である。

【図７】第一実施形態において、無声の発話による音声
認識を行う手順を示すフロー図である。

【図８】第二実施形態に係る音声認識装置を示すブロッ
ク図である。

【図９】図８の音素活動量情報データベースの例を示す
表である。

【符号の説明】

１１…筋電信号取得手段、１２…活動量情報抽出手段、
１３…学習手段、１４…音響情報取得手段、１５…音響
情報認識手段、１６…活動量情報認識手段（音声認識手
段）、３０…音素活動量情報データベース、１００，２
００…音声認識装置。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/16 Ｇ１０Ｌ 3/00 ５３９ 15/24 ５２１Ｆ (72)発明者杉村利明東京都千代田区永田町二丁目11番１号株式会社エヌ・ティ・ティ・ドコモ内Ｆターム(参考） 5B056 BB61 HH05 5D015 BB02 GG00 JJ00 LL07

Claims

【特許請求の範囲】

【請求項１】話者が発話する際の前記話者の筋肉の筋
電信号に基づいて前記発話の内容を認識する音声認識装
置において、前記筋電信号を取得する筋電信号取得手段と、前記筋電信号から前記筋肉の活動量に関する情報を抽出
する活動量情報抽出手段と、前記筋肉の活動量に関する情報に基づいて前記発話の内
容を認識する音声認識手段と、を備えることを特徴とする、音声認識装置。
【請求項２】前記活動量情報抽出手段は、前記筋肉の
活動量に関する情報として、前記筋電信号の二乗平均平
方及び整流化平均及び積分平均の少なくとも一つを取得
することを特徴とする、請求項１に記載の音声認識装
置。
【請求項３】前記音声認識手段は、前記筋肉の活動量
に関する情報を入力とするニューラルネットワークによ
って前記発話の内容を認識することを特徴とする、請求
項１または２に記載の音声認識装置。
【請求項４】音素と、当該音素が発話される際の話者
の筋肉の活動量に関する情報と、が関係づけられたデー
タベースを備え、前記音声認識手段は、前記活動量情報抽出手段によって
抽出された筋肉の活動量に関する情報に基づいて前記デ
ータベースを参照し、前記話者が発話した音素を取得す
ることを特徴とする、請求項１または２に記載の音声認
識装置。
【請求項５】前記発話の際に発生する音響に関する情
報を取得する音響情報取得手段と、前記音響に関する情報に基づいて前記発話の内容を認識
する音響情報認識手段と、前記活動量情報抽出手段によって抽出された筋肉の活動
量に関する情報と、前記音響情報認識手段により認識さ
れた教師データとしての発話の内容と、に基づいて、前
記音声認識手段における音声認識に係る学習を行う学習
手段と、を備え、前記音声認識手段は、前記活動量情報抽出手段によって
抽出された筋肉の活動量に関する情報に基づいて、前記
学習結果を参照して前記発話の内容を認識することを特
徴とする、請求項１〜４の何れか一項に記載の音声認識
装置。
【請求項６】話者が発話する際の前記話者の筋肉の筋
電信号に基づいて前記発話の内容を認識する音声認識方
法において、前記筋電信号を取得する筋電信号取得工程と、前記筋電信号から前記筋肉の活動量に関する情報を抽出
する活動量情報抽出工程と、前記筋肉の活動量に関する情報に基づいて前記発話の内
容を認識する音声認識工程と、を含むことを特徴とする、音声認識方法。
【請求項７】前記活動量情報抽出工程は、前記筋肉の
活動量に関する情報として、前記筋電信号の二乗平均平
方及び整流化平均及び積分平均の少なくとも一つを取得
することを特徴とする、請求項６に記載の音声認識方
法。
【請求項８】前記音声認識工程は、前記筋肉の活動量
に関する情報を入力とするニューラルネットワークによ
って前記発話の内容を認識することを特徴とする、請求
項６または７に記載の音声認識方法。
【請求項９】前記音声認識工程は、前記活動量情報抽
出工程によって抽出された筋肉の活動量に関する情報に
基づいて、音素と当該音素が発話される際の話者の筋肉
の活動量に関する情報とが関係づけられたデータベース
を参照し、前記話者が発話した音素を取得することを特
徴とする、請求項６または７に記載の音声認識方法。
【請求項１０】前記発話の際に発生する音響に関する
情報を取得する音響情報取得工程と、前記音響に関する情報に基づいて前記発話の内容を認識
する音響情報認識工程と、前記活動量情報抽出工程によって抽出された筋肉の活動
量に関する情報と、前記音響情報認識工程により認識さ
れた教師データとしての発話の内容と、に基づいて、前
記音声認識工程における音声認識に係る学習を行う学習
工程と、を含み、前記音声認識工程は、前記活動量情報抽出工程によって
抽出された筋肉の活動量に関する情報に基づいて、前記
学習結果を参照して前記発話の内容を認識することを特
徴とする、請求項６〜９の何れか一項に記載の音声認識
方法。