JP2003255994A - 音声認識装置及び音声認識方法 - Google Patents

音声認識装置及び音声認識方法

Info

Publication number
JP2003255994A
JP2003255994A JP2002054235A JP2002054235A JP2003255994A JP 2003255994 A JP2003255994 A JP 2003255994A JP 2002054235 A JP2002054235 A JP 2002054235A JP 2002054235 A JP2002054235 A JP 2002054235A JP 2003255994 A JP2003255994 A JP 2003255994A
Authority
JP
Japan
Prior art keywords
information
voice recognition
muscle
utterance
activity amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002054235A
Other languages
English (en)
Other versions
JP3908965B2 (ja
Inventor
Hiroyuki Manabe
宏幸 真鍋
Akira Hiraiwa
明 平岩
Toshiaki Sugimura
利明 杉村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2002054235A priority Critical patent/JP3908965B2/ja
Priority to DE60302478T priority patent/DE60302478T2/de
Priority to US10/373,730 priority patent/US7480616B2/en
Priority to EP03004462A priority patent/EP1341159B1/en
Priority to CNB031067816A priority patent/CN1235167C/zh
Publication of JP2003255994A publication Critical patent/JP2003255994A/ja
Application granted granted Critical
Publication of JP3908965B2 publication Critical patent/JP3908965B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/24Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
    • A61B5/316Modalities, i.e. specific diagnostic methods
    • A61B5/389Electromyography [EMG]

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • User Interface Of Digital Computer (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
  • Complex Calculations (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

(57)【要約】 【課題】 認識率が高い音声認識装置及び音声認識方法
を提供する。 【解決手段】 活動量情報抽出手段12によって筋電信
号から筋肉の活動量に関する情報を抽出し、活動量情報
認識手段16によって話者の筋肉の活動量に関する情報
に基づいて音声認識を行なう。話者の筋肉の活動量と話
者が発話する音素との間には所定の対応関係があるの
で、筋肉の活動量に関する情報に基づいて音声認識する
ことにより高い認識率で発話の内容の認識が可能とされ
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、話者が発話する際
の話者の筋肉の筋電信号に基づいて発話の内容を認識す
る音声認識装置に関する。
【0002】
【従来の技術】従来より、音響によらず、発話動作を行
う者の口周辺の筋肉の運動等により生じる筋電信号に基
づいて発話の内容を認識をする音声認識装置が知られて
いる。これによれば、発話者が音響を発することなく口
や舌等の動きから音声認識が可能であり、騒音環境下や
静けさが要求される場所等での実用性が高い。
【0003】このような音声認識装置における、筋電信
号からの音声認識方法としては、例えば、IEEE生体
医用工学会誌(Noboru Sugie et al., A speech employ
inga speech synthesizer vowel discrimination from
perioral muscles activities and vowel production,
IEEE transactions on Biomedical Engineering, Vol.
32, No. 7, 1985, pp485-490)に開示されているよう
に、筋電信号をバンドパスフィルタを通過させ閾値の交
差回数をカウントして5母音(a, i, u, e, o)の弁別
を行って音声認識をする方法や、特開平7−18188
8号公報に開示されているように、口の周囲の筋肉の筋
電信号をFFT処理してパワースペクトルを得た上でニ
ューラルネットワークによって処理し発話者の母音だけ
でなく子音も含めて検出する方法や、特開平6−124
83号公報に開示されているように、筋電信号の振幅を
閾値によって2値化したのちニューラルネットワークに
よって処理する方法等がある。
【0004】
【発明が解決しようとする課題】しかし、上述のような
音声認識方法では、発話の内容の認識率をあまり向上さ
せることができないという問題があった。
【0005】本発明は、上記課題に鑑みてなされたもの
であり、認識率が高い音声認識装置及び音声認識方法を
提供することを目的とする。
【0006】
【課題を解決するための手段】本発明に係る音声認識装
置は、話者が発話する際の上記話者の筋肉の筋電信号に
基づいて上記発話の内容を認識する音声認識装置におい
て、上記筋電信号を取得する筋電信号取得手段と、上記
筋電信号から上記筋肉の活動量に関する情報を抽出する
活動量情報抽出手段と、上記筋肉の活動量に関する情報
に基づいて上記発話の内容を認識する音声認識手段と、
を備えることを特徴とする。
【0007】本発明に係る音声認識方法は、話者が発話
する際の上記話者の筋肉の筋電信号に基づいて上記発話
の内容を認識する音声認識方法において、上記筋電信号
を取得する筋電信号取得工程と、上記筋電信号から上記
筋肉の活動量に関する情報を抽出する活動量情報抽出工
程と、上記筋肉の活動量に関する情報に基づいて上記発
話の内容を認識する音声認識工程と、を含むことを特徴
とする。
【0008】本発明の音声認識装置、音声認識方法によ
れば、筋電信号から筋肉の活動量に関する情報が抽出さ
れ、話者の筋肉の活動量に関する情報に基づいて音声認
識が行なわれる。ここで、話者の筋肉の活動量と話者が
発話する音素との間には所定の対応関係があるので、筋
肉の活動量に関する情報に基づいて音声認識することに
より高い認識率で発話の内容の認識が可能とされる。
【0009】ここで、上記音声認識装置において、上記
活動量情報抽出手段は、上記筋肉の活動量に関する情報
として、上記筋電信号の二乗平均平方及び整流化平均及
び積分平均の少なくとも一つを取得することが好まし
い。
【0010】また、上記音声認識方法において、上記活
動量情報抽出工程は、上記筋肉の活動量に関する情報と
して、上記筋電信号の二乗平均平方及び整流化平均及び
積分平均の少なくとも一つを取得することが好ましい。
【0011】筋電信号の二乗平均平方、整流化平均、積
分平均は、筋肉の活動量と高い相関関係を有するので、
これら二乗平均平方、整流化平均、積分平均を筋肉の活
動量に関する情報として取得することにより発話の内容
の認識が好適に行われる。また、筋電信号からこれらの
平均を取得するための計算負荷は、従来のような筋電信
号をFFT処理することに比べてかなり低くされる。
【0012】また、上記音声認識装置において、上記音
声認識手段は、上記筋肉の活動量に関する情報を入力と
するニューラルネットワークによって上記発話の内容を
認識することが好ましい。
【0013】また、上記音声認識方法において、上記音
声認識工程は、上記筋肉の活動量に関する情報を入力と
するニューラルネットワークによって上記発話の内容を
認識することが好ましい。
【0014】このように、筋肉の活動量に関する情報を
入力とするニューラルネットワークによって音声認識を
することにより、発話の内容が好適に認識される。
【0015】また、上記音声認識装置において、音素
と、当該音素が発話される際の話者の筋肉の活動量に関
する情報と、が関係づけられたデータベースを備え、上
記音声認識手段は、上記活動量情報抽出手段によって抽
出された筋肉の活動量に関する情報に基づいて、上記デ
ータベースを参照して上記話者が発話した音素を取得し
てもよい。
【0016】また、上記音声認識方法において、上記音
声認識工程は、上記活動量情報抽出工程によって抽出さ
れた筋肉の活動量に関する情報に基づいて、音素と当該
音素が発話される際の話者の筋肉の活動量に関する情報
とが関係づけられたデータベースを参照し、上記話者が
発話した音素を取得してもよい。
【0017】このように、筋肉の活動量に関する情報に
基づいて、音素とその音素が発話される際の筋肉の活動
量に関する情報とが関係づけられたデータベースを参照
することにより、話者の発話した音素が容易に取得さ
れ、発話の内容が好適に認識される。
【0018】また、上記音声認識装置において、上記発
話の際に発生する音響に関する情報を取得する音響情報
取得手段と、上記音響に関する情報に基づいて上記発話
の内容を認識する音響情報認識手段と、上記活動量情報
抽出手段によって抽出された筋肉の活動量に関する情報
と上記音響情報認識手段により認識された教師データと
しての発話の内容とに基づいて、上記音声認識手段にお
ける音声認識に係る学習を行う学習手段と、を備え、上
記音声認識手段は、上記活動量情報抽出手段によって抽
出された筋肉の活動量に関する情報に基づいて、上記学
習結果を参照して上記発話の内容を認識することが好ま
しい。
【0019】また、上記音声認識方法において、上記発
話の際に発生する音響に関する情報を取得する音響情報
取得工程と、上記音響に関する情報に基づいて上記発話
の内容を認識する音響情報認識工程と、上記活動量情報
抽出工程によって抽出された筋肉の活動量に関する情報
と上記音響情報認識工程により認識された教師データと
しての発話の内容とに基づいて、上記音声認識工程にお
ける音声認識に係る学習を行う学習工程と、を含み、上
記音声認識工程は、上記活動量情報抽出工程によって抽
出された筋肉の活動量に関する情報に基づいて、上記学
習結果を参照して上記発話の内容を認識することが好ま
しい。
【0020】このような学習により、話者に適合した音
声認識が可能とされ、認識率がさらに高くされる。ま
た、発話の際の音響に基づく音声認識により教師データ
を生成するので、話者が意識することなく自由な発話に
基づいて学習が行われ、学習における話者の負担が少な
くされる。
【0021】
【発明の実施の形態】以下、添付図面を参照しながら、
本発明に係る音声認識装置の好適な実施形態について詳
細に説明する。
【0022】図1は、第一実施形態に係る音声認識装置
のブロック図である。本実施形態の音声認識装置100
は、無声、すなわち、声を出さずに発話動作をする話者
の発話内容を認識する音声認識装置であって、話者の筋
電信号を取得する筋電信号取得手段11、筋電信号から
筋肉の活動量に関する情報を抽出する活動量情報抽出手
段12、筋肉の活動量に関する情報に基づいて話者の発
話内容を音声認識する活動量情報認識手段(音声認識手
段)16、音声認識した結果を提示する認識結果提示手
段17、及び、活動量情報認識手段16における音声認
識に関しての学習を行う学習部33を備えて構成され
る。
【0023】筋電信号取得手段11は、話者が発話動作
する際の口周りの筋肉(調音器官)の活動による筋電信
号の変動等を取得すると共に、取得された筋電信号を増
幅する。なお、高精度で音声認識をすべく、口周りの複
数の筋肉の筋電信号を取得することが好ましい。このよ
うにして取得された筋電信号の一例を図2に示す。ここ
で、横軸は時間であり、縦軸は筋電信号の電位である。
【0024】図1に戻って、活動量情報抽出手段12
は、筋電信号取得手段11で増幅された筋電信号を所定
の時間窓で切り出すと共に、当該時間窓毎に筋電信号か
ら筋肉の活動量に関する情報を抽出する。
【0025】具体的には、まず、図2に示すように、筋
電信号取得手段11によって取得された筋電信号50
を、所定の長さの主時間窓40,41,42等によって
順に切り出す。ここで、これらの主時間窓40,41,
42の時間長さは同じとされ、また、これらの主時間窓
40,41,42の開始時間は、順に所定時間づつ、例
えば、主時間窓の時間長さの半分ずつ遅れるようにされ
ている。また、必要に応じて、各々の主時間窓41等
を、さらに任意の数の副時間窓43,44,45に分割
できる。なお、主として、主時間窓40,41,42等
によって母音の認識が可能とされ、副時間窓43,4
4,45等によって子音の認識が可能となる。
【0026】次に、図3に示すように、各々の主時間
窓、副時間窓に対して、筋肉の活動量に関する情報とし
て、筋電信号の二乗平均平方(RMS)を計算する。こ
こで、二乗平均平方は、次式のように定義される。ここ
で、e(t)は筋電信号の電位(EMG)である。
【0027】
【数1】
【0028】なお、筋肉の活動量と相関がある量として
は、他に、(2)式に示す筋電信号の整流化平均値(A
RV)や、(3)式に示す筋電信号の積分平均値(IE
MG)等、を用いることができ、また、これらを組み合
わせることもできる。
【0029】
【数2】
【0030】
【数3】
【0031】ここで、筋電信号からこのような筋肉の活
動量に関する情報を抽出する理由について説明する。
【0032】話者が、母音や子音等の音素を発話する場
合、各音素毎に話者の口周辺の各々の筋肉の活動量は異
なる。ここで、話者に“a”,“i”,“u”,
“e”,“o”を各々発話させた場合及び無発話でリラ
ックスさせた場合について、当該話者の口周辺の代表的
な3つの筋肉の筋電信号を取得し、3つの筋肉の活動量
として各々の筋電信号の二乗平均平方をとって各々X
軸、Y軸、Z軸にプロットしたのが図4である。
【0033】図より明らかなように、無発話の場合、
“a”,“i”,“u”,“e”,“o”を発話した場
合で、各々の筋肉の活動量の大きさは互いに異なり、各
々の筋肉の活動量と各音素との間に所定の対応関係があ
ることがわかる。このため、筋電信号から筋肉の活動量
に関する情報を抽出し、この筋肉の活動量に関する情報
に対応する音素を取得することによって、高い認識率で
の音声認識が容易に行える。
【0034】次に、図1に戻って、活動量情報認識手段
16は、このようにして取得された筋肉の活動量に関す
る情報に基づいて話者が発話した音素を取得し、話者の
発話の内容を認識する。
【0035】具体的には、図5に示すように、3層構造
のニューラルネットワーク70によって音声認識を行
う。すなわち、入力層71には、活動量情報抽出手段1
2で取得された各々の筋肉の活動量に関する情報、例え
ば、二乗平均平方が入力される。一方、出力層72は、
音素、例えば、“a”,“i”,“u”,…,“n”等
の母音及び子音に対応するユニットとされている。そし
て、このニューラルネットワーク70は、入力層71に
入力された筋肉の活動量に関する情報から、所定の認識
パラメータに基づいて当該発話における音素を判断して
出力層72に出力し、これによって発話の内容が認識さ
れる。
【0036】なお、このニューラルネットワーク70に
おける認識パラメータは、あらかじめ用意された万人向
けの認識パラメータや、後述する学習部33で生成され
る話者に適合された認識パラメータ等が用いられる。
【0037】図1に戻って、認識結果提示手段17は、
活動量情報認識手段16で認識された認識結果をディス
プレイやスピーカ等によって話者に提示したり、あるい
は、ワープロ等のアプリケーションに伝達したり、通信
手段等によって他人等に送信する。
【0038】学習部33は、音響情報取得手段14、音
響情報認識手段15及び学習手段13を備えている。音
響情報取得手段14は、話者が声を出す、すなわち、有
声による発話動作をする際に発生する音響信号を取得す
ると共に、取得された音響信号のスペクトル分析やケプ
ストラム分析等を行って音響情報を取得する。
【0039】音響情報認識手段15は、音響情報取得手
段14が取得した音響情報に基づいて音声認識を行って
話者の発話の内容を取得し、話者の発話の内容に対応す
る教師データとする。ここで、音響情報認識手段15に
おける、音声認識方法は特に限定されず、例えば、スペ
クトル包絡等に基づく隠れマルコフモデルや、DPマッ
チング法等が利用できる。
【0040】学習手段13は、活動量情報抽出手段12
で抽出された筋肉の活動量に関する情報を取得すると共
に、教師データとして、音響情報認識手段15で取得さ
れた発話の内容を取得し、活動量情報認識手段16にお
いて行われる音声認識に関する学習を行い、この音声認
識のための認識パラメータを生成する。
【0041】具体的には、例えば、本実施形態のように
活動量情報認識手段16でニューラルネットワーク70
を用いる場合には(図5参照)、そのニューラルネット
ワーク70に対してバックプロパゲーション法を適用
し、入力層71には筋肉の活動量に関する情報としての
筋電信号の二乗平均平方等を与える一方、出力層72の
各音素“a”,“i”,“u”,…,“n”には音響情
報認識手段15において認識された発話の内容を各々与
えればよく、これによって、各話者に適合した認識パラ
メータが生成される。
【0042】次に、このような音声認識装置100の動
作について説明すると共に、併せて、本実施形態に係る
音声認識方法について説明する。
【0043】はじめに、図6を参照して、音声認識に関
する学習を行う手順について説明する。
【0044】まず、音声認識装置100は、話者が有声
で自由な発話を行う際の話者の筋肉の筋電信号を取得す
ると共に、発話に伴い発生する音に基づく音響情報を取
得する(ステップ101)。
【0045】次に、筋電信号を所定の時間窓で切り出
し、時間窓毎に筋肉の活動量に関する情報を抽出する一
方、音響情報に基づいて音声認識を行って発話の内容を
取得する(ステップ102)。
【0046】次に、筋肉の活動量に関する情報と、教師
データとしての発話の内容と、に基づいて活動量情報認
識手段16における音声認識に関する学習を行い、音声
認識のための認識パラメータを生成する(ステップ10
3)。
【0047】そして、活動量情報認識手段16が、認識
パラメータを取得する(ステップ104)。
【0048】続いて、図7を参照して、話者の無声によ
る発話に基づいて音声認識をする手順について説明す
る。
【0049】まず、音声認識装置100は、話者が無声
で発話を行う際の、話者の筋電信号を取得する(ステッ
プ201)。
【0050】次に、筋電信号を所定の時間窓で切り出す
と共に、時間窓毎に筋肉の活動量に関する情報を抽出す
る(ステップ202)。
【0051】次に、筋肉の活動量に関する情報に基づい
て、上述の学習によって取得した認識パラメータ等を用
いたニューラルネットワーク70によって音声認識を行
って発話の内容を認識する(ステップ203)。
【0052】そして、認識結果を画面や音声に出力した
り、ワープロ等のアプリケーションに送信する(ステッ
プ204)。
【0053】このような、本実施形態の音声認識装置及
び音声認識方法によれば、筋電信号から筋肉の活動量に
関する情報が抽出され、話者の筋肉の活動量に関する情
報に基づいて音声認識が行なわれる。ここで、話者の筋
肉の活動量と話者が発話する音素との間には所定の対応
関係があるので、筋肉の活動量に関する情報に基づいて
音声認識することにより高い認識率で発話の内容の認識
が可能とされている。
【0054】また、筋電信号の二乗平均平方、整流化平
均、積分平均は、筋肉の活動量と高い相関関係を有する
ので、これら二乗平均平方、整流化平均、積分平均を筋
肉の活動量に関する情報として取得することにより発話
の内容の認識が好適に行われる。また、筋電信号からこ
れらの平均を取得するための計算負荷は、従来のような
筋電信号をFFT処理することに比べてかなり低くされ
る。
【0055】また、筋肉の活動量に関する情報を入力と
するニューラルネットワークによって音声認識をするこ
とにより、発話の内容が好適に認識されている。
【0056】また、学習によって話者に適合した音声認
識が可能とされ、認識率がさらに高くされる。また、こ
の学習において、発話の際の音響に基づく音声認識によ
り教師データを生成するので、話者が意識することなく
自由な発話に基づいて学習が行われ、学習における話者
の負担が少なくされる。
【0057】なお、あらかじめ、活動量情報認識手段1
6に対して万人向けの認識パラメータを設定しておくこ
とにより、上述のような学習をしなくても、同様な音声
認識ができる。また、音声認識を高認識率で行うべく、
筋肉の活動量に関する情報を多くの筋肉について得るこ
とが好ましい。
【0058】続いて、図8を参照して、第二実施形態に
係る音声認識装置200について説明する。本実施形態
の音声認識装置200が第一実施形態の音声認識装置1
00と違う点は、音素と当該音素が発話される際の筋肉
の活動量に関する情報とが関連づけて格納された音素活
動量情報データベース(データベース)30を備えてい
る点である。そして、活動量情報認識手段16は、活動
量情報抽出手段12によって抽出された筋肉の活動量に
関する情報に基づいて、ニューラルネットワーク70に
よるのではなく、音素活動量情報データベース30を参
照して発話の内容を認識する。
【0059】この音素活動量情報データベース30に
は、音素と当該音素が発話される際の筋肉の活動量に関
する情報とが関連づけられたデータとして、万人向けの
一般的なデータがあらかじめ格納されているが、必要に
応じて、学習手段13における学習結果に基づいてデー
タを話者に適合させることができる。
【0060】このような、音素活動量情報データベース
30の一つの例として、例えば、図4等に基づいて、各
音素毎に、各音素が発話される際の各筋肉の活動量に関
する情報の大きさの確率分布を求め、当該筋肉の活動量
に関する情報の大きさの確率分布を各音素に対応づけて
格納したデータベースがある。このようなデータベース
を用いる場合、活動量情報認識手段16は、活動量情報
抽出手段12によって抽出された各筋肉の活動量の大き
さの分布に基づいてデータベースを参照し、当該分布に
最も近い確率分布を有する音素を取得することにより発
話の内容を認識できる。
【0061】また、音素活動量情報データベース30の
他の例として、例えば、図9に示すような、各音素と、
各音素が発話される際の各筋肉の活動量の大きさとを対
応づけたテーブルが考えられる。このテーブルは、平均
的な日本人が各音素を発話した際に、口周辺の各筋肉が
どの程度活動するかを五段階評価したものである。この
ようなデータベースを用いる場合も、活動量情報認識手
段16は、活動量情報抽出手段12によって抽出された
各筋肉の活動量の大きさに基づいてテーブルを参照し、
最も筋肉の活動量のパターンが近い音素を取得すること
により発話の内容を認識できる。
【0062】このように、本実施形態においては、取得
された筋肉の活動量に関する情報に基づいて、音素とそ
の音素が発話される際の筋肉の活動量に関する情報とが
関係づけられたデータベースを参照することにより、話
者の発話した音素が容易に取得され、発話の内容が好適
に認識される。
【0063】なお、この音素活動量情報データベース3
0を予め構築しておくと、必ずしも話者毎に音声認識に
関する学習を行わなくてもある程度の認識率で音声認識
が可能である。また、第一実施形態のような学習を行っ
て、この音素活動量情報データベース30を話者毎にさ
らに適合させることにより、より高い認識率での音声認
識が可能となる。なお、音声認識を高認識率で行うべ
く、筋肉の活動量に関する情報を多くの筋肉について得
ることが好ましい。
【0064】なお、本発明に係る音声認識装置は、上記
実施形態に限定されるものではなく、種々の変形態様を
とることが可能である。
【0065】例えば、上記実施形態において、学習部3
3は、話者の音響情報に基づいて教師データとしての発
話内容を取得しているがこれに限られず、例えば、キー
ボード等の入力手段を備え、話者が発話の内容を直接入
力してもよい。
【0066】なお、上記実施形態の音声認識装置10
0,200は、無声による発話の音声認識に適している
が、有声による発話の音声認識ができることはいうまで
もない。
【0067】
【発明の効果】上述のように、本発明の音声認識装置、
音声認識方法によれば、筋電信号から筋肉の活動量に関
する情報を抽出し、話者の筋肉の活動量に関する情報に
基づいて音声認識を行う。ここで、話者の筋肉の活動量
と話者が発話する音素との間には所定の対応関係がある
ので、筋肉の活動量に関する情報に基づいて音声認識す
ることにより高い認識率で発話の内容の認識が可能とさ
れる。
【図面の簡単な説明】
【図1】第一実施形態に係る音声認識装置を示すブロッ
ク図である。
【図2】図1中の活動量情報抽出手段において、筋電信
号を時間窓で切り出す方法を説明する図である。
【図3】図1中の活動量情報抽出手段において、切り出
された筋電信号から筋肉の活動量に関する情報を取得す
る方法を説明する図である。
【図4】無発話、及び、“a”,“i”,“u”,
“e”,“o”が発話された際の、口周辺の3つの筋肉
の活動量に関する情報を示す図である。
【図5】図1中の活動量情報認識手段におけるニューラ
ルネットワークを示す図である。
【図6】第一実施形態において、音声認識に関する学習
を行う手順を示すフロー図である。
【図7】第一実施形態において、無声の発話による音声
認識を行う手順を示すフロー図である。
【図8】第二実施形態に係る音声認識装置を示すブロッ
ク図である。
【図9】図8の音素活動量情報データベースの例を示す
表である。
【符号の説明】
11…筋電信号取得手段、12…活動量情報抽出手段、
13…学習手段、14…音響情報取得手段、15…音響
情報認識手段、16…活動量情報認識手段(音声認識手
段)、30…音素活動量情報データベース、100,2
00…音声認識装置。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/16 G10L 3/00 539 15/24 521F (72)発明者 杉村 利明 東京都千代田区永田町二丁目11番1号 株 式会社エヌ・ティ・ティ・ドコモ内 Fターム(参考) 5B056 BB61 HH05 5D015 BB02 GG00 JJ00 LL07

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 話者が発話する際の前記話者の筋肉の筋
    電信号に基づいて前記発話の内容を認識する音声認識装
    置において、 前記筋電信号を取得する筋電信号取得手段と、 前記筋電信号から前記筋肉の活動量に関する情報を抽出
    する活動量情報抽出手段と、 前記筋肉の活動量に関する情報に基づいて前記発話の内
    容を認識する音声認識手段と、 を備えることを特徴とする、音声認識装置。
  2. 【請求項2】 前記活動量情報抽出手段は、前記筋肉の
    活動量に関する情報として、前記筋電信号の二乗平均平
    方及び整流化平均及び積分平均の少なくとも一つを取得
    することを特徴とする、請求項1に記載の音声認識装
    置。
  3. 【請求項3】 前記音声認識手段は、前記筋肉の活動量
    に関する情報を入力とするニューラルネットワークによ
    って前記発話の内容を認識することを特徴とする、請求
    項1または2に記載の音声認識装置。
  4. 【請求項4】 音素と、当該音素が発話される際の話者
    の筋肉の活動量に関する情報と、が関係づけられたデー
    タベースを備え、 前記音声認識手段は、前記活動量情報抽出手段によって
    抽出された筋肉の活動量に関する情報に基づいて前記デ
    ータベースを参照し、前記話者が発話した音素を取得す
    ることを特徴とする、請求項1または2に記載の音声認
    識装置。
  5. 【請求項5】 前記発話の際に発生する音響に関する情
    報を取得する音響情報取得手段と、 前記音響に関する情報に基づいて前記発話の内容を認識
    する音響情報認識手段と、 前記活動量情報抽出手段によって抽出された筋肉の活動
    量に関する情報と、前記音響情報認識手段により認識さ
    れた教師データとしての発話の内容と、に基づいて、前
    記音声認識手段における音声認識に係る学習を行う学習
    手段と、を備え、 前記音声認識手段は、前記活動量情報抽出手段によって
    抽出された筋肉の活動量に関する情報に基づいて、前記
    学習結果を参照して前記発話の内容を認識することを特
    徴とする、請求項1〜4の何れか一項に記載の音声認識
    装置。
  6. 【請求項6】 話者が発話する際の前記話者の筋肉の筋
    電信号に基づいて前記発話の内容を認識する音声認識方
    法において、 前記筋電信号を取得する筋電信号取得工程と、 前記筋電信号から前記筋肉の活動量に関する情報を抽出
    する活動量情報抽出工程と、 前記筋肉の活動量に関する情報に基づいて前記発話の内
    容を認識する音声認識工程と、 を含むことを特徴とする、音声認識方法。
  7. 【請求項7】 前記活動量情報抽出工程は、前記筋肉の
    活動量に関する情報として、前記筋電信号の二乗平均平
    方及び整流化平均及び積分平均の少なくとも一つを取得
    することを特徴とする、請求項6に記載の音声認識方
    法。
  8. 【請求項8】 前記音声認識工程は、前記筋肉の活動量
    に関する情報を入力とするニューラルネットワークによ
    って前記発話の内容を認識することを特徴とする、請求
    項6または7に記載の音声認識方法。
  9. 【請求項9】 前記音声認識工程は、前記活動量情報抽
    出工程によって抽出された筋肉の活動量に関する情報に
    基づいて、音素と当該音素が発話される際の話者の筋肉
    の活動量に関する情報とが関係づけられたデータベース
    を参照し、前記話者が発話した音素を取得することを特
    徴とする、請求項6または7に記載の音声認識方法。
  10. 【請求項10】 前記発話の際に発生する音響に関する
    情報を取得する音響情報取得工程と、 前記音響に関する情報に基づいて前記発話の内容を認識
    する音響情報認識工程と、 前記活動量情報抽出工程によって抽出された筋肉の活動
    量に関する情報と、前記音響情報認識工程により認識さ
    れた教師データとしての発話の内容と、に基づいて、前
    記音声認識工程における音声認識に係る学習を行う学習
    工程と、を含み、 前記音声認識工程は、前記活動量情報抽出工程によって
    抽出された筋肉の活動量に関する情報に基づいて、前記
    学習結果を参照して前記発話の内容を認識することを特
    徴とする、請求項6〜9の何れか一項に記載の音声認識
    方法。
JP2002054235A 2002-02-28 2002-02-28 音声認識装置及び音声認識方法 Expired - Fee Related JP3908965B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2002054235A JP3908965B2 (ja) 2002-02-28 2002-02-28 音声認識装置及び音声認識方法
DE60302478T DE60302478T2 (de) 2002-02-28 2003-02-27 Vorrichtung und Verfahren zur Sprachinformationserkennung unter Verwendung der Analyse myoelektrischer Signale
US10/373,730 US7480616B2 (en) 2002-02-28 2003-02-27 Information recognition device and information recognition method
EP03004462A EP1341159B1 (en) 2002-02-28 2003-02-27 Speech information recognition device and speech information recognition method based on myoelectrical signal analysis
CNB031067816A CN1235167C (zh) 2002-02-28 2003-02-28 信息识别装置与信息识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002054235A JP3908965B2 (ja) 2002-02-28 2002-02-28 音声認識装置及び音声認識方法

Publications (2)

Publication Number Publication Date
JP2003255994A true JP2003255994A (ja) 2003-09-10
JP3908965B2 JP3908965B2 (ja) 2007-04-25

Family

ID=27678565

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002054235A Expired - Fee Related JP3908965B2 (ja) 2002-02-28 2002-02-28 音声認識装置及び音声認識方法

Country Status (5)

Country Link
US (1) US7480616B2 (ja)
EP (1) EP1341159B1 (ja)
JP (1) JP3908965B2 (ja)
CN (1) CN1235167C (ja)
DE (1) DE60302478T2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008233438A (ja) * 2007-03-20 2008-10-02 National Institute Of Advanced Industrial & Technology 筋電位信号による音声認識装置
WO2019245232A1 (ko) * 2018-06-20 2019-12-26 윤영식 근육 기억을 이용한 언어 학습 장치 및 언어 학습 방법
WO2021149441A1 (ja) * 2020-01-20 2021-07-29 ソニーグループ株式会社 情報処理装置および情報処理方法

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2396421A (en) * 2002-12-16 2004-06-23 Orange Personal Comm Serv Ltd Head-worn device measuring brain and facial muscle activity
US8200486B1 (en) * 2003-06-05 2012-06-12 The United States of America as represented by the Administrator of the National Aeronautics & Space Administration (NASA) Sub-audible speech recognition based upon electromyographic signals
JP4447857B2 (ja) * 2003-06-20 2010-04-07 株式会社エヌ・ティ・ティ・ドコモ 音声検出装置
JP4713111B2 (ja) * 2003-09-19 2011-06-29 株式会社エヌ・ティ・ティ・ドコモ 発話区間検出装置、音声認識処理装置、送信システム、信号レベル制御装置、発話区間検出方法
FR2866800A1 (fr) * 2004-02-26 2005-09-02 Moche Aslanov Dispositif pour le suivi graphique de la pensee
US20060129394A1 (en) * 2004-12-09 2006-06-15 International Business Machines Corporation Method for communicating using synthesized speech
US8251924B2 (en) * 2006-07-07 2012-08-28 Ambient Corporation Neural translator
US8082149B2 (en) * 2006-10-26 2011-12-20 Biosensic, Llc Methods and apparatuses for myoelectric-based speech processing
CN102999154B (zh) * 2011-09-09 2015-07-08 中国科学院声学研究所 一种基于肌电信号的辅助发声方法及装置
US9257133B1 (en) 2013-11-26 2016-02-09 Amazon Technologies, Inc. Secure input to a computing device
US9564128B2 (en) 2013-12-09 2017-02-07 Qualcomm Incorporated Controlling a speech recognition process of a computing device
KR20150104345A (ko) * 2014-03-05 2015-09-15 삼성전자주식회사 음성 합성 장치 및 음성 합성 방법
TWI576826B (zh) * 2014-07-28 2017-04-01 jing-feng Liu Discourse Recognition System and Unit
US20160284363A1 (en) * 2015-03-24 2016-09-29 Intel Corporation Voice activity detection technologies, systems and methods employing the same
CN109875515B (zh) * 2019-03-25 2020-05-26 中国科学院深圳先进技术研究院 一种基于阵列式表面肌电的发音功能评估系统

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0277800A (ja) 1988-09-13 1990-03-16 Nec Corp 音声合成システム
DE4212907A1 (de) 1992-04-05 1993-10-07 Drescher Ruediger Spracherkennungsverfahren für Datenverarbeitungssysteme u.s.w.
JPH0612483A (ja) 1992-06-26 1994-01-21 Canon Inc 音声入力方法及び装置
JP3455921B2 (ja) 1993-12-24 2003-10-14 日本電信電話株式会社 発声代行装置
CA2190619A1 (en) 1994-06-06 1995-12-14 Shay-Ping Thomas Wang Speech-recognition system utilizing neural networks and method of using same
US6006175A (en) * 1996-02-06 1999-12-21 The Regents Of The University Of California Methods and apparatus for non-acoustic speech characterization and recognition
US6795807B1 (en) * 1999-08-17 2004-09-21 David R. Baraff Method and means for creating prosody in speech regeneration for laryngectomees
DE19941227A1 (de) * 1999-08-30 2001-03-08 Philips Corp Intellectual Pty Verfahren und Anordnung zur Spracherkennung
FR2801716B1 (fr) 1999-11-30 2002-01-04 Thomson Multimedia Sa Dispositif de reconnaissance vocale mettant en oeuvre une regle syntaxique de permutation
JP2001265375A (ja) * 2000-03-17 2001-09-28 Oki Electric Ind Co Ltd 規則音声合成装置
ATE297588T1 (de) * 2000-11-14 2005-06-15 Ibm Anpassung des phonetischen kontextes zur verbesserung der spracherkennung
WO2002077972A1 (en) * 2001-03-27 2002-10-03 Rast Associates, Llc Head-worn, trimodal device to increase transcription accuracy in a voice recognition system and to process unvocalized speech
US6941264B2 (en) * 2001-08-16 2005-09-06 Sony Electronics Inc. Retraining and updating speech models for speech recognition

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008233438A (ja) * 2007-03-20 2008-10-02 National Institute Of Advanced Industrial & Technology 筋電位信号による音声認識装置
WO2019245232A1 (ko) * 2018-06-20 2019-12-26 윤영식 근육 기억을 이용한 언어 학습 장치 및 언어 학습 방법
WO2021149441A1 (ja) * 2020-01-20 2021-07-29 ソニーグループ株式会社 情報処理装置および情報処理方法

Also Published As

Publication number Publication date
JP3908965B2 (ja) 2007-04-25
EP1341159B1 (en) 2005-11-30
DE60302478T2 (de) 2006-08-03
CN1235167C (zh) 2006-01-04
CN1442802A (zh) 2003-09-17
US20030163306A1 (en) 2003-08-28
US7480616B2 (en) 2009-01-20
DE60302478D1 (de) 2006-01-05
EP1341159A1 (en) 2003-09-03

Similar Documents

Publication Publication Date Title
JP3908965B2 (ja) 音声認識装置及び音声認識方法
US11056097B2 (en) Method and system for generating advanced feature discrimination vectors for use in speech recognition
Kandali et al. Emotion recognition from Assamese speeches using MFCC features and GMM classifier
US9754580B2 (en) System and method for extracting and using prosody features
JP4085130B2 (ja) 感情認識装置
JP4914295B2 (ja) 力み音声検出装置
US11335324B2 (en) Synthesized data augmentation using voice conversion and speech recognition models
JP2006171750A (ja) 音声認識のための特徴ベクトル抽出方法
JP2001166789A (ja) 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置
EP1609134A1 (en) Sound system improving speech intelligibility
US9754602B2 (en) Obfuscated speech synthesis
JP5382780B2 (ja) 発話意図情報検出装置及びコンピュータプログラム
Polur et al. Effect of high-frequency spectral components in computer recognition of dysarthric speech based on a Mel-cepstral stochastic model.
WO2003098597A1 (fr) Dispositif d'extraction de noyau syllabique et progiciel associe
JP4677548B2 (ja) パラ言語情報検出装置及びコンピュータプログラム
Hasija et al. Recognition of Children Punjabi Speech using Tonal Non-Tonal Classifier
JP2010060846A (ja) 合成音声評価システム及び合成音声評価方法
JP2006154212A (ja) 音声評価方法および評価装置
JP2003316387A (ja) 学習装置、移動通信端末、情報認識システム、及び、学習方法
Hossain et al. Finding emotion from multi-lingual voice data
Rossetti Gemination of Italian stops
Li et al. A detection method of lip-smack in spontaneous speech
Deo et al. Review of Feature Extraction Techniques
Toma et al. Recognition of English vowels in isolated speech using characteristics of Bengali accent
JP2006284907A (ja) 音素セグメンテーション方法及び装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041012

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060725

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060922

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070119

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110126

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110126

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120126

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120126

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130126

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees