JP2004329750A

JP2004329750A - 生体信号を利用した人工発声装置及び方法

Info

Publication number: JP2004329750A
Application number: JP2003133024A
Authority: JP
Inventors: Osamu Fukuda; 修福田; Toshio Tsuji; 敏夫辻
Original assignee: National Institute of Advanced Industrial Science and Technology AIST
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 2003-05-12
Filing date: 2003-05-12
Publication date: 2004-11-25
Anticipated expiration: 2023-05-12
Also published as: JP4110247B2

Abstract

【課題】筋電位、脳波、手足の動き（加速度）、呼気、接触圧などを利用して、容易に制御が可能な人工発声装置を提供する。
【解決手段】本発明は、生体信号（ＥＭＧ信号）の入力部と、選択された生体信号１から特徴パターンを抽出する特徴抽出処理部と、抽出した特徴パターン２から使用者が意図する語音についての確率を計算する語音推定部と、語音推定部が計算した語音に関する事後確率３の時系列的な変化から使用者が意図する単語を決定する単語推定部と、推定した単語４から文章を構成するための文章エディタ部と、作成した文章情報５及び音量，音高，音質，発声速度に関する特徴量６に基づいて音声合成および発声を行なう音声再生部と、装置使用中の各部の処理状況７を使用者に提示するフィードバック部と、各部で使用するパラメータ８を保存・読み出し可能なパラメータ保存部とから成っている。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、重度の障害者などでも使用することのできる筋電位、手足の動き（加速度）、呼気、接触圧などの生体信号を利用して制御が可能な人工発声装置及び方法に関するものである。
【０００２】
【従来の技術】
喉頭摘出者のための人工喉頭に関しては、特許文献１にあるように人工的な振動体を喉頭部に接続し発声を補助する方法などが既に考案されている。生体信号を利用した人工発声装置に関しては、特許文献２或いは特許文献３にあるように、計測した情報から一つ一つの語音（あ、い、う、え、お、など）を発声する方法などが既に考案されている。
しかしながら振動体を喉頭部に接続する方法は、脊椎損傷患者などで喉頭部に流動食用のチューブなどを装着した場合には、装着が困難であり使用することができなかった。
また、生体信号から一つ一つの語音を発声する方法は、発声が途切れ途切れになるなどなどの不自然な点があり、また多数の語音を高精度に推定するためには、大掛かりな推定処理が必要であった。
【特許文献１】
特開平８−２６５８９１号公報
【特許文献２】
特開平７−１８１８８８号公報
【特許文献３】
特開平７−４３３号公報
【非特許文献１】
村木、角田、杉江：“ 代用発声のための子音判別法に関する基礎的研究” 電子通信学会技術報告、ＭＢＥ−８３，１０８，ｐｐ１３１／１３６，（１９８４）
【非特許文献２】
Ｔ．Ｔｓｕｊｉ，Ｏ．Ｆｕｋｕｄａ，Ｈ．Ｉｃｈｉｎｏｂｅ，Ｍ．Ｋａｎｅｋｏ： ” ＡＬｏｇ−ＬｉｎｅａｒｉｚｅｄＧａｕｓｓｉａｎＭｉｘｔｕｒｅＮｅｔｗｏｒｋａｎｄＩｔｓＡｐｐｌｉｃａｔｉｏｎｔｏＥＥＧＰａｔｔｅｒｎＣｌａｓｓｉｆｉｃａｔｉｏｎ， ” ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＳｙｓｔｅｍｓ，Ｍａｎ，ａｎｄＣｙｂｅｒｎｅｔｉｃｓ−ＰａｒｔＣ：ＡｐｐｌｉｃａｔｉｏｎａｎｄＲｅｖｉｅｗｓ，ｖｏｌ．２９，ＮＯ．１，ｐｐ．６０／７２，（１９９９）
【非特許文献３】
Ｌ．Ｒ．Ｒａｂｉｎｅｒ： ” ＡｔｕｔｏｒｉａｌｏｎｈｉｄｄｅｎＭａｒｋｏｖｍｏｄｅｌａｎｄｓｅｌｅｃｔｅｄａｐｐｌｉｃａｔｉｏｎｉｎｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ， ” ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥ，ｖｏｌ．７７，Ｎｏ．２，ｐｐ．２５７／２８６，（１９８９）
【非特許文献４】
辻、市延、伊藤、長町：“ エントロピーを用いた誤差逆伝播型ニューラルネットによるＥＭＧからの前腕動作の識別”、計測自動制御学会論文集、Ｖｏｌ．２９，Ｎｏ．１０，ｐｐ．１２１３／１２２０，（１９９３）
【０００３】
【発明が解決しようとする課題】
代用発声法は大きく二つに大別される。一つは、疾患や障害により損失した発声器官を装置や訓練により補う方式であり、笛式、電気式人工喉頭発声法、食道発声法などがある。もう一つは口唇の形状や舌の動きから、語音を推定し、音声合成・再生を行う方式である（非特許文献１参照）。後者は一般的に語音識別部と音声再生部で構成され、精度良く語音識別ができれば、優れた代用発声法になる可能性がある。本発明は、後者の立場から、被験者の意図する音声をＥＭＧから識別する方法を提案する。そして、ニューラルネットワークと隠れマルコフモデルを組み合わせた筋電ボコーダシステムを構築し、従来の代用発声法の課題に取り組む。
本発明は、発声機能障害者の為の新しい意思伝達装置の開発を目的とし、自然発声時の頸部および表情筋の筋電位（ＥＭＧ）に基づく音声識別を提案する。ＥＭＧからの音声発生処理は、２段階のパターン処理で構成する。まず第１に、ニューラルネットワークを用いてＥＭＧから語音識別を行い、次に、隠れマルコフモデルにより第１段階で識別した語音から単語音声を認識する。
本発明は、上記に鑑み提案するもので、筋電位、脳波、手足の動き（加速度）、呼気、接触圧などを利用して、容易に制御が可能な人工発声装置を提供することを目的とする。
【０００４】
【課題を解決するための手段】
本発明の人工発声装置は、生体信号の入力部と、生体信号から特徴パターンを抽出する特徴抽出処理部と、特徴パターンから使用者が意図する語音についての確率を計算する語音推定部と、語音推定部が計算した確率の時系列的な変化から使用者が意図する単語を決定する単語推定部と、推定した単語から文章を構成するための文章エディタ部と、作成した文章に基づいて音声合成および発声を行なう音声再生部と、装置使用中の各部の処理状況を使用者に提示するフィードバック部と、各部で使用するパラメータを保存・読み出し可能なパラメータ保存部とから成る。
また、本発明の人工発声方法は、入力された生体信号から特徴パターンを抽出し、この特徴パターンから使用者が意図する語音についての確率を計算して語音を推定し、計算した確率の時系列的な変化から使用者が意図する単語を決定し、推定した単語から作成した文章に基づいて音声合成および発声を行なうことから成る。
【０００５】
【発明の実施の形態】
以下、例示に基づき、本発明を説明する。図１は、本発明を具体化する人工発声装置の全体構成を例示する図である。例示の構成は、生体信号（ＥＭＧ信号）の入力部と、選択された生体信号１から特徴パターンを抽出する特徴抽出処理部と、抽出した特徴パターン２から使用者が意図する語音についての確率を計算する語音推定部と、語音推定部が計算した語音に関する事後確率３の時系列的な変化から使用者が意図する単語を決定する単語推定部と、推定した単語４から文章を構成するための文章エディタ部と、作成した文章情報５及び音量，音高，音質，発声速度に関する特徴量６に基づいて音声合成および発声を行なう音声再生部と、装置使用中の各部の処理状況７を使用者に提示するフィードバック部と、各部で使用するパラメータ８を保存・読み出し可能なパラメータ保存部とから成っている。
【０００６】
生体信号（ＥＭＧ信号）の入力部は、入力として筋電位、脳波、手足の動き（加速度）、呼気、接触圧などを選択・組み合わせて受けることが可能である。
ＥＭＧは筋収縮レベルに応じて発生し、意図する動作や力、そして、運動の柔らかさを決めるインピーダンスパラメータなどの情報を含んでいる。ＥＭＧ計測にはＥＭＧ用アンプ（ＮＥＣ三栄ＭＴ−１１）およびＬチャンネル分の表面皮膚電極（ＧＥＭａｒｑｕｅｔｔｅ製ＳＥＢ１２０）を用いる。実験では、頸部および表情筋の計Ｌ＝５ＣＨからＥＭＧを計測した。ＥＭＧの測定部位を図２に示す。それぞれ１ＣＨ：咬筋、２ＣＨ：顎二服筋、３ＣＨ：下唇下制筋、４ＣＨ：大頬骨筋、５ＣＨ：口角下制筋である。これらの測定部位は、実験前に被験者に自然な状態で発声を行わせ、電極の装着が比較的容易で発声時の振幅差が顕著に現れる部位を選択した。まず、前処理として５対の電極から計測したＥＭＧをＡ／Ｄ変換（サンプリング周波数：１．０ｋＨｚ）し、各チャンネルごとに全波整流した後、２次のデジタルバターワースフィルタ（カットオフ周波数１．０Ｈｚ）に通した。そして、この時系列信号をＩＥＭＧ_ｉ（ｔ）（ｉ＝１，・・・Ｌ）とした。
【０００７】
特徴抽出処理部では、整流処理、フィルタリング処理、周波数解析処理、正規化処理、ピーク検出処理などを適切に実施することにより、計測した生体信号から特徴量（発声を意図する語音、音量、音高、音質、発声の速度に関する情報）を抽出する。
語音推定部には、使用する生体信号に含まれる個人差に適応するために、ニューラルネットを利用した学習機構を備える。語音推定部はニューラルネットを含み、それを用いて特徴パターンから使用者が意図する語音を推定し、その事後確率を計算する。
【０００８】
語音識別には例えば辻らが提案したＬｏｎｇ−ＬｉｎｅａｒｉｚｅｄＧａｕｓｓｉａｎＭｉｘｔｕｒｅＮｅｔｗｏｒｋ（以下、ＬＬＧＭＮと略記）（非特許文献２参照）を用いる。このネットワークは混合正規分布モデルを対数線形化して３層のネットワークに展開したもので、サンプルデータが従う統計分布をこのモデルに基づいて学習的に推定し、入力パターンに対する各クラスの事後確率を出力することができる。ＬＬＧＭＮはその学習能力によって、個人差や電極位置、疲労や発汗などに伴うＥＭＧ信号の変化に適応でき、精度の高い識別を実現する。
【０００９】
単語識別部は隠れマルコフモデルを含み、それを用いて語音推定部で計算した事後確率の時系列的な変化から使用者の意図する単語を推定する。
ここでは、ニューラルネットによる語音識別結果の時系列から被験者の意図する単語音声を識別する。この音声識別には、例えば音声識別の分野で実績のある隠れマルコフモデル（非特許文献３参照）を利用する。まず、ＬＬＧＭＮを利用した語音識別の予備実験を行い、母音と子音のＥＭＧパターンの差異を検証したところ、子音はそれが属する母音として識別されることを確認した。そこで、再生される単語音声を母音および撥音の組み合わせとして予めデータベース化し、入力データとのマッチングから単語音声を識別することを試みる。隠れマルコフモデルの導入により、語音識別において多少の誤識別がある場合でも意図する単語音声にクラスタリングすることができる。
【００１０】
図３は、隠れマルコフモデル（ＨＭＭ）を説明する図である。隠れマルコフモデルは，音声信号のように時々刻々と変化する時系列信号をモデル化するのに適するモデル化手法であり対象とする時系列信号Ｘを確率分布を含む複数の状態ｎ（ｎ＝１， …，Ｎ）とその間を遷移する遷移確率Ａ，および各状態で対象とする時系列が出力される確率Ｂによって表現する．対象を確率で表現することから信号パターンの時間方向への伸縮，および信号パターンの部分的な誤りに対しても安定した識別精度が得られる．
文章エディタ部では、単語識別部で推定した単語をつなぎ合わせて長い文章を作成可能とする。
【００１１】
音声再生部では、文章エディタ部で作成した文章、および特徴抽出部で抽出した音量、音高、音質、発声の速度などに関する特徴量に基づいた発声を行なう。
フィードバック部では、入力部における入力の選択状況、特徴抽出処理部における特徴パターン、語音推定部における事後確率値、単語推定部における推定結果、文章エディタ部における作成文章などをグラフィカルに使用者に提示する。
パラメータ保存部では、入力部における入力の選択状況、特徴抽出処理部におけるフィルタなどのパラメータ、語音推定部におけるニューラルネットのパラメータ、単語推定部における登録単語および隠れマルコフモデルのパラメータ、文章エディタ部における作成中の文章などを使用者毎に保存・読み出しが可能な構成を有する。
【００１２】
【実施例】
提案手法の妥当性を検証するため、発声機能に障害を持たない健常な男子大学生（２３歳）による語音識別実験を行った。実験では、Ｌ＝５対の電極から計測したＩＥＭＧ_ｉ（ｔ）（ｉ＝１，・・・Ｌ）を全チャンネルの和が１となるように正規化したものを入力ベクトルとした。また、本稿では推定筋力α（ｔ）を次式のように定義し、この値が閾値を越えれば発声と判断して識別を行った。
【数１】

は実験前に計測した各チャンネルの最大随意筋収縮時の値を表す。さらに、誤識別防止のためにＬＬＧＭＮの出力から計算したエントロピーを利用して識別判定処理を行った。これはエントロピーに閾値を設け、もし閾値を越えた場合には、あいまいな識別として識別を保留するものである（非特許文献４参照）。
実験結果の一例を図４に示す。図は上から順に、５チャンネル分のＥＭＧ、ＥＭＧからの推定筋力、エントロピー、語音識別結果、ＨＭＭの確率である。但しＨＭＭの識別は、ＬＬＧＭＮの識別結果が切り替った時点（図中丸印）で実施している。図よりＬＬＧＭＮの出力は比較的安定しており、子音はそれが属する母音に識別されていることが分かる。本実験では“／こ／ん／に／ち／は／”、“／こ／ん／ば／ん／は／”、“／お／は／よ／う／”、“／あ／り／が／と／う／”、“／さ／よ／う／な／ら／”、の計５つのＨＭＭを構築した。まず、実験開始から約１．５ｓ間は各ＨＭＭの出力確率は等しく（０．２）、約３．０ｓで“お”が入力されると、母音“お”で始まる３つの単語音声以外の出力確率は０となる。次に約５．０ｓで“ ん”が入力されると出力確率は０．５となり、約７．０ｓで“ い”が入力され、“／こ／ん／に／ち／は／”のＨＭＭの確率がほぼ１になっている。このように、被験者の“／こ／ん／に／ち／は／”の発声に伴い、各ＨＭＭの確率が推移し、意図する単語音声が正しく識別できることが確認できた。
【００１３】
【発明の効果】
本発明によれば、筋電位、脳波、手足の動き（加速度）、呼気、接触圧などを利用して、容易に制御が可能な人工発声装置を提供することが可能となる。
【図面の簡単な説明】
【図１】本発明を具体化する人工発声装置の全体構成を例示する図である。
【図２】ＥＭＧの測定部位を示す図である。
【図３】隠れマルコフモデル（ＨＭＭ）を説明する図である。
【図４】実験結果の一例を示す図である。
【符号の説明】
１選択された生体信号
２抽出した特徴量
３語音に関する事後確率
４推定された単語
５作成した文章情報
６音量，音高，音質，発声速度に関する特徴量
７各部の処理状況についてのフィードバック情報
８各部の設定パラメータなど

Claims

生体信号の入力部と、生体信号から特徴パターンを抽出する特徴抽出処理部と、特徴パターンから使用者が意図する語音についての確率を計算する語音推定部と、語音推定部が計算した確率の時系列的な変化から使用者が意図する単語を決定する単語推定部と、推定した単語から文章を構成するための文章エディタ部と、作成した文章に基づいて音声合成および発声を行なう音声再生部と、から成る人工発声装置。
前記生体信号の入力部は、入力として筋電位、脳波、手足の動き（加速度）、呼気、接触圧などを選択して組み合わせて受けることが可能な構成を備える請求項１に記載の人工発声装置。
前記特徴抽出処理部では、整流処理、フィルタリング処理、周波数解析処理、正規化処理、ピーク検出処理などを適切に実施することにより、計測した生体信号から特徴量を抽出する請求項１に記載の人工発声装置。
前記語音推定部には、使用する生体信号に含まれる個人差に適応するために、ニューラルネットを利用した学習機構を備える請求項１に記載の人工発声装置。
前記語音推定部はニューラルネットを含み、それを用いて特徴パターンから使用者が意図する語音を推定し、その事後確率を計算する請求項１に記載の人工発声装置。
前記単語識別部は隠れマルコフモデルを含み、それを用いて語音推定部で計算した事後確率の時系列的な変化から使用者の意図する単語を推定する請求項１に記載の人工発声装置。
前記文章エディタ部では、単語識別部で推定した単語をつなぎ合わせて長い文章を作成可能とする請求項１に記載の人工発声装置。
前記音声再生部では、文章エディタ部で作成した文章、および特徴抽出部で抽出した音量、音高、音質、発声の速度などに関する特徴量に基づいた発声を行なう請求項１に記載の人工発声装置。
さらに、装置使用中の各部の処理状況を使用者に提示するフィードバック部を備え、該フィードバック部では、入力部における入力の選択状況、特徴抽出処理部における特徴パターン、語音推定部における事後確率値、単語推定部における推定結果、文章エディタ部における作成文章などをグラフィカルに使用者に提示する請求項１に記載の人工発声装置。
さらに、各部で使用するパラメータを保存・読み出し可能なパラメータ保存部を備え、該パラメータ保存部では、入力部における入力の選択状況、特徴抽出処理部におけるフィルタなどのパラメータ、語音推定部におけるニューラルネットのパラメータ、単語推定部における登録単語および隠れマルコフモデルのパラメータ、文章エディタ部における作成中の文章などを使用者毎に保存・読み出しが可能な構成を有する請求項１又は請求項９に記載の人工発声装置。
入力された生体信号から特徴パターンを抽出し、
この特徴パターンから使用者が意図する語音についての確率を計算して語音を推定し、
計算した確率の時系列的な変化から使用者が意図する単語を決定し、
推定した単語から作成した文章に基づいて音声合成および発声を行なう、
ことから成る人工発声方法。