JP2004329750A - 生体信号を利用した人工発声装置及び方法 - Google Patents
生体信号を利用した人工発声装置及び方法 Download PDFInfo
- Publication number
- JP2004329750A JP2004329750A JP2003133024A JP2003133024A JP2004329750A JP 2004329750 A JP2004329750 A JP 2004329750A JP 2003133024 A JP2003133024 A JP 2003133024A JP 2003133024 A JP2003133024 A JP 2003133024A JP 2004329750 A JP2004329750 A JP 2004329750A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- word
- speech
- sentence
- artificial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Prostheses (AREA)
Abstract
【解決手段】本発明は、生体信号(EMG信号)の入力部と、選択された生体信号1から特徴パターンを抽出する特徴抽出処理部と、抽出した特徴パターン2から使用者が意図する語音についての確率を計算する語音推定部と、語音推定部が計算した語音に関する事後確率3の時系列的な変化から使用者が意図する単語を決定する単語推定部と、推定した単語4から文章を構成するための文章エディタ部と、作成した文章情報5及び音量,音高,音質,発声速度に関する特徴量6に基づいて音声合成および発声を行なう音声再生部と、装置使用中の各部の処理状況7を使用者に提示するフィードバック部と、各部で使用するパラメータ8を保存・読み出し可能なパラメータ保存部とから成っている。
【選択図】 図1
Description
【発明の属する技術分野】
本発明は、重度の障害者などでも使用することのできる筋電位、手足の動き(加速度)、呼気、接触圧などの生体信号を利用して制御が可能な人工発声装置及び方法に関するものである。
【0002】
【従来の技術】
喉頭摘出者のための人工喉頭に関しては、特許文献1にあるように人工的な振動体を喉頭部に接続し発声を補助する方法などが既に考案されている。生体信号を利用した人工発声装置に関しては、特許文献2或いは特許文献3にあるように、計測した情報から一つ一つの語音(あ、い、う、え、お、など)を発声する方法などが既に考案されている。
しかしながら振動体を喉頭部に接続する方法は、脊椎損傷患者などで喉頭部に流動食用のチューブなどを装着した場合には、装着が困難であり使用することができなかった。
また、生体信号から一つ一つの語音を発声する方法は、発声が途切れ途切れになるなどなどの不自然な点があり、また多数の語音を高精度に推定するためには、大掛かりな推定処理が必要であった。
【特許文献1】
特開平8−265891号公報
【特許文献2】
特開平7−181888号公報
【特許文献3】
特開平7−433号公報
【非特許文献1】
村木、角田、杉江:“ 代用発声のための子音判別法に関する基礎的研究” 電子通信学会技術報告、MBE−83, 108, pp 131/136, (1984)
【非特許文献2】
T.Tsuji, O.Fukuda, H.Ichinobe, M.Kaneko : ” A Log−Linearized Gaussian Mixture Network and Its Application to EEG Pattern Classification, ” IEEE Transactions on Systems, Man, and Cybernetics−Part C : Application and Reviews, vol. 29, NO.1, pp. 60/72, (1999)
【非特許文献3】
L.R. Rabiner : ” A tutorial on hidden Markov model and selected application in speech recognition, ” Proceedings of the IEEE, vol. 77, No.2, pp. 257/286, (1989)
【非特許文献4】
辻、市延、伊藤、長町:“ エントロピーを用いた誤差逆伝播型ニューラルネットによるEMGからの前腕動作の識別”、計測自動制御学会論文集、 Vol. 29, No. 10, pp. 1213/1220, (1993)
【0003】
【発明が解決しようとする課題】
代用発声法は大きく二つに大別される。一つは、疾患や障害により損失した発声器官を装置や訓練により補う方式であり、笛式、電気式人工喉頭発声法、食道発声法などがある。もう一つは口唇の形状や舌の動きから、語音を推定し、音声合成・再生を行う方式である(非特許文献1参照)。後者は一般的に語音識別部と音声再生部で構成され、精度良く語音識別ができれば、優れた代用発声法になる可能性がある。本発明は、後者の立場から、被験者の意図する音声をEMGから識別する方法を提案する。そして、ニューラルネットワークと隠れマルコフモデルを組み合わせた筋電ボコーダシステムを構築し、従来の代用発声法の課題に取り組む。
本発明は、発声機能障害者の為の新しい意思伝達装置の開発を目的とし、自然発声時の頸部および表情筋の筋電位(EMG)に基づく音声識別を提案する。EMGからの音声発生処理は、2段階のパターン処理で構成する。まず第1に、ニューラルネットワークを用いてEMGから語音識別を行い、次に、隠れマルコフモデルにより第1段階で識別した語音から単語音声を認識する。
本発明は、上記に鑑み提案するもので、筋電位、脳波、手足の動き(加速度)、呼気、接触圧などを利用して、容易に制御が可能な人工発声装置を提供することを目的とする。
【0004】
【課題を解決するための手段】
本発明の人工発声装置は、生体信号の入力部と、生体信号から特徴パターンを抽出する特徴抽出処理部と、特徴パターンから使用者が意図する語音についての確率を計算する語音推定部と、語音推定部が計算した確率の時系列的な変化から使用者が意図する単語を決定する単語推定部と、推定した単語から文章を構成するための文章エディタ部と、作成した文章に基づいて音声合成および発声を行なう音声再生部と、装置使用中の各部の処理状況を使用者に提示するフィードバック部と、各部で使用するパラメータを保存・読み出し可能なパラメータ保存部とから成る。
また、本発明の人工発声方法は、入力された生体信号から特徴パターンを抽出し、この特徴パターンから使用者が意図する語音についての確率を計算して語音を推定し、計算した確率の時系列的な変化から使用者が意図する単語を決定し、推定した単語から作成した文章に基づいて音声合成および発声を行なうことから成る。
【0005】
【発明の実施の形態】
以下、例示に基づき、本発明を説明する。図1は、本発明を具体化する人工発声装置の全体構成を例示する図である。例示の構成は、生体信号(EMG信号)の入力部と、選択された生体信号1から特徴パターンを抽出する特徴抽出処理部と、抽出した特徴パターン2から使用者が意図する語音についての確率を計算する語音推定部と、語音推定部が計算した語音に関する事後確率3の時系列的な変化から使用者が意図する単語を決定する単語推定部と、推定した単語4から文章を構成するための文章エディタ部と、作成した文章情報5及び音量,音高,音質,発声速度に関する特徴量6に基づいて音声合成および発声を行なう音声再生部と、装置使用中の各部の処理状況7を使用者に提示するフィードバック部と、各部で使用するパラメータ8を保存・読み出し可能なパラメータ保存部とから成っている。
【0006】
生体信号(EMG信号)の入力部は、入力として筋電位、脳波、手足の動き(加速度)、呼気、接触圧などを選択・組み合わせて受けることが可能である。
EMGは筋収縮レベルに応じて発生し、意図する動作や力、そして、運動の柔らかさを決めるインピーダンスパラメータなどの情報を含んでいる。EMG計測にはEMG用アンプ(NEC三栄MT−11)およびLチャンネル分の表面皮膚電極(GE Marquette 製 SEB120)を用いる。実験では、頸部および表情筋の計L=5CHからEMGを計測した。EMGの測定部位を図2に示す。それぞれ1CH:咬筋、2CH:顎二服筋、3CH:下唇下制筋、4CH:大頬骨筋、5CH:口角下制筋である。これらの測定部位は、実験前に被験者に自然な状態で発声を行わせ、電極の装着が比較的容易で発声時の振幅差が顕著に現れる部位を選択した。まず、前処理として5対の電極から計測したEMGをA/D変換(サンプリング周波数:1.0 kHz )し、各チャンネルごとに全波整流した後、2次のデジタルバターワースフィルタ(カットオフ周波数 1.0 Hz )に通した。そして、この時系列信号をIEMGi(t)(i=1,・・・L)とした。
【0007】
特徴抽出処理部では、整流処理、フィルタリング処理、周波数解析処理、正規化処理、ピーク検出処理などを適切に実施することにより、計測した生体信号から特徴量(発声を意図する語音、音量、音高、音質、発声の速度に関する情報)を抽出する。
語音推定部には、使用する生体信号に含まれる個人差に適応するために、ニューラルネットを利用した学習機構を備える。語音推定部はニューラルネットを含み、それを用いて特徴パターンから使用者が意図する語音を推定し、その事後確率を計算する。
【0008】
語音識別には例えば辻らが提案した Long−Linearized Gaussian Mixture Network (以下、LLGMNと略記)(非特許文献2参照)を用いる。このネットワークは混合正規分布モデルを対数線形化して3層のネットワークに展開したもので、サンプルデータが従う統計分布をこのモデルに基づいて学習的に推定し、入力パターンに対する各クラスの事後確率を出力することができる。LLGMNはその学習能力によって、個人差や電極位置、疲労や発汗などに伴うEMG信号の変化に適応でき、精度の高い識別を実現する。
【0009】
単語識別部は隠れマルコフモデルを含み、それを用いて語音推定部で計算した事後確率の時系列的な変化から使用者の意図する単語を推定する。
ここでは、ニューラルネットによる語音識別結果の時系列から被験者の意図する単語音声を識別する。この音声識別には、例えば音声識別の分野で実績のある隠れマルコフモデル(非特許文献3参照)を利用する。まず、LLGMNを利用した語音識別の予備実験を行い、母音と子音のEMGパターンの差異を検証したところ、子音はそれが属する母音として識別されることを確認した。そこで、再生される単語音声を母音および撥音の組み合わせとして予めデータベース化し、入力データとのマッチングから単語音声を識別することを試みる。隠れマルコフモデルの導入により、語音識別において多少の誤識別がある場合でも意図する単語音声にクラスタリングすることができる。
【0010】
図3は、隠れマルコフモデル(HMM)を説明する図である。隠れマルコフモデルは,音声信号のように時々刻々と変化する時系列信号をモデル化するのに適するモデル化手法であり対象とする時系列信号Xを確率分布を含む複数の状態n(n=1, …, N)とその間を遷移する遷移確率A,および各状態で対象とする時系列が出力される確率Bによって表現する.対象を確率で表現することから信号パターンの時間方向への伸縮,および信号パターンの部分的な誤りに対しても安定した識別精度が得られる.
文章エディタ部では、単語識別部で推定した単語をつなぎ合わせて長い文章を作成可能とする。
【0011】
音声再生部では、文章エディタ部で作成した文章、および特徴抽出部で抽出した音量、音高、音質、発声の速度などに関する特徴量に基づいた発声を行なう。
フィードバック部では、入力部における入力の選択状況、特徴抽出処理部における特徴パターン、語音推定部における事後確率値、単語推定部における推定結果、文章エディタ部における作成文章などをグラフィカルに使用者に提示する。
パラメータ保存部では、入力部における入力の選択状況、特徴抽出処理部におけるフィルタなどのパラメータ、語音推定部におけるニューラルネットのパラメータ、単語推定部における登録単語および隠れマルコフモデルのパラメータ、文章エディタ部における作成中の文章などを使用者毎に保存・読み出しが可能な構成を有する。
【0012】
【実施例】
提案手法の妥当性を検証するため、発声機能に障害を持たない健常な男子大学生(23歳)による語音識別実験を行った。実験では、L=5対の電極から計測したIEMGi(t)(i=1,・・・L)を全チャンネルの和が1となるように正規化したものを入力ベクトルとした。また、本稿では推定筋力α(t)を次式のように定義し、この値が閾値を越えれば発声と判断して識別を行った。
【数1】
は実験前に計測した各チャンネルの最大随意筋収縮時の値を表す。さらに、誤識別防止のためにLLGMNの出力から計算したエントロピーを利用して識別判定処理を行った。これはエントロピーに閾値を設け、もし閾値を越えた場合には、あいまいな識別として識別を保留するものである(非特許文献4参照)。
実験結果の一例を図4に示す。図は上から順に、5チャンネル分のEMG、EMGからの推定筋力、エントロピー、語音識別結果、HMMの確率である。但しHMMの識別は、LLGMNの識別結果が切り替った時点(図中丸印)で実施している。図よりLLGMNの出力は比較的安定しており、子音はそれが属する母音に識別されていることが分かる。本実験では“/こ/ん/に/ち/は/”、“/こ/ん/ば/ん/は/”、“/お/は/よ/う/”、“/あ/り/が/と/う/”、“/さ/よ/う/な/ら/”、の計5つのHMMを構築した。まず、実験開始から約1.5 s 間は各HMMの出力確率は等しく(0.2)、約3.0 s で“お”が入力されると、母音“お”で始まる3つの単語音声以外の出力確率は0となる。次に約5.0 s で“ ん”が入力されると出力確率は0.5となり、約7.0 s で“ い”が入力され、“/こ/ん/に/ち/は/”のHMMの確率がほぼ1になっている。このように、被験者の“/こ/ん/に/ち/は/”の発声に伴い、各HMMの確率が推移し、意図する単語音声が正しく識別できることが確認できた。
【0013】
【発明の効果】
本発明によれば、筋電位、脳波、手足の動き(加速度)、呼気、接触圧などを利用して、容易に制御が可能な人工発声装置を提供することが可能となる。
【図面の簡単な説明】
【図1】本発明を具体化する人工発声装置の全体構成を例示する図である。
【図2】EMGの測定部位を示す図である。
【図3】隠れマルコフモデル(HMM)を説明する図である。
【図4】実験結果の一例を示す図である。
【符号の説明】
1 選択された生体信号
2 抽出した特徴量
3 語音に関する事後確率
4 推定された単語
5 作成した文章情報
6 音量,音高,音質,発声速度に関する特徴量
7 各部の処理状況についてのフィードバック情報
8 各部の設定パラメータなど
Claims (11)
- 生体信号の入力部と、生体信号から特徴パターンを抽出する特徴抽出処理部と、特徴パターンから使用者が意図する語音についての確率を計算する語音推定部と、語音推定部が計算した確率の時系列的な変化から使用者が意図する単語を決定する単語推定部と、推定した単語から文章を構成するための文章エディタ部と、作成した文章に基づいて音声合成および発声を行なう音声再生部と、から成る人工発声装置。
- 前記生体信号の入力部は、入力として筋電位、脳波、手足の動き(加速度)、呼気、接触圧などを選択して組み合わせて受けることが可能な構成を備える請求項1に記載の人工発声装置。
- 前記特徴抽出処理部では、整流処理、フィルタリング処理、周波数解析処理、正規化処理、ピーク検出処理などを適切に実施することにより、計測した生体信号から特徴量を抽出する請求項1に記載の人工発声装置。
- 前記語音推定部には、使用する生体信号に含まれる個人差に適応するために、ニューラルネットを利用した学習機構を備える請求項1に記載の人工発声装置。
- 前記語音推定部はニューラルネットを含み、それを用いて特徴パターンから使用者が意図する語音を推定し、その事後確率を計算する請求項1に記載の人工発声装置。
- 前記単語識別部は隠れマルコフモデルを含み、それを用いて語音推定部で計算した事後確率の時系列的な変化から使用者の意図する単語を推定する請求項1に記載の人工発声装置。
- 前記文章エディタ部では、単語識別部で推定した単語をつなぎ合わせて長い文章を作成可能とする請求項1に記載の人工発声装置。
- 前記音声再生部では、文章エディタ部で作成した文章、および特徴抽出部で抽出した音量、音高、音質、発声の速度などに関する特徴量に基づいた発声を行なう請求項1に記載の人工発声装置。
- さらに、装置使用中の各部の処理状況を使用者に提示するフィードバック部を備え、該フィードバック部では、入力部における入力の選択状況、特徴抽出処理部における特徴パターン、語音推定部における事後確率値、単語推定部における推定結果、文章エディタ部における作成文章などをグラフィカルに使用者に提示する請求項1に記載の人工発声装置。
- さらに、各部で使用するパラメータを保存・読み出し可能なパラメータ保存部を備え、該パラメータ保存部では、入力部における入力の選択状況、特徴抽出処理部におけるフィルタなどのパラメータ、語音推定部におけるニューラルネットのパラメータ、単語推定部における登録単語および隠れマルコフモデルのパラメータ、文章エディタ部における作成中の文章などを使用者毎に保存・読み出しが可能な構成を有する請求項1又は請求項9に記載の人工発声装置。
- 入力された生体信号から特徴パターンを抽出し、
この特徴パターンから使用者が意図する語音についての確率を計算して語音を推定し、
計算した確率の時系列的な変化から使用者が意図する単語を決定し、
推定した単語から作成した文章に基づいて音声合成および発声を行なう、
ことから成る人工発声方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003133024A JP4110247B2 (ja) | 2003-05-12 | 2003-05-12 | 生体信号を利用した人工発声装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003133024A JP4110247B2 (ja) | 2003-05-12 | 2003-05-12 | 生体信号を利用した人工発声装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004329750A true JP2004329750A (ja) | 2004-11-25 |
JP4110247B2 JP4110247B2 (ja) | 2008-07-02 |
Family
ID=33507681
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003133024A Expired - Lifetime JP4110247B2 (ja) | 2003-05-12 | 2003-05-12 | 生体信号を利用した人工発声装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4110247B2 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006285224A (ja) * | 2005-03-09 | 2006-10-19 | Advanced Telecommunication Research Institute International | 発声機能支援装置 |
KR100652010B1 (ko) | 2005-12-02 | 2006-12-01 | 한국전자통신연구원 | 이물기를 이용한 문자 형성 장치 및 방법 |
JP2015211705A (ja) * | 2014-05-01 | 2015-11-26 | 公益財団法人ヒューマンサイエンス振興財団 | Bmi運動補助装置 |
CN106233379A (zh) * | 2014-03-05 | 2016-12-14 | 三星电子株式会社 | 声音合成设备和用于合成声音的方法 |
CN108364633A (zh) * | 2017-01-25 | 2018-08-03 | 晨星半导体股份有限公司 | 文字转语音系统以及文字转语音方法 |
CN113317909A (zh) * | 2021-06-11 | 2021-08-31 | 清华大学 | 一种多维度智能人工喉 |
CN113724687A (zh) * | 2021-08-30 | 2021-11-30 | 深圳市神经科学研究院 | 基于脑电信号的语音生成方法、装置、终端及存储介质 |
-
2003
- 2003-05-12 JP JP2003133024A patent/JP4110247B2/ja not_active Expired - Lifetime
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006285224A (ja) * | 2005-03-09 | 2006-10-19 | Advanced Telecommunication Research Institute International | 発声機能支援装置 |
KR100652010B1 (ko) | 2005-12-02 | 2006-12-01 | 한국전자통신연구원 | 이물기를 이용한 문자 형성 장치 및 방법 |
CN106233379A (zh) * | 2014-03-05 | 2016-12-14 | 三星电子株式会社 | 声音合成设备和用于合成声音的方法 |
JP2015211705A (ja) * | 2014-05-01 | 2015-11-26 | 公益財団法人ヒューマンサイエンス振興財団 | Bmi運動補助装置 |
CN108364633A (zh) * | 2017-01-25 | 2018-08-03 | 晨星半导体股份有限公司 | 文字转语音系统以及文字转语音方法 |
CN113317909A (zh) * | 2021-06-11 | 2021-08-31 | 清华大学 | 一种多维度智能人工喉 |
CN113724687A (zh) * | 2021-08-30 | 2021-11-30 | 深圳市神经科学研究院 | 基于脑电信号的语音生成方法、装置、终端及存储介质 |
CN113724687B (zh) * | 2021-08-30 | 2024-04-16 | 深圳市神经科学研究院 | 基于脑电信号的语音生成方法、装置、终端及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP4110247B2 (ja) | 2008-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gonzalez-Lopez et al. | Silent speech interfaces for speech restoration: A review | |
Chen et al. | Sample efficient adaptive text-to-speech | |
Sharifzadeh et al. | Reconstruction of normal sounding speech for laryngectomy patients through a modified CELP codec | |
US20160314781A1 (en) | Computer-implemented method, computer system and computer program product for automatic transformation of myoelectric signals into audible speech | |
Polur et al. | Experiments with fast Fourier transform, linear predictive and cepstral coefficients in dysarthric speech recognition algorithms using hidden Markov model | |
Meltzner et al. | Speech recognition for vocalized and subvocal modes of production using surface EMG signals from the neck and face. | |
Rudzicz | Production knowledge in the recognition of dysarthric speech | |
JP4110247B2 (ja) | 生体信号を利用した人工発声装置 | |
JP3455921B2 (ja) | 発声代行装置 | |
Wand | Advancing electromyographic continuous speech recognition: Signal preprocessing and modeling | |
JP5030150B2 (ja) | 筋電位信号による音声認識装置 | |
Zhou et al. | Improved phoneme-based myoelectric speech recognition | |
Schultz | ICCHP keynote: Recognizing silent and weak speech based on electromyography | |
Comstock et al. | Developing a real-time translator from neural signals to text: An articulatory phonetics approach | |
Yu et al. | Surface electromyographic activity of extrinsic laryngeal muscles in cantonese tone production | |
Bu et al. | Phoneme classification for speech synthesiser using differential EMG signals between muscles | |
Gaddy | Voicing Silent Speech | |
Diener | The impact of audible feedback on emg-to-speech conversion | |
Arias-Vergara et al. | Phone-Attribute Posteriors to Evaluate the Speech of Cochlear Implant Users. | |
Maier-Hein | Speech recognition using surface electromyography | |
Gonzalez-Lopez et al. | Multi-view temporal alignment for non-parallel articulatory-to-acoustic speech synthesis | |
Ahmadi et al. | Designing a Pneumatic Bionic Voice Prosthesis-A Statistical Approach for Source Excitation Generation. | |
Seong et al. | A study on the voice security system using sensor technology | |
Tsuji et al. | A speech synthesizer using facial EMG signals | |
Arpitha et al. | Diagnosis of disordered speech using automatic speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041124 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20061128 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070724 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070903 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20070903 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080311 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4110247 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |