JP4381404B2 - 音声合成システム、音声合成方法、音声合成プログラム - Google Patents

音声合成システム、音声合成方法、音声合成プログラム Download PDF

Info

Publication number
JP4381404B2
JP4381404B2 JP2006259082A JP2006259082A JP4381404B2 JP 4381404 B2 JP4381404 B2 JP 4381404B2 JP 2006259082 A JP2006259082 A JP 2006259082A JP 2006259082 A JP2006259082 A JP 2006259082A JP 4381404 B2 JP4381404 B2 JP 4381404B2
Authority
JP
Japan
Prior art keywords
spectrum
signal
speech
recognition
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2006259082A
Other languages
English (en)
Other versions
JP2007018006A (ja
Inventor
宏幸 真鍋
明 平岩
利明 杉村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2006259082A priority Critical patent/JP4381404B2/ja
Publication of JP2007018006A publication Critical patent/JP2007018006A/ja
Application granted granted Critical
Publication of JP4381404B2 publication Critical patent/JP4381404B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Description

本発明は、音声等の音響を認識し、認識した音声に基づいて音声を合成する音声合成システム、音声合成方法、音声合成プログラムに関する。
通常の音声検出装置では、発話における音声を音響信号として取り扱い、その音響信号の周波数を分析することによって、音声信号を認識し処理する音声認識技術が採用されており、このための方法として、スペクトル包絡等が利用されている。
しかし、この音声認識技術を用いて良好な音声検出結果をもたらすためには、発話時にある程度の音量が必要であり、発話による音響信号が入力されない限り音声情報を検出することは不可能であった。従って、音声入力時に話者の声が周囲の人々の迷惑となるため、静けさが要求されるオフィスや図書館さらに公共機関内などでは、このような音声検出装置を使用することができなかった。また周囲の雑音の大きい場所では、クロストークの問題が発生し、音声検出機能が低下するという欠点もあった。
これに対して、音響信号以外から音声情報を獲得する研究も従来から行われていた。音響情報以外の情報から音声情報を獲得することができれば、音響を発することなく発話することが可能となり、上記に示した問題点を解決することができる。口唇の視覚情報による音声認識手法としてはビデオカメラにより入力された画像を用いた画像処理による手法がある(例えば、特許文献1又は特許文献2参照)。
さらに、口の周囲の筋肉の動きに伴って発生する筋電信号を処理して発声した母音の種類を認識するという研究がある(例えば、非特許文献1参照)。非特許文献1には、筋電信号をバンドパスフィルタを通した後、閾値の交差回数をカウントして5母音(a,i,u,e,o)を弁別することが記載されている。
また、他の方式としては、口の周囲の筋肉の筋電信号をニュートラルネットを用いて処理し、発声話者の母音だけでなく、子音も含めて検出する方法が特開平7−181888号に示されている。さらに、1つの入力チャネルからの情報だけでなく、複数の入力チャネルを利用したマルチモーダルインタフェースが提案・実現されてきている。
一方、従来の音声合成システムでは、話者の音声を特徴付けるデータを予め保存しておき、話者の発話に合わせて音声を合成する方法が開発されている。
特開昭52−112205号公報 特開平6−43897号公報 Noboru Sugie et al., "A speech Employing a Speech Synthesizer Vowel Discrimination from Perioral Muscles Activities and Vowel Production,"IEEE transactions on Biomedical Engineering, Vol.32, No.7, pp485-490
しかしながら、上記した音響情報以外の情報から音声情報を獲得する音声検出方法では、音響情報を用いた音声認識に比べ、認識率が低いという問題点がある。特に、口内における筋肉の動きにより発生される子音の認識は困難であった。
また、従来の音声合成システムでは、上述したように、話者の音声を特徴付けるデータに基づいて音声を合成しているため、合成音声が機械的であるため表現が不自然になり、話者の感情等を適切に表現できないという問題があった。
本発明は、以上の問題点を鑑みてなされたものであり、周囲の雑音の影響を受けることなく、少量の音量であっても高度な認識率を維持することができる音声認識システム、方法及びプログラムを提供することを目的とする。また、他の発明は、音声認識を音声合成に利用することにより、合成音声をより自然なものとするとともに、話者の感情等を適切に表現することのできる音声合成システム、方法、及びプログラムを提供することを目的とする。
上記課題を解決するために、本発明は、音響信号を取得し、取得した音響信号の変化に基づいて音響情報パラメータを算出し、対象物表面の電位変化を筋電信号として取得し、取得した音響信号の変化に基づいて筋電信号パラメータを算出し、撮影した対象物の映像を画像情報として取得し、映像中の対象物の変化に基づいて画像情報パラメータを算出し、これらの音響情報パラメータ、筋電信号パラメータ及び画像情報パラメータに基づいて音声を認識し、認識結果を提示することを特徴とする。
このような本発明によれば、音響信号や筋電信号、画像情報という複数のパラメータを用いて音声認識を行っているために、対雑音性などを大幅に向上することができる。
また、他の発明は、音声を認識するとともに、音響情報から音響信号のスペクトラムを第1のスペクトラムとして取得し、音声認識手段による認識結果から再構成した音響信号のスペクトラムを第2のスペクトラムとして生成し、これら第1のスペクトラムと第2のスペクトラムとを比較し、この比較結果に応じて修正スペクトラムを生成し、修正スペクトラムから合成された音声を出力することを特徴とする。
このような発明によれば、音響情報からのスペクトラムのみならず、他のパラメータも用いて認識した音声からのスペクトラムに基づいて音声を合成するため、周囲の雑音を効果的に除去することができる。
なお、上記2つの発明における音声認識は、音響情報パラメータ、筋電信号パラメータ及び画像情報パラメータの各々について認識処理を行った後、各認識結果を比較し、この比較結果に基づいて最終的な認識処理を行うことが望ましい。さらに、音声認識は、音響情報パラメータ、筋電信号パラメータ及び画像情報パラメータを同時に用いて認識処理を行うようにしてもよい。
また、他の音声認識としては、データの入力部及び出力部を備えた非線形素子の集合である素子群を上流から下流に向けて階層的に配置し、隣接する素子群間において、上流の非線形素子の出力部と、下流の非線形素子の入力部とを相互に接続し、各非線形素子において、当該非線形素子の入力部への接続及びこれら接続の組み合わせ毎に重み係数を付与し、入力部へ入力されたデータ及び前記重み係数に応じて、下流へ出力するデータ及び出力部からの接続を決定する階層ネットワークを構築し、音響情報パラメータ、筋電信号パラメータ及び画像情報パラメータを上流側から入力し、最下流の素子群から出力されるデータを認識音声とすることが好ましい。
この階層ネットワークを利用した場合には、階層ネットワークの下流側からサンプルデータを入力してデータを上流側へ逆流させることにより、各非線形素子に付与された前記重み係数を変更させる学習機能を実現することができる。
以上説明したように、本発明の音声認識システム、方法及びプログラムによれば、周囲の雑音の影響を受けることなく、少量の音量であっても高度な認識率を維持することができる。また、他の発明の音声合成システム、方法及びプログラムによれば、音声認識を音声合成に利用することにより、合成音声をより自然なものとするとともに、話者の感情等を適切に表現することができる。
[第1実施形態]
(基本構成)
以下に本発明の実施形態に係る音声認識システムについて詳細に説明する。図1は、本実施形態に係る音声認識システムの基本構成を示すブロック図である。
同図に示すように、音声認識システムは、音響情報処理部10と、筋電信号処理部13と、画像情報処理部16と、情報総合認識部19とを備えている。
音響情報処理部10は、発話時に発せられる音響情報を処理するものであり、発話時の音響信号を取得するための音響信号取得手段11と、音響信号取得手段で得られた音響信号のスペクトル包絡やスペクトル微細構造を分離するなどして音響情報パラメータを抽出する音響信号処理手段12とを備えている。
音響信号取得手段11は、マイクロフォン等の音響を取得する装置であり、発話時に発せられる音響をマイクロフォンで検出し、取得した音響信号を音響信号処理手段12に伝達する。
音響信号処理手段12は、音響信号取得手段11から取得した音響信号を音声認識手段20で処理可能な音響情報パラメータを算出する装置であり、音響信号を設定された時間窓で切り出し、切り出された音響信号に対して、一般的な音声認識で用いられている短時間スペクトル分析や、ゲプストラム分析、最尤スペクトル推定、共分散法、PARCOR分析、LSP分析などの分析法を用いて音響情報パラメータを算出する。
筋電信号処理部13は、発話時に口周辺の筋肉の動きを検出して処理を行うものであり、発話時の口周辺の筋肉の動きに伴う筋電信号を取得するための筋電信号取得手段14と、筋電信号取得手段で得られた筋電信号のパワーの計算や周波数分析などして筋電信号パラメータを抽出する筋電信号処理手段15とを備えている。
筋電信号取得手段14は、発話時における口周辺の筋肉の活動に伴う筋電信号を検出する装置であり、話者の口周辺の皮膚表面の電位変化を検出する。すなわち、発話時には口周辺の複数の筋肉が協調して活動しており、それら複数の筋肉の活動を捉えるために、筋電信号取得手段14では、発話時に活動する複数の筋肉に対応した複数の皮膚表面電極から複数の筋電信号を導出し、増幅して筋電信号処理手段15に伝達する。
筋電信号処理手段15は、筋電信号取得手段14から伝達された複数の筋電信号から筋電信号パラメータを算出する装置であり、具体的には、筋電信号に対して、設定した時間窓で切り出しを行い、切り出された筋電信号に対して、スペクトル分析や、二乗平均平方(RMS)、整流化平均値(ARV)、積分筋電図(IEMG)などの平均振幅の特徴量の算出を行い、筋電信号パラメータを算出する。
画像情報処理部16は、発話時の口周辺の空間的な変形を検出して画像処理を行うものであり、発話時の口周辺の空間的な変形をビデオカメラで撮影する画像情報取得手段17と、画像情報処理手段で得られた画像情報から唇周辺の動きパラメータを抽出する画像情報処理手段18とを備えている。
画像情報取得手段17は、発話時における口周辺の動きを撮像するビデオカメラなどの撮影機であり、口周辺の動きを画像として検出し、画像情報処理手段18に伝達する。
画像情報処理手段18は、画像情報取得手段17で得られた画像情報から画像情報パラメータを算出する装置であり、具体的には、画像情報から口周辺の動きの特徴量をオプティカルフローにより抽出し、画像情報パラメータを算出する。
情報総合認識部19は、音響情報処理部及び筋電信号処理部及び画像情報処理部から得られた各種情報を統合して認識し、その認識結果を提示するものであり、音響音声認識部で得られた音響情報パラメータと、筋電音声認識部で得られた筋電信号パラメータと、画像情報処理部で得られた画像情報パラメータとを比較・統合し、音声認識結果の判断を下す音声認識手段20と、音声認識手段で得られた認識結果を提示する認識結果提示手段21とを備えている。
音声認識手段20は、上記各部10,13,16から取得した音響情報パラメータ、筋電信号パラメータ及び画像情報パラメータを用いて、音声認識を行う演算装置である。この音声認識手段20は、周囲の雑音が少ない場合や、発話時の音量が大きい場合等、音響情報パラメータから十分に音声認識することが可能な場合は、音響情報パラメータのみから音声認識を行う機能を備えている。また、この音声認識手段20は、周囲の雑音が大きい場合や、発話時の音量が小さい場合等、音響情報パラメータのみからでは十分に音声認識することが不可能な場合には、音響情報パラメータだけでなく、筋電信号パラメータ及び画像情報パラメータから得られる情報を加味して、音声認識を行う機能を備えている。
さらにこの音声認識手段20は、筋電信号パラメータ及び画像情報パラメータを用いて音声認識する際に、認識率が低い場合には、誤認識する音素などについて、音響情報パラメータを用いることによって、全体としての認識率を高める機能を有している。
認識結果提示手段21は、音声認識手段20による認識結果を出力する出力デバイスであり、音声認識手段20で得られた音声認識結果を、話者に対して音声で出力する発生装置や、画面に文字テキストで表示する液晶等の表示モニターを採用することができる。また、この認識結果提示手段21としては、通信インターフェース等を設けることにより、音声認識結果を、話者に提示するだけでなく、パーソナルコンピュータ等の端末装置上で起動しているアプリケーションにデータとして出力するようにしてもよい。
(基本動作)
上記基本構成を有する本実施形態に係る音声認識システムは、以下のように動作する。図2は、本実施形態にかかる音声認識システムの動作を示すフロー図である。
先ず、話者が発話を開始する(S101)。このとき、話者が発話している際の音響信号、筋電信号、画像情報はそれぞれ、音響信号取得手段11、筋電信号取得手段14、画像情報取得手段17により検出される(S102〜S104)。検出された音響信号、筋電信号、画像情報はそれぞれ、音響信号処理手段12、筋電信号処理手段15、画像情報処理手段18により音響情報パラメータ、筋電信号パラメータ、画像情報パラメータとして算出される(S105〜S107)。
算出された各種パラメータは音声認識手段20により音声認識され(S108)、認識結果提示手段21により音声認識結果が提示される(S109)。この認識結果の提示は、上述したように、音声によって行うことも、画面に表示することも可能である。
(各手段の動作)
上記基本構成における各手段のそれぞれの動作を以下に詳細に説明する。
(1)音声認識手段
図4は、音声認識手段20を説明するブロック図である。ここでは、音響情報パラメータ、筋電信号パラメータ及び画像情報パラメータの各々について認識処理を行った後、各認識結果を比較し、この比較結果に基づいて最終的な認識処理を行う。
具体的には、同図に示すように、本実施形態にかかる音声認識手段20は、最終的な音声認識を行う前に、音響情報パラメータのみ、筋電信号パラメータのみ、画像情報パラメータのみを用いてそれぞれ音声認識を行い、それぞれのパラメータから得られた認識結果を統合することによって、最終的に音声認識を行う。それぞれのパラメータから得られた認識結果のうち、複数の認識結果が一致していれば、その一致したものを最終的な認識結果とし、全ての認識結果が一致していなければ、最も認識確度が高いと思われる認識結果を最終的な認識結果とする。
また、例えば、筋電信号パラメータのみを用いた音声認識では、ある特定の音素、または発話パターンの認識率が低いことが予めわかっているような場合、他のパラメータを用いた音声認識の結果、それらの発話が行われていると推測できるような時には、筋電信号パラメータを用いた音声認識結果を無視することによって、最終的な音声認識結果の認識率を向上させることができる。
さらに、例えば音響情報パラメータから周囲の雑音が大きい、または発話時の音量が小さいと判断できた場合には、音響情報パラメータを用いた音声認識の結果が最終的な音声認識の結果に与える影響を小さくし、筋電信号パラメータ及び画像情報パラメータを用いた音声認識の結果を重視して、最終的な音声認識を行う。なお、それぞれのパラメータを用いた音声認識は、通常用いられている手法を用いることが可能である。
さらに、音声認識手段20は、上記方式に代えて、3つのパラメータから音声認識を行うようにしてもよい。図3は、3つのパラメータから音声認識を行う際の、音声認識手段20の動作を説明する説明図である。
この3つのパラメータから音声認識を行う方式としては、例えばニューラルネットワークを用いたものがある。このニューラルネットワークは、同図に示すように、パラメータの入力部及び出力部を備えた非線形素子の集合である素子群を上流から下流に向けて階層的に配置し、隣接する素子群間において、上流の非線形素子の出力部と、下流の非線形素子の入力部とを相互に接続して構築されるものである。
そして、各非線形素子において、当該非線形素子の入力部への接続及びこれら接続の組み合わせ毎に重み係数を付与し、入力部へ入力されたパラメータ及び重み係数に応じて、下流へ出力するパラメータ及び出力部からの接続を決定する。具体的に音声認識手段20では、音響情報パラメータ及び筋電信号パラメータ及び画像情報パラメータを受け取り、出力は母音及び子音である。
このニューラルネットワークとして本実施形態では、全結合型の3層ニューラルネットワーク(西川・北村、「ニューラルネットと計測制御」、朝倉書店、pp.18-50を参照)を用いる。
このニューラルネットワークでは、予め、重み係数を学習しておく必要がある。本実施形態における学習は、バックプロパゲーション法により行う。そのために予め用意しておいた発話パターンに沿った発話動作を行い、それに伴う音響情報パラメータ及び筋電信号パラメータ及び画像情報パラメータを取得し、用意しておいた発話パターンを教師信号として、各種パラメータを学習する。この学習処理については、後述する。
また、本実施形態に係る音声認識手段20は、話者が発話する際に行う発話動作において、筋電信号は、音響信号及び画像情報よりも時間的に早く発声するため、筋電信号パラメータのみ遅延させることにより音響信号、筋電信号及び画像情報との同期を取る機能を有している。
そして、各種パラメータを入力として受け取った音声認識手段20のニューラルネットは、入力されたパラメータがどの音素に対応しているかを出力する。またある音素を発声した場合、それに対応する筋電信号は音響信号及び画像情報よりも時間的に早く出力されるため、筋電信号は時間的に遅らせてニューラルネットに入力することにより、各パラメータの同期を取ることも可能である。
なお、このニューラルネットワークとしては、直前の認識結果を入力に戻すリカレント型のニューラルネットワークを用いることも可能である。なお、本発明において、認識に用いるアルゴリズムはニューラルネットワークだけではなく、隠れマルコフモデル(HMM)などの他の認識アルゴリズムを用いることも可能である。
この音声認識手段20によれば、発話音量が小さかったり、周囲の雑音が大きかったり、筋電信号をうまく検出することができなかった場合に、音響情報パラメータ、筋電信号パラメータ及び画像情報パラメータのうちいずれかのパラメータが音声認識にとって無効となってしまったとしても、最終的な音声認識は、意味のあるパラメータを用いて行うことが可能となり、対雑音性などが大幅に向上することができる。
なお、本実施形態に係る音声認識手段20において、音響情報音声認識は現在用いられている各種の音響信号を用いた音声認識手法を用いることが可能である。また筋電信号音声認識は文献「Noboru Sugie et al., “A speech Employing a Speech Synthesizer Vowel Discrimination from Perioral Muscles Activities and Vowel Production,”IEEE transactions on Biomedical Engineering, Vol.32, No.7, pp485-490」に示されている方法や特開平7−181888号に示されている方法を用いることが可能である。また画像情報音声認識は特開2001−51693もしくは特開2000−206986に示されている方法を用いることが可能である。さらに、上記に挙げた手法以外の音声認識手法を用いることも可能である。
さらに、本発明における音声認識は、図3で示した方式または図4で示した方式のいずれか一方のみ行うようにしてもよい。また、図4で示した方式を行い、全てのパラメータによっては、音声を認識できない場合に、図3で示した、ニューラルネットワークを用いた音声認識を行うようにしてもよく、また、図3で示した方式で行った認識結果と、図4で示した方式で行った認識結果とを比較し、或いは統合することによって最終的な音声認識を行うようにしてもよい。
また、本実施形態では、3つのパラメータを用いて音声認識を行う方法として図3で示したニューラルネットワークを例に説明したが、本発明はこれに限定されるものではなく、ニューラルネットワーク以外の方法を用いて、3つのパラメータから音声を認識することもできる。
(2)音響信号処理手段及び筋電信号処理手段
上述した音響信号処理手段12及び筋電信号処理手段15の動作について詳述する。図6は、音響情報パラメータ及び筋電信号パラメータ抽出の一例を説明するための図である。
音響信号取得手段11及び筋電信号取得手段14により検出された音響信号及び筋電信号は、音響信号処理手段12及び筋電信号処理手段15によって、まず時間窓により切り出される(図中(a)) 。次に、切り出された信号からFFTを用いてスペクトラムを抽出する(図中(b))。そして抽出したスペクトラムに対して1/3オクターブ解析を行い(図中(c))、各バンドのパワーを算出し、それを音響情報パラメータ及び筋電信号パラメータとする(図中(d))。この音響情報パラメータ及び筋電信号パラメータは、音声認識手段20に送られ音声認識される。
なお、本発明における音響情報パラメータ及び筋電信号パラメータの抽出方法は図6に示した以外の方法により行うことも可能である。
(3)画像情報処理手段
上述した画像情報処理手段18の動作について詳述する。図7は、画像情報パラメータを抽出する方法を説明するための図である。
先ず、時刻t0における口周辺の画像から口周辺の特徴点の位置を抽出する(図中(a)、S501)。口周辺の特徴点の位置を抽出するのは、口周辺の特徴点にマーカーを張り、そのマーカーの位置を特徴点の位置とすることや、撮影された画像から特徴点を探し出すことにより位置を抽出することも可能である。また、位置は画像上の2次元的な位置でもよいし、複数のカメラを用いて3次元の位置を抽出してもよい。
次に、時刻t0時と同様に、時刻t0よりΔt経過した時刻t1における口周辺の特徴点の位置を抽出する(図中(b)、S502)。そして、時刻t0と時刻t1における口周辺の特徴点の位置から差分を計算することにより各特徴点の移動量を算出する(図中(c)、S503)。この算出結果から、パラメータを生成する(図中(d)、S504)。
なお、画像情報パラメータの抽出方法は図7に示した以外の方法により行うことも可能である。
(学習処理)
次いで、上述した学習処理について説明する。図8は、本実施形態における学習処理を説明するフロー図である。本実施形態において音声認識精度を向上させるためには、話者個人の発話の特徴を学習することが重要である。なお、個々で説明する学習方式は、上述したニューラルネットワークを用いて音声認識を行う場合を前提としており、他の方式により音声認識を行う場合には、それに適合した学習方式を適宜採用する。
本実施形態では、同図に示すように、先ず、話者は発話動作を開始する(S301,S302)。話者は発話と同時に、キーボード等によって発話している内容、つまり学習における教師データ(サンプルデータ)を入力する(S305)。これと平行して音声認識システムにより音響信号・筋電信号・画像情報を検出し(S303)、それぞれの信号からパラメータを抽出する(S304)。
そして、抽出されたパラメータをキーボードから入力された教師信号を基に学習を行う(S306)。すなわち、上述した階層ネットワークの下流側から教師データを入力してデータを上流側へ逆流させることにより、各非線形素子に付与された重み係数を変更させる。
その後、学習による認識誤差がある一定値以下となった場合は、学習終了と判定し(S307)、学習を終了する(S308)。一方、ステップS307において、また学習が終了していないと判定した場合には、上記ステップS302〜S306により再度学習を繰り返す。
(効果)
以上説明した本実施形態にかかる音声認識システムによれば、音響情報及び筋電信号及び画像情報から得られた、複数のパラメータを用いて音声認識を行っているために、対雑音性などが大幅に向上する。すなわち、3種類の入力インタフェースを持つことにより雑音などの影響を受けにくく、3種類の中で使用できないインタフェースがあっても、残ったインタフェースを用いることによって音声認識を行うことが可能となり、音声の認識率を向上させることができる。その結果、話者が、小さな音量で発話しても、また周囲の雑音が大きな場所で発話しても、十分に音声を認識することができる音声認識システムを提供することが可能となった。
[第2実施形態]
上述した音声認識システムを応用することにより音声合成システムを構成することができる。図9は、上述した音声認識システムを用いて音声合成行う際の動作を示すフロー図である。
本実施形態にかかる音声合成システムは、同図に示すように、上述した音声認識システムにおける動作ステップS202〜S208を行った後、ステップS209において、検出した音響信号から発話者が発した音響信号以外の雑音を除去し、ステップS20においてクリアな合成音声を出力する。
この音声合成について詳述すると、図10に示すように、本実施形態では、音声認識システムによる認識結果を用いて、発声した音素のホルマント周波数などの特徴量から、発声した音素のスペクトラムを再構成する。そして、この再構成したスペクトラム(図中(a) )と、検出した雑音成分を含む音響信号のスペクトラム(図中(c))とを掛け合わせることによって、雑音を除去した音声のスペクトラムを得る(図中(d))ことができる。そして雑音を除去した音声のスペクトラムはフーリエ逆変換により雑音を除去した音響信号(図中(b) )として出力する。すなわち、雑音成分を含む音響信号を、再構成したスペクトラムで表される周波数特性を持つフィルタに通して出力する。
本実施形態にかかる音声認識システムによれば、種々の方式により音声認識を行い、この認識結果から再構成した信号と、検出した音響信号の中から、発話者が発声した音響信号と、周囲の雑音とを分離することが可能となり、これにより、周囲の雑音が大きくても、話者の声を生かしたクリアな合成音声を出力することができる。その結果、本実施形態によれば、話者が小さな音量で発話しても、また話者が雑音の大きな場所において発話を行っても、相手にはあたかも雑音のない環境下で通常に発話しているかのような合成音声を出力することが可能となる。
なお、本実施形態では、音声の認識処理を上述した実施形態1による方式を採用したが、本発明は、これに限定されるものではなく、音響情報以外のパラメータを用いて音声認識を行い、これと音響情報とにより音声を合成するようにしてもよい。
[第3実施形態]
上述した音声認識システム及び音声合成システムは以下の形態により実施することができる。図11は、本実施形態にかかる音声認識合成システムの第3実施形態を説明するための図である。
同図に示したように、本実施形態に係る音声認識合成システムは、携帯電話機本体30と、この携帯電話機本体30とは離隔された腕時計型端末31とから構成される。
携帯電話機本体30は、周知の携帯電話機に、上述した音響情報処理部10,筋電信号処理部13,音声認識手段20及び音声合成手段を付加したものであり、携帯電話機本体30の表面に、筋電信号取得手段14と、音響信号取得手段11とが設けられている。本実施形態において、筋電信号取得手段14は、話者32の皮膚に接触可能に設けられた複数の皮膚表面電極で構成されており、音響信号取得手段11は、話者32の口付近に設けられたマイクとで構成されている。
また、この携帯電話機本体30には、通信手段が内蔵されており音声認識手段20の認識結果に基づいて合成された合成音声を、話者32の通話音声として送信する機能を有している。
腕時計型端末31は、上述した画像情報処理部16と、認識結果提示手段21を備えたものであり、腕時計型端末31の表面に設けられた画像情報取得手段17としてのビデオカメラと、認識結果提示手段21としての画面表示装置を備えている。
このような構成の音声認識合成システムは、携帯電話機本体30の筋電信号取得手段14及び音響信号取得手段11により話者32からの筋電信号と音響信号を取得するとともに、腕時計型端末31の画像情報取得手段17により話者32の画像情報を取得する。そして、携帯電話機本体30と、腕時計型端末31とは、有線もしくは無線により通信を行い、各信号を携帯電話機本体30に内蔵された音声認識手段20に集約し、音声認識を行い、有線若しくは無線により認識結果を腕時計型端末31の認識結果提示手段21に表示させる。さらに、携帯電話機本体30では、認識結果に基づいて、周囲の雑音を除去したクリアーの音声を合成し、通話相手に送信する。
なお、本実施形態では、音声認識手段を携帯電話機本体30に内蔵させ、認識結果を腕時計型端末31の認識結果提示手段21に表示させるようにしたが、例えば、音声認識手段を腕時計型端末31側に設けることもでき、或いは、これらの各装置30及び31と通信可能な他の端末側で音声認識及び音声合成を行うようにしてもよい。また、音声認識を行った際の認識結果は、携帯電話機本体30から音声で出力することも、腕時計型端末31(或いは携帯電話機本体30)の画面に表示することも、それらと通信を行う他の端末に出力することも可能である。
[第4実施形態]
さらに、上述した音声認識システム及び音声合成システムは以下の形態により実施することもできる。図12は、本発明の第4の実施形態を説明するための図である。
同図に示したように、本実施形態に係る音声認識合成システムは、話者32の頭部に装着可能な眼鏡形状をなす保持器具41と、この保持器具41に音源である話者32の口周辺を撮影可能に固定された画像情報取得手段17としてのビデオカメラ、及び固定部42と、認識結果取得手段21としてのシースルーHMDと、保持器具41に内蔵された音声認識手段とから構成される。固定部42には、筋電信号取得手段14としての皮膚表面電極、音響信号取得手段11としてのマイクが取付けられている。
このような音声認識合成システムを装着することにより、話者32は、フリーハンド状態で、音声認識及び音声合成を行うことができる。
なお、音声認識手段は保持器具41内に納めることもできるし、保持器具41と通信を行うことが可能な外部の端末に納めることもできる。また、音声認識の認識結果は、シースルーHMD(透過性の表示部)に表示することも、また保持器具41に備えられたスピーカ等の出力装置から音声で出力することもでき、さらに外部の端末に出力することも可能である。さらに、保持器具41にスピーカー等の音声出力装置を設けた場合には、音声認識に基づいて合成された音声を出力するようにしてもよい。
[第5実施形態]
なお、上述した第1〜4の実施形態にかかる音声認識システム・音声合成システム及び方法は、パーソナルコンピュータ等の汎用コンピュータや、携帯電話機等に備えられたICチップ上において、所定のコンピュータ言語で記述されたプログラムを実行することにより実現することができる。
そして、このような通信制御プログラムは、図13に示すようなコンピュータ115で読み取り可能な記録媒体(フロッピー(登録商標)ディスク116,CD−ROM117,RAM118,カセットテープ119)に記録し、この記録媒体を介して、コンピュータ115を通じて、或いは、移動電話機本体30のメモリ等に直接インストールすることにより、上述した実施形態で説明した音声認識システムや音声合成システムを実現することができる。
第1実施形態にかかる音声認識システムの基本構成を説明するためのブロック図である。 第1実施形態にかかる音声認識システムの動作を説明するためのフロー図である。 第1実施形態にかかる音声認識手段の動作を説明するための説明図である。 第1実施形態にかかる音声認識手段の動作を説明するための説明図である。 第1実施形態にかかる音声認識手段における階層ネットワークの動作を説明するための説明図である。 第1実施形態におけるパラメータの抽出処理を説明するための説明図である。 第1実施形態におけるパラメータの抽出処理を説明するための説明図である。 第1実施形態における学習処理を説明するためのフロー図である。 第2実施形態にかかる音声合成システムの動作を説明するためのフロー図である。 第2実施形態にかかる音声合成システムの動作を説明するための説明図である。 第3実施形態にかかる音声認識合成システムの説明図である。 第4実施形態にかかる音声認識合成システムの説明図である。 第5実施形態にかかる音声認識プログラム及び音声合成プログラムを記録したコンピュータ読み取り可能な記録媒体の斜視図である。
符号の説明
10…音響情報処理部
11…音響信号取得手段
12…音響信号処理手段
13…筋電信号処理部
14…筋電信号取得手段
15…筋電信号処理手段
16…画像情報処理部
17…画像情報取得手段
18…画像情報処理手段
19…情報総合認識部
20…音声認識手段
21…認識結果提示手段
30…携帯電話機本体
31…腕時計型端末
32…話者
41…保持器具
42…固定部

Claims (6)

  1. 雑音の信号と、話者によって発声された音素の信号とを含む音響信号を取得する音響信号取得手段と、
    取得した前記音響信号のスペクトラムを第1のスペクトラムとして生成する第1スペクトラム生成手段と、
    前記話者によって発声された前記音素を認識する音声認識手段と、
    前記音声認識手段による認識結果に基づいて、認識された音素の信号のスペクトラムを含み、かつ、前記雑音の信号のスペクトラムを含まないスペクトラムを再構成することによって、第2のスペクトラム生成する第2スペクトラム生成手段と、
    前記第1のスペクトラムと前記第2のスペクトラムとを掛け合わせることによって、前記話者によって発声された前記音素の信号スペクトラムを含み、かつ、前記雑音の信号のスペクトラムを含まない修正スペクトラムを生成する修正スペクトラム生成手段と、
    前記修正スペクトラムから合成された音声を出力する出力手段と
    を有することを特徴とする音声合成システム。
  2. 前記出力手段は、合成された音声をデータとして送信する通信手段を有することを特徴とする請求項1に記載の音声合成システム。
  3. 雑音の信号と、話者によって発声された音素の信号とを含む音響信号を取得するステップ(1)と、
    取得した前記音響信号のスペクトラムを第1のスペクトラムとして取得するステップ(2)と、
    前記話者によって発声された前記音素を認識するステップ(3)と、
    前記ステップ(3)における認識結果に基づいて、認識された音素の信号のスペクトラムを含み、かつ、前記雑音の信号のスペクトラムを含まないスペクトラムを再構成することによって、第2のスペクトラム生成するステップ(4)と、
    前記第1のスペクトラムと前記第2のスペクトラムとを掛け合わせることによって、前記話者によって発声された前記音素の信号スペクトラムを含み、かつ、前記雑音の信号のスペクトラムを含まない修正スペクトラムを生成するステップ(5)と、
    前記修正スペクトラムから合成された音声を出力するステップ(6)と
    を有することを特徴とする音声合成方法。
  4. 前記ステップ(6)では、合成された音声をデータとして送信するステップを有することを特徴とする請求項3に記載の音声合成方法。
  5. コンピュータに
    雑音の信号と、話者によって発声された音素の信号とを含む音響信号を取得するステップ(1)と、
    取得した前記音響信号のスペクトラムを第1のスペクトラムとして取得するステップ(2)と、
    前記話者によって発声された前記音素を認識するステップ(3)と、
    前記ステップ(3)における認識結果に基づいて、認識された音素の信号のスペクトラムを含み、かつ、前記雑音の信号のスペクトラムを含まないスペクトラムを再構成することによって、第2のスペクトラム生成するステップ(4)と、
    前記第1のスペクトラムと前記第2のスペクトラムとを掛け合わせることによって、前記話者によって発声された前記音素の信号スペクトラムを含み、かつ、前記雑音の信号のスペクトラムを含まない修正スペクトラムを生成するステップ(5)と、
    前記修正スペクトラムから合成された音声を出力するステップ(6)と
    を有する処理を実行させるための音声合成プログラム。
  6. 前記ステップ(6)では、合成された音声をデータとして送信するステップを有することを特徴とする請求項5に記載の音声合成プログラム。
JP2006259082A 2006-09-25 2006-09-25 音声合成システム、音声合成方法、音声合成プログラム Expired - Lifetime JP4381404B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006259082A JP4381404B2 (ja) 2006-09-25 2006-09-25 音声合成システム、音声合成方法、音声合成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006259082A JP4381404B2 (ja) 2006-09-25 2006-09-25 音声合成システム、音声合成方法、音声合成プログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2002057818A Division JP2003255993A (ja) 2002-03-04 2002-03-04 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム

Publications (2)

Publication Number Publication Date
JP2007018006A JP2007018006A (ja) 2007-01-25
JP4381404B2 true JP4381404B2 (ja) 2009-12-09

Family

ID=37755159

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006259082A Expired - Lifetime JP4381404B2 (ja) 2006-09-25 2006-09-25 音声合成システム、音声合成方法、音声合成プログラム

Country Status (1)

Country Link
JP (1) JP4381404B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9564128B2 (en) 2013-12-09 2017-02-07 Qualcomm Incorporated Controlling a speech recognition process of a computing device

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6633556B2 (ja) * 2016-11-10 2020-01-22 日本電信電話株式会社 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム
JP6691501B2 (ja) * 2017-04-04 2020-04-28 日本電信電話株式会社 音響モデル学習装置、モデル学習装置、モデル学習方法、およびプログラム
WO2021076349A1 (en) * 2019-10-18 2021-04-22 Google Llc End-to-end multi-speaker audio-visual automatic speech recognition
CN110865705B (zh) * 2019-10-24 2023-09-19 中国人民解放军军事科学院国防科技创新研究院 多模态融合的通讯方法、装置、头戴设备及存储介质
CN115588434A (zh) * 2022-10-24 2023-01-10 深圳先进技术研究院 一种由舌部超声图像直接合成语音的方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9564128B2 (en) 2013-12-09 2017-02-07 Qualcomm Incorporated Controlling a speech recognition process of a computing device

Also Published As

Publication number Publication date
JP2007018006A (ja) 2007-01-25

Similar Documents

Publication Publication Date Title
Akbari et al. Lip2audspec: Speech reconstruction from silent lip movements video
EP1667108B1 (en) Speech synthesis system, speech synthesis method, and program product
Gabbay et al. Visual speech enhancement
US7676372B1 (en) Prosthetic hearing device that transforms a detected speech into a speech of a speech form assistive in understanding the semantic meaning in the detected speech
Denby et al. Silent speech interfaces
Jiang et al. On the relationship between face movements, tongue movements, and speech acoustics
Hansen et al. Speech under stress: Analysis, modeling and recognition
Tran et al. Improvement to a NAM-captured whisper-to-speech system
WO2019214047A1 (zh) 建立声纹模型的方法、装置、计算机设备和存储介质
US20100131268A1 (en) Voice-estimation interface and communication system
US20160314781A1 (en) Computer-implemented method, computer system and computer program product for automatic transformation of myoelectric signals into audible speech
Hansen et al. On the issues of intra-speaker variability and realism in speech, speaker, and language recognition tasks
JP4381404B2 (ja) 音声合成システム、音声合成方法、音声合成プログラム
Erzin Improving throat microphone speech recognition by joint analysis of throat and acoustic microphone recordings
Freitas et al. An introduction to silent speech interfaces
EP1341159B1 (en) Speech information recognition device and speech information recognition method based on myoelectrical signal analysis
JP2000308198A (ja) 補聴器
Salvi et al. SynFace—speech-driven facial animation for virtual speech-reading support
Sahoo et al. MFCC feature with optimized frequency range: An essential step for emotion recognition
Freitas et al. Multimodal silent speech interface based on video, depth, surface electromyography and ultrasonic doppler: Data collection and first recognition results
Heracleous et al. A pilot study on augmented speech communication based on Electro-Magnetic Articulography
Seong et al. A study on the voice security system using sensor technology
JP2005209000A (ja) 音声可視化方法及び該方法を記憶させた記録媒体
Beskow et al. Visualization of speech and audio for hearing impaired persons
Beautemps et al. Telma: Telephony for the hearing-impaired people. from models to user tests

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090519

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090526

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090724

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090818

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090915

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121002

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4381404

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131002

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term