JP2012003162A

JP2012003162A - 人工的に有声音を生成する方法および有声音生成装置

Info

Publication number: JP2012003162A
Application number: JP2010140000A
Authority: JP
Inventors: Hiroki Matsumoto; 浩樹松本
Original assignee: ADTEX KK; Adtex Inc
Current assignee: ADTEX KK; Adtex Inc
Priority date: 2010-06-18
Filing date: 2010-06-18
Publication date: 2012-01-05

Abstract

【課題】話者への直接的な接触無しに、囁き声から有声音を生成する方法および当該方法を実施する際に有用な有声音生成装置を提供すること。
【解決手段】発話情報を含む音声から人工的に有声音を生成する方法であって、発話情報を含む音声の音響信号を採取して前記信号をデジタル変換する工程、前記信号から声道特性を推定する工程、および人工的に生成した周期性インパルス信号を上記工程にて推定した声道特性でフィルタリングすることによって有声音を生成する工程、を有し、音響信号をデジタル変換する工程においてオーバーサンプリングを行い、かつ、声道特性を推定する工程において適応デジタルフィルタを用いる、上記方法。
【選択図】図１

Description

本発明は、発話情報を含む音声から人工的に有声音を生成する方法およびそのための装置に関する。

発声障害者のために「無声音の有声音化」技術が大きく注目されている。この技術は声帯や発声筋等に障害を持つ発声障害者に有効性があると考えられ、工学の観点からその技術の進展が期待されている。この技術は障害者だけに留まらず健常者の生活にも大きな影響を与える可能性がある。例えば、電車内や会議中などの静寂を保たねばならぬ空間における携帯電話の使用などへの応用が挙げられる。

音声の生成、特に母音生成における音源フィルタ理論によると、入力信号（声帯音源）とフィルタ（声道特性）とが独立しているとみなすことができる。声帯音源は母音の高さや声質などに関係するのに対し、声道はその形状を変えることによって異なる母音を作り出すことに関係するとされている。したがって、発話情報を含む音声から発話情報に対応するフィルタ（声道特性）を導出することが、人工音声の生成のために必要である。

有声音とは声帯の振動を伴う音声である。これは肺から排出された呼気が声帯を振動させ、それにより発生する波形を信号源としている。上記音源フィルタ理論によれば、この信号源は周期性インパルス駆動で近似することができる。その周波数を基本周波数（ピッチ周波数）と呼ぶ。基本周波数は人間の声の高低を決めるものであり、音声生成には欠かせない。これに対し無声音は声帯の振動を伴わない音声である。これは呼気が狭められた声帯を通り抜ける際に生じる乱流による雑音を信号源としている。この信号源は工学的にガウス性白色雑音で近似できる。無声音は白色雑音を音源としているため、基本周波数は存在しない。

図３は音声生成のモデルである。上記周期性インパルス駆動５２やガウス性白色雑音７２はあくまで信号源であり、単なる音にすぎない。これらの信号源５２、７２が、普段我々の聞く「声」となるには声道により共振（フィルタリング）される必要がある。声道とは、声帯から唇に至る音響管の事であり、発声される母音に従って形状を変えながら入力された信号源を共振させることで信号源に音色を付ける。つまり声道は工学的にフィルタ６２の役割を果たしている。この声道のフィルタ特性（以下、声道特性と言う）６２は発話される母音に従って変化する。声道特性に関しては、有声音および無声音における相互の違いは実用的見地からは無視し得るとされている。

上記のような観点から、有声音であっても、無声音であっても、何らかの発話の意思をもって発出される音声については、声道の形状を変えることによって声道特性のフィルタリングがかかっていると評価できる。本明細書において、そのような声道特性のフィルタリングがかかった音声は、有声音・無声音にかかわらず、発話情報を含む音声であるとみなすことができる。

有声音と無声音との違いは信号源の違いに起因する。この信号源を上手く切り替えることによって人間は様々な声を発声させることが可能となる。声帯を振動させることについての障害は、有声音を発するための周期性インパルス駆動の生成障害であると評価することができる。したがって、ガウス性白色雑音を信号源とする無声音（囁き声）から有声音を生成するためには、囁き声に含まれる発話情報、すなわち声道特性を何らかの手段で取得して、その声道特性と人工的に生成した音源（周期性インパルス駆動）とを組合わせる（共振させる）ことで達成される。

いわゆる電気喉頭は、声帯の振動に障害を持つ人のために人工的に振動を与えるものである。これを下咽頭に直接当て、振動音が口腔内へ伝えられる。電気喉頭のボタンを押すと、電磁気作用によって、ジージーとブザーのような音が鳴る仕組みになっており、このブザー音を出す振動板を喉の皮膚に密着させ、体壁内へ伝導し、共鳴させて音源としている。音の出ている時に、口の形や舌の動きを正しく「ア、オ、ウ、エ、イ」などとすれば、対応する発話として聞き取ることができるとされている。この装置は、声道特性を生成する部位に直接当てることによって、声道特性と音源との組合わせが達成されている。

別の先行技術として、喉などにセンサチップを配置して、そのセンサチップで検出された検出量を入力することによって、喉から発生させようとしている音声を入力した検出量を基にして発声手段から疑似的に発生させる疑似音声発生装置も提案されている（特許文献１）。

特開平５−２９３１２８号公報

電気喉頭を用いる場合には、電気咽頭を下咽頭に直接当てる必要がある。同様に、特許文献１に記載の技術においても、センサチップを喉などに配置しなければならず、簡便性に著しく欠ける。囁き声を信号として入力して、それをもとに声道特性を推定することを利用して、非接触型の囁き声の有声音化装置を提案することも考えられる。しかし、有声音とは異なり、囁き声の信号源は呼気が狭められた声帯を通り抜ける際に生じる乱流による雑音であるため、この信号源については信号として正確に把握することは事実上不可能であり、また、声道特性も未知である。つまり、囁き声については、入力信号およびフィルタ（声道特性）が未知であり、出力である囁き声だけから声道特性を推定せねばならないという困難に直面している。

上記事情を考慮し、本発明は、話者への直接的な接触無しに、囁き声から有声音を生成する方法および当該方法を実施する際に有用な有声音生成装置を提供することを目的とする。

本発明者らが鋭意検討した結果、以下のような本発明を完成した。
（１）発話情報を含む音声から人工的に有声音を生成する方法であって、発話情報を含む音声の音響信号を採取して前記信号をデジタル変換する工程、前記信号から声道特性を推定する工程、および人工的に生成した周期性インパルス信号を上記工程にて推定した声道特性でフィルタリングすることによって有声音を生成する工程、を有し、音響信号をデジタル変換する工程においてオーバーサンプリングを行い、かつ、声道特性を推定する工程において適応デジタルフィルタを用いる、上記方法。
（２）発話情報を含む音声が囁き声である（１）の方法。
（３）発話情報を含む音声から人工的に有声音を生成する有声音生成装置であって、発話情報を含む音声から音響信号を採取するマイクと、音響信号をデジタル変換するＡ／Ｄ変換器と、デジタル変換された信号から声道特性を推定する声道特性推定手段と、周期性インパルス信号を生成する周期性ピッチジェネレータと、推定した声道特性で周期性インパルス信号をフィルタリングして発話情報に基づく有声音を生成する演算手段と、を有し、Ａ／Ｄ変換手段にはオーバーサンプラが備えられ、かつ、声道特性推定手段には適応デジタルフィルタが備えられる、上記装置。

本発明によれば、発話者の身体に接触することなく、発せられた音声のみを取得して、有声音を生成することができる。このため、話者への負担を著しく低減させることができ、また、電気咽頭の接触のさせ方などといった技量に依存しにくくなる。本発明によれば、障害者だけに留まらず健常者の生活にも大きな影響を与える可能性がある。例えば、電車内や会議中などの静寂を保たねばならぬ空間における携帯電話の使用などが挙げられる。

本発明による有声音の生成のフローを示す。適応デジタルフィルタのフローの模式図である。音声生成のモデルを示す。

本発明は、発話情報を含む音声から人工的に有声音を生成する方法、ならびに、該方法を実現する有声音生成装置に関する。
発話情報を含む音声とは、声道特性によるフィルタリングを経た音声であり、より具体的には、何らかの発話の意思をもって声帯から唇に至る音響管すなわち声道の形状を変えることによって対応する母音の情報が付与された音声である。発話情報を含む音声は有声音であってもよいし、無声音であってもよい。有声音と無声音との相違は、声帯の振動を伴うか否かに依存する。有声音においては、肺から排出された呼気が声帯を振動させ、それにより発生する波形を信号源としている。無声音においては、声帯の振動を伴わず、呼気が狭められた声帯を通り抜ける際に生じる乱流などによる雑音を信号源としている。無声音における信号源は、工学的にガウス性白色雑音で近似できる。無声音は白色雑音を音源としているため、基本周波数が存在せず、一般的には、発話情報を伴った音声として認識することは不可能であるか極めて困難である。囁き声は、発話情報を含む無声音を意味する。

図１は、本発明による有声音の生成のフローを示す。
発話情報を含む音声が入力されると、オーバーサンプラ２１によりオーバーサンプリングされながらデジタル変換され、シフトレジスタ３１により２系統に分離され、ブラインド信号処理が施される。本発明では、ブラインド信号処理の実施にあたり、適応デジタルフィルタ１１に供される。適応デジタルフィルタ１１においては、参照フィルタ４１と声道推定フィルタ４２のそれぞれを経た信号の誤差の二乗平均を最小化させるように、参照フィルタ４１と声道推定フィルタ４２が推定される。このように推定された声道推定フィルタ４２が、入力した発話情報を含む音声における発話情報に対応する声道フィルタ６２であるとする。そして、周期性ピッチジェネレータ５１から人工的に発する周期性信号を音源として、推定した声道フィルタ６２でこの音源と共振させる（フィルタリングする）ことにより、有声音を生成する。

発話情報を含む音声の採取はマイク等の公知の技術を援用することができる。本発明によれば、声道の形状変化などの情報を接触によって直接的に収集するわけではなく、出力信号としての音響信号が採取されればよい。したがって、音声の採取においては、話者の身体に接触させる必要はない。

採取した音響信号はデジタル変換される。デジタル変換の方法や装置（Ａ／Ｄ変換器）についても、従来公知の音響技術を適宜援用することができる。本発明では、オーバーサンプリングによるブラインド信号処理を施すので、デジタル変換の際に、オーバーサンプリングが行われる。すなわち、Ａ／Ｄ変換器にはオーバーサンプラが備えられている。オーバーサンプリングの具体的な手法や装置についても従来公知の技術を適宜援用することができる。

本発明によれば、発話情報を含む音声という出力信号からシステム（声道特性）を推定する点に特徴がある。受信信号のみから送信信号及びシステムを推定する処理としてブラインド信号処理が挙げられる。公知のブラインド信号処理として、受信信号の高次統計量を用いる手法と、オーバーサンプリングを用いる手法とがある。本発明ではオーバーサンプリングを用いる手法を適用する。入力音声が発話情報を含む無声音（囁き声）である場合には、音響信号がガウス性白色雑音となる。オーバーサンプリングを用いる手法により、ガウス性の信号も適切に処理できる。

本発明によれば、オーバーサンプリングを用いるブラインド信号処理において適応デジタルフィルタを用いる。すなわち、声道特性推定手段には、適応デジタルフィルタが備えられている。適応デジタルフィルタの使用により、ブラインド信号処理における膨大な演算量が著しく軽減され、実用的な運用の可能性が向上する。図２は適応デジタルフィルタのフローの模式図である。入力するオーバーサンプリングにより得られた信号ベクトルx^(kτ) _L は図１に示すシフトレジスタ３１により２つの伝送路に分けられる。それぞれの伝送路において、信号が、伝達関数４３および４４と、適応デジタルフィルタ（ＡＤＦ）の伝達関数４１および４２を経る。それぞれの伝送路の出力信号s₍₁₎(k), s₍₂₎(k)の式誤差e₍₂₎(k)の二乗が最小となるように伝達関数４１〜４４を推定することで、システムが推定される。図２においては、例えば、４３を声道特性の伝達関数、４４をダミーの伝達関数、４１を参照フィルタ、４２を声道推定フィルタとして扱うことができる。

本発明によれば、適応デジタルフィルタにおいて推定した声道推定フィルタ４２を、声道特性（声道フィルタ）として取り扱う。このようにして推定した声道フィルタ６１によって、図１に示すように、周期性ピッチジェネレータ５１により人工的に生成した周期性インパルス信号をフィルタリング（共振）することにより、有声音を得ることができる。周期性インパルス信号は、肺から排出された呼気により振動させられた声帯から発する波形を模したものとすべきである。例えば、周期性単位インパルス信号のような信号などが考えられるがこれに限定されない。

本発明においては、音響データ等をデジタル化する際の規格化など、デジタル信号を取り扱うための従来技術を適宜援用することができる。本発明の有声音生成装置において使用するＡ／Ｄ変換機、演算手段、オーバーサンプラ、適応デジタルフィルタなどの各要素は、計算機にて実行されるコンピュータプログラムで実現してもよいし、電気回路で実現してもよいし、電子部品で実現してもよいし、プログラムを組み込んだ電子部品で実現してもよい。

ここで、適応デジタルフィルタを用いた声道特性の推定について理論的な考察を行う。
ふたたび図２を参照して、ｘ^(kτ) _Lは送信信号ベクトル、Ｈ₍₁₎(z)４３、Ｈ₍₂₎(z)４４は伝送路１及び２の伝達関数、

と定義する。

図２より、ＡＤＦの出力信号ｓ₍₁₎(k)、ｓ₍₂₎(k)はそれぞれ

と表すことができる。この評価関数Ｊを最小とする式誤差ｅ₍₂₎(k)について考察する。

今、図２のシステムを二つの伝送路Ｋ₍₁₎(z)、Ｋ₍₂₎(z)が並列に接続されているものと見なせば、Ｋ₍₁₎(z)、Ｋ₍₂₎(z)はそれぞれ

と表すことができる。評価関数Ｊを最小（＝０）とする式誤差ｅ₍₂₎(k)の値は０であるから、Ｋ₍₁₎(z)、Ｋ₍₂₎(z)の出力が等しくなることが望ましい。

ここで、

とする。これより、本手法で求めたい要素が伝達関数のパラメータであることから、その推定値と等価であるＷ₍₁₎(z)、Ｗ₍₂₎(z)を求めればよいことがわかる。

上述の式より、評価関数Ｊは

となる。

但し、Ｙ^(k) _L-1(1)、Ｙ^(k) _L(2)を新たな受信信号ベクトル、ｗ_L-1(1)、ｗ_L(2)をＡＤＦのインパルス応答ベクトルとし、それぞれを

と定義する。

このような定義によれば、式（Ａ３）は

と定義する。Ｒ_2L-1,2L-1は正則であるため逆行列を持つ。

式（Ａ４）より評価関数Ｊを最小とするＷ^(k) _2L-1 を求めるには

となる。但し、μはステップゲインを表す。

このようにして、式（Ａ５）に従って適応的にＷ^(k) _2L-1を更新していくことで所望のＡＤＦパラメータ及び伝送路のパラメータを求めることが可能となる。

以下、本発明による実施例を示すが、本発明はこれらの実施例に限定されるわけではない。

以下の囁き声（無声音）について、有声音化を試みた。
（１）発話内容：「あ・い・う・え・お」の各母音
（２）サンプリングレート：44.1k[Hz]
（３）ビットレート：16[bit]
（４）発話者：女性
（５）データ数：21000 個

受信信号にアップサンプリングを行い、ローパスフィルタに通して２倍のオーバーサンプリングを行った。ついで、42000個の受信信号データを正規化した。その後、受信信号を二つの受信信号ベクトルに分けた。

適応デジタルフィルタにより、L=1050としてＷ^(k) _2L-1 を求め、Ｗ^(k) _2L-1
をｗ_L(1)、ｗ_L(2)に分けることによって、声道特性を推定した。

ピッチ間隔250[Hz]（固定）、データ数21000個の周期性インパルス信号と、上記にて推定したｗ_L(1)を用いてフィルタリングを行った。最後に、得られた有声音の規格化を行った。

このようにして得られた有声音は、発話内容については「あ・い・う・え・お」がじゅうぶんに認識できる程度に判別し易く、音割れが少なく聞き取り易かった。

本発明によれば、発声障害者だけに留まらず健常者の生活にも大きな影響を与える可能性がある。例えば、電車内や会議中などの静寂を保たねばならぬ空間における携帯電話の使用などが挙げられる。

１１適応デジタルフィルタ
２１オーバーサンプラ
３１シフトレジスタ
４１参照フィルタ
４２声道推定フィルタ
４３伝達関数
４４伝達関数
５１周期性ピッチジェネレータ
５２周期性インパルス駆動
６１声道フィルタ
６２声道フィルタ
７２ガウス性白色雑音

Claims

発話情報を含む音声から人工的に有声音を生成する方法であって、
発話情報を含む音声の音響信号を採取して前記信号をデジタル変換する工程、
前記信号から声道特性を推定する工程、および
人工的に生成した周期性インパルス信号を上記工程にて推定した声道特性でフィルタリングすることによって有声音を生成する工程、を有し、
音響信号をデジタル変換する工程においてオーバーサンプリングを行い、かつ、声道特性を推定する工程において適応デジタルフィルタを用いる、
上記方法。
発話情報を含む音声が囁き声である請求項１記載の方法。
発話情報を含む音声から人工的に有声音を生成する有声音生成装置であって、
発話情報を含む音声から音響信号を採取するマイクと、音響信号をデジタル変換するＡ／Ｄ変換器と、
デジタル変換された信号から声道特性を推定する声道特性推定手段と、
周期性インパルス信号を生成する周期性ピッチジェネレータと、
推定した声道特性で周期性インパルス信号をフィルタリングして発話情報に基づく有声音を生成する演算手段と、を有し、
Ａ／Ｄ変換手段にはオーバーサンプラが備えられ、かつ、声道特性推定手段には適応デジタルフィルタが備えられる、
上記装置。