JP2008191221A

JP2008191221A - 音声合成方法、音声合成プログラム、音声合成装置

Info

Publication number: JP2008191221A
Application number: JP2007022886A
Authority: JP
Inventors: Tsutomu Kaneyasu; 勉兼安
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2007-02-01
Filing date: 2007-02-01
Publication date: 2008-08-21
Anticipated expiration: 2027-02-01
Also published as: JP4872690B2

Abstract

【課題】コーパスベース音声合成方式において、母音と無音の接続部分に起因する音質劣化を低減する。
【解決手段】音声素片を格納した音声コーパス２００を用いて音声合成を行う方法であって、合成する音声の音素列を受け取る入力ステップと、音素列に対応した音声素片、音素環境を音声コーパス２００から選択する選択ステップと、入力ステップで受け取った音素列の中から、母音素片であって直後に無音が続く箇所で、選択ステップで選択した音声素片、音素環境を抽出する抽出ステップと、抽出ステップで抽出した母音素片の終端部分に音量フェードアウト処理を施す音量調節ステップと、を有する。
【選択図】図４

Description

本発明は、音声素片を格納した音声コーパスを用いて音声合成を行う方法、プログラム、及び装置に関するものであり、特に母音と無音の接続部分に起因する音質劣化を低減することのできるものに関する。

従来、テキスト音声合成に関し、『音素単位だけでなく音素の中心を境界とするダイフォン単位も用いた新たな日本語テキスト合成方法を提供すること』や『音素単位のみを用いる従来法と比較して、より自然性の高い音声を合成することができ、かつコーパスをより有効に使用することができるようになる日本語テキスト合成方法を提供すること』を目的とした技術として、『日本語テキスト音声合成方法において、母音と母音との連鎖における波形接続において、それらの境界での接続と、それらの母音中心での接続との両方を考慮して音声合成単位の選択を行うようにした。』というものが提案されている（特許文献１）。
また、『リアルタイムに入力される演奏データに基づいて人歌唱に近似した自然な歌唱合成を可能にする。』ことを目的とした技術として、『子音ｓから母音ａへの音韻遷移に対応するアタック遷移Ａｔｔａｃｋを表わす遷移状態情報と、母音ａから母音ｉへの音韻遷移に対応するノート遷移ＮｔＮを表わす遷移状態情報と、母音ａから無音Ｓｉｌへの音韻遷移に対応するリリース遷移Ｒｅｌｅａｓｅを表わす遷移状態情報とを生成する。歌唱音声発生時には、各遷移状態情報に応じて歌唱音声の対応する音韻遷移部に音高、振幅等の微小変化を付加するように音源制御を行なう。ビブラートトラックの制御情報に応じて歌唱音声にビブラート効果を付加してもよい。』というものが提案されている（特許文献２）。

特開２００３−２０８１８８号公報（要約）特開２００６−１１９６７４号公報（要約）

こうした音声合成技術の１つに、コーパスベース音声合成方式がある。
この技術の概略を説明すると、音声素片を格納した音声コーパスをあらかじめ構築しておき、入力テキストから音声合成を行う際に、音声コーパスから好適な音声素片を選択して、波形接続処理により合成音声を得る、というものである。

ここで、音声素片の波形接続を行う際に、母音素片の直後に無音を挿入するような場合を考える。
一般に、母音素片の音声波形は振幅が大きく、その直後に無音（振幅０）の波形を単純に接続すると、大きな振幅の波形から急激に振幅０の波形に変化することになるため、これがノイズの原因となって、聴取した際の音質劣化を引き起こす場合があった。
そのため、上述のような音質劣化を低減することのできる音声合成方法、音声合成プログラム、音声合成装置が望まれていた。

本発明に係る音声合成方法は、
音声素片を格納した音声コーパスを用いて音声合成を行う方法であって、
合成する音声の音素列を受け取る入力ステップと、
前記音素列に対応した音声素片、音素環境を前記音声コーパスから選択する選択ステップと、
前記入力ステップで受け取った音素列の中から、母音素片であって直後に無音が続く箇所で、前記選択ステップで選択した音声素片、音素環境を抽出する抽出ステップと、
前記抽出ステップで抽出した母音素片の終端部分に音量フェードアウト処理を施す音量調節ステップと、
を有することを特徴とするものである。

本発明に係る音声合成方法によれば、母音から無音に変化する際の急激な音量変化を回避することができるので、それに起因する音質劣化を低減し、品質のよい合成音声を得ることができる。

実施の形態１．
図１は、本発明の実施の形態１に係る音声合成装置１００の機能ブロック図である。
音声合成装置１００は、テキスト処理部１０１、韻律推定部１０２、素片選択部１０３、音量調節部１０４、素片接続部１０５を備える。

テキスト処理部１０１は、合成音声を生成するための入力テキスト３００を受け取り、形態素解析、係り受け解析を行う。解析結果は、入力テキスト３００の内容を表す音素記号やアクセント記号等に変換される。
韻律推定部１０２は、テキスト処理部１０１の解析処理に基づく音素記号、アクセント記号、形態素解析結果を受け取り、これらから得られる品詞情報を用いて、音素持続時間（声の長さ）、基本周波数（声の高さＦ０）、母音中心のパワー（声の大きさ）等を推定する。
素片選択部１０３は、韻律推定部１０２が推定した音素持続時間、基本周波数、母音中心のパワー等に最も近い音声素片を、音声コーパス２００から選択する。このとき、音声素片を接続したときの歪みが最も小さくなるような音声素片を選択する。選択方法は、例えば動的計画法などを用いることができる。
音量調節部１０４は、素片選択部１０３が選択した音声素片と、対応する音素記号列（音素環境）を受け取り、音声素片の音量調節処理を行う。処理の詳細は後述する。
素片接続部１０５は、音量調節部１０４より音量調節された音声素片を受け取り、波形接続処理により合成音声４００を生成して出力する。

テキスト処理部１０１、韻律推定部１０２、素片選択部１０３、音量調節部１０４、素片接続部１０５は、これらの処理を実現する回路デバイス等のハードウェアで構成することもできるし、ＣＰＵやマイコン等の演算装置上で実行されるソフトウェアとして構成することもできる。

音声コーパス２００は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）のような比較的容量の大きな記憶装置に、音声素片データを格納することによって構成することができる。

音声合成装置１００は、必要に応じて適切な入出力インターフェースを備える。
例えば、入力テキスト３００をネットワークパケットとして受け取る場合には、ＬＡＮインターフェース等のネットワークインターフェースを備える。
また、音声４００を音声データとして出力する場合には、同じくＬＡＮインターフェースや記憶装置への接続端子などのデータ出力インターフェースを備える。あるいは、音声信号として出力する場合には、その信号フォーマットに対応した端子を備える。

なお、本実施の形態１において、「抽出部」は音量調節部１０４と一体的に構成していることを付言しておく。これらを別個に構成してもよい。
また、「入力部」は、テキスト処理部１０１、韻律推定部１０２がこれに相当する。

ここで、本実施の形態１に係る音声合成装置１００の動作説明に入る前に、母音と無音を接続する際に生じる音質劣化について説明する。

図２は、入力テキスト３００の一部の音声波形とその音素記号を示すものである。
ここで、入力テキスト３００の内容は「本日は、晴天なり。」とし、図２では読点「、」の周辺の音声波形を図示している。
図２において、アルファベットは音声波形に対応する音素記号を表す。「ｐａｕ」は文中ポーズを表し、その区間は無音に相当すると考えればよい。縦線で区切られた各音声波形に相当する音声素片は、あらかじめ音声コーパス２００に格納されているものとする。

図２のような音声波形を生成するためには、各音素記号「ｈ」「ａ」「ｓ」「ｅ」に対応した適切な音声素片（波形データ）を音声コーパス２００から選択し、波形接続を行えばよい。音素記号「ｐａｕ」に関しては素片接続を行う必要はなく、音量０の区間を所定時間継続させればよい。もちろん、音量０（又は所定値以下）の音声素片を接続して無音区間を構成してもよい。

ここで、音素記号「ａ」と「ｐａｕ」の接続部分について考える。
一般に、音声コーパス２００に格納されている「ａ」の音声素片は、必ずしもその次に無音区間が続くことを想定しているとは限らない。このような音声素片を選択してしまった場合は、母音の音声波形は振幅が大きい場合が多いゆえに、「ａ」の終端部の音量も高くなっている。
上記のような状態で、「ａ」の後ろに無音を単純に接続した場合、音声波形が急激に音量０に変化するため、これが原因となってノイズ等の音質劣化を生じる場合がある。

図３は、図２における音素記号「ａ」と「ｐａｕ」の接続点周辺の音声波形を拡大して示すものである。波形イメージは正確に表したものでないことを付言しておく。
音声コーパス２００から、音素記号「ａ」に対応した音声素片を選択する際に、必ずしもその後に無音区間が続くことを想定した素片が選択されるとは限らないことは、先に述べた通りである。

図３（１）は、音素記号「ａ」の後に無音区間が続くことを想定した音声素片「ａ」が選択された場合の波形イメージである。同図（１）に示すように、無音区間が後続することを考慮して、音声素片「ａ」の終端部分は、徐々に音量が小さくなるように波形が構成されている。

図３（２）は、音素記号「ａ」の後に無音区間が続くことを想定していない音声素片「ａ」が選択された場合の波形イメージである。同図（２）の上図に示すように、無音区間が後続することが考慮されていないため、音声素片「ａ」の終端部分は、音量が高いままになっている。
そこで、音声素片「ａ」の終端から時間長Ｌ遡った部分に、減衰フィルタＦを掛け合わせてフェードアウト処理を施すことにより、図３（１）と同様の、徐々に音量が減衰している音声波形を得ることができる。
図３（１）のように終端部分が最初からフェードアウトしている場合には、フィルタＦを掛け合わせる必要はない。

なお、音声素片「ａ」の終端部分がフェードアウトしているか否かの判断は、音声素片「ａ」の音素環境を調べれば分かる。
音素環境とは、音素同士のつながりを音素記号で表したものである。例えば、音素環境を「ｈ−ａ＋ｐａｕ」のように表せば、「ａ」の次に無音が続くことを想定した音声素片であることが分かる。一方、「ｈ−ａ＋ｒ」のように表せば、「ａ」の次に「ｒ」が続くことを想定した音声素片であることが分かる。
即ち、音声素片「ａ」の音素環境を調べれば、次にいかなる音素が続くことを想定しているかが分かるので、図３で説明したように、終端部分がフェードアウトしているか否かも分かるのである。
後述の図４におけるステップＳ４０２で、この判定を行っている。

図４は、本実施の形態１に係る音声合成装置１００における、音量調節部１０４の動作フローである。以下、各ステップについて説明する。

（Ｓ４０１）
音量調節部１０４は、入力テキストの音素列の音素環境に基づき、母音音素の直後に無音が続いている箇所に対して、素片選択部１０３から受け取った音声素片、音素環境を抽出する。ここでいう無音とは、文中ポーズ、文末無音、閉鎖区間、促音などを指す。
本ステップにより、音量フェードアウトを行うべき可能性のある区間と、これに対応した母音素片とを抽出することができる。
（Ｓ４０２）
音量調節部１０４は、ステップＳ４０１で抽出した箇所について、その箇所に対応する母音素片の音素環境を調べる。
次に無音が続くことを想定したもの（音量フェードアウト処理を施す必要はない）であれば、以後の処理は行わずに終了する。次に無音が続くことを想定していないもの（音量フェードアウト処理を施す必要がある）であれば、ステップＳ４０３へ進む。
（Ｓ４０３）
音量調節部１０４は、上述の区間Ｌを設定し、その区間における母音素片波形を抽出する。
なお、この区間Ｌの設定は、例えば、（１）母音素片の音長を任意の個数に等分割し、最後の区間をフェードアウト判定の対象とする、（２）母音素片の末尾から所定の時間長遡った区間をフェードアウト判定の対象とする、といった方法で設定すればよい。
（Ｓ４０４）
音量調節部１０４は、音量フェードアウト処理区間Ｌの始点を調整して、音量フェードアウトにより音量０になった区間と、次に続く無音波形とが、スムーズに接続されるようにする。
適切な始点は、上述の区間Ｌの範囲内、もしくはその前後などの適当な範囲内で任意の手法により探索すればよい。
（Ｓ４０５）
音量調節部１０４は、上述の区間Ｌにおける母音素片の波形に、減衰フィルタＦを掛け合わせ、その結果を素片接続部１０５に出力する。

なお、ステップＳ４０２において、音素記号を用いることにより、母音音素の直後に無音が続くことを想定しているか、想定していないものかを判定することを説明したが、判定方法はこれに限られるものではない。
例えば、音声素片の波形から音声認識処理を行って、その音声素片が母音であるか否か、また、母音音素の直後が無音であるか否かを判定することもできる。

以上のように、本実施の形態１によれば、コーパスベース音声合成方式において、母音の次に無音を接続することにより生じる音質劣化を、入力テキストや選択された音声素片に応じて、合成音声の出力前に事前に低減することができる。

実施の形態２．
図５は、本発明の実施の形態２に係る音声合成装置１００の機能ブロック図である。
図５において、音量調節部１０４と素片接続部１０５の間に、新たに無音長調節部１０６を設けた。その他の構成は、実施の形態１で説明した図１と同様であるため、説明を省略する。

無音長調節部１０６は、音量調節部１０４が音量フェードアウト処理を施した母音素片の直後に続く無音の時間長を、音量フェードアウト処理により無音区間となった時間長と同じ時間短くする機能を備える。
無音長調節部１０６は、その機能を実現する回路デバイス等のハードウェアで構成することもできるし、ＣＰＵやマイコン等の演算装置上で実行されるソフトウェアとして構成することもできる。

図６は、無音長調節部１０６の機能を説明するものである。
実施の形態１で説明したように、音量調節部１０４が、減衰フィルタＦにより母音素片の終端部で音量フェードアウトを行うが、減衰により音量が０に達する時点と、母音素片の終端は、必ずしも一致するとは限らない。
もし、母音素片の終端よりも前で音量が０に達すると、その後に続く無音と合わせて、無音時間がそれだけ間延びすることになる。

一方、韻律推定部１０２の推定処理により、無音区間の時間長は、あらかじめ予定されている。そのため、無音区間が間延びしてしまうと、最終的な合成音声のテンポが崩れてしまう。

そこで、無音長調節部１０６は、音量調節部１０４が音量フェードアウト処理を施した母音素片の終端における無音区間を検出し、その時間長と同じ長さだけ、直後の無音区間を短くする処理を行う。
これにより、合成音声のテンポを崩すことがなくなるという効果が得られる。

図７は、本実施の形態２における無音長調節部１０６の動作フローである。以下、各ステップについて説明する。

（Ｓ７０１）
無音長調節部１０６は、音量調節部１０４から受け取った素片波形のうち、音量調節部１０４が音量フェードアウト処理を施した母音素片について、その終端部分の無音区間の長さを検出する。
検出方法は、例えば所定の音量閾値をあらかじめ設定しておき、音量がこれを下回る時間が一定以上である場合に、その区間を無音と判断する、といった方法が考えられる。もちろん、その他の適当な方法を用いてもよい。
（Ｓ７０２）
無音長調節部１０６は、音量調節部１０４が音量フェードアウト処理を施した母音素片の直後の無音区間について、ステップＳ７０１で検出した無音区間の長さと同じ時間、継続時間を短くする。

以上のように、本実施の形態２によれば、音量調節部１０４が音量フェードアウト処理を施すことにより無音区間が間延びしても、直後の無音区間をその分短縮するので、韻律推定した継続長に基づく合成音声のテンポを崩すことがなくなる。

なお、以上の実施の形態１〜２において、減衰フィルタＦにより音量フェードアウト処理を行うこととしたが、音量フェードアウトの方法はこれに限られるものではない。

また、図２や図３において、音量フェードアウト処理を施す母音素片は、「ａ」のように母音音素単独で素片を構成している例についてのみ説明した。
音量フェードアウト処理を施す対象となる母音素片は、このように母音音素単独で素片を構成している場合に限らない。例えば、より長い単語を音読している素片であって、末尾が母音となっているようなものも、音量フェードアウト処理を施す対象となり得る。

実施の形態１に係る音声合成装置１００の機能ブロック図である。入力テキスト３００の一部の音声波形とその音素記号を示すものである。図２における音素記号「ａ」と「ｐａｕ」の接続点周辺の音声波形を拡大して示すものである。実施の形態１に係る音声合成装置１００における、音量調節部１０４の動作フローである。実施の形態２に係る音声合成装置１００の機能ブロック図である。無音長調節部１０６の機能を説明するものである。実施の形態２における無音長調節部１０６の動作フローである。

符号の説明

１００音声合成装置、１０１テキスト処理部、１０２韻律推定部、１０３素片選択部、１０４音量調節部、１０５素片接続部、１０６無音長調節部。

Claims

音声素片を格納した音声コーパスを用いて音声合成を行う方法であって、
合成する音声の音素列を受け取る入力ステップと、
前記音素列に対応した音声素片、音素環境を前記音声コーパスから選択する選択ステップと、
前記入力ステップで受け取った音素列の中から、母音素片であって直後に無音が続く箇所で、前記選択ステップで選択した音声素片、音素環境を抽出する抽出ステップと、
前記抽出ステップで抽出した母音素片の終端部分に音量フェードアウト処理を施す音量調節ステップと、
を有することを特徴とする音声合成方法。
前記音量調節ステップで音量フェードアウト処理を施した母音素片の直後に続く無音の時間長を、音量フェードアウト処理により無音区間となった時間長と同じ時間短くする、無音長調節ステップを有する
ことを特徴とする請求項１に記載の音声合成方法。
前記音量調節ステップでは、
前記抽出ステップで抽出した母音素片の音素環境を確認し、
その音素環境が、直後に無音が続くことを想定していない音素環境になっている場合に限り、前記音量フェードアウト処理を施す
ことを特徴とする請求項１又は請求項２に記載の音声合成方法。
請求項１ないし請求項３のいずれかに記載の音声合成方法をコンピュータに実行させることを特徴とする音声合成プログラム。
音声素片を格納した音声コーパスを用いて音声合成を行う装置であって、
合成する音声の音素列を受け取る入力部と、
前記音素列に対応した音声素片、音素環境を前記音声コーパスから選択する選択部と、
前記入力部で受け取った音素列の中から、母音素片であって直後に無音が続く箇所で、前記選択部で選択した音声素片、音素環境を抽出する抽出部と、
前記抽出部が抽出した母音素片の終端部分に音量フェードアウト処理を施す音量調節部と、
を備えることを特徴とする音声合成装置。
前記音量調節部が音量フェードアウト処理を施した母音素片の直後に続く無音の時間長を、音量フェードアウト処理により無音区間となった時間長と同じ時間短くする、無音長調節部を備える
ことを特徴とする請求項５に記載の音声合成装置。
前記音量調節部は、
前記抽出部が抽出した母音素片の音素環境を確認し、
その音素環境が、直後に無音が続くことを想定していない音素環境になっている場合に限り、前記音量フェードアウト処理を施す
ことを特徴とする請求項５又は請求項６に記載の音声合成装置。