JP2008058379A - 音声合成システム及びフィルタ装置 - Google Patents
音声合成システム及びフィルタ装置 Download PDFInfo
- Publication number
- JP2008058379A JP2008058379A JP2006232081A JP2006232081A JP2008058379A JP 2008058379 A JP2008058379 A JP 2008058379A JP 2006232081 A JP2006232081 A JP 2006232081A JP 2006232081 A JP2006232081 A JP 2006232081A JP 2008058379 A JP2008058379 A JP 2008058379A
- Authority
- JP
- Japan
- Prior art keywords
- filter
- speech
- sound
- information
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
【課題】TTSシステムにおいて、既存の音声データベースを用いて、声質のことなる合成音声を提供すること。
【解決手段】音声合成システム10は、音声合成用の音情報が記憶されている音声データベース40と、受け取った入力文字列に基づき音声データベースに記憶されている音情報を読み出して、入力文字列に対応した合成音声を生成する音声合成部50と、合成音声の声質の変換を行うためのフィルタ情報を記憶するフィルタ情報記憶部30と、音声合成を行う際の入力文字列に基づいて、使用するフィルタを選択するためのフィルタ選択情報を生成する音声変換制御信号生成部60と、合成音声を所与の単位で区切って、所与の単位毎に、フィルタ選択情報に基づき選択したフィルタを用いて、所与のキャラクタの合成音声を他のキャラクタの音声への変更を行う音声変換部50と、を含む。
【選択図】図1
【解決手段】音声合成システム10は、音声合成用の音情報が記憶されている音声データベース40と、受け取った入力文字列に基づき音声データベースに記憶されている音情報を読み出して、入力文字列に対応した合成音声を生成する音声合成部50と、合成音声の声質の変換を行うためのフィルタ情報を記憶するフィルタ情報記憶部30と、音声合成を行う際の入力文字列に基づいて、使用するフィルタを選択するためのフィルタ選択情報を生成する音声変換制御信号生成部60と、合成音声を所与の単位で区切って、所与の単位毎に、フィルタ選択情報に基づき選択したフィルタを用いて、所与のキャラクタの合成音声を他のキャラクタの音声への変更を行う音声変換部50と、を含む。
【選択図】図1
Description
本発明は、音声合成システム及びフィルタ装置に関する。
パラメトリック型TTSシステムでは(発声モデルを使って音声を合成する)、従来から、発声パラメータを操作することで、複数の仮想的な人に相当するようなボイスを合成しわけるようなことが行われていた。
またコンキャティネイティブ型もしくはコーパスベース型TTSシステムでは、実在の人物の発音を録音し、これを音の要素に分解、データベース化した後に、当該データベースの音の要素を合成して所望の音声を生成することが行われていた。
特開2002−328695号公報
一般にパラメトリック型TTSシステムではロボット的な発声となるため、言語としての意味はとれても違和感を感じる人がおおい。これに対し、コンキャティネイティブ型もしくはコーパスベース型TTSシステムでは、コンピュータによる合成音声とはいっても実在する人の発音をベースとしているので、違和感が少なく一般家電製品等に応用しやすい。
しかし多くのキャラクタ、例えば異なる年齢や異なる声のタイプをそろえていくことは実話者の選定から始まり、録音、データベース化の作業が必要であり、実在する人の音声データベース化は録音と分類データベース化に非常に時間と手間がかかるという問題点があった。
本発明は、以上のような技術的課題に鑑みてなされたものであり、その目的とするところは、TTSシステムにおいて、既存の音声データベースを用いて、声質のことなる合成音声を提供することである。
(1)本発明は、
入力文字列を受け取り入力文字列に対応する音声を合成する音声合成システムであって、
所与のキャラクタの音声情報が、音声合成用の所与の要素単位の音情報として記憶されている音声データベースと、
受け取った入力文字列に基づき音声データベースに記憶されている音情報を読み出して、入力文字列に対応した所与のキャラクタの合成音声を生成する音声合成部と、
所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行うための、音の種類に応じて特性の異なる複数のフィルタを含むフィルタセットの情報を記憶するフィルタ情報記憶部と、
音声合成を行う際の入力文字列に基づいて、合成音声に含まれる音の種類を判断し、音の種類に対応した特性を有するフィルタを決定し、決定したフィルタを選択するためのフィルタ選択情報を生成する音声変換制御信号生成部と、
合成音声を所与の単位で区切って、所与の単位毎に、フィルタ選択情報に基づき選択したフィルタを用いて、所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行う音声変換部と、
を含むことを特徴とする。
入力文字列を受け取り入力文字列に対応する音声を合成する音声合成システムであって、
所与のキャラクタの音声情報が、音声合成用の所与の要素単位の音情報として記憶されている音声データベースと、
受け取った入力文字列に基づき音声データベースに記憶されている音情報を読み出して、入力文字列に対応した所与のキャラクタの合成音声を生成する音声合成部と、
所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行うための、音の種類に応じて特性の異なる複数のフィルタを含むフィルタセットの情報を記憶するフィルタ情報記憶部と、
音声合成を行う際の入力文字列に基づいて、合成音声に含まれる音の種類を判断し、音の種類に対応した特性を有するフィルタを決定し、決定したフィルタを選択するためのフィルタ選択情報を生成する音声変換制御信号生成部と、
合成音声を所与の単位で区切って、所与の単位毎に、フィルタ選択情報に基づき選択したフィルタを用いて、所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行う音声変換部と、
を含むことを特徴とする。
音声合成用の所与の要素とは、音又は音素又はその他のプリミティブである。
ここでの音素とは、音声合成ソフトウエアが合成の最小単位として取り扱うひとまとまりの音データ情報であって、録音された実音声を分析・分解して得られたものである。ソフトウエア構成により単語、音節、単音、音韻学上の音素など多くのレベルがありえる。
音声合成ソフトウエアによって異なるが、通例、ひとり分のキャラクタを表す集合として、数百から数十万ほどの音素データをデータベース中に保持している。
日本語の音素では例えば、幅広く音素を設定すれば、現代の日本語の音素は最低、五十音表にそって以下のようなものを挙げることができる。
母音=/a/ /i/ /u/ /e/ /o/
子音=/k/ /s/ /t/ /n/ /h/ /m/ /j/ /r/ /w/ /g/ /z/ /d/ /b/ /p/
母音=/a/ /i/ /u/ /e/ /o/
子音=/k/ /s/ /t/ /n/ /h/ /m/ /j/ /r/ /w/ /g/ /z/ /d/ /b/ /p/
また音情報とは、多くは時間領域におけるパワー値の経時的な遷移を示す波形情報であるが、周波数領域におけるパワー値の変化波形情報とし、これをもとに合成し、経時的な波形に変換してもよい。
フィルタとは、合成音声のテキスト情報(語句)は変えずに、所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行うためのデジタルフィルタであり、具体的には、合成音声に対応した時間領域におけるパワー値の計経時的な遷移を示す波形や周波数領域におけるパワー値の変化波を変換するための関数として与えることができる。
なお音の種類に応じて特性の異なる複数のフィルタは例えば所与のフィルタ関数のパラメータを変更することにより実現することができる。
本発明によれば、音声データベースの再構築といった手間のかかる実音源処理なしにTTSシステムに対して発音音声のバリエーションを付加することが可能になった。
本発明によれば、合成音声に対応する入力文字列が予めわかっているので音声合成後の音を解析して入力文字列に変換するという行程が不要であるため処置時間の短縮化をはかることができ、音声認識の部分の誤認識が無くなることにより変換精度の向上を図ることができる。
しかも音声変換の対象が不特定多数の人の音声ではなく、音声データベースに記憶されている音声なので、予め当該音声に対応したフィルタを用意しておくことが可能で、より高精度の音声変換を行うことが可能である。
このように本発明によれば音声合成の入力となる入力文字列に基づき、音声合成と連動させて動的に適用するフィルタを選択・変更することで、精度よい変換を行うことができる。
また本発明によれば、音声合成部とは別に音声変換制御信号生成部を設けることにより、既存のTTSシステム(音声合成部と音声データベースを含む)に、フィルタ装置(本発明の音声変換制御信号生成部とフィルタ情報記憶部と音声変換部を含む)を適用することで実現可能である。既存のTTSシステムにたいして汎用的に適用可能なフィルタ装置を実現することができる。
なお音声変換制御信号生成部は音声合成の処理の一部をシミュレートして、音声変換制御信号を生成するようにしてもよい。
本発明を、実在の人物の発音を録音しこれを音に分解しデータベース化した後に、所望の音声として再合成して発声するコンキャティネイティブ型もしくはコーパスベース型TTSシステムに適用すると、単一のCV音源(「オリジナルボイス」)を用いたコンキャティネイティブ型もしくはコーパスベース型TTSシステム用いて、異なるCV音源(「オリジナルボイス」とは異なる仮想人物のボイス)として音声データを生成する装置を提供することができる。
なお本発明は、発声モデルを使って音声を合成するパラメトリック型TTSシステムにも適用可能である。
(2)本発明は、
入力文字列を受け取り入力文字列に対応する音声を合成する音声合成システムであって、
所与のキャラクタの音声情報が、音声合成用の所与の要素単位の音情報として記憶されている音声データベースと、
受け取った入力文字列に基づき音声データベースに記憶されている音情報を読み出して、入力文字列に対応した所与のキャラクタの合成音声を生成する音声合成部と、
所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行うための、音の種類に応じて特性の異なる複数のフィルタを含むフィルタセットの情報を記憶するフィルタ情報記憶部と、
音声合成を行う際の入力文字列に基づいて、合成音声に含まれる音の種類を判断し、音の種類に対応した特性を有するフィルタを決定し、決定したフィルタを選択するためのフィルタ選択情報を生成する音声変換制御信号生成部と、
フィルタセット情報に基づき、所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行う音声変換部と、を含み、
前記音声合成部は、
音声合成を行う際の入力文字列に基づいて、合成音声に含まれる音の種類を判断し、音の種類に対応した特性を有するフィルタを決定し、決定したフィルタを選択するためのフィルタ選択情報を生成する音声変換制御信号生成部を含み、
前記音声変換部は、
合成音声を所与の単位で区切って、所与の単位毎に、フィルタ選択情報に基づき選択したフィルタを用いて音声変換を行う特徴とする。
入力文字列を受け取り入力文字列に対応する音声を合成する音声合成システムであって、
所与のキャラクタの音声情報が、音声合成用の所与の要素単位の音情報として記憶されている音声データベースと、
受け取った入力文字列に基づき音声データベースに記憶されている音情報を読み出して、入力文字列に対応した所与のキャラクタの合成音声を生成する音声合成部と、
所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行うための、音の種類に応じて特性の異なる複数のフィルタを含むフィルタセットの情報を記憶するフィルタ情報記憶部と、
音声合成を行う際の入力文字列に基づいて、合成音声に含まれる音の種類を判断し、音の種類に対応した特性を有するフィルタを決定し、決定したフィルタを選択するためのフィルタ選択情報を生成する音声変換制御信号生成部と、
フィルタセット情報に基づき、所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行う音声変換部と、を含み、
前記音声合成部は、
音声合成を行う際の入力文字列に基づいて、合成音声に含まれる音の種類を判断し、音の種類に対応した特性を有するフィルタを決定し、決定したフィルタを選択するためのフィルタ選択情報を生成する音声変換制御信号生成部を含み、
前記音声変換部は、
合成音声を所与の単位で区切って、所与の単位毎に、フィルタ選択情報に基づき選択したフィルタを用いて音声変換を行う特徴とする。
本発明によれば、音声変換制御信号生成部を音声合成部の一部として持たせるので、音声合成処理の中で音声変換制御信号を生成することができるので処理や回路の重複を防ぎ効率的に処理することができる。
(3)本発明の音声合成システムは、
前記音声変換制御信号生成部が、
音声合成時の入力文字列に対する音の合成の進行に合わせて、合成音声を所与の単位で区切るためのタイミングを指示する音区切り位置情報及び前記フィルタ選択情報を生成して出力し、
音声変換部が、
前記音区切り位置情報に基づき、時系列に連続した合成音声にかけるフィルタの切り替えタイミングを判定して、前記フィルタ選択情報に基づき選択したフィルタに切り替えることを特徴とする。
前記音声変換制御信号生成部が、
音声合成時の入力文字列に対する音の合成の進行に合わせて、合成音声を所与の単位で区切るためのタイミングを指示する音区切り位置情報及び前記フィルタ選択情報を生成して出力し、
音声変換部が、
前記音区切り位置情報に基づき、時系列に連続した合成音声にかけるフィルタの切り替えタイミングを判定して、前記フィルタ選択情報に基づき選択したフィルタに切り替えることを特徴とする。
このようにすることで、時系列に連続した合成音声を、時系列に固定的なウインドウで切り出して加工するのではなく、音声合成時のテキストから音への変換の進行に合わせて合成音声を分割してフィルタを適用することができる。
(4)本発明は、
TTSシステムの出力する合成音声の音声変換を行うフィルタ装置であって、
TTSシステムで使用する音声データベースに基づき生成される所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行うための音の種類に応じて特性の異なる複数のフィルタを含むフィルタセットの情報を記憶するフィルタ情報記憶部と、
TTSシステムが、音声合成を行う際の入力文字列に基づいて、合成音声に含まれる音の種類を判断し、音の種類に対応した特性を有するフィルタを決定し、決定したフィルタを選択するためのフィルタ選択情報を生成する音声変換制御信号生成部と、
TTSシステムから受け取った合成音声を所与の単位で区切って、所与の単位毎に、フィルタ選択情報に基づき選択したフィルタを用いて、所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行う音声変換部と、
を含むことを特徴とする。
TTSシステムの出力する合成音声の音声変換を行うフィルタ装置であって、
TTSシステムで使用する音声データベースに基づき生成される所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行うための音の種類に応じて特性の異なる複数のフィルタを含むフィルタセットの情報を記憶するフィルタ情報記憶部と、
TTSシステムが、音声合成を行う際の入力文字列に基づいて、合成音声に含まれる音の種類を判断し、音の種類に対応した特性を有するフィルタを決定し、決定したフィルタを選択するためのフィルタ選択情報を生成する音声変換制御信号生成部と、
TTSシステムから受け取った合成音声を所与の単位で区切って、所与の単位毎に、フィルタ選択情報に基づき選択したフィルタを用いて、所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行う音声変換部と、
を含むことを特徴とする。
TTSシステムとはtext to speechシステムの略である。
(5)本発明のフィルタ装置は、
音声変換制御信号生成部は、
音声合成を行う際の入力文字列に基づいて、合成音声を所与の単位で区切るためのタイミングを指示する音区切り位置情報を生成し、
前記音声変換部は、
音区切り位置情報に基づき合成音声を所与の単位で区切ることを特徴とする。
音声変換制御信号生成部は、
音声合成を行う際の入力文字列に基づいて、合成音声を所与の単位で区切るためのタイミングを指示する音区切り位置情報を生成し、
前記音声変換部は、
音区切り位置情報に基づき合成音声を所与の単位で区切ることを特徴とする。
本発明によれば音声合成の入力となる入力文字列に基づき、音声合成と連動させて動的に音区切り位置を判断し、音に応じて使用するフィルタを切り替えることで、精度よい変換を行うことができる。
(6)本発明のフィルタ装置は、
音声変換部が、
時間領域における前記合成音声のパワー値波形情報を周波数領域におけるパワー値波形情報に変換し、フィルタを使用して周波数領域におけるパワー値波の形状を変換した後、再び時間領域のパワー値波形情報に変換して出力することを特徴とする。
音声変換部が、
時間領域における前記合成音声のパワー値波形情報を周波数領域におけるパワー値波形情報に変換し、フィルタを使用して周波数領域におけるパワー値波の形状を変換した後、再び時間領域のパワー値波形情報に変換して出力することを特徴とする。
例えば前記フィルタ情報記憶部が、
前記フィルタ情報として、周波数領域のパワー値を表す波形の形状を所与の特性に従って修正するためのフィルタ情報を記憶し、
音声変換部が、
前記合成音声を所与の単位で(例えば音区切り信号で分割した単位)切り出して周波数領域のパワー値波形情報に変換し、当該パワー値の波形の形状を前記フィルタ情報に従って変換する処理を行うことで、を合成音声の音声変換を行うようにしてもよい。
前記フィルタ情報として、周波数領域のパワー値を表す波形の形状を所与の特性に従って修正するためのフィルタ情報を記憶し、
音声変換部が、
前記合成音声を所与の単位で(例えば音区切り信号で分割した単位)切り出して周波数領域のパワー値波形情報に変換し、当該パワー値の波形の形状を前記フィルタ情報に従って変換する処理を行うことで、を合成音声の音声変換を行うようにしてもよい。
(7)本発明のフィルタ装置は、
前記フィルタ情報記憶部が、
音の種類に応じて設定される第1のホルマント周波数帯域、第2のホルマント周波数帯域、第3のホルマント周波数帯域の少なくとも1つのホルマント周波数帯域におけるパワー値波形の形状を変更するためのフィルタの情報を記憶し、
前記音声変換部が、
時間領域における前記合成音声のパワー値波形情報を周波数領域におけるパワー値波形情報に変換し、第1のホルマント周波数帯域、第2のホルマント周波数帯域、第3のホルマント周波数帯域に対応する少なくとも3つの周波数帯域に分割し、各ホルマント周波数周波数帯域単位で別々にフィルタをかけることを特徴とする。
前記フィルタ情報記憶部が、
音の種類に応じて設定される第1のホルマント周波数帯域、第2のホルマント周波数帯域、第3のホルマント周波数帯域の少なくとも1つのホルマント周波数帯域におけるパワー値波形の形状を変更するためのフィルタの情報を記憶し、
前記音声変換部が、
時間領域における前記合成音声のパワー値波形情報を周波数領域におけるパワー値波形情報に変換し、第1のホルマント周波数帯域、第2のホルマント周波数帯域、第3のホルマント周波数帯域に対応する少なくとも3つの周波数帯域に分割し、各ホルマント周波数周波数帯域単位で別々にフィルタをかけることを特徴とする。
ホルマント周波数とは音声認識の特徴量の一つである。声帯が発するパルス的な音がのどや口腔の共振を受けて声になる際に、周波数領域において、声のスペクトラム上に複数のエネルギーが集中する部分が現れる。このエネルギーが集中している部分をホルマントと呼び、最も振幅が大きな部分の周波数をホルマント周波数と呼びます。そしてホルマント周波数の低い方から順に第1ホルマント、第2ホルマントと呼ぶ。
母音の場合には第1番目と第2番目のピーク、すなわち第1ホルマント、第2ホルマントの位置によってその母音が特徴づけられるという性質があるので、この性質を利用して母音のフィルタを生成することで、より精度の高い音声認識を行うことができる。
第1のホルマント周波数帯域、第2のホルマント周波数帯域、第3のホルマント周波数帯域は、音毎にことなるので、例えば各母音に対応した第1のホルマント周波数帯域、第2のホルマント周波数帯域、第3のホルマント周波数帯域の各周波数帯域に使用するホルマント周波数帯域別フィルタを用意し、各音に含まれる母音に応じて対応するホルマント周波数帯域別フィルタを使用するようにしてもよい。
そしてホルマント周波数帯域別にフィルタをかける処理を行ったあと、周波数領域で結合し、パワー値波形(パワースペクトル)がなめらかな形になるように整形処理したあと、時間領域に再変換するようにしてもよい。
なお周波数分割は3分割に限られず、第3のホルマント周波数のさらに高調波の領域を分割して、4以上の周波数領域を設け、4以上の周波数領域に対応するフィルタを用意するようにしてもよい。
(8)本発明のフィルタ装置は、
前記フィルタ情報記憶部が、
音の種類に応じて設定されるホルマント周波数の各周波数帯域におけるパワー値波形について、パワー値を強調または減衰させる変換、各周波数帯域内のホルマント周波数のピークを移動させる変換の少なくとも1つを行うためのフィルタ情報を記憶することを特徴とする。
前記フィルタ情報記憶部が、
音の種類に応じて設定されるホルマント周波数の各周波数帯域におけるパワー値波形について、パワー値を強調または減衰させる変換、各周波数帯域内のホルマント周波数のピークを移動させる変換の少なくとも1つを行うためのフィルタ情報を記憶することを特徴とする。
フィルタ情報記憶部が、音の種類に応じて設定される第1のホルマント周波数帯域、第2のホルマント周波数帯域、第3のホルマント周波数帯域の少なくとも1つのホルマント周波数帯域におけるパワー値波形について、パワー値を強調または減衰させる変換、各周波数帯域内のホルマント周波数のピークを移動させる変換の少なくとも1つを行うためのフィルタ情報を記憶するようにしてもよい。
音声変換部は、第1のホルマント周波数帯域、第2のホルマント周波数帯域、第3のホルマント周波数帯域を含む少なくとも3つの周波数帯域のすくなとも1つのパワー値波形について、パワー値を強調または減衰させる変換、各周波数帯域内のホルマント周波数のピークを移動させる変換の少なくとも1つを行う。
(9)本発明のフィルタ装置は、
前記フィルタ情報記憶部が、
日本語の合成音声の母音に対応して母音別に特性の異なるフィルタを含むフィルタセットの情報を記憶するフィルタ情報記憶部と、
前記音声変換制御信号生成部が、
音声合成を行う際の入力文字列に基づいて、合成音声に含まれる母音を判断し、母音に対応付けられたフィルタを選択するためのフィルタ選択情報を生成することを特徴とする。
前記フィルタ情報記憶部が、
日本語の合成音声の母音に対応して母音別に特性の異なるフィルタを含むフィルタセットの情報を記憶するフィルタ情報記憶部と、
前記音声変換制御信号生成部が、
音声合成を行う際の入力文字列に基づいて、合成音声に含まれる母音を判断し、母音に対応付けられたフィルタを選択するためのフィルタ選択情報を生成することを特徴とする。
たとえば仮想キャラクタ1名分の音声変換フィルタセットには、日本語の母音(アイウエオ)に対応する少なくとも5種類の特性の異なるフィルタを含む。
(10)本発明のフィルタ装置は、
前記フィルタ情報記憶部が、
所与のキャラクタの合成音声を他のキャラクタの音声または所与のキャラクタの声質の異なる音声の少なくとも1つを含む複数の音声へ変更するための複数フィルタセット情報を記憶し、
前記音声変換部が、
フィルタセット指定情報によって指定されたフィルタセットからフィルタを選択して、所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行うことを特徴とする。
前記フィルタ情報記憶部が、
所与のキャラクタの合成音声を他のキャラクタの音声または所与のキャラクタの声質の異なる音声の少なくとも1つを含む複数の音声へ変更するための複数フィルタセット情報を記憶し、
前記音声変換部が、
フィルタセット指定情報によって指定されたフィルタセットからフィルタを選択して、所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行うことを特徴とする。
本発明によれば所与の1のキャラクタの音声データベースに基づき生成された合成音声を他のキャラクタの音声または所与のキャラクタの声質の異なる音声を含む複数の音声に変換することができる。
(11)本発明のフィルタ装置は、
前記TTSシステムは、コンキャティネイティブ型もしくはコーパスベース型TTSシステムであることを特徴とする。
前記TTSシステムは、コンキャティネイティブ型もしくはコーパスベース型TTSシステムであることを特徴とする。
コンキャティネイティブ型もしくはコーパスベース型TTSシステムは、どちらも実在の人物の発音を録音しこれを音に分解しデータベース化した後に、所望の音声として再合成して発声するシステムである。ただし、コンキャティネイティブ型が、場合によっては音節単位といった比較的少ない数の音データを元にその組み合わせから音声を合成するのに対して、コーパスベース型では、大容量の語彙に対応した非常に多数の音データをもち、その中から発声させるべき文章に最適な音データを取り出して組み合わせる点が異なっている。
本発明によれば、単一のCV音源(「オリジナルボイス」)を用いたコンキャティネイティブ型もしくはコーパスベース型TTSシステム用いて、異なるCV音源(「オリジナルボイス」とは異なる仮想人物のボイス)として音声データを生成する装置を提供することができる。
以下、本発明の好適な実施の形態について図面を用いて詳細に説明する。なお以下に説明する実施の形態は、特許請求の範囲に記載された本発明の内容を不当に限定するものではない。また以下で説明される構成の全てが本発明の必須構成要件であるとは限らない。
図1は、本実施の形態の音声合成システムの機能ブロック図の一例である。
本実施の形態の音声合成システム10は、入力文字列を受け取り入力文字列に対応する音声を合成する音声合成システムである。
本実施の形態の音声合成システム10は、音声データベース40を含む。音声データベース40は、所与のキャラクタの音声情報が、音声合成用の所与の要素単位の音情報として記憶されている。
音声合成用の所与の要素とは、音又は音素又はその他のプリミティブである。
ここでの音素とは、音声合成ソフトウエアが合成の最小単位として取り扱うひとまとまりの音データ情報であって、録音された実音声を分析・分解して得られたものである。ソフトウエア構成により単語、音節、単音、音韻学上の音素など多くのレベルがありえる。
音声合成ソフトウエア言語によって異なるが、通例、ひとり分のキャラクタを表す集合として、数百から数十万ほどの音素データをデータベース中に保持している。
また音情報とは、多くは時間領域におけるパワー値の経時的な遷移を示す波形情報であるが、周波数領域におけるパワー値の変化波形情報とし、これをもとに合成し、経時的な波形に変換してもよい。
本実施の形態の音声合成システム10は、音声合成部50を含む。音声合成部50は、受け取った入力文字列52に基づき音声データベース40に記憶されている音情報42を読み出して、入力文字列52に対応した所与のキャラクタの合成音声を生成する処理を行う。
音声合成部50は、音声変換制御信号生成部60を含む。音声変換制御信号生成部60は、音声合成を行う際の入力文字列52に基づいて、合成音声に含まれる音の種類を判断し、音の種類に対応した特性を有するフィルタを決定し、決定したフィルタを選択するためのフィルタ選択情報62を生成する処理を行う。
本実施の形態の音声合成システム10は、フィルタ情報記憶部30を含む。フィルタ情報記憶部30は、所与のキャラクタの合成音声54の音質の変更または他のキャラクタの音声への変更を行うための、音の種類に応じて特性の異なる複数のフィルタを含むフィルタセットの情報を記憶する。
フィルタとは、合成音声のテキスト情報(語句)は変えずに、所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行うためのデジタルフィルタであり、具体的には、合成音声に対応した時間領域におけるパワー値の計経時的な遷移を示す波形や周波数領域におけるパワー値の変化波を変換するための関数として与えることができる。
なお音の種類に応じて特性の異なる複数のフィルタは例えば所与のフィルタ関数のパラメータを変更することにより実現することができる。
本実施の形態の音声合成システム10は、音声変換部20を含む。音声変換部20は、合成音声54を所与の単位で区切って、所与の単位毎に、フィルタ選択情報62に基づき選択したフィルタを用いて、所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行う。
音声変換制御信号生成部60が、音声合成時の入力文字列52に対する音の合成の進行に合わせて、合成音声を所与の単位で区切るためのタイミングを指示する音区切り位置情報64及び前記フィルタ選択情報62を生成して出力し、音声変換部20が、前記音区切り位置情報64に基づき、時系列に連続した合成音声にかけるフィルタの切り替えタイミングを判定して、前記フィルタ選択情報62に基づき選択したフィルタに切り替えるようにしてもよい。
本実施の形態によれば、音声データベースの再構築といった手間のかかる実音源処理なしにTTSシステムに対して発音音声のバリエーションを付加することが可能になった。
また本実施の形態によれば、合成音声54に対応する入力文字列52が予めわかっているので音声合成後の音を解析してどのような発音データであるのか解析する行程が不要であるため処置時間の短縮化をはかることができ、音声解析の部分の誤認識が無くなることにより変換精度の向上を図ることができる。
しかも音声変換の対象が不特定多数の人の音声ではなく、音声データベース40に記憶されている音声なので、予め当該音声に対応したフィルタを用意しておくことが可能で、より高精度の音声変換を行うことが可能である。
このように本実施の形態によれば音声合成の入力となる入力文字列に基づき、音声合成と連動させて動的に適用するフィルタを選択・変更することで、精度よい変換を行うことができる。
また本実施の形態によれば、音声変換制御信号生成部60を音声合成部50の一部として持たせるので、音声合成処理の中で音声変換制御信号(フィルタ選択情報62、音区切り位置情報64等)を生成することができるので処理や回路の重複を防ぎ効率的に処理することができる。
本実施の形態の音声合成システム10は、狭義のTTSシステム70とフィルタ装置80により構成することもできる。
フィルタ装置80は音声変換部20、フィルタ情報記憶部30として機能する。
ここにおいて狭義のTTSシステム70は、音声合成部50と音声データベース40として機能する。例えば実在の人物の発音を録音しこれを音に分解しデータベース化した後に、所望の音声として再合成して発声するコンキャティネイティブ型もしくはコーパスベース型TTSシステムを用いてもよい。
なお音声合成システム10を1チップのICとして実装してもよいし、狭義のTTSシステム70とフィルタ装置80をそれぞれ1チップのICとして実装してもよいし、音声データベース40を外部メモリとして実装してもよい。
図2は、本実施の形態の音声合成システムの他の構成(フィルタ装置を含む)の機能ブロック図の一例である。音声データベース40、音声合成部50’、音声変換制御信号生成部60’、音声変換部20の基本的な機能は図1の音声合成システムと同様であるので説明を省略する。
図2の音声合成システム12が、図1と異なる点は、音声変換制御信号生成部60’が音声合成部50’の一部としてではなく、音声合成部50’とは別個に音声変換制御信号生成部60’が設けられている点である。
このような構成をとることにより、既存のTTSシステム72(音声合成部50’と音声データベース40を含む)に、フィルタ装置82(本発明の音声変換制御信号生成部60’とフィルタ情報記憶部30と音声変換部20を含む)を適用することで実現可能である。既存のTTSシステムにたいして汎用的に適用可能なフィルタ装置を実現することができる。
なお音声変換制御信号生成部60’は音声合成の処理の一部をシミュレートして、音声変換制御信号(フィルタ選択情報62、音区切り位置情報64等)を生成するようにしてもよい。
本実施の形態のフィルタ装置は、音声変換制御信号生成部60’を含む。音声変換制御信号生成部60’は、狭義のTTSシステム72が音声合成を行う際の音声合成時の入力文字列52に対する音の合成の進行に合わせて、合成音声を所与の単位で区切るためのタイミングを指示する音区切り位置情報64及びフィルタ選択情報62を生成して出力する。
本実施の形態のフィルタ装置は、フィルタ情報記憶部30を含む。フィルタ情報記憶部30は、狭義のTTSシステム72で使用する音声データベース40に基づき生成される所与のキャラクタの合成音声54の音質の変更または他のキャラクタの音声への変更を行うための音の種類に応じて特性の異なる複数のフィルタを含むフィルタセットの情報を記憶する。
本実施の形態のフィルタ装置は、音声変換部20を含む。音声変換部20は、狭義のTTSシステム72から受け取った合成音声54を所与の単位で区切って、所与の単位毎に、フィルタ選択情報に基づき選択したフィルタを用いて、所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行う。
音声変換制御信号生成部60’は、音声合成を行う際の入力文字列52に基づいて、合成音声を所与の単位で区切るためのタイミングを指示する音区切り位置情報64を生成し、音声変換部20は、音区切り位置情報64に基づき合成音声を所与の単位で区切るようにしてもよい。
本実施の形態によれば音声合成の入力となる入力文字列54に基づき、音声合成と連動させて動的に音区切り位置を判断し、音に応じて使用するフィルタを切り替えることで、精度よい変換を行うことができる。
また音声変換部20が、時間領域における前記合成音声のパワー値波形情報を周波数領域におけるパワー値波形情報に変換し、フィルタを使用して周波数領域におけるパワー値波の形状を変換した後、再び時間領域のパワー値波形情報に変換してを出力するようにしてもよい。
またフィルタ情報記憶部30が、音の種類に応じて設定される第1のホルマント周波数帯域、第2のホルマント周波数帯域、第3のホルマント周波数帯域の少なくとも1つのホルマント周波数帯域におけるパワー値波形の形状を変更するためのフィルタの情報を記憶し、音声変換部20が、時間領域における前記合成音声のパワー値波形情報を周波数領域におけるパワー値波形情報に変換し、第1のホルマント周波数帯域、第2のホルマント周波数帯域、第3のホルマント周波数帯域に対応する少なくとも3つの周波数帯域に分割し、各ホルマント周波数周波数帯域単位で別々にフィルタをかけるようにしてもよい。
またフィルタ情報記憶部30が、音の種類に応じて設定されるホルマント周波数の各周波数帯域におけるパワー値波形について、パワー値を強調または減衰させる変換、各周波数帯域内のホルマント周波数のピークを移動させる変換の少なくとも1つを行うためのフィルタ情報を記憶するようにしてもよい。
またフィルタ情報記憶部30が、日本語の合成音声の母音に対応して母音別に特性の異なるフィルタを含むフィルタセットの情報を記憶し、音声変換制御信号生成部60’が、音声合成を行う際の入力文字列52に基づいて、合成音声に含まれる母音を判断し、母音に対応付けられたフィルタを選択するためのフィルタ選択情報62を生成するようにしてもよい。
またフィルタ情報記憶部30が、所与のキャラクタの合成音声54を他のキャラクタの音声または所与のキャラクタの声質の異なる音声の少なくとも1つを含む複数の音声へ変更するための複数フィルタセット情報を記憶し、音声変換部20が、フィルタセット指定情報によって指定されたフィルタセットからフィルタを選択して、所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行うようにしてもよい。
図3は、本実施の形態の音声合成装置の一例について説明するための図である。
狭義のTTSシステム170は、例えば図1に示す音声合成部50と音声データベース40として機能し、コンキャティネイティブ型もしくはコーパスベース型TTSシステムとして構成されている。狭義のTTSシステム170は、入力文字列52を受け取り、入力文字列52に基づきテキストに対応した音声データ54(たとえばPCMフォーマットの音声データ)を生成し出力する。
また狭義のTTSシステム170は、図1に示す音声変換制御信号生成部60として機能し、フィルタ選択情報62と音区切り位置情報64を生成して出力する。
発音適合型デジタルフィルタ装置120は、図1の音声変換部20として機能する。
発音適合型デジタルフィルタ装置120は、狭義のTTSシステム170が出力する音声データ54、フィルタ選択情報62、音区切り位置情報64を受け取る。そして音区切り位置で音声データを時系列な区間に分割し、各区間毎にフィルタ選択情報62に基づきフィルタセットデータベース130から対応するフィルタを選択して読み出し、読み出したフィルタに基づき各区間の音声データの音声変換を行う。
フルセットデータベース130は、図1のフィルタ情報記憶部30として機能する。フルセットデータベース130は、所与のキャラクタの合成音声を他の複数のキャラクタの音声へ変換するための複数フィルタセット情報132−1、132−2、・・・、132−nを含む。
各フィルタセットは、日本語の合成音声の母音に対応して母音別に特性の異なるフィルタ(たとえば「あ」フィルタ134−1、「い」フィルタ135−1、「う」フィルタ136−1、「え」フィルタ137−1、「お」フィルタ138−1等)を含む。
このように本実施の形態では、仮想キャラクタ1名分の音声変換フィルタセット132−1、134−2、・・・、132−nには、日本語の母音(アイウエオ)に対応する少なくとも5種類の特性の異なるフィルタ134−1、135−2、136−1、137−1、138−1を含む。
またフィルタセットデータベース記憶部130が、所与のキャラクタの合成音声を他のキャラクタの音声または所与のキャラクタの声質の異なる音声の少なくとも1つを含む複数の音声へ変更するための複数フィルタセット情報132−1、132−2、・・・132−nを記憶し、発音適合型デジタルフィルタ装置120が、フィルタセット指定情報によって指定されたフィルタセットからフィルタを選択して、所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行うようにしてもよい。
本実施の形態によれば、所与の1のキャラクタの音声データベースに基づき生成された合成音声を他のキャラクタの音声または所与のキャラクタの声質の異なる音声を含む複数の音声に変換することができる。
図4は、TTSシステムの音声合成に連動させて、フィルタを動的に適用する構成について説明するための図である。
本実施の携帯のTTSシステムでは、音声合成時の入力文字列に対する音の合成の進行に合わせて、タイミング信号(音区切り位置情報)及びフィルタ選択情報を生成して出力する。
TTSシステムは入力文字列の各音、各音をさらに小さな単位に分割した音素、またはそれ以外の要素やそれよりさらに小さい要素に対応する音の時間領域波形データを音声データベースから読み出して、接続して入力文字列に対応する音声を合成する。
そしてTTSシステムは各音や要素を合成する際の接続位置を指示するためのタイミング信号(音区切り位置情報)220を出力する。
またTTSシステムは各音や要素を合成する際に各音や要素に応じたフィルタを選択するためのフィルタ選択信号230を生成して出力する。
例えばTTSシステムの入力文字列が「あいしてる」とすると、TTSシステムは、音声データベースから「あ」(210)、「い」(212)、「し」(214)、「て」(216)、「る」(218)の各音に対応する音の時間領域波形データを音声データベースから読み出して、接続して入力文字列に対応する音声を合成する。
そしてTTSシステムは音声データベースから読み出した各音「あ」(210)、「い」(212)、「し」(214)、「て」(216)、「る」(218)の波形データを合成する際の接続位置を指示するためのタイミング信号220、222、224、226、228を出力する。
なお各音は実際には連続しており、明確な区切りはつけられないので、波形データを合成する際の接続位置に限られず、あらたな音の頭位置でタイミング信号を出力するようにしてもよい。
またTTSシステムは各音「あ」(210)、「い」(212)、「し」(214)、「て」(216)、「る」(218)に応じたフィルタを選択するための「あ」用フィルタ選択信号230、「い」用フィルタ選択信号232、「う」用フィルタ選択信号234、「え」用フィルタ選択信号236、「お」用フィルタ選択信号236を生成して出力する。
なおここでは説明を簡単にするために各音に対応して音を分割する場合を例にとり説明したがこれに限られない。音声データベースが各音をさらに小さな単位に分割した音素、またはそれ以外の要素やそれよりさらに小さい要素単位の時間領域波形データを記憶しており、音声合成の際にその要素単位で時間領域波形データを音声データベースから読み出して、接続して入力文字列に対応する音声を合成する構成でもよい。
図5(A)(B)は、音声変換の具体例について説明するための図である。
本実施の形態では、音声変換部が、時間領域における前記合成音声のパワー値波形データを周波数領域におけるパワー値波形データに変換し、フィルタを使用してパワー値の波形の形状をフィルタ用の関数等で変換した後、再び時間領域のパワー値波形データに変換して出力する。
本実施の形態では、日本語の合成音声の母音に対応して母音別に特性の異なるフィルタ用意する。さらに各母音について当該母音に応じて設定される第1のホルマント周波数帯域、第2のホルマント周波数帯域、第3のホルマント周波数帯域の少なくとも1つのホルマント周波数帯域におけるパワー値波形の形状を変換するためのフィルタの情報(例えばフィルタ用の関数とパラメータ等)を記憶し、当該ホルマント周波数帯域毎に用意されたフィルタを用いて周波数帯域のパワー値波形を変換する。
ホルマント周波数とは音声認識の特徴量の一つである。声帯が発するパルス的な音がのどや口腔の共振を受けて声になる際に、周波数領域において、声のスペクトラム上に複数のエネルギーが集中する部分が現れる。このエネルギーが集中している部分をホルマントと呼び、最も振幅が大きな部分の周波数をホルマント周波数と呼びます。そしてホルマント周波数の低い方から順に第1ホルマント、第2ホルマントと呼ぶ。
母音の場合には第1番目と第2番目のピーク、すなわち第1ホルマント、第2ホルマントの位置によってその母音が特徴づけられるという性質があるので、この性質を利用して母音のフィルタを生成することで、より精度の高い音声認識を行うことができる。
そしてホルマント周波数帯域別にフィルタをかける処理を行ったあと、周波数領域で結合し、パワー値波形(パワースペクトル)がなめらかな形になるように整形処理したあと、時間領域に再変換するようにしてもよい。
なお周波数分割は3分割に限られず、第3のホルマント周波数のさらに高調波の領域を分割して、4以上の周波数領域を設け、4以上の周波数領域に対応するフィルタを用意するようにしてもよい。
図5(A)の310は、「え」に対応する時間領域における前記合成音声のパワー値波形データを周波数領域におけるパワースペクトルに変換したグラフである。(操作を明瞭に示すため、スペクトルを包絡線で代表させてある。)310では、第1のホルマント周波数320が「330Hz」であり、第2のホルマント周波数330が「1120Hz」であり、第3のホルマント周波数340が「2350Hz」である。そして第1のホルマント周波数320「330Hz」と第2のホルマント周波数330「1120Hz」の間及び第2のホルマント周波数330「1120Hz」と第3のホルマント周波数340「2350Hz」の間に第1の周波数分割位置(周波数「725Hz」の位置)及び第2の周波数分割位置(周波数「1735Hz」の位置)を設け、周波数帯域を第1の周波数分割位置と第2の周波数分割位置で区切って、第1のホルマント周波数320に対応した第1のホルマント周波数帯域322、第2のホルマント周波数330に対応した第2のホルマント周波数帯域332、第3のホルマント周波数340に対応した第3のホルマント周波数帯域342を設定する。
そして各ホルマント周波数帯域毎に、パワー値波形を変換するためのフィルタを用意し、各ホルマント周波数帯域毎にパワー値波形の修正(変換)を行う。
図5(A)では第1のホルマント周波数領域のパワー値のピークが原音では「330Hz」であるが(320参照)、変換音では「331Hz」となっている(320’参照)。
同様に第2のホルマント周波数領域のパワー値のピークが原音では「1120Hz」であるが(330参照)、変換音では「1123Hz」となっている(330’参照)。
同様に第3のホルマント周波数領域のパワー値のピークが原音では「2350Hz」であるが(340参照)、変換音では「2357Hz」となっている(340’参照)。
このようにフィルタ処理(原音にフィルタをかける処理)によってある母音(ここでは「え」)の各ホルマント周波数領域322、332、342におけるパワー値波形のピーク位置をシフトさせるようにしてもよい。
また314に示すように、フィルタ処理(原音にフィルタをかける処理)によってある母音のあるホルマント周波数帯域における原音のパワー値を強調する変換を行うようにしてもよい。
図5(B)の410は、「い」に対応する時間領域における前記合成音声のパワー値波形データを周波数領域におけるパワースペクトルに変換したグラフである。(操作を明瞭に示すため、スペクトルを包絡線で代表させてある。)410では、第1のホルマント周波数420が「310Hz」であり、第2のホルマント周波数430が「2300Hz」であり、第3のホルマント周波数440が「3080Hz」である。そして第1のホルマント周波数420「310Hz」と第2のホルマント周波数430「2300Hz」の間及び第2のホルマント周波数430「2300Hz」と第3のホルマント周波数340「3080Hz」の間に第1の周波数分割位置(周波数「1315Hz」の位置)及び第2の周波数分割位置(周波数「2690Hz」の位置)を設け、周波数帯域を第1の周波数分割位置と第2の周波数分割位置で区切って、第1のホルマント周波数420に対応した第1のホルマント周波数帯域422、第2のホルマント周波数430に対応した第2のホルマント周波数帯域432、第3のホルマント周波数440に対応した第3のホルマント周波数帯域442を設定する。
そして各ホルマント周波数帯域毎に、パワー値波形を変換するためのフィルタを用意し、各ホルマント周波数帯域毎にパワー値波形の修正(変換)を行う。
図5(B)では第1のホルマント周波数領域のパワー値のピークが原音では「310Hz」であるが(420参照)、変換音では「311Hz」となっている(420’参照)。
同様に第2のホルマント周波数領域のパワー値のピークが原音では「2300Hz」であるが(430参照)、変換音では「2307Hz」となっている(430’参照)。
同様に第3のホルマント周波数領域のパワー値のピークが原音では「3080Hz」であるが(440参照)、変換音では「3089Hz」となっている(440’参照)。
このようにフィルタ処理(原音にフィルタをかける処理)によってある母音(ここでは「い」)の各ホルマント周波数領域422、432、442におけるパワー値波形のピーク位置をシフトさせるようにしてもよい。
また414に示すように、フィルタ処理(原音にフィルタをかける処理)によってある母音のあるホルマント周波数帯域における原音のパワー値を強調する変換を行うようにしてもよい。
なお、本発明は本実施形態に限定されず、本発明の要旨の範囲内で種々の変形実施が可能である。
例えば上記実施の形態ではアイウエオの5母音中心の日本語を念頭に5つのフィルタを適用する構成を例にとり説明したが、これに限られない。子音+母音の組み合わせにより、より細かくフィルタを設定して適用する構成でもよい。
また日本語以外の言語に対するTTSシステムに対しても適用可能である。この場合日本語以外の言語に対応したフィルタを設定して適用することで実現することができる。
1 音声合成システム、12 音声合成システム、20 音声変換部、30 フィルタ情報記憶部、40 音声データベース、50 音声合成部、52 入力文字列、54 合成音声、60 音声変換制御信号生成部、62 フィルタ選択信号、64 音区切り位置情報、70 TTSシステム、72 TTSシステム、80 フィルタ装置、82 フィルタ装置
Claims (12)
- 入力文字列を受け取り入力文字列に対応する音声を合成する音声合成システムであって、
所与のキャラクタの音声情報が、音声合成用の所与の要素単位の音情報として記憶されている音声データベースと、
受け取った入力文字列に基づき音声データベースに記憶されている音情報を読み出して、入力文字列に対応した所与のキャラクタの合成音声を生成する音声合成部と、
所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行うための、音の種類に応じて特性の異なる複数のフィルタを含むフィルタセットの情報を記憶するフィルタ情報記憶部と、
音声合成を行う際の入力文字列に基づいて、合成音声に含まれる音の種類を判断し、音の種類に対応した特性を有するフィルタを決定し、決定したフィルタを選択するためのフィルタ選択情報を生成する音声変換制御信号生成部と、
合成音声を所与の単位で区切って、所与の単位毎に、フィルタ選択情報に基づき選択したフィルタを用いて、所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行う音声変換部と、
を含むことを特徴とする音声合成システム。 - 入力文字列を受け取り入力文字列に対応する音声を合成する音声合成システムであって、
所与のキャラクタの音声情報が、音声合成用の所与の要素単位の音情報として記憶されている音声データベースと、
受け取った入力文字列に基づき音声データベースに記憶されている音情報を読み出して、入力文字列に対応した所与のキャラクタの合成音声を生成する音声合成部と、
所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行うための、音の種類に応じて特性の異なる複数のフィルタを含むフィルタセットの情報を記憶するフィルタ情報記憶部と、
音声合成を行う際の入力文字列に基づいて、合成音声に含まれる音の種類を判断し、音の種類に対応した特性を有するフィルタを決定し、決定したフィルタを選択するためのフィルタ選択情報を生成する音声変換制御信号生成部と、
フィルタセット情報に基づき、所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行う音声変換部と、を含み、
前記音声合成部は、
音声合成を行う際の入力文字列に基づいて、合成音声に含まれる音の種類を判断し、音の種類に対応した特性を有するフィルタを決定し、決定したフィルタを選択するためのフィルタ選択情報を生成する音声変換制御信号生成部を含み、
前記音声変換部は、
合成音声を所与の単位で区切って、所与の単位毎に、フィルタ選択情報に基づき選択したフィルタを用いて音声変換を行う特徴とする音声合成システム。 - 請求項2において、
前記音声変換制御信号生成部が、
音声合成時の入力文字列に対する音の合成の進行に合わせて、合成音声を所与の単位で区切るためのタイミングを指示する音区切り位置情報及び前記フィルタ選択情報を生成して出力し、
音声変換部が、
前記音区切り位置情報に基づき、時系列に連続した合成音声にかけるフィルタの切り替えタイミングを判定して、前記フィルタ選択情報に基づき選択したフィルタに切り替えることを特徴とする音声合成システム。 - TTSシステムの出力する合成音声の音声変換を行うフィルタ装置であって、
TTSシステムで使用する音声データベースに基づき生成される所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行うための音の種類に応じて特性の異なる複数のフィルタを含むフィルタセットの情報を記憶するフィルタ情報記憶部と、
TTSシステムが、音声合成を行う際の入力文字列に基づいて、合成音声に含まれる音の種類を判断し、音の種類に対応した特性を有するフィルタを決定し、決定したフィルタを選択するためのフィルタ選択情報を生成する音声変換制御信号生成部と、
TTSシステムから受け取った合成音声を所与の単位で区切って、所与の単位毎に、フィルタ選択情報に基づき選択したフィルタを用いて、所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行う音声変換部と、
を含むことを特徴とするフィルタ装置。 - 請求項4において、
音声変換制御信号生成部は、
音声合成を行う際の入力文字列に基づいて、合成音声を所与の単位で区切るためのタイミングを指示する音区切り位置情報を生成し、
前記音声変換部は、
音区切り位置情報に基づき合成音声を所与の単位で区切ることを特徴とするフィルタ装置。 - 請求項4乃至5のいずれかにおいて、
音声変換部が、
時間領域における前記合成音声のパワー値波形情報を周波数領域におけるパワー値波形情報に変換し、フィルタを使用して周波数領域におけるパワー値波の形状を変換した後、再び時間領域のパワー値波形情報に変換して出力することを特徴とするフィルタ装置。 - 請求項4乃至6のいずれかにおいて、
前記フィルタ情報記憶部が、
音の種類に応じて設定される第1のホルマント周波数帯域、第2のホルマント周波数帯域、第3のホルマント周波数帯域の少なくとも1つのホルマント周波数帯域におけるパワー値波形の形状を変更するためのフィルタの情報を記憶し、
前記音声変換部が、
時間領域における前記合成音声のパワー値波形情報を周波数領域におけるパワー値波形情報に変換し、第1のホルマント周波数帯域、第2のホルマント周波数帯域、第3のホルマント周波数帯域に対応する少なくとも3つの周波数帯域に分割し、各ホルマント周波数周波数帯域単位で別々にフィルタをかけることを特徴とするフィルタ装置。 - 請求項4乃至7のいずれかにおいて、
前記フィルタ情報記憶部が、
音の種類に応じて設定されるホルマント周波数の各周波数帯域におけるパワー値波形について、パワー値を強調または減衰させる変換、各周波数帯域内のホルマント周波数のピークを移動させる変換の少なくとも1つを行うためのフィルタ情報を記憶することを特徴とするフィルタ装置。 - 請求項4乃至8のいずれかにおいて、
前記フィルタ情報記憶部が、
日本語の合成音声の母音に対応して母音別に特性の異なるフィルタを含むフィルタセットの情報を記憶するフィルタ情報記憶部と、
前記音声変換制御信号生成部が、
音声合成を行う際の入力文字列に基づいて、合成音声に含まれる母音を判断し、母音に対応付けられたフィルタを選択するためのフィルタ選択情報を生成することを特徴とするフィルタ装置。 - 請求項4乃至9のいずれかにおいて、
前記フィルタ情報記憶部が、
所与のキャラクタの合成音声を他のキャラクタの音声または所与のキャラクタの声質の異なる音声の少なくとも1つを含む複数の音声へ変更するための複数フィルタセット情報を記憶し、
前記音声変換部が、
フィルタセット指定情報によって指定されたフィルタセットからフィルタを選択して、所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行うことを特徴とするフィルタ装置。 - 請求項4乃至10のいずれかにおいて、
前記TTSシステムは、コンキャティネイティブ型もしくはコーパスベース型TTSシステムであることを特徴とするフィルタ装置。 - TTSシステムの出力する合成音声の音声変換を行う制御方法であって、
TTSシステムで使用する音声データベースに基づき生成される所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行うための音の種類に応じて特性の異なる複数のフィルタを含むフィルタセットの情報を記憶させるステップと、
TTSシステムが、音声合成を行う際の入力文字列に基づいて、合成音声に含まれる音の種類を判断し、音の種類に対応した特性を有するフィルタを決定し、決定したフィルタを選択するためのフィルタ選択情報を生成するステップと、
TTSシステムから受け取った合成音声を所与の単位で区切って、所与の単位毎に、フィルタ選択情報に基づき選択したフィルタを用いて、所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行うステップと、
を含むことを特徴とする音声変換制御方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006232081A JP2008058379A (ja) | 2006-08-29 | 2006-08-29 | 音声合成システム及びフィルタ装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006232081A JP2008058379A (ja) | 2006-08-29 | 2006-08-29 | 音声合成システム及びフィルタ装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008058379A true JP2008058379A (ja) | 2008-03-13 |
Family
ID=39241232
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006232081A Withdrawn JP2008058379A (ja) | 2006-08-29 | 2006-08-29 | 音声合成システム及びフィルタ装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008058379A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013003470A (ja) * | 2011-06-20 | 2013-01-07 | Toshiba Corp | 音声処理装置、音声処理方法および音声処理方法により作成されたフィルタ |
JP2015212845A (ja) * | 2015-08-24 | 2015-11-26 | 株式会社東芝 | 音声処理装置、音声処理方法および音声処理方法により作成されたフィルタ |
JP2020056996A (ja) * | 2018-08-16 | 2020-04-09 | 國立臺灣科技大學 | 音色選択可能なボイス再生システム、その再生方法、およびコンピュータ読み取り可能な記録媒体 |
-
2006
- 2006-08-29 JP JP2006232081A patent/JP2008058379A/ja not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013003470A (ja) * | 2011-06-20 | 2013-01-07 | Toshiba Corp | 音声処理装置、音声処理方法および音声処理方法により作成されたフィルタ |
JP2015212845A (ja) * | 2015-08-24 | 2015-11-26 | 株式会社東芝 | 音声処理装置、音声処理方法および音声処理方法により作成されたフィルタ |
JP2020056996A (ja) * | 2018-08-16 | 2020-04-09 | 國立臺灣科技大學 | 音色選択可能なボイス再生システム、その再生方法、およびコンピュータ読み取り可能な記録媒体 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5159325B2 (ja) | 音声処理装置及びそのプログラム | |
JPH0833744B2 (ja) | 音声合成装置 | |
US8340967B2 (en) | Speech samples library for text-to-speech and methods and apparatus for generating and using same | |
JPH031200A (ja) | 規則型音声合成装置 | |
US20110046957A1 (en) | System and method for speech synthesis using frequency splicing | |
JP3450237B2 (ja) | 音声合成装置および方法 | |
JP6330069B2 (ja) | 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 | |
JP2008058379A (ja) | 音声合成システム及びフィルタ装置 | |
AU769036B2 (en) | Device and method for digital voice processing | |
US6829577B1 (en) | Generating non-stationary additive noise for addition to synthesized speech | |
JPH01284898A (ja) | 音声合成方法 | |
Sadeque et al. | Bangla text to speech conversion: A syllabic unit selection approach | |
JP3081300B2 (ja) | 残差駆動型音声合成装置 | |
JP3785892B2 (ja) | 音声合成装置及び記録媒体 | |
JPH09179576A (ja) | 音声合成方法 | |
JP2703253B2 (ja) | 音声合成装置 | |
JP2987089B2 (ja) | 音声素片作成方法および音声合成方法とその装置 | |
JPS5880699A (ja) | 音声合成方式 | |
JPH11109992A (ja) | 音声素片データベースの作成方法、音声合成方法、音声素片データベース、音声素片データベース作成装置および音声合成装置 | |
JP2577372B2 (ja) | 音声合成装置および方法 | |
JPH0358100A (ja) | 規則型音声合成装置 | |
JP2809769B2 (ja) | 音声合成装置 | |
JP3967571B2 (ja) | 音源波形生成装置、音声合成装置、音源波形生成方法およびプログラム | |
JPH07152396A (ja) | 音声合成装置 | |
JP2001166787A (ja) | 音声合成装置および自然言語処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080701 |
|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20091110 |