JP2008058379A

JP2008058379A - 音声合成システム及びフィルタ装置

Info

Publication number: JP2008058379A
Application number: JP2006232081A
Authority: JP
Inventors: Masamichi Izumida; 正道泉田
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2006-08-29
Filing date: 2006-08-29
Publication date: 2008-03-13

Abstract

【課題】ＴＴＳシステムにおいて、既存の音声データベースを用いて、声質のことなる合成音声を提供すること。
【解決手段】音声合成システム１０は、音声合成用の音情報が記憶されている音声データベース４０と、受け取った入力文字列に基づき音声データベースに記憶されている音情報を読み出して、入力文字列に対応した合成音声を生成する音声合成部５０と、合成音声の声質の変換を行うためのフィルタ情報を記憶するフィルタ情報記憶部３０と、音声合成を行う際の入力文字列に基づいて、使用するフィルタを選択するためのフィルタ選択情報を生成する音声変換制御信号生成部６０と、合成音声を所与の単位で区切って、所与の単位毎に、フィルタ選択情報に基づき選択したフィルタを用いて、所与のキャラクタの合成音声を他のキャラクタの音声への変更を行う音声変換部５０と、を含む。
【選択図】図１

Description

本発明は、音声合成システム及びフィルタ装置に関する。

パラメトリック型ＴＴＳシステムでは（発声モデルを使って音声を合成する）、従来から、発声パラメータを操作することで、複数の仮想的な人に相当するようなボイスを合成しわけるようなことが行われていた。

またコンキャティネイティブ型もしくはコーパスベース型ＴＴＳシステムでは、実在の人物の発音を録音し、これを音の要素に分解、データベース化した後に、当該データベースの音の要素を合成して所望の音声を生成することが行われていた。
特開２００２−３２８６９５号公報

一般にパラメトリック型ＴＴＳシステムではロボット的な発声となるため、言語としての意味はとれても違和感を感じる人がおおい。これに対し、コンキャティネイティブ型もしくはコーパスベース型ＴＴＳシステムでは、コンピュータによる合成音声とはいっても実在する人の発音をベースとしているので、違和感が少なく一般家電製品等に応用しやすい。

しかし多くのキャラクタ、例えば異なる年齢や異なる声のタイプをそろえていくことは実話者の選定から始まり、録音、データベース化の作業が必要であり、実在する人の音声データベース化は録音と分類データベース化に非常に時間と手間がかかるという問題点があった。

本発明は、以上のような技術的課題に鑑みてなされたものであり、その目的とするところは、ＴＴＳシステムにおいて、既存の音声データベースを用いて、声質のことなる合成音声を提供することである。

（１）本発明は、
入力文字列を受け取り入力文字列に対応する音声を合成する音声合成システムであって、
所与のキャラクタの音声情報が、音声合成用の所与の要素単位の音情報として記憶されている音声データベースと、
受け取った入力文字列に基づき音声データベースに記憶されている音情報を読み出して、入力文字列に対応した所与のキャラクタの合成音声を生成する音声合成部と、
所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行うための、音の種類に応じて特性の異なる複数のフィルタを含むフィルタセットの情報を記憶するフィルタ情報記憶部と、
音声合成を行う際の入力文字列に基づいて、合成音声に含まれる音の種類を判断し、音の種類に対応した特性を有するフィルタを決定し、決定したフィルタを選択するためのフィルタ選択情報を生成する音声変換制御信号生成部と、
合成音声を所与の単位で区切って、所与の単位毎に、フィルタ選択情報に基づき選択したフィルタを用いて、所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行う音声変換部と、
を含むことを特徴とする。

音声合成用の所与の要素とは、音又は音素又はその他のプリミティブである。

ここでの音素とは、音声合成ソフトウエアが合成の最小単位として取り扱うひとまとまりの音データ情報であって、録音された実音声を分析・分解して得られたものである。ソフトウエア構成により単語、音節、単音、音韻学上の音素など多くのレベルがありえる。

音声合成ソフトウエアによって異なるが、通例、ひとり分のキャラクタを表す集合として、数百から数十万ほどの音素データをデータベース中に保持している。

日本語の音素では例えば、幅広く音素を設定すれば、現代の日本語の音素は最低、五十音表にそって以下のようなものを挙げることができる。
母音＝/a/ /i/ /u/ /e/ /o/
子音＝/k/ /s/ /t/ /n/ /h/ /m/ /j/ /r/ /w/ /g/ /z/ /d/ /b/ /p/

また音情報とは、多くは時間領域におけるパワー値の経時的な遷移を示す波形情報であるが、周波数領域におけるパワー値の変化波形情報とし、これをもとに合成し、経時的な波形に変換してもよい。

フィルタとは、合成音声のテキスト情報（語句）は変えずに、所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行うためのデジタルフィルタであり、具体的には、合成音声に対応した時間領域におけるパワー値の計経時的な遷移を示す波形や周波数領域におけるパワー値の変化波を変換するための関数として与えることができる。

なお音の種類に応じて特性の異なる複数のフィルタは例えば所与のフィルタ関数のパラメータを変更することにより実現することができる。

本発明によれば、音声データベースの再構築といった手間のかかる実音源処理なしにＴＴＳシステムに対して発音音声のバリエーションを付加することが可能になった。

本発明によれば、合成音声に対応する入力文字列が予めわかっているので音声合成後の音を解析して入力文字列に変換するという行程が不要であるため処置時間の短縮化をはかることができ、音声認識の部分の誤認識が無くなることにより変換精度の向上を図ることができる。

しかも音声変換の対象が不特定多数の人の音声ではなく、音声データベースに記憶されている音声なので、予め当該音声に対応したフィルタを用意しておくことが可能で、より高精度の音声変換を行うことが可能である。

このように本発明によれば音声合成の入力となる入力文字列に基づき、音声合成と連動させて動的に適用するフィルタを選択・変更することで、精度よい変換を行うことができる。

また本発明によれば、音声合成部とは別に音声変換制御信号生成部を設けることにより、既存のＴＴＳシステム（音声合成部と音声データベースを含む）に、フィルタ装置（本発明の音声変換制御信号生成部とフィルタ情報記憶部と音声変換部を含む）を適用することで実現可能である。既存のＴＴＳシステムにたいして汎用的に適用可能なフィルタ装置を実現することができる。

なお音声変換制御信号生成部は音声合成の処理の一部をシミュレートして、音声変換制御信号を生成するようにしてもよい。

本発明を、実在の人物の発音を録音しこれを音に分解しデータベース化した後に、所望の音声として再合成して発声するコンキャティネイティブ型もしくはコーパスベース型ＴＴＳシステムに適用すると、単一のＣＶ音源（「オリジナルボイス」）を用いたコンキャティネイティブ型もしくはコーパスベース型ＴＴＳシステム用いて、異なるＣＶ音源（「オリジナルボイス」とは異なる仮想人物のボイス）として音声データを生成する装置を提供することができる。

なお本発明は、発声モデルを使って音声を合成するパラメトリック型ＴＴＳシステムにも適用可能である。

（２）本発明は、
入力文字列を受け取り入力文字列に対応する音声を合成する音声合成システムであって、
所与のキャラクタの音声情報が、音声合成用の所与の要素単位の音情報として記憶されている音声データベースと、
受け取った入力文字列に基づき音声データベースに記憶されている音情報を読み出して、入力文字列に対応した所与のキャラクタの合成音声を生成する音声合成部と、
所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行うための、音の種類に応じて特性の異なる複数のフィルタを含むフィルタセットの情報を記憶するフィルタ情報記憶部と、
音声合成を行う際の入力文字列に基づいて、合成音声に含まれる音の種類を判断し、音の種類に対応した特性を有するフィルタを決定し、決定したフィルタを選択するためのフィルタ選択情報を生成する音声変換制御信号生成部と、
フィルタセット情報に基づき、所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行う音声変換部と、を含み、
前記音声合成部は、
音声合成を行う際の入力文字列に基づいて、合成音声に含まれる音の種類を判断し、音の種類に対応した特性を有するフィルタを決定し、決定したフィルタを選択するためのフィルタ選択情報を生成する音声変換制御信号生成部を含み、
前記音声変換部は、
合成音声を所与の単位で区切って、所与の単位毎に、フィルタ選択情報に基づき選択したフィルタを用いて音声変換を行う特徴とする。

本発明によれば、音声変換制御信号生成部を音声合成部の一部として持たせるので、音声合成処理の中で音声変換制御信号を生成することができるので処理や回路の重複を防ぎ効率的に処理することができる。

（３）本発明の音声合成システムは、
前記音声変換制御信号生成部が、
音声合成時の入力文字列に対する音の合成の進行に合わせて、合成音声を所与の単位で区切るためのタイミングを指示する音区切り位置情報及び前記フィルタ選択情報を生成して出力し、
音声変換部が、
前記音区切り位置情報に基づき、時系列に連続した合成音声にかけるフィルタの切り替えタイミングを判定して、前記フィルタ選択情報に基づき選択したフィルタに切り替えることを特徴とする。

このようにすることで、時系列に連続した合成音声を、時系列に固定的なウインドウで切り出して加工するのではなく、音声合成時のテキストから音への変換の進行に合わせて合成音声を分割してフィルタを適用することができる。

（４）本発明は、
ＴＴＳシステムの出力する合成音声の音声変換を行うフィルタ装置であって、
ＴＴＳシステムで使用する音声データベースに基づき生成される所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行うための音の種類に応じて特性の異なる複数のフィルタを含むフィルタセットの情報を記憶するフィルタ情報記憶部と、
ＴＴＳシステムが、音声合成を行う際の入力文字列に基づいて、合成音声に含まれる音の種類を判断し、音の種類に対応した特性を有するフィルタを決定し、決定したフィルタを選択するためのフィルタ選択情報を生成する音声変換制御信号生成部と、
ＴＴＳシステムから受け取った合成音声を所与の単位で区切って、所与の単位毎に、フィルタ選択情報に基づき選択したフィルタを用いて、所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行う音声変換部と、
を含むことを特徴とする。

ＴＴＳシステムとはtext to speechシステムの略である。

（５）本発明のフィルタ装置は、
音声変換制御信号生成部は、
音声合成を行う際の入力文字列に基づいて、合成音声を所与の単位で区切るためのタイミングを指示する音区切り位置情報を生成し、
前記音声変換部は、
音区切り位置情報に基づき合成音声を所与の単位で区切ることを特徴とする。

本発明によれば音声合成の入力となる入力文字列に基づき、音声合成と連動させて動的に音区切り位置を判断し、音に応じて使用するフィルタを切り替えることで、精度よい変換を行うことができる。

（６）本発明のフィルタ装置は、
音声変換部が、
時間領域における前記合成音声のパワー値波形情報を周波数領域におけるパワー値波形情報に変換し、フィルタを使用して周波数領域におけるパワー値波の形状を変換した後、再び時間領域のパワー値波形情報に変換して出力することを特徴とする。

例えば前記フィルタ情報記憶部が、
前記フィルタ情報として、周波数領域のパワー値を表す波形の形状を所与の特性に従って修正するためのフィルタ情報を記憶し、
音声変換部が、
前記合成音声を所与の単位で(例えば音区切り信号で分割した単位)切り出して周波数領域のパワー値波形情報に変換し、当該パワー値の波形の形状を前記フィルタ情報に従って変換する処理を行うことで、を合成音声の音声変換を行うようにしてもよい。

（７）本発明のフィルタ装置は、
前記フィルタ情報記憶部が、
音の種類に応じて設定される第１のホルマント周波数帯域、第２のホルマント周波数帯域、第３のホルマント周波数帯域の少なくとも１つのホルマント周波数帯域におけるパワー値波形の形状を変更するためのフィルタの情報を記憶し、
前記音声変換部が、
時間領域における前記合成音声のパワー値波形情報を周波数領域におけるパワー値波形情報に変換し、第１のホルマント周波数帯域、第２のホルマント周波数帯域、第３のホルマント周波数帯域に対応する少なくとも３つの周波数帯域に分割し、各ホルマント周波数周波数帯域単位で別々にフィルタをかけることを特徴とする。

ホルマント周波数とは音声認識の特徴量の一つである。声帯が発するパルス的な音がのどや口腔の共振を受けて声になる際に、周波数領域において、声のスペクトラム上に複数のエネルギーが集中する部分が現れる。このエネルギーが集中している部分をホルマントと呼び、最も振幅が大きな部分の周波数をホルマント周波数と呼びます。そしてホルマント周波数の低い方から順に第１ホルマント、第２ホルマントと呼ぶ。

母音の場合には第１番目と第２番目のピーク、すなわち第１ホルマント、第２ホルマントの位置によってその母音が特徴づけられるという性質があるので、この性質を利用して母音のフィルタを生成することで、より精度の高い音声認識を行うことができる。

第１のホルマント周波数帯域、第２のホルマント周波数帯域、第３のホルマント周波数帯域は、音毎にことなるので、例えば各母音に対応した第１のホルマント周波数帯域、第２のホルマント周波数帯域、第３のホルマント周波数帯域の各周波数帯域に使用するホルマント周波数帯域別フィルタを用意し、各音に含まれる母音に応じて対応するホルマント周波数帯域別フィルタを使用するようにしてもよい。

そしてホルマント周波数帯域別にフィルタをかける処理を行ったあと、周波数領域で結合し、パワー値波形（パワースペクトル）がなめらかな形になるように整形処理したあと、時間領域に再変換するようにしてもよい。

なお周波数分割は３分割に限られず、第３のホルマント周波数のさらに高調波の領域を分割して、４以上の周波数領域を設け、４以上の周波数領域に対応するフィルタを用意するようにしてもよい。

（８）本発明のフィルタ装置は、
前記フィルタ情報記憶部が、
音の種類に応じて設定されるホルマント周波数の各周波数帯域におけるパワー値波形について、パワー値を強調または減衰させる変換、各周波数帯域内のホルマント周波数のピークを移動させる変換の少なくとも１つを行うためのフィルタ情報を記憶することを特徴とする。

フィルタ情報記憶部が、音の種類に応じて設定される第１のホルマント周波数帯域、第２のホルマント周波数帯域、第３のホルマント周波数帯域の少なくとも１つのホルマント周波数帯域におけるパワー値波形について、パワー値を強調または減衰させる変換、各周波数帯域内のホルマント周波数のピークを移動させる変換の少なくとも１つを行うためのフィルタ情報を記憶するようにしてもよい。

音声変換部は、第１のホルマント周波数帯域、第２のホルマント周波数帯域、第３のホルマント周波数帯域を含む少なくとも３つの周波数帯域のすくなとも１つのパワー値波形について、パワー値を強調または減衰させる変換、各周波数帯域内のホルマント周波数のピークを移動させる変換の少なくとも１つを行う。

（９）本発明のフィルタ装置は、
前記フィルタ情報記憶部が、
日本語の合成音声の母音に対応して母音別に特性の異なるフィルタを含むフィルタセットの情報を記憶するフィルタ情報記憶部と、
前記音声変換制御信号生成部が、
音声合成を行う際の入力文字列に基づいて、合成音声に含まれる母音を判断し、母音に対応付けられたフィルタを選択するためのフィルタ選択情報を生成することを特徴とする。

たとえば仮想キャラクタ１名分の音声変換フィルタセットには、日本語の母音（アイウエオ）に対応する少なくとも５種類の特性の異なるフィルタを含む。

（１０）本発明のフィルタ装置は、
前記フィルタ情報記憶部が、
所与のキャラクタの合成音声を他のキャラクタの音声または所与のキャラクタの声質の異なる音声の少なくとも１つを含む複数の音声へ変更するための複数フィルタセット情報を記憶し、
前記音声変換部が、
フィルタセット指定情報によって指定されたフィルタセットからフィルタを選択して、所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行うことを特徴とする。

本発明によれば所与の１のキャラクタの音声データベースに基づき生成された合成音声を他のキャラクタの音声または所与のキャラクタの声質の異なる音声を含む複数の音声に変換することができる。

（１１）本発明のフィルタ装置は、
前記ＴＴＳシステムは、コンキャティネイティブ型もしくはコーパスベース型ＴＴＳシステムであることを特徴とする。

コンキャティネイティブ型もしくはコーパスベース型ＴＴＳシステムは、どちらも実在の人物の発音を録音しこれを音に分解しデータベース化した後に、所望の音声として再合成して発声するシステムである。ただし、コンキャティネイティブ型が、場合によっては音節単位といった比較的少ない数の音データを元にその組み合わせから音声を合成するのに対して、コーパスベース型では、大容量の語彙に対応した非常に多数の音データをもち、その中から発声させるべき文章に最適な音データを取り出して組み合わせる点が異なっている。

本発明によれば、単一のＣＶ音源（「オリジナルボイス」）を用いたコンキャティネイティブ型もしくはコーパスベース型ＴＴＳシステム用いて、異なるＣＶ音源（「オリジナルボイス」とは異なる仮想人物のボイス）として音声データを生成する装置を提供することができる。

以下、本発明の好適な実施の形態について図面を用いて詳細に説明する。なお以下に説明する実施の形態は、特許請求の範囲に記載された本発明の内容を不当に限定するものではない。また以下で説明される構成の全てが本発明の必須構成要件であるとは限らない。

図１は、本実施の形態の音声合成システムの機能ブロック図の一例である。

本実施の形態の音声合成システム１０は、入力文字列を受け取り入力文字列に対応する音声を合成する音声合成システムである。

本実施の形態の音声合成システム１０は、音声データベース４０を含む。音声データベース４０は、所与のキャラクタの音声情報が、音声合成用の所与の要素単位の音情報として記憶されている。

音声合成ソフトウエア言語によって異なるが、通例、ひとり分のキャラクタを表す集合として、数百から数十万ほどの音素データをデータベース中に保持している。

本実施の形態の音声合成システム１０は、音声合成部５０を含む。音声合成部５０は、受け取った入力文字列５２に基づき音声データベース４０に記憶されている音情報４２を読み出して、入力文字列５２に対応した所与のキャラクタの合成音声を生成する処理を行う。

音声合成部５０は、音声変換制御信号生成部６０を含む。音声変換制御信号生成部６０は、音声合成を行う際の入力文字列５２に基づいて、合成音声に含まれる音の種類を判断し、音の種類に対応した特性を有するフィルタを決定し、決定したフィルタを選択するためのフィルタ選択情報６２を生成する処理を行う。

本実施の形態の音声合成システム１０は、フィルタ情報記憶部３０を含む。フィルタ情報記憶部３０は、所与のキャラクタの合成音声５４の音質の変更または他のキャラクタの音声への変更を行うための、音の種類に応じて特性の異なる複数のフィルタを含むフィルタセットの情報を記憶する。

本実施の形態の音声合成システム１０は、音声変換部２０を含む。音声変換部２０は、合成音声５４を所与の単位で区切って、所与の単位毎に、フィルタ選択情報６２に基づき選択したフィルタを用いて、所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行う。

音声変換制御信号生成部６０が、音声合成時の入力文字列５２に対する音の合成の進行に合わせて、合成音声を所与の単位で区切るためのタイミングを指示する音区切り位置情報６４及び前記フィルタ選択情報６２を生成して出力し、音声変換部２０が、前記音区切り位置情報６４に基づき、時系列に連続した合成音声にかけるフィルタの切り替えタイミングを判定して、前記フィルタ選択情報６２に基づき選択したフィルタに切り替えるようにしてもよい。

本実施の形態によれば、音声データベースの再構築といった手間のかかる実音源処理なしにＴＴＳシステムに対して発音音声のバリエーションを付加することが可能になった。

また本実施の形態によれば、合成音声５４に対応する入力文字列５２が予めわかっているので音声合成後の音を解析してどのような発音データであるのか解析する行程が不要であるため処置時間の短縮化をはかることができ、音声解析の部分の誤認識が無くなることにより変換精度の向上を図ることができる。

しかも音声変換の対象が不特定多数の人の音声ではなく、音声データベース４０に記憶されている音声なので、予め当該音声に対応したフィルタを用意しておくことが可能で、より高精度の音声変換を行うことが可能である。

このように本実施の形態によれば音声合成の入力となる入力文字列に基づき、音声合成と連動させて動的に適用するフィルタを選択・変更することで、精度よい変換を行うことができる。

また本実施の形態によれば、音声変換制御信号生成部６０を音声合成部５０の一部として持たせるので、音声合成処理の中で音声変換制御信号（フィルタ選択情報６２、音区切り位置情報６４等）を生成することができるので処理や回路の重複を防ぎ効率的に処理することができる。

本実施の形態の音声合成システム１０は、狭義のＴＴＳシステム７０とフィルタ装置８０により構成することもできる。

フィルタ装置８０は音声変換部２０、フィルタ情報記憶部３０として機能する。

ここにおいて狭義のＴＴＳシステム７０は、音声合成部５０と音声データベース４０として機能する。例えば実在の人物の発音を録音しこれを音に分解しデータベース化した後に、所望の音声として再合成して発声するコンキャティネイティブ型もしくはコーパスベース型ＴＴＳシステムを用いてもよい。

なお音声合成システム１０を１チップのＩＣとして実装してもよいし、狭義のＴＴＳシステム７０とフィルタ装置８０をそれぞれ１チップのＩＣとして実装してもよいし、音声データベース４０を外部メモリとして実装してもよい。

図２は、本実施の形態の音声合成システムの他の構成（フィルタ装置を含む）の機能ブロック図の一例である。音声データベース４０、音声合成部５０’、音声変換制御信号生成部６０’、音声変換部２０の基本的な機能は図１の音声合成システムと同様であるので説明を省略する。

図２の音声合成システム１２が、図１と異なる点は、音声変換制御信号生成部６０’が音声合成部５０’の一部としてではなく、音声合成部５０’とは別個に音声変換制御信号生成部６０’が設けられている点である。

このような構成をとることにより、既存のＴＴＳシステム７２（音声合成部５０’と音声データベース４０を含む）に、フィルタ装置８２（本発明の音声変換制御信号生成部６０’とフィルタ情報記憶部３０と音声変換部２０を含む）を適用することで実現可能である。既存のＴＴＳシステムにたいして汎用的に適用可能なフィルタ装置を実現することができる。

なお音声変換制御信号生成部６０’は音声合成の処理の一部をシミュレートして、音声変換制御信号（フィルタ選択情報６２、音区切り位置情報６４等）を生成するようにしてもよい。

本実施の形態のフィルタ装置は、音声変換制御信号生成部６０’を含む。音声変換制御信号生成部６０’は、狭義のＴＴＳシステム７２が音声合成を行う際の音声合成時の入力文字列５２に対する音の合成の進行に合わせて、合成音声を所与の単位で区切るためのタイミングを指示する音区切り位置情報６４及びフィルタ選択情報６２を生成して出力する。

本実施の形態のフィルタ装置は、フィルタ情報記憶部３０を含む。フィルタ情報記憶部３０は、狭義のＴＴＳシステム７２で使用する音声データベース４０に基づき生成される所与のキャラクタの合成音声５４の音質の変更または他のキャラクタの音声への変更を行うための音の種類に応じて特性の異なる複数のフィルタを含むフィルタセットの情報を記憶する。

本実施の形態のフィルタ装置は、音声変換部２０を含む。音声変換部２０は、狭義のＴＴＳシステム７２から受け取った合成音声５４を所与の単位で区切って、所与の単位毎に、フィルタ選択情報に基づき選択したフィルタを用いて、所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行う。

音声変換制御信号生成部６０’は、音声合成を行う際の入力文字列５２に基づいて、合成音声を所与の単位で区切るためのタイミングを指示する音区切り位置情報６４を生成し、音声変換部２０は、音区切り位置情報６４に基づき合成音声を所与の単位で区切るようにしてもよい。

本実施の形態によれば音声合成の入力となる入力文字列５４に基づき、音声合成と連動させて動的に音区切り位置を判断し、音に応じて使用するフィルタを切り替えることで、精度よい変換を行うことができる。

また音声変換部２０が、時間領域における前記合成音声のパワー値波形情報を周波数領域におけるパワー値波形情報に変換し、フィルタを使用して周波数領域におけるパワー値波の形状を変換した後、再び時間領域のパワー値波形情報に変換してを出力するようにしてもよい。

またフィルタ情報記憶部３０が、音の種類に応じて設定される第１のホルマント周波数帯域、第２のホルマント周波数帯域、第３のホルマント周波数帯域の少なくとも１つのホルマント周波数帯域におけるパワー値波形の形状を変更するためのフィルタの情報を記憶し、音声変換部２０が、時間領域における前記合成音声のパワー値波形情報を周波数領域におけるパワー値波形情報に変換し、第１のホルマント周波数帯域、第２のホルマント周波数帯域、第３のホルマント周波数帯域に対応する少なくとも３つの周波数帯域に分割し、各ホルマント周波数周波数帯域単位で別々にフィルタをかけるようにしてもよい。

またフィルタ情報記憶部３０が、音の種類に応じて設定されるホルマント周波数の各周波数帯域におけるパワー値波形について、パワー値を強調または減衰させる変換、各周波数帯域内のホルマント周波数のピークを移動させる変換の少なくとも１つを行うためのフィルタ情報を記憶するようにしてもよい。

またフィルタ情報記憶部３０が、日本語の合成音声の母音に対応して母音別に特性の異なるフィルタを含むフィルタセットの情報を記憶し、音声変換制御信号生成部６０’が、音声合成を行う際の入力文字列５２に基づいて、合成音声に含まれる母音を判断し、母音に対応付けられたフィルタを選択するためのフィルタ選択情報６２を生成するようにしてもよい。

またフィルタ情報記憶部３０が、所与のキャラクタの合成音声５４を他のキャラクタの音声または所与のキャラクタの声質の異なる音声の少なくとも１つを含む複数の音声へ変更するための複数フィルタセット情報を記憶し、音声変換部２０が、フィルタセット指定情報によって指定されたフィルタセットからフィルタを選択して、所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行うようにしてもよい。

図３は、本実施の形態の音声合成装置の一例について説明するための図である。

狭義のＴＴＳシステム１７０は、例えば図１に示す音声合成部５０と音声データベース４０として機能し、コンキャティネイティブ型もしくはコーパスベース型ＴＴＳシステムとして構成されている。狭義のＴＴＳシステム１７０は、入力文字列５２を受け取り、入力文字列５２に基づきテキストに対応した音声データ５４（たとえばＰＣＭフォーマットの音声データ）を生成し出力する。

また狭義のＴＴＳシステム１７０は、図１に示す音声変換制御信号生成部６０として機能し、フィルタ選択情報６２と音区切り位置情報６４を生成して出力する。

発音適合型デジタルフィルタ装置１２０は、図１の音声変換部２０として機能する。

発音適合型デジタルフィルタ装置１２０は、狭義のＴＴＳシステム１７０が出力する音声データ５４、フィルタ選択情報６２、音区切り位置情報６４を受け取る。そして音区切り位置で音声データを時系列な区間に分割し、各区間毎にフィルタ選択情報６２に基づきフィルタセットデータベース１３０から対応するフィルタを選択して読み出し、読み出したフィルタに基づき各区間の音声データの音声変換を行う。

フルセットデータベース１３０は、図１のフィルタ情報記憶部３０として機能する。フルセットデータベース１３０は、所与のキャラクタの合成音声を他の複数のキャラクタの音声へ変換するための複数フィルタセット情報１３２−１、１３２−２、・・・、１３２−ｎを含む。

各フィルタセットは、日本語の合成音声の母音に対応して母音別に特性の異なるフィルタ（たとえば「あ」フィルタ１３４−１、「い」フィルタ１３５−１、「う」フィルタ１３６−１、「え」フィルタ１３７−１、「お」フィルタ１３８−１等）を含む。

このように本実施の形態では、仮想キャラクタ１名分の音声変換フィルタセット１３２−１、１３４−２、・・・、１３２−ｎには、日本語の母音（アイウエオ）に対応する少なくとも５種類の特性の異なるフィルタ１３４−１、１３５−２、１３６−１、１３７−１、１３８−１を含む。

またフィルタセットデータベース記憶部１３０が、所与のキャラクタの合成音声を他のキャラクタの音声または所与のキャラクタの声質の異なる音声の少なくとも１つを含む複数の音声へ変更するための複数フィルタセット情報１３２−１、１３２−２、・・・１３２−ｎを記憶し、発音適合型デジタルフィルタ装置１２０が、フィルタセット指定情報によって指定されたフィルタセットからフィルタを選択して、所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行うようにしてもよい。

本実施の形態によれば、所与の１のキャラクタの音声データベースに基づき生成された合成音声を他のキャラクタの音声または所与のキャラクタの声質の異なる音声を含む複数の音声に変換することができる。

図４は、ＴＴＳシステムの音声合成に連動させて、フィルタを動的に適用する構成について説明するための図である。

本実施の携帯のＴＴＳシステムでは、音声合成時の入力文字列に対する音の合成の進行に合わせて、タイミング信号（音区切り位置情報）及びフィルタ選択情報を生成して出力する。

ＴＴＳシステムは入力文字列の各音、各音をさらに小さな単位に分割した音素、またはそれ以外の要素やそれよりさらに小さい要素に対応する音の時間領域波形データを音声データベースから読み出して、接続して入力文字列に対応する音声を合成する。

そしてＴＴＳシステムは各音や要素を合成する際の接続位置を指示するためのタイミング信号（音区切り位置情報）２２０を出力する。

またＴＴＳシステムは各音や要素を合成する際に各音や要素に応じたフィルタを選択するためのフィルタ選択信号２３０を生成して出力する。

例えばＴＴＳシステムの入力文字列が「あいしてる」とすると、ＴＴＳシステムは、音声データベースから「あ」（２１０）、「い」（２１２）、「し」（２１４）、「て」（２１６）、「る」（２１８）の各音に対応する音の時間領域波形データを音声データベースから読み出して、接続して入力文字列に対応する音声を合成する。

そしてＴＴＳシステムは音声データベースから読み出した各音「あ」（２１０）、「い」（２１２）、「し」（２１４）、「て」（２１６）、「る」（２１８）の波形データを合成する際の接続位置を指示するためのタイミング信号２２０、２２２、２２４、２２６、２２８を出力する。

なお各音は実際には連続しており、明確な区切りはつけられないので、波形データを合成する際の接続位置に限られず、あらたな音の頭位置でタイミング信号を出力するようにしてもよい。

またＴＴＳシステムは各音「あ」（２１０）、「い」（２１２）、「し」（２１４）、「て」（２１６）、「る」（２１８）に応じたフィルタを選択するための「あ」用フィルタ選択信号２３０、「い」用フィルタ選択信号２３２、「う」用フィルタ選択信号２３４、「え」用フィルタ選択信号２３６、「お」用フィルタ選択信号２３６を生成して出力する。

なおここでは説明を簡単にするために各音に対応して音を分割する場合を例にとり説明したがこれに限られない。音声データベースが各音をさらに小さな単位に分割した音素、またはそれ以外の要素やそれよりさらに小さい要素単位の時間領域波形データを記憶しており、音声合成の際にその要素単位で時間領域波形データを音声データベースから読み出して、接続して入力文字列に対応する音声を合成する構成でもよい。

図５（Ａ）（Ｂ）は、音声変換の具体例について説明するための図である。

本実施の形態では、音声変換部が、時間領域における前記合成音声のパワー値波形データを周波数領域におけるパワー値波形データに変換し、フィルタを使用してパワー値の波形の形状をフィルタ用の関数等で変換した後、再び時間領域のパワー値波形データに変換して出力する。

本実施の形態では、日本語の合成音声の母音に対応して母音別に特性の異なるフィルタ用意する。さらに各母音について当該母音に応じて設定される第１のホルマント周波数帯域、第２のホルマント周波数帯域、第３のホルマント周波数帯域の少なくとも１つのホルマント周波数帯域におけるパワー値波形の形状を変換するためのフィルタの情報（例えばフィルタ用の関数とパラメータ等）を記憶し、当該ホルマント周波数帯域毎に用意されたフィルタを用いて周波数帯域のパワー値波形を変換する。

図５（Ａ）の３１０は、「え」に対応する時間領域における前記合成音声のパワー値波形データを周波数領域におけるパワースペクトルに変換したグラフである。（操作を明瞭に示すため、スペクトルを包絡線で代表させてある。）３１０では、第１のホルマント周波数３２０が「３３０Ｈｚ」であり、第２のホルマント周波数３３０が「１１２０Ｈｚ」であり、第３のホルマント周波数３４０が「２３５０Ｈｚ」である。そして第１のホルマント周波数３２０「３３０Ｈｚ」と第２のホルマント周波数３３０「１１２０Ｈｚ」の間及び第２のホルマント周波数３３０「１１２０Ｈｚ」と第３のホルマント周波数３４０「２３５０Ｈｚ」の間に第１の周波数分割位置（周波数「７２５Ｈｚ」の位置）及び第２の周波数分割位置（周波数「１７３５Ｈｚ」の位置）を設け、周波数帯域を第１の周波数分割位置と第２の周波数分割位置で区切って、第１のホルマント周波数３２０に対応した第１のホルマント周波数帯域３２２、第２のホルマント周波数３３０に対応した第２のホルマント周波数帯域３３２、第３のホルマント周波数３４０に対応した第３のホルマント周波数帯域３４２を設定する。

そして各ホルマント周波数帯域毎に、パワー値波形を変換するためのフィルタを用意し、各ホルマント周波数帯域毎にパワー値波形の修正（変換）を行う。

図５（Ａ）では第１のホルマント周波数領域のパワー値のピークが原音では「３３０Ｈｚ」であるが（３２０参照）、変換音では「３３１Ｈｚ」となっている（３２０’参照）。

同様に第２のホルマント周波数領域のパワー値のピークが原音では「１１２０Ｈｚ」であるが（３３０参照）、変換音では「１１２３Ｈｚ」となっている（３３０’参照）。

同様に第３のホルマント周波数領域のパワー値のピークが原音では「２３５０Ｈｚ」であるが（３４０参照）、変換音では「２３５７Ｈｚ」となっている（３４０’参照）。

このようにフィルタ処理（原音にフィルタをかける処理）によってある母音（ここでは「え」）の各ホルマント周波数領域３２２、３３２、３４２におけるパワー値波形のピーク位置をシフトさせるようにしてもよい。

また３１４に示すように、フィルタ処理（原音にフィルタをかける処理）によってある母音のあるホルマント周波数帯域における原音のパワー値を強調する変換を行うようにしてもよい。

図５（Ｂ）の４１０は、「い」に対応する時間領域における前記合成音声のパワー値波形データを周波数領域におけるパワースペクトルに変換したグラフである。（操作を明瞭に示すため、スペクトルを包絡線で代表させてある。）４１０では、第１のホルマント周波数４２０が「３１０Ｈｚ」であり、第２のホルマント周波数４３０が「２３００Ｈｚ」であり、第３のホルマント周波数４４０が「３０８０Ｈｚ」である。そして第１のホルマント周波数４２０「３１０Ｈｚ」と第２のホルマント周波数４３０「２３００Ｈｚ」の間及び第２のホルマント周波数４３０「２３００Ｈｚ」と第３のホルマント周波数３４０「３０８０Ｈｚ」の間に第１の周波数分割位置（周波数「１３１５Ｈｚ」の位置）及び第２の周波数分割位置（周波数「２６９０Ｈｚ」の位置）を設け、周波数帯域を第１の周波数分割位置と第２の周波数分割位置で区切って、第１のホルマント周波数４２０に対応した第１のホルマント周波数帯域４２２、第２のホルマント周波数４３０に対応した第２のホルマント周波数帯域４３２、第３のホルマント周波数４４０に対応した第３のホルマント周波数帯域４４２を設定する。

図５（Ｂ）では第１のホルマント周波数領域のパワー値のピークが原音では「３１０Ｈｚ」であるが（４２０参照）、変換音では「３１１Ｈｚ」となっている（４２０’参照）。

同様に第２のホルマント周波数領域のパワー値のピークが原音では「２３００Ｈｚ」であるが（４３０参照）、変換音では「２３０７Ｈｚ」となっている（４３０’参照）。

同様に第３のホルマント周波数領域のパワー値のピークが原音では「３０８０Ｈｚ」であるが（４４０参照）、変換音では「３０８９Ｈｚ」となっている（４４０’参照）。

このようにフィルタ処理（原音にフィルタをかける処理）によってある母音（ここでは「い」）の各ホルマント周波数領域４２２、４３２、４４２におけるパワー値波形のピーク位置をシフトさせるようにしてもよい。

また４１４に示すように、フィルタ処理（原音にフィルタをかける処理）によってある母音のあるホルマント周波数帯域における原音のパワー値を強調する変換を行うようにしてもよい。

なお、本発明は本実施形態に限定されず、本発明の要旨の範囲内で種々の変形実施が可能である。

例えば上記実施の形態ではアイウエオの５母音中心の日本語を念頭に５つのフィルタを適用する構成を例にとり説明したが、これに限られない。子音＋母音の組み合わせにより、より細かくフィルタを設定して適用する構成でもよい。

また日本語以外の言語に対するＴＴＳシステムに対しても適用可能である。この場合日本語以外の言語に対応したフィルタを設定して適用することで実現することができる。

本実施の形態の音声合成システムの機能ブロック図の一例である。本実施の形態の音声合成システムの他の構成（フィルタ装置を含む）の機能ブロック図の一例である。本実施の形態の音声合成装置の一例について説明するための図である。ＴＴＳシステムの音声合成に連動させて、フィルタを動的に適用する構成について説明するための図である。図５（Ａ）（Ｂ）は、音声変換の具体例について説明するための図である。

符号の説明

１音声合成システム、１２音声合成システム、２０音声変換部、３０フィルタ情報記憶部、４０音声データベース、５０音声合成部、５２入力文字列、５４合成音声、６０音声変換制御信号生成部、６２フィルタ選択信号、６４音区切り位置情報、７０ＴＴＳシステム、７２ＴＴＳシステム、８０フィルタ装置、８２フィルタ装置

Claims

入力文字列を受け取り入力文字列に対応する音声を合成する音声合成システムであって、
所与のキャラクタの音声情報が、音声合成用の所与の要素単位の音情報として記憶されている音声データベースと、
受け取った入力文字列に基づき音声データベースに記憶されている音情報を読み出して、入力文字列に対応した所与のキャラクタの合成音声を生成する音声合成部と、
所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行うための、音の種類に応じて特性の異なる複数のフィルタを含むフィルタセットの情報を記憶するフィルタ情報記憶部と、
音声合成を行う際の入力文字列に基づいて、合成音声に含まれる音の種類を判断し、音の種類に対応した特性を有するフィルタを決定し、決定したフィルタを選択するためのフィルタ選択情報を生成する音声変換制御信号生成部と、
合成音声を所与の単位で区切って、所与の単位毎に、フィルタ選択情報に基づき選択したフィルタを用いて、所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行う音声変換部と、
を含むことを特徴とする音声合成システム。
入力文字列を受け取り入力文字列に対応する音声を合成する音声合成システムであって、
所与のキャラクタの音声情報が、音声合成用の所与の要素単位の音情報として記憶されている音声データベースと、
受け取った入力文字列に基づき音声データベースに記憶されている音情報を読み出して、入力文字列に対応した所与のキャラクタの合成音声を生成する音声合成部と、
所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行うための、音の種類に応じて特性の異なる複数のフィルタを含むフィルタセットの情報を記憶するフィルタ情報記憶部と、
音声合成を行う際の入力文字列に基づいて、合成音声に含まれる音の種類を判断し、音の種類に対応した特性を有するフィルタを決定し、決定したフィルタを選択するためのフィルタ選択情報を生成する音声変換制御信号生成部と、
フィルタセット情報に基づき、所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行う音声変換部と、を含み、
前記音声合成部は、
音声合成を行う際の入力文字列に基づいて、合成音声に含まれる音の種類を判断し、音の種類に対応した特性を有するフィルタを決定し、決定したフィルタを選択するためのフィルタ選択情報を生成する音声変換制御信号生成部を含み、
前記音声変換部は、
合成音声を所与の単位で区切って、所与の単位毎に、フィルタ選択情報に基づき選択したフィルタを用いて音声変換を行う特徴とする音声合成システム。
請求項２において、
前記音声変換制御信号生成部が、
音声合成時の入力文字列に対する音の合成の進行に合わせて、合成音声を所与の単位で区切るためのタイミングを指示する音区切り位置情報及び前記フィルタ選択情報を生成して出力し、
音声変換部が、
前記音区切り位置情報に基づき、時系列に連続した合成音声にかけるフィルタの切り替えタイミングを判定して、前記フィルタ選択情報に基づき選択したフィルタに切り替えることを特徴とする音声合成システム。
ＴＴＳシステムの出力する合成音声の音声変換を行うフィルタ装置であって、
ＴＴＳシステムで使用する音声データベースに基づき生成される所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行うための音の種類に応じて特性の異なる複数のフィルタを含むフィルタセットの情報を記憶するフィルタ情報記憶部と、
ＴＴＳシステムが、音声合成を行う際の入力文字列に基づいて、合成音声に含まれる音の種類を判断し、音の種類に対応した特性を有するフィルタを決定し、決定したフィルタを選択するためのフィルタ選択情報を生成する音声変換制御信号生成部と、
ＴＴＳシステムから受け取った合成音声を所与の単位で区切って、所与の単位毎に、フィルタ選択情報に基づき選択したフィルタを用いて、所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行う音声変換部と、
を含むことを特徴とするフィルタ装置。
請求項４において、
音声変換制御信号生成部は、
音声合成を行う際の入力文字列に基づいて、合成音声を所与の単位で区切るためのタイミングを指示する音区切り位置情報を生成し、
前記音声変換部は、
音区切り位置情報に基づき合成音声を所与の単位で区切ることを特徴とするフィルタ装置。
請求項４乃至５のいずれかにおいて、
音声変換部が、
時間領域における前記合成音声のパワー値波形情報を周波数領域におけるパワー値波形情報に変換し、フィルタを使用して周波数領域におけるパワー値波の形状を変換した後、再び時間領域のパワー値波形情報に変換して出力することを特徴とするフィルタ装置。
請求項４乃至６のいずれかにおいて、
前記フィルタ情報記憶部が、
音の種類に応じて設定される第１のホルマント周波数帯域、第２のホルマント周波数帯域、第３のホルマント周波数帯域の少なくとも１つのホルマント周波数帯域におけるパワー値波形の形状を変更するためのフィルタの情報を記憶し、
前記音声変換部が、
時間領域における前記合成音声のパワー値波形情報を周波数領域におけるパワー値波形情報に変換し、第１のホルマント周波数帯域、第２のホルマント周波数帯域、第３のホルマント周波数帯域に対応する少なくとも３つの周波数帯域に分割し、各ホルマント周波数周波数帯域単位で別々にフィルタをかけることを特徴とするフィルタ装置。
請求項４乃至７のいずれかにおいて、
前記フィルタ情報記憶部が、
音の種類に応じて設定されるホルマント周波数の各周波数帯域におけるパワー値波形について、パワー値を強調または減衰させる変換、各周波数帯域内のホルマント周波数のピークを移動させる変換の少なくとも１つを行うためのフィルタ情報を記憶することを特徴とするフィルタ装置。
請求項４乃至８のいずれかにおいて、
前記フィルタ情報記憶部が、
日本語の合成音声の母音に対応して母音別に特性の異なるフィルタを含むフィルタセットの情報を記憶するフィルタ情報記憶部と、
前記音声変換制御信号生成部が、
音声合成を行う際の入力文字列に基づいて、合成音声に含まれる母音を判断し、母音に対応付けられたフィルタを選択するためのフィルタ選択情報を生成することを特徴とするフィルタ装置。
請求項４乃至９のいずれかにおいて、
前記フィルタ情報記憶部が、
所与のキャラクタの合成音声を他のキャラクタの音声または所与のキャラクタの声質の異なる音声の少なくとも１つを含む複数の音声へ変更するための複数フィルタセット情報を記憶し、
前記音声変換部が、
フィルタセット指定情報によって指定されたフィルタセットからフィルタを選択して、所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行うことを特徴とするフィルタ装置。
請求項４乃至１０のいずれかにおいて、
前記ＴＴＳシステムは、コンキャティネイティブ型もしくはコーパスベース型ＴＴＳシステムであることを特徴とするフィルタ装置。
ＴＴＳシステムの出力する合成音声の音声変換を行う制御方法であって、
ＴＴＳシステムで使用する音声データベースに基づき生成される所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行うための音の種類に応じて特性の異なる複数のフィルタを含むフィルタセットの情報を記憶させるステップと、
ＴＴＳシステムが、音声合成を行う際の入力文字列に基づいて、合成音声に含まれる音の種類を判断し、音の種類に対応した特性を有するフィルタを決定し、決定したフィルタを選択するためのフィルタ選択情報を生成するステップと、
ＴＴＳシステムから受け取った合成音声を所与の単位で区切って、所与の単位毎に、フィルタ選択情報に基づき選択したフィルタを用いて、所与のキャラクタの合成音声の音質の変更または他のキャラクタの音声への変更を行うステップと、
を含むことを特徴とする音声変換制御方法。