JP3662195B2

JP3662195B2 - 声質変換装置および声質変換方法およびプログラム記憶媒体

Info

Publication number: JP3662195B2
Application number: JP2001007622A
Authority: JP
Inventors: 一浩三木; 智一森尾
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2001-01-16
Filing date: 2001-01-16
Publication date: 2005-06-22
Anticipated expiration: 2021-01-16
Also published as: JP2002215199A

Description

【０００１】
【発明の属する技術分野】
この発明は、変換規則学習用の発話セットを発話することにより学習された変換規則を用いて声質変換を行う声質変換装置および声質変換方法およびプログラム記憶媒体に関する。
【０００２】
【従来の技術】
従来、第１の声質変換装置としては、音素等の音声合成単位毎にそのスペクトル包絡等を変換するものがある(特開平９−１７９５７６号公報参照)。この第１の声質変換装置は、入力された音声から線形予測係数等のパラメータを抽出し、そのパラメータを予め学習しておいた変換規則により変換する。また、従来の第２の声質変換装置としては、予め５母音のみの発話から作成された母音毎の変換テーブルを用いてパラメータの変換を行うものがある(特開平９−２４４６９４号公報参照)。以上のようにして得られた変換後のパラメータに対して音声合成処理が行われ、声質変換後の音声が作成される。
【０００３】
【発明が解決しようとする課題】
ところで、上記第１の声質変換装置では、予め変換規則を作成することが重要な処理になる。この第１の声質変換装置では、日本語のテキスト音声合成を行う場合の最小の合成単位を音素とした場合、各音素それぞれに対して変換規則を作成するだけでも４０種類程度の変換規則が必要となり、さらに前後の接続音素による音響的特徴の変化に対する対応も考えると、さらに多くの変換規則が必要になる。したがって、使用時に変換規則を学習するための発話セットも大きくなる。また、上記第２の声質変換装置では、少数発話の母音のみに対して変換規則を学習する場合には、前後音素の接続状況を考えることなく変換規則を作成するため、声質変換を行う上で音響的特徴が十分に表現されない可能性もある。以上のように、第１,第２の声質変換装置では、変換精度を向上させるのに多くの変換規則が必要となるという問題がある。
【０００４】
そこで、この発明の目的は、小規模な発話セットで変換規則の学習が効果的に行え、要求される品質に応じて適切な変換精度が得られる声質変換装置および声質変換方法およびプログラム記憶媒体を提供することにある。
【０００５】
【課題を解決するための手段】
上記目的を達成するため、この発明の声質変換装置は、変換規則学習用の発話セットを発話することにより学習された変換規則を用いて声質変換を行う声質変換装置において、２人以上の話者の音声データベースから音声の特徴を夫々抽出するパラメータ抽出部と、上記パラメータ抽出部により上記２人以上の話者の音声データベースから抽出された各人の音声の特徴を表すパラメータに基づいて、上記２人以上の話者のうちのある話者から他の話者に声質を変換するための音素片毎の変換規則を作成する変換規則作成部と、上記変換規則作成部により作成された上記音素片毎の変換規則をクラス分けするクラスタリング部と、上記クラスタリング部によりクラス分けされた各クラスを構成する各変換規則夫々に対応する音素片の中から夫々のクラスを代表する学習用音素片を選択して、選択された学習用音素片を含む上記変換規則学習用の発話セットを作成する学習用音素片選択部と、上記パラメータ抽出部,変換規則作成部,クラスタリング部および学習用音素片選択部により予め作成された上記変換規則学習用の発話セットを変換元話者と変換先話者により発話させて、その発話された上記変換規則学習用の発話セットに含まれる上記学習用音素片の変換規則を学習し、その学習された変換規則を上記学習用音素片に対応する上記クラスの変換規則とする変換規則学習部とを備えることを特徴としている。
【０００６】
上記構成の声質変換装置によれば、まず、上記パラメータ抽出部によって、２人以上の話者の音声を集めた音声データベースから音声の特徴を夫々抽出する。上記パラメータ抽出部により上記音声データベースから抽出された各人の音声の特徴を表すパラメータに基づいて、上記変換規則作成部により２人以上の話者の中のある話者から他の話者に声質を変換するための音素片毎の変換規則を作成する。ここで音素片とは、音声を構成する複数の音素の集まりの一部(または１つの音素)である。また、２人以上の話者のうちの１人を変換元話者とし、他の１人を変換先話者として一対一としてもよいし、２人以上の話者を相互に変換元話者,変換先話者としてもよく、既存の音声データベースから一般的な変換規則のパターンが得られればよい。そして、上記変換規則作成部により作成された上記音素片毎の変換規則をクラスタリング部によりクラス分けする。次に、上記学習用音素片選択部によって、クラスタリング部によりクラス分けされた各クラスから夫々のクラスを代表する学習用音素片を選択して、選択された学習用音素片を含む変換規則学習用の発話セットを作成する。そうして予め作成された上記変換規則学習用の発話セットを用いて、実際に声質変換を行うときに変換元話者と変換先話者により上記変換規則学習用の発話セットを発話させて、発話された上記変換規則学習用の発話セットに含まれる学習用音素片の変換規則を学習し、その学習された変換規則を上記学習用音素片に対応する上記クラスの変換規則とする。すなわち、学習されたクラスを代表する音素片の変換規則をそのクラスを構成する全ての音素片の変換規則に適用する。そうして、予め学習された各クラスの音素片の変換規則を用いて、変換元話者の音声を変換先話者の声質に変換する。したがって、上記クラス分けされた各クラスを代表する音素片のみを学習することにより少量の発話においても最適な変換規則が得られるので、小規模な発話セットで変換規則の学習を効果的に行うことができる。
【０００７】
また、一実施形態の声質変換装置は、上記学習用音素片選択部が、上記クラスタリング部によりクラス分けされたクラス毎に、そのクラスを構成する音素片の変換規則の平均に最も近い変換規則の音素片をそのクラスを代表する上記学習用音素片として夫々選択することを特徴としている。
【０００８】
上記実施形態の声質変換装置によれば、上記学習用音素片選択部によりクラス毎にそのクラスの音素片の変換規則の平均に最も近い変換規則の音素片を上記学習用音素片として夫々選択するので、そのクラスの特徴を最も代表する音素片を簡単に選ぶことができる。
【０００９】
また、一実施形態の声質変換装置は、上記学習用音素片選択部が、上記クラスタリング部によりクラス分けされたクラス毎に、そのクラスの音素片の変換規則の平均に変換規則が近い複数の音素片をそのクラスを代表する上記学習用音素片として夫々選択し、上記変換規則学習部が、上記学習用音素片である上記複数の音素片の変換規則を学習し、学習された上記複数の音素片の変換規則の平均を上記学習用音素片に対応する上記クラスの変換規則とすることを特徴としている。
【００１０】
上記実施形態の声質変換装置によれば、上記学習用音素片選択部によりクラス毎にそのクラスの音素片の変換規則の平均に変換規則が近い複数の音素片を上記学習用音素片として夫々選択し、上記変換規則学習部により、上記学習用音素片である上記複数の音素片の変換規則を学習し、学習された複数の音素片の変換規則の平均を上記学習用音素片に対応するクラスの変換規則とするので、安定した変換規則を得ることができる。
【００１１】
また、一実施形態の声質変換装置は、上記学習用音素片選択部により選択された学習用音素片を含む上記変換規則学習用の発話セットの発話数を調節することによって変換規則の精度を設定する変換精度設定部を備えることを特徴としている。
【００１２】
上記実施形態の声質変換装置によれば、上記変換精度設定部によって、学習用音素片選択部により選択された学習用音素片を含む変換規則学習用の発話セットの発話数を調節することによって変換規則の精度を設定する。例えば、精度の高い変換規則を用いる場合にはクラス数を多くして、変換規則学習用の発話セットの発話数を増やす一方、精度の低い変換規則を用いる場合にはクラス数を少なくして、変換規則学習用の発話セットの発話数を減らすのである。そうすることによって、要求される品質に応じて適切な変換精度を得ることが可能になる。なお、上記変換規則学習用の発話セットの発話数の調節は、クラス数の増減に限らず、他の方法を用いてもよい。
【００１３】
また、この発明の声質変換方法は、変換規則学習用の発話セットを発話することにより学習された変換規則を用いて声質変換を行う声質変換方法において、２人以上の話者の音声データベースから音声の特徴を夫々抽出するパラメータ抽出ステップと、上記パラメータ抽出ステップにおいて上記２人以上の話者の音声データベースから抽出された各人の音声の特徴を表すパラメータに基づいて、上記２人以上の話者のうちのある話者から他の話者に声質を変換するための音素片毎の変換規則を作成する変換規則作成ステップと、上記変換規則作成ステップにおいて作成された上記音素片毎の変換規則をクラス分けするクラスタリングステップと、上記クラスタリングステップにおいてクラス分けされた各クラスを構成する各変換規則夫々に対応する音素片の中から夫々のクラスを代表する学習用音素片を選択して、選択された学習用音素片を上記変換規則学習用の発話セットに含める学習用音素片選択ステップと、上記パラメータ抽出ステップ,変換規則作成ステップ,クラスタリングステップおよび学習用音素片選択ステップにより予め作成された上記変換規則学習用の発話セットを変換元話者と変換先話者により発話させて、その発話された上記変換規則学習用の発話セットに含まれる上記学習用音素片の変換規則を学習し、その学習された変換規則を上記学習用音素片に対応する上記クラスの変換規則とする変換規則学習ステップとを有することを特徴としている。
【００１４】
上記実施形態の声質変換方法によれば、まず、上記パラメータ抽出ステップにおいて、２人以上の話者の音声を集めた音声データベースから音声の特徴を夫々抽出する。上記パラメータ抽出ステップにおいて上記音声データベースから抽出された各人の音声の特徴を表すパラメータに基づいて、上記変換規則作成ステップで２人以上の話者の中からある話者から他の話者に声質を変換するための音素片毎の変換規則を作成する。そして、上記変換規則作成ステップにおいて作成された上記音素片毎の変換規則をクラスタリングステップでクラス分けする。次に、上記学習用音素片選択ステップにおいて、クラス分けされた各クラスから夫々のクラスを代表する学習用音素片を選択して、選択された学習用音素片を含む変換規則学習用の発話セットを作成する。そうして予め作成された上記変換規則学習用の発話セットを用いて、実際に声質変換を行うときに変換元話者と変換先話者により上記変換規則学習用の発話セットを発話させて、発話された上記変換規則学習用の発話セットに含まれる学習用音素片の変換規則を学習し、その学習された変換規則を上記学習用音素片に対応する上記クラスの変換規則とする。すなわち、学習されたクラスを代表する音素片の変換規則をそのクラスを構成する全ての音素片の変換規則に適用する。そうして、予め学習された各クラスの音素片の変換規則を用いて、変換元話者の音声を変換先話者の声質に変換する。したがって、上記クラス分けされた各クラスを代表する音素片のみを学習することにより少量の発話においても最適な変換規則が得られるので、小規模な発話セットで変換規則の学習を効果的に行うことができる。
【００１５】
また、この発明のプログラム記憶媒体は、上記声質変換方法を実行する制御プログラムを記憶している。
【００１６】
上記プログラム記憶媒体によれば、記憶された制御プログラムをマイクロコンピュータ等の情報処理装置に読み込んで、その制御プログラムを実行することによって、クラス分けされた各クラスを代表する音素片のみの学習により少量の発話においても最適な変換規則が得られるので、小規模な発話セットで変換規則の学習を効果的に行うことができる。
【００１７】
【発明の実施の形態】
以下、この発明の声質変換装置および声質変換方法およびプログラム記憶媒体を図示の実施の形態により詳細に説明する。
【００１８】
図１はこの発明の実施の一形態の声質変換装置のブロック図であり、１０１は既存の音声データベース(図１ではＤＢ)の話者１の音声からパラメータを抽出するパラメータ抽出部、１０２は既存の音声データベース(図１ではＤＢ)の話者２の音声からパラメータを抽出するパラメータ抽出部、１０３は上記パラメータ抽出部１０１,１０２により抽出された音声のパラメータに基づいて変換規則を作成する変換規則作成部、１０４は上記変換規則作成部１０３により作成された変換規則をクラス分けするクラスタリング部、１０５は上記クラスタリング部１０４によりクラス分けされた各クラスから夫々のクラスを代表する学習用音素片を選択して、選択された学習用音素片を有する単語等を変換規則学習用発話セット１１０に含める学習音素片選択部である。上記パラメータ抽出部１０１,１０２と変換規則作成部１０３とクラスタリング部１０４と学習音素片選択部１０５で学習用発話セット作成部１１１を構成している。この学習用発話セット作成部１１１はオフラインで予め発話セットを作成する。また、１１３は上記変換規則学習用発話セット１１０の発話数を調節することによって変換規則の精度を設定する変換精度設定部、１０７は上記変換規則学習用発話セット１１０に基づいて変換元話者と変換先話者の発話された音声を夫々認識する変換規則学習用発話認識部、１０８は上記変換規則学習用発話認識部１０７により認識された音声のパラメータに基づいて変換規則を作成する変換規則作成部、１０９は上記変換規則作成部１０８により作成された変換規則を記憶する変換規則記憶部、１０６は上記変換規則記憶部１０９の変換規則に基づいて変換元話者の入力音声を変換する声質変換部である。上記変換規則学習用発話セット１１０と変換精度設定部１１３と声質変換部１０６と変換規則学習用発話認識部１０７と変換規則作成部１０８と変換規則記憶部１０９で変換部１１２を構成している。この変換部１１２はオンラインで声質変換を行う。
【００１９】
上記声質変換装置の学習セット選択方法では、まず、音声認識時のモデル学習等に用いられる時刻,音素がラベリングされた既存の音声データベースより音素のラベル情報に基づき同一条件の音素同士を抜き出し、パラメータ抽出部１０１,１０２により各音素に対してそれぞれパラメータの抽出を行う。そうして抽出されるパラメータは、実際に変換処理の行われるパラメータと同一のものであればどのようなパラメータであってもよい。この実施形態では、パラメータの一例としてスペクトル包絡を用いた場合について説明する。
【００２０】
図２は上記声質変換装置の要部のブロック図であり、６０１は変換元話者の入力音声を構成する音素情報,時刻情報を抽出する音声情報抽出部、６０２は上記音声情報抽出部６０１により抽出された音素情報,時刻情報に基づいて音声のパラメータを抽出するパラメータ抽出部、６０３は上記パラメータ抽出部６０２により抽出された音声のパラメータを変換するパラメータ変換部、６０４は上記パラメータ変換部６０３により変換された音声のパラメータに基づいて変換先話者の声質の音声を合成する音声合成部、６０５は図１に示す変換規則学習用発話認識部１０７と変換規則作成部１０８とで構成された変換規則学習部、６０７は変換規則選択部、１０９は図１に示す変換規則記憶部、１１０は図１に示す変換規則学習用発話セット、１１３は図１に示す変換精度設定部である。上記音声情報抽出部６０１とパラメータ抽出部６０２とパラメータ変換部６０３と音声合成部６０４と変換規則選択部６０７で図１に示す声質変換部１０６を構成している。
【００２１】
まず、声質変換全体の処理を説明した後、この発明の特徴である変換規則学習用発話セットの作成方法について説明する。
【００２２】
上記構成の声質変換装置において、音声情報抽出部６０１に入力された音声は、音声認識によって音素情報,時刻情報が抽出される。また、テキスト音声合成で作成された音声に対して声質変換を行う場合にも、元のテキストデータからその音素情報や時刻情報が抽出される。次に、上記パラメータ抽出部６０２に入力された音声は、線形予測等の既存のパラメータ抽出手法によって音声のスペクトル形状を表すパラメータが抽出される。次に、抽出されたパラメータは、パラメータ変換部６０３において、音声情報抽出部６０１で抽出された音声情報により、変換規則選択部６０７によって選択された変換規則に基づいて変換が行われる。なお、このとき選択の対象となる変換規則は、予めターゲット話者により発話された発話セットから変換規則学習部６０５により作成されたものである。最後に変換されたパラメータから音声合成部６０４により音声を合成することで声質変換の行われた音声が得られる。
【００２３】
次に、変換規則の作成および声質変換の処理について詳しく説明する。これまでに説明した手順によって、変換規則を用いた声質変換は行われるが、ここで重要になるのが変換規則の作成である。この実施形態では、音素片の一例として１つの音素を合成単位とする声質変換を示している。このとき前後の音素を考えず、個々に変換規則を作成するだけでも４０種類程度の変換規則が必要になり、さらに詳しく前後の音素環境まで考えると、非常に多くの変換規則が必要となる。したがって、変換規則学習のための学習用発話セット(ターゲット話者の発話量)も膨大なものになり、発話者に多大な負担を負わせることになる。しかしながら、発話者の負担を軽減するために変換規則を減らすと、変換精度が悪くなる。
【００２４】
そこで、この発明の声質変換装置では、予め収録されている複数話者の大量発話サンプル(音声データベース)から、前後音素の接続環境による音響的特徴の変化も考えた音素に対して変換規則を作成し、その変換規則をクラスタリングすることにより比較的似通った変換規則をまとめておく。そして、声質変換を行う新たな話者へもこの変換規則通りのクラスタリングを適用することで各クラスの変換規則を代表的なひとつの変換規則で表している。このとき、まとめられた代表音素ひとつの学習を行うだけでよいから、ターゲット話者の発話回数の削減が実現される。
【００２５】
図３は上記声質変換装置のパラメータ抽出手法を説明する図である。図３に示すように、パラメータ抽出部１０１,１０２(図１に示す)では、既存のデータベース１,２から音声情報(主に音素情報)に基づいて抽出された音声の音素中心信号に対して線形予測分析を行い、その線形予測係数を得る。この線形予測係数に対して、フーリエ変換を行うことで入力信号のパワースペクトルに対する包絡成分が抽出される。以上の手順で２つのデータベース１,２から音素の接続環境が同じ条件のスペクトル包絡２０１,２０２が抽出される。変換規則は、このようにして抽出された２つのパラメータにより様々な対応付け手法によって学習される。
【００２６】
また、図４は上記２つのパラメータであるスペクトル包絡２０１,２０２に基づいて変換規則を作成する方法を説明する図である。図４に示すように、図３で抽出された２話者分のスペクトル包絡２０１,２０２は、ＤＰマッチング等の手法(特開平４−１４７３００号公報参照)により対応付けられて、パラメータ同士の対応付けを示す変換規則３０１が学習される。
【００２７】
このようにして得られた変換規則に対して、クラスタリング部１０４(図１に示す)によりクラスタリングの手法を用いて変換規則のクラスタリングを行う。クラスタリングの方法としては、大きな集合を徐々に分解していくトップダウンの方法と、小さな集合を組み合わせて大きな集合を作るボトムアップの方法がある。どちらの方法を用いる場合にも、分解能(クラスの数)を調整することができるため、予め複数の分解能で発話セットを作成しておけば、高精度の変換規則が必要な場合には高分解能の学習用発話セット、そうでなくても良い場合には低分解能の学習用発話セットを用いることもできる。このとき、変換精度設定部１１３(図１に示す)は、外部から与えられた精度情報により学習用発話セット(クラス数)を変更する。すなわち、精密な変換規則を用いる場合にはクラス数を多くし、粗な変換規則を用いる場合はクラス数を少なくするのである。
【００２８】
また、図５は変換規則の分布を示しており、上記高精度の変換規則を得る場合のクラスが４０１,４０２,４０３,４０４であり、精度の低い変換規則を得る場合のクラスが４０５,４０６である。図５では、少数のサンプルのみ表示しているため両分解能の差は小さいが、実際の状況では、多くの音素、音素列の変換規則が要素となるため、その分解能には大きな差が出る。こうしてクラスタリングされた変換規則に対しては、学習用音素片選択部１０５において同一のクラスに属しているものを平均し、代表となる点(ベクトル量子化におけるセントロイド)を得る。次に、得られた代表点に最も近いものをそのグループの代表音素とし、その音素またはその音素を含む単語等を変換規則学習用発話セット１１０に加える。
【００２９】
図５においては、高精度の変換規則を得る場合のクラスの各代表点が黒丸で表されている。このとき代表点に最も近い各代表音素はそれぞれ太字の/ａ/、/ｎ/、/ｓ/、/ｐ/となり、学習用発話セットの音素数は４つとなる。また、粗い変換規則を得る場合のクラスにおいては、その代表音素は同様にそれぞれ/ｏ/、/ｓ/であり、学習用発話セットの音素数は２つとなる。
【００３０】
また、図６はクラスタリングを説明する図であり、図６に示すように、１つのクラスに多くのメンバが存在する場合等は、クラス５０１や、クラス５０２のように同じクラスにおいて代表点に近い複数個の音素を選択して発話セットに与え、オンラインの学習時にそれら同クラスの変換規則の平均をそのクラスの変換規則とすることも可能である。図６においては、代表点に近い２つの音素/e/,音素/ｏ/、また、音素/ｓ/,音素/ｐ/を選択しているが、選択する数は任意に変更することが可能である。この実施の形態では、音素について説明したが、この発明は、ＣＶＣ(子音−母音−子音)やＶＣＶ(母音−子音−母音)等の全ての音声合成単位に対して使用することが可能である。
【００３１】
このようにして選択された学習用発話セットを用いて、各クラスの変換規則が学習される。この実施形態においては、上記のようにして選択された学習用発話セットを用いて学習した各クラスの変換規則に関し、図２の変換規則選択部６０７(図２に示す)は、音声情報から入力音素の含まれるクラスの代表変換規則を選択し、パラメータ変換部６０３(図２に示す)に与える。例えば、図５中の４０５,４０６のように、２つのクラスが存在する場合に音素/ｉ/を変換するとき、変換規則選択部６０７は、音素/ｉ/の含まれるクラスの代表変換規則/ｏ/をパラメータ変換部６０３に与える。パラメータ変換部６０３では、与えられた変換規則によりパラメータ変換を行い、変換されたパラメータは、音声合成部６０４により声質変換の行われた音声として出力される。
【００３２】
このように、上記声質変換装置によれば、クラス分けされた各クラスを代表する音素片のみを学習することにより少量の発話でも最適な変換規則が得られるので、小規模な発話セットで変換規則の学習を効果的に行うことができる。
【００３３】
また、上記学習用音素片選択部１０５によりクラス毎にそのクラスの音素片の変換規則の平均に最も近い変換規則の音素片または変換規則が近い複数の音素片を上記学習用音素片として夫々選択し、上記変換規則学習部６０５により、学習用音素片である複数の音素片の変換規則を学習し、学習された複数の音素片の変換規則の平均を学習用音素片に対応するクラスの変換規則とすることによって、安定した変換規則を得ることができる。
【００３４】
また、上記変換精度設定部１１３によって、学習用音素片選択部１０５により選択された学習用音素片を含む変換規則学習用の発話セットの発話数を調節してすなわちクラス分けのクラス数を調整して、変換規則の精度を設定することによって、要求される品質に応じて適切な変換精度を得ることができる。
【００３５】
上記実施の形態における音質変換装置としての機能は、プログラム記憶媒体に記憶された音質変換方法を実行するプログラムによって実現される。上記プログラム記憶媒体は、本体側と分離可能に構成され、磁気テープやカセットテープ等のテープ系、フロッピーディスク,ハードディスク等の磁気ディスクやＣＤ−ＲＯＭ(コンパクトディスク−リード・オンリー・メモリー),ＭＯ(光磁気)ディスク,ＭＤ(ミニディスク),ＤＶＤ(デジタル・バーサタイル・ディスク)等の光ディスクのディスク系、ＩＣ(集積回路)カードや光カード等のカード系、マスクＲＯＭ,ＥＰＲＯＭ（紫外線消去型ＲＯＭ),ＥＥＰＲＯＭ(電気的消去型ＲＯＭ),フラッシュＲＯＭ等の半導体メモリ系を含めた固定的にプログラムを坦持する媒体である。
【００３６】
上記実施の形態では、２人の話者の音声データベースを用いて変換規則学習用発話セット１１０を作成したが、２人以上の話者の音声データベースを用いて複数の話者間についての変換規則を作成し、変換規則学習用発話セットとしてもよい。
【００３７】
また、上記実施の形態では、上記学習音素片選択部１０５により、クラス分けされたクラス毎に、そのクラスを構成する音素片の変換規則の平均に近い変換規則の音素片をそのクラスを代表する学習用音素片として夫々選択したが、クラスを代表する学習用音素片の選択方法はこれに限らない。
【００３８】
また、上記実施の形態では、クラス数の増減によって変換規則学習用の発話セットの発話数を調節したが、クラス数の増減によらず、クラス毎に選択される学習用音素片の数を増減させるなど、他の方法により変換規則学習用の発話セットの発話数を調節してもよいのは勿論である。
【００３９】
【発明の効果】
以上より明らかなように、この発明の声質変換装置および声質変換方法およびプログラム記憶媒体によれば、既存の音声データベースを用いて変換規則を作成し、クラスタリングされた音素片の変換規則から選択される代表サンプル(音素片)を学習サンプルとすることにより、小規模な発話セットで変換規則の学習を効果的に行うことができると共に、要求される変換規則の精度に応じてターゲット話者が発話する学習用発話セットを変更することができる。また、ターゲット話者の負担軽減のために発話回数を減らし、低変換精度の変換規則を作成する場合も、その中で最適な変換規則の学習が行われる変換規則学習用の発話セットを選択できる。
【図面の簡単な説明】
【図１】図１はこの発明の実施の一形態の声質変換装置の構成を示すブロック図である。
【図２】図２は上記声質変換装置の要部のブロック図である。
【図３】図３は上記声質変換装置のパラメータ抽出手法を説明する図である。
【図４】図４は２つのスペクトル包絡に基づいて変換規則を作成する方法を説明する図である。
【図５】図５は変換規則の分布を示す図である。
【図６】図６はクラスタリングを説明する図である。
【符号の説明】
１０１,１０２…パラメータ抽出部、
１０３…変換規則作成部、
１０４…クラスタリング部、
１０５…学習用音素片選択部、
１０６…声質変換部、
１０７…変換規則学習用発話認識部、
１０８…変換規則作成部、
１０９…変換規則記憶部、
１１０…変換規則学習用発話セット、
１１１…学習用発話セット作成部、
１１２…変換部、
１１３…変換精度設定部、
６０１…音声情報抽出部、
６０２…パラメータ抽出部、
６０３…パラメータ変換部、
６０４…音声合成部、
６０５…変換規則学習部、
６０７…変換規則選択部。

Claims

変換規則学習用の発話セットを発話することにより学習された変換規則を用いて声質変換を行う声質変換装置において、
２人以上の話者の音声データベースから音声の特徴を夫々抽出するパラメータ抽出部と、
上記パラメータ抽出部により上記２人以上の話者の音声データベースから抽出された各人の音声の特徴を表すパラメータに基づいて、上記２人以上の話者のうちのある話者から他の話者に声質を変換するための音素片毎の変換規則を作成する変換規則作成部と、
上記変換規則作成部により作成された上記音素片毎の変換規則をクラス分けするクラスタリング部と、
上記クラスタリング部によりクラス分けされた各クラスを構成する各変換規則夫々に対応する音素片の中から夫々のクラスを代表する学習用音素片を選択して、選択された学習用音素片を含む上記変換規則学習用の発話セットを作成する学習用音素片選択部と、
上記パラメータ抽出部,変換規則作成部,クラスタリング部および学習用音素片選択部により予め作成された上記変換規則学習用の発話セットを変換元話者と変換先話者により発話させて、その発話された上記変換規則学習用の発話セットに含まれる上記学習用音素片の変換規則を学習し、その学習された変換規則を上記学習用音素片に対応する上記クラスの変換規則とする変換規則学習部とを備えることを特徴とする声質変換装置。
請求項１に記載の声質変換装置において、
上記学習用音素片選択部は、上記クラスタリング部によりクラス分けされたクラス毎に、そのクラスを構成する音素片の変換規則の平均に最も近い変換規則の音素片をそのクラスを代表する上記学習用音素片として夫々選択することを特徴とする声質変換装置。
請求項１に記載の声質変換装置において、
上記学習用音素片選択部は、上記クラスタリング部によりクラス分けされたクラス毎に、そのクラスの音素片の変換規則の平均に変換規則が近い複数の音素片をそのクラスを代表する上記学習用音素片として夫々選択し、
上記変換規則学習部は、上記学習用音素片である上記複数の音素片の変換規則を学習し、学習された上記複数の音素片の変換規則の平均を上記学習用音素片に対応する上記クラスの変換規則とすることを特徴とする声質変換装置。
請求項１に記載の声質変換装置において、
上記学習用音素片選択部により選択された学習用音素片を含む上記変換規則学習用の発話セットの発話数を調節することによって変換規則の精度を設定する変換精度設定部を備えることを特徴とする声質変換装置。
変換規則学習用の発話セットを発話することにより学習された変換規則を用いて声質変換を行う声質変換方法において、
２人以上の話者の音声データベースから音声の特徴を夫々抽出するパラメータ抽出ステップと、
上記パラメータ抽出ステップにおいて上記２人以上の話者の音声データベースから抽出された各人の音声の特徴を表すパラメータに基づいて、上記２人以上の話者のうちのある話者から他の話者に声質を変換するための音素片毎の変換規則を作成する変換規則作成ステップと、
上記変換規則作成ステップにおいて作成された上記音素片毎の変換規則をクラス分けするクラスタリングステップと、
上記クラスタリングステップにおいてクラス分けされた各クラスを構成する各変換規則夫々に対応する音素片の中から夫々のクラスを代表する学習用音素片を選択して、選択された学習用音素片を上記変換規則学習用の発話セットに含める学習用音素片選択ステップと、
上記パラメータ抽出ステップ,変換規則作成ステップ,クラスタリングステップおよび学習用音素片選択ステップにより予め作成された上記変換規則学習用の発話セットを変換元話者と変換先話者により発話させて、その発話された上記変換規則学習用の発話セットに含まれる上記学習用音素片の変換規則を学習し、その学習された変換規則を上記学習用音素片に対応する上記クラスの変換規則とする変換規則学習ステップとを有することを特徴とする声質変換方法。
請求項５に記載の声質変換方法を実行する制御プログラムを記憶したプログラム記憶媒体。