JP3662195B2 - 声質変換装置および声質変換方法およびプログラム記憶媒体 - Google Patents

声質変換装置および声質変換方法およびプログラム記憶媒体 Download PDF

Info

Publication number
JP3662195B2
JP3662195B2 JP2001007622A JP2001007622A JP3662195B2 JP 3662195 B2 JP3662195 B2 JP 3662195B2 JP 2001007622 A JP2001007622 A JP 2001007622A JP 2001007622 A JP2001007622 A JP 2001007622A JP 3662195 B2 JP3662195 B2 JP 3662195B2
Authority
JP
Japan
Prior art keywords
conversion
learning
phoneme
conversion rule
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001007622A
Other languages
English (en)
Other versions
JP2002215199A (ja
Inventor
一浩 三木
智一 森尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2001007622A priority Critical patent/JP3662195B2/ja
Publication of JP2002215199A publication Critical patent/JP2002215199A/ja
Application granted granted Critical
Publication of JP3662195B2 publication Critical patent/JP3662195B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
この発明は、変換規則学習用の発話セットを発話することにより学習された変換規則を用いて声質変換を行う声質変換装置および声質変換方法およびプログラム記憶媒体に関する。
【0002】
【従来の技術】
従来、第1声質変換装置としては、音素等の音声合成単位毎にそのスペクトル包絡等を変換するものがある(特開平9−179576号公報参照)。この第1の声質変換装置は、入力された音声から線形予測係数等のパラメータを抽出し、そのパラメータを予め学習しておいた変換規則により変換する。また、従来の第2の声質変換装置としては、予め5母音のみの発話から作成された母音毎の変換テーブルを用いてパラメータの変換を行うものがある(特開平9−244694号公報参照)。以上のようにして得られた変換後のパラメータに対して音声合成処理が行われ、声質変換後の音声が作成される。
【0003】
【発明が解決しようとする課題】
ところで、上記第1の声質変換装置では、予め変換規則を作成することが重要な処理になる。この第1の声質変換装置では、日本語のテキスト音声合成を行う場合の最小の合成単位を音素とした場合、各音素それぞれに対して変換規則を作成するだけでも40種類程度の変換規則が必要となり、さらに前後の接続音素による音響的特徴の変化に対する対応も考えると、さらに多くの変換規則が必要になる。したがって、使用時に変換規則を学習するための発話セットも大きくなる。また、上記第2の声質変換装置では、少数発話の母音のみに対して変換規則を学習する場合には、前後音素の接続状況を考えることなく変換規則を作成するため、声質変換を行う上で音響的特徴が十分に表現されない可能性もある。以上のように、第1,第2の声質変換装置では、変換精度を向上させるのに多くの変換規則が必要となるという問題がある。
【0004】
そこで、この発明の目的は、小規模な発話セットで変換規則の学習が効果的に行え、要求される品質に応じて適切な変換精度が得られる声質変換装置および声質変換方法およびプログラム記憶媒体を提供することにある。
【0005】
【課題を解決するための手段】
上記目的を達成するため、この発明の声質変換装置は、変換規則学習用の発話セットを発話することにより学習された変換規則を用いて声質変換を行う声質変換装置において、2人以上の話者の音声データベースから音声の特徴を夫々抽出するパラメータ抽出部と、上記パラメータ抽出部により上記2人以上の話者の音声データベースから抽出された各人の音声の特徴を表すパラメータに基づいて、上記2人以上の話者のうちのある話者から他の話者に声質を変換するための音素片毎の変換規則を作成する変換規則作成部と、上記変換規則作成部により作成された上記音素片毎の変換規則をクラス分けするクラスタリング部と、上記クラスタリング部によりクラス分けされた各クラスを構成する各変換規則夫々に対応する音素片の中から夫々のクラスを代表する学習用音素片を選択して、選択された学習用音素片を含む上記変換規則学習用の発話セットを作成する学習用音素片選択部と、上記パラメータ抽出部,変換規則作成部,クラスタリング部および学習用音素片選択部により予め作成された上記変換規則学習用の発話セットを変換元話者と変換先話者により発話させて、その発話された上記変換規則学習用の発話セットに含まれる上記学習用音素片の変換規則を学習し、その学習された変換規則を上記学習用音素片に対応する上記クラスの変換規則とする変換規則学習部とを備えることを特徴としている。
【0006】
上記構成の声質変換装置によれば、まず、上記パラメータ抽出部によって、2人以上の話者の音声を集めた音声データベースから音声の特徴を夫々抽出する。上記パラメータ抽出部により上記音声データベースから抽出された各人の音声の特徴を表すパラメータに基づいて、上記変換規則作成部により2人以上の話者の中のある話者から他の話者に声質を変換するための音素片毎の変換規則を作成する。ここで音素片とは、音声を構成する複数の音素の集まりの一部(または1つの音素)である。また、2人以上の話者のうちの1人を変換元話者とし、他の1人を変換先話者として一対一としてもよいし、2人以上の話者を相互に変換元話者,変換先話者としてもよく、既存の音声データベースから一般的な変換規則のパターンが得られればよい。そして、上記変換規則作成部により作成された上記音素片毎の変換規則をクラスタリング部によりクラス分けする。次に、上記学習用音素片選択部によって、クラスタリング部によりクラス分けされた各クラスから夫々のクラスを代表する学習用音素片を選択して、選択された学習用音素片を含む変換規則学習用の発話セットを作成する。そうして予め作成された上記変換規則学習用の発話セットを用いて、実際に声質変換を行うときに変換元話者と変換先話者により上記変換規則学習用の発話セットを発話させて、発話された上記変換規則学習用の発話セットに含まれる学習用音素片の変換規則を学習し、その学習された変換規則を上記学習用音素片に対応する上記クラスの変換規則とする。すなわち、学習されたクラスを代表する音素片の変換規則をそのクラスを構成する全ての音素片の変換規則に適用する。そうして、予め学習された各クラスの音素片の変換規則を用いて、変換元話者の音声を変換先話者の声質に変換する。したがって、上記クラス分けされた各クラスを代表する音素片のみを学習することにより少量の発話においても最適な変換規則が得られるので、小規模な発話セットで変換規則の学習を効果的に行うことができる。
【0007】
また、一実施形態の声質変換装置は、上記学習用音素片選択部が、上記クラスタリング部によりクラス分けされたクラス毎に、そのクラスを構成する音素片の変換規則の平均に最も近い変換規則の音素片をそのクラスを代表する上記学習用音素片として夫々選択することを特徴としている。
【0008】
上記実施形態の声質変換装置によれば、上記学習用音素片選択部によりクラス毎にそのクラスの音素片の変換規則の平均に最も近い変換規則の音素片を上記学習用音素片として夫々選択するので、そのクラスの特徴を最も代表する音素片を簡単に選ぶことができる。
【0009】
また、一実施形態の声質変換装置は、上記学習用音素片選択部が、上記クラスタリング部によりクラス分けされたクラス毎に、そのクラスの音素片の変換規則の平均に変換規則が近い複数の音素片をそのクラスを代表する上記学習用音素片として夫々選択し、上記変換規則学習部が、上記学習用音素片である上記複数の音素片の変換規則を学習し、学習された上記複数の音素片の変換規則の平均を上記学習用音素片に対応する上記クラスの変換規則とすることを特徴としている。
【0010】
上記実施形態の声質変換装置によれば、上記学習用音素片選択部によりクラス毎にそのクラスの音素片の変換規則の平均に変換規則が近い複数の音素片を上記学習用音素片として夫々選択し、上記変換規則学習部により、上記学習用音素片である上記複数の音素片の変換規則を学習し、学習された複数の音素片の変換規則の平均を上記学習用音素片に対応するクラスの変換規則とするので、安定した変換規則を得ることができる。
【0011】
また、一実施形態の声質変換装置は、上記学習用音素片選択部により選択された学習用音素片を含む上記変換規則学習用の発話セットの発話数を調節することによって変換規則の精度を設定する変換精度設定部を備えることを特徴としている。
【0012】
上記実施形態の声質変換装置によれば、上記変換精度設定部によって、学習用音素片選択部により選択された学習用音素片を含む変換規則学習用の発話セットの発話数を調節することによって変換規則の精度を設定する。例えば、精度の高い変換規則を用いる場合にはクラス数を多くして、変換規則学習用の発話セットの発話数を増やす一方、精度の低い変換規則を用いる場合にはクラス数を少なくして、変換規則学習用の発話セットの発話数を減らすのである。そうすることによって、要求される品質に応じて適切な変換精度を得ることが可能になる。なお、上記変換規則学習用の発話セットの発話数の調節は、クラス数の増減に限らず、他の方法を用いてもよい。
【0013】
また、この発明の声質変換方法は、変換規則学習用の発話セットを発話することにより学習された変換規則を用いて声質変換を行う声質変換方法において、2人以上の話者の音声データベースから音声の特徴を夫々抽出するパラメータ抽出ステップと、上記パラメータ抽出ステップにおいて上記2人以上の話者の音声データベースから抽出された各人の音声の特徴を表すパラメータに基づいて、上記2人以上の話者のうちのある話者から他の話者に声質を変換するための音素片毎の変換規則を作成する変換規則作成ステップと、上記変換規則作成ステップにおいて作成された上記音素片毎の変換規則をクラス分けするクラスタリングステップと、上記クラスタリングステップにおいてクラス分けされた各クラスを構成する各変換規則夫々に対応する音素片の中から夫々のクラスを代表する学習用音素片を選択して、選択された学習用音素片を上記変換規則学習用の発話セットに含める学習用音素片選択ステップと、上記パラメータ抽出ステップ,変換規則作成ステップ,クラスタリングステップおよび学習用音素片選択ステップにより予め作成された上記変換規則学習用の発話セットを変換元話者と変換先話者により発話させて、その発話された上記変換規則学習用の発話セットに含まれる上記学習用音素片の変換規則を学習し、その学習された変換規則を上記学習用音素片に対応する上記クラスの変換規則とする変換規則学習ステップとを有することを特徴としている。
【0014】
上記実施形態の声質変換方法によれば、まず、上記パラメータ抽出ステップにおいて、2人以上の話者の音声を集めた音声データベースから音声の特徴を夫々抽出する。上記パラメータ抽出ステップにおいて上記音声データベースから抽出された各人の音声の特徴を表すパラメータに基づいて、上記変換規則作成ステップで2人以上の話者の中からある話者から他の話者に声質を変換するための音素片毎の変換規則を作成する。そして、上記変換規則作成ステップにおいて作成された上記音素片毎の変換規則をクラスタリングステップでクラス分けする。次に、上記学習用音素片選択ステップにおいて、クラス分けされた各クラスから夫々のクラスを代表する学習用音素片を選択して、選択された学習用音素片を含む変換規則学習用の発話セットを作成する。そうして予め作成された上記変換規則学習用の発話セットを用いて、実際に声質変換を行うときに変換元話者と変換先話者により上記変換規則学習用の発話セットを発話させて、発話された上記変換規則学習用の発話セットに含まれる学習用音素片の変換規則を学習し、その学習された変換規則を上記学習用音素片に対応する上記クラスの変換規則とする。すなわち、学習されたクラスを代表する音素片の変換規則をそのクラスを構成する全ての音素片の変換規則に適用する。そうして、予め学習された各クラスの音素片の変換規則を用いて、変換元話者の音声を変換先話者の声質に変換する。したがって、上記クラス分けされた各クラスを代表する音素片のみを学習することにより少量の発話においても最適な変換規則が得られるので、小規模な発話セットで変換規則の学習を効果的に行うことができる。
【0015】
また、この発明のプログラム記憶媒体は、上記声質変換方法を実行する制御プログラムを記憶している。
【0016】
上記プログラム記憶媒体によれば、記憶された制御プログラムをマイクロコンピュータ等の情報処理装置に読み込んで、その制御プログラムを実行することによって、クラス分けされた各クラスを代表する音素片のみの学習により少量の発話においても最適な変換規則が得られるので、小規模な発話セットで変換規則の学習を効果的に行うことができる。
【0017】
【発明の実施の形態】
以下、この発明の声質変換装置および声質変換方法およびプログラム記憶媒体を図示の実施の形態により詳細に説明する。
【0018】
図1はこの発明の実施の一形態の声質変換装置のブロック図であり、101は既存の音声データベース(図1ではDB)の話者1の音声からパラメータを抽出するパラメータ抽出部、102は既存の音声データベース(図1ではDB)の話者2の音声からパラメータを抽出するパラメータ抽出部、103は上記パラメータ抽出部101,102により抽出された音声のパラメータに基づいて変換規則を作成する変換規則作成部、104は上記変換規則作成部103により作成された変換規則をクラス分けするクラスタリング部、105は上記クラスタリング部104によりクラス分けされた各クラスから夫々のクラスを代表する学習用音素片を選択して、選択された学習用音素片を有する単語等を変換規則学習用発話セット110に含める学習音素片選択部である。上記パラメータ抽出部101,102と変換規則作成部103とクラスタリング部104と学習音素片選択部105で学習用発話セット作成部111を構成している。この学習用発話セット作成部111はオフラインで予め発話セットを作成する。また、113は上記変換規則学習用発話セット110の発話数を調節することによって変換規則の精度を設定する変換精度設定部、107は上記変換規則学習用発話セット110に基づいて変換元話者と変換先話者の発話された音声を夫々認識する変換規則学習用発話認識部、108は上記変換規則学習用発話認識部107により認識された音声のパラメータに基づいて変換規則を作成する変換規則作成部、109は上記変換規則作成部108により作成された変換規則を記憶する変換規則記憶部、106は上記変換規則記憶部109の変換規則に基づいて変換元話者の入力音声を変換する声質変換部である。上記変換規則学習用発話セット110と変換精度設定部113と声質変換部106と変換規則学習用発話認識部107と変換規則作成部108と変換規則記憶部109で変換部112を構成している。この変換部112はオンラインで声質変換を行う。
【0019】
上記声質変換装置の学習セット選択方法では、まず、音声認識時のモデル学習等に用いられる時刻,音素がラベリングされた既存の音声データベースより音素のラベル情報に基づき同一条件の音素同士を抜き出し、パラメータ抽出部101,102により各音素に対してそれぞれパラメータの抽出を行う。そうして抽出されるパラメータは、実際に変換処理の行われるパラメータと同一のものであればどのようなパラメータであってもよい。この実施形態では、パラメータの一例としてスペクトル包絡を用いた場合について説明する。
【0020】
図2は上記声質変換装置の要部のブロック図であり、601は変換元話者の入力音声を構成する音素情報,時刻情報を抽出する音声情報抽出部、602は上記音声情報抽出部601により抽出された音素情報,時刻情報に基づいて音声のパラメータを抽出するパラメータ抽出部、603は上記パラメータ抽出部602により抽出された音声のパラメータを変換するパラメータ変換部、604は上記パラメータ変換部603により変換された音声のパラメータに基づいて変換先話者の声質の音声を合成する音声合成部、605は図1に示す変換規則学習用発話認識部107と変換規則作成部108とで構成された変換規則学習部、607は変換規則選択部、109は図1に示す変換規則記憶部、110は図1に示す変換規則学習用発話セット、113は図1に示す変換精度設定部である。上記音声情報抽出部601とパラメータ抽出部602とパラメータ変換部603と音声合成部604と変換規則選択部607で図1に示す声質変換部106を構成している。
【0021】
まず、声質変換全体の処理を説明した後、この発明の特徴である変換規則学習用発話セットの作成方法について説明する。
【0022】
上記構成の声質変換装置において、音声情報抽出部601に入力された音声は、音声認識によって音素情報,時刻情報が抽出される。また、テキスト音声合成で作成された音声に対して声質変換を行う場合にも、元のテキストデータからその音素情報や時刻情報が抽出される。次に、上記パラメータ抽出部602に入力された音声は、線形予測等の既存のパラメータ抽出手法によって音声のスペクトル形状を表すパラメータが抽出される。次に、抽出されたパラメータは、パラメータ変換部603において、音声情報抽出部601で抽出された音声情報により、変換規則選択部607によって選択された変換規則に基づいて変換が行われる。なお、このとき選択の対象となる変換規則は、予めターゲット話者により発話された発話セットから変換規則学習部605により作成されたものである。最後に変換されたパラメータから音声合成部604により音声を合成することで声質変換の行われた音声が得られる。
【0023】
次に、変換規則の作成および声質変換の処理について詳しく説明する。これまでに説明した手順によって、変換規則を用いた声質変換は行われるが、ここで重要になるのが変換規則の作成である。この実施形態では、音素片の一例として1つの音素を合成単位とする声質変換を示している。このとき前後の音素を考えず、個々に変換規則を作成するだけでも40種類程度の変換規則が必要になり、さらに詳しく前後の音素環境まで考えると、非常に多くの変換規則が必要となる。したがって、変換規則学習のための学習用発話セット(ターゲット話者の発話量)も膨大なものになり、発話者に多大な負担を負わせることになる。しかしながら、発話者の負担を軽減するために変換規則を減らすと、変換精度が悪くなる。
【0024】
そこで、この発明の声質変換装置では、予め収録されている複数話者の大量発話サンプル(音声データベース)から、前後音素の接続環境による音響的特徴の変化も考えた音素に対して変換規則を作成し、その変換規則をクラスタリングすることにより比較的似通った変換規則をまとめておく。そして、声質変換を行う新たな話者へもこの変換規則通りのクラスタリングを適用することで各クラスの変換規則を代表的なひとつの変換規則で表している。このとき、まとめられた代表音素ひとつの学習を行うだけでよいから、ターゲット話者の発話回数の削減が実現される。
【0025】
図3は上記声質変換装置のパラメータ抽出手法を説明する図である。図3に示すように、パラメータ抽出部101,102(図1に示す)では、既存のデータベース1,2から音声情報(主に音素情報)に基づいて抽出された音声の音素中心信号に対して線形予測分析を行い、その線形予測係数を得る。この線形予測係数に対して、フーリエ変換を行うことで入力信号のパワースペクトルに対する包絡成分が抽出される。以上の手順で2つのデータベース1,2から音素の接続環境が同じ条件のスペクトル包絡201,202が抽出される。変換規則は、このようにして抽出された2つのパラメータにより様々な対応付け手法によって学習される。
【0026】
また、図4は上記2つのパラメータであるスペクトル包絡201,202に基づいて変換規則を作成する方法を説明する図である。図4に示すように、図3で抽出された2話者分のスペクトル包絡201,202は、DPマッチング等の手法(特開平4−147300号公報参照)により対応付けられて、パラメータ同士の対応付けを示す変換規則301が学習される。
【0027】
このようにして得られた変換規則に対して、クラスタリング部104(図1に示す)によりクラスタリングの手法を用いて変換規則のクラスタリングを行う。クラスタリングの方法としては、大きな集合を徐々に分解していくトップダウンの方法と、小さな集合を組み合わせて大きな集合を作るボトムアップの方法がある。どちらの方法を用いる場合にも、分解能(クラスの数)を調整することができるため、予め複数の分解能で発話セットを作成しておけば、高精度の変換規則が必要な場合には高分解能の学習用発話セット、そうでなくても良い場合には低分解能の学習用発話セットを用いることもできる。このとき、変換精度設定部113(図1に示す)は、外部から与えられた精度情報により学習用発話セット(クラス数)を変更する。すなわち、精密な変換規則を用いる場合にはクラス数を多くし、粗な変換規則を用いる場合はクラス数を少なくするのである。
【0028】
また、図5は変換規則の分布を示しており、上記高精度の変換規則を得る場合のクラスが401,402,403,404であり、精度の低い変換規則を得る場合のクラスが405,406である。図5では、少数のサンプルのみ表示しているため両分解能の差は小さいが、実際の状況では、多くの音素、音素列の変換規則が要素となるため、その分解能には大きな差が出る。こうしてクラスタリングされた変換規則に対しては、学習用音素片選択部105において同一のクラスに属しているものを平均し、代表となる点(ベクトル量子化におけるセントロイド)を得る。次に、得られた代表点に最も近いものをそのグループの代表音素とし、その音素またはその音素を含む単語等を変換規則学習用発話セット110に加える。
【0029】
図5においては、高精度の変換規則を得る場合のクラスの各代表点が黒丸で表されている。このとき代表点に最も近い各代表音素はそれぞれ太字の/a/、/n/、/s/、/p/となり、学習用発話セットの音素数は4つとなる。また、粗い変換規則を得る場合のクラスにおいては、その代表音素は同様にそれぞれ/o/、/s/であり、学習用発話セットの音素数は2つとなる。
【0030】
また、図6はクラスタリングを説明する図であり、図6に示すように、1つのクラスに多くのメンバが存在する場合等は、クラス501や、クラス502のように同じクラスにおいて代表点に近い複数個の音素を選択して発話セットに与え、オンラインの学習時にそれら同クラスの変換規則の平均をそのクラスの変換規則とすることも可能である。図6においては、代表点に近い2つの音素/e/,音素/o/、また、音素/s/,音素/p/を選択しているが、選択する数は任意に変更することが可能である。この実施の形態では、音素について説明したが、この発明は、CVC(子音−母音−子音)やVCV(母音−子音−母音)等の全ての音声合成単位に対して使用することが可能である。
【0031】
このようにして選択された学習用発話セットを用いて、各クラスの変換規則が学習される。この実施形態においては、上記のようにして選択された学習用発話セットを用いて学習した各クラスの変換規則に関し、図2の変換規則選択部607(図2に示す)は、音声情報から入力音素の含まれるクラスの代表変換規則を選択し、パラメータ変換部603(図2に示す)に与える。例えば、図5中の405,406のように、2つのクラスが存在する場合に音素/i/を変換するとき、変換規則選択部607は、音素/i/の含まれるクラスの代表変換規則/o/をパラメータ変換部603に与える。パラメータ変換部603では、与えられた変換規則によりパラメータ変換を行い、変換されたパラメータは、音声合成部604により声質変換の行われた音声として出力される。
【0032】
このように、上記声質変換装置によれば、クラス分けされた各クラスを代表する音素片のみを学習することにより少量の発話でも最適な変換規則が得られるので、小規模な発話セットで変換規則の学習を効果的に行うことができる。
【0033】
また、上記学習用音素片選択部105によりクラス毎にそのクラスの音素片の変換規則の平均に最も近い変換規則の音素片または変換規則が近い複数の音素片を上記学習用音素片として夫々選択し、上記変換規則学習部605により、学習用音素片である複数の音素片の変換規則を学習し、学習された複数の音素片の変換規則の平均を学習用音素片に対応するクラスの変換規則とすることによって、安定した変換規則を得ることができる。
【0034】
また、上記変換精度設定部113によって、学習用音素片選択部105により選択された学習用音素片を含む変換規則学習用の発話セットの発話数を調節してすなわちクラス分けのクラス数を調整して、変換規則の精度を設定することによって、要求される品質に応じて適切な変換精度を得ることができる。
【0035】
上記実施の形態における音質変換装置としての機能は、プログラム記憶媒体に記憶された音質変換方法を実行するプログラムによって実現される。上記プログラム記憶媒体は、本体側と分離可能に構成され、磁気テープやカセットテープ等のテープ系、フロッピーディスク,ハードディスク等の磁気ディスクやCD−ROM(コンパクトディスク−リード・オンリー・メモリー),MO(光磁気)ディスク,MD(ミニディスク),DVD(デジタル・バーサタイル・ディスク)等の光ディスクのディスク系、IC(集積回路)カードや光カード等のカード系、マスクROM,EPROM(紫外線消去型ROM),EEPROM(電気的消去型ROM),フラッシュROM等の半導体メモリ系を含めた固定的にプログラムを坦持する媒体である。
【0036】
上記実施の形態では、2人の話者の音声データベースを用いて変換規則学習用発話セット110を作成したが、2人以上の話者の音声データベースを用いて複数の話者間についての変換規則を作成し、変換規則学習用発話セットとしてもよい。
【0037】
また、上記実施の形態では、上記学習音素片選択部105により、クラス分けされたクラス毎に、そのクラスを構成する音素片の変換規則の平均に近い変換規則の音素片をそのクラスを代表する学習用音素片として夫々選択したが、クラスを代表する学習用音素片の選択方法はこれに限らない。
【0038】
また、上記実施の形態では、クラス数の増減によって変換規則学習用の発話セットの発話数を調節したが、クラス数の増減によらず、クラス毎に選択される学習用音素片の数を増減させるなど、他の方法により変換規則学習用の発話セットの発話数を調節してもよいのは勿論である。
【0039】
【発明の効果】
以上より明らかなように、この発明の声質変換装置および声質変換方法およびプログラム記憶媒体によれば、既存の音声データベースを用いて変換規則を作成し、クラスタリングされた音素片の変換規則から選択される代表サンプル(音素片)を学習サンプルとすることにより、小規模な発話セットで変換規則の学習を効果的に行うことができると共に、要求される変換規則の精度に応じてターゲット話者が発話する学習用発話セットを変更することができる。また、ターゲット話者の負担軽減のために発話回数を減らし、低変換精度の変換規則を作成する場合も、その中で最適な変換規則の学習が行われる変換規則学習用の発話セットを選択できる。
【図面の簡単な説明】
【図1】 図1はこの発明の実施の一形態の声質変換装置の構成を示すブロック図である。
【図2】 図2は上記声質変換装置の要部のブロック図である。
【図3】 図3は上記声質変換装置のパラメータ抽出手法を説明する図である。
【図4】 図4は2つのスペクトル包絡に基づいて変換規則を作成する方法を説明する図である。
【図5】 図5は変換規則の分布を示す図である。
【図6】 図6はクラスタリングを説明する図である。
【符号の説明】
101,102…パラメータ抽出部、
103…変換規則作成部、
104…クラスタリング部、
105…学習用音素片選択部、
106…声質変換部、
107…変換規則学習用発話認識部、
108…変換規則作成部、
109…変換規則記憶部、
110…変換規則学習用発話セット、
111…学習用発話セット作成部、
112…変換部、
113…変換精度設定部、
601…音声情報抽出部、
602…パラメータ抽出部、
603…パラメータ変換部、
604…音声合成部、
605…変換規則学習部、
607…変換規則選択部。

Claims (6)

  1. 変換規則学習用の発話セットを発話することにより学習された変換規則を用いて声質変換を行う声質変換装置において、
    2人以上の話者の音声データベースから音声の特徴を夫々抽出するパラメータ抽出部と、
    上記パラメータ抽出部により上記2人以上の話者の音声データベースから抽出された各人の音声の特徴を表すパラメータに基づいて、上記2人以上の話者のうちのある話者から他の話者に声質を変換するための音素片毎の変換規則を作成する変換規則作成部と、
    上記変換規則作成部により作成された上記音素片毎の変換規則をクラス分けするクラスタリング部と、
    上記クラスタリング部によりクラス分けされた各クラスを構成する各変換規則夫々に対応する音素片の中から夫々のクラスを代表する学習用音素片を選択して、選択された学習用音素片を含む上記変換規則学習用の発話セットを作成する学習用音素片選択部と、
    上記パラメータ抽出部,変換規則作成部,クラスタリング部および学習用音素片選択部により予め作成された上記変換規則学習用の発話セットを変換元話者と変換先話者により発話させて、その発話された上記変換規則学習用の発話セットに含まれる上記学習用音素片の変換規則を学習し、その学習された変換規則を上記学習用音素片に対応する上記クラスの変換規則とする変換規則学習部とを備えることを特徴とする声質変換装置。
  2. 請求項1に記載の声質変換装置において、
    上記学習用音素片選択部は、上記クラスタリング部によりクラス分けされたクラス毎に、そのクラスを構成する音素片の変換規則の平均に最も近い変換規則の音素片をそのクラスを代表する上記学習用音素片として夫々選択することを特徴とする声質変換装置。
  3. 請求項1に記載の声質変換装置において、
    上記学習用音素片選択部は、上記クラスタリング部によりクラス分けされたクラス毎に、そのクラスの音素片の変換規則の平均に変換規則が近い複数の音素片をそのクラスを代表する上記学習用音素片として夫々選択し、
    上記変換規則学習部は、上記学習用音素片である上記複数の音素片の変換規則を学習し、学習された上記複数の音素片の変換規則の平均を上記学習用音素片に対応する上記クラスの変換規則とすることを特徴とする声質変換装置。
  4. 請求項1に記載の声質変換装置において、
    上記学習用音素片選択部により選択された学習用音素片を含む上記変換規則学習用の発話セットの発話数を調節することによって変換規則の精度を設定する変換精度設定部を備えることを特徴とする声質変換装置。
  5. 変換規則学習用の発話セットを発話することにより学習された変換規則を用いて声質変換を行う声質変換方法において、
    2人以上の話者の音声データベースから音声の特徴を夫々抽出するパラメータ抽出ステップと、
    上記パラメータ抽出ステップにおいて上記2人以上の話者の音声データベースから抽出された各人の音声の特徴を表すパラメータに基づいて、上記2人以上の話者のうちのある話者から他の話者に声質を変換するための音素片毎の変換規則を作成する変換規則作成ステップと、
    上記変換規則作成ステップにおいて作成された上記音素片毎の変換規則をクラス分けするクラスタリングステップと、
    上記クラスタリングステップにおいてクラス分けされた各クラスを構成する各変換規則夫々に対応する音素片の中から夫々のクラスを代表する学習用音素片を選択して、選択された学習用音素片を上記変換規則学習用の発話セットに含める学習用音素片選択ステップと、
    上記パラメータ抽出ステップ,変換規則作成ステップ,クラスタリングステップおよび学習用音素片選択ステップにより予め作成された上記変換規則学習用の発話セットを変換元話者と変換先話者により発話させて、その発話された上記変換規則学習用の発話セットに含まれる上記学習用音素片の変換規則を学習し、その学習された変換規則を上記学習用音素片に対応する上記クラスの変換規則とする変換規則学習ステップとを有することを特徴とする声質変換方法。
  6. 請求項5に記載の声質変換方法を実行する制御プログラムを記憶したプログラム記憶媒体。
JP2001007622A 2001-01-16 2001-01-16 声質変換装置および声質変換方法およびプログラム記憶媒体 Expired - Fee Related JP3662195B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001007622A JP3662195B2 (ja) 2001-01-16 2001-01-16 声質変換装置および声質変換方法およびプログラム記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001007622A JP3662195B2 (ja) 2001-01-16 2001-01-16 声質変換装置および声質変換方法およびプログラム記憶媒体

Publications (2)

Publication Number Publication Date
JP2002215199A JP2002215199A (ja) 2002-07-31
JP3662195B2 true JP3662195B2 (ja) 2005-06-22

Family

ID=18875348

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001007622A Expired - Fee Related JP3662195B2 (ja) 2001-01-16 2001-01-16 声質変換装置および声質変換方法およびプログラム記憶媒体

Country Status (1)

Country Link
JP (1) JP3662195B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4025355B2 (ja) * 2004-10-13 2007-12-19 松下電器産業株式会社 音声合成装置及び音声合成方法
JP4817250B2 (ja) * 2006-08-31 2011-11-16 国立大学法人 奈良先端科学技術大学院大学 声質変換モデル生成装置及び声質変換システム

Also Published As

Publication number Publication date
JP2002215199A (ja) 2002-07-31

Similar Documents

Publication Publication Date Title
Ghai et al. Literature review on automatic speech recognition
Abushariah et al. Natural speaker-independent Arabic speech recognition system based on Hidden Markov Models using Sphinx tools
JP4176169B2 (ja) 言語合成のためのランタイムアコースティックユニット選択方法及び装置
Kockmann et al. Application of speaker-and language identification state-of-the-art techniques for emotion recognition
US20070213987A1 (en) Codebook-less speech conversion method and system
WO2008033095A1 (en) Apparatus and method for speech utterance verification
US20070294082A1 (en) Voice Recognition Method and System Adapted to the Characteristics of Non-Native Speakers
Chang et al. An elitist approach to articulatory-acoustic feature classification
Aggarwal et al. Integration of multiple acoustic and language models for improved Hindi speech recognition system
US6546369B1 (en) Text-based speech synthesis method containing synthetic speech comparisons and updates
Sawant et al. Isolated spoken Marathi words recognition using HMM
JP2955297B2 (ja) 音声認識システム
Chen et al. Polyglot speech synthesis based on cross-lingual frame selection using auditory and articulatory features
JP3703394B2 (ja) 声質変換装置および声質変換方法およびプログラム記憶媒体
JP3919475B2 (ja) 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体
JP3662195B2 (ja) 声質変換装置および声質変換方法およびプログラム記憶媒体
Toledano et al. Initialization, training, and context-dependency in HMM-based formant tracking
Abraham et al. An automated technique to generate phone-to-articulatory label mapping
DeMarco et al. An accurate and robust gender identification algorithm
Manjunath et al. Automatic phonetic transcription for read, extempore and conversation speech for an Indian language: Bengali
Sharma et al. Soft-Computational Techniques and Spectro-Temporal Features for Telephonic Speech Recognition: an overview and review of current state of the art
Nose et al. HMM-based speech synthesis with unsupervised labeling of accentual context based on F0 quantization and average voice model
JP2001282300A (ja) 声質変換装置および声質変換方法、並びに、プログラム記録媒体
Salvi Accent clustering in Swedish using the Bhattacharyya distance
Ninh A speaker-adaptive hmm-based vietnamese text-to-speech system

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040903

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050315

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050322

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080401

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090401

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100401

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees