JP3703394B2 - 声質変換装置および声質変換方法およびプログラム記憶媒体 - Google Patents

声質変換装置および声質変換方法およびプログラム記憶媒体 Download PDF

Info

Publication number
JP3703394B2
JP3703394B2 JP2001007615A JP2001007615A JP3703394B2 JP 3703394 B2 JP3703394 B2 JP 3703394B2 JP 2001007615 A JP2001007615 A JP 2001007615A JP 2001007615 A JP2001007615 A JP 2001007615A JP 3703394 B2 JP3703394 B2 JP 3703394B2
Authority
JP
Japan
Prior art keywords
conversion
phoneme
rule
spectral envelope
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001007615A
Other languages
English (en)
Other versions
JP2002215198A (ja
Inventor
一浩 三木
智一 森尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2001007615A priority Critical patent/JP3703394B2/ja
Publication of JP2002215198A publication Critical patent/JP2002215198A/ja
Application granted granted Critical
Publication of JP3703394B2 publication Critical patent/JP3703394B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
この発明は、ある話者の発声した音声を別のある話者の音声に変換する声質変換装置および声質変換方法およびプログラム記憶媒体に関する。
【0002】
【従来の技術】
従来、第1の声質変換装置としては、スペクトル包絡を表現するパラメータ(例えば線形予測係数)のセットをベクトルと考え、変換元話者と変換先話者のベクトルに対してベクトル量子化を行い、2話者のコードブック間の対応付けを行うコードブックマッピングを用いたものがある(特開平7−104792号公報参照)。
【0003】
また、第2の声質変換装置としては、スペクトル包絡からホルマントピークを抽出し、2話者のホルマントピーク間の包絡成分を(N+1)等分してN点の代表値を作成した後、それらの代表値を対応付けるような変換テーブルを5母音に対して作成し、その変換テーブルにより声質を変換するものがある(特開平9−244694号公報参照)。この第2の声質変換装置では、変換される部分が母音である場合にはそのままの変換テーブルが用いられ、変換部分が母音間のわたりの部分である場合には前後母音の変換テーブルの線形補間から得られる変換テーブルが用いられる。
【0004】
【発明が解決しようとする課題】
ところが、上記第1の声質変換装置では、コードブックの学習およびコードブック間の対応付けに際し、大量の発声データが必要となり、学習時間が長く多くの記憶容量を確保しなければならないという問題がある。また、上記第2の声質変換装置では、ホルマントピーク間の包絡成分を変換の対象としており、ホルマントピークの検出が比較的簡単な母音および母音間のわたりに関しては対応できるが、ホルマントピークの検出が難しい子音や子音を含むわたり区間が存在する場合には適用するのが難しいという問題がある。このように、上記第2声質変換装置は、子音の処理や音素間のわたり区間の処理(特に子音を含むわたりの部分に関しての処理)が行われず、そのため、その部分でスペクトル包絡の時間的な変化が急激に起こることにより変換後の音声に歪が生じるという問題がある。
【0005】
そこで、この発明の目的は、大量の発声データを必要とすることなく、変換後の音声を低歪化でき、音質のよい声質変換ができる声質変換装置および声質変換方法およびプログラム記憶媒体を提供することにある。
【0006】
【課題を解決するための手段】
上記目的を達成するため、この発明の声質変換装置は、変換元話者の音声から変換先話者の音声に変換する声質変換装置において、上記変換元話者の音声から変換先話者の音声に変換するための母音のスペクトル包絡変換規則および子音のスペクトル包絡変換規則が予め記憶されたスペクトル包絡変換規則記憶部と、上記スペクトル包絡変換規則記憶部に記憶された上記母音のスペクトル包絡変換規則および上記子音のスペクトル包絡変換規則から、上記変換元話者の入力音声を構成する各音素に対応したスペクトル包絡変換規則をそれぞれ選択する変換規則選択部と、上記変換元話者の入力音声を構成する音素間のわたり区間のスペクトル包絡変換規則を、上記変換規則選択部により選択された上記わたり区間の前の音素に対応するスペクトル包絡変換規則が、上記変換規則選択部により選択された上記わたり区間の後の音素に対応するスペクトル包絡変換規則へと、上記わたり区間において滑らかに変化するように上記各スペクトル包絡変換規則を補間することにより推定する音素間変換規則推定部と、上記変換元話者の入力音声からスペクトル包絡を抽出するスペクトル包絡抽出部と、上記音素間のわたり区間のみにおいては、上記音素間変換規則推定部により推定されたわたり区間のスペクトル包絡変換規則を用い、上記音素間のわたり区間以外の区間においては、上記変換規則選択部により選択された上記変換元話者の入力音声を構成する音に対応したスペクトル包絡変換規則を用いることによって、上記スペクトル包絡抽出部により上記変換元話者の入力音声から抽出されたスペクトル包絡を上記変換先話者の音声のスペクトル包絡に変換するスペクトル包絡変換部と、上記スペクトル包絡変換部により変換されたスペクトル包絡から音声を合成する音声合成部とを備えたことを特徴としている。
【0007】
上記構成の声質変換装置によれば、上記変換元話者の音声から変換先話者の音声に変換するために母音のスペクトル包絡変換規則および子音のスペクトル包絡変換規則を予め作成する。例えば、変換元話者と変換先話者がそれぞれ発声した音声を構成する音素の母音,子音に基づいて、線形予測分析等を用いてスペクトル包絡変換規則を作成する。そうして、作成された母音のスペクトル包絡変換規則および子音のスペクトル包絡変換規則をスペクトル包絡変換規則記憶部に記憶する。そして、上記スペクトル包絡変換規則記憶部に記憶された母音のスペクトル包絡変換規則および子音のスペクトル包絡変換規則の中から、変換元話者の入力音声を構成する音素の母音および子音に対応するスペクトル包絡変換規則を変換規則選択部により選択する。上記変換規則選択部により選択された変換元話者の入力音声を構成する音素の母音および子音に対応するスペクトル包絡変換規則に基づいて、変換元話者の入力音声を構成する音素間のわたり区間のスペクトル包絡変換規則を音素間変換規則推定部により子音とその前後の母音のそれぞれのスペクトル包絡変換テーブルとの線形補間等を用いて推定する。また、上記変換元話者の入力音声からスペクトル包絡抽出部によりスペクトル包絡を抽出する。そうして、上記変換規則選択部により選択された変換元話者の入力音声を構成する音素の母音および子音に対応するスペクトル包絡変換規則と、音素間変換規則推定部により推定された変換元話者の入力音声を構成する音素間のわたり区間のスペクトル包絡変換規則とに基づいて、上記スペクトル包絡抽出部により変換元話者の音声から抽出されたスペクトル包絡をスペクトル包絡変換部により変換先話者の音声のスペクトル包絡に変換した後、その変換されたスペクトル包絡から音声合成部により変換先話者の声質の音声を合成する。
【0008】
このようにして、母音から子音、子音から母音への音素間のわたり区間に対して音素間変換規則推定部により推定されたスペクトル包絡変換規則を用いてスペクトル包絡変換を行うことによって、スペクトル包絡を時間的に滑らかに変化させて、変換後の音声を低歪化でき、音質のよい声質変換処理を行うことができる。
【0009】
また、一実施形態の声質変換装置は、上記変換元話者の入力音声を構成する音素およびその音素の開始時刻と終了時刻を表す音声ラベル情報を付与する音声ラベル付与部と、上記音声ラベル付与部により付与された上記音声ラベル情報を記憶する音声ラベル情報記憶部と、上記音声ラベル情報記憶部に記憶された上記音声ラベル情報および所定の規則に基づいて音素間のわたり区間を決定し、上記入力音声を構成する音素のスペクトル包絡の変換を行う区間を制御する変換ラベルを作成する変換ラベル作成部とを備え、上記変換規則選択部は、上記変換ラベル作成部により作成された変換ラベルに基づいて、上記スペクトル包絡変換規則記憶部から上記変換元話者の入力音声を構成する音素の母音および子音に対応するスペクトル包絡変換規則を選択することを特徴としている。
【0010】
上記実施形態の声質変換装置によれば、上記音声ラベル付与部により付与された上記変換元話者の入力音声を構成する音素およびその音素の開始時刻と終了時刻を表す音声ラベル情報を音声ラベル情報記憶部に記憶し、その音声ラベル情報記憶部に記憶された音声ラベル情報および所定の規則に基づいて音素間のわたり区間を決定し、上記変換ラベル作成部によって、変換元話者の入力音声を構成する音素のスペクトル包絡の変換を行う区間を制御する変換ラベルを作成する。そうして、上記変換ラベル作成部により作成された変換ラベルに基づいて、上記変換規則選択部は、上記スペクトル包絡変換規則記憶部から上記変換元話者の入力音声を構成する音素の母音および子音に対応するスペクトル包絡変換規則を選択する。したがって、上記変換元話者の入力音声から声質変換に最適なスペクトル包絡変換規則を得ることができる。
【0011】
また、一実施形態の声質変換装置は、音素中心間で上記音素間のわたり区間を決定する音素中心モードまたは音素境界の周辺のみで上記音素間のわたり区間を決定する音素境界モードのいずれか一方を上記変換ラベル作成部に指示するモード切り替え部を備え、上記変換ラベル作成部は、上記モード切り替え部から指示された上記音素中心モードまたは上記音素境界モードのいずれか一方を上記所定の規則とし、上記音素中心間モードのときは音素中心間で上記音素間のわたり区間を決定し、上記音素境界モードのときは音素境界の周辺のみで上記音素間のわたり区間を決定することを特徴としている。
【0012】
上記実施形態の声質変換装置によれば、上記モード切り替え部によって、上記変換ラベル作成部の所定の規則として、音素中心間で上記音素間のわたり区間を決定するモードと音素境界の周辺のみで上記音素間のわたり区間を決定するモードのいずれか一方を上記変換ラベル作成部に指示することによって、最適な音質に調整することができる。
【0013】
また、一実施形態の声質変換装置は、上記子音のスペクトル包絡変換規則が、全ての子音に対して同じスペクトル包絡変換規則、有声子音,無声子音のグループ毎に作成されたスペクトル包絡変換規則、または、音素の音響的特性でカテゴリ分けされたグループ毎のスペクトル包絡変換規則のうちのいずれか1つであることを特徴としている。
【0014】
上記実施形態の声質変換装置によれば、上記子音のスペクトル包絡変換規則として、全ての子音に対して同じスペクトル包絡変換規則、有声子音,無声子音のグループ毎に作成されたスペクトル包絡変換規則、または、音素の音響的特性でカテゴリ分けされたグループ毎のスペクトル包絡変換規則のうちのいずれか1つを用いることによって、少ない変換規則で子音のスペクトル包絡を変換することができる。
【0015】
また、この発明の声質変換方法は、変換元話者の音声から変換先話者の音声に変換する声質変換方法において、上記変換元話者の音声から変換先話者の音声に変換するための母音のスペクトル包絡変換規則および子音のスペクトル包絡変換規則をスペクトル包絡変換規則記憶部に記憶するスペクトル包絡変換規則記憶ステップと、上記スペクトル包絡変換規則記憶ステップにおいて上記スペクトル包絡変換規則記憶部に記憶された母音のスペクトル包絡変換規則および子音のスペクトル包絡変換規則から、上記変換元話者の入力音声を構成する各音素に対応したスペクトル包絡変換規則をそれぞれ選択する変換規則選択ステップと、上記変換元話者の入力音声を構成する音素間のわたり区間のスペクトル包絡変換規則を、上記変換規則選択ステップにより選択された上記わたり区間の前の音素に対応するスペクトル包絡変換規則が、上記変換規則選択ステップにより選択された上記わたり区間の後の音素に対応するスペクトル包絡変換規則へと、上記わたり区間において滑らかに変化するように上記各スペクトル包絡変換規則を補間することにより推定する音素間変換規則推定ステップと、上記変換元話者の入力音声からスペクトル包絡を抽出するスペクトル包絡抽出ステップと、上記音素間のわたり区間のみにおいては、上記音素間変換規則推定ステップにおいて推定された上記変換元話者の入力音声を構成する音素間のわたり区間のスペクトル包絡変換規則を用い、上記音素間のわたり区間以外の区間においては、上記変換規則選択ステップにおいて選択された上記変換元話者の入力音声を構成する音素に対応したスペクトル包絡変換規則を用いることによって、上記スペクトル包絡抽出ステップにおいて上記変換元話者の入力音声から抽出されたスペクトル包絡を上記変換先話者の音声のスペクトル包絡に変換するスペクトル包絡変換ステップと、上記スペクトル包絡変換ステップにおいて変換されたスペクトル包絡から音声を合成する音声合成ステップとを有することを特徴としている。
【0016】
上記声質変換方法によれば、上記変換元話者の音声から変換先話者の音声に変換するために母音のスペクトル包絡変換規則および子音のスペクトル包絡変換規則を予め作成する。例えば、変換元話者と変換先話者がそれぞれ発声した音声を構成する音素の母音,子音に基づいて、線形予測分析等を用いてスペクトル包絡変換規則を作成する。そうして、作成された母音のスペクトル包絡変換規則および子音のスペクトル包絡変換規則をスペクトル包絡変換規則記憶ステップにおいてスペクトル包絡変換規則記憶部に記憶する。そして、上記スペクトル包絡変換規則記憶部に記憶された母音のスペクトル包絡変換規則および子音のスペクトル包絡変換規則の中から、変換元話者の入力音声を構成する音素の母音および子音に対応するスペクトル包絡変換規則を変換規則選択ステップで選択する。上記変換規則選択ステップで選択された変換元話者の入力音声を構成する音素の母音および子音に対応するスペクトル包絡変換規則に基づいて、変換元話者の入力音声を構成する音素間のわたり区間のスペクトル包絡変換規則を音素間変換規則推定ステップにおいて子音とその前後の母音のそれぞれのスペクトル包絡変換テーブルとの線形補間等を用いて推定する。また、上記変換元話者の入力音声からスペクトル包絡抽出ステップにおいてスペクトル包絡を抽出する。そうして、上記変換規則選択ステップにおいて選択された変換元話者の入力音声を構成する音素の母音および子音に対応するスペクトル包絡変換規則と、音素間変換規則推定ステップにおいて推定された変換元話者の入力音声を構成する音素間のわたり区間のスペクトル包絡変換規則とに基づいて、スペクトル包絡抽出ステップにおいて変換元話者の音声から抽出されたスペクトル包絡をスペクトル包絡変換ステップにおいて変換先話者の音声のスペクトル包絡に変換した後、その変換されたスペクトル包絡から音声合成ステップで変換先話者の声質の音声を合成する。
【0017】
このようにして、母音から子音、子音から母音への音素間のわたり区間に対して、音素間変換規則推定ステップにおいて推定されたスペクトル包絡変換規則を用いてスペクトル包絡変換を行うことによって、スペクトル包絡を時間的に滑らかに変化させて、変換後の音声を低歪化でき、音質のよい声質変換処理を行うことができる。
【0018】
また、この発明のプログラム記憶媒体は、上記声質変換方法を実行する制御プログラムを記憶したことを特徴としている。
【0019】
上記プログラム記憶媒体によれば、記憶された制御プログラムをマイクロコンピュータ等の情報処理装置に読み込んで、その制御プログラムを実行することによって、母音から子音、子音から母音への音素間のわたり区間に対して推定されたスペクトル包絡変換規則を用いてスペクトル包絡変換を行うことによって、スペクトル包絡を時間的に滑らかに変化させて、変換後の音声を低歪化でき、音質のよい声質変換処理を行うことができる。
【0020】
【発明の実施の形態】
以下、この発明の声質変換装置および声質変換方法およびプログラム記憶媒体を図示の実施の形態により詳細に説明する。
【0021】
図1はこの発明の実施の一形態の声質変換装置の基本構成を示すブロック図であり、101は変換元話者の入力音声からスペクトル包絡を抽出するスペクトル包絡抽出部、102は上記スペクトル包絡抽出部101により抽出されたスペクトル包絡を変換するスペクトル包絡変換部、103は上記スペクトル包絡変換部102により変換されたスペクトル包絡から変換先話者の音声を合成する音声合成部、104は音声ラベル情報を与える音声ラベル付与部、105は上記音声ラベル付与部104により与えられる上記音声ラベル情報を記憶する音声ラベル情報記憶部、106は上記音声ラベル情報記憶部105に記憶された上記音声ラベル情報に基づいてスペクトル包絡を変換するための制御情報を表す変換ラベルを作成する変換ラベル作成部、107は変換元話者の入力音声を構成する音素間のスペクトル包絡変換テーブルを推定する音素間変換規則推定部としての音素間変換テーブル推定部、108は上記変換ラベル作成部106により作成された変換ラベルに基づいて、後述するスペクトル包絡変換テーブル記憶部109からスペクトル包絡変換テーブルを選択する変換規則選択部としての変換テーブル選択部、109は学習済みの母音のスペクトル包絡変換規則としての母音スペクトル包絡変換テーブル109aおよび子音のスペクトル包絡変換規則としての子音スペクトル包絡変換テーブル109bが記憶されたスペクトル包絡変換規則記憶部としてのスペクトル包絡変換テーブル記憶部である。
【0022】
上記スペクトル包絡変換部102は、母音スペクトル包絡変換テーブル109aおよび子音のスペクトル包絡変換規則としての子音スペクトル包絡変換テーブル109bと、音素間変換テーブル推定部107により推定された変換元話者の入力音声を構成する音素間のスペクトル包絡変換テーブルとに基づいて、スペクトル包絡抽出部101により抽出されたスペクトル包絡を変換先話者の音声を合成するためのスペクトル包絡に変換する。
【0023】
また、図2は図1に示す声質変換装置にモード切り替え部201を付加した構成を示すブロック図である。このモード切り替え部201は、音素中心モードであるか音素境界モードであるかを変換ラベル作成部106に音素間のわたり区間を決定するための規則として指示する。
【0024】
次に、図3は、図2に示す声質変換装置の音声ラベル付与部104として変換元話者の音声を認識する音声認識部301を用いた場合のブロック図である。以下、この発明の実施の形態として図3に示す声質変換装置について説明する。
【0025】
まず、全体の処理について説明する前に、この発明の特徴である母音と子音のわたり区間に関する処理について説明する。
【0026】
上記声質変換装置では、予め変換元話者の音声から変換先話者の音声に変換するための5母音のスペクトル包絡変換テーブルおよび子音のスペクトル包絡変換テーブルを作成し、それらのスペクトル包絡テーブルを用いた声質変換を行う。
【0027】
図4は上記スペクトル包絡変換テーブル記憶部109に記憶される母音スペクトル包絡変換テーブル109aと子音スペクトル包絡変換テーブル109bの作成手順を示している。
【0028】
図4に示すように、変換元話者および変換先話者が5母音(/a/,/i/,/u/,/e/,/o/)を発声し、それぞれ発声した各母音からスペクトル包絡抽出部401,402において線形予測分析により線形予測係数を求める。ここで、線形予測係数に対してフーリエ変換を行うことにより入力音声のパワースペクトルに対する包絡成分を抽出する。これら抽出したスペクトル包絡に対してDP(Dynamic Programming)マッチング部403では、それぞれの母音間でスペクトル包絡のDPマッチングを行うことにより5母音に対してスペクトル包絡の対応を取り,各々のスペクトル包絡変換テーブルを作成する(DPマッチングを用いた周波数軸の非線形変換については特開平4−147300号公報を参照)。このようにして作成された各母音のスペクトル包絡変換テーブルを母音スペクトル包絡変換テーブル109aとしてスペクトル包絡変換テーブル記憶部109に記憶する。
【0029】
また、子音については、母音に比べてスペクトル包絡が一定して得られないため、全ての子音に対して同じ無変換を表すスペクトル包絡変換テーブルや子音を有声子音と無声子音などの複数のカテゴリに分けて母音と同様の処理によりそのカテゴリ毎の変換テーブルを作成する。そうして作成された子音のスペクトル包絡変換テーブルを、母音のスペクトル包絡変換テーブルと同様に子音スペクトル包絡変換テーブル109bとしてスペクトル包絡変換テーブル記憶部109に記憶する。
【0030】
このとき、スペクトル包絡変換テーブル作成のための発声は必ずしも人間が行う必要はなく、人間が発声する代わりに音声合成の技術を用いて作成された音声など、スペクトル包絡の抽出できる音声であれば変換テーブルの作成は可能である。
【0031】
このようにして音素毎に作られた変換テーブル(109a,109b)を用いて、変換元話者の音声を変換先話者の音声に声質変換を行う手順について、図3を参照しながら説明する。ここでは説明のために入力音声として雨(/ame/)を用いる。
【0032】
まず、入力された変換元話者の音声は、音声認識器301によって発話音声の認識処理が行われる。認識処理の出力は、表1に示すように、時間とその音素を表す音声ラベル情報となる。表1の第3列は音素を表しており、第1列はその音素の開始時刻(msec)を表し、第2列は音素の終了時刻(msec)を表している。例えば2行目は、400(msec)から599(msec)が音素/m/であることを示している。
【0033】
【表1】
Figure 0003703394
【0034】
このようにして得られた音声ラベル情報が音声ラベル情報記憶部105に与えられて記憶される。この実施形態では、人間による発話音声を変換しているため、認識処理によりラベル情報を与えたが、テキスト音声合成などの合成音声を作成する場合には、その発声内容を指定するのが一般的であるため、種々の合成音声に対して声質の変換を行う場合には、認識処理を行わず、音声合成時の音素情報そのものを用いることができる。
【0035】
上記変換ラベル作成部106では、モード切り替え部201によって与えられるモード情報と音声ラベル情報から、実際にスペクトル包絡の変換を行う区間を制御する変換ラベルを作成する。
【0036】
図5は上記変換ラベル作成部106による変換ラベルの作成方法を説明する図である。上記モード切り替え部201により音素中心モードが選択された場合、図5に示す変換ラベル1のように、音声ラベル情報から各音素の中心時刻を計算し、音素中心間の区間に対してスペクトル包絡変換テーブルの推定を行うように変換ラベルを作成する。
【0037】
一方、上記モード切り替え部201により音素境界モードの場合、図5の変換ラベル2のように、各音素の終了時刻前の数msecから開始時刻後の数msecの間に対してスペクトル包絡変換テーブルの推定を行うように変換ラベルを作成する。なお、変換ラベル2の場合に対しては任意に変換区間を設定することもできる。このようにして得られた変換区間の情報は、表2に示すような時刻とそのスペクトル包絡変換テーブルで表され、変換テーブル選択部108に与えられる。
【0038】
【表2】
Figure 0003703394
【0039】
上記表2において、第1,第2列目はスペクトル包絡変換テーブルの開始時刻,終了時刻を夫々示しており、第3,第4列目はその各時刻のスペクトル包絡変換テーブルを表している。例えば2行目は、200(msec)から499(msec)の間にスペクトル包絡変換テーブルがaからmに遷移することを示している。
【0040】
上記変換テーブル選択部108では、変換ラベル作成部106で与えられた変換ラベルにより、遷移前半のスペクトル包絡変換テーブルと遷移後半のスペクトル包絡変換テーブルを選択する。このとき、母音のスペクトル包絡変換テーブルは、そのまま同じ母音のスペクトル包絡変換テーブルが選ばれ、子音のスペクトル包絡変換テーブルに関しては、無変換を表す変換テーブルやその他いくつかの変換テーブルの中からその子音の含まれるグループの変換テーブルが選ばれる。この実施形態では、子音のスペクトル包絡変換テーブルとして、全ての子音に対して同じ無変換を表すスペクトル包絡変換テーブルを選んだが、子音のスペクトル包絡変換テーブルとしては、例えば、子音を有声子音と無声子音等の複数のカテゴリに分けて、そのカテゴリ毎に作成されたスペクトル包絡変換テーブルや、音素の音響的特性でカテゴリ分けされたグループ毎のスペクトル包絡変換テーブルをもっている場合には、それらの中から最適なスペクトル包絡変換テーブルを選択してもよい。
【0041】
こうして得られた2つの音素のスペクトル包絡変換テーブルは、音素間変換テーブル推定部107に与えられる。上記音素間変換テーブル推定部107では、2つ時刻のスペクトル包絡変換テーブルから、処理を行う単位であるフレームに対して、その区間の各フレーム時刻におけるスペクトル包絡変換テーブルを推定する。
【0042】
図6は上記スペクトル包絡変換テーブルの推定方法を示している。上記音素間変換テーブル推定部107(図3に示す)は、最初に変換テーブル選択部108(図3に示す)から与えられた情報に基づき、遷移前半のスペクトル包絡変換テーブルおよび遷移後半のスペクトル包絡変換テーブルをセットする。図6では、遷移前半のスペクトル包絡変換テーブルが/a/のスペクトル包絡変換テーブル601となり、遷移後半のスペクトル包絡変換テーブルが/m/のスペクトル包絡変換テーブル602(この実施形態では無変換)となっている。このとき、時刻taと時刻tmとの間のわたり区間の各フレーム時刻t1,t2におけるスペクトル包絡変換テーブルは、2つのスペクトラム包絡変換テーブルの対応する周波数での値同士を直線で結び、直線上の時刻t1,t2に対応する時刻のデータの補間によって作成される(時刻t1の変換テーブル603,時刻t2の変換テーブル604)。図6に示すように、母音から子音へのわたり区間においても、スペクトル包絡が滑らかに変換されるようにスペクトル包絡変換テーブルが作成されるため、スペクトル包絡変換後の音声に不連続感(ノイズ)は生じない。このようにして、音素間のわたり区間に対するスペクトル包絡変換テーブルを作成する。
【0043】
次に、上記推定されたスペクトル包絡変換テーブルを使用した声質変換全体の処理について説明を行う。
【0044】
変換元話者の発声した音声は、スペクトル包絡抽出部101によって、スペクトル包絡変換テーブル作成時と同様の方法である線形予測分析により、そのスペクトル包絡と予測残差信号が抽出される。ここで得られたスペクトル包絡は、スペクトル包絡変換部102に送られ、変換先話者のスペクトル包絡にむけて変換される。上記スペクトル包絡変換部102では、入力されたスペクトル包絡に対して、非線形の変換テーブルを用いて、周波数方向に非線形変換を行う。
【0045】
図7は上記非線形変換の方法を示しており、入力されたスペクトル包絡は、非線形の変換テーブル701によって周波数方向に変換される(図7に示す破線は無変換を表す変換テーブル702である)。上記各変換テーブルは、変換元話者と変換先話者の周波数の対応を示しており、変換元話者の各周波数における値は変換先話者の対応する周波数に変換される。
【0046】
例えば、変換元話者の周波数a1の値は、変換テーブル701によって変換先話者の対応する周波数b1に変換される。このとき、a1−b1、a2−b2、a3−b3の変換のように変換テーブルが無変換を表す傾き1の直線702より上部にある場合は、変換前スペクトル包絡703と変換後スペクトル包絡704を比べて分かるようにスペクトル包絡は高周波数方向にシフトする。一方、a4−b4、a5−b5、a6−b6の変換のように変換テーブルが無変換を表す傾き1の直線702より下部にある場合は、そのスペクトル包絡は低周波数方向にシフトする。
【0047】
このようにして、与えられたスペクトル包絡は、非線形のスペクトル包絡変換テーブルを用いて周波数方向に変換される。このとき、上記変換テーブル推定部107では、音素間のわたり区間のスペクトル包絡変換テーブルは滑らかに変形しながらスペクトル包絡変換部102に与えられるので、スペクトル包絡変換結果も同様に時間的に滑らかに変形される。ここまで、変換テーブルという表現を用いたが、変換関数など、任意のスペクトル包絡変換規則によってスペクトル包絡の変換を行う場合に対しても同様の処理を行うことができる。
【0048】
そして、上記音声合成部103では、以上の操作によって変換された変換後スペクトル包絡に対して音声信号を合成する。この音声信号の合成方法としては、例えば、逆フーリエ変換を行うことで線形予測係数を計算し、得られた線形予測係数とスペクトル包絡抽出部101で得られる予測残差信号から変換先話者の音声を出力する。
【0049】
このように、上記声質変換装置によれば、音素間変換テーブル推定部107により、母音から子音、子音から母音への音素間のわたり区間に対して推定されたスペクトル包絡変換テーブルを用いてスペクトル包絡変換部102によりスペクトル包絡変換を行うことによって、スペクトル包絡を時間的に滑らかに変化させて、変換後の音声を低歪化でき、音質のよい声質変換処理を行うことができる。
【0050】
また、上記変換ラベル作成部106によって、音声認識部301により認識された変換元話者の入力音声の音声ラベル情報および所定の規則に基づいて音素間のわたり区間を決定して変換ラベルを作成し、その変換ラベルに基づいて、上記変換規則選択部108によって、スペクトル包絡変換テーブル記憶部109から変換元話者の入力音声を構成する音素の母音および子音に対応するスペクトル包絡変換テーブルを選択するので、変換元話者の入力音声から声質変換に最適なスペクトル包絡変換テーブルを得ることができる。
【0051】
また、上記モード切り替え部201によって、音素中心間でその音素間のわたり区間を決定する音素中心モードと音素境界の周辺のみで音素間のわたり区間を決定する音素境界モードのいずれか一方を変換ラベル作成部106に指示することによって、最適な音質に調整することができる。
【0052】
また、上記子音のスペクトル包絡変換テーブル109bとして、全ての子音に対して同じスペクトル包絡変換テーブル、有声子音,無声子音のグループ毎に作成されたスペクトル包絡変換テーブル、または、音素の音響的特性でカテゴリ分けされたグループ毎のスペクトル包絡変換規則のうちのいずれか1つを用いることによって、大量の発声データを必要とすることなく、母音に比べて一定なスペクトルが得にくい子音について適切な変換テーブルを用いることができる。
【0053】
上記実施の形態における音質変換装置としての機能は、プログラム記憶媒体に記憶された音質変換方法を実行するプログラムによって実現される。上記プログラム記憶媒体は、本体側と分離可能に構成され、磁気テープやカセットテープ等のテープ系、フロッピーディスク,ハードディスク等の磁気ディスクやCD−ROM(コンパクトディスク−リード・オンリー・メモリー),MO(光磁気)ディスク,MD(ミニディスク),DVD(デジタル・バーサタイル・ディスク)等の光ディスクのディスク系、IC(集積回路)カードや光カード等のカード系、マスクROM,EPROM(紫外線消去型ROM),EEPROM(電気的消去型ROM),フラッシュROM等の半導体メモリ系を含めた固定的にプログラムを坦持する媒体である。
【0054】
【発明の効果】
以上より明らかなように、この発明の声質変換装置および声質変換方法およびプログラム記憶媒体によれば、母音から子音、子音から母音へのわたり区間に対して、子音とその前後の母音のそれぞれのスペクトル包絡変換テーブルとの線形補間等により推定された音素間のわたり区間のスペクトル包絡変換テーブルを用いてスペクトル包絡変換を行うことによって、スペクトル包絡が時間的に滑らかに変化し、音質のよい声質変換処理を行うことができる。
【図面の簡単な説明】
【図1】 図1はこの発明の実施の一形態の声質変換装置の基本構成を説明するブロック図である。
【図2】 図2は上記声質変換装置にモード切り替え部を付加した構成を示すブロック図である。
【図3】 図3は図2に示す声質変換装置の音声ラベル付与部に変換元話者の発声を認識する音声認識部を用いた場合のブロック図である。
【図4】 図4はスペクトル包絡変換テーブルの作成法を説明する図である。
【図5】 図5は変換ラベルの作成法を説明する図である。
【図6】 図6は音素間のスペクトル包絡変換テーブルの作成法を説明する図である。
【図7】 図7はスペクトル包絡の非線形変換を説明する図である。
【符号の説明】
101…スペクトル包絡抽出部、
102…スペクトル包絡変換部、
103…音声合成部、
104…音声ラベル付与部、
105…音声ラベル情報記憶部、
106…音声ラベル作成部、
107…音素間変換テーブル推定部、
108…変換テーブル選択部、
109…スペクトル包絡変換テーブル記憶部、
109a…母音スペクトル包絡変換テーブル、
109b…子音スペクトル包絡変換テーブル、
201…モード切り替え部、
301…音声認識部。

Claims (6)

  1. 変換元話者の音声から変換先話者の音声に変換する声質変換装置において、
    上記変換元話者の音声から変換先話者の音声に変換するための母音のスペクトル包絡変換規則および子音のスペクトル包絡変換規則が予め記憶されたスペクトル包絡変換規則記憶部と、
    上記スペクトル包絡変換規則記憶部に記憶された上記母音のスペクトル包絡変換規則および上記子音のスペクトル包絡変換規則から、上記変換元話者の入力音声を構成する各音素に対応したスペクトル包絡変換規則をそれぞれ選択する変換規則選択部と、
    記変換元話者の入力音声を構成する音素間のわたり区間のスペクトル包絡変換規則を、上記変換規則選択部により選択された上記わたり区間の前の音素に対応するスペクトル包絡変換規則が、上記変換規則選択部により選択された上記わたり区間の後の音素に対応するスペクトル包絡変換規則へと、上記わたり区間において滑らかに変化するように上記各スペクトル包絡変換規則を補間することにより推定する音素間変換規則推定部と、
    上記変換元話者の入力音声からスペクトル包絡を抽出するスペクトル包絡抽出部と、
    上記音素間のわたり区間のみにおいては、上記音素間変換規則推定部により推定されたわたり区間のスペクトル包絡変換規則を用い、上記音素間のわたり区間以外の区間においては、上記変換規則選択部により選択された上記変換元話者の入力音声を構成する音素に対応したスペクトル包絡変換規則を用いることによって、上記スペクトル包絡抽出部により上記変換元話者の入力音声から抽出されたスペクトル包絡を上記変換先話者の音声のスペクトル包絡に変換するスペクトル包絡変換部と、
    上記スペクトル包絡変換部により変換されたスペクトル包絡から音声を合成する音声合成部とを備えたことを特徴とする声質変換装置。
  2. 請求項1に記載の声質変換装置において、
    上記変換元話者の入力音声を構成する音素およびその音素の開始時刻と終了時刻を表す音声ラベル情報を付与する音声ラベル付与部と、
    上記音声ラベル付与部により付与された上記音声ラベル情報を記憶する音声ラベル情報記憶部と、
    上記音声ラベル情報記憶部に記憶された上記音声ラベル情報および所定の規則に基づいて上記音素間のわたり区間を決定し、上記入力音声を構成する音素のスペクトル包絡の変換を行う区間を制御する変換ラベルを作成する変換ラベル作成部とを備え、
    上記変換規則選択部は、上記変換ラベル作成部により作成された変換ラベルに基づいて、上記スペクトル包絡変換規則記憶部から上記変換元話者の入力音声を構成する音素の母音および子音に対応するスペクトル包絡変換規則を選択することを特徴とする声質変換装置。
  3. 請求項2に記載の声質変換装置において、
    音素中心間で上記音素間のわたり区間を決定する音素中心モードまたは音素境界の周辺のみで上記音素間のわたり区間を決定する音素境界モードのいずれか一方を上記変換ラベル作成部に指示するモード切り替え部を備え、
    上記変換ラベル作成部は、上記モード切り替え部から指示された上記音素中心モードまたは上記音素境界モードのいずれか一方を上記所定の規則とし、上記音素中心間モードのときは音素中心間で上記音素間のわたり区間を決定し、上記音素境界モードのときは音素境界の周辺のみで上記音素間のわたり区間を決定することを特徴とする声質変換装置。
  4. 請求項1に記載の声質変換装置において、
    上記子音のスペクトル包絡変換規則は、全ての子音に対して同じスペクトル包絡変換規則、有声子音,無声子音のグループ毎に作成されたスペクトル包絡変換規則、または、音素の音響的特性でカテゴリ分けされたグループ毎のスペクトル包絡変換規則のうちのいずれか1つであることを特徴とする声質変換装置。
  5. 変換元話者の音声から変換先話者の音声に変換する声質変換方法において、
    上記変換元話者の音声から変換先話者の音声に変換するための母音のスペクトル包絡変換規則および子音のスペクトル包絡変換規則をスペクトル包絡変換規則記憶部に記憶するスペクトル包絡変換規則記憶ステップと、
    上記スペクトル包絡変換規則記憶ステップにおいて上記スペクトル包絡変換規則記憶部に記憶された母音のスペクトル包絡変換規則および子音のスペクトル包絡変換規則から、上記変換元話者の入力音声を構成する各音素に対応したスペクトル包絡変換規則をそれぞれ選択する変換規則選択ステップと、
    記変換元話者の入力音声を構成する音素間のわたり区間のスペクトル包絡変換規則を、上記変換規則選択ステップにより選択された上記わたり区間の前の音素に対応するスペクトル包絡変換規則が、上記変換規則選択ステップにより選択された上記わたり区間の後の音素に対応するスペクトル包絡変換規則へと、上記わたり区間において滑らかに変化するように上記各スペクトル包絡変換規則を補間することにより推定する音素間変換規則推定ステップと、
    上記変換元話者の入力音声からスペクトル包絡を抽出するスペクトル包絡抽出ステップと、
    上記音素間のわたり区間のみにおいては、上記音素間変換規則推定ステップにおいて推定されたわたり区間のスペクトル包絡変換規則を用い、上記音素間のわたり区間以外の区間においては、上記変換規則選択ステップにおいて選択された上記変換元話者の入力音声を構成する音素に対応したスペクトル包絡変換規則を用いることによって、上記スペクトル包絡抽出ステップにおいて上記変換元話者の入力音声から抽出されたスペクトル包絡を上記変換先話者の音声のスペクトル包絡に変換するスペクトル包絡変換ステップと、
    上記スペクトル包絡変換ステップにおいて変換されたスペクトル包絡から音声を合成する音声合成ステップとを有することを特徴とする声質変換方法。
  6. 請求項5に記載の声質変換方法を実行する制御プログラムを記憶したことを特徴とするプログラム記憶媒体。
JP2001007615A 2001-01-16 2001-01-16 声質変換装置および声質変換方法およびプログラム記憶媒体 Expired - Fee Related JP3703394B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001007615A JP3703394B2 (ja) 2001-01-16 2001-01-16 声質変換装置および声質変換方法およびプログラム記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001007615A JP3703394B2 (ja) 2001-01-16 2001-01-16 声質変換装置および声質変換方法およびプログラム記憶媒体

Publications (2)

Publication Number Publication Date
JP2002215198A JP2002215198A (ja) 2002-07-31
JP3703394B2 true JP3703394B2 (ja) 2005-10-05

Family

ID=18875342

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001007615A Expired - Fee Related JP3703394B2 (ja) 2001-01-16 2001-01-16 声質変換装置および声質変換方法およびプログラム記憶媒体

Country Status (1)

Country Link
JP (1) JP3703394B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101627427B (zh) * 2007-10-01 2012-07-04 松下电器产业株式会社 声音强调装置及声音强调方法
US8898062B2 (en) 2007-02-19 2014-11-25 Panasonic Intellectual Property Corporation Of America Strained-rough-voice conversion device, voice conversion device, voice synthesis device, voice conversion method, voice synthesis method, and program

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4025355B2 (ja) 2004-10-13 2007-12-19 松下電器産業株式会社 音声合成装置及び音声合成方法
ATE515021T1 (de) 2004-10-27 2011-07-15 Yamaha Corp Tonhöhenumsetzungsvorrichtung
JP4761506B2 (ja) * 2005-03-01 2011-08-31 国立大学法人北陸先端科学技術大学院大学 音声処理方法と装置及びプログラム並びに音声システム
JP4928465B2 (ja) 2005-12-02 2012-05-09 旭化成株式会社 声質変換システム
JP4966048B2 (ja) 2007-02-20 2012-07-04 株式会社東芝 声質変換装置及び音声合成装置
CN101751922B (zh) * 2009-07-22 2011-12-07 中国科学院自动化研究所 基于隐马尔可夫模型状态映射的文本无关语音转换系统
CN102473416A (zh) * 2010-06-04 2012-05-23 松下电器产业株式会社 音质变换装置及其方法、元音信息制作装置及音质变换系统
CN108417198A (zh) * 2017-12-28 2018-08-17 中南大学 一种基于频谱包络和基音周期的男女语音转换方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8898062B2 (en) 2007-02-19 2014-11-25 Panasonic Intellectual Property Corporation Of America Strained-rough-voice conversion device, voice conversion device, voice synthesis device, voice conversion method, voice synthesis method, and program
CN101627427B (zh) * 2007-10-01 2012-07-04 松下电器产业株式会社 声音强调装置及声音强调方法
US8311831B2 (en) 2007-10-01 2012-11-13 Panasonic Corporation Voice emphasizing device and voice emphasizing method

Also Published As

Publication number Publication date
JP2002215198A (ja) 2002-07-31

Similar Documents

Publication Publication Date Title
US8898055B2 (en) Voice quality conversion device and voice quality conversion method for converting voice quality of an input speech using target vocal tract information and received vocal tract information corresponding to the input speech
US20070213987A1 (en) Codebook-less speech conversion method and system
US7792672B2 (en) Method and system for the quick conversion of a voice signal
JPH11126090A (ja) 音声認識方法及び音声認識装置並びに音声認識装置を動作させるためのプログラムが記録された記録媒体
US20200410981A1 (en) Text-to-speech (tts) processing
JPH031200A (ja) 規則型音声合成装置
JP5039865B2 (ja) 声質変換装置及びその方法
JP5717097B2 (ja) 音声合成用の隠れマルコフモデル学習装置及び音声合成装置
WO2010035438A1 (ja) 音声分析装置および音声分析方法
JP3703394B2 (ja) 声質変換装置および声質変換方法およびプログラム記憶媒体
US6546369B1 (en) Text-based speech synthesis method containing synthetic speech comparisons and updates
Meyer et al. Phoneme confusions in human and automatic speech recognition.
US10446133B2 (en) Multi-stream spectral representation for statistical parametric speech synthesis
JP2008216488A (ja) 音声処理装置及び音声認識装置
JP3973492B2 (ja) 音声合成方法及びそれらの装置、並びにプログラム及びそのプログラムを記録した記録媒体
JP5574344B2 (ja) 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム
JP4461557B2 (ja) 音声認識方法および音声認識装置
Toledano et al. Initialization, training, and context-dependency in HMM-based formant tracking
JP5375612B2 (ja) 周波数軸伸縮係数推定装置とシステム方法並びにプログラム
WO2020166359A1 (ja) 推定装置、推定方法、及びプログラム
JP2013033103A (ja) 声質変換装置および声質変換方法
JP5106274B2 (ja) 音声処理装置、音声処理方法及びプログラム
JP2007047422A (ja) 音声分析合成装置および音声分析合成方法
JP2007248529A (ja) 音声認識装置、音声認識プログラム、及び音声動作可能な装置
JP3662195B2 (ja) 声質変換装置および声質変換方法およびプログラム記憶媒体

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040903

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050323

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050426

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050610

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050712

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050719

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080729

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090729

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100729

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110729

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees