JPH1097267A - 声質変換方法および装置 - Google Patents

声質変換方法および装置

Info

Publication number
JPH1097267A
JPH1097267A JP8251263A JP25126396A JPH1097267A JP H1097267 A JPH1097267 A JP H1097267A JP 8251263 A JP8251263 A JP 8251263A JP 25126396 A JP25126396 A JP 25126396A JP H1097267 A JPH1097267 A JP H1097267A
Authority
JP
Japan
Prior art keywords
voice
conversion
voice quality
quality
evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8251263A
Other languages
English (en)
Inventor
Yuji Sato
裕二 佐藤
Haru Andou
ハル 安藤
Yoshinori Kitahara
義典 北原
Keiko Fujita
啓子 藤田
Nobuo Nukaga
信尾 額賀
Shunichi Yajima
俊一 矢島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP8251263A priority Critical patent/JPH1097267A/ja
Publication of JPH1097267A publication Critical patent/JPH1097267A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】利用者1人1人が自分の好みの声質に変換する
ことができ、また規則合成による不明瞭な音声の明瞭感
を向上させる。 【解決手段】録音または規則合成により音声波形を生成
する手段11、ピッチ、パワー、継続長等の韻律変数と
スペクトル情報等の音質変数に分離し、この音質変数を
選択された変換係数により更新させることにより声質を
変換する手段12、および変換係数学習アルゴリズムを
動作させ、外部からの声質変換目的を与えるとともに、
出力音声の評価2に基づいて変換係数の淘汰・選択を行
い、選択した変換係数を声質変換手段12に与え、この
動作を繰り返すことにより評価を悪化させない方向に声
質を変換させる変換係数学習制御手段13とを具備す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、例えばカーナビゲ
ーションシステムの音声案内機能、電子化された文書の
読み上げシステム、あるいは電子ゲーム機器等に好適で
あり、聞き易く、かつ音声利用者の好みに適合するよう
な音声合成方法による声質変換方法および声質変換装置
に関する。
【0002】
【従来の技術】マルチメディア技術の普及によって、ユ
ーザが手軽に画像や音声を扱える環境が整いつつある。
特に、音声合声技術は、電子メールやWorld Wide
Webのテキスト情報、電子新聞等の読み上げから道路交
通情報等のテキスト情報を音声出力できるナビゲーショ
ン装置等の大きな市場が期待されている。また、プレゼ
ンテーション等のマルチメディアコンテンツの編集に、
音声合成技術を利用したナレーション付与を行うことも
考えられる。これら音声合成技術の有効な応用として考
えられるマルチメディア製品は、いずれも個人で利用す
る場合が多く、利用者1人1人の好みに合った音声を提
供することが望ましい。一方、音声の声質を特徴付ける
要因の1つとしては、音声のスペクトル包絡特性が挙げ
られる。スペクトル包絡は、発生器官の共振あるいは反
共振特性、声帯音源のスペクトル概形、口唇や鼻孔等か
らの音波の放射特性等を含めたスペクトルの大局的な特
徴を表わしている。このスペクトル包絡の特性は、主に
発声器官の物理的な形状に依存しており、スペクトル特
性を変えることにより、音声を変化させることができ
る。
【0003】このように、スペクトル特性を変えること
により声質を変化させる方法として、例えばスペクトル
の極周波数を変換する方式(箱田和雄著『極制御による
男女声質変換法』日本音響学会講演論文集、213頁〜214
頁、1987年10月参照)が提案されている。この方式で
は、先ず音声スペクトルを全極型のスペクトル特性で近
似、つまり複数の極周波数とそれに関するバンド幅で表
わす。この極周波数を決められた規則に従って変換する
ことにより、スペクトルの特性を変える。こうして得ら
れたスペクトル特性を有するディジタルフィルタを構成
し、このフィルタを用いて声質の異なる音声を合成して
いる。ところが、この方式では、極周波数の変換により
得られたスペクトル特性を有するディジタルフィルタを
構成する必要があるため、そのための演算が複雑になる
という問題点があった。このような問題点を解決する方
法の1つとして、ディジタル記録された音声データより
音声を合成する音声合成装置において、ディジタル信号
をアナログ音声信号に変換するディジタルアナログ変換
器のサンプリング周波数を変換し、声質の変換を行う方
式(例えば、特開平8−152900号公報『音声合成
方法および音声合成装置』が提案されている。
【0004】
【発明が解決しようとする課題】ところが、上記ディジ
タル信号をアナログ音声信号に変換するディジタルアナ
ログ変換器のサンプリング周波数を変換して声質の変換
を行う方式では、予めサンプリング周波数の変換をする
ために準備した発振器の組み合わせの範囲でしか声質を
変換できないという問題があった。また、具体的にどの
ようなサンプリング周波数に変換したならば目的の声質
になるかが分からない、という問題点があった。例え
ば、従来の研究(桑原、大串著『アナウンサー音声の音
響的特徴』信学論(A)、Vol.J-66A,No.6,1983
年参照)から分かっている、明瞭性の高い聞き取りやす
い音声に変換するための制御ルールを、図15に示す。
図15に示すように、明瞭性向上のためには、スペクト
ル情報と韻律情報とがあり、韻律情報にはさらにピッ
チ、パワー情報、および時間構造があることが分かる。
しかしながら、図15からは、漠然として定性的な傾向
は分かるが、具体的にどのような数値に設定したならば
良いのか全く不明である。すなわち、例えば明瞭性が高
いという、目的に合致した声質に変換するための最適な
パラメータを見つける作業は経験に依存する非常に困難
な作業であり、また最適パラメータの値がどのような値
になるかが分からないのに、そのための発振器を予め準
備することには矛盾がある。さらに、任意のパラメータ
値を生成する発振器を全て準備することは、面積および
コストの面で問題がある。そこで、本発明の目的は、こ
れら従来の課題を解決し、利用者の好みに合致する方向
に音質が変換されるように、良好な音声、所望の音質の
合成音声、種々の声質の合成音声を簡単かつ確実に出力
することができ、かつ声質の異なる音声を安定して合成
することが可能な声質変換方法および装置を提供するこ
とにある。
【0005】
【課題を解決するための手段】上記目的を達成するた
め、本発明の声質変換方法では、例えば明瞭性が高いと
いう定性的な変換目的を指定することにより、所望の声
質の合成音声を出力させる。そのための第1の手段とし
て、録音または規則合成により予め準備した音声波形を
ピッチ、パワー、継続長等の韻律変数とスペクトル情報
等の音質変数に分離する手段と、韻律変数または音質変
数の少なくともどちらか一方を更新する手段と、更新後
の韻律変数および音質変数から音声波形を合成する手段
とを設ける。また、第2の手段として、合成した音声の
音質に関する利用者の評価に対して、利用者の好みに反
する方向に音質が変換されないように、幾つかの変数群
のセットを準備して、利用者の評価値が最も高かった変
数群に対しては変換後も変換前の変数値を維持し、評価
値の低かった変数群に対してのみ変換処理を行う。ま
た、第3の手段として、利用者の評価に基づく韻律変数
や音質変数の更新を複数回繰り返す手段とを設ける。こ
れにより、録音または規則合成により予め準備した音声
波形の声質を変えることが可能である。また、変換後の
声質は、利用者の好みに近付く方向にづれていく。さら
に、声質変換操作および評価を繰り返すことにより、最
終的に利用者の好みに合致した音質の合成音の生成が可
能となる。
【0006】
【発明の実施の形態】以下、本発明の実施例を、図面に
より詳細に説明する。図1は、本発明の一実施例を示す
声質変換装置の概略構成図である。本実施例による声質
変換装置1は、図1に示すように、音声波形生成手段1
1と声質変換手段12と変換係数学習制御手段13から
構成されている。音声波形生成手段11では、自然音声
の録音再生により音声波形を生成する。または、任意文
章を入力して、後述する規則合成により機械的に音声波
形を生成する。声質変換手段12では、例えば分析合成
方式等を用いて音声波形生成手段11から入力した音声
の声質変換を行い、変換された音声を出力する。変換係
数学習制御手段13では、声質変換目的指示信号に基づ
き声質変換手段12で声質変換を行う時の制御を行う。
または、声質変換を行う時の変換係数を声質変換手段1
2に与える。また、評価手段2から与えられる評価結果
に基づき、声質変換制御方法または変換係数の更新を行
う。ここで、声質変換指示信号は無変換指示の場合も含
むものとする。
【0007】次に、評価手段2の評価の方法としては、
人間の主観に基づき得点を与える方法、予め目標とする
音声波形を準備し、目標の波形と声質変換装置の出力音
声波形との平均二乗誤差を評価結果とする方法等が考え
られている。図1は、人間20が評価を与える場合の実
施例を示している。これに対して、図14は、予め録音
していた波形と比較して評価する場合の一例を示してい
る。すなわち、図14では、図1における評価手段2と
して人間の代りに、録音手段21と比較手段22を用い
ている。特定の個人の声に近づけたい場合等は、その人
の声を予め録音手段21に格納しておき、声質変換手段
12の出力波形と比較手段22により波形自身を比較し
て評価する。比較方法の一手段としては、平均二乗誤差
を評価結果とする方法等が考えられる。従って、声質変
換手段12および変換係数学習制御手段13による声質
の変換が評価手段2から見て評価が悪くなる方向に変換
させないことが保証できれば、変換係数学習制御手段1
3の更新と評価手段2の評価を繰り返すことにより、目
的とする声質に次第に近付いて行く声質変換装置が実現
できる。
【0008】図2は、従来における機械的に音声を合成
する規則合成の概略フローチャートである。ここでは、
音声波形生成手段11として規則合成により任意文章か
ら機械的に音声波形を生成するための処理手順を示して
いる。言語処理部111は漢字かな混じり文等の任意文
章を入力し、単語辞書112を参照しながら文法的解析
を基に漢字に読みやアクセントの情報を付加し、発音記
号列を出力する。韻律処理部113では韻律モデルを参
照して、ピッチパターンの生成を行う。ここでピッチと
は、音声波形の基本周波数を示し、声の高さに相当す
る。ピッチが大きくなる程、声の高さが高くなる。人間
が普段発声する声は、男声では100〜200Hz、女
声では200〜400Hzの範囲で変化する。ピッチパ
ターンは大局的にはフレーズ成分にアクセント成分を上
乗せした右下りのパターンとなる。ピッチパターンの代
表的な方式としては、例えば藤崎モデル(比企静雄著
『音声情報処理』東京大学出版会、1973年)が使われて
いる。波形生成部115では、言語処理部111からの
発音記号列、韻律処理部113からのパッチパターン、
および音声波形データベース116に登録されている1
ピッチ波形から音声波形を合成する。発音記号列を基に
対応する1ピッチ波形を音声波形データベース116か
ら呼んできて、ピッチパターンを基にピッチ周期でずら
しながら1ピッチ波形を重ねて行くことにより、音声波
形を合成する。
【0009】図3は、図1における声質変換手段の第1
の実施例を示す概略構成図である。第1の実施例におい
ては、声質変換手段12が韻律変換手段122とスペク
トル変換手段123の両方の変換機能により声質を変換
する場合を示す。韻律変換手段122とスペクトル変換
手段123が変換制御情報に基づいて制御可能であるこ
とを除けば、図3の構成は一般的な分析合成システムで
ある。分析合成の方式としては、複数のものが提案され
ている。例えば、韻律変数、スペクトル分離手段121
について、以下にその一例を示す。韻律変数としては、
ピッチ、パワー(振幅)、継続長を扱う。ピッチの抽出
については、先ず入力音声をパワーに基づいて有音区間
と無音区間に分ける。次に、有音区間に対して、無声、
有声区間に分離する。有音区間に対して、ピッチの抽出
を行う。先ず共分散法による4〜5msの短区間線形予
測分析を行い、Wong等の方法(都木他:『ピッチ変
更時のひずみをスペクトル領域で修正する声質変換方式
とその品質の心理評価』信学論、387頁〜396頁、1990年
3月)により声門体積波形を推定する。この波形および原
波形を低域ろ波した波形のそれぞれのピーク間隔のう
ち、ピッチ周期の軌跡の連続性が保たれる方を採用して
ピッチ周期を決定する。次に、スペクトル情報の取り出
し方法の一例として、ケプストラムを使用した方法を示
す。ケプストラムとは、対数パワースペクトルをフーリ
エ変換したものを示す。先ず、対象となる自然音声波形
に窓かけを行う。次に、フーリエ変換後、対数化する。
このようにして得られたスペクトル波形には、ピッチ成
分による短い周期の規則的な振幅に、ゆっくりとした変
化(音色の成分)が乗っている波形である。そこで、ス
ペクトル波形を1つの時間波形とみなして、再びフーリ
エ変換すると、短い周期成分とゆっくり変化する成分を
分離できる。短い周波成分は高域側に、ゆっくりした変
化は低域側に対応する。そこで、高域側の成分をカット
して逆変換すれば、ピッチによる微細構造は消去され、
穏やかに変化するスペクトル包絡成分のみが残る。
【0010】次に、音声波形合成手段124の一例につ
いて示す。パラメータからの合成方式(例えば、中川
他:『音声・聴覚と神経回路網モデル』オーム社、36頁
〜40頁、1991年12月)は幾つか提案されている。ここで
は、ターミナルアナログ方式を一例として簡単に説明す
る。この方式は、声道の伝達関数の極と零点、つまりホ
ルマントとアンチホルマントにより前述のスペクトル包
絡情報を表し、ターミナルアナログ合成器により音声合
成を行う。ターミナルアナログ合成器は、幾つかの共振
回路の直列接続および並列接続により構成される。直列
接続部で鼻子音を合成し、並列接続で摩擦音や破裂音を
合成する。なお、上記韻律変数・スペクトル分離手段1
21および音声波形合成手段124に関しては、広く一
般的に使用されている分析合成という手段をそのまま適
用することができる。本発明では、韻律変換手段122
とスペクトル変換手段123により意図する声質に変換
する。韻律変換手段122とスペクトル変換手段123
は、相互に関係を持つ構成で実現することもできる。ま
た、独立に構成して、少なくともいずれか一方を用いる
こともできる。また、切り替えスイッチを設けて、相互
作用を持つ構成と独立な構成を使い分けることも考えら
れる。
【0011】図16、図17および図18は、本発明の
声質変換手段の第2の実施例を示すものであって、韻律
変換手段122のみを用いて声質変換を行う声質変換手
段12を示す。図16は、時間長を変更せずにピッチの
みを制御する方法を示す図であり、図17は、ピッチを
変更せずに時間長のみを制御する方法を示す図である。
図15に明瞭性向上のための音声制御ルールを示した
が、これだけでは制御パラメータを具体的にどのような
値に設定すべきかに関しては不明である。また、一般的
に、スペクトルの動的特徴をリアルタイムで制御するこ
とは困難である。すなわち、全ての制御パラメータの調
整を初めから考えることは困難である。そこで、本実施
例では、制御すべき情報を、ピッチ情報、パワー情報、
時間構造の韻律情報に限定することにより、声質の変換
を行うことを考える。先ず、ピッチの上昇に対しては、
図16に示すように、1ピッチ内の波形の部分カットを
行う。また、ピッチの下降に対しては、1ピッチ波形に
無音部を挿入することにより対応する。次に、継続長の
変換方法について図17により述べる。図17の左図は
時間圧縮を行う場合、右図は時間伸長を行う場合であ
る。継続長の変換に対しては、TDHSの改良方式(例
えば、森田直孝、板倉文忠:『自己相関法による音声の
時間軸での伸縮方法とその評価』信学技報、EA86-5.p
p.9-16(1986))によりピッチの変更を行うことなく、時
間長の伸縮を行う。パワーは対数パワー上での変換を行
う。現在の値をWi、変換係数をkとして、次式(1)
に従って変換する。 log10i+1 2=log10i 2+k ・・・・・・・・・・(1)
【0012】図18は、韻律変換のみを用いて声質変換
を行った場合の声質変換装置の機能概略図である。この
場合の声質変換装置は、機能的に音声加工部12aと変
換係数学習部13aから構成される。音声加工部12a
では、韻律情報の変換を行うことにより‘明瞭な’,
‘かわいい’等の感性表現語を目的とした声質の変換を
行う。韻律情報の変換は、韻律変換係数を用いて行う。
音質の劣化を防ぐために、一般的な分析合成系のように
パラメータレベルまで変換せずに、上述のように波形レ
ベルで処理を行っている。本実施例では、変換係数学習
系を用いて感性表現語等の定性的な変換目的を与えて、
韻律を変換する際のパラメータを学習により自動的に獲
得すること特徴としている。ここでは、学習アルゴリズ
ムとして進化的計算を採用している。
【0013】図4は、図1における変換係数学習制御手
段の一構成例を示す図である。変換係数学習制御手段1
3は、韻律変換係数に関する知識131と変換係数更新
手段132から構成される。図5は、図3における韻律
変換手段の一構成例を示す図である。韻律変換手段12
2は、ピッチ変換部1221、パワー変換部1222、
継続長変換部1223から構成される。これは、一般に
音声における情緒情報がピッチ周波数やパワーの変化、
あるいは発声速度の変化に主として含まれていることが
知られているからである。従って、韻律情報として、一
般的な分析合成システムで抽出したピッチ、パワー、継
続長の3種類を取り上げたが、必ずしもこの3種類に限
定する必要はない。これらの韻律情報の変換方法の例に
関しては、例えば北原義典他:『ユーザのマルチメディ
ア感性演出支援方法の提案』信学技法、63頁〜70頁、(1
995年3月)に記載されている。すなわち、この変換方法
は、声質変換手段の第2の実施例で述べたように、ピッ
チ、パワー、継続長を変換する方法である。例えば、ピ
ッチ変換では、韻律変換係数に関する知識131から入
力する変換係数1に従って、元のピッチの伸縮を行う。
ピッチが短くなる場合には、1ピッチ波形の最後に無声
音を挿入する。継続長に関しては、音声全体の5%以内
であれば線形に一様伸縮しても、時間の伸縮および音韻
性の劣化は殆んど知覚されないことが分かっている。そ
こで、図5に示すように、韻律変換係数に関する知識1
31から入力する変換係数3に従う伸縮が5%以内の場
合には一様に伸縮を行う。5%を越える場合には、無音
区間の伸縮あるいは母音定常部の伸縮を行う。パワーに
関する変換は、韻律変換係数に関する知識131から入
力する変換係数2に従って、例えば、前式(1)に従っ
て値Wiを変換する。
【0014】図6は、図4における韻律変換係数に関す
る知識の一実施例を示す図である。ここでは、声質変換
目的と各韻律の変換を行う際に使用する係数1〜3の対
応表で表現した例を示している。例えば、声質変換目的
として明瞭な声が指定された場合、ピッチ、パワー、継
続長に関する変換係数が、それぞれ変換係数1〜3(図
4では、ピッチの変換係数1=1.17、パワーの変換
係数=1.36、継続長の変換係数=0.91)として
韻律変換手段122に入力される。なお、本発明の声質
変換装置は目標を与えることにより声質の変換を行うも
のであるが、この目標は図6に示す声質変換目的指示信
号として韻律変換係数に関する知識131に入力される
ことにより、ここから各変換係数が韻律変換手段122
に送出される。これらの変換係数の値は、後述のように
学習アルゴリズムの交差や突然変異により決定される
が、評価点の決定方法により評価が悪くなる方向には変
換されないようになっている。図7は、図4における変
換係数更新手段の一実施例を示す図である。ここでは、
図6に示す声質変換目的と各韻律の変換を行う際の変換
係数1〜3の対応表をn種類準備しておき(134〜1
36,141〜143)、評価点を基に韻律変換係数学
習アルゴリズム133により更新する例を示している。
更新する場合には、そのアルゴリズム133に従って声
質変換目的と韻律変換係数の関係が変化されて、韻律変
換係数に関する知識131の値が更新される。
【0015】図8は、図7における韻律変換係数学習ア
ルゴリズムの一例を示すフローチャートである。ここで
は、韻律変換係数学習アルゴリズム133として遺伝的
アルゴリズムを用いた場合を示す。遺伝的アルゴリズム
は生物の進化にならったアルゴリズムであり、適応範囲
の広い多点探索アルゴリズムとして注目され始めてい
る。図8において、先ず染色体の定義を行う(ステップ
101)。ここでは、図6に示すように、声質変換目的
と3種類の韻律変換係数の対応を示す1次元実数配列を
染色体として定義した例を示している。次に、個体の生
成を行う(ステップ102)。ここでは、韻律変換係数
値をランダムに変えた20種類の染色体を各声質変換目
的毎に定義し、それぞれを個体として定義している。次
に、満足できる声質に変換されるまで(ステップ10
3)、評価(ステップ104)、淘汰・選択(ステップ
105)、遺伝的操作(ステップ106)を繰り返す。
遺伝的操作(ステップ106)の1つとして、個体を置
き換える交差や関係ない値に突然変化する突然変異を施
す方法が行われる(ステップ107)。評価の方法とし
ては、前述した評価手段2のように人間の主観に基づい
て得点を与える方法、および予め目標とする音声波形を
準備し、目標の波形と声質変換装置の出力音声波形との
平均二乗誤差を評価結果とする方法等が考えられる。淘
汰・選択および遺伝的操作については、図9〜図11に
おいて述べられている。
【0016】図9は、図8における個体の淘汰・選択方
法の一実施例を示す説明図である。韻律変換係数学習ア
ルゴリズム133は、評価点に基づいて例えば図9に示
す淘汰・選択を行う。先ず評価点に基づいて個体のソー
トを行う。図9の例では、明瞭な声という声質変換目的
を持つ20個体について、評価点の高い順にソートして
いる。図9では、評価点が大きいものから順に、上から
下に向って20個を配列し、次に淘汰を行う。図9の例
では、評価点の低い半数の個体(N/2=10個)を淘
汰している。図9の例では、ルーレット選択を採用して
いる。2つの染色体を親として選び、後で示す交差と突
然変異を施してできた子供で、淘汰した個体を置き換え
るという操作を、淘汰した個体数を補うまで繰り返し行
う。ここで、2つの親を選択する確率は、評価点に比例
する。また、選択における重複は許可される。このよう
に、本発明における淘汰・選択では、評価点の低い個体
のみを遺伝的操作で生成した個体に置き換えている。従
って、淘汰・選択後の個体に対する評価点の最大値は、
淘汰・選択前の評価点の最大値を下回ることは有り得な
い。すなわち、声質変換手段12による声質の変換は、
評価手段2から見て評価が悪くなる方向に変換されない
ことが保証されている。従って、声質変換手段12と評
価手段2の処理を繰り返すことにより、目的とする声質
に次第に近付けて行く声質変換装置が実現されることに
なる。なお、ここでは、各個体に評価点を付与し、評価
点の低い個体を淘汰したが、特に評価点を与えずに無作
為に選んだ2つの個体のうちのどちらを使用した方がよ
り目的に合致しているかを判断して、トーナメント制で
淘汰することにより個体を決定することも可能である。
この場合には、親の選択は、評価点を参考にできないた
め、ランダムに行うことが考えられる。
【0017】図10および図11は、図8の韻律変換係
数学習アルゴリズムにおける交差の例ならびに突然変異
の例を示す図である。図10は、交差の一例を示してい
る。交差の操作は、任意に選択した列から任意の係数に
ついて、2つの親の間で置き換えるという操作である。
図10の例では、継続長に関する変換係数を、図7に示
す声質変換目的と韻律変換係数の関係A1〜An,B1
〜Bnのうちの『明瞭な声』の任意の2つを選択し、そ
れらを親として、それらの間で継続長の値のみを互いに
置き換える。つまり、図10の上段から交差後の結果で
ある下段に矢印の向きに変換される。交差という操作
は、高い評価点につながる声質変換目的と韻律係数の間
の関係を、他の個体に伝搬する効果を持っている。図1
1は、突然変異の例を示している。任意に選択した要素
の値(変換係数)をランダムに変化させるという操作を
行う。前述の交差は、有効なケースを他の個体に伝搬す
る利点があったが、突然変異という操作は、20個の個
体の種々の箇所から探索を始めることができるために単
純なランダムサーチよりは効率がよい。また、局所解か
ら脱出する効果があるとともに、多様性の創出に効果を
持つ。図11の例では、ピッチに関する変換係数が選択
され、矢印に示すように変換係数の値が1.17から
0.84に変異した例を示している。これにより、交差
と突然変異という操作を組み合わせることで、評価点の
高かった、つまり声質変換目的により近かった変換係数
の近傍を効率的に探索することができる。また、複数の
個体が異なる初期値から並行して探索を行うため、並列
化による効果も期待できる。
【0018】なお、上記実施例では、韻律変換係数学習
アルゴリズムの一例として遺伝的アルゴリズムを用いた
場合を示したが、ニューラルネットワークを用いて韻律
変換前と後の関係を学習することも考えられる。以上
は、韻律変換手段122のみを用いて声質変換を行う例
を説明したが、スペクトル変換手段123のみを用いて
声質変換を行う場合にも、スペクトル変換係数に関する
知識を持ち、同じような手法により実現することができ
る。スペクトルは時系列波形と考えて、ニューラルネッ
トワークを用いた変換を行うこともできる。また、韻律
変換手段122とスペクトル変換手段123の相互作用
を考える場合には、韻律変換手段122とスペクトル変
換手段123を合わせて1つのニューラルネットワーク
で構成し、入出力関係を学習することが考えられる。な
お、ピッチとパワーと継続長の関係は、独立しているわ
けではなく、相互関係があるので、パワーと継続長を固
定して、ピッチのチューニングを行っても、次にパワー
の調査を行うとピッチが最良の値ではなくなってしま
う。すなわち、全てを最良の値に人手で試行錯誤を繰り
返して収束させることは非常に困難である。従って、本
発明の声質変換手段により繰り返し変換操作を実行する
ことにより、目標に順次近付けて行くようにする。ま
た、図6に示す声質変換目的と韻律変換係数の対応表に
おいて、スペクトル変換係数の項目を追加することも考
えられる。
【0019】図12は、本発明の有効性を評価するため
の第1の実験結果を示す図である。図12では、韻律変
換手段122のみを用いた声質変換評価実験結果を示し
ている。ここでは、無作為に選択した10人の被験者
に、音声研究者が試行錯誤により決定した変換パラメー
タによる声質変換と本発明による声質変換による声を聞
いてもらい、目的に合致した声質に近付いているか否か
を評価してもらった。声質変換目的としては、『可愛
い』、『明瞭』、『落ち着いた』、『怒った』の4種類
を考えて、目的に近付いたと感じた場合にはプラス1
点、逆に反って不自然な声になったと感じた場合にはマ
イナス1点、どちらとも言えない場合には0点という採
点をしてもらった。音声研究者が試行錯誤により決定し
た変換パラメータによる声質変換では変換目的によるバ
ラツキが見られる。すなわち、試行錯誤により目的に合
致した声質変換のためのパラメータを決定することが、
音声研究者でさえも困難な作業であることが分かる。一
方、本発明では、確実に目的に合致した声質に近付いて
おり、本発明の有効性が示されている。
【0020】図13は、本発明の有効性を評価するため
の第2の実験結果を示す図である。この場合にも、図1
2と同じく『可愛い』、『明瞭な』、『落ち着いた』、
『怒った』の4種類に対して、無作為に選んだ10人の
被験者に、音声研究者が試行錯誤により決定した変換パ
ラメータによる声質変換と本発明による声質変換による
声を聞いてもらい、全体的に10点満点で採点をしても
らった時の平均得点を示している。これから明らかなよ
うに、全ての声質変換目的に対して本発明の方が試行錯
誤により決定した変換パラメータによる方法よりも高得
点であることが分かる。
【0021】
【発明の効果】以上説明したように、本発明によれば、
装置外部から声質変換目的を与えることにより、音声を
出力して、変換された出力音声に対する評価により声質
変換制御方法の更新を行い、その声質変換制御方法の更
新が評価が悪くなる方向に変化しないようにしたので、
良好な音声、所望の音質の合成音声、種々の声質の合成
音声を簡単かつ確実に出力することができるとともに、
声質の異なる音声を安定して合成することができる。
【図面の簡単な説明】
【図1】本発明の一実施例を示す声質変換装置の概略構
成図である。
【図2】機械的に音声を合成する規則合成の概略機能ブ
ロック図である。
【図3】図1における声質変換手段の第1の実施例を示
す概略構成図である。
【図4】図1における変換係数学習制御手段の一実施例
を示す概略構成図である。
【図5】図3における韻律変換手段の一実施例を示す構
成図である。
【図6】図5における韻律変換係数に関する知識の一実
施例を示す構成図である。
【図7】図5における韻律変換係数更新手段の一実施例
を示す構成図である。
【図8】図7における韻律変換係数学習アルゴリズムの
一例を示すフローチャートである。
【図9】図8における個体の淘汰・選択方法の一実施例
を示す説明図である。
【図10】図7における韻律変換係数学習アルゴリズム
の交差の例を示す図である。
【図11】同じく図7における韻律変換係数学習アルゴ
リズムの突然変異の例を示す図である。
【図12】本発明の有効性を評価するための第1の実験
結果を示す図である。
【図13】本発明の有効性を評価するための第2の実験
結果を示す図である。
【図14】本発明の他の実施例を示す声質変換装置の概
略構成図である。
【図15】明瞭性向上のための音声制御ルールを示す図
である。
【図16】図1における声質変換手段の第2の実施例
(韻律変換手段のみを用いて声質変換を行う)を示すも
ので、ピッチのみを制御する方法の説明図である。
【図17】同じく、時間長のみを制御する方法の説明図
である。
【図18】同じく、韻律変換手段のみを用いて声質変換
を行う場合の声質変換装置の機能ブロック図である。
【符号の説明】
1…声質変換装置、2…出力音声評価手段、11…音声
波形生成手段、12…声質変換手段、13…変換係数学
習制御手段、21…録音手段、22…比較手段、12a
…音声加工部、13a…変換係数学習部、121…韻律
変換、スペクトル分離手段、122…韻律変換手段、1
23…スペクトル変換手段、124…音声波形合成手
段、131…韻律変換係数に関する知識、132…変換
係数更新手段、1221…ピッチ変換部、1222…パ
ワー変換部、1223…継続長変換部、 133…韻律変換係数学習アルゴリズム、111…言語
処理部、112…単語辞書、113…韻律処理部、11
4…韻律モデル、115…波形生成部、116…音声波
形データベース、134〜136,141〜143…声
質変換目的と韻律変換係数との関係。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 藤田 啓子 東京都国分寺市東恋ケ窪一丁目280番地 株式会社日立製作所中央研究所内 (72)発明者 額賀 信尾 東京都国分寺市東恋ケ窪一丁目280番地 株式会社日立製作所中央研究所内 (72)発明者 矢島 俊一 東京都国分寺市東恋ケ窪一丁目280番地 株式会社日立製作所中央研究所内

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】漢字かな混じり文等の任意の文章または音
    声を入力として、音声を出力する声質変換方法におい
    て、 録音または規則合成により音声波形を生成する第1のス
    テップと、 生成された音声波形をピッチ、パワー、継続長等の韻律
    変数とスペクトル情報等の音質変数に分離した後、該韻
    律変数を選択された変換係数により更新させることによ
    り声質を変換する第2のステップと、 変換係数学習アルゴリズムを動作させ、外部からの声質
    変換目的を与えるとともに、変換後の出力音声の評価に
    基づき該変換係数学習アルゴリズムに従って上記変換係
    数の淘汰・選択を行い、選択された変換係数を上記第2
    のステップに供給し、上記処理を繰り返すことにより上
    記出力音声の評価を悪化させない方向に声質を変換させ
    る第3のステップとを有することを特徴とする声質変換
    方法。
  2. 【請求項2】請求項1に記載の声質変換方法において、
    前記変換後の出力音声の評価方法として、特に評価点を
    設けることなく、無作為に選択した幾つかの変換後の出
    力音声の中から利用者の好みにより次の評価に残す音声
    を選択する、という作業を繰り返すことを特徴とする声
    質変換方法。
  3. 【請求項3】請求項1に記載の声質変換方法において、
    前記変換後の出力音声の評価方法として、予め特定の人
    物の音声波形を録音記憶しておき、平均二乗誤差等の比
    較手段により、声質変換後の出力音声波形と上記録音記
    憶している音声波形を比較し、定量的に評価を行うこと
    を特徴とする声質変換方法。
  4. 【請求項4】録音または規則合成により音声波形を生成
    する音声波形生成手段と、 該音声波形生成手段からの音声をピッチ、パワー、継続
    長等の韻律変数とスペクトル情報等の音質変数に分離
    し、該韻律変数を選択された変換係数により更新させる
    ことにより声質を変換する声質変換手段と、 外部からの声質変換目的を与えるとともに、出力音声の
    評価に基づいて、変換係数学習アルゴリズムの動作によ
    り上記変換係数の淘汰・選択を行い、選択した変換係数
    を上記声質変換手段に与え、上記処理を繰り返すことに
    より上記出力音声の評価を悪化させない方向に声質を変
    換させる変換係数学習制御手段とを具備することを特徴
    とする声質変換装置。
  5. 【請求項5】請求項4に記載の声質変換装置において、
    前記声質変換手段は、韻律変数として、ピッチ、パワ
    ー、継続長を抽出し、またスペクトル情報としてスペク
    トル包絡成分を抽出する韻律変数・スペクトル分離手段
    と、 上記韻律変数のピッチ、パワー、継続長に選択された変
    換係数を供給して、該韻律変数を各変換係数により変換
    する韻律変換手段と、 スペクトル変換係数に関する知識を持ち、該知識に選択
    された変換係数を供給して該知識のスペクトル情報を変
    換するスペクトル変換手段と、 該韻律変換手段および/またはスペクトル変換手段から
    の出力波形を合成する音声波形合成手段と、 上記韻律変換手段またはスペクトル変換手段の少なとも
    一方を制御する変換制御信号供給手段とを含むことを特
    徴とする声質変換装置。
  6. 【請求項6】請求項4に記載の声質変換装置において、
    前記変換係数学習制御手段は、声質変換目的と韻律変換
    係数との対応表からなる韻律変換係数に関する知識と、
    外部から与えられた評価点により上記知識における変換
    係数を更新する変換係数更新手段とを含んでいることを
    特徴とする声質変換装置。
  7. 【請求項7】請求項4に記載の声質変換装置において、
    前記評価を悪化させない方向に声質を変換させる変換係
    数学習制御手段としては、声質変換目的と韻律変換係数
    の関係に関する複数の知識を記憶しておき、これら記憶
    された複数の知識の評価を行い、評価点の最も高い知識
    は除外して残りの知識を更新する手段を有することを特
    徴とする声質変換装置。
  8. 【請求項8】請求項6または7に記載の声質変換装置に
    おいて、前記韻律変換係数に関する知識は、声質変換目
    的と韻律変換係数の対応表の形式で複数組記憶され、該
    複数組の知識の間の対応表の中の一部の変換係数の交
    換、または該変換係数の変異により該知識が記憶する変
    換係数の更新を行うことを特徴とする声質変換装置。
JP8251263A 1996-09-24 1996-09-24 声質変換方法および装置 Pending JPH1097267A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8251263A JPH1097267A (ja) 1996-09-24 1996-09-24 声質変換方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8251263A JPH1097267A (ja) 1996-09-24 1996-09-24 声質変換方法および装置

Publications (1)

Publication Number Publication Date
JPH1097267A true JPH1097267A (ja) 1998-04-14

Family

ID=17220186

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8251263A Pending JPH1097267A (ja) 1996-09-24 1996-09-24 声質変換方法および装置

Country Status (1)

Country Link
JP (1) JPH1097267A (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6330428B1 (en) * 1998-12-23 2001-12-11 Nortel Networks Limited Voice quality performance evaluator and method of operation in conjunction with a communication network
WO2005050624A1 (ja) * 2003-11-21 2005-06-02 Matsushita Electric Industrial Co., Ltd. 声質変換装置
JP2005300692A (ja) * 2004-04-07 2005-10-27 Sony Corp ロボットの行動制御システム及び行動制御方法、並びにロボット装置
WO2005109399A1 (ja) * 2004-05-11 2005-11-17 Matsushita Electric Industrial Co., Ltd. 音声合成装置および方法
JP2006301059A (ja) * 2005-04-18 2006-11-02 Denso Corp 音声出力システム
JP2007065285A (ja) * 2005-08-31 2007-03-15 Takayuki Arai 音声信号処理方法、装置及びプログラム
US7349847B2 (en) 2004-10-13 2008-03-25 Matsushita Electric Industrial Co., Ltd. Speech synthesis apparatus and speech synthesis method
WO2008142836A1 (ja) * 2007-05-14 2008-11-27 Panasonic Corporation 声質変換装置および声質変換方法
JP2010166324A (ja) * 2009-01-15 2010-07-29 Nec Corp 携帯端末、音声合成方法、及び音声合成用プログラム
JP2017058411A (ja) * 2015-09-14 2017-03-23 株式会社東芝 音声合成装置、音声合成方法およびプログラム
JP2017167273A (ja) * 2016-03-15 2017-09-21 株式会社東芝 声質嗜好学習装置、声質嗜好学習方法及びプログラム
JP2019040123A (ja) * 2017-08-28 2019-03-14 株式会社日立製作所 変換モデルの学習方法および変換モデルの学習装置
CN112530429A (zh) * 2020-11-30 2021-03-19 昌飞 一种带ai语音识别系统的超声波流量计
WO2022054414A1 (ja) * 2020-09-08 2022-03-17 パナソニックIpマネジメント株式会社 音信号処理システム、及び、音信号処理方法

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6330428B1 (en) * 1998-12-23 2001-12-11 Nortel Networks Limited Voice quality performance evaluator and method of operation in conjunction with a communication network
WO2005050624A1 (ja) * 2003-11-21 2005-06-02 Matsushita Electric Industrial Co., Ltd. 声質変換装置
JP2005300692A (ja) * 2004-04-07 2005-10-27 Sony Corp ロボットの行動制御システム及び行動制御方法、並びにロボット装置
JP4661074B2 (ja) * 2004-04-07 2011-03-30 ソニー株式会社 情報処理システム、情報処理方法、並びにロボット装置
US8145492B2 (en) 2004-04-07 2012-03-27 Sony Corporation Robot behavior control system and method, and robot apparatus
WO2005109399A1 (ja) * 2004-05-11 2005-11-17 Matsushita Electric Industrial Co., Ltd. 音声合成装置および方法
JPWO2005109399A1 (ja) * 2004-05-11 2007-08-02 松下電器産業株式会社 音声合成装置および方法
US7912719B2 (en) 2004-05-11 2011-03-22 Panasonic Corporation Speech synthesis device and speech synthesis method for changing a voice characteristic
US7349847B2 (en) 2004-10-13 2008-03-25 Matsushita Electric Industrial Co., Ltd. Speech synthesis apparatus and speech synthesis method
JPWO2006040908A1 (ja) * 2004-10-13 2008-05-15 松下電器産業株式会社 音声合成装置及び音声合成方法
JP2006301059A (ja) * 2005-04-18 2006-11-02 Denso Corp 音声出力システム
JP4655268B2 (ja) * 2005-04-18 2011-03-23 株式会社デンソー 音声出力システム
JP2007065285A (ja) * 2005-08-31 2007-03-15 Takayuki Arai 音声信号処理方法、装置及びプログラム
US8898055B2 (en) 2007-05-14 2014-11-25 Panasonic Intellectual Property Corporation Of America Voice quality conversion device and voice quality conversion method for converting voice quality of an input speech using target vocal tract information and received vocal tract information corresponding to the input speech
WO2008142836A1 (ja) * 2007-05-14 2008-11-27 Panasonic Corporation 声質変換装置および声質変換方法
JP2010166324A (ja) * 2009-01-15 2010-07-29 Nec Corp 携帯端末、音声合成方法、及び音声合成用プログラム
JP2017058411A (ja) * 2015-09-14 2017-03-23 株式会社東芝 音声合成装置、音声合成方法およびプログラム
JP2017167273A (ja) * 2016-03-15 2017-09-21 株式会社東芝 声質嗜好学習装置、声質嗜好学習方法及びプログラム
US10930264B2 (en) 2016-03-15 2021-02-23 Kabushiki Kaisha Toshiba Voice quality preference learning device, voice quality preference learning method, and computer program product
JP2019040123A (ja) * 2017-08-28 2019-03-14 株式会社日立製作所 変換モデルの学習方法および変換モデルの学習装置
WO2022054414A1 (ja) * 2020-09-08 2022-03-17 パナソニックIpマネジメント株式会社 音信号処理システム、及び、音信号処理方法
CN112530429A (zh) * 2020-11-30 2021-03-19 昌飞 一种带ai语音识别系统的超声波流量计

Similar Documents

Publication Publication Date Title
JP3910628B2 (ja) 音声合成装置、音声合成方法およびプログラム
US20050119890A1 (en) Speech synthesis apparatus and speech synthesis method
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
EP1688911B1 (en) Singing voice synthesizing apparatus and method
US8775185B2 (en) Speech samples library for text-to-speech and methods and apparatus for generating and using same
JPH1097267A (ja) 声質変換方法および装置
JP2000509157A (ja) 音響要素・データベースを有する音声合成装置
KR20060073502A (ko) 어학 학습 시스템 및 어학 학습용의 음성 데이터 제공 방법
JP6330069B2 (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
JP3281266B2 (ja) 音声合成方法及び装置
JP6578544B1 (ja) 音声処理装置、および音声処理方法
JP2020204755A (ja) 音声処理装置、および音声処理方法
JPH09319394A (ja) 音声合成方法
JP2004354644A (ja) 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体
Al-Said et al. An Arabic text-to-speech system based on artificial neural networks
JPH09179576A (ja) 音声合成方法
JP3081300B2 (ja) 残差駆動型音声合成装置
JPH05224689A (ja) 音声合成装置
KR100486457B1 (ko) Cart를 이용한 자연어 처리 방법
JP5560888B2 (ja) 符号化音声データの音高変換装置
Jacob et al. Developing a child friendly text-to-speech system
JP3892691B2 (ja) 音声合成方法及びその装置並びに音声合成プログラム
Jayasinghe Machine Singing Generation Through Deep Learning
JPH10247097A (ja) 自然発話音声波形信号接続型音声合成装置
Lu et al. Unlocking the Potential: an evaluation of Text-to-Speech Models for the Bahnar Language