JP2002268656A - 音声分析合成方法および、この方法を実施する装置、プログラム、プログラムを記録した記録媒体 - Google Patents

音声分析合成方法および、この方法を実施する装置、プログラム、プログラムを記録した記録媒体

Info

Publication number
JP2002268656A
JP2002268656A JP2001066711A JP2001066711A JP2002268656A JP 2002268656 A JP2002268656 A JP 2002268656A JP 2001066711 A JP2001066711 A JP 2001066711A JP 2001066711 A JP2001066711 A JP 2001066711A JP 2002268656 A JP2002268656 A JP 2002268656A
Authority
JP
Japan
Prior art keywords
auditory
image
output
expression
mapper
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001066711A
Other languages
English (en)
Inventor
Toshio Irino
俊夫 入野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2001066711A priority Critical patent/JP2002268656A/ja
Publication of JP2002268656A publication Critical patent/JP2002268656A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 人間の聴覚末梢および中枢系を模擬した音声
信号分析を実施する聴知覚特性を反映した高品位な合成
音声を生成する音声信号分析合成方法およびこの方法を
実施する装置、プログラム、プログラムを記録した記録
媒体を提供する。 【解決手段】 人間の蝸牛基底膜を含む聴覚末梢および
中枢系を模擬した音声信号分析を実施する聴知覚特性を
反映した音声分析合成方法において、人間の蝸牛基底膜
振動を模擬した周波数分析結果を音声波形の基本周期に
同期して安定化させた時間周波数表現、この1周期分の
表現、或いはこのメリン変換表現を、VOCODER型
音声分析合成器の出力表現に組み合わせる音声分析合成
方法およびこの方法を実施する装置、プログラム、プロ
グラムを記録した記録媒体。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、音声信号分析合
成方法およびこの方法を実施する装置、プログラム、プ
ログラムを記録した記録媒体に関し、特に、人間の聴覚
末梢および中枢系を模擬した音声信号分析を実施する聴
知覚特性を反映した高品位な合成音声を生成する音声信
号分析合成方法およびこの方法を実施する装置、プログ
ラム、プログラムを記録した記録媒体に関する。
【0002】
【従来の技術】音声信号分析合成法には、大別して、線
形予測分析法(LPC)に代表されるパラメトリック法
と短時間フーリエ変換(STFT)に代表されるノンパ
ラメトリック法の2種類ある。近年、両者の長所を組み
合わせて、高品位な分析合成音を作成することができる
STRAIGHT法が開発され、注目を集めている。原
理的にはVOCODER法と同様な方法であり、声帯音
源の基本周期成分と、口の形に相当する平滑化スペクト
ルを高精度に推定することにより音声分析合成するもの
である。図5を参照してVOCODERおよびSTRA
IGHTを極く簡単に説明しておく。
【0003】図5(a)はVOCODERを示し、図5
(b)はSTRAIGHTを示す。図5(a)におい
て、VOCODERを実現する鍵は「音声は比較的ゆっ
くりと変化するスペクトル包絡成分とこれとは独立なピ
ッチ、有声無声音源を表す情報に分解することができ
る」という点にあった。ここで、スペクトル包絡成分は
複数のバンドパスフィルタのゲインの調整、音源は基本
周波数と有声無声判定により駆動される発振器を使用し
て構成されていた。図5(b)の構成は、上述した通
り、VOCODERそのものである。相違するところは
それぞれの構成要素で使用される情報の細部のみであ
る。図5(b)においてSTRAIGHT−coreと
記されているのは、スペクトル包絡を処理する部分であ
る。ここでは、音声の基本周波数による干渉が取り除か
れた包絡が抽出され、合成のためのフィルタに送られ
る。SPIKESは、有声音の合成のために音源パルス
を作成する部分である。ここでは、オールパスフィルタ
の群遅延特性を制御することにより、いわゆる「VOC
ODER声」らしさを軽減した音源パルスが作成され
る。TEMPOは、音声の基本周波数、有声/無声その
他の音源情報を抽出する部分である。ここでは「基本波
らしさ」を表す指標を手がかりとして基本周波数が求め
られる。STRAIGHTは、元来、音声の知覚が発声
にどの様な影響を与えているかを調べるツールとして開
発された。現状は、実時間動作は不可能であるが、最終
的には「STRAIGHTでリアルタイムに変換される
自分の声を聞きながら被験者が発声する」という実験に
利用することを狙っている(詳細は「聴覚の情景分析が
生み出した高品質VOCODER:STRAIGHT」
日本音響学会誌54巻7号pp.521ー526 河原
英紀 参照)。
【0004】このSTRAIGHT法の骨子は、結局、
以下の4ステージより成る。 (1) 短時間フーリエ変換を適用して音声信号の精密
な周波数分布関数を求める。 (2) ウェーブレット変換を適用して正確な基本周波
数を推定する。 (3) 基本周波数を使用して周波数分布関数を平滑化
する。 (4) 基本周波数を使用したパルス発生器により平滑
化周波数分布を励振することにより合成音を合成する。
【0005】STRAIGHT法によれば、極めて高品
質な合成音声を得ることができ、この合成音声の周波数
分布をモルフィングしたり、基本周波数を変換すること
により男声を女声に変換することができることその他、
優れた特徴を発揮する。しかし、デモ的な話者変換音声
を作成することはできるものの、合成音声の内のどの部
分をどの様に変換するとどの様に聞こえる音声になるか
という系統的な予測の知識、規則は未だ得られていな
い。この規則を知るには人間が聴覚によりどの様に音声
を聴取しているのかという知識を得ることが必須のこと
とされているが、短時間フーリエ変換、線形予測分析に
依存している従来のVOCODER法の枠組みに依って
は、この要請に対応することはできない。
【0006】人間が聴覚によりどの様に音声を聴取して
いるのかという知識を得るには、聴覚モデルを使用して
音声分析合成をしてみる必要がある。ところで、聴覚モ
デルを使用して音声分析合成する技術も研究開発されて
いる(詳細は「ガンマチャープフィルタとフィルタバン
クの効率的な構成」 入野 俊夫、鵜木 祐史 日本音
響学会聴覚研究会資料(H−97−69)1997年1
0月24日 参照)。ここにおいては、人間の聴覚末梢
および中枢系を模擬した音声信号分析を実施する聴覚末
梢系の非線形性まで入れた分析結果から音を合成できる
ことが示されている。しかし、VOCODER型ではな
いので、合成音声の基本周波数、ホルマント周波数だけ
を変化させて話者を変化させるという高度なモルフィン
グ処理の方法が確立されていない。更に、聴知覚特性を
反映させるには、聴覚フィルタバンクの出力だけでは不
十分であることが実験的に知られている。そのために
は、聴覚内部処理の出力表現を模擬していると考えられ
る聴覚イメージ、或は、これを更に変換した寸法−形状
イメージ、メリンイメージを導入する必要がある。とこ
ろが、これらの表現から音声を合成する手法は未だ確立
されていない。このために、従来の音声分析合成法に依
っては聴知覚特性を正確に反映させることはできない。
【0007】ここで、メリンイメージ、聴覚イメージの
メリン変換、安定化聴覚イメージ、および寸法−形状イ
メージについて、参考文献の内容の一部をここに引用し
ておく(詳細は「聴覚経路におけるメリン変換の計算」
入野 俊夫、ロイ D.パターソン 日本音響学会聴
覚研究会資料(H−99−5) 1999年1月29
日。「音源の形状情報と寸法情報を分離する聴覚でのイ
メージング」 入野 俊夫 日本音響学会誌56巻7号
pp.505ー508 参照)。声道は最も単純化すれ
ば無損失な音響管である。舌を「同じ所」にもつてきて
作った音響管の形が理想的に相似でも、その長さが違え
ばホルマント周波数が異なるのは物理学が教えるところ
である。音声学、音声認識においてはホルマント周波数
の比を取ったりケプストラム分析で周波数軸上の振幅ス
ペクトルを正規化することにより長さの違いを取り除く
ことが行われている。それでは、人間はこれをどの様に
行っているのだろうか。これは、音響管の形状の断面積
関数の情報と寸法、長さの情報を分離する処理を特定す
る問題と捕らえることができる。人間ばかりでなく、動
物でも捕食者から逃れるためには寸法情報が重要だと想
像するのは難くない。人間の聴覚系の初期の信号処理に
おいては、単純な短時間フーリエ変換とは異なる蝸牛に
おける周波数分析が行われている。更に、この後に内部
表現として「安定化聴覚イメージ」が作られていると考
えると、心理物理学的な知見と整合性がある。聴覚によ
る音のイメージングである。
【0008】ここで、問題に戻って、聴覚系で音源の形
状と寸法の分離を行うためには、この聴覚イメージに対
して「メリン変換」が取られているのではないかという
理論的な仮説が提案されている。この理論聴覚イメージ
から導出される音の「メリンイメージ」を示し、音源の
寸法にかかわらず同じ表現になることを以下において説
明する。聴覚イメージのメリン変換について説明する。
現在、声道の断面積関数をMRI画像から測定すること
ができる。そこで、或る男性が‘a’と発声したときの
断面積関数を用いた単純な1次元の声道モデルのインパ
ルス応答をsam(t)とする。更に、その声道断面積関
数を相似的に2/3の長さに短縮した時の声道のインパ
ルス応答をsaf(t)とする。このインパルス応答同志
を比較すると、saf(t)=sam(3t/2)となるこ
とが分かる。さて、信号をs(t)とすると、そのメリ
ン変換は、
【0009】
【数1】
【0010】で与えられるも、ここで、pはは複素変数
である。メリン変換の特徴は、「s(t)のメリン変換
がS(p)ならば、波形をa倍に伸縮したs(at)の
メリン変換は、a-pS(p)になる」ということにあ
る。従って、時間伸縮はメリン変換後の分布では単に定
数倍として表現されるので、sam(t)とsam(3t/
2)の変換後の絶対値分布は振幅を正規化すると全く同
じになる。この時、伸縮の度合の情報は分離されて位相
項に入る。このことより、メリン変換を直接波形に適用
できれば声道の長さを正規化した表現が得られることが
分かる。しかし、我々の聴覚システムでは、メリン変換
を直接波形に適用できる様になってはおらず、まず最初
に蝸牛において500Hz以上ではウェーブレット変換
で1次近似できる周波数分析が行われている。また、式
(1)からも分かる様に、メリン変換では必ず解析の原
点の特定が必要で、原点がずれると表現も変わる「シフ
ト変動」する変換である。
【0011】安定化聴覚イメージについて説明する。安
定化聴覚イメージでは、既に、聴覚末梢系の周波数分析
の模擬と時間的な安定化と原点の特定ができている。そ
こで、この上でメリン変換を実行できれば問題は解決す
る。安定化聴覚イメージの一例として10ms間隔(周
波数100Hz)で発生させたクリック系列音に対する
安定化聴覚イメージを図3(a)に示す。この縦軸は聴
覚フィルタの最適周波数をHzで表しており、疑似対数
周波数軸になっている。横軸は、ストローブ時間積分を
開始した活性度の近傍最大時点からの時間間隔でms単
位の線形軸で表されている。先程のインパルス応答sam
(t)、saf(t)を声道フィルタとして、それぞれ1
00Hzと160Hzの声帯振動を模擬した波形で励振
すると、男声の‘a’と割合低い女声の‘a’に聞こえ
る様になる。これらの波形を‘am’、‘am’とし
て、その聴覚イメージを図3(b)、図3(c)にそれ
ぞれ示す。クリックの図3(a)の場合と異なって、矢
印の所に声道の共振すなわちホルマントに対応する3角
形の活性度の部分が出てくる。第2、第3ホルマントは
図3(b)ではおおよそ1000Hzと2200Hzに
中心周波数を持っているのに対して、図3(c)では3
/2倍の周波数の1500Hzと3300Hzになって
いる。このことから図3(c)の聴覚図形は、図3
(b)の聴覚図形を全体的に3/2倍の周波数になる様
に垂直方向に動かして共振の時間応答をその比率で短縮
した形になる。しかし、元の音源をどのように操作した
か知っているからこそ、そのように読み取ることができ
るのであって、最初に図3(b)、図3(c)が与えら
れてお互いの音源の関係は何かと問われても答えるのは
難しいと思われる。そこで、音源の性質がはっきり見え
る様に変形しよう。
【0012】寸法−形状イメージについて説明する。先
ず、聴覚図形は繰り返していて情報としてはどの周期で
も同じなので、1周期分だけを取り出すことにする。目
的のためには、メリン変換の性質を利用して横軸を操作
した方が分かり易くなる。聴覚フィルタは500Hz以
上では波形伸縮したウェーブレットフィルタで近似でき
るが、このフィルタがどの最適周波数でも全く同じ応答
長で表示されるように横軸を変換する。すると、横軸は
時間間隔とフィルタの最適周波数の積の軸hになる。図
3(a)のクリック系列音の聴覚図形は、図3(d)の
様に変換される。聴覚イメージでの閾値処理のために周
波数が高くなるほど応答が長く表示されるが、基本的に
各周波数での応答は縦に1列にきれいに並んでいて非常
に単純な図形になることが分かる。これに対して図3
(b)、図3(c)に対して同じ変換を施すと、図4
(e)、図4(f)の様になる。hの値が3以下では応
答がほぼ1列に並んでいるが、それ以上では3角形で表
されていた共振特性を伸ばして強調した図形になってい
る。周波数が高いほど伸びが大きいので高いホルマント
成分がより強調されている。図4(e)と図4(f)の
矢印の第2〜第4ホルマントの活性度は縦軸上では周波
数3/2倍の場所へと疑似対数周波数軸を平行移動し、
その形状はほとんど変化していないことが分かる。即
ち、この表現においては音源が相似で波形が相似性を保
ったまま(ウェーブレット的に)拡大縮小されるのあれ
ば、常に同じ形状で表示される。その際の拡大縮小は垂
直の周波数軸の方向への単なる平行移動という形で表さ
れ/る。この表現を「寸法−形状イメージ」と呼ぶ。
【0013】メリンイメージについて説明する。図3
(d)の寸法−形状イメージ上での聴覚図形は、主に聴
覚ウェーブレットフィルタの応答だけである。これに対
し、図4(e)、図4(f)の場合は、ホルマント情報
が含まれている。抽出したいのは外界の音源の情報なの
で、表現内の聴覚フィルタ成分を取り除いた方が分かり
易くなる。このために、この寸法−形状イメージの各h
毎に垂直方向に空間ブーリエ変換してその空間周波数成
分の振幅分布を考える。この計算は対数周波数上で定義
される複素正弦波を核関数とするフーリエ積分変換とな
る。これがまさに、メリン変換に相当することが数学的
に示せる。得られる図形を「メリンイメージ」と呼ぶ。
図3(d)から求めたメリンイメージは図4(g)とな
る。
【0014】
【発明が解決しようとする課題】この発明は、従来より
知られている特にSTRAIGHT法の如く高品位の音
声を合成することができるVOCODER型の音声分析
合成装置に聴覚内部処理をモデル化した聴覚イメージモ
デルを分析部として組み合わせることにより、人間にと
って極く自然に聞こえる高度な音声分析、合成、変形を
実現するする上述の問題を解消した音声信号分析合成方
法および、この方法を実施する装置、プログラム、プロ
グラムを記録した記録媒体を提供するものである。
【0015】
【課題を解決するための手段】請求項1:人間の蝸牛基
底膜を含む聴覚末梢および中枢系を模擬した音声信号分
析を実施する聴知覚特性を反映した音声分析合成方法に
おいて、人間の蝸牛基底膜振動を模擬した周波数分析結
果を音声波形の基本周期に同期して安定化させた時間周
波数表現、この1周期分の表現、或いはこのメリン変換
表現を、VOCODER型音声分析合成器の出力表現に
組み合わせる音声分析合成方法を構成した。
【0016】そして、請求項2:人間の蝸牛基底膜を含
む聴覚末梢および中枢系を模擬した音声信号分析を実施
する聴知覚特性を反映した音声分析合成装置において、
蝸牛基底膜を含む人間の聴覚の末梢系から中枢系に到る
機能を模擬した聴覚イメージモデル/聴覚内部処理器1
3を具備し、写像器22を具備し、人間の基底膜振動を
模擬した聴覚イメージモデル/聴覚内部処理器13の出
力である周波数分析結果を音声波形の基本周期に同期し
て安定化させた時間周波数表現、この1周期分の表現、
或はこのメリン変換表現を写像器22においてVOCO
DER型音声分析器2の出力表現に組み合わせ、両者の
誤差を最小化する写像器22の写像関数を決定し、写像
関数を使用して音声合成する音声分析合成装置を構成し
た。
【0017】また、請求項3:請求項2に記載される音
声分析合成装置において、理想的な発声を聴覚イメージ
モデル/聴覚内部処理器13により予め分析した出力の
イメージを蓄積したテンプレート蓄積器29を有するテ
ンプレート処理器28を具備し、写像関数を使用して音
声合成した合成結果を再度分析して得られた表現と、テ
ンプレート蓄積器29に記憶される理想的な発声テンプ
レート表現との間の誤差を最小化する学習過程を含む音
声分析合成装置を構成した。更に、請求項4:請求項2
に記載される音声分析合成装置において、分析出力表現
と写像関数との間に表現変形装置を挿入して、変形表現
に対応する音を合成する音声分析合成装置を構成した。
【0018】そして、請求項5:請求項2に記載される
音声分析合成装置において、聴覚イメージモデル/聴覚
内部処理器13は基本周期情報を入力してこれに基づい
て時間周波数表現である安定化聴覚イメージに変換出力
する安定化聴覚イメージ生成器16、安定化聴覚イメー
ジを入力してこれを寸法−形状イメージ表現に変換出力
する寸法−形状イメージ生成器17、寸法−形状イメー
ジを入力してこれを外界の音源の寸法に依存しないメリ
ンイメージに変換出力するメリンイメージ生成器18を
有し、写像器22は安定化聴覚イメージ生成器16の生
成する安定化聴覚イメージ出力19が入力されるAの写
像器23、寸法−形状イメージ生成器17の生成する寸
法−形状聴覚イメージ出力20が入力されるBの写像器
24、メリンイメージ生成器18の生成するメリンイメ
ージ出力21が入力されるCの写像器25を有し、ここ
で、これらのA、B、Cの写像器の出力をVOCODE
R型音声分析器2の平滑化スペクトル構成器5の出力7
を切り替え器8、26を介して直接接続して誤差を最小
化する写像器の写像関数を決定する音声分析合成装置を
構成した。
【0019】ここで、請求項6:コンピュータに対し
て、聴覚イメージモデル/聴覚内部処理器13の安定化
聴覚イメージ生成器16が基本周期情報を安定化聴覚イ
メージに変換出力すべき指令をし、寸法−形状イメージ
生成器17が安定化聴覚イメージを寸法−形状イメージ
表現に変換出力すべき指令をし、メリンイメージ生成器
18が寸法−形状イメージをメリンイメージに変換出力
すべき指令をし、Aの写像器23が安定化聴覚イメージ
出力および平滑化スペクトル構成器5の出力を入力して
誤差を最小化する写像関数を決定すべき指令をし、Bの
写像器24が寸法−形状聴覚イメージ出力および平滑化
スペクトル構成器5の出力を入力して誤差を最小化する
写像関数を決定すべき指令をし、Cの写像器25がメリ
ンイメージ出力21および平滑化スペクトル構成器5の
出力を入力して誤差を最小化する写像関数を決定すべき
指令をし、聴覚イメージモデル/聴覚内部処理器13が
その表現出力から合成器11により合成信号12を生成
すべき指令をする音声分析合成プログラムを構成した。
【0020】そして、請求項7:コンピュータに対し
て、聴覚イメージモデル/聴覚内部処理器13の安定化
聴覚イメージ生成器16が基本周期情報を安定化聴覚イ
メージに変換出力すべき指令をし、寸法−形状イメージ
生成器17が安定化聴覚イメージを寸法−形状イメージ
表現に変換出力すべき指令をし、メリンイメージ生成器
18が寸法−形状イメージをメリンイメージに変換出力
すべき指令をし、Aの写像器23が安定化聴覚イメージ
出力および平滑化スペクトル構成器5の出力を入力して
誤差を最小化する写像関数を決定すべき指令をし、Bの
写像器24が寸法−形状聴覚イメージ出力および平滑化
スペクトル構成器5の出力を入力して誤差を最小化する
写像関数を決定すべき指令をし、Cの写像器25がメリ
ンイメージ出力21および平滑化スペクトル構成器5の
出力を入力して誤差を最小化する写像関数を決定すべき
指令をし、聴覚イメージモデル/聴覚内部処理器13が
その表現出力から合成器11により合成信号12を生成
すべき指令をする音声分析合成プログラムを記憶した記
憶媒体を構成した。
【0021】
【発明の実施の形態】この発明の実施の形態を図1の実
施例を参照して説明する。入力音声信号1は音声分析器
2に入力される。音声分析器2においては、この入力音
声信号1について、周波数分析器3により周波数スペク
トルが分析推定される。そして、基本周波数推定器4に
より、入力音声信号1について、基本周波数値の推定お
よび有声/無声の判断がなされる。これ迄が基本的なV
OCODER型の分析装置を構成している。STRAI
GHT法の場合は、更に、平滑化スペクトル構成器5を
具備し、これにより周波数分析器3と基本周波数推定器
4の出力に基づいて平滑化スペクトルを推定する。この
平滑化スペクトル出力7と基本周波数推定器4の基本周
波数出力6は、音声合成器9の合成器11およびパルス
・雑音生成器10に直接或いは量子化器、伝送線路を経
由して入力されて合成され、合成信号12が生成され
る。以上の音声分析器2は、結局、極く一般的なVOC
ODER型の音声分析器を構成している。
【0022】以上に構成に引き続くこの発明の信号処理
を順を追って説明する。13は聴覚イメージモデル/聴
覚内部処理器であり、蝸牛基底膜を含む人間の聴覚の末
梢系から中枢系に到る機能を模擬するために開発された
ものである。入力信号1はこの聴覚イメージモデル/聴
覚内部処理器13に入力される。この入力信号1は、先
ず、周波数分析器14に入力される。この周波数分析器
14は、人間の聴覚末梢系のフィルタリングを模擬した
計算モデルである聴覚イメージモデル、或いはウェーブ
レット変換を実現する周波数分析器より成る。周波数分
析結果は、次いで、基本周期抽出・安定化処理器15に
入力され、ここにおいて基本周期情報が抽出される。こ
の基本周期情報は安定化聴覚イメージ生成器16に入力
され、これに基づいて安定化聴覚イメージ(SAI)と
呼ばれる一種の時間周波数表現に変換、出力される。こ
の時間周波数表現は、寸法−形状イメージ生成器17に
入力され、この表現の内の1周期分だけ抽出されて、各
周波数成分を聴覚フィルタの中心周波数に比例した再サ
ンプリングを施した寸法−形状イメージ(SSI)と呼
ばれる表現に変換、出力される。寸法−形状イメージ
は、更に、メリンイメージ生成器18に入力され、外界
の音源の寸法に依存しないメリンイメージ(MI)に変
換出力される。以上の聴覚イメージモデル/聴覚内部処
理器13は、結局、従来公知の聴覚内部処理のモデルを
もとにした信号分析装置である。
【0023】この発明は、以上の公知のVOCODER
型の音声分析器2と公知の聴覚イメージモデル/聴覚内
部処理器13に接続される写像器22を発明の構成の主
要部としている。この写像器22は、第1の写像器2
3、第2の写像器24、第3の写像器25より成る。A
の写像器23には、安定化聴覚イメージ生成器16の生
成する安定化聴覚イメージ出力19が入力される。Bの
写像器24には、寸法−形状イメージ生成器17の生成
する寸法−形状聴覚イメージ出力20が入力される。C
の写像器25には、メリンイメージ生成器18の生成す
るメリンイメージ出力21が入力される。メリンイメー
ジ出力と寸法−形状聴覚イメージ出力は、位相情報をも
含めれば等価な表現であるので、Cの写像器25の出力
は、Bの写像器24を経由して出力される構成とする。
結局、Aの写像器23の出力とBの写像器24の出力が
切り替え器26を介して外部に切り替え出力される。
【0024】ここで、これらのA、B、Cの写像器は、
学習により内部状態が変更設定される構成とされてい
る。即ち、音声分析器2の出力を入力信号とし、平滑化
スペクトル構成器5の出力7を教師信号とし、切り替え
器8を介して直接に写像器22の出力と接続して以下の
式の自乗誤差Eを最小化する写像器の係数を決定する。 (1) 安定化聴覚イメージ出力:VAI(τ、ω)から
の写像関数Aの場合、 E=Σ[VF(ω)−A{VAI(τ、ω)}]2 (2) 寸法−形状聴覚イメージの出力:VSSI(h、
ω)からの写像関数Bの場合、 E=Σ[VF(ω)−B{VSSI(h、ω)}]2 (3) メリンイメージ出力:VMI(h、c)からの写
像関数Cの場合、写像関数Bも関連して、 E=Σ[VF(ω)−B{C{VMI(h、c)}}]2 学習手法については、最も効率よく高精度の学習手法を
選択する。そして、学習データについては、一般的な変
換を目指して多数の話者について学習し、或いは、特定
の話者についての正確な変換を目指して特定の話者につ
いてのみ学習する。
【0025】以上の通りにして、写像関数が決定された
ものとする。これ以降は、切り替え器8を反対の音声合
成器9の側に切り替え、聴覚イメージモデル/聴覚内部
処理器13の表現出力から合成器11により合成信号1
2を直接に生成することができる。図1において、パル
ス・雑音生成器10の情報元としては、音声分析器2中
の基本周波数推定・有声/無声判断器4を使用している
が、これにこだわる必要はなく、聴覚イメージモデル/
聴覚内部処理器13の中の基本周期抽出・安定化処理器
15の出力する情報を使用することができるし、モルフ
ィングを行うにはそれ以外の情報を使用しても差し支え
ない。聴覚イメージモデル/聴覚内部処理器13の表現
出力19、20、21のタップd−d’、e−e’、f
−f’を切り離し、この間に変形操作を行う装置を取り
付けて表現をモルフィングすることにより、聴知覚的な
変化を予測することができる形で合成音を作成すること
ができる。これは従来の音声分析合成器に依っては実現
できなかったこの発明の特徴である。
【0026】ここで、図2を参照して第2の実施例を説
明する。先の実施例においては、学習ステージで写像器
22の写像関数が決定され、これに基づいて音声合成す
る例を説明したが、これに依っては、従来の音声合成器
の品質を格段に改善することは難しい。特に、基本周波
数或は声道長の異なる別の話者の声をモルフイングによ
り合成する場合に問題が生ずる。これは、学習する目標
となっているものが従来の音声分析合成の平滑化スペク
トルであり、それ以上には良くならないからである。
【0027】この問題を解決するには、音声分析合成の
閉じたループを形成し、理想的な応答に近付ける必要が
ある。これを図2を参照して説明する。図2において、
図1における部材と共通する部材には共通する参照符号
を付与している。図2において、基本周波数推定器27
は図1の基本周波数推定器4と構成上異なっているが機
能的には同じで、基本周期抽出・安定化処理器15と共
通としても差し支えない。先ず、理想的な発声を聴覚イ
メージモデル/聴覚内部処理器13により予め分析し、
出力のイメージをテンプレート処理器28の内部のテン
プレート蓄積器29に蓄積しておく。これに近い発声を
合成する場合、初期値となる合成信号12を入力信号1
としてフィードバックし、再び聴覚イメージモデル/聴
覚内部処理器13で分析する。ここで得られたイメージ
とテンプレート蓄積器29に蓄積されている理想的なイ
メージとをテンプレート比較器30において比較し、そ
の誤差信号とイメージ信号の双方を写像器22に送り込
み、誤差信号を最終的に小さくする学習をオンラインで
させる。この学習により得られた写像関数でイメージか
ら音声合成器9のパラメータを生成し、合成信号12を
得る。この合成信号12を更に入力信号1として繰り返
し計算し、収束させることにより最終目的とする合成信
号12が得られる。
【0028】ここで、特に、テンプレートをメリンイメ
ージ生成器18の出力とすると、基本周波数或は声道長
の異なる別の話者に対応する表現がほぼ同じとなってい
る。即ち、この過程は、例えば幼児が母親の声を聞きな
がら音声を生成することを学習することを工学的に実現
しているものに相当し、今日迄の音声分析合成装置に依
っては実現することができない過程である。以上の音声
分析合成装置は、実際は、コンピュータおよび制御プロ
グラムを使用して制御動作せしめられる。
【0029】(ステップ1) 音声分析器2において
は、この入力音声信号1について、周波数分析器3によ
り周波数スペクトルが分析推定させ、(ステップ2)
基本周波数推定器4により、入力音声信号1について、
基本周波数値の推定および有声/無声の判断をさせ、
(ステップ3) 更に、平滑化スペクトル構成器5によ
り周波数分析器3と基本周波数推定器4の出力に基づい
て平滑化スペクトル:VF(ω)を推定させ、(ステッ
プ4) この平滑化スペクトル出力7と基本周波数推定
器4の基本周波数出力6を、音声合成器9の合成器11
およびパルス・雑音生成器10に入力して合成信号12
を生成させ、(ステップ5) 入力信号1について、聴
覚イメージモデル/聴覚内部処理器13における人間の
聴覚末梢系のフィルタリングを模擬した計算モデルであ
る聴覚イメージモデルより成る周波数分析器14により
周波数分析させ、(ステップ6) 周波数分析結果を基
本周期抽出・安定化処理器15に入力して基本周期情報
を抽出させ、(ステップ7) 基本周期情報は安定化聴
覚イメージ生成器16に入力して安定化聴覚イメージ:
AI(τ、ω)に変換出力させ、(ステップ8) 安定
化聴覚イメージを寸法−形状イメージ生成器17に入力
して、各周波数成分を聴覚フィルタの中心周波数に比例
した再サンプリングを施した寸法−形状イメージ:V
SSI(h、ω)に変換、出力させ、(ステップ9) 寸
法−形状イメージをメリンイメージ生成器18に入力し
てメリンイメージ:VMI(h、c)に変換出力させ、
(ステップ10) 切り替え器8を写像器22側に切り
替えると共に切り替え器26を交互に切り替え制御さ
せ、(ステップ111) Aの写像器23に安定化聴覚
イメージ:VAI(τ、ω)を入力すると共に平滑化スペ
クトル構成器5の出力:VF(ω)を入力して両者の誤
差Eを最小化する写像器の写像関数を決定し、(ステッ
プ112) Bの写像器24に寸法−形状イメージ:V
SSI(h、ω)を入力すると共に平滑化スペクトル構成
器5の出力:VF(ω)を入力して両者の誤差Eを最小
化する写像器の写像関数を決定し、(ステップ113)
Cの写像器25にメリンイメージ:VMI(h、c)を
入力すると共に平滑化スペクトル構成器5の出力:VF
(ω)を入力して両者の誤差Eを最小化する写像器の写
像関数を決定し、(ステップ12) 切り替え器8を反
対の音声合成器9の側に切り替えると共に切り替え器2
6を交互に切り替え制御させ、(ステップ13) 聴覚
イメージモデル/聴覚内部処理器13の表現出力から合
成器11により合成信号12を直接に生成する。
【0030】
【発明の効果】以上の通りであって、この発明によれ
ば、従来より知られている特にSTRAIGHT法の如
く高品位の音声を合成することができるVOCODER
型の音声分析合成装置に聴覚内部処理をモデル化した聴
覚イメージモデルを分析部として組み合わせることによ
り、人間にとって極く自然に聞こえる高度な音声分析、
合成、変形を実現する音声分析合成方法および装置を構
成することができる。信号分析合成装置として人間の聴
知覚特性を反映した表現上で変形操作が必要となる広範
囲な信号処理に利用できる。具体的には、補聴器信号処
理、音声および音楽の符号化、信号強調、信号分離その
他の分析合成信号処理に広範囲に使用することができ
る。
【図面の簡単な説明】
【図1】実施例を説明する図。
【図2】他の実施例を説明する図。
【図3】聴覚イメージをを説明する図。
【図4】図3の続き。
【図5】VOCODERを説明する図。
【符号の説明】
11 合成器 13 聴覚イメージモデル/聴覚内部処理器 16 安定化聴覚イメージ生成器 17 寸法−形状イメージ生成器 18 メリンイメージ生成器 2 VOCODER型音声分析器 22 写像器 23 Aの写像器 24 Bの写像器 25 Cの写像器 26 切り替え器 28 テンプレート処理器 29 テンプレート蓄積器 5 平滑化スペクトル構成器 8 切り替え器

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 人間の蝸牛基底膜を含む聴覚末梢および
    中枢系を模擬した音声信号分析を実施する聴知覚特性を
    反映した音声分析合成方法において、 人間の蝸牛基底膜振動を模擬した周波数分析結果を音声
    波形の基本周期に同期して安定化させた時間周波数表
    現、この1周期分の表現、或いはこのメリン変換表現
    を、VOCODER型音声分析合成器の出力表現に組み
    合わせることを特徴とする音声分析合成方法。
  2. 【請求項2】 人間の蝸牛基底膜を含む聴覚末梢および
    中枢系を模擬した音声信号分析を実施する聴知覚特性を
    反映した音声分析合成装置において、 蝸牛基底膜を含む人間の聴覚の末梢系から中枢系に到る
    機能を模擬した聴覚イメージモデル/聴覚内部処理器を
    具備し、 写像器を具備し、 人間の基底膜振動を模擬した聴覚イメージモデル/聴覚
    内部処理器の出力である周波数分析結果を音声波形基本
    周期に同期して安定化させた時間周波数表現、この1周
    期分の表現、或はこのメリン変換表現を写像器において
    VOCODER型音声分析器の出力表現に組み合わせ、
    両者の誤差を最小化する写像器の写像関数を決定し、写
    像関数を使用して音声合成することを特徴とする音声分
    析合成装置。
  3. 【請求項3】 請求項2に記載される音声分析合成装置
    において、 理想的な発声を聴覚イメージモデル/聴覚内部処理器に
    より予かじめ分析した出力のイメージを蓄積したテンプ
    レート蓄積器を有するテンプレート処理器を具備し、 写像関数を使用して音声合成した合成結果を再度分析し
    て得られた表現と、テンプレート蓄積器に記憶される理
    想的な発声テンプレート表現との間の誤差を最小化する
    学習過程を含むことを特徴とする音声分析合成装置。
  4. 【請求項4】 請求項2に記載される音声分析合成装置
    において、 分析出力表現と写像関数との間に表現変形装置を挿入し
    て、変形表現に対応する音を合成することを特徴とする
    音声分析合成装置。
  5. 【請求項5】 請求項2に記載される音声分析合成装置
    において、 聴覚イメージモデル/聴覚内部処理器は基本周期情報を
    入力してこれに基づいて時間周波数表現である安定化聴
    覚イメージに変換出力する安定化聴覚イメージ生成器、
    安定化聴覚イメージを入力してこれを寸法−形状イメー
    ジ表現に変換出力する寸法−形状イメージ生成器、寸法
    −形状イメージを入力してこれを外界の音源の寸法に依
    存しないメリンイメージに変換出力するメリンイメージ
    生成器を有し、 写像器は安定化聴覚イメージ生成器の生成する安定化聴
    覚イメージ出力が入力されるAの写像器、寸法−形状イ
    メージ生成器の生成する寸法−形状聴覚イメージ出力が
    入力されるBの写像器、メリンイメージ生成器の生成す
    るメリンイメージ出力が入力されるCの写像器を有し、
    ここで、これらのA、B、Cの写像器の出力をVOCO
    DER型音声分析器の平滑化スペクトル構成器の出力を
    切り替え器を介して直接接続して誤差を最小化する写像
    器の写像関数を決定することを特徴とする音声分析合成
    装置。
  6. 【請求項6】 コンピュータに対して、 聴覚イメージモデル/聴覚内部処理器の安定化聴覚イメ
    ージ生成器が基本周期情報を安定化聴覚イメージに変換
    出力すべき指令をし、 寸法−形状イメージ生成器が安定化聴覚イメージを寸法
    −形状イメージ表現に変換出力すべき指令をし、 メリンイメージ生成器が寸法−形状イメージをメリンイ
    メージに変換出力すべき指令をし、 Aの写像器が安定化聴覚イメージ出力および平滑化スペ
    クトル構成器の出力を入力して誤差を最小化する写像関
    数を決定すべき指令をし、 Bの写像器が寸法−形状聴覚イメージ出力および平滑化
    スペクトル構成器の出力を入力して誤差を最小化する写
    像関数を決定すべき指令をし、 Cの写像器がメリンイメージ出力および平滑化スペクト
    ル構成器の出力を入力して誤差を最小化する写像関数を
    決定すべき指令をし、 聴覚イメージモデル/聴覚内部処理器がその表現出力か
    ら合成器により合成信号を生成すべき指令をする音声分
    析合成プログラム。
  7. 【請求項7】 コンピュータに対して、 聴覚イメージモデル/聴覚内部処理器の安定化聴覚イメ
    ージ生成器が基本周期情報を安定化聴覚イメージに変換
    出力すべき指令をし、 寸法−形状イメージ生成器が安定化聴覚イメージを寸法
    −形状イメージ表現に変換出力すべき指令をし、 メリンイメージ生成器が寸法−形状イメージをメリンイ
    メージに変換出力すべき指令をし、 Aの写像器が安定化聴覚イメージ出力および平滑化スペ
    クトル構成器の出力を入力して誤差を最小化する写像関
    数を決定すべき指令をし、 Bの写像器が寸法−形状聴覚イメージ出力および平滑化
    スペクトル構成器の出力を入力して誤差を最小化する写
    像関数を決定すべき指令をし、 Cの写像器がメリンイメージ出力および平滑化スペクト
    ル構成器の出力を入力して誤差を最小化する写像関数を
    決定すべき指令をし、 聴覚イメージモデル/聴覚内部処理器がその表現出力か
    ら合成器により合成信号を生成すべき指令をする音声分
    析合成プログラムを記憶した記憶媒体。
JP2001066711A 2001-03-09 2001-03-09 音声分析合成方法および、この方法を実施する装置、プログラム、プログラムを記録した記録媒体 Pending JP2002268656A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001066711A JP2002268656A (ja) 2001-03-09 2001-03-09 音声分析合成方法および、この方法を実施する装置、プログラム、プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001066711A JP2002268656A (ja) 2001-03-09 2001-03-09 音声分析合成方法および、この方法を実施する装置、プログラム、プログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2002268656A true JP2002268656A (ja) 2002-09-20

Family

ID=18925171

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001066711A Pending JP2002268656A (ja) 2001-03-09 2001-03-09 音声分析合成方法および、この方法を実施する装置、プログラム、プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP2002268656A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005300692A (ja) * 2004-04-07 2005-10-27 Sony Corp ロボットの行動制御システム及び行動制御方法、並びにロボット装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005300692A (ja) * 2004-04-07 2005-10-27 Sony Corp ロボットの行動制御システム及び行動制御方法、並びにロボット装置
JP4661074B2 (ja) * 2004-04-07 2011-03-30 ソニー株式会社 情報処理システム、情報処理方法、並びにロボット装置
US8145492B2 (en) 2004-04-07 2012-03-27 Sony Corporation Robot behavior control system and method, and robot apparatus

Similar Documents

Publication Publication Date Title
US6535852B2 (en) Training of text-to-speech systems
JP2002328695A (ja) テキストからパーソナライズ化音声を生成する方法
EP0880772A1 (en) Speech coding, reconstruction and recognition using acoustics and electromagnetic waves
US20220157329A1 (en) Method of converting voice feature of voice
WO2010032405A1 (ja) 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム
WO2019163848A1 (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
JP2019008206A (ja) 音声帯域拡張装置、音声帯域拡張統計モデル学習装置およびそれらのプログラム
JP7124373B2 (ja) 学習装置、音響生成装置、方法及びプログラム
CN112185342A (zh) 语音转换与模型训练方法、装置和系统及存储介质
US5381514A (en) Speech synthesizer and method for synthesizing speech for superposing and adding a waveform onto a waveform obtained by delaying a previously obtained waveform
WO2015025788A1 (ja) 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法
JP3174777B2 (ja) 信号処理方法および装置
JP2017167526A (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
JP2002268656A (ja) 音声分析合成方法および、この方法を実施する装置、プログラム、プログラムを記録した記録媒体
JP6167063B2 (ja) 発話リズム変換行列生成装置、発話リズム変換装置、発話リズム変換行列生成方法、及びそのプログラム
JP6764843B2 (ja) 信号解析装置、方法、及びプログラム
Mussabayev et al. The technology for the automatic formation of the personal digital voice pattern
JP2021099454A (ja) 音声合成装置、音声合成プログラム及び音声合成方法
CN113066472A (zh) 合成语音处理方法及相关装置
CN109697985A (zh) 语音信号处理方法、装置及终端
JP7368779B2 (ja) 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
JP7079455B1 (ja) 音響モデル学習装置、方法およびプログラム、並びに、音声合成装置、方法およびプログラム
JP2005134685A (ja) 声道形状パラメータの推定装置、音声合成装置、及びコンピュータプログラム
JP4644879B2 (ja) 調音パラメータ補間用データ生成装置及びコンピュータプログラム
JP6234134B2 (ja) 音声合成装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040820

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041116

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20051004