JP2536169B2

JP2536169B2 - 規則型音声合成装置

Info

Publication number: JP2536169B2
Application number: JP1195156A
Authority: JP
Inventors: 幸夫三留
Original assignee: Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1989-07-27
Filing date: 1989-07-27
Publication date: 1996-09-18
Anticipated expiration: 2011-09-18
Also published as: JPH0358100A

Description

【発明の詳細な説明】（産業上の利用分野）本発明は文字列から規則に従って音声を合成する際
に、単位となる音声データを編集し、その編集されたデ
ータから音声を生成する型の規則型音声合成装置に関す
るものである。

（従来の技術）従来、文字列から規則に従って任意の音声を合成する
際に、人間が発声した音声を分析し、合成の基本単位と
なる音声データを抽出して記憶しておき、その単位音声
データを編集して音声を合成する方法が知られている。

このような、音声合成法の第１の従来例としては、電
子通信学会論文誌J61−Ｄ、No.11の858ページから865ペ
ージに掲載された佐藤による「PARCOR−VCV連鎖を用い
た音声合成方式」と題する論文に示されたものがある。

この従来例では、音声データとしてはパーコール（PA
RCOR）係数、即ち偏自己相関係数と呼ばれるパラメータ
を用いている。これは、線形予測法と呼ばれる音声分析
法によって音声を分析して抽出される。また、音声の基
本単位としてVCV（ここに、Ｖは母音、Ｃは子音を表
す）を用いている。

即ち、この従来例では、母音から子音さらに次の母音
までの音声を基本単位として、この音声データを編集し
て音声を合成している。このような単位音声データは、
例えば「あさ」（/asa/）などのように発声した音声を
分析して得られる。この例のほかにも、音声データとし
てLSP（エル・エス・ピー）と呼ばれるパラメータやホ
ルマントと呼ばれるパラメータを用いるものが知られて
いる。更に、単位音声としては、CV・VCやCVC等を用い
るものが知られている。これらの単位音声セットは、あ
る言語音声（例えば日本語）を構成する音素の組合わせ
を基に決定される。

また、第２の従来例として、日本音響学会昭和62年度
春季研究発表講演論文集３−６−13に記載された、中
島、浜田、嵯峨山による「合成単位を自動生成する規則
合成法の検討」と題する論文に示された例がある。

この例では、単語や文章を発声した音声を分析し音素
情報を付与した音声データベース（即ち、音声データの
どの部分が何という音素に対応しているかという対応関
係の情報を含んだ音素データベース）を用い、統計的手
法を用いて単位音声を抽出している。この第２の従来例
は、単位音声の決定方法に関して第１の従来例との間に
差異がある。

（発明が解決しようとする課題）これらの従来例によれば、文字列から任意の音声を合
成でき、しかも、個々の単位音声については、人間が発
声した音声を分析したデータを用いているため、明瞭性
が良いといった特長があるが、それぞれに、以下に述べ
るような問題を有していた。

第１の従来例では、単位音声を音素の組合わせに基づ
いて決定しているので、スペクトルの変化パターンが、
実際に単語や文章を発声した時とは必ずしも同一になら
ず合成音は滑らかさにかけた不自然な印象を受けること
が多かった。これは、単位の種類を増やすことによって
ある程度は解決できるが、単位音声の数を増やすために
は、原音声の収集や分析結果のデータから編集に必要な
部分のみを切り出す作業に多大の工数が必要なため、音
質の改善に限界があった。

一方、第２の従来例では、音声のデータベースが完備
されていれば、スペクトルの特徴を考慮した統計的手法
により、単位音声を抽出するので、比較的自然な音声を
合成できるが、音素情報を付与した音素データベースを
作成するためには、第１の従来例以上に膨大な工数が必
要である。これは、音声分析結果から、ある部分が何と
いう音素であるかを自動的に決定する良い方法がなく、
音声の知識を有した人間がスペクトルパターンを見て音
素情報を入力する必要があるからである。このような問
題があるため、別の話者の合成音声が必要になった場合
などには、その都度多額の開発コストがかかることにな
る。また、音声データベースのデータの量が少ない場合
は、良好な合成音声の得られる単位音声を抽出すること
は期待できない。

さらにまた、これら二通りの従来例ともに、単位音声
のデータを一旦作った後で、音質に問題が見つかった場
合に、部分的な修正が困難であるという問題もあった。

本発明の目的は、単位音声データの作成が容易で、し
かも合成音声の自然さ等に問題が発見されたときに簡単
にデータを修正でき、その結果自然で明瞭な音声を合成
できる規則型音声合成装置を提供することにある。

（課題を解決するための手段）前述の課題を解決するために本発明は次の３つの態様
をもつ規則型音声合成装置を提案している。

本発明の第１の態様による規則型音声合成装置は、単
位となる音声である単位音声を分析して得られた音声デ
ータを編集し、その編集された音声データから音声を生
成する規則型音声合成装置において、前記単位音声デー
タを記憶する記憶手段と、前記記憶手段に記憶されてい
る単位音声データを読み出して編集する編集手段と、前
記編集された音声データから音声を生成する音声合成手
段と、入力音声を分析し入力音声データを得る入力音声
分析手段と、前記音声データと前記編集された音声デー
タとの間でパターンマッチングを行いパターン間距離を
抽出するパターンマッチング手段と、前記パターン間距
離の値に基づいて、前記入力音声データから新たな単位
音声データを抽出し前記記憶手段に書き込む手段とを備
える。

また、本発明の第２の態様による規則型音声合成装置
は、単位となる音声である単位音声を分析して得られた
音声データを編集し、その編集された音声データから音
声を生成する規則型音声合成装置において、前記単位音
声データを記憶する記憶手段と、前記記憶手段に記憶さ
れている単位音声データを読み出して編集する編集手段
と、前記編集された音声データから音声を生成する音声
合成手段と、入力音声を分析し入力音声データを得る第
１の音声分析手段と、前記入力音声および前記音声合成
回路で生成された合成音声を分析する第２の音声分析手
段と、前記第２の音声分析手段で分析された入力音声お
よび合成音声の二種類の分析データ間のパターンマッチ
ングを行いパターン間距離を抽出するパターンマッチン
グ手段と、前記パターン間距離の値に基づいて、前記第
１の音声分析手段で得られた前記入力音声データから新
たな単位音声データを抽出し前記記憶手段に書き込む手
段とを備える。

さらに、本発明の第３の態様による規則型音声合成装
置は、単位となる音声である単位音声を分析して得られ
た音声データを編集し、その編集された音声データから
音声を生成する規則型音声合成装置において、前記単位
音声データを記憶する記憶手段と、前記記憶手段に記憶
されている単位音声データを読み出し編集する編集手段
と、前記編集された音声データから音声を生成する音声
合成手段と、入力音声を分析して入力音声データを得る
音声分析手段と、前記入力音声データおよび前記編集さ
れた音声データを別のパラメータに変換するパラメータ
変換手段と、前記パラメータ変換手段により変換された
前記入力音声のデータと前記編集されたデータ相互の間
のパターンマッチングを行いパターン間距離を抽出する
パターンマッチング手段と、前記パターン間距離の値に
基づいて、前記音声分析手段で得られた前記入力音声デ
ータから新たな単位音声データを抽出し前記記憶手段に
書き込む手段とを備える。

（作用）本発明では、まず従来例と同様にして単位音声データ
を作成し、単位音声データを記憶する手段に記憶させて
おく。但し、このデータはある言語音声を合成するため
の必要最小限のデータがあればいよい。例えば、日本語
用のCV・VC単位音声ならばその種類は300から400通り程
度あればよい。音声の合成は入力された文字列に基づい
て、この単位音声データを編集したデータを基に音声合
成回路で行われる。ここまでは、従来の規則型音声合成
装置と同様である。

さて、もし合成音声に不自然な部分があったら、その
とき合成した単語や文章と同一の音声を入力し、以下に
説明するようにして新たな単位音声データを抽出して記
憶する。この新しい単位音声データの抽出処理を行うか
否かは外部から指示しても良いし、音声入力部に音声検
出回路を設け、音声が入力されたことを検出したら実行
するようにしてもよい。

第１の発明では、この入力音声を分析し、その入力音
声の分析結果の音声データと前記の単位音声データを編
集したデータのパターンマッチングを行いパターン間の
距離を抽出する。これは、例えば従来から音声認識にお
いて用いられているダイナミックプログラミングに基づ
くパターンマッチング方法を利用することができる。こ
のパターン間距離が予め設定された基準値よりも大きい
ときは、その部分の合成用単位音声データが実際に単語
や文章としての発声との間に差異があることを示してい
るので、この部分の単位音声を新たに記憶しておくこと
で、合成音声の自然性を向上することができるようにな
る。

ここで基準値としては、同一の単語を繰り返し発声し
たとしても、常にまったく同一のスペクトルパターン変
化にはならないことを考慮して設定しておく必要があ
る。そのためには、同一の単語を繰り返し発声したとき
相互のパターン間距離を目安として設定しておけばよ
い。

また、入力音声のデータからの新しい単位音声の抽出
は、予め用意した単位音声の接続部の間のデータとパタ
ーンマッチングの対応がとれた部分を切り出すことで実
現できる。パターン間距離が大きいといっても、不自然
であるという程度の違いであり、同一の音素列について
比較しているのであるから、音声のどの部分が何という
音素に対応しているかという判定には、このパターンマ
ッチングの結果の対応関係は十分な情報を含んでいると
考えられる。

このとき、新たに抽出する単位音声は、必ずしもはじ
めに用意されたものと同一の単位でなくてもよい。例え
ば、はじめに、CV・VCを単位として用意しておき、単語
音声の入力データからはCVCとして抽出したものを記憶
するようにすれば、編集の際の接続が容易になるという
メリットがある。

上記の第１の発明では、入力音声を分析したデータと
単位音声を編集したデータとの間で距離を算出し、その
データの一部が単位音声として記憶されている。即ち、
パターンマッチングは音声合成に用いるデータ間で行う
ものである。そのため、この第１の発明では音声分析は
入力音声についてのみ行えばよく、装置は簡単な構成と
なる。この場合、前記第１の従来例のように音声合成の
ための線形予測係数やホルマントなどのパラメータ間で
距離を算出することになる。

これに対し、第２に発明では、音声合成のために記憶
しておくデータと音声のパターンマッチングに用いるデ
ータとは異なったパラメータを用いるようにしたもので
ある。これは、音声のパターンマッチングに適したパラ
メータとしてはほかにもケプストラム等のように、必ず
しも音声合成には適さないパラメータもあるためであ
る。そのために、第２の発明では、編集されたデータか
ら音声を合成して、その合成音声と入力音声を第２の音
声分析手段で分析して、パターンマッチングを行い、新
たな単位音声として記憶するデータは、第１の音声分析
手段で分析するものである。この場合、音声分析手段が
二通り必要であるが、音声合成とパターンマッチングの
それぞれに最適なパラメータを選ぶことができるので、
精度の高い判定が期待できる。

さらに、第３の発明では、音声合成のパラメータから
パターンマッチングのためのパラメータに変換すること
で第２の発明と同様の効果を実現するものである。この
ようなパラメータとしては、分析合成のための線形予測
係数から簡単に変換できるLPCケプストラムや群遅延ス
ペクトル等のパラメータがある。この第３の発明では、
合成音声を分析し直すことをせず、編集結果のデータを
変換するだけなので、少ない演算量で実現することがで
きる。

このようにこれらの本発明によれば、はじめに用意す
る単位音声データは必要最小限の量でよく、その後不自
然な部分のみ実際の音声を入力することで、適切なデー
タを自動的に記憶してより自然な音声を合成できるよう
になる規則型音声合成装置が得られる。

（実施例）次に図面を用いて本発明の実施例を説明する。

第１図は、本発明の一実施例のブロック図である。

まず、主要構成要素の機能と動作を説明する。図にお
いて、音声データメモリ２には、音声合成に必要な単位
音声を分析したデータが記憶されていて、制御回路１か
ら単位音声の番号が送られると当該単位音声に対応する
データがデータ編集部３に送られる。

データ編集部３は、制御回路１から送られる韻律情報
を基に、音声データメモリ２から送られる単位音声デー
タを編集する。

その際、韻律情報を基に時間長を制御したり単位音声
間の補間を行ったり、ピッチ情報を基に音源の周期を決
定する等の処理も行う。このデータ編集部３の動作とそ
の制御は基本的には前記第１の従来例等と同様である。
但し、後に説明するように音声データ抽出部７において
新しい単位音声データを抽出するために、編集した音声
データの単位音声の境界には境界位置と単位音声番号を
示す特殊符号（音声データとしては存在しない符号）を
挿入しておく。

このデータ編集部３で編集された音声データは、バッ
ファメモリ10に一次的に蓄えられ、音声合成器４に送ら
れ、音声が合成される。この音声合成器４の構成は、音
声データメモリ２に記憶されているデータによって決ま
るもので、例えばパラメータとして、前記第１の従来例
のようにパーコール係数を用いるならば、音声合成器は
パーコール格子型回路構成になり、ホルマントパラメー
タを用いるならばカスケード型回路構成になる。なお、
音声データ中の単位音声境界等を示す特殊符号は音声合
成器４では無視される。

音声分析器５は、音声入力端子12から入力される音声
波形を分析し、音声データを生成する。この音声分析器
５の構成も音声データメモリ２に記憶させるデータの形
式で決まるものであり、例えばパーコール係数を用いる
場合は線形予測分析器の構成になる。

パターンマッチング部６は、音声分析器５から送られ
る入力音声の分析結果の音声データと前記のデータ編集
部３で編集されバッファメモリ10に蓄えられていたデー
タのパターンマッチングを行い、パターン間の距離を抽
出する。作用において説明したように、この処理は、例
えば従来から音声認識において用いられているダイナミ
ックプログラミングに基づくパターンマッチング方法を
利用して行うことができる。なお、音声データ中の単位
音声境界等を示す特殊符号はパターンマッチング部６で
は無視され、そのまま距離情報の間に挿入して音声デー
タ抽出部７に送られる。

音声データ抽出部７は、パターンマッチング部６から
送られるパターン間距離が予め設定された基準値以上で
あれば、音声分析器５から送られた音声データのうち、
距離情報とともに送られた境界情報の間の単位音声とな
る区間のみを音声データメモリ２へ送る。同時に、どの
単位音声が新たに抽出されたかを単位音声情報出力端子
14へと出力する。

さて次に、全体の動作を説明する。

まず、文字情報入力端子11から単位音声の番号や音素
の時間長やピッチ周波数などを表す文字情報が制御回路
１に入力される。制御回路１は、このうち単位音声の番
号を音声データメモリ２に、韻律情報をデータ編集部３
に送り、前述のように単位音声の音声データを編集さ
せ、結果をバッファメモリ10を介して音声合成器４に送
らせる。この音声データを基に、音声合成器４で合成さ
れた音声は合成音声出力端子13から出力される。

一方、文字情報入力端子11から単位音声の更新処理を
行うことを指示する特殊文字が入力されたら、制御回路
１は音声分析器５、バッファメモリ10、パターンマッチ
ング部６、音声データ抽出部７を制御して前記の処理を
行わせ、単位音声データを抽出する。

まず、音声入力端子12から音声が入力されると、音声
分析器５で分析され、パターンマッチング部６と音声デ
ータ抽出部７に分析結果が送られる。

パターンマッチング部６では、バッファメモリ10から
送られる編集された音声データと、音声分析器５から送
られる入力音声の分析結果の音声データとのパターンマ
ッチングが行われ、パターン間の距離が音声データ抽出
部７へ送られる。

この距離情報を基に、音声データ抽出部７で音声分析
器５から送られたデータから新しい単位音声データが抽
出されて、音声データメモリ２に書き込まれるととも
に、どの単位音声が抽出されたかを表す情報が単位音声
情報出力端子14から出力される。

本実施例では、文字入力としては単位音声の番号や韻
律情報を入力し合成音声が出力される構成としたが、例
えば漢字かな混じりのテキストから音声を合成するシス
テムは、この実施例の前処理としてテキストを解析し、
読みやアクセントを推定し、必要な単位音声を決定し韻
律情報を付与する処理を行うテキスト解析部や韻律処理
部と統合することで実現できる。また、本実施例の装置
からは抽出された単位音声情報が出力端子から出力され
るので、その後どの単位音声を使うかの決定は外部で行
う必要がある。

次に、第２図を用いて第２の発明の実施例を説明す
る。本実施例においても入出力の情報は前記第１の実施
例と同様であるとして説明する。

図において、音声データメモリ２、データ編集部３、
音声合成器４、音声分析器５、パターンマッチング部
６、音声データ抽出部７は前記の第１の実施例における
構成要素と同一の動作をする。但し、パターンマッチン
グ部６では距離を計算するパラメータが異なっており、
第２の音声分析器８で分析されたデータを用いる。

まず、文字情報入力端子11から文字情報が制御回路１
に入力されると、単位音声の番号が音声データメモリ２
に送られ、韻律情報がデータ編集部３に送られる。デー
タ編集部３で単位音声の音声データが編集され、この音
声データを基に音声合成器４で音声が合成され合成音声
出力端子13から出力される。

この合成音声は、さらに第２の音声分析器８に送ら
れ、分析結果のデータはバッファメモリ10に送られ、一
次記憶される。この間、第２の音声分析器８の入出力の
信号線はスイッチの切り替えにより音声合成器４から合
成音声を入力し、出力をバッファメモリ10に送るように
接続される。

文字情報入力端子11から単位音声の更新処理を行うこ
とを指示する特殊文字が入力されると、制御回路１は、
音声分析器５、第２の音声分析器８、バッファメモリ1
0、パターンマッチング部６、音声データ抽出部７を制
御し、単位音声データを抽出させる。

まず、音声入力端子12から音声が入力されると、音声
分析器５と第２の音声分析器８で分析され、前者の分析
結果は音声データ抽出部７に送られ、後者の分析結果は
パターンマッチング部６に送られる。このときの第２の
音声分析器８の入出力の信号線はスイッチの切り替えに
より音声入力端子12から音声を入力し、分析結果をパタ
ーンマッチング部６に送るように接続される。

パターンマッチング部６では、バッファメモリ10から
送られる合成音声の分析結果のデータと、第２の音声分
析器８から送られる入力音声の分析結果のデータとのパ
ターンマッチングが行われ、パターン間の距離が音声デ
ータ抽出部７へ送られる。この距離情報を基に、音声デ
ータ抽出部７で音声分析部５から送られたデータから新
しい単位音声データが抽出されて、音声データメモリ２
に書き込まれるとともに、どの単位音声が抽出されたか
を表す情報が単位音声情報出力端子14から出力される。

次に、第３図を用いて本発明の第３の実施例を説明す
る。第３図において、音声データメモリ２、データ編集
部３、音声合成器４、音声分析器５、パターンマッチン
グ部６、音声データ抽出部７は前記の第１の実施例にお
ける構成要素と同一の動作をする。但し、パターンマッ
チング部６では、距離を計算するパラメータが異なって
おり、パラメータ変換器９で変換されたデータを用い
る。パラメータ変換器９は音声合成のためのパラメータ
から音声パターンマッチングのためのパラメータに変換
する。

文字入力から音声が合成されるまでは、前記第２の実
施例と同様に行われる。

データ編集部３で編集されたデータは、音声合成器４
へ送られると同時にパラメータ変換器９に送られ、ここ
で変換されたデータはバッファメモリ10に一時記憶され
る。このとき、パラメータ変換器９の入出力は、スイッ
チの切り替えにより、データ編集部３から送られる編集
された音声データを入力し、変換結果のデータをバッフ
ァメモリ10に送るように接続される。

文字情報入力端子11から単位音声の更新処理を行うこ
とを指示する特殊文字が入力されると、制御回路１は、
音声分析器５、パラメータ変換器９、バッファメモリ1
0、パターンマッチング部６、音声データ抽出部７を制
御し単位音声データを抽出させる。音声入力端子12から
音声が入力されると、音声分析器５で分析された結果が
パラメータ変換器９と音声データ抽出部７へ送られる。
このときのパラメータ変換器９の入出力は、スイッチの
切り替えにより、音声分析器５から送られる分析結果の
音声データを入力し、変換結果のデータをパターンマッ
チング部６に送るように接続される。

パターンマッチング部６では、バッファメモリ10から
送られるパラメータ変換された合成音声のデータと、パ
ラメータ変換器９から送られる入力音声の分析結果をパ
ラメータ変換したデータとのパターンマッチングが行わ
れ、パターン間の距離が音声データ抽出部７へ送られ
る。この距離情報を基に、音声データ抽出部７で音声分
析部５から送られたデータから新しい単位音声データが
抽出されて、音声データメモリ２に書き込まれるととも
に、どの単位音声が抽出されたかを表す情報が単位音声
情報出力端子14から出力される。

（発明の効果）以上説明したように本発明によれば、はじめに必要最
小限の単位音声データを作成して音声データメモリに書
き込んでおき、単語や文章の音声を合成しながらその単
語や文章を人間が実際に発声した自然音声を入力するこ
とで、自動的に不自然なスペクトル変化の部分を検出し
て新しい単位音声データを抽出するため、自然音声から
膨大な単位音声を人手によって切り出すという作業や音
素情報をもった音声データベースを作成するという作業
をせずに合成音声の自然さを改善することができるとい
う効果がある。

【図面の簡単な説明】

第１図は本発明の第１の実施例の構成を示すブロック
図、第２図は本発明の第２の実施例の構成を示すブロッ
ク図、第３図は本発明の第３の実施例の構成を示すブロ
ック図である。１…制御回路、２…音声データメモリ、３…データ編集
部、４…音声合成器、５…音声分析器、６…パターンマ
ッチング部、７…音声データ抽出部、８…第２の音声分
析器、９…パラメータ変換器、10…バッファメモリ、11
…文字情報入力端子、12…音声入力端子、13…合成音声
出力端子、14…単位音声情報出力端子。

Claims

(57)【特許請求の範囲】

【請求項１】単位となる音声である単位音声を分析して
得られた音声データを編集し、その編集された音声デー
タから音声を生成する規則型音声合成装置において、前
記単位音声データを記憶する記憶手段と、前記記憶手段
に記憶されている単位音声データを読み出して編集する
編集手段と、前記編集された音声データから音声を生成
する音声合成手段と、入力音声を分析し入力音声データ
を得る入力音声分析手段と、前記音声データと前記編集
された音声データとの間でパターンマッチングを行いパ
ターン間距離を抽出するパターンマッチング手段と、前
記パターン間距離の値に基づいて、前記入力音声データ
から新たな単位音声データを抽出し前記記憶手段に書き
込む手段とを備えて成ることを特徴とする規則型音声合
成装置。
【請求項２】単位となる音声である単位音声を分析して
得られた音声データを編集し、その編集された音声デー
タから音声を生成する規則型音声合成装置において、前
記単位音声データを記憶する記憶手段と、前記記憶手段
に記憶されている単位音声データを読み出して編集する
編集手段と、前記編集された音声データから音声を生成
する音声合成手段と、入力音声を分析し入力音声データ
を得る第１の音声分析手段と、前記入力音声および前記
音声合成手段で生成された合成音声を分析する第２の音
声分析手段と、前記第２の音声分析手段で分析された入
力音声および合成音声の二種類の分析データ間のパター
ンマッチングを行いパターン間距離を抽出するパターン
マッチング手段と、前記パターン間距離の値に基づい
て、前記第１の音声分析手段で得られた前記入力音声デ
ータから新たな単位音声データを抽出し前記記憶手段に
書き込む手段とを備えて成ることを特徴とする規則型音
声合成装置。
【請求項３】単位となる音声である単位音声を分析して
得られた音声データを編集し、その編集された音声デー
タから音声を生成する規則型音声合成装置において、前
記単位音声データを記憶する記憶手段と、前記記憶手段
に記憶されている単位音声データを読み出し編集する編
集手段と、前記編集された音声データから音声を生成す
る音声合成手段と、入力音声を分析して入力音声データ
を得る音声分析手段と、前記入力音声データおよび前記
編集された音声データを別のパラメータに変換するパラ
メータ変換手段と、前記パラメータ変換手段により変換
された前記入力音声のデータと前記編集されたデータ相
互の間のパターンマッチングを行いパターン間距離を抽
出するパターンマッチング手段と、前記パターン間距離
の値に基づいて、前記音声分析手段で得られた前記入力
音声データから新たな単位音声データを抽出し前記記憶
手段に書き込む手段とを備えて成ることを特徴とする規
則型音声合成装置。