JPH0573100A

JPH0573100A - 音声合成方法及びその装置

Info

Publication number: JPH0573100A
Application number: JP3231507A
Authority: JP
Inventors: Takashi Aso; 隆麻生; Yasunori Ohora; 恭則大洞; Takeshi Fujita; 武藤田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1991-09-11
Filing date: 1991-09-11
Publication date: 1993-03-26
Also published as: US5633984A

Abstract

(57)【要約】【目的】少ないパラメータパターンで効率的な音声合
成を行う。【構成】音声素片データに含まれるパラメータのパワ
ー情報とスペクトル情報の内、スペクトル情報に対して
のみベクトル量子化を行って、圧縮されたパラメータパ
ターンを生成する。同時に、そのパラメータパターンを
表すコード番号を生成してコードブックとする。このパ
ラメータパターンとコードブックに基づいてパワー情報
とコード番号を含む圧縮した素片データを生成する。こ
れらパラメータパターンとコードブックと素片データと
を参照して、入力テキストデータの音韻系列情報を最適
なパラメータパターンに変換する。この変換されたパラ
メータパターンと入力テキストデータの制御情報から生
成されたピッチデータとを合成して音声合成を行う。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は音声合成方法及びその装
置に関するものである。

【０００２】

【従来の技術】従来から文字列データから音声を生成す
るための音声規則合成方式があった。これは、文字列デ
ータの情報に従って、音声素片のファイルに登録された
音声素片の特徴パラメータ（ＬＰＣ、ＰＡＲＣＯＲ、Ｌ
ＳＰ、メルケプストラムなど、以下、これらを単にパラ
メータと呼ぶ）を取り出し、一定の規則に基づいてパラ
メータと駆動音源信号（有声音声区間ではインパスル
列、無声音声区間ではノイズ）を合成音声の発声速度に
応じて伸縮させて結合し、音声合成器に与えることによ
り合成音声を得ている。

【０００３】ここで音声素片の形態としては、ＣＶ（子
音−母音）素片、ＣＶＣ（子音−母音−子音）素片、Ｖ
ＣＶ（母音−子音−母音）素片などを用いるのが一般的
である。特に、ＣＶＣ素片或はＶＣＶ素片などの長い単
位の音声素片を扱う場合には、音声素片を記憶するメモ
リを大量に必要とする。そこで、音声素片のパラメータ
を効率的に管理する方法として、ベクトル量子化法が有
効である。

【０００４】ベクトル量子化法では、あらかじめクラス
タリングの手法を用いて種々のパラメータのパターンを
求めておいて、それぞれに符号（コード）を与えてお
く。このコードとパターンの対応を示す表をコードブッ
クと呼ぶ。入力音声に対しては、各フレームごとにパラ
メータを求め、そのパラメータとあらかじめ求めておい
た各パターンと比較して、最も類似度の高いコードで、
その区間のパラメータを表現する。このベクトル量子化
法を用いれば、限られた数のパターンを用いて種々の音
声を表現することかでき、データの効率的な圧縮が可能
である。

【０００５】

【発明が解決しようとする課題】しかしながら従来のベ
クトル量子化法では、パラメータのすべての次元を用い
て量子化を行う方法がとられているために、各次元ごと
の細かなデータの特性を無視したパターン作成が行なわ
れている。

【０００６】即ち、パラメータには音声の強さの情報で
あるパワー情報と、音声の音響的な情報であるスペクト
ル情報が含まれている。本来これらの情報は全く独立な
ものであり、区別して扱われるべきものである。しか
し、従来はこれらの情報を区別することなく、両者をま
とめてひとつのベクトルとして扱い、パターンを作成す
る方法が取られていた。このような従来の方法では、例
えば、同じ“ア”という音声でも、音声のパワーが違う
場合（大きな声で発声した場合と小さな声で発声した場
合など）には、たとえ同じスペクトル構造をしていて
も、違うパターンを用意する必要があった。そのため、
コードブックには冗長度の高い多くのパターンを格納す
ることになりコードブックの容量の増加やコードブック
とのパターン参照のための時間が長いという問題があっ
た。

【０００７】本発明は上記従来例に鑑みてなされたもの
で、パラメータのうちスペクトル情報の部分だけをベク
トル量子化して圧縮してパラメータパターンを生成する
ことにより、合成音声を、少ないパラメータパターンか
ら効率的に生成する音声合成方法及びその装置を提供す
ることを目的としている。

【０００８】

【課題を解決するための手段】上記目的を達成するため
に本発明の音声合成方法は、以下のような工程からな
る。即ち、入力テキストデータを音声合成する音声合成
方法であって、音声合成のための音声素片データに含ま
れるパラメータからパワー情報とスペクトル情報を分離
して前記スペクトル情報に対してのみベクトル量子化を
行い、前記ベクトル量子化された複数のパラメータパタ
ーンと、前記複数のパラメータパターン各々を表す複数
のコード番号を保持するコードブックとを生成する第１
生成工程と、前記複数のパラメータパターンと前記コー
ドブックに基づいて、前記音声素片データを前記パワー
情報と前記複数のコード番号とを含む圧縮音声素片デー
タに生成する第２生成工程と、前記入力テキストデータ
を解析して音韻系列情報と制御情報に分解し、前記音韻
系列情報を前記圧縮音声素片データと前記複数のパラメ
ータパターンと前記コードブックとを参照して最適なパ
ラメータパターンに変換する変換工程と、前記制御情報
に基づいて音声ピッチデータを作成し、前記変換工程に
よって変換されたパラメータパターンと前記音声ピッチ
データを合成して音声波形を生成する合成工程とを有す
ることを特徴とする音声合成方法を備える。

【０００９】また他の発明によれば、テキストデータを
音声合成する音声合成装置であって、音声合成のための
音声素片データに含まれるパラメータからパワー情報と
スペクトル情報を分離して前記スペクトル情報に対して
のみベクトル量子化を行って生成された複数のパラメー
タパターンを格納する第１記憶手段と、前記複数のパラ
メータパターン各々を表す複数のコード番号を保持する
コードブックを格納する第２記憶手段と、前記パワー情
報と前記複数のコード番号とを含む圧縮音声素片データ
を格納する第３記憶手段と、前記テキストデータを入力
する入力手段と、前記入力したテキストデータを解析し
て音韻系列情報と制御情報に分解する解析手段と、前記
音韻系列情報を、前記第３記憶手段に格納された前記圧
縮音声素片データと前記第１記憶手段に格納された前記
複数のパラメータパターンと前記第２記憶手段に格納さ
れた前記コードブックとをそれぞれ参照して最適なパラ
メータパターンに変換する変換手段と、前記制御情報に
基づいて音声ピッチデータを作成し、前記変換手段によ
って変換されたパラメータパターンと前記音声ピッチデ
ータとを合成して音声波形を生成する合成手段とを有す
ることを特徴とする音声合成装置を備える。

【００１０】

【作用】以上の構成により本発明は、パラメータのうち
スペクトル情報の部分だけをベクトル量子化して圧縮し
てパラメータパターンを生成し、そのパラメータパター
ンに基づいて入力したテキストデータの音韻系列情報を
最適なパラメータに変換するよう動作する。

【００１１】

【実施例】以下添付図面を参照して本発明の好適な実施
例を詳細に説明する。

【００１２】［パターン作成方法の説明（図１〜図４）］図１は本発
明の代表的な実施例であるベクトル量子化によるパター
ン作成方法を説明する図面である。図１において、１０
１は規則合成に必要となる全素片パラメータ、１０２は
ベクトル量子化部、１０３はベクトル量子化により得ら
れたパラメータパターン、１０４はコードブック、１０
５は全素片パラメータをパラメータパターン１０３によ
り分類し、１０４コードブックで指定される符号（コー
ド）に変換するデータ分類部、１０６は圧縮された素片
データである。

【００１３】まず、図１を参照してベクトル量子化によ
るパターン作成方法について説明する。ここで、全素片
パラメータ１０１は、図２に示すようなデータ構成にな
っているものとする。図２において、各フレームのデー
タは制御データｃ（ｍ）とパラメータデータ｛ｂi(ｍ)
：０≦ｉ≦Ｎ−１｝からなる。パラメータデータは更
にパワーデータｂ0(ｍ) とスペクトルデータ｛ｂi(ｍ)
：１≦ｉ≦Ｎ−１｝から成る。またデータは全素片パ
ラメータの総フレーム数だけ存在する。

【００１４】さて、ベクトル量子化部１０２では、図２
で示すような全素片パラメータ１０１のスペクトルデー
タ｛ｂi(ｍ) ：１≦ｉ≦Ｎ−１｝について、ベクトル量
子化処理を行う。本実施例では、パラメータデータから
パワーデータを除外して、スペクトルデータのみでベク
トル量子化を行う。ベクトル量子化処理は公知の技術を
用いて行うものとする。

【００１５】ベクトル量子化部１０２によるベクトル量
子化処理の結果はパラメータパターン１０３及びコード
ブック１０４の各領域に格納する。図３はパラメータパ
ターン１０３とコードブック１０４の構成について示す
図である。パラメータパターン１０３は、ベクトル量子
化部１０２において求められたパターンであり、ベクト
ル量子化処理で分割されたセントロイドベクトルであ
る。従ってパターンの個数は量子化サイズに等しい。コ
ードブック１０４は、パラメータパターン１０３に与え
られた符号（通常シーケンシャルな番号が使用される）
と、このコードに対応するパラメータパターン１０３内
のパターンの位置（アドレス）が格納されたテーブル形
式になっている。

【００１６】パラメータパターン１０３とコードブック
１０４の作成後、データ分類部１０５において全素片パ
ラメータ１０１を圧縮する。まず、全素片パラメータ１
０１の総てのフレームについて、スペクトルデータ部
｛ｂi(ｍ)：１≦ｉ≦Ｎ−１｝とパラメータパターン１
０３の総てのパターンデータとのベクトルの距離計算を
行い、最も距離の小さいパラメータパターンを選択す
る。そしてコードブック１０４を用いてそのパラメータ
パターンのコードを得る。次に、全素片パラメータ１０
１のスペクトルデータ部分をそのコードで置き換えて、
素片データ１０６を生成する。素片データ１０６は図４
に示されるように、各フレームのデータが制御データ、
パワーデータ、及び、コードデータで表わされることに
なり、１フレーム当たりのデータ量が圧縮される。

【００１７】［音声規則合成装置の説明（図５〜図６）］上記の方法
を適用して求めた素片データを用いた音声規則合成装置
について、図５に示すような構成の音声規則合成装置の
ブロック図を参照して説明する。

【００１８】図５に示す音声規則合成装置は、ベクトル
量子化されたパターンとコードブック、及び、素片デー
タを用いて音声合成を実行する。図５において、５０１
は文字列入力のためのテキスト入力部、５０２は入力さ
れた文字列を解析して音韻系列に分解したり、テキスト
中に含まれるコントロールコード（アクセント情報や発
声速度などを制御するコード）を解析するためのテキス
ト解析部、５０３はパラメータ読み出し部、５０４はベ
クトル量子化により求めた素片データ、５０５はパラメ
ータ読み出し部５０３で読み込んだパラメータ中のコー
ドを実際のパラメータパターンに変換するパラメータ変
換部、５０６はベクトル量子化により得られたコードブ
ック、５０７はベクトル量子化により求めたパラメータ
パターン、５０８はパラメータ変換部で変換されたパラ
メータを接続するパラメータ接続部、５０９はテキスト
解析部５０２で得られた制御情報からピツチを生成する
ピツチ生成部、５１０は接続されたパラメータ系列とピ
ツチデータから音声波形を生成する音声合成部、５１１
は音声波形を出力するための音声出力部である。

【００１９】合成すべきテキストはテキスト入力部５０
１より入力される。ここでテキストはローマ字あるいは
仮名などの読みを表わす文字列中に、アクセントや発声
速度を制御するためのコントロールコードが挿入されて
いるものを想定しているが、漢字かな混じり文を音声出
力するような場合には、テキスト入力部５０１の前に言
語解析部を設けて、漢字かな混じり文を読みに変換す
る。

【００２０】さて、テキスト入力部５０１で入力された
テキストはテキスト解析部５０２で解析され、読みを表
わす情報（以下、音韻系列情報という）とアクセント位
置や発声速度などの情報（以下、制御情報という）に分
解される。音韻系列情報はパラメータ読み出し部５０３
に入力される。パラメータ読み出し部５０３では、まず
音韻系列情報に従って音声素片パラメータを素片データ
５０６から読み出す。このとき読み出された素片データ
は図４に示される構成になつていて、スペクトル情報が
コードとして記憶されている。パラメータ変換部５０５
では、このコードからコードブック５０６を参照してパ
ラメータパターン５０７から最適なパターンを選択し、
コードをそのパターンで置換する。その結果、素片デー
タは図６に示すようなデータ構成に変換される。

【００２１】次に、パラメータ接続部５０８において、
各素片データをモーラが等間隔になるように配置し、各
素片間はパラメータの補間処理を行い、パラメータ系列
を作成する。ピッチ生成部５０９においては、テキスト
解析部５０２からの制御情報に従つてピッチ系列を作成
する。このピッチ系列とパラメータ接続部５０８で得ら
れるパラメータ系列から、合成部５１０において音声波
形を生成する。合成部５１０はデジタルフィルタなどで
構成することができる。作成された音声波形は音声出力
部５１１により音声出力される。

【００２２】従って本実施例に従えば、全素片パラメー
タの代わりに、よりデータ量の少ない素片データとコー
ドブックとパラメータのスペクトル情報だけを用いてベ
クトル量子化して圧縮したパラメータパターンを用いて
合成音声を生成することができる。

【００２３】尚、本発明は、複数の機器から構成される
システムに適用しても良いし、１つの機器から成る装置
に適用しても良い。また、本発明はシステム或は装置に
プログラムを供給することによって達成される場合にも
適用できることは言うまでもない。

【００２４】

【発明の効果】以上説明したように本発明によれば、音
声素片データに含まれるパラメータのうちスペクトル情
報の部分だけをベクトル量子化して圧縮してパラメータ
パターンを生成することにより、合成音声を少ないパタ
ーンで効率的に生成するできるという効果がある。

【図面の簡単な説明】

【図１】本発明の代表的な実施例であるベクトル量子化
によるパターン作成方法を説明する図である。

【図２】全素片パラメータ１０１のデータ構成を示す図
である。

【図３】コードブック１０３及びパラメータパターン１
０４の構成を示す図である。

【図４】素片データ１０６のデータ構成を示す図であ
る。

【図５】音声規則合成装置の構成を示すブロック図であ
る。

【図６】パラメータ変換部によるパラメータ変換例を示
す図である。

【符号の説明】

１０１全素片パラメータ１０３パラメータパターン１０４コードブック１０６素片データ

Claims

【特許請求の範囲】

【請求項１】入力テキストデータを音声合成する音声
合成方法であって、音声合成のための音声素片データに含まれるパラメータ
からパワー情報とスペクトル情報を分離して前記スペク
トル情報に対してのみベクトル量子化を行い、前記ベク
トル量子化された複数のパラメータパターンと、前記複
数のパラメータパターン各々を表す複数のコード番号を
保持するコードブックとを生成する第１生成工程と、前記複数のパラメータパターンと前記コードブックに基
づいて、前記音声素片データを前記パワー情報と前記複
数のコード番号とを含む圧縮音声素片データに生成する
第２生成工程と、前記入力テキストデータを解析して音韻系列情報と制御
情報に分解し、前記音韻系列情報を前記圧縮音声素片デ
ータと前記複数のパラメータパターンと前記コードブッ
クとを参照して最適なパラメータパターンに変換する変
換工程と、前記制御情報に基づいて音声ピッチデータを作成し、前
記変換工程によって変換されたパラメータパターンと前
記音声ピッチデータを合成して音声波形を生成する合成
工程とを有することを特徴とする音声合成方法。
【請求項２】テキストデータを音声合成する音声合成
装置であって、音声合成のための音声素片データに含まれるパラメータ
からパワー情報とスペクトル情報を分離して前記スペク
トル情報に対してのみベクトル量子化を行って生成され
た複数のパラメータパターンを格納する第１記憶手段
と、前記複数のパラメータパターン各々を表す複数のコード
番号を保持するコードブックを格納する第２記憶手段
と、前記パワー情報と前記複数のコード番号とを含む圧縮音
声素片データを格納する第３記憶手段と、前記テキストデータを入力する入力手段と、前記入力したテキストデータを解析して音韻系列情報と
制御情報に分解する解析手段と、前記音韻系列情報を、前記第３記憶手段に格納された前
記圧縮音声素片データと前記第１記憶手段に格納された
前記複数のパラメータパターンと前記第２記憶手段に格
納された前記コードブックとをそれぞれ参照して最適な
パラメータパターンに変換する変換手段と、前記制御情報に基づいて音声ピッチデータを作成し、前
記変換手段によって変換されたパラメータパターンと前
記音声ピッチデータとを合成して音声波形を生成する合
成手段とを有することを特徴とする音声合成装置。