JPH0573100A - 音声合成方法及びその装置 - Google Patents
音声合成方法及びその装置Info
- Publication number
- JPH0573100A JPH0573100A JP3231507A JP23150791A JPH0573100A JP H0573100 A JPH0573100 A JP H0573100A JP 3231507 A JP3231507 A JP 3231507A JP 23150791 A JP23150791 A JP 23150791A JP H0573100 A JPH0573100 A JP H0573100A
- Authority
- JP
- Japan
- Prior art keywords
- parameter
- data
- speech
- information
- synthesizing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 20
- 238000013139 quantization Methods 0.000 claims abstract description 25
- 238000001228 spectrum Methods 0.000 claims abstract description 19
- 238000006243 chemical reaction Methods 0.000 claims abstract description 11
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 8
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 8
- 230000002194 synthesizing effect Effects 0.000 claims description 21
- 238000001308 synthesis method Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 8
- 240000000220 Panda oleosa Species 0.000 description 3
- 235000016496 Panda oleosa Nutrition 0.000 description 3
- 239000012634 fragment Substances 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 241001417093 Moridae Species 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
(57)【要約】
【目的】 少ないパラメータパターンで効率的な音声合
成を行う。 【構成】 音声素片データに含まれるパラメータのパワ
ー情報とスペクトル情報の内、スペクトル情報に対して
のみベクトル量子化を行って、圧縮されたパラメータパ
ターンを生成する。同時に、そのパラメータパターンを
表すコード番号を生成してコードブックとする。このパ
ラメータパターンとコードブックに基づいてパワー情報
とコード番号を含む圧縮した素片データを生成する。こ
れらパラメータパターンとコードブックと素片データと
を参照して、入力テキストデータの音韻系列情報を最適
なパラメータパターンに変換する。この変換されたパラ
メータパターンと入力テキストデータの制御情報から生
成されたピッチデータとを合成して音声合成を行う。
成を行う。 【構成】 音声素片データに含まれるパラメータのパワ
ー情報とスペクトル情報の内、スペクトル情報に対して
のみベクトル量子化を行って、圧縮されたパラメータパ
ターンを生成する。同時に、そのパラメータパターンを
表すコード番号を生成してコードブックとする。このパ
ラメータパターンとコードブックに基づいてパワー情報
とコード番号を含む圧縮した素片データを生成する。こ
れらパラメータパターンとコードブックと素片データと
を参照して、入力テキストデータの音韻系列情報を最適
なパラメータパターンに変換する。この変換されたパラ
メータパターンと入力テキストデータの制御情報から生
成されたピッチデータとを合成して音声合成を行う。
Description
【0001】
【産業上の利用分野】本発明は音声合成方法及びその装
置に関するものである。
置に関するものである。
【0002】
【従来の技術】従来から文字列データから音声を生成す
るための音声規則合成方式があった。これは、文字列デ
ータの情報に従って、音声素片のファイルに登録された
音声素片の特徴パラメータ(LPC、PARCOR、L
SP、メルケプストラムなど、以下、これらを単にパラ
メータと呼ぶ)を取り出し、一定の規則に基づいてパラ
メータと駆動音源信号(有声音声区間ではインパスル
列、無声音声区間ではノイズ)を合成音声の発声速度に
応じて伸縮させて結合し、音声合成器に与えることによ
り合成音声を得ている。
るための音声規則合成方式があった。これは、文字列デ
ータの情報に従って、音声素片のファイルに登録された
音声素片の特徴パラメータ(LPC、PARCOR、L
SP、メルケプストラムなど、以下、これらを単にパラ
メータと呼ぶ)を取り出し、一定の規則に基づいてパラ
メータと駆動音源信号(有声音声区間ではインパスル
列、無声音声区間ではノイズ)を合成音声の発声速度に
応じて伸縮させて結合し、音声合成器に与えることによ
り合成音声を得ている。
【0003】ここで音声素片の形態としては、CV(子
音−母音)素片、CVC(子音−母音−子音)素片、V
CV(母音−子音−母音)素片などを用いるのが一般的
である。特に、CVC素片或はVCV素片などの長い単
位の音声素片を扱う場合には、音声素片を記憶するメモ
リを大量に必要とする。そこで、音声素片のパラメータ
を効率的に管理する方法として、ベクトル量子化法が有
効である。
音−母音)素片、CVC(子音−母音−子音)素片、V
CV(母音−子音−母音)素片などを用いるのが一般的
である。特に、CVC素片或はVCV素片などの長い単
位の音声素片を扱う場合には、音声素片を記憶するメモ
リを大量に必要とする。そこで、音声素片のパラメータ
を効率的に管理する方法として、ベクトル量子化法が有
効である。
【0004】ベクトル量子化法では、あらかじめクラス
タリングの手法を用いて種々のパラメータのパターンを
求めておいて、それぞれに符号(コード)を与えてお
く。このコードとパターンの対応を示す表をコードブッ
クと呼ぶ。入力音声に対しては、各フレームごとにパラ
メータを求め、そのパラメータとあらかじめ求めておい
た各パターンと比較して、最も類似度の高いコードで、
その区間のパラメータを表現する。このベクトル量子化
法を用いれば、限られた数のパターンを用いて種々の音
声を表現することかでき、データの効率的な圧縮が可能
である。
タリングの手法を用いて種々のパラメータのパターンを
求めておいて、それぞれに符号(コード)を与えてお
く。このコードとパターンの対応を示す表をコードブッ
クと呼ぶ。入力音声に対しては、各フレームごとにパラ
メータを求め、そのパラメータとあらかじめ求めておい
た各パターンと比較して、最も類似度の高いコードで、
その区間のパラメータを表現する。このベクトル量子化
法を用いれば、限られた数のパターンを用いて種々の音
声を表現することかでき、データの効率的な圧縮が可能
である。
【0005】
【発明が解決しようとする課題】しかしながら従来のベ
クトル量子化法では、パラメータのすべての次元を用い
て量子化を行う方法がとられているために、各次元ごと
の細かなデータの特性を無視したパターン作成が行なわ
れている。
クトル量子化法では、パラメータのすべての次元を用い
て量子化を行う方法がとられているために、各次元ごと
の細かなデータの特性を無視したパターン作成が行なわ
れている。
【0006】即ち、パラメータには音声の強さの情報で
あるパワー情報と、音声の音響的な情報であるスペクト
ル情報が含まれている。本来これらの情報は全く独立な
ものであり、区別して扱われるべきものである。しか
し、従来はこれらの情報を区別することなく、両者をま
とめてひとつのベクトルとして扱い、パターンを作成す
る方法が取られていた。このような従来の方法では、例
えば、同じ“ア”という音声でも、音声のパワーが違う
場合(大きな声で発声した場合と小さな声で発声した場
合など)には、たとえ同じスペクトル構造をしていて
も、違うパターンを用意する必要があった。そのため、
コードブックには冗長度の高い多くのパターンを格納す
ることになりコードブックの容量の増加やコードブック
とのパターン参照のための時間が長いという問題があっ
た。
あるパワー情報と、音声の音響的な情報であるスペクト
ル情報が含まれている。本来これらの情報は全く独立な
ものであり、区別して扱われるべきものである。しか
し、従来はこれらの情報を区別することなく、両者をま
とめてひとつのベクトルとして扱い、パターンを作成す
る方法が取られていた。このような従来の方法では、例
えば、同じ“ア”という音声でも、音声のパワーが違う
場合(大きな声で発声した場合と小さな声で発声した場
合など)には、たとえ同じスペクトル構造をしていて
も、違うパターンを用意する必要があった。そのため、
コードブックには冗長度の高い多くのパターンを格納す
ることになりコードブックの容量の増加やコードブック
とのパターン参照のための時間が長いという問題があっ
た。
【0007】本発明は上記従来例に鑑みてなされたもの
で、パラメータのうちスペクトル情報の部分だけをベク
トル量子化して圧縮してパラメータパターンを生成する
ことにより、合成音声を、少ないパラメータパターンか
ら効率的に生成する音声合成方法及びその装置を提供す
ることを目的としている。
で、パラメータのうちスペクトル情報の部分だけをベク
トル量子化して圧縮してパラメータパターンを生成する
ことにより、合成音声を、少ないパラメータパターンか
ら効率的に生成する音声合成方法及びその装置を提供す
ることを目的としている。
【0008】
【課題を解決するための手段】上記目的を達成するため
に本発明の音声合成方法は、以下のような工程からな
る。即ち、入力テキストデータを音声合成する音声合成
方法であって、音声合成のための音声素片データに含ま
れるパラメータからパワー情報とスペクトル情報を分離
して前記スペクトル情報に対してのみベクトル量子化を
行い、前記ベクトル量子化された複数のパラメータパタ
ーンと、前記複数のパラメータパターン各々を表す複数
のコード番号を保持するコードブックとを生成する第1
生成工程と、前記複数のパラメータパターンと前記コー
ドブックに基づいて、前記音声素片データを前記パワー
情報と前記複数のコード番号とを含む圧縮音声素片デー
タに生成する第2生成工程と、前記入力テキストデータ
を解析して音韻系列情報と制御情報に分解し、前記音韻
系列情報を前記圧縮音声素片データと前記複数のパラメ
ータパターンと前記コードブックとを参照して最適なパ
ラメータパターンに変換する変換工程と、前記制御情報
に基づいて音声ピッチデータを作成し、前記変換工程に
よって変換されたパラメータパターンと前記音声ピッチ
データを合成して音声波形を生成する合成工程とを有す
ることを特徴とする音声合成方法を備える。
に本発明の音声合成方法は、以下のような工程からな
る。即ち、入力テキストデータを音声合成する音声合成
方法であって、音声合成のための音声素片データに含ま
れるパラメータからパワー情報とスペクトル情報を分離
して前記スペクトル情報に対してのみベクトル量子化を
行い、前記ベクトル量子化された複数のパラメータパタ
ーンと、前記複数のパラメータパターン各々を表す複数
のコード番号を保持するコードブックとを生成する第1
生成工程と、前記複数のパラメータパターンと前記コー
ドブックに基づいて、前記音声素片データを前記パワー
情報と前記複数のコード番号とを含む圧縮音声素片デー
タに生成する第2生成工程と、前記入力テキストデータ
を解析して音韻系列情報と制御情報に分解し、前記音韻
系列情報を前記圧縮音声素片データと前記複数のパラメ
ータパターンと前記コードブックとを参照して最適なパ
ラメータパターンに変換する変換工程と、前記制御情報
に基づいて音声ピッチデータを作成し、前記変換工程に
よって変換されたパラメータパターンと前記音声ピッチ
データを合成して音声波形を生成する合成工程とを有す
ることを特徴とする音声合成方法を備える。
【0009】また他の発明によれば、テキストデータを
音声合成する音声合成装置であって、音声合成のための
音声素片データに含まれるパラメータからパワー情報と
スペクトル情報を分離して前記スペクトル情報に対して
のみベクトル量子化を行って生成された複数のパラメー
タパターンを格納する第1記憶手段と、前記複数のパラ
メータパターン各々を表す複数のコード番号を保持する
コードブックを格納する第2記憶手段と、前記パワー情
報と前記複数のコード番号とを含む圧縮音声素片データ
を格納する第3記憶手段と、前記テキストデータを入力
する入力手段と、前記入力したテキストデータを解析し
て音韻系列情報と制御情報に分解する解析手段と、前記
音韻系列情報を、前記第3記憶手段に格納された前記圧
縮音声素片データと前記第1記憶手段に格納された前記
複数のパラメータパターンと前記第2記憶手段に格納さ
れた前記コードブックとをそれぞれ参照して最適なパラ
メータパターンに変換する変換手段と、前記制御情報に
基づいて音声ピッチデータを作成し、前記変換手段によ
って変換されたパラメータパターンと前記音声ピッチデ
ータとを合成して音声波形を生成する合成手段とを有す
ることを特徴とする音声合成装置を備える。
音声合成する音声合成装置であって、音声合成のための
音声素片データに含まれるパラメータからパワー情報と
スペクトル情報を分離して前記スペクトル情報に対して
のみベクトル量子化を行って生成された複数のパラメー
タパターンを格納する第1記憶手段と、前記複数のパラ
メータパターン各々を表す複数のコード番号を保持する
コードブックを格納する第2記憶手段と、前記パワー情
報と前記複数のコード番号とを含む圧縮音声素片データ
を格納する第3記憶手段と、前記テキストデータを入力
する入力手段と、前記入力したテキストデータを解析し
て音韻系列情報と制御情報に分解する解析手段と、前記
音韻系列情報を、前記第3記憶手段に格納された前記圧
縮音声素片データと前記第1記憶手段に格納された前記
複数のパラメータパターンと前記第2記憶手段に格納さ
れた前記コードブックとをそれぞれ参照して最適なパラ
メータパターンに変換する変換手段と、前記制御情報に
基づいて音声ピッチデータを作成し、前記変換手段によ
って変換されたパラメータパターンと前記音声ピッチデ
ータとを合成して音声波形を生成する合成手段とを有す
ることを特徴とする音声合成装置を備える。
【0010】
【作用】以上の構成により本発明は、パラメータのうち
スペクトル情報の部分だけをベクトル量子化して圧縮し
てパラメータパターンを生成し、そのパラメータパター
ンに基づいて入力したテキストデータの音韻系列情報を
最適なパラメータに変換するよう動作する。
スペクトル情報の部分だけをベクトル量子化して圧縮し
てパラメータパターンを生成し、そのパラメータパター
ンに基づいて入力したテキストデータの音韻系列情報を
最適なパラメータに変換するよう動作する。
【0011】
【実施例】以下添付図面を参照して本発明の好適な実施
例を詳細に説明する。
例を詳細に説明する。
【0012】 [パターン作成方法の説明(図1〜図4)]図1は本発
明の代表的な実施例であるベクトル量子化によるパター
ン作成方法を説明する図面である。図1において、10
1は規則合成に必要となる全素片パラメータ、102は
ベクトル量子化部、103はベクトル量子化により得ら
れたパラメータパターン、104はコードブック、10
5は全素片パラメータをパラメータパターン103によ
り分類し、104コードブックで指定される符号(コー
ド)に変換するデータ分類部、106は圧縮された素片
データである。
明の代表的な実施例であるベクトル量子化によるパター
ン作成方法を説明する図面である。図1において、10
1は規則合成に必要となる全素片パラメータ、102は
ベクトル量子化部、103はベクトル量子化により得ら
れたパラメータパターン、104はコードブック、10
5は全素片パラメータをパラメータパターン103によ
り分類し、104コードブックで指定される符号(コー
ド)に変換するデータ分類部、106は圧縮された素片
データである。
【0013】まず、図1を参照してベクトル量子化によ
るパターン作成方法について説明する。ここで、全素片
パラメータ101は、図2に示すようなデータ構成にな
っているものとする。図2において、各フレームのデー
タは制御データc(m)とパラメータデータ{bi(m)
:0≦i≦N−1}からなる。パラメータデータは更
にパワーデータb0(m) とスペクトルデータ{bi(m)
:1≦i≦N−1}から成る。またデータは全素片パ
ラメータの総フレーム数だけ存在する。
るパターン作成方法について説明する。ここで、全素片
パラメータ101は、図2に示すようなデータ構成にな
っているものとする。図2において、各フレームのデー
タは制御データc(m)とパラメータデータ{bi(m)
:0≦i≦N−1}からなる。パラメータデータは更
にパワーデータb0(m) とスペクトルデータ{bi(m)
:1≦i≦N−1}から成る。またデータは全素片パ
ラメータの総フレーム数だけ存在する。
【0014】さて、ベクトル量子化部102では、図2
で示すような全素片パラメータ101のスペクトルデー
タ{bi(m) :1≦i≦N−1}について、ベクトル量
子化処理を行う。本実施例では、パラメータデータから
パワーデータを除外して、スペクトルデータのみでベク
トル量子化を行う。ベクトル量子化処理は公知の技術を
用いて行うものとする。
で示すような全素片パラメータ101のスペクトルデー
タ{bi(m) :1≦i≦N−1}について、ベクトル量
子化処理を行う。本実施例では、パラメータデータから
パワーデータを除外して、スペクトルデータのみでベク
トル量子化を行う。ベクトル量子化処理は公知の技術を
用いて行うものとする。
【0015】ベクトル量子化部102によるベクトル量
子化処理の結果はパラメータパターン103及びコード
ブック104の各領域に格納する。図3はパラメータパ
ターン103とコードブック104の構成について示す
図である。パラメータパターン103は、ベクトル量子
化部102において求められたパターンであり、ベクト
ル量子化処理で分割されたセントロイドベクトルであ
る。従ってパターンの個数は量子化サイズに等しい。コ
ードブック104は、パラメータパターン103に与え
られた符号(通常シーケンシャルな番号が使用される)
と、このコードに対応するパラメータパターン103内
のパターンの位置(アドレス)が格納されたテーブル形
式になっている。
子化処理の結果はパラメータパターン103及びコード
ブック104の各領域に格納する。図3はパラメータパ
ターン103とコードブック104の構成について示す
図である。パラメータパターン103は、ベクトル量子
化部102において求められたパターンであり、ベクト
ル量子化処理で分割されたセントロイドベクトルであ
る。従ってパターンの個数は量子化サイズに等しい。コ
ードブック104は、パラメータパターン103に与え
られた符号(通常シーケンシャルな番号が使用される)
と、このコードに対応するパラメータパターン103内
のパターンの位置(アドレス)が格納されたテーブル形
式になっている。
【0016】パラメータパターン103とコードブック
104の作成後、データ分類部105において全素片パ
ラメータ101を圧縮する。まず、全素片パラメータ1
01の総てのフレームについて、スペクトルデータ部
{bi(m):1≦i≦N−1}とパラメータパターン1
03の総てのパターンデータとのベクトルの距離計算を
行い、最も距離の小さいパラメータパターンを選択す
る。そしてコードブック104を用いてそのパラメータ
パターンのコードを得る。次に、全素片パラメータ10
1のスペクトルデータ部分をそのコードで置き換えて、
素片データ106を生成する。素片データ106は図4
に示されるように、各フレームのデータが制御データ、
パワーデータ、及び、コードデータで表わされることに
なり、1フレーム当たりのデータ量が圧縮される。
104の作成後、データ分類部105において全素片パ
ラメータ101を圧縮する。まず、全素片パラメータ1
01の総てのフレームについて、スペクトルデータ部
{bi(m):1≦i≦N−1}とパラメータパターン1
03の総てのパターンデータとのベクトルの距離計算を
行い、最も距離の小さいパラメータパターンを選択す
る。そしてコードブック104を用いてそのパラメータ
パターンのコードを得る。次に、全素片パラメータ10
1のスペクトルデータ部分をそのコードで置き換えて、
素片データ106を生成する。素片データ106は図4
に示されるように、各フレームのデータが制御データ、
パワーデータ、及び、コードデータで表わされることに
なり、1フレーム当たりのデータ量が圧縮される。
【0017】 [音声規則合成装置の説明(図5〜図6)]上記の方法
を適用して求めた素片データを用いた音声規則合成装置
について、図5に示すような構成の音声規則合成装置の
ブロック図を参照して説明する。
を適用して求めた素片データを用いた音声規則合成装置
について、図5に示すような構成の音声規則合成装置の
ブロック図を参照して説明する。
【0018】図5に示す音声規則合成装置は、ベクトル
量子化されたパターンとコードブック、及び、素片デー
タを用いて音声合成を実行する。図5において、501
は文字列入力のためのテキスト入力部、502は入力さ
れた文字列を解析して音韻系列に分解したり、テキスト
中に含まれるコントロールコード(アクセント情報や発
声速度などを制御するコード)を解析するためのテキス
ト解析部、503はパラメータ読み出し部、504はベ
クトル量子化により求めた素片データ、505はパラメ
ータ読み出し部503で読み込んだパラメータ中のコー
ドを実際のパラメータパターンに変換するパラメータ変
換部、506はベクトル量子化により得られたコードブ
ック、507はベクトル量子化により求めたパラメータ
パターン、508はパラメータ変換部で変換されたパラ
メータを接続するパラメータ接続部、509はテキスト
解析部502で得られた制御情報からピツチを生成する
ピツチ生成部、510は接続されたパラメータ系列とピ
ツチデータから音声波形を生成する音声合成部、511
は音声波形を出力するための音声出力部である。
量子化されたパターンとコードブック、及び、素片デー
タを用いて音声合成を実行する。図5において、501
は文字列入力のためのテキスト入力部、502は入力さ
れた文字列を解析して音韻系列に分解したり、テキスト
中に含まれるコントロールコード(アクセント情報や発
声速度などを制御するコード)を解析するためのテキス
ト解析部、503はパラメータ読み出し部、504はベ
クトル量子化により求めた素片データ、505はパラメ
ータ読み出し部503で読み込んだパラメータ中のコー
ドを実際のパラメータパターンに変換するパラメータ変
換部、506はベクトル量子化により得られたコードブ
ック、507はベクトル量子化により求めたパラメータ
パターン、508はパラメータ変換部で変換されたパラ
メータを接続するパラメータ接続部、509はテキスト
解析部502で得られた制御情報からピツチを生成する
ピツチ生成部、510は接続されたパラメータ系列とピ
ツチデータから音声波形を生成する音声合成部、511
は音声波形を出力するための音声出力部である。
【0019】合成すべきテキストはテキスト入力部50
1より入力される。ここでテキストはローマ字あるいは
仮名などの読みを表わす文字列中に、アクセントや発声
速度を制御するためのコントロールコードが挿入されて
いるものを想定しているが、漢字かな混じり文を音声出
力するような場合には、テキスト入力部501の前に言
語解析部を設けて、漢字かな混じり文を読みに変換す
る。
1より入力される。ここでテキストはローマ字あるいは
仮名などの読みを表わす文字列中に、アクセントや発声
速度を制御するためのコントロールコードが挿入されて
いるものを想定しているが、漢字かな混じり文を音声出
力するような場合には、テキスト入力部501の前に言
語解析部を設けて、漢字かな混じり文を読みに変換す
る。
【0020】さて、テキスト入力部501で入力された
テキストはテキスト解析部502で解析され、読みを表
わす情報(以下、音韻系列情報という)とアクセント位
置や発声速度などの情報(以下、制御情報という)に分
解される。音韻系列情報はパラメータ読み出し部503
に入力される。パラメータ読み出し部503では、まず
音韻系列情報に従って音声素片パラメータを素片データ
506から読み出す。このとき読み出された素片データ
は図4に示される構成になつていて、スペクトル情報が
コードとして記憶されている。パラメータ変換部505
では、このコードからコードブック506を参照してパ
ラメータパターン507から最適なパターンを選択し、
コードをそのパターンで置換する。その結果、素片デー
タは図6に示すようなデータ構成に変換される。
テキストはテキスト解析部502で解析され、読みを表
わす情報(以下、音韻系列情報という)とアクセント位
置や発声速度などの情報(以下、制御情報という)に分
解される。音韻系列情報はパラメータ読み出し部503
に入力される。パラメータ読み出し部503では、まず
音韻系列情報に従って音声素片パラメータを素片データ
506から読み出す。このとき読み出された素片データ
は図4に示される構成になつていて、スペクトル情報が
コードとして記憶されている。パラメータ変換部505
では、このコードからコードブック506を参照してパ
ラメータパターン507から最適なパターンを選択し、
コードをそのパターンで置換する。その結果、素片デー
タは図6に示すようなデータ構成に変換される。
【0021】次に、パラメータ接続部508において、
各素片データをモーラが等間隔になるように配置し、各
素片間はパラメータの補間処理を行い、パラメータ系列
を作成する。ピッチ生成部509においては、テキスト
解析部502からの制御情報に従つてピッチ系列を作成
する。このピッチ系列とパラメータ接続部508で得ら
れるパラメータ系列から、合成部510において音声波
形を生成する。合成部510はデジタルフィルタなどで
構成することができる。作成された音声波形は音声出力
部511により音声出力される。
各素片データをモーラが等間隔になるように配置し、各
素片間はパラメータの補間処理を行い、パラメータ系列
を作成する。ピッチ生成部509においては、テキスト
解析部502からの制御情報に従つてピッチ系列を作成
する。このピッチ系列とパラメータ接続部508で得ら
れるパラメータ系列から、合成部510において音声波
形を生成する。合成部510はデジタルフィルタなどで
構成することができる。作成された音声波形は音声出力
部511により音声出力される。
【0022】従って本実施例に従えば、全素片パラメー
タの代わりに、よりデータ量の少ない素片データとコー
ドブックとパラメータのスペクトル情報だけを用いてベ
クトル量子化して圧縮したパラメータパターンを用いて
合成音声を生成することができる。
タの代わりに、よりデータ量の少ない素片データとコー
ドブックとパラメータのスペクトル情報だけを用いてベ
クトル量子化して圧縮したパラメータパターンを用いて
合成音声を生成することができる。
【0023】尚、本発明は、複数の機器から構成される
システムに適用しても良いし、1つの機器から成る装置
に適用しても良い。また、本発明はシステム或は装置に
プログラムを供給することによって達成される場合にも
適用できることは言うまでもない。
システムに適用しても良いし、1つの機器から成る装置
に適用しても良い。また、本発明はシステム或は装置に
プログラムを供給することによって達成される場合にも
適用できることは言うまでもない。
【0024】
【発明の効果】以上説明したように本発明によれば、音
声素片データに含まれるパラメータのうちスペクトル情
報の部分だけをベクトル量子化して圧縮してパラメータ
パターンを生成することにより、合成音声を少ないパタ
ーンで効率的に生成するできるという効果がある。
声素片データに含まれるパラメータのうちスペクトル情
報の部分だけをベクトル量子化して圧縮してパラメータ
パターンを生成することにより、合成音声を少ないパタ
ーンで効率的に生成するできるという効果がある。
【図1】本発明の代表的な実施例であるベクトル量子化
によるパターン作成方法を説明する図である。
によるパターン作成方法を説明する図である。
【図2】全素片パラメータ101のデータ構成を示す図
である。
である。
【図3】コードブック103及びパラメータパターン1
04の構成を示す図である。
04の構成を示す図である。
【図4】素片データ106のデータ構成を示す図であ
る。
る。
【図5】音声規則合成装置の構成を示すブロック図であ
る。
る。
【図6】パラメータ変換部によるパラメータ変換例を示
す図である。
す図である。
101 全素片パラメータ 103 パラメータパターン 104 コードブック 106 素片データ
Claims (2)
- 【請求項1】 入力テキストデータを音声合成する音声
合成方法であって、 音声合成のための音声素片データに含まれるパラメータ
からパワー情報とスペクトル情報を分離して前記スペク
トル情報に対してのみベクトル量子化を行い、前記ベク
トル量子化された複数のパラメータパターンと、前記複
数のパラメータパターン各々を表す複数のコード番号を
保持するコードブックとを生成する第1生成工程と、 前記複数のパラメータパターンと前記コードブックに基
づいて、前記音声素片データを前記パワー情報と前記複
数のコード番号とを含む圧縮音声素片データに生成する
第2生成工程と、 前記入力テキストデータを解析して音韻系列情報と制御
情報に分解し、前記音韻系列情報を前記圧縮音声素片デ
ータと前記複数のパラメータパターンと前記コードブッ
クとを参照して最適なパラメータパターンに変換する変
換工程と、 前記制御情報に基づいて音声ピッチデータを作成し、前
記変換工程によって変換されたパラメータパターンと前
記音声ピッチデータを合成して音声波形を生成する合成
工程とを有することを特徴とする音声合成方法。 - 【請求項2】 テキストデータを音声合成する音声合成
装置であって、 音声合成のための音声素片データに含まれるパラメータ
からパワー情報とスペクトル情報を分離して前記スペク
トル情報に対してのみベクトル量子化を行って生成され
た複数のパラメータパターンを格納する第1記憶手段
と、 前記複数のパラメータパターン各々を表す複数のコード
番号を保持するコードブックを格納する第2記憶手段
と、 前記パワー情報と前記複数のコード番号とを含む圧縮音
声素片データを格納する第3記憶手段と、 前記テキストデータを入力する入力手段と、 前記入力したテキストデータを解析して音韻系列情報と
制御情報に分解する解析手段と、 前記音韻系列情報を、前記第3記憶手段に格納された前
記圧縮音声素片データと前記第1記憶手段に格納された
前記複数のパラメータパターンと前記第2記憶手段に格
納された前記コードブックとをそれぞれ参照して最適な
パラメータパターンに変換する変換手段と、 前記制御情報に基づいて音声ピッチデータを作成し、前
記変換手段によって変換されたパラメータパターンと前
記音声ピッチデータとを合成して音声波形を生成する合
成手段とを有することを特徴とする音声合成装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3231507A JPH0573100A (ja) | 1991-09-11 | 1991-09-11 | 音声合成方法及びその装置 |
US08/439,652 US5633984A (en) | 1991-09-11 | 1995-05-12 | Method and apparatus for speech processing |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3231507A JPH0573100A (ja) | 1991-09-11 | 1991-09-11 | 音声合成方法及びその装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0573100A true JPH0573100A (ja) | 1993-03-26 |
Family
ID=16924580
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP3231507A Pending JPH0573100A (ja) | 1991-09-11 | 1991-09-11 | 音声合成方法及びその装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US5633984A (ja) |
JP (1) | JPH0573100A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7542905B2 (en) | 2001-03-28 | 2009-06-02 | Nec Corporation | Method for synthesizing a voice waveform which includes compressing voice-element data in a fixed length scheme and expanding compressed voice-element data of voice data sections |
WO2010116549A1 (ja) * | 2009-03-30 | 2010-10-14 | 株式会社東芝 | 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法 |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1997007498A1 (fr) * | 1995-08-11 | 1997-02-27 | Fujitsu Limited | Unite de traitement des signaux vocaux |
US5764851A (en) * | 1996-07-24 | 1998-06-09 | Industrial Technology Research Institute | Fast speech recognition method for mandarin words |
US6088674A (en) * | 1996-12-04 | 2000-07-11 | Justsystem Corp. | Synthesizing a voice by developing meter patterns in the direction of a time axis according to velocity and pitch of a voice |
US5864814A (en) * | 1996-12-04 | 1999-01-26 | Justsystem Corp. | Voice-generating method and apparatus using discrete voice data for velocity and/or pitch |
JPH10187195A (ja) * | 1996-12-26 | 1998-07-14 | Canon Inc | 音声合成方法および装置 |
JP3587048B2 (ja) * | 1998-03-02 | 2004-11-10 | 株式会社日立製作所 | 韻律制御方法及び音声合成装置 |
JP3841596B2 (ja) * | 1999-09-08 | 2006-11-01 | パイオニア株式会社 | 音素データの生成方法及び音声合成装置 |
JP3728173B2 (ja) * | 2000-03-31 | 2005-12-21 | キヤノン株式会社 | 音声合成方法、装置および記憶媒体 |
JP2001282279A (ja) | 2000-03-31 | 2001-10-12 | Canon Inc | 音声情報処理方法及び装置及び記憶媒体 |
JP3728172B2 (ja) * | 2000-03-31 | 2005-12-21 | キヤノン株式会社 | 音声合成方法および装置 |
JP4054507B2 (ja) | 2000-03-31 | 2008-02-27 | キヤノン株式会社 | 音声情報処理方法および装置および記憶媒体 |
JP4632384B2 (ja) * | 2000-03-31 | 2011-02-16 | キヤノン株式会社 | 音声情報処理装置及びその方法と記憶媒体 |
US7039588B2 (en) * | 2000-03-31 | 2006-05-02 | Canon Kabushiki Kaisha | Synthesis unit selection apparatus and method, and storage medium |
JP2002333895A (ja) * | 2001-05-10 | 2002-11-22 | Sony Corp | 情報処理装置および情報処理方法、記録媒体、並びにプログラム |
US20090210233A1 (en) * | 2008-02-15 | 2009-08-20 | Microsoft Corporation | Cognitive offloading: interface for storing and composing searches on and navigating unconstrained input patterns |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS59226400A (ja) * | 1983-06-07 | 1984-12-19 | 松下電器産業株式会社 | 音声認識装置 |
US4802224A (en) * | 1985-09-26 | 1989-01-31 | Nippon Telegraph And Telephone Corporation | Reference speech pattern generating method |
JPH031200A (ja) * | 1989-05-29 | 1991-01-07 | Nec Corp | 規則型音声合成装置 |
DE69028072T2 (de) * | 1989-11-06 | 1997-01-09 | Canon Kk | Verfahren und Einrichtung zur Sprachsynthese |
DE69128582T2 (de) * | 1990-09-13 | 1998-07-09 | Oki Electric Ind Co Ltd | Methode zur Phonemunterscheidung |
-
1991
- 1991-09-11 JP JP3231507A patent/JPH0573100A/ja active Pending
-
1995
- 1995-05-12 US US08/439,652 patent/US5633984A/en not_active Expired - Lifetime
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7542905B2 (en) | 2001-03-28 | 2009-06-02 | Nec Corporation | Method for synthesizing a voice waveform which includes compressing voice-element data in a fixed length scheme and expanding compressed voice-element data of voice data sections |
WO2010116549A1 (ja) * | 2009-03-30 | 2010-10-14 | 株式会社東芝 | 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法 |
Also Published As
Publication number | Publication date |
---|---|
US5633984A (en) | 1997-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6778962B1 (en) | Speech synthesis with prosodic model data and accent type | |
JP4516863B2 (ja) | 音声合成装置、音声合成方法及びプログラム | |
JPH0573100A (ja) | 音声合成方法及びその装置 | |
JPH05181491A (ja) | 音声合成装置 | |
WO2004066271A1 (ja) | 音声合成装置,音声合成方法および音声合成システム | |
JP3518898B2 (ja) | 音声合成装置 | |
JPH08335096A (ja) | テキスト音声合成装置 | |
JP3554513B2 (ja) | 音声合成装置とその方法及び音声合成プログラムを記録した記録媒体 | |
JP2010224419A (ja) | 音声合成装置、方法およびプログラム | |
JP2010224418A (ja) | 音声合成装置、方法およびプログラム | |
JP2005070604A (ja) | 音声ラベリングエラー検出装置、音声ラベリングエラー検出方法及びプログラム | |
JP2001100776A (ja) | 音声合成装置 | |
US7092878B1 (en) | Speech synthesis using multi-mode coding with a speech segment dictionary | |
Sassi et al. | Neural speech synthesis system for Arabic language using CELP algorithm | |
JPH06318094A (ja) | 音声規則合成装置 | |
Dong-jian | Two stage concatenation speech synthesis for embedded devices | |
WO2023182291A1 (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP2703253B2 (ja) | 音声合成装置 | |
JPH05281984A (ja) | 音声合成方法および装置 | |
JP3342310B2 (ja) | 音声復号化装置 | |
JP2679623B2 (ja) | テキスト音声合成装置 | |
JP2900454B2 (ja) | 音声合成装置の音節データ作成方式 | |
JPS62119591A (ja) | 文章読上げ装置 | |
EP0681729B1 (en) | Speech synthesis and recognition system | |
JPH0258640B2 (ja) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20021209 |