JP2001109489A - 音声情報処理方法、装置および記憶媒体 - Google Patents

音声情報処理方法、装置および記憶媒体

Info

Publication number
JP2001109489A
JP2001109489A JP2000221128A JP2000221128A JP2001109489A JP 2001109489 A JP2001109489 A JP 2001109489A JP 2000221128 A JP2000221128 A JP 2000221128A JP 2000221128 A JP2000221128 A JP 2000221128A JP 2001109489 A JP2001109489 A JP 2001109489A
Authority
JP
Japan
Prior art keywords
speech
unit
information processing
encoding
decoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000221128A
Other languages
English (en)
Other versions
JP2001109489A5 (ja
Inventor
Masaaki Yamada
雅章 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2000221128A priority Critical patent/JP2001109489A/ja
Priority to US09/630,356 priority patent/US7092878B1/en
Priority to DE60028471T priority patent/DE60028471T2/de
Priority to EP00306561A priority patent/EP1074972B1/en
Publication of JP2001109489A publication Critical patent/JP2001109489A/ja
Publication of JP2001109489A5 publication Critical patent/JP2001109489A5/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【課題】 素片辞書に登録する音声素片の品質を劣化さ
せることなく、素片辞書に必要な記憶容量を非常に効率
的に削減する。 【解決手段】 素片データ111からN個の素片データ
を読み出し、それぞれ最適な符号化方法に従って符号化
する。こうして符号化された素片データを、符号化する
際に使用した符号化方法を特定する情報とともに素片辞
書112に登録する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、複数の音声素片を
保持する素片辞書を生成する音声情報処理方法及び装置
と、素片辞書を用いて音声を合成する音声情報処理方法
及び装置、および記憶媒体に関するものである。
【0002】
【従来の技術】計算機を用いて音声を合成する音声合成
技術では、素片辞書を用いている。この素片辞書には、
音素,CV/VC,VCV等の単位(合成単位)の音声
素片が格納されている。そして音声合成時には、その素
片辞書から適切な音声素片を選択し、選択された音声素
片を変形、接続することによって、所望の合成音声を生
成する。これを説明するフローチャートが図15のフロ
ーチャートである。
【0003】まずステップS131で、仮名漢字混じり
文などで表現された発声内容を入力する。次にステップ
S132で、その入力された発声内容を解析し、素片記
号列{p0,p1,…}および韻律決定のためのパラメー
タを得る。そして次にステップS133に進み、素片時
間長、基本周波数、パワーといった韻律を決定する。次
に素片辞書検索ステップS134において、ステップS
132の入力解析で得られた素片記号列{p0,p1,
…}、及びステップS133の韻律決定で得られた韻律
に対して適切な素片{w0,w1,…}を素片辞書から検
索する。そして次にステップS135に進み、ステップ
S134の素片辞書検索で得られた素片{w0,w1,
…}を、ステップS133で決定された韻律に合うよう
に変形して接続する。こうしてステップS136に進
み、ステップS135における素片変形、接続処理の結
果を基に、合成音声として出力する。
【0004】また、音声合成における有効な手法とし
て、波形編集方式がある。これは、声帯振動に同期し
て、波形の重畳,ピッチ間隔の変更などを施す方式であ
る。この方式には、少ない演算量で自然に近い合成音声
を生成できるという利点がある。このような方式を用い
た場合、素片辞書は、検索のためのインデックス、各素
片に対応する波形データ(素片データともいう)および
その補助情報から構成される。この際、素片辞書に登録
される素片データの全ては、μ-lawまたはADPCM
(Adaptive Differential Pulse Code Modulation)を
用いて符号化される場合が多い。
【0005】
【発明が解決しようとする課題】上記従来例では、以下
の問題点があった。
【0006】まず、素片辞書に登録する全ての素片デー
タをμ-lawやA-lawのような符号化方式を用いて符号化
する場合には、固定の量子化テーブルを用いて各素片デ
ータを非一様に量子化するために、十分な圧縮効率を得
ることができないという問題がある。これは、あらゆる
種類の音声素片に対して最低限の品質を維持できるよう
に量子化テーブルを設計する必要があるためである。
【0007】一方、素片辞書に登録する全ての素片デー
タをADPCMのような符号化方式を用いて符号化する
場合には、適応的アルゴリズムの演算量により、復号化
時の演算量が増加してしまうという問題がある。これ
は、復号化に多くの演算を要するのでは、波形編集方式
の利点(処理量が少ない)が損なわれるためである。
【0008】本発明は上記従来例に鑑みてなされたもの
で、素片辞書に登録する音声素片の品質を劣化させるこ
となく、素片辞書に必要な記憶容量を非常に効率的に削
減する技術を提供することを目的とする。
【0009】また、本発明は上記従来例に鑑みてなされ
たもので、自然で高品質な合成音声を生成する技術を提
供することを目的とする。
【0010】
【課題を解決するための手段】上記目的を達成するため
に本発明の音声情報処理方法は以下のような工程を備え
る。即ち、複数の音声素片を保持する素片辞書を生成す
る音声情報処理方法であって、音声素片を符号化するた
めの符号化方法を、複数の符号化方法の中から選択する
選択ステップと、選択された符号化方法を用いて前記音
声素片を符号化する符号化ステップと、符号化された前
記音声素片を素片辞書に格納する格納ステップとを有す
ることを特徴とする。
【0011】また本発明の記憶媒体は、上記音声情報処
理方法をコンピュータに実現させるための制御プログラ
ムを格納することを特徴とする。
【0012】また、本発明の音声情報処理装置は、複数
の音声素片を保持する素片辞書を生成する音声情報処理
装置であって、音声素片を符号化するための符号化方法
を、複数の符号化方法の中から選択する選択手段と、選
択された符号化方法を用いて前記音声素片を符号化する
符号化手段と、符号化された前記音声素片を素片辞書に
格納する格納手段とを有することを特徴とする。
【0013】また本発明の音声情報処理方法は、複数の
音声素片を保持する素片辞書を用いて音声を合成する音
声情報処理方法であって、素片辞書から読み出した音声
素片を復号するための復号方法を、複数の復号方法の中
から選択する選択ステップと、選択された復号方法を用
いて前記音声素片を復号する復号ステップと、復号され
た前記音声素片に基づいて音声を合成する音声合成ステ
ップとを有することを特徴とする。
【0014】また、本発明の記憶媒体は、上記音声情報
処理方法をコンピュータに実現させるための制御プログ
ラムを格納することを特徴とする。
【0015】また、本発明の音声情報処理装置は、複数
の音声素片を保持する素片辞書を用いて音声を合成する
音声情報処理装置であって、素片辞書から読み出した音
声素片を復号するための復号方法を、複数の復号方法の
中から選択する選択手段と、選択された復号方法を用い
て前記音声素片を復号する復号手段と、復号された前記
音声素片に基づいて音声を合成する音声合成手段とを有
することを特徴とする。
【0016】また本発明の音声情報処理方法は、複数の
音声素片を保持する素片辞書を生成する音声情報処理方
法であって、音声素片を符号化するための符号化方法
を、前記音声素片の種類に応じて設定する設定ステップ
と、設定された符号化方法を用いて前記音声素片を符号
化する符号化ステップと、符号化された前記音声素片を
素片辞書に格納する格納ステップとを有することを特徴
とする。
【0017】また、本発明の記憶媒体は、上記音声情報
処理方法をコンピュータに実現させるための制御プログ
ラムを格納することを特徴とする。
【0018】また本発明の音声情報処理装置は、複数の
音声素片を保持する素片辞書を生成する音声情報処理装
置であって、音声素片を符号化するための符号化方法
を、前記音声素片の種類に応じて設定する設定手段と、
設定された符号化方法を用いて前記音声素片を符号化す
る符号化手段と、符号化された前記音声素片を素片辞書
に格納する格納手段とを有することを特徴とする。
【0019】また本発明の音声情報処理方法は、複数の
音声素片を保持する素片辞書を用いて音声を合成する音
声情報処理方法であって、素片辞書から読み出す音声素
片を復号するための復号方法を、前記音声素片の種類に
応じて設定する設定ステップと、設定された復号方法を
用いて前記音声素片を復号する復号ステップと、復号さ
れた前記音声素片に基づいて音声を合成する音声合成ス
テップとを有することを特徴とする。
【0020】また、本発明の記憶媒体は、上記音声情報
処理方法をコンピュータに実現させるための制御プログ
ラムを格納することを特徴とする。
【0021】また本発明の音声情報処理装置は、複数の
音声素片を保持する素片辞書を用いて音声を合成する音
声情報処理装置であって、素片辞書から読み出した音声
素片を復号するための復号方法を、前記音声素片の種類
に応じて設定する設定手段と、設定された復号方法を用
いて前記音声素片を復号する復号手段と、復号された前
記音声素片に基づいて音声を合成する音声合成手段とを
有することを特徴とする。
【0022】
【発明の実施の形態】以下、添付図面を参照して本発明
の好適な実施の形態を詳細に説明する。本実施の形態で
は、(1)素片辞書を作成する方法(素片辞書作成アル
ゴリズム),(2)この素片辞書を用いて音声を合成す
る方法(音声合成アルゴリズム)の各々について詳細に
説明する。
【0023】図1は、本発明の実施の形態に係る音声情
報処理装置の概略機能構成を示すブロック図である。こ
の音声情報処理装置を用いて、各実施の形態における素
片辞書作成アルゴリズムと音声合成アルゴリズムとを実
現する。
【0024】図1において、100は中央処理装置(C
PU)で、数値演算及び各種制御処理を実行し、バス1
05を介して接続されている後述する各部の動作を制御
する。101はRAM及びROM等を備えた記憶装置
で、中央処理装置100により実行される各種制御プロ
グラムやデータ等を記憶するとともに、中央処理装置1
00による制御処理で必要となる各種データを一時的に
格納する。102はハードディスク装置等の外部記憶装
置で、素片データ111および素片辞書112を有す
る。この素片データ111は、素片辞書112に登録す
る前の状態(即ち、非圧縮状態)の音声素片を保持する
記録領域である。103は出力装置で、例えば、各種の
プログラムの動作状況などを表示するモニタ,音声合成
された音声を出力するスピーカ等を備える。104はキ
ーボードやマウス等を備える入力装置である。ユーザ
は、この入力装置104を用いて、素片辞書112を作
成するためのプログラムを制御したり、素片辞書112
を用いて音声を合成するためのプログラムを制御した
り、音声合成したいテキスト(複数の文字列を含む)の
入力したりすることができる。
【0025】以上の構成に基づいて、以下の各実施の形
態における素片辞書作成アルゴリズムと音声合成アルゴ
リズムとについて詳細に説明する。
【0026】[実施の形態1]図1の音声処理装置を用
いて本発明の実施の形態1における素片辞書作成アルゴ
リズム及び音声合成アルゴリズムについて説明する。
【0027】本実施の形態1では、素片辞書112に登
録する音声素片ごとに、量子化ステップ数の異なる複数
の符号化方法(具体的には、7ビットμ-law方式と8ビ
ットμ-law方式)を選択する例について説明する。な
お、素片辞書112に登録する音声素片は、音素、半音
素、ダイフォン(CV,VC等),VCV(またはCV
C),これらの組み合わせ等からなる。
【0028】(素片辞書の作成)図2は、本発明の実施
の形態1における素片辞書作成アルゴリズムを説明する
フローチャートである。このアルゴリズムを実現するプ
ログラムは記憶装置101に記憶されている。中央処理
装置100は、ユーザの指示に基づいて記憶装置101
からこのプログラムを読み出し、以下に示す手順を実行
する。
【0029】まずステップS201では、外部記憶装置
102の素片データ111に記憶されているN個の素片
データ(各素片データは非圧縮状態にある)のそれぞれ
を指示するインデックスiを“0”に初期化する。な
お、このインデックスiは記憶装置101に設けられて
いる。
【0030】次にステップS202に進み、そのインデ
ックスiが指示するi番目の素片データWiを読み出
す。ここでは、その読み出されたデータWiを、 Wi={x0,x1,…,xT-1} とする。ここで、TはWiの時間長(単位はサンプル)
である。
【0031】次にステップS203に進み、ステップS
202で読み出した素片データWiを、7ビットμ-law
方式を用いて符号化する。こうして符号化された結果
を、 Ci={c0,c1,…,cT-1} とする。
【0032】次にステップS204に進み、ステップS
203の7ビットμ-law符号化によって生じた符号化歪
みρを計算する。ここでは、この符号化歪みρの尺度と
して、例えば、平均2乗誤差を用いる場合について説明
する。なお、平均2乗誤差は、以下のように表すことが
できる。
【0033】 ρ=(1/T)・Σ(xt−μ(7)-1(ct))2 …式(1) ここで、μ(7)-1()は、7ビットμ-law復号化関数を示
す。なお、ここで、「Σ」はt=0からt=T−1まで
の総和を示す。
【0034】次にステップS205に進み、ステップS
204で求めた符号化歪みρが、予め定められた閾値ρ
0より大きいかどうかを判定する。もし、ρ>ρ0であれ
ば、7ビットμ-law方式による符号化では音素データW
iの波形が歪んでしまうと判断してステップS206に
進み、符号化方法を量子化ビット数の異なる8ビットμ
-law方式に切り換える。一方、それ以外の場合には、ス
テップS207に進む。ステップS206では、ステッ
プS202で読み出した素片データWiを、8ビットμ-
law方式を用いて符号化する。こうして符号化された結
果を、 Ci={c0,c1,…,cT-1} とする。
【0035】ステップS207では、素片データWiの
符号化情報等を素片辞書112に書き込む。符号化情報
の他には、素片データWiの復号に必要な情報を書き込
む。この符号化情報は、素片データWiを符号化した符
号化方法を特定する情報であり、 7ビットμ-law方式であれば、符号化情報は“0” 8ビットμ-law方式であれば、符号化情報は“1” とする。
【0036】次にステップS208に進み、何れか一方
の符号化方式によって符号化された素片データCiを素
片辞書112に書き込む。そしてステップS209に進
み、N個の素片データ全てに対して前述の処理を行った
か否かを判定する。ここで、i=N−1が成立すれば本
アルゴリズムを終了する。一方、そうでなければステッ
プS20でインデックスiに1を加え、再びステップS
202に進み、更新されたインデックスiが指定する素
片データを読み出す。このような処理をN個の素片デー
タを全てに対して繰り返し実行する。
【0037】以上説明したように本実施の形態1の素片
辞書作成アルゴリズムによれば、素片辞書112に登録
する音声素片ごとに、7ビットμ-law方式で符号化する
か、8ビットμ-law方式で符号化するかを選択すること
ができる。このように構成することにより、素片辞書に
登録する音声素片の品質を劣化させることなく、素片辞
書に必要な記憶容量を非常に効率的に削減することがで
きる。また、従来と同程度の記憶容量をもつ素片辞書
に、従来よりも多くの種類の音声素片を登録することも
できる。
【0038】なお、本実施の形態1では、上述の素片辞
書作成アルゴリズムを記憶装置101に記憶されている
プログラムに基づいて実現する場合について説明した
が、この素片辞書作成アルゴリズムの一部若しくは全て
をハードウェアにより構成することも可能である。
【0039】(音声合成)図3は、本発明の実施の形態
1における音声合成アルゴリズムを説明するフローチャ
ートである。このアルゴリズムを実現するプログラムは
記憶装置101に記憶されている。中央処理装置100
は、ユーザの指示に基づいて記憶装置101からこのプ
ログラムを読み出し、以下に示す手順を実行する。
【0040】まずステップS301では、入力装置10
4の有するキーボードやマウスを用いて、日本語、英語
或はその他の言語からなる文字列を入力する。日本語の
場合は、仮名漢字混じり文などで表現された文字列を入
力する。次にステップS302では、入力された文字列
を解析し、この文字列の音韻系列とこの文字列の韻律を
決定するためのパラメータとを求める。次にステップS
303では、ステップS302で求めた韻律パラメータ
に基づいて継続時間長(声の長さを制御する韻律)、基
本周波数(声の高さを制御する韻律)、パワー(声の強
さを制御する韻律)等の韻律を決定する。
【0041】ステップS304では、ステップS302
で求めた音韻系列とステップS303で決定した韻律と
に基づいて最適な素片系列を求める。そして、この素片
系列に含まれる音声素片の一つを選択し、その選択した
音声素片に対応する素片データとこの素片データに対応
する符号化情報とを検索する。そして、素片辞書112
がハードディスク等の記憶媒体に格納されているなら
ば、符号化情報、素片データの記憶領域へ順次シークす
る。また、素片辞書112がRAM等の記憶媒体に格納
されているならば、符号化情報、素片データの記憶領域
へポインタ(アドレスレジスタ)を順次移動する。
【0042】ステップS305では、ステップS304
で検索した符号化情報を素片辞書112から読み出す。
この符号化情報は、ステップS304で検索した素片デ
ータの符号化方法を示し、 符号化情報が“0”であれば、7ビットμ-law方式 符号化情報が“1”であれば、8ビットμ-law方式であ
ることを示す。
【0043】次にステップS306では、ステップS3
05で読み出した符号化情報を調べ、“0”であれば7
ビットμ-law方式に対応する復号方法を選択し、ステッ
プS307に進む。一方、“1”であれば8ビットμ-l
aw方式に対応する復号方法を選択し、ステップS309
に進む。
【0044】ステップS307では、ステップS304
で検索した素片データ(7ビットμ-law方式で符号化さ
れている)を素片辞書112から読み出す。次にステッ
プS308に進み、7ビットμ-law方式で符号化されて
いる素片データを復号化する。
【0045】一方、ステップS309では、ステップS
304で検索した素片データ(8ビットμ-law方式で符
号化されている)を素片辞書112から読み出す。次に
ステップS310に進み、8ビットμ-law方式で符号化
されている素片データを復号化する。
【0046】ステップS311では、ステップS304
で求めた素片系列に含まれる全ての音声素片に対応する
素片データを復号化したか否かを判定する。全ての素片
データを復号化した場合には、ステップS312に進
み、まだ復号化していない素片データがある場合には、
次の素片データを復号するためにステップS304に進
む。
【0047】ステップS312では、ステップS303
で決定した韻律に基づいて、復号化した音声素片のそれ
ぞれを変形して接続する(即ち、波形編集する)。次に
ステップS313に進み、ステップS312で求めた合
成音声を出力装置103の有するスピーカから出力す
る。
【0048】以上説明したように実施の形態1の音声合
成アルゴリズムによれば、所望の音声素片を7ビットμ
-law方式、8ビットμ-law方式の何れかに対応する復号
方法によって復号することができる。このように構成す
ることにより、自然で高品質な合成音声を生成すること
ができる。
【0049】なお、実施の形態1では、上述の音声合成
アルゴリズムを記憶装置101に記憶されているプログ
ラムに基づいて実現する場合について説明したが、この
素片辞書作成アルゴリズムの一部若しくは全てをハード
ウェアにより構成することも可能である。
【0050】[実施の形態1の変形1]実施の形態1で
は、符号化歪みが所定の閾値よりも大きくなる素片デー
タについては8ビットμ-law方式で符号化する例につい
て説明したがこれに限るものではない。8ビットμ-law
方式で符号化した後に符号化歪みを求め、この符号化歪
みが所定の閾値よりも大きくなる素片データについて
は、符号化せずに素片辞書に登録してもよい。このよう
に構成することにより、非定常性の音声素片(例えば、
有声摩擦音や破裂音に分類される音声素片)の品質の劣
化を防止することができる。また、このようにして生成
した素片辞書を用いて合成音声を生成することにより、
自然で高品質な合成音声を生成することもできる。
【0051】[実施の形態1の変形2]実施の形態1で
は、符号化歪みに応じて7ビットμ-law方式で符号化す
るか、8ビットμ-law方式で符号化するかを選択する例
について説明したがこれに限るものではない。音声素片
の種類(有声摩擦音、破裂音、鼻音、その他の有声音、
無声音等)に応じて、7ビットμ-law方式で符号化する
か、8ビットμ-law方式で符号化するか、符号化しない
で素片辞書112に登録するかを選択するように構成し
てもよい。例えば、有声摩擦音および破裂音に分類され
る音声素片については符号化せずに素片辞書112に登
録し、無声音および鼻音に分類される音声素片について
は7ビットμ-law方式で符号化して素片辞書112に登
録し、その他の有声音に分類される音声素片については
8ビットμ-law方式で符号化して素片辞書112に登録
するように構成してもよい。
【0052】[実施の形態2]次に、図1の音声処理装
置を用いて本発明の実施の形態2における素片辞書作成
アルゴリズム及び音声合成アルゴリズムについて説明す
る。
【0053】実施の形態2では、素片辞書112に登録
する音声素片ごとに、量子化コードブックの異なる複数
の符号化方法を選択する例について説明する。なお、素
片辞書112に登録する音声素片は、音素、半音素、ダ
イフォン(CV,VC等),VCV(またはCVC),
これらの組み合わせ等からなる。
【0054】(素片辞書の作成)図4は、本発明の実施
の形態2における素片辞書作成アルゴリズムを説明する
フローチャートである。このアルゴリズムを実現するプ
ログラムは記憶装置101に記憶されている。中央処理
装置100は、ユーザの指示に基づいて記憶装置101
からこのプログラムを読み出し、以下に示す手順を実行
する。
【0055】まずステップS401では、外部記憶装置
102の素片データ111に記憶されているN個の素片
データ(各素片データは非圧縮状態にある)のそれぞれ
を指示するインデックスiを、“0”に初期化する。な
お、このインデックスiは記憶装置101に設定されて
いる。
【0056】次にステップS402に進み、インデック
スiが指示するi番目の素片データWiを読み出す。こ
うして読み出されたデータを、 Wi={x0,x1,…,xT-1} とする。ここで、TはWiの時間長(単位はサンプル)
である。
【0057】次にステップS403に進み、ステップS
402で読み出した素片データWiのスカラ量子化コー
ドブックQiを作成する。具体的には、スカラ量子化コ
ードブックQiを用いて符号化された素片データWiを復
号化し、復号化されたデータ系列Yi={y0,y1,
…,yT-1}の平均2乗誤差が最小となるように(つま
り、符号化歪みρが最小となるように)設計する。この
場合、例えば、LBG法などのアルゴリズムを用いるこ
とが可能である。このように構成することにより、符号
化によって生じる音声素片の波形の歪みを最小限にする
ことができる。なお、平均2乗誤差は、以下のように表
すことができる。
【0058】 ρ=(1/T)・Σ(xt−yt)2 …式(2) ここで、「Σ」はt=0からt=T−1までの総和を示
す。
【0059】次にステップS404に進み、ステップS
403で作成したスカラ量子化コードブックQi等を素
片辞書112に書き込む。量子化コードブックQiの他
には、素片データWiの復号に必要な情報を書き込む。
そしてステップS405に進み、ステップS403で作
成した量子化コードブックQiを用いて素片データWiを
符号化(スカラ量子化)する。
【0060】ここでコードブックQiを Qi={q0,q1,…,qN-1} (Nは量子化ステッ
プ) とすると、xt(∈Wi)に対応する符号ctは、以下の
ように表すことができる。
【0061】 ct=arg n min(xt−qn)2 (0≦n<N) …式(3) 次にステップS406に進み、ステップS405で符号
化された素片データCi(={c0,c1,…,cT-1})
を素片辞書112に書き込む。そしてステップS407
に進み、N個の素片データの全てに対して前述の処理を
行ったか否かを判定する。ここで、i=N−1が成立す
れば本アルゴリズムを終了する。一方、そうでなければ
ステップS408でインデックスiに1を加え、再びス
テップS402に進み、更新されたインデックスiが指
定する素片データを読み出す。このような処理をN個の
素片データの全てに対して繰り返し実行する。
【0062】以上説明したように実施の形態2の素片辞
書作成アルゴリズムによれば、素片辞書112に登録す
る音声素片ごとに量子化コードブックを作成し、作成し
た量子化コードブックを用いてその音声素片をスカラ量
子化することができる。このように構成することによ
り、素片辞書に登録する音声素片の品質を劣化させるこ
となく、素片辞書に必要な記憶容量を非常に効率的に削
減することができる。また、従来と同程度の記憶容量を
もつ素片辞書に、従来よりも多くの種類の音声素片を登
録することもできる。
【0063】なお、実施の形態2では、上述の素片辞書
作成アルゴリズムを記憶装置101に記憶されているプ
ログラムに基づいて実現する場合について説明したが、
この素片辞書作成アルゴリズムの一部若しくは全てをハ
ードウェアにより構成することも可能である。
【0064】(音声合成)図5は、本発明の実施の形態
2における音声合成アルゴリズムを説明するフローチャ
ートである。このアルゴリズムを実現するプログラムは
記憶装置101に記憶されている。中央処理装置100
は、ユーザの指示に基づいて記憶装置101からこのプ
ログラムを読み出し、以下に示す手順を実行する。
【0065】まずステップS501では、入力装置10
4の有するキーボードやマウスを用いて、日本語、英語
あるいはその他の言語からなる文字列を入力する。日本
語の場合は、仮名漢字混じり文などで表現された文字列
を入力する。次にステップS502では、入力された文
字列を解析し、この文字列の音韻系列とこの文字列の韻
律を決定するためのパラメータとを求める。次にステッ
プS503では、ステップS502で求めた韻律パラメ
ータに基づいて継続時間長(声の長さを制御する韻
律)、基本周波数(声の高さを制御する韻律)、パワー
(声の強さを制御する韻律)等の韻律を決定する。
【0066】ステップS504では、ステップS502
で求めた音韻系列とステップS503で決定した韻律と
に基づいて最適な素片系列を求める。そして、この素片
系列に含まれる音声素片の一つを選択し、選択された音
声素片に対応するスカラ量子化コードブック、素片デー
タを検索する。そして、素片辞書112がハードディス
ク等の記憶媒体に格納されているならば、スカラ量子化
コードブック、素片データの記憶領域へ順次シークす
る。また、素片辞書112がRAM等の記憶媒体に格納
されているならば、スカラ量子化コードブック、素片デ
ータの記憶領域へポインタ(アドレスレジスタ)を順次
移動する。
【0067】ステップS505では、ステップS504
で検索したスカラ量子化コードブックを素片辞書112
から読み出す。ステップS506では、ステップS50
4で検索した素片データを素片辞書112から読み出
す。ステップS507では、ステップS505で読み出
したスカラ量子化コードブックを用いて、ステップS5
06で読み出した素片データを復号化する。
【0068】ステップS508では、ステップS504
で求めた素片系列に含まれる全ての音声素片に対応する
素片データを復号化したか否かを判定する。全ての素片
データを復号化した場合にはステップS509に進み、
まだ復号化していない素片データがある場合には、次の
素片データを復号するためにステップS504に進む。
【0069】ステップS509では、ステップS503
で決定した韻律に基づいて、復号化した音声素片のそれ
ぞれを変形して接続する(即ち、波形編集する)。次に
ステップS510に進み、ステップS509で求めた合
成音声を出力装置103が有するスピーカから出力す
る。
【0070】以上説明したように実施の形態2の音声合
成アルゴリズムによれば、所望の音声素片をその音声素
片に最適な量子化コードブックを用いて復号することが
できるので、自然で高品質な合成音声を生成することが
できる。
【0071】なお、実施の形態2では、上述の音声合成
アルゴリズムを記憶装置101に記憶されているプログ
ラムに基づいて実現する場合について説明したが、この
素片辞書作成アルゴリズムの一部若しくは全てをハード
ウェアにより構成することも可能である。
【0072】[実施の形態2の変形1]実施の形態2で
は、前述の実施の形態1と同様に、1サンプル当りのビ
ット数(即ち、スカラ量子化の量子化ステップ数)を素
片データ毎に変更することも可能である。これは、実施
の形態2の処理手順に次のように変更することによって
実現することができる。まず、素片辞書作成アルゴリズ
ムでは、図4におけるステップS404の処理(スカラ
量子化コードブックの書き込み)に先立って、量子化ス
テップ数を決定し、決定した量子化ステップ数をコード
ブックとともにを素片辞書112に記録する。そして、
音声合成アルゴリズムでは、ステップS505の処理
(スカラ量子化コードブックの読み出し)に先立って、
量子化ステップ数を素片辞書112から読み出す。この
量子化ステップ数は、前述の実施の形態1と同様に、符
号化歪みを基準に決定することができる。
【0073】[実施の形態2の変形2]実施の形態2の
音声合成アルゴリズムでは、ステップS505におい
て、素片データごとに作成されたスカラ量子化コードブ
ックを選択する場合について説明したが、これに限るも
のではない。例えば、単語辞書112が予め保持する複
数種類のスカラ量子化コードブックの中から、性能の最
も良い(即ち、量子化歪みが最小となる)コードブック
を選択するように構成してもよい。
【0074】[実施の形態2の変形3]実施の形態2で
は、符号化歪みが最小となるように量子化コードブック
を設計し、設計した量子化コードブックを用いて素片デ
ータをスカラ量子化する例について説明したがこれに限
るものではない。符号化歪みが所定の閾値よりも大きく
なる素片データについては、符号化せずに素片辞書に登
録してもよい。このように構成することにより、非定常
性の音声素片(例えば、有声摩擦音や破裂音に分類され
る音声素片)の品質の劣化を防止することができる。ま
た、このようにして生成した素片辞書を用いて合成音声
を生成することにより、自然で高品質な合成音声を生成
することもできる。
【0075】[実施の形態3]次に、図1の音声処理装
置を用いて本発明の実施の形態3における素片辞書作成
アルゴリズム及び音声合成アルゴリズムについて説明す
る。
【0076】前述の実施の形態2では、素片辞書112
に登録する音声素片ごとに、量子化コードブックの異な
る複数の符号化方法を選択する例について説明した。こ
れに対して、実施の形態3では、複数の素片クラスタご
とに、量子化コードブックの異なる複数の符号化方法を
選択する例について説明する。なお、素片辞書112に
登録する音声素片は、音素、半音素、ダイフォン(C
V,VC等),VCV(またはCVC),これらの組み
合わせ等からなる。
【0077】(素片辞書の作成)図6は、本発明の実施
の形態3における素片辞書作成アルゴリズムを説明する
フローチャートである。このアルゴリズムを実現するプ
ログラムは記憶装置101に記憶されている。中央処理
装置100は、ユーザの指示に基づいて記憶装置101
からこのプログラムを読み出し、以下に示す手順を実行
する。
【0078】まずステップS601で、外部記憶装置1
02の素片データ111に記憶されているN個の素片デ
ータ(各素片データは非圧縮状態にある)の全てを読み
出す。次にステップS602に進み、これら全ての音声
素片を複数(M個とする)の素片クラスタにクラスタリ
ングする。具体的には、各音声素片の波形形状の類似度
に応じてM個の素片クラスタを作成する。
【0079】次にステップS603で、M個の素片クラ
スタのそれそれを指示するインデックスiを“0”に初
期化する。次にステップS604に進み、i番目の素片
クラスタLiに対するスカラ量子化コードブックQiを作
成する。次にステップS605に進み、ステップS60
4で作成したコードブックQiを素片辞書112に書き
込む。
【0080】次にステップS606に進み、M個の素片
クラスタの全てに対して前述の処理を行ったか否かを判
定する。ここで、i=M−1が成立すれば(M個の素片
クラスタの全てについて処理が終了)ステップS608
(図7)に進む。一方、そうでなければステップS60
7に進んで、クラスタインデックスiに1を加え、再び
ステップS604に進み、次の素片クラスタのスカラ量
子化コードブックを作成する。
【0081】M個の素片クラスタの全てに対してスカラ
量子化コードブックを作成した後、本アルゴリズムはス
テップS608に進む。ステップS608では、外部記
憶装置102の素片データ111に記憶されているN個
の素片音声のそれぞれを指示するインデックスiを
“0”に初期化する。次にステップS609に進み、i
番目の素片データWiに対するスカラ量子化コードブッ
クQiを選択する。ここで選択されるスカラ量子化コー
ドブックQiは、素片データWiが属する素片クラスタに
対応する量子化コードブックである。
【0082】次にステップS610に進み、ステップS
609で選択したスカラ量子化コードブックを指定する
情報(コードブック情報)等を素片辞書112に書き込
む。コードブック情報の他には、素片データWiの復号
に必要な情報を書き込む。そしてステップS611に進
み、ステップS604で作成したコードブックQiを用
いて素片データWiを符号化する。そしてステップS6
12に進み、ステップS611で符号化された素片デー
タCi(={c0,c1,…,cT-1})を素片辞書112
に書き込む。
【0083】次にステップS613に進み、N個の素片
データ全てに対して前述の処理を行ったか否かを判定す
る。もしi=N−1が成立すれば本アルゴリズムを終了
する。一方、そうでなければステップS614でインデ
ックスiに1を加え、再びステップS609に進み、次
の素片データのスカラ量子化コードブックを作成する。
【0084】以上説明したように実施の形態3の素片辞
書作成アルゴリズムによれば、複数の素片クラスタごと
に、量子化コードブックの異なる複数の符号化方法を選
択することができるので、素片辞書112に登録する量
子化コードブックの数を前述の実施の形態2に比べて少
なくすることができる。このように構成することによ
り、素片辞書に登録する音声素片の品質を劣化させるこ
となく、素片辞書に必要な記憶容量を非常に効率的に削
減することができる。また、従来と同程度の記憶容量を
もつ素片辞書に、従来よりも多くの種類の音声素片を登
録することもできる。
【0085】なお、実施の形態3では、上述の素片辞書
作成アルゴリズムを記憶装置101に記憶されているプ
ログラムに基づいて実現する場合について説明したが、
この素片辞書作成アルゴリズムの一部若しくは全てをハ
ードウェアにより構成することも可能である。
【0086】(音声合成)図8は、本発明の実施の形態
3における音声合成アルゴリズムを説明するフローチャ
ートである。このアルゴリズムを実現するプログラムは
記憶装置101に記憶されている。中央処理装置100
は、ユーザの指示に基づいて記憶装置101からこのプ
ログラムを読み出し、以下に示す手順を実行する。な
お、実施の形態では説明を簡単にするために、全素片ク
ラスタに対応するコードブックが予め記憶装置101に
読込まれているものとする。
【0087】ステップS801〜S803のそれぞれ
は、図5のS501〜S503のそれぞれと同様の機能
及び処理をするものとし、その説明を省略する。
【0088】ステップS804では、ステップS802
で求めた音韻系列とステップS803で決定した韻律と
に基づいて最適な素片系列を求める。そして、この素片
系列に含まれる音声素片の一つを選択し、選択された音
声素片に対応するコードブック情報と素片データとを検
索する。そして、素片辞書112がハードディスク等の
記憶媒体に格納されているならば、コードブック情報の
記憶領域および素片データの記憶領域へ順次シークす
る。また、素片辞書112がRAM等の記憶媒体に格納
されているならば、コードブック情報の記憶領域および
素片データの記憶領域へポインタ(アドレスレジスタ)
を順次移動する。
【0089】ステップS805では、ステップS804
で検索したコードブック情報を読み出し、この音素デー
タの素片クラスタとこの音声クラスタに対応するスカラ
量子化コードブックとを決定する。ステップS806で
は、素片辞書112を検索し、ステップS805で決定
したスカラ量子化コードブックを得る。ステップS80
7では、ステップS804で検索した素片データを素片
辞書112から読み出す。ステップS808では、ステ
ップS806で得られたスカラ量子化コードブックを用
いて、ステップS807で読み出した素片データを復号
化する。
【0090】ステップS809では、ステップS804
で求めた素片系列に含まれる全ての音声素片に対応する
素片データを復号化したか否かを判定する。全ての素片
データを復号化した場合には、ステップS810に進
み、まだ復号化していない素片データがある場合には、
次の素片データを復号するためにステップS804に進
む。
【0091】ステップS810では、ステップS803
で決定した韻律に基づいて、復号化した音声素片のそれ
ぞれを変形して接続する(即ち、波形編集する)。次に
ステップS811に進み、ステップS810で求めた合
成音声を出力装置103の有するスピーカから出力す
る。
【0092】以上説明したように実施の形態3の音声合
成アルゴリズムによれば、所望の音声素片を、その音声
素片の属する素片クラスタに最適な量子化コードブック
を用いて復号することができるので、自然で高品質な合
成音声を生成することができる。
【0093】なお、実施の形態3では、上述の音声合成
アルゴリズムを記憶装置101に記憶されているプログ
ラムに基づいて実現する場合について説明したが、この
素片辞書作成アルゴリズムの一部若しくは全てをハード
ウェアにより構成することも可能である。
【0094】[実施の形態3の変形1]実施の形態3の
素片辞書作成アルゴリズムでは、音声素片の波形形状の
類似度に応じて素片クラスタを作成する手順について説
明したが、本発明はこれに限るものではない。音声素片
の種類(有声摩擦音、破裂音、鼻音、その他の有声音、
無声音等)に応じて素片クラスタを生成し、各素片クラ
スタごとに量子化コードブックを作成することも可能で
ある。
【0095】[実施の形態3の変形2]実施の形態3の
音声合成アルゴリズムでは、ステップS805におい
て、素片クラスタごとに作成されたスカラ量子化コード
ブックを選択する場合について説明したが、これに限る
ものではない。例えば、単語辞書112が保持する複数
種類のスカラ量子化コードブックの中から、性能の最も
良い(即ち、量子化歪みが最小となる)コードブックを
選択するように構成してもよい。
【0096】[実施の形態3の変形3]実施の形態3で
は、ゲイン(パワー)を考慮してスカラ量子化を行うこ
とも可能である。すなわち、ステップS609におい
て、スカラ量子化コードブックの選択に先んじて素片デ
ータのゲインgを求める。次に、ステップS610にお
いて、求めたゲインgをコードブック情報とともに素片
辞書112に書き込む。そして、ステップS611にお
いて、ゲインgを考慮した量子化を行う。これは前述の
式(3)の代りに、以下の示す式を用いることを意味す
る。
【0097】ct=arg n min(xt−g・qn)2
(0≦n<N) 一方、音声合成アルゴリズムのステップS808(コー
ドブックの参照)では、コードブック参照によって得ら
れた値qにゲインgを乗じ、これを復号値とする。
【0098】[実施の形態3の変形4]実施の形態3で
は、素片クラスタごとに最適な量子化コードブックを設
計し、設計した量子化コードブックを用いて各素片クラ
スタに属する素片データをスカラ量子化する例について
説明したが、これに限るものではない。符号化による歪
みが大きくなると判定された素片クラスタについては、
符号化せずに素片辞書に登録してもよい。このように構
成することにより、非定常性の音声素片(例えば、有声
摩擦音や破裂音に分類される音声素片)の品質の劣化を
防止することができる。また、このようにして生成した
素片辞書を用いて合成音声を生成することにより、自然
で高品質な合成音声を生成することもできる。
【0099】[実施の形態4]次に、図1の音声処理装
置を用いて本発明の実施の形態4における素片辞書作成
アルゴリズム及び音声合成アルゴリズムについて説明す
る。
【0100】実施の形態4では、素片データごとに線形
予測係数と予測残差とを求め、求めた予測残差を最適な
量子化コードブックで符号化する例について説明する。
なお、素片辞書112に登録する音声素片は、音素、半
音素、ダイフォン(CV,VC等),VCV(またはC
VC),これらの組み合わせ等からなる。
【0101】(素片辞書の作成)図9は、本発明の実施
の形態4における素片辞書作成アルゴリズムを説明する
フローチャートである。このアルゴリズムを実現するプ
ログラムは記憶装置101に記憶されている。中央処理
装置100は、ユーザの指示に基づいて記憶装置101
からこのプログラムを読み出し、以下に示す手順を実行
する。
【0102】まずステップS901では、外部記憶装置
102の素片データ111に記憶されているN個の素片
データ(各素片データは非圧縮状態にある)のそれぞれ
を指示するインデックスiを“0”に初期化する。次に
ステップS902では、インデックスiが指定するi番
目の音声素片の素片データ(符号化前の音声素片)Wi
を読み出す。この読み出されたデータWiを、 Wi={x0,x1,…,xT-1} とする。ここで、TはWiの時間長(単位はサンプル)
である。
【0103】次にステップS903に進み、ステップS
902で読み出した素片データWiの線形予測係数およ
び予測残差を計算する。ここで、線形予測次数をL次と
すると、この線形予測モデルは、線形予測係数alおよ
び予測残差dtを用いて以下のように表される。
【0104】 xt=Σalxt-1+dt …式(4) ここで、Σはl=1〜Lまでの総和を示す。
【0105】そこで、予測残差dtの二乗和、 Σdt2 …式(5) を最小化する線形予測係数alを決定する。ここで、Σ
はt=l〜T−1までの総和を示す。
【0106】次にステップS904に進み、ステップS
903で求めた線形予測係数alを素片辞書112に書
き込む。そしてステップS905に進み、ステップS9
03で求めた予測残差dtの量子化コードブックQiを作
成する。具体的には、量子化コードブックQiを用いて
符号化された予測残差dtを復号化し、復号化されたデ
ータ系列Ei={el,el+1,…,eT-1}の平均2乗誤
差が最小となるように(つまり、符号化歪みρが最小と
なるように)設計する。この場合、例えば、LBG法な
どのアルゴリズムを用いることが可能である。このよう
に構成することにより、符号化によって生じる音声素片
の波形の歪みを最小限にすることができる。なお、平均
2乗誤差は、以下のように表すことができる。
【0107】 ρ=(1/T)・Σ(dt−et)2 …式(6) ここで、Σはt=l〜T−1までの総和を示す。
【0108】次にステップS906に進み、ステップS
905で作成した量子化コードブックQi等を素片辞書
112に書き込む。このコードブックQiの他には、素
片データWiの復号に必要な情報を書き込む。そしてス
テップS907に進み、ステップS903で求めた線形
予測係数alとステップS905で作成したコードブッ
クQiとを用いて素片データWiを線形予測符号化する。
ここで、コードブックQiを、 Qi={q0,q1,…,qN-1} (Nは量子化ステッ
プ) とすると、xt(∈Wi)に対応する符号ctは、以下の
ように表すことができる。
【0109】 ct=arg n min(xt−Σalyt-l−qn)2 (0≦n<N) …式(7) ここで、ytはxtを本手法で符号化した後、復号した値
である。
【0110】次にステップS908に進み、ステップS
907で符号化された素片データCi(={c0,c1,
…,cT-1})を素片辞書112に書き込む。そしてス
テップS909に進み、N個の素片データの全てに対し
て前述の処理を行ったか否かを判定する。ここで、i=
N−1が成立すれば本アルゴリズムを終了する。一方、
そうでなければステップS910でインデックスiに1
を加え、再びステップS902に進み、更新されたイン
デックスiが指定する素片データを読み出す。このよう
な処理をN個の素片データの全てに対して繰り返し実行
する。
【0111】以上説明したように実施の形態4の素片辞
書作成アルゴリズムによれば、素片辞書112に登録す
る音声素片ごとに線形予測係数と予測残差とを求め、求
めた予測残差を最適な量子化コードブックで符号化する
ことができる。このように構成することにより、素片辞
書に登録する音声素片の品質を劣化させることなく、素
片辞書に必要な記憶容量を非常に効率的に削減すること
ができる。また、従来と同程度の記憶容量をもつ素片辞
書に、従来よりも多くの種類の音声素片を登録すること
もできる。
【0112】なお、実施の形態4では、上述の素片辞書
作成アルゴリズムを記憶装置101に記憶されているプ
ログラムに基づいて実現する場合について説明したが、
この素片辞書作成アルゴリズムの一部若しくは全てをハ
ードウェアにより構成することも可能である。
【0113】(音声合成)図10は、本発明の実施の形
態4における音声合成アルゴリズムを説明するフローチ
ャートである。このアルゴリズムを実現するプログラム
は記憶装置101に記憶されている。中央処理装置10
0は、ユーザの指示に基づいて記憶装置101からこの
プログラムを読み出し、以下に示す手順を実行する。
【0114】まずステップS1001では、入力装置1
04の有するキーボードやマウスを用いて、日本語、英
語あるいはその他の言語からなる文字列を入力する。日
本語の場合は、仮名漢字混じり文などで表現された文字
列を入力する。次にステップS1002では、入力され
た文字列を解析し、この文字列の音韻系列とこの文字列
の韻律を決定するためのパラメータとを求める。次にス
テップS1003では、ステップS1002で求めた韻
律パラメータに基づいて継続時間長(声の長さを制御す
る韻律)、基本周波数(声の高さを制御する韻律)、パ
ワー(声の強さを制御する韻律)等の韻律を決定する。
【0115】ステップS1004では、ステップS10
02で求めた音韻系列とステップS1003で決定した
韻律とに基づいて最適な素片系列を求める。そして、こ
の素片系列に含まれる音声素片の一つを選択し、選択さ
れた音声素片に対応する線形予測係数、量子化コードブ
ック、予測残差を検索する。そして、素片辞書112が
ハードディスク等の記憶媒体に格納されているならば、
線形予測係数、量子化コードブック、予測残差の記憶領
域へ順次シークする。また、素片辞書112がRAM等
の記憶媒体に格納されているならば、線形予測係数、量
子化コードブック、予測残差の記憶領域へポインタ(ア
ドレスレジスタ)を順次移動する。
【0116】ステップS1005では、ステップS10
04で検索した予測係数を素片辞書112から読み出
す。ステップS1006では、ステップS1004で検
索した量子化コードブックを素片辞書112から読み出
す。ステップS1007では、ステップS1004で検
索した予測残差を素片辞書112から読み出す。ステッ
プS1008では、予測係数、量子化コードブック、直
前のサンプルの復号化データを用いて予測残差を復号化
し、素片データを求める。
【0117】ステップS1009では、ステップS10
04で求めた素片系列に含まれる全ての音声素片に対応
する素片データを復号化したか否かを判定する。全ての
素片データを復号化した場合には、ステップS1010
に進み、まだ復号化していない素片データがある場合に
は、次の素片データを復号するためにステップS100
4に進む。
【0118】ステップS1010では、ステップS10
03で決定した韻律に基づいて、復号化した音声素片の
それぞれを変形して接続する(即ち、波形編集する)。
次にステップS1011に進み、ステップS1010で
求めた合成音声を出力装置103の有するスピーカから
出力する。
【0119】以上説明したように実施の形態4の音声合
成アルゴリズムによれば、所望の音声素片をその音声素
片に最適なコードブックを用いて復号することができる
ので、自然で高品質な合成音声を生成することができ
る。
【0120】なお、実施の形態4では、上述の音声合成
アルゴリズムを記憶装置101に記憶されているプログ
ラムに基づいて実現する場合について説明したが、この
素片辞書作成アルゴリズムの一部若しくは全てをハード
ウェアにより構成することも可能である。
【0121】[実施の形態4の変形1]実施の形態4で
は、前述の実施の形態1と同様に、1サンプル当りのビ
ット数(即ち、量子化ステップ数)を素片データ毎に変
更することも可能である。これは、実施の形態4の処理
手順に次のように変更することによって実現することが
できる。まず、素片辞書作成アルゴリズムでは、ステッ
プS905の処理(量子化コードブックの書き込み)に
先立って、量子化ステップ数を決定し、決定した量子化
ステップ数をコードブックとともにを素片辞書112に
記録する。そして、音声合成アルゴリズムでは、ステッ
プS1006の処理(量子化コードブックの読み出し)
に先立って、量子化ステップ数を素片辞書112から読
み出す。この量子化ステップ数は、前述の実施の形態1
と同様に、符号化歪みを基準に決定することができる。
【0122】[実施の形態4の変形2]実施の形態4で
は、素片データごとに線形予測次数Lを変更することも
可能である。これは、実施の形態4の処理手順に次のよ
うに変更することによって実現することができる。ま
ず、素片辞書作成アルゴリズムでは、ステップS904
の処理(予測係数の書き込み)に先立って、予測次数を
設定し、設定した予測次数を予測係数とともにを素片辞
書112に記録する。そして、音声合成アルゴリズムで
は、ステップS1005の処理(予測係数の読み出し)
に先立って、予測次数を素片辞書112から読み出す。
この予測次数は、前述の実施の形態1と同様に、符号化
歪みを基準に設定することができる。
【0123】[実施の形態4の変形3]実施の形態4で
は、ステップS905で作成した量子化コードブックの
符号化性能を更に向上させることも可能である。これ
は、ステップS905では、予測残差dtに対してコー
ドブックを最適化するのに対し、ステップS907で
は、 xt−Σalyt-l (≠dt=xt−Σalxt-l) …式(8) に対して量子化コードブックを参照するためである。こ
の量子化コードブックを更新するアルゴリズムとして
は、AbS(Analysis by Synthesis)法等を用いること
ができる。ここでΣは、l=1〜Lの総和を示してい
る。
【0124】[実施の形態4の変形4]実施の形態4で
は、1つの素片データに対して1つの量子化コードブッ
クを設計する場合について説明したが、これに限るもの
ではない。複数の素片データに対して1つの量子化コー
ドブックを設計してもよい。例えば、実施の形態3のよ
うに、N個の素片データをM個の素片クラスタにクラス
タリングし、素片クラスタごとに量子化コードブックを
設計するように構成してもよい。
【0125】[実施の形態4の変形5]前述の実施の形
態4において、素片データの開始からLサンプルのデー
タについては符号化を行わず、そのまま素片辞書112
に書き込んでも良い。これにより、素片データの開始か
らLサンプルについては線形予測がうまく行われないと
いう現象を回避することが可能である。
【0126】[実施の形態4の変形6]実施の形態4で
は、ステップS907において、xtに関して最適とな
る符号ctを求めていたが,xt以降のmサンプルも考慮
にいれて最適となる符号ctを求めることも可能であ
る。これは、符号ctを仮決めして再帰的に探索する
(木構造探索する)ことにより実現できる。
【0127】[実施の形態4の変形7]実施の形態4で
は、符号化歪みが最小となるように量子化コードブック
を設計し、設計した量子化コードブックを用いて素片デ
ータを線形符号化する例について説明したがこれに限る
ものではない。符号化歪みが所定の閾値よりも大きくな
る素片データについては、符号化せずに素片辞書に登録
してもよい。このように構成することにより、非定常性
の音声素片(例えば、有声摩擦音や破裂音に分類される
音声素片)の品質の劣化を防止することができる。ま
た、このようにして生成した素片辞書を用いて合成音声
を生成することにより、自然で高品質な合成音声を生成
することもできる。
【0128】[実施の形態5]次に、図1の音声処理装
置を用いて本発明の実施の形態5における素片辞書作成
アルゴリズム及び音声合成アルゴリズムについて説明す
る。
【0129】実施の形態5では、前述の各実施の形態で
用いた様々な種類の符号化方式を組み合わせ、素片辞書
112に登録する素片データごとに、最適な符号化方法
を選択する例について説明する。実施の形態5では更
に、非定常性の音声素片(例えば、有声摩擦音や破裂音
に分類される音声素片)を非圧縮とする場合についても
説明する。なお、素片辞書112に登録する音声素片
は、音素、半音素、ダイフォン(CV,VC等),VC
V(またはCVC),これらの組み合わせ等からなる。
【0130】(素片辞書作成)図11は、本発明の実施
の形態5における素片辞書作成アルゴリズムを説明する
フローチャートである。このアルゴリズムを実現するプ
ログラムは記憶装置101に記憶されている。中央処理
装置100は、ユーザの指示に基づいて記憶装置101
からこのプログラムを読み出し、以下に示す手順を実行
する。
【0131】まずステップS1101では、外部記憶装
置102の素片データ111に記憶されているN個の素
片データ(各素片データは非圧縮状態にある)のそれぞ
れを指示するインデックスiを、“0”に初期化する。
なお、このインデックスiは記憶装置101に設定され
ている。
【0132】次にステップS1102に進み、インデッ
クスiが指示するi番目の素片データWiを読み出す。
こうして読込まれたデータを、 Wi={x0,x1,…,xT-1} とする。ここで、TはWiの時間長(単位はサンプル)
である。
【0133】次にステップS1103に進み、ステップ
S1102で読み出した素片データWiを、前述の実施
の形態4で説明した符号化方式(即ち、線形予測符号化
方式)を用いて符号化する。
【0134】次にステップS1104に進み、この符号
化方式による符号化歪みρを計算する。次にステップS
1105に進み、ステップS1103で求めた符号化歪
みρが、予め定められた閾値ρ0より大きいか否かを判
定する。もし、ρ>ρ0であれば、ステップS1108
に進み、素片データWiを別の符号化方式を用いて符号
化する。一方、ρ>ρ0でなければ、ステップS110
6に進む。
【0135】ステップS1106では、素片データWi
の符号化情報を素片辞書112に書き込む。この符号化
情報には、素片データWiを符号化した符号化方法を特
定する情報や素片データWiの復号に必要な情報(予測
係数,量子化コードブック等)などが含まれている。次
にステップS1107に進み、ステップS1103で符
号化された素片データWiを素片辞書112に書き込
み、ステップS1120に進む。
【0136】一方、ステップS1108では、ステップ
S1102で読み出した素片データWiを、前述の実施
の形態1で説明した符号化方式(即ち、7ビットμ-law
方式又は8ビットμ-law方式)を用いて符号化する。
【0137】次にステップS1109に進み、この符号
化方式による符号化歪みρを計算する。次にステップS
1110に進み、ステップS1109で求めた符号化歪
みρが、予め定められた閾値ρ1より大きいか否かを判
定する。もし、ρ>ρ1であれば、ステップS1113
に進み、素片データWiを更に別の符号化方式を用いて
符号化する。一方、ρ>ρ1でなければ、ステップS1
111に進む。
【0138】ステップS1111では、素片データWi
の符号化情報を素片辞書112に書き込む。この符号化
情報には、素片データWiを符号化した符号化方法を特
定する情報や素片データWiの復号に必要な情報などが
含まれている。次にステップS1112に進み、ステッ
プS1108で符号化された素片データWiを素片辞書
112に書き込み、ステップS1120に進む。
【0139】一方、ステップS1113では、ステップ
S1102で読み出した素片データWiを、前述の実施
の形態2または3で説明した符号化方式(即ち、スカラ
量子化方式)を用いて符号化する。次にステップS11
14に進み、この符号化方式による符号化歪みρを計算
する。次にステップS1115に進み、ステップS11
14で求めた符号化歪みρが、予め定められた閾値ρ2
より大きいか否かを判定する。例えば、非定常性の音声
素片(例えば、有声摩擦音や破裂音に分類される音声素
片)の場合は、波形形状が大きく変動するため、ρ>ρ
2とはならない。もし、ρ>ρ2であれば、ステップS1
118に進む。一方、ρ>ρ2でなければ、ステップS
1116に進む。
【0140】ステップS1116では、素片データWi
の符号化情報を素片辞書112に書き込む。この符号化
情報には、素片データWiを符号化した符号化方法を特
定する情報や素片データWiの復号に必要な情報(量子
化コードブック等)などが含まれている。次にステップ
S1117に進み、ステップS1113で符号化された
素片データWiを素片辞書112に書き込み、ステップ
S1120に進む。
【0141】一方、ステップS1118では、ステップ
S1102で読み出した素片データWiを非圧縮とし、
この素片データWiの符号化情報を素片辞書112に書
き込む。この符号化情報には、素片データWiが符号化
されていないことを示す情報などが含まれている。次に
ステップS1119に進み、この素片データWiを素片
辞書112に書き込み、ステップS1120に進む。こ
のように構成することにより、非定常性の音声素片の品
質の劣化を防止することができる。
【0142】ステップS1120では、N個の素片デー
タの全てに対して前述の処理を行ったか否かを判定す
る。ここで、i=N−1が成立すれば本アルゴリズムを
終了する。一方、そうでなければステップS1121で
インデックスiに1を加え、再びステップS1102に
戻り、更新されたインデックスiが指定する素片データ
を読み出す。このような処理をN個の素片データの全て
に対して繰り返し実行する。
【0143】以上説明したように実施の形態5の素片辞
書作成アルゴリズムによれば、素片辞書112に登録す
る音声素片ごとに、μ-law方式で符号化するか、スカラ
量子化方式で符号化するか、或は線形予測符号化方式で
符号化するかを選択することができる。
【0144】このように構成することにより、素片辞書
に登録する音声素片の品質を劣化させることなく、素片
辞書に必要な記憶容量を非常に効率的に削減することが
できる。また、従来と同程度の記憶容量をもつ素片辞書
に、従来よりも多くの種類の音声素片を登録することも
できる。
【0145】なお、実施の形態5では、上述の素片辞書
作成アルゴリズムを記憶装置101に記憶されているプ
ログラムに基づいて実現する場合について説明したが、
この素片辞書作成アルゴリズムの一部若しくは全てをハ
ードウェアにより構成することも可能である。
【0146】(音声合成)図12は、本発明の実施の形
態5における音声合成アルゴリズムを説明するフローチ
ャートである。このアルゴリズムを実現するプログラム
は記憶装置101に記憶されている。中央処理装置10
0は、ユーザの指示に基づいて記憶装置101からこの
プログラムを読み出し、以下に示す手順を実行する。
【0147】まずステップS1201では、入力装置1
04の有するキーボードやマウスを用いて、日本語、英
語あるいはその他の言語からなる文字列を入力する。日
本語の場合は、仮名漢字混じり文などで表現された文字
列を入力する。次にステップS1202では、入力され
た文字列を解析し、この文字列の音韻系列とこの文字列
の韻律を決定するためのパラメータとを求める。次にス
テップS1203では、ステップS1202で求めた韻
律パラメータに基づいて、継続時間長(声の長さを制御
する韻律)、基本周波数(声の高さを制御する韻律)、
パワー(声の強さを制御する韻律)等の韻律を決定す
る。
【0148】ステップS1204では、ステップS12
02で求めた音韻系列とステップS1203で決定した
韻律とに基づいて最適な素片系列を求める。そして、こ
の素片系列に含まれる音声素片の一つを選択し、選択さ
れた音声素片に対応する素片データ,符号化情報を検索
する。そして、素片辞書112がハードディスク等の記
憶媒体に格納されているならば、素片データ、符号化情
報の記憶領域へ順次シークする。また、素片辞書112
がRAM等の記憶媒体に格納されているならば、素片デ
ータ、符号化情報の記憶領域へポインタ(アドレスレジ
スタ)を順次移動する。
【0149】ステップS1205では、ステップS12
04で検索した符号化情報を素片辞書112から読み出
す。ステップS1206では、ステップS1204で検
索した素片データを素片辞書112から読み出す。
【0150】次にステップS1207に進み、ステップ
S1205で読み出した符号化情報に基づいて、ステッ
プS1206で読み出した素片データが符号化されてい
るか否かを判別する。符号化されている場合には、符号
化方法を特定するためにステップS1208に進む。符
号化されていない場合には、ステップS1215に進
む。
【0151】ステップS1208では、ステップS12
05で読み出した符号化情報に基づいて、ステップS1
206で読み出した素片データの符号化方法を調べる。
線形予測符号化方式を用いた符号化方法であれば、ステ
ップS1212に進んで復号するが、それ以外の場合に
は、ステップS1209に進む。ステップS1209で
は、ステップS1205で読み出した符号化情報に基づ
いて、ステップS1206で読み出した素片データの符
号化方法を調べる。ここでμ-law方式を用いた符号化方
法であれば、ステップS1213に進んで復号する。そ
れ以外の場合には、ステップS1210に進み、ステッ
プS1205で読み出した符号化情報に基づいて、ステ
ップS1206で読み出した素片データの符号化方法を
調べる。スカラ量子化方式を用いた符号化方法であれ
ば、ステップS1214に進んで復号する。それ以外の
場合には、ステップS1211に進み、ステップS12
04で求めた素片系列に含まれる全ての音声素片に対応
する素片データを復号化したか否かを判定する。全ての
素片データを復号化した場合には、ステップS1215
に進み、まだ復号化していない素片データがある場合に
は、次の素片データを復号するためにステップS120
4に進む。
【0152】ステップS1207で符号化されていない
場合、或はステップS1212〜S1214のいずれか
で復号されるか、或はステップS1211で次の素片デ
ータが無くなるとステップS1215に進み、ステップ
S1203で決定した韻律に基づいて、復号化した音声
素片のそれぞれを変形して接続する(即ち、波形編集す
る)。次にステップS1216に進み、ステップS12
15で求めた合成音声を出力装置103の有するスピー
カから出力する。
【0153】以上説明したように実施の形態5の音声合
成アルゴリズムによれば、所望の音声素片をμ-law方
式、スカラ量子化方式、線形予測符号化方式の何れかに
対応する復号方法によって復号することができるので、
自然で高品質な合成音声を生成することができる。
【0154】なお、実施の形態5では、上述の音声合成
アルゴリズムを記憶装置101に記憶されているプログ
ラムに基づいて実現する場合について説明したが、この
素片辞書作成アルゴリズムの一部若しくは全てをハード
ウェアにより構成することも可能である。
【0155】[実施の形態6]次に、図1の音声処理装
置を用いて本発明の実施の形態6における素片辞書作成
アルゴリズム及び音声合成アルゴリズムについて説明す
る。
【0156】前述の実施の形態5では、素片辞書112
に登録する素片データごとに、符号化方式の異なる複数
の符号化方法の中から最適な符号化方法を選択する例に
ついて説明した。これに対して、実施の形態6では、素
片データの種類ごと、符号化方式の異なる複数の符号化
方法の中から最適な符号化方法を選択する例について説
明する。なお、素片辞書112に登録する音声素片は、
音素、半音素、ダイフォン(CV,VC等),VCV
(またはCVC),これらの組み合わせ等からなる。
【0157】(素片辞書作成)図13は、本発明の実施
の形態6における素片辞書作成アルゴリズムを説明する
フローチャートである。このアルゴリズムを実現するプ
ログラムは記憶装置101に記憶されている。中央処理
装置100は、ユーザの指示に基づいて記憶装置101
からこのプログラムを読み出し、以下に示す手順を実行
する。
【0158】まずステップS1301では、外部記憶装
置102の素片データ111に記憶されているN個の素
片データ(各素片データは非圧縮状態にある)のそれぞ
れを指示するインデックスiを、“0”に初期化する。
なお、このインデックスiは記憶装置101に設定され
ている。次にステップS1302に進み、インデックス
iが指示するi番目の素片データWiを読み出す。こう
して読込まれたデータを、 Wi={x0,x1,…,xT-1} とする。ここで、TはWiの時間長(単位はサンプル)
である。
【0159】次にステップS1303に進み、ステップ
S1302で読み出した素片データWiの種類を判別す
る。具体的には、素片データWiの種類が、有声摩擦
音、破裂音、無声音、鼻音、その他の有声音の何れかで
あるかを判別する。ここで、素片データWiの種類が有
声摩擦音、破裂音の何れかである場合はステップS13
16に進み、素片データWiを非圧縮とする。このよう
に構成することにより、有声摩擦音や破裂音の品質の劣
化を防止することができる。このステップS1316で
は、素片データWiの符号化情報を素片辞書112に書
き込む。この符号化情報には、素片データWiの種類、
素片データWiが符号化されていないことを示す情報な
どが含まれている。次にステップS1317に進み、符
号化せずに素片データWiを素片辞書112に書き込
み、ステップS1318に進む。
【0160】ステップS1305で、素片データWiの
種類が無声音である場合はステップS1306に進み、
素片データWiを前述の実施の形態2又は3で説明した
符号化方式(即ち、スカラ量子化方式)で符号化する。
次にステップS1307に進み、素片データWiの符号
化情報を素片辞書112に書き込む。この符号化情報に
は、素片データWiの種類、素片データWiを符号化した
符号化方法を特定する情報、素片データWiの復号に必
要な情報(量子化コードブック等)などが含まれてい
る。次にステップS1308に進み、ステップS130
6で符号化された素片データWiを素片辞書112に書
き込んでステップS1318に進む。
【0161】ステップS1309で、素片データWiの
種類が鼻音である場合はステップS1310に進み、素
片データWiを前述の実施の形態4で説明した符号化方
式(即ち、線形予測符号化方式)で符号化する。次にス
テップS1311に進み、素片データWiの符号化情報
を素片辞書112に書き込む。この符号化情報には、素
片データWiの種類、素片データWiを符号化した符号化
方法を特定する情報、素片データWiの復号に必要な情
報(予測係数,量子化コードブック等)などが含まれて
いる。そして次にステップS1312に進み、ステップ
S1310で符号化された素片データWiを素片辞書1
12に書き込んでステップS1318に進む。
【0162】またステップS1309で、素片データW
iの種類がその他の有声音である場合はステップS13
13に進み、前述の実施の形態1で説明した符号化方式
(即ち、7ビットμ-law方式、又は8ビットμ-law方
式)で符号化する。そしてステップS1314に進み、
素片データWiの符号化情報を素片辞書112に書き込
む。この符号化情報には、素片データWiの種類、素片
データWiを符号化した符号化方法を特定する情報、素
片データWiの復号に必要な情報などが含まれている。
次にステップS1315に進み、ステップS1313で
符号化された素片データWiを素片辞書112に書き込
んでステップS1318に進む。
【0163】そしてステップS1318では、N個の素
片データの全てに対して前述の処理を行ったか否かを判
定する。ここで、i=N−1が成立すれば本アルゴリズ
ムを終了する。一方、そうでなければステップS131
9に進んで、インデックスiに1を加え、再びステップ
S1302に進み、更新されたインデックスiが指定す
る素片データを読み出す。このような処理をN個の素片
データの全てに対して繰り返し実行する。
【0164】以上説明したように実施の形態6の素片辞
書作成アルゴリズムによれば、素片辞書112に登録す
る音声素片の種類ごとに、μ-law方式で符号化するか、
スカラ量子化方式で符号化するか、線形予測符号化方式
で符号化するかを選択することができる。このように構
成することにより、素片辞書に登録する音声素片の品質
を劣化させることなく、素片辞書に必要な記憶容量を非
常に効率的に削減することができる。また、従来と同程
度の記憶容量をもつ素片辞書に、従来よりも多くの種類
の音声素片を登録することもできる。
【0165】なお実施の形態6では、上述の素片辞書作
成アルゴリズムを記憶装置101に記憶されているプロ
グラムに基づいて実現する場合について説明したが、こ
の素片辞書作成アルゴリズムの一部若しくは全てをハー
ドウェアにより構成することも可能である。
【0166】(音声合成)図14は、本発明の実施の形
態6における音声合成アルゴリズムを説明するフローチ
ャートである。このアルゴリズムを実現するプログラム
は記憶装置101に記憶されている。中央処理装置10
0は、ユーザの指示に基づいて記憶装置101からこの
プログラムを読み出し、以下に示す手順を実行する。
【0167】ステップS1401〜S1403のそれぞ
れは、図12のS1201〜S1203のそれぞれと同
様の機能及び処理をするものとし、その説明を省略す
る。
【0168】ステップS1404では、ステップS14
02で求めた音韻系列とステップS1403で決定した
韻律とに基づいて最適な素片系列を求める。そして、こ
の素片系列に含まれる音声素片の一つを選択し、選択さ
れた音声素片に対応する素片データ,符号化情報を検索
する。そして、素片辞書112がハードディスク等の記
憶媒体に格納されているならば、素片データ、符号化情
報の記憶領域へ順次シークする。また、素片辞書112
がRAM等の記憶媒体に格納されているならば、素片デ
ータ、符号化情報の記憶領域へポインタ(アドレスレジ
スタ)を順次移動する。
【0169】ステップS1405では、ステップS14
04で検索した符号化情報を素片辞書112から読み出
す。次にステップS1406に進み、ステップS140
4で検索した素片データを素片辞書112から読み出
す。次にステップS1407に進み、ステップS140
5で読み出した符号化情報に基づいて、ステップS14
04で検索された素片データの種類を判別する。具体的
には、素片データの種類が、有声摩擦音、破裂音、無声
音、鼻音、その他の有声音の何れかであるかを判別す
る。
【0170】ここで素片データの種類が有声摩擦音,破
裂音の何れかである場合はステップS1416に進み、
ステップS1404で検索された素片データを読み出
し、ステップS1417に進む。この場合、この素片デ
ータは符号化されていない。
【0171】ステップS1407で、素片データの種類
が有声摩擦音,破裂音の何れかでない場合はステップS
1408に進み、素片データの種類が無声音であるかど
うかを調べ、無声音であるときはステップS1414に
進む。ステップS1414では、ステップS1404で
検索された素片データを読み出してステップS1415
に進む。この素片データはスカラ量子化方式で符号化さ
れている。ステップS1415では、ステップS140
5で読み出した符号化情報に基づいてこの素片データを
復号する。
【0172】ステップS1408で素片データの種類が
無声音でない場合はステップS1409に進み、素片デ
ータの種類が鼻音であるかどうかを判定し、鼻音であれ
ばステップS1412に進み、ステップS1404で検
索された素片データを読み出してステップS1413に
進む。この素片データは線形予測符号化方式で符号化さ
れている。ステップS1413では、ステップS140
5で読み出した符号化情報に基づいてこの素片データを
復号する。
【0173】一方、ステップS1409で、素片データ
の種類がその他の有声音である場合はステップS141
0に進み、ステップS1404で検索された素片データ
を読み出してステップS1411に進む。この素片デー
タはμ-law方式で符号化されている。ステップS141
1では、ステップS1405で読み出した符号化情報に
基づいてこの素片データを復号する。
【0174】こうしてステップS1417では、ステッ
プS1404で求めた素片系列に含まれる全ての音声素
片に対応する素片データを復号化したか否かを判定す
る。全ての素片データを復号化した場合はステップS1
418に進み、まだ復号化していない素片データがある
場合には、次の素片データを復号するためにステップS
1404に進む。ステップS1418では、ステップS
1403で決定した韻律に基づいて、復号化した音声素
片のそれぞれを変形して接続する(即ち、波形編集す
る)。次にステップS1419に進み、ステップS14
18で求めた合成音声を出力装置103の有するスピー
カから出力する。
【0175】以上説明したように実施の形態6の音声合
成アルゴリズムによれば、所望の音声素片をμ-law方
式、スカラ量子化方式、線形予測符号化方式の何れかに
対応する復号方法によって復号することができるので、
自然で高品質な合成音声を生成することができる。
【0176】なお、実施の形態6では、上述の音声合成
アルゴリズムを記憶装置101に記憶されているプログ
ラムに基づいて実現する場合について説明したが、この
素片辞書作成アルゴリズムの一部若しくは全てをハード
ウェアにより構成することも可能である。
【0177】[その他の実施の形態]前述の実施の形態
2,3,4および5では、量子化の手法としてスカラ量
子化を用いたが、これに限るものではない。連続する複
数のサンプルを1つのベクトルと見なし、ベクトル量子
化を適用することも可能である。
【0178】また、破裂音のような非定常性の音声素片
については、音声素片を破裂前と破裂後とに分割し、そ
れぞれを最適な符号化方法で符号化することも可能であ
る。これにより、非定常性の音声素片の符号化効率をよ
り一層向上させることが可能となる。
【0179】また、実施の形態4では、線形予測モデル
に基づいて説明を行ったが、これに限るものではない。
その他の声道フィルタモデルを適用することも可能であ
る。例えば、線形予測係数の代わりにLMA(Log Magn
itude Approximation)フィルタ係数を用い、予測残差
の代わりにLMAフィルタの残差を用いてモデルパラメ
ータを演算することも可能である。このように構成する
ことによって、実施の形態4をケプストラム領域に適用
することができる。
【0180】なお、前述の各実施の形態は、複数の機器
(例えばホストコンピュータ、インターフェース機器、
リーダ、プリンタなど)から構成されるシステムに適用
しても、一つの機器からなる装置(例えば、複写機、フ
ァクシミリ装置など)に適用することも可能である。
【0181】また、前述の各実施の形態は、中央処理装
置100の読み出したプログラムコードの指示に基づ
き、中央処理装置100上で稼働しているオペレーティ
ングシステム(OS)などが実際の処理の一部または全
てを行うように構成することも可能である。
【0182】さらに、前述の各実施の形態は、記憶装置
101から読み出されたプログラムコードを中央処理装
置100に接続された機能拡張ユニットに備わるメモリ
に書き込んだ後、その機能拡張ユニットに備わるCPU
などが、そのプログラムコードの指示に基づき、実際の
処理の一部または全部を行うように構成することも可能
である。
【0183】以上説明したように前述の各実施の形態に
よれば、素片データごとに符号化方法を選択することが
できるので、素片辞書に登録する音声素片の品質を劣化
させることなく、素片辞書に必要な記憶容量を非常に効
率的に削減することができる。また、このようにして作
成された素片辞書を用いて合成音声を生成することがで
きるので、自然で高品質な合成音声を生成することがで
きる。
【0184】
【発明の効果】以上説明したように本発明によれば、素
片辞書に登録する音声素片の品質を劣化させることな
く、素片辞書に必要な記憶容量を非常に効率的に削減す
ることができる。
【0185】また本発明によれば、自然で高品質な合成
音声を生成することができる。
【図面の簡単な説明】
【図1】本発明の各実施の形態における音声合成装置の
ハードウェア構成を示すブロック図である。
【図2】本発明の実施の形態1における素片辞書作成ア
ルゴリズムを説明するフローチャートである。
【図3】本発明の実施の形態1における音声合成アルゴ
リズムを説明するフローチャートである。
【図4】本発明の実施の形態2における素片辞書作成ア
ルゴリズムを説明するフローチャートである。
【図5】本発明の実施の形態2における音声合成アルゴ
リズムを説明するフローチャートである。
【図6】本発明の実施の形態3における素片辞書作成ア
ルゴリズムを説明するフローチャートである。
【図7】本発明の実施の形態3における素片辞書作成ア
ルゴリズムを説明するフローチャートである。
【図8】本発明の実施の形態3における音声合成アルゴ
リズムを説明するフローチャートである。
【図9】本発明の実施の形態4における素片辞書作成ア
ルゴリズムを説明するフローチャートである。
【図10】本発明の実施の形態4における音声合成アル
ゴリズムを説明するフローチャートである。
【図11】本発明の実施の形態5における素片辞書作成
アルゴリズムを説明するフローチャートである。
【図12】本発明の実施の形態5における音声合成アル
ゴリズムを説明するフローチャートである。
【図13】本発明の実施の形態6における素片辞書作成
アルゴリズムを説明するフローチャートである。
【図14】本発明の実施の形態6における音声合成アル
ゴリズムを説明するフローチャートである。
【図15】一般的な音声合成処理を示すフローチャート
である。

Claims (48)

    【特許請求の範囲】
  1. 【請求項1】 複数の音声素片を保持する素片辞書を生
    成する音声情報処理方法であって、 音声素片を符号化するための符号化方法を、複数の符号
    化方法の中から選択する選択工程と、 選択された符号化方法を用いて前記音声素片を符号化す
    る符号化工程と、 符号化された前記音声素片を素片辞書に格納する格納工
    程と、を有することを特徴とする音声情報処理方法。
  2. 【請求項2】 前記複数の符号化方法の一つは、他の符
    号化方法とは量子化ステップ数が異なることを特徴とす
    る請求項1に記載の音声情報処理方法。
  3. 【請求項3】 前記複数の符号化方法の一つは、他の符
    号化方法とは量子化コードブックが異なることを特徴と
    する請求項1に記載の音声情報処理方法。
  4. 【請求項4】 前記複数の符号化方法の一つは、他の符
    号化方法とは符号化方式が異なることを特徴とする請求
    項1に記載の音声情報処理方法。
  5. 【請求項5】 前記複数の符号化方法の一つは、μ-law
    方式を用いた符号化方法、スカラ量子化方式を用いた符
    号化方法、線形予測符号化方式を用いた符号化方法の何
    れかであることを特徴とする請求項1に記載の音声情報
    処理方法。
  6. 【請求項6】 前記選択工程は、一部の音声素片を符号
    化しないように制御することを特徴とする請求項1に記
    載の音声情報処理方法。
  7. 【請求項7】 複数の音声素片を保持する素片辞書を生
    成する音声情報処理装置であって、 音声素片を符号化するための符号化方法を、複数の符号
    化方法の中から選択する選択手段と、 選択された符号化方法を用いて前記音声素片を符号化す
    る符号化手段と、 符号化された前記音声素片を素片辞書に格納する格納手
    段と、を有することを特徴とする音声情報処理装置。
  8. 【請求項8】 前記複数の符号化方法の一つは、他の符
    号化方法とは量子化ステップ数が異なることを特徴とす
    る請求項7に記載の音声情報処理装置。
  9. 【請求項9】 前記複数の符号化方法の一つは、他の符
    号化方法とは量子化コードブックが異なることを特徴と
    する請求項7に記載の音声情報処理装置。
  10. 【請求項10】 前記複数の符号化方法の一つは、他の
    符号化方法とは符号化方式が異なることを特徴とする請
    求項7に記載の音声情報処理装置。
  11. 【請求項11】 前記複数の符号化方法の一つは、μ-l
    aw方式を用いた符号化方法、スカラ量子化方式を用いた
    符号化方法、及び線形予測符号化方式を用いた符号化方
    法の何れかであることを特徴とする請求項7に記載の音
    声情報処理装置。
  12. 【請求項12】 前記選択手段は、一部の音声素片を符
    号化しないように制御することを特徴とする請求項7に
    記載の音声情報処理装置。
  13. 【請求項13】 複数の音声素片を保持する素片辞書を
    用いて音声を合成する音声情報処理方法であって、 素片辞書から読み出した音声素片を復号するための復号
    方法を、複数の復号方法の中から選択する選択工程と、 選択された復号方法を用いて前記音声素片を復号する復
    号工程と、 復号された前記音声素片に基づいて音声を合成する音声
    合成工程と、を有することを特徴とする音声情報処理方
    法。
  14. 【請求項14】 前記複数の復号方法の一つは、他の符
    号化方法とは量子化ステップ数が異なることを特徴とす
    る請求項13に記載の音声情報処理方法。
  15. 【請求項15】 前記複数の復号方法の一つは、他の符
    号化方法と量子化コードブックが異なることを特徴とす
    る請求項13に記載の音声情報処理方法。
  16. 【請求項16】 前記複数の復号方法の一つは、他の符
    号化方法とは符号化方式が異なることを特徴とする請求
    項13に記載の音声情報処理方法。
  17. 【請求項17】 前記複数の復号方法の一つは、μ-law
    方式に対応する復号方法、スカラ量子化方式に対応する
    復号方法、及び線形予測符号化方式のいずれかに対応す
    る復号方法であることを特徴とする請求項13に記載の
    音声情報処理方法。
  18. 【請求項18】 前記選択工程は、一部の音声素片を復
    号しないように制御することを特徴とする請求項13に
    記載の音声情報処理方法。
  19. 【請求項19】 複数の音声素片を保持する素片辞書を
    用いて音声を合成する音声情報処理装置であって、 素片辞書から読み出した音声素片を復号するための復号
    方法を、複数の復号方法の中から選択する選択手段と、 選択された復号方法を用いて前記音声素片を復号する復
    号手段と、 復号された前記音声素片に基づいて音声を合成する音声
    合成手段と、を有することを特徴とする音声情報処理装
    置。
  20. 【請求項20】 前記複数の復号方法の一つは、他の符
    号化方法とは量子化ステップ数が異なることを特徴とす
    る請求項19に記載の音声情報処理装置。
  21. 【請求項21】 前記複数の復号方法の一つは、他の符
    号化方法と量子化コードブックが異なることを特徴とす
    る請求項19に記載の音声情報処理装置。
  22. 【請求項22】 前記複数の復号方法の一つは、他の符
    号化方法とは符号化方式が異なることを特徴とする請求
    項19に記載の音声情報処理装置。
  23. 【請求項23】 前記複数の復号方法の一つは、μ-law
    方式に対応する復号方法、スカラ量子化方式に対応する
    復号方法、線形予測符号化方式のいずれかに対応する復
    号方法であることを特徴とする請求項19に記載の音声
    情報処理装置。
  24. 【請求項24】 前記選択手段は、一部の音声素片を復
    号しないように制御することを特徴とする請求項19に
    記載の音声情報処理装置。
  25. 【請求項25】 複数の音声素片を保持する素片辞書を
    生成する音声情報処理方法であって、 音声素片を符号化するための符号化方法を、前記音声素
    片の種類に応じて設定する設定工程と、 設定された符号化方法を用いて前記音声素片を符号化す
    る符号化工程と、 符号化された前記音声素片を素片辞書に格納する格納工
    程と、を有することを特徴とする音声情報処理方法。
  26. 【請求項26】 前記設定工程は、前記音声素片の種類
    が破裂音である場合とそうでない場合とで、前記音声素
    片に設定する符号化方法を変更することを特徴とする請
    求項25に記載の音声情報処理方法。
  27. 【請求項27】 前記設定工程は、前記音声素片の種類
    が破裂音である場合、前記音声素片を符号化しないよう
    に設定することを特徴とする請求項25に記載の音声情
    報処理方法。
  28. 【請求項28】 前記設定工程は、前記音声素片の種類
    が無声音である場合とそうでない場合とで、前記音声素
    片に設定する符号化方法を変更することを特徴とする請
    求項25に記載の音声情報処理方法。
  29. 【請求項29】 前記設定工程は、前記音声素片の種類
    が鼻音である場合とそうでない場合とで、前記音声素片
    に設定する符号化方法を変更することを特徴とする請求
    項25に記載の音声情報処理方法。
  30. 【請求項30】 複数の音声素片を保持する素片辞書を
    生成する音声情報処理装置であって、 音声素片を符号化するための符号化方法を、前記音声素
    片の種類に応じて設定する設定手段と、 設定された符号化方法を用いて前記音声素片を符号化す
    る符号化手段と、 符号化された前記音声素片を素片辞書に格納する格納手
    段と、を有することを特徴とする音声情報処理装置。
  31. 【請求項31】 前記設定手段は、前記音声素片の種類
    が破裂音である場合とそうでない場合とで、前記音声素
    片に設定する符号化方法を変更することを特徴とする請
    求項30に記載の音声情報処理装置。
  32. 【請求項32】 前記設定手段は、前記音声素片の種類
    が破裂音である場合、前記音声素片を符号化しないよう
    に設定することを特徴とする請求項30に記載の音声情
    報処理装置。
  33. 【請求項33】 前記設定手段は、前記音声素片の種類
    が無声音である場合とそうでない場合とで、前記音声素
    片に設定する符号化方法を変更することを特徴とする請
    求項30に記載の音声情報処理装置。
  34. 【請求項34】 前記設定手段は、前記音声素片の種類
    が鼻音である場合とそうでない場合とで、前記音声素片
    に設定する符号化方法を変更することを特徴とする請求
    項30に記載の音声情報処理装置。
  35. 【請求項35】 複数の音声素片を保持する素片辞書を
    用いて音声を合成する音声情報処理方法であって、 素片辞書から読み出す音声素片を復号するための復号方
    法を、前記音声素片の種類に応じて設定する設定工程
    と、 設定された復号方法を用いて前記音声素片を復号する復
    号工程と、 復号された前記音声素片に基づいて音声を合成する音声
    合成工程と、を有することを特徴とする音声情報処理方
    法。
  36. 【請求項36】 前記設定工程は、前記音声素片の種類
    が破裂音である場合とそうでない場合とで、前記音声素
    片に設定する復号方法を変更することを特徴とする請求
    項35に記載の音声情報処理方法。
  37. 【請求項37】 前記設定工程は、前記音声素片の種類
    が破裂音である場合、前記音声素片を復号しないように
    設定することを特徴とする請求項35に記載の音声情報
    処理方法。
  38. 【請求項38】 前記設定工程は、前記音声素片の種類
    が無声音である場合とそうでない場合とで、前記音声素
    片に設定する復号方法を変更することを特徴とする請求
    項35に記載の音声情報処理方法。
  39. 【請求項39】 前記設定工程は、前記音声素片の種類
    が鼻音である場合とそうでない場合とで、前記音声素片
    に設定する復号方法を変更することを特徴とする請求項
    35に記載の音声情報処理方法。
  40. 【請求項40】 複数の音声素片を保持する素片辞書を
    用いて音声を合成する音声情報処理装置であって、 素片辞書から読み出した音声素片を復号するための復号
    方法を、前記音声素片の種類に応じて設定する設定手段
    と、 設定された復号方法を用いて前記音声素片を復号する復
    号手段と、 復号された前記音声素片に基づいて音声を合成する音声
    合成手段と、を有することを特徴とする音声情報処理装
    置。
  41. 【請求項41】 前記設定手段は、前記音声素片の種類
    が破裂音である場合とそうでない場合とで、前記音声素
    片に設定する復号方法を変更することを特徴とする請求
    項40に記載の音声情報処理装置。
  42. 【請求項42】 前記設定手段は、前記音声素片の種類
    が破裂音である場合、前記音声素片を復号しないように
    設定することを特徴とする請求項40に記載の音声情報
    処理装置。
  43. 【請求項43】 前記設定手段は、前記音声素片の種類
    が無声音である場合とそうでない場合とで、前記音声素
    片に設定する復号方法を変更することを特徴とする請求
    項40に記載の音声情報処理装置。
  44. 【請求項44】 前記設定手段は、前記音声素片の種類
    が鼻音である場合とそうでない場合とで、前記音声素片
    に設定する復号方法を変更することを特徴とする請求項
    40に記載の音声情報処理装置。
  45. 【請求項45】 請求項1〜6の何れかに記載の音声情
    報処理方法をコンピュータに実現させるための制御プロ
    グラムを格納することを特徴とする記憶媒体。
  46. 【請求項46】 請求項13〜18の何れかに記載の音
    声情報処理方法をコンピュータに実現させるための制御
    プログラムを格納することを特徴とする記憶媒体。
  47. 【請求項47】 請求項25〜29の何れかに記載の音
    声情報処理方法をコンピュータに実現させるための制御
    プログラムを格納することを特徴とする記憶媒体。
  48. 【請求項48】 請求項35〜39の何れかに記載の音
    声情報処理方法をコンピュータに実現させるための制御
    プログラムを格納することを特徴とする記憶媒体。
JP2000221128A 1999-08-03 2000-07-21 音声情報処理方法、装置および記憶媒体 Pending JP2001109489A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2000221128A JP2001109489A (ja) 1999-08-03 2000-07-21 音声情報処理方法、装置および記憶媒体
US09/630,356 US7092878B1 (en) 1999-08-03 2000-08-01 Speech synthesis using multi-mode coding with a speech segment dictionary
DE60028471T DE60028471T2 (de) 1999-08-03 2000-08-02 Erzeugung und Verwendung eines Sprachsegmentlexikons
EP00306561A EP1074972B1 (en) 1999-08-03 2000-08-02 Generation and use of a speech segment dictionary

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP22049699 1999-08-03
JP11-220496 1999-08-03
JP2000221128A JP2001109489A (ja) 1999-08-03 2000-07-21 音声情報処理方法、装置および記憶媒体

Publications (2)

Publication Number Publication Date
JP2001109489A true JP2001109489A (ja) 2001-04-20
JP2001109489A5 JP2001109489A5 (ja) 2005-07-21

Family

ID=26523737

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000221128A Pending JP2001109489A (ja) 1999-08-03 2000-07-21 音声情報処理方法、装置および記憶媒体

Country Status (4)

Country Link
US (1) US7092878B1 (ja)
EP (1) EP1074972B1 (ja)
JP (1) JP2001109489A (ja)
DE (1) DE60028471T2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6804650B2 (en) * 2000-12-20 2004-10-12 Bellsouth Intellectual Property Corporation Apparatus and method for phonetically screening predetermined character strings
TWI307037B (en) * 2005-10-31 2009-03-01 Holtek Semiconductor Inc Audio calculation method
JP5471858B2 (ja) * 2009-07-02 2014-04-16 ヤマハ株式会社 歌唱合成用データベース生成装置、およびピッチカーブ生成装置

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4833718A (en) 1986-11-18 1989-05-23 First Byte Compression of stored waveforms for artificial speech
JPS63253995A (ja) 1987-04-10 1988-10-20 松下電器産業株式会社 ボイスメ−ル装置
GB8720527D0 (en) * 1987-09-01 1987-10-07 King R A Voice recognition
US5073940A (en) * 1989-11-24 1991-12-17 General Electric Company Method for protecting multi-pulse coders from fading and random pattern bit errors
US5278943A (en) * 1990-03-23 1994-01-11 Bright Star Technology, Inc. Speech animation and inflection system
JP3267308B2 (ja) 1991-04-12 2002-03-18 沖電気工業株式会社 統計励振コードベクトルの最適化方法、多段コード励振線形予測符号化器及び多段コード励振線形予測復号化器
JPH0815261B2 (ja) 1991-06-06 1996-02-14 松下電器産業株式会社 適応変換ベクトル量子化符号化法
JP3081300B2 (ja) 1991-10-01 2000-08-28 三洋電機株式会社 残差駆動型音声合成装置
US5671327A (en) * 1991-10-21 1997-09-23 Kabushiki Kaisha Toshiba Speech encoding apparatus utilizing stored code data
JP3425996B2 (ja) 1992-07-30 2003-07-14 株式会社リコー ピッチパターン生成装置
DE69413002T2 (de) 1993-01-21 1999-05-06 Apple Computer, Inc., Cupertino, Calif. Text-zu-sprache-Uebersetzungssystem unter Verwendung von Sprachcodierung und Decodierung auf der Basis von Vectorquantisierung
JP3431655B2 (ja) 1993-03-10 2003-07-28 三菱電機株式会社 符号化装置及び復号化装置
FR2702590B1 (fr) * 1993-03-12 1995-04-28 Dominique Massaloux Dispositif de codage et de décodage numériques de la parole, procédé d'exploration d'un dictionnaire pseudo-logarithmique de délais LTP, et procédé d'analyse LTP.
US5751903A (en) * 1994-12-19 1998-05-12 Hughes Electronics Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset
JP3183072B2 (ja) 1994-12-19 2001-07-03 松下電器産業株式会社 音声符号化装置
US5774846A (en) 1994-12-19 1998-06-30 Matsushita Electric Industrial Co., Ltd. Speech coding apparatus, linear prediction coefficient analyzing apparatus and noise reducing apparatus
US6240384B1 (en) 1995-12-04 2001-05-29 Kabushiki Kaisha Toshiba Speech synthesis method
JP3281266B2 (ja) 1996-03-12 2002-05-13 株式会社東芝 音声合成方法及び装置
US5729694A (en) * 1996-02-06 1998-03-17 The Regents Of The University Of California Speech coding, reconstruction and recognition using acoustics and electromagnetic waves
JP3505364B2 (ja) 1997-09-12 2004-03-08 三洋電機株式会社 音声データベースにおける音素片情報最適化方法、及び音素片情報最適化装置
JPH1195796A (ja) 1997-09-16 1999-04-09 Toshiba Corp 音声合成方法
JPH11231890A (ja) 1998-02-12 1999-08-27 Oki Electric Ind Co Ltd 音声認識の辞書作成方法
US6115689A (en) * 1998-05-27 2000-09-05 Microsoft Corporation Scalable audio coder and decoder
US6173257B1 (en) * 1998-08-24 2001-01-09 Conexant Systems, Inc Completed fixed codebook for speech encoder
JP2000221128A (ja) 1999-01-29 2000-08-11 Ricoh Co Ltd 試料皿位置矯正装置

Also Published As

Publication number Publication date
DE60028471T2 (de) 2006-11-09
US7092878B1 (en) 2006-08-15
EP1074972B1 (en) 2006-06-07
DE60028471D1 (de) 2006-07-20
EP1074972A2 (en) 2001-02-07
EP1074972A3 (en) 2004-01-07

Similar Documents

Publication Publication Date Title
EP0140777B1 (en) Process for encoding speech and an apparatus for carrying out the process
JP4516863B2 (ja) 音声合成装置、音声合成方法及びプログラム
US20200410981A1 (en) Text-to-speech (tts) processing
US20040073428A1 (en) Apparatus, methods, and programming for speech synthesis via bit manipulations of compressed database
US20070106513A1 (en) Method for facilitating text to speech synthesis using a differential vocoder
JP2002530703A (ja) 音声波形の連結を用いる音声合成
CN115943460A (zh) 从韵律特征预测参数化声码器参数
US5633984A (en) Method and apparatus for speech processing
WO2004109659A1 (ja) 音声合成装置、音声合成方法及びプログラム
Lee et al. Voice response systems
JP4287785B2 (ja) 音声合成装置、音声合成方法及びプログラム
JP2001109489A (ja) 音声情報処理方法、装置および記憶媒体
WO2004109660A1 (ja) 音声データを選択するための装置、方法およびプログラム
JP2005018036A (ja) 音声合成装置、音声合成方法及びプログラム
Ramasubramanian et al. Ultra low bit-rate speech coding
Sassi et al. Neural speech synthesis system for Arabic language using CELP algorithm
Huang et al. A Chinese text-to-speech synthesis system based on an initial-final model
JP4209811B2 (ja) 音声選択装置、音声選択方法及びプログラム
JP2624972B2 (ja) 音声合成システム
Anilkumar et al. Building of Indian Accent Telugu and English Language TTS Voice Model Using Festival Framework
Benbassat et al. Low bit rate speech coding by concatenation of sound units and prosody coding
Pagarkar et al. Language Independent Speech Compression using Devanagari Phonetics
JP4780188B2 (ja) 音声データ選択装置、音声データ選択方法及びプログラム
Gopalakrishnan et al. Language Independent Speech Compression
CN116129876A (zh) 语音转化模型的训练方法和装置及语音生成方法和装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041210

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041210

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20041210

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20041210

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20041210

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20050201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050304

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050427

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050506

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050627

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20051101

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051226

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20060130

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20060609