JPH11327594A - 音声合成辞書作成システム - Google Patents

音声合成辞書作成システム

Info

Publication number
JPH11327594A
JPH11327594A JP10129855A JP12985598A JPH11327594A JP H11327594 A JPH11327594 A JP H11327594A JP 10129855 A JP10129855 A JP 10129855A JP 12985598 A JP12985598 A JP 12985598A JP H11327594 A JPH11327594 A JP H11327594A
Authority
JP
Japan
Prior art keywords
speech
voice
dictionary
synthesis
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10129855A
Other languages
English (en)
Inventor
Takashi Ariyoshi
敬 有吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP10129855A priority Critical patent/JPH11327594A/ja
Publication of JPH11327594A publication Critical patent/JPH11327594A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 規則音声合成辞書作成システムにおいて、登
録すべき話者の声質如何によらず、規則音声合成の音声
辞書を自動的に作成すること。 【解決手段】 音声データ記憶手段50により特定話者
の登録用音声を記憶し、認識辞書作成手段60は、前記
音声データ記憶手段50により記憶された登録用音声を
学習して音声認識用音素辞書70を作成し、音素切り出
し手段80は前記音素辞書70を用いて前記特定話者の
音声を合成単位毎に分けて切り出して音素切り出し情報
90を作成し、最後に辞書作成手段100によって、前
記切り出し情報中の合成単位の音声及び前記登録用音声
から各合成単位の音声単位辞書110を作成するように
した。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、日本語テキスト音
声合成あるいは規則音声合成技術に関する。より詳細に
は、本発明はVCV(母音,子音,母音)を合成単位と
した波形編集方式で、音声素片として1ピッチ素片波形
を持つピッチ同期波形重畳法(矢頭他、「テキスト・音
声変換技術の開発」沖電気研究開発1991年10月p
p.85−90など参照)による規則音声合成方式で用
いられる音声素片辞書を、与えられる音声から自動的に
作成するシステムに関する。
【0002】
【従来の技術】規則音声合成システムで使用される合成
単位の音声辞書は、従来、一般に熟練者の手作業によっ
て作成されてきた。このような作業は、労力のいる作業
であり、音声辞書を作り直すことは容易でない。また、
このように作成された辞書による合成音声の声質は固定
化されていて、ユーザが自分の声や特定の人の声に変更
することは出来ない。もし、音声辞書を自動的に作成す
ることができれば、ユーザ本人や有名人の声の合成音声
を出力することが可能となるので、規則音声合成の用途
は拡がるであろう。このような規則音声合成における音
声辞書の作成自動化の試みは、例えば、日本音響学会講
演論文集平成8年9月の229〜230に「新規話者音
声登録機能を有するテキスト音声合成システム」におい
て開示されている。このシステムでは、登録すべき音声
を、基準話者の音声のスペクトルテンプレートを用い
て、DPマッチングにより各音素への自動区分化を行っ
ている。しかしながら、この方法では登録すべき話者と
基準となる話者の音声が類似している場合はよいが、そ
うでない場合、音素の自動区分化が適切に行なわれず、
話者によって良好な音声辞書が作成できないという問題
点がある。
【0003】
【発明が解決しようとする課題】本発明は、前記の問題
点を解決するために行われたものであり、本発明の目的
は、登録すべき話者の声質如何によらず、規則音声合成
の音声辞書を自動的に作成する方法を実現することであ
る。また、ユーザが音声辞書を作成する場合、与える登
録用音声の量が問題になる。即ち、音声の量を多くすれ
ば、良質な音声辞書ができると期待されるが、要する労
力は多い。逆に音声の量が少ないと、ユーザの負担は少
ないが、音声辞書の質は悪くなる。従って、与える音声
の量は音声辞書の質を勘案してユーザが決めることが望
ましい。
【0004】本発明の別の目的は、ユーザの労力に応じ
て合成音声の質を良くすることができる方法を実現する
ことである。そこで、必要最小限の音声の発声セット
と、必要に応じて量を加減できる発声セットを用意す
る。必要最小限の発声セットは合成に必要なすべての単
音節とする。単音節の数は151(下記表1参照)と定
義する。これをCV(母音、子音)単位にして音声辞書
に記憶する。これに加えて登録用の音声として、単語以
上の長さの発声を用いる。この発声からVCV(母音、
子音、母音)単位の音声辞書を作成する。VCVの数は
945程度であるが、これら全てのVCVを得るには、
大量の音声が必要である。しかし、CVが全て揃ってい
ればVCVを全て揃える必要はなく、音声合成を行なう
ときに、VCVの辞書があればVCVを用い、無ければ
CVの辞書をつないで代用することができる。VCVを
つないでいった方が、前後の音韻環境を含んだ音声にな
るので、自然な音声に近くなる。つまり、VCVが多い
方が良質な音声になる。どのくらいVCVの種類を揃え
るかは、ユーザがどのくらい登録用音声を揃えるかによ
ることになる。
【0005】
【表1】
【0006】これに関連して、抽出環境付音声単位(例
えばVCV)と環境無関係音声単位(CV)を用意し
て、抽出環境付音声単位が有ればそれを用い、無ければ
環境無関係音声単位を用いるという方法は、特開平7−
181995号公報に開示されている。しかしこの方法
は、音声単位の音声素片データを蓄える記憶容量の制限
を考慮したもので、本発明のようにユーザの労力を考慮
したものとは目的が異なっている。なお、VCVなどの
音声素片を接続して音声合成を行う場合、接続する音素
片間のスペクトル形状が大きく異なっていると、不自然
な音を生じる原因になる。そこで、出来るだけスペクト
ル形状の類似した音素片同士を選んで、用いることが重
要である。
【0007】
【課題を解決するための手段】請求項1の発明は、特定
話者の音声を学習して特定話者音声辞書(実施例におけ
る音声認識用音素辞書に対応、以下、括弧内同じ)を作
成する音声学習手段(認識辞書作成手段)と、前記特定
話者音声辞書を用い前記特定話者と同一話者の音声を音
声合成用の合成単位毎に分けて切り出す合成単位切り出
し手段(音素切出し手段)と、その合成単位切り出し手
段によって切り出された各合成単位の音声から、各合成
単位の音声辞書(音声単位辞書)を作成する、辞書作成
手段(合成辞書作成手段)を有することを特徴とする規
則音声合成辞書作成システムである。
【0008】請求項2の発明は、請求項1記載の規則音
声合成辞書作成システムにおいて、特定話者の音声の波
形を記憶する音声データ記憶手段(即ち、音声波形蓄積
手段)を有し、音声学習手段において特定話者音声辞書
が作成された後に、合成単位切り出し手段において、特
定話者音声辞書を用いて、音声データ記憶手段に記憶さ
れた音声の波形を音声合成の合成単位毎に分けて切り出
すことを特徴とする規則音声合成辞書作成システムであ
る。
【0009】請求項3の発明は、請求項1または2記載
の規則音声合成辞書作成システムにおいて、音声中に同
一の合成単位の部分が複数個存在する場合に、特定話者
音声辞書の中の音素の特徴量に基づいてその複数個の中
から1つを選択する合成単位選択部を有することを特徴
とする規則音声合成辞書作成システムである。
【0010】請求項4の発明は、請求項1または2記載
の規則音声合成辞書作成システムにおいて、学習に用い
られる音声の発声内容が単音節と単語以上の単位からな
っていて、単音節は合成すべきすべての単音節を含み、
単語以上の発声内容はユーザが学習量を調節できること
を特徴とする規則音声合成辞書作成システムである。
【0011】請求項5の発明は、特定話者の音声を学習
して特定話者音声辞書を作成し、前記特定話者音声辞書
を用いて前記特定話者と同一話者の音声を音声合成用の
合成単位毎に分けて切り出し、切り出された各合成単位
の音声及び登録用音声から、各合成単位の音声辞書を作
成することを特徴とする規則音声合成辞書作成方法であ
る。
【0012】請求項6の発明は、特定話者の音声を学習
して特定話者音声辞書を作成する音声学習手段と、前記
特定話者音声辞書を用いて前記特定話者と同一話者の音
声を音声合成用の合成単位毎に分けて切り出し、その合
成単位切り出し手段によって切り出された各合成単位の
音声から、各合成単位の音声辞書を作成することを特徴
とする、規則音声合成辞書作成方法における前記各処理
をコンピュータに実施させるためのプログラムを記録し
た記録媒体である。
【0013】
【発明の実施の形態】以下に、本発明の詳細な説明を行
う。図2に、本発明の実施例のハードウェア構成を示
す。本発明の規則音声合成音声辞書作成システムはパー
ソナルコンピュータを用いて実現される。システムはコ
ンピュータ本体1と、CRT2、キーボード3、スピー
カ4にマイクロフォン5からなっている。コンピュータ
本体には、CD−ROMドライブ6とフロッピィディス
クドライブ7とハードディスク8が内蔵されている。本
システムで実行されるプログラムと使用されるデータは
予めハードディスク8に収められている。
【0014】図1に、本システムの構成を示す。本シス
テムは、ピッチ波形同期重畳法による規則音声合成方式
で用いられる音声素片辞書を、与えられた音声から自動
的に作成するシステムである。
【0015】ガイダンス生成部20は、ガイド用音声デ
ータ10の音声データを用いて、新規話者に登録用音声
の発声内容を知らせるためガイダンス音声を生成し、ス
ピーカ4に送る。ここで生成される音声は、予め録音さ
れた音声を再生する録音合成方式を用いるが、規則音声
合成方式を用いてもよい。新規話者はスピーカ4から再
生された音声を復唱することによって、登録用音声を発
声する。ここで、発声内容の告知は、同時にコンピュー
タ画面に表示されるが、画面無しで音声だけの指示、あ
るいは音声無しで画面だけの指示で行ってもよい。ここ
で、図1では登録用音声記憶部に記憶された音声データ
は認識辞書作成と音素切り出しと合成辞書作成の3回に
わたって用いられるようになっているが、これは音素切
り出しの結果を切り出された各々の音声波形毎に記憶す
る構成を採るからであり、元の波形データと共に切り出
し情報を別に記憶することにより、認識辞書作成と音素
切り出しの2回用いるようにしてもよい。
【0016】登録用音声は、表1に示すとおり151個
の単音節と音韻バランスを考慮した数100〜数100
0個程度の単語および熟語である。単語の替わりに単文
を用いてもよいが、息継ぎ無しに一気に発声できる程度
の長さとする。登録用音声は、マイク5を経由して、音
声データ記憶手段(即ち、登録用音声記憶部)50に音
声データとして記憶される。音声登録はユーザがキーボ
ードのリターンキーを1回押す毎に1つの語が提示さ
れ、それを発声するという手順で行われる。
【0017】音声登録は単音節から初めて、次に単語の
登録を行なう。単音節は全て登録しなければならない
が、単語は途中で登録を打ち切ってもよく、音声辞書は
あるだけの音声データから作成される。認識辞書作成手
段60は音声データ記憶手段50に記載された登録用音
声を用いて各音素を連結学習し、特定話者の音声認識用
音素辞書70を生成する。この特定話者音声認識方式
は、日本音響学会講演論文集平成5年3月の1〜2頁
「相補的な音素認識モデルを用いたワードスポッティン
グ」に示されているもの、即ち、音素認識スコアをDS
Tモデル(室井他 信学論J72-D-II No .11 pp.1769-
1777),スペクトル形状に関するモデル、パワー形状
(大小,無音,破裂性など)を評価するモデル、音素区
間の継続時間を評価するモデルの各スコアの和から求
め、その認識スコアの和の最も大きい音素系列を抽出す
ることにより、認識を行う特定話者音声認識方式を用い
る。
【0018】ここで用いている音素は、例えば、下記表
2に示すようなものであって、母音や子音の定常部や、
わたりの部分に対応するものなど約300個程度のもの
を用いる。登録用音声の発音内容は予め分かっているの
で、各音素の学習は連結学習が行われる。この学習方式
は特定話者音声認識方式の手法であるが、不特定話者音
声認識用の辞書を話者適応させる方式で代用してもよ
い。
【0019】
【表2】
【0020】音素切り出し手段80は特定話者の音声認
識用音素辞書70の学習が終了してから、その音声認識
用音素辞書を用いて登録用音声を各音素に分割し直し、
音素切り出し情報90を作成する。合成辞書作成手段1
00は、登録用音声と音素切り出し情報90とを用いて
音声合成用の各音声単位辞書110を作成する。まず、
CV単位の辞書は単音節の学習用音声をそのまま用い
る。VCV単位の辞書は単語などの学習用音声から適当
な部分を切り出して用いる。
【0021】1セットの登録用音声から同じVCVの区
間が複数個取れる場合があるが、こような場合、最適な
ものを1つあるいは少数選んで音声辞書とする。音声辞
書の容量に余裕がある場合は、この選択は必要ではな
く、合成する段階で選んで用いてもよい。あるVCV
で、複数の区間から1つの区間を選ぶには、そのVCV
に含まれる前後のV(母音)の特徴量が、それぞれのV
(母音)に当たる音声認識用の母音定常部と類似したも
のを選ぶ。その特徴量としてはケプストラムを用い、前
後のV部のケプストラム距離の合計の小さい区間を選ぶ
ことにより、音声合成を実施する際に、VCVとVCV
を接続する場合に、接続すべき前後の母音は類似した音
であるので、これらを接続した場合、不自然な接続には
聞こえない。
【0022】CVあるいはVCVの区間が決まったら、
その有声音の区間と無声音の区間が別の処理を受ける。
無音声の区間では、そのままの波形が記憶され、有音声
の区間では1ピッチ周期毎にピッチ成分を除去した1ピ
ッチ素片波形を抽出してそれを記憶する。1ピッチ素片
波形の作り方は原音波形をスペクトル分析し、スペクト
ル包絡を求めた後に、逆フーリエ変換して波形に戻す。
【0023】
【発明の効果】請求項1,5に対応する効果:まず特定
話者の(音声認識用とも言える)音声辞書を作成し、こ
れに基づいて同一な話者の音声を音声合成用の音声単位
に分解する(切り出す)ので、不特定話者の音声辞書や
他人の音声辞書に基づいて行なうのに比べて、精度良く
切り出すことができ、結果として、良質の音声合成用の
音声辞書が作成できる。
【0024】請求項2に対応する効果:請求項1の効果
に加え、特定話者の音声辞書を作成する音声と音声合成
用の音声辞書を作成する音声に同一な音声データを用い
ているので、音声単位がさらに精度良く切り出されるの
で、より良質の音声合成用の音声辞書が作成できる。ま
た、同一な音声データを用いることは、それぞれ別の音
声データを用いることに比べて、音声データを効率的に
用いることになり、話者の発声の負担を軽減することに
なる。
【0025】請求項3に対応する効果:登録用音声から
同一の音声単位(音声素片)の区分が複数個取れる場合
に、連続性の高い接続を与える音声素片を選んで記憶し
ておくことができ、少ない記憶容量で高い品質の合成音
声が得られる。
【0026】請求項4に対応する効果:音声合成用の音
声辞書の学習量をユーザ自身が調節することができるの
で学習に要する手間と合成音声の品質との関係から、ユ
ーザが求めるレベルを自分で選ぶことができる。
【0027】請求項6に対応する効果:本発明の音声合
成辞書作成方法を任意のコンピュータによって容易に実
施し、良質の音声合成用音声辞書が作成できる。
【図面の簡単な説明】
【図1】 本発明の構成を示した図である。
【図2】 本発明を実現するハードウェア構成を示した
図である。
【符号の説明】
1…コンピュータ本体、2…CRT、3…キーボード、
4…スピーカ、5…マイクロフォン、6…CD−ROM
ドライブ、7…フロッピィディスクドライブ、8…ハー
ドディスク、10…ガイド用音声データ、20…ガイダ
ンス生成部、50…登録用音声記憶部(音声データ記憶
手段)、60…認識辞書作成手段、70…(特定話者
の)音声認識用音素辞書、80…音素切出し手段、90
…音素切り出し情報、100…合成辞書作成手段、11
0…音声単位辞書。

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 特定話者の音声を学習して特定話者音声
    辞書を作成する音声学習手段と、前記特定話者音声辞書
    を用い前記特定話者と同一話者の音声を音声合成用の合
    成単位毎に分けて切り出す合成単位切り出し手段と、そ
    の合成単位切り出し手段によって切り出された各合成単
    位の音声から、各合成単位の音声辞書を作成する、辞書
    作成手段を有することを特徴とする規則音声合成辞書作
    成システム。
  2. 【請求項2】 請求項1記載の規則音声合成辞書作成シ
    ステムにおいて、特定話者の音声の波形を記憶する音声
    データ記憶手段を有し、音声学習手段において特定話者
    音声辞書が作成された後に、合成単位切り出し手段にお
    いて、特定話者音声辞書を用いて、音声データ記憶手段
    に記憶された音声の波形を音声合成の合成単位毎に分け
    て切り出すことを特徴とする規則音声合成辞書作成シス
    テム。
  3. 【請求項3】 請求項1または2記載の規則音声合成辞
    書作成システムにおいて、音声中に同一の合成単位の部
    分が複数個存在する場合に、特定話者音声辞書の中の音
    素の特徴量に基づいてその複数個の中から1つを選択す
    る合成単位選択部を有することを特徴とする規則音声合
    成辞書作成システム。
  4. 【請求項4】 請求項1または2記載の規則音声合成辞
    書作成システムにおいて、学習に用いられる音声の発声
    内容が単音節と単語以上の単位から成っており、単音節
    は合成すべき全ての単音節を含み、単語以上の発声内容
    はユーザが学習量を調節できることを特徴とする規則音
    声合成辞書作成システム。
  5. 【請求項5】 特定話者の音声を学習して特定話者音声
    辞書を作成し、前記特定話者音声辞書を用いて前記特定
    話者と同一話者の音声を音声合成用の合成単位毎に分け
    て切り出し、切り出された各合成単位の音声及び登録用
    音声から、各合成単位の音声辞書を作成することを特徴
    とする規則音声合成辞書作成方法。
  6. 【請求項6】 特定話者の音声を学習して特定話者音声
    辞書を作成する音声学習手段と、前記特定話者音声辞書
    を用いて前記特定話者と同一話者の音声を音声合成用の
    合成単位毎に分けて切り出し、その合成単位切り出し手
    段によって切り出された各合成単位の音声から、各合成
    単位の音声辞書を作成することを特徴とする、規則音声
    合成辞書作成方法における前記各処理をコンピュータに
    実施させるためのプログラムを記録した記録媒体。
JP10129855A 1998-05-13 1998-05-13 音声合成辞書作成システム Pending JPH11327594A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10129855A JPH11327594A (ja) 1998-05-13 1998-05-13 音声合成辞書作成システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10129855A JPH11327594A (ja) 1998-05-13 1998-05-13 音声合成辞書作成システム

Publications (1)

Publication Number Publication Date
JPH11327594A true JPH11327594A (ja) 1999-11-26

Family

ID=15019938

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10129855A Pending JPH11327594A (ja) 1998-05-13 1998-05-13 音声合成辞書作成システム

Country Status (1)

Country Link
JP (1) JPH11327594A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001282277A (ja) * 2000-03-31 2001-10-12 Canon Inc 音声情報処理装置及びその方法と記憶媒体
WO2003019527A1 (fr) * 2001-08-31 2003-03-06 Kabushiki Kaisha Kenwood Procede et appareil de generation d'un signal affecte d'un pas et procede et appareil de compression/decompression et de synthese d'un signal vocal l'utilisant

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001282277A (ja) * 2000-03-31 2001-10-12 Canon Inc 音声情報処理装置及びその方法と記憶媒体
JP4632384B2 (ja) * 2000-03-31 2011-02-16 キヤノン株式会社 音声情報処理装置及びその方法と記憶媒体
WO2003019527A1 (fr) * 2001-08-31 2003-03-06 Kabushiki Kaisha Kenwood Procede et appareil de generation d'un signal affecte d'un pas et procede et appareil de compression/decompression et de synthese d'un signal vocal l'utilisant
CN1324556C (zh) * 2001-08-31 2007-07-04 株式会社建伍 生成基音周期波形信号的装置和方法及处理语音信号的装置和方法
US7630883B2 (en) 2001-08-31 2009-12-08 Kabushiki Kaisha Kenwood Apparatus and method for creating pitch wave signals and apparatus and method compressing, expanding and synthesizing speech signals using these pitch wave signals
US7647226B2 (en) 2001-08-31 2010-01-12 Kabushiki Kaisha Kenwood Apparatus and method for creating pitch wave signals, apparatus and method for compressing, expanding, and synthesizing speech signals using these pitch wave signals and text-to-speech conversion using unit pitch wave signals

Similar Documents

Publication Publication Date Title
US8219398B2 (en) Computerized speech synthesizer for synthesizing speech from text
US6778962B1 (en) Speech synthesis with prosodic model data and accent type
JPH10116089A (ja) 音声合成用の基本周波数テンプレートを収容する韻律データベース
US9508338B1 (en) Inserting breath sounds into text-to-speech output
Latorre et al. Polyglot synthesis using a mixture of monolingual corpora
JP2014062970A (ja) 音声合成方法、装置、及びプログラム
JP2006030609A (ja) 音声合成データ生成装置、音声合成装置、音声合成データ生成プログラム及び音声合成プログラム
JPH08335096A (ja) テキスト音声合成装置
Valentini-Botinhao et al. Intelligibility of time-compressed synthetic speech: Compression method and speaking style
Bonafonte et al. The UPC TTS system description for the 2008 blizzard challenge
van Rijnsoever A multilingual text-to-speech system
JP3378547B2 (ja) 音声認識方法及び装置
JPH11327594A (ja) 音声合成辞書作成システム
JPH0580791A (ja) 音声規則合成装置および方法
Charfuelan et al. MARY TTS unit selection and HMM-based voices for the Blizzard Challenge 2013
Suzić et al. Style-code method for multi-style parametric text-to-speech synthesis
Dessai et al. Development of Konkani TTS system using concatenative synthesis
JP3034554B2 (ja) 日本語文章読上げ装置及び方法
Ngo et al. Toward a rule-based synthesis of vietnamese emotional speech
JPH11296193A (ja) 音声合成装置
Kayte et al. Artificially Generatedof Concatenative Syllable based Text to Speech Synthesis System for Marathi
JPH1063287A (ja) 発音訓練装置
JP2001134276A (ja) 音声文字化誤り検出装置および記録媒体
JPH09292897A (ja) 音声合成装置
JPH08160990A (ja) 音声合成装置