JP2000250573A - 音声素片データベース作成方法及びその装置並びにこの音声素片データベースを用いた音声合成方法及びその装置 - Google Patents

音声素片データベース作成方法及びその装置並びにこの音声素片データベースを用いた音声合成方法及びその装置

Info

Publication number
JP2000250573A
JP2000250573A JP11052177A JP5217799A JP2000250573A JP 2000250573 A JP2000250573 A JP 2000250573A JP 11052177 A JP11052177 A JP 11052177A JP 5217799 A JP5217799 A JP 5217799A JP 2000250573 A JP2000250573 A JP 2000250573A
Authority
JP
Japan
Prior art keywords
speech
unit
phoneme
database
pitch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11052177A
Other languages
English (en)
Inventor
Kimito Tanaka
公人 田中
Hideyuki Mizuno
秀之 水野
Masanobu Abe
匡伸 阿部
Shinya Nakajima
信弥 中嶌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP11052177A priority Critical patent/JP2000250573A/ja
Publication of JP2000250573A publication Critical patent/JP2000250573A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 音声素片の接続によって生ずる歪やピッチパ
ターンの大幅な変形による品質劣化を防いで高品質な音
声を合成可能な音声素片データベースを作成すること。 【解決手段】 日本語音声データベース1から音韻系列
とピッチパターンを取り出し、一つの子音とそれに続く
母音の連続からなり、かつそれらの前後の音韻を考慮し
た音韻形態を有する音声素片単位に分割し(s1)、全
ての音声素片から音韻系列及びピッチパターンが異なる
音声素片毎にその出現頻度を求め(s2)、各音声素片
毎の出現頻度表を作成し(s3)、出現頻度が高い音声
素片から順に音声素片を抽出して収録リストを作成し
(s4,s5)、収録終了後、音声データに音韻ラベル
及びピッチマークを付与して(s6)、音声素片データ
ベース2として登録する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声素片を接続し
てテキストから音声を合成する際に、素片の接続によっ
て生じる音響的歪みや音声素片のピッチパターンの顕著
な変形による合成音声の品質劣化を防ぐ、音声素片デー
タベースを作成する方法及びその装置並びにこの音声素
片データベースを用いた音声合成方法及びその装置に関
するものである。
【0002】
【従来の技術】従来、テキストを音声に変換をする場
合、例えば母音と母音等、接続した際に音響的な歪が生
じ易い音韻の組み合わせでの接続が必要な形態の音声素
片群からなる音声素片データベース、あるいは接続点に
おける両素片の前後の音韻環境が考慮されていない音声
素片群からなる音声素片データベース、もしくはただ1
種類のピッチパターンしか持たない音声素片群からなる
音声素片データベース等を用いて合成していた。
【0003】
【発明が解決しようとする課題】しかし、前述した従来
の、接続歪が生じ易い音韻間での接続が必要となる音声
素片群からなる音声素片データベースや、接続点におけ
る前後の音韻環境が考慮されていない音声素片群からな
る音声素片データベースを用いた場合、フォルマント周
波数パターン等、音声の音響的特徴の連続性が実現でき
ず、不連続感・異音が生じるという問題があった。
【0004】また、従来の、ただ1種類のピッチパター
ンしか持たない音声素片群からなる音声素片データベー
スを用いた場合、ピッチパターンの大幅な変形処理が必
要となり、合成音声の品質が劣化してしまうという問題
があった。
【0005】さらに、従来の音声素片データベースにお
ける音声素片の個数は、データベースを設計した段階で
固定されており、設計後にその個数を変更することは非
常に困難であった。また、従来の音声素片データベース
には、日本語音声(文章)中での出現頻度が考慮されて
いないためにほとんど使われない音声素片も含まれてい
たり、考慮されていても分析に用いた日本語音声データ
が少なすぎて実情に合わない音声素片も含まれている等
の問題点があり、日本語音声合成用の音声素片データベ
ースとして最適なものではなかった。
【0006】本発明の目的は、音声素片の接続によって
生ずる歪やピッチパターンの大幅な変形による品質劣化
を防いで高品質な音声を合成可能な音声素片のデータベ
ースの作成方法及びその装置並びにこの音声素片データ
ベースを用いた音声合成方法及びその装置を提供するこ
とにある。
【0007】
【課題を解決するための手段】本発明では、音声素片の
接続で歪が生じにくい音韻(無声摩擦音、無声破裂音、
有声摩擦音、促音等)に挟まれた母音の連続と、その前
に付随する子音とから構成される音声素片を基本単位と
し、前後の音韻環境を考慮する。
【0008】このような音声素片を用いたデータベース
を作成することによって、音声素片間を音響的に滑らか
に接続することができ、従来、問題となっていた、音声
素片の接続による歪・異音化をなくして、自然で人間ら
しい音声を合成可能とする。
【0009】さらに、この音声素片データベースではピ
ッチパターンを考慮する。同じ音韻系列でも、文頭・文
末・アクセント核等、使われる場所によってピッチパタ
ーンが異なるので、同じ音韻系列で種々のピッチパター
ンを登録し、音声合成の際にピッチパターンのなるべく
近いものを用いることを可能とし、ピッチパターンを考
慮しない素片を用いる場合と比較してピッチパターンの
変形量を減少させ、肉声感のある高品質な音声を合成可
能とする。
【0010】また、上記のような音声素片は、大量の日
本語音声を分析して求める。そのために、大量の日本語
音声データベースから音韻系列及びピッチパターンを抽
出した後、上記のような音声素片の出現頻度表を作成す
る。音声素片は、この出現頻度の高い順に作成して音声
素片データベースに登録していくので、日本語音声(文
章)中で出現頻度の高い音声素片を効率良く音声素片デ
ータベースに登録でき、最適なデータベースが構築でき
る。
【0011】なお、大量の日本語音声データを収集する
ことは非常に困難であるが、日本語音声データベースと
して、大量の日本語テキストデータベースを既存のテキ
スト音声合成システムに入力して得られた合成音声を用
いることにより、十分な容量の音声データを分析するこ
とができる。
【0012】
【発明の実施の形態】次に、本発明について図面を参照
して説明する。
【0013】図1は本発明における(作成すべき)音声
素片を説明するもので、基本的に子音+母音の連続から
なる音韻形態を有する。さらにその音声素片の一つ前と
一つ後の音韻を音韻環境として持つ。図2にその具体例
をいくつか示す。
【0014】図3は本発明における音声素片データベー
スの一例を示すもので、本データベースの属性は、音声
素片番号、音声素片の音韻記号列(系列)、音声素片の
前の音韻環境、音声素片の後の音韻環境、ピッチレンジ
(ここではピッチの平均値)、ピッチパターン(ここで
はピッチの傾き)、の6つからなっている。
【0015】ピッチの平均値は、1つの母音に対してた
だ一つの値を持ち、例えば、素片番号5の場合、母音”
A”に対して200(Hz)、母音”E”に対して25
0(Hz)の値を持つ。
【0016】また、ピッチの傾きは、1つの母音に対し
て2つの値を持ち、それぞれ各音韻内のピッチパターン
の始点から中点及び中点から終点の間を結ぶ2本の直線
の傾きを表す。例えば、素片番号5の場合、母音”A”
に対して0(Hz/sec)と50(Hz/sec)、
母音”E”に対して50(Hz/sec)と100(H
z/sec)という値を持つ。
【0017】なお、実際の音声素片データベースは、各
素片番号に対応する音声素片毎に音声データ、音韻ラベ
ル及びピッチマークを備えている。
【0018】図4は本発明の音声素片データベース作成
方法の実施の形態の一例を示すものである。
【0019】大量の日本語音声データベース1中の日本
語音声から音韻系列とピッチパターンを取り出し、図1
に示したような形態の音韻系列毎に分割して音声素片を
抽出する(s1)。抽出した全ての音声素片から、音韻
系列及びピッチパターンが異なる音声素片毎にその出現
頻度を求め(s2)、各音声素片毎の出現頻度表を作成
する(s3)。
【0020】次に、作成したい音声素片を含む日本語テ
キストを、出現頻度が高い音声素片から順に大量の日本
語音声データベース1の書き起こしテキスト中から抽出
して収録用リストを作成する(s4,s5)。収録終了
後、音声データに音韻ラベル、ピッチマークを付与して
(s6)、音声素片データベース2に登録する。
【0021】図5は、図4中の日本語音声データベース
1の構築を含めた音声素片データベース作成方法を示す
ものである。
【0022】音声素片の出現頻度表を求めるのに十分な
大量の日本語音声データベース1を構築することは非常
に困難であるため、本発明では大量の日本語テキストデ
ータベース3を既存の音声合成器4に入力して得られた
合成音声を用いる。得られた合成音声の音韻系列とピッ
チパターンを用いて、図4で説明した手順により音声素
片データベース2を構築する。なお、大量の日本語テキ
ストデータベース3としては、電子化されたテキストデ
ータが世に多く存在するので、それらを分野に偏りなく
用いる。
【0023】図6は、図4または図5で作成した音声素
片データベース2を用いたテキスト音声合成システムを
示すもので、図中、11はテキスト解析部、12は韻律
生成部、13は音声合成部、14は日本語辞書、15は
韻律データベースである。
【0024】日本語テキストが入力されると、テキスト
解析部11において日本語辞書14を用いて解析し、テ
キストに読み仮名、アクセント、ポーズ等を付与する。
【0025】次に、韻律生成部12において韻律データ
ベース15を用いて、音韻系列にピッチパターン、パワ
ーパターン等を付与する。
【0026】最後に、音声合成部13において、音声素
片データベース2の中から、音声素片の音韻系列、音声
素片の前の音韻環境、音声素片の後の音韻環境、ピッチ
レンジ、ピッチパターンの5つの属性が一致もしくは最
も近いと判断できるものを取り出してきて順に接続し、
信号処理して素片のピッチパターン、パワーパターン等
を変形することによって音声を合成する。
【0027】
【発明の効果】以上説明したように、本発明によれば、
音声素片データベースに登録する音声素片の形態は、原
理的に接続歪の生じ易い母音間での接続を行う必要がな
いので、従来の問題点であった素片接続歪が非常に少な
い合成音声を作成することができる。また、音声素片の
前後の音韻環境を考慮しているので、接続部におけるフ
ォルマントの急激な変化がなく、人間らしい自然な音声
が合成できる。さらに、同じ音韻系列でも複数のピッチ
レンジ・ピッチパターンの素片を用意しているので、ピ
ッチの変形量を少なくすることができ、信号処理による
歪の少ない肉声感のある自然な音声を合成できる。
【0028】また、音声素片は、日本語音声(文章)中
の出現頻度の高い音韻系列及びピッチレンジ・ピッチパ
ターンのものから順に作成していくので、高品質な音声
を合成できる最適な音声素片データベースを効率良く作
成することができる。また、音声合成システムの必要に
応じて、適当なところで音声素片の作成作業を打切るこ
とにより、必要なだけの音声素片数のみからなる最適な
音声素片データベースを構築することができる。
【0029】さらに、音声素片の出現頻度表を作成する
ために用いる日本語音声を十分な容量収集することは非
常に困難であるが、既存の音声合成システムに大量の日
本語テキストを入力して得られた合成音声を用いること
により、出現頻度表を作成するのに十分な容量の音声デ
ータを容易に得ることが可能となる。
【図面の簡単な説明】
【図1】本発明における音声素片の音韻形態の基本形を
示す説明図
【図2】本発明における音声素片の音韻形態の具体例を
示す説明図
【図3】本発明における音声素片データベースの一例を
示す説明図
【図4】本発明の音声素片データベース作成方法の実施
の形態の一例を示す流れ図
【図5】日本語音声データベースの構築を含めた音声素
片データベース作成方法の一例を示す流れ図
【図6】本発明による音声素片データベースを用いた音
声合成装置の一例を示す構成図
【符号の説明】
1:日本語音声データベース、2:音声素片データベー
ス、3:日本語テキストデータベース、4:音声合成
器、11:テキスト解析部、12:韻律生成部、13:
音声合成部、14:日本語辞書、15:韻律データベー
ス。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 阿部 匡伸 東京都新宿区西新宿3丁目19番2号 日本 電信電話株式会社内 (72)発明者 中嶌 信弥 東京都新宿区西新宿3丁目19番2号 日本 電信電話株式会社内 Fターム(参考) 5D045 AA07

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 音声素片を接続してテキストに対応する
    音声を合成する際の音声素片を登録した音声素片データ
    ベースを作成する方法において、 一つの子音とそれに続く母音の連続から構成され、かつ
    それらの前後の音韻を考慮した音韻形態を音声素片の基
    本単位とし、 音声から各音声素片について少なくとも一つのピッチレ
    ンジ及びピッチパターンを有するものを抽出して登録す
    ることを特徴とする音声素片データベース作成方法。
  2. 【請求項2】 大量の音声の音韻系列、ピッチパター
    ン、テンポ、ポーズ等の音響的な特徴量を統計分析して
    音声素片の出現頻度を求め、音声中に出現する頻度の高
    い音声素片から順に音声素片データベースに登録するこ
    とを特徴とする請求項1記載の音声素片データベース作
    成方法。
  3. 【請求項3】 音声素片の出現頻度を求めるための大量
    の音声として、テキストを既存の音声合成器に入力して
    得られる合成音声を用いることを特徴とする請求項2記
    載の音声素片データベース作成方法。
  4. 【請求項4】 音声素片を接続してテキストに対応する
    音声を合成する際の音声素片を登録した音声素片データ
    ベースを作成する方法において、 音声から音韻系列とピッチパターンを取り出し、一つの
    子音とそれに続く母音の連続から構成され、かつそれら
    の前後の音韻を考慮した音韻形態を基本単位とする音声
    素片に分割する過程と、 全ての音声素片から音韻系列及びピッチパターンが異な
    る音声素片毎にその出現頻度を算出する過程と、 出現頻度が高い音声素片から順に音声素片を抽出し、音
    韻ラベル及びピッチマークを付与して登録する過程とを
    有することを特徴とする音声素片データベース作成方
    法。
  5. 【請求項5】 音声素片を接続してテキストに対応する
    音声を合成する際の音声素片を登録した音声素片データ
    ベースを作成する装置において、 音声から音韻系列とピッチパターンを取り出し、一つの
    子音とそれに続く母音の連続から構成され、かつそれら
    の前後の音韻を考慮した音韻形態を基本単位とする音声
    素片に分割する手段と、 全ての音声素片から音韻系列及びピッチパターンが異な
    る音声素片毎にその出現頻度を算出する手段と、 出現頻度が高い音声素片から順に音声素片を抽出し、音
    韻ラベル及びピッチマークを付与して登録する手段とを
    備えたことを特徴とする音声素片データベース作成装
    置。
  6. 【請求項6】 請求項1乃至4いずれか記載の音声素片
    データベース作成方法もしくは請求項5記載の音声素片
    データベース作成装置によって作成された音声素片デー
    タベースを用いた音声合成方法であって、 入力されたテキストを解析し、読み仮名、アクセント、
    ポーズ等を付与する過程と、 音韻系列にピッチパターン等を付与する過程と、 音声素片データベースから、音声素片の音韻系列、一つ
    前及び一つ後の音韻環境、ピッチパターン等の属性が一
    致もしくは最も近いと判断できるものを取り出して順に
    接続し、信号処理して音声を合成する過程とを有するこ
    とを特徴とする音声合成方法。
  7. 【請求項7】 請求項1乃至4いずれか記載の音声素片
    データベース作成方法もしくは請求項5記載の音声素片
    データベース作成装置によって作成された音声素片デー
    タベースを用いた音声合成装置であって、 入力されたテキストを解析し、読み仮名、アクセント、
    ポーズ等を付与する手段と、 音韻系列にピッチパターン等を付与する手段と、 音声素片データベースから、音声素片の音韻系列、一つ
    前及び一つ後の音韻環境、ピッチパターン等の属性が一
    致もしくは最も近いと判断できるものを取り出して順に
    接続し、信号処理して音声を合成する手段とを備えたこ
    とを特徴とする音声合成装置。
JP11052177A 1999-03-01 1999-03-01 音声素片データベース作成方法及びその装置並びにこの音声素片データベースを用いた音声合成方法及びその装置 Pending JP2000250573A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11052177A JP2000250573A (ja) 1999-03-01 1999-03-01 音声素片データベース作成方法及びその装置並びにこの音声素片データベースを用いた音声合成方法及びその装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11052177A JP2000250573A (ja) 1999-03-01 1999-03-01 音声素片データベース作成方法及びその装置並びにこの音声素片データベースを用いた音声合成方法及びその装置

Publications (1)

Publication Number Publication Date
JP2000250573A true JP2000250573A (ja) 2000-09-14

Family

ID=12907540

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11052177A Pending JP2000250573A (ja) 1999-03-01 1999-03-01 音声素片データベース作成方法及びその装置並びにこの音声素片データベースを用いた音声合成方法及びその装置

Country Status (1)

Country Link
JP (1) JP2000250573A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003019528A1 (fr) * 2001-08-22 2003-03-06 International Business Machines Corporation Procede de production d'intonation, dispositif de synthese de signaux vocaux fonctionnant selon ledit procede et serveur vocal
KR20030060588A (ko) * 2002-01-10 2003-07-16 주식회사 현대오토넷 코퍼스 기반 음성 합성용 녹음 문장 선정을 위한 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003019528A1 (fr) * 2001-08-22 2003-03-06 International Business Machines Corporation Procede de production d'intonation, dispositif de synthese de signaux vocaux fonctionnant selon ledit procede et serveur vocal
KR20030060588A (ko) * 2002-01-10 2003-07-16 주식회사 현대오토넷 코퍼스 기반 음성 합성용 녹음 문장 선정을 위한 방법

Similar Documents

Publication Publication Date Title
US6778962B1 (en) Speech synthesis with prosodic model data and accent type
JP3408477B2 (ja) フィルタパラメータとソース領域において独立にクロスフェードを行う半音節結合型のフォルマントベースのスピーチシンセサイザ
US7233901B2 (en) Synthesis-based pre-selection of suitable units for concatenative speech
US20060259303A1 (en) Systems and methods for pitch smoothing for text-to-speech synthesis
EP2462586B1 (en) A method of speech synthesis
JPS62160495A (ja) 音声合成装置
JP3587048B2 (ja) 韻律制御方法及び音声合成装置
US20020069061A1 (en) Method and system for recorded word concatenation
US6829577B1 (en) Generating non-stationary additive noise for addition to synthesized speech
Bonafonte Cávez et al. A billingual texto-to-speech system in spanish and catalan
JPH0887297A (ja) 音声合成システム
JP2583074B2 (ja) 音声合成方法
JP2002525663A (ja) ディジタル音声処理装置及び方法
Chen et al. A first study on neural net based generation of prosodic and spectral information for Mandarin text-to-speech
JP2000250573A (ja) 音声素片データベース作成方法及びその装置並びにこの音声素片データベースを用いた音声合成方法及びその装置
Khalil et al. Arabic speech synthesis based on HMM
JPH08248993A (ja) 音韻時間長制御方法
JPH0580791A (ja) 音声規則合成装置および方法
JP3081300B2 (ja) 残差駆動型音声合成装置
Datta et al. Epoch Synchronous Overlap Add (ESOLA)
Leontiev et al. Improving the Quality of Speech Synthesis Using Semi-Syllabic Synthesis
KR100269215B1 (ko) 음성 합성을 위한 발화구의 기본 주파수 궤적 생성 방법
Chowdhury Concatenative Text-to-speech synthesis: A study on standard colloquial bengali
Datta et al. Epoch Synchronous Overlap Add (Esola) Algorithm
Demenko et al. The design of polish speech corpus for unit selection speech synthesis