JP2003295880A - 録音音声と合成音声を接続する音声合成システム - Google Patents

録音音声と合成音声を接続する音声合成システム

Info

Publication number
JP2003295880A
JP2003295880A JP2002093189A JP2002093189A JP2003295880A JP 2003295880 A JP2003295880 A JP 2003295880A JP 2002093189 A JP2002093189 A JP 2002093189A JP 2002093189 A JP2002093189 A JP 2002093189A JP 2003295880 A JP2003295880 A JP 2003295880A
Authority
JP
Japan
Prior art keywords
voice
data
character string
voice data
partial character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002093189A
Other languages
English (en)
Inventor
Wataru Imatake
渉 今竹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2002093189A priority Critical patent/JP2003295880A/ja
Priority to US10/307,998 priority patent/US20030187651A1/en
Publication of JP2003295880A publication Critical patent/JP2003295880A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 録音済みの音声データと合成された音声デー
タを接続して自然な音声データを生成する。 【解決手段】 解析手段42は、入力された文字列を解
析して、録音済み音声を用いる部分と合成音声を用いる
部分とを決定する。抽出手段43は、格納手段41から
録音済み音声を用いる部分のための音声データを取り出
し、その特徴量を抽出する。合成手段44は、合成音声
を用いる部分のための音声データを、抽出された特徴量
に合わせて合成し、出力手段45は、これらの音声デー
タを接続して出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、あらかじめ録音さ
れた音声データと合成された音声データを接続した音声
データを生成する音声合成システムに関する。
【0002】
【従来の技術】従来の音声合成システムでは、音声合成
によって作成した「音声合成データ」と、あらかじめ録
音済みの「蓄積データ」とが、シーケンシャルに接続さ
れて、1つの音声データが作成される。
【0003】図21は、このような音声データの例を示
している。図21において可変部11、13の音声デー
タは音声合成データに対応し、定型部12、14の音声
データは蓄積データに対応する。可変部11、定型部1
2、可変部13、および定型部14の音声データをシー
ケンシャルに接続することで、1つの音声データが作成
される。
【0004】図22は、従来の音声合成システムの構成
図である。図22の音声合成システムは、文字列解析部
21、蓄積データ取り出し部22、蓄積データベース2
3、音声合成データ作成部24、波形辞書25、および
波形接続部26を備える。
【0005】文字列解析部21は、入力された文字列3
1のうち、どの部分に対して蓄積データを用いるか、ど
の部分に対して音声合成データを用いるかを決定する。
蓄積データ取り出し部22は、蓄積データベース23か
ら必要な蓄積データ32を取り出し、音声合成データ作
成部24は、波形辞書25から波形データを取り出して
音声合成データ33を作成する。そして、波形接続部2
6は、入力された蓄積データ32と音声合成データ33
を接続して、音声データ34を作成する。
【0006】このように蓄積データと音声合成データを
接続して音声データを生成する方法の他に、蓄積データ
または音声合成データのみを用いて、入力された文字列
の音声データを生成する方法もある。これらの方法の特
徴をまとめると、図23のようになる。
【0007】音声合成データのみの方法では、音声デー
タのバリエーションは多く、作成工数は少ないというメ
リットがあるが、蓄積データに比較して音質が低くな
る。逆に、蓄積データのみの方法では、音質は高いとい
うメリットがあるが、バリエーションは少なくなり、作
成工数が多くなる。
【0008】これに対して、両方のデータを併用する方
法のメリットは、定型文章の一部の単語を入れ替えてさ
まざまな音声データを作成する場合、蓄積データを使用
する部分については音質を保証しやすく、かつ、録音作
業と作成可能な音声データのバリエーションのバランス
が優れている点にある。
【0009】
【発明が解決しようとする課題】しかしながら、従来の
音声合成システムには、次のような問題がある。図22
の音声合成システムにおいては、音声合成データと蓄積
データが単純にシーケンシャルに接続されるだけであ
る。波形辞書の波形データの元となる収録音声と蓄積デ
ータの収録音声は、通常、別々のナレーターによるもの
となることが多く、このため、音声合成データと蓄積デ
ータの間に音質の不連続性が生じてしまう。したがっ
て、これらを単純に接続しただけでは、全体に自然な音
声データが得られない。
【0010】本発明の課題は、録音済みの音声データと
合成された音声データを接続して自然な音声データを生
成する音声合成システムを提供することである。
【0011】
【課題を解決するための手段】図1は、本発明の音声合
成システムの原理図である。図1の音声合成システム
は、格納手段41、解析手段42、抽出手段43、合成
手段44、および出力手段45を備える。
【0012】格納手段41は、複数の部分文字列のそれ
ぞれに対応して録音済みの音声データを格納し、解析手
段42は、入力された文字列を解析して、録音済み音声
を用いる部分文字列と合成音声を用いる部分文字列とを
決定する。抽出手段43は、格納手段41から録音済み
音声を用いる部分文字列のための音声データを取り出
し、取り出された音声データの特徴量を抽出する。合成
手段44は、合成音声を用いる部分文字列のための音声
データを、抽出された特徴量に合わせて合成し、出力手
段45は、取り出された音声データと合成された音声デ
ータを接続して出力する。
【0013】解析手段42は、入力された文字列のう
ち、録音済み音声を用いる部分文字列を抽出手段43に
渡し、合成音声を用いる部分文字列を合成手段44に渡
す。抽出手段43は、解析手段42から受け取った部分
文字列に対応する音声データを格納手段41から取り出
し、その音声データの特徴量を抽出して合成手段44に
渡す。合成手段44は、解析手段42から受け取った部
分文字列に対応する音声データを、抽出手段43から受
け取った特徴量に合わせて合成する。そして、出力手段
45は、抽出手段43が取り出した音声データと合成手
段44が合成した音声データを接続して出力音声データ
を生成し、そのデータを出力する。
【0014】このような音声合成システムによれば、録
音済みの音声データと合成された音声データの特徴量の
差異が小さくなるため、これらの音声データの不連続性
が少なくなる。したがって、より自然な音声データを再
生することができる。
【0015】図1の格納手段41は、例えば、後述する
図2、4、および6の蓄積データベース53に対応し、
解析手段42は、例えば、図2、4、および6の文字列
解析部51に対応する。また、抽出手段43は、例え
ば、図2、4、および6の蓄積データ取り出し部52
と、図2のピッチ計測部54、図4のボリューム計測部
71、および図6のスピード計測部81に対応する。ま
た、合成手段44は、例えば、図2、4、および6の音
声合成データ作成部56に対応し、出力手段45は、例
えば、図2、4、および6の波形接続部58に対応す
る。
【0016】
【発明の実施の形態】以下、図面を参照しながら、本発
明の実施の形態を詳細に説明する。本実施形態のハイブ
リッド音声合成システムでは、音声合成データを生成す
る前に、蓄積データとして用いる音声データの特徴量を
あらかじめ抽出しておき、その特徴量にあわせて音声合
成データを生成する。これにより、最終的に生成される
音声データの音質の不連続性を減少させることができ
る。
【0017】音声データの特徴量としては、ベースピッ
チ、ボリューム、スピード等が用いられる。ベースピッ
チは、音声の高さを表し、ボリュームは、音声のパワー
を表し、スピードは、音声の発話速度を表す。
【0018】例えば、蓄積データから抽出されたベース
ピッチ周波数を、音声合成のパラメータとして用いるこ
とにより、そのベースピッチ周波数に合わせた音声合成
データを作成することができる。これにより、同じベー
スピッチ周波数を持つ音声合成データと蓄積データとを
シーケンシャルに接続することができ、最終的に生成さ
れる音声データのベースピッチ周波数が統一される。し
たがって、音声合成データと蓄積データとの間の音質の
差異が少なくなり、より自然な音声データが得られる。
【0019】また、蓄積データから抽出されたボリュー
ムを、音声合成のパラメータとして用いることにより、
そのボリュームに合わせた音声合成データを作成するこ
とができる。この場合、最終的に生成される音声データ
のボリュームが統一され、音声合成データと蓄積データ
との間の音質の差異が少なくなる。
【0020】また、蓄積データから抽出されたスピード
を、音声合成のパラメータとして用いることにより、そ
のスピードに合わせた音声合成データを作成することが
できる。この場合、最終的に生成される音声データのス
ピードが統一され、音声合成データと蓄積データとの間
の音質の差異が少なくなる。
【0021】図2は、ベースピッチ周波数を特徴量とし
て用いたハイブリッド音声合成システムの構成図であ
る。図2の音声合成システムは、文字列解析部51、蓄
積データ取り出し部52、蓄積データベース53、ピッ
チ計測部54、ピッチ設定部55、音声合成データ作成
部56、波形辞書57、および波形接続部58を備え
る。
【0022】蓄積データベース53は、録音済みの音声
データ(蓄積データ)と文字列とが対となって格納され
ているデータベースであり、波形辞書57は、音素単位
の波形データが格納されているデータベースである。
【0023】文字列解析部51は、入力された文字列6
1のうち、どの部分に対して蓄積データを用いるか、ど
の部分に対して音声合成データを用いるかを決定して、
決定された部分文字列に応じて蓄積データ取り出し部5
2あるいは音声合成データ作成部56を呼び出す。
【0024】蓄積データ取り出し部52は、文字列61
の部分文字列に対応する蓄積データ62を蓄積データベ
ース53から取り出し、ピッチ計測部54は、蓄積デー
タ62のベースピッチ周波数を計測して、ピッチデータ
63を出力する。ピッチ設定部55は、入力されたピッ
チデータ63のベースピッチ周波数を音声合成データ作
成部56に設定する。
【0025】音声合成データ作成部56は、文字列61
の部分文字列と設定されたベースピッチ周波数を元に、
波形辞書57から対応する波形データを取り出して音声
合成データ64を作成する。そして、波形接続部58
は、入力された蓄積データ62と音声合成データ64を
接続して音声データ65を作成し、それを出力する。
【0026】図3は、図2の音声合成システムによる音
声合成処理の一例を示すフローチャートである。まず、
文字列解析部51に対して文字列61が入力されると
(ステップS1)、文字列解析部51は、現在の文字位
置を示すポインタを入力文字列の先頭文字に設定し(ス
テップS2)、ポインタが文字列の末尾を指しているか
否かをチェックする(ステップS3)。ポインタが文字
列の末尾を指していれば、入力文字列のすべての文字に
ついて、蓄積データとのマッチング処理が終了したこと
になる。
【0027】ポインタが末尾を指していなければ、蓄積
データ取り出し部52を呼び出し、現在の文字位置から
蓄積データにマッチする文字列を検索して(ステップS
4)、蓄積データと部分文字列がマッチするか否かをチ
ェックする(ステップS5)。蓄積データと部分文字列
がマッチしなければ、ポインタを一文字分だけ後ろにシ
フトして(ステップS6)、ステップS3以降の処理を
繰り返すことで、次にマッチする文字列を調べる。
【0028】ステップS5において蓄積データと部分文
字列がマッチすれば、蓄積データ取り出し部52は、蓄
積データベース53から対応する蓄積データ62を取り
出す(ステップS7)。そして、文字列解析部51は、
ポインタをマッチした文字列長分だけ後ろにシフトして
(ステップS8)、ステップS3以降の処理を繰り返す
ことで、次にマッチする文字列を調べる。
【0029】ステップS3においてポインタが末尾を指
していれば、マッチング処理を終了し、次に、ピッチ計
測部54は、蓄積データとして取り出されたデータがあ
るか否かをチェックする(ステップS9)。蓄積データ
が取り出されていれば、取り出されたすべての蓄積デー
タについてベースピッチ周波数を計測し、その平均値を
計算する(ステップS10)。そして、得られた平均値
を、ピッチデータ63としてピッチ設定部55に出力す
る。
【0030】ピッチ設定部55は、ベースピッチ周波数
の平均値を、音声合成のパラメータとして音声合成デー
タ作成部56に設定し(ステップS11)、音声合成デ
ータ作成部56は、蓄積データとマッチしなかった文字
列について、設定されたベースピッチ周波数を有する音
声合成データ64を作成する(ステップS12)。そし
て、波形接続部58は、得られた蓄積データ62と音声
合成データ64を接続して音声データを作成し、それを
出力する(ステップS13)。
【0031】ステップS9において蓄積データがなけれ
ば、ステップS12以降の処理が行われ、音声合成デー
タ64のみを用いて音声データが作成される。次に、図
4は、ボリュームを特徴量として用いたハイブリッド音
声合成システムの構成図である。図4において、図2と
同様の構成要素については、図2と同じ符号が付されて
いる。この場合、図2のピッチ計測部54およびピッチ
設定部55の代わりに、ボリューム計測部71およびボ
リューム設定部73が設けられ、例えば、図5に示すよ
うな音声合成処理が行われる。
【0032】図5において、ステップS21〜S29、
S32、およびS33の処理は、図3のステップS1〜
S9、S12、およびS13の処理と同様である。ステ
ップS29において蓄積データが取り出されていれば、
ボリューム計測部71は、取り出されたすべての蓄積デ
ータについてボリュームを計測し、その平均値を計算す
る(ステップS30)。そして、得られた平均値を、ボ
リュームデータ72としてボリューム設定部73に出力
する。
【0033】ボリューム設定部73は、ボリュームの平
均値を、音声合成のパラメータとして音声合成データ作
成部56に設定し(ステップS31)、音声合成データ
作成部56は、蓄積データとマッチしなかった文字列に
ついて、設定されたボリュームを有する音声合成データ
64を作成する(ステップS32)。
【0034】また、図6は、スピードを特徴量として用
いたハイブリッド音声合成システムの構成図である。図
6において、図2と同様の構成要素については、図2と
同じ符号が付されている。この場合、図2のピッチ計測
部54およびピッチ設定部55の代わりに、スピード計
測部81およびスピード設定部83が設けられ、例え
ば、図7に示すような音声合成処理が行われる。
【0035】図7において、ステップS41〜S49、
S52、およびS53の処理は、図3のステップS1〜
S9、S12、およびS13の処理と同様である。ステ
ップS49において蓄積データが取り出されていれば、
スピード計測部81は、取り出されたすべての蓄積デー
タについてスピードを計測し、その平均値を計算する
(ステップS50)。そして、得られた平均値を、スピ
ードデータ82としてスピード設定部83に出力する。
【0036】スピード設定部83は、スピードの平均値
を、音声合成のパラメータとして音声合成データ作成部
56に設定し(ステップS51)、音声合成データ作成
部56は、蓄積データとマッチしなかった文字列につい
て、設定されたスピードを有する音声合成データ64を
作成する(ステップS52)。
【0037】図3のステップS10において、ピッチ計
測部54は、すべての蓄積データのベースピッチ周波数
の平均値をピッチデータ63として出力しているが、他
の方法でピッチデータを求めることも可能である。例え
ば、複数のベースピッチ周波数から所定の方法で選択さ
れた値(最大値、最小値等)や、複数のベースピッチ周
波数から所定の演算方法で算出された値を、ピッチデー
タとしてもよい。図5のステップS30におけるボリュ
ームデータ72の生成方法と、図7のステップS50に
おけるスピードデータ82の生成方法についても同様で
ある。
【0038】また、図2、4、および6のシステムで
は、蓄積データの1つの特徴量を音声合成のパラメータ
として用いているが、2つ以上の特徴量を用いたシステ
ムを構成することも可能である。例えば、ベースピッチ
周波数、ボリューム、およびスピードの3つの特徴量を
用いた場合、蓄積データからこれらの特徴量が抽出さ
れ、音声合成データ作成部56に設定される。そして、
音声合成データ作成部56は、設定されたベースピッチ
周波数、ボリューム、およびスピードを有する音声合成
データを作成する。
【0039】次に、図8から図18までを参照しなが
ら、ピッチ計測部54、ボリューム計測部71、スピー
ド計測部81、および音声合成データ作成部56の処理
の具体例を説明する。
【0040】まず、ピッチ計測部54は、例えば、ピッ
チの分布を元に蓄積データのベースピッチ周波数を計算
する。ピッチの分布を求める方法としては、自己相関に
よる方法や、スペクトルを検出してケプストラムに変換
することにより求める方法等が広く知られている。以下
では、一例として、自己相関による方法を簡単に説明す
る。
【0041】蓄積データは、例えば、図8に示すような
波形データである。図8において、横軸は時間を表し、
縦軸は音声のレベルを表す。このような波形データを任
意のフレームで区切り、そのフレームを元の位置から任
意の長さだけ時間軸方向の前方(左)にずらした位置か
ら、1サンプルずつ前に移動しながら、そのフレームの
データと移動先の位置に元から存在するデータとの相関
値を計算する。具体的には以下のようになる。
【0042】図9は、フレームサイズを0.005秒と
し、先頭から4つ目のフレーム91に注目したことを示
している。もし、先頭フレームに注目する場合は、先頭
フレームの前方にゼロデータが存在することを前提とし
て計算を行う。
【0043】図10は、注目フレーム91との相関を取
る対象フレーム92を示している。この対象フレーム9
2は、元のフレーム91を任意のサンプル数(通常フレ
ームサイズより小さい)だけ前にずらした領域に対応
し、そのサイズはフレームサイズと等しい。
【0044】次に、注目フレーム91と対象フレーム9
2の間で自己相関を計算する。自己相関は、注目フレー
ム91の各サンプルの値と対象フレーム92の各サンプ
ルの値を乗算した結果を、1つのフレームに含まれる全
サンプル数分加算し、加算結果を注目フレーム91のパ
ワー(サンプルの二乗和を加算して時間で割ったもの)
および対象フレーム92のパワーで割った値である。こ
の自己相関は、±1の範囲内の浮動小数点で表される。
【0045】相関計算が終わると、図11に示すよう
に、対象フレーム92を1サンプル分時間軸方向の前方
にずらし、同様に自己相関を計算する。ただし、図11
では、便宜的に1サンプル以上前にずれたフレームが示
されている。
【0046】このような処理を、対象フレーム92を任
意の位置nまで移動しながら繰り返すことにより、図1
2のような自己相関の配列が得られる。この自己相関の
配列の中から、自己相関の値が最大となった対象フレー
ム92の位置をピッチ位置として抽出する。
【0047】同様の処理を、注目フレーム91を後ろに
ずらしながら繰り返すことにより、注目フレーム91の
各位置におけるピッチ位置が計算され、図13のような
ピッチの分布が求められる。
【0048】次に、得られたピッチの分布に対して、正
常にピッチ位置が抽出されていないデータを除くため、
統計的に最小値から+5%の範囲および最大値から−5
%の範囲に含まれるデータを破棄する。そして、残され
たデータの中央に位置するピッチ位置に対応する周波数
を、ベースピッチ周波数として算出する。
【0049】ボリューム計測部71は、蓄積データのボ
リュームの平均値を計算する。例えば、蓄積データの各
サンプルの二乗をすべて加算(二乗和)して蓄積データ
の時間で割った値を、対数表現とすれば、dB(デシベ
ル)単位のボリュームが求められる。
【0050】しかし、実際の蓄積データは、図14に示
すように、多くの無音部分を含んでいる。図5の蓄積デ
ータでは、データの先頭および末尾の部分と、最後のデ
ータの塊の直前が無音部分に対応する。このようなデー
タをそのまま処理すると、同じ発声内容であっても、無
音部分を多く含む蓄積データのボリューム値は低くな
り、無音部分をほとんど含まない蓄積データのボリュー
ム値は高くなってしまう。
【0051】このような現象を防ぐため、通常は、蓄積
データの全サンプルについて二乗和を求めるのではな
く、有音部分についてのみ二乗和を求め、その値を有音
部分の時間長で除算する、といった処理を入れることが
多い。
【0052】スピード計測部81は、蓄積データのスピ
ードを計算する。音声のスピードは、1秒間あたりのモ
ーラ数やシラブル数等で表現される。例えば、日本語の
場合はモーラ数が用いられ、英語の場合はシラブル数が
用いられる。
【0053】スピードを求めるには、対象となる蓄積デ
ータの読み文字列が判明していればよい。読み文字列
は、通常、入力された文字列に対して音声合成の言語処
理を行うことにより得ることができる。
【0054】例えば、図15ような蓄積データの発声内
容が日本語の「松原」の場合、音声合成の言語処理によ
り、読み文字列「マツバラ」を得ることが出来る。「マ
ツバラ」は4モーラであり、図15の蓄積データの長さ
は約0.75秒なので、除算により、スピードは約5.
3モーラ/秒となる。
【0055】音声合成データ作成部56は、設定された
ベースピッチ周波数、ボリューム、スピード等のパラメ
ータに合わせて音声合成を行う。ここでは、一例とし
て、ベースピッチ周波数に合わせて音声合成を行う処理
を説明する。
【0056】音声合成にはさまざまな方法があるが、こ
こでは、波形接続方式の音声合成について簡単に説明す
る。この方法では、あらかじめ各音素の波形データを波
形辞書として保持し、それらの音素波形を入力文字列に
応じて接続することにより、音声合成データが生成され
る。
【0057】音素の波形は、例えば、図16のような波
形である。図16は、音素「マ」の波形を表しており、
「マ」の子音に相当する部分は、図17に示されている
領域93である。残りの部分は、「マ」の母音である
「ア」に相当する波形の繰り返しとなる。
【0058】波形接続方式では、例えば、図17の領域
93に相当する波形と、図18に示すような「マ」の母
音部分の1周期分の領域94に相当する音声波形とを用
意しておく。そして、生成したい音声データに応じて、
これらの波形を接続する。
【0059】このとき、音声データのピッチ(音声の高
さ)は、複数の母音部分を配置する間隔によって変動
し、間隔が狭いほどピッチは高くなり、間隔が広いほど
ピッチは低くなる。この間隔の逆数をピッチ周波数とい
う。ピッチ周波数は、個人毎に特有のベースピッチ周波
数に、読み上げる文章の内容によって決定されるフレー
ズ成分、アクセント成分、および文末成分をそれぞれ加
算することによって、求めることができる。
【0060】したがって、ベースピッチ周波数があらか
じめ与えられている場合、そのベースピッチ周波数から
計算されるピッチ周波数を求め、ピッチ周波数に応じて
音素波形を配置することにより、ベースピッチ周波数を
合わせた音声合成データが生成される。
【0061】ピッチ計測部54、ボリューム計測部7
1、およびスピード計測部81の計測方法と音声合成デ
ータ作成部56の音声合成方法は上述した方法には限ら
れず、他の任意のアルゴリズム採用することができる。
【0062】また、本発明の音声合成処理は、日本語文
字列だけでなく、英語、ドイツ語、フランス語、中国
語、韓国語を含むあらゆる言語の文字列に対して適用で
きる。ところで、図2、4、および6の音声合成システ
ムは、例えば、図19に示すような情報処理装置(コン
ピュータ)を用いて構成される。図19の情報処理装置
は、CPU(中央処理装置)101、メモリ102、入
力装置103、出力装置104、外部記憶装置105、
媒体駆動装置106、およびネットワーク接続装置10
7を備え、それらはバス108により互いに接続されて
いる。
【0063】メモリ102は、例えば、ROM(read o
nly memory)、RAM(random access memory)等を含
み、処理に用いられるプログラムとデータを格納する。
CPU101は、メモリ102を利用してプログラムを
実行することにより、必要な処理を行う。
【0064】この場合、図2の文字列解析部51、蓄積
データ取り出し部52、ピッチ計測部54、ピッチ設定
部55、音声合成データ作成部56、および波形接続部
58と、図4のボリューム計測部71およびボリューム
設定部73と、図6のスピード計測部81およびスピー
ド設定部83は、メモリ102に格納されたプログラム
に対応する。
【0065】入力装置103は、例えば、キーボード、
ポインティングデバイス、タッチパネル等であり、オペ
レータからの指示や情報の入力に用いられる。出力装置
104は、例えば、スピーカ等であり、音声データの出
力に用いられる。
【0066】外部記憶装置105は、例えば、磁気ディ
スク装置、光ディスク装置、光磁気ディスク装置、テー
プ装置等である。情報処理装置は、この外部記憶装置1
05に、上述のプログラムとデータを保存しておき、必
要に応じて、それらをメモリ102にロードして使用す
る。また、外部記憶装置105は、図2の蓄積データベ
ース53および波形辞書57のデータを格納するために
も用いられる。
【0067】媒体駆動装置106は、可搬記録媒体10
9を駆動し、その記録内容にアクセスする。可搬記録媒
体109としては、メモリカード、フレキシブルディス
ク、CD−ROM(compact disk read only memory
)、光ディスク、光磁気ディスク等、任意のコンピュ
ータ読み取り可能な記録媒体が用いられる。オペレータ
は、この可搬記録媒体109に上述のプログラムとデー
タを格納しておき、必要に応じて、それらをメモリ10
2にロードして使用する。
【0068】ネットワーク接続装置107は、LAN
(local area network)等の任意の通信ネットワークに
接続され、通信に伴うデータ変換を行う。情報処理装置
は、上述のプログラムとデータをネットワーク接続装置
107を介して他の装置から受け取り、必要に応じて、
それらをメモリ102にロードして使用する。
【0069】図20は、図19の情報処理装置にプログ
ラムとデータを供給することのできるコンピュータ読み
取り可能な記録媒体を示している。可搬記録媒体109
やサーバ110のデータベース111に保存されたプロ
グラムとデータは、メモリ102にロードされる。この
とき、サーバ110は、プログラムとデータを搬送する
搬送信号を生成し、ネットワーク上の任意の伝送媒体を
介して情報処理装置に送信する。そして、CPU101
は、そのデータを用いてそのプログラムを実行し、必要
な処理を行う。 (付記1) 複数の部分文字列のそれぞれに対応して録
音済みの音声データを格納する格納手段と、入力された
文字列を解析して、録音済み音声を用いる部分文字列と
合成音声を用いる部分文字列とを決定する解析手段と、
前記格納手段から前記録音済み音声を用いる部分文字列
のための音声データを取り出し、取り出された音声デー
タの特徴量を抽出する抽出手段と、前記合成音声を用い
る部分文字列のための音声データを、抽出された特徴量
に合わせて合成する合成手段と、前記取り出された音声
データと合成された音声データを接続して出力する出力
手段とを備えることを特徴とする音声合成システム。 (付記2) 複数の部分文字列のそれぞれに対応して録
音済みの音声データを格納する格納手段と、入力された
文字列を解析して、録音済み音声を用いる部分文字列と
合成音声を用いる部分文字列とを決定する解析手段と、
前記格納手段から前記録音済み音声を用いる部分文字列
のための音声データを取り出し、取り出された音声デー
タのベースピッチを抽出する抽出手段と、前記合成音声
を用いる部分文字列のための音声データを、抽出された
ベースピッチに合わせて合成する合成手段と、前記取り
出された音声データと合成された音声データを接続して
出力する出力手段とを備えることを特徴とする音声合成
システム。 (付記3) 複数の部分文字列のそれぞれに対応して録
音済みの音声データを格納する格納手段と、入力された
文字列を解析して、録音済み音声を用いる部分文字列と
合成音声を用いる部分文字列とを決定する解析手段と、
前記格納手段から前記録音済み音声を用いる部分文字列
のための音声データを取り出し、取り出された音声デー
タのボリュームを抽出する抽出手段と、前記合成音声を
用いる部分文字列のための音声データを、抽出されたボ
リュームに合わせて合成する合成手段と、前記取り出さ
れた音声データと合成された音声データを接続して出力
する出力手段とを備えることを特徴とする音声合成シス
テム。 (付記4) 複数の部分文字列のそれぞれに対応して録
音済みの音声データを格納する格納手段と、入力された
文字列を解析して、録音済み音声を用いる部分文字列と
合成音声を用いる部分文字列とを決定する解析手段と、
前記格納手段から前記録音済み音声を用いる部分文字列
のための音声データを取り出し、取り出された音声デー
タのスピードを抽出する抽出手段と、前記合成音声を用
いる部分文字列のための音声データを、抽出されたスピ
ードに合わせて合成する合成手段と、前記取り出された
音声データと合成された音声データを接続して出力する
出力手段とを備えることを特徴とする音声合成システ
ム。 (付記5) 複数の部分文字列のそれぞれに対応して録
音済みの音声データを格納する格納手段と、入力された
文字列を解析して、録音済み音声を用いる部分文字列と
合成音声を用いる部分文字列とを決定する解析手段と、
前記格納手段から前記録音済み音声を用いる部分文字列
のための音声データを取り出し、取り出された音声デー
タのベースピッチ、ボリューム、およびスピードを抽出
する抽出手段と、前記合成音声を用いる部分文字列のた
めの音声データを、抽出されたベースピッチ、ボリュー
ム、およびスピードに合わせて合成する合成手段と、前
記取り出された音声データと合成された音声データを接
続して出力する出力手段とを備えることを特徴とする音
声合成システム。 (付記6) 入力された文字列を解析して、録音済み音
声を用いる部分文字列と合成音声を用いる部分文字列と
を決定し、複数の部分文字列のそれぞれに対応して録音
済みの音声データの中から、前記録音済み音声を用いる
部分文字列のための音声データを取り出し、取り出され
た音声データの特徴量を抽出し、前記合成音声を用いる
部分文字列のための音声データを、抽出された特徴量に
合わせて合成し、前記取り出された音声データと合成さ
れた音声データを接続して出力する処理をコンピュータ
に実行させるためのプログラム。 (付記7) コンピュータのためのプログラムを記録し
た記録媒体であって、該プログラムは、入力された文字
列を解析して、録音済み音声を用いる部分文字列と合成
音声を用いる部分文字列とを決定し、複数の部分文字列
のそれぞれに対応して録音済みの音声データの中から、
前記録音済み音声を用いる部分文字列のための音声デー
タを取り出し、取り出された音声データの特徴量を抽出
し、前記合成音声を用いる部分文字列のための音声デー
タを、抽出された特徴量に合わせて合成し、前記取り出
された音声データと合成された音声データを接続して出
力する処理を前記コンピュータに実行させることを特徴
とするコンピュータ読み取り可能なプログラム。 (付記8) プログラムをコンピュータに搬送する搬送
信号であって、該プログラムは、入力された文字列を解
析して、録音済み音声を用いる部分文字列と合成音声を
用いる部分文字列とを決定し、複数の部分文字列のそれ
ぞれに対応して録音済みの音声データの中から、前記録
音済み音声を用いる部分文字列のための音声データを取
り出し、取り出された音声データの特徴量を抽出し、前
記合成音声を用いる部分文字列のための音声データを、
抽出された特徴量に合わせて合成し、前記取り出された
音声データと合成された音声データを接続して出力する
処理を前記コンピュータに実行させることを特徴とする
搬送信号。 (付記9) 入力された文字列を解析して、録音済み音
声を用いる部分文字列と合成音声を用いる部分文字列と
を決定し、複数の部分文字列のそれぞれに対応して録音
済みの音声データの中から、前記録音済み音声を用いる
部分文字列のための音声データを取り出し、取り出され
た音声データの特徴量を抽出し、前記合成音声を用いる
部分文字列のための音声データを、抽出された特徴量に
合わせて合成し、前記取り出された音声データと合成さ
れた音声データを接続して出力することを特徴とする音
声合成方法。
【0070】
【発明の効果】本発明によれば、録音済みの音声データ
と合成された音声データの間で音質の不連続性が少なく
なり、より自然な音声データを再生することができる。
【図面の簡単な説明】
【図1】本発明の音声合成システムの原理図である。
【図2】本発明の第1の音声合成システムの構成図であ
る。
【図3】第1の音声合成処理のフローチャートである。
【図4】本発明の第2の音声合成システムの構成図であ
る。
【図5】第2の音声合成処理のフローチャートである。
【図6】本発明の第3の音声合成システムの構成図であ
る。
【図7】第3の音声合成処理のフローチャートである。
【図8】第1の蓄積データを示す図である。
【図9】注目フレームを示す図である。
【図10】第1の対象フレームを示す図である。
【図11】第2の対象フレームを示す図である。
【図12】自己相関の配列を示す図である。
【図13】ピッチの分布を示す図である。
【図14】第2の蓄積データを示す図である。
【図15】第3の蓄積データを示す図である。
【図16】「マ」の音声波形を示す図である。
【図17】「マ」の子音部分を示す図である。
【図18】「マ」の母音部分を示す図である。
【図19】情報処理装置の構成図である。
【図20】記録媒体を示す図である。
【図21】音声データの例を示す図である。
【図22】従来の音声合成システムの構成図である。
【図23】従来の音声データの特徴を示す図である。
【符号の説明】
11、13 可変部 12、14 定型部 21、51 文字列解析部 22、52 蓄積データ取り出し部 23、53 蓄積データベース 24、56 音声合成データ作成部 25、57 波形辞書 26、58 波形接続部 31、61 文字列 32、62 蓄積データ 33、64 音声合成データ 34、65 音声データ 54 ピッチ計測部 55 ピッチ設定部 63 ピッチデータ 71 ボリューム計測部 72 ボリュームデータ 73 ボリューム設定部 81 スピード計測部 82 スピードデータ 83 スピード設定部 91 注目フレーム 92 対象フレーム 93、94 領域 101 CPU 102 メモリ 103 入力装置 104 出力装置 105 外部記憶装置 106 媒体駆動装置 107 ネットワーク接続装置 108 バス 109 可搬記録媒体 110 サーバ 111 データベース

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 複数の部分文字列のそれぞれに対応して
    録音済みの音声データを格納する格納手段と、 入力された文字列を解析して、録音済み音声を用いる部
    分文字列と合成音声を用いる部分文字列とを決定する解
    析手段と、 前記格納手段から前記録音済み音声を用いる部分文字列
    のための音声データを取り出し、取り出された音声デー
    タの特徴量を抽出する抽出手段と、 前記合成音声を用いる部分文字列のための音声データ
    を、抽出された特徴量に合わせて合成する合成手段と、 前記取り出された音声データと合成された音声データを
    接続して出力する出力手段とを備えることを特徴とする
    音声合成システム。
  2. 【請求項2】 複数の部分文字列のそれぞれに対応して
    録音済みの音声データを格納する格納手段と、 入力された文字列を解析して、録音済み音声を用いる部
    分文字列と合成音声を用いる部分文字列とを決定する解
    析手段と、 前記格納手段から前記録音済み音声を用いる部分文字列
    のための音声データを取り出し、取り出された音声デー
    タのベースピッチを抽出する抽出手段と、 前記合成音声を用いる部分文字列のための音声データ
    を、抽出されたベースピッチに合わせて合成する合成手
    段と、 前記取り出された音声データと合成された音声データを
    接続して出力する出力手段とを備えることを特徴とする
    音声合成システム。
  3. 【請求項3】 複数の部分文字列のそれぞれに対応して
    録音済みの音声データを格納する格納手段と、 入力された文字列を解析して、録音済み音声を用いる部
    分文字列と合成音声を用いる部分文字列とを決定する解
    析手段と、 前記格納手段から前記録音済み音声を用いる部分文字列
    のための音声データを取り出し、取り出された音声デー
    タのボリュームを抽出する抽出手段と、 前記合成音声を用いる部分文字列のための音声データ
    を、抽出されたボリュームに合わせて合成する合成手段
    と、 前記取り出された音声データと合成された音声データを
    接続して出力する出力手段とを備えることを特徴とする
    音声合成システム。
  4. 【請求項4】 複数の部分文字列のそれぞれに対応して
    録音済みの音声データを格納する格納手段と、 入力された文字列を解析して、録音済み音声を用いる部
    分文字列と合成音声を用いる部分文字列とを決定する解
    析手段と、 前記格納手段から前記録音済み音声を用いる部分文字列
    のための音声データを取り出し、取り出された音声デー
    タのスピードを抽出する抽出手段と、 前記合成音声を用いる部分文字列のための音声データ
    を、抽出されたスピードに合わせて合成する合成手段
    と、 前記取り出された音声データと合成された音声データを
    接続して出力する出力手段とを備えることを特徴とする
    音声合成システム。
  5. 【請求項5】 入力された文字列を解析して、録音済み
    音声を用いる部分文字列と合成音声を用いる部分文字列
    とを決定し、 複数の部分文字列のそれぞれに対応して録音済みの音声
    データの中から、前記録音済み音声を用いる部分文字列
    のための音声データを取り出し、 取り出された音声データの特徴量を抽出し、 前記合成音声を用いる部分文字列のための音声データ
    を、抽出された特徴量に合わせて合成し、 前記取り出された音声データと合成された音声データを
    接続して出力する処理をコンピュータに実行させるため
    のプログラム。
JP2002093189A 2002-03-28 2002-03-28 録音音声と合成音声を接続する音声合成システム Pending JP2003295880A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2002093189A JP2003295880A (ja) 2002-03-28 2002-03-28 録音音声と合成音声を接続する音声合成システム
US10/307,998 US20030187651A1 (en) 2002-03-28 2002-12-03 Voice synthesis system combining recorded voice with synthesized voice

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002093189A JP2003295880A (ja) 2002-03-28 2002-03-28 録音音声と合成音声を接続する音声合成システム

Publications (1)

Publication Number Publication Date
JP2003295880A true JP2003295880A (ja) 2003-10-15

Family

ID=28449648

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002093189A Pending JP2003295880A (ja) 2002-03-28 2002-03-28 録音音声と合成音声を接続する音声合成システム

Country Status (2)

Country Link
US (1) US20030187651A1 (ja)
JP (1) JP2003295880A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006080149A1 (ja) * 2005-01-25 2006-08-03 Matsushita Electric Industrial Co., Ltd. 音復元装置および音復元方法
WO2006134736A1 (ja) * 2005-06-16 2006-12-21 Matsushita Electric Industrial Co., Ltd. 音声合成装置、音声合成方法およびプログラム
EP2093755A2 (en) 2008-02-20 2009-08-26 NTT DoCoMo, Inc. Communication system for building speech database for speech synthesis, relay device therefor, and relay method therefor
WO2010004978A1 (ja) 2008-07-11 2010-01-14 株式会社エヌ・ティ・ティ・ドコモ 音声合成モデル生成装置、音声合成モデル生成システム、通信端末、及び音声合成モデル生成方法
JP2010032978A (ja) * 2008-07-31 2010-02-12 Hitachi Ltd 音声メッセージ作成装置及び方法
JP2018128607A (ja) * 2017-02-09 2018-08-16 ヤマハ株式会社 音声処理方法および音声処理装置
JP2022539914A (ja) * 2019-09-17 2022-09-13 北京京▲東▼尚科信息技▲術▼有限公司 音声合成方法及び装置、記憶媒体
JP7372402B2 (ja) 2021-08-18 2023-10-31 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 音声合成方法、装置、電子機器及び記憶媒体

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4516863B2 (ja) * 2005-03-11 2010-08-04 株式会社ケンウッド 音声合成装置、音声合成方法及びプログラム
JP2008225254A (ja) * 2007-03-14 2008-09-25 Canon Inc 音声合成装置及び方法並びにプログラム
US8027835B2 (en) * 2007-07-11 2011-09-27 Canon Kabushiki Kaisha Speech processing apparatus having a speech synthesis unit that performs speech synthesis while selectively changing recorded-speech-playback and text-to-speech and method
JP4882899B2 (ja) * 2007-07-25 2012-02-22 ソニー株式会社 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム
JP2011180416A (ja) * 2010-03-02 2011-09-15 Denso Corp 音声合成装置、音声合成方法およびカーナビゲーションシステム
US8996377B2 (en) * 2012-07-12 2015-03-31 Microsoft Technology Licensing, Llc Blending recorded speech with text-to-speech output for specific domains
CN108182097B (zh) * 2016-12-08 2021-07-30 武汉斗鱼网络科技有限公司 一种音量条的实现方法及装置
US11106905B2 (en) * 2018-09-04 2021-08-31 Cerence Operating Company Multi-character text input system with audio feedback and word completion
CN109246214B (zh) * 2018-09-10 2022-03-04 北京奇艺世纪科技有限公司 一种提示音获取方法、装置、终端及服务器

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5864812A (en) * 1994-12-06 1999-01-26 Matsushita Electric Industrial Co., Ltd. Speech synthesizing method and apparatus for combining natural speech segments and synthesized speech segments

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006080149A1 (ja) * 2005-01-25 2006-08-03 Matsushita Electric Industrial Co., Ltd. 音復元装置および音復元方法
US7536303B2 (en) 2005-01-25 2009-05-19 Panasonic Corporation Audio restoration apparatus and audio restoration method
WO2006134736A1 (ja) * 2005-06-16 2006-12-21 Matsushita Electric Industrial Co., Ltd. 音声合成装置、音声合成方法およびプログラム
US7454343B2 (en) 2005-06-16 2008-11-18 Panasonic Corporation Speech synthesizer, speech synthesizing method, and program
EP2093755A2 (en) 2008-02-20 2009-08-26 NTT DoCoMo, Inc. Communication system for building speech database for speech synthesis, relay device therefor, and relay method therefor
US8265927B2 (en) 2008-02-20 2012-09-11 Ntt Docomo, Inc. Communication system for building speech database for speech synthesis, relay device therefor, and relay method therefor
WO2010004978A1 (ja) 2008-07-11 2010-01-14 株式会社エヌ・ティ・ティ・ドコモ 音声合成モデル生成装置、音声合成モデル生成システム、通信端末、及び音声合成モデル生成方法
JP2010032978A (ja) * 2008-07-31 2010-02-12 Hitachi Ltd 音声メッセージ作成装置及び方法
JP2018128607A (ja) * 2017-02-09 2018-08-16 ヤマハ株式会社 音声処理方法および音声処理装置
JP2022539914A (ja) * 2019-09-17 2022-09-13 北京京▲東▼尚科信息技▲術▼有限公司 音声合成方法及び装置、記憶媒体
JP7238204B2 (ja) 2019-09-17 2023-03-13 北京京▲東▼尚科信息技▲術▼有限公司 音声合成方法及び装置、記憶媒体
JP7372402B2 (ja) 2021-08-18 2023-10-31 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 音声合成方法、装置、電子機器及び記憶媒体

Also Published As

Publication number Publication date
US20030187651A1 (en) 2003-10-02

Similar Documents

Publication Publication Date Title
JP3162994B2 (ja) 音声のワードを認識する方法及び音声のワードを識別するシステム
JP2003295880A (ja) 録音音声と合成音声を接続する音声合成システム
EP3021318A1 (en) Speech synthesis apparatus and control method thereof
US20080177543A1 (en) Stochastic Syllable Accent Recognition
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
JP2005208652A (ja) 声調言語用分節声調モデリング
US7054814B2 (en) Method and apparatus of selecting segments for speech synthesis by way of speech segment recognition
JP5007401B2 (ja) 発音評定装置、およびプログラム
JP2006285254A (ja) 音声速度測定方法及び装置並びに録音装置
Pravena et al. Significance of incorporating excitation source parameters for improved emotion recognition from speech and electroglottographic signals
WO2014183411A1 (en) Method, apparatus and speech synthesis system for classifying unvoiced and voiced sound
JP6790959B2 (ja) 音声合成装置、音声合成方法及び音声合成システムならびに音声合成用コンピュータプログラム
US8275614B2 (en) Support device, program and support method
CN112908308B (zh) 一种音频处理方法、装置、设备及介质
JP2897701B2 (ja) 効果音検索装置
CN113948062B (zh) 数据转换方法及计算机存储介质
JP5294700B2 (ja) 音声認識及び合成システム、プログラム及び方法
Liu et al. A novel feature extraction strategy for multi-stream robust emotion identification
JP3109778B2 (ja) 音声規則合成装置
JP3371761B2 (ja) 氏名読み音声合成装置
JP2009058548A (ja) 音声検索装置
Mario et al. An efficient unit-selection method for concatenative text-to-speech synthesis systems
JP2005070604A (ja) 音声ラベリングエラー検出装置、音声ラベリングエラー検出方法及びプログラム
US9230536B2 (en) Voice synthesizer
CN112542159B (zh) 一种数据处理方法以及设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041006

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20061108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070112

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070410