JP2002082686A - 音声合成方法と音声合成装置 - Google Patents

音声合成方法と音声合成装置

Info

Publication number
JP2002082686A
JP2002082686A JP2000273729A JP2000273729A JP2002082686A JP 2002082686 A JP2002082686 A JP 2002082686A JP 2000273729 A JP2000273729 A JP 2000273729A JP 2000273729 A JP2000273729 A JP 2000273729A JP 2002082686 A JP2002082686 A JP 2002082686A
Authority
JP
Japan
Prior art keywords
sound source
data
segment
vowel
source file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000273729A
Other languages
English (en)
Inventor
Michi Kumagai
みち 熊谷
Shunichi Yajima
俊一 矢島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2000273729A priority Critical patent/JP2002082686A/ja
Publication of JP2002082686A publication Critical patent/JP2002082686A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 高品質の音声信号及び合成音改善のためのチ
ューニング期間の短縮化を実現した音声合成方法と音声
合成装置を提供する。 【解決手段】 入力された日本語文章を単語辞書を利用
して言語処理して構文解析し、かかる解析から読み韻律
記号、アクセント、区切りを含む信号を形成して、音源
ファイルより必要な音源情報を読み取とって音声データ
を生成する素片編集の音声合成方法において、音源ファ
イルの素片毎に1フレームずつ分解された音源データを
1ベクトルとみなして母音別素片を分解し、同母音を含
む素片接続部の距離情報を算出して、各母音毎の接続部
のデータを統計的に割り出して最も距離的に近いデータ
をターゲット値として補間する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、記録された音声
データを用いて音声を合成する技術、特に素片を単位と
して音声合成を行う技術に関し、例えばゲーム機やカー
ナビゲーションにおける音声合成等に適用して有効な技
術に関するものである。
【0002】
【従来の技術】音声は、音の性質として有声音(有声母
音)と無声音(無声子音)に区別される。有声音は、音
帯振動を伴う音声で周期的な振動(周期的波形)として
観測される。無声音は、声帯振動を伴わない音声で非周
期的な雑音(非周期的波形)として観測される。有声音
の周期は、声帯振動の周期で決まり、これをピッチ周期
という。ピッチ周期毎に同じような波形が繰り返され
る。ピッチ周期あるいはその逆数であるピッチ周波数
は、音声の高低やイントネーションを決める重要な要因
となる。
【0003】素片編集方式による音声合成装置は、言語
処理部、合成パラメータ生成部及び音声合成部及び音源
ファイルの記憶部等によって構成される。言語処理部
は、文章を入力し、入力した文章の文法等を解析して、
文章の発音情報を生成する。合成パラメータ生成部は、
前記発音情報を入力し、これに基づいて各音の時間長
や、各音の高低(周期波形の間隔)等の韻律を決める読
み韻律記号、アクセント、区切りを含む信号を生成す
る。音声合成部は、発音情報に基づき「ア」「イ」
「ウ」といった指定音声の素片データを記憶部の音源フ
ァイルから呼び出し、前記合成パラメータ生成部で決定
された各信号により音源データを接続させる。
【0004】
【発明が解決しようとする課題】例えば、図11に示す
ように、音源データは、音源の切り出しを考慮してVC
V形式などとさている。ここで、Vは母音、Cは子音を
意味する。例えば、「渋谷から」という漢字仮名まじり
文字列に対する読みの付与は、前記音源処理部で行われ
る。アクセント等の韻律情報の付与は、合成パラメータ
生成部部で行われる。音声合成部では、前記読み等の発
音情報に基づいて音源データを選択して接続し、その韻
律情報に従って高低や抑揚などの制御を行って音声を合
成して出力する。
【0005】上記音源ファイルの各音源データCV,V
CVは、全て違う原音(違う文章)より切り出すため、
例えば前記の例では渋谷の「シブヤ」は芯の「シ:sh
i」と、気分の「ブ:ibu」と、艶の「ヤ:iya」
が接続されたもである。それ故、かかる素片(CV,V
CV)のつなぎめの音声波形は不連続となり、その不連
続波形が合成音の雑音原因の1つとなってしまうという
問題を有する。従来は、このような不連続波形による合
成音での雑音を、いわば手作業により逐一取り除くよう
波形の修正、つまりは他の原音を切り出して音源データ
を変更する等に膨大な時間を費やすものの、その作業に
見合った十分な合成音の雑音感の解消には至らないばか
りか、他の日本語文章には、かかる作業も多くの場合無
力となることもある。
【0006】この発明の目的は、高品質の音声信号が得
られる音声合成方法と音声合成装置を提供することにあ
る。この発明の他の目的は、合成音改善のためのチュー
ニング期間の短縮化を実現した音声合成方法と音声合成
装置を提供することにある。この発明の前記ならびにそ
のほかの目的と新規な特徴は、本明細書の記述および添
付図面から明らかになるであろう。
【0007】
【課題を解決するための手段】本願において開示される
発明のうち代表的なものの概要を簡単に説明すれば、下
記の通りである。入力された日本語文章を単語辞書を利
用して言語処理して構文解析し、かかる解析から読み韻
律記号、アクセント、区切りを含む信号を形成して、音
源ファイルより必要な音源情報を読み取とって音声デー
タを生成する素片編集の音声合成方法において、音源フ
ァイルの素片毎に1フレームずつ分解された音源データ
を1ベクトルとみなして母音別素片を分解し、同母音を
含む素片接続部の距離情報を算出して、各母音毎の接続
部のデータを統計的に割り出して最も距離的に近いデー
タをターゲット値として補間する。
【0008】本願において開示される発明のうち他の代
表的なものの概要を簡単に説明すれば、下記の通りであ
る。入力部により日本語文章を入力し、言語処理部にて
単語辞書を利用した言語処理を行って構文解析し、合成
パラメータ生成部により上記構文解析に従って、読み韻
律記号、アクセント、区切りを含む信号と音源ファイル
からそれに対応した素片を取り出し、音声合成部により
合成音声信号を生成するとともに、上記音源ファイルと
して、原音声から切り出された素片が格納された第1音
源ファイルの素片毎に1フレームずつ分解された音源デ
ータを1ベクトルとみなして母音別素片を分解し、同母
音を含む素片接続部の距離情報を算出して、各母音毎の
接続部のデータを統計的に割り出して最も距離的に近い
データをターゲット値として補間したものを用いる。
【0009】
【発明の実施の形態】図1には、この発明に係る音声合
成処理方法及び音声合成装置を説明するための概略的な
ブロック図が示されている。入力部1において日本語文
章が入力される。かかに入力部1を通した日本語文章
は、言語処理部2において単語辞書等3を利用した構文
解析が行われ、読み韻律記号への変換とアクセント、区
切り等の記号が与えられる。それを基に音源ファイル6
より必要な音源情報、つまりは前記のような素片を読み
取り、合成パラメータ生成部4で音声データを生成す
る。以上の音声合成に必要なデータが音声合成部5に送
られて合成音声信号が生成され、音声出力部7から合成
音として出力される。
【0010】図2には、本発明に係る音声合成方法及び
音声合成装置を説明するための―実施例のブロック図が
示されている。この実施例では、本発明に係る音声合成
方法を用いた音源加工がオフラインで実行される例であ
る。つまり、音源加工シテスムでは、音声合成装置とは
切り離した状態、つまりはオフライン状態において、音
源ファイル16に格納された各素片に対して音源加工処
理15を行い、新音源ファイル14を生成する。かかる
音源加工処理15を施した新音源ファイル14に格納さ
れた素片を前記図1と同様な音声合成装置に音源ファイ
ル13に移植して、合成音の生成に用いる。
【0011】つまり、上記音源加工処理15により生成
された素片が移植された音源ファイル13を、前記図1
と同様な入力部8、言語処理部9、単語辞書10及び合
成パラメータ生成部11と音声合成部12による音声合
成処理方法ないし音声合成装置に使用することにより、
雑音感の低減された良質な合成音が得られる。また、新
音源ファイル14が移植された音源ファイル13により
音声合成処理を行うことで良質な合成音が得られる為、
音質改善の作業時間を削減でき、開発コストを低減する
ことができる。
【0012】図3には、本発明に係る音声合成方法及び
音声合成装置を説明するための他の―実施例のブロック
図が示されている。この実施例では、本発明に係る音声
合成方法を用いた音源加工がオンラインで実行される例
である。日本語文章が入力部18に入力され、言語処理
部19、単語辞書20等で必要な情報データを得た後、
音源ファイル22より必要な音源情報を読み取るが、音
源加工処理部23を介することにより、素片間接続に不
連続が起きない音源情報を得ることができる。
【0013】この結果、合成パラメータ生成部21、音
声合成部24より生成される合成音は不連続感、雑音感
の低減された良質な合成音となる。この実施例では、前
記図2のオフライン実行の音源加工システム例と比較
し、音源加工処理をオンライン処理できるため、言い換
えるならば、素片の加工と選択をリアルタイムで処理す
るために、新音源を別作業で生成する必要はなく、1シ
ステムに組み込み易い利点がある。
【0014】図4には、この発明に係る音声合成方法及
び音声合成装置に用いられる音源加工の処理手順の―例
を説明するためのフローチャート図が示されている。ス
テップS1では、原音声を分解することより生成された
素片を格納して音源ファイルが形成される。ステップS
2では、音源データ成分分解処理が行われる。つまり、
母音別の素片データ解析を行うことが目的で、方式の1
つとして音源データを素片別に1フレームずつ分解す
る。例えば、図6に示した音源データ成分分解処理の一
例のように、素片毎に1フレームずつ音源データを分解
し、素片番号(コード)とフレーム番号とを情報として
残す。
【0015】ステップS3の母音別つ素片データ解析で
は、1フレームの音源データを1ベクトルとみなして母
音別素片のデータ解析を行う。例えば、図7に示した母
音別素片データ解析の一例のように、先に行ったステッ
プS2での音源データ成分分解処理により、素片毎に全
音源データが1フレーム単位情報に分解されているの
で、その1フレーム単位の個々の波形データを1ベクト
ルとし、当該フレームでの波形データの数がn個あると
きには、n次元のベクトルとみなし、同母音を含む素片
(VCV+VCV)接続部の距離情報を算出する。上記
波形データ数は、全音源データについて最も大きな値に
設定し、それより少ない波形データしかない素片のフレ
ームでは、当該部分をデータ0として上記n次元でのベ
クトル演算を行うようにされる。
【0016】例えば、A=VCV(素片番号3001)
とB=VCV(素片番号1004)の接続部でのずれが
合成音の不連続感につながるため、距離を算出するフレ
ームは母音を含むVCVの1/3ずつとする。つまり、
素片A+Bは、Aの後半の1/3とBの前半の1/3の
フレームの距離が、図8に示したようなステップ(1)
での算出式により実施される。フレームの距離として最
も近いものでdist=1、垂直方向でdist=0、
反対方向でdist=−1となる。
【0017】ステップS4では、上記ステップS3での
解析結果より最も適切な母音の接続ターゲット値を決定
する。ターゲツト値の決定方法の一例として、先に図8
のステップ(1)で算出した接続部のフレーム毎の距離
データdistの解析を行う。つまり、図8のステップ
(2)のように、フレームAとの全組み合わせ(但し、
同母音を持つVCVの1/3)のdistの総和Σdi
st(A,B)を求め、組み合わせ数nで割る。それ
を、全フレームで行うことにより、各母音毎の接続部の
データが統計的にわかる。各母音毎に出した総和Σデー
タのうち、図8のステップ(3)において、最も距離的
に近いデータである1に近いデータをターゲット値とす
る。
【0018】ステップS5において、各母音別に各索片
CV(子音+母音)、VCV(母音+子音+母音)の接
続部を母音別ターゲット値に補間処理する。図9に示し
た補間処理の―例のように、VCVの接続部をターゲッ
ト値に置き換えるが、接続部と5フレームはなれたフレ
ームデータを内挿補間し、さらに内挿補間したデータと
実在するVCVのフレームデータと最も距離的に近いデ
―タを新しい波形データとする。補問処理により、パワ
ーにずれが生じる場合、ステップS6にてパワー調整を
行う。
【0019】以上のステップS1からS6での信号処理
により作成された新音源データをステップS7にて音源
ファイルに変換する。そして、ステップS8にて、新音
源ファイルが生成される。
【0020】図5には、この発明を説明するための素片
接続概略図が示されている。従来のように素片間を単術
に接続したのでは、各素片(CV、VCV)が全く違う
文章より切出された素片であることからずれが生じる。
同図のように、VCVデータ26とVCVデータ27と
が、前記のように渋谷の「シブヤ」を芯の「シ:sh
i」と、気分の「ブ:ibu」と、艶の「ヤ:iya」
とを接続して合成すると、これらが全く違う文章から切
出された素片のため、接続部のVが同じ母音であっても
ずれが生しることはやむを得ない。このような母音のず
れは合成音の不連続感や雑音の原因になる。
【0021】これに対して、前記のような音源加工処理
を実施することにより素片の接続部のずれに対して、各
母音の最適ターゲット値28を決定し、ターゲット値2
8に合致するよう接続部を補間処理する。それにより出
来た新しいVCVデータ29と30は、接続部がターゲ
ット値28に統−されており、接続される母音にずれが
生じないため、合成音質は改善される。
【0022】従来の素片編集方式での合成音において
は、各素片間の接続部が統一されていない為、合成波形
接続部にずれが生じ、それが合成音の雑音が生じる原因
の一つとなっている。本願発明では、上記雑音を解消す
る為に母音別に最適な接続ターゲット値を決定し、各素
片接続部をターゲット値に補間処理することにより、素
片間の接続部にずれが生じない音源を生成するものであ
る。
【0023】音源編集加工処理(ツール)では、2素片
の距離計測式を図8に示した式を用いて計算していた。
図8の式では、2素片の距離差が方向のみ計測され、パ
ワー値が反映されていなかった。パワー値の違う2ベク
トルも、同方向であれば距離最小と計測される。そのた
め、素片によっては合成音の不連続感や雑音の解消が十
分でない場合が生じる。そこで、パワー値も反映させた
下記式1を採用することにより、人間の聴取感と同等の
良好な結果を得ることができた。
【0024】
【式1】
【0025】図10には、本発明に係る音声合成装置が
搭載されたナビゲ―ションシステムの一実施例の構成図
が示されている。同図に示される音声合成装置は、特に
制限はないが、上記ナビゲーシヨンの他にもゲーム機等
における音声音成にも同様に適用される。
【0026】情報再生装置36は記録媒体を例えばCD
−ROM、あるいはDVDから光学的に情報を読み取っ
て再生する。CD−ROM(DVD)36には、音源フ
ァイルの内容を定義する為の情報が記録されている。情
報再生装置36はスカジーインタフェース回路(SCS
I I/F)37を介して音声合成装置とインタフェー
スされる。マイクロプロセッサ31はアドレスバス、デ
ータバス及びコントロールバスからなる内部バス38を
介してスカジーインタフェース回路37、フラツシュメ
モリ32、ダイナミック型ランダム・アクセス・メモリ
(DRAM)33などに結合されている。マイクロプロ
セッサ31は、情報再生装置35にアクセスコマンドを
与えることによってCD−ROM(DVD)36に記録
されている音源ファイルのデータを内部バス38に取り
込むことが出来る。取り込んだ音源ファイルのデータ
は、DRAM33にダウンロードし、或いはフラッシュ
メモリ32にダウンロードすることができる。
【0027】マイクロプロセッサ31は、キ一入力部3
4から与えられた文章データに対して言語処理を行い、
その結果に基づいて韻律情報を生成し、生成された韻律
情報と発音情報に基づいて、ダウンロードされた音源フ
ァイルから音源データを選択して、音声合成データを生
成する。生成された音声合成データは音声インタフェー
ス回路39からデジタル/アナログ変換回路(DAC)
40に与えられ、音声合成データがアナログ音声データ
に変換され、スピーカ41から音声として出力される。
【0028】なお、図10の音声合成装置は、画像処理
プロセッサ42が負担する画像表示制御機能を有する。
画像データはフレームバッファメモリ43に描画され、
描画された画像データは表示タイミングに従つてDAC
44からビデオ出力部45に与えられ、表示モニタ46
に画像が表示される。
【0029】上記の実施例から得られる作用効果は、下
記の通りである。 (1) 入力された日本語文章を単語辞書を利用して言
語処理して構文解析し、かかる解析から読み韻律記号、
アクセント、区切りを含む信号を形成して、音源ファイ
ルより必要な音源情報を読み取とって音声データを生成
する素片編集の音声合成方法において、音源ファイルの
素片毎に1フレームずつ分解された音源データを1ベク
トルとみなして母音別素片を分解し、同母音を含む素片
接続部の距離情報を算出して、各母音毎の接続部のデー
タを統計的に割り出して最も距離的に近いデータをター
ゲット値として補間することより、接続部が統計的に統
−されて母音にずれが生じなくできるため合成音質は改
善と、音質改善の作業時間を削減できるという効果が得
られる。
【0030】(2) 上記に加えて、補間された素片を
含む新音源ファイルを予め形成し、かかる新音源ファイ
ルの素片を接続して音声データを生成することにより、
信号処理プロセッサの負担を軽くでき、音声合成装置が
搭載されるシステムの小型化、低消費電力化が可能にな
るという効果が得られる。
【0031】(3) 上記に加えて、上記補間された素
片の生成と上記読み韻律記号、アクセント、区切りを含
む信号から上記音声データを生成する信号処理をリアル
タイムで行うようにすることにより、新音源を別作業で
生成する必要はなく、1システムに組み込み易くなると
いう効果が得られる。
【0032】(4) 入力部により日本語文章を入力
し、言語処理部にて単語辞書を利用した言語処理を行っ
て構文解析し、合成パラメータ生成部により上記構文解
析に従って、読み韻律記号、アクセント、区切りを含む
信号と音源ファイルからそれに対応した素片を取り出
し、音声合成部により合成音声信号を生成するととも
に、上記音源ファイルとして、原音声から切り出された
素片が格納された第1音源ファイルの素片毎に1フレー
ムずつ分解された音源データを1ベクトルとみなして母
音別素片を分解し、同母音を含む素片接続部の距離情報
を算出して、各母音毎の接続部のデータを統計的に割り
出して最も距離的に近いデータをターゲット値として補
間したものを用いることにより、接続部が統計的に統−
されて母音にずれが生じなくできるため合成音質は改善
と、音質改善の作業時間を削減できるという効果が得ら
れる。
【0033】(5) 入力部により日本語文章を入力
し、言語処理部にて単語辞書を利用した言語処理を行っ
て構文解析し、合成パラメータ生成部により上記構文解
析に従って、読み韻律記号、アクセント、区切りを含む
信号と音源ファイルからそれに対応した素片を取り出
し、音声合成部により合成音声信号を生成するととも
に、上記合成パラメータ生成部は、原音声から切り出さ
れた素片が格納された上記音源ファイルの素片毎に1フ
レームずつ分解された音源データを1ベクトルとみなし
て母音別素片を分解し、同母音を含む素片接続部の距離
情報を算出して、各母音毎の接続部のデータを統計的に
割り出して最も距離的に近いデータをターゲット値とし
て補間処理を行うことにより、接続部が統計的に統−さ
れて母音にずれが生じなくできるため合成音質は改善
と、音質改善の作業時間を削減できるという効果が得ら
れる。
【0034】以上本発明者よりなされた発明を実施例に
基づき具体的に説明したが、本願発明は前記実施例に限
定されるものではなく、その要旨を逸脱しない範囲で種
々変更可能であることはいうまでもない。例えば、上記
距離を算出するフレームは母音を含むVCVの1/3の
他に、1/4等のように適宜に変更することができる。
距離の算出は、前記の式の他に、それぞれの音源データ
を1ベクトルとみなして同母音を含む素片接続部の距離
に反映したものであれば何であってもよい。この発明
は、ナビゲーションシステム、PDA、メール読み上げ
システム、ゲーム等での音声合成、医療機器等での音声
含成等に広く利用することができる。
【0035】
【発明の効果】本願において開示される発明のうち代表
的なものによって得られる効果を簡単に説明すれば、下
記の通りである。入力された日本語文章を単語辞書を利
用して言語処理して構文解析し、かかる解析から読み韻
律記号、アクセント、区切りを含む信号を形成して、音
源ファイルより必要な音源情報を読み取とって音声デー
タを生成する素片編集の音声合成方法において、音源フ
ァイルの素片毎に1フレームずつ分解された音源データ
を1ベクトルとみなして母音別素片を分解し、同母音を
含む素片接続部の距離情報を算出して、各母音毎の接続
部のデータを統計的に割り出して最も距離的に近いデー
タをターゲット値として補間することより、接続部が統
計的に統−されて母音にずれが生じなくできるため合成
音質は改善と、音質改善の作業時間を削減できる。
【0036】入力部により日本語文章を入力し、言語処
理部にて単語辞書を利用した言語処理を行って構文解析
し、合成パラメータ生成部により上記構文解析に従っ
て、読み韻律記号、アクセント、区切りを含む信号と音
源ファイルからそれに対応した素片を取り出し、音声合
成部により合成音声信号を生成するとともに、上記合成
パラメータ生成部は、原音声から切り出された素片が格
納された上記音源ファイルの素片毎に1フレームずつ分
解された音源データを1ベクトルとみなして母音別素片
を分解し、同母音を含む素片接続部の距離情報を算出し
て、各母音毎の接続部のデータを統計的に割り出して最
も距離的に近いデータをターゲット値として補間処理を
行うことにより、接続部が統計的に統−されて母音にず
れが生じなくできるため合成音質は改善と、音質改善の
作業時間を削減できる。
【図面の簡単な説明】
【図1】この発明に係る音声合成処理方法及び音声合成
装置を説明するための概略的なブロック図である。
【図2】本発明に係る音声合成方法及び音声合成装置を
説明するための―実施例を示すブロック図である。
【図3】本発明に係る音声合成方法及び音声合成装置を
説明するための他の―実施例を示すブロック図である。
【図4】この発明に係る音声合成方法及び音声合成装置
に用いられる音源加工の処理手順の―例を説明するため
のフローチャート図である。
【図5】この発明を説明するための素片接続概略図であ
る。
【図6】この発明に係る音源データ成分分解処理の一例
を示す説明図である。
【図7】この発明に係る母音別素片データ解析の一例を
示す説明図である。
【図8】この発明に係る素片データの演算処理の一例を
示すフローチャート図である。
【図9】この発明に係る素片の接続部での補間処理の―
例を示す説明図である。
【図10】この発明に係る音声合成装置が搭載されたナ
ビゲ―ションシステムの一実施例を示す構成図である。
【図11】素片編集方式の音声合成の手順を説明するた
めの説明図である。
【符号の説明】
1,8,18…入力部、2,9,19…言語処理部、
3,10,20…単語辞書、4,11,21…合成パラ
メータ生成部、5,12,24…音声合成部、6,1
3,16,22…音源ファイル、7,17,25…音声
出力部、14…新音源ファイル、15…音源加工処理
部、26,27、29,30…素片、28…ターゲット
値、31…マイクロプロセッサ、32…フラッシュメモ
リ、33…DRAM、34…キー入力部、35…情報再
生装置、36…CD−ROM(DVD)、37…スカジ
ーインタフェース回路、38…内部バス、39…音声I
/F、40…DAC、41…スピーカ、42…画像処理
プロセッサ、43…DRAM、44…DAC、45…ビ
デオ出力部、46…表示モニタ。

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 入力された日本語文章を単語辞書を利用
    して言語処理して構文解析し、かかる解析から読み韻律
    記号、アクセント、区切りを含む信号を形成して、音源
    ファイルより必要な音源情報を読み取とって音声データ
    を生成する素片編集の音声合成方法において、 音源ファイルの素片毎に1フレームずつ分解された音源
    データを1ベクトルとみなして母音別素片を分解し、同
    母音を含む素片接続部の距離情報を算出して、各母音毎
    の接続部のデータを統計的に割り出して最も距離的に近
    いデータをターゲット値として補間してなることを特徴
    とする音声合成方法。
  2. 【請求項2】 請求項1において、 上記補間された素片を含む新音源ファイルを予め形成
    し、かかる新音源ファイルの素片を接続して音声データ
    を生成してなることを特徴とする音声合成方法。
  3. 【請求項3】 請求項1において、 上記補間された素片の生成と上記読み韻律記号、アクセ
    ント、区切りを含む信号から上記音声データを生成する
    信号処理をリアルタイムで行うようにしてなることを特
    徴とする音声合成方法。
  4. 【請求項4】 日本語文章が入力される入力部と、 単語辞書を利用して言語処理して構文解析する言語処理
    部と、 上記言語処理部での構文解析に従って、読み韻律記号、
    アクセント、区切りを含む信号と音源ファイルからそれ
    に対応した素片を取り出す合成パラメータ生成部と、 上記合成パラメータ生成部からの信号により合成音声信
    号を生成する音声合成部とを備えてなり、 上記音源ファイルは、原音声から切り出された素片が格
    納された第1音源ファイルと、かかる第1音源ファイル
    の素片毎に1フレームずつ分解された音源データを1ベ
    クトルとみなして母音別素片を分解し、同母音を含む素
    片接続部の距離情報を算出して、各母音毎の接続部のデ
    ータを統計的に割り出して最も距離的にに近いデータを
    ターゲット値として補間してなる素片が格納された第2
    音源ファイルとを含み、上記合成パラメータに供給され
    る素片は、上記第2音源ファイルに格納されたものとす
    ることを特徴とする音声合成装置。
  5. 【請求項5】 日本語文章が入力される入力部と、 単語辞書を利用して言語処理して構文解析する言語処理
    部と、 上記言語処理部での構文解析に従って、読み韻律記号、
    アクセント、区切りを含む信号と音源ファイルからそれ
    に対応した素片を取り出す合成パラメータ生成部と、 上記合成パラメータ生成部からの信号により合成音声信
    号を生成する音声合成部とを備えてなり、 上記合成パラメータ生成部は、原音声から切り出された
    素片が格納された上記音源ファイルの素片毎に1フレー
    ムずつ分解された音源データを1ベクトルとみなして母
    音別素片を分解し、同母音を含む素片接続部の距離情報
    を算出して、各母音毎の接続部のデータを統計的に割り
    出して最も距離的に近いデータをターゲット値として補
    間処理を行うことを特徴とする音声合成装置。
JP2000273729A 2000-09-08 2000-09-08 音声合成方法と音声合成装置 Pending JP2002082686A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000273729A JP2002082686A (ja) 2000-09-08 2000-09-08 音声合成方法と音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000273729A JP2002082686A (ja) 2000-09-08 2000-09-08 音声合成方法と音声合成装置

Publications (1)

Publication Number Publication Date
JP2002082686A true JP2002082686A (ja) 2002-03-22

Family

ID=18759616

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000273729A Pending JP2002082686A (ja) 2000-09-08 2000-09-08 音声合成方法と音声合成装置

Country Status (1)

Country Link
JP (1) JP2002082686A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7765103B2 (en) 2003-06-13 2010-07-27 Sony Corporation Rule based speech synthesis method and apparatus
KR100994340B1 (ko) * 2010-03-31 2010-11-12 (주)티젠스 문자음성합성을 이용한 음악 컨텐츠 제작장치

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7765103B2 (en) 2003-06-13 2010-07-27 Sony Corporation Rule based speech synthesis method and apparatus
KR100994340B1 (ko) * 2010-03-31 2010-11-12 (주)티젠스 문자음성합성을 이용한 음악 컨텐츠 제작장치

Similar Documents

Publication Publication Date Title
US6778962B1 (en) Speech synthesis with prosodic model data and accent type
JP3070127B2 (ja) 音声合成装置のアクセント成分制御方式
US7991616B2 (en) Speech synthesizer
JPH10116089A (ja) 音声合成用の基本周波数テンプレートを収容する韻律データベース
JP5198046B2 (ja) 音声処理装置及びそのプログラム
CN112735454A (zh) 音频处理方法、装置、电子设备和可读存储介质
JPH0632020B2 (ja) 音声合成方法および装置
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP2002082686A (ja) 音声合成方法と音声合成装置
JPH08335096A (ja) テキスト音声合成装置
JP3109778B2 (ja) 音声規則合成装置
JP2007163667A (ja) 音声合成装置および音声合成プログラム
JP2000187495A (ja) 音声合成法方法、装置、および音声合成プログラムを記録した記録媒体
JP3622990B2 (ja) 音声合成装置及び方法
JP2001034284A (ja) 音声合成方法及び装置、並びに文音声変換プログラムを記録した記録媒体
JP2740510B2 (ja) テキスト音声合成方式
JP3614874B2 (ja) 音声合成装置及び方法
WO2023182291A1 (ja) 音声合成装置、音声合成方法及びプログラム
JP2703253B2 (ja) 音声合成装置
JP3235747B2 (ja) 音声合成装置及び音声合成方法
JP3034554B2 (ja) 日本語文章読上げ装置及び方法
JP2003330482A (ja) 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成方法、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム
JPH064090A (ja) テキスト音声変換方法および装置
JP3870583B2 (ja) 音声合成装置および記憶媒体
JP2942260B2 (ja) 音声合成装置