JP2002082686A

JP2002082686A - 音声合成方法と音声合成装置

Info

Publication number: JP2002082686A
Application number: JP2000273729A
Authority: JP
Inventors: Michi Kumagai; みち熊谷; Shunichi Yajima; 俊一矢島
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2000-09-08
Filing date: 2000-09-08
Publication date: 2002-03-22

Abstract

(57)【要約】【課題】高品質の音声信号及び合成音改善のためのチ
ューニング期間の短縮化を実現した音声合成方法と音声
合成装置を提供する。【解決手段】入力された日本語文章を単語辞書を利用
して言語処理して構文解析し、かかる解析から読み韻律
記号、アクセント、区切りを含む信号を形成して、音源
ファイルより必要な音源情報を読み取とって音声データ
を生成する素片編集の音声合成方法において、音源ファ
イルの素片毎に１フレームずつ分解された音源データを
１ベクトルとみなして母音別素片を分解し、同母音を含
む素片接続部の距離情報を算出して、各母音毎の接続部
のデータを統計的に割り出して最も距離的に近いデータ
をターゲット値として補間する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、記録された音声
データを用いて音声を合成する技術、特に素片を単位と
して音声合成を行う技術に関し、例えばゲーム機やカー
ナビゲーションにおける音声合成等に適用して有効な技
術に関するものである。

【０００２】

【従来の技術】音声は、音の性質として有声音（有声母
音）と無声音（無声子音）に区別される。有声音は、音
帯振動を伴う音声で周期的な振動（周期的波形）として
観測される。無声音は、声帯振動を伴わない音声で非周
期的な雑音（非周期的波形）として観測される。有声音
の周期は、声帯振動の周期で決まり、これをピッチ周期
という。ピッチ周期毎に同じような波形が繰り返され
る。ピッチ周期あるいはその逆数であるピッチ周波数
は、音声の高低やイントネーションを決める重要な要因
となる。

【０００３】素片編集方式による音声合成装置は、言語
処理部、合成パラメータ生成部及び音声合成部及び音源
ファイルの記憶部等によって構成される。言語処理部
は、文章を入力し、入力した文章の文法等を解析して、
文章の発音情報を生成する。合成パラメータ生成部は、
前記発音情報を入力し、これに基づいて各音の時間長
や、各音の高低（周期波形の間隔）等の韻律を決める読
み韻律記号、アクセント、区切りを含む信号を生成す
る。音声合成部は、発音情報に基づき「ア」「イ」
「ウ」といった指定音声の素片データを記憶部の音源フ
ァイルから呼び出し、前記合成パラメータ生成部で決定
された各信号により音源データを接続させる。

【０００４】

【発明が解決しようとする課題】例えば、図１１に示す
ように、音源データは、音源の切り出しを考慮してＶＣ
Ｖ形式などとさている。ここで、Ｖは母音、Ｃは子音を
意味する。例えば、「渋谷から」という漢字仮名まじり
文字列に対する読みの付与は、前記音源処理部で行われ
る。アクセント等の韻律情報の付与は、合成パラメータ
生成部部で行われる。音声合成部では、前記読み等の発
音情報に基づいて音源データを選択して接続し、その韻
律情報に従って高低や抑揚などの制御を行って音声を合
成して出力する。

【０００５】上記音源ファイルの各音源データＣＶ，Ｖ
ＣＶは、全て違う原音（違う文章）より切り出すため、
例えば前記の例では渋谷の「シブヤ」は芯の「シ：ｓｈ
ｉ」と、気分の「ブ：ｉｂｕ」と、艶の「ヤ：ｉｙａ」
が接続されたもである。それ故、かかる素片（ＣＶ，Ｖ
ＣＶ）のつなぎめの音声波形は不連続となり、その不連
続波形が合成音の雑音原因の１つとなってしまうという
問題を有する。従来は、このような不連続波形による合
成音での雑音を、いわば手作業により逐一取り除くよう
波形の修正、つまりは他の原音を切り出して音源データ
を変更する等に膨大な時間を費やすものの、その作業に
見合った十分な合成音の雑音感の解消には至らないばか
りか、他の日本語文章には、かかる作業も多くの場合無
力となることもある。

【０００６】この発明の目的は、高品質の音声信号が得
られる音声合成方法と音声合成装置を提供することにあ
る。この発明の他の目的は、合成音改善のためのチュー
ニング期間の短縮化を実現した音声合成方法と音声合成
装置を提供することにある。この発明の前記ならびにそ
のほかの目的と新規な特徴は、本明細書の記述および添
付図面から明らかになるであろう。

【０００７】

【課題を解決するための手段】本願において開示される
発明のうち代表的なものの概要を簡単に説明すれば、下
記の通りである。入力された日本語文章を単語辞書を利
用して言語処理して構文解析し、かかる解析から読み韻
律記号、アクセント、区切りを含む信号を形成して、音
源ファイルより必要な音源情報を読み取とって音声デー
タを生成する素片編集の音声合成方法において、音源フ
ァイルの素片毎に１フレームずつ分解された音源データ
を１ベクトルとみなして母音別素片を分解し、同母音を
含む素片接続部の距離情報を算出して、各母音毎の接続
部のデータを統計的に割り出して最も距離的に近いデー
タをターゲット値として補間する。

【０００８】本願において開示される発明のうち他の代
表的なものの概要を簡単に説明すれば、下記の通りであ
る。入力部により日本語文章を入力し、言語処理部にて
単語辞書を利用した言語処理を行って構文解析し、合成
パラメータ生成部により上記構文解析に従って、読み韻
律記号、アクセント、区切りを含む信号と音源ファイル
からそれに対応した素片を取り出し、音声合成部により
合成音声信号を生成するとともに、上記音源ファイルと
して、原音声から切り出された素片が格納された第１音
源ファイルの素片毎に１フレームずつ分解された音源デ
ータを１ベクトルとみなして母音別素片を分解し、同母
音を含む素片接続部の距離情報を算出して、各母音毎の
接続部のデータを統計的に割り出して最も距離的に近い
データをターゲット値として補間したものを用いる。

【０００９】

【発明の実施の形態】図１には、この発明に係る音声合
成処理方法及び音声合成装置を説明するための概略的な
ブロック図が示されている。入力部１において日本語文
章が入力される。かかに入力部１を通した日本語文章
は、言語処理部２において単語辞書等３を利用した構文
解析が行われ、読み韻律記号への変換とアクセント、区
切り等の記号が与えられる。それを基に音源ファイル６
より必要な音源情報、つまりは前記のような素片を読み
取り、合成パラメータ生成部４で音声データを生成す
る。以上の音声合成に必要なデータが音声合成部５に送
られて合成音声信号が生成され、音声出力部７から合成
音として出力される。

【００１０】図２には、本発明に係る音声合成方法及び
音声合成装置を説明するための―実施例のブロック図が
示されている。この実施例では、本発明に係る音声合成
方法を用いた音源加工がオフラインで実行される例であ
る。つまり、音源加工シテスムでは、音声合成装置とは
切り離した状態、つまりはオフライン状態において、音
源ファイル１６に格納された各素片に対して音源加工処
理１５を行い、新音源ファイル１４を生成する。かかる
音源加工処理１５を施した新音源ファイル１４に格納さ
れた素片を前記図１と同様な音声合成装置に音源ファイ
ル１３に移植して、合成音の生成に用いる。

【００１１】つまり、上記音源加工処理１５により生成
された素片が移植された音源ファイル１３を、前記図１
と同様な入力部８、言語処理部９、単語辞書１０及び合
成パラメータ生成部１１と音声合成部１２による音声合
成処理方法ないし音声合成装置に使用することにより、
雑音感の低減された良質な合成音が得られる。また、新
音源ファイル１４が移植された音源ファイル１３により
音声合成処理を行うことで良質な合成音が得られる為、
音質改善の作業時間を削減でき、開発コストを低減する
ことができる。

【００１２】図３には、本発明に係る音声合成方法及び
音声合成装置を説明するための他の―実施例のブロック
図が示されている。この実施例では、本発明に係る音声
合成方法を用いた音源加工がオンラインで実行される例
である。日本語文章が入力部１８に入力され、言語処理
部１９、単語辞書２０等で必要な情報データを得た後、
音源ファイル２２より必要な音源情報を読み取るが、音
源加工処理部２３を介することにより、素片間接続に不
連続が起きない音源情報を得ることができる。

【００１３】この結果、合成パラメータ生成部２１、音
声合成部２４より生成される合成音は不連続感、雑音感
の低減された良質な合成音となる。この実施例では、前
記図２のオフライン実行の音源加工システム例と比較
し、音源加工処理をオンライン処理できるため、言い換
えるならば、素片の加工と選択をリアルタイムで処理す
るために、新音源を別作業で生成する必要はなく、１シ
ステムに組み込み易い利点がある。

【００１４】図４には、この発明に係る音声合成方法及
び音声合成装置に用いられる音源加工の処理手順の―例
を説明するためのフローチャート図が示されている。ス
テップＳ１では、原音声を分解することより生成された
素片を格納して音源ファイルが形成される。ステップＳ
２では、音源データ成分分解処理が行われる。つまり、
母音別の素片データ解析を行うことが目的で、方式の１
つとして音源データを素片別に１フレームずつ分解す
る。例えば、図６に示した音源データ成分分解処理の一
例のように、素片毎に１フレームずつ音源データを分解
し、素片番号（コード）とフレーム番号とを情報として
残す。

【００１５】ステップＳ３の母音別つ素片データ解析で
は、１フレームの音源データを１ベクトルとみなして母
音別素片のデータ解析を行う。例えば、図７に示した母
音別素片データ解析の一例のように、先に行ったステッ
プＳ２での音源データ成分分解処理により、素片毎に全
音源データが１フレーム単位情報に分解されているの
で、その１フレーム単位の個々の波形データを１ベクト
ルとし、当該フレームでの波形データの数がｎ個あると
きには、ｎ次元のベクトルとみなし、同母音を含む素片
（ＶＣＶ＋ＶＣＶ）接続部の距離情報を算出する。上記
波形データ数は、全音源データについて最も大きな値に
設定し、それより少ない波形データしかない素片のフレ
ームでは、当該部分をデータ０として上記ｎ次元でのベ
クトル演算を行うようにされる。

【００１６】例えば、Ａ＝ＶＣＶ（素片番号３００１）
とＢ＝ＶＣＶ（素片番号１００４）の接続部でのずれが
合成音の不連続感につながるため、距離を算出するフレ
ームは母音を含むＶＣＶの１／３ずつとする。つまり、
素片Ａ＋Ｂは、Ａの後半の１／３とＢの前半の１／３の
フレームの距離が、図８に示したようなステップ（１）
での算出式により実施される。フレームの距離として最
も近いものでｄｉｓｔ＝１、垂直方向でｄｉｓｔ＝０、
反対方向でｄｉｓｔ＝−１となる。

【００１７】ステップＳ４では、上記ステップＳ３での
解析結果より最も適切な母音の接続ターゲット値を決定
する。ターゲツト値の決定方法の一例として、先に図８
のステップ（１）で算出した接続部のフレーム毎の距離
データｄｉｓｔの解析を行う。つまり、図８のステップ
（２）のように、フレームＡとの全組み合わせ（但し、
同母音を持つＶＣＶの１／３）のｄｉｓｔの総和Σｄｉ
ｓｔ（Ａ，Ｂ）を求め、組み合わせ数ｎで割る。それ
を、全フレームで行うことにより、各母音毎の接続部の
データが統計的にわかる。各母音毎に出した総和Σデー
タのうち、図８のステップ（３）において、最も距離的
に近いデータである１に近いデータをターゲット値とす
る。

【００１８】ステップＳ５において、各母音別に各索片
ＣＶ（子音＋母音）、ＶＣＶ（母音＋子音＋母音）の接
続部を母音別ターゲット値に補間処理する。図９に示し
た補間処理の―例のように、ＶＣＶの接続部をターゲッ
ト値に置き換えるが、接続部と５フレームはなれたフレ
ームデータを内挿補間し、さらに内挿補間したデータと
実在するＶＣＶのフレームデータと最も距離的に近いデ
―タを新しい波形データとする。補問処理により、パワ
ーにずれが生じる場合、ステップＳ６にてパワー調整を
行う。

【００１９】以上のステップＳ１からＳ６での信号処理
により作成された新音源データをステップＳ７にて音源
ファイルに変換する。そして、ステップＳ８にて、新音
源ファイルが生成される。

【００２０】図５には、この発明を説明するための素片
接続概略図が示されている。従来のように素片間を単術
に接続したのでは、各素片（ＣＶ、ＶＣＶ）が全く違う
文章より切出された素片であることからずれが生じる。
同図のように、ＶＣＶデータ２６とＶＣＶデータ２７と
が、前記のように渋谷の「シブヤ」を芯の「シ：ｓｈ
ｉ」と、気分の「ブ：ｉｂｕ」と、艶の「ヤ：ｉｙａ」
とを接続して合成すると、これらが全く違う文章から切
出された素片のため、接続部のＶが同じ母音であっても
ずれが生しることはやむを得ない。このような母音のず
れは合成音の不連続感や雑音の原因になる。

【００２１】これに対して、前記のような音源加工処理
を実施することにより素片の接続部のずれに対して、各
母音の最適ターゲット値２８を決定し、ターゲット値２
８に合致するよう接続部を補間処理する。それにより出
来た新しいＶＣＶデータ２９と３０は、接続部がターゲ
ット値２８に統−されており、接続される母音にずれが
生じないため、合成音質は改善される。

【００２２】従来の素片編集方式での合成音において
は、各素片間の接続部が統一されていない為、合成波形
接続部にずれが生じ、それが合成音の雑音が生じる原因
の一つとなっている。本願発明では、上記雑音を解消す
る為に母音別に最適な接続ターゲット値を決定し、各素
片接続部をターゲット値に補間処理することにより、素
片間の接続部にずれが生じない音源を生成するものであ
る。

【００２３】音源編集加工処理（ツール）では、２素片
の距離計測式を図８に示した式を用いて計算していた。
図８の式では、２素片の距離差が方向のみ計測され、パ
ワー値が反映されていなかった。パワー値の違う２ベク
トルも、同方向であれば距離最小と計測される。そのた
め、素片によっては合成音の不連続感や雑音の解消が十
分でない場合が生じる。そこで、パワー値も反映させた
下記式１を採用することにより、人間の聴取感と同等の
良好な結果を得ることができた。

【００２４】

【式１】

【００２５】図１０には、本発明に係る音声合成装置が
搭載されたナビゲ―ションシステムの一実施例の構成図
が示されている。同図に示される音声合成装置は、特に
制限はないが、上記ナビゲーシヨンの他にもゲーム機等
における音声音成にも同様に適用される。

【００２６】情報再生装置３６は記録媒体を例えばＣＤ
−ＲＯＭ、あるいはＤＶＤから光学的に情報を読み取っ
て再生する。ＣＤ−ＲＯＭ（ＤＶＤ）３６には、音源フ
ァイルの内容を定義する為の情報が記録されている。情
報再生装置３６はスカジーインタフェース回路（ＳＣＳ
ＩＩ／Ｆ）３７を介して音声合成装置とインタフェー
スされる。マイクロプロセッサ３１はアドレスバス、デ
ータバス及びコントロールバスからなる内部バス３８を
介してスカジーインタフェース回路３７、フラツシュメ
モリ３２、ダイナミック型ランダム・アクセス・メモリ
（ＤＲＡＭ）３３などに結合されている。マイクロプロ
セッサ３１は、情報再生装置３５にアクセスコマンドを
与えることによってＣＤ−ＲＯＭ（ＤＶＤ）３６に記録
されている音源ファイルのデータを内部バス３８に取り
込むことが出来る。取り込んだ音源ファイルのデータ
は、ＤＲＡＭ３３にダウンロードし、或いはフラッシュ
メモリ３２にダウンロードすることができる。

【００２７】マイクロプロセッサ３１は、キ一入力部３
４から与えられた文章データに対して言語処理を行い、
その結果に基づいて韻律情報を生成し、生成された韻律
情報と発音情報に基づいて、ダウンロードされた音源フ
ァイルから音源データを選択して、音声合成データを生
成する。生成された音声合成データは音声インタフェー
ス回路３９からデジタル／アナログ変換回路（ＤＡＣ）
４０に与えられ、音声合成データがアナログ音声データ
に変換され、スピーカ４１から音声として出力される。

【００２８】なお、図１０の音声合成装置は、画像処理
プロセッサ４２が負担する画像表示制御機能を有する。
画像データはフレームバッファメモリ４３に描画され、
描画された画像データは表示タイミングに従つてＤＡＣ
４４からビデオ出力部４５に与えられ、表示モニタ４６
に画像が表示される。

【００２９】上記の実施例から得られる作用効果は、下
記の通りである。（１）入力された日本語文章を単語辞書を利用して言
語処理して構文解析し、かかる解析から読み韻律記号、
アクセント、区切りを含む信号を形成して、音源ファイ
ルより必要な音源情報を読み取とって音声データを生成
する素片編集の音声合成方法において、音源ファイルの
素片毎に１フレームずつ分解された音源データを１ベク
トルとみなして母音別素片を分解し、同母音を含む素片
接続部の距離情報を算出して、各母音毎の接続部のデー
タを統計的に割り出して最も距離的に近いデータをター
ゲット値として補間することより、接続部が統計的に統
−されて母音にずれが生じなくできるため合成音質は改
善と、音質改善の作業時間を削減できるという効果が得
られる。

【００３０】（２）上記に加えて、補間された素片を
含む新音源ファイルを予め形成し、かかる新音源ファイ
ルの素片を接続して音声データを生成することにより、
信号処理プロセッサの負担を軽くでき、音声合成装置が
搭載されるシステムの小型化、低消費電力化が可能にな
るという効果が得られる。

【００３１】（３）上記に加えて、上記補間された素
片の生成と上記読み韻律記号、アクセント、区切りを含
む信号から上記音声データを生成する信号処理をリアル
タイムで行うようにすることにより、新音源を別作業で
生成する必要はなく、１システムに組み込み易くなると
いう効果が得られる。

【００３２】（４）入力部により日本語文章を入力
し、言語処理部にて単語辞書を利用した言語処理を行っ
て構文解析し、合成パラメータ生成部により上記構文解
析に従って、読み韻律記号、アクセント、区切りを含む
信号と音源ファイルからそれに対応した素片を取り出
し、音声合成部により合成音声信号を生成するととも
に、上記音源ファイルとして、原音声から切り出された
素片が格納された第１音源ファイルの素片毎に１フレー
ムずつ分解された音源データを１ベクトルとみなして母
音別素片を分解し、同母音を含む素片接続部の距離情報
を算出して、各母音毎の接続部のデータを統計的に割り
出して最も距離的に近いデータをターゲット値として補
間したものを用いることにより、接続部が統計的に統−
されて母音にずれが生じなくできるため合成音質は改善
と、音質改善の作業時間を削減できるという効果が得ら
れる。

【００３３】（５）入力部により日本語文章を入力
し、言語処理部にて単語辞書を利用した言語処理を行っ
て構文解析し、合成パラメータ生成部により上記構文解
析に従って、読み韻律記号、アクセント、区切りを含む
信号と音源ファイルからそれに対応した素片を取り出
し、音声合成部により合成音声信号を生成するととも
に、上記合成パラメータ生成部は、原音声から切り出さ
れた素片が格納された上記音源ファイルの素片毎に１フ
レームずつ分解された音源データを１ベクトルとみなし
て母音別素片を分解し、同母音を含む素片接続部の距離
情報を算出して、各母音毎の接続部のデータを統計的に
割り出して最も距離的に近いデータをターゲット値とし
て補間処理を行うことにより、接続部が統計的に統−さ
れて母音にずれが生じなくできるため合成音質は改善
と、音質改善の作業時間を削減できるという効果が得ら
れる。

【００３４】以上本発明者よりなされた発明を実施例に
基づき具体的に説明したが、本願発明は前記実施例に限
定されるものではなく、その要旨を逸脱しない範囲で種
々変更可能であることはいうまでもない。例えば、上記
距離を算出するフレームは母音を含むＶＣＶの１／３の
他に、１／４等のように適宜に変更することができる。
距離の算出は、前記の式の他に、それぞれの音源データ
を１ベクトルとみなして同母音を含む素片接続部の距離
に反映したものであれば何であってもよい。この発明
は、ナビゲーションシステム、ＰＤＡ、メール読み上げ
システム、ゲーム等での音声合成、医療機器等での音声
含成等に広く利用することができる。

【００３５】

【発明の効果】本願において開示される発明のうち代表
的なものによって得られる効果を簡単に説明すれば、下
記の通りである。入力された日本語文章を単語辞書を利
用して言語処理して構文解析し、かかる解析から読み韻
律記号、アクセント、区切りを含む信号を形成して、音
源ファイルより必要な音源情報を読み取とって音声デー
タを生成する素片編集の音声合成方法において、音源フ
ァイルの素片毎に１フレームずつ分解された音源データ
を１ベクトルとみなして母音別素片を分解し、同母音を
含む素片接続部の距離情報を算出して、各母音毎の接続
部のデータを統計的に割り出して最も距離的に近いデー
タをターゲット値として補間することより、接続部が統
計的に統−されて母音にずれが生じなくできるため合成
音質は改善と、音質改善の作業時間を削減できる。

【００３６】入力部により日本語文章を入力し、言語処
理部にて単語辞書を利用した言語処理を行って構文解析
し、合成パラメータ生成部により上記構文解析に従っ
て、読み韻律記号、アクセント、区切りを含む信号と音
源ファイルからそれに対応した素片を取り出し、音声合
成部により合成音声信号を生成するとともに、上記合成
パラメータ生成部は、原音声から切り出された素片が格
納された上記音源ファイルの素片毎に１フレームずつ分
解された音源データを１ベクトルとみなして母音別素片
を分解し、同母音を含む素片接続部の距離情報を算出し
て、各母音毎の接続部のデータを統計的に割り出して最
も距離的に近いデータをターゲット値として補間処理を
行うことにより、接続部が統計的に統−されて母音にず
れが生じなくできるため合成音質は改善と、音質改善の
作業時間を削減できる。

【図面の簡単な説明】

【図１】この発明に係る音声合成処理方法及び音声合成
装置を説明するための概略的なブロック図である。

【図２】本発明に係る音声合成方法及び音声合成装置を
説明するための―実施例を示すブロック図である。

【図３】本発明に係る音声合成方法及び音声合成装置を
説明するための他の―実施例を示すブロック図である。

【図４】この発明に係る音声合成方法及び音声合成装置
に用いられる音源加工の処理手順の―例を説明するため
のフローチャート図である。

【図５】この発明を説明するための素片接続概略図であ
る。

【図６】この発明に係る音源データ成分分解処理の一例
を示す説明図である。

【図７】この発明に係る母音別素片データ解析の一例を
示す説明図である。

【図８】この発明に係る素片データの演算処理の一例を
示すフローチャート図である。

【図９】この発明に係る素片の接続部での補間処理の―
例を示す説明図である。

【図１０】この発明に係る音声合成装置が搭載されたナ
ビゲ―ションシステムの一実施例を示す構成図である。

【図１１】素片編集方式の音声合成の手順を説明するた
めの説明図である。

【符号の説明】

１，８，１８…入力部、２，９，１９…言語処理部、
３，１０，２０…単語辞書、４，１１，２１…合成パラ
メータ生成部、５，１２，２４…音声合成部、６，１
３，１６，２２…音源ファイル、７，１７，２５…音声
出力部、１４…新音源ファイル、１５…音源加工処理
部、２６，２７、２９，３０…素片、２８…ターゲット
値、３１…マイクロプロセッサ、３２…フラッシュメモ
リ、３３…ＤＲＡＭ、３４…キー入力部、３５…情報再
生装置、３６…ＣＤ−ＲＯＭ（ＤＶＤ）、３７…スカジ
ーインタフェース回路、３８…内部バス、３９…音声Ｉ
／Ｆ、４０…ＤＡＣ、４１…スピーカ、４２…画像処理
プロセッサ、４３…ＤＲＡＭ、４４…ＤＡＣ、４５…ビ
デオ出力部、４６…表示モニタ。

Claims

【特許請求の範囲】

【請求項１】入力された日本語文章を単語辞書を利用
して言語処理して構文解析し、かかる解析から読み韻律
記号、アクセント、区切りを含む信号を形成して、音源
ファイルより必要な音源情報を読み取とって音声データ
を生成する素片編集の音声合成方法において、音源ファイルの素片毎に１フレームずつ分解された音源
データを１ベクトルとみなして母音別素片を分解し、同
母音を含む素片接続部の距離情報を算出して、各母音毎
の接続部のデータを統計的に割り出して最も距離的に近
いデータをターゲット値として補間してなることを特徴
とする音声合成方法。
【請求項２】請求項１において、上記補間された素片を含む新音源ファイルを予め形成
し、かかる新音源ファイルの素片を接続して音声データ
を生成してなることを特徴とする音声合成方法。
【請求項３】請求項１において、上記補間された素片の生成と上記読み韻律記号、アクセ
ント、区切りを含む信号から上記音声データを生成する
信号処理をリアルタイムで行うようにしてなることを特
徴とする音声合成方法。
【請求項４】日本語文章が入力される入力部と、単語辞書を利用して言語処理して構文解析する言語処理
部と、上記言語処理部での構文解析に従って、読み韻律記号、
アクセント、区切りを含む信号と音源ファイルからそれ
に対応した素片を取り出す合成パラメータ生成部と、上記合成パラメータ生成部からの信号により合成音声信
号を生成する音声合成部とを備えてなり、上記音源ファイルは、原音声から切り出された素片が格
納された第１音源ファイルと、かかる第１音源ファイル
の素片毎に１フレームずつ分解された音源データを１ベ
クトルとみなして母音別素片を分解し、同母音を含む素
片接続部の距離情報を算出して、各母音毎の接続部のデ
ータを統計的に割り出して最も距離的にに近いデータを
ターゲット値として補間してなる素片が格納された第２
音源ファイルとを含み、上記合成パラメータに供給され
る素片は、上記第２音源ファイルに格納されたものとす
ることを特徴とする音声合成装置。
【請求項５】日本語文章が入力される入力部と、単語辞書を利用して言語処理して構文解析する言語処理
部と、上記言語処理部での構文解析に従って、読み韻律記号、
アクセント、区切りを含む信号と音源ファイルからそれ
に対応した素片を取り出す合成パラメータ生成部と、上記合成パラメータ生成部からの信号により合成音声信
号を生成する音声合成部とを備えてなり、上記合成パラメータ生成部は、原音声から切り出された
素片が格納された上記音源ファイルの素片毎に１フレー
ムずつ分解された音源データを１ベクトルとみなして母
音別素片を分解し、同母音を含む素片接続部の距離情報
を算出して、各母音毎の接続部のデータを統計的に割り
出して最も距離的に近いデータをターゲット値として補
間処理を行うことを特徴とする音声合成装置。