JP6323905B2

JP6323905B2 - 音声合成装置

Info

Publication number: JP6323905B2
Application number: JP2014129160A
Authority: JP
Inventors: 世木　寛之; 寛之世木; 真澄妹尾; 邦宏小滝; 清栗原; 宏生細谷; 慎一飯島; 淳倉田; 朋寛渋谷
Original assignee: NHK MEDIA TECHNOLOGY, INC.; Japan Broadcasting Corp
Current assignee: NHK MEDIA TECHNOLOGY, INC.; Japan Broadcasting Corp
Priority date: 2014-06-24
Filing date: 2014-06-24
Publication date: 2018-05-16
Anticipated expiration: 2034-06-24
Also published as: JP2016009061A

Description

本発明は、文や記号データから合成音を作成する音声合成装置に関する。

従来、合成音に限らず複数の音声データを、話速変換して無音でつなぎあわせることにより、指定時間長に収める技術が知られている（例えば、特許文献１参照）。特許文献１に記載された手法によれば、任意の複数の音声データを、人の調整を介することなく指定時間長に収めることが可能である。

そこで、例えば放送番組用の合成音を作成して送出する際に、特許文献１に記載された手法と音声合成システムを組み合わせることにより、合成音を、放送番組時間内に収めることが可能である。ただし、単純に組み合わせただけでは、音声合成システムに不具合が生じた際に放送事故になってしまうので対策が必要である。

なお、従来、株式市況の放送番組の合成音を作成して送出する音声合成システムが運用されており、当該音声合成システムは全て２重化されており、一方が壊れた場合にも放送には支障がないようになっている。

特許第４７４０７９０号公報

所定の目的の放送番組の合成音を作成して送出する音声合成装置に対して、他の目的の放送番組の合成音も作成及び送出できるようにすることを想定した場合、多くのコストや手間がかかる。具体的には、１つの放送局にて、株式市況を合成音で放送することと、天気予報を合成音で放送することの両方を実行しようとしたとき、それぞれ物理的に別のシステムで構成すると、必要となるハードウェアの量は単純に２倍になってしまう上、ソフトウェアのテストの項目数も単純に２倍になってしまう。

本発明は、以上のような問題点に鑑みてなされたものであり、異なる複数の番組の合成音を作成及び送出するために要するコストや手間を低減できる音声合成装置を提供することを課題とする。

前記課題を解決するために、本発明に係る音声合成装置は、所定時間枠の開始時刻よりも前に合成音を作成して前記所定時間枠において合成音声を再生する音声合成装置であって、入力手段と、複数の合成音作成手段と、合成音送出手段と、を備えることとした。

かかる構成によれば、音声合成装置は、入力手段によって、文、単語及び記号のうちの少なくともいずれかを含む原データを順次入力する。
そして、音声合成装置は、合成音作成手段によって、前記原データに対応した合成音を順次作成すると共に合成音間に挟む無音の長さを予め定められた方法で推定又は前記無音を生成し、当該合成音と合成音間に挾む無音の長さの情報を格納した音声ファイルを作成する。そして、音声合成装置は、合成音送出手段によって、前記所定時間枠において前記音声ファイルから必要な合成音を取り出して前記合成音の長さと合成音間に挾む無音の長さとの少なくとも一方の長さを変更して前記所定時間枠に収まるように調整した合成音声を再生する。
かかる構成の音声合成装置では、前記複数の合成音作成手段は、前記音声ファイルを共通のデータ形式でそれぞれ作成し、前記合成音送出手段を共用する。
したがって、音声合成装置は、複数の合成音作成手段を備えつつ、合成音送出手段を共用するので、必要となるハードウェアの量を低減することができ、合成音送出手段に係るテストの項目数の増加を抑制することができる。

本発明によれば、異なる複数の番組の合成音を作成及び送出するために要するコストや手間を低減することができる。

本発明の第１実施形態に係る音声合成装置の全体構成を模式的に示すブロック図である。図１の合成音作成手段の構成例を示すブロック図である。株式市況の読み上げを目的として構成した有声区間データ設定手段を模式的に示すブロック図である。気象通報の読み上げを目的として構成した有声区間データ設定手段を模式的に示すブロック図である。図４の有声区間データ設定手段における有向グラフの一例を示す図である。図４の有声区間データ設定手段における有向グラフのノードに対応したリストの一例を示す図である。図１の合成音送出手段の構成例を示すブロック図である。図７の合成音送出手段が備える伸縮率決定手段の具体的構成を示すブロック図である。（ａ）、（ｂ）は、音声再生装置の話速変換処理の概要を説明するための概略図である。本発明の第１実施形態に係る音声合成装置の処理手順（その１）を示すフローチャートである。本発明の第１実施形態に係る音声合成装置の処理手順（その２）を示すフローチャートである。本発明の第２実施形態に係る音声合成装置の全体構成を模式的に示すブロック図である。

以下、図面を参照して本発明の音声合成装置を実施するための形態（以下「実施形態」という）について詳細に説明する。

（第１実施形態）
［音声合成装置の概要］
音声合成装置１００は、所定時間枠の開始時刻よりも前に合成音を作成して所定時間枠において合成音声を再生するものである。ここで、所定時間枠とは、所定の目的の内容を表す合成音声を再生して外部に出力し、多数の人々に対して当該内容を報知する時間帯のことである。以下では、所定時間枠は、一例としてテレビやラジオ等の放送の編成の単位すなわち放送番組の番組時間尺であるものとして説明する。なお、放送は、地上デジタル放送、衛星放送、ケーブル放送等、無線、有線を問わない。

図１に示すように、音声合成装置１００は、複数の入力手段２００と、複数の合成音作成手段３００と、合成音送出手段４００とを備える。
入力手段２００は、合成音の元になる情報として文、単語及び記号のうちの少なくともいずれかを含む原データを順次入力するものである。

複数の合成音作成手段３００は、原データに対応した合成音を順次作成すると共に合成音間に挟む無音の長さを予め定められた方法で推定又は無音を生成し、合成音と合成音間に挾む無音の長さの情報を格納した音声ファイルを作成するものである。
これら複数の合成音作成手段３００は、音声ファイルを共通のデータ形式でそれぞれ作成する。
複数の合成音作成手段３００は、それぞれが互いに異なる番組の合成音を作成する。

ここで、音声ファイルは、例えば「音声データｘ（１）」、「ｘ（１）〜ｘ（２）間の無音」、「音声データｘ（２）」、「ｘ（２）〜ｘ（３）間の無音」、…、「ｘ（Ｎ−１）〜ｘ（Ｎ）間の無音」、「音声データｘ（Ｎ）」という情報に対応している。なお、合成音作成手段３００の詳細については後記する。

合成音送出手段４００は、番組時間尺において音声ファイルから必要な合成音を取り出して合成音の長さと合成音間に挾む無音の長さとの少なくとも一方の長さを変更して番組時間尺に収まるように調整した合成音声を再生するものである。この合成音送出手段４００は、音声ファイルから番組に必要な合成音を所定の順序で取り出して合成音声を再生する。

合成音送出手段４００は、音声ファイルに基づいて、例えば「音声データｘ（１）」、「ｘ（１）〜ｘ（２）間の無音」、「音声データｘ（２）」、「ｘ（２）〜ｘ（３）間の無音」、…、「ｘ（Ｎ−１）〜ｘ（Ｎ）間の無音」、「音声データｘ（Ｎ）」という入力を受けて、後記する伸縮率を計算し、個々の「音声データ及び無音」に対して伸縮率を掛けて得られた長さになるように、音声データの話速変換を行ったり、無音の長さをカット又は延長したりするなどして合わせこんで再生出力を行う。話速変換には、特許第３１８７２４１号等に記載された手法を用いることができる。

この合成音送出手段４００は、事前に複数の合成音作成手段３００にて共通のデータ形式で作成されたそれぞれの音声ファイルを用いて合成音声を再生する。つまり、複数の合成音作成手段３００は、合成音送出手段４００を共用する。なお、合成音送出手段４００の詳細については後記する。

図１に示す音声合成装置１００は、一例として、株価データに対応した株式市況の合成音を作成する合成音作成手段３００Ｍと、天気データに対応した天気予報の合成音を作成する合成音作成手段３００Ｗと、を備えることとした。また、音声合成装置１００は、原データとして株価データ（テキストデータ、数値データ）を入力する入力手段２００Ｍと、原データとして天気データ（テキストデータ、数値データ）を入力する入力手段２００Ｗと、を備えることとした。

［合成音作成手段の構成例］
合成音作成手段３００は、図２に示すように、有声区間データ設定手段３１０と、無音設定手段３２０と、音声ファイル作成手段３３０と、順序情報ファイル作成手段３４０と、音響特徴量ファイル作成手段３５０と、ファイル出力手段３６０とを備えることとした。

有声区間データ設定手段３１０は、原データに対応した合成音を有声区間データとして作成するものである。この有声区間データ設定手段３１０は、どんな番組内容を表す合成音を作成するかによって具体的な構成が異なる場合がある。なお、複数の特定目的の番組に適した複数の構成例については後記する。
無音設定手段３２０は、有声区間データと有声区間データとの間にある無音の長さを推定して設定するものである。なお、このように無音の長さ（時間長）を推定して設定する代わりに、その長さの無音（所定時間長に亘って振幅が０の音声データ）を実際に作成するようにしてもよい。ここで、無音の長さは、要素の属性により固定値でも構わないし、例えば特開２００８−１１６８２６号公報に記載された手法を用いて決定するようにしてもよい。

＜株式データが入力する場合＞
ここで、入力手段２００から原データとして株式データが有声区間データ設定手段３１０及び無音設定手段３２０に入力する場合の具体列について説明する。
例えば、株式データ（テキストデータ、数値データ）が、「ＮＨＫ（登録商標），１２万３４５６円，７８９円安、ＭＴ，９８万７６５４円，３２１円高」であれば、有声区間データ設定手段３１０は、「ＮＨＫ」の合成音、「１２万３４５６円」の合成音、「７８９円安」の合成音、「ＭＴ」の合成音、「９８万７６５４円」の合成音、「３２１円高」の合成音をそれぞれ作成する。株式市況の合成音の作成方法としては、例えば特許第４６０３２９０号に記載の手法を用いたり、市販の音声合成システムを用いたりすることができる。

また、この場合、無音設定手段３２０は、「ＮＨＫ」の合成音（有声区間データ）と「１２万３４５６円」の合成音との間にある無音の長さ、「１２万３４５６円」の合成音と「７８９円安」の合成音との間にある無音の長さ、「７８９円安」の合成音と「ＭＴ」の合成音との間にある無音の長さ、「ＭＴ」の合成音と「９８万７６５４円」の合成音との間にある無音の長さ、「９８万７６５４円」の合成音と「３２１円高」の合成音との間にある無音の長さをそれぞれ推定して設定する。ここで、無音の長さは、要素の属性により固定値でも構わないし、例えば特開２００８−１１６８２６号公報に記載された手法を用いて決定するようにしてもよい。

＜天気データが入力する場合＞
次に、入力手段２００から原データとして天気データが有声区間データ設定手段３１０及び無音設定手段３２０に入力する場合の具体列について説明する。
例えば、天気データ（テキストデータ）が、「山口東部は、晴れるでしょう。山口西部は、晴れときどき曇りでしょう。」であれば、有声区間データ設定手段３１０は、「山口東部は」の合成音、「晴れるでしょう」の合成音、「山口西部は」の合成音、「晴れときどき曇りでしょう」の合成音をそれぞれ作成する。天気予報の合成音の作成方法としては、例えば特許第５０５４６３２号に記載の手法を用いたり、市販の音声合成システムを用いたりすることができる。

また、この場合、無音設定手段３２０は、「山口東部は」の合成音（有声区間データ）と「晴れるでしょう」の合成音との間にある無音の長さ、「晴れるでしょう」の合成音と「山口西部は」の合成音との間にある無音の長さ、「山口西部は」の合成音と「晴れときどき曇りでしょう」の合成音との間にある無音の長さをそれぞれ推定して設定する。ここで、無音の長さは、要素の属性により固定値でも構わないし、例えば特開２００８−１１６８２６号公報に記載された手法を用いて決定するようにしてもよい。

音声ファイル作成手段３３０は、有声区間データ設定手段３１０で作成された合成音（有声区間データ）と、無音設定手段３２０で設定された無音の長さとを含む音声ファイルを作成するものである。
音声ファイル作成手段３３０には、有声区間データ設定手段３１０から音声データと文章を読み上げる場合の順序が入力され、無音設定手段３２０から無音の長さの情報が入力される。
音声ファイル作成手段３３０は、個々の有声区間データに対応した個別ファイルを番組時間尺で再生する分だけ全てまとめた１つの大きな音声ファイルを作成する。この音声ファイルには、例えば、音声部品番号、読み上げ（テキスト）データ、音声波形データ、合成音のデータ長、無音の長さ等が含まれている。

音声ファイル作成手段３３０は、番組時間尺において再生する合成音（所定時間枠に必要な合成音）のうち重複した合成音については１つだけ音声ファイルに格納する。なお、重複した合成音の再生順序については順序情報ファイルに記載する。具体的には、例えば、株式市況の番組で「５０００円」の合成音の再生が２回必要であっても、音声ファイルには「５０００円」の合成音は１つだけ格納される。音声ファイルに格納された全ての合成音のデータ長の合計の長さは、通常、番組に必要な音声のデータ長とは異なっている。

順序情報ファイル作成手段３４０は、音声ファイル中の合成音の再生順序情報が格納された順序情報ファイルを作成するものである。
順序情報ファイル作成手段３４０には、有声区間データ設定手段３１０から音声データと文章を読み上げる場合の順序が入力される。なお、文章を読み上げる場合の順序等は入力手段２００から入力してもよい。
音声ファイルでは、音声データが識別情報（音声部品番号等）に対応付けられる。このような音声データの識別情報を、文章を読み上げる場合の順序に対応付けた再生順序情報を生成することで、再生順序や再生タイミングを設定することができる。この順序情報ファイルは、番組時間尺において再生する合成音（所定時間枠に必要な合成音）のうち重複した合成音については、その重複した合成音の再生順序を含んでいる。また、順序情報ファイルは、合成音送出手段４００にて合成音声を再生する際に、合成音の再生リストとして利用される。

音響特徴量ファイル作成手段３５０は、合成音の音声の高さの情報が格納された音響特徴量ファイルを作成するものである。
音響特徴量ファイル作成手段３５０には、有声区間データ設定手段３１０から音声データと文章を読み上げる場合の順序が入力される。なお、文章を読み上げる場合の順序等は入力手段２００から入力してもよい。
ここで、音声の高さの情報には、合成音の全ての区間における音声の高さの情報が含まれる。これらの音声の高さの情報は、合成音送出手段４００にて合成音声を再生する際に、話速変換を行うために利用される。これにより、合成音送出手段で音声の高さを抽出することなく、話速変換を行うことができる。

なお、この音響特徴量ファイルについては、例えば、汎用的な音声データとして予め集積したデータ毎に、先端ピッチ周波数や後端ピッチ周波数等の情報を、上記声の高さの情報として格納したデータベース（不図示）を利用して、入力手段２００から原データが入力する前に作成できる部分を事前に作成しておいてもよい。

ファイル出力手段３６０は、音声ファイルと、順序情報ファイルと、音響特徴量ファイル（以下、音声ファイル等と略記する場合もある）を合成音送出手段４００に出力するものである。音声ファイル等を合成音送出手段４００に出力する際に３つのファイルを同時に出力してもよいし、異なるタイミングで出力してもよい。

［特定目的に適した有声区間データ設定手段の構成例］
＜株式市況の読み上げ目的＞
図３に示す有声区間データ設定手段３１０Ｍは、株式市況の読み上げに用いる数値特有の合成音を作成するために、数値音声記憶手段３１１ｍと、数値分割手段３１２ｍと、数値音声探索手段３１３ｍと、数値音声連結手段３１４ｍとを備えている。これらの構成は、株式市況を読み上げる際の数値に関する合成音の作成方法の一例として特許第４６０３２９０号に記載の手法を用いたものであり、当該合成音の作成方法自体は本発明と直接的な関係がないため、ここでは概略のみ説明する。なお、図３では、有声区間データ設定手段３１０Ｍの出力側（右側）において、順序情報ファイル作成手段３４０及び音響特徴量ファイル作成手段３５０を省略し、代表して音声ファイル作成手段３３０のみ図示した。

加えて、この有声区間データ設定手段３１０Ｍは、株式市況の読み上げに用いる数値以外の会社名等の非数値の合成音を作成するために、非数値音声記憶手段３１１ｎと、非数値分割手段３１２ｎと、非数値音声探索手段３１３ｎと、非数値音声連結手段３１４ｎとを備えている。これらの構成は、従来公知の一般的なテキストデータの合成音の作成方法と同様のものであり、当該合成音の作成方法自体は本発明と直接的な関係がないため、ここでは概略のみ説明する。

数値音声記憶手段３１１ｍは、ハードディスク等の記憶媒体によって構成されており、数値（数値データ）の桁区切りの発話時刻に関連付けた数値、つまり、桁毎の数値を読み上げた音声データを単位音声として記憶しているものである。この実施形態では、数値音声記憶手段３１１ｍは、桁の集合からなる「文章」を構成単位としており、各文章には「文番号」が付されており、各桁の発話時刻が記憶されている。

数値分割手段３１２ｍは、入力手段２００Ｍに入力された数値（数値データ）を、各桁（位取りしたもの）に分割した各桁分割候補とするものである。各桁分割候補は、数値を各桁に分割したもの、例えば、１０桁の数値であれば１０個に、６桁の数値であれば６個に分割したものである。

また、この数値分割手段３１２ｍは、入力手段２００Ｍに入力された数値（数値データ）に当該数値の単位（例えば、円、株、個）が付加されていた場合には、数値の最後の桁（１桁目）を分割する際に、この１桁目の数値に単位を付加した数値単位候補に分割するものである。例えば、最後の桁の数値が「３」であり、単位が「円」である場合、「３円」が数値単位候補となる。

数値音声探索手段３１３ｍは、入力された数値（数値データ）が数値分割手段３１２ｍで分割された各桁分割候補を探索単位として、数値音声記憶手段３１１ｍに記憶されている音声データを連結した連結コストが最小になる、各桁分割候補に対応する音声データの組み合わせである音声データ列を探索するものである。ここで、連結コストは、数値（各桁分割候補）に対応する音声データがどれだけ滑らかに接続されるかを示す指標である。

数値音声連結手段３１４ｍは、数値音声探索手段３１３ｍにより数値音声記憶手段３１１ｍを探索した探索結果である音声データ列に含まれる音声データそれぞれを連結（接続）するものである。数値音声連結手段３１４ｍは、音声データ同士を連結した連結部分の補正を行う機能も有している。この数値音声連結手段３１４ｍは、連結され、補正された音声データ列を、数値（数値データ）を音声合成した結果である有声区間データとして、音声ファイル作成手段３３０に出力する。

非数値音声記憶手段３１１ｎは、数値（数値データ）以外のテキストデータを読み上げた音素又は単語を単位とした音声データを単位音声として記憶している点が数値音声記憶手段３１１ｍと相違するが同様にハードディスク等の記憶媒体によって構成されている。

非数値分割手段３１２ｎは、入力手段２００Ｍに入力されたテキストデータを、非数値音声記憶手段３１１ｎにて単位音声としている記憶している単位（音素又は単語）に対応する単位データに分割するものである。

非数値音声探索手段３１３ｎは、入力されたテキストデータが非数値分割手段３１２ｎで分割された単位データを探索単位として、非数値音声記憶手段３１１ｎに記憶されている音声データを連結した連結コストが最小になる、各単位データに対応する音声データの組み合わせである音声データ列を探索するものである。

非数値音声連結手段３１４ｎは、非数値音声探索手段３１３ｎにより非数値音声記憶手段３１１ｎを探索した探索結果である音声データ列に含まれる音声データそれぞれを連結（接続）するものである。非数値音声連結手段３１４ｎは、連結された音声データ列を、非数値（非数値データ）を音声合成した結果である有声区間データとして、音声ファイル作成手段３３０に出力する。

＜気象通報の読み上げ目的＞
図４に示す有声区間データ設定手段３１０Ｗは、グラフ群蓄積手段３１５と、入力文章グラフ解析手段３１６と、音声選択手段３１７と、音声接続手段３１８と、を備えている。これらの構成は、気象通報を読み上げる際の合成音の作成方法の一例として特許第５０５４６３２号に記載の手法を用いたものであり、当該合成音の作成方法自体は本発明と直接的な関係がないため、ここでは概略のみ説明する。

グラフ群蓄積手段３１５は、予め外部から入力された複数の有向グラフを蓄積し、入力文章グラフ解析手段３１６の求めに応じて、当該有向グラフを出力するものであり、ハードディスク又はフラッシュメモリ等で構成される。有向グラフは、複数のノードと各ノード間の接続を表すエッジとで構成され、前記したノードのそれぞれに置換可能なテキストデータと、当該テキストデータに対応する複数の音声が割り当てられて全体として文章を形成することができるものを意味している。

有向グラフは、例えば図５に示すように、「ＳＴＡＲＴ」で示された開始ノードと、「［場所］の」という変数を含むノードＡ１と、「［緯度］」という変数からなるノードＡ２と、「［経度］付近には」という変数を含むノードＡ３と、「［気圧］の」という変数を含むノードＡ４と、「［番号］から変わった＋（擾乱・・・）」、「（・・・変わった）−［擾乱種類］があって」、「［擾乱種類］があって」という変数を含むノードＡ５と、「ほとんど停滞しています」からなるノードＡ６と、「［方角］へ」という変数を含むノードＡ７と、「毎時［時速］で進んでいます」という変数を含むノードＡ８と、「ＥＮＤ」で示された終了ノードと、各ノード間に矢印で示されたエッジと、から構成されている。なお、図５に示す有向グラフにおいて、「［］」は変数を表している。

また、ノードＡ１〜Ａ８における各変数には、図６に示すように、複数のテキストデータのリストが割り当てられている。例えば［場所］のリストには、「日本のはるか東、…」等が含まれており、［緯度］のリストには、北緯０度から南緯０度までの度数が含まれており、［経度］には、東経１度から西経１８０度までの度数が含まれている。また、［気圧］のリストには、７００ヘクトパスカルから１２００ヘクトパスカルまでの数値が含まれており、［番号］のリストには、台風第１号から台風第２００号までの号数が含まれている。そして、［擾乱種類］のリストには、「熱帯低気圧があって、…」等が含まれており、［方角］のリストには、東西南北を表す１６方位が含まれており、［時速］のリストには、１キロから５００キロまでの速度が含まれている。

そして、これらのリスト（置換可能なテキストデータ）は、有向グラフのノードのそれぞれに関連づけて、グラフ群蓄積手段３１５に蓄積されており、有向グラフを比較する際にノードに対応したリストを参照できるようになっている。また、グラフ群蓄積手段３１５には、図６に示すリスト（置換可能なテキストデータ）のそれぞれに対応する音声が予め割り当てられて蓄積されている。

入力文章グラフ解析手段３１６は、外部から入力された入力文と、グラフ群蓄積手段３１５に蓄積されている複数の有向グラフとを比較することで、入力文と、グラフ群蓄積手段３１５に蓄積されているいずれかの有向グラフのノードにおけるテキストデータとの対応関係を得る。そして、入力文章グラフ解析手段３１６は、入力文に対応するテキストデータと、当該テキストデータに割り当てられた音声とを音声選択手段３１７に対して出力する。

ここで、例えば、「ルソン島の北緯１６度東経１２２度付近には９５０ヘクトパスカルの台風第３号から変わった熱帯低気圧があって南へ毎時１０ｋｍで進んでいます」という文が入力された場合、入力文章グラフ解析手段３１６は、図５に示すように、有向グラフ及び図６のリストから、［場所］＝「ルソン島」、［緯度］＝「北緯１６度」、［経度］＝「東経１２２度」、［気圧］＝「９５０ヘクトパスカル」、〈分岐１〉＝「１」、［番号］＝「台風第３号」、［擾乱種類］＝「熱帯低気圧」、〈分岐２〉＝「２」、［方角］＝「南」、［時速］＝「１０ｋｍ」という対応関係を得る。そして、入力文章グラフ解析手段３１６は、これらのテキストデータと、当該テキストデータに割り当てられた音声とを音声選択手段３１７に対して出力する。

音声選択手段３１７は、入力文章グラフ解析手段３１６において得られた対応関係を用いて、有向グラフのノードにおけるテキストデータと対応付けられている音声について、当該音声と接続する前後の音声の接続部分における類似度が最大となる組み合わせを選択する。そして、音声選択手段３１７は、選択した音声の組み合わせを音声接続手段３１８に対して出力する。音声接続手段３１８は、音声選択手段３１７によって選択された音声の組み合わせを入力文の構成順に接続し、合成音声からなる有声区間データとして出力する。

［合成音送出手段の構成］
図１の合成音送出手段４００の構成について、図７〜図９を参照しながら説明する。
合成音送出手段４００は、ここでは図７に示すように、ファイル管理手段４１０と、伸縮率決定手段４２０と、再生出力用データ作成手段４３０と、音声バッファリング手段４４０と、音声再生手段４５０と、を備えている。

＜ファイル管理手段４１０＞
ファイル管理手段４１０は、合成音作成手段３００で作成された音声ファイル等を記憶して管理するものであり、ファイル記憶手段４１１と、制御手段４１５と、を備えている。

≪ファイル記憶手段４１１≫
ファイル記憶手段４１１は、データを記憶することができるハードディスク又はフラッシュメモリ等で構成される。
ファイル記憶手段４１１は、音声ファイル５００を上書可能に記憶するための２つの記憶領域４１２ａ，４１２ｂを有する。音声ファイル５００は、合成音作成手段３００で作成された音声ファイルである。なお、音声ファイル５００には、話速変換前の音声データが格納されており、これら音声データが識別情報（音声部品番号等）に対応付けられている。ここで、音声データとは、例えばフレーズ単位や単語単位の音声を示すデータのことを示している。

ファイル記憶手段４１１は、２つの記憶領域４１２ａ，４１２ｂを有しているので、例えば、一方に音声ファイル５００が記憶され、他方が空いているときに、合成音作成手段３００から、更新された音声ファイルを受信した場合に、その更新ファイルも記憶できる。また、後記するように、所定のタイミングで一方の記憶領域が上書不可にロックされることで、音声合成装置１００のシステム安定性を高めることができる。

ファイル記憶手段４１１は、順序情報ファイル６００を記憶するための２つの記憶領域４１３ａ，４１３ｂを有する。順序情報ファイル６００は、合成音作成手段３００で作成された順序情報ファイルである。この順序情報ファイルは、放送番組において再生する音声データの種類及び順番が示されたリスト（再生リスト）であることを示している。

ファイル記憶手段４１１は、音響特徴量ファイル７００を記憶するための２つの記憶領域４１４ａ，４１４ｂを有する。音響特徴量ファイル７００は、合成音作成手段３００で作成された音響特徴量ファイルである。
ファイル記憶手段４１１は、ここでは図７に示すように、合成音送出手段４００内に設けられているが、外部に設けられた構成としても構わない。

≪制御手段４１５≫
制御手段４１５は、例えばＣＰＵ（Central Processing Unit）から構成され、合成音作成手段３００から受信する音声ファイル等をファイル記憶手段４１１に記憶して管理するものである。

制御手段４１５は、音声ファイル５００から、順序情報ファイル６００に記載されている音声データを読み込み、図示しないメモリ上に展開する。そして、制御手段４１５は、メモリ上に蓄えた音声データのうち、１回の話速変換に必要な分の音声データを話速変換手段４３３に対して出力する。ここで、「１回の話速変換に必要な分の音声データ」とは、ファイル管理手段４１０の図示しないメモリ上に蓄えられた音声データのうちの一部の音声データのことを示しており、具体的には、音声データの話速変換の際の単位となる波形の基本周期を３つ以上有する長さの音声データのことを示している。

制御手段４１５は、番組に必要なデータであって図示しないメモリ上に蓄えている話速変換前の音声データの長さの総和（以下、残音声データの長さという）を伸縮率決定手段４２０内の残必要時間算出手段４２２（図８参照）及び再生出力用データ作成手段４３０内の目標時間長算出手段４３１に対して出力する。

制御手段４１５は、番組における開始時刻以前の指定時刻を検出した場合又は外部から所定信号を受け付けた場合に、その時点で最新の音声ファイルが格納されている側の記憶領域を、上書可能の非ロック状態から上書不可のロック状態に遷移させる。制御手段４１５は、上書不可のロック状態に遷移している記憶領域４１２ａに格納された音声ファイル５００を参照して音声データを抽出する。

したがって、音声合成装置１００のシステム安定性を高めるためにファイル記憶手段４１１に音声ファイルのための２つの記憶領域４１２ａ，４１２ｂを設けて更新ファイルも記憶できるようにしていたとしても、指定時刻を検出した場合やユーザ操作によるロック指示を受け付けることで、オンエアに用いる音声ファイルを保護できる。そのため、本番（オンエア）中において、再生に用いている音声ファイルが書き換えられるといった放送事故が起こらない放送用の音声合成装置とすることができる。

なお、詳細は図８を参照して後記するが、本実施形態では、ファイル管理手段４１０の制御手段４１５は、例えば現在時刻や番組の終了時刻等の時刻情報を伸縮率決定手段４２０に出力することとした。さらに、話速変換を行う前の音声データの長さの総和の情報（残音声データの長さ）や、合成音声の再生を番組時間尺内に収めるために使う予め定められた無音の長さ（基準無音長）の情報等も伸縮率決定手段４２０に出力することとした。

＜伸縮率決定手段４２０＞
伸縮率決定手段４２０は、音声ファイル５００に格納された音声データの話速変換を行う際の伸縮率を決定するものである。本実施形態では、番組の放送中に伸縮率を適宜変化させるために、伸縮率決定手段４２０が、図８に示すように、残期間算出手段４２１と、残必要時間算出手段４２２と、伸縮率算出手段４２３と、を備えることとした。

≪残期間算出手段４２１≫
残期間算出手段４２１には、図８に示すように、ファイル管理手段４１０内の（制御手段４１５：図７参照）から、番組放送中の現在時刻と放送番組の終了時刻とが入力されるとともに、音声バッファリング手段４４０から当該音声バッファリング手段４４０が保存している無音付音声データの長さが入力される。ここで、「無音付音声データ」とは、無音接続手段４３４において、話速変換後の音声データに、当該音声データ間の間を示す無音が接続されたものを示している。

そして、残期間算出手段４２１は、以下の式（１）に示すように、「終了時間−現在時刻」から音声バッファリング手段４４０に保存されている無音付音声データの長さの総和を減算することで残放送時間（残期間）を算出し、図８に示すように、当該残放送時間（残期間）を伸縮率算出手段４２３に対して出力する。

残放送時間（残期間）
＝（終了時刻−現在時刻）−音声バッファリング手段内の無音付音声データの長さの総和
… 式（１）

前記式（１）における（終了時間−現在時刻）は、放送番組の放送中において処理時点における当該番組の終了時刻までの期間であって、放送中に適宜変化する変数である。この（終了時間−現在時刻）は、指定時間長であって、現在時刻から見て番組が終了するまでに要する今後の客観的な放送時間である。
「音声バッファリング手段内の無音付音声データの長さの総和」とは、音声バッファリング手段４４０に保存されて未再生である無音付音声データの長さの総和のことである。
つまり、残放送時間（残期間）とは、上記指定時間長（今後の客観的な放送時間）とは異なり、伸縮率の計算に必要な一時記憶時間を考慮した放送時間のことである。

≪残必要時間算出手段４２２≫
残必要時間算出手段４２２には、図８に示すように、ファイル管理手段４１０内の制御手段４１５（図７参照）から、残音声データの長さと基準無音長とが入力される。
そして、残必要時間算出手段４２２は、以下の式（２）に示すように、残音声データの長さに、基準無音長の総和を加算することで残コンテンツ時間（残必要時間）を算出し、図８に示すように、当該残コンテンツ時間（残必要時間）を伸縮率算出手段４２３に対して出力する。

残コンテンツ時間（残必要時間）＝残音声データの長さ＋基準無音長の総和
… 式（２）

前記式（２）における「残音声データの長さ」は、放送番組に必要な合成音であって処理時点において話速変換されていない音声データの長さの総和のことであり、「基準無音長」とは予め定められた無音の長さである。

≪伸縮率算出手段４２３≫
伸縮率算出手段４２３には、図８に示すように、残期間算出手段４２１から残放送時間（残期間）が入力され、残必要時間算出手段４２２から残コンテンツ時間（残必要時間）が入力される。そして、伸縮率算出手段４２３は、以下の式（３）に示すように、残コンテンツ時間（残必要時間）に対する残放送時間（残期間）の値を伸縮率として算出し、図８に示すように、当該伸縮率を目標時間長算出手段４３１及び話速変換手段４３３に対して出力する。

伸縮率＝残放送時間（残必要時間）／残コンテンツ時間（残必要時間） … 式（３）

なお、伸縮率は、場合によって１００％よりも小さいときや大きいときがある。伸縮率が１００％以下の場合、話速変換で早くしたり、無音の長さをカットするなどすればよく、伸縮率が１００％より大きい場合、話速変換で遅くしたり、無音の長さを延長したりすればよい。

＜再生出力用データ作成手段４３０＞
再生出力用データ作成手段４３０は、音声データの話速変換を行うとともに、話速変換後の音声データに無音を接続するものである。再生出力用データ作成手段４３０は、ここでは図７に示すように、目標時間長算出手段４３１と、時間長差分算出手段４３２と、話速変換手段４３３と、無音接続手段４３４と、を備えている。

≪目標時間長算出手段４３１≫
目標時間長算出手段４３１は、個々の音声データの話速変換後の目標時間長を算出するものである。この目標時間長算出手段４３１は、ファイル管理手段４１０内の制御手段４１５を介して音声ファイル５００を参照して、話速変換前の音声データの長さ及び基準無音長を取得する。加えて、目標時間長算出手段４３１には、伸縮率決定手段４２０内の伸縮率算出手段４２３（図８参照）から伸縮率が入力される。そして、目標時間長算出手段４３１は、以下の式（４）に示すように、話速変換前の音声データの長さに基準無音長を加算し、当該加算した値に伸縮率を乗算することで、個々の音声データについての目標時間長を算出し、図７に示すように、当該目標時間長を時間長差分算出手段４３２に対して出力する。なお、目標時間長算出手段４３１は、個々の音声データごとに目標時間長を算出するため、例えば音声データの数が４つの場合は目標時間長も４つ分算出する。

目標時間長＝（話速変換前の音声データの長さ＋基準無音長）×伸縮率 … 式（４）

前記式（４）における「話速変換前の音声データの長さ」は、放送番組に必要な合成音であって処理時点において話速変換されていない個々の音声データの長さのことであり、「基準無音長」とは予め定められた無音の長さである。

≪時間長差分算出手段４３２≫
時間長差分算出手段４３２は、所定の音声データについての目標時間長から当該所定の音声データを話速変換した後の音声データの長さを減算することで、両者の差分を算出するものである。

時間長差分算出手段４３２には、図７に示すように、所定の音声データについて目標時間長算出手段４３１から目標時間長が入力され、当該所定の音声データについて話速変換手段４３３から話速変換後の音声データの長さが入力される。そして、時間長差分算出手段４３２は、以下の式（５）に示すように、目標時間長から話速変換後の音声データの長さを減算することで、両者の差分である時間長差分を算出し、図７に示すように、当該時間長差分を無音接続手段４３４に対して出力する。

時間長差分＝目標時間長−話速変換後の音声データの長さ … 式（５）

前記式（５）において、「話速変換後の音声データ」とは、話速変換手段４３３によって話速変換された音声データであって、無音が接続されていない音声データのことを示している。

≪話速変換手段４３３≫
話速変換手段４３３は、伸縮率決定手段４２０によって決定された伸縮率に従って、音声データの話速変換を行うものである。
話速変換手段４３３には、図７に示すように、ファイル管理手段４１０内の制御手段４１５から１回の話速変換に必要な分の音声データが入力され、伸縮率決定手段４２０内の伸縮率算出手段４２３（図８参照）から伸縮率が入力される。そして、話速変換手段４３３は、例えば音声データのパワー、零交差数、自己相関関数を用いて音声区間を検出するとともに、音声区間についてピッチ周期の抽出を行い、そのピッチ周期と伸縮率とによって規定される時間長に基づいて、音声波形の間引き／繰り返しを行い、音声波形同士を適切な時間長で重ね合わせて接続することで、話速変換を行う。なお、このような話速変換手法については、公知の技術を用いることができる（例えば、特許第３３２７９３６号、特許第２９５５２４７号）。

話速変換手段４３３は、例えば図９（ａ）に示すように、音声データの入力波形を分析して基本周期（例えば５〜１０ミリ秒）を抽出する。そして、話速変換手段４３３は、図９（ａ）に示すように、基本周期分の音声波形を間引くことで音声データを短縮して話速を速め、基本周期分の音声波形を繰り返すことで音声データを伸長して話速を遅くする。なお、図９（ａ）では、（３）の音声波形と（８）の音声波形とを間引くあるいは繰り返して話速変換を行っているが、これは一例を示したものである。

ここで、話速を変換する方法としては、例えばテープの遅回しのような方法もあるが、この場合は図９（ｂ）に示すように、音声波形の基本周期の数は変えずに、当該基本周期自体を長くするため、話速変換後の音声が低くなってしまう。一方、話速変換手段４３３における話速変換は、図９（ａ）に示すように、音声波形の基本周期を変えずに、当該基本周期を間引く、あるいは繰り返すことで基本周期の数を変化させるため、話速変換後の音声の高さは変化しないという利点がある。

話速変換手段４３３は、以上のような処理によって音声データの話速変換を行い、図７に示すように、話速変換後の音声データを無音接続手段４３４に対して出力するとともに、話速変換後の音声データの長さを時間長差分算出手段４３２に対して出力する。

≪無音接続手段４３４≫
無音接続手段４３４は、所定長の無音を話速変換後の音声データに接続することで、無音付音声データを生成するものである。この無音接続手段４３４には、図７に示すように、時間長差分算出手段４３２から時間長差分が入力され、話速変換手段４３３から話速変換後の音声データが入力される。そして、無音接続手段４３４は、時間長差分に相当する長さの無音を話速変換後の音声データに接続して無音付音声データを生成し、図７に示すように、当該無音付音声データを音声バッファリング手段４４０に対して出力する。

＜音声バッファリング手段４４０＞
音声バッファリング手段４４０は、無音接続手段４３４によって生成された無音付音声データを一時的に保存するものである。音声バッファリング手段４４０は、図７に示すように、無音接続手段４３４から入力された無音付音声データを保存し、音声再生手段４５０の要求に応じて、これらを順次出力する。

また、音声バッファリング手段４４０は、図７に示すように、当該音声バッファリング手段４４０内に保存されていてまだ出力されていない無音付音声データを合成音声として再生するために要する時間、つまり、その時点で保存されている無音付音声データの長さの総和を伸縮率決定手段４２０内の残期間算出手段４２１（図８参照）に対して出力する。ここで、音声バッファリング手段４４０は、具体的にはデータを記憶することができるハードディスクまたはフラッシュメモリ等で構成される。

＜音声再生手段４５０＞
音声再生手段４５０は、音声バッファリング手段４４０によって保存された無音付音声データから合成音声を再生するものである。音声再生手段４５０は、図７に示すように、音声バッファリング手段４４０内に保存されている無音付音声データを古いものから順番に必要な個数だけ取り出し、スピーカ等の図示しない音声デバイスに対して出力して再生する。なお、音声再生手段４５０が音声バッファリング手段４４０から取り出す無音付音声データの必要な個数は、例えば音声再生手段４５０や音声デバイスの性能によって適宜設計変更される。

合成音送出手段４００は、前記したように、伸縮率算出手段４２３によって複数の音声データのうち、予め定められた数の音声データごとに伸縮率を算出し、話速変換手段４３３によって複数の音声データのうち、予め定められた数の音声データごとに前記した伸縮率に従って話速変換を行う。したがって、合成音送出手段４００によれば、音声の再生前に番組に必要な全ての音声データを一定の伸縮率で話速変換するのではなく、音声の再生中にその都度伸縮率や無音の長さを調整しながら一部ずつ話速変換を行うため、放送中の再生時に何らかの不具合が生じたり、もしくは終了時間の変更が行われて番組時間尺が変動したりした場合であっても、音声データを番組時間尺内に収めて再生することができる。

［音声合成装置の処理手順］
＜合成音作成手段＞
音声合成装置１００の主として合成音作成手段３００の処理手順について、図１０を参照（適宜図１及び図２を参照）しながら説明する。ここでは、一例として株式市況の番組の合成音を作成する合成音作成手段３００Ｍについて説明する。
まず、放送局において、音声合成装置１００の外部にある図示しないサーバは、例えば番組を開始する１〜２時間前に、株価データ提供元である通信社から専用回線を通して番組内容の原データ（株価データ）を取得する（ステップＳ３０１）。

ここで、図示しないサーバは、音声合成装置１００とファイルを共有しており、そのため、音声合成装置１００は、株価データの更新を検知すると、入力手段２００によって、番組内容の原データ（株価データ）を合成音作成手段３００Ｍに入力する（ステップＳ３０２）。

そして、合成音作成手段３００Ｍは、有声区間データ設定手段３１０によって、原データ（株価データ）から合成音を作成する（ステップＳ３０３）。また、無音設定手段３２０によって、無音を設定する。

そして、合成音作成手段３００Ｍは、音声ファイル作成手段３３０によって、株式市況の合成音（有声区間データ）と無音の長さとを含む１つの大きな音声ファイルを作成する（ステップＳ３０４）。また、順序情報ファイル作成手段３４０によって、合成音の再生リストとなる順序情報ファイルを作成する。また、音響特徴量ファイル作成手段３５０によって、音声の高さの情報を含む音響特徴量ファイルを作成する。

そして、合成音作成手段３００Ｍは、ファイル出力手段３６０によって、音声ファイル等を合成音送出手段４００へ出力する（ステップＳ３０５）。
合成音作成手段３００Ｍは、株価データの入力から音声ファイルの出力まで例えば１分程度といった僅かな時間で実行できるので、合成音送出手段４００は、番組を開始する１〜２時間前には、株価市況の放送番組のための合成音声の再生に用いる音声ファイルを取得することができる。

＜合成音送出手段＞
次に、音声合成装置１００の主として合成音送出手段４００の処理手順について、図１１を参照（適宜図１及び図７を参照）しながら説明する。ここでは、合成音送出手段４００が一例として株式市況の番組の合成音を送出するものとして説明する。

合成音送出手段４００は、ファイル管理手段４１０によって、合成音作成手段３００Ｍから、音声ファイルを取得する（ステップＳ４０１）。ファイル管理手段４１０の制御手段４１５は、音声ファイルをファイル記憶手段４１１の所定の記憶領域４１２ａ（又は４１２ｂ）に格納する。また、制御手段４１５は、合成音作成手段３００Ｍから順序情報ファイルを受信した場合、ファイル記憶手段４１１の記憶領域４１３ａ（又は４１３ｂ）に格納する。また、制御手段４１５は、合成音作成手段３００Ｍから音響特徴量を受信した場合、ファイル記憶手段４１１の記憶領域４１４ａ（又は４１４ｂ）に格納する。

ここで、ファイル管理手段４１０の制御手段４１５は、番組開始前の指定時刻（例えばオンエアの１０分前）になる前であれば、合成音作成手段３００から新規のファイルを受け付けて古いファイルから順に上書更新してもよい。
一方、番組開始前の指定時刻になったら、ファイル管理手段４１０の制御手段４１５は、その時点で最新の再生出力用の音声ファイルを上書不可にロックする（ステップＳ４０２）。なお、この指定時刻以降に新規のファイルを受信した場合、上書可能の非ロック状態になっている側の記憶領域に古いファイルから順に上書更新するようにしてもよい。

その後、ファイル管理手段４１０の制御手段４１５は、番組開始時刻になるまで待機し（ステップＳ４０３：Ｎｏ）、番組開始時刻になった場合（ステップＳ４０３：Ｙｅｓ）、合成音送出手段４００は、伸縮率決定手段４２０によって、前記式（３）で定義された伸縮率を算出する（ステップＳ４０４）。そして、話速変換手段４３３は、算出された伸縮率を用いて音声データの話速を変換する（スプＳ４０５）。そして、無音接続手段４３４は、話速変換後の音声データに対して前記式（５）で定義された時間長差分の無音を接続することで無音付音声データを生成する（ステップＳ４０６）。この無音付音声データは音声バッファリング手段４４０に一時記憶される。そして、音声再生手段４５０は、音声バッファリング手段４４０によって保存された無音付音声データから合成音声を再生する（ステップＳ４０７）。

合成音送出手段４００は、番組に必要な合成音声の再生が終了するまで（ステップＳ４０８：Ｎｏ）、上記ステップＳ４０４〜ステップＳ４０７の一連の処理を続行し、番組終了時刻になったら（ステップＳ４０８：Ｙｅｓ）、処理を終了する。

なお、ここでは、番組開始時刻から番組終了時刻まで合成音声を使用するものとして説明したが、合成音声を使用する番組の最中、例えば、番組冒頭、番組最後、番組途中等に通常の発話音声も使用してもよい。具体的には、番組冒頭と番組最後だけアナウンサーが発話して内容を伝える場合、番組における合成音声区間の開始時刻は、番組冒頭のアナウンサー発話区間の終了直後の時刻となり、合成音声区間の終了時刻は、番組最後のアナウンサー発話区間の開始直前の時刻となる。

第１実施形態に係る音声合成装置１００は、互いに目的の異なる株式市況と天気予報の各番組に関して、株式市況の番組の合成音を作成する合成音作成手段３００Ｍと、天気予報の番組の合成音を作成する合成音作成手段３００Ｗとを別々に構成し、かつ、各番組に関して合成音送出手段４００を共有化して構成されている。このように構成することで、株式市況と天気予報の各番組に関して全て別々に構成した場合に比べ、ハードウェアを共有化し、合成音送出手段４００におけるテスト項目を共有化できるなど、省力化することができる。ここで、合成音送出手段４００のハードウェアを共有化すれば、当該ハードウェアに必要なスペースや費用を削減することができ、合成音送出手段４００におけるソフトウェアのテストにかかる時間や費用を削減することができる。

第１実施形態に係る音声合成装置１００は、放送に直結した合成音送出手段４００と、放送番組の開始時刻よりも数時間前にメイン動作を行う合成音作成手段３００と、を分離して設けて構成されている。このように構成することで、合成音送出手段４００は、放送機器レベルの安定性が求められるが、合成音作成手段３００に関しては放送に直結しないため、合成音送出手段４００ほどの安定性を必要とするものではない。仮に合成音作成手段３００において不具合が生じたとしても、一般的には合成音作成手段３００が外部のサーバから原データを受信した時点で不具合が判明することから、放送番組の開始時刻よりも例えば１時間前、少なくとも３０分前には明らかになる。よって、原データから合成音声の作成ができなかったとしても、アナウンサーによる読み上げなどの代替手段をとることが可能である。よって、音声合成装置１００によれば、放送事故の起こらない安定した放送用の音声合成装置を構築することができる。

（第２実施形態）
図１２は、本発明の第２実施形態に係る音声合成装置の全体構成を模式的に示すブロック図である。なお、図１に示す構成と同様の構成には同様の符号を付して説明を省略する。第２実施形態に係る音声合成装置１００Ｂは、複数のメディアに対応して複数の合成音送出手段４００を備えている。図１２に示す例では、音声合成装置１００Ｂは、２つの合成音作成手段３０１Ｍ，３０１Ｗと、２つの合成音送出手段４００Ｂ，４００Ｃを備えている。

合成音作成手段３０１Ｍは、図１に示した合成音作成手段３００Ｍと同様の機能を備えており、株式市況の放送番組の合成音を含む音声ファイルを作成する。
合成音作成手段３０１Ｗは、図１に示した合成音作成手段３００Ｗと同様の機能を備えており、天気予報の放送番組の合成音を含む音声ファイルを作成する。
加えて、合成音作成手段３０１Ｍ，３０１Ｗは、作成した音声ファイルがいずれの合成音送出手段４００Ｂ，４００Ｃに対するものであるのかを識別する識別情報を当該音声ファイルに付加する機能を有している。

合成音送出手段４００Ｂ，４００Ｃは、図１に示した合成音送出手段４００と同様の機能を備えている。
加えて、合成音送出手段４００Ｂ，４００Ｃは、合成音作成手段３０１Ｍ，３０１Ｗから音声ファイルを取得した際に、自己に付与された識別情報と、取得した音声ファイルに付加されている識別情報とが一致する場合のみ当該音声ファイルに基づいて合成音声を再生する機能を有している。これにより、合成音送出手段４００Ｂ，４００Ｃにおける読み間違いを防ぐことができる。

図１２に示す例では、２つのメディアのうちラジオ放送に対しては、合成音送出手段４００Ｂが用いられ、インターネット放送に対しては、合成音送出手段４００Ｃが用いられることとした。ここで、合成音送出手段４００Ｂは、２つの合成音作成手段３０１Ｍ，３０１Ｗで共用され、合成音送出手段４００Ｃも、同様に２つの合成音作成手段３０１Ｍ，３０１Ｗで共用されている。

つまり、例えば合成音送出手段４００Ｂを備えてラジオ放送における株式市況の放送番組の合成音声の再生を実現可能な音声合成装置において、さらに合成音送出手段４００Ｃを追加するだけで、同様の株式市況の放送番組をインターネット放送においても実現することができることになる。

その際に、株式市況の放送番組の番組時間尺は、２つのメディアにおいて必ずしも同じである必要はない。例えば放送局の編成の都合上、ラジオ放送における株式市況の放送番組の番組時間尺が１５分であった場合、同じ音声ファイルであっても合成音送出手段４００Ｃにて、より聞き取りやすい話速に変換して、より自然な音声の間となるように間を調整するなどして２０分番組となるようにしてもよい。

音声合成装置１００Ｂの主として合成音作成手段３０１Ｍ，３０１Ｗの処理手順については、図１０のステップＳ３０４にて、作成した音声ファイルがいずれの合成音送出手段４００Ｂ，４００Ｃに対するものであるのかを識別する識別情報を当該音声ファイルに付加する以外は、第１実施形態と同様なので説明を省略する。

音声合成装置１００Ｂの主として合成音送出手段４００Ｂ（又は４００Ｃ）の処理手順については、図１１のステップＳ４０１にて取得した音声ファイルに付加されている識別情報と、自己に付与された識別情報とが一致する場合のみ当該音声ファイルに基づいて合成音声を再生する以外は、第１実施形態と同様なので説明を省略する。

第２実施形態に係る音声合成装置１００Ｂは、２つのメディアに対応して２つの合成音送出手段４００Ｂ，４００Ｃを備えているので、ラジオ放送における株式市況の放送番組と、インターネット放送における株式市況の放送番組とを、異なるタイミング及び異なる時間尺で再生して自動放送することが可能になる。
また、音声合成装置１００Ｂは、２つのメディアに対応して２つの合成音送出手段４００Ｂ，４００Ｃを備えているので、ラジオ放送における天気予報の放送番組と、インターネット放送における天気予報の放送番組とを、異なるタイミング及び異なる時間尺で再生することができる。
さらに、音声合成装置１００Ｂは、２つのメディアに対応して２つの合成音送出手段４００Ｂ，４００Ｃを備えているので、ラジオ放送における天気予報の放送番組（又は株式市況の放送番組）と、インターネット放送における株式市況の放送番組（又は天気予報の放送番組）とを、異なるタイミング及び異なる時間尺で再生することができる。

＜第２実施形態の変形例＞
２つのメディアに対応して２つの合成音送出手段４００Ｂ，４００Ｃを備えることとしたが、さらにラジオ放送を、ＡＭラジオ放送とＦＭラジオ放送とに分けて送出する場合、合成音送出手段４００をさらに追加すればよい。つまり、メディアの種類の数は３つ以上であってもよい。

以上、実施形態に基づいて本発明に係る音声合成装置について説明したが、本発明はこれらに限定されるものではない。例えば、各実施形態では、音声合成装置１００，１００Ｂが２つの合成音作成手段３００を備えることとしたが、３つ以上であってもよい。
各実施形態では、所定の目的の内容を表す合成音声を作成するための原データを株価データと天気データとしたが、その他に例えばニュース原稿データであってもよい。
また、各実施形態では、所定の目的の内容を表す合成音声を再生して外部に出力し、多数の人々に対して当該内容を報知する方法が放送であるものとしたが、テレビ放送やラジオ放送に限らず通信によるものであってもよいし、防災無線等に適用してもよい。

音声合成装置１００は、電子回路が各種電子部品や半導体デバイス等によってハードウェア的に構築された回路であってもよいし、当該装置１００の各構成の処理を汎用的または特殊なコンピュータ言語によって記述した音声合成プログラムとこれを処理するＣＰＵの協働によって実現するものであってもよい。

１００，１００Ｂ音声合成装置
２００，２００Ｍ，２００Ｗ入力手段
３００，３００Ｍ，３００Ｗ，３０１Ｍ，３０１Ｗ合成音作成手段
３１０，３１０Ｍ，３１０Ｗ有声区間データ設定手段
３１１ｍ数値音声記憶手段
３１２ｍ数値分割手段
３１３ｍ数値音声探索手段
３１４ｍ数値音声連結手段
３１１ｎ非数値音声記憶手段
３１２ｎ非数値分割手段
３１３ｎ非数値音声探索手段
３１４ｎ非数値音声連結手段
３１５グラフ群蓄積手段
３１６入力文章グラフ解析手段
３１７音声選択手段
３１８音声接続手段
３２０無音設定手段
３３０音声ファイル作成手段
３４０順序情報ファイル作成手段
３５０音響特徴量ファイル作成手段
３６０ファイル出力手段
４００，４００Ｂ，４００Ｃ合成音送出手段
４１０ファイル管理手段
４１１ファイル記憶手段
４１２ａ，４１２ｂ，４１３ａ，４１３ｂ，４１４ａ，４１４ｂ記憶領域
４１５制御手段
４２０伸縮率決定手段
４２１残期間算出手段
４２２残必要時間算出手段
４２３伸縮率算出手段
４３０再生出力用データ作成手段
４３１目標時間長算出手段
４３２時間長差分算出手段
４３３話速変換手段
４３４無音接続手段
４４０音声バッファリング手段
４５０音声再生手段
５００音声ファイル
６００順序情報ファイル
７００音響特徴量ファイル

Claims

所定時間枠の開始時刻よりも前に合成音を作成して前記所定時間枠において合成音声を再生する音声合成装置であって、
文、単語及び記号のうちの少なくともいずれかを含む原データを順次入力する入力手段と、
前記原データに対応した合成音を順次作成すると共に合成音間に挟む無音の長さを予め定められた方法で推定又は前記無音を生成し、当該合成音と合成音間に挾む無音の長さの情報を格納した音声ファイルを作成する複数の合成音作成手段と、
前記所定時間枠において前記音声ファイルから必要な合成音を取り出して前記合成音の長さと合成音間に挾む無音の長さとの少なくとも一方の長さを変更して前記所定時間枠に収まるように調整した合成音声を再生する合成音送出手段と、を備え、
前記複数の合成音作成手段は、前記音声ファイルを共通のデータ形式でそれぞれ作成し、前記合成音送出手段を共用することを特徴とする音声合成装置。
複数のメディアに対応して複数の前記合成音送出手段を備え、
前記複数の合成音作成手段は、前記音声ファイルがいずれの合成音送出手段に対するものであるのかを識別する識別情報を当該音声ファイルに付加し、
前記合成音送出手段は、自己に付与された識別情報と前記音声ファイルに付加された識別情報とが一致する場合のみ当該音声ファイルに基づいて合成音声を再生することを特徴とする請求項１に記載の音声合成装置。
前記複数の合成音作成手段は、前記所定時間枠に必要な合成音のうち重複した合成音については１つだけ前記音声ファイルに格納し、前記重複した合成音の再生順序を含んで前記音声ファイルに格納された合成音についての再生順序情報を記載した順序情報ファイルと共に、前記合成音送出手段に出力し、
前記合成音送出手段は、前記順序情報ファイルに記載された再生順序情報にしたがって、前記音声ファイルから前記所定時間枠に必要な合成音を抽出して合成音声を再生する
ことを特徴とする請求項１又は請求項２に記載の音声合成装置。