JP2008116826A

JP2008116826A - 休止時間長算出装置及びそのプログラム、並びに音声合成装置

Info

Publication number: JP2008116826A
Application number: JP2006301711A
Authority: JP
Inventors: Nobumasa Seiyama; 信正清山; Toru Tsugi; 徹都木
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2006-11-07
Filing date: 2006-11-07
Publication date: 2008-05-22
Anticipated expiration: 2026-11-07
Also published as: JP4778402B2

Abstract

【課題】録音編集方式の音声合成において、音声部品データを接続する際に、自然な聴感が得られる音声部品データ間の休止時間長を算出する休止時間長算出装置及びそのプログラム、並びにこの休止時間算出装置を備えた音声合成装置を提供する。
【解決手段】所定の単位のテキストを発話した音声波形を記録した音声部品データを接続して音声合成を行う際に、休止時間長算出装置４０は、音声部品データに記録された音声波形における所定の音響的特徴量を検出する音響的特徴量検出部４１０と、互いに接続される音声部品データにおいて先行する先行音声部品データの音響的特徴量と、後続の後続音声部品データの音響的特徴量との音響的距離を算出する音響的距離算出部４３０と、音響的距離に基づいて、予め設定した算出式を用いて音声部品データ間に挿入する休止時間長を算出する休止時間長算出部４４０と、を備える。
【選択図】図６

Description

本発明は、テキストを発話した音声を予め録音した音声部品データを接続して音声合成を行う、録音編集方式による音声合成技術に関する。

予め単語や文節、定型文等を録音した音声部品データを接続して音声合成を行う、いわゆる録音編集方式による音声合成においては、合成できる語彙や文の種類が限定されるものの、扱う音声の単位が比較的長いこともあり、より品質の高い音声が得られるが、音声部品データ間の接続部における音声の音響的特徴（ピッチ周波数、話速、パワー、スペクトル包絡等）の連続性が品質に影響していた。

そこで、例えば、定型文に単語や文節を差し挟む場合や、単語や文節を組み合せて文を構成する場合等においては、例えば、接続時の各音声部品データの前後の音響的特徴を考慮して発声された音声を収録するなど、一般的に、音声部品データの録音段階から音声部品データを接続した際に音響的特徴の不連続が生じないような工夫をしたり、不連続が気にならないように、ある程度長めのポーズを挟んで音声部品データを接続したりしていた。

一方、従来、任意のテキストを合成可能な、規則に基づく音声合成では、より自然な合成音声を得るために、音声区間に対するピッチ周波数、継続時間長、パワー、並びに、音声区間同士の間の休止時間長（ポーズ長）をきめ細かに制御する必要があり、様々な韻律制御方法が提案されている。

その中で、ポーズ長の設定についても、実際に発話された音声データの分析に基づいた制御規則が提案されている。例えば、特許文献１において、入力された合成音声の情報に応じてポーズ長を設定する方法が提案されている。特許文献１に記載された音声規則合成装置は、入力された合成音声の音韻継続長や基本周波数等の情報と、予め設定したポーズ設定規則とに基づき、先行句と後続句との係り受け関係や読点の有無に応じて、先行句と後続句との間の句境界におけるポーズ挿入の有無や、挿入する場合は、ポーズの種類に応じて基準値を設定した後、ポーズ長に影響を与える文法的な要因によってポーズ長を補正すると共に、１モーラ長の整数倍になるように設定するものである。

また、特許文献２において、人による発話を録音した音声波形データから音素列の音声波形データを切出して、音素列データベースを予め作成しておき、音声合成対象となるテキスト情報を構成する音素列に対応する音素列データを接続する録音編集方式の音声合成装置が提案されている。特許文献２に記載の音声合成装置は、音素列データを接続する際に、先行する音素列データの後端部の無音部分長及び後続の音素列データの先端部の無音部分長の短いほうの無音部分長を、音素列データの接続部の無音部分長とすることにより、何れかの無音部分長が極端に長い場合であっても、自然な音声合成を行えるようにするものである。
特許第３０６０４２２号公報（段落００１９〜段落００２３、図３）特開２００２−４１０７７号公報（段落００１２）

しかしながら、従来の録音編集方式の音声合成において、音声部品データ間の接続部における音声の音響的特徴に不連続が生じないように録音を行う場合には、録音済みの音声を試聴するなどして、発声の目標となる刺激を参照したり、収録済みの音声との適合度合いを確認しながら録音を進めたりするなど、発話者や録音作業者に過度の負担を強いるものであった。

また、不連続が気にならないように、安全を見込んで、ある程度長めのポーズを挟んで接続する場合には、間延びして自然性を損なうという問題があった。これを避けるために、適切な長さのポーズを設定するには、長さを変えて試聴により試行を繰り返す必要があり、非効率であった。また、一般的には、固定長のポーズを用いるため、読み上げ方が規則的で、いわゆる機械的な印象になりがちであった。

一方、特許文献１に記載の音声規則合成装置は、規則合成に利用するものであるが、入力された合成音声の情報と、先行句と後続句との係り受け関係や読点の有無やポーズの種類に応じて、基準値を設定した後、ポーズ長に影響を与える文法的な要因によってポーズ長を補正するものであり、録音編集方式への応用も考えられる。

しかし、録音編集方式に特許文献１に記載の装置を適用すると、音声部品データを組み合わせて定型文を構成する場合や、定型文に単語や文節を差し挟む場合等においては、同じ文法構造をした文となり、同じ文法構造であれば同じポーズ長を与えることになる。
規則合成では、元々ポーズ前後の環境における音響的特徴を制御して揃えることができるので、同じ文法構造をした文に対して同じポーズ長を与えたとしても問題はないが、録音編集方式では、音声部品データ間の接続部における音声の音響的特徴を考慮して、適切なポーズ長を設定しなければ、音声部品データの接続部において不連続感が生じ、合成音声の自然性を損なうことになる。また、同じ文法構造をした文に対して同じポーズ長を与えることにより、やはり読み上げ方が規則的で、いわゆる機械的な印象になってしまうという問題があった。

また、特許文献２に記載の音声合成装置は、接続する音素列データ間の無音部分長を、たまたま作成した音素列データの端部の無音部分長の短い方を採用するものであり、音響的特徴の連続性を十分に考慮したものではなかった。

そこで、本発明は、録音編集方式の音声合成において、音声部品データを接続する際に、自然な聴感を得られる音声部品データ間の休止時間長を算出する休止時間長算出装置及びそのプログラム、並びに、この休止時間長算出装置を備えた音声合成装置を提供することを目的とする。

そのために、請求項１に記載の休止時間長算出装置は、所定の単位のテキストを発話した音声波形を記録した音声部品データを接続して音声合成を行う際に、互いに接続される音声部品データ間に挿入する休止時間長を算出する休止時間長算出装置であって、音響的特徴量取得手段と、音響的距離算出手段と、休止時間長算出手段と、を備えて構成した。

かかる構成によれば、休止時間長算出装置は、互いに接続される音声部品データにおいて先行する先行音声部品データ及び後続の後続音声部品データに記録された音声波形における、それぞれの音響的特徴量を音響的特徴量取得手段によって取得する。次に、音響的距離算出手段によって、音響的特徴量取得手段で取得された先行音声部品データの音響的特徴量と、後続音声部品データの音響的特徴量との音響的な差異を表わす音響的距離を算出する。そして、休止時間長算出手段によって、音響的距離算出手段で算出された音響的距離に基づいて、予め設定した算出式を用いて先行音声部品データと後続音声部品データとの間に挿入する休止時間長を算出する。
これによって、休止時間長算出装置は、互いに接続される音声部品データ間の音響的距離に応じた適切な休止時間長を算出することができる。

請求項２に記載の休止時間長算出装置は、請求項１に記載の休止時間長算出装置において、前記音響的特徴量取得手段は、ピッチ周波数、話速、パワー又はスペクトル包絡の内の少なくとも１つの音響的特徴量を取得するように構成した。

かかる構成によれば、休止時間長算出装置は、音響的特徴量取得手段によって取得した音声の高さを表すピッチ周波数、発話のスピードを表す話速、音声の大きさを表すパワー又は音声の響きを表すスペクトル包絡の内の、少なくとも１つの音響的特徴量の差異に応じて、音声部品データ間の休止時間長を算出することができる。

請求項３に記載の休止時間長算出装置は、請求項１又は請求項２に記載の休止時間長算出装置において、前記算出式として、前記音響的距離算出手段によって算出された音響的距離を説明変数とする回帰式を用いるように構成した。

かかる構成によれば、休止時間長算出装置は、互いに接続される音声部品データ間の音響的距離と回帰係数との積和演算によって休止時間長を算出することができる。

請求項４に記載の音声部品データ間の休止時間長算出プログラムは、所定の単位のテキストを発話した音声波形を記録した音声部品データを接続して音声合成を行う際に、互いに接続される音声部品データ間に挿入する休止時間長を算出するために、コンピュータを、音響的特徴量取得手段、音響的距離算出手段、休止時間長算出手段、として機能させる構成とした。

かかる構成によれば、音声部品データ間の休止時間長算出プログラムは、互いに接続される音声部品データにおいて先行する先行音声部品データ及び後続の後続音声部品データに記録された音声波形における、それぞれの音響的特徴量を音響的特徴量取得手段によって取得する。次に、音響的距離算出手段によって、音響的特徴量取得手段で取得された先行音声部品データの音響的特徴量と、後続音声部品データの音響的特徴量との音響的な差異を表わす音響的距離を算出する。そして、休止時間長算出手段によって、音響的距離算出手段で算出された音響的距離に基づいて、予め設定した算出式を用いて先行音声部品データと後続音声部品データとの間に挿入する休止時間長を算出する。
これによって、音声部品データ間の休止時間長算出プログラムは、互いに接続される音声部品データの音響的距離に応じた適切な休止時間長を算出することができる。

請求項５に記載の音声合成装置は、所定の単位のテキストを発話した音声波形を記録した音声部品データを接続して音声合成を行う音声合成装置であって、音声部品データ記憶手段と、読み上げ情報取得手段と、音声部品データ取得手段と、休止時間長算出装置と、を備えて構成した。

かかる構成によれば、音声合成装置は、まず、読み上げ情報取得手段によって、音声合成の対象となる、決められた順番で連続的に読み上げられるテキストからなるか、又はこのテキストを構成する所定の単位のテキストに対応する音声部品データを指定した情報からなる読み上げ情報を取得する。次に、音声部品データ取得手段によって、読み上げ情報取得手段で取得した読み上げ情報に基づいて、予め音声波形を記録した音声部品データ記憶した音声部品データ記憶手段から、所望の音声部品データを取得する。そして、休止時間長算出装置によって、音声合成の対象となるテキストを構成する音声部品データ間に挿入する休止時間長を算出し、この休止時間長を、音声部品データ間の休止時間として設定する。
これによって、音声合成装置は、音声部品データ間に、それぞれ互いに接続される音声部品データ間の音響的距離に応じた休止時間を挿入した音声合成データを作成することができる。

請求項１又は請求項４に記載の発明によれば、録音編集方式の音声合成において、互いに接続される音声部品データ間に挿入する休止時間を、音声部品データ間の音響的距離に応じて算出するため、この休止時間を挿入して再生される音声を、不連続感や機械的な印象を与えない自然な聴感の合成音声とすることができる。
請求項２に記載の発明によれば、音声部品データ間に挿入する休止時間を、音声部品データ間の、音声の高さを表すピッチ周波数の差異、発話のスピードを表す話速の差異、音声の大きさを表すパワーの差異又は音声の響きであるスペクトル包絡の差異に応じて休止時間長を算出するため、この休止時間を挿入して再生される音声を、用いた音響的特徴量が表わす音声の高さ、発話スピード、音声の大きさ又は音声の響きの不連続間を与えない自然な聴感の合成音声とすることができる。
請求項３に記載の発明によれば、休止時間長を、音響的距離を説明変数とする回帰式によって算出するため、音響的距離と回帰式の係数との積和演算によって簡便に算出することができる。
請求項５に記載の発明によれば、録音編集方式の音声合成において、互いに接続される音声部品データ間に挿入する休止時間を、音声部品データ間の音響的距離に応じて算出して設定するため、この休止時間を挿入して作成された音声合成データを再生することで、不連続感や機械的な印象を与えない自然な聴感の音声を得ることができる。

以下、本発明の実施形態について適宜図面を参照して詳細に説明する。
＜音声合成装置の構成＞
まず、図１を参照して、本発明による休止時間長算出装置４０を備えた音声合成装置１００の構成について説明する。ここで、図１は、本実施形態の音声合成装置の構成を示すブロック図である。

図１に示した本実施形態の音声合成装置１００は、読み上げ情報入力部１０、音声部品データ取得部２０、音声部品データ記憶部３０、休止時間長算出装置４０、音声合成データ記憶部５０及び音声再生部６０を備えて構成されている。

ここで、各部の詳細について説明する前に、図２から図５を参照して、本実施形態の読み上げ情報及び音声部品データの構成、並びに休止時間長を設定する原理について説明する。

まず、図２を参照して、読み上げ情報の構成について説明する。なお、図２は、読み上げ情報の構成を説明するための説明図である。
図２に示した読み上げ情報の例では、“文節”を単位とし、１つ又は複数の文節によって“文”が構成され、更に、複数の文によって、読み上げ情報が構成されており、文番号をｉ、読み上げ情報を構成する文の数をＮ、各文における文節番号をｊ、各文を構成する文節の数をＭ_ｉで表している。なお、各文は、文番号ｉの順番で連続的に読み上げられ、各文の文節は、文節番号ｊの順番で連続的に読み上げられる。
また、phr[i][j]は、ｉ番目の文におけるｊ番目の文節に対応する１個の音声部品データを示している。

なお、本実施形態では、音声部品データは、文節を単位として構成したが、これに限定されるものではなく、音素、単語、形態素、文節、文等を単位としてもよいし、これらの単位を混在して音声部品データを構成するようにしてもよい。

次に、図３及び図４を参照して、音声部品データの構成の一例について説明する。ここで、図３は、音声部品データのデータ構造を示す図であり、図４は、音声部品データに含まれる音声波形データの構成を模式的に示す構成図である。

図３に示した音声部品データのデータ構造は、基本データとして、音声部品番号、読み上げ（テキスト）データ、音声波形データ、拍数（モーラ数）、データ長（全時間長）を含み、音響的特徴量に関するデータとして、先端無音長、後端無音長、先端非有声音長、後端非有声音長、先端ピッチ周波数、後端ピッチ周波数、平均話速、平均パワー、先端スペクトル包絡、後端スペクトル包絡を含み、付加データ（設定データ）として、休止時間長を含んで構成されている。

なお、本実施形態において、録音編集方式の音声合成のために用いられる音声部品データは、予め基本データが設定されて、音声部品データ記憶部３０（図１参照）に記憶されている。

基本データには、音声部品を識別するための音声部品番号と、音声部品の内容を示す読み上げデータ、すなわちテキストデータと、そのテキストデータを発話者が発話した音声を録音した音声波形データと、テキストデータの拍数（モーラ数）と、データ長（音声波形データの全時間長）とが設定されている。

例えば、図３に示した例では、音声部品番号として“１２３４５６”、読み上げデータとして“Ｋ放送（けいほうそう）”、音声波形データ（図４のＰ_Ａ参照）として所定のサンプリング周波数（例えば、数ｋＨｚ〜数十ｋＨｚ程度）でサンプリングされたデジタルデータ、拍数として“６”、データ長として“１２００（ｍｓ）”が設定されている。

音響的特徴量に関するデータは、休止時間長算出装置４０において休止時間長を算出するための中間データであり、休止時間長を算出する過程において音響的特徴量検出部４１０によって算出され、一時的に設定されるデータである。

付加データである休止時間長は、休止時間長算出装置４０（図１参照）によって算出されて設定されるデータである。このデータは、音声合成において、後ろに接続される音声部品データとの音響的特徴量の差異（音響的距離）に基づいて決定されるデータであり、同じ音声部品番号の音声部品データであっても、読み上げ情報において文番号ｉ及び文節番号ｊによって指定される音声部品データが用いられる位置によって異なる値となる。

次に、各データについて、図３及び図４を参照して説明する。
図４には、音声合成において先行する先行音声部品データＰ_Ａ、及び、この先行音声部品データの後ろに接続される後続音声部品データＰ_Ｂの音声波形データを示している。

図４に示した例では、先行音声部品データＰ_Ａは、株式の銘柄「Ｋ放送（けいほうそう）」を録音した音声部品データであり、後続音声部品データＰ_Ｂは、株価「４０円（よんじゅうえん）」を録音した音声部品データである。図４は、その音声波形を示している。
なお、図４において、左右方向が時間軸であり、左から右に向かって時間が経過するものとする。

図４に示したように、各音声部品データＰ_Ａ，Ｐ_Ｂの音声波形について、それぞれ、データ開始位置、音声開始位置、有声音開始位置、有声音終了位置、音声終了位置、データ終了位置を定めることができる。

データ長は、音声波形データの始点であるデータ開始位置から音声波形データの終点であるデータ終了位置までの全データ長である。

先端無音長及び後端無音長は、それぞれ、音声波形データの「データ開始位置から音声開始位置までの間」及び「音声終了位置からデータ終了位置までの間」の無音区間の長さである。

先端非有声音長及び後端非有声音長は、それぞれ、音声波形データの「データ開始位置から有声音開始位置までの間」及び「有声音終了位置からデータ終了位置までの間」の有声音を含まない非有声音区間の長さである。非有声音区間には、無音区間と無声音区間とが含まれる。

また、音声区間長は、データ長から先端無音長と後端無音長とを減じることにより算出することができる。

なお、音声開始位置、有声音開始位置、有声音終了位置及び音声終了位置は、休止時間長算出装置４０の音響的特徴量検出部４１０（図１参照）によって、音声波形データを音響分析することによって検出され、検出された音声開始位置、有声音開始位置、有声音終了位置及び音声終了位置、並びにデータ開始位置及びデータ終了位置に基づいて各区間の長さを算出することができる。

休止時間長は、音声再生時に先行音声部品データＰ_Ａと後続音声部品データＰ_Ｂとの接続部に挿入されるポーズ（無音状態）の時間長であり、休止時間長算出装置４０の休止時間長算出部４４０（図１参照）によって算出され、休止時間長設定部４５０（図１参照）によって先行音声部品データＰ_Ａに設定される。

次に、図５を参照（適宜図３参照）して、本発明による休止時間長を設定する原理について説明する。ここで、図５は、本発明による休止時間長を設定する原理を説明するための説明図である。

本発明は、休止時間長算出装置４０（図１参照）によって、先行音声部品データＰ_Ａと後続音声部品データＰ_Ｂとの接続部に、先行音声部品データＰ_Ａと後続音声部品データＰ_Ｂとの音響的特徴量の差異に基づいて、休止時間（無音状態）を設定するものである。これによって、音声部品データＰ_Ａ，Ｐ_Ｂに含まれる音声波形を自然な聴感となるように接続して再生することが可能となる。

図５は、音響的特徴量の例としてピッチ周波数Ｆ０を用いた場合について示している。
ピッチ周波数Ｆ０を用いて、先行音声部品データＰ_Ａと後続音声部品データＰ_Ｂとを接続する場合は、先行音声部品データＰ_Ａの有声音終了位置における後端ピッチ周波数ｅｄ．Ｆ０_Ａと、後続音声部品データＰ_Ｂの有声音開始位置における先端ピッチ周波数ｓｔ．Ｆ０_Ｂとの差異、すなわち音響的な“距離”（以降、適宜“音響的距離”と呼ぶ）に基づいて、先行音声部品データＰ_Ａと後続音声部品データＰ_Ｂとの間の接続部に挿入する休止時間長を設定する。

互いに接続される音声部品データＰ_Ａ及びＰ_Ｂにおいて、音響的距離が大きい場合には、そのまま音声波形を連続して再生すると、不連続で不自然な聴感となる。また、音響的距離にかかわらず、長めの休止時間を挿入した場合は、間延びした感じになる場合が生じると共に、機械的な読み上げの印象を与えることになる。

そこで、本発明では、先行音声部品データＰ_Ａと後続音声部品データＰ_Ｂとの音響的距離が大きいほど接続部に挿入する休止時間を長く設定し、音響的距離が小さいほど接続部に挿入する休止時間を短く設定することにより、自然な聴感が得られる音声再生を可能とするものである。

なお、用いる音響的特徴量によって、音声波形における音響的特徴量を参照する位置に違いがあるが、詳細については後記する。

図１に戻って、音声合成装置１００の各部の構成について説明する。
読み上げ情報入力部（読み上げ情報取得手段）１０は、音声合成を行う対象となる読み上げ情報を入力するための入力部であり、例えば、読み上げ情報が記憶されている磁気ディスク装置、光ディスク装置、フラッシュメモリ等の記憶装置から、音声合成の対象とする読み上げ情報を読み出して取得するものである。また、ネットワークや電話回線等の通信回線を介して読み上げ情報を入力するようにしてもよいし、キーボード等の入力デバイスを介して入力するようにしてもよく、入力手段については特に限定されない。
読み上げ情報入力部１０は、入力した読み上げ情報を音声部品データ取得部２０に出力する。

なお、本実施形態では、読み上げ情報入力部は、文節に対応した音声部品データを指定する情報として入力するようにしたが、通常のテキストデータを読み上げ情報として入力し、適宜な手法を用いて文節等の単位に分解し、予め準備された音声部品データに対応付けるようにしてもよい。

音声部品データ取得部（音声部品データ取得手段）２０は、読み上げ情報入力部１０から出力された読み上げ情報を入力し、入力した読み上げ情報を構成する“文節”に対応する音声部品データを順次に音声部品データ記憶部３０から読み出して取得し、休止時間長算出装置４０の音響的特徴量検出部４１０に出力する。

音声部品データ記憶部（音声部品データ記憶手段）３０は、音声部品データを記憶する、例えば、磁気ディスク装置、光ディスク装置、半導体メモリ等の記憶装置であり、発話した文節を録音した音声波形データを設定された音声部品データが、予め記憶されている。
音声部品データ記憶部３０に記憶されている音声部品データは、音声部品データ取得部２０によって適宜読み出される。

休止時間長算出装置４０は、音響的特徴量検出部４１０、先行音声部品データ記憶部４２０、音響的距離算出部４３０、休止時間長算出部４４０及び休止時間長設定部４５０を備えて構成されている。
休止時間長算出装置４０は、音声部品データ取得部２０から出力された音声部品データを入力し、入力した音声部品データから音響的特徴量を検出し、検出した音響的特徴量を用いて、互いに接続される音声部品データ間の音響的距離を算出し、算出した音響的距離に基づいて、互いに接続される音声部品データ間の休止時間長を算出し、算出した休止時間長を音声部品データに付加（設定）して音声合成データ記憶部５０に記憶する。
休止時間長算出装置４０の各部の詳細な構成については後記する。

音声合成データ記憶部５０は、休止時間長算出装置４０の休止時間長設定部４５０によって休止時間長が設定された音声部品データを記憶する、例えば、磁気ディスク装置、光ディスク装置、半導体メモリ等の記憶装置である。
音声合成データ記憶部５０は、休止時間長が設定された音声部品データを、読み上げ情報入力部１０で入力した読み上げ情報で指定された文番号及び文節番号に対応付けて順次記憶する。そして、読み上げ情報に含まれるすべての文節に対応して、休止時間長が設定された音声部品データを記憶することで、音声合成データ記憶部５０に、読み上げ情報に対応する音声合成データが形成される。
音声合成データ記憶部５０に形成された音声合成データは、音声再生部６０によって読み出される。

音声再生部６０は、音声合成データ記憶部５０に形成され読み上げ情報に対応する音声合成データを読み出し、文番号及び文節番号によって対応付けられた音声部品データに含まれる音声波形データを、順次アナログの音声波形信号に再生し、再生した音声波形信号をスピーカ７０に出力する。
音声再生部６０は、音声部品データに含まれる音声波形データを音声波形信号に再生すると共に、その音声部品データに設定された休止時間長だけ無音状態を挿入した後に、次の音声部品データの再生を行う。

スピーカ７０は、音声再生部６０から出力された音声波形信号を入力し、入力した音声波形信号を音波に変換して、聴取可能に再生する。

なお、本実施形態では、音声合成装置１００は、休止時間長を設定した音声部品データによって形成した音声合成データを、音声再生部によって音声波形信号に再生してスピーカに出力し、聴取可能に再生するように構成したが、例えば、音声合成データをネットワーク等の通信回線や放送波を介して送信するようにし、受信装置側で音声合成データを再生するようにしてもよい。

＜休止時間長算出装置の構成＞
次に、図６を参照（適宜図１参照）して、本実施形態の休止時間長算出装置４０の構成について詳細に説明する。ここで、図６は、本実施形態の休止時間長算出装置の構成を示すブロック図である。

図６に示した休止時間長算出装置４０は、音響的特徴量検出部４１０、先行音声部品データ記憶部４２０、音響的距離算出部４３０、休止時間長算出部４４０及び休止時間長設定部４５０を備えて構成されている。

音響的特徴量検出部（音響的特徴量取得手段）４１０は、フレーム化処理部４１１、スペクトル分析部４１２、ピッチ周波数検出部４１３、話速検出部４１４、パワー検出部４１５及びスペクトル包絡検出部４１６を備えて構成されており、音声部品データ取得部２０から出力された音声部品データを入力し、入力した音声部品データに含まれる音声波形データを分析して音響的特徴量を検出し、検出した音響的特徴量に関するデータ（図３参照）を音声部品データに設定し、音響的特徴量に関するデータを設定した音声部品データを音響的距離算出部４３０に出力すると共に、先行音声部品データ記憶部４２０に記憶する。

本実施形態の音響的特徴量検出部４１０は、ピッチ周波数検出部４１３、話速検出部４１４、パワー検出部４１５及びスペクトル包絡検出部４１６によって、それぞれ、音声の高さを表わす“ピッチ周波数”、話すスピードを表す“話速”、音声の大きさを表す“パワー”及び音声の響きを表す“スペクトル包絡”の４つの音響的特徴量を検出する。

なお、本実施形態では前記した４つの音響的特徴量を検出するが、このうちの１つ又は複数の音響的特徴量を検出するようにしてもよいし、例えば、端部の音素の継続時間長等の他の音響的特徴量を検出するようにしてもよい。

次に、音響的特徴量検出部４１０の各部の詳細について説明する。
フレーム化処理部４１１は、入力された音声部品データに含まれる音声波形データから所定の間隔で窓関数を用いて音声波形データを切り出すフレーム化処理を行う。
フレーム化処理を行う際には、例えば、フレーム長を２０〜４０ｍｓ程度、フレーム間隔を５〜２０ｍｓ程度とし、窓関数としてハミング窓、ハニング窓、三角窓等を用いることができる。
フレーム化処理された音声波形データは、スペクトル分析部４１２に出力される。

スペクトル分析部４１２は、フレーム化処理部４１１から出力されたフレーム化処理された音声波形データをスペクトル分析する。
スペクトル分析の手法としては、例えば、フーリエスペクトル分析、ＬＰＣ分析（線型予測分析）、ケプストラム分析等を用いることができ、パワースペクトル、予測係数、ケプストラム等をスペクトルデータとして算出する。
算出したスペクトルデータは、前記した音響的特徴量を検出するためのピッチ周波数検出部４１３、話速検出部４１４、パワー検出部４１５及びスペクトル包絡検出部４１６に出力される。

次に、図６及び図７を参照して、ピッチ周波数検出部４１３の構成について説明する。ここで、図７は、ピッチ周波数に基づく休止時間長の設定の様子を説明するための説明図である。
図６に示したように、ピッチ周波数検出部４１３は、端部非有声音長検出部４１３ａ及び端部ピッチ周波数検出部４１３ｂを備えて構成されている。

本実施形態では、図７に示したように、音響的特徴量としてピッチ周波数を用いる場合は、先行音声部品データＰ_Ａの音声波形の後端における後端ピッチ周波数（phr[i][j].ed.F0）と、後続音声部品データＰ_Ｂの音声波形の先端における先端ピッチ周波数（phr[i][j+1].st.F0）とに基づいて、休止時間長（phr[i][j].pau）を算出する。
なお、ピッチ周波数は、無声音からは抽出できないため、音声区間において有声音を含む最初のフレームから検出されるピッチ周波数を先端ピッチ周波数として検出し、音声区間において有声音を含む最後のフレームから検出されるピッチ周波数を後端ピッチ周波数として検出する。

また、ピッチ周波数は、例えば、パワースペクトルの自己相関関数を求め、その自己相関関数の第１ピークを抽出し、抽出した第１ピークの周波数として求めることができるし、ケプストラム分析を行い、その高ケフレンシ部分のピークを抽出し、抽出したケフレンシの逆数を算出することにより求めることもできる。また、他の手法によってピッチ周波数を検出するようにしてもよい。

端部非有声音長検出部４１３ａは、フレーム化された音声波形のスペクトルデータを解析することにより、フレーム毎に有声音が含まれるかどうかを検出する。そして、最初に出現した有声音を含むフレームの位置を有声音開始位置として検出する。また、有声音を含む最後のフレームの位置を有声音終了位置として検出する。

検出した有声音開始位置とデータ開始位置とにより、先端非有声音長を算出することができる。簡単にはデータ開始位置を“０（ｍｓ）”と定義すると、有声音開始位置が先端非有声音長に一致する。また、検出した有声音終了位置とデータ終了位置とにより、後端非有声音長を算出することができる。データ開始位置を“０”とすると、データ終了位置はデータ長に一致するから、データ長から有声音終了位置を減じることにより後端非有声音長を算出することができる。

端部ピッチ周波数検出部４１３ｂは、端部非有声音長検出部４１３ａで検出された有声音開始位置のフレームに対応するスペクトルデータからピッチ周波数を検出して先端ピッチ周波数とし、有声音終了位置のフレームのスペクトルデータからピッチ周波数を検出して後端ピッチ周波数とする。

ピッチ周波数検出部４１３は、端部非有声音長検出部４１３ａで検出した先端非有声音長及び後端非有声音長を、それぞれ、音声部品データの phr[i][j].st.pos2 及び phr[i][j].ed.pos2 に設定し、端部ピッチ周波数検出部４１３ｂで検出した先端ピッチ周波数及び後端ピッチ周波数を、それぞれ、音声部品データの phr[i][j].st.F0 及び phr[i][j].ed.F0 に設定する。

本実施形態では、端部のピッチ周波数を音響的特徴量として用いたが、各音声部品の音声波形において、ピッチ周波数を検出することができた全フレーム（すなわち有声音を含むフレーム）の平均ピッチ周波数を算出して音響的特徴量として用いるようにしてもよい。特に、データ長が短い音声部品の場合には、平均ピッチ周波数を用いても良く、データ長が長い場合には、端部ピッチ周波数を用いることが好ましい。これによって、適切に音声部品データの接続部に休止時間を設定することができる。

次に、図６及び図８を参照して、話速検出部４１４の構成について説明する。ここで、図８は、話速に基づく休止時間長の設定の様子を説明するための説明図である。
図６に示したように、話速検出部４１４は、端部無音長検出部４１４ａ及び平均話速検出部４１４ｂを備えて構成されている。

本実施形態では、音響的特徴量として話速を用いる場合は、先行音声部品データＰ_Ａの音声波形の音声区間における平均話速と、後続音声部品データＰ_Ｂの音声波形の音声区間における平均話速とに基づいて、休止時間長（phr[i][j].pau）を算出する。
また、本実施形態では、図８に示したように、話速として、音声区間に出現する拍数（phr[i][j].mora）と音声区間長に基づいて算出される平均話速を用いるようにしたが、単位時間当たりの音素数等の他の定義による話速を用いるようにしてもよい。

端部無音長検出部４１４ａは、フレーム化された音声波形のスペクトルデータを解析することにより、フレーム毎に音声波形信号が所定値以上のパワーを有するかどうかを検出する。そして、最初に所定値以上のパワーを有するフレームの位置を音声開始位置として検出する。また、所定のパワーを有する最後のフレームの位置を音声終了位置として検出する。

そして、検出した音声開始位置とデータ開始位置とに基づいて、先端無音長を算出することができる。また、検出した音声終了位置とデータ終了位置とに基づいて後端無音長を算出することができる。
また、音声区間長は、データ長（phr[i][j].time）から先端無音長（phr[i][j].st.pos1）及び後端無音長（phr[i][j].ed,pos1）を減じることにより算出することができる。

なお、音声開始位置及び音声終了位置の検出は、パワーの代わりに、例えば、フレーム毎に音素を有するかどうかを検出することで行うようにしてもよいし、スペクトルデータの代わりに、音声波形データの信号レベルに基づいて検出するようにしてもよい。

平均話速検出部４１４ｂは、式（１）に示したように、音声部品データに予め設定されている拍数（phr[i][j].mora）を、前記した手順で算出される音声区間長で除することにより平均話速 phr[i][j].SR を算出する。
phr[i][j].SR =
phr[i][j].mora / (phr[i][j].time -phr[i][j].st.pos1 -phr[i][j].ed.pos1)
・・・（１）

話速検出部４１４は、端部無音長検出部４１４ａで検出した先端無音長及び後端無音長を、それぞれ、音声部品データの phr[i][j].st.pos1 及び phr[i][j].ed.pos1 に設定し、平均話速検出部４１４ｂで検出した平均話速を、音声部品データの phr[i][j].SR に設定する。

本実施形態では、音声区間の平均話速を音響的特徴量として用いるようにしたが、データ長が短い場合には、先端無音長及び後端無音長を無視して、拍数をデータ長で除することにより算出される平均話速を用いるようにしてもよい。この場合は、無音長の検出が不要である。

また、データ長が長い場合には、音声波形の平均話速ではなく、端部の話速を検出して用いるようにしてもよい。端部の話速を用いる場合は、例えば、フレーム化された音声波形を解析することにより、最初及び最後に出現するモーラの継続時間長を検出し、継続時間長の逆数をそれぞれ、先端話速及び後端話速として用いることができる。あるいは、先端及び後端から所定時間内におけるモーラの出現数を検出するようにしてもよい。

次に、図６及び図９を参照して、パワー検出部４１５の構成について説明する。ここで、図９は、パワーに基づく休止時間長の設定の様子を説明するための説明図である。
図６に示したように、パワー検出部４１５は、端部無音長検出部４１５ａ及び平均パワー検出部４１５ｂを備えて構成されている。

本実施形態では、図９に示したように、音響的特徴量としてパワーを用いる場合は、先行音声部品データＰ_Ａの音声波形の音声区間における平均パワーと、後続音声部品データＰ_Ｂの音声波形の音声区間における平均パワーとに基づいて、休止時間長（phr[i][j].pau）を算出する。

端部無音長検出部４１５ａは、話速検出部４１４の端部無音長検出部４１４ａと同様に、音声開始位置及び音声終了位置を検出して、先端無音長及び後端無音長を算出するものであるから、詳細な説明は省略する。なお、パワー検出部４１５と話速検出部４１４と、後記するスペクトル包絡検出部４１６とで、例えば、端部無音長検出部４１４ａを共用するようにしてもよい。
また、音声区間長は、データ長から先端無音長及び後端無音長を減じることにより算出することができる。

平均パワー検出部４１５ｂは、スペクトルデータを用いてフレーム毎にパワー（phr[i][j].pwr[k]：ｋはフレーム番号を示す）を検出し、式（２）に示したように、音声区間内の全フレームのパワーを平均することにより平均パワー（phr[i][j].PW）を算出する。
phr[i][j].PW = sum( phr[i][j].pwk[k] )/ 音声区間のフレーム数・・・（２）
但し、右辺の分母の sum( ) は、音声区間内のフレームのパワーの総和を示す。

パワー検出部４１５は、端部無音長検出部４１５ａで検出した先端無音長及び後端無音長を、それぞれ、音声部品データの phr[i][j].st.pos1 及び phr[i][j].ed.pos1 に設定し、平均パワー検出部４１５ｂで検出した平均パワーを、音声部品データの phr[i][j].PW に設定する。

本実施形態では、音声区間の平均パワーを音響的特徴量として用いるようにしたが、音声区間の平均パワーではなく、音声区間の先端及び後端フレームのパワーを検出して用いるようにしてもよい。また、本実施形態では、音声の大きさを表す音響的特徴量としてパワーを用いたが、パワーの代わりに、例えば、聴覚的な音量を表す感覚量であるラウドネスレベルを用いるようにしてもよい。

次に、図６及び図１０を参照して、スペクトル包絡検出部４１６の構成について説明する。ここで、図１０は、スペクトル包絡に基づく休止時間長の設定の様子を説明するための説明図である。
図６に示したように、スペクトル包絡検出部４１６は、端部無音長検出部４１６ａ及び端部スペクトル包絡検出部４１６ｂを備えて構成されている。

本実施形態では、図１０に示したように、音響的特徴量としてスペクトル包絡を用いる場合は、先行音声部品データＰ_Ａの音声波形の後端における後端スペクトル包絡（phr[i][j].ed.SE）と、後続音声部品データＰ_Ｂの音声波形の先端における先端スペクトル包絡（phr[i][j+1].st.SE）とに基づいて、休止時間長（phr[i][j].pau）を算出する。

スペクトル包絡は、スペクトル分析部４１２で算出したスペクトルデータに基づいて求めることができる。例えば、スペクトル分析の手法としてフーリエ変換を用いた場合は、フーリエ変換係数を用いることができる。その他に、帯域フィルタ群、相関関数、ＬＰＣ分析の係数、ケプストラム、メルケプストラム等を用いることもできる。更に、これらの係数の１次微分や２次微分等の動的特徴量を加えるようにしてもよい。
なお、スペクトル包絡は、複数の係数によって構成されるベクトル量として表される。

端部無音長検出部４１６ａは、話速検出部４１４の端部無音長検出部４１４ａと同様に、音声開始位置及び音声終了位置を検出して、先端無音長及び後端無音長を算出するものであるから、詳細な説明は省略する。なお、話速検出部４１４とパワー検出部４１５とスペクトル包絡検出部４１６とで、例えば、端部無音長検出部４１４ａを共用するようにしてもよい。
また、音声区間長は、データ長から先端無音長及び後端無音長を減じることにより算出することができる。

端部スペクトル包絡検出部４１６ｂは、端部無音長検出部４１６ａで検出された音声開始位置のフレームに対応するスペクトルデータからスペクトル包絡を検出して先端スペクトル包絡とし、音声終了位置のフレームのスペクトルデータからスペクトル包絡を検出して後端スペクトル包絡とする。

スペクトル包絡検出部４１６は、端部無音長検出部４１６ａで検出した先端無音長及び後端無音長を、それぞれ、音声部品データの phr[i][j].st.pos1 及び phr[i][j].ed.pos1 に設定し、端部スペクトル包絡検出部４１６ｂで検出した先端スペクトル包絡及び後端スペクトル包絡を、それぞれ、音声部品データの phr[i][j].st.SE 及び phr[i][j].ed.SE に設定する。

なお、本実施形態では、端部のスペクトル包絡を音響的特徴量として用いたが、音声部品のデータ長が短い場合には、音声区間における平均スペクトル包絡を用いるようにしてもよい。

図６に戻って、休止時間長算出装置４０の構成について説明を続ける。
先行音声部品データ記憶部４２０は、音響的特徴量検出部４１０によって音響的特徴量に関するデータを設定された音声部品データを一時的に記憶し、この音声部品データは、次回の休止時間長を算出する際の、先行音声部品データとして休止時間長算出部４４０によって読み出される。すなわち、先行音声部品データ記憶部４２０は、データ遅延手段として機能する。
先行音声部品データ記憶部４２０としては、例えば、半導体メモリを用いることができるが、磁気ディスク装置や光ディスク装置等の記憶装置を用いることもできる。

音響的距離算出部（音響的距離算出手段）４３０は、音響的特徴量検出部４１０によって音響的特徴量に関するデータを設定された音声部品データを、後続音声部品データとして入力すると共に、先行音声部品データ記憶部４２０に記憶された音声部品データを読み出し、先行音声部品データとして用いる。そして、先行音声部品データに設定された音響的特徴量に関するデータと、後続音声部品データに設定された音響的特徴量に関するデータとに基づいて音響的距離を算出し、休止時間長算出部４４０に出力する。

音響的距離は、用いる音響的特徴量に応じて、式（３）〜式（８）によって算出することができる。
まず、音響的特徴量としてピッチ周波数を用いる場合は、式（３）によって、先行音声部品データの後端ピッチ周波数（phr[i][j].ed.F0）と後続音声部品データの先端ピッチ周波数（phr[i][j+1].st.F0）とに基づいて音響的距離（ΔF0[i][j]）を算出すると共に、式（４）によって、先行音声部品データの後端非有声音長（phr[i][j].ed.pos2）と後続音声部品データの先端非有声音長（phr[i][j+1].st.pos2）とに基づいて、音響的距離の算出に用いるピッチ周波数を検出した端部間の時間的距離（ΔFp[i][j]）を算出する。

ΔF0[i][j] = ｜log(phr[i][j].ed.F0) -log(phr[i][j+1].st.F0)｜・・・（３）
ΔFp[i][j] = phr[i][j].ed.pos2 + phr[i][j+1].st.pos2 ・・・（４）
但し、log( ) は、常用対数関数を示す。

この端部間の時間的距離を考慮して休止時間長を検出することにより、考慮しないときよりも適切に休止時間長を算出することができる。

次に、音響的特徴量として話速を用いる場合は、式（５）によって、先行音声部品データの平均話速（phr[i][j].SR）と後続音声部品データの平均話速（phr[i][j+1].SR）とに基づいて音響的距離（ΔR[i][j]）を算出する。

ΔR[i][j] = ｜phr[i][j].SR -phr[i][j+1].SR｜・・・（５）

次に、音響的特徴量としてパワーを用いる場合は、式（６）によって、先行音声部品データの音声区間の平均パワー（phr[i][j].PW）と後続音声部品データの音声区間の平均パワー（phr[i][j+1].PW）とに基づいて音響的距離（ΔP[i][j]）を算出する。

ΔP[i][j] = ｜phr[i][j].PW -phr[i][j+1].PW｜・・・（６）

次に、音響的特徴量としてスペクトル包絡を用いる場合は、式（７）によって、先行音声部品データの後端スペクトル包絡（phr[i][j].ed.SE）と後続音声部品データの先端スペクトル包絡（phr[i][j+1].st.SE）とに基づいて音響的距離（ΔE[i][j]）を算出すると共に、式（８）によって、先行音声部品データの後端無音長（phr[i][j].ed.pos1）と後続音声部品データの先端無音長（phr[i][j+1].st.pos1）とに基づいて、音響的距離の算出に用いるスペクトル包絡を検出した端部間の時間的距離（ΔEp[i][j]）を算出する。

ΔE[i][j] = ｜phr[i][j].ed.SE -phr[i][j+1].st.SE｜・・・（７）
ΔEp[i][j] = phr[i][j].ed.pos1 + phr[i][j+1].st.pos1 ・・・（８）
但し、スペクトル包絡はベクトル量であるから、式（７）において、スペクトル包絡の距離としてベクトル量同士のユークリッド距離を算出する。

ピッチ周波数を用いるときと同様に、この端部間の時間的距離を考慮して休止時間長を検出することにより、考慮しないときよりも適切に休止時間長を算出することができる。

休止時間長算出部（休止時間長算出手段）４４０は、重回帰演算部４４１及び回帰係数記憶部４４２を備えて構成されており、音響的距離算出部４３０によって算出された音響的距離に基づいて、先行音声部品データと後続音声部品データとの間の接続部に挿入する休止時間長を算出して、休止時間長設定部４５０に出力する。

重回帰演算部４４１は、音響的距離算出部４３０によって算出された音響的距離と、回帰係数記憶部４４２に予め記憶されている回帰式の係数とに基づいて、回帰演算を行うことによって休止時間長を算出し、休止時間長設定部４５０に出力する。
なお、図６に示した実施形態では、複数の音響的特徴量を説明変数とする重回帰式によって休止時間長を算出するようにしたが、１つの音響的特徴量を説明変数とする場合は、単回帰式によって休止時間長を算出する。特許請求の範囲における回帰式とは、説明変数が複数のときの重回帰式の場合と、説明変数が１つのときの単回帰式の場合とを含むものとする。

ここで、休止時間長（phr[i][j].pau）は、用いる音響的特徴量に応じて、回帰係数a0〜a16等を用いて、式（９）〜式（１３）に示した重回帰式によって算出される。

まず、音響的特徴量としてピッチ周波数のみを用いる場合は、式（９）に示した重回帰式を用いる。
phr[i][j].pau = a0 + a1×ΔF0[i][j] + a2×ΔFp[i][j] ・・・（９）

次に、音響的特徴量として話速のみを用いる場合は、式（１０）に示した単回帰式を用いる。
phr[i][j].pau = a3 + a4×ΔR[i][j] ・・・（１０）

次に、音響的特徴量としてパワーのみを用いる場合は、式（１１）に示した単回帰式を用いる。
phr[i][j].pau = a5 + a6×ΔP[i][j] ・・・（１１）

次に、音響的特徴量としてスペクトル包絡のみを用いる場合は、式（１２）に示した重回帰式を用いる。
phr[i][j].pau = a7 + a8×ΔE[i][j] + a9×ΔEp[i][j] ・・・（１２）

また、音響的特徴量としてピッチ周波数、話速、パワー及びスペクトル包絡の４つを用いる場合は、式（１３）に示した重回帰式を用いる。
phr[i][j].pau = a10 + a11×ΔF0[i][j] + a12×ΔFp[i][j] + a13×ΔR[i][j] + a14×ΔP[i][j] + a15×ΔE[i][j] + a16×ΔEp[i][j] ・・・（１３）

また、以上の回帰式に限定されることなく、用いる音響的特徴量を適宜組み合わせて、重回帰式を定めて休止時間長を算出するようにしてもよい。

ここで、図１１を参照して、回帰式の係数a0〜a16を求める方法について、音響的特徴量としてピッチ周波数を用いた場合を例にして説明する。ここで、図１１は、主観評価実験と重回帰分析の関係を説明するための説明図である。

重回帰式の係数を決定するために、まず、音声部品データを様々に組み合わせた場合の、それぞれの音声部品データの組み合わせにおける最適な休止時間長を主観評価実験によって求める。一方、前記した音響的距離算出部４３０と同様の手順で音響的距離及び時間的距離を算出する。そして、主観評価実験によって求めた最適な休止時間長と、算出して求めた音響的距離及び時間的距離との重回帰分析を行うことにより、重回帰式の係数を決定することができる。

例えば、図１１に示したように、文節１ａに対応する先行音声部品データＰ_Ａと文節１ｂに対応する後続音声部品データＰ_Ｂとの間の最適な休止時間長Ｐａｕｓｅ１を主観評価実験によって求める。同様に、文節２ａに対応する先行音声部品データＰ_Ａと文節２ｂに対応する後続音声部品データＰ_Ｂとの間の最適な休止時間長Ｐａｕｓｅ２、文節Ｌａに対応する先行音声部品データＰ_Ａと文節Ｌｂに対応する後続音声部品データＰ_Ｂとの間の最適な休止時間長ＰａｕｓｅＬ等を主観評価実験によって求める。

なお、主観評価実験は、例えば、相対法や極限法によって、最適な休止時間長を数値化することができる。また、他の手法による主観評価実験を用いて休止時間長を求めることもできる。

また、それぞれの先行音声部品データＰ_Ａと後続音声部品データＰ_Ｂとの組み合わせにおける音響的距離（ΔＦ０_１，ΔＦ０_２，ΔＦ０_Ｌ等）及び時間的距離（ΔＦｐ_１，ΔＦｐ_２，ΔＦｐ_Ｌ等）を前記した手順によって算出する。

これらのデータを式（９）に適用すると、式（１４）のような関係式が得られる。
Ｐａｕｓｅ１＝ａ０＋ａ１×ΔＦ０_１＋ａ２×ΔＦｐ_１
Ｐａｕｓｅ１＝ａ０＋ａ１×ΔＦ０_２＋ａ２×ΔＦｐ_２
・
・
・
Ｐａｕｓｅ１＝ａ０＋ａ１×ΔＦ０_Ｌ＋ａ２×ΔＦｐ_Ｌ
・・・（１４）

式（１４）に示した関係式に対して、最小二乗法を適用することで、回帰式の係数ａ０，ａ１，ａ２を算出して定めることができる。
式（１０）〜式（１３）に示したような、他の回帰式を用いる場合も、同様の手順によって回帰式の係数を定めることができる。

このようにして予め定めた回帰式の係数を、回帰係数記憶部４４２（図６参照）に記憶しておき、この回帰式の係数を回帰係数記憶部４４２から読み出して用いることにより、休止時間長を算出することができる。

回帰係数記憶部４４２は、前記した主観評価実験に基づいて予め定められた回帰式の係数を記憶するものであり、記憶した係数は重回帰演算部４４１によって適宜読み出される。
回帰係数記憶部４４２としては、例えば、磁気ディスク装置、光ディスク装置、半導体メモリ等の記憶装置を用いることができる。

休止時間長設定部４５０は、休止時間長算出部４４０によって算出された休止時間長を、この休止時間長を算出した際の先行音声部品データの休止時間長（phr[i][j].pau）に設定し、休止時間長を設定した音声部品データを音声合成データ記憶部５０（図１参照）に、文番号及び文節番号に対応付けて記憶する。

以上説明した音声合成装置１００は、一部またはすべてを専用のハードウェアを作成して実施することができるが、一般的なコンピュータプログラムを実行させ、コンピュータ内の演算装置、記憶装置、入力装置、画像表示装置等を動作させることにより実現することもできる。このプログラム（休止時間長算出プログラム）は、通信回線を介して配布することも可能であるし、ＣＤ−ＲＯＭ等の記録媒体に書き込んで配布することも可能である。

＜音声合成装置の動作＞
次に、図１２を参照（適宜図１及び図６参照）して、本実施形態の音声合成装置１００の動作について説明する。ここで、図１２は、本実施形態の音声合成装置の処理の流れを示すフローチャートである。

まず、音声合成装置１００は、読み上げ情報入力部１０によって、音声合成の対象となる読み上げ情報を入力し、入力した読み上げ情報を音声部品データ取得部２０に出力する（ステップＳ１０）。

音声合成装置１００は、音声部品データ取得部２０によって、ステップＳ１０で入力した読み上げ情報に指定された文節に対応する音声部品データを、順次に音声部品データ記憶部３０から取得し、休止時間長算出装置４０の音響的特徴量検出部４１０に出力する（ステップＳ１１）。

音声合成装置１００は、休止時間長算出装置４０の音響的特徴量検出部４１０によって、音響的特徴量を検出し、検出した音響的特徴量に関するデータを音声部品データに設定し、この音声部品データを、音響的距離算出部４３０に対して後続音声部品データとして出力すると共に、次の音声部品データの接続における先行音声部品データとして先行音声部品データ記憶部４２０に記憶する（ステップＳ１２）。

ここで、音響的特徴量検出部４１０によって出力された音声部品データが、ステップＳ１０で入力した読み上げ情報を構成する最初の文節に対する音声部品データである場合は（ステップＳ１３でＹｅｓ）、この音声部品データに対応する先行音声部品データは無く、休止時間長を算出する必要がないため、ステップＳ１１に戻り、次の文節に対応する音声部品データを取得する。

一方、音響的特徴量検出部４１０によって出力される音声部品データが読み上げ情報を構成する最初の文節に対する音声部品データではない場合には（ステップＳ１３でＮｏ）、音声合成装置１００は、音響的距離算出部４３０によって、先行音声部品データ記憶部４２０に記憶された先行音声部品データに設定されている音響的特徴量と、音響的特徴量検出部４１０によって出力された後続音声部品データに設定されている音響的特徴量との音響的距離を算出し、休止時間長算出部４４０に出力する（ステップＳ１４）。

次に、休止時間長算出部４４０の重回帰演算部４４１によって、回帰係数記憶部４４２に予め記憶しておいた重回帰式の係数と、ステップＳ１４で算出された音声部品データ間の音響的距離とに基づいて、休止時間長を算出し、休止時間長設定部４５０に出力する（ステップＳ１５）。

そして、休止時間長設定部４５０によって、ステップＳ１５で算出した休止時間長を、先行音声部品データに設定し（ステップＳ１６）、読み上げ情報の文番号と文節番号とに対応付けて音声合成データ記憶部５０に記憶する（ステップＳ１７）。

ステップＳ１７で休止時間長を設定した音声部品データを記憶すると、読み上げ情報に次の文節が残っているかどうかを確認し（ステップＳ１８）、文節が残っている場合は（ステップＳ１８でＹｅｓ）、ステップＳ１１に戻り、次の文節に対応する音声部品データを取得し、ステップＳ１７までの処理を繰り返す。

一方、次の文節が残っていない場合は（ステップＳ１８でＮｏ）、最後の文節に対応する当該後続音声部品データには休止時間長を設定する必要がないため、この後続音声部品データを読み上げ情報の最後の文における最後の文節の番号に対応付けて、音声合成データ記憶部５０に記憶する（ステップＳ１９）。
以上で、読み上げ情報に対する音声合成データが音声合成データ記憶部５０の中に完成する。

音声合成データが完成すると、音声再生部６０によって、音声部品データを文番号及び文節番号に従って、音声合成データ記憶部５０から対応する音声部品データを順次読み出し、音声部品データに含まれる音声波形データをアナログの音声波形信号に変換し、スピーカ７０に出力して聴取可能に再生する。そして、この音声部品データに設定された休止時間長のポーズ（無音状態）を挿入した後に、次の音声部品データの再生を行う（ステップＳ２０）。

以上説明した手順によって、音声合成装置１００は、読み上げ情報で指定された音声部品データ間に適切な休止時間を挿入して、自然な印象の音声として再生することができる。

なお、本実施形態では、逐次、音声部品データの音声波形データの音響分析と休止時間長算出を連続して処理するようにしたが、読み上げ情報に含まれるすべての文節に対応する音声部品データの音声波形データを音響分析した後、休止時間長を算出するようにしてもよい。

このようにするには、例えば、音響的特徴量検出部４１０によって音声部品データの音声波形データから音響分析し、音響的特徴量に関するデータを当該音声部品データに設定して、例えば、音声合成データ記憶部５０に記憶する。読み上げ情報に含まれるすべての文節に対応する音声部品データの音響分析が終了すると、音響的距離算出部４３０によって音声合成データ記憶部５０から先行音声部品データと後続音声部品データのペアを順次読み出して音響的距離を算出し、算出した音響的距離に基づいて、休止時間長算出部４４０によって休止時間長を算出し、休止時間長設定部４５０によって、先行音声部品データに休止時間長を設定して音声合成データ記憶部５０に記憶する。そして、すべての音声部品データ間の休止時間長の設定が終了すると、音声合成データ記憶部５０には、休止時間長が設定された音声部品データによって構成される音声合成データが完成する。

また、本実施形態では、音響的特徴量は、音声部品データに予め設定されている音声波形データを音響的特徴量検出部４１０によって音響分析して検出して取得するようにしたが、予め、音声波形データを音響分析して、図３に示した音響的特徴量に関するデータを検出し、音声部品データに設定して音声部品データ記憶部３０に記憶して用いるようにしてもよい。
これによって、音声合成の度に、音声合成で選択された音声部品データの音響的特徴量を検出する必要がなく、音声部品データに設定された音響的特徴量に関するデータを参照するだけで音響的特徴量を取得することができ、音声合成処理に要する処理時間を短縮することができる。

本実施形態の音声合成装置の構成を示すブロック図である。読み上げ情報の構成を説明するための説明図である。音声部品データのデータ構造を示す図である。音声部品データに含まれる音声波形データの構成を模式的に示す構成図である。本発明による休止時間長を設定する原理を説明するための説明図である。本実施形態の休止時間長算出装置の構成を示すブロック図である。ピッチ周波数に基づく休止時間長の設定の様子を説明するための説明図である。話速に基づく休止時間長の設定の様子を説明するための説明図である。パワーに基づく休止時間長の設定の様子を説明するための説明図である。スペクトル包絡に基づく休止時間長の設定の様子を説明するための説明図である。主観評価実験と重回帰分析の関係を説明するための説明図である。本実施形態の音声合成装置の処理の流れを示すフローチャートである。

符号の説明

１０読み上げ情報入力部（読み上げ情報取得手段）
２０音声部品データ取得部（音声部品データ取得手段）
３０音声部品データ記憶部（音声部品データ記憶手段）
４０休止時間長算出装置
１００音声合成装置
４１０音響的特徴量検出部（音響的特徴量取得手段）
４１３ピッチ周波数検出部
４１４話速検出部
４１５パワー検出部
４１６スペクトル包絡検出部
４３０音響的距離算出部（音響的距離算出手段）
４４０休止時間長算出部（休止時間長算出手段）
４４１重回帰演算部
４５０休止時間長設定部
Ｐ_Ａ先行音声部品データ
Ｐ_Ｂ後続音声部品データ

Claims

所定の単位のテキストを発話した音声波形を記録した音声部品データを接続して音声合成を行う際に、互いに接続される音声部品データ間に挿入する休止時間長を算出する休止時間長算出装置であって、
前記音声部品データに記録された音声波形における所定の音響的特徴量を取得する音響的特徴量取得手段と、
前記音響的特徴量取得手段によって取得された、互いに接続される音声部品データにおいて先行する先行音声部品データの音響的特徴量と、後続の後続音声部品データの音響的特徴量との差異である音響的距離を算出する音響的距離算出手段と、
前記音響的距離取得手段によって算出された音響的距離に基づいて、予め設定した算出式を用いて前記先行音声部品データと前記後続音声部品データとの間に挿入する休止時間長を算出する休止時間長算出手段と、
を備えたことを特徴とする休止時間長算出装置。
前記音響的特徴量取得手段は、ピッチ周波数、話速、パワー又はスペクトル包絡の内の少なくとも１つの音響的特徴量を取得することを特徴とする請求項１に記載の休止時間長算出装置。
前記算出式として、前記音響的距離算出手段によって算出された音響的距離を説明変数とする回帰式を用いることを特徴とする請求項１又は請求項２に記載の休止時間長算出装置。
所定の単位のテキストを発話した音声波形を記録した音声部品データを接続して音声合成を行う際に、互いに接続される音声部品データ間に挿入する休止時間長を算出するために、コンピュータを、
前記音声部品データに記録された音声波形における所定の音響的特徴量を取得する音響的特徴量取得手段、
前記音響的特徴量取得手段によって取得された、互いに接続される音声部品データにおいて先行する先行音声部品データの音響的特徴量と、後続の後続音声部品データの音響的特徴量との差異である音響的距離を算出する音響的距離算出手段、
前記音響的距離取得手段によって算出された音響的距離に基づいて、予め設定した算出式を用いて前記先行音声部品データと前記後続音声部品データとの間に挿入する休止時間長を算出する休止時間長算出手段、
として機能させることを特徴とする休止時間長算出プログラム。
所定の単位のテキストを発話した音声波形を記録した音声部品データを接続して音声合成を行う音声合成装置であって、
予め音声波形を記録した音声部品データを記憶する音声部品データ記憶手段と、
決められた順番で連続的に読み上げるテキストからなるか、又はこのテキストを構成する前記所定の単位のテキストに対応する前記音声部品データを指定した情報からなる読み上げ情報を取得する読み上げ情報取得手段と、
前記読み上げ情報取得手段によって取得された読み上げ情報に基づいて、前記音声部品データ記憶手段から音声部品データを取得する音声部品データ取得手段と、
前記音声部品データ取得手段によって取得された、前記読み上げ情報を構成する音声部品データ間に挿入する休止時間長を算出する請求項１乃至請求項３の何れか一項に記載の休止時間長算出装置と、を備え、
前記休止時間長算出装置によって算出された休止時間長を前記音声部品データ間の休止時間長として設定することを特徴とする音声合成装置。