JP2008116826A - 休止時間長算出装置及びそのプログラム、並びに音声合成装置 - Google Patents

休止時間長算出装置及びそのプログラム、並びに音声合成装置 Download PDF

Info

Publication number
JP2008116826A
JP2008116826A JP2006301711A JP2006301711A JP2008116826A JP 2008116826 A JP2008116826 A JP 2008116826A JP 2006301711 A JP2006301711 A JP 2006301711A JP 2006301711 A JP2006301711 A JP 2006301711A JP 2008116826 A JP2008116826 A JP 2008116826A
Authority
JP
Japan
Prior art keywords
component data
voice
speech
time length
pause time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006301711A
Other languages
English (en)
Other versions
JP4778402B2 (ja
Inventor
Nobumasa Seiyama
信正 清山
Toru Tsugi
徹 都木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2006301711A priority Critical patent/JP4778402B2/ja
Publication of JP2008116826A publication Critical patent/JP2008116826A/ja
Application granted granted Critical
Publication of JP4778402B2 publication Critical patent/JP4778402B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrophonic Musical Instruments (AREA)

Abstract

【課題】録音編集方式の音声合成において、音声部品データを接続する際に、自然な聴感が得られる音声部品データ間の休止時間長を算出する休止時間長算出装置及びそのプログラム、並びにこの休止時間算出装置を備えた音声合成装置を提供する。
【解決手段】所定の単位のテキストを発話した音声波形を記録した音声部品データを接続して音声合成を行う際に、休止時間長算出装置40は、音声部品データに記録された音声波形における所定の音響的特徴量を検出する音響的特徴量検出部410と、互いに接続される音声部品データにおいて先行する先行音声部品データの音響的特徴量と、後続の後続音声部品データの音響的特徴量との音響的距離を算出する音響的距離算出部430と、音響的距離に基づいて、予め設定した算出式を用いて音声部品データ間に挿入する休止時間長を算出する休止時間長算出部440と、を備える。
【選択図】図6

Description

本発明は、テキストを発話した音声を予め録音した音声部品データを接続して音声合成を行う、録音編集方式による音声合成技術に関する。
予め単語や文節、定型文等を録音した音声部品データを接続して音声合成を行う、いわゆる録音編集方式による音声合成においては、合成できる語彙や文の種類が限定されるものの、扱う音声の単位が比較的長いこともあり、より品質の高い音声が得られるが、音声部品データ間の接続部における音声の音響的特徴(ピッチ周波数、話速、パワー、スペクトル包絡等)の連続性が品質に影響していた。
そこで、例えば、定型文に単語や文節を差し挟む場合や、単語や文節を組み合せて文を構成する場合等においては、例えば、接続時の各音声部品データの前後の音響的特徴を考慮して発声された音声を収録するなど、一般的に、音声部品データの録音段階から音声部品データを接続した際に音響的特徴の不連続が生じないような工夫をしたり、不連続が気にならないように、ある程度長めのポーズを挟んで音声部品データを接続したりしていた。
一方、従来、任意のテキストを合成可能な、規則に基づく音声合成では、より自然な合成音声を得るために、音声区間に対するピッチ周波数、継続時間長、パワー、並びに、音声区間同士の間の休止時間長(ポーズ長)をきめ細かに制御する必要があり、様々な韻律制御方法が提案されている。
その中で、ポーズ長の設定についても、実際に発話された音声データの分析に基づいた制御規則が提案されている。例えば、特許文献1において、入力された合成音声の情報に応じてポーズ長を設定する方法が提案されている。特許文献1に記載された音声規則合成装置は、入力された合成音声の音韻継続長や基本周波数等の情報と、予め設定したポーズ設定規則とに基づき、先行句と後続句との係り受け関係や読点の有無に応じて、先行句と後続句との間の句境界におけるポーズ挿入の有無や、挿入する場合は、ポーズの種類に応じて基準値を設定した後、ポーズ長に影響を与える文法的な要因によってポーズ長を補正すると共に、1モーラ長の整数倍になるように設定するものである。
また、特許文献2において、人による発話を録音した音声波形データから音素列の音声波形データを切出して、音素列データベースを予め作成しておき、音声合成対象となるテキスト情報を構成する音素列に対応する音素列データを接続する録音編集方式の音声合成装置が提案されている。特許文献2に記載の音声合成装置は、音素列データを接続する際に、先行する音素列データの後端部の無音部分長及び後続の音素列データの先端部の無音部分長の短いほうの無音部分長を、音素列データの接続部の無音部分長とすることにより、何れかの無音部分長が極端に長い場合であっても、自然な音声合成を行えるようにするものである。
特許第3060422号公報(段落0019〜段落0023、図3) 特開2002−41077号公報(段落0012)
しかしながら、従来の録音編集方式の音声合成において、音声部品データ間の接続部における音声の音響的特徴に不連続が生じないように録音を行う場合には、録音済みの音声を試聴するなどして、発声の目標となる刺激を参照したり、収録済みの音声との適合度合いを確認しながら録音を進めたりするなど、発話者や録音作業者に過度の負担を強いるものであった。
また、不連続が気にならないように、安全を見込んで、ある程度長めのポーズを挟んで接続する場合には、間延びして自然性を損なうという問題があった。これを避けるために、適切な長さのポーズを設定するには、長さを変えて試聴により試行を繰り返す必要があり、非効率であった。また、一般的には、固定長のポーズを用いるため、読み上げ方が規則的で、いわゆる機械的な印象になりがちであった。
一方、特許文献1に記載の音声規則合成装置は、規則合成に利用するものであるが、入力された合成音声の情報と、先行句と後続句との係り受け関係や読点の有無やポーズの種類に応じて、基準値を設定した後、ポーズ長に影響を与える文法的な要因によってポーズ長を補正するものであり、録音編集方式への応用も考えられる。
しかし、録音編集方式に特許文献1に記載の装置を適用すると、音声部品データを組み合わせて定型文を構成する場合や、定型文に単語や文節を差し挟む場合等においては、同じ文法構造をした文となり、同じ文法構造であれば同じポーズ長を与えることになる。
規則合成では、元々ポーズ前後の環境における音響的特徴を制御して揃えることができるので、同じ文法構造をした文に対して同じポーズ長を与えたとしても問題はないが、録音編集方式では、音声部品データ間の接続部における音声の音響的特徴を考慮して、適切なポーズ長を設定しなければ、音声部品データの接続部において不連続感が生じ、合成音声の自然性を損なうことになる。また、同じ文法構造をした文に対して同じポーズ長を与えることにより、やはり読み上げ方が規則的で、いわゆる機械的な印象になってしまうという問題があった。
また、特許文献2に記載の音声合成装置は、接続する音素列データ間の無音部分長を、たまたま作成した音素列データの端部の無音部分長の短い方を採用するものであり、音響的特徴の連続性を十分に考慮したものではなかった。
そこで、本発明は、録音編集方式の音声合成において、音声部品データを接続する際に、自然な聴感を得られる音声部品データ間の休止時間長を算出する休止時間長算出装置及びそのプログラム、並びに、この休止時間長算出装置を備えた音声合成装置を提供することを目的とする。
そのために、請求項1に記載の休止時間長算出装置は、所定の単位のテキストを発話した音声波形を記録した音声部品データを接続して音声合成を行う際に、互いに接続される音声部品データ間に挿入する休止時間長を算出する休止時間長算出装置であって、音響的特徴量取得手段と、音響的距離算出手段と、休止時間長算出手段と、を備えて構成した。
かかる構成によれば、休止時間長算出装置は、互いに接続される音声部品データにおいて先行する先行音声部品データ及び後続の後続音声部品データに記録された音声波形における、それぞれの音響的特徴量を音響的特徴量取得手段によって取得する。次に、音響的距離算出手段によって、音響的特徴量取得手段で取得された先行音声部品データの音響的特徴量と、後続音声部品データの音響的特徴量との音響的な差異を表わす音響的距離を算出する。そして、休止時間長算出手段によって、音響的距離算出手段で算出された音響的距離に基づいて、予め設定した算出式を用いて先行音声部品データと後続音声部品データとの間に挿入する休止時間長を算出する。
これによって、休止時間長算出装置は、互いに接続される音声部品データ間の音響的距離に応じた適切な休止時間長を算出することができる。
請求項2に記載の休止時間長算出装置は、請求項1に記載の休止時間長算出装置において、前記音響的特徴量取得手段は、ピッチ周波数、話速、パワー又はスペクトル包絡の内の少なくとも1つの音響的特徴量を取得するように構成した。
かかる構成によれば、休止時間長算出装置は、音響的特徴量取得手段によって取得した音声の高さを表すピッチ周波数、発話のスピードを表す話速、音声の大きさを表すパワー又は音声の響きを表すスペクトル包絡の内の、少なくとも1つの音響的特徴量の差異に応じて、音声部品データ間の休止時間長を算出することができる。
請求項3に記載の休止時間長算出装置は、請求項1又は請求項2に記載の休止時間長算出装置において、前記算出式として、前記音響的距離算出手段によって算出された音響的距離を説明変数とする回帰式を用いるように構成した。
かかる構成によれば、休止時間長算出装置は、互いに接続される音声部品データ間の音響的距離と回帰係数との積和演算によって休止時間長を算出することができる。
請求項4に記載の音声部品データ間の休止時間長算出プログラムは、所定の単位のテキストを発話した音声波形を記録した音声部品データを接続して音声合成を行う際に、互いに接続される音声部品データ間に挿入する休止時間長を算出するために、コンピュータを、音響的特徴量取得手段、音響的距離算出手段、休止時間長算出手段、として機能させる構成とした。
かかる構成によれば、音声部品データ間の休止時間長算出プログラムは、互いに接続される音声部品データにおいて先行する先行音声部品データ及び後続の後続音声部品データに記録された音声波形における、それぞれの音響的特徴量を音響的特徴量取得手段によって取得する。次に、音響的距離算出手段によって、音響的特徴量取得手段で取得された先行音声部品データの音響的特徴量と、後続音声部品データの音響的特徴量との音響的な差異を表わす音響的距離を算出する。そして、休止時間長算出手段によって、音響的距離算出手段で算出された音響的距離に基づいて、予め設定した算出式を用いて先行音声部品データと後続音声部品データとの間に挿入する休止時間長を算出する。
これによって、音声部品データ間の休止時間長算出プログラムは、互いに接続される音声部品データの音響的距離に応じた適切な休止時間長を算出することができる。
請求項5に記載の音声合成装置は、所定の単位のテキストを発話した音声波形を記録した音声部品データを接続して音声合成を行う音声合成装置であって、音声部品データ記憶手段と、読み上げ情報取得手段と、音声部品データ取得手段と、休止時間長算出装置と、を備えて構成した。
かかる構成によれば、音声合成装置は、まず、読み上げ情報取得手段によって、音声合成の対象となる、決められた順番で連続的に読み上げられるテキストからなるか、又はこのテキストを構成する所定の単位のテキストに対応する音声部品データを指定した情報からなる読み上げ情報を取得する。次に、音声部品データ取得手段によって、読み上げ情報取得手段で取得した読み上げ情報に基づいて、予め音声波形を記録した音声部品データ記憶した音声部品データ記憶手段から、所望の音声部品データを取得する。そして、休止時間長算出装置によって、音声合成の対象となるテキストを構成する音声部品データ間に挿入する休止時間長を算出し、この休止時間長を、音声部品データ間の休止時間として設定する。
これによって、音声合成装置は、音声部品データ間に、それぞれ互いに接続される音声部品データ間の音響的距離に応じた休止時間を挿入した音声合成データを作成することができる。
請求項1又は請求項4に記載の発明によれば、録音編集方式の音声合成において、互いに接続される音声部品データ間に挿入する休止時間を、音声部品データ間の音響的距離に応じて算出するため、この休止時間を挿入して再生される音声を、不連続感や機械的な印象を与えない自然な聴感の合成音声とすることができる。
請求項2に記載の発明によれば、音声部品データ間に挿入する休止時間を、音声部品データ間の、音声の高さを表すピッチ周波数の差異、発話のスピードを表す話速の差異、音声の大きさを表すパワーの差異又は音声の響きであるスペクトル包絡の差異に応じて休止時間長を算出するため、この休止時間を挿入して再生される音声を、用いた音響的特徴量が表わす音声の高さ、発話スピード、音声の大きさ又は音声の響きの不連続間を与えない自然な聴感の合成音声とすることができる。
請求項3に記載の発明によれば、休止時間長を、音響的距離を説明変数とする回帰式によって算出するため、音響的距離と回帰式の係数との積和演算によって簡便に算出することができる。
請求項5に記載の発明によれば、録音編集方式の音声合成において、互いに接続される音声部品データ間に挿入する休止時間を、音声部品データ間の音響的距離に応じて算出して設定するため、この休止時間を挿入して作成された音声合成データを再生することで、不連続感や機械的な印象を与えない自然な聴感の音声を得ることができる。
以下、本発明の実施形態について適宜図面を参照して詳細に説明する。
<音声合成装置の構成>
まず、図1を参照して、本発明による休止時間長算出装置40を備えた音声合成装置100の構成について説明する。ここで、図1は、本実施形態の音声合成装置の構成を示すブロック図である。
図1に示した本実施形態の音声合成装置100は、読み上げ情報入力部10、音声部品データ取得部20、音声部品データ記憶部30、休止時間長算出装置40、音声合成データ記憶部50及び音声再生部60を備えて構成されている。
ここで、各部の詳細について説明する前に、図2から図5を参照して、本実施形態の読み上げ情報及び音声部品データの構成、並びに休止時間長を設定する原理について説明する。
まず、図2を参照して、読み上げ情報の構成について説明する。なお、図2は、読み上げ情報の構成を説明するための説明図である。
図2に示した読み上げ情報の例では、“文節”を単位とし、1つ又は複数の文節によって“文”が構成され、更に、複数の文によって、読み上げ情報が構成されており、文番号をi、読み上げ情報を構成する文の数をN、各文における文節番号をj、各文を構成する文節の数をMで表している。なお、各文は、文番号iの順番で連続的に読み上げられ、各文の文節は、文節番号jの順番で連続的に読み上げられる。
また、phr[i][j]は、i番目の文におけるj番目の文節に対応する1個の音声部品データを示している。
なお、本実施形態では、音声部品データは、文節を単位として構成したが、これに限定されるものではなく、音素、単語、形態素、文節、文等を単位としてもよいし、これらの単位を混在して音声部品データを構成するようにしてもよい。
次に、図3及び図4を参照して、音声部品データの構成の一例について説明する。ここで、図3は、音声部品データのデータ構造を示す図であり、図4は、音声部品データに含まれる音声波形データの構成を模式的に示す構成図である。
図3に示した音声部品データのデータ構造は、基本データとして、音声部品番号、読み上げ(テキスト)データ、音声波形データ、拍数(モーラ数)、データ長(全時間長)を含み、音響的特徴量に関するデータとして、先端無音長、後端無音長、先端非有声音長、後端非有声音長、先端ピッチ周波数、後端ピッチ周波数、平均話速、平均パワー、先端スペクトル包絡、後端スペクトル包絡を含み、付加データ(設定データ)として、休止時間長を含んで構成されている。
なお、本実施形態において、録音編集方式の音声合成のために用いられる音声部品データは、予め基本データが設定されて、音声部品データ記憶部30(図1参照)に記憶されている。
基本データには、音声部品を識別するための音声部品番号と、音声部品の内容を示す読み上げデータ、すなわちテキストデータと、そのテキストデータを発話者が発話した音声を録音した音声波形データと、テキストデータの拍数(モーラ数)と、データ長(音声波形データの全時間長)とが設定されている。
例えば、図3に示した例では、音声部品番号として“123456”、読み上げデータとして“K放送(けいほうそう)”、音声波形データ(図4のP参照)として所定のサンプリング周波数(例えば、数kHz〜数十kHz程度)でサンプリングされたデジタルデータ、拍数として“6”、データ長として“1200(ms)”が設定されている。
音響的特徴量に関するデータは、休止時間長算出装置40において休止時間長を算出するための中間データであり、休止時間長を算出する過程において音響的特徴量検出部410によって算出され、一時的に設定されるデータである。
付加データである休止時間長は、休止時間長算出装置40(図1参照)によって算出されて設定されるデータである。このデータは、音声合成において、後ろに接続される音声部品データとの音響的特徴量の差異(音響的距離)に基づいて決定されるデータであり、同じ音声部品番号の音声部品データであっても、読み上げ情報において文番号i及び文節番号jによって指定される音声部品データが用いられる位置によって異なる値となる。
次に、各データについて、図3及び図4を参照して説明する。
図4には、音声合成において先行する先行音声部品データP、及び、この先行音声部品データの後ろに接続される後続音声部品データPの音声波形データを示している。
図4に示した例では、先行音声部品データPは、株式の銘柄「K放送(けいほうそう)」を録音した音声部品データであり、後続音声部品データPは、株価「40円(よんじゅうえん)」を録音した音声部品データである。図4は、その音声波形を示している。
なお、図4において、左右方向が時間軸であり、左から右に向かって時間が経過するものとする。
図4に示したように、各音声部品データP,Pの音声波形について、それぞれ、データ開始位置、音声開始位置、有声音開始位置、有声音終了位置、音声終了位置、データ終了位置を定めることができる。
データ長は、音声波形データの始点であるデータ開始位置から音声波形データの終点であるデータ終了位置までの全データ長である。
先端無音長及び後端無音長は、それぞれ、音声波形データの「データ開始位置から音声開始位置までの間」及び「音声終了位置からデータ終了位置までの間」の無音区間の長さである。
先端非有声音長及び後端非有声音長は、それぞれ、音声波形データの「データ開始位置から有声音開始位置までの間」及び「有声音終了位置からデータ終了位置までの間」の有声音を含まない非有声音区間の長さである。非有声音区間には、無音区間と無声音区間とが含まれる。
また、音声区間長は、データ長から先端無音長と後端無音長とを減じることにより算出することができる。
なお、音声開始位置、有声音開始位置、有声音終了位置及び音声終了位置は、休止時間長算出装置40の音響的特徴量検出部410(図1参照)によって、音声波形データを音響分析することによって検出され、検出された音声開始位置、有声音開始位置、有声音終了位置及び音声終了位置、並びにデータ開始位置及びデータ終了位置に基づいて各区間の長さを算出することができる。
休止時間長は、音声再生時に先行音声部品データPと後続音声部品データPとの接続部に挿入されるポーズ(無音状態)の時間長であり、休止時間長算出装置40の休止時間長算出部440(図1参照)によって算出され、休止時間長設定部450(図1参照)によって先行音声部品データPに設定される。
次に、図5を参照(適宜図3参照)して、本発明による休止時間長を設定する原理について説明する。ここで、図5は、本発明による休止時間長を設定する原理を説明するための説明図である。
本発明は、休止時間長算出装置40(図1参照)によって、先行音声部品データPと後続音声部品データPとの接続部に、先行音声部品データPと後続音声部品データPとの音響的特徴量の差異に基づいて、休止時間(無音状態)を設定するものである。これによって、音声部品データP,Pに含まれる音声波形を自然な聴感となるように接続して再生することが可能となる。
図5は、音響的特徴量の例としてピッチ周波数F0を用いた場合について示している。
ピッチ周波数F0を用いて、先行音声部品データPと後続音声部品データPとを接続する場合は、先行音声部品データPの有声音終了位置における後端ピッチ周波数ed.F0と、後続音声部品データPの有声音開始位置における先端ピッチ周波数st.F0との差異、すなわち音響的な“距離”(以降、適宜“音響的距離”と呼ぶ)に基づいて、先行音声部品データPと後続音声部品データPとの間の接続部に挿入する休止時間長を設定する。
互いに接続される音声部品データP及びPにおいて、音響的距離が大きい場合には、そのまま音声波形を連続して再生すると、不連続で不自然な聴感となる。また、音響的距離にかかわらず、長めの休止時間を挿入した場合は、間延びした感じになる場合が生じると共に、機械的な読み上げの印象を与えることになる。
そこで、本発明では、先行音声部品データPと後続音声部品データPとの音響的距離が大きいほど接続部に挿入する休止時間を長く設定し、音響的距離が小さいほど接続部に挿入する休止時間を短く設定することにより、自然な聴感が得られる音声再生を可能とするものである。
なお、用いる音響的特徴量によって、音声波形における音響的特徴量を参照する位置に違いがあるが、詳細については後記する。
図1に戻って、音声合成装置100の各部の構成について説明する。
読み上げ情報入力部(読み上げ情報取得手段)10は、音声合成を行う対象となる読み上げ情報を入力するための入力部であり、例えば、読み上げ情報が記憶されている磁気ディスク装置、光ディスク装置、フラッシュメモリ等の記憶装置から、音声合成の対象とする読み上げ情報を読み出して取得するものである。また、ネットワークや電話回線等の通信回線を介して読み上げ情報を入力するようにしてもよいし、キーボード等の入力デバイスを介して入力するようにしてもよく、入力手段については特に限定されない。
読み上げ情報入力部10は、入力した読み上げ情報を音声部品データ取得部20に出力する。
なお、本実施形態では、読み上げ情報入力部は、文節に対応した音声部品データを指定する情報として入力するようにしたが、通常のテキストデータを読み上げ情報として入力し、適宜な手法を用いて文節等の単位に分解し、予め準備された音声部品データに対応付けるようにしてもよい。
音声部品データ取得部(音声部品データ取得手段)20は、読み上げ情報入力部10から出力された読み上げ情報を入力し、入力した読み上げ情報を構成する“文節”に対応する音声部品データを順次に音声部品データ記憶部30から読み出して取得し、休止時間長算出装置40の音響的特徴量検出部410に出力する。
音声部品データ記憶部(音声部品データ記憶手段)30は、音声部品データを記憶する、例えば、磁気ディスク装置、光ディスク装置、半導体メモリ等の記憶装置であり、発話した文節を録音した音声波形データを設定された音声部品データが、予め記憶されている。
音声部品データ記憶部30に記憶されている音声部品データは、音声部品データ取得部20によって適宜読み出される。
休止時間長算出装置40は、音響的特徴量検出部410、先行音声部品データ記憶部420、音響的距離算出部430、休止時間長算出部440及び休止時間長設定部450を備えて構成されている。
休止時間長算出装置40は、音声部品データ取得部20から出力された音声部品データを入力し、入力した音声部品データから音響的特徴量を検出し、検出した音響的特徴量を用いて、互いに接続される音声部品データ間の音響的距離を算出し、算出した音響的距離に基づいて、互いに接続される音声部品データ間の休止時間長を算出し、算出した休止時間長を音声部品データに付加(設定)して音声合成データ記憶部50に記憶する。
休止時間長算出装置40の各部の詳細な構成については後記する。
音声合成データ記憶部50は、休止時間長算出装置40の休止時間長設定部450によって休止時間長が設定された音声部品データを記憶する、例えば、磁気ディスク装置、光ディスク装置、半導体メモリ等の記憶装置である。
音声合成データ記憶部50は、休止時間長が設定された音声部品データを、読み上げ情報入力部10で入力した読み上げ情報で指定された文番号及び文節番号に対応付けて順次記憶する。そして、読み上げ情報に含まれるすべての文節に対応して、休止時間長が設定された音声部品データを記憶することで、音声合成データ記憶部50に、読み上げ情報に対応する音声合成データが形成される。
音声合成データ記憶部50に形成された音声合成データは、音声再生部60によって読み出される。
音声再生部60は、音声合成データ記憶部50に形成され読み上げ情報に対応する音声合成データを読み出し、文番号及び文節番号によって対応付けられた音声部品データに含まれる音声波形データを、順次アナログの音声波形信号に再生し、再生した音声波形信号をスピーカ70に出力する。
音声再生部60は、音声部品データに含まれる音声波形データを音声波形信号に再生すると共に、その音声部品データに設定された休止時間長だけ無音状態を挿入した後に、次の音声部品データの再生を行う。
スピーカ70は、音声再生部60から出力された音声波形信号を入力し、入力した音声波形信号を音波に変換して、聴取可能に再生する。
なお、本実施形態では、音声合成装置100は、休止時間長を設定した音声部品データによって形成した音声合成データを、音声再生部によって音声波形信号に再生してスピーカに出力し、聴取可能に再生するように構成したが、例えば、音声合成データをネットワーク等の通信回線や放送波を介して送信するようにし、受信装置側で音声合成データを再生するようにしてもよい。
<休止時間長算出装置の構成>
次に、図6を参照(適宜図1参照)して、本実施形態の休止時間長算出装置40の構成について詳細に説明する。ここで、図6は、本実施形態の休止時間長算出装置の構成を示すブロック図である。
図6に示した休止時間長算出装置40は、音響的特徴量検出部410、先行音声部品データ記憶部420、音響的距離算出部430、休止時間長算出部440及び休止時間長設定部450を備えて構成されている。
音響的特徴量検出部(音響的特徴量取得手段)410は、フレーム化処理部411、スペクトル分析部412、ピッチ周波数検出部413、話速検出部414、パワー検出部415及びスペクトル包絡検出部416を備えて構成されており、音声部品データ取得部20から出力された音声部品データを入力し、入力した音声部品データに含まれる音声波形データを分析して音響的特徴量を検出し、検出した音響的特徴量に関するデータ(図3参照)を音声部品データに設定し、音響的特徴量に関するデータを設定した音声部品データを音響的距離算出部430に出力すると共に、先行音声部品データ記憶部420に記憶する。
本実施形態の音響的特徴量検出部410は、ピッチ周波数検出部413、話速検出部414、パワー検出部415及びスペクトル包絡検出部416によって、それぞれ、音声の高さを表わす“ピッチ周波数”、話すスピードを表す“話速”、音声の大きさを表す“パワー”及び音声の響きを表す“スペクトル包絡”の4つの音響的特徴量を検出する。
なお、本実施形態では前記した4つの音響的特徴量を検出するが、このうちの1つ又は複数の音響的特徴量を検出するようにしてもよいし、例えば、端部の音素の継続時間長等の他の音響的特徴量を検出するようにしてもよい。
次に、音響的特徴量検出部410の各部の詳細について説明する。
フレーム化処理部411は、入力された音声部品データに含まれる音声波形データから所定の間隔で窓関数を用いて音声波形データを切り出すフレーム化処理を行う。
フレーム化処理を行う際には、例えば、フレーム長を20〜40ms程度、フレーム間隔を5〜20ms程度とし、窓関数としてハミング窓、ハニング窓、三角窓等を用いることができる。
フレーム化処理された音声波形データは、スペクトル分析部412に出力される。
スペクトル分析部412は、フレーム化処理部411から出力されたフレーム化処理された音声波形データをスペクトル分析する。
スペクトル分析の手法としては、例えば、フーリエスペクトル分析、LPC分析(線型予測分析)、ケプストラム分析等を用いることができ、パワースペクトル、予測係数、ケプストラム等をスペクトルデータとして算出する。
算出したスペクトルデータは、前記した音響的特徴量を検出するためのピッチ周波数検出部413、話速検出部414、パワー検出部415及びスペクトル包絡検出部416に出力される。
次に、図6及び図7を参照して、ピッチ周波数検出部413の構成について説明する。ここで、図7は、ピッチ周波数に基づく休止時間長の設定の様子を説明するための説明図である。
図6に示したように、ピッチ周波数検出部413は、端部非有声音長検出部413a及び端部ピッチ周波数検出部413bを備えて構成されている。
本実施形態では、図7に示したように、音響的特徴量としてピッチ周波数を用いる場合は、先行音声部品データPの音声波形の後端における後端ピッチ周波数(phr[i][j].ed.F0)と、後続音声部品データPの音声波形の先端における先端ピッチ周波数(phr[i][j+1].st.F0)とに基づいて、休止時間長(phr[i][j].pau)を算出する。
なお、ピッチ周波数は、無声音からは抽出できないため、音声区間において有声音を含む最初のフレームから検出されるピッチ周波数を先端ピッチ周波数として検出し、音声区間において有声音を含む最後のフレームから検出されるピッチ周波数を後端ピッチ周波数として検出する。
また、ピッチ周波数は、例えば、パワースペクトルの自己相関関数を求め、その自己相関関数の第1ピークを抽出し、抽出した第1ピークの周波数として求めることができるし、ケプストラム分析を行い、その高ケフレンシ部分のピークを抽出し、抽出したケフレンシの逆数を算出することにより求めることもできる。また、他の手法によってピッチ周波数を検出するようにしてもよい。
端部非有声音長検出部413aは、フレーム化された音声波形のスペクトルデータを解析することにより、フレーム毎に有声音が含まれるかどうかを検出する。そして、最初に出現した有声音を含むフレームの位置を有声音開始位置として検出する。また、有声音を含む最後のフレームの位置を有声音終了位置として検出する。
検出した有声音開始位置とデータ開始位置とにより、先端非有声音長を算出することができる。簡単にはデータ開始位置を“0(ms)”と定義すると、有声音開始位置が先端非有声音長に一致する。また、検出した有声音終了位置とデータ終了位置とにより、後端非有声音長を算出することができる。データ開始位置を“0”とすると、データ終了位置はデータ長に一致するから、データ長から有声音終了位置を減じることにより後端非有声音長を算出することができる。
端部ピッチ周波数検出部413bは、端部非有声音長検出部413aで検出された有声音開始位置のフレームに対応するスペクトルデータからピッチ周波数を検出して先端ピッチ周波数とし、有声音終了位置のフレームのスペクトルデータからピッチ周波数を検出して後端ピッチ周波数とする。
ピッチ周波数検出部413は、端部非有声音長検出部413aで検出した先端非有声音長及び後端非有声音長を、それぞれ、音声部品データの phr[i][j].st.pos2 及び phr[i][j].ed.pos2 に設定し、端部ピッチ周波数検出部413bで検出した先端ピッチ周波数及び後端ピッチ周波数を、それぞれ、音声部品データの phr[i][j].st.F0 及び phr[i][j].ed.F0 に設定する。
本実施形態では、端部のピッチ周波数を音響的特徴量として用いたが、各音声部品の音声波形において、ピッチ周波数を検出することができた全フレーム(すなわち有声音を含むフレーム)の平均ピッチ周波数を算出して音響的特徴量として用いるようにしてもよい。特に、データ長が短い音声部品の場合には、平均ピッチ周波数を用いても良く、データ長が長い場合には、端部ピッチ周波数を用いることが好ましい。これによって、適切に音声部品データの接続部に休止時間を設定することができる。
次に、図6及び図8を参照して、話速検出部414の構成について説明する。ここで、図8は、話速に基づく休止時間長の設定の様子を説明するための説明図である。
図6に示したように、話速検出部414は、端部無音長検出部414a及び平均話速検出部414bを備えて構成されている。
本実施形態では、音響的特徴量として話速を用いる場合は、先行音声部品データPの音声波形の音声区間における平均話速と、後続音声部品データPの音声波形の音声区間における平均話速とに基づいて、休止時間長(phr[i][j].pau)を算出する。
また、本実施形態では、図8に示したように、話速として、音声区間に出現する拍数(phr[i][j].mora)と音声区間長に基づいて算出される平均話速を用いるようにしたが、単位時間当たりの音素数等の他の定義による話速を用いるようにしてもよい。
端部無音長検出部414aは、フレーム化された音声波形のスペクトルデータを解析することにより、フレーム毎に音声波形信号が所定値以上のパワーを有するかどうかを検出する。そして、最初に所定値以上のパワーを有するフレームの位置を音声開始位置として検出する。また、所定のパワーを有する最後のフレームの位置を音声終了位置として検出する。
そして、検出した音声開始位置とデータ開始位置とに基づいて、先端無音長を算出することができる。また、検出した音声終了位置とデータ終了位置とに基づいて後端無音長を算出することができる。
また、音声区間長は、データ長(phr[i][j].time)から先端無音長(phr[i][j].st.pos1)及び後端無音長(phr[i][j].ed,pos1)を減じることにより算出することができる。
なお、音声開始位置及び音声終了位置の検出は、パワーの代わりに、例えば、フレーム毎に音素を有するかどうかを検出することで行うようにしてもよいし、スペクトルデータの代わりに、音声波形データの信号レベルに基づいて検出するようにしてもよい。
平均話速検出部414bは、式(1)に示したように、音声部品データに予め設定されている拍数(phr[i][j].mora)を、前記した手順で算出される音声区間長で除することにより平均話速 phr[i][j].SR を算出する。
phr[i][j].SR =
phr[i][j].mora / (phr[i][j].time -phr[i][j].st.pos1 -phr[i][j].ed.pos1)
・・・(1)
話速検出部414は、端部無音長検出部414aで検出した先端無音長及び後端無音長を、それぞれ、音声部品データの phr[i][j].st.pos1 及び phr[i][j].ed.pos1 に設定し、平均話速検出部414bで検出した平均話速を、音声部品データの phr[i][j].SR に設定する。
本実施形態では、音声区間の平均話速を音響的特徴量として用いるようにしたが、データ長が短い場合には、先端無音長及び後端無音長を無視して、拍数をデータ長で除することにより算出される平均話速を用いるようにしてもよい。この場合は、無音長の検出が不要である。
また、データ長が長い場合には、音声波形の平均話速ではなく、端部の話速を検出して用いるようにしてもよい。端部の話速を用いる場合は、例えば、フレーム化された音声波形を解析することにより、最初及び最後に出現するモーラの継続時間長を検出し、継続時間長の逆数をそれぞれ、先端話速及び後端話速として用いることができる。あるいは、先端及び後端から所定時間内におけるモーラの出現数を検出するようにしてもよい。
次に、図6及び図9を参照して、パワー検出部415の構成について説明する。ここで、図9は、パワーに基づく休止時間長の設定の様子を説明するための説明図である。
図6に示したように、パワー検出部415は、端部無音長検出部415a及び平均パワー検出部415bを備えて構成されている。
本実施形態では、図9に示したように、音響的特徴量としてパワーを用いる場合は、先行音声部品データPの音声波形の音声区間における平均パワーと、後続音声部品データPの音声波形の音声区間における平均パワーとに基づいて、休止時間長(phr[i][j].pau)を算出する。
端部無音長検出部415aは、話速検出部414の端部無音長検出部414aと同様に、音声開始位置及び音声終了位置を検出して、先端無音長及び後端無音長を算出するものであるから、詳細な説明は省略する。なお、パワー検出部415と話速検出部414と、後記するスペクトル包絡検出部416とで、例えば、端部無音長検出部414aを共用するようにしてもよい。
また、音声区間長は、データ長から先端無音長及び後端無音長を減じることにより算出することができる。
平均パワー検出部415bは、スペクトルデータを用いてフレーム毎にパワー(phr[i][j].pwr[k]:kはフレーム番号を示す)を検出し、式(2)に示したように、音声区間内の全フレームのパワーを平均することにより平均パワー(phr[i][j].PW)を算出する。
phr[i][j].PW = sum( phr[i][j].pwk[k] )/ 音声区間のフレーム数 ・・・(2)
但し、右辺の分母の sum( ) は、音声区間内のフレームのパワーの総和を示す。
パワー検出部415は、端部無音長検出部415aで検出した先端無音長及び後端無音長を、それぞれ、音声部品データの phr[i][j].st.pos1 及び phr[i][j].ed.pos1 に設定し、平均パワー検出部415bで検出した平均パワーを、音声部品データの phr[i][j].PW に設定する。
本実施形態では、音声区間の平均パワーを音響的特徴量として用いるようにしたが、音声区間の平均パワーではなく、音声区間の先端及び後端フレームのパワーを検出して用いるようにしてもよい。また、本実施形態では、音声の大きさを表す音響的特徴量としてパワーを用いたが、パワーの代わりに、例えば、聴覚的な音量を表す感覚量であるラウドネスレベルを用いるようにしてもよい。
次に、図6及び図10を参照して、スペクトル包絡検出部416の構成について説明する。ここで、図10は、スペクトル包絡に基づく休止時間長の設定の様子を説明するための説明図である。
図6に示したように、スペクトル包絡検出部416は、端部無音長検出部416a及び端部スペクトル包絡検出部416bを備えて構成されている。
本実施形態では、図10に示したように、音響的特徴量としてスペクトル包絡を用いる場合は、先行音声部品データPの音声波形の後端における後端スペクトル包絡(phr[i][j].ed.SE)と、後続音声部品データPの音声波形の先端における先端スペクトル包絡(phr[i][j+1].st.SE)とに基づいて、休止時間長(phr[i][j].pau)を算出する。
スペクトル包絡は、スペクトル分析部412で算出したスペクトルデータに基づいて求めることができる。例えば、スペクトル分析の手法としてフーリエ変換を用いた場合は、フーリエ変換係数を用いることができる。その他に、帯域フィルタ群、相関関数、LPC分析の係数、ケプストラム、メルケプストラム等を用いることもできる。更に、これらの係数の1次微分や2次微分等の動的特徴量を加えるようにしてもよい。
なお、スペクトル包絡は、複数の係数によって構成されるベクトル量として表される。
端部無音長検出部416aは、話速検出部414の端部無音長検出部414aと同様に、音声開始位置及び音声終了位置を検出して、先端無音長及び後端無音長を算出するものであるから、詳細な説明は省略する。なお、話速検出部414とパワー検出部415とスペクトル包絡検出部416とで、例えば、端部無音長検出部414aを共用するようにしてもよい。
また、音声区間長は、データ長から先端無音長及び後端無音長を減じることにより算出することができる。
端部スペクトル包絡検出部416bは、端部無音長検出部416aで検出された音声開始位置のフレームに対応するスペクトルデータからスペクトル包絡を検出して先端スペクトル包絡とし、音声終了位置のフレームのスペクトルデータからスペクトル包絡を検出して後端スペクトル包絡とする。
スペクトル包絡検出部416は、端部無音長検出部416aで検出した先端無音長及び後端無音長を、それぞれ、音声部品データの phr[i][j].st.pos1 及び phr[i][j].ed.pos1 に設定し、端部スペクトル包絡検出部416bで検出した先端スペクトル包絡及び後端スペクトル包絡を、それぞれ、音声部品データの phr[i][j].st.SE 及び phr[i][j].ed.SE に設定する。
なお、本実施形態では、端部のスペクトル包絡を音響的特徴量として用いたが、音声部品のデータ長が短い場合には、音声区間における平均スペクトル包絡を用いるようにしてもよい。
図6に戻って、休止時間長算出装置40の構成について説明を続ける。
先行音声部品データ記憶部420は、音響的特徴量検出部410によって音響的特徴量に関するデータを設定された音声部品データを一時的に記憶し、この音声部品データは、次回の休止時間長を算出する際の、先行音声部品データとして休止時間長算出部440によって読み出される。すなわち、先行音声部品データ記憶部420は、データ遅延手段として機能する。
先行音声部品データ記憶部420としては、例えば、半導体メモリを用いることができるが、磁気ディスク装置や光ディスク装置等の記憶装置を用いることもできる。
音響的距離算出部(音響的距離算出手段)430は、音響的特徴量検出部410によって音響的特徴量に関するデータを設定された音声部品データを、後続音声部品データとして入力すると共に、先行音声部品データ記憶部420に記憶された音声部品データを読み出し、先行音声部品データとして用いる。そして、先行音声部品データに設定された音響的特徴量に関するデータと、後続音声部品データに設定された音響的特徴量に関するデータとに基づいて音響的距離を算出し、休止時間長算出部440に出力する。
音響的距離は、用いる音響的特徴量に応じて、式(3)〜式(8)によって算出することができる。
まず、音響的特徴量としてピッチ周波数を用いる場合は、式(3)によって、先行音声部品データの後端ピッチ周波数(phr[i][j].ed.F0)と後続音声部品データの先端ピッチ周波数(phr[i][j+1].st.F0)とに基づいて音響的距離(ΔF0[i][j])を算出すると共に、式(4)によって、先行音声部品データの後端非有声音長(phr[i][j].ed.pos2)と後続音声部品データの先端非有声音長(phr[i][j+1].st.pos2)とに基づいて、音響的距離の算出に用いるピッチ周波数を検出した端部間の時間的距離(ΔFp[i][j])を算出する。
ΔF0[i][j] = |log(phr[i][j].ed.F0) -log(phr[i][j+1].st.F0)| ・・・(3)
ΔFp[i][j] = phr[i][j].ed.pos2 + phr[i][j+1].st.pos2 ・・・(4)
但し、log( ) は、常用対数関数を示す。
この端部間の時間的距離を考慮して休止時間長を検出することにより、考慮しないときよりも適切に休止時間長を算出することができる。
次に、音響的特徴量として話速を用いる場合は、式(5)によって、先行音声部品データの平均話速(phr[i][j].SR)と後続音声部品データの平均話速(phr[i][j+1].SR)とに基づいて音響的距離(ΔR[i][j])を算出する。
ΔR[i][j] = |phr[i][j].SR -phr[i][j+1].SR| ・・・(5)
次に、音響的特徴量としてパワーを用いる場合は、式(6)によって、先行音声部品データの音声区間の平均パワー(phr[i][j].PW)と後続音声部品データの音声区間の平均パワー(phr[i][j+1].PW)とに基づいて音響的距離(ΔP[i][j])を算出する。
ΔP[i][j] = |phr[i][j].PW -phr[i][j+1].PW| ・・・(6)
次に、音響的特徴量としてスペクトル包絡を用いる場合は、式(7)によって、先行音声部品データの後端スペクトル包絡(phr[i][j].ed.SE)と後続音声部品データの先端スペクトル包絡(phr[i][j+1].st.SE)とに基づいて音響的距離(ΔE[i][j])を算出すると共に、式(8)によって、先行音声部品データの後端無音長(phr[i][j].ed.pos1)と後続音声部品データの先端無音長(phr[i][j+1].st.pos1)とに基づいて、音響的距離の算出に用いるスペクトル包絡を検出した端部間の時間的距離(ΔEp[i][j])を算出する。
ΔE[i][j] = |phr[i][j].ed.SE -phr[i][j+1].st.SE| ・・・(7)
ΔEp[i][j] = phr[i][j].ed.pos1 + phr[i][j+1].st.pos1 ・・・(8)
但し、スペクトル包絡はベクトル量であるから、式(7)において、スペクトル包絡の距離としてベクトル量同士のユークリッド距離を算出する。
ピッチ周波数を用いるときと同様に、この端部間の時間的距離を考慮して休止時間長を検出することにより、考慮しないときよりも適切に休止時間長を算出することができる。
休止時間長算出部(休止時間長算出手段)440は、重回帰演算部441及び回帰係数記憶部442を備えて構成されており、音響的距離算出部430によって算出された音響的距離に基づいて、先行音声部品データと後続音声部品データとの間の接続部に挿入する休止時間長を算出して、休止時間長設定部450に出力する。
重回帰演算部441は、音響的距離算出部430によって算出された音響的距離と、回帰係数記憶部442に予め記憶されている回帰式の係数とに基づいて、回帰演算を行うことによって休止時間長を算出し、休止時間長設定部450に出力する。
なお、図6に示した実施形態では、複数の音響的特徴量を説明変数とする重回帰式によって休止時間長を算出するようにしたが、1つの音響的特徴量を説明変数とする場合は、単回帰式によって休止時間長を算出する。特許請求の範囲における回帰式とは、説明変数が複数のときの重回帰式の場合と、説明変数が1つのときの単回帰式の場合とを含むものとする。
ここで、休止時間長(phr[i][j].pau)は、用いる音響的特徴量に応じて、回帰係数a0〜a16等を用いて、式(9)〜式(13)に示した重回帰式によって算出される。
まず、音響的特徴量としてピッチ周波数のみを用いる場合は、式(9)に示した重回帰式を用いる。
phr[i][j].pau = a0 + a1×ΔF0[i][j] + a2×ΔFp[i][j] ・・・(9)
次に、音響的特徴量として話速のみを用いる場合は、式(10)に示した単回帰式を用いる。
phr[i][j].pau = a3 + a4×ΔR[i][j] ・・・(10)
次に、音響的特徴量としてパワーのみを用いる場合は、式(11)に示した単回帰式を用いる。
phr[i][j].pau = a5 + a6×ΔP[i][j] ・・・(11)
次に、音響的特徴量としてスペクトル包絡のみを用いる場合は、式(12)に示した重回帰式を用いる。
phr[i][j].pau = a7 + a8×ΔE[i][j] + a9×ΔEp[i][j] ・・・(12)
また、音響的特徴量としてピッチ周波数、話速、パワー及びスペクトル包絡の4つを用いる場合は、式(13)に示した重回帰式を用いる。
phr[i][j].pau = a10 + a11×ΔF0[i][j] + a12×ΔFp[i][j] + a13×ΔR[i][j] + a14×ΔP[i][j] + a15×ΔE[i][j] + a16×ΔEp[i][j] ・・・(13)
また、以上の回帰式に限定されることなく、用いる音響的特徴量を適宜組み合わせて、重回帰式を定めて休止時間長を算出するようにしてもよい。
ここで、図11を参照して、回帰式の係数a0〜a16を求める方法について、音響的特徴量としてピッチ周波数を用いた場合を例にして説明する。ここで、図11は、主観評価実験と重回帰分析の関係を説明するための説明図である。
重回帰式の係数を決定するために、まず、音声部品データを様々に組み合わせた場合の、それぞれの音声部品データの組み合わせにおける最適な休止時間長を主観評価実験によって求める。一方、前記した音響的距離算出部430と同様の手順で音響的距離及び時間的距離を算出する。そして、主観評価実験によって求めた最適な休止時間長と、算出して求めた音響的距離及び時間的距離との重回帰分析を行うことにより、重回帰式の係数を決定することができる。
例えば、図11に示したように、文節1aに対応する先行音声部品データPと文節1bに対応する後続音声部品データPとの間の最適な休止時間長Pause1を主観評価実験によって求める。同様に、文節2aに対応する先行音声部品データPと文節2bに対応する後続音声部品データPとの間の最適な休止時間長Pause2、文節Laに対応する先行音声部品データPと文節Lbに対応する後続音声部品データPとの間の最適な休止時間長PauseL等を主観評価実験によって求める。
なお、主観評価実験は、例えば、相対法や極限法によって、最適な休止時間長を数値化することができる。また、他の手法による主観評価実験を用いて休止時間長を求めることもできる。
また、それぞれの先行音声部品データPと後続音声部品データPとの組み合わせにおける音響的距離(ΔF0,ΔF0,ΔF0等)及び時間的距離(ΔFp,ΔFp,ΔFp等)を前記した手順によって算出する。
これらのデータを式(9)に適用すると、式(14)のような関係式が得られる。
Pause1 = a0 + a1×ΔF0 + a2×ΔFp
Pause1 = a0 + a1×ΔF0 + a2×ΔFp



Pause1 = a0 + a1×ΔF0 + a2×ΔFp
・・・(14)
式(14)に示した関係式に対して、最小二乗法を適用することで、回帰式の係数a0,a1,a2を算出して定めることができる。
式(10)〜式(13)に示したような、他の回帰式を用いる場合も、同様の手順によって回帰式の係数を定めることができる。
このようにして予め定めた回帰式の係数を、回帰係数記憶部442(図6参照)に記憶しておき、この回帰式の係数を回帰係数記憶部442から読み出して用いることにより、休止時間長を算出することができる。
回帰係数記憶部442は、前記した主観評価実験に基づいて予め定められた回帰式の係数を記憶するものであり、記憶した係数は重回帰演算部441によって適宜読み出される。
回帰係数記憶部442としては、例えば、磁気ディスク装置、光ディスク装置、半導体メモリ等の記憶装置を用いることができる。
休止時間長設定部450は、休止時間長算出部440によって算出された休止時間長を、この休止時間長を算出した際の先行音声部品データの休止時間長(phr[i][j].pau)に設定し、休止時間長を設定した音声部品データを音声合成データ記憶部50(図1参照)に、文番号及び文節番号に対応付けて記憶する。
以上説明した音声合成装置100は、一部またはすべてを専用のハードウェアを作成して実施することができるが、一般的なコンピュータプログラムを実行させ、コンピュータ内の演算装置、記憶装置、入力装置、画像表示装置等を動作させることにより実現することもできる。このプログラム(休止時間長算出プログラム)は、通信回線を介して配布することも可能であるし、CD−ROM等の記録媒体に書き込んで配布することも可能である。
<音声合成装置の動作>
次に、図12を参照(適宜図1及び図6参照)して、本実施形態の音声合成装置100の動作について説明する。ここで、図12は、本実施形態の音声合成装置の処理の流れを示すフローチャートである。
まず、音声合成装置100は、読み上げ情報入力部10によって、音声合成の対象となる読み上げ情報を入力し、入力した読み上げ情報を音声部品データ取得部20に出力する(ステップS10)。
音声合成装置100は、音声部品データ取得部20によって、ステップS10で入力した読み上げ情報に指定された文節に対応する音声部品データを、順次に音声部品データ記憶部30から取得し、休止時間長算出装置40の音響的特徴量検出部410に出力する(ステップS11)。
音声合成装置100は、休止時間長算出装置40の音響的特徴量検出部410によって、音響的特徴量を検出し、検出した音響的特徴量に関するデータを音声部品データに設定し、この音声部品データを、音響的距離算出部430に対して後続音声部品データとして出力すると共に、次の音声部品データの接続における先行音声部品データとして先行音声部品データ記憶部420に記憶する(ステップS12)。
ここで、音響的特徴量検出部410によって出力された音声部品データが、ステップS10で入力した読み上げ情報を構成する最初の文節に対する音声部品データである場合は(ステップS13でYes)、この音声部品データに対応する先行音声部品データは無く、休止時間長を算出する必要がないため、ステップS11に戻り、次の文節に対応する音声部品データを取得する。
一方、音響的特徴量検出部410によって出力される音声部品データが読み上げ情報を構成する最初の文節に対する音声部品データではない場合には(ステップS13でNo)、音声合成装置100は、音響的距離算出部430によって、先行音声部品データ記憶部420に記憶された先行音声部品データに設定されている音響的特徴量と、音響的特徴量検出部410によって出力された後続音声部品データに設定されている音響的特徴量との音響的距離を算出し、休止時間長算出部440に出力する(ステップS14)。
次に、休止時間長算出部440の重回帰演算部441によって、回帰係数記憶部442に予め記憶しておいた重回帰式の係数と、ステップS14で算出された音声部品データ間の音響的距離とに基づいて、休止時間長を算出し、休止時間長設定部450に出力する(ステップS15)。
そして、休止時間長設定部450によって、ステップS15で算出した休止時間長を、先行音声部品データに設定し(ステップS16)、読み上げ情報の文番号と文節番号とに対応付けて音声合成データ記憶部50に記憶する(ステップS17)。
ステップS17で休止時間長を設定した音声部品データを記憶すると、読み上げ情報に次の文節が残っているかどうかを確認し(ステップS18)、文節が残っている場合は(ステップS18でYes)、ステップS11に戻り、次の文節に対応する音声部品データを取得し、ステップS17までの処理を繰り返す。
一方、次の文節が残っていない場合は(ステップS18でNo)、最後の文節に対応する当該後続音声部品データには休止時間長を設定する必要がないため、この後続音声部品データを読み上げ情報の最後の文における最後の文節の番号に対応付けて、音声合成データ記憶部50に記憶する(ステップS19)。
以上で、読み上げ情報に対する音声合成データが音声合成データ記憶部50の中に完成する。
音声合成データが完成すると、音声再生部60によって、音声部品データを文番号及び文節番号に従って、音声合成データ記憶部50から対応する音声部品データを順次読み出し、音声部品データに含まれる音声波形データをアナログの音声波形信号に変換し、スピーカ70に出力して聴取可能に再生する。そして、この音声部品データに設定された休止時間長のポーズ(無音状態)を挿入した後に、次の音声部品データの再生を行う(ステップS20)。
以上説明した手順によって、音声合成装置100は、読み上げ情報で指定された音声部品データ間に適切な休止時間を挿入して、自然な印象の音声として再生することができる。
なお、本実施形態では、逐次、音声部品データの音声波形データの音響分析と休止時間長算出を連続して処理するようにしたが、読み上げ情報に含まれるすべての文節に対応する音声部品データの音声波形データを音響分析した後、休止時間長を算出するようにしてもよい。
このようにするには、例えば、音響的特徴量検出部410によって音声部品データの音声波形データから音響分析し、音響的特徴量に関するデータを当該音声部品データに設定して、例えば、音声合成データ記憶部50に記憶する。読み上げ情報に含まれるすべての文節に対応する音声部品データの音響分析が終了すると、音響的距離算出部430によって音声合成データ記憶部50から先行音声部品データと後続音声部品データのペアを順次読み出して音響的距離を算出し、算出した音響的距離に基づいて、休止時間長算出部440によって休止時間長を算出し、休止時間長設定部450によって、先行音声部品データに休止時間長を設定して音声合成データ記憶部50に記憶する。そして、すべての音声部品データ間の休止時間長の設定が終了すると、音声合成データ記憶部50には、休止時間長が設定された音声部品データによって構成される音声合成データが完成する。
また、本実施形態では、音響的特徴量は、音声部品データに予め設定されている音声波形データを音響的特徴量検出部410によって音響分析して検出して取得するようにしたが、予め、音声波形データを音響分析して、図3に示した音響的特徴量に関するデータを検出し、音声部品データに設定して音声部品データ記憶部30に記憶して用いるようにしてもよい。
これによって、音声合成の度に、音声合成で選択された音声部品データの音響的特徴量を検出する必要がなく、音声部品データに設定された音響的特徴量に関するデータを参照するだけで音響的特徴量を取得することができ、音声合成処理に要する処理時間を短縮することができる。
本実施形態の音声合成装置の構成を示すブロック図である。 読み上げ情報の構成を説明するための説明図である。 音声部品データのデータ構造を示す図である。 音声部品データに含まれる音声波形データの構成を模式的に示す構成図である。 本発明による休止時間長を設定する原理を説明するための説明図である。 本実施形態の休止時間長算出装置の構成を示すブロック図である。 ピッチ周波数に基づく休止時間長の設定の様子を説明するための説明図である。 話速に基づく休止時間長の設定の様子を説明するための説明図である。 パワーに基づく休止時間長の設定の様子を説明するための説明図である。 スペクトル包絡に基づく休止時間長の設定の様子を説明するための説明図である。 主観評価実験と重回帰分析の関係を説明するための説明図である。 本実施形態の音声合成装置の処理の流れを示すフローチャートである。
符号の説明
10 読み上げ情報入力部(読み上げ情報取得手段)
20 音声部品データ取得部(音声部品データ取得手段)
30 音声部品データ記憶部(音声部品データ記憶手段)
40 休止時間長算出装置
100 音声合成装置
410 音響的特徴量検出部(音響的特徴量取得手段)
413 ピッチ周波数検出部
414 話速検出部
415 パワー検出部
416 スペクトル包絡検出部
430 音響的距離算出部(音響的距離算出手段)
440 休止時間長算出部(休止時間長算出手段)
441 重回帰演算部
450 休止時間長設定部
先行音声部品データ
後続音声部品データ

Claims (5)

  1. 所定の単位のテキストを発話した音声波形を記録した音声部品データを接続して音声合成を行う際に、互いに接続される音声部品データ間に挿入する休止時間長を算出する休止時間長算出装置であって、
    前記音声部品データに記録された音声波形における所定の音響的特徴量を取得する音響的特徴量取得手段と、
    前記音響的特徴量取得手段によって取得された、互いに接続される音声部品データにおいて先行する先行音声部品データの音響的特徴量と、後続の後続音声部品データの音響的特徴量との差異である音響的距離を算出する音響的距離算出手段と、
    前記音響的距離取得手段によって算出された音響的距離に基づいて、予め設定した算出式を用いて前記先行音声部品データと前記後続音声部品データとの間に挿入する休止時間長を算出する休止時間長算出手段と、
    を備えたことを特徴とする休止時間長算出装置。
  2. 前記音響的特徴量取得手段は、ピッチ周波数、話速、パワー又はスペクトル包絡の内の少なくとも1つの音響的特徴量を取得することを特徴とする請求項1に記載の休止時間長算出装置。
  3. 前記算出式として、前記音響的距離算出手段によって算出された音響的距離を説明変数とする回帰式を用いることを特徴とする請求項1又は請求項2に記載の休止時間長算出装置。
  4. 所定の単位のテキストを発話した音声波形を記録した音声部品データを接続して音声合成を行う際に、互いに接続される音声部品データ間に挿入する休止時間長を算出するために、コンピュータを、
    前記音声部品データに記録された音声波形における所定の音響的特徴量を取得する音響的特徴量取得手段、
    前記音響的特徴量取得手段によって取得された、互いに接続される音声部品データにおいて先行する先行音声部品データの音響的特徴量と、後続の後続音声部品データの音響的特徴量との差異である音響的距離を算出する音響的距離算出手段、
    前記音響的距離取得手段によって算出された音響的距離に基づいて、予め設定した算出式を用いて前記先行音声部品データと前記後続音声部品データとの間に挿入する休止時間長を算出する休止時間長算出手段、
    として機能させることを特徴とする休止時間長算出プログラム。
  5. 所定の単位のテキストを発話した音声波形を記録した音声部品データを接続して音声合成を行う音声合成装置であって、
    予め音声波形を記録した音声部品データを記憶する音声部品データ記憶手段と、
    決められた順番で連続的に読み上げるテキストからなるか、又はこのテキストを構成する前記所定の単位のテキストに対応する前記音声部品データを指定した情報からなる読み上げ情報を取得する読み上げ情報取得手段と、
    前記読み上げ情報取得手段によって取得された読み上げ情報に基づいて、前記音声部品データ記憶手段から音声部品データを取得する音声部品データ取得手段と、
    前記音声部品データ取得手段によって取得された、前記読み上げ情報を構成する音声部品データ間に挿入する休止時間長を算出する請求項1乃至請求項3の何れか一項に記載の休止時間長算出装置と、を備え、
    前記休止時間長算出装置によって算出された休止時間長を前記音声部品データ間の休止時間長として設定することを特徴とする音声合成装置。
JP2006301711A 2006-11-07 2006-11-07 休止時間長算出装置及びそのプログラム、並びに音声合成装置 Active JP4778402B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006301711A JP4778402B2 (ja) 2006-11-07 2006-11-07 休止時間長算出装置及びそのプログラム、並びに音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006301711A JP4778402B2 (ja) 2006-11-07 2006-11-07 休止時間長算出装置及びそのプログラム、並びに音声合成装置

Publications (2)

Publication Number Publication Date
JP2008116826A true JP2008116826A (ja) 2008-05-22
JP4778402B2 JP4778402B2 (ja) 2011-09-21

Family

ID=39502781

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006301711A Active JP4778402B2 (ja) 2006-11-07 2006-11-07 休止時間長算出装置及びそのプログラム、並びに音声合成装置

Country Status (1)

Country Link
JP (1) JP4778402B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015161822A (ja) * 2014-02-27 2015-09-07 ヤマハ株式会社 ブレス音設定装置
JP2016009061A (ja) * 2014-06-24 2016-01-18 日本放送協会 音声合成装置
JP2019192144A (ja) * 2018-04-27 2019-10-31 日本テレビ放送網株式会社 画面構成分析装置、画面構成分析方法及びプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04270394A (ja) * 1991-02-26 1992-09-25 Nec Corp ポーズ長決定方式
JPH0876796A (ja) * 1994-09-06 1996-03-22 Fujitsu Ten Ltd 音声合成装置
JPH11288298A (ja) * 1998-04-02 1999-10-19 Victor Co Of Japan Ltd 音声合成装置
JP2000221989A (ja) * 1999-01-28 2000-08-11 Oki Electric Ind Co Ltd 音声合成装置、規則音声合成方法及び記憶媒体
JP2003280680A (ja) * 2002-03-25 2003-10-02 Canon Inc 音声合成装置およびその方法およびそのプログラムならびに記憶媒体

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04270394A (ja) * 1991-02-26 1992-09-25 Nec Corp ポーズ長決定方式
JPH0876796A (ja) * 1994-09-06 1996-03-22 Fujitsu Ten Ltd 音声合成装置
JPH11288298A (ja) * 1998-04-02 1999-10-19 Victor Co Of Japan Ltd 音声合成装置
JP2000221989A (ja) * 1999-01-28 2000-08-11 Oki Electric Ind Co Ltd 音声合成装置、規則音声合成方法及び記憶媒体
JP2003280680A (ja) * 2002-03-25 2003-10-02 Canon Inc 音声合成装置およびその方法およびそのプログラムならびに記憶媒体

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015161822A (ja) * 2014-02-27 2015-09-07 ヤマハ株式会社 ブレス音設定装置
JP2016009061A (ja) * 2014-06-24 2016-01-18 日本放送協会 音声合成装置
JP2019192144A (ja) * 2018-04-27 2019-10-31 日本テレビ放送網株式会社 画面構成分析装置、画面構成分析方法及びプログラム
JP7209441B2 (ja) 2018-04-27 2023-01-20 日本テレビ放送網株式会社 画面構成分析装置、画面構成分析方法及びプログラム

Also Published As

Publication number Publication date
JP4778402B2 (ja) 2011-09-21

Similar Documents

Publication Publication Date Title
US5828994A (en) Non-uniform time scale modification of recorded audio
US8036899B2 (en) Speech affect editing systems
US7979274B2 (en) Method and system for preventing speech comprehension by interactive voice response systems
Raitio et al. Analysis of HMM-Based Lombard Speech Synthesis.
Picart et al. Analysis and synthesis of hypo and hyperarticulated speech
JP5039865B2 (ja) 声質変換装置及びその方法
JP2020507819A (ja) スペクトル包絡線のフォルマントの周波数シフトによって声の音質を動的に修正するための方法および装置
JP3701850B2 (ja) 音声言語の韻律表示装置および記録媒体
JP4778402B2 (ja) 休止時間長算出装置及びそのプログラム、並びに音声合成装置
Gutkin et al. Building statistical parametric multi-speaker synthesis for bangladeshi bangla
JP2001184100A (ja) 話速変換装置
Dall Statistical parametric speech synthesis using conversational data and phenomena
Maddela et al. Durational and Formantshift characteristics of Telugu alveolar and bilabial nasal phonemes
JP4313724B2 (ja) 音声再生速度調節方法、音声再生速度調節プログラム、およびこれを格納した記録媒体
US6934680B2 (en) Method for generating a statistic for phone lengths and method for determining the length of individual phones for speech synthesis
JPH07295588A (ja) 発話速度推定方法
JP3241582B2 (ja) 韻律制御装置及び方法
Maddela et al. Phonetic–Acoustic Characteristics of Telugu Lateral Approximants
Dzibela et al. Hidden-Markov-model based speech enhancement
Crystal et al. Segmental durations in connected speech signals
Munoz-Luna et al. Spectral study with automatic formant extraction to improve non-native pronunciation of English vowels
Beller Semi-parametric synthesis of speaker-like laughter
JP2012073280A (ja) 音響モデル生成装置、音声翻訳装置、音響モデル生成方法
JP2006284907A (ja) 音素セグメンテーション方法及び装置
JPH0756591A (ja) 音声合成装置、音声合成方法及び記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090319

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110404

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110607

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110701

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4778402

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140708

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250