JP2009122381A - 音声合成装置、音声合成方法およびそのプログラム - Google Patents

音声合成装置、音声合成方法およびそのプログラム Download PDF

Info

Publication number
JP2009122381A
JP2009122381A JP2007295895A JP2007295895A JP2009122381A JP 2009122381 A JP2009122381 A JP 2009122381A JP 2007295895 A JP2007295895 A JP 2007295895A JP 2007295895 A JP2007295895 A JP 2007295895A JP 2009122381 A JP2009122381 A JP 2009122381A
Authority
JP
Japan
Prior art keywords
speech
prosodic
unit
prosody
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007295895A
Other languages
English (en)
Other versions
JP4247289B1 (ja
Inventor
Hideyuki Mizuno
秀之 水野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007295895A priority Critical patent/JP4247289B1/ja
Application granted granted Critical
Publication of JP4247289B1 publication Critical patent/JP4247289B1/ja
Publication of JP2009122381A publication Critical patent/JP2009122381A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】入力テキストや音声データベースの構成に依存しない品質の良い合成音声を得る。
【解決手段】入力テキストを解析して、韻律パラメータ13、音素コンテキスト14を得る。音声素片候補探索部5は、音素コンテキスト14に適合する音声素片候補15を得て、韻律変形素片候補選択部6は、音声素片候補15から韻律で優れた韻律変形素片候補16を選択する。音声素片候補15についてサブコスト17を求め、韻律変形素片候補16について韻律変形サブコストも求め、これらサブコストの重み付け和が最小となるときの音声素片候補と韻律変形素片候補を選択音声素片19と韻律変形対象素片20として選択する。韻律変形部10は韻律変形対象素片20に対応する音声波形データを韻律変形し、この結果(韻律変形波形データ21)と選択音声素片19に対応する音声波形データとを接続して合成音声を得る。
【選択図】図1

Description

本発明は、入力されたテキストに対応した音声を出力する音声合成装置、音声合成方法とそのプログラムに関する。より詳しくは、音声波形データを選択して接続することで音声合成する波形接続型の音声合成技術に関する。
近年では大容量な記憶装置の使用コストの低下に伴って、数十分以上の大容量の音声データをそのまま大容量の記憶装置に蓄積し、入力されたテキスト及び韻律情報に応じて音声素片を適切に選択し、接続・変形することで高品質な音声を合成する波形接続型コーパスベース音声合成方法が提案されている(例えば、特許文献1、非特許文献1を参照のこと)。
このような方法によって、原理的には肉声同等の高品質な合成音声を生成することが可能になってきている。具体例として、音声データベースから、音声合成したい文字列に対応する音韻系列と部分的または完全に一致する音声素片をバイナリーツリー等で構成された音声素片辞書を用いて検索し、音声素片の類似度を評価するための複数のパラメータの組み合わせに基づく評価尺度に従ってコスト付けされた多数の音声素片の中から、DP(Dynamic Programming)等の方法によって適切な音声素片の組み合わせを選択し、選択された音声素片を順に接続することで音声合成を行っている(例えば非特許文献2参照)。
しかし、このような音声合成方式においては、そもそも適切な音声素片が音声データベースに存在しない場合、高品質な合成音声を生成することは困難である。
従って、様々なテキストを高品質に音声合成するためには、豊富な音声素片のバリエーションを含む音声データベースを用いることが必須と考えられ、このため近年では音声素片のバリエーションを増やし音声データベースの容量をより一層増加させる方向で開発が進んでいる。
音声データベースを大容量化することで、合成音声の品質は或る程度向上されてきたものの、時問的・費用的な問題から音声データベースに収録可能な音声の量には限界がある。このため、日本語としてありうる全ての音声素片を収録することは不可能である。また音声データベースに音声を収録するためには、予め読み上げるための文章(収録用テキスト)を用意する必要があるが、ここでも日本語としてありうる全てのテキストを集めることは不可能であるため、ある程度限定された内容のテキストを読み上げることになり、この結果、音声データベースに収録される音声の内容には偏りが生じる。
そこで、選択された音声素片の適合度合いによって合成音声の品質が決定づけられることから、単独又は複数の物理的なパラメータを組み合わせた物理的な尺度とピッチやパワー等の韻律的な尺度を組み合わせた評価尺度を設定し、この評価尺度に基づいて音声素片の選択を行う方法が採られている。(非特許文献2参照)。
しかし、こうした方法では、音声データベースに収録されているような内容のテキストを音声合成する場合には問題が顕在化しないものの、音声データベースに収録されていないような分野のテキストを音声合成する場合には、そもそも音声データベースに適切な音声素片が存在しない場合もあるから、適切な音声素片を利用できないため合成音声の品質が低くなるという問題が存在する。
このような問題を解決する観点から、入力テキストに対応した韻律に音声素片を韻律変形して接続する方法もあるが、韻律変形に伴う品質劣化のため機械的な音声品質になるといった問題がある。また、音声素片を選択後、合成音声の品質を評価して不適切であると判定された揚合に当該素片を韻律変形する方法も提案されている(特許文献2参照)。しかし、実際には様々な入力テキストに対する合成音声品質の判定のための適切な基準値を設定することは困難であり、或るテキストにおいては適切であった基準値であっても、別のテキストではその基準値では不適切な合成音声が生成される現象が生じる。
また、統計的な枠組みで合成音声品質の評価を行う方式も提案されている(特許文献3参照)。しかし、統計的に或る程度信頼のおける評価を行うことは可能だが、実用的には高精度に品質の評価を行うことは難しく、品質が良いものを悪く判定すると、韻律変形不要な素片を無理に韻律変形して劣化させてしまう点と、全ての音声素片の組み合わせに対して統計的評価を行うことは多大な処理量がかかる点が問題となる。
特許2761552号公報 特開2004−354644号公報 特開2007−25323号公報 M.Beutnagel,A.Conkie,J.Schoroeter,Y.Stylianou,and A.Sydra1,"Chose the bestto modifytheleast: A new generation concatenative synthesis system",in Proc.Eurospeech'99, 1999, pp.2291-2294 広川他、"波形編集型規則合成法における波形選択法"、電子情報通信学会音声研究会資料、SP89-114, pp.33-40, 1990
このような状況に鑑み、本発明は、入力テキストや音声データベースの構成に依存しない品質の良い合成音声を得る音声合成技術を提供することを目的とする。
上記課題を解決するために、本発明は次のような構成とされる。即ち、音声波形データの集合である音声波形データベースおよび、少なくとも音声波形データの合成音声を組み立てる上で適切な単位(合成単位)の韻律に関する情報である韻律パラメータと音声波形データベースにおける音声波形データとの対応を示す音声素片からなる音声情報データベースを用意しておき、入力テキストを解析して当該テキストの読み情報および韻律情報を取得し、韻律情報から韻律に関する情報である韻律パラメータ(目標韻律パラメータ)を取得し、読み情報を音素の並びである音素コンテキストに変換する。そして、少なくとも音素コンテキストに合成単位で適合する音声素片の候補(音声素片候補)を音声情報データベースから探索し、音声素片候補から韻律の観点で優れる候補(韻律変形素片候補)を選択し、各音声素片候補について、音素コンテキストおよび目標韻律パラメータと音声素片候補の音素コンテキストおよび韻律パラメータとの適合度を各々サブコストとして計算する。また、各韻律変形素片候補について、目標韻律パラメータに応じて韻律変形素片候補を韻律変形することによる音質劣化度を韻律変形サブコストとして計算する。そして、各音声素片候補および各韻律変形素片候補の各サブコストからなる評価コストが最良となるときの音声素片候補または韻律変形素片候補を、それぞれ選択音声素片、韻律変形対象素片として選択する。韻律変形対象素片に対応する音声波形データを音声波形データベースから読み込み、当該音声波形データを目標韻律パラメータに従って韻律変形し韻律変形波形データを生成し、選択音声素片に対応する音声波形データを音声波形データベースから読み込み、この音声波形データと韻律変形波形データを接続して合成音声を得る。
あるいは、上記韻律変形サブコストが予め定められた閾値を超える場合には、上記韻律変形サブコストを上記閾値とすると共に、上記目標韻律パラメータを韻律変形素片候補の韻律パラメータに近づけるように定められる許容韻律変形率を上記目標韻律パラメータに乗じた修正韻律パラメータを求める。そして、韻律変形では、韻律変形対象素片に対応する音声波形データを音声波形データベースから読み込み、当該音声波形データを修正韻律パラメータに従って韻律変形し韻律変形波形データを生成する。
本発明によれば、少なくとも音素コンテキストに合成単位で適合する音声素片候補および音声素片候補の中から韻律変形処理を施す対象となりえるものとして選択された韻律変形素片候補の中から、音声合成に利用する選択音声素片および韻律変形対象素片を決定した後、韻律変形対象素片に対応する音声波形データに韻律変形処理を施して韻律変形波形データを生成し、選択音声素片に対応する音声波形データと韻律変形波形データを接続して合成音声を得るから、単純に音声素片候補に対応する音声波形データを接続する波形接続型音声合成方式と比較して、処理量をほとんど増加させることなく入カテキストや音声データベースの構成に依存しない高品質な合成音声を得ることができる。
なぜなら、或る程度一般的なテキストを網羅した音声データベース(音声波形データベース+音声情報データベース)を用いれば、入力テキストに対応する適切な音声素片が音声データベース中に存在する確率が高く、入力テキストに対応する適切な音声素片が無い(あるいは少ない)ことから韻律変形処理を施した音声素片をも用いる必要がある確率は小さいため、韻律変形処理を施した音声素片が用いられることは少なく、つまり韻律変形処理の処理量も少なくて済む。同時に、韻律的に不適切な音声素片が用いられることが無くなる(あるいは少なくなる)ため、入カテキストによらず高品質な合成音声が得られる。
また、音声データベースから選択された全ての音声素片を韻律変形の必要性の有無に関わらず強制的に全て韻律変形する音声合成方式と比較すると、本発明では、元来韻律変形不要な適切な音声素片に対応する音声波形データに韻律変形処理を施さないため、韻律変形に伴う音質劣化を避けることが可能となり、合成音声全体の音声品質を向上させ且つ全ての音声素片に韻律変形処理を施す揚合と比較してその処理量を減少させることが可能となり、音声データベースの構成によらず高品質な合成音声を低処理量で得ることができる。
《第1実施形態》
本発明の第1実施形態について、図面を参照しながら説明する。
以下、音声合成装置は、例えば専用のハードウェアで構成された専用機やパーソナルコンピュータのような汎用機といったコンピュータで実現される。ここではコンピュータ(汎用機)で実現する場合を例に採り説明する。
音声合成装置100のハードウェア構成例を説明する。
音声合成装置100は、キーボード、ポインティングデバイスなどが接続可能な入力部と、液晶ディスプレイ、CRT(Cathode Ray Tube)ディスプレイなどが接続可能な出力部と、音声合成装置100の外部に通信可能な通信装置(例えば通信ケーブル、LANカード、ルータ、モデムなど)が接続可能な通信部と、CPU(Central Processing Unit)〔DSP(Digital Signal Processor)でも良い。またキャッシュメモリやレジスタなどを備えていてもよい。〕と、メモリであるRAM、ROMと、ハードディスク、光ディスク、半導体メモリなどである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、音声合成装置100に、フレキシブルディスク、CD−ROM(Compact Disc Read Only Memory)、DVD(Digital Versatile Disc)などの記憶媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。
さらに音声合成装置100には、合成音声を音として出力する音響出力装置(スピーカ)を接続可能であって、スピーカに入力する信号(合成音声をD/A変換したもの)を出力するための信号出力部を設けることができる。
音声合成装置の外部記憶装置には、音声合成のためのプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている〔外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくなどでもよい。〕。また、このプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。以下、データやその格納領域のアドレスなどを記憶する記憶装置を単に「記憶部」と呼ぶことにする。
音声合成装置100の記憶部には、プログラムの処理において必要となるデータとして、音声データベース1が記憶されている。この音声データベース1は、音声波形データの集合である音声波形データベース1aおよび、合成音声を組み立てる上で適切な単位(合成単位)の音声波形データの諸情報と音声波形データベース1aに含まれる音声波形データとの対応を示すエントリー(以下、このエントリーを音声素片と呼ぶ。)からなるデータ構造(テーブル)としての音声情報データベース1bを含んで構成されている。
この実施形態では説明を具体的なものとする観点から合成単位を音素とする。この他、例えば音節、半音節としてもよいし、あるいは音素・音節・半音節などの組み合わせを合成単位とすることなども可能であり、任意に決めることができる。
音声波形データベース1aに含まれる音声波形データは、単語や文章を読み上げた肉声の音声データに対してA/D変換を行い、ディジタルデータ化したものである。この音声波形データは、波形接続型音声合成の素材として利用できる。
音声情報データベース1bは、例えば図3に示すように、各音声素片は、音声素片の通し番号である音声素片番号、音声波形データベース1aに含まれる音声波形データから音声素片に対応する部分の読み出し位置を示す音声波形データ位置情報、発声音素を示す音素ラベル情報、音素の発声時間長を示す音素継続時間情報、音素区間の平均パワーを正規化して得たパワー情報、音素の音高(周波数)の時間推移を表したFパターン情報から構成されている。以下、混同を避けるため、音声波形データの音声素片に対応する部分を「部分音声波形データ」と云うことにする。
音声合成装置100に入力されるテキストは、入力部から入力されるものとしてもよいが、この実施形態では、説明の便宜から、予めテキストが記憶部に記憶されているものとする。また、本発明においてテキストの種類などに格別の限定はなく、この実施形態では、漢字かな混合の日本語テキストとする。
音声合成装置100の記憶部には、入力されたテキストを解析して読み情報および音韻情報を生成するテキスト解析部を実現するためのプログラム、韻律情報からFパターン情報などを含む韻律パラメータを取得する韻律パラメータ取得部を実現するためのプログラム、読み情報から音素コンテキストを生成する音素コンテキスト変換部を実現するためのプログラム、音素コンテキストに適合する音声素片候補を探索する音声素片候補探索部を実現するためのプログラム、音声素片候補の中から韻律的に優れた韻律変形素片候補を選択する韻律変形素片候補選択部を実現するためのプログラム、音声素片候補のサブコストを計算する音声素片サブコスト計算部を実現するためのプログラム、韻律変形素片候補のサブコストを計算する韻律変形素片サブコスト計算部を実現するためのプログラム、波形接続に用いる音声素片および韻律変形の対象である韻律変形対象素片を特定する音声素片選択部を実現するためのプログラム、韻律変形対象素片に対応する音声波形データに対して韻律変形処理を行う韻律変形部を実現するためのプログラム、特定された音声素片に対応する音声波形データおよび韻律変形された韻律変形波形データを波形接続して合成音声を生成する素片接続部を実現するためのプログラム、これらのプログラムに基づく処理などを制御する制御部を実現するためのプログラムなどが記憶されている。
音声合成装置100では、上記各プログラムとこの各プログラムの処理に必要なデータが必要に応じてRAMに読み込まれて、CPUで解釈実行・処理される。その結果、CPUが所定の機能(テキスト解析部、韻律パラメータ取得部、音素コンテキスト変換部、音声素片候補探索部、韻律変形素片候補選択部、音声素片サブコスト計算部、韻律変形素片サブコスト計算部、音声素片選択部、韻律変形部、素片接続部、制御部)を実現することで、音声合成が実現される。
次に、図1および図2を参照して、上記音声合成装置100による音声合成処理の流れを叙述的に説明する。
まず、テキスト解析部2が、記憶部に記憶されているテキストを読み込み、このテキストを形態素解析して、テキストに対応した読み情報11及び韻律情報12を出力する(ステップS1)。
形態素解析の概要について説明すると、テキスト解析部2は、単語モデル、漢字かな変換モデルなど(これらも必要に応じて記憶部に記憶されている。)を参照して、テキストをかなに変換する(読み情報11の取得)。また、テキストが日本語の場合、複数の単語が集まって文節などを構成すると、アクセントが移動・消失するなどの現象が起こるので、予めこれらの規則(アクセント結合規則)をデータとして記憶部に記憶しておき、テキスト解析部2は、このアクセント結合規則に従って、テキストのアクセント型を決定する。さらに、テキストが日本語の場合、意味的ないし文法的なまとまり毎にアクセントが1つ付く特徴的傾向があるので、予めこれらの規則(フレーズ規則)をデータとして記憶部に記憶しておき、テキスト解析部2は、このフレーズ規則に従って、アクセントの1つ付いたまとまりがいくつか接続したものを呼気段落として決定する(韻律情報12の取得)。この他、韻律情報12にポーズ位置を含めることもできる。
なお、ここで説明した形態素解析の概要は、形態素解析の一例であって、その他の形態素解析手法を排除する趣旨のものではない。本発明の音声合成装置・方法では、種々の形態素解析を用いることができ、これらは従来手法(例えば参考文献1、2参照)によって達成されるので、その詳細を省略する。
(参考文献1)特許3379643号公報
(参考文献2)特許3518340号公報
次に、韻律パラメータ取得部3が、テキスト解析部2が出力した韻律情報12を入力として、韻律に関する情報である韻律パラメータ13(目標韻律パラメータ)を推定してこれを出力する(ステップS2)。
韻律パラメータ13として、Fパターン(基本周波数パターン)、音素継続時間長(音素の発声の長さ)、パワー情報(音声の大きさ)などを例示できる。例えば、音素継続時間長とパワー情報は、予め規則化された、呼気段落内における音素の位置、発声速度、当該音素の前後の音素環境などに従って適宜に設定することができる。また、Fパターンについては、いわゆる藤崎モデルなどによって求めることができる。なお、「推定」とは、音声合成のために必要となる情報(Fパターン、音素継続時間長、パワー情報など)を、ある特定のものに決定することを意味する。
ここで説明した韻律パラメータ取得の概要は一例に過ぎず、その他の手法を排除する趣旨のものではない。本発明の音声合成装置・方法では、韻律パラメータの取得には、従来の韻律パラメータ取得手法を用いることができるので、その詳細を省略する。Fパターンの取得については例えば参考文献3、4を、音素継続時間長については例えば参考文献5、6を参照されたい。
(参考文献3)特許3420964号公報
(参考文献4)特許3344487号公報
(参考文献5)海木佳延、武田一哉、匂坂芳典、「言語情報を利用した母音継続時間長の制御」、電子情報通信学会誌 Vol. J75-A, No.3, pp.467-473, 1992.
(参考文献6)M.D.Riley, "Tree-based modeling for speech synthesis", In G. Bailly, C. Benoit,andT. R. Sawallis, editors, Talking Machines: Theories, Models, and Designs, pages265-273. Elsevier, 1992.
次に、音素コンテキスト変換部4が、テキスト解析部2が出力した読み情報11を入力として、音素コンテキスト14を求めてこれを出力する(ステップS3)。
音素コンテキストとは音素の並びのことであり、例えば、読み情報11が、“キョウワハレ”であれば音素コンテキスト14は、“/k//y//O//W//A//H//A//R//E/”となる。音素コンテキスト変換部4は、かな音素変換モデルなど(必要に応じて記憶部に記憶されている。)を参照して、読み情報11を音素列に変換する(音素コンテキスト14の取得)。
次に、音声素片候補探索部5が、少なくとも音素コンテキスト14を入力として、音素コンテキスト14に合成単位で適合する音声素片候補15を音声情報データベース1bから探索してこれを出力する(ステップS4)。
音声素片候補15の探索方法として、種々の方法を採用できる。例えば、方法(1):合成単位の並びが音素コンテキスト14と一致する音声素片番号の並びを音声情報データベース1bから全て探索して、これら音声素片を合成単位ごとに音声素片候補15とする。
合成単位が音素の例では、音素コンテキスト14が“/k//y//O//W//A//H//A//R//E/”である場合を例にすると、音素コンテキスト14の各音素“/k/”、“/y/”、“/O/”、“/W/”、“/A/”、“/H/”、“/A/”、“/R/”、“/E/”ごとに、当該音素に一致する音素ラベル情報を持つ音声素片を音声情報データベース1bから全て探索して、これら音声素片を音素コンテキスト14の音素ごとに音声素片候補15とする。つまり、この例では、音素コンテキスト14の音素ごとに一つまたは複数の音声素片候補15が決まる。
あるいは、方法(2):音素コンテキスト14と韻律パラメータ13を入力として、例えば韻律パラメータ13に含まれる情報Aの値がBであった場合、合成単位の並びが音素コンテキスト14と一致し且つ合成単位に含まれる或る音素の情報Aの値がBから予め決められた一定範囲内(例えば情報Aの値の前後+−20%以内)であるという条件を満たす音声素片番号の並びを音声情報データベース1bから探索して、これら音声素片を合成単位ごとに音声素片候補15としてもよい。
合成単位が音素の例では、音素コンテキスト14が“/k//y//O//W//A//H//A//R//E/”であり韻律パラメータ13の一つであるFパターンの平均値が220Hzである場合を例にすると、音素コンテキスト14の各音素“/k/”、“/y/”、“/O/”、“/W/”、“/A/”、“/H/”、“/A/”、“/R/”、“/E/”ごとに、当該音素に一致する音素ラベル情報を持ち且つFパターン情報の平均値が220Hzから予め決められた一定範囲内(例えばFパターン平均値の前後+−20%以内)であるという条件を満たす音声素片を音声情報データベース1bから全て探索して、これら音声素片を音素コンテキスト14の音素ごとに音声素片候補15とする。つまり、この例でも、音素コンテキスト14の音素ごとに一つまたは複数の音声素片候補15が決まる。
さらに、単純に線形探索すると音声情報データベース1bのサイズが大きくなるにつれて探索に時間がかかるため、例えば、参考文献7に開示される手法などで高速に探索してもよい。
(参考文献7)特開2005−070312号公報
次に、韻律変形素片候補選択部6が、少なくとも音声素片候補15と韻律パラメータ13を入力として、韻律パラメータ13と音声素片候補15の韻律パラメータ(音声素片候補の韻律パラメータは音声情報データベース1bから得られる。)との適合度を考慮して、音声素片候補探索部5が出力した合成単位ごとの音声素片候補15の中から少なくとも一つの韻律変形素片候補16を合成単位ごとに選択してこれを出力する(ステップS5)。
この処理は、音声素片候補15の中から韻律の観点で優れたものを一つ以上選択する処理である。韻律変形素片候補16の選択方法として、種々の方法を採用できるが、要は、ステップS4の処理で採用した探索基準に韻律に関わる基準を付加するか、あるいは韻律に関わる基準を厳しくすることで、音声素片候補15の中から韻律の観点で優れた候補を合成単位ごとに選び、これを韻律変形素片候補16とすればよい。また、「韻律の観点で優れる」とは一種の評価であるから、あたかも全ての音声素片候補15が「韻律の観点で優れる」と看做すことも許容され、この場合、全ての音声素片候補15を韻律変形素片候補16として選択する選択方法を採用することができる。
例えば、ステップS4の処理で方法(1)を採用した場合、上記方法(2)をステップS5の処理に採用することができる。
また、ステップS4の処理で方法(2)を採用した場合には、例えば次のような方法を採用することができる。韻律パラメータ13に含まれる情報Aと異なる情報Cの値がDであった場合、合成単位に含まれる或る音素の情報Cの値がDから予め決められた一定範囲内(例えば情報Cの値の前後+−10%以内とする。この条件は、ステップS4の処理で例示した情報Aと関係なく決めることができる。)であるという条件を満たすものを音声素片候補15の中から探索して、これらを合成単位ごとに韻律変形素片候補16とする。
あるいは、ステップS4の処理で方法(2)を採用した場合には、例えば次のような方法を採用することもできる。韻律パラメータ13に含まれる情報Aの値がBであった場合、合成単位に含まれる或る音素の情報Aの値がBから予め決められた一定範囲内(例えば情報Aの値の前後+−10%以内とする。この条件は、ステップS4の処理で例示した条件[+−20%]よりも厳しく設定する。)であるという条件を満たすものを音声素片候補15の中から探索して、これらを合成単位ごとに韻律変形素片候補16とする。
これらの例で、韻律変形素片候補16を一つ選択したい場合には、合成単位に含まれる或る音素の情報Aの値がB(あるいは情報Cの値がD)に最も近いものを一つ選択するようにすればよい。
合成単位が音素の例では、音素コンテキスト14が“/k//y//O//W//A//H//A//R//E/”であり韻律パラメータ13の一つであるFパターンの平均値が220Hzである場合を例にすると、音素コンテキスト14の各音素“/k/”、“/y/”、“/O/”、“/W/”、“/A/”、“/H/”、“/A/”、“/R/”、“/E/”ごとに、Fパターン情報の平均値が220Hzから予め決められた一定範囲内(例えばFパターン平均値の前後+−10%以内)であるという条件を満たすものを前記各音素の音声素片候補15の中から全て探索して、韻律変形素片候補16とする。
他の選択方法としては、例えば上記参考文献7に開示される方法によって音声素片候補15を選択した場合、韻律パラメータ13と音声素片候補15の韻律パラメータとの距離値が音声素片候補15の探索と同時に計算可能であるため、その距離が最小であるものを一つ、または予め実験的に決められた閾値以下の距離値となる音声素片候補15を全て韻律変形素片候補16として選択してもよい。この場合、音声素片候補15を高速に絞込み探索可能であると同時に韻律変形素片候補としての適合度を計算する処理が不要なため処理量を削減できる利点がある。但し、音声素片候補として絞りこみを行うため音声素片として利用可能な音声素片が音声素片候補15として選択されない可能性もあり品質が多少劣化する揚合もあるため、利用用途に応じて処理速度と音声品質を考慮して前述の選択方法とどちらを利用するか選択してもよい。
なお、選択方法によっては、音声素片候補15の全てが韻律変形素片候補16として選択される場合もあり、このような場合も本発明では許容される。このような場合であっても、音声素片候補15が存在しなくなるということではない。例えば、音素コンテキスト14の例の先頭音素/k/について、音声素片候補15としてp1,p2,・・・,p10の10個が存在し、このうち韻律変形素片候補16としてp2,p5,p9の3個が選択されたとする。このとき、ステップS5の処理より以降の処理にて、音声素片候補15と云えばp1,p2,・・・,p10の10個を指し、韻律変形素片候補16と云えばp2,p5,p9の3個を指す。つまり、韻律変形素片候補16の集合をG16で表し、音声素片候補15の集合をG15で表すと、集合G16は集合G15の部分集合であり、G16⊆G15が成立する。音声素片候補15の全てが韻律変形素片候補16として選択される場合は、集合G16が集合G15に一致する。
次に、音声素片サブコスト計算部7が、韻律パラメータ13、音素コンテキスト14、合成単位ごとの音声素片候補15を入力として、一つまたは複数のサブコスト関数を用いて、音声素片候補15それぞれのサブコスト17を計算してこれを出力する(ステップS6)。サブコスト17それぞれは、音素コンテキスト14および韻律パラメータ13と音声素片候補15それぞれの音素コンテキストおよび韻律パラメータとの適合度を表す。
サブコストの計算方法であるが、任意に種々の方法を採用できる。一例として、参考文献8に示されるようなサブコスト関数を用いて計算することができる。
読みに対応するサブコスト関数は、
(n)=1/e
である。但し、音素コンテキスト14と、合成単位の音声素片候補15の音素コンテキストが一致する音素数をnとする。
韻律パラメータ13のFパターン平均値Vpと、合成単位の音声素片候補15のFパターン平均値Vsに対応するサブコスト関数は、
(Vp,Vs)=|Vp−Vs|
である。
韻律パラメータ13のFパターンの傾きFpと、合成単位の音声素片候補15のFパターンの傾きFsに対応するサブコスト関数は、
(Fp,Fs)=|Fp−Fs|
である。
韻律パラメータ13の音素継続時間長Tpと、合成単位の音声素片候補15の音素継続時間長Tsに対応するサブコスト関数は、
(Tp,Ts)=|Tp−Ts|
である。
韻律パラメータ13の振幅(パワー)Apと、合成単位の音声素片候補15の振幅(パワー)Asに対応するサブコスト関数は、
(Ap,As)=|Ap−As|
である。
(参考文献8)「波形編集型合成方式におけるスペクトル連続性を考慮した波形選択法」、日本音響学会講演論文集、2-6-10, pp.239-240, 1990/9
次に、韻律変形素片サブコスト計算部8が、韻律パラメータ13と韻律変形素片候補16の韻律パラメータとの距離に基づいて、韻律変形素片候補16を韻律パラメータ13に応じて韻律変形させることによる音質劣化に対応する韻律変形サブコスト(C)18を求め、これを出力する(ステップS7)。
サブコストCは、例えば次のようにして求める。韻律パラメータのうち韻律変形処理を施すことで音質劣化に繋がることが分かっている基本周波数Fと音素継続時間長について、基本周波数Fの変形倍率(基本周波数変形率)と音素継続時間長の変形倍率(継続時間長変形率)とMOS(Mean Opinion Score)との関係を予め実験的に求めておき(図4参照)、韻律パラメータ13の基本周波数Fと韻律変形素片候補16の基本周波数Fとの比を基本周波数変形率とし、韻律パラメータ13の音素継続時間長と韻律変形素片候補16の音素継続時間長との比を継続時間長変形率として、これらを上記実験結果から得られた関係に当てはめ、非変形時の音声と変形時の音声とのMOSの減少量をサブコストCとする。
あるいは、非変形時の音声を基準として変形時の音声とのDMOS(Differebce Mean Opinion Score)を実験的に求めておき、変形率からDMOS値を求めて、これをサブコストCとすることができる。
被験者を用いた主観評価実験によって、上述の韻律パラメータの変形率と品質劣化の関係を調べることは容易に可能である(参考文献9参照)。
(参考文献9)「基本周波数及び音素持続時間を考慮した音声合成用波形素片データセットの作成」、電子情報通信学会誌、D2, Vol.J82, No.8, pp.1229-1238
また、韻律変形素片サブコスト計算部8が、韻律変形サブコストCの算出に当たり韻律パラメータ13の修正を行ってもよい。音声データベース1の構成によっては、ステップS2の処理で得られた韻律パラメータ13に則して入力テキストに程度適合するような音声素片が無いか極少数しかない場合があり、このような音声素片を韻律パラメ一タ13に合わせて韻律変形した場合、聴感上許容できない品質劣化を起こす場合がある。具体的には、品質劣化と相関するサブコストCが、実験的に求められた閾値を超えてしまう場合である。
音質劣化が許容範囲を超える場合、このような韻律変形素片候補16のサブコストCを上記閾値と同じ値とし、且つ、韻律パラメータ13に許容韻律変形率を乗じてこの結果を新たな韻律パラメータとする。ステップS2の処理で得られた韻律パラメータ13との混同を避けるため、この新たな韻律パラメータを修正韻律パラメータ13′と呼称することにする。
許容韻律変形率の算出方法として、種々の方法を採用できる。基本的には、ステップS2の処理で得られた韻律パラメータ13を韻律変形素片候補16の韻律パラメータに近づけるように許容韻律変形率を決定する。
例えば、図4に示すような基本周波数変形率と継続時間長変形率と品質劣化の相関関係が得られている場合、或る韻律変形素片候補16の基本周波数変形率が0.7、継続時間長変形率が0.9のとき、MOSは2となり、MOSの許容値(閾値)を3とすると、許容値を下回ってしまう。この場合、例えば中央値(0,0)と変形時劣化率(0.7,0.9)を直線で結び、MOSが3の下限を示すラインとの交点(0.8,0.92)を許容韻律変形率とする。
元の韻律パラメータ13がF=250Hz、音素継続時間長=120msecの場合、許容韻律変形率に従った修正韻律パラメータ13′はF=250×0.8=200Hz、音素継続時間長は120×0.92=110.4msecとなる。
修正韻律パラメータ13′を求めた場合、韻律パラメータ13の代わりに修正韻律パラメータ13′を用いて、音声素片サブコスト計算部7が、韻律変形素片候補16(正確に表現すれば、「韻律変形素片候補16である音声素片候補15」)について各種サブコストの計算を再度行ってもよい。なお、修正韻律パラメータ13′を求めた場合の、韻律変形素片候補16に対する各種サブコストの再計算は必須ではない。韻律変形素片候補16について韻律パラメータ13が修正されたのであるから論理的にはこの再計算を行うべきと云えるが、後述する各サブコスト値への重み(ω、ω、ω、ω、ω、ω)を調節することもできるので、この再計算は任意の技術事項である。
修正韻律パラメータ13′が算出されたときに上記再計算を行うとした場合、制御部30は、修正韻律パラメータ13′が算出されなかった場合、後述のステップS8の処理を行うように制御し、修正韻律パラメータ13′が算出された場合、後述のステップS7bの処理を行うように制御する(ステップS7a)。
修正韻律パラメータ13′が算出された場合、音声素片サブコスト計算部7が、修正韻律パラメータ13′、音素コンテキスト14、合成単位ごとの韻律変形素片候補16を入力として、一つまたは複数のサブコスト関数を用いて、韻律変形素片候補16それぞれのサブコスト17を計算してこれを出力する(ステップS7b)。
この処理は、韻律パラメータ13が修正韻律パラメータ13′が変更されていることを除くと、ステップS6の処理と実質的に同じである。
ステップS7aおよびS7bの各処理は任意の処理であるため、図1および図2ではこれらを破線で図示している。両ステップの処理を行わない場合、制御部30は、ステップS7の処理に続いて後述するステップS8の処理を行うように制御する。
次に、音声素片選択部9が、これまでの処理によって合成単位ごとに得られている音声素片候補15および韻律変形素片候補16の中から、これらのサブコストからなる評価コストを用いて、波形接続に用いる合成単位の選択音声素片19および韻律変形対象素片20を特定して、これを出力する(ステップS8)。
評価コストには種々の方式を採用することができる。一例として、ステップS6およびステップS7の各処理で求めた各サブコスト値に重み(ω、ω、ω、ω、ω、ω)を掛けて総和を計算することで、これを評価コスト(総合コストP)とする。総合コストPは、合成単位ごとに、一つまたは複数の音声素片候補15および韻律変形素片候補16に対してそれぞれ求められる。但し、重み(ω、ω、ω、ω、ω、ω)はいずれも正値とし、任意に設定することができる。上記の例では、各サブコスト(C、C、C、C、C、C)は0以上の値をとり、音素コンテキスト14に対して優れた素片候補ほどそれらの値は0に近いから、総合コストPは0以上の値をとり、総合コストPが0に近いほど良好な素片候補と判定することができる。
P=ω(n)+ω(Vp,Vs)+ω(Fp,Fs)
+ω(Tp,Ts)+ω(Ap,As)+ω
音声素片候補15に対して総合コストPを求める場合にはC=0とする。先の例と同様に、先頭音素/k/の音声素片候補15としてp1,p2,・・・,p10の10個が存在し、このうち韻律変形素片候補16としてp2,p5,p9の3個が選択されたとすると、p1,p2,・・・,p10の10個について、C=0として、総合コストPを求める(音素コンテキスト14中の他の音素についても同様)。
さらに、韻律変形素片候補16に対しても総合コストPを求める。先の例では、韻律変形素片候補16であるp2,p5,p9の3個に対して総合コストPを求める。この場合には、韻律関係の重みω〜ωを音声素片候補15に対するものよりも小さな値にしてよい。具体的には、韻律変形素片候補16の総合コストPの算出時には重みω〜ωを音声素片候補15に対する重みω〜ωの1/10以下にしてよく、全て0にしてもよい。この理由は、韻律変形素片候補16(正確にはステップS8の処理で特定された韻律変形素片候補、即ち韻律変形対象素片20である。)に対応する部分音声波形データは韻律パラメータ13或いは修正韻律パラメータ13′に合わせて韻律を変形されるため、韻律変形対象素片に対応する部分音声波形データに対して用いる韻律変形方式に依存するものの、韻律パラメータ13或いは修正韻律パラメータ13′と韻律変形素片候補16の韻律パラメータとの韻律のミスマッチはほぼ解消されるためである。
そして、音声素片選択部9は、合成単位で加算した総合コストPの総和が最良(この例では最小)となるように、合成単位ごとに、音声素片候補15または韻律変形素片候補16を一つ特定し、入力テキストの音素コンテキスト14に対応する一連の音声素片を決定する。この特定された音声素片候補15、韻律変形素片候補16が、選択音声素片19、韻律変形対象素片20である。
合成単位が音素の例では、音素コンテキスト14が“/H//A//R//U/”である場合を例に、音素“/H/”に音声素片候補15としてa1、a2、a3、a4、韻律変形素片候補16としてa2が選択され、音素“/A/”に音声素片候補15としてc1、c2、c3、韻律変形素片候補16としてc1、c2が選択され、音素“/R/”に音声素片候補15としてe1、e2、e3、e4、e5、韻律変形素片候補16としてe1が選択され、音素“/U/”に音声素片候補15としてg1、g2、韻律変形素片候補16としてg1、g2が選択されたとする。音素“/H/”について音声素片候補a1、音素“/A/”について韻律変形素片候補としてc2、音素“/R/”について音声素片候補e3、音素“/H/”について音声素片候補としてg2を採用したときに総合コストPの音素コンテキスト14に対応する総和が最小となるならば、入力テキストの音素コンテキスト14に対応する一連の音声素片をa1−c2−e3−g2に決定し、a1、e3が選択音声素片19として、c2、g2が韻律変形対象素片20として特定される。
このように、韻律変形素片候補16は、音声素片候補15としても総合コストが計算されているから、いずれの候補としての総合コストを用いたかを注意する必要がある。
総合コストPの総和が最小となる選択音声素片19または韻律変形対象素片20の特定は、一般的なDP(Dynamic Programing)法を用いることで、容易に達成可能である。
なお、ステップS8の処理では、韻律変形対象素片20が必ず特定される保証はなく、選択音声素片19が必ず特定されるという保証もない。つまり、入力テキストの音素コンテキスト14に対応するものとして決定された一連の音声素片の中に、選択音声素片19あるいは韻律変形対象素片20が含まれるか否かは、合成単位で加算した総合コストPの総和の結果次第である。
次に、韻律変形部10が、音声波形データベース1aから韻律変形対象素片20に対応する部分音声波形データを読み込み、韻律変形対象素片20に対応する韻律パラメータ13或いは修正韻律パラメータ13′に従って前記部分音声波形データに韻律変形処理を行い、韻律変形波形データ21を生成する(ステップS9)。
韻律変形処理の手法として、種々の手法を採用できる。例えば、一般的なピッチ同期波形重畳処理方法やスペクトル領域でのハーモニックスの変形処理に基づく韻律変形処理方法(参考文献10参照)等を用いて変形処理を行って韻律変形波形データ21を生成する。但し、ここで利用する韻律変形処理は、前述の韻律変形素片サブコスト計算部8が韻律変形サブコストCを求める際に主観評価実験等により韻律変形処理に伴う音質劣化と韻律の変形率との相関関係を求めた方式と同一の方式であることが望まれる(むしろ、同一方式を採用することが必要である。)。
(参考文献10)Y. Stylianou, "Concatenative speech synthesis using a Harmonic plus Noise Mode1," In: The 3rd ESCA/COCOSDA Workshop on Speech Synthesis, Jenolan Caves, NSW, Australia, Nov.1998, Paper H.1.
なお、韻律変形対象素片20が無い場合には、ステップS9の処理は省略される。
最後に、素片接続部10が、音声波形データベース1aから選択音声素片19に対応する部分音声波形データを読み込み、この部分音声波形データとステップS9の処理で得られた韻律変形波形データ21とを、ステップS8の処理で得られた一連の音声素片の並びに従って波形接続することで合成音声を生成する(ステップS10)。
選択音声素片19に対応する部分音声波形データ及び韻律変形波形データ21を時間的な順に単に接続してもよいが、異なる部分音声波形データ間を時間的又は周波数的に補間して波形接続してもよい(参考文献11参照)。
(参考文献11)特開平7−072897号公報
《第2実施形態》
本発明の第2実施形態について、図5および図6を参照しながら説明する。なお、第1実施形態と異なる事項について説明を行い、第1実施形態と異ならない構成要素等については同一符号を附して説明を省略する。また、第2実施形態を上述のステップS7aおよびS7bの各処理を行わない例で示すが、両処理を行う実施形態とすることもできる。
第2実施形態では、第1実施形態のステップS4の処理の後、音声素片サブコスト計算部7が、韻律パラメータ13、音素コンテキスト14、合成単位ごとの音声素片候補15を入力として、一つまたは複数のサブコスト関数を用いて、音声素片候補15それぞれについてサブコスト17を計算しこれを出力する(ステップS5a)。
ステップS5aの処理は、第1実施形態のステップS6の処理に相当する。
ステップS5aの処理に続いて、韻律変形素片候補選択部6が、音声素片候補探索部5が出力した合成単位ごとの音声素片候補15とステップS5aの処理で得たサブコスト17を入力として、合成単位ごとの音声素片候補15の中から韻律に関わるサブコスト17が優れたものを少なくとも一つ合成単位ごとに選択し、これらを韻律変形素片候補16として出力する(ステップS6a)。
この処理における選択方法であるが、任意に種々の選択方法を採用できる。一例として、次のような選択方法を採用できる。第1実施形態で例示したサブコスト関数で得られたサブコスト値のうち韻律変形処理によって音質劣化する要因である基本周波数Fと音素継続時間長に関連するサブコスト値、C(Vp,Vs)、C(Fp,Fs)、C(Tp,Ts)の重み付け和(ω(Vp,Vs)+ω(Fp,Fs)+ω(Tp,Ts))が最小となる音声素片候補を一つ、またはこの重み付け和の値が予め実験的に決められた閾値以下となる音声素片候補を全て韻律変形素片候補として選択する。
第2実施形態でも、従前の説明のとおり、韻律変形素片候補16の集合は音声素片候補15の集合の部分集合である。
ステップS6aの処理に続いて、第1実施形態のステップS7〜S10の各処理を行う。
本発明である音声合成装置・方法は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記音声合成装置・方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、上記音声合成装置における処理機能をコンピュータによって実現する場合、音声合成装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記音声合成装置における処理機能がコンピュータ上で実現される。
このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、音声合成装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
本発明の音声合成装置・方法は、テキスト音声変換などに有用である。
第1実施形態に係わる音声合成装置の機能構成を例示した機能構成図。 第1実施形態に係わる音声合成の処理フローを示す図。 音声情報データベースの一例を示す図。 基本周波数変形率と継続時間長変形率と音声品質劣化との相関関係図。 第2実施形態に係わる音声合成装置の機能構成を例示した機能構成図。 第2実施形態に係わる音声合成の処理フローを示す図。
符号の説明
1 音声データベース
1a 音声波形データベース
1b 音声情報データベース
2 テキスト解析部
3 韻律パラメータ取得部
4 音素コンテキスト変換部
5 音声素片候補探索部
6 韻律変形素片候補選択部
7 音声素片サブコスト計算部
8 韻律変形素片サブコスト計算部
9 素片選択部
10 韻律変形部
11 素片接続部

Claims (9)

  1. 合成音声を組み立てる上で適切な単位(合成単位)で音声波形データを接続することで、入力されたテキストに対応する合成音声を生成する音声合成装置であって、
    音声波形データの集合である音声波形データベースおよび、少なくとも上記音声波形データの合成単位の韻律に関する情報である韻律パラメータと上記音声波形データベースにおける音声波形データとの対応を示す音声素片からなる音声情報データベースを記憶する記憶手段と、
    上記テキストを解析して当該テキストの読み情報および韻律情報を取得するテキスト解析手段と、
    上記韻律情報から、韻律に関する情報である韻律パラメータ(目標韻律パラメータ)を取得する韻律パラメータ取得手段と、
    上記読み情報を音素の並びである音素コンテキストに変換する音素コンテキスト変換手段と、
    少なくとも上記音素コンテキストに合成単位で適合する音声素片の候補(音声素片候補)を上記音声情報データベースから探索する音声素片候補探索手段と、
    上記音声素片候補から韻律の観点で優れる候補(韻律変形素片候補)を選択する韻律変形素片候補選択手段と、
    各上記音声素片候補について、上記音素コンテキストおよび上記目標韻律パラメータと音声素片候補の音素コンテキストおよび韻律パラメータとの適合度を各々サブコストとして計算する音声素片サブコスト計算手段と、
    各上記韻律変形素片候補について、上記目標韻律パラメータに応じて韻律変形素片候補を韻律変形することによる音質劣化度を韻律変形サブコストとして計算する韻律変形素片サブコスト計算手段と、
    各上記音声素片候補および各上記韻律変形素片候補の各サブコストからなる評価コストが最良となるときの音声素片候補または韻律変形素片候補を、それぞれ選択音声素片、韻律変形対象素片として選択する素片選択手段と、
    上記韻律変形対象素片に対応する音声波形データを上記音声波形データベースから読み込み、当該音声波形データを上記目標韻律パラメータに従って韻律変形し韻律変形波形データを生成する韻律変形手段と、
    上記選択音声素片に対応する音声波形データを上記音声波形データベースから読み込み、この音声波形データと上記韻律変形波形データを接続して上記合成音声を得る素片接続手段と
    を備えた音声合成装置。
  2. 上記韻律変形素片候補選択手段は、
    上記音声素片候補のうち上記目標韻律パラメータと上記音声素片候補の韻律パラメータとの適合度が高いものの中から少なくとも一つの上記韻律変形素片候補を選択するものである
    ことを特徴とする請求項1に記載の音声合成装置。
  3. 上記韻律変形素片候補選択手段は、
    上記音声素片候補のうち上記音声素片候補のサブコストであって少なくとも韻律に関するサブコストからなる評価コストが良いものの中から少なくとも一つの上記韻律変形素片候補を選択するものである
    ことを特徴とする請求項1に記載の音声合成装置。
  4. 上記韻律変形素片サブコスト計算手段は、
    上記韻律変形手段が行う韻律変形処理と同じ処理で音声に韻律変形を行った韻律変形音声の主観的評価値と上記目標韻律パラメータに対する上記韻律変形素片候補の韻律パラメータの変形倍率との関係から上記韻律変形サブコストを計算するものである
    ことを特徴とする請求項1から請求項3のいずれかに記載の音声合成装置。
  5. 上記韻律変形素片サブコスト計算手段は、
    上記韻律変形サブコストが予め定められた閾値を超える場合に、
    上記韻律変形サブコストを上記閾値とすると共に、上記目標韻律パラメータを韻律変形素片候補の韻律パラメータに近づけるように定められる許容韻律変形率を上記目標韻律パラメータに乗じた修正韻律パラメータを求めるものであり、
    上記韻律変形手段に替えて、
    上記韻律変形対象素片に対応する音声波形データを上記音声波形データベースから読み込み、当該音声波形データを上記修正韻律パラメータに従って韻律変形し韻律変形波形データを生成する韻律変形手段を備える
    ことを特徴とする請求項1から請求項4のいずれかに記載の音声合成装置。
  6. 上記音声素片サブコスト計算手段が、上記修正韻律パラメータが算出された場合に、各上記韻律変形素片候補について、上記音素コンテキストおよび上記修正韻律パラメータと韻律変形素片候補の音素コンテキストおよび韻律パラメータとの適合度を各々サブコストとして計算する
    ことを特徴とする請求項5に記載の音声合成装置。
  7. 合成音声を組み立てる上で適切な単位(合成単位)で音声波形データを接続することで、入力されたテキストに対応する合成音声を生成する音声合成方法であって、
    記憶手段には、音声波形データの集合である音声波形データベースおよび、少なくとも上記音声波形データの合成単位の韻律に関する情報である韻律パラメータと上記音声波形データベースにおける音声波形データとの対応を示す音声素片からなる音声情報データベースが記憶され、
    上記テキストを解析して当該テキストの読み情報および韻律情報を取得するテキスト解析手段と、
    上記韻律情報から、韻律に関する情報である韻律パラメータ(目標韻律パラメータ)を取得する韻律パラメータ取得ステップと、
    上記読み情報を音素の並びである音素コンテキストに変換する音素コンテキスト変換ステップと、
    少なくとも上記音素コンテキストに合成単位で適合する音声素片の候補(音声素片候補)を上記音声情報データベースから探索する音声素片候補探索ステップと、
    上記音声素片候補から韻律の観点で優れる候補(韻律変形素片候補)を選択する韻律変形素片候補選択ステップと、
    各上記音声素片候補について、上記音素コンテキストおよび上記目標韻律パラメータと音声素片候補の音素コンテキストおよび韻律パラメータとの適合度を各々サブコストとして計算する音声素片サブコスト計算ステップと、
    各上記韻律変形素片候補について、上記目標韻律パラメータに応じて韻律変形素片候補を韻律変形することによる音質劣化度を韻律変形サブコストとして計算する韻律変形素片サブコスト計算ステップと、
    各上記音声素片候補および各上記韻律変形素片候補の各サブコストからなる評価コストが最良となるときの音声素片候補または韻律変形素片候補を、それぞれ選択音声素片、韻律変形対象素片として選択する素片選択ステップと、
    上記韻律変形対象素片に対応する音声波形データを上記音声波形データベースから読み込み、当該音声波形データを上記目標韻律パラメータに従って韻律変形し韻律変形波形データを生成する韻律変形ステップと、
    上記選択音声素片に対応する音声波形データを上記音声波形データベースから読み込み、この音声波形データと上記韻律変形波形データを接続して上記合成音声を得る素片接続ステップと
    を有する音声合成方法。
  8. 上記韻律変形素片サブコスト計算ステップは、
    上記韻律変形サブコストが予め定められた閾値を超える場合に、
    上記韻律変形サブコストを上記閾値とすると共に、上記目標韻律パラメータを韻律変形素片候補の韻律パラメータに近づけるように定められる許容韻律変形率を上記目標韻律パラメータに乗じた修正韻律パラメータを求めるものであり、
    上記韻律変形ステップに替えて、
    上記韻律変形対象素片に対応する音声波形データを上記音声波形データベースから読み込み、当該音声波形データを上記修正韻律パラメータに従って韻律変形し韻律変形波形データを生成する韻律変形ステップを有する
    ことを特徴とする請求項7に記載の音声合成方法。
  9. 請求項1から請求項6のいずれかに記載された音声合成装置としてコンピュータを機能させるためのプログラム。
JP2007295895A 2007-11-14 2007-11-14 音声合成装置、音声合成方法およびそのプログラム Active JP4247289B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007295895A JP4247289B1 (ja) 2007-11-14 2007-11-14 音声合成装置、音声合成方法およびそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007295895A JP4247289B1 (ja) 2007-11-14 2007-11-14 音声合成装置、音声合成方法およびそのプログラム

Publications (2)

Publication Number Publication Date
JP4247289B1 JP4247289B1 (ja) 2009-04-02
JP2009122381A true JP2009122381A (ja) 2009-06-04

Family

ID=40612063

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007295895A Active JP4247289B1 (ja) 2007-11-14 2007-11-14 音声合成装置、音声合成方法およびそのプログラム

Country Status (1)

Country Link
JP (1) JP4247289B1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011100055A (ja) * 2009-11-09 2011-05-19 Yamaha Corp 音声合成装置
JP2013156472A (ja) * 2012-01-31 2013-08-15 Mitsubishi Electric Corp 音声合成装置及び音声合成方法
JP5446873B2 (ja) * 2007-11-28 2014-03-19 日本電気株式会社 音声合成装置、音声合成方法及び音声合成プログラム
JP2015064482A (ja) * 2013-09-25 2015-04-09 三菱電機株式会社 音声合成装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5446873B2 (ja) * 2007-11-28 2014-03-19 日本電気株式会社 音声合成装置、音声合成方法及び音声合成プログラム
JP2011100055A (ja) * 2009-11-09 2011-05-19 Yamaha Corp 音声合成装置
JP2013156472A (ja) * 2012-01-31 2013-08-15 Mitsubishi Electric Corp 音声合成装置及び音声合成方法
JP2015064482A (ja) * 2013-09-25 2015-04-09 三菱電機株式会社 音声合成装置

Also Published As

Publication number Publication date
JP4247289B1 (ja) 2009-04-02

Similar Documents

Publication Publication Date Title
JP4080989B2 (ja) 音声合成方法、音声合成装置および音声合成プログラム
JP4241762B2 (ja) 音声合成装置、その方法、及びプログラム
JP5269668B2 (ja) 音声合成装置、プログラム、及び方法
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
CN101131818A (zh) 语音合成装置与方法
JP2008249808A (ja) 音声合成装置、音声合成方法及びプログラム
US9129596B2 (en) Apparatus and method for creating dictionary for speech synthesis utilizing a display to aid in assessing synthesis quality
JP4247289B1 (ja) 音声合成装置、音声合成方法およびそのプログラム
JP4533255B2 (ja) 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体
JP4648878B2 (ja) 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体
JP4829605B2 (ja) 音声合成装置および音声合成プログラム
JP6170384B2 (ja) 音声データベース生成システム、音声データベース生成方法、及びプログラム
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP6006678B2 (ja) 音声モデル生成装置、方法、プログラム
JP5840075B2 (ja) 音声波形データベース生成装置、方法、プログラム
EP1589524B1 (en) Method and device for speech synthesis
JP2008191477A (ja) ハイブリッド型音声合成方法、及びその装置とそのプログラムと、その記憶媒体
JP2006084854A (ja) 音声合成装置、音声合成方法および音声合成プログラム
Dong et al. A Unit Selection-based Speech Synthesis Approach for Mandarin Chinese.
JP6479637B2 (ja) 文章セット生成装置、文章セット生成方法、プログラム
JP3881970B2 (ja) 知覚試験用音声データセット作成装置、コンピュータプログラム、音声合成用サブコスト関数の最適化装置、及び音声合成装置
EP1640968A1 (en) Method and device for speech synthesis
JPH1097268A (ja) 音声合成装置
JP2005091551A (ja) 音声合成装置及びそのためのコスト計算装置、並びにコンピュータプログラム
JP5366919B2 (ja) 音声合成方法、装置、及びプログラム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081224

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090109

R150 Certificate of patent or registration of utility model

Ref document number: 4247289

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120116

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130116

Year of fee payment: 4

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350