JP5277634B2

JP5277634B2 - 音声合成装置、音声合成方法及びプログラム

Info

Publication number: JP5277634B2
Application number: JP2007557805A
Authority: JP
Inventors: 正徳加藤
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2006-02-08
Filing date: 2007-02-01
Publication date: 2013-08-28
Anticipated expiration: 2027-02-01
Also published as: CN101379549B; WO2007091475A1; CN101379549A; JPWO2007091475A1; US20100145706A1; US8209180B2

Description

本発明は、音声合成技術に関し、特に、テキストから音声を合成するための音声合成装置、音声合成方法及びプログラムに関する。

近年、計算機の高性能化・小型化に伴い、音声合成技術は、カーナビゲーション装置、携帯電話、ＰＣ、ロボット等の様々な装置に搭載されて利用されるようになった。様々な装置への応用が普及するにつれて、音声合成装置が利用される環境は多様化している。

従来の一般的な音声合成装置では、発音記号列（読み、構文・品詞情報、アクセント型等を含むテキスト解析結果）に対して、韻律（例えば、ピッチ周波数パタン、振幅、継続時間長）生成、単位波形（例えば、自然音声から抽出されたピッチ長又は音節時間長程度の長さを持つ波形）選択、波形生成の処理結果は原則的に一意に決定される。すなわち、音声合成装置はどのような状況や環境においても、常に同一の発話形式（声の大きさや発声速度、韻律、声色など）で音声合成を行っている。

しかしながら実際に人間の発声を観察すると、同一テキストを話す場合でも、話者の状況、感情、意図などに応じて、発話形式を制御している。従って、常に同一の発話形式を採用する従来の音声合成装置は、必ずしも音声というコミュニケーションメディアの特徴を十分に活用しているとはいえないのである。

音声合成装置のこのような問題を解決するため、ユーザ環境（音声合成装置の利用者がいる場所の状況や環境）に応じて韻律生成・単位波形選択を動的に変えることで、ユーザ環境に適した合成音声を生成し、ユーザの使い勝手を改善する試みがなされている。例えば、特許文献１には、ユーザ環境の明るさやユーザの位置等を示す情報に応じて、音韻・韻律の制御規則を選択する音声合成システムの構成が開示されている。

また、特許文献２には、周囲騒音のパワースペクトルや周波数分布情報を基に、子音パワー、ピッチ周波数、サンプリング周波数を制御する音声合成装置の構成が開示されている。

更に、特許文献３には、時刻、日付、及び曜日を含む各種計時情報を基に、発声速度、ピッチ周波数、音量、声質を制御する音声合成装置の構成が開示されている。

本発明の背景技術を構成する音楽信号の分析、検索方法を開示する非特許文献１〜３を示しておく。非特許文献１には、音楽信号の短時間振幅スペクトルや離散ウェーブレット変換係数を分析することで音楽的な特徴（楽器構成、リズム構造）を求めて、音楽ジャンルを推定するジャンル推定方法が開示されている。

非特許文献２には、音楽信号のメル周波数ケプストラム係数から木構造型ベクトル量子化法を用いて音楽ジャンルを推定するジャンル推定方法が開示されている。

非特許文献３には、スペクトルのヒストグラムで類似度の計算を行い、音楽信号を検索する方法が開示されている。

特許第３５９５０４１号公報特開平１１−１５４９５号公報特開平１１−１６１２９８号公報Ｔｚａｎｅｔａｋｉｓ，Ｅｓｓｌ，Ｃｏｏｋ： "ＡｕｔｏｍａｔｉｃＭｕｓｉｃａｌＧｅｎｒｅＣｌａｓｓｉｆｉｃａｔｉｏｎｏｆＡｕｄｉｏＳｉｇｎａｌｓ"，ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＳＭＩＲ２００１，ｐｐ．２０５−２１０，２００１．Ｈｏａｓｈｉ，Ｍａｔｓｕｍｏｔｏ，Ｉｎｏｕｅ： "ＰｅｒｓｏｎａｌｉｚａｔｉｏｎｏｆＵｓｅｒＰｒｏｆｉｌｅｓｆｏｒＣｏｎｔｅｎｔ−ｂａｓｅｄＭｕｓｉｃＲｅｔｒｉｅｖａｌＢａｓｅｄｏｎＲｅｌｅｖａｎｃｅＦｅｅｄｂａｃｋ"，ＰｒｏｃｅｅｄｉｎｇｓｏｆＡＣＭＭｕｌｔｉｍｅｄｉａ２００３，ｐｐ．１１０−１１９，２００３．木村、他: 「グローバルな枝刈りを導入した音や映像の高速探索」, 電子情報通信学会論文誌Ｄ−ＩＩ，Ｖｏｌ．Ｊ８５−Ｄ−II，Ｎｏ．１０，ｐｐ．１５５２−１５６２，２００２年１０月

聴衆の注意を引いたり、聴衆にメッセージを印象づけたりする目的で、自然音声とともにＢＧＭ（ｂａｃｋｇｒｏｕｎｄｍｕｓｉｃ、以下、ＢＧＭという）を流すことが一般的に行われている。例えば、テレビやラジオのニュース、情報提供番組の多くで、ナレーションの背景にＢＧＭが流されている。

これらの番組を分析すると、話者の発話形式に応じて、ＢＧＭ、特にそのＢＧＭが属する音楽ジャンルが選択されているということもあるが、話者の方でＢＧＭを意識した話し方がなされているという関係を見出すことができる。例えば、天気予報や交通情報では、イージーリスニングのような穏やかな曲調のＢＧＭとともに、落ち着いた口調でアナウンスが行われるのが一般的である。ところが、同一の内容であっても、特定の番組の中や実況中継等では、しばしば張りのある声でアナウンスが行われる。

また、悲哀を込めて詩を朗読する際には、ＢＧＭとしてブルース音楽が利用され、話者もまた、感情を込めた朗読を行っている。その他にも、神秘的な雰囲気を演出したい場合には宗教音楽が選択され、明るい口調の場合にはポップス音楽が選択されるといった関係を見出すことができる。

一方、上述のとおり音声合成装置が利用される環境は多様化しており、上記ＢＧＭを含む各種の音楽が再生されている場（ユーザ環境）において、合成音声が出力される機会が多くなっているにも拘らず、上記した特許文献１等に記載されたものを含む従来の音声合成装置には、合成音声の発話形式を制御する上で、ユーザ環境に存在する音楽を考慮できないため、発話形式が周囲の音楽と調和できないという問題点がある。

本発明は、上記した事情に鑑みてなされたものであって、その目的とするところは、ユーザ環境に存在する音楽に調和する音声を合成できる音声合成装置、音声合成方法及びプログラムを提供することにある。

本発明の第１の視点によれば、入力された音楽信号に応じて発話形式とパワーを自動選択することを特徴とする音声合成装置が提供される。より具体的には、前記音声合成装置は、入力された音楽信号が属する音楽ジャンルを推定する音楽ジャンル推定部と、前記推定された音楽ジャンルに適合する発話形式を選択する発話形式選択部と、前記発話形式に対応したパラメータに基づいて、合成音声を生成する音声合成部と、前記音楽信号のパワーと、前記発話形式に対応した合成音声のパワーとの比が、発話形式毎に予め定められたパワー比に近づくように、前記合成音声のパワーを調整する合成音声パワー調整部と、を備えて構成される。

本発明の第２の視点によれば、音声合成装置を用いて合成音声を生成する音声合成方法であって、前記音声合成装置が、入力された音楽信号が属する音楽ジャンルを推定するステップと、前記推定された音楽ジャンルに適合する発話形式を選択するステップと、前記音声合成装置が、前記発話形式に対応したパラメータに基づいて、合成音声を生成するステップと、前記音楽信号のパワーと、前記発話形式に対応した合成音声のパワーとの比が、発話形式毎に予め定められたパワー比に近づくように、前記合成音声のパワーを調整するステップと、を含む音声合成方法が提供される。

本発明の第３の視点によれば、音声合成装置を構成するコンピュータに実行させるプログラムであって、入力された音楽信号が属する音楽ジャンルを推定する処理と、前記推定された音楽ジャンルに適合する発話形式を選択する処理と、前記発話形式に対応したパラメータに基づいて、合成音声を生成する処理と、前記音楽信号のパワーと、前記発話形式に対応した合成音声のパワーとの比が、発話形式毎に予め定められたパワー比に近づくように、前記合成音声のパワーを調整する処理と、を前記コンピュータに実行させるプログラム及び該プログラムを格納した記録媒体が提供される。

本発明によれば、ユーザ環境のＢＧＭ等の音楽と調和の取れた発話形式で合成音声を生成することが可能になる。この結果、ユーザの注意を引くことのできる合成音声や、ＢＧＭが持つ雰囲気やＢＧＭを聞いているユーザの気分を損なうことのない合成音声を出力することが可能になる。

本発明の第１の実施形態に係る音声合成装置の構成を表したブロック図である。本発明の第１の実施形態に係る音声合成装置にて使用する音楽ジャンルと発話形式及び発話形式パラメータの関係を定義した表の一例である。本発明の第１の実施形態に係る音声合成装置の動作を説明するためのフローチャートである。本発明の第２の実施形態に係る音声合成装置の構成を表したブロック図である。本発明の第２の実施形態に係る音声合成装置にて使用する音楽ジャンルと発話形式及び発話形式パラメータの関係を定義した表の一例である。本発明の第２の実施形態に係る音声合成装置の動作を説明するためのフローチャートである。本発明の第３の実施形態に係る音声合成装置の構成を表したブロック図である。本発明の第３の実施形態に係る音声合成装置の動作を説明するためのフローチャートである。本発明の第４の実施形態に係る音声合成装置の構成を表したブロック図である。本発明の第４の実施形態に係る音声合成装置の動作を説明するためのフローチャートである。

符号の説明

１１韻律生成部
１２単位波形選択部
１３波形生成部
１５_１〜１５_Ｎ韻律生成規則記憶部
１６_１〜１６_Ｎ単位波形データ記憶部
１７合成音声パワー調整部
１８合成音声パワー計算部
１９音楽信号パワー計算部
２１音楽ジャンル推定部
２３、２７発話形式選択部
２４、２８発話形式情報記憶部
３１音楽属性情報検索部
３２音楽属性情報記憶部
３５音楽再生部
３６再生音楽情報取得部
３７音楽データ記憶部

［第１実施形態］
続いて、本発明を実施するための最良の形態について図面を参照して詳細に説明する。図１は、本発明の第１の実施形態に係る音声合成装置の構成を表したブロック図である。図１を参照すると、本実施形態に係る音声合成装置は、韻律生成部１１と、単位波形選択部１２と、波形生成部１３と、韻律生成規則記憶部１５_１から１５_Ｎと、単位波形データ記憶部１６_１から１６_Ｎと、音楽ジャンル推定部２１と、発話形式選択部２３と、発話形式情報記憶部２４とを備えて構成されている。

韻律生成部１１は、発話形式を基に選択した韻律生成規則と発音記号列から韻律情報を生成するための処理手段である。

単位波形選択部１２は、発話形式を基に選択した単位波形データと発音記号列と韻律情報から単位波形を選択するための処理手段である。

波形生成部１３は、韻律情報と単位波形データから合成音声波形を生成するための処理手段である。

韻律生成規則記憶部１５_１から１５_Ｎには、各発話形式による合成音声の実現に要求される韻律生成規則（例えば、ピッチ周波数パタン、振幅、継続時間長等）が保存されている。

単位波形データ記憶部１６_１から１６_Ｎには、韻律生成規則記憶部の場合と同様に、各発話形式による合成音声の実現に要求される単位波形データ（例えば、自然音声から抽出されたピッチ長又は音節時間長程度の長さを持つ波形）が保存されている。

なお、上記韻律生成規則記憶部１５_１から１５_Ｎや単位波形データ記憶部１６_１から１６_Ｎに保存すべき韻律生成規則や単位波形データは、各発話形式に適合する自然音声を収集・分析することで生成することができる。

以下、本実施形態では、元気の良い声から生成した元気の良い声の実現に要求される韻律生成規則と単位波形データが韻律生成規則記憶部１５_１と単位波形データ記憶部１６_１に保存され、落ち着いた声から生成した落ち着いた声の実現に要求される韻律生成規則と単位波形データが韻律生成規則記憶部１５_２と単位波形データ記憶部１６_２に保存され、ひそひそ声から生成した韻律生成規則と単位波形データが韻律生成規則記憶部１５_３と単位波形データ記憶部１６_３に保存され、標準的な声から生成した韻律生成規則と単位波形データが韻律生成規則記憶部１５_Ｎと単位波形データ記憶部１６_Ｎに保存されているものとして説明する。なお、自然音声から韻律生成規則や単位波形データを生成する方法は、発話形式に依存せずに、標準的な声から生成する場合と同様の方法を用いることができる。

音楽ジャンル推定部２１は、入力された音楽信号が属する音楽ジャンルを推定するための処理手段である。

発話形式選択部２３は、発話形式情報記憶部２４に保存されている表を基に推定された音楽ジャンルから発話形式を決定するための処理手段である。

発話形式情報記憶部２４には、図２に例示する音楽ジャンルと発話形式及び発話形式パラメータの関係を定義した表が保存されている。発話形式パラメータとは、韻律生成規則記憶部番号と単位波形データ記憶部番号であり、各番号に対応する韻律生成規則や単位波形データを組み合わせることにより、特定の発話形式による合成音声が実現される。なお、図２の例では、説明の便宜のため発話形式と発話形式パラメータの双方を定義しているが、発話形式選択部２３で使用しているのは、発話形式パラメータのみであるので、発話形式の定義は省略することができる。

反対に、発話形式情報記憶部２４では音楽ジャンルと発話形式の関係のみを定義し、発話形式と、韻律生成規則及び単位波形データとの対応関係は、韻律生成部１１及び単位波形選択部１２でそれぞれ発話形式に応じた韻律生成規則や単位波形データを選択させる構成とすることもできる。

また、図２の例では、多数の発話形式を用意した構成としているが、１種類の発話形式の単位波形データのみを用意し、発話形式の切り替えを韻律生成規則の変更により行う構成とすることも可能である。この場合、音声合成装置の記憶容量や処理量をより低減することができる。

更に、上記発話形式情報記憶部２４で定義する音楽ジャンル情報と発話形式との対応関係は、ユーザの好みに合わせて変更できるようにしても良いし、予め用意された複数の対応関係の組み合わせの中からユーザが好みに応じて選択できるようにしても良い。

続いて、本実施形態に係る音声合成装置の動作について図面を参照して詳細に説明する。図３は、本実施形態に係る音声合成装置の動作を表したフローチャートである。図３を参照すると、まず、音楽ジャンル推定部２１は、入力された音楽信号から、スペクトルやケプストラムなどの音楽信号の特徴量を抽出し、入力された音楽が属する音楽ジャンルを推定し、発話形式選択部２３に出力する（ステップＡ１）。この音楽のジャンル推定方法には、先に掲げた非特許文献１、非特許文献２等に記載された公知の方法を用いることができる。

なお、ＢＧＭが存在しない場合や、推定対象外の音楽ジャンルに属する音楽が入力された場合には、特定のジャンル名ではなく「その他」が音楽ジャンルとして発話形式選択部２３に出力されるものとする。

続いて、発話形式選択部２３は、音楽ジャンル推定部２１から伝達された推定音楽ジャンルを元に、発話形式情報記憶部２４に記憶された表（図２参照）から該当する発話形式を選択し、選択した発話形式の実現に必要な発話形式パラメータを韻律生成部１１と単位波形選択部１２に伝達する（ステップＡ２）。

図２によると、例えば、推定された音楽ジャンルがポップスの場合は、発話形式として元気の良い声が選択され、イージーリスニングの場合は落ち着いた声が、宗教音楽の場合はひそひそ声が選択される。推定された音楽ジャンルが図２の表に存在しなかった場合には、音楽ジャンルが「その他」の場合と同様に、標準的な発話形式が選択される。

続いて、韻律生成部１１は、発話形式選択部２３から供給された発話形式パラメータを参照し、韻律生成規則記憶部１５_１から１５_Ｎの中から、発話形式選択部２３が指定した記憶部番号を持つ韻律生成規則記憶部を選択する。そして、選択した韻律生成規則記憶部の韻律生成規則に基づき、入力された発音記号列から韻律情報を生成し、単位波形選択部１２と波形生成部１３に伝達する（ステップＡ３）。

続いて、単位波形選択部１２は、発話形式選択部２３から伝達された発話形式パラメータを参照し、単位波形データ記憶部１６_１から１６_Ｎの中から、発話形式選択部２３が指定した記憶部番号を持つ単位波形データ記憶部を選択する。そして、入力された発音記号列と、韻律生成部１１から供給された韻律情報を基に、選択した単位波形データ記憶部から単位波形を選択し、波形生成部１３に伝達する（ステップＡ４）。

最後に、波形生成部１３は、韻律生成部１１から伝達された韻律情報に基づき、単位波形選択部１２から供給された単位波形を接続し、合成音声信号を出力する（ステップＡ５）。

以上のとおり、本実施形態によれば、ユーザ環境のＢＧＭと調和の取れた韻律と単位波形で実現される発話形式で合成音声を生成することが可能になる。

なお、上記した実施形態では、発話形式毎に単位波形データ記憶部１６_１〜１６_Ｎを用意する構成としているが、標準声の単位波形データ記憶部のみを設ける構成とすることもできる。この場合、韻律生成規則のみにより発話形式を制御することになるが、単位波形データは韻律生成規則をはじめとする他のデータよりも、データサイズが大きいため、合成装置全体の記憶容量を大幅に削減できるという利点が生じる。

［第２実施形態］

上記した第１の実施形態では合成音声のパワーは制御対象となっておらず、ひそひそ声で合成音声を出力する場合も、元気の良い声で合成音声を出力する場合もパワーは同一である。例えば、ＢＧＭと発話形式の対応関係によっては、合成音声の音量が背景音楽よりも大き過ぎると調和を損ない、場合によっては耳障りになることも考えられる。反対に、合成音声の音量が背景音楽よりも小さすぎると、調和を損なうだけでなく合成音声を聞き取ることが困難になることも考えられる。

そこで、上記について改良を加え、合成音声のパワーも制御対象に加えた本発明の第２の実施形態について図面を参照して詳細に説明する。図４は、本発明の第２の実施形態に係る音声合成装置の構成を表したブロック図である。

図４を参照すると、本実施形態に係る音声合成装置は、上記第１の実施形態に係る音声合成装置（図１参照）に対して、合成音声パワー調整部１７と、合成音声パワー計算部１８と、音楽信号パワー計算部１９と、を追加した構成となっている。また、図４に示すように、本実施形態においては、上記第１の実施形態の発話形式選択部２３と発話形式情報記憶部２４の代わりに、発話形式選択部２７と発話形式情報記憶部２８が配設されている。

発話形式情報記憶部２８には、図５に例示する音楽ジャンルと発話形式及び発話形式パラメータの関係を定義した表が保存されている。上記第１の実施形態の発話形式情報記憶部２４に保持される表（図２参照）との相違点は、パワー比が追加されている点である。

このパワー比とは、合成音声のパワーを音楽信号のパワーで除算した値である。すなわち、パワー比が１．０よりも大きければ、合成音声のパワーが音楽信号のパワーよりも大きいことを示している。図５を参照すると、例えば、音楽ジャンルがポップスと推定された場合、発話形式は元気の良い声、パワー比は１．２に設定され、音楽信号パワーを上回るパワー（１．２倍）で合成音声パワーが出力される。同様に、発話形式が落ち着いた声のときパワー比は１．０、ひそひそ声の場合は０．９、標準声の場合は１．０にて設定されている。

続いて、本実施形態に係る音声合成装置の動作について図面を参照して詳細に説明する。図６は、本実施形態に係る音声合成装置の動作を表したフローチャートである。音楽ジャンル推定（ステップＡ１）〜波形生成（ステップＡ５）までの間は、上記した第１の実施形態と略同様であるが、ステップＡ２において、発話形式選択部２７が、音楽ジャンル推定部２１から伝達された推定音楽ジャンルから、発話形式情報記憶部２８に記憶されたパワー比を合成音声パワー調整部１７に伝達する点で相違している（ステップＡ２）。

ステップＡ５において、波形生成が完了すると、音楽信号パワー計算部１９は、入力された音楽信号の平均的なパワーを計算し、合成音声パワー調整部１７へ伝達する（ステップＢ１）。信号のサンプル番号をｎ、音楽信号をｘ（ｎ）とすると、例えば次式（１）に示すような一次リーク積分により、音楽信号の平均パワーＰ_ｍ（ｎ）を求めることが可能である。

但し、ａは、一次リーク積分の時定数である。合成音声とＢＧＭの平均的な音量の差が大きくなることを防ぐためにパワーを計算するので、ａには０．９等の大きい値を設定し、長時間平均パワーを計算することが望ましい。逆に、ａの値を０．１といった小さな値に設定してパワーを計算すると、合成音声の音量の変化が頻繁かつ大きくなり、合成音声が聞き取りにくくなる可能性がある。なお、上式に代えて、移動平均や入力信号の全サンプルの平均値などを用いることも可能である。

続いて、合成音声パワー計算部１８は、波形生成部１３から供給された合成音声の平均的なパワーを計算し、合成音声パワー調整部１７に伝達する（ステップＢ２）。合成音声パワーの計算にも、上記音楽信号パワーと同様の方法を用いることができる。

最後に、合成音声パワー調整部１７は、音楽信号パワー計算部１９から供給される音楽信号パワーと、合成音声パワー計算部１８から供給される合成音声パワーと、発話形式選択部２７から供給される発話形式パラメータの中のパワー比を基に、波形生成部１３から供給される合成音声信号のパワーを調整し、パワー調整済音声合成信号として出力する（ステップＢ３）。より具体的には、合成音声パワー調整部１７は、最終的に出力される合成音声信号のパワーと音楽信号パワーの比が、発話形式選択部２７から供給されたパワー比の値に近づくように合成音声のパワーを調整する。

より端的には、音楽信号パワーと、合成音声信号パワーと、パワー比とを用いて、パワー調整係数を求めて、合成音声信号に乗ずることで実現する。従って、パワー調整係数には、音楽信号とパワー調整済合成音声のパワーの比が、発話形式選択部２７から供給されたパワー比にほぼ一致するような値を用いる必要がある。音楽信号パワーをＰ_ｍ、合成音声パワーをＰ_ｓ、パワー比をｒとすれば、パワー調整係数ｃは次式で与えられる。

そして、パワー調整前の合成音声信号をｙ_１（ｎ）とすれば、パワー調整後の合成音声信号ｙ_２（ｎ）は次式で与えられる。

以上のとおり、元気の良い声が選択された場合には、合成音声パワーを標準的な声よりも少し大きくし、ひそひそ声が選択された場合には、パワーを少し小さめにするといったきめ細かい制御が可能となり、よりＢＧＭとの調和がとれた発話形式を実現することが可能となる。

［第３実施形態］
上記第１、第２の実施形態では、入力音楽のジャンルを推定するものとしているが、近年の探索・照合手法を用いると、より精緻に入力音楽を分析することも可能である。以下、上記について改良を加えた本発明の第３の実施形態について図面を参照して詳細に説明する。図７は、本発明の第３の実施形態に係る音声合成装置の構成を表したブロック図である。

図７を参照すると、本実施形態に係る音声合成装置は、上記第１の実施形態に係る音声合成装置（図１参照）に対して、音楽属性情報記憶部３２を追加するとともに、音楽ジャンル推定部２１に代えて音楽属性情報検索部３１を配設した構成となっている。

音楽属性情報検索部３１は、入力された音楽信号からスペクトルなどの特徴量を抽出するための処理手段である。音楽属性情報記憶部３２には、種々の音楽信号の特徴量と、その音楽信号の音楽ジャンルが、個別に記録されており、特徴量を照合することにより、音楽を特定し、ジャンルを決定することが可能となっている。

上記特徴量を用いた音楽信号の検索には、非特許文献３に掲げたスペクトルのヒストグラムで類似度の計算を行う方法等を用いることができる。

続いて、本実施形態に係る音声合成装置の動作について図面を参照して詳細に説明する。図８は、本実施形態に係る音声合成装置の動作を表したフローチャートである。上記した第１の実施形態に対し、音楽ジャンル推定（ステップＡ１）の部分が相違し、その他は既に説明済みであるので、以下、図８のステップＤ１について詳細に説明する。

はじめに、音楽属性情報検索部３１は、入力された音楽信号からスペクトルなどの特徴量を抽出する。続いて、音楽属性情報検索部３１は、音楽属性情報記憶部３２に保存されている音楽のすべての特徴量と、入力された音楽信号の特徴量の類似度をそれぞれ計算する。そして、最高の類似度を持つ音楽の音楽ジャンル情報が発話形式選択部２３に伝達される（ステップＤ１）。

なお、ステップＤ１において、類似度の最大値が、予め設定した閾値を下回った場合には、音楽属性情報検索部３１は、入力された音楽信号に対応する音楽が音楽属性情報記憶部３２に記録されていないと判断し、音楽ジャンルとして「その他」を出力する。

以上のとおり、本実施形態によれば、個々の音楽に対して、個別に音楽ジャンルを記録した音楽属性情報記憶部３２を用いるので、上記第１、第２の実施形態よりも高い精度で音楽ジャンルを特定し、発話形式に反映させることが可能となる。

なお、音楽属性情報記憶部３２を構築する際に、曲名やアーティスト名、作曲者名などの属性情報も記憶しておけば、音楽ジャンル以外の属性情報によっても、発話形式を決定することが可能になる。

また、音楽属性情報記憶部３２に記憶されている音楽の種類数が多くなれば、多くの音楽信号のジャンルを特定することが可能になるが、音楽属性情報記憶部３２の容量が大きくなる。必要に応じて、音楽属性情報記憶部３２を音声合成装置の外部に配置し、音楽信号の特徴量の類似度を計算するときに、有線及び無線通信手段を用いて音楽属性情報記憶部３２にアクセスする構成を採ることも可能である。

続いて、上記第１の実施形態に係る音声合成装置に対し、ＢＧＭ等の楽曲の再生機能を追加した本発明の第４の実施形態について図面を参照して詳細に説明する。

［第４実施形態］
図９は、本発明の第４の実施形態に係る音声合成装置の構成を表したブロック図である。図９を参照すると、本実施形態に係る音声合成装置は、上記第１の実施形態に係る音声合成装置（図１参照）に対して、音楽再生部３５、音楽データ記憶部３７を追加するとともに、音楽ジャンル推定部２１に代えて再生音楽情報取得部３６を配設した構成となっている。

音楽データ記憶部３７には、音楽信号と、その音楽の曲番号と音楽ジャンルが保存されている。音楽再生部３５は、曲番号や音量、再生・停止・巻き戻し・早送り等の各種コマンドを含む再生指令に応じて、音楽データ記憶部３７に保存されている音楽信号をスピーカやイヤホンなどを通して出力する手段である。また、音楽再生部３５は、再生音楽情報取得部３６に対して、再生中の音楽の曲番号を供給する。

再生音楽情報取得部３６は、音楽再生部３５から供給された曲番号に対応する音楽のジャンル情報を音楽データ記憶部３７から取り出し、発話形式選択部２３へ伝達する、上記第１の実施形態の音楽ジャンル推定部２１と同等の処理手段である。

続いて、本実施形態に係る音声合成装置の動作について図面を参照して詳細に説明する。図１０は、本実施形態に係る音声合成装置の動作を表したフローチャートである。上記した第１の実施形態に対し、音楽ジャンル推定（ステップＡ１）の部分が相違し、その他は既に説明済みであるので、以下、図１０のステップＤ２、Ｄ３について詳細に説明する。

音楽再生部３５が、指定された音楽を再生すると、その曲番号が再生音楽情報取得部３６に供給される（ステップＤ２）。

再生音楽情報取得部３６は、音楽再生部３５から供給された曲番号に対応する音楽のジャンル情報を音楽データ記憶部３７から取り出し、発話形式選択部２３へ伝達する（ステップＤ３）。

本実施例によれば、音楽ジャンルの推定処理や検索処理は不要となり、再生中のＢＧＭの音楽ジャンル等を確実に特定することが可能となる。もちろん、音楽再生部３５が、再生中の音楽のジャンル情報を音楽データ記憶部３７から直接取得できる場合には、再生音楽情報取得部３６を廃し、音楽再生部３５から発話形式選択部２３に音楽ジャンルを直接供給する構成とすることもできる。

また、音楽データ記憶部３７に音楽ジャンル情報が記録されていない場合には、再生音楽情報取得部３６の代わりに音楽ジャンル推定部２１を用いて、音楽ジャンルを推定する構成とすることも可能である。

また、音楽データ記憶部３７にジャンル以外の音楽属性情報が記録されていれば、上記第３の実施形態でも説明したように、ジャンル以外の属性情報で発話形式を決定できるよう発話形式選択部２３及び発話形式情報記憶部２４を変更することも可能である。

以上、本発明の各実施の形態を説明したが、本発明の技術的範囲は、上述した実施の形態に限定されるものではなく、音声合成装置の用途、仕様等に応じて、各種の変形を加え、あるいは、均等物を採用することが可能である。

Claims

入力された音楽信号が属する音楽ジャンルを推定する音楽ジャンル推定部と、
前記推定された音楽ジャンルに適合する発話形式を選択する発話形式選択部と、
前記発話形式に対応したパラメータに基づいて、合成音声を生成する音声合成部と、
前記音楽信号のパワーと、前記発話形式に対応した合成音声のパワーとの比が、発話形式毎に予め定められたパワー比に近づくように、前記合成音声のパワーを調整する合成音声パワー調整部と、
を有すること、
を特徴とする音声合成装置。
前記音声合成部が、
前記発話形式に従って韻律情報を生成する韻律生成部と、
前記発話形式に従って単位波形を選択する単位波形選択部と、を有すること、
を特徴とする請求項１に記載の音声合成装置。
前記音声合成部が、
発話形式毎の韻律生成規則を記憶する韻律生成規則記憶部と、
発話形式毎に単位波形を記憶する単位波形記憶部と、
前記発話形式に従って選択した韻律生成規則を参照して、発音記号列から韻律情報を生成する韻律生成部と、
単位波形記憶部に記憶された単位波形の中から前記発音記号列と前記韻律情報に応じた単位波形を選択する単位波形選択部と、
前記韻律情報に従って前記単位波形を合成し合成音声波形を生成する波形生成部と、を有すること、
を特徴とする請求項１に記載の音声合成装置。
さらに、音楽とその属性を関連付けて記憶する音楽属性情報記憶部を備え、
前記音楽ジャンル推定部は、
前記音楽属性情報記憶部から、前記音楽信号から抽出した特徴量に類似する特徴量を有する音楽を検索し、前記検索された音楽の属性を、前記音楽信号の音楽ジャンルとして推定すること、
を特徴とする請求項１乃至３いずれか一に記載の音声合成装置。
音声合成装置を用いて合成音声を生成する音声合成方法であって、
前記音声合成装置が、入力された音楽信号が属する音楽ジャンルを推定するステップと、
前記推定された音楽ジャンルに適合する発話形式を選択するステップと、
前記音声合成装置が、前記発話形式に対応したパラメータに基づいて、合成音声を生成するステップと、
前記音楽信号のパワーと、前記発話形式に対応した合成音声のパワーとの比が、発話形式毎に予め定められたパワー比に近づくように、前記合成音声のパワーを調整するステップと、
を含むこと、
を特徴とする音声合成方法。
更に、
前記音声合成装置が前記発話形式に従って韻律情報を生成するステップと、
前記音声合成装置が前記発話形式に従って単位波形を選択するステップと、を含み、
前記音声合成装置が、前記韻律情報と前記単位波形とを用いて、音声を合成すること、
を特徴とする請求項５に記載の音声合成方法。
前記音声合成装置が、前記発話形式に従って音声を合成するステップが、
前記音声合成装置が、韻律生成規則記憶部に記憶された韻律生成規則の中から前記発話形式に応じて選択した韻律生成規則を参照して、発音記号列から韻律情報を生成するステップと、
前記音声合成装置が、前記発話形式毎に用意された単位波形の中から、前記発音記号列と前記韻律情報に応じた単位波形を選択するステップと、
前記音声合成装置が、前記韻律情報に従って前記単位波形を合成し合成音声波形を生成するステップと、を含んで構成されること、
を特徴とする請求項５に記載の音声合成方法。
前記音楽信号の音楽ジャンルの推定は、
前記音声合成装置が、音楽とその属性を関連付けて記憶する音楽属性情報記憶部から前記音楽信号から抽出した特徴量に類似する特徴量を有する音楽を検索することによって行われること、
を特徴とする請求項５乃至７いずれか一に記載の音声合成方法。
音声合成装置を構成するコンピュータに実行させるプログラムであって、
入力された音楽信号が属する音楽ジャンルを推定する処理と、
前記推定された音楽ジャンルに適合する発話形式を選択する処理と、
前記発話形式に対応したパラメータに基づいて、合成音声を生成する処理と、
前記音楽信号のパワーと、前記発話形式に対応した合成音声のパワーとの比が、発話形式毎に予め定められたパワー比に近づくように、前記合成音声のパワーを調整する処理と、
を前記コンピュータに実行させるプログラム。
前記発話形式に従って韻律情報を生成する処理と、
前記発話形式に従って単位波形を選択する処理と、を経て、
前記韻律情報と前記単位波形とを用いて、音声を合成する処理が行われること、
を特徴とする請求項９に記載のプログラム。
前記コンピュータに接続された韻律生成規則記憶部に記憶された韻律生成規則の中から前記発話形式に応じて選択した韻律生成規則を参照して、発音記号列から韻律情報を生成する処理と、
前記コンピュータに接続された単位波形記憶部に、前記発話形式毎に用意された単位波形の中から、前記発音記号列と前記韻律情報に応じた単位波形を選択する処理と、を経て、
前記韻律情報に従って前記単位波形を合成し、音声を合成する処理が行われること、
を特徴とする請求項９に記載のプログラム。
前記音声合成装置が、音楽とその属性を関連付けて記憶する音楽属性情報記憶部から前記音楽信号から抽出した特徴量に類似する特徴量を有する音楽を検索することによって、前記音楽信号の音楽ジャンルを推定すること、
を特徴とする請求項９乃至１１いずれか一に記載のプログラム。