JP2013210501A

JP2013210501A - 素片登録装置，音声合成装置，及びプログラム

Info

Publication number: JP2013210501A
Application number: JP2012081044A
Authority: JP
Inventors: Kumi Ota; 久美太田
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2012-03-30
Filing date: 2012-03-30
Publication date: 2013-10-10

Abstract

【課題】音声合成によって生成される合成音に対する発声者の特徴を多様化すること。
【解決手段】音声素片登録処理では、一つの音声データを取得する（Ｓ１３０）。その取得した音声データにおいて、当該音声データの発声内容に含まれる音節それぞれに対応する区間での音声波形を音声素片として特定する（Ｓ１４０）。楽曲データＤＭのうちの歌唱旋律を表す楽譜トラックに規定された各出力音の演奏開始タイミングから演奏終了タイミングまでの区間それぞれに対応する、音声データでの区間の音声波形を音声素片として特定する。その特定した各音声素片についてのメタデータを推定するメタデータ推定処理を実行する（Ｓ１５０）。Ｓ１４０にて特定した音声素片の各々を、Ｓ１５０（メタデータ推定処理）にて推定し、かつ各音声素片に対応したメタデータと対応付けて登録する（Ｓ１６０）。
【選択図】図２

Description

本発明は、音声合成に必要な音声素片を音声波形から抽出する素片登録装置、及びプログラム、並びに素片登録装置にて登録した音声素片を用いて音声合成を実行する音声合成装置に関する。

従来、外部入力されたテキストの内容、及び外部操作によって指定された感情を表す音声を、予め用意された一つの標準的声質の音声パラメータに基づく音声合成によって生成して出力する音声合成装置が知られている（特許文献１参照）。

この特許文献１に記載の音声合成装置では、言語属性ベクトルと、音響属性ベクトルと、感情ベクトルとから構成される感情表出パターンを複数個蓄積している。そして、蓄積されている複数個の感情表出パターンの中から、外部操作によって指定された感情に最も近い感情を表す感情ベクトルを有した感情表出パターンを抽出し、その抽出した感情表出パターンに従って、入力されたテキストの内容が実現されるよう音声合成を行う。

なお、特許文献１において、言語属性ベクトルとは、話者と聴取者との社会的関係性を構築する属性を示すものであり、言語的内容、意味あるいは概念のもつ好悪のような感情や、依頼や命令といった話者の態度、対等か目上か、主従の関係か等である。また、音響属性ベクトルとは、話者と聴取者との社会的関係性を表現するのに用いられている音響的特徴量を示すものであり、音響的特徴量として平均ピッチやピッチのダイナミックレンジ、声門開放度のような感情や、依頼や命令といった話者の態度、対等か目上か、主従の関係か等である。感情ベクトルは、話者と聴取者との社会的関係性を示すものであり、音声全体として表現されている感情や、依頼や命令といった話者の態度、対等か目上か、主従の関係か等である。

特開２００７−１８３４２１号公報

ところで、特許文献１に記載された音声合成装置から出力される合成音は、感情表出パターンに従って、一つの標準的声質の音声パラメータに基づく音声合成を実行した結果である。

したがって、特許文献１に記載された音声合成装置では、当該音声合成装置から出力する合成音によって表現される感情を変更できるものの、当該合成音を発声した人物の性別や、年齢、声質を多様なものとすることは困難である。

つまり、特許文献１に記載された音声合成装置では、一つの標準的声質の音声パラメータに基づいて音声合成しているため、合成音として出力する音に対する発声者の特徴を多様化させることが困難であるという問題があった。

そこで、本発明は、音声合成によって生成される合成音に対する発声者の特徴を多様化することを目的とする。

上記目的を達成するためになされた第一発明は、素片登録装置に関する。
第一発明の素片登録装置では、発声情報取得手段が、発声すべき内容の文字列、及び文字列を構成する文字の各々の基準発声開始タイミング、及び基準発声終了タイミングを表す発声内容情報を取得し、音声データ取得手段が、発声情報取得手段によって取得された発声内容情報によって表される文字列について発声された音声波形を表す音声データを取得する。

そして、音声素片抽出手段が、音声データ取得手段で取得した音声データによって表される音声波形から、発声情報取得手段で取得した発声内容情報によって表される一対の基準発声開始タイミングから基準発声終了タイミングまでの区間のそれぞれを、文字列を形成する各音節に対して発声した音声波形である音声素片の各々として抽出する。

さらに、メタデータ生成手段が、入力された情報である性質推定情報に基づいて、音声素片それぞれの性質を表すメタデータを生成すると、素片登録手段が、音声素片抽出手段で抽出された音声素片それぞれを、対応する音節ごとに、メタデータ生成手段で生成されたメタデータそれぞれと対応付けて、第一記憶装置に記憶する。

このような素片登録装置によれば、発声内容情報によって表される文字列の内容を複数の人物に発声させた各音声データから音声素片を導出することで、音声素片を発声した人物を多様化できる。この結果、本発明の素片登録装置によれば、第一記憶装置に記憶される音声素片の種類を多様化できる。

以上のことから、本発明の素片登録装置にて登録した音声素片を用いて、音声合成すれば、その合成音を発声したとみなせる人物の特徴を多様化できる。
また、第一発明の素片登録装置では、パラメータ導出手段が、第一記憶装置に記憶され、かつ同じ種類のメタデータが対応付けられた音声素片のそれぞれから、予め規定された少なくとも一つの特徴量である音声パラメータを導出し、パラメータ分析手段が、パラメータ導出手段で導出された音声パラメータを解析して、当該音声パラメータの導出源である音声素片と対応付けられたメタデータに対応する各音声パラメータの変化傾向を表すメタデータ対応テーブルを生成し、第二記憶装置に記憶しても良い（請求項２）。

このような素片登録装置によれば、メタデータ対応テーブルを生成して第二記憶装置に記憶することができる。
そして、本発明の素片登録装置にて、第二記憶装置に記憶したメタデータ対応テーブルに従って、第一記憶装置に記憶された音声素片に基づく音声合成を実行すれば、そのメタデータによって表される性質を備えた合成音を生成することができる。

なお、ここで言う音声パラメータとは、周知のフォルマント合成に用いるパラメータであり、例えば、基本周波数、メル周波数ケプストラム（ＭＦＣＣ）、音声パワー、及びそれらの時間差分などを特徴量としたパラメータである。

また、ここでいう第二記憶装置は、第一記憶装置と同一の記憶装置であっても良いし、第一記憶装置とは、別個の記憶装置であっても良い。
さらに、第一発明の素片登録装置では、発声情報取得手段で取得した発声内容情報を性質推定情報として、メタデータ生成手段に入力しても良い。この場合、単語分割手段が、発声内容情報によって表される文字列を、単語を構成する単語文字ごとに分割し、メタデータ抽出手段が、各単語の性質を表す単語性質情報を当該単語の識別情報と対応付けた単語性質テーブルを予め用意し、単語性質テーブルから、単語分割手段で分割された各単語文字に対応する単語性質情報をメタデータとして抽出しても良い（請求項３）。

また、本発明の素片登録装置によれば、発声内容情報に基づいて、メタデータを自動的に推定できる。このため、本発明の素片登録装置によれば、従来の音声合成装置とは異なり、発声内容情報によって表される文字列の内容を発声するときに、当該装置の利用者らにメタデータを入力させる必要がない。

特に、このような素片登録装置によれば、各単語の性質をメタデータとすることができる。なお、ここでいう単語の性質とは、少なくとも、当該単語の意味や、当該単語によって表される感情を含むものである。

また、第一発明における素片登録装置は、楽曲の一つである対象楽曲の楽譜を表し、音源モジュールから出力される個々の出力音について、少なくとも音高、演奏開始タイミング、及び演奏終了タイミングを規定すると共に、対象楽曲の曲中において転調していれば、当該転調した各時刻を表す転調フラグを含む楽譜データを取得する楽譜データ取得手段を備えていても良い。

この場合、第一発明の発声情報取得手段が、対象楽曲の歌詞を構成する文字列、及び当該文字列を構成する文字の各々の基準発声開始タイミングと演奏終了タイミングとを、発声内容情報として取得し、音声データ取得手段が、楽譜データに基づく対象楽曲の演奏中に入力された音声波形を音声データとして取得すると共に、楽譜データ取得手段で取得した楽譜データ、及び発声情報取得手段で取得した発声内容情報を性質推定情報として、メタデータ生成手段に入力しても良い。

そのメタデータ生成手段では、区間特定手段が、対象楽曲において同一の調が継続される各区間である調同一区間を特定し、主音特定手段が、区間特定手段にて特定した各調同一区間に含まれ、それぞれの調同一区間における時間軸に沿った最後の出力音を主音として特定する。そして、音名頻度導出手段が、区間特定手段にて特定した調同一区間に含まれる同一音名の出力音の頻度を表す登場音名頻度を、主音特定手段で特定した主音の音名を起点として調同一区間毎に導出すると、調推定手段が、その導出した各登場音名頻度を、各調にて利用可能な音名の分布を表すテンプレートとして調毎に予め用意した調テンプレートに照合した結果、最も相関が高い調それぞれを、メタデータとしても良い（請求項４）。

一般的に、楽曲における調が、長調であれば明るい印象を受け、単調であれば悲しい印象を受ける。これと同様に、歌詞も、楽曲の調が長調であるときには、明るい印象の歌詞が多く、楽曲の調が単調であるときには、悲しい印象の歌詞が多い。

そして、上述したような素片登録装置であれば、対象楽曲における各調同一区間の調をメタデータとすることができ、ひいては、各調同一区間に対応する歌詞を発声したときの発声者の感情をメタデータとすることができる。しかも、このような調推定手段によれば、各調同一区間における調を確実に推定することができる。

ところで、本願に係る発明は、素片登録装置に加えて、文言取得手段と、出力性質情報取得手段と、出力音声分析手段と、音声合成手段と、音声出力手段とを備えた音声合成装置（第二発明）であっても良い。

第二発明の音声合成装置では、文言取得手段が、外部から入力された文言を表す出力文言を取得し、出力性質情報取得手段が、外部から入力され、音の性質を表す出力性質情報を取得する。そして、出力音声分析手段が、文言取得手段で取得した出力文言を音節単位に分解し、その分解された音節それぞれに対応する音声素片を第一記憶装置から取得すると共に、該第一記憶装置から取得した各音声素片から音声パラメータを導出する。

さらに、音声合成手段が、出力性質情報取得手段で取得した出力性質情報に対応するメタデータを含むメタデータ対応テーブルを第二記憶装置から取得すると共に、その取得したメタデータ対応テーブルに従って、出力音声分析手段で導出した音声パラメータに基づく音声合成を実行すると、音声出力手段が、音声合成によって生成された合成音を出力する。

このような音声合成装置によれば、メタデータ対応テーブル及び音声素片に基づいて、多様な合成音を生成することができる。
換言すれば、本発明の音声合成装置によれば、合成音を発声したとみなせる人物の特徴を多様化できる。

本願に係る発明は、コンピュータを素片登録装置として機能させるためのプログラム（第三発明）であっても良い。
この場合、第三発明のプログラムは、発声内容情報を取得する発声情報取得手順と、音声データを取得する音声データ取得手順と、その取得した音声データによって表される音声波形から、音声素片それぞれを抽出する音声素片抽出手順と、性質推定情報に基づいて、音声素片それぞれの性質を表すメタデータを生成するメタデータ生成手順と、音声素片それぞれを、対応する音節ごとにメタデータそれぞれと対応付けて、第一記憶装置に記憶する素片登録手順とをコンピュータに実行させるプログラムである。

第三発明のプログラムが、このようになされていれば、例えば、ＤＶＤ−ＲＯＭ、ＣＤ−ＲＯＭ、ハードディスク等のコンピュータ読み取り可能な記録媒体に記録し、必要に応じてコンピュータにロードさせて起動することや、必要に応じて通信回線を介してコンピュータに取得させて起動することにより用いることができる。そして、コンピュータに各手順を実行させることで、そのコンピュータを、請求項１に記載された素片登録装置として機能させることができる。

実施形態における音声合成装置の概略構成を示すブロック図である。音声素片登録処理の処理手順を示すフローチャートである。メタデータ推定処理の処理手順を示すフローチャートである。メタデータ推定処理の処理内容を説明する説明図である。メタデータ推定処理の処理内容を説明する説明図である。メタデータ推定処理の処理内容を説明する説明図である。メタデータ推定処理の処理内容を説明する説明図である。音声分析処理の処理手順を示すフローチャートである。表情テーブルの一例を示す図である。音声合成処理の処理手順を示すフローチャートである。第二実施形態におけるメタデータ推定処理の処理手順を示すフローチャートである。メッセージ入力画面を示す図である。第三実施形態におけるメタデータ推定処理の処理手順を示すフローチャートである。

以下に本発明の実施形態を図面と共に説明する。
［第一実施形態］
〈音声合成装置〉
図１に示す音声合成装置１は、当該音声合成装置１の利用者が指定した内容の音声が出力されるように、予め登録された音声素片ＰＭに基づいて音声合成した音声（即ち、合成音）を出力する装置（システム）である。

これを実現するために、音声合成装置１は、音声を入力する音声入力装置１０と、音声入力装置１０を介して入力された音声（以下、音声データＳＶと称す）及びカラオケの用途に用いられる各種データ（以下、音楽データＭＤと称す）を格納する音楽サーバ２５とを備えている。さらに、音声合成装置１は、音楽サーバ２５に格納されている音声データＳＶ及び音楽データＭＤに基づいて、音声素片ＰＭを生成する情報処理装置３０と、情報処理装置３０にて生成された音声素片ＰＭを格納するデータ格納サーバ５０とを備えている。その上、音声合成装置１は、データ格納サーバ５０に格納されている音声素片ＰＭに基づいて音声合成した合成音を出力する音声出力端末６０を備えている。

〈音楽サーバ〉
まず、音楽サーバ２５は、記憶内容を読み書き可能に構成された記憶装置を中心に構成された装置であり、例えば、携帯電話網やインターネットなどの通信網を介して、音声入力装置１０に接続されている。

この音楽サーバ２５には、少なくとも、楽曲ごとに予め用意された音楽データＭＤが格納されている。この音楽データＭＤには、楽曲データＤＭ（特許請求の範囲における楽譜データに相当）と、歌詞データ群ＤＬとが含まれる。

このうち、楽曲データＤＭは、周知のＭＩＤＩ（ＭｕｓｉｃａｌＩｎｓｔｒｕｍｅｎｔＤｉｇｉｔａｌＩｎｔｅｒｆａｃｅ）規格によって、一つの楽曲の楽譜が表されたデータである。この楽曲データＤＭの各々は、楽曲を区別するデータである識別データと、当該楽曲にて用いられる楽器ごとの楽譜を表す楽譜トラックと、当該楽曲において調が変化する時刻を表す転調フラグとを少なくとも有している。

そして、楽譜トラックには、ＭＩＤＩ音源から出力される個々の出力音について、少なくとも、音高（いわゆるノートナンバー）と、音源モジュールが出力音を出力する期間（以下、音符長）とが規定されている。楽譜トラックの音符長は、当該出力音の出力を開始するまでの当該楽曲の演奏開始からの時間を表す演奏開始タイミング（いわゆるノートオンタイミング）と、当該出力音の出力を終了するまでの当該楽曲の演奏開始からの時間を表す演奏終了タイミング（いわゆるノートオフタイミング）とによって規定されている。

なお、楽譜トラックは、例えば、鍵盤楽器（例えば、ピアノやパイプオルガンなど）、弦楽器（例えば、バイオリンやビオラ、ギター、ベースギター、琴など）、打楽器（例えば、ヴィブラフォンや、ドラム、シンバル、ティンパニー、木琴など）、及び管楽器（例えば、クラリネットやトランペット、フルート、尺八など）などの楽器ごとに用意されている。

一方、歌詞データ群ＤＬは、当該楽曲の歌詞に関するデータであり、特許請求の範囲における発声内容情報に相当する。この歌詞データ群ＤＬは、歌詞テロップデータＤＴと、歌詞出力データＤＯとを備えている。

このうち、歌詞テロップデータＤＴは、楽曲の歌詞を構成する文字（以下、歌詞構成文字とする）を表す。歌詞出力データＤＯは、歌詞構成文字の出力開始タイミングである基準発声開始タイミング、及び歌詞構成文字の出力終了タイミングである基準発声終了タイミングのうちの少なくとも一方を、楽曲データＤＭの演奏と対応付けるタイミング対応関係が規定されたデータである。

このタイミング対応関係は、楽曲データＤＭの演奏を開始するタイミングに、歌詞テロップデータＤＴの出力を開始するタイミングが対応付けられた上で、当該楽曲の時間軸に沿った各歌詞構成文字の基準発声開始タイミング（基準発声終了タイミング）が、楽曲データＤＭの演奏開始からの経過時間によって規定されている。なお、ここで言う経過時間とは、例えば、表示された歌詞構成文字の色替えを実行するタイミングを表す時間であり、色替えの速度によって規定されている。また、ここで言う歌詞構成文字は、歌詞を構成する文字の各々であっても良いし、その文字の各々を時間軸に沿った特定の規則に従って一群とした文節やフレーズであっても良い。

〈音声入力装置〉
次に、音声入力装置１０は、通信部１１と、入力受付部１２と、表示部１３と、音声入力部１４と、音声出力部１５と、音源モジュール１６と、記憶部１７と、制御部２０とを備えている。すなわち、音声入力装置１０は、いわゆる周知のカラオケ装置として構成されている。

このうち、通信部１１は、通信網を介して、音声入力装置１０が外部との間で通信を行う。入力受付部１２は、外部からの操作に従って情報や指令の入力を受け付ける入力機器（例えば、キーやスイッチ、リモコンの受付部など）である。

表示部１３は、音楽データＭＤの曲名、選曲番号、歌詞などを表示する表示装置（例えば、液晶ディスプレイやＣＲＴ等）である。また、音声入力部１４は、音を電気信号に変換して制御部２０に入力する装置（いわゆるマイクロホン）である。音声出力部１５は、制御部２０からの電気信号を音に変換して出力する装置（いわゆるスピーカ）である。さらに、音源モジュール１６は、楽曲データＤＭに基づいて、音源からの音を模擬した音（即ち、出力音）を出力する装置（例えば、ＭＩＤＩ音源）である。

記憶部１７は、記憶内容を読み書き可能に構成された不揮発性の記憶装置（例えば、ハードディスク装置や、フラッシュメモリ）である。
また、制御部２０は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを格納するＲＯＭ２１と、処理プログラムやデータを一時的に格納するＲＡＭ２２と、ＲＯＭ２１やＲＡＭ２２に記憶された処理プログラムに従って各処理（各種演算）を実行するＣＰＵ２３とを少なくとも有した周知のコンピュータを中心に構成されている。

そして、ＲＯＭ２１には、周知のカラオケ演奏処理を制御部２０が実行する処理プログラムや、カラオケ演奏処理によって一つの楽曲が演奏されている期間中に、音声入力部１４を介して入力された歌唱音（発声者の声）を音声データＳＶとして、当該対象楽曲を識別する楽曲識別情報と対応付けて、音楽サーバ２５に格納する音声格納処理を制御部２０が実行する処理プログラムが記憶されている。

以下に、音声格納処理を説明する。音声入力装置１０では、カラオケ演奏処理に従って、入力受付部１２を介して指定された一つの楽曲（以下、対象楽曲とする）に対応する音楽データＭＤを音楽サーバ２５から取得して、当該音楽データＭＤ中の楽曲データＤＭに基づいて対象楽曲を演奏すると共に、当該音楽データＭＤ中の歌詞データ群ＤＬに基づいて対象楽曲の演奏進行の歌唱（発声）すべきタイミングで歌詞を表示部１３に表示したり、その表示色を変化させたりする。

さらに、当該対象楽曲を識別する楽曲識別情報（例えば、音楽データＭＤの曲名、選曲番号など）や、音声入力部１４から音声を入力した人物（以下、発声者とする）を識別する発声者識別情報（以下、発声者ＩＤと称す）、音声データＳＶを、音楽データＭＤの演奏時に対応付けて、音楽サーバ２５に格納する。なお、音楽サーバ２５に格納される音声データＳＶには、発声者の特徴を表す発声者特徴情報も対応付けられており、この発声者特徴情報には、例えば、発声者の性別、年齢などを含む。

楽曲識別情報と発声者ＩＤとの対応付けは、例えば、発声者が音声入力装置１０に対して、入力受付部１２から発声者ＩＤを用いてログインすることで、発声者ＩＤが音声入力装置１０に入力され、対象楽曲情報の選曲などにより、楽曲識別情報と発声者ＩＤとの対応付けが行われる。

このような音声格納処理によって、発声者（発声者ＩＤ）によって選曲された対象楽曲が演奏され、その演奏進行に応じて、表示部１３で色替え表示された歌詞を、発声者が音声入力部１４（マイク）に向かって歌唱（発声）したときの音声が、対象楽曲に対する発声者ＩＤの音声データＳＶとして、音楽サーバ２５に記憶されることとなる。

発声者ＩＤを入力時に、性別、年齢なども併せて入力すれば、発声者特徴情報に性別、年齢なども対応付けられて音楽サーバ２５に記憶される。
その後、後述する情報処理装置３０の制御部４０は、入力受付部３２からの発声者ＩＤの入力によって、音楽サーバ２５に問い合わせし、発声者ＩＤの対象楽曲と、その音声データＳＶを情報処理装置３０側にダウンロードする。

〈情報処理装置〉
次に、情報処理装置３０は、通信部３１と、入力受付部３２と、表示部３３と、記憶部３４と、制御部４０とを備えている。

このうち、通信部３１は、通信網を介して外部との間で通信を行う。入力受付部３２は、外部からの操作に従って情報や指令の入力を受け付ける入力機器である。表示部３３は、画像を表示する表示装置である。

記憶部３４は、記憶内容を読み書き可能に構成された不揮発性の記憶装置である。また、制御部４０は、ＲＯＭ４１、ＲＡＭ４２、ＣＰＵ４３を少なくとも有した周知のコンピュータを中心に構成されている。

そして、情報処理装置３０のＲＯＭ４１には、音楽サーバ２５に格納されている音声データＳＶ及び音楽データＭＤに基づいて生成した音声素片ＰＭを、データ格納サーバ５０に格納する音声素片登録処理を制御部４０が実行するための処理プログラムが記憶されている。

なお、データ格納サーバ５０は、記憶内容を読み書き可能に構成された記憶装置を中心に構成された装置であり、通信網を介して情報処理装置３０に接続されている。
〈音声素片登録処理〉
この音声素片登録処理は、図２に示すように、起動されると、対象楽曲の楽曲データＤＭを取得する（Ｓ１１０）。続いて、対象楽曲の歌詞データ群ＤＬを取得し（Ｓ１２０）、対象楽曲に対応し、かつ入力受付部３２を介して指定された発声者ＩＤに対応する一つの音声データＳＶを取得する（Ｓ１３０）。

さらに、Ｓ１３０で取得した音声データＳＶにおいて、当該音声データＳＶの発声内容に含まれる音節それぞれに対応する区間での音声波形を音声素片ＰＭとして特定する（Ｓ１４０）。

具体的に、本実施形態のＳ１４０では、Ｓ１１０で取得した楽曲データＤＭのうち、歌唱旋律を表す楽譜トラックに規定された各出力音の演奏開始タイミング及び演奏終了タイミングを抽出すると共に、各出力音に対応付けられた歌詞構成文字の音節を特定する。そして、音声データＳＶにおいて、各出力音の演奏開始タイミングから演奏終了タイミングまでの区間それぞれに対応する区間での音声波形を音声素片ＰＭとして特定する。なお、本実施形態のＳ１４０にて特定される音声素片ＰＭそれぞれは、当該音声素片ＰＭにて発声した音節の内容と対応付けられている。

続いて、Ｓ１４０にて特定した各音声素片ＰＭについてのメタデータを推定するメタデータ推定処理を実行する（Ｓ１５０）。そして、Ｓ１４０にて抽出した音声素片ＰＭの各々を、Ｓ１５０（メタデータ推定処理）にて推定し、かつ各音声素片ＰＭに対応したメタデータと対応付けて、データ格納サーバ５０に登録する（Ｓ１６０）。

なお、本実施形態のＳ１６０にて音声素片ＰＭと対応付けられるデータは、メタデータに加えて、発声した音節の内容（種類）や、発声者ＩＤ、発声者特徴情報を含む。
その後、本音声素片登録処理を終了する。

すなわち、情報処理装置３０は、音声素片登録処理を実行することで、特許請求の範囲における素片登録装置として機能する。
〈メタデータ推定処理〉
図３に示すように、メタデータ推定処理は、音声素片登録処理のＳ１５０にて起動されると、まず、先のＳ１１０にて取得した楽曲データＤＭに基づいて、対象楽曲において同一の調が継続される各区間である調同一区間を特定する（Ｓ３１０）。具体的に、本実施形態のＳ３１０では、図４に示すように、楽曲データＤＭに含まれる転調フラグに基づき、時間軸に沿って互いに隣接する転調フラグの間の区間を、調同一区間として特定する。

続いて、Ｓ３１０にて特定した調同一区間における主音を特定する（Ｓ３２０）。具体的に、本実施形態のＳ３２０では、図５に示すように、１つの調同一区間において、時間軸に沿った最後の出力音を、当該調同一区間における主音として特定する。本実施形態では、Ｓ３１０にて特定した調同一区間のそれぞれについて、主音を特定する。

そして、Ｓ３２０にて特定した主音の音名を起点とし、当該主音が特定された調同一区間に含まれる出力音それぞれの音名を階級とし、各音名の登場回数を度数としたヒストグラム（以下、登場音名頻度と称す）を導出する（Ｓ３３０）。具体的に、本実施形態のＳ３３０にて導出する登場音名頻度は、図６（Ａ）に示すように、調同一区間に含まれる同一音名の出力音の登場回数（登場頻度）を集計したものである。そして、本実施形態においては、オクターブが異なる出力音であっても、音名が同一であれば、同一音名の出力音として集計する。なお、本実施形態では、各調同一区間について、登場音名頻度を導出する。

続いて、Ｓ３３０にて導出した登場音名頻度を、各調にて利用可能な音名の分布を表すテンプレートとして調毎に予め用意した調テンプレートに照合した結果に基づいて、当該調同一区間における調を特定する（Ｓ３４０）。具体的に、本実施形態のＳ３４０では、長調の楽曲にて利用可能な音名の分布を表す長調テンプレート（図６（Ｂ）参照）と、短調の楽曲にて利用可能な音名の分布を表す短調テンプレート（図６（Ｃ）参照）とを予め用意し、それぞれの調テンプレートにＳ３３０にて導出した登場音名頻度を照合する。その結果、最も高い相関を示す調テンプレートに対応する調を、当該調同一区間における調として特定する。なお、本実施形態のＳ３４０では、調同一区間のそれぞれについての調を特定する。

さらに、Ｓ３４０で特定した調同一区間における楽曲の調に対応する音声の性質を、メタデータとして特定する（Ｓ３５０）。具体的に、本実施形態のＳ３５０では、調同一区間における調が長調であれば、当該調同一区間での歌詞（即ち、発声内容）が「明るい」という感情を表す音声の性質をメタデータとして特定する。また、調同一区間における調が短調であれば、当該調同一区間での歌詞が「暗い」という感情を表す音声の性質をメタデータとして特定する。なお、本実施形態においては、調同一区間に含まれる全ての音節について、当該調同一区間に対応するメタデータを割り当てる。

その後、音声素片登録処理のＳ１６０へと戻る。
以上説明したように、本実施形態の音声素片登録処理では、図７に示すように、対象楽曲の演奏期間中に入力された音声波形に基づく音声素片ＰＭを、当該対象楽曲のメロディラインを構成する各出力音の演奏期間に対応する区間（即ち、発声内容に含まれる各音節）ごとに生成する。

これと共に、音声素片登録処理では、対象楽曲において同一の調が継続する期間（即ち、調同一区間）それぞれを特定し、各調同一区間における調（調性）を特定する。そして、その特定した調からイメージされる感情として予め規定された音声の性質をメタデータとして特定する。その上で、音声素片登録処理では、対応する音節ごとに、音声素片ＰＭと、メタデータとを対応付けて、データ格納サーバ５０に格納する。
〈音声分析処理〉
次に、情報処理装置３０の制御部４０が実行する音声分析処理について、図８を用いて説明する。

この図８に示すように、音声分析処理は、起動されると、まず、同一の内容を表すメタデータ（以下、対象メタデータとする）と対応付けられた全ての音声素片ＰＭ（以下、音声素片群と称す）を、データ格納サーバ５０から取得する（Ｓ４１０）。

続いて、Ｓ４１０にて取得した音声素片群を構成する音声素片ＰＭのそれぞれから、音声パラメータを導出する（Ｓ４２０）。本実施形態のＳ４２０では、基本周波数、メル周波数ケプストラム（ＭＦＣＣ）、パワー、それらの時間差分を、それぞれ、音声パラメータとして導出する。

これらの基本周波数、ＭＦＣＣ、パワーの導出方法は、周知であるため、ここでの詳しい説明は省略するが、例えば、基本周波数であれば、音声素片ＰＭの時間軸に沿った自己相関、音声素片ＰＭの周波数スペクトルの自己相関、またはケプストラム法などの手法を用いて導出すれば良い。また、ＭＦＣＣであれば、音声素片ＰＭに対して時間分析窓を適用して、時間分析窓ごとに周波数解析（例えば、ＦＦＴ）をした結果について、周波数ごとの大きさを対数化した結果を、さらに、周波数解析することで導出すれば良い。パワーについては、音声素片ＰＭに対して時間分析窓を適用して振幅の二乗した結果を時間方向に積分することで導出すれば良い。

そして、Ｓ４２０にて導出した音声パラメータを分析し、表情テーブルＴＤを生成する（Ｓ４３０）。具体的に、本実施形態のＳ４３０では、Ｓ４２０にて導出した音声パラメータ（即ち、基本周波数、メル周波数ケプストラム（ＭＦＣＣ）、パワー、それらの時間差分のそれぞれ）について平均値を算出する。その算出した平均値と、Ｓ４２０にて導出された各音声パラメータとの差分であるパラメータ差分とを、当該音声素片ＰＭと対応付けられている発声者ＩＤごと、かつ当該音声素片ＰＭと対応付けられている音節ごとに導出する。

さらに、本実施形態のＳ４３０では、導出したパラメータ差分を、当該パラメータ差分に対応するメタデータ、発声者ＩＤ、及び音節と対応付けることで、表情テーブルＴＤを生成する。すなわち、表情テーブルＴＤは、図９に示すように、発声者ＩＤごとに、メタデータの内容が分類された上で、音節の内容と、当該音節に対応するパラメータ差分とが対応付けられたものであり、特許請求の範囲におけるメタデータ対応テーブルに相当する。

なお、図９に示す例では、メタデータとして登録する音声の性質を「明るい」としていたが、メタデータとして登録する音声の性質は、これに限るものではない。例えば、「輝かしい」や、「素晴らしい」、「すてき」といった内容を表す音声の性質をメタデータとしても良い。さらには、類義語によって表される複数種類の音声の性質を１つのメタデータとしても良い。

そして、Ｓ４３０にて生成した表情テーブルＴＤを、データ格納サーバ５０に格納する（Ｓ４４０）。
その後、本音声分析処理を終了する。

〈音声出力端末〉
図１に示すように、音声出力端末６０は、情報受付部６１と、表示部６２と、音出力部６３と、通信部６４と、記憶部６５と、制御部６７とを備えている。音声出力端末６０として、例えば、周知の携帯端末（携帯電話や携帯情報端末）や、周知の情報処理装置（いわゆるパーソナルコンピュータ）を想定しても良い。

このうち、情報受付部６１は、入力装置（図示せず）を介して入力された情報を受け付ける。表示部６２は、制御部６７からの信号に基づいて画像を表示する。音出力部６３は、音を出力する周知の装置であり、例えば、ＰＣＭ音源と、スピーカとを備えている。

通信部６４は、周知の通信網を介して音声出力端末６０が外部との間で情報通信を行うものである。記憶部６５は、記憶内容を読み書き可能に構成された不揮発性の記憶装置であり、各種処理プログラムや各種データが記憶される。

また、制御部６７は、ＲＯＭ、ＲＡＭ、ＣＰＵを少なくとも有した周知のコンピュータを中心に構成されている。
〈音声合成処理〉
音声合成処理は、音声出力端末６０の情報受付部６１を介して起動指令が入力されると起動される。

この音声合成処理は、図１０に示すように、起動されると、まず、情報受付部６１を介して入力された情報（以下、入力情報と称す）を取得する（Ｓ９１０）。このＳ９１０にて取得する入力情報とは、例えば、合成音として出力する音声の内容（文言）を表す出力文言や、合成音として出力する音の性質を表す出力性質情報を含むものである。なお、ここで言う音の性質（即ち、出力性質情報）とは、発声者の性別、発声者の年齢といった、発声者の声の特徴を含むものである。

続いて、周知の形態素解析によって、Ｓ９１０にて取得した出力文言を形態素（単語）ごとに分割し、単語ごとに予め各形態素の読み（即ち、音節）が対応付けられた辞書データを参照して、出力文言が分割された形態素の読みを取得する（Ｓ９２０）。

Ｓ９２０にて取得した形態素それぞれに対応し、かつＳ９１０にて取得した出力性質情報に最も類似する情報と対応付けられた各音声素片ＰＭを、データ格納サーバ５０から取得する（Ｓ９３０）。

そして、Ｓ９３０にて取得した音声素片ＰＭのそれぞれから、音声パラメータを導出する（Ｓ９４０）。続いて、Ｓ９１０にて取得した出力性質情報のうち、メタデータとして規定されるべき感情に最も類似する感情を含む表情テーブルＴＤを、データ格納サーバ５０から取得する（Ｓ９５０）。

さらに、Ｓ９１０にて取得した出力文言の内容にて合成音が出力されるように、Ｓ９５０にて抽出した表情テーブルＴＤに従って、Ｓ９４０で導出された音声パラメータを、音節ごとに設定する（Ｓ９６０）。なお、図１０では、Ｓ９６０にて設定された音声パラメータを「表情付き音声パラメータ」と称している。

その表情付き音声パラメータに基づく音声合成を、音節ごとに実行する（Ｓ９７０）。このＳ９７０における音声合成は、フォルマント合成による周知の音声合成の手法を用いれば良い。なお、図１０では、Ｓ９７０での音声合成によって生成される音声波形を、「表情付き音声素片」と称している。

さらに、Ｓ９７０の音声合成によって生成された表情付き音声素片の各々を、出力文言に沿って接続し（Ｓ９８０）、その接続された音声波形、即ち、音声を出力する（Ｓ９９０）。

その後、本音声合成処理を終了する。
［第一実施形態の効果］
以上説明したように、本実施形態の情報処理装置３０によれば、１つの対象楽曲を複数の人物に歌唱させた各音声データＳＶから音声素片ＰＭを導出することで、音楽サーバ２５に記憶される音声素片ＰＭの種類を多様化できる。

しかも、本実施形態の音声合成装置１によれば、表情テーブルＴＤに従って、多様化された音声素片ＰＭに基づく音声合成を実行するため、多様な合成音を生成することができ、合成音を発声したとみなせる人物の特徴を多様化できる。

なお、本実施形態の情報処理装置３０では、対象楽曲における各調同一区間の調によって推定される歌詞の印象をメタデータとしている。この歌詞の印象とは、対象楽曲の調が長調であるときには、明るい印象であり、楽曲の調が単調であるときには、悲しい印象である。

したがって、本実施形態のメタデータ推定処理によれば、各調同一区間に対応する歌詞を発声したときの発声者の感情をメタデータとすることができる。
［第二実施形態］
次に、本発明の第二実施形態について説明する。

第二実施形態の音声合成装置は、第一実施形態の音声合成装置１とは、主として、メタデータ推定処理の処理内容が異なる。このため、本実施形態においては、第一実施形態と同様の構成及び処理には、同一の符号を付して説明を省略し、第一実施形態とは異なるメタデータ推定処理を中心に説明する。
〈メタデータ推定処理について〉
ここで、図１１は、本実施形態のメタデータ推定処理の処理手順を示すフローチャートである。

本実施形態のメタデータ推定処理は、音声素片登録処理のＳ１５０にて起動されると、図１１に示すように、先のＳ１２０にて取得した歌詞データ群ＤＬに含まれている歌詞テロップデータＤＴによって表される歌詞を形態素解析する（Ｓ６１０）。すなわち、本実施形態のＳ６１０では、形態素解析を実行することで、歌詞を構成する文字列を、当該歌詞中の単語を構成する文字列である単語文字ごとに分割する。なお、形態素解析は、周知の処理であるため、ここでの詳しい説明は省略する。

続いて、予め用意された単語性質テーブルが格納された単語メタデータデータベース（図中ＤＢ）１００から、Ｓ６１０の形態素解析した結果である単語毎に単語性質情報を取得する（Ｓ６２０）。ただし、ここで言う単語性質テーブルとは、各単語の性質を表す単語性質情報を当該単語の識別情報と対応付けたテーブルであり、ここで言う単語の性質とは、当該単語の意味や、当該単語によって表される感情を含む。

そして、Ｓ６２０にて取得した単語性質情報をメタデータとして、当該単語を発声した区間（即ち、音声素片ＰＭ）に割り当てる（Ｓ６３０）。
その後、本メタデータ推定処理を終了して、音声素片登録処理へと戻る。

以上説明したように、本実施形態のメタデータ推定処理では、対象楽曲の歌詞に対して形態素解析を実行し、対象楽曲の歌詞を、単語を構成する文字列である単語文字ごとに分割する。その上で、予め用意された単語メタデータデータベース１００に格納されている単語性質テーブルに含まれる単語性質情報の中から、各単語に対応する単語性質情報を取得し、当該単語性質情報のそれぞれを、対応する音節の音声素片ＰＭに対するメタデータとしている。
［第二実施形態の効果］
以上説明したように、本実施形態のメタデータ推定処理によれば、発声者が発声した単語の意味や、当該単語によって表される感情などを、メタデータとすることができる。
［第三実施形態］
次に、本発明の第三実施形態について説明する。

第三実施形態の音声合成装置は、第一実施形態の音声合成装置１とは、主として、音声入力装置１０にて実行する音声格納処理と、情報処理装置３０にて実行するメタデータ推定処理の処理内容とが異なる。このため、本実施形態においては、第一実施形態と同様の構成及び処理には、同一の符号を付して説明を省略し、第一実施形態とは異なる音声格納処理、及びメタデータ推定処理を中心に説明する。

まず、本実施形態の音声入力装置１０が実行する音声格納処理では、図１２に示す、音声データＳＶの単位区間ごとの性質を表すメッセージの入力を受け付けるメッセージ入力画面ＩＳを表示部１３に表示する。これと共に、本実施形態の音声格納処理では、そのメッセージ入力画面ＩＳを介して入力されたメッセージを、当該音声データＳＶの各単位区間と対応付けて、音楽サーバ２５に格納する。なお、ここで言う単位区間とは、例えば、１秒程度の時間長を有した区間である。

本実施形態におけるメッセージ入力画面ＩＳには、少なくとも、対象楽曲の進行状況を表すプログレスバー９１と、メッセージの選択を受け付けるメッセージプルダウン９３と、メッセージプルダウン９３にて選択されたメッセージを、当該音声データＳＶの各単位区間と対応付けて音楽サーバ２５に格納する送信ボタン９５とを備えている。

本実施形態の音声格納処理においても、第一実施形態の音声格納処理と同様、音楽サーバ２５に格納される音声データＳＶには、発声者特徴情報も対応付けられる。
〈メタデータ推定処理について〉
次に、本実施形態の情報処理装置３０が、音声素片登録処理のＳ１５０にて実行するメタデータ推定処理について説明する。

本実施形態のメタデータ推定処理は、図１３に示すように、起動されると、まず、処理の対象とした音声データＳＶの単位区間に基づいて、規定区間を設定する（Ｓ７１０）。すなわち、Ｓ７１０では、時間軸に沿って連続し、規定された数の単位区間を、それぞれ、１つの規定区間として設定する。

続いて、Ｓ７１０にて設定された各規定区間を構成する単位区間のそれぞれに対応付けられたメッセージを読み出し、その読み出したメッセージについて、当該メッセージの内容ごとに頻度を導出する（Ｓ７２０）。

そして、Ｓ７２０にて導出した頻度が最も高いメッセージを当該規定区間に対するメッセージとして判定する（Ｓ７３０）。その判定結果ごとに、単語メタデータデータベース（図中ＤＢ）１００から単語性質情報を取得する（Ｓ７４０）。

そして、Ｓ７４０にて取得した単語性質情報をメタデータとして、当該単語を発声した区間（即ち、音声素片ＰＭ）に割り当てる（Ｓ７５０）。
その後、本メタデータ推定処理を終了して、音声素片登録処理へと戻る。

以上説明したように、本実施形態のメタデータ推定処理では、対象楽曲の特定の時刻に対して、音声入力装置１０を介して入力されたメッセージを分類した結果、当該時刻に対応付けられたメッセージの中で最も多いメッセージの内容をメタデータとしている。
［第三実施形態の効果］
以上説明したように、本実施形態のメタデータ推定処理によれば、音声入力装置１０を介して入力されたメッセージの内容を、メタデータとすることができる。
［その他の実施形態］
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。

上記実施形態では、音声入力装置（カラオケ装置）１０と音楽サーバ２５のシステムに、情報処理装置３０とデータ格納サーバ５０とを追加し、音声入力装置１０がカラオケ演奏処理を実行して対象楽曲を演奏している期間に入力された音声に基づいて音声データＳＶを生成していたが、本発明における音声データＳＶは、これに限るものではない。

すなわち、本発明では、音声入力装置１０において、カラオケ装置などにて周知のアフレコ機能を用いて、音声データＳＶを生成しても良い。つまり、アフレコ機能を有した音声入力装置（カラオケ装置）であれば、発声すべき台詞に関するデータとして、台詞を構成する文字（以下、台詞構成文字と称す）を表す台詞テロップデータ（即ち、歌詞テロップデータと同様のデータ）と、台詞構成文字を表示部１３に表示するタイミングを規定した台詞出力データ（即ち、歌詞出力データと同様のデータ）とを備えている。よって、アフレコ機能を用いて音声データＳＶを取得する場合、音声入力装置１０は、台詞テロップデータに基づく台詞を表示部１３に表示し、当該台詞が表示部１３に表示されている期間に音声入力部１４を介して入力された音声波形を音声データＳＶとして、音楽サーバ２５に格納しても良い。

この場合、情報処理装置３０では、アフレコ機能を用いて生成した音声データＳＶを音声素片登録処理の処理対象としても良い。
また、上記実施形態では、音声入力装置１０として、カラオケ装置を想定したが、音声入力装置１０として想定する装置は、カラオケ装置に限るものではなく、例えば、周知の携帯端末（携帯電話や携帯情報端末）や、周知の情報処理装置（いわゆるパーソナルコンピュータ）を想定しても良い。

また、上記実施形態の音声合成システムにおいては、音楽サーバ２５、データ格納サーバ５０が設けられていたが、これらは補助記憶手段として機能すればよく、音声入力装置１０の記憶部１７に格納し、更には情報処理装置３０の各手段も、音声入力装置１０へ組み込むことで、音声入力装置（カラオケ装置）を、音声合成データ作成に用いる、発声を特定する装置としても良い。
［実施形態と特許請求の範囲との対応関係］
最後に、上記実施形態の記載と、特許請求の範囲の記載との関係を説明する。

上記実施形態の音声素片登録処理におけるＳ１２０が、特許請求の範囲の記載における発声情報取得手段に相当し、Ｓ１３０が、音声データ取得手段に相当し、Ｓ１４０が、音声素片抽出手段に相当する。さらに、音声素片登録処理におけるＳ１５０が、メタデータ生成手段に相当し、Ｓ１６０が、素片登録手段に相当する。

そして、上記実施形態の音声分析処理におけるＳ４２０が、パラメータ導出手段に相当し、Ｓ４３０，Ｓ４４０が、パラメータ分析手段に相当する。
なお、上記実施形態の音声素片登録処理におけるＳ１１０が、楽譜データ取得手段に相当する。さらに、上記第一実施形態のメタデータ推定処理におけるＳ３１０が、区間特定手段に相当し、Ｓ３２０が、主音特定手段に相当し、Ｓ３３０が、音名頻度導出手段に相当し、Ｓ３４０，Ｓ３５０が、調推定手段に相当する。

また、第二実施形態のメタデータ推定処理におけるＳ６１０が、単語分割手段に相当し、Ｓ６２０が、メタデータ抽出手段に相当する。
そして、音声合成処理におけるＳ９１０が、文言取得手段及び出力性質情報取得手段に相当し、Ｓ９３０，Ｓ９４０が、出力音分析手段に相当し、Ｓ９５０〜Ｓ９８０が、音声合成手段に相当し、Ｓ９９０が、音声出力手段に相当する。

１…音声合成装置１０…音声入力装置１１…通信部１２…入力受付部１３…表示部１４…音声入力部１５…音声出力部１６…音源モジュール１７…記憶部２０…制御部２１…ＲＯＭ２２…ＲＡＭ２３…ＣＰＵ２５…音楽サーバ３０…情報処理装置３１…通信部３２…入力受付部３３…表示部３４…記憶部４０…制御部４１…ＲＯＭ４２…ＲＡＭ４３…ＣＰＵ５０…データ格納サーバ６０…音声出力端末

Claims

発声すべき内容の文字列、及び前記文字列を構成する文字の各々の基準発声開始タイミング、及び基準発声終了タイミングを表す発声内容情報を取得する発声情報取得手段と、
前記発声情報取得手段によって取得された発声内容情報によって表される文字列について発声された音声波形を表す音声データを取得する音声データ取得手段と、
前記音声データ取得手段で取得した音声データによって表される音声波形から、前記発声情報取得手段で取得した発声内容情報によって表される一対の基準発声開始タイミングから基準発声終了タイミングまでの区間のそれぞれを、前記文字列を形成する各音節に対して発声した音声波形である音声素片の各々として抽出する音声素片抽出手段と、
入力された情報である性質推定情報に基づいて、前記音声素片それぞれの性質を表すメタデータを生成するメタデータ生成手段と、
前記音声素片抽出手段で抽出された音声素片それぞれを、対応する音節ごとに、前記メタデータ生成手段で生成されたメタデータそれぞれと対応付けて、第一記憶装置に記憶する素片登録手段と
を備えることを特徴とする素片登録装置。
前記第一記憶装置に記憶され、かつ同じ種類の前記メタデータが対応付けられた音声素片のそれぞれから、予め規定された少なくとも一つの特徴量である音声パラメータを導出するパラメータ導出手段と、
前記パラメータ導出手段で導出された音声パラメータを解析して、当該音声パラメータの導出源である前記音声素片と対応付けられた前記メタデータに対応する各音声パラメータの変化傾向を表すメタデータ対応テーブルを生成し、第二記憶装置に記憶するパラメータ分析手段と
を備えることを特徴とする請求項１に記載の素片登録装置。
前記メタデータ生成手段は、
前記発声情報取得手段で取得した発声内容情報が前記性質推定情報として入力され、
前記発声内容情報によって表される文字列を、単語を構成する単語文字ごとに分割する単語分割手段と、
各単語の性質を表す単語性質情報を当該単語の識別情報と対応付けた単語性質テーブルを予め用意し、前記単語性質テーブルから、前記単語分割手段で分割された各単語文字に対応する前記単語性質情報を前記メタデータとして抽出するメタデータ抽出手段と
を備えることを特徴とする請求項１または請求項２に記載の素片登録装置。
楽曲の一つである対象楽曲の楽譜を表し、音源モジュールから出力される個々の出力音について、少なくとも音高及び演奏開始タイミングを規定すると共に、前記対象楽曲の曲中において転調していれば、当該転調した各時刻を表す転調フラグを含む楽譜データを取得する楽譜データ取得手段を備え、
前記発声情報取得手段は、
前記対象楽曲の歌詞を構成する文字列、及び当該文字列を構成する文字の各々の基準発声開始タイミングを、前記発声内容情報として取得し、
前記音声データ取得手段は、
前記楽譜データに基づく前記対象楽曲の演奏中に入力された音声波形を前記音声データとして取得し、
前記メタデータ生成手段は、
前記楽譜データ取得手段で取得した楽譜データ、及び前記発声情報取得手段で取得した発声内容情報が、前記性質推定情報として入力され、
前記対象楽曲において同一の調が継続される各区間である調同一区間を特定する区間特定手段と、
前記区間特定手段にて特定した各調同一区間に含まれ、それぞれの調同一区間における時間軸に沿った最後の出力音を主音として特定する主音特定手段と、
前記区間特定手段にて特定した調同一区間に含まれる同一音名の出力音の頻度を表す登場音名頻度を、前記主音特定手段で特定した主音の音名を起点として前記調同一区間毎に導出する音名頻度導出手段と、
各調にて利用可能な音名の分布を表すテンプレートとして調毎に予め用意した調テンプレートに、前記音名頻度導出手段で導出した各登場音名頻度を照合した結果、最も相関が高い調それぞれを、前記メタデータとする調推定手段と
を備えることを特徴とする請求項１から請求項３のいずれか一項に記載の素片登録装置。
発声すべき内容の文字列、及び前記文字列を構成する文字の各々の基準発声開始タイミング、及び基準発声終了タイミングを表す発声内容情報を取得する発声情報取得手段と、
前記発声情報取得手段によって取得された発声内容情報によって表される文字列について発声された音声波形を表す音声データを取得する音声データ取得手段と、
少なくとも、前記発声情報取得手段で取得した発声内容情報に基づいて、前記音声データ取得手段で取得した音声データによって表される音声波形から、前記発声内容情報によって表される文字列を形成する各音節に対して発声した音声波形である音声素片それぞれを抽出する音声素片抽出手段と、
入力された情報である性質推定情報に基づいて、前記音声素片それぞれの性質を推定し、その推定結果をメタデータとして生成するメタデータ生成手段と、
前記音声素片抽出手段で抽出された音声素片それぞれを、前記メタデータ生成手段で生成されたメタデータそれぞれに、互いに対応する音節ごとに対応付けて、第一記憶装置に記憶する素片登録手段と、
前記第一記憶装置に記憶され、かつ同じ種類のメタデータが対応付けられた各音声素片から、予め規定された少なくとも一つの特徴量である音声パラメータを導出するパラメータ導出手段と、
前記パラメータ導出手段で導出された音声パラメータを、当該音声パラメータと対応付けられたメタデータ毎に解析して、当該メタデータに対応する各音声パラメータの変化傾向を表すメタデータ対応テーブルを生成して、第二記憶装置に記憶するパラメータ分析手段と、
外部から入力された文言を表す出力文言を取得する文言取得手段と、
外部から入力され、音の性質を表す出力性質情報を取得する出力性質情報取得手段と、
前記文言取得手段で取得した出力文言を音節単位に分解し、その分解された音節それぞれに対応する前記音声素片を前記第一記憶装置から取得すると共に、該第一記憶装置から取得した各音声素片から音声パラメータを導出する出力音声分析手段と、
前記出力性質情報取得手段で取得した出力性質情報に対応するメタデータを含むメタデータ対応テーブルを前記第二記憶装置から取得すると共に、その取得したメタデータ対応テーブルに従って、前記出力音声分析手段で導出した音声パラメータに基づく音声合成を実行する音声合成手段と、
前記音声合成手段にて音声合成することで生成された合成音を出力する音声出力手段と
を備えることを特徴とする音声合成装置。
発声すべき内容の文字列、及び前記文字列を構成する文字の各々の基準発声開始タイミング、及び基準発声終了タイミングを表す発声内容情報を取得する発声情報取得手順と、
前記発声情報取得手順によって取得された発声内容情報によって表される文字列について発声された音声波形を表す音声データを取得する音声データ取得手順と、
前記音声データ取得手順で取得した音声データによって表される音声波形から、前記発声情報取得手順で取得した発声内容情報によって表される文字列を形成する各音節に対して発声した音声波形である音声素片それぞれを抽出する音声素片抽出手順と、
入力された情報である性質推定情報に基づいて、前記音声素片それぞれの性質を表すメタデータを生成するメタデータ生成手順と、
前記音声素片抽出手順で抽出された音声素片それぞれを、対応する音節ごとに、前記メタデータ生成手順で生成されたメタデータそれぞれと対応付けて、第一記憶装置に記憶する素片登録手順とを
コンピュータに実行させることを特徴とするプログラム。