JP2013210501A - 素片登録装置,音声合成装置,及びプログラム - Google Patents
素片登録装置,音声合成装置,及びプログラム Download PDFInfo
- Publication number
- JP2013210501A JP2013210501A JP2012081044A JP2012081044A JP2013210501A JP 2013210501 A JP2013210501 A JP 2013210501A JP 2012081044 A JP2012081044 A JP 2012081044A JP 2012081044 A JP2012081044 A JP 2012081044A JP 2013210501 A JP2013210501 A JP 2013210501A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- metadata
- utterance
- unit
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Electrophonic Musical Instruments (AREA)
Abstract
【課題】音声合成によって生成される合成音に対する発声者の特徴を多様化すること。
【解決手段】音声素片登録処理では、一つの音声データを取得する(S130)。その取得した音声データにおいて、当該音声データの発声内容に含まれる音節それぞれに対応する区間での音声波形を音声素片として特定する(S140)。楽曲データDMのうちの歌唱旋律を表す楽譜トラックに規定された各出力音の演奏開始タイミングから演奏終了タイミングまでの区間それぞれに対応する、音声データでの区間の音声波形を音声素片として特定する。その特定した各音声素片についてのメタデータを推定するメタデータ推定処理を実行する(S150)。S140にて特定した音声素片の各々を、S150(メタデータ推定処理)にて推定し、かつ各音声素片に対応したメタデータと対応付けて登録する(S160)。
【選択図】図2
【解決手段】音声素片登録処理では、一つの音声データを取得する(S130)。その取得した音声データにおいて、当該音声データの発声内容に含まれる音節それぞれに対応する区間での音声波形を音声素片として特定する(S140)。楽曲データDMのうちの歌唱旋律を表す楽譜トラックに規定された各出力音の演奏開始タイミングから演奏終了タイミングまでの区間それぞれに対応する、音声データでの区間の音声波形を音声素片として特定する。その特定した各音声素片についてのメタデータを推定するメタデータ推定処理を実行する(S150)。S140にて特定した音声素片の各々を、S150(メタデータ推定処理)にて推定し、かつ各音声素片に対応したメタデータと対応付けて登録する(S160)。
【選択図】図2
Description
本発明は、音声合成に必要な音声素片を音声波形から抽出する素片登録装置、及びプログラム、並びに素片登録装置にて登録した音声素片を用いて音声合成を実行する音声合成装置に関する。
従来、外部入力されたテキストの内容、及び外部操作によって指定された感情を表す音声を、予め用意された一つの標準的声質の音声パラメータに基づく音声合成によって生成して出力する音声合成装置が知られている(特許文献1参照)。
この特許文献1に記載の音声合成装置では、言語属性ベクトルと、音響属性ベクトルと、感情ベクトルとから構成される感情表出パターンを複数個蓄積している。そして、蓄積されている複数個の感情表出パターンの中から、外部操作によって指定された感情に最も近い感情を表す感情ベクトルを有した感情表出パターンを抽出し、その抽出した感情表出パターンに従って、入力されたテキストの内容が実現されるよう音声合成を行う。
なお、特許文献1において、言語属性ベクトルとは、話者と聴取者との社会的関係性を構築する属性を示すものであり、言語的内容、意味あるいは概念のもつ好悪のような感情や、依頼や命令といった話者の態度、対等か目上か、主従の関係か等である。また、音響属性ベクトルとは、話者と聴取者との社会的関係性を表現するのに用いられている音響的特徴量を示すものであり、音響的特徴量として平均ピッチやピッチのダイナミックレンジ、声門開放度のような感情や、依頼や命令といった話者の態度、対等か目上か、主従の関係か等である。感情ベクトルは、話者と聴取者との社会的関係性を示すものであり、音声全体として表現されている感情や、依頼や命令といった話者の態度、対等か目上か、主従の関係か等である。
ところで、特許文献1に記載された音声合成装置から出力される合成音は、感情表出パターンに従って、一つの標準的声質の音声パラメータに基づく音声合成を実行した結果である。
したがって、特許文献1に記載された音声合成装置では、当該音声合成装置から出力する合成音によって表現される感情を変更できるものの、当該合成音を発声した人物の性別や、年齢、声質を多様なものとすることは困難である。
つまり、特許文献1に記載された音声合成装置では、一つの標準的声質の音声パラメータに基づいて音声合成しているため、合成音として出力する音に対する発声者の特徴を多様化させることが困難であるという問題があった。
そこで、本発明は、音声合成によって生成される合成音に対する発声者の特徴を多様化することを目的とする。
上記目的を達成するためになされた第一発明は、素片登録装置に関する。
第一発明の素片登録装置では、発声情報取得手段が、発声すべき内容の文字列、及び文字列を構成する文字の各々の基準発声開始タイミング、及び基準発声終了タイミングを表す発声内容情報を取得し、音声データ取得手段が、発声情報取得手段によって取得された発声内容情報によって表される文字列について発声された音声波形を表す音声データを取得する。
第一発明の素片登録装置では、発声情報取得手段が、発声すべき内容の文字列、及び文字列を構成する文字の各々の基準発声開始タイミング、及び基準発声終了タイミングを表す発声内容情報を取得し、音声データ取得手段が、発声情報取得手段によって取得された発声内容情報によって表される文字列について発声された音声波形を表す音声データを取得する。
そして、音声素片抽出手段が、音声データ取得手段で取得した音声データによって表される音声波形から、発声情報取得手段で取得した発声内容情報によって表される一対の基準発声開始タイミングから基準発声終了タイミングまでの区間のそれぞれを、文字列を形成する各音節に対して発声した音声波形である音声素片の各々として抽出する。
さらに、メタデータ生成手段が、入力された情報である性質推定情報に基づいて、音声素片それぞれの性質を表すメタデータを生成すると、素片登録手段が、音声素片抽出手段で抽出された音声素片それぞれを、対応する音節ごとに、メタデータ生成手段で生成されたメタデータそれぞれと対応付けて、第一記憶装置に記憶する。
このような素片登録装置によれば、発声内容情報によって表される文字列の内容を複数の人物に発声させた各音声データから音声素片を導出することで、音声素片を発声した人物を多様化できる。この結果、本発明の素片登録装置によれば、第一記憶装置に記憶される音声素片の種類を多様化できる。
以上のことから、本発明の素片登録装置にて登録した音声素片を用いて、音声合成すれば、その合成音を発声したとみなせる人物の特徴を多様化できる。
また、第一発明の素片登録装置では、パラメータ導出手段が、第一記憶装置に記憶され、かつ同じ種類のメタデータが対応付けられた音声素片のそれぞれから、予め規定された少なくとも一つの特徴量である音声パラメータを導出し、パラメータ分析手段が、パラメータ導出手段で導出された音声パラメータを解析して、当該音声パラメータの導出源である音声素片と対応付けられたメタデータに対応する各音声パラメータの変化傾向を表すメタデータ対応テーブルを生成し、第二記憶装置に記憶しても良い(請求項2)。
また、第一発明の素片登録装置では、パラメータ導出手段が、第一記憶装置に記憶され、かつ同じ種類のメタデータが対応付けられた音声素片のそれぞれから、予め規定された少なくとも一つの特徴量である音声パラメータを導出し、パラメータ分析手段が、パラメータ導出手段で導出された音声パラメータを解析して、当該音声パラメータの導出源である音声素片と対応付けられたメタデータに対応する各音声パラメータの変化傾向を表すメタデータ対応テーブルを生成し、第二記憶装置に記憶しても良い(請求項2)。
このような素片登録装置によれば、メタデータ対応テーブルを生成して第二記憶装置に記憶することができる。
そして、本発明の素片登録装置にて、第二記憶装置に記憶したメタデータ対応テーブルに従って、第一記憶装置に記憶された音声素片に基づく音声合成を実行すれば、そのメタデータによって表される性質を備えた合成音を生成することができる。
そして、本発明の素片登録装置にて、第二記憶装置に記憶したメタデータ対応テーブルに従って、第一記憶装置に記憶された音声素片に基づく音声合成を実行すれば、そのメタデータによって表される性質を備えた合成音を生成することができる。
なお、ここで言う音声パラメータとは、周知のフォルマント合成に用いるパラメータであり、例えば、基本周波数、メル周波数ケプストラム(MFCC)、音声パワー、及びそれらの時間差分などを特徴量としたパラメータである。
また、ここでいう第二記憶装置は、第一記憶装置と同一の記憶装置であっても良いし、第一記憶装置とは、別個の記憶装置であっても良い。
さらに、第一発明の素片登録装置では、発声情報取得手段で取得した発声内容情報を性質推定情報として、メタデータ生成手段に入力しても良い。この場合、単語分割手段が、発声内容情報によって表される文字列を、単語を構成する単語文字ごとに分割し、メタデータ抽出手段が、各単語の性質を表す単語性質情報を当該単語の識別情報と対応付けた単語性質テーブルを予め用意し、単語性質テーブルから、単語分割手段で分割された各単語文字に対応する単語性質情報をメタデータとして抽出しても良い(請求項3)。
さらに、第一発明の素片登録装置では、発声情報取得手段で取得した発声内容情報を性質推定情報として、メタデータ生成手段に入力しても良い。この場合、単語分割手段が、発声内容情報によって表される文字列を、単語を構成する単語文字ごとに分割し、メタデータ抽出手段が、各単語の性質を表す単語性質情報を当該単語の識別情報と対応付けた単語性質テーブルを予め用意し、単語性質テーブルから、単語分割手段で分割された各単語文字に対応する単語性質情報をメタデータとして抽出しても良い(請求項3)。
また、本発明の素片登録装置によれば、発声内容情報に基づいて、メタデータを自動的に推定できる。このため、本発明の素片登録装置によれば、従来の音声合成装置とは異なり、発声内容情報によって表される文字列の内容を発声するときに、当該装置の利用者らにメタデータを入力させる必要がない。
特に、このような素片登録装置によれば、各単語の性質をメタデータとすることができる。なお、ここでいう単語の性質とは、少なくとも、当該単語の意味や、当該単語によって表される感情を含むものである。
また、第一発明における素片登録装置は、楽曲の一つである対象楽曲の楽譜を表し、音源モジュールから出力される個々の出力音について、少なくとも音高、演奏開始タイミング、及び演奏終了タイミングを規定すると共に、対象楽曲の曲中において転調していれば、当該転調した各時刻を表す転調フラグを含む楽譜データを取得する楽譜データ取得手段を備えていても良い。
この場合、第一発明の発声情報取得手段が、対象楽曲の歌詞を構成する文字列、及び当該文字列を構成する文字の各々の基準発声開始タイミングと演奏終了タイミングとを、発声内容情報として取得し、音声データ取得手段が、楽譜データに基づく対象楽曲の演奏中に入力された音声波形を音声データとして取得すると共に、楽譜データ取得手段で取得した楽譜データ、及び発声情報取得手段で取得した発声内容情報を性質推定情報として、メタデータ生成手段に入力しても良い。
そのメタデータ生成手段では、区間特定手段が、対象楽曲において同一の調が継続される各区間である調同一区間を特定し、主音特定手段が、区間特定手段にて特定した各調同一区間に含まれ、それぞれの調同一区間における時間軸に沿った最後の出力音を主音として特定する。そして、音名頻度導出手段が、区間特定手段にて特定した調同一区間に含まれる同一音名の出力音の頻度を表す登場音名頻度を、主音特定手段で特定した主音の音名を起点として調同一区間毎に導出すると、調推定手段が、その導出した各登場音名頻度を、各調にて利用可能な音名の分布を表すテンプレートとして調毎に予め用意した調テンプレートに照合した結果、最も相関が高い調それぞれを、メタデータとしても良い(請求項4)。
一般的に、楽曲における調が、長調であれば明るい印象を受け、単調であれば悲しい印象を受ける。これと同様に、歌詞も、楽曲の調が長調であるときには、明るい印象の歌詞が多く、楽曲の調が単調であるときには、悲しい印象の歌詞が多い。
そして、上述したような素片登録装置であれば、対象楽曲における各調同一区間の調をメタデータとすることができ、ひいては、各調同一区間に対応する歌詞を発声したときの発声者の感情をメタデータとすることができる。しかも、このような調推定手段によれば、各調同一区間における調を確実に推定することができる。
ところで、本願に係る発明は、素片登録装置に加えて、文言取得手段と、出力性質情報取得手段と、出力音声分析手段と、音声合成手段と、音声出力手段とを備えた音声合成装置(第二発明)であっても良い。
第二発明の音声合成装置では、文言取得手段が、外部から入力された文言を表す出力文言を取得し、出力性質情報取得手段が、外部から入力され、音の性質を表す出力性質情報を取得する。そして、出力音声分析手段が、文言取得手段で取得した出力文言を音節単位に分解し、その分解された音節それぞれに対応する音声素片を第一記憶装置から取得すると共に、該第一記憶装置から取得した各音声素片から音声パラメータを導出する。
さらに、音声合成手段が、出力性質情報取得手段で取得した出力性質情報に対応するメタデータを含むメタデータ対応テーブルを第二記憶装置から取得すると共に、その取得したメタデータ対応テーブルに従って、出力音声分析手段で導出した音声パラメータに基づく音声合成を実行すると、音声出力手段が、音声合成によって生成された合成音を出力する。
このような音声合成装置によれば、メタデータ対応テーブル及び音声素片に基づいて、多様な合成音を生成することができる。
換言すれば、本発明の音声合成装置によれば、合成音を発声したとみなせる人物の特徴を多様化できる。
換言すれば、本発明の音声合成装置によれば、合成音を発声したとみなせる人物の特徴を多様化できる。
本願に係る発明は、コンピュータを素片登録装置として機能させるためのプログラム(第三発明)であっても良い。
この場合、第三発明のプログラムは、発声内容情報を取得する発声情報取得手順と、音声データを取得する音声データ取得手順と、その取得した音声データによって表される音声波形から、音声素片それぞれを抽出する音声素片抽出手順と、性質推定情報に基づいて、音声素片それぞれの性質を表すメタデータを生成するメタデータ生成手順と、音声素片それぞれを、対応する音節ごとにメタデータそれぞれと対応付けて、第一記憶装置に記憶する素片登録手順とをコンピュータに実行させるプログラムである。
この場合、第三発明のプログラムは、発声内容情報を取得する発声情報取得手順と、音声データを取得する音声データ取得手順と、その取得した音声データによって表される音声波形から、音声素片それぞれを抽出する音声素片抽出手順と、性質推定情報に基づいて、音声素片それぞれの性質を表すメタデータを生成するメタデータ生成手順と、音声素片それぞれを、対応する音節ごとにメタデータそれぞれと対応付けて、第一記憶装置に記憶する素片登録手順とをコンピュータに実行させるプログラムである。
第三発明のプログラムが、このようになされていれば、例えば、DVD−ROM、CD−ROM、ハードディスク等のコンピュータ読み取り可能な記録媒体に記録し、必要に応じてコンピュータにロードさせて起動することや、必要に応じて通信回線を介してコンピュータに取得させて起動することにより用いることができる。そして、コンピュータに各手順を実行させることで、そのコンピュータを、請求項1に記載された素片登録装置として機能させることができる。
以下に本発明の実施形態を図面と共に説明する。
[第一実施形態]
〈音声合成装置〉
図1に示す音声合成装置1は、当該音声合成装置1の利用者が指定した内容の音声が出力されるように、予め登録された音声素片PMに基づいて音声合成した音声(即ち、合成音)を出力する装置(システム)である。
[第一実施形態]
〈音声合成装置〉
図1に示す音声合成装置1は、当該音声合成装置1の利用者が指定した内容の音声が出力されるように、予め登録された音声素片PMに基づいて音声合成した音声(即ち、合成音)を出力する装置(システム)である。
これを実現するために、音声合成装置1は、音声を入力する音声入力装置10と、音声入力装置10を介して入力された音声(以下、音声データSVと称す)及びカラオケの用途に用いられる各種データ(以下、音楽データMDと称す)を格納する音楽サーバ25とを備えている。さらに、音声合成装置1は、音楽サーバ25に格納されている音声データSV及び音楽データMDに基づいて、音声素片PMを生成する情報処理装置30と、情報処理装置30にて生成された音声素片PMを格納するデータ格納サーバ50とを備えている。その上、音声合成装置1は、データ格納サーバ50に格納されている音声素片PMに基づいて音声合成した合成音を出力する音声出力端末60を備えている。
〈音楽サーバ〉
まず、音楽サーバ25は、記憶内容を読み書き可能に構成された記憶装置を中心に構成された装置であり、例えば、携帯電話網やインターネットなどの通信網を介して、音声入力装置10に接続されている。
まず、音楽サーバ25は、記憶内容を読み書き可能に構成された記憶装置を中心に構成された装置であり、例えば、携帯電話網やインターネットなどの通信網を介して、音声入力装置10に接続されている。
この音楽サーバ25には、少なくとも、楽曲ごとに予め用意された音楽データMDが格納されている。この音楽データMDには、楽曲データDM(特許請求の範囲における楽譜データに相当)と、歌詞データ群DLとが含まれる。
このうち、楽曲データDMは、周知のMIDI(Musical Instrument Digital Interface)規格によって、一つの楽曲の楽譜が表されたデータである。この楽曲データDMの各々は、楽曲を区別するデータである識別データと、当該楽曲にて用いられる楽器ごとの楽譜を表す楽譜トラックと、当該楽曲において調が変化する時刻を表す転調フラグとを少なくとも有している。
そして、楽譜トラックには、MIDI音源から出力される個々の出力音について、少なくとも、音高(いわゆるノートナンバー)と、音源モジュールが出力音を出力する期間(以下、音符長)とが規定されている。楽譜トラックの音符長は、当該出力音の出力を開始するまでの当該楽曲の演奏開始からの時間を表す演奏開始タイミング(いわゆるノートオンタイミング)と、当該出力音の出力を終了するまでの当該楽曲の演奏開始からの時間を表す演奏終了タイミング(いわゆるノートオフタイミング)とによって規定されている。
なお、楽譜トラックは、例えば、鍵盤楽器(例えば、ピアノやパイプオルガンなど)、弦楽器(例えば、バイオリンやビオラ、ギター、ベースギター、琴など)、打楽器(例えば、ヴィブラフォンや、ドラム、シンバル、ティンパニー、木琴など)、及び管楽器(例えば、クラリネットやトランペット、フルート、尺八など)などの楽器ごとに用意されている。
一方、歌詞データ群DLは、当該楽曲の歌詞に関するデータであり、特許請求の範囲における発声内容情報に相当する。この歌詞データ群DLは、歌詞テロップデータDTと、歌詞出力データDOとを備えている。
このうち、歌詞テロップデータDTは、楽曲の歌詞を構成する文字(以下、歌詞構成文字とする)を表す。歌詞出力データDOは、歌詞構成文字の出力開始タイミングである基準発声開始タイミング、及び歌詞構成文字の出力終了タイミングである基準発声終了タイミングのうちの少なくとも一方を、楽曲データDMの演奏と対応付けるタイミング対応関係が規定されたデータである。
このタイミング対応関係は、楽曲データDMの演奏を開始するタイミングに、歌詞テロップデータDTの出力を開始するタイミングが対応付けられた上で、当該楽曲の時間軸に沿った各歌詞構成文字の基準発声開始タイミング(基準発声終了タイミング)が、楽曲データDMの演奏開始からの経過時間によって規定されている。なお、ここで言う経過時間とは、例えば、表示された歌詞構成文字の色替えを実行するタイミングを表す時間であり、色替えの速度によって規定されている。また、ここで言う歌詞構成文字は、歌詞を構成する文字の各々であっても良いし、その文字の各々を時間軸に沿った特定の規則に従って一群とした文節やフレーズであっても良い。
〈音声入力装置〉
次に、音声入力装置10は、通信部11と、入力受付部12と、表示部13と、音声入力部14と、音声出力部15と、音源モジュール16と、記憶部17と、制御部20とを備えている。すなわち、音声入力装置10は、いわゆる周知のカラオケ装置として構成されている。
次に、音声入力装置10は、通信部11と、入力受付部12と、表示部13と、音声入力部14と、音声出力部15と、音源モジュール16と、記憶部17と、制御部20とを備えている。すなわち、音声入力装置10は、いわゆる周知のカラオケ装置として構成されている。
このうち、通信部11は、通信網を介して、音声入力装置10が外部との間で通信を行う。入力受付部12は、外部からの操作に従って情報や指令の入力を受け付ける入力機器(例えば、キーやスイッチ、リモコンの受付部など)である。
表示部13は、音楽データMDの曲名、選曲番号、歌詞などを表示する表示装置(例えば、液晶ディスプレイやCRT等)である。また、音声入力部14は、音を電気信号に変換して制御部20に入力する装置(いわゆるマイクロホン)である。音声出力部15は、制御部20からの電気信号を音に変換して出力する装置(いわゆるスピーカ)である。さらに、音源モジュール16は、楽曲データDMに基づいて、音源からの音を模擬した音(即ち、出力音)を出力する装置(例えば、MIDI音源)である。
記憶部17は、記憶内容を読み書き可能に構成された不揮発性の記憶装置(例えば、ハードディスク装置や、フラッシュメモリ)である。
また、制御部20は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを格納するROM21と、処理プログラムやデータを一時的に格納するRAM22と、ROM21やRAM22に記憶された処理プログラムに従って各処理(各種演算)を実行するCPU23とを少なくとも有した周知のコンピュータを中心に構成されている。
また、制御部20は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを格納するROM21と、処理プログラムやデータを一時的に格納するRAM22と、ROM21やRAM22に記憶された処理プログラムに従って各処理(各種演算)を実行するCPU23とを少なくとも有した周知のコンピュータを中心に構成されている。
そして、ROM21には、周知のカラオケ演奏処理を制御部20が実行する処理プログラムや、カラオケ演奏処理によって一つの楽曲が演奏されている期間中に、音声入力部14を介して入力された歌唱音(発声者の声)を音声データSVとして、当該対象楽曲を識別する楽曲識別情報と対応付けて、音楽サーバ25に格納する音声格納処理を制御部20が実行する処理プログラムが記憶されている。
以下に、音声格納処理を説明する。音声入力装置10では、カラオケ演奏処理に従って、入力受付部12を介して指定された一つの楽曲(以下、対象楽曲とする)に対応する音楽データMDを音楽サーバ25から取得して、当該音楽データMD中の楽曲データDMに基づいて対象楽曲を演奏すると共に、当該音楽データMD中の歌詞データ群DLに基づいて対象楽曲の演奏進行の歌唱(発声)すべきタイミングで歌詞を表示部13に表示したり、その表示色を変化させたりする。
さらに、当該対象楽曲を識別する楽曲識別情報(例えば、音楽データMDの曲名、選曲番号など)や、音声入力部14から音声を入力した人物(以下、発声者とする)を識別する発声者識別情報(以下、発声者IDと称す)、音声データSVを、音楽データMDの演奏時に対応付けて、音楽サーバ25に格納する。なお、音楽サーバ25に格納される音声データSVには、発声者の特徴を表す発声者特徴情報も対応付けられており、この発声者特徴情報には、例えば、発声者の性別、年齢などを含む。
楽曲識別情報と発声者IDとの対応付けは、例えば、発声者が音声入力装置10に対して、入力受付部12から発声者IDを用いてログインすることで、発声者IDが音声入力装置10に入力され、対象楽曲情報の選曲などにより、楽曲識別情報と発声者IDとの対応付けが行われる。
このような音声格納処理によって、発声者(発声者ID)によって選曲された対象楽曲が演奏され、その演奏進行に応じて、表示部13で色替え表示された歌詞を、発声者が音声入力部14(マイク)に向かって歌唱(発声)したときの音声が、対象楽曲に対する発声者IDの音声データSVとして、音楽サーバ25に記憶されることとなる。
発声者IDを入力時に、性別、年齢なども併せて入力すれば、発声者特徴情報に性別、年齢なども対応付けられて音楽サーバ25に記憶される。
その後、後述する情報処理装置30の制御部40は、入力受付部32からの発声者IDの入力によって、音楽サーバ25に問い合わせし、発声者IDの対象楽曲と、その音声データSVを情報処理装置30側にダウンロードする。
その後、後述する情報処理装置30の制御部40は、入力受付部32からの発声者IDの入力によって、音楽サーバ25に問い合わせし、発声者IDの対象楽曲と、その音声データSVを情報処理装置30側にダウンロードする。
〈情報処理装置〉
次に、情報処理装置30は、通信部31と、入力受付部32と、表示部33と、記憶部34と、制御部40とを備えている。
次に、情報処理装置30は、通信部31と、入力受付部32と、表示部33と、記憶部34と、制御部40とを備えている。
このうち、通信部31は、通信網を介して外部との間で通信を行う。入力受付部32は、外部からの操作に従って情報や指令の入力を受け付ける入力機器である。表示部33は、画像を表示する表示装置である。
記憶部34は、記憶内容を読み書き可能に構成された不揮発性の記憶装置である。また、制御部40は、ROM41、RAM42、CPU43を少なくとも有した周知のコンピュータを中心に構成されている。
そして、情報処理装置30のROM41には、音楽サーバ25に格納されている音声データSV及び音楽データMDに基づいて生成した音声素片PMを、データ格納サーバ50に格納する音声素片登録処理を制御部40が実行するための処理プログラムが記憶されている。
なお、データ格納サーバ50は、記憶内容を読み書き可能に構成された記憶装置を中心に構成された装置であり、通信網を介して情報処理装置30に接続されている。
〈音声素片登録処理〉
この音声素片登録処理は、図2に示すように、起動されると、対象楽曲の楽曲データDMを取得する(S110)。続いて、対象楽曲の歌詞データ群DLを取得し(S120)、対象楽曲に対応し、かつ入力受付部32を介して指定された発声者IDに対応する一つの音声データSVを取得する(S130)。
〈音声素片登録処理〉
この音声素片登録処理は、図2に示すように、起動されると、対象楽曲の楽曲データDMを取得する(S110)。続いて、対象楽曲の歌詞データ群DLを取得し(S120)、対象楽曲に対応し、かつ入力受付部32を介して指定された発声者IDに対応する一つの音声データSVを取得する(S130)。
さらに、S130で取得した音声データSVにおいて、当該音声データSVの発声内容に含まれる音節それぞれに対応する区間での音声波形を音声素片PMとして特定する(S140)。
具体的に、本実施形態のS140では、S110で取得した楽曲データDMのうち、歌唱旋律を表す楽譜トラックに規定された各出力音の演奏開始タイミング及び演奏終了タイミングを抽出すると共に、各出力音に対応付けられた歌詞構成文字の音節を特定する。そして、音声データSVにおいて、各出力音の演奏開始タイミングから演奏終了タイミングまでの区間それぞれに対応する区間での音声波形を音声素片PMとして特定する。なお、本実施形態のS140にて特定される音声素片PMそれぞれは、当該音声素片PMにて発声した音節の内容と対応付けられている。
続いて、S140にて特定した各音声素片PMについてのメタデータを推定するメタデータ推定処理を実行する(S150)。そして、S140にて抽出した音声素片PMの各々を、S150(メタデータ推定処理)にて推定し、かつ各音声素片PMに対応したメタデータと対応付けて、データ格納サーバ50に登録する(S160)。
なお、本実施形態のS160にて音声素片PMと対応付けられるデータは、メタデータに加えて、発声した音節の内容(種類)や、発声者ID、発声者特徴情報を含む。
その後、本音声素片登録処理を終了する。
その後、本音声素片登録処理を終了する。
すなわち、情報処理装置30は、音声素片登録処理を実行することで、特許請求の範囲における素片登録装置として機能する。
〈メタデータ推定処理〉
図3に示すように、メタデータ推定処理は、音声素片登録処理のS150にて起動されると、まず、先のS110にて取得した楽曲データDMに基づいて、対象楽曲において同一の調が継続される各区間である調同一区間を特定する(S310)。具体的に、本実施形態のS310では、図4に示すように、楽曲データDMに含まれる転調フラグに基づき、時間軸に沿って互いに隣接する転調フラグの間の区間を、調同一区間として特定する。
〈メタデータ推定処理〉
図3に示すように、メタデータ推定処理は、音声素片登録処理のS150にて起動されると、まず、先のS110にて取得した楽曲データDMに基づいて、対象楽曲において同一の調が継続される各区間である調同一区間を特定する(S310)。具体的に、本実施形態のS310では、図4に示すように、楽曲データDMに含まれる転調フラグに基づき、時間軸に沿って互いに隣接する転調フラグの間の区間を、調同一区間として特定する。
続いて、S310にて特定した調同一区間における主音を特定する(S320)。具体的に、本実施形態のS320では、図5に示すように、1つの調同一区間において、時間軸に沿った最後の出力音を、当該調同一区間における主音として特定する。本実施形態では、S310にて特定した調同一区間のそれぞれについて、主音を特定する。
そして、S320にて特定した主音の音名を起点とし、当該主音が特定された調同一区間に含まれる出力音それぞれの音名を階級とし、各音名の登場回数を度数としたヒストグラム(以下、登場音名頻度と称す)を導出する(S330)。具体的に、本実施形態のS330にて導出する登場音名頻度は、図6(A)に示すように、調同一区間に含まれる同一音名の出力音の登場回数(登場頻度)を集計したものである。そして、本実施形態においては、オクターブが異なる出力音であっても、音名が同一であれば、同一音名の出力音として集計する。なお、本実施形態では、各調同一区間について、登場音名頻度を導出する。
続いて、S330にて導出した登場音名頻度を、各調にて利用可能な音名の分布を表すテンプレートとして調毎に予め用意した調テンプレートに照合した結果に基づいて、当該調同一区間における調を特定する(S340)。具体的に、本実施形態のS340では、長調の楽曲にて利用可能な音名の分布を表す長調テンプレート(図6(B)参照)と、短調の楽曲にて利用可能な音名の分布を表す短調テンプレート(図6(C)参照)とを予め用意し、それぞれの調テンプレートにS330にて導出した登場音名頻度を照合する。その結果、最も高い相関を示す調テンプレートに対応する調を、当該調同一区間における調として特定する。なお、本実施形態のS340では、調同一区間のそれぞれについての調を特定する。
さらに、S340で特定した調同一区間における楽曲の調に対応する音声の性質を、メタデータとして特定する(S350)。具体的に、本実施形態のS350では、調同一区間における調が長調であれば、当該調同一区間での歌詞(即ち、発声内容)が「明るい」という感情を表す音声の性質をメタデータとして特定する。また、調同一区間における調が短調であれば、当該調同一区間での歌詞が「暗い」という感情を表す音声の性質をメタデータとして特定する。なお、本実施形態においては、調同一区間に含まれる全ての音節について、当該調同一区間に対応するメタデータを割り当てる。
その後、音声素片登録処理のS160へと戻る。
以上説明したように、本実施形態の音声素片登録処理では、図7に示すように、対象楽曲の演奏期間中に入力された音声波形に基づく音声素片PMを、当該対象楽曲のメロディラインを構成する各出力音の演奏期間に対応する区間(即ち、発声内容に含まれる各音節)ごとに生成する。
以上説明したように、本実施形態の音声素片登録処理では、図7に示すように、対象楽曲の演奏期間中に入力された音声波形に基づく音声素片PMを、当該対象楽曲のメロディラインを構成する各出力音の演奏期間に対応する区間(即ち、発声内容に含まれる各音節)ごとに生成する。
これと共に、音声素片登録処理では、対象楽曲において同一の調が継続する期間(即ち、調同一区間)それぞれを特定し、各調同一区間における調(調性)を特定する。そして、その特定した調からイメージされる感情として予め規定された音声の性質をメタデータとして特定する。その上で、音声素片登録処理では、対応する音節ごとに、音声素片PMと、メタデータとを対応付けて、データ格納サーバ50に格納する。
〈音声分析処理〉
次に、情報処理装置30の制御部40が実行する音声分析処理について、図8を用いて説明する。
〈音声分析処理〉
次に、情報処理装置30の制御部40が実行する音声分析処理について、図8を用いて説明する。
この図8に示すように、音声分析処理は、起動されると、まず、同一の内容を表すメタデータ(以下、対象メタデータとする)と対応付けられた全ての音声素片PM(以下、音声素片群と称す)を、データ格納サーバ50から取得する(S410)。
続いて、S410にて取得した音声素片群を構成する音声素片PMのそれぞれから、音声パラメータを導出する(S420)。本実施形態のS420では、基本周波数、メル周波数ケプストラム(MFCC)、パワー、それらの時間差分を、それぞれ、音声パラメータとして導出する。
これらの基本周波数、MFCC、パワーの導出方法は、周知であるため、ここでの詳しい説明は省略するが、例えば、基本周波数であれば、音声素片PMの時間軸に沿った自己相関、音声素片PMの周波数スペクトルの自己相関、またはケプストラム法などの手法を用いて導出すれば良い。また、MFCCであれば、音声素片PMに対して時間分析窓を適用して、時間分析窓ごとに周波数解析(例えば、FFT)をした結果について、周波数ごとの大きさを対数化した結果を、さらに、周波数解析することで導出すれば良い。パワーについては、音声素片PMに対して時間分析窓を適用して振幅の二乗した結果を時間方向に積分することで導出すれば良い。
そして、S420にて導出した音声パラメータを分析し、表情テーブルTDを生成する(S430)。具体的に、本実施形態のS430では、S420にて導出した音声パラメータ(即ち、基本周波数、メル周波数ケプストラム(MFCC)、パワー、それらの時間差分のそれぞれ)について平均値を算出する。その算出した平均値と、S420にて導出された各音声パラメータとの差分であるパラメータ差分とを、当該音声素片PMと対応付けられている発声者IDごと、かつ当該音声素片PMと対応付けられている音節ごとに導出する。
さらに、本実施形態のS430では、導出したパラメータ差分を、当該パラメータ差分に対応するメタデータ、発声者ID、及び音節と対応付けることで、表情テーブルTDを生成する。すなわち、表情テーブルTDは、図9に示すように、発声者IDごとに、メタデータの内容が分類された上で、音節の内容と、当該音節に対応するパラメータ差分とが対応付けられたものであり、特許請求の範囲におけるメタデータ対応テーブルに相当する。
なお、図9に示す例では、メタデータとして登録する音声の性質を「明るい」としていたが、メタデータとして登録する音声の性質は、これに限るものではない。例えば、「輝かしい」や、「素晴らしい」、「すてき」といった内容を表す音声の性質をメタデータとしても良い。さらには、類義語によって表される複数種類の音声の性質を1つのメタデータとしても良い。
そして、S430にて生成した表情テーブルTDを、データ格納サーバ50に格納する(S440)。
その後、本音声分析処理を終了する。
その後、本音声分析処理を終了する。
〈音声出力端末〉
図1に示すように、音声出力端末60は、情報受付部61と、表示部62と、音出力部63と、通信部64と、記憶部65と、制御部67とを備えている。音声出力端末60として、例えば、周知の携帯端末(携帯電話や携帯情報端末)や、周知の情報処理装置(いわゆるパーソナルコンピュータ)を想定しても良い。
図1に示すように、音声出力端末60は、情報受付部61と、表示部62と、音出力部63と、通信部64と、記憶部65と、制御部67とを備えている。音声出力端末60として、例えば、周知の携帯端末(携帯電話や携帯情報端末)や、周知の情報処理装置(いわゆるパーソナルコンピュータ)を想定しても良い。
このうち、情報受付部61は、入力装置(図示せず)を介して入力された情報を受け付ける。表示部62は、制御部67からの信号に基づいて画像を表示する。音出力部63は、音を出力する周知の装置であり、例えば、PCM音源と、スピーカとを備えている。
通信部64は、周知の通信網を介して音声出力端末60が外部との間で情報通信を行うものである。記憶部65は、記憶内容を読み書き可能に構成された不揮発性の記憶装置であり、各種処理プログラムや各種データが記憶される。
また、制御部67は、ROM、RAM、CPUを少なくとも有した周知のコンピュータを中心に構成されている。
〈音声合成処理〉
音声合成処理は、音声出力端末60の情報受付部61を介して起動指令が入力されると起動される。
〈音声合成処理〉
音声合成処理は、音声出力端末60の情報受付部61を介して起動指令が入力されると起動される。
この音声合成処理は、図10に示すように、起動されると、まず、情報受付部61を介して入力された情報(以下、入力情報と称す)を取得する(S910)。このS910にて取得する入力情報とは、例えば、合成音として出力する音声の内容(文言)を表す出力文言や、合成音として出力する音の性質を表す出力性質情報を含むものである。なお、ここで言う音の性質(即ち、出力性質情報)とは、発声者の性別、発声者の年齢といった、発声者の声の特徴を含むものである。
続いて、周知の形態素解析によって、S910にて取得した出力文言を形態素(単語)ごとに分割し、単語ごとに予め各形態素の読み(即ち、音節)が対応付けられた辞書データを参照して、出力文言が分割された形態素の読みを取得する(S920)。
S920にて取得した形態素それぞれに対応し、かつS910にて取得した出力性質情報に最も類似する情報と対応付けられた各音声素片PMを、データ格納サーバ50から取得する(S930)。
そして、S930にて取得した音声素片PMのそれぞれから、音声パラメータを導出する(S940)。続いて、S910にて取得した出力性質情報のうち、メタデータとして規定されるべき感情に最も類似する感情を含む表情テーブルTDを、データ格納サーバ50から取得する(S950)。
さらに、S910にて取得した出力文言の内容にて合成音が出力されるように、S950にて抽出した表情テーブルTDに従って、S940で導出された音声パラメータを、音節ごとに設定する(S960)。なお、図10では、S960にて設定された音声パラメータを「表情付き音声パラメータ」と称している。
その表情付き音声パラメータに基づく音声合成を、音節ごとに実行する(S970)。このS970における音声合成は、フォルマント合成による周知の音声合成の手法を用いれば良い。なお、図10では、S970での音声合成によって生成される音声波形を、「表情付き音声素片」と称している。
さらに、S970の音声合成によって生成された表情付き音声素片の各々を、出力文言に沿って接続し(S980)、その接続された音声波形、即ち、音声を出力する(S990)。
その後、本音声合成処理を終了する。
[第一実施形態の効果]
以上説明したように、本実施形態の情報処理装置30によれば、1つの対象楽曲を複数の人物に歌唱させた各音声データSVから音声素片PMを導出することで、音楽サーバ25に記憶される音声素片PMの種類を多様化できる。
[第一実施形態の効果]
以上説明したように、本実施形態の情報処理装置30によれば、1つの対象楽曲を複数の人物に歌唱させた各音声データSVから音声素片PMを導出することで、音楽サーバ25に記憶される音声素片PMの種類を多様化できる。
しかも、本実施形態の音声合成装置1によれば、表情テーブルTDに従って、多様化された音声素片PMに基づく音声合成を実行するため、多様な合成音を生成することができ、合成音を発声したとみなせる人物の特徴を多様化できる。
なお、本実施形態の情報処理装置30では、対象楽曲における各調同一区間の調によって推定される歌詞の印象をメタデータとしている。この歌詞の印象とは、対象楽曲の調が長調であるときには、明るい印象であり、楽曲の調が単調であるときには、悲しい印象である。
したがって、本実施形態のメタデータ推定処理によれば、各調同一区間に対応する歌詞を発声したときの発声者の感情をメタデータとすることができる。
[第二実施形態]
次に、本発明の第二実施形態について説明する。
[第二実施形態]
次に、本発明の第二実施形態について説明する。
第二実施形態の音声合成装置は、第一実施形態の音声合成装置1とは、主として、メタデータ推定処理の処理内容が異なる。このため、本実施形態においては、第一実施形態と同様の構成及び処理には、同一の符号を付して説明を省略し、第一実施形態とは異なるメタデータ推定処理を中心に説明する。
〈メタデータ推定処理について〉
ここで、図11は、本実施形態のメタデータ推定処理の処理手順を示すフローチャートである。
〈メタデータ推定処理について〉
ここで、図11は、本実施形態のメタデータ推定処理の処理手順を示すフローチャートである。
本実施形態のメタデータ推定処理は、音声素片登録処理のS150にて起動されると、図11に示すように、先のS120にて取得した歌詞データ群DLに含まれている歌詞テロップデータDTによって表される歌詞を形態素解析する(S610)。すなわち、本実施形態のS610では、形態素解析を実行することで、歌詞を構成する文字列を、当該歌詞中の単語を構成する文字列である単語文字ごとに分割する。なお、形態素解析は、周知の処理であるため、ここでの詳しい説明は省略する。
続いて、予め用意された単語性質テーブルが格納された単語メタデータデータベース(図中DB)100から、S610の形態素解析した結果である単語毎に単語性質情報を取得する(S620)。ただし、ここで言う単語性質テーブルとは、各単語の性質を表す単語性質情報を当該単語の識別情報と対応付けたテーブルであり、ここで言う単語の性質とは、当該単語の意味や、当該単語によって表される感情を含む。
そして、S620にて取得した単語性質情報をメタデータとして、当該単語を発声した区間(即ち、音声素片PM)に割り当てる(S630)。
その後、本メタデータ推定処理を終了して、音声素片登録処理へと戻る。
その後、本メタデータ推定処理を終了して、音声素片登録処理へと戻る。
以上説明したように、本実施形態のメタデータ推定処理では、対象楽曲の歌詞に対して形態素解析を実行し、対象楽曲の歌詞を、単語を構成する文字列である単語文字ごとに分割する。その上で、予め用意された単語メタデータデータベース100に格納されている単語性質テーブルに含まれる単語性質情報の中から、各単語に対応する単語性質情報を取得し、当該単語性質情報のそれぞれを、対応する音節の音声素片PMに対するメタデータとしている。
[第二実施形態の効果]
以上説明したように、本実施形態のメタデータ推定処理によれば、発声者が発声した単語の意味や、当該単語によって表される感情などを、メタデータとすることができる。
[第三実施形態]
次に、本発明の第三実施形態について説明する。
[第二実施形態の効果]
以上説明したように、本実施形態のメタデータ推定処理によれば、発声者が発声した単語の意味や、当該単語によって表される感情などを、メタデータとすることができる。
[第三実施形態]
次に、本発明の第三実施形態について説明する。
第三実施形態の音声合成装置は、第一実施形態の音声合成装置1とは、主として、音声入力装置10にて実行する音声格納処理と、情報処理装置30にて実行するメタデータ推定処理の処理内容とが異なる。このため、本実施形態においては、第一実施形態と同様の構成及び処理には、同一の符号を付して説明を省略し、第一実施形態とは異なる音声格納処理、及びメタデータ推定処理を中心に説明する。
まず、本実施形態の音声入力装置10が実行する音声格納処理では、図12に示す、音声データSVの単位区間ごとの性質を表すメッセージの入力を受け付けるメッセージ入力画面ISを表示部13に表示する。これと共に、本実施形態の音声格納処理では、そのメッセージ入力画面ISを介して入力されたメッセージを、当該音声データSVの各単位区間と対応付けて、音楽サーバ25に格納する。なお、ここで言う単位区間とは、例えば、1秒程度の時間長を有した区間である。
本実施形態におけるメッセージ入力画面ISには、少なくとも、対象楽曲の進行状況を表すプログレスバー91と、メッセージの選択を受け付けるメッセージプルダウン93と、メッセージプルダウン93にて選択されたメッセージを、当該音声データSVの各単位区間と対応付けて音楽サーバ25に格納する送信ボタン95とを備えている。
本実施形態の音声格納処理においても、第一実施形態の音声格納処理と同様、音楽サーバ25に格納される音声データSVには、発声者特徴情報も対応付けられる。
〈メタデータ推定処理について〉
次に、本実施形態の情報処理装置30が、音声素片登録処理のS150にて実行するメタデータ推定処理について説明する。
〈メタデータ推定処理について〉
次に、本実施形態の情報処理装置30が、音声素片登録処理のS150にて実行するメタデータ推定処理について説明する。
本実施形態のメタデータ推定処理は、図13に示すように、起動されると、まず、処理の対象とした音声データSVの単位区間に基づいて、規定区間を設定する(S710)。すなわち、S710では、時間軸に沿って連続し、規定された数の単位区間を、それぞれ、1つの規定区間として設定する。
続いて、S710にて設定された各規定区間を構成する単位区間のそれぞれに対応付けられたメッセージを読み出し、その読み出したメッセージについて、当該メッセージの内容ごとに頻度を導出する(S720)。
そして、S720にて導出した頻度が最も高いメッセージを当該規定区間に対するメッセージとして判定する(S730)。その判定結果ごとに、単語メタデータデータベース(図中DB)100から単語性質情報を取得する(S740)。
そして、S740にて取得した単語性質情報をメタデータとして、当該単語を発声した区間(即ち、音声素片PM)に割り当てる(S750)。
その後、本メタデータ推定処理を終了して、音声素片登録処理へと戻る。
その後、本メタデータ推定処理を終了して、音声素片登録処理へと戻る。
以上説明したように、本実施形態のメタデータ推定処理では、対象楽曲の特定の時刻に対して、音声入力装置10を介して入力されたメッセージを分類した結果、当該時刻に対応付けられたメッセージの中で最も多いメッセージの内容をメタデータとしている。
[第三実施形態の効果]
以上説明したように、本実施形態のメタデータ推定処理によれば、音声入力装置10を介して入力されたメッセージの内容を、メタデータとすることができる。
[その他の実施形態]
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。
[第三実施形態の効果]
以上説明したように、本実施形態のメタデータ推定処理によれば、音声入力装置10を介して入力されたメッセージの内容を、メタデータとすることができる。
[その他の実施形態]
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。
上記実施形態では、音声入力装置(カラオケ装置)10と音楽サーバ25のシステムに、情報処理装置30とデータ格納サーバ50とを追加し、音声入力装置10がカラオケ演奏処理を実行して対象楽曲を演奏している期間に入力された音声に基づいて音声データSVを生成していたが、本発明における音声データSVは、これに限るものではない。
すなわち、本発明では、音声入力装置10において、カラオケ装置などにて周知のアフレコ機能を用いて、音声データSVを生成しても良い。つまり、アフレコ機能を有した音声入力装置(カラオケ装置)であれば、発声すべき台詞に関するデータとして、台詞を構成する文字(以下、台詞構成文字と称す)を表す台詞テロップデータ(即ち、歌詞テロップデータと同様のデータ)と、台詞構成文字を表示部13に表示するタイミングを規定した台詞出力データ(即ち、歌詞出力データと同様のデータ)とを備えている。よって、アフレコ機能を用いて音声データSVを取得する場合、音声入力装置10は、台詞テロップデータに基づく台詞を表示部13に表示し、当該台詞が表示部13に表示されている期間に音声入力部14を介して入力された音声波形を音声データSVとして、音楽サーバ25に格納しても良い。
この場合、情報処理装置30では、アフレコ機能を用いて生成した音声データSVを音声素片登録処理の処理対象としても良い。
また、上記実施形態では、音声入力装置10として、カラオケ装置を想定したが、音声入力装置10として想定する装置は、カラオケ装置に限るものではなく、例えば、周知の携帯端末(携帯電話や携帯情報端末)や、周知の情報処理装置(いわゆるパーソナルコンピュータ)を想定しても良い。
また、上記実施形態では、音声入力装置10として、カラオケ装置を想定したが、音声入力装置10として想定する装置は、カラオケ装置に限るものではなく、例えば、周知の携帯端末(携帯電話や携帯情報端末)や、周知の情報処理装置(いわゆるパーソナルコンピュータ)を想定しても良い。
また、上記実施形態の音声合成システムにおいては、音楽サーバ25、データ格納サーバ50が設けられていたが、これらは補助記憶手段として機能すればよく、音声入力装置10の記憶部17に格納し、更には情報処理装置30の各手段も、音声入力装置10へ組み込むことで、音声入力装置(カラオケ装置)を、音声合成データ作成に用いる、発声を特定する装置としても良い。
[実施形態と特許請求の範囲との対応関係]
最後に、上記実施形態の記載と、特許請求の範囲の記載との関係を説明する。
[実施形態と特許請求の範囲との対応関係]
最後に、上記実施形態の記載と、特許請求の範囲の記載との関係を説明する。
上記実施形態の音声素片登録処理におけるS120が、特許請求の範囲の記載における発声情報取得手段に相当し、S130が、音声データ取得手段に相当し、S140が、音声素片抽出手段に相当する。さらに、音声素片登録処理におけるS150が、メタデータ生成手段に相当し、S160が、素片登録手段に相当する。
そして、上記実施形態の音声分析処理におけるS420が、パラメータ導出手段に相当し、S430,S440が、パラメータ分析手段に相当する。
なお、上記実施形態の音声素片登録処理におけるS110が、楽譜データ取得手段に相当する。さらに、上記第一実施形態のメタデータ推定処理におけるS310が、区間特定手段に相当し、S320が、主音特定手段に相当し、S330が、音名頻度導出手段に相当し、S340,S350が、調推定手段に相当する。
なお、上記実施形態の音声素片登録処理におけるS110が、楽譜データ取得手段に相当する。さらに、上記第一実施形態のメタデータ推定処理におけるS310が、区間特定手段に相当し、S320が、主音特定手段に相当し、S330が、音名頻度導出手段に相当し、S340,S350が、調推定手段に相当する。
また、第二実施形態のメタデータ推定処理におけるS610が、単語分割手段に相当し、S620が、メタデータ抽出手段に相当する。
そして、音声合成処理におけるS910が、文言取得手段及び出力性質情報取得手段に相当し、S930,S940が、出力音分析手段に相当し、S950〜S980が、音声合成手段に相当し、S990が、音声出力手段に相当する。
そして、音声合成処理におけるS910が、文言取得手段及び出力性質情報取得手段に相当し、S930,S940が、出力音分析手段に相当し、S950〜S980が、音声合成手段に相当し、S990が、音声出力手段に相当する。
1…音声合成装置 10…音声入力装置 11…通信部 12…入力受付部 13…表示部 14…音声入力部 15…音声出力部 16…音源モジュール 17…記憶部 20…制御部 21…ROM 22…RAM 23…CPU 25…音楽サーバ 30…情報処理装置 31…通信部 32…入力受付部 33…表示部 34…記憶部 40…制御部 41…ROM 42…RAM 43…CPU 50…データ格納サーバ 60…音声出力端末
Claims (6)
- 発声すべき内容の文字列、及び前記文字列を構成する文字の各々の基準発声開始タイミング、及び基準発声終了タイミングを表す発声内容情報を取得する発声情報取得手段と、
前記発声情報取得手段によって取得された発声内容情報によって表される文字列について発声された音声波形を表す音声データを取得する音声データ取得手段と、
前記音声データ取得手段で取得した音声データによって表される音声波形から、前記発声情報取得手段で取得した発声内容情報によって表される一対の基準発声開始タイミングから基準発声終了タイミングまでの区間のそれぞれを、前記文字列を形成する各音節に対して発声した音声波形である音声素片の各々として抽出する音声素片抽出手段と、
入力された情報である性質推定情報に基づいて、前記音声素片それぞれの性質を表すメタデータを生成するメタデータ生成手段と、
前記音声素片抽出手段で抽出された音声素片それぞれを、対応する音節ごとに、前記メタデータ生成手段で生成されたメタデータそれぞれと対応付けて、第一記憶装置に記憶する素片登録手段と
を備えることを特徴とする素片登録装置。 - 前記第一記憶装置に記憶され、かつ同じ種類の前記メタデータが対応付けられた音声素片のそれぞれから、予め規定された少なくとも一つの特徴量である音声パラメータを導出するパラメータ導出手段と、
前記パラメータ導出手段で導出された音声パラメータを解析して、当該音声パラメータの導出源である前記音声素片と対応付けられた前記メタデータに対応する各音声パラメータの変化傾向を表すメタデータ対応テーブルを生成し、第二記憶装置に記憶するパラメータ分析手段と
を備えることを特徴とする請求項1に記載の素片登録装置。 - 前記メタデータ生成手段は、
前記発声情報取得手段で取得した発声内容情報が前記性質推定情報として入力され、
前記発声内容情報によって表される文字列を、単語を構成する単語文字ごとに分割する単語分割手段と、
各単語の性質を表す単語性質情報を当該単語の識別情報と対応付けた単語性質テーブルを予め用意し、前記単語性質テーブルから、前記単語分割手段で分割された各単語文字に対応する前記単語性質情報を前記メタデータとして抽出するメタデータ抽出手段と
を備えることを特徴とする請求項1または請求項2に記載の素片登録装置。 - 楽曲の一つである対象楽曲の楽譜を表し、音源モジュールから出力される個々の出力音について、少なくとも音高及び演奏開始タイミングを規定すると共に、前記対象楽曲の曲中において転調していれば、当該転調した各時刻を表す転調フラグを含む楽譜データを取得する楽譜データ取得手段を備え、
前記発声情報取得手段は、
前記対象楽曲の歌詞を構成する文字列、及び当該文字列を構成する文字の各々の基準発声開始タイミングを、前記発声内容情報として取得し、
前記音声データ取得手段は、
前記楽譜データに基づく前記対象楽曲の演奏中に入力された音声波形を前記音声データとして取得し、
前記メタデータ生成手段は、
前記楽譜データ取得手段で取得した楽譜データ、及び前記発声情報取得手段で取得した発声内容情報が、前記性質推定情報として入力され、
前記対象楽曲において同一の調が継続される各区間である調同一区間を特定する区間特定手段と、
前記区間特定手段にて特定した各調同一区間に含まれ、それぞれの調同一区間における時間軸に沿った最後の出力音を主音として特定する主音特定手段と、
前記区間特定手段にて特定した調同一区間に含まれる同一音名の出力音の頻度を表す登場音名頻度を、前記主音特定手段で特定した主音の音名を起点として前記調同一区間毎に導出する音名頻度導出手段と、
各調にて利用可能な音名の分布を表すテンプレートとして調毎に予め用意した調テンプレートに、前記音名頻度導出手段で導出した各登場音名頻度を照合した結果、最も相関が高い調それぞれを、前記メタデータとする調推定手段と
を備えることを特徴とする請求項1から請求項3のいずれか一項に記載の素片登録装置。 - 発声すべき内容の文字列、及び前記文字列を構成する文字の各々の基準発声開始タイミング、及び基準発声終了タイミングを表す発声内容情報を取得する発声情報取得手段と、
前記発声情報取得手段によって取得された発声内容情報によって表される文字列について発声された音声波形を表す音声データを取得する音声データ取得手段と、
少なくとも、前記発声情報取得手段で取得した発声内容情報に基づいて、前記音声データ取得手段で取得した音声データによって表される音声波形から、前記発声内容情報によって表される文字列を形成する各音節に対して発声した音声波形である音声素片それぞれを抽出する音声素片抽出手段と、
入力された情報である性質推定情報に基づいて、前記音声素片それぞれの性質を推定し、その推定結果をメタデータとして生成するメタデータ生成手段と、
前記音声素片抽出手段で抽出された音声素片それぞれを、前記メタデータ生成手段で生成されたメタデータそれぞれに、互いに対応する音節ごとに対応付けて、第一記憶装置に記憶する素片登録手段と、
前記第一記憶装置に記憶され、かつ同じ種類のメタデータが対応付けられた各音声素片から、予め規定された少なくとも一つの特徴量である音声パラメータを導出するパラメータ導出手段と、
前記パラメータ導出手段で導出された音声パラメータを、当該音声パラメータと対応付けられたメタデータ毎に解析して、当該メタデータに対応する各音声パラメータの変化傾向を表すメタデータ対応テーブルを生成して、第二記憶装置に記憶するパラメータ分析手段と、
外部から入力された文言を表す出力文言を取得する文言取得手段と、
外部から入力され、音の性質を表す出力性質情報を取得する出力性質情報取得手段と、
前記文言取得手段で取得した出力文言を音節単位に分解し、その分解された音節それぞれに対応する前記音声素片を前記第一記憶装置から取得すると共に、該第一記憶装置から取得した各音声素片から音声パラメータを導出する出力音声分析手段と、
前記出力性質情報取得手段で取得した出力性質情報に対応するメタデータを含むメタデータ対応テーブルを前記第二記憶装置から取得すると共に、その取得したメタデータ対応テーブルに従って、前記出力音声分析手段で導出した音声パラメータに基づく音声合成を実行する音声合成手段と、
前記音声合成手段にて音声合成することで生成された合成音を出力する音声出力手段と
を備えることを特徴とする音声合成装置。 - 発声すべき内容の文字列、及び前記文字列を構成する文字の各々の基準発声開始タイミング、及び基準発声終了タイミングを表す発声内容情報を取得する発声情報取得手順と、
前記発声情報取得手順によって取得された発声内容情報によって表される文字列について発声された音声波形を表す音声データを取得する音声データ取得手順と、
前記音声データ取得手順で取得した音声データによって表される音声波形から、前記発声情報取得手順で取得した発声内容情報によって表される文字列を形成する各音節に対して発声した音声波形である音声素片それぞれを抽出する音声素片抽出手順と、
入力された情報である性質推定情報に基づいて、前記音声素片それぞれの性質を表すメタデータを生成するメタデータ生成手順と、
前記音声素片抽出手順で抽出された音声素片それぞれを、対応する音節ごとに、前記メタデータ生成手順で生成されたメタデータそれぞれと対応付けて、第一記憶装置に記憶する素片登録手順とを
コンピュータに実行させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012081044A JP2013210501A (ja) | 2012-03-30 | 2012-03-30 | 素片登録装置,音声合成装置,及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012081044A JP2013210501A (ja) | 2012-03-30 | 2012-03-30 | 素片登録装置,音声合成装置,及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013210501A true JP2013210501A (ja) | 2013-10-10 |
Family
ID=49528396
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012081044A Pending JP2013210501A (ja) | 2012-03-30 | 2012-03-30 | 素片登録装置,音声合成装置,及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2013210501A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015125268A (ja) * | 2013-12-26 | 2015-07-06 | ブラザー工業株式会社 | カラオケ装置及びカラオケ用プログラム |
CN105976811A (zh) * | 2016-04-27 | 2016-09-28 | 四川大学 | 一种包含声母的音节切分方法及装置 |
US11765536B2 (en) | 2018-11-13 | 2023-09-19 | Dolby Laboratories Licensing Corporation | Representing spatial audio by means of an audio signal and associated metadata |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000206982A (ja) * | 1999-01-12 | 2000-07-28 | Toshiba Corp | 音声合成装置及び文音声変換プログラムを記録した機械読み取り可能な記録媒体 |
JP2003186489A (ja) * | 2001-12-14 | 2003-07-04 | Omron Corp | 音声情報データベース作成システム,録音原稿作成装置および方法,録音管理装置および方法,ならびにラベリング装置および方法 |
JP2007156187A (ja) * | 2005-12-06 | 2007-06-21 | Matsushita Electric Ind Co Ltd | 楽曲処理装置 |
JP2008039833A (ja) * | 2006-08-01 | 2008-02-21 | Yamaha Corp | 音声評価装置 |
JP2008046425A (ja) * | 2006-08-17 | 2008-02-28 | National Institute Of Information & Communication Technology | 印象表現出力装置及び方法 |
JP2009258292A (ja) * | 2008-04-15 | 2009-11-05 | Yamaha Corp | 音声データ処理装置およびプログラム |
-
2012
- 2012-03-30 JP JP2012081044A patent/JP2013210501A/ja active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000206982A (ja) * | 1999-01-12 | 2000-07-28 | Toshiba Corp | 音声合成装置及び文音声変換プログラムを記録した機械読み取り可能な記録媒体 |
JP2003186489A (ja) * | 2001-12-14 | 2003-07-04 | Omron Corp | 音声情報データベース作成システム,録音原稿作成装置および方法,録音管理装置および方法,ならびにラベリング装置および方法 |
JP2007156187A (ja) * | 2005-12-06 | 2007-06-21 | Matsushita Electric Ind Co Ltd | 楽曲処理装置 |
JP2008039833A (ja) * | 2006-08-01 | 2008-02-21 | Yamaha Corp | 音声評価装置 |
JP2008046425A (ja) * | 2006-08-17 | 2008-02-28 | National Institute Of Information & Communication Technology | 印象表現出力装置及び方法 |
JP2009258292A (ja) * | 2008-04-15 | 2009-11-05 | Yamaha Corp | 音声データ処理装置およびプログラム |
Non-Patent Citations (1)
Title |
---|
吉野 巌,他, コンピュータと音楽の世界ー基礎からフロンティアまで(第3章 4.調性認識:メロディの調を解釈する計算, vol. 初版, JPN6016008486, 15 August 1999 (1999-08-15), JP, pages 117 - 131, ISSN: 0003269788 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015125268A (ja) * | 2013-12-26 | 2015-07-06 | ブラザー工業株式会社 | カラオケ装置及びカラオケ用プログラム |
CN105976811A (zh) * | 2016-04-27 | 2016-09-28 | 四川大学 | 一种包含声母的音节切分方法及装置 |
CN105976811B (zh) * | 2016-04-27 | 2019-07-12 | 四川大学 | 一种包含声母的音节切分方法及装置 |
US11765536B2 (en) | 2018-11-13 | 2023-09-19 | Dolby Laboratories Licensing Corporation | Representing spatial audio by means of an audio signal and associated metadata |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11996082B2 (en) | Electronic musical instruments, method and storage media | |
CN112382257B (zh) | 一种音频处理方法、装置、设备及介质 | |
JP6060867B2 (ja) | 情報処理装置,データ生成方法,及びプログラム | |
US20200294484A1 (en) | Voice synthesis method, voice synthesis apparatus, and recording medium | |
US20210193098A1 (en) | Electronic musical instruments, method and storage media | |
JP2022071098A (ja) | 電子楽器、方法及びプログラム | |
JP5598516B2 (ja) | カラオケ用音声合成システム,及びパラメータ抽出装置 | |
JP2013210501A (ja) | 素片登録装置,音声合成装置,及びプログラム | |
JP5292702B2 (ja) | 楽音信号生成装置及びカラオケ装置 | |
JP2017181793A (ja) | 音響処理装置、及びプログラム | |
JP6098422B2 (ja) | 情報処理装置、及びプログラム | |
JP6252420B2 (ja) | 音声合成装置、及び音声合成システム | |
JP5810947B2 (ja) | 発声区間特定装置、音声パラメータ生成装置、及びプログラム | |
JP6075314B2 (ja) | プログラム,情報処理装置,及び評価方法 | |
JP6075313B2 (ja) | プログラム,情報処理装置,及び評価データ生成方法 | |
JP2022065554A (ja) | 音声合成方法およびプログラム | |
JP2022065566A (ja) | 音声合成方法およびプログラム | |
JP2002041074A (ja) | ボーカルデータ生成装置および歌唱装置 | |
JP5845857B2 (ja) | パラメータ抽出装置、音声合成システム | |
JP6406182B2 (ja) | カラオケ装置、及びカラオケシステム | |
JP5983670B2 (ja) | プログラム、情報処理装置、及びデータ生成方法 | |
JP6260499B2 (ja) | 音声合成システム、及び音声合成装置 | |
JP6090043B2 (ja) | 情報処理装置、及びプログラム | |
JP6011506B2 (ja) | 情報処理装置,データ生成方法,及びプログラム | |
JP2017062313A (ja) | カラオケ装置,カラオケシステム,及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150225 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160308 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20161018 |