JP2016183998A - 音声合成装置、及びプログラム - Google Patents

音声合成装置、及びプログラム Download PDF

Info

Publication number
JP2016183998A
JP2016183998A JP2015062816A JP2015062816A JP2016183998A JP 2016183998 A JP2016183998 A JP 2016183998A JP 2015062816 A JP2015062816 A JP 2015062816A JP 2015062816 A JP2015062816 A JP 2015062816A JP 2016183998 A JP2016183998 A JP 2016183998A
Authority
JP
Japan
Prior art keywords
parameter
style
utterance
speech
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015062816A
Other languages
English (en)
Other versions
JP6260565B2 (ja
Inventor
典昭 阿瀬見
Noriaki Asemi
典昭 阿瀬見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Original Assignee
Brother Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd filed Critical Brother Industries Ltd
Priority to JP2015062816A priority Critical patent/JP6260565B2/ja
Publication of JP2016183998A publication Critical patent/JP2016183998A/ja
Application granted granted Critical
Publication of JP6260565B2 publication Critical patent/JP6260565B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

【課題】模範ボーカルと歌唱音声との乖離を可能な限り抑制しつつ、利用者に違和感を与えることを低減すること。【解決手段】カラオケ装置は、音声データを取得して(S130)分析し、音声特徴量を導出する(S140〜S190)。その導出した音声特徴量を発声スタイルデータに照合した結果、類似度が最も高い発声スタイルデータに対応する発声スタイルを、音声データにおける発声スタイルとして特定する(S200)。発声スタイルデータとは、発声の態様を表す発声スタイルごとに、当該発声スタイルの特徴を表す音声パラメータを規定したデータである。そして、模範ボーカルの音声合成に必要なパラメータとして予め規定された基準パラメータを、特定された発声スタイルにおける音声パラメータに近づけるように修正する(S220)。その修正された音声パラメータを用いて音声合成した合成音を出力する(S230)。【選択図】図3

Description

本発明は、合成音を生成する音声合成装置、及びプログラムに関する。
従来、楽曲を演奏すると共に、その演奏に併せてマイクを介して入力されたユーザの歌唱音声をスピーカから出力する機能を備えたカラオケ装置が知られている。さらに、カラオケ装置の機能を備えた音声合成装置では、楽曲のメロディと歌詞とから音声合成した合成音声音データ(後述する模範ボーカルとして機能)を生成して放音している(特許文献1参照)。
特開2009−217141号公報
ところで、カラオケ装置においては、ユーザの歌唱力向上のために、楽曲の演奏に沿って、歌唱の模範となる歌声である模範ボーカル(ガイドボーカルとも称す)を音声合成によって出力している。
この模範ボーカルと歌唱音声との間の乖離が大きいと、その利用者の歌唱が上手くないように聞こえてしまうという課題がある。
この課題を解決するために、特許文献1に記載された技術では、利用者の歌唱音声に近似するように、模範ボーカルを音声合成している。
しかしながら、模範ボーカルを歌唱音声に近似させ過ぎると、歌唱力の向上を促すという模範ボーカルの本来の機能を発揮できない。
つまり、従来技術では、ユーザ自身の歌唱スタイルに合った模範ボーカルを音声合成して出力できず、利用者に違和感を与えるという課題が生じる。
換言すれば、従来の技術では、模範ボーカルと歌唱音声との乖離を可能な限り抑制しつつ、利用者に違和感を与えることを低減することが困難であるという課題があった。
そこで、本発明は、模範ボーカルと歌唱音声との乖離を可能な限り抑制しつつ、利用者に違和感を与えることを低減することを目的とする。
上記目的を達成するためになされた本発明の一態様は、取得手段と、分析手段と、スタイル特定手段と、修正手段と、合成手段とを備える音声合成装置である。
取得手段は、対象楽曲の演奏中に入力された音声の波形を表す音声データを取得する。ここで言う対象楽曲は、複数の音符のうちの少なくとも一部に歌詞が割り当てられた楽曲であり、かつ、指定された楽曲である。
分析手段は、取得手段で取得した音声データを分析し、予め規定された少なくとも1つの音声パラメータを含む音声特徴量を導出する。スタイル特定手段は、分析手段で導出した音声特徴量を発声スタイルデータに照合した結果、類似度が最も高い発声スタイルデータに対応する発声スタイルを、音声データにおける発声スタイルとして特定する。ここで言う発声スタイルデータとは、発声の態様を表す発声スタイルごとに、当該発声スタイルの特徴を表す少なくとも1つの音声パラメータを規定したデータである。
さらに、修正手段は、スタイル特定手段で特定された発声スタイルにおける音声パラメータに近づけるように、基準パラメータを修正する。ここで言う基準パラメータとは、予め規定された音声パラメータであり、対象楽曲における歌詞を歌唱した模範ボーカルの音声合成に必要な音声パラメータである。
そして、合成手段は、修正手段で修正された音声パラメータを用いて音声合成した合成音を出力する。
このような音声合成装置によれば、利用者の発声スタイルに近い発声スタイルの合成音による模範ボーカルを出力できる。この結果、音声合成装置によれば、模範ボーカルと歌唱音声との間の乖離を小さくでき、その歌唱が上手くないように聞こえることを低減できる。
つまり、音声合成装置によれば、ユーザ自身の歌唱スタイルに合った模範ボーカルを音声合成して出力できる。これにより、音声合成装置によれば、利用者が違和感を覚えることを低減できる。
換言すれば、音声合成装置によれば、模範ボーカルと歌唱音声との乖離を可能な限り抑制しつつ、利用者に違和感を与えることを低減できる。
分析手段は、音声データの周波数に関するパラメータである周波数パラメータを音声パラメータとして導出してもよい。この場合、発声スタイルデータには、発声スタイルの特徴を表す少なくとも1つの音声パラメータとして、周波数パラメータが含まれてもよい。
このような音声合成装置によれば、周波数パラメータを音声パラメータとして導出して、発声スタイルデータに照合できる。これにより、音声合成装置によれば、利用者の発声スタイルに近い発声スタイルの合成音(模範ボーカル)となるように周波数パラメータを修正できる。
さらに、対象楽曲には、時間軸に沿って隣接する2つの音符であって、互いに音高が異なる2つの音符が含まれてもよい。この場合、分析手段は、2つの音符における音高の移行区間において、音高の変化が開始される開始タイミング、及び音高の変化が終了される終了タイミングでの、音声データにおける音高推移の傾きを、周波数パラメータとして導出してもよい。
このような音声合成装置によれば、音声データにおける音高推移の傾きを周波数パラメータとして導出できる。このような周波数パラメータを用いて発声スタイルを特定することで、「しゃくり」などの歌唱技巧を発声スタイルの一例として特定できる。
さらに、音声合成装置の分析手段によれば、歌詞が割り当てられた音符に対応する区間における周波数、周波数の深さ、及び周波数スペクトルの包絡のうちの少なくとも1つを周波数パラメータとして導出できる。
ところで、分析手段は、音声データにおける発声のタイミングに関するタイミングパラメータを音声パラメータとして導出してもよい。この場合、発声スタイルデータには、発声スタイルの特徴を表す少なくとも1つの音声パラメータとして、タイミングパラメータが含まれていてもよい。
このような音声合成装置によれば、タイミングパラメータを音声パラメータとして導出できる。これにより、音声合成装置によれば、利用者の発声スタイルに近い発声スタイルの合成音(模範ボーカル)となるようにタイミングパラメータを修正できる。
さらに、音声合成装置における分析手段は、歌詞が割り当てられた音符である特定音符において発声を開始すべき発声開始タイミングと、音声データにおいて特定音符それぞれの発声開始時刻との差分の代表値であるタメ時間を、タイミングパラメータとして導出してもよい。
このような音声合成装置によれば、発声開始タイミングと発声開始時刻との差分の代表値であるタメ時間をタイミングパラメータとして導出できる。このようなタイミングパラメータを用いて発声スタイルを特定することで、「ため」などの歌唱技巧を発声スタイルの一例として特定できる。
なお、本発明の他の態様は、取得手順と、分析手順と、スタイル特定手順と、修正手順と、合成手順とをコンピュータに実行させるプログラムであってもよい。
取得手順では、対象楽曲の演奏中に入力された音声の波形を表す音声データを取得する。分析手順では、音声データを分析し、音声特徴量を導出する。
スタイル特定手順では、発声スタイルデータに音声特徴量を照合した結果、類似度が最も高い発声スタイルデータに対応する発声スタイルを、音声データにおける発声スタイルとして特定する。修正手順では、模範ボーカルの音声合成に必要なパラメータとして予め規定された基準パラメータを、特定された発声スタイルにおける音声パラメータに近づけるように修正する。さらに、合成手順では、修正された音声パラメータを用いて音声合成した合成音を出力する。
このように、本発明がプログラムとしてなされていれば、記録媒体から必要に応じてコンピュータにロードさせて起動することや、必要に応じて通信回線を介してコンピュータに取得させて起動することにより用いることができる。そして、コンピュータに各手順を実行させることで、そのコンピュータを音声合成装置として機能させることができる。
なお、ここで言う記録媒体には、例えば、DVD−ROM、CD−ROM、ハードディスク等のコンピュータ読み取り可能な電子媒体を含む。
音声合成システムの概略構成を示すブロック図である。 発声スタイルデータを例示する説明図である。 再生処理の処理手順を示すフローチャートである。 ピッチ遷移分析の処理概要を例示する説明図である。 設定変更の概要を示す説明図である。
以下、本発明の実施形態を図面と共に説明する。
<音声合成システム>
図1に示す音声合成システム1は、利用者が指定した楽曲(以下、対象楽曲と称す)の模範ボーカルを音声合成にて生成して出力するシステムである。ここで言う模範ボーカルとは、対象楽曲における歌詞を当該歌詞が割り当てられた音符の音高及び音符長で歌唱した音声である。
音声合成システム1は、情報処理サーバ10と、カラオケ装置30とを備えている。
情報処理サーバ10には、少なくとも、MIDI楽曲MDが格納されている。
カラオケ装置30は、情報処理サーバ10に記憶され、かつ対象楽曲に対応するMIDI楽曲MDを演奏する。さらに、カラオケ装置30は、その楽曲を歌唱した合成音声を音源データPDに従って生成し、模範ボーカルとして出力する。なお、音声合成システム1は、複数のカラオケ装置30を備えている。
<MIDI楽曲>
MIDI楽曲MDは、楽曲ごとに予め用意されたデータであり、楽曲データと、歌詞データと、楽曲情報とを有している。
このうち、楽曲データは、周知のMIDI(Musical Instrument Digital Interface)規格によって、一つの楽曲の楽譜を表したデータである。この楽曲データは、楽譜を表す楽譜トラックを少なくとも有している。その楽譜トラックには、少なくとも、楽曲の主旋律を表す主旋律楽譜トラックと、主旋律以外の旋律である副旋律を表す副旋律楽譜トラックとを含む。
これらの楽譜トラックには、MIDI音源から出力される個々の演奏音について、少なくとも、音高(いわゆるノートナンバー)と、MIDI音源が演奏音を出力する期間(以下、音符長と称す)とが規定されている。楽譜トラックにおける音符長は、当該演奏音のノートオンタイミングと、当該演奏音のノートオフタイミングとによって規定されている。
一方、歌詞データは、楽曲の歌詞に関するデータであり、歌詞テキストデータと、歌詞出力データとを備えている。歌詞テキストデータは、楽曲の歌詞を構成する文字(以下、歌詞構成文字とする)を表す。歌詞出力データは、歌詞構成文字の出力タイミングである歌詞出力タイミングを、楽曲データの演奏と対応付けるタイミング対応関係が規定されたデータである。このタイミング対応関係においては、楽曲の主旋律を構成する演奏音(即ち、音符)のうちの少なくとも一部の音符に歌詞構成文字を割り当てることが規定されている。ここで言う「少なくとも一部の音符」とは、前奏や間奏を除くという意味を含むものである。したがって、歌詞構成文字は、例えば、Aメロや、Bメロ、サビなどのフレーズごとに、当該フレーズを構成する演奏音に割り当てられている。
楽曲情報は、楽曲に関する情報(例えば、楽曲名、アーティスト名など)であり、楽曲を識別する識別情報(即ち、楽曲ID)を含む。
<情報処理サーバ>
情報処理サーバ10は、通信部12と、記憶部14と、制御部16とを備えている。
このうち、通信部12は、通信網を介して、情報処理サーバ10が外部との間で通信を行う。すなわち、情報処理サーバ10は、通信網を介してカラオケ装置30と接続されている。なお、ここで言う通信網は、有線による通信網であっても良いし、無線による通信網であっても良い。
記憶部14は、記憶内容を読み書き可能に構成された周知の記憶装置である。この記憶部14には、複数のMIDI楽曲MDが記憶される。なお、図1に示す符号「n」は、情報処理サーバ10の記憶部14に記憶されているMIDI楽曲MDを識別する識別子であり、楽曲ごとに割り当てられている。この符号「n」は、1以上の自然数である。
制御部16は、ROM18,RAM20,CPU22を備えた周知のマイクロコンピュータを中心に構成された周知の制御装置である。ROM18は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを記憶する。RAM20は、処理プログラムやデータを一時的に記憶する。CPU22は、ROM18やRAM20に記憶された処理プログラムに従って各処理を実行する。
<カラオケ装置>
カラオケ装置30は、通信部32と、入力受付部34と、楽曲再生部36と、記憶部38と、音声制御部40と、映像制御部46と、制御部50とを備えている。
通信部32は、通信網を介して、カラオケ装置30が外部との間で通信を行う。入力受付部34は、外部からの操作に従って情報や指令の入力を受け付ける入力機器である。ここでの入力機器とは、例えば、キーやスイッチ、リモコンの受付部などである。
楽曲再生部36は、情報処理サーバ10からダウンロードしたMIDI楽曲MDに基づく楽曲の演奏を実行する。この楽曲再生部36は、例えば、MIDI音源である。音声制御部40は、音声の入出力を制御するデバイスであり、出力部42と、マイク入力部44とを備えている。
マイク入力部44には、マイク62が接続される。これにより、マイク入力部44は、マイク62を介して入力された音声を取得する。出力部42は、楽曲再生部36によって再生される楽曲の音源信号、マイク入力部44からの歌唱音の音源信号をスピーカ60に出力する。スピーカ60は、出力部42から出力される音源信号を音に換えて出力する。
映像制御部46は、制御部50から送られてくる映像データに基づく映像または画像の出力を行う。映像制御部46には、映像または画像を表示する表示部64が接続されている。
記憶部38は、記憶内容を読み書き可能に構成された周知の記憶装置である。この記憶部38には、音源データPDが格納される。この音源データPDは、合成音声の生成(即ち、音声合成)に必要となるデータである。本実施形態における音源データPDは、フォルマント合成に用いる各種パラメータである。
さらに、記憶部38には、再生処理にて用いる発声スタイルデータSDが格納されている。この発声スタイルデータSDは、図2に示すように、発声スタイルのそれぞれでの歌唱における代表的な音声パラメータを予め規定したものである。ここで言う発声スタイルとは、例えば「演歌」,「ロック」,「ポップス」などの音楽のジャンル(歌唱スタイル)であっても良いし、楽曲におけるその他の特徴であってもよい。
さらに、ここで言う音声パラメータとは、音声の特徴を表す特徴量である。この特徴量として、詳しくは後述する「タメ時間」、「音高変化微分(開始)」、「音高変化微分(終了)」、「音高一致度」、「ビブラート周波数」、「ビブラート深さ」、「ビブラート開始時刻」、「音量平均」、「音量微分平均」、「スペクトル変動指数」を含む。
制御部50は、ROM52,RAM54,CPU56を少なくとも有した周知のコンピュータを中心に構成されている。ROM52は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを記憶する。RAM54は、処理プログラムやデータを一時的に記憶する。CPU56は、ROM52やRAM54に記憶された処理プログラムに従って各処理を実行する。
本実施形態のROM52には、再生処理を制御部50が実行するための処理プログラムが記憶されている。
<再生処理>
この再生処理は、対象楽曲の再生順序となると起動される。
そして、再生処理が起動されると、図3に示すように、制御部50は、まず、対象楽曲の識別番号(楽曲ID)を取得する(S110)。続いて、制御部50は、S110で取得した楽曲IDを含むMIDI楽曲MDを情報処理サーバ10から取得する(S120)。さらに、S120では、制御部50は、取得したMIDI楽曲MDに含まれる楽曲データに基づいて、対象楽曲の再生を実行する。
続いて、再生処理では、制御部50は、対象フレーズの演奏中にマイク62を介して入力された音声を音声データとして取得する(S130)。ここで言う対象フレーズとは、MIDI楽曲MDにおける再生中のフレーズである。このフレーズとは、例えば、Aメロ,Bメロ,サビなどである。
そして、制御部50は、S130で取得した音声データを音響分析する(S140)。このS140における音響分析では、制御部50は、周波数スペクトル推移、基本周波数推移、及び音圧推移を導出する。周波数スペクトル推移の導出では、制御部50は、まず、予め規定された単位時間の分析窓を、互いに隣接かつ少なくとも一部が重複するように音声データに対して設定する。そして、音響分析では、制御部50は、音声データの分析窓それぞれについて、周波数解析(例えば、DFT)を実施する。この周波数解析を分析窓ごとに実行した結果を時間軸に沿って配置することで、周波数スペクトル推移を導出する。
また、基本周波数推移の導出方法の一例としては、設定された分析窓それぞれの音声データについて周波数解析(例えば、DFT)を実行し、自己相関の結果、最も強い周波数成分を基本周波数として導出することが考えられる。そして、このように導出した基本周波数を時間軸に沿って配置することで、基本周波数推移を導出することが考えられる。
さらに、音圧推移の導出方法の一例としては、分析窓ごとに、音声データの振幅を二乗した結果を、音圧として導出することが考えられる。そして、このように導出した音圧を時間軸に沿って配置することで、音圧推移を導出することが考えられる。
再生処理では、制御部50は、続いて、S120で取得したMIDI楽曲に基づいて、タメ分析を実行する(S150)。このS150では、具体的には、音声データにおける発声開始タイミングと、MIDI楽曲MDにおけるノートオンタイミングとの時間差分を対応する音符ごとに算出し、その算出した時間差分を、対象とする区間(例えば、対象フレーズ)での平均を算出する。そして、対象とする区間毎の時間差分の平均を集計し、その集計の結果、最頻値となる時間差分の平均値よりも大きな時間差分を、歌唱技巧としての「タメ」を用いた際の発声の遅れ時間として特定する。さらに、それらの特定された発声の遅れ時間の平均値を「タメ時間」として特定する。
なお、音声データにおける発声開始タイミングの特定方法としては、周知の手法を用いればよい。具体的には音声データの音圧の推移において、その音圧が閾値以上となるタイミングを発声開始タイミングとして特定すればよい。
次に、再生処理では、制御部50は、「音高変化微分(開始)」、「音高変化微分(終了)」を導出するピッチ遷移分析を実行する(S160)。ここで言う「音高変化微分(開始)」、「音高変化微分(終了)」とは、それぞれ、音高遷移音符群における音高の移行区間において、音高の変化が開始される変化開始タイミング、及び音高の変化が終了される変化終了タイミングでの、音声データの基本周波数の時間推移における傾きである。なお、音高遷移音符群とは、連続する音符であり、かつ互いの音高が異なる音符の組である。
具体的に、本実施形態のS160では、制御部50は、図4に示すように、基本周波数の時間推移の中から、一つの時間窓における基本周波数(以下、第1探索音高と称す)を抽出する。そして、第1探索音高に対応する時間窓よりも時間軸に沿って前のN個分の時間窓における基本周波数の平均値に対する、第1探索音高の変化率が、規定された第1比率以上となる時間窓を変化開始タイミングとする。なお、ここで言う第1比率とは、音高遷移音符群を構成する音符間の音高差に対して規定されたものであり、例えば、αパーセントであってもよい。
また、基本周波数の時間推移の中から、一つの時間窓における基本周波数(以下、第2探索音高と称す)を抽出する。そして、第2探索音高に対応する時間窓よりも時間軸に沿って後のN個分の時間窓における基本周波数の平均値に対する、第2探索音高の変化率が、規定された第2比率未満となる時間窓を変化終了タイミングとする。なお、ここで言う第2比率とは、音高遷移音符群を構成する音符間の音高差に対して規定されたものであり、例えば、βパーセントであってもよい。
さらに、本実施形態のS160では、変化開始タイミングにおける第1探索音高の変化率、変化終了タイミングにおける第2探索音高の変化率のそれぞれを、「音高変化微分(開始)」、「音高変化微分(終了)」として導出する。
さらに、再生処理では、制御部50は、「音高一致度」、「ビブラート周波数」、「ビブラート深さ」、「ビブラート開始時刻」を導出する音符音高変化分析を実行する(S170)。
このS170における音符音高変化分析では、制御部50は、各音符の音高に対する基本周波数推移の一致度の平均値を「音高一致度」として導出する。ここで言う一致度は、半音単位で算出してもよい。
また、S170における「ビブラート周波数」、「ビブラート深さ」、「ビブラート開始時間」の特定方法としては、周知の方法を用いればよい。「ビブラート周波数」、「ビブラート深さ」、「ビブラート開始時間」の特定方法の一例として、特開2010−085655号公報に記載された方法を用いてもよい。
なお、ここで言う「ビブラート周波数」は、ビブラートを用いて歌唱された音声データの区間における基本周波数の振動周期の逆数である。「ビブラート深さ」は、ビブラートを用いて歌唱された音声データの区間における基本周波数の周波数軸に沿った振れ幅を表す。「ビブラート開始時間」は、音声データにおいて、ビブラートを用いて歌唱されたタイミングである。
さらに、再生処理では、制御部50は、「音量平均」、「音量微分平均」を導出する音符内音量変化分析を実行する(S180)。このS180の音符内音量変化分析では、S140で導出した音圧推移において、音符内での音圧の平均値を「音量平均」として導出する。さらに、S180の音符内音量変化分析では、S140で導出した音圧推移において、音符内での微分値の平均値を「音量微分平均」として導出する。
続いて、再生処理では、制御部50は、「スペクトル変動指数」を導出する音符内スペクトル変化分析を実行する(S190)。このS190における音符内スペクトル変化分析では、制御部50は、音符内のスペクトル包絡に関して、隣接する分析窓間全てに対して相関関数を算出する。そして、制御部50は、その相関関数の絶対値の平均値を、歌唱済みの区間で平均した値を「スペクトル変動指標」として算出する。
そして、再生処理では、制御部50は、S150〜S190で導出した音声パラメータに基づいて、S130で取得した音声データの発声スタイルを特定する(S200)。本実施形態のS200では、制御部50は、まず、「タメ時間」、「音高変化微分(開始)」、「音高変化微分(終了)」、「音高一致度」、「ビブラート周波数」、「ビブラート深さ」、「ビブラート開始時刻」、「音量平均」、「音量微分平均」、「スペクトル変動指数」によって表される歌唱特徴量ベクトルを算出する。そして、記憶部38に格納されている発声スタイルデータSDのそれぞれに、歌唱特徴量ベクトルを照合する。
さらに、S200では、制御部50は、発声スタイルデータSDに含まれる音声パラメータの基準特徴量ベクトルと、歌唱特徴量ベクトルとのコサイン距離を算出する。そして、図5に示すように、制御部50は、コサイン距離が最短となる発声スタイルデータSDを、利用者にとって最適な歌唱スタイルを表す発声スタイルデータSDとして特定する。以下、S200にて特定された発声スタイルデータSDを、最適発声スタイルデータと称す。
さらに、再生処理では、制御部50は、S120で取得したMIDI楽曲を修正する(S210)。このS120における修正の対象は、ノートオンタイミング、及びノートオフタイミングである。例えば、S210では、最適発声スタイルデータに含まれる「タメ時間」に近似するように、S120で取得したMIDI楽曲に含まれる音符のノートオンタイミング及びノートオフタイミングを変更する。さらに、S210では、例えば、「音量平均」、「音量微分平均」が、最適発声スタイルデータに含まれる値に近似するように設定する。
続いて、制御部50は、最適発声スタイルデータに含まれる音声パラメータで、模範ボーカルデータが生成されるように、音声合成に用いる合成パラメータを設定する(S230)。ここで言う模範ボーカルとは、MIDI楽曲MDに含まれる歌詞データを主旋律に沿って正確に歌唱した波形データである。この模範ボーカルの生成に必要が合成パラメータとして、基準パラメータが予め規定されている。
そしてS220では、制御部50は、例えば、模範ボーカルデータにおける「音高変化微分(開始)」、「音高変化微分(終了)」、「スペクトル変動指数」のそれぞれが、最適発声スタイルデータに含まれる「音高変化微分(開始)」、「音高変化微分(終了)」、「スペクトル変動指数」に近似するように合成パラメータを設定する(即ち、基準パラメータを修正する)。さらに、S230では、制御部50は、模範ボーカルデータにおけるにおける「音高一致度」、「ビブラート周波数」、「ビブラート深さ」、「ビブラート開始時刻」のそれぞれが、最適発声スタイルデータに含まれる「音高一致度」、「ビブラート周波数」、「ビブラート深さ」、「ビブラート開始時刻」に近似するように合成パラメータを設定する(即ち、基準パラメータを修正する)。
再生処理では、制御部50は、S220で設定された合成パラメータで音声合成を実行し合成音を生成して出力する(S230)。このS230で出力された合成音は、スピーカ60を介して放音される。すなわち、S230で生成された合成音が、模範ボーカルデータとなる。
その後、制御部50は、本再生処理を終了し、次の楽曲の演奏が開始されるまで待機する。
本実施形態においては、再生処理を実行することで、カラオケ装置30が、特許請求の範囲に記載された音声合成装置として機能する。
[実施形態の効果]
以上説明したように、カラオケ装置30によれば、利用者の発声スタイルに近い発声スタイルの合成音による模範ボーカルを出力できる。この結果、カラオケ装置30によれば、模範ボーカルと歌唱音声との間の乖離を小さくでき、その歌唱が上手くないように聞こえることを低減できる。
つまり、カラオケ装置30によれば、ユーザ自身の歌唱スタイルに合った模範ボーカルを音声合成して出力できる。これにより、カラオケ装置30によれば、利用者が違和感を覚えることを低減できる。
換言すれば、カラオケ装置30によれば、模範ボーカルと歌唱音声との乖離を可能な限り抑制しつつ、利用者に違和感を与えることを低減できる。
特に、再生処理においては、「音高変化微分(開始)」、「音高変化微分(終了)」、「音高一致度」、「ビブラート周波数」、「ビブラート深さ」、「ビブラート開始時刻」などを音声パラメータとして導出して、発声スタイルデータSDに照合している。これにより、再生処理によれば、利用者の発声スタイルに近い発声スタイルの合成音(模範ボーカル)となるように、音声における周波数に関する特徴量を修正できる。
また、再生処理においては、「音高変化微分(開始)」、「音高変化微分(終了)」を音声パラメータとして導出できる。このような音声パラメータを用いて発声スタイルを特定することで、「しゃくり」などの歌唱技巧を発声スタイルの一例として特定できる。
さらに、再生処理では、「タメ時間」を音声パラメータとして導出している。これによい、再生処理によれば、歌唱技巧としての「ため」を発声スタイルの一例として特定できる。さらに言えば、カラオケ装置30によれば、利用者の発声スタイルに近い発声スタイルの合成音(模範ボーカル)となるように「タメ時間」を修正でき、歌唱技巧としての「ため」を最適発声スタイルデータによって表される「ため」に近づけることができる。
[その他の実施形態]
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。
例えば、上記実施形態の再生処理のS210では、最適発声スタイルデータに近似する合成音が生成されるようにMIDI楽曲を修正していたが、このS210は、省略されていてもよい。
また、上記実施形態における音源データPDは、フォルマント合成に用いる各種パラメータであったが、本発明における音源データPDは、いわゆる素片接続に用いる音声素片であってもよい。すなわち、素片接続によって、音声合成を実現してもよい。
なお、上記実施形態の構成の一部を省略した態様も本発明の実施形態である。また、上記実施形態と変形例とを適宜組み合わせて構成される態様も本発明の実施形態である。また、特許請求の範囲に記載した文言によって特定される発明の本質を逸脱しない限度において考え得るあらゆる態様も本発明の実施形態である。
また、本発明は、前述した音声合成装置の他、音声合成を実行するためにコンピュータが実行するプログラム、音声合成を実行する音声合成の方法等、種々の形態で実現することができる。
[実施形態と特許請求の範囲との対応関係]
最後に、上記実施形態の記載と、特許請求の範囲の記載との関係を説明する。
上記実施形態の再生処理におけるS130を実行することで得られる機能が、特許請求の範囲に記載された取得手段の一例であり、S140〜S190を実行することで得られる機能が、特許請求の範囲に記載された分析手段の一例である。そして、再生処理におけるS200を実行することで得られる機能が、特許請求の範囲に記載されたスタイル特定手段の一例であり、S220を実行することで得られる機能が、特許請求の範囲に記載された修正手段の一例である。
さらに、再生処理におけるS230を実行することで得られる機能が、特許請求の範囲に記載された合成手段の一例である。
1…音声合成システム 10…情報処理サーバ 12…通信部 14…記憶部 16,50…制御部 18,52…ROM 20,54…RAM 22,56…CPU 30…カラオケ装置 32…通信部 34…入力受付部 36…楽曲再生部 38…記憶部 40…音声制御部 42…出力部 44…マイク入力部 46…映像制御部 60…スピーカ 62…マイク 64…表示部

Claims (7)

  1. 複数の音符のうちの少なくとも一部に歌詞が割り当てられた楽曲であり、かつ、指定された楽曲である対象楽曲の演奏中に入力された音声の波形を表す音声データを取得する取得手段と、
    前記取得手段で取得した音声データを分析し、予め規定された少なくとも1つの音声パラメータを含む音声特徴量を導出する分析手段と、
    発声の態様を表す発声スタイルごとに、当該発声スタイルの特徴を表す少なくとも1つの音声パラメータを規定した発声スタイルデータに、前記分析手段で導出した音声特徴量を照合した結果、類似度が最も高い発声スタイルデータに対応する発声スタイルを、前記音声データにおける発声スタイルとして特定するスタイル特定手段と、
    前記対象楽曲における歌詞を歌唱した模範ボーカルの音声合成に必要なパラメータとして予め規定された基準パラメータを、前記スタイル特定手段で特定された発声スタイルにおける音声パラメータに近づけるように修正する修正手段と、
    前記修正手段で修正された音声パラメータを用いて音声合成した合成音を出力する合成手段と
    を備えることを特徴とする音声合成装置。
  2. 前記分析手段は、
    前記音声データの周波数に関するパラメータである周波数パラメータを前記音声パラメータとして導出し、
    前記発声スタイルデータには、前記発声スタイルの特徴を表す少なくとも1つの音声パラメータとして、前記周波数パラメータが含まれる
    ことを特徴とする請求項1に記載の音声合成装置。
  3. 前記対象楽曲には、時間軸に沿って隣接する2つの音符であって、互いに音高が異なる2つの音符が含まれ、
    前記分析手段は、
    前記2つの音符における音高の移行区間において、音高の変化が開始される開始タイミング、及び音高の変化が終了される終了タイミングでの、前記音声データにおける音高推移の傾きを、前記周波数パラメータとして導出する
    ことを特徴とする請求項2に記載の音声合成装置。
  4. 前記分析手段は、
    前記歌詞が割り当てられた音符に対応する前記音声データの区間における周波数、その周波数の深さ、及び周波数スペクトルの包絡のうちの少なくとも1つを、前記周波数パラメータとして導出する
    ことを特徴とする請求項2又は請求項3に記載の音声合成装置。
  5. 前記分析手段は、
    前記音声データにおける発声のタイミングに関するタイミングパラメータを前記音声パラメータとして導出し、
    前記発声スタイルデータには、前記発声スタイルの特徴を表す少なくとも1つの音声パラメータとして、前記タイミングパラメータが含まれる
    ことを特徴とする請求項1から請求項4までのいずれか一項に記載の音声合成装置。
  6. 前記分析手段は、
    前記歌詞が割り当てられた音符である特定音符において発声を開始すべき発声開始タイミングと、前記音声データにおいて前記特定音符それぞれの発声開始時刻との差分の代表値であるタメ時間を、前記タイミングパラメータとして導出する
    ことを特徴とする請求項5に記載の音声合成装置。
  7. 複数の音符のうちの少なくとも一部に歌詞が割り当てられた楽曲であり、かつ、指定された楽曲である対象楽曲の演奏中に入力された音声の波形を表す音声データを取得する取得手順と、
    前記取得手順で取得した音声データを分析し、予め規定された少なくとも1つの音声パラメータを含む音声特徴量を導出する分析手順と、
    発声の態様を表す発声スタイルごとに、当該発声スタイルの特徴を表す少なくとも1つの音声パラメータを規定した発声スタイルデータに、前記分析手順で導出した音声特徴量を照合した結果、類似度が最も高い発声スタイルデータに対応する発声スタイルを、前記音声データにおける発声スタイルとして特定するスタイル特定手順と、
    前記対象楽曲における歌詞を歌唱した模範ボーカルの音声合成に必要なパラメータとして予め規定された基準パラメータを、前記スタイル特定手順で特定された発声スタイルにおける音声パラメータに近づけるように修正する修正手順と、
    前記修正手順で修正された音声パラメータを用いて音声合成した合成音を出力する合成手順とを
    コンピュータに実行させることを特徴とするプログラム。
JP2015062816A 2015-03-25 2015-03-25 音声合成装置、及びプログラム Active JP6260565B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015062816A JP6260565B2 (ja) 2015-03-25 2015-03-25 音声合成装置、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015062816A JP6260565B2 (ja) 2015-03-25 2015-03-25 音声合成装置、及びプログラム

Publications (2)

Publication Number Publication Date
JP2016183998A true JP2016183998A (ja) 2016-10-20
JP6260565B2 JP6260565B2 (ja) 2018-01-17

Family

ID=57243013

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015062816A Active JP6260565B2 (ja) 2015-03-25 2015-03-25 音声合成装置、及びプログラム

Country Status (1)

Country Link
JP (1) JP6260565B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109903773A (zh) * 2019-03-13 2019-06-18 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法、装置及存储介质
CN111402842A (zh) * 2020-03-20 2020-07-10 北京字节跳动网络技术有限公司 用于生成音频的方法、装置、设备和介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08328573A (ja) * 1995-05-29 1996-12-13 Sanyo Electric Co Ltd カラオケ装置及び音声再生装置及びこれに使用する記録媒体
JP2003323188A (ja) * 2002-02-28 2003-11-14 Yamaha Corp 歌唱合成方法、歌唱合成装置及び歌唱合成用プログラム
JP2009244790A (ja) * 2008-03-31 2009-10-22 Daiichikosho Co Ltd 歌唱指導機能を備えるカラオケシステム
JP2009244789A (ja) * 2008-03-31 2009-10-22 Daiichikosho Co Ltd ガイドボーカル生成機能を備えるカラオケシステム
JP2014048472A (ja) * 2012-08-31 2014-03-17 Brother Ind Ltd カラオケ用音声合成システム,及びパラメータ抽出装置
JP2016014781A (ja) * 2014-07-02 2016-01-28 ヤマハ株式会社 歌唱合成装置および歌唱合成プログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08328573A (ja) * 1995-05-29 1996-12-13 Sanyo Electric Co Ltd カラオケ装置及び音声再生装置及びこれに使用する記録媒体
JP2003323188A (ja) * 2002-02-28 2003-11-14 Yamaha Corp 歌唱合成方法、歌唱合成装置及び歌唱合成用プログラム
JP2009244790A (ja) * 2008-03-31 2009-10-22 Daiichikosho Co Ltd 歌唱指導機能を備えるカラオケシステム
JP2009244789A (ja) * 2008-03-31 2009-10-22 Daiichikosho Co Ltd ガイドボーカル生成機能を備えるカラオケシステム
JP2014048472A (ja) * 2012-08-31 2014-03-17 Brother Ind Ltd カラオケ用音声合成システム,及びパラメータ抽出装置
JP2016014781A (ja) * 2014-07-02 2016-01-28 ヤマハ株式会社 歌唱合成装置および歌唱合成プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109903773A (zh) * 2019-03-13 2019-06-18 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法、装置及存储介质
CN111402842A (zh) * 2020-03-20 2020-07-10 北京字节跳动网络技术有限公司 用于生成音频的方法、装置、设备和介质
CN111402842B (zh) * 2020-03-20 2021-11-19 北京字节跳动网络技术有限公司 用于生成音频的方法、装置、设备和介质

Also Published As

Publication number Publication date
JP6260565B2 (ja) 2018-01-17

Similar Documents

Publication Publication Date Title
US9847078B2 (en) Music performance system and method thereof
JP6060867B2 (ja) 情報処理装置,データ生成方法,及びプログラム
JP5598516B2 (ja) カラオケ用音声合成システム,及びパラメータ抽出装置
JP6260565B2 (ja) 音声合成装置、及びプログラム
JP6406273B2 (ja) カラオケ装置,及びプログラム
JP6098422B2 (ja) 情報処理装置、及びプログラム
JP6252420B2 (ja) 音声合成装置、及び音声合成システム
JP5782972B2 (ja) 情報処理システム,プログラム
JP6358018B2 (ja) カラオケ装置、及びプログラム
JP6075314B2 (ja) プログラム,情報処理装置,及び評価方法
JP6056799B2 (ja) プログラム、情報処理装置、及びデータ生成方法
JP6252517B2 (ja) 音声合成装置、及びプログラム
JP6365483B2 (ja) カラオケ装置,カラオケシステム,及びプログラム
JP6399715B1 (ja) 歌唱支援装置および、カラオケ装置
JP6406182B2 (ja) カラオケ装置、及びカラオケシステム
JP5983670B2 (ja) プログラム、情報処理装置、及びデータ生成方法
JP6011506B2 (ja) 情報処理装置,データ生成方法,及びプログラム
JP5569307B2 (ja) プログラム、及び編集装置
JP2004061753A (ja) 歌唱音声を合成する方法および装置
JP6281447B2 (ja) 音声合成装置,及び音声合成システム
JP2010085655A (ja) 音域特定システム、プログラム
JP6252408B2 (ja) 表示制御装置,及び表示制御システム
JP6260499B2 (ja) 音声合成システム、及び音声合成装置
JP6365561B2 (ja) カラオケシステム、カラオケ装置、及びプログラム
JP5549651B2 (ja) 歌詞出力データ修正装置,及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171025

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171127

R150 Certificate of patent or registration of utility model

Ref document number: 6260565

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150