JP5953743B2 - 音声合成装置及びプログラム - Google Patents

音声合成装置及びプログラム Download PDF

Info

Publication number
JP5953743B2
JP5953743B2 JP2011286728A JP2011286728A JP5953743B2 JP 5953743 B2 JP5953743 B2 JP 5953743B2 JP 2011286728 A JP2011286728 A JP 2011286728A JP 2011286728 A JP2011286728 A JP 2011286728A JP 5953743 B2 JP5953743 B2 JP 5953743B2
Authority
JP
Japan
Prior art keywords
data
pitch
unit
speech
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011286728A
Other languages
English (en)
Other versions
JP2013134476A (ja
Inventor
治 大島
治 大島
資司 永田
資司 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2011286728A priority Critical patent/JP5953743B2/ja
Publication of JP2013134476A publication Critical patent/JP2013134476A/ja
Application granted granted Critical
Publication of JP5953743B2 publication Critical patent/JP5953743B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Auxiliary Devices For Music (AREA)

Description

本発明は、音声合成装置及びプログラムに関する。
歌詞等の文字列、並びに複数の音符(以下「音符列」という)の音高および音長がデータとして入力されると、その文字列および音に応じて、歌唱音の音声を合成する音声合成装置が知られている(例えば特許文献1)。また、このような装置において、歌唱者の歌唱音声から音声の特徴を抽出し、抽出した特徴を用いて合成音声を編集する技術が提案されている(例えば特許文献2)。
特開2006−259768号公報 特開2009−217141号公報
ところで、上述のような音声合成装置において、自分の意図どおりに合成音声の編集がなされたか確認するためには、ユーザは、歌唱音声を入力した後で、合成された音声を再生する必要があった。この場合、音声から抽出された特徴を用いて合成音声を生成するためには各種の複雑な処理を行う必要があるが、このような処理は処理負荷が大きく処理に時間を要する。そのため、ユーザは合成音声を再生されるまで待機する必要があり、合成音声の編集処理を円滑に行えない場合があった。
本発明は上述の背景に鑑みてなされたものであり、音声から抽出される特徴(属性)を用いて合成音声を生成する装置において、生成される合成音声の確認を容易に行うことのできる技術を提供することを目的とする。
上述した課題を解決するために、本発明は、音声データのピッチ及び音量を含む属性を示す属性データを受け取る受取部と、前記受取部が受け取った属性データに基づいて合成音声を生成する音声合成部と、前記音声合成部が合成音声を生成する前に、前記受取部が受け取った属性データの示すピッチ及び音量に基づいて周期性を有する音信号を生成する音信号生成部であって、前記音声合成部が合成音声を生成する処理よりも短時間の処理によって周期性を有する音信号を生成する音信号生成部とを具備することを特徴とする音声合成装置を提供する。
本発明の好ましい態様において、歌詞を示す歌詞データと、該歌詞との対応付けがなされた楽譜データとを受け取る第2の受取部と、前記受取部が受け取った属性データの示すピッチと前記第2の受取部が受け取った楽譜データとの対応付けを行い、該対応付け結果に基づいて前記歌詞データと前記ピッチを表すピッチデータとの対応付けを行う対応付け部とを具備し、前記音声合成部は、前記受取部が受け取った属性データ並びに前記対応付け部により対応付けがなされた歌詞データ及びピッチデータに基づいて、合成音声を生成してもよい。
また、本発明の更に好ましい態様において、前記音声データを、ピッチ及び音量を含む属性について解析し、解析結果を示す属性データを前記受取部に供給する音声解析部を具備してもよい。
また、本発明は、コンピュータに、音声データのピッチ及び音量を含む属性を示す属性データを受け取る受取機能と、前記受け取った属性データに基づいて合成音声を生成する音声合成機能と、前記音声合成機能が合成音声を生成する前に、前記受け取った属性データの示すピッチ及び音量に基づいて周期性を有する音信号を生成する音信号生成機能であって、前記音声合成機能が合成音声を生成する処理よりも短時間の処理によって周期性を有する音信号を生成する音信号生成機能とを実現させるためのプログラムを提供する。
本発明によれば、音声から抽出される特徴(属性)を用いて合成音声を生成する装置において、生成される合成音声の確認を容易に行うことができる。
音声合成装置のハードウェア構成の一例を表すブロック図 歌唱スコアデータの内容の一例を示す図 表示部に表示される画面の一例を示す図 音声合成装置の機能的構成の一例を示すブロック図 制御部が行う処理の流れを示すフロー図
<実施形態>
<構成>
図1は、本発明の実施形態に係る音声合成装置100のハードウェア構成の一例を示すブロック図である。音声合成装置100は、文字列及び音素列を含む楽譜データに基づいて音声を合成し、合成した音声を出力する装置である。音声合成装置100は、制御部10、記憶部20、操作部30、表示部40、音声処理部60、マイクロホン61、及びスピーカ62を有し、これら各部がバス70を介して接続されている。制御部10は、CPU(Central Processing Unit)、RAM(Random Access Memory)、及びROM(Read Only Memory)等を有している。制御部10において、CPUが、ROMや記憶部20に記憶されているコンピュータプログラムを読み出しRAMにロードして実行することにより、音声合成装置100の各部を制御する。操作部30は、各種の操作子を備え、ユーザによる操作内容を表す操作信号を制御部10に出力する。表示部40は、例えば液晶パネルを備え、制御部10による制御の下、各種の画像を表示する。
マイクロホン61は、収音した音声を表すアナログの音声信号を音声処理部60に出力する。音声処理部60は、A/D(Analog / Digital)コンバータを有し、マイクロホン61が出力したアナログの音声信号をデジタルの音声データに変換して制御部10に出力し、制御部10はこれを取得する。また、音声処理部60は、D/A(Digital / Analog)コンバータを有し、制御部10から受け取ったデジタルの音声データをアナログの音声信号に変換してスピーカ62に出力する。スピーカ62は、音声処理部60から受け取ったアナログの音声信号に基づく音を放音する。なお、この実施形態では、マイクロホン61とスピーカ62とが音声合成装置100に含まれている場合について説明するが、音声処理部60に入力端子及び出力端子を設け、オーディオケーブルを介してその入力端子に外部マイクロホンを接続する構成としても良く、同様に、オーディオケーブルを介してその出力端子に外部スピーカを接続するとしても良い。また、この実施形態では、マイクロホン61からスピーカ62へ出力されるオーディオ信号がアナログオーディオ信号である場合について説明するが、デジタルオーディオデータを入出力するようにしても良い。このような場合には、音声処理部60にてA/D変換やD/A変換を行う必要はない。操作部30や表示部40についても同様であり、外部出力端子を設け、外部モニタを接続する構成としてもよい。
記憶部20は、各種のデータを記憶するための記憶手段であり、例えばHDDや不揮発性メモリである。記憶部20は、図示のように、Timbreデータベース21と、音韻テンプレートデータベース22と、歌唱スコアデータ記憶領域23と、歌唱音声データ記憶領域24と、解析結果データ記憶領域25とを有している。Timbreデータベース21は、音韻名、ピッチを異にする各音声パラメータを集めたデータベースである。このデータベースは、制御部10が歌唱スコアデータから音声合成を行う際に参照するデータベースである。音声パラメータは、例えば、励起波形スペクトルのエンベロープ、励起レゾナンス、フォルマント、差分スペクトルの4つに分類することが出来る。これらの4つの音声パラメータは、実際の人間の音声等(オリジナルの音声)を分析して得られる調和成分のスペクトル・エンベロープ(オリジナルのスペクトル)を分解することにより得られるものである。ある時刻における音声は音声パラメータ(励起スペクトル、励起レゾナンス、フォルマント、差分スペクトルのセット)で表現でき、同じ音声でもピッチが異なればこれを表現する音声パラメータも異なる。このTimbreデータベース21は、インデックスとして音韻名、ピッチを持つ。従って、制御部10は、歌唱スコアデータの音韻トラック及びピッチトラックに属するデータをキーとして、ある時刻tにおける音声パラメータを読み出すことができる。
音韻テンプレートデータベース22は、音韻テンプレートデータを格納している。この音韻テンプレートデータは、上記歌唱スコアデータにおける音韻と音韻との遷移区間に適用するデータである。人間が2つの音韻を連続して発する場合には、突然変化するのではなくゆるやかに移行していく。例えば「あ」という母音の後に区切りを置かないで連続して「え」という母音を発音する場合には、最初に「あ」が発音され、「あ」と「え」の中間に位置する発音を経て「え」に変化する。したがって、音韻の結合部分が自然になるように歌唱合成を行うには、ある言語において組み合わせ可能な音韻の組み合わせについて、渇仰部分の音声情報を何らかの形で持つことが好ましい。これを考慮し、音韻が遷移する区間における、音声パラメータとピッチの変動量をテンプレートデータとして準備し、歌唱スコアデータにおける音韻の遷移区間にこのテンプレートデータを適用することによって、より実際の歌唱に近い音声の合成を実現する。
この音韻テンプレートデータは、時刻tの関数として表された音声パラメータPとピッチの変動量Pitchとを一定時間Δt間隔でサンプリングしたデジタル値のシーケンスと、音声パラメータPとピッチPitchの区間長T(sec.)の組により構成されるものであり、以下の式(A)により表すことができる。なお、以下の式(A)において、t=0、Δt、2Δt、3Δt、…Tである。
[数1]
Template = [P(t),Pitch(t),T] …(A)
次に、歌唱スコアデータ記憶領域23には、音素の列で構成されるメロディを表す歌唱スコアデータであって、各音素の特徴(各音素の発音タイミング、ピッチの時間的な変化、各音素の音韻等)を表す属性データ(音韻データ、発音タイミングデータ、ピッチデータ等)を含む歌唱スコアデータが記憶される。
図2は、歌唱スコアデータの内容の一例を示す概念図である。この歌唱スコアデータは、音韻トラックと、ピッチトラックとの複数のトラックによって構成されている。音韻トラックには、音韻を表す音韻データと、それぞれの音韻の発音開始タイミングと発音終了タイミングとを示す発音タイミングデータとが記録される。具体的には、例えば、図2に示す例では、「さ」の音韻の音素が時刻t1から時刻t2の間で発音され、「い」の音韻の音素が時刻t2から時刻t3の間で発音される旨が示されている。なお、以下では、説明の便宜上、「発音開始タイミング」と「発音終了タイミング」とを各々区別する必要がない場合には、これらを「発音タイミング」と称して説明する。ピッチトラックには、各時刻において発音すべき音声の基本周波数(ピッチ)の時間的な変化を示すピッチデータが記録される。
この歌唱スコアデータは、記憶部20の歌唱スコアデータ記憶領域23に予め記憶しておくようにしてもよく、また、ユーザの操作に応じて制御部10が所定のアプリケーションプログラムを実行することによって生成するようにしてもよい。歌唱スコアデータは、歌詞を示す歌詞データ及び該歌詞との対応付けがなされた楽譜データの一例である。
図3は、制御部10が歌唱スコアデータ生成処理を行う場合において、表示部40に表示される画面の一例を示す図である。制御部10は、図3に例示するような画面を表示して、ユーザに歌唱スコアデータの入力を促す。図において、歌唱スコアデータ編集画面600は、ノートデータをピアノロール形式で表示するイベント表示領域601を備えている。イベント表示領域601の右側には、イベント表示領域601の表示画面を上下にスクロールするためのスクロールバー606が設けられている。イベント表示領域601の下側には、イベント表示領域601の表示画面を左右にスクロールするためのスクロールバー607が設けられている。
イベント表示領域601の左側にはピアノの鍵盤を模した鍵盤表示602(ピッチを示す座標軸)が表示され、イベント表示領域601の上側には楽曲の先頭からの小節位置を示す小節表示604が表示される。603はピアノロール表示領域であり、鍵盤表示602で示されるピッチの小節表示604で示される時間位置にノートデータを横長の矩形(バー)で表示している。バーの左端位置は発声開始タイミングを示し、バーの長さは発声継続時間を示し、バーの左端位置は発声終了タイミングを示している。
ユーザは、所望のピッチ及び時間位置に対応した表示画面上の位置にマウスポインタを移動してクリックし、発声開始位置を特定する。そして、ドラッグ操作により発声開始位置から発声終了位置に至るノートデータのバー(以下「ノートバー」という)をイベント表示領域601に形成し、その後、マウスをドロップする。例えば、ノートバー611を形成するためには、第53小節目の第1拍目の先頭の位置にマウスポインタを位置決めしてマウスをクリックし、1拍後までドラッグすればよい。
ユーザは、上述のようにして、表示部40に表示される画面を確認しつつ操作部30を用いて歌唱スコアデータを入力する。制御部10は、操作部30から出力される信号に応じて歌唱スコアデータを生成し、生成した歌唱スコアデータを歌唱スコアデータ記憶領域23に記憶する。
次に、記憶部20の歌唱音声データ記憶領域24には、例えばWAVE形式やMP3(MPEG Audio Layer-3)形式等の音声波形を表す音声データであって、ユーザが歌唱した歌唱音声を表す音声データ(以下「歌唱音声データ」という)が記憶される。解析結果データ記憶領域25には、制御部10が歌唱音声データを複数の属性について解析した解析結果を示す解析結果データ(属性データ)が記憶される。この実施形態では、制御部10は、歌唱音声データを解析して音声のピッチ、パワー及びスペクトルを検出し、検出結果を示すデータを解析結果データとして、解析結果データ記憶領域25に記憶する。
次に、図4に示すブロック図を参照しながら、音声合成装置100の機能的構成の一例について説明する。図4において、音声合成部11、解析部12、歌唱スコアデータ修正部13及び確認音生成部14は、制御部10のCPUが、ROMや記憶部20に記憶されているコンピュータプログラムを読み出しRAMにロードして実行することにより実現される。制御部10のCPUは、音声合成部11、解析部12、歌唱スコアデータ修正部13、確認音生成部14の一例である。音声合成部11は、歌唱スコアデータ記憶領域23から歌唱スコアデータを読み出し、読み出した歌唱スコアデータから、その歌唱スコアデータに対応する音声波形を表す音声波形データを生成する。より具体的には、この実施形態では、音声合成部11は、歌唱スコアデータに含まれるピッチデータ、発音タイミングデータ、音韻データ等を参照して、ピッチと音韻に対応する音声パラメータを、音韻テンプレートデータベース22を参照してTimbreデータベース21から読み出し、読み出した音声パラメータを用いてデジタル音声波形データを生成する。なお、音声合成部11は、歌唱合成の開始・停止、テンポ指定等の各種の制御処理を行うが、これらの処理は従来の歌唱合成技術におけるそれと同様であり、ここではその詳細な説明を省略する。なお、以下では、説明の便宜上、歌唱スコアデータから生成される音声波形データを「合成音声データ」と称して説明する。
この音声合成部11で生成された合成音声データの表す合成音声は、機械的で不自然な場合がある。また、不自然でない場合であっても、ユーザが所望する歌い方(抑揚等)に修正したい場合がある。そこで、本実施形態では、制御部10は、ユーザによる歌唱音声を入力し、この歌唱音声を用いて合成音声データを修正する処理を行う。
解析部12は、歌唱音声データを、ピッチを含む複数の属性について解析し、解析結果を示す解析結果データを出力する。この実施形態では、解析部12は、音声データを解析し、音声データのピッチ、パワー及びスペクトルを検出する。スペクトルの検出には、例えばFFT(Fast Fourier Transform)が用いられる。解析部12は、解析結果を示すデータを解析結果データ記憶領域25に記憶する。
歌唱スコアデータ修正部13は、解析結果データに基づいて歌唱スコアデータに含まれるピッチデータと発音タイミングデータとを修正する。歌唱スコアデータ修正部13は、解析結果データを受け取る受取部131と、歌唱スコアデータ(歌詞データと楽譜データ)を受け取る第2の受取部132と、受取部131が受け取った解析結果データと第2の受取部132が受け取った歌唱スコアデータとの対応付けを行い、この対応付け結果に基づいて歌詞データとピッチデータとの対応付けを行う対応付け部133とを有する。より具体的には、まず、対応付け部133は、歌唱スコアデータと解析結果データとに基づいて、合成音声とユーザ歌唱音声との対応関係を求める。歌唱音声データの表す音声(以下「歌唱音声」)と合成音声データの表す音声(以下「合成音声」)とは時間的にずれている可能性がある。例えば、ユーザが歌い始めや歌い終わりを意図的にずらして歌唱した場合などは、歌唱音声と合成音声とは時間的に前後にずれている。このように歌唱音声と合成音声とが時間的に前後にずれている場合であっても、両者を対応付けられるようにするため、合成音声データの時間軸を伸縮させる時間正規化(DTW:Dynamic Time Warping)を行い、両者の時間軸を合わせる。このDTWを行うための手法としては、この実施形態ではDP(Dynamic programming:動的計画法)を用いてもよい。
対応付け部133は、検出した差異を元に歌唱スコアデータの修正を行う。より具体的には、対応付け部133は、合成音声データと歌唱音声データとの差異をなくす方向に、歌唱スコアデータを構成するピッチデータと発音タイミングデータとを修正する。ピッチについては、対応付け部133は、歌唱音声データのピッチ、合成音声データのピッチ、歌唱音声と合成音声の対応箇所に基づいて、歌唱スコアデータに含まれるピッチデータの値を、歌唱音声データのピッチとそのピッチに対応する合成音声のピッチとの差分が小さくなるように修正する。なお、この処理における修正量は、例えば、合成音声のピッチが歌唱音声のピッチと一致するようにピッチデータの値を修正するようにしてもよく、また、例えば、両者の差分が検出された差分の略半分となるように修正するようにしてもよい。また、歌唱音声のピッチと合成音声のピッチとの差分が予め定められた閾値以下となるように修正するようにしてもよい。要は、対応付け部133が、合成音声のピッチと歌唱音声のピッチとの差分が小さくなるように、歌唱スコアデータに含まれるピッチデータの値を修正するようにすればよい。
また、対応付け部133は、歌唱スコアデータに含まれる発音タイミングデータの値を、歌唱音声データから検出された発音タイミングと合成音声データから検出された発音タイミングとの差分が小さくなるように修正する。なお、この修正量も、上述のピッチの修正と同様であり、合成音声の発音タイミングが歌唱音声の発音タイミングと一致するように発音タイミングデータの値を修正するようにしてもよい。対応付け部133は、各属性データを修正した歌唱スコアデータによって歌唱スコアデータ記憶領域23の記憶内容を更新する。歌唱スコアデータ記憶領域23に記憶された歌唱スコアデータは、音声合成部11が音声合成処理を行う際に参照される。
ところで、ユーザが歌唱音声を入力してから、入力された歌唱音声によって修正された合成音声が再生されるまでには、上述した歌唱スコアデータ修正部13及び音声合成部11による処理が必要となる。このとき、歌唱スコアデータ修正部13及び音声合成部11が行う処理はある程度の処理時間を要するため、ユーザは処理が終わるまで待機する必要がある。ユーザが合成音声の修正を繰り返し行う場合には、修正後の音声を確認するためには修正を行う毎にその都度待機する必要があり、合成音声の編集処理がスムーズに行われない場合がある。そのため本実施形態では、ユーザによる操作に応じて解析結果データの示すピッチに基づいた音信号(以下「確認音信号」という)を確認音生成部14によって生成して出力し、入力音声の解析結果の確認を容易にしている。
確認音生成部14は、解析部12によって生成された解析結果データを受け取り、受け取った解析結果データの示すピッチに基づいて、周期性を有する確認音信号を生成する。この実施形態では、確認音生成部14は、解析結果データの示すピッチに対応する周波数の正弦波を生成する。確認音生成部14は、生成した確認音信号を音声処理部60に供給し、生成した確認音信号に応じた音(以下「確認音」という)をスピーカ62から放音させる。
<動作>
図5は、音声合成装置100が行う合成音声の修正処理の流れを示すフロー図である。操作部30を介してユーザにより合成音声の編集指示がされると(ステップS100;Yes)、制御部10は、まず、歌唱音声が入力されるのを待機する(ステップS102;No)。ユーザによって歌唱音声が入力されると(ステップS102;Yes)、入力された歌唱音声を解析し、解析結果を示す解析結果データを生成する(ステップS104)。
次いで、制御部10は、ユーザの操作に応じて、確認音を再生するか否かを判断する(ステップS106)。この処理は、制御部10が、例えば、表示部40に確認音を生成するためのボタンを表示し、このボタンがクリックされた場合に確認音を再生すると判断するようにしてもよい。確認音を再生しないと判断された場合は(ステップS106;NO)、制御部10は、ステップS108の処理を行うことなくステップS110の処理へ進む。一方、確認音を再生すると判断された場合は(ステップS106;YES)、制御部10は、解析結果データの示すピッチに基づいて周期性を有する確認音信号を生成し(ステップS108)、生成した確認音信号の表す音をスピーカ62から放音させる。
音声の解析結果は、微妙なピッチの変化があるため、その微妙な変化が実際どのような音なのかは実際の音を聴いてみないと把握し難い場合がある。ステップS108において再生される確認音は、最終的に生成される合成音声ではないものの、生成される合成音声のピッチが表された音であるから、ユーザは、この再生される音を聴くことで、どのような音声が生成されるかを直感的に把握することができる。このとき、確認音を生成する処理(すなわち確認音生成部14が行う処理)は、合成音声を生成する処理(すなわち上述した歌唱スコアデータ修正部13及び音声合成部11が行う処理)と比して計算量が少なく、短時間で処理が行われるため、ユーザは、音声の解析結果を確認するためにいちいち待機する必要がない。
図5の説明に戻る。ユーザは、合成音声を生成するか、それとも歌唱音声を入力し直すかを選択することができる。ユーザは、操作部30を操作して合成音声を生成するかを選択し、制御部10は、ユーザの操作に応じて、合成音声を生成するか否かを判断する(ステップS110)。合成音声を生成すると判断された場合は(ステップS110;Yes)、制御部10は、上述の歌唱スコアデータ修正部13及び音声合成部11の処理を行って、合成音声データを生成する(ステップS112)。すなわち、制御部10は、解析結果データに基づいて歌唱スコアデータを修正するとともに、修正された歌唱スコアデータから、Timbreデータベース21及び音韻テンプレートデータベース22を参照して、合成音声データを生成する。一方、歌唱音声を入力し直すと判断された場合は(ステップS112;No)、制御部10は、ステップS100の処理に戻り、修正指示の入力を待機する。
<変形例>
以上の実施形態は次のように変形可能である。尚、以下の変形例は適宜組み合わせて実施しても良い。
<変形例1>
上述の実施形態では、制御部10は、確認音として、解析結果データの示すピッチに応じた周波数の正弦波を生成したが、制御部10が生成する確認音信号はこれに限らず、例えば、解析結果データの示すピッチに対応する周波数及び解析結果データの示す音量(パワー)に対応する振幅の正弦波を生成するようにしてもよい。また、例えば、制御部10が、解析結果データの示すピッチに対応する周波数の正弦波に対して予め定められた変調処理を施して波形を歪ませてもよい。また、例えば、制御部10が、解析結果データの示すピッチに対応する周波数成分と、その周波数成分の2倍音、3倍音といった特定の倍音の成分とを合成した音信号を、確認音信号として用いてもよい。また、例えば、制御部10が、以下の式(B)を用いて、解析結果の示すピッチに対応する周波数成分のn倍音までの倍音成分F0を合成して確認音信号を生成してもよい。なお、以下の式(B)において、POWはパワー、aは定数又は歌唱音声データの解析結果であるスペクトルのピーク情報からフォルマントを模した値を示す。aが定数である場合には鼻歌のような確認音信号が生成され、aとしてフォルマントを模した値を用いる場合には、ユーザの歌唱音声に似た確認音信号が生成される。
[数2]
Σsin(n・F0)*(a・POW) …(B)
このように、確認音信号は、解析結果データの示すピッチに対応する周波数の正弦波であってもよく、また、例えば、解析結果データの示すピッチに対応する周波数成分とその倍音成分とを合成した音信号であってもよく、要は、制御部10が、解析結果データの示すピッチに基づいて、周期性を有する音信号を生成すればよい。また、上述の実施形態では、確認音信号として正弦波を用いたが、確認音信号はこれに限らず、例えば、三角波や矩形波等の単純な波形の音信号であってもよい。また、周知の楽器音合成等の技術を用いて、楽器の音色を表す確認音信号を生成してもよい。確認音信号は、歌唱音声データの解析結果を示す解析結果データに基づいて生成される音信号であって処理負荷の軽い処理により生成されるものであればどのようなものであってもよい。
<変形例2>
上述の実施形態では、制御部10が、歌唱スコアデータに含まれるピッチデータと発音タイミングデータとを修正するようにしたが、修正する属性データはこれに限らない。例えば、制御部10が、音質・声質の差分を検出し、音質・声質を修正するようにしてもよい。この場合は、歌唱スコアデータに、音質や声質を示す音質データや声質データを含める構成とし、制御部10が、歌唱音声データと合成音声データとからフォルマントを検出し、検出したフォルマントの差分が小さくなるように、音質データや声質データを修正するようにしてもよい。
このように、制御部10が修正する音声の属性を表す属性データは、上述した実施形態で示したピッチの時間的な変化を示すピッチデータや発音タイミングデータであってもよく、また、音韻データや音質データ、声質データであってもよい。また、他の例として、例えば、音のベロシティ(強弱)を表すデータや、ビブラートの態様を表すデータであってもよい。このように、制御部10が修正する属性データは、音声の属性を表すものであればどのようなものであってもよい。
また、上述の実施形態では、制御部10が、歌唱音声データの解析結果を基に歌唱スコアデータを修正する態様について説明したが、これに限らず、歌唱音声データの解析結果そのものを歌唱スコアデータとして音声合成を行ってもよい。
また、上述の実施形態では、制御部10は、歌唱音声データを、ピッチを含む複数の属性について解析し、解析結果を示す解析結果データを生成したが、制御部10が解析する属性は複数に限らず、ピッチのみを解析し、解析したピッチを示す属性データを生成してもよい。
<変形例3>
上述の実施形態では、制御部10は、歌唱スコアデータを歌唱スコアデータ記憶領域23から読み出すようにしたが、音声合成部11が歌唱スコアデータを取得する態様はこれに限らず、例えば、インターネット等の通信ネットワークを介して歌唱スコアデータを受信するようにしてもよく、また、例えば、ユーザが操作部30を用いて歌唱スコアデータを入力するための操作を行い、制御部10が操作部30から出力される信号に応じて歌唱スコアデータを生成するようにしてもよく、制御部10が歌唱スコアデータを取得するものであればどのようなものであってもよい。
また、上述の実施形態では、歌詞データ及び楽譜データとして歌唱スコアデータを用いたが、歌詞データ及び楽譜データの構造は、上述した実施形態で例示したものに限定されない。音符と歌詞との対応関係、および音符の属性を特定できるものであれば、どのような構造のデータが用いられてもよい。また、実施形態において歌詞(文字列)と楽譜データとが別のデータセットである例を説明したが、歌詞は楽譜データの一部であってもよい。
また、音声合成処理の詳細は、実施形態で説明したものに限定されない。音符と発音記号(文字)とが与えられたときに、その音符および発音記号に応じた音声を合成するものであれば、どのような処理が用いられてもよい。
また、上述の実施形態では、歌唱音声を入力し直すことによって合成音声を修正する構成とした(図5のステップS112〜ステップS102参照)が、合成音声の修正の態様はこれに限定されるものではなく、例えば、ユーザが操作部30を用いて歌唱スコアデータを修正するための操作を行い、制御部10が、操作部30の操作内容に応じて歌唱スコアデータを修正するようにしてもよい。
また、上述の実施形態では、制御部10は、歌唱者の歌唱音声を解析したが、歌唱者の歌唱音声に代えて、演奏者による楽器の演奏音を評価してもよい。本実施形態にいう「音声」には、人間が発生した音声や楽器の演奏音といった種々の音響が含まれる。
<変形例4>
上述の実施形態では、制御部10が、歌唱音声データを解析し、解析結果を示す解析結果データを生成したが、制御部10が解析結果データを生成するに限らず、他の装置(例えば、通信ネットワークで接続されたサーバ装置、等)から解析結果を取得する構成であってもよい。なお、この場合、制御部10が取得する解析結果データは、ピッチを含む複数の属性を示すデータであってもよく、また、ピッチのみを示すデータであってもよい。
<変形例5>
音声合成装置100のハードウェア構成は、図1で説明したものに限定されない。図4に示される機能を実装できるものであれば、音声合成装置100はどのようなハードウェア構成を有していてもよい。例えば、音声合成装置100は、図4に示される機能要素の各々に対応する専用のハードウェア(回路)を有していてもよい。
<変形例6>
上述の実施形態において、通信ネットワークで接続された2以上の装置が、上記実施形態の音声合成装置100に係る機能を分担するようにし、それら複数の装置を備えるシステムが同実施形態の音声合成装置100を実現するようにしてもよい。例えば、マイクロホンやスピーカ、表示装置及び操作部等を備えるコンピュータ装置と、音声の解析処理を行うサーバ装置とが通信ネットワークで接続されたシステムとして構成されていてもよい。この場合は、例えば、コンピュータ装置が、マイクロホンで収音された音声をオーディオ信号に変換してサーバ装置に送信し、サーバ装置が、受信したオーディオ信号を解析し、解析結果をコンピュータ装置に送信してもよい。
<変形例7>
本発明は、音声合成装置以外にも、これらを実現するための方法や、コンピュータに音声合成機能を実現させるためのプログラムとしても把握される。かかるプログラムは、これを記憶させた光ディスク等の記録媒体の形態で提供されたり、インターネット等を介して、コンピュータにダウンロードさせ、これをインストールして利用させるなどの形態でも提供されたりする。
10…制御部、20…記憶部、21…Timbreデータベース、22…音韻テンプレートデータベース、23…歌唱スコアデータ記憶領域、24…歌唱音声データ記憶領域、25…解析結果データ記憶領域、30…操作部、40…表示部、60…音声処理部、61…マイクロホン、62…スピーカ、70…バス、100…音声合成装置

Claims (4)

  1. 音声データのピッチ及び音量を含む属性を示す属性データを受け取る受取部と
    記受取部が受け取った属性データに基づいて合成音声を生成する音声合成部と
    前記音声合成部が合成音声を生成する前に、前記受取部が受け取った属性データの示すピッチ及び音量に基づいて周期性を有する音信号を生成する音信号生成部であって、前記音声合成部が合成音声を生成する処理よりも短時間の処理によって周期性を有する音信号を生成する音信号生成部と
    を具備することを特徴とする音声合成装置。
  2. 歌詞を示す歌詞データと、該歌詞との対応付けがなされた楽譜データとを受け取る第2の受取部と、
    前記受取部が受け取った属性データの示すピッチと前記第2の受取部が受け取った楽譜データとの対応付けを行い、該対応付け結果に基づいて前記歌詞データと前記ピッチを表すピッチデータとの対応付けを行う対応付け部と
    を具備し、
    前記音声合成部は、前記受取部が受け取った属性データ並びに前記対応付け部により対応付けがなされた歌詞データ及びピッチデータに基づいて、合成音声を生成する
    ことを特徴とする請求項1に記載の音声合成装置。
  3. 前記音声データを、ピッチ及び音量を含む属性について解析し、解析結果を示す属性データを前記受取部に供給する音声解析部
    を具備することを特徴とする請求項1又は2に記載の音声合成装置。
  4. コンピュータに、
    音声データのピッチ及び音量を含む属性を示す属性データを受け取る受取機能と
    記受け取った属性データに基づいて合成音声を生成する音声合成機能と
    前記音声合成機能が合成音声を生成する前に、前記受け取った属性データの示すピッチ及び音量に基づいて周期性を有する音信号を生成する音信号生成機能であって、前記音声合成機能が合成音声を生成する処理よりも短時間の処理によって周期性を有する音信号を生成する音信号生成機能と
    を実現させるためのプログラム。
JP2011286728A 2011-12-27 2011-12-27 音声合成装置及びプログラム Active JP5953743B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011286728A JP5953743B2 (ja) 2011-12-27 2011-12-27 音声合成装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011286728A JP5953743B2 (ja) 2011-12-27 2011-12-27 音声合成装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2013134476A JP2013134476A (ja) 2013-07-08
JP5953743B2 true JP5953743B2 (ja) 2016-07-20

Family

ID=48911167

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011286728A Active JP5953743B2 (ja) 2011-12-27 2011-12-27 音声合成装置及びプログラム

Country Status (1)

Country Link
JP (1) JP5953743B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6184296B2 (ja) * 2013-10-31 2017-08-23 株式会社第一興商 カラオケのガイドボーカル生成装置及びガイドボーカル生成方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07210186A (ja) * 1994-01-11 1995-08-11 Fujitsu Ltd 音声登録装置
JP2007256349A (ja) * 2006-03-20 2007-10-04 Oki Electric Ind Co Ltd 音声データ収録システムおよび音声データ収録方法
JP2009053522A (ja) * 2007-08-28 2009-03-12 Panasonic Electric Works Co Ltd 音声出力装置
JP5136128B2 (ja) * 2008-03-12 2013-02-06 ヤマハ株式会社 音声合成装置

Also Published As

Publication number Publication date
JP2013134476A (ja) 2013-07-08

Similar Documents

Publication Publication Date Title
KR100949872B1 (ko) 악곡 연습 지원 장치, 악곡 연습 지원 장치의 제어 방법, 악곡 연습 지원 장치를 제어하는 제어 방법을 컴퓨터로 실행시키는 프로그램을 기록한 컴퓨터로 읽을 수 있는 매체
JP5605066B2 (ja) 音合成用データ生成装置およびプログラム
TWI394142B (zh) 歌聲合成系統、方法、以及裝置
JP5949607B2 (ja) 音声合成装置
CN111418006B (zh) 声音合成方法、声音合成装置及记录介质
JP6728754B2 (ja) 発音装置、発音方法および発音プログラム
CN111418005B (zh) 声音合成方法、声音合成装置及存储介质
CN103187046A (zh) 显示控制装置及方法
JP5136128B2 (ja) 音声合成装置
JP4844623B2 (ja) 合唱合成装置、合唱合成方法およびプログラム
US20210350783A1 (en) Sound signal synthesis method, neural network training method, and sound synthesizer
JP5292702B2 (ja) 楽音信号生成装置及びカラオケ装置
KR101020557B1 (ko) 사용자 창조형 음악 콘텐츠 제작을 위한 악보 생성 장치 및그 방법
JP5953743B2 (ja) 音声合成装置及びプログラム
JP2013210501A (ja) 素片登録装置,音声合成装置,及びプログラム
JP6044284B2 (ja) 音声合成装置
JP5106437B2 (ja) カラオケ装置及びその制御方法並びにその制御プログラム
TWI377557B (en) Apparatus and method for correcting a singing voice
JP5810947B2 (ja) 発声区間特定装置、音声パラメータ生成装置、及びプログラム
JP6992894B2 (ja) 表示制御方法、表示制御装置およびプログラム
JP7124870B2 (ja) 情報処理方法、情報処理装置およびプログラム
JP7127682B2 (ja) 情報処理方法、情報処理装置およびプログラム
JP2022065554A (ja) 音声合成方法およびプログラム
JP2007225916A (ja) オーサリング装置、オーサリング方法およびプログラム
CN116324965A (zh) 信息处理方法、信息处理系统及程序

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141023

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151013

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151020

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160517

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160530

R151 Written notification of patent or utility model registration

Ref document number: 5953743

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313532

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350