JP2009217141A - 音声合成装置 - Google Patents

音声合成装置 Download PDF

Info

Publication number
JP2009217141A
JP2009217141A JP2008062706A JP2008062706A JP2009217141A JP 2009217141 A JP2009217141 A JP 2009217141A JP 2008062706 A JP2008062706 A JP 2008062706A JP 2008062706 A JP2008062706 A JP 2008062706A JP 2009217141 A JP2009217141 A JP 2009217141A
Authority
JP
Japan
Prior art keywords
data
voice
singing
feature
singing score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008062706A
Other languages
English (en)
Other versions
JP5136128B2 (ja
Inventor
Takuro Sone
卓朗 曽根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2008062706A priority Critical patent/JP5136128B2/ja
Publication of JP2009217141A publication Critical patent/JP2009217141A/ja
Application granted granted Critical
Publication of JP5136128B2 publication Critical patent/JP5136128B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrophonic Musical Instruments (AREA)

Abstract

【課題】歌唱合成音をユーザが所望する態様に容易に修正することのできる技術を提供する。
【解決手段】音声合成装置1のCPU11は、メロディと歌詞を表す歌唱スコアデータから、データベースを参照して音声波形を表す合成音声データを生成する。CPU11は、生成した合成音声データと予め記憶された模範音声データとを比較し、両者の差分に応じて、歌唱スコアデータのピッチデータや発音タイミングデータを修正する。CPU11は、修正した歌唱スコアデータから、データベースを参照して合成音声データを生成し、生成した合成音声データの表す音声を放音する。
【選択図】図1

Description

本発明は、音声合成装置に関する。
メロディと歌詞を入力することで人の声を元にした歌声を合成する技術が提案されている。例えば、特許文献1には、スペクトルモデリング合成(SMS:Spectral Modeling Synthesis)と呼ばれる技術を用いて、音素又は2つ以上の音素連鎖についてSMS分析を行ってデータベースを生成し、必要な音素又は音素連鎖のSMSデータを接続することで歌唱音声を合成する技術が提案されている。また、特許文献2乃至5には、より自然な歌唱合成を行うための技術が提案されている。
特開2002−202790号公報 特開2002−202788号公報 特開2003−323188号公報 特開2004−264676号公報 特開2004−4440号公報
ところで、歌唱合成によって生成された歌唱合成音は、機械的で不自然なものとなってしまう場合がある。また、ユーザの嗜好に合わせて、歌唱合成音の抑揚や声質をユーザ自身で調整したい場合がある。そこで、歌唱合成音をユーザの所望する音声とするために、ユーザがパラメータ値を調整することで、ピッチベントやベロシティの調整、各種のエフェクト付与等を行うことが出来るものもある。
しかしながら、このようなパラメータ値の調整は経験則に依存することが多く、ユーザは、所望する歌唱合成音を得るために試行錯誤を重ねる必要がある。特に、不慣れなユーザは、所望する歌唱合成音に調整することが困難である場合が多い。
本発明は上述した背景の下になされたものであり、歌唱合成音をユーザが所望する態様に容易に修正することのできる技術を提供することを目的とする。
上記課題を解決するため、本発明は、音素の列で構成されるメロディを表す歌唱スコアデータであって、各音素の特徴を表す特徴データを含む歌唱スコアデータを取得する歌唱スコアデータ取得手段と、音声波形を表す第1の音声波形データを取得する第1の音声波形データ取得手段と、前記歌唱スコアデータ取得手段により取得された歌唱スコアデータから、該歌唱スコアデータに対応する音声波形を表す第2の音声波形データを生成する第2の音声波形データ生成手段と、前記第1の音声波形データと前記第2の音声波形データとを、時間軸方向に対応付ける対応付手段と、前記第1の音声波形データを解析し、解析結果に応じて前記特徴を検出する第1の特徴検出手段と、前記第2の音声波形データを解析し、解析結果に応じて前記特徴を検出する第2の特徴検出手段と、前記対応付手段の対応付結果に応じて、前記歌唱スコアデータ取得手段により取得された歌唱スコアデータに含まれる特徴データを、前記第1の特徴検出手段によって検出された前記第1の音声波形データの特徴と前記第2の特徴検出手段によって検出された前記第2の音声波形データの特徴との対応箇所における差分が小さくなるように修正する特徴データ修正手段と、前記特徴データ修正手段により修正された歌唱スコアデータから、該歌唱スコアデータに対応する音声波形を表す第3の音声波形データを生成する第3の音声波形データ生成手段と、前記第3の音声波形データ生成手段により生成された第3の音声波形データを出力する出力手段とを具備することを特徴とする音声合成装置を提供する。
本発明の好ましい態様において、前記特徴は、前記メロディを構成する各音素の発音タイミング、ピッチの時間的な変化、前記メロディを構成する各音素の音韻及び音声スペクトルの少なくともいずれか一つを含んでもよい。
また、本発明の更に好ましい態様において、前記特徴データ修正手段により修正された歌唱スコアデータが予め定められた条件を満たす場合に、該歌唱スコアデータを前記歌唱スコアデータ取得手段に供給する歌唱スコアデータ取得制御手段を具備してもよい。
また、本発明の更に好ましい態様において、前記歌唱スコアデータは、複数の時間区間に区分されるとともに、複数の時間区間の対応関係を示す区間対応データを含み、前記特徴データ修正手段は、前記複数の時間区間のうちの少なくともいずれかひとつの時間区間について、前記対応付手段の対応付結果に応じて、前記歌唱スコアデータ取得手段により取得された歌唱スコアデータに含まれる特徴データを、前記第1の特徴検出手段によって検出された前記第1の音声波形データの特徴と前記第2の特徴検出手段によって検出された前記第2の音声波形データの特徴との対応箇所における差分が小さくなるように修正するとともに、前記区間対応データに基づいて、該時間区間に対応する他の時間区間について、前記歌唱スコアデータに含まれる特徴データを、該時間区間における修正態様で修正してもよい。
また、本発明の更に好ましい態様において、前記第1の音声波形データ取得手段は、収音手段によって収音された音声を表す音声データを、前記第1の音声データとして取得してもよい。
また、本発明は、音声波形を表す第1の音声波形データを取得する第1の音声波形データ取得手段と、前記第1の音声波形データから音声の特徴を検出し、検出した特徴を示す特徴データを生成する特徴データ生成手段と、音素の列で構成されるメロディを表す歌唱スコアデータであって前記特徴データ生成手段により生成された特徴データを含む歌唱スコアデータを生成する歌唱スコアデータ生成手段と、前記歌唱スコアデータ生成手段により生成された歌唱スコアデータから、該歌唱スコアデータに対応する音声波形を表す第2の音声波形データを生成する第2の音声波形データ生成手段と、前記第2の音声波形データを出力する出力手段を具備することを特徴とする音声合成装置を提供する。
本発明の好ましい態様において、前記特徴は、前記メロディを構成する各音素の発音タイミング、ピッチの時間的な変化、前記メロディを構成する各音素の音韻及び音声スペクトルのうちの少なくともいずれか一つを含んでもよい。
本発明によれば、歌唱合成音をユーザが所望する態様に容易に修正することができる。
<A:構成>
図1は、この発明の一実施形態である音声合成装置1のハードウェア構成を例示したブロック図である。この音声合成装置1は、メロディと歌詞を表すデータ(以下「歌唱スコアデータ」)から、予め作成されたデータベースを用いて歌唱合成(音声合成)を行う装置である。図において、CPU(Central Processing Unit)11は、ROM(Read Only Memory)12又は記憶部14に記憶されているコンピュータプログラムを読み出してRAM(Random Access Memory)13にロードし、これを実行することにより、音声合成装置1の各部を制御する。記憶部14は、CPU11によって実行されるコンピュータプログラムや各種のデータを記憶する記憶手段であり、例えばハードディスク装置である。なお、記憶部14は、CD−ROM装置、光磁気ディスク(MO)装置、デジタル多目的ディスク(DVD)装置等であってもよい。表示部15は、液晶ディスプレイ等を備え、CPU11の制御の下で、音声合成装置1を操作するためのメニュー画面等の各種の画面を表示する。操作部16は、マウスやキーボードを備え、ユーザによって操作された内容に応じた信号を出力する。マイクロホン17は、収音し、収音した音声を表す音声信号(アナログ信号)を出力する。音声処理部18は、DACやADCを備え、マイクロホン17が出力する音声信号(アナログ信号)をA/D変換によりデジタルデータに変換してCPU11に出力する。また、音声処理部18は、CPU11から供給されるデジタルデータをD/A変換によりアナログ信号に変換してスピーカ19に供給する。スピーカ19は、音声処理部18から出力されるアナログ信号に応じた強度で放音する。
なお、この実施形態では、マイクロホン17とスピーカ19とが音声合成装置1に含まれている場合について説明するが、音声処理部18に入力端子及び出力端子を設け、オーディオケーブルを介してその入力端子に外部マイクロホンを接続する構成としても良い。同様に、オーディオケーブルを介してその出力端子に外部スピーカを接続するとしても良い。また、この実施形態では、マイクロホン17から音声処理部18へ入力されるオーディオ信号及び音声処理部18からスピーカ19へ出力されるオーディオ信号がアナログオーディオ信号である場合について説明するが、デジタルオーディオデータを入出力するようにしても良い。このような場合には、音声処理部18にてA/D変換やD/A変換を行う必要はない。表示部15についても同様であり、外部出力端子を設け、外部モニタを接続する構成としても良い。
記憶部14は、図示のように、Timbreデータベース141と、音韻テンプレートデータベース142と、歌唱スコアデータ記憶領域143と、修正後歌唱スコアデータ記憶領域144と、模範音声データ記憶領域145とを有している。Timbreデータベース141は、音韻名、ピッチを異にする各音声パラメータを集めたデータベースである。このデータベースは、CPU11が歌唱スコアデータから音声合成を行う際に参照するデータベースである。音声パラメータは、例えば、励起波形スペクトルのエンベロープ、励起レゾナンス、フォルマント、差分スペクトルの4つに分類することが出来る。これらの4つの音声パラメータは、実際の人間の音声等(オリジナルの音声)を分析して得られる調和成分のスペクトル・エンベロープ(オリジナルのスペクトル)を分解することにより得られるものである。ある時刻における音声は音声パラメータ(励起スペクトル、励起レゾナンス、フォルマント、差分スペクトルのセット)で表現でき、同じ音声でもピッチが異なればこれを表現する音声パラメータも異なる。このTimbreデータベース141は、インデックスとして音韻名、ピッチを持つ。従って、CPU11は、上記歌唱スコアデータの音韻トラック及びピッチトラックに属するデータをキーとして、ある時刻tにおける音声パラメータを読み出すことができる。
音韻テンプレートデータベース142は、音韻テンプレートデータを格納している。この音韻テンプレートデータは、上記歌唱スコアデータにおける音韻と音韻との遷移区間に適用するデータである。人間が2つの音韻を連続して発する場合には、突然変化するのではなくゆるやかに移行していく。例えば「あ」という母音の後に区切りを置かないで連続して「え」という母音を発音する場合には、最初に「あ」が発音され、「あ」と「え」の中間に位置する発音を経て「え」に変化する。したがって、音韻の結合部分が自然になるように歌唱合成を行うには、ある言語において組み合わせ可能な音韻の組み合わせについて、渇仰部分の音声情報を何らかの形で持つことが好ましい。これを考慮し、音韻が遷移する区間における、音声パラメータとピッチの変動量をテンプレートデータとして準備し、歌唱スコアデータにおける音韻の遷移区間にこのテンプレートデータを適用することによって、より実際の歌唱に近い音声の合成を実現する。
この音韻テンプレートデータは、時刻tの関数として表された音声パラメータPとピッチの変動量Pitchとを一定時間Δt間隔でサンプリングしたデジタル値のシーケンスと、音声パラメータPとピッチPitchの区間長T(sec.)の組により構成されるものであり、以下の式(A)により表すことができる。なお、以下の式(A)において、t=0、Δt、2Δt、3Δt、…Tである。
[数1]
Template = [P(t),Pitch(t),T] …(A)
次に、歌唱スコアデータ記憶領域143には、音素の列で構成されるメロディを表す歌唱スコアデータであって、各音素の特徴(各音素の発音タイミング、ピッチの時間的な変化、各音素の音韻等)を表す特徴データ(音韻データ、発音タイミングデータ、ピッチデータ等)を含む歌唱スコアデータが記憶される。
図2(a)は、歌唱スコアデータの内容の一例を示す概念図である。この歌唱スコアデータは、音韻トラックと、ピッチトラックとの複数のトラックによって構成されている。音韻トラックには、音韻を表す音韻データと、それぞれの音韻の発音開始タイミングと発音終了タイミングとを示す発音タイミングデータとが記録される。具体的には、例えば、図2(a)に示す例では、「さ」の音韻の音素が時刻t1から時刻t2の間で発音され、「い」の音韻の音素が時刻t2から時刻t3の間で発音される旨が示されている。なお、以下では、説明の便宜上、「発音開始タイミング」と「発音終了タイミング」とを各々区別する必要がない場合には、これらを「発音タイミング」と称して説明する。ピッチトラックには、各時刻において発音すべき音声の基本周波数(ピッチ)の時間的な変化を示すピッチデータが記録される。
この歌唱スコアデータは、記憶部14の歌唱スコアデータ記憶領域143に予め記憶しておくようにしてもよく、また、ユーザの操作に応じてCPU11が所定のアプリケーションプログラムを実行することによって生成するようにしてもよい。
図2(b)は、CPU11が歌唱スコアデータ生成処理を行う場合において、表示部15に表示される画面の一例を示す図である。CPU11は、図2(b)に例示するような画面を表示して、ユーザに歌唱スコアデータの入力を促す。図において、歌唱スコアデータ編集画面600は、ノートデータをピアノロール形式で表示するイベント表示領域601を備えている。イベント表示領域601の右側には、イベント表示領域601の表示画面を上下にスクロールするためのスクロールバー606が設けられている。イベント表示領域601の下側には、イベント表示領域601の表示画面を左右にスクロールするためのスクロールバー607が設けられている。
イベント表示領域601の左側にはピアノの鍵盤を模した鍵盤表示602(ピッチを示す座標軸)が表示され、イベント表示領域601の上側には楽曲の先頭からの小節位置を示す小節表示604が表示される。603はピアノロール表示領域であり、鍵盤表示602で示されるピッチの小節表示604で示される時間位置にノートデータを横長の矩形(バー)で表示している。バーの左端位置は発声開始タイミングを示し、バーの長さは発声継続時間を示し、バーの左端位置は発声終了タイミングを示している。
ユーザは、所望のピッチ及び時間位置に対応した表示画面上の位置にマウスポインタを移動してクリックし、発声開始位置を特定する。そして、ドラッグ操作により発声開始位置から発声終了位置に至るノートデータのバー(以下「ノートバー」という)をイベント表示領域601に形成し、その後、マウスをドロップする。例えば、ノートバー611を形成するためには、第53小節目の第1拍め先頭の位置にマウスポインタを位置決めしてマウスをクリックし、1泊後までドラッグすればよい。
ユーザは、上述のようにして、表示部15に表示される画面を確認しつつ操作部16を用いて歌唱スコアデータを入力する。CPU11は、操作部16から出力される信号に応じて歌唱スコアデータを生成し、生成した歌唱スコアデータを歌唱スコアデータ記憶領域143に記憶する。
次に、記憶部14の修正後歌唱スコアデータ記憶領域144には、CPU11が歌唱スコアデータに対して後述する歌唱スコアデータ修正処理を施すことによって生成される修正後歌唱スコアデータが記憶される。なお、CPU11が実行する歌唱スコアデータ修正処理については後述するため、ここではその詳細な説明を省略する。
次に、記憶部14の模範音声データ記憶領域145には、例えばWAVE形式やMP3(MPEG Audio Layer-3)形式等の音声波形を表す音声データであって、ユーザ等が歌唱した歌唱音声を表す音声データ(第1の音声波形データ)が記憶されている。なお、以下の説明では、説明の便宜上、模範音声データ記憶領域145に記憶された音声データを「模範音声データ」という。なお、この模範音声データは、ユーザの嗜好(好みの歌い方、好みの抑揚の付け方、等)に合った歌唱音声を表すデータであることが好ましい。
次に、図3に示すブロック図を参照しながら、音声合成装置1の機能的構成の一例について説明する。ROM12又は記憶部14に記憶された歌唱合成プログラムを実行することによって、CPU11は、歌唱合成部111、音声再生部112、歌唱比較部113、及び歌唱スコアデータ修正部114としての役割を担う。
歌唱合成部111は、歌唱スコアデータ記憶領域143から歌唱スコアデータを読み出し、読み出した歌唱スコアデータから、その歌唱スコアデータに対応する音声波形を表す音声波形データ(第2の音声波形データ)を生成する。より具体的には、この実施形態では、歌唱合成部111は、歌唱スコアデータに含まれるピッチデータ、発音タイミングデータ、音韻データ等を参照して、ピッチと音韻に対応する音声パラメータを、音韻テンプレートデータベース142を参照してTimbreデータベース141から読み出し、読み出した音声パラメータを用いてデジタル音声波形データを生成する。なお、歌唱合成部111は、歌唱合成の開始・停止、テンポ指定等の各種の制御処理を行うが、これらの処理は従来の歌唱合成技術におけるそれと同様であり、ここではその詳細な説明を省略する。なお、以下では、説明の便宜上、歌唱スコアデータから生成される音声波形データを「合成音声データ」と称して説明する。
この歌唱合成部111で生成された合成音声データの表す合成音声は、機械的で不自然な場合がある。また、不自然でない場合であっても、ユーザが所望する歌い方(抑揚等)に修正したい場合がある。そこで、本実施形態では、以下の歌唱スコアデータ修正部114で示す処理を行うことによって、この合成音声データを修正する。
音声再生部112は、模範音声データ記憶領域145に記憶された模範音声データを読み出し、読み出した模範音声データを再生する。歌唱比較部113は、模範音声データと歌唱音声データとを比較し、両者の歌唱タイミングのずれや音程及び音程変化(カーブ)のずれを検出し、検出した差分を表すデータを、歌唱スコアデータ修正部114に出力する。なお、図3に示す例において、実際には歌唱合成部111と音声再生部112とを同期して制御する機構や操作系が必要となるが、図が煩雑になるのを防ぐため図示を省略している。
ここで、歌唱比較部113が行う処理の詳細について、図面を参照しつつ以下に説明する。まず、歌唱比較部113は、模範音声データと合成音声データから、それぞれ所定時間長のフレーム単位で、各音声データのピッチ、パワー及びスペクトルを検出する。スペクトルの検出には、例えばFFT(Fast Fourier Transform)が用いられる。
また、歌唱比較部113は、検出したスペクトルに基づいて、両者の対応関係を求める。模範音声データの表す音声(以下「模範音声」)と合成音声データの表す音声(以下「合成音声」)とは時間的にずれている可能性がある。例えば、模範となる歌唱者が歌い始めや歌い終わりを意図的にずらして歌唱した場合などは、模範音声と合成音声とは時間的に前後にずれている。このように模範音声と合成音声とが時間的に前後にずれている場合であっても、両者を対応付けられるようにするため、合成音声データの時間軸を伸縮させる時間正規化(DTW:Dynamic Time Warping)を行い、両者の時間軸を合わせる。このDTWを行うための手法としては、この実施形態ではDP(Dynamic programming:動的計画法)を用いる。具体的には以下のような処理となる。
歌唱比較部113は、図4に示すような座標平面(以下、DPプレーンという)をRAM13に形成する。このDPプレーンの縦軸は、模範音声データの各フレームのスペクトルの絶対値の対数に逆フーリエ変換をかけて得られるパラメータに対応しており、横軸は、合成音声データの各フレームから得たスペクトルの絶対値の対数に逆フーリエ変換をかけて得られるパラメータ(ケプストラム)に対応している。図4において、a1、a2、a3・・・anは、模範音声データの各フレームを時間軸に従って並べたものであり、b1、b2、b3・・・bnは、合成音声データの各フレームを時間軸に従って並べたものである。縦軸のa1、a2、a3・・・anの間隔と横軸のb1、b2、b3・・・bnの間隔は、いずれもフレームの時間長と対応している。このDPプレーンにおける各格子点の各々には、a1、a2、a3・・・の各パラメータと、b1、b2、b3・・・の各パラメータのユークリッド距離を夫々示す値であるDPマッチングスコアが対応付けられている。例えば、a1とb1とにより位置決めされる格子点には、模範音声データの一連のフレームのうち最初のフレームから得たパラメータと合成音声データの一連のフレームのうち最初のフレームから得たパラメータのユークリッド距離を示す値が対応付けられることになる。歌唱比較部113は、このような構造を成すDPプレーンを形成した後、a1とb1とにより位置決めされる格子点(始端)からanとbnとにより位置決めされる格子点(終端)に至る全経路を探索し、探索した各経路毎に、その始端から終端までの間に辿る各格子点のDPマッチングスコアを累算して行き、最小の累算値を求める。このDPマッチングスコアの累算値が最も小さくなる経路は、合成音声データの各フレームの時間軸を模範音声データの時間軸に合わせて伸縮する際における伸縮の尺度として参酌される。
そして、歌唱比較部113は、DPマッチングスコアの累算値が最小となる経路をDPプレーン上から特定し、特定した経路の内容に応じて合成音声データの時間軸を伸縮する処理であるアライメント処理を行う。具体的には、DPプレーン上から特定された経路上の各格子点のDPマッチングスコアが時間軸上の位置を同じくするフレームから得たパラメータのユークリッド距離を表わすものとなるように、合成音声データの各フレームのタイムスタンプの内容を書き換えた上で、時間軸上の位置を同じくする各フレームを組として順次対応付けていく。例えば、図4に示すDPプレーン上に記された経路においては、a1とb1により位置決めされる始点からその右上のa2とb2により位置決めされる格子点に進んでいることが分かる。この場合、a2とb2のフレームの時間軸上の位置は当初から同じであるので、b2のフレームのタイムスタンプの内容を書き換える必要はない。更に、この経路においては、a2とb2により位置決めされる格子点からその右のa2とb3により位置決めされる格子点に進んでいることが分かる。この場合、b2のフレームだけでなくb3のフレームもa2のフレームと時間軸上の位置を同じくする必要があるので、b3のフレームと対を成していたタイムスタンプをフレーム一つ分だけ早いものと置き換える。この結果、a2のフレームとb2及びb3のフレームが時間軸上の位置を同じくするフレームの組として対応付けられることになる。このようなタイムスタンプの置き換えとフレームの対応付けがb1からbnに至る全フレーム区間について行われる。これにより、歌唱合成の発音タイミングと模範音声の発音タイミングとがずれていたとしても、合わせられた時間軸上の位置を同じくするフレーム(音素)どうしを対応付けることができる。以上がDPマッチングの仕組みである。
図5は、模範音声と合成音声との対応付けの一例を示す図である。図5(a)は合成音声のピッチの時間的変化を示すグラフの一例を示すものであり、同図(b)は模範音声のピッチの時間的変化を示すグラフの一例を示すものである。図においては、合成音声の発音タイミングt11と模範音声の発音タイミングt21とが対応付けられ、合成音声の発音タイミングt12と模範音声の発音タイミングt22とが対応付けられた様子を示している。
図3の説明に戻る。歌唱スコアデータ修正部114は、歌唱比較部113で検出した差異を元に歌唱スコアデータの修正を行う。より具体的には、歌唱スコアデータ修正部114は、合成音声データと模範音声データとの差異をなくす方向に、歌唱スコアデータを構成するピッチデータと発音タイミングデータとを修正する。ピッチについては、歌唱スコアデータ修正部114は、模範音声データのピッチ、合成音声データのピッチ、模範音声と合成音声の対応箇所に基づいて、歌唱スコアデータに含まれるピッチデータの値を、模範音声データのピッチとそのピッチに対応する合成音声のピッチとの差分が小さくなるように修正する。なお、この処理における修正量は、例えば、合成音声のピッチが模範音声のピッチと一致するようにピッチデータの値を修正するようにしてもよく、また、例えば、両者の差分が検出された差分の略半分となるように修正するようにしてもよい。また、模範音声のピッチと合成音声のピッチとの差分が予め定められた閾値以下となるように修正するようにしてもよい。要は、歌唱スコアデータ修正部114が、合成音声のピッチと模範音声のピッチとの差分が小さくなるように、歌唱スコアデータに含まれるピッチデータの値を修正するようにすればよい。
また、歌唱スコアデータ修正部114は、歌唱スコアデータに含まれる発音タイミングデータの値を、模範音声データから検出された発音タイミングと合成音声データから検出された発音タイミングとの差分が小さくなるように修正する。なお、この修正量も、上述のピッチの修正と同様であり、合成音声の発音タイミングが模範音声の発音タイミングと一致するように発音タイミングデータの値を修正するようにしてもよい。
図6は、修正された歌唱スコアデータの内容の一例を示す図である。図示のように、ピッチや各音韻の発音開始タイミング、発音終了タイミングが、模範音声に応じて修正される。
歌唱スコアデータ修正部114は、各特徴データを修正した歌唱スコアデータを、修正後歌唱スコアデータとして、修正後歌唱スコアデータ記憶領域144に記憶する。
<B:動作>
次に、この実施形態の動作について説明する。ユーザが操作部16を用いて歌唱スコアデータの修正を行う旨の操作を行うと、CPU11は、まず、操作部16から出力される信号に応じて、上述の歌唱合成部111の処理を行う。すなわち、CPU11は、歌唱スコアデータ記憶領域143に記憶された歌唱スコアデータから、Timbreデータベース141及び音韻テンプレートデータベース142を参照して、合成音声データを生成する。
次いで、CPU11は、上述した音声再生部112、歌唱比較部113の処理を行う。すなわち、CPU11は、模範音声データ記憶領域145から模範音声データを読み出して再生し、再生される模範音声データと合成音声データとを時間軸方向に対応付け、それぞれの音声の特徴(ピッチ、音素毎の発音タイミング、等)を検出し、比較する。
次いで、CPU11は、上述した歌唱スコアデータ修正部114の処理を行う。すなわち、CPU11は、比較結果に基づいて、歌唱スコアデータに含まれる特徴データを、模範音声と合成音声との差分が小さくなるように修正する。CPU11は、特徴データを修正した歌唱スコアデータを、修正後歌唱スコアデータとして、修正後歌唱スコアデータ記憶領域144に記憶する。
CPU11が歌唱スコアデータ修正処理を終えると、ユーザは、操作部16を用いて歌唱合成を行う旨の操作を行う。CPU11は、操作部16から出力される信号に応じて、修正後歌唱スコアデータ記憶領域144に記憶された歌唱スコアデータから、その歌唱スコアデータに対応する音声波形を表す合成音声データ(第3の音声波形データ)を生成する。なお、この処理は、上述した歌唱合成部111が行う処理と同様であり、ここではその詳細な説明を省略する。
CPU11は、生成した合成音声データを音声処理部18に供給してスピーカ19から音として放音させる。これにより、スピーカ19からは、模範音声に基づいて修正された歌唱スコアデータの表す音声が放音される。
以上説明したように本実施形態によれば、模範音声と合成音声の差を自動的に分析し、合成音声データを自動修正することにより、所望の品質の歌唱合成音声をより簡単に生成することができる。すなわち、本実施形態によれば、CPU11が、歌唱スコアデータから合成音声データを生成し、生成した合成音声データと実際の歌唱音声を表す模範音声データとを比較し、比較結果に応じて両者の差分が小さくなるように歌唱スコアデータを修正する。このとき、比較対象として用いられる模範音声データは、実際の歌唱音声を表すデータであるから、修正された歌唱スコアデータの表す歌唱合成音は、より実際の歌唱音声に近いものとなり、より自然なものとなる。
また、この実施形態では、模範音声データとしてユーザの嗜好に合った歌い方(抑揚、歌唱技法、等)で歌唱された音声データを用いることにより、生成される修正後歌唱スコアデータの表す歌唱合成音は、よりユーザの嗜好に近い歌唱音声となる。このように、本実施形態によれば、ユーザは、自身の嗜好に合った模範音声データを用意するだけで、各種パラメータの修正等の煩雑な作業を行うことなく、歌唱合成音を、自身の嗜好に合ったものにすることができる。
<C:変形例>
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。以下にその一例を示す。なお、以下の各態様を適宜に組み合わせてもよい。
(1)上述の実施形態では、CPU11は、歌唱スコアデータを修正し、修正した歌唱スコアデータを修正後歌唱スコアデータとして、修正後歌唱スコアデータ記憶領域144に記憶するようにしたが、これに限らず、図7に例示するように、CPU11が、歌唱スコアデータ記憶領域143に上書きするようにしてもよい。この場合、CPU11が、修正した歌唱スコアデータを用いて再度修正を行うようにしてもよい。
図7に示す例において、CPU11は、修正した歌唱スコアデータを歌唱スコアデータ記憶領域143に記憶する。そして、CPU11は、修正された歌唱スコアデータを歌唱スコアデータ記憶領域143から読み出し(すなわち、修正された歌唱スコアデータを取得し)、修正された歌唱スコアデータを用いて合成音声データを生成し、生成した合成音声データを用いて再度模範音声データとの比較を行い、比較結果を用いて歌唱スコアデータの修正を再度実行する。
このように、歌唱合成パラメータの修正を繰り返し行うようにすれば、歌唱スコアデータをより模範音声に近づけることができ、歌唱品質を高めることができる。
例えば、模範音声としてユーザの歌唱音声を記憶させておけば、繰り返し修正することにより、ユーザの歌唱音声に歌唱合成音を近づけることができる。
(2)上述の実施形態において、図8に例示するように、ユーザインタフェース115を設け、修正の態様をユーザが選択するようにしてもよい。この場合は、例えば、CPU11が、修正程度の異なる(例えば、合成音声のピッチを模範音声のピッチに一致させる、合成音声のピッチと模範音声のピッチとの差分を半分にする、等)複数の特徴データを生成し、生成した特徴データのリストを表示部15に表示するようにしてもよい。ユーザは、表示されたリストの中から所望する修正態様を選択し、CPU11は、選択された内容に応じて歌唱スコアデータを修正するようにすればよい。
(3)上述の実施形態では、予め録音しておいた歌唱音声を表す模範音声データを模範音声データ記憶領域145に予め記憶させておく構成とし、CPU11が、模範音声データ記憶領域145に記憶された模範音声データを読み出すようにしたが、これに限らず、図9に例示するように、ユーザが歌唱した音声をリアルタイムで音声合成装置1に入力するようにしてもよい。図9に示す例において、ユーザの歌唱音声はマイクロホン17で収音されて音声信号(音声データ)に変換され、歌唱比較部113に出力される。歌唱比較部113は、マイクロホン17で収音された音声を表す音声データと歌唱合成部111で生成される合成音声データとを比較する。
(4)また、図9に示す例において、更に、伴奏データを再生するようにしてもよい。図10は、伴奏データを再生する場合の音声合成装置1の機能的構成の一例を示す図である。この例においては、記憶部14に伴奏データを記憶する伴奏データ記憶領域146(図1に鎖線で図示)を設け、この伴奏データ記憶領域146に伴奏データを予め記憶しておく。
146から読み出して再生し、音声混合部119は、伴奏再生部118から供給される伴奏音を表す信号とマイクロホン17から供給される音声信号とを混合してスピーカ19に出力する。これにより、スピーカ19からは、伴奏音と収音されたユーザの歌唱音声とが放音される。なお、伴奏再生と歌唱合成はタイミングを合わせて行う必要があり、そのための制御機構が必要であるが、図面が煩雑になるのを防ぐためそれらの図示を省略している。
このように、歌唱音声を収音する際に、伴奏音を再生することで、ユーザが、歌唱スコアデータの表す歌唱合成音にタイミングを合わせて歌唱することができる。
(5)また、図10に示す例において、更に、マイクロホンによる入力音声を録音するようにしてもよい。図11にこの場合の音声合成装置1の機能的構成の一例を示す。図11に示す例において、音声録音・再生部117は、マイクロホン17から出力される音声データを、模範音声データ記憶領域145に記憶する。この場合、音声合成装置1は、録音した模範音声を用いて、歌唱スコアデータの修正を繰り返し行うことができる。
(6)上述の実施形態では、CPU11が、歌唱スコアデータに含まれるピッチデータと発音タイミングデータとを修正するようにしたが、修正する特徴データはこれに限らない。例えば、CPU11が歌詞間違いを検出するようにしてもよい。この場合は、CPU11が、模範音声データと合成音声データとの音韻の差分を検出し、その差分が小さくなるように、歌唱スコアデータの音韻データを修正するようにすればよい。この場合、音韻の差分の検出方法としては、例えば、模範音声データと合成音声データについて、フォルマントやケプストラムの差を検出するようにしてもよく、また、模範音声データに対して音声認識処理を施して音韻を検出するようにしてもよい。
(7)また、CPU11が、音質・声質の差分を検出し、音質・声質を修正するようにしてもよい。この場合は、歌唱スコアデータに、音質や声質を示す音質データや声質データを含める構成とし、CPU11が、模範音声データと合成音声データとからフォルマントを検出し、検出したフォルマントの差分が小さくなるように、音質データや声質データを修正するようにしてもよい。
このように、CPU11が修正する特徴データは、上述した実施形態で示したピッチの時間的な変化を示すピッチデータや発音タイミングデータであってもよく、また、音韻データや音質データ、声質データであってもよい。また、他の例として、例えば、音のベロシティ(強弱)を表すデータであってもよい。このように、CPU11が修正する特徴データは、メロディの特徴やそのメロディを構成する各音素の特徴を示すものであればどのようなものであってもよい。
(8)また、上述の実施形態において、歌唱スコアデータに楽曲の構成を示すデータを含めるようにし、CPU11が、歌唱スコアデータを修正する際に、曲中の対応する箇所を同時に修正しても良い。例えば、1番のある箇所のパラメータを修正したら、2番、3番の対応する箇所を同様に修正するようにしてもよい。この場合、歌唱スコアデータには、複数の時間区間に区分されるとともに、複数の時間区間の対応関係を示す区間対応データを含める構成とする。そして、CPU11は、複数の時間区間のうちの少なくともいずれかひとつの時間区間について、歌唱スコアデータに含まれる特徴データの値を上述の実施形態と同様の態様で修正する。その後、CPU11は、歌唱スコアデータの区間対応データに基づいて、修正した時間区間に対応する他の時間区間について、歌唱スコアデータに含まれる特徴データの値を、該時間区間と同様の態様で修正する。
このようにすることで、例えば、楽曲の1番を修正し終えた段階で、2番、3番の歌唱スコアデータの修正を終わらせることができるので、修正に係る処理時間を短くすることができる。
(9)上述の実施形態では、歌唱合成部111は、歌唱スコアデータを歌唱スコアデータ記憶領域143から読み出すようにしたが、歌唱合成部111が歌唱スコアデータを取得する態様はこれに限らず、例えば、インターネット等の通信ネットワークを介して歌唱スコアデータを受信するようにしてもよく、また、例えば、ユーザが操作部16を用いて歌唱スコアデータを入力するための操作を行い、CPU11が操作部16から出力される信号に応じて歌唱スコアデータを生成するようにしてもよく、CPU11が歌唱スコアデータを取得するものであればどのようなものであってもよい。
(10)上述した実施形態では、音声合成装置1は、予め生成された歌唱スコアデータを、模範音声データを用いて修正するようにしたが、これに変えて、模範音声データから歌唱スコアデータを生成するようにしてもよい。図12は、この場合の音声合成装置1の機能的構成の一例を示す図である。図において、歌唱合成部111,歌唱比較部113、歌唱スコアデータ修正部114は、上述した実施形態において図3に示したそれと同様であるため、ここではその説明を省略する。図において、歌唱分析部116は、マイクロホン17から出力される音声データを解析し、所定時間長のフレーム単位でピッチを検出する。また、歌唱分析部116は、マイクロホン17から出力される音声データを解析し、音素毎の発音タイミングを検出する。そして、歌唱分析部116は、検出したピッチを示すピッチデータを生成するとともに、検出した発音タイミングを示す発音タイミングデータを生成し、生成したピッチデータと発音タイミングデータとを含む歌唱スコアデータを生成し、生成した歌唱スコアデータを歌唱スコアデータ記憶領域143に記憶する。
このようにすることで、予め歌唱スコアデータを用意する必要がなく、マイクロホン17から入力された音声を分析して、歌唱スコアデータを自動生成することができる。
また、この態様において、マイクロホン17に入力された音声を音声認識して歌詞(音韻の列)を抽出し、抽出結果から音韻データを生成するようにしてもよい。
また、この態様において、マイクロホン17に入力された音声を音声認識してフォルマントを検出し、音質データや声質データを生成するようにしてもよい。
(11)上述した実施形態における音声合成装置1のCPU11によって実行されるプログラムは、磁気記録媒体(磁気テープ、磁気ディスクなど)、光記録媒体(光ディスクなど)、光磁気記録媒体、半導体メモリなどのコンピュータが読取可能な記録媒体に記録した状態で提供し得る。また、インターネットのようなネットワーク経由で音声合成装置1にダウンロードさせることも可能である。
音声合成装置のハードウェア構成の一例を示すブロック図である。 歌唱スコアデータの内容の一例を示す図である。 表示部に表示される画面の一例を示す図である。 音声合成装置の機能的構成の一例を示すブロック図である。 DPマッチングを示す図である。 模範音声と合成音声の対応関係の一例を示す図である。 修正後歌唱スコアデータの内容の一例を示す図である。 音声合成装置の機能的構成の一例を示すブロック図である。 音声合成装置の機能的構成の一例を示すブロック図である。 音声合成装置の機能的構成の一例を示すブロック図である。 音声合成装置の機能的構成の一例を示すブロック図である。 音声合成装置の機能的構成の一例を示すブロック図である。 音声合成装置の機能的構成の一例を示すブロック図である。
符号の説明
1…音声合成装置、11…CPU、12…ROM、13…RAM、14…記憶部、15…表示部、16…操作部、17…マイクロホン、18…音声処理部、19…スピーカ、111…歌唱合成部、112…音声再生部、113…歌唱比較部、114…歌唱スコアデータ修正部、115…ユーザインタフェース、116…歌唱分析部、117…音声録音・再生部、118…伴奏再生部、119…音声混合部、141…Timbreデータベース、142…音韻テンプレートデータベース、143…歌唱スコアデータ記憶領域、144…修正後歌唱スコアデータ記憶領域、145…模範音声データ記憶領域、146…伴奏データ記憶領域。

Claims (7)

  1. 音素の列で構成されるメロディを表す歌唱スコアデータであって、各音素の特徴を表す特徴データを含む歌唱スコアデータを取得する歌唱スコアデータ取得手段と、
    音声波形を表す第1の音声波形データを取得する第1の音声波形データ取得手段と、
    前記歌唱スコアデータ取得手段により取得された歌唱スコアデータから、該歌唱スコアデータに対応する音声波形を表す第2の音声波形データを生成する第2の音声波形データ生成手段と、
    前記第1の音声波形データと前記第2の音声波形データとを、時間軸方向に対応付ける対応付手段と、
    前記第1の音声波形データを解析し、解析結果に応じて前記特徴を検出する第1の特徴検出手段と、
    前記第2の音声波形データを解析し、解析結果に応じて前記特徴を検出する第2の特徴検出手段と、
    前記対応付手段の対応付結果に応じて、前記歌唱スコアデータ取得手段により取得された歌唱スコアデータに含まれる特徴データを、前記第1の特徴検出手段によって検出された前記第1の音声波形データの特徴と前記第2の特徴検出手段によって検出された前記第2の音声波形データの特徴との対応箇所における差分が小さくなるように修正する特徴データ修正手段と、
    前記特徴データ修正手段により修正された歌唱スコアデータから、該歌唱スコアデータに対応する音声波形を表す第3の音声波形データを生成する第3の音声波形データ生成手段と、
    前記第3の音声波形データ生成手段により生成された第3の音声波形データを出力する出力手段と
    を具備することを特徴とする音声合成装置。
  2. 前記特徴は、前記メロディを構成する各音素の発音タイミング、ピッチの時間的な変化、前記メロディを構成する各音素の音韻及び音声スペクトルの少なくともいずれか一つを含む
    ことを特徴とする請求項1に記載の音声合成装置。
  3. 前記特徴データ修正手段により修正された歌唱スコアデータが予め定められた条件を満たす場合に、該歌唱スコアデータを前記歌唱スコアデータ取得手段に供給する歌唱スコアデータ取得制御手段
    を具備することを特徴とする請求項1又は2に記載の音声合成装置。
  4. 前記歌唱スコアデータは、複数の時間区間に区分されるとともに、複数の時間区間の対応関係を示す区間対応データを含み、
    前記特徴データ修正手段は、前記複数の時間区間のうちの少なくともいずれかひとつの時間区間について、前記対応付手段の対応付結果に応じて、前記歌唱スコアデータ取得手段により取得された歌唱スコアデータに含まれる特徴データを、前記第1の特徴検出手段によって検出された前記第1の音声波形データの特徴と前記第2の特徴検出手段によって検出された前記第2の音声波形データの特徴との対応箇所における差分が小さくなるように修正するとともに、
    前記区間対応データに基づいて、該時間区間に対応する他の時間区間について、前記歌唱スコアデータに含まれる特徴データを、該時間区間における修正態様で修正する
    ことを特徴とする請求項1乃至3のいずれか1項に記載の音声合成装置。
  5. 前記第1の音声波形データ取得手段は、収音手段によって収音された音声を表す音声データを、前記第1の音声データとして取得する
    ことを特徴とする請求項1乃至4のいずれか1項に記載の音声合成装置。
  6. 音声波形を表す第1の音声波形データを取得する第1の音声波形データ取得手段と、
    前記第1の音声波形データから音声の特徴を検出し、検出した特徴を示す特徴データを生成する特徴データ生成手段と、
    音素の列で構成されるメロディを表す歌唱スコアデータであって前記特徴データ生成手段により生成された特徴データを含む歌唱スコアデータを生成する歌唱スコアデータ生成手段と、
    前記歌唱スコアデータ生成手段により生成された歌唱スコアデータから、該歌唱スコアデータに対応する音声波形を表す第2の音声波形データを生成する第2の音声波形データ生成手段と、
    前記第2の音声波形データを出力する出力手段と
    を具備することを特徴とする音声合成装置。
  7. 前記特徴は、前記メロディを構成する各音素の発音タイミング、ピッチの時間的な変化、前記メロディを構成する各音素の音韻及び音声スペクトルのうちの少なくともいずれか一つを含む
    ことを特徴とする請求項6に記載の音声合成装置。
JP2008062706A 2008-03-12 2008-03-12 音声合成装置 Expired - Fee Related JP5136128B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008062706A JP5136128B2 (ja) 2008-03-12 2008-03-12 音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008062706A JP5136128B2 (ja) 2008-03-12 2008-03-12 音声合成装置

Publications (2)

Publication Number Publication Date
JP2009217141A true JP2009217141A (ja) 2009-09-24
JP5136128B2 JP5136128B2 (ja) 2013-02-06

Family

ID=41189032

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008062706A Expired - Fee Related JP5136128B2 (ja) 2008-03-12 2008-03-12 音声合成装置

Country Status (1)

Country Link
JP (1) JP5136128B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010009034A (ja) * 2008-05-28 2010-01-14 National Institute Of Advanced Industrial & Technology 歌声合成パラメータデータ推定システム
JP2012022121A (ja) * 2010-07-14 2012-02-02 Yamaha Corp 音声合成装置
JP2013134476A (ja) * 2011-12-27 2013-07-08 Yamaha Corp 音声合成装置及びプログラム
JP2013156544A (ja) * 2012-01-31 2013-08-15 Brother Ind Ltd 発声区間特定装置、音声パラメータ生成装置、及びプログラム
JP2013213874A (ja) * 2012-03-30 2013-10-17 Fujitsu Ltd 音声合成プログラム、音声合成方法および音声合成装置
JP2015087617A (ja) * 2013-10-31 2015-05-07 株式会社第一興商 カラオケのガイドボーカル生成装置及びガイドボーカル生成方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH037996A (ja) * 1989-06-05 1991-01-16 Matsushita Electric Works Ltd 歌音声合成データの作成装置
JPH0543199U (ja) * 1991-11-06 1993-06-11 株式会社東芝 音響再生装置
JP2001125582A (ja) * 1999-10-26 2001-05-11 Victor Co Of Japan Ltd 音声データ変換装置、音声データ変換方法、及び音声データ記録媒体
JP2003108176A (ja) * 2001-10-01 2003-04-11 Nippon Telegr & Teleph Corp <Ntt> 歌唱音声合成における韻律生成方法及び韻律生成プログラム、そのプログラムを記録した記録媒体
JP2004004440A (ja) * 2002-03-22 2004-01-08 Yamaha Corp 歌唱合成装置、歌唱合成用プログラム及び歌唱合成用プログラムを記録したコンピュータで読み取り可能な記録媒体
JP2007316261A (ja) * 2006-05-24 2007-12-06 Casio Comput Co Ltd カラオケ装置
JP2007322933A (ja) * 2006-06-02 2007-12-13 Yamaha Corp 指導装置、指導用データ製作装置及びプログラム
JP2008015195A (ja) * 2006-07-05 2008-01-24 Yamaha Corp 楽曲練習支援装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH037996A (ja) * 1989-06-05 1991-01-16 Matsushita Electric Works Ltd 歌音声合成データの作成装置
JPH0543199U (ja) * 1991-11-06 1993-06-11 株式会社東芝 音響再生装置
JP2001125582A (ja) * 1999-10-26 2001-05-11 Victor Co Of Japan Ltd 音声データ変換装置、音声データ変換方法、及び音声データ記録媒体
JP2003108176A (ja) * 2001-10-01 2003-04-11 Nippon Telegr & Teleph Corp <Ntt> 歌唱音声合成における韻律生成方法及び韻律生成プログラム、そのプログラムを記録した記録媒体
JP2004004440A (ja) * 2002-03-22 2004-01-08 Yamaha Corp 歌唱合成装置、歌唱合成用プログラム及び歌唱合成用プログラムを記録したコンピュータで読み取り可能な記録媒体
JP2007316261A (ja) * 2006-05-24 2007-12-06 Casio Comput Co Ltd カラオケ装置
JP2007322933A (ja) * 2006-06-02 2007-12-13 Yamaha Corp 指導装置、指導用データ製作装置及びプログラム
JP2008015195A (ja) * 2006-07-05 2008-01-24 Yamaha Corp 楽曲練習支援装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010009034A (ja) * 2008-05-28 2010-01-14 National Institute Of Advanced Industrial & Technology 歌声合成パラメータデータ推定システム
US8244546B2 (en) 2008-05-28 2012-08-14 National Institute Of Advanced Industrial Science And Technology Singing synthesis parameter data estimation system
JP2012022121A (ja) * 2010-07-14 2012-02-02 Yamaha Corp 音声合成装置
JP2013134476A (ja) * 2011-12-27 2013-07-08 Yamaha Corp 音声合成装置及びプログラム
JP2013156544A (ja) * 2012-01-31 2013-08-15 Brother Ind Ltd 発声区間特定装置、音声パラメータ生成装置、及びプログラム
JP2013213874A (ja) * 2012-03-30 2013-10-17 Fujitsu Ltd 音声合成プログラム、音声合成方法および音声合成装置
JP2015087617A (ja) * 2013-10-31 2015-05-07 株式会社第一興商 カラオケのガイドボーカル生成装置及びガイドボーカル生成方法

Also Published As

Publication number Publication date
JP5136128B2 (ja) 2013-02-06

Similar Documents

Publication Publication Date Title
JP3823930B2 (ja) 歌唱合成装置、歌唱合成プログラム
KR100949872B1 (ko) 악곡 연습 지원 장치, 악곡 연습 지원 장치의 제어 방법, 악곡 연습 지원 장치를 제어하는 제어 방법을 컴퓨터로 실행시키는 프로그램을 기록한 컴퓨터로 읽을 수 있는 매체
JP5605066B2 (ja) 音合成用データ生成装置およびプログラム
US9595256B2 (en) System and method for singing synthesis
JP5024711B2 (ja) 歌声合成パラメータデータ推定システム
JP5136128B2 (ja) 音声合成装置
JP2008026622A (ja) 評価装置
JP2016177276A (ja) 発音装置、発音方法および発音プログラム
JP6756151B2 (ja) 歌唱合成データ編集の方法および装置、ならびに歌唱解析方法
JP2007233077A (ja) 評価装置、制御方法及びプログラム
JP6737320B2 (ja) 音響処理方法、音響処理システムおよびプログラム
JP2009169103A (ja) 練習支援装置
JP2008039833A (ja) 音声評価装置
JP2009157220A (ja) 音声編集合成システム、音声編集合成プログラム及び音声編集合成方法
JP6252420B2 (ja) 音声合成装置、及び音声合成システム
JP5810947B2 (ja) 発声区間特定装置、音声パラメータ生成装置、及びプログラム
JP2022065554A (ja) 音声合成方法およびプログラム
JP5953743B2 (ja) 音声合成装置及びプログラム
JP3785892B2 (ja) 音声合成装置及び記録媒体
JP2000010597A (ja) 音声変換装置及び音声変換方法
JP6191094B2 (ja) 音声素片切出装置
JP3540609B2 (ja) 音声変換装置及び音声変換方法
JP2010181769A (ja) カラオケ装置及びその制御方法並びにその制御プログラム
JP3447220B2 (ja) 音声変換装置及び音声変換方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110119

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120306

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120427

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120731

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120927

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121016

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121029

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151122

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees