JP5641266B2 - 音声合成装置、音声合成方法およびプログラム - Google Patents

音声合成装置、音声合成方法およびプログラム Download PDF

Info

Publication number
JP5641266B2
JP5641266B2 JP2013210108A JP2013210108A JP5641266B2 JP 5641266 B2 JP5641266 B2 JP 5641266B2 JP 2013210108 A JP2013210108 A JP 2013210108A JP 2013210108 A JP2013210108 A JP 2013210108A JP 5641266 B2 JP5641266 B2 JP 5641266B2
Authority
JP
Japan
Prior art keywords
phoneme
sound
pronunciation
indicator
designated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013210108A
Other languages
English (en)
Other versions
JP2014002421A (ja
Inventor
久湊 裕司
裕司 久湊
嘉山 啓
啓 嘉山
慶二郎 才野
慶二郎 才野
隼人 大下
隼人 大下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2013210108A priority Critical patent/JP5641266B2/ja
Publication of JP2014002421A publication Critical patent/JP2014002421A/ja
Application granted granted Critical
Publication of JP5641266B2 publication Critical patent/JP5641266B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Auxiliary Devices For Music (AREA)

Description

本発明は、音声を合成する技術に関する。
所望の音声を合成する技術が従来から提案されている。例えば特許文献1には、音声合成の対象として指定された各音符(以下「指定音」という)に所望の歌詞を割当てる技術が開示されている。母音を各々が含む複数の音節の歌詞が1個の指定音に割当てられた場合には、その指定音は音節毎(母音毎)に分割され、各音節の時間長の比率が利用者からの指示(移動ツマミの操作)に応じて可変に設定される。例えば、「きみ(君)」という歌詞が1個の指定音に割当てられた場合、その指定音を分割した音節「き(ki)」および音節「み(mi)」の時間長の比率が調整される。
特開2004−258562号公報
しかし、特許文献1の技術では1個の指定音が音節毎(母音毎)に分割されるから、利用者が意図する微妙な表情の合成音を生成することが困難であるという問題がある。以上の事情を考慮して、本発明は、利用者の意図を精緻に反映した合成音を生成することを目的とする。
以上の課題を解決するために、本発明に係る音声合成装置は、音高および発音文字が指示された各指定音の発音期間と、前記各指定音の発音文字に対応する複数の音素の各々音素記号および発音期間の始点とを、相異なる領域に、共通の時間軸のもとで表示装置に時系列に表示させ、母音および子音を含む各音素の発音期間の始点を利用者からの指示に応じて時間軸上で移動させる表示制御手段と、発音期間にわたる各音素の合成音を生成する音声合成手段とを具備する。
本発明の第1態様に係る音声合成装置は、複数の音素の各々について発音期間と音素記号とを表示装置に時系列に表示させ、利用者からの指示に応じて音素記号を移動させる表示制御手段と、音声素片毎に素片データを記憶する記憶手段と、発音期間にわたる各音素の合成音を各素片データから生成する音声合成手段とを具備し、音声合成手段は、第1素片データが示す音声素片の第1区間(例えば図3から図5の区間SA)と第2素片データが示す音声素片の第2区間(例えば図3から図5の区間SB)とを利用して一の音素の合成音を生成する場合に、第1区間と第2区間との時間長の比率を一の音素の音素記号の位置に応じた比率に設定する。以上の構成においては、第1素片データが示す音声素片の第1区間と第2素片データが示す音声素片の第2区間との時間長の比率が可変に設定されるから、音節毎に時間長を制御する特許文献1の構成と比較して、利用者の意図を精緻に反映した合成音を生成することが可能である。しかも、利用者から指示された音素記号の位置に応じて第1区間と第2区間との時間長の比率が制御されるから、第1区間と第2区間との時間長の比率を利用者が直感的に把握し易いという利点もある。例えば、音声合成手段は、第1区間に対応する子音の音素が母音の音素に後続する音素連鎖の第1素片データと、第2区間に対応する子音の音素に母音の音素が後続する音素連鎖の第2素片データとを利用して、一の音素の合成音を生成する。
第1態様に係る音声合成装置の好適例において、表示制御手段は、音高が指示された複数の指定音の各々に対応する音指示子を表示装置に時系列に表示させ、各音素の発音期間と音素記号とを音指示子に重ねて表示させる。以上の態様においては、各音素の発音期間と音素記号との表示に各指定音の音指示子が流用されるから、各音素の発音期間と音素記号とが音指示子とは別個に表示される構成と比較して、各指定音と各音素との時間軸上の関係を利用者が容易に把握できるという利点がある。
第1態様に係る音声合成装置の好適例において、表示制御手段は、連続的な発音が指示された各指定音の音指示子を相互に連結する連結部を表示装置に表示させ、連結部に沿うように利用者からの指示に応じて音素記号を移動させる。以上の態様においては、各指定音を連結する連結部に沿って音素記号が移動するから、連続的な発音(レガート)が指示された部分についても、第1区間と第2区間との時間長の比率を利用者が直感的に調整できるという利点がある。
本発明の第2の態様に係る音声合成装置は、音高が指示された複数の指定音の各々に対応して時系列に配置されて当該指定音の発音期間に応じて長さが選定された音指示子と、各指定音の発音を構成する各音素に対応して時系列に配置されて当該音素の発音期間に応じて長さが選定された音素指示子とを、各指定音の音指示子の始点と当該指定音の発音を構成する母音の音素の音素指示子の始点とが時間軸上で合致するように共通の時間軸のもとで表示装置に表示させる表示制御手段と、音声素片毎に素片データを記憶する記憶手段と、発音期間にわたる各音素の合成音を各素片データから生成する音声合成手段とを具備し、表示制御手段は、子音の音素の音素指示子の始点を利用者からの指示に応じて移動させ、母音の音素の音素指示子の始点の移動が利用者から指示された場合に、当該母音の音素の音素指示子の始点と当該母音の音素に対応する指定音の音指示子の始点とを連動して移動させる。以上の態様においては、各指定音の音素を単位として発音期間が調整されるから、音節を単位として発音期間が調整される特許文献1の技術と比較して、利用者の意図を精緻に反映した合成音を生成することが可能である。また、母音の音素の音素指示子の始点とその音素に対応する指定音の音指示子の始点とが連動するから、指定音の発音期間の始点から母音の発音を開始させるという関係が各音素の発音期間に関わらず維持されるという利点がある。
以上の各態様に係る音楽情報処理装置は、音楽情報の処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、複数の音素の各々について音素記号と発音期間の始点とを表示装置に時系列に表示させ、母音および子音を含む各音素の発音期間の始点を利用者からの指示に応じて時間軸上で移動させる表示制御処理と、発音期間にわたる各音素の合成音を生成する音声合成処理とをコンピュータに実行させる。
本発明の第1態様に係るプログラムは、音声素片毎に素片データを記憶する記憶手段を具備するコンピュータに、複数の音素の各々について発音期間と音素記号とを表示装置に時系列に表示させ、利用者からの指示に応じて音素記号を移動させる表示制御処理と、発音期間にわたる各音素の合成音を各素片データから生成する音声合成処理であって、第1素片データが示す音声素片の第1区間と第2素片データが示す音声素片の第2区間とを利用して一の音素の合成音を生成する場合に、第1区間と第2区間との時間長の比率を一の音素の音素記号の位置に応じた比率に設定する音声合成処理とを実行させる。本発明の第2態様に係るプログラムは、音声素片毎に素片データを記憶する記憶手段を具備するコンピュータに、発音期間にわたる各音素の合成音を各素片データから生成する音声合成処理と、音高が指示された複数の指定音の各々に対応して時系列に配置されて当該指定音の発音期間に応じて長さが選定された音指示子と、各指定音の発音を構成する各音素に対応して時系列に配置されて当該音素の発音期間に応じて長さが選定された音素指示子とを、各指定音の音指示子の始点と当該指定音の発音を構成する母音の音素の音素指示子の始点とが時間軸上で合致するように共通の時間軸のもとで表示装置に表示させる表示制御処理であって、子音の音素の音素指示子の始点を利用者からの指示に応じて移動させ、母音の音素の音素指示子の始点の移動が利用者から指示された場合に、当該母音の音素の音素指示子の始点と当該母音の音素に対応する指定音の音指示子の始点とを連動して移動させる表示制御処理とを実行させる
以上の各態様のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
第1実施形態に係る音声合成装置のブロック図である。 編集画像の模式図である。 音指示子および音素指示子と素片データとの関係を示す模式図である。 音素記号の移動時の音指示子と音素指示子と素片データとの関係を示す模式図である。 音素記号の移動時の音指示子と音素指示子と素片データとの関係を示す模式図である。 音声合成部のブロック図である。 第2実施形態における音指示子と音素指示子との関係を示す模式図である。 第3実施形態における音指示子の模式図である。 第4実施形態における音指示子の模式図である。 変形例における素片データ(VCV型)の模式図である。 変形例における素片データの伸長について説明するための模式図である。
<A:第1実施形態>
図1は、本発明の第1実施形態に係る音声合成装置100のブロック図である。音声合成装置100は、歌唱音などの様々な音声(以下「合成音」という)を合成する装置であり、図1に示すように、制御装置10と記憶装置12と入力装置14と表示装置16と放音装置18とを具備するコンピュータシステムで実現される。音声合成装置100を楽曲の歌唱音の合成に利用する場合を以下では想定する。
制御装置(CPU)10は、記憶装置12に記憶されたプログラムPGの実行で、音声信号SOUTの生成に必要な複数の機能(表示制御部22,情報生成部24,音声合成部26)を実現する。音声信号SOUTは、合成音の波形を表す信号である。なお、制御装置10の各機能を専用の電子回路(DSP)で実現した構成や、制御装置10の各機能を複数の集積回路に分散した構成も採用され得る。
入力装置14は、利用者からの指示を受付ける機器(例えばマウスやキーボード)である。表示装置16(例えば液晶表示装置)は、制御装置10から指示された画像を表示する。放音装置18(例えばスピーカやヘッドホン)は、制御装置10が生成する音声信号SOUTに応じた音波を放射する。
記憶装置12は、制御装置10が実行するプログラムPGや制御装置10が使用する各種のデータ(素片情報DV,音楽情報DS)を記憶する。半導体記録媒体や磁気記録媒体などの公知の記録媒体や複数種の記録媒体の組合せが記憶装置12として任意に採用される。なお、プログラムPGや各データ(DV,DS)を複数の記録媒体に分散して記憶した構成も採用され得る。
素片情報DVは、合成音の素材として利用されるデータ群であり、図1に示すように、相異なる音声素片([a_s],[s_a],[a],……)に対応する複数の素片データPを含んで構成される。音声素片は、音声を聴覚的に区別し得る最小の単位に相当する1個の音素(母音や子音)、または複数(典型的には2個または3個)の音素を連結した音素連鎖である。例えば、音声素片の時間波形のサンプル系列が、その音声素片の素片データPとして利用される。
音楽情報DSは、楽曲を構成する各指定音の時系列を示す情報(スコアデータ)である。具体的には、音楽情報DSは、指定音の音高(ノートナンバ)と発音期間と発音文字とを楽曲内の指定音毎に指定する。発音期間は、例えば発音が開始する時刻と発音が継続される時間長とで規定される。発音文字は、音節を単位として発音の内容を示す文字(音節文字)である。1個の指定音には1個以上の発音文字が指示され得る。
図1の表示制御部22は、音楽情報DSの生成および編集のために利用者が視認する図2の編集画像40を表示装置16に表示させる。図2に示すように、編集画像40は、指定音の時系列を表示する楽譜領域42と、各指定音の発音文字を構成する各音素の時系列を表示する音素領域44とを含んで構成される。
楽譜領域42は、音高に対応する縦軸(音高軸)と時間に対応する横軸(時間軸)とが設定されたピアノロール型の画像領域である。利用者は、楽譜領域42を視認しながら入力装置14を適宜に操作することで各指定音の音高と発音期間とを指示する。表示制御部22は、利用者から指示された指定音を表す画像(以下「音指示子」という)51を楽譜領域42に時系列に配置する。音高軸の方向における音指示子51の位置は利用者が指示した音高に応じて決定される。また、時間軸の方向における音指示子51の各端点(始点および終点)は、利用者が指示した発音期間の始点および終点に相当する。したがって、時間軸の方向における音指示子51の長さは指定音の発音期間の時間長を意味する。
また、利用者は、入力装置14を適宜に操作することで各指定音の発音文字(歌詞)を指示し得る。表示制御部22は、図2に示すように、利用者から指示された発音文字53を、指定音の音指示子51とともに(例えば図2の例示のように音指示子51に重ねて)表示装置16に表示させる。
図1の情報生成部24は、楽譜領域42に対して利用者から指示された各指定音の音高と発音期間と発音文字とを対応させて記憶装置12の音楽情報DSに格納する。以上の処理が反復されることで、利用者から指示された指定音の時系列を示す音楽情報DSが記憶装置12に生成され、各指定音の音指示子51の時系列が図2の例示のように楽譜領域42に表示される。
表示制御部22は、各指定音に指示された発音文字を構成する音素を表す画像(以下「音素指示子」という)61を音素領域44に時系列に配置する。表示制御部22は、楽譜領域42内の各音指示子51の時系列と音素領域44内の各音素指示子61の時系列とを共通の時間軸のもとで表示装置16に表示させる。
図2に示すように、音素指示子61は、指定音の発音文字(音節)を構成する音素毎に設定される。時間軸の方向における音素指示子61の各端点(始点および終点)は、その音素指示子61に対応する音素の発音期間の始点および終点を意味する。したがって、時間軸の方向における音素指示子61の長さは音素の発音期間の時間長に相当する。また、表示制御部22は、音素を表す記号(以下「音素記号」という)63を音素指示子61に重ねて(すなわち、音素指示子61の輪郭線の内側に)配置する。図2に示すように、母音の音素([a],[i])の音素指示子61と子音の音素([s],[n])の音素指示子61とは相異なる態様(色彩や模様)で表示装置16に表示される。
図3は、楽譜領域42および音素領域44を拡大した模式図である。図3では、「あさ(朝)」という単語を構成する発音文字「あ(a)」および発音文字「さ(sa)」が別個の指定音(N1,N2)に指示された場合が想定されている。図3に示すように、表示制御部22は、発音文字「あ」(音素単体)の音素[a]に対応する音素指示子61と、発音文字「さ(sa)」(音素連鎖)のうち前方の子音の音素[s]に対応する音素指示子61と、発音文字「さ(sa)」のうち後方の母音の音素[a]に対応する音素指示子61とを、音素領域44内に時系列に配列する。
図3の例示の通り、各指定音の発音文字を構成する母音の音素の発音期間の始点(音素指示子61の始点)が、その指定音の発音期間の始点(音指示子51の始点)に時間軸上で合致するように、表示制御部22は各音素指示子61の各端点を選定する。すなわち、母音の音素の発音は指定音の発音期間の始点から開始する。例えば、図3の例示のように、子音の音素[s]と母音の音素[a]とを連結した発音文字「さ(sa)」が指定音N2に指示された場合、後方の音素[a]の音素指示子61の始点が、指定音N2の音指示子51の始点に合致する。
他方、各指定音の発音文字を構成する子音の音素(例えば音素[s])については、子音の音素の発音期間の終点(音素指示子61の終点)が、その指定音の発音期間の始点(子音の直後の母音の始点)に合致するように、表示制御部22は各音素指示子61の各端点を選定する。例えば、指定音N2に指示された発音文字「さ(sa)」を構成する子音の音素[s]の音素指示子61の終点は、直後の母音の音素[a]の音素指示子61の始点(指定音N2の音指示子51の始点)に合致する。すなわち、指定音N2の発音期間の開始に先立って音素[s]の発音が開始される。以上に説明した規則で子音および母音の音素の始点を設定するのは、母音の始点と音符(指定音)の始点とが合致する場合に歌唱のタイミングが適切であると聴取者に認識されるという傾向があるからである。
表示制御部22は、音素指示子61に配置された音素記号63を、その音素指示子61の端点間の範囲内で、入力装置14に対する利用者からの指示に応じて時間軸の方向(左右)に移動させる。図4では、音素[s]の音素記号63を時間軸上の後方(時間が経過する方向)に移動した場合が想定され、図5では、音素[s]の音素記号63を時間軸上の前方(時間が遡及する方向)に移動した場合が想定されている。第1実施形態では、時間軸上における各音素記号63の位置に応じて、その音素の合成に適用される各素片データPの境界の位置(時点)が可変に制御される(詳細は後述する)。
図1の音声合成部26は、記憶装置12に格納された音楽情報DSが示す各指定音を合成して音声信号SOUTを生成する。図6に示すように、音声合成部26は、素片選択部262と素片調整部264と合成処理部266とを含んで構成される。素片選択部262は、音楽情報DSにて各指定音に指示された発音文字に対応する各音声素片の素片データPを記憶装置12の素片情報DVから選択する。例えば、前述の例示のように「あさ(朝)」が発音文字として指示された場合、素片選択部262は、図3に示すように、音声素片[#_a](「#」は無音を意味する),[a],[a_s],[s_a],[a]および[a_#]の各々に対応する素片データPを記憶装置12から取得する。
図6の素片調整部264は、素片選択部262が選択した各素片データPの音高や時間長を調整する。合成処理部266は、素片調整部264による調整後の各素片データPを相互に連結することで音声信号SOUTを生成する。素片データPを利用した音声信号SOUTの生成には公知の技術が任意に採用される。
素片調整部264による具体的な処理を以下に説明する。素片調整部264は、音高調整処理と時間調整処理(伸縮処理)とを実行する。音高調整処理は、各素片データPの音声素片の音高を、音楽情報DSが各指定音について示す音高に調整する処理である。素片データPの音高の調整には公知の技術が任意に採用される。
時間調整処理は、各素片データPの音声素片の時間長を、音楽情報DSが各指定音について示す発音期間(音素領域44内の音素指示子61が示す各音素の発音期間)に応じて調整する処理である。すなわち、素片調整部264は、音楽情報DSにて指定音に指示された各発音文字を構成する音素が、音素領域44内の当該音素の音素指示子61が示す発音期間にて発音されるように、各素片データPを時間軸上で伸縮する。
例えば、図3の例示のように、音声素片[a_s]の素片データPAと音声素片[s_a]の素片データPBとを利用して素片[s]を合成する場合を想定する。素片調整部264は、素片データPAが示す音声素片[a_s]のうち後方の子音の音素[s]に相当する区間SAの始点(音素[a]に相当する区間の終点)tAが、音素領域44内の音素[s]の発音期間(音素指示子61)の始点pAに合致し、かつ、素片データPBが示す音声素片[s_a]のうち前方の子音の音素[s]に相当する区間SBの終点(音素[a]に相当する区間の始点)tBが、音素領域44内の音素[s]の発音期間(音素指示子61)の終点pBに合致するように、素片データPAおよび素片データPBを伸縮する。素片データPの伸縮には公知の技術(時間軸圧伸技術)が任意に採用される。
さらに、素片調整部264は、各音素の合成に利用される2個の素片データP(音声素片)の境界の位置を、音素領域44におけるその音素の音素記号63の位置に応じて可変に設定する。前述の例示のように音声素片[a_s]の素片データPAと音声素片[s_a]の素片データPBとを素片[s]の合成に利用する場合に着目して、各素片データPの境界の制御について以下に詳述する。
音素領域44のうち音素[s]に対応する音素指示子61の音素記号63が初期的な位置から移動していない場合、素片調整部264は、図3に示すように、音声素片[a_s]の素片データPAと音声素片[s_a]の素片データPBとの境界(素片データPAの区間SAと素片データPBの区間SBとの境界)を、音素指示子61の始点pAから終点pBまでの区間内の所定の位置(以下「基準位置」という)tCに設定する。
図4の例示のように、利用者からの指示に応じて表示制御部22が音素[s]の音素記号63を右方(時間が経過する方向)に移動した場合、素片調整部264は、素片データPAの区間SAと素片データPBの区間SBとの境界が基準位置tCに対して右方の位置tC_1となるように素片データPAおよび素片データPBを伸縮する。区間SAの始点tAは音素[s]の発音期間の始点pAに維持され、区間SBの終点tBは音素[s]の発音期間の終点pBに維持される。すなわち、素片調整部264は、区間SAと区間SBとの時間長の合計を音素[s]の発音期間の時間長に維持したまま、区間SAを伸長するとともに区間SBを短縮する。区間SAと区間SBとの境界の変化量(基準位置tCと位置tC_1との間隔)は、音素記号63の移動量に応じて可変に(例えば音素記号63の移動量に比例するように)設定される。
他方、図5の例示のように、表示制御部22が音素[s]の音素記号63を左方(時間が遡及する方向)に移動した場合、素片調整部264は、区間SAと区間SBとの境界が基準位置tCに対して左方の位置tC_2に移動するように素片データPAおよび素片データPBを伸縮する。すなわち、素片調整部264は、区間SAと区間SBとの時間長の合計を音素[s]の発音期間の時間長に維持したまま、区間SAを短縮するとともに区間SBを伸長する。前述の説明と同様に、音素記号63の移動量に応じて区間SAと区間SBとの境界の変化量は可変に設定される。
合成処理部266は、以上の手順で調整された各素片データPを利用して音声信号SOUTを生成する。素片データPAの区間SAと素片データPBの区間SBとは、発音の内容(音素[s])は共通するが、各音素に隣接する音素(母音)の種類や先後に応じて音楽的な特性(スペクトルや強度の時間変化)は相違する。したがって、音声信号SOUTが示す音素[s]の特性は、区間SAと区間SBとの時間長の比率(両区間の境界の位置)に応じて変化する。すなわち、第1実施形態によれば、利用者の意図を精緻に反映した微妙な表情の合成音を生成できるという利点がある。しかも、相前後する素片データPの境界の位置が音素領域44内の音素記号63の操作で可変に制御されるから、利用者が各素片データPの境界を直感的に調整できるという格別の効果も実現される。
<B:第2実施形態>
次に、本発明の第2実施形態を説明する。なお、以下の各例示において作用や機能が第1実施形態と同等である要素については、以上と同じ符号を付して各々の詳細な説明を適宜に省略する。
第1実施形態と同様に、表示制御部22は、図7の部分(A)の例示の通り、母音の音素の音素指示子61の始点pVが、その音素に対応する指定音の音指示子51の始点p0と合致するように、指定音毎の音指示子51の時系列と音素毎の音素指示子61の時系列とを、共通の時間軸のもとで表示装置16に表示させる。表示制御部22は、各音素指示子61の始点(pC,pV)を表す直線(相前後する音素指示子61の境界線)を、母音の音素の音素指示子61と子音の音素の音素指示子61とについて相異なる態様で表示する。具体的には、子音の音素指示子61の始点pCは二重線で表示され、母音の音素指示子61の始点pVは1本の直線で表示される。
利用者は、所望の音素指示子61の始点の移動を入力装置14に指示することが可能である。子音の音素指示子61の始点pCの移動が利用者から指示された場合、表示制御部22は、図7の部分(B)に矢印M1で示すように、利用者からの指示に応じて時間軸の方向にその始点pCを移動させる。音指示子51の始点p0や母音の音素指示子61の始点pVは、子音の音素指示子61の始点pCの移動に関わらず維持される。
他方、母音の音素指示子61の始点pVの移動が利用者から指示された場合、表示制御部22は、母音の音素指示子61の始点pVを、図7の部分(C)に矢印M2で示すように、利用者からの指示に応じて時間軸の方向に移動させるとともに、その母音に対応する指定音の音指示子51の始点p0を、矢印mで示すように、音素指示子61の始点pVに連動して移動させる。すなわち、母音の音素指示子61の始点pVと指定音の音指示子51の始点p0との合致は、母音の音素指示子61の始点pVの移動の前後にわたって維持される。
音声合成部26は、以上の手順で調整された各音素指示子61の長さに応じた時間長(発音期間)にわたって各音素が発音されるように、第1実施形態と同様に各素片データPを伸縮して音声信号SOUTを生成する。以上の形態においては、各指定音の音素を単位として発音期間が調整されるから、音節を単位として発音期間が調整される特許文献1の技術と比較して、利用者の意図を精緻に反映した微妙な表情の合成音を生成できるという利点がある。
なお、以上の例示では第1実施形態を基礎として第2実施形態を説明したが、相前後する素片データPの時間長の比率を音素記号63の位置に応じて可変に制御する第1実施形態の構成は、第2実施形態では省略され得る。また、以上の例示では、音素指示子61の始点pVの移動が指示された場合に音指示子51の始点p0を連動させたが、音指示子51の始点p0の移動が利用者から指示された場合に、この始点p0に連動して音素指示子61の始点pVを移動させる構成も好適である。
<C:第3実施形態>
次に、本発明の第3実施形態を説明する。第1実施形態や第2実施形態では、楽譜領域42から独立した音素領域44の音素指示子61を利用して各音素の発音期間や音素記号63を表示した。他方、第3実施形態では、各音素の発音期間や音素記号63の表示に楽譜領域42内の各音指示子51を流用する。したがって、第1実施形態の音素領域44を省略した内容の編集画像40が第3実施形態では表示装置16に表示される。
図8は、第3実施形態における楽譜領域42の模式図である。図8に示すように、利用者から指示された指定音に対応する音指示子51が楽譜領域42内に時系列に配置される。第1実施形態と同様に、音高軸の方向における音指示子51の位置は指定音の音高に応じて決定され、時間軸の方向における音指示子51の長さは指定音の発音期間に応じて決定される。発音文字53は音指示子51の外側に配置される。
表示制御部22は、各指定音に指示された発音文字を構成する各音素の発音期間と音素記号63とを音指示子51に重ねて表示する。図8に示すように、音指示子51は、時間軸上で音素毎の区間(以下「音素区間」という)55に区分される。各音素に対応する音素区間55の長さは、その音素の発音期間に応じて可変に選定される。また、各音素の音素区間55と重なるようにその音素の音素記号63が配置される。1個の指定音に1個の音素のみが対応する場合(例えば図8の後方の指定音)には1個の音指示子51の全体が音素区間55に相当する。表示制御部22は、音素区間55の範囲内で利用者からの指示に応じて音素記号63を移動させる。第1実施形態と同様に、相前後する素片データPの時間長の比率は音素記号63の位置に応じて可変に制御される。
以上の形態においては、指定音の音高や発音期間を示す音指示子51が各音素の発音期間や音素記号63の表示に流用される。したがって、楽譜領域42と音素領域44とが個別に表示される第1実施形態と比較して編集画像40の内容が簡素化されて利用者による確認が容易化されるという利点がある。例えば、第3実施形態によれば、各指定音の音高と各音素の発音期間との関係を利用者が容易に確認することが可能である。
<D:第4実施形態>
次に、本発明の第4実施形態について説明する。利用者は、複数の指定音のうち相前後する各指定音の間のレガートの付加を入力装置14の操作で制御装置10に指示することが可能である。レガートは、音高が相違する2個の指定音を滑らかに連続して発音させる音楽的な表現である。
図9は、第4実施形態における楽譜領域42の模式図である。図9に示すように、表示制御部22は、レガートが指示された各指定音(先行音および後続音)の音指示子51を相互に連結する形状の連結部57を、各音指示子51とともに楽譜領域42内に配置する。連結部57は、先行音の音指示子51の端部(後端)と後続音の音指示子51の端部(前端)とを曲線状に連結する画像である。
表示制御部22は、第3実施形態と同様に、各指定音の音指示子51を音素毎の音素区間55に区分することで各音素の発音期間および音素記号63を楽譜領域42に表示させる。また、各指定音にレガートが付加される場合、表示制御部22は、各音指示子51と連結部57とを含む帯状の領域を、各音素の発音期間に応じた時間長の音素区間55に区分するとともに音素記号63を付加する。図9では、連結部57が音素[s]の音素区間55に相当する場合が例示されている。
また、表示制御部22は、第3実施形態と同様に、音素区間55の範囲内で利用者からの指示に応じて音素記号63を移動させる。音素記号63が連結部57に重なる場合、表示制御部22は、連結部57に沿うように音素記号63を移動させる。例えば、音素記号63の中心が連結部57の中心線(曲線)Lの線上に位置するように、表示制御部22は音素記号63を移動させる。音素記号63の時間軸上の位置に応じて各素片データPの時間長の比率を可変に制御する構成は第1実施形態と同様である。
以上の形態においては、レガートが指示された各指定音の音指示子51を連結するように連結部57が表示されるから、利用者は、連続的に発音される各指定音を楽譜領域42から直感的に把握することが可能である。また、音素記号63が連結部57に重なる場合には連結部57に沿うように音素記号63が移動するから、レガートが付加された指定音についても、利用者が各素片データPの境界を直感的に調整できるという利点がある。
<E:変形例>
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
(1)変形例1
第1実施形態では子音の音素[s]を例示したが、各素片データPの時間長の比率が制御される音素の種類は任意である。すなわち、音素[s]以外の摩擦音の音素や摩擦音以外の音素(例えば破裂音の音素や母音の音素)についても同様に、素片データPの時間長の比率を制御する第1実施形態の構成が適用される。
(2)変形例2
第1実施形態においては、素片データPの表す音声素片が1個または2個の音素で構成される場合を例示したが、3個以上の音素で構成される音声素片(音素連鎖)の素片データPを利用する場合にも以上の各形態が同様に適用される。
例えば、図10の例示のように子音の音素cが2個の母音の音素(v1,v2)に挟まれた音素連鎖(VCV型)の素片データPを音声合成に利用する構成では、中央の音素(図10では子音の音素c)を素片データPAと素片データPBとに区分することで以上の各形態を同様に適用できる。素片データPAは、子音の音素cの前半の区間に相当し、素片データPBは、子音の音素cの後半の区間に相当する。第1実施形態と同様に、子音の音素cの音素記号63の位置に応じて素片データPAと素片データPBとの時間長の比率が可変に制御される。
(3)変形例3
以上の各形態においては、素片データPAと素片データPBとの境界を音素記号63の位置に応じて変化させたが、素片データPAと素片データPBとの時間長の比率を変化させる方法は以上の例示に限定されない。例えば、図11に示すように、素片データPAと素片データPBとの重複の程度を音素記号63の位置に応じて変化させる構成も採用され得る。すなわち、音素[s]の音素記号63が右方に移動すると、素片調整部264は、図11に示すように、素片データPBのうち音素[s]の区間SBを維持したまま素片データPAの区間SAを伸長する(すなわち両者の時間長の比率を変化させる)。したがって、区間SAと区間SBとは部分的に重複する。音声合成部26は、素片データPAと素片データPBとが重複する部分については両者を加算(例えば加重和)することで音声信号SOUTを生成する。
(4)変形例4
第2実施形態においては音指示子51の始点と音素指示子61の始点とを連動させたが、音指示子51と音素指示子61とを連動させるか否かを(例えば利用者からの指示に応じて)切替える構成も採用され得る。例えば、特定の操作子を押下しながら利用者が音指示子51および音素指示子61の一方の始点を移動させた場合、表示制御部22は他方の始点を連動して移動させ、利用者がその操作子を押下せずに音指示子51および音素指示子61の一方の始点を移動させた場合、表示制御部22は他方の始点を連動させない。
(5)変形例5
各素片データPの時間長の比率を可変に制御する構成にとって、音指示子51を時系列に表示する機能は必須ではない。例えば、第1実施形態では編集画像40から楽譜領域42が省略され得る。すなわち、表示制御部22は、各音素の発音期間と音素記号63とを表示装置16に時系列に表示させる要素として包括される。音指示子51の時系列とは別個の音素指示子61が音素の発音期間や音素記号63の表示に利用されるか(第1実施形態,第2実施形態)、音指示子51の時系列(音素区間55)が音素の発音期間や音素記号63の表示に利用されるか(第3実施形態,第4実施形態)は本発明において不問である。また、音楽情報DSを利用者が編集する構成(情報生成部24)も省略され得る。
100……音声合成装置、10……制御装置、12……記憶装置、14……入力装置、16……表示装置、18……放音装置、22……表示制御部、24……情報生成部、26……音声合成部、262……素片選択部、264……素片調整部、266……合成処理部、40……編集画像、42……楽譜領域、44……音素領域、51……音指示子、53……発音文字、55……音素区間、57……連結部、61……音素指示子、63……音素記号。

Claims (4)

  1. 音高および発音文字が指示された各指定音の発音期間と、前記各指定音の発音文字に対応する複数の音素の各々音素記号および発音期間の始点とを、相異なる領域に、共通の時間軸のもとで表示装置に時系列に表示させ、母音および子音を含む前記各音素の発音期間の始点を利用者からの指示に応じて時間軸上で移動させる表示制御手段と、
    前記発音期間にわたる各音素の合成音を生成する音声合成手段と
    を具備する音声合成装置。
  2. 前記表示制御手段は、
    前記各音素で構成された発音文字が指示される複数の指定音の各々に対応して時系列に配列されて当該指定音の発音期間に応じて長さが選定された複数の音指示子を前記表示装置に表示させ、
    子音の音素の発音期間の始点を利用者からの指示に応じて移動させる一方、母音の音素の発音期間の始点の移動が利用者から指示された場合に、当該母音の音素の発音期間の始点に連動して、当該母音の音素に対応する指定音の音指示子の始点を移動させる
    請求項1の音声合成装置。
  3. 音高および発音文字が指示された各指定音の発音期間と、前記各指定音の発音文字に対応する複数の音素の各々音素記号および発音期間の始点とを、相異なる領域に、共通の時間軸のもとで表示装置に時系列に表示させ、母音および子音を含む前記各音素の発音期間の始点を利用者からの指示に応じて時間軸上で移動させる表示制御処理と、
    前記発音期間にわたる各音素の合成音を生成する音声合成処理と
    をコンピュータに実行させるプログラム。
  4. 音高および発音文字が指示された各指定音の発音期間と、前記各指定音の発音文字に対応する複数の音素の各々音素記号および発音期間の始点とを、相異なる領域に、共通の時間軸のもとで表示装置に時系列に表示させる一方、母音および子音を含む前記各音素の発音期間の始点を利用者からの指示に応じて時間軸上で移動させ、
    前記発音期間にわたる各音素の合成音を生成する
    音声合成方法。
JP2013210108A 2013-10-07 2013-10-07 音声合成装置、音声合成方法およびプログラム Active JP5641266B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013210108A JP5641266B2 (ja) 2013-10-07 2013-10-07 音声合成装置、音声合成方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013210108A JP5641266B2 (ja) 2013-10-07 2013-10-07 音声合成装置、音声合成方法およびプログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2009283699A Division JP5423375B2 (ja) 2009-12-15 2009-12-15 音声合成装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2014128317A Division JP5935831B2 (ja) 2014-06-23 2014-06-23 音声合成装置、音声合成方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2014002421A JP2014002421A (ja) 2014-01-09
JP5641266B2 true JP5641266B2 (ja) 2014-12-17

Family

ID=50035575

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013210108A Active JP5641266B2 (ja) 2013-10-07 2013-10-07 音声合成装置、音声合成方法およびプログラム

Country Status (1)

Country Link
JP (1) JP5641266B2 (ja)

Also Published As

Publication number Publication date
JP2014002421A (ja) 2014-01-09

Similar Documents

Publication Publication Date Title
JP6171711B2 (ja) 音声解析装置および音声解析方法
JP6236765B2 (ja) 音楽データ編集装置および音楽データ編集方法
JP5817854B2 (ja) 音声合成装置およびプログラム
JP5728913B2 (ja) 音声合成情報編集装置およびプログラム
JP5423375B2 (ja) 音声合成装置
JP6127371B2 (ja) 音声合成装置および音声合成方法
JP6507579B2 (ja) 音声合成方法
JP5625321B2 (ja) 音声合成装置およびプログラム
JP5636665B2 (ja) 音楽情報処理装置および音楽情報処理方法
JP5935831B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP6179221B2 (ja) 音響処理装置および音響処理方法
JP6255744B2 (ja) 楽曲表示装置および楽曲表示方法
JP5779838B2 (ja) 音響処理装置およびプログラム
JP5614262B2 (ja) 音楽情報表示装置
JP5157922B2 (ja) 音声合成装置、およびプログラム
JP5641266B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP5790860B2 (ja) 音声合成装置
WO2019239971A1 (ja) 情報処理方法、情報処理装置およびプログラム
JP5552797B2 (ja) 音声合成装置および音声合成方法
JP5782799B2 (ja) 音声合成装置
JP6439288B2 (ja) 合成情報管理装置および合成情報管理方法
JP2024057180A (ja) プログラム、音響処理方法および音響処理システム
JP6036903B2 (ja) 表示制御装置および表示制御方法
JP6149373B2 (ja) 音声合成データ編集装置および音声合成データ編集方法
JP6435791B2 (ja) 表示制御装置および表示制御方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131015

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20131015

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20131031

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131112

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131226

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140325

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140623

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20140701

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141001

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141014

R150 Certificate of patent or registration of utility model

Ref document number: 5641266

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150