JP5817854B2 - 音声合成装置およびプログラム - Google Patents

音声合成装置およびプログラム Download PDF

Info

Publication number
JP5817854B2
JP5817854B2 JP2014006983A JP2014006983A JP5817854B2 JP 5817854 B2 JP5817854 B2 JP 5817854B2 JP 2014006983 A JP2014006983 A JP 2014006983A JP 2014006983 A JP2014006983 A JP 2014006983A JP 5817854 B2 JP5817854 B2 JP 5817854B2
Authority
JP
Japan
Prior art keywords
phoneme
speech
time point
voice
operation position
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014006983A
Other languages
English (en)
Other versions
JP2014186307A (ja
Inventor
久湊 裕司
裕司 久湊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2014006983A priority Critical patent/JP5817854B2/ja
Priority to US14/185,448 priority patent/US9424831B2/en
Priority to EP14155877.5A priority patent/EP2770499B1/en
Priority to CN201410061929.5A priority patent/CN104021783B/zh
Publication of JP2014186307A publication Critical patent/JP2014186307A/ja
Application granted granted Critical
Publication of JP5817854B2 publication Critical patent/JP5817854B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0091Means for obtaining special acoustic effects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/02Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
    • G10H1/06Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour
    • G10H1/14Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour during execution
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H7/00Instruments in which the tones are synthesised from a data store, e.g. computer organs
    • G10H7/008Means for controlling the transition from one tone waveform to another
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/091Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith
    • G10H2220/096Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith using a touch screen
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/315Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
    • G10H2250/455Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis

Description

本発明は、音声を合成する技術に関する。
所望の文字列を発音した音声を合成する音声合成技術が従来から提案されている。例えば特許文献1には、楽曲を構成する音符毎に発音時点と発音文字(歌詞)とを指定した楽曲情報を事前に用意し、各音符の発音文字に対応する音声素片を時間軸上の発音時点に配置して相互に連結することで楽曲の歌唱音を合成する素片接続型の音声合成技術が開示されている。
特開2002−202790号公報
しかし、特許文献1の技術では、音符毎に事前に設定された発音時点および発音文字の歌唱音が生成され、音声合成の段階で各発音文字の発音時点を実時間的に変更することはできない。以上の事情を考慮して、本発明は、合成音声の発音時点を利用者が実時間的に変更できるようにすることを目的とする。
以上の課題を解決するために、本発明の音声合成装置は、利用者による操作に応じて移動する操作位置を特定する操作特定手段と、第1音素(例えば音素Q1)に第2音素(例えば音素Q2)が後続する音声が指示された場合に、操作位置が基準位置に到達する指示時点の到来前に第1音素が発音されるとともに指示時点の到来により第1音素から第2音素に遷移する音声の音声信号を生成する音声合成手段とを具備する。以上の構成によれば、第1音素から第2音素に遷移する時点を利用者による操作に応じて実時間的に制御することが可能である。
本発明の好適な態様に係る音声合成装置は、操作位置の移動速度に応じて指示時点を予測する動作予測手段を具備する。以上の態様では、実際に操作位置が基準位置に到達する以前に指示時点が予測されるから、利用者が意図した時点から実際に第2音素が開始されるまでの遅延を低減することが可能である。なお、第1音素および第2音素の各々は、典型的には1個の音素で構成されるが、複数の音素の系列(音素群)を第1音素または第2音素とすることも可能である。
本発明の好適な態様において、操作予測手段は、操作位置が予測開始位置から予測実行位置に移動する時間長に応じて指示時点を予測する。更に好適な態様において、操作予測手段は、第1音素の種類に応じて予測実行位置を可変に設定する。以上の構成では、操作経路のうち第1音素の種類に応じた適切な区間内の操作位置の移動を指示時点の予測に反映させることが可能である。なお、「音素の種類に応じて予測実行位置を可変に設定する」とは、第1音素が特定の音素Aである場合と第1音素が音素Aとは相違する音素Bである場合とで予測実行位置が相違することを意味し、全部の種類の音素について予測実行位置が相違することまでは必要ではない。
本発明の好適な態様において、音声合成手段は、基準位置に向けて移動する操作位置が発音開始位置を通過する時点にて第1音素を終点側に含む音声素片(例えば音声素片VA)を発音させる。更に好適な態様において、音声合成手段は、第1音素の種類に応じて発音開始位置を可変に設定する。以上の態様では、第1音素の種類に応じた適切な時点で第1音素の発音を開始させることが可能である。なお、「音素の種類に応じて発音開始位置を可変に設定する」とは、第1音素が特定の音素Aである場合と第1音素が音素Aとは相違する音素Bである場合とで発音開始位置が相違することを意味し、全部の種類の音素について発音開始位置が相違することまでは必要ではない。
本発明の好適な態様において、音声合成手段は、相異なる音高に対応する複数の操作経路のうち利用者が操作位置を移動させる対象操作経路に対応した音高の音声信号を生成する。以上の態様では、利用者が操作位置を移動させる対象操作経路に対応する音高の音声が生成されるから、音声の発音時点に加えて音声の音高も利用者が実時間的に制御できるという利点がある。なお、以上の態様の具体例は、例えば第2実施形態として後述される。
本発明の好適な態様において、音声合成手段は、相異なる発音符号に対応する複数の操作経路のうち利用者が操作位置を移動させる対象操作経路に対応した発音符号の音声信号を生成する。以上の態様では、利用者が操作位置を移動させる対象操作経路に対応する発音符号の音声信号が生成されるから、音声の発音時点に加えて音声の発音符号も利用者が実時間的に制御できるという利点がある。なお、以上の態様の具体例は、例えば第3実施形態として後述される。
本発明の好適な態様において、音声合成手段は、基準位置に向かう操作経路に交差する方向における操作位置に応じた音高の音声信号を生成する。以上の態様では、操作経路に交差する方向(例えばY軸の方向)における操作位置に応じた音高の音声が生成されるから、音声の発音時点に加えて音声の音高も利用者が実時間的に制御できるという利点がある。なお、以上の態様の具体例は、例えば第5実施形態として後述される。
本発明の好適な態様において、音声合成手段は、第1音素に第2音素が後続する音声と、第3音素に第4音素が後続する音声とが指示された場合に、操作位置が操作経路上を第1方向に移動して第1基準位置に到達する指示時点の到来前に第1音素が発音されるとともに当該指示時点の到来により第1音素から第2音素に遷移する音声の音声信号を生成し、第1方向とは反対の第2方向に操作位置が操作経路上を移動して第2基準位置に到達する指示時点の到来前に第3音素が発音されるとともに当該指示時点の到来により第3音素から第4音素に遷移する音声の音声信号を生成する。以上の態様では、操作位置を第1方向に移動させる操作で第1音素から第2音素に遷移する時点が制御され、操作位置を第2方向に移動させる操作で第3音素から第4音素に遷移する時点が制御される。したがって、利用者が各音声の発音時点を指示する操作の負担を軽減することが可能である。
以上の各態様に係る音響合成装置は、音声信号の生成に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)等の汎用の演算処理装置とプログラムとの協働によっても実現される。具体的には、本発明のプログラムは、利用者による操作に応じて移動する操作位置を特定する操作特定処理と、第1音素に第2音素が後続する音声が指示された場合に、操作位置が基準位置に到達する指示時点の到来前に第1音素が発音されるとともに指示時点の到来により第1音素から第2音素に遷移する音声の音声信号を生成する音声合成処理とをコンピュータに実行させる。以上の態様に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、例えば、本発明のプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。
第1実施形態の音声合成装置のブロック図である。 操作位置の説明図である。 操作予測部の動作の説明図である。 発音符号(音素)と音声素片との関係の説明図である。 音声合成部の動作の説明図である。 音声合成部の動作の説明図である。 合成処理のフローチャートである。 第2実施形態における操作画面の模式図である。 第3実施形態における操作画面の模式図である。 第4実施形態における音声合成部の動作の説明図である。 第5実施形態における操作画面の説明図である。
<第1実施形態>
図1は、本発明の第1実施形態に係る音声合成装置100のブロック図である。図1に示すように、音声合成装置100は、楽曲を歌唱した音声の波形を示す音声信号Zを生成する信号処理装置であり、演算処理装置10と記憶装置12と表示装置14と操作装置16と放音装置18とを具備するコンピュータシステムで実現される。演算処理装置10は、音声合成装置100の各要素を統括的に制御する制御装置である。
表示装置14(例えば液晶表示パネル)は、演算処理装置10から指示された画像を表示する。操作装置16は、音声合成装置100に対する利用者からの指示を受付ける入力機器であり、利用者による操作に応じた操作信号Mを生成する。第1実施形態では、表示装置14と一体に構成されたタッチパネルを操作装置16として例示する。すなわち、操作装置16は、表示装置14の表示面に対する利用者の手指の接触を検知するとともに接触の位置に応じた操作信号Mを出力する。放音装置18(例えばスピーカやヘッドホン)は、演算処理装置10が生成した音声信号Zに応じた音波を再生する。なお、演算処理装置10が生成した音声信号Zをデジタルからアナログに変換するD/A変換器の図示は便宜的に省略した。
記憶装置12は、演算処理装置10が実行するプログラムPGMや演算処理装置10が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置12として任意に採用される。第1実施形態の記憶装置12は、音声素片群Lと合成情報Sとを記憶する。音声素片群Lは、音声信号Zの合成用素材として利用される複数の音声素片Vの集合(音声合成ライブラリ)である。音声素片Vは、音韻論的な区別の最小単位である音素(例えば母音や子音)の単体や複数の音素を連結した音素連鎖(例えばダイフォンやトライフォン)である。
合成情報Sは、楽曲の内容(旋律や歌詞)を指定する時系列データであり、楽曲毎に事前に生成されて記憶装置12に記憶される。図1に示すように、合成情報Sは、楽曲の歌唱パートの旋律を構成する複数の音符の各々について音高SAと発音符号SBとを指定する。音高SAは、音符の音高を意味する数値(例えばノートナンバ)である。発音符号SBは、音符の発音とともに発声すべき発音内容を指示する符号である。第1実施形態の発音符号SBは、楽曲の歌詞を構成する1個の音節(発音単位)に相当する。合成情報Sを利用した音声合成で楽曲の歌唱音の音声信号Zが生成される。第1実施形態では、操作装置16に対する利用者からの指示に応じて楽曲の各音符の発音時点が制御される。したがって、楽曲を構成する複数の音符の順番は合成情報Sで指定されるが、各音符の発音時点や継続長は合成情報Sでは指定されない。
演算処理装置10は、記憶装置12に記憶されたプログラムPGMを実行することで、音声信号Zを生成するための複数の機能(操作特定部22,表示制御部24,操作予測部26,音声合成部28)を実現する。なお、演算処理装置10の各機能を複数の集積回路に分散した構成や、専用の電子回路(例えばDSP)が演算処理装置10の一部の機能を担当する構成も採用され得る。
表示制御部24は、操作装置16の操作時に利用者が視認する図2の操作画面50Aを表示装置14に表示させる。図2の操作画面50Aは、端部(左端)ELと端部(右端)ERとの間でX方向に延在する直線(以下「操作経路」という)Gと、操作経路G上に配置された操作図像52(ポインター)とを含むスライダ型の画像である。図1の操作特定部22は、操作装置16から供給される操作信号Mに応じて操作経路Gのうち利用者が指示した位置(以下「操作位置」という)Pを特定する。利用者は、表示装置14の表示面のうち操作経路G上の任意の位置に手指を接触させることで当該位置を操作位置Pとして指示し、表示面に接触した状態を維持したまま手指を操作経路Gに沿って移動させる(ドラッグ操作)ことで操作位置Pを端部ELと端部ERとの間でX方向に移動させることが可能である。すなわち、操作特定部22は、操作装置16に対する利用者からの操作に応じてX方向に移動する操作位置Pを特定する。表示制御部24は、操作経路Gのうち操作特定部22が特定した操作位置Pに操作図像52を配置する。すなわち、操作図像52は、操作位置Pを表現する図形(図2の例示では円形)であり、操作装置16に対する利用者からの指示に応じて端部ELと端部ERとの間でX方向に移動する。
利用者は、音声信号Zの再生に並行して操作装置16を操作して操作位置Pを移動させることで、合成情報Sが指定する各音符の発音時点を任意に指示することが可能である。具体的には、楽曲内の1個の音符の発音が開始される時点として利用者が希望する任意の時点(以下「指示時点」という)TBにて操作位置Pが操作経路G上の特定の位置(以下「基準位置」という)PBに到達するように、利用者は、基準位置PB以外の位置から基準位置PBに向けて操作位置Pを移動させる。第1実施形態では、図2に示すように、操作経路Gの端部(右端)ERを基準位置PBとして例示する。すなわち、利用者は、楽曲内の1個の音符の所望の指示時点TBの到来前に、表示面の端部ELの位置に手指を接触させて操作位置Pを端部ELに設定し、操作位置Pが所望の指示時点TBにて基準位置PB(端部ER)に到達するように、表示面に接触した状態で手指をX方向に移動させる。以上のように操作位置Pを基準位置PBまで移動させる操作(以下「発音指示操作」という)を、音声信号Zの再生に並行して音符毎(歌詞の音節毎)に逐次的に反復することで、発音指示操作毎に設定される指示時点TBが楽曲内の各音符の発音時点として指示される。
図1の操作予測部26は、基準位置PB(端部ER)に到達する以前の操作位置Pの移動速度νに応じて、操作位置Pが実際に基準位置PBに到達する以前に指示時点TBを予測(推定)する。具体的には、操作予測部26は、操作経路G上に設定された予測開始位置CSから予測実行位置CEまでの距離δを操作位置Pが移動する時間長τに応じて指示時点TBを予測する。第1実施形態では、図2に示すように、操作経路Gの端部(左端)ELを予測開始位置CSとして想定する。他方、予測実行位置CEは、操作経路Gのうち予測開始位置CS(端部EL)から基準位置PB(端部ER)までの途中の時点である。
図3は、操作予測部26の動作の説明図であり、操作位置P(横軸)の時間変化を意味する。図3に示すように、操作予測部26は、発音指示操作により操作位置Pが時点TSにて予測開始位置CSを出発してから時点TEにて予測実行位置CEを通過するまでに経過した時間長τを計測し、予測開始位置CSと予測実行位置CEとの距離δを時間長τで除算することで操作位置Pの移動速度νを算定する。そして、操作予測部26は、操作位置Pが予測開始位置CSから移動速度νの等速でX方向に移動したと仮定した場合に操作位置Pが基準位置PBに到達する時刻を指示時点TBとして算定する。なお、以上の例示では操作位置Pの移動速度νが一定であると仮定したが、移動速度νの経時的な増加や減少を加味して指示時点TBを予測することも可能である。
図1の音声合成部28は、合成情報Sで指定された楽曲を歌唱した音声の音声信号Zを生成する。第1実施形態の音声合成部28は、記憶装置12に記憶された音声素片群Lの各音声素片Vを相互に接続する素片接続型の音声合成により音声信号Zを生成する。具体的には、音声合成部28は、合成情報Sが音符毎に指定する発音符号SBに対応した音声素片Vを音声素片群Lから順次に選択し、各音符に指定された音高SAに各音声素片Vを調整して相互に連結することで音声信号Zを生成する。音声信号Zにおいて各音符が発音される時点(各音声素片Vが配置される時間軸上の位置)は、当該音符に対応する発音指示操作の実行時に操作予測部26が予測した指示時点TBに応じて制御される。
図4に示すように、音素Q1に音素Q2が後続する発音符号SBが合成情報Sにて指定された音符に着目して操作予測部26および音声合成部28の動作を説明する。日本語の歌詞を想定すると、典型的には音素Q1は子音であり音素Q2は母音である。例えば、発音符号SBが音節「さ[s-a]」である場合、子音の音素/s/(Q1)に母音の音素/a/(Q2)が後続する。図4に示すように、音声合成部28は、発音符号SBに対応する音声素片VAおよび音声素片VBを音声素片群Lから選択する。音声素片VAおよび音声素片VBの各々は、図4に示すように、当該素片の始点側の音素(以下「前方音素」という)と終点側の音素(以下「後方音素」という)とを連結した音素連鎖(ダイフォン)である。
音声素片VAの後方音素は発音符号SBの音素Q1に相当する。また、音声素片VBの前方音素は発音符号SBの音素Q1に相当し、音声素片VBの後方音素は発音符号SBの音素Q2に相当する。例えば、前掲の例示のように音素/s/(Q1)に音素/a/(Q2)が後続する発音符号SB(音節「さ[s-a]」)に着目すると、後方音素が音素/s/である音素連鎖/*-s/が音声素片VAとして選択され、前方音素が音素/s/であり後方音素が音素/a/である音素連鎖/s-a/が音声素片VBとして選択される。なお、音声素片VAの前方音素に付与された記号「*」は、直前の発音符号SBに対応する特定の音素Q2または無音/#/を意味する。
ところで、例えば母音が子音に後続する音節を歌唱する場合を想定すると、実際の楽曲の歌唱では、当該音節内の子音の発音が各音符の始点から開始されるのではなく、音節内の母音(すなわち音節内の後方の音素)の発音が各音符の始点にて開始されるという傾向がある。以上の傾向が再現されるように、第1実施形態の音声合成部28は、発音符号SBの音素Q1の発音が指示時点TBの到来前に開始されるとともに発音符号SBの音素Q2の発音が指示時点TBで開始されるように音声信号Zを生成する。具体的には以下の通りである。
利用者は、操作装置16を適宜に操作することで、操作経路Gの端部EL(予測開始位置CS)から基準位置PBに向けてX方向に操作位置Pを移動させる。図5から理解される通り、音声合成部28は、操作経路G上に設定された特定の位置(以下「発音開始位置」という)PAを操作位置Pが通過する時点TAから音声素片VA(前方音素/*/)が開始するように音声信号Zを生成する。すなわち、音声素片VAの始点は、操作位置Pが発音開始位置PAを通過する時点TAに略一致する。
音声合成部28は、操作経路G上の発音開始位置PAを音素Q1の種類に応じて可変に設定する。例えば、発音開始位置PAを音素Q1の種類毎に登録したテーブルが記憶装置12に記憶され、合成情報Sで指定される発音符号SBの音素Q1に対応する発音開始位置PAを、音声合成部28が記憶装置12のテーブルから特定する。音素Q1の種類と発音開始位置PAとの関係は任意であるが、例えば、音響特性が短時間で非定常に変動して時間的な持続性が低い破裂音や破擦音等の音素の発音開始位置PAは、定常的に発音が継続され得る摩擦音や鼻音等の音素の発音開始位置PAと比較して時間的に後方に位置する。具体的には、破裂音の音素/t/の発音開始位置PAは操作経路Gの端部ELから50%の地点に設定され、摩擦音の音素/s/の発音開始位置PAは操作経路Gの端部ELから20%の地点に設定される。ただし、各音素の発音開始位置PAは以上の例示(50%,20%)に限定されない。
発音指示操作により操作位置PがX方向に移動して予測実行位置CEを通過すると、操作予測部26は、操作位置Pが予測開始位置CSを通過(出発)した時点TSと予測実行位置CEを通過した時点TEとの間の時間長τに応じて、操作位置Pが基準位置PBに到達する指示時点TBを算定する。
操作予測部26は、操作経路G上の予測実行位置CE(距離δ)を音素Q1の種類に応じて可変に設定する。例えば、予測実行位置CEを音素Q1の種類毎に登録したテーブルが記憶装置12に記憶され、合成情報Sで指定される発音符号SBの音素Q1に対応する予測実行位置CEを、操作予測部26が記憶装置12のテーブルから特定する。音素Q1の種類と予測実行位置CEとの関係は任意であるが、例えば、音響特性が短時間で非定常に変動して時間的な持続性が低い破裂音や破擦音等の音素の予測実行位置CEは、定常的に発音が継続され得る摩擦音や鼻音等の音素の予測実行位置CEと比較して端部EL側に位置する。
音声合成部28は、図5に示すように、操作予測部26が特定した指示時点TBから音声素片VBの音素Q2が開始するように音声信号Zを生成する。具体的には、発音開始位置PAにて開始した音声素片VAの音素Q1に引続いて音声素片VBの音素(前方音素)Q1の発音が指示時点TBの到来前に開始し、かつ、音声素片VBの音素Q1が指示時点TBにて音素(後方音素)Q2に遷移する。すなわち、音声素片VBの音素Q2の始点(音素Q1と音素Q2との境界)は、操作予測部26が特定した指示時点TBに略一致する。
音声合成部28は、指示時点TBまで音素Q1が継続するように音声素片VAの音素Q1と音声素片VBの音素Q1とを時間軸上で適宜に伸縮する。例えば、音声素片VAおよび音声素片VBの一方または双方の音素Q1のうち音響特性が定常的に維持される区間(例えば音声素片VBの音素Q1のうち始点側の区間)を時間軸上で反復させることで音素Q1が伸長され、当該区間内の音声を適宜に間引くことで音素Q2が短縮される。以上の説明から理解される通り、音声合成部28は、操作位置Pが基準位置PBに到達すると予測される指示時点TBの到来前に音素Q1の発音が開始されるとともに指示時点TBの到来により音素Q1から音素Q2に遷移する音声の音声信号Zを生成する。
合成情報Sが指定する音符毎に発音指示操作に応じた以上の処理が順次に反復される。図6は、「さかな[s-a][k-a][n-a]」という歌詞が合成情報Sで指定された場合の各音素(音声素片V)の発音の時点を例示する説明図である。具体的には、楽曲内の音符N1の発音符号SB1として音節「さ[s-a]」が指定され、音符N2の発音符号SB2として音節「か[k-a]」が指定され、音符N3の発音符号SB3として音節「な[n-a]」が指定される。
図6から理解される通り、音節「さ[s-a]」が指定された音符N1について利用者が発音指示操作OP1を実行すると、音素/s/(Q1)に対応する発音開始位置PA[s]を操作位置Pが通過する時点TA1において、無音/#/と音素/s/とが連続する音声素片/#-s/(音声素片VA)の発音が開始される。そして、音素/s/と音素/a/(Q2)とが連続する音声素片/s-a/(音声素片VB)の音素/s/の発音が音声素片/#-s/の発音の直後に開始され、音素/s/に対応する予測実行位置CE[s]を操作位置Pが通過する時点TEで操作予測部26が特定した指示時点TB1において、音声素片/s-a/の音素/a/の発音が開始される。
同様に、音節「か[k-a]」が指定された音符N2の発音指示操作OP2では、音素/k/(Q1)に対応する発音開始位置PA[k]を操作位置Pが通過する時点TA2を契機として音声素片/a-k/(音声素片VA)および音声素片/k-a/(音声素片VB)の発音が順次に開始され、かつ、音素/k/に対応する予測実行位置CE[k]を操作位置Pが通過する時点TEで特定された指示時点TB2において音声素片/k-a/の音素/a/(Q2)が開始される。また、音節「な[n-a]」が指定された音符N3の発音指示操作OP3では、音素/n/(Q1)の発音開始位置PA[n]を操作位置Pが通過する時点TA3を契機として音声素片/a-n/(音声素片VA)および音声素片/n-a/(音声素片VB)の発音が順次に開始され、かつ、音素/n/の予測実行位置CE[n]を操作位置Pが通過する時点TEで特定された指示時点TB3にて音声素片/n-a/の音素/a/(Q2)が開始される。
図7は、操作予測部26および音声合成部28が実行する処理(以下「合成処理」という)のフローチャートである。合成情報Sが時系列に指定する音符毎に図7の合成処理が実行される。合成処理を開始すると、音声合成部28は、処理対象の音符の発音符号SBに対応した音声素片V(VA,VB)を音声素片群Lから選択する(S1)。
音声合成部28は、操作特定部22により特定される操作位置Pが予測開始位置CSを出発するまで待機し(S2:NO)、操作位置Pが予測開始位置CSを出発した場合(S2:YES)には操作位置Pが発音開始位置PAに到達するまで待機する(S3:NO)。操作位置Pが発音開始位置PAに到達すると(S3:YES)、音声合成部28は、音声素片VAが開始するように音声信号Zを生成する(S4)。
操作予測部26は、発音開始位置PAを通過した操作位置Pが予測実行位置CEに到達するまで待機し(S5:NO)、操作位置Pが予測実行位置CEに到達した場合(S5:YES)に、操作位置Pが基準位置PBに到達する指示時点TBを予測する(S6)。音声合成部28は、指示時点TBの到来前に音声素片VBの音素Q1が開始するとともに指示時点TBから音声素片VBの音素Q2が開始するように音声信号Zを生成する(S7)。
以上に説明した通り、第1実施形態では、発音符号SBの各音素の発音時点(時点TA,指示時点TB)が発音指示操作に応じて制御されるから、音声信号Zにおける各音符の発音時点を実時間的に変更できるという利点がある。また、第1実施形態では、音素Q2が音素Q1に後続する発音符号SBの音声の合成が指示された場合に、操作位置Pが基準位置PBに到達する指示時点TBの到来前に音素Q1の発音が開始され、かつ、指示時点TBの到来により音素Q1から音素Q2に遷移するように音声信号Zが生成される。したがって、例えば母音が子音に後続する音節を歌唱する場合に音符の開始前に子音の発音が開始するとともに音符の始点にて母音の発音が開始する、という傾向を再現した聴感的に自然な音声信号Zを生成できるという利点がある。
ところで、第1実施形態では、音素Q2の直前に音素Q1が位置する音声素片VB(ダイフォン)が音声信号Zの生成に利用されるから、操作位置Pが実際に基準位置PBに到達した時点(以下「実指示時点」という)で音声素片VBの発音を開始させる構成では、音声素片VBの音素(前方音素)Q1の時間分だけ実指示時点から経過した時点で音素(後方音素)Q2の発音が開始される。すなわち、音素Q2の発音の開始が実指示時点から遅延する。他方、第1実施形態では、操作位置Pが実際に基準位置PBに到来する以前に指示時点TBが予測されるから、指示時点TBの到来前から音声素片VBの音素Q1の発音を開始するとともに音声素片VBの音素Q2の発音を指示時点TBにて開始することが可能である。したがって、利用者が意図した時点(操作位置Pが基準位置PBに到達する時点)に対する音素Q2の遅延を低減できるという利点がある。
また、第1実施形態では、音素Q1の種類に応じて操作経路G上の発音開始位置PAが可変に制御される。したがって、音素Q1の種類に応じた適切な時点で音素Q1の発音を開始できるという利点がある。また、第1実施形態では、音素Q1の種類に応じて操作経路G上の予測実行位置CEが可変に制御される。したがって、操作経路Gのうち音素Q1の種類に応じた適切な区間を指示時点TBの予測に反映させることが可能である。
<第2実施形態>
本発明の第2実施形態を以下に説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同等である要素については、第1実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
図8は、第2実施形態における操作画面50Bの模式図である。図8に示すように、第2実施形態の操作画面50Bには、相異なる音高SA(C,D,E,……)に対応する複数の操作経路Gが配置される。利用者は、操作画面50B内の複数の操作経路Gのうち所望の音高SAに対応する1個の操作経路(以下「対象操作経路」という)Gを選択して第1実施形態と同様に発音指示操作を実行する。操作特定部22は、操作画面50B内の複数の操作経路Gのうち利用者が選択した対象操作経路G上の操作位置Pを特定し、表示制御部24は、対象操作経路Gの操作位置Pに操作図像52を配置する。すなわち、対象操作経路Gは、操作位置Pを移動させる発音指示操作の対象として利用者が選択した操作経路Gである。対象操作経路Gの選択(音高SAの選択)と対象操作経路Gに対する発音指示操作とが楽曲内の音符毎に順次に実行される。
第2実施形態の音声合成部28は、複数の操作経路Gのうち利用者が選択した対象操作経路Gに対応する音高SAの音声信号Zを生成する。すなわち、音声信号Zが示す各音符の音高が、複数の操作経路Gのうち当該音符の発音指示操作の対象として利用者が選択した対象操作経路Gの音高SAに設定される。各音符の発音符号SBや発音時点に関連する処理は第1実施形態と同様である。以上の説明から理解される通り、第1実施形態では楽曲の各音符の音高SAが合成情報Sで事前に指定されるのに対し、第2実施形態では、利用者による対象操作経路Gの選択で楽曲の各音符の音高SAが実時間的に(すなわち、音声信号Zの生成に並行して音符毎に逐次的に)指定される。したがって、第2実施形態の合成情報Sでは音符毎の音高SAの指定が省略され得る。
第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態では、複数の操作経路Gのうち利用者が選択した対象操作経路Gに対応する音高SAの音声信号Zが生成される。したがって、楽曲の各音符の発音時点に加えて各音符の音高SAも利用者が実時間的に容易に指定できるという利点がある。
<第3実施形態>
図9は、第3実施形態における操作画面50Cの模式図である。図9に示すように、第3実施形態の操作画面50Cには、相異なる発音符号SB(音節)に対応する複数の操作経路Gが配置される。利用者は、操作画面50C内の複数の操作経路Gのうち所望の発音符号SBに対応する1個の操作経路Gを対象操作経路Gとして選択して第1実施形態と同様に発音指示操作を実行する。操作特定部22は、操作画面50C内の複数の操作経路Gのうち利用者が選択した対象操作経路G上の操作位置Pを特定し、表示制御部24は、対象操作経路Gの操作位置Pに操作図像52を配置する。対象操作経路Gの選択(発音符号SBの選択)と対象操作経路Gに対する発音指示操作とが楽曲内の音符毎に順次に実行される。
第3実施形態の音声合成部28は、複数の操作経路Gのうち利用者が選択した対象操作経路Gに対応する発音符号SBの音声信号Zを生成する。すなわち、音声信号Zが示す各音符の発音符号が、複数の操作経路Gのうち当該音符の発音指示操作の対象として利用者が選択した対象操作経路Gの発音符号SBに設定される。各音符の音高SAや発音時点に関連する処理は第1実施形態と同様である。以上の説明から理解される通り、第1実施形態では楽曲の各音符の発音符号SBが合成情報Sで事前に指定されるのに対し、第3実施形態では、利用者による対象操作経路Gの選択で楽曲の各音符の発音符号SBが実時間的に(すなわち、音声信号Zの生成に並行して音符毎に逐次的に)指定される。したがって、第3実施形態の合成情報Sでは音符毎の発音符号SBの指定が省略され得る。
第3実施形態においても第1実施形態と同様の効果が実現される。また、第3実施形態では、複数の操作経路Gのうち利用者が選択した対象操作経路Gに対応する発音符号SBの音声信号Zが生成される。したがって、楽曲の各音符の発音時点に加えて各音符の発音符号SBも利用者が実時間的に容易に指定できるという利点がある。
<第4実施形態>
第1実施形態では、操作経路Gの端部ELから端部ERに向かう方向(以下「XR方向」という)に操作位置Pを移動させる発音指示操作に応じて各音符の発音時点を制御したが、端部ERから端部ELに向かう方向(以下「XL方向」という)に操作位置Pを移動させる発音指示操作に応じて各音符の発音時点を制御することも可能である。第4実施形態では、XR方向の発音指示操作とXL方向の発音指示操作との各々に応じて各音符の発音時点を制御する。具体的には、利用者は、発音指示操作で操作位置Pを移動させる方向を音符毎に反転させる。例えば楽曲内の奇数番目の各音符についてはXR方向の発音指示操作が実行され、偶数番目の各音符についてはXL方向の発音指示操作が実行される。すなわち、操作位置P(操作図像52)は端部ELと端部ERとの間で往復する。
図10に示すように、楽曲内で相前後する音符N1および音符N2に着目する。音符N2は音符N1の直後に位置する。音素Q1に音素Q2が後続する発音符号SB1が音符N1に指定され、音素Q3に音素Q4が後続する発音符号SB2が音符N2に指定された場合を想定する。例えば、「さか[s-a][k-a]」という歌詞を想定すると、発音符号SB1に相当する音節「さ[s-a]」は音素/s/(Q1)と音素/a/(Q2)とで構成され、発音符号SB2に相当する音節「か[k-a]」は音素/k/(Q3)と音素/a/(Q4)とで構成される。利用者は、音符N1について、端部ELから端部ERに向かうXR方向に操作位置Pを移動させる発音指示操作(XR方向の発音指示操作)を実行し、直後の音符N2について、端部ERから端部ELに向かうXL方向に操作位置Pを移動させる発音指示操作(XL方向の発音指示操作)を実行する。
利用者が音符N1についてXR方向の発音指示操作を開始すると、操作予測部26は、XR方向の下流側に位置する端部ERを基準位置PB1(第1基準位置)として、操作位置Pが基準位置PB1に到達する時点を指示時点TB1として特定する。音声合成部28は、指示時点TB1の到来前に音符N1の発音符号SB1の音素Q1が発音されるとともに指示時点TB1にて音素Q1から音素Q2に遷移する音声の音声信号Zを生成する。
他方、利用者が操作位置Pの移動方向を反転させて音符N2についてXL方向の発音指示操作を開始すると、操作予測部26は、XL方向の下流側に位置する端部ELを基準位置PB2(第2基準位置)として、操作位置Pが基準位置PB2に到達する時点を指示時点TB2として特定する。音声合成部28は、指示時点TB2の到来前に音符N2の発音符号SB2の音素Q3が発音されるとともに指示時点TB2にて音素Q3から音素Q4に遷移する音声の音声信号Zを生成する。
楽曲内で相前後する2個の音符(N1,N2)の対毎に以上の処理が実行されることで、楽曲内の各音符の発音時点がXR方向およびXL方向の一方の発音指示操作(操作位置Pの往復操作)に応じて制御される。
第4実施形態においても第1実施形態と同様の効果が実現される。また、第4実施形態では、操作位置Pの往復で楽曲内の各音符の発音時点が指示されるから、楽曲内の音符毎に操作位置Pを一方向に移動させる構成と比較して利用者による発音指示操作(手指を音符毎に移動させる動作)の負担が軽減されるという利点がある。
<第5実施形態>
前述の第2実施形態では、複数の操作経路Gのうち利用者が選択した対象操作経路Gに対応する音高SAの音声信号Zを生成した。第5実施形態では、1個の操作経路Gが表示装置14に表示され、操作経路Gに交差する方向における操作位置Pに応じて音声信号Zの音高SAが制御される。
第5実施形態の表示制御部24は、図11の操作画面50Dを表示装置14に表示させる。操作画面50Dは、相互に交差(典型的には直交)するX軸とY軸とが設定された操作領域54に1個の操作経路Gを配置した画像である。操作経路GはX軸に平行に配置される。したがって、Y軸の方向は、基準位置PBに向かう操作経路Gに交差する方向に相当する。利用者は、操作領域54内の任意の位置を操作位置Pとして指示することが可能である。操作特定部22は、操作位置Pに対応するX軸上の位置PXとY軸上の位置PYとを特定し、表示制御部24は、操作領域54内の操作位置P(PX,PY)に操作図像52を配置する。
操作予測部26は、操作位置Pに対応するX軸上の位置PXに応じて、第1実施形態と同様の方法で指示時点TBを特定する。また、第5実施形態の音声合成部28は、操作位置Pに対応するY軸上の位置PYに応じた音高SAの音声信号Zを生成する。以上の説明から理解される通り、操作領域54のX軸は時間軸に相当し、Y軸は音高軸に相当する。
具体的には、図11に例示される通り、操作領域54は、相異なる音高に対応する複数の領域56に区分される。各領域56は、Y軸の方向に並列されてX軸に沿う帯状の領域である。音声合成部28は、操作領域54の複数の領域56のうち操作位置Pを包含する領域56に対応した音高(すなわち位置PYに応じた音高)SAの音声信号Zを生成する。具体的には、例えば、操作経路G上の所定の地点(例えば基準位置PBや発音開始位置PA等)に位置PXが到達した時点で操作位置Pが包含される領域56に対応した音高SAの音声信号Zが生成される。すなわち、操作位置P(位置PX)が所定の地点に到達した時点で音高SAが確定する。以上に例示される通り、第5実施形態では、操作位置Pに応じて音高SAが制御されるから、第2実施形態と同様に、合成情報Sにおける音符毎の音高SAの指定は省略され得る。
以上の説明から理解される通り、利用者は、操作装置16に対する操作により操作位置Pを操作領域54内の任意の地点に移動させることで、操作位置PのX軸上の位置PXに応じて第1実施形態と同様に各音符(音素)の発音時点を実時間的に指示できるほか、操作位置PのY軸上の位置PYに応じて楽曲の各音符の音高SAを実時間的に指示することが可能である。すなわち、第5実施形態においても第2実施形態と同様の効果が実現される。
<変形例>
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を適宜に併合することも可能である。
(1)前述の各形態では、音素Q1の種類毎に発音開始位置PAおよび予測実行位置CEを設定したが、発音符号SBを構成する音素Q1と音素Q2との組合せ毎に発音開始位置PAや予測実行位置CEを相違させることも可能である。
(2)操作画面50(50A,50B,50C,50D)に対する操作に応じて音声信号Zの音響特性を制御することも可能である。例えば、発音指示操作の実行中または実行後に、X方向に交差するY方向(縦方向)に利用者が操作位置Pを往復させた場合に、音声合成部28が音声信号Zにビブラートを付加する構成が採用される。具体的には、操作位置PのY方向の往復の振幅に応じた深度(音高の変動範囲)で操作位置Pの往復の周期に応じた速度(音高の変動周期)のビブラートが音声信号Zに付加される。また、例えば発音指示操作の実行中または実行後に利用者が操作位置PをY方向に移動させた場合に、Y方向の移動量に応じた程度の音響効果(例えば残響効果)を音声合成部28が音声信号Zに付加することも可能である。
(3)前述の各形態では、操作装置16としてタッチパネルを想定し、表示装置14が表示する操作画面50に対して利用者が発音指示操作を実行する場合を例示したが、利用者が現実に操作する操作子を具備する操作装置16を採用することも可能である。例えば、操作子(ツマミ)を直線的に移動させるスライダ型の操作装置16を想定すると、操作子の位置が前述の各形態の操作位置Pに相当する。また、例えばマウス等のポインティングデバイスを操作装置16として利用して利用者が操作位置Pを指示することも可能である。
(4)前述の各形態では、実際に操作位置Pが基準位置PBに到達する以前に指示時点TBを予測したが、実際に操作位置Pが基準位置PBに到達した時点(実指示時点)を指示時点TBとして音声信号Zを生成することも可能である。ただし、音素Q1が音素Q2に先行する音素連鎖(ダイフォン)の音声素片VBを利用する構成のもとで実際に操作位置Pが基準位置PBに到達した時点から音声素片VBの発音を開始した場合、前述の通り、利用者が意図した時点(実指示時点)から遅延した時点で音素Q2の発音が開始される可能性がある。したがって、利用者が意図した時点で正確に各音符を発音させるという観点からは、前述の各形態の通り、操作位置Pが実際に基準位置PBに到達する以前に指示時点TBを予測する構成が好適である。
(5)前述の各形態では、音素Q1の種類に応じて発音開始位置PAおよび予測実行位置CEを可変に制御したが、発音開始位置PAや予測実行位置CEを所定の位置に固定することも可能である。また、前述の各形態では、端部ELを予測開始位置CSとして端部ERを基準位置PBとした場合を例示したが、予測開始位置CSや基準位置PBを操作経路Gの端部(EL,ER)以外の地点とすることも可能である。例えば、端部ELから端部ER側に所定Iの距離だけ離間した位置を予測開始位置CSとした構成や、端部ERから端部EL側に所定の距離だけ離間した位置を基準位置PBとした構成も採用される。
(6)前述の各形態では、操作経路Gを直線としたが、操作経路Gを曲線とすることも可能である。例えば、操作経路Gを円形として円周上に各位置(PA,PB,CS,CE)を設定することも可能である。利用者は、所望の時点にて操作経路G上の基準位置PBに操作位置Gが到達するように、操作経路Gに沿って表示面上に円形を描く動作(発音指示操作)を音符毎に実行する。
(7)前述の各形態では、日本語の音声の合成を例示したが、合成対象となる音声の言語は任意であり、日本語には限定されない。例えば、英語,スペイン語,中国語,韓国語等の任意の言語の音声を生成する場合にも以上の各形態を同様に適用することが可能である。1個の発音符号SBが2個の子音の音素で構成され得る言語では、音素Q1および音素Q2の双方が子音の音素である可能性もある。また、言語体系によっては(例えば英語)、第1音素Q1および第2音素Q2の一方または双方が複数の音素(音素群)で構成される場合も想定される。例えば、単語“September”の最初の音節“sep”に着目すると、音素(音素群)“se”を第1音素Q1、音素“p”を第2音素Q2として両者間の遷移を制御する構成や、音素“s”を第1音素Q1、音素(音素群)“ep”を第2音素Q2として両者間の遷移を制御する構成が採用される。1個の音節内における第1音素Q1と第2音素Q2との境界(例えば前掲の音節“sep”を音素“se”と音素“p”とに区分するか音素“s”と音素“ep”とに区分するか)は、例えば事前に設定された規則や利用者からの指示に応じて決定される。
100……音声合成装置、10……演算処理装置、12……記憶装置、14……表示装置、16……操作装置、18……放音装置、22……操作特定部、24……表示制御部、26……操作予測部、28……音声合成部、50……操作画像。

Claims (10)

  1. 利用者による操作に応じて移動する操作位置を特定する操作特定手段と、
    前記操作位置が基準位置に到達する指示時点を前記操作位置の移動速度に応じて予測する操作予測手段と、
    第1音素に第2音素が後続する音声が指示された場合に、前記操作予測手段が予測した前記指示時点の到来前に前記第1音素が発音されるとともに前記指示時点の到来により前記第1音素から前記第2音素に遷移する音声の音声信号を生成する音声合成手段と
    を具備する音声合成装置。
  2. 前記操作予測手段は、前記操作位置が予測開始位置から予測実行位置に移動する時間長に応じて前記指示時点を予測する
    請求項1の音声合成装置。
  3. 前記操作予測手段は、前記第1音素の種類に応じて前記予測実行位置を可変に設定する
    請求項2の音声合成装置。
  4. 利用者による操作に応じて移動する操作位置を特定する操作特定手段と、
    第1音素に第2音素が後続する音声が指示された場合に、前記操作位置が基準位置に到達する指示時点の到来前に前記第1音素が発音されるとともに前記指示時点の到来により前記第1音素から前記第2音素に遷移する音声の音声信号を生成する音声合成手段と
    を具備し、
    前記音声合成手段は、相異なる音高に対応する複数の操作経路のうち利用者が前記操作位置を移動させる対象操作経路に対応した音高の前記音声信号を生成する
    音声合成装置。
  5. 利用者による操作に応じて移動する操作位置を特定する操作特定手段と、
    第1音素に第2音素が後続する音声が指示された場合に、前記操作位置が基準位置に到達する指示時点の到来前に前記第1音素が発音されるとともに前記指示時点の到来により前記第1音素から前記第2音素に遷移する音声の音声信号を生成する音声合成手段と
    を具備し、
    前記音声合成手段は、前記基準位置に向かう操作経路に交差する方向における前記操作位置に応じた音高の前記音声信号を生成する
    音声合成装置。
  6. 利用者による操作に応じて移動する操作位置を特定する操作特定手段と、
    第1音素に第2音素が後続する音声が指示された場合に、前記操作位置が基準位置に到達する指示時点の到来前に前記第1音素が発音されるとともに前記指示時点の到来により前記第1音素から前記第2音素に遷移する音声の音声信号を生成する音声合成手段と
    を具備し、
    前記音声合成手段は、前記第1音素に前記第2音素が後続する音声と、第3音素に第4音素が後続する音声とが指示された場合に、
    前記操作位置が操作経路上を第1方向に移動して第1基準位置に到達する指示時点の到来前に前記第1音素が発音されるとともに当該指示時点の到来により前記第1音素から前記第2音素に遷移する音声の音声信号を生成し、
    前記第1方向とは反対の第2方向に前記操作位置が前記操作経路上を移動して第2基準位置に到達する指示時点の到来前に前記第3音素が発音されるとともに当該指示時点の到来により前記第3音素から前記第4音素に遷移する音声の音声信号を生成する
    音声合成装置。
  7. コンピュータを、
    利用者による操作に応じて移動する操作位置を特定する操作特定手段、
    前記操作位置が基準位置に到達する指示時点を前記操作位置の移動速度に応じて予測する操作予測手段、および、
    第1音素に第2音素が後続する音声が指示された場合に、前記操作予測手段が予測した前記指示時点の到来前に前記第1音素が発音されるとともに前記指示時点の到来により前記第1音素から前記第2音素に遷移する音声の音声信号を生成する音声合成手段
    として機能させるプログラム。
  8. コンピュータを、
    利用者による操作に応じて移動する操作位置を特定する操作特定手段、および、
    第1音素に第2音素が後続する音声が指示された場合に、前記操作位置が基準位置に到達する指示時点の到来前に前記第1音素が発音されるとともに前記指示時点の到来により前記第1音素から前記第2音素に遷移する音声の音声信号を生成する音声合成手段
    として機能させるプログラムであって、
    前記音声合成手段は、相異なる音高に対応する複数の操作経路のうち利用者が前記操作位置を移動させる対象操作経路に対応した音高の前記音声信号を生成する
    プログラム。
  9. コンピュータを、
    利用者による操作に応じて移動する操作位置を特定する操作特定手段、および、
    第1音素に第2音素が後続する音声が指示された場合に、前記操作位置が基準位置に到達する指示時点の到来前に前記第1音素が発音されるとともに前記指示時点の到来により前記第1音素から前記第2音素に遷移する音声の音声信号を生成する音声合成手段
    として機能させるプログラムであって、
    前記音声合成手段は、前記基準位置に向かう操作経路に交差する方向における前記操作位置に応じた音高の前記音声信号を生成する
    プログラム。
  10. コンピュータを、
    利用者による操作に応じて移動する操作位置を特定する操作特定手段、および、
    第1音素に第2音素が後続する音声が指示された場合に、前記操作位置が基準位置に到達する指示時点の到来前に前記第1音素が発音されるとともに前記指示時点の到来により前記第1音素から前記第2音素に遷移する音声の音声信号を生成する音声合成手段
    として機能させるプログラムであって、
    前記音声合成手段は、前記第1音素に前記第2音素が後続する音声と、第3音素に第4音素が後続する音声とが指示された場合に、
    前記操作位置が操作経路上を第1方向に移動して第1基準位置に到達する指示時点の到来前に前記第1音素が発音されるとともに当該指示時点の到来により前記第1音素から前記第2音素に遷移する音声の音声信号を生成し、
    前記第1方向とは反対の第2方向に前記操作位置が前記操作経路上を移動して第2基準位置に到達する指示時点の到来前に前記第3音素が発音されるとともに当該指示時点の到来により前記第3音素から前記第4音素に遷移する音声の音声信号を生成する
    プログラム。
JP2014006983A 2013-02-22 2014-01-17 音声合成装置およびプログラム Active JP5817854B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2014006983A JP5817854B2 (ja) 2013-02-22 2014-01-17 音声合成装置およびプログラム
US14/185,448 US9424831B2 (en) 2013-02-22 2014-02-20 Voice synthesizing having vocalization according to user manipulation
EP14155877.5A EP2770499B1 (en) 2013-02-22 2014-02-20 Voice synthesizing method, voice synthesizing apparatus and computer-readable recording medium
CN201410061929.5A CN104021783B (zh) 2013-02-22 2014-02-24 语音合成方法和语音合成设备

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013033327 2013-02-22
JP2013033327 2013-02-22
JP2014006983A JP5817854B2 (ja) 2013-02-22 2014-01-17 音声合成装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2014186307A JP2014186307A (ja) 2014-10-02
JP5817854B2 true JP5817854B2 (ja) 2015-11-18

Family

ID=50115753

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014006983A Active JP5817854B2 (ja) 2013-02-22 2014-01-17 音声合成装置およびプログラム

Country Status (4)

Country Link
US (1) US9424831B2 (ja)
EP (1) EP2770499B1 (ja)
JP (1) JP5817854B2 (ja)
CN (1) CN104021783B (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9159310B2 (en) 2012-10-19 2015-10-13 The Tc Group A/S Musical modification effects
US9595256B2 (en) * 2012-12-04 2017-03-14 National Institute Of Advanced Industrial Science And Technology System and method for singing synthesis
WO2014137311A1 (en) 2013-03-04 2014-09-12 Empire Technology Development Llc Virtual instrument playing scheme
US9123315B1 (en) * 2014-06-30 2015-09-01 William R Bachand Systems and methods for transcoding music notation
JP6728755B2 (ja) * 2015-03-25 2020-07-22 ヤマハ株式会社 歌唱音発音装置
CN106653037B (zh) * 2015-11-03 2020-02-14 广州酷狗计算机科技有限公司 音频数据处理方法和装置
JP6784022B2 (ja) * 2015-12-18 2020-11-11 ヤマハ株式会社 音声合成方法、音声合成制御方法、音声合成装置、音声合成制御装置およびプログラム
JP6428689B2 (ja) * 2016-03-23 2018-11-28 カシオ計算機株式会社 波形読込み装置、方法、プログラム、及び電子楽器
JP7380008B2 (ja) * 2019-09-26 2023-11-15 ヤマハ株式会社 発音制御方法および発音制御装置
CN112259072A (zh) * 2020-09-25 2021-01-22 北京百度网讯科技有限公司 语音转换方法、装置和电子设备

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5293448A (en) * 1989-10-02 1994-03-08 Nippon Telegraph And Telephone Corporation Speech analysis-synthesis method and apparatus therefor
JPH08248993A (ja) * 1995-03-13 1996-09-27 Matsushita Electric Ind Co Ltd 音韻時間長制御方法
JPH09101780A (ja) 1995-10-03 1997-04-15 Roland Corp 楽音制御装置
JPH10149163A (ja) 1996-11-20 1998-06-02 Casio Comput Co Ltd 楽音発生装置
US7110943B1 (en) * 1998-06-09 2006-09-19 Matsushita Electric Industrial Co., Ltd. Speech coding apparatus and speech decoding apparatus
JP4039761B2 (ja) 1999-03-12 2008-01-30 株式会社コルグ 楽音コントローラ
JP4067762B2 (ja) * 2000-12-28 2008-03-26 ヤマハ株式会社 歌唱合成装置
JP3879402B2 (ja) * 2000-12-28 2007-02-14 ヤマハ株式会社 歌唱合成方法と装置及び記録媒体
AU2003280474A1 (en) * 2002-06-28 2004-01-19 Conceptual Speech, Llc Multi-phoneme streamer and knowledge representation speech recognition system and method
JP4265501B2 (ja) 2004-07-15 2009-05-20 ヤマハ株式会社 音声合成装置およびプログラム
WO2008108078A1 (ja) * 2007-03-02 2008-09-12 Panasonic Corporation 符号化装置および符号化方法
JP5630218B2 (ja) * 2010-11-08 2014-11-26 カシオ計算機株式会社 楽音生成装置および楽音生成プログラム
JP5728913B2 (ja) * 2010-12-02 2015-06-03 ヤマハ株式会社 音声合成情報編集装置およびプログラム
JP2012215630A (ja) 2011-03-31 2012-11-08 Kawai Musical Instr Mfg Co Ltd 楽譜演奏装置及び楽譜演奏プログラム
JP6024191B2 (ja) * 2011-05-30 2016-11-09 ヤマハ株式会社 音声合成装置および音声合成方法
JP6047922B2 (ja) * 2011-06-01 2016-12-21 ヤマハ株式会社 音声合成装置および音声合成方法
JP5821824B2 (ja) * 2012-11-14 2015-11-24 ヤマハ株式会社 音声合成装置

Also Published As

Publication number Publication date
EP2770499B1 (en) 2018-01-10
EP2770499A1 (en) 2014-08-27
US9424831B2 (en) 2016-08-23
CN104021783A (zh) 2014-09-03
CN104021783B (zh) 2017-10-31
JP2014186307A (ja) 2014-10-02
US20140244262A1 (en) 2014-08-28

Similar Documents

Publication Publication Date Title
JP5817854B2 (ja) 音声合成装置およびプログラム
EP2983168B1 (en) Voice analysis method and device, voice synthesis method and device and medium storing voice analysis program
JP5783206B2 (ja) 音楽情報表示制御装置およびプログラム
JP6620462B2 (ja) 合成音声編集装置、合成音声編集方法およびプログラム
JP5625321B2 (ja) 音声合成装置およびプログラム
JP5423375B2 (ja) 音声合成装置
JP2016090916A (ja) 音声合成装置
JP6390690B2 (ja) 音声合成方法および音声合成装置
JP6255744B2 (ja) 楽曲表示装置および楽曲表示方法
JP6179221B2 (ja) 音響処理装置および音響処理方法
JP6044284B2 (ja) 音声合成装置
JP5157922B2 (ja) 音声合成装置、およびプログラム
JP5935831B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP5790860B2 (ja) 音声合成装置
WO2019239971A1 (ja) 情報処理方法、情報処理装置およびプログラム
JP5552797B2 (ja) 音声合成装置および音声合成方法
JP5641266B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP6372066B2 (ja) 合成情報管理装置および音声合成装置
WO2019239972A1 (ja) 情報処理方法、情報処理装置およびプログラム
JP6331470B2 (ja) ブレス音設定装置およびブレス音設定方法
JP5782799B2 (ja) 音声合成装置
JP6439288B2 (ja) 合成情報管理装置および合成情報管理方法
JP2016090966A (ja) 表示制御装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141023

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150203

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150403

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150410

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150901

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150914

R151 Written notification of patent or utility model registration

Ref document number: 5817854

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151