JP2012037722A - 音合成用データ生成装置およびピッチ軌跡生成装置 - Google Patents

音合成用データ生成装置およびピッチ軌跡生成装置 Download PDF

Info

Publication number
JP2012037722A
JP2012037722A JP2010177684A JP2010177684A JP2012037722A JP 2012037722 A JP2012037722 A JP 2012037722A JP 2010177684 A JP2010177684 A JP 2010177684A JP 2010177684 A JP2010177684 A JP 2010177684A JP 2012037722 A JP2012037722 A JP 2012037722A
Authority
JP
Japan
Prior art keywords
pitch
note
sound
relative
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010177684A
Other languages
English (en)
Other versions
JP5605066B2 (ja
Inventor
Keijiro Saino
慶二郎 才野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2010177684A priority Critical patent/JP5605066B2/ja
Priority to EP11176520.2A priority patent/EP2416310A3/en
Priority to US13/198,613 priority patent/US8916762B2/en
Publication of JP2012037722A publication Critical patent/JP2012037722A/ja
Application granted granted Critical
Publication of JP5605066B2 publication Critical patent/JP5605066B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H7/00Instruments in which the tones are synthesised from a data store, e.g. computer organs
    • G10H7/08Instruments in which the tones are synthesised from a data store, e.g. computer organs by calculating functions or polynomial approximations to evaluate amplitudes at successive sample points of a tone waveform
    • G10H7/10Instruments in which the tones are synthesised from a data store, e.g. computer organs by calculating functions or polynomial approximations to evaluate amplitudes at successive sample points of a tone waveform using coefficients or parameters stored in a memory, e.g. Fourier coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0033Recording/reproducing or transmission of music for electrophonic musical instruments
    • G10H1/0041Recording/reproducing or transmission of music for electrophonic musical instruments in coded form
    • G10H1/0058Transmission between separate instruments or between individual components of a musical system
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H5/00Instruments in which the tones are generated by means of electronic generators
    • G10H5/005Voice controlled instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/066Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • G10H2210/161Note sequence effects, i.e. sensing, altering, controlling, processing or synthesising a note trigger selection or sequence, e.g. by altering trigger timing, triggered note values, adding improvisation or ornaments, also rapid repetition of the same note onset, e.g. on a piano, guitar, e.g. rasgueado, drum roll
    • G10H2210/165Humanizing effects, i.e. causing a performance to sound less machine-like, e.g. by slightly randomising pitch or tempo
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/155User input interfaces for electrophonic musical instruments
    • G10H2220/211User input interfaces for electrophonic musical instruments for microphones, i.e. control of musical parameters either directly from microphone signals or by physically associated peripherals, e.g. karaoke control switches or rhythm sensing accelerometer within the microphone casing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • G10H2240/135Library retrieval index, i.e. using an indexing scheme to efficiently retrieve a music piece
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/155Library update, i.e. making or modifying a musical database using musical parameters as indices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/211Random number generators, pseudorandom generators, classes of functions therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/315Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
    • G10H2250/455Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/471General musical sound synthesis principles, i.e. sound category-independent synthesis methods
    • G10H2250/481Formant synthesis, i.e. simulating the human speech production mechanism by exciting formant resonators, e.g. mimicking vocal tract filtering as in LPC synthesis vocoders, wherein musical instruments may be used as excitation signal to the time-varying filter estimated from a singer's speech
    • G10H2250/501Formant frequency shifting, sliding formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/541Details of musical waveform synthesis, i.e. audio waveshape processing from individual wavetable samples, independently of their origin or of the sound they represent
    • G10H2250/641Waveform sampler, i.e. music samplers; Sampled music loop processing, wherein a loop is a sample of a performance that has been edited to repeat seamlessly without clicks or artifacts

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

【課題】聴感的に自然な合成音を生成する。
【解決手段】区間設定部42は、参照音から検出された参照ピッチPref(t)の時系列を音符毎に複数の音符区間σに区分する。相対化部44は、複数の音符区間σの各々について、当該音符区間σの音符のピッチNAに対する当該音符区間σ内の参照音の各参照ピッチPref(t)の相対値である相対ピッチR(t)の時系列を生成する。情報登録部38は、相対ピッチR(t)の時系列を示す相対ピッチ情報YA2を記憶装置14に格納する。軌跡生成部52は、音名が指定された指定音について、相対ピッチ情報YA2が示す相対ピッチR(t)の時系列と当該指定音の音名に対応するピッチNBとに応じて合成ピッチPsyn(t)の時系列を生成する。
【選択図】図2

Description

本発明は、音響を合成する技術に関連する。
実際に発声された音声(以下「参照音」という)のピッチの変動を付与することで聴感的に自然な合成音を生成することが可能である。例えば非特許文献1には、参照音のピッチの時系列を表現する確率モデル(例えばHMM(Hidden Markov Model))を音高や歌詞等の属性(コンテキスト)毎に生成して合成音の生成に利用する技術が開示されている。指定音の合成の過程では、指定音の属性に対応する確率モデルから特定されるピッチの軌跡(以下「ピッチ軌跡」という)に沿うように合成音のピッチが制御される。
酒向慎司 才野慶二郎 南角吉彦 徳田恵一 北村正,「声質と歌唱スタイルを自動学習可能な歌声合成システム」,情報処理学会研究報告[音楽情報科学],2008(12),p.39−p.44,2008年2月
ところで、指定音の全種類の属性について確率モデルを用意することは現実的には困難である。指定音の属性に合致する確率モデルが存在しない場合、指定音に近似する属性の確率モデルを代用してピッチ軌跡(ピッチカーブ)を生成することが可能である。しかし、非特許文献1の技術では、参照音のピッチの数値に対する学習で確率モデルが生成され、確率モデルを代用する指定音のピッチについて実際には学習は実行されていないから、聴感的に不自然な印象の合成音が生成される可能性がある。
なお、以上の説明ではピッチ軌跡の生成に確率モデルを利用する場合を例示したが、参照音のピッチの数値自体を記憶して合成時にピッチ軌跡の生成に利用する場合にも同様に、合成音が聴感的に不自然な印象になる可能性がある。以上の事情を考慮して、本発明は、聴感的に自然な合成音を生成することを目的とする。
以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の要素と後述の実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。
本発明の音合成用データ生成装置は、参照音のピッチ(例えば参照ピッチPref(t))の時系列を音符毎に複数の音符区間に区分する区間設定手段(例えば区間設定部42)と、複数の音符区間の各々について、当該音符区間の音符のピッチ(例えばピッチNA)に対する当該音符区間内の参照音の各ピッチの相対値である相対ピッチ(例えば相対ピッチR(t))の時系列を生成する相対化手段(例えば相対化部44)と、相対ピッチの時系列を示す相対ピッチ情報(例えば相対ピッチ情報YA2)を記憶手段に格納する情報登録手段(例えば情報登録部38)とを具備する。相対化手段は、例えば、音符区間の音符のピッチと音符区間内の参照音のピッチとの差分に応じて相対ピッチを算定する。
以上の態様においては、音符区間の音符のピッチに対する参照音の各ピッチの相対ピッチの時系列を示す相対ピッチ情報が記憶手段に格納されるから、相対ピッチ情報が示す相対ピッチの時系列に対して指定音の音名に対応するピッチを反映させることで指定音のピッチ軌跡を生成することが可能である。したがって、参照音のピッチの数値自体を記憶および利用する構成と比較して、指定音に対応する相対ピッチ情報が存在しない場合でも聴感的に自然な合成音を生成できるという利点がある。
本発明における相対ピッチ情報の内容や生成の方法は任意である。例えば相対ピッチの数値が相対ピッチ情報として記憶手段に記憶される。また、相対ピッチの時系列に応じた確率モデルを相対ピッチ情報として生成する構成も採用され得る。すなわち、各音符区間内の複数の単位区間(例えば単位区間U[k])の各々について、当該単位区間内の相対ピッチを確率変数とする確率分布(例えば確率分布D0[k])を示す変動モデル(例えば変動モデルMA[k])と、当該単位区間の継続長を確率変数とする確率分布(例えば確率分布DL[k])を示す継続長モデル(例えば継続長モデルMB[k])とを生成する確率モデル生成手段(例えば確率モデル生成部46)が追加され、情報登録手段は、確率モデル生成手段が各単位区間について生成した変動モデルおよび継続長モデルを相対ピッチ情報として記憶手段に格納する。以上の態様においては、相対ピッチの時系列を示す確率モデルが記憶手段に格納されるから、相対ピッチの数値自体を相対ピッチ情報とする構成と比較して相対ピッチ情報のサイズを縮小することが可能である。なお、確率モデルを利用した以上の形態は、例えば第3実施形態として後述される。
音符区間の設定の方法は任意であるが、参照音の音符を時系列に指定する楽譜データ(例えば楽譜データXB)を音符取得手段(例えば楽譜取得部34)が取得し、楽譜データが示す音符毎に区間設定手段が音符区間を設定する構成が採用され得る。ただし、参照音の各音符の区間と楽譜データが示す音符の区間とは完全には合致しない可能性があるから、楽譜データが示す音符毎に音符区間を設定したうえで各音符区間の端点の位置を補正する構成が格別に好適である。なお、以上の態様の具体例は例えば第2実施形態として後述される。
本発明は、以上の各態様の音合成用データ生成装置が生成した相対ピッチ情報を利用して指定音のピッチ軌跡を生成するピッチ軌跡生成装置としても特定される。すなわち、本発明のピッチ軌跡生成装置は、相異なる音符に対応する複数の音符区間を含む参照音について生成され、各音符区間の音符のピッチ(例えばピッチNA)に対する当該音符区間内の参照音の各ピッチ(例えば参照ピッチPref(t))の相対値である相対ピッチ(例えば相対ピッチR(t))の時系列を示す相対ピッチ情報を記憶する記憶手段(例えば記憶装置14)と、音名が指定された指定音のピッチの時系列を、相対ピッチ情報と当該指定音の音名に対応するピッチ(例えばピッチNB)とに応じて生成する軌跡生成手段(例えば軌跡生成部52)とを具備する。
以上の態様においては、音符区間の音符のピッチに対する参照音の各ピッチの相対ピッチの時系列に対して指定音の音名に対応するピッチを反映させることで指定音のピッチ軌跡が生成される。したがって、参照音のピッチの数値自体を記憶および利用する構成と比較して、指定音に対応する相対ピッチ情報が存在しない場合でも聴感的に自然な合成音を生成できるという利点がある。
前述の通り、相対ピッチ情報の内容や生成の方法は任意である。例えば、各音符区間内の複数の単位区間(例えば単位区間U[k])の各々について、当該単位区間内の相対ピッチを確率変数とする確率分布(例えば確率分布D0[k])を示す変動モデル(例えば変動モデルMA[k])と、当該単位区間の継続長を確率変数とする確率分布(例えば確率分布DL[k])を示す継続長モデル(例えば継続長モデルMB[k])とを含む相対ピッチ情報を利用する構成において、軌跡生成手段は、指定音のうち継続長モデルに応じて継続長が決定された各単位区間について、当該単位区間に対応する変動モデルが示す確率分布における平均(例えば平均μ0[k])と指定音に対応するピッチ(例えばピッチNB)とに応じて当該指定音のピッチ(例えば合成ピッチPsyn(t))の時系列を生成する。例えば、相対ピッチが周波数の対数値のスケールで指定される場合、変動モデルが示す確率モデルの平均と指定音に対応するピッチとの加算値を指定音のピッチの確率分布として当該指定音のピッチ軌跡を生成する。なお、軌跡生成手段がピッチ軌跡の生成に適用する変数は、変動モデルが示す確率分布の平均や指定音に対応するピッチに限定されない。例えば、変動モデルが示す確率分布の分散(分布全体の傾向)を加味してピッチ軌跡を生成する構成も採用され得る。
本発明は、以上の各態様のピッチ軌跡生成装置を利用した音響合成装置としても特定される。本発明の音響合成装置は、相異なる音符に対応する複数の音符区間を含む参照音について生成され、各音符区間の音符のピッチ(例えばピッチNA)に対する当該音符区間内の参照音の各ピッチ(例えば参照ピッチPref(t))の相対値である相対ピッチ(例えば相対ピッチR(t))の時系列を示す相対ピッチ情報(例えば相対ピッチ情報YA2)と、音素の波形を示す音波形データ(例えば音波形データYB)とを記憶する記憶手段(例えば記憶装置14)と、音名が指定された指定音のピッチ(例えば合成ピッチPsyn(t))の時系列を、相対ピッチ情報と当該指定音の音名に対応するピッチ(例えばピッチNB)とに応じて生成する軌跡生成手段(例えば軌跡生成部52)と、軌跡生成手段が生成したピッチの時系列に沿うように音波形データを加工して合成音データ(例えば合成音データVout)を生成する合成処理手段(例えば合成処理部56)とを具備する。
以上の各態様に係る音合成用データ生成装置は、DSP(Digital Signal Processor)などの専用の電子回路で実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働でも実現される。音合成用データ生成に使用される本発明のプログラムは、参照音のピッチの時系列を音符毎に複数の音符区間に区分する区間設定処理と、複数の音符区間の各々について、当該音符区間の音符のピッチに対する当該音符区間内の参照音の各ピッチの相対値である相対ピッチの時系列を生成する相対化処理と、相対ピッチの時系列を示す相対ピッチ情報を記憶手段に格納する情報登録処理とをコンピュータに実行させる。以上のプログラムによれば、本発明の音合成用データ生成装置と同様の作用および効果が実現される。
同様に、以上の各態様に係るピッチ軌跡生成装置は、DSP(Digital Signal Processor)などの専用の電子回路で実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働でも実現される。ピッチ軌跡の生成に使用される本発明のプログラムは、相異なる音符に対応する複数の音符区間を含む参照音について生成され、各音符区間の音符のピッチに対する当該音符区間内の参照音の各ピッチの相対値である相対ピッチの時系列を示す相対ピッチ情報を記憶する記憶手段を具備するコンピュータに、音名が指定された指定音のピッチの時系列を、相対ピッチ情報と当該指定音の音名に対応するピッチとに応じて生成する軌跡生成処理を実行させる。以上のプログラムによれば、本発明のピッチ軌跡生成装置と同様の作用および効果が実現される。
なお、以上の各態様に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
本発明の第1実施形態に係る音響合成装置のブロック図である。 第1処理部および第2処理部のブロック図である。 第1処理部の動作の説明図である。 第2実施形態に係る音響合成装置における区間設定部の動作の説明図である。 第3実施形態における合成用データ生成部のブロック図である。 第3実施形態の相対ピッチ情報を生成する方法の説明図である。 第3実施形態の相対ピッチ情報を生成する方法の説明図である。 第3実施形態の相対ピッチ情報を生成する方法の説明図である。
<A:第1実施形態>
図1は、本発明の第1実施形態に係る音響合成装置100のブロック図である。第1実施形態の音響合成装置100は、所望の音符および歌詞の楽曲の歌唱音を示す合成音データVoutを生成する歌唱合成装置であり、図1に示すように、演算処理装置12と記憶装置14と入力装置16とを具備するコンピュータシステムで実現される。入力装置16(例えばマウスやキーボード)は、利用者からの指示を受付ける。
記憶装置14は、演算処理装置12が実行するプログラムPGMや演算処理装置12が使用する各種のデータ(参照用情報X,合成用情報Y,楽譜データSC)を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置14として任意に利用される。
参照用情報Xは、参照音データXAと楽譜データXBとを含んで構成されるデータベースである。参照音データXAは、特定の歌唱者(以下「参照歌唱者」という)が歌唱曲を歌唱した音声(以下「参照音」という)の時間領域での波形のサンプル系列である。楽譜データXBは、参照音データXAが示す歌唱曲の楽譜を表現するデータである。すなわち、楽譜データXBは、参照音の音符(音名,継続長)と歌詞(発音文字)とを時系列に指定する。
合成用情報Yは、複数の合成用データYAと複数の音波形データYBとを含んで構成されるデータベースである。参照歌唱者毎(あるいは参照歌唱者が歌唱する歌唱曲のジャンル毎)に合成用情報Yが生成される。各合成用データYAは、歌唱音の属性(例えば音符の音名や歌詞)毎に生成され、参照歌唱者に固有の歌唱表現としてピッチの時間的な変動(以下「ピッチ軌跡」という)を表現する。参照音データXAから抽出されるピッチの時系列に応じて各合成用データYAが生成される(詳細は後述)。各音波形データYBは、参照歌唱者が発声した音素毎に事前に生成され、音素の波形の特徴(例えば時間領域での波形や周波数スペクトルの形状)を表現する。
楽譜データSCは、合成の対象となる各指定音の音符(音名,継続長)と歌詞(発音文字)とを時系列に指定する。入力装置16に対する利用者からの指示(楽譜データSCの作成や編集の指示)に応じて楽譜データSCが生成される。概略的には、楽譜データSCが順次に指定する各指定音の音符および歌詞に対応する音波形データYBを、合成用データYAが示すピッチ軌跡に沿うように処理することで合成音データVoutが生成される。したがって、合成音データVoutの再生音は、参照歌唱者に特有の歌唱表現(ピッチ軌跡)を反映した合成音となる。
図1の演算処理装置12は、記憶装置14に格納されたプログラムPGMの実行で、合成音データVoutの生成(音声合成)に必要な複数の機能(第1処理部21,第2処理部22)を実現する。第1処理部21は、参照用情報Xを利用して合成用情報Yの各合成用データYAを生成し、第2処理部22は、合成用情報Yと楽譜データSCとを利用して合成音データVoutを生成する。なお、演算処理装置12の各機能を専用の電子回路(DSP)で実現した構成や、演算処理装置12の各機能を複数の集積回路に分散した構成も採用され得る。
図2は、第1処理部21および第2処理部22のブロック図である。図2では、記憶装置14に格納された参照用情報Xと合成用情報Yと楽譜データSCとが併記されている。図2に示すように、第1処理部21は、参照ピッチ検出部32と楽譜取得部34と合成用データ生成部36と情報登録部38とを含んで構成される。
図2の参照ピッチ検出部32は、参照音データXAが示す参照音のピッチ(以下「参照ピッチ」という)Pref(t)を順次に検出する。各参照ピッチ(基本周波数)Pref(t)は、参照音データXAが示す参照音を時間軸上で区分したフレーム毎に時系列に検出される。記号tはフレームの番号である。参照ピッチPref(t)の検出には公知の技術が任意に採用される。
図3には、参照音データXAが示す参照音の波形(部分(A))と参照ピッチ検出部32が検出した参照ピッチPref(t)の時系列(部分(B))とが共通の時間軸のもとで図示されている。図3の参照ピッチPref(t)は周波数(Hz)の対数値である。なお、参照音のうち調波構造が存在しない区間(すなわちピッチが検出されない子音の区間)については、参照ピッチPref(t)が所定値(例えば前後の参照ピッチPref(t)の補間値)に設定される。
図2の楽譜取得部34は、参照音データXAに対応する楽譜データXBを記憶装置14から取得する。図3の部分(C)には、楽譜データXBが指定する音符の時系列(ピアノロール形式)が、部分(A)の参照音の波形や部分(B)の参照ピッチPref(t)の時系列と共通の時間軸のもとで図示されている。
図2の合成用データ生成部36は、参照ピッチ検出部32が検出した参照ピッチPref(t)の時系列と楽譜取得部34が取得した楽譜データXBとを利用して合成用情報Yの複数の合成用データYAを生成する。図2に示すように、合成用データ生成部36は、区間設定部42と相対化部44とを含んで構成される。
区間設定部42は、参照ピッチ検出部32が検出した参照ピッチPref(t)の時系列を、楽譜データXBが指定する音符毎に複数の区間(以下「音符区間」という)σ毎に区分する。具体的には、図3の部分(B)および部分(C)に示すように、参照ピッチPref(t)の時系列は、楽譜データXBが指定する各音符の始点および終点を境界として各音符区間σに区分される。図3の部分(D)には、各音符区間σに対応する音符の音名(G3,A3,……)と各音名に対応するピッチNAとが図示されている。
図2の相対化部44は、参照ピッチ検出部32がフレーム毎に時系列に検出した参照ピッチPref(t)から各フレームの相対ピッチR(t)の時系列を生成する。図3の部分(E)には、相対ピッチR(t)の時系列が図示されている。相対ピッチR(t)は、楽譜データXBで指定される音符の音名に対応するピッチNAに対する参照ピッチPref(t)の相対値である。すなわち、前述のように参照ピッチPref(t)を周波数の対数値のスケールとした場合、以下の数式(1)で定義されるように、1個の音符区間σ内の各参照ピッチPref(t)から当該音符区間σの音名に対応するピッチNA(したがって、1個の音符区間σ内では全部の参照ピッチPref(t)について共通の数値)を減算することで相対ピッチR(t)が算定される。例えば、楽譜データXBで音名「G3」が指定された音符に対応する音符区間σについては、音名「G3」に対応するピッチNA(NA=5.28)を当該音符区間σ内の各参照ピッチPref(t)から減算することで各フレームの相対ピッチR(t)が算定される。
R(t)=Pref(t)−NA ……(1)
図2の情報登録部38は、各音符区間σ内の相対ピッチR(t)の時系列を示す複数の合成用データYAを記憶装置14に格納する。合成用データYAは音符区間σ毎(音符毎)に生成される。図2に示すように、合成用データYAは、音符識別情報YA1と相対ピッチ情報YA2とを含んで構成される。第1実施形態の相対ピッチ情報YA2は、音符区間σについて相対化部44が算定した相対ピッチR(t)の時系列である。
音符識別情報YA1は、合成用データYAが示す音符(以下「対象音符」という)の属性を識別するための識別子であり、図2に示すように変数p1〜p3と変数d1〜d3とを含んで構成される。変数p2は、対象音符の音名(ノートナンバ)に設定される。変数p1は対象音符の直前の音符の音程(対象音符の音名に対する相対値)に設定され、変数p3は対象音符の直後の音符の音程に設定される。また、変数d2は、対象音符の継続長に設定される。変数d1は対象音符の直前の音符の継続長に設定され、変数d3は対象音符の直後の音符の継続長に設定される。以上のように音符の属性毎に合成用データYAを生成するのは、参照音のピッチ軌跡が、対象音符の前後の音符の音程や継続長に応じて変化するからである。なお、対象音符の属性は以上の例示に限定されない。例えば、楽曲の各小節内で対象音符が何番目の拍子に該当するのか(1拍目/2拍目)を示す情報や、参照音のひと息に相当する期間における対象音符の位置(前方/後方)を示す情報など、歌唱音のピッチ軌跡に影響する任意の情報が音符識別情報YA1にて指定され得る。
図2の第2処理部22は、以上の手順で生成された合成用情報Yを利用して合成音データVoutを生成する。例えば入力装置16に対する利用者からの指示を契機として第2処理部22は合成音データVoutの生成を開始する。図2に示すように、第2処理部22は、軌跡生成部52と楽譜取得部54と合成処理部56とを含んで構成される。楽譜取得部54は、合成音の時系列を指定する楽譜データSCを記憶装置14から取得する。
軌跡生成部52は、楽譜取得部54が取得した楽譜データSCにて指定される各指定音のピッチ(以下「合成ピッチ」という)Psyn(t)の時系列(ピッチ軌跡)を各合成用データYAから生成する。具体的には、軌跡生成部52は、記憶装置14に記憶された複数の合成用データYAのうち楽譜データSCが指定する指定音に対応する合成用データYA(以下「選択合成用データYA」という)を指定音毎に順次に選択する。具体的には、音符識別情報YA1が示す属性(変数p1〜p3,変数d1〜d3)が指定音の属性(当該指定音や前後の音符の音名および継続長)に近似または合致する合成用データYAが選択合成用データYAとして選択される。
そして、軌跡生成部52は、選択合成用データYAの相対ピッチ情報YA2(相対ピッチR(t)の時系列)と指定音の音名に対応するピッチNBとから合成ピッチPsyn(t)の時系列を生成する。具体的には、軌跡生成部52は、指定音の継続長に相当する時間長となるように相対ピッチ情報YA2の相対ピッチR(t)の時系列を伸縮(例えば補間または間引)したうえで、以下の数式(2)で定義されるように、指定音の音名に対応するピッチNBを各相対ピッチR(t)に加算することでフレーム毎の合成ピッチPsyn(t)を算定する。すなわち、軌跡生成部52が生成した合成ピッチPsyn(t)の時系列は、参照歌唱者が指定音を歌唱したときのピッチ軌跡に近似する。
Psyn(t)=R(t)+NB……(2)
図2の合成処理部56は、軌跡生成部52が生成した合成ピッチPsyn(t)の時系列(ピッチ軌跡)に沿うようにピッチが時間的に変化する歌唱音の合成音データVoutを生成する。具体的には、合成処理部56は、楽譜データSCが示す各指定音の歌詞に対応する音波形データYBを記憶装置14から取得し、合成ピッチPsyn(t)の時系列に沿ってピッチが経時的に変化するように音波形データYBを加工することで合成音データVoutを生成する。したがって、合成音データVoutの再生音は、参照歌唱者に固有の歌唱表現(ピッチ軌跡)が付加された歌唱音となる。
以上の形態では、参照音の音符のピッチNAに対する参照音のピッチPref(t)の相対ピッチR(t)に応じて合成用データYAの相対ピッチ情報YA2が生成および記憶され、相対ピッチ情報YA2が示す相対ピッチR(t)の時系列と指定音の音名に対応するピッチNBとから合成ピッチPsyn(t)の時系列(合成音のピッチ軌跡)が生成される。したがって、参照ピッチPref(t)の時系列を合成用データYAとして記憶するとともに参照ピッチPref(t)の時系列に沿うように合成音データVoutを生成する構成と比較して、聴感的に自然な歌唱音を合成することが可能である。
<B:第2実施形態>
本発明の第2実施形態を以下に説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同等である要素については、以上の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
図4は、第2実施形態における区間設定部42の動作の説明図である。図4の部分(A)は、楽譜データXBが示す音符および歌詞の時系列であり、図4の部分(B)は、楽譜データXBに応じて初期的に区分された音符毎の音符区間σである。図4の部分(C)には、参照音データXAが示す参照音の波形が図示されている。区間設定部42は、楽譜データXBの音符毎の音符区間σを補正する。図4の部分(E)には、補正後の各音符区間σが図示されている。例えば、区間設定部42は、入力装置16に対する利用者からの指示に応じて音符区間σを補正する。
図4の部分(D)には、参照音の各音素の境界が図示されている。図4の部分(A)と部分(D)との対比から理解されるように、楽譜データXBが示す各音符の始点と参照音の各音素の始点とは完全には合致しない。区間設定部42は、補正後の各音符区間σ(図4の部分(E))が参照音の各音素に対応するように各音符区間σ(図4の部分(B))を変更する。
具体的には、区間設定部42は、参照音の波形(図4の部分(C))と初期的な音符区間σ(図4の部分(B))とを表示装置(図示略)に表示させるとともに参照音を放音装置(図示略)から再生する。利用者は、参照音を聴取しながら参照音の波形と各音符区間σとを目視にて対比することで参照音の母音または撥音(ん)の音素の始点および終点を推定して入力装置16から指示する。区間設定部42は、初期的な音符区間σ(図4の部分(B))の各始点を、図4の部分(E)に示すように、利用者から指示された母音または撥音の各音素の始点に補正する。また、区間設定部42は、後続の音符が存在しない音符区間σ(すなわち直後に休符が設定される音符区間σ)の各終点を、利用者から指示された母音または撥音の各音素の終点に補正する。区間設定部42による補正後の各音符区間σが相対化部44による相対ピッチR(t)の生成に適用される。
なお、区間設定部42による音符区間σの設定(または補正)の方法は任意である。例えば、以上の例示では、利用者から指示された母音または撥音の音素の区間が音符区間σと合致するように区間設定部42が各音符区間σを自動的に設定したが、例えば、母音や撥音の音素の区間が音符区間σと合致するように利用者が入力装置16の操作で音符区間σを補正する構成も採用され得る。
第2実施形態でも第1実施形態と同様の効果が実現される。また、第2実施形態によれば、参照音に設定される音符区間σが補正されるから、楽譜データXBが示す各音符と参照音の各音符とが完全に合致しない場合でも、音符区間σの補正で参照音を高精度に音符毎に区分することが可能である。したがって、第2実施形態によれば、楽譜データXBが示す各音符と参照音の各音符との相違(ズレ)に起因した相対ピッチR(t)の誤差を有効に防止できるという利点がある。
<C:第3実施形態>
次に、本発明の第3実施形態を説明する。第1実施形態では、相対化部44が生成した相対ピッチR(t)の時系列を合成用データYAの相対ピッチ情報YA2として記憶装置14に格納した。第3実施形態では、相対ピッチR(t)の時系列を表現する確率モデルを相対ピッチ情報YA2として記憶装置14に格納する。
図5は、第3実施形態の合成用データ生成部36のブロック図である。第3実施形態の合成用データ生成部36は、第1実施形態の合成用データ生成部36(区間設定部42,相対化部44)に確率モデル生成部46を追加した構成である。確率モデル生成部46は、相対化部44が生成した相対ピッチR(t)の時系列を示す確率モデルMを参照音の音符の属性毎に相対ピッチ情報YA2として生成する。情報登録部38は、確率モデル生成部46が生成した相対ピッチ情報YA2に音符識別情報YA1を付加した合成用データYAを音符毎に生成して記憶装置14に格納する。
図6から図8は、確率モデル生成部46が確率モデルMを生成する処理の説明図である。図6に示すように、第3実施形態では、K個(Kは自然数)の状態で規定されるHSMM(Hidden Semi Markov Model)を1個の音符区間σに対応する確率モデルMとして例示する。確率モデルMは、各状態での相対ピッチR(t)の確率分布(出力分布)を示す図7のK個の変動モデルMA[1]〜MA[K]と、各状態の継続長の確率分布(継続長分布)を示す図8のK個の継続長モデルMB[1]〜MB[K]とで規定される。なお、HSMM以外の適切な確率モデルを確率モデルMとして採用することも可能である。
図6に示すように、区間設定部42が音符毎に設定した音符区間σ内の相対ピッチR(t)の時系列は、確率モデルMの相異なる状態に対応するK個の単位区間U[1]〜U[K]に区分される。図6では状態数Kを3とした場合が例示されている。
図7に示すように、確率モデルMの第k状態(k=1〜K)の変動モデルMA[k]は、相対ピッチR(t)の時系列のうち単位区間U[k]内の相対ピッチR(t)の確率分布(相対ピッチR(t)を確率変数とする確率密度関数)D0[k]と、単位区間U[k]内の相対ピッチR(t)の時間変化(微分値)δR(t)の確率分布D1[k]とを表現する。具体的には、相対ピッチR(t)の確率分布D0[k]および時間変化δR(t)の確率分布D1[k]として正規分布が利用され、変動モデルMA[k]は、相対ピッチR(t)の確率分布D0[k]の平均μ0[k]および分散v0[k]と、時間変化δR(t)の確率分布D1[k]の平均μ1[k]および分散v1[k]とを規定する。なお、相対ピッチR(t)および時間変化δR(t)に加えて相対ピッチR(t)の2階微分値の確率分布を変動モデルMA[k]が規定する構成も採用され得る。
他方、第k状態の継続長モデルMB[k]は、図8に示すように、相対ピッチR(t)の時系列のうち単位区間U[k]の継続長の確率分布(単位区間U[k]の継続長を確率変数とする確率密度関数)DL[k]を表現する。具体的には、継続長モデルMB[k]は、継続長の確率分布(例えば正規分布)DL[k]の平均μL[k]および分散vL[k]を規定する。
図5の確率モデル生成部46は、相対ピッチR(t)の時系列に対する学習処理(最尤推定アルゴリズム)で、変動モデルMA[k](μ0[k],v0[k],μ1[k],v1[k])と継続長モデルMB[k](μL[k],vL[k])とをK個の状態の各々について決定し、変動モデルMA[1]〜MA[K]と継続長モデルMB[1]〜MB[K]とを含む確率モデルMを音符区間σ毎(音符毎)に相対ピッチ情報YA2として生成する。具体的には、音符区間σ内の相対ピッチR(t)の時系列が最大の確率で出現するように当該音符区間σの確率モデルMが生成される。
第3実施形態の軌跡生成部52は、複数の合成用データYAのうち楽譜データSCが示す指定音に対応する選択合成用データYAの相対ピッチ情報YA2(確率モデルM)を利用して合成ピッチPsyn(t)の時系列(ピッチ軌跡)を生成する。第1に、軌跡生成部52は、楽譜データSCで継続長が指定される各指定音をK個の単位区間U[1]〜U[K]に区分する。各単位区間U[k]の継続長は、選択合成用データYAの継続長モデルMB[k]が示す確率分布DL[k]に応じて決定される。
第2に、軌跡生成部52は、図7に示すように、変動モデルMA[k]のうち相対ピッチR(t)の確率分布D0[k]の平均μ0[k]と指定音の音名に対応するピッチNBとから平均μ[k]を算定する。具体的には、以下の数式(3)で定義されるように、確率分布D0[k]の平均μ0[k]と指定音のピッチNBとの加算値が平均μ[k]として算定される。すなわち、数式(3)で算定される平均μ[k]と変動モデルMA[k]の分散v0[k]とで規定される図7の確率分布D[k]は、参照歌唱者が指定音を歌唱したときの単位区間U[k]内のピッチの確率分布に相当し、参照歌唱者に固有の歌唱表現(ピッチ軌跡)を反映した分布となる。
μ[k]=μ0[k]+NB ……(3)
第3に、軌跡生成部52は、数式(3)で算定した平均μ[k]と変動モデルMA[k]の分散v0[k]とで規定される確率分布D[k]と、変動モデルMAのうち時間変化δR(t)の平均μ1[k](ピッチNBは加算されない)と分散v1[k]とで規定される確率分布D1[k]とにおいて同時確率が最大化するように各単位区間U[k]内の合成ピッチPsyn(t)の時系列を算定する。したがって、合成ピッチPsyn(t)の時系列は、第1実施形態と同様に、参照歌唱者が指定音を歌唱したときのピッチ軌跡に近似する。合成ピッチPsyn(t)の時系列と指定音の歌詞に対応する音波形データYBとを利用して合成処理部56が合成音データVoutを生成する処理は第1実施形態と同様である。
第3実施形態においても第1実施形態と同様の効果が実現される。また、第3実施形態では、相対ピッチR(t)の時系列を表現する確率モデルMが相対ピッチ情報YA2として記憶装置14に格納されるから、相対ピッチR(t)の時系列自体を相対ピッチ情報YA2とする第1実施形態と比較して合成用データYAのサイズが削減される(したがって記憶装置14に要求される容量が低減される)という利点がある。なお、音符区間σを補正する第2実施形態の構成は第3実施形態にも適用される。
<D:変形例>
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
(1)変形例1
以上の各形態では、楽譜データXBを利用して参照ピッチPref(t)の時系列を複数の音符区間σに区分したが、入力装置16に対する操作で利用者が指示した時点を境界として区間設定部42が各音符区間σを設定する構成(すなわち音符区間σの設定に楽譜データXBを必要としない構成)も採用される。例えば、利用者は、表示装置に表示される参照音の波形を視認するとともに放音装置(例えばスピーカ)から再生される参照音を聴取することで各音素の境界を推定しながら、入力装置16を適宜に操作して各音符区間σを指定する。したがって、楽譜取得部34は省略され得る。
(2)変形例2
以上の各形態では、記憶装置14に格納された参照音データXAから参照ピッチ検出部32が参照ピッチPref(t)を検出したが、参照音から事前に検出された参照ピッチPref(t)の時系列を記憶装置14に格納した構成(したがって、参照ピッチ検出部32は省略される)も採用され得る。
(3)変形例3
以上の各形態では第1処理部21と第2処理部22とを具備する音響合成装置100を例示したが、合成用データYAを生成する第1処理部21を単独で具備する音合成用データ生成装置や、記憶装置14に記憶された合成用データYAを利用して合成音データVoutを生成する第2処理部22を単独で具備する音響合成装置としても本発明は特定される。また、合成用データYAを記憶する記憶装置14と第2処理部22の軌跡生成部52を具備する装置は、合成ピッチPsyn(t)の時系列(ピッチ軌跡)を生成するピッチ軌跡生成装置としても把握される。
(4)変形例4
以上の各形態では歌唱音の合成を例示したが、本発明が適用される範囲は歌唱音の合成に限定されない。例えば、楽器の演奏音(楽音)を合成する場合にも、以上の各形態と同様に本発明が適用される。
100……音響合成装置、12……演算処理装置、14……記憶装置、16……入力装置、21……第1処理部、22……第2処理部、32……参照ピッチ検出部、34……楽譜取得部、36……合成用データ生成部、38……情報登録部、42……区間設定部、44……相対化部、46……確率モデル生成部、52……軌跡生成部、54……楽譜取得部、56……合成処理部。

Claims (5)

  1. 参照音のピッチの時系列を音符毎に複数の音符区間に区分する区間設定手段と、
    前記複数の音符区間の各々について、当該音符区間の音符のピッチに対する当該音符区間内の参照音の各ピッチの相対値である相対ピッチの時系列を生成する相対化手段と、
    前記相対ピッチの時系列を示す相対ピッチ情報を記憶手段に格納する情報登録手段と
    を具備する音合成用データ生成装置。
  2. 前記各音符区間内の複数の単位区間の各々について、当該単位区間内の前記相対ピッチを確率変数とする確率分布を示す変動モデルと、当該単位区間の継続長を確率変数とする確率分布を示す継続長モデルとを生成する確率モデル生成手段を具備し、
    前記情報登録手段は、前記確率モデル生成手段が各単位区間について生成した前記変動モデルおよび前記継続長モデルを前記相対ピッチ情報として前記記憶手段に格納する
    請求項1の音合成用データ生成装置。
  3. 前記参照音の音符を時系列に指定する楽譜データを取得する楽譜取得手段を具備し、
    前記区間設定手段は、前記楽譜データが示す音符毎に前記音符区間を設定するとともに各音符区間の端点の位置を補正する
    請求項1または請求項2の音合成用データ生成装置。
  4. 相異なる音符に対応する複数の音符区間を含む参照音について生成され、前記各音符区間の音符のピッチに対する当該音符区間内の前記参照音の各ピッチの相対値である相対ピッチの時系列を示す相対ピッチ情報を記憶する記憶手段と、
    音名が指定された指定音のピッチの時系列を、前記相対ピッチ情報と当該指定音の音名に対応するピッチとに応じて生成する軌跡生成手段と
    を具備するピッチ軌跡生成装置。
  5. 前記相対ピッチ情報は、前記各音符区間内の複数の単位区間の各々について、当該単位区間内の前記相対ピッチを確率変数とする確率分布を示す変動モデルと、当該単位区間の継続長を確率変数とする確率分布を示す継続長モデルとを含み、
    前記軌跡生成手段は、前記指定音のうち前記継続長モデルに応じて継続長が決定された各単位区間について、当該単位区間に対応する前記変動モデルが示す確率分布における平均と前記指定音に対応するピッチとに応じて当該指定音のピッチの時系列を生成する
    請求項4のピッチ軌跡生成装置。
JP2010177684A 2010-08-06 2010-08-06 音合成用データ生成装置およびプログラム Expired - Fee Related JP5605066B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2010177684A JP5605066B2 (ja) 2010-08-06 2010-08-06 音合成用データ生成装置およびプログラム
EP11176520.2A EP2416310A3 (en) 2010-08-06 2011-08-04 Tone synthesizing data generation apparatus and method
US13/198,613 US8916762B2 (en) 2010-08-06 2011-08-04 Tone synthesizing data generation apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010177684A JP5605066B2 (ja) 2010-08-06 2010-08-06 音合成用データ生成装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2012037722A true JP2012037722A (ja) 2012-02-23
JP5605066B2 JP5605066B2 (ja) 2014-10-15

Family

ID=45047549

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010177684A Expired - Fee Related JP5605066B2 (ja) 2010-08-06 2010-08-06 音合成用データ生成装置およびプログラム

Country Status (3)

Country Link
US (1) US8916762B2 (ja)
EP (1) EP2416310A3 (ja)
JP (1) JP5605066B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013125649A1 (ja) 2012-02-23 2013-08-29 三菱重工業株式会社 圧縮機
EP2838082A1 (en) 2013-08-09 2015-02-18 Yamaha Corporation Voice analysis method and device, voice synthesis method and device, and medium storing voice analysis program
JP2016161919A (ja) * 2015-03-05 2016-09-05 ヤマハ株式会社 音声合成装置
JP2017045073A (ja) * 2016-12-05 2017-03-02 ヤマハ株式会社 音声合成方法および音声合成装置

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5471858B2 (ja) * 2009-07-02 2014-04-16 ヤマハ株式会社 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
US8889976B2 (en) * 2009-08-14 2014-11-18 Honda Motor Co., Ltd. Musical score position estimating device, musical score position estimating method, and musical score position estimating robot
JP5974436B2 (ja) * 2011-08-26 2016-08-23 ヤマハ株式会社 楽曲生成装置
JP6123995B2 (ja) * 2013-03-14 2017-05-10 ヤマハ株式会社 音響信号分析装置及び音響信号分析プログラム
JP6179140B2 (ja) 2013-03-14 2017-08-16 ヤマハ株式会社 音響信号分析装置及び音響信号分析プログラム
JP2016080827A (ja) * 2014-10-15 2016-05-16 ヤマハ株式会社 音韻情報合成装置および音声合成装置
WO2018175892A1 (en) * 2017-03-23 2018-09-27 D&M Holdings, Inc. System providing expressive and emotive text-to-speech
JP6988343B2 (ja) * 2017-09-29 2022-01-05 ヤマハ株式会社 歌唱音声の編集支援方法、および歌唱音声の編集支援装置
JP2019066649A (ja) * 2017-09-29 2019-04-25 ヤマハ株式会社 歌唱音声の編集支援方法、および歌唱音声の編集支援装置
GB201802440D0 (en) * 2018-02-14 2018-03-28 Jukedeck Ltd A method of generating music data
WO2019239971A1 (ja) * 2018-06-15 2019-12-19 ヤマハ株式会社 情報処理方法、情報処理装置およびプログラム
US10896663B2 (en) * 2019-03-22 2021-01-19 Mixed In Key Llc Lane and rhythm-based melody generation system
CN110070847B (zh) * 2019-03-28 2023-09-26 深圳市芒果未来科技有限公司 乐音测评方法及相关产品
CN111081265B (zh) * 2019-12-26 2023-01-03 广州酷狗计算机科技有限公司 音高处理方法、装置、设备及存储介质
CN111863026B (zh) * 2020-07-27 2024-05-03 北京世纪好未来教育科技有限公司 键盘乐器弹奏音乐的处理方法、装置、电子装置
CN113192477A (zh) * 2021-04-28 2021-07-30 北京达佳互联信息技术有限公司 音频处理方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04251297A (ja) * 1990-12-15 1992-09-07 Yamaha Corp 楽音合成装置
JP2002073064A (ja) * 2000-08-28 2002-03-12 Yamaha Corp 音声処理装置、音声処理方法および情報記録媒体
JP2002229567A (ja) * 2001-02-05 2002-08-16 Yamaha Corp 波形データ録音装置および録音波形データ再生装置
JP2002304175A (ja) * 2001-02-05 2002-10-18 Yamaha Corp 波形生成方法、演奏データ処理方法および波形選択装置
JP2003345400A (ja) * 2002-05-27 2003-12-03 Yamaha Corp ピッチ変換装置、ピッチ変換方法及びプログラム
JP2010026223A (ja) * 2008-07-18 2010-02-04 Nippon Hoso Kyokai <Nhk> 目標パラメータ決定装置、合成音声修正装置、及びコンピュータプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6236966B1 (en) * 1998-04-14 2001-05-22 Michael K. Fleming System and method for production of audio control parameters using a learning machine
US6740804B2 (en) 2001-02-05 2004-05-25 Yamaha Corporation Waveform generating method, performance data processing method, waveform selection apparatus, waveform data recording apparatus, and waveform data recording and reproducing apparatus
JP3838039B2 (ja) * 2001-03-09 2006-10-25 ヤマハ株式会社 音声合成装置
US8487176B1 (en) * 2001-11-06 2013-07-16 James W. Wieder Music and sound that varies from one playback to another playback
US7732697B1 (en) * 2001-11-06 2010-06-08 Wieder James W Creating music and sound that varies from playback to playback
US6835886B2 (en) * 2001-11-19 2004-12-28 Yamaha Corporation Tone synthesis apparatus and method for synthesizing an envelope on the basis of a segment template
DE102004049478A1 (de) * 2004-10-11 2006-04-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zur Glättung eines Melodieliniensegments
US7977562B2 (en) * 2008-06-20 2011-07-12 Microsoft Corporation Synthesized singing voice waveform generator
JP5293460B2 (ja) * 2009-07-02 2013-09-18 ヤマハ株式会社 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP5471858B2 (ja) * 2009-07-02 2014-04-16 ヤマハ株式会社 歌唱合成用データベース生成装置、およびピッチカーブ生成装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04251297A (ja) * 1990-12-15 1992-09-07 Yamaha Corp 楽音合成装置
JP2002073064A (ja) * 2000-08-28 2002-03-12 Yamaha Corp 音声処理装置、音声処理方法および情報記録媒体
JP2002229567A (ja) * 2001-02-05 2002-08-16 Yamaha Corp 波形データ録音装置および録音波形データ再生装置
JP2002304175A (ja) * 2001-02-05 2002-10-18 Yamaha Corp 波形生成方法、演奏データ処理方法および波形選択装置
JP2003345400A (ja) * 2002-05-27 2003-12-03 Yamaha Corp ピッチ変換装置、ピッチ変換方法及びプログラム
JP2010026223A (ja) * 2008-07-18 2010-02-04 Nippon Hoso Kyokai <Nhk> 目標パラメータ決定装置、合成音声修正装置、及びコンピュータプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吉村貴克他: ""HMMに基づく音声合成におけるスペクトル・ピッチ・継続長の同時モデル化"", 電子情報通信学会論文誌, vol. 83, no. 11, JPN6011016352, November 2000 (2000-11-01), pages 2099 - 2107, ISSN: 0002706549 *
酒向慎司他: ""声質と歌唱スタイルを自動学習可能な歌声合成システム"", 社団法人情報処理学会研究報告, vol. 2008, no. 12, JPN6013062046, February 2008 (2008-02-01), pages 39 - 44, ISSN: 0002861470 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013125649A1 (ja) 2012-02-23 2013-08-29 三菱重工業株式会社 圧縮機
EP2838082A1 (en) 2013-08-09 2015-02-18 Yamaha Corporation Voice analysis method and device, voice synthesis method and device, and medium storing voice analysis program
JP2015034920A (ja) * 2013-08-09 2015-02-19 ヤマハ株式会社 音声解析装置
EP2980786A1 (en) 2013-08-09 2016-02-03 Yamaha Corporation Voice analysis method and device, voice synthesis method and device and medium storing voice analysis program
EP2983168A1 (en) 2013-08-09 2016-02-10 Yamaha Corporation Voice analysis method and device, voice synthesis method and device and medium storing voice analysis program
US9355628B2 (en) 2013-08-09 2016-05-31 Yamaha Corporation Voice analysis method and device, voice synthesis method and device, and medium storing voice analysis program
JP2016161919A (ja) * 2015-03-05 2016-09-05 ヤマハ株式会社 音声合成装置
JP2017045073A (ja) * 2016-12-05 2017-03-02 ヤマハ株式会社 音声合成方法および音声合成装置

Also Published As

Publication number Publication date
EP2416310A2 (en) 2012-02-08
JP5605066B2 (ja) 2014-10-15
US8916762B2 (en) 2014-12-23
EP2416310A3 (en) 2016-08-10
US20120031257A1 (en) 2012-02-09

Similar Documents

Publication Publication Date Title
JP5605066B2 (ja) 音合成用データ生成装置およびプログラム
KR100949872B1 (ko) 악곡 연습 지원 장치, 악곡 연습 지원 장치의 제어 방법, 악곡 연습 지원 장치를 제어하는 제어 방법을 컴퓨터로 실행시키는 프로그램을 기록한 컴퓨터로 읽을 수 있는 매체
US9595256B2 (en) System and method for singing synthesis
US7825321B2 (en) Methods and apparatus for use in sound modification comparing time alignment data from sampled audio signals
US9818396B2 (en) Method and device for editing singing voice synthesis data, and method for analyzing singing
EP1849154B1 (en) Methods and apparatus for use in sound modification
JP6791258B2 (ja) 音声合成方法、音声合成装置およびプログラム
JP2016177276A (ja) 発音装置、発音方法および発音プログラム
JP2008225117A (ja) ピッチ表示制御装置
JP5136128B2 (ja) 音声合成装置
JP4844623B2 (ja) 合唱合成装置、合唱合成方法およびプログラム
JP2009169103A (ja) 練習支援装置
JP6171393B2 (ja) 音響合成装置および音響合成方法
JP2017027021A (ja) 歌唱合成データ編集の方法および装置、ならびに歌唱解析方法
JP2022065554A (ja) 音声合成方法およびプログラム
JP5106437B2 (ja) カラオケ装置及びその制御方法並びにその制御プログラム
JP2000010597A (ja) 音声変換装置及び音声変換方法
WO2022080395A1 (ja) 音声合成方法およびプログラム
JP5953743B2 (ja) 音声合成装置及びプログラム
JP2012058306A (ja) 音合成用確率モデル生成装置および特徴量軌跡生成装置
JP3540609B2 (ja) 音声変換装置及び音声変換方法
JP2005195968A (ja) ピッチ変換装置
JP3979213B2 (ja) 歌唱合成装置、歌唱合成方法並びに歌唱合成用プログラム
JP2004061753A (ja) 歌唱音声を合成する方法および装置
JP6822075B2 (ja) 音声合成方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130620

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131217

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140729

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140811

R150 Certificate of patent or registration of utility model

Ref document number: 5605066

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees