JP2014098801A - 音声合成装置 - Google Patents

音声合成装置 Download PDF

Info

Publication number
JP2014098801A
JP2014098801A JP2012250438A JP2012250438A JP2014098801A JP 2014098801 A JP2014098801 A JP 2014098801A JP 2012250438 A JP2012250438 A JP 2012250438A JP 2012250438 A JP2012250438 A JP 2012250438A JP 2014098801 A JP2014098801 A JP 2014098801A
Authority
JP
Japan
Prior art keywords
information
control information
phoneme
voice
synthesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012250438A
Other languages
English (en)
Other versions
JP5821824B2 (ja
Inventor
Hiroshi Kayama
啓 嘉山
Yoshiki Nishitani
善樹 西谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2012250438A priority Critical patent/JP5821824B2/ja
Priority to EP13192421.9A priority patent/EP2733696B1/en
Priority to CN201310572222.6A priority patent/CN103810992B/zh
Priority to US14/080,660 priority patent/US10002604B2/en
Publication of JP2014098801A publication Critical patent/JP2014098801A/ja
Application granted granted Critical
Publication of JP5821824B2 publication Critical patent/JP5821824B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/02Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/02Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
    • G10H1/04Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos by additional modulation
    • G10H1/053Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos by additional modulation during execution only
    • G10H1/055Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos by additional modulation during execution only by switches with variable impedance elements
    • G10H1/0551Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos by additional modulation during execution only by switches with variable impedance elements using variable capacitors
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/32Constructional details
    • G10H1/34Switch arrangements, e.g. keyboards or mechanical switches specially adapted for electrophonic musical instruments
    • G10H1/344Structural association with individual keys
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/155User input interfaces for electrophonic musical instruments
    • G10H2220/265Key design details; Special characteristics of individual keys of a keyboard; Key-like musical input devices, e.g. finger sensors, pedals, potentiometers, selectors
    • G10H2220/271Velocity sensing for individual keys, e.g. by placing sensors at different points along the kinematic path for individual key velocity estimation by delay measurement between adjacent sensor signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2230/00General physical, ergonomic or hardware implementation of electrophonic musical tools or instruments, e.g. shape or architecture
    • G10H2230/045Special instrument [spint], i.e. mimicking the ergonomy, shape, sound or other characteristic of a specific acoustic musical instrument category
    • G10H2230/075Spint stringed, i.e. mimicking stringed instrument features, electrophonic aspects of acoustic stringed musical instruments without keyboard; MIDI-like control therefor
    • G10H2230/135Spint guitar, i.e. guitar-like instruments in which the sound is not generated by vibrating strings, e.g. guitar-shaped game interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2230/00General physical, ergonomic or hardware implementation of electrophonic musical tools or instruments, e.g. shape or architecture
    • G10H2230/045Special instrument [spint], i.e. mimicking the ergonomy, shape, sound or other characteristic of a specific acoustic musical instrument category
    • G10H2230/155Spint wind instrument, i.e. mimicking musical wind instrument features; Electrophonic aspects of acoustic wind instruments; MIDI-like control therefor.
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2230/00General physical, ergonomic or hardware implementation of electrophonic musical tools or instruments, e.g. shape or architecture
    • G10H2230/045Special instrument [spint], i.e. mimicking the ergonomy, shape, sound or other characteristic of a specific acoustic musical instrument category
    • G10H2230/251Spint percussion, i.e. mimicking percussion instruments; Electrophonic musical instruments with percussion instrument features; Electrophonic aspects of acoustic percussion instruments, MIDI-like control therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/171Transmission of musical instrument data, control or status information; Transmission, remote access or control of music data for electrophonic musical instruments
    • G10H2240/281Protocol or standard connector for transmission of analog or digital data to or from an electrophonic musical instrument
    • G10H2240/311MIDI transmission
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/315Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
    • G10H2250/455Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Power Engineering (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Auxiliary Devices For Music (AREA)
  • Machine Translation (AREA)

Abstract

【課題】もたつき感のない自然な音声をリアルタイム方式で合成することを可能にする。
【解決手段】歌唱音声の音高をユーザに指定させるための歌唱合成用キーボードに、音高を指定する押鍵操作の開始を契機として当該音高を示す第1の発音制御情報を出力させ、鍵の押し切りを契機として音の強さを示す第2の発音制御情報を出力させる。歌唱合成装置には、第1の発音制御情報の取得により、無音から当該歌唱音声の先頭の音韻への遷移部の音声を当該第1の発音制御情報の示す音高で合成させ、第2の発音制御情報の取得により、当該先頭の音韻から後続の音韻への遷移部以降の音声を当該第1の発音制御情報の示す音高および当該第2の発音制御情報の示す音の強さで合成させる。
【選択図】図2

Description

この発明は、音声合成技術に関し、特に、リアルタイム音声合成技術に関する。
音声ガイダンスにおける案内音声や文芸作品の朗読音声、或いは歌唱曲の歌唱音声などを表す音声信号を、複数種類の合成情報を用いて電気的な信号処理により合成する音声合成技術が普及している。例えば、歌唱音声の合成の場合は、歌唱音声の合成対象の歌唱曲のメロディを構成する各音符の音高や継続長を表す情報と各音符に合わせて発音する歌詞の音韻列を示す情報のような音楽表現情報が上記合成情報として用いられる。音声ガイダンスにおける案内音声や文芸作品の朗読音声の音声信号を合成する場合は、案内文や文芸作品の文章の音韻を表す情報と、イントネーションやアクセントなどの韻律変化を示す情報が上記合成情報として用いられる。従来、この種の音声合成は、合成対象の音声全体に亙る各種合成情報を予め音声合成装置に全て入力しておき、合成対象の音声全体の音波形を表す音声信号をそれら合成情報に基づいて一括して生成する所謂バッチ処理方式が一般的であった。しかし、近年ではリアルタイム方式の音声合成技術も提案されている(例えば、特許文献1参照)。
リアルタイム方式の音声合成の一例としては、楽曲全体の歌詞の音韻列を示す情報を歌唱合成装置に予め入力しておき、各歌詞を発音する際の音高等をピアノ鍵盤を模したキーボードの操作により逐次指定することで歌唱音声を合成する技術が挙げられる。また、近年では、歌詞の音韻列を構成する各音韻(子音や母音)を入力するための操作子を配列した音韻情報入力部と、ピアノ鍵盤を模した音符情報入力部とを左右に並べた歌唱合成用キーボードを用いて、音高を示す音符情報と当該音符に合わせて発音する歌詞の音韻列を示す音韻列情報とを音符毎にユーザに逐次入力させ、歌唱音声の合成を音符単位で行うことも提案されている。
特許3879402号
楽曲全体の歌詞の音韻列を示す情報を予め歌唱合成装置に記憶させてリアルタイム方式の歌唱合成を行う場合、楽譜に対して遅れて歌詞が発音されているかのような、もたつき感のある不自然な歌唱音声が合成されることがある。このようなもたつき感が生じる理由は以下の通りである。
図3(a)は、子音と母音からなる歌詞を音符に合わせて人が歌唱する場合の各音韻の発音タイミングの一例を示す図である。図3(a)では五線譜に記された矩形Nによって音符が表されており、当該矩形N内に当該音符に合わせて歌唱する歌詞が記されている。図3(a)に示すように、子音と母音からなる歌詞を音符に合わせて歌唱する場合、人は、楽譜上の発音タイミングに応じた時刻T1より手前の時刻T0から当該歌詞の発音を開始し(図3(a)および(b)における記号#は無音を表す。図2においても同様)、時刻T1においては子音と母音の境界部分を発音することが一般的である。
ピアノ鍵盤を模したキーボードを用いたリアルタイム方式の歌唱合成においても同様に、図3(b)に示すように、ユーザは楽譜における音符の位置よりも手前の時刻T0から音高を指定するための鍵Kを指Fで押下し始め、時刻T1において鍵Kを押し切るように操作することが多い。しかし、この種のキーボードは、一般的に、鍵を押し切った時点で音高を示す情報を出力する(或いは音高を示す情報と押鍵速度に応じた音の強さを示す情報とを出力する)ように構成されているため、音高を示す情報が実際に出力されるのは鍵を押し切ったタイミング(時刻T1)においてである。一方、歌唱合成装置では音韻列情報と音高を示す情報とが揃わないと歌唱音声の合成が開始されない。合成処理に要する時間が十分に短く無視することができたとしても、歌唱音声の出力が開始されるのは時刻T1からであり、鍵Kを押し始めてから押し切るまでのタイムラグ(T1−T0)が上記もたつき感となって現れるのである。この点は、音符毎に歌詞と音高をユーザに逐次入力させて歌唱音声の合成を行う場合も同様であり、また、案内音声や朗読音声の音声合成においても同様である。
本発明は上記課題に鑑みて為されたものであり、もたつき感のない自然な音声をリアルタイム方式で合成することを可能にする技術を提供することを目的とする。
上記課題を解決するために本発明は、音声の発音開始をユーザに指示させるための操作子に対する操作の開始により第1の発音制御情報を取得する一方、当該操作子に対する操作の完了または他の操作子に対する操作により第2の発音制御情報を取得する取得手段と、合成対象の音声の音韻列を示す音韻列情報と音高を示す音高情報とを少なくとも含む複数種類の合成情報を用いて音声を合成する手段であって、前記取得手段が前記第1の発音制御情報を取得するのに応じて、無音または先行する音韻から前記音韻列情報の示す音韻列の先頭の音韻への遷移部に対応する音声を前記複数種類の合成情報を用いて合成して出力し、前記取得手段が前記第2の発音制御情報を取得するのに応じて、当該先頭の音韻から後続の音韻への遷移部を少なくとも含む音声を前記複数種類の合成情報を用いて合成して出力する音声合成手段とを有することを特徴とする音声合成装置、を提供する。なお、第2の発音制御情報の取得を契機とする音声の出力態様としては、音韻列情報の示す音韻列における先頭の音韻から後続の音韻への遷移部以降の音声を合成して出力する態様や、当該遷移部を繰り返し発音する音声(或いは1または複数の無音を挟みつつ当該遷移部を繰り返し発音する音声)または当該遷移部を発音し続ける音声を合成して出力する態様が考えられる。
このような音声合成装置によれば、音声の発音開始をユーザに指示させるための操作子に対する操作開始を契機として無音からから先頭の音韻への遷移部(例えば、無音状態から「さいた」と歌い始める場合の無音から子音sへの遷移部分)の音声の出力が開始されるため、当該操作子に対する操作の開始から合成音声の発音開始までのタイムラグがほぼなくなり、もたつき感のない音声をリアルタイム方式で合成することが可能になる。同様に「さいた」という歌詞のうちの「た」の部分の音声の合成についても、音声の発音開始をユーザに指示させるための操作子に対する操作開始を契機として先行する音韻(この例では、母音i)から当該歌詞の音韻列情報の示す先頭の音韻(この例では、子音t)への遷移部の音声の出力が開始されるため、当該操作子に対する操作の開始から合成音声の発音開始までのタイムラグがほぼなくなり、もたつき感のない音声が合成される。そして、上記操作子に対する操作の完了(例えば、操作子の押し切り)または他の操作子の操作によって先頭の音韻から後続の音韻への遷移部(子音+母音からなる歌詞であれば、子音から母音への遷移部)の出力タイミングを調整することができ、人の歌唱特性を的確に再現した自然な歌唱音声を合成することができる。なお、音韻列情報が1つの音韻(例えば、母音)を示すものである場合には、第1の発音制御情報の取得を契機として音声合成を行っても良く、第2の発音制御情報の取得を待って音声合成を行っても良い。
より好ましい態様においては、前記複数種類の合成情報を用いて合成される音声の発音開始を指示する操作子は当該音声の音高をユーザに指定させるための操作子を兼ねており、前記第1の発音制御情報には、前記複数種類の合成情報の一部を為す音高情報であって、当該操作子に対する操作により指定された音高を示す音高情報が含まれており、前記音声合成手段は、前記取得手段により取得された第1の発音制御情報に含まれる音高情報を前記複数種類の合成情報のうちの1つとして用いることを特徴とする。このような態様によれば、合成音声を発音する際の音高を適宜指定しながらもたつき感のない自然な音声をリアルタイム方式で合成することが可能になる。なお、互いに異なる音高を示す音高情報を含む複数の前記第1の発音制御情報が連続して前記取得手段により取得された場合には、前記音声合成手段は、それら複数の前記第1の発音制御情報のうちから選択した1つに含まれる音高情報を前記複数種類の合成情報のうちの1つとして用いるようにすれば良い。
また別の好ましい態様においては、前記第2の発音制御情報には、音の強さまたは音量を指定する情報が含まれており、前記音声合成手段は、当該音の強さまたは音量を指定する情報を前記複数種類の合成情報の一部として用いて、前記音韻情報の示す音韻列の先頭の音韻から後続の音韻への遷移部を少なくとも含む音声を合成して出力することを特徴とする。このような態様によれば、音高の他に、合成音声を発音する際の音の強さまたは音量を適宜指定しながらもたつき感のない自然な音声をリアルタイム方式で合成することが可能になる。なお、互いに異なる音の強さまたは音量を示す情報を含む複数の前記第2の発音制御情報が連続して前記取得手段により取得された場合には、前記音声合成手段は、それら複数の前記第2の発音制御情報のうちから選択した1つに含まれる情報を前記複数種類の合成情報の一部として用いて、前記音韻情報の示す音韻列の先頭の音韻から後続の音韻への遷移部を少なくとも含む音声を合成して出力するようにすれば良い。
さらに別の好ましい態様においては、同じ音高を示す音高情報を含む第1および第2の発音制御情報により形成される発音制御情報対が前記取得手段により複数取得された場合には、前記音声合成手段には、発音制御情報対毎に音声合成を行わせる(すなわち、音高の異なる複数種類の合成音声を合成する)態様も考えられる。このような態様によれば、音高の異なる合成音声を同時並列に合成することが可能になる。
この発明の一実施形態の歌唱合成装置1の構成例を示す図である。 同歌唱合成装置1の動作を説明するための図である。 従来のリアルタイム方式の歌唱合成技術の問題点を説明するための図である。
以下、図面を参照しつつ、本発明の実施形態について説明する。
(A:実施形態)
図1は、本発明の音声合成装置の一実施形態の歌唱合成装置1の構成例を示すブロック図である。この歌唱合成装置1には、複数種類の合成情報(音符に合わせて発音する歌詞の音韻列を示す音韻列情報と当該音符の音高を示す情報など)を逐次ユーザに入力させ、それら合成情報を用いてリアルタイム方式の歌唱合成を行う装置である。図1に示すように、歌唱合成装置1は、制御部110、操作部120、表示部130、音声出力部140、外部機器インタフェース(以下、「I/F」と略記)部150、記憶部160、および、これら構成要素間のデータ授受を仲介するバス170を含んでいる。
制御部110は、例えばCPU(Central Processing Unit)である。制御部110は、記憶部160に記憶されている歌唱合成プログラムにしたがって作動することにより、上記複数種類の合成情報に基づいて歌唱音声を合成する音声合成手段として機能する。この歌唱合成プログラムにしたがって制御部110が実行する処理の詳細については後に明らかにする。なお、本実施形態では制御部110としてCPUを用いるがDSP(Digital Signal Processor)を用いても勿論良い。
操作部120は、前述した歌唱合成用キーボードであり、音韻情報入力部と音符情報入力部とを有している。歌唱合成装置1のユーザは、操作部120を操作することによって、歌唱音声の合成対象の歌唱曲のメロディを構成する音符と音符に合わせて発音する歌詞の音韻列を指定することができる。例えば、「さ」という歌詞を指定する場合には音韻情報入力部に設けられている複数の操作子のうちの子音「s」に対応した操作子と母音「a」に対応した操作子を順次押下すれば良く、当該歌詞に対応する音符の音高として「C4」を指定する場合には音符情報入力部に設けられている複数の操作子(鍵)のうち当該音高に応じた鍵を押下してその発音開始を指示し、当該鍵から指を離すことで発音終了を指示すれば良い。つまり、鍵を押下している時間の長さが音符の継続長となる。また、ユーザは、音符に対応する鍵の押鍵速度によって当該音符に合わせて歌詞を発音する際の音の強さ(ベロシティ)を指定することができる。なお、押鍵速度によってベロシティを指定することを可能にする仕組みとしては、従来の電子鍵盤楽器におけるものを採用すれば良い。
操作部120の音韻情報入力部(図1では図示省略)は、音韻列を指定する操作が為された場合には当該音韻列を示す音韻列情報を制御部110に与える。一方、操作部120の音符情報入力部は、音高を指定する操作子(本実施形態では、ピアノ鍵盤の各鍵を模した操作子)毎に、操作子の押下開始を検出する第1のセンサと当該操作子が押し切られたことを検出する第2のセンサとを含んでいる(図1では、図示略)。ここで、第1および第2のセンサとしては、機械式センサ、感圧式センサ、或いは光学式センサなどの各種方式のセンサを用いることができる。要は、第1のセンサは、所定の閾値を超える深さまで鍵が押し込まれたことを検知するセンサであれば良く、第2のセンサは、鍵が完全に押し込まれたことを検知するセンサであれば良い。
操作部120の音符情報入力部は、上記第1のセンサによって鍵の押鍵操作の開始を検出すると、当該鍵に対応する音高を示す音高情報(例えば、ノート番号)を含んだノートオンイベント(MIDI(Musical Instrument Digital Interface)イベント)を発音開始を指示する第1の発音制御情報として制御部110に与える。音符情報入力部は上記第1のセンサにより押鍵開始を検知された操作子の押し切りを第2のセンサによって検知すると、当該鍵に対応した音高情報と第1のセンサによる押鍵開始の検出から第2のセンサによる押し切りの検出までに要した時間の長さに応じたベロシティの値とを含むノートオンイベントを第2の発音制御情報として制御部110に与える。そして、音符情報入力部は、押し切り位置からの復帰を第2のセンサによって検出すると、発音停止を指示する第3の発音制御情報(本実施形態では、ノートオフイベント)を制御部110に与える。なお、第2の発音制御情報に含ませる情報は発音の強さを指定する情報(ベロシティ)に限定されず、音量(ボリューム)を指定する情報であっても良く、また、ベロシティとボリュームの両者であっても良い。
表示部130は、例えば液晶ディスプレイとその駆動回路であり、制御部110による制御の下、歌唱合成装置1の使用を促すメニュー画像などの各種画像を表示する。音声出力部140は、図1に示すように、D/A変換器142、増幅器144、およびスピーカ
146を含んでいる。D/A変換器142は、制御部110から与えられるデジタル形式の音声データ(合成歌唱音声の音波形を表す音声データ)にD/A変換を施し、変換結果のアナログ音声信号を増幅器144に与える。増幅器144は、D/A変換器142から与えられる音声信号の信号レベル(すなわち、音量)をスピーカ駆動に適したレベルまで増幅してスピーカ146に与える。スピーカ146は、増幅器144から与えられる音声信号を音として出力する。
外部機器I/F部150は、例えばUSB(Universal Serial Buss)インタフェースやオーディオインタフェースなど、歌唱合成装置1に他の外部機器を接続するためのインタフェースの集合体である。本実施形態では、歌唱合成用キーボード(操作部120)や音声出力部140が歌唱合成装置1の構成要素である場合について説明するが、歌唱合成用キーボードや音声出力部140を外部機器I/F部150に接続される外部機器としても勿論良い。
記憶部160は、不揮発性記憶部162と揮発性記憶部164とを含んでいる。不揮発性記憶部162は、例えばROM(Read Only Memory)やフラッシュメモリ或いはハードディスクなどの不揮発性メモリにより構成されており、揮発性記憶部164は例えばRAM(Random Access Memory)などの揮発性メモリにより構成されている。揮発性記憶部164は各種プログラムを実行する際のワークエリアとして制御部110によって利用される。一方、不揮発性記憶部162には、図1に示すように、歌唱合成用ライブラリ162aと、歌唱合成プログラム162bとが予め格納されている。
歌唱合成用ライブラリ162aとは、様々な音素やダイフォン(音素から異なる音素(無音を含む)への遷移)の音声波形を表す素片データを格納したデータベースである。なお、歌唱合成用ライブラリ162aは、モノフォンやダイフォンの他にトライフォンの素片データを格納したデータベースであっても良く、また、音声波形の音素の定常部や他の音素への遷移部(過渡部)が格納されたデータベースであっても良い。歌唱合成プログラム162bは、歌唱合成用ライブラリ162aを利用した歌唱合成を制御部110に実行させるためのプログラムである。歌唱合成プログラム162bにしたがって作動している制御部110は歌唱合成処理を実行する。
歌唱合成処理とは、複数種類の合成情報(音韻列情報、音高情報、音の強さや音量を示す情報など)に基づいて歌唱音声の音波形を表す音声データを合成して出力する処理である。本実施形態の歌唱合成処理は、音韻列情報と第1の発音制御情報が揃ったことを契機として開始される。この歌唱合成処理では、制御部110は、無音または先行する歌詞の音韻から音韻列情報の示す音韻列の先頭の音韻への遷移部に対応する素片データを歌唱合成用ライブラリ162aから読み出し、第1の発音制御情報に含まれる音高情報の示す音高となるようにピッチ変換等の信号処理を施して当該遷移部分の音波形データを合成し、音声出力部140に与える。その後、制御部110は、第2の発音制御情報を受け取ったことを契機として、上記先頭の音韻から後続の音韻への遷移部以降の各音韻の素片データを歌唱合成用ライブラリ162aから読み出し、第1の発音制御情報に含まれる音高情報の示す音高となるようにピッチ変換する処理、第2の発音制御情報に含まれるベロシティの値に応じてアタックの深さを調整するなどの信号処理を施して結合して当該遷移部以降の音波形データを合成して音声出力部140に与える。そして、制御部110は、第3の発音制御情報を受け取ったことを契機として歌唱合成処理を終了し、合成歌唱音の出力を停止させる。
例えば、無音状態から「さいた」と歌い始める歌唱音声を合成する場合、「さ」という歌詞の歌唱音声については、発音開始を指示する操作子の操作開始を契機として無音から先頭の音韻(子音s)への遷移部の音声の出力が開始され、当該操作子の押し切りを契機として当該先頭の音韻から後続の音韻(母音a)への遷移部以降の音声の出力が開始される。このため、当該操作子に対する操作の開始から合成音声の発音開始までのタイムラグがほぼなくなり、もたつき感のない音声をリアルタイム方式で合成することが可能になる。同様に「さいた」という歌詞のうちの「た」という歌詞の歌唱音声についても、発音開始を指示する操作子の操作開始を契機として先行する音韻(この例では、母音i)から当該歌詞の音韻列情報の示す先頭の音韻(この例では、子音t)への遷移部の音声の出力が開始され、当該操作子の押し切りを契機として当該先頭の音韻から後続の音韻(母音a)への遷移部以降の音声の出力が開始される。なお、音韻列情報が1つの母音を示す場合には、当該音韻列情報と第1の発音制御情報とが揃ったことを契機として歌唱音声の合成を開始しても良く、また、第2の発音制御情報の取得を待って歌唱音声の合成を開始しても良い。後者の態様であれば、第2の発音制御情報に含まれているベロシティの示す音の強さで歌唱音声の合成を行えば良く、前者の態様であれば、予め定められたデフォルトの音の強さで歌唱音声の合成を開始し、第2の発音制御情報を取得を契機として当該第2の発音制御情報に含まれるベロシティに応じた値となるように音の強さを変化させるようにすれば良い。また、前者の態様と後者の態様をユーザの選択に応じて切り替えるようにしても良い。
なお、音韻列情報の示す音韻列の先頭の音素が継続不能な音韻(例えば破裂音)である場合には、第2の発音制御情報を取得するまで、当該音韻の出力を繰り返す処理を制御部110に実行させるようにしても良く、「当該音素+無音」を繰り返す、「無音+当該音素+無音」を繰り返す、或いは「無音+当該音素」を繰り返すといった具合に当該音素が連続しないように1または複数の無音を挟みつつ当該音素の出力を繰り返すようにしても良い。また、歌唱合成装置1として歌唱合成機能の他に楽器演奏機能を有するもの用いる態様では、音韻列情報を伴わずに第1および第2の発音制御情報が入力された場合に歌唱音声の合成出力に換え、上記楽器演奏機能により楽器演奏音を出力する処理を制御部110に実行させるようにすれば良い。また、無音状態から「さいた」と歌い始める歌唱音声を合成する場合において先頭の歌詞「さ」に後続する歌詞が入力されない場合のように後続する歌詞が入力されない場合には、発音開始を指示する操作子の押し切りを契機として当該歌詞を示す音韻列における先頭の音韻(子音s)から後続の音韻(母音a)への遷移部を繰り返し発音する音声(或いは、1または複数の無音を挟みつつ当該遷移部を繰り返し発音する音声)や当該遷移部を発音し続ける音声を合成して出力する処理を制御部110に実行させても良い。要は、第2の発音制御情報の取得に応じて、音韻列情報の示す音韻列における先頭の音韻から後続の音韻への遷移部を少なくとも含む音声を合成して出力する態様であれば良い。
本実施形態では、図2に示すように、音高を指定する操作子の操作開始時点(時刻T0)から合成歌唱音声の出力が開始され、もたつき感のない歌唱音声を合成することが可能になる。ここで、歌唱合成用ライブラリ162aに格納されている素片データのうち、子音から母音への遷移部の音波形を示す素片データについては、子音部分が極力短くなるように構成されていることが好ましい。子音から母音への遷移部の素片データを子音部分が極力短くなるように構成しておけば、音高を指定する操作子を押し切ったタイミング(時刻T1)と母音の発音タイミングの時間差を極力短くすることができ、より人の歌唱に近い歌唱音声を合成することが可能になるからである。
また、音符情報入力部の操作子に対する操作の開始を検出する第1のセンサとして、ユーザの指が操作子に触れたことを検出するセンサ(例えば、静電容量センサ)を用いるようにすれば、音高を指定する操作子の操作が実際に開始されるのに先立って無音または先行する歌詞の音韻から音韻列情報の示す音韻列の先頭の音韻への遷移部の音声の合成を開始することができ、合成歌唱音声の出力が開始されるまでの遅延をさらに短くすることができる。なお、このような態様においては、ユーザの指が操作子に触れたことを検出するセンサの他に当該操作子の押下が開始されたことを検出するセンサを設け、前者のセンサの検出出力に応じて歌唱音声の合成を開始し、後者のセンサの検出出力に応じてその合成歌唱音声の出力を開始するようにしても良い。
また、本実施形態では、音符情報入力部の操作子の押し切りを契機として第2の発音制御情報を出力し、押し切り位置からの復帰を契機として発音停止を指示する第3の発音制御情報を出力した。しかし、押下開始前の位置への復帰を第1のセンサにより検出したことを契機として上記第3の発音制御情報を制御部110に与えるようにしても良い。このような態様によれば、押し切り位置から押下開始前の位置への復帰までに要する時間を計測し、発音中の歌唱音声の消音制御(リリース部分の発音制御)にその時間の長さを利用することが可能になり、ユーザは押し切った操作子からゆっくりと指を離すなどの操作を行うなどして歌唱音声の表現力を一層向上させることができる。また、押し切り位置からさらに押し込むように操作子に力が加えられたことを第2のセンサ(或いは当該力の大きさを検出する別個のセンサ)により検出し、その力の大きさに応じた発音制御情報を制御部110に与え、当該発音制御情報に応じた発音制御を行うようにしても良い。
なお、本実施形態のように発音制御情報を2回に分けて出力する動作モードと、従来の電子鍵盤楽器と同様に鍵の押し切りを契機として音高を示す情報と音の強さ(或いは音量)を示す情報とを含む発音制御情報を出力する動作モードとをユーザの指示に応じて切り替えるようにしても良い。また、第2の発音制御情報に含まれるベロシティを歌唱音声の合成には使用せず、子音から母音への遷移部の出力タイミングの特定のみに当該第2の発音制御情報を利用しても良い。この場合、第2の発音制御情報にベロシティを含めておく必要はなく、アタックの深さ等の調整を制御部110に実行させる必要もない。
また、音韻情報入力部に対して複数の操作子を所定の深さまで押下するなどの操作がなされ、互いに異なる音高を示す情報を含む複数の第1の発音制御情報を連続して取得した場合には、それら複数の第1の発音制御情報のうちの何れか1つ(例えば、最先のもの)を選択して無音または先行する歌詞の音韻から音韻列情報の示す音韻列の先頭の音韻への遷移部の音声の合成を制御部110に実行させ、当該選択した第1の発音制御情報に対応する第2の発音制御情報(選択した第1の発音制御情報に含まれるものと同じ音高を示す情報を含む第2の発音制御情報)を用いて(他の第2の発音制御情報は破棄して)、先頭の音韻から後続の音韻への遷移部を少なくとも含む音声の合成を制御部110に実行させても良い。
また、連続して取得した複数の第1の発音制御情報のうち第2の発音制御情報を受け取る直前に受け取ったもの(すなわち最後発の第1の発音制御情報)を選択して無音または先行する歌詞の音韻から音韻列情報の示す音韻列の先頭の音韻への遷移部の音声の合成を制御部110に実行させても良い。このような態様によれば、ミスタッチ等の押し間違いの修正により複数の第1の発音制御情報が連続して取得された場合であっても、修正後の音高で歌唱音声を合成することが可能になる。なお、1または複数の第1の発音制御情報を操作部120から受け取った後、最初に受け取った第2の発音制御情報を常に採用する態様であれば、第2の発音制御情報に音高を示す情報を含めておく必要はない。
また、同じ音高を示す情報を含んでいる第1および第2の発音制御情報からなる発音制御情報対であって発音制御情報対毎に異なる音高に対応する複数の発音制御情報対が操作部120から制御部110に与えられた場合には、発音制御情報対毎に歌唱音声の合成を行う(すなわち、音高の異なる複数種類の歌唱音声の合成を同時並列に行う)ようにしても良い。
(B:変形)
以上本発明の各実施形態について説明したが、これら実施形態に以下の変形を加えても勿論良い。
(1)上記実施形態では、音高を指定する操作子が予め定められた深さまで押し込まれたこと(或いは当該操作子に対するユーザの指の接触の検出)を契機として第1の発音制御情報を操作部120に出力させた。しかし、第1のセンサとして、所定の閾値以下の距離までユーザの指が操作子に接近したことを検知するセンサを用い、所定の閾値以下の距離までユーザの指が操作子に接近したことを当該センサにより検知したのに応じて第1の発音制御情報を操作部120に出力させるようにしても良い。この場合、実際には操作子が操作されていないにも拘らず、無音または先行する歌詞の音韻から音韻列情報の示す音韻列の先頭の音韻への遷移部の音声が無制限に出力され続けることを回避するために、第1の発音制御情報の出力から所定時間が経過してもユーザの指の接触や操作子の押下(或いは押し切り)が検知されない場合には、上記遷移部の音声の出力停止を指示する第4の発音制御情報を操作部120に出力させるようにすれば良い。また、当該第4の発音制御情報の出力をユーザに指示させるための操作子を操作部120に設け、当該操作子に対する操作の検出を契機として操作部120に当該第4の発音制御情報を出力させるようにしても良い。
(2)上記実施形態では、歌唱音声の音高を指定する各操作子に発音開始をユーザに指示させる操作子の役割を兼ねさせ、さらに、当該操作子に対する操作の開始(ユーザの指の接触或いは所定の深さまでの押し込み)に応じて第1の発音制御情報を出力し、当該操作子に対する操作の完了(当該操作子の押し切り)に応じて第2の発音制御情報を出力する場合について説明した。しかし、上記操作子とは別個の操作子(例えば、歌唱音声の発音の強さ或いは音量を指定するためのダイヤルやペダルなど)に第2の発音制御情報を出力する役割を担わせても勿論良い。具体的には、歌唱音声の発音の強さ或いは音量を指定するための操作子として足踏み式のペダル状の操作子を操作部120に設け、ピアノ鍵盤を模した音符情報入力部における鍵の操作開始の検出を契機として第1の発音制御情報を操作部120に出力させる一方、当該ペダル状の操作子の踏む込みの検出を契機として第2の発音制御情報を操作部120に出力させるのである。このような態様においても、ピアノ鍵盤を模した音符情報入力部における鍵の操作開始の検出を契機として、無音または先行する歌詞の音韻から音韻列情報の示す音韻列の先頭の音韻への遷移に対応する音声が出力され、もたつき感のない音声をリアルタイム方式で合成することが可能になる。また、ペダル状の操作子を踏み込むタイミングを調整することで、先頭の音韻から後続の音韻への遷移部(例えば、子音から母音への遷移部)の音声の出力タイミングを楽譜上の音符のタイミングに合わせ、人の歌唱特性を的確に再現することができる。
(3)上記実施形態では、第1および第2の発音制御情報を歌唱合成装置1に取得させるための取得手段(操作部120の音符情報入力部)として電子鍵盤楽器を模したものを用いたが、MIDI制御の電子楽器を模したものであれば、電子弦楽器や電子管楽器、電子打楽器などを模したものであっても良い。例えば、操作部120の音符情報入力部として電子ギターなどの電子弦楽器を模したものを用いる場合には、第1のセンサとしてユーザの指やピックが弦に触れたことを検出するセンサを設けるとともに第2のセンサとしてユーザが弦をはじき始めたことを検出するセンサを設け、第1のセンサによる検出出力に応じて第1の発音制御情報を出力させ、第2のセンサによる検出出力に応じて第2の発音制御情報を出力させるようにすれば良い。この場合、上記弦が発音開始をユーザに指示させるための操作子の役割と音高をユーザに指定させる操作子の役割を兼ね、さらに音の強さ等を指定するための操作子の役割も兼ねる。そして、このような態様においては、音の発音開始をユーザに指示させるための操作子(弦)に対する操作の開始(ユーザの指等が触れたこと)により第1の発音制御情報が取得され、当該操作子に対する操作の完了(ユーザの指等で弾かれたこと)により第2の発音制御情報が取得される。
操作部120の音符情報入力部として電子管楽器を模したものを用いる場合には、第1のセンサとしてピストンや木管楽器におけるキーを模した操作子にユーザの指が触れたこを検出するセンサを設けるとともに第2のセンサとしてユーザが息の吹き込みを始めたことを検出するセンサを設け、第1のセンサによる検出出力に応じて第1の発音制御情報を出力させ、第2のセンサによる検出出力に応じて第2の発音制御情報を出力させるようにすれば良い。この場合、上記ピストンや木管楽器におけるキーを模した操作子は、音の発音開始をユーザに指示させる役割と音高をユーザに指定させる役割を担い、マウスピースなどの息の吹き込み口は音の強さ等を指定するための操作子の役割を果たす。そして、このような態様においては、音の発音開始をユーザに指示させるための操作子(ピストンや木管楽器のキーを模した操作子)に対する操作の開始(ユーザの指が触れたこと)により第1の発音制御情報が取得され、当該操作子とは異なる他の操作子(マウスピースなどの息の吹き込み口)に対する操作(息の吹き込み開始)により第2の発音制御情報が取得される。なお、マウスピースなどの息の吹き込み口に対す息の吹き込み開始を検出して第2の発音制御情報を出力するのではなく、ピストンや木管楽器のキーを模した操作子の操作完了(押し切り)を検出して第2の発音制御情報を出力させても良い。
また、操作部120の音符情報入力部として電子打楽器を模したものを用いる場合には、第1のセンサとしてバチ(或いは、ユーザの手または指)が被打撃部に触れたことを検出するセンサを設けるとともに第2のセンサとして打撃の完了(例えば、打撃力が最大となったことや被打撃部における打撃面積が最大となったこと)を検出するセンサを設け、第1のセンサによる検出出力に応じて第1の発音制御情報を出力させ、第2のセンサによる検出出力に応じて第2の発音制御情報を出力させるようにすれば良い。この場合、上記被打撃部が発音開始をユーザに指示させるための操作子の役割を果たす。そして、このような態様においては、音の発音開始をユーザに指示させるための操作子(被打撃部)に対する操作の開始(ユーザの指等が触れたこと)により第1の発音制御情報が取得され、当該操作子に対する操作の完了(打撃力または打撃面積が最大になったこと)により第2の発音制御情報が取得される。なお、電子打楽器を模した音符情報入力部では、当該音符情報入力部に対する操作によって音高を指定することができない場合もある。このような場合には、歌唱音声の合成対象の歌唱曲のメロディを構成する各音符を示す音符情報(音高および継続時間を示す情報)を歌唱合成装置1に記憶させておき、第1の発音制御情報を受信する毎に順次音符情報を読み出して使用させるようにすれば良い。また、電子打楽器を模した音符情報入力部における被打撃部を複数の領域に区分けし、領域毎に異なる音高を対応付ておくことで音高を指定できるようにしても良い。
また、音符情報入力部はMIDI制御のものに限定される訳ではなく、文字や記号或いは数字をユーザに入力させるための一般的なキーボードや一般的なタッチパネル、マウスなどのポインティングデバイスなどの一般的な入力デバイスであっても良い。これら一般的な入力デバイスを音符情報入力部として用いる場合には、歌唱音声の合成対象の歌唱曲のメロディを構成する各音符を示す音符情報(音高および継続時間を示す情報)を歌唱合成装置1に記憶させておけば良い。そして、文字や記号或いは数字に対応する操作子やタッチパネル、マウスボタンなどに対する操作の開始に応じて第1の発音制御情報を操作部120に出力させるとともに、当該操作子に対する操作の完了に応じて第2の発音制御情報を操作部120に出力させ、歌唱合成装置1には、第1の発音制御情報を受信する毎に順次音符情報を読み出して使用させるようにすれば良い。
要は、発音開始をユーザに指示させるための操作子に対する操作の開始により第1の発音制御情報を取得する一方、当該操作子に対する操作の完了(或いは他の操作子に対する操作)によって第2の発音制御情報を取得し、第1の発音制御情報を取得するのに応じて、無音または先行する歌詞の音韻から音韻列情報の示す音韻列の先頭の音韻への遷移部に対応する音声を複数種類の合成情報を用いて合成して出力し、第2の発音制御情報を取得するのに応じて、当該先頭の音韻から後続の音韻への遷移部を少なくとも含む音声を複数種類の合成情報を用いて合成して出力する態様であれば良い。
(4)上記実施形態では、音符に合わせて発音する歌詞の音韻列を表す音韻列情報を操作部120の音韻情報入力部に対する操作によって音符毎に逐次入力する場合について説明した。しかし、歌唱音声の合成対象の歌唱曲全体の歌詞についての音韻列情報を歌唱合成装置1の不揮発性記憶部162に予め記憶させておき、各歌詞を発音する際の音高等を音符入力部に対する操作により音符毎に逐次指定させ、音高等の指定を契機として音符毎に当該音符に対応する音韻列情報を読み出して歌唱音声を合成させても良い。
また、各々異なる音高に対応する複数の発音制御情報対が操作部120から制御部110に与えられた場合に発音制御情報対毎に音声合成を行う態様においては、各々異なる歌詞を示す複数種類の音韻列情報を記憶させておき、発音制御情報対毎に音高および歌詞の異なる歌唱音声を制御部110に合成させるようにしても良い。例えば各々異なる歌詞を表すN(Nは2以上の自然数)種類の音韻列情報に順番を付けて不揮発性記憶部162に予め格納しておき、各々異なる音高情報を含むN個の発音制御情報対が操作部120から制御部110へ与えられた場合には、第n(1≦n≦N)番目の音韻列情報と第n番目の発音制御情報対(なお、第1の発音制御情報の入力順を発音制御情報対の入力順とすれば良い)を構成する第1および第2の発音制御情報とを用いて、第n番目の歌唱音声を合成する処理を制御部110に実行させる、といった具合である。また、N個の音韻列情報の各々に対して互いに重なり合わないように音高の範囲を予め定めておき、音韻列情報毎にその音韻列情報に対応する音高の範囲に属する音高に対応する発音制御情報対を用いて音声合成を行うようにしても良い。例えば、音高方向にいくつかのスプリットポイント設定し、それらスプリットポイントにより区画される音域の各々に対して1つずつ音韻列情報を対応付けておけば良い。
(5)上記実施形態では、第1および第2の発音制御情報と複数種類の合成情報とを歌唱合成装置1に取得させる取得手段の役割を果たす操作部120と、合成歌唱音声を出力するための音声出力部140が歌唱合成装置1に内蔵されていた。しかし、操作部120および音声出力部140の何れか一方或いは両方を歌唱合成装置1の外部機器I/F部150に接続する態様であっても良い。操作部120を外部機器I/F部150を介して歌唱合成装置1に接続する態様では、外部機器I/F部150が上記取得手段の役割を果たす。
操作部120および音声出力部140の両者を外部機器I/F部150に接続する態様の一例としては、外部機器I/F部150としてイーサネット(登録商標)インタフェースを用い、この外部機器I/F部150にLAN(Local Area Network)やインターネットなどの電気通信回線を接続するとともに、この電気通信回線に操作部120および音声出力部140を接続する態様が挙げられる。このような態様によれば、所謂クラウドコンピューティング形式の歌唱合成サービスを提供することが可能になる。具体的には、操作部120に設けられた各種操作子の操作により入力された音韻列情報と第1および第2の発音制御情報を電気通信回線を介して歌唱合成装置に与え、歌唱合成装置には、電気通信回線を介して与えられた音韻列情報、第1および第2の発音制御情報に基づいて歌唱合成処理を実行させる。このようにして、歌唱合成装置により合成された合成歌唱音声の音声データは電気通信回線を介して音声出力部140に与えられ、当該音声データに応じた音が音声出力部140から出力される。
(6)上記実施形態では、本発明の特徴を顕著に示す歌唱合成処理を制御部110に実行させる歌唱合成プログラム162bが歌唱合成装置1の不揮発性記憶部162に予め格納されていた。しかし、この歌唱合成プログラム162bをCD−ROM(Compact Disk- Read Only Memory)などのコンピュータ読み取り可能な記録媒体に書き込んで配布しても良く、また、インターネットなどの電気通信回線経由のダウンロードにより配布しても良い。このようにして配布されるプログラムをパーソナルコンピュータなどの一般的なコンピュータに実行させることによって、そのコンピュータを上記実施形態の歌唱合成装置1として機能させることが可能になるからである。また、リアルタイム方式の歌唱合成処理を一部に含むゲームのゲームプログラムに本発明を適用しても勿論良い。具体的には、当該ゲームプログラムに含まれている歌唱合成プログラムを歌唱合成プログラム162bに差し替えても良い。このような態様によれば、ゲームの進行にしたがって合成される歌唱音声の表現力を向上させることが可能になる。
(7)上記実施形態では、リアルタイム方式の歌唱合成装置への本発明の適用例を説明した。しかし、本発明の適用対象はリアルタイム方式の歌唱合成装置に限定されるものではない。例えば、音声ガイダンスにおける案内音声をリアルタイム方式で合成する音声合成装置、或いは小説や詩などの文芸作品の朗読音声をリアルタイム方式で合成する音声合成装置に本発明を適用しても良い。また、本発明の適用対象は歌唱合成機能や音声合成機能を有する玩具(歌唱合成装置や音声合成装置を内蔵した玩具)であっても良い。
1…歌唱合成装置、110…制御部、120…操作部、130…表示部、140…音声出力部、142…D/A変換器、144…増幅器、146…スピーカ、150…外部機器I/F、160…記憶部、162…不揮発性記憶部、162a…歌唱合成ライブラリ、162b…歌唱合成プログラム、164…揮発性記憶部、170…バス。

Claims (5)

  1. 音声の発音開始をユーザに指示させるための操作子に対する操作の開始により第1の発音制御情報を取得する一方、当該操作子に対する操作の完了または他の操作子に対する操作により第2の発音制御情報を取得する取得手段と、
    合成対象の音声の音韻列を示す音韻列情報と音高を示す音高情報とを少なくとも含む複数種類の合成情報を用いて音声を合成する手段であって、前記取得手段が前記第1の発音制御情報を取得するのに応じて、無音または先行する音韻から前記音韻列情報の示す音韻列の先頭の音韻への遷移部に対応する音声を前記複数種類の合成情報を用いて合成して出力し、前記取得手段が前記第2の発音制御情報を取得するのに応じて、当該先頭の音韻から後続の音韻への遷移部を少なくとも含む音声を前記複数種類の合成情報を用いて合成して出力する音声合成手段と、
    を有することを特徴とする音声合成装置。
  2. 前記複数種類の合成情報を用いて合成される音声の発音開始を指示する操作子は当該音声の音高をユーザに指定させるための操作子を兼ねており、
    前記第1の発音制御情報には、前記複数種類の合成情報の一部を為す音高情報であって、当該操作子に対する操作により指定された音高を示す音高情報が含まれており、
    前記音声合成手段は、前記取得手段により取得された第1の発音制御情報に含まれる音高情報を前記複数種類の合成情報のうちの1つとして用いることを特徴とする請求項1に記載の音声合成装置。
  3. 互いに異なる音高を示す音高情報を含む複数の前記第1の発音制御情報が連続して前記取得手段により取得された場合には、前記音声合成手段は、それら複数の前記第1の発音制御情報のうちから選択した1つに含まれる音高情報を前記複数種類の合成情報のうちの1つとして用いることを特徴とする請求項2に記載の音声合成装置。
  4. 互いに異なる音の強さまたは音量を示す情報を含む複数の前記第2の発音制御情報が連続して前記取得手段により取得された場合には、前記音声合成手段は、それら複数の前記第2の発音制御情報のうちから選択した1つに含まれる情報を前記複数種類の合成情報の一部として用いて、前記音韻列情報の示す音韻列の先頭の音韻から後続の音韻への遷移部を少なくとも含む音声を合成して出力することを特徴とする請求項3に記載の音声合成装置。
  5. 同じ音高を示す音高情報を含む第1および第2の発音制御情報により形成される発音制御情報対であって各々異なる音高に対応する複数の発音制御情報対が前記取得手段により取得された場合には、前記音声合成手段は、発音制御情報対毎に音声合成を行うことを特徴とする請求項2に記載の音声合成装置。


JP2012250438A 2012-11-14 2012-11-14 音声合成装置 Expired - Fee Related JP5821824B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2012250438A JP5821824B2 (ja) 2012-11-14 2012-11-14 音声合成装置
EP13192421.9A EP2733696B1 (en) 2012-11-14 2013-11-12 Voice synthesizing method and voice synthesizing apparatus
CN201310572222.6A CN103810992B (zh) 2012-11-14 2013-11-13 语音合成方法和语音合成设备
US14/080,660 US10002604B2 (en) 2012-11-14 2013-11-14 Voice synthesizing method and voice synthesizing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012250438A JP5821824B2 (ja) 2012-11-14 2012-11-14 音声合成装置

Publications (2)

Publication Number Publication Date
JP2014098801A true JP2014098801A (ja) 2014-05-29
JP5821824B2 JP5821824B2 (ja) 2015-11-24

Family

ID=49553618

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012250438A Expired - Fee Related JP5821824B2 (ja) 2012-11-14 2012-11-14 音声合成装置

Country Status (4)

Country Link
US (1) US10002604B2 (ja)
EP (1) EP2733696B1 (ja)
JP (1) JP5821824B2 (ja)
CN (1) CN103810992B (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014186307A (ja) * 2013-02-22 2014-10-02 Yamaha Corp 音声合成装置
JP2016090916A (ja) * 2014-11-10 2016-05-23 ヤマハ株式会社 音声合成装置
WO2016152715A1 (ja) * 2015-03-20 2016-09-29 ヤマハ株式会社 音制御装置、音制御方法、および音制御プログラム
JP2016180906A (ja) * 2015-03-24 2016-10-13 ヤマハ株式会社 演奏支援装置
JP2016184158A (ja) * 2015-03-25 2016-10-20 ヤマハ株式会社 歌唱音発音装置
JP2016206490A (ja) * 2015-04-24 2016-12-08 ヤマハ株式会社 表示制御装置、電子楽器およびプログラム
JP2017194594A (ja) * 2016-04-21 2017-10-26 ヤマハ株式会社 発音制御装置、発音制御方法、及びプログラム
WO2019003350A1 (ja) * 2017-06-28 2019-01-03 ヤマハ株式会社 歌唱音生成装置及び方法、プログラム
JP2021051249A (ja) * 2019-09-26 2021-04-01 ヤマハ株式会社 発音制御方法および発音制御装置
WO2022190502A1 (ja) * 2021-03-09 2022-09-15 ヤマハ株式会社 音生成装置およびその制御方法、プログラム、電子楽器
WO2023175844A1 (ja) * 2022-03-17 2023-09-21 ヤマハ株式会社 電子管楽器及び電子管楽器の制御方法

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9159310B2 (en) 2012-10-19 2015-10-13 The Tc Group A/S Musical modification effects
US9595256B2 (en) * 2012-12-04 2017-03-14 National Institute Of Advanced Industrial Science And Technology System and method for singing synthesis
WO2015194423A1 (ja) * 2014-06-17 2015-12-23 ヤマハ株式会社 文字に基づく音声生成のためのコントローラ及びシステム
US9123315B1 (en) * 2014-06-30 2015-09-01 William R Bachand Systems and methods for transcoding music notation
JP6428774B2 (ja) * 2014-07-02 2018-11-28 ヤマハ株式会社 音声制御装置、音声制御方法およびプログラム
JP2016080827A (ja) * 2014-10-15 2016-05-16 ヤマハ株式会社 音韻情報合成装置および音声合成装置
JP6561499B2 (ja) * 2015-03-05 2019-08-21 ヤマハ株式会社 音声合成装置および音声合成方法
CN109643224A (zh) * 2016-08-29 2019-04-16 索尼公司 信息提示装置和信息提示方法
JP6659514B2 (ja) * 2016-10-12 2020-03-04 東芝映像ソリューション株式会社 電子機器及びその制御方法
JP6497404B2 (ja) * 2017-03-23 2019-04-10 カシオ計算機株式会社 電子楽器、その電子楽器の制御方法及びその電子楽器用のプログラム
CN107221317A (zh) * 2017-04-29 2017-09-29 天津大学 一种基于声管的语音合成方法
JP2019066649A (ja) * 2017-09-29 2019-04-25 ヤマハ株式会社 歌唱音声の編集支援方法、および歌唱音声の編集支援装置
JP6988343B2 (ja) * 2017-09-29 2022-01-05 ヤマハ株式会社 歌唱音声の編集支援方法、および歌唱音声の編集支援装置
US10923101B2 (en) * 2017-12-26 2021-02-16 International Business Machines Corporation Pausing synthesized speech output from a voice-controlled device
JP7088159B2 (ja) 2019-12-23 2022-06-21 カシオ計算機株式会社 電子楽器、方法及びプログラム
JP7036141B2 (ja) * 2020-03-23 2022-03-15 カシオ計算機株式会社 電子楽器、方法及びプログラム
CN112420015A (zh) * 2020-11-18 2021-02-26 腾讯音乐娱乐科技(深圳)有限公司 一种音频合成方法、装置、设备及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08248993A (ja) * 1995-03-13 1996-09-27 Matsushita Electric Ind Co Ltd 音韻時間長制御方法
JP2002202788A (ja) * 2000-12-28 2002-07-19 Yamaha Corp 歌唱合成方法と装置及び記録媒体
JP2008170592A (ja) * 2007-01-10 2008-07-24 Yamaha Corp 歌唱合成のための装置およびプログラム
JP2014010190A (ja) * 2012-06-27 2014-01-20 Yamaha Corp 歌唱合成を行うための装置およびプログラム

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5290964A (en) * 1986-10-14 1994-03-01 Yamaha Corporation Musical tone control apparatus using a detector
DE3819538C3 (de) * 1987-06-08 1996-08-14 Ricoh Kk Sprachaktivierbare Wähleinrichtung
EP0396141A2 (en) * 1989-05-04 1990-11-07 Florian Schneider System for and method of synthesizing singing in real time
US5311175A (en) * 1990-11-01 1994-05-10 Herbert Waldman Method and apparatus for pre-identification of keys and switches
JP3142016B2 (ja) 1991-12-11 2001-03-07 ヤマハ株式会社 電子楽器用鍵盤装置
US5875427A (en) * 1996-12-04 1999-02-23 Justsystem Corp. Voice-generating/document making apparatus voice-generating/document making method and computer-readable medium for storing therein a program having a computer execute voice-generating/document making sequence
JP3758277B2 (ja) * 1997-02-25 2006-03-22 ヤマハ株式会社 自動ピアノ
US6163769A (en) * 1997-10-02 2000-12-19 Microsoft Corporation Text-to-speech using clustered context-dependent phoneme-based units
US6304846B1 (en) * 1997-10-22 2001-10-16 Texas Instruments Incorporated Singing voice synthesis
JP4067762B2 (ja) * 2000-12-28 2008-03-26 ヤマハ株式会社 歌唱合成装置
JP3838039B2 (ja) * 2001-03-09 2006-10-25 ヤマハ株式会社 音声合成装置
JP3711880B2 (ja) * 2001-03-09 2005-11-02 ヤマハ株式会社 音声分析及び合成装置、方法、プログラム
JP3867515B2 (ja) * 2001-05-11 2007-01-10 ヤマハ株式会社 楽音制御システムおよび楽音制御装置
JP4680429B2 (ja) * 2001-06-26 2011-05-11 Okiセミコンダクタ株式会社 テキスト音声変換装置における高速読上げ制御方法
JP3823930B2 (ja) * 2003-03-03 2006-09-20 ヤマハ株式会社 歌唱合成装置、歌唱合成プログラム
JP4207902B2 (ja) * 2005-02-02 2009-01-14 ヤマハ株式会社 音声合成装置およびプログラム
JP4738057B2 (ja) * 2005-05-24 2011-08-03 株式会社東芝 ピッチパターン生成方法及びその装置
JP4254793B2 (ja) * 2006-03-06 2009-04-15 ヤマハ株式会社 演奏装置
CN102479508B (zh) * 2010-11-30 2015-02-11 国际商业机器公司 用于将文本转换成语音的方法和系统
JP5728913B2 (ja) * 2010-12-02 2015-06-03 ヤマハ株式会社 音声合成情報編集装置およびプログラム
KR101274961B1 (ko) * 2011-04-28 2013-06-13 (주)티젠스 클라이언트단말기를 이용한 음악 컨텐츠 제작시스템

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08248993A (ja) * 1995-03-13 1996-09-27 Matsushita Electric Ind Co Ltd 音韻時間長制御方法
JP2002202788A (ja) * 2000-12-28 2002-07-19 Yamaha Corp 歌唱合成方法と装置及び記録媒体
JP2008170592A (ja) * 2007-01-10 2008-07-24 Yamaha Corp 歌唱合成のための装置およびプログラム
JP2014010190A (ja) * 2012-06-27 2014-01-20 Yamaha Corp 歌唱合成を行うための装置およびプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
剣持 秀紀: "番外編 歌声合成編 第8章 ピッチを上げ下げして上手に歌ってくれるPCボーカリスト 歌声合成ソフトウ", INTERFACE, vol. 第38巻第10号, JPN6015003971, 28 August 2012 (2012-08-28), JP, pages 98 - 106, ISSN: 0003152811 *
加々見 翔太、濱野 桂三、柏瀬 一輝、山本 和彦: "リアルタイム日本語歌唱鍵盤楽器"VOCALOIDキーボード"の開発", 情報処理学会 インタラクション2012 平成24年度 [DVD−ROM] 情報処理学会 インタラクシ, JPN6015003973, 15 March 2012 (2012-03-15), JP, pages 837 - 842, ISSN: 0003152812 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014186307A (ja) * 2013-02-22 2014-10-02 Yamaha Corp 音声合成装置
JP2016090916A (ja) * 2014-11-10 2016-05-23 ヤマハ株式会社 音声合成装置
WO2016152715A1 (ja) * 2015-03-20 2016-09-29 ヤマハ株式会社 音制御装置、音制御方法、および音制御プログラム
JP2016177276A (ja) * 2015-03-20 2016-10-06 ヤマハ株式会社 発音装置、発音方法および発音プログラム
US10354629B2 (en) 2015-03-20 2019-07-16 Yamaha Corporation Sound control device, sound control method, and sound control program
JP2016180906A (ja) * 2015-03-24 2016-10-13 ヤマハ株式会社 演奏支援装置
US10504502B2 (en) 2015-03-25 2019-12-10 Yamaha Corporation Sound control device, sound control method, and sound control program
JP2016184158A (ja) * 2015-03-25 2016-10-20 ヤマハ株式会社 歌唱音発音装置
JP2016206490A (ja) * 2015-04-24 2016-12-08 ヤマハ株式会社 表示制御装置、電子楽器およびプログラム
JP2017194594A (ja) * 2016-04-21 2017-10-26 ヤマハ株式会社 発音制御装置、発音制御方法、及びプログラム
WO2019003350A1 (ja) * 2017-06-28 2019-01-03 ヤマハ株式会社 歌唱音生成装置及び方法、プログラム
JPWO2019003350A1 (ja) * 2017-06-28 2020-01-16 ヤマハ株式会社 歌唱音生成装置及び方法、プログラム
JP2021051249A (ja) * 2019-09-26 2021-04-01 ヤマハ株式会社 発音制御方法および発音制御装置
WO2021060273A1 (ja) * 2019-09-26 2021-04-01 ヤマハ株式会社 発音制御方法および発音制御装置
JP7380008B2 (ja) 2019-09-26 2023-11-15 ヤマハ株式会社 発音制御方法および発音制御装置
WO2022190502A1 (ja) * 2021-03-09 2022-09-15 ヤマハ株式会社 音生成装置およびその制御方法、プログラム、電子楽器
WO2023175844A1 (ja) * 2022-03-17 2023-09-21 ヤマハ株式会社 電子管楽器及び電子管楽器の制御方法

Also Published As

Publication number Publication date
CN103810992A (zh) 2014-05-21
US20140136207A1 (en) 2014-05-15
EP2733696A1 (en) 2014-05-21
EP2733696B1 (en) 2015-08-05
US10002604B2 (en) 2018-06-19
JP5821824B2 (ja) 2015-11-24
CN103810992B (zh) 2017-04-12

Similar Documents

Publication Publication Date Title
JP5821824B2 (ja) 音声合成装置
CN109584910B (zh) 歌唱音频的编辑辅助方法以及歌唱音频的编辑辅助装置
JP6562104B2 (ja) 音声生成装置及び方法並びにプログラム
JP7484952B2 (ja) 電子機器、電子楽器、方法及びプログラム
JP2002006836A (ja) 楽譜画面表示装置及び演奏装置
JP2011048335A (ja) 歌声合成システム、歌声合成方法及び歌声合成装置
US20220076651A1 (en) Electronic musical instrument, method, and storage medium
US20220076658A1 (en) Electronic musical instrument, method, and storage medium
CN111696498A (zh) 键盘乐器以及键盘乐器的计算机执行的方法
JP4929604B2 (ja) 歌データ入力プログラム
JP6044284B2 (ja) 音声合成装置
JP3567123B2 (ja) 歌詞文字を利用した歌唱採点装置
JP6167503B2 (ja) 音声合成装置
US20220044662A1 (en) Audio Information Playback Method, Audio Information Playback Device, Audio Information Generation Method and Audio Information Generation Device
JP6809608B2 (ja) 歌唱音生成装置及び方法、プログラム
WO2023153033A1 (ja) 情報処理方法、プログラム、および情報処理装置
WO2022190502A1 (ja) 音生成装置およびその制御方法、プログラム、電子楽器
JP7276292B2 (ja) 電子楽器、電子楽器の制御方法、及びプログラム
JP7158331B2 (ja) カラオケ装置
JPWO2022190502A5 (ja)
JP2023092120A (ja) 子音長変更装置、電子楽器、楽器システム、方法及びプログラム
JP2012234032A (ja) 電子楽器
JPS6155679B2 (ja)
WO2019003348A1 (ja) 歌唱音効果生成装置及び方法、プログラム
JP2004240257A (ja) 電子楽器

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141023

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150210

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150409

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150908

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150921

R151 Written notification of patent or utility model registration

Ref document number: 5821824

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees