JP5895740B2 - 歌唱合成を行うための装置およびプログラム - Google Patents

歌唱合成を行うための装置およびプログラム Download PDF

Info

Publication number
JP5895740B2
JP5895740B2 JP2012144811A JP2012144811A JP5895740B2 JP 5895740 B2 JP5895740 B2 JP 5895740B2 JP 2012144811 A JP2012144811 A JP 2012144811A JP 2012144811 A JP2012144811 A JP 2012144811A JP 5895740 B2 JP5895740 B2 JP 5895740B2
Authority
JP
Japan
Prior art keywords
lyrics
data
syllable
pitch
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012144811A
Other languages
English (en)
Other versions
JP2014010190A (ja
JP2014010190A5 (ja
Inventor
水口 哲也
哲也 水口
杉井 清久
清久 杉井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2012144811A priority Critical patent/JP5895740B2/ja
Priority to US13/924,387 priority patent/US9489938B2/en
Priority to EP13173501.1A priority patent/EP2680254B1/en
Priority to CN201310261608.5A priority patent/CN103514874A/zh
Publication of JP2014010190A publication Critical patent/JP2014010190A/ja
Publication of JP2014010190A5 publication Critical patent/JP2014010190A5/ja
Application granted granted Critical
Publication of JP5895740B2 publication Critical patent/JP5895740B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H7/00Instruments in which the tones are synthesised from a data store, e.g. computer organs
    • G10H7/02Instruments in which the tones are synthesised from a data store, e.g. computer organs in which amplitudes at successive sample points of a tone waveform are stored in one or more memories
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • G10L13/0335Pitch control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/325Musical pitch modification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/005Non-interactive screen display of musical or status data
    • G10H2220/011Lyrics displays, e.g. for karaoke applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/091Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith
    • G10H2220/101Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters
    • G10H2220/126Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters for graphical editing of individual notes, parts or phrases represented as variable length segments on a 2D or 3D representation, e.g. graphical edition of musical collage, remix files or pianoroll representations of MIDI-like files
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/145Sound library, i.e. involving the specific use of a musical database as a sound bank or wavetable; indexing, interfacing, protocols or processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/315Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
    • G10H2250/455Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H7/00Instruments in which the tones are synthesised from a data store, e.g. computer organs
    • G10H7/08Instruments in which the tones are synthesised from a data store, e.g. computer organs by calculating functions or polynomial approximations to evaluate amplitudes at successive sample points of a tone waveform
    • G10H7/12Instruments in which the tones are synthesised from a data store, e.g. computer organs by calculating functions or polynomial approximations to evaluate amplitudes at successive sample points of a tone waveform by means of a recursive algorithm using one or more sets of parameters stored in a memory and the calculated amplitudes of one or more preceding sample points
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Auxiliary Devices For Music (AREA)

Description

この発明は、歌唱合成技術に係り、特にリアルタイムに行う歌唱合成に好適な装置およびプログラムに関する。
最近では、ライブ演奏等において歌唱合成装置を用いてボーカル演奏が行われるようになってきており、リアルタイムな歌唱合成の可能な歌唱合成装置が求められている。このような要求に応えるため、特許文献1は、ユーザが鍵盤操作等により発生するメロディデータを受け取りつつ歌詞データをメモリから順次読み出し、歌唱合成を行う構成の歌唱合成装置を提案している。また、特許文献2は、メロディデータをメモリに記憶させ、歌詞を構成する表音文字を指定する操作に応じて、メロディデータが示すメロディに沿った歌唱音声を合成する歌唱合成装置を提案している。
特開2008−170592号公報
特開2012−83569号公報
ところで、上述した従来の歌唱合成装置は、歌唱合成の際、歌詞またはメロディの一方をメモリに予め記憶させておく必要があるため、即興的に歌詞およびメロディの両方を変更して歌唱合成を行うのが困難であった。そこで、最近、左手でのキー操作により歌詞を構成する表音文字の母音と子音を指定させると同時に右手での鍵盤操作によりピッチ指定を行わせ、指定された表音文字に対応し、かつ、指定されたピッチを有する歌唱合成音をリアルタイムに合成する歌唱合成装置が提案されている。この歌唱合成装置は、左手による歌詞の入力と、右手によるピッチの指定とを独立に並列実行することができるので、任意の歌詞を任意のメロディで歌唱させることができる。しかし、右手でメロディ演奏を行いつつ、左手の操作により歌詞の母音と子音を逐一入力するのは忙しい作業であるため、かなりの習熟を積まないと、即興性に富んだボーカル演奏を行うのは困難である。
この発明は以上のような事情に鑑みてなされたものであり、簡単な操作により即興性に富んだリアルタイムなボーカル演奏を行うことが可能な歌唱合成装置を提供することを目的としている。
この発明は、操作手段の操作により歌詞を選択する歌詞選択手段と、前記歌詞選択手段により選択された歌詞の任意の区間を前記操作手段の操作に応じて選択し、選択した区間を前記操作手段の操作により指定されたピッチの歌唱音声として出力するための制御を行う音声出力制御手段とを具備することを特徴とする歌唱合成装置を提供する。
かかる発明によれば、操作手段の操作により歌詞を選択し、選択した歌詞の任意の区間を操作手段の操作により選択し、この選択した歌詞の区間を操作手段の操作により所望のピッチの歌唱音声として出力することができる。従って、即興性に富んだリアルタイムなボーカル演奏が可能になる。
この発明の一実施形態である歌唱合成装置の外観を示す斜視図である。 同歌唱合成装置の電気的構成を示すブロック図である。 同歌唱合成装置にインストールされた歌唱合成プログラムの構成を示すブロック図である。 同実施形態の編集モードにおける表示画面を示す図である。 自動再生モードにおける同歌唱合成プログラムの合成部の状態を示すブロック図である。 リアルタイム再生モードにおける同歌唱合成装置の表示画面を示す図である。 リアルタイム再生モードの第1モードにおける同合成部の状態を示すブロック図である。 リアルタイム再生モードの第1モードにおける同合成部の動作例を示す図である。 リアルタイム再生モードの第2モードにおける同合成部の状態を示すブロック図である。 リアルタイム再生モードの第2モードにおける同合成部の動作例を示す図である。 リアルタイム再生モードの第3モードにおける同合成部の状態を示すブロック図である。 リアルタイム再生モードの第3モードにおける同合成部の動作例を示す図である。
以下、図面を参照し、この発明の実施形態について説明する。
図1は、この発明の一実施形態である歌唱合成装置の外観を示す斜視図である。また、 図2は本実施形態による歌唱合成装置の電気的構成を示すブロック図である。図2において、CPU1は、この歌唱合成装置の各部を制御する制御中枢である。ROM2は、ローダなど、この歌唱合成装置の基本的な動作を制御するための制御プログラムを記憶した読み出し専用メモリである。RAM3は、CPU1によってワークエリアとして使用される揮発性メモリである。鍵盤4は、通常の鍵盤楽器に設けられているものと同様な鍵盤であり、本実施形態では音符の入力手段として用いられる。タッチパネル5は、装置の動作状態や入力データおよび操作者(ユーザ)に対するメッセージなどを表示する表示機能と、ユーザによって行われる操作を受け付ける入力機能とを有するユーザインタフェースである。ユーザが行う操作の内容には、歌詞を示す情報の入力、音符を示す情報の入力、合成歌唱音の再生指示の入力などが含まれる。本実施形態による歌唱合成装置は、図1に示すように折り畳みが可能な筐体を有しており、鍵盤4およびタッチパネル5は、この筐体の内側の2面に設けられている。
図2において、インタフェース群6は、パーソナルコンピュータ等の他の装置との間でデータ通信を行うためのインタフェースや、フラッシュメモリなどの外部記憶媒体との間でデータの授受を行うためのドライバなどを含む。
サウンドシステム7は、この歌唱合成装置により得られる合成歌唱音の波形を示す時系列デジタルデータを音声として出力する手段であり、合成歌唱音の波形を示す時系列デジタルデータをアナログ音声信号に変換するD/A変換器と、このアナログ音声信号を増幅するアンプと、このアンプの出力信号を音として出力するスピーカ等により構成されている。操作子群9は、ピッチベンドホイール、ボリューム摘み等、鍵盤4以外の操作子からなる。
不揮発性メモリ8は、各種のプログラムやデータベースなどの情報を記憶するための記憶装置であり、例えばEEPROM(Electric Erasable Programable Read Only Memory;電気的に消去および書き込みが可能なROM)が用いられる。不揮発性メモリ8の記憶内容のうち本実施形態に特有のものとして、歌唱合成プログラムがある。CPU1は、タッチパネル5等を介して入力される指示に従い、不揮発性メモリ8内のプログラムをRAM3にロードして実行する。
なお、不揮発性メモリ8に記憶されているプログラム等は、ネットワークを介してダウンロードにより取引されても良い。この場合、プログラム等は、インターネット内のサイトからインタフェース群6の中の適当なものを介してダウンロードされ不揮発性メモリ8内にインストールされる。また、コンピュータ読み取り可能な記憶媒体に記憶された状態で取引されても良い。この場合、プログラム等は、フラッシュメモリなどの外部記憶媒体を介して不揮発性メモリ8内にインストールされる。
図3は不揮発性メモリ8にインストールされた歌唱合成プログラム100の構成を示すブロック図である。図3では、歌唱合成プログラム100の機能の理解を容易にするため、タッチパネル5、鍵盤4、インタフェース群6、不揮発性メモリ8に記憶された音声素片データベース130およびフレーズデータベース140が歌唱合成プログラム100の構成要素とともに図示されている。
本実施形態による歌唱合成装置の動作モードは編集モードと再生モードに大別することができる。編集モードは、鍵盤4、タッチパネル5またはインタフェース群6の中の適切なインタフェースを介して供給される情報に従って、歌詞データと音符データの対を生成する動作モードである。ここで、音符データは、曲を構成する各音符について、そのピッチ、発音タイミング、音符長を示す時系列データである。歌詞データは、音符データが示す各音符に合わせて歌唱する歌詞を示す時系列データである。なお、歌詞は、楽曲の歌詞の他、詩や台詞でも良いし、TWITTER(登録商標)などのつぶやきや、一般的な文章でもよい(ラップ歌唱の歌詞のようなものであってもよい)。また、再生モードは、鍵盤4、タッチパネル5等の操作手段の操作に応じて、歌詞データと音符データの対からフレーズデータを生成し、または事前に生成されたフレーズデータから別のフレーズデータを生成し、歌唱合成音としてサウンドシステム7から出力させる動作モードである。ここで、フレーズデータとは、歌唱合成音の元となる時系列データであり、歌唱音声波形の時系列サンプルデータを含んでいる。本実施形態における歌唱合成プログラム100は、編集モードでの動作を実現するための編集部110と、再生モードでの動作を実現するための合成部120とを有する。
編集部110は、文字入力部111、歌詞一括入力部112、音符入力部113、音符連続入力部114および音符調整部115を有している。ここで、文字入力部111は、タッチパネル5に表示されたソフトウェアキーを指示することにより入力される文字情報を受け取り、歌詞データの生成に用いるソフトウェアモジュールである。歌詞一括入力部112は、インタフェース群6の中の1つのインタフェースを介してパーソナルコンピュータから供給されるテキストデータを受け取り、歌詞データの生成に用いるソフトウェアモジュールである。音符入力部113は、タッチパネル5にピアノ鍵盤と音符表示欄の各画像からなるピアノロールが表示された状態において、ユーザが音符表示欄の所望の位置を指示することにより入力する音符情報を受け取り、音符データの生成に使用するソフトウェアモジュールである。なお、音符入力部113は、鍵盤4から音符情報を受け取るものであってもよい。音符連続入力部114は、ユーザが鍵盤4を用いた鍵盤演奏を行うことにより発生する押鍵イベントを順次受け取り、受け取った押鍵イベントを用いて音符データを生成するソフトウェアモジュールである。音符調整部115は、タッチパネル5等の操作に応じて、音符データが示す音符のピッチ、音符長、発音タイミングを調整するソフトウェアモジュールである。
編集部110は、文字入力部111、歌詞一括入力部112、音符入力部113または音符連続入力部114を利用して、歌詞データと音符データの対を生成する。本実施形態では、この歌詞データと音符データの対を生成するための編集モードが何種類か用意されている。
ある種類の編集モードにおいて、編集部110は、図4に例示するように、ピアノ鍵盤とその右横の音符表示欄の各画像からなるピアノロールをタッチパネル5に表示させる。この状態において、ユーザが音符表示欄の所望の位置を指示することにより音符を入力すると、音符入力部113は、図4に例示するように、入力された音符を示す矩形(図4では黒塗り矩形)を五線譜上に表示させるとともに、RAM3内に設定された音符データ用記憶領域にその音符に対応した情報をマッピングする。また、ユーザがタッチパネル5に表示された所望の音符を指示し、図示しないソフトウェアキーを操作して歌詞を入力すると、文字入力部111は、入力された歌詞を図4に例示するように音符表示欄に表示するとともに、RAM3内に設定された歌詞データ用記憶領域にその歌詞に対応した情報をマッピングする。
他の種類の編集モードでは、ユーザが鍵盤演奏を行う。編集部110の音符連続入力部114は、鍵盤演奏により発生する押鍵イベントを順次受け取り、受け取った押鍵イベントが示す音符に関する情報をRAM3内に設定された音符データ用記憶領域内にマッピングしてゆく。また、ユーザは、鍵盤演奏を行った曲の歌詞を示すテキストデータを例えばパーソナルコンピュータからインタフェース群6の中の1つのインタフェースに供給させる。ここで、パーソナルコンピュータがマイク等の音声入力手段と音声認識ソフトウェアを備えている場合、ユーザが発声した歌詞をパーソナルコンピュータが音声認識ソフトウェアによりテキストデータに変換し、このテキストデータを歌唱合成装置のインタフェースに供給することが可能である。編集部110の歌詞一括入力部112は、パーソナルコンピュータから供給されるテキストデータを音節に区切り、各音節に対応したテキストデータが、音符データが示す各音符のタイミングにおいて発音されるように、RAM3内に設定された音符データ用記憶領域内にマッピングしてゆく。
さらに別の種類の編集モードでは、ユーザは、鍵盤演奏を行う代わりに、曲をハミングする。図示しないパーソナルコンピュータは、このハミングをマイクにより収音して、ハミング音のピッチを求め、音符データを生成し、インタフェース群6の中の1つのインタフェースに供給させる。編集部110の音符連続入力部114は、このパーソナルコンピュータから供給される音符データをRAM3の音符データ用記憶領域に書き込む。歌詞データの入力は、上記と同様に歌詞一括入力部112により行われる。この編集モードは、音符データを簡単に入力することができる利点がある。
以上が編集部110の機能の詳細である。
図3に示すように、合成部120は、再生モードでの動作を実現するための手段として、読出制御部121と、ピッチ変換部122と、連結部123とを有する。
本実施形態において、合成部120が実現する再生モードは、自動再生モードとリアルタイム再生モードに分けることができる。
図5は自動再生モードにおける合成部120の状態を示すブロック図である。自動再生モードでは、図5に示すように、編集部110により生成されてRAM3内に格納された歌詞データおよび音符データの対と音声素片データベース130とからフレーズデータを生成する。
ここで、音声素片データベース130は、無音から子音への遷移部分、子音から母音への遷移部分、母音の伸ばし音、母音から無音への遷移部分等、歌声の素材となる各種の音声素片を示す音声素片データの集合体である。これらの音声素片データは、実際の人間が発した音声波形から抽出された音声素片に基づいて作成されたデータである。
自動再生モードにおいて、読出制御部121は、ユーザから例えばタッチパネル5を利用して再生指示が与えられたとき、図3に示すように、RAM3内の歌詞データおよび音符データの各々を先頭から走査してゆく。そして、音符データの中から1つの音符の音符情報(ピッチ等)を読み出すとともに、歌詞データの中からその音符に合わせて発音すべき音節を示す情報を読み出すと、発音すべき音節を音声素片に分解し、それらの音声素片に対応した音声素片データを音声素片データベース130から読み出し、音符データの中から読み出したピッチとともにピッチ変換部122に供給する。ピッチ変換部122は、読出制御部121によって音声素片データベース130から読み出された音声素片データに対してピッチ変換を施すことにより、読出制御部121が読み出した音符データが示すピッチを持った音声素片データを生成する。そして、連結部123は、このようにして音節毎に得られるピッチ変換後の音声素片データを時間軸上において繋ぎ合わせることによりフレーズデータを生成するのである。
自動再生モードでは、以上のようにして歌詞データおよび音符データの対からフレーズデータを生成したとき、このフレーズデータをサウンドシステム7に送り、歌唱音声として出力させる。
本実施形態では、このようにして歌詞データおよび音符データの対から生成されたフレーズデータをフレーズデータベース140に保存することが可能である。フレーズデータベース140を構成する各フレーズデータは、図3に例示するように、各々が1音節に対応した複数の音節データにより構成されている。各音節データは、音節テキストデータと音節波形データと音節ピッチデータとにより構成されている。ここで、音節テキストデータは、フレーズデータの元となった歌詞データを音節毎に区分することにより得られたテキストデータであり、その音節に対応した文字を示す。音節波形データは、その音節を表す音声波形のサンプルデータである。音節ピッチデータは、その音節を表す音声波形のピッチ(すなわち、その音節に対応した音符のピッチ)を示すデータである。なお、フレーズデータの単位は、音節に限らず、単語や文節でもよく、ユーザが選択する任意であってもよい。
リアルタイム再生モードは、タッチパネル5の操作に応じて、図3に示すように、フレーズデータベース140の中からフレーズデータを選択し、タッチパネル5や鍵盤4等の操作手段の操作に応じて、この選択したフレーズデータから別のフレーズデータを生成する動作モードである。
このリアルタイム再生モードにおいて、読出制御部121は、フレーズデータベース140内の各フレーズデータから音節テキストデータを各々抽出し、各フレーズデータが示す歌詞としてタッチパネル5にメニュー表示させる。この状態において、ユーザは、タッチパネル5にメニュー表示された歌詞の中の所望の歌詞を指示することができる。読出制御部121は、ユーザが指示した歌詞に対応したフレーズデータを再生対象としてフレーズデータベース140から読み出し、RAM3内の再生対象エリアに格納するとともに、タッチパネル5に表示させる。
図6はこの場合のタッチパネル5の表示例を示している。図6に示すように、タッチパネル5の側のエリアは、歌詞のメニューが表示されるメニュー表示エリアとなっており、右側のエリアは、ユーザが指でタッチすることにより選択した歌詞が表示される演出エリアとなっている。図示の例では、ユーザによって選択された歌詞“Happy birhtday to you”が演出エリアに表示されており、この歌詞に対応したフレーズデータがRAM3の再生対象エリアに格納されている。ここで、メニュー表示エリアにおける歌詞のメニューは、指で触れた状態で指を上下に動かすことにより上下方向にスクロール可能である。この例では、指示操作が容易になるように、中央近くに位置する歌詞ほど大きな文字で表示し、上下方向に離れるに従い歌詞を小さな文字で表示している。
この状態において、ユーザは、鍵盤4やタッチパネル5等の操作手段の操作により、再生対象エリアに格納されたフレーズデータの任意の区間(具体的には音節)を再生対象として選択するとともに、その再生対象を歌唱合成音として再生する際のピッチを指定することができる。なお、再生対象とする区間の選択方法、ピッチの指定方法に関しては、説明の重複を避けるため、本実施形態の動作説明において明らかにする。
読出制御部121は、RAM3の再生対象エリアに記憶されたフレーズデータの中から、このようにしてユーザによって指定された区間のデータ(具体的には指定された音節の音節データ)を選んで読み出し、ピッチ変換部122に供給する。ピッチ変換部122は、読出制御部121から供給された音節データから音節波形データと音節ピッチデータを取り出し、ユーザによって指定されたピッチP1と音節ピッチデータが示すピッチP2との比であるピッチ比P1/P2を求める。そして、例えば音節波形データをピッチ比P1/P2に応じた比率で時間軸圧伸またはピッチテンポ変換する等の方法により音節波形データにピッチ変換を施し、ユーザによって指定されたピッチP1を有する音節波形データを生成し、元の音節波形データと入れ替える。連結部123は、このピッチ変換部122の処理を経た音節データを順次受け取り、前後した各音節データの中の音節波形データを時間軸上において滑らかに繋いで出力する。
以上が合成部120の機能の詳細である。
次に本実施形態の動作を説明する。本実施形態において、ユーザは、例えばタッチパネル5の操作により、歌唱合成装置の動作モードを編集モードとし、あるいは再生モードとすることができる。ここで、編集モードは、既に述べたように、編集部110がユーザからの指示に従って歌詞データと音符データの対を生成する動作モードである。一方、再生モードは、上述した合成部120がユーザからの指示に従ってフレーズデータを生成し、このフレーズデータを歌唱合成音としてサウンドシステム7から出力する動作モードである。
既に述べたように再生モードには、自動再生モードと、リアルタイム再生モードとがある。そして、リアルタイム再生モードには、第1モード〜第3モードまでの3モードがある。歌唱合成装置をいずれの動作モードで動作させるかはタッチパネル5の操作により指定可能である。
自動再生モードが設定された場合、合成部120は、上述したようにRAM3内の歌詞データおよび音符データの対からフレーズデータを生成する。
リアルタイム再生モードが設定された場合、合成部120は、上述したようにRAM3の再生対象エリア内のフレーズデータから別のフレーズデータを生成し、歌唱合成音としてサウンドシステム7から出力させる。このフレーズデータから別のフレーズデータを生成する動作の詳細は、第1〜第3モードの各モード間で異なる。
図7は第1モードにおける合成部120の状態を示している。第1モードでは、読出制御部121およびピッチ変換部122の両方が鍵盤4からの押鍵イベントに基づいて動作する。鍵盤4において最初の押鍵イベントが発生したとき、読出制御部121は、再生対象エリア内のフレーズデータ中の最初の音節データを読み出してピッチ変換部122へ供給する。ピッチ変換部122は、この最初の音節データ中の音節波形データにピッチ変換を施して、最初の押鍵イベントが示すピッチ(押下された鍵のピッチ)を有する音節波形データを生成し、元の音節波形データと入れ替える。そして、このピッチ変換を経た音節データを連結部123に供給する。次に鍵盤4において2番目の押鍵イベントが発生したとき、読出制御部121は、再生対象エリア内のフレーズデータ中の2番目の音節データを読み出してピッチ変換部122へ供給する。ピッチ変換部122は、この2番目の音節データ中の音節波形データにピッチ変換を施して、2番目の押鍵イベントが示すピッチを有する音節波形データを生成し、元の音節波形データと入れ替える。そして、このピッチ変換を経た音節データを連結部123に供給する。以下、同様であり、押鍵イベントが発生する都度、後続の音節データを順次読み出し、押鍵イベントに基づくピッチ変換を行う。
図8はこの第1モードの動作例を示すものである。この例では、“Happy Birthday to you”という歌詞がタッチパネル5に表示されており、この歌詞のフレーズデータが再生対象エリアに記憶されている。ユーザは、6回に亙って、鍵盤4の押鍵を行っている。1回目の押鍵が行われた期間T1では、1番目の音節“Hap”の音節データが再生対象エリアから読み出され、押鍵イベントに基づくピッチ変換が施され、歌唱合成音となって出力される。2回目の押鍵が行われた期間T2では、2番目の音節“py”の音節データが再生対象エリアから読み出され、押鍵イベントに基づくピッチ変換が施され、歌唱合成音となって出力される。以下同様であり、各々押鍵イベントが発生する期間T3〜T6において、後続の各音節の音節データが順次読み出され、押鍵イベントに基づくピッチ変換が施され、歌唱合成音となって出力される。
図示は省略したが、ユーザは、タッチパネル5に表示された歌詞の全ての音節について歌唱合成音を発生させる前に、別の歌詞を選択し、その歌詞の各音声について歌唱合成音を発生させることも可能である。例えば図8に示す例において、ユーザは、鍵盤4の押鍵により音節“day”までの歌唱合成音を発生させた後、例えば図6に示す別の歌詞“We’re getting out of here”を指示してもよい。これにより読出制御部121は、ユーザにより選択された歌詞に対応したフレーズデータをフレーズデータベース140から読み出し、RAM3内の再生対象エリアに格納するとともに、このフレーズデータの音節テキストデータに基づいて歌詞“We’re getting out of here”をタッチパネル5に表示させる。この状態において、ユーザは、鍵盤4の押鍵を行うことにより、新たな歌詞の各音節の歌唱合成音を生成することが可能である。
以上のように、第1モードにおいて、ユーザはタッチパネル5の操作により所望の歌詞を選択し、鍵盤4の押鍵操作により、歌詞の各音節を所望のタイミングにおいて所望のピッチで歌唱合成音に変換して出力することができる。また、第1モードでは、押鍵に同期して音節の選択とその歌唱合成が行われるので、例えばユーザが任意にテンポを設定し、設定したテンポに合わせて鍵盤演奏を行うことにより、テンポ変更を伴う歌唱合成を行うことも可能である。
図9は第2モードにおける合成部120の状態を示している。第2モードでは、読出制御部121は、タッチパネル5の操作に基づいて動作し、ピッチ変換部122は、鍵盤4からの押鍵イベントに基づいて動作する。さらに詳述すると、読出制御部121は、タッチパネル5に表示された歌詞を構成する各音節のうちユーザによって指示されている音節を判定し、再生対象エリア内のフレーズデータ中のこの指示された音節の音節データを読み出してピッチ変換部122へ供給する。ピッチ変換部122は、鍵盤4から押鍵イベントが発生したとき、その直前に与えられた音節データ中の音節波形データに対してピッチ変換を施して、押鍵イベントが示すピッチ(押下された鍵のピッチ)を有する音節波形データを生成し、元の音節波形データと入れ替え、連結部123に供給する。
図10はこの第2モードの動作例を示すものである。この例でも、“Happy Birthday to you”という歌詞がタッチパネル5に表示されており、この歌詞のフレーズデータが再生対象エリアに記憶されている。そして、ユーザは、タッチパネル5に表示された音節“Hap”を指示し、その後の期間T1において鍵盤4の押鍵を行っている。このため、音節“Hap”の音節データが再生対象エリアから読み出され、押鍵イベントに基づくピッチ変換が施され、歌唱合成音となって出力される。次にユーザはタッチパネル5に表示された音節“py”を指示し、その後の期間T2において鍵盤4の押鍵を行っている。このため、音節“py”の音節データが再生対象エリアから読み出され、押鍵イベントに基づくピッチ変換が施され、歌唱合成音となって出力される。次にユーザは、音節“birth”を指示し、その後の期間T3(1)〜T3(3)において3回に亙って鍵盤4の押鍵を行っている。このため、音節“birth”の音節データが再生対象エリアから読み出され、期間T3(1)〜T3(3)の各々において、その時点で発生した押鍵イベントに基づくピッチ変換が音節“birth”の音節波形データに施され、歌唱合成音となって各々出力される。その後の各期間T4〜T6においても同様である。
以上のように、第2モードにおいて、ユーザはタッチパネル5の操作により所望の歌詞を選択し、タッチパネル5の操作により、歌詞の中の所望の音節を選択し、鍵盤4の操作により、この選択した音節を所望のタイミングにおいて所望のピッチで歌唱合成音に変換して出力することができる。
図11は第3モードにおける合成部120の状態を示している。第3モードでは、読出制御部121およびピッチ変換部122の両方がタッチパネル5の操作に基づいて動作する。さらに詳述すると、第3モードにおいて、読出制御部121は、再生対象エリアに格納されたフレーズデータ中の各音節の音節ピッチデータと音節テキストデータを読み出し、図12に示すように、横軸を時間軸とし、縦軸をピッチ軸とする2次元座標系に各音節のピッチを時系列順にプロットした画像をタッチパネル5に表示させる。この図12において、黒塗りした矩形は音節のピッチを示し、矩形に添えられた“Hap”等の文字は、その音節を示している。
この状態において、ユーザが例えば音節“Hap”のピッチを示す矩形を指示すると、読出制御部121は、再生対象エリアに格納されたフレーズデータ中の音節“Hap”に対応した音節データを読み出してピッチ変換部122に供給するとともに、タッチパネル5におけるユーザの指示位置に対応したピッチ、すなわち、この例では音節“Hap”の音節ピッチデータが示す本来のピッチへのピッチ変換をピッチ変換部122に対して指示する。この結果、ピッチ変換部122は、音節“Hap”の音節データ中の音節波形データに対して、指示されたピッチ変換を施し、ピッチ変換後の音節波形データ(この場合、元の音節波形データと同じ音節波形データ)を含む音節データを連結部123に供給する。その後、ユーザが音節“py”のピッチを示す矩形、音節“birth”のピッチを示す矩形を指示した場合も以上と同様な動作が行われる。
次にユーザが図12に示すように音節“day”のピッチを示す矩形の下方の位置を指示したとする。この場合、読出制御部121は、再生対象エリアから音節“day”に対応した音節データを読み出してピッチ変換部122に供給するとともに、タッチパネル5におけるユーザの指示位置に対応したピッチ、すなわち、この例では音節“day”の音節ピッチデータが示すピッチよりも低いピッチへのピッチ変換をピッチ変換部122に対して指示する。この結果、ピッチ変換部122は、音節“day”の音節データ中の音節波形データに対して、指示されたピッチ変換を施し、ピッチ変換後の音節波形データ(この場合、元の音節波形データよりもピッチが低い音節波形データ)を含む音節データを連結部123に供給する。
以上のように、第3モードにおいて、ユーザは、タッチパネル5の操作により、所望の歌詞を選択し、タッチパネル5の操作により、この選択した歌詞の所望の音節を所望のタイミングにおいて所望のピッチで歌唱合成音に変換して出力することができる。
以上説明したように、本実施形態によれば、ユーザは、操作手段の操作により、表示された歌詞の中から所望の歌詞を選択し、その歌詞の中の各音節を所望のピッチで歌唱合成音に変換して出力させることができる。従って、即興性の富んだリアルタイムなボーカル演奏を容易に実現することができる。また、本実施形態によれば、各種の歌詞に対応したフレーズデータが予め記憶され、ユーザが選択した歌詞に対応したフレーズデータを用いて歌唱合成音を生成するので、歌唱合成音を生成するための所要時間が少なくて済む。
<他の実施形態>
以上、この発明の一実施形態について説明したが、この発明には他にも実施形態が考えられる。例えば次の通りである。
(1)タッチパネル5に表示可能な歌詞の数にも限りがあるので、例えばフレーズデータベース140を構成する各フレーズデータを示す各アイコンをタッチパネルに表示し、これらのアイコンの中の所望のアイコンの選択操作をユーザに行わせることにより、タッチパネル5に歌詞メニューの表示を行うフレーズデータを決定してもよい。
(2)歌詞の選択を容易にするために、例えば演奏する曲のジャンル等に基づいて、フレーズデータベース140を構成する各フレーズデータに優先度付けを行い、例えば優先度の高い順に各フレーズデータの歌詞メニューをタッチパネル5に表示させるようにしてもよい。あるいは優先度の高いフレーズデータの歌詞ほど中央に表示させたり、文字サイズを大きくしてもよい。
(3)歌詞の選択を容易にするために、歌詞を階層化し、上位階層から下位階層までの各階層を指定することにより所望の歌詞を選択することができるようにしてもよい。例えばユーザに所望の歌詞のジャンルを選択させ、次に所望の歌詞の先頭文字(アルファベット)を選択させ、選択されたジャンルに属し、かつ、選択された先頭文字を有する歌詞をタッチパネル5に表示させる。ユーザは、この表示された歌詞の中から所望の歌詞を選択するのである。あるいは関連度の高いフレーズデータをグルーピングしてそれらの歌詞を表示したり、関連度の高いフレーズデータの歌詞を近くに表示するなど関連度に基づく表示方法を採用してもよい。その際、ユーザが1つのフレーズデータを選ぶと、その選んだフレーズデータに関連のあるフレーズデータの歌詞が表示されるようにしてもよい。例えば、元々は1つの歌詞の一部であった複数の歌詞のフレーズデータがある場合において、ある歌詞のフレーズデータがユーザによって選択された場合、同じ歌詞に帰属する他の歌詞を表示してもよい。あるいは、同じ曲の1番、2番、3番の歌詞を関連付けておき、1つの歌詞が選択された場合にこれに関連付けられた他の歌詞を表示してもよい。あるいは、フレーズデータベース140内の音節テキストデータを対象として、ユーザが選択した歌詞と関連のあるフレースデータのキーワード検索を行い、ヒットしたフレーズデータの歌詞(音節テキストデータ)を表示してもよい。
(4)歌詞データの入力を行うための態様として次のものが考えられる。まず、歌唱合成装置にカメラを設ける。そして、ユーザに所望の歌詞を歌唱させ、その際のユーザの口をカメラで撮像する。この撮像により得られる画像データを解析し、ユーザの口形状の動きに基づいて、ユーザが歌唱している歌詞を示す歌詞データを生成するのである。
(5)編集モードにおいて、歌詞データおよび音符データにおける音節の発音タイミングは、予め設定されたリズムパターンにおけるリズム音の発生タイミングとなるように量子化してもよい。あるいはソフトキー操作により歌詞を入力する場合に、音節の入力タイミングを歌詞データおよび音符データにおける音節の発音タイミングとしてもよい。
(6)上記実施形態では、ピッチ指定および発音タイミングの指定のための操作手段として鍵盤を用いたが、例えばドラムパッド等、鍵盤以外の装置を用いてもよい。
(7)上記実施形態では、歌詞データおよび音符データの対からフレーズデータを生成し、フレーズデータベース140に格納したが、録音した歌唱音声からフレーズデータを生成してフレーズデータベース140に格納してもよい。さらに詳述すると、ユーザに所望の歌詞を歌唱させ、その歌唱音声を録音する。そして、録音した歌唱音声の波形データを解析することにより、歌唱音声の波形データを音節波形データに分け、各音節波形データを解析することにより各音節の内容を表音文字として示す音節テキストデータと、各音節のピッチを示す音節ピッチデータを生成し、それらをまとめることによりフレーズデータを生成するのである。
(8)上記実施形態では、音声素片データベース130やフレーズデータベース140を不揮発性メモリ8に記憶させたが、サーバに記憶させ、歌唱合成装置がネットワークを介してこのサーバ内の音声素片データベース130およびフレーズデータベース140にアクセスすることにより歌唱合成を行ってもよい。
(9)上記実施形態では、合成部120の処理により得られたフレーズデータを歌唱合成音としてサウンドシステム7から出力させたが、生成したフレーズデータをメモリに格納するのみにしてもよい。あるいは生成したフレーズデータをネットワークを介して遠隔地に転送するようにしてもよい。
(10)上記実施形態では、合成部120の処理により得られたフレーズデータを歌唱合成音としてサウンドシステム7から出力させたが、フレーズデータに対して、ユーザによって指定されたエフェクト処理を施して出力させるようにしてもよい。
(11)リアルタイム再生モードにおいて、タッチパネル5における指示位置の変化に応じて、特殊な歌唱合成を行うようにしてもよい。例えばリアルタイム再生モードの第2モードにおいて、ユーザが演出エリアに表示された1つの音節を最後尾から先頭に向けて指でなぞった場合に、その音節に対応した音節波形データを前後逆転してピッチ変換部122に供給するようにしてもよい。あるいはリアルタイム再生モードの第1モードにおいて、ユーザが演出エリアに表示された歌詞を最後尾から先頭に向けて指でなぞった後、鍵盤演奏を行った場合、押鍵の都度、最後尾の音節から順に各音節を選択し、各音節に対応した歌唱合成を行うようにしてもよい。あるいはリアルタイム再生モードの第1モードにおいて、ユーザが演出エリアに表示された歌詞の先頭を指示してその歌詞を選択した後、鍵盤演奏を行った場合、押鍵の都度、先頭の音節から順に各音節を選択し、各音節に対応した歌唱合成を行い、演出エリアに表示された歌詞の最後尾を指示してその歌詞を選択した後、鍵盤演奏を行った場合、押鍵の都度、最後尾の音節から順に各音節を選択し、各音節に対応した歌唱合成を行うようにしてもよい。
(12)上記実施形態では、歌唱音声を示すフレーズデータをユーザに選択させ、鍵盤操作等に応じてこのフレーズデータを加工して出力した。しかし、フレーズデータとして、歌唱音声以外の音波形を示すフレーズデータをユーザに選択させ、鍵盤操作等に応じてこのフレーズデータを加工して出力するようにしてもよい。また、フレーズデータに携帯電話メールで使われるような絵文字が含ませ、この絵文字を含む歌詞をタッチパネルに表示させ、フレーズデータの選択に利用しても良い。
(13)リアルタイム再生モードにおいて、ユーザが選択した歌詞をタッチパネルの演出エリアに表示する際、例えば図8に示すように音節の区切りを示す記号(図8では“/”)を追加して歌詞を表示してもよい。このようにすることで、ユーザは音節を視認するのが容易になる。また、現在、歌唱合成を行っている音節の表示色を変える等、歌唱合成箇所の表示態様を他の部分に対して変化させ、歌唱合成箇所が分かるようにしてもよい。
(14)フレーズデータを構成する音節データを音節テキストデータのみとしてもよい。この場合、リアルタイム再生モードでは、ある音節が再生対象として指定され、鍵盤等によりピッチが指定されたときに、その音節に対応した音節テキストデータを鍵盤等で指定されたピッチを持った音声波形データに変換し、サウンドシステム7から出力すればよい。
(15)タッチパネル5の操作等により所定のコマンドが入力された場合に、リアルタイム再生モードの第1モードを次のように変更してもよい。まず、鍵盤4の押鍵があったときに、タッチパネル5の演出エリアに表示された歌詞の中のある音節が指示されていた場合には、第1モードから第2モードに切り換え、指示された音節を押鍵により指示されたピッチの歌唱合成音として出力する。また、鍵盤4の押鍵があったときに、タッチパネル5の演出エリアが指示されていない場合には、第1モードを維持し、前回、歌唱合成を行った音節の次の音節を押鍵により指示されたピッチの歌唱合成音として出力するのである。この場合、例えば歌詞“Happy birthday to you”が演出エリアに表示されているとき、ユーザが音節“birth”を指示して押鍵すると、第2モードとなり、音節“birth”が押鍵された鍵のピッチで発音される。その後、ユーザが演出エリアを指示することなく押鍵を行うと、第1モードとなり、前回、歌唱合成を行った音節の次の音節“day”が押鍵された鍵のピッチで発音される。この態様によれば、ボーカル演奏の自由度をさらに高めることができる。
1…CPU、2…ROM、3…RAM、4…鍵盤、5…タッチパネル、6…インタフェース群、7…サウンドシステム、8…不揮発性メモリ、9…操作子群、100…歌唱合成プログラム、110…編集部、111…文字入力部、112…歌詞一括入力部、113…音符入力部、114…音符連続入力部、115…音符調整部、120…合成部、121…読出制御部、122…ピッチ変換部、123…連結部、130…音声素片データベース、140…フレーズデータベース。

Claims (4)

  1. 操作手段の操作により歌詞を選択する歌詞選択手段と、
    前記歌詞選択手段により選択された歌詞の任意の区間を前記操作手段の操作に応じて選択し、選択した区間を前記操作手段の操作により指定されたピッチの歌唱音声として出力するための制御を行う音声出力制御手段と
    を具備することを特徴とする歌唱合成装置。
  2. 前記操作手段は、第1の操作部と第2の操作部とを含み、前記歌詞選択手段により選択された歌詞の任意の区間を前記第1の操作部の操作に応じて選択し、選択した歌詞の区間を前記第2の操作部の操作により指定されたピッチの歌唱音声として出力するための制御を行うことを特徴とする請求項1に記載の歌唱合成装置。
  3. 前記音声出力制御手段は、前記複数の歌詞に各々対応した音声を示す複数のフレーズデータを記憶する記憶手段にアクセス可能であり、前記歌詞選択手段により選択された歌詞に対応したフレーズデータを前記記憶手段から読み出し、このフレーズデータの任意の区間を前記操作手段の操作に応じて選択し、選択したフレーズデータの区間を前記操作手段の操作により指定されたピッチの歌唱音声として出力するための制御を行うことを特徴とする請求項1または2に記載の歌唱合成装置。
  4. コンピュータを、
    操作手段の操作により歌詞を選択する歌詞選択手段と、
    前記歌詞選択手段により選択された歌詞の任意の区間を前記操作手段の操作に応じて選択し、選択した区間を前記操作手段の操作により指定されたピッチの歌唱音声として出力するための制御を行う音声出力制御手段と
    して機能させることを特徴とするプログラム。
JP2012144811A 2012-06-27 2012-06-27 歌唱合成を行うための装置およびプログラム Active JP5895740B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2012144811A JP5895740B2 (ja) 2012-06-27 2012-06-27 歌唱合成を行うための装置およびプログラム
US13/924,387 US9489938B2 (en) 2012-06-27 2013-06-21 Sound synthesis method and sound synthesis apparatus
EP13173501.1A EP2680254B1 (en) 2012-06-27 2013-06-25 Sound synthesis method and sound synthesis apparatus
CN201310261608.5A CN103514874A (zh) 2012-06-27 2013-06-27 声音合成方法和声音合成设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012144811A JP5895740B2 (ja) 2012-06-27 2012-06-27 歌唱合成を行うための装置およびプログラム

Publications (3)

Publication Number Publication Date
JP2014010190A JP2014010190A (ja) 2014-01-20
JP2014010190A5 JP2014010190A5 (ja) 2014-08-28
JP5895740B2 true JP5895740B2 (ja) 2016-03-30

Family

ID=48698924

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012144811A Active JP5895740B2 (ja) 2012-06-27 2012-06-27 歌唱合成を行うための装置およびプログラム

Country Status (4)

Country Link
US (1) US9489938B2 (ja)
EP (1) EP2680254B1 (ja)
JP (1) JP5895740B2 (ja)
CN (1) CN103514874A (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5783206B2 (ja) * 2012-08-14 2015-09-24 ヤマハ株式会社 音楽情報表示制御装置およびプログラム
JP5821824B2 (ja) * 2012-11-14 2015-11-24 ヤマハ株式会社 音声合成装置
US9595256B2 (en) * 2012-12-04 2017-03-14 National Institute Of Advanced Industrial Science And Technology System and method for singing synthesis
WO2015194423A1 (ja) * 2014-06-17 2015-12-23 ヤマハ株式会社 文字に基づく音声生成のためのコントローラ及びシステム
EP3183550B1 (en) * 2014-08-22 2019-04-24 Zya Inc. System and method for automatically converting textual messages to musical compositions
JP2016177277A (ja) * 2015-03-20 2016-10-06 ヤマハ株式会社 発音装置、発音方法および発音プログラム
JP6728754B2 (ja) 2015-03-20 2020-07-22 ヤマハ株式会社 発音装置、発音方法および発音プログラム
US9443501B1 (en) * 2015-05-13 2016-09-13 Apple Inc. Method and system of note selection and manipulation
CN106653037B (zh) 2015-11-03 2020-02-14 广州酷狗计算机科技有限公司 音频数据处理方法和装置
JP6497404B2 (ja) * 2017-03-23 2019-04-10 カシオ計算機株式会社 電子楽器、その電子楽器の制御方法及びその電子楽器用のプログラム
WO2019082321A1 (ja) * 2017-10-25 2019-05-02 ヤマハ株式会社 テンポ設定装置及びその制御方法、プログラム
JP6587007B1 (ja) 2018-04-16 2019-10-09 カシオ計算機株式会社 電子楽器、電子楽器の制御方法、及びプログラム
JP6587008B1 (ja) * 2018-04-16 2019-10-09 カシオ計算機株式会社 電子楽器、電子楽器の制御方法、及びプログラム
CN108877753B (zh) * 2018-06-15 2020-01-21 百度在线网络技术(北京)有限公司 音乐合成方法及系统、终端以及计算机可读存储介质
JP6610715B1 (ja) 2018-06-21 2019-11-27 カシオ計算機株式会社 電子楽器、電子楽器の制御方法、及びプログラム
JP6610714B1 (ja) * 2018-06-21 2019-11-27 カシオ計算機株式会社 電子楽器、電子楽器の制御方法、及びプログラム
JP6547878B1 (ja) 2018-06-21 2019-07-24 カシオ計算機株式会社 電子楽器、電子楽器の制御方法、及びプログラム
JP6583756B1 (ja) * 2018-09-06 2019-10-02 株式会社テクノスピーチ 音声合成装置、および音声合成方法
JP7059972B2 (ja) 2019-03-14 2022-04-26 カシオ計算機株式会社 電子楽器、鍵盤楽器、方法、プログラム
JP6766935B2 (ja) * 2019-09-10 2020-10-14 カシオ計算機株式会社 電子楽器、電子楽器の制御方法、及びプログラム
JP7180587B2 (ja) * 2019-12-23 2022-11-30 カシオ計算機株式会社 電子楽器、方法及びプログラム
JP7088159B2 (ja) 2019-12-23 2022-06-21 カシオ計算機株式会社 電子楽器、方法及びプログラム
JP7367641B2 (ja) * 2020-09-08 2023-10-24 カシオ計算機株式会社 電子楽器、方法及びプログラム
JP7259817B2 (ja) * 2020-09-08 2023-04-18 カシオ計算機株式会社 電子楽器、方法及びプログラム
CN114550690A (zh) * 2020-11-11 2022-05-27 上海哔哩哔哩科技有限公司 歌曲合成方法及装置
CN112466313B (zh) * 2020-11-27 2022-03-15 四川长虹电器股份有限公司 一种多歌者歌声合成方法及装置

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4731847A (en) * 1982-04-26 1988-03-15 Texas Instruments Incorporated Electronic apparatus for simulating singing of song
CN1057354A (zh) 1990-06-12 1991-12-25 津村三百次 音乐再现及歌词显示装置
US6304846B1 (en) * 1997-10-22 2001-10-16 Texas Instruments Incorporated Singing voice synthesis
JP2000105595A (ja) * 1998-09-30 2000-04-11 Victor Co Of Japan Ltd 歌唱装置及び記録媒体
JP3675287B2 (ja) * 1999-08-09 2005-07-27 ヤマハ株式会社 演奏データ作成装置
JP3250559B2 (ja) 2000-04-25 2002-01-28 ヤマハ株式会社 歌詞作成装置及び歌詞作成方法並びに歌詞作成プログラムを記録した記録媒体
US6740802B1 (en) * 2000-09-06 2004-05-25 Bernard H. Browne, Jr. Instant musician, recording artist and composer
JP3879402B2 (ja) * 2000-12-28 2007-02-14 ヤマハ株式会社 歌唱合成方法と装置及び記録媒体
JP3646680B2 (ja) * 2001-08-10 2005-05-11 ヤマハ株式会社 作詞作曲装置及びプログラム
JP4026512B2 (ja) 2003-02-27 2007-12-26 ヤマハ株式会社 歌唱合成用データ入力プログラムおよび歌唱合成用データ入力装置
JP4483188B2 (ja) 2003-03-20 2010-06-16 ソニー株式会社 歌声合成方法、歌声合成装置、プログラム及び記録媒体並びにロボット装置
JP4736483B2 (ja) 2005-03-15 2011-07-27 ヤマハ株式会社 歌データ入力プログラム
KR100658869B1 (ko) 2005-12-21 2006-12-15 엘지전자 주식회사 음악생성장치 및 그 운용방법
JP2007219139A (ja) * 2006-02-16 2007-08-30 Hiroshima Industrial Promotion Organization 旋律生成方式
JP4839891B2 (ja) * 2006-03-04 2011-12-21 ヤマハ株式会社 歌唱合成装置および歌唱合成プログラム
JP2008020798A (ja) * 2006-07-14 2008-01-31 Yamaha Corp 歌唱指導装置
JP4735544B2 (ja) 2007-01-10 2011-07-27 ヤマハ株式会社 歌唱合成のための装置およびプログラム
US8244546B2 (en) * 2008-05-28 2012-08-14 National Institute Of Advanced Industrial Science And Technology Singing synthesis parameter data estimation system
US7977562B2 (en) * 2008-06-20 2011-07-12 Microsoft Corporation Synthesized singing voice waveform generator
JP5176981B2 (ja) * 2009-01-22 2013-04-03 ヤマハ株式会社 音声合成装置、およびプログラム
US20110219940A1 (en) * 2010-03-11 2011-09-15 Hubin Jiang System and method for generating custom songs
JP2011215358A (ja) * 2010-03-31 2011-10-27 Sony Corp 情報処理装置、情報処理方法及びプログラム
JP5988540B2 (ja) * 2010-10-12 2016-09-07 ヤマハ株式会社 歌唱合成制御装置および歌唱合成装置
JP2012083569A (ja) 2010-10-12 2012-04-26 Yamaha Corp 歌唱合成制御装置および歌唱合成装置
JP5549521B2 (ja) 2010-10-12 2014-07-16 ヤマハ株式会社 音声合成装置およびプログラム
KR101274961B1 (ko) * 2011-04-28 2013-06-13 (주)티젠스 클라이언트단말기를 이용한 음악 컨텐츠 제작시스템
US8682938B2 (en) * 2012-02-16 2014-03-25 Giftrapped, Llc System and method for generating personalized songs

Also Published As

Publication number Publication date
EP2680254A2 (en) 2014-01-01
US20140006031A1 (en) 2014-01-02
JP2014010190A (ja) 2014-01-20
CN103514874A (zh) 2014-01-15
EP2680254A3 (en) 2016-07-06
US9489938B2 (en) 2016-11-08
EP2680254B1 (en) 2019-06-12

Similar Documents

Publication Publication Date Title
JP5895740B2 (ja) 歌唱合成を行うための装置およびプログラム
US10354627B2 (en) Singing voice edit assistant method and singing voice edit assistant device
US9355634B2 (en) Voice synthesis device, voice synthesis method, and recording medium having a voice synthesis program stored thereon
JP2021516787A (ja) オーディオ合成方法、並びにそのコンピュータプログラム、コンピュータ装置及びコンピュータ装置により構成されるコンピュータシステム
JP3823928B2 (ja) スコアデータ表示装置およびプログラム
JP6665446B2 (ja) 情報処理装置、プログラム及び音声合成方法
KR20180063163A (ko) 언어 및/또는 그래픽 아이콘 기반 음악적 경험 디스크립터를 채택한 자동화된 음악 작곡 및 생성 기계, 시스템 및 프로세스
JP2011048335A (ja) 歌声合成システム、歌声合成方法及び歌声合成装置
JP2019066649A (ja) 歌唱音声の編集支援方法、および歌唱音声の編集支援装置
JP6003195B2 (ja) 歌唱合成を行うための装置およびプログラム
JP2019066648A (ja) 歌唱音声の編集支援方法、および歌唱音声の編集支援装置
JP6044284B2 (ja) 音声合成装置
JP5990962B2 (ja) 歌唱合成装置
JP2009157220A (ja) 音声編集合成システム、音声編集合成プログラム及び音声編集合成方法
JP5157922B2 (ja) 音声合成装置、およびプログラム
JP4456088B2 (ja) スコアデータ表示装置およびプログラム
JP3807380B2 (ja) スコアデータ編集装置、スコアデータ表示装置およびプログラム
JP4720974B2 (ja) 音声発生装置およびそのためのコンピュータプログラム
JP3843953B2 (ja) 歌唱合成用データ入力プログラムおよび歌唱合成用データ入力装置
JP6583756B1 (ja) 音声合成装置、および音声合成方法
US8912420B2 (en) Enhancing music
JP6439288B2 (ja) 合成情報管理装置および合成情報管理方法
JP2024057180A (ja) プログラム、音響処理方法および音響処理システム
JP2023116866A (ja) 情報処理方法、プログラム、および情報処理装置
JP2005107028A (ja) 音色パラメータ編集装置、方法及びそのプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140620

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140711

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140909

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150428

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160215

R151 Written notification of patent or utility model registration

Ref document number: 5895740

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151