JP6083764B2 - 歌声合成システム及び歌声合成方法 - Google Patents

歌声合成システム及び歌声合成方法 Download PDF

Info

Publication number
JP6083764B2
JP6083764B2 JP2014551125A JP2014551125A JP6083764B2 JP 6083764 B2 JP6083764 B2 JP 6083764B2 JP 2014551125 A JP2014551125 A JP 2014551125A JP 2014551125 A JP2014551125 A JP 2014551125A JP 6083764 B2 JP6083764 B2 JP 6083764B2
Authority
JP
Japan
Prior art keywords
data
singing voice
singing
pitch
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014551125A
Other languages
English (en)
Other versions
JPWO2014088036A1 (ja
Inventor
倫靖 中野
倫靖 中野
後藤 真孝
真孝 後藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Advanced Industrial Science and Technology AIST filed Critical National Institute of Advanced Industrial Science and Technology AIST
Publication of JPWO2014088036A1 publication Critical patent/JPWO2014088036A1/ja
Application granted granted Critical
Publication of JP6083764B2 publication Critical patent/JP6083764B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0033Recording/reproducing or transmission of music for electrophonic musical instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0033Recording/reproducing or transmission of music for electrophonic musical instruments
    • G10H1/0041Recording/reproducing or transmission of music for electrophonic musical instruments in coded form
    • G10H1/0058Transmission between separate instruments or between individual components of a musical system
    • G10H1/0066Transmission between separate instruments or between individual components of a musical system using a MIDI interface
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/091Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith
    • G10H2220/101Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters
    • G10H2220/106Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters using icons, e.g. selecting, moving or linking icons, on-screen symbols, screen regions or segments representing musical elements or parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/315Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
    • G10H2250/455Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Auxiliary Devices For Music (AREA)
  • Signal Processing (AREA)

Description

本発明は、歌声合成システム及び歌声合成方法に関するものである。
現在、歌声を生成するためには、まず「人間が歌う」か、非特許文献1に記載されているような「歌声合成技術(歌声合成用パラメータの調整)によって人工的に生成する」ことで、基となる歌声の時系列信号を得る必要がある。さらに、必要に応じて基となる歌声の時系列信号を切り貼りしたり、信号処理技術等によって時間伸縮や変換をしたりしながら「編集する」ことで、最終的な歌声を得る場合もある。したがって、歌唱力がある人、歌声合成のパラメータ調整が得意な人、歌声を上手に編集できる技術を持っている人は、「声生成が上手い人」と言える。このように歌声生成は、高い歌唱力や高度な専門知識、手間のかかる作業が必要とされ、前述のようなスキルがない人々にとっては、質の高い歌声を自在に生成することはできなかった。
なお従来の歌声生成に関しては、人間の歌声に加えて、近年では市販の歌声合成ソフトウェアが注目を集め、楽しむリスナーも増加している(非特許文献2)。歌声合成では、「歌詞」と「楽譜(音符系列)」を入力として歌声を合成するtext-to-singing(lyrics to-singing)方式が主流であり、市販のソフトウェアでは、品質の高さから波形接続方式(非特許文献3,4)が用いられているが、HMM(隠れマルコフモデル)合成方式(非特許文献5,6)も利用され始めている。さらに歌詞のみを入力として自動作曲と歌声合成を同時に行うシステムも公開されており(非特許文献7)、声質変換によって歌声合成を拡張する研究もある(非特許文献8)。一方、合成対象の歌詞を朗読した話声から、その声質を保ったまま歌声に変換するspeech-to-singing方式(非特許文献9,10)やお手本の歌声を入力として、その音高や音量等の歌唱表現を真似るように歌声合成するsinging-to-singing 方式(非特許文献11)が研究されている。
以上のようにして得られた歌声は、DAW(Digital Audio Workstation)等を用いることで、切り貼りや信号処理を伴った時間軸伸縮や音高補正等が行える。その他、声質変換(非特許文献8,12,13)や音高と声質のモーフィング(非特許文献14,15)、高品質な実時間音高補正(非特許文献16)が研究されている。また、楽器のMIDIシーケンスデータの生成において、リアルタイムの演奏入力が困難なユーザでも、音高と演奏情報を別々に入力・統合する研究があり(非特許文献17)、有効性が示されている。
中野倫靖,後藤真孝 VocaListener:ユーザ歌唱の音高および音量を真似る歌声合成システム 情報処理学会論文誌,52(12):3853-3867, 2011 後藤真孝 初音ミク,ニコニコ動画,ピアプロが切り拓いたCGM現象 情報処理学会誌, 53(5):466-471, 2012. J. Bonada and S. Xavier. Synthesis of the Singing Voice by Performance Sampling and Spectral Models. IEEE Signal Processing Magazine, 24 (2):67-79, 2007. H. Kenmochi and H. Ohshita. VOCALOID-Commercial Singing Synthesizer based on Sample Concatenation. In Proc. Interspeech 2007, 2007. 大浦圭一郎,間瀬絢美,山田知彦,徳田恵一,後藤真孝 Sinsy:「あの人に歌ってほしい」をかなえるHMM歌声合成システム 音楽情報科学研究会研究報告2010-MUS-86, pp. 1-8, 2010. 酒向慎司,宮島千代美,徳田恵一,北村正 隠れマルコフモデルに基づいた歌声合成システム 情報処理学会論文誌,45(7):719-727, 2004. S. Fukayama, K. Nakatsuma, S. Sako, T. Nishimoto, and S. Sagayama. Automatic Song Composition from the Lyrics exploiting Prosody of the Japanese Language. In Proc. SMC 2010, pp. 299-302, 2010. F. Villavicencio and J. Bonada. Applying Voice Conversion to Concatenative Singing-Voice Synthesis. In Proc. Interspeech 2010, pp. 2162-2165, 2010. T. Saitou, M. Goto, M. Unoki, and M. Akagi. Speech-To-Singing Synthesis: Converting Speaking Voices to Singing Voices by Controlling Acoustic Features Unique to Singing Voices. In Proc. WASPAA 2007, pp. 215-218, 2007. 齋藤毅,後藤真孝,鵜木祐史,赤木正人 SingBySpeaking:歌声知覚に重要な音響特徴を制御して話声を歌声に変換するシステム 情報処理学会研究報告音楽情報科学2008-MUS-74-5, pp. 25-32, 2008. 中野倫靖,後藤真孝 VocaListener:ユーザ歌唱の音高および音量を真似る歌声合成システム 情報処理学会論文誌,52(12):3853-3867, 2011. 藤原弘将,後藤真孝 混合音中の歌声スペクトル包絡推定に基づく歌声の声質変換手法 情報処理学会研究報告音楽情報科学2010-MUS-86-7, pp. 1-10, 2010. 川上裕司,坂野秀樹,板倉文忠 声道断面積関数を用いたGMMに基づく歌唱音声の声質変換 電子情報通信学会技術報音声(SP2010-81), pp. 71-76, 2010. K. Saino, M. Tachibana, and H. Kenmochi. Temporally Variable Multi-Aspect Auditory Morphing Enabling Extrapolation without Objective and Perceptual Breakdown. In Proc.ICASSP 2009, pp. 3905-3908, 2009. 河原英紀,生駒太一,森勢将雅,高橋徹,豊田健一,片寄晴弘 モーフィングに基づく歌唱デザインインタフェースの提案と初期検討. 情報処理学会論文誌,48(12):3637-3648, 2007. 中野皓太,森勢将雅,西浦敬信,山下洋一 基本周波数の転写に基づく実時間歌唱制御システムの実現を目的とした高品質ボコーダSTRAIGHTの高速化 電子情報通信学会論文誌,95-A(7):563-572, 2012. 大島千佳,西本一志,宮川洋平,白崎隆史 音楽表情を担う要素と音高の分割入力による容易なMIDI シーケンスデータ作成システム 情報処理学会論文誌,44(7):1778-1790, 2003.
しかしながら従来の技術では、部分的に歌い直して置換したり、歌声の音高や音量を補正したり、音色(音素や声質を反映する情報)の変換やモーフィングをしたりすることはできたが、同一人物が断片的に複数回歌唱して、それらを統合する歌声生成のインタラクションは考えられていなかった。
本発明の目的は、音楽制作における歌声パートの生成において、歌手が一度の歌唱のみでは望んだ歌い方を得られない状況を想定し、何度も歌ったり気に入らない箇所だけを歌い直すことで、それらを統合して一つの歌声を生成できる歌声合成システム及び方法並びに歌声合成システム用プログラムを提供することにある。
本発明は、音楽制作におけるより手軽な歌声生成を目指して、現在の歌声生成の限界を超えるための歌声合成システム及び方法を提案する。歌声は音楽の重要な要素であり、音楽は産業・文化の両面で主要なコンテンツの一つである。特にポピュラー音楽では歌声を中心に音楽を聴く人が多く、歌声の生成を極めることは、音楽制作において有用である。さらに、歌声の信号は音の三要素である音高・音量・音色の全てが複雑に変化する時系列信号であり、特に音色は歌詞の音韻が次々と変化するため他の楽器音の生成よりも技術的に難易度が高い。したがって、このような歌声を効率的に生成できる技術やインタフェースの実現は学術的にも産業的にも意義がある。
本発明の歌声合成システムは、データ保存部と、表示部と、音楽音響信号再生部と、録音部と、推定分析データ保存部と、推定分析結果表示部と、データ選択部と、統合歌唱データ作成部と、歌声再生部とから構成される。データ保存部は、音楽音響信号及び該音楽音響信号と時間的に対応付けられた歌詞を含む歌詞データを保存する。音楽音響信号は、伴奏音を含む音楽音響信号、ガイド歌声と伴奏音を含む音楽音響信号、またはガイドメロディと伴奏音を含む音楽音響信号のいずれでもよい。なお伴奏音、ガイド歌声及びガイドメロディは、MIDIファイル等に基づいて作成された合成音であってもよい。表示部は、歌詞データに基づいて歌詞の少なくとも一部を表示する表示画面を備えている。音楽音響信号再生部は、表示画面に表示された歌詞中の文字を選択する選択操作が行われると、選択された歌詞の文字に対応する音楽音響信号の信号部分またはその直前の信号部分から音楽音響信号を再生する。ここで歌詞中の文字の選択は、例えばカーソルによる文字のクリックや、画面中の文字を指でタッチする等の公知の選択技術を用いればよい。録音部は、音楽音響信号再生部が音楽音響信号の再生を複数回行っている間、再生音楽を聞きながら歌い手が複数回歌唱する歌声を複数歌唱回分録音する。推定分析データ保存部は、録音部で録音した複数歌唱回分の歌声ごとに歌声から音素単位で複数の音素の時間的区間を推定し、推定した複数の音素の時間的区間と一緒に、歌声の音高、音量及び音色を分析することにより得た音高データ、音量データ及び音色データを保存する。推定分析結果表示部は、推定分析データ保存部に保存された複数の音素の時間的区間と一緒に推定分析結果を反映した音高反映データ、音量反映データ及び音色反映データを表示画面に表示する。ここで音高反映データ、音量反映データ及び音色反映データとは、音高データ、音量データ及び音色データを表示画面に表示できる態様で表した画像データである。データ選択部は、表示画面に表示された複数歌唱回分の歌声ごとの推定分析結果の中から、音素の時間的区間ごとに音高データ、前記音量データ及び前記音色データをユーザが選択することを可能にする。統合歌唱データ作成部は、データ選択部を利用して選択された音高データ、音量データ及び音色データを音素の時間的区間ごとに統合して統合歌声データを作成する。そして歌声再生部は、統合歌声データを再生する。
本発明においては、音楽音響信号再生部が、表示画面に表示された歌詞中の文字を選択する選択操作が行われると、選択された歌詞の文字に対応する音楽音響信号の信号部分またはその直前の信号部分から音楽音響信号を再生するため、音楽音響信号の再生したい場所を正確に指定して、歌声の再録音を簡単に実施することができる。特に、選択された歌詞の文字に対応する音楽音響信号の信号部分の直前の信号部分から音楽音響信号を再生すると、再度歌い直す位置よりも前の音楽を聴きながら再歌唱することができるので、再録音を実施しやすいという利点がある。そして表示画面に表示された複数歌唱回分の歌声ごとの推定分析結果(音高反映データ、音量反映データ及び音色反映データ)を見ながら、音素の時間的区間ごとに所望の音高データ、音量データ及び音色データを特別な技術を必要とすることなく選択して、選択した音高データ、音量データ及び音色データを音素の時間的区間ごとに統合することにより簡単に統合歌声データを作成することができる。したがって本発明によれば、複数の歌声から優れた一つに代表させて置換するのではなく、複数の歌声を音の三要素である音高・音量・音色に分解し、その要素単位で置換することができる。その結果、歌手が何度も歌ったり、気に入らない箇所だけを歌い直し、それらを統合して一つの歌声を生成するインタラクティブシステムを提供できる。
またデータ選択部で選択した音高データ、音量データ及び音色データの少なくとも一つを音素の時間的区間に対応づけて変更するデータ編集部を更に設けてもよい。このようなデータ編集部を設けると、一度歌った歌に音高だけをハミング等の歌詞なし歌唱で入力し直したり、うまく歌えない箇所はマウスで音高に関する情報を入力して歌声生成したり、本来は速い歌唱をゆっくり歌えたりできるようになる。
更にデータ選択部で選択した音高及び音素の時間的区間に誤りがあったときにその誤りを訂正するデータ訂正部を備えてもよい。データ訂正部によるデータの訂正が実施されると、推定分析データ保存部は再度推定を行って、その結果を再保存する。このようにすると訂正された誤り情報に基づいて、音高・音量・音色を再推定することにより、推定精度を高めることができる。
なおデータ選択部は、音素の時間的区間ごとに最後に歌われた歌声の音高データ、音量データ及び音色データを自動的に選択する自動選択機能を有していてもよい。歌唱中に満足できない部分ある場合、満足できるまで満足できない部分を歌い直すであろうとの予測の下で、この自動選択機能は作成されている。この機能を利用すれば、修正作業をせずに、満足できない部分を満足できる仕上がりになるまで繰り替えし歌いなおすだけで、自動的に満足できる歌声を生成することができる。
推定分析データ保存部で推定する音素の時間的区間は、音素単位の開始時刻から終了時刻までの時間である。データ編集部は、音素の時間的区間の開始時刻及び終了時刻を変更すると、音素の時間的区間の変更に対応づけて音高データ、音量データ及び音色データの時間的区間を変更するように構成するのが好ましい。このようにすると、音素の時間的区間の変更に応じてその音素における音高、音量及び音色の時間的区間を自動的に変更することができる。
推定分析結果表示部は、複数歌唱回分の歌声ごとの推定分析結果を歌唱の順番が判るように表示画面に表示する機能を有しているのが好ましい。このような機能があれば、表示画面を見ながら編集をする際に、何番目の歌唱が一番うまく歌えたという記憶に基づいて、データの編集をすることが簡単になる。
本発明は、歌声録音システムとしても把握することができる。歌声録音システムは、音楽音響信号及び該音楽音響信号と時間的に対応付けられた歌詞を含む歌詞データが保存されたデータ保存部と、歌詞データに基づいて歌詞の少なくとも一部を表示する表示画面を備えた表示部と、表示画面に表示された歌詞中の文字を選択する選択操作が行われると、選択された歌詞の文字に対応する音楽音響信号の信号部分またはその直前の信号部分から音楽音響信号を再生する音楽音響信号再生部と、音楽音響信号再生部が音楽音響信号の再生を複数回行っている間、再生と同期して歌い手が複数回歌唱する歌声を複数歌唱回分録音する録音部とから構成することができる。
また本発明は、歌声録音システムを備えていない歌声合成システムとしても把握することができる。このような歌声合成システムは、同じ歌の一部または全部を同じ歌い手が、複数回歌唱したときの歌声を録音する録音部と、録音部で録音した複数歌唱回分の歌声ごとに歌声から音素単位で複数の音素の時間的区間を推定し、推定した複数の音素の時間的区間と一緒に、歌声の音高、音量及び音色を分析することにより得た音高データ、音量データ及び音色データを保存する推定分析データ保存部と、推定分析データ保存部に保存された複数の音素の時間的区間と一緒に推定分析結果を反映した音高反映データ、音量反映データ及び音色反映データを表示画面に表示する推定分析結果表示部と、表示画面に表示された複数歌唱回分の歌声ごとの推定分析結果の中から、音素の時間的区間ごとに音高データ、音量データ及び音色データをユーザが選択することを可能にするデータ選択部と、データ選択部を利用して選択された音高データ、音量データ及び音色データを音素の時間的区間ごとに統合して統合歌声データを作成する統合歌唱データ作成部と、統合歌声データを再生する歌声再生部とから構成することができる。
さらに本発明は、歌声合成方法としても表現することができる。本発明の歌声合成方法は、データ保存ステップと、表示ステップと、再生ステップと、録音ステップと、推定分析保存ステップと、推定分析結果表示ステップと、選択ステップと、統合歌唱データ作成ステップと、歌声再生ステップとから構成される。データ保存ステップは、音楽音響信号及び該音楽音響信号と時間的に対応付けられた歌詞を含む歌詞データをデータ保存部に保存する。表示ステップは、歌詞データに基づいて歌詞の少なくとも一部を表示部の表示画面に表示する。再生ステップでは、表示画面に表示された歌詞中の文字を選択する選択操作が行われると、選択された歌詞の文字に対応する音楽音響信号の信号部分またはその直前の信号部分から音楽音響信号を音楽音響信号再生部で再生する。録音ステップでは、音楽音響信号再生部が音楽音響信号の再生を複数回行っている間、再生された音楽を聴きながら歌い手が複数回歌唱する歌声を複数歌唱回分録音部で録音する。推定分析保存ステップでは、録音部で録音した複数歌唱回分の前記歌声ごとに歌声から音素単位で複数の音素の時間的区間を推定し、推定した複数の音素の時間的区間と一緒に、歌声の音高、音量及び音色を分析することにより得た音高データ、音量データ及び音色データを推定分析データ保存部に保存する。推定分析結果表示ステップでは、推定分析データ保存部に保存された複数の音素の時間的区間と一緒に推定分析結果を反映した音高反映データ、音量反映データ及び音色反映データを表示画面に表示する。データ選択ステップは、表示画面に表示された複数歌唱回分の歌声ごとの推定分析結果の中から、音素の時間的区間ごとに音高データ、音量データ及び音色データをデータ選択部を用いてユーザが選択する。統合歌唱データ作成ステップは、データ選択部を利用して選択された音高データ、音量データ及び音色データを音素の時間的区間ごとに統合して統合歌声データを作成する。歌声再生ステップでは、統合歌声データを再生する。
また本発明は、上記方法のステップをコンピュータを利用して実施するためのコンピュータプログラムを記憶した非一時的な記憶媒体としても表現することができる。
本発明の歌声合成システムの実施の形態の一例の構成を示すブロック図である。 図1の実施の形態をコンピュータにインストールして実現する場合に用いるコンピュータプログラムの一例のフローチャートである。 本実施の形態で用いる表示部の表示画面に示される起動画面の一例を示す図である。 本実施の形態で用いる表示部の表示画面に示される起動画面の他の例を示す図である。 (A)〜(F)は図3のインタフェースの操作を説明するために用いる図である。 (A)〜(C)は選択と訂正を説明するために用いる図である。 (A)及び(B)は要素の編集を説明するために用いる図である。 (A)〜(C)は選択と編集の操作を説明するために用いる図である。 インタフェースの操作を説明するために用いる図である。 インタフェースの操作を説明するために用いる図である。 インタフェースの操作を説明するために用いる図である。 インタフェースの操作を説明するために用いる図である。 インタフェースの操作を説明するために用いる図である。 インタフェースの操作を説明するために用いる図である。 インタフェースの操作を説明するために用いる図である。 インタフェースの操作を説明するために用いる図である。 インタフェースの操作を説明するために用いる図である。 インタフェースの操作を説明するために用いる図である。 インタフェースの操作を説明するために用いる図である。 インタフェースの操作を説明するために用いる図である。 インタフェースの操作を説明するために用いる図である。 インタフェースの操作を説明するために用いる図である。 インタフェースの操作を説明するために用いる図である。 インタフェースの操作を説明するために用いる図である。 インタフェースの操作を説明するために用いる図である。 インタフェースの操作を説明するために用いる図である。 インタフェースの操作を説明するために用いる図である。 インタフェースの操作を説明するために用いる図である。
以下図面を参照して本発明の実施の形態の一例を詳細に説明するが、実施の形態を説明する前に、まず、歌声生成における人間による歌声生成と計算機による歌声生成それぞれの利点と限界を説明する。そして制作対象の曲を思い通りの歌い方で歌っている人間の歌声を活用することで、人間による歌声生成と計算機による歌声生成の利点を生かして限界を超えた本発明の実施の形態について説明する。
多くの人は歌唱力を問わなければ容易に歌うことができ、その歌声は人間らしくて自然性が高い。また、既存の歌を自己流に歌い回しを変える表現力を持っている。特に、歌唱力がある人であれば、音楽的に質の高い歌声を生成することが可能で、聴く人に感動を与えることができる。しかし、過去に歌った歌を再現してもう一度歌ったり、自身の限界よりも声域が広い歌を歌ったり、歌詞が速い歌を歌ったり、自分の歌唱力を超えた歌を歌ったりすることには困難を伴う限界がある。
これに対して、計算機による歌声生成の利点は、多様な声質の合成が行えて、一度合成した歌唱の表現を再現できる点にある。また人間の歌声を、音の三要素である音高・音量・声色に分解して、それぞれを個別に制御して変換できる。特に歌声合成ソフトウェアを使う場合、ユーザは歌唱しなくても歌声を生成できるために、場所を選ばずにどこでも生成できて、さらに何度も聴取しながら表現を少しずつ変更できる。しかし、人間の歌声と区別がつかないような自然な歌声を自動的に生成したり、想像力によって新たな歌声表現を生み出したりすることは、一般的には困難である。例えば、自然な歌声で合成するためには手作業での精密なパラメータ調整が必要で、多様で自然な歌唱表現を得るのは容易でない。また、合成と変換のいずれも、元となる歌声(歌声合成データベースの音源や声質変換前の歌声)の品質によっては、合成・変換後に良い品質が得られにくいという限界がある。
この限界を越えるためには、人間の歌声生成と、計算機による歌声生成両者の利点を利用することになる。具体的には人間の歌声を計算機で処理(変換)する方法を利用することになる。即ちデジタル録音によって劣化少なく再現でき、信号処理技術によって肉体的な制約を超えた変換も行えるようにする。第二に、計算機での歌声合成を人間の歌声によって制御することになる。しかし、どちらの場合でも、信号処理技術の限界(合成と変換の品質が基の歌声に依存する)によって、より質の高い歌を生成するためには、ミスや乱れのない歌声が得られることが望ましい。そのためにはほとんどの場合、たとえ歌唱力が高くても納得のいくまで歌い直す必要があるため、何度も歌い直して録音した後、それを切り貼りして優れた部分のみを統合する処理が必要となる。しかし従来、そういった複数回歌われた歌声の扱いを視野に入れた歌声生成技術はなかった。そこで本発明は、人間と計算機の歌声生成を融合させるアプローチに基づき、人間が複数回歌った歌唱を扱うためのインタラクション(相互作用)機能を持つ歌声合成システム(通称VocaRefiner)を提案する。基本的には、ユーザは、まず、歌詞のテキストファイルと背景音楽の音響信号ファイルを入力してから、それらに基づいて歌唱して録音する。ここで、既に背景音楽が用意されている(背景音楽にはボーカルやガイドメロディ音が含まれている方が歌いやすい。ただし、歌いやすいようにミックスバランスは通常と違っていてもよい。)。また、歌詞のテキストファイルには、漢字仮名交じりの歌詞と、背景音楽中における歌詞の各文字の時刻、及び読み仮名が含まれているものとする。録音後、歌声を確認・編集しながら統合する。
図1は、本発明の歌声合成システムの実施の形態の一例の構成を示すブロック図である。図2は図1の実施の形態をコンピュータを利用して実現する場合に用いるコンピュータにインストールされるコンピュータプログラムの一例のフローチャートである。このプログラムは、非一時的な記憶媒体に記憶される。そして図3(A)は、本実施の形態で用いる表示部の表示画面に日本語のみの歌詞を表示する際の起動画面の一例を示す図である。図3(B)は、本実施の形態で用いる表示部の表示画面に日本語の歌詞と日本語の歌詞のアルファベット表記を並べて表示する際の起動画面の一例を示す図である。なお以下の説明においては、日本語のみの歌詞を表示する表示画面と日本語の歌詞と日本語の歌詞のアルファベット表記を並べて表意する表示画面を、任意に利用して、実施の形態の歌声合成システムの動作を説明する。本実施の形態では、歌唱の伴奏となる背景音楽に時刻同期してユーザの歌唱を録音する「録音モード」と、録音モードで録音した複数の歌唱を統合するための「統合モード」の二種類が実装されている。
図1において、本実施の形態の歌声合成システム1は、データ保存部3と、表示部5と、音楽音響信号再生部7と、文字選択部9、録音部11と、推定分析データ保存部13と、推定分析結果表示部15と、データ選択部17と、データ訂正部18と、データ編集部19と、統合歌唱データ作成部21と、歌声再生部23とから構成される。
データ保存部3は、音楽音響信号及び該音楽音響信号と時間的に対応付けられた歌詞を含む歌詞データ(時刻情報付きの歌詞)を保存する。音楽音響信号は、伴奏音(背景音)を含む音楽音響信号、ガイド歌声と伴奏音を含む音楽音響信号、またはガイドメロディと伴奏音を含む音楽音響信号のいずれでもよい。なお伴奏音、ガイド歌声及びガイドメロディは、MIDIファイル等に基づいて作成された合成音であってもよい。なお歌詞データは、読み仮名のデータとして入力されている。漢字仮名交じりの歌詞のテキストファイルに対し、その読み仮名と時刻情報を付与しておく必要がある。この時刻情報の付与は、手作業も可能だが、正確さと手軽さを考慮して、事前に歌詞のテキストと仮歌を用意し、VocaListener(商標)[中野倫靖,後藤真孝 VocaListener:ユーザ歌唱の音高および音量を真似る歌声合成システム 情報処理学会論文誌,52(12):3853-3867, 2011.]を用いて、形態素解析と信号処理による歌詞のアラインメントを行うことにより、時刻情報の付与を行ってもよい。なお仮歌は、音素の発音時刻さえ正しければ良く、録音の品質が多少低くても、無伴奏歌唱であれば推定結果に影響は少ない。ここで、形態素解析の結果や、歌詞アラインメントに誤りがあった場合には、VocaListenerのGUIによって正しく訂正することができる。
図1に示す表示部5は、例えばパーソナルコンピュータの液晶表示画面等を表示画面6として備え、この表示画面6を駆動するために必要な構成を含むものである。表示部5は、図3に示すように、表示画面6の歌詞ウインドウBに、歌詞データに基づいて歌詞の少なくとも一部を表示する。前述の録音モードと統合モードとの相互変更は、画面左上A部のモード変更ボタンa1で行う。
モード変更ボタンa1の操作により、録音モードを選択した後、図3の「再生録音ボタン(録音モード)」もしくは「再生ボタン(統合モード)」の操作によって音楽音響信号再生部7は、再生動作を行う。図4(A)は再生録音ボタンb1をポインタでクリックするときの状況を示している。図4(B)は、音楽音響信号を再生する際に、キー(調)を変更する場合にキー変更ボタンb2をポインタで操作する状況を示している。背景音楽のキーを変更するためには、フェーズボコーダ等(U. Zolzer and X. Amatriain. DAFX - Digital Audio Effects. Wiley, 2002.)で実現できる。本実施の形態は、各キーに変更した音源を事前に作成し、その再生を切替えるように実装している。
音楽音響信号再生部7は、表示画面6に表示された歌詞中の文字を、文字選択部9により選択する選択操作が行われると、選択された歌詞の文字に対応する音楽音響信号(背景信号)の信号部分またはその直前の信号部分から音楽音響信号を再生する。本実施の形態では、歌詞中の文字のダブルクリックによって、その文字が始まる時刻の頭出しを行う。従来、時刻情報付きの歌詞を再生中にカラオケ表示のようにして楽しむ目的で利用することはあったが、歌声の録音に用いられた例はなかった。本実施の形態では、歌詞は音楽中の時刻を指定できる一覧性の高い有用な情報として利用する。実際の歌詞の時刻情報を無視して、本来は速い歌唱をゆっくり歌ったり、そのままでは歌うのが難しい場合に自分なりに歌ったりできる。歌詞をマウスドラッグで選択した後、再生録音ボタンb1を押すことで、選択された歌詞の時間範囲を歌っていると仮定して録音する。そこで文字選択部9による歌詞中の文字の選択では、図3の画面中の歌詞の文字に、例えばマウスポインタを位置決めした後、その文字の位置でマウスをダブルクリックしたり、画面中の文字を指でタッチする等の選択技術を用いる。図4(D)は、文字をポインタで指定して、マウスをダブルクリックするときの状況を示している。なお音楽音響信号の再生の頭出しは、図4(C)に示すように後述する再生バーc5をドラッグ&ドロップすることによっても実施することができる。また特定の歌詞部分だけを再生する場合には、図4(E)のようにその歌詞部分をドラッグ&ドロップしたのち、再生録音ボタンb1をクリックすればよい。なお音楽音響信号を再生して得られた背景音楽は、ヘッドフォン8を介してユーザの耳に提供される。
実際に歌唱を録音する状況を考えた場合、歌を短時間で可能な限り多く録音して、後でそれらを吟味した方が効率的である。例えば、スタジオを借りていて時間制限がある場合等である。そこで本実施の形態の録音モードでは、歌唱することに集中して効率的に録音するために、楽曲の再生と同時に常に録音状態にし、ユーザは図3に示すインタフェースを用いて必要最低限な操作のみを行う。そこで録音部11は、音楽音響信号再生部7が音楽音響信号の再生を複数回行っている間、再生音楽を聞きながら歌い手が複数回歌唱する歌声を複数歌唱回分録音する。歌声は楽曲の再生と同時に常に録音されており、図3中の録音統合ウインドウCにその録音区間を示す矩形図形c1〜c3が、画面右上の再生バーc5と同期して表示される。再生録音の時刻(再生開始時刻)は、再生バーc5の移動や前述の歌詞中の任意の文字のダブルクリックでも指定できる。さらに録音の際に、キー変更ボタンb2の操作により、背景音楽の音高を周波数軸上にシフトさせることで、キー(音楽の調)を変更できる。
図3(A)及び(B)のインタフェースを用いたユーザによるアクションは、基本的には「再生・録音時刻の指定」と「キーの変更」である。このインタフェースでは、歌声を客観的に聴くために「録音歌唱の再生」もできる。歌唱は歌詞に沿った「音素付き」で歌うことを前提として処理を行う。例えば、ハミングや楽器音で音高入力をした場合には、後述する統合モードで修正する。
録音した歌唱を再生する場合には、図4(F)に示すように、矩形図形c1〜c3をクリックして、再生する歌唱回数部分[図4(F)ではc2]を指定した後、再生録音ボタンb1をクリックする。
本実施の形態では、推定分析データ保存部13は、歌詞の読み仮名を用いて、歌詞と歌声の自動的な対応付けを行う。対応付けでは、再生された時刻付近の歌詞が歌われていると仮定し、特定の歌詞で自由に歌う機能を用いた場合は、選択された歌詞を仮定する。また、歌声を音高・音量・声色の三要素に分解する。推定分析データ保存部13で推定する音素の時間的区間は、音素単位の開始時刻から終了時刻までの時間である。具体的には、一つの録音が終わる毎に、バックグラウンド処理によって音高・音量を推定する。ここで、統合モードで必要となる声色に関する全情報の推定には時間を要するため、歌詞の時刻を推定するために必要な情報のみを計算する。全ての録音が終わり、統合モードで情報が必要になる時点で、声色情報の推定を開始する。なお本実施の形態では、その旨をユーザに提示する。具体的に推定分析データ保存部13は、録音部11で録音した複数歌唱の音素を推定し、推定した複数の音素[図5(C)中の「d」「o」,「m」,「a」,「r」,「u」参照]の時間的区間(time period)[図3(A)及び(B)のD部に表示した区間T1、T2、T3・・等:図5(C)参照]と一緒に、歌声の音高(基本周波数F0)、音量(Power)及び音色(Timbre)を分析することにより得た音高データ、音量データ及び音色データを保存する。音素の時間的区間とは、一つの音素の開始時刻から終了時刻までの間の時間である。なお録音された歌声と歌詞音素との自動対応付けは、前述のVocaListener[中野倫靖,後藤真孝 VocaListener:ユーザ歌唱の音高および音量を真似る歌声合成システム 情報処理学会論文誌,52(12):3853-3867, 2011.]と同様の条件で対応付けを行うことができる。具体的には、Viterbiアラインメントによって自動的に歌唱を推定し、音節境界に短い無音(short pause)が入ることを許容した文法を用いた。また音響モデルには、連続音声認識コンソーシアムで頒布されている2002年度版の不特定話者monophone HMM[河原達也,住吉貴志,李晃伸,坂野秀樹,武田一哉,三村正人,伊藤克亘,伊藤彰則,鹿野清宏 連続音声認識コンソーシアム2002 年度版ソフトウェアの概要 情報処理学会研究報告音声言語情報処理2001-SLP-48-1, pp. 1-6, 2003]を歌声に適応させて使用した(歌声のみで学習したHMMも使用可能だが、話すように歌うことも考慮してこちらのHMMを用いた。)。音響モデル適応の際のパラメータ推定手法としては、MLLR(Maximum Likelihood Linear Regression)とMAP推定(Maximum A Posteriori Probability)を組み合わせたMLLR-MAP(V. Digalakis and L. Neumeyer. Speaker adaptation using combined transformation and Bayesian methods. IEEE Trans. Speech and Audio Processing, 4(4):294-300, 1996.)を用いた。特徴抽出とViterbiアラインメントでは16kHz にリサンプリングした歌声を用い、MLLR-MAPによる適応はHTK Speech Recognition Toolkit[S. Young, G. Evermann, T. Hain, D. Kershaw, G. Moore, J. Odell, D. Ollason, D. Povey, V. Valtchev, and P. Woodland. The HTK Book. 2002.]で行った。
推定分析データ保存部13は、歌声の音の三要素への分解・分析を次の技術を用いて行った。なお後述する統合における三要素の合成にも同様の技術を用いる。歌声の音高となる基本周波数(以下、F0と呼ぶ)の推定には、入力信号中で最も優勢な(パワーの大きい)高調波構造を求める手法[後藤真孝,伊藤克亘,速水悟 自然発話中の有声休止箇所のリアルタイム検出システム 電子情報通信学会論文誌D-II, J83-D-II(11):2330-2340, 2000.]で求めた値を初期値とした。16kHzにリサンプリングした歌声を用い、1024点のハニング窓で歌声を分析した。さらに、その値に基づいて、元の歌声をF0適応させたガウス窓(分析長が3=F0の長さ)でフーリエ変換した後、その10倍音までの振幅スペクトルに、F0の整数倍の各倍音をそれぞれガウス分布の平均とするGMM(Gaussian Mixture Model)をEM(Expectation Maximization)アルゴリズムによってフィッティングさせて、F0推定の時間分解能と精度を向上させた。また音色(声質)の情報としてスペクトル包絡を推定するために、ソース・フィルタ分析を行った。本実施の形態では、F0適応多重フレーム統合分析法[中野倫靖,後藤真孝 歌声・音声分析合成のためのF0適応多重フレーム統合分析に基づくスペクトル包絡と群遅延の推定法 情報処理学会音楽情報科学研究会研究報告2012-MUS-96-7, pp. 1-9, 2012.]によってスペクトル包絡と群遅延を推定して、分析と合成を行った。
録音時に複数回歌われた箇所は、歌唱に納得がいかずに歌い直した可能性が高い。そこで統合モードにおける初期状態では、後に録音された歌声を選択する。ただし、全ての音が録音されているために、単純に一番最後の録音を選択しただけでは、無音で上書きさせる可能性がある。そこで、自動的に対応付けられている音素の時刻情報に基づいて、歌唱部分のみから録音の順番を判断する。しかし、自動対応付けで100%の精度を得ることは現実的ではないため、誤りがあった場合にはユーザが修正する。そこで推定分析結果表示部15は、推定分析データ保存部13に保存された複数の音素の時間的区間と一緒に推定分析結果を反映した音高反映データd1、音量反映データd2及び音色反映データd3を表示画面6に表示する[図3(A)及び(B)のD部の下の領域]。ここで音高反映データd1、音量反映データd2及び音色反映データd3とは、音高データ、音量データ及び音色データを表示画面6に表示できる態様で表した画像データである。特に、音色データは、一次元で表示することができないため、本実施の形態では、簡易的に音色データを一次元表示するために、各時刻におけるΔMFCCの和を音色反映データとして計算した。図3には、ある歌詞部分を3回歌唱して得た3回歌唱分の推定分析データがそれぞれ表示されている。
統合モードでは、分析結果ウインドウDの表示範囲を図3(A)及び(B)のE部の操作ボタンe1,e2により拡大・縮小したり、図3のE部の操作ボタンe3,e4により左右に動かしながら編集・統合を行う。そのためにデータ選択部17は、表示画面6に表示された複数歌唱回分の歌声ごとの推定分析結果の中から、音素の時間的区間ごとに音高データ、音量データ及び音色データをユーザが選択することを可能にする。統合モードにおけるユーザによる編集操作は、「自動推定結果の誤り訂正」、「統合(要素の選択と編集)」であり、録音とその分析結果、変換した歌声を視聴しながら行う。まず、音高と音素時刻の推定には、誤りが発生する可能性があるため、その場合にはここで訂正する。また再度、録音モードに戻って歌声を追加することも可能である。誤りを訂正した後、音素単位で歌声要素を選択したり編集したりして統合する。
音高推定結果の音高の誤りには、マウスのドラッグ操作で音高の範囲を時間・音高(周波数)で指定して再推定する(中野倫靖,後藤真孝 VocaListener:ユーザ歌唱の音高および音量を真似る歌声合成システム 情報処理学会論文誌,52(12):3853-3867, 2011)。音素の時刻の誤り訂正に関しては、録音モードでのインタラクションで既におおよその時刻と音素が与えられているために誤りが少ない。そこで現在の実装では、マウスによる微調整で誤りを訂正する。また、推定結果の音素が足りない場合や多すぎる場合には、マウス操作で追加・削除を行う。初期状態では後に録音された要素が選択されているが、それ以前の要素を選択することもできる。また、音素の長さを伸縮させたり、音高・音量をマウス操作で書き換えたりして編集できる。
具体的には、図5(A)に示すように、データ選択部17は、表示画面6に音高反映データd1、音量反映データd2及び音色反映データd3と一緒に表示した音素の時間的区間T1〜T10の表示をカーソルでドラッグ&ドロップすることにより選択を行う。図5(A)の例では、2回目の歌唱区間を示す矩形図形c2をポインタでクリックして、2回目の歌唱の推定分析データを表示画面6に表示している。そして音高反映データd1と一緒に表示した音素の時間的区間T1〜T7の表示をカーソルでドラッグ&ドロップすることにより、この区間の音高を選択している。そして音量反映データd2と一緒に表示した音素の時間的区間T8〜T10の表示をカーソルでドラッグ&ドロップすることにより、この区間の音量を選択している。そして音色反映データd3と一緒に表示した音素の時間的区間T8〜T10の表示をカーソルでドラッグ&ドロップすることにより、この区間の音色を選択している。このようにして歌唱全体に対して、複数回歌唱した歌唱区間(例えばc1〜c3)から音高反映データd1、音量反映データd2及び音色反映データd3に対応する音高データ、音量データ及び音色データを任意に選択する。選択したデータは、統合歌唱データ作成部21で統合に利用される。例えば、1回目及び2回目は歌詞に沿って歌唱し、3回目はハミングだけでメロディだけを歌唱したとする。この場合、3回目のメロディがより精度が高いとすると、音高データに関しては、3回目の音高データを全区間に渡って選択し、音色及び音量については、第1回目及び第2回目の歌唱の推定分析データから適宜に選択をする。このようにすると、精度の高い音高で、自分の歌唱を部分的に置換するように歌唱データを統合することができ、例えば、一度歌った歌に音高だけをハミング等の歌詞なし歌唱で入力し直すことができる。なお本実施の形態では、データ選択部17により選択した選択結果は、推定分析データ保存部13に保存する。
なおデータ選択部17は、音素の時間的区間ごとに最後に歌われた歌声の音高データ、音量データ及び音色データを自動的に選択する自動選択機能を有していてもよい。歌唱中に満足できない部分ある場合、満足できるまで満足できない部分を歌い直すであろうとの予測の下で、この自動選択機能は作成される。この機能を利用すれば、修正作業をせずに、満足できない部分を満足できる仕上がりになるまで繰り替えし歌い直すだけで、自動的に満足できる歌唱を生成することができる。
本実施の形態では、データ選択部17で選択した音高及び音素の時間的区間の推定に誤りがあったときには、その誤りを訂正するデータ訂正部18と、音高データ、音量データ及び音色データの少なくとも一つを音素の時間的区間に対応づけて変更するデータ編集部19とを更に備えている。データ訂正部18は、自動推定された音高もしくは音素の時間的区間のいずれかに誤りがあった場合に、その誤りを訂正するように構成されている。さらに、データ編集部19は、例えば、音素の時間的区間の開始時刻及び終了時刻を変更して、音素の時間的区間の変更に対応づけて音高データ、音量データ及び音色データの時間的区間変更するように構成されている。このようにすると、音素の時間的区間の変更に応じてその音素における音高、音量及び音色の時間的区間を自動的に変更することができる。編集途中のデータを保存する場合には、図3の保存ボタンe6をクリックし、過去に編集していたデータを呼び出すには、図3の読込ボタンe5をクリックする。
図5(B)は、データ訂正部18により音高の誤りを訂正する訂正作業を説明するために用いる図である。この例では、推定結果が音高を実際よりも高いものとして誤って推定した場合に、その音高が高い範囲をドラッグ&ドロップにより指定する。その後、その領域の中に正解があるとして音高の再推定を行う。訂正の方法は、任意であり、この例に限定されるものではない。図5(C)は、音素時刻の誤りを訂正する訂正作業を説明するために用いる図である。この例では、時間的区間T2の時間長さを短縮し、T4の時間長さを延ばす誤り訂正が行われている。この誤り訂正は、時間的区間T3の開始時刻と終了時刻をポインタによる指定とドラッグ&ドロップにより実施された。この時刻の誤り訂正の方法も任意である。
図6(A)及び(B)は、データ編集部19によるデータ編集の例を説明するために用いる図である。図6(A)では、3回の歌唱中から2回目の歌唱を選択し、一部の音素「u」の時間的区間を延ばしている。このように音素の時間的区間を変更によって伸ばすと、それに対応付いて音高データ、音量データ、音色データも同期して伸びる(表示画面上の音高反映データd1,音量反映データd2及び音色反映データd3の表示も伸びる)。また図6(B)の例では、マウスのドラッグ&ドロップで音高及び音量データを変更している。このようにデータ編集部19を設けることにより、変更操作によってうまく歌えない箇所はマウスで操作するカーソルを利用して音高に関する情報を編集したりすることができる。また時間的区間を縮めることにより、本来は速い歌唱をゆっくり歌った歌唱とすることができる。
本実施の形態の推定分析データ保存部13は、声色の推定が音高に依存しているため、訂正された誤り情報に基づき、音高・音量・声色を再推定する。そして、統合歌唱データ作成部21は、データ選択部17を利用して選択された音高データ、音量データ及び音色データを音素の時間的区間ごとに統合して統合歌声データを作成する。そして歌声再生部23は、図3のE部のボタンe7をクリックすることで、統合された全時刻の三要素の情報から歌声の波形(統合歌声データ)を合成する。そして統合した歌声を再生する場合には、図3のボタンb1’をクリックする。なおこのように統合して得られた人間の歌声に基づいて、その歌い方を真似るように、特定の歌声合成データベースの声質で合成したい場合には、VocaListener(商標)等の歌声合成技術を使用するとよい。
図7(A)〜(C)は、データ選択部17での選択と、データ編集部19での編集と、統合歌唱データ作成部21における操作を簡単に説明するための図である。図7(A)においては、録音区間を示す矩形図形c1〜c3をそれぞれクリックして、音高、音量及び音色を選択している。なお音素については、アルファベットの小文字a〜lを便宜的に記載した。そして各音素に関して選択された音高データ、音量データ及び音色データについては、図に各データと一緒に並記する音素の時間的区間に対応するブロック表示に色を付した。図7(A)の例では、音素「a」「b」の区間においては、第1回目の歌唱の録音区間を示す矩形図形c1における音高データが選択され、第3回目の歌唱の録音区間を示す矩形図形c3における音量データ及び音色データが選択されている。その他の音素においても、図示のように選択がされている。音素「g」、「h」及び「i」においては、音素「g」及び「h」において、第3回目の音色データが選択され、音素「i」において第2回目の歌唱の録音区間を示す矩形図形c2における音色データが選択されている。選択された音色データを見ると、データの長さの不整合(重ならない部分)がある。そこで本実施の形態では、第3回目の歌唱の音色データの終端を第2回目の歌唱の録音区間を示す矩形図形c2の音色データの始端に合わせるように、音色データの伸縮を行う。音素「j」、「k」及び「l」においては、音素「j」において、第2回目の歌唱の録音区間を示す矩形図形c2における音色データが選択され、音素「k」及び「l」において第3回目の歌唱の録音区間を示す矩形図形c3における音色データが選択されている。選択された音色データを見ると、データの長さの不整合(重ならない部分)がある。そこで本実施の形態では、不整合している前者の音素の終端を、後者の音素の始端に合わせるように、音色データの伸縮を行う。具体的には、音素「g」、「h」及び「i」においては、第3回目の歌唱の音色データの終端を第2回目の歌唱の音色データの始端に合わせるように、音素「j」、「k」及び「l」においては、第2回目の歌唱の音色データの終端を第3回目の歌唱の音色データの始端に合わせるように、音色データの伸縮を行う。
音色データの伸縮を確定した後は、図7(B)に示すように、音色データの時間的区間に合わせるように、音高データまたは音量データの伸縮を行う。その結果、図7(C)に示すように、音高データ、音量データ及び音色データの時間的区間が一致したデータを統合して、再生用の歌声を含む音響信号を合成する。
推定分析結果表示部15は、複数歌唱回分の歌声ごとの推定分析結果を歌唱の順番が判るように表示画面に表示する機能を有しているのが好ましい。このような機能があれば、表示画面を見ながら編集をする際に、何番目の歌唱が一番うまく歌えたという記憶に基づいて、データの編集をすることが簡単になる。
図2に示したアルゴリズムは、上記実施の形態をコンピュータを用いて実現する場合のコンピュータプログラムのアルゴリズムの一例である。そこでこのアルゴリズムを説明しながら、合わせて図3のインタフェースを用いた本発明のシステムの動作の例を図8〜図23を用いて説明する。なお図9乃至図24の例は歌詞が日本語の場合を前提にするが、本願明細書が英語に翻訳される場合を考慮して、図9乃至図24には、「歌詞(Lyrics)」の位置に日本語歌詞とそのアルファベット表記を並記してある。
まず最初に、ステップST1で、歌詞を含む必要情報を情報画面に表示する(図8参照)。次にステップST2で歌詞の文字の選択を行う。図9の例では、歌詞中の「立(Ta)」の文字にポインタを合わせてダブルクリックをして、「立ち止まる時またふと振り返る(TaChiDoMaRuToKiMaTaFuRiKaERu)」までの音響信号(背景音楽)の再生を行い(ステップST3)、録音を行った(ステップST4)。ステップST5で録音停止が指示されると、ステップST6で録音した第1回目の歌声(歌唱)の音素の推定と、三要素(音高、音量及び音色)の分析と保存が実施される。図9の画面には、分析結果が表示されている。図8及び図9に示すように、このときのモードは録音モードである。
ステップST7で、再録音するか否かの判定がなされる。この例では、第1回目の歌唱とは別に第2回目の歌唱としてメロディだけを歌う(ハミングをする即ち「ラララ…(LaLaLa…)の音だけでメロディを歌う」こととした。そこで再度ステップST1へ戻って、第2回目の歌唱を実施した。図10は、第2回目の歌唱の録音が終了して分析が終了した結果が示されている。分析結果のうち、第2回目の歌唱の分析結果の線を濃く表示し、第1回目の分析結果(アクティブでない分析結果)は薄い線で表示されている。
次に録音モードから統合モードに移行するものとする。図11に示すようにモード変更ボタンa1を「統合」に変更する。図2のアルゴリズムでは、ステップST7からステップST8へと進む。ステップST8では、統合(合成)に使用する音高データ、音量データ、音色データの選択をするか否かの判断が実施される。データ選択が無い場合には、ステップST9へと進んで最終録音のデータを自動選択する。ステップST9でデータの選択があることが判定されると、ステップST10でデータの選択作業が実施される。データの選択は、図7(A)に示すように行う。そして選択したデータについてステップST12で選択した推定データの音高と音素の時間的区間の訂正を行うか否かの判定が実施される。訂正を行う場合には、ステップST13へと進んで訂正作業が実施される。その具体例は、図5(B)及び(C)に示す通りである。全ての訂正が完了したことをステップST14で判定すると、ステップST15で、データの再推定が実施される。次に編集が必要か否かの判断をステップST16で行い、編集が必要と判断されたときには、ステップST17で編集作業を実施し、全ての編集が終了したか否かをステップST18で判定する。編集が終了したときには、ステップST19で統合が実施される。ステップST16で、編集を実施しないことが判定されると、ステップST19へと進む。図11は、ステップST13で第2回目の歌唱(ハミング)の音素時刻の誤りを訂正する場合の画面を示している。これは本例では、音色データとして第2回目の歌唱のデータを利用するためである。そして選択及び編集すべきデータを確認するためには、図12に示すように、例えば第1回目の歌唱データの存在を示す矩形図形c1をクリックすると、第1回目の歌唱データが表示される。
図13には、第2回目の歌唱データの存在を示す矩形図形c2をクリックしたときの画面を表示している。なお図13では、ステップST9で第2回目の歌唱のデータ(音高、音量、音色)が全て選択されたときの画面を表示している。
図14には、第1回目の歌唱を選択し、且つ音量データと音色データを全て選択したときの画面を示している。図14に示すように、ポインタをドラッグすることにより、音量データと音色データを全て選択することができる。図15は、図14の選択操作の後に、第2回目の歌唱を選択すると、音量データと音色データの選択が不可能になっていることと、音高のみが選択可能であることが示されている。
図16は、第2回目の歌唱の最後の歌詞の音素「u」の終端の時刻を編集するときの画面を示している。図17に示すように、矩形図形c2をダブルクリックしてポインタをドラッグすると、音素「u」の終端の時刻が延びる。そしてこれと連動して、音素「u」に対応する音高データ、音量データ及び音色データも伸縮する。また図18は、矩形図形c2をダブルクリックして、音素「a」の付近の音に対応する音高反映データの部分を指定して編集をした後の状態を示している。これは、図17の状態から、先頭部分のデータマウスのドラッグ&ドロップによって音高を下げる編集(軌跡を描く)を行った結果である。また図19は、矩形図形c2をダブルクリックして、音素「a」の付近の音に対応する音量反映データの部分を指定して編集をした後の状態を示している。これは、図18の状態から、先頭部分のデータマウスのドラッグ&ドロップによって音量を下げる編集(軌跡を描く)を行った結果である。図20は、特定の歌詞部分を自由に歌う場合には、歌詞の部分をドラッグして下線を付与し、再生録音ボタンb1をクリックすると、ドラッグにより特定した歌詞に対応する部分の背景音楽が再生される。
図21は、第1回目の歌唱を再生する場合の画面の状態を示している。このときには第1回目の歌唱区間を示す矩形図形c1をクリックし、再生録音ボタンb1をクリックすると、背景音楽と一緒に第1回目の歌唱が再生される。また、再生ボタンb1´をクリックした場合には、収録歌唱が単独で再生される。
図22は、第2回目の歌唱を再生する場合の画面の状態を示している。このときには第2回目の歌唱区間を示す矩形図形c2を示す画像をクリックし、再生録音ボタンb1をクリックすると、背景音楽と一緒に第1回目の歌唱が再生される。また、再生ボタンb1´をクリックした場合には、収録歌唱が単独で再生される。
図23は、合成歌唱を再生する場合の画面の状態を示している。背景音楽と一緒に合成歌唱を再生する場合には、矩形図形c1及びc2が表示されている画面の背景をクリックした後、再生録音ボタンb1をクリックする。また、再生ボタンb1´をクリックした場合には合成録歌唱が単独で再生される。なおインタフェースの活用の仕方は、本実施の形態で限定されるものではなく、任意である。
図24は、図3のE部の操作ボタンe1を操作してデータを拡大した状態を示している。図25は図3のE部の操作ボタンe2を操作してデータを縮小した状態を示している。図26は、図3のE部の操作ボタンe3を操作してデータを左に移動した状態を示している。図27は図3のE部の操作ボタンe4を操作してデータを右に移動した状態を示している。
本実施の形態においては、音楽音響信号再生部7が、表示画面6に表示された歌詞中の文字を選択する選択操作が行われると、選択された歌詞の文字に対応する音楽音響信号の信号部分またはその直前の信号部分から音楽音響信号を再生するため、音楽音響信号の再生したい場所を正確に指定して、歌声の再録音を簡単に実施することができる。特に、選択された歌詞の文字に対応する音楽音響信号の信号部分の直前の信号部分から音楽音響信号を再生すると、再度歌い直す位置よりも前の音楽を聴きながら再歌唱することがでるので、再録音を実施しやすいという利点がある。そして表示画面6に表示された複数歌唱回分の歌声ごとの推定分析結果(音高反映データ、音量反映データ及び音色反映データ)を見ながら、音素の時間的区間ごとに所望の音高データ、音量データ及び音色データを特別な技術を必要とすることなく選択して、選択した音高データ、音量データ及び音色データを音素の時間的区間ごとに統合することにより簡単に統合歌声データを作成することができる。したがって本実施の形態によれば、複数の歌声から優れた一つに代表させて置換するのではなく、複数の歌声を音の三要素である音高・音量・音色に分解し、その要素単位で置換することができる。その結果、歌手が何度も歌ったり気に入らない箇所だけを歌い直し、それらを統合して一つの歌声を生成するインタラクティブシステムを提供できる。
なお再生バーや歌詞による頭出しに加えて、Songle(後藤真孝,吉井和佳,藤原弘将,M. Mauch,中野倫靖 Songle:ユーザが誤り訂正により貢献可能な能動的音楽鑑賞サービス 情報処理学会インタラクション2012 論文集, pp. 1-8, 2012)のような楽曲構造の可視化を伴って録音できたり、背景音楽のキーに応じて、自動的に音高を補正したりといった機能を加えても良いのは勿論である。
本発明によれば、歌唱を効率的に録音し、音の三要素に分解してそれをインタラクティブに統合することができる。録音では、歌声と音素の自動アラインメントにより、その統合が効率化できる。また発明によれば、歌唱力、歌声合成パラメータ調整や歌声編集といった従来の歌声生成のスキルに加えて、インタラクションによる新しい歌声生成スキルが切り拓かれる可能性がある。また「歌声の作り方」のイメージが変わり、分解した状態で要素を選択・編集できることを前提に歌作りするようになる可能性もある。そのため、例えば、歌唱として完璧には歌えない人でも、要素に分解することで、全体的な完璧さを求める場合より敷居が低くなる利点が得られる。
1 歌声合成システム
3 データ保存部
5 表示部
6 表示画面
7 音楽音響信号再生部
8 ヘッドフォン
9 文字選択部
11 録音部
13 推定分析データ保存部
15 推定分析結果表示部
17 データ選択部
18 データ訂正部
19 データ編集部
21 統合歌唱データ作成部
23 歌声再生部

Claims (19)

  1. 音楽音響信号及び前記音楽音響信号と時間的に対応付けられた歌詞を含む歌詞データが保存されたデータ保存部と、
    前記歌詞データに基づいて歌詞の少なくとも一部を表示する表示画面を備えた表示部と、
    前記表示画面に表示された前記歌詞中の文字を選択する選択操作が行われると、選択された前記歌詞の文字に対応する前記音楽音響信号の信号部分またはその直前の信号部分から前記音楽音響信号を再生する音楽音響信号再生部と、
    前記音楽音響信号再生部が前記音楽音響信号の再生を複数回行っている間、再生された音楽を聴きながら歌い手が歌唱する歌声を複数歌唱回分録音する録音部と、
    前記録音部で録音した複数歌唱回分の前記歌声ごとに前記歌声から音素単位で複数の音素の時間的区間を推定し、推定した前記複数の音素の時間的区間と一緒に、前記歌声の音高、音量及び音色を分析することにより得た音高データ、音量データ及び音色データを保存する推定分析データ保存部と、
    前記推定分析データ保存部に保存された前記複数の音素の時間的区間と一緒に推定分析結果を反映した音高反映データ、音量反映データ及び音色反映データを前記表示画面に表示する推定分析結果表示部と、
    前記表示画面に表示された前記複数歌唱回分の歌声ごとの推定分析結果の中から、前記音素の時間的区間ごとに前記音高データ、前記音量データ及び前記音色データをユーザが選択することを可能にするデータ選択部と、
    前記データ選択部を利用して選択された前記音高データ、前記音量データ及び前記音色データを前記音素の時間的区間ごとに統合して統合歌声データを作成する統合歌唱データ作成部と、
    前記統合歌声データを再生する歌声再生部とからなる歌声合成システム。
  2. 前記音楽音響信号は伴奏音を含む音楽音響信号、ガイド歌声と伴奏音を含む音楽音響信号、またはガイドメロディと伴奏音を含む音楽音響信号である請求項1に記載の歌声合成システム。
  3. 前記伴奏音、前記ガイド歌声及び前記ガイドメロディが、MIDIファイルに基づいて作成された合成音である請求項2に記載の歌声合成システム。
  4. 前記データ選択部で選択した前記音高データ、前記音量データ及び前記音色データの少なくともひとつを前記音素の時間的区間に対応づけて変更するデータ編集部を更に備え、
    前記データ編集部によるデータの変更が実施されると、前記推定分析データ保存部はその結果を再保存する請求項1に記載の歌声合成システム。
  5. 前記データ選択部は、前記音素の時間的区間ごとに最後に歌われた歌声の前記音高データ、前記音量データ及び前記音色データを自動的に選択する自動選択機能を有している請求項1に記載の歌声合成システム。
  6. 前記推定分析データ保存部で推定する前記音素の時間的区間は、前記音素単位の開始時刻から終了時刻までの時間であり、
    前記データ編集部は、前記音素の時間的区間の前記開始時刻及び終了時刻を変更すると、前記音素の時間的区間の変更に対応づけて前記音高データ、前記音量データ及び前記音色データの時間的区間を変更することを特徴とする請求項4に記載の歌声合成システム。
  7. 前記データ選択部で選択した前記音高及び前記音素の時間的区間に推定の誤りがあった場合に、誤りを訂正するデータ訂正部を更に備え、
    前記データ訂正部によるデータの訂正が実施されると、前記推定分析データ保存部は再度推定を行って、その結果を再保存する請求項1または4に記載の歌声合成システム。
  8. 前記推定分析結果表示部は、前記複数歌唱回分の歌声ごとの前記推定分析結果を歌唱の順番が判るように前記表示画面に表示する機能を有している請求項1に記載の歌声合成システム。
  9. 同じ歌の一部または全部を同じ歌い手が、複数回歌唱したときの歌声を録音する録音部と、
    前記録音部で録音した複数歌唱回分の前記歌声ごとに前記歌声から音素単位で複数の音素の時間的区間を推定し、推定した前記複数の音素の時間的区間と一緒に、前記歌声の音高、音量及び音色を分析することにより得た音高データ、音量データ及び音色データを保存する推定分析データ保存部と、
    前記推定分析データ保存部に保存された前記複数の音素の時間的区間と一緒に推定分析結果を反映した音高反映データ、音量反映データ及び音色反映データを表示画面に表示する推定分析結果表示部と、
    前記表示画面に表示された前記複数歌唱回分の歌声ごとの推定分析結果の中から、前記音素の時間的区間ごとに前記音高データ、前記音量データ及び前記音色データをユーザが選択することを可能にするデータ選択部と、
    前記データ選択部を利用して選択された前記音高データ、前記音量データ及び前記音色データを前記音素の時間的区間ごとに統合して統合歌声データを作成する統合歌唱データ作成部と、
    前記統合歌声データを再生する歌声再生部とからなる歌声合成システム。
  10. 音楽音響信号及び前記音楽音響信号と時間的に対応付けられた歌詞を含む歌詞データをデータ保存部に保存するデータ保存ステップと、
    前記歌詞データに基づいて前記歌詞の少なくとも一部を表示部の表示画面に表示する表示ステップと、
    前記表示画面に表示された前記歌詞中の文字を選択する選択操作が行われると、選択された前記歌詞の文字に対応する前記音楽音響信号の信号部分またはその直前の信号部分から前記音楽音響信号を音楽音響信号再生部で再生する再生ステップと、
    前記音楽音響信号再生部が前記音楽音響信号の再生を複数回行っている間、再生された音楽を聴きながら歌い手が歌唱する歌声を複数歌唱回分録音部で録音する録音ステップと、
    前記録音部で録音した複数歌唱回分の前記歌声ごとに前記歌声から音素単位で複数の音素の時間的区間を推定し、推定した前記複数の音素の時間的区間と一緒に、前記歌声の音高、音量及び音色を分析することにより得た音高データ、音量データ及び音色データを推定分析データ保存部に保存する推定分析保存ステップと、
    前記推定分析データ保存部に保存された前記複数の音素の時間的区間と一緒に推定分析結果を反映した音高反映データ、音量反映データ及び音色反映データを前記表示画面に表示する推定分析結果表示ステップと、
    前記表示画面に表示された前記複数歌唱回分の歌声ごとの推定分析結果の中から、前記音素の時間的区間ごとに前記音高データ、前記音量データ及び前記音色データをデータ選択部を用いてユーザが選択するデータ選択ステップと、
    前記データ選択部を利用して選択された前記音高データ、前記音量データ及び前記音色データを前記音素の時間的区間ごとに統合して統合歌声データを作成する統合歌唱データ作成ステップと、
    前記統合歌声データを再生する歌声再生ステップとからなる歌声合成方法。
  11. 前記音楽音響信号は伴奏音を含む音楽音響信号、ガイド歌声と伴奏音を含む音楽音響信号、またはガイドメロディと伴奏音を含む音楽音響信号である請求項10に記載の歌声合成方法。
  12. 前記伴奏音、前記ガイド歌声及び前記ガイドメロディが、MIDIファイルに基づいて作成された合成音である請求項11に記載の歌声合成方法。
  13. 前記データ選択ステップで選択した前記音高データ、前記音量データ及び前記音色データの少なくともひとつを前記音素の時間的区間に対応づけて変更するデータ編集ステップを更に備えている請求項10に記載の歌声合成方法。
  14. 前記データ選択ステップでは、前記音素の時間的区間ごとに最後に歌われた歌声の前記音高データ、前記音量データ及び前記音色データを自動的に選択する自動選択ステップを有している請求項12に記載の歌声合成方法。
  15. 前記推定分析保存ステップで推定する前記音素の時間的区間は、前記音素単位の開始時刻から終了時刻までの時間であり、
    前記データ編集ステップでは、前記音素の時間的区間の前記開始時刻及び終了時刻を変更すると、前記音素の時間的区間の変更に対応づけて前記音高データ、前記音量データ及び前記音色データの時間的区間を変更することを特徴とする請求項13に記載の歌声合成方法。
  16. 前記データ選択ステップで選択した前記音高及び前記音素の時間的区間の推定に誤りがあったときにその誤りを訂正するデータ訂正ステップを更に備え、
    前記データ訂正ステップでデータの訂正が実施されると、前記推定分析保存ステップで再度推定を行って、その結果を前記推定分析データ保存部に再保存する請求項10または13に記載の歌声合成方法。
  17. 前記推定分析結果表示ステップでは、前記複数歌唱回分の歌声ごとの前記推定分析結果を歌唱の順番が判るように前記表示画面に表示する請求項10に記載の歌声合成方法。
  18. 前記請求項10乃至17のいずれか1項に記載のステップをコンピュータで実現するためのコンピュータ読み取り可能なコンピュータプログラムを記憶した非一時的な記憶媒体。
  19. 同じ歌の一部または全部を同じ歌い手が、複数回歌唱したときの歌声を録音するステップと、
    前記録音ステップで録音した複数歌唱回分の前記歌声ごとに前記歌声から音素単位で複数の音素の時間的区間を推定し、推定した前記複数の音素の時間的区間と一緒に、前記歌声の音高、音量及び音色を分析することにより得た音高データ、音量データ及び音色データを推定分析データ保存部に保存する推定分析保存ステップと、
    前記推定分析データ保存部に保存された前記複数の音素の時間的区間と一緒に推定分析結果を反映した音高反映データ、音量反映データ及び音色反映データを表示画面に表示する推定分析結果表示ステップと、
    前記表示画面に表示された前記複数歌唱回分の歌声ごとの推定分析結果の中から、前記音素の時間的区間ごとに前記音高データ、前記音量データ及び前記音色データをデータ選択部によりユーザが選択することを可能にするデータ選択ステップと、
    前記データ選択ステップで選択された前記音高データ、前記音量データ及び前記音色データを前記音素の時間的区間ごとに統合して統合歌声データを作成する統合歌唱データ作成ステップと、
    前記統合歌声データを再生する歌声再生ステップとからなる歌声合成方法。
JP2014551125A 2012-12-04 2013-12-04 歌声合成システム及び歌声合成方法 Expired - Fee Related JP6083764B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012265817 2012-12-04
JP2012265817 2012-12-04
PCT/JP2013/082604 WO2014088036A1 (ja) 2012-12-04 2013-12-04 歌声合成システム及び歌声合成方法

Publications (2)

Publication Number Publication Date
JPWO2014088036A1 JPWO2014088036A1 (ja) 2017-01-05
JP6083764B2 true JP6083764B2 (ja) 2017-02-22

Family

ID=50883453

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014551125A Expired - Fee Related JP6083764B2 (ja) 2012-12-04 2013-12-04 歌声合成システム及び歌声合成方法

Country Status (4)

Country Link
US (1) US9595256B2 (ja)
EP (1) EP2930714B1 (ja)
JP (1) JP6083764B2 (ja)
WO (1) WO2014088036A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101992572B1 (ko) * 2018-08-30 2019-09-30 유영재 음향 리뷰 기능을 갖는 음향 편집 장치 및 이를 이용한 음향 리뷰 방법
KR102035448B1 (ko) * 2019-02-08 2019-11-15 세명대학교 산학협력단 음성 악기

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2930714B1 (en) * 2012-12-04 2018-09-05 National Institute of Advanced Industrial Science and Technology Singing voice synthesizing system and singing voice synthesizing method
CN106463111B (zh) 2014-06-17 2020-01-21 雅马哈株式会社 基于字符的话音生成的控制器与系统
JP6569246B2 (ja) * 2015-03-05 2019-09-04 ヤマハ株式会社 音声合成用データ編集装置
JP6728754B2 (ja) * 2015-03-20 2020-07-22 ヤマハ株式会社 発音装置、発音方法および発音プログラム
US9595203B2 (en) * 2015-05-29 2017-03-14 David Michael OSEMLAK Systems and methods of sound recognition
US9972300B2 (en) * 2015-06-11 2018-05-15 Genesys Telecommunications Laboratories, Inc. System and method for outlier identification to remove poor alignments in speech synthesis
CN106653037B (zh) * 2015-11-03 2020-02-14 广州酷狗计算机科技有限公司 音频数据处理方法和装置
CN106782627B (zh) * 2015-11-23 2019-08-27 广州酷狗计算机科技有限公司 音频文件的重录方法及装置
CN106898339B (zh) * 2017-03-29 2020-05-26 腾讯音乐娱乐(深圳)有限公司 一种歌曲的合唱方法及终端
CN106898340B (zh) * 2017-03-30 2021-05-28 腾讯音乐娱乐(深圳)有限公司 一种歌曲的合成方法及终端
US20180366097A1 (en) * 2017-06-14 2018-12-20 Kent E. Lovelace Method and system for automatically generating lyrics of a song
JP6569712B2 (ja) * 2017-09-27 2019-09-04 カシオ計算機株式会社 電子楽器、電子楽器の楽音発生方法、及びプログラム
JP2019066649A (ja) * 2017-09-29 2019-04-25 ヤマハ株式会社 歌唱音声の編集支援方法、および歌唱音声の編集支援装置
JP6988343B2 (ja) * 2017-09-29 2022-01-05 ヤマハ株式会社 歌唱音声の編集支援方法、および歌唱音声の編集支援装置
CN108549642B (zh) * 2018-04-27 2021-08-27 广州酷狗计算机科技有限公司 评价音高信息的标注质量的方法、装置及存储介质
CN108922537B (zh) * 2018-05-28 2021-05-18 Oppo广东移动通信有限公司 音频识别方法、装置、终端、耳机及可读存储介质
JP6610714B1 (ja) * 2018-06-21 2019-11-27 カシオ計算機株式会社 電子楽器、電子楽器の制御方法、及びプログラム
JP6610715B1 (ja) 2018-06-21 2019-11-27 カシオ計算機株式会社 電子楽器、電子楽器の制御方法、及びプログラム
CN110189741B (zh) * 2018-07-05 2024-09-06 腾讯数码(天津)有限公司 音频合成方法、装置、存储介质和计算机设备
CN111627417B (zh) * 2019-02-26 2023-08-08 北京地平线机器人技术研发有限公司 播放语音的方法、装置及电子设备
JP7059972B2 (ja) 2019-03-14 2022-04-26 カシオ計算機株式会社 電子楽器、鍵盤楽器、方法、プログラム
CN110033791B (zh) * 2019-03-26 2021-04-09 北京雷石天地电子技术有限公司 一种歌曲基频提取方法及装置
CN112489608B (zh) * 2019-08-22 2024-07-16 北京峰趣互联网信息服务有限公司 生成歌曲的方法、装置、电子设备及存储介质
US11430431B2 (en) * 2020-02-06 2022-08-30 Tencent America LLC Learning singing from speech
CN111402858B (zh) * 2020-02-27 2024-05-03 平安科技(深圳)有限公司 一种歌声合成方法、装置、计算机设备及存储介质
CN111798821B (zh) * 2020-06-29 2022-06-14 北京字节跳动网络技术有限公司 声音转换方法、装置、可读存储介质及电子设备
US11495200B2 (en) * 2021-01-14 2022-11-08 Agora Lab, Inc. Real-time speech to singing conversion
CN113781988A (zh) * 2021-07-30 2021-12-10 北京达佳互联信息技术有限公司 字幕显示方法、装置、电子设备及计算机可读存储介质

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3662969B2 (ja) * 1995-03-06 2005-06-22 富士通株式会社 カラオケシステム
JPH09101784A (ja) * 1995-10-03 1997-04-15 Roland Corp 自動演奏装置のカウントイン制御装置
JP3379414B2 (ja) * 1997-01-09 2003-02-24 ヤマハ株式会社 パンチイン装置、パンチイン方法及びプログラムを記録した媒体
US6304846B1 (en) * 1997-10-22 2001-10-16 Texas Instruments Incorporated Singing voice synthesis
JPH11352981A (ja) 1998-06-05 1999-12-24 Nippon Dorekkusuhiru Technology Kk 音響装置およびそれを内蔵する玩具
US6683241B2 (en) * 2001-11-06 2004-01-27 James W. Wieder Pseudo-live music audio and sound
JP2004117817A (ja) * 2002-09-26 2004-04-15 Roland Corp 自動演奏プログラム
JP3864918B2 (ja) * 2003-03-20 2007-01-10 ソニー株式会社 歌声合成方法及び装置
JP2005234718A (ja) 2004-02-17 2005-09-02 Yamaha Corp 音声素片データの取引方法、音声素片データ提供装置、課金額管理装置、音声素片データ提供プログラム、課金額管理プログラム
JP2008020798A (ja) * 2006-07-14 2008-01-31 Yamaha Corp 歌唱指導装置
KR20070099501A (ko) * 2007-09-18 2007-10-09 테크온팜 주식회사 노래 학습 시스템 및 방법
US8244546B2 (en) * 2008-05-28 2012-08-14 National Institute Of Advanced Industrial Science And Technology Singing synthesis parameter data estimation system
JP5331494B2 (ja) 2009-01-19 2013-10-30 株式会社タイトー カラオケサービスシステム、端末装置
WO2011002933A2 (en) * 2009-06-30 2011-01-06 Museami, Inc. Vocal and instrumental audio effects
JP5360489B2 (ja) 2009-10-23 2013-12-04 大日本印刷株式会社 音素符号変換装置および音声合成装置
US9147385B2 (en) * 2009-12-15 2015-09-29 Smule, Inc. Continuous score-coded pitch correction
GB2500471B (en) 2010-07-20 2018-06-13 Aist System and method for singing synthesis capable of reflecting voice timbre changes
JP5375868B2 (ja) * 2011-04-04 2013-12-25 ブラザー工業株式会社 再生方法切替装置、再生方法切替方法及びプログラム
JP5895740B2 (ja) * 2012-06-27 2016-03-30 ヤマハ株式会社 歌唱合成を行うための装置およびプログラム
JP5958866B2 (ja) * 2012-08-01 2016-08-02 国立研究開発法人産業技術総合研究所 音声分析合成のためのスペクトル包絡及び群遅延の推定システム及び音声信号の合成システム
JP5821824B2 (ja) * 2012-11-14 2015-11-24 ヤマハ株式会社 音声合成装置
EP2930714B1 (en) * 2012-12-04 2018-09-05 National Institute of Advanced Industrial Science and Technology Singing voice synthesizing system and singing voice synthesizing method
JP5817854B2 (ja) * 2013-02-22 2015-11-18 ヤマハ株式会社 音声合成装置およびプログラム
JP5949607B2 (ja) * 2013-03-15 2016-07-13 ヤマハ株式会社 音声合成装置
EP2960899A1 (en) * 2014-06-25 2015-12-30 Thomson Licensing Method of singing voice separation from an audio mixture and corresponding apparatus

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101992572B1 (ko) * 2018-08-30 2019-09-30 유영재 음향 리뷰 기능을 갖는 음향 편집 장치 및 이를 이용한 음향 리뷰 방법
KR102035448B1 (ko) * 2019-02-08 2019-11-15 세명대학교 산학협력단 음성 악기

Also Published As

Publication number Publication date
WO2014088036A1 (ja) 2014-06-12
EP2930714A1 (en) 2015-10-14
JPWO2014088036A1 (ja) 2017-01-05
EP2930714A4 (en) 2016-11-09
US20150310850A1 (en) 2015-10-29
EP2930714B1 (en) 2018-09-05
US9595256B2 (en) 2017-03-14

Similar Documents

Publication Publication Date Title
JP6083764B2 (ja) 歌声合成システム及び歌声合成方法
US7825321B2 (en) Methods and apparatus for use in sound modification comparing time alignment data from sampled audio signals
Jin et al. Voco: Text-based insertion and replacement in audio narration
US10347238B2 (en) Text-based insertion and replacement in audio narration
EP1849154B1 (en) Methods and apparatus for use in sound modification
US8729374B2 (en) Method and apparatus for converting a spoken voice to a singing voice sung in the manner of a target singer
JP5024711B2 (ja) 歌声合成パラメータデータ推定システム
US7487092B2 (en) Interactive debugging and tuning method for CTTS voice building
JP5293460B2 (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
CN106971703A (zh) 一种基于hmm的歌曲合成方法及装置
Umbert et al. Expression control in singing voice synthesis: Features, approaches, evaluation, and challenges
CN101111884B (zh) 用于声学特征的同步修改的方法和装置
JP2004264676A (ja) 歌唱合成装置、歌唱合成プログラム
JP2011028230A (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
Gupta et al. Deep learning approaches in topics of singing information processing
JP6756151B2 (ja) 歌唱合成データ編集の方法および装置、ならびに歌唱解析方法
CN108922505A (zh) 信息处理方法及装置
JP2009217141A (ja) 音声合成装置
TWI377558B (en) Singing synthesis systems and related synthesis methods
JP2013164609A (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP2009157220A (ja) 音声編集合成システム、音声編集合成プログラム及び音声編集合成方法
JP5106437B2 (ja) カラオケ装置及びその制御方法並びにその制御プログラム
JP5953743B2 (ja) 音声合成装置及びプログラム
Rosenzweig Interactive Signal Processing Tools for Analyzing Multitrack Singing Voice Recordings
CN114550690A (zh) 歌曲合成方法及装置

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170118

R150 Certificate of patent or registration of utility model

Ref document number: 6083764

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees