JP6083764B2

JP6083764B2 - 歌声合成システム及び歌声合成方法

Info

Publication number: JP6083764B2
Application number: JP2014551125A
Authority: JP
Inventors: 倫靖中野; 後藤　真孝; 真孝後藤
Original assignee: National Institute of Advanced Industrial Science and Technology AIST
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 2012-12-04
Filing date: 2013-12-04
Publication date: 2017-02-22
Anticipated expiration: 2033-12-04
Also published as: WO2014088036A1; EP2930714A1; JPWO2014088036A1; EP2930714A4; US20150310850A1; EP2930714B1; US9595256B2

Description

本発明は、歌声合成システム及び歌声合成方法に関するものである。

現在、歌声を生成するためには、まず「人間が歌う」か、非特許文献１に記載されているような「歌声合成技術（歌声合成用パラメータの調整）によって人工的に生成する」ことで、基となる歌声の時系列信号を得る必要がある。さらに、必要に応じて基となる歌声の時系列信号を切り貼りしたり、信号処理技術等によって時間伸縮や変換をしたりしながら「編集する」ことで、最終的な歌声を得る場合もある。したがって、歌唱力がある人、歌声合成のパラメータ調整が得意な人、歌声を上手に編集できる技術を持っている人は、「声生成が上手い人」と言える。このように歌声生成は、高い歌唱力や高度な専門知識、手間のかかる作業が必要とされ、前述のようなスキルがない人々にとっては、質の高い歌声を自在に生成することはできなかった。

なお従来の歌声生成に関しては、人間の歌声に加えて、近年では市販の歌声合成ソフトウェアが注目を集め、楽しむリスナーも増加している（非特許文献２）。歌声合成では、「歌詞」と「楽譜（音符系列）」を入力として歌声を合成するtext-to-singing（lyrics to-singing）方式が主流であり、市販のソフトウェアでは、品質の高さから波形接続方式（非特許文献３，４）が用いられているが、HMM（隠れマルコフモデル）合成方式（非特許文献５，６）も利用され始めている。さらに歌詞のみを入力として自動作曲と歌声合成を同時に行うシステムも公開されており（非特許文献７）、声質変換によって歌声合成を拡張する研究もある（非特許文献８）。一方、合成対象の歌詞を朗読した話声から、その声質を保ったまま歌声に変換するspeech-to-singing方式（非特許文献９，１０）やお手本の歌声を入力として、その音高や音量等の歌唱表現を真似るように歌声合成するsinging-to-singing 方式（非特許文献１１）が研究されている。

以上のようにして得られた歌声は、DAW（Digital Audio Workstation）等を用いることで、切り貼りや信号処理を伴った時間軸伸縮や音高補正等が行える。その他、声質変換（非特許文献８，１２，１３）や音高と声質のモーフィング（非特許文献１４，１５）、高品質な実時間音高補正（非特許文献１６）が研究されている。また、楽器のMIDIシーケンスデータの生成において、リアルタイムの演奏入力が困難なユーザでも、音高と演奏情報を別々に入力・統合する研究があり（非特許文献１７）、有効性が示されている。

中野倫靖，後藤真孝 VocaListener：ユーザ歌唱の音高および音量を真似る歌声合成システム情報処理学会論文誌，52(12):3853-3867, 2011 後藤真孝初音ミク，ニコニコ動画，ピアプロが切り拓いたCGM現象情報処理学会誌, 53(5):466-471, 2012. J. Bonada and S. Xavier. Synthesis of the Singing Voice by Performance Sampling and Spectral Models. IEEE Signal Processing Magazine, 24 (2):67-79, 2007. H. Kenmochi and H. Ohshita. VOCALOID-Commercial Singing Synthesizer based on Sample Concatenation. In Proc. Interspeech 2007, 2007. 大浦圭一郎，間瀬絢美，山田知彦，徳田恵一，後藤真孝 Sinsy:「あの人に歌ってほしい」をかなえるHMM歌声合成システム音楽情報科学研究会研究報告2010-MUS-86, pp. 1-8, 2010. 酒向慎司，宮島千代美，徳田恵一，北村正隠れマルコフモデルに基づいた歌声合成システム情報処理学会論文誌，45(7):719-727, 2004. S. Fukayama, K. Nakatsuma, S. Sako, T. Nishimoto, and S. Sagayama. Automatic Song Composition from the Lyrics exploiting Prosody of the Japanese Language. In Proc. SMC 2010, pp. 299-302, 2010. F. Villavicencio and J. Bonada. Applying Voice Conversion to Concatenative Singing-Voice Synthesis. In Proc. Interspeech 2010, pp. 2162-2165, 2010. T. Saitou, M. Goto, M. Unoki, and M. Akagi. Speech-To-Singing Synthesis: Converting Speaking Voices to Singing Voices by Controlling Acoustic Features Unique to Singing Voices. In Proc. WASPAA 2007, pp. 215-218, 2007. 齋藤毅，後藤真孝，鵜木祐史，赤木正人 SingBySpeaking：歌声知覚に重要な音響特徴を制御して話声を歌声に変換するシステム情報処理学会研究報告音楽情報科学2008-MUS-74-5, pp. 25-32, 2008. 中野倫靖，後藤真孝 VocaListener：ユーザ歌唱の音高および音量を真似る歌声合成システム情報処理学会論文誌，52(12):3853-3867, 2011. 藤原弘将，後藤真孝混合音中の歌声スペクトル包絡推定に基づく歌声の声質変換手法情報処理学会研究報告音楽情報科学2010-MUS-86-7, pp. 1-10, 2010. 川上裕司，坂野秀樹，板倉文忠声道断面積関数を用いたGMMに基づく歌唱音声の声質変換電子情報通信学会技術報音声（SP2010-81）, pp. 71-76, 2010. K. Saino, M. Tachibana, and H. Kenmochi. Temporally Variable Multi-Aspect Auditory Morphing Enabling Extrapolation without Objective and Perceptual Breakdown. In Proc.ICASSP 2009, pp. 3905-3908, 2009. 河原英紀，生駒太一，森勢将雅，高橋徹，豊田健一，片寄晴弘モーフィングに基づく歌唱デザインインタフェースの提案と初期検討. 情報処理学会論文誌，48(12):3637-3648, 2007. 中野皓太，森勢将雅，西浦敬信，山下洋一基本周波数の転写に基づく実時間歌唱制御システムの実現を目的とした高品質ボコーダSTRAIGHTの高速化電子情報通信学会論文誌，95-A(7):563-572, 2012. 大島千佳，西本一志，宮川洋平，白崎隆史音楽表情を担う要素と音高の分割入力による容易なMIDI シーケンスデータ作成システム情報処理学会論文誌，44(7):1778-1790, 2003.

しかしながら従来の技術では、部分的に歌い直して置換したり、歌声の音高や音量を補正したり、音色（音素や声質を反映する情報）の変換やモーフィングをしたりすることはできたが、同一人物が断片的に複数回歌唱して、それらを統合する歌声生成のインタラクションは考えられていなかった。

本発明の目的は、音楽制作における歌声パートの生成において、歌手が一度の歌唱のみでは望んだ歌い方を得られない状況を想定し、何度も歌ったり気に入らない箇所だけを歌い直すことで、それらを統合して一つの歌声を生成できる歌声合成システム及び方法並びに歌声合成システム用プログラムを提供することにある。

本発明は、音楽制作におけるより手軽な歌声生成を目指して、現在の歌声生成の限界を超えるための歌声合成システム及び方法を提案する。歌声は音楽の重要な要素であり、音楽は産業・文化の両面で主要なコンテンツの一つである。特にポピュラー音楽では歌声を中心に音楽を聴く人が多く、歌声の生成を極めることは、音楽制作において有用である。さらに、歌声の信号は音の三要素である音高・音量・音色の全てが複雑に変化する時系列信号であり、特に音色は歌詞の音韻が次々と変化するため他の楽器音の生成よりも技術的に難易度が高い。したがって、このような歌声を効率的に生成できる技術やインタフェースの実現は学術的にも産業的にも意義がある。

本発明の歌声合成システムは、データ保存部と、表示部と、音楽音響信号再生部と、録音部と、推定分析データ保存部と、推定分析結果表示部と、データ選択部と、統合歌唱データ作成部と、歌声再生部とから構成される。データ保存部は、音楽音響信号及び該音楽音響信号と時間的に対応付けられた歌詞を含む歌詞データを保存する。音楽音響信号は、伴奏音を含む音楽音響信号、ガイド歌声と伴奏音を含む音楽音響信号、またはガイドメロディと伴奏音を含む音楽音響信号のいずれでもよい。なお伴奏音、ガイド歌声及びガイドメロディは、ＭＩＤＩファイル等に基づいて作成された合成音であってもよい。表示部は、歌詞データに基づいて歌詞の少なくとも一部を表示する表示画面を備えている。音楽音響信号再生部は、表示画面に表示された歌詞中の文字を選択する選択操作が行われると、選択された歌詞の文字に対応する音楽音響信号の信号部分またはその直前の信号部分から音楽音響信号を再生する。ここで歌詞中の文字の選択は、例えばカーソルによる文字のクリックや、画面中の文字を指でタッチする等の公知の選択技術を用いればよい。録音部は、音楽音響信号再生部が音楽音響信号の再生を複数回行っている間、再生音楽を聞きながら歌い手が複数回歌唱する歌声を複数歌唱回分録音する。推定分析データ保存部は、録音部で録音した複数歌唱回分の歌声ごとに歌声から音素単位で複数の音素の時間的区間を推定し、推定した複数の音素の時間的区間と一緒に、歌声の音高、音量及び音色を分析することにより得た音高データ、音量データ及び音色データを保存する。推定分析結果表示部は、推定分析データ保存部に保存された複数の音素の時間的区間と一緒に推定分析結果を反映した音高反映データ、音量反映データ及び音色反映データを表示画面に表示する。ここで音高反映データ、音量反映データ及び音色反映データとは、音高データ、音量データ及び音色データを表示画面に表示できる態様で表した画像データである。データ選択部は、表示画面に表示された複数歌唱回分の歌声ごとの推定分析結果の中から、音素の時間的区間ごとに音高データ、前記音量データ及び前記音色データをユーザが選択することを可能にする。統合歌唱データ作成部は、データ選択部を利用して選択された音高データ、音量データ及び音色データを音素の時間的区間ごとに統合して統合歌声データを作成する。そして歌声再生部は、統合歌声データを再生する。

本発明においては、音楽音響信号再生部が、表示画面に表示された歌詞中の文字を選択する選択操作が行われると、選択された歌詞の文字に対応する音楽音響信号の信号部分またはその直前の信号部分から音楽音響信号を再生するため、音楽音響信号の再生したい場所を正確に指定して、歌声の再録音を簡単に実施することができる。特に、選択された歌詞の文字に対応する音楽音響信号の信号部分の直前の信号部分から音楽音響信号を再生すると、再度歌い直す位置よりも前の音楽を聴きながら再歌唱することができるので、再録音を実施しやすいという利点がある。そして表示画面に表示された複数歌唱回分の歌声ごとの推定分析結果（音高反映データ、音量反映データ及び音色反映データ）を見ながら、音素の時間的区間ごとに所望の音高データ、音量データ及び音色データを特別な技術を必要とすることなく選択して、選択した音高データ、音量データ及び音色データを音素の時間的区間ごとに統合することにより簡単に統合歌声データを作成することができる。したがって本発明によれば、複数の歌声から優れた一つに代表させて置換するのではなく、複数の歌声を音の三要素である音高・音量・音色に分解し、その要素単位で置換することができる。その結果、歌手が何度も歌ったり、気に入らない箇所だけを歌い直し、それらを統合して一つの歌声を生成するインタラクティブシステムを提供できる。

またデータ選択部で選択した音高データ、音量データ及び音色データの少なくとも一つを音素の時間的区間に対応づけて変更するデータ編集部を更に設けてもよい。このようなデータ編集部を設けると、一度歌った歌に音高だけをハミング等の歌詞なし歌唱で入力し直したり、うまく歌えない箇所はマウスで音高に関する情報を入力して歌声生成したり、本来は速い歌唱をゆっくり歌えたりできるようになる。

更にデータ選択部で選択した音高及び音素の時間的区間に誤りがあったときにその誤りを訂正するデータ訂正部を備えてもよい。データ訂正部によるデータの訂正が実施されると、推定分析データ保存部は再度推定を行って、その結果を再保存する。このようにすると訂正された誤り情報に基づいて、音高・音量・音色を再推定することにより、推定精度を高めることができる。

なおデータ選択部は、音素の時間的区間ごとに最後に歌われた歌声の音高データ、音量データ及び音色データを自動的に選択する自動選択機能を有していてもよい。歌唱中に満足できない部分ある場合、満足できるまで満足できない部分を歌い直すであろうとの予測の下で、この自動選択機能は作成されている。この機能を利用すれば、修正作業をせずに、満足できない部分を満足できる仕上がりになるまで繰り替えし歌いなおすだけで、自動的に満足できる歌声を生成することができる。

推定分析データ保存部で推定する音素の時間的区間は、音素単位の開始時刻から終了時刻までの時間である。データ編集部は、音素の時間的区間の開始時刻及び終了時刻を変更すると、音素の時間的区間の変更に対応づけて音高データ、音量データ及び音色データの時間的区間を変更するように構成するのが好ましい。このようにすると、音素の時間的区間の変更に応じてその音素における音高、音量及び音色の時間的区間を自動的に変更することができる。

推定分析結果表示部は、複数歌唱回分の歌声ごとの推定分析結果を歌唱の順番が判るように表示画面に表示する機能を有しているのが好ましい。このような機能があれば、表示画面を見ながら編集をする際に、何番目の歌唱が一番うまく歌えたという記憶に基づいて、データの編集をすることが簡単になる。

本発明は、歌声録音システムとしても把握することができる。歌声録音システムは、音楽音響信号及び該音楽音響信号と時間的に対応付けられた歌詞を含む歌詞データが保存されたデータ保存部と、歌詞データに基づいて歌詞の少なくとも一部を表示する表示画面を備えた表示部と、表示画面に表示された歌詞中の文字を選択する選択操作が行われると、選択された歌詞の文字に対応する音楽音響信号の信号部分またはその直前の信号部分から音楽音響信号を再生する音楽音響信号再生部と、音楽音響信号再生部が音楽音響信号の再生を複数回行っている間、再生と同期して歌い手が複数回歌唱する歌声を複数歌唱回分録音する録音部とから構成することができる。

また本発明は、歌声録音システムを備えていない歌声合成システムとしても把握することができる。このような歌声合成システムは、同じ歌の一部または全部を同じ歌い手が、複数回歌唱したときの歌声を録音する録音部と、録音部で録音した複数歌唱回分の歌声ごとに歌声から音素単位で複数の音素の時間的区間を推定し、推定した複数の音素の時間的区間と一緒に、歌声の音高、音量及び音色を分析することにより得た音高データ、音量データ及び音色データを保存する推定分析データ保存部と、推定分析データ保存部に保存された複数の音素の時間的区間と一緒に推定分析結果を反映した音高反映データ、音量反映データ及び音色反映データを表示画面に表示する推定分析結果表示部と、表示画面に表示された複数歌唱回分の歌声ごとの推定分析結果の中から、音素の時間的区間ごとに音高データ、音量データ及び音色データをユーザが選択することを可能にするデータ選択部と、データ選択部を利用して選択された音高データ、音量データ及び音色データを音素の時間的区間ごとに統合して統合歌声データを作成する統合歌唱データ作成部と、統合歌声データを再生する歌声再生部とから構成することができる。

さらに本発明は、歌声合成方法としても表現することができる。本発明の歌声合成方法は、データ保存ステップと、表示ステップと、再生ステップと、録音ステップと、推定分析保存ステップと、推定分析結果表示ステップと、選択ステップと、統合歌唱データ作成ステップと、歌声再生ステップとから構成される。データ保存ステップは、音楽音響信号及び該音楽音響信号と時間的に対応付けられた歌詞を含む歌詞データをデータ保存部に保存する。表示ステップは、歌詞データに基づいて歌詞の少なくとも一部を表示部の表示画面に表示する。再生ステップでは、表示画面に表示された歌詞中の文字を選択する選択操作が行われると、選択された歌詞の文字に対応する音楽音響信号の信号部分またはその直前の信号部分から音楽音響信号を音楽音響信号再生部で再生する。録音ステップでは、音楽音響信号再生部が音楽音響信号の再生を複数回行っている間、再生された音楽を聴きながら歌い手が複数回歌唱する歌声を複数歌唱回分録音部で録音する。推定分析保存ステップでは、録音部で録音した複数歌唱回分の前記歌声ごとに歌声から音素単位で複数の音素の時間的区間を推定し、推定した複数の音素の時間的区間と一緒に、歌声の音高、音量及び音色を分析することにより得た音高データ、音量データ及び音色データを推定分析データ保存部に保存する。推定分析結果表示ステップでは、推定分析データ保存部に保存された複数の音素の時間的区間と一緒に推定分析結果を反映した音高反映データ、音量反映データ及び音色反映データを表示画面に表示する。データ選択ステップは、表示画面に表示された複数歌唱回分の歌声ごとの推定分析結果の中から、音素の時間的区間ごとに音高データ、音量データ及び音色データをデータ選択部を用いてユーザが選択する。統合歌唱データ作成ステップは、データ選択部を利用して選択された音高データ、音量データ及び音色データを音素の時間的区間ごとに統合して統合歌声データを作成する。歌声再生ステップでは、統合歌声データを再生する。

また本発明は、上記方法のステップをコンピュータを利用して実施するためのコンピュータプログラムを記憶した非一時的な記憶媒体としても表現することができる。

本発明の歌声合成システムの実施の形態の一例の構成を示すブロック図である。図１の実施の形態をコンピュータにインストールして実現する場合に用いるコンピュータプログラムの一例のフローチャートである。本実施の形態で用いる表示部の表示画面に示される起動画面の一例を示す図である。本実施の形態で用いる表示部の表示画面に示される起動画面の他の例を示す図である。（Ａ）〜（Ｆ）は図３のインタフェースの操作を説明するために用いる図である。（Ａ）〜（Ｃ）は選択と訂正を説明するために用いる図である。（Ａ）及び（Ｂ）は要素の編集を説明するために用いる図である。（Ａ）〜（Ｃ）は選択と編集の操作を説明するために用いる図である。インタフェースの操作を説明するために用いる図である。インタフェースの操作を説明するために用いる図である。インタフェースの操作を説明するために用いる図である。インタフェースの操作を説明するために用いる図である。インタフェースの操作を説明するために用いる図である。インタフェースの操作を説明するために用いる図である。インタフェースの操作を説明するために用いる図である。インタフェースの操作を説明するために用いる図である。インタフェースの操作を説明するために用いる図である。インタフェースの操作を説明するために用いる図である。インタフェースの操作を説明するために用いる図である。インタフェースの操作を説明するために用いる図である。インタフェースの操作を説明するために用いる図である。インタフェースの操作を説明するために用いる図である。インタフェースの操作を説明するために用いる図である。インタフェースの操作を説明するために用いる図である。インタフェースの操作を説明するために用いる図である。インタフェースの操作を説明するために用いる図である。インタフェースの操作を説明するために用いる図である。インタフェースの操作を説明するために用いる図である。

以下図面を参照して本発明の実施の形態の一例を詳細に説明するが、実施の形態を説明する前に、まず、歌声生成における人間による歌声生成と計算機による歌声生成それぞれの利点と限界を説明する。そして制作対象の曲を思い通りの歌い方で歌っている人間の歌声を活用することで、人間による歌声生成と計算機による歌声生成の利点を生かして限界を超えた本発明の実施の形態について説明する。

多くの人は歌唱力を問わなければ容易に歌うことができ、その歌声は人間らしくて自然性が高い。また、既存の歌を自己流に歌い回しを変える表現力を持っている。特に、歌唱力がある人であれば、音楽的に質の高い歌声を生成することが可能で、聴く人に感動を与えることができる。しかし、過去に歌った歌を再現してもう一度歌ったり、自身の限界よりも声域が広い歌を歌ったり、歌詞が速い歌を歌ったり、自分の歌唱力を超えた歌を歌ったりすることには困難を伴う限界がある。

これに対して、計算機による歌声生成の利点は、多様な声質の合成が行えて、一度合成した歌唱の表現を再現できる点にある。また人間の歌声を、音の三要素である音高・音量・声色に分解して、それぞれを個別に制御して変換できる。特に歌声合成ソフトウェアを使う場合、ユーザは歌唱しなくても歌声を生成できるために、場所を選ばずにどこでも生成できて、さらに何度も聴取しながら表現を少しずつ変更できる。しかし、人間の歌声と区別がつかないような自然な歌声を自動的に生成したり、想像力によって新たな歌声表現を生み出したりすることは、一般的には困難である。例えば、自然な歌声で合成するためには手作業での精密なパラメータ調整が必要で、多様で自然な歌唱表現を得るのは容易でない。また、合成と変換のいずれも、元となる歌声（歌声合成データベースの音源や声質変換前の歌声）の品質によっては、合成・変換後に良い品質が得られにくいという限界がある。

この限界を越えるためには、人間の歌声生成と、計算機による歌声生成両者の利点を利用することになる。具体的には人間の歌声を計算機で処理（変換）する方法を利用することになる。即ちデジタル録音によって劣化少なく再現でき、信号処理技術によって肉体的な制約を超えた変換も行えるようにする。第二に、計算機での歌声合成を人間の歌声によって制御することになる。しかし、どちらの場合でも、信号処理技術の限界（合成と変換の品質が基の歌声に依存する）によって、より質の高い歌を生成するためには、ミスや乱れのない歌声が得られることが望ましい。そのためにはほとんどの場合、たとえ歌唱力が高くても納得のいくまで歌い直す必要があるため、何度も歌い直して録音した後、それを切り貼りして優れた部分のみを統合する処理が必要となる。しかし従来、そういった複数回歌われた歌声の扱いを視野に入れた歌声生成技術はなかった。そこで本発明は、人間と計算機の歌声生成を融合させるアプローチに基づき、人間が複数回歌った歌唱を扱うためのインタラクション（相互作用）機能を持つ歌声合成システム（通称VocaRefiner）を提案する。基本的には、ユーザは、まず、歌詞のテキストファイルと背景音楽の音響信号ファイルを入力してから、それらに基づいて歌唱して録音する。ここで、既に背景音楽が用意されている（背景音楽にはボーカルやガイドメロディ音が含まれている方が歌いやすい。ただし、歌いやすいようにミックスバランスは通常と違っていてもよい。）。また、歌詞のテキストファイルには、漢字仮名交じりの歌詞と、背景音楽中における歌詞の各文字の時刻、及び読み仮名が含まれているものとする。録音後、歌声を確認・編集しながら統合する。

図１は、本発明の歌声合成システムの実施の形態の一例の構成を示すブロック図である。図２は図１の実施の形態をコンピュータを利用して実現する場合に用いるコンピュータにインストールされるコンピュータプログラムの一例のフローチャートである。このプログラムは、非一時的な記憶媒体に記憶される。そして図３（Ａ）は、本実施の形態で用いる表示部の表示画面に日本語のみの歌詞を表示する際の起動画面の一例を示す図である。図３（Ｂ）は、本実施の形態で用いる表示部の表示画面に日本語の歌詞と日本語の歌詞のアルファベット表記を並べて表示する際の起動画面の一例を示す図である。なお以下の説明においては、日本語のみの歌詞を表示する表示画面と日本語の歌詞と日本語の歌詞のアルファベット表記を並べて表意する表示画面を、任意に利用して、実施の形態の歌声合成システムの動作を説明する。本実施の形態では、歌唱の伴奏となる背景音楽に時刻同期してユーザの歌唱を録音する「録音モード」と、録音モードで録音した複数の歌唱を統合するための「統合モード」の二種類が実装されている。

図１において、本実施の形態の歌声合成システム１は、データ保存部３と、表示部５と、音楽音響信号再生部７と、文字選択部９、録音部１１と、推定分析データ保存部１３と、推定分析結果表示部１５と、データ選択部１７と、データ訂正部１８と、データ編集部１９と、統合歌唱データ作成部２１と、歌声再生部２３とから構成される。
データ保存部３は、音楽音響信号及び該音楽音響信号と時間的に対応付けられた歌詞を含む歌詞データ（時刻情報付きの歌詞）を保存する。音楽音響信号は、伴奏音（背景音）を含む音楽音響信号、ガイド歌声と伴奏音を含む音楽音響信号、またはガイドメロディと伴奏音を含む音楽音響信号のいずれでもよい。なお伴奏音、ガイド歌声及びガイドメロディは、ＭＩＤＩファイル等に基づいて作成された合成音であってもよい。なお歌詞データは、読み仮名のデータとして入力されている。漢字仮名交じりの歌詞のテキストファイルに対し、その読み仮名と時刻情報を付与しておく必要がある。この時刻情報の付与は、手作業も可能だが、正確さと手軽さを考慮して、事前に歌詞のテキストと仮歌を用意し、VocaListener（商標）［中野倫靖，後藤真孝 VocaListener：ユーザ歌唱の音高および音量を真似る歌声合成システム情報処理学会論文誌，52(12):3853-3867, 2011.］を用いて、形態素解析と信号処理による歌詞のアラインメントを行うことにより、時刻情報の付与を行ってもよい。なお仮歌は、音素の発音時刻さえ正しければ良く、録音の品質が多少低くても、無伴奏歌唱であれば推定結果に影響は少ない。ここで、形態素解析の結果や、歌詞アラインメントに誤りがあった場合には、VocaListenerのＧＵＩによって正しく訂正することができる。

図１に示す表示部５は、例えばパーソナルコンピュータの液晶表示画面等を表示画面６として備え、この表示画面６を駆動するために必要な構成を含むものである。表示部５は、図３に示すように、表示画面６の歌詞ウインドウＢに、歌詞データに基づいて歌詞の少なくとも一部を表示する。前述の録音モードと統合モードとの相互変更は、画面左上Ａ部のモード変更ボタンａ１で行う。

モード変更ボタンａ１の操作により、録音モードを選択した後、図３の「再生録音ボタン（録音モード）」もしくは「再生ボタン（統合モード）」の操作によって音楽音響信号再生部７は、再生動作を行う。図４（Ａ）は再生録音ボタンｂ１をポインタでクリックするときの状況を示している。図４（Ｂ）は、音楽音響信号を再生する際に、キー（調）を変更する場合にキー変更ボタンｂ２をポインタで操作する状況を示している。背景音楽のキーを変更するためには、フェーズボコーダ等（U. Zolzer and X. Amatriain. DAFX - Digital Audio Effects. Wiley, 2002.）で実現できる。本実施の形態は、各キーに変更した音源を事前に作成し、その再生を切替えるように実装している。

音楽音響信号再生部７は、表示画面６に表示された歌詞中の文字を、文字選択部９により選択する選択操作が行われると、選択された歌詞の文字に対応する音楽音響信号（背景信号）の信号部分またはその直前の信号部分から音楽音響信号を再生する。本実施の形態では、歌詞中の文字のダブルクリックによって、その文字が始まる時刻の頭出しを行う。従来、時刻情報付きの歌詞を再生中にカラオケ表示のようにして楽しむ目的で利用することはあったが、歌声の録音に用いられた例はなかった。本実施の形態では、歌詞は音楽中の時刻を指定できる一覧性の高い有用な情報として利用する。実際の歌詞の時刻情報を無視して、本来は速い歌唱をゆっくり歌ったり、そのままでは歌うのが難しい場合に自分なりに歌ったりできる。歌詞をマウスドラッグで選択した後、再生録音ボタンｂ１を押すことで、選択された歌詞の時間範囲を歌っていると仮定して録音する。そこで文字選択部９による歌詞中の文字の選択では、図３の画面中の歌詞の文字に、例えばマウスポインタを位置決めした後、その文字の位置でマウスをダブルクリックしたり、画面中の文字を指でタッチする等の選択技術を用いる。図４（Ｄ）は、文字をポインタで指定して、マウスをダブルクリックするときの状況を示している。なお音楽音響信号の再生の頭出しは、図４（Ｃ）に示すように後述する再生バーｃ５をドラッグ＆ドロップすることによっても実施することができる。また特定の歌詞部分だけを再生する場合には、図４（Ｅ）のようにその歌詞部分をドラッグ＆ドロップしたのち、再生録音ボタンｂ１をクリックすればよい。なお音楽音響信号を再生して得られた背景音楽は、ヘッドフォン８を介してユーザの耳に提供される。

実際に歌唱を録音する状況を考えた場合、歌を短時間で可能な限り多く録音して、後でそれらを吟味した方が効率的である。例えば、スタジオを借りていて時間制限がある場合等である。そこで本実施の形態の録音モードでは、歌唱することに集中して効率的に録音するために、楽曲の再生と同時に常に録音状態にし、ユーザは図３に示すインタフェースを用いて必要最低限な操作のみを行う。そこで録音部１１は、音楽音響信号再生部７が音楽音響信号の再生を複数回行っている間、再生音楽を聞きながら歌い手が複数回歌唱する歌声を複数歌唱回分録音する。歌声は楽曲の再生と同時に常に録音されており、図３中の録音統合ウインドウＣにその録音区間を示す矩形図形ｃ１〜ｃ３が、画面右上の再生バーｃ５と同期して表示される。再生録音の時刻（再生開始時刻）は、再生バーｃ５の移動や前述の歌詞中の任意の文字のダブルクリックでも指定できる。さらに録音の際に、キー変更ボタンｂ２の操作により、背景音楽の音高を周波数軸上にシフトさせることで、キー（音楽の調）を変更できる。

図３（Ａ）及び（Ｂ）のインタフェースを用いたユーザによるアクションは、基本的には「再生・録音時刻の指定」と「キーの変更」である。このインタフェースでは、歌声を客観的に聴くために「録音歌唱の再生」もできる。歌唱は歌詞に沿った「音素付き」で歌うことを前提として処理を行う。例えば、ハミングや楽器音で音高入力をした場合には、後述する統合モードで修正する。

録音した歌唱を再生する場合には、図４（Ｆ）に示すように、矩形図形ｃ１〜ｃ３をクリックして、再生する歌唱回数部分［図４（Ｆ）ではｃ２］を指定した後、再生録音ボタンｂ１をクリックする。

本実施の形態では、推定分析データ保存部１３は、歌詞の読み仮名を用いて、歌詞と歌声の自動的な対応付けを行う。対応付けでは、再生された時刻付近の歌詞が歌われていると仮定し、特定の歌詞で自由に歌う機能を用いた場合は、選択された歌詞を仮定する。また、歌声を音高・音量・声色の三要素に分解する。推定分析データ保存部１３で推定する音素の時間的区間は、音素単位の開始時刻から終了時刻までの時間である。具体的には、一つの録音が終わる毎に、バックグラウンド処理によって音高・音量を推定する。ここで、統合モードで必要となる声色に関する全情報の推定には時間を要するため、歌詞の時刻を推定するために必要な情報のみを計算する。全ての録音が終わり、統合モードで情報が必要になる時点で、声色情報の推定を開始する。なお本実施の形態では、その旨をユーザに提示する。具体的に推定分析データ保存部１３は、録音部１１で録音した複数歌唱の音素を推定し、推定した複数の音素［図５（Ｃ）中の「ｄ」「ｏ」，「ｍ」，「ａ」，「ｒ」，「ｕ」参照］の時間的区間（time period）［図３（Ａ）及び（Ｂ）のＤ部に表示した区間Ｔ１、Ｔ２、Ｔ３・・等：図５（Ｃ）参照］と一緒に、歌声の音高（基本周波数Ｆ０）、音量（Ｐｏｗｅｒ）及び音色（Ｔｉｍｂｒｅ）を分析することにより得た音高データ、音量データ及び音色データを保存する。音素の時間的区間とは、一つの音素の開始時刻から終了時刻までの間の時間である。なお録音された歌声と歌詞音素との自動対応付けは、前述のVocaListener［中野倫靖，後藤真孝 VocaListener：ユーザ歌唱の音高および音量を真似る歌声合成システム情報処理学会論文誌，52(12):3853-3867, 2011.］と同様の条件で対応付けを行うことができる。具体的には、Viterbiアラインメントによって自動的に歌唱を推定し、音節境界に短い無音（short pause）が入ることを許容した文法を用いた。また音響モデルには、連続音声認識コンソーシアムで頒布されている２００２年度版の不特定話者monophone HMM［河原達也，住吉貴志，李晃伸，坂野秀樹，武田一哉，三村正人，伊藤克亘，伊藤彰則，鹿野清宏連続音声認識コンソーシアム２００２年度版ソフトウェアの概要情報処理学会研究報告音声言語情報処理2001-SLP-48-1, pp. 1-6, 2003］を歌声に適応させて使用した（歌声のみで学習したHMMも使用可能だが、話すように歌うことも考慮してこちらのHMMを用いた。）。音響モデル適応の際のパラメータ推定手法としては、MLLR（Maximum Likelihood Linear Regression）とMAP推定（Maximum A Posteriori Probability）を組み合わせたMLLR-MAP（V. Digalakis and L. Neumeyer. Speaker adaptation using combined transformation and Bayesian methods. IEEE Trans. Speech and Audio Processing, 4(4):294-300, 1996.）を用いた。特徴抽出とViterbiアラインメントでは１６kHz にリサンプリングした歌声を用い、MLLR-MAPによる適応はHTK Speech Recognition Toolkit［S. Young, G. Evermann, T. Hain, D. Kershaw, G. Moore, J. Odell, D. Ollason, D. Povey, V. Valtchev, and P. Woodland. The HTK Book. 2002.］で行った。

推定分析データ保存部１３は、歌声の音の三要素への分解・分析を次の技術を用いて行った。なお後述する統合における三要素の合成にも同様の技術を用いる。歌声の音高となる基本周波数（以下、Ｆ0と呼ぶ）の推定には、入力信号中で最も優勢な（パワーの大きい）高調波構造を求める手法［後藤真孝，伊藤克亘，速水悟自然発話中の有声休止箇所のリアルタイム検出システム電子情報通信学会論文誌D-II, J83-D-II(11):2330-2340, 2000.］で求めた値を初期値とした。１６kHzにリサンプリングした歌声を用い、１０２４点のハニング窓で歌声を分析した。さらに、その値に基づいて、元の歌声をＦ0適応させたガウス窓（分析長が３＝Ｆ0の長さ）でフーリエ変換した後、その１０倍音までの振幅スペクトルに、Ｆ0の整数倍の各倍音をそれぞれガウス分布の平均とするGMM（Gaussian Mixture Model）をEM（Expectation Maximization）アルゴリズムによってフィッティングさせて、Ｆ0推定の時間分解能と精度を向上させた。また音色（声質）の情報としてスペクトル包絡を推定するために、ソース・フィルタ分析を行った。本実施の形態では、Ｆ0適応多重フレーム統合分析法［中野倫靖，後藤真孝歌声・音声分析合成のためのＦ0適応多重フレーム統合分析に基づくスペクトル包絡と群遅延の推定法情報処理学会音楽情報科学研究会研究報告2012-MUS-96-7, pp. 1-9, 2012.］によってスペクトル包絡と群遅延を推定して、分析と合成を行った。

録音時に複数回歌われた箇所は、歌唱に納得がいかずに歌い直した可能性が高い。そこで統合モードにおける初期状態では、後に録音された歌声を選択する。ただし、全ての音が録音されているために、単純に一番最後の録音を選択しただけでは、無音で上書きさせる可能性がある。そこで、自動的に対応付けられている音素の時刻情報に基づいて、歌唱部分のみから録音の順番を判断する。しかし、自動対応付けで１００％の精度を得ることは現実的ではないため、誤りがあった場合にはユーザが修正する。そこで推定分析結果表示部１５は、推定分析データ保存部１３に保存された複数の音素の時間的区間と一緒に推定分析結果を反映した音高反映データｄ１、音量反映データｄ２及び音色反映データｄ３を表示画面６に表示する［図３（Ａ）及び（Ｂ）のＤ部の下の領域］。ここで音高反映データｄ１、音量反映データｄ２及び音色反映データｄ３とは、音高データ、音量データ及び音色データを表示画面６に表示できる態様で表した画像データである。特に、音色データは、一次元で表示することができないため、本実施の形態では、簡易的に音色データを一次元表示するために、各時刻におけるΔMFCCの和を音色反映データとして計算した。図３には、ある歌詞部分を３回歌唱して得た３回歌唱分の推定分析データがそれぞれ表示されている。

統合モードでは、分析結果ウインドウＤの表示範囲を図３（Ａ）及び（Ｂ）のＥ部の操作ボタンｅ１，ｅ２により拡大・縮小したり、図３のＥ部の操作ボタンｅ３，ｅ４により左右に動かしながら編集・統合を行う。そのためにデータ選択部１７は、表示画面６に表示された複数歌唱回分の歌声ごとの推定分析結果の中から、音素の時間的区間ごとに音高データ、音量データ及び音色データをユーザが選択することを可能にする。統合モードにおけるユーザによる編集操作は、「自動推定結果の誤り訂正」、「統合（要素の選択と編集）」であり、録音とその分析結果、変換した歌声を視聴しながら行う。まず、音高と音素時刻の推定には、誤りが発生する可能性があるため、その場合にはここで訂正する。また再度、録音モードに戻って歌声を追加することも可能である。誤りを訂正した後、音素単位で歌声要素を選択したり編集したりして統合する。

音高推定結果の音高の誤りには、マウスのドラッグ操作で音高の範囲を時間・音高（周波数）で指定して再推定する（中野倫靖，後藤真孝 VocaListener：ユーザ歌唱の音高および音量を真似る歌声合成システム情報処理学会論文誌，52(12):3853-3867, 2011）。音素の時刻の誤り訂正に関しては、録音モードでのインタラクションで既におおよその時刻と音素が与えられているために誤りが少ない。そこで現在の実装では、マウスによる微調整で誤りを訂正する。また、推定結果の音素が足りない場合や多すぎる場合には、マウス操作で追加・削除を行う。初期状態では後に録音された要素が選択されているが、それ以前の要素を選択することもできる。また、音素の長さを伸縮させたり、音高・音量をマウス操作で書き換えたりして編集できる。

具体的には、図５（Ａ）に示すように、データ選択部１７は、表示画面６に音高反映データｄ１、音量反映データｄ２及び音色反映データｄ３と一緒に表示した音素の時間的区間Ｔ１〜Ｔ１０の表示をカーソルでドラッグ＆ドロップすることにより選択を行う。図５（Ａ）の例では、２回目の歌唱区間を示す矩形図形ｃ２をポインタでクリックして、２回目の歌唱の推定分析データを表示画面６に表示している。そして音高反映データｄ１と一緒に表示した音素の時間的区間Ｔ１〜Ｔ７の表示をカーソルでドラッグ＆ドロップすることにより、この区間の音高を選択している。そして音量反映データｄ２と一緒に表示した音素の時間的区間Ｔ８〜Ｔ１０の表示をカーソルでドラッグ＆ドロップすることにより、この区間の音量を選択している。そして音色反映データｄ３と一緒に表示した音素の時間的区間Ｔ８〜Ｔ１０の表示をカーソルでドラッグ＆ドロップすることにより、この区間の音色を選択している。このようにして歌唱全体に対して、複数回歌唱した歌唱区間（例えばｃ１〜ｃ３）から音高反映データｄ１、音量反映データｄ２及び音色反映データｄ３に対応する音高データ、音量データ及び音色データを任意に選択する。選択したデータは、統合歌唱データ作成部２１で統合に利用される。例えば、１回目及び２回目は歌詞に沿って歌唱し、３回目はハミングだけでメロディだけを歌唱したとする。この場合、３回目のメロディがより精度が高いとすると、音高データに関しては、３回目の音高データを全区間に渡って選択し、音色及び音量については、第１回目及び第２回目の歌唱の推定分析データから適宜に選択をする。このようにすると、精度の高い音高で、自分の歌唱を部分的に置換するように歌唱データを統合することができ、例えば、一度歌った歌に音高だけをハミング等の歌詞なし歌唱で入力し直すことができる。なお本実施の形態では、データ選択部１７により選択した選択結果は、推定分析データ保存部１３に保存する。

なおデータ選択部１７は、音素の時間的区間ごとに最後に歌われた歌声の音高データ、音量データ及び音色データを自動的に選択する自動選択機能を有していてもよい。歌唱中に満足できない部分ある場合、満足できるまで満足できない部分を歌い直すであろうとの予測の下で、この自動選択機能は作成される。この機能を利用すれば、修正作業をせずに、満足できない部分を満足できる仕上がりになるまで繰り替えし歌い直すだけで、自動的に満足できる歌唱を生成することができる。

本実施の形態では、データ選択部１７で選択した音高及び音素の時間的区間の推定に誤りがあったときには、その誤りを訂正するデータ訂正部１８と、音高データ、音量データ及び音色データの少なくとも一つを音素の時間的区間に対応づけて変更するデータ編集部１９とを更に備えている。データ訂正部１８は、自動推定された音高もしくは音素の時間的区間のいずれかに誤りがあった場合に、その誤りを訂正するように構成されている。さらに、データ編集部１９は、例えば、音素の時間的区間の開始時刻及び終了時刻を変更して、音素の時間的区間の変更に対応づけて音高データ、音量データ及び音色データの時間的区間変更するように構成されている。このようにすると、音素の時間的区間の変更に応じてその音素における音高、音量及び音色の時間的区間を自動的に変更することができる。編集途中のデータを保存する場合には、図３の保存ボタンｅ６をクリックし、過去に編集していたデータを呼び出すには、図３の読込ボタンｅ５をクリックする。

図５（Ｂ）は、データ訂正部１８により音高の誤りを訂正する訂正作業を説明するために用いる図である。この例では、推定結果が音高を実際よりも高いものとして誤って推定した場合に、その音高が高い範囲をドラッグ＆ドロップにより指定する。その後、その領域の中に正解があるとして音高の再推定を行う。訂正の方法は、任意であり、この例に限定されるものではない。図５（Ｃ）は、音素時刻の誤りを訂正する訂正作業を説明するために用いる図である。この例では、時間的区間Ｔ２の時間長さを短縮し、Ｔ４の時間長さを延ばす誤り訂正が行われている。この誤り訂正は、時間的区間Ｔ３の開始時刻と終了時刻をポインタによる指定とドラッグ＆ドロップにより実施された。この時刻の誤り訂正の方法も任意である。

図６（Ａ）及び（Ｂ）は、データ編集部１９によるデータ編集の例を説明するために用いる図である。図６（Ａ）では、３回の歌唱中から２回目の歌唱を選択し、一部の音素「ｕ」の時間的区間を延ばしている。このように音素の時間的区間を変更によって伸ばすと、それに対応付いて音高データ、音量データ、音色データも同期して伸びる（表示画面上の音高反映データｄ１，音量反映データｄ２及び音色反映データｄ３の表示も伸びる）。また図６（Ｂ）の例では、マウスのドラッグ＆ドロップで音高及び音量データを変更している。このようにデータ編集部１９を設けることにより、変更操作によってうまく歌えない箇所はマウスで操作するカーソルを利用して音高に関する情報を編集したりすることができる。また時間的区間を縮めることにより、本来は速い歌唱をゆっくり歌った歌唱とすることができる。

本実施の形態の推定分析データ保存部１３は、声色の推定が音高に依存しているため、訂正された誤り情報に基づき、音高・音量・声色を再推定する。そして、統合歌唱データ作成部２１は、データ選択部１７を利用して選択された音高データ、音量データ及び音色データを音素の時間的区間ごとに統合して統合歌声データを作成する。そして歌声再生部２３は、図３のＥ部のボタンｅ７をクリックすることで、統合された全時刻の三要素の情報から歌声の波形（統合歌声データ）を合成する。そして統合した歌声を再生する場合には、図３のボタンｂ１’をクリックする。なおこのように統合して得られた人間の歌声に基づいて、その歌い方を真似るように、特定の歌声合成データベースの声質で合成したい場合には、VocaListener（商標）等の歌声合成技術を使用するとよい。

図７（Ａ）〜（Ｃ）は、データ選択部１７での選択と、データ編集部１９での編集と、統合歌唱データ作成部２１における操作を簡単に説明するための図である。図７（Ａ）においては、録音区間を示す矩形図形ｃ１〜ｃ３をそれぞれクリックして、音高、音量及び音色を選択している。なお音素については、アルファベットの小文字ａ〜ｌを便宜的に記載した。そして各音素に関して選択された音高データ、音量データ及び音色データについては、図に各データと一緒に並記する音素の時間的区間に対応するブロック表示に色を付した。図７（Ａ）の例では、音素「ａ」「ｂ」の区間においては、第１回目の歌唱の録音区間を示す矩形図形ｃ１における音高データが選択され、第３回目の歌唱の録音区間を示す矩形図形ｃ３における音量データ及び音色データが選択されている。その他の音素においても、図示のように選択がされている。音素「ｇ」、「ｈ」及び「ｉ」においては、音素「ｇ」及び「ｈ」において、第３回目の音色データが選択され、音素「ｉ」において第２回目の歌唱の録音区間を示す矩形図形ｃ２における音色データが選択されている。選択された音色データを見ると、データの長さの不整合（重ならない部分）がある。そこで本実施の形態では、第３回目の歌唱の音色データの終端を第２回目の歌唱の録音区間を示す矩形図形ｃ２の音色データの始端に合わせるように、音色データの伸縮を行う。音素「ｊ」、「ｋ」及び「ｌ」においては、音素「ｊ」において、第２回目の歌唱の録音区間を示す矩形図形ｃ２における音色データが選択され、音素「ｋ」及び「ｌ」において第３回目の歌唱の録音区間を示す矩形図形ｃ３における音色データが選択されている。選択された音色データを見ると、データの長さの不整合（重ならない部分）がある。そこで本実施の形態では、不整合している前者の音素の終端を、後者の音素の始端に合わせるように、音色データの伸縮を行う。具体的には、音素「ｇ」、「ｈ」及び「ｉ」においては、第３回目の歌唱の音色データの終端を第２回目の歌唱の音色データの始端に合わせるように、音素「ｊ」、「ｋ」及び「ｌ」においては、第２回目の歌唱の音色データの終端を第３回目の歌唱の音色データの始端に合わせるように、音色データの伸縮を行う。

音色データの伸縮を確定した後は、図７（Ｂ）に示すように、音色データの時間的区間に合わせるように、音高データまたは音量データの伸縮を行う。その結果、図７（Ｃ）に示すように、音高データ、音量データ及び音色データの時間的区間が一致したデータを統合して、再生用の歌声を含む音響信号を合成する。

推定分析結果表示部１５は、複数歌唱回分の歌声ごとの推定分析結果を歌唱の順番が判るように表示画面に表示する機能を有しているのが好ましい。このような機能があれば、表示画面を見ながら編集をする際に、何番目の歌唱が一番うまく歌えたという記憶に基づいて、データの編集をすることが簡単になる。

図２に示したアルゴリズムは、上記実施の形態をコンピュータを用いて実現する場合のコンピュータプログラムのアルゴリズムの一例である。そこでこのアルゴリズムを説明しながら、合わせて図３のインタフェースを用いた本発明のシステムの動作の例を図８〜図２３を用いて説明する。なお図９乃至図２４の例は歌詞が日本語の場合を前提にするが、本願明細書が英語に翻訳される場合を考慮して、図９乃至図２４には、「歌詞（Lyrics）」の位置に日本語歌詞とそのアルファベット表記を並記してある。

まず最初に、ステップＳＴ１で、歌詞を含む必要情報を情報画面に表示する（図８参照）。次にステップＳＴ２で歌詞の文字の選択を行う。図９の例では、歌詞中の「立（Ta）」の文字にポインタを合わせてダブルクリックをして、「立ち止まる時またふと振り返る（TaChiDoMaRuToKiMaTaFuRiKaERu）」までの音響信号（背景音楽）の再生を行い（ステップＳＴ３）、録音を行った（ステップＳＴ４）。ステップＳＴ５で録音停止が指示されると、ステップＳＴ６で録音した第１回目の歌声（歌唱）の音素の推定と、三要素（音高、音量及び音色）の分析と保存が実施される。図９の画面には、分析結果が表示されている。図８及び図９に示すように、このときのモードは録音モードである。

ステップＳＴ７で、再録音するか否かの判定がなされる。この例では、第１回目の歌唱とは別に第２回目の歌唱としてメロディだけを歌う（ハミングをする即ち「ラララ…（LaLaLa…）の音だけでメロディを歌う」こととした。そこで再度ステップＳＴ１へ戻って、第２回目の歌唱を実施した。図１０は、第２回目の歌唱の録音が終了して分析が終了した結果が示されている。分析結果のうち、第２回目の歌唱の分析結果の線を濃く表示し、第１回目の分析結果（アクティブでない分析結果）は薄い線で表示されている。

次に録音モードから統合モードに移行するものとする。図１１に示すようにモード変更ボタンａ１を「統合」に変更する。図２のアルゴリズムでは、ステップＳＴ７からステップＳＴ８へと進む。ステップＳＴ８では、統合（合成）に使用する音高データ、音量データ、音色データの選択をするか否かの判断が実施される。データ選択が無い場合には、ステップＳＴ９へと進んで最終録音のデータを自動選択する。ステップＳＴ９でデータの選択があることが判定されると、ステップＳＴ１０でデータの選択作業が実施される。データの選択は、図７（Ａ）に示すように行う。そして選択したデータについてステップＳＴ１２で選択した推定データの音高と音素の時間的区間の訂正を行うか否かの判定が実施される。訂正を行う場合には、ステップＳＴ１３へと進んで訂正作業が実施される。その具体例は、図５（Ｂ）及び（Ｃ）に示す通りである。全ての訂正が完了したことをステップＳＴ１４で判定すると、ステップＳＴ１５で、データの再推定が実施される。次に編集が必要か否かの判断をステップＳＴ１６で行い、編集が必要と判断されたときには、ステップＳＴ１７で編集作業を実施し、全ての編集が終了したか否かをステップＳＴ１８で判定する。編集が終了したときには、ステップＳＴ１９で統合が実施される。ステップＳＴ１６で、編集を実施しないことが判定されると、ステップＳＴ１９へと進む。図１１は、ステップＳＴ１３で第２回目の歌唱（ハミング）の音素時刻の誤りを訂正する場合の画面を示している。これは本例では、音色データとして第２回目の歌唱のデータを利用するためである。そして選択及び編集すべきデータを確認するためには、図１２に示すように、例えば第１回目の歌唱データの存在を示す矩形図形ｃ１をクリックすると、第１回目の歌唱データが表示される。

図１３には、第２回目の歌唱データの存在を示す矩形図形ｃ２をクリックしたときの画面を表示している。なお図１３では、ステップＳＴ９で第２回目の歌唱のデータ（音高、音量、音色）が全て選択されたときの画面を表示している。

図１４には、第１回目の歌唱を選択し、且つ音量データと音色データを全て選択したときの画面を示している。図１４に示すように、ポインタをドラッグすることにより、音量データと音色データを全て選択することができる。図１５は、図１４の選択操作の後に、第２回目の歌唱を選択すると、音量データと音色データの選択が不可能になっていることと、音高のみが選択可能であることが示されている。

図１６は、第２回目の歌唱の最後の歌詞の音素「ｕ」の終端の時刻を編集するときの画面を示している。図１７に示すように、矩形図形ｃ２をダブルクリックしてポインタをドラッグすると、音素「ｕ」の終端の時刻が延びる。そしてこれと連動して、音素「ｕ」に対応する音高データ、音量データ及び音色データも伸縮する。また図１８は、矩形図形ｃ２をダブルクリックして、音素「ａ」の付近の音に対応する音高反映データの部分を指定して編集をした後の状態を示している。これは、図１７の状態から、先頭部分のデータマウスのドラッグ＆ドロップによって音高を下げる編集（軌跡を描く）を行った結果である。また図１９は、矩形図形ｃ２をダブルクリックして、音素「ａ」の付近の音に対応する音量反映データの部分を指定して編集をした後の状態を示している。これは、図１８の状態から、先頭部分のデータマウスのドラッグ＆ドロップによって音量を下げる編集（軌跡を描く）を行った結果である。図２０は、特定の歌詞部分を自由に歌う場合には、歌詞の部分をドラッグして下線を付与し、再生録音ボタンｂ１をクリックすると、ドラッグにより特定した歌詞に対応する部分の背景音楽が再生される。

図２１は、第１回目の歌唱を再生する場合の画面の状態を示している。このときには第１回目の歌唱区間を示す矩形図形ｃ１をクリックし、再生録音ボタンｂ１をクリックすると、背景音楽と一緒に第１回目の歌唱が再生される。また、再生ボタンｂ１´をクリックした場合には、収録歌唱が単独で再生される。

図２２は、第２回目の歌唱を再生する場合の画面の状態を示している。このときには第２回目の歌唱区間を示す矩形図形ｃ２を示す画像をクリックし、再生録音ボタンｂ１をクリックすると、背景音楽と一緒に第１回目の歌唱が再生される。また、再生ボタンｂ１´をクリックした場合には、収録歌唱が単独で再生される。

図２３は、合成歌唱を再生する場合の画面の状態を示している。背景音楽と一緒に合成歌唱を再生する場合には、矩形図形ｃ１及びｃ２が表示されている画面の背景をクリックした後、再生録音ボタンｂ１をクリックする。また、再生ボタンｂ１´をクリックした場合には合成録歌唱が単独で再生される。なおインタフェースの活用の仕方は、本実施の形態で限定されるものではなく、任意である。

図２４は、図３のＥ部の操作ボタンｅ１を操作してデータを拡大した状態を示している。図２５は図３のＥ部の操作ボタンｅ２を操作してデータを縮小した状態を示している。図２６は、図３のＥ部の操作ボタンｅ３を操作してデータを左に移動した状態を示している。図２７は図３のＥ部の操作ボタンｅ４を操作してデータを右に移動した状態を示している。

本実施の形態においては、音楽音響信号再生部７が、表示画面６に表示された歌詞中の文字を選択する選択操作が行われると、選択された歌詞の文字に対応する音楽音響信号の信号部分またはその直前の信号部分から音楽音響信号を再生するため、音楽音響信号の再生したい場所を正確に指定して、歌声の再録音を簡単に実施することができる。特に、選択された歌詞の文字に対応する音楽音響信号の信号部分の直前の信号部分から音楽音響信号を再生すると、再度歌い直す位置よりも前の音楽を聴きながら再歌唱することがでるので、再録音を実施しやすいという利点がある。そして表示画面６に表示された複数歌唱回分の歌声ごとの推定分析結果（音高反映データ、音量反映データ及び音色反映データ）を見ながら、音素の時間的区間ごとに所望の音高データ、音量データ及び音色データを特別な技術を必要とすることなく選択して、選択した音高データ、音量データ及び音色データを音素の時間的区間ごとに統合することにより簡単に統合歌声データを作成することができる。したがって本実施の形態によれば、複数の歌声から優れた一つに代表させて置換するのではなく、複数の歌声を音の三要素である音高・音量・音色に分解し、その要素単位で置換することができる。その結果、歌手が何度も歌ったり気に入らない箇所だけを歌い直し、それらを統合して一つの歌声を生成するインタラクティブシステムを提供できる。

なお再生バーや歌詞による頭出しに加えて、Songle（後藤真孝，吉井和佳，藤原弘将，M. Mauch，中野倫靖 Songle：ユーザが誤り訂正により貢献可能な能動的音楽鑑賞サービス情報処理学会インタラクション2012 論文集, pp. 1-8, 2012）のような楽曲構造の可視化を伴って録音できたり、背景音楽のキーに応じて、自動的に音高を補正したりといった機能を加えても良いのは勿論である。

本発明によれば、歌唱を効率的に録音し、音の三要素に分解してそれをインタラクティブに統合することができる。録音では、歌声と音素の自動アラインメントにより、その統合が効率化できる。また発明によれば、歌唱力、歌声合成パラメータ調整や歌声編集といった従来の歌声生成のスキルに加えて、インタラクションによる新しい歌声生成スキルが切り拓かれる可能性がある。また「歌声の作り方」のイメージが変わり、分解した状態で要素を選択・編集できることを前提に歌作りするようになる可能性もある。そのため、例えば、歌唱として完璧には歌えない人でも、要素に分解することで、全体的な完璧さを求める場合より敷居が低くなる利点が得られる。

１歌声合成システム
３データ保存部
５表示部
６表示画面
７音楽音響信号再生部
８ヘッドフォン
９文字選択部
１１録音部
１３推定分析データ保存部
１５推定分析結果表示部
１７データ選択部
１８データ訂正部
１９データ編集部
２１統合歌唱データ作成部
２３歌声再生部

Claims

音楽音響信号及び前記音楽音響信号と時間的に対応付けられた歌詞を含む歌詞データが保存されたデータ保存部と、
前記歌詞データに基づいて歌詞の少なくとも一部を表示する表示画面を備えた表示部と、
前記表示画面に表示された前記歌詞中の文字を選択する選択操作が行われると、選択された前記歌詞の文字に対応する前記音楽音響信号の信号部分またはその直前の信号部分から前記音楽音響信号を再生する音楽音響信号再生部と、
前記音楽音響信号再生部が前記音楽音響信号の再生を複数回行っている間、再生された音楽を聴きながら歌い手が歌唱する歌声を複数歌唱回分録音する録音部と、
前記録音部で録音した複数歌唱回分の前記歌声ごとに前記歌声から音素単位で複数の音素の時間的区間を推定し、推定した前記複数の音素の時間的区間と一緒に、前記歌声の音高、音量及び音色を分析することにより得た音高データ、音量データ及び音色データを保存する推定分析データ保存部と、
前記推定分析データ保存部に保存された前記複数の音素の時間的区間と一緒に推定分析結果を反映した音高反映データ、音量反映データ及び音色反映データを前記表示画面に表示する推定分析結果表示部と、
前記表示画面に表示された前記複数歌唱回分の歌声ごとの推定分析結果の中から、前記音素の時間的区間ごとに前記音高データ、前記音量データ及び前記音色データをユーザが選択することを可能にするデータ選択部と、
前記データ選択部を利用して選択された前記音高データ、前記音量データ及び前記音色データを前記音素の時間的区間ごとに統合して統合歌声データを作成する統合歌唱データ作成部と、
前記統合歌声データを再生する歌声再生部とからなる歌声合成システム。
前記音楽音響信号は伴奏音を含む音楽音響信号、ガイド歌声と伴奏音を含む音楽音響信号、またはガイドメロディと伴奏音を含む音楽音響信号である請求項１に記載の歌声合成システム。
前記伴奏音、前記ガイド歌声及び前記ガイドメロディが、ＭＩＤＩファイルに基づいて作成された合成音である請求項２に記載の歌声合成システム。
前記データ選択部で選択した前記音高データ、前記音量データ及び前記音色データの少なくともひとつを前記音素の時間的区間に対応づけて変更するデータ編集部を更に備え、
前記データ編集部によるデータの変更が実施されると、前記推定分析データ保存部はその結果を再保存する請求項１に記載の歌声合成システム。
前記データ選択部は、前記音素の時間的区間ごとに最後に歌われた歌声の前記音高データ、前記音量データ及び前記音色データを自動的に選択する自動選択機能を有している請求項１に記載の歌声合成システム。
前記推定分析データ保存部で推定する前記音素の時間的区間は、前記音素単位の開始時刻から終了時刻までの時間であり、
前記データ編集部は、前記音素の時間的区間の前記開始時刻及び終了時刻を変更すると、前記音素の時間的区間の変更に対応づけて前記音高データ、前記音量データ及び前記音色データの時間的区間を変更することを特徴とする請求項４に記載の歌声合成システム。
前記データ選択部で選択した前記音高及び前記音素の時間的区間に推定の誤りがあった場合に、誤りを訂正するデータ訂正部を更に備え、
前記データ訂正部によるデータの訂正が実施されると、前記推定分析データ保存部は再度推定を行って、その結果を再保存する請求項１または４に記載の歌声合成システム。
前記推定分析結果表示部は、前記複数歌唱回分の歌声ごとの前記推定分析結果を歌唱の順番が判るように前記表示画面に表示する機能を有している請求項１に記載の歌声合成システム。
同じ歌の一部または全部を同じ歌い手が、複数回歌唱したときの歌声を録音する録音部と、
前記録音部で録音した複数歌唱回分の前記歌声ごとに前記歌声から音素単位で複数の音素の時間的区間を推定し、推定した前記複数の音素の時間的区間と一緒に、前記歌声の音高、音量及び音色を分析することにより得た音高データ、音量データ及び音色データを保存する推定分析データ保存部と、
前記推定分析データ保存部に保存された前記複数の音素の時間的区間と一緒に推定分析結果を反映した音高反映データ、音量反映データ及び音色反映データを表示画面に表示する推定分析結果表示部と、
前記表示画面に表示された前記複数歌唱回分の歌声ごとの推定分析結果の中から、前記音素の時間的区間ごとに前記音高データ、前記音量データ及び前記音色データをユーザが選択することを可能にするデータ選択部と、
前記データ選択部を利用して選択された前記音高データ、前記音量データ及び前記音色データを前記音素の時間的区間ごとに統合して統合歌声データを作成する統合歌唱データ作成部と、
前記統合歌声データを再生する歌声再生部とからなる歌声合成システム。
音楽音響信号及び前記音楽音響信号と時間的に対応付けられた歌詞を含む歌詞データをデータ保存部に保存するデータ保存ステップと、
前記歌詞データに基づいて前記歌詞の少なくとも一部を表示部の表示画面に表示する表示ステップと、
前記表示画面に表示された前記歌詞中の文字を選択する選択操作が行われると、選択された前記歌詞の文字に対応する前記音楽音響信号の信号部分またはその直前の信号部分から前記音楽音響信号を音楽音響信号再生部で再生する再生ステップと、
前記音楽音響信号再生部が前記音楽音響信号の再生を複数回行っている間、再生された音楽を聴きながら歌い手が歌唱する歌声を複数歌唱回分録音部で録音する録音ステップと、
前記録音部で録音した複数歌唱回分の前記歌声ごとに前記歌声から音素単位で複数の音素の時間的区間を推定し、推定した前記複数の音素の時間的区間と一緒に、前記歌声の音高、音量及び音色を分析することにより得た音高データ、音量データ及び音色データを推定分析データ保存部に保存する推定分析保存ステップと、
前記推定分析データ保存部に保存された前記複数の音素の時間的区間と一緒に推定分析結果を反映した音高反映データ、音量反映データ及び音色反映データを前記表示画面に表示する推定分析結果表示ステップと、
前記表示画面に表示された前記複数歌唱回分の歌声ごとの推定分析結果の中から、前記音素の時間的区間ごとに前記音高データ、前記音量データ及び前記音色データをデータ選択部を用いてユーザが選択するデータ選択ステップと、
前記データ選択部を利用して選択された前記音高データ、前記音量データ及び前記音色データを前記音素の時間的区間ごとに統合して統合歌声データを作成する統合歌唱データ作成ステップと、
前記統合歌声データを再生する歌声再生ステップとからなる歌声合成方法。
前記音楽音響信号は伴奏音を含む音楽音響信号、ガイド歌声と伴奏音を含む音楽音響信号、またはガイドメロディと伴奏音を含む音楽音響信号である請求項１０に記載の歌声合成方法。
前記伴奏音、前記ガイド歌声及び前記ガイドメロディが、ＭＩＤＩファイルに基づいて作成された合成音である請求項１１に記載の歌声合成方法。
前記データ選択ステップで選択した前記音高データ、前記音量データ及び前記音色データの少なくともひとつを前記音素の時間的区間に対応づけて変更するデータ編集ステップを更に備えている請求項１０に記載の歌声合成方法。
前記データ選択ステップでは、前記音素の時間的区間ごとに最後に歌われた歌声の前記音高データ、前記音量データ及び前記音色データを自動的に選択する自動選択ステップを有している請求項１２に記載の歌声合成方法。
前記推定分析保存ステップで推定する前記音素の時間的区間は、前記音素単位の開始時刻から終了時刻までの時間であり、
前記データ編集ステップでは、前記音素の時間的区間の前記開始時刻及び終了時刻を変更すると、前記音素の時間的区間の変更に対応づけて前記音高データ、前記音量データ及び前記音色データの時間的区間を変更することを特徴とする請求項１３に記載の歌声合成方法。
前記データ選択ステップで選択した前記音高及び前記音素の時間的区間の推定に誤りがあったときにその誤りを訂正するデータ訂正ステップを更に備え、
前記データ訂正ステップでデータの訂正が実施されると、前記推定分析保存ステップで再度推定を行って、その結果を前記推定分析データ保存部に再保存する請求項１０または１３に記載の歌声合成方法。
前記推定分析結果表示ステップでは、前記複数歌唱回分の歌声ごとの前記推定分析結果を歌唱の順番が判るように前記表示画面に表示する請求項１０に記載の歌声合成方法。
前記請求項１０乃至１７のいずれか１項に記載のステップをコンピュータで実現するためのコンピュータ読み取り可能なコンピュータプログラムを記憶した非一時的な記憶媒体。
同じ歌の一部または全部を同じ歌い手が、複数回歌唱したときの歌声を録音するステップと、
前記録音ステップで録音した複数歌唱回分の前記歌声ごとに前記歌声から音素単位で複数の音素の時間的区間を推定し、推定した前記複数の音素の時間的区間と一緒に、前記歌声の音高、音量及び音色を分析することにより得た音高データ、音量データ及び音色データを推定分析データ保存部に保存する推定分析保存ステップと、
前記推定分析データ保存部に保存された前記複数の音素の時間的区間と一緒に推定分析結果を反映した音高反映データ、音量反映データ及び音色反映データを表示画面に表示する推定分析結果表示ステップと、
前記表示画面に表示された前記複数歌唱回分の歌声ごとの推定分析結果の中から、前記音素の時間的区間ごとに前記音高データ、前記音量データ及び前記音色データをデータ選択部によりユーザが選択することを可能にするデータ選択ステップと、
前記データ選択ステップで選択された前記音高データ、前記音量データ及び前記音色データを前記音素の時間的区間ごとに統合して統合歌声データを作成する統合歌唱データ作成ステップと、
前記統合歌声データを再生する歌声再生ステップとからなる歌声合成方法。