JP2016071187A

JP2016071187A - 音声合成装置、及び音声合成システム

Info

Publication number: JP2016071187A
Application number: JP2014201116A
Authority: JP
Inventors: 成田　健; Takeshi Narita; 健成田
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2014-09-30
Filing date: 2014-09-30
Publication date: 2016-05-09
Anticipated expiration: 2034-09-30
Also published as: JP6252420B2

Abstract

【課題】利用者の声質に類似し、その利用者の歌い方の特徴を真似した歌声を合成する技術の提供。
【解決手段】カラオケ装置が実行する音声合成処理では、歌唱音声データを取得し（Ｓ５２０）、その取得した歌唱音声データに基づいて、入力声質、及び入力歌回を導出する（Ｓ５３０，Ｓ５４０）。そして、記憶装置に記憶された声質歌回データの中で、入力声質及び入力歌回との類似度が基準値以上である声質特徴量及び歌回特徴量を含む声質歌回データに含まれる歌唱者識別情報を特定する（Ｓ５５０）。さらに、記憶装置に記憶された音源データの中から、Ｓ５５０にて特定した歌唱者識別情報を含む音源データを取得し、その取得した音源データに含まれる音源音声データとＳ５１０で取得した歌唱音声データとに従って、指定楽曲を歌唱した歌唱音声を音声合成にて生成して出力する（Ｓ５８０，Ｓ５９０）。
【選択図】図５

Description

本発明は、合成音声を生成する技術に関する。

従来、予め用意された音声データに基づいて音声合成を実行する音声合成機能を有した携帯端末が知られている（特許文献１参照）。この特許文献１に記載された携帯端末では、受け取った音声信号に応じて、特定の人物の声に似た音声となるように音声合成を行っている。

特開２０１０−１６６３２４号公報

ところで、カラオケ装置においては、指定された楽曲の歌唱旋律を適切に歌唱した模範ボーカルを音声合成で生成して出力することが求められている。この模範ボーカルは、カラオケ装置の利用者の声質に類似した音声にて、その利用者の歌い方の特徴を再現したものであることが好ましい。

歌い方の特徴は歌唱に特有の特徴であるため、会話において表出されることは少ない。このため、通常の会話について音声の合成を行う特許文献１に記載された技術を模範ボーカルの生成に用いても、利用者の声質に類似し、かつ、その利用者の歌い方の特徴を真似した模範ボーカルを生成することが困難であるという課題があった。

つまり、従来の技術では、歌声について、利用者の声質に類似し、かつ、その利用者の歌い方の特徴を真似する音声合成は困難であるという課題があった。
そこで、本発明は、利用者の声質に類似し、その利用者の歌い方の特徴を真似した歌声を合成する技術の提供を目的とする。

上記目的を達成するためになされた本発明は、音声データ取得手段と、分析手段と、検索手段と、合成手段とを備えた音声合成装置に関する。
本発明における音声データ取得手段は、音高と音価との組み合わせからなる複数の音符のうちの少なくとも一部に歌詞が割り当てられた楽曲を歌唱した歌唱音声データを取得する。分析手段は、その音声データ取得手段で取得した歌唱音声データの声質の特徴量を表す入力声質、及び歌唱音声データの振幅及び基本周波数の少なくともいずれか一方の楽曲を構成する音符の区間内での推移（歌い回し、以下、歌回と称す）を表す入力歌回を導出する。

そして、検索手段は、第１記憶装置に記憶された声質の情報と歌回の情報とを示す声質歌回データの中で、分析手段で導出した入力声質及び入力歌回との類似度が、予め規定された基準値以上であることを含む規定条件を満たす声質特徴量及び歌回特徴量を含む声質歌回データに含まれる歌唱者識別情報を特定する。第１記憶装置に記憶されている声質歌回データとは、音源音声データにおける声質の特徴量である声質特徴量と、音源音声データの振幅及び基本周波数の少なくともいずれか一方の当該音源音声データでの音符に対応する音符対応区間内での推移を表す歌回特徴量と、発声した人を識別する歌唱者識別情報とを対応付けたデータである。また、ここで言う音源音声データとは、音高と音価との組み合わせからなる複数の音符のうちの少なくとも一部に割り当てられた歌詞を発声した音声波形を表し発声した人が互いに異なるデータである。

また、本発明における合成手段は、第２記憶装置に記憶された音源データの中から、検索手段で特定した歌唱者識別情報である特定識別情報を含む音源データを取得し、その取得した音源データに含まれる音源音声データと音声データ取得手段で取得した歌唱音声データとに従って、指定された楽曲である指定楽曲を歌唱した歌唱音声を音声合成にて生成して出力する。なお、第２記憶装置に記憶されている音源データとは、音源音声データが歌唱者識別情報ごとに対応付けられたデータである。

歌唱音声データは、楽曲における一部の区間を歌唱した音声であり、その歌唱音声データだけでは、音声合成を実行するために必要となる音源のデータ量としては不十分である。

そこで、本発明の音声合成装置においては、歌唱音声データを分析し、その歌唱音声データを生成するための歌唱を実施した人物（即ち、利用者）の声質や歌い方の特徴を特定する。そして、その特定した利用者の声質や歌い方の特徴に類似し、当該利用者とは異なる他の人物の音声から生成した音源データを特定し、その特定した音源データを、歌唱音声を生成する音声合成の音源の少なくとも一部として利用する。

このような本発明の音声合成装置によれば、利用者自身の声と、その利用者の声に特徴が類似する他の人物の声を利用して、指定された楽曲を歌唱した歌唱音声を音声合成することができる。

この結果、本発明の音声合成装置によれば、利用者の声質に類似し、その利用者の歌い方の特徴を真似した歌声を音声合成することができる。
本発明は、音声データ取得手段と、分析手段と、検索手段と、合成手段とを備えた音声合成システムとしてなされていても良い。

このような音声合成システムによれば、請求項１に係る音声合成装置と同様の効果を得ることができる。
さらに、本発明における検索手段は、類似度が最も高いものから予め規定された規定数までであることを、規定条件を満たすこととして、特定識別情報を特定しても良い。

このような音声合成システムによれば、声質及び歌い方の特徴の類似度が高い他の人物を規定数特定できる。
本発明においては、指定楽曲を構成しかつ歌詞が割り当てられている音符の中で、音声データ取得手段で取得した歌唱音声データによって歌唱された音符を歌唱音符とし、指定楽曲を構成しかつ歌詞が割り当てられている音符の中で、歌唱音符以外の音符を非歌唱音符としても良い。

そして、本発明における合成手段は、音声データ取得手段で取得した歌唱音声データに基づいて音声合成することで、歌唱音符に割り当てられた歌詞の歌唱音声を生成し、検索手段で特定し、かつ、特定識別情報と対応付けられた音源音声データに基づいて音声合成することで、非歌唱音符に割り当てられた歌詞の歌唱音声を生成しても良い。

このような音声合成システムによれば、音声合成に必要となる音源を、指定楽曲を構成しかつ歌詞が割り当てられている音符ごとに特定でき、その特定した音符ごとの音源を用いて音声合成できる。この結果、本発明の音声合成システムによれば、利用者の声質に類似し、その利用者の歌い方の特徴をより正確に真似した歌声を音声合成にて生成することができる。

なお、本発明の音声合成システムにおいては、取得手段と、抽出手段と、特定手段と、第１導出手段と、第２導出手段と、生成手段と、記憶制御手段とを備えていても良い。
取得手段は、ボーカル音を含む楽曲の演奏音の音声波形と、そのボーカル音の発声者を表す識別情報を歌唱者識別情報として少なくとも含む楽曲データを取得する。また、抽出手段は、取得手段により取得された楽曲データに含まれるボーカル音を音源音声データとして抽出する。

さらに、特定手段は、抽出手段で抽出した音源音声データのうち、音符対応区間それぞれに対応する音源音声データの区間である音符ボーカルを特定する。そして、第１導出手段は、特定手段にて特定した音符ボーカルの振幅及び基本周波数の少なくともいずれか一方の音符対応区間内での推移を歌回特徴量として導出する。また、第２導出手段は、特定手段にて特定した音符ボーカルごとに、各音符ボーカルにおける声質の特徴量を導出し、声質の特徴量の代表値を声質特徴量として導出する。

生成手段は、第１導出手段で導出された歌回特徴量と、第２導出手段で導出された声質特徴量と、歌唱者識別情報とを対応付けることで声質歌回データを生成する。記憶制御手段は、生成手段で生成された声質歌回データを第１記憶装置に記憶する。

このような音声合成システムによれば、声質歌回データを生成して第１記憶装置に記憶することができる。

本発明が適用された音声合成システムとしてのカラオケシステムの概略構成を示すブロック図である。音源データ生成処理の処理手順を示すフローチャートである。歌回特徴量の概要を説明する説明図であり、（Ａ）は歌唱振幅ベクトルの概要を、（Ｂ）は歌唱音高ベクトルの概要を説明する図である。声質歌回データの概要を示す図である。音声合成処理の処理手順を示すフローチャートである。

以下に本発明の実施形態を図面と共に説明する。
＜音声合成システム＞
図１に示す音声合成システム１は、ユーザが指定した楽曲（以下、指定楽曲と称す）を歌唱した合成音声を、ユーザに類似する声にて生成して出力するシステムである。

これを実現するために、音声合成システム１は、情報処理装置２と、情報処理サーバ１０と、カラオケ装置３０とを備えている。
情報処理装置２は、人が発声した音声を含む音声波形データＷＤ及びその発声した内容を表すＭＩＤＩ楽曲ＭＤに基づいて、合成音声の生成（即ち、音声合成）に必要な音源データＳＤを生成する。

情報処理サーバ１０には、少なくとも、情報処理装置２にて生成された音源データＳＤ及びＭＩＤＩ楽曲ＭＤが記憶されている。
カラオケ装置３０は、情報処理サーバ１０に記憶されたＭＩＤＩ楽曲ＭＤを演奏すると共に、そのＭＩＤＩ楽曲ＭＤに対応する楽曲を歌唱した合成音声を、音源データＳＤに従って生成して出力する。なお、音声合成システム１は、複数のカラオケ装置３０を備えている。
＜音声波形データ＞
音声波形データＷＤは、楽曲を演奏した演奏音を表す音声データであり、当該楽曲に関する情報が記述された楽曲管理情報と対応付けられている。楽曲管理情報には、楽曲を識別する楽曲識別情報（以下、楽曲ＩＤと称す）が含まれる。

本実施形態の音声波形データＷＤには、演奏音として、少なくとも１つの楽器を演奏した伴奏音と、少なくとも人が歌唱した歌唱音とを含む。なお、音声波形データＷＤは、その音声波形データＷＤごとに、歌唱した人物または楽曲（歌詞）が異なっている。

この音声波形データＷＤは、非圧縮音声ファイルフォーマットの音声ファイルによって構成されたデータであっても良いし、音声圧縮フォーマットの音声ファイルによって構成されたデータであっても良い。この音声波形データＷＤは、ユーザが楽曲を歌唱した際に音声を録音することで生成されても良いし、その他の方法で生成されても良い。

本実施形態における音声波形データＷＤは、特許請求の範囲に記載された音源音声データの一例である。
＜ＭＩＤＩ楽曲＞
ＭＩＤＩ楽曲ＭＤは、楽曲ごとに予め用意されたものであり、楽曲データと、歌詞データとを有している。

このうち、楽曲データは、周知のＭＩＤＩ（ＭｕｓｉｃａｌＩｎｓｔｒｕｍｅｎｔＤｉｇｉｔａｌＩｎｔｅｒｆａｃｅ）規格によって、一つの楽曲の楽譜を表したデータである。この楽曲データは、楽曲ＩＤと、当該楽曲にて用いられる楽器ごとの楽譜を表す楽譜トラックとを少なくとも有している。

そして、楽譜トラックには、ＭＩＤＩ音源から出力される個々の演奏音について、少なくとも、音高（いわゆるノートナンバー）と、ＭＩＤＩ音源が演奏音を出力する期間（以下、音符長と称す）とが規定されている。楽譜トラックにおける音符長は、当該演奏音の出力を開始するまでの当該楽曲の演奏開始からの時間を表す演奏開始タイミング（いわゆるノートオンタイミング）と、当該演奏音の出力を終了するまでの当該楽曲の演奏開始からの時間を表す演奏終了タイミング（いわゆるノートオフタイミング）とによって規定されている。

すなわち、楽譜トラックでは、ノートナンバーと、ノートオンタイミング及びノートオフタイミングによって表される音符長とによって、１つの音符ＮＯが規定される。そして、楽譜トラックは、音符ＮＯが演奏順に配置されることによって、１つの楽譜として機能する。なお、楽譜トラックは、例えば、鍵盤楽器、弦楽器、打楽器、及び管楽器などの楽器ごとに用意されている。このうち、本実施形態では、特定の楽器（例えば、ヴィブラフォン）が、楽曲における歌唱旋律を担当する楽器として規定されている。

一方、歌詞データは、楽曲の歌詞に関するデータであり、歌詞テロップデータと、歌詞出力データとを備えている。歌詞テロップデータは、楽曲の歌詞を構成する文字（以下、歌詞構成文字とする）を表す。歌詞出力データは、歌詞構成文字の出力タイミングである歌詞出力タイミングを、楽曲データの演奏と対応付けるタイミング対応関係が規定されたデータである。

具体的に、本実施形態におけるタイミング対応関係では、楽曲データの演奏を開始するタイミングに、歌詞テロップデータの出力を開始するタイミングが対応付けられている。さらに、タイミング対応関係では、楽曲の時間軸に沿った各歌詞構成文字の歌詞出力タイミングが、楽曲データの演奏開始からの経過時間によって規定されている。これにより、楽譜トラックに規定された個々の演奏音（即ち、音符ＮＯ）と、歌詞構成文字それぞれとが対応付けられる。
＜情報処理装置＞
情報処理装置２は、入力受付部３と、外部出力部４と、記憶部５と、制御部６とを備えた周知の情報処理装置（例えば、パーソナルコンピュータ）である。

入力受付部３は、外部からの情報や指令の入力を受け付ける入力機器である。ここでの入力機器とは、例えば、キーやスイッチ、可搬型の記憶媒体（例えば、ＣＤやＤＶＤ、フラッシュメモリ）に記憶されたデータを読み取る読取ドライブ、通信網を介して情報を取得する通信ポートなどである。外部出力部４は、外部に情報を出力する出力装置である。ここでの出力装置とは、可搬型の記憶媒体にデータを書き込む書込ドライブや、通信網に情報を出力する通信ポートなどである。

記憶部５は、記憶内容を読み書き可能に構成された周知の記憶装置である。記憶部５には、少なくとも２以上の音声波形データＷＤが、その音声波形データＷＤでの発声内容を表すＭＩＤＩ楽曲ＭＤと対応付けて記憶されている。なお、図１中における符号「ｌ」は、音声波形データＷＤを識別する識別子であり、ユーザごとかつ当該ユーザが歌唱した楽曲ごとに割り当てられている。この符号「ｌ」は、２以上の自然数である。また、図１における符号「ｏ」は、ＭＩＤＩ楽曲ＭＤを識別する識別子であり、楽曲ごとに割り当てられている。この符号「ｏ」は、２以上の自然数である。

制御部６は、ＲＯＭ７，ＲＡＭ８，ＣＰＵ９を備えた周知のマイクロコンピュータを中心に構成された周知の制御装置である。ＲＯＭ７は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを記憶する。ＲＡＭ８は、処理プログラムやデータを一時的に記憶する。ＣＰＵ９は、ＲＯＭ７やＲＡＭ８に記憶された処理プログラムに従って各処理を実行する。

本実施形態のＲＯＭ７には、記憶部５に記憶されている音声波形データＷＤ及びＭＩＤＩ楽曲ＭＤに基づいて音源データＳＤを生成する音源データ生成処理を、制御部６が実行するための処理プログラムが記憶されている。
＜情報処理サーバ＞
情報処理サーバ１０は、通信部１２と、記憶部１４と、制御部１６とを備えている。

このうち、通信部１２は、通信網を介して、情報処理サーバ１０が外部との間で通信を行う。すなわち、情報処理サーバ１０は、通信網を介してカラオケ装置３０と接続されている。なお、ここで言う通信網は、有線による通信網であっても良いし、無線による通信網であっても良い。

記憶部１４は、記憶内容を読み書き可能に構成された周知の記憶装置である。この記憶部１４には、少なくとも、複数のＭＩＤＩ楽曲ＭＤが記憶される。なお、図１に示す符号「ｎ」は、情報処理サーバ１０の記憶部１４に記憶されているＭＩＤＩ楽曲ＭＤを識別する識別子であり、楽曲ごとに割り当てられている。この符号「ｎ」は、１以上の自然数である。さらに、記憶部１４には、情報処理装置２が音源データ生成処理を実行することで生成された音源データＳＤが記憶される。なお、図１に示す符号「ｍ」は、情報処理サーバ１０の記憶部１４に記憶されている音源データＳＤを識別する識別子であり、詳しくは後述するグループごとに割り当てられている。この符号「ｍ」は、２以上の自然数である。

制御部１６は、ＲＯＭ１８，ＲＡＭ２０，ＣＰＵ２２を備えた周知のマイクロコンピュータを中心に構成された周知の制御装置である。ＲＯＭ１８は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを記憶する。ＲＡＭ２０は、処理プログラムやデータを一時的に記憶する。ＣＰＵ２２は、ＲＯＭ１８やＲＡＭ２０に記憶された処理プログラムに従って各処理を実行する。
＜カラオケ装置＞
カラオケ装置３０は、通信部３２と、入力受付部３４と、楽曲再生部３６と、記憶部３８と、音声制御部４０と、映像制御部４６と、制御部５０とを備えている。

通信部３２は、通信網を介して、カラオケ装置３０が外部との間で通信を行う。入力受付部３４は、外部からの操作に従って情報や指令の入力を受け付ける入力機器である。ここでの入力機器とは、例えば、キーやスイッチ、リモコンの受付部などである。

楽曲再生部３６は、情報処理サーバ１０からダウンロードしたＭＩＤＩ楽曲ＭＤに基づく楽曲の演奏を実行する。この楽曲再生部３６は、例えば、ＭＩＤＩ音源である。音声制御部４０は、音声の入出力を制御するデバイスであり、出力部４２と、マイク入力部４４とを備えている。

マイク入力部４４には、マイク６２が接続される。これにより、マイク入力部４４は、マイク６２を介して入力された音声を取得する。出力部４２にはスピーカ６０が接続されている。出力部４２は、楽曲再生部３６によって再生される楽曲の音源信号、マイク入力部４４からの歌唱音の音源信号をスピーカ６０に出力する。スピーカ６０は、出力部４２から出力される音源信号を音に換えて出力する。

映像制御部４６は、制御部５０から送られてくる映像データに基づく映像または画像の出力を行う。映像制御部４６には、映像または画像を表示する表示部６４が接続されている。

制御部５０は、ＲＯＭ５２，ＲＡＭ５４，ＣＰＵ５６を少なくとも有した周知のコンピュータを中心に構成されている。ＲＯＭ５２は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを記憶する。ＲＡＭ５４は、処理プログラムやデータを一時的に記憶する。ＣＰＵ５６は、ＲＯＭ５２やＲＡＭ５４に記憶された処理プログラムに従って各処理を実行する。

本実施形態のＲＯＭ５２には、音声合成処理を制御部５０が実行するための処理プログラムが記憶されている。音声合成処理は、ユーザの声及びそのユーザの声に声質が類似する音声で、ユーザによって指定された楽曲を歌唱した合成音声を生成して出力する処理である。
＜音源データ生成処理＞
情報処理装置２の制御部６が実行する音源データ生成処理について説明する。

図２に示すように、音源データ生成処理が起動されると、制御部６は、入力受付部３を介して指定された楽曲ＩＤが含まれるＭＩＤＩ楽曲ＭＤを取得する（Ｓ１１０）。続いて、制御部６は、記憶部５に記憶されている全ての音声波形データＷＤの中から、Ｓ１１０にて取得した楽曲ＩＤと対応付けられた一つの音声波形データＷＤを取得する（Ｓ１２０）。

音源データ生成処理では、制御部６は、Ｓ１２０にて取得した音声波形データＷＤに含まれる伴奏音を抑制する（Ｓ１３０）。本実施形態においては、伴奏音の抑制手法として周知の手法を用いれば良い。本実施形態における伴奏音の抑制手法は、音声波形データＷＤに含まれる歌唱音を強調する手法であっても良いし、ＭＩＤＩ楽曲ＭＤによって表される楽器の演奏音を音声波形データＷＤから除去する手法であっても良い。

さらに、音源データ生成処理では、制御部６は、Ｓ１３０にて伴奏音を抑制した音声波形データＷＤと、Ｓ１１０にて取得したＭＩＤＩ楽曲ＭＤとに基づいて、音符ボーカルＶｏ（ａ，ｉ）を特定する（Ｓ１４０）。音符ボーカルＶｏ（ａ，ｉ）とは、音声波形データＷＤにおいて、歌唱旋律を構成し、かつ、歌詞が割り当てられた各音符ＮＯ（ａ，ｉ）に対応する区間である。Ｓ１４０においては、制御部６は、Ｓ１２０で取得した音声波形データＷＤに、ＭＩＤＩ楽曲ＭＤにおける演奏開始タイミングｎｎｔ（ａ，ｉ）及び演奏終了タイミングｎｆｔ（ａ，ｉ）を照合することで、音符ボーカルＶｏ（ａ，ｉ）を特定する。

本実施形態における符号「ａ」は、楽曲を識別する符号であり、符号「ｉ」は、楽曲における歌唱旋律の音符ＮＯを識別する符号である。
さらに、音源データ生成処理では、制御部６は、音符ボーカルＶｏ（ａ，ｉ）のそれぞれに、複数の分析窓を設定する（Ｓ１５０）。このＳ１５０での分析窓の設定では、制御部６は、複数個の分析窓が時間軸に沿って互いに隣接するように設定する。この分析窓は、音符ＮＯ（ａ，ｉ）の時間長よりも短い時間長を有した区間である。

続いて、音源データ生成処理では、制御部６は、音符ボーカルＶｏ（ａ，ｉ）における振幅の音符ＮＯ（ａ，ｉ）に対応する区間内での推移を表す歌唱振幅ベクトルＡ（ａ，ｉ）を算出する（Ｓ１６０）。Ｓ１６０においては、制御部６は、まず、図３（Ａ）に示すように、Ｓ１５０にて設定された分析窓それぞれにおける音符ボーカルＶｏ（ａ，ｉ）の振幅値を算出する。そして、制御部６は、それらの分析窓ごとに算出された振幅値を時間軸に沿って配置することで、振幅値の配列を生成し、その振幅値の配列を歌唱振幅ベクトルＡ（ａ，ｉ）として算出する。なお、Ｓ１６０において算出する分析窓ごとの振幅は、例えば、各分析窓内での音符ボーカルＶｏ（ａ，ｉ）の離散値を相加平均したものであっても良い。

さらに、音源データ生成処理では、制御部６は、音符ボーカルＶｏ（ａ，ｉ）における基本周波数の音符ＮＯ（ａ，ｉ）に対応する区間内での推移を表す歌唱音高ベクトルＦ（ａ，ｉ）を算出する（Ｓ１７０）。このＳ１７０では、制御部６は、まず、図３（Ｂ）に示すように、Ｓ１５０にて設定された分析窓それぞれにおける音符ボーカルＶｏ（ａ，ｉ）の基本周波数ｆ０を算出する。そして、制御部６は、それらの分析窓ごとに算出された基本周波数ｆ０を時間軸に沿って配置することで、基本周波数ｆ０の配列を生成し、その基本周波数ｆ０の配列を歌唱音高ベクトルＦ（ａ，ｉ）として算出する。本実施形態における基本周波数ｆ０の算出手法として、種種の周知の手法が考えられる。一例として、Ｓ１７０では、制御部６は、音符ボーカルＶｏ（ａ，ｉ）に設定された分析窓それぞれについて、周波数解析（例えば、ＤＦＴ）を実施し、自己相関の結果、最も強い周波数成分を基本周波数ｆ０とすることが考えられる。

このＳ１６０にて算出される歌唱振幅ベクトルＡ及びＳ１７０にて算出される歌唱音高ベクトルＦのうちの少なくともいずれか一方が、特許請求の範囲に記載の歌回特徴量の一例である。

続いて、音源データ生成処理では、制御部６は、各音符ボーカルＶｏ（ａ，ｉ）における声質特徴量Ｍ（ａ，ｉ）を算出する（Ｓ１８０）。ここで言う声質特徴量Ｍとは、Ｓ１２０にて取得した音声波形データＷＤによって表される音を発声した人物の声質を表す特徴量である。このＳ１８０では、制御部６は、まず、Ｓ１５０にて設定された音符ボーカルＶｏ（ａ，ｉ）の分析窓それぞれについて、周波数解析（例えば、ＤＦＴ）を実施する。制御部６は、周波数解析の結果（周波数スペクトル）に対してケプストラム分析を実行することで、各分析窓のメル周波数ケプストラム（ＭＦＣＣ）を声質特徴量Ｍ（ａ，ｉ）として算出する。

また、音源データ生成処理では、制御部６は、Ｓ１２０にて取得した音符ボーカルＶｏ（ａ，ｉ）に対応する音符ＮＯ（ａ，ｉ）の音符プロパティｐ（ａ，ｉ）を特定する（Ｓ１９０）。本実施形態のＳ１９０では、具体的には、制御部６は、ＭＩＤＩ楽曲ＭＤから、そのＭＩＤＩ楽曲ＭＤに規定された各音符ＮＯ（ａ，ｉ）の情報を音符プロパティｐ（ａ，ｉ）として抽出して特定する。

ここで言う音符プロパティｐ（ａ，ｉ）には、対象音符属性と、前音符属性と、後音符属性とを含む。対象音符属性とは、音符ＮＯ（ａ，ｉ）の属性を表す情報である。この対象音符属性には、音符ＮＯ（ａ，ｉ）の音階（音高）、音符長、及び歌詞の音節を含む。また、前音符属性とは、時間軸に沿って音符ＮＯ（ａ，ｉ）の一つ前の音符（以下、前音符と称す）ＮＯ（ａ，ｉ−１）の属性を表す情報である。この前音符属性には、前音符ＮＯ（ａ，ｉ−１）の音階（音高）、音符長、歌詞の音節、及び前音符ＮＯ（ａ，ｉ−１）と音符ＮＯ（ａ，ｉ）との間の時間長を含む。

さらに、後音符属性とは、時間軸に沿って対象音符ＮＯ（ａ，ｉ）の一つ後の音符（以下、後音符と称す）ＮＯ（ａ，ｉ＋１）の属性を表す情報である。この後音符属性には、音階（音高）、音符長、歌詞の音節、及び音符ＮＯ（ａ，ｉ）と後音符ＮＯ（ａ，ｉ＋１）との間の時間長を含む。なお、音符プロパティｐ（ａ，ｉ）における音符長、及び音符間の時間長は、予め規定された階級へと量子化されていても良い。

音源データ生成処理では、制御部６は、Ｓ１６０で算出された歌唱振幅ベクトルＡ（ａ，ｉ）と、Ｓ１７０にて算出された歌唱音高ベクトルＦ（ａ，ｉ）と、Ｓ１８０にて算出された声質特徴量Ｍ（ａ，ｉ）と、音符プロパティｐ（ａ，ｉ）とを対応付けた、仮歌回データＴ（ａ，ｉ）を生成する（Ｓ２００）。

続いて、音源データ生成処理では、制御部６は、Ｓ１１０にて取得したＭＩＤＩ楽曲ＭＤと対応付けられた全ての音声波形データＷＤに対してＳ１２０からＳ１９０までの処理を実行したか否かを判定する（Ｓ２１０）。このＳ２１０での判定の結果、全ての音声波形データＷＤに対して処理を実行していなければ（Ｓ２１０：ＮＯ）、制御部６は、音源データ生成処理をＳ１２０へと戻す。そのＳ１２０では、Ｓ１１０にて取得したＭＩＤＩ楽曲ＭＤと対応付けられ、かつ、Ｓ１２０〜Ｓ２００までの処理を未実行である音声波形データＷＤの中から、音声波形データＷＤを１つ取得する。その後、制御部６は、Ｓ１３０からＳ２００までのステップを実行する。

一方、Ｓ２１０での判定の結果、全ての音声波形データＷＤに対して処理を実行済みであれば（Ｓ２２０：ＹＥＳ）、制御部６は、音源データ生成処理をＳ２２０へと移行させる。そのＳ２２０では、制御部６は、歌唱振幅ベクトルＡ、歌唱音高ベクトルＦ、及び声質特徴量Ｍの代表値を、音符プロパティｐが共通するグループごとに算出する。

具体的に、本実施形態のＳ２２０では、制御部６は、全ての仮歌回データＴの中で、音符プロパティｐが共通する仮歌回データＴを取得する。そして、その取得した仮歌回データＴに含まれる歌唱振幅ベクトルＡ、歌唱音高ベクトルＦ、及び声質特徴量Ｍそれぞれの代表値を算出する。なお、ここで言う代表値とは、相加平均の結果であっても良いし、中央値であっても良いし、最頻値であっても良い。

そして、音源データ生成処理では、制御部６は、声質歌回データＶを生成して、記憶部５に記憶する（Ｓ２３０）。このＳ２３０にて生成される声質歌回データＶは、図４に示すように、音符プロパティｐごとに、その音符プロパティｐと、Ｓ２２０にて算出した歌唱振幅ベクトルＡの代表値と、歌唱音高ベクトルＦの代表値と、声質特徴量Ｍの代表値と、歌唱者を識別する歌唱者識別情報（以下、「歌唱者ＩＤ」と称す）を対応付けたデータである。

さらに、音源データ生成処理では、制御部６は、音源データＳＤを生成する（Ｓ２４０）。このＳ２４０では、制御部６は、音符ボーカルＶｏのそれぞれと、その音符ボーカルＶｏによって表される音に対応する音符プロパティｐと、歌唱者ＩＤとを対応付けることで、音源データＳＤを生成する。

続いて、音源データ生成処理では、制御部６は、記憶部５に記憶されている全てのＭＩＤＩ楽曲ＭＤを取得したか否かを判定する（Ｓ２５０）。このＳ２５０での判定の結果、全てのＭＩＤＩ楽曲ＭＤに対して、Ｓ１１０からＳ２４０までのステップを実行していなければ（Ｓ２５０：ＮＯ）、制御部６は、音源データ生成処理をＳ１１０へと戻す。そのＳ１１０では、制御部６は、Ｓ１１０からＳ２４０までのステップを実行していないＭＩＤＩ楽曲ＭＤの中から１つのＭＩＤＩ楽曲ＭＤを取得する。その後、音源データ生成処理では、Ｓ１２０からＳ２４０までを繰り返す。

ところで、Ｓ２５０での判定の結果、全てのＭＩＤＩ楽曲ＭＤに対して、Ｓ１１０からＳ２４０までのステップを実行済みであれば（Ｓ２５０：ＹＥＳ）、制御部６は、音源データ生成処理を終了し、起動指令が入力されるまで待機する。

以上説明したように、音源データ生成処理では、予め用意された音声波形データＷＤを解析した結果に従って、音声波形データの声質を表す声質特徴量Ｍ、音声波形データの振幅及び基本周波数の少なくともいずれか一方の楽曲を構成する音符の区間内での推移を表す歌回特徴量（即ち、歌唱振幅ベクトルＡ、歌唱音高ベクトルＦ）、音符プロパティｐ、及び歌唱者ＩＤを対応付けることで、声質歌回データＶを生成する。また、音源データ生成処理では、音符ボーカルＶｏのそれぞれと、各音符ボーカルＶｏに対応する音符プロパティｐと、歌唱者ＩＤとを対応付けることで、音源データＳＤを生成する。

なお、情報処理装置２の制御部６が音源データ生成処理を実行することで生成した声質歌回データＶ及び音源データＳＤは、可搬型の記憶媒体を用いて情報処理サーバ１０の記憶部１４に記憶されても良い。情報処理装置２と情報処理サーバ１０とが通信網を介して接続されている場合には、情報処理装置２の記憶部５に記憶された声質歌回データＶ及び音源データＳＤは、通信網を介して転送されることで、情報処理サーバ１０の記憶部１４に記憶されても良い。
＜音声合成処理＞
次に、カラオケ装置３０の制御部５０が実行する音声合成処理について説明する。

図５に示すように、音声合成処理が起動されると、制御部５０は、入力受付部３４を介して指定された楽曲（指定楽曲）に対応する楽曲ＩＤを取得する（Ｓ５１０）。
音声合成処理では、続いて、制御部５０は、マイク入力部４４に接続されたマイク６２を介して入力された音声の波形を表す歌唱音声データを取得する（Ｓ５２０）。このＳ５２０にて取得する歌唱音声データは、指定楽曲における一部の区間を、カラオケ装置の利用者が歌唱した音声である。

そして、制御部５０は、Ｓ５２０にて取得した歌唱音声データの声質を分析して、歌唱音声データの声質の特徴量を表す入力声質Ｙｋを算出する（Ｓ５３０）。
入力声質Ｙｋは、母音ごとのメル周波数ケプストラム（ＭＦＣＣ）を表した声質特徴量である。この入力声質Ｙｋの算出手法は、「音符ボーカルＶｏ」を「歌唱音声データ」へと読み替えることを除けば、音源データ生成処理におけるＳ１５０、及びＳ１８０と同様であるため、ここでの詳しい説明は省略する。

続いて、音声合成処理では、制御部５０は、歌唱音声データの振幅及び基本周波数の少なくともいずれか一方の楽曲を構成する音符の区間内での推移を表す入力歌回を導出する（Ｓ５４０）。この入力歌回は、歌唱音声データにおける歌唱振幅ベクトルＡ、歌唱音高ベクトルＦである。この入力歌回の算出方法は、「音符ボーカルＶｏ」を「歌唱音声データ」へと読み替えることを除けば、音源データ生成処理におけるＳ１５０からＳ１７０までと同様であるため、ここでの詳しい説明は省略する。

さらに、音声合成処理では、制御部５０は、Ｓ５３０にて算出した入力声質Ｙｋ及びＳ５４０にて算出した入力歌回との類似度が、予め規定された基準値以上であることを含む規定条件を満たす声質特徴量及び歌回特徴量を含む声質歌回データに含まれる歌唱者ＩＤを特定する（Ｓ５５０）。このＳ５５０では、制御部５０は、入力歌回と歌回特徴量との相関係数を歌回類似度として算出する。さらに、Ｓ５５０では、制御部５０は、入力声質Ｙｋと声質特徴量Ｍとの相関係数を声質類似度として算出する。そして、制御部５０は、歌回類似度と声質類似度との双方が基準値以上となる声質歌回データに含まれる歌唱者ＩＤを特定する。なお、本実施形態におけるＳ５５０では、類似度が最も高いものから順に、予め規定された規定数（規定数は「１」以上の整数）分の声質歌回データに含まれている歌唱者ＩＤを特定する。

さらに、音声合成処理では、制御部５０は、Ｓ５１０にて取得した楽曲ＩＤに対応するＭＩＤＩ楽曲ＭＤを情報処理サーバ１０から取得する（Ｓ５６０）。続いて、音声合成処理では、制御部５０は、Ｓ５６０で取得したＭＩＤＩ楽曲ＭＤを分析する（Ｓ５７０）。このＳ５７０のＭＩＤＩ楽曲ＭＤの分析では、制御部５０は、指定楽曲の歌唱旋律を構成するメロディ音符ＮＯの音符プロパティｐを合成対象情報として、メロディ音符ＮＯそれぞれの配置順序に従って特定する。

そして、音声合成処理では、制御部５０は、Ｓ５７０での特定した合成対象情報に従って、歌唱旋律を歌唱した合成音声を生成して出力する（Ｓ５８０）。
具体的に、本実施形態のＳ５８０では、制御部５０は、予め規定された設定条件を満たしていれば、Ｓ５５０で特定した歌唱者ＩＤを含む音源データＳＤを取得する。そして、制御部５０は、その取得した音源データＳＤに含まれる音符ボーカルＶｏに従って、現時点で合成音声を生成すべき音符に割り当てられた歌詞を歌唱した歌唱音声を音声合成にて生成する。ここで言う設定条件とは、現時点で合成音声を生成すべき音符の音符プロパティｐが、Ｓ５２０にて取得した歌唱音声データによって表される音声に発した音符の音符プロパティｐと不一致であることである。

なお、設定条件を満たしている場合におけるＳ２８０では、制御部５０は、Ｓ５５０で特定した歌唱者ＩＤを含み、かつ、現時点で合成音声を生成すべき音符の音符プロパティｐが対応付けられた音源データＳＤを、類似度が最も高いものから順に検索する。この検索において、最も類似度が高い歌唱者ＩＤを含み、かつ、現時点で合成音声を生成すべき音符に割り当てられた音源データＳＤが存在していなければ、次に類似度が高い歌唱者ＩＤを含み、かつ、現時点で合成音声を生成すべき音符に割り当てられた音源データＳＤを検索する。

一方、本実施形態のＳ５８０では、制御部５０は、設定条件を満たしていなければ、Ｓ５２０にて取得した歌唱音声データに従って、現時点で合成音声を生成すべき音符に割り当てられた歌詞を歌唱した歌唱音声を音声合成にて生成する。

つまり、本実施形態において、指定楽曲を構成しかつ歌詞が割り当てられている音符の中で、Ｓ５２０にて取得した歌唱音声データによって歌唱された音符を歌唱音符と称し、指定楽曲を構成しかつ歌詞が割り当てられている音符の中で、歌唱音符以外の音符を非歌唱音符と称した場合を想定する。

この場合、本実施形態におけるＳ５８０では、制御部５０は、Ｓ５２０にて取得した歌唱音声データに基づいて音声合成することで、歌唱音符に割り当てられた歌詞の歌唱音声を生成する。また、制御部５０は、Ｓ５５０にて取得した歌唱者ＩＤを含む音源データＳＤに基づいて音声合成することで、非歌唱音符に割り当てられた歌詞の歌唱音声を生成する。

なお、本実施形態における音声合成は、いわゆるフォルマント合成によって実現すれば良い。すなわち、本実施形態のＳ５８０では、制御部５０は、音源データＳＤに含まれる音符ボーカルＶｏや歌唱音声データから、各音節での基本周波数（ｆ０）、メル周波数ケプストラム（ＭＦＣＣ）、パワーを算出して、音声合成（フォルマント合成）に用いれば良い。

続いて、制御部５０は、Ｓ５８０にて音声合成することによって生成された合成音声を出力部４２へと出力する（Ｓ５９０）。その出力部４２は、スピーカ６０から合成音声を放音する。

その後、制御部５０は、本音声合成処理を終了する。
［実施形態の効果］
以上説明したように、本実施形態の音声合成処理においては、歌唱音声データを分析し、その歌唱音声データを生成するための歌唱を実施した人物（即ち、利用者）の声質や歌い方の特徴を特定する。そして、その特定した利用者の声質や歌い方の特徴に類似し、当該利用者とは異なる他の人物の音声から生成した音源データを特定し、その特定した音源データを、歌唱音声を生成する音声合成の音源の少なくとも一部として利用する。

このような音声合成処理によれば、利用者自身の声と、その利用者の声に特徴が類似する他の人物の声とを利用して、指定された楽曲を歌唱した歌唱音声を音声合成することができる。

また、本実施形態の音声合成処理では、Ｓ５２０にて取得した歌唱音声データが合成対象音符に対するものであれば、その歌唱音声データに基づいて音声合成することで、歌唱音符に割り当てられた歌詞の歌唱音声を生成する。一方、Ｓ５２０にて取得した歌唱音声データが合成対象音符に対するものでなければ、Ｓ５５０にて取得した歌唱者ＩＤと対応付けられた音源音声データに基づいて音声合成することで、非歌唱音符に割り当てられた歌詞の歌唱音声を生成する。

このような音声合成処理によれば、音声合成に必要となる音源を、指定楽曲を構成しかつ歌詞が割り当てられている音符ごとに特定でき、その特定した音符ごとの音源を用いて音声合成できる。この結果、本発明の音声合成処理によれば、利用者の声質に類似し、その利用者の歌い方の特徴をより正確に真似した歌声を音声合成にて生成することができる。
［その他の実施形態］
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。

例えば、上記実施形態における音声波形データＷＤには、演奏音として、少なくとも１つの楽器を演奏した伴奏音と、少なくとも人が歌唱した歌唱音とが含まれていたが、本発明における音声波形データＷＤは、歌唱音だけが含まれていても良い。

上記実施形態の構成の一部を省略した態様も本発明の実施形態である。また、上記実施形態と変形例とを適宜組み合わせて構成される態様も本発明の実施形態である。また、特許請求の範囲に記載した文言によって特定される発明の本質を逸脱しない限度において考え得るあらゆる態様も本発明の実施形態である。

また、本発明は、前述した音声合成装置や音声合成システムの他、歌唱音声を音声合成にて出力するためにコンピュータが実行するプログラム、歌唱音声を音声合成にて出力する音声合成の方法等、種々の形態で実現することができる。
［実施形態と特許請求の範囲との対応関係］
最後に、上記実施形態の記載と、特許請求の範囲の記載との関係を説明する。

上記実施形態の音声合成処理におけるＳ５２０を実行することで得られる機能が、特許請求の範囲に記載された音声データ取得手段の一例であり、Ｓ５３０，Ｓ５４０を実行することで得られる機能が、特許請求の範囲に記載された分析手段の一例である。また、音声合成処理におけるＳ５５０を実行することで得られる機能が、特許請求の範囲に記載された検索手段の一例であり、Ｓ５８０，Ｓ５９０を実行することで得られる機能が、特許請求の範囲に記載された合成手段の一例である。

さらに、上記実施形態の音源データ生成処理におけるＳ１２０を実行することで得られる機能が、特許請求の範囲に記載された取得手段の一例であり、Ｓ１３０を実行することで得られる機能が、特許請求の範囲に記載された抽出手段の一例である。また、音源データ生成処理におけるＳ１４０を実行することで得られる機能が、特許請求の範囲に記載された特定手段の一例であり、Ｓ１５０〜Ｓ１７０を実行することで得られる機能が、特許請求の範囲に記載された第１導出手段の一例である。そして、音源データ生成処理におけるＳ１８０を実行することで得られる機能が、特許請求の範囲に記載された第２導出手段の一例であり、音源データ生成処理におけるＳ２００，Ｓ２２０を実行することで得られる機能が、特許請求の範囲に記載された生成手段の一例であり、音源データ生成処理におけるＳ２３０を実行することで得られる機能が、特許請求の範囲に記載された記憶制御手段の一例である。

１…音声合成システム２…情報処理装置３…入力受付部４…外部出力部５，１４，３８…記憶部６，５０，１６…制御部７，１８，５２…ＲＯＭ８，２０，５４…ＲＡＭ９，２２，５６…ＣＰＵ１０…情報処理サーバ１２，３２…通信部３０…カラオケ装置３４…入力受付部３６…楽曲再生部４０…音声制御部４２…出力部４４…マイク入力部４６…映像制御部６０…スピーカ６２…マイク６４…表示部

Claims

音高と音価との組み合わせからなる複数の音符のうちの少なくとも一部に歌詞が割り当てられた楽曲を歌唱した歌唱音声データを取得する音声データ取得手段と、
前記音声データ取得手段で取得した歌唱音声データの声質の特徴量を表す入力声質、及び前記歌唱音声データの振幅及び基本周波数の少なくともいずれか一方の前記楽曲を構成する音符の区間内での推移を表す入力歌回を導出する分析手段と、
音高と音価との組み合わせからなる複数の音符のうちの少なくとも一部に割り当てられた歌詞を発声した音声波形を表し前記発声した人が互いに異なる音源音声データごとに導出され、前記音源音声データにおける声質の特徴量である声質特徴量と、前記音源音声データの振幅及び基本周波数の少なくともいずれか一方の当該音源音声データでの音符に対応する音符対応区間内での推移を表す歌回特徴量と、前記発声した人を識別する歌唱者識別情報とを対応付けた声質歌回データであって第１記憶装置に記憶された声質歌回データの中で、前記分析手段で導出した入力声質及び入力歌回との類似度が、予め規定された基準値以上であることを含む規定条件を満たす前記声質特徴量及び前記歌回特徴量を含む声質歌回データに含まれる歌唱者識別情報を特定する検索手段と、
前記音源音声データが前記歌唱者識別情報ごとに対応付けられた音源データであって第２記憶装置に記憶された音源データの中から、前記検索手段で特定した歌唱者識別情報である特定識別情報を含む音源データを取得し、その取得した音源データに含まれる音源音声データと前記音声データ取得手段で取得した歌唱音声データとに従って、指定された楽曲である指定楽曲を歌唱した歌唱音声を音声合成にて生成して出力する合成手段と
を備えることを特徴とする音声合成装置。
音高と音価との組み合わせからなる複数の音符のうちの少なくとも一部に歌詞が割り当てられた楽曲を歌唱した歌唱音声データを取得する音声データ取得手段と、
前記音声データ取得手段で取得した歌唱音声データの声質の特徴量を表す入力声質、及び前記歌唱音声データの振幅及び基本周波数の少なくともいずれか一方の前記楽曲を構成する音符の区間内での推移を表す入力歌回を導出する分析手段と、
音高と音価との組み合わせからなる複数の音符のうちの少なくとも一部に割り当てられた歌詞を発声した音声波形を表し前記発声した人が互いに異なる音源音声データごとに導出され、前記音源音声データにおける声質の特徴量である声質特徴量と、前記音源音声データの振幅及び基本周波数の少なくともいずれか一方の当該音源音声データでの音符に対応する音符対応区間内での推移を表す歌回特徴量と、前記発声した人を識別する歌唱者識別情報とを対応付けた声質歌回データであって第１記憶装置に記憶された声質歌回データの中で、前記分析手段で導出した入力声質及び入力歌回との類似度が、予め規定された基準値以上であることを含む規定条件を満たす前記声質特徴量及び前記歌回特徴量を含む声質歌回データに含まれる歌唱者識別情報を特定する検索手段と、
前記音源音声データが前記歌唱者識別情報ごとに対応付けられた音源データであって第２記憶装置に記憶された音源データの中から、前記検索手段で特定した歌唱者識別情報である特定識別情報を含む音源データを取得し、その取得した音源データに含まれる音源音声データと前記音声データ取得手段で取得した歌唱音声データとに従って、指定された楽曲である指定楽曲を歌唱した歌唱音声を音声合成にて生成して出力する合成手段と
を備えることを特徴とする音声合成システム。
前記検索手段は、
前記類似度が最も高いものから予め規定された規定数までであることを、前記規定条件を満たすこととして、前記特定識別情報を特定する
ことを特徴とする請求項２に記載の音声合成システム。
前記合成手段は、
前記指定楽曲を構成しかつ歌詞が割り当てられている音符の中で、前記音声データ取得手段で取得した歌唱音声データによって歌唱された音符を歌唱音符とし、前記指定楽曲を構成しかつ歌詞が割り当てられている音符の中で、前記歌唱音符以外の音符を非歌唱音符とし、
前記音声データ取得手段で取得した歌唱音声データに基づいて音声合成することで、前記歌唱音符に割り当てられた歌詞の歌唱音声を生成し、前記検索手段で特定し、かつ、前記特定識別情報と対応付けられた前記音源音声データに基づいて音声合成することで、前記非歌唱音符に割り当てられた歌詞の歌唱音声を生成する
ことを特徴とする請求項３に記載の音声合成システム。
ボーカル音を含む楽曲の演奏音の音声波形と、そのボーカル音の発声者を表す識別情報を前記歌唱者識別情報として少なくとも含む楽曲データを取得する取得手段と、
前記取得手段により取得された楽曲データに含まれる前記ボーカル音を前記音源音声データとして抽出する抽出手段と、
前記抽出手段で抽出した音源音声データのうち、前記音符対応区間それぞれに対応する前記音源音声データの区間である音符ボーカルを特定する特定手段と、
前記特定手段にて特定した前記音符ボーカルの振幅及び基本周波数の少なくともいずれか一方の前記音符対応区間内での推移を前記歌回特徴量として導出する第１導出手段と、
前記特定手段にて特定した前記音符ボーカルごとに、各音符ボーカルにおける声質の特徴量を導出し、前記声質の特徴量の代表値を前記声質特徴量として導出する第２導出手段と、
前記第１導出手段で導出された歌回特徴量と、前記第２導出手段で導出された声質特徴量と、前記歌唱者識別情報とを対応付けることで前記声質歌回データを生成する生成手段と、
前記生成手段で生成された声質歌回データを、前記第１記憶装置に記憶する記憶制御手段と
を備えることを特徴とする請求項２から請求項４までのいずれか一項に記載の音声合成システム。