JP2016071187A - 音声合成装置、及び音声合成システム - Google Patents

音声合成装置、及び音声合成システム Download PDF

Info

Publication number
JP2016071187A
JP2016071187A JP2014201116A JP2014201116A JP2016071187A JP 2016071187 A JP2016071187 A JP 2016071187A JP 2014201116 A JP2014201116 A JP 2014201116A JP 2014201116 A JP2014201116 A JP 2014201116A JP 2016071187 A JP2016071187 A JP 2016071187A
Authority
JP
Japan
Prior art keywords
data
voice
singing
sound source
note
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014201116A
Other languages
English (en)
Other versions
JP6252420B2 (ja
Inventor
成田 健
Takeshi Narita
健 成田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Original Assignee
Brother Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd filed Critical Brother Industries Ltd
Priority to JP2014201116A priority Critical patent/JP6252420B2/ja
Publication of JP2016071187A publication Critical patent/JP2016071187A/ja
Application granted granted Critical
Publication of JP6252420B2 publication Critical patent/JP6252420B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

【課題】利用者の声質に類似し、その利用者の歌い方の特徴を真似した歌声を合成する技術の提供。
【解決手段】カラオケ装置が実行する音声合成処理では、歌唱音声データを取得し(S520)、その取得した歌唱音声データに基づいて、入力声質、及び入力歌回を導出する(S530,S540)。そして、記憶装置に記憶された声質歌回データの中で、入力声質及び入力歌回との類似度が基準値以上である声質特徴量及び歌回特徴量を含む声質歌回データに含まれる歌唱者識別情報を特定する(S550)。さらに、記憶装置に記憶された音源データの中から、S550にて特定した歌唱者識別情報を含む音源データを取得し、その取得した音源データに含まれる音源音声データとS510で取得した歌唱音声データとに従って、指定楽曲を歌唱した歌唱音声を音声合成にて生成して出力する(S580,S590)。
【選択図】図5

Description

本発明は、合成音声を生成する技術に関する。
従来、予め用意された音声データに基づいて音声合成を実行する音声合成機能を有した携帯端末が知られている(特許文献1参照)。この特許文献1に記載された携帯端末では、受け取った音声信号に応じて、特定の人物の声に似た音声となるように音声合成を行っている。
特開2010−166324号公報
ところで、カラオケ装置においては、指定された楽曲の歌唱旋律を適切に歌唱した模範ボーカルを音声合成で生成して出力することが求められている。この模範ボーカルは、カラオケ装置の利用者の声質に類似した音声にて、その利用者の歌い方の特徴を再現したものであることが好ましい。
歌い方の特徴は歌唱に特有の特徴であるため、会話において表出されることは少ない。このため、通常の会話について音声の合成を行う特許文献1に記載された技術を模範ボーカルの生成に用いても、利用者の声質に類似し、かつ、その利用者の歌い方の特徴を真似した模範ボーカルを生成することが困難であるという課題があった。
つまり、従来の技術では、歌声について、利用者の声質に類似し、かつ、その利用者の歌い方の特徴を真似する音声合成は困難であるという課題があった。
そこで、本発明は、利用者の声質に類似し、その利用者の歌い方の特徴を真似した歌声を合成する技術の提供を目的とする。
上記目的を達成するためになされた本発明は、音声データ取得手段と、分析手段と、検索手段と、合成手段とを備えた音声合成装置に関する。
本発明における音声データ取得手段は、音高と音価との組み合わせからなる複数の音符のうちの少なくとも一部に歌詞が割り当てられた楽曲を歌唱した歌唱音声データを取得する。分析手段は、その音声データ取得手段で取得した歌唱音声データの声質の特徴量を表す入力声質、及び歌唱音声データの振幅及び基本周波数の少なくともいずれか一方の楽曲を構成する音符の区間内での推移(歌い回し、以下、歌回と称す)を表す入力歌回を導出する。
そして、検索手段は、第1記憶装置に記憶された声質の情報と歌回の情報とを示す声質歌回データの中で、分析手段で導出した入力声質及び入力歌回との類似度が、予め規定された基準値以上であることを含む規定条件を満たす声質特徴量及び歌回特徴量を含む声質歌回データに含まれる歌唱者識別情報を特定する。第1記憶装置に記憶されている声質歌回データとは、音源音声データにおける声質の特徴量である声質特徴量と、音源音声データの振幅及び基本周波数の少なくともいずれか一方の当該音源音声データでの音符に対応する音符対応区間内での推移を表す歌回特徴量と、発声した人を識別する歌唱者識別情報とを対応付けたデータである。また、ここで言う音源音声データとは、音高と音価との組み合わせからなる複数の音符のうちの少なくとも一部に割り当てられた歌詞を発声した音声波形を表し発声した人が互いに異なるデータである。
また、本発明における合成手段は、第2記憶装置に記憶された音源データの中から、検索手段で特定した歌唱者識別情報である特定識別情報を含む音源データを取得し、その取得した音源データに含まれる音源音声データと音声データ取得手段で取得した歌唱音声データとに従って、指定された楽曲である指定楽曲を歌唱した歌唱音声を音声合成にて生成して出力する。なお、第2記憶装置に記憶されている音源データとは、音源音声データが歌唱者識別情報ごとに対応付けられたデータである。
歌唱音声データは、楽曲における一部の区間を歌唱した音声であり、その歌唱音声データだけでは、音声合成を実行するために必要となる音源のデータ量としては不十分である。
そこで、本発明の音声合成装置においては、歌唱音声データを分析し、その歌唱音声データを生成するための歌唱を実施した人物(即ち、利用者)の声質や歌い方の特徴を特定する。そして、その特定した利用者の声質や歌い方の特徴に類似し、当該利用者とは異なる他の人物の音声から生成した音源データを特定し、その特定した音源データを、歌唱音声を生成する音声合成の音源の少なくとも一部として利用する。
このような本発明の音声合成装置によれば、利用者自身の声と、その利用者の声に特徴が類似する他の人物の声を利用して、指定された楽曲を歌唱した歌唱音声を音声合成することができる。
この結果、本発明の音声合成装置によれば、利用者の声質に類似し、その利用者の歌い方の特徴を真似した歌声を音声合成することができる。
本発明は、音声データ取得手段と、分析手段と、検索手段と、合成手段とを備えた音声合成システムとしてなされていても良い。
このような音声合成システムによれば、請求項1に係る音声合成装置と同様の効果を得ることができる。
さらに、本発明における検索手段は、類似度が最も高いものから予め規定された規定数までであることを、規定条件を満たすこととして、特定識別情報を特定しても良い。
このような音声合成システムによれば、声質及び歌い方の特徴の類似度が高い他の人物を規定数特定できる。
本発明においては、指定楽曲を構成しかつ歌詞が割り当てられている音符の中で、音声データ取得手段で取得した歌唱音声データによって歌唱された音符を歌唱音符とし、指定楽曲を構成しかつ歌詞が割り当てられている音符の中で、歌唱音符以外の音符を非歌唱音符としても良い。
そして、本発明における合成手段は、音声データ取得手段で取得した歌唱音声データに基づいて音声合成することで、歌唱音符に割り当てられた歌詞の歌唱音声を生成し、検索手段で特定し、かつ、特定識別情報と対応付けられた音源音声データに基づいて音声合成することで、非歌唱音符に割り当てられた歌詞の歌唱音声を生成しても良い。
このような音声合成システムによれば、音声合成に必要となる音源を、指定楽曲を構成しかつ歌詞が割り当てられている音符ごとに特定でき、その特定した音符ごとの音源を用いて音声合成できる。この結果、本発明の音声合成システムによれば、利用者の声質に類似し、その利用者の歌い方の特徴をより正確に真似した歌声を音声合成にて生成することができる。
なお、本発明の音声合成システムにおいては、取得手段と、抽出手段と、特定手段と、第1導出手段と、第2導出手段と、生成手段と、記憶制御手段とを備えていても良い。
取得手段は、ボーカル音を含む楽曲の演奏音の音声波形と、そのボーカル音の発声者を表す識別情報を歌唱者識別情報として少なくとも含む楽曲データを取得する。また、抽出手段は、取得手段により取得された楽曲データに含まれるボーカル音を音源音声データとして抽出する。
さらに、特定手段は、抽出手段で抽出した音源音声データのうち、音符対応区間それぞれに対応する音源音声データの区間である音符ボーカルを特定する。そして、第1導出手段は、特定手段にて特定した音符ボーカルの振幅及び基本周波数の少なくともいずれか一方の音符対応区間内での推移を歌回特徴量として導出する。また、第2導出手段は、特定手段にて特定した音符ボーカルごとに、各音符ボーカルにおける声質の特徴量を導出し、声質の特徴量の代表値を声質特徴量として導出する。
生成手段は、第1導出手段で導出された歌回特徴量と、第2導出手段で導出された声質特徴量と、歌唱者識別情報とを対応付けることで声質歌回データを生成する。記憶制御手段は、生成手段で生成された声質歌回データを第1記憶装置に記憶する。
このような音声合成システムによれば、声質歌回データを生成して第1記憶装置に記憶することができる。
本発明が適用された音声合成システムとしてのカラオケシステムの概略構成を示すブロック図である。 音源データ生成処理の処理手順を示すフローチャートである。 歌回特徴量の概要を説明する説明図であり、(A)は歌唱振幅ベクトルの概要を、(B)は歌唱音高ベクトルの概要を説明する図である。 声質歌回データの概要を示す図である。 音声合成処理の処理手順を示すフローチャートである。
以下に本発明の実施形態を図面と共に説明する。
<音声合成システム>
図1に示す音声合成システム1は、ユーザが指定した楽曲(以下、指定楽曲と称す)を歌唱した合成音声を、ユーザに類似する声にて生成して出力するシステムである。
これを実現するために、音声合成システム1は、情報処理装置2と、情報処理サーバ10と、カラオケ装置30とを備えている。
情報処理装置2は、人が発声した音声を含む音声波形データWD及びその発声した内容を表すMIDI楽曲MDに基づいて、合成音声の生成(即ち、音声合成)に必要な音源データSDを生成する。
情報処理サーバ10には、少なくとも、情報処理装置2にて生成された音源データSD及びMIDI楽曲MDが記憶されている。
カラオケ装置30は、情報処理サーバ10に記憶されたMIDI楽曲MDを演奏すると共に、そのMIDI楽曲MDに対応する楽曲を歌唱した合成音声を、音源データSDに従って生成して出力する。なお、音声合成システム1は、複数のカラオケ装置30を備えている。
<音声波形データ>
音声波形データWDは、楽曲を演奏した演奏音を表す音声データであり、当該楽曲に関する情報が記述された楽曲管理情報と対応付けられている。楽曲管理情報には、楽曲を識別する楽曲識別情報(以下、楽曲IDと称す)が含まれる。
本実施形態の音声波形データWDには、演奏音として、少なくとも1つの楽器を演奏した伴奏音と、少なくとも人が歌唱した歌唱音とを含む。なお、音声波形データWDは、その音声波形データWDごとに、歌唱した人物または楽曲(歌詞)が異なっている。
この音声波形データWDは、非圧縮音声ファイルフォーマットの音声ファイルによって構成されたデータであっても良いし、音声圧縮フォーマットの音声ファイルによって構成されたデータであっても良い。この音声波形データWDは、ユーザが楽曲を歌唱した際に音声を録音することで生成されても良いし、その他の方法で生成されても良い。
本実施形態における音声波形データWDは、特許請求の範囲に記載された音源音声データの一例である。
<MIDI楽曲>
MIDI楽曲MDは、楽曲ごとに予め用意されたものであり、楽曲データと、歌詞データとを有している。
このうち、楽曲データは、周知のMIDI(Musical Instrument Digital Interface)規格によって、一つの楽曲の楽譜を表したデータである。この楽曲データは、楽曲IDと、当該楽曲にて用いられる楽器ごとの楽譜を表す楽譜トラックとを少なくとも有している。
そして、楽譜トラックには、MIDI音源から出力される個々の演奏音について、少なくとも、音高(いわゆるノートナンバー)と、MIDI音源が演奏音を出力する期間(以下、音符長と称す)とが規定されている。楽譜トラックにおける音符長は、当該演奏音の出力を開始するまでの当該楽曲の演奏開始からの時間を表す演奏開始タイミング(いわゆるノートオンタイミング)と、当該演奏音の出力を終了するまでの当該楽曲の演奏開始からの時間を表す演奏終了タイミング(いわゆるノートオフタイミング)とによって規定されている。
すなわち、楽譜トラックでは、ノートナンバーと、ノートオンタイミング及びノートオフタイミングによって表される音符長とによって、1つの音符NOが規定される。そして、楽譜トラックは、音符NOが演奏順に配置されることによって、1つの楽譜として機能する。なお、楽譜トラックは、例えば、鍵盤楽器、弦楽器、打楽器、及び管楽器などの楽器ごとに用意されている。このうち、本実施形態では、特定の楽器(例えば、ヴィブラフォン)が、楽曲における歌唱旋律を担当する楽器として規定されている。
一方、歌詞データは、楽曲の歌詞に関するデータであり、歌詞テロップデータと、歌詞出力データとを備えている。歌詞テロップデータは、楽曲の歌詞を構成する文字(以下、歌詞構成文字とする)を表す。歌詞出力データは、歌詞構成文字の出力タイミングである歌詞出力タイミングを、楽曲データの演奏と対応付けるタイミング対応関係が規定されたデータである。
具体的に、本実施形態におけるタイミング対応関係では、楽曲データの演奏を開始するタイミングに、歌詞テロップデータの出力を開始するタイミングが対応付けられている。さらに、タイミング対応関係では、楽曲の時間軸に沿った各歌詞構成文字の歌詞出力タイミングが、楽曲データの演奏開始からの経過時間によって規定されている。これにより、楽譜トラックに規定された個々の演奏音(即ち、音符NO)と、歌詞構成文字それぞれとが対応付けられる。
<情報処理装置>
情報処理装置2は、入力受付部3と、外部出力部4と、記憶部5と、制御部6とを備えた周知の情報処理装置(例えば、パーソナルコンピュータ)である。
入力受付部3は、外部からの情報や指令の入力を受け付ける入力機器である。ここでの入力機器とは、例えば、キーやスイッチ、可搬型の記憶媒体(例えば、CDやDVD、フラッシュメモリ)に記憶されたデータを読み取る読取ドライブ、通信網を介して情報を取得する通信ポートなどである。外部出力部4は、外部に情報を出力する出力装置である。ここでの出力装置とは、可搬型の記憶媒体にデータを書き込む書込ドライブや、通信網に情報を出力する通信ポートなどである。
記憶部5は、記憶内容を読み書き可能に構成された周知の記憶装置である。記憶部5には、少なくとも2以上の音声波形データWDが、その音声波形データWDでの発声内容を表すMIDI楽曲MDと対応付けて記憶されている。なお、図1中における符号「l」は、音声波形データWDを識別する識別子であり、ユーザごとかつ当該ユーザが歌唱した楽曲ごとに割り当てられている。この符号「l」は、2以上の自然数である。また、図1における符号「o」は、MIDI楽曲MDを識別する識別子であり、楽曲ごとに割り当てられている。この符号「o」は、2以上の自然数である。
制御部6は、ROM7,RAM8,CPU9を備えた周知のマイクロコンピュータを中心に構成された周知の制御装置である。ROM7は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを記憶する。RAM8は、処理プログラムやデータを一時的に記憶する。CPU9は、ROM7やRAM8に記憶された処理プログラムに従って各処理を実行する。
本実施形態のROM7には、記憶部5に記憶されている音声波形データWD及びMIDI楽曲MDに基づいて音源データSDを生成する音源データ生成処理を、制御部6が実行するための処理プログラムが記憶されている。
<情報処理サーバ>
情報処理サーバ10は、通信部12と、記憶部14と、制御部16とを備えている。
このうち、通信部12は、通信網を介して、情報処理サーバ10が外部との間で通信を行う。すなわち、情報処理サーバ10は、通信網を介してカラオケ装置30と接続されている。なお、ここで言う通信網は、有線による通信網であっても良いし、無線による通信網であっても良い。
記憶部14は、記憶内容を読み書き可能に構成された周知の記憶装置である。この記憶部14には、少なくとも、複数のMIDI楽曲MDが記憶される。なお、図1に示す符号「n」は、情報処理サーバ10の記憶部14に記憶されているMIDI楽曲MDを識別する識別子であり、楽曲ごとに割り当てられている。この符号「n」は、1以上の自然数である。さらに、記憶部14には、情報処理装置2が音源データ生成処理を実行することで生成された音源データSDが記憶される。なお、図1に示す符号「m」は、情報処理サーバ10の記憶部14に記憶されている音源データSDを識別する識別子であり、詳しくは後述するグループごとに割り当てられている。この符号「m」は、2以上の自然数である。
制御部16は、ROM18,RAM20,CPU22を備えた周知のマイクロコンピュータを中心に構成された周知の制御装置である。ROM18は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを記憶する。RAM20は、処理プログラムやデータを一時的に記憶する。CPU22は、ROM18やRAM20に記憶された処理プログラムに従って各処理を実行する。
<カラオケ装置>
カラオケ装置30は、通信部32と、入力受付部34と、楽曲再生部36と、記憶部38と、音声制御部40と、映像制御部46と、制御部50とを備えている。
通信部32は、通信網を介して、カラオケ装置30が外部との間で通信を行う。入力受付部34は、外部からの操作に従って情報や指令の入力を受け付ける入力機器である。ここでの入力機器とは、例えば、キーやスイッチ、リモコンの受付部などである。
楽曲再生部36は、情報処理サーバ10からダウンロードしたMIDI楽曲MDに基づく楽曲の演奏を実行する。この楽曲再生部36は、例えば、MIDI音源である。音声制御部40は、音声の入出力を制御するデバイスであり、出力部42と、マイク入力部44とを備えている。
マイク入力部44には、マイク62が接続される。これにより、マイク入力部44は、マイク62を介して入力された音声を取得する。出力部42にはスピーカ60が接続されている。出力部42は、楽曲再生部36によって再生される楽曲の音源信号、マイク入力部44からの歌唱音の音源信号をスピーカ60に出力する。スピーカ60は、出力部42から出力される音源信号を音に換えて出力する。
映像制御部46は、制御部50から送られてくる映像データに基づく映像または画像の出力を行う。映像制御部46には、映像または画像を表示する表示部64が接続されている。
制御部50は、ROM52,RAM54,CPU56を少なくとも有した周知のコンピュータを中心に構成されている。ROM52は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを記憶する。RAM54は、処理プログラムやデータを一時的に記憶する。CPU56は、ROM52やRAM54に記憶された処理プログラムに従って各処理を実行する。
本実施形態のROM52には、音声合成処理を制御部50が実行するための処理プログラムが記憶されている。音声合成処理は、ユーザの声及びそのユーザの声に声質が類似する音声で、ユーザによって指定された楽曲を歌唱した合成音声を生成して出力する処理である。
<音源データ生成処理>
情報処理装置2の制御部6が実行する音源データ生成処理について説明する。
図2に示すように、音源データ生成処理が起動されると、制御部6は、入力受付部3を介して指定された楽曲IDが含まれるMIDI楽曲MDを取得する(S110)。続いて、制御部6は、記憶部5に記憶されている全ての音声波形データWDの中から、S110にて取得した楽曲IDと対応付けられた一つの音声波形データWDを取得する(S120)。
音源データ生成処理では、制御部6は、S120にて取得した音声波形データWDに含まれる伴奏音を抑制する(S130)。本実施形態においては、伴奏音の抑制手法として周知の手法を用いれば良い。本実施形態における伴奏音の抑制手法は、音声波形データWDに含まれる歌唱音を強調する手法であっても良いし、MIDI楽曲MDによって表される楽器の演奏音を音声波形データWDから除去する手法であっても良い。
さらに、音源データ生成処理では、制御部6は、S130にて伴奏音を抑制した音声波形データWDと、S110にて取得したMIDI楽曲MDとに基づいて、音符ボーカルVo(a,i)を特定する(S140)。音符ボーカルVo(a,i)とは、音声波形データWDにおいて、歌唱旋律を構成し、かつ、歌詞が割り当てられた各音符NO(a,i)に対応する区間である。S140においては、制御部6は、S120で取得した音声波形データWDに、MIDI楽曲MDにおける演奏開始タイミングnnt(a,i)及び演奏終了タイミングnft(a,i)を照合することで、音符ボーカルVo(a,i)を特定する。
本実施形態における符号「a」は、楽曲を識別する符号であり、符号「i」は、楽曲における歌唱旋律の音符NOを識別する符号である。
さらに、音源データ生成処理では、制御部6は、音符ボーカルVo(a,i)のそれぞれに、複数の分析窓を設定する(S150)。このS150での分析窓の設定では、制御部6は、複数個の分析窓が時間軸に沿って互いに隣接するように設定する。この分析窓は、音符NO(a,i)の時間長よりも短い時間長を有した区間である。
続いて、音源データ生成処理では、制御部6は、音符ボーカルVo(a,i)における振幅の音符NO(a,i)に対応する区間内での推移を表す歌唱振幅ベクトルA(a,i)を算出する(S160)。S160においては、制御部6は、まず、図3(A)に示すように、S150にて設定された分析窓それぞれにおける音符ボーカルVo(a,i)の振幅値を算出する。そして、制御部6は、それらの分析窓ごとに算出された振幅値を時間軸に沿って配置することで、振幅値の配列を生成し、その振幅値の配列を歌唱振幅ベクトルA(a,i)として算出する。なお、S160において算出する分析窓ごとの振幅は、例えば、各分析窓内での音符ボーカルVo(a,i)の離散値を相加平均したものであっても良い。
さらに、音源データ生成処理では、制御部6は、音符ボーカルVo(a,i)における基本周波数の音符NO(a,i)に対応する区間内での推移を表す歌唱音高ベクトルF(a,i)を算出する(S170)。このS170では、制御部6は、まず、図3(B)に示すように、S150にて設定された分析窓それぞれにおける音符ボーカルVo(a,i)の基本周波数f0を算出する。そして、制御部6は、それらの分析窓ごとに算出された基本周波数f0を時間軸に沿って配置することで、基本周波数f0の配列を生成し、その基本周波数f0の配列を歌唱音高ベクトルF(a,i)として算出する。本実施形態における基本周波数f0の算出手法として、種種の周知の手法が考えられる。一例として、S170では、制御部6は、音符ボーカルVo(a,i)に設定された分析窓それぞれについて、周波数解析(例えば、DFT)を実施し、自己相関の結果、最も強い周波数成分を基本周波数f0とすることが考えられる。
このS160にて算出される歌唱振幅ベクトルA及びS170にて算出される歌唱音高ベクトルFのうちの少なくともいずれか一方が、特許請求の範囲に記載の歌回特徴量の一例である。
続いて、音源データ生成処理では、制御部6は、各音符ボーカルVo(a,i)における声質特徴量M(a,i)を算出する(S180)。ここで言う声質特徴量Mとは、S120にて取得した音声波形データWDによって表される音を発声した人物の声質を表す特徴量である。このS180では、制御部6は、まず、S150にて設定された音符ボーカルVo(a,i)の分析窓それぞれについて、周波数解析(例えば、DFT)を実施する。制御部6は、周波数解析の結果(周波数スペクトル)に対してケプストラム分析を実行することで、各分析窓のメル周波数ケプストラム(MFCC)を声質特徴量M(a,i)として算出する。
また、音源データ生成処理では、制御部6は、S120にて取得した音符ボーカルVo(a,i)に対応する音符NO(a,i)の音符プロパティp(a,i)を特定する(S190)。本実施形態のS190では、具体的には、制御部6は、MIDI楽曲MDから、そのMIDI楽曲MDに規定された各音符NO(a,i)の情報を音符プロパティp(a,i)として抽出して特定する。
ここで言う音符プロパティp(a,i)には、対象音符属性と、前音符属性と、後音符属性とを含む。対象音符属性とは、音符NO(a,i)の属性を表す情報である。この対象音符属性には、音符NO(a,i)の音階(音高)、音符長、及び歌詞の音節を含む。また、前音符属性とは、時間軸に沿って音符NO(a,i)の一つ前の音符(以下、前音符と称す)NO(a,i−1)の属性を表す情報である。この前音符属性には、前音符NO(a,i−1)の音階(音高)、音符長、歌詞の音節、及び前音符NO(a,i−1)と音符NO(a,i)との間の時間長を含む。
さらに、後音符属性とは、時間軸に沿って対象音符NO(a,i)の一つ後の音符(以下、後音符と称す)NO(a,i+1)の属性を表す情報である。この後音符属性には、音階(音高)、音符長、歌詞の音節、及び音符NO(a,i)と後音符NO(a,i+1)との間の時間長を含む。なお、音符プロパティp(a,i)における音符長、及び音符間の時間長は、予め規定された階級へと量子化されていても良い。
音源データ生成処理では、制御部6は、S160で算出された歌唱振幅ベクトルA(a,i)と、S170にて算出された歌唱音高ベクトルF(a,i)と、S180にて算出された声質特徴量M(a,i)と、音符プロパティp(a,i)とを対応付けた、仮歌回データT(a,i)を生成する(S200)。
続いて、音源データ生成処理では、制御部6は、S110にて取得したMIDI楽曲MDと対応付けられた全ての音声波形データWDに対してS120からS190までの処理を実行したか否かを判定する(S210)。このS210での判定の結果、全ての音声波形データWDに対して処理を実行していなければ(S210:NO)、制御部6は、音源データ生成処理をS120へと戻す。そのS120では、S110にて取得したMIDI楽曲MDと対応付けられ、かつ、S120〜S200までの処理を未実行である音声波形データWDの中から、音声波形データWDを1つ取得する。その後、制御部6は、S130からS200までのステップを実行する。
一方、S210での判定の結果、全ての音声波形データWDに対して処理を実行済みであれば(S220:YES)、制御部6は、音源データ生成処理をS220へと移行させる。そのS220では、制御部6は、歌唱振幅ベクトルA、歌唱音高ベクトルF、及び声質特徴量Mの代表値を、音符プロパティpが共通するグループごとに算出する。
具体的に、本実施形態のS220では、制御部6は、全ての仮歌回データTの中で、音符プロパティpが共通する仮歌回データTを取得する。そして、その取得した仮歌回データTに含まれる歌唱振幅ベクトルA、歌唱音高ベクトルF、及び声質特徴量Mそれぞれの代表値を算出する。なお、ここで言う代表値とは、相加平均の結果であっても良いし、中央値であっても良いし、最頻値であっても良い。
そして、音源データ生成処理では、制御部6は、声質歌回データVを生成して、記憶部5に記憶する(S230)。このS230にて生成される声質歌回データVは、図4に示すように、音符プロパティpごとに、その音符プロパティpと、S220にて算出した歌唱振幅ベクトルAの代表値と、歌唱音高ベクトルFの代表値と、声質特徴量Mの代表値と、歌唱者を識別する歌唱者識別情報(以下、「歌唱者ID」と称す)を対応付けたデータである。
さらに、音源データ生成処理では、制御部6は、音源データSDを生成する(S240)。このS240では、制御部6は、音符ボーカルVoのそれぞれと、その音符ボーカルVoによって表される音に対応する音符プロパティpと、歌唱者IDとを対応付けることで、音源データSDを生成する。
続いて、音源データ生成処理では、制御部6は、記憶部5に記憶されている全てのMIDI楽曲MDを取得したか否かを判定する(S250)。このS250での判定の結果、全てのMIDI楽曲MDに対して、S110からS240までのステップを実行していなければ(S250:NO)、制御部6は、音源データ生成処理をS110へと戻す。そのS110では、制御部6は、S110からS240までのステップを実行していないMIDI楽曲MDの中から1つのMIDI楽曲MDを取得する。その後、音源データ生成処理では、S120からS240までを繰り返す。
ところで、S250での判定の結果、全てのMIDI楽曲MDに対して、S110からS240までのステップを実行済みであれば(S250:YES)、制御部6は、音源データ生成処理を終了し、起動指令が入力されるまで待機する。
以上説明したように、音源データ生成処理では、予め用意された音声波形データWDを解析した結果に従って、音声波形データの声質を表す声質特徴量M、音声波形データの振幅及び基本周波数の少なくともいずれか一方の楽曲を構成する音符の区間内での推移を表す歌回特徴量(即ち、歌唱振幅ベクトルA、歌唱音高ベクトルF)、音符プロパティp、及び歌唱者IDを対応付けることで、声質歌回データVを生成する。また、音源データ生成処理では、音符ボーカルVoのそれぞれと、各音符ボーカルVoに対応する音符プロパティpと、歌唱者IDとを対応付けることで、音源データSDを生成する。
なお、情報処理装置2の制御部6が音源データ生成処理を実行することで生成した声質歌回データV及び音源データSDは、可搬型の記憶媒体を用いて情報処理サーバ10の記憶部14に記憶されても良い。情報処理装置2と情報処理サーバ10とが通信網を介して接続されている場合には、情報処理装置2の記憶部5に記憶された声質歌回データV及び音源データSDは、通信網を介して転送されることで、情報処理サーバ10の記憶部14に記憶されても良い。
<音声合成処理>
次に、カラオケ装置30の制御部50が実行する音声合成処理について説明する。
図5に示すように、音声合成処理が起動されると、制御部50は、入力受付部34を介して指定された楽曲(指定楽曲)に対応する楽曲IDを取得する(S510)。
音声合成処理では、続いて、制御部50は、マイク入力部44に接続されたマイク62を介して入力された音声の波形を表す歌唱音声データを取得する(S520)。このS520にて取得する歌唱音声データは、指定楽曲における一部の区間を、カラオケ装置の利用者が歌唱した音声である。
そして、制御部50は、S520にて取得した歌唱音声データの声質を分析して、歌唱音声データの声質の特徴量を表す入力声質Ykを算出する(S530)。
入力声質Ykは、母音ごとのメル周波数ケプストラム(MFCC)を表した声質特徴量である。この入力声質Ykの算出手法は、「音符ボーカルVo」を「歌唱音声データ」へと読み替えることを除けば、音源データ生成処理におけるS150、及びS180と同様であるため、ここでの詳しい説明は省略する。
続いて、音声合成処理では、制御部50は、歌唱音声データの振幅及び基本周波数の少なくともいずれか一方の楽曲を構成する音符の区間内での推移を表す入力歌回を導出する(S540)。この入力歌回は、歌唱音声データにおける歌唱振幅ベクトルA、歌唱音高ベクトルFである。この入力歌回の算出方法は、「音符ボーカルVo」を「歌唱音声データ」へと読み替えることを除けば、音源データ生成処理におけるS150からS170までと同様であるため、ここでの詳しい説明は省略する。
さらに、音声合成処理では、制御部50は、S530にて算出した入力声質Yk及びS540にて算出した入力歌回との類似度が、予め規定された基準値以上であることを含む規定条件を満たす声質特徴量及び歌回特徴量を含む声質歌回データに含まれる歌唱者IDを特定する(S550)。このS550では、制御部50は、入力歌回と歌回特徴量との相関係数を歌回類似度として算出する。さらに、S550では、制御部50は、入力声質Ykと声質特徴量Mとの相関係数を声質類似度として算出する。そして、制御部50は、歌回類似度と声質類似度との双方が基準値以上となる声質歌回データに含まれる歌唱者IDを特定する。なお、本実施形態におけるS550では、類似度が最も高いものから順に、予め規定された規定数(規定数は「1」以上の整数)分の声質歌回データに含まれている歌唱者IDを特定する。
さらに、音声合成処理では、制御部50は、S510にて取得した楽曲IDに対応するMIDI楽曲MDを情報処理サーバ10から取得する(S560)。続いて、音声合成処理では、制御部50は、S560で取得したMIDI楽曲MDを分析する(S570)。このS570のMIDI楽曲MDの分析では、制御部50は、指定楽曲の歌唱旋律を構成するメロディ音符NOの音符プロパティpを合成対象情報として、メロディ音符NOそれぞれの配置順序に従って特定する。
そして、音声合成処理では、制御部50は、S570での特定した合成対象情報に従って、歌唱旋律を歌唱した合成音声を生成して出力する(S580)。
具体的に、本実施形態のS580では、制御部50は、予め規定された設定条件を満たしていれば、S550で特定した歌唱者IDを含む音源データSDを取得する。そして、制御部50は、その取得した音源データSDに含まれる音符ボーカルVoに従って、現時点で合成音声を生成すべき音符に割り当てられた歌詞を歌唱した歌唱音声を音声合成にて生成する。ここで言う設定条件とは、現時点で合成音声を生成すべき音符の音符プロパティpが、S520にて取得した歌唱音声データによって表される音声に発した音符の音符プロパティpと不一致であることである。
なお、設定条件を満たしている場合におけるS280では、制御部50は、S550で特定した歌唱者IDを含み、かつ、現時点で合成音声を生成すべき音符の音符プロパティpが対応付けられた音源データSDを、類似度が最も高いものから順に検索する。この検索において、最も類似度が高い歌唱者IDを含み、かつ、現時点で合成音声を生成すべき音符に割り当てられた音源データSDが存在していなければ、次に類似度が高い歌唱者IDを含み、かつ、現時点で合成音声を生成すべき音符に割り当てられた音源データSDを検索する。
一方、本実施形態のS580では、制御部50は、設定条件を満たしていなければ、S520にて取得した歌唱音声データに従って、現時点で合成音声を生成すべき音符に割り当てられた歌詞を歌唱した歌唱音声を音声合成にて生成する。
つまり、本実施形態において、指定楽曲を構成しかつ歌詞が割り当てられている音符の中で、S520にて取得した歌唱音声データによって歌唱された音符を歌唱音符と称し、指定楽曲を構成しかつ歌詞が割り当てられている音符の中で、歌唱音符以外の音符を非歌唱音符と称した場合を想定する。
この場合、本実施形態におけるS580では、制御部50は、S520にて取得した歌唱音声データに基づいて音声合成することで、歌唱音符に割り当てられた歌詞の歌唱音声を生成する。また、制御部50は、S550にて取得した歌唱者IDを含む音源データSDに基づいて音声合成することで、非歌唱音符に割り当てられた歌詞の歌唱音声を生成する。
なお、本実施形態における音声合成は、いわゆるフォルマント合成によって実現すれば良い。すなわち、本実施形態のS580では、制御部50は、音源データSDに含まれる音符ボーカルVoや歌唱音声データから、各音節での基本周波数(f0)、メル周波数ケプストラム(MFCC)、パワーを算出して、音声合成(フォルマント合成)に用いれば良い。
続いて、制御部50は、S580にて音声合成することによって生成された合成音声を出力部42へと出力する(S590)。その出力部42は、スピーカ60から合成音声を放音する。
その後、制御部50は、本音声合成処理を終了する。
[実施形態の効果]
以上説明したように、本実施形態の音声合成処理においては、歌唱音声データを分析し、その歌唱音声データを生成するための歌唱を実施した人物(即ち、利用者)の声質や歌い方の特徴を特定する。そして、その特定した利用者の声質や歌い方の特徴に類似し、当該利用者とは異なる他の人物の音声から生成した音源データを特定し、その特定した音源データを、歌唱音声を生成する音声合成の音源の少なくとも一部として利用する。
このような音声合成処理によれば、利用者自身の声と、その利用者の声に特徴が類似する他の人物の声とを利用して、指定された楽曲を歌唱した歌唱音声を音声合成することができる。
また、本実施形態の音声合成処理では、S520にて取得した歌唱音声データが合成対象音符に対するものであれば、その歌唱音声データに基づいて音声合成することで、歌唱音符に割り当てられた歌詞の歌唱音声を生成する。一方、S520にて取得した歌唱音声データが合成対象音符に対するものでなければ、S550にて取得した歌唱者IDと対応付けられた音源音声データに基づいて音声合成することで、非歌唱音符に割り当てられた歌詞の歌唱音声を生成する。
このような音声合成処理によれば、音声合成に必要となる音源を、指定楽曲を構成しかつ歌詞が割り当てられている音符ごとに特定でき、その特定した音符ごとの音源を用いて音声合成できる。この結果、本発明の音声合成処理によれば、利用者の声質に類似し、その利用者の歌い方の特徴をより正確に真似した歌声を音声合成にて生成することができる。
[その他の実施形態]
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。
例えば、上記実施形態における音声波形データWDには、演奏音として、少なくとも1つの楽器を演奏した伴奏音と、少なくとも人が歌唱した歌唱音とが含まれていたが、本発明における音声波形データWDは、歌唱音だけが含まれていても良い。
上記実施形態の構成の一部を省略した態様も本発明の実施形態である。また、上記実施形態と変形例とを適宜組み合わせて構成される態様も本発明の実施形態である。また、特許請求の範囲に記載した文言によって特定される発明の本質を逸脱しない限度において考え得るあらゆる態様も本発明の実施形態である。
また、本発明は、前述した音声合成装置や音声合成システムの他、歌唱音声を音声合成にて出力するためにコンピュータが実行するプログラム、歌唱音声を音声合成にて出力する音声合成の方法等、種々の形態で実現することができる。
[実施形態と特許請求の範囲との対応関係]
最後に、上記実施形態の記載と、特許請求の範囲の記載との関係を説明する。
上記実施形態の音声合成処理におけるS520を実行することで得られる機能が、特許請求の範囲に記載された音声データ取得手段の一例であり、S530,S540を実行することで得られる機能が、特許請求の範囲に記載された分析手段の一例である。また、音声合成処理におけるS550を実行することで得られる機能が、特許請求の範囲に記載された検索手段の一例であり、S580,S590を実行することで得られる機能が、特許請求の範囲に記載された合成手段の一例である。
さらに、上記実施形態の音源データ生成処理におけるS120を実行することで得られる機能が、特許請求の範囲に記載された取得手段の一例であり、S130を実行することで得られる機能が、特許請求の範囲に記載された抽出手段の一例である。また、音源データ生成処理におけるS140を実行することで得られる機能が、特許請求の範囲に記載された特定手段の一例であり、S150〜S170を実行することで得られる機能が、特許請求の範囲に記載された第1導出手段の一例である。そして、音源データ生成処理におけるS180を実行することで得られる機能が、特許請求の範囲に記載された第2導出手段の一例であり、音源データ生成処理におけるS200,S220を実行することで得られる機能が、特許請求の範囲に記載された生成手段の一例であり、音源データ生成処理におけるS230を実行することで得られる機能が、特許請求の範囲に記載された記憶制御手段の一例である。
1…音声合成システム 2…情報処理装置 3…入力受付部 4…外部出力部 5,14,38…記憶部 6,50,16…制御部 7,18,52…ROM 8,20,54…RAM 9,22,56…CPU 10…情報処理サーバ 12,32…通信部 30…カラオケ装置 34…入力受付部 36…楽曲再生部 40…音声制御部 42…出力部 44…マイク入力部 46…映像制御部 60…スピーカ 62…マイク 64…表示部

Claims (5)

  1. 音高と音価との組み合わせからなる複数の音符のうちの少なくとも一部に歌詞が割り当てられた楽曲を歌唱した歌唱音声データを取得する音声データ取得手段と、
    前記音声データ取得手段で取得した歌唱音声データの声質の特徴量を表す入力声質、及び前記歌唱音声データの振幅及び基本周波数の少なくともいずれか一方の前記楽曲を構成する音符の区間内での推移を表す入力歌回を導出する分析手段と、
    音高と音価との組み合わせからなる複数の音符のうちの少なくとも一部に割り当てられた歌詞を発声した音声波形を表し前記発声した人が互いに異なる音源音声データごとに導出され、前記音源音声データにおける声質の特徴量である声質特徴量と、前記音源音声データの振幅及び基本周波数の少なくともいずれか一方の当該音源音声データでの音符に対応する音符対応区間内での推移を表す歌回特徴量と、前記発声した人を識別する歌唱者識別情報とを対応付けた声質歌回データであって第1記憶装置に記憶された声質歌回データの中で、前記分析手段で導出した入力声質及び入力歌回との類似度が、予め規定された基準値以上であることを含む規定条件を満たす前記声質特徴量及び前記歌回特徴量を含む声質歌回データに含まれる歌唱者識別情報を特定する検索手段と、
    前記音源音声データが前記歌唱者識別情報ごとに対応付けられた音源データであって第2記憶装置に記憶された音源データの中から、前記検索手段で特定した歌唱者識別情報である特定識別情報を含む音源データを取得し、その取得した音源データに含まれる音源音声データと前記音声データ取得手段で取得した歌唱音声データとに従って、指定された楽曲である指定楽曲を歌唱した歌唱音声を音声合成にて生成して出力する合成手段と
    を備えることを特徴とする音声合成装置。
  2. 音高と音価との組み合わせからなる複数の音符のうちの少なくとも一部に歌詞が割り当てられた楽曲を歌唱した歌唱音声データを取得する音声データ取得手段と、
    前記音声データ取得手段で取得した歌唱音声データの声質の特徴量を表す入力声質、及び前記歌唱音声データの振幅及び基本周波数の少なくともいずれか一方の前記楽曲を構成する音符の区間内での推移を表す入力歌回を導出する分析手段と、
    音高と音価との組み合わせからなる複数の音符のうちの少なくとも一部に割り当てられた歌詞を発声した音声波形を表し前記発声した人が互いに異なる音源音声データごとに導出され、前記音源音声データにおける声質の特徴量である声質特徴量と、前記音源音声データの振幅及び基本周波数の少なくともいずれか一方の当該音源音声データでの音符に対応する音符対応区間内での推移を表す歌回特徴量と、前記発声した人を識別する歌唱者識別情報とを対応付けた声質歌回データであって第1記憶装置に記憶された声質歌回データの中で、前記分析手段で導出した入力声質及び入力歌回との類似度が、予め規定された基準値以上であることを含む規定条件を満たす前記声質特徴量及び前記歌回特徴量を含む声質歌回データに含まれる歌唱者識別情報を特定する検索手段と、
    前記音源音声データが前記歌唱者識別情報ごとに対応付けられた音源データであって第2記憶装置に記憶された音源データの中から、前記検索手段で特定した歌唱者識別情報である特定識別情報を含む音源データを取得し、その取得した音源データに含まれる音源音声データと前記音声データ取得手段で取得した歌唱音声データとに従って、指定された楽曲である指定楽曲を歌唱した歌唱音声を音声合成にて生成して出力する合成手段と
    を備えることを特徴とする音声合成システム。
  3. 前記検索手段は、
    前記類似度が最も高いものから予め規定された規定数までであることを、前記規定条件を満たすこととして、前記特定識別情報を特定する
    ことを特徴とする請求項2に記載の音声合成システム。
  4. 前記合成手段は、
    前記指定楽曲を構成しかつ歌詞が割り当てられている音符の中で、前記音声データ取得手段で取得した歌唱音声データによって歌唱された音符を歌唱音符とし、前記指定楽曲を構成しかつ歌詞が割り当てられている音符の中で、前記歌唱音符以外の音符を非歌唱音符とし、
    前記音声データ取得手段で取得した歌唱音声データに基づいて音声合成することで、前記歌唱音符に割り当てられた歌詞の歌唱音声を生成し、前記検索手段で特定し、かつ、前記特定識別情報と対応付けられた前記音源音声データに基づいて音声合成することで、前記非歌唱音符に割り当てられた歌詞の歌唱音声を生成する
    ことを特徴とする請求項3に記載の音声合成システム。
  5. ボーカル音を含む楽曲の演奏音の音声波形と、そのボーカル音の発声者を表す識別情報を前記歌唱者識別情報として少なくとも含む楽曲データを取得する取得手段と、
    前記取得手段により取得された楽曲データに含まれる前記ボーカル音を前記音源音声データとして抽出する抽出手段と、
    前記抽出手段で抽出した音源音声データのうち、前記音符対応区間それぞれに対応する前記音源音声データの区間である音符ボーカルを特定する特定手段と、
    前記特定手段にて特定した前記音符ボーカルの振幅及び基本周波数の少なくともいずれか一方の前記音符対応区間内での推移を前記歌回特徴量として導出する第1導出手段と、
    前記特定手段にて特定した前記音符ボーカルごとに、各音符ボーカルにおける声質の特徴量を導出し、前記声質の特徴量の代表値を前記声質特徴量として導出する第2導出手段と、
    前記第1導出手段で導出された歌回特徴量と、前記第2導出手段で導出された声質特徴量と、前記歌唱者識別情報とを対応付けることで前記声質歌回データを生成する生成手段と、
    前記生成手段で生成された声質歌回データを、前記第1記憶装置に記憶する記憶制御手段と
    を備えることを特徴とする請求項2から請求項4までのいずれか一項に記載の音声合成システム。
JP2014201116A 2014-09-30 2014-09-30 音声合成装置、及び音声合成システム Active JP6252420B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014201116A JP6252420B2 (ja) 2014-09-30 2014-09-30 音声合成装置、及び音声合成システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014201116A JP6252420B2 (ja) 2014-09-30 2014-09-30 音声合成装置、及び音声合成システム

Publications (2)

Publication Number Publication Date
JP2016071187A true JP2016071187A (ja) 2016-05-09
JP6252420B2 JP6252420B2 (ja) 2017-12-27

Family

ID=55866776

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014201116A Active JP6252420B2 (ja) 2014-09-30 2014-09-30 音声合成装置、及び音声合成システム

Country Status (1)

Country Link
JP (1) JP6252420B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112562633A (zh) * 2020-11-30 2021-03-26 北京有竹居网络技术有限公司 一种歌唱合成方法、装置、电子设备及存储介质
CN113781993A (zh) * 2021-01-20 2021-12-10 北京沃东天骏信息技术有限公司 定制音色歌声的合成方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10177396A (ja) * 1996-12-18 1998-06-30 Brother Ind Ltd 音声合成装置及び発音訓練装置
JP2007256618A (ja) * 2006-03-23 2007-10-04 Yamaha Corp 検索装置
JP2007304489A (ja) * 2006-05-15 2007-11-22 Yamaha Corp 楽曲練習支援装置、制御方法及びプログラム
JP2009244790A (ja) * 2008-03-31 2009-10-22 Daiichikosho Co Ltd 歌唱指導機能を備えるカラオケシステム
JP2011013454A (ja) * 2009-07-02 2011-01-20 Yamaha Corp 歌唱合成用データベース生成装置、およびピッチカーブ生成装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10177396A (ja) * 1996-12-18 1998-06-30 Brother Ind Ltd 音声合成装置及び発音訓練装置
JP2007256618A (ja) * 2006-03-23 2007-10-04 Yamaha Corp 検索装置
JP2007304489A (ja) * 2006-05-15 2007-11-22 Yamaha Corp 楽曲練習支援装置、制御方法及びプログラム
JP2009244790A (ja) * 2008-03-31 2009-10-22 Daiichikosho Co Ltd 歌唱指導機能を備えるカラオケシステム
JP2011013454A (ja) * 2009-07-02 2011-01-20 Yamaha Corp 歌唱合成用データベース生成装置、およびピッチカーブ生成装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112562633A (zh) * 2020-11-30 2021-03-26 北京有竹居网络技术有限公司 一种歌唱合成方法、装置、电子设备及存储介质
CN113781993A (zh) * 2021-01-20 2021-12-10 北京沃东天骏信息技术有限公司 定制音色歌声的合成方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
JP6252420B2 (ja) 2017-12-27

Similar Documents

Publication Publication Date Title
JP6060867B2 (ja) 情報処理装置,データ生成方法,及びプログラム
JP5598516B2 (ja) カラオケ用音声合成システム,及びパラメータ抽出装置
JP2022120188A (ja) 楽曲再生システム、楽曲再生システムの制御方法およびプログラム
JP6252420B2 (ja) 音声合成装置、及び音声合成システム
JP6098422B2 (ja) 情報処理装置、及びプログラム
JP2017181793A (ja) 音響処理装置、及びプログラム
JP6075314B2 (ja) プログラム,情報処理装置,及び評価方法
JP6260565B2 (ja) 音声合成装置、及びプログラム
JP2013210501A (ja) 素片登録装置,音声合成装置,及びプログラム
JP6075313B2 (ja) プログラム,情報処理装置,及び評価データ生成方法
JP6056799B2 (ja) プログラム、情報処理装置、及びデータ生成方法
JP6406182B2 (ja) カラオケ装置、及びカラオケシステム
JP6365483B2 (ja) カラオケ装置,カラオケシステム,及びプログラム
JP6011506B2 (ja) 情報処理装置,データ生成方法,及びプログラム
JP6252517B2 (ja) 音声合成装置、及びプログラム
JP6260499B2 (ja) 音声合成システム、及び音声合成装置
JP5983670B2 (ja) プログラム、情報処理装置、及びデータ生成方法
JP6380305B2 (ja) データ生成装置、カラオケシステム、及びプログラム
JP5810947B2 (ja) 発声区間特定装置、音声パラメータ生成装置、及びプログラム
JP6281447B2 (ja) 音声合成装置,及び音声合成システム
JP6365561B2 (ja) カラオケシステム、カラオケ装置、及びプログラム
JP5845857B2 (ja) パラメータ抽出装置、音声合成システム
JP6252408B2 (ja) 表示制御装置,及び表示制御システム
JP2016071188A (ja) 採譜装置、及び採譜システム
KR101321446B1 (ko) 음성 인식을 이용한 가사 표시 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171018

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171031

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171113

R150 Certificate of patent or registration of utility model

Ref document number: 6252420

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150