JP2024054051A - System and method for training an acoustic model - Google Patents
System and method for training an acoustic model Download PDFInfo
- Publication number
- JP2024054051A JP2024054051A JP2022192811A JP2022192811A JP2024054051A JP 2024054051 A JP2024054051 A JP 2024054051A JP 2022192811 A JP2022192811 A JP 2022192811A JP 2022192811 A JP2022192811 A JP 2022192811A JP 2024054051 A JP2024054051 A JP 2024054051A
- Authority
- JP
- Japan
- Prior art keywords
- training
- user
- acoustic model
- server
- job
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 315
- 238000000034 method Methods 0.000 title claims description 64
- 230000004044 response Effects 0.000 claims description 14
- 238000004458 analytical method Methods 0.000 claims description 8
- 230000000977 initiatory effect Effects 0.000 claims 1
- 238000004891 communication Methods 0.000 description 108
- 230000015572 biosynthetic process Effects 0.000 description 27
- 238000010586 diagram Methods 0.000 description 27
- 238000003860 storage Methods 0.000 description 18
- 238000003786 synthesis reaction Methods 0.000 description 16
- 239000011295 pitch Substances 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 238000001308 synthesis method Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 230000002194 synthesizing effect Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000007935 neutral effect Effects 0.000 description 4
- 238000010923 batch production Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Landscapes
- Electrophonic Musical Instruments (AREA)
- Telephonic Communication Services (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
【課題】複数の訓練用データから音響モデルの訓練に使用するデータを選択可能にすることで、様々な訓練を容易に実行可能にすること。【解決手段】音響モデルの訓練システムは、ネットワークに接続可能な、第1ユーザが使用する第1デバイスと、前記ネットワークに接続可能なサーバと、を含む。前記第1デバイスは、前記第1ユーザによる制御の下で、前記サーバに複数の音波形をアップロードし、既にアップロードされた、又は、これからアップロードされる前記複数の音波形から第1波形セットとして一以上の音波形を選択し、音響特徴量を生成する音響モデルに対する第1訓練ジョブの第1実行指示を前記サーバに送信する。前記サーバは、前記第1デバイスからの前記第1実行指示に基づいて、選択された前記第1波形セットを用いて前記第1訓練ジョブの実行を開始し、前記第1訓練ジョブによって訓練された訓練済み音響モデルを前記第1デバイスに提供する。【選択図】図4[Problem] To make it possible to easily perform various training by making it possible to select data to be used for training an acoustic model from a plurality of training data. [Solution] An acoustic model training system includes a first device connectable to a network and used by a first user, and a server connectable to the network. The first device uploads a plurality of sound waveforms to the server under the control of the first user, selects one or more sound waveforms as a first waveform set from the plurality of sound waveforms that have already been uploaded or will be uploaded, and transmits a first execution instruction for a first training job for an acoustic model that generates acoustic features to the server. Based on the first execution instruction from the first device, the server starts execution of the first training job using the selected first waveform set, and provides the first device with a trained acoustic model trained by the first training job. [Selected Figure] Figure 4
Description
本発明の一実施形態は、音響モデルの訓練システム及び方法に関する。 One embodiment of the present invention relates to a system and method for training an acoustic model.
特定の歌手の声音及び特定の楽器の演奏音を合成する音声合成(Sound Synthesis)技術が知られている。特に、機械学習を利用した音声合成技術(例えば、特許文献1、2)では、ユーザによって入力された楽譜データ及び音響データに基づいて当該特定の音声及び演奏音で自然な発音の合成音声を出力するために、十分に訓練された音響モデルが要求される。
Sound synthesis technology is known that synthesizes the vocal sounds of a specific singer and the sounds played on a specific instrument. In particular, in voice synthesis technology that uses machine learning (e.g.,
しかしながら、音響モデルを十分に訓練するためには、膨大な量の声音及び演奏音について言語特徴量をラベル付けする必要があり、莫大な時間と費用を要していた。そのため、資金を十分に有する企業しか音響モデルの訓練を実行することができず、音響モデルの種類が限られていた。 However, to fully train an acoustic model, it was necessary to label a huge amount of speech and performance sounds with linguistic features, which required a huge amount of time and money. As a result, only well-funded companies were able to train acoustic models, and the types of acoustic models available were limited.
本発明の一実施形態の目的の一つは、複数の訓練用データから音響モデルの訓練に使用するデータを選択可能にすることで、様々な訓練を容易に実行可能にすることである。 One of the objectives of one embodiment of the present invention is to make it easy to perform various types of training by allowing the selection of data to be used for training an acoustic model from multiple training data.
本発明の一実施形態による音響モデルの訓練システムは、ネットワークに接続可能な、第1ユーザが使用する第1デバイスと、前記ネットワークに接続可能なサーバと、を含む。前記第1デバイスは、前記第1ユーザによる制御の下で、前記サーバに複数の音波形をアップロードし、既にアップロードされた、又は、これからアップロードされる前記複数の音波形から第1波形セットとして一以上の音波形を選択し、音響特徴量を生成する音響モデルに対する第1訓練ジョブの第1実行指示を前記サーバに送信する。前記サーバは、前記第1デバイスからの前記第1実行指示に基づいて、選択された前記第1波形セットを用いて前記第1訓練ジョブの実行を開始し、前記第1訓練ジョブによって訓練された訓練済み音響モデルを前記第1デバイスに提供する。 An acoustic model training system according to an embodiment of the present invention includes a first device connectable to a network and used by a first user, and a server connectable to the network. The first device, under the control of the first user, uploads a plurality of sound waveforms to the server, selects one or more sound waveforms as a first waveform set from the plurality of sound waveforms that have already been uploaded or will be uploaded, and transmits a first execution instruction for a first training job for an acoustic model that generates acoustic features to the server. Based on the first execution instruction from the first device, the server starts execution of the first training job using the selected first waveform set, and provides the first device with a trained acoustic model trained by the first training job.
本発明の一実施形態による音響モデルの訓練方法は、予め保存された複数の音波形から、音響特徴量を生成する音響モデルに対する第1訓練ジョブを実行させるための一以上の音波形を選択させるインターフェースを第1ユーザに提供することを1以上のコンピュータにより実現させる。 An acoustic model training method according to one embodiment of the present invention includes providing a first user with an interface that allows the first user to select one or more sound waveforms from a plurality of pre-stored sound waveforms for executing a first training job for an acoustic model that generates acoustic features, using one or more computers.
本発明の一実施形態によれば、複数の訓練用データから音響モデルの訓練に使用するデータを選択可能にすることで、様々な訓練を容易に実行可能にできる。 According to one embodiment of the present invention, by making it possible to select data to be used for training an acoustic model from multiple training data, it becomes possible to easily perform various types of training.
以下、本発明の一実施形態における音響モデルの訓練システム及び方法について、図面を参照しながら詳細に説明する。以下に示す実施形態は本発明を実施する形態の一例であって、本発明はこれらの実施形態に限定して解釈されない。本実施形態で参照する図面において、同一部分又は同様の機能を有する部分には同一の符号又は類似の符号(数字の後にA、B等を付しただけの符号)が付されており、それらの繰り返しの説明は省略される場合がある。 The following describes in detail an acoustic model training system and method according to one embodiment of the present invention with reference to the drawings. The embodiments described below are examples of ways of implementing the present invention, and the present invention is not to be interpreted as being limited to these embodiments. In the drawings referred to in this embodiment, identical parts or parts having similar functions are given the same or similar symbols (symbols consisting of only a number followed by A, B, etc.), and repeated explanations of them may be omitted.
以下の実施形態において、「楽譜データ」は、音符の音高及び強度に関する情報、音符における音韻に関する情報、音符の発音期間に関する情報、及び演奏記号に関する情報を含むデータである。例えば、楽譜データは、楽曲の楽譜及び歌詞の少なくとも一方を示すデータである。楽譜データは、当該楽曲を構成する音符の時系列を示すデータであってもよく、当該楽曲を構成する言語の時系列を示すデータであってもよい。 In the following embodiments, "musical score data" is data that includes information about the pitch and intensity of notes, information about the phonemes of notes, information about the duration of note pronunciation, and information about performance symbols. For example, musical score data is data that indicates at least one of the musical score and lyrics of a piece of music. Music score data may be data that indicates the time sequence of notes that make up the piece of music, or data that indicates the time sequence of language that makes up the piece of music.
「音波形」は、音声の波形データであり、その音声を発する音源は、音源IDで特定される。例えば、音波形は、歌唱の波形データ及び楽器音の波形データの少なくとも一方である。例えば、音波形は、マイク等の入力装置を介して取り込まれた歌手の歌声及び楽器の演奏音の波形データを含む。音源IDは、その歌手の歌唱の音色、又はその楽器の演奏音の音色を特定する。音波形のうち、音響モデルを用いて合成音波形を生成するために入力される音波形を「合成用音波形」といい、音響モデルを訓練するために用いられる音波形を「訓練用音波形」という。合成用音波形と訓練用音波形とを区別する必要がない場合、これらを併せて、単に「音波形」という。 A "sound waveform" is waveform data of a voice, and the sound source that produces the voice is identified by a sound source ID. For example, a sound waveform is at least one of waveform data of singing and waveform data of musical instrument sounds. For example, a sound waveform includes waveform data of a singer's singing voice and musical instrument sounds captured via an input device such as a microphone. The sound source ID identifies the timbre of the singer's singing or the timbre of the musical instrument sounds. Among the sound waveforms, a sound waveform that is input to generate a synthetic sound waveform using an acoustic model is called a "synthesis sound waveform," and a sound waveform used to train the acoustic model is called a "training sound waveform." When there is no need to distinguish between synthesis sound waveforms and training sound waveforms, they are collectively simply called "sound waveforms."
「音響モデル」は、楽譜データの楽譜特徴量の入力と、音波形の音響特徴量の入力とを有する。音響モデルとして、例えば、国際公開第2022/080395号に記載された、楽譜エンコーダ111、音響エンコーダ121、切換部131、及び音響デコーダ133を有する音響モデルを用いる。この音響モデルは、入力された楽譜データの楽譜特徴量又は音波形の音響特徴量と音源IDとを処理することで、その音源IDが示す音色を有する、目的とする音波形の音響特徴量を生成する機能を有し、新たな合成音波形を生成するための音声合成プログラムによって使用される音声合成モデルである。音声合成プログラムは、ある楽曲の楽譜データから生成した楽譜特徴量と音源IDとを音響モデルに供給することで、その音源IDが示す音色で、かつその楽曲の音響特徴量を得て、その音響特徴量を音波形に変換する。或いは、音声合成プログラムは、ある楽曲の音波形から生成した音響特徴量と音源IDとを音響モデルに供給することで、その音源IDが示す音色で、かつその楽曲の新たな音響特徴量を得て、その新たな音響特徴量を音波形に変換する。音響モデル毎に、所定数の音源IDが用意される。つまり、各音響モデルは、所定数の音色のうちの、音源IDが示す音色の音響特徴量を選択的に生成する。
The "acoustic model" has an input of the score feature of the score data and an input of the acoustic feature of the sound waveform. For example, an acoustic model having a
音響モデルは、機械学習を利用した、例えば、畳み込みニューラルネットワーク(CNN)又はリカレントニューラルネットワーク(RNN)などを利用した所定のアーキテクチャの生成モデルである。音響特徴量は、自然音や合成音の波形の周波数スペクトルにおける発音の特徴を表すものであり、音響特徴量が近いことは歌声又は演奏音の音色やその時間変化が似ていることを意味する。 An acoustic model is a generative model of a given architecture that uses machine learning, for example, a convolutional neural network (CNN) or a recurrent neural network (RNN). Acoustic features represent the pronunciation characteristics in the frequency spectrum of the waveform of natural sounds or synthetic sounds, and similar acoustic features mean that the timbre of the singing voice or performance sound and its changes over time are similar.
音響モデルの訓練においては、音響モデルによって、参照した音波形の音響特徴量と類似する音響特徴量が生成されるように、音響モデルの変数が変更される。訓練には、例えば、国際公開第2022/080395号に記載された訓練プログラムP2、楽譜データD1(訓練用楽譜データ)、及び学習用音響データD2(訓練用音波形)を用いる。複数の音源IDに対応する複数の音声の波形を用いた基本訓練によって、複数の音源IDに対応する複数の音色の合成音の音響特徴量を生成できるように、音響モデル(楽譜エンコーダ、音響エンコーダ、及び音響デコーダ)の変数が変更される。さらに、その訓練済の音響モデルを、(未使用の)新たな音源IDに対応する別の音色の音波形を用いて補助訓練することで、その音響モデルは、新たな音源IDの示す音色の音響特徴量を生成できるようになる。具体的には、XXXさん(複数人)の声の音波形で訓練済の音響モデルに対して、さらに、新たな音源IDを用いて、YYYさん(一人)の声音の音波形で補助訓練を行うことにより、YYYさんの声音の音響特徴量を生成できる音響モデルになるように、音響モデル(少なくとも、音響デコーダ)の変数が変更される。音響モデルに対する、上記のような、新たな音源IDに対応する訓練の単位を「訓練ジョブ」という。つまり、訓練ジョブとは、訓練のプログラムによって実行される一連の訓練プロセスを意味する。 In training the acoustic model, the variables of the acoustic model are changed so that the acoustic model generates acoustic features similar to those of the referenced sound waveform. For example, the training program P2 described in International Publication No. 2022/080395, the score data D1 (training score data), and the learning sound data D2 (training sound waveform) are used for training. The variables of the acoustic model (score encoder, sound encoder, and sound decoder) are changed so that acoustic features of a synthetic sound of a plurality of timbres corresponding to a plurality of sound source IDs can be generated by basic training using waveforms of a plurality of voices corresponding to a plurality of sound source IDs. Furthermore, by supplementarily training the trained acoustic model using a sound waveform of another timbre corresponding to a new (unused) sound source ID, the acoustic model can generate acoustic features of the timbre indicated by the new sound source ID. Specifically, by further performing supplementary training on an acoustic model already trained with the sound waveforms of the voices of XXX (multiple people) using a new sound source ID and the sound waveforms of the voice of YYY (one person), the variables of the acoustic model (at least the acoustic decoder) are changed so that the acoustic model becomes one that can generate acoustic features of YYY's voice. The unit of training of the acoustic model corresponding to the new sound source ID as described above is called a "training job." In other words, a training job refers to a series of training processes executed by a training program.
「プログラム」とは、プロセッサ及びメモリを備えたコンピュータにおいてプロセッサより実行される命令又は命令群を指す。「コンピュータ」は、プログラムの実行主体を指す総称である。例えば、サーバ(又はクライアント)によりプログラムが実行される場合、「コンピュータ」は、サーバ(又はクライアント)を指す。また、サーバとクライアントとの間の分散処理により「プログラム」が実行される場合、「コンピュータ」は、サーバ及びクライアントの両方を含む。この場合、「プログラム」は、「サーバで実行されるプログラム」及び「クライアントで実行されるプログラム」を含む。「プログラム」が、複数のサーバ間で分散処理される場合も同様に、「コンピュータ」は、複数のサーバを含み、「プログラム」は、各サーバで実行される各プログラムを含む。 A "program" refers to an instruction or group of instructions executed by a processor in a computer equipped with a processor and memory. A "computer" is a general term referring to the entity that executes a program. For example, when a program is executed by a server (or a client), the "computer" refers to the server (or the client). Also, when a "program" is executed by distributed processing between a server and a client, the "computer" includes both the server and the client. In this case, the "program" includes "a program executed by a server" and "a program executed by a client." Similarly, when a "program" is processed in a distributed manner among multiple servers, the "computer" includes the multiple servers, and the "program" includes each program executed by each server.
[1.第1実施形態]
[1-1.システムの全体構成]
図1は、本発明の一実施形態における音響モデル訓練システムの全体構成を示す図である。図1に示すように、音響モデル訓練システム10は、サーバ100(Server)、通信端末200(TM1)、及び通信端末300(TM2)を含む。サーバ100及び通信端末200、300は、それぞれネットワーク400に接続可能である。通信端末200及び通信端末300は、それぞれネットワーク400を介してサーバ100と通信できる。通信端末200を「第1デバイス」という場合がある。通信端末200を使用するユーザを「第1ユーザ」という場合がある。
[1. First embodiment]
[1-1. Overall system configuration]
Fig. 1 is a diagram showing the overall configuration of an acoustic model training system in one embodiment of the present invention. As shown in Fig. 1, the acoustic
本実施形態において、サーバ100は、音声合成器として機能し、音響モデルの訓練を実施するコンピュータである。サーバ100は、ストレージ110を備えている。図1では、ストレージ110がサーバ100に直接接続された構成が例示されているが、この構成に限定されない。例えば、ストレージ110が直接又は他のコンピュータを介してネットワーク400に接続され、サーバ100とストレージ110との間のデータの送受信がネットワーク400を介して行われていてもよい。
In this embodiment, the
通信端末200は、音響モデルを訓練するための訓練用音波形を選択し、サーバ100に訓練を実行する指示を送信する端末である。通信端末300は、通信端末200とは異なる端末であり、サーバ100にアクセス可能な端末である。詳細は後述するが、通信端末300は、訓練中の音響モデルに関する公開情報を閲覧又は試聴する端末である。通信端末200、300は、例えばスマートフォン若しくはタブレット端末などのモバイル用の通信端末、又は、デスクトップ型パソコンなどの据え置き用の通信端末を含む。
The
ネットワーク400は一般的なWorld Wide Web(WWW)サービスによって提供されるインターネット、WAN(Wide Area Network)、又は社内LANなどのLAN(Local Area Network)である。
[1-2.音声合成に用いられるサーバの構成]
図2は、本発明の一実施形態におけるサーバの構成を示すブロック図である。図2に示すように、サーバ100は、制御部101、RAM(Random Access Memory)102、ROM(Read Only Memory)103、ユーザインタフェース(UI)104、通信インターフェース105、及びストレージ110を備える。サーバ100の各機能部が協働することによって、本実施形態の音声合成技術が実現される。
[1-2. Configuration of the server used for speech synthesis]
Fig. 2 is a block diagram showing the configuration of a server according to an embodiment of the present invention. As shown in Fig. 2, the
制御部101は、中央演算処理装置(CPU:Central Processing Unit)、画像処理装置(GPU:Graphics Processing Unit)、当該CPU及びGPUに接続されたレジスタやメモリなどの記憶装置を含む。制御部101は、メモリに一時的に記憶されたプログラムをCPU及びGPUによって実行し、サーバ100に備えられた各機能を実現させる。具体的には、制御部101は、通信端末200からの各種要求信号に応じて演算処理を行い、通信端末200、300にコンテンツデータを提供する。
The
RAM102は、演算処理に必要な制御プログラム、音響モデル(アーキテクチャと変数で構成される)及びコンテンツデータなどを一時的に記憶する。また、RAM102は、例えばデータバッファとして使用され、通信端末200など、外部機器から受信した各種データを、ストレージ110に記憶させるまでの間、一時的に保持する。RAM12として、例えば、SRAM(Static Random Access Memory)又はDRAM(Dynamic Random Access Memory)などの汎用メモリを用いてもよい。
ROM103は、サーバ100の機能を実現させるための各種プログラム、各種音響モデル、及びパラメータ等を記憶する。ROM103に記憶されているプログラム、音響モデル、及びパラメータ等は、必要に応じて制御部101によって読み出され、実行ないし利用される。
The ROM 103 stores various programs, various acoustic models, parameters, etc. for implementing the functions of the
ユーザインタフェース104は、制御部101の制御によって、その表示器にグラフィカルユーザインタフェース(GUI)などの各種の表示画像を表示し、サーバ100のユーザからの入力を受け付ける。
Under the control of the
通信インターフェース105は、制御部101の制御によって、ネットワーク400に接続して、ネットワーク400に接続された通信端末200、300などの他の通信装置との間で、情報の送信及び受信を行うインターフェースである。
The communication interface 105 is an interface that connects to the
ストレージ110は、不揮発性メモリ、ハードディスクドライブなどの恒久的な情報の保持及び書き換えが可能な記録装置(記録媒体)である。ストレージ110は、プログラム、音響モデル、及び当該プログラムの実行に必要となるパラメータ等の情報を記憶する。図2に示すように、ストレージ110には、例えば音声合成プログラム111、訓練ジョブ112、楽譜データ113、及び音波形114が記憶されている。これらのプログラム及びデータは一般的な音声合成に係るものを使用することができ、例えば、国際公開第2022/080395号に記載された音声合成プログラムP1、訓練プログラムP2、楽譜データD1、及び音響データD2をそれぞれ用いてもよい。
The
上記のように、音声合成プログラム111は、楽譜データや音波形から合成音波形を生成するためのプログラムである。制御部101が音声合成プログラム111を実行するとき、制御部101は音響モデル120を使用して合成音波形を生成する。なお、当該合成音波形は、国際公開第2022/080395号に記載された音響データD3に対応する。訓練ジョブ112で制御部101により実行される音響モデル120の訓練プログラムは、例えば国際公開第2022/080395号に記載されたエンコーダ及び音響デコーダを訓練するプログラムである。楽譜データは、楽曲を規定するデータである。音波形は、音声又は演奏音の波形データであり、例えば歌手の歌声又は楽器の演奏音を示す波形データである。
As described above, the
[1-3.音声合成に用いられるサーバの機能構成]
図3は、本発明の一実施形態における音響モデルの概念を示すブロック図である。上記のように、音響モデル120は、図2の制御部101が音声合成プログラム111を読み出して実行するとき、その制御部101が実行する音声合成技術において使用される機械学習モデルである。音響モデル120は、音響特徴量を生成する。音響モデル120には、制御部101により、入力信号として所望の楽曲の楽譜データ113の楽譜特徴量123又は音波形114の音響特徴量124が入力される。音響モデル120を用いて、音源IDと当該楽譜特徴量123とを処理することにより、当該楽曲の合成音の音響特徴量129が生成される。制御部101は、その音響特徴量129に基づいて、当該楽曲を音源IDで特定される歌手が歌唱した又は楽器で演奏した合成音波形130を合成して出力する。又は、音響モデル120を用いて、音源IDと当該音響特徴量124とを処理することにより、当該楽曲の合成音の音響特徴量129を生成する。制御部101は、その音響特徴量129に基づいて、当該楽曲の音波形を音源IDで特定される歌手の歌声又は楽器の演奏音の音色に変換した合成音波形130を合成して出力する。
[1-3. Functional configuration of server used for speech synthesis]
FIG. 3 is a block diagram showing the concept of an acoustic model in one embodiment of the present invention. As described above, the
音響モデル120は、機械学習を利用した生成モデルであり、訓練プログラムを実行している(つまり、訓練ジョブ112を実行中の)制御部101によって訓練される。制御部101は、(未使用の)新たな音源IDと訓練用音波形を用いて音響モデル120を訓練し、音響モデル120(少なくとも音響デコーダ)の変数を決定する。具体的には、制御部101は、訓練用音波形から訓練用の音響特徴量を生成し、音響モデル120に新たな音源IDと訓練用の音響特徴量が入力された場合に、合成音波形130を生成する音響特徴量が訓練用の音響特徴量に近づくように、上記の変数を徐々に繰り返し変更する。訓練用音波形は、例えば、通信端末200又は通信端末300からサーバ100にアップロード(送信)され、ストレージ110にユーザデータとして保存されてもよく、参考データとしてサーバ100の管理者が予めストレージ110に保存したものでもよい。以下の説明において、ストレージ110に保存することをサーバ100に保存する、という場合がある。
The
[1-4.音声合成方法]
図4は、本発明の一実施形態における音響モデルの訓練方法及び音声合成方法を示すシーケンス図である。図4に示す音響モデルの訓練方法では、通信端末200がサーバ100に訓練用音波形をアップロードする例を示す。ただし、上記のように、訓練用音波形はその他の方法でサーバ100に予め保存されていてもよい。図4に示すシーケンスにおける訓練ジョブを「第1訓練ジョブ」という場合がある。通信端末200側の処理TM1の各ステップおよびサーバ100側の処理Serverの各ステップは、実際には、通信端末200の制御部およびサーバ100の制御部101がそれぞれ実行するが、ここでは説明を単純にするため、通信端末200およびサーバ100を各ステップの実行主体として表現する。特に断らない限り、以降のシーケンス図の説明やフローチャートの説明も同様である。
[1-4. Voice synthesis method]
FIG. 4 is a sequence diagram showing a method for training an acoustic model and a method for synthesizing speech in an embodiment of the present invention. In the method for training an acoustic model shown in FIG. 4, an example is shown in which the
図4に示すように、まず、通信端末200(第1デバイス)は、サーバ100の第1ユーザのアカウントにログインした第1ユーザの指示に基づいて、サーバ100に、1又は複数の訓練用音波形をアップロード(送信)する(ステップS401)。サーバ100は、S401で送信された訓練用音波形を、第1ユーザの記憶領域に記憶する(ステップS411)。サーバ100にアップロードされる音波形は1つでも、複数でもよく、複数の音波形は第1ユーザの記憶領域の複数のフォルダに分けて記憶されてもよい。上記のステップS401、411は、以下の訓練ジョブを実行するための準備に係るステップである。
As shown in FIG. 4, first, the communication terminal 200 (first device) uploads (transmits) one or more training sound waveforms to the
続いて、以下に訓練ジョブを実行するためのステップを説明する。通信端末200は、サーバ100に訓練ジョブの実行を要求する(ステップS402)。S402の要求に対して、サーバ100は、通信端末200に対して、予め保存された音波形(及び保存される予定の音波形)のうち訓練ジョブに使用する音波形を選択するためのグラフィカルユーザインターフェース(GUI)を提供する(ステップS412)。
Next, the steps for executing a training job are described below. The
通信端末200は、その表示器にS412で提供されたGUIを表示し、第1ユーザは、そのGUIを用いて、記憶領域(乃至所望のフォルダ)にアップロードされた複数の音波形から一以上の訓練用音波形を波形セット149(図5参照)として選択する(ステップS403)。S403で波形セット149(訓練用音波形)が選択された後に、第1ユーザからの指示に応じて、通信端末200は、訓練ジョブの実行開始を指示する(ステップS404)。
The
S404における通信端末200(第1デバイス)からの指示に基づいて、サーバ100は、選択された波形セット149を用いて訓練ジョブの実行を開始する(ステップS413)。換言すると、S413において、S412で提供されたGUIを介した第1ユーザの指示に基づいて訓練ジョブが実行される。
Based on the instruction from the communication terminal 200 (first device) in S404, the
訓練には、選択された波形セット149中の各波形が全部使用されるのではなく、無音区間やノイズ区間などを除いた有用区間のみを含む前処理済み波形セットが使用される。また、訓練される音響モデル120(ベース音響モデル)として、音響デコーダが未訓練の音響モデル120を用いてもよいが、複数の基本訓練済みの音響モデル120のうち、波形セット149の波形の音響特徴量に近い音響特徴量の生成を学習した音響デコーダを含む音響モデル120を選択して用いれば、訓練ジョブにかかる時間やコストを低減できる。何れの音響モデル120を選ぶとしても、楽譜エンコーダと音響エンコーダは、基本訓練済みのものを用いる。
For training, not all of the waveforms in the selected waveform set 149 are used, but a preprocessed waveform set that includes only useful sections excluding silent sections and noise sections is used. In addition, an
ベース音響モデルは、第1ユーザが選択した波形セット149に基づいて、サーバ100が決定してもよい。又は、第1ユーザが、複数の訓練済み音響モデルのいずれかをベース音響モデルとして選択して、第1実行指示にそのベース音響モデルを示す指定データを含めてもよい。音響デコーダに供給する音源ID(例えば、歌手ID、楽器IDなど)としては、未使用の新たな音源IDを用いる。ここで、新たな音源IDとしてどの音源IDを使用されたかを、ユーザは必ずしも知らなくてよい。ただ、訓練済みモデルを使用して音声合成する際には、自動的に、その新たな音源IDが用いられる。
The base acoustic model may be determined by the
訓練ジョブでは、前処理済み波形セットから一部の短波形を少しずつ取り出し、取り出した短波形を用いて音響モデル(少なくとも音響デコーダ)を訓練する、という単位訓練を繰り返す。単位訓練では、前記新たな音源IDと短波形の音響特徴量とを音響モデル120に入力し、それに応じて音響モデル120が出力する音響特徴量と入力した音響特徴量の間の差分が小さくなるよう、音響モデルの変数を調整する。変数の調整には、例えば、誤差逆伝搬法を用いる。単位訓練を繰り返すことで、前処理済み波形セットによる訓練が一通り終わったら、音響モデル120が生成する音響特徴量の品質を評価して、当該品質が所定の基準に達していなければ、その前処理済み波形セットを用いて、再び音響モデルの訓練を行う。音響モデル120が生成する音響特徴量の品質が所定の基準に達していれば、訓練ジョブは完了し、その時点の音響モデル120が訓練済み音響モデル120となる。
In the training job, a unit training is repeated in which some short waveforms are extracted little by little from the preprocessed waveform set, and the extracted short waveforms are used to train the acoustic model (at least the acoustic decoder). In the unit training, the new sound source ID and the acoustic features of the short waveforms are input to the
S413で訓練ジョブが完了することで、訓練済み音響モデル120が確立される(ステップS414)。この訓練済み音響モデル120を「第1音響モデル」という場合がある。サーバ100は、通信端末200に、訓練済み音響モデル120が確立されたことを通知する(ステップS415)。上記のS403~S415のステップが、音響モデル120の訓練ジョブである。
When the training job is completed in S413, the trained
S415の通知の後に、第1ユーザからの指示に応じて、通信端末200が、所望の楽曲の楽譜データを含む音声合成の指示をサーバ100に送信する(ステップS405)。それに応じて、サーバ100は、音声合成プログラムを実行して、その楽譜データに基づいて、S414で完成した訓練済み音響モデル120を用いた音声合成を実行する(ステップS416)。S416で生成された合成音波形130を通信端末200に送信する(ステップS417)。この音声合成では、前記新たな音源IDが用いられる。
After the notification in S415, in response to an instruction from the first user, the
S416及びS417を併せて、訓練ジョブによって訓練された訓練済み音響モデル120(音声合成機能)を、通信端末200(第1デバイス)ないし第1ユーザに提供する、ということができる。ステップS416の音声合成プログラムの実行を、サーバ100の代わりに、通信端末200で行ってもよい。その場合、サーバ100は、当該訓練済み音響モデル120を通信端末200に送信し、通信端末200は、受け取った訓練済み音響モデル120を用いて、前記新たな音源IDで、所望の楽曲の楽譜データに基づく音声合成処理を実行し、合成音波形130を取得する。
By combining S416 and S417, it can be said that the trained acoustic model 120 (voice synthesis function) trained by the training job is provided to the communication terminal 200 (first device) or the first user. The execution of the voice synthesis program in step S416 may be performed by the
本実施形態では、S402で訓練ジョブの実行を要求する前に、S401で訓練用音波形をアップロードしたが、この構成に限定されない。例えば、訓練用音波形のアップロードが、S404で訓練ジョブの実行を指示した後に行われてもよい。この場合、S403において、通信端末200に記憶された複数の音波形(未アップロードの音波形を含む)から、波形セット149として一以上の音波形が選択され、訓練ジョブの実行指示に応じて、選択された音波形のうちの未アップロードの音波形が、アップロードされてもよい。
In this embodiment, the training sound waveform is uploaded in S401 before the execution of the training job is requested in S402, but this configuration is not limited to this. For example, the training sound waveform may be uploaded after the execution of the training job is instructed in S404. In this case, in S403, one or more sound waveforms are selected as waveform set 149 from a plurality of sound waveforms (including sound waveforms that have not been uploaded) stored in the
[1-5.GUI140]
ここで、S412で提供されるGUIの一例について説明する。図5は、本発明の一実施形態における音響モデルの訓練方法における第1GUIの一例を示す図である。図5に示すGUI140は、通信端末200のユーザインタフェースに含まれる表示器に表示される。図5に示すように、GUI140には、訓練用音波形の候補として、音波形A、音波形B、・・・、音波形Z(例えば、特定のフォルダにアップロード済みの音波形)が表示される。それぞれの音波形の隣には、チェックボックス141、142、・・・、143が表示されている。上記のように訓練用音波形の候補として表示された音波形A、音波形B、・・・、音波形Zは、例えば、同一人による歌声に係る音波形であり、それぞれ楽曲や歌い方が異なっていてもよい。音波形は、同一の楽器の種々の演奏音であってもよい。
[1-5. GUI 140]
An example of the GUI provided in S412 will now be described. Fig. 5 is a diagram showing an example of a first GUI in the acoustic model training method according to an embodiment of the present invention. The
上記の構成を換言すると、S412において、サーバ100は、予め保存された複数の音波形(及び保存される予定の音波形)から、音響モデル120に対する訓練ジョブを実行させるための一以上の音波形を、波形セット149として第1ユーザに選択させるGUIを、通信端末200に提供する。
In other words, in S412, the
上記S403において、通信端末200の第1ユーザによって、図5に示すチェックボックス141、142、・・・、143がチェックされることで、訓練用音波形が選択される。図5では、訓練用音波形として、チェックボックス141、142がチェックされ、音波形A及び音波形Bが波形セット149として選択された例を示す。波形セット149として選択する波形は1つでも複数でもよい。
In S403 above, the first user of the
上記S404において、チェックボックス141、142が選択された状態で、実行ボタン144が押されたのに応じて、通信端末200は、S404の訓練ジョブの指示を実行する。当該訓練ジョブの指示に応じて、サーバ100は、音波形A及び音波形Bからなる波形セット149を用いた音響モデル120の訓練を開始する。実行ボタン144が押されるとは、実行ボタン144がクリック又はタップされることを含む。
In the above S404, when the execute
以上のように、本実施形態に係る音響モデル訓練システム10は、予めストレージ110に保存された複数の音波形(及び保存される予定の音波形)から一以上の音波形を選択して、選択された音波形を訓練用音波形として音響モデル120に対する訓練ジョブを実行する。上記の構成によって、通信端末200の第1ユーザは、未訓練の又は訓練済の音響モデル120を訓練することで、所望の音響モデル120を得る。なお、音波形のサーバ100へのアップロードは、波形セット149の選択や訓練ジョブの実行指示より後でもよい。つまり、訓練ジョブに使用する音波形は、訓練ジョブが開始されるより前の任意の時点で、通信端末200からサーバ100にアップロードされてもよい。また、音響デコーダが訓練済み音響モデルの補助訓練ならば、従来の音響モデル120に比べて、短時間かつ低コストで、訓練済み音響モデル120を得られる。
As described above, the acoustic
[2.第2実施形態]
図6及び図7を用いて、第2実施形態に係る音響モデル訓練システム10Aについて説明する。音響モデル訓練システム10Aの全体構成及びサーバに関するブロック図は第1実施形態に係る音響モデル訓練システム10と同じなので、説明を省略する。以下の説明において、第1実施形態と同じ構成については説明を省略し、主に第1実施形態と相違する点について説明する。以下の説明において、第1実施形態と同様の構成について説明をする場合、図1~図5を参照し、これらの図に示された符号の後にアルファベット“A”を付して説明する。
[2. Second embodiment]
An acoustic
[2-1.音声合成方法]
図6は、本発明の一実施形態における音響モデルの訓練方法及び音声合成方法を示すシーケンス図である。図6に示す音響モデルの訓練方法では、ユーザの指示で訓練ジョブの実行が開始されてから訓練済み音響モデルが完成するまでの間に、その訓練ジョブの進行状態を示す情報を、第3者に公開する構成について説明する。図6のステップS601以前のステップは、図4のS401~S403と同様なので、説明を省略する。図6のS601は図4のS404と同じである。以下の説明において、通信端末300Aを使用する、上記第3者に該当するユーザを「第2ユーザ」という場合がある。
[2-1. Voice synthesis method]
Fig. 6 is a sequence diagram showing a method for training an acoustic model and a method for synthesizing speech in an embodiment of the present invention. In the method for training an acoustic model shown in Fig. 6, a configuration is described in which information indicating the progress of a training job is made available to a third party from the time the execution of the training job is started at the instruction of a user until the trained acoustic model is completed. The steps before step S601 in Fig. 6 are the same as S401 to S403 in Fig. 4, and therefore will not be described. S601 in Fig. 6 is the same as S404 in Fig. 4. In the following description, a user who uses
S601における通信端末200Aからの第1ユーザによる実行指示に基づいて、サーバ100Aは、新たな音源IDと選択された波形セット149Aを用いて、ベース音響モデルの訓練ジョブの実行を開始する(ステップS611)。訓練ジョブの完了時には、その成果として、この波形セット149Aで訓練された訓練済み音響モデル120Aが得られる。S611において、訓練ジョブが開始されると、サーバ100Aは、通信端末200Aに対して訓練ジョブを開始したことを通知し、訓練ジョブの状態を示す状態情報を第3者への公開すること、つまり第3者による閲覧を許すことについて、その可否を通信端末200Aに問い合わせる(ステップS612)。通信端末200Aは、S612の問い合わせに対して、第1ユーザが訓練ジョブの状態を示す状態情報を公開する旨の公開指示を行なえば、その公開指示をサーバ100Aに送信する(ステップS602)。第1ユーザが公開指示を行わなければ、通信端末200Aは、公開指示を送信しない。この状態情報は、その公開指示の有無に関係なく通信端末200Aに送信され、その表示器に表示されて、第1ユーザにより閲覧される。
Based on the execution instruction from the first user from the
S602において、上記のように第1ユーザによる公開指示に基づいて、サーバ100Aは、S611で実行開始された第1ユーザの訓練ジョブの状態を示す状態情報を、通信端末300Aに対して公開する(ステップS613)。これにより、第3者は、通信端末300Aの表示器に表示されたその状態情報を閲覧できる。
In S602, based on the disclosure instruction from the first user as described above, the
なお、第1ユーザが、訓練ジョブの状態を示す状態情報を公開することに予め同意して公開指示が行われている場合は、S612、S602のステップを省略できる。つまり、その予め行われた第1ユーザの公開指示に基づいて、第1ユーザの訓練ジョブの状態を示す状態情報が第2ユーザに公開されてもよい。 Note that if the first user has agreed in advance to making the status information indicating the status of the training job public and has issued a disclosure instruction, steps S612 and S602 can be omitted. In other words, the status information indicating the status of the first user's training job may be made public to the second user based on the disclosure instruction issued in advance by the first user.
S622以降のS615~S618のステップは、図4のS414~S417のステップと同様なので、説明を省略する。 Steps S615 to S618 after S622 are similar to steps S414 to S417 in Figure 4, so their explanation will be omitted.
図6では、訓練ジョブを実行する指示を出した通信端末200Aとは異なる通信端末300Aが、試聴要求を実行する主体である構成を例示したが、この構成に限定されない。例えば、訓練ジョブの実行を指示した通信端末200A(第1ユーザ)が、自ら訓練ジョブの進行度を確認するために、試聴要求を実行してもよい。例えば、通信端末200Aが試聴要求をすることで、進行度が100%に達していなくても、第1ユーザが試聴用の合成音波形に満足するタイミングで訓練ジョブを終了できる。
In FIG. 6, a configuration is illustrated in which a
[2-2.GUI150A]
ここで、S613で提供されるGUIの一例について説明する。図7は、本発明の一実施形態における音響モデルの情報公開及び試聴要求に係るGUIの一例を示す図である。図7に示すGUI150Aは、通信端末200A、300Aの表示器に表示される。
[2-2.
Here, an example of a GUI provided in S613 will be described. FIG. 7 is a diagram showing an example of a GUI related to disclosure of acoustic model information and a preview request in an embodiment of the present invention. is displayed on the display of
図7に示すように、GUI150Aには、状態情報に応じた進行度を示す項目151A及び詳細情報を示す項目152Aと、試聴を要求する試聴ボタン157Aとが表示されている。本実施形態では、進行度を示す項目151Aは、音響モデル120Aの訓練ジョブの進行度を示している。ただし、当該項目151Aは、例えば完了予想を100%とする経過時間、及び音響モデル120Aの変数の変化の程度など、完成度以外の項目であってもよい。
As shown in FIG. 7,
項目151Aは、訓練ジョブの進行度をパーセント表示するプログレスバーである。項目151Aにおいて、進行度が示す現在の状態は、訓練ジョブの開始時に見積もられた総訓練量に対する現在の訓練量であってもよく、訓練ジョブの実行中における音響モデル120Aの変数の変化の様子から見積もられた総訓練量に対する現在の訓練量であってもよい。つまり、訓練ジョブの状態は時間経過に応じて変化し、サーバ100Aは、当該訓練ジョブの状態の経時変化を示す進行度を、項目151Aとして通信端末に提供して表示する。訓練ジョブの状態は時間経過に応じて変化するため、サーバ100Aは、訓練ジョブの状態を示す状態情報を、その情報が変化したときに、或いは、一定時間ごとに、繰り返し更新し、通信端末200A、300Aに対して繰り返し提供する。
本実施形態では、訓練ジョブの状態を示す状態情報が、通信端末200A、300Aに対して繰り返しリアルタイムに提供する構成を例示したが、この構成に限定されない。例えば、当該状態情報は、通信端末200A、300Aの各々に対して1回だけ提供可能な構成であってもよい。又は、当該状態情報は、通信端末300Aを用いた第2ユーザによる公開要求に基づいて、当該公開要求のタイミングの上記状態情報が通信端末300A(第2デバイス)に表示されてもよい。
In this embodiment, a configuration has been exemplified in which status information indicating the status of a training job is repeatedly provided to
図7では、進行度を示す項目151Aとして、プログレスバーが表示された構成を例示したが、この構成に限定されない。例えば、進行度を数値でパーセント表示をしてもよい。
In FIG. 7, a progress bar is shown as an example of
項目152Aは、訓練ジョブの詳細を示す情報である。図7では、項目152Aの詳細情報の一例として、音響モデル名称153A、訓練用音波形154A、完了予想155A、及び訓練実行者156Aが表示されている。音響モデル名称153Aは、第1ユーザが設定した名称である。例えば、「音声X→Y」は、X(一人若しくは複数人の歌手X、または1つ若しくは複数の楽器X)の音声を合成する訓練前の音響モデル120A(ベース音響モデル)を、実行中の訓練ジョブによって、Y(新たな歌手Yまたは楽器Y)の音声を合成する訓練済み音響モデル120Aに変化させることを意味する。訓練用音波形154Aは、実行中の訓練ジョブにおいて、音響モデル120Aの訓練に使用される音波形を示す。図7の例は、音響モデル120Aのために音波形Bが使用されることを意味する。完了予想155Aは、実行中の訓練ジョブの進行度が100%に達すると予想される日時を示す。訓練実行者156Aは、実行中の訓練ジョブを実行したユーザ名を示す。当該ユーザ名は、アカウント名であってもよく、ニックネームであってもよい。図7では、訓練実行者156Aは「U1」である。U1はYに係る歌手又は演奏者と同一でもよく、異なってもよい。
試聴ボタン157Aは、後述する試聴要求を実行するボタンである。例えば、図6において、S613における情報公開の後に、第2ユーザが試聴ボタン157Aを押すことによって、通信端末300Aがサーバ100Aに対して合成音声の試聴を要求する(ステップS621)。S621において試聴要求が実行されると、サーバ100Aは、当該試聴要求が実行された時点における進行度の音響モデル120Aを用いた試聴用の音声合成を、前記新たな音源IDを用いて実行し、試聴用の合成音波形を提供する(ステップS614)。当該試聴用の合成音波形の提供によって、通信端末300Aは、上記の時点における音響モデル120Aによって生成された合成音声を試聴できる(ステップS622)。当然ながら、この試聴は、通信端末200Aでも行える。
訓練ジョブは、ある一群の処理(バッチ)を単位として、バッチ単位でまとめて実行される。上記の試聴要求が実行された時点で、音響モデル120Aが1つのバッチ処理の最中である場合、直前のバッチ処理で得られた音響モデル120Aで生成した試聴用の合成音波形を提供してもよいし、その時点以後で、実行中のバッチ処理が完了したタイミングで、得られた音響モデル120Aで生成した試聴用の合成音波形の提供を行ってもよい。つまり、サーバ100Aは、通信端末200A、300Aからの試聴要求に基づいて、当該試聴要求のタイミングに応じた音響モデル120Aによる試聴用の合成音波形を、第1および第2ユーザに提供する。
Training jobs are executed in batches, with each batch being a group of processes. If acoustic model 120A is in the middle of a batch process at the time the preview request is executed, the synthetic sound waveform for preview generated by acoustic model 120A obtained in the immediately preceding batch process may be provided, or after that point, when the ongoing batch process is completed, the synthetic sound waveform for preview generated by the obtained acoustic model 120A may be provided. In other words, based on the preview request from
以上のように、本実施形態に係る音響モデル訓練システム10Aによると、通信端末300Aの第2ユーザは、訓練ジョブによって音響モデル120Aが訓練され、確立されていく過程を閲覧できる。又は、通信端末200Aの第1ユーザは、上記のように、進行度が100%に達していなくても、満足するタイミングで訓練ジョブを終了できる。
As described above, according to the acoustic
[3.第3実施形態]
図8及び図9を用いて、第3実施形態に係る音響モデル訓練システム10Bについて説明する。音響モデル訓練システム10Bの全体構成及びサーバに関するブロック図は第1実施形態に係る音響モデル訓練システム10と同じなので、説明を省略する。以下の説明において、第1実施形態と同じ構成については説明を省略し、主に第1実施形態と相違する点について説明する。以下の説明において、第1実施形態と同様の構成について説明をする場合、図1~図5を参照し、これらの図に示された符号の後にアルファベット“B”を付して説明する。
[3. Third embodiment]
An acoustic
[3-1.音声合成方法]
図8は、本発明の一実施形態における音響モデルの訓練方法及び音声合成方法を示すシーケンス図である。図8に示す音響モデルの訓練方法では、第1訓練ジョブ及び第2訓練ジョブが並行して実行されており、各々の訓練ジョブに関する状態情報を第3者に対して選択的に公開する構成について説明する。図8のステップS801以前のステップは、図4のS401~S403と同様なので、説明を省略する。図8のS801は図4のS404と同じである。
[3-1. Voice synthesis method]
Fig. 8 is a sequence diagram showing an acoustic model training method and a speech synthesis method in one embodiment of the present invention. In the acoustic model training method shown in Fig. 8, a first training job and a second training job are executed in parallel, and a configuration in which state information regarding each training job is selectively made public to a third party will be described. Steps before step S801 in Fig. 8 are the same as S401 to S403 in Fig. 4, and therefore description thereof will be omitted. S801 in Fig. 8 is the same as S404 in Fig. 4.
S801における通信端末200Bからの第1実行指示に基づいて、サーバ100Bは、新たな音源IDと第1ユーザの選択した第1波形セットを用いて、第1ベース音響モデルの第1訓練ジョブを実行する(ステップS811)。S811において、第1訓練ジョブが開始されると、サーバ100Bは、通信端末200Bに対して第1訓練ジョブを開始したことを通知し、第1訓練ジョブに関する第1状態情報を第3者に公開することについて、可否を通信端末200Bに問い合わせる(ステップS812)。本実施形態において、上記の「第3者」は第2ユーザに該当する。通信端末200Bは、S812の問い合わせに対して、第1状態情報を公開する旨の公開指示をサーバ100Bに送信する(ステップS802)。
Based on the first execution instruction from the
S802において、上記のように第1ユーザによる第1公開指示に基づいて、サーバ100Bは、S811で実行された第1訓練ジョブに関する第1状態情報を、通信端末300B(第2ユーザ)に対して公開する(ステップS813)。第1ユーザが第1公開指示をしなかった場合は、サーバ100Bは、第2ユーザに第1状態情報を公開しない。
In S802, based on the first disclosure instruction by the first user as described above, the
続いて、S803における通信端末200Bからの第2実行指示に基づいて、サーバ100Bは、新たな音源IDと第1ユーザが選択した第2波形セットを用いて、第2ベース音響モデルの第2訓練ジョブを実行する(ステップS814)。S811、S814によって、第1訓練ジョブ及び第2訓練ジョブが並行して実行される。第1ベース音響モデルと第2ベース音響モデルとは相互に独立であり、両者の用いる音源ID間には何の関連性もない。例えば、n個の訓練ジョブを並行処理する場合は、n個の仮想マシンを起動することによって実現される。第2訓練ジョブに用いられる第2波形セットは第1訓練ジョブに用いられる第1波形セットと異なるが、第2訓練ジョブの訓練プログラムは第1訓練ジョブの訓練プログラムと同じである。第1訓練ジョブの完了時には、その成果として、第1波形セットで訓練された第1訓練済み音響モデルが得られ、また、第2訓練ジョブの完了時には、その成果として、第2波形セットで訓練された第2訓練済み音響モデルが得られる。
Next, based on the second execution instruction from the
第2訓練ジョブを実行する方法は第1訓練ジョブを実行する方法と同様である。第2訓練ジョブでは、第1ユーザが、予め保存された複数の音波形(及び保存される予定の音波形)から選択した一以上の音波形である第2波形セットが使用される。 The method for executing the second training job is similar to the method for executing the first training job. In the second training job, a second waveform set is used, which is one or more sound waveforms selected by the first user from a plurality of pre-stored sound waveforms (and sound waveforms to be stored).
S814において、第2訓練ジョブが開始されると、サーバ100Bは、通信端末200Bに対して第2訓練ジョブを開始したことを通知し、第2訓練ジョブに関する第2状態情報の公開可否を通信端末200Bに問い合わせる(ステップS815)。通信端末200Bは、この問い合わせに対して、第2訓練ジョブに関する第2状態情報を公開する旨の第2公開指示をサーバ100Bに送信する(ステップS804)。第2公開指示を受信したサーバ100Bは、S814で実行された第2訓練ジョブに関する第2状態情報を、通信端末300B(第2ユーザ)に対して公開する(ステップS816)。第1ユーザが第2公開指示をしなかった場合は、サーバ100Bは、第2ユーザに第2状態情報を公開しない。
When the second training job is started in S814, the
なお、第1ユーザが、第1訓練ジョブ又は第2訓練ジョブに関する状態情報を公開することに予め同意して公開指示が行われている場合は、S812、S802、S815、S804のステップを省略できる。つまり、その予め行われた第1ユーザの公開指示に基づいて、第1訓練ジョブ又は第2訓練ジョブに関する状態情報が第2ユーザに公開されてもよい。 Note that if the first user has agreed in advance to making the status information regarding the first training job or the second training job public and has issued a disclosure instruction, steps S812, S802, S815, and S804 can be omitted. In other words, the status information regarding the first training job or the second training job may be made public to the second user based on the disclosure instruction issued in advance by the first user.
S816以降のS831~S821のステップは、基本的には、図6のS621~S618のステップと同様であるが、第1訓練ジョブと第2訓練ジョブの各々について、個別に実行される。 Steps S831 to S821 after S816 are basically the same as steps S621 to S618 in FIG. 6, but are executed separately for each of the first training job and the second training job.
[3-2.GUI160B]
ここで、S815で第1ユーザに対して提供されるGUIの一例について説明する。図9は、本発明の一実施形態における音響モデルの訓練時に公開情報を設定するときの公開設定用GUIの一例を示す図である。図9に示すGUI160Bは、第1ユーザの通信端末200B表示器に表示される。
[3-2.
Here, an example of a GUI provided to the first user in S815 will be described. Fig. 9 is a diagram showing an example of a public setting GUI when setting public information during training of an acoustic model in an embodiment of the present invention. The
図9に示すように、GUI160Bは、訓練ジョブの状態情報を公開する際に、どのような情報を公開するか設定する画面である。本実施形態では、公開設定項目161Bには、第1訓練ジョブの項目162B及び第2訓練ジョブの項目167Bがある。第1訓練ジョブ162Bには、詳細設定の一例として、音響モデル名称163B、訓練用音波形164B、完了予想165B、及び訓練実行者166Bの項目が表示されている。第2訓練ジョブ167Bには、詳細設定の一例として、音響モデル名称168B、訓練用音波形169B、完了予想170B、及び訓練実行者171Bの項目が表示されている。上記の各項目は図7に示す各項目と同じなので、説明を省略する。
As shown in FIG. 9,
図9のGUI160Bにおいて、ユーザによって選択された項目は『黒塗りの四角形(■)』で表示されており、ユーザ選択されていない項目は『白抜きの四角形(□)』で表示されている。第1ユーザによって第1訓練ジョブ162Bの項目が選択されると、第1訓練ジョブに係る詳細項目は、全て自動的に選択される。この場合、第1訓練ジョブに係る全ての項目が公開対象となる。第2訓練ジョブ167Bの項目が非選択の場合、第1ユーザは、第2訓練ジョブに係る詳細項目を個別に選択できる。図9の場合、音響モデル名称168B及び訓練用音波形169Bの項目のみが選択されている。この場合、第2訓練ジョブについて、選択された詳細項目のみが公開対象となる。第1通信端末は、第1訓練ジョブの第1状態情報のうち、第1ユーザにより公開対象として選択された範囲の情報について、サーバ100Bに第1公開指示を送信し(S802およびS804)、第2訓練ジョブの第2状態情報のうち、第1ユーザにより公開対象として選択された範囲の情報について、第2公開指示を送信する(S804)。つまり、サーバ100Bは、第1ユーザによる公開指示に基づいて、第1状態情報及び第2状態情報の少なくとも一方を、個別にかつ選択的に、第2ユーザに公開する(通信端末300Bに提供する)。第1訓練ジョブ及び第2訓練ジョブの複数の項目のうち、公開指示を受け取らなかった項目については、対応する状態情報を第2ユーザに公開しない。
In
なお、S812においても上記と同様のGUIが提供されるが、そのGUIでは、第1訓練ジョブ162Bに関係する項目のみが表示される。 Note that in S812, a GUI similar to the above is provided, but in that GUI, only items related to the first training job 162B are displayed.
公開ボタン172Bは、訓練中の音響モデルに関する情報公開を指示するボタンである。図8のS804において、第1ユーザが公開ボタン172Bを押すことによって、第1訓練ジョブ及び第2訓練ジョブの状態情報のうち、ユーザによって選択された公開対象項目の公開指示が、通信端末200Bからサーバ100Bに送信され、その公開対象項目の状態情報が図7と同様の形式で第3者に公開される(ステップS816)。
The publish button 172B is a button that instructs the disclosure of information about the acoustic model being trained. In S804 of FIG. 8, when the first user presses the publish button 172B, an instruction to publish items to be published selected by the user from among the status information of the first training job and the second training job is sent from the
以上のように、本実施形態に係る音響モデル訓練システム10Bによると、第1ユーザは、自身が起動した複数の訓練ジョブを、第3者に対して個別に公開できる。また、第1ユーザは、訓練ジョブの詳細項目ごとに、公開する項目と公開しない項目とを自由に設定できる。
As described above, according to the acoustic
[4.第4実施形態]
図10を用いて、第4実施形態に係る音響モデル訓練システム10Cについて説明する。音響モデル訓練システム10Cの全体構成及びサーバに関するブロック図は第1実施形態に係る音響モデル訓練システム10と同じなので、説明を省略する。以下の説明において、第1実施形態と同じ構成については説明を省略し、主に第1実施形態と相違する点について説明する。以下の説明において、第1実施形態と同様の構成について説明をする場合、図1~図5を参照し、これらの図に示された符号の後にアルファベット“C”を付して説明する。
[4. Fourth embodiment]
An acoustic
[4-1.音声合成方法]
図10は、本発明の一実施形態における音響モデルの訓練方法を示すフローチャートである。図10に示す音響モデルの訓練方法では、ユーザにより課金に対する支払いが実行されたことを条件に、そのユーザが実行指示した訓練ジョブを実行する。図10では、図4のS404の訓練ジョブ指示からS413の訓練ジョブ実行までの間に行われる動作について説明する。図10のステップS1001、S1004は、それぞれ図4のS404、S413と同じである。
[4-1. Voice synthesis method]
Fig. 10 is a flowchart showing a method for training an acoustic model in one embodiment of the present invention. In the method for training an acoustic model shown in Fig. 10, a training job instructed by a user is executed on the condition that the user has paid the charge. Fig. 10 explains the operations performed from the instruction of a training job in S404 in Fig. 4 to the execution of the training job in S413. Steps S1001 and S1004 in Fig. 10 are the same as S404 and S413 in Fig. 4, respectively.
図10に示すように、S1001で通信端末200Cによって、訓練ジョブの実行指示(第1実行指示)がサーバ100Cに送信される。続いて、その実行指示を受け取ったサーバ100Cによって、訓練ジョブの実行を指示した第1ユーザに対する課金が実行され、通信端末200Cに課金に係る情報が通知される(ステップS1002)。当該通知の後に、サーバ100Cによって、通信端末200Cがサーバ100Cの運営者に対してその課金の支払いを実行したか否かの判断が行われる(ステップS1003)。通信端末200Cがその支払いを実行すると(S1003の「Yes」)、サーバ100Cによって、選択された波形セットを用いて、その課金の範囲で、ベース音響モデルに対し、その実行指示された訓練ジョブが実行される(ステップS1004)。一方、通信端末200Cがその支払いを実行しないと(S1003の「No」)、サーバ100Cによる訓練ジョブは実行されず、通信端末200Cに対してエラー(訓練ジョブの不実行)が通知される(ステップS1005)。サーバ100Cは、S1002の課金処理を、サーバ100Cの制御部が単位時間の訓練ジョブを行う(S1004)ごとに実行し、第1ユーザからの支払いを得れば(S1003)、訓練中の音響モデルに対して、次の単位時間の訓練ジョブを実行(S1004)してもよい。 As shown in FIG. 10, in S1001, communication terminal 200C transmits an instruction to execute a training job (first execution instruction) to server 100C. Next, server 100C, which has received the execution instruction, charges the first user who instructed the execution of the training job, and notifies communication terminal 200C of information related to the charge (step S1002). After the notification, server 100C determines whether communication terminal 200C has paid the charge to the operator of server 100C (step S1003). When communication terminal 200C has made the payment ("Yes" in S1003), server 100C executes the instructed training job on the base acoustic model using the selected waveform set, within the scope of the charge (step S1004). On the other hand, if the communication terminal 200C does not make the payment ("No" in S1003), the training job is not executed by the server 100C, and an error (non-execution of the training job) is notified to the communication terminal 200C (step S1005). The server 100C executes the billing process of S1002 each time the control unit of the server 100C executes a training job for a unit time (S1004), and when payment is received from the first user (S1003), the server 100C may execute the training job for the next unit time for the acoustic model being trained (S1004).
以上のように、本実施形態に係る音響モデル訓練システム10Cによると、第1ユーザは、支払った分に見合う訓練ジョブを、サーバ100Cに実行させることができる。
As described above, according to the acoustic
[5.第5実施形態]
図11~図14を用いて、第5実施形態に係る音響モデル訓練システム10Dについて説明する。音響モデル訓練システム10Dの全体構成及びサーバに関するブロック図は第1実施形態に係る音響モデル訓練システム10と同じなので、説明を省略する。以下の説明において、第1実施形態と同じ構成については説明を省略し、主に第1実施形態と相違する点について説明する。以下の説明において、第1実施形態と同様の構成について説明をする場合、図1~図5を参照し、これらの図に示された符号の後にアルファベット“D”を付して説明する。
[5. Fifth embodiment]
An acoustic
[5-1.音声合成方法]
図11は、本発明の一実施形態における音響モデルの訓練に用いる音波形の収録方法を示すシーケンス図である。図11に示す収録方法では、例えばカラオケボックスなどの録音用空間で訓練用音波形の録音及びサーバへのアップロードを実行する構成について説明する。録音用空間は実空間である。以下の説明において、録音用空間としてレンタル空間を例示する。
[5-1. Voice synthesis method]
Fig. 11 is a sequence diagram showing a method for recording a sound waveform used for training an acoustic model in one embodiment of the present invention. In the recording method shown in Fig. 11, a configuration is described in which a training sound waveform is recorded in a recording space such as a karaoke box and uploaded to a server. The recording space is a real space. In the following description, a rental space is exemplified as the recording space.
図11に示すカラオケサーバ500Dは、例えば、カラオケボックス及びカラオケブース等の貸出を統括するサーバ又はコンピュータである。カラオケサーバ500Dは、例えば一店舗に備えられたカラオケボックス及びカラオケブースなどの複数のレンタル空間の何れか1つのレンタル空間を特定する空間ID、及び各レンタル空間が利用可能か否かを示す利用可能性を管理する。レンタル空間は、カラオケボックスなどの完全に閉じられた空間でもよいし、カラオケブースなどのように、一部が外部に開放された空間でもよい。各レンタル空間には、録音機能とカラオケサーバ500Dとの通信機能とを備えたカラオケ機器が設置されている。カラオケサーバ500Dは、ネットワーク400Dに接続可能であり、ネットワーク400Dを介してサーバ100Dと通信できる。本実施形態において、サーバ100Dは、カラオケサーバ500Dに対するレンタル空間の利用予約業務を代行する。ただし、詳細は後述するが、この構成に限定されない。
The
まず、通信端末200Dは、サーバ100Dが提供する音響モデル訓練サービスに対してログインをする(ステップS1101)。S1101において、通信端末200Dは、サーバ100Dに対して、当該サービスを利用する第1ユーザが入力したアカウント情報(例えば、ユーザIDとパスワード)を送信する。サーバ100Dは、通信端末200Dから受信したアカウント情報に基づいてユーザ認証を行い、第1ユーザのそのユーザIDのアカウントへのログインを承認する(ステップS1111)。ユーザ認証は、サーバ100Dではなく、外部の認証サーバで行ってもよい。
First, the
通信端末200Dは、S1111でログインしたユーザIDにおいて、当該サービスの利用を含む所望の日時における所望の空間IDのレンタル空間の予約を要求する(ステップS1102)。サーバ100Dは、S1102の予約要求を受けると、カラオケサーバ500Dに対して当該日時における当該空間IDのレンタル空間の利用状況又は空き状況を確認する(ステップS1112)。カラオケサーバ500Dは、当該レンタル空間が利用可能であれば、予約を行い(ステップS1121)、当該日時における当該空間IDのレンタル空間の予約が完了した旨の予約完了情報をサーバ100Dに送信する。前記予約要求で、第1ユーザが前払いを指定している場合は、ステップS1121で、レンタル料と当該サービスの利用料の課金を行う。当該サービスの利用料は、レンタル空間の利用後に実行される、そこでの収録波形を用いた基本的な訓練ジョブの対価である。通信端末200Dは、レンタル空間の予約要求をカラオケサーバに対して行い、その予約要求に応じて予約を行ったカラオケサーバ500Dからサーバ100Dに、その予約に係るユーザIDと空間IDを含む予約完了情報を送信してもよい。
The
サーバ100Dは、カラオケサーバ500Dから予約完了情報を受信すると(ステップS1113)、当該予約完了情報に係る空間IDと第1ユーザのユーザIDとをリンクさせる(ステップS1114)。そして、予約が完了したことを通信端末200Dに通知する(ステップS1115)。予約完了通知は、カラオケサーバ500Dから通信端末200Dに送られてもよい。
When the
通信端末200Dが予約完了通知を受けると、通信端末200Dは第1ユーザに対して、予約が完了したこと、並びに、予約されたレンタル空間及び日時を特定する情報を表示する。上記のレンタル空間を特定する情報は、例えば空間IDで特定されるカラオケボックスの部屋番号である。第1ユーザが、予約した日時に、予約されたレンタル空間に移動し、レンタル空間に備えられたカラオケ機器を操作して所望の楽曲を選択することで、その楽曲の伴奏が当該レンタル空間で再生される。第1ユーザはカラオケ機器を用いて録音開始指示及び録音終了指示を実行する。これらの指示に伴い、カラオケサーバ500Dでは、第1ユーザの歌声又は楽器の演奏音を録音する(ステップS1122)。
When the
レンタル空間の利用時間が終了したとき(録音完了)、カラオケサーバ500D(レンタル業者)は、レンタル空間と訓練ジョブの利用料が先払いされていなければ、その利用料を第1ユーザに課金し、第1ユーザは、カラオケサーバ500Dの端末にて、その利用料金を支払う。レンタル料金とセットなので、訓練ジョブの利用料は、その分だけS1002での課金よりディスカウントしてもよい。第1ユーザは、録音完了した音波形(波形データ)から、サーバ100Dにアップロードする音波形を選択し、さらに、訓練ジョブの利用料が支払われた場合、アップロードする音波形の中からその訓練ジョブに使用する波形セットを選択する。カラオケサーバ500Dは、選択された音波形及び録音が行われた空間IDをサーバ100Dの第1ユーザのユーザIDで特定される、第1ユーザの記憶領域にアップロードする(ステップS1123)。
When the usage time of the rental space ends (recording is completed), the
サーバ100Dは、アップロードされた音波形及び空間IDを、第1ユーザの記憶領域に互いにリンクさせて記憶する(ステップS1116)。サーバ100Dにアップロードされ、記憶される音波形は1つであってもよく、複数であってもよい。
The
S1114で、空間IDと第1ユーザのユーザIDとがリンクし、S1116で、アップロードされた音波形と空間IDとがリンクする。したがって、サーバ100Dは、図12に示すように、第1ユーザのユーザID180D、空間ID181D、及びアップロードされた音波形182Dをリンクして記憶する。図12は、本発明の一実施形態において、サーバによって管理されるデータの例である。ユーザID180Dは、図11のS1111でログインしたアカウントのユーザIDであり、後述する図13の各データは、ユーザIDに対応した記憶領域に記憶される。空間ID181Dは、図11のS1122で録音が行われた空間の空間IDである。音波形182Dは、図11のS1122で録音され、S1123でサーバ100Dに送信された音波形である。
In S1114, the space ID and the user ID of the first user are linked, and in S1116, the uploaded sound waveform and the space ID are linked. Therefore, as shown in FIG. 12, the
サーバ100Dは、S1123で音波形がアップロードされた記憶領域から、当該音波形をアップロードした第1ユーザのユーザIDを特定する(ステップS1117)。その後、第1ユーザからの指示に基づいて、サーバ100Dは、新たな音源IDとアップロードされた音波形を用いて、ベース音響モデルの訓練ジョブを実行する(ステップS1118)。
The
ここで、S1123でカラオケサーバ500Dからサーバ100Dにアップロードされるデータについて図13を用いて説明する。図11の説明では、S1123で第1ユーザの歌声又は演奏音を示す音波形だけがサーバ100Dにアップロードされる構成を例示したが、この構成に限定されない。例えば、歌声の場合、図13に示すように、カラオケ機器によってレンタル空間に供給される楽曲のガイドメロディを構成する音を示す音高データ503D及び楽曲の歌詞を示すテキストデータ502Dが、当該音波形501Dとともにサーバ100Dにアップロードされてもよい。演奏音の場合は、テキストデータ502Dはアップロードされない。
The data uploaded from the
カラオケサーバ500Dが、S1122で録音されたデータを、S1123でサーバ100Dにアップロードするステップについて図14を用いて説明する。図11の説明では、S1122で録音された音波形が、特段のステップを経ることなく、S1123でサーバ100Dにアップロードされる構成を例示したが、この構成に限定されない。例えば、図14に示すように、録音された音波形に係る音声データを再生したうえで、第1ユーザが、その音波形のアップロードの要否を判断してもよい。図14の例では、カラオケ機器又は通信端末200Dを使用して、第1ユーザに対して、録音された音波形の再生要否、当該音波形のアップロード要否、再録音の要否、及び動作終了の要否を問い合わせる。これらの4つの問い合わせは、一つのGUIで順番に表示されてもよく、再生ボタン、アップロードボタン、再録音ボタン、及び終了ボタンとして並列にGUI上に表示されてもよい。
The step in which the
図11のS1122で音声データの録音が完了した後に、図14に示すように、カラオケサーバ500Dは、第1ユーザによる再生指示の有無を判断する(ステップS1401)。S1401で再生指示があった場合(S1401の「Yes」)、カラオケサーバ500Dは、カラオケ機器を使用して、図11のS1122で録音された音声データを、録音が行われたレンタル空間で再生する(ステップS1402)。当該再生の際に、当該音声データのみを再生してもよく、当該音声データをガイドメロディとともに再生してもよい。S1402で再生が行われた後、再びS1401のステップに戻る。S1401で再生指示がない場合(S1401の「No」)、S1402の再生を実行せずに次のステップに進む。
After the recording of the audio data is completed in S1122 of FIG. 11, as shown in FIG. 14, the
続いて、図11のS1122で録音された音声データについて、アップロードの要否が判断される(ステップS1403)。例えば、カラオケサーバ500Dは、第1ユーザに対して、録音された音声データをアップロードするか否かを選択するGUIを提供し、第1ユーザによる選択に従ってアップロードの要否を判断する。
Next, a determination is made as to whether or not uploading is required for the voice data recorded in S1122 of FIG. 11 (step S1403). For example, the
S1403でアップロードが必要であると判断された場合(S1403の「Yes」)、図11のS1123のアップロードが実行され、上記の動作が終了する。一方、S1403でアップロードを実行する指示がない場合(S1403の「No」)、再録音の要否が判断される(ステップS1404)。例えば、カラオケサーバ500Dは、第1ユーザに対して、再録音を行うか否かを選択するGUIを提供し、第1ユーザによる選択に従って再録音の要否を判断する。
If it is determined in S1403 that uploading is necessary ("Yes" in S1403), the upload in S1123 of FIG. 11 is executed, and the above operation ends. On the other hand, if there is no instruction to execute uploading in S1403 ("No" in S1403), a determination is made as to whether or not re-recording is necessary (step S1404). For example, the
S1404で再録音が必要であると判断された場合(S1404の「Yes」)、カラオケサーバ500Dは、図11のS1122と同様の方法で再録音を行う(ステップS1405)。S1405の再録音が終了すると、再度、S1401で再生指示の有無が判断される。S1404で再録音を開始する指示がない場合(S1404の「No」)、動作終了の可否が判断される(ステップS1406)。S1406で動作を終了していいと判断された場合(S1406の「Yes」)、上記の動作が終了する。一方、S1406で動作終了の指示がない場合(S1406の「No」)、S1401のステップに戻る。S1401における再生指示、S1403におけるアップロード実行指示、S1404における再録音の開始指示、及びS1406の終了指示がない場合、カラオケサーバ500Dは、これらの判断ステップを繰り返し実行する。
If it is determined in S1404 that re-recording is necessary ("Yes" in S1404), the
本実施形態では、サーバ100Dが、カラオケサーバ500Dに対するレンタル空間の利用予約業務を代行する構成を例示したが、この構成に限定されない。例えば、カラオケサーバ500Dが、レンタル空間の利用予約業務を行ってもよい。その場合、サーバ100Dとカラオケサーバ500Dは、第1ユーザの第1アカウント情報を共有する。さらに、サーバ100Dは、カラオケサーバ500Dから受信した空間IDと音波形を、第1ユーザのユーザID(第1アカウント情報)にリンクして記憶する。その後のステップは、図11のS1122以降と同様である。
In this embodiment, the
図11のS1122における録音開始指示及び録音終了指示は、楽曲の開始及び終了によって実行されてもよく、第1ユーザの任意の操作によって実行されてもよい。つまり、第1ユーザの録音指示に基づいて、楽曲の再生期間のうち指定された期間の音声データのみを収録してもよい。録音開始指示及び録音終了指示は、カラオケ機器を用いて実行されてもよく、通信端末200Dを用いて実行されてもよい。つまり、S1122の録音は、楽曲の再生期間の少なくとも一部の期間だけ実行されてもよい。上記の構成を換言すると、図13に示すように、サーバ100Dは、レンタル空間において提供された、楽曲の第1ユーザが歌唱ないし演奏するパートの音を示す音高データ503Dや楽曲の歌詞を示すテキストデータ502Dを、楽曲の再生期間の少なくとも一部の期間における歌唱が収録された音声データである音波形501Dとともに、カラオケサーバ500Dから受信してもよい。そして、サーバ100Dは、当該歌唱ないし演奏音の音波形501Dを訓練用音波形として、楽譜データとリンクして記憶する。
The recording start instruction and recording end instruction in S1122 in FIG. 11 may be executed by the start and end of the song, or by any operation of the first user. In other words, only audio data for a specified period of the song's playback period may be recorded based on the recording instruction of the first user. The recording start instruction and recording end instruction may be executed using a karaoke machine or may be executed using the
以上のように、本実施形態に係る音響モデル訓練システム10Dによると、カラオケボックス等を利用して音声データを録音し、サーバ100Dにアップロードできるため、第1ユーザが音声データを録音するための環境を準備する労力を軽減できる。
As described above, according to the acoustic
[6.第6実施形態]
図15を用いて、第6実施形態に係る音響モデル訓練システム10Eについて説明する。音響モデル訓練システム10Eの全体構成及びサーバに関するブロック図は第1実施形態に係る音響モデル訓練システム10と同じなので、説明を省略する。以下の説明において、第1実施形態と同じ構成については説明を省略し、主に第1実施形態と相違する点について説明する。以下の説明において、第1実施形態と同様の構成について説明をする場合、図1~図5を参照し、これらの図に示された符号の後にアルファベット“E”を付して説明する。
[6. Sixth embodiment]
An acoustic
[6-1.音声合成方法]
図15は、本発明の一実施形態における目的とする音響モデルの訓練に適した楽曲の推薦方法を示すフローチャートである。図15に示す推薦方法では、訓練用音波形としてサーバ100Eに予め保存された音波形の全部、又はその一部、又は、ユーザの選択した波形セットに基づいて、当該音波形に適した楽曲を第1ユーザに推薦する構成について説明する。通信端末100Eは、予め、第1ユーザが想定している音高又は音響特徴量に関しての当該音響モデルの使用範囲を示す情報を、第1ユーザから受け取っている。
[6-1. Voice synthesis method]
Fig. 15 is a flowchart showing a method for recommending a piece of music suitable for training a target acoustic model in one embodiment of the present invention. The recommendation method shown in Fig. 15 describes a configuration for recommending to a first user a piece of music suitable for a sound waveform based on all or a part of a sound waveform previously stored in the server 100E as a training sound waveform, or a waveform set selected by the user. The communication terminal 100E has received information from the first user in advance indicating the range of use of the acoustic model with respect to pitch or acoustic features that the first user expects.
まず、サーバ100Eは、予め保存された訓練用音波形又は選択された波形セットの分析を行う(ステップS1501)。分析される訓練用音波形は、保存された訓練用音波形の全部ではなく、その一部の特定の音源(特定の歌唱者又は特定の楽器)の音波形である。例えば、サーバ100Eの第1ユーザの記憶領域に歌唱者別又は楽器別のフォルダを設け、訓練用音波形を、それぞれ対応する歌唱者ないし楽器のフォルダに分けて保存しておき、各フォルダに記憶されている音波形について、当該分析を個別に行うとよい。波形セットは、第1ユーザが特定の歌唱者又は特定の楽器の音響モデルを訓練するために選択した、特定の歌唱者又は特定の楽器の音波形のセットである。当該分析は、例えば音波形の音高又は音響特徴量に基づいて行われる。さらに、分析を行った音波形の楽曲が判っている場合、その音波形をその楽曲の歌唱又は演奏音の楽譜データと対比することによって、音高、音色、強弱等に関して、歌唱スキル又は演奏スキルを判定できる。又は、当該分析によって、歌唱スタイル、演奏スタイル、歌唱音域、又は演奏音域を判定できる。 First, the server 100E analyzes the previously stored training sound waveforms or the selected waveform set (step S1501). The training sound waveforms to be analyzed are not all of the stored training sound waveforms, but are part of a specific sound source (a specific singer or a specific instrument). For example, a folder for each singer or instrument may be provided in the memory area of the first user of the server 100E, and the training sound waveforms may be stored separately in folders for the corresponding singer or instrument, and the analysis may be performed individually for the sound waveforms stored in each folder. The waveform set is a set of sound waveforms for a specific singer or a specific instrument selected by the first user to train the acoustic model of a specific singer or a specific instrument. The analysis is performed, for example, based on the pitch or acoustic features of the sound waveform. Furthermore, if the song of the analyzed sound waveform is known, the singing skill or playing skill can be determined in terms of pitch, timbre, dynamics, etc. by comparing the sound waveform with the score data of the sung or played sound of the song. Alternatively, the analysis can determine the singing style, playing style, singing range, or playing range.
歌唱スタイルは歌い方であり、演奏スタイルは演奏の仕方である。具体的には、歌唱スタイルとして、ニュートラル、ビブラート、ハスキー、フライ、及びグロウル等が挙げられる。演奏スタイルとして、擦弦楽器であれば、ニュートラル、ビブラート、ピチカート、スピカート、フラジョレット、及びトレモロ等が挙げられ、撥弦楽器であれば、ニュートラル、ポジション、レガート、スライド、及びスラップ/ミュート等が挙げられる。クラリネットであれば、ニュートラル、スタカート、ビブラート、及びトリル等が挙げられる。なお、例えば、上記のビブラートは、ビブラートを多用する歌唱スタイル又は演奏スタイルを意味する。歌唱又は演奏におけるピッチ、音量、音色、及びこれらの動的挙動は、全体的にスタイルによって変わる。訓練ジョブにおいて、サーバ100Eは、新たな音色IDと波形セットとに加えて、その波形セットの分析で得られる歌唱スタイル又は演奏スタイルを入力としつつ、ベース音響モデル120Eを訓練してもよい。 A singing style is a way of singing, and a performance style is a way of performing. Specifically, singing styles include neutral, vibrato, husky, fly, and growl. Performance styles include neutral, vibrato, pizzicato, spiccato, flageolet, and tremolo for bowed string instruments, and neutral, position, legato, slide, and slap/mute for plucked string instruments. For a clarinet, neutral, staccato, vibrato, and trill are examples. Note that, for example, the above vibrato refers to a singing style or performance style that uses vibrato a lot. The pitch, volume, timbre, and their dynamic behaviors in singing or performing vary depending on the style as a whole. In a training job, the server 100E may train the base acoustic model 120E while inputting a singing style or performance style obtained by analyzing the waveform set in addition to a new timbre ID and waveform set.
訓練用音波形の歌唱音域及び演奏音域は、特定の歌唱者の歌唱及び特定の楽器の演奏音の複数の音波形における音高の分布から判断され、その歌唱者ないし楽器の音波形の音域を示す。 The singing range and performance range of the training sound waveforms are determined from the distribution of pitches in multiple sound waveforms of a specific singer's singing and a specific instrument's performance, and indicate the range of the sound waveform of that singer or instrument.
特定の音源の音色に関して、音高データ及び音響特徴量の使用予定範囲が網羅されていない場合に、サーバ100Eは、用意した訓練用音波形では音響モデルの訓練が十分にできていないと判断する。S1501の分析を行うことで、サーバ100Eは、特定の音源の音色を使用予定の全音域のうちで、音波形が全くない又は少ない音域を検出する。そして、サーバ100Eは、データが不十分な音域を補充するために、第1ユーザに推薦するための1以上の楽曲を特定する(ステップS1502)。そして、S1502で特定された楽曲を示す情報を通信端末200E(第1ユーザ)に提供し、通信端末200Eは、受信したその情報をその表示器に表示する。 When the planned range of use of pitch data and acoustic features is not covered for the timbre of a specific sound source, the server 100E determines that the prepared training sound waveforms are not sufficient for training the acoustic model. By performing the analysis of S1501, the server 100E detects ranges for which there are no or few sound waveforms among the total range for which the timbre of a specific sound source is planned to be used. The server 100E then identifies one or more songs to recommend to the first user in order to fill in the ranges for which there is insufficient data (step S1502). The server 100E then provides information indicating the songs identified in S1502 to the communication terminal 200E (first user), and the communication terminal 200E displays the received information on its display.
以上のように、本実施形態に係る音響モデル訓練システム10Eによると、訓練用音波形として用意された音波形では使用予定範囲をカバーしない場合に、それを第1ユーザに知らせられるため、第1ユーザは使用予定範囲を網羅する訓練用音波形を準備できる。
As described above, according to the acoustic
なお、本発明は上記の実施形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。各実施形態は、技術的な矛盾を生じない限り、互いに組み合わせることができる。 The present invention is not limited to the above-described embodiments, and can be modified as appropriate without departing from the spirit and scope of the invention. The embodiments can be combined with each other as long as no technical contradiction occurs.
10:音響モデル訓練システム、 100:サーバ、 101:制御部、 102:RAM、 103:ROM、 104:ユーザインタフェース、 105:通信インターフェース、 110:ストレージ、 111:音声合成プログラム、 112:訓練ジョブ、 113:楽譜データ、 114:音波形、 120:音響モデル、 130:合成音波形、 140:GUI、 141、142、143:チェックボックス、 144:実行ボタン、 150A:GUI、 151A、152A:進行度を示す項目、 153A:音響モデル名称、 154A:訓練用音波形、 155A:完了予想、 156A:訓練実行者、 157A:試聴ボタン、 160B:GUI、 161B:公開設定項目、 162B:第1訓練ジョブ、 163B、168B:音響モデル名称、 164B、169B:訓練用音波形、 165B、170B:完了予想、 166B、171B:訓練実行者、 167B:第2訓練ジョブ、 172B:公開ボタン、 180D:アカウント情報、 182D:音波形、 200、300:通信端末、 400:ネットワーク、 411:ステップ、 500D:カラオケサーバ、 501D:音波形、 502D:テキストデータ、 503D:音高データ 10: Acoustic model training system, 100: Server, 101: Control unit, 102: RAM, 103: ROM, 104: User interface, 105: Communication interface, 110: Storage, 111: Voice synthesis program, 112: Training job, 113: Music score data, 114: Sound waveform, 120: Acoustic model, 130: Synthesized sound waveform, 140: GUI, 141, 142, 143: Checkbox, 144: Execute button, 150A: GUI, 151A, 152A: Items indicating progress, 153A: Acoustic model name, 154A: Training sound waveform, 155A: Completion forecast, 156A: Training executor, 157A: Preview button, 160B: GUI, 161B: Public setting item, 162B: First training job, 163B, 168B: Acoustic model name, 164B, 169B: Training sound waveform, 165B, 170B: Completion forecast, 166B, 171B: Training executor, 167B: Second training job, 172B: Publish button, 180D: Account information, 182D: Sound waveform, 200, 300: Communication terminal, 400: Network, 411: Step, 500D: Karaoke server, 501D: Sound waveform, 502D: Text data, 503D: Pitch data
Claims (19)
前記ネットワークに接続可能なサーバと、を含み、
前記第1デバイスは、前記第1ユーザによる制御の下で、
前記サーバに複数の音波形をアップロードし、
既にアップロードされた、又は、これからアップロードされる前記複数の音波形から第1波形セットとして一以上の音波形を選択し、
音響特徴量を生成する音響モデルに対する第1訓練ジョブの第1実行指示を前記サーバに送信し、
前記サーバは、前記第1デバイスからの前記第1実行指示に基づいて、
選択された前記第1波形セットを用いて前記第1訓練ジョブの実行を開始し、
前記第1訓練ジョブによって訓練された訓練済み音響モデルを前記第1デバイスに提供する音響モデルの訓練システム。 a first device connectable to a network and used by a first user;
a server connectable to the network;
The first device, under control of the first user,
uploading a plurality of sound waveforms to the server;
selecting one or more sound waveforms as a first waveform set from the plurality of sound waveforms already uploaded or to be uploaded;
Transmitting a first execution instruction to the server for a first training job for an acoustic model that generates acoustic features;
The server, based on the first execution instruction from the first device,
commencing execution of the first training job using the selected first waveform set;
An acoustic model training system that provides a trained acoustic model trained by the first training job to the first device.
前記インターフェースを介した前記第1ユーザによる第1実行指示に基づいて、前記第1波形セットを用いて前記第1訓練ジョブの実行を開始し、
前記第1訓練ジョブによって訓練された音響モデルを、第1音響モデルとして前記第1ユーザに提供する、ことをさらに含む請求項2に記載の訓練方法。 receiving one or more waveforms selected by the first user using the interface as a first waveform set;
commencing execution of the first training job using the first waveform set based on a first execution instruction by the first user via the interface;
The training method of claim 2 , further comprising: providing the acoustic model trained by the first training job to the first user as a first acoustic model.
前記第1公開指示に基づいて、前記第1状態情報を、前記第2ユーザが使用する第2デバイスに表示する、ことをさらに含む請求項4に記載の訓練方法。 Displaying the first status information on a first device used by the first user;
The training method of claim 4 , further comprising: displaying the first status information on a second device used by the second user based on the first disclosure instruction.
前記第2ユーザが使用する第2デバイスに表示される前記第1状態情報が繰り返し更新される、請求項4に記載の訓練方法。 The state of the first training job changes over time;
The training method of claim 4 , wherein the first status information displayed on a second device used by the second user is updated repeatedly.
前記第1ユーザによる第2実行指示に基づいて、前記第2波形セットを用いた第2訓練ジョブの実行を開始する、ことをさらに含み、
前記第1訓練ジョブ及び前記第2訓練ジョブは並行して実行される、請求項3に記載の訓練方法。 receiving a second set of waveforms, the second set being a new selection of one or more waveforms by the first user using the interface;
and initiating execution of a second training job using the second waveform set based on a second execution instruction by the first user.
The training method of claim 3 , wherein the first training job and the second training job are performed in parallel.
前記課金に対する支払いが確認された場合に、前記第1訓練ジョブの実行を開始する、請求項2に記載の訓練方法。 billing the first user in response to the first execution instruction of the first user;
The method of claim 2 , further comprising starting execution of the first training job if payment of the charge is confirmed.
前記訓練方法を提供するサービスに対する前記第1ユーザのアカウント情報と、前記空間IDとをリンクさせる、請求項2に記載の訓練方法。 receiving a space ID that identifies a real space;
The training method according to claim 2 , further comprising linking the space ID with account information of the first user for a service that provides the training method.
前記音声データを予め保存された音波形として、前記楽譜データとリンクして記憶する、請求項12に記載の訓練方法。 receiving sheet music data representing the sounds constituting the piece of music reproduced in the real space together with audio data recording the singing or playing sounds during at least a portion of the reproduction period of the piece of music;
13. The training method according to claim 12, wherein the voice data is stored as a pre-saved sound waveform in a manner linked to the musical score data.
前記再生指示によって再生された前記音声データを、前記第1ユーザに提供される前記予め保存された複数の音波形の一つとして保存するか否かを、前記第1ユーザに問い合わせる、請求項14に記載の訓練方法。 reproducing the audio data in the real space based on a reproduction instruction from the first user;
The training method according to claim 14, further comprising the step of inquiring the first user as to whether or not to save the audio data played back in response to the playback instruction as one of the plurality of pre-stored sound waveforms provided to the first user.
前記分析によって得られた分析結果に基づいて、前記第1ユーザに推薦する楽曲を特定し、
特定された前記楽曲を示す情報を前記第1ユーザに提供する、請求項2に記載の訓練方法。 Analyzes pre-stored sound waveforms,
Identifying a piece of music to be recommended to the first user based on an analysis result obtained by the analysis;
The method of claim 2 , further comprising providing information to the first user indicative of the identified piece of music.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2023/035432 WO2024075633A1 (en) | 2022-10-04 | 2023-09-28 | Training system and method for acoustic model |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202263412887P | 2022-10-04 | 2022-10-04 | |
US63/412,887 | 2022-10-04 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024054051A true JP2024054051A (en) | 2024-04-16 |
Family
ID=90670792
Family Applications (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022192811A Pending JP2024054051A (en) | 2022-10-04 | 2022-12-01 | System and method for training an acoustic model |
JP2022212415A Pending JP2024054053A (en) | 2022-10-04 | 2022-12-28 | How to train an acoustic model |
JP2022212414A Pending JP2024054052A (en) | 2022-10-04 | 2022-12-28 | How to train an acoustic model |
JP2023043561A Pending JP2024054058A (en) | 2022-10-04 | 2023-03-17 | Display method for sound waveform characteristic distribution |
Family Applications After (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022212415A Pending JP2024054053A (en) | 2022-10-04 | 2022-12-28 | How to train an acoustic model |
JP2022212414A Pending JP2024054052A (en) | 2022-10-04 | 2022-12-28 | How to train an acoustic model |
JP2023043561A Pending JP2024054058A (en) | 2022-10-04 | 2023-03-17 | Display method for sound waveform characteristic distribution |
Country Status (1)
Country | Link |
---|---|
JP (4) | JP2024054051A (en) |
-
2022
- 2022-12-01 JP JP2022192811A patent/JP2024054051A/en active Pending
- 2022-12-28 JP JP2022212415A patent/JP2024054053A/en active Pending
- 2022-12-28 JP JP2022212414A patent/JP2024054052A/en active Pending
-
2023
- 2023-03-17 JP JP2023043561A patent/JP2024054058A/en active Pending
Also Published As
Publication number | Publication date |
---|---|
JP2024054052A (en) | 2024-04-16 |
JP2024054058A (en) | 2024-04-16 |
JP2024054053A (en) | 2024-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2021516787A (en) | An audio synthesis method, and a computer program, a computer device, and a computer system composed of the computer device. | |
JP4868483B2 (en) | An apparatus for composing and reproducing a sound or a sequence of sounds or a musical composition that can be played by a virtual musical instrument and that can be reproduced by the virtual musical instrument with computer assistance | |
US10325581B2 (en) | Singing voice edit assistant method and singing voice edit assistant device | |
JP2010518459A (en) | Web portal for editing distributed audio files | |
CN102576524A (en) | System and method of receiving, analyzing, and editing audio to create musical compositions | |
JP2008537180A (en) | Operation method of music composer | |
US11869468B2 (en) | Musical composition file generation and management system | |
WO2020000751A1 (en) | Automatic composition method and apparatus, and computer device and storage medium | |
US10497347B2 (en) | Singing voice edit assistant method and singing voice edit assistant device | |
CN1770258B (en) | Rendition style determination apparatus and method | |
Walker | A computer participant in musical improvisation | |
JP3829780B2 (en) | Performance method determining device and program | |
JP2024054051A (en) | System and method for training an acoustic model | |
WO2024075633A1 (en) | Training system and method for acoustic model | |
WO2024075634A1 (en) | Display method related to characteristic distribution of sound waveform | |
JP4147885B2 (en) | Performance data processing device | |
JP2002108198A (en) | Musical performance supporting system, musical performance supporting method and recording medium | |
KR20140054810A (en) | System and method for producing music recorded, and apparatus applied to the same | |
JP6316099B2 (en) | Karaoke equipment | |
Gulz et al. | Developing a method for identifying improvisation strategies in jazz duos | |
WO2024075638A1 (en) | Acoustic model training method | |
JP2002297136A (en) | Musical piece generating device, music distribution system, and program | |
JP5446150B2 (en) | Electronic music equipment | |
JP3651428B2 (en) | Performance signal processing apparatus and method, and program | |
JP2005234718A (en) | Trade method of voice segment data, providing device of voice segment data, charge amount management device, providing program of voice segment data and program of charge amount management |