JP5953743B2 - Speech synthesis apparatus and program - Google Patents
Speech synthesis apparatus and program Download PDFInfo
- Publication number
- JP5953743B2 JP5953743B2 JP2011286728A JP2011286728A JP5953743B2 JP 5953743 B2 JP5953743 B2 JP 5953743B2 JP 2011286728 A JP2011286728 A JP 2011286728A JP 2011286728 A JP2011286728 A JP 2011286728A JP 5953743 B2 JP5953743 B2 JP 5953743B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- pitch
- unit
- speech
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Auxiliary Devices For Music (AREA)
Description
本発明は、音声合成装置及びプログラムに関する。 The present invention relates to a speech synthesizer and a program.
歌詞等の文字列、並びに複数の音符(以下「音符列」という)の音高および音長がデータとして入力されると、その文字列および音に応じて、歌唱音の音声を合成する音声合成装置が知られている(例えば特許文献1)。また、このような装置において、歌唱者の歌唱音声から音声の特徴を抽出し、抽出した特徴を用いて合成音声を編集する技術が提案されている(例えば特許文献2)。 When a character string such as lyrics and pitches and lengths of a plurality of notes (hereinafter referred to as “note strings”) are input as data, voice synthesis is performed that synthesizes the sound of a singing sound according to the character string and sound. An apparatus is known (for example, Patent Document 1). Moreover, in such an apparatus, a technique has been proposed in which a voice feature is extracted from a singing voice of a singer and a synthesized voice is edited using the extracted feature (for example, Patent Document 2).
ところで、上述のような音声合成装置において、自分の意図どおりに合成音声の編集がなされたか確認するためには、ユーザは、歌唱音声を入力した後で、合成された音声を再生する必要があった。この場合、音声から抽出された特徴を用いて合成音声を生成するためには各種の複雑な処理を行う必要があるが、このような処理は処理負荷が大きく処理に時間を要する。そのため、ユーザは合成音声を再生されるまで待機する必要があり、合成音声の編集処理を円滑に行えない場合があった。
本発明は上述の背景に鑑みてなされたものであり、音声から抽出される特徴(属性)を用いて合成音声を生成する装置において、生成される合成音声の確認を容易に行うことのできる技術を提供することを目的とする。
By the way, in the speech synthesizer as described above, in order to confirm whether the synthesized speech has been edited as intended, the user needs to reproduce the synthesized speech after inputting the singing speech. It was. In this case, in order to generate synthesized speech using features extracted from speech, it is necessary to perform various kinds of complicated processing. However, such processing has a large processing load and requires time. For this reason, the user needs to wait until the synthesized speech is reproduced, and the synthesized speech editing process may not be performed smoothly.
The present invention has been made in view of the above-described background, and in a device that generates synthesized speech using features (attributes) extracted from speech, it is possible to easily check the generated synthesized speech. The purpose is to provide.
上述した課題を解決するために、本発明は、音声データのピッチ及び音量を含む属性を示す属性データを受け取る受取部と、前記受取部が受け取った属性データに基づいて合成音声を生成する音声合成部と、前記音声合成部が合成音声を生成する前に、前記受取部が受け取った属性データの示すピッチ及び音量に基づいて周期性を有する音信号を生成する音信号生成部であって、前記音声合成部が合成音声を生成する処理よりも短時間の処理によって周期性を有する音信号を生成する音信号生成部とを具備することを特徴とする音声合成装置を提供する。 To solve the problems described above, the present invention includes generating a receiving unit for receiving the attribute data indicating an attribute containing the pitch and volume of the audio data, the synthesized speech based on the previous SL attribute data receiving unit has received And a sound signal generation unit that generates a sound signal having periodicity based on the pitch and volume indicated by the attribute data received by the reception unit before the speech synthesis unit generates synthesized speech. The speech synthesizer further includes a sound signal generation unit that generates a sound signal having periodicity by a process of a shorter time than a process of generating the synthesized speech .
本発明の好ましい態様において、歌詞を示す歌詞データと、該歌詞との対応付けがなされた楽譜データとを受け取る第2の受取部と、前記受取部が受け取った属性データの示すピッチと前記第2の受取部が受け取った楽譜データとの対応付けを行い、該対応付け結果に基づいて前記歌詞データと前記ピッチを表すピッチデータとの対応付けを行う対応付け部とを具備し、前記音声合成部は、前記受取部が受け取った属性データ並びに前記対応付け部により対応付けがなされた歌詞データ及びピッチデータに基づいて、合成音声を生成してもよい。 In a preferred aspect of the present invention, a second receiving unit that receives lyric data indicating lyrics and score data associated with the lyrics, a pitch indicated by attribute data received by the receiving unit, and the second An association unit that associates the score data received by the receiving unit with each other and associates the lyrics data with the pitch data representing the pitch based on the association result, and the speech synthesis unit May generate synthesized speech based on the attribute data received by the receiving unit and the lyric data and pitch data associated by the associating unit.
また、本発明の更に好ましい態様において、前記音声データを、ピッチ及び音量を含む属性について解析し、解析結果を示す属性データを前記受取部に供給する音声解析部を具備してもよい。 In a further preferred aspect of the present invention, the audio data may be analyzed for attributes including pitch and volume , and an audio analysis unit may be provided that supplies attribute data indicating an analysis result to the receiving unit.
また、本発明は、コンピュータに、音声データのピッチ及び音量を含む属性を示す属性データを受け取る受取機能と、前記受け取った属性データに基づいて合成音声を生成する音声合成機能と、前記音声合成機能が合成音声を生成する前に、前記受け取った属性データの示すピッチ及び音量に基づいて周期性を有する音信号を生成する音信号生成機能であって、前記音声合成機能が合成音声を生成する処理よりも短時間の処理によって周期性を有する音信号を生成する音信号生成機能とを実現させるためのプログラムを提供する。 Further, the present invention is a computer to receive function to receive attribute data indicating an attribute containing the pitch and volume of the audio data, and voice synthesis function that generates synthesized speech based on the previous SL received attribute data, wherein A sound signal generating function for generating a sound signal having periodicity based on a pitch and a volume indicated by the received attribute data before the voice synthesizing function generates a synthesized voice, wherein the voice synthesizing function generates a synthesized voice; Provided is a program for realizing a sound signal generation function for generating a sound signal having periodicity by processing in a shorter time than processing to be generated .
本発明によれば、音声から抽出される特徴(属性)を用いて合成音声を生成する装置において、生成される合成音声の確認を容易に行うことができる。 ADVANTAGE OF THE INVENTION According to this invention, in the apparatus which produces | generates a synthetic | combination voice using the characteristic (attribute) extracted from an audio | voice, confirmation of the synthetic | combination voice produced | generated can be performed easily.
<実施形態>
<構成>
図1は、本発明の実施形態に係る音声合成装置100のハードウェア構成の一例を示すブロック図である。音声合成装置100は、文字列及び音素列を含む楽譜データに基づいて音声を合成し、合成した音声を出力する装置である。音声合成装置100は、制御部10、記憶部20、操作部30、表示部40、音声処理部60、マイクロホン61、及びスピーカ62を有し、これら各部がバス70を介して接続されている。制御部10は、CPU(Central Processing Unit)、RAM(Random Access Memory)、及びROM(Read Only Memory)等を有している。制御部10において、CPUが、ROMや記憶部20に記憶されているコンピュータプログラムを読み出しRAMにロードして実行することにより、音声合成装置100の各部を制御する。操作部30は、各種の操作子を備え、ユーザによる操作内容を表す操作信号を制御部10に出力する。表示部40は、例えば液晶パネルを備え、制御部10による制御の下、各種の画像を表示する。
<Embodiment>
<Configuration>
FIG. 1 is a block diagram illustrating an example of a hardware configuration of a
マイクロホン61は、収音した音声を表すアナログの音声信号を音声処理部60に出力する。音声処理部60は、A/D(Analog / Digital)コンバータを有し、マイクロホン61が出力したアナログの音声信号をデジタルの音声データに変換して制御部10に出力し、制御部10はこれを取得する。また、音声処理部60は、D/A(Digital / Analog)コンバータを有し、制御部10から受け取ったデジタルの音声データをアナログの音声信号に変換してスピーカ62に出力する。スピーカ62は、音声処理部60から受け取ったアナログの音声信号に基づく音を放音する。なお、この実施形態では、マイクロホン61とスピーカ62とが音声合成装置100に含まれている場合について説明するが、音声処理部60に入力端子及び出力端子を設け、オーディオケーブルを介してその入力端子に外部マイクロホンを接続する構成としても良く、同様に、オーディオケーブルを介してその出力端子に外部スピーカを接続するとしても良い。また、この実施形態では、マイクロホン61からスピーカ62へ出力されるオーディオ信号がアナログオーディオ信号である場合について説明するが、デジタルオーディオデータを入出力するようにしても良い。このような場合には、音声処理部60にてA/D変換やD/A変換を行う必要はない。操作部30や表示部40についても同様であり、外部出力端子を設け、外部モニタを接続する構成としてもよい。
The
記憶部20は、各種のデータを記憶するための記憶手段であり、例えばHDDや不揮発性メモリである。記憶部20は、図示のように、Timbreデータベース21と、音韻テンプレートデータベース22と、歌唱スコアデータ記憶領域23と、歌唱音声データ記憶領域24と、解析結果データ記憶領域25とを有している。Timbreデータベース21は、音韻名、ピッチを異にする各音声パラメータを集めたデータベースである。このデータベースは、制御部10が歌唱スコアデータから音声合成を行う際に参照するデータベースである。音声パラメータは、例えば、励起波形スペクトルのエンベロープ、励起レゾナンス、フォルマント、差分スペクトルの4つに分類することが出来る。これらの4つの音声パラメータは、実際の人間の音声等(オリジナルの音声)を分析して得られる調和成分のスペクトル・エンベロープ(オリジナルのスペクトル)を分解することにより得られるものである。ある時刻における音声は音声パラメータ(励起スペクトル、励起レゾナンス、フォルマント、差分スペクトルのセット)で表現でき、同じ音声でもピッチが異なればこれを表現する音声パラメータも異なる。このTimbreデータベース21は、インデックスとして音韻名、ピッチを持つ。従って、制御部10は、歌唱スコアデータの音韻トラック及びピッチトラックに属するデータをキーとして、ある時刻tにおける音声パラメータを読み出すことができる。
The
音韻テンプレートデータベース22は、音韻テンプレートデータを格納している。この音韻テンプレートデータは、上記歌唱スコアデータにおける音韻と音韻との遷移区間に適用するデータである。人間が2つの音韻を連続して発する場合には、突然変化するのではなくゆるやかに移行していく。例えば「あ」という母音の後に区切りを置かないで連続して「え」という母音を発音する場合には、最初に「あ」が発音され、「あ」と「え」の中間に位置する発音を経て「え」に変化する。したがって、音韻の結合部分が自然になるように歌唱合成を行うには、ある言語において組み合わせ可能な音韻の組み合わせについて、渇仰部分の音声情報を何らかの形で持つことが好ましい。これを考慮し、音韻が遷移する区間における、音声パラメータとピッチの変動量をテンプレートデータとして準備し、歌唱スコアデータにおける音韻の遷移区間にこのテンプレートデータを適用することによって、より実際の歌唱に近い音声の合成を実現する。
The
この音韻テンプレートデータは、時刻tの関数として表された音声パラメータPとピッチの変動量Pitchとを一定時間Δt間隔でサンプリングしたデジタル値のシーケンスと、音声パラメータPとピッチPitchの区間長T(sec.)の組により構成されるものであり、以下の式(A)により表すことができる。なお、以下の式(A)において、t=0、Δt、2Δt、3Δt、…Tである。
[数1]
Template = [P(t),Pitch(t),T] …(A)
The phoneme template data includes a sequence of digital values obtained by sampling a speech parameter P and a pitch variation Pitch expressed as a function of time t at a constant time Δt interval, and a section length T (sec.) Between the speech parameter P and the pitch pitch. .)) And can be represented by the following formula (A). In the following formula (A), t = 0, Δt, 2Δt, 3Δt,.
[Equation 1]
Template = [P (t), Pitch (t), T] (A)
次に、歌唱スコアデータ記憶領域23には、音素の列で構成されるメロディを表す歌唱スコアデータであって、各音素の特徴(各音素の発音タイミング、ピッチの時間的な変化、各音素の音韻等)を表す属性データ(音韻データ、発音タイミングデータ、ピッチデータ等)を含む歌唱スコアデータが記憶される。
Next, the singing score
図2は、歌唱スコアデータの内容の一例を示す概念図である。この歌唱スコアデータは、音韻トラックと、ピッチトラックとの複数のトラックによって構成されている。音韻トラックには、音韻を表す音韻データと、それぞれの音韻の発音開始タイミングと発音終了タイミングとを示す発音タイミングデータとが記録される。具体的には、例えば、図2に示す例では、「さ」の音韻の音素が時刻t1から時刻t2の間で発音され、「い」の音韻の音素が時刻t2から時刻t3の間で発音される旨が示されている。なお、以下では、説明の便宜上、「発音開始タイミング」と「発音終了タイミング」とを各々区別する必要がない場合には、これらを「発音タイミング」と称して説明する。ピッチトラックには、各時刻において発音すべき音声の基本周波数(ピッチ)の時間的な変化を示すピッチデータが記録される。 FIG. 2 is a conceptual diagram showing an example of the content of singing score data. This singing score data is composed of a plurality of tracks including a phonological track and a pitch track. In the phoneme track, phoneme data representing phonemes and sounding timing data indicating the sounding start timing and sounding end timing of each phoneme are recorded. Specifically, for example, in the example shown in FIG. 2, the phoneme of “sa” phoneme is pronounced from time t1 to time t2, and the phoneme of “I” phoneme is pronounced from time t2 to time t3. It is shown that it will be. In the following, for convenience of explanation, when it is not necessary to distinguish between “sound generation start timing” and “sound generation end timing”, these will be referred to as “sound generation timing”. In the pitch track, pitch data indicating temporal changes in the fundamental frequency (pitch) of the sound to be sounded at each time is recorded.
この歌唱スコアデータは、記憶部20の歌唱スコアデータ記憶領域23に予め記憶しておくようにしてもよく、また、ユーザの操作に応じて制御部10が所定のアプリケーションプログラムを実行することによって生成するようにしてもよい。歌唱スコアデータは、歌詞を示す歌詞データ及び該歌詞との対応付けがなされた楽譜データの一例である。
図3は、制御部10が歌唱スコアデータ生成処理を行う場合において、表示部40に表示される画面の一例を示す図である。制御部10は、図3に例示するような画面を表示して、ユーザに歌唱スコアデータの入力を促す。図において、歌唱スコアデータ編集画面600は、ノートデータをピアノロール形式で表示するイベント表示領域601を備えている。イベント表示領域601の右側には、イベント表示領域601の表示画面を上下にスクロールするためのスクロールバー606が設けられている。イベント表示領域601の下側には、イベント表示領域601の表示画面を左右にスクロールするためのスクロールバー607が設けられている。
This singing score data may be stored in advance in the singing score
FIG. 3 is a diagram illustrating an example of a screen displayed on the
イベント表示領域601の左側にはピアノの鍵盤を模した鍵盤表示602(ピッチを示す座標軸)が表示され、イベント表示領域601の上側には楽曲の先頭からの小節位置を示す小節表示604が表示される。603はピアノロール表示領域であり、鍵盤表示602で示されるピッチの小節表示604で示される時間位置にノートデータを横長の矩形(バー)で表示している。バーの左端位置は発声開始タイミングを示し、バーの長さは発声継続時間を示し、バーの左端位置は発声終了タイミングを示している。
On the left side of the
ユーザは、所望のピッチ及び時間位置に対応した表示画面上の位置にマウスポインタを移動してクリックし、発声開始位置を特定する。そして、ドラッグ操作により発声開始位置から発声終了位置に至るノートデータのバー(以下「ノートバー」という)をイベント表示領域601に形成し、その後、マウスをドロップする。例えば、ノートバー611を形成するためには、第53小節目の第1拍目の先頭の位置にマウスポインタを位置決めしてマウスをクリックし、1拍後までドラッグすればよい。
The user moves the mouse pointer to a position on the display screen corresponding to the desired pitch and time position and clicks to specify the utterance start position. Then, a note data bar (hereinafter referred to as “note bar”) from the utterance start position to the utterance end position is formed in the
ユーザは、上述のようにして、表示部40に表示される画面を確認しつつ操作部30を用いて歌唱スコアデータを入力する。制御部10は、操作部30から出力される信号に応じて歌唱スコアデータを生成し、生成した歌唱スコアデータを歌唱スコアデータ記憶領域23に記憶する。
As described above, the user inputs the singing score data using the
次に、記憶部20の歌唱音声データ記憶領域24には、例えばWAVE形式やMP3(MPEG Audio Layer-3)形式等の音声波形を表す音声データであって、ユーザが歌唱した歌唱音声を表す音声データ(以下「歌唱音声データ」という)が記憶される。解析結果データ記憶領域25には、制御部10が歌唱音声データを複数の属性について解析した解析結果を示す解析結果データ(属性データ)が記憶される。この実施形態では、制御部10は、歌唱音声データを解析して音声のピッチ、パワー及びスペクトルを検出し、検出結果を示すデータを解析結果データとして、解析結果データ記憶領域25に記憶する。
Next, in the singing voice
次に、図4に示すブロック図を参照しながら、音声合成装置100の機能的構成の一例について説明する。図4において、音声合成部11、解析部12、歌唱スコアデータ修正部13及び確認音生成部14は、制御部10のCPUが、ROMや記憶部20に記憶されているコンピュータプログラムを読み出しRAMにロードして実行することにより実現される。制御部10のCPUは、音声合成部11、解析部12、歌唱スコアデータ修正部13、確認音生成部14の一例である。音声合成部11は、歌唱スコアデータ記憶領域23から歌唱スコアデータを読み出し、読み出した歌唱スコアデータから、その歌唱スコアデータに対応する音声波形を表す音声波形データを生成する。より具体的には、この実施形態では、音声合成部11は、歌唱スコアデータに含まれるピッチデータ、発音タイミングデータ、音韻データ等を参照して、ピッチと音韻に対応する音声パラメータを、音韻テンプレートデータベース22を参照してTimbreデータベース21から読み出し、読み出した音声パラメータを用いてデジタル音声波形データを生成する。なお、音声合成部11は、歌唱合成の開始・停止、テンポ指定等の各種の制御処理を行うが、これらの処理は従来の歌唱合成技術におけるそれと同様であり、ここではその詳細な説明を省略する。なお、以下では、説明の便宜上、歌唱スコアデータから生成される音声波形データを「合成音声データ」と称して説明する。
Next, an example of a functional configuration of the
この音声合成部11で生成された合成音声データの表す合成音声は、機械的で不自然な場合がある。また、不自然でない場合であっても、ユーザが所望する歌い方(抑揚等)に修正したい場合がある。そこで、本実施形態では、制御部10は、ユーザによる歌唱音声を入力し、この歌唱音声を用いて合成音声データを修正する処理を行う。
The synthesized speech represented by the synthesized speech data generated by the speech synthesizer 11 may be mechanical and unnatural. Even if it is not unnatural, there is a case where it is desired to correct the singing method (intonation etc.) desired by the user. So, in this embodiment, the
解析部12は、歌唱音声データを、ピッチを含む複数の属性について解析し、解析結果を示す解析結果データを出力する。この実施形態では、解析部12は、音声データを解析し、音声データのピッチ、パワー及びスペクトルを検出する。スペクトルの検出には、例えばFFT(Fast Fourier Transform)が用いられる。解析部12は、解析結果を示すデータを解析結果データ記憶領域25に記憶する。
The
歌唱スコアデータ修正部13は、解析結果データに基づいて歌唱スコアデータに含まれるピッチデータと発音タイミングデータとを修正する。歌唱スコアデータ修正部13は、解析結果データを受け取る受取部131と、歌唱スコアデータ(歌詞データと楽譜データ)を受け取る第2の受取部132と、受取部131が受け取った解析結果データと第2の受取部132が受け取った歌唱スコアデータとの対応付けを行い、この対応付け結果に基づいて歌詞データとピッチデータとの対応付けを行う対応付け部133とを有する。より具体的には、まず、対応付け部133は、歌唱スコアデータと解析結果データとに基づいて、合成音声とユーザ歌唱音声との対応関係を求める。歌唱音声データの表す音声(以下「歌唱音声」)と合成音声データの表す音声(以下「合成音声」)とは時間的にずれている可能性がある。例えば、ユーザが歌い始めや歌い終わりを意図的にずらして歌唱した場合などは、歌唱音声と合成音声とは時間的に前後にずれている。このように歌唱音声と合成音声とが時間的に前後にずれている場合であっても、両者を対応付けられるようにするため、合成音声データの時間軸を伸縮させる時間正規化(DTW:Dynamic Time Warping)を行い、両者の時間軸を合わせる。このDTWを行うための手法としては、この実施形態ではDP(Dynamic programming:動的計画法)を用いてもよい。
The singing score
対応付け部133は、検出した差異を元に歌唱スコアデータの修正を行う。より具体的には、対応付け部133は、合成音声データと歌唱音声データとの差異をなくす方向に、歌唱スコアデータを構成するピッチデータと発音タイミングデータとを修正する。ピッチについては、対応付け部133は、歌唱音声データのピッチ、合成音声データのピッチ、歌唱音声と合成音声の対応箇所に基づいて、歌唱スコアデータに含まれるピッチデータの値を、歌唱音声データのピッチとそのピッチに対応する合成音声のピッチとの差分が小さくなるように修正する。なお、この処理における修正量は、例えば、合成音声のピッチが歌唱音声のピッチと一致するようにピッチデータの値を修正するようにしてもよく、また、例えば、両者の差分が検出された差分の略半分となるように修正するようにしてもよい。また、歌唱音声のピッチと合成音声のピッチとの差分が予め定められた閾値以下となるように修正するようにしてもよい。要は、対応付け部133が、合成音声のピッチと歌唱音声のピッチとの差分が小さくなるように、歌唱スコアデータに含まれるピッチデータの値を修正するようにすればよい。
The associating
また、対応付け部133は、歌唱スコアデータに含まれる発音タイミングデータの値を、歌唱音声データから検出された発音タイミングと合成音声データから検出された発音タイミングとの差分が小さくなるように修正する。なお、この修正量も、上述のピッチの修正と同様であり、合成音声の発音タイミングが歌唱音声の発音タイミングと一致するように発音タイミングデータの値を修正するようにしてもよい。対応付け部133は、各属性データを修正した歌唱スコアデータによって歌唱スコアデータ記憶領域23の記憶内容を更新する。歌唱スコアデータ記憶領域23に記憶された歌唱スコアデータは、音声合成部11が音声合成処理を行う際に参照される。
In addition, the associating
ところで、ユーザが歌唱音声を入力してから、入力された歌唱音声によって修正された合成音声が再生されるまでには、上述した歌唱スコアデータ修正部13及び音声合成部11による処理が必要となる。このとき、歌唱スコアデータ修正部13及び音声合成部11が行う処理はある程度の処理時間を要するため、ユーザは処理が終わるまで待機する必要がある。ユーザが合成音声の修正を繰り返し行う場合には、修正後の音声を確認するためには修正を行う毎にその都度待機する必要があり、合成音声の編集処理がスムーズに行われない場合がある。そのため本実施形態では、ユーザによる操作に応じて解析結果データの示すピッチに基づいた音信号(以下「確認音信号」という)を確認音生成部14によって生成して出力し、入力音声の解析結果の確認を容易にしている。
By the way, after the user inputs the singing voice and before the synthesized voice corrected by the inputted singing voice is reproduced, the processing by the singing score
確認音生成部14は、解析部12によって生成された解析結果データを受け取り、受け取った解析結果データの示すピッチに基づいて、周期性を有する確認音信号を生成する。この実施形態では、確認音生成部14は、解析結果データの示すピッチに対応する周波数の正弦波を生成する。確認音生成部14は、生成した確認音信号を音声処理部60に供給し、生成した確認音信号に応じた音(以下「確認音」という)をスピーカ62から放音させる。
The confirmation
<動作>
図5は、音声合成装置100が行う合成音声の修正処理の流れを示すフロー図である。操作部30を介してユーザにより合成音声の編集指示がされると(ステップS100;Yes)、制御部10は、まず、歌唱音声が入力されるのを待機する(ステップS102;No)。ユーザによって歌唱音声が入力されると(ステップS102;Yes)、入力された歌唱音声を解析し、解析結果を示す解析結果データを生成する(ステップS104)。
<Operation>
FIG. 5 is a flowchart showing the flow of the synthesized speech correction process performed by the
次いで、制御部10は、ユーザの操作に応じて、確認音を再生するか否かを判断する(ステップS106)。この処理は、制御部10が、例えば、表示部40に確認音を生成するためのボタンを表示し、このボタンがクリックされた場合に確認音を再生すると判断するようにしてもよい。確認音を再生しないと判断された場合は(ステップS106;NO)、制御部10は、ステップS108の処理を行うことなくステップS110の処理へ進む。一方、確認音を再生すると判断された場合は(ステップS106;YES)、制御部10は、解析結果データの示すピッチに基づいて周期性を有する確認音信号を生成し(ステップS108)、生成した確認音信号の表す音をスピーカ62から放音させる。
Next, the
音声の解析結果は、微妙なピッチの変化があるため、その微妙な変化が実際どのような音なのかは実際の音を聴いてみないと把握し難い場合がある。ステップS108において再生される確認音は、最終的に生成される合成音声ではないものの、生成される合成音声のピッチが表された音であるから、ユーザは、この再生される音を聴くことで、どのような音声が生成されるかを直感的に把握することができる。このとき、確認音を生成する処理(すなわち確認音生成部14が行う処理)は、合成音声を生成する処理(すなわち上述した歌唱スコアデータ修正部13及び音声合成部11が行う処理)と比して計算量が少なく、短時間で処理が行われるため、ユーザは、音声の解析結果を確認するためにいちいち待機する必要がない。
Since the analysis result of the sound has a subtle change in pitch, it may be difficult to grasp what kind of sound the subtle change is actually without listening to the actual sound. Although the confirmation sound reproduced in step S108 is not a synthesized voice to be finally generated, it is a sound in which the pitch of the synthesized voice to be generated is represented. Therefore, the user can listen to the reproduced sound. It is possible to intuitively understand what kind of sound is generated. At this time, the process of generating the confirmation sound (that is, the process performed by the confirmation sound generation unit 14) is compared with the process of generating the synthesized speech (that is, the process performed by the singing score
図5の説明に戻る。ユーザは、合成音声を生成するか、それとも歌唱音声を入力し直すかを選択することができる。ユーザは、操作部30を操作して合成音声を生成するかを選択し、制御部10は、ユーザの操作に応じて、合成音声を生成するか否かを判断する(ステップS110)。合成音声を生成すると判断された場合は(ステップS110;Yes)、制御部10は、上述の歌唱スコアデータ修正部13及び音声合成部11の処理を行って、合成音声データを生成する(ステップS112)。すなわち、制御部10は、解析結果データに基づいて歌唱スコアデータを修正するとともに、修正された歌唱スコアデータから、Timbreデータベース21及び音韻テンプレートデータベース22を参照して、合成音声データを生成する。一方、歌唱音声を入力し直すと判断された場合は(ステップS112;No)、制御部10は、ステップS100の処理に戻り、修正指示の入力を待機する。
Returning to the description of FIG. The user can select whether to generate synthesized speech or re-input singing speech. The user selects whether to generate synthesized speech by operating the
<変形例>
以上の実施形態は次のように変形可能である。尚、以下の変形例は適宜組み合わせて実施しても良い。
<Modification>
The above embodiment can be modified as follows. In addition, you may implement the following modifications suitably combining.
<変形例1>
上述の実施形態では、制御部10は、確認音として、解析結果データの示すピッチに応じた周波数の正弦波を生成したが、制御部10が生成する確認音信号はこれに限らず、例えば、解析結果データの示すピッチに対応する周波数及び解析結果データの示す音量(パワー)に対応する振幅の正弦波を生成するようにしてもよい。また、例えば、制御部10が、解析結果データの示すピッチに対応する周波数の正弦波に対して予め定められた変調処理を施して波形を歪ませてもよい。また、例えば、制御部10が、解析結果データの示すピッチに対応する周波数成分と、その周波数成分の2倍音、3倍音といった特定の倍音の成分とを合成した音信号を、確認音信号として用いてもよい。また、例えば、制御部10が、以下の式(B)を用いて、解析結果の示すピッチに対応する周波数成分のn倍音までの倍音成分F0を合成して確認音信号を生成してもよい。なお、以下の式(B)において、POWはパワー、aは定数又は歌唱音声データの解析結果であるスペクトルのピーク情報からフォルマントを模した値を示す。aが定数である場合には鼻歌のような確認音信号が生成され、aとしてフォルマントを模した値を用いる場合には、ユーザの歌唱音声に似た確認音信号が生成される。
[数2]
Σsin(n・F0)*(a・POW) …(B)
<
In the above-described embodiment, the
[Equation 2]
Σsin (n · F0) * (a · POW) (B)
このように、確認音信号は、解析結果データの示すピッチに対応する周波数の正弦波であってもよく、また、例えば、解析結果データの示すピッチに対応する周波数成分とその倍音成分とを合成した音信号であってもよく、要は、制御部10が、解析結果データの示すピッチに基づいて、周期性を有する音信号を生成すればよい。また、上述の実施形態では、確認音信号として正弦波を用いたが、確認音信号はこれに限らず、例えば、三角波や矩形波等の単純な波形の音信号であってもよい。また、周知の楽器音合成等の技術を用いて、楽器の音色を表す確認音信号を生成してもよい。確認音信号は、歌唱音声データの解析結果を示す解析結果データに基づいて生成される音信号であって処理負荷の軽い処理により生成されるものであればどのようなものであってもよい。
As described above, the confirmation sound signal may be a sine wave having a frequency corresponding to the pitch indicated by the analysis result data. For example, a frequency component corresponding to the pitch indicated by the analysis result data and its harmonic component are synthesized. In short, the
<変形例2>
上述の実施形態では、制御部10が、歌唱スコアデータに含まれるピッチデータと発音タイミングデータとを修正するようにしたが、修正する属性データはこれに限らない。例えば、制御部10が、音質・声質の差分を検出し、音質・声質を修正するようにしてもよい。この場合は、歌唱スコアデータに、音質や声質を示す音質データや声質データを含める構成とし、制御部10が、歌唱音声データと合成音声データとからフォルマントを検出し、検出したフォルマントの差分が小さくなるように、音質データや声質データを修正するようにしてもよい。
<Modification 2>
In the above-described embodiment, the
このように、制御部10が修正する音声の属性を表す属性データは、上述した実施形態で示したピッチの時間的な変化を示すピッチデータや発音タイミングデータであってもよく、また、音韻データや音質データ、声質データであってもよい。また、他の例として、例えば、音のベロシティ(強弱)を表すデータや、ビブラートの態様を表すデータであってもよい。このように、制御部10が修正する属性データは、音声の属性を表すものであればどのようなものであってもよい。
As described above, the attribute data representing the sound attribute to be corrected by the
また、上述の実施形態では、制御部10が、歌唱音声データの解析結果を基に歌唱スコアデータを修正する態様について説明したが、これに限らず、歌唱音声データの解析結果そのものを歌唱スコアデータとして音声合成を行ってもよい。
Moreover, although the
また、上述の実施形態では、制御部10は、歌唱音声データを、ピッチを含む複数の属性について解析し、解析結果を示す解析結果データを生成したが、制御部10が解析する属性は複数に限らず、ピッチのみを解析し、解析したピッチを示す属性データを生成してもよい。
In the above-described embodiment, the
<変形例3>
上述の実施形態では、制御部10は、歌唱スコアデータを歌唱スコアデータ記憶領域23から読み出すようにしたが、音声合成部11が歌唱スコアデータを取得する態様はこれに限らず、例えば、インターネット等の通信ネットワークを介して歌唱スコアデータを受信するようにしてもよく、また、例えば、ユーザが操作部30を用いて歌唱スコアデータを入力するための操作を行い、制御部10が操作部30から出力される信号に応じて歌唱スコアデータを生成するようにしてもよく、制御部10が歌唱スコアデータを取得するものであればどのようなものであってもよい。
<Modification 3>
In the above-described embodiment, the
また、上述の実施形態では、歌詞データ及び楽譜データとして歌唱スコアデータを用いたが、歌詞データ及び楽譜データの構造は、上述した実施形態で例示したものに限定されない。音符と歌詞との対応関係、および音符の属性を特定できるものであれば、どのような構造のデータが用いられてもよい。また、実施形態において歌詞(文字列)と楽譜データとが別のデータセットである例を説明したが、歌詞は楽譜データの一部であってもよい。 In the above-described embodiment, the singing score data is used as the lyric data and the score data. However, the structure of the lyric data and the score data is not limited to that exemplified in the above-described embodiment. Data having any structure may be used as long as the correspondence between the notes and the lyrics and the attributes of the notes can be specified. In the embodiment, the example in which the lyrics (character string) and the score data are separate data sets has been described. However, the lyrics may be a part of the score data.
また、音声合成処理の詳細は、実施形態で説明したものに限定されない。音符と発音記号(文字)とが与えられたときに、その音符および発音記号に応じた音声を合成するものであれば、どのような処理が用いられてもよい。 The details of the speech synthesis process are not limited to those described in the embodiment. As long as a note and a phonetic symbol (character) are given, any processing may be used as long as it synthesizes a sound corresponding to the note and the phonetic symbol.
また、上述の実施形態では、歌唱音声を入力し直すことによって合成音声を修正する構成とした(図5のステップS112〜ステップS102参照)が、合成音声の修正の態様はこれに限定されるものではなく、例えば、ユーザが操作部30を用いて歌唱スコアデータを修正するための操作を行い、制御部10が、操作部30の操作内容に応じて歌唱スコアデータを修正するようにしてもよい。
また、上述の実施形態では、制御部10は、歌唱者の歌唱音声を解析したが、歌唱者の歌唱音声に代えて、演奏者による楽器の演奏音を評価してもよい。本実施形態にいう「音声」には、人間が発生した音声や楽器の演奏音といった種々の音響が含まれる。
Moreover, in the above-mentioned embodiment, it was set as the structure which corrects a synthetic | combination voice by re-inputting a singing voice (refer FIG.5 S112-step S102), However, The aspect of correction | amendment of a synthetic | combination voice is limited to this. Instead, for example, the user may perform an operation for correcting the singing score data using the
Moreover, in the above-mentioned embodiment, although the
<変形例4>
上述の実施形態では、制御部10が、歌唱音声データを解析し、解析結果を示す解析結果データを生成したが、制御部10が解析結果データを生成するに限らず、他の装置(例えば、通信ネットワークで接続されたサーバ装置、等)から解析結果を取得する構成であってもよい。なお、この場合、制御部10が取得する解析結果データは、ピッチを含む複数の属性を示すデータであってもよく、また、ピッチのみを示すデータであってもよい。
<Modification 4>
In the above-described embodiment, the
<変形例5>
音声合成装置100のハードウェア構成は、図1で説明したものに限定されない。図4に示される機能を実装できるものであれば、音声合成装置100はどのようなハードウェア構成を有していてもよい。例えば、音声合成装置100は、図4に示される機能要素の各々に対応する専用のハードウェア(回路)を有していてもよい。
<Modification 5>
The hardware configuration of the
<変形例6>
上述の実施形態において、通信ネットワークで接続された2以上の装置が、上記実施形態の音声合成装置100に係る機能を分担するようにし、それら複数の装置を備えるシステムが同実施形態の音声合成装置100を実現するようにしてもよい。例えば、マイクロホンやスピーカ、表示装置及び操作部等を備えるコンピュータ装置と、音声の解析処理を行うサーバ装置とが通信ネットワークで接続されたシステムとして構成されていてもよい。この場合は、例えば、コンピュータ装置が、マイクロホンで収音された音声をオーディオ信号に変換してサーバ装置に送信し、サーバ装置が、受信したオーディオ信号を解析し、解析結果をコンピュータ装置に送信してもよい。
<Modification 6>
In the above-described embodiment, two or more devices connected by a communication network share functions related to the
<変形例7>
本発明は、音声合成装置以外にも、これらを実現するための方法や、コンピュータに音声合成機能を実現させるためのプログラムとしても把握される。かかるプログラムは、これを記憶させた光ディスク等の記録媒体の形態で提供されたり、インターネット等を介して、コンピュータにダウンロードさせ、これをインストールして利用させるなどの形態でも提供されたりする。
<Modification 7>
In addition to the speech synthesizer, the present invention can be understood as a method for realizing these and a program for causing a computer to realize a speech synthesis function. Such a program may be provided in the form of a recording medium such as an optical disk storing the program, or may be provided in the form of being downloaded to a computer via the Internet or the like and installed and used.
10…制御部、20…記憶部、21…Timbreデータベース、22…音韻テンプレートデータベース、23…歌唱スコアデータ記憶領域、24…歌唱音声データ記憶領域、25…解析結果データ記憶領域、30…操作部、40…表示部、60…音声処理部、61…マイクロホン、62…スピーカ、70…バス、100…音声合成装置
DESCRIPTION OF
Claims (4)
前記受取部が受け取った属性データに基づいて合成音声を生成する音声合成部と、
前記音声合成部が合成音声を生成する前に、前記受取部が受け取った属性データの示すピッチ及び音量に基づいて周期性を有する音信号を生成する音信号生成部であって、前記音声合成部が合成音声を生成する処理よりも短時間の処理によって周期性を有する音信号を生成する音信号生成部と
を具備することを特徴とする音声合成装置。 A receiving unit for receiving the attribute data indicating an attribute containing the pitch and volume of the audio data,
A speech synthesis unit that generates synthesized speech based on the previous SL attribute data receiving unit has received,
A sound signal generator for generating a sound signal having periodicity based on a pitch and a volume indicated by the attribute data received by the receiver before the voice synthesizer generates a synthesized voice; And a sound signal generation unit that generates a sound signal having periodicity by processing in a shorter time than processing for generating synthesized speech .
前記受取部が受け取った属性データの示すピッチと前記第2の受取部が受け取った楽譜データとの対応付けを行い、該対応付け結果に基づいて前記歌詞データと前記ピッチを表すピッチデータとの対応付けを行う対応付け部と
を具備し、
前記音声合成部は、前記受取部が受け取った属性データ並びに前記対応付け部により対応付けがなされた歌詞データ及びピッチデータに基づいて、合成音声を生成する
ことを特徴とする請求項1に記載の音声合成装置。 A second receiving unit for receiving lyric data indicating lyrics and score data associated with the lyrics;
Correspondence between the pitch indicated by the attribute data received by the receiving unit and the score data received by the second receiving unit, and correspondence between the lyrics data and pitch data representing the pitch based on the association result And an associating unit for attaching,
The speech synthesis unit generates synthesized speech based on the attribute data received by the reception unit and the lyric data and pitch data associated by the association unit. Speech synthesizer.
を具備することを特徴とする請求項1又は2に記載の音声合成装置。 The speech synthesizer according to claim 1 or 2, further comprising: a speech analysis unit that analyzes the speech data for attributes including pitch and volume and supplies attribute data indicating an analysis result to the reception unit. .
音声データのピッチ及び音量を含む属性を示す属性データを受け取る受取機能と、
前記受け取った属性データに基づいて合成音声を生成する音声合成機能と、
前記音声合成機能が合成音声を生成する前に、前記受け取った属性データの示すピッチ及び音量に基づいて周期性を有する音信号を生成する音信号生成機能であって、前記音声合成機能が合成音声を生成する処理よりも短時間の処理によって周期性を有する音信号を生成する音信号生成機能と
を実現させるためのプログラム。 On the computer,
A receiving function of receiving the attribute data indicating an attribute containing the pitch and volume of the audio data,
A speech synthesis function for generating a synthesized speech based on the previous SL received attribute data,
A sound signal generating function for generating a sound signal having periodicity based on a pitch and a volume indicated by the received attribute data before the voice synthesizing function generates a synthesized voice, wherein the voice synthesizing function is a synthesized voice; A program for realizing a sound signal generation function for generating a sound signal having periodicity by processing in a shorter time than processing for generating the sound .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011286728A JP5953743B2 (en) | 2011-12-27 | 2011-12-27 | Speech synthesis apparatus and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011286728A JP5953743B2 (en) | 2011-12-27 | 2011-12-27 | Speech synthesis apparatus and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013134476A JP2013134476A (en) | 2013-07-08 |
JP5953743B2 true JP5953743B2 (en) | 2016-07-20 |
Family
ID=48911167
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011286728A Active JP5953743B2 (en) | 2011-12-27 | 2011-12-27 | Speech synthesis apparatus and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5953743B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6184296B2 (en) * | 2013-10-31 | 2017-08-23 | 株式会社第一興商 | Karaoke guide vocal generating apparatus and guide vocal generating method |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07210186A (en) * | 1994-01-11 | 1995-08-11 | Fujitsu Ltd | Voice register |
JP2007256349A (en) * | 2006-03-20 | 2007-10-04 | Oki Electric Ind Co Ltd | Voice data recording system and voice data recording method |
JP2009053522A (en) * | 2007-08-28 | 2009-03-12 | Panasonic Electric Works Co Ltd | Speech output device |
JP5136128B2 (en) * | 2008-03-12 | 2013-02-06 | ヤマハ株式会社 | Speech synthesizer |
-
2011
- 2011-12-27 JP JP2011286728A patent/JP5953743B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013134476A (en) | 2013-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100949872B1 (en) | Song practice support device, control method for a song practice support device and computer readable medium storing a program for causing a computer to excute a control method for controlling a song practice support device | |
JP5605066B2 (en) | Data generation apparatus and program for sound synthesis | |
TWI394142B (en) | System, method, and apparatus for singing voice synthesis | |
JP5949607B2 (en) | Speech synthesizer | |
CN111418006B (en) | Speech synthesis method, speech synthesis device, and recording medium | |
JP6728754B2 (en) | Pronunciation device, pronunciation method and pronunciation program | |
JP6733644B2 (en) | Speech synthesis method, speech synthesis system and program | |
JP2010025972A (en) | Code name-detecting device and code name-detecting program | |
JP5136128B2 (en) | Speech synthesizer | |
US20210350783A1 (en) | Sound signal synthesis method, neural network training method, and sound synthesizer | |
JP5292702B2 (en) | Music signal generator and karaoke device | |
JP4844623B2 (en) | CHORAL SYNTHESIS DEVICE, CHORAL SYNTHESIS METHOD, AND PROGRAM | |
JP6044284B2 (en) | Speech synthesizer | |
JP5953743B2 (en) | Speech synthesis apparatus and program | |
TWI377557B (en) | Apparatus and method for correcting a singing voice | |
KR101020557B1 (en) | Apparatus and method of generate the music note for user created music contents | |
JP5810947B2 (en) | Speech segment specifying device, speech parameter generating device, and program | |
JP6992894B2 (en) | Display control method, display control device and program | |
JP7124870B2 (en) | Information processing method, information processing device and program | |
JP2013210501A (en) | Synthesis unit registration device, voice synthesis device, and program | |
JP2022065554A (en) | Method for synthesizing voice and program | |
JP5106437B2 (en) | Karaoke apparatus, control method therefor, and control program therefor | |
JP2007225916A (en) | Authoring apparatus, authoring method and program | |
JP2005275420A (en) | Voice analysis and synthesizing apparatus, method and program | |
JP7127682B2 (en) | Information processing method, information processing device and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141023 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20151013 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151020 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151201 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160517 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160530 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5953743 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |