JP2010169889A - Voice synthesis device and program - Google Patents
Voice synthesis device and program Download PDFInfo
- Publication number
- JP2010169889A JP2010169889A JP2009012300A JP2009012300A JP2010169889A JP 2010169889 A JP2010169889 A JP 2010169889A JP 2009012300 A JP2009012300 A JP 2009012300A JP 2009012300 A JP2009012300 A JP 2009012300A JP 2010169889 A JP2010169889 A JP 2010169889A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- unit
- data
- speech unit
- waveform
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Electrophonic Musical Instruments (AREA)
Abstract
Description
本発明は、音声を合成する技術に関し、特に、複数の音声素片を接続して音声を合成する素片接続方式の音声合成技術に関する。 The present invention relates to a technology for synthesizing speech, and more particularly, to a speech synthesis technology of a unit connection method for synthesizing speech by connecting a plurality of speech units.
この種の音声合成技術の一例としては、素片接続方式の歌唱合成が挙げられる。素片接続方式の歌唱合成では、単一の音素や音素から音素への遷移部分など歌唱音声の素材となる各種の音声素片の波形を定義した音声素片データを予めデータベースに格納しておくことが一般的である。そして、ある歌詞をあるメロディに合わせて歌唱する歌唱音声を合成する際には、歌詞を構成する音声素片の音声素片データをデータベースから読み出し、各々のピッチをメロディに合わせるためのピッチ変換を施した後に連結して、歌唱音声の波形を示すデータを合成する(特許文献1〜3参照)。 An example of this type of speech synthesis technique is the unit connection type singing synthesis. In the singing synthesis of the unit connection method, speech unit data defining waveforms of various speech units that are materials of singing speech such as a single phoneme or a transition part from a phoneme to a phoneme is stored in a database in advance. It is common. And when synthesizing a singing voice that sings a certain lyric according to a certain melody, the speech element data of the speech element constituting the lyric is read from the database, and pitch conversion is performed to match each pitch to the melody. After giving, it connects and synthesize | combines the data which show the waveform of a song voice (refer patent documents 1-3).
素片接続方式の音声合成で自然な音声を合成するためには、できるだけ多くの音声素片をデータベースに格納しておく必要がある。音韻の種類(有声、無声、母音の欠落など)、前後の音韻の組み合わせや、声質、情感などを考慮すると、データベース化しておくべき音声素片の数は膨大なものになる。このため、携帯型ゲーム機やPDA(Personal Digital Assistants)、携帯電話などの携帯端末に音声合成を実行させようとすると、データベース化しておく音声素片の数が大きな問題となる。これら携帯端末は大容量の記憶装置を有しておらず、格納可能なデータサイズに制限があるからである。
本発明は上記課題に鑑みて為されたものであり、素片接続方式の音声合成において、データベース化する音声素片の数を従来より少なくしても自然な音声を合成できるようにする技術を提供することを目的とする。
In order to synthesize natural speech by speech synthesis using the unit connection method, it is necessary to store as many speech units as possible in the database. Considering the types of phonemes (voiced, unvoiced, missing vowels, etc.), the combination of previous and subsequent phonemes, voice quality, emotions, etc., the number of speech segments to be stored in a database becomes enormous. For this reason, if a mobile terminal such as a portable game machine, a PDA (Personal Digital Assistants), or a mobile phone is to perform speech synthesis, the number of speech segments stored in a database becomes a big problem. This is because these portable terminals do not have a large-capacity storage device and there is a limit on the size of data that can be stored.
The present invention has been made in view of the above problems, and in the speech synthesis of the unit connection method, a technique for synthesizing natural speech even if the number of speech units to be databased is smaller than the conventional one. The purpose is to provide.
上記課題を解決するため、本発明は、各種の音声素片の波形を示す波形データを含む音声素片データが格納されている音声素片データベースと、音声合成の対象言語の母音の全部または一部について、無声発音の波形を表す無声化テンプレートが母音毎に格納されている記憶手段と、音声の合成に用いる音声素片に対応する音声素片データを前記音声素片データベースから選択する手段であって、無声化された母音を含む音声素片が音声合成に用いられる場合には、当該母音を有声化した音声素片の音声素片データを前記音声素片データベースから選択する素片選択手段と、前記素片選択手段により選択される音声素片データが無声化された母音を含む音声素片に対して選択されたものである場合には、何れかの無声化テンプレートが示す波形を当該音声素片データの示す波形のスペクトルエンベロープと同様なスペクトルエンベロープを有する波形に加工し、当該音声素片データを当該加工後の波形を示す音声素片データに変換して出力する一方、他の音声素片に対して選択されたものである場合には、そのまま出力する無声化変換手段と、前記無声化変換手段から出力される各音声素片データに含まれる波形データを調整しつつ連結して出力する素片連結手段とを有することを特徴とする音声合成装置、を提供する。 In order to solve the above problems, the present invention provides a speech unit database in which speech unit data including waveform data indicating waveforms of various speech units is stored, and all or one of vowels of a speech synthesis target language. And a means for selecting a speech unit data corresponding to a speech unit used for speech synthesis from the speech unit database. When a speech unit including a vowel that has been devoted is used for speech synthesis, a unit selection unit that selects speech unit data of a speech unit obtained by voicing the vowel from the speech unit database If the speech unit data selected by the unit selection means is selected for a speech unit including a devoted vowel, the wave indicated by any devoicing template Is processed into a waveform having a spectrum envelope similar to the spectral envelope of the waveform indicated by the speech segment data, and the speech segment data is converted into speech segment data indicating the processed waveform and output. If the speech unit is selected, the devoicing conversion means for outputting the speech unit and the waveform data included in each speech unit data output from the devoicing conversion unit are connected while being adjusted. A speech synthesizer characterized in that the speech synthesizer has a segment connecting means for outputting.
このような音声合成装置によれば、無声化母音を含む音声素片の音声素片データが音声素片データベースに格納されていなくても、当該母音を有声発音した場合の音声素片の波形のスペクトルエンベロープと無声化テンプレートの示す波形のスペクトルとから当該無声化母音を含む音声素片の音声素片データが生成され音声合成に使用される。つまり、この音声合成装置によれば、無声化母音の音声素片をデータベース化の対象から除外しても、従来技術と同様に自然な音声の合成を行うことができる。なお、本発明の別の態様においては、コンピュータ装置を素片選択手段、無声化変換手段および素片連結手段として機能させるプログラムを提供する態様であっても良い。 According to such a speech synthesizer, even if speech unit data of a speech unit including a devoted vowel is not stored in the speech unit database, the waveform of the speech unit when the vowel is pronounced is voiced. Speech unit data of speech units including the unvoiced vowel is generated from the spectrum envelope and the spectrum of the waveform indicated by the devoicing template, and used for speech synthesis. That is, according to this speech synthesizer, natural speech synthesis can be performed in the same manner as in the prior art even if speech units of devoted vowels are excluded from the database. In another aspect of the present invention, a program for causing a computer device to function as a segment selection unit, a devoicing conversion unit, and a segment connection unit may be provided.
より好ましい態様においては、上記音声合成装置の無声化変換手段は、無声化母音を含む音声素片と無声化母音を含まない音声素片とが連続して音声合成に用いられる場合には、当該無声化母音を含む音声素片において、前記素片選択手段により選択される音声素片データの示す波形と前記加工後の波形とがクロスフェードするように当該音声素片データを変換することを特徴とする。このような態様によれば無声化母音を含む音声素片と無声化母音を含まない音声素片のつなぎ目が不自然になることを回避することが可能になる。 In a more preferred aspect, the devoicing conversion means of the speech synthesizer includes a speech unit that includes a devoicing vowel and a speech unit that does not include a devoicing vowel that is used for speech synthesis. In the speech unit including the unvoiced vowel, the speech unit data is converted so that the waveform indicated by the speech unit data selected by the unit selection unit and the processed waveform cross-fade. And According to such an aspect, it is possible to avoid the unnatural connection between the speech unit including the unvoiced vowel and the speech unit not including the unvoiced vowel.
さらに好ましい態様においては、上記音声合成装置の無声化変換手段は、前記素片選択手段により選択される音声素片データの示す波形と前記加工後の波形とがクロスフェードするように変換した音声素片データに、そのクロスフェードにおけるミキシング比率に応じた気息音を付与して出力することを特徴とする。このように気息音などの所謂非調和成分の音を上記ミキシング比率に応じて付与することによって、より自然な感じの音声を合成することが可能になる。 In a further preferred aspect, the devoicing conversion means of the speech synthesizer includes a speech element that has been converted so that the waveform indicated by the speech segment data selected by the segment selection means and the processed waveform cross-fade. A piece of data is output with a breath sound corresponding to the mixing ratio in the crossfade. As described above, by adding so-called nonharmonic component sounds such as breath sounds according to the mixing ratio, it is possible to synthesize more natural-feeling sounds.
また、本発明の別の態様においては、各種の音声素片の波形を示す波形データを含む音声素片データが格納されている音声素片データベースと、音声合成の対象言語の母音の全部または一部について、有声発音の波形を示す有声化テンプレートが母音毎に格納されている記憶手段と、音声の合成に用いる音声素片に対応する音声素片データを前記音声素片データベースから選択する手段であって、有声発音される母音を含む音声素片が音声合成に用いられる場合には、当該母音を無声化した音声素片の音声素片データを前記音声素片データベースから選択する素片選択手段と、前記素片選択手段により選択される音声素片データが有声発音される母音を含む音声素片に対して選択されたものである場合には、何れかの有声化テンプレートが示す波形を当該音声素片データの示す波形のスペクトルエンベロープと同様なスペクトルエンベロープを有する波形に加工し、当該音声素片データを当該加工後の波形を示す音声素片データに変換して出力する一方、他の音声素片に対して選択されたものである場合には、そのまま出力する有声化変換手段と、前記有声化変換手段から出力される各音声素片データに含まれる波形データを調整しつつ連結して出力する素片連結手段とを有することを特徴とする音声合成装置、またはコンピュータ装置を上記素片選択手段、有声化変換手段および素片連結手段として機能させることを特徴とするプログラム、を提供する。 In another aspect of the present invention, a speech unit database storing speech unit data including waveform data indicating waveforms of various speech units, and all or one of vowels of a speech synthesis target language. A means for selecting a speech unit data corresponding to a speech unit to be used for speech synthesis from the speech unit database; When a speech unit including a vowel that is voiced is used for speech synthesis, a unit selection unit that selects speech unit data of a speech unit obtained by devoting the vowel from the speech unit database. If the speech segment data selected by the segment selection means is selected for a speech segment containing a vowel that is voiced, any voicing template is displayed. While processing the waveform into a waveform having a spectrum envelope similar to the spectrum envelope of the waveform indicated by the speech unit data, the speech unit data is converted into speech unit data indicating the processed waveform and output, In the case where it is selected for another speech unit, the voicing conversion means that outputs it as it is, and the waveform data included in each speech unit data output from the voicing conversion means are adjusted A speech synthesizing apparatus characterized by having a segment connecting means for connecting and outputting, or a program that causes a computer device to function as the unit selecting means, voicing conversion means, and segment connecting means, I will provide a.
このような音声合成装置やプログラムによれば、有声発音された母音を含む音声素片の音声素片データが音声素片データベースに格納されていなくとも、当該母音を無声発音した音声素片の波形のスペクトルエンベロープと有声化テンプレートの示す波形のスペクトルとから、有声発音された当該母音を含む音声素片の音声素片データが生成され、音声合成に使用される。ここで、無声化母音を含む音声素片と有声母音を含む音声素片の何れをデータベース化の対象から除外するのかについては、音声合成の対象言語との関係で定めるようにすれば良い。例えば、前者(無声化母音を含む音声素片)のほうが後者(有声母音を含む音声素片)に比較して出現頻度が高い言語については前者をデータベース化の対象にすれば良く、その逆の場合は後者をデータベース化の対象とすれば良い。 According to such a speech synthesizer and program, even if speech unit data of a speech unit including a vowel that is voiced is not stored in the speech unit database, the waveform of the speech unit that is silently generated from the vowel The speech segment data of the speech unit including the vowel-spoken vowel is generated from the spectrum envelope and the spectrum of the waveform indicated by the voicing template, and used for speech synthesis. Here, which one of the speech units including the unvoiced vowels and the speech unit including the voiced vowels is excluded from the target of database creation may be determined in relation to the target language for speech synthesis. For example, the former (speech segment containing unvoiced vowels) should be used as a database for the language that appears more frequently than the latter (speech segment containing voiced vowels), and vice versa. In this case, the latter should be the target of database creation.
以下、図面を参照しつつ本発明の一実施形態について説明する。
図1は、本発明に係る音声合成装置の一実施形態である歌唱合成装置の構成を示すブロック図である。この歌唱合成装置は、例えば携帯電話機や携帯型ゲーム機など音声を出力する機能を備えた携帯端末に音声合成プログラムをインストールしたものである。図1において、CPU(Central Processing Unit)1は、この歌唱合成装置の各部を制御する制御中枢である。ROM(Read Only Memory)2は、ローダなど、この歌唱合成装置の基本的な動作を制御するための制御プログラムを記憶した読み出し専用メモリである。表示部3は、例えば液晶ディスプレイとその駆動回路であり、装置の動作状態や入力データ、利用者に対するメッセージなどを表示する。操作部4は、利用者に各種情報を入力させるための手段であり、複数の操作子(例えば、携帯型ゲーム機であればスタートボタンやカーソルキー、携帯電話であればテンキーなど)やタッチパネルなどで構成されている。インタフェース群5は、ネットワークを介して他の装置との間でデータ通信を行うためのネットワークインタフェースや、UMD(Universal Media Disc)やCD−ROM(Compact Disk-Read
Only Memory)などの外部記録媒体との間でデータの授受を行うためのドライバなどである。フラッシュメモリ6は、各種のプログラムやデータベースなどの情報を記憶するための不揮発性記憶装置(記憶手段)である。RAM7は、CPU1によってワークエリアとして利用される揮発性メモリである。CPU1は、操作部4を介して与えられる指令にしたがいフラッシュメモリ6内のプログラムをRAM7に読み出し実行する。サウンドシステム8は、この歌唱合成装置において合成される音声を出力する手段である。このサウンドシステム8は、合成音声の波形を示すデジタル音声信号(例えば、合成音声の波形を示すサンプリングデータ)をアナログ音声信号に変換するD/A変換器と、このアナログ音声信号を増幅するアンプと、このアンプの出力信号を音として出力するスピーカ等を含んでいる。
Hereinafter, an embodiment of the present invention will be described with reference to the drawings.
FIG. 1 is a block diagram showing a configuration of a singing voice synthesizing apparatus which is an embodiment of a voice synthesizing apparatus according to the present invention. This singing voice synthesizing apparatus is obtained by installing a voice synthesizing program on a portable terminal having a function of outputting voice, such as a mobile phone or a portable game machine. In FIG. 1, a CPU (Central Processing Unit) 1 is a control center that controls each part of the singing voice synthesizing apparatus. A ROM (Read Only Memory) 2 is a read only memory storing a control program for controlling basic operations of the singing voice synthesizing apparatus such as a loader. The
A driver for transmitting / receiving data to / from an external recording medium such as “Only Memory”. The
フラッシュメモリ6に記憶されている情報としては、曲編集プログラム61、曲データ62、無声化テンプレート63、音声素片データベース64、および音声合成プログラム65が挙げられる。曲データ62は、曲を構成する一連の音符を表す音符データと、音符に合わせて発音する歌詞を表す歌詞データと、曲に音楽的表情を与えるためのダイナミックス情報等のその他の情報とを含んでいる。この曲データ62は、曲毎に作成されフラッシュメモリ6に格納される。
Examples of information stored in the
曲編集プログラム61は、曲データ62を編集するためにCPU1によって実行されるプログラムである。好ましい態様において、この曲編集プログラム61は、ピアノの鍵盤の画像からなるGUI(Graphical User Interface)を表示部3に表示させる。ユーザは、表示部3に表示される鍵盤における所望の鍵の画像に対する操作部4の操作により音符を指定し、その音符に合わせて発音する歌詞を操作部4の操作により入力することができる。ここで、歌詞の入力は、図2(A)に示すように、仮名入力で行っても良く、また、図2(B)に示すように音声記号入力で行っても良い。また、音声記号入力で歌詞を入力する態様においては、図2(C)に示すように、母音の無声化を指示する音声記号(“_0”)を付与することで素片単位で母音の無声化を指示することができる。曲編集プログラム61は、音符とその音符に合わせて発音される歌詞に関する情報を操作部4から受け取り、音符毎に音符データと歌詞データとを対応付け、曲データ62としてフラッシュメモリ6内に格納する。さらに、ユーザは操作部4の操作によりダイナミックス情報等を曲データ62に追加することができる。なお、このように曲データ62の全てを操作部4の操作により入力させるのではなく、歌唱合成装置に鍵盤を接続し、ユーザによる鍵盤の操作を検知することにより音符データを生成し、この音符データに対応させる歌詞を操作部4の操作により入力させるようにしても良い。また、他の装置で作成した曲データ62をインタフェース群5を介してこの歌唱合成装置へ入力し、フラッシュメモリ6に格納させる態様でも良く、この態様においては曲編集プログラム61をフラッシュメモリ6に格納しておく必要はない。
The
1個の音符に対応した音符データは、音符の発生時刻、音高、音符の長さを示す各情報を含んでいる。歌詞データは、音符に合わせて発音するべき歌詞を音符毎に定義したデータである。曲データ62は、曲の開始からの発生順序に合わせて、個々の音符に対応した音符データと歌詞データとを時系列的に並べたものであり、曲データ62内においては音符データと歌詞データとは音符単位で対応付けられている。
The note data corresponding to one note includes information indicating the note generation time, pitch, and note length. The lyric data is data in which lyrics to be pronounced in accordance with the notes are defined for each note. The
音声合成プログラム65は、曲データ62にしたがって音声(本実施形態では、歌唱音声)を合成する処理を、CPU1に実行させるプログラムである。好ましい態様において、音声合成プログラム65と曲編集プログラム61は、例えばインターネット内のサイトからインタフェース群5の中の適当なものを介してダウンロードされ、フラッシュメモリ6にインストールされる。また、他の態様において、音声合成プログラム65等は、CD−ROMやUMD等のコンピュータ装置読取可能な記録媒体に記録された状態で取引される。この態様では、インタフェース群5の中の適当なものを介して記録媒体から音声合成プログラム65等が読み出され、フラッシュメモリ6にインストールされる。
The
音声素片データベース64は、子音から母音への遷移部分、母音から他の母音への遷移部分など音素から音素への遷移部分や、母音の伸ばし音など、歌声の素材となる各種の音声素片を示す音声素片データの集合体である。これらの音声素片データは、実際に人間が発した音声波形から抽出された音声素片に基づいて作成されたデータである。音声素片データベース64では、男性歌手、女性歌手、澄んだ声の歌手、ハスキーな声の歌手など、声質の異なった歌手毎に、各歌手の歌唱音声波形から得られる音声素片データのグループが用意されている。音声合成プログラム65による歌唱合成の際、ユーザは、操作部4の操作により、以上のような各種の音声素片データのグループの中から歌唱合成に使用する音声素片データのグループを選択することができる。
The
前述したように、音声素片データベース64には、できるだけ多くの音声素片データが格納されていることが好ましい。しかし、本実施形態では、音声素片データベース64は、フラッシュメモリ6に格納されるので、音声素片データベース64に格納する音声素片データの数を最小限に絞り込む必要がある。何故ならば、フラッシュメモリの記憶容量はハードディス等に比較して小さいことが一般的だからである。そこで、本実施形態では、全ての母音(例えば、日本語(標準語)であれば、“a”,“i”,“u”,“e”および“o”の5つ)について、無声発音されたもの(以下、無声化母音)を含む音声素片の音声素片データを格納対象から除外することで、上記絞込みが実現されている。ここで、無声化母音を含む音声素片の一例としては、単一の音素(無声化母音)のみからなるものだけでなく、子音から無声化母音への遷移部分、無声化母音から無音への遷移部分などが挙げられる。
As described above, the
特許文献1等に示す従来の素片接続方式の歌唱合成技術では、無声化母音を含む音声素片についても、その波形等を示す音声素片データが音声素片データベースに格納されている。何故ならば、これらの音声素片を欠く状態では音声合成に支障が生じるからである。図3(A)は、母音が無声化されていない(すなわち、母音が有声発音された)「す」の発音の素片構成を示す図であり、図3(B)は、母音が無声化された「す」の発音の素片構成を示す図である。図3において、音声記号[u]は有声発音された母音(う)を表し、音声記号[u_0]は無声化された母音(う)を表す。 In the conventional unit connection type singing synthesis technique shown in Patent Document 1 and the like, speech unit data indicating the waveform and the like is stored in the speech unit database even for speech units including unvoiced vowels. This is because the speech synthesis is hindered in the state where these speech segments are missing. FIG. 3A is a diagram showing a segment structure of the pronunciation of “su” in which the vowels are not devoiced (that is, the vowels are voiced), and FIG. It is a figure which shows the segment composition of the pronunciation of "su" done. In FIG. 3, the phonetic symbol [u] represents a vowel that is voiced, and the phonetic symbol [u_0] represents a vowel that was made unvoiced.
図3(B)を参照すれば明らかなように、母音(う)が無声化された「す」の発音を合成するには、子音[s]から無声化母音[u_0]への遷移部分、無声化母音[u_0]、および無声化母音[u_0]から無音[sil]への遷移部分の各素片が必要である。したがって、本実施形態のように、これら素片の音声素片データが音声素片データベース64に格納されていない状況下では、従来の素片接続方式の音声合成で、母音が無声化された「す」の発音を合成することはできない。しかしながら、本実施形態では、子音[s]から無声化されていない母音[u]への遷移部分、同母音[u]、および同母音[u]から無音への遷移部分の各音声素片データと無声化テンプレート63とから、子音[s]から無声化母音[u_0]への遷移部分、同無声化母音[u_0]、および同無声化母音[u_0]から無音[sil]への遷移部分の音声素片データを合成することで上記のような不具合の発生を回避している。ここで、無声化テンプレート63は、対象言語の母音のうちの任意の1つ(例えば、対象言語が日本語であれば、“a”)を無声発音した音の波形を示すデータ(同波形のサンプリングデータや、周波数スペクトルや位相スペクトルを表すデータ)である。この無声化テンプレート63を利用した合成処理については後に詳細に説明する。
As is clear from FIG. 3B, in order to synthesize the pronunciation of “su” with the vowel (u) devoiced, the transition from the consonant [s] to the unvoiced vowel [u — 0], The unvoiced vowel [u_0] and each segment of the transition part from the unvoiced vowel [u_0] to the silence [sil] are required. Therefore, as in the present embodiment, in a situation where the speech unit data of these units is not stored in the
音声素片データベース64に格納されている各音声素片データは、音声素片の波形を示す波形データを含んでいる。この波形データは、音声素片の波形を所定のサンプリングレートでサンプリングしたサンプル列であっても良いし、音声素片の波形のサンプル列を一定時間長のフレームに分割し、FFT(高速フーリエ変換)を行うことにより得られたフレーム毎のスペクトル(振幅スペクトルおよび位相スペクトル)を示すデータであっても良い。また、各音声素片データは、音声素片を構成する音素の種類と各音素の開始時刻を示すセグメンテーションデータを含む。
Each speech unit data stored in the
本実施形態では、音声素片データに含まれる波形データにピッチ変換を施して利用することにより、任意のメロディに対応した歌唱音声を合成する。このピッチ変換については、例えば特許文献1に開示されている手法を採用すれば良い。ピッチ変換を行うためには、その対象である波形データのピッチに関する情報が必要である。そこで、ある好ましい態様では、歌唱合成の際のピッチ変換の便宜のため、音声素片のピッチがフレーム毎に算出され、各フレームにおけるピッチを示す素片ピッチデータが音声素片データの一部として音声素片データベース64に格納される。また、他の好ましい態様では、歌唱合成の際の演算処理の便宜のため、上記素片ピッチデータに加えて、音声素片の振幅スペクトルの包絡線がフレーム毎に求められ、各フレームにおけるスペクトル包絡を示すスペクトル包絡データが音声素片データの一部として音声素片データベース64に格納されている。
In the present embodiment, the singing voice corresponding to an arbitrary melody is synthesized by applying the pitch conversion to the waveform data included in the speech segment data. For this pitch conversion, for example, a method disclosed in Patent Document 1 may be adopted. In order to perform pitch conversion, information on the pitch of the waveform data that is the object is required. Therefore, in a preferred embodiment, for the convenience of pitch conversion at the time of singing synthesis, the pitch of the speech unit is calculated for each frame, and the unit pitch data indicating the pitch in each frame is a part of the speech unit data. It is stored in the
次いで、音声合成プログラム65の構成について説明する。
図4は、音声合成プログラム65の構成を説明するための図である。この音声合成プログラム65は、所謂素片接続方式の音声合成(本実施形態では、歌唱合成)処理をCPU1に実行させるプログラムであり、図4に示すように、音声合成指示生成手段651、素片選択手段652、ピッチ変換手段653、無声化変換手段654および素片連結手段655を含んでいる。なお、本実施形態では、CPU1が音声合成指示生成手段651等に相当するプログラムを実行することにより歌唱音声の合成を行うが、これらの各プログラムを複数のプロセッサが分担して並列実行するように構成しても良い。また、音声合成指示生成手段651等の各プログラムの一部を電子回路により構成しても良い。
Next, the configuration of the
FIG. 4 is a diagram for explaining the configuration of the
音声合成指示生成手段651は、操作部4の操作により指定された曲データ62から音声合成指示660を生成するプログラムである。この音声合成指示660は、所謂歌唱合成スコアであり、音韻データトラック661、ピッチデータトラック662、無声化係数トラック663、およびその他のデータトラック664を含んでいる。これら各データトラックは時間軸を共通にするものである。音韻データトラック661は、1曲分の歌唱音声を合成するのに使用する複数の音声素片と、それらの各音声素片の時間軸上における位置(具体的には、音声素片の開始タイミングおよび継続時間)を示すデータトラックである。ピッチデータトラック662は、合成するべき歌唱音声のピッチを示すデータトラックである。無声化係数トラック663は、音韻データトラック661の示す各音声素片について母音の無声化を行うか否かを示す無声化係数wが書き込まれたデータトラックである。この無声化係数トラック663の生成態様としては種々の態様が考えられる。
The voice synthesis
第1に、音符と対応付けて曲データ62に格納されている歌詞にて母音の無声化が指示されている音声素片に対しては、その音声素片に含まれる母音を無声化することを示す値(例えば、1)をセットし、母音の無声化を指示されていない音声素片に対しては、母音の無声化を行わないことを示す値(例えば、0)をセットする態様である。この態様では、無声化係数トラック663の生成が容易といった利点がある一方、無声化母音を含む音声素片と母音を無声化しない音声素片とが隣接する場合、両素片のつなぎ目で無声化係数wが0から1、あるいは1から0に不連続に変化し、この不連続性に起因してノイズが発生し易いといった不具合がある。
First, for a speech unit in which vowel devoicing is instructed by the lyrics stored in the
これに対して第2の態様では、無声化係数wを音声素片を構成するフレーム単位でセットする態様であり、無声化母音を含む音声素片と母音を無声化しない音声素片とが隣接する場合、無声化母音を含む音声素片については、その音声素片内で無声化係数が0から1、或いは1から0に緩やかに変化するように各フレームの無声化係数wを0から1までの小数値でセットする態様である。この態様では、フレーム単位で小数値の無声化係数wをセットするため、上記第1の態様に比較して無声化係数トラック663の生成には手間がかかるものの、無声化母音を含む音声素片と母音を無声化しない音声素片とが隣接する場合に両素片のつなぎ目でノイズが発生するといった不具合が回避されるといった利点がある。本実施形態では、ノイズの発生を回避してより自然な音声合成を行うため、上記第2の態様で無声化係数トラック663が生成される。
On the other hand, the second mode is a mode in which the devoicing coefficient w is set for each frame constituting the speech unit, and the speech unit including the unvoiced vowel is adjacent to the speech unit that does not devoice the vowel. In this case, for a speech unit including a devoicing vowel, the devoicing coefficient w of each frame is changed from 0 to 1 so that the devoicing coefficient gradually changes from 0 to 1 or from 1 to 0 in the speech unit. This is a mode of setting with decimal values up to. In this aspect, since the devoicing coefficient w having a decimal value is set in units of frames, it takes more time to generate the
音声合成指示生成手段651は、基本的には音符データに従い、また、ビブラートやポルタメント、レガートの指示がある場合にはそれに従い、ピッチデータトラック662を生成する。ただし、ピッチデータトラックを音符データ通りのものにすると、ピッチの変化が階段状になり、不自然な歌唱音になるので、本実施形態では、ピッチの切り換り区間においてピッチが自然な動きとなるように、ピッチデータトラック662が示すピッチに変化を与える。その他のデータトラック664は、曲データ62に含まれるダイナミックス情報等に基づいて作成される。
The voice synthesis
素片選択手段652、ピッチ変換手段653、無声化変換手段654および素片連結手段655は、音声合成指示660に従って歌唱音声の波形を示す波形データである歌唱音声データを生成する役割を担っている。ここで、音声合成指示660から歌唱音声データを生成する処理は、1曲分の音声合成指示660の生成が完了した後に開始するようにしても良く、音声合成指示660の生成開始から少し遅れて開始するようにしても良い。
The
素片選択手段652は、音声合成指示660の音韻データトラック661において指定されている音声素片の音声素片データを音声素片データベース64から読み出し、その音声素片データをピッチ変換手段653に出力するプログラムである。ただし、本実施形態では、無声化母音を含む音声素片の音声素片データは音声素片データベース64に格納されていない。そこで、音韻データトラック661にて指定されている音声素片が無声化母音を含むものである場合、素片選択手段652は、当該無声化母音を有声発音に置き換えた音声素片の音声素片データを音声素片データベース64から読み出し、その音声素片データをピッチ変換手段653へ出力する。例えば、音韻データトラック661にて指定されている音声素片が[s−u_0]である場合には、素片選択手段652は、[s−u]の音声素片データを音声素片データベース64から読み出しピッチ変換手段653へ出力する。同様に、音韻データトラック661にて[u_0]が指定されている場合には[u]の音声素片データが、[u_0−sil]が指定されている場合には[u−sil]の音声素片データが音声素片データベース64から読み出される。加えて、素片選択手段652は、音声素片データをピッチ変換手段653に引渡す際に、その継続時間長を音声合成指示660において指定された音声素片の継続時間長に合わせる機能を備えている。
The
ピッチ変換手段653は、ピッチデータトラック662において指定されたピッチに対応した波形データとなるように、素片選択手段652から出力される音声素片データに含まれる波形データにピッチ変換を施すプログラムである。さらに詳述すると、例えば上記波形データが音声素片の波形を所定のサンプリングレートでサンプリングしたサンプル列である場合、ピッチ変換手段653は、所定サンプル数からなるフレーム単位でサンプル列のFFT(高速フーリエ変換)を行い、音声素片の振幅スペクトルおよび位相スペクトルをフレーム毎に求める。そして、ピッチデータトラック662において指定されたピッチに対応するように、各フレームにおける振幅スペクトルを周波数軸方向に伸張または圧縮する。その際、基音および倍音に相当する周波数の近傍は、元のスペクトルの概形が保たれるように、非線形な伸張または圧縮を行い、ピッチ変換後の振幅スペクトルとする。また、ピッチ変換後においても、ピッチ変換前のスペクトル包絡が維持されるように、非線形な圧縮または伸張を経た振幅スペクトルのレベル調整を行う。位相スペクトルに関しては、元の位相スペクトルをそのままピッチ変換後の位相スペクトルとしても良いが、振幅スペクトルの周波数軸方向の圧縮または伸張に合わせて補正を行ったものをピッチ変換後の位相スペクトルとする方が好ましい。なお、素片選択手段652から出力される音声素片データに含まれる波形データが音声素片を構成する各フレームの振幅スペクトルおよび位相スペクトルを表すデータである場合には、上記FFTを行うことなく周波数軸方向の圧縮または伸張を行えば良いことは言うまでもない。
The pitch conversion means 653 is a program that performs pitch conversion on the waveform data included in the speech element data output from the element selection means 652 so that the waveform data corresponds to the pitch specified in the
無声化変換手段654は、ピッチ変換手段653から引渡される音声素片データに含まれる波形データに対して、無声化係数トラック663に書き込まれている無声化係数wの値に応じた無声化変換処理を施して素片連結手段655へ出力する。以下、母音[u]の無声化を行う場合を例にとって、この無声化変換処理の内容を説明する。
The
図5は、無声化変換手段654が実行する無声化変換処理の流れを示すフロー図である。この無声化変換処理は、ピッチ変換手段653から音声素片データが引渡される度に実行される。図5に示すように、この無声化変換処理では、まず、ピッチ変換手段653から引き渡される音声素片データをRAM7内の所定領域へ書き込み記憶する処理(ステップSA010)が実行される。前述したように、ピッチ変換手段653によるピッチ変換処理を経た音声素片データに含まれる波形データは、音声素片を構成するフレーム毎にその音声素片のスペクトル(振幅スペクトルおよび位相スペクトル)を表すデータである。以下では、各フレームのスペクトルを表すデータのことをフレームデータと呼ぶ。
FIG. 5 is a flowchart showing the flow of the unvoiced conversion process executed by the unvoiced conversion means 654. This devoicing conversion process is executed each time speech segment data is delivered from the pitch conversion means 653. As shown in FIG. 5, in this devoicing conversion process, first, a process (step SA010) of writing and storing the speech element data delivered from the pitch converting means 653 to a predetermined area in the
次いで、無声化変換手段654は、ステップSA010にてRAM7に書き込んだ音声素片データの各フレームについて、無声化係数wが0であるか否かを判定し(ステップSA020)、その判定結果が“Yes”である場合には、ステップSA060の処理を実行する。逆に、ステップSA020の判定結果が“Noである場合には、無声化変換手段654は、その無声化係数wに対応するフレームデータの表すフレーム(以下、処理対象フレーム)の波形のスペクトルエンベロープと無声化テンプレート63の示す波形のスペクトルとから、母音を無声化した波形(以下、無声化波形)を生成する処理を以下の数1および数2にしたがって実行する(ステップSA030)。
数1は、処理対象フレームの振幅スペクトルのスペクトルエンベロープに対して施すイコライジングのEQ特性を示す式であり、この数1に示すEQ特性(周波数ωと振幅Eの関数関係)のスペクトルエンベロープは、図6(A)にて点線で示すグラフにより表される。この数1において、E0、E1、f0、f1およびf2は上記EQ特性を規定するパラメータであり、実験等により好適な値を定めるようにすれば良い。ここで、処理対象フレームの振幅スペクトルのスペクトルエンベロープに対して上記イコライジングを施すのは、無声化テンプレート63の示す振幅スペクトルとの馴染みを良くするためである。一方、数2において、S(ω)は処理対象フレームの振幅スペクトルのスペクトルエンベロープであり、T(ω)は無声化テンプレート63の示す波形の振幅スペクトル、E(ω)はEQ特性の振幅スペクトル(数1参照)のスペクトルエンベロープである。この数2に従って算出されるW(ω)が上記無声化波形の振幅スペクトルを表すのである。この数2を参照すれば明らかなように、無声化波形は、無声化テンプレート63の示す波形を、無声化対象の音声素片データの示す波形のスペクトルエンベロープと同様なスペクトルエンベロープを有する波形に加工することで生成される。
Equation (1) is an equation showing the EQ characteristic of equalization applied to the spectral envelope of the amplitude spectrum of the processing target frame. The spectral envelope of the EQ characteristic (function relationship between frequency ω and amplitude E) shown in Equation (1) is shown in FIG. It is represented by a graph indicated by a dotted line at 6 (A). In Equation 1, E 0 , E 1 , f 0 , f 1, and f 2 are parameters that define the above-described EQ characteristics, and may be set to suitable values through experiments or the like. Here, the equalization is performed on the spectral envelope of the amplitude spectrum of the processing target frame in order to improve the familiarity with the amplitude spectrum indicated by the
図6(B)では、無声化テンプレート63の振幅スペクトルT(ω)が太線で描画されており、無声化波形の振幅スペクトルW(ω)が細線で描画されている。なお、図6(B)において点線は、無声化変換後の対象フレームの振幅スペクトルW(ω)のスペクトルエンベロープ(すなわち、E(ω)+S(ω))である。一般に、音の音色はその音の振幅スペクトルのスペクトルエンベロープで定まり、その音が有声音であるのか無声音であるのかはその音の振幅スペクトルのスペクトル構造で定まる。数2に従って演算される振幅スペクトルW(ω)は、そのスペクトルエンベロープは[u]の音のスペクトルエンベロープ(S(ω))に近似し、そのスペクトル構造は無声化テンプレート63の示すスペクトル構造(T(ω)のスペクトル構造)に略等しい。したがって、振幅スペクトルW(ω)は、無声化された母音[u_0]の音を表すのである。
In FIG. 6B, the amplitude spectrum T (ω) of the
次いで、CPU1は、ステップSA030の処理により得られた振幅スペクトルW(ω)と、処理対象フレームの元々の振幅スペクトルP(ω)とを、数3にしたがってミキシングし(ステップSA040)、RAM7に格納されている音声素片データに含まれるフレームデータのうち、この処理対象フレームに該当するものを、数3の演算結果M(ω)を示すフレームデータで置き換える(ステップSA050)。このようなミキシングを行うのは、無声化母音を含む音声素片と無声化母音を含まない音声素片のつなぎ目で不連続が生じないようにするためである。
以降、CPU1は、RAM7に格納されている音声素片データに含まれる全てのフレームデータについて処理を完了したか否かを判定し(ステップSA060)、その判定結果が“No”である場合には、ステップSA020以降の処理を繰り返し実行する。逆に、ステップSA060の判定結果が“Yes”である場合は、CPU1は、RAM7に格納されている音声素片データを素片連結手段655に出力し(ステップSA070)、この音声素片データに対応する音声素片についての無声化変換処理を終了する。
Thereafter, the CPU 1 determines whether or not the processing has been completed for all the frame data included in the speech segment data stored in the RAM 7 (step SA060), and if the determination result is “No”. The processes after step SA020 are repeatedly executed. Conversely, if the determination result in step SA060 is “Yes”, the CPU 1 outputs the speech segment data stored in the
そして、素片連結手段655は、最終的に得られる歌唱音声が一連の音声素片が滑らかに繋がったものとなるように、無声化変換手段654の処理を経た音声素片データに含まれている波形データの調整を行い、この調整後の波形データをIFFT(逆高速フーリエ変換)により時間領域のデジタル音声信号に変換してサウンドシステム8に出力する。
Then, the segment connecting means 655 is included in the speech unit data that has undergone the process of the devoicing conversion means 654 so that the finally obtained singing voice is smoothly connected with a series of speech segments. The adjusted waveform data is converted into a time-domain digital audio signal by IFFT (Inverse Fast Fourier Transform) and output to the
以上説明したように本実施形態に係る歌唱合成装置によれば、無声化母音を含む音声素片の音声素片データが音声素片データベース64に格納されていなくても、特許文献1等に開示された従来の素片接続方式の歌唱合成と同様に自然な歌唱音声を合成することができる。つまり、本実施形態によれば、無声化母音を含む音声素片の分だけデータベース化する音声素片の数を削減しつつ、自然な歌唱音声の合成を行うことが可能になる。
As described above, according to the singing voice synthesizing apparatus according to the present embodiment, even if the speech unit data of the speech unit including the unvoiced vowel is not stored in the
以上、本発明の一実施形態について説明したが、この実施形態を以下のように変形しても勿論良い。
(1)上述した実施形態では、音声合成の対象言語の母音のうちの何れか1つについて無音化テンプレート63をフラッシュメモリ6に格納しておいたが、対象言語の全ての母音についての無音化テンプレートをフラッシュメモリ6に格納しておいても良く、また、それら母音のうちから任意に選択した複数のものについての無音化テンプレートをフラッシュメモリ6に格納しておいても良い。つまり、音声合成の対象言語の母音の一部または全てについて無音化テンプレートがフラッシュメモリ6に格納されていれば良い。このように、音声合成の対象言語の母音の一部または全てについて無音化テンプレートがフラッシュメモリ6に格納されている態様においては、以下の要領でより自然な音声合成を行うことが可能になる。すなわち、無音化変換するべき音声素片に含まれている母音について、該当する無音化テンプレートがフラッシュメモリ6に格納されている場合には、その無音化テンプレートを用いて無音化変換を行い、該当するものがない場合には、フラッシュメモリ6に格納されている無音化テンプレートのうち、音響的な特徴がその無音化対象の母音に最も近い母音のものを用いて無音化変換処理を行うのである。例えば、フラッシュメモリ6に、母音[a]、[i]および[u]についての無音化テンプレートが格納されている場合には、これら3つの母音については各々に対応する無音化テンプレートを用いて無音化変換を行い、母音[e]および[o]については、これら3つの無音化テンプレートのうち音響的な特徴が最も近いものを用いて無音化変換を行えば良い。
Although one embodiment of the present invention has been described above, the present embodiment may of course be modified as follows.
(1) In the embodiment described above, the silencing
(2)上述した実施形態では、無声化母音を含む音声素片の音声素片データを無声化変換手段654による無声化変換処理で合成することで、当該音声素片のデータベース化を不要にした。しかし、無声化母音を含む音声素片をデータベース化の対象とし、有声発音される同母音を含む音声素片をデータベース化の対象から除外しても良い。このように、無声化母音を含む音声素片をデータベース化の対象とする態様においては、ある母音(例えば、“a”)を有声発音した場合の波形を示すデータである有声化テンプレートを無声化テンプレート63に換えてフラッシュメモリ6に格納しておき、この有声化テンプレートの示す波形と無声化母音を含む音声素片の波形の振幅スペクトルのスペクトルエンベロープとから、当該有声発音される母音を含む音声素片の波形を示す音声素片データを生成するようにすれば良い。具体的には、無声化変換手段654に代えて、有声化テンプレートの示す波形を無声化母音を含む音声素片の波形のスペクトルエンベロープと同様なスペクトルエンベロープを有する波形に加工し、当該無声化母音を含む音声素片の音声素片データを当該加工後の波形を示す音声素片データに変換して出力する有声化変換手段を設けて歌唱合成装置を構成すれば良い。なお、無声化母音を含む音声素片と、有声発音された同母音を含む音声素片の何れをデータベース化の対象とするのかについては、音声合成の対象言語との関係で定めれば良い。有声発音された同母音を含む音声素片の出現頻度が高い言語の場合には、同音声素片を音声素片データベースの格納対象にするほうが好ましく、逆に、無声化母音を含む音声素片の出現頻度が高い言語の場合には、同音声素片を格納対象とするほうが好ましい。
(2) In the above-described embodiment, by synthesizing the speech unit data of the speech unit including the unvoiced vowel by the unvoiced conversion process by the
(3)上述した実施形態では、無声化母音を含む音声素片と母音を無声化しない音声素片とが隣接する場合、無声化係数トラックにフレーム単位で0から1までの何れかの無声化係数をセットして、無声化変換を施した音と無声化変換を施さない音とをクロスフェードさせたが、有声から無声への切り換り或いは無声から有声への切り換りの音の立ち上がりを明瞭にするため、上記クロスフェードを行う期間の長さに最大値を設定しても良い。ここで、ユーザが操作部4等の操作により無声化係数トラックを入力する態様においては、ユーザが入力した無声化係数トラックにて指定されているクロスフェード期間が上記最大値よりも長いといった事態が起こり得る。このようにユーザにより指定されたクロスフェード期間が上記最大値よりも長い場合には、クロスフェードの開始時刻は変えず、クロスフェードの終了時刻が早まるように、クロスフェード期間を切り詰めるようにすれば良い。また、ユーザに無声化係数トラックを入力させる態様においては、クロスフェード期間の長さに最小値を予め定めておき、その最小値よりも短いクロスフェード期間が指定された場合には、そのクロスフェード期間が上記最小値になるように、その開始時刻または終了時刻の何れか一方を調整するようにすれば良い。これはクロスフェード期間が短すぎると、無声化母音を含む音声素片と母音を無声化しない音声素片のつなぎ目でノイズが発生する虞があるからである。 (3) In the above-described embodiment, when a speech unit including a devoicing vowel is adjacent to a speech unit that does not devoicize the vowel, any one of 0 to 1 is devoted to the devoicing coefficient track in units of frames. A coefficient is set, and the sound that has undergone devoicing conversion and the sound that has not undergone devoicing conversion have been cross-faded, but the rise of the voice that switches from voiced to unvoiced or voiceless to voiced In order to clarify the above, a maximum value may be set for the length of the period in which the crossfade is performed. Here, in the aspect in which the user inputs the devoicing coefficient track by operating the operation unit 4 or the like, there is a situation in which the crossfade period specified in the devoicing coefficient track input by the user is longer than the maximum value. Can happen. If the crossfade period specified by the user is longer than the maximum value, the crossfade start time is not changed and the crossfade period is shortened so that the crossfade end time is advanced. good. Further, in the aspect in which the user inputs the devoicing coefficient track, a minimum value is set in advance for the length of the crossfade period, and when a crossfade period shorter than the minimum value is designated, the crossfade period is specified. Either the start time or the end time may be adjusted so that the period becomes the minimum value. This is because if the cross-fade period is too short, noise may occur at the joint between a speech unit containing a devoicing vowel and a speech unit that does not devoicize the vowel.
(4)ピッチデータトラック662については、上記実施形態に挙げたもの以外の方法により音符の切り換り部分のピッチに動きを与えても良い。例えばユーザが操作部4の操作によりピッチに動きを与える構成でも良い。
(4) For the
(5)上述した実施形態では、仮名入力と音声記号入力の何れによっても歌詞の入力ができるようにしたが、例えば、仮名入力で歌詞が入力された場合には、常に母音の無声化を行わない態様で歌唱合成を行い、音声記号入力で歌詞が入力された場合には、その入力内容に応じて母音の無声化の有無を制御するようにしても良い。また、仮名入力の場合も音声記号入力の場合と同様に、制御文字(_0)を付与してその旨を指示するようにしても良い。例えば、母音を無声化した「す」の音声を合成する場合には、「す_0」と入力するようにすれば良い。 (5) In the embodiment described above, lyrics can be input by either kana input or phonetic symbol input. For example, when lyrics are input by kana input, vowels are always devoiced. When singing is performed in a manner that does not exist and lyrics are input by phonetic symbol input, the presence or absence of vowel devoicing may be controlled according to the input content. Also, in the case of kana input, similarly to the case of phonetic symbol input, a control character (_0) may be added to instruct that effect. For example, in the case of synthesizing “su” speech in which the vowel is made unvoiced, “su_0” may be input.
(6)素片連結手段655は、周波数領域の情報である波形データ(振幅スペクトル、位相スペクトル)を時間領域の情報であるデジタル音声信号に変換した後、このデジタル音声信号を対象としてスムージング処理を行うようにしても良い。例えば、先行音声素片の最後のn個の波形データと後続音声素片の最初のn個の波形データからIFFTにより得られた時間領域のデジタル音声信号を対象としてクロスフェードを行い、最終的なデジタル音声信号としても良い。 (6) The segment connecting means 655 converts the waveform data (amplitude spectrum, phase spectrum), which is information in the frequency domain, into a digital audio signal, which is information in the time domain, and then performs a smoothing process on the digital audio signal. You may make it do. For example, the final n waveform data of the preceding speech unit and the first n waveform data of the subsequent speech unit are subjected to crossfading for the time domain digital speech signal obtained by IFFT, and the final It may be a digital audio signal.
(7)上述した実施形態では、ステップSA030の処理により得られた振幅スペクトルW(ω)と元々の振幅スペクトルP(ω)とを無声化係数wの値に応じて数3にしたがってミキシングしたが、さらに、無声化係数wの値に応じて気息音などの非調和成分の音を付与するようにしても良い。具体的には、気息音をどの程度付与するのかを示す気息音係数b(0から1の小数値)に代えて、以下の数4にしたがって算出される値b´を気息音係数として用いるようにすれば良い。
(8)音声合成指示は、音声合成パラメータの時系列情報であれば良く、1曲分に限らず、曲の1部分についての時系列情報でも良い。 (8) The voice synthesis instruction may be time series information of the voice synthesis parameter, and is not limited to one piece of music, but may be time series information about one part of the piece of music.
(9)上述した実施形態では、音声合成の素材となる各音声素片の音声素片データの集合からなる音声素片データベース64が歌唱合成装置のフラッシュメモリ6に格納されていた。しかし、上記音声素片データベース64をSDメモリやUMDなどのコンピュータ装置読取可能な記録媒体に書き込んで流通させ、これら記録媒体に格納されている音声素片データベース64へのインタフェース群5経由でのアクセスにより、音声合成指示660にて指定された音声素片に対応する音声素片データを読み出す処理をCPU1に実行させても良い。このような態様においては、歌唱合成装置が備える記憶装置の記憶容量の大小が問題となることはない。しかし、一般にUMDやSDメモリの記憶容量はハードディスク等に比較して小さいため、上記実施形態にて説明した手法により、データベース化する音声素片の数を削減することには十分な意義がある。
(9) In the above-described embodiment, the
(10)上述した実施形態では、歌唱音声(すなわち、曲に合わせて歌唱する音声)の合成に本発明を適用したが、発話音声など歌唱音声以外の音声の合成に本発明を適用しても勿論良い。発話音声の合成の場合においても、音声の合成に用いる複数の音声素片を指定する情報を時系列化した音声合成指示を生成する処理を音声合成指示生成手段651に実行させ、素片選択手段652から出力される各音声素片データに対してピッチ変換手段653によるピッチ変換を施し、ピッチ変換後の音声素片データに対して無声化変換手段654による無声化変換処理を施した後に、各音声素片データに含まれる波形データを調整しつつ連結して出力する処理を素片連結手段655に実行させるようにすれば良い。
(10) In the above-described embodiment, the present invention is applied to synthesis of singing voice (that is, voice sung in accordance with a song). However, even if the present invention is applied to synthesis of voice other than singing voice such as speech voice. Of course it is good. Even in the case of speech synthesis, the speech synthesis
(11)上述した実施形態では、音声合成プログラム65にしたがってCPU1を作動させることにより、そのCPU1を、音声合成指示生成手段651、素片選択手段652、ピッチ変換手段653、無声化変換手段654および素片連結手段655として機能させた。しかしながら、インタフェース群5のうちの適当なものを介して他の装置から音声合成指示660が与えられる態様においては、CPU1を音声合成指示生成手段651として機能させる必要はない。また、合成音声を構成する音声素片毎にピッチの指定を行わない態様においては、CPU1をピッチ変換手段653として機能させる必要はない。つまり、本発明に特徴的な音声合成を実現するには、音声合成指示生成手段651およびピッチ変換手段653は必ずしも必須ではなく、素片選択手段652、無声化変換手段654および素片連結手段655としてCPU1を機能させることができれば良い。
(11) In the above-described embodiment, by operating the CPU 1 in accordance with the
1…CPU、2…ROM、3…表示部、4…操作部、5…インタフェース群、6…フラッシュメモリ、61…曲編集プログラム、62…曲データ、63…無声化テンプレート、64…音声素片データベース、65…音声合成プログラム、651…音声合成指示生成手段、652…素片選択手段、653…ピッチ変換手段、654…無声化変換手段、655…素片連結手段、7…RAM。 DESCRIPTION OF SYMBOLS 1 ... CPU, 2 ... ROM, 3 ... Display part, 4 ... Operation part, 5 ... Interface group, 6 ... Flash memory, 61 ... Song edit program, 62 ... Song data, 63 ... Silent template, 64 ... Speech unit Database, 65 ... voice synthesis program, 651 ... voice synthesis instruction generation means, 652 ... segment selection means, 653 ... pitch conversion means, 654 ... devoice conversion means, 655 ... segment connection means, 7 ... RAM.
Claims (6)
音声合成の対象言語の母音の全部または一部について、無声発音の波形を表す無声化テンプレートが母音毎に格納されている記憶手段と、
音声の合成に用いる音声素片に対応する音声素片データを前記音声素片データベースから選択する手段であって、無声化された母音を含む音声素片が音声合成に用いられる場合には、当該母音を有声化した音声素片の音声素片データを前記音声素片データベースから選択する素片選択手段と、
前記素片選択手段により選択される音声素片データが無声化された母音を含む音声素片に対して選択されたものである場合には、何れかの無声化テンプレートが示す波形を当該音声素片データの示す波形のスペクトルエンベロープと同様なスペクトルエンベロープを有する波形に加工し、当該音声素片データを当該加工後の波形を示す音声素片データに変換して出力する一方、他の音声素片に対して選択されたものである場合には、そのまま出力する無声化変換手段と、
前記無声化変換手段から出力される各音声素片データに含まれる波形データを調整しつつ連結して出力する素片連結手段と
を有することを特徴とする音声合成装置。 A speech unit database in which speech unit data including waveform data indicating waveforms of various speech units is stored;
A storage means in which a devoicing template representing a waveform of unvoiced pronunciation is stored for each vowel for all or part of the vowels of the target language for speech synthesis;
A means for selecting speech unit data corresponding to a speech unit used for speech synthesis from the speech unit database, and when a speech unit including a devoted vowel is used for speech synthesis, Unit selection means for selecting speech unit data of a speech unit obtained by voicing a vowel from the speech unit database;
When the speech unit data selected by the unit selection unit is selected for a speech unit including a vowel that has been devoted, the waveform indicated by any of the unvoiced templates is represented by the speech unit data. Processed into a waveform having a spectrum envelope similar to the spectral envelope of the waveform indicated by the piece data, and converted the speech unit data into speech unit data indicating the processed waveform and output the other speech unit If it is selected for the unvoiced conversion means to output as it is,
A speech synthesizer comprising: a unit linking unit configured to link and output waveform data included in each speech unit data output from the devoicing conversion unit.
音声合成の対象言語の母音の全部または一部について、有声発音の波形を示す有声化テンプレートが母音毎に格納されている記憶手段と、
音声の合成に用いる音声素片に対応する音声素片データを前記音声素片データベースから選択する手段であって、有声発音される母音を含む音声素片が音声合成に用いられる場合には、当該母音を無声化した音声素片の音声素片データを前記音声素片データベースから選択する素片選択手段と、
前記素片選択手段により選択される音声素片データが有声発音される母音を含む音声素片に対して選択されたものである場合には、何れかの有声化テンプレートが示す波形を当該音声素片データの示す波形のスペクトルエンベロープと同様なスペクトルエンベロープを有する波形に加工し、当該音声素片データを当該加工後の波形を示す音声素片データに変換して出力する一方、他の音声素片に対して選択されたものである場合には、そのまま出力する有声化変換手段と、
前記有声化変換手段から出力される各音声素片データに含まれる波形データを調整しつつ連結して出力する素片連結手段と
を有することを特徴とする音声合成装置。 A speech unit database in which speech unit data including waveform data indicating waveforms of various speech units is stored;
Storage means for storing, for each vowel, a voicing template showing a waveform of voiced pronunciation for all or part of the vowels of the target language for speech synthesis;
A means for selecting speech unit data corresponding to a speech unit used for speech synthesis from the speech unit database, and when a speech unit including a vowel that is voiced is used for speech synthesis, Unit selection means for selecting speech unit data of a speech unit from which vowels are made unvoiced from the speech unit database;
When the speech unit data selected by the unit selection unit is selected for a speech unit including a vowel that is voiced, the waveform indicated by any of the voiced templates is represented by the speech unit. Processed into a waveform having a spectrum envelope similar to the spectral envelope of the waveform indicated by the piece data, and converted the speech unit data into speech unit data indicating the processed waveform and output the other speech unit Voicing conversion means for outputting as it is,
A speech synthesizer, comprising: a unit linking unit that connects and outputs waveform data included in each speech unit data output from the voicing conversion unit.
各種の音声素片の波形を示す波形データを含む音声素片データが格納されている音声素片データベースから、音声の合成に用いる音声素片に対応する音声素片データを選択する手段であって、無声化された母音を含む音声素片が音声合成に用いられる場合には、当該母音を有声化した音声素片の音声素片データを前記音声素片データベースから選択する素片選択手段と、
前記素片選択手段により選択される音声素片データが無声化された母音を含む音声素片に対して選択されたものである場合には、音声合成の対象言語の母音のうちの何れかの無声発音の波形を当該音声素片データの示す波形のスペクトルエンベロープと同様なスペクトルエンベロープを有する波形に加工し、当該音声素片データを当該加工後の波形を示す音声素片データに変換して出力する一方、他の音声素片に対して選択されたものである場合には、そのまま出力する無声化変換手段と、
前記無声化変換手段から出力される各音声素片データに含まれる波形データを調整しつつ連結して出力する素片連結手段と
として機能させることを特徴とするプログラム。 Computer equipment,
Means for selecting speech unit data corresponding to a speech unit used for speech synthesis from a speech unit database storing speech unit data including waveform data indicating waveforms of various speech units; When a speech unit including a devoted vowel is used for speech synthesis, a unit selection unit that selects speech unit data of a speech unit obtained by voicing the vowel from the speech unit database;
If the speech unit data selected by the unit selection means is selected for a speech unit including a devoted vowel, one of the vowels of the target language for speech synthesis Processes unvoiced sound waveform into a waveform having a spectrum envelope similar to the spectrum envelope of the speech segment data, converts the speech segment data into speech segment data representing the processed waveform, and outputs it On the other hand, if it is selected for another speech unit, the devoicing conversion means for outputting it as it is,
A program which functions as segment connecting means for connecting and outputting waveform data contained in each speech unit data output from the devoicing conversion means while adjusting.
各種の音声素片の波形を示す波形データを含む音声素片データが格納されている音声素片データベースから、音声の合成に用いる音声素片に対応する音声素片データを選択する手段であって、有声発音される母音を含む音声素片が音声合成に用いられる場合には、当該母音を無声化した音声素片の音声素片データを前記音声素片データベースから選択する素片選択手段と、
前記素片選択手段により選択される音声素片データが有声発音される母音を含む音声素片に対して選択されたものである場合には、音声合成の対象言語の母音のうちの何れかの有声発音の波形を当該音声素片データの示す波形のスペクトルエンベロープと同様なスペクトルエンベロープを有する波形に加工し、当該音声素片データを当該加工後の波形を示す音声素片データに変換して出力する一方、他の音声素片に対して選択されたものである場合には、そのまま出力する有声化変換手段と、
前記有声化変換手段から出力される各音声素片データに含まれる波形データを調整しつつ連結して出力する素片連結手段
として機能させることを特徴とするプログラム。
Computer equipment,
Means for selecting speech unit data corresponding to a speech unit used for speech synthesis from a speech unit database storing speech unit data including waveform data indicating waveforms of various speech units; When a speech unit including a vowel that is voiced is used for speech synthesis, a unit selection unit that selects speech unit data of a speech unit that is made unvoiced from the speech unit database;
If the speech segment data selected by the segment selection means is selected for a speech segment containing a vowel that is voiced, any one of the vowels of the target language for speech synthesis The voiced waveform is processed into a waveform having a spectrum envelope similar to that of the waveform indicated by the speech segment data, and the speech segment data is converted into speech segment data indicating the processed waveform and output. On the other hand, if it is selected for another speech unit, voicing conversion means for outputting as it is,
A program which functions as segment connecting means for connecting and outputting waveform data contained in each speech segment data output from the voice conversion means while adjusting.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009012300A JP5176981B2 (en) | 2009-01-22 | 2009-01-22 | Speech synthesizer and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009012300A JP5176981B2 (en) | 2009-01-22 | 2009-01-22 | Speech synthesizer and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010169889A true JP2010169889A (en) | 2010-08-05 |
JP5176981B2 JP5176981B2 (en) | 2013-04-03 |
Family
ID=42702115
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009012300A Expired - Fee Related JP5176981B2 (en) | 2009-01-22 | 2009-01-22 | Speech synthesizer and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5176981B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2530671A2 (en) | 2011-05-30 | 2012-12-05 | Yamaha Corporation | Voice synthesis apparatus |
JP2014010190A (en) * | 2012-06-27 | 2014-01-20 | Yamaha Corp | Device and program for synthesizing singing |
JP2016118712A (en) * | 2014-12-22 | 2016-06-30 | ヤマハ株式会社 | Voice synthesis library generation device and voice synthesis device |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61270800A (en) * | 1985-05-27 | 1986-12-01 | 松下電器産業株式会社 | Voiceless sound synthesization |
JPH01216399A (en) * | 1988-02-25 | 1989-08-30 | Toshiba Corp | Voice synthesizing device |
JPH09325788A (en) * | 1996-06-05 | 1997-12-16 | Toshiba Corp | Device and method for voice synthesis |
JP2006017946A (en) * | 2004-06-30 | 2006-01-19 | Yamaha Corp | Speech processing apparatus and program |
JP2007240564A (en) * | 2006-03-04 | 2007-09-20 | Yamaha Corp | Singing synthesis device and program |
-
2009
- 2009-01-22 JP JP2009012300A patent/JP5176981B2/en not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61270800A (en) * | 1985-05-27 | 1986-12-01 | 松下電器産業株式会社 | Voiceless sound synthesization |
JPH01216399A (en) * | 1988-02-25 | 1989-08-30 | Toshiba Corp | Voice synthesizing device |
JPH09325788A (en) * | 1996-06-05 | 1997-12-16 | Toshiba Corp | Device and method for voice synthesis |
JP2006017946A (en) * | 2004-06-30 | 2006-01-19 | Yamaha Corp | Speech processing apparatus and program |
JP2007240564A (en) * | 2006-03-04 | 2007-09-20 | Yamaha Corp | Singing synthesis device and program |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2530671A2 (en) | 2011-05-30 | 2012-12-05 | Yamaha Corporation | Voice synthesis apparatus |
CN102810309A (en) * | 2011-05-30 | 2012-12-05 | 雅马哈株式会社 | Voice synthesis apparatus |
US8996378B2 (en) | 2011-05-30 | 2015-03-31 | Yamaha Corporation | Voice synthesis apparatus |
JP2014010190A (en) * | 2012-06-27 | 2014-01-20 | Yamaha Corp | Device and program for synthesizing singing |
US9489938B2 (en) | 2012-06-27 | 2016-11-08 | Yamaha Corporation | Sound synthesis method and sound synthesis apparatus |
JP2016118712A (en) * | 2014-12-22 | 2016-06-30 | ヤマハ株式会社 | Voice synthesis library generation device and voice synthesis device |
Also Published As
Publication number | Publication date |
---|---|
JP5176981B2 (en) | 2013-04-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109584910B (en) | Method and apparatus for assisting editing of singing audio | |
CN110634460A (en) | Electronic musical instrument, control method for electronic musical instrument, and storage medium | |
JP4839891B2 (en) | Singing composition device and singing composition program | |
CN110634464A (en) | Electronic musical instrument, control method for electronic musical instrument, and storage medium | |
US10354629B2 (en) | Sound control device, sound control method, and sound control program | |
JP6729539B2 (en) | Speech synthesis method, speech synthesis system and program | |
US20210295819A1 (en) | Electronic musical instrument and control method for electronic musical instrument | |
JP6507579B2 (en) | Speech synthesis method | |
JP2006030575A (en) | Speech synthesizing device and program | |
US20210193098A1 (en) | Electronic musical instruments, method and storage media | |
CN111696498A (en) | Keyboard musical instrument and computer-implemented method of keyboard musical instrument | |
Bonada et al. | Singing voice synthesis combining excitation plus resonance and sinusoidal plus residual models | |
JP5176981B2 (en) | Speech synthesizer and program | |
JP5157922B2 (en) | Speech synthesizer and program | |
JP6179221B2 (en) | Sound processing apparatus and sound processing method | |
JP6044284B2 (en) | Speech synthesizer | |
JP6255744B2 (en) | Music display device and music display method | |
JP2009157220A (en) | Voice editing composite system, voice editing composite program, and voice editing composite method | |
WO2020217801A1 (en) | Audio information playback method and device, audio information generation method and device, and program | |
JP2014098802A (en) | Voice synthesizing apparatus | |
WO2019239971A1 (en) | Information processing method, information processing device and program | |
JP5552797B2 (en) | Speech synthesis apparatus and speech synthesis method | |
Bonada et al. | Sample-based singing voice synthesizer using spectral models and source-filter decomposition | |
JP2020166298A (en) | Voice synthesis method | |
JP2004004440A (en) | Song synthesizer, program for synthesizing song, and computer readable recording medium in which program for synthesizing song is recorded |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111121 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121130 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121211 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121224 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5176981 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |